国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)LDA 模型的短文本聚類方法

2021-09-28 11:22俞衛(wèi)國(guó)
軟件導(dǎo)刊 2021年9期
關(guān)鍵詞:詞項(xiàng)短文文檔

孫 紅,俞衛(wèi)國(guó)

(1.上海理工大學(xué)光電信息與計(jì)算機(jī)工程學(xué)院;2.上?,F(xiàn)代光學(xué)系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,上海 200093)

0 引言

聚類是一種無(wú)監(jiān)督的機(jī)器學(xué)習(xí)方法,文本聚類是依靠文檔特征將文本聚集為文檔簇。隨著互聯(lián)網(wǎng)及信息技術(shù)的飛速發(fā)展,社區(qū)平臺(tái)Twitter、新浪微博等普及,短文本呈爆炸式增長(zhǎng),對(duì)短文本聚類預(yù)處理具有重要價(jià)值。不同于傳統(tǒng)媒體平臺(tái)的文本信息,短文本具有以下特點(diǎn):更新快速,存在大量不規(guī)范用語(yǔ),吸收新詞匯多,數(shù)據(jù)具有稀疏性,這給短文本聚類增加了難度。

常用的文本聚類算法通過(guò)計(jì)算文本的相似度信息,如VSM(Vector Space Model)模型,通過(guò)計(jì)算空間向量之間的余弦值來(lái)衡量文本的相似度。目前文本聚類主要應(yīng)用有文本分類、文本可視化、搜索引擎聚類、信息推薦等。

20 世紀(jì)中后期,Gerard 等[1]提出VSM 空間向量模型并成功應(yīng)用,但這種模型在計(jì)算空間相似度時(shí)計(jì)算量比較大,而且沒(méi)有考慮詞與詞之間的內(nèi)部聯(lián)系。主題模型(Top?ic Model)考慮了詞語(yǔ)與主題之間的內(nèi)部聯(lián)系,劉金亮[2]提出了一種改進(jìn)的LDA(Latent Dirichletalloc Allocation)主題模型,使得LDA 模型的主題分布向高頻詞傾斜,導(dǎo)致能夠代表主題的多數(shù)詞被少量的高頻詞淹沒(méi),使主題表達(dá)能力降低;汪進(jìn)祥[3]提出一種基于主題模型的微博話題挖掘,結(jié)合詞性標(biāo)注進(jìn)行話題提取;張志飛等[4]基于潛在狄利克雷分配的新方法,提出基于LDA 主題模型的短文本分類方法,生成的主題不僅可以區(qū)分常用詞的上下文并降低其權(quán)重,還可以通過(guò)連接區(qū)分詞并增加其權(quán)重來(lái)減少稀疏性;張蕓[5]結(jié)合在短文本建模方面具有優(yōu)勢(shì)的BTM 主題模型對(duì)短文本進(jìn)行特征擴(kuò)展,將擴(kuò)展后的特征矩陣進(jìn)行相似度計(jì)算。

本文首先介紹了VSM(Vector Space Model)模型聚類、LTM(Lifelong Topic Modeling)模型聚類、LSA[6](Latent Se?mantic Analysis)模型聚類、PLSA[7](Probabilisticlatent Se?mantic Analysis)模型聚類,然后引出經(jīng)典模型LDA(Latent Dirichlet Allocation),介紹了LDA 模型的優(yōu)劣,最后針對(duì)經(jīng)典的LDA 模型沒(méi)有考慮到文本與主題之間的聯(lián)系問(wèn)題,提出一種具有判別學(xué)習(xí)能力的LDA-λ模型。將二項(xiàng)分布引入到LDA-λ基礎(chǔ)模型中,增加詞項(xiàng)的判別能力。最后經(jīng)過(guò)對(duì)比聚類算法實(shí)驗(yàn),證明基于判別學(xué)習(xí)能力的LDA-λ模型聚類性能比VSM 和LDA 模型顯著提高。

1 基本模型與方法

1.1 VSM

VSM 是一種空間向量模型,出現(xiàn)在20 世紀(jì)中后期,由Gerard 等[8]提出,并成功應(yīng)用于著名的SMART 文本檢索系統(tǒng)。VSM 模型簡(jiǎn)單,易于理解。它的核心思想是把需要處理的文本內(nèi)容轉(zhuǎn)化到空間向量中,并以向量運(yùn)算的方式計(jì)算語(yǔ)義的相似度。當(dāng)文本表示為空間向量時(shí),文本的相似性就可以通過(guò)計(jì)算文本空間向量的度量值表示。通常將余弦距離作為度量值來(lái)比較相似性。

假如一篇文本D1 中有a、b、c、d、e 五個(gè)特征項(xiàng),權(quán)值分別為30、20、20、10、10,文本D2 中有a、c、d、e、f 五個(gè)特征向量,權(quán)值分別為30、30、20、10、10,則對(duì)應(yīng)文檔D(D1,D2)的總體特征為(a,b,c,d,e,f),D1 的向量表示為D1(30,20,20,10,10),D2 的向量表示為D2(30,30,20,10,10),根據(jù)夾角余弦公式:

計(jì)算文本D1 與D2 的相似度是0.92。

從上述描述與計(jì)算可知VSM 模型用于聚類時(shí)的缺點(diǎn):①在計(jì)算相似度時(shí),相似度計(jì)算量較大,每次有新的文檔加入時(shí)必須重新計(jì)算詞的權(quán)值;②沒(méi)有考慮到詞與詞之間的聯(lián)系,語(yǔ)義相同但是使用不同詞語(yǔ)的特征詞沒(méi)有關(guān)聯(lián)起來(lái)。

1.2 LTM 模型

主題模型[9](Topic Model)是用在大量文檔中發(fā)現(xiàn)一種潛在主題的統(tǒng)計(jì)模型。與上述VSM 模型相反,主題模型考慮被處理文檔的語(yǔ)義信息以及與各個(gè)主題之間聯(lián)系,并將文本到詞項(xiàng)的分布轉(zhuǎn)化為文檔與主題之間的分布,有效降低了特征維度,利于短文本處理,但在提高性能的同時(shí)犧牲了時(shí)間。在主題模型中,假如一篇文章有一個(gè)中心思想,那么關(guān)于中心思想的詞語(yǔ)就會(huì)頻繁出現(xiàn)。在現(xiàn)實(shí)中一個(gè)文檔通常包含多個(gè)主題,并且每個(gè)主題所占的比例各不相同,那么這些主題相關(guān)關(guān)鍵字出現(xiàn)的頻率就與這些主題所占比例有關(guān)。

主題模型的特點(diǎn)是能夠自動(dòng)分析文檔,統(tǒng)計(jì)文檔中的單詞時(shí)不需要考慮他們出現(xiàn)的順序,根據(jù)統(tǒng)計(jì)出的信息判斷文檔中的主題以及各個(gè)主題所占的比例。

傳統(tǒng)主題模型基本都是一種完全無(wú)監(jiān)督模型,會(huì)產(chǎn)生許多不符合邏輯的Topic,針對(duì)該問(wèn)題學(xué)者提出了許多關(guān)于先驗(yàn)知識(shí)的主題模型。本文的LTM 主題模型不需要任何用戶輸入就能從大量主題中自動(dòng)地和動(dòng)態(tài)地挖掘先驗(yàn)知識(shí),這就是Lifelong 思想。

Lifelong 思想假設(shè):?jiǎn)栴}:如何找到先驗(yàn)知識(shí)并利用它完成新的主題建模任務(wù)?

數(shù)據(jù):情緒分析背景下的產(chǎn)品評(píng)論。

算法如下:

(1)先驗(yàn)topic 的生成,或者稱為proir-topic。給定來(lái)自n 個(gè)領(lǐng)域的一個(gè)文檔集合D={D1,…,Dn},使用Algorithm 1 PriorTopicsGenenration(D)對(duì)每個(gè)領(lǐng)域的文檔Di(Di∈D)運(yùn)行算法,生成所有topic 的集合S,稱這個(gè)S 為proir-topic 集合。這些proir-topic 后續(xù)會(huì)用在LTM 模型上作為先驗(yàn)知識(shí)。S 中的proir-topic 可以通過(guò)迭代來(lái)改善。上一輪迭代中的S 可以通過(guò)下一輪的LTM 過(guò)程從D 中生成更好的top?ic。LTM 從第二輪開(kāi)始使用。

(2)測(cè)試文檔topic 的生成,或者稱為test-topic。給定一個(gè)測(cè)試文檔集合D(t)和第(1)步生成的proir-topics 集合S,利用Algorithm2(LTM)生成topics。區(qū)別第(1)步的topic稱為test-topics。注意測(cè)試文檔D(t)可以來(lái)自于D 或者新領(lǐng)域的一個(gè)文檔集合。LTM 算法偽代碼如下:

以上過(guò)程很自然地用上了Lifelong learning 思想。S 是系統(tǒng)生成的一個(gè)知識(shí)庫(kù)(proir-topic),而LTM 是學(xué)習(xí)算法。給定一個(gè)新的學(xué)習(xí)任務(wù)G(如主題建模)和它的數(shù)據(jù)(如Da?ta),lifelong learning 可以分為兩個(gè)階段:①Learning with pri?or knowledge。這對(duì)第(2)步至關(guān)重要,它需要解決兩個(gè)子問(wèn)題(第(1)步是初始化)。②知識(shí)的保留和合并。如果G是一個(gè)新任務(wù)就簡(jiǎn)單地把G 的topic 加進(jìn)S 中。如果G 是一個(gè)舊任務(wù)就在S 中替換其topics。

LTM 模型主要包括潛在語(yǔ)義分析LSA(Latent Semantic Analysis)、概率潛在語(yǔ)義分析PLSA(Probability Latent Se?mantic Analysis)和潛在迪里克雷分布LDA(Latent Dirichlet Allocation),3 個(gè)模型分別描述如下。

1.2.1 LSA

在某些情況下,LSA 又稱作潛在語(yǔ)義索引(LSI),是一種非常有效的文本建模方法。正如其名稱,該方法意在分析文本語(yǔ)料所包含的潛在語(yǔ)義,然后將單詞和文檔映射到該語(yǔ)義空間。LSA 以矩陣奇異值分解(SVD)為基礎(chǔ),在了解LSA 之前,需要先對(duì)奇異值分解[10]進(jìn)行簡(jiǎn)單介紹。

一個(gè)矩陣代表一個(gè)線性變換(旋轉(zhuǎn),拉伸),可將一個(gè)線性變換過(guò)程分解多個(gè)子過(guò)程,矩陣奇異值分解就是將矩陣分解成若干個(gè)秩與矩陣的和。

其中,σi是奇異值,是秩為的矩陣,表示一個(gè)線性變換子過(guò)程。奇異值σi反映了該子過(guò)程在該線性變換A 中的重要程度。對(duì)式(2)進(jìn)行整理,將奇異值分解過(guò)程表示如下:

其中,U 是左奇異向量構(gòu)成的矩陣,兩兩相互正交,S 是奇異值構(gòu)成的對(duì)角矩陣,VT是右奇異向量構(gòu)成的矩陣,兩兩相互正交。

奇異值分解具有如下數(shù)學(xué)性質(zhì):①一個(gè)m*n 的矩陣至多有p=min(m,n)個(gè)不同的奇異值;②矩陣的信息往往集中在較大的幾個(gè)奇異值中。

LSA 正是利用了奇異值分解的這兩個(gè)性質(zhì)將原始的單詞—文檔矩陣映射到語(yǔ)義空間。在LSA 中不再將矩陣?yán)斫獬勺儞Q,而是看作文本數(shù)據(jù)的集合。文本語(yǔ)料中所有單詞構(gòu)成矩陣的行,每一列表示一篇文檔(詞袋模型表示)。假設(shè)A 是一個(gè)m*n 的文本數(shù)據(jù)矩陣(n<

依據(jù)奇異值分解性質(zhì)①,矩陣A 可以分解出n 個(gè)特征值,然后依據(jù)性質(zhì)②選取其中較大的r 個(gè)并排序,這樣USVT就可以近似表示為矩陣AA。對(duì)于矩陣U,每一列代表一個(gè)潛語(yǔ)義,這個(gè)潛語(yǔ)義的意義由m 個(gè)單詞按不同權(quán)重組合而成。因?yàn)閁 中每一列相互獨(dú)立,所以r 個(gè)潛語(yǔ)義構(gòu)成了一個(gè)語(yǔ)義空間。SS 中每一個(gè)奇異值表示該潛語(yǔ)義的重要度。VT中每一列仍然是一篇文檔,但此時(shí)文檔被映射了語(yǔ)義空間。VT的大小遠(yuǎn)小于A。有了VT就相當(dāng)于有了矩陣A 的另外一種表示,之后就可使用VT代替A 進(jìn)行之后的工作。

Fig.1 Singular value decomposition圖1 奇異值分解

LSA 通過(guò)SVD 和低秩逼近,把原始向量空間映射到潛在語(yǔ)義空間,在潛在語(yǔ)義空間計(jì)算文檔相似性能夠解決部分一義多詞的問(wèn)題,從該層面可知LSA 優(yōu)點(diǎn)很明顯。但是低秩逼近后的矩陣中元素缺乏直觀解釋,甚至矩陣中會(huì)出現(xiàn)很多元素為負(fù)數(shù)的情況,特征向量的方向沒(méi)有對(duì)應(yīng)的物理解釋,k 的選取會(huì)對(duì)結(jié)果產(chǎn)生很大影響,且k 不是計(jì)算出來(lái)的而是一個(gè)經(jīng)驗(yàn)值,所以很難選出合理的k 值,無(wú)法對(duì)應(yīng)現(xiàn)實(shí)中的概念。

1.2.2 PLSA

盡管上述的LSA 模型取得了一定的成功,但是由于缺乏嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)統(tǒng)計(jì)基礎(chǔ),而且SVD 分解非常耗時(shí),因此Hofmann 在SIGIR1999 上提出了基于概率統(tǒng)計(jì)的PLSA 模型,并且采用EM 算法學(xué)習(xí)模型參數(shù)。PLSA 模型是最接近LDA 的模型,所以理解PLSA 模型有助于理解LDA。PLSA模型如圖2 所示。

Fig.2 PLSA model圖2 PLSA 模型

PLSA 模型數(shù)學(xué)符號(hào)如表1 所示。

Table 1 Mathematical symbols of PLSA model表1 PLSA 模型數(shù)學(xué)符號(hào)

先從文檔集合中選擇一篇文檔di,選定后從主題分布中按照概率P(zk|di)選擇一個(gè)隱含的主題類別zk;選定主題zk后從詞分布中按照概率P(wj|zk)選擇一個(gè)詞wj。

根據(jù)大量已知的文檔—詞項(xiàng)信息P(wj|di)訓(xùn)練出文檔—主題P(zk|di)和主題—詞項(xiàng)P(wj|zk),見(jiàn)式(5):

得到文檔中每個(gè)詞的生成概率為:

上述是完整的生成過(guò)程。事實(shí)上由于P(di)可事先計(jì)算求出,而P(wj|zk)、P(zk|di)未知,所以θ=(P(wj|zk),P(zk|di))就是要估計(jì)的參數(shù)值。一般要最大化這個(gè)θ,由參考文獻(xiàn)[6]求解出這兩個(gè)參數(shù)。

1.2.3 LDA 模型聚類

LDA 模型是一種文檔—主題生成模型,在2003 年由Blei 等[11]提出。LDA 模型是PLSA 模型的擴(kuò)展,它能夠在一系列文檔中分析出文檔的主題概率分布,歸屬于統(tǒng)計(jì)模型。事實(shí)上,理解了PLSA 模型也就理解了LDA 模型,因?yàn)長(zhǎng)DA就是在PLSA 的基礎(chǔ)上加上貝葉斯框架,即LDA 就是PLSA的貝葉斯版本(正因?yàn)長(zhǎng)DA 被貝葉斯化了,所以才需要考慮歷史先驗(yàn)知識(shí)加上兩個(gè)先驗(yàn)參數(shù)),LDA 模型如圖3所示。

Fig.3 LDA model圖3 LDA 模型

在LDA 模型中,一篇文檔生成方式如下:①?gòu)牡侠死追植鸡林腥由晌臋ni的主題分布θi;②從主題的多項(xiàng)式分布θi中取樣生成文檔i第j個(gè)詞的主題zij;③從迪利克雷分布β中取樣生成主題zij對(duì)應(yīng)的詞語(yǔ)分布φzij;④從詞語(yǔ)的多項(xiàng)分布φzij中采樣最終生成詞語(yǔ)Wij。

和PLSA 模型一樣,文檔到主題服從多項(xiàng)式分布,主題到詞服從多項(xiàng)式分布,是一種完全的概率生成模型。生成文檔中每個(gè)詞出現(xiàn)的概率為:

聯(lián)合概率分布公式為:

詞wi在主題z 上的分布如下:

文檔d 在主題z 上的分布如下:

經(jīng)過(guò)一系列的訓(xùn)練推導(dǎo)過(guò)程求出吉布斯采樣公式如下:

2 LDA 模型改進(jìn)

基礎(chǔ)LDA 模型未考慮詞項(xiàng)的區(qū)分程度,如果一個(gè)詞項(xiàng)在大部分主題下都以高頻出現(xiàn),那么這個(gè)詞項(xiàng)不能作為特征詞來(lái)代表主題。文本具有稀疏性,直接去除對(duì)主題沒(méi)有區(qū)分度的詞項(xiàng)會(huì)對(duì)模型產(chǎn)生一定的影響,為此提出新的模型[14],將二項(xiàng)分布引入到LDA 基礎(chǔ)模型之中,增加詞項(xiàng)的判別能力,并將其并行化。

2.1 模型改進(jìn)過(guò)程

對(duì)單詞進(jìn)行采樣,將同一個(gè)單詞隸屬于不同話題看作是相互獨(dú)立的,用γ表示詞項(xiàng)的判別能力。如果話題z 含有詞項(xiàng)w,那么γw,z=1;如果不含有w,則γw,z=0??梢钥闯?,γ是一個(gè)服從二項(xiàng)分布的參數(shù):

其中,λw代表單詞w在所有話題上的分布。本文假設(shè)λw~Beta(a,b),因?yàn)棣僚cβ參數(shù)已被使用,所以本文中用a、b參數(shù)表示貝塔分布中的參數(shù):

其中,Υ={Υw,1,Υw,2,…,Υw,K}。

可以推斷如下:如果某詞項(xiàng)w 在各個(gè)話題中均勻出現(xiàn)時(shí),λw值較大時(shí)對(duì)話題的區(qū)分程度不大;相反,如果某詞項(xiàng)w僅集中在某一個(gè)或少部分話題中出現(xiàn),則此詞項(xiàng)的λw值較小。因此,采用來(lái)表示詞項(xiàng)判別力,將更大的權(quán)重分派給判別力大的詞項(xiàng)以減小判別力小的詞對(duì)聚類的影響。使用ω∈[0,1]對(duì)ω進(jìn)行正則化表示如下:

在引入λw后,改進(jìn)LDA 的概率模型如圖4 所示。

Fig.4 Improved LDA probability model圖4 改進(jìn)后的LDA 概率模型

改進(jìn)LDA 模型采樣過(guò)程如下:

對(duì)話題分布進(jìn)行采樣:

選擇文檔話題:zd~Multi(θd);

2.2 吉布斯采樣求解

吉布斯采樣可以通過(guò)迭代對(duì)高維概率模型進(jìn)行求解,每次迭代僅僅采樣當(dāng)前維度的值,將其他維度的值固定。算法一直迭代直到收斂為止,最終輸出需要估計(jì)的參數(shù)。在LDA 算法中即輸出φ與θ。

經(jīng)過(guò)一系列推導(dǎo)變換,可以得到新模型的吉布斯采樣更新后的公式:

初始時(shí)刻,為文檔的每個(gè)詞項(xiàng)進(jìn)行主題zi的隨機(jī)分配。然后統(tǒng)計(jì)zi下的詞項(xiàng)w 的個(gè)數(shù),以及文檔i下含有主題zi中詞項(xiàng)的個(gè)數(shù)。每一輪都根據(jù)公式估計(jì)每個(gè)詞對(duì)于每個(gè)主題分配到的概率,然后用此概率分布進(jìn)行新主題采樣;同時(shí)對(duì)每個(gè)詞均采用同樣的方法進(jìn)行詞的主題更新。如果各個(gè)主題中詞項(xiàng)的分布以及訓(xùn)練文檔在各個(gè)主題下的分布更新收斂,就將模型中的參數(shù)輸出。

經(jīng)過(guò)吉布斯采樣過(guò)程后求得θ參數(shù)與φ參數(shù)的表達(dá)式:

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)爬取

選用網(wǎng)上現(xiàn)有的API 就可以方便地進(jìn)行數(shù)據(jù)分頁(yè)爬取,本文選用Jsoup 進(jìn)行數(shù)據(jù)爬取,獲取的數(shù)據(jù)源是東方財(cái)富網(wǎng)。考慮到短文本限制,在數(shù)據(jù)選取上只爬取標(biāo)題,選取對(duì)應(yīng)的標(biāo)簽,爬取約8 000 條數(shù)據(jù)。

3.2 數(shù)據(jù)預(yù)處理

爬取到的大量數(shù)據(jù)質(zhì)量差別很大,有些短文本僅僅包含兩三個(gè)無(wú)用且沒(méi)有實(shí)際意義的詞匯,這樣的低質(zhì)量數(shù)據(jù)對(duì)模型干擾很大,在數(shù)據(jù)預(yù)處理時(shí)應(yīng)將其去掉,在去除了大量低質(zhì)量數(shù)據(jù)后再選擇合適的算法。

3.3 文本分詞

在進(jìn)行特征選擇之前要對(duì)訓(xùn)練集中的每篇文檔進(jìn)行分詞,采用的分詞工具是IKAnalyzer。IKAnalyzer 是一個(gè)開(kāi)源的基于Java 語(yǔ)言開(kāi)發(fā)的輕量級(jí)中文分詞工具包。分詞結(jié)果如圖5 所示。

Fig.5 Word segmentation results圖5 分詞結(jié)果

3.4 特征選取

現(xiàn)有的特征抽?。?6]方法很多,包括信息增益IG、局部文檔頻率和全局文檔頻率,對(duì)于文本分類選用局部DF 或者IG 都能達(dá)到良好的效果。

首先根據(jù)IG 或者局部DF 完成普通的特征選取,然后經(jīng)過(guò)訓(xùn)練得到基于LDA 的隱主題模型,對(duì)隱主題對(duì)應(yīng)的高比重單詞進(jìn)行特征加強(qiáng),即對(duì)于原來(lái)特征選擇中沒(méi)有出現(xiàn)的單詞加入到LDA 主題模型中,完成LDA 拓展文本特征選取。

3.5 LDA 隱主題抽取

為了完成LDA 拓展的特征選取,先訓(xùn)練LDA 得到隱藏的主題。找到每個(gè)主題下對(duì)應(yīng)的關(guān)鍵詞項(xiàng)。LDA 模塊使用GitHub 上成熟的LdaGibbsSampler 的API 模塊。為了得到短文本的LDA 主題模型,需要將這上千條數(shù)據(jù)劃分為上千個(gè)單獨(dú)的短文本文檔。

3.6 評(píng)價(jià)指標(biāo)

本實(shí)驗(yàn)采用精確度(ACC)、歸一化互信息(NMI)和成對(duì)F 測(cè)度值(PWF)[17]作為評(píng)價(jià)指標(biāo)。精確度主要用來(lái)評(píng)價(jià)實(shí)驗(yàn)中類標(biāo)簽和真實(shí)標(biāo)簽相比預(yù)測(cè)正確的概率。歸一化互信息是評(píng)價(jià)聚類效果常用的指標(biāo),用來(lái)表示預(yù)測(cè)的實(shí)驗(yàn)結(jié)果與真實(shí)結(jié)果的相近程度。F 測(cè)度是評(píng)價(jià)分類器好壞的重要指標(biāo),是準(zhǔn)確度(precision)和召回率(recall)的調(diào)和平均值。F 測(cè)度計(jì)算公式如式(19)所示。

在本文實(shí)驗(yàn)中,所有數(shù)據(jù)集上都設(shè)置α=50/K,β=0.01,a=10,b=30。本文分別對(duì)比LDA 和改進(jìn)的LDA 以及VSM模型,實(shí)驗(yàn)結(jié)果如表2 所示。

Table 2 Clustering results表2 聚類結(jié)果

從實(shí)驗(yàn)結(jié)果可以看出,LDA 在聚類效果上比SVM 效果好,具有判別學(xué)習(xí)能力的LDA 聚類效果比基礎(chǔ)LDA 模型有很大改善。

4 結(jié)語(yǔ)

LDA 模型是一種基于概率分布的主題模型,本文對(duì)此模型進(jìn)行改進(jìn),將不同詞項(xiàng)對(duì)于不同的話題區(qū)分程度融合進(jìn)去。實(shí)驗(yàn)表明,在聚類性能方面具有判別學(xué)習(xí)能力的LDA 比基礎(chǔ)的LDA 和VSM 模型都有提高。

上述模型都屬于機(jī)器學(xué)習(xí)模型,目前流行的深度學(xué)習(xí)在處理文本方面也有許多需要提高的地方。深度學(xué)習(xí)[18]最初之所以在圖像和語(yǔ)音領(lǐng)域取得巨大成功,一個(gè)很重要的原因是圖像和語(yǔ)音的原始數(shù)據(jù)都是連續(xù)和稠密的,都有局部相關(guān)性。應(yīng)用深度學(xué)習(xí)解決大規(guī)模文本分類問(wèn)題最重要的是解決文本表示[19],再利用CNN/RNN[20]等網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)獲取特征表達(dá)能力,去掉繁雜的人工特征,端到端地解決問(wèn)題。

猜你喜歡
詞項(xiàng)短文文檔
淺談Matlab與Word文檔的應(yīng)用接口
有人一聲不吭向你扔了個(gè)文檔
KEYS
自然種類詞項(xiàng)二難、卡茨解決與二維框架
Keys
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
短文改錯(cuò)
短文改錯(cuò)
英語(yǔ)詞項(xiàng)搭配范圍及可預(yù)見(jiàn)度
开远市| 华容县| 依兰县| 新建县| 合肥市| 大兴区| 利津县| 沙雅县| 渝中区| 福州市| 两当县| 全椒县| 湖北省| 布尔津县| 海门市| 定南县| 江西省| 安远县| 平顺县| 清涧县| 五华县| 始兴县| 江山市| 阳高县| 若尔盖县| 尼木县| 泰和县| 尼勒克县| 奈曼旗| 陇南市| 郎溪县| 德江县| 法库县| 当阳市| 镇原县| 宁海县| 丹江口市| 旬阳县| 阳春市| 古丈县| 鄂州市|