李霄野,李春生,李 龍,張可佳
(東北石油大學(xué)計算機與信息技術(shù)學(xué)院,黑龍江 大慶 163318)
信息化媒體的迅速發(fā)展使得網(wǎng)絡(luò)上存在大量的新聞數(shù)據(jù),如何從這些數(shù)據(jù)中檢索到用戶需要的信息成了當今研究的熱點內(nèi)容。計算機對于中文的處理比對于西文的處理存在更大的難度,集中體現(xiàn)在對文本分類的處理上。在這種背景下,利用聚類分析技術(shù)對文本數(shù)據(jù)進行簡化處理,對檢索出的結(jié)果進行重新組織,加快信息檢索速度,實現(xiàn)信息的個性化推送都是一系列極具發(fā)展前景的應(yīng)用。文本聚類是一種無監(jiān)督的、不需要訓(xùn)練過程的、不需要預(yù)先對文檔手工標注類別的機器學(xué)習(xí)方法。這種方法具有一定的靈活性且有較強的自動化處理能力,具體體現(xiàn)在其能夠?qū)o結(jié)構(gòu)的自然語言文本轉(zhuǎn)化成可供計算機計算的特征文本,現(xiàn)已成為一種處理文本信息的重要手段,被越來越多的研究人員關(guān)注[1]。相似度計算是文本聚類中非常重要的一個步驟,以往在判斷2個文檔的相似度時,通常是根據(jù)查看2篇文檔中共同包含單詞的數(shù)量多少,例如TF-IDF(Term Frequency-Inverse Document Frequency)模型,但是可能存在2個文檔之間幾乎沒有相同的詞,而2個文檔的語義相似,這種方法沒有考慮文字背后的語義關(guān)聯(lián),導(dǎo)致檢索系統(tǒng)對用戶的查詢需求有偏差,返回的結(jié)果不夠全面[2]。所以在判斷文檔相似性時需要挖掘出文檔的語義,而語義挖掘的關(guān)鍵在于選取合適的主題模型,LDA(Latent Dirichlet Allocation,潛在狄利克雷分配模型)就是其中一種比較有效的潛在語義模型。采用LDA模型進行文本建模,分析每個文檔的主題分布,挖掘其潛在的語義知識,有利于完善單純使用關(guān)鍵詞方法所造成丟失信息的缺陷。因此本文設(shè)計一種基于LDA模型的文本聚類技術(shù),應(yīng)用到鳳凰網(wǎng)網(wǎng)站的檢索中,實現(xiàn)類簇中的主題發(fā)現(xiàn),提高信息檢索的準確率。
LDA是一種挖掘文本潛在主題的概率生成模型,它依據(jù)此常識性假設(shè):隱含主題集是由一系列相關(guān)特征詞組成,文檔集合中所有文檔均按照一定比例共享隱含主題集合。LDA模型是一種經(jīng)典的貝葉斯模型,分為文檔集層、主題層及特征詞層,每層均有相應(yīng)的隨機變量或參數(shù)控制。所謂生成模型,就是每一篇文檔都是由其隱含的主題隨機組合生成,每一個主題對應(yīng)特定的特征詞分布,不斷抽取隱含主題及其特征詞,直到遍歷完文檔中的全部單詞。因此把各個主題在文檔中出現(xiàn)的概率分布稱為主題分布,把各個詞語在某個主題中出現(xiàn)的概率分布稱為詞分布[3]。利用LDA模型生成文檔,首先需要生成該文檔的一個主題分布,再生成詞的集合;根據(jù)文檔的主題分布隨機選擇一個主題,然后根據(jù)主題中詞分布隨機選擇一個詞,重復(fù)這個過程直至形成一篇文檔[4]。同時LDA主題模型對文檔集進行內(nèi)部語義信息分析,從而得出3層貝葉斯模型:文本-主題-特征詞模型。假設(shè)所有文檔存在K個隱含主題,LDA的圖模型結(jié)構(gòu)如圖1所示。
圖1 LDA圖模型結(jié)構(gòu)
給定一個文檔集合D={d1,d2,…,dM},M為文檔總數(shù),Nm為第m篇文檔的單詞總數(shù)。假設(shè)主題數(shù)為K個,α和β表示語料級別的參數(shù),取先驗分布為Dirichlet分布,其中α是每篇文檔下主題的多項分布的Dirichlet先驗參數(shù),β是每個主題下特征詞的多項分布的Dirichlet先驗參數(shù)。主題向量θm為第m篇文檔能生成主題的概率分布變量,每個文檔對應(yīng)一個θ,φk代表第k個主題下的特征詞分布變量。對于第m篇文檔中的第n個特征詞ωm,n,生成第m篇文檔中第n個詞的主題zm,n。ωm,n是可以觀測到的已知變量,α和β是根據(jù)經(jīng)驗給定的先驗參數(shù),把θm、φk和zm,n當作隱藏變量,根據(jù)觀察到的已知變量估計預(yù)測[5]。根據(jù)LDA的圖模型結(jié)構(gòu),可以推理出所有變量的聯(lián)合分布:對于第m篇文檔中第n個特征詞ωm,n(1≤n≤Nm,1≤m≤M),生成一個主題zn服從隱含變量θ的多項式分布;根據(jù)先驗參數(shù)β,對特征詞ωn生成P(ωn|zn,β)。則每個文檔的概率密度函數(shù)為:
(1)
主題模型中假設(shè)每個詞對應(yīng)一個不可觀測的隱主題,由于在LDA概率生成模型中不能直接獲得參數(shù)θ和φ的值,所以需要通過參數(shù)估計的方法近似推理主題參數(shù)值,得到主題間的聯(lián)合分布。常用的估計參數(shù)方法有變分推理、Laplace近似、Gibbs Sampling抽樣算法和期望-擴散[6]。其中Gibbs Sampling隨機抽樣算法以其實現(xiàn)簡便、計算速度快的優(yōu)勢廣泛地應(yīng)用于LDA概率生成模型中。Gibbs Sampling抽樣算法屬于一種特殊的MCMC(Markov Chain Monte Carlo,馬爾科夫鏈蒙特卡洛方法)算法。馬爾科夫鏈是一種離散的隨機過程,MCMC方法就是使用蒙特卡洛方法計算積分進而構(gòu)造合適的馬爾科夫鏈進行抽樣。Gibbs Sampling抽樣算法的核心理念為交替地固定概率向量中的某一維度,通過其他維度的變量值,抽樣確定該維度的值,不斷迭代直到收斂,輸出待估參數(shù)。這種方法只對二維以上的高維情況有效[7]。利用Gibbs Sampling算法學(xué)習(xí)LDA模型參數(shù)的過程如下:
1)初始化特征詞。給文本中的每個單詞隨機分配主題z(0)。
2)特征詞數(shù)量統(tǒng)計。統(tǒng)計每個主題z中出現(xiàn)的特征詞數(shù)量和每個文檔m下出現(xiàn)主題z中的特征詞的數(shù)量。
3)主題概率計算。去除當前詞的主題分布,根據(jù)其他所有詞的主題分布估計當前詞分布各個主題的概率。每輪估算一次主題分布概率P(zi|z,d,ω),其中P(zi|z,d,ω)也稱為吉布斯更新規(guī)則(Gibbs updating rule),如公式(2)所示:
(2)
4)隨機抽取。根據(jù)當前詞屬于所有主題z的分布概率為該詞隨機地抽取一個新主題z(1)。
5)循環(huán)。用步驟4中的方法不斷隨機抽取下一個詞的主題,當發(fā)現(xiàn)第m篇文檔下的主題分布變量θm和第k個主題下的特征詞分布變量φk收斂時,輸出θm、φk。最終得出每個詞的主題zm,n[8]。
當Gibbs結(jié)果收斂后,根據(jù)最后文檔集中所有單詞的主題分布來估算多項式分布的參數(shù)θm、φk的值,如公式(3)、公式(4)所示:
(3)
(4)
文本聚類(text clustering)是傳統(tǒng)聚類算法在文本挖掘領(lǐng)域的應(yīng)用,實質(zhì)上是把一個文本集分成若干子集的過程,劃分出的子集稱為簇,各個簇中的文本相似性較大,各個簇之間的文本相似性較小[9]。文本聚類能夠幫助用戶有效地導(dǎo)航、總結(jié)和組織文本信息,是文本信息檢索的核心技術(shù),也是一種在文本信息處理過程中用到的知識獲取方法。簡而言之,文本聚類是從很多文檔中把一些相似內(nèi)容的文檔聚為一類的一種方法。文本聚類的算法主要包括基于劃分、基于層次、基于模型、基于網(wǎng)絡(luò)、基于模糊等聚類算法[2],本文采用劃分聚類算法對文檔進行聚類,該方法可在任意范數(shù)下進行聚類,對數(shù)值屬性有很好的幾何統(tǒng)計意義。
基于劃分的聚類算法主要包括K-means算法、K-中心點算法和大型數(shù)據(jù)庫劃分法,劃分聚類要求將文檔集分割成K個類,而且每個類最低包含一個文檔,其流程如圖2所示。
圖2 劃分聚類算法流程圖
K-means算法是一種經(jīng)典的基于劃分的聚類算法。首先任意選擇K個文檔作為初始的聚類中心點,對于剩下的其他文檔,計算其與聚類中心的相似度,然后分配給最近似的聚類,再重新計算新的聚類中心,重復(fù)迭代直到聚簇的劃分結(jié)果不再改變。這種方法以其簡單、快速、高效的特點被廣為使用。傳統(tǒng)的K-means聚類算法中,聚類中心的選擇是整個算法過程的關(guān)鍵[10]。隨機地選擇聚類中心會導(dǎo)致每次聚類的結(jié)果有差異,從而不能較好地反饋聚類的實際情況,所以本文采用優(yōu)化聚類中心選擇的K-means++算法對測試數(shù)據(jù)進行聚類。該算法的基本思想是初始的聚類中心之間的相互距離要盡可能地遠。假設(shè)D(x)為樣本集中每一個點x到最近聚類中心的距離,該算法的過程如下:
1)隨機選取數(shù)據(jù)點集合N中一個點作為第一個聚類中心p1;
3)不斷重復(fù)步驟2直到聚類中心不再變化,得到K個聚類中心;
4)利用第K個聚類中心執(zhí)行標準的K-means聚類算法對數(shù)據(jù)進行聚類[11]。
對于一個聚類是否有效,通常會對聚類的實際效果進行評價。常用的聚類有效性評價標準有外部標準和內(nèi)部標準。外部標準通過測量聚類結(jié)果和參考標準的一致性來評價聚類結(jié)果的好壞,內(nèi)部標準則是用于評價同一聚類算法在不同聚類條件下聚類結(jié)果的好壞,根據(jù)聚類結(jié)果的優(yōu)劣選取最佳聚類數(shù)。本文從外部標準引入2種常用的評價指標,純度Purity評價方法和F-measure評價方法。
2.3.1 純度Purity評價方法
Pi=max (Pij)
(5)
整個聚類劃分的純度Purity為:
(6)
其中K是聚類的數(shù)目,m是整個聚類劃分所涉及的成員個數(shù)。
2.3.2 F-measure評價方法
F-measure是信息檢索領(lǐng)域評價聚類效果的一個標準,簡稱F值,它是準確率(Precision,又稱精度)與召回率(Recall)的結(jié)合。準確率和召回率是廣泛用于信息檢索和分類體系等領(lǐng)域的2個重要指標,其中準確率是系統(tǒng)檢索到的相關(guān)文檔數(shù)與系統(tǒng)所有檢索到的文檔總數(shù)的比率,召回率是指系統(tǒng)檢索到的相關(guān)文檔數(shù)和系統(tǒng)所有相關(guān)的文檔總數(shù)的比率,這2個指標可以用來評價檢索結(jié)果的質(zhì)量[13]。
在一個大規(guī)模數(shù)據(jù)集合中檢索文檔時,對每個查詢(Query)可以統(tǒng)計出以下4個值:
1)TP:檢索到的,相關(guān)的。
2)FP:檢索到的,但是不相關(guān)的。
3)FN:未檢索到的,但卻是相關(guān)的。
4)TN:未檢索到的,也不相關(guān)的。
F-measure的公式定義如下:
(7)
其中,β為調(diào)和系數(shù),一般取β=1,P為準確率,R為召回率。此種方法適用于更看中準確率或召回率中某一特性時使用。在聚類有效性評價中,全局聚類的F值可通過F值的加權(quán)平均求得,公式如下:
(8)
本文采用的實驗數(shù)據(jù)來自國內(nèi)知名綜合門戶網(wǎng)站鳳凰網(wǎng)。分別選取網(wǎng)站中財經(jīng)、體育、房產(chǎn)、文化、科技這5個版塊中的新聞文檔,利用網(wǎng)絡(luò)爬蟲對其進行數(shù)據(jù)采集,共采集了2017年10月25日至10月28日的新聞1310篇。首先使用IKAnalyzer分詞軟件對實驗數(shù)據(jù)進行文本預(yù)處理,并剔除中文常規(guī)停頓詞,將文本向量化,表示為文檔-特征詞矩陣,之后用GibbsLDA建模工具對其進行LDA建模,得到文檔的主題概率分布[14]。選取指定的潛在主題個數(shù)K的初始值為50,α=50/K,β=0.1,Gibbs隨機抽樣的次數(shù)T設(shè)定為1000。其中主題數(shù)K的取值依次為50,100,…,300,利用不同主題數(shù)進行多次聚類實驗獲得最優(yōu)主題數(shù)K[15]。由圖3可以看出,當K=150時,F(xiàn)值最高,聚類效果最好,所以選取主題數(shù)K為150。將數(shù)據(jù)用K-means++算法進行聚類,聚類中心數(shù)N設(shè)為50。
圖3 不同主題數(shù)K下的F值
本文的實驗中,LDA-Gibbs模型生成的潛在主題-特征詞模型部分結(jié)果如表1所示。從表1可以看出特征詞描述的結(jié)果,Topic1中為經(jīng)濟股票方面的內(nèi)容,Topic2中為體育運動方面的內(nèi)容,Topic3中為房產(chǎn)家居方面的內(nèi)容,Topic4中為文化藝術(shù)方面的內(nèi)容,Topic5中為科技信息方面的內(nèi)容。主題分類和原始分類基本一致,有些詞的語義與主題不夠貼切,可以通過進一步提高參數(shù)設(shè)定的精度來解決[16]。
表1 LDA-Gibbs主題-特征詞模型結(jié)果
Topic1Topic2Topic3Topic4Topic5信用雷霆調(diào)控女權(quán)樂視保險乒協(xié)順義高校應(yīng)用離職阿里產(chǎn)權(quán)民謠機器匯豐恒大增值維基寬帶茅臺主場養(yǎng)生烏托邦蘋果共享絕殺中介霍金搜索代理姚明申購學(xué)術(shù)飛信關(guān)稅拳王臨鐵社會駕齡
首先將聚類實驗分為2種方案進行對比,分別為:
1)數(shù)據(jù)預(yù)處理后選擇傳統(tǒng)的K-means聚類算法;
2)數(shù)據(jù)預(yù)處理后選擇優(yōu)化聚類中心的K-means++聚類算法。
經(jīng)過實驗驗證,不同主題類別在不同的實驗方案下,其聚類結(jié)果的準確率、召回率分別如表2、表3所示。
表2 傳統(tǒng)K-means算法聚類分析評價
特征主題準確率(P)/%召回率(R)/%經(jīng)濟股票78.3279.41體育運動76.4877.52房產(chǎn)家居75.7276.85文化藝術(shù)78.1678.94科技信息77.6378.66
表3 優(yōu)化聚類中心的K-means++算法聚類評價
特征主題準確率(P)/%召回率(R)/%經(jīng)濟股票80.2381.65體育運動82.7484.09房產(chǎn)家居85.6186.36文化藝術(shù)86.5487.11科技信息85.8286.95
之后根據(jù)聚類結(jié)果的Purity(純度)和F-measure這2方面對基于LDA-Gibbs模型和基于TF-IDF模型的文本聚類效果分別進行對比評價,如圖4所示[17]??梢钥闯觯疚脑O(shè)計的基于LDA-Gibbs的模型在Purity和F-measure方面都明顯優(yōu)于傳統(tǒng)的TF-IDF模型,說明該模型的文本聚類的效果更好。綜合上述實驗可以看出,本文提出的基于LDA的文本聚類檢索方法較為合理,具有推廣價值。
圖4 LDA-Gibbs模型與TF-IDF模型聚類效果對比
本文提出了一種基于LDA主題模型的文本聚類方法并將其應(yīng)用到門戶網(wǎng)站的主題挖掘中。根據(jù)LDA模型建立了文本主題空間,充分挖掘了文檔的潛在主題,利用主題分布概率向量替代文本,降低了文本向量的維度,并利用K-means++算法對主題空間中的文本數(shù)據(jù)進行聚類,加快了聚類速度,進而提高了聚類的效果。最后從純度和F特征值這2方面評價了聚類的有效性。實驗結(jié)果表明,該方法能夠較好地按主題對網(wǎng)站中的文本信息數(shù)據(jù)聚類,可以將其推廣到信息檢索領(lǐng)域,從而提高檢索效率與準確率。
參考文獻:
[1] 王鵬,高鋮,陳曉美. 基于LDA模型的文本聚類研究[J]. 情報科學(xué), 2015,33(1):63-68.
[2] 楊平,王丹,趙文兵. 微博網(wǎng)站中面向主題的權(quán)威信息搜索技術(shù)研究[J]. 計算機科學(xué)與探索, 2013,7(12):1135-1145.
[3] 董婧靈. 基于LDA模型的文本聚類研究[D]. 武漢:華中師范大學(xué), 2012.
[4] 唐曉波,房小可. 基于文本聚類與LDA相融合的微博主題檢索模型研究[J]. 情報理論與實踐, 2013,36(8):85-90.
[5] Cao Buqing, Liu Xiaoqing, Liu Jianxun, et al. Domain-aware Mashup service clustering based on LDA topic model from multiple data sources[J]. Information and Software Technology, 2017,90:40-54.
[6] 李湘東,張嬌,袁滿. 基于LDA模型的科技期刊主題演化研究[J]. 情報雜志, 2014,33(7):115-121.
[7] Hajjem M, Latiri C. Combining IR and LDA topic modeling for filtering microblogs[J]. Procedia Computer Science, 2017,112:761-770.
[8] 焦潞林,彭巖,林云. 面向網(wǎng)絡(luò)輿情的文本知識發(fā)現(xiàn)算法對比研究[J]. 山東大學(xué)學(xué)報(理學(xué)版), 2014,49(9):62-68.
[9] 馬軍紅. 文本聚類算法初探[J]. 電子世界, 2012(6):71-72.
[10] 江浩,陳興蜀,杜敏. 基于主題聚簇評價的論壇熱點話題挖掘[J]. 計算機應(yīng)用, 2013,33(11):3071-3075.
[11] Clyne B, Cooper J A, Hughes C M, et al. A process evaluation of a cluster randomised trial to reduce potentially inappropriate prescribing in older people in primary care (OPTI-SCRIPT study)[J]. Trials, 2016,17, doi: 10.1186/s13063-016-1513-z.
[12] 王振振,何明,杜永萍. 基于LDA主題模型的文本相似度計算[J]. 計算機科學(xué), 2013,40(12):229-232.
[13] 孟雪井,孟祥蘭,胡楊洋. 基于文本挖掘和百度指數(shù)的投資者情緒指數(shù)研究[J]. 宏觀經(jīng)濟研究, 2016(1):144-153.
[14] Zhang Yi, Zhang Guangquan, Chen Hongshu, et al. Topic analysis and forecasting for science, technology and innovation: Methodology with a case study focusing on big data research[J]. Technological Forecasting and Social Change, 2016,105:179-191.
[15] Reddy A S S, Brik M G, Kumar J S, et al. Structural and electrical properties of zinc tantalum borate glass ceramic[J]. Ceramics International, 2016,42(15):17269-17282.
[16] 王軍. 熱門微博話題事件主題聚類分析[D]. 合肥:安徽大學(xué), 2016.
[17] 陳曉美. 網(wǎng)絡(luò)評論觀點知識發(fā)現(xiàn)研究[D]. 長春:吉林大學(xué), 2014.