潘曉英,胡開開,朱 靜
(西安郵電大學(xué) 計算機學(xué)院,陜西 西安 710121)
一種基于TextRank的文本二次聚類算法
潘曉英,胡開開,朱 靜
(西安郵電大學(xué) 計算機學(xué)院,陜西 西安 710121)
針對傳統(tǒng)文本聚類技術(shù)中存在的聚類精度一般或者運算時間復(fù)雜度過高等問題,文中首先介紹了兩種較為常用的文本聚類技術(shù):基于劃分的K-means和基于主題模型的LDA。在分析各自缺陷的基礎(chǔ)上,提出一種基于TextRank的文本二次聚類算法。該算法借鑒主題模型的思想,在傳統(tǒng)的聚類過程中引入詞聚類,并在關(guān)鍵詞提取階段融合詞語的位置與跨度特征,減少了由局部關(guān)鍵詞作為全局關(guān)鍵詞帶來的誤差。實驗結(jié)果表明,改進(jìn)后的算法在聚類效果上要優(yōu)于傳統(tǒng)的VSM聚類和基于主題模型的LDA算法。
文本聚類;TextRank;
提取;向量空間模型;LDA
隨著大數(shù)據(jù)時代的來臨,互聯(lián)網(wǎng)上的文檔數(shù)據(jù)呈爆炸式增長,如何從這些海量數(shù)據(jù)中獲取有效信息已經(jīng)成為NLP(Nature Language Processing,自然語言處理)領(lǐng)域的重點[1]。作為數(shù)據(jù)挖掘領(lǐng)域的重要分支,聚類技術(shù)被廣泛研究。一種快速、高效的聚類算法能夠自動地將看似雜亂無章的文檔數(shù)據(jù)集合組織成少量的有意義的簇,進(jìn)而以簡明、容易訪問的方式提交結(jié)果[2]。因此,聚類技術(shù)在文本挖掘、Web搜索以及新聞推薦系統(tǒng)等領(lǐng)域中發(fā)揮著重要作用[3]。
目前針對文本聚類的方法主要分為兩類:
第一類是向量空間模型[4](Vector Space Model,VSM)。這類算法以關(guān)鍵詞權(quán)重信息來構(gòu)建文檔向量,根據(jù)所采用的某種相似度度量計算文檔之間的“距離”,隨后采用K-means進(jìn)行聚類。VSM中最常見的詞加權(quán)方式是TF-IDF[5](TermFrequency-InverseDocumentFrequency,詞頻-逆文檔頻率),但是該模型的缺陷是模型假設(shè)各個詞的出現(xiàn)是獨立不相關(guān)的,導(dǎo)致無法從語義上分析文檔內(nèi)容。馬暉男等[6]提出了一種修正的向量空間模型(MVSM)。該模型采用信息短語進(jìn)行信息表示,對查詢索引項進(jìn)行擴展,并建立了能夠自動生成的同義詞詞典,有效改善了文本信息檢索系統(tǒng)的性能。宋丹等[7]借助自然語言理解技術(shù),根據(jù)語義特征將文檔關(guān)鍵詞分為N維向量空間,在每個空間上進(jìn)行獨立的權(quán)重和相似度計算,實驗結(jié)果表明該方法在新聞的話題識別和跟蹤技術(shù)中要優(yōu)于傳統(tǒng)方法。相比較TF-IDF,圖方法更能體現(xiàn)文檔關(guān)鍵詞之間的結(jié)構(gòu)關(guān)系,最具代表性的是TextRank[8],該算法將文本看作是一個由詞節(jié)點組成的網(wǎng)絡(luò),節(jié)點之間的鏈接權(quán)重代表了詞之間的語義關(guān)系?;赥extRank的詞權(quán)重排序算法同樣被研究者廣泛關(guān)注,其中方康等[9]提出一種基于馬爾可夫模型加權(quán)TextRank的單文檔關(guān)鍵詞抽取算法,結(jié)果表明準(zhǔn)確率有所提高。顧益軍等[10]將候選關(guān)鍵詞的重要性按照主題影響力和鄰接關(guān)系進(jìn)行非均勻傳遞,并構(gòu)建新的概率轉(zhuǎn)移矩陣進(jìn)行詞圖迭代計算,可以顯著改善關(guān)鍵詞的抽取效果。
第二類為潛在狄利克雷分布LDA(LatentDirichletAllocation):是一種文檔主題生成模型。即一篇文章的每個詞都是以一定概率選擇了某個主題,并從某個主題中以一定概率選擇了某個詞。處理過程中可以將數(shù)據(jù)建模為混合話題,這些話題不僅僅是文檔簇,同時也是詞的概率分布。該方法具備先驗性假設(shè),不易產(chǎn)生過擬合,更加符合實際文檔的主題分布,缺點是計算復(fù)雜度較高,在大規(guī)模數(shù)據(jù)集上會遇到計算瓶頸[11]。Mimno與McCallum[12]提出一種DirichletCompoundMultinomialLDA(DCM-LDA)算法。DCM利用分布式集群進(jìn)行訓(xùn)練,集群中的每臺機器首先對分發(fā)在其上面的語料進(jìn)行吉布斯采樣,各自維護(hù)一個局部主題模型(LocalTopicModel),當(dāng)訓(xùn)練完成時將所有的主題模型融合在一起,在一定程度上能解決復(fù)雜度過高的問題。張小平等[13]提出一種基于高斯函數(shù)的加權(quán)方法,降低了高頻詞對主題分布的影響,實驗結(jié)果表明改進(jìn)后的模型更能清晰地表達(dá)文檔主題。李文波等[14]提出一種附加類別標(biāo)簽的LDA模型,即在傳統(tǒng)LDA模型訓(xùn)練過程中融入文本類別信息,克服了訓(xùn)練過程中強制分配隱含主題的缺陷,可以有效地改進(jìn)文本分類性能。
文中借鑒主題模型的思想,并充分利用word2vec[15]對于中文文本生成詞向量的高效性以及精確性,提出一種基于TextRank的文本二次聚類方法。該方法在傳統(tǒng)聚類過程中引入了詞聚類,并在關(guān)鍵詞提取階段融合詞語的位置與跨度特征,減少了由局部關(guān)鍵詞作為全局關(guān)鍵詞帶來的誤差。實驗結(jié)果表明,該方法在聚類精度以及效率上均有不同程度的提高。
傳統(tǒng)的文本聚類方法是將原始文本數(shù)據(jù)集合進(jìn)行預(yù)處理,隨后進(jìn)行向量化并對其進(jìn)行K-means聚類。具體步驟如下:
2.1 文本預(yù)處理
首先對數(shù)據(jù)進(jìn)行去噪,包括剔除異常值、圖片、視頻、音頻等記錄。隨后利用中文分詞系統(tǒng)進(jìn)行中文分詞、去除停用詞等。
2.2 文本向量化
要對文本進(jìn)行聚類,首先要對文本進(jìn)行向量化表示。經(jīng)典的方法是用TF-IDF和TextRank來表示文本的詞權(quán)重信息。TF-IDF算法的思想是,如果詞在一篇文檔中出現(xiàn)的頻率高而在其他文檔中很少出現(xiàn),則認(rèn)為該詞具有很好的區(qū)分能力。TextRank算法借鑒Google網(wǎng)頁排名方法PageRank[16],該算法利用網(wǎng)頁之間的相互投票來迭代計算網(wǎng)頁的重要度。具體到TextRank,即事先設(shè)定一個固定的滑動窗口大小K,將窗口內(nèi)的詞看作是圖中的節(jié)點,同一窗口內(nèi)出現(xiàn)的詞之間通過邊相連,通過不斷地向后移動窗口來增加圖中的邊,隨后通過迭代計算詞的權(quán)重。對于單詞i:
(1)TF-IDF的權(quán)重信息計算公式為:
(1)
其中,TFi為該詞在文本中的出現(xiàn)頻率;N為文本總數(shù);DFi為該詞出現(xiàn)的文本個數(shù)。取對數(shù)是為了消除在最終的詞權(quán)重中TF的影響。
(2)TextRank的權(quán)重信息計算公式為:
WS(vi)=(1-d)+d×
(2)
其中,WS(vi)表示節(jié)點vi的權(quán)重;In(vi)、Out(vj)分別表示指向節(jié)點vi的集合以及節(jié)點vj所指向的節(jié)點集合;Wji表示連接兩節(jié)點之間的邊的權(quán)重;d為阻尼系數(shù),取值0.85。
2.3K-means聚類
K-means[17]文本聚類的基本思想是首先從上述向量化后的數(shù)據(jù)對象中隨機抽取K個對象作為初始聚類中心,隨后計算剩下的對象到這些聚類中心的距離,將其分配給距離最近的類;然后重新計算每個類中新的聚類中心。重復(fù)這一過程,直至測度函數(shù)收斂。一般采用誤差的平方和作為標(biāo)準(zhǔn)測度函數(shù),其定義為:
(3)
其中,E為數(shù)據(jù)集中所有對象的誤差平方和;k為聚類個數(shù);p為給定的文本對象;Ci為簇i的中心點。
針對文本聚類,一般采用余弦相似度計算文本之間的“距離”。公式如下:
Dist(di,dj)=1-cos(di,dj)=
其中,di,dj分別表示文本i,j;n表示文本向量的維度;Pik和Pjk分別表示i和j的文本向量在第k維上的取值。
由該公式可知,若兩個文本相同,則cos(di,dj)=1,即Dist()=0,二者距離最小。反之,若兩個文本是“相互獨立”的,則cos(di,dj)=0,即Dist()=1,二者距離最大。
基于VSM的K-means文本聚類算法的優(yōu)點是實現(xiàn)簡單,時間復(fù)雜度較低,可解釋性強。但是,基于VSM的方式對文本進(jìn)行向量化后無法清晰地表達(dá)文本內(nèi)容,會導(dǎo)致聚類效果不是很好,需要進(jìn)一步改進(jìn)。
針對上述聚類方法聚類精度不足的缺陷,文中提出一種基于TextRank的文本二次聚類算法,通過減少由局部關(guān)鍵詞作為全局關(guān)鍵詞帶來的誤差來增強向量化文本的表達(dá)能力。首先,利用開源深度學(xué)習(xí)工具word2vec對預(yù)處理過的文檔中的詞生成詞向量,并進(jìn)行詞聚類[18]。然后,針對每篇文檔,計算文檔中每個詞語的權(quán)重值并統(tǒng)計每個詞所屬聚類,對每一個類別下的所有詞進(jìn)行加權(quán)求和,得到該文檔的類別特征分布,進(jìn)而采用K-means算法進(jìn)行第二次聚類。改進(jìn)后的算法流程如圖1所示。
圖1 算法流程圖
3.1 預(yù)處理
對文本集合進(jìn)行預(yù)處理采用2.1所述的方式。
3.2 詞聚類
在Linux環(huán)境下,運用word2vec工具對輸入的數(shù)據(jù)進(jìn)行詞聚類。word2vec是Google于2013年開源推出的一個用于獲取word vector的工具包,它可以將某種格式的輸入文本轉(zhuǎn)化為一個K維向量。這樣,就可以通過計算向量之間的相似度來表示文本之間的語義相似度。
3.3 關(guān)鍵詞權(quán)重計算
考慮到傳統(tǒng)的TF-IDF關(guān)鍵詞提取技術(shù)無法從語義上分析文檔,故文中采用當(dāng)前比較流行的圖模型(TextRank)并加以改進(jìn)來進(jìn)行文檔關(guān)鍵詞的提取。直接利用以上公式提取出的關(guān)鍵詞會更傾向于局部高頻詞和無用詞,真正能代表文檔的關(guān)鍵詞卻因為權(quán)值低而被召回。因此,為了提高結(jié)果的準(zhǔn)確性和說服力,在計算關(guān)鍵詞權(quán)值時考慮以下特征:
(1)位置。
如果文檔中某候選關(guān)鍵詞出現(xiàn)在了該文檔的標(biāo)題中,那么很明顯該詞作為關(guān)鍵詞的概率要大于那些文檔中未出現(xiàn)在標(biāo)題中的詞。所以,在計算詞語權(quán)重時需要將位置信息考慮進(jìn)來。具體計算公式為:
(5)
(2)詞跨度。
在TextRank算法中,由于滑動窗口的設(shè)定,在同一窗口內(nèi)會經(jīng)常有若干相同詞的情況,這樣就會導(dǎo)致算法的提取結(jié)果是局部關(guān)鍵詞而非全局關(guān)鍵詞。為了消除這種由于詞的出現(xiàn)范圍而帶來的計算誤差,可將詞的跨度特征也引入到關(guān)鍵詞權(quán)重計算中。其值為該詞在文檔中第一次出現(xiàn)與最后一次出現(xiàn)的位置之差。如果該值較大,說明其作為全局關(guān)鍵詞的可能較越大,從而避免了一些局部關(guān)鍵詞被誤作為全局關(guān)鍵詞。
通過以上兩個特征的引入,候選關(guān)鍵詞i的計算公式如下:
(6)
其中,WSi是i的TextRank值;Loci是i的位置特征值;Spani是i的跨度特征值;Lasti和Firsti分別表示i在該文檔中最后一次和第一次出現(xiàn)的位置,考慮到只出現(xiàn)一次詞語作為文檔關(guān)鍵字的可能性極小,為降低該詞權(quán)重,文中將每篇文檔中詞語頻度為1的Firsti取值為0,Lasti取值為1;Sum表示文檔的詞語總數(shù)。
按照上述權(quán)值計算過程,選取文檔中的前N個詞作為文檔的特征關(guān)鍵詞,將每篇文檔表示成如下形式:
dj=〈〈word1j,weight1j〉,〈word2j,weight2j〉,…,〈wordNj,weightNj〉〉
3.4 統(tǒng)計文本類別分布
在2.2和2.3的基礎(chǔ)上,統(tǒng)計文本在各個類別下的分布。具體做法如下:首先在每篇文檔中選取N個詞,統(tǒng)計每個詞所屬類別。然后對同一個類下的所有關(guān)鍵字進(jìn)行加權(quán)求和并做歸一化處理。得到的每篇文檔的分布特征如下:
dj=〈〈C1,wj1〉,〈C2,wj2〉,…,〈Ck,wjk〉〉
其中,k為類別數(shù)目;wjk表示文檔dj在Ck上歸一化處理之后的權(quán)值。
3.5 二次聚類
將每篇文檔按照上述方法表示成向量形式,并構(gòu)建“文檔-類別分布”矩陣:
其中,m為總的文檔數(shù);k為類別數(shù)量。
隨后利用K-means算法對所有的文檔向量進(jìn)行二次聚類,得到最終的聚類結(jié)果。
4.1 實驗語料
實驗語料從搜狗文本語料庫中下載,共涉及經(jīng)濟、軍事、旅游、體育、文化和醫(yī)療六個子集,去噪后的每個子集大概包含300篇新聞文檔,共計1 998篇。
4.2 評測指標(biāo)
實驗采用F值來衡量聚類效果。F值是一種綜合平衡準(zhǔn)確率和召回率的評價指標(biāo)。一般F值越高,說明聚類的效果越好。準(zhǔn)確率、召回率與F值的計算公式如下:
(7)
8)
(9)
(10)
其中,nij為聚類后類別為j中實際類別為i的文檔數(shù)目;nj為聚類類別j的文檔總數(shù)目;ni為實際類別為i的文檔總數(shù)目。
4.3 實驗結(jié)果
實驗運行環(huán)境為Ubuntu14.04操作系統(tǒng),CPU為Intel(R) Core(TM)i3-4150 3.50 GHz,4 GB內(nèi)存,編程工具為Eclipse4.4.0,算法實現(xiàn)語言為Java,中文分詞采用Ansj中文分詞系統(tǒng),詞聚類的實現(xiàn)借助word2vec。
在式(5)和式(6)計算關(guān)鍵詞權(quán)重過程中,詞語位置特征權(quán)重m取值為3。為了體現(xiàn)該詞語權(quán)重計算方法的有效性,文中將其與另外兩種方法得到的關(guān)鍵詞結(jié)果作對比。評價指標(biāo)仍以K-means聚類結(jié)果的F值為準(zhǔn),如圖2所示。
由圖2可知,文中方法在關(guān)鍵詞抽取數(shù)量為50時效果最好,且采用該計算方法聚類效果明顯優(yōu)于另外兩種方法。原因是該方法相當(dāng)于綜合考慮了文檔的結(jié)構(gòu)和語義信息。
圖2 不同關(guān)鍵詞數(shù)量下的三種算法聚類效果
在LDA建模階段,利用實驗來確定最優(yōu)的主題數(shù)N,最終結(jié)果以最高F值時的主題個數(shù)為準(zhǔn)。參數(shù)估計采用Gibbs抽樣算法[19],超參數(shù)分別取值50/N,0.01,迭代次數(shù)設(shè)置為2 000次。同樣,采用實驗的方法來確定詞聚類過程中最優(yōu)的詞聚類類別數(shù)量。該過程中的具體參數(shù)設(shè)置如表1所示。由圖3可知,當(dāng)主題數(shù)目N=80、詞聚類類別數(shù)量為100時,聚類效果分別達(dá)到最優(yōu)。
表1 word2vec參數(shù)設(shè)置情況
以F值為評價標(biāo)準(zhǔn),得到LDA的最優(yōu)主題數(shù)N及word2vec生成詞聚類過程中的最優(yōu)詞類別數(shù)量。
圖3 不同主題/詞類別的聚類效果
在上述確定最優(yōu)主題數(shù)N和最優(yōu)詞聚類類別數(shù)量的同時,文中對兩者的算法執(zhí)行時間進(jìn)行了對比。結(jié)果如表2所示。
表2 兩種算法執(zhí)行時間比較 s
由表2可知,文中方法的效率明顯優(yōu)于LDA。原因是LDA在訓(xùn)練過程中需要模擬Dirichlet過程并且不斷進(jìn)行參數(shù)的調(diào)整,導(dǎo)致算法復(fù)雜度過高。而文中算法無需訓(xùn)練,并且在利用word2vec進(jìn)行詞聚類的過程中,由于采用了哈弗曼樹編碼、高頻詞亞采樣等方法,減少了算法執(zhí)行時間。
實驗中為了消除K-means的不穩(wěn)定性帶來的誤差影響,將文中提出的算法與傳統(tǒng)的基于VSM的K-means聚類算法(TF-IDF,TextRank)分別運行10次,結(jié)果取平均值,比較結(jié)果如圖4所示。
圖4 四種方法比較結(jié)果
4.4 實驗分析
從圖4中可以看出,文中算法的全局F值相對前三種分別提高了22%,18%,5%,主要原因是文中首先充分利用了word2vec這一工具的有效性,對詞進(jìn)行聚類,最大程度上將語義相關(guān)的詞劃分到同一個類簇中,隨后再進(jìn)行二次聚類時融入了文檔的關(guān)鍵詞位置和跨度特征,相當(dāng)于綜合考慮了文檔的結(jié)構(gòu)和語義信息。基于VSM的方法沒有考慮文檔的語義信息,所以效果一般。LDA與文中算法的結(jié)果雖然相差不大,但是在算法效率有明顯差距。
針對傳統(tǒng)中文文本聚類算法的不足,并借鑒主體模型的思想,文中提出一種基于TextRank的文本二次聚類算法。首次聚類充分利用Google開源深度學(xué)習(xí)工具word2vec的高效性和有效性,得到詞聚類集合。隨后在利用圖模型TextRank算法提取文檔特征詞階段融入詞的位置和跨度特征,使文本得到了更合理的表示,進(jìn)而得到文本在詞聚類類別上的混合分布,即“文檔-類別”分布矩陣。二次聚類采用經(jīng)典的基于劃分的K-means。實驗結(jié)果表明,改進(jìn)算法在聚類效果和運行效率上均有所提高。
[1] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013,36(6):1125-1138.
[2] 范 明,孟曉峰.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機械工業(yè)出版社,2012.
[3] 孟憲軍.互聯(lián)網(wǎng)文本聚類與檢索技術(shù)研究[D].哈爾濱:哈爾濱工業(yè)大學(xué),2009.
[4] 姚清耘,劉功申,李 翔.基于向量空間模型的文本聚類算法[J].計算機工程,2008,34(18):39-41.
[5] 黃承慧,印 鑒,侯 昉.一種結(jié)合詞語義信息和TF-IDF方法的文本相似度量方法[J].計算機學(xué)報,2011,34(5):856-864.
[6] 馬暉男,吳江寧,潘東華.一種修正的向量空間模型在信息檢索中的應(yīng)用[J].哈爾濱工業(yè)大學(xué)學(xué)報,2008,40(4):666-669.
[7] 宋 丹,王衛(wèi)東,陳 英.基于改進(jìn)向量空間模型的話題識別與跟蹤[J].計算機技術(shù)與發(fā)展,2006,16(9):62-64.
[8]MihalceaR,TarauP.TextRank:bringingorderintotexts[C]//ProceedingofEMNLP.[s.l.]:[s.n.],2004.
[9] 方 康,韓立新.基于HMM的加權(quán)TextRank單文檔的關(guān)鍵詞抽取算法[J].信息技術(shù),2015,39(4):114-116.
[10] 顧益軍,夏 天.融合LDA與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報技術(shù),2014(7):41-47.
[11] 劉知遠(yuǎn).基于文檔主題結(jié)構(gòu)的關(guān)鍵詞抽取方法研究[D].北京:清華大學(xué),2011.
[12]MimnoDM,McCallumA.OrganizingtheOCA:learningfacetedsubjectsfromalibraryofdigitalbooks[C]//ProcofACM/IEEEjointconferenceondigitallibraries.[s.l.]:IEEE,2007:376-385.
[13] 張小平,周雪忠,黃厚寬,等.一種改進(jìn)的LDA主題模型[J].北京交通大學(xué)學(xué)報:自然科學(xué)版,2010,34(2):111-114.
[14] 李文波,孫 樂,張大鯤.基于Labeled-LDA模型的文本分類新算法[J].計算機學(xué)報,2008,31(4):620-627.
[15] 周 練.word2vec工作原理及應(yīng)用探究[J].科技情報開發(fā)與經(jīng)濟,2015,25(2):145-148.
[16]PageL,BrinS,MotwaniR,etal.ThePageRankcitationranking:bringingordertotheweb[R].[s.l.]:StanfordDigitalLibraryTechnologiesProject,1998.
[17] 孫吉貴,劉 杰,趙連宇.聚類算法研究[J].軟件學(xué)報,2008,19(1):48-61.
[18] 鄭文超,徐 鵬.利用word2vec對中文詞進(jìn)行聚類的研究[J].軟件,2013,34(12):160-162.
[19] 尤 芳.Gibbs抽樣在正態(tài)混合模型中的參數(shù)估計[J].統(tǒng)計與決策,2013(15):150-151.
A Secondary Text Clustering Algorithm Based on TextRank
PAN Xiao-ying,HU Kai-kai,ZHU Jing
(School of Computer,Xi’an University of Posts & Telecommunications,Xi’an 710121,China)
In view of the existing problems in the traditional text clustering technology,such as the general accuracy or the higher time complexity,two kinds of the commonly used text clustering technology are introduced at first,includingK-meansbasedonthedivisionandLDAbasedonthetheme.Onthebasisoftheanalysisoftheirrespectivedefects,asecondarytextclusteringalgorithmbasedontheTextRankispresented.Referenceofideaofthememodel,thealgorithmintroducesthewordclusteringintheprocessoftraditionalclustering,andmergesthefuturesoflocationandspaninthe
extractionphase,reducingtheerrorbylocalkeywordsasglobalkeywords.TheexperimentalresultsshowthattheimprovedalgorithmontheclustereffectissuperiortothetraditionalVSMclusteringandLDAalgorithmbasedonthethememodel.
text clustering;TextRank;keyword extraction;VSM;LDA
2015-09-26
2015-12-29
時間:2016-07-29
國家自然科學(xué)基金資助項目(61105064,61203311,61373116);陜西省教育專項科研計劃(14JK1667);西安郵電大學(xué)研究生創(chuàng)新基金項目(CXL2014-23)
潘曉英(1981-),女,博士,副教授,研究方向為數(shù)據(jù)挖掘、計算智能;胡開開(1989-),男,碩士研究生,研究方向為數(shù)據(jù)挖掘、推薦系統(tǒng)。
http://www.cnki.net/kcms/detail/61.1450.TP.20160729.1833.014.html
TP
A
1673-629X(2016)08-0007-05
10.3969/j.issn.1673-629X.2016.08.002