張波飛 李成城
摘 要:大數(shù)據(jù)時(shí)代信息量急劇增長(zhǎng),伴隨而來(lái)的是大量冗余信息的出現(xiàn)。為快速、準(zhǔn)確、全面搜索到所需信息,提出一種LDA主題模型與TextRank算法相結(jié)合的算法。首先通過(guò)對(duì)預(yù)處理后的文檔建立主題模型,得到句子的概率模型即文檔中句子的重要性,然后考慮運(yùn)算節(jié)點(diǎn)權(quán)重時(shí)的主題概率,得到新的迭代公式,通過(guò)對(duì)同一主題下的多篇新聞報(bào)道進(jìn)行處理得到這些文檔的文摘。實(shí)驗(yàn)結(jié)果表明,該方法生成的文摘較單一算法效果顯著。
關(guān)鍵詞:冗余;LDA主題模型;TextRank算法;文摘
DOIDOI:10.11907/rjdk.172842
中圖分類號(hào):TP301
文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-7800(2018)004-0013-03
Abstract:Information explosion leads to a large number of redundant information in the big data era. In this paper, we propose an algorithm to combine the LDA theme model with the TextRank algorithm. Firstly, we build a thematic model of the preprocessed document set to get the probability model of the sentence, that is, the sentence in the document. And then we take the subject probability into account and get the new iterative formula. The experimental results show that the method is more effective than the single algorithm.
Key Words:redundancy; LDA theme model; Textrank algorithm; summary
0 引言
隨著互聯(lián)網(wǎng)上信息的日益豐富,人們從網(wǎng)絡(luò)上搜索到的新聞大多呈現(xiàn)數(shù)量多且信息雜亂的現(xiàn)象,即使在文本理解會(huì)議(DUC),對(duì)大量數(shù)字語(yǔ)言質(zhì)量問(wèn)題和內(nèi)容進(jìn)行手動(dòng)評(píng)估摘要,也需要3 000多小時(shí)的人力,非常耗時(shí)[1]。多文檔自動(dòng)文摘的主要任務(wù)就是將同一主題下多篇文檔組成的集合中多次重復(fù)的信息一次出現(xiàn)在文摘中,將與主題相關(guān)的信息根據(jù)重要性及壓縮比依次抽取[2-3],因此進(jìn)行文摘提取尤為重要。
1 相關(guān)研究
本文實(shí)驗(yàn)流程如圖1所示。
1.1 Textrank算法
TextRank是基于網(wǎng)頁(yè)算法PageRank而來(lái)的,只是將page替換成詞語(yǔ)、句子,以完成關(guān)鍵詞抽取與自動(dòng)文摘工作[4]。TextRank算法是用于文本的基于圖的排序經(jīng)典算法,主要應(yīng)用在關(guān)鍵詞提取、自動(dòng)文摘等領(lǐng)域。TextRank算法將文檔劃分為由若干文本單元(詞項(xiàng)或句子)構(gòu)成的節(jié)點(diǎn),文本單元間的相似度構(gòu)成節(jié)點(diǎn)間的邊,形成圖模型,利用PageRank算法對(duì)圖模型進(jìn)行迭代直至收斂,然后對(duì)所有節(jié)點(diǎn)進(jìn)行排序,輸出文摘句。TextRank算法作為一種無(wú)監(jiān)督方法,無(wú)需訓(xùn)練語(yǔ)料,該方法已在多個(gè)領(lǐng)域得到應(yīng)用。
1.2 LDA主題模型
LDA主題模型是目前比較流行的模型算法,LDA由Blei、David M、Ng、Andrew Y、Jordan等于2003年提出,是一種典型的詞袋模型。一篇文檔由一組詞構(gòu)成,詞與詞之間沒(méi)有先后的順序關(guān)系。另外,一篇文檔可以包含多個(gè)主題,其中每一個(gè)詞都由其中的一個(gè)主題生成。同時(shí),它是一個(gè)3層的生成性貝葉斯網(wǎng)絡(luò),將詞與文檔通過(guò)潛在的主題相聯(lián)系。LDA概率如圖2所示。
圖2中,φ表示主題-詞語(yǔ)的概率分布,θ表示文檔-主題的概率分布,α和β分別表示θ和φ所服從的Dirichlet 先驗(yàn)分布的超參數(shù),空心圓圈表示隱含變量——主題,實(shí)心圓圈表示可觀察到的變量——詞語(yǔ)。
2 LDA與TextRank結(jié)合算法
楊瀟等[5]提出的基于主題模型LDA的多文檔自動(dòng)摘要,張明慧[6]提出的LDA主題驅(qū)動(dòng)的中文多文檔自動(dòng)文摘方法,根據(jù)LDA模型中主題的概率分布和句子的概率分布,得到句子權(quán)重計(jì)算模型。LDA模型所使用的詞袋假設(shè)不能很好地考慮單詞和句子的位置,以及句子、文檔和文檔集合之間的結(jié)構(gòu)關(guān)系[7]。
基于圖排序算法的自動(dòng)文摘方法[8-10],主要思想是將文本單元(句子、詞匯等)作為圖的節(jié)點(diǎn),該方法優(yōu)點(diǎn)是可以結(jié)合圖的全局信息進(jìn)行判斷和計(jì)算圖節(jié)點(diǎn)權(quán)重,而不僅僅依賴于其中幾個(gè)節(jié)點(diǎn)有限的信息。將這種排序算法思想應(yīng)用到自動(dòng)文摘中,利用文本中的詞匯或語(yǔ)義信息,構(gòu)建無(wú)向加權(quán)圖,對(duì)語(yǔ)句進(jìn)行排序。
基于圖排序算法的自動(dòng)文摘,可將這種考慮全局信息的排序算法應(yīng)用到自動(dòng)文摘中,且在計(jì)算句子權(quán)重過(guò)程中充分考慮詞項(xiàng)之間、句子之間或詞與句子之間的全局關(guān)系。將兩種算法相結(jié)合,恰好可以彌補(bǔ)LDA模型的不足,更好地對(duì)句子排序。
改進(jìn)算法步驟如下:
(1)主題模型生成中,詞匯、句子的概率可由下式得到:
結(jié)合過(guò)程分為3步:①基于LDA主題模型對(duì)文檔集合進(jìn)行文本建模,利用公式(1)實(shí)現(xiàn)詞語(yǔ)的主題影響力;②根據(jù)公式(2)得到句子重要性; ③把句子重要性帶入公式(3),結(jié)合TextRank算法實(shí)現(xiàn)節(jié)點(diǎn)的重要性計(jì)算,以此得到句子最終的權(quán)重結(jié)果。
3 實(shí)驗(yàn)
由于目前沒(méi)有一個(gè)標(biāo)準(zhǔn)的實(shí)驗(yàn)語(yǔ)料用于中文多文檔自動(dòng)文摘,為便于實(shí)驗(yàn),本文選用哈工大信息檢索研究中心多文檔自動(dòng)文摘語(yǔ)料,共40個(gè)主題,每個(gè)主題下有5篇左右的新聞報(bào)道,圖3為其中一篇文章示例。
本文采取單文檔自動(dòng)文摘的生成思路,首先將同一主題下的多個(gè)txt文檔合并為一個(gè)大的文檔,然后進(jìn)行實(shí)驗(yàn)。
3.1 文檔預(yù)處理
文檔預(yù)處理分為文本的分詞、去停用詞以及詞性標(biāo)注。
(1)分詞:英文是以詞為單位的,詞和詞之間有空格隔開(kāi),而中文是基本單位是字,句子中所有的字連起來(lái)才能描述一個(gè)意思。因此,尋找一個(gè)好的分詞工具對(duì)中文語(yǔ)料進(jìn)行分詞處理至關(guān)重要。加之新聞?wù)Z料的特點(diǎn),本文采用jieba分詞,在傳統(tǒng)的基于統(tǒng)計(jì)分詞方法之上加入未登錄詞識(shí)別及詞性標(biāo)注,在一定程度上提高了分詞效果。
分詞部分結(jié)果如圖4所示。
(2)停用詞相當(dāng)于過(guò)濾詞,這些詞往往數(shù)量較大且沒(méi)有實(shí)際意義,同時(shí)會(huì)產(chǎn)生大量噪音。這里采用中科院停用詞表,得到圖5結(jié)果。
(3)詞性標(biāo)注:即給每個(gè)詞標(biāo)注上詞性,見(jiàn)圖6。
3.2 候選文摘句生成
(1)對(duì)其中一個(gè)文檔集單一txt文檔進(jìn)行處理,得到打分靠前的幾個(gè)句子如圖7所示。
(2)對(duì)其中一個(gè)文檔集合并后的文檔進(jìn)行處理得到句子打分,按一定比例抽取分值靠前的幾個(gè)句子如圖8所示。
3.3 文摘評(píng)價(jià)
自動(dòng)文摘的評(píng)價(jià)方法大致分為兩類:①內(nèi)部評(píng)價(jià)(Intrinsic),它可以直接分析摘要的質(zhì)量[11];②外部評(píng)價(jià)(Extrinsic),它是一種間接評(píng)價(jià)方法,將自動(dòng)文摘應(yīng)用于某個(gè)特殊任務(wù)中,依據(jù)文摘完成這項(xiàng)任務(wù)的效果進(jìn)行評(píng)價(jià)。目前比較熱門的評(píng)價(jià)方法是將專家根據(jù)原文生成的文摘作為標(biāo)準(zhǔn)文摘,判斷生成的自動(dòng)文摘中所包含的標(biāo)準(zhǔn)文摘信息程度。
使用3種方法生成的候選摘要句與語(yǔ)料所提供的已標(biāo)注好的人工摘要作對(duì)比試驗(yàn),利用計(jì)算句子相似度算法中的TF-IDF算法進(jìn)行計(jì)算:
R= 機(jī)器摘要與標(biāo)準(zhǔn)摘要句共有關(guān)鍵詞個(gè)數(shù)標(biāo)準(zhǔn)摘要句中關(guān)鍵詞總數(shù)(5)
依據(jù)式(5),得到圖9結(jié)果。
從圖9可以看出,利用LDA與Textrank相結(jié)合的算法得到的準(zhǔn)確率稍優(yōu)于兩種算法單獨(dú)生成的結(jié)果。3種結(jié)果中LDA最差,其原因在于本文使用的新聞?wù)Z料較短,在建立主題模型時(shí)主題數(shù)目設(shè)置為1,數(shù)目偏少。而主題模型效果一般會(huì)隨著主題數(shù)目增多其混亂度減小,這樣就導(dǎo)致LDA產(chǎn)生的文摘句準(zhǔn)確率偏差。
4 結(jié)語(yǔ)
本文采用LDA主題模型與TextRank算法相結(jié)合的算法,得到了同一主題下的多篇新聞報(bào)道文摘。但由于目前中文多文檔語(yǔ)料庫(kù)缺乏,加之還沒(méi)有一個(gè)完整的中文文摘評(píng)價(jià)系統(tǒng),因此本文實(shí)驗(yàn)使用的數(shù)據(jù)語(yǔ)料量稍顯不足。下一步可使用搜狗語(yǔ)料庫(kù)等大規(guī)模語(yǔ)料進(jìn)行實(shí)驗(yàn),同時(shí)構(gòu)造一個(gè)完整的評(píng)價(jià)系統(tǒng)。
參考文獻(xiàn):
[1] 秦兵,劉挺,李生.多文檔自動(dòng)文摘綜述[J].中文信息學(xué)報(bào),2005(6):15-22,58.
[2] 胡立.基于語(yǔ)義層次聚類的多文檔自動(dòng)摘要研究[D].廣州:華南理工大學(xué),2014.
[3] 蘭希.基于篇章修辭結(jié)構(gòu)的多文檔自動(dòng)文摘系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[D].廈門:廈門大學(xué),2014.
[4] 陳萬(wàn)振.TextRank關(guān)鍵詞提取算法與SOM文本聚類模型的優(yōu)化研究[D].南寧:廣西大學(xué),2016.
[5] 楊瀟.基于主題模型LDA的多文檔自動(dòng)摘要[C].第五屆全國(guó)信息檢索學(xué)術(shù)會(huì)議論文集,2009.
[6] 張明慧.LDA主題驅(qū)動(dòng)的中文多文檔自動(dòng)文摘方法[C].第五屆全國(guó)青年計(jì)算語(yǔ)言學(xué)研討會(huì)論文集,2010.
[7] 曹洋.基于TextRank算法的單文檔自動(dòng)文摘研究[D].南京:南京大學(xué),2016.
[8] ANTIQUEIRA L,JROLIVEIRA O.Complex network approach to text summarization[J]. Information Science,2009(179):584-599.
[9] WAN X J,YANG JW.Multi-document summarization using cluster-based link analysis[C].Proc of the 27th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Sheffield,UK,2008:299-306.
[10] JONES K S. Automatic summarizing factors and directions advance in automatic text sum-marization[M]. Cambridge MA:MIT Press:1998.
[11] 顧益軍,夏天.融合LDA與TextRank的關(guān)鍵詞抽取研究[J].現(xiàn)代圖書情報(bào)技術(shù),2014(1):41-47.
(責(zé)任編輯:杜能鋼)