曾昭霖 嚴(yán)馨 余兵兵 周楓 徐廣義
摘 要:為了解決傳統(tǒng)多文檔抽取式摘要方法無(wú)法有效利用文檔之間的語(yǔ)義信息、摘要結(jié)果存在過(guò)多冗余內(nèi)容的問(wèn)題,提出了一種基于分層最大邊緣相關(guān)的柬語(yǔ)多文檔抽取式摘要方法。首先,將柬語(yǔ)多文檔文本輸入到訓(xùn)練好的深度學(xué)習(xí)模型中,抽取得到所有的單文檔摘要;然后,依據(jù)類(lèi)似分層瀑布的方式,迭代合并所有的單文檔摘要,通過(guò)改進(jìn)的最大邊緣相關(guān)算法合理地選擇摘要句,得到最終的多文檔摘要。結(jié)果表明,與其他方法相比,通過(guò)使用深度學(xué)習(xí)方法并結(jié)合分層最大邊緣相關(guān)算法共同獲得的柬語(yǔ)多文檔摘要,R1,R2,R3和RL值分別提高了4.31%,5.33%,6.45%和4.26%。基于分層最大邊緣相關(guān)的柬語(yǔ)多文檔抽取式摘要方法在保證摘要句子多樣性和差異性的同時(shí),有效提高了柬語(yǔ)多文檔摘要的質(zhì)量。
關(guān)鍵詞: 自然語(yǔ)言處理;柬語(yǔ);抽取式摘要;深度學(xué)習(xí);瀑布法;最大邊緣相關(guān)
中圖分類(lèi)號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼: A
doi:10.7535/hbkd.2020yx06005
Khmer multi-document extractive summarization method
based on hierarchical maximal marginal relevance
ZENG Zhaolin1,2, YAN Xin1,2, YU Bingbing1,2, ZHOU Feng1,2, XU Guangyi3
(1.Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming,Yunnan 650500,China;2.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming, Yunnan 650500,China;3. Yunnan Nantian Electronic Information Industry Company Limited, Kunming,Yunnan 650040,China)
In order to solve the problem of ineffective utilization of the semantic information between documents in the traditional multi-document extractive summarization method and the excessive redundant content in the summary result, a Khmer multi-document extractive summarization method based on hierarchical maximal marginal relevance(MMR)was proposed. Firstly, the Khmer multi-document text was input into the trained deep learning model to extract all the single-document summaries. Then, all single document summaries were iteratively merged according to a similar hierarchical waterfall method, and the improved MMR algorithm was used to reasonably select summary sentences to obtain the final multi-document summary. The experimental results show that the R1, R2, R3, RL values of the Khmer multi-document summary obtained by using the deep learning method combined with the hierarchical MMR algorithm increases by 4.31%, 5.33%, 6.45% and 4.26% respectively compared with other methods. The Khmer multi-document extractive summarization method based on hierarchical MMR can effectively improve the quality of Khmer multi-document summary while ensuring the diversity and difference of the summary sentences.
Keywords:
natural language processing;Khmer; extractive summarization;deep learning;waterfall method;maximal marginal relevance(MMR)
隨著“一帶一路”倡議的實(shí)施,中國(guó)和柬埔寨作為重要的雙邊貿(mào)易國(guó)家和友好合作伙伴,交流與往來(lái)日益增加,有關(guān)柬埔寨語(yǔ)(簡(jiǎn)稱(chēng)柬語(yǔ),下同)的自然語(yǔ)言處理技術(shù)[1]研究變得尤為重要。隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展、信息的增加以及傳播和交互速度的迅速加快,人們對(duì)互聯(lián)網(wǎng)的需求正在發(fā)生變化[2]。如何從大量冗余信息中快速得到主要內(nèi)容已成為當(dāng)前研究的熱點(diǎn)。簡(jiǎn)短的摘要可以幫助人們快速獲取信息,加快信息傳播速度。根據(jù)待觀察文檔數(shù)量的多少,可以將文檔摘要的形式分為單文檔摘要[3]和多文檔摘要[4]。前者是對(duì)一個(gè)文檔內(nèi)容進(jìn)行提取生成一篇摘要,后者是從一個(gè)話題下的多篇相關(guān)文檔中生成一篇摘要。單文檔摘要技術(shù)主要面向單個(gè)文檔,隨著時(shí)代的發(fā)展,多文檔摘要技術(shù)逐漸得到重視。迄今為止,已經(jīng)有很多方法被應(yīng)用到多文檔摘要技術(shù)中,主要分為基于特征的方法、基于聚類(lèi)的方法、基于圖模型的方法和基于深度學(xué)習(xí)的方法。
基于特征的方法即對(duì)語(yǔ)料進(jìn)行特征構(gòu)造,轉(zhuǎn)化為句子排序問(wèn)題,依據(jù)句子的重要性挑選摘要句,組合形成摘要。常用的句子特征如句子位置、句子長(zhǎng)度、線索詞等[5]。常用于基于特征的多文檔摘要方法還有基于中心性(Centrality)[6]相關(guān)方法,其是在識(shí)別輸入源中心通道的基礎(chǔ)上檢測(cè)出最顯著的信息,用于生成通用的摘要;而基于覆蓋率(Coverage)[7]的方法則產(chǎn)生由單詞、主題、時(shí)間驅(qū)動(dòng)的摘要。基于特征的多文檔摘要方法雖然已得到廣泛研究,但該方法無(wú)法理解文檔的上下文信息,僅在句子級(jí)別對(duì)句子進(jìn)行評(píng)分。
基于聚類(lèi)的方法即將句子集進(jìn)行歸類(lèi)。盡管多文檔包含多個(gè)主題且各文檔內(nèi)容通常有所不同,但是通過(guò)聚類(lèi)方法可以提取出在聚類(lèi)簇中表達(dá)主題信息的句子形成摘要[8]。RADEV等[9]提出了基于質(zhì)心代表文檔集合的邏輯主題的抽取式摘要方法;MCKEOWN等[10]開(kāi)發(fā)了基于片斷聚類(lèi)方法的多文檔摘要系統(tǒng)MultiGen,識(shí)別出不同文件間的相似之處和不同之處,通過(guò)語(yǔ)義相似度提取主題,從主題中抽取交集作為關(guān)鍵詞,生成連貫的摘要。但是,基于聚類(lèi)的方法需要事先知道聚類(lèi)的類(lèi)別數(shù)。
基于圖模型的方法廣泛用于多文檔摘要任務(wù)中,把諸如句子和段落之類(lèi)的文本單元集成到基于圖的結(jié)構(gòu)中,使用類(lèi)似投票機(jī)制提取文本摘要[11]。典型的圖模型為PageRank算法[12], 初始時(shí)為每個(gè)頁(yè)面分配相同的重要性評(píng)分,根據(jù)算法迭代更新每個(gè)頁(yè)面的PageRank評(píng)分,直至評(píng)分穩(wěn)定。TextRank是在PageRank算法基礎(chǔ)上,對(duì)每個(gè)詞節(jié)點(diǎn)附上權(quán)值,構(gòu)建關(guān)于詞的無(wú)向帶權(quán)圖,建立圖模型,利用投票機(jī)制對(duì)文本的重要成分進(jìn)行排序,生成摘要[13]。YASUNAGA等[14]提出了GCN(graph convolutional network)模型,將句子關(guān)系圖融入到神經(jīng)網(wǎng)絡(luò)模型中,得到句子的重要性,利用依此產(chǎn)生的句子高維表征,通過(guò)重要性估計(jì)提取摘要句。
基于深度學(xué)習(xí)的方法即利用深度學(xué)習(xí)訓(xùn)練出詞、句子等級(jí)別具有上下文信息、語(yǔ)義關(guān)系的表征,以便更好地生成摘要[15]。CAO等[16]針對(duì)基于查詢(xún)的多文檔摘要任務(wù),提出了AttSum模型,采用聯(lián)合學(xué)習(xí)的方法結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制對(duì)句子進(jìn)行建模表示,能夠有效學(xué)習(xí)到文檔主旨和摘要句子之間的相關(guān)性;NALLAPATI等[17]提出了基于循環(huán)神經(jīng)網(wǎng)絡(luò)的SummaRuNNer模型,從文本的重要性和新穎性等角度出發(fā),解釋文本摘要的生成過(guò)程;NARAYAN等[18]利用基于Encoder-Decoder框架的分層文檔編碼器和基于注意力的解碼器結(jié)構(gòu),結(jié)合附帶信息的關(guān)注來(lái)更好地選擇摘要句。但是單純的基于深度學(xué)習(xí)的方法需要大量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練。
目前柬語(yǔ)自然語(yǔ)言處理研究的基礎(chǔ)較為薄弱,且主要集中在命名實(shí)體識(shí)別與可比語(yǔ)料方面,關(guān)于多文檔摘要方面的研究十分稀少,領(lǐng)域?qū)<胰斯?biāo)注的代價(jià)十分昂貴,柬語(yǔ)多文檔摘要語(yǔ)料較為匱乏。已有多文檔抽取式摘要方法大多使用的是有監(jiān)督的學(xué)習(xí)方法,不太適用于柬語(yǔ)多文檔摘要。本文利用無(wú)監(jiān)督學(xué)習(xí)方法,在不依賴(lài)任何標(biāo)注數(shù)據(jù)的情況下,通過(guò)對(duì)多文檔內(nèi)在特征的挖掘,找到文檔間的關(guān)系,使用類(lèi)似瀑布分層的方式,結(jié)合改進(jìn)的最大邊緣相關(guān)算法MMR[19],基于句子特征的5種評(píng)估方法的綜合得分決定摘要句的重要性,依據(jù)ROUGE-L[20]召回率評(píng)估候選摘要句與已選摘要句之間內(nèi)容的冗余關(guān)系,迭代合并通過(guò)深度學(xué)習(xí)模型得到的單文檔摘要集,有效提高柬語(yǔ)多文檔摘要的質(zhì)量,保證摘要結(jié)果的多樣性和差異性。
1 多文檔抽取式摘要的主要內(nèi)容
在通過(guò)訓(xùn)練好的CNN-LSTM-LSTM深度學(xué)習(xí)模型得到柬語(yǔ)單文檔摘要集的基礎(chǔ)上,添加一種分層最大邊緣相關(guān)算法,迭代合并所有單文檔摘要作為最終的多文檔摘要??紤]到多文本摘要任務(wù)中存在較多的冗余內(nèi)容,本文用于抽取單文檔摘要的深度學(xué)習(xí)模型參數(shù)無(wú)法識(shí)別多文檔文本中較多的冗余內(nèi)容,于是提出了一種基于分層最大邊緣相關(guān)算法的柬語(yǔ)多文檔抽取式摘要方法。該方法分2步完成:第1步,將每個(gè)單文檔文本輸入到已經(jīng)訓(xùn)練好的CNN-LSTM-LSTM深度學(xué)習(xí)模型中,獲取所有的單文檔摘要;第2步,依據(jù)類(lèi)似瀑布的方式,將按新聞時(shí)序排序的單文檔摘要集通過(guò)改進(jìn)的最大邊緣相關(guān)算法,迭代合并所有單文檔摘要,得到最終的多文檔摘要。過(guò)程如圖1所示。
本文中的CNN-LSTM-LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型的輸入層為已經(jīng)過(guò)分詞、詞性標(biāo)注、去噪等預(yù)處理之后的柬語(yǔ)多文檔新聞?wù)Z料。在深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,先使用卷積神經(jīng)網(wǎng)絡(luò)CNN對(duì)輸入文檔D中的n個(gè)句子進(jìn)行編碼,獲得所有句子S的句子表征{S1,S2,…,Sn},將其作為長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)LSTM(long short-term memory)[21]的輸入。根據(jù)CNN-LSTM-LSTM網(wǎng)絡(luò)結(jié)構(gòu)可知,文檔編碼器LSTM的隱藏狀態(tài)為{h1,h2,…,hi,…,hn},其中hi表示文檔D中第i個(gè)句子對(duì)應(yīng)的文檔編碼器LSTM中的隱藏狀態(tài),通過(guò)文檔編碼器LSTM得到該輸入文檔的表征hn,hn為包含文檔D中所有句子信息的最后一個(gè)隱藏狀態(tài)。句子提取器LSTM作為另外一種循環(huán)神經(jīng)網(wǎng)絡(luò),初始的隱藏狀態(tài)的輸入為與其相連的文檔編碼器LSTM中的最后一個(gè)隱藏狀態(tài)hn,也是輸入文檔的表征。句子提取器LSTM中的隱藏狀態(tài)表示為
t=LSTM(pt-1St-1,t-1) 。
式中:t表示在第t個(gè)時(shí)間步句子提取器LSTM的隱藏狀態(tài);pt-1表示句子提取器認(rèn)為前一句應(yīng)該被提取的概率;St-1表示前一句的句子表征。
結(jié)合注意力機(jī)制[22]的句子提取器在處理第t個(gè)時(shí)間步的句子時(shí),通過(guò)將其當(dāng)前的隱藏狀態(tài)t與其在文檔編碼器中的隱藏狀態(tài)ht相關(guān)聯(lián),經(jīng)過(guò)以下處理得到該句子為摘要句標(biāo)簽的概率:
P(yL=1|St)=σ(MLP([t;ht]))。
式中:yL∈{0,1}為文檔D中的句子是否為摘要句的標(biāo)簽,1表示該句為摘要句;MLP是一個(gè)多層神經(jīng)網(wǎng)絡(luò),輸入為[t;ht],“;”表示連接;σ表示Sigmoid激活函數(shù)。CNN-LSTM-LSTM神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)示意圖如圖2所示。
1.1 從單文檔摘要到多文檔摘要
通常將包含多個(gè)單文檔文本摘要的集合稱(chēng)為多文檔摘要,與單文檔摘要相比,多文檔摘要包含眾多的冗余內(nèi)容,同一話題在不同摘要中重復(fù)出現(xiàn)。如何將單文檔摘要集轉(zhuǎn)化為更為高效的多文檔摘要是本文解決的問(wèn)題。傳統(tǒng)的多文檔摘要方法[23]是將所有單文檔文本連接起來(lái),看成一個(gè)文檔,再使用單文檔摘要方法生成最終的多文檔摘要。當(dāng)單文檔文本數(shù)目較少時(shí),該方法表現(xiàn)出良好的效果,但隨著文檔數(shù)量的逐漸增加,該方法的性能逐漸下降,在識(shí)別冗余內(nèi)容時(shí)具有局限性。另外,該方法也忽略了事件發(fā)生的時(shí)間信息。為了克服該方法的局限性,一種可能的策略是先逐個(gè)抽取出單文檔摘要,并將它們有規(guī)則地迭代組合在一起。為了迭代組合單文檔摘要,筆者提出瀑布法,如圖3所示。瀑布法包含2步。首先,將柬語(yǔ)多文檔文本通過(guò)CNN-LSTM-LSTM深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型,獲得關(guān)于每篇文檔的單文檔摘要集{S1,S2,…,Sj,…,Sn},Sn假設(shè)為最后一篇單文檔摘要;其次,將第1個(gè)單文檔摘要S1和第2個(gè)單文檔摘要S2連接在一起,合并為一個(gè)輸入摘要,通過(guò)改進(jìn)的MMR算法和句子的重要性得分評(píng)估對(duì)2個(gè)單文檔摘要的句子進(jìn)行排序,挑選前若干個(gè)MMR總得分最高的句子進(jìn)行合并,作為該階段合并后的文檔摘要S1,2,再采取同樣方法,將合并得到的文檔摘要S1,2與第3個(gè)單文檔摘要S3連接合并,得到該階段合并后的文檔摘要S1,2,3。重復(fù)上述方法,直到迭代完成所有抽取出來(lái)的單文檔摘要,得到一個(gè)最終的柬語(yǔ)多文檔摘要。
該方法對(duì)輸入文檔摘要的時(shí)間順序較為敏感,在每次迭代過(guò)程中,候選摘要都要與已選摘要合并,所以初始文檔的摘要比后面文檔的摘要更有可能被刪除。由于較新的新聞內(nèi)容更符合人們的信息需求,因此本文依據(jù)新聞文檔的時(shí)間順序?qū)挝臋n摘要集進(jìn)行排序后再進(jìn)行合并。通過(guò)實(shí)驗(yàn)表明,摘要中包含的句子個(gè)數(shù)為20的時(shí)候,效果最好,因此把20設(shè)為本文摘要包含的句子個(gè)數(shù)參數(shù)。這種方法可以很好地解決每個(gè)文檔內(nèi)與每個(gè)文檔之間的信息冗余問(wèn)題,在保證多文本摘要多樣性的同時(shí),可以保證多文檔摘要的差異性。
1.2 分層最大邊緣相關(guān)算法
最大邊緣相關(guān)算法MMR(maximal marginal relevance),是一種用于實(shí)現(xiàn)文檔摘要的方法。新聞文本中包含許多重復(fù)的背景信息。MMR的主要思想是使所選的摘要句與文檔主旨高度相關(guān),在確保摘要多樣性的同時(shí),使候選摘要句與已選摘要句之間的差異性盡可能大,最終摘要結(jié)果僅有較低冗余信息,達(dá)到平衡摘要句之間多樣性和差異性的目的。
本文使用改進(jìn)的MMR算法,在句子重要性評(píng)估得分上,使用基于句子特征的5種評(píng)估方法的綜合得分表示句子和文檔主旨的相似性得分,以便更好地選擇摘要句子;在句子的差異性比較上,利用ROUGE-L召回率進(jìn)行評(píng)估,依據(jù)候選摘要句子與已選摘要句子之間的差異性得分,降低多文檔摘要內(nèi)容的冗余。首先,在已按新聞時(shí)序排好的單文檔摘要集D中,利用句子重要性評(píng)估方法選擇得分排在最前的摘要句Sj作為初始摘要句子,將其添加到已選摘要句集S中,初選摘要句子Sj是單文檔摘要集D中重要性得分最高的一句,同時(shí)也是當(dāng)前已選摘要句集中內(nèi)容重疊最少的;然后,通過(guò)MMR算法計(jì)算剩余摘要句的得分值,決定是否將其添入已選摘要句集S中。不斷迭代計(jì)算單文檔摘要集D中的剩余摘要句子,直至已選摘要句集S達(dá)到摘要長(zhǎng)度的限制。改進(jìn)的MMR算法計(jì)算公式表示為
MMR=arg max[DD(X]Si∈D\S
[λsim1(Si,D)[TXX}-*2][DD(X] 重要性
-(1-λ)max[DD(X]Sj∈S sim2(Si,Sj)][TXX}]
冗余性。
式中:D為單文檔摘要的結(jié)果文檔集,由所有抽取出來(lái)的單文檔摘要按新聞時(shí)序排列組成;S為當(dāng)前已選摘要句集;Si表示候選摘要句;Sj表示已選摘要句集S中的已選摘要句;λ是平衡因子;λsim1(Si,D)表示候選摘要句Si與單文檔摘要集D的相似度,作為該句重要性的評(píng)估,其值越大,表明句子Si與文檔主旨的相關(guān)度越緊密,包含重要的文檔主旨信息,適合作為摘要句;(1-λ)max[DD(X]Sj∈S sim2(Si,Sj)表示候選摘要句Si與已選摘要句Sj之間的相似性,作為句子Si的冗余性評(píng)估,其值越小,表明該句與已選摘要集S之間的差異性越大,兩者間的冗余內(nèi)容越少。迭代計(jì)算能使重要性和差異性之間平衡最大的候選摘要句加入已選摘要句集S。通過(guò)實(shí)驗(yàn)調(diào)整λ值,達(dá)到摘要句多樣性和差異性之間的平衡。 分層最大邊緣相關(guān)算法描述如表1所示。
1.2.1 句子的重要性評(píng)估
為了評(píng)估摘要句子的重要性sim1(Si,D),選取若干關(guān)于句子不同特征的比較方法,通過(guò)計(jì)算基于句子不同特征的綜合得分,用來(lái)代表摘要句子與文檔之間的重要性得分。本文使用基于句子5種不同特征的得分評(píng)估摘要句的重要性,包括基于句子中關(guān)鍵詞的得分、基于句子與多文檔標(biāo)題相似性的得分、基于句子中線索詞的得分、基于句子長(zhǎng)度的得分以及基于句子位置的得分。
1)基于句子中關(guān)鍵詞的得分
關(guān)鍵詞是反映文章中主題的詞語(yǔ),句子包含的關(guān)鍵詞越多,其包含文檔主題的信息量就越大,句子就越重要。關(guān)鍵詞的提取,首先要將分詞后的單文檔摘要文本過(guò)濾掉無(wú)意義的停用詞,然后使用TF-IDF(term frequency-inverse document frequency, 詞頻-逆文本頻率)算法計(jì)算出每個(gè)詞語(yǔ)的權(quán)重,最后根據(jù)詞語(yǔ)的權(quán)重提取出關(guān)鍵詞。詞語(yǔ)TF-IDF權(quán)重的計(jì)算公式為
Wi,j=tfi,j×logNnj+1。 (1)
式中:Wi,j表示特征詞的TF-IDF權(quán)重;tfi,j表示詞語(yǔ)wi在當(dāng)前文本dj中出現(xiàn)的頻率;N表示抽取出的單文檔摘要集的文本總數(shù);nj為單文檔摘要集合中包含詞語(yǔ)wi的單文檔摘要文本數(shù)目;nj+1中的+1為拉普拉斯平滑,防止當(dāng)nj為0時(shí)出現(xiàn)分母為0的非法情況。
計(jì)算得到每個(gè)詞語(yǔ)的權(quán)重是出于關(guān)鍵詞得分對(duì)句子重要性的影響考慮,挑選出詞語(yǔ)權(quán)重排在前面的若干實(shí)詞作為關(guān)鍵詞短語(yǔ)(通常為5~10個(gè))。研究發(fā)現(xiàn),抽取出權(quán)重最大的前8個(gè)實(shí)詞作為關(guān)鍵詞較為合適?;陉P(guān)鍵詞的得分計(jì)算公式為
WX(Si)=∑8k=1W(Si,k)。
式中:WX(Si)表示句子Si基于關(guān)鍵詞的得分;∑8k=1W(Si,k)表示句子Si包含的關(guān)鍵詞得分之和;Si,k表示句子Si中所包含的關(guān)鍵詞;W(Si,k)表示句子Si中包含的關(guān)鍵詞所對(duì)應(yīng)的權(quán)重大小。
由于柬語(yǔ)句子長(zhǎng)度變化較大,為了避免因?yàn)榫渥娱L(zhǎng)度差距導(dǎo)致的句子間重要性得分差距過(guò)大,在句子包含TF-IDF關(guān)鍵詞權(quán)重的基礎(chǔ)上進(jìn)行歸一化處理,使不同長(zhǎng)度的句子基于關(guān)鍵詞權(quán)重值處于同一數(shù)值范圍,計(jì)算公式為
W1(Si)=(WX(Si)-min WX(S))(max WX(S)-min WX(S))。
式中:W1(Si)為句子Si歸一化后基于關(guān)鍵詞的句子得分;WX(Si)為句子Si歸一化前基于關(guān)鍵詞的句子得分;max W(S)為所有句子中得分的最大值;min W(S)為所有句子中得分的最小值。
2)基于句子與標(biāo)題相似度的得分
新聞文本標(biāo)題通常能反映該文本的主題,對(duì)摘要句的重要性評(píng)估具有很大影響。通過(guò)計(jì)算摘要句和標(biāo)題之間的相似度得分來(lái)評(píng)估單文檔摘要集中摘要句子的重要性,相似度越大,則該句就越重要,被選中的可能性就越大。在向量空間模型VSM中通過(guò)余弦相似度計(jì)算,句子Si和標(biāo)題C以包含關(guān)鍵詞的得分作為特征的向量表示之間的相似度得分,表示摘要句和標(biāo)題的整體相似度得分。本文中Si=(WSi,1,
WSi,2,…,WSi,8),
C=(WC1,WC2,…,WC8)?;诰渥雍蜆?biāo)題的余弦相似度得分計(jì)算公式為
W2(Si)=
∑8k=1W(Ck)×W(Si,k)
∑8k=1W(Ck)2×
∑8k=1W(Si,k)2。
式中:W2(Si)表示句子Si與標(biāo)題C的相似度得分,分值越高,與文本主旨的相關(guān)度越高,句子Si越應(yīng)該被選取;W(Si,k)表示句子Si中所包含的由式(1)得出的第k個(gè)關(guān)鍵詞權(quán)重;Ck表示標(biāo)題C中所包含8個(gè)關(guān)鍵詞中的第k個(gè)關(guān)鍵詞;W(Ck)表示標(biāo)題C中所包含的第k個(gè)關(guān)鍵詞得分。
3)基于句子中線索詞的得分
句子中某些詞語(yǔ)并不是關(guān)鍵詞,但是依然可以起到提示性的作用,如“綜上所述”“總而言之”“說(shuō)明”等具有對(duì)文本主旨內(nèi)容牽引的指示詞,會(huì)包含更多的信息,應(yīng)該給予較大權(quán)重。句子Si基于是否包含線索詞WC的得分規(guī)則如式(2)所示:
W3(Si)= 1, WCSi,
0, WCSi。(2)
4)基于句子長(zhǎng)度的得分
過(guò)短的句子通常沒(méi)有實(shí)際意義,并且包含文檔主旨的信息很少;過(guò)長(zhǎng)的句子雖然包含了更多語(yǔ)義信息,但是內(nèi)容過(guò)于繁雜,通常不屬于摘要。因此,摘要句的選擇應(yīng)該選擇長(zhǎng)度適中的句子。句子Si基于句子長(zhǎng)度LSi的得分規(guī)則如式(3)所示:
W4(Si)=
1, 15≤LSi≤25,
0.5, 5≤LSi<15 or 25 0, others 。 (3) 5)基于句子位置的得分 大部分柬語(yǔ)新聞文本結(jié)構(gòu)的特點(diǎn)會(huì)在首段或者首句對(duì)該篇新聞報(bào)道的主題核心進(jìn)行說(shuō)明。通過(guò)閱讀大量新聞報(bào)道發(fā)現(xiàn),為了吸引讀者的閱讀興趣以及方便讀者能夠快速了解所報(bào)道的事件,新聞報(bào)道文章往往會(huì)在首段的首句引出新聞主題核心,在首段的非首句仍然是對(duì)新聞報(bào)道的總結(jié)性描述。因此應(yīng)該給予句子Si位于首段 Pfirst首句Sf和首段非首句更高的權(quán)重,計(jì)算規(guī)則如式(4)所示: W5(Si)= 1, SiPfirst and Si=Sf, 0.5, SiPfirst and Si≠Sf, 0, SiPfirst。[JB)][JY] (4) 通過(guò)計(jì)算上述基于句子5種不同特征重要性得分的組合,對(duì)單文檔摘要集中每個(gè)摘要句子的相關(guān)度和重要度進(jìn)行綜合評(píng)分?;诰渥泳C合特征的重要性得分計(jì)算式如(5)所示: Score(Si)=∑5n=1(γn×Wn(Si)) 。 (5) 式中: Score(Si)表示句子Si的綜合評(píng)估得分;Wn(Si)表示第i個(gè)句子基于第n項(xiàng)句子特征的重要性得分;γn表示關(guān)于上述5項(xiàng)基于句子不同特征得分在綜合得分中的比例因子系數(shù),且∑5n=1 γn=1,1≤n≤5,且n為整數(shù)。通過(guò)計(jì)算Score(Si)得到每個(gè)摘要句Si的sim1(si,D)的重要性得分。 1.2.2 句子的冗余性評(píng)估 為了評(píng)估候選摘要句與已選摘要句之間的差異性得分 max Sj∈S sim2(Si,Sj),Si表示候選摘要句,Sj表示已經(jīng)被選中的摘要句,S表示已選摘要句集,利用ROUGE-L召回率評(píng)估,通過(guò)計(jì)算候選句子和已選摘要句子之間的最長(zhǎng)公共子序列長(zhǎng)度,除以已被選中摘要語(yǔ)句的長(zhǎng)度,作為候選摘要句子的差異性得分。產(chǎn)生較高ROUGE-L精度的候選語(yǔ)句認(rèn)為與已選摘要有著顯著的內(nèi)容重疊,它將獲得較低的MMR分?jǐn)?shù),因此不太可能作為摘要句,達(dá)到去除多文檔摘要內(nèi)容冗余的目的。計(jì)算式如式(6)所示: Rlcs=LCS(X,Y)m 。 (6) 式中:X表示候選摘要句;Y表示已經(jīng)被選中的摘要句;LCS表示X與Y的最長(zhǎng)公共子序列的長(zhǎng)度; m表示已被選中的摘要句的長(zhǎng)度;Rlcs表示候選摘要句與已選摘要句的內(nèi)容重疊率,即冗余程度。通過(guò)計(jì)算ROUGE-L的值,得到max[DD(X]Sj∈S sim2(Si,Sj)得分。 2 實(shí)驗(yàn)數(shù)據(jù)分析 2.1 實(shí)驗(yàn)數(shù)據(jù) 本文中所使用的柬語(yǔ)多文檔實(shí)驗(yàn)語(yǔ)料主要來(lái)源于柬埔寨新聞日?qǐng)?bào)網(wǎng)、Koh Santepheap以及柬埔寨MYTV等網(wǎng)站,通過(guò)人工收集和網(wǎng)頁(yè)爬取方法獲得相關(guān)主題新聞文檔,再進(jìn)行分詞、詞性標(biāo)注等預(yù)處理,所采集到的語(yǔ)料涵蓋了政治、體育、娛樂(lè)和軍事等眾多領(lǐng)域。利用實(shí)驗(yàn)室分詞平臺(tái)進(jìn)行分詞預(yù)處理,得到大約700個(gè)新聞標(biāo)題,5 000篇左右的新聞文檔,每個(gè)新聞標(biāo)題下大約包含7篇新聞報(bào)道,每篇文檔中包含30個(gè)左右的句子,每個(gè)新聞標(biāo)題下的所有新聞文本按照新聞時(shí)間順序排列成1份柬語(yǔ)多文檔語(yǔ)料。該多文檔摘要系統(tǒng)的任務(wù)是從包含7篇新聞文檔的單文檔摘要結(jié)果中合并抽取生成1份簡(jiǎn)潔、流暢、涵蓋主題內(nèi)容的多文檔摘要。 2.2 評(píng)價(jià)指標(biāo) 自動(dòng)文本摘要質(zhì)量的評(píng)估是一項(xiàng)比較困難的任務(wù),通常選取1個(gè)或多個(gè)指標(biāo)對(duì)生成摘要和參考摘要進(jìn)行內(nèi)部評(píng)價(jià),內(nèi)部評(píng)價(jià)比較的是摘要內(nèi)容的信息覆蓋率。在本實(shí)驗(yàn)中,對(duì)摘要結(jié)果的評(píng)價(jià)通過(guò)與專(zhuān)家標(biāo)注的參考摘要進(jìn)行對(duì)比,實(shí)驗(yàn)數(shù)據(jù)經(jīng)過(guò)專(zhuān)業(yè)人員審核,參考摘要通過(guò)多個(gè)專(zhuān)家標(biāo)注,準(zhǔn)確性高。目前較為廣泛使用的摘要評(píng)價(jià)指標(biāo)為ROUGE指標(biāo),其評(píng)測(cè)原理采用召回率作為指標(biāo)。ROUGE-N基于摘要中N元詞的共現(xiàn)信息評(píng)價(jià)摘要,通過(guò)比較生成摘要中包含的基本語(yǔ)義單元數(shù)目在專(zhuān)家標(biāo)注參考摘要數(shù)目的占比衡量摘要質(zhì)量,是一種面向N元詞召回率的評(píng)價(jià)方法。ROUGE-L基于抽取出的摘要與參考摘要匹配到的最長(zhǎng)公共子序列的占比評(píng)價(jià)摘要質(zhì)量,能在一定程度上反映摘要的質(zhì)量,其值越高,表示抽取出來(lái)的摘要質(zhì)量越高。本文采用一元召回率(R1)、二元召回率(R2)、三元召回率(R3)和最長(zhǎng)公共子序列的召回率(RL)作為摘要評(píng)價(jià)指標(biāo)。計(jì)算公式表示為 ROUGE-N=∑S∈RS∑n-gram∈SCountmatch(n-gram) ∑S∈RS∑n-gram∈SCountmatch(n-gram) , 式中: RS表示參考摘要;Countmatch(n-gram)表示在生成摘要與標(biāo)準(zhǔn)參考摘要中匹配到的共現(xiàn)n-gram數(shù)量之和;Count(n-gram)表示標(biāo)準(zhǔn)參考摘要中的n-gram數(shù)量。 2.3 實(shí)驗(yàn)結(jié)果與討論 2.3.1 最大邊緣相關(guān)算法中λ因子系數(shù)的選擇 為了選取最佳λ因子系數(shù),保證多文檔摘要句子相關(guān)性和差異性的平衡,進(jìn)行了30組實(shí)驗(yàn)對(duì)比。研究發(fā)現(xiàn),當(dāng)選取λ值以小于0.1的級(jí)數(shù)增加時(shí),摘要結(jié)果得分變化并不明顯,所以以0.1的倍數(shù)增加選擇了11 組實(shí)驗(yàn)進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表2。 由表2可知,當(dāng)λ值為0或者為1.0時(shí),在R1,R2,R3,RL上的得分很低,主要是因?yàn)楫?dāng)λ值為0或者為1時(shí),僅僅考慮了摘要句子之間的相關(guān)性或差異性,沒(méi)有綜合考慮。隨著λ值的增加,R1,R2,R3,RL的得分也呈現(xiàn)增加的趨勢(shì),當(dāng)λ值為0.5時(shí)得分最高,展現(xiàn)出很好的性能,故將其作為MMR算法的平衡因子系數(shù)值。由表2還可以看出,當(dāng)λ值超過(guò)0.5時(shí),ROUGE各項(xiàng)評(píng)估得分開(kāi)始下降,原因是閾值設(shè)置過(guò)大,導(dǎo)致許多重要性得分很高的句子不能滿足冗余性約束而無(wú)法加入到摘要中。 2.3.2 摘要中包含句子個(gè)數(shù)參數(shù)的選擇 為了選取合并摘要中句子個(gè)數(shù)參數(shù)的最優(yōu)值,使用本文方法分別進(jìn)行了30組實(shí)驗(yàn)。研究發(fā)現(xiàn),當(dāng)設(shè)置的摘要中句子個(gè)數(shù)參取值以小于2的級(jí)數(shù)增加或者減少時(shí),R1,R2,R3和RL的得分變化不太明顯,所以每次在選取摘要中包含句子個(gè)數(shù)參數(shù)的取值時(shí),選取2的整數(shù)倍值增加或者減少進(jìn)行實(shí)驗(yàn)。初步選取摘要中句子的個(gè)數(shù)為16,在此基礎(chǔ)上進(jìn)行增加或遞減實(shí)驗(yàn)。選取相同的λ=0.5,在相同的語(yǔ)料集下使用瀑布法結(jié)合本文中的MMR算法合并單文檔摘要,挑選了有代表性的8組實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比,實(shí)驗(yàn)結(jié)果如表3所示。 由表3可知,隨著摘要中包含句子個(gè)數(shù)的增加,在R1,R2,R3,RL上的得分呈現(xiàn)遞增趨勢(shì),體現(xiàn)了自動(dòng)文本摘要包含信息的多樣性。可以看出,當(dāng)摘要中句子的個(gè)數(shù)值為20時(shí),在R1,R2,R3和RL上的得分最高,效果最好。隨著摘要中包含句子個(gè)數(shù)繼續(xù)增加,R1,R2,R3和RL的值呈現(xiàn)下降趨勢(shì),主要是由于當(dāng)摘要中句子的個(gè)數(shù)值過(guò)大時(shí),存在較多的冗余內(nèi)容,無(wú)法保證摘要的差異性。所以,本文選取摘要中句子的個(gè)數(shù)值為20,作為最終的多文檔摘要長(zhǎng)度。 2.3.3 改進(jìn)MMR算法的重要性驗(yàn)證 在句子重要性評(píng)估上,使用了基于摘要句5種特征的綜合句子得分表示句子和文檔主旨之間的相關(guān)性,效果理想。采用本文中改進(jìn)的MMR算法與基于單純余弦相似度計(jì)算的MMR算法,在進(jìn)行單文檔摘要合并為多文檔摘要時(shí)進(jìn)行了對(duì)比,實(shí)驗(yàn)結(jié)果見(jiàn)表4。 由表4可知,與基于單純余弦相似度計(jì)算方法的MMR算法相比,本文中使用改進(jìn)的MMR方法合并摘要的效果更好,R1,R2,R3和RL都要比前一種方法要高,證明了本文使用方法的有效性。這主要是由于本文使用的MMR方法可以更好地利用句子的特征信息綜合評(píng)估句子的重要性,在保證多文本摘要準(zhǔn)確性的同時(shí)也可以保證多文檔摘要的信息豐富多樣性,提高了柬語(yǔ)多文本摘要的質(zhì)量。 2.3.4 基于分層最大邊緣相關(guān)方法抽取多文檔摘要的優(yōu)越性驗(yàn)證 將本文基于分層最大邊緣相關(guān)的多文檔摘要方法與另外3種對(duì)多文檔進(jìn)行摘要的無(wú)監(jiān)督方法,在使用相同訓(xùn)練集時(shí)進(jìn)行R1,R2,R3和RL結(jié)果的對(duì)比。3種對(duì)比方法包括:1)基于文檔中詞的TF-IDF特征的方法[24],聯(lián)合句子的長(zhǎng)度、位置等表面特征進(jìn)行摘要句的選擇;2)基于圖的排序模型TextRank用于文本處理,構(gòu)建關(guān)于詞的無(wú)向帶權(quán)圖,利用投票機(jī)制提取關(guān)鍵詞;3)基于MMR的方法。結(jié)果見(jiàn)表5。 由表5結(jié)果可知,相比于其他3種對(duì)比方法,本文提出的基于分層最大邊緣相關(guān)的多文檔抽取式摘要方法,在R1,R2,R3和RL上取得了最高的得分。利用本文中的改進(jìn)方法抽取出來(lái)的多文檔摘要與專(zhuān)家人工標(biāo)注的參考摘要更加吻合,深度挖掘了文本之間的語(yǔ)義關(guān)系,并且有效減少了多文檔摘要中的內(nèi)容冗余,抽取出的柬語(yǔ)多文檔摘要質(zhì)量更高,也進(jìn)一步說(shuō)明本文所提方法的有效性。 3 結(jié) 語(yǔ) 1)提出了一種基于分層最大邊緣相關(guān)的柬語(yǔ)多文檔抽取式摘要方法。首先,將收集來(lái)的柬語(yǔ)多文檔語(yǔ)料輸入到已經(jīng)訓(xùn)練好的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型中,獲得單文檔摘要集合;然后,依據(jù)類(lèi)似瀑布的方式,將單文檔摘要結(jié)果通過(guò)改進(jìn)的最大邊緣相關(guān)算法,迭代合并所有單文檔摘要作為最終的多文檔摘要結(jié)果。 2)與直接對(duì)多文檔文本進(jìn)行自動(dòng)摘要相比,該方法深度挖掘了文本間的語(yǔ)義關(guān)系,在保證摘要句多樣性的同時(shí),也降低了多文檔摘要的內(nèi)容冗余,提高了柬語(yǔ)多文檔摘要的質(zhì)量。 3)由于柬語(yǔ)多文檔摘要語(yǔ)料較為匱乏,因此本文采用的是無(wú)監(jiān)督學(xué)習(xí)方法,導(dǎo)致抽取出來(lái)的多文檔摘要不如半監(jiān)督和有監(jiān)督的學(xué)習(xí)方法效果好。下一步工作將嘗試探討使用半監(jiān)督的學(xué)習(xí)方法,解決柬語(yǔ)多文檔摘要標(biāo)注語(yǔ)料匱乏的問(wèn)題,提高多文檔摘要的流暢性。 參考文獻(xiàn)/References: [1]HIRSCHBERG J, MANNING C D. Advances in natural language processing[J]. Science, 2015, 349(6245): 261-266. [2]秦兵,劉挺,李生.多文檔自動(dòng)文摘綜述[J].中文信息學(xué)報(bào),2005,19(6):13-22. QIN Bing,LIU Ting,LI Sheng.Summary of multi-document automatic summarization[J].Journal of Chinese Information Processing, 2005,19(6):13-22. [3]ISONUMA M, MORI J, SAKATA I. Unsupervised neural single-document summarization of reviews via learning latent discourse structure and its ranking[C]//Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics.[S.l.]: Association for Computational Linguistics, 2019:2142-2152. [4]MOHAMMED D A, KADHIM N J. Extractive multi-document summarization model based on different integrations of double similarity measures[J]. Iraqi Journal of Science, 2020, 61(6):1498-1511. [5]程園,吾守爾·斯拉木,買(mǎi)買(mǎi)提依明·哈斯木.基于綜合的句子特征的文本自動(dòng)摘要[J].計(jì)算機(jī)科學(xué),2015,42(4):226-229. CHENG Yuan, WUSHOUER Slam, MAIMAITIYIMING Hasim. Automatic text summarization based on comprehensive sentence features[J].Computer Science,2015,42(4):226-229. [6]GUPTA A, KAUR M. Text summarisation using laplacian centrality-based minimum vertex cover[J]. Journal of Information & Knowledge Management, 2019, 18(4):1-20. [7]李強(qiáng),王玫,劉爭(zhēng)紅.基于RFID覆蓋掃描的標(biāo)簽定位方法[J].計(jì)算機(jī)工程,2017,34(3):294-298. LI Qiang, WANG Mei, LIU Zhenghong. Label positioning method based on RFID overlay scanning[J].Computer Engineering, 2017, 34(3):294-298. [8]BLISSETT K, JI H. Cross-lingual NIL entity clustering for low-resource languages[C]//Proceedings of the Second Workshop on Computational Models of Reference, Anaphora and Coreference.[S.l.]: Association for Computational Linguistics, 2019:20-25. [9]RADEV D R, JING H. Centroid-based summarization of multiple documents[J]. Information Processing & Management, 2004, 40(6):919-938. [10]MCKEOWN K, RADEV D R. Generating summaries of multiple news articles[C]//Proceedings of the 18th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]: Association for Computational Linguistics,1995:74-82. [11]PAUL C, RETTINGER A, MOGADALA A, et al. Efficient graph-based document similarity[C]//European Semantic Web Conference: Springer Cham.[S.l.]:[s.n.],2016:334-349. [12]LANGVILLE A N, MEYER C D,F(xiàn)ERNNDEZ P. Google's pagerank and beyond: The science of search engine rankings[J]. The Mathematical Intelligencer, 2008, 30(1):68-69. [13]WEN Y, YUAN H, ZHANG P. Research on keyword extraction based on word2vec weighted Textrank[C]//2016 2nd IEEE International Conference on Computer and Communications (ICCC).[S.l.]: IEEE, 2016:2109-2113. [14]YASUNAGA M, ZHANG R, MEELU K, et al. Graph-based neural multi-document summarization[C]//Proceedings of the 21st Conference on Computational Natural Language Learning.[S.l.]: Association for Computational Linguistics, 2017:452-462. [15]江躍華,丁磊,李嬌娥,等.融合詞匯特征的生成式摘要模型[J].河北科技大學(xué)學(xué)報(bào),2019,40(2):152-158. JIANG Yuehua, DING Lei, LI Jiao′e, et al. A generative summary model incorporating lexical features[J]. Journal of Hebei University of Science and Technology,2019,40(2):152-158. [16]CAO Z, LI W, LI S, et al. Attsum: Joint learning of focusing and summarization with neural attention[C]// Proceedings of Coling 2016, the 26th International Conference on Computational Linguistics.[S.l.]:Technical Papers, 2016:547-556. [17]NALLAPATI R, ZHAI F, ZHOU B. SummaRuNNer: A recurrent neural network based sequence model for extractive summarization of documents[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.[S.l.]: AAAI Press, 2017:3075-3081. [18]NARAYAN S, PAPASARANTOPOULOS N, COHEN S B, et al. Neural Extractive Summarization with Side Information[EB/OL]. [2017-09-10].https://arxiv.org/abs/1704.04530v2. [19]BOUDIN F, TORRES-MORENO J M. A scalable MMR approach to sentence scoring for multi-document update summarization[C]//Companion Volume: Posters and Demonstrations.[S.l.]: [s.n.],2008:23-26. [20]SCHLUTER N. The limits of automatic summarisation according to rouge[C]//Conference of the European Chapter of the Association for Computational Linguistics.[S.l.]:Sociation for Computational Linguistics, 2017:41-45. [21]RAO G, HUANG W, FENG Z, et al. LSTM with sentence representations for document-level sentiment classification[J]. Neurocomputing, 2018, 308(25):49-57. [22]VASWANI A, SHAZEER N, PARMAR N, et al. Attention is all you need[C]//Proceedings of the 31st International Conference on Neural Information Processing System.[S.l.]: Curran Associates Inc, 2017:6000-6010. [23]ZHANG Y, ER M J, ZHAO R, et al. Multiview convolutional neural networks for multidocument extractive summarization[J]. IEEE Transactions on Cybernetics, 2017, 47(10): 3230-3242. [24]CHRISTIAN H, AGUS M P, SUHARTONO D. Single document automatic text summarization using term frequency-inverse document frequency (TF-IDF)[J]. ComTech: Computer, Mathematics and Engineering Applications, 2016, 7(4):285-294.