王紅斌,金子鈴,毛存禮+
1.昆明理工大學(xué) 信息工程與自動化學(xué)院,昆明650500
2.昆明理工大學(xué) 云南省人工智能重點實驗室,昆明650500
隨著信息社會進(jìn)入大數(shù)據(jù)時代,傳統(tǒng)媒體蓬勃發(fā)展的同時,自媒體也爆炸式增長。一方面越來越多的新聞通過微博、微信、知乎等各類信息平臺涌入人們?nèi)粘I?,?dǎo)致人們被大量無用的信息所干擾,例如虛假浮夸、題文不符、繁雜冗余的新聞,言簡意賅的新聞?wù)蓭椭藗兲岣咝畔@取效率;另一方面,智能手機(jī)、智能手表等小型設(shè)備的普及,面對微小屏幕及有限寬帶,簡短的新聞信息顯然更受歡迎。因此,如何運用現(xiàn)有信息技術(shù)自動歸納出新聞文本所包含的主要內(nèi)容具有重要的應(yīng)用價值,文本自動摘要方法研究成為自然語言處理領(lǐng)域的重要研究子領(lǐng)域,同時也是目前的研究熱點之一。
文本自動摘要是指在保證原文關(guān)鍵信息保留的情況下,通過計算機(jī)自動總結(jié)出簡短流暢的新文本。文本摘要按技術(shù)主要分為兩類,分別是抽取式(extractive)和生成式(abstractive)摘要。抽取式摘要是指從原文中抽取出較為重要的詞語或句子組合成摘要,生成式摘要是指為了保證最終摘要的流暢性等,摘要中句子或詞語可能不全都來自原文。
抽取式摘要有基于詞頻、主題識別、篇章關(guān)系、圖模型等各類方法,這些模型主要依據(jù)一些人為設(shè)定的抽取因素進(jìn)行重要程度排序,如選擇每段落首句子、含主題句子等方法,雖然能歸納出原文本大意,但不能進(jìn)行很好的文本向量表示且主觀性太強(qiáng),最關(guān)鍵的是也不能達(dá)到很好的摘要效果。近年來,基于端到端的神經(jīng)網(wǎng)絡(luò)模型在其他領(lǐng)域如語音識別、語言翻譯、圖像識別、語音問答都取得了很好的效果,基于神經(jīng)網(wǎng)絡(luò)的文本自動摘要技術(shù)也得到了廣泛關(guān)注并取得了很好效果。例如:Nallapati等人提出了一個基于序列分類器的循環(huán)神經(jīng)網(wǎng)絡(luò)模型;Ren 等人提出結(jié)合注意力機(jī)制的基于神經(jīng)網(wǎng)絡(luò)的層次文檔編碼模型;Zhou 等人提出基于神經(jīng)網(wǎng)絡(luò)的句子抽取與打分相結(jié)合的動態(tài)抽取模型;Wang 等人提出基于神經(jīng)網(wǎng)絡(luò)的自監(jiān)督學(xué)習(xí)模型;Liu提出使用BERT(bidirectional encoder representations from transformers)編碼構(gòu)建基于神經(jīng)網(wǎng)絡(luò)的二分類抽取模型;Wang 等人提出了基于異構(gòu)圖的抽取式神經(jīng)網(wǎng)絡(luò)摘要模型,它包含了除句子之外的不同粒度級別的語義節(jié)點。盡管目前基于神經(jīng)網(wǎng)絡(luò)的抽取式模型很受歡迎,但基于端到端的神經(jīng)網(wǎng)絡(luò)如循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)、門控循環(huán)單元(gate recurrent unit,GRU)、長短期記憶(long short-term memory,LSTM)對文本的記憶比較有限,對重點詞語與句子無重點關(guān)注,從而影響模型最終摘要效果。注意力機(jī)制的提出對該問題的解決有很大的啟發(fā)。本文提出了基于層級注意力的神經(jīng)網(wǎng)絡(luò)動態(tài)打分抽取模型,利用神經(jīng)網(wǎng)絡(luò)構(gòu)建抽取模型解決了因人為設(shè)定抽取因素帶來的主觀性太強(qiáng)造成的摘要效果不佳問題,同時利用層級注意力機(jī)制解決了文本編碼記憶有限及重點詞語、句子關(guān)注欠佳問題,提高摘要質(zhì)量。
該模型使用層級編碼,第一層依次往雙向GRU中輸入每句話中的每個詞,加以詞級注意力,得到句子的向量表示;第二層依次往雙向GRU 中輸入文章的每句話,加以句子級注意力,得到文章的向量表示;采用雙層MLP 作為打分函數(shù),依次輸入文本向量表示中的候選句子向量,并每次選出最高分對應(yīng)句子作為摘要,依次循環(huán)選取得到最終摘要。本文不僅在多個公共數(shù)據(jù)集上與之前得分較好的模型做對比實驗,而且將模型本身拆解做了對比實驗,最終的層級注意力模型得分較baseline均有明顯提高。
本文工作的創(chuàng)新點及貢獻(xiàn)有如下幾點:
(1)本文將詞級注意力與句子級注意力相結(jié)合得到層級注意力,并融入到抽取式打分模型中,既考慮到句子中每個詞重要程度各異造成句子對摘要影響程度不同,也考慮到文本中每個句子實際對摘要的影響程度。該方法使得該表征向量層次分明,更準(zhǔn)確、明顯地區(qū)分出重要程度較高的句子,也在一定程度上解決了神經(jīng)網(wǎng)絡(luò)記憶欠佳問題,并提高了文本向量表示的效果。從而加強(qiáng)了句子對摘要重要程度的準(zhǔn)確性判斷,提高了打分模型準(zhǔn)確性并抽取出更好的摘要。
(2)本文使用公共數(shù)據(jù)集CNN/Daily Mail、New York Times、Multi-News。CNN/Daily Mail 數(shù)據(jù)集包含美國有線電視新聞網(wǎng)的新聞文本,該數(shù)據(jù)集包含匿名版本與非匿名版本,文中使用非匿名版共含英文新聞篇章312 085 篇。New York Times 數(shù)據(jù)集構(gòu)建于LDC New York Times 語料庫,文中整理出語料庫2003—2007 年含有摘要的新聞文本共計149 834 篇。Multi-News 數(shù)據(jù)集來源于newser.com 網(wǎng)站的大規(guī)模多文檔長句子摘要數(shù)據(jù)集,文中使用的是處理后的縮減版本,共含新聞篇章56 216 篇。在實驗結(jié)果方面,本文與之前的多篇抽取式摘要得分進(jìn)行比較,實驗結(jié)果ROUGE 的3 個評測指標(biāo)都有明顯提高,證明了本文模型的有效性與優(yōu)越性。
近年來,抽取式摘要方法已被驗證有很好的效果?;诮y(tǒng)計的方法是文本摘要最早應(yīng)用的技術(shù),相對于其他方法,基于統(tǒng)計的方法建模容易且易于實現(xiàn)。文獻(xiàn)[8]使用詞頻來衡量句子在一篇文本中的重要性,其思想是頻繁出現(xiàn)的單詞最能代表文章主題。TF-IDF 基本思想是單詞的重要性與它在文本中出現(xiàn)的頻率成正比,但與它在整個語料庫中出現(xiàn)的頻率成反比。通常來說,統(tǒng)計特征會與句子位置、句子長度、句子與文本題目的相似度等其他特征結(jié)合使用,以加強(qiáng)對文本單元權(quán)重衡量的精確性。
基于篇章關(guān)系的方法在文本摘要領(lǐng)域也有廣泛應(yīng)用。文獻(xiàn)[12]結(jié)合了統(tǒng)計分析和語言學(xué)知識,實驗表明這種組合方法優(yōu)于使用單一類型的技術(shù)。文獻(xiàn)[13]提出了從大規(guī)模的語料中提取與輸入文檔相近主題的文本組成背景語料,使用關(guān)鍵詞擴(kuò)展新聞文本自動摘要的方法。在文本摘要過程中,如果不能識別出文本中的全部實體,會導(dǎo)致指代有歧義的現(xiàn)象。文獻(xiàn)[14-15]利用指代消解技術(shù)解決這個問題,即首先對文本進(jìn)行預(yù)處理,然后利用指代消解系統(tǒng)將所有代詞替換成相應(yīng)的實體,最后進(jìn)行摘要。
基于機(jī)器學(xué)習(xí)的方法在文本摘要領(lǐng)域也具有廣泛應(yīng)用,例如文獻(xiàn)[16]使用了二分分類器,文獻(xiàn)[17-18]使用隱馬爾科夫模型進(jìn)行文本摘要,文獻(xiàn)[19]使用貝葉斯方法進(jìn)行文本摘要。此外,其他機(jī)器學(xué)習(xí)方法在文本摘要領(lǐng)域的應(yīng)用也很廣泛,文獻(xiàn)[20]提出了一種單文本摘要系統(tǒng)NetSum,該系統(tǒng)使用RankNet算法計算句子權(quán)重,除了利用關(guān)鍵詞詞頻以及句子位置等統(tǒng)計特征外,該系統(tǒng)還融入了維基百科詞條以及維基百科用戶的搜索記錄。文獻(xiàn)[22]提出了一種基于查詢的多文本摘要系統(tǒng)FastSum,該系統(tǒng)使用最小角回歸選擇關(guān)鍵特征,并使用支持向量回歸技術(shù)對句子權(quán)重進(jìn)行排序。文獻(xiàn)[23]也使用了支持向量回歸技術(shù),并結(jié)合單詞和短語詞頻、句子位置等統(tǒng)計特征以及基于語義和命名實體等其他特征共同訓(xùn)練分類器。
基于圖模型的方法在文本摘要領(lǐng)域有廣泛應(yīng)用。文獻(xiàn)[24]使用基于圖模型的搜索方法進(jìn)行摘要,文獻(xiàn)[25]提出了一種基于親和圖解法的文本摘要方法,該方法通過考慮句子間的相似性,結(jié)合主題信息抽取出高信息性和高獨特性的句子,經(jīng)冗余削減后生成文本摘要。文獻(xiàn)[26]利用N-Gram 圖抽取文本中的重要成分。文獻(xiàn)[27]使用WordNet 和is-a 關(guān)系識別文本中的概念來構(gòu)建文本圖,這種方法在新聞和生物信息領(lǐng)域應(yīng)用廣泛。文獻(xiàn)[28-29]提出LexRank 算法使用句子作為圖節(jié)點,根據(jù)句子間余弦相似度構(gòu)建邊,若兩個句子無關(guān),則兩個句子所代表的節(jié)點間就沒有連線。文獻(xiàn)[30]提出TextRank 算法,該算法在LexRank 的基礎(chǔ)上進(jìn)行了改進(jìn),利用余弦相似度對邊賦予權(quán)值,生成無向加權(quán)圖并進(jìn)行摘要。
近年來,基于深度神經(jīng)網(wǎng)絡(luò)的抽取式摘要正在興起。2016 年Nallapati 等人提出了一個新的有監(jiān)督的摘要模型SummaRuNNer,該模型通過雙向GRU分別建立詞語級別和句子級別的表示,對每一個句子表示有一個0,1 標(biāo)簽輸出,指明句子是否為摘要。2017 年Ren 等人使用了層級注意力計算句子相似度,提出基于篇章關(guān)系的抽取式摘要模型。2017 年AAAI 2017 中Yu 等人在序列標(biāo)注的基礎(chǔ)上,使用Seq2Seq 學(xué)習(xí)一個句子壓縮模型,使用該模型來衡量選擇句子的好壞,并結(jié)合強(qiáng)化學(xué)習(xí)完成模型訓(xùn)練,提出了Latent 模型。2018 年Ai-Sabahi 等人采用層級自注意力機(jī)制,使用邏輯分類層生成每個句子的二值標(biāo)簽,來判斷每個句子是否屬于最終的摘要文本。2018 年,Zhou 等人提出了一種新的打分方式,使用句子受益作為打分方式,考慮到了句子之間的相互關(guān)系,基于已抽取的摘要逐步選擇由打分函數(shù)打分最高的句子,解決了打分與句子選擇割裂問題。2019 年Zhang 等人使用兩個預(yù)訓(xùn)練Transformer,第一個用于表示句子的標(biāo)記級別的標(biāo)準(zhǔn)BERT,第二個利用前者的表示來編碼整個文件的句子。2019 年Wang 等人提出一種以自監(jiān)督的方式訓(xùn)練抽取模型的方法,該模型能更快地訓(xùn)練并稍微提高效果。2019年Liu提出用BERT 生成句子向量表示,然后把向量用于二分類并判斷去留,得到文本摘要。2020 年Wang 等人提出了一個基于異構(gòu)圖的抽取式摘要神經(jīng)網(wǎng)絡(luò),它包含了不同粒度級別的語義節(jié)點,也是第一個將不同類型的節(jié)點引入到基于圖的神經(jīng)網(wǎng)絡(luò)中并用于抽取文檔摘要的模型。2020 年,Zhong 等人提出將摘要抽取任務(wù)視為文本語義匹配問題,將原文本與候選摘要文本在語義空間中進(jìn)行匹配,選擇匹配度最高的作為摘要,區(qū)別于之前大多數(shù)都是先獨立抽取出部分句子再計算句子之間的相關(guān)度的摘要模型。
從上述相關(guān)工作可以看出,基于神經(jīng)網(wǎng)絡(luò)的抽取式摘要有很強(qiáng)的研究價值,但大部分文章均是先獨立簡單編碼后運用二分類、相似度計算、打分后擇優(yōu)抽取句子等方式構(gòu)建模型的。Zhou 等人的方法雖然使得句子打分與抽取可以同步動態(tài)進(jìn)行,解決了句子打分與抽取被割裂的問題,但是編碼部分處理得又比較簡單,不能準(zhǔn)確考慮到文章中實際每個句子以及句子中每個詞對摘要影響程度及基于神經(jīng)網(wǎng)絡(luò)編碼帶來的記憶不佳問題,從而影響抽取質(zhì)量。針對該問題,本文提出基于層級注意力的打分與抽取模型,不僅使文本向量表示中每個詞、每個句子向量重要程度都有明顯區(qū)別,提高了文本向量表示效果,而且進(jìn)一步增強(qiáng)且提高了Zhou 等人提出的打分與抽取同時進(jìn)行所帶來的效果,有效解決了抽取式摘要中人為主觀性判別抽取因素不準(zhǔn)確帶來的抽取效果欠佳問題與神經(jīng)網(wǎng)絡(luò)編碼帶來的記憶不佳問題。具體模型細(xì)節(jié)與算法見下章。
本文針對傳統(tǒng)抽取式摘要中因抽取因素判斷具有較強(qiáng)的人為主觀性,不能準(zhǔn)確客觀評測出文章中實際每個句子對摘要的重要程度,以及句子的每個詞對句子的重要程度,從而影響摘要的抽取質(zhì)量問題,提出了結(jié)合層級注意力的動態(tài)打分抽取式文本摘要模型。本文模型借鑒了Zhou 等人的打分抽取模型,在層級編碼處加入了層級注意力得到最終模型。以下將先簡略介紹baseline 模型NeuSum,其次詳細(xì)介紹本文模型各部分結(jié)構(gòu)。
本文的baseline 模型于2018 年Zhou 等人在ACL 提出,模型結(jié)構(gòu)圖如圖1 所示,其含有一個層級雙向GRU 編碼部分,一個動態(tài)打分抽取網(wǎng)絡(luò)部分。首先,該模型在層級雙向GRU 編碼部分先將文章中每句話的每個詞向量x依次輸入雙向的GRU 中,并拼接GRU 輸出的前向傳播隱藏向量與后向傳播隱藏向量得到句子向量表示~ ,如圖1 左側(cè)藍(lán)色藍(lán)框所示為詞級編碼部分。其次,將所得到的每個句子向量再次輸入雙向GRU 中并拼接前向與后向傳播的隱藏向量得到文本向量表示s,如圖1 左側(cè)橙色橙框所示為句級編碼部分。
最后,該模型在動態(tài)打分抽取部分使用了一個單向GRU 與雙層MLP 網(wǎng)絡(luò),如圖1 右側(cè)所示。GRU部分主要記錄已抽取的摘要,該部分將上一步已選擇的摘要句子的向量表示s與GRU 上一步輸出的隱藏向量h作為當(dāng)前GRU 的輸入并輸出隱藏向量h。MLP 網(wǎng)絡(luò)主要用來打分,輸入為GRU 的當(dāng)前輸出隱向量h與文中剩余句子集合的每一句句子向量表示s,輸出為得分最高的句子,即被選擇的下一句摘要句子。因初始時,摘要集并無任何句子,所以用圖1 右側(cè)橙色橙框的0 向量表示已選擇摘要句,結(jié)合自定義的初始化隱藏向量進(jìn)行計算。最后運用MLP 打分后依次選擇出每一步得分最高的句子,并將其作為當(dāng)前已選擇摘要句。如圖1 右側(cè)依次選出原文本的第5 句向量,第1 句向量,在下一步計算中,剩余文本中第幾句得分最高則將該句子序號賦予為argmax 的值并選取該句子為此步計算所得到的摘要句,如圖1 中右下部分公式描述所示。
圖1 NeuSum 模型結(jié)構(gòu)圖Fig.1 NeuSum model structure diagram
本文模型主要分為三部分:第一部分是對新聞文本中每個句子的每個詞進(jìn)行詞級編碼,然后加以詞級注意力,得到句子向量表示;第二部分是對文本中每個句子進(jìn)行句子級編碼,然后加以句子級注意力,得到文本向量表示;第三部分是構(gòu)建動態(tài)打分函數(shù),通過已選擇摘要句子與文本剩余句子依次計算得分并選出分值最大的對應(yīng)句子作為下一個摘要句子。本文模型結(jié)構(gòu)圖如圖2 所示。
圖2 基于層級注意力的抽取式模型Fig.2 Extraction model based on hierarchical attention
如圖2 所示,左側(cè)是結(jié)合層級注意力的層級雙向GRU 編碼部分,右側(cè)是動態(tài)打分抽取網(wǎng)絡(luò)部分。左側(cè)藍(lán)色藍(lán)框代表文本句子的詞級編碼,其加以綠色的詞級注意力分布后可得到綠框藍(lán)底的句子級向量。橙色橙框代表句子級編碼,其加以綠色的句子級注意力分布后可得到綠框橙底的文本向量表示。圖2 右側(cè),該模型在動態(tài)打分抽取部分使用了一個單向GRU 與雙層MLP 網(wǎng)絡(luò)。GRU 部分主要記錄已抽取的摘要部分,該部分將上一步已抽取的摘要句子的向量表示u與GRU 上一步輸出的隱藏向量h作為GRU 的輸入并輸出隱藏向量h,因為初始時摘要為空,這里用圖2 右側(cè)第一個橙色橙框的0 向量作為初始已選擇摘要句向量,結(jié)合自定義的初始化隱藏向量圖2 右側(cè)藍(lán)色部分進(jìn)行計算。MLP 網(wǎng)絡(luò)主要用來打分,輸入為GRU 的當(dāng)前輸出隱向量h與文本剩余句子集合的每一個句子向量s,輸出為得分最高的句子,即被選擇的下一句摘要句子。圖2 依次選出了原文本第5 句向量,第1 句向量,在下一步計算中,剩余文本第幾句得分最高則將該句子序號賦予為argmax 的值并選取該句子為此步計算所得到的摘要句,如圖2 中右下部分公式描述。
文中給定一篇包含個句子的文本,=(,,…,s),每個句子表示為s,其中每個句子又包含個單詞,含有個單詞的句子表示為S=(x,x,…,x),x表示為第句話中的第個詞。
本模型的結(jié)合層級編碼注意力的文本向量表示算法見算法1。
結(jié)合層級編碼注意力的文本表示算法
本模型的打分選擇算法見算法2。
打分選擇算法
本文使用KL 散度作為目標(biāo)函數(shù)并優(yōu)化模型,對于同一隨機(jī)變量的不同概率分布() 與() 。()表示樣本的真實分布,()表示樣本的預(yù)測分布,用KL 散度來衡量兩個概率之間的差異,KL 散度越小表示()與()的分布越接近,可通過反復(fù)訓(xùn)練()使()接近()。這里KL 散度用表示如式(21)、式(22),最小化就能得到最好的效果。
訓(xùn)練過程中本文使用ROUGE1 作為打分評估標(biāo)準(zhǔn),所得分?jǐn)?shù)這里用(·)表示,打分函數(shù)(u)的計算公式如式(24)所示,其中u表示已選擇摘要集,{u}表示文本剩余句子集合。
在訓(xùn)練過程中,打分模型所學(xué)習(xí)的分?jǐn)?shù)標(biāo)準(zhǔn)為ROUGE1,考慮到ROUGE1 的分值可能為負(fù)數(shù),這里引入歸一化方法處理如式(25)所示使得分值分布在[0,1]之間。
對文中參考摘要所得到的真實分?jǐn)?shù)進(jìn)行softmax計算,如式(26)所示,即可得到真實樣本分布。
本文使用的CNN/Daily Mail、New York Times、Multi-News 均是人工標(biāo)注的摘要,此類數(shù)據(jù)集在訓(xùn)練基于神經(jīng)網(wǎng)絡(luò)的摘要模型時具有較強(qiáng)的優(yōu)勢。使用Zhou 等人的預(yù)處理方法,將3 個數(shù)據(jù)集所含有的新聞文章與人工撰寫參考摘要均作為輸入,使用2-gram匹配的方法,從新聞文章中尋找出使得ROUGE-21得分最大的句子組合,并將其選擇出的句子作為抽取式參考摘要。
(1)CNN/Daily Mail公用數(shù)據(jù)集由Hermann等人于2015 年在一文中發(fā)布。Hermann 從美國有線新聞網(wǎng)(CNN)和每日郵報網(wǎng)(Daily Mail)中收集了大約100 萬條新聞數(shù)據(jù)作為機(jī)器閱讀理解語料庫,語料結(jié)構(gòu)包括文章部分與標(biāo)準(zhǔn)摘要highlight 部分,其中highlight 部分為人工標(biāo)注的用于生成式的摘要。該數(shù)據(jù)集也分為匿名版本與非匿名版本,匿名版本的數(shù)據(jù)集將實體用一些如entity4 等的標(biāo)記替代。本文使用非匿名版作為數(shù)據(jù)集,文中CNN/Daily Mail 數(shù)據(jù)集共有312 085 篇新聞與對應(yīng)參考摘要,其中訓(xùn)練集含有新聞287 227篇,測試集有新聞11 490 篇,驗證集有新聞13 368篇。數(shù)據(jù)集統(tǒng)計如表1 所示。
表1 CNN/Daily Mail數(shù)據(jù)集Table 1 CNN/Daily Mail dataset
(2)New York Times 數(shù)據(jù)集構(gòu)建于LDC New York Times語料庫(https://catalog.ldc.upenn.edu/LDC2008T19),New York Times 語料庫包含1987—2007 年多篇新聞文本。本文從2003—2007 年文本中除去摘要不完整及文章不完整的新聞篇章,整理出符合含有完整摘要與新聞的文本共計149 834 篇。文中New York Times數(shù)據(jù)集共有149 834 篇新聞與對應(yīng)參考摘要,其中訓(xùn)練集含有新聞137 900 篇,測試集有新聞9 934 篇,驗證集有新聞2 000 篇。數(shù)據(jù)集統(tǒng)計如表2 所示。
表2 New York Times數(shù)據(jù)集Table 2 New York Times dataset
(3)Multi-News 公共數(shù)據(jù)集由Fabbri等人于2019 年提出使用。Multi-News 數(shù)據(jù)集是來源于newser.com 網(wǎng)站的大規(guī)模多文檔長句子摘要數(shù)據(jù)集,摘要為20 多名專業(yè)編輯撰寫而成。本文中使用的是已將多篇原文本拼接為單文本的縮減版數(shù)據(jù)集,共含有56 216 篇新聞與對應(yīng)參考摘要。其中訓(xùn)練集含有新聞44 972 篇,測試集有新聞5 622 篇,驗證集有新聞5 622 篇。數(shù)據(jù)集統(tǒng)計如表3 所示。
表3 Multi-News數(shù)據(jù)集Table 3 Multi-News dataset
本文使用2004 年由ISI 的Chin-Yew Lin 提出的一種自動摘要評價方法,是評估自動文摘以及機(jī)器翻譯的一組指標(biāo)。ROUGE 基于摘要中元詞(gram)的共現(xiàn)信息來評價摘要,是一種面向元詞召回率的評價方法,包括ROUGE-(是-gram 中,取值有1、2、3、4)、ROUGE-L、ROUGE-S、ROUGEW、ROUGE-SU 等。其基本思想為先構(gòu)建標(biāo)準(zhǔn)摘要集,將系統(tǒng)生成的自動摘要與標(biāo)準(zhǔn)摘要相對比,通過統(tǒng)計二者之間重疊的基本單元(元語法、詞序列和詞對)的數(shù)目,來評價摘要的質(zhì)量,本文使用的為ROUGE-1、ROUGE-2、ROUGE-L。ROUGE-計算公式如式(27)所示。
式中,表示-gram 的長度;(gram)表示同時出現(xiàn)在一篇候選摘要與參考摘要中的-gram 個數(shù);(gram)表示參考摘要中-gram 個數(shù)。
本文先用分詞工具nltk 對CNN/Daily Mail、New York Times 與Multi-News 的訓(xùn)練集、測試集、驗證集用自定義分隔符##SENT##進(jìn)行分句,然后用2-gram匹配法選擇出訓(xùn)練集中文章對應(yīng)的最佳組合句子作為抽取式模型參考摘要。文中詞匯表分別生成于CNN/Daily Mail、New York Times 與Multi-News 數(shù)據(jù)集,統(tǒng)計出所有詞匯含特殊符號依次分別為728 412類、2 060 692 類、301 928 類,同時將每類詞匯的詞頻從高到低排序選擇出前100 000 類詞匯作為詞匯表,因為該詞匯可以覆蓋90%以上的訓(xùn)練詞匯。詞嵌入向量選擇的是50 維的GloVe Vector,文中訓(xùn)練時設(shè)置文本句子長度最大為80。該模型實驗環(huán)境為python3.6.5,pytorch 1.3.0,Windows10旗艦版,雙2080Ti顯卡。
本文模型使用ROUGE 作為評測指標(biāo)衡量本文模型的輸出摘要質(zhì)量,在公共數(shù)據(jù)集CNN/Daily Mail的評測結(jié)果如表4 所示,表4 含有10 組文本摘要實驗結(jié)果。在公共數(shù)據(jù)集New York Times 的評測結(jié)果如表5 所示,表5 含有8 組文本摘要實驗結(jié)果。在公共數(shù)據(jù)集Multi-News 的評測結(jié)果如表6 所示,表6 含有5 組文本摘要實驗結(jié)果。實驗結(jié)果均為本文模型的最終ROUGE1 分值。
表4 CNN/Daily Mail ROUGE F1 分值Table 4 ROUGE F1 points on CNN/Daily Mail %
表5 New York Times ROUGE F1 分值Table 5 ROUGE F1 points on New York Times %
表6 Multi-News ROUGE F1 分值Table 6 ROUGE F1 points on Multi-News %
LEAD3 是非監(jiān)督的抽取式模型,由于新聞文章普遍在開頭就呈現(xiàn)重要信息,抽取文章的前3 個句子作為摘要通常被用作抽取式摘要中基礎(chǔ)的對比實驗。
TextRank 為2004 年由Mihalcea 和Tarau提出的非監(jiān)督學(xué)習(xí)算法,將文章構(gòu)建為圖結(jié)構(gòu),節(jié)點為句子表示,邊權(quán)重為句子間的關(guān)系。
NN-SE 為2016 年Cheng 和Lapata提出的基于句子抽取模型,主要對句子打分并基于神經(jīng)網(wǎng)絡(luò)預(yù)測標(biāo)簽,判斷其是否屬于摘要句并抽取。
CRSum 為2017 年Ren 等人提出的考慮句子上下文信息的抽取式摘要模型。
PGN 為2017 年See 等人提出的一種融合了指針生成網(wǎng)絡(luò)與覆蓋機(jī)制的生成式摘要模型,解決了大部分摘要重復(fù)與生成句子不連貫問題,取得了很好的效果。
NeuSum 為2018 年Zhou 等人提出的一種打分與抽取摘要句子相結(jié)合的摘要抽取模型。
HSG+Tri-Blocking 為2020 年Wang等人提出的基于異構(gòu)圖的抽取式摘要神經(jīng)網(wǎng)絡(luò),它包含了不同粒度級別的語義節(jié)點,也是第一個將不同類型的節(jié)點引入到基于圖的神經(jīng)網(wǎng)絡(luò)中并用于提取文檔摘要的模型。
首先,本文將最終模型拆分為3 組對比實驗與NeuSum(baseline)進(jìn)行互相對比,分別是只添加句級注意力的模型、只添加詞級注意力的模型、二者都添加的層級注意力動態(tài)打分抽取模型,統(tǒng)計出ROUGE1 分值如表4~表6 所示。
從表4可看出:(1)只加入句子級注意力時ROUGE-1 較baseline 提高了1.46 個百分點,ROUGE-2 提高了0.81個百分點,ROUGE-L下降了0.27個百分點。(2)只加入詞級注意力時ROUGE-1 提高了1.47個百分點,ROUGE-2提高了0.86個百分點,ROUGE-L提高了0.66個百分點。(3)加入層級注意力機(jī)制即詞級與句級注意力同時加時,ROUGE-1提高了1.78個百分點,ROUGE-2提高了1.12個百分點,ROUGE-L提高了0.91個百分點。從以上分值可知,無論是只加詞級或是只加句級注意力機(jī)制都對該抽取式摘要模型效果有明顯的提升作用,但只加入詞級比只加入句級的效果好一些,該結(jié)果是詞級別注意力粒度更細(xì)致導(dǎo)致的。當(dāng)然,加入層級注意力之后效果是最好的,這也驗證了詞級與句級相結(jié)合后注意力分布更準(zhǔn)確,更能反映出文章中句子重要性分布。
從表5 中可看出:(1)只加入句子級注意力時ROUGE-1 較baseline 下降了0.32 個百分點,ROUGE-2 下降了0.07 個百分點,ROUGE-L 下降了0.61 個百分點。(2)只加入詞級注意力時ROUGE-1 提高了1.18個百分點,ROUGE-2 提高了0.23 個百分點,ROUGEL 提高了0.17 個百分點。(3)加入層級注意力機(jī)制即詞級與句級注意力同時加時,ROUGE-1 提高了0.7 個百分點,ROUGE-2 提高了0.5 個百分點,ROUGE-L 下降了0.83 個百分點。從以上分值可知,加入句子級別注意力稍微削弱了抽取式摘要模型效果,加入詞語級別注意力對抽取式摘要模型效果有明顯提高,加入層次注意力對模型效果也有提高。
從表6 可看出:(1)只加入句子級注意力時ROUGE-1 較baseline 提高了1.07 個百分點,ROUGE-2 提高了0.57 個百分點,ROUGE-L 提高了0.28 個百分點。(2)只加入詞級注意力時ROUGE-1 提高了1.35個百分點,ROUGE-2 提高了0.46 個百分點,ROUGEL 下降了2.24 個百分點。(3)加入層級注意力機(jī)制即詞級與句級注意力同時加時,ROUGE-1 提高了1.44個百分點,ROUGE-2 提高了1.46 個百分點,ROUGEL 提高了0.26 個百分點。從以上分值可知,無論是只加詞級或是只加句級注意力機(jī)制都對該抽取式摘要模型效果有明顯的提升作用,只加入句子級注意力效果提升稍微弱一些,該結(jié)果是語料中句子長度較長的原因。加入層級注意力后效果最好,驗證了詞級與句級相結(jié)合后注意力分布更準(zhǔn)確,更能反映出文章中句子重要性分布。
其次,本文模型與目前在相關(guān)領(lǐng)域中表現(xiàn)較好且使用較為廣泛的模型進(jìn)行對比實驗,以證明本文中提出模型的有效性和優(yōu)越性,從以上表4~表6 均可以看出本文模型與相關(guān)領(lǐng)域表現(xiàn)較好模型相比效果都有提升。對比baseline 模型NeuSum,在CNN/Daily Mail 數(shù)據(jù)集上ROUGE1 提高了1.78 個百分點,在New York Times 數(shù)據(jù)集上ROUGE1 提高了0.7 個百分點,在Multi-News 數(shù)據(jù)集上ROUGE1 提高了1.44 個百分點。
綜上所述,本文首先設(shè)計了拆解模型的對比實驗,其次將模型與該領(lǐng)域中得分較好的模型進(jìn)行對比,證明了本文方法的有效性,同時使用多個數(shù)據(jù)集證明了本文方法的泛化性。并使用ROUGE-1、ROUGE-2、ROUGE-L 的1 值對模型進(jìn)行評分,由于實驗數(shù)據(jù)為公共數(shù)據(jù)集,保證了實驗的合理性與有效性。最后得分ROUGE-1、ROUGE-2、ROUGE-3 的1 值都比現(xiàn)有模型有明顯提高,由此可證明本文提出模型的有效性、優(yōu)越性和較好的泛化性。
本文針對抽取式自動文本摘要存在的句子抽取判斷因素有較強(qiáng)人為主觀性,不能準(zhǔn)確考慮到文章中實際每個句子以及句子中每個詞對摘要影響程度從而影響抽取質(zhì)量的問題,提出了一種結(jié)合層級注意力的動態(tài)打分抽取式方法。該方法通過添加層級注意力,使得文本向量表示結(jié)合了詞級注意力與句子級注意力,從而更準(zhǔn)確、明顯地區(qū)分、判斷出重要程度較高的句子,提高摘要質(zhì)量。本文模型從整體上提高了抽取式文本摘要的抽取質(zhì)量。最后通過在CNN/Daily Mail、New York Times 與Multi-News 數(shù)據(jù)集上對比實驗的結(jié)果表明,本文方法與目前最佳效果相比,評測分值相近。為了更全面地評價本文方法效果,本文使用了3 個指標(biāo)ROUGE-1、ROUGE-2、ROUGE-L,其1 分值都比baseline 有明顯提升。由此證明了本文模型的有效性、優(yōu)越性和泛化性。
由于自動文本摘要工作還在迅速發(fā)展階段,各類研究方法與相關(guān)資源都還需要進(jìn)一步完善并提高,在未來的研究路程中相信會探索出比較成熟的方法。抽取式自動摘要研究中也需要一些新的思維與角度來進(jìn)一步提高摘要質(zhì)量,由此也可以考慮預(yù)訓(xùn)練模型及混合式自動摘要的方法,通過將抽取式摘要與生成式摘要相結(jié)合,更好地提高摘要質(zhì)量。