張志遠(yuǎn) 肖 芮
(中國民航大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 天津 300300)
近年來,深度學(xué)習(xí)在自動(dòng)文摘上面的應(yīng)用越來越火熱,其中,序列到序列(Seq2Seq)作為一種主流的生成式摘要模型,它在“理解”原文的基礎(chǔ)上生成摘要,取得了顯著成就。但與語言翻譯相比,由于原始文檔和摘要之間無法直接進(jìn)行短語對(duì)齊,系統(tǒng)必須全面準(zhǔn)確地理解文檔所表達(dá)的意思后再生成摘要,因此具有很強(qiáng)的挑戰(zhàn)性,利用全局信息顯得尤為重要。另外有研究表明,傳統(tǒng)的注意力機(jī)制也存在一些問題,由于原文和目標(biāo)摘要之間沒有明顯的對(duì)齊關(guān)系,可能導(dǎo)致編碼器的注意力模塊產(chǎn)生噪聲。例如在表1的例子中,Seq2Seq生成的摘要中“選舉”后面又生成了一個(gè)“選舉”,這是因?yàn)闊o論這個(gè)詞是否生成過,注意力機(jī)制會(huì)一直關(guān)注得分高的詞,導(dǎo)致模型產(chǎn)生詞語重復(fù)的問題。
另外,Seq2Seq模型傾向于包含原文中所有的信息,這可能導(dǎo)致錯(cuò)誤地將注意力集中在無關(guān)主題上。在表2中,這篇文章的主題是林志穎旗下公司愛碧麗涉嫌虛假銷售,而Seq2Seq生成的摘要中只提到了林志穎而沒有涉及愛碧麗公司,但卻包含了“成本僅每瓶4元”這樣的具體細(xì)節(jié),這對(duì)原文主旨的反映是不完整的。因此,在生成摘要時(shí)有必要確定一個(gè)主題信息來指導(dǎo)摘要的生成。
表2 例2
為解決上述問題,本文在Seq2Seq模型的基礎(chǔ)上提出融合全局編碼與主題解碼的文本摘要生成方法,在編碼器中有效加入全局信息,在解碼器中充分利用能高度概括原文的主題信息。在LCSTS數(shù)據(jù)集上的實(shí)驗(yàn)數(shù)據(jù)顯示,綜合二者的模型在ROUGE-1、ROUGE-2和ROUGE-L上都有較大的提升。
抽取式和生成式是兩種最常見的自動(dòng)文摘方法。Rush等[1]提出將序列到序列(Seq2Seq)模型應(yīng)用于生成式摘要,該模型使用一個(gè)編碼器(encoder)-解碼器(decoder)的結(jié)構(gòu),其工作機(jī)制是先用encoder將輸入編碼到語義空間,得到一個(gè)固定向量作為輸入的語義表示,然后再用decoder將這個(gè)向量解碼獲得輸出。Bahdanau等[2]在Seq2Seq模型中引入了注意力機(jī)制,在生成每個(gè)詞的時(shí)候,對(duì)不同的輸入詞給予不同的關(guān)注權(quán)重。輸出序列的每個(gè)詞都對(duì)應(yīng)一個(gè)概率分布,這個(gè)概率分布決定了在生成這個(gè)詞的時(shí)候,對(duì)于輸入序列的各個(gè)詞的關(guān)注程度,進(jìn)而可以使生成的詞“更好”。
編碼方面,Zhou等[3]提出了帶有門控的選擇性編碼模型并對(duì)編碼器生成的詞隱層進(jìn)行權(quán)重計(jì)算,使解碼器能夠有選擇性讀取原文;Zeng等[4]提出的“再讀(read-again)”模型用另一個(gè)GRU對(duì)原文再次編碼而不是直接用權(quán)重更新當(dāng)前詞的隱層;Nallapati等[5]提出層級(jí)注意力模型并用序列到序列模型處理長(zhǎng)文本摘要;Chen等[6]構(gòu)造了CNN-LSTM句子抽取器和RNN生成器,兩個(gè)都是Seq2Seq模型,并用強(qiáng)化學(xué)習(xí)訓(xùn)練如何抽取句子。
解碼過程中,See等[7]提出混合指針生成網(wǎng)絡(luò),既能從原文中復(fù)制詞,也能從詞表中去生成詞,并使用覆蓋機(jī)制避免重復(fù)生成;Kingma等[8]提出解碼器內(nèi)注意力控制重復(fù),將已生成的詞隱層用于計(jì)算解碼器語義向量;Li[9]等提出深度循環(huán)生成解碼器(DRGD),把原文和摘要輸入VAE模型進(jìn)行訓(xùn)練,得到有潛在結(jié)構(gòu)信息的向量;Perez等[10]提出基于目標(biāo)摘要內(nèi)容的結(jié)構(gòu)化卷積解碼器,在生成摘要時(shí)可以知道每一句話所涉及的主題以及它們?cè)谀繕?biāo)摘要中的位置,與Transformer模型效果不相上下。侯麗微等[11]融合主題關(guān)鍵詞信息生成自動(dòng)摘要,Amplayo等[12]利用維基百科識(shí)別文本主題,證明先驗(yàn)知識(shí)可以幫助模型更好地理解文本。
本文積累前人在編碼器和解碼器上的研究經(jīng)驗(yàn),借鑒Zeng等[4]和侯麗微等[11]的思想,提出融合全局編碼與主題解碼的Seq2Seq模型框架,試圖解決傳統(tǒng)Seq2Seq模型生成文本摘要時(shí)的重復(fù)和主題模糊等問題。不同的是,Zeng等[4]是先讀一遍原文,將得到的隱藏狀態(tài)作為全局特征向量并計(jì)算權(quán)重用于再次閱讀,而本文的門控單元采用卷積和自注意力來篩選信息。侯麗微等[11]采用基于圖模型的TextRank算法抽取主題關(guān)鍵詞,而本文采用提取原文實(shí)體再編碼的方法構(gòu)建主題向量。另外,本文還有效融合了二者以達(dá)到更好的生成效果。
本文對(duì)基于Seq2Seq的文本自動(dòng)摘要模型進(jìn)行了以下優(yōu)化:第一,添加全局信息編碼GIE(Global Information Encoder)模塊,在信息源端進(jìn)行全局編碼以實(shí)現(xiàn)核心信息的重用;第二,添加實(shí)體主題模塊E2T(Entity2Topic),通過將原文中的實(shí)體編碼為主題向量,并采用注意力機(jī)制,結(jié)合原文主題和實(shí)體常識(shí)指導(dǎo)解碼器生成摘要。模型示意圖如圖1所示,主要包括基于BiLSTM的全局信息編碼器、配備主題解碼與注意力機(jī)制的LSTM解碼器兩部分。其中編碼器按字讀取輸入文檔,采用雙向LSTM構(gòu)建每個(gè)字的全局語義表示;全局門控單元首先通過多卷積核提取不同長(zhǎng)度的短語結(jié)構(gòu)信息,然后通過自注意力機(jī)制進(jìn)一步篩選重要信息后提供給解碼器。為獲取有效的主題信息,使用BiLSTM+CRF提取原文中的實(shí)體,將其編碼后的特征表示拼接在門控單元的特征表示之后,采用注意力機(jī)制在解碼過程中關(guān)注重要的實(shí)體信息以指導(dǎo)解碼器生成和原文主題相關(guān)的摘要。
圖1 融合全局信息編碼與主題信息解碼的文本摘要生成模型
給定一篇文檔D,其單詞序列表示為D=(w1,w2,…,wd),其中,每個(gè)單詞wi來自固定的詞匯表V,d為文檔的長(zhǎng)度(字個(gè)數(shù))。自動(dòng)文摘就是輸入原文序列D,輸出摘要序列Y=(y1,y2,…,yn),通常情況下,輸入文檔序列長(zhǎng)度d大于生成摘要序列長(zhǎng)度n。
(1)
(2)
st=LSTM(wt-1,st-1,ct-1)
(3)
上下文向量ct是使用加性注意機(jī)制[2]計(jì)算的,它計(jì)算當(dāng)前的解碼器狀態(tài)st和每個(gè)編碼器狀態(tài)hi的重要性評(píng)分gt,i,a(.)是前饋神經(jīng)網(wǎng)絡(luò),然后送入softmax函數(shù),最后采用加權(quán)求和得到上下文向量ct,計(jì)算方法如下面的公式所示(Va,Wa,Ua都是訓(xùn)練參數(shù)):
(4)
(5)
(6)
最終,當(dāng)前字ot由上一個(gè)字yt-1,當(dāng)前的上下文向量ct,以及當(dāng)前解碼器的隱藏狀態(tài)st共同得到,并通過softmax從詞匯表中計(jì)算當(dāng)前要生成的字的概率p,公式如下(Ww、Wc、Ws都是可訓(xùn)練矩陣參數(shù)):
ot=Wwwt-1+Wcct+Wsst
(7)
p(yt|y (8) 與即時(shí)信息一樣,語言也存在局部相關(guān)性,卷積核的參數(shù)共享使模型能夠提取這些N元特征,也就是短語結(jié)構(gòu);另外,Vaswani等[13]提出,自注意力可以通過挖掘當(dāng)前時(shí)間步與每一步的相關(guān)性來加強(qiáng)全局信息。所以本文在Seq2Seq的encoder和decoder之間加一個(gè)全局信息過濾單元,包含卷積CNN結(jié)構(gòu)和Self-attention機(jī)制,通過參數(shù)共享和綜合全局信息過濾每個(gè)編碼器的輸出。具體步驟如下: 2.2.1 卷積提取N-gram特征 由于文本輸入以字而非詞為單位,為保證生成摘要的通順性和連貫性,在采用雙向LSTM全局編碼字的隱藏狀態(tài)之后設(shè)計(jì)一層CNN,由多個(gè)不同大小的卷積核組成,以獲得多個(gè)與N-gram語言模型類似的特征。具體地,本文使用一個(gè)類似于Inception結(jié)構(gòu)的網(wǎng)絡(luò)如圖2所示。 圖2 卷積結(jié)構(gòu)圖 卷積網(wǎng)絡(luò)結(jié)構(gòu)采用1、3和5三種不同大小的卷積核來獲取不同尺度的特征,最后把它們拼接起來能有效融合這些特征。選取k=5是因?yàn)橄M麛?shù)據(jù)的中間表示盡可能多地考慮上下文環(huán)境,但使用k=5的卷積核會(huì)帶來巨大的計(jì)算量,所以用兩個(gè)k=3的卷積核代替。在inception結(jié)構(gòu)中,大量采用了1×1的矩陣,主要起兩點(diǎn)作用:1) 對(duì)數(shù)據(jù)進(jìn)行降維;2) 引入更多的非線性,提高泛化能力。卷積后要經(jīng)過ReLU激活函數(shù)。 gi=ReLU(W[hi-k/2,…,hi+k/2]+b) (9) 2.2.2 自注意力挖掘全局信息 經(jīng)過CNN獲取短語結(jié)構(gòu)之后,使用自注意力對(duì)這些表示做進(jìn)一步篩選。輸入一個(gè)句子,編碼器最終輸出的每個(gè)詞都要和卷積后的所有詞向量進(jìn)行attention計(jì)算,目的是學(xué)習(xí)句子內(nèi)部的詞依賴關(guān)系和句子的內(nèi)部結(jié)構(gòu)。這樣就能在避免重復(fù)生成的同時(shí)獲取全局核心信息。采用縮放點(diǎn)積注意力[13]計(jì)算編碼器每一個(gè)時(shí)間步的輸出與卷積得到的全局信息的關(guān)系,把注意力表達(dá)成Q(query)、K(key)、V(value)三元組。其中Q是編碼器每個(gè)時(shí)間步的輸出,K和V是輸入的文本序列經(jīng)過編碼和CNN卷積之后的表示矩陣。Q=WattV,Watt是學(xué)習(xí)矩陣,然后使用softmax函數(shù)對(duì)這些權(quán)重進(jìn)行歸一化;最后,將權(quán)重和相應(yīng)的V進(jìn)行加權(quán)求和得到融合自注意力之后的向量gglobal。在softmax計(jì)算之前,進(jìn)行尺度縮放,除以維度dk,防止內(nèi)積過大,公式如下: (10) 接下來就是計(jì)算基于CNN和自注意模塊的門控單元篩選后的信息表示,其中σ是sigmod函數(shù)。其計(jì)算式為: (11) σ(g)在每個(gè)維度輸出一個(gè)介于0和1之間的值向量。如果值接近0,則gate刪除原表示的相應(yīng)維度的大部分信息,如果接近1,則保留原表示的大部分信息。經(jīng)過這兩步,CNN模塊可以提取原文的N元特征,自注意力能夠?qū)W習(xí)詞之間的依賴關(guān)系,因此該門控單元可對(duì)編碼器輸出進(jìn)行全局編碼。 (12) (13) (14) (15) (16) 摘要應(yīng)反映原文的主要信息,而序列到序列模型則傾向于包含原文中的所有信息而不管其是否重要。這可能導(dǎo)致錯(cuò)誤地將注意力集中在與摘要主題不相關(guān)的信息上。所以在解碼生成摘要時(shí),需要一個(gè)聚焦原文重要信息的主題來指導(dǎo)生成過程,本文試圖尋找一個(gè)這樣的主題向量。 (1) 經(jīng)過大量對(duì)比和統(tǒng)計(jì)發(fā)現(xiàn),大部分摘要除助詞外,主要由原文中的實(shí)體組成。本文從文本摘要常用數(shù)據(jù)集的原文中提取出實(shí)體,發(fā)現(xiàn)大多數(shù)摘要中的名詞短語至少包含一個(gè)原文中的實(shí)體,這證明原文的實(shí)體信息對(duì)摘要具有有效性。 (2) 通常在讀一條新聞的時(shí)候,經(jīng)常會(huì)用“誰在哪里做了什么”這樣的結(jié)構(gòu)來捕捉它所要表達(dá)的主要信息,當(dāng)表示“誰”和“哪里”這樣信息的實(shí)體都是十分重要的,所以原文中出現(xiàn)的人名、地名、組織機(jī)構(gòu)這些實(shí)體對(duì)反映整個(gè)文本信息來說至關(guān)重要。 (3) 本文采用維基百科中文預(yù)訓(xùn)練向量嵌入實(shí)體,詞向量含有百科相關(guān)信息,因此實(shí)體所具有的常識(shí)性信息也可供生成摘要時(shí)利用。比如,在“洛杉磯道奇在周三以四人交換的方式從紐約大都會(huì)隊(duì)手中收購了韓國的右投手徐承載”這句話中,維基百科知道“洛杉磯道奇隊(duì)”和“紐約大都會(huì)”都是美國著名的職業(yè)棒球隊(duì),“徐承載”是與棒球隊(duì)有關(guān)的棒球運(yùn)動(dòng)員,這三個(gè)實(shí)體就具有相關(guān)性,就可以把這種信息傳遞給解碼器并利用它來生成更加連貫的摘要。 為此,本文在序列到序列模型上添加Entity2Topic(E2T)模塊。該模塊對(duì)從原文本中提取實(shí)體進(jìn)行編碼,提取的實(shí)體包括原文中的人名、地名、組織名,將提取的所有實(shí)體按照在原文中的位置以及先人名再地名最后組織名的順序輸入到LSTM中進(jìn)行編碼,再解碼構(gòu)造一個(gè)表示要生成的摘要主題的向量。 本文使用基于字的LSTM+CRF來提取實(shí)體,主要參考的是文獻(xiàn)[14-15],采用Bakeoff-3評(píng)測(cè)中所采用的BIO標(biāo)注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表組織機(jī)構(gòu)名首字、組織機(jī)構(gòu)名非首字,O代表該字不屬于命名實(shí)體的一部分。如:于大寶幫中國隊(duì)獲勝B-PER I-PER I-PER O B-ORG I-ORG I-ORG O O。 本文采用的實(shí)體提取方法在人名、地名、組織機(jī)構(gòu)這三個(gè)類別的識(shí)別準(zhǔn)確率都可以達(dá)到90%左右,可以證明提取實(shí)體的有效性。 (17) (18) (19) 本文按照原文長(zhǎng)短確定提取實(shí)體的個(gè)數(shù),接著用新的實(shí)體向量來創(chuàng)建主題向量t,該主題向量就表示摘要的主題。對(duì)實(shí)體向量使用軟注意來確定每個(gè)向量的重要性值,這一步通過將每個(gè)實(shí)體向量與文本編碼器中的文本向量作為上下文向量進(jìn)行匹配來實(shí)現(xiàn)。然后使用加權(quán)求和的方式合并實(shí)體向量得到本文的主題向量(Ve,We,Ue都是訓(xùn)練參數(shù))。其計(jì)算式如下: (20) (21) (22) 然后將主題向量t連接到解碼器的隱狀態(tài)向量: (23) 最后使用連接向量創(chuàng)建輸出向量: (24) (25) (26) (1) 實(shí)驗(yàn)數(shù)據(jù)。LCSTS大規(guī)模中文短文本摘要公開數(shù)據(jù)集,共包含3個(gè)部分:Part1包含240萬文本-摘要對(duì),可用于訓(xùn)練模型生成摘要;Part2包含10 666個(gè)人工標(biāo)注的文本-摘要對(duì);Part3包含1 106文本-摘要對(duì),文檔的平均長(zhǎng)度在98個(gè)字左右。在本文實(shí)驗(yàn)中,本文使用Part1作為訓(xùn)練集,Part2作為驗(yàn)證集,Part3為測(cè)試集。 (2) 實(shí)驗(yàn)環(huán)境如表3所示。 表3 實(shí)驗(yàn)環(huán)境 (3) 評(píng)價(jià)指標(biāo)。ROUGE(Recall-Oriented Understudy for Gisting Evaluation)是評(píng)估自動(dòng)文摘的一組指標(biāo),它基于摘要中n元詞(n-gram)的共現(xiàn)信息來評(píng)價(jià)摘要,ROUGE準(zhǔn)則由一系列的評(píng)價(jià)方法組成,包括ROUGE-N(N取N-gram的N,取值有1、2、3、4)、ROUGE-L,是摘要評(píng)價(jià)方法的通用標(biāo)準(zhǔn)之一。 (4) 參數(shù)設(shè)置。部分參數(shù)設(shè)置見表4,本文使用PyTorch的代碼,在NVIDIA 1080Ti GPU上進(jìn)行實(shí)驗(yàn)。優(yōu)化器選取默認(rèn)的Adam,訓(xùn)練時(shí)從第4輪迭代開始學(xué)習(xí)速率減半。本文按字分割文本,這是因?yàn)閿?shù)據(jù)集較大分詞需要構(gòu)建超大的詞表,訓(xùn)練速度也會(huì)降低,生成摘要的時(shí)候還會(huì)生成大量未登錄詞。 表4 實(shí)驗(yàn)參數(shù)設(shè)置表 3.2.1 整體實(shí)驗(yàn) 為評(píng)估本文提出的模型在自動(dòng)摘要任務(wù)中的表現(xiàn),與其他自動(dòng)摘要方法在同一個(gè)數(shù)據(jù)集LCSTS上進(jìn)行了對(duì)比,ROUGE值如表5所示。 表5 LCSTS數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果(%) 表中的數(shù)據(jù)前六行是其他方法在相同數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果:(1) RNN[16]:沒有注意力機(jī)制的Seq2Seq模型。(2) RNN-context[16]:有注意力機(jī)制的Seq2Seq模型。(3) copyNet[17]:添加拷貝機(jī)制的帶注意力機(jī)制的Seq2Seq模型。(4) SRB[18]:改善源文本和摘要之間語義相關(guān)性的模型。(5) DRGD[8]:在Seq2Seq增加深度循環(huán)解碼器學(xué)習(xí)目標(biāo)摘要的潛在結(jié)構(gòu)信息。(6) R-NET[19]:基于過濾機(jī)制的閱讀理解模型用于文本摘要??梢钥闯?本文的模型效果比其他模型都好,比之前最好的R-NET模型在ROUGE-1、ROUGE-2和ROUGE-L也分別有2.7百分點(diǎn)、1.2百分點(diǎn)和2.0百分點(diǎn)的提升,說明本文提出的融合全局信息編碼和主題信息解碼的模型是有效的。 3.2.2 消融實(shí)驗(yàn) 為了分析不同組件對(duì)模型的影響程度,本文在基礎(chǔ)的Seq2Seq模型上分別加入全局信息編碼GIE模塊和主題信息解碼E2T模塊并進(jìn)行比較。實(shí)驗(yàn)結(jié)果如表6所示。其中seq2seq是有注意力機(jī)制的序列到序列模型復(fù)現(xiàn)的結(jié)果,四個(gè)模型使用的網(wǎng)絡(luò)結(jié)構(gòu)都保持一致。 表6 具有不同組件的模型性能(%) 從表中數(shù)據(jù)分析可知:相比Seq2Seq模型,Seq2Seq+GIE在ROUGE-1、ROUGE-2和ROUGE-L上分別有3.6百分點(diǎn)、3.1百分點(diǎn)和3.2百分點(diǎn)的提升,Seq2Seq+E2T在ROUGE-1、ROUGE-2和ROUGE-L上分別有1.7百分點(diǎn)、1.7百分點(diǎn)和1.3百分點(diǎn)的提升,這說明本文添加的兩個(gè)模塊對(duì)文本摘要任務(wù)都是有效的,且Seq2Seq+GIE比Seq2Seq+E2T的提升更明顯,二者融合的效果更佳。 驗(yàn)證1:全局信息編碼模塊能有效利用全局信息降低重復(fù)率。由于本文的GIE負(fù)責(zé)從RNN編碼器中選擇重要的輸出信息,以提高注意力分?jǐn)?shù)的質(zhì)量,因此它應(yīng)該能夠減少重復(fù)。本文通過計(jì)算句子層次上重復(fù)詞的百分比來評(píng)價(jià)重復(fù)的程度。通過對(duì)1-gram-4-gram重復(fù)的模型的評(píng)估,證明該模型與傳統(tǒng)的Seq2Seq模型相比,重復(fù)率顯著降低,如圖3所示,其中w/o GIE表示W(wǎng)ithOut GIE,即不添加GIE模塊的Seq2Seq生成的摘要;GIE表示Seq2Seq添加GIE模塊生成的摘要;Reference表示參考摘要。 圖3 句子中的N-gram重復(fù)率 驗(yàn)證2:E2T模塊能通過提取實(shí)體有效聚焦主題。對(duì)引言中提到的示例進(jìn)行實(shí)驗(yàn)并對(duì)生成的摘要作簡(jiǎn)要分析,如表7所示。 表7 例2添加E2T的生成結(jié)果 基線模型Seq2Seq生成了一個(gè)不完整的摘要。本文認(rèn)為這是因?yàn)檩斎胛谋镜拈L(zhǎng)度較長(zhǎng),而解碼器沒有指導(dǎo)它應(yīng)該關(guān)注哪些主題。Seq2Seq生成的是林志穎虛假推銷,實(shí)際上文章的主題是林志穎旗下公司愛碧麗而不是林志穎本人;因?yàn)镋2T會(huì)在原文中提取到林志穎和愛碧麗以及方舟子這三個(gè)實(shí)體,并將該信息作為整個(gè)文本的主題傳遞給解碼器指導(dǎo)它生成摘要,所以最后生成的結(jié)果能夠定位到虛假推銷的主體是林志穎旗下公司愛碧麗以及推送這條消息的人方舟子,因此更準(zhǔn)確地概括了原文主旨。這也證明了本文的E2T模塊能通過提取實(shí)體聚焦到原文主題。 3.2.3 生成摘要示例 如表8所示,由于“中國”在原文中出現(xiàn)了兩次,基線模型Seq2Seq很難把它放在一個(gè)不那么重要的位置,但對(duì)于本文的Seq2Seq+GIE模型來說,它能夠過濾那些與原文的核心意義無關(guān)的瑣碎細(xì)節(jié),只是在對(duì)主要思想貢獻(xiàn)最大的信息上進(jìn)行關(guān)注,生成摘要中“中國貴75%”就是核心信息,但它沒有指明是比哪里貴;而帶有E2T模塊的模型生成的摘要涵蓋信息比較全面,能找到比對(duì)對(duì)象是“美國”的“星巴克”和“中國”的“星巴克”,摘要中出現(xiàn)的“星巴克”“美國”“中國”,以及消息來源“財(cái)經(jīng)日?qǐng)?bào)”都是它捕捉并利用的實(shí)體信息,可以看到參考摘要中也是有消息來源“媒體”的,但Seq2Seq+E2T生成的摘要比較繁瑣;相比之下,二者結(jié)合生成的摘要與參考摘要更為接近。 表8 生成摘要示例 隨著對(duì)模型研究的不斷深入,序列到序列模型生成摘要的效果越來越接近人工生成的結(jié)果。本文提出的融合全局編碼與主題解碼的Seq2Seq模型也取得了較好的效果。雖然Seq2Seq模型還存在處理長(zhǎng)文本效果欠佳、時(shí)間復(fù)雜度高等很多問題,但它仍是文本摘要研究方向上的引領(lǐng)者,之后可以繼續(xù)在網(wǎng)絡(luò)結(jié)構(gòu)、多重注意力機(jī)制、適當(dāng)引入先驗(yàn)知識(shí)等方面繼續(xù)改善模型的學(xué)習(xí)能力,主要還是提高模型對(duì)原文的理解能力以及生成句子的質(zhì)量。2.2 全局信息編碼(GIE)
2.3 主題信息解碼
3 實(shí) 驗(yàn)
3.1 實(shí)驗(yàn)設(shè)置
3.2 實(shí)驗(yàn)結(jié)果對(duì)比與分析
4 結(jié) 語