丁建立 李洋 王家亮
摘 要:針對當(dāng)前生成式文本摘要方法存在的語義信息利用不充分、摘要精度不夠等問題,提出一種基于雙編碼器的文本摘要方法。首先,通過雙編碼器為序列映射(Seq2Seq)架構(gòu)提供更豐富的語義信息,并對融入雙通道語義的注意力機制和伴隨經(jīng)驗分布的解碼器進(jìn)行了優(yōu)化研究;然后,在詞嵌入生成技術(shù)中融合位置嵌入和詞嵌入,并新增詞頻-逆文檔頻率(TF-IDF)、詞性(POS)、關(guān)鍵性得分(Soc),優(yōu)化詞嵌入維度。所提方法對傳統(tǒng)序列映射Seq2Seq和詞特征表示進(jìn)行優(yōu)化,在增強模型對語義的理解的同時,提高了摘要的質(zhì)量。實驗結(jié)果表明,該方法在Rouge評價體系中的表現(xiàn)相比傳統(tǒng)伴隨自注意力機制的遞歸神經(jīng)網(wǎng)絡(luò)方法(RNN+atten)和多層雙向伴隨自注意力機制的遞歸神經(jīng)網(wǎng)絡(luò)方法(Bi-MulRNN+atten)提高10~13個百分點,其文本摘要語義理解更加準(zhǔn)確、生成效果更好,擁有更好的應(yīng)用前景。
關(guān)鍵詞:生成式文本摘要;序列映射(Seq2Seq);雙編碼器;經(jīng)驗分布;詞特征表示
中圖分類號: TP391.1文字信息處理文獻(xiàn)標(biāo)志碼:A
Short text automatic summarization method based on dual encoder
DING Jianli, LI Yang*, WANG Jialiang
(College of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)
Abstract: Aiming at the problems of insufficient use of semantic information and the poor summarization precision in the current generated text summarization method, a text summarization method was proposed based on dual encoder. Firstly, the dual encoder was used to provide richer semantic information for Sequence to Sequence (Seq2Seq) architecture. And the attention mechanism with dual channel semantics and the decoder with empirical distribution were optimized. Then, position embedding and word embedding were merged in word embedding technology, and Term Frequency-Inverse Document Frequency (TF-IDF), Part Of Speech (POS), key Score (Soc) were added to word embedding, as a result, the word embedding dimension was optimized. The proposed method aims to optimize the traditional sequence mapping of Seq2Seq and word feature representation, enhance the models semantic understanding, and improve the quality of the summarization. The experimental results show that the proposed method has the performance improved in the Rouge evaluation system by 10 to 13 percentage points compared with traditional Recurrent Neural Network method with attention (RNN+atten) and Multi-layer Bidirectional Recurrent Neural Network method with attention (Bi-MulRNN+atten). It can be seen that the proposed method has more accurate semantic understanding of text summarization and the generation effect better, and has a better application prospect.
Key words: generated text summarization; Sequence to Sequence (Seq2Seq); double encoder; empirical distribution; word feature representation
0 引言
如今,互聯(lián)網(wǎng)的快速發(fā)展使得網(wǎng)絡(luò)平臺成為了人們交互信息、互相溝通的重要途徑,也使得人們更容易瀏覽和發(fā)布信息。在線信息的爆炸式增長使得信息過載成為了一個嚴(yán)重的問題,面對海量信息,如何從中獲取對自己有用的數(shù)據(jù)已經(jīng)成為了信息處理領(lǐng)域迫切解決的問題。
自動文本摘要是自然語言處理領(lǐng)域的重要分支。文本摘要是指通過計算機從大量文本中提取關(guān)鍵信息,自動文本摘要是信息提取和壓縮的關(guān)鍵技術(shù)。自動文本摘要早在20世紀(jì)50年代就已出現(xiàn),依據(jù)摘要形式可將其分為抽取式和生成式,抽取式文本摘要是認(rèn)為文章的中心思想可以由文章中的一個或幾個句子進(jìn)行概括。生成式文本摘要是基于對文章上下文的理解,可以像人一樣對文章進(jìn)行總結(jié),所概括的文本不必在原文中出現(xiàn)但要切合全文語義。相比之下,生成式文本摘要更加貼近人類思維,更能準(zhǔn)確反映文本意境,但同時涉及自然語言理解和文本重塑,使得理解概要更加困難。
目前,深度學(xué)習(xí)技術(shù)已經(jīng)廣泛地應(yīng)用于自然語言處理領(lǐng)域,包括閱讀理解[1]、自動問答[2]、機器翻譯[3]、文本重塑[4]等任務(wù)?;跀?shù)據(jù)驅(qū)動的端到端的文本摘要生成方法靈感來源于機器翻譯的神經(jīng)網(wǎng)絡(luò)模型。Lopvrev[5]利用遞歸神經(jīng)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò) (Long Short-Term Memory network, LSTM)神經(jīng)單元構(gòu)建了基于Encoder-Decoder框架的抽象生成模型,并結(jié)合自注意力機制生成文本摘要。Rush等[6]提出了改進(jìn)的注意力模型用于句子摘要生成。Hu等[7]基于遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network, RNN)的編碼器-解碼器結(jié)構(gòu)應(yīng)用于中文文本摘要任務(wù)。Zhang等[8]使用字符級特征作為RNN編解碼器框架的輸入,在保證性能的同時縮小了特征空間的維數(shù)。See等[9]提出了一種混合指針生成器網(wǎng)絡(luò),保證了生成摘要原義重述的精確性又保留了新單詞的生成能力。Chen等[10]結(jié)合多層神經(jīng)網(wǎng)絡(luò)隱層語義來提高摘要生成質(zhì)量。張克君等[11]通過增加多層編解碼器網(wǎng)絡(luò)層數(shù)并結(jié)合改進(jìn)的詞嵌入特征提高了模型對語義的理解。目前對于長短文本的摘要生成任務(wù)是自然語言研究熱點[12-14],面對構(gòu)詞結(jié)構(gòu)迥異、組成結(jié)構(gòu)復(fù)雜的文本如何生成語義理解充分、準(zhǔn)確度高的摘要是當(dāng)前亟待解決的問題。當(dāng)前普遍使用的是編碼器解碼器的抽象生成學(xué)習(xí)方法,即序列映射(Sequence to Sequence, Seq2Seq)文本學(xué)習(xí)模型來生成文本摘要,但僅僅通過多個網(wǎng)絡(luò)層的線性堆疊或增加原文相關(guān)詞語的復(fù)制能力,往往不能較好提升單詞級或字符級語義理解能力;而且面對中文短文本句子數(shù)量少、文本長短不一的情況,神經(jīng)網(wǎng)絡(luò)層數(shù)的線性疊加并不能使得模型獲得良好的生成質(zhì)量。
人類書寫文本摘要首先是閱讀全文,理解文章的全局意義,然后通過原文和自己的理解對文章的整體進(jìn)行概括摘要。
本文通過研究人類理解思考過程對Seq2Seq文本摘要生成模型如下改進(jìn):1)將雙編碼器應(yīng)用于編碼器端,高層編碼器用于獲得文本的全局語義信息,而低層編碼器專注于編碼過程中原始序列的對齊單詞語義表示。2)通過建立全局、局部語義信息與原始文本和摘要之間的內(nèi)在對齊聯(lián)系,來優(yōu)化注意力機制使其融合雙編碼器混合語義信息和解碼器隱藏狀態(tài)。3)為解碼器端增加關(guān)鍵詞經(jīng)驗概率分布,加快模型收斂并使生成的摘要更準(zhǔn)確。4)融合位置嵌入、詞嵌入方法,增加詞性、詞頻和關(guān)鍵性得分改進(jìn)單詞特征表示以提高模型對詞義的理解;并根據(jù)語料庫的大小優(yōu)化詞向量生成的最優(yōu)維度。
1 改進(jìn)的雙編碼器結(jié)構(gòu)的文本摘要生成模型
本文設(shè)計的摘要生成模型包含高層和低層雙編碼器結(jié)構(gòu),高層編碼器注重于全文的上下語義理解,低層編碼器注重于文本特征與隱層狀態(tài)的對其輸入,兩者形成聯(lián)合語義向量表示;解碼端采用多層單向神經(jīng)網(wǎng)絡(luò)結(jié)合改進(jìn)的詞表經(jīng)驗分布Qo來輸出高質(zhì)量摘要。本文改進(jìn)的雙編碼器結(jié)構(gòu)的文本摘要生成模型Do-Seq2Seq(Double-Seq2Seq)詳細(xì)架構(gòu)如圖1所示。
圖1中,伴隨自注意力機制(Attention)的高層編碼器生成全局語義信息M,低層編碼器生成文本特征對齊向量,兩者融合為聯(lián)合語義向量(Joint Vector)用于解碼端,Qo為解碼端詞表經(jīng)驗分布。
1.1 基于雙向遞歸神經(jīng)網(wǎng)絡(luò)的雙編碼器
文本摘要的抽象生成不僅要對全文進(jìn)行語義理解還要對原始文本進(jìn)行壓縮和重塑,并不能像機器翻譯任務(wù)那樣通過雙語言并行對齊生成高質(zhì)量的摘要,為了解決傳統(tǒng)Seq2Seq模型中編碼器端輸出的語義信息不完全、不充分的問題,本文設(shè)計了雙編碼器結(jié)構(gòu)用于獲取原文的全局語義信息和局部上下文語義信息。如圖1所示,高層編碼器將文本輸入序列(x1,x2,…,xn)通過伴隨自注意力機制的雙向遞歸神經(jīng)網(wǎng)絡(luò)(Bidirectional RNN, BiRNN)映射成高維語義向量M,低層編碼器聚焦于原始文本局部語義的一致性表示,將文本輸入序列(x1,x2,…,xn)通過BiRNN映射成編碼器隱藏狀態(tài)向量(h1,h2,…,hn)。本文所述的雙編碼器具體計算式如下:
H=(H1,H2,…,Hm)=BiRNN(x1,x2,…,xm)(1)
SHi=VH tanh(WHHi)(2)
aHi=exp(SHi)∑ni=1exp(SHi)(3)
M=∑ni=1aHiHi(4)
在式(1)中,原始文本通過雙向遞歸神經(jīng)網(wǎng)絡(luò)將原始文本轉(zhuǎn)化為高層編碼器的隱藏狀態(tài)表示;然后,通過式(2)非線性激活函數(shù)將H映射為相似性分?jǐn)?shù),其中VH和WH為優(yōu)化參數(shù)矩陣;式(3)表示通過Softmax對SHi進(jìn)行歸一化處理;式(4)通過歸一化得分和編碼器隱藏狀態(tài)信息的加權(quán)求和獲得M,M代表著原文全局語義向量表示。
1.2 融合全局與局部語義的注意力機制
注意力機制緣起于計算機視覺領(lǐng)域,其核心思想是在瀏覽全局圖像后,獲得需要重點關(guān)注的目標(biāo)區(qū)域。隨后注意力機制引入到文本處理領(lǐng)域,并獲得了良好的效果。
在文本摘要任務(wù)中注意力機制是在編碼器-解碼器兩端增加的連接架構(gòu),以解決Seq2Seq模型中文本語義理解不充分的問題。傳統(tǒng)的注意力機制是將編碼器的隱藏狀態(tài)和解碼器的隱藏狀態(tài)通過加權(quán)求和融合成高維語義表示,并指示解碼器對序列中哪一單詞語義需重點關(guān)注。
本文在此基礎(chǔ)之上將雙編碼器獲得全局和局部語義信息融入到注意力機制,豐富原文語義信息表示,增強對文本的閱讀理解。該注意力機制的詳細(xì)計算過程如下:
h=(h1,h2,…,hn)=BiRNN(x1,x2,…,xn)(5)
SLti=S(hi,M,St-1)=
Vetanh(Wh[hi,M]+VsSt-1)(6)
aLti=exp(SLti)∑ni=1exp(SLti)(7)
Ct-1=∑ni=1aLtihi(8)
式(5)為低層編碼器將序列映射為隱藏狀態(tài)向量(h1,h2,…,hn)。在式(6)中,原始文本的全局語義向量M和低層編碼器隱藏狀態(tài)hi級聯(lián)通過優(yōu)化參數(shù)Wh將其轉(zhuǎn)化為當(dāng)前狀態(tài)的語義表示,解碼器隱藏狀態(tài)St-1與Vs相乘獲得解碼器當(dāng)前狀態(tài)信息的向量表示;然后,兩者通過相應(yīng)元素的對齊相加,并通過非線性激活函數(shù)tanh()映射成一融合狀態(tài)向量,該融合狀態(tài)向量結(jié)合了編碼器端第i步的語義信息和t-1時刻解碼端的隱藏狀態(tài)信息。Ve為優(yōu)化參數(shù)矩陣與結(jié)果作內(nèi)積運算,其過程實質(zhì)是將注意力機制語義表示和編碼器解碼器的隱藏層狀態(tài)通過得分函數(shù)映射為相似性得分。式(7)是將得分通過Softmax映射成概率分布。式(8)是加入低層編碼器隱藏狀態(tài)加權(quán)求和獲得聯(lián)合上下文語義表示Ct-1。具有雙編碼器結(jié)構(gòu)的注意力機制融合了全局與局部的雙通道語義,使其更能聚焦于原始文本的抽象語義特征,語義理解更豐富。
1.3 伴隨經(jīng)驗概率分布的解碼器
本文采用雙層單向神經(jīng)網(wǎng)絡(luò)設(shè)計解碼器。傳統(tǒng)解碼器將當(dāng)前t時刻的隱藏向量、上下文高層語義和t-1時刻解碼端的輸出序列通過條件概率函數(shù)映射為t時刻輸出序列的待選概率。解碼端輸出摘要雖不強求出自于原文,但相關(guān)部分卻來自原文。本文在此基礎(chǔ)上引入了關(guān)鍵詞經(jīng)驗概率分布,使得解碼端生成摘要序列時增加原文待選詞的傾向性,同時可提高解碼端的收斂速度。
p(ytx)=
Softmax(WcCt+WoSt+QSo+yt-1+bo)(9)
QSo=WQV+λo(10)
式(9)中:Ct為融合全局和局部語義信息的上下文語義表示;St為當(dāng)前時刻解碼器的隱藏狀態(tài);yt-1為t-1時刻輸出詞;QSo為輸出序列候選詞經(jīng)驗概率分布;Wc、Wo、bo為優(yōu)化參數(shù)。QSo的定義在式(10)中:WQ、λo為優(yōu)化參數(shù)矩陣;“”表示哈達(dá)馬積(Hadamard)再與λo對位相加;V為詞表0/1向量矩陣V=(v1,v2,…,vm),v1=1代表該詞在文章中出現(xiàn)過,否則v1=0。QSo的引入增加了出現(xiàn)在原文中候選詞的輸出概率,加速了收斂過程。
2 改進(jìn)的詞嵌入技術(shù)
2.1 增加詞嵌入特征
中文內(nèi)容實驗研究中通常使用word2vec或Glove來生成文本的詞向量,前者使用當(dāng)前詞的向量表示推測出周圍詞的向量表示,后者使用了全局語義信息使得訓(xùn)練的速度更快。兩者在原理上注重詞語間在向量表示空間中的相對位置,即語義相似關(guān)系。為豐富語義,在原詞向量的基礎(chǔ)上融合位置向量并新增詞特征。
生成的文本摘要要在有限的字?jǐn)?shù)內(nèi)表達(dá)出涵蓋整篇短文的理解語義,因此詞序?qū)φ|(zhì)量有很大影響,例如:“我愛你”和“你愛我” ,“你” “我”兩字因詞位置的顛倒使句子主賓關(guān)系產(chǎn)生變化,改變了摘要應(yīng)該表達(dá)的原有意思,對摘要結(jié)果產(chǎn)生重大影響。本文將位置嵌入(Position Embedding) [15]和詞嵌入 (Word Embedding)結(jié)合形成新的詞向量表示。此外,在此基礎(chǔ)上增加了詞性(Part Of Speech, POS)、詞頻逆文檔頻率(Term Frequency-Inverse Document Frequency, TF-IDF)和關(guān)鍵性得分(key Score, Soc)來豐富單詞語義特征,使得對詞語的特征刻畫更加豐富、充分,為模型訓(xùn)練提供了更好的特征表達(dá)。改進(jìn)的詞嵌入模型如圖2所示。
本文將所有詞表元素{x1,x2,…,xm}映射為詞向量W=(w1,w2,…,wm),wi∈Rf,同時將詞所在文本中的位置映射為位置向量P=(p1,p2,…,pm),pj∈Rf;將詞向量和位置向量結(jié)合為新的向量U=(w1+p1,w2+p2,…,wm+pm)。位置向量(Position Embedding)的生成公式如下:
PE(pos,2i)=sin(pos/100002i/dmodel)
PE(pos,2i+1)=cos(pos/100002i/dmodel)(11)
其中,在被分詞為長度為n的短文本中,將單詞所在位置pos映射成為一個dmodel維的位置向量,且此位置向量第i維的值為PE(pos,i)。位置向量看似是由公式生成的絕對位置,但借助于函數(shù)sin(α+β)、cos(α+β)的三角函數(shù)性質(zhì)可知:位置(α+β)的向量可以表示成位置α向量的線性變換,也為相對位置的表達(dá)提供了可能,這與詞向量表示單詞相對位置語義空間映射的實質(zhì)有相同之處。
生成的文本摘要大多是以陳述的總結(jié)句為主,更加聚焦于名詞和動詞,對于附有感情色彩的形容詞關(guān)注較少。TF-IDF指數(shù)能反映詞語在語料庫的綜合特征,將生成的詞語的POS(詞性)、TF-IDF、Sco(關(guān)鍵性得分)樸素連接在融合向量后端構(gòu)成新的詞向量作為編碼器的輸入。Sco的定義如式(12)所示:
Sco(wi)=βP(wi)+β(12)
其中:P(wi)為單詞頻率;β為平滑反頻率系數(shù)。在短文本中,詞語的關(guān)鍵程度因字?jǐn)?shù)限制與其頻率往往具有負(fù)相關(guān)關(guān)系,相關(guān)程度因語料庫的不同而有差異。參數(shù)β的引入平衡頻率對詞語關(guān)鍵程度的影響,出現(xiàn)頻率較小關(guān)鍵性可能更高。
2.2 優(yōu)化詞嵌入維度
word2vec、Glove是當(dāng)前最受歡迎的詞嵌入方法,但目前對于詞嵌入維度的選擇卻頗為隨意,沒有一定的理論依據(jù),不同語料庫的大小采用隨意的嵌入維度,并不能保證模型的最優(yōu)性,勢必影響語義表示質(zhì)量。大量實驗研究表明,詞嵌入學(xué)習(xí)維度選擇過小會造成語義丟失,維度過大會引入太多噪聲。一個較好質(zhì)量的語義高維矩陣無論矩陣怎樣變換,空間中詞向量的相對位置保持不變。本文通過依據(jù)矩陣微擾理論設(shè)計的伴隨酉不變性質(zhì)的成對內(nèi)積(Pairwise Inner Product, PIP)損失函數(shù)[16]為當(dāng)前語料庫設(shè)計最優(yōu)的維度嵌入表示,提高詞向量表示精度。PIP損失函數(shù)如下。
PIP(E)=EET(13)
E[‖E^E^T-E*E*T‖]≤∑di=k+1λ4αi+
22nασ∑ki=1λ4α-2i+
2∑ki=1(λ2αi-λ2αi+1)σ∑r≤i < s(λr-λs)-2(14)
式(13)為PIP矩陣定義。式(14)為損失函數(shù)期望估計量,其中:E^∈Rn×k為已得到的詞向量矩陣,E*∈Rn×d為未獲得的最優(yōu)詞向量矩陣;k、d為維數(shù),k 3 實驗與結(jié)果分析 3.1 實驗數(shù)據(jù)優(yōu)選 本文使用由搜狗實驗室提供的新聞?wù)Z料庫數(shù)據(jù)集,該數(shù)據(jù)集中共包含來自娛樂、文化、教育、軍事、社會、金融等679978條新聞標(biāo)題數(shù)據(jù)對。針對文本摘要生成任務(wù),語料庫數(shù)據(jù)質(zhì)量同樣影響著最終的實驗結(jié)果,需要過濾數(shù)據(jù)集以提取高質(zhì)量的文本摘要數(shù)據(jù)。首先,對數(shù)據(jù)集預(yù)處理去除掉長度小于5的文本,替換英文、特殊字符、表情符號等雜亂字符;其次,摘要是基于語言理解對文本內(nèi)容的高度壓縮與重塑,兩者相比文字?jǐn)?shù)量雖有減少但仍具有一定的相關(guān)程度。本文依據(jù)摘要與原文語義相似度的大小將數(shù)據(jù)分為三級以選取高質(zhì)量的實驗數(shù)據(jù)對:1表示最不相關(guān),3表示最相關(guān)。文本摘要語義相似度在區(qū)間(0,0.15)內(nèi)相關(guān)度為1,在區(qū)間[0.15,0.65)內(nèi)相關(guān)度為2,在區(qū)間[0.65,1)內(nèi)相關(guān)度為3。本文設(shè)計語義相似度算法計算式如下: vs=1|s|∑w∈sIDFwvw(15) cos θ=a·b‖a‖‖b‖=∑ni=1AiBi∑ni=1Ai2∑ni=1Bi2(16) 其中:|s|為當(dāng)前句子所含詞數(shù);IDFw為詞文檔逆文檔頻率指數(shù);vw為詞向量。式(15)專注句子向量生成,并通過余弦距離計算文本摘要對之間的相似度如式(16);數(shù)據(jù)集的優(yōu)選劃分詳細(xì)如表1所示。 由表1可以看出:本文依據(jù)語義相似度將數(shù)據(jù)分為3個相關(guān)程度,如數(shù)據(jù)集Ⅰ所示,數(shù)據(jù)總數(shù)為679898,將此部分作為訓(xùn)練集;數(shù)據(jù)集Ⅱ是從Ⅰ的相關(guān)度為2和3的數(shù)據(jù)中隨機交叉選取的12923條數(shù)據(jù)作為驗證集;數(shù)據(jù)集Ⅲ是從Ⅰ的相關(guān)度為3的數(shù)據(jù)中隨機選取的2535條數(shù)據(jù)集作為測試集,且這部分?jǐn)?shù)據(jù)不會包含在Ⅰ的訓(xùn)練集中。 表格(有表名)表1 實驗數(shù)據(jù)劃分結(jié)果 Tab. 1 Experimental data partition results 數(shù)據(jù)集相關(guān)度數(shù)量Ⅰ11540225516483112928Ⅱ2 708235841Ⅲ3 2535 3.2 實驗參數(shù) 本文使用jieba分詞工具對語料庫進(jìn)行分詞,選取10000個高頻詞匯作為編碼器的字典詞匯表,通過成對內(nèi)積損失函數(shù)PIP選取最優(yōu)的詞向量維度221維,如圖3所示。高層編碼器采用200個門控循環(huán)單元(Gated Recurrent Unit, GRU)神經(jīng)單元、3層BiRNN結(jié)構(gòu),低層編碼器采用200個GRU神經(jīng)單元、3層BiRNN結(jié)構(gòu)。解碼端采用集束收縮(beam search)方法,束大小為5;batch_size(批尺寸)為64,平滑參數(shù)β=10-3。本文所提的具有雙編碼器的Do-Seq2Seq模型在服務(wù)器PowerEdge R210 Ⅱ上運行將近6d時間得到最終結(jié)果。 詞嵌入的最優(yōu)維度與語料庫規(guī)模有關(guān),不同大小語料庫伴隨著不同的詞數(shù)量、字典量、組詞結(jié)構(gòu),想要找到最優(yōu)的詞嵌入維度實質(zhì)是找到詞向量矩陣偏差與方差的最佳平衡點。損失函數(shù)PIP隨詞嵌入維度的變化如圖3所示。由圖3可以看出,PIP值在0~221維內(nèi)隨維度的增加而減小,221維之后PIP值隨維度的增加而增加;在221維處PIP值達(dá)到最小值即當(dāng)前語料庫的最優(yōu)維度。 自動文本摘要質(zhì)量的評價方法分為外部評價方法和內(nèi)部評價方法兩大類。外部評價方法是使用生成的摘要執(zhí)行本文相關(guān)任務(wù)如文檔檢索、文檔分類等,依據(jù)其應(yīng)用性能的水平來評判摘要質(zhì)量的高低;內(nèi)部評價方法需提供參考摘要,參考摘要與生成摘要之間的吻合度越高,質(zhì)量越好。最常使用的是內(nèi)部評價方法。文本摘要任務(wù)中國內(nèi)與國際最經(jīng)常使用的內(nèi)部方法是:Edmundson和Rouge[17],而Rouge更是被廣泛地應(yīng)用于文本摘要任務(wù)的評價當(dāng)中。本文采用Rouge評價體系對文本摘要的質(zhì)量進(jìn)行評價。Rouge是基于摘要中n元詞(n-gram)的共現(xiàn)信息來評價摘要質(zhì)量,是一種面向n元詞召回率的評價方法。本文使用Rouge-1、Rouge-2和Rouge-L來評估摘要質(zhì)量和模型性能。 3.3 結(jié)果分析 本文采用上述數(shù)據(jù)集進(jìn)行實驗,包括與文獻(xiàn)[7]方法和文獻(xiàn)[11]方法的對比實驗,以及融合位置嵌入與否、詞嵌入維度優(yōu)化與否的本文方法前后對比實驗,實驗詳情如表2所示。其中: 1)RNN+atten(RNN method with attention)[7]:代表使用帶有注意力機制的GRU門控單元的神經(jīng)網(wǎng)絡(luò)模型。 2)Bi-MulRNN+atten(Multi-layer Bidirectional RNN method with attention)[11]:代表文獻(xiàn)[11]中改進(jìn)的雙向多層遞歸神經(jīng)網(wǎng)絡(luò)文本摘要方法。 [3]CHEN K, ZHAO T, YANG M, et al. A neural approach to source dependence based context model for statistical machine translation [J]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2017, 26(2): 266-280. [4]GAMBHIR M, GUPTA V. Recent automatic text summarization techniques: a survey [J]. Artificial Intelligence Review, 2017, 47(1): 1-66. [5]LOPYREV K. Generating news headlines with recurrent neural networks [EB/OL]. [2019-03-15]. https://arxiv.org/pdf/1512.01712.pdf. [6]RUSH A M, CHOPRA S, WESTON J, et al. A neural attention model for abstractive sentence summarization [EB/OL]. [2019-03-13]. https://arxiv.org/pdf/1509.00685.pdf. [7]HU B, CHEN Q, ZHU F, et al. LCSTS: a large scale Chinese short text summarization dataset [C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 1967-1972. [8]ZHANG H, LI J, JI Y, et al. Understanding subtitles by character-level sequence-to-sequence learning [J]. IEEE Transactions on Industrial Informatics, 2017, 13(2): 616-624. [9]SEE A, LIU P J, MANNING C D, et al. Get to the point: summarization with pointer-generator networks [C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2017: 1073-1083. [10]CHEN G. Chinese short text summary generation model integrating multi-level semantic information [C]// Proceedings of the 2018 International Conference on Network, Communication, Computer Engineering. Paris: Atlantis Press, 2018: 1-12.查不到該文獻(xiàn),核實要素是否有誤? [11]張克君,李偉男,錢榕,等.基于深度學(xué)習(xí)的文本自動摘要方案[J].計算機應(yīng)用,2019,39(2):311-315.(ZHANG K J, LI W N, QIAN R, et al. Automatic text summarization scheme based on deep learning [J]. Journal of Computer Applications, 2019, 39(2): 311-315.) [12]沈華東,彭敦陸.AM-BRNN:一種基于深度學(xué)習(xí)的文本摘要自動抽取模型[J].小型微型計算機系統(tǒng),2018,39(6):1184-1189.(SHEN H D, PENG D L. AM-BRNN: automatic text summarization extraction model based on deep learning [J]. Journal of Chinese Computer Systems, 2018, 39(6): 1184-1189.) [13]李娜娜,劉培玉,劉文鋒,等.基于TextRank的自動摘要優(yōu)化算法[J].計算機應(yīng)用研究,2019,36(4):1045-1050.(LI N N, LIU P Y, LIU W F, et al. Automatic digest optimization algorithm based on TextRank [J]. Application Research of Computers, 2019, 36(4): 1045-1050.) [14]龐超,尹傳環(huán).基于分類的中文文本摘要方法[J].計算機科學(xué),2018,45(1):144-147,178.(PANG C, YIN C H. Chinese text summarization based on classification [J]. Computer Science, 2018, 45(1): 144-147, 178.) [15]GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning [C]// Proceedings of the 2017 International Conference on Machine Learning. Berkeley: USENIX Association, 2017: 1243-1252. [16]YIN Z, SHEN Y Y. On the dimensionality of word embedding [C]// Proceedings of the 2018 Neural Information Processing Systems Conference. Vancouver: NeurIPS, 2018: 887-898. [17]LIN C Y, HOVY E. Automatic evaluation of summaries using n-gram co-occurrence statistics [C]// Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology. Stroudsburg: Association for Computational Linguistics, 2003: 71-78. This work is partially supported by the Civil Aviation Science and Technology Major Special Fund (MHRD20150107, MHRD20160109), the Fundamental Research Funds for the Central Universities (3122018C025), the Research Startup Fund Project of Civil Aviation University (2014QD13X). DING Jianli, born in 1963, Ph. D., professor. His research interests include civil aviation intelligent information processing, Internet of things of aviation. LI Yang, born in 1995, M. S. candidate. His research interests include natural language processing, machine learning, deep learning. WANG Jialiang, born in 1983, Ph. D., lecturer. His research interests include civil aviation information system, embedded computing, pervasive computing. 收稿日期:2019-05-13;修回日期:2019-07-16;錄用日期:2019-07-17。基金項目:民航局科技重大專項基金資助項目(MHRD20150107,MHRD20160109);中央高校基本科研業(yè)務(wù)費專項資金資助項目(3122018C025);中國民航大學(xué)科研啟動基金資助項目(2014QD13X)。 作者簡介:丁建立(1963—),男,河南洛陽人,教授,博士,CCF會員,主要研究方向:民航智能信息處理、航空物聯(lián)網(wǎng); 李洋(1995—),男,山東濟寧人,碩士研究生,主要研究方向:自然語言處理、機器學(xué)習(xí)、深度學(xué)習(xí); 王家亮(1983—),男,遼寧遼陽人,講師,博士,研究方向:民航信息系統(tǒng)、嵌入式計算、普適計算。 文章編號:1001-9081(2019)12-3476-06DOI:10.11772/j.issn.1001-9081.2019050800