江躍華 丁磊 李嬌娥 杜皓晅 高凱
摘要:為了能在摘要生成過程中利用詞匯特征(包含n-gram和詞性信息)識(shí)別更多重點(diǎn)詞匯內(nèi)容,進(jìn)一步提高摘要生成質(zhì)量,提出了一種基于sequence-to-sequence(Seq2Seq)結(jié)構(gòu)和attention機(jī)制的、融合了詞匯特征的生成式摘要算法。算法的輸入層將詞性向量與詞向量合并后作為編碼器層的輸入,編碼器層由雙向LSTM組成,上下文向量由編碼器的輸出和卷積神經(jīng)網(wǎng)絡(luò)提取的詞匯特征向量構(gòu)成。模型中的卷積神經(jīng)網(wǎng)絡(luò)層控制詞匯信息,雙向LSTM控制句子信息,解碼器層使用單向LSTM為上下文向量解碼并生成摘要。實(shí)驗(yàn)結(jié)果顯示,在公開數(shù)據(jù)集和自采數(shù)據(jù)集上,融合詞匯特征的摘要生成模型性能優(yōu)于對(duì)比模型,在公開數(shù)據(jù)集上的ROUGE-1,ROUGE-2,ROUGE-L分?jǐn)?shù)分別提升了0.024,0.033,0.030。因此,摘要的生成不僅與文章的語義、主題等特征相關(guān),也與詞匯特征相關(guān),所提出的模型在融合關(guān)鍵信息的生成式摘要研究中具有一定的參考價(jià)值。
關(guān)鍵詞:自然語言處理;文本摘要;注意力機(jī)制;LSTM;CNN
中圖分類號(hào):TP319文獻(xiàn)標(biāo)志碼:A
Abstract: In order to use lexical features (including n-gram and part of speech information) to identify more key vocabulary content in the summarization generation process to further improve the quality of the summarization, an algorithm based on sequence-to-sequence (Seq2Seq) structure and attention mechanism and combining lexical features is proposed. The input layer of the algorithm combines the part of speech vector with the word vector, which is the input of the encoder layer. The encoder layer is composed of bi-directional LSTM, and the context vector is composed of the output of the encoder and the lexical feature vector extracted from the convolution neural network. The convolutional neural network layer in the model controls the lexical information, the bi-directional LSTM controls the sentence information, and the decoder layer uses unidirectional LSTM to decode the context vector and generates the summarization. The experiments on public dataset and the self-collected dataset show that the performance of the summarization generation model considering lexical feature is better than that of the contrast model. The ROUGE-1, ROUGE-2 and ROUGE-L scores on the public dataset are improved by 0.024, 0.033 and 0.030, respectively. Therefore, the generation of summarization is not only related to the semantics and themes of the article, but also to the lexical features.The proposed model provides a certain reference value in the research of generating summarization of integrating key infromation.
Keywords:natural language processing; text summarization; attention mechanism; LSTM; CNN
近年來,由于互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展以及用戶規(guī)模的爆發(fā)式增長,互聯(lián)網(wǎng)的數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長。文本是目前形式多樣的信息數(shù)據(jù)中最主要的存在形式。如何能從海量的文本數(shù)據(jù)中挖掘出重要而且是用戶關(guān)心的話題和信息,對(duì)于提升閱讀效率、消化海量信息是非常有幫助的。文本摘要是文本信息自動(dòng)抽取的主要任務(wù)之一,它追求以更加精簡、精確的方式,用少量文本盡可能地表述原文含義。按照產(chǎn)生方式的不同,文本自動(dòng)摘要可分為抽取式和生成式摘要。其中,抽取式摘要主要是指從原文中抽取出和文章主題相關(guān)的內(nèi)容,在不超過一定字?jǐn)?shù)的限制下,盡可能地讓抽取的句子覆蓋到原文所有含義,并按順序排列生成一段摘要文本;生成式摘要?jiǎng)t是通過讓模型學(xué)習(xí)原文中所表達(dá)的含義,推斷所需要生成的摘要內(nèi)容,由模型自動(dòng)生成一段摘要文本。根據(jù)任務(wù)的不同,文本摘要也可分單文檔摘要和多文檔摘要。通常,人們?cè)陂喿x文章時(shí),一方面要保留句子的大部分信息,另一方面要關(guān)注句子中重要的詞匯信息。在生成摘要時(shí),應(yīng)對(duì)原文中的短語按照詞性做不同的處理,例如對(duì)名詞、動(dòng)詞等有實(shí)際意義的詞匯信息,在生成摘要時(shí)保留信息;對(duì)于介詞、虛詞等無明顯含義的詞匯應(yīng)保留較少的信息。
在Seq2Seq框架和attention機(jī)制的基礎(chǔ)之上提出了使用卷積神經(jīng)網(wǎng)絡(luò)提取詞匯特征,并將其融合在上下文中的方法,對(duì)原文的詞匯特征進(jìn)行提取,并和基礎(chǔ)框架所提取的句子特征一起構(gòu)成上下文特征矩陣,目的在于使用上下文信息時(shí)既要保留文本的序列信息,同時(shí)也要保留重點(diǎn)詞匯特征信息。
1相關(guān)工作
在生成單文檔摘要時(shí),可通過深度學(xué)習(xí)的方式實(shí)現(xiàn),即使用大規(guī)模的數(shù)據(jù)集,以數(shù)據(jù)驅(qū)動(dòng)的方式訓(xùn)練神經(jīng)網(wǎng)絡(luò),學(xué)習(xí)原文淺層語義并生成摘要。在相關(guān)工作中,RUSH等[1]和CHOPRA等[2]使用Seq2Seq框架,在編碼器端給定輸入的句子,在解碼器端輸出摘要的每個(gè)詞,并以局部注意力機(jī)制提升效果。NALLAPATI等[3]融入傳統(tǒng)的TF-IDF,POS、命名實(shí)體等特征來提升效果,引入Pointer解決未知詞和低頻詞。HU等[4]提供了一個(gè)新的中文短文本摘要數(shù)據(jù)集(數(shù)據(jù)來源為新浪微博),并根據(jù)正文和摘要之間的相關(guān)性進(jìn)行了人工評(píng)分。YAO等[5]總結(jié)了近幾年文本摘要領(lǐng)域的新方法,從抽取式和生成式、單文檔和多文檔這幾方面進(jìn)行評(píng)價(jià),包括數(shù)據(jù)集和評(píng)價(jià)方法等。摘要生成時(shí),其輸出句子的長度較難把控,為解決這個(gè)問題,KIKUCHI等[6]提出在解碼器端,將原摘要的長度信息輸入到LSTM中進(jìn)行控制,取得了較好的結(jié)果。ZENG 等[7]考慮到人工編寫摘要時(shí)通常需要先對(duì)全文內(nèi)容通讀以了解文章主題,提出將全文信息通過RNN編碼為一個(gè)向量,再進(jìn)行解碼。SEE等[8]通過在輸出端對(duì)下一個(gè)詞的生成或復(fù)制的概率進(jìn)行預(yù)測,解決OOV(out-of-vocabulary)和低頻詞的問題。GEHRING等[9]將編碼器和解碼器用卷積神經(jīng)網(wǎng)絡(luò)替代,達(dá)到了接近state-of-the-art的表現(xiàn)。CHANG等[10]在生成中文摘要時(shí),當(dāng)編碼器輸入詞時(shí)可使模型獲得較多的信息,解碼器輸出字時(shí)可壓縮并精簡文章的內(nèi)容。MA等[11]在訓(xùn)練時(shí)將摘要內(nèi)容進(jìn)行自編碼,監(jiān)督生成的原始內(nèi)容編碼,使編碼器生成的內(nèi)容更加接近參考摘要。PAULUS等[12]提出內(nèi)注意力機(jī)制解決重復(fù)詞語的問題,訓(xùn)練方法中融合了監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)以提升效果。WANG等[13]以convolutional sequence to sequence(ConvS2S)為基礎(chǔ),將主題信息融入其中,使用強(qiáng)化學(xué)習(xí)訓(xùn)練方法優(yōu)化。FAN等[14]根據(jù)用戶寫作摘要的風(fēng)格,包括摘要長度、用詞等特征生成摘要。GAO等[15]提出了讀者感知生成摘要的任務(wù),設(shè)計(jì)了一個(gè)名為讀者感知摘要生成器(RASG)的對(duì)抗性學(xué)習(xí)模型,將讀者的評(píng)論納入生成式摘要。針對(duì)PECH(產(chǎn)品感知答案生成)任務(wù),GAO等[16]設(shè)計(jì)了一種基于對(duì)抗性學(xué)習(xí)的模型PAAG,提出一種基于注意力機(jī)制的閱讀審查方式,用來捕獲給定的問題中與評(píng)論相關(guān)度最高的詞語。
和上述工作不同的是,筆者提出基于Seq2Seq的框架,在上下文特征中加入由卷積神經(jīng)網(wǎng)絡(luò)提取的詞匯特征,根據(jù)詞性信息判斷詞匯的重要性,進(jìn)而保留文章的重點(diǎn)內(nèi)容,完成文本摘要的生成。
2融合詞匯特征模型
以Seq2Seq為基礎(chǔ)框架模型,結(jié)構(gòu)如圖1所示。在輸入層,使用詞性向量和詞向量進(jìn)行疊加,構(gòu)成整個(gè)網(wǎng)絡(luò)的輸入向量。在編碼器端,分為2部分:一部分使用雙向LSTM[17]模型,對(duì)分詞后的源文本內(nèi)容進(jìn)行句子級(jí)別的淺層表征學(xué)習(xí);另一部分使用卷積神經(jīng)網(wǎng)絡(luò)對(duì)所有詞匯提取n-gram和詞性特征,最后將2部分學(xué)習(xí)到的特征矩陣融合在一起,構(gòu)成上下文向量。在輸出摘要時(shí)使用單向的LSTM,每個(gè)時(shí)間步都需要對(duì)上下文特征矩陣進(jìn)行注意力權(quán)重的分配,進(jìn)而生成詞匯。
2.1構(gòu)建輸入層向量
融合短語特征的自動(dòng)摘要模型的輸入由2部分構(gòu)成,第1部分將分詞后的源文本轉(zhuǎn)換成詞向量,使用xw={xw1,xw2,…,xwn}來表示;第2部分將源文本的詞性轉(zhuǎn)換為向量,用xp={xp1,xp2,…,xpn}表示,其中n表示輸入詞性的索引。最后,對(duì)輸入序列的詞向量和詞性向量連接,得到帶有詞性特征的輸入向量wp,如式(1)所示。wpn=∑ni=1[xwi;xpi]。 ????????????????????????????(1)2.2Seq2Seq模型
編碼器使用雙向LSTM模型,輸入的是帶有詞性特征的向量,通常將編碼器所有輸出的隱藏狀態(tài)作為原始句子的淺層語義表示,在解碼器端對(duì)該向量進(jìn)行解碼。由于模型所使用的是雙向LSTM,每個(gè)時(shí)間步都接收來自前一時(shí)刻或后一時(shí)刻的隱層狀態(tài),所以在每個(gè)時(shí)間步需要對(duì)前向和后向的各個(gè)隱層狀態(tài)向量進(jìn)行連接,得到包含前后語義的隱藏狀態(tài)。式(2)中t,t+1表示后一時(shí)刻的隱層向量,式(3)中t,t-1表示前一時(shí)刻的隱層向量,式(4)中t表示當(dāng)前時(shí)刻融合前向和后向的隱層向量,對(duì)于解碼器同樣使用LSTM神經(jīng)網(wǎng)絡(luò)進(jìn)行解碼。t,t=LSTM(wpi,t+1,t+1),(2)
t,t=LSTM(wpi,t-1,t-1),(3)
t=[t:t]。(4)式(5)中st表示解碼器端的隱藏向量,ct表示LSTM中的狀態(tài)向量。式(6)中yt表示每個(gè)時(shí)間步輸出的摘要序列詞匯。st=LSTM(ct,yt-1,st-1),(5)
yt=softmag(g[ct;st])。(6)2.3融合詞匯特征
借鑒LIN 等[18]的工作內(nèi)容,依據(jù)其設(shè)定的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),卷積核的大小依次設(shè)定為k=1,k=3,使卷積神經(jīng)網(wǎng)絡(luò)能提取詞匯的n-gram的特征。在卷積層,將包含詞性的詞性序列作為基本單位輸入到網(wǎng)絡(luò)中,使用多個(gè)與輸入向量維度相一致的卷積單元學(xué)習(xí)詞匯特征。假設(shè)整個(gè)輸入序列的長度為n,對(duì)于每個(gè)卷積單元,經(jīng)過一次卷積后,生成與輸入矩陣大小相同的特征矩陣,最后將多個(gè)卷積結(jié)果和編碼器的隱層狀態(tài)連接,使用全連接層學(xué)習(xí)多種特征融合。h=(W[g1,g2,g3,]+b)。(7)式(7)中h為最終的編碼器隱層向量,維度為m×n,m代表輸入向量的維度,n表示輸入序列的長度,其中g(shù)1,g2,g3表示由卷積層輸出的特征矩陣。表示激活函數(shù)GLU[19]。得到融合詞匯特征和句子特征的隱層向量后,引入注意力機(jī)制[20]來捕獲輸出內(nèi)容與上下文向量的關(guān)聯(lián)程度。ct=∑Ni=1αtihi, ???????????????????????????????(8)
αt=exp(eij)∑Tk=1exp(eik),(9)
eij=α(si-1,hj)。(10)式(8)—式(10)中,ct表示當(dāng)前時(shí)刻的上下文向量,eij表示解碼器端隱層狀態(tài)st-1和編碼器隱層狀態(tài)hj之間的相關(guān)系數(shù)。當(dāng)輸出摘要時(shí),需要將得到上下文的向量ct輸入到解碼器的LSTM單元中。
2.4損失函數(shù)
本文訓(xùn)練的模型采用反向傳播方式,目標(biāo)函數(shù)(代價(jià)函數(shù))為交叉熵代價(jià)函數(shù),將yt作為輸出生成的摘要詞匯,X為源文本輸入序列,模型訓(xùn)練的目標(biāo)是在給定輸入語句的情況下最大化每個(gè)輸出摘要詞的概率。式(11)中k表示同一個(gè)訓(xùn)練批次句子的索引,t表示句中輸入詞匯的索引。Δ=-1N∑Nk=1∑Tt=1log[p(y(k)t|y(k) 3實(shí)驗(yàn) 3.1數(shù)據(jù)集描述 本文模型所使用的第一個(gè)數(shù)據(jù)集是大規(guī)模的中文短文本摘要數(shù)據(jù)集LCSTS[4],主要是收集自新浪微博的內(nèi)容,總共包含超過240多萬條摘要文本內(nèi)容。每對(duì)摘要文本中,其原始內(nèi)容少于140個(gè)字,摘要?jiǎng)t由人工編寫。數(shù)據(jù)集共分為3部分,第1部分約240萬對(duì),第2部分約1萬對(duì),第3部分約1千對(duì),其中第2部分和第3部分由人工方式對(duì)標(biāo)題和正文之間的相關(guān)度按照1至5進(jìn)行評(píng)分,得分越高相關(guān)度越高。按照HU等[4]的工作內(nèi)容,將數(shù)據(jù)集分割為訓(xùn)練集、驗(yàn)證集和測試集。另外,還使用第2個(gè)數(shù)據(jù)集,以人工方式收集并整理20條微博內(nèi)容供模型測試使用,參考摘要和原文內(nèi)容的抽取方式與LCSTS[4]數(shù)據(jù)集的抽取方式相同。 3.2實(shí)驗(yàn)參數(shù)設(shè)置 模型中詞向量的維度為512,詞性向量的維度為50,經(jīng)過網(wǎng)絡(luò)合并輸出后的特征維度為562。以每64個(gè)樣本為一個(gè)批次的方式進(jìn)行模型訓(xùn)練,設(shè)置Adam[21]的學(xué)習(xí)率為 0.001,設(shè)置代價(jià)函數(shù)的懲罰項(xiàng)為0.001。同時(shí)設(shè)置編碼器的LSTM神經(jīng)網(wǎng)絡(luò)層數(shù)為3層,解碼器的LSTM神經(jīng)網(wǎng)絡(luò)為1層,每個(gè)卷積層的輸出維度與輸入向量維度保持一致。該摘要生成模型運(yùn)行在Ubuntu 16.04系統(tǒng),運(yùn)行環(huán)境為PyTorch0.4和NVIDIA GTX 1080ti顯卡。 3.3評(píng)價(jià)指標(biāo)設(shè)定 實(shí)驗(yàn)借鑒RUSH等[1]的工作內(nèi)容,使用自動(dòng)文本摘要的相關(guān)評(píng)測標(biāo)準(zhǔn)ROUGE[22]。該評(píng)測方法基于生成摘要和參考摘要中n-gram的共現(xiàn)信息來評(píng)價(jià)摘要質(zhì)量,現(xiàn)在被廣泛應(yīng)用于DUC評(píng)測任務(wù)。評(píng)測標(biāo)準(zhǔn)包括ROUGE-N,ROUGE-L等。其中N表示N元詞,而L表示最長公共序列。ROUGE-N的計(jì)算方式為ROUGE-N=∑S∈sumref∑gramn∈Scountmatch(gramn)∑S∈sumref∑gramn∈Scount(gramn),(12)式中:sumref表示參考摘要;countmatch(gramn)表示由模型生成的摘要和標(biāo)準(zhǔn)參考摘要中共同出現(xiàn)的n元詞個(gè)數(shù),count(gramn)則表示標(biāo)準(zhǔn)參考摘要中出現(xiàn)n元詞的個(gè)數(shù)。ROUGE-L表示模型生成摘要與標(biāo)準(zhǔn)參考摘要之間,最長的公共序列長度與參考摘要長度之間的比值。ROUGE-L相比于ROUGE-N考慮了摘要中詞語的次序,評(píng)價(jià)更為合理。 4實(shí)驗(yàn)結(jié)果及分析 本文所使用的對(duì)比模型是RNN[14]和RNN content[14]。其中,RNN content使用了上下文向量Content,將所有的編碼器輸出作為解碼器的輸入;RNN(W)使用的是jieba分詞后的文本進(jìn)行訓(xùn)練;RNN(C)使用基于詞的方法訓(xùn)練模型。Seq2Seq是本文所實(shí)現(xiàn)的基于Seq2Seq并結(jié)合注意力機(jī)制的模型,其編碼器和解碼器使用的分別為雙向LSTM和單向LSTM。 表1給出的是不同模型的ROUGE測度值。本文所提出的融合詞匯特征的摘要生成模型與其他4種模型相比,性能有所提升。從表1中可以看出,使用雙向LSTM作為解碼器的Seq2Seq模型,要比單向的RNN作為編碼器的模型在ROUGE-1,ROUGE-2和ROUGE-L上分別提升0.013,0.020,0.019,說明使用雙向LSTM更能捕捉文章特征信息。融合詞匯特征的模型(HN)在基于Seq2Seq框架的基礎(chǔ)上,增加詞匯特征的融合要比不使用詞匯特征的模型在ROUGE-1,ROUGE-2和ROUGE-L上的指標(biāo)均有所提升。實(shí)驗(yàn)效果證明融合詞匯特征的模型比無詞匯特征的模型效果要更好一些。 這里給出另一組與圖2中的實(shí)驗(yàn)結(jié)果樣例。源文本是:昨晚,南車、北車陸續(xù)發(fā)布公告。據(jù)一財(cái)記者多方了解,公告所提到的“籌劃重大事項(xiàng)”,正是醞釀將南北車合并,合并一事由國務(wù)院要求推進(jìn),并由國務(wù)委員王勇負(fù)責(zé)督辦,而合并背后的導(dǎo)火索,是兩家公司在海外市場競相壓價(jià)的“惡性競爭”。生成的摘要內(nèi)容:避免海外惡性競爭國務(wù)委員牽頭推南北車合并。圖2縱軸代表生成的摘要內(nèi)容,橫軸代表原文內(nèi)容,由于篇幅所限,只截取具有代表性的內(nèi)容。從圖2中可以看到,在生成的摘要詞匯和原文詞匯間注意力權(quán)重的不同,如原文內(nèi)容中的“合并一事由國務(wù)院要求推進(jìn)”與摘要中的“國務(wù)委員牽頭推南北車合并”,這兩段文本間色塊的深度明顯大于其他部分,表示這兩段內(nèi)容間有較強(qiáng)的關(guān)聯(lián)性。但圖2中也有一些注意力權(quán)重未能達(dá)到預(yù)期效果,如原文中的“由國務(wù)院”的“由”字和摘要中“南北車”的“車”字相關(guān)性最高,導(dǎo)致權(quán)重分配錯(cuò)誤的原因可能是因?yàn)樵谀P陀?xùn)練過程中,對(duì)一些頻繁出現(xiàn)的搭配進(jìn)行了錯(cuò)誤的學(xué)習(xí),解決途徑之一是增加訓(xùn)練集,以降低某些錯(cuò)誤固定搭配的比例。 表3所示的為本文所實(shí)現(xiàn)的HN模型和Seq2Seq模型在測試集2上的ROUGE分?jǐn)?shù)。從表3中可看到HN模型生成摘要的ROUGE分?jǐn)?shù)比Seq2Seq的要更高一點(diǎn)。說明本文所實(shí)現(xiàn)的模型在其他測試集上,也比單純的結(jié)合注意力機(jī)制的Seq2Seq模型更優(yōu)。但測試集1的ROUGE分?jǐn)?shù)明顯高于測試集2上的分?jǐn)?shù),主要由于測試集2為人工收集的數(shù)據(jù)集,考慮到成本問題,只有20條,數(shù)據(jù)不具有廣泛的代表性,僅作為比較模型的優(yōu)劣程度的指標(biāo)。 5結(jié)語 筆者提出的融合詞匯特征的模型應(yīng)用卷積神經(jīng)網(wǎng)絡(luò)從原文本中提取詞匯特征,采用雙向LSTM提取句子特征,然后將詞匯特征與句子特征相融合,以達(dá)到利用詞匯特征尋找文章中重點(diǎn)內(nèi)容的需求。通過與其他模型相比較,證明了融合詞匯特征的模型是有效的。 雖然所提出的模型達(dá)到了預(yù)期效果,但仍然有較大的提升空間,首先本文的模型只是通過非線性函數(shù)融合句子特征和詞匯特征,未對(duì)詞匯特征的權(quán)重進(jìn)行進(jìn)一步優(yōu)化,以后可考慮使用多層次注意力機(jī)制,對(duì)詞匯特征進(jìn)一步提取。其次在做摘要任務(wù)時(shí),需要考慮文章的主題信息,而且如果文章內(nèi)容較長時(shí),在模型的訓(xùn)練過程中通常會(huì)出現(xiàn)梯度爆炸或梯度消失等問題,也不利于模型提取重要信息。未來可進(jìn)一步考慮在長文本內(nèi)容中,使用劃分文章段落和句子的層次結(jié)構(gòu)的方法縮短序列,達(dá)到分塊提取重要信息的需求,同時(shí)可加入文章主題信息作為監(jiān)督,保證模型生成的摘要和文章主題相一致。 參考文獻(xiàn)/References: [1]RUSH A M, CHOPRA S, WESTON J. A neural attention model for abstractive sentence summarization[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon:[s.n.], 2015:379-389. [2]CHOPRA S, AULI M, RUSH A M. Abstractive sentence summarization with attentive recurrent neural networks[C]// Proceedings of the 2016 Conference of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies. San Diego:[s.n.], 2016: 93-98. [3]NALLAPATI R, ZHOU B, SANTOS C N D, et al. Abstractive text summarization using sequence-to-sequence rnns and beyond[C]//Proceedings of the 20th SIGNLL Conference on Computational Natural Language Learning. Berlin:[s.n.],2016:280-290. [4]HU Baotian, CHEN Qingcai, ZHU Fangze. LCSTS:A large scale Chinese short text summarization dataset[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Lisbon:[s.n.],2015: 1967-1972. [5]YAO Jinge, WAN Xiaojun, XIAO Jianguo. Recent advances in document summarization[J]. Knowledge and Information Systems, 2017, 53(2): 297-336. [6]KIKUCHI Y, NEUBIG G, SASANO R, et al. Controlling output length in neural encoder-decoders[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. Austin:[s.n.], 2016:1328-1338. [7]ZENG Wenyuan, LUO Wenjie, FIDLER S, et al. Efficient summarization with read-again and copy mechanism[C]// Proceedings of the International Conference on Learning Representations.[S.l.]:[s.n.],2017:1-13. [8]SEE A, LIU P J, MANNING C D. Get to the point: Summarization with pointer-generator networks[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics. [S.l.]:[s.n.],2017:1073-1083. [9]GEHRING J, AULI M, GRANGIER D, et al. Convolutional sequence to sequence learning[C]//Proceedings of the 34th International Conference on Machine Learning. [S.l.]:[s.n.],2017: 1243-1252. [10]CHANG C T, HUANG C C, HSU J Y J, et al. A hybrid word-character model for abstractive summarization[EB/OL]. https://arxiv.org/pdf/1802.09968v2.pdf, 2018-02-28. [11]MA Shuming, SUN Xu, LIN Junyang, et al. Autoencoder as assistant supervisor: Improving text representation for Chinese social media text summarization[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Short Papers). Melbourne:[s.n.], 2018:725-731. [12]PAULUS R, XIONG Caiming, SOCHER R. A deep reinforced model for abstractive summarization[C]//Proceedings of Sixth International Conference on Learning Representations. [S.l.]:[s.n.],2017:1-13. [13]WANG Li, YAO Junlin, TAO Yunzhe, et al. A reinforced topic-aware convolutional sequence-to-sequence model for abstractive text summarization[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence (IJCAI). [S.l.]:[s.n.], 2018: 4453-4460. [14]FAN A, GRANGIER D, AULI M. Controllable abstractive summarization[C]//Proceedings of the 2nd Workshop on Neural Machine Translation and Generation. Melbourne:[s.n.],2017:45-54. [15]GAO Shen, CHEN Xiuying, LI Piji, et al. Abstractive text summarization by incorporating reader comments[EB/OL]. https://arxiv.org/pdf/1812.05407v1.pdf, 2018-12-13. [16]GAO Shen, CHEN Xiuying, LI Piji,et al. Product-aware answer generation in e-commerce question-answering[C]//Proceedings of the 12th ACM International Conference on Web Search and Data Mining.[S.l.]:[s.n.],2019:07696. [17]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780. [18]LIN Junyang, SUN Xu, MA Shuming, et al. Global encoding for abstractive summarization[C]//Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Short Papers). Melbourne:[s.n.], 2018:163-169. [19]DAUPHIN Y N, FAN A, AULI M, et al. Language modeling with gated convolutional networks[C]//Proceedings of the 34th International Conference on Machine Learning. Sydney:[s.n.], 2017: 933-941. [20]BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[C]// Proceedings of International Conference on Learning Representations.San Diego:[s.n.], 2015:14090473V6. [21]KINGMA D P, BA J L. Adam: A method for stochastic optimization[C]//Proceedings of International Conference on Learning Representations.San Diego:[s.n.], 2015:1412.6980V9. [22]LIN C Y, HOVY E. Automatic evaluation of summaries using N-gram co-occurrence statistics[C]//Proceedings of the 2003 Conference of the North American Chapter of the Association for Computational Linguistics on Human Language Technology.Stroudsburg:[s.n.], 2003:71-78.第40卷第2期河北科技大學(xué)學(xué)報(bào)Vol.40,No.2 2019年4月Journal of Hebei University of Science and TechnologyApr. 2019