譚金源,刁宇峰,祁瑞華,林鴻飛*
(1.大連理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧大連 116024;2.大連外國(guó)語(yǔ)大學(xué)語(yǔ)言智能研究中心,遼寧大連 116024)
隨著近些年互聯(lián)網(wǎng)產(chǎn)業(yè)的飛速發(fā)展,大量的新聞網(wǎng)站、新聞手機(jī)軟件出現(xiàn)在日常生活中,越來(lái)越多的用戶通過(guò)新聞網(wǎng)站、手機(jī)軟件快速獲取最新資訊。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(China Internet Network Information Center,CNNIC)第42 次發(fā)展統(tǒng)計(jì)報(bào)告,到2018年6月,中國(guó)的移動(dòng)電話用戶規(guī)模達(dá)到7.88 億,網(wǎng)民接入互聯(lián)網(wǎng)的比例也在增加,通過(guò)手機(jī)達(dá)到98.3%[1]。網(wǎng)友人數(shù)增多、新聞媒體網(wǎng)絡(luò)平臺(tái)使用率不斷提升,網(wǎng)友們使用今日頭條等新聞媒體的頻率也不斷提升。
為了適應(yīng)當(dāng)下快節(jié)奏的生活,網(wǎng)友需要閱讀最少的新聞字?jǐn)?shù),獲取新聞文章的關(guān)鍵內(nèi)容。網(wǎng)友們可以通過(guò)文本自動(dòng)摘要技術(shù),概括出新聞的主要內(nèi)容,節(jié)省閱讀時(shí)間,提升信息使用效率。因此,本文提出的面向新聞的文本自動(dòng)摘要模型具有重要意義。
國(guó)內(nèi)外學(xué)者針對(duì)文本自動(dòng)摘要已經(jīng)做了大量的研究。文本自動(dòng)摘要是20 世紀(jì)50 年代出現(xiàn)的一種用計(jì)算機(jī)完成的文本摘要技術(shù),幫助人們從信息海洋中解放,提高信息的使用效率[2]。自2001年美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)研究所舉辦文檔理解會(huì)議以來(lái),文本自動(dòng)摘要研究得到了越來(lái)越多的關(guān)注[3]。
本文受文獻(xiàn)[4]啟發(fā),針對(duì)網(wǎng)友閱讀理解新聞時(shí)需要花費(fèi)大量時(shí)間的問(wèn)題,基于BERT(Bidirectional Encoder Representations from Transformers)和指針生成網(wǎng)絡(luò)(Pointer Generator Network,PGN),提出了一種面向中文新聞文本的自動(dòng)摘要模型——BERT-指針生成網(wǎng)絡(luò)(Bidirectional Encoder Representations from Transformers-Pointer Generator Network,BERT-PGN),能夠有效節(jié)省時(shí)間,提高信息使用效率。該模型首先利用BERT 預(yù)訓(xùn)練語(yǔ)言模型獲取新聞文本的詞向量,結(jié)合多維語(yǔ)義特征對(duì)新聞中的詞所在的句子進(jìn)行打分,其結(jié)果作為輸入序列輸入到指針生成網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,得到新聞?wù)慕Y(jié)果。
本文主要貢獻(xiàn)如下。
1)本文提出了一種面向新聞文本進(jìn)行自動(dòng)摘要的模型——BERT-PGN,分為兩個(gè)階段實(shí)現(xiàn):基于預(yù)訓(xùn)練模型及多維語(yǔ)義特征的詞向量獲取階段以及基于指針生成網(wǎng)絡(luò)模型的句子生成階段。
2)實(shí)驗(yàn)結(jié)果表明,該模型在2017 年CCF 國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議(the 2017 CCF International Conference on Natural Language Processing and Chinese Computing,NLPCC2017)單文檔中文新聞?wù)u(píng)測(cè)數(shù)據(jù)集上取得了很好的效果,Rouge-2和Rouge-4指標(biāo)分別提升1.5%和1.2%。
自動(dòng)文本摘要有兩種主流方式,即抽取式摘要和生成式摘要[5]。在對(duì)文本進(jìn)行語(yǔ)義挖掘的研究中,許多經(jīng)典的分類、聚類算法被先后提出[6]。最早的摘要工作主要是利用基于詞頻和句子位置的基于統(tǒng)計(jì)的技術(shù)[7]。1958 年,Luhn[8]提出了第一個(gè)自動(dòng)文本摘要系統(tǒng)。近十幾年來(lái),隨著機(jī)器學(xué)習(xí)(Machine Learning,ML)以及自然語(yǔ)言處理(Natural Language Processing,NLP)的快速發(fā)展,許多準(zhǔn)確高效的文本摘要算法被提出[9]?;ヂ?lián)網(wǎng)作為商業(yè)媒介快速發(fā)展,導(dǎo)致用戶吸收了太多信息。為了解決這種信息過(guò)載,文本自動(dòng)摘要起到了關(guān)鍵作用。文本自動(dòng)摘要可以在屏蔽大量干擾文本的同時(shí),讓用戶更加快捷地獲取關(guān)鍵信息,適應(yīng)當(dāng)下快節(jié)奏的生活[10]。
抽取式摘要方法是將一篇文章分成小單元,然后將其中的一些作為這篇文章的摘要進(jìn)行提取。Liu 等[11]提出了一個(gè)抽取式文本摘要的對(duì)抗過(guò)程,使用生成對(duì)抗網(wǎng)絡(luò)(Generative Adversarial Network,GAN)模型獲得了具有競(jìng)爭(zhēng)力的Rouge分?jǐn)?shù),該方法可以生成更多抽象、可讀和多樣化的文本摘要;Al-Sabahi 等[12]使用分層結(jié)構(gòu)的自注意力機(jī)制模型(Hierarchical Structured Self-Attentive Model,HSSAM),反映文檔的層次結(jié)構(gòu),進(jìn)而獲得更好的特征表示,解決因占用內(nèi)存過(guò)大模型無(wú)法充分建模等問(wèn)題;Slamet 等[13]提出了一種向量空間模型(Vector Space Model,VSM),利用VSM 進(jìn)行單詞相似性測(cè)試,對(duì)文本自動(dòng)摘要的結(jié)果進(jìn)行測(cè)評(píng),比較文本摘要實(shí)現(xiàn)的效果;Alguliyev 等[14]發(fā)現(xiàn),與傳統(tǒng)文本自動(dòng)摘要方法相比,基于聚類、優(yōu)化和進(jìn)化算法的文本自動(dòng)摘要研究最近表現(xiàn)出了良好的效果。但抽取式摘要并未考慮文本的篇章結(jié)構(gòu)信息,缺少對(duì)文本中關(guān)鍵字、詞的理解,生成的摘要可讀性、連續(xù)性較差。
生成式摘要方法是一種利用更先進(jìn)自然語(yǔ)言處理算法的摘要方法,對(duì)文章中的句子進(jìn)行轉(zhuǎn)述、替換等生成文章摘要,而不使用其中任何現(xiàn)有的句子或短語(yǔ)。隨著近些年深度學(xué)習(xí)的快速發(fā)展,越來(lái)越多的深度學(xué)習(xí)方法被利用到文本摘要中。Cho 等[15]和Sutskever 等[16]最早提出了由編碼器和解碼器構(gòu)成的seq2seq(sequence-to-sequence)模型;Tan 等[17]提出了基于圖的注意力機(jī)制神經(jīng)模型,在文本自動(dòng)摘要的任務(wù)中取得了很好的效果;Siddiqui等[18]在谷歌大腦團(tuán)隊(duì)提出的序列到序列模型的基礎(chǔ)上進(jìn)行改進(jìn),使用局部注意力機(jī)制代替全局注意力機(jī)制,在解決生成重復(fù)的問(wèn)題上取得了很好的效果;Celikyilmaz 等[19]針對(duì)生成長(zhǎng)文檔的摘要,提出了一種基于編碼器-解碼器體系結(jié)構(gòu)的深層通信代理算法;Khan 等[20]提出了一種基于語(yǔ)義角色標(biāo)記的框架,使用深度學(xué)習(xí)的方法從語(yǔ)義角色理解的角度實(shí)現(xiàn)多文檔摘要任務(wù);江躍華等[21]提出了一種基于seq2seq 結(jié)構(gòu)和注意力機(jī)制并融合了詞匯特征的生成式摘要算法,能在摘要生成過(guò)程中利用詞匯特征識(shí)別更多重點(diǎn)詞匯內(nèi)容,進(jìn)一步提高摘要生成質(zhì)量。
現(xiàn)階段大多數(shù)的文本自動(dòng)摘要方法主要是利用機(jī)器學(xué)習(xí)或深度學(xué)習(xí)模型自動(dòng)提取特征,利用模型進(jìn)行摘要句子的選取及壓縮。但自動(dòng)提取的特征和摘要文本會(huì)存在不充分、不貼近的情況,不能很好地刻畫(huà)摘要文本。本文提出的BERTPGN 模型基于BERT 預(yù)訓(xùn)練語(yǔ)言模型及多維語(yǔ)義特征,針對(duì)中文新聞文本,從更多維度進(jìn)行特征抽取,深度刻畫(huà)摘要文本,能夠得到更貼近主題的摘要內(nèi)容。
本文提出的BERT-PGN 模型主要分成兩個(gè)階段實(shí)現(xiàn),即基于預(yù)訓(xùn)練模型及多維語(yǔ)義的詞向量獲取階段以及基于指針生成網(wǎng)絡(luò)模型的句子生成階段,如圖1 所示。該模型第一階段利用預(yù)訓(xùn)練語(yǔ)言模型BERT 獲取新聞文章的詞向量,同時(shí)利用多維語(yǔ)義特征對(duì)新聞中的句子進(jìn)行打分,將二者進(jìn)行簡(jiǎn)單拼接生成輸入序列;第二階段將得到的輸入序列輸入到指針生成網(wǎng)絡(luò)模型中,使用coverage 機(jī)制減少生成重復(fù)文字,同時(shí)保留生成新文字的能力,得到新聞?wù)?/p>
圖1 BERT-PGN模型Fig.1 BERT-PGN model
2.1.1 BERT預(yù)訓(xùn)練語(yǔ)言模型
語(yǔ)言模型是自然語(yǔ)言處理領(lǐng)域一個(gè)比較重要的概念,利用語(yǔ)言模型對(duì)客觀事實(shí)進(jìn)行描述后,能夠得到可以利用計(jì)算機(jī)處理的語(yǔ)言表示。語(yǔ)言模型用來(lái)計(jì)算任意語(yǔ)言序列a1,a2,…,an出現(xiàn)的概率p(a1,a2,…,an),即:
通過(guò)傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型獲取的詞向量是單一固定的,存在無(wú)法表示字的多義性等問(wèn)題。預(yù)訓(xùn)練語(yǔ)言模型很好地解決了這一問(wèn)題,能夠結(jié)合字的上下文內(nèi)容來(lái)表示字。BERT 采用雙向Transformer 作為編碼器進(jìn)行特征抽取,能夠獲取到更多的上下文信息,極大程度地提升了語(yǔ)言模型抽取特征的能力。Transformer 編碼單元包含自注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)兩部分。自注意力機(jī)制的輸入部分是由來(lái)自同一個(gè)字的三個(gè)不同向量構(gòu)成的,分別Query向量(Q),Key向量(K)和Value向量(V)。通過(guò)Query向量和Key向量相乘來(lái)表示輸入部分字向量之間的相似度,記做[QK]T,并通過(guò)dk進(jìn)行縮放,保證得到的結(jié)果大小適中。最后經(jīng)過(guò)softmax 進(jìn)行歸一化操作,得到概率分布,進(jìn)而得到句子中所有詞向量的權(quán)重求和表示。這樣得到的詞向量結(jié)合了上下文信息,表示更準(zhǔn)確,計(jì)算方法如下:
BERT 預(yù)訓(xùn)練模型使用了“MultiHead”模式,即使用了多個(gè)注意力機(jī)制獲取句子的上下文語(yǔ)義信息,稱為多頭注意力機(jī)制。BERT 預(yù)訓(xùn)練語(yǔ)言模型能夠使詞向量獲取更多的上下文信息,更好地表示原文內(nèi)容。
2.1.2 多維語(yǔ)義特征
針對(duì)中文新聞重點(diǎn)內(nèi)容集中在新聞開(kāi)頭、關(guān)鍵詞出現(xiàn)頻率高等特點(diǎn),本文引入了傳統(tǒng)特征以及主題特征對(duì)中文新聞文本中的句子進(jìn)行細(xì)粒度的描述,提升對(duì)文本中句子的上下文語(yǔ)義表述性能。
1)傳統(tǒng)特征。
本文所選擇的傳統(tǒng)特征主要為句子層次的兩種特征:句子中的詞頻以及在文章中的位置。
詞頻特征是反映新聞文章中最重要信息的一種統(tǒng)計(jì)特征,也是最簡(jiǎn)單、最直接的一種統(tǒng)計(jì)特征。新聞文章中出現(xiàn)詞的詞頻可以利用式(3)進(jìn)行計(jì)算:
其中,wordj代表文章中第j個(gè)詞出現(xiàn)的次數(shù)。
在本文中,選擇文章中的句子作為最終的打分基本單位。句子是詞的集合,如果句子包含的詞語(yǔ)中,有在新聞文章中頻繁出現(xiàn)的高頻詞,則認(rèn)為這個(gè)句子在文章中更加重要。新聞文章中第i個(gè)句子的詞頻特征打分公式如下:
其中:TFi表示第i個(gè)句子中包含的詞的詞頻之和,seni代表第i個(gè)句子中包含的所有詞。
位置特征同樣是反映新聞文章中重要信息的一種統(tǒng)計(jì)特征。一篇新聞文章是由多個(gè)句子組成的,句子所在的位置不同,其代表的重要性也不同,例如文章中的第一個(gè)句子大多是新聞文章中最重要的一句話。新聞文章中第i個(gè)句子的位置特征打分公式如下:
其中:Posi代表第i個(gè)句子的位置得分,pi代表第i個(gè)句子在新聞文章中的位置,n代表文章中的句子總個(gè)數(shù)。
2)主題特征。
本文選取的主題特征也可表述為標(biāo)題特征。新聞文章中的標(biāo)題具有很高的參考價(jià)值,很大程度上可以代表文章中的主題。因此,如果文章中的句子與新聞文章的標(biāo)題有較高的相似度,那么這個(gè)句子更容易被選擇為文章摘要中的句子。本文使用余弦相似度計(jì)算新聞文章中第i個(gè)句子的主題特征得分,打分公式如下:
其中:Simi表示第i個(gè)句子與新聞文章標(biāo)題的相似度,s和t分別代表標(biāo)題和新聞文章中句子的向量化表示。
指針生成網(wǎng)絡(luò)模型結(jié)合了指針網(wǎng)絡(luò)(Pointer Network,PN)和基于注意力機(jī)制的序列到序列模型,允許通過(guò)指針直接指向生成的單詞,也可以從固定的詞匯表中生成單詞。文本中的文字wi依次傳入BERT-多維語(yǔ)義特征編碼器、雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,Bi-LSTM)編碼器,生成隱層狀態(tài)序列hi。在t時(shí)刻,長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)解碼器接收上一時(shí)刻生成的詞向量,得到解碼狀態(tài)序列st。
注意力分布at用來(lái)確定t時(shí)刻輸出序列字符時(shí),輸入序列中需要關(guān)注的字符。計(jì)算公式如下:
其中,v、Wh、Ws、battn是通過(guò)訓(xùn)練得到的參數(shù)。利用注意力分布對(duì)編碼器隱層狀態(tài)加權(quán)平均,生成上下文向量
將上下文向量ht*與解碼狀態(tài)序列st串聯(lián),通過(guò)兩個(gè)線性映射,生成當(dāng)前預(yù)測(cè)在詞典上的分布Pvocab,計(jì)算公式如下:
其中,V′、V、b、b′是通過(guò)訓(xùn)練得到的參數(shù)。
模型利用生成概率Pgen來(lái)確定復(fù)制單詞還是生成單詞,計(jì)算公式如下:
其中,wh、ws、wx、bptr是通過(guò)訓(xùn)練得到的參數(shù),σ是sigmoid 函數(shù),xt是解碼輸入序列。將at作為模型輸出,得到生成單詞w的概率分布:
為了解決生成詞語(yǔ)重復(fù)的問(wèn)題,本文引入了coverage 機(jī)制。通過(guò)coverage 機(jī)制對(duì)指針生成網(wǎng)絡(luò)模型進(jìn)行改進(jìn),能夠有效減少生成摘要中的重復(fù)。引入coverage 向量ct跟蹤已經(jīng)生成的單詞,并對(duì)已經(jīng)生成的單詞施加一定的懲罰,盡量減少生成重復(fù)。coverage向量ct計(jì)算方式如下:
通俗來(lái)說(shuō),ct表示目前為止單詞從注意力機(jī)制中獲得的覆蓋程度。使用coverage向量ct影響注意力分布,重新得到注意力分布at,計(jì)算公式如下:
其中Wc是通過(guò)訓(xùn)練得到的參數(shù)。
本文的實(shí)驗(yàn)部分使用的數(shù)據(jù)是由2017 年CCF 國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議(NLPCC2017)提供,來(lái)自于NLPCC2017 中文單文檔新聞?wù)u(píng)測(cè)數(shù)據(jù)集,包含訓(xùn)練集新聞文本49 500 篇,測(cè)試集新聞文本500 篇。該任務(wù)中要求生成的摘要長(zhǎng)度不超過(guò)60個(gè)字符。
Rouge 是文本自動(dòng)摘要領(lǐng)域摘要評(píng)價(jià)技術(shù)的通用指標(biāo)之一,通過(guò)統(tǒng)計(jì)模型生成的摘要與人工摘要之間重疊的基本單元,評(píng)判模型生成摘要的質(zhì)量。本文參考NLPCC2017 中文單文檔新聞?wù)u(píng)測(cè)任務(wù),使用Rouge-2、Rouge-4 和Rouge-SU4作為評(píng)價(jià)指標(biāo),對(duì)摘要結(jié)果進(jìn)行評(píng)價(jià)。
本文實(shí)驗(yàn)部分選取8 種基本模型:NLPCC2017 單文檔新聞?wù)u(píng)測(cè)任務(wù)結(jié)果較好團(tuán)隊(duì)(ccnuSYS、LEAD、NLP@WUST、NLP_ONE)提出的模型[22]、PGN(without coverage mechanism)[23]、PGN[23]、主題關(guān)鍵詞信息融合模型[24]以及BERT-PGN(without semantic features)。對(duì)人工提取的主題特征、傳統(tǒng)特征進(jìn)行特征的有效性驗(yàn)證,驗(yàn)證本文提出方法的有效性。
1)ccnuSYS[22]:使用基于注意力機(jī)制的LSTM 編碼器-解碼器結(jié)構(gòu)模型生成摘要。
2)LEAD[22]:從原文選取前60個(gè)字作為文本摘要。
3)NLP@WUST[22]:使用特征工程的方法進(jìn)行句子抽取,并利用句子壓縮算法對(duì)抽取的句子進(jìn)行壓縮。
4)NLP_ONE[22]:NLPCC2017 單文檔新聞?wù)u(píng)測(cè)任務(wù)第一名的算法,包含輸入、輸出序列的注意力機(jī)制。
5)PGN(without coverage mechanism)[23]:ACL2017 中提出的一種生成模型,使用指針網(wǎng)絡(luò)和基于注意力機(jī)制的序列到序列模型生成摘要,不使用coverage機(jī)制。
6)PGN(coverage mechanism)[23]:改進(jìn)的指針生成網(wǎng)絡(luò)模型,利用coverage機(jī)制解決生成重復(fù)詞和未登錄詞的問(wèn)題。
7)主題關(guān)鍵詞融合模型[24]:一種結(jié)合主題關(guān)鍵詞信息的多注意力機(jī)制模型。
8)BERT-PGN(without semantic features):本文提出的一種基于BERT 和指針生成網(wǎng)絡(luò)的模型,利用coverage 機(jī)制減少生成重復(fù)內(nèi)容。
9)BERT-PGN(semantic features):在BERT-PGN(without semantic features)模型上進(jìn)行優(yōu)化得到的模型,結(jié)合多維語(yǔ)義特征獲取細(xì)粒度的文本上下文表示。
本文實(shí)驗(yàn)使用單個(gè)GTX-1080Ti(GPU)進(jìn)行訓(xùn)練。本實(shí)驗(yàn)獲取文本詞向量使用BERT-base 預(yù)訓(xùn)練模型。BERT-base 模型共12 層,隱層768 維。設(shè)置最大序列長(zhǎng)度為128,train_batch_size為16,learning_rate為5E-5。
指針生成網(wǎng)絡(luò)模型設(shè)置batch_size為8,隱層256 維,設(shè)置字典大小為50k。訓(xùn)練過(guò)程共進(jìn)行700k 次迭代,訓(xùn)練總時(shí)長(zhǎng)約為7 d5 h(合計(jì)173 h)。
3.5.1 總體摘要結(jié)果對(duì)比實(shí)驗(yàn)
本文重新運(yùn)行了部分baseline模型,將獲取的結(jié)果與本文提出的模型結(jié)果做對(duì)比,實(shí)驗(yàn)結(jié)果如表1。
表1 總體摘要結(jié)果對(duì)比Tab.1 Results comparison of overall summarization
從表1 可以看出,本文提出的模型性能相較于PGN、NLP_ONE 等模型有了顯著的提升,在Rouge-2、Rouge-4 以及Rouge-SU4 的評(píng)價(jià)指標(biāo)中有著明顯的優(yōu)勢(shì),Rouge 指標(biāo)提升了1.2~1.5個(gè)百分點(diǎn)。
由BERT-PGN(semantic features)模型與PGN、BERT-PGN(without semantic features)模型進(jìn)行對(duì)比,可以看出使用BERT預(yù)訓(xùn)練模型并結(jié)合有效的多維人工特征,能夠顯著提升模型效果。使用BERT 預(yù)訓(xùn)練模型并結(jié)合人工抽取的特征得到的句子上下文表示,對(duì)文本中句子的語(yǔ)義理解更加深刻、準(zhǔn)確,在文本自動(dòng)摘要任務(wù)中能夠有效提升性能。
根據(jù)表2 不同模型生成摘要的內(nèi)容可以發(fā)現(xiàn),本文提出的BERT-PGN 模型相較于其他模型,在中文新聞文本的自動(dòng)摘要任務(wù)中生成的摘要內(nèi)容更豐富、更全面、更貼近標(biāo)準(zhǔn)摘要,說(shuō)明該模型對(duì)全文的理解更加充分,能夠結(jié)合文中句子的上下文充分理解句子、詞語(yǔ)的含義,對(duì)文中的句子、詞語(yǔ)進(jìn)行更細(xì)致的刻畫(huà)。
表2 摘要結(jié)果示例Tab.2 Summarization result examples
3.5.2 多維語(yǔ)義特征對(duì)比實(shí)驗(yàn)
多維特征選取的部分,本文針對(duì)新聞文本“主要內(nèi)容集中在開(kāi)頭部分”的特點(diǎn),選取傳統(tǒng)特征、主題特征中的詞頻特征、位置特征以及標(biāo)題特征,分別表示為T(mén)F、Pos以及Main。
由表3 可以看出,同一模型結(jié)合人工提取的詞頻特征和位置特征效果最好,Rouge-2 指標(biāo)最多提升了1.2 個(gè)百分點(diǎn),Rouge-4指標(biāo)最多提升了1.0個(gè)百分點(diǎn)。
表3 特征組合結(jié)果對(duì)比 單位:%Tab.3 Feature combination result comparison unit:%
本文選取的主題特征Main 能夠在一定程度上提升模型的Rouge 指標(biāo)。從Pos 和Pos+Main、TF 和TF+Main 的特征組合結(jié)果對(duì)比可以得知,主題特征結(jié)合詞頻特征時(shí)提升明顯,結(jié)合位置特征時(shí)基本沒(méi)有提升。句子在新聞中的位置靠前時(shí),與標(biāo)題的相似度也更高,說(shuō)明兩種人工特征在衡量句子在新聞中的重要性時(shí)起到了相似的作用。通過(guò)對(duì)比TF+Main 和TF+Pos 兩種特征組合的結(jié)果可以得知,詞頻信息結(jié)合位置信息相較于結(jié)合主題信息效果更好,能夠充分表達(dá)句子在新聞文章中的重要性。因此,本文選擇使用詞頻特征以及位置特征的特征組合作為多維特征。
新聞文章中多次出現(xiàn)的關(guān)鍵詞,是反映新聞文章中最重要信息的一種統(tǒng)計(jì)特征,進(jìn)行詞頻統(tǒng)計(jì)的意義在于找出文章表達(dá)的重點(diǎn);此外,句子出現(xiàn)的位置也是反映句子重要程度的關(guān)鍵,出現(xiàn)的位置越靠前,說(shuō)明該句子在文章中起到的作用越大。因此,詞頻、位置特征是自動(dòng)摘要模型提升的關(guān)鍵。
3.5.3 coverage機(jī)制實(shí)驗(yàn)分析
本文使用的模型使用了coverage 機(jī)制,試圖解決生成重復(fù)內(nèi)容的問(wèn)題。通過(guò)計(jì)算生成摘要中1-gram、2-gram、3-gram以及4-gram 所占比例,定量分析引入coverage 機(jī)制解決生成內(nèi)容重復(fù)問(wèn)題的效果。
由表4 可以看出,本文提出的BERT-PGN 模型相較于NLP_ONE 能夠有效減少生成內(nèi)容的重復(fù),在解決重復(fù)的方面效果明顯,在3-gram、4-gram 的摘要結(jié)果定量分析中,接近標(biāo)準(zhǔn)摘要的效果。
表4 coverage機(jī)制驗(yàn)證 單位:%Tab.4 Verification of coverage mechanism unit:%
本文提出了一種面向中文新聞文本的BERT-PGN 模型,結(jié)合BERT 預(yù)處理模型及多維語(yǔ)義特征獲取詞向量,利用指針生成網(wǎng)絡(luò)模型結(jié)合coverage 機(jī)制減少生成重復(fù)內(nèi)容。經(jīng)實(shí)驗(yàn)表明,BERT-PGN 模型在中文新聞?wù)蝿?wù)中,生成的摘要結(jié)果更接近標(biāo)準(zhǔn)摘要,包含更多原文的關(guān)鍵信息,能有效解決生成內(nèi)容重復(fù)的問(wèn)題。
下一步將嘗試挖掘更多要素,例如:面向新聞文本的有效人工特征等,提升摘要結(jié)果;簡(jiǎn)化模型,縮短模型訓(xùn)練時(shí)間;提升生成摘要內(nèi)容的完整性、流暢性;構(gòu)建新聞?lì)I(lǐng)域的外部數(shù)據(jù),幫助模型結(jié)合句子上下文充分理解句子含義。