国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的生成式文本摘要技術(shù)綜述

2021-11-18 02:18:24朱永清趙菲菲慕曉冬尤軒昂
計(jì)算機(jī)工程 2021年11期
關(guān)鍵詞:語(yǔ)料庫(kù)自動(dòng)深度

朱永清,趙 鵬,趙菲菲,慕曉冬,白 坤,尤軒昂

(1.火箭軍工程大學(xué) 作戰(zhàn)保障學(xué)院,西安 710025;2.陸軍邊海防學(xué)院,西安 710025)

0 概述

自動(dòng)文本摘要技術(shù)最早應(yīng)用于加拿大政府的天氣預(yù)報(bào)工作,后來(lái)被應(yīng)用于金融分析、醫(yī)療數(shù)據(jù)整理、法律文本處理等多個(gè)領(lǐng)域進(jìn)行輔助決策。在神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)被廣泛使用之前,大部分摘要類(lèi)實(shí)現(xiàn)方法都是以抽取的方式,例如文獻(xiàn)[1-3]利用基于圖排序的摘要方法,文獻(xiàn)[4]利用基于啟發(fā)式規(guī)則的摘要方法,文獻(xiàn)[5]利用基于有監(jiān)督學(xué)習(xí)的摘要方法,文獻(xiàn)[6-8]利用基于神經(jīng)網(wǎng)絡(luò)的摘要方法,文獻(xiàn)[9-10]利用基于次模函數(shù)的摘要方法,文獻(xiàn)[11-13]利用基于預(yù)訓(xùn)練模型的摘要方法,等。以上方法均可以理解為序列到序列的抽取式摘要方法,即從原文中分析并提取出最重要的原文完整句子,進(jìn)行簡(jiǎn)單拼接后得到一個(gè)抽取式摘要結(jié)果。在現(xiàn)實(shí)中的人工條件下,摘要更多的是生成式的過(guò)程,即在閱讀一段、一篇或多篇文段后,經(jīng)過(guò)腦內(nèi)抽象分析得到一個(gè)抽象理解,之后結(jié)合自己的知識(shí)結(jié)構(gòu)輸出為一段高度概括的內(nèi)容。因此,隨著深度學(xué)習(xí)的快速發(fā)展,自動(dòng)文本摘要的方法逐漸由抽取式向生成式偏移?,F(xiàn)已有不少?lài)?guó)內(nèi)[14-15]和國(guó)外[16-18]的研究人員對(duì)目前的自動(dòng)文本摘要方法進(jìn)行了綜述分析,但是針對(duì)生成式自動(dòng)文本摘要的文獻(xiàn)綜述,如文獻(xiàn)[19-20],在直接將目前生成式自動(dòng)文本摘要等價(jià)于基于深度學(xué)習(xí)后便不再深入分析,缺乏問(wèn)題導(dǎo)向和足夠深入的研究,對(duì)于目前最新研究成果分析不夠充分。

本文針對(duì)生成式文本摘要技術(shù),指出其在深度學(xué)習(xí)下的發(fā)展優(yōu)勢(shì)和關(guān)鍵問(wèn)題,描述生成式摘要系統(tǒng)的基本結(jié)構(gòu)和數(shù)據(jù)預(yù)處理的相關(guān)基礎(chǔ)知識(shí),并以關(guān)鍵問(wèn)題為導(dǎo)向,展示基于深度學(xué)習(xí)的生成式摘要模型突出的研究成果,比較優(yōu)秀的深度預(yù)訓(xùn)練和創(chuàng)新方法融合模型。此外,介紹生成式摘要系統(tǒng)常用的數(shù)據(jù)集和評(píng)價(jià)標(biāo)準(zhǔn),并對(duì)這一技術(shù)的發(fā)展局限性及發(fā)展前景進(jìn)行分析。

1 研究背景及現(xiàn)狀分析

信息摘要是對(duì)海量數(shù)據(jù)內(nèi)容的提煉和總結(jié),以簡(jiǎn)潔、直觀的摘要來(lái)概括用戶(hù)所關(guān)注的主要內(nèi)容,方便用戶(hù)快速了解關(guān)注目標(biāo)。文本類(lèi)摘要作為眾多模態(tài)信息摘要中最常見(jiàn)的類(lèi)型,通過(guò)篩選、提煉、總結(jié)等方式得到與原文語(yǔ)義相近但極大程度縮短長(zhǎng)度的句段。隨著各類(lèi)文本信息數(shù)量的爆炸式增長(zhǎng),公眾需求大量增加,自動(dòng)文本摘要技術(shù)起到了重要作用。

基于深度學(xué)習(xí)的生成式自動(dòng)文本摘要任務(wù)模型主要具有以下優(yōu)點(diǎn):

1)靈活性高,允許生成的摘要中出現(xiàn)新的字詞或短語(yǔ)。

2)相比于抽取式摘要,生成式摘要模型的思路更符合實(shí)際需求,其結(jié)果更貼近人工摘要的結(jié)果。

3)生成式摘要能夠在建立完整語(yǔ)義信息的同時(shí)有效避免過(guò)多冗余信息。

同時(shí),基于深度學(xué)習(xí)的生成式自動(dòng)文本摘要任務(wù)模型存在以下關(guān)鍵問(wèn)題:

1)未登錄詞(Out of Vocabulary,OOV)問(wèn)題。在處理文本時(shí),通常會(huì)有一個(gè)字詞庫(kù),未登錄詞就是不在字詞庫(kù)中的單詞。這個(gè)字詞庫(kù)可以是提前加載的,可以是自己臨時(shí)定義的,也可以是從訓(xùn)練數(shù)據(jù)集提取的,如何處理未登錄詞是文本摘要任務(wù)的關(guān)鍵問(wèn)題之一。

2)生成重復(fù)問(wèn)題。利用注意力得分從分布中采樣得到的字詞連續(xù)重復(fù)生成,導(dǎo)致語(yǔ)法不通或語(yǔ)義不明。

3)長(zhǎng)程依賴(lài)問(wèn)題。在長(zhǎng)文檔或多文檔摘要任務(wù)中,較長(zhǎng)文檔或多文檔遠(yuǎn)距離語(yǔ)義抽取能力不足。

4)評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題。生成的摘要好壞,不僅單純地由評(píng)價(jià)指標(biāo)決定,同時(shí)也需要考慮語(yǔ)義相關(guān)性、語(yǔ)法準(zhǔn)確性、流暢性等問(wèn)題。

2 數(shù)據(jù)預(yù)處理及基本框架

目前生成式自動(dòng)文本摘要主流的基本框架是結(jié)合數(shù)據(jù)預(yù)處理[21-22]和編解碼器的序列到序列框架[23-24],其中涉及CNN[25]、RNN[26]、LSTM/GRU[27-28]、Transformer[29-30]、BERT[31]及其變體RoBERTa[32]等作為編碼器或解碼器的基本模型。

在編碼器之前,需要實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理,包括分詞、詞嵌入等。分詞是中文特有的需求,在實(shí)際的深度學(xué)習(xí)過(guò)程中,雖然無(wú)論是語(yǔ)義關(guān)聯(lián)還是文本生成都是基于字而非基于詞的,但是分詞的作用仍然很重要,它有利于下一步融合注意力機(jī)制的權(quán)重分配,其中,BERT、GPT[33-35]等預(yù)訓(xùn)練模型以及fastBERT[36]等蒸餾后的預(yù)訓(xùn)練模型[37-38]所使用的基于WordPiece[39]的分詞方法,常用于提高模型生成的準(zhǔn)確性和合理性。詞嵌入包括文檔嵌入[40-42]以及位置嵌入,是數(shù)據(jù)預(yù)處理中最重要的一環(huán),每一個(gè)單詞對(duì)應(yīng)唯一的詞向量,詞嵌入的誕生促使機(jī)器可以通過(guò)數(shù)學(xué)的方法對(duì)其進(jìn)行分析建模推演,這些向量是高維度的,通過(guò)分析這些高緯度向量,可以找出很多利于分析的規(guī)律。隨著機(jī)器學(xué)習(xí)的發(fā)展,趨向使用各種預(yù)訓(xùn)練模型加以適當(dāng)微調(diào),即可完成數(shù)據(jù)預(yù)處理工作,因此,預(yù)訓(xùn)練模型已經(jīng)成為詞嵌入的常態(tài)配置。

目前在利用深度學(xué)習(xí)技術(shù)進(jìn)行自動(dòng)文本摘要方面已經(jīng)有了不少研究成果,重點(diǎn)在于編碼器和解碼器的序列到序列框架。在將一個(gè)序列輸入框架之后,通過(guò)編碼器得到隱藏上下文向量,然后將其作為輸入送入解碼器,在解碼過(guò)程中計(jì)算概率分布得到輸出。目前,越來(lái)越多基于序列到序列框架的模型被提出,但基本上都是基于RUSH 等[43]提出的加入注意力機(jī)制的序列到序列框架,如圖1 所示。該模型有助于更好地生成摘要,已經(jīng)成為生成式自動(dòng)文本摘要模型的主要框架。

圖1 帶注意力機(jī)制的序列到序列神經(jīng)網(wǎng)絡(luò)模型框架Fig.1 Framework of sequence to sequence neural network model with attention mechanism

3 模型關(guān)鍵技術(shù)分析及效果對(duì)比

針對(duì)上文所述基于深度學(xué)習(xí)的生成式文本摘要模型中存在的關(guān)鍵問(wèn)題,下文分析相應(yīng)問(wèn)題的解決方案,介紹常用深度預(yù)訓(xùn)練生成摘要模型技術(shù),以及基于深度學(xué)習(xí)的創(chuàng)新性生成摘要模型技術(shù),并對(duì)主流生成式摘要模型在不同數(shù)據(jù)集上的效果進(jìn)行對(duì)比分析。

3.1 針對(duì)未登錄詞問(wèn)題的解決方案

未登錄詞問(wèn)題是生成式文本摘要任務(wù)中的首要問(wèn)題,最開(kāi)始的解決方法有替換成特殊字符“UNK”,或進(jìn)行刪除操作,或從原文中隨機(jī)抽取替換,但都會(huì)影響摘要生成效果。

針對(duì)該問(wèn)題,SEE等[44]提出指針生成器網(wǎng)絡(luò)(Point-Generator Network,PGN),即復(fù)制機(jī)制。針對(duì)序列到序列基本模型經(jīng)常不準(zhǔn)確再現(xiàn)事實(shí)細(xì)節(jié)的問(wèn)題,通過(guò)指針從源文本中針對(duì)性復(fù)制單詞的方式,緩解了OOV 問(wèn)題,既允許摘要單詞通過(guò)指針復(fù)制源文檔單詞的方式生成,也允許一定概率下從固定字詞庫(kù)中采樣生成。復(fù)制機(jī)制對(duì)于準(zhǔn)確地復(fù)制罕見(jiàn)但必須出現(xiàn)的單詞至關(guān)重要,如人名、地名等專(zhuān)有名詞。該方法已經(jīng)成為生成式文本摘要模型最常用的網(wǎng)絡(luò)模型之一。但該模型存在一個(gè)問(wèn)題,即摘要中的新穎性字詞依賴(lài)于字詞庫(kù)中的新穎性字詞,這使得模型機(jī)制對(duì)于字詞庫(kù)有較大程度的依賴(lài)性。

針對(duì)PGN存在的問(wèn)題,CHAKRABORTY 等[45]分析指針生成網(wǎng)絡(luò)解決未登錄詞問(wèn)題過(guò)程中不能生成新詞問(wèn)題的根本原因,并通過(guò)增加未登錄詞懲罰機(jī)制,優(yōu)化可以生成新詞的生成式摘要模型效果。

3.2 針對(duì)生成重復(fù)問(wèn)題的解決方案

生成重復(fù)問(wèn)題指的是,基于注意力的序列到序列模型生成的摘要在注意力機(jī)制的影響下有傾向于生成重復(fù)字詞的情況,導(dǎo)致出現(xiàn)不必要的冗余或語(yǔ)法錯(cuò)誤等問(wèn)題。針對(duì)該問(wèn)題,SEE 等[44]提出覆蓋(coverage)機(jī)制,利用注意力分布追蹤目前應(yīng)被選中的單詞,當(dāng)再次注意指向與上一時(shí)間步同一內(nèi)容時(shí)予以懲罰,解決基于注意力的序列到序列模型生成句子中經(jīng)常有重復(fù)片段現(xiàn)象的問(wèn)題。

雖然覆蓋機(jī)制解決了生成重復(fù)的問(wèn)題,但是對(duì)于生成重復(fù)的情況并沒(méi)有做區(qū)分,因?yàn)橛行┲髡Z(yǔ)是必須要重復(fù)生成的。因此,如果只是一味地避免重復(fù),對(duì)于生成式摘要而言是一種懲罰,會(huì)導(dǎo)致這類(lèi)本該重復(fù)生成的詞會(huì)被替換為未生成過(guò)的其他詞,降低了摘要的質(zhì)量。為實(shí)現(xiàn)有選擇性的覆蓋,CHUNG等[46]提出MPG 模型,修正了主題詞無(wú)法選擇性重復(fù)生成的問(wèn)題,提高了生成摘要的質(zhì)量。

此外,LIN 等[47]提出了一個(gè)全局編碼框架。該框架基于源上下文的全局信息來(lái)控制從編碼器到解碼器的信息流,其由一個(gè)卷積選通單元組成,用于執(zhí)行全局編碼,以改善源端信息的表示,在提高生成摘要質(zhì)量的同時(shí)也達(dá)到了減少重復(fù)的目的。COHAN等[48]針對(duì)長(zhǎng)序列摘要字詞重復(fù)生成的問(wèn)題,跟蹤注意力作用范圍,提出解碼器覆蓋范圍作為注意力功能的附加輸入,以避免注意力重復(fù)指向相同的內(nèi)容。

3.3 針對(duì)長(zhǎng)程依賴(lài)問(wèn)題的解決方案

長(zhǎng)程依賴(lài)問(wèn)題指的是,面對(duì)較長(zhǎng)或主旨不集中的輸入信息,通過(guò)加大輸入長(zhǎng)度提高上下文向量的語(yǔ)義抽取能力時(shí),后期輸入內(nèi)容對(duì)上下文向量語(yǔ)義的影響基本消失的問(wèn)題。

在基于注意力機(jī)制的序列到序列基礎(chǔ)模型基礎(chǔ)上,CHOPRA 等[49]以卷積注意力作為編碼器并以循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)作為解碼器,NALLAPATI 等[26]結(jié)合龐大字詞庫(kù),利用RNN 作為編碼器解碼器來(lái)提高生成摘要質(zhì)量,但都深受RNN 長(zhǎng)程依賴(lài)問(wèn)題的影響。為減少該問(wèn)題影響,COHAN 等[48]提出分層RNN 用以捕捉文檔話(huà)語(yǔ)結(jié)構(gòu),利用語(yǔ)篇相關(guān)信息來(lái)修改詞級(jí)注意功能,緩解長(zhǎng)程依賴(lài)問(wèn)題。CELIKYILMAZ 等[50]使用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)抽取句子的語(yǔ)義表示,利用深度代理通信(DCA)的方式解決長(zhǎng)距離情況下如何更好進(jìn)行信息聚留的問(wèn)題,并采用最大似然估計(jì)、語(yǔ)義銜接、逐句間強(qiáng)化學(xué)習(xí)策略等方式提高生成摘要的準(zhǔn)確性、連貫性、抽象程度。LIN 等[47]將雙向LSTM 作為編碼器,將單向LSTM 作為解碼器,并增加自注意(Self-Attention)模塊,挖掘某一時(shí)刻標(biāo)記(Token)之間的關(guān)系,提高全局信息關(guān)注能力,從而減少長(zhǎng)程依賴(lài)影響。

目前,越來(lái)越多研究著眼于利用預(yù)訓(xùn)練模型進(jìn)行生成式摘要生成。YANG 等[51]針對(duì)BERT 輸入長(zhǎng)度受限的問(wèn)題,提出通過(guò)對(duì)句子單獨(dú)應(yīng)用推理來(lái)解決這個(gè)問(wèn)題,然后聚合句子分?jǐn)?shù)來(lái)產(chǎn)生文檔分?jǐn)?shù)的思想,以緩解BERT 的長(zhǎng)程依賴(lài)問(wèn)題。

3.4 針對(duì)評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題的解決方案

評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題包括兩點(diǎn):1)生成式摘要任務(wù)訓(xùn)練模型需要考慮ROUGE 函數(shù)不可微而不適用于梯度計(jì)算的問(wèn)題;2)生成式摘要任務(wù)中的評(píng)價(jià)標(biāo)準(zhǔn)常采用人工評(píng)價(jià)或ROUGE 自動(dòng)評(píng)價(jià)標(biāo)準(zhǔn),但是生成式摘要的ROUGE 評(píng)價(jià)結(jié)果并不能充分說(shuō)明摘要質(zhì)量,歸根于生成式摘要結(jié)果評(píng)價(jià)指標(biāo)希望更看重整體語(yǔ)義匹配程度,而ROUGE 更看重字詞組合的形式匹配。針對(duì)以上2 個(gè)評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題,在設(shè)計(jì)損失函數(shù)時(shí),需要考慮如何將ROUGE 標(biāo)準(zhǔn)融入損失函數(shù)及其優(yōu)化計(jì)算方法,同時(shí)設(shè)計(jì)兼具語(yǔ)義相似性和字詞匹配度的損失函數(shù)。

針對(duì)第1個(gè)評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題,NG等[52]提出針對(duì)ROUGE 的單詞嵌入方法,提高了摘要評(píng)估效果,其在使用斯皮爾曼(Spearman)和肯德?tīng)枺↘endall)秩系數(shù)測(cè)量時(shí)不測(cè)量詞匯重疊,而是通過(guò)詞嵌入來(lái)計(jì)算摘要中使用的詞的語(yǔ)義相似度,達(dá)到與人類(lèi)評(píng)估更好的相關(guān)性,并避免2 個(gè)單詞序列具有相似含義時(shí)由于詞典表示法的差異而受到ROUGE 不公平處罰的影響。AYANA 等[53]將不可微而無(wú)法直接用作損失函數(shù)的ROUGE、BLEU 等評(píng)測(cè)指標(biāo)引入訓(xùn)練目標(biāo)函數(shù)中,使用最小風(fēng)險(xiǎn)訓(xùn)練策略進(jìn)行優(yōu)化計(jì)算,改進(jìn)了標(biāo)題生成的效果。CELIKYILMAZ 等[50]使用強(qiáng)化學(xué)習(xí)的自我批判訓(xùn)練方法計(jì)算不可微的ROUGE 函數(shù)。LI 等[54]提出在卷積序列到序列框架中使用自臨界序列訓(xùn)練SCST 技術(shù)直接優(yōu)化模型,緩解了曝光偏差問(wèn)題并實(shí)現(xiàn)了不可微的摘要度量ROUGE 的計(jì)算。

針對(duì)第2 個(gè)評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題,F(xiàn)ABBRI 等[55]使用神經(jīng)摘要模型輸出以及專(zhuān)家摘要和外包人工標(biāo)注摘要,以全面和一致的方式重新評(píng)估了12 個(gè)自動(dòng)評(píng)估指標(biāo),并使用這些自動(dòng)評(píng)估指標(biāo)對(duì)23 個(gè)最近的摘要模型進(jìn)行了基準(zhǔn)測(cè)試,得到一個(gè)更完整的文本摘要評(píng)估協(xié)議,提高摘要自動(dòng)評(píng)估指標(biāo)的普適性。

3.5 包含深度預(yù)訓(xùn)練框架的生成式文本摘要模型

深度學(xué)習(xí)發(fā)展至今,隨著Transformer 框架的提出,原先由基于RNN、LSTM、GRU 等模型作為編碼器和解碼器的序列到序列模型,已經(jīng)發(fā)展為基于Transformer 的序列到序列模型,逐漸形成了深度預(yù)訓(xùn)練模型的主要框架。同時(shí),對(duì)于訓(xùn)練集的需求也由有監(jiān)督學(xué)習(xí)向無(wú)監(jiān)督學(xué)習(xí)轉(zhuǎn)化,大幅提升了缺乏足夠有標(biāo)簽數(shù)據(jù)情況下的模型性能。

目前,生成式文本摘要領(lǐng)域最常用的深度預(yù)訓(xùn)練模型包括MASS[56]、TAAS[57]、UniLM[58-59]、T5[60]、STEP[61]、BART[62]、PEGASUS[63]、ProphetNet[64]等。MASS[56]模型使用的方法是掩蔽序列到序列的生成,避免在給定句子剩余部分的情況下重構(gòu)句子片段,隨機(jī)選擇一個(gè)句子片段。TAAS[57]模型包含了1 個(gè)利用潛在主題表示文檔潛在語(yǔ)義結(jié)構(gòu)的主題感知抽象摘要模型框架。UniLM[58-59]模型包含3 種語(yǔ)言建模任務(wù)的聯(lián)合訓(xùn)練,即單向(從左到右和從右到左)、雙向(單詞級(jí)掩碼,帶有下一句預(yù)測(cè))和序列到序列(單詞級(jí)掩碼)預(yù)測(cè)。T5[60]模型展示了擴(kuò)大模型大小(至110 億個(gè)參數(shù))和預(yù)訓(xùn)練語(yǔ)料庫(kù)的優(yōu)勢(shì),并引入了C4 大規(guī)模文本語(yǔ)料庫(kù)。該模型利用隨機(jī)損壞的文本段進(jìn)行預(yù)訓(xùn)練,這些文本段具有不同的掩碼比和段的大小。STEP[61]模型包含3 個(gè)與抽象摘要任務(wù)有關(guān)且都基于恢復(fù)源文本而設(shè)計(jì)的預(yù)訓(xùn)練目標(biāo),即句子重新排序(SR)、下一句生成(NSG)和屏蔽文檔生成(MDG)。與在更大的語(yǔ)料庫(kù)(≥160 GB)上進(jìn)行模型預(yù)訓(xùn)練相比,該模型在語(yǔ)料庫(kù)只有19 GB 的情況下仍然可以獲得相當(dāng)甚至更好的性能。BART[62]模型引入去噪自動(dòng)編碼器對(duì)序列間模型進(jìn)行預(yù)訓(xùn)練,利用任意的噪聲函數(shù)破壞文本,并學(xué)習(xí)重構(gòu)原始文本。對(duì)于生成任務(wù),噪聲函數(shù)是文本填充,其使用單個(gè)掩碼標(biāo)記來(lái)掩碼隨機(jī)采樣的文本范圍。PEGASUS[63]模型提出了新的預(yù)訓(xùn)練目標(biāo)間隙句生成GSG(Gap Sentences Generation),從文檔中選擇并屏蔽整個(gè)句子,并將間隙句連接成偽摘要。ProphetNet[64]模型提出一個(gè)新穎的自監(jiān)督學(xué)習(xí)目標(biāo)函數(shù),即預(yù)測(cè)未來(lái)N元組(Predicting FutureN-gram)。與傳統(tǒng)序列到序列模型中Teacher-forcing 每一時(shí)刻只預(yù)測(cè)下一個(gè)字符不同,該模型每一時(shí)刻都在學(xué)習(xí)如何同時(shí)預(yù)測(cè)未來(lái)N個(gè)字符。

以上基于Transformer 的序列到序列深度預(yù)訓(xùn)練框架的生成式文本摘要模型優(yōu)勢(shì),在于不需要過(guò)多的有標(biāo)記數(shù)據(jù),僅憑借大量無(wú)標(biāo)記語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練再用少量標(biāo)記數(shù)據(jù)微調(diào)即可,隨著預(yù)訓(xùn)練語(yǔ)料庫(kù)內(nèi)容的不斷擴(kuò)充,促使生成摘要的得分不斷提高。值得注意的是,這類(lèi)框架極大地弱化了對(duì)標(biāo)記數(shù)據(jù)的需求和調(diào)試的門(mén)檻,但也大幅提高了語(yǔ)料庫(kù)精細(xì)程度及硬件訓(xùn)練的門(mén)檻,同時(shí)目前關(guān)于這些預(yù)訓(xùn)練模型可解釋性相關(guān)研究仍然缺乏,對(duì)于如何在預(yù)訓(xùn)練框架中優(yōu)化生成式摘要的未登錄詞、生成重復(fù)、長(zhǎng)程依賴(lài)、評(píng)價(jià)標(biāo)準(zhǔn)等核心問(wèn)題,缺乏足夠深入的研究。

3.6 融合深度學(xué)習(xí)創(chuàng)新方法的生成式文本摘要模型

為提高基于深度學(xué)習(xí)的生成式摘要模型性能,研究者通過(guò)嘗試與其他領(lǐng)域模型及方法的創(chuàng)新融合,在不同方面推進(jìn)了生成式摘要模型的發(fā)展。

GUO 等[65]通過(guò)融合具有問(wèn)題生成和蘊(yùn)涵生成等輔助任務(wù)的多任務(wù)學(xué)習(xí)模型,提高了抽象摘要的蘊(yùn)含源文本核心信息能力,并提出新的多任務(wù)體系結(jié)構(gòu),總體上提高了摘要模型的學(xué)習(xí)顯著性和蘊(yùn)含能力。XU 等[66]融合圖卷積網(wǎng)絡(luò)模型,使用圖來(lái)連接文檔中句子的解析樹(shù),并使用堆疊圖卷積網(wǎng)絡(luò)來(lái)學(xué)習(xí)文檔的語(yǔ)法表示,通過(guò)選擇性注意機(jī)制提取語(yǔ)義和結(jié)構(gòu)方面的顯著信息并優(yōu)化生成摘要結(jié)果。ZOU等[61]融合自建大規(guī)模語(yǔ)料庫(kù),使用無(wú)監(jiān)督訓(xùn)練方法,達(dá)到了有監(jiān)督訓(xùn)練的效果。ZHENG 等[67]為播客領(lǐng)域的生成式摘要提供了基線(xiàn)分析,突出分析了當(dāng)前先進(jìn)預(yù)訓(xùn)練模型在該領(lǐng)域的效果。CHEN 等[68]針對(duì)對(duì)話(huà)摘要生成問(wèn)題提出一個(gè)多視圖序列到序列模型,從不同的視圖中提取非結(jié)構(gòu)化日常聊天的會(huì)話(huà)結(jié)構(gòu)來(lái)表示會(huì)話(huà),利用多視圖解碼器來(lái)合并不同的視圖以生成對(duì)話(huà)摘要。ZHENG 等[57]通過(guò)融合神經(jīng)主題模型,有效提高了摘要生成效果及全局語(yǔ)義蘊(yùn)含。FABBRI 等[69]引入一種稱(chēng)為維基轉(zhuǎn)換的通用方法,以無(wú)監(jiān)督、特定于數(shù)據(jù)集的方式微調(diào)摘要的預(yù)處理模型,在零樣本抽象摘要模型性能比較中取得了最優(yōu),同時(shí)為少樣本情況提供了研究依據(jù)。ZAGAR等[70]提出跨語(yǔ)言生成式摘要模型,針對(duì)小語(yǔ)種資源少的問(wèn)題,使用一個(gè)基于深度神經(jīng)網(wǎng)絡(luò)和序列到序列架構(gòu)的預(yù)處理英語(yǔ)摘要模型來(lái)總結(jié)斯洛文尼亞新聞文章,通過(guò)使用額外的語(yǔ)言模型進(jìn)行目標(biāo)語(yǔ)言評(píng)估來(lái)解決解碼器不足的問(wèn)題。

通過(guò)上述研究可以發(fā)現(xiàn),利用其他領(lǐng)域的知識(shí)遷移可以提高生成式自動(dòng)文本摘要的生成效果。

3.7 模型對(duì)比

以上對(duì)深度學(xué)習(xí)下的生成式文本摘要模型的分類(lèi)與說(shuō)明,表明專(zhuān)用模型精于解決于特定問(wèn)題,具有不同的算法原理、編解碼器、適用范圍、優(yōu)勢(shì)、局限性等,因此,需要根據(jù)實(shí)際情況進(jìn)行研究后再使用,融合出更優(yōu)秀的生成式自動(dòng)文本摘要模型。針對(duì)專(zhuān)用模型的編解碼器、解決核心問(wèn)題的方案比較如表1所示。

表1 不同模型的編解碼器、核心問(wèn)題解決方案比較Table 1 Comparison of codec and core problem solving methods of different models

由表1可見(jiàn),指針網(wǎng)絡(luò)(PGN)中的Copy 和Coverage 模塊是較多模型處理未登錄詞和生成重復(fù)問(wèn)題的主要模塊,而處理長(zhǎng)程依賴(lài)和評(píng)價(jià)標(biāo)準(zhǔn)問(wèn)題的方法各不相同,缺乏較為權(quán)威的標(biāo)桿模型。對(duì)于預(yù)訓(xùn)練模型,利用Transformer 的多頭注意力可緩解長(zhǎng)程依賴(lài)問(wèn)題,經(jīng)過(guò)大容量語(yǔ)料庫(kù)的訓(xùn)練,學(xué)到的序列內(nèi)字詞之間的關(guān)系也更全面,降低了遇到未登錄詞和生成重復(fù)的幾率,因此,很少有專(zhuān)門(mén)針對(duì)4 個(gè)核心問(wèn)題的模塊。各模型的算法核心技術(shù)、適用范圍、優(yōu)勢(shì)和局限性比較如表2 所示。

表2 不同模型的算法核心、適用范圍、優(yōu)勢(shì)和局限性比較Table 2 Comparison of core algorithm,application scope,advantages and limitations of different models

3.8 實(shí)驗(yàn)效果對(duì)比與分析

目前主流模型主要采用Cnn&Dailymail stories[26,44]、Gigaword[43,71]、DUC-2004、LCSTS[72]這4種數(shù)據(jù)集。評(píng)價(jià)標(biāo)準(zhǔn)通常采用ROUGE[73]標(biāo)準(zhǔn)中的ROUGE-1、ROUGE-2 和ROUGE-L。將不同模型在各個(gè)數(shù)據(jù)集上的ROUGE 分?jǐn)?shù)進(jìn)行對(duì)比,如表3 所示,數(shù)據(jù)取自各模型的最優(yōu)分,加粗表示該項(xiàng)數(shù)據(jù)各模型中的最優(yōu)值??梢钥闯?,基于深度學(xué)習(xí)的生成式摘要模型,ROUGE-1、ROUGE-2、ROUGE-L 評(píng)價(jià)得分在Cnn&Dailymail 數(shù)據(jù)集上最高分別提高了8.53、8.65、8.02 分,在Gigaword語(yǔ)料庫(kù)上分別提高了8.67、8.05、8.80 分,在DUC-2004數(shù)據(jù)集上分別提高了4.60、3.81、5.63 分,在LCSTS 數(shù)據(jù)集上分別提高了6.92、7.88、7.28 分,總體效果提升顯著。

表3 不同數(shù)據(jù)集上常用模型的ROUGE 分?jǐn)?shù)對(duì)比Table 3 Comparison of ROUGE scores of common models on different datasets

基于深度學(xué)習(xí)的生成式摘要模型較傳統(tǒng)模型有較大程度的突破,但仍有較大的進(jìn)步空間,主要包括:

1)ProphetNet模型[62]在英文數(shù)據(jù)集Cnn&Dailymail 和Gigaword 上的效果最好,其他預(yù)訓(xùn)練模型如UniLM、T5、STEP、BART、PEGASUS 等均有不弱于ProphetNet 的表現(xiàn),差距不明顯。

2)雖然RTC 模型[54]在中文數(shù)據(jù)集LCSTS 上的效果最好,但由于預(yù)訓(xùn)練模型尚未在中文數(shù)據(jù)集LCSTS上進(jìn)行實(shí)驗(yàn),因此模型的中英文泛化能力有待進(jìn)一步驗(yàn)證。在目前生成式摘要領(lǐng)域中,中文的進(jìn)展相較于英文是短暫且緩慢的,實(shí)驗(yàn)數(shù)據(jù)遠(yuǎn)遠(yuǎn)不夠。

3)這些模型總體上能夠較大程度地提升摘要生成效果,但大部分模型都僅在一兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),不夠完備。

4)大部分模型都基于短文本摘要,目前在長(zhǎng)文本、多文檔文本、特定領(lǐng)域文本等方面缺乏模型及其效果的數(shù)據(jù)對(duì)比。

4 常用數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)

4.1 常用數(shù)據(jù)集

適用于生成式自動(dòng)文本摘要任務(wù)的常用數(shù)據(jù)集包括Cnn&Dailymail 數(shù)據(jù)集、Gigaword 語(yǔ)料庫(kù)、會(huì)議共享數(shù)據(jù)集、LCSTS 單文本摘要數(shù)據(jù)集等。

1)Cnn&Dailymail 數(shù)據(jù)集。Cnn&Dailymail 是單文本摘要數(shù)據(jù)集,由30 萬(wàn)篇新聞短文摘要對(duì)組成,該數(shù)據(jù)集為英文數(shù)據(jù)集。

2)Gigaword 語(yǔ)料庫(kù)。Gigaword 語(yǔ)料庫(kù)包含 約380 萬(wàn)個(gè)訓(xùn)練樣本、19 萬(wàn)個(gè)驗(yàn)證樣本和1 951 個(gè)測(cè)試樣本用于評(píng)估。輸入摘要對(duì)由源文章的標(biāo)題行和第一句組成,該數(shù)據(jù)集為英文數(shù)據(jù)集。

3)會(huì)議共享數(shù)據(jù)集。常用的會(huì)議共享數(shù)據(jù)集包括DUC 和NLPCC 數(shù)據(jù)集。DUC(Document Understanding Conference)是摘要評(píng)估領(lǐng)域的國(guó)際評(píng)測(cè)會(huì)議,各大文本摘要系統(tǒng)均熱衷于此進(jìn)行測(cè)評(píng)比較,這里提供的數(shù)據(jù)集都是小型數(shù)據(jù)集,用于評(píng)測(cè)模型。最常用的是DUC-2004 數(shù)據(jù)集,該會(huì)議共享數(shù)據(jù)集為英文數(shù)據(jù)集。NLPCC(Natural Language Processing and Chinese Computing)是CCF 國(guó)際自然語(yǔ)言處理與中文計(jì)算會(huì)議,NLPCC2015、NLPCC2017、NLPCC2018均有摘要任務(wù)相關(guān)的摘要數(shù)據(jù)集,該會(huì)議共享數(shù)據(jù)集為中文數(shù)據(jù)集。

4)LCSTS 單文本摘要數(shù)據(jù)集。LCSTS(Largescale Chinese Short Text Summarization dataset),是哈工大提出的從新浪微博獲取的短文本新聞?wù)形臄?shù)據(jù)集。該語(yǔ)料庫(kù)由240 萬(wàn)篇真實(shí)的漢語(yǔ)短文組成,每一篇文章的作者都給出了簡(jiǎn)短的摘要,其中手工標(biāo)記了10 666 個(gè)簡(jiǎn)短摘要與相應(yīng)的簡(jiǎn)短文本的相關(guān)性。

5)其他數(shù)據(jù)集。除了以上數(shù)據(jù)集,還可以通過(guò)其他不同途徑獲取數(shù)據(jù)集,如文獻(xiàn)[74]發(fā)布的一個(gè)基于新浪微博的中文數(shù)據(jù)集,共包含863 826 個(gè)樣本,以及通過(guò)參加摘要類(lèi)比賽獲取相關(guān)數(shù)據(jù)集等。

目前生成式自動(dòng)文本摘要領(lǐng)域的主流數(shù)據(jù)集偏向于英文,由于國(guó)內(nèi)在該領(lǐng)域的研究滯后于國(guó)外,因此對(duì)于中文數(shù)據(jù)集的制作、共享、使用及研究程度不深。此外,常用數(shù)據(jù)集多為短文本數(shù)據(jù)集,長(zhǎng)文本或多文檔數(shù)據(jù)集尤為缺乏。隨著深度學(xué)習(xí)的不斷發(fā)展,各研究對(duì)于數(shù)據(jù)集的需求急速加大,需要各界學(xué)者持續(xù)加大對(duì)于該領(lǐng)域數(shù)據(jù)集的全方面研究力度,其中包括長(zhǎng)文本摘要數(shù)據(jù)集、多文檔摘要數(shù)據(jù)集、多語(yǔ)言混合摘要數(shù)據(jù)集、科研或醫(yī)學(xué)或法律等方面具有領(lǐng)域特色的細(xì)粒度摘要數(shù)據(jù)集,等。

4.2 評(píng)價(jià)標(biāo)準(zhǔn)

生成式自動(dòng)文本摘要評(píng)價(jià)標(biāo)準(zhǔn)可以分為人工測(cè)評(píng)方法和自動(dòng)測(cè)評(píng)方法2 種。人工測(cè)評(píng)即專(zhuān)家進(jìn)行人工評(píng)判,綜合考慮摘要的流暢性、中心思想相關(guān)性、可解釋性等方面進(jìn)行評(píng)價(jià)。本文主要介紹自動(dòng)測(cè)評(píng)的評(píng)價(jià)標(biāo)準(zhǔn),其中分為內(nèi)部評(píng)價(jià)和外部評(píng)價(jià)標(biāo)準(zhǔn)2 類(lèi),內(nèi)部評(píng)價(jià)標(biāo)準(zhǔn)包含信息量、連貫性、可讀性、長(zhǎng)度、冗余度等,外部評(píng)價(jià)標(biāo)準(zhǔn)為間接評(píng)價(jià),包含檢索準(zhǔn)確度、分類(lèi)準(zhǔn)確度等。在生成式自動(dòng)文本摘要任務(wù)中,ROUGE(Recall-Oriented Understudy for Gisting Evaluation)[73]是一種常用的評(píng)價(jià)標(biāo)準(zhǔn)。ROUGE重在召回率,將系統(tǒng)生成的自動(dòng)摘要與人工生成的標(biāo)準(zhǔn)摘要做對(duì)比,通過(guò)統(tǒng)計(jì)兩者之間重疊的基本單元數(shù)目,來(lái)評(píng)價(jià)摘要的質(zhì)量。在當(dāng)前環(huán)境下,ROUGE 是最常用的自動(dòng)文本摘要評(píng)價(jià)標(biāo)準(zhǔn),而ROUGE-1、ROUGE-2、ROUGE-L 是其中最常用于評(píng)價(jià)自動(dòng)文本摘要效果的3 個(gè)子標(biāo)準(zhǔn)。

雖然ROUGE 評(píng)價(jià)標(biāo)準(zhǔn)已經(jīng)得到了廣泛的認(rèn)可,但是抽取式摘要方向在深度學(xué)習(xí)提出之前占據(jù)了自動(dòng)文本摘要領(lǐng)域的主導(dǎo)地位,ROUGE 評(píng)價(jià)方法也深受影響。在隨深度學(xué)習(xí)快速發(fā)展的生成式摘要任務(wù)領(lǐng)域,該方法評(píng)測(cè)質(zhì)量比不上人工,因?yàn)樗皇菑幕菊Z(yǔ)義單元的匹配上去評(píng)測(cè)候選摘要和標(biāo)準(zhǔn)摘要之間的相似性,缺少語(yǔ)義方面的維度比較,注重外部評(píng)價(jià)而欠缺內(nèi)部評(píng)價(jià)。針對(duì)ROUGE 不可微的缺陷,不少研究在設(shè)計(jì)損失函數(shù)時(shí),將ROUGE 評(píng)價(jià)標(biāo)準(zhǔn)融入損失函數(shù)并訓(xùn)練優(yōu)化方法[53]。

針對(duì)ROUGE 缺少內(nèi)部評(píng)價(jià)的缺陷,越來(lái)越多研究者提出內(nèi)部評(píng)價(jià)優(yōu)先的評(píng)價(jià)標(biāo)準(zhǔn),ZHANG 等[75]提出命名為BERTScore 的文本自動(dòng)生成評(píng)價(jià)指標(biāo),計(jì)算候選句子中每個(gè)標(biāo)記與引用中每個(gè)標(biāo)記的相似性分?jǐn)?shù),即使用具有上下文信息的BERT 嵌入來(lái)計(jì)算相似度。在多個(gè)機(jī)器翻譯和圖像字幕基準(zhǔn)上的評(píng)估結(jié)果表明,在與人類(lèi)判斷的相關(guān)性這一維度,該評(píng)價(jià)指標(biāo)比現(xiàn)有的度量標(biāo)準(zhǔn)更準(zhǔn)確,甚至優(yōu)于特定任務(wù)的監(jiān)督度量標(biāo)準(zhǔn),可以作為自動(dòng)文本摘要評(píng)價(jià)標(biāo)準(zhǔn)之一。FABBRI 等[64]將BERTScore 作為建立摘要模型評(píng)價(jià)體系的12 個(gè)指標(biāo)之一,用以評(píng)價(jià)摘要模型的連貫性、一致性、流暢性、關(guān)聯(lián)性等特性。CHAKRABORTY 等[45]使用自定義的歸一化n-gram新穎性標(biāo)準(zhǔn)對(duì)生成式摘要進(jìn)行比較,實(shí)現(xiàn)新詞生成方面的較大突破,但新穎性主導(dǎo)勢(shì)必會(huì)導(dǎo)致ROUGE評(píng)分一定程度的降低。BHANDARI 等[76]研究無(wú)人評(píng)判下的自動(dòng)評(píng)估有效性問(wèn)題,提出不局限于狹窄評(píng)分范圍,同時(shí)從摘要生成的難易性、抽象性和覆蓋面間進(jìn)行綜合評(píng)估,強(qiáng)調(diào)了需要收集人類(lèi)的判斷來(lái)識(shí)別值得信賴(lài)的度量標(biāo)準(zhǔn),表示比較相關(guān)性時(shí)應(yīng)使用統(tǒng)一寬度的箱以確保更穩(wěn)健的分析,指出比較抽象數(shù)據(jù)集上的摘要系統(tǒng)時(shí)需要謹(jǐn)慎使用自動(dòng)評(píng)價(jià)標(biāo)準(zhǔn)。

雖然越來(lái)越多的研究者認(rèn)清并針對(duì)ROUGE 的缺陷提出各種假設(shè)和實(shí)驗(yàn)方案,但仍沒(méi)有一個(gè)方案取代ROUGE 這一評(píng)價(jià)標(biāo)準(zhǔn),因此,設(shè)計(jì)一個(gè)更為合適和權(quán)威的綜合外部評(píng)價(jià)和內(nèi)部評(píng)價(jià)的摘要評(píng)價(jià)標(biāo)準(zhǔn),是目前文本摘要任務(wù)領(lǐng)域的一個(gè)重要研究方向。

5 發(fā)展局限性及前景分析

隨著深度學(xué)習(xí)的快速發(fā)展,語(yǔ)義提取模型從早期使用正則和傳統(tǒng)的機(jī)器學(xué)習(xí)方法向pipeline 的方式進(jìn)化,再進(jìn)化到端到端的自動(dòng)摘要模塊textsum[77]和序列到序列框架。同時(shí),模型使用的特征抽取器也逐步進(jìn)化,從CNN、RNN 到LSTM/GRU,再到基于Transformer 的MASS[56]、TAAS[57]、UniLM[58-59]、T5[60]、STEP[61]、BART[62]、PEGASUS[63]、ProphetNet[64]等 預(yù)訓(xùn)練模型,信息抽取能力越發(fā)強(qiáng)大。深度學(xué)習(xí)理論發(fā)展至今,預(yù)訓(xùn)練的語(yǔ)料庫(kù)數(shù)據(jù)越來(lái)越龐大,模型學(xué)習(xí)能力越來(lái)越強(qiáng)。但是,預(yù)訓(xùn)練的基礎(chǔ)是對(duì)語(yǔ)料庫(kù)的預(yù)訓(xùn)練,而語(yǔ)料庫(kù)總有極限也很快會(huì)到達(dá)極限,那么預(yù)訓(xùn)練模型的突破必然會(huì)受限于語(yǔ)料庫(kù)的數(shù)量和質(zhì)量。同時(shí),模型網(wǎng)絡(luò)越發(fā)龐大意味著參數(shù)的急劇增長(zhǎng),必須對(duì)此進(jìn)行研究,否則模型系統(tǒng)會(huì)出現(xiàn)越來(lái)越大的黑盒。黑盒的不可解釋性和不可控性必然阻礙人工智能的可信賴(lài)程度,從而可能導(dǎo)致未來(lái)發(fā)展的不可控性。

本文針對(duì)深度學(xué)習(xí)的生成式文本摘要技術(shù)指出以下6 個(gè)方面的發(fā)展前景:

1)目前各模型在ROUGE 得分方面穩(wěn)中有進(jìn),多數(shù)模型建立的目標(biāo)中包含關(guān)鍵問(wèn)題的部分作為目標(biāo)函數(shù),但更值得深究的是與關(guān)鍵問(wèn)題之間的關(guān)聯(lián)程度,因此,應(yīng)繼續(xù)探索解決生成式自動(dòng)文本摘要關(guān)鍵問(wèn)題(未登錄詞、生成重復(fù)、長(zhǎng)程依賴(lài)等)的解決方案,盡可能在一個(gè)模型中解決多個(gè)問(wèn)題,研究仍有較大探索空間。

2)推動(dòng)制定更權(quán)威的生成式自動(dòng)文本摘要評(píng)價(jià)標(biāo)準(zhǔn),改進(jìn)ROUGE 偏向外部評(píng)價(jià)的缺陷,提高對(duì)于生成式摘要模型輸出的準(zhǔn)確性、語(yǔ)義相關(guān)性、冗余性、流暢性等屬性的評(píng)價(jià)標(biāo)準(zhǔn)權(quán)威性。

3)促進(jìn)傳統(tǒng)摘要模型思想與基于深度學(xué)習(xí)的生成式自動(dòng)文本摘要模型思想進(jìn)一步融合。例如抽取式與生成式的融合:針對(duì)長(zhǎng)文檔,首先利用抽取式模型將重要句子抽取,轉(zhuǎn)化為符合中心思想的中短文檔,再將文檔送入生成式模型進(jìn)一步壓縮為短摘要。

4)強(qiáng)化可解釋性方面的研究,加速與知識(shí)圖譜領(lǐng)域的融合,如常識(shí)的引入、提高挖掘知識(shí)蘊(yùn)含或推理知識(shí)的能力、注意力模塊方面在不同的位置或形式對(duì)于摘要結(jié)果的可解釋性等。

5)加速摘要模型的創(chuàng)新性發(fā)展,如推動(dòng)與其他領(lǐng)域或任務(wù)模型相融合、改進(jìn)語(yǔ)義抽取模型、多語(yǔ)言的融合模型、長(zhǎng)短文及多文檔綜合性文摘模型、多模態(tài)摘要模型、腦機(jī)信號(hào)分布融入甚至取代注意力分布的摘要模型、用無(wú)監(jiān)督小數(shù)據(jù)集訓(xùn)練代替有監(jiān)督大數(shù)據(jù)集訓(xùn)練的摘要模型等。

6)深化摘要任務(wù)的下游任務(wù)發(fā)展,如基于摘要的整編(例如某部門(mén)的年終總結(jié)可由下屬不同職能的分部部門(mén)年終總結(jié)摘要整編生成)、基于摘要的二次摘要(例如部門(mén)某方面的年終總結(jié)由下屬相同職能的分部部門(mén)年終總結(jié)摘要整編生成。此外,第3 個(gè)趨勢(shì)前景也屬于一種二次摘要任務(wù))、基于摘要的合理研判(如對(duì)于投資市場(chǎng),通過(guò)對(duì)投資對(duì)象的實(shí)時(shí)新聞等進(jìn)行匯總并生成摘要總結(jié),并基于摘要總結(jié)研判投資趨勢(shì))、基于摘要的事實(shí)分析(針對(duì)生成的摘要內(nèi)容可能偏離事實(shí)的問(wèn)題,通過(guò)融入知識(shí)圖譜或多專(zhuān)家模型等方法,比對(duì)結(jié)果后修正生成摘要的事實(shí)準(zhǔn)確程度)等。

6 結(jié)束語(yǔ)

基于深度學(xué)習(xí)的生成式文本摘要任務(wù)是自然語(yǔ)言處理領(lǐng)域的核心任務(wù)之一,其中蘊(yùn)含的各類(lèi)問(wèn)題需要被關(guān)注并加以解決,傳統(tǒng)基于淺層神經(jīng)網(wǎng)絡(luò)的方法已經(jīng)逐漸被基于深度學(xué)習(xí)的方法超越,但是新的模型方法也有自身的問(wèn)題。本文總結(jié)基于深度學(xué)習(xí)的生成式文本摘要任務(wù)領(lǐng)域相關(guān)文獻(xiàn)資料,分析未登錄詞、生成重復(fù)、長(zhǎng)程依賴(lài)、評(píng)價(jià)標(biāo)準(zhǔn)這4 個(gè)核心問(wèn)題,并以此為分類(lèi)標(biāo)準(zhǔn)對(duì)模型進(jìn)行分類(lèi),研究各模型針對(duì)核心問(wèn)題的解決效果,通過(guò)匯總模型設(shè)計(jì)、數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、生成效果等方面性能,對(duì)比分析各模型自身的優(yōu)勢(shì)及局限性,并給出相應(yīng)的解決方案。在此基礎(chǔ)上,對(duì)該技術(shù)未來(lái)發(fā)展進(jìn)行局限性分析與前景展望。

猜你喜歡
語(yǔ)料庫(kù)自動(dòng)深度
深度理解一元一次方程
自動(dòng)捕盜機(jī)
《語(yǔ)料庫(kù)翻譯文體學(xué)》評(píng)介
深度觀察
深度觀察
深度觀察
基于STM32的自動(dòng)喂養(yǎng)機(jī)控制系統(tǒng)
把課文的優(yōu)美表達(dá)存進(jìn)語(yǔ)料庫(kù)
關(guān)于自動(dòng)駕駛
基于JAVAEE的維吾爾中介語(yǔ)語(yǔ)料庫(kù)開(kāi)發(fā)與實(shí)現(xiàn)
九寨沟县| 太原市| 城固县| 河东区| 深圳市| 杨浦区| 清原| 太康县| 额敏县| 天长市| 阳春市| 华池县| 河津市| 吉安县| 武隆县| 营山县| 遵义市| 福海县| 图木舒克市| 新沂市| 柏乡县| 格尔木市| 德令哈市| 祁连县| 清新县| 佳木斯市| 馆陶县| 襄城县| 车致| 田林县| 呼伦贝尔市| 塘沽区| 平舆县| 贡嘎县| 柳河县| 沂南县| 拉萨市| 海原县| 金川县| 中方县| 大连市|