国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向長文本的抽取式摘要生成方法

2023-08-26 04:13:24全安坤李紅蓮
電腦知識與技術(shù) 2023年20期
關(guān)鍵詞:語義特征文本

全安坤 李紅蓮

關(guān)鍵詞:長文本;抽取式摘要;主題關(guān)鍵詞;義原;冗余信息處理

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2023)20-0008-05

0 引言

在互聯(lián)網(wǎng)飛速發(fā)展的大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)數(shù)據(jù)呈現(xiàn)出爆發(fā)式的增長,通過人工對海量文本數(shù)據(jù)進(jìn)行重要信息提取的方式成本大、速度慢,已經(jīng)變得不現(xiàn)實(shí),信息過載的問題亟待解決。隨著深度學(xué)習(xí)技術(shù)的發(fā)展與其在自然語言處理領(lǐng)域的廣泛應(yīng)用,可以將該技術(shù)應(yīng)用于自動文本摘要中。

自動文本摘要按照輸出類型,可以分為抽取式摘要和生成式摘要[1]。生成式摘要利用深度學(xué)習(xí)算法對文本中的句子或者詞組進(jìn)行語義內(nèi)容提取,達(dá)到理解文本信息的目的,生成質(zhì)量較高的摘要,但是其在處理長文本時(shí),仍然存在未登錄詞問題、生成重復(fù)問題和長距離依賴問題[2],導(dǎo)致生成的摘要不能準(zhǔn)確地表達(dá)文章的主要思想,所以生成式摘要方法一般用于短文本摘要生成任務(wù)中,而在實(shí)際的應(yīng)用場景中,需要處理的主要為長文本。抽取式摘要適用于長文本摘要生成,該方法是從原文中選擇出能夠代表文章主題的關(guān)鍵句組合成摘要,因此該方法生成的摘要在語法方面錯(cuò)誤率低,但其在保留原文主要內(nèi)容的同時(shí),也會引入過多的冗余信息。

早在20世紀(jì)50年代,Luhn[3]就提出了基于統(tǒng)計(jì)規(guī)則的抽取式摘要方法,利用詞頻等統(tǒng)計(jì)信息給句子進(jìn)行排序,根據(jù)排序篩選出關(guān)鍵句組合成摘要,該方法為文本摘要技術(shù)的發(fā)展奠定了基礎(chǔ)。Lead3是一種基于經(jīng)驗(yàn)的抽取式摘要方法,該方法取文章的前三句內(nèi)容作為摘要,這種方法簡單直接,取得了一定的效果,由于沒有考慮整篇文章的信息,所以具有一定的局限性。Mihalcea 等人[4]提出了一種基于圖的排序方法TextRank,首先將文章分割成多個(gè)句子,每個(gè)句子作為圖中的一個(gè)頂點(diǎn),句子之間相互連接,構(gòu)建出一個(gè)連接圖,并利用算法獲取句子之間的相似度作為邊的權(quán)重,然后通過TextRank算法進(jìn)行迭代運(yùn)算,得到每個(gè)句子的分值,最后抽取得分較高的句子組合成文本摘要,TextRank 的出現(xiàn)使抽取式摘要方法進(jìn)一步發(fā)展,但是該方法在計(jì)算句子相似度時(shí),沒有考慮語義層面的信息,而且抽取得到的摘要冗余信息比較多。Sutskever 等人[5] 提出序列到序列(Sequence to Se?quence, Seq2Seq)框架,使生成式摘要變得可行,該框架是一種編碼器-解碼器結(jié)構(gòu)。目前,在生成式摘要方法中,編碼器一般都是基于BERT(Bidirectional En?coder Representation from Transformers)模型[6]構(gòu)建的,該模型擁有強(qiáng)大的文本特征提取能力,能夠挖掘到文本的語義信息,可以讓生成的摘要質(zhì)量進(jìn)一步提升,但是在進(jìn)行長文本摘要生成任務(wù)時(shí),生成式摘要方法仍然存在長距離依賴等問題。

針對以上抽取式摘要方法存在的語義信息缺失和抽取信息冗余問題,本文提出了一種面向長文本的抽取式摘要生成方法,使用WoBERT(Word-basedBERT)模型[7]獲取融入義原信息的文本特征,并通過MMR[8](Maximal Marginal Relevance)算法減少冗余信息,有效解決了語義信息缺失和信息冗余的問題,提升了抽取得到的摘要質(zhì)量。

1 模型構(gòu)建

本文提出的方法是由句子特征提取、句子打分、摘要抽取三部分組成。第一部分,使用SAT[9](Sememe At?tention over Target Model)模型引入義原得到能夠準(zhǔn)確表示語義信息的文本特征,然后將該特征作為嵌入層詞向量輸入WoBERT模型中獲取擁有語義信息的高表征的句子文本特征,第二部分首先是利用余弦相似度算法根據(jù)獲取的高表征文本特征計(jì)算句子間相似度,并將該相似度作為TextRank方法中邊的權(quán)重進(jìn)行迭代運(yùn)算,得到每個(gè)句子的TextRank分?jǐn)?shù),然后利用LDA(Latent Dirichlet Allocation)主題模型得到文章的主題關(guān)鍵詞,并根據(jù)主題關(guān)鍵詞在每個(gè)句子出現(xiàn)的頻次得到句子的主題關(guān)鍵詞得分,最后將這兩種分值進(jìn)行加權(quán)求和給句子打分。由于TextRank算法依賴句子間的相似度,這就意味著TextRank分值高的句子可能也非常相似,導(dǎo)致抽取出的摘要存在重復(fù)的冗余信息,所以在第三部分中引入MMR算法來減少冗余信息,使最終抽取的摘要內(nèi)容豐富且更符合文章主題。

1.1 句子特征提取

1.1.1 文本預(yù)處理

使用分詞工具根據(jù)WoBERT模型的詞表對輸入的長文本進(jìn)行分詞,然后再對其去除特殊字符和無意義詞,示例如表1所示。

1.1.2 融合義原信息的文本特征表示

本文使用SAT模型來獲取融合義原信息的文本特征表示,以增加文本特征中所包含的語義信息。SAT模型是在Skip-Gram[10]模型上改進(jìn)所得,融入了HowNet[11]義原信息,相比Skip-Gram模型,SAT模型既考慮了詞語的上下文信息又考慮了詞語的義原信息,有效提升了文本特征的語義信息,模型如圖1所示。

1.1.3 文本高表征特征提取

在獲取文本的高表征特征時(shí),本文采用了WoB?ERT模型,該模型是基于BERT模型改進(jìn)所得,BERT 是谷歌團(tuán)隊(duì)基于Transformer[12]的編碼器堆疊且以無監(jiān)督方式在海量標(biāo)記文本語料上訓(xùn)練得到的語言模型,相比于傳統(tǒng)語言模型,它可以同時(shí)利用文本序列的正反兩個(gè)方向的信息,使得到的文本特征能夠更加準(zhǔn)確地對文本進(jìn)行表示。WoBERT利用了BERT的這一特點(diǎn)及其訓(xùn)練機(jī)制,以詞為單位進(jìn)行訓(xùn)練來獲取文本特征,相比于BERT在訓(xùn)練中文文本特征時(shí)以字為單位,WoBERT以詞為單位可以讓輸入序列變短,加快訓(xùn)練速度,并且在中文文本中詞比字的語義信息更精準(zhǔn)。

本文使用融合義原信息的文本特征作為WoBERT 模型嵌入層的單詞嵌入向量進(jìn)一步抽取文本的高表征特征,使獲取的文本特征包含了豐富的語義信息。使用WoBERT獲取高表征的文本特征框架如圖2所示。

2 實(shí)驗(yàn)及結(jié)果分析

2.1 數(shù)據(jù)集

目前,針對中文長文本進(jìn)行自動文本摘要任務(wù)的數(shù)據(jù)集較少,本文使用的是2017年CCF國際自然語言處理與中文計(jì)算會議(NLPCC2017) 提供的數(shù)據(jù)集,該數(shù)據(jù)集是一個(gè)中文的中長文本新聞?wù)獢?shù)據(jù)集,共包含50 000 條數(shù)據(jù),每條數(shù)據(jù)由一篇平均長度約1000字的新聞文本與其對應(yīng)的平均長度約44字的摘要組成。本文按照8:1:1的比例對數(shù)據(jù)集進(jìn)行了劃分,選取前40 000條數(shù)據(jù)作為訓(xùn)練集,驗(yàn)證集和測試集各5 000條數(shù)據(jù)。

2.2 評估指標(biāo)

ROUGE[14] (Recall-Oriented Understudy for GistingEvaluation)作為評估文本摘要的指標(biāo)之一,該指標(biāo)通過將網(wǎng)絡(luò)模型生成的摘要與參考摘要進(jìn)行比較計(jì)算,得到相匹配的基本單元數(shù)目,從而對生成的摘要進(jìn)行質(zhì)量評價(jià)。ROUGE指標(biāo)又包含了多個(gè)評價(jià)指標(biāo),本文采用標(biāo)準(zhǔn)的ROUGE-1、ROUGE-2和ROUGE-L 對生成的摘要進(jìn)行質(zhì)量評價(jià)。具體的計(jì)算方法如公式(14) 所示。

2.3 參數(shù)設(shè)置

實(shí)驗(yàn)是在Ubuntu16.04、Tesla V100 的環(huán)境下進(jìn)行,使用的PyTorch版本為1.6.0,Python版本為3.7.4。實(shí)驗(yàn)中,在給句子打分時(shí),TextRank分值權(quán)重系數(shù)α取值為0.8,關(guān)鍵詞分值權(quán)重系數(shù)β 取值為0.2,利用MMR算法控制冗余信息時(shí),調(diào)節(jié)參數(shù)λ 設(shè)置為0.7,在使用WoBERT模型獲取高表征文本特征時(shí),最大輸入詞數(shù)限制為512,對超過該長度的文本序列進(jìn)行截取,不足的使用特殊符號進(jìn)行補(bǔ)齊,批處理大小取值為16,學(xué)習(xí)率取值為1e-3,嵌入層詞向量與隱藏層的維度設(shè)置為768。

2.4 實(shí)驗(yàn)結(jié)果分析

為了驗(yàn)證本文提出方法的有效性,在NLPCC2017 數(shù)據(jù)集上將該方法與以下三種方法進(jìn)行了實(shí)驗(yàn)對比。

Lead3:該算法認(rèn)為文章的前三句內(nèi)容可以代表整篇文章的主題思想,所以抽取前三句文本組合為原文摘要。

TextRank:該算法將文章中的句子作為頂點(diǎn),句子間相似度作為邊的權(quán)重來構(gòu)建圖模型,然后進(jìn)行迭代運(yùn)算得到每個(gè)句子的TextRank值,最終選取值最高的一句或者幾句組合為原文摘要。

PGN:指針生成網(wǎng)絡(luò),是一種生成式摘要方法,該模型采用一個(gè)雙向的LSTM作為編碼器對輸入文本進(jìn)行編碼,并采用一個(gè)單向的LSTM作為解碼器。利用指針機(jī)制避免生成重復(fù)。

以上方法的實(shí)驗(yàn)對比結(jié)果如表2所示。

從表2可以看出,本文提出的方法在NLPCC2017 數(shù)據(jù)集上的結(jié)果,相比于其他摘要生成方法在ROUGE指標(biāo)上有所提升。Lead3方法抽取文章的前三句作為摘要,沒有考慮文章的全局信息,導(dǎo)致部分重要信息丟失,所以效果不是特別好。TextRank算法在進(jìn)行抽取式摘要任務(wù)時(shí)依賴于句子之間的相似度,但是該算法在相似度計(jì)算時(shí)只考慮了句子間共現(xiàn)詞的出現(xiàn)次數(shù),并未考慮句子語義、句子位置和關(guān)鍵詞特征等信息,且利用該算法抽取的摘要句包含了一定的冗余信息,因此使用該方法獲取的摘要質(zhì)量相比于Lead3方法沒有太大的提升。指針生成網(wǎng)絡(luò)是一種生成式摘要方法,該方法中的編碼器和解碼器都使用了LSTM,在一定程度緩解了長距離依賴問題,且該方法引入了覆蓋機(jī)制,避免了生成摘要中存在大量的重復(fù),因此,該方法的ROUGE分?jǐn)?shù)提升較大。本文提出的方法相比于指針生成網(wǎng)絡(luò),在ROUGE-1、ROUGE-2和ROUGE-L上分別提升了1.86%、4.35%和2.78%,由于本文利用WoBERT模型提取了融入義原信息的高表征文本特征,且利用余弦相似度算法代替了Tex?tRank算法中原有的相似度計(jì)算方法,還考慮了文章的關(guān)鍵詞特征,最后使用了MMR算法進(jìn)行冗余信息處理,使抽取到的摘要更符合文章主題。實(shí)驗(yàn)選取了測試集中的樣本數(shù)據(jù),使用上述四種方法分別得到的摘要實(shí)例如表3所示。

為了研究本文方法抽取出的句子數(shù)量對摘要質(zhì)量的影響,選取句子數(shù)量為2、3、4,在NLPCC2017數(shù)據(jù)集上開展了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4所示。

從表4中可以看出,當(dāng)抽取4個(gè)句子作為摘要時(shí),摘要質(zhì)量降低了,說明過多的文本引入了冗余信息,因此本文最終選擇抽取三個(gè)重要句子組合成文章摘要。

2.5 消融實(shí)驗(yàn)

為了驗(yàn)證本文方法的有效性,進(jìn)行了如下的消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表5所示。

實(shí)驗(yàn)1:將本文方法中WoBERT模型的嵌入層隨機(jī)初始化,不使用融入義原信息的詞向量。

實(shí)驗(yàn)2:在對句子進(jìn)行TextRank分?jǐn)?shù)計(jì)算時(shí),句子的相似度計(jì)算方法使用TextRank中原有算法。

實(shí)驗(yàn)3:不考慮主題關(guān)鍵詞特征對摘要質(zhì)量的影響,其他結(jié)構(gòu)與本文方法相同。

實(shí)驗(yàn)4:不使用MMR算法進(jìn)行冗余信息處理,直接根據(jù)句子打分結(jié)果抽取重要句作為摘要。

從表5可以看出,相比實(shí)驗(yàn)1,本文融入了義原信息提取高表征文本特征,使得到的特征向量能夠更準(zhǔn)確地表示對應(yīng)文本。相比實(shí)驗(yàn)2,本文在計(jì)算句子的TextRank分值時(shí),利用余弦相似度進(jìn)行句子相似度計(jì)算,避免了原有算法只考慮句子間共現(xiàn)詞的影響。相比實(shí)驗(yàn)3,本文考慮了文章的主題關(guān)鍵詞特征,由于關(guān)鍵詞能夠反映一篇文章的主題,所以使用關(guān)鍵詞特征可以提升摘要質(zhì)量。相比實(shí)驗(yàn)4,本文使用MMR算法進(jìn)行冗余度控制,避免摘要中包含大量冗余信息,有助于摘要質(zhì)量的提升。

3 結(jié)束語

本文提出了一種面向長文本的抽取式文摘要生成方法,該方法使用WoBERT模型獲取融入義原信息的文本特征,同時(shí)使用TextRank算法與關(guān)鍵詞特征對句子進(jìn)行打分,并利用MMR算法進(jìn)行冗余信息處理,使得到的摘要質(zhì)量有所提升。由于本文使用的數(shù)據(jù)集來源于新聞?lì)I(lǐng)域,所以本文方法的泛化性有待驗(yàn)證,未來將考慮在其他領(lǐng)域數(shù)據(jù)集上驗(yàn)證方法的有效性。

猜你喜歡
語義特征文本
語言與語義
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
認(rèn)知范疇模糊與語義模糊
如何快速走進(jìn)文本
語文知識(2014年1期)2014-02-28 21:59:13
新乐市| 平果县| 容城县| 德化县| 遂川县| 齐齐哈尔市| 香格里拉县| 微山县| 双鸭山市| 阿勒泰市| 崇阳县| 福海县| 金阳县| 扎兰屯市| 松滋市| 思茅市| 桓仁| 澜沧| 福州市| 云南省| 南投市| 巨鹿县| 陈巴尔虎旗| 沛县| 斗六市| 彝良县| 武宣县| 方城县| 阜南县| 正蓝旗| 三河市| 延川县| 城固县| 安吉县| 阿合奇县| 五华县| 虹口区| 禄劝| 抚松县| 威海市| 宜良县|