基于改進(jìn)Seq2Seq-Attention 模型的文本摘要生成方法

2022-12-01 06:00門鼎陳亮

電子設(shè)計(jì)工程 2022年23期

門鼎，陳亮

（西安工程大學(xué)計(jì)算機(jī)科學(xué)學(xué)院，陜西西安 710048）

隨著社會進(jìn)入信息時(shí)代，人們可以通過多種渠道從互聯(lián)網(wǎng)平臺獲取重要信息，信息社會中人們把時(shí)間和精力花在閱讀大量信息上?；ヂ?lián)網(wǎng)上的信息盈余，將引導(dǎo)人們有效地解決信息過載的問題，而從海量的有效數(shù)據(jù)來看信息化的工作量不僅是巨大的，而且是迫切需要解決的問題。網(wǎng)絡(luò)數(shù)據(jù)需要從大量文本信息中快速挖掘語義數(shù)據(jù)。因此，通過文本摘要生成技術(shù)可以快速獲得文本主要信息。

自動摘要生成技術(shù)不僅過程完全自動化，而且生成的摘要概括能力強(qiáng)?；ヂ?lián)網(wǎng)上的文本信息數(shù)量龐大，自動摘要生成技術(shù)可以幫助用戶自動歸納文本信息的主要內(nèi)容，節(jié)省了用戶的閱讀時(shí)間。當(dāng)人工閱讀文本信息總結(jié)文本主旨時(shí)，摘要質(zhì)量的高低依賴于讀者自身的語言概括能力和信息提取能力，容易導(dǎo)致捕獲的語義與文本核心主旨形成較大偏差。在面對復(fù)雜且篇幅過長的文本時(shí)，人們的閱讀理解能力有限，不能快速準(zhǔn)確地獲取文本主旨。自動摘要生成技術(shù)模仿人工摘要過程，學(xué)習(xí)文本的深層語義，具有高水準(zhǔn)的概括能力。

該文利用抽取式與生成式摘要抽取模型相結(jié)合的方法應(yīng)用在工業(yè)領(lǐng)域中，對于文本提取摘要的技術(shù)做出創(chuàng)新，在摘要提取的準(zhǔn)確度、核心詞以及詞匯重復(fù)等方面做出一些突破，結(jié)合BERT 摘要模型進(jìn)行摘要句抽取[1]，分析Seq2Seq-Attention 模型，并通過Seq2Seq-Attention 模型進(jìn)行文本摘要生成，在注意力機(jī)制中加入核心詞，然后結(jié)合指針網(wǎng)絡(luò)生成模型[2]，該模型可以通過核心詞中的重要信息，構(gòu)建出摘要框架，生成信息全面精煉的文章摘要。

1 相關(guān)工作

1.1 問題描述

文本摘要問題一直是學(xué)者們研究的焦點(diǎn)，該文采用文本自動摘要技術(shù)，將其凝練復(fù)制成一段簡單有效的段落，對于機(jī)器翻譯過程中會存在關(guān)鍵詞丟失、詞匯重復(fù)以及語句不通順等問題。調(diào)研了關(guān)于西安高壓開關(guān)操動有限公司項(xiàng)目的質(zhì)量數(shù)據(jù)管理問題，其中，質(zhì)量問題主要包括質(zhì)量問題的描述、質(zhì)量問題的分類以及原因等。通過調(diào)研公司目前客戶經(jīng)常出現(xiàn)的質(zhì)量問題，方便進(jìn)行統(tǒng)計(jì)分析。調(diào)研質(zhì)量問題，產(chǎn)生大量文本數(shù)據(jù)，不利于后期管理和查詢統(tǒng)計(jì)，為了使工業(yè)生產(chǎn)更加信息化，通過收集工業(yè)數(shù)據(jù)集，進(jìn)行廣泛的實(shí)驗(yàn)，構(gòu)建一種新的混合模型應(yīng)用于工業(yè)領(lǐng)域，進(jìn)行技術(shù)創(chuàng)新并解決以上問題。

1.2 系統(tǒng)框架

BERT 模型中集成文章的主題信息，在長語句處理時(shí)會出現(xiàn)問題。因?yàn)镾eq2Seq 模型將產(chǎn)生數(shù)據(jù)截?cái)?，?dǎo)致丟失信息。于是提出融合核心詞注意機(jī)制，把全文本作為摘要輸出。

結(jié)合現(xiàn)有的文本摘要模型技術(shù)，構(gòu)建出一個(gè)新的混合模型，處理流程如圖1 所示。

圖1 文本摘要混合模型處理流程

2 文本摘要自動生成的方法

2.1 基于BERT模型的摘要句抽取

BERT 模型采用Transformer 網(wǎng)絡(luò)結(jié)構(gòu)[2]，對語言模型進(jìn)行預(yù)訓(xùn)練，通過多次語言訓(xùn)練得到一種通用的語言理解模型。BERT 語言模型的結(jié)構(gòu)如圖2所示。

圖2 BERT語言模型結(jié)構(gòu)

雙向預(yù)訓(xùn)練與單項(xiàng)預(yù)訓(xùn)練有所不同，BERT 在文本摘要抽取過程中，利用了遮蔽語言機(jī)制來表示深度雙向訓(xùn)練。在許多訓(xùn)練模式中，BERT 可以根據(jù)特定的任務(wù)需求改變體系結(jié)構(gòu)的需求。同時(shí)，它在訓(xùn)練過程中顯示了自己先進(jìn)的性能。BERT 擁有兩個(gè)變體，一個(gè)是BERTBASE，該變體擁有12 層Transformer 模塊，另一個(gè)變體是BERTLarge:，該變體擁有24 層Transformer 模塊。

2.2 Seq2Seq模型

2014 年，Seq2Seq 模型[3]進(jìn)入文本摘要的研究領(lǐng)域，學(xué)者們試圖將其應(yīng)用到機(jī)器學(xué)習(xí)等各個(gè)領(lǐng)域中，該模型的本質(zhì)就是Encoder-Decoder 框架，在生成摘要的過程中，輸入一段長文本，使用編碼器進(jìn)行編碼，得到原文的向量化表示，然后用解碼器進(jìn)行解碼得到文本摘要，輸出的句子是短文本。Seq2Seq 模型結(jié)構(gòu)如圖3 所示。

圖3 Seq2Seq模型結(jié)構(gòu)

2.3 Seq2Seq-Attention模型

Encoder-Decoder 框架在需要語句向量中存在較大的局限性。該模型在解碼過程中需要壓縮整個(gè)語句向量，這就使得壓縮后的語句與原來的文本主旨存在差異，原文本中的重要信息隨著壓縮逐漸變少，重要信息存在遺漏，在解碼階段就不會產(chǎn)生重要信息，導(dǎo)致解碼關(guān)鍵信息丟失。

該文提出的Attention 模型[4-6]，在文本輸出時(shí)，會有一個(gè)特定的范圍把需要關(guān)注的重要信息標(biāo)記出來，然后根據(jù)這些標(biāo)記的主要信息生成輸出。Seq2Seq模型中，因?yàn)橄蛄孔陨黹L度限制，輸出過長的文本導(dǎo)致信息丟失，在Attention 模型中，可以分為多個(gè)向量來儲存信息，在編碼階段，把重要信息標(biāo)注出來，在向量輸出后進(jìn)行調(diào)整，該模型在編碼端使用雙向LSTM，在解碼端使用單項(xiàng)LSTM。模型圖如圖4所示。

圖4 Seq2Seq-Attention模型

2.4 改進(jìn)模型

在Seq2Seq-Attention 模型[7-8]中，對于長文本多次出現(xiàn)未登錄詞以及生成詞匯重復(fù)率極高的情況，使得原文本中重要信息在解碼階段，由于向量長度的自身限制沒有解碼出來，導(dǎo)致得到的摘要讀起來不通順，原文主要意思無法表達(dá)出來。于是加入指針網(wǎng)絡(luò)來解決這一問題。

2.4.1 指針網(wǎng)絡(luò)

模型中添加指針網(wǎng)絡(luò)[9-10]，為了能夠在模型抽取原文主要信息后，可以自動生成標(biāo)題，而且可以根據(jù)生成詞匯擴(kuò)充新詞匯來豐富生成的摘要信息，有效提高了原文信息的利用率，使得生成的摘要內(nèi)容信息更加飽滿，讀者閱讀也會更加通順。相關(guān)公式如下：

式中，Pgen作為開關(guān)，可控制新詞生成。

2.4.2 覆蓋機(jī)制

在Seq2Seq-Attention 模型中，重復(fù)問題比較嚴(yán)重，由于在機(jī)制計(jì)算時(shí)，機(jī)制計(jì)算在不同時(shí)間段內(nèi)相對獨(dú)立，模型在采集信息位置上會出現(xiàn)重復(fù)現(xiàn)象，這就導(dǎo)致生成文本摘要會出現(xiàn)重復(fù)詞匯或者會漏掉相應(yīng)的重要信息。在絕大多數(shù)長文本中會重復(fù)出現(xiàn)一些詞匯，這也說明這些詞匯十分重要，針對該詞匯模型注意力會更加集中，因此，模型需要對已經(jīng)注意過的位置進(jìn)行標(biāo)記，防止下次再集中到某一位置，而導(dǎo)致某一詞匯多次出現(xiàn)。因此，該文在原有模型中加入覆蓋機(jī)制。相關(guān)公式如下：

2.4.3 核心詞注意力機(jī)制

神經(jīng)網(wǎng)絡(luò)進(jìn)行摘要生成的過程中，原文中許多詞匯沒有編譯出來，文章主旨表述不完整。于是在注意力機(jī)制中融入指導(dǎo)核心詞，核心詞包括原文中的主要句子和短語，核心詞匯在解碼時(shí)會被重要關(guān)注，生成的摘要也會概括出原文主要信息[11]。

TF-IDF 算法[12]可以提取文檔中的重要詞匯，然后測評出一段文本對于原文檔的重要程度。TF-IDF表示某關(guān)鍵詞在文檔中出現(xiàn)的頻率，由兩部分組成：

TF 為詞頻，表示某詞匯或短語在該文檔中出現(xiàn)的頻率，頻率的高低可以反映其對于文檔的重要程度。

IDF 為逆文檔頻率，表示對于某一詞語權(quán)重的衡量，若詞匯在其他文檔中出現(xiàn)頻率較低，則認(rèn)為該詞語為少見詞，若該詞匯在文檔中重復(fù)出現(xiàn)，該詞匯IDF 值越大，它的權(quán)重越大，反之越低。

2.5 基于混合模型的摘要生成

基于以上模型對于文本摘要生成過程中起到了十分重要的作用，單個(gè)模型在編碼以及解碼中存在一些問題，該文提出混合模型的方法，然后加入注意力機(jī)制以及指針網(wǎng)絡(luò)[13]，解決了重復(fù)問題以及核心詞的提取，讓文本摘要語義表達(dá)更加準(zhǔn)確，語句更加通順。在Seq2Seq-Attention 模型中，針對無法生成OOV 詞匯，并且會產(chǎn)生其他信息，加入了覆蓋機(jī)制與指針網(wǎng)絡(luò)，解決了詞匯重復(fù)的問題。在注意力機(jī)制中，過多的關(guān)注摘要與原文的信息對比，忽略一些核心詞對原文的信息表達(dá)的影響，該文將核心詞提取到注意力機(jī)制中，然后通過核心詞引導(dǎo)出較為準(zhǔn)確的文本摘要。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)設(shè)置

1）實(shí)驗(yàn)選取西安高壓開關(guān)操動有限公司的項(xiàng)目進(jìn)行駐場調(diào)研，對設(shè)備進(jìn)行入庫、檢定、維修、封存，啟封、報(bào)廢狀態(tài)變更等過程信息的記錄、查詢和統(tǒng)計(jì)分析。收集統(tǒng)計(jì)文本記錄，對于選取的數(shù)據(jù)集進(jìn)行預(yù)處理，數(shù)據(jù)集包含訓(xùn)練集、驗(yàn)證集以及測試集，統(tǒng)計(jì)結(jié)果如表1 所示。

表1 數(shù)據(jù)統(tǒng)計(jì)結(jié)果

2）采集樣本如圖5 所示。

圖5 采集樣本

3）文本自動分詞，通過分詞工具，把文本內(nèi)容分為兩字詞語，對于低頻詞語用符號來代替，數(shù)據(jù)集分詞結(jié)果如圖6 所示。

圖6 數(shù)據(jù)集分詞結(jié)果

4）選取抽取式摘要模型：①TextRank;②TFIDF;③BERTSUM

5）選取生成式摘要模型：①Seq2Seq;②Seq2Seq-Attention;③Pionter+Generator 4.core words

6）進(jìn)行ROUGE 打分，并進(jìn)行結(jié)果分析。

3.2 結(jié)果及分析

實(shí)驗(yàn)結(jié)果如表2 所示。實(shí)驗(yàn)對比模型如下：

表2 生成式摘要與基于混合模型的摘要生成結(jié)果對比

1）基本Seq2Seq:屬于一種encoder-decoder 結(jié)構(gòu)，應(yīng)用在機(jī)器翻譯等領(lǐng)域[14]。

2）Seq2Seq-Attention:將序列到序列的模型。

3）Pointer-Generator:使用pointer 機(jī)制從原文中復(fù)制未登錄詞匯，保證信息的正確率[15]。

通過觀察表1、表2，繪制柱狀圖，如圖7 所示，可以得出:

1）Attention 機(jī)制的模型ROUGE 平均值較高，基礎(chǔ)Seq2Seq 模型的ROUGE 平均值較低，Attention 機(jī)制更加適用于混合模型。

2）BERTSUM+Seq2Seq-Attention 模型[16]相比于BERTSUM+Seq2Seq 模型ROUGE 平均值提高了1.8%，混合模型相比BERTSUM+Pointer-Generator提高了2.57%?？梢缘贸?，混合模型的表現(xiàn)更好。

3）從圖7 可以看出，混合模型比生成模型具有更好的結(jié)果，生成模型會存在信息不完整等問題。與直接輸入原文相比，BERTSUM 生成的摘要更加符合原文的主旨大意，則認(rèn)為它生成的摘要更為全面。

圖7 柱狀圖

4 結(jié)論

實(shí)驗(yàn)證明，在工業(yè)領(lǐng)域中，文本摘要技術(shù)也可以得到很好的應(yīng)用，讓制造生產(chǎn)更加信息化和智能化，該文采用混合模型進(jìn)行了實(shí)驗(yàn)。在摘要生成過程中使用了指針網(wǎng)絡(luò)以及融合了核心詞注意力機(jī)制，得到了比較精確的文本摘要，但是在文本提取過程中仍然存在很多的問題。在BERT 模型的摘要提取過程中，輸出端處理工作欠缺，使得輸出原文信息覆蓋不全面，并且存在信息重復(fù)。在注意機(jī)制中，可以使用多種的模型方法，并且更加有效快捷地提取文章主要包含的信息，最終成為簡明扼要的文本。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡