門鼎,陳亮
(西安工程大學(xué)計(jì)算機(jī)科學(xué)學(xué)院,陜西 西安 710048)
隨著社會進(jìn)入信息時(shí)代,人們可以通過多種渠道從互聯(lián)網(wǎng)平臺獲取重要信息,信息社會中人們把時(shí)間和精力花在閱讀大量信息上?;ヂ?lián)網(wǎng)上的信息盈余,將引導(dǎo)人們有效地解決信息過載的問題,而從海量的有效數(shù)據(jù)來看信息化的工作量不僅是巨大的,而且是迫切需要解決的問題。網(wǎng)絡(luò)數(shù)據(jù)需要從大量文本信息中快速挖掘語義數(shù)據(jù)。因此,通過文本摘要生成技術(shù)可以快速獲得文本主要信息。
自動摘要生成技術(shù)不僅過程完全自動化,而且生成的摘要概括能力強(qiáng)?;ヂ?lián)網(wǎng)上的文本信息數(shù)量龐大,自動摘要生成技術(shù)可以幫助用戶自動歸納文本信息的主要內(nèi)容,節(jié)省了用戶的閱讀時(shí)間。當(dāng)人工閱讀文本信息總結(jié)文本主旨時(shí),摘要質(zhì)量的高低依賴于讀者自身的語言概括能力和信息提取能力,容易導(dǎo)致捕獲的語義與文本核心主旨形成較大偏差。在面對復(fù)雜且篇幅過長的文本時(shí),人們的閱讀理解能力有限,不能快速準(zhǔn)確地獲取文本主旨。自動摘要生成技術(shù)模仿人工摘要過程,學(xué)習(xí)文本的深層語義,具有高水準(zhǔn)的概括能力。
該文利用抽取式與生成式摘要抽取模型相結(jié)合的方法應(yīng)用在工業(yè)領(lǐng)域中,對于文本提取摘要的技術(shù)做出創(chuàng)新,在摘要提取的準(zhǔn)確度、核心詞以及詞匯重復(fù)等方面做出一些突破,結(jié)合BERT 摘要模型進(jìn)行摘要句抽取[1],分析Seq2Seq-Attention 模型,并通過Seq2Seq-Attention 模型進(jìn)行文本摘要生成,在注意力機(jī)制中加入核心詞,然后結(jié)合指針網(wǎng)絡(luò)生成模型[2],該模型可以通過核心詞中的重要信息,構(gòu)建出摘要框架,生成信息全面精煉的文章摘要。
文本摘要問題一直是學(xué)者們研究的焦點(diǎn),該文采用文本自動摘要技術(shù),將其凝練復(fù)制成一段簡單有效的段落,對于機(jī)器翻譯過程中會存在關(guān)鍵詞丟失、詞匯重復(fù)以及語句不通順等問題。調(diào)研了關(guān)于西安高壓開關(guān)操動有限公司項(xiàng)目的質(zhì)量數(shù)據(jù)管理問題,其中,質(zhì)量問題主要包括質(zhì)量問題的描述、質(zhì)量問題的分類以及原因等。通過調(diào)研公司目前客戶經(jīng)常出現(xiàn)的質(zhì)量問題,方便進(jìn)行統(tǒng)計(jì)分析。調(diào)研質(zhì)量問題,產(chǎn)生大量文本數(shù)據(jù),不利于后期管理和查詢統(tǒng)計(jì),為了使工業(yè)生產(chǎn)更加信息化,通過收集工業(yè)數(shù)據(jù)集,進(jìn)行廣泛的實(shí)驗(yàn),構(gòu)建一種新的混合模型應(yīng)用于工業(yè)領(lǐng)域,進(jìn)行技術(shù)創(chuàng)新并解決以上問題。
BERT 模型中集成文章的主題信息,在長語句處理時(shí)會出現(xiàn)問題。因?yàn)镾eq2Seq 模型將產(chǎn)生數(shù)據(jù)截?cái)?,?dǎo)致丟失信息。于是提出融合核心詞注意機(jī)制,把全文本作為摘要輸出。
結(jié)合現(xiàn)有的文本摘要模型技術(shù),構(gòu)建出一個(gè)新的混合模型,處理流程如圖1 所示。
圖1 文本摘要混合模型處理流程
BERT 模型采用Transformer 網(wǎng)絡(luò)結(jié)構(gòu)[2],對語言模型進(jìn)行預(yù)訓(xùn)練,通過多次語言訓(xùn)練得到一種通用的語言理解模型。BERT 語言模型的結(jié)構(gòu)如圖2所示。
圖2 BERT語言模型結(jié)構(gòu)
雙向預(yù)訓(xùn)練與單項(xiàng)預(yù)訓(xùn)練有所不同,BERT 在文本摘要抽取過程中,利用了遮蔽語言機(jī)制來表示深度雙向訓(xùn)練。在許多訓(xùn)練模式中,BERT 可以根據(jù)特定的任務(wù)需求改變體系結(jié)構(gòu)的需求。同時(shí),它在訓(xùn)練過程中顯示了自己先進(jìn)的性能。BERT 擁有兩個(gè)變體,一個(gè)是BERTBASE,該變體擁有12 層Transformer 模塊,另一個(gè)變體是BERTLarge:,該變體擁 有24 層Transformer 模塊。
2014 年,Seq2Seq 模型[3]進(jìn)入文本摘要的研究領(lǐng)域,學(xué)者們試圖將其應(yīng)用到機(jī)器學(xué)習(xí)等各個(gè)領(lǐng)域中,該模型的本質(zhì)就是Encoder-Decoder 框架,在生成摘要的過程中,輸入一段長文本,使用編碼器進(jìn)行編碼,得到原文的向量化表示,然后用解碼器進(jìn)行解碼得到文本摘要,輸出的句子是短文本。Seq2Seq 模型結(jié)構(gòu)如圖3 所示。
圖3 Seq2Seq模型結(jié)構(gòu)
Encoder-Decoder 框架在需要語句向量中存在較大的局限性。該模型在解碼過程中需要壓縮整個(gè)語句向量,這就使得壓縮后的語句與原來的文本主旨存在差異,原文本中的重要信息隨著壓縮逐漸變少,重要信息存在遺漏,在解碼階段就不會產(chǎn)生重要信息,導(dǎo)致解碼關(guān)鍵信息丟失。
該文提出的Attention 模型[4-6],在文本輸出時(shí),會有一個(gè)特定的范圍把需要關(guān)注的重要信息標(biāo)記出來,然后根據(jù)這些標(biāo)記的主要信息生成輸出。Seq2Seq模型中,因?yàn)橄蛄孔陨黹L度限制,輸出過長的文本導(dǎo)致信息丟失,在Attention 模型中,可以分為多個(gè)向量來儲存信息,在編碼階段,把重要信息標(biāo)注出來,在向量輸出后進(jìn)行調(diào)整,該模型在編碼端使用雙向LSTM,在解碼端使用單項(xiàng)LSTM。模型圖如圖4所示。
圖4 Seq2Seq-Attention模型
在Seq2Seq-Attention 模型[7-8]中,對于長文本多次出現(xiàn)未登錄詞以及生成詞匯重復(fù)率極高的情況,使得原文本中重要信息在解碼階段,由于向量長度的自身限制沒有解碼出來,導(dǎo)致得到的摘要讀起來不通順,原文主要意思無法表達(dá)出來。于是加入指針網(wǎng)絡(luò)來解決這一問題。
2.4.1 指針網(wǎng)絡(luò)
模型中添加指針網(wǎng)絡(luò)[9-10],為了能夠在模型抽取原文主要信息后,可以自動生成標(biāo)題,而且可以根據(jù)生成詞匯擴(kuò)充新詞匯來豐富生成的摘要信息,有效提高了原文信息的利用率,使得生成的摘要內(nèi)容信息更加飽滿,讀者閱讀也會更加通順。相關(guān)公式如下:
式中,Pgen作為開關(guān),可控制新詞生成。
2.4.2 覆蓋機(jī)制
在Seq2Seq-Attention 模型中,重復(fù)問題比較嚴(yán)重,由于在機(jī)制計(jì)算時(shí),機(jī)制計(jì)算在不同時(shí)間段內(nèi)相對獨(dú)立,模型在采集信息位置上會出現(xiàn)重復(fù)現(xiàn)象,這就導(dǎo)致生成文本摘要會出現(xiàn)重復(fù)詞匯或者會漏掉相應(yīng)的重要信息。在絕大多數(shù)長文本中會重復(fù)出現(xiàn)一些詞匯,這也說明這些詞匯十分重要,針對該詞匯模型注意力會更加集中,因此,模型需要對已經(jīng)注意過的位置進(jìn)行標(biāo)記,防止下次再集中到某一位置,而導(dǎo)致某一詞匯多次出現(xiàn)。因此,該文在原有模型中加入覆蓋機(jī)制。相關(guān)公式如下:
2.4.3 核心詞注意力機(jī)制
神經(jīng)網(wǎng)絡(luò)進(jìn)行摘要生成的過程中,原文中許多詞匯沒有編譯出來,文章主旨表述不完整。于是在注意力機(jī)制中融入指導(dǎo)核心詞,核心詞包括原文中的主要句子和短語,核心詞匯在解碼時(shí)會被重要關(guān)注,生成的摘要也會概括出原文主要信息[11]。
TF-IDF 算法[12]可以提取文檔中的重要詞匯,然后測評出一段文本對于原文檔的重要程度。TF-IDF表示某關(guān)鍵詞在文檔中出現(xiàn)的頻率,由兩部分組成:
TF 為詞頻,表示某詞匯或短語在該文檔中出現(xiàn)的頻率,頻率的高低可以反映其對于文檔的重要程度。
IDF 為逆文檔頻率,表示對于某一詞語權(quán)重的衡量,若詞匯在其他文檔中出現(xiàn)頻率較低,則認(rèn)為該詞語為少見詞,若該詞匯在文檔中重復(fù)出現(xiàn),該詞匯IDF 值越大,它的權(quán)重越大,反之越低。
基于以上模型對于文本摘要生成過程中起到了十分重要的作用,單個(gè)模型在編碼以及解碼中存在一些問題,該文提出混合模型的方法,然后加入注意力機(jī)制以及指針網(wǎng)絡(luò)[13],解決了重復(fù)問題以及核心詞的提取,讓文本摘要語義表達(dá)更加準(zhǔn)確,語句更加通順。在Seq2Seq-Attention 模型中,針對無法生成OOV 詞匯,并且會產(chǎn)生其他信息,加入了覆蓋機(jī)制與指針網(wǎng)絡(luò),解決了詞匯重復(fù)的問題。在注意力機(jī)制中,過多的關(guān)注摘要與原文的信息對比,忽略一些核心詞對原文的信息表達(dá)的影響,該文將核心詞提取到注意力機(jī)制中,然后通過核心詞引導(dǎo)出較為準(zhǔn)確的文本摘要。
1)實(shí)驗(yàn)選取西安高壓開關(guān)操動有限公司的項(xiàng)目進(jìn)行駐場調(diào)研,對設(shè)備進(jìn)行入庫、檢定、維修、封存,啟封、報(bào)廢狀態(tài)變更等過程信息的記錄、查詢和統(tǒng)計(jì)分析。收集統(tǒng)計(jì)文本記錄,對于選取的數(shù)據(jù)集進(jìn)行預(yù)處理,數(shù)據(jù)集包含訓(xùn)練集、驗(yàn)證集以及測試集,統(tǒng)計(jì)結(jié)果如表1 所示。
表1 數(shù)據(jù)統(tǒng)計(jì)結(jié)果
2)采集樣本如圖5 所示。
圖5 采集樣本
3)文本自動分詞,通過分詞工具,把文本內(nèi)容分為兩字詞語,對于低頻詞語用符號來代替,數(shù)據(jù)集分詞結(jié)果如圖6 所示。
圖6 數(shù)據(jù)集分詞結(jié)果
4)選取抽取式摘要模型:①TextRank;②TFIDF;③BERTSUM
5)選取生成式摘要模型:①Seq2Seq;②Seq2Seq-Attention;③Pionter+Generator 4.core words
6)進(jìn)行ROUGE 打分,并進(jìn)行結(jié)果分析。
實(shí)驗(yàn)結(jié)果如表2 所示。實(shí)驗(yàn)對比模型如下:
表2 生成式摘要與基于混合模型的摘要生成結(jié)果對比
1)基本Seq2Seq:屬于一種encoder-decoder 結(jié)構(gòu),應(yīng)用在機(jī)器翻譯等領(lǐng)域[14]。
2)Seq2Seq-Attention:將序列到序列的模型。
3)Pointer-Generator:使用pointer 機(jī)制從原文中復(fù)制未登錄詞匯,保證信息的正確率[15]。
通過觀察表1、表2,繪制柱狀圖,如圖7 所示,可以得出:
1)Attention 機(jī)制的模型ROUGE 平均值較高,基礎(chǔ)Seq2Seq 模型的ROUGE 平均值較低,Attention 機(jī)制更加適用于混合模型。
2)BERTSUM+Seq2Seq-Attention 模型[16]相比于BERTSUM+Seq2Seq 模型ROUGE 平均值提高了1.8%,混合模型相比BERTSUM+Pointer-Generator提高了2.57%??梢缘贸?,混合模型的表現(xiàn)更好。
3)從圖7 可以看出,混合模型比生成模型具有更好的結(jié)果,生成模型會存在信息不完整等問題。與直接輸入原文相比,BERTSUM 生成的摘要更加符合原文的主旨大意,則認(rèn)為它生成的摘要更為全面。
圖7 柱狀圖
實(shí)驗(yàn)證明,在工業(yè)領(lǐng)域中,文本摘要技術(shù)也可以得到很好的應(yīng)用,讓制造生產(chǎn)更加信息化和智能化,該文采用混合模型進(jìn)行了實(shí)驗(yàn)。在摘要生成過程中使用了指針網(wǎng)絡(luò)以及融合了核心詞注意力機(jī)制,得到了比較精確的文本摘要,但是在文本提取過程中仍然存在很多的問題。在BERT 模型的摘要提取過程中,輸出端處理工作欠缺,使得輸出原文信息覆蓋不全面,并且存在信息重復(fù)。在注意機(jī)制中,可以使用多種的模型方法,并且更加有效快捷地提取文章主要包含的信息,最終成為簡明扼要的文本。