紀(jì) 科, 張 秀, 馬 坤, 孫潤元, 陳貞翔, 鄔 俊
(1.濟(jì)南大學(xué) 信息科學(xué)與工程學(xué)院,山東 濟(jì)南 250022;2.濟(jì)南大學(xué) 山東省網(wǎng)絡(luò)環(huán)境智能計(jì)算技術(shù)重點(diǎn)實(shí)驗(yàn)室,山東 濟(jì)南 250022;3.北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
隨著現(xiàn)代科技的迅速發(fā)展,人們習(xí)慣于從網(wǎng)絡(luò)獲取新聞資訊、搜索熱點(diǎn)新聞。然而,隨著使用網(wǎng)絡(luò)瀏覽新聞的頻率不斷上升,人們對于新聞資訊的要求也越來越高,希望瀏覽到相關(guān)且更加多元化的新聞。
現(xiàn)有的新聞檢索往往采用關(guān)鍵詞檢索算法或文本匹配算法[1]。基于關(guān)鍵詞的檢索[2]缺少新聞文本語義的概括,檢索出的新聞大多不相關(guān),存在檢索不準(zhǔn)確、相關(guān)性差等問題。在基于文本匹配的新聞檢索方面,傳統(tǒng)的方法[3]更多是在關(guān)注文本詞形和詞匯層面的相似性,但是詞匯往往存在一詞多義現(xiàn)象,并且用詞匯代替整句的語義不夠完整。深度學(xué)習(xí)文本匹配模型[4]側(cè)重于文本語義向量的構(gòu)建以及交互,但是過分關(guān)注文本語義的相似性,忽視新聞文本的話題概括,檢索出來的新聞過于相似,極易降低閱讀觀感,在實(shí)際應(yīng)用中無法滿足用戶需求。
針對上述問題,本文提出一種基于關(guān)鍵實(shí)體和文本摘要多特征融合的話題匹配算法。由于關(guān)鍵實(shí)體和摘要可以概括文本的話題,因此該方法基于關(guān)鍵實(shí)體提取和文本摘要技術(shù),將融合得到的關(guān)鍵實(shí)體特征和摘要特征作為概括文本話題的深層次語義特征,與通過交叉注意力機(jī)制(cross-attention)交互的文本語義特征一起,共同參與文本話題匹配的判斷。在搜狐公開數(shù)據(jù)集上進(jìn)行對比實(shí)驗(yàn),結(jié)果表明該算法性能優(yōu)于目前比較流行的深度學(xué)習(xí)文本匹配算法。
隨著自然語言處理(NLP)的發(fā)展,文本匹配技術(shù)有了很大的進(jìn)展。文本匹配通過文本中蘊(yùn)含的語義信息,判別文本之間的矛盾性和相似性,可以應(yīng)用于很多場景,比如信息檢索[5]、對話系統(tǒng)[6]等。
目前,基于深度學(xué)習(xí)的文本匹配技術(shù)可分為表示型文本匹配、交互型文本匹配和預(yù)訓(xùn)練語言模型的文本匹配3種。表示型文本匹配是先將待匹配的兩段文本進(jìn)行編碼得到向量表示,然后計(jì)算向量的相似度,更側(cè)重對語義向量的構(gòu)建,它的優(yōu)勢是結(jié)構(gòu)簡單、易于實(shí)現(xiàn),如SimLSTM[7]模型。交互型文本匹配則是在輸入層就進(jìn)行詞語間的匹配,不僅注重整個(gè)文本的語義表示,也關(guān)注局部文本的表示和交互,注重挖掘語義焦點(diǎn),ABCNN[8]模型是交互型文本匹配模型。預(yù)訓(xùn)練語言模型的匹配方法則是利用預(yù)訓(xùn)練加微調(diào)的方式完成文本匹配任務(wù),預(yù)訓(xùn)練語言模型利用海量的語料數(shù)據(jù)可以學(xué)習(xí)到通用的語義表示,進(jìn)而實(shí)現(xiàn)下游文本匹配任務(wù)。
近年來,隨著預(yù)訓(xùn)練語言模型BERT[9]的廣泛使用,出現(xiàn)了一系列基于BERT的預(yù)訓(xùn)練模型,例如RoBERTa[10]、NEZHA[11],還有將主題信息融入預(yù)訓(xùn)練語言模型BERT的tBERT[12]模型和將主題過濾加入文本匹配任務(wù)[13],以及將關(guān)鍵詞信息融入預(yù)訓(xùn)練語言模型BERT的KeywordBERT[14]、DC-Match[15],這些預(yù)訓(xùn)練模型為額外信息融入BERT提供了基礎(chǔ)。
命名實(shí)體識(shí)別(NER)旨在識(shí)別文本中具有特定含義的實(shí)體,比如人名、地名、組織名、機(jī)構(gòu)名等。近年來,基于深度學(xué)習(xí)的NER取得了優(yōu)異的表現(xiàn)。深度學(xué)習(xí)模型對輸入數(shù)據(jù)進(jìn)行特征提取,再使用非線性激活函數(shù)提高模型的表達(dá)能力,完成多層神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和預(yù)測任務(wù)。Huang等[16]使用雙向長短期記憶網(wǎng)絡(luò)(BiLSTM)和條件隨機(jī)場CRF的方式解決命名實(shí)體識(shí)別問題,至今仍在命名實(shí)體識(shí)別方面被廣泛應(yīng)用。Li等[17]提出了W2NER模型,通過構(gòu)建詞與詞的關(guān)系,統(tǒng)一了普通扁平NER、嵌套NER和不連續(xù)的NER等3種NER任務(wù)模型,在NER方面有了很大的進(jìn)展。
文本摘要旨在通過算法精練提取文本的主要內(nèi)容,將文本轉(zhuǎn)化為包含關(guān)鍵信息的簡潔摘要。隨著文本摘要技術(shù)的發(fā)展,產(chǎn)生了2條技術(shù)路線:抽取式文本摘要和生成式文本摘要。抽取式文本摘要通過算法從原文中抽取關(guān)鍵信息組成摘要。Liu[18]將抽取式摘要分解為序列標(biāo)注和句子排序任務(wù)進(jìn)行建模。生成式文本摘要是模型根據(jù)原文的內(nèi)容,自動(dòng)生成文本摘要,它允許摘要中出現(xiàn)新的詞語,具有較高的靈活性。Zhang等[19]提出了Pegasus模型,將輸入文本中的重要句子遮蔽,再利用文本其他句子生成被遮蔽的重要句子,加深了模型對文檔的理解,實(shí)現(xiàn)了生成式摘要任務(wù)。
假設(shè)用S表示源新聞集,T表示目標(biāo)新聞集,sx為S中的一個(gè)源新聞樣本,tx為T中的一個(gè)目標(biāo)新聞樣本。給定源新聞-目標(biāo)新聞對{sx,tx},為它設(shè)置一個(gè)狀態(tài)標(biāo)簽yx∈{0,1},其中1代表源新聞和目標(biāo)新聞話題匹配,0代表源新聞和目標(biāo)新聞話題不匹配,{sx,tx,yx}為一個(gè)訓(xùn)練樣本。根據(jù)上述定義,n個(gè)訓(xùn)練樣本組成了訓(xùn)練數(shù)據(jù)集,如式(1)所示:
Dtrain=((s1,t1,y1),(s2,t2,y2),…,(sn,tn,yn))。
(1)
本文利用訓(xùn)練數(shù)據(jù)集Dtrain構(gòu)建模型,f為模型損失函數(shù),判斷當(dāng)前源新聞sx′和目標(biāo)新聞tx′是否匹配的標(biāo)簽yx′,如式(2)所示:
yx′=f(sx′,tx′)。
(2)
這一節(jié)將介紹本文提出的話題匹配算法,包括基于關(guān)鍵實(shí)體和文本摘要的深層次語義特征提取、基于交叉注意力(cross-attention)的文本交互以及融合文本交互特征和深層次語義特征的匹配。話題匹配模型架構(gòu)如圖1所示。
圖1 整體架構(gòu)圖
深層次語義信息是新聞文本的關(guān)鍵實(shí)體和文本摘要信息,本文將關(guān)鍵實(shí)體特征和文本摘要特征通過雙向LSTM[20]進(jìn)行特征融合,得到新聞文本的深層次語義特征。
3.1.1 實(shí)體提取器
本文采用W2NER模型進(jìn)行命名實(shí)體識(shí)別,在人民日報(bào)NER數(shù)據(jù)集訓(xùn)練模型,實(shí)體生成器如圖2所示。
圖2 實(shí)體生成器
首先將新聞文本輸入基于預(yù)訓(xùn)練語言模型的BERT,轉(zhuǎn)化成向量形式。給定新聞樣本s,其對應(yīng)的長度為l的字符序列s=[x1,x2,…,xl],通過BERT處理之后獲得s中的每個(gè)字符的表示向量如式(3)所示:
v=BERT(s)=[v1,v2,…,vl]。
(3)
為了進(jìn)一步增強(qiáng)上下文的聯(lián)系,采用雙向LSTM來生成包含上下文信息的向量表示,如式(4)所示:
h=BiLSTM(v)=[h1,h2,…,hl]。
(4)
接著采用CLN(conditional layer normalization),構(gòu)造出詞對信息矩陣 (word embedding ),疊加距離信息矩陣(distance embedding)和區(qū)域信息矩陣(region embedding)后,通過不同空洞率的空洞卷積進(jìn)行特征提取。
然后疊加以上3個(gè)embedding,通過不同空洞率的空洞卷積進(jìn)行特征提取,將得到的特征連接到一起,形成詞對網(wǎng)格表征Q。Q為預(yù)測層MLP的輸入,而預(yù)測層中雙仿射分類器(biaffine)的輸入是來自編碼層(BERT+BiLSTM)的輸出。詞對關(guān)系包括None、NNW、THW-*3種關(guān)系,None表示2個(gè)字沒有關(guān)系,不屬于同一個(gè)實(shí)體;NNW表示這2個(gè)字是在同一個(gè)實(shí)體中相鄰的位置;THW-*表示這2個(gè)字在同一實(shí)體中,且分別是實(shí)體的結(jié)尾和開始。給定向量表示h,使用2個(gè)MLP來分別計(jì)算詞對(xi,xj)的向量表示si和oj。然后,使用雙仿射分類器來計(jì)算詞對(xi,xj)之間的關(guān)系分?jǐn)?shù),如下所示:
si=MLP(hi);
(5)
oj=MLP(hj);
(6)
(7)
式中:U、W和b為可訓(xùn)練參數(shù);si和oj分別表示第i個(gè)和第j個(gè)單詞的向量表示。
(8)
通過組合biaffine和MLP預(yù)測器的得分計(jì)算詞對(xi,xj)的最終關(guān)系概率yij,如式(9)所示:
(9)
W2NER模型預(yù)測字和字之間的關(guān)系,相當(dāng)于一個(gè)有向的詞圖。解碼的目的是根據(jù)確定的路徑找到字和字的NNW關(guān)系,得到預(yù)測的實(shí)體及其類型,最后得到實(shí)體集合E=(e1,e2,…,eo)。
3.1.2 關(guān)鍵實(shí)體篩選
將實(shí)體詞的TF-IDF關(guān)鍵性、詞出現(xiàn)的頻率、詞在詞的集合中是否合群、詞詞之間的相似度和詞句之間的相似度作為關(guān)鍵實(shí)體的篩選特征。
(1)TF-IDF關(guān)鍵性因子。TF-IDF是一種統(tǒng)計(jì)方法,用以評估一個(gè)詞對于一個(gè)語料庫中一份文件的重要程度,常用于關(guān)鍵詞檢索。TF-IDF關(guān)鍵性因子權(quán)重如式(10)所示:
(10)
(2)詞頻因子。統(tǒng)計(jì)實(shí)體集中各個(gè)實(shí)體詞出現(xiàn)的頻率,為不同詞頻的實(shí)體賦予不同的權(quán)重,如式(11)所示:
(11)
式中:n為實(shí)體出現(xiàn)的次數(shù)。
(3)詞的合群性因子。在數(shù)據(jù)集上采用jieba分詞訓(xùn)練word2vec詞向量模型[21]。通過word2vec查找不同類詞的方法找出不合群的實(shí)體,并為其賦不同的權(quán)重。式(12)為不合群詞權(quán)重,式(13)為合群詞權(quán)重:
(12)
(13)
(4)詞詞相似度因子。通過word2vec詞向量模型編碼各實(shí)體,以實(shí)體為節(jié)點(diǎn),相鄰節(jié)點(diǎn)的邊權(quán)重為向量相似度,計(jì)算當(dāng)前詞與剩余詞的相似性。統(tǒng)計(jì)每個(gè)實(shí)體詞的邊權(quán)重之和,作為此實(shí)體的詞詞相似度,對每個(gè)實(shí)體的詞詞相似度進(jìn)行歸一化,如式(14)所示。
(14)
式中:eni代表第i個(gè)實(shí)體的向量;cos(·)代表余弦相似度的計(jì)算;n為實(shí)體個(gè)數(shù)。
(5)詞句相似度因子。通過word2vec模型編碼各實(shí)體和句子,計(jì)算其相似度,作為詞句相似度因子,其中sen代表通過word2vec編碼的句向量,如式(15)所示:
(15)
最后,組合特征權(quán)重如式(16)所示:
(16)
根據(jù)實(shí)體集中各個(gè)實(shí)體的組合特征權(quán)重的不同進(jìn)行排序,取前兩個(gè)作為關(guān)鍵實(shí)體,得到關(guān)鍵實(shí)體集合K=(k1,k2)。
3.1.3 文本摘要生成器
本文采用IDEA研究院CCNL提出的基于中文數(shù)據(jù)集悟道語料庫(180 GB版本)預(yù)訓(xùn)練的中文Pegasus模型large版本[22],對新聞文本進(jìn)行文本概括,得到新聞準(zhǔn)確、簡潔的信息。
基于摘要提取的目的,Pegasus模型首先對于文本中的重要句子進(jìn)行選取,受詞和連續(xù)span mask的啟發(fā),Pegasus模型選擇了遮蔽這些重要句子即間隔句,并且拼接它們形成偽摘要,相應(yīng)位置遮蔽掉的間隔句用[MASK]來替代。然后通過decode恢復(fù)這些遮蔽掉的間隔句,加深模型對于文本語義的理解,達(dá)到生成文本摘要的目的。
3.1.4 基于BiLSTM的深層次語義特征融合
本文設(shè)計(jì)了一個(gè)基于BiLSTM的特征提取網(wǎng)絡(luò)如圖3所示,對文本摘要特征和關(guān)鍵實(shí)體特征進(jìn)行特征融合,BiLSTM可以捕獲上下文信息,提取更深層的語義特征[23]。
圖3 基于BiLSTM的特征提取網(wǎng)絡(luò)
該網(wǎng)絡(luò)是一個(gè)并行網(wǎng)絡(luò),通過文本摘要提取的新聞文本s、t得到摘要Ms、Mt,通過預(yù)訓(xùn)練語言模型BERT進(jìn)行編碼,得到摘要中的每個(gè)字符的向量表示。然后通過平均池化,分別得到文本摘要特征向量ps、pt。同樣,通過實(shí)體提取和關(guān)鍵實(shí)體篩選的新聞文本s、t得到的關(guān)鍵實(shí)體集Ks、Kt,通過預(yù)訓(xùn)練語言模型BERT進(jìn)行編碼,得到Ks、Kt中的每個(gè)字符的向量表示。然后通過平均池化分別得到關(guān)鍵實(shí)體特征向量qs、qt。
接下來,將源新聞文本的文本摘要特征向量ps和源新聞文本的關(guān)鍵實(shí)體特征向量qs進(jìn)行拼接,再通過BiLSTM進(jìn)行特征融合,得到源新聞文本的深層次語義特征向量m。同樣,將目標(biāo)新聞文本的文本摘要特征向量pt和目標(biāo)新聞文本的關(guān)鍵實(shí)體特征向量qt進(jìn)行拼接,再通過BiLSTM進(jìn)行特征融合,得到目標(biāo)新聞文本的深層次語義特征向量n。其中,BiLSTM是雙向LSTM,分別對序列進(jìn)行正向和反向處理,獲取上下文的聯(lián)系,得到全局特征。
在這一部分,對源新聞文本和目標(biāo)新聞文本進(jìn)行交互,增進(jìn)彼此的聯(lián)系,更好地獲取待匹配新聞文本之間的差異,如圖4所示。
圖4 基于cross-attention的文本交互
首先,對源新聞文本s通過預(yù)訓(xùn)練語言模型BERT,得到s的特征向量Ps,即BERT模型的最后一層輸出。同樣,將目標(biāo)新聞文本t通過預(yù)訓(xùn)練語言模型BERT,得到t的特征向量Pt。雖然BERT可以有效地編碼語義信息,但是s和t之間的交互信息沒有被探索,缺少彼此的交互和聯(lián)系。因此,利用交叉注意模塊來增進(jìn)文本之間的跨序列交互。與自注意力機(jī)制不同,交叉注意力機(jī)制的輸入來自具有相同維度的不同序列,查詢來自一個(gè)序列,而鍵和值來自另一個(gè)序列。
具體地,首先將通過BERT得到的向量Ps、Pt,送入cross-attention的輸入中,用于計(jì)算查詢、鍵和值,將它們分別打包成矩陣Q、K、V。
Q和K之間的點(diǎn)積的相似性決定了V的注意分布。m個(gè)頭部的多頭注意函數(shù)具有m個(gè)并行的自注意函數(shù)。對于第i個(gè)頭部,輸入的Q、K、V轉(zhuǎn)換如下:
(17)
(18)
(19)
(20)
(21)
(22)
多頭自注意函數(shù)的計(jì)算過程表示如下:
(23)
(24)
式中:dh代表每個(gè)頭部的輸出特征的維數(shù)。
進(jìn)一步,將每個(gè)頭部得到的特征向量拼接,與權(quán)重矩陣Wo計(jì)算后壓縮成一個(gè)矩陣,m代表總共的頭數(shù),公式如下:
hs=concat(hs1,hs2,…,hsm);
(25)
ht=concat(ht1,ht2,…,htm);
(26)
MA(Qs,Kt,Vt)=hsWso;
(27)
MA(Qt,Ks,Vs)=htWto。
(28)
再通過由2個(gè)全連接層和一個(gè)ReLU激活函數(shù)組成的FFN層,在各個(gè)時(shí)序上對特征進(jìn)行非線性變換,提高網(wǎng)絡(luò)表達(dá)能力。
通過cross-attention,可以得到新聞文本s和t各個(gè)字的交互向量表達(dá),然后通過平均池化操作,得到新聞文本s和t的交互特征向量u、v。
基于cross-attention的文本交互模塊得到了源新聞文本的交互特征u、目標(biāo)新聞文本的交互特征v,而后用|u-v|得到源新聞-目標(biāo)新聞文本交互特征的差異,|u-v|為特征向量按位相減并取絕對值的操作。深層次語義特征提取模塊得到了源新聞文本的深層次語義特征m、目標(biāo)新聞文本的深層次語義特征n,而后用特征向量|m-n|得到源新聞-目標(biāo)新聞文本深層次語義特征的差異。將文本交互特征向量及其差異和深層次語義特征向量及其差異拼接,得到融合的特征向量(u,v,|u-v|,m,n,|m-n|)。然后,將向量(u,v,|u-v|,m,n,|m-n|)通過BN層進(jìn)行歸一化,通過ReLU增加神經(jīng)網(wǎng)絡(luò)各層之間的非線性關(guān)系,最后通過全連接層進(jìn)行降維,預(yù)測匹配的結(jié)果。
本文的數(shù)據(jù)集來源于2021搜狐校園文本匹配算法大賽話題匹配的真實(shí)數(shù)據(jù)集[24]。該數(shù)據(jù)集包含源新聞文本、目標(biāo)新聞文本和標(biāo)簽,若2段新聞話題相同或相似,標(biāo)注為1,否則標(biāo)注為0。
該數(shù)據(jù)集包括短文本和短文本的匹配、短文本和長文本的匹配、長文本和長文本的匹配3部分,數(shù)據(jù)統(tǒng)計(jì)結(jié)果如表1所示。其中短文本為100以內(nèi)的文本,長文本為200字以上的文本。實(shí)驗(yàn)將3個(gè)數(shù)據(jù)集的訓(xùn)練集和驗(yàn)證集合并,訓(xùn)練一個(gè)話題匹配模型,分別在3個(gè)測試集上測試,實(shí)驗(yàn)結(jié)果證明模型在不同長度的文本上均有效果。
表1 實(shí)驗(yàn)中使用的搜狐數(shù)據(jù)集
本節(jié)將本文提出的算法和以下6個(gè)基準(zhǔn)的文本匹配算法進(jìn)行性能比較,其中ABCNN和SimLSTM模型采用的word2vec詞向量是使用搜狐數(shù)據(jù)集進(jìn)行無監(jiān)督訓(xùn)練得到的。
ABCNN:交互型文本匹配模型,采用CNN抽取上下文信息,在輸入層和卷積的輸出層添加注意力機(jī)制對序列進(jìn)行交互,進(jìn)而得到文本匹配結(jié)果。
SimLSTM:表示型文本匹配模型,通過2個(gè)LSTM網(wǎng)絡(luò)得到句子表征向量,用全連接層構(gòu)成的分類層得到匹配結(jié)果。
BERT:預(yù)訓(xùn)練語言模型,BERT采用基于自注意力機(jī)制的Transformer,將源新聞、目標(biāo)新聞文本通過BERT進(jìn)行微調(diào),實(shí)現(xiàn)文本匹配任務(wù)。
SBERT[25]:SBERT模型采用孿生網(wǎng)絡(luò)結(jié)構(gòu),分別對源文本和目標(biāo)文本輸入BERT網(wǎng)絡(luò),輸出2組表征句子語義的向量u、v,拼接向量u、v、|u-v|,預(yù)測文本匹配結(jié)果。
Erine3.0[26]:基于Ernie、Ernie2.0,百度不斷增大語料庫,并且融合知識(shí)圖譜進(jìn)行知識(shí)強(qiáng)化的預(yù)訓(xùn)練任務(wù),得到百度的預(yù)訓(xùn)練語言模型Erine3.0。通過微調(diào),可進(jìn)行文本語義匹配任務(wù)。
實(shí)驗(yàn)部分綜合利用準(zhǔn)確率Acc、精確率P、召回率R、F1指標(biāo)來評價(jià)算法,如下所示:
(29)
(30)
(31)
(32)
本文的實(shí)驗(yàn)環(huán)境如下:Intel(R) Xeon(R) Platinum 8255C CPU@2.50 GHz+24 GB內(nèi)存,深度學(xué)習(xí)框架為Anaconda Python3.0+PyTorch 1.8.1。
在關(guān)鍵實(shí)體提取模塊,根據(jù)實(shí)驗(yàn)發(fā)現(xiàn),關(guān)鍵實(shí)體個(gè)數(shù)設(shè)置為 2時(shí)效果最好。在命名實(shí)體識(shí)別模塊,使用BERT獲得768維的詞向量,學(xué)習(xí)率設(shè)置為 10-3,批樣本數(shù)設(shè)置為8,采用 Adam 優(yōu)化器,可以獲得更好的收斂效果。在話題匹配模塊,根據(jù)統(tǒng)計(jì),新聞文本平均輸入長度為 260,文本摘要最大輸入長度為100,關(guān)鍵實(shí)體最大輸入長度為20,以此設(shè)置相關(guān)參數(shù)。同時(shí),學(xué)習(xí)率設(shè)置為2×10-5,批樣本數(shù)設(shè)置為 16,迭代次數(shù)為2,采用Adam 優(yōu)化器,可以獲得較好的收斂效果,但模型容易過擬合,因此采用dropout層解決模型過擬合問題,在訓(xùn)練過程中每 200 步保存一次模型,保留效果最好的模型。
圖5展示了關(guān)鍵實(shí)體篩選模塊的關(guān)鍵實(shí)體個(gè)數(shù)對實(shí)驗(yàn)結(jié)果的影響。其中,k=1、k=2、k=3、k=4,分別代表了將按照組合特征權(quán)重排好序的實(shí)體,選取前1、2、3、4個(gè)作為關(guān)鍵實(shí)體;k=all代表把文本的所有實(shí)體都參與深層次語義特征的提取。綜合來看,k=2時(shí),指標(biāo)R、F1在短短匹配、短長匹配、長長匹配數(shù)據(jù)集上均為最高,指標(biāo)Acc和P也表現(xiàn)較好。因此,選取前2個(gè)實(shí)體作為關(guān)鍵實(shí)體。當(dāng)k=all時(shí),效果較差,同時(shí)也證明了關(guān)鍵實(shí)體提取模塊的有效性。
圖5 不同關(guān)鍵實(shí)體個(gè)數(shù)的性能變化
為了驗(yàn)證本文方法的有效性,選取了表示型、交互型、預(yù)訓(xùn)練語言模型3種類型的文本匹配方法進(jìn)行對比實(shí)驗(yàn)。表2展示了所有算法在真實(shí)數(shù)據(jù)集上取得的實(shí)驗(yàn)結(jié)果。其中,ABCNN 模型為交互型文本匹配模型,采用CNN可較好地提取文本局部信息,捕捉文本細(xì)節(jié),通過注意力機(jī)制增進(jìn)兩句話之間的交互,但是過分注重文本細(xì)節(jié)的匹配,不利于文本話題匹配。SimLSTM模型為表示型文本匹配模型,僅在匹配層獲取向量差異,缺少語義之間的交互,編碼句子語義時(shí)損失較大。BERT、Ernie3.0模型采用大規(guī)模語料庫預(yù)訓(xùn)練,SBERT模型采用BERT進(jìn)行語義表示,但是這3個(gè)模型忽視文本話題的概括,在話題匹配方面效果不好。
表2 對比實(shí)驗(yàn)結(jié)果
總體上看,本文提出的算法各項(xiàng)指標(biāo)比較均衡,在3個(gè)測試集中,召回率和F1都取得最好的效果,在準(zhǔn)確率、精確率方面也與其他模型的最優(yōu)效果相近。因此,證明了本文提出的基于關(guān)鍵實(shí)體和文本摘要多特征融合的話題匹配算法的有效性。
為了驗(yàn)證本文方法中各模塊的有效性,移除了模型中特定的部分,進(jìn)行了消融實(shí)驗(yàn)。表3展示了消融實(shí)驗(yàn)結(jié)果,其中,M1為移除了深層次語義特征提取模塊;M2為移除了基于BiLSTM的深層次語義特征融合模塊,即將文本摘要特征、關(guān)鍵實(shí)體特征直接拼接參與話題匹配。M3為移除了交叉注意力模塊,用BERT最后一層的[CLS]向量作為句子語義向量,進(jìn)行匹配。
表3 消融實(shí)驗(yàn)結(jié)果
從消融實(shí)驗(yàn)結(jié)果可以看出,各模塊對準(zhǔn)確率和精確率影響較小,但對召回率和F1值有較大的影響。去除了深層次語義特征提取模塊后,各指標(biāo)明顯降低。去除BiLSTM提取關(guān)鍵實(shí)體和文本摘要的全局特征,在不同數(shù)據(jù)集中,召回率和F1也有所降低。去除cross-attention文本語義特征交互模塊后,短文本和短文本的匹配以及長文本和長文本的匹配中指標(biāo)均下降,是由于待匹配文本長度相近時(shí),通過BERT模型得到的語義特征差距較小,添加交叉注意力機(jī)制進(jìn)行交互,可以更好地關(guān)注待匹配文本的語義信息,更好地捕獲語義特征的差異,提升話題匹配效果。然而,當(dāng)待匹配文本長度相差過大時(shí),文本語義特征相差較大,本文模型添加交叉注意力機(jī)制后僅在R和F1指標(biāo)上有提升。
本文提出了基于關(guān)鍵實(shí)體和文本摘要多特征融合的話題匹配算法,通過提取文本的關(guān)鍵實(shí)體和摘要,獲得文本的深層次語義特征,更好地概括新聞文本話題,再通過交叉注意力機(jī)制獲得文本之間的交互特征,增進(jìn)文本向量之間的聯(lián)系,使得文本深層次語義特征和文本交互特征共同作用于文本話題匹配結(jié)果。在真實(shí)數(shù)據(jù)集上進(jìn)行的實(shí)驗(yàn)表明,本文的方法要優(yōu)于目前流行的深度學(xué)習(xí)文本匹配算法,對文本話題匹配有較好的檢測效果。
后續(xù)工作可以通過關(guān)系抽取或事件抽取的方法進(jìn)一步提取文本深層次語義特征,提升文本話題匹配結(jié)果。目前公開的話題匹配數(shù)據(jù)集不多,可以制作更大的數(shù)據(jù)集來進(jìn)行進(jìn)一步實(shí)驗(yàn)。