趙周穎,余正濤,黃于欣,陳瑞清,朱恩昌
(1.昆明理工大學(xué)信息工程與自動化學(xué)院,云南昆明 650500;2.昆明理工大學(xué)云南省人工智能重點實驗室,云南昆明 650500)
漢越跨語言事件檢索旨在根據(jù)輸入的中文事件查詢短語,檢索出相關(guān)的越南語新聞事件文檔[1]是跨語言輿情事件檢測、跨語言新聞推薦以及跨語言事件追蹤等后續(xù)任務(wù)的基礎(chǔ)。
跨語言事件檢索是一種特殊的跨語言信息檢索任務(wù)。近年來,在傳統(tǒng)的跨語言信息檢索方面已經(jīng)取得了較好的進展,主流方法包括以下三種:基于機器翻譯的方法、基于跨語言/多語言詞嵌入的方法以及基于多語言預(yù)訓(xùn)練語言模型(諸如mBERT[2]、XML-R[3]等)的方法。其中,基于機器翻譯的方法利用神經(jīng)機器翻譯將查詢和文檔映射到同一語義空間,然后進行單語檢索?;跈C器翻譯的方法在一定程度上解決了不同語言的語義鴻溝問題,但是基于機器翻譯的方法嚴重依賴于神經(jīng)機器翻譯的準(zhǔn)確性,容易引起詞不匹配和翻譯歧義問題,特別是對于差異較大的低資源語言(如中文和越南語),機器翻譯誤差直接影響檢索結(jié)果。為了解決這些問題,研究者提出了基于預(yù)訓(xùn)練跨語言詞向量的跨語言信息檢索方法[4],其核心思想是利用跨語言詞向量將不同語言的語義映射到同一語義空間中,從而解決跨語言檢索問題。然而,基于跨語言詞向量的方法由于忽略了詞序和上下文信息,導(dǎo)致查詢或待檢索文本的語義表示不準(zhǔn)確,并且在不同語種間的語義表示空間映射過程中容易引起誤差傳播,從而影響檢索模型的性能。隨著多語言預(yù)訓(xùn)練語言模型如mBERT[2]和XML-R[3]的出現(xiàn),基于多語言預(yù)訓(xùn)練語言模型的方法[5-6]成為了目前跨語言信息檢索的主要方式。
現(xiàn)階段,在跨語言事件檢索方面的相關(guān)研究還較少。文獻[7]提出了一種基于詞向量的越漢跨語言事件檢索方法,該方法首先利用詞向量構(gòu)建事件關(guān)鍵詞的漢語語義特征向量,然后計算越語的事件關(guān)鍵詞的特征翻譯向量,最后通過計算語義特征向量之間的相似度完成跨語言關(guān)鍵詞對齊,從而實現(xiàn)查詢關(guān)鍵詞的自動翻譯,實現(xiàn)跨語言事件檢索。文獻[1]提出一種融入事件實體知識的漢越跨語言新聞事件檢索模型。綜上所述,目前跨語言事件檢索仍然面臨著以下兩個方面的挑戰(zhàn):
1)跨語言事件檢索的核心是計算事件查詢短語與查詢文檔中描述的核心事件之間的匹配度。然而事件短語和查詢文檔中往往包含大量的實體,目前漢越實體翻譯效果還不理想,基于翻譯的跨語言事件檢索會帶來較大的誤差級聯(lián)。
2)目標(biāo)語言(越南語)的新聞文本較長,中文事件查詢短語與越南語的查詢文檔長度不一,表達差異較大,且查詢文檔中往往會包含大量與其描述的核心事件無關(guān)的噪聲文本,現(xiàn)有的模型不能很好地捕捉事件匹配特征,難以對其進行準(zhǔn)確匹配。
為了解決上述兩個問題,本文提出了基于要素關(guān)聯(lián)圖的漢越跨語言事件檢索方法。該方法首先預(yù)訓(xùn)練一個漢越雙語詞嵌入來解決跨語言語義鴻溝問題;然后,抽取查詢文檔中的關(guān)鍵信息(關(guān)鍵詞和實體)并構(gòu)建文檔要素關(guān)聯(lián)圖;最后,通過引入一個圖編碼器對構(gòu)建的要素圖進行編碼,生成結(jié)構(gòu)化的事件信息來增強傳統(tǒng)的事件檢索模型。在自建數(shù)據(jù)集上的實驗證明,本文提出的方法優(yōu)于傳統(tǒng)的基線方法,有效驗證了本文所提方法的有效性。
本節(jié)主要介紹漢越雙語詞嵌入的預(yù)訓(xùn)練方法。漢越跨語言詞向量預(yù)訓(xùn)練的目標(biāo)是學(xué)習(xí)漢語詞嵌入矩陣X和越南語詞嵌入矩陣Y之間的映射,首先在漢語和越南語語料中訓(xùn)練詞嵌入矩陣X和Y,將種子詞典表示為二進制矩陣D;接下來找到最優(yōu)雙語映射矩陣W*,使映射的漢語詞嵌入矩陣Xi*W和越南語詞嵌入矩陣Yj*之間的歐氏距離平方和最小化。
式中:Xi*表示第i個漢語詞嵌入;Yj*表示第j個越南語詞嵌入。如果第i個漢語詞與第j個越南語詞對齊,則Dij= 1。
接下來對詞嵌入矩陣X和Y進行歸一化和中心化預(yù)處理操作,將W構(gòu)建為正交矩陣(WWT=WTW=I)以防止單語性能下降,同時能提供更好的雙語映射。最小化歐氏距離平方等價于最大化點積,優(yōu)化后的公式為:
式中:Tr(·)表示主對角線所有元素之和;W*=UVT為最優(yōu)正交解;XTDY=UΣVT為XTDY的奇異值分解。
最后使用映射源語言嵌入和目標(biāo)語言嵌入之間的點積作為相似度度量,最終詞嵌入映射以一種自我學(xué)習(xí)的方式迭代,直至收斂,完成漢越雙語詞嵌入映射。
本節(jié)主要介紹提出的基于要素關(guān)聯(lián)圖的漢越跨語言事件檢索模型,模型結(jié)構(gòu)如圖1 所示。模型主要分為三個部分:首先根據(jù)文檔構(gòu)建要素關(guān)聯(lián)圖,每一個節(jié)點代表一個關(guān)鍵短語;然后將查詢-節(jié)點匹配特征輸入圖神經(jīng)網(wǎng)絡(luò)并根據(jù)查詢結(jié)果計算文檔相關(guān)性分數(shù);最后采用加權(quán)策略融入雙語文檔相似度,實現(xiàn)漢越跨語言事件檢索。
圖1 基于要素關(guān)聯(lián)圖的漢越跨語言事件檢索模型結(jié)構(gòu)圖
本節(jié)主要介紹如何基于輸入越南語文檔構(gòu)造要素關(guān)聯(lián)圖。首先從原文檔中抽取實體、關(guān)鍵詞等重要要素作為圖的節(jié)點來構(gòu)建要素關(guān)聯(lián)圖。要素關(guān)聯(lián)圖可以有效表征整個文檔的關(guān)鍵核心信息。對于每個查詢q=[w(q)1,…,w(q)i,…,w(q)M],w(q)i為查詢中第i個詞,M表示查詢長度,從文檔D中抽取實體、關(guān)鍵詞作為要素關(guān)聯(lián)圖的節(jié)點,所有的節(jié)點集合可表示為{w(d)1,w(d)2,…,w(d)n},n為節(jié)點個數(shù)。每個節(jié)點特征為其詞嵌入與查詢詞嵌入之間的交互信號,使用余弦相似度矩陣S作為交互矩陣,定義如下:
式中:e(d)i為查詢詞向量;e(q)j為節(jié)點詞向量;cos 為余弦計算。
通過節(jié)點之間的語義相似度和包含關(guān)系來確定要素關(guān)聯(lián)圖的邊。為了緩解梯度爆炸或梯度消失的問題,將鄰接矩陣歸一化為=D-12AD-12,D為對角矩陣并且Dij=Σj Aij。
本文采用圖注意力網(wǎng)絡(luò)來獲得關(guān)鍵詞圖的表征,其具體的操作步驟如下:
1)狀態(tài)更新
用查詢-文檔交互矩陣初始化節(jié)點狀態(tài):
式中:j表示短語圖中第j個節(jié)點;S:j表示交互矩陣S的第j列。
以圖2 為例,對于節(jié)點“中英貿(mào)易”,它的鄰接節(jié)點只有節(jié)點“英國脫歐”和節(jié)點“經(jīng)濟發(fā)展”,但不代表這兩個節(jié)點對該節(jié)點具有一樣的重要性。
圖2 要素關(guān)聯(lián)圖
因此,在進行鄰居特征聚合時,通過圖注意力層計算每個節(jié)點相對于其相鄰節(jié)點的相互重要性程度,從而更新節(jié)點狀態(tài)。節(jié)點的輸入特征h={h1,h2,…,hn},n表示節(jié)點個數(shù)。為了獲得足夠的表達能力,將節(jié)點特征經(jīng)過線性變換以得到更高層次的特征。具體策略為:將權(quán)重矩陣W應(yīng)用于每個節(jié)點,并對每個節(jié)點執(zhí)行自注意力機制,然后通過注意力系數(shù)計算節(jié)點k對節(jié)點j的重要程度,計算公式如下:
式中:αjk為節(jié)點k到節(jié)點j的注意力系數(shù);“;”表示向量拼接;σ代表激活函數(shù);注意力機制是一個單層的前饋神經(jīng)網(wǎng)絡(luò),由權(quán)重向量aT進行參數(shù)化。
歸一化的注意力系數(shù)用于計算與它們相對應(yīng)的特征,得到每個節(jié)點的最終輸出特征h={h1,h2,…,hn},計算公式如下:
式中:hj表示節(jié)點j的輸出特征;Ni表示節(jié)點i的鄰接節(jié)點;αjk為注意力系數(shù)。
2)特征選擇
直觀上看,相似度越高,關(guān)聯(lián)可能性越大。因此,在查詢維度上執(zhí)行k-max-pooling 策略,并為每個查詢項選擇前k個信號,避免模型受到文檔長度的影響。計算公式如下:
式中:i∈[1,M],表示查詢中第i個詞;H:,i表示特征矩陣H第i列。
獲得信息匹配特征xi后,需要將其轉(zhuǎn)化為實際的相關(guān)得分進行訓(xùn)練??紤]到不同的查詢詞可能具有不同的重要性,在查詢詞級別采用注意力網(wǎng)絡(luò)對查詢詞的重要性進行建模,它為每個查詢詞生成一個權(quán)重,控制該查詢詞的相關(guān)性得分,最終得到更合理的相關(guān)性分數(shù)。通過詞嵌入學(xué)習(xí)查詢中的詞權(quán)重,使用查詢詞向量作為門控函數(shù)的輸入,計算公式如下:
式中:gi表示詞權(quán)重;eqi為第i個查詢詞向量;wg表示術(shù)語門控網(wǎng)絡(luò)的權(quán)重向量。
最后利用權(quán)重共享的多層感知機對每個查詢詞進行評分。
式中:Wx、bx為可訓(xùn)練參數(shù)。
選擇雙鉸鏈損失函數(shù)對模型參數(shù)進行優(yōu)化:
式中:q為查詢;d+為相關(guān)樣本;d-為不相關(guān)樣本。
最后在源語言文檔匹配分數(shù)基礎(chǔ)上與雙語相似度進行加權(quán)求和,得到目標(biāo)語言每篇文檔的相關(guān)性得分:
式中:rel源語言為源語言相關(guān)性得分;Sim 為源語言和目標(biāo)語言相似度分數(shù);“*”表示乘法;α為超參數(shù),設(shè)置為0.6。根據(jù)相關(guān)性分數(shù)進行降序排列,從而得到查詢的雙語文檔排序列表。
本文實驗數(shù)據(jù)為從互聯(lián)網(wǎng)爬取的漢越熱點新聞事件文檔,包含政治、經(jīng)濟、社會、科技、文化等五類新聞事件,其中包含漢語和越南語文檔各6 500 篇,訓(xùn)練集4 500 篇,測試集和驗證集各1 000 篇。每篇文檔包括標(biāo)題和正文兩部分,根據(jù)事件內(nèi)容構(gòu)建了相同數(shù)量漢語查詢和越南語查詢,采用查詢和文檔的相關(guān)性分數(shù)進行排序,查詢和文檔的相關(guān)性由人工標(biāo)注,其中1 代表查詢與文檔相關(guān),0 代表查詢與文檔不相關(guān)。查詢與候選文檔數(shù)統(tǒng)計信息如表1 所示。為了進行評估,將語料按照8∶1∶1 的比例隨機分成訓(xùn)練集、開發(fā)集和測試集,分別用于模型的訓(xùn)練、超參數(shù)的調(diào)優(yōu)和模型的評估。
表1 實驗數(shù)據(jù)統(tǒng)計
本文采用NDCG[8]和mAP[9]作為實驗的評價指標(biāo),具體的計算公式如下:
式中:k表示前k個排序文檔集合;rel(i)表示排序列表中第i個查詢與文檔的相關(guān)度;IDCG@k由IDCG@k根據(jù)相關(guān)度對文檔降序排序后得到。
式中:N表示相關(guān)文檔總數(shù);position(i)表示第i個相關(guān)文檔在檢索結(jié)果列表中的位置。mAP 表示多個返回結(jié)果的平均準(zhǔn)確率。
實驗環(huán)境及參數(shù)設(shè)置詳情如表2 所示。其中,詞嵌入維度設(shè)置為200,圖注意網(wǎng)絡(luò)的層數(shù)設(shè)置為3,k-maxpooling 中k值設(shè)置為40,滑動窗口大小為7,訓(xùn)練批次大小為64,學(xué)習(xí)率為0.001,采用Adam 優(yōu)化器進行優(yōu)化。
表2 實驗環(huán)境及參數(shù)設(shè)置
為了驗證所提出模型的有效性,選取以下多個基線模型進行對比,實驗結(jié)果如表3 所示。
表3 與基線模型的對比實驗結(jié)果
BM25:BM25 算法是在融合TF-IDF 特征的基礎(chǔ)上計算查詢句與文檔相關(guān)性的一種算法,首先計算每個查詢詞與文檔的相關(guān)度,再對得到的所有的詞與文檔的相關(guān)度進行加權(quán)求和,最后計算出最終的查詢句與文檔之間的相關(guān)度值。
RankSVM[10]:RankSVM 模型把文檔檢索問題進行轉(zhuǎn)化,變成了pairwise 的分類問題,然后針對此分類問題利用SVM 模型進行求解。
KNRM[11]:KNRM 模型首先利用查詢句向量和文檔向量構(gòu)建交互矩陣M,然后引入K個核函數(shù),通過核函數(shù)池化的方式計算查詢句與文檔的相似程度。
PACRR[12]:DRMM 方法忽略文本位置信息,PACRR使用卷積網(wǎng)絡(luò)提取詞項的依賴關(guān)系,通過RNN 整合特征,能較好地保留文本位置信息。
BERT-MaxS[13]:使用BM25 模型計算查詢句與文檔的相關(guān)度值,并將文檔切分為句子集合分別與查詢句進行拼接,使用基于BERT 的檢索模型計算查詢句與每個文檔句的相關(guān)度值。
EEK[1]:該方法通過查詢翻譯,將跨語言事件檢索問題轉(zhuǎn)化為單語事件檢索問題,并提出融入事件實體知識來提升跨語言事件檢索性能。
由表3 的實驗結(jié)果可以看出:本文模型比其他基線模型性能更好,與傳統(tǒng)模型BM25 相比,基于神經(jīng)網(wǎng)絡(luò)的模型在NDCG@5、NDCG@10、mAP 評價指標(biāo)均有顯著提升;在基于交互的神經(jīng)排序模型中,與KNRM 模型相比,PACRR 模型在NDCG@10、mAP 指標(biāo)比KNRM 提升了0.3%和1.4%,提升效果不大,而PACRR 引入了詞位置信息,采用卷積操作來捕捉局部詞序關(guān)系,說明位置信息和運算操作并不能很好地提升事件查詢-文本匹配效果。新聞事件排序是針對事件粒度信息的文本匹配,本文所提模型從事件粒度進行文本匹配,效果優(yōu)于基于局部交互的模型,NDCG@10、mAP 指標(biāo)比PACRR 分別提高了7.2%、8.1%,由此證明了通過融入事件要素關(guān)聯(lián)圖可以有效建模查詢文本的全局語義信息。
3.5.1 不同GCN 層數(shù)下實驗性能對比
為了研究圖神經(jīng)網(wǎng)絡(luò)層數(shù)下模型的表現(xiàn)效果,設(shè)置了不同的卷積層數(shù)進行對比實驗,實驗結(jié)果如圖3所示。
圖3 不同圖層數(shù)對模型性能的影響
由圖3 可以看出,與0 層的模型相比,僅通過1 層網(wǎng)絡(luò)就顯著地提高了模型的性能,說明在圖中傳播關(guān)鍵短語信息有助于理解查詢交互和文檔級詞關(guān)系,查詢文檔匹配信號可能會受到文檔內(nèi)的詞關(guān)系影響。2 層網(wǎng)絡(luò)比1 層網(wǎng)絡(luò)模型性能有小幅度提升,但當(dāng)疊加層數(shù)進一步增加時,模型的性能略有下降。原因可能是節(jié)點從鄰居節(jié)點接收到更多的噪聲,增加了參數(shù)訓(xùn)練的負擔(dān),過多的傳播也可能導(dǎo)致過度平滑的問題??偟膩碚f,使用上下文信息和不使用上下文信息之間存在巨大的差距,漢越新聞事件數(shù)據(jù)集上,圖層數(shù)在2 層時達到峰值。實驗結(jié)果也證明考慮關(guān)鍵短語級交互和文檔級詞匯關(guān)系對于漢越雙語新聞事件排序很有必要。
3.5.2 不同k值下實驗性能對比
為了研究k-max-pooling 中k的取值對模型性能的影響,對k取值為10、20、30、40、50 時的實驗結(jié)果進行對比,如圖4 所示。
圖4 不同k 值對模型性能的影響
通過圖4 可以得到,當(dāng)k取值從10 取到40,模型性能穩(wěn)定增長。通過增大k值,可以將匹配信號多的相關(guān)項與匹配信號少的無關(guān)項進行區(qū)分。當(dāng)k繼續(xù)增大,呈現(xiàn)下降的趨勢,說明較大的特征維數(shù)會帶來負面影響。k值越大,可能對文檔長度有偏置,文檔越長,匹配信號越多??傮w來看,圖中沒有明顯的急劇升降,說明模型對k值的選取不是很敏感。同時,選取不同k值取得的性能均超過基線模型,這表明匹配信號是在特征選擇前一個階段基于圖的交互過程中獲得的。
3.5.3 不同α值在匹配度加權(quán)計算上的性能對比
為了探究模型中超參數(shù)α的不同值對模型性能的影響,本文設(shè)置了不同α值在本文模型上進行實驗,實驗結(jié)果如表4 所示。
表4 閾值α 對中文查詢實驗性能的影響
從表4 的實驗結(jié)果可以看出:雖然當(dāng)閾值低于0.6時,在三個指標(biāo)上的性能都有明顯降低,但在閾值從0.1提升到0.5 過程中,實驗性能逐漸提升,在一定程度上驗證了融入事件要素關(guān)聯(lián)圖可以有效捕獲查詢文檔中的核心事件信息;當(dāng)閾值大于0.6 時,模型性能開始出現(xiàn)下降,可能原因是當(dāng)增加源語言關(guān)鍵短語的文檔相關(guān)性得分時,使排序過于依賴單語的相似性,弱化了雙語之間相似度,反而在最終的排序結(jié)果上并不理想。
為了實現(xiàn)漢越跨語言事件檢索,本文提出了一種基于要素關(guān)聯(lián)圖的漢越跨語言事件檢索方法。對于一對查詢-文檔,將文檔轉(zhuǎn)換為事件關(guān)聯(lián)圖的形式,通過節(jié)點中詞與查詢詞的交互分配節(jié)點匹配特征;然后通過圖神經(jīng)網(wǎng)絡(luò)傳播匹配信號;接下來對查詢進行k-max-pooling策略選擇,將其特征輸入神經(jīng)網(wǎng)絡(luò)層中以估計相關(guān)分數(shù);最后在單語相關(guān)分數(shù)的基礎(chǔ)上加權(quán)計算雙語文檔相似度分數(shù),得到最終雙語文檔檢索排序結(jié)果。實驗結(jié)果表明,本文的雙語模型達到了單語模型的準(zhǔn)確率,在漢越新聞事件排序中取得了很好的效果。