金城, 崔榮一, 趙亞慧, 張振國
( 延邊大學(xué) 工學(xué)院, 吉林 延吉 133002 )
多語言知識圖譜能夠?qū)⒖陀^世界中用不同語言描述的大量實體、屬性和關(guān)系構(gòu)建成一個龐大的知識網(wǎng)絡(luò).在面向多語言場景的人工智能應(yīng)用中,建立豐富的多語言知識圖譜庫可為人工智能應(yīng)用提供先驗知識,提高其認(rèn)知和理解能力.但構(gòu)建多語言知識圖譜往往需要耗費大量的人力及物力來處理多種語言的海量數(shù)據(jù),因此研究如何低成本、高效率地建立多語言知識圖譜具有重要的意義和價值.
在實現(xiàn)跨語言實體對齊時,目前通常采用基于知識嵌入或基于圖嵌入的對齊方法.基于知識嵌入的對齊方法是采用類似于詞向量分布式的表示方法對知識圖譜中的實體和關(guān)系進(jìn)行表示的一種方法(TransH),該方法雖具有準(zhǔn)確率較高、模型復(fù)雜度低、訓(xùn)練相對簡單等優(yōu)點,但存在對數(shù)據(jù)量要求較高的缺點.基于圖嵌入的實體對齊方法是利用圖神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)知識圖譜中的圖結(jié)構(gòu)信息和節(jié)點之間的相互依賴關(guān)系在向量空間中表示實體和關(guān)系的一種方法(GAT),該方法雖然在數(shù)據(jù)量較低的情況下也具有較高的準(zhǔn)確率,但存在占用內(nèi)存高、訓(xùn)練速度慢和易受圖結(jié)構(gòu)異構(gòu)影響等缺點.2019年, Li等提出了KECG模型,該模型采用相似的方法進(jìn)行跨語言實體對齊實驗,并取得了較好的實驗結(jié)果[1].目前為止還未發(fā)現(xiàn)有學(xué)者對中韓兩種語言的實體的自動對齊和中韓對齊數(shù)據(jù)集進(jìn)行研究,因此本文采用將TransH[2]和GAT[3]相融合的方法,研究如何在數(shù)據(jù)量較低以及圖結(jié)構(gòu)異構(gòu)情況下實現(xiàn)中韓實體的自動對齊.
本文提出的融合TransH和GAT的跨語言實體對齊模型如圖1所示.該模型主要包括圖嵌入層和知識嵌入層兩部分,分別用于提取知識圖譜的圖結(jié)構(gòu)特征信息和實體間的關(guān)系特征信息.模型的輸入為中韓兩種語言的知識圖譜和預(yù)先對齊的實體對.模型經(jīng)過迭代訓(xùn)練后,將實體對映射到向量空間中.在向量空間中,具有相同語義的等價實體相互靠近,其距離通過L2范數(shù)計算.由圖1可以看出,模型通過多輪迭代更新后,可為不同語言中具有相同語義的實體賦予沒有沖突且一一對應(yīng)的關(guān)系,同時也可為實體和關(guān)系賦予新的、合適的向量表示,以此計算出所有實體間可能存在的對齊關(guān)系.
圖1 融合TransH和GAT的跨語言實體對齊模型
圖嵌入模型的目標(biāo)是利用知識圖譜的結(jié)構(gòu)特征將雙語知識圖譜中的對齊實體嵌入到一個統(tǒng)一的向量空間中.GAT與其他圖神經(jīng)網(wǎng)絡(luò)相比具有如下優(yōu)點: ①可以并行計算相鄰節(jié)點對,提高模型的計算速率; ②可以為具有多個與節(jié)點相連的邊賦予任意大小的權(quán)重; ③可以適配和訓(xùn)練結(jié)構(gòu)不同的數(shù)據(jù)集; ④在引入注意力機(jī)制后,模型只關(guān)注鄰居節(jié)點,因此模型的計算速率得到提高.基于GAT的上述優(yōu)點,本文采用GAT作為編碼器(encoder)獲取知識圖譜的圖結(jié)構(gòu)信息,通過對不同鄰居節(jié)點賦予不同的關(guān)注度來忽略一些重要度相對較低的節(jié)點,從而降低不同知識圖譜異構(gòu)帶來的影響.
圖嵌入層的輸入為知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu)和實體嵌入矩陣X∈Rx ×d.知識圖譜的網(wǎng)絡(luò)結(jié)構(gòu)用每個實體鄰居節(jié)點的集合表示,其中實體的維度用d表示.編碼器通過疊加多個圖注意力層(graph attention layer)來實現(xiàn),其表達(dá)式為:
H(l +1)=σ(A(l)H(l)W(l)),
(1)
(2)
(3)
(4)
其中dist(ei,ej)(dist(ei,ej)=ei-ej)是兩個對齊實體對(ei,ej)之間的L2范數(shù),S′表示從樣本集合S通過最近鄰取樣(nearest neighbor sampling)生成的負(fù)樣本對的集合,γ1(γ1>0)是一個邊界超參數(shù).
基于平移的TransE模型是目前知識圖譜表示學(xué)習(xí)模型中的一種經(jīng)典模型,它將實體和關(guān)系映射至同一個低維向量空間,并將實體與實體之間的關(guān)系表示為實體向量之間的平移操作.TransE模型具有算法簡單的優(yōu)點,但該模型在處理自反關(guān)系、一對多、多對一和多對多關(guān)系時會將完全不同的實體在向量空間中賦予非常相似的向量,進(jìn)而會降低實體的向量表示效果.為此,學(xué)者在TransE模型的基礎(chǔ)上提出了一種改進(jìn)模型——TransH模型.TransH模型將每個三元組中的關(guān)系定義為一個超平面Wr和一個關(guān)系向量r, 并將頭實體eh和尾實體et投影到超平面Wr上(以此獲得投影eh⊥和et⊥),使得與實體對應(yīng)的向量能夠滿足一定的線性關(guān)系.通過上述方法TransH模型即可使同一個實體在相同的關(guān)系中具有相同的語義,而在不同的關(guān)系中具有不同的語義.
本文采用TransH模型作為知識嵌入層的模型,模型訓(xùn)練采用邊界排名損失函數(shù)(margin ranking loss)作為知識嵌入模型的目標(biāo)函數(shù).首先將其中一個知識圖譜三元組中的頭實體eh和尾實體et映射到超平面上,由此得到映射向量eh⊥和et⊥.eh⊥和et⊥的計算公式為:
(5)
(6)
如果三元組關(guān)系是正確的,則fr(eh,et)值較??;如果三元組關(guān)系是錯誤的,則fr(eh,et)值較大.圖嵌入模型的目標(biāo)函數(shù)為:
(7)
本文提出的將圖嵌入模型和知識嵌入模型進(jìn)行融合的跨語言實體對齊模型的目標(biāo)函數(shù)為:
(8)
其中OG和OK由式(4)和式(7)給出.在進(jìn)行實體對齊推理時,本文模型首先計算每個實體在向量空間中的距離(L2), 然后根據(jù)計算結(jié)果找出新的具有相同語義的實體.
BabelNet[4]是一個可以查詢多語言對齊的結(jié)構(gòu)化數(shù)據(jù)網(wǎng)站.本文利用Python編寫了一個爬蟲程序,通過結(jié)合維基百科的索引數(shù)據(jù)實現(xiàn)了結(jié)構(gòu)化數(shù)據(jù)的自動查詢與收集.本文共爬取了702 645個三元組(含13種語言)作為實驗數(shù)據(jù)來源.由于本研究僅針對中文和韓文,因此僅對中文和韓文的數(shù)據(jù)進(jìn)行了處理.處理后所得的中韓對齊數(shù)據(jù)集如表1所示.實驗中將數(shù)據(jù)集中的70%數(shù)據(jù)作為訓(xùn)練集, 30%數(shù)據(jù)作為測試集.
表1 中韓跨語言對齊數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)
表2 不同模型的中韓跨語言實體對齊的實驗結(jié)果
由表2中的結(jié)果可知:
1)融合圖嵌入和知識嵌入的對齊模型(TransR+GAT、 TransD+GAT、 TransE+GAT、 RotatE+GAT、 TransH+GAT)的準(zhǔn)確率顯著高于基于知識嵌入和基于圖嵌入的跨語言實體對齊模型MTransE[5]和GCN -Align[6],其中在Hits@1指標(biāo)上提高了1.9%~15.6%,在Hits@5指標(biāo)上提高了3.4%~18.4%,在Hits@10指標(biāo)上提高了9.6%~20.4%.
2)所有模型中韓文對齊中文實體的準(zhǔn)確率均高于中文對齊韓文實體的準(zhǔn)確率(約為1.0%),其原因是韓文實體比中文實體在文字表示上更具有辨識度,即文字相同但表達(dá)含義不同的中文實體多于韓文中的韓文實體.
3)除TransE+GAT外,其他融合GAT和Trans系列模型的Hits@5和Hits@10均高于GAT與RotatE融合[5]的模型.其原因是GAT模型與Trans系列模型相融合時,GAT模型的泛化能力優(yōu)于GAT模型與RotatE融合的模型,實體和關(guān)系得到了更合適的向量表示.
4)TransH+GAT模型的對齊準(zhǔn)確率高于TransD+GAT和TransR+GAT模型,雖然TransH模型的復(fù)雜度低于TransD模型[7]和TransR模型[8]的復(fù)雜度.其原因是復(fù)雜度高的模型在和GAT結(jié)合時,會導(dǎo)致不同實體的向量表示存在區(qū)分度小的問題,使得許多語義相近的實體被相對密集的表示,進(jìn)而影響實體對齊的效果.
圖2 模型的損失值曲線
由于TransH+GAT組合模型的準(zhǔn)確率高于其他組合,因此本文選用該組合模型作為最終的跨語言實體對齊方案,模型的損失值如圖2所示.由圖2可以看出:知識嵌入模型的Loss曲線整體較為平穩(wěn),損失值較低;圖嵌入模型的Loss曲線隨迭代次數(shù)的增加呈現(xiàn)平緩下降的趨勢,且著隨迭代次數(shù)的增加模型的Loss曲線與知識嵌入模型的Loss曲線逐漸接近.以上結(jié)果表明模型的訓(xùn)練效果較好,能夠滿足對齊任務(wù)的使用.
研究顯示,本文提出的融合圖嵌入和知識嵌入的中韓雙語實體對齊模型的Hits@1、Hits@5和Hits@10,在韓文對齊中文時分別達(dá)到了49.62%、80.89%和91.76%,在中文對齊韓文時分別達(dá)到49.79%、80.74%和91.67%,且優(yōu)于傳統(tǒng)的基于知識嵌入和圖嵌入的對齊方法,因此該模型可為構(gòu)建中韓對齊知識圖譜以及其他語言的對齊知識圖譜提供參考.在今后的研究中,我們將對影響圖神經(jīng)網(wǎng)絡(luò)和知識表示模型效果的因素(如知識表示模型的復(fù)雜程度)做進(jìn)一步的分析,并研究其他圖嵌入方法與知識嵌入方法相融合的效果,以探索更為有效的跨語言實體對齊策略.