蘇哲晗,徐 濤,沙寶程,戴玉剛
(西北民族大學(xué) 語言與文化計(jì)算教育部重點(diǎn)實(shí)驗(yàn)室,甘肅 蘭州 730030)
知識圖譜融合面臨的一個難題是不同知識圖譜對同一個現(xiàn)實(shí)實(shí)體往往有著不同的表示,如中文知識圖譜中的“勒布朗·詹姆斯”和英文知識圖譜中的“LeBron James”雖然表示形式不同,但都指向現(xiàn)實(shí)中的同一個NBA 球星.實(shí)體對齊能夠?qū)碜圆煌R圖譜的等價實(shí)體對齊到相同的真實(shí)世界身份.然而高效的實(shí)體對齊并不簡單,因?yàn)楝F(xiàn)實(shí)生活中不同的知識圖譜通常具有異構(gòu)的模式.因此,不同知識圖譜的等價實(shí)體可能具有不同的表示形式以及不同的鄰域結(jié)構(gòu).
早期的實(shí)體對齊多采用基于概率模型的機(jī)器學(xué)習(xí)方法[1],如關(guān)系貝葉斯網(wǎng)絡(luò)模型[2]、隱狄利克雷分配(Latent Dirichlet Allocation,LDA)模型[3]以及Markov 邏輯網(wǎng)模型[4]等.然而,概率模型在大規(guī)模知識圖譜的應(yīng)用中存在很嚴(yán)重的效率瓶頸.隨著近年來深度學(xué)習(xí)的高速發(fā)展,如今主流的實(shí)體對齊方法主要基于圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Network,GNN)[5],其主要過程是通過GNN 提取每個實(shí)體的特征,將提取到的特征嵌入低維向量空間,測量候選實(shí)體嵌入之間的距離,實(shí)現(xiàn)實(shí)體對齊.2018 年Wang等[6]提出了基于圖卷積網(wǎng)絡(luò)(Graph Convolutional Network,GCN)的實(shí)體對齊模型,實(shí)現(xiàn)了對齊效果的飛躍.但是由于普通的GCN 操作于無向圖上,基于GCN 的模型會忽略知識圖譜的關(guān)系信息.之后Schlichtkrull 等[7]提出的關(guān)系圖卷積網(wǎng)絡(luò)(Relational Graph Neural Networks,RGCN)模型克服了無法嵌入關(guān)系信息的問題,然而由于RGCN 為每個關(guān)系都使用一個權(quán)重矩陣,使得模型的訓(xùn)練變得困難.2019 年Wu 等[8]提出了關(guān)系感知雙圖卷積網(wǎng)絡(luò)(Relation-aware Dual-Graph Convolutional Network,RDGCN)模型,該模型在GCN 的基礎(chǔ)上增加原始圖的對偶圖(圖中的節(jié)點(diǎn)表示關(guān)系),同時利用一個圖注意力機(jī)制促進(jìn)對偶圖和原始圖之間的交互,從而實(shí)現(xiàn)了關(guān)系信息的融合,提升了實(shí)體對齊的效果.盡管如此,許多實(shí)體對齊的模型卻只考慮了關(guān)系的嵌入,但是知識圖譜還存在大量的屬性信息,有效地利用屬性信息將有助于提升實(shí)體對齊的準(zhǔn)確率.
知識圖譜中除了存在關(guān)系三元組(頭實(shí)體-關(guān)系-尾實(shí)體)之外,還存在數(shù)量龐大的屬性三元組(實(shí)體-屬性名-屬性值).如在BDP15K 的中英文數(shù)據(jù)集中,就存在中文屬性三元組379 684 對和英文屬性三元組567 755 對,遠(yuǎn)遠(yuǎn)超過各自的關(guān)系三元組的數(shù)量.考慮到屬性信息的多樣性,本文通過嵌入每個實(shí)體的屬性名獲取屬性信息,實(shí)體的屬性信息的示例如表1 所示.
表1 實(shí)體的屬性信息示例Tab.1 Examples of attribute information for entities
本文在改進(jìn)Wang 等[6]基于GCN 的屬性嵌入的基礎(chǔ)上,結(jié)合RDGCN[8]的實(shí)體關(guān)系嵌入模型的理念,提出了融合屬性信息的精簡關(guān)系感知雙圖卷積網(wǎng)絡(luò)(Relation-aware Dual-Graph Lite Convolutional Network fusing Attribute,RDGLite-A)模型.本文主要貢獻(xiàn)如下:
(1)在不改變對齊效果的情況下化簡了RDGCN模型,提出了RDGLite-A 模型;
(2)改進(jìn)了RDGCN 沒有考慮屬性特征的問題,實(shí)驗(yàn)結(jié)果表明,RDGLite-A 模型在DBP15K 數(shù)據(jù)集上的實(shí)驗(yàn)效果明顯優(yōu)于初始的RDGCN 模型以及目前主流的實(shí)體對齊模型.
1.1 基于嵌入的實(shí)體對齊早期大多數(shù)基于嵌入的實(shí)體對齊方法都采用基于TransE[9]模型學(xué)習(xí)實(shí)體嵌入和關(guān)系嵌入.傳統(tǒng)的TransE 模型假設(shè)關(guān)系是關(guān)系三元組中從頭實(shí)體到尾實(shí)體的轉(zhuǎn)換,TransE將所有關(guān)系和實(shí)體嵌入到知識圖譜的統(tǒng)一向量空間中.MTransE 模型[10]將每個知識圖譜的實(shí)體和關(guān)系在各自的嵌入空間中進(jìn)行編碼,同時為每個嵌入向量提供到其他嵌入空間的轉(zhuǎn)換.ITransE 模型[11]首先學(xué)習(xí)實(shí)體嵌入和關(guān)系嵌入,然后根據(jù)對齊種子將不同知識圖譜的嵌入表示映射到聯(lián)合空間中,同時使用新發(fā)現(xiàn)的對齊實(shí)體對更新實(shí)體的聯(lián)合嵌入,進(jìn)行迭代實(shí)現(xiàn)實(shí)體對齊.TransEdge 模型[12]根據(jù)特定的頭尾實(shí)體對將關(guān)系表示上下文化,實(shí)現(xiàn)實(shí)體對齊.因?yàn)橹荒芙<?xì)粒度的關(guān)系語義,基于TransE 的方法缺點(diǎn)是難以保留知識圖譜的全局結(jié)構(gòu)信息[13].
1.2 圖卷積神經(jīng)網(wǎng)絡(luò)隨著GCN 引入實(shí)體對齊領(lǐng)域,越來越多基于GCN 的實(shí)體對齊方法出現(xiàn),如今GCN 及其衍生模型成為了實(shí)體對齊領(lǐng)域最熱門的方法.GCN 模型假設(shè)在知識圖譜中指向同一現(xiàn)實(shí)對象的實(shí)體通常具有相似的鄰居結(jié)構(gòu),基于GCN 的實(shí)體對齊方法的原理是在圖上傳播和聚合實(shí)體的特征和信息,以收集相鄰實(shí)體的表示.
最早使用GCN 來嵌入實(shí)體特征的模型是GCN-Align[6],其原理是通過雙層GCN 學(xué)習(xí)實(shí)體的結(jié)構(gòu)嵌入和屬性嵌入,計(jì)算待匹配實(shí)體間的距離,實(shí)現(xiàn)實(shí)體對齊.雖然GCN-Align 模型相對較為簡單,對齊效果仍有很大的進(jìn)步空間,但該模型在當(dāng)時極具開創(chuàng)性,也成為后續(xù)實(shí)體對齊模型比較的基線模型.
RDGCN 模型[8]通過構(gòu)建關(guān)系對偶圖獲取關(guān)系信息,同時通過關(guān)系的注意力權(quán)值更新實(shí)體的關(guān)系嵌入,最終使實(shí)體嵌入中包含關(guān)系信息,提高了對齊的準(zhǔn)確率.然而RDGCN 模型的關(guān)系嵌入部分包含兩個關(guān)系交互層,總計(jì)4 個圖注意力網(wǎng)絡(luò)(Graph Attention Network,GAT),模型較為復(fù)雜.
AliNet 模型[14]利用注意機(jī)制對直接鄰居和多跳鄰居的信息進(jìn)行聚合,以端到端方式找到重要的鄰居,實(shí)現(xiàn)高效的實(shí)體對齊.然而AliNet 模型在聚合信息時,同等地考慮了實(shí)體的所有直接鄰居.事實(shí)上,并不是所有的直接鄰居信息都對目標(biāo)實(shí)體有積極的貢獻(xiàn),因此,如果不仔細(xì)選擇合適的鄰居,可能會引入噪聲從而降低對齊的效果[15].
NMN 模型[15]為了克服AliNet 存在的不足,采用一種創(chuàng)新的圖形采樣策略識別信息最豐富的鄰居,利用基于注意力的交叉圖匹配機(jī)制,聯(lián)合比較兩個實(shí)體的判別子圖,以實(shí)現(xiàn)健壯的實(shí)體對齊.但是NMN 需要做大量的計(jì)算尋找合適的候選鄰居,帶來了較大的訓(xùn)練開銷.
此外,還有一些模型也考慮了屬性信息對于實(shí)體對齊的幫助,如AttrE 模型[16]使用改進(jìn)的TransE模型嵌入屬性信息;魏忠誠等[17]使用變異系數(shù)篩選重要的屬性信息;車超等[18]使用全連接層和高速門嵌入屬性信息.參考了上述研究,本文采取GCN 和高速門實(shí)現(xiàn)屬性信息的嵌入.
RDGLite-A 模型整體框架如圖1 所示.RDGLite-A 模型可以分為兩部分:第一部分是參考RDGCN進(jìn)行簡化的關(guān)系結(jié)構(gòu)嵌入模塊,由雙層GAT 與帶有高速門的雙層GCN 組合而成,通過生成關(guān)系對偶圖并利用注意力機(jī)制將關(guān)系信息融合到結(jié)構(gòu)嵌入中[8];第二部分是屬性嵌入模塊,由帶有高速門的雙層GCN 組成,實(shí)現(xiàn)含有屬性信息的結(jié)構(gòu)嵌入.之后將前兩部分的特征嵌入融合,實(shí)現(xiàn)最終的實(shí)體嵌入.
圖1 RDGLite-A 模型整體框架Fig.1 Overall framework of RDGLite-A
2.1 初始嵌入本文使用了Wu 等在其RDGCN模型[8]中的實(shí)體嵌入初始化方法.該方法先使用Google Translate 將非英語實(shí)體名(DBP15K 中的漢語、日語、法語)翻譯成英語,再利用基于預(yù)訓(xùn)練的Glove 詞向量(glove.840B.300d)對實(shí)體進(jìn)行初始嵌入.這種初始嵌入方法可以保留實(shí)體名的上下文語義信息,大幅度提高對齊效果.這種嵌入方法也應(yīng)用到了Wu 等后續(xù)的NMN 模型[15].而屬性初始嵌入則采用了Pytorch 工具包中的nn.Embedding函數(shù),該函數(shù)能利用輸入的單詞索引生成任意維度的詞向量,適合簡單的初始嵌入.
2.2 關(guān)系嵌入傳統(tǒng)的RDGCN 模型由兩個關(guān)系交互層和兩個GCN 層組成,其中每個關(guān)系交互層各有兩個GAT 層實(shí)現(xiàn)關(guān)系的表示和與實(shí)體嵌入的交互.RDGCN 模型復(fù)雜度較高,模型訓(xùn)練的資源消耗也比較大,因此本文通過減少一個關(guān)系交互層來化簡RDGCN 模型,在減少了模型的復(fù)雜程度的同時,也實(shí)現(xiàn)了和傳統(tǒng)RDGCN 相近的效果.本文的關(guān)系嵌入流程如圖2 所示.
圖2 關(guān)系嵌入的主要流程Fig.2 The main process of relation embeddings
2.2.1 關(guān)系嵌入層 關(guān)系嵌入層通過關(guān)系對偶圖的機(jī)制將實(shí)體嵌入轉(zhuǎn)化為關(guān)系嵌入.為了將關(guān)系更好的特征整合到結(jié)構(gòu)嵌入中,本文參考RDGCN模型的關(guān)系對偶圖和注意力機(jī)制[8]提取知識圖譜的關(guān)系特征.從形式上來看,RDGCN 在初始圖譜的基礎(chǔ)上建立了一個關(guān)系對偶圖,在這個對偶圖中,關(guān)系作為圖中的節(jié)點(diǎn),而邊的權(quán)重則與原始圖中頭實(shí)體與尾實(shí)體有關(guān).給定原始圖G,構(gòu)造對偶圖G′,G′中 頂點(diǎn)ri和rj的邊的權(quán)重wij為:
式中:Hi、Hj和Ti、Tj分別是原始圖G中 關(guān)系ri、rj的頭實(shí)體和尾實(shí)體集合.
與直接給與關(guān)系嵌入相比,用頭尾實(shí)體嵌入近似表示關(guān)系嵌入可以大大減少需要訓(xùn)練的參數(shù).對于每一個關(guān)系ri,其嵌入ci可表示為:
2.2.2 關(guān)系注意力層 為了強(qiáng)化關(guān)系的嵌入表示,讓初始的關(guān)系嵌入通過一個GAT 層獲得關(guān)系的注意力得分,以此增強(qiáng)關(guān)系的嵌入表示:
2.2.3 實(shí)體注意力層 為了將先前得到的關(guān)系嵌入融合進(jìn)實(shí)體的嵌入中,本層采用了一個GAT實(shí)現(xiàn)關(guān)系信息和實(shí)體信息的融合,更新初始的實(shí)體嵌入表示.通過這種方式獲得的嵌入表示將包含節(jié)點(diǎn)間的關(guān)系信息.
具體來說,對于中的每一個 G 中的實(shí)體ei,通過本層的嵌入輸出為:
2.2.4 實(shí)體嵌入加權(quán)層 由于初始的實(shí)體嵌入是由基于預(yù)訓(xùn)練的Glove 詞向量進(jìn)行初始嵌入的,包含一定的上下文信息,因此初始嵌入信息同樣非常重要.通過將初始嵌入與注意力層的輸出混合,獲得合適的實(shí)體嵌入:
2.3 結(jié)構(gòu)嵌入和屬性嵌入本文采用帶高速門的雙層GCN 分別實(shí)現(xiàn)實(shí)體的結(jié)構(gòu)嵌入和屬性的嵌入.GCN 能夠聚合節(jié)點(diǎn)周圍鄰居的特征更新自身的節(jié)點(diǎn)特征,以此可以作為實(shí)體結(jié)構(gòu)信息的嵌入.
對于每一層GCN 的輸入X(l),其輸出X(l+1)可以表示為:
與實(shí)體結(jié)構(gòu)信息嵌入類似,實(shí)體的屬性嵌入也采取帶高速門的雙層GCN.為了減少訓(xùn)練的復(fù)雜度,模型只選取所有屬性中出現(xiàn)數(shù)量最多的2000個屬性.給予初始的屬性嵌入,第1 層的GCN 輸出為:
為了同時使用包含關(guān)系信息的結(jié)構(gòu)嵌入和屬性嵌入進(jìn)行實(shí)體對齊,還需要對嵌入向量進(jìn)行拼接:
式中:X′表 示拼接后的最終嵌入表示;Xe表示關(guān)系結(jié)構(gòu)嵌入模塊輸出的結(jié)構(gòu)嵌入;Xattr表示屬性嵌入模塊輸出的屬性嵌入;θ表示權(quán)重參數(shù);||表示向量的拼接操作.
2.4 初步實(shí)體對齊由于RDGLite-A 模型中的結(jié)構(gòu)嵌入和屬性嵌入需要不同訓(xùn)練參數(shù),本文采取平行訓(xùn)練的方式訓(xùn)練結(jié)構(gòu)嵌入和屬性嵌入.來自關(guān)系結(jié)構(gòu)嵌入模塊的結(jié)構(gòu)嵌入和屬性嵌入模塊的屬性嵌入分別通過初步實(shí)體對齊模塊訓(xùn)練出合適的嵌入表示.簡單來說,通過初步實(shí)體對齊模塊可以分別獲得結(jié)構(gòu)信息和屬性信息的局部最優(yōu)嵌入,再通過最終的實(shí)體對齊模塊找出合適的拼接權(quán)重θ,從而獲得聯(lián)合關(guān)系屬性信息的最優(yōu)嵌入.
2.5 實(shí)體對齊對于給定的兩個知識圖譜 G1和 G2,期望對齊后的等價實(shí)體對之間的距離要盡可能接近,非等價的實(shí)體對之間的距離盡可能遠(yuǎn)離.因此,本文利用基于邊界的損失函數(shù)L作為訓(xùn)練目標(biāo),同時使用Adam 優(yōu)化器使損失函數(shù)L最小化.
2.6 評價指標(biāo)Hits@n是知識圖譜對齊中常用的評價指標(biāo),表示在候選的前n個結(jié)果中命中正確三元組實(shí)體對的占比,Hits@n計(jì)算公式如下:
式中:|S|表 示三元組集合數(shù);ri表 示第i個三元組的預(yù)測排名;I(·)表示indicator 函數(shù),若函數(shù)輸入條件為真返回為1,否則為0.
3.1 數(shù)據(jù)集介紹本文采用DBP15K 數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)與測試.DBP15K 數(shù)據(jù)集是建立在漢語(ZH)、英語(EN)、日語(JA)、法語(FR)版本的DBpedia數(shù)據(jù).每個數(shù)據(jù)集包含來自兩個的跨語言數(shù)據(jù),分別為ZH-EN 數(shù)據(jù)集、JA-EN 數(shù)據(jù)集和FR-EN 數(shù)據(jù)集,并提供15 000 個預(yù)先對齊的實(shí)體對用于模型的訓(xùn)練和測試.表2 給出了DBP15K 數(shù)據(jù)集的統(tǒng)計(jì)信息.為了便于模型的實(shí)驗(yàn)對比,使用與RDGCN代碼相同的訓(xùn)練集劃分,即在預(yù)先對齊的實(shí)體對中劃分30%作為訓(xùn)練集用于模型訓(xùn)練,其余的70%作為測試集用于對模型進(jìn)行評估.
表2 DBP15K 數(shù)據(jù)集匯總Tab.2 Summary of the DBP15K datasets
3.2 關(guān)系嵌入的實(shí)驗(yàn)設(shè)置在不考慮屬性嵌入的情況下,本文采用的基于RDGCN 化簡的模型RDGLite 與原模型有著相似的對齊效果,表3 展示RDGLite 模型與RDGCN 的實(shí)驗(yàn)效果,其中RDGCN(600)和RDGLite(600)表示訓(xùn)練輪次epoch=600 時兩種模型的訓(xùn)練效果,RDGCN(300)和RDGLite(300)表示epoch=300 時的訓(xùn)練效果.
表3 RDGLite 與RDGCN 的對比Tab.3 Comparison of RDGLite and RDGCN %
從表3 可以看出,使用RDGCN 代碼中設(shè)定的epoch=600 參數(shù)下,與epoch=300 相比,測試集對齊效果不但沒有提升,反而在3 個數(shù)據(jù)集上均有下降,出現(xiàn)了過擬合.為了探究不同epoch 參數(shù)下對RDGLite 的對齊效果的影響,通過多次實(shí)驗(yàn)得出圖3 的數(shù)據(jù).如圖3 所示,在ZH-EN 和JR-EN 兩個數(shù)據(jù)集上,雖然epoch=400 下測試集的對齊效果最好,但相比epoch=300 效果提升有限(Hits@1 均增長不到0.2),而在FR-EN 數(shù)據(jù)集上,RDGLite 在epoch=300 后開始較大幅度下降.綜合3 個數(shù)據(jù)集來看,RDGLite 在epoch=300 上效果最為均衡,因此本文的RDGLite 的實(shí)驗(yàn)數(shù)據(jù)是基于epoch=300參數(shù)下的訓(xùn)練結(jié)果.
圖3 訓(xùn)練輪次對實(shí)體對齊效果的影響Fig.3 The effect of epoch on entity alignment
3.3 屬性嵌入的實(shí)驗(yàn)設(shè)置為了尋找合適的屬性嵌入模型,本文選擇了單層GCN、雙層GCN 和帶高速門的雙層GCN 進(jìn)行屬性嵌入效果的對比,實(shí)驗(yàn)數(shù)據(jù)同樣采用DBP15K 數(shù)據(jù)集,參數(shù)選擇為epoch=3 000,3 種模型在屬性嵌入的測試結(jié)果如表4所示.
表4 候選的屬性嵌入模型對比Tab.4 Comparison of candidate attribute embedding models %
從表4 可以看出,基于GCN 的3 個模型在DBP15K(ZH-EN)數(shù)據(jù)集上有著最好的效果,而在DBP15K(FR-EN)數(shù)據(jù)集上效果相對較差.帶高速門的雙層GCN 憑借著合適的層數(shù)和高速門的幫助在3 種跨語言的數(shù)據(jù)集上都有最高的對齊準(zhǔn)確率,雙層GCN 其次,單層GCN 因?yàn)閷訑?shù)不夠訓(xùn)練效果最差.綜合實(shí)驗(yàn)結(jié)果,本文最終選擇帶高速門的雙層GCN 模型進(jìn)行屬性嵌入.
3.4 聯(lián)合嵌入的參數(shù)選擇最終的聯(lián)合表示嵌入由RDGLite 的關(guān)系結(jié)構(gòu)嵌入和帶高速門的雙層GCN 的屬性嵌入拼接而成,兩者拼接權(quán)重 θ的取值直接影響最終的對齊效果.為了探究權(quán)重 θ對實(shí)體對齊效果的影響,本文在DBP15K 的3 個數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),效果如圖4 所示.在θ=0.7 時,聯(lián)合嵌入對齊效果最好.在DBP15K(ZH-EN)和DBP15K(FR-EN)這兩個數(shù)據(jù)集中,當(dāng)θ=0.7 時,Hits@1 值取得最優(yōu),此時對齊效果最好;在DBP15K(JA-EN)數(shù)據(jù)集中,θ=0.8 時,Hits@1 值取得最優(yōu),但是相比θ=0.7 時提升有限,且Hits@10 值下降明顯,所以綜合考慮最終選拼接權(quán)重θ=0.7,此時聯(lián)合嵌入效果綜合最優(yōu).
圖4 權(quán)重 θ對實(shí)體對齊效果影響Fig.4 The effect of weight θ on entity alignment performance
綜上所述,本文使用epoch=300 參數(shù)下的RDGLite模型、epoch=3 000 參數(shù)下帶高速門的雙層GCN、拼接權(quán)重取值為0.7 的聯(lián)合嵌入作為最終的實(shí)體嵌入模型.
3.5 實(shí)驗(yàn)結(jié)果與分析為了評估RDGLite-A 模型的對齊效果,本文與2 種基于翻譯的嵌入模型、3種基于GCN 的嵌入模型以及2 種基于詞向量初始化的模型進(jìn)行對比.本文選擇的候選模型分別為MTransE[10]、JAPE[20]、GCN-Align[6]、RGCN[7]、AliNet[14]、NMN[15]、RDGCN[8],共7 種實(shí)體對齊模型,實(shí)驗(yàn)結(jié)果如表5 所示.
表5 RDGlite-A 與其他嵌入模型的對齊結(jié)果對比Tab.5 Comparison of alignment performance between RDGLite-A and other embedding models %
從數(shù)據(jù)集的角度來看,基于GCN 的模型在ZHEN 數(shù)據(jù)集上的對齊效果往往相對較差,而在FREN 數(shù)據(jù)集通常都有較好的對齊效果.從模型的角度來看,傳統(tǒng)的基于翻譯的對齊模型效果最差,在未進(jìn)行詞向量初始化的基于GCN 的對齊模型中AliNet 憑借聚合直接鄰居和多跳鄰居的信息,與GCN-Align、RGCN 相比有著大幅度的領(lǐng)先,而NMN、RDGCN 以及本文提出的RDGLite-A 這3種進(jìn)行了詞向量初始嵌入的模型在對齊準(zhǔn)確率上遠(yuǎn)遠(yuǎn)超過未進(jìn)行詞向量初始化的普通GCN 模型,體現(xiàn)了詞向量初始化對實(shí)體對齊的提升明顯.此外,本文提出的RDGLite-A 在3 種跨語言的數(shù)據(jù)集上都取得了最優(yōu)的效果,尤其在ZH-EN 和JA-EN 兩種數(shù)據(jù)集上Hits@1 相比原始的RDGCN 分別提升了6.42 和4.59 個百分點(diǎn),即使是對齊效果已經(jīng)非常好的DBP15K(FR-EN)上也有1.98 個百分點(diǎn)的提升,充分體現(xiàn)了屬性嵌入對實(shí)體對齊效果的提升.
3.6 對齊種子敏感度分析為研究訓(xùn)練集劃分的比例對實(shí)體對齊效果的影響,本文在DBP15K 的3個跨語言數(shù)據(jù)集上進(jìn)行了對齊種子敏感度測試.為了盡可能展現(xiàn)測試結(jié)果,本文選取了10%、20%、30%、40%、50%這5 種劃分比例,并于GCN-Align模型和RDGCN 模型上進(jìn)行對比,如圖5 所示.
圖5 不同對齊種子比例對對齊效果的影響Fig.5 The effect of different alignment seed ratios on the alignment performance
從圖5 中可以看出,GCN-Align 不僅對齊效果遠(yuǎn)遠(yuǎn)不如RDGCN 和RDGLite-A 優(yōu)秀,而且明顯受對齊種子數(shù)量的影響,3 個數(shù)據(jù)集中對齊種子比例選擇10%和50%的Hits@1 值相差近30%.本文的RDGLite-A 模型繼承了RDGCN 模型對于對齊種子變化不敏感的特性,即使在只有10%對齊種子作為訓(xùn)練集的情況下也有著極其優(yōu)秀的對齊效果:在ZH-EN、JA-EN、FR-EN 這3 個數(shù)據(jù)集中Hits@1 值分別為71.21%、75.03%和87.11%,此效果接近RDGCN 在30%對齊種子作為訓(xùn)練集的情況下的Hits@1 值.綜上所述,RDGLite-A 模型在對齊種子比例變化的過程中對齊效果保持穩(wěn)定,魯棒性較強(qiáng).
本文提出了一種融合屬性信息與關(guān)系注意力的跨語言實(shí)體對齊模型.一方面化簡了RDGCN 模型提出了RDGLite 模型,使其在較低的訓(xùn)練資源消耗的同時幾乎不改變對齊效果;另一方面利用帶高速門的雙層GCN 提取了知識圖譜的屬性信息,結(jié)合關(guān)系嵌入和結(jié)構(gòu)嵌入獲得更有的對齊效果.本文在DBP15K 的3 個跨語言數(shù)據(jù)集上與目前較先進(jìn)的實(shí)體對齊方法進(jìn)行比較,實(shí)驗(yàn)結(jié)果表明RDGLite-A 模型較大幅度地提高了實(shí)體對齊的效果.后續(xù)嘗試將多跳鄰居信息以及屬性的語義特征融合到模型中,進(jìn)一步提升對齊的準(zhǔn)確率.