国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

解糾纏鄰域信息聚合的知識(shí)圖譜補(bǔ)全方法

2024-05-24 04:45:35馬浩凱祁云嵩吳宇斌
關(guān)鍵詞:注意力機(jī)制

馬浩凱 祁云嵩 吳宇斌

摘 要:針對(duì)現(xiàn)有基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)補(bǔ)全模型在處理知識(shí)圖譜異構(gòu)性上的不足,及大部分模型采用單一靜態(tài)實(shí)體表示方式導(dǎo)致的模型表達(dá)能力受限問題,提出一種基于圖注意力網(wǎng)絡(luò)的解糾纏鄰域信息聚合模型。首先,該模型通過學(xué)習(xí)每個(gè)實(shí)體的解糾纏表示,對(duì)實(shí)體的潛在影響因子進(jìn)行多組件表示。其次,利用注意力機(jī)制,為兩個(gè)相連的實(shí)體選擇最具影響力的潛在影響因子作為連接要素。接著,通過關(guān)系感知注意力機(jī)制自適應(yīng)地聚合實(shí)體因子級(jí)的鄰域消息,有效地減少了在信息聚合過程中不相關(guān)信息的相互干擾,進(jìn)而顯著增強(qiáng)了模型的語義表達(dá)能力。此外,為了使模型在評(píng)分過程中關(guān)注與給定關(guān)系最相關(guān)的實(shí)體組件,進(jìn)一步引入了一個(gè)自適應(yīng)評(píng)分系數(shù),使模型能夠自適應(yīng)地感知給定的關(guān)系與實(shí)體不同組件的關(guān)聯(lián)度。實(shí)驗(yàn)結(jié)果顯示,提出的模型在WN18RR和FB15K-237數(shù)據(jù)集的知識(shí)圖譜補(bǔ)全任務(wù)上相較其他先進(jìn)基線模型表現(xiàn)更優(yōu),并顯著地增強(qiáng)了模型的表達(dá)能力。

關(guān)鍵詞:知識(shí)圖譜補(bǔ)全; 圖神經(jīng)網(wǎng)絡(luò); 解糾纏鄰域信息; 注意力機(jī)制

中圖分類號(hào):TP391?? 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2024)03-018-0772-07

doi:10.19734/j.issn.1001-3695.2023.07.0294

Knowledge graph completion method for disentangledneighborhood information aggregation

Ma Haokai, Qi Yunsong, Wu Yubin

(School of Computer, Jiangsu University of Science & Technology, Zhenjiang Jiangsu 212000, China)

Abstract:Addressing the shortcomings of existing knowledge completion models based on graph neural networks in handling the heterogeneity of knowledge graphs and the limitations posed by most models adoption of a single static entity representation, this paper introduced a model based on the graph attention mechanism for disentangled neighborhood information aggregation. Initially, this paper learnt the disentangled representation of each entity, providing a multi-component representation for the latent influential factors of entities. Using the attention mechanism, the model selected the most influential latent factors as connection elements for two connected entities. Subsequently, by leveraging a relation-aware attention mechanism, the model adaptively aggregated neighborhood messages at the entity factor level, effectively reducing interference from irrelevant information during aggregation and significantly enhancing the models semantic representation capability. Moreover, to focus on the most relevant entity component in the scoring process with a given relation, this paper introduced an adaptive scoring coefficient, enabling the model to perceive the relevance between the given relationship and various entity components adaptively. Experimental results on the WN18RR and FB15K-237 datasets indicate that the proposed model outperforms other advanced baseline models in knowledge graph completion tasks, substantially enhancing the models expressive power.

Key words:knowledge graph completion; graph neural network; disentangled neighborhood information; attention mechanism

0 引言

知識(shí)圖譜(KG)是真實(shí)世界信息的結(jié)構(gòu)化映射,用于描述實(shí)體或概念間的關(guān)聯(lián)。KG的應(yīng)用遍及多個(gè)領(lǐng)域,如問答系統(tǒng)[1]、信息檢索[2]和基于內(nèi)容的推薦系統(tǒng)[3]等。隨著技術(shù)的發(fā)展,知識(shí)圖譜越來越普及,當(dāng)前流行的大型KG有WikiData[4]、Google KG[5]等,然而即使是這些擁有上百萬個(gè)實(shí)體和數(shù)十億個(gè)事實(shí)的大型知識(shí)圖譜也不可避免地存在知識(shí)不完整性問題。因此,知識(shí)圖譜補(bǔ)全(knowledge graph completion,KGC)技術(shù)被提出,用來解決KG中知識(shí)不完整性問題。目前,知識(shí)圖譜嵌入技術(shù)(knowledge graph embedding,KGE)已經(jīng)成為知識(shí)圖譜補(bǔ)全任務(wù)的主流方法。知識(shí)圖譜嵌入模型主要有平移距離模型[6~10]、雙線性模型[11~14]和神經(jīng)網(wǎng)絡(luò)模型[15~30]三類。平移距離模型以TransE[6]為代表,它以轉(zhuǎn)換關(guān)系將頭實(shí)體映射到尾實(shí)體,但對(duì)復(fù)雜關(guān)系和多語義問題處理能力有限,因此出現(xiàn)了TransG [7]、TransH[8]、TransR[9]、TransD[10]等改進(jìn)模型。雙線性模型,如DistMult[11],以二維矩陣形式表示關(guān)系嵌入,但其不能對(duì)非對(duì)稱關(guān)系建模,后期研究者提出ComplEx[12]、Ana-logy[13]、SimplE[14]等模型以增強(qiáng)對(duì)非對(duì)稱關(guān)系建模的能力。

平移距離模型[6~10]和雙線性模型[11~14]主要挖掘?qū)嶓w間的線性關(guān)系,對(duì)知識(shí)圖譜中的潛在信息挖掘能力不足。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型[15,16,26]因能有效挖掘KG中的潛在信息,逐漸成為研究焦點(diǎn),例如ConKB[15]、ConvE[16]等模型。其中ConvE[16]模型將頭實(shí)體和關(guān)系拼接重塑為二維矩陣,然后使用卷積濾波器對(duì)重塑的二維矩陣進(jìn)行卷積操作,提取實(shí)體與關(guān)系交互的特征信息,并將特征信息傳遞到密集層,最后將輸出與尾實(shí)體的嵌入進(jìn)行點(diǎn)積,從而得到事實(shí)三元組的得分。然而,傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型不能有效挖掘KG中的實(shí)體鄰域信息,而圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)[17~25,27~30]已經(jīng)被證明能夠有效挖掘?qū)嶓w的鄰域信息,因此,越來越多基于圖神經(jīng)網(wǎng)絡(luò)的知識(shí)圖譜嵌入模型被提出,最早的圖神經(jīng)網(wǎng)絡(luò)模型之一是圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)[17],它通過利用鄰域?qū)嶓w的信息來更新每個(gè)實(shí)體的表示。GCN考慮了實(shí)體與其一階鄰域?qū)嶓w之間的關(guān)系,取得了優(yōu)異的性能。隨后,提出了GraphSAGE[18],通過采樣鄰居節(jié)點(diǎn)的方式,使得模型在大規(guī)模圖上更具可擴(kuò)展性。然而在圖卷積網(wǎng)絡(luò)模型中,分配給中心實(shí)體的所有鄰域?qū)嶓w的權(quán)值都是相等的,這顯然不利于捕獲節(jié)點(diǎn)之間的復(fù)雜關(guān)系。因此,研究人員將注意力機(jī)制與GCN[17]相結(jié)合,提出了圖注意力網(wǎng)絡(luò)(graph attention network,GAT)[19],GAT利用注意力機(jī)制為每個(gè)鄰居分配不同的權(quán)重,能夠更好地捕獲節(jié)點(diǎn)之間的復(fù)雜關(guān)系。在GAT的基礎(chǔ)上,KBGAT[20]將關(guān)系納入嵌入過程,能夠更好地捕捉實(shí)體和關(guān)系之間的復(fù)雜依賴關(guān)系。為了適應(yīng)知識(shí)圖譜具有異構(gòu)性的特點(diǎn),RGHAT[21] 、MRGAT[22]和HRAN[23]模型開始關(guān)注關(guān)系對(duì)知識(shí)圖譜異構(gòu)性的影響。其中:RGHAT將實(shí)體的局部鄰域視為一個(gè)層次結(jié)構(gòu),使用注意力機(jī)制分層捕獲鄰域?qū)嶓w與關(guān)系的依賴程度,使實(shí)體聚合更加細(xì)粒度化,同時(shí)提高了模型的可解釋性;MRGAT設(shè)計(jì)了一種能夠適應(yīng)異構(gòu)多關(guān)系連接的不同情況的多關(guān)系圖注意網(wǎng)絡(luò),使模型能夠捕獲實(shí)體在不同關(guān)系下的語義信息;HRAN在不同關(guān)系路徑下通過關(guān)系特征計(jì)算該關(guān)系路徑的重要性,并利用關(guān)系路徑的重要性聚合實(shí)體特征,使模型能夠捕獲各種類型的語義信息。這些模型大多采用編碼器-解碼器框架,在編碼階段運(yùn)用各種圖聚合機(jī)制傳播包含相鄰實(shí)體與關(guān)系的嵌入信息,在解碼階段對(duì)三元組打分。

盡管基于編碼器-解碼器框架的GNN模型在知識(shí)圖譜補(bǔ)全領(lǐng)域取得了重大進(jìn)展,但是,現(xiàn)有的GNN模型在編碼階段通常將具有不同影響因子的實(shí)體和關(guān)系嵌入到一個(gè)低維向量中,這會(huì)導(dǎo)致不同影響因子相互干擾,從而影響模型的語義表達(dá)能力。例如在圖1中,實(shí)體“Steve Jobs”的局部鄰域?qū)嶓w包含了不同的“主題”,如“family”“career”和“birth information”等,本文將這些“主題”視作實(shí)體“Steve Jobs”的潛在影響因子。在圖2中實(shí)體“Steve Jobs”和“Kobe Bryant”擁有相同的國籍,一般的GNN模型通常會(huì)使“Steve Jobs”與“Kobe Bryant”的嵌入表示更接近這種身份,然而在“career”方面,這兩個(gè)人卻表現(xiàn)出很大的差異。顯然,這種將具有不同影響因子的實(shí)體作為一個(gè)整體并利用向量相似性表達(dá)語義信息的靜態(tài)嵌入方法,會(huì)明顯影響知識(shí)補(bǔ)全的性能。

因此,需要一種方法能夠分別考慮并表示這些不同的影響因子,從而提高模型的表達(dá)能力。通過研究發(fā)現(xiàn),解糾纏表示學(xué)習(xí)是解決上述問題的一種有效方法,它旨在將高維、復(fù)雜的數(shù)據(jù)表示分解為一系列獨(dú)立或弱相關(guān)的因子,使這些因子之間的數(shù)據(jù)互不干擾。解糾纏圖卷積網(wǎng)絡(luò)(disen-tangled graph convolutional networks,DisenGCN)[24] 即是基于這一思想提出的。DisenGCN通過鄰域路由機(jī)制調(diào)整每個(gè)鄰居的權(quán)重來捕捉不同的因子通道的特定信息,從而實(shí)現(xiàn)實(shí)體的解糾纏表示,極大地提高了模型的性能,證明了利用解糾纏學(xué)習(xí)提高模型的表達(dá)能力是可行的。然而,DisenGCN模型的鄰域路由機(jī)制更注重將鄰域?qū)嶓w識(shí)別到不同影響因子的表示空間中,在相同的影響因子下,鄰域?qū)嶓w的貢獻(xiàn)度僅由鄰域?qū)嶓w與中心實(shí)體在該因子中的相似度決定,忽略了與該因子中其他鄰域?qū)嶓w比較的過程。因此,本文希望設(shè)計(jì)出一種模型,在相同因子中能夠?qū)⒉煌徲驅(qū)嶓w與中心實(shí)體的相似度進(jìn)行對(duì)比,從而確定在該因子下鄰域?qū)嶓w對(duì)中心實(shí)體的貢獻(xiàn)度。這一過程與傳統(tǒng)的基于GAT的模型相似,不同的是本文采用因子級(jí)對(duì)比來確定鄰域?qū)嶓w信息在信息聚合過程中的權(quán)值,這種做法能夠有效減少不相關(guān)鄰域信息產(chǎn)生的干擾。例如,將圖2中實(shí)體“Steve Jobs”和“Kobe Bryant”的職業(yè)信息與國籍信息聚合到各自對(duì)應(yīng)影響因子的表示空間下,即影響因子對(duì)應(yīng)的表示組件下,由于國籍信息與職業(yè)信息存在于不同的表示空間中,能夠有效避免兩者的國籍信息對(duì)職業(yè)信息造成的干擾。然而,在實(shí)現(xiàn)因子級(jí)鄰域信息聚合之前,面臨的一個(gè)關(guān)鍵挑戰(zhàn)是如何確定不同影響因子中具有哪些鄰域?qū)嶓w。本文觀察到,在知識(shí)圖譜中,中心實(shí)體與鄰域?qū)嶓w產(chǎn)生連接的原因是它們擁有相同潛在影響因子,所以兩個(gè)相連的實(shí)體在導(dǎo)致它們相連的潛在影響因子的表示空間中,要比在其他影響因子下更加相似,并且這種相似度差別越大越好。例如在圖1中,鄰域?qū)嶓w“Apple”與中心實(shí)體“Steve Jobs”在潛在影響因子“career”中要比在“family”中更相似。基于這一觀察,本文利用中心實(shí)體與鄰域?qū)嶓w在不同潛在影響因子的表示空間中的相似度不同,選擇最大相似度的潛在影響因子作為中心實(shí)體與鄰域?qū)嶓w的連接因子,形成新的知識(shí)圖譜連接子圖,從而確定不同影響因子中有哪些與中心實(shí)體相連的鄰域?qū)嶓w。

綜合上述過程,本文結(jié)合注意力機(jī)制提出了一種新的基于圖注意力網(wǎng)絡(luò)的解糾纏鄰域信息聚合模型(disentangled neighborhood information aggregation with graph attention network,DNIAGAT)來解決傳統(tǒng)知識(shí)圖譜補(bǔ)全模型表達(dá)能力不足的問題。DNIAGAT模型能夠根據(jù)知識(shí)圖譜中實(shí)體的性質(zhì)來學(xué)習(xí)其解糾纏表示,將實(shí)體的潛在影響因子分為多個(gè)組件表示,并在兩個(gè)相連的實(shí)體中選擇最重要的影響因子作為連接因子,確保每個(gè)組件相互獨(dú)立。在所選的連接因子中,運(yùn)用關(guān)系感知注意力機(jī)制自適應(yīng)聚合目標(biāo)實(shí)體在該組件(連接因子)下對(duì)應(yīng)一階鄰域?qū)嶓w的嵌入信息。這種方法可以有效增強(qiáng)模型的表達(dá)能力,避免實(shí)體中不同的潛在影響因子相互干擾。此外,為了使模型在解碼的過程中能夠適用給定的關(guān)系,本文引入了一個(gè)關(guān)系感知注意力自適應(yīng)評(píng)分系數(shù),控制評(píng)分函數(shù)對(duì)于給定關(guān)系相近的分量表示給予更高的評(píng)價(jià),提高模型的準(zhǔn)確率。

1 相關(guān)技術(shù)

1.1 解糾纏表示學(xué)習(xí)

解糾纏表示學(xué)習(xí)(disentangled representation learning)旨在將高維、復(fù)雜的數(shù)據(jù)表示分解為一系列獨(dú)立或弱相關(guān)的因子。通過這種方式,模型能夠更好地捕獲潛在的數(shù)據(jù)結(jié)構(gòu),從而提高模型的語義表達(dá)能力和可解釋性。其核心思想是找到一種有效的方法將輸入數(shù)據(jù)的不同屬性或因子分離開來。解糾纏學(xué)習(xí)的目標(biāo)是通過編碼器將輸入數(shù)據(jù)映射到潛在表示空間,在此空間中,數(shù)據(jù)的每個(gè)維度代表一個(gè)獨(dú)立的因子,這意味著改變一個(gè)因子不會(huì)影響其他因子的表示。在圖1中,實(shí)體“Steve Jobs”的鄰居包含了不同的“主題”,如“family”“career”和“education”等。本文將每個(gè)主題視為實(shí)體的一個(gè)影響因子,實(shí)體的每一個(gè)組件對(duì)應(yīng)實(shí)體在該影響因子下的嵌入表示。在預(yù)測三元組時(shí),需要關(guān)注一個(gè)與任務(wù)更相關(guān)的影響因子。假設(shè)在(Steve Jobs,work of,?)的預(yù)測任務(wù)中,所設(shè)計(jì)的模型應(yīng)該更多地關(guān)注“career”組件中的內(nèi)容,如“Apple”,而不是“family”組件中的內(nèi)容。

1.2 圖注意力網(wǎng)絡(luò)

圖注意力網(wǎng)絡(luò)(GAT)是圖神經(jīng)網(wǎng)絡(luò)的一個(gè)重要分支,它將注意力機(jī)制與圖卷積網(wǎng)絡(luò)(GCN)相結(jié)合,利用注意力機(jī)制為其鄰域?qū)嶓w分配不同的權(quán)重,根據(jù)不同的權(quán)重聚合鄰域?qū)嶓w的嵌入信息,從而生成實(shí)體新的嵌入表示。與傳統(tǒng)的圖卷積網(wǎng)絡(luò)相比,GAT的優(yōu)勢在于它可以為每對(duì)相鄰節(jié)點(diǎn)分配不同的權(quán)重,從而實(shí)現(xiàn)對(duì)鄰域信息的自適應(yīng)聚合。這使得模型可以在節(jié)點(diǎn)間的交互中為每個(gè)鄰居分配不同的重要性。研究表明,該方法可以有效挖掘?qū)嶓w鄰域潛在的隱藏信息,提高模型的表達(dá)能力。

本文結(jié)合解糾纏表示學(xué)習(xí)的方法,在相同的潛在影響因子中引入GAT技術(shù),將不同鄰域?qū)嶓w與中心實(shí)體的相似度對(duì)比,確定在該因子下鄰域?qū)嶓w對(duì)中心實(shí)體的貢獻(xiàn)度,使得中心實(shí)體能夠自適應(yīng)地聚合在該因子下的鄰域?qū)嶓w信息,從而實(shí)現(xiàn)因子級(jí)鄰域信息的聚合。

2 準(zhǔn)備工作

本文用G=(E,R,T)表示知識(shí)圖譜,其中E和R分別表示實(shí)體集和關(guān)系集,包含知識(shí)圖譜中所有關(guān)系,T表示三元組集合,(h,r,t)∈T表示一個(gè)三元組,其中h,t∈E,r∈R,每個(gè)三元組表示實(shí)體h與實(shí)體t關(guān)系間存在關(guān)系r。知識(shí)圖補(bǔ)全的任務(wù)包括在知識(shí)圖G中推斷缺失的邊,即預(yù)測一個(gè)給定的頭部實(shí)體和關(guān)系查詢的目標(biāo)實(shí)體(h,r,?)。具體來說,該任務(wù)通常被定義為一個(gè)排名問題,目的是學(xué)習(xí)一個(gè)分?jǐn)?shù)函數(shù)η(h,r,t),為有效的三元組分配比無效三元組更高的分?jǐn)?shù)。這種通過已知三元組來預(yù)測未知三元組的任務(wù)也被稱為鏈接預(yù)測任務(wù),是知識(shí)圖譜補(bǔ)全任務(wù)中的一個(gè)子任務(wù)。

3 本文方法

3.1 模型框架

基于圖注意力網(wǎng)絡(luò)的解糾纏鄰域信息聚合模型(DNIAGAT)遵循編碼器-解碼器框架。為解決傳統(tǒng)GAT模型在嵌入過程中將實(shí)體與關(guān)系信息描述為一個(gè)整體,從而導(dǎo)致模型語義表達(dá)能力不足的缺陷,DNIAGAT編碼器利用解糾纏表示學(xué)習(xí)的方法將每個(gè)實(shí)體表示分為K個(gè)不同的組件,每個(gè)組件負(fù)責(zé)實(shí)體在一個(gè)潛在影響因子下的鄰域?qū)嶓w信息聚合。DNIAGAT模型在編碼階段基于圖注意力網(wǎng)絡(luò)的思想,使用注意力機(jī)制聚合實(shí)體在不同組件(影響因子)下的相關(guān)鄰域?qū)嶓w信息。與DisenGCN模型相比,在聚合過程中,DNIAGAT模型利用注意力機(jī)制能夠自適應(yīng)地感知不同組件(影響因素)下鄰域?qū)嶓w的重要程度,這對(duì)提高模型的表達(dá)能力是非常重要的。在解碼階段,DNINAGAT模型選擇ConvE作為實(shí)體各個(gè)組件之間的評(píng)分函數(shù)。此外,在聚合各個(gè)組件評(píng)分的過程中,DNINAGAT模型還引入了一個(gè)關(guān)系感知自適應(yīng)評(píng)分系數(shù)來控制評(píng)分系統(tǒng),更加關(guān)注與給定關(guān)系相關(guān)的組件分量信息。圖3為實(shí)體e0局部鄰域信息在模型框架中的計(jì)算過程,編碼器部分包括解糾纏表示、鄰域信息聚合等模塊,解碼器包括評(píng)分函數(shù)、自適應(yīng)評(píng)分系數(shù)等模塊。圖中:(a)為e0與鄰域?qū)嶓w原始連接示意圖;(b)為e0在編碼器中聚合不同因子下鄰域?qū)嶓w組件信息的過程;(c)為e0與鄰域?qū)嶓w經(jīng)過解糾纏以及確立連接因子操作后,在不同因子下的實(shí)體連接示意圖;(d)為編碼器輸出實(shí)體新的解糾纏表示作為解碼器的輸入并計(jì)算e0所在三元組最終評(píng)分的過程。

3.2 編碼器

3.2.1 實(shí)體解糾纏表示

在KG中,實(shí)體常常與多種語義相關(guān)。例如在圖1中,實(shí)體“Steve Jobs”與鄰域?qū)嶓w在家庭、職業(yè)等多個(gè)方面相關(guān)聯(lián)。本文DNIAGAT模型的主要目標(biāo)是學(xué)習(xí)實(shí)體的解糾纏表示,通過解糾纏讓實(shí)體的各種語義特征從一個(gè)復(fù)雜的特征向量中分解出來。將特征向量投影到不同的潛在空間中,使每個(gè)組件可以從初始實(shí)體節(jié)點(diǎn)特征中提取不同的語義。具體來說,對(duì)于每個(gè)實(shí)體e,本文希望它的嵌入由K個(gè)獨(dú)立的組件表示,即e=[e1,e2,…,ek],其中ek∈Euclid ExtraaBpd/k描述了實(shí)體e的第k個(gè)潛在影響因子對(duì)應(yīng)的語義特征。設(shè)計(jì)這種策略是基于一個(gè)觀察:每個(gè)潛在影響因子都與實(shí)體的一個(gè)特定語義屬性相對(duì)應(yīng),采用不同的投影矩陣W={W1,W2,…,Wk}來捕獲這些特定的語義屬性。具體過程為

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)現(xiàn)細(xì)節(jié)

本文在NVIDIA RTX 4090上使用PyTorch框架實(shí)現(xiàn)DNIAGAT模型。采用編碼器-解碼器架構(gòu),具體模塊包括數(shù)據(jù)預(yù)處理、實(shí)體解糾纏表示、連接因子選擇、鄰域組件信息聚合、自適應(yīng)評(píng)分系數(shù)和預(yù)測層。所有參數(shù)通過Xavier初始化,確保了早期的穩(wěn)定訓(xùn)練。使用Adam優(yōu)化器,并采取學(xué)習(xí)率衰減策略,初始學(xué)習(xí)率為0.001,每10個(gè)epoch減少10%。本文選取交叉熵作為損失函數(shù),并引入了0.5的dropout和0.000 1權(quán)重的L2正則化防止過擬合。模型訓(xùn)練了300個(gè)epoch,每10個(gè)epoch基于驗(yàn)證集效果進(jìn)行了模型保存。將所得到的實(shí)驗(yàn)結(jié)果與其他較為先進(jìn)的基線模型作對(duì)比,來驗(yàn)證本文模型的先進(jìn)性。通過消融實(shí)驗(yàn),驗(yàn)證解糾纏表示以及因子級(jí)圖注意力機(jī)制聚合鄰域信息的有效性。

4.2 數(shù)據(jù)集

本文實(shí)驗(yàn)采用的數(shù)據(jù)集為WN18RR、FB15K-237,這兩個(gè)數(shù)據(jù)集是知識(shí)圖譜補(bǔ)全任務(wù)常用的數(shù)據(jù)集。WN18RR是從WordNet抽取的子集,包含了40 943個(gè)實(shí)體和11種關(guān)系。由于FB15K中包含大量的逆關(guān)系,這會(huì)影響關(guān)系學(xué)習(xí)的精度,所以本文采用的是FB15K的子集FB15K-237。FB15K-237從FB15K中抽取,并且只保留每對(duì)互逆關(guān)系中的一個(gè)關(guān)系,它包含了14 541個(gè)實(shí)體,237種關(guān)系。兩種數(shù)據(jù)集具體統(tǒng)計(jì)情況如表1所示。

4.3 基線模型以及參數(shù)設(shè)置

為了驗(yàn)證DNIAGAT模型的先進(jìn)性,將該模型與現(xiàn)有較為先進(jìn)的基線模型進(jìn)行了對(duì)比實(shí)驗(yàn)。基線模型包括傳統(tǒng)的知識(shí)圖譜嵌入模型、神經(jīng)網(wǎng)絡(luò)模型。其中傳統(tǒng)的知識(shí)圖譜嵌入模型包括TransE[6]、DistMult[11],神經(jīng)網(wǎng)絡(luò)模型包括ConvE[16]、KBGAT[20]、R-GCN[25]、CompGCN[27]、InteractE[26]、TRAR[28]、LTE-GCE[29]、MVCL[30]。

本文使用PyTorch實(shí)現(xiàn)了該模型,在模型中每個(gè)組件的嵌入維度為200,批處理大小batchsize設(shè)為{128,256,512,1024}。潛在影響因子K分別設(shè)為{2,4,6,8,10},參數(shù)γ值分別設(shè)置為{0.4,0.5,0.6,0.7,0.8},訓(xùn)練迭代輪數(shù)epoch設(shè)置為300。數(shù)據(jù)集FB15K-237、WN18RR的學(xué)習(xí)率分別設(shè)置為0.000 5、0.000 1。

4.4 評(píng)估指標(biāo)

本文選用MR(mean rank)、MRR(mean reciprocal rank)、hits@N作為模型的評(píng)估指標(biāo)。MR是正確實(shí)體或關(guān)系的平均排名,MRR是正確實(shí)體或關(guān)系倒敘的排名。hits@N是一種計(jì)算正確實(shí)體或關(guān)系前N名的評(píng)估方法,例如N為3時(shí),表示正確實(shí)體或關(guān)系排在前3名的比例,本文采用hits@1、hits@3、hits@10三種方法,計(jì)算前1、3、10名正確實(shí)體和關(guān)系的比例。在上述的三個(gè)指標(biāo)中,MR越低、MRR或者h(yuǎn)its@N越高,表明模型的實(shí)驗(yàn)結(jié)果越好,進(jìn)而說明模型的性能更優(yōu)越。

4.5 實(shí)驗(yàn)結(jié)果分析

4.5.1 實(shí)驗(yàn)結(jié)果與基線模型對(duì)比分析

本文在不同的模型上對(duì)數(shù)據(jù)集WN18RR、FB15K-237進(jìn)行了實(shí)驗(yàn),并將本文設(shè)計(jì)的DNIAGAT模型與其他基線模型的評(píng)估結(jié)果進(jìn)行了對(duì)比分析,具體的實(shí)驗(yàn)結(jié)果如表2所示。由表2可知,本文DNIAGAT模型的結(jié)果為所有設(shè)置參數(shù)中表現(xiàn)最好的結(jié)果。在表2中,粗體表示最優(yōu)的性能,帶下畫線的數(shù)據(jù)表示次優(yōu)的性能??梢园l(fā)現(xiàn),在FB15K-237數(shù)據(jù)集上,DNIAGAT模型在MR、MRR、hits@1、hits@3、hits@10指標(biāo)中獲得了最好的性能,與其他最好的基線模型相比,在MRR、hits@1、hits@3、hits@10上性能分別提升了1.2%、1.1%、3.3%、1.7%。在WN18RR數(shù)據(jù)集上,DNIAGAT模型在MRR、hits@1、hits@3、hits@10上表現(xiàn)最佳,與最好的基線模型相比,分別提升了0.6%、1.4%、0.2%、1%。從表2可以發(fā)現(xiàn),DNIAGAT模型在多個(gè)評(píng)估指標(biāo)上都優(yōu)于最先進(jìn)的基線模型,這表明DNIAGAT模型具備有效性和先進(jìn)性。具體來說,DNIAGAT模型利用解糾纏表示學(xué)習(xí),將實(shí)體分為K個(gè)獨(dú)立組件表示,增強(qiáng)了模型的語義表達(dá)能力。在聚合鄰域信息時(shí),每個(gè)組件通過關(guān)系注意力機(jī)制自適應(yīng)地聚合與該組件對(duì)應(yīng)影響因子相關(guān)的鄰域信息,這使得實(shí)體在聚合鄰域信息時(shí)能夠有效避免不相關(guān)鄰域信息的干擾,從而提升模型的性能。

4.5.2 實(shí)驗(yàn)結(jié)果具體實(shí)例分析

本節(jié)結(jié)合FB15K-237數(shù)據(jù)集中實(shí)體在模型中解糾纏表示的具體實(shí)例,來研究解糾纏表示學(xué)習(xí)如何促進(jìn)實(shí)體的嵌入,從而提高知識(shí)圖譜補(bǔ)全任務(wù)的準(zhǔn)確性。詳細(xì)的觀察結(jié)果如圖4所示。

在鄰域信息聚合過程中,首先確定了中心實(shí)體與鄰域?qū)嶓w之間的連接因子,即在k因子中與中心實(shí)體相連的鄰域?qū)嶓w,每一個(gè)因子k表示實(shí)體的一個(gè)潛在影響因素,因此,因子k中的鄰域?qū)嶓w應(yīng)該與一個(gè)“主題”相關(guān)聯(lián)。然后,利用圖注意力機(jī)制自適應(yīng)聚合相同因子中與中心實(shí)體相連的鄰域?qū)嶓w信息。因此,在相同因子中,不同鄰域?qū)嶓w對(duì)應(yīng)的組件信息的貢獻(xiàn)度是不同的。在對(duì)預(yù)測三元組評(píng)分時(shí),通過自適應(yīng)評(píng)分系數(shù)使模型在評(píng)分過程中能夠更加關(guān)注與給定關(guān)系最相關(guān)的實(shí)體組件。

圖4(a)中給出了實(shí)體“Steve Jobs”在不同因子k中,貢獻(xiàn)度排名前2的鄰域?qū)嶓w。從圖4(a)中可以發(fā)現(xiàn),組件C1、C2、C3、C4中的實(shí)體集信息屬于同一個(gè)“主題”,例如在組件C1中,“Apple” 和“Pixar”實(shí)體都是“Steve Jobs”創(chuàng)辦的,它們都反映了“Steve Jobs”在“career”方面的信息,并且“Apple”比“Pixar”的貢獻(xiàn)度大得多,這說明利用圖注意力機(jī)制能夠捕獲到相同因子中不同實(shí)體組件信息的貢獻(xiàn)度。而在組件C2中,包含了實(shí)體“United States of America”和“San Francisco”,兩者都與“birth information”這一主題相關(guān)聯(lián)。因此,根據(jù)圖4(a)可以推測出組件C1、C2、C3、C4為“Steve Jobs”分別在“career”“birth information”“achievement”“family”四個(gè)不同“主題”中的解糾纏表示。圖4(b)給出了預(yù)測三元組(Steve Jobs,place_of_birth,?)在解碼器中不同因子k對(duì)應(yīng)組件的自適應(yīng)評(píng)分系數(shù),可以發(fā)現(xiàn)組件C2的自適應(yīng)評(píng)分系數(shù)值遠(yuǎn)遠(yuǎn)高于其他組件,這是因?yàn)椤皃lace_of_birth”與組件C2反映的主題更相關(guān),同時(shí)這一現(xiàn)象也充分驗(yàn)證了本文對(duì)C2組件對(duì)應(yīng)“birth information”這一主題的推測。圖4(b)的結(jié)果證實(shí)了自適應(yīng)評(píng)分系數(shù)能夠使模型在評(píng)分過程中更加關(guān)注與給定關(guān)系最相關(guān)的實(shí)體組件。

4.6 消融實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證實(shí)體解糾纏表示、關(guān)系信息、因子級(jí)圖注意力機(jī)制、自適應(yīng)評(píng)分系數(shù)對(duì)模型預(yù)測效果的影響。建立DNIAGAT的變體模型DNIAGAT-one、DNIAGAT-rel、DNIAGAT-gcn、DNIAGAT-sco。在DNIAGAT-one模型中設(shè)置因子數(shù)K值為1,使實(shí)體所有的信息都通過一個(gè)特征向量表示,從而使模型失去解糾纏表示的能力,其他部分與DNIAGAT模型一致。DNIAGAT-rel消去了關(guān)系投影矩陣、實(shí)體對(duì)應(yīng)的線性投影矩陣,實(shí)體對(duì)應(yīng)的組件信息不再投影到相應(yīng)的關(guān)系子空間中。其他部分與DNIAGAT模型一樣。DNIAGAT-gcn在聚合因子k中鄰域?qū)嶓w的組件信息時(shí),不再采用圖注意力機(jī)制,而是采用圖卷積操作,即對(duì)因子中鄰域?qū)嶓w組件集合求和除平均值。其他步驟與DNIAGAT一樣。DNIAGAT-sco不再使用自適應(yīng)評(píng)分系數(shù),直接使用ConvE[16]作為解碼器生成三元組最終評(píng)分。將DNIAGAT模型與它的四個(gè)變體模型在數(shù)據(jù)集FB15K-237、WN18RR上分別進(jìn)行了鏈接預(yù)測任務(wù)實(shí)驗(yàn),消融實(shí)驗(yàn)結(jié)果如表3所示。

從消融實(shí)驗(yàn)的結(jié)果可以發(fā)現(xiàn),具備解糾纏表示學(xué)習(xí)能力的模型在兩個(gè)數(shù)據(jù)集上表現(xiàn)更好,并且改善較為明顯,這說明對(duì)實(shí)體進(jìn)行解糾纏表示能夠提升知識(shí)圖譜補(bǔ)全任務(wù)的性能;利用特異性投影矩陣將實(shí)體的組件信息投影到對(duì)應(yīng)的關(guān)系子空間中,從而使模型融入關(guān)系信息,在不同數(shù)據(jù)集上各個(gè)評(píng)估指標(biāo)值都有所提升,說明融入關(guān)系信息對(duì)模型有促進(jìn)作用。利用圖注意力機(jī)制的方法聚合因子中鄰域組件信息對(duì)比利用圖卷積操作的方法,在FB15K-237和WN18RR上的MRR、hits@3、hits@10指標(biāo)分別提升了0.5%、0.9%、1.2%、0.4%、0.6、0.5%。這說明利用圖注意力機(jī)制聚合因子中的鄰域組件信息是有效的;使用自適應(yīng)評(píng)分系數(shù)的模型比不使用自適應(yīng)評(píng)分系數(shù)的模型在兩個(gè)數(shù)據(jù)集上各項(xiàng)指標(biāo)更優(yōu)異,顯然,自適應(yīng)評(píng)分系數(shù)可以促進(jìn)模型的性能。

4.7 超參數(shù)分析

為了驗(yàn)證因子數(shù)量對(duì)模型性能的影響,在其他參數(shù)相同的情況下,設(shè)置不同的K值{2,4,6,8,10},分別在數(shù)據(jù)集WN18RR[22]與FB15K-237[23]上采用hits@3評(píng)估方法進(jìn)行實(shí)驗(yàn),不同K值的表現(xiàn)如圖5所示。

圖5 不同K值下hits@3評(píng)估方法的實(shí)驗(yàn)結(jié)果

Fig.5 Experimental results of hits@3 evaluation methodsat different K values

從圖5中可以發(fā)現(xiàn):在數(shù)據(jù)集WN18RR上,K=6時(shí),模型的性能表現(xiàn)最優(yōu);在數(shù)據(jù)集FB15K-237上,K=8時(shí),模型的表現(xiàn)最優(yōu)。這表明隨著K值的增大,模型在知識(shí)補(bǔ)全任務(wù)上的表現(xiàn)會(huì)更優(yōu),將實(shí)體分為不同組件進(jìn)行解糾纏表示的方法可以有效促進(jìn)知識(shí)圖譜補(bǔ)全任務(wù)的質(zhì)量。然而,并不是K值越大越好,當(dāng)K值增大到一定區(qū)間時(shí),模型的表現(xiàn)會(huì)呈現(xiàn)下降趨勢。從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),K的值對(duì)模型性能的影響是巨大的。因此,設(shè)置合適的K值是本文模型的重點(diǎn)。

5 結(jié)束語

本文提出了一種新的基于圖注意力網(wǎng)絡(luò)的解糾纏鄰域信息聚合模型(DNIAGAT)來完成知識(shí)圖譜補(bǔ)全任務(wù)。該模型將實(shí)體嵌入分為K個(gè)組件表示,每個(gè)組件對(duì)應(yīng)一個(gè)實(shí)體的影響因子,選擇最重要的影響因子作為兩個(gè)實(shí)體的連接因子,使用注意力機(jī)制聚合實(shí)體在不同組件(影響因子)下的相關(guān)鄰域?qū)嶓w信息,并且在解碼過程中引入一個(gè)關(guān)系感知系數(shù)來控制評(píng)分系統(tǒng),使其更加關(guān)注與給定關(guān)系相關(guān)的組件分量信息,進(jìn)一步分離了組件間的干擾信息。通過與基線模型對(duì)比的實(shí)驗(yàn),證明了DNIAGAT模型的先進(jìn)性。未來將關(guān)注少關(guān)系知識(shí)圖譜的聚合方法,將其融合到DNIAGAT模型中,并改進(jìn)DNIAGAT模型的算法,減少模型的計(jì)算量。

參考文獻(xiàn):

[1]Huang Xiao, Zhang Jingyuan, Li Dingcheng, et al. Knowledge graph embedding based question answering[C]//Proc of the 12th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2019: 105-113.

[2]Li Fangyi, Li Ying, Shang Changjing, et al. Fuzzy knowledge-based prediction through weighted rule interpolation[J]. IEEE Trans on Cybernetics, 2019,50(10): 4508-4517.

[3]Wang Hongwei, Zhang Fuzheng, Wang Jialin, et al. Exploring high-order user preference on the knowledge graph for recommender systems[J]. ACM Trans on Information Systems, 2019,37(3): 1-26.

[4]Vrandecˇic' D, Krtzsch M. WikiData: a free collaborative knowledgebase[J]. Communications of the ACM, 2014,57(10): 78-85.

[5]Singhal A. Introducing the knowledge graph: things, not strings[EB/OL]. (2012)[2022-10-30]. https://blog.google/products/search/introducing-knowledge-graph-things-not/.

[6]Antoine B, Nicolas U, Alberto G D, et al. Translating embeddings for modeling multi-relational data[C]//Proc of the 26th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2013:2787-2795.

[7]Xiao Han, Huang Minlie, Zhu Xiaoyan. TransG: a generative model for knowledge graph embedding[C]//Proc of the 54th Annual Mee-ting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computer Linguistics, 2016: 2316-2325.

[8]Wang Zhen, Zhang Jianwen, Feng Jianlin, et al. Knowledge graph embedding by translating on hyperplanes[C]//Proc of the 28th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2014:1112-1119.

[9]Lin Yankai, Liu Zhiyuan, Sun Maosong, et al. Learning entity and relation embeddings for knowledge graph completion[C]//Proc of the 29th AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2015: 2181-2187.

[10]Ji Guoliang, He Shizhu, Xu Liheng, et al. Knowledge graph embedding via dynamic mapping matrix[C]//Proc of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2015: 687-696.

[11]Yang Bishan, Yih S, He Xiaodong, et al. Embedding entities and relations for learning and inference in knowledge bases[C]//Proc of International Conference on Learning Representations. 2015.

[12]Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//Proc of the 33rd International Conference on International Conference on Machine Learning.[S.l.]: JMLR. org, 2016: 2071-2080.

[13]Liu Hanxiao, Wu Yuexin, Yang Yiming. Analogical inference for multi-relational embeddings[C]//Proc of the 34th International Conference on Machine Learning.[S.l.]: JMLR. org, 2017: 2168-2178.

[14]Kazemi S M, Poole D. Simple embedding for link prediction in knowledge graphs[J]. Advances in Neural Information Proces-sing Systems, 2018,31: 4289-4300.

[15]Nguyen D Q, Nguyen D Q, Nguyen T D, et al. A convolutional neural network-based model for knowledge base completion and its application to search personalization[J]. Semantic Web, 2019,10(5): 947-960.

[16]Dettmers T, Minervini P, Stenetorp P, et al. Convolutional 2D know-ledge graph embeddings[C]//Proc of the 32nd AAAI Conference on Artificial Intelligence and the 30th Innovative Applications of Artificial Intelligence Conference and the 8th AAAI Symposium on Educational Advances in Artificial Intelligence. Palo Alto,CA: AAAI Press, 2018: 1811-1818.

[17]Zhang Si, Tong Hanghang, Xu Jiejun, et al. Graph convolutional networks: a comprehensive review[J]. Computational Social Networks, 2019,6(1): 1-23.

[18]Hamilton W L, Ying Z, Leskovec J. Inductive representation learning on large graphs[C]//Proc of the 31st International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2017:1025-1035.

[19]Velickovic P, Cucurull G, Casanova A, et al. Graph attention networks[EB/OL]. (2017-10-30). https://arxiv.org/abs/1710.10903.

[20]Nathani D, Chauhan J, Sharma C, et al. Learning attention-based embeddings for relation prediction in knowledge graphs[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 4710-4723.

[21]Zhang Zhao, Zhuang Fuzhen, Zhu Hengshu, et al. Relational graph neural network with hierarchical attention for knowledge graph completion[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2020: 9612-9619.

[22]Dai Guoquan, Wang Xizhao, Zou Xiaoying, et al. Multi-relational graph attention network for knowledge graph completion[J]. Neural Networks, 2022,154: 234-245.

[23]Li Zhifei, Liu Hai, Zhang Zhaoli, et al. Learning knowledge graph embedding with heterogeneous relation attention networks[J]. IEEE Trans on Neural Networks and Learning Systems, 2022,33(8): 3961-3973.

[24]Ma Jianxin, Cui Peng, Kuang Kun, et al. Disentangled graph convolutional networks[C]//Proc of the 36th International Conference on Machine Learning.[S. l. ] : PMLR, 2019: 4212-4221.

[25]Schlichtkrull M, Kipf T N, Bloem P, et al. Modeling relational data with graph convolutional networks[C]//Proc of the 15th International Conference on Semantic Web. Berlin : Springer-Verlag, 2018: 593-607.

[26]Vashishth S, Sanyal S, Nitin V, et al. InteractE: improving convolution based knowledge graph embeddings by increasing feature interactions[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto,CA: AAAI Press, 2020: 3009-3016.

[27]Vashishth S, Sanyal S, Nitin V, et al. Composition-based multi-relational graph convolutional networks[EB/OL]. (2019-11-08). https://arxiv.org/pdf/1911.03082.pdf.

[28]Zhao Xiaojuan, Jia Yan, Li Aiping, et al. Target relational attention-oriented knowledge graph reasoning[J]. Neurocomputing, 2021, 461: 577-586.

[29]Zhang Zhanqiu, Wang Jie, Ye Jieping, et al. Rethinking graph con-volutional networks in knowledge graph completion[C]//Proc of ACM Web Conference. New York: ACM Press, 2022: 798-807.

[30]喬梓峰, 秦宏超, 胡晶晶,等. 融合多視圖對(duì)比學(xué)習(xí)的知識(shí)圖譜補(bǔ)全算法[J/OL]. 計(jì)算機(jī)科學(xué)與探索.[2023-08-06]. http://kns.cnki.net/kcms/detail/11.5602.TP.20230329.1546.002.html. (Qiao Zifeng, Qin Hongchao, Hu Jingjing, et al. Knowledge graph completion algorithm fused with multi-view contrastive learning[J/OL]. Computer Science and Exploration.[2023-08-06]. http://kns.cnki.net/kcms/detail/11.5602.TP.20230329.)

猜你喜歡
注意力機(jī)制
基于注意力機(jī)制的行人軌跡預(yù)測生成模型
多特征融合的中文實(shí)體關(guān)系抽取研究
基于注意力機(jī)制和BGRU網(wǎng)絡(luò)的文本情感分析方法研究
從餐館評(píng)論中提取方面術(shù)語
基于深度學(xué)習(xí)的手分割算法研究
基于序列到序列模型的文本到信息框生成的研究
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動(dòng)態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
大余县| 仁布县| 青冈县| 嘉荫县| 行唐县| 广水市| 巨鹿县| 鸡东县| 错那县| 洛隆县| 怀柔区| 游戏| 林甸县| 苏尼特左旗| 黄冈市| 绿春县| 饶阳县| 佛教| 贡山| 绵阳市| 许昌市| 澎湖县| 兴宁市| 南和县| 上蔡县| 靖远县| 怀化市| 睢宁县| 孟津县| 隆昌县| 扶风县| 巴里| 搜索| 哈尔滨市| 柳州市| 广元市| 澳门| 民和| 四子王旗| 乌拉特后旗| 河曲县|