国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚合局部鄰居三元組與特征增強(qiáng)注意力的知識(shí)圖譜表示

2024-12-28 00:00:00齊勇沈薇
軟件工程 2024年12期

關(guān)鍵詞:語(yǔ)言模型;Transformer;聚合局部鄰居三元組;特征增強(qiáng)注意力

0 引言(Introduction)

近年來(lái),盡管人工智能在諸多任務(wù)上取得了顯著進(jìn)展,但仍面臨無(wú)法真正獲取和理解文本語(yǔ)義信息的問(wèn)題,其核心問(wèn)題在于機(jī)器缺乏足夠的先驗(yàn)知識(shí),理解事物的能力還遠(yuǎn)達(dá)不到人類的平均水平,這限制了其聯(lián)想和推理能力的發(fā)展。知識(shí)圖譜表示學(xué)習(xí)旨在將實(shí)體和關(guān)系映射到一個(gè)連續(xù)的低維向量空間中,隱式地進(jìn)行推理,并應(yīng)用于下游任務(wù)[1]。然而,傳統(tǒng)知識(shí)表示方法存在復(fù)雜性高、泛化能力較差、遠(yuǎn)距離依賴表現(xiàn)不佳等問(wèn)題。隨著Transformer架構(gòu)語(yǔ)言模型的發(fā)展,研究人員開(kāi)始使用Transformer處理圖譜相關(guān)研究,知識(shí)表示技術(shù)[2]應(yīng)運(yùn)而生。Transformer憑借著強(qiáng)大的關(guān)系建模能力、出色的泛化能力及高度的擴(kuò)展性,在知識(shí)表示方面展現(xiàn)出了巨大的應(yīng)用潛力。然而,Transformer主要被設(shè)計(jì)用于處理較為集中的序列數(shù)據(jù),因此在進(jìn)行圖譜知識(shí)表示時(shí),存在語(yǔ)義、結(jié)構(gòu)關(guān)聯(lián)信息缺失的問(wèn)題[3]。為解決上述問(wèn)題,本文設(shè)計(jì)了基于Transformer框架的知識(shí)表示方法CNAR。該方法充分融合了三元組的上下文和結(jié)構(gòu)信息,有效地解決了信息不完整的問(wèn)題。實(shí)驗(yàn)結(jié)果表明,與基線方法相比,本文提出的方法在多個(gè)數(shù)據(jù)集上均取得了效果提升,充分驗(yàn)證了其有效性。

1 相關(guān)工作(Related work)

為了全面了解現(xiàn)有知識(shí)表示學(xué)習(xí)方法的發(fā)展?fàn)顩r,本研究的調(diào)研工作將圍繞以下兩個(gè)核心維度展開(kāi):①知識(shí)圖譜表示學(xué)習(xí);②圖結(jié)構(gòu)利用Transformer架構(gòu)進(jìn)行信息的挖掘。

1.1 知識(shí)圖譜表示學(xué)習(xí)

當(dāng)前,知識(shí)表示學(xué)習(xí)方法主要分為4類:翻譯距離模型、語(yǔ)義匹配模型、神經(jīng)網(wǎng)絡(luò)模型及預(yù)訓(xùn)練語(yǔ)言模型。經(jīng)典的transX系列(transE[4]、transH[5]、transR[6]、transD[7])翻譯距離模型是基礎(chǔ)模型的開(kāi)創(chuàng)者,其中transE模型是對(duì)一個(gè)事實(shí)三元組(h,r,t)利用頭實(shí)體向量和關(guān)系向量的和,預(yù)測(cè)尾實(shí)體的向量滿足等式h+r=t。其中:h、r、t 分別代表頭實(shí)體、關(guān)系、尾實(shí)體的嵌入。transE擅長(zhǎng)處理一對(duì)一類型的關(guān)系,而在處理一對(duì)多或多對(duì)一等關(guān)系時(shí)存在一定問(wèn)題。為解決transE的問(wèn)題,transH和transR模型被引入超平面,它們?yōu)椴煌年P(guān)系建立多元的表示,讓每個(gè)實(shí)體單獨(dú)學(xué)習(xí)關(guān)系的向量表示,但是這兩個(gè)模型的轉(zhuǎn)換方式變成了空間矩陣投影,導(dǎo)致計(jì)算的復(fù)雜度提高。后續(xù)的transD、tranSparse[8]等模型的性能雖然得到了一定程度的提高,但是當(dāng)前的翻譯距離表示方法僅考慮了三元組的結(jié)構(gòu)信息,導(dǎo)致?lián)p失了實(shí)體和關(guān)系的語(yǔ)義信息。DistMult[9]、ComplEx[10]、simplE[11]是幾種具有代表性的語(yǔ)義匹配模型。其中,simplE模型獨(dú)立學(xué)習(xí)每個(gè)實(shí)體的兩個(gè)嵌入,但其計(jì)算復(fù)雜度會(huì)隨著嵌入維度的提升而不斷增長(zhǎng)。DistMult使用雙線性公式學(xué)習(xí)實(shí)體和關(guān)系的向量表示。Complex模型的設(shè)計(jì)優(yōu)化了DistMult,使其通用化程度提升,能夠很好地處理二元關(guān)系。除了使用評(píng)分函數(shù)的知識(shí)表示方法,圖結(jié)構(gòu)在神經(jīng)網(wǎng)絡(luò)中的應(yīng)用,特別是針對(duì)知識(shí)圖譜嵌入(KGE)問(wèn)題,日益受到關(guān)注。R-GCN[12]采用參數(shù)共享和稀疏約束的方式將圖卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于關(guān)系圖的建模,雖然能夠?qū)χR(shí)圖譜進(jìn)行有效表示,但是模型的參數(shù)量會(huì)隨著關(guān)系數(shù)量上升而激增,并且容易出現(xiàn)過(guò)擬合現(xiàn)象。ConvE[13]將卷積神經(jīng)網(wǎng)絡(luò)用于KGE,它將實(shí)體和關(guān)系的一維嵌入向量連接并重塑為二維,再利用卷積核提取實(shí)體和關(guān)系特征,通過(guò)自學(xué)習(xí)捕捉復(fù)雜的實(shí)體關(guān)系,盡管在捕捉知識(shí)圖譜中的遠(yuǎn)距離依賴性表現(xiàn)不佳,但與R-GCN多關(guān)系圖神經(jīng)網(wǎng)絡(luò)相比,它在減少模型參數(shù)量的同時(shí)提升了性能。ConvKB[14]在ConvE的基礎(chǔ)上,將三元組表示為三列嵌入向量,并通過(guò)多個(gè)卷積核提取不同的特征。隨著語(yǔ)言模型的發(fā)展,Transformer架構(gòu)因其卓越的數(shù)據(jù)處理能力和泛化性能逐漸成為主流。這一架構(gòu)吸引了許多科研人員將更多的創(chuàng)新性應(yīng)用融入其中,以進(jìn)一步推動(dòng)知識(shí)圖譜嵌入技術(shù)的進(jìn)步。

1.2 圖結(jié)構(gòu)用于Transformer

Transformer作為序列數(shù)據(jù)建模中的佼佼者,其強(qiáng)大的性能促使很多研究人員嘗試將其應(yīng)用到圖領(lǐng)域。這一探索歷程經(jīng)歷了從基本的圖結(jié)構(gòu)適配到高級(jí)圖結(jié)構(gòu)注意力機(jī)制等多個(gè)階段。在早期的探索中,研究人員通過(guò)引入節(jié)點(diǎn)級(jí)別的注意力機(jī)制,允許每個(gè)節(jié)點(diǎn)根據(jù)其鄰居特征調(diào)整自己的表示。隨著研究的深入,中期方法繼承了圖結(jié)構(gòu)信息,通過(guò)改進(jìn)注意力機(jī)制,更好地適應(yīng)圖的拓?fù)浣Y(jié)構(gòu),如Graph-Bert[15] 和GraphTransformer Network[16]都是保留圖的結(jié)構(gòu)信息,并且也將其應(yīng)用于異構(gòu)圖的研究。當(dāng)前,最新的方法是結(jié)合全局和局部的注意力機(jī)制,實(shí)現(xiàn)對(duì)圖中長(zhǎng)程依賴和復(fù)雜拓?fù)浣Y(jié)構(gòu)關(guān)系的有效處理,如Graph learning with Low-Rank representation[17]使解決KGE問(wèn)題的過(guò)程更加高效和靈活。為了利用知識(shí)圖譜的語(yǔ)義信息,KG-Bert[18]將語(yǔ)言模型Bert應(yīng)用于KGE,依靠雙向轉(zhuǎn)換器結(jié)構(gòu)學(xué)習(xí)知識(shí)圖譜上下文信息的語(yǔ)義特征,挖掘?qū)嶓w和關(guān)系的潛在語(yǔ)義關(guān)聯(lián)。MTL-KGC[19]多任務(wù)知識(shí)圖譜補(bǔ)全模型在KG-Bert的基礎(chǔ)上添加了關(guān)系預(yù)測(cè)任務(wù),并采用相關(guān)性排序拉開(kāi)正負(fù)樣本的評(píng)分差距,提升了模型區(qū)分正負(fù)樣本的能力。Pretrain-KGE[20]通過(guò)引入描述知識(shí)圖譜實(shí)體和關(guān)系的外部語(yǔ)義信息,并對(duì)語(yǔ)言模型進(jìn)行微調(diào),進(jìn)而學(xué)習(xí)到更豐富的語(yǔ)義特征,從而提高了KGC模型的性能。

上述對(duì)知識(shí)圖譜表示方法的研究顯示,雖然預(yù)訓(xùn)練模型能解決很多問(wèn)題,但是仍存在以下問(wèn)題。

(1)結(jié)構(gòu)信息稀疏性。Transformer擅長(zhǎng)處理密集的序列數(shù)據(jù),但在稀疏圖數(shù)據(jù)中可能會(huì)丟失局部信息。知識(shí)圖譜將圖數(shù)據(jù)結(jié)構(gòu)信息如何與Transformer模型的注意力機(jī)制結(jié)合進(jìn)行表示學(xué)習(xí),這一過(guò)程對(duì)Graph Transformer的發(fā)展尤為關(guān)鍵,而如ConTextGraph[21]、GraphBert[22]等圖神經(jīng)網(wǎng)絡(luò)盡管引入了結(jié)構(gòu)增強(qiáng)注意力機(jī)制,但是大多都為節(jié)點(diǎn)級(jí)別,無(wú)法捕捉到長(zhǎng)程依賴和全局上下文語(yǔ)境,并且沒(méi)有充分表示實(shí)體結(jié)構(gòu)之間的復(fù)雜交互信息。

(2)拓?fù)湫畔⒄侠斫獾牟煌暾?。知識(shí)圖譜作為圖結(jié)構(gòu)知識(shí)庫(kù),具有獨(dú)特的拓?fù)浣Y(jié)構(gòu)和文本特征。許多圖模型主要聚焦于直連的局部鄰居信息,難以整合整個(gè)圖的全局拓?fù)湫畔ⅰ_€有很多方法通過(guò)多跳路徑捕捉全局的依賴關(guān)系而忽略了局部細(xì)節(jié)。

(3)語(yǔ)義信息多樣化的歧義性。對(duì)于具有豐富語(yǔ)義信息的知識(shí)圖譜,實(shí)體所在的位置不同,其所代表的含義也會(huì)不同,多個(gè)邊也會(huì)具有不同的關(guān)系信息,導(dǎo)致異構(gòu)表示。因此,如何結(jié)合上下文關(guān)聯(lián)信息進(jìn)行信息的嵌入是需要認(rèn)真考慮和解決的問(wèn)題。

本研究提出了CNAR圖譜嵌入Transformer框架。首先通過(guò)設(shè)計(jì)聚合局部鄰居三元組,解決上下文關(guān)聯(lián)信息不足的問(wèn)題。它將聚集的上下文關(guān)聯(lián)三元組集合作為模型的輸入序列。具體來(lái)說(shuō),是將互相帶有關(guān)聯(lián)信息的三元組組成集合,生成具有上下文關(guān)聯(lián)信息的子圖序列,并將其饋送進(jìn)入Transformer作為輸入,包含三元組之間上下文信息和局部實(shí)體關(guān)系的交互信息,可以在緩解圖結(jié)構(gòu)信息的稀疏性和語(yǔ)義信息的歧義性的同時(shí),保留更多的結(jié)構(gòu)信息。其次引入了一種方法,即微調(diào)語(yǔ)言模型以特征注意力的方式關(guān)聯(lián)三元組和鄰近三元組的特征向量,目的是減少鄰接三元組關(guān)聯(lián)信息的損失,同時(shí)根據(jù)不同的重要程度進(jìn)行正確推斷,更好地服務(wù)下游任務(wù)(知識(shí)補(bǔ)全任務(wù):鏈路預(yù)測(cè)),為知識(shí)圖譜表示問(wèn)題設(shè)計(jì)出一個(gè)新的解決方法,并通過(guò)實(shí)驗(yàn)評(píng)估CNAR框架的表現(xiàn)。具體來(lái)說(shuō),本研究使用FB15K-237、WN18RR、UMLS和自己創(chuàng)建的機(jī)器人數(shù)據(jù)集ROBOT對(duì)CNAR 框架的性能進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明,CNAR框架具有較好的圖譜表示效果。此外,使用自己創(chuàng)建的數(shù)據(jù)集進(jìn)行測(cè)試也是為未來(lái)的優(yōu)化工作做好準(zhǔn)備。

CNAR是基于Transformer架構(gòu)的知識(shí)圖譜表示方法,旨在通過(guò)聚合局部鄰居三元組和特征增強(qiáng)注意力,有效解決上下文語(yǔ)義信息和結(jié)構(gòu)信息缺失的問(wèn)題。在3個(gè)公用數(shù)據(jù)集和1個(gè)專門構(gòu)建的領(lǐng)域內(nèi)數(shù)據(jù)集上進(jìn)行測(cè)試。實(shí)驗(yàn)結(jié)果顯示,對(duì)比8個(gè)基準(zhǔn)模型,CNAR展現(xiàn)出優(yōu)越的性能,表現(xiàn)穩(wěn)居前列。

2 方法(Approach)

2.1 模型架構(gòu)

CNAR通過(guò)將知識(shí)圖譜中的三元組信息上下文化和結(jié)構(gòu)化融入Bert模型,利用特征注意力微調(diào)語(yǔ)言模型,不僅繼承了Transformer強(qiáng)大的特征抽取能力,還提高了語(yǔ)言模型對(duì)實(shí)體、關(guān)系和屬性之間語(yǔ)義信息的理解能力與關(guān)聯(lián)程度。改進(jìn)知識(shí)圖譜表示技術(shù)的目的是提升圖譜嵌入的語(yǔ)義結(jié)構(gòu)信息的準(zhǔn)確性,為后續(xù)下游任務(wù),如知識(shí)補(bǔ)全鏈路預(yù)測(cè),提供更加準(zhǔn)確和豐富的語(yǔ)義支持,從而顯著提升這些任務(wù)的推理能力和效果。CNAR整體框架圖如圖1所示。

本研究采用知識(shí)賦能語(yǔ)言模型增強(qiáng)語(yǔ)言模型的表示能力。在backbone上選擇Bert,并調(diào)整使其適用于知識(shí)庫(kù)三元組的形式。對(duì)于模型訓(xùn)練,分別構(gòu)建正樣本和負(fù)樣本,正樣本三元組頭尾實(shí)體的輸入,可以是實(shí)體描述或?qū)嶓w名本身;三元組給定負(fù)樣本一個(gè)三元組,隨機(jī)替換實(shí)體或關(guān)系,并且確保生成的新三元組在KG知識(shí)圖譜中不存在。在此基礎(chǔ)上對(duì)Bert進(jìn)行改進(jìn),在數(shù)據(jù)輸入的部分通過(guò)聚合局部鄰居三元組技術(shù)修改Bert輸入,以提取到更多的三元組結(jié)構(gòu)和語(yǔ)義關(guān)聯(lián)信息。在輸出部分采用特征增強(qiáng)注意力的目的是,在數(shù)據(jù)轉(zhuǎn)化為向量的過(guò)程中保留更多的原始信息,減少信息的損失。知識(shí)圖譜包含大量的實(shí)體關(guān)系事實(shí)結(jié)構(gòu)信息,然而其龐大的規(guī)模與復(fù)雜性使得直接將整個(gè)KG輸入Transformer模型中變得不切實(shí)際,因此本研究設(shè)計(jì)將聚合的局部三元組信息作為輸入序列輸入BERT中,通過(guò)這種方式可以得到“實(shí)體-關(guān)系”“實(shí)體-實(shí)體”“關(guān)系-關(guān)系”對(duì)的交互。這種方式既保留了結(jié)構(gòu)信息,也提高了對(duì)語(yǔ)義信息的保留程度。進(jìn)一步地,本研究利用Transformer架構(gòu)的強(qiáng)大特征學(xué)習(xí)能力,從輸入的三元組序列中提取出高質(zhì)量的特征向量。針對(duì)BERT這類僅包含編碼器(encoder-only)的結(jié)構(gòu),為了減少在特征信息轉(zhuǎn)化過(guò)程中的信息損失,本研究特別添加了特征增強(qiáng)注意力機(jī)制,該機(jī)制增加三元組之間的權(quán)重,以此提高模型提取圖譜信息的準(zhǔn)確性,同時(shí)有助于可信度的提升。

接下來(lái),本文詳細(xì)介紹圖譜用于知識(shí)表示的技術(shù)細(xì)節(jié),重點(diǎn)討論知識(shí)圖譜表示、聚合局部鄰居三元組技術(shù)和特征增強(qiáng)注意力。

2.2 數(shù)據(jù)處理

本研究使用4種數(shù)據(jù)集,分別是WN18RR[23]、FB15K-237[23]、UMLS[24]和ROBOT自制數(shù)據(jù)集,對(duì)CNAR框架進(jìn)行性能驗(yàn)證。構(gòu)建ROBOT數(shù)據(jù)集的目的是驗(yàn)證圖譜表示學(xué)習(xí)方法的有效性,并為未來(lái)對(duì)大語(yǔ)言模型的合理性及其控制機(jī)器人服務(wù)人類的安全性進(jìn)行驗(yàn)證做好準(zhǔn)備工作。下面詳細(xì)介紹數(shù)據(jù)集的處理步驟。

本研究采用了數(shù)據(jù)規(guī)模龐大且內(nèi)容多樣的機(jī)器人操作行為數(shù)據(jù)集———BridgeDataV2,該數(shù)據(jù)集涵蓋了機(jī)器人在多種環(huán)境下操作各種任務(wù)的數(shù)據(jù),研究人員以其中提供的文本類半結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)作為原始數(shù)據(jù),對(duì)收集到的原始數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗(去除重復(fù)值、處理缺失值、糾正錯(cuò)誤及標(biāo)準(zhǔn)化數(shù)據(jù)格式)。隨后,研究人員進(jìn)行了知識(shí)抽取。首先,抽取所需要的實(shí)體關(guān)系和屬性信息,通過(guò)命名實(shí)體識(shí)別技術(shù)、依存句法分析和屬性抽取等方法進(jìn)行知識(shí)表示;其次結(jié)合服務(wù)機(jī)器人的行為準(zhǔn)則,對(duì)數(shù)據(jù)進(jìn)行篩選和補(bǔ)充,在此基礎(chǔ)上,按照“實(shí)體-關(guān)系-實(shí)體”和“實(shí)體-屬性-屬性值”的結(jié)構(gòu),對(duì)數(shù)據(jù)進(jìn)行重新建模與整合,重新構(gòu)建了一個(gè)新的數(shù)據(jù)集。機(jī)器人圖譜構(gòu)建框圖如圖2所示。

2.3 聚合局部鄰居三元組技術(shù)

根據(jù)前文描述,由于KG包含大量的實(shí)體關(guān)系結(jié)構(gòu)信息,因此整個(gè)實(shí)體關(guān)系圖譜不能直接饋送進(jìn)Transformer中。為了減輕全圖輸入Transformer的局限性,減少信息壓縮的損失。受到“Inductive Representation learning on LG[25]”的啟發(fā),即它通過(guò)采樣與聚合鄰居節(jié)點(diǎn)的信息產(chǎn)生目標(biāo)頂點(diǎn)的embedding向量,允許從不同的鄰居子圖中學(xué)習(xí)節(jié)點(diǎn)表示。據(jù)此,本研究提出將聚合鄰居三元組作為輸入序列對(duì)局部三元組結(jié)構(gòu)和語(yǔ)義信息進(jìn)行編碼。

聚合鄰居三元組Sg 被定義為包含圖譜中實(shí)體和關(guān)系的三元組列表。每個(gè)中心三元組Se 分別獲取頭尾實(shí)體的鄰居節(jié)點(diǎn)的三元組列表Scontexth 和Scontextt,整個(gè)處理步驟如公式(1)至公式(3)所示:

其中:t 代表目標(biāo)實(shí)體,M 表示從圖中獲取鄰居節(jié)點(diǎn)三元組數(shù)量的最大值。

通過(guò)提取圖譜的實(shí)體和關(guān)系信息并存儲(chǔ)正反向關(guān)系圖,提出了NNT(Neighbor Node Triplet)方法,利用其獲取指定節(jié)點(diǎn)在圖中一階鄰居節(jié)點(diǎn)的三元組。通過(guò)NNT可以獲取給定實(shí)體作為頭尾實(shí)體的鄰居三元組信息,通過(guò)獲取頭尾實(shí)體的鄰居三元組集合構(gòu)建子圖,可以更全面地得到目標(biāo)實(shí)體在圖中的相關(guān)鄰居信息,并達(dá)到聚合鄰居三元組的目的。

經(jīng)過(guò)上述處理,可以得到目標(biāo)實(shí)體聚合的子圖,同時(shí)保留了聚合的子圖局部信息。按照上述方法遍歷圖中的節(jié)點(diǎn),并去除重復(fù)的三元組信息,就得到了全局的語(yǔ)義結(jié)構(gòu)信息。由此注意到“實(shí)體-關(guān)系”對(duì)信息對(duì)于KGs來(lái)說(shuō)是很重要的信號(hào)。因此,將“實(shí)體-關(guān)系”對(duì)表示為純文本,并將關(guān)系視為聚合鄰居三元組中的特殊節(jié)點(diǎn)。通過(guò)這種方式可以獲得節(jié)點(diǎn)對(duì)信息,包括“實(shí)體-關(guān)系”“實(shí)體-實(shí)體”“關(guān)系-關(guān)系”對(duì)之間信息的交互。

通過(guò)上述方法,我們獲得了最終的輸入序列,它包含全局語(yǔ)義,其結(jié)構(gòu)信息是能被Transformer處理的序列。這樣的處理方式有效緩解了直接饋送整個(gè)圖譜到Transformer的局限性,同時(shí)極大地降低了原始圖譜語(yǔ)義信息在轉(zhuǎn)換過(guò)程中的損失,從而確保了信息的完整性和準(zhǔn)確性。

2.4 特征增強(qiáng)注意力

采用聚合局部鄰居三元組采樣技術(shù)處理原始圖譜數(shù)據(jù),不僅解決了直接將整個(gè)圖譜饋送到Transformer的難題,還能保持全局的語(yǔ)義信息。隨后,將處理后的具有鄰居三元組信息的子圖作為序列通過(guò)修改模型的輸入方式送進(jìn)Bert。選取Bert作為baseline,是因?yàn)樗哂袕?qiáng)大的語(yǔ)言理解能力和泛化能力,并且對(duì)于理解復(fù)雜的實(shí)體關(guān)系屬性尤為擅長(zhǎng),可以捕捉更加細(xì)粒度的語(yǔ)義關(guān)系信息。相較于以往的處理知識(shí)圖譜嵌入方法,雖然它們能學(xué)到獨(dú)特的實(shí)體關(guān)系表示,但是忽略了上下文,并且句法和語(yǔ)義信息在大規(guī)模文本數(shù)據(jù)中沒(méi)有得到很好的利用;而通過(guò)Bert的處理,設(shè)計(jì)了特征增強(qiáng)注意力,對(duì)語(yǔ)言模型Bertencoder生成的向量進(jìn)行三元組特征增強(qiáng),對(duì)每個(gè)三元組的特征向量和其鄰域三元組特征向量設(shè)計(jì)權(quán)重,進(jìn)行注意力關(guān)聯(lián),目的是在減少鄰接三元組關(guān)聯(lián)信息損失的同時(shí),還能根據(jù)重要程度的不同,提高下游任務(wù)預(yù)測(cè)正確的能力。

下面著重講述特征增強(qiáng)注意力:獲取encoder后的一系列三元組特征,其中N 為三元組的個(gè)數(shù),F(xiàn) 為每個(gè)三元組。

為了獲得更多三元組之間的關(guān)聯(lián)信息,將輸入特征轉(zhuǎn)換為更加多樣的特征表示,至少是需要一個(gè)可以學(xué)習(xí)的線性轉(zhuǎn)換,其由權(quán)重矩陣W 完成。想要減少鄰接三元組的關(guān)聯(lián)信息的損失,就需要了解中心三元組與每個(gè)鄰接三元組之間的關(guān)聯(lián)程度,因此需要學(xué)習(xí)三元組相對(duì)于鄰近三元組的重要性。Z1、Z2分別表示中心三元組和鄰近三元組特征高階轉(zhuǎn)換,ekf 注意力系數(shù)即上述所提到的“三元組相對(duì)于鄰近三元組的重要性”。利用一維卷積層提取高級(jí)特征表示,學(xué)習(xí)序列數(shù)據(jù)之間的狀態(tài)關(guān)系。為了使系數(shù)在不同的三元組之間能更好地進(jìn)行比較,使用softmax函數(shù)進(jìn)行規(guī)范化,其過(guò)程如公式(5)至公式(8)所示:

在實(shí)驗(yàn)中,將卷積層權(quán)重向量參數(shù)化,考慮導(dǎo)正負(fù)樣本的多樣性,本研究利用公式(9)計(jì)算注意力系數(shù)。

標(biāo)準(zhǔn)化的注意力系數(shù)被用來(lái)計(jì)算與之對(duì)應(yīng)的特征的線性組合,作為每個(gè)三元組的最終輸出特征,如公式(10)所示:

通過(guò)此方法可以在保證原有語(yǔ)義信息準(zhǔn)確度的同時(shí),減少鄰接三元組關(guān)聯(lián)信息的損失,進(jìn)而增強(qiáng)全圖的關(guān)聯(lián)性。

3 實(shí)驗(yàn)(Experiment)

為了解決以下問(wèn)題,設(shè)計(jì)了CNAR知識(shí)表示框架并進(jìn)行大量實(shí)驗(yàn)和評(píng)估其性能。

Q1:設(shè)計(jì)優(yōu)化圖譜嵌入技術(shù)的目的是什么? 設(shè)計(jì)的CNAR模型的泛化能力如何?

Q2:CNAR與KG表示的基線進(jìn)行鏈路預(yù)測(cè)對(duì)比時(shí)表現(xiàn)如何?

Q3:CNAR中不同的關(guān)鍵模塊其整體性能有什么貢獻(xiàn)?

3.1 實(shí)驗(yàn)設(shè)置

使用單個(gè)Nvidia 3080Ti GPU,利用pytorch框架進(jìn)行試驗(yàn)。首先使用Bert-base-uncased作為baseline對(duì)三元組子圖進(jìn)行編碼,使用設(shè)計(jì)的特征注意力機(jī)制和聚合三元組技術(shù)對(duì)Transformer進(jìn)行微調(diào),使模型學(xué)習(xí)到完整的數(shù)據(jù)語(yǔ)義和結(jié)構(gòu)信息。通過(guò)對(duì)輸入訓(xùn)練的三元組集合的數(shù)量進(jìn)行調(diào)優(yōu),選擇合適的上下文子圖大小進(jìn)行驗(yàn)證。

3.1.1 數(shù)據(jù)集

為了全面評(píng)估本文設(shè)計(jì)的CNAR框架,在8個(gè)廣受認(rèn)可的基準(zhǔn)模型上進(jìn)行了對(duì)比實(shí)驗(yàn)。針對(duì)知識(shí)圖譜表示方法的下游鏈路預(yù)測(cè)任務(wù),在4個(gè)數(shù)據(jù)集中進(jìn)行評(píng)估,其中包括3個(gè)公開(kāi)數(shù)據(jù)集WN18RR、FB15K-237和UMLS,以及一個(gè)本研究專門構(gòu)建的機(jī)器人數(shù)據(jù)集。WN18RR是WordNet的數(shù)據(jù)子集,它是對(duì)WordNet[26]關(guān)系進(jìn)行反轉(zhuǎn)和隨機(jī)采樣得到的英文知識(shí)圖。FB15K-237是Freebase[27]的子集,包括電影、書(shū)記、音樂(lè)等多個(gè)領(lǐng)域的信息。UMLS是生物醫(yī)學(xué)領(lǐng)域的專用小型數(shù)據(jù)集。本研究構(gòu)建的機(jī)器人數(shù)據(jù)集,包括機(jī)器人的各種操作行為。表1列出了各數(shù)據(jù)的分布,包括訓(xùn)練集、測(cè)試集和驗(yàn)證集。

3.1.2 評(píng)價(jià)指標(biāo)

對(duì)于知識(shí)圖譜表示學(xué)習(xí)的下游任務(wù)鏈路預(yù)測(cè),使用MRR(Mean Reciprocal Rank)和Hits@10(命中率值)作為主要的評(píng)估指標(biāo),對(duì)KG表示模型的性能進(jìn)行評(píng)估。如公式(11)所示,MRR 是指目標(biāo)實(shí)體預(yù)測(cè)實(shí)際排名倒數(shù)的平均值,該項(xiàng)指標(biāo)值越大,表述模型的性能越好;如公式(12)所示,Hits@K 是指目標(biāo)實(shí)體預(yù)測(cè)排名小于K 的占比,該指標(biāo)的值越大,表述模型的性能越好。

其中:|T|表示三元組的個(gè)數(shù);ranki 表示第i 個(gè)目標(biāo)實(shí)體對(duì)于預(yù)測(cè)三元組的實(shí)際排名;Π 為條件函數(shù),當(dāng)滿足括號(hào)內(nèi)條件時(shí),值為1,不滿足時(shí),值為0;K 的取值可以是1、3、10,本文只取10作為主要評(píng)價(jià)指標(biāo)。

3.1.3 訓(xùn)練參數(shù)設(shè)置

針對(duì)本文設(shè)計(jì)的CNAR框架,將實(shí)驗(yàn)分為預(yù)訓(xùn)練和訓(xùn)練兩個(gè)部分,通過(guò)反復(fù)實(shí)驗(yàn)得到預(yù)訓(xùn)練最優(yōu)的參數(shù)調(diào)整如下:設(shè)置batch_size 即每次迭代時(shí)輸入網(wǎng)絡(luò)的樣本數(shù)量為128;設(shè)置max_seq_length 即輸入模型最大序列長(zhǎng)度為64;設(shè)置損失函數(shù)為二元交叉熵?fù)p失即BCE=0,設(shè)置這個(gè)公式的目的是最小化實(shí)際標(biāo)簽和預(yù)測(cè)概率之間的差異,如公式(13)所示。當(dāng)模型預(yù)測(cè)正確時(shí),損失較小;當(dāng)預(yù)測(cè)錯(cuò)誤時(shí),尤其是當(dāng)模型對(duì)實(shí)際發(fā)生的類別非常不確定時(shí),損失會(huì)很大。

在優(yōu)化過(guò)程中,將學(xué)習(xí)率設(shè)置為2e-5,能夠在避免過(guò)擬合的同時(shí),學(xué)習(xí)大量細(xì)微有效的數(shù)據(jù)特征。對(duì)于訓(xùn)練階段,學(xué)習(xí)率調(diào)整為1e-5,設(shè)置最大的子圖為6個(gè)三元組的集合,能保證在不影響輸入的前提下,最大化地?cái)U(kuò)充關(guān)聯(lián)語(yǔ)義和結(jié)構(gòu)信息。應(yīng)用L2正則化的目的是防止訓(xùn)練過(guò)擬合,提高模型的魯棒性。λ 是正則化參數(shù),用于控制正則化的強(qiáng)度,將其值設(shè)為0.03。正則化損失函數(shù)表示如公式(14)所示:

其中:Ldata 是模型的數(shù)據(jù)損失,通常指模型的預(yù)測(cè)值與真實(shí)標(biāo)簽之間的誤差。‖w‖22是權(quán)重向量w 的L2范數(shù)的平方,表示權(quán)重向量中各個(gè)參數(shù)的平方和。使用L2正則化的損失函數(shù)時(shí),算法在優(yōu)化過(guò)程中會(huì)同時(shí)考慮數(shù)據(jù)損失和正則化項(xiàng),從而在確保模型對(duì)訓(xùn)練數(shù)據(jù)的擬合能力的同時(shí),最大限度地減少模型參數(shù),降低模型的復(fù)雜度。

此外,研究人員還復(fù)現(xiàn)了知識(shí)表示的基準(zhǔn)模型,根據(jù)模型的超參數(shù)進(jìn)行實(shí)驗(yàn),并將新構(gòu)建的數(shù)據(jù)集加入基準(zhǔn)模型的實(shí)驗(yàn)測(cè)試中。

3.2 對(duì)比試驗(yàn)

將CNAR框架與8個(gè)基準(zhǔn)模型進(jìn)行比較,旨在驗(yàn)證本文提出的CNAR框架的有效性。對(duì)比實(shí)驗(yàn)結(jié)果如表2所示,其中最優(yōu)性能用標(biāo)粗顯示,次優(yōu)性能用用下劃線顯示;對(duì)比曲線圖如圖3和圖4所示。

從表2中的數(shù)據(jù)可以看出,在WN18RR、FB15K-237和自制數(shù)據(jù)集ROBOT中,CNAR模型在MRR 和Hits@10兩個(gè)關(guān)鍵指標(biāo)上顯示出最好和次好的性能。在WN18RR數(shù)據(jù)集中,雖然在Hits@K 系列沒(méi)有達(dá)到SOTA,但與RotatE和StaR只是單個(gè)指標(biāo)達(dá)到最高的結(jié)果相比,CNAR模型在兩個(gè)指標(biāo)上都取得了不錯(cuò)的結(jié)果,具體來(lái)說(shuō),CNAR模型在MRR 上表現(xiàn)最佳,比平均水平提升了10.9百分點(diǎn),在Hits@10上也達(dá)到了次優(yōu)水平,比平均水平提高了13.1百分點(diǎn)。在FB15K-237數(shù)據(jù)集上,與KG-Bert相比,CNAR模型在MRR 上提高了8.9百分點(diǎn),Hits@K 系列則達(dá)到均衡的程度。在UMLS數(shù)據(jù)集上,CNAR模型雖然未達(dá)到SOTA,但是達(dá)到MRR =0.868、Hits@10=0.978的平均水平。在ROBOT數(shù)據(jù)集上,相比于各方面性能最好的RotatE,CNAR模型的MRR 和Hits@10分別提高了0.5%、4.5%。這表明聚合局部三元組技術(shù)和特征增強(qiáng)注意力對(duì)模型的改進(jìn)是有效的,有效地提升了模型在實(shí)體關(guān)系語(yǔ)義和結(jié)構(gòu)關(guān)聯(lián)信息學(xué)習(xí)方面的能力,進(jìn)而保證了模型在下游任務(wù)中取得了顯著的性能提升。

3.3 消融實(shí)驗(yàn)

為了解決上文提到的“CNAR中不同的關(guān)鍵模塊對(duì)整體性能有什么貢獻(xiàn)”的問(wèn)題,本研究進(jìn)行了一項(xiàng)消融實(shí)驗(yàn),進(jìn)一步驗(yàn)證CNAR中聚合局部三元組、特征注意力對(duì)模型性能提升的重要性。實(shí)驗(yàn)分別在保持預(yù)訓(xùn)練和訓(xùn)練的不同參數(shù)設(shè)置下,分別構(gòu)建利用基本Transformer模型進(jìn)行編碼的CNAR-n,在基礎(chǔ)Transformer框架上僅使用特征注意力機(jī)制的CNAR-o,在基礎(chǔ)Transformer模型上僅使用聚合局部三元組技術(shù)進(jìn)行編碼的CNAR-t,與具有兩個(gè)關(guān)鍵模塊的完整CNAR知識(shí)表示方法進(jìn)行消融實(shí)驗(yàn)。與對(duì)比試驗(yàn)一致,分別在3個(gè)公開(kāi)數(shù)據(jù)集WN18RR、FB15K-237、UMLS和1個(gè)自制的機(jī)器人ROBOT數(shù)據(jù)集上進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如表3、圖5和圖6所示。根據(jù)圖表中的數(shù)據(jù)可以看出,特征注意力機(jī)制和聚合局部三元組技術(shù)在4個(gè)數(shù)據(jù)集上均展現(xiàn)出了模型性能的提升,也驗(yàn)證了增加結(jié)構(gòu)和上下文語(yǔ)義信息能夠增強(qiáng)知識(shí)表示的性能和下游任務(wù)鏈路預(yù)測(cè)的能力。

4 結(jié)論(Conclusion)

本研究為了解決圖結(jié)構(gòu)信息稀疏性、拓?fù)湫畔⒄侠斫獾牟煌暾约罢Z(yǔ)義信息多樣化的歧義性,設(shè)計(jì)了結(jié)合聚合局部鄰居三元組和特征增強(qiáng)注意力的知識(shí)表示模型,旨在增強(qiáng)知識(shí)圖譜結(jié)合上下文語(yǔ)義的能力和提升結(jié)構(gòu)關(guān)聯(lián)信息提取的準(zhǔn)確性。實(shí)驗(yàn)通過(guò)預(yù)訓(xùn)練和訓(xùn)練兩個(gè)步驟分別微調(diào)Transformer模型,通過(guò)對(duì)比試驗(yàn)和消融實(shí)驗(yàn)驗(yàn)證了本研究方法的可靠性,提升了模型的表示、推理能力。本文構(gòu)建的機(jī)器人圖譜數(shù)據(jù)集,旨在為未來(lái)的研究奠定堅(jiān)實(shí)基礎(chǔ)。未來(lái),我們需要用到機(jī)器人知識(shí)圖譜表示學(xué)習(xí),進(jìn)而對(duì)大語(yǔ)言模型(LLAMA和ChatGLM 等)進(jìn)行合理性驗(yàn)證,為大模型控制機(jī)器人服務(wù)人類提供堅(jiān)實(shí)的安全保障。同時(shí),利用圖譜表示的向量信息,通過(guò)適配器(adapter)進(jìn)行微調(diào),以進(jìn)一步提升模型在特定任務(wù)上的性能。本文的方法也有一定的局限性,例如實(shí)驗(yàn)的復(fù)雜度較高且消耗相當(dāng)?shù)挠?jì)算資源,這也是未來(lái)需要解決的問(wèn)題。

德令哈市| 隆林| 高安市| 琼海市| 福泉市| 饶平县| 湖州市| 林芝县| 普陀区| 华阴市| 锦州市| 东乡| 汾西县| 铜鼓县| 金阳县| 长海县| 鄂尔多斯市| 北碚区| 正宁县| 民和| 周至县| 日土县| 共和县| 攀枝花市| 安岳县| 当阳市| 滨海县| 竹北市| 马山县| 汝州市| 闽清县| 晋州市| 菏泽市| 花莲县| 句容市| 辉县市| 突泉县| 齐齐哈尔市| 治县。| 济南市| 都昌县|