国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多跳關(guān)系路徑信息的關(guān)系推理方法

2021-11-05 01:28:56董永峰王利琴李英雙
計(jì)算機(jī)應(yīng)用 2021年10期
關(guān)鍵詞:三元組集上圖譜

董永峰,劉 超,王利琴*,李英雙

(1.河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津 300401;2.河北省大數(shù)據(jù)計(jì)算重點(diǎn)實(shí)驗(yàn)室(河北工業(yè)大學(xué)),天津 300401;3.河北省數(shù)據(jù)驅(qū)動(dòng)工業(yè)智能工程研究中心(河北工業(yè)大學(xué)),天津 300401)

0 引言

知識(shí)圖譜(Knowledge Graph,KG)[1],例如YAGO、NELL和國內(nèi)的百度知心等為智能問答系統(tǒng)、推薦系統(tǒng)的構(gòu)建提供了十分寶貴的資源。這些知識(shí)圖譜以三元組的形式包含了數(shù)以百萬計(jì)的有關(guān)現(xiàn)實(shí)世界中實(shí)體與關(guān)系的事實(shí),例如(馬云,創(chuàng)立,阿里巴巴)以及(蔡崇信,創(chuàng)立,阿里巴巴);但同時(shí)也存在著大量缺失關(guān)系的三元組,例如(馬云,?,蔡崇信)。

為了更加有效地應(yīng)用知識(shí)圖譜并提高智能問答系統(tǒng)、推薦系統(tǒng)的功能性和完善性,進(jìn)行實(shí)體間關(guān)系推理尤為重要。同時(shí)在進(jìn)行關(guān)系推理時(shí),需要挖掘并利用實(shí)體間多跳關(guān)系路徑中的隱含信息,這樣才能保證在推理之后得到的關(guān)系是符合現(xiàn)實(shí)事實(shí)且更加準(zhǔn)確的。

關(guān)系推理首先需要將知識(shí)圖譜中現(xiàn)有的實(shí)體和關(guān)系嵌入到低維空間,但是目前大多數(shù)的嵌入方法只考慮了實(shí)體之間的直接關(guān)系,即直接相連兩個(gè)實(shí)體的關(guān)系,忽略了存在于實(shí)體之間的多跳關(guān)系路徑對(duì)實(shí)體間關(guān)系推理的影響。例如一組多跳關(guān)系路徑(李華,在職,清華大學(xué),位于,北京)可以為三元組(李華,?,北京)提供了有效的推理證據(jù),從而得到完善的三元組(李華,居住于,北京)。為了解決這個(gè)問題,Lao等[2]提出的路徑排序算法(Path Ranking Algorithm,PRA)表明了由兩個(gè)實(shí)體之間的關(guān)系類型組成的關(guān)系路徑可以有效地應(yīng)用于知識(shí)圖譜的關(guān)系推理和補(bǔ)全任務(wù)上。PRA通過枚舉給定候選關(guān)系的所有實(shí)體對(duì)之間的路徑,利用隨機(jī)游走方式構(gòu)建特征矩陣,然后在特征矩陣上訓(xùn)練一個(gè)二分類方法(如邏輯回歸或決策樹)來推斷所缺失的關(guān)系。近些年,Neelakantan 等[3]將循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)應(yīng)用在了基于路徑推理的方法上,通過PRA 獲取每個(gè)實(shí)體關(guān)系路徑,然后將推理路徑嵌入到低維空間并利用RNN 建模進(jìn)行知識(shí)推理和補(bǔ)全。這些基于路徑推理方法的思想簡單來說就是實(shí)體之間關(guān)系的語義可以由連接實(shí)體的多個(gè)路徑的語義來表示。因此,可以通過對(duì)連接實(shí)體的路徑進(jìn)行學(xué)習(xí)來推理兩個(gè)實(shí)體之間缺失的關(guān)系。僅使用PRA 進(jìn)行推理只適用于一些規(guī)模較小的數(shù)據(jù)集,并且缺乏語義相關(guān)性。增加RNN 建模之后,雖然解決了缺乏語義相關(guān)性的問題,但是其擴(kuò)展性較低,組合路徑的效率低且無法處理長期依賴問題。另外由于現(xiàn)有關(guān)系推理相關(guān)算法沒有十分注重嵌入方式對(duì)推理結(jié)果的影響,因此推理精度仍有很大提升空間。

針對(duì)實(shí)體間關(guān)系推理的結(jié)果平均精度較低的問題,本文提出了一種新的融合多跳關(guān)系路徑信息的關(guān)系推理方法,將卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[4]、雙向長短時(shí)記憶(Bidirectional Long Short-Term Memory,BiLSTM)[5]模塊以及注意力機(jī)制(Attention mechanism,Att)結(jié)合起來應(yīng)用于知識(shí)圖譜的知識(shí)推理和補(bǔ)全任務(wù)上。

1 相關(guān)工作

隨著知識(shí)圖譜的研究和應(yīng)用,出現(xiàn)了許多與知識(shí)推理相關(guān)的方法,這些方法主要分為基于KG 嵌入的推理方法和基于路徑的推理方法兩大類:基于KG 嵌入的推理方法通過對(duì)KG應(yīng)用低維嵌入的方法預(yù)測缺失的鏈接,其主要是將實(shí)體和關(guān)系表示為低維向量,并通過對(duì)向量進(jìn)行處理來預(yù)測實(shí)體間的關(guān)系;基于路徑的推理方法主要是通過提取兩實(shí)體間多條路徑之間的局部特征,然后利用這些特征來預(yù)測實(shí)體間的關(guān)系。

目前,基于KG 嵌入的推理已經(jīng)出現(xiàn)了多種依賴翻譯的方 法。Nickel 等[6]提出的三階張量分解算法RESCAL 和Bordes 等[7]提出的翻譯嵌入模型(Translating Embedding,TransE)是一種采用在低維空間中實(shí)體嵌入來對(duì)關(guān)系進(jìn)行解釋的方法,分別通過最小化重建損失和基于邊距的等級(jí)損失來學(xué)習(xí)潛在的表示。RESCAL 是基于張量分解的交替最小二乘關(guān)系學(xué)習(xí)算法,該算法可以擴(kuò)展到大型的資源描述框架(Resource Description Framework,RDF)數(shù)據(jù)集,并且在鏈接預(yù)測、實(shí)體分類任務(wù)中取得了良好的效果。

吳運(yùn)兵等[8]提出使用張量神經(jīng)網(wǎng)絡(luò)(Neural Tensor Network,NTN)模型進(jìn)行知識(shí)圖譜推理,與一般的神經(jīng)網(wǎng)絡(luò)相比,提供了一種更強(qiáng)大的關(guān)系信息建模方法。NTN 使用具有雙線性張量層的標(biāo)準(zhǔn)線性神經(jīng)網(wǎng)絡(luò)層,該層直接將跨多個(gè)維度的兩個(gè)實(shí)體向量相關(guān)聯(lián)。Yang等[9]通過結(jié)合NTN和TransE提出了雙線性對(duì)角線模型DistMult,其中關(guān)系表示為對(duì)角矩陣。另外,Trouillon 等[10]提出了一種名為ComplEx 的方法,ComplEx 在實(shí)值向量之間使用標(biāo)準(zhǔn)點(diǎn)積,與NTN 模型相比,嵌入實(shí)體和關(guān)系的性能更好。Dettmers 等[11]將多層卷積網(wǎng)絡(luò)模型應(yīng)用到三元組中形成了卷積嵌入模型(Convolutional Embedding,ConvE)來提高ComplEx 的性能,表明CNN 模型可以有效用于知識(shí)推理。

上述的研究主要集中在關(guān)系和實(shí)體的嵌入上,在對(duì)實(shí)體之間的語義關(guān)系建模時(shí)并不能有效地識(shí)別句子意思,沒有根據(jù)實(shí)體之間的各個(gè)關(guān)系路徑來對(duì)實(shí)體間的關(guān)系進(jìn)行推理?;诼窂酵评淼膫鹘y(tǒng)模型主要包括PRA 及其變體。在PRA 的早期研究中,路徑被視為原子特征,于是就需要單個(gè)分類器去訓(xùn)練包含數(shù)百萬條不同路徑的特征矩陣。不僅如此,隨著知識(shí)圖譜中實(shí)體間關(guān)系數(shù)量的增加,分類器的壓力也會(huì)增大。為了解決這個(gè)問題,Zhao 等[12]提出Path-RNN 模型,該模型將每條路徑分解為關(guān)系序列,并將其加入到RNN 中,從而構(gòu)造路徑的向量表示,然后通過路徑向量表示的點(diǎn)積計(jì)算路徑和候選關(guān)系的相關(guān)性。由于一個(gè)實(shí)體對(duì)之間有多條關(guān)系路徑,因此Path-RNN 使用max 運(yùn)算選擇可預(yù)測性得分最高的路徑。為了改善Path-RNN 的性能,Das 等[13]提出了集中路徑組合運(yùn)算,其中包括Mean、Top-K和LogSumExp,但是這些運(yùn)算都有一定的缺點(diǎn),例如每條路徑上都有其獨(dú)特的局部特征,然而對(duì)于這些不同的局部特征,這些運(yùn)算使用了相同的RNN 對(duì)其進(jìn)行建模,導(dǎo)致推理結(jié)果準(zhǔn)確率偏低。另外,Lin 等[14]提出一種基于三元組的推理方法對(duì)路徑進(jìn)行了優(yōu)化,該方法采用實(shí)體對(duì)之間的路徑,更加注重學(xué)習(xí)使用路徑更好地表示實(shí)體和關(guān)系。

近年來,人們探索了各種擴(kuò)展方式:Gardner 等[15]將文本語料庫作為補(bǔ)充證據(jù)加入到了推理中;之后Gardner等[16]又引入了可以生成更多的預(yù)測路徑的方案;另外,Wang 等[17]考慮了某些關(guān)系之間的關(guān)聯(lián)性。這些擴(kuò)展方法在考慮到了每條路徑獨(dú)特性的同時(shí),也減小了其稀疏性;楊瑞達(dá)等[18]通過使用強(qiáng)化學(xué)習(xí)(Reinforcement Learning,RL)算法中的MINERVA 模型來找到路徑,從而完成推理;Jiang 等[19]在推理過程中引入了注意力機(jī)制,使模型能夠?qū)W⒂诓煌穆窂讲⒔M合這些路徑;但是使用點(diǎn)積運(yùn)算來吸引注意力,使得其擴(kuò)展性不強(qiáng),并且在鏈接預(yù)測過程中使用的是單步推理,推理結(jié)果也較低。Zhou 等[20]提出了結(jié)合BiLSTM 和注意力機(jī)制對(duì)文本中的關(guān)系進(jìn)行分類的Att-BLSTM模型。

針對(duì)目前基于神經(jīng)網(wǎng)絡(luò)的推理方法對(duì)長序列進(jìn)行排序時(shí)會(huì)發(fā)生梯度消失,且忽略了多跳關(guān)系路徑中隱含信息具有長時(shí)依賴性的問題,本文提出了結(jié)合注意力機(jī)制、卷積神經(jīng)網(wǎng)絡(luò)以及雙向長短時(shí)記憶網(wǎng)絡(luò)的推理模型Att-ConvBiLSTM。

本文模型Att-ConvBiLSTM 與Att-BLSTM 相似,不同之處在于Att-BLSTM 注重于單詞級(jí)別的注意,而Att-ConvBiLSTM注重于句子級(jí)別的注意。也就是說,Att-BLSTM 注意力機(jī)制模塊在BiLSTM的單個(gè)輸出上執(zhí)行,以專注于來自單詞級(jí)別上BiLSTM 隱藏單元的單詞嵌入。而在Att-ConvBiLSTM 中,在BiLSTM 中將前向LSTM 的最后一個(gè)隱藏狀態(tài)和后向LSTM 的第一個(gè)隱藏狀態(tài)連接起來,然后在句子級(jí)別上對(duì)多個(gè)句子執(zhí)行注意力機(jī)制模塊,以實(shí)現(xiàn)對(duì)句子嵌入的集中聚合。

2 融合多跳關(guān)系路徑信息的關(guān)系推理模型

在知識(shí)圖譜G上給定一組實(shí)體E以及實(shí)體上的一組二元關(guān)系R,例如三元組(es,r,et)是E和R上的有序集合,es、et是頭實(shí)體和尾實(shí)體,r是它們之間的關(guān)系。關(guān)系推理的目的是完善不完整三元組中缺失的關(guān)系信息,例如,給定一個(gè)查詢?nèi)M(es,?,et),通過對(duì)所有候選關(guān)系R進(jìn)行評(píng)估,可以預(yù)測es與et之間具有關(guān)系r的概率,將具有較高合理分?jǐn)?shù)關(guān)系r與缺失關(guān)系的兩個(gè)實(shí)體組合成完善的三元組,從而對(duì)知識(shí)圖譜進(jìn)行補(bǔ)全。

基于RNN 推理路徑的方法在對(duì)長序列進(jìn)行排序時(shí)會(huì)遇到梯度消失的問題。為了解決此問題,使用適合對(duì)具有長期依賴性的路徑序列建模的BiLSTM進(jìn)行處理。此外,典型的基于路徑的推理方法將實(shí)體之間的路徑視為不同的特征,導(dǎo)致分類器必須訓(xùn)練大量不同的路徑。本文所提方法Att-ConvBiLSTM 無需構(gòu)造大型的特征矩陣,而是使用CNN 和BiLSTM 將路徑嵌入到低維空間中并進(jìn)行特征提取,然后針對(duì)不同路徑特征進(jìn)行路徑序列信息編碼。Att-ConvBiLSTM 模型的整體結(jié)構(gòu)如圖1所示。

圖1 Att-ConvBiLSTM模型整體結(jié)構(gòu)Fig.1 Overall structure of Att-ConvBiLSTM model

2.1 路徑嵌入

首先使用嵌入矩陣來將每個(gè)輸入實(shí)體和關(guān)系轉(zhuǎn)換為向量,令e∈Rd和r∈Rd分別表示圖中實(shí)體e和關(guān)系r的d維嵌入向量。在模型中,通過實(shí)體的類型來表示實(shí)體:一方面可以減少模型參數(shù)并防止計(jì)算瓶頸;另一方面還可以防止在測試過程中碰到無法識(shí)別類型的實(shí)體。然后使用PRA 獲取與關(guān)系r最相關(guān)的每個(gè)訓(xùn)練實(shí)例(es,r,et)的關(guān)系路徑。給定知識(shí)圖譜中的三元組(es,r,et),PRA 首先在一組限定路徑長度的三元組上進(jìn)行隨機(jī)游走,從頭實(shí)體開始,一直到達(dá)尾實(shí)體,同時(shí)記錄將頭實(shí)體與其尾實(shí)體連接起來的所有關(guān)系。由此就獲取到了多條關(guān)系路徑,并且每一條關(guān)系路徑p包含一系列關(guān)系{r1,r2,…,rl},加上中間實(shí)體,得到一次隨機(jī)游走的路徑π={es,r1,e1,…,rl,et},進(jìn)一步將所有關(guān)系路徑p擴(kuò)展為完整路徑Π。這樣就獲得了由關(guān)系r連接的兩個(gè)實(shí)體(es,et)之間的一組路徑P(es,et)={π1,π2,…,πn} ∈Π,并將其嵌入到連續(xù)向量空間中。

2.2 路徑序列編碼

通過對(duì)整個(gè)知識(shí)圖譜進(jìn)行隨機(jī)遍歷后可以提取到從頭實(shí)體es到尾實(shí)體et的路徑,一旦獲得兩個(gè)實(shí)體之間的路徑,就進(jìn)行路徑編碼來獲取頭實(shí)體和尾實(shí)體之間的路徑的嵌入。兩個(gè)實(shí)體之間長度為l的路徑定義為π={es,r1,e1,…,rj,ej,…,rl,et},其中ej和rj分別表示路徑中的第j個(gè)實(shí)體和第j項(xiàng)關(guān)系,es和et分別是在位置0 和l處嵌入的實(shí)體。然后將所有的路徑序列長度都填充到l,并且l定義為路徑集中最大路徑長度。在路徑序列上使用多重一維卷積運(yùn)算,讓路徑序列經(jīng)過多個(gè)具有相同大小窗口的濾波器,從而生成特征。令Wk∈R3×d是窗口內(nèi)核大小為3的一維濾波器,將濾波器Wk應(yīng)用于每條路徑上。從頭實(shí)體開始,將濾波器從左向右一次移動(dòng)一個(gè)位置,直到到達(dá)了最后一個(gè)位置,從而生成特征圖c,cj,k表示將第k個(gè)濾波器應(yīng)用于路徑序列的第j個(gè)窗口之后生成的特征,如式(1)所示:

其中:b是偏置,k是濾波器的數(shù)量,f是ReLU 非線性激活函數(shù)。將從k個(gè)濾波器中獲得的特征進(jìn)行橫向拼接,生成特征向量cj=[cj,1,cj,2,…,cj,k],處理完所有路徑后會(huì)獲得特征向量集{c1,c2,…,cl}。

將卷積層輸出的特征向量輸入到BiLSTM 中,表示BiLSTM 模塊中的一個(gè)時(shí)間步輸入。在每個(gè)時(shí)間步中,將路徑序列中每個(gè)項(xiàng)的k維嵌入輸入到LSTM,LSTM 會(huì)記住先前計(jì)算的結(jié)果并將其結(jié)果在當(dāng)前計(jì)算中使用。BiLSTM 由前向LSTM 和后向LSTM 兩個(gè)部分組成,前向LSTM 從左到右讀取路徑序列中的項(xiàng),后向LSTM 從右到左讀取路徑序列中的項(xiàng),分別用ˉ→hj和←ˉhj表示前向LSTM 和后向LSTM 的輸出。為了匹配路徑和候選關(guān)系的嵌入,將LSTM 單元中隱藏狀態(tài)數(shù)設(shè)置成了d/2并取整。在使用BiLSTM處理路徑序列中的所有項(xiàng)后會(huì)獲得兩個(gè)單獨(dú)的隱藏狀態(tài)序列,例如給定一個(gè)輸入序列{c1,c2,…,cl},前向LSTM輸出的隱藏狀態(tài)序列為∈Rd/2,后向LSTM 輸出的隱藏狀態(tài)序列為,計(jì)算式如式(2)所示:

然后將BiLSTM 中前向LSTM 的最后1個(gè)隱藏狀態(tài)和后向LSTM 的第1 個(gè)隱藏狀態(tài)連接起來,生成長度為l的路徑π的最終表示形式y(tǒng),如式(3)所示。最終,n條路徑生成了嵌入向量Y={y1,y2,…,yn},其中Y∈Rd×n,可以有效捕獲路徑的順序特征。

2.3 注意力機(jī)制

目前已有的基于路徑的推理方法基本都使用最大池化或均值運(yùn)算來組合多個(gè)路徑,最大池化忽略了每條路徑可以提供不同的關(guān)系推理證據(jù),而均值運(yùn)算則沒有考慮到并不是實(shí)體間所有路徑都能代表它們之間的關(guān)系。為了衡量每條路徑對(duì)路徑組合的作用,本文采用加性注意力機(jī)制計(jì)算所有路徑的匹配分?jǐn)?shù),實(shí)現(xiàn)與候選關(guān)系更為相關(guān)的路徑應(yīng)具有較高的權(quán)重,與候選關(guān)系相關(guān)度較低的路徑具有較低的權(quán)重。與點(diǎn)積相比,加性注意力機(jī)制可以有效地考慮較小的值,在計(jì)算得分方面表現(xiàn)出更好的性能。

首先,通過PRA 對(duì)候選關(guān)系r進(jìn)行嵌入,并將其轉(zhuǎn)換為向量表示形式u(u=A(r));接下來,將嵌入的關(guān)系和路徑編碼進(jìn)行匹配,計(jì)算出每條路徑y(tǒng)i的匹配分?jǐn)?shù)來表示關(guān)系r和路徑πi之間的語義相似性;最后,使用加權(quán)和運(yùn)算對(duì)路徑向量進(jìn)行組合,從而生成狀態(tài)向量o,計(jì)算過程如式(4)所示:

其中:Wa∈Rd×2d是特定路徑所占的權(quán)重,Wb∈Rd是權(quán)重參數(shù);yi是第i條路徑的路徑表示形式;αi是匹配得分,表示在響應(yīng)關(guān)系r時(shí)模型對(duì)路徑πi的關(guān)注程度。加權(quán)和運(yùn)算操作將來自多個(gè)路徑的基本信息組合在一起,并且在丟棄不相關(guān)路徑的同時(shí)保留想要關(guān)注的路徑的值。

2.4 多步推理

當(dāng)路徑表示的搜索空間很大時(shí),組合所有的路徑并不能提供足夠的證據(jù)來推斷實(shí)體之間的關(guān)系,因此,為了縮小搜索范圍,在模型上進(jìn)行了擴(kuò)展,對(duì)路徑分布執(zhí)行多步推理。多步推理是指對(duì)從BiLSTM 中得到的路徑向量多次使用注意力機(jī)制,將每次使用注意力機(jī)制得出的結(jié)果繼續(xù)使用注意力機(jī)制去提高推理結(jié)果的精確值。每一步推理都會(huì)生成一個(gè)新的關(guān)系嵌入向量u來表示推理證據(jù)。在每一步中,關(guān)系嵌入向量的計(jì)算方式如式(5)所示:

其中:Wo∈Rd×d表示權(quán)重參數(shù),通過此計(jì)算方式可以在各層之間添加線性映射從而來更新uz。初始狀態(tài)u1由嵌入的關(guān)系A(chǔ)(r)來定義。輸出嵌入向量uz+1的更新由前一個(gè)向量uz和狀態(tài)向量oz的加權(quán)和來計(jì)算。最后,生成uz并將其通過權(quán)重矩陣Wp和非線性激活函數(shù)sigmoid 計(jì)算最終預(yù)測得分,計(jì)算方式如式(6)所示。超參數(shù)Z由實(shí)驗(yàn)結(jié)果確定。

2.5 損失函數(shù)

模型通過最小化交叉熵?fù)p失進(jìn)行學(xué)習(xí),使用自適應(yīng)矩估計(jì)(Adam)優(yōu)化,目標(biāo)函數(shù)的簡化形式定義如式(7)所示:

其中:N是訓(xùn)練集中三元組的數(shù)量;T+和T-分別代表正例和負(fù)例三元組;Θ代表模型中所有可學(xué)習(xí)的參數(shù)。在模型訓(xùn)練將誤差降為最低的同時(shí),給正例三元組賦予較高的值,給負(fù)例三元組賦予較低的值。調(diào)整模型的參數(shù)并將權(quán)重的標(biāo)準(zhǔn)L2范數(shù)用作約束函數(shù),最后從所有的候選項(xiàng)中檢索出前k個(gè)預(yù)測。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 數(shù)據(jù)集及評(píng)價(jià)標(biāo)準(zhǔn)

為了評(píng)估本文所提方法,使用了四個(gè)知識(shí)圖譜數(shù)據(jù)集,分別是兩個(gè)大型數(shù)據(jù)集NELL995 和FB15k-237,以及兩個(gè)小型數(shù)據(jù)集Kinship和Countries,數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。

表1 不同數(shù)據(jù)集信息統(tǒng)計(jì)Tab.1 Information statistics of different datasets

采用平均精確率均值(Mean Average Precision,MAP)、平均倒數(shù)排名(Mean Reciprocal Rank,MRR)、F1 值以及Hit@k評(píng)估本文方法。MAP 是對(duì)相關(guān)正確實(shí)體進(jìn)行排名的準(zhǔn)確率的平均值,計(jì)算如式(8)所示,AP是在每個(gè)正例三元組的排名位置的精確率的平均值。MRR 指的是在第i個(gè)查詢中查詢到的第一個(gè)正例三元組的排名位置,計(jì)算如式(9)所示。F1 值是綜合精確率(precision)和召回率(recall)的評(píng)估指標(biāo),其計(jì)算方式如式(10)所示。Hit@k是指推理出的關(guān)系在排名前k位所占的比例。

其中:q是推理出來的正確的實(shí)體間的關(guān)系數(shù),Qr是所有實(shí)體間的關(guān)系數(shù),rankq是該正確推理的排名位置

3.2 實(shí)驗(yàn)設(shè)置

為了生成負(fù)例三元組,將數(shù)據(jù)集中三元組的頭實(shí)體或尾實(shí)體替換為隨機(jī)實(shí)體。利用負(fù)例三元組生成路徑之后,會(huì)將開頭或者末尾包含目標(biāo)三元組的路徑刪掉,防止出現(xiàn)過度擬合的問題。例如假設(shè)存在一條從實(shí)體x到y(tǒng)并且經(jīng)過關(guān)系temp、temp-1以及artists的路徑,即temp(x,person)&temp-1(person,x)&artists(x*,y)?artists(x,y)。當(dāng)生成這樣的一條路徑時(shí),x*和x可以是同一個(gè)人,因此x*=x。在這種情況下,測試三元組artists(x,y)是已經(jīng)存在于知識(shí)圖譜中的。另外可以觀察到,連接正實(shí)體對(duì)temp(x,person)的一些關(guān)系路徑出現(xiàn)在了負(fù)實(shí)體對(duì)temp-1(person,x)中,但是這類路徑對(duì)預(yù)測沒有作用,因此將其排除在外。在推理中,長路徑被認(rèn)為沒有短路徑可靠和有效。因此在本實(shí)驗(yàn)的PRA設(shè)置中,將關(guān)系路徑限制為最多有3個(gè)關(guān)系,這樣可以有效保證在將實(shí)體類型合并到關(guān)系路徑中后,推理路徑在未填充的情況下最多包含7個(gè)單詞。除此之外,在實(shí)驗(yàn)中,選擇通過隨機(jī)游走方式到達(dá)目標(biāo)實(shí)體的概率得分大于0.1的關(guān)系路徑。為了使本文方法被有效評(píng)估,沒有明確路徑的實(shí)體對(duì),不論是否正確都將其從訓(xùn)練集中去掉。

在實(shí)驗(yàn)中,隨機(jī)初始化所有模型參數(shù),用Adam 優(yōu)化器進(jìn)行優(yōu)化,調(diào)整minibatch的大小從而保證每一輪訓(xùn)練中minibatch數(shù)量為64。當(dāng)訓(xùn)練集在最近的10 輪訓(xùn)練內(nèi)精確率提高不超過10-2時(shí),停止訓(xùn)練。使用網(wǎng)格搜索參數(shù)方法對(duì)模型中的超參數(shù)進(jìn)行選擇。學(xué)習(xí)率γ設(shè)置為5個(gè)可選擇的值,分別是0.001,0.001 5,0.002,0.002 5,0.003;向量的維數(shù)k設(shè)置從{50,100}中選擇。BiLSTM 中的隱藏單元數(shù)分別設(shè)置為64 和128,濾波器數(shù)量選擇{30,40,50,60}中的值,正則化權(quán)重λ值選擇{0,0.005,0.01,0.1,0.5,1}中的值。一共設(shè)置了100輪來進(jìn)行訓(xùn)練。

3.3 實(shí)驗(yàn)及結(jié)果分析

本文模型Att-ConvBiLSTM 和路徑排序算法PRA[2]、雙線性對(duì)角線模型DistMult[9]、卷積嵌入模型ConvE[11]、基于路徑的神經(jīng)網(wǎng)絡(luò)模型Path-RNN[12]以及強(qiáng)化學(xué)習(xí)模型MINERVA[18]在NELL995 和FB15k-237 數(shù)據(jù)集上的推理結(jié)果MRR、MAP 以及Hits@3 的值如表2 所示。對(duì)于這種大型數(shù)據(jù)集,由于在數(shù)據(jù)集中缺少負(fù)樣本,表中對(duì)比方法和本文方法Att-ConvBiLSTM 的Hits@10 得分是相同的,因此只列出了在Hits@1 和Hits@3 的命中得分。可以看到MINERVA 模型和Att-ConvBiLSTM 模型在NELL995 數(shù)據(jù)集上都表現(xiàn)出了很好的結(jié)果,但是Att-ConvBiLSTM 中各評(píng)價(jià)指標(biāo)均比MINERVA提高了約0.2 個(gè)百分點(diǎn)。Att-ConvBiLSTM 可以更精確地預(yù)測到大型數(shù)據(jù)集上實(shí)體間缺失的關(guān)系。對(duì)比表中的其他方法,Att-ConvBiLSTM 在所有評(píng)估指標(biāo)上都取得了很好的結(jié)果。ConvE 模型的MRR 和Hits@k得分與Att-ConvBiLSTM 相近,但是Att-ConvBiLSTM 在具有大量不同關(guān)系的FB15k-237 數(shù)據(jù)集上的結(jié)果優(yōu)勢還是很明顯的。相反,ConvE 在具有較少關(guān)系的數(shù)據(jù)集上得出的結(jié)果略好一些,表明Att-ConvBiLSTM 更適合于大型知識(shí)圖譜的推理。

表2 不同推理方法在NELL995和FB15k-237數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Tab.2 Experimental results comparison of different reasoning methods on NELL995 and FB15k-237 datasets

為考察不同路徑長度對(duì)實(shí)驗(yàn)結(jié)果的影響,在NELL995 數(shù)據(jù)集上引入了不同的路徑長度進(jìn)行了實(shí)驗(yàn):當(dāng)路徑長度低于3 時(shí),由于路徑中可用于推理的證據(jù)不夠多,導(dǎo)致實(shí)驗(yàn)結(jié)果并不夠好;當(dāng)路徑長度大于3 時(shí),路徑中無用單詞偏多,同樣會(huì)影響結(jié)果;當(dāng)路徑長度等于3 時(shí),可以發(fā)現(xiàn)實(shí)驗(yàn)各項(xiàng)指標(biāo)都處于最佳值,如表3所示。

表3 對(duì)NELL995數(shù)據(jù)集不同路徑長度下的實(shí)驗(yàn)結(jié)果Tab.3 Experimental results of different lengths of paths on NELL995 dataset

當(dāng)路徑較長時(shí),PRA 會(huì)生成大量路徑,可能導(dǎo)致內(nèi)存溢出。為了避免此問題,必須將PRA 中的路徑閾值調(diào)整到較高的值,這樣就可以將權(quán)重占比很低的一些路徑過濾掉,從而減少路徑數(shù)量;但是這樣又會(huì)導(dǎo)致模型整體性能不高,存在測試集中的一些實(shí)體無法被路徑連接。實(shí)驗(yàn)中還發(fā)現(xiàn)在NELL995數(shù)據(jù)集上,較短的路徑可以比較長的路徑提供更可靠的推理依據(jù)。此外,在上述的實(shí)驗(yàn)中,使用了實(shí)體類型嵌入來表示實(shí)體,但是在某些情況下,類型信息可能無法訪問或者僅部分可用。如果類型信息不可用,那么使用該實(shí)體的嵌入,而不按其類型來表示實(shí)體。因此在NELL995 數(shù)據(jù)集上,對(duì)于實(shí)體類型的覆蓋率做了實(shí)驗(yàn),在路長為3 時(shí)不同覆蓋率的實(shí)驗(yàn)結(jié)果如表4所示??梢宰⒁獾疆?dāng)路徑長度設(shè)置為3時(shí),如果實(shí)體類型的覆蓋率降低,性能則會(huì)有所下降。出現(xiàn)這種問題可能是由于測試集中的一些實(shí)體在訓(xùn)練集中并不存在。

表4 對(duì)NELL995數(shù)據(jù)集不同覆蓋率下的實(shí)驗(yàn)結(jié)果Tab.4 Experimental results of different coverage rates on NELL995 dataset

為了考察Att-ConvBiLSTM 的泛化能力,在小型數(shù)據(jù)集Kinship 和Countries 上進(jìn)行了實(shí)驗(yàn),其實(shí)驗(yàn)結(jié)果如表5 所示。由表5 可知,Att-ConvBiLSTM 在Kinship 數(shù)據(jù)集上取得了優(yōu)異的結(jié)果,因?yàn)橄噍^于其他數(shù)據(jù)集,Kinship 數(shù)據(jù)集具有更多可預(yù)測的路徑。但是對(duì)于Countries 數(shù)據(jù)集,Att-ConvBiLSTM 模型的推理結(jié)果相比其他方法略有不足。通過分析Countries數(shù)據(jù)集可知,該數(shù)據(jù)集中可用于訓(xùn)練的三元組數(shù)量較少,無法有效地進(jìn)行訓(xùn)練,因此本文方法不適用于規(guī)模很小的知識(shí)圖譜。對(duì)于具有更多多跳關(guān)系路徑的知識(shí)圖譜,Att-ConvBiLSTM 具有相比其他方法更好的性能體現(xiàn)。

表5 不同推理方法在Kinship和Countries數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Tab.5 Comparison of experimental results of different reasoning methods on Kinship and Countries datasets

Att-ConvBiLSTM 和其他模型在大型數(shù)據(jù)集NELL995 和小型數(shù)據(jù)集Kinship 中精確率、召回率以及F1 值如圖2 所示。由圖2可知,Att-ConvBiLSTM 模型F1分?jǐn)?shù)最高,并且召回率比MINERVA 高出了約10%。這意味著Att-ConvBiLSTM 在推理中可以更大概率找到正確的候選集。

圖2 Att-ConvBiLSTM與其他模型在NELL995和Kinship數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比Fig.2 Comparison of experimental results of Att-ConvBiLSTM and other models on NELL995 and Kinship datasets

為考察推理步數(shù)對(duì)模型性能的影響,采用1~7 步推理。在NELL995 數(shù)據(jù)集上,參數(shù)采用上述實(shí)驗(yàn)的最佳參數(shù),MAP得分如圖3 所示??梢杂^察到,MAP 得分一開始隨著推理步驟數(shù)量的增加而逐漸增加,在第3 步之后達(dá)到最高值,然后又有所降低。分析可知,一開始該模型中會(huì)有一些無用的路徑參與推理,從而導(dǎo)致MAP 得分比較低。但隨著模型到了第3步推理時(shí),無用的路徑越來越少,從而得到了很高的預(yù)測分?jǐn)?shù)。隨后由于出現(xiàn)過擬合,MAP得分從第4步開始逐漸減小。

圖3 NELL995數(shù)據(jù)集上采用不同推理步數(shù)的MAPFig.3 MAPs with different reasoning steps on NELL995 dataset

圖4 給出了實(shí)體間具有不同注意力權(quán)重α的關(guān)系路徑的推理路徑,通過不同的路徑可以推理出的直接關(guān)系。在原來的NELL995 數(shù)據(jù)集中,athlete 與sport 并沒有直接的關(guān)系,但是通過推理可以得到兩者之間的直接關(guān)系是plays。推理完成后,通過將推理出的關(guān)系與相應(yīng)兩實(shí)體進(jìn)行結(jié)合形成新的三元組(athlete,plays,sport)增加到原知識(shí)圖譜中,完成該知識(shí)圖譜的補(bǔ)全。

圖4 不同注意力權(quán)重的路徑以及對(duì)應(yīng)推理結(jié)果Fig.4 Paths of different attention weights and corresponding reasoning results

對(duì)于本文提出的模型Att-ConvBiLSTM 中的3 個(gè)核心組件,為了評(píng)價(jià)各組件對(duì)推理結(jié)果的影響程度,在NELL995 數(shù)據(jù)集中做了以下3 組實(shí)驗(yàn)來進(jìn)行判斷(參數(shù)設(shè)置均為最優(yōu)值),得出不同組件組合下的實(shí)驗(yàn)結(jié)果如表6 所示。根據(jù)實(shí)驗(yàn)結(jié)果可知,BiLSTM 對(duì)語義的長時(shí)依賴處理最大程度影響著推理結(jié)果。由于注意力機(jī)制需要捕獲候選關(guān)系與實(shí)體間的關(guān)系路徑中的語義相關(guān)性,因此也較大程度影響著推理結(jié)果。對(duì)于CNN 卷積層,雖然其對(duì)結(jié)果的影響程度較低,但多跳關(guān)系路徑中的局部特征提取是非常重要的一個(gè)環(huán)節(jié),因此不可缺少。

表6 不同組件組合在NELL995數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果Tab.6 Experimental results of different component combinations on NELL995 dataset

4 結(jié)語

為了考慮到多跳關(guān)系路徑信息對(duì)知識(shí)圖譜中的關(guān)系推理結(jié)果的影響,結(jié)合CNN、BiLSTM 和注意力機(jī)制,本文提出了一種融合多跳關(guān)系路徑信息的關(guān)系推理方法。該方法在減少了計(jì)算開銷的情況下,在各數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果均優(yōu)于其他方法。表明本文方法對(duì)知識(shí)圖譜中實(shí)體間的關(guān)系推理具有較高的準(zhǔn)確性,在知識(shí)圖譜領(lǐng)域,本文方法可作為研究實(shí)體間關(guān)系推理的參考。下一步研究將會(huì)嘗試將更多種實(shí)體類型融合到嵌入中,實(shí)體類型的多樣化對(duì)推理結(jié)果的影響程度也將是進(jìn)一步研究的重點(diǎn)。

猜你喜歡
三元組集上圖譜
基于語義增強(qiáng)雙編碼器的方面情感三元組提取
軟件工程(2024年12期)2024-12-28 00:00:00
基于帶噪聲數(shù)據(jù)集的強(qiáng)魯棒性隱含三元組質(zhì)檢算法*
繪一張成長圖譜
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
關(guān)于余撓三元組的periodic-模
復(fù)扇形指標(biāo)集上的分布混沌
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動(dòng)對(duì)接你思維的知識(shí)圖譜
三元組輻射場的建模與仿真
南华县| 湘西| 霍山县| 大埔县| 内乡县| 获嘉县| 平乐县| 怀集县| 恭城| 祁东县| 望都县| 花垣县| 阿勒泰市| 丹东市| 济宁市| 包头市| 平和县| 江津市| 阿克| 哈巴河县| 清徐县| 锡林浩特市| 永登县| 朔州市| 和政县| 乐至县| 平南县| 盖州市| 道真| 景德镇市| 建宁县| 彰化县| 固始县| 玛曲县| 大名县| 南漳县| 巍山| 张家口市| 赤峰市| 额尔古纳市| 昌乐县|