翟社平,王書桓,尚定蓉,董蘇蘇
(1. 西安郵電大學 計算機學院,陜西 西安 710121;2. 陜西省網(wǎng)絡數(shù)據(jù)分析與智能處理重點實驗室,陜西 西安 710121)
知識圖譜是一種結(jié)構(gòu)化語義知識庫,存儲了現(xiàn)實世界中復雜的結(jié)構(gòu)化信息,已成功應用于智能問答[1]、個性化推薦[2]等領域。知識圖譜通常是以網(wǎng)絡和圖的結(jié)構(gòu)來表示三元組中的元素,網(wǎng)絡和圖中的節(jié)點表示實體,節(jié)點之間的邊表示不同實體之間的關系,通常使用三元組(頭實體,關系,尾實體)來表示,也用符號(h,r,t)表示。近年來,大規(guī)模知識圖譜的構(gòu)建已經(jīng)取得了很大進步,例如WordNet[3],F(xiàn)reebase[4]。但是,它們?nèi)源嬖谥鴩乐氐臄?shù)據(jù)不完整和數(shù)據(jù)稀疏等問題。
為了解決上述問題,基于深度學習的知識表示方法引起學者的關注,TransE[5]便是其中最典型的模型,它將三元組中的元素(實體或關系)編碼到低維空間中,實體與關系的嵌入通過最小化得分函數(shù)得到。然而,TransE及其擴展模型僅利用三元組的結(jié)構(gòu)信息,很難準確表示好長尾實體的語義信息。因此有學者提出利用實體的多源信息來改善知識表示,例如實體描述、實體屬性等。
在知識圖譜中,大多數(shù)實體存在著簡潔的文本描述,其中包含與這些實體相關的豐富語義信息。例如,在圖1中展示了Freebase中的一個三元組及相關實體描述信息??梢钥闯?,文本描述中存在著實體的一些附加信息,將這些信息融入知識表示中可以補充缺失的語義信息,有效緩解數(shù)據(jù)稀疏等問題。因此,一些工作[6-9]開始引入文本信息來改善知識表示,但是這些方法仍存在不足: ①尚未提出三元組結(jié)構(gòu)信息與文本信息聯(lián)合表示的有效方法。②文本信息中的每個詞對關系的影響程度不同,不能無差別地對其進行編碼。③對文本進行編碼時,未考慮詞序信息。
圖1 Freebase中三元組的實體描述
鑒于以上不足,Xu等[10]提出基于雙向LSTM的聯(lián)合知識表示模型。該模型利用雙向LSTM與注意力機制[11]對實體描述編碼,并采用門控機制來對文本和結(jié)構(gòu)進行聯(lián)合表示。然而模型在對文本信息進行編碼時,考慮了所有詞的位置信息,沒有重點突出實體描述中特定實體與其他詞的相對位置關系,使模型的輸入向量對句子特征的表現(xiàn)力不足。同時,在進行聯(lián)合表示時,得分函數(shù)采用最基礎的翻譯模型(即TransE)表示知識。但是每個特征維度對于不同關系的影響效果是有差別的,統(tǒng)一考慮所有維度的權(quán)重將直接影響知識表示的效果。
為了解決這些問題,本文提出一種基于實體描述的聯(lián)合表示模型(JRED)。具體來說,本文從兩個信息源中學習每個實體的聯(lián)合表示形式: 一個是結(jié)構(gòu)信息,另一個是其文本描述。對于結(jié)構(gòu)表示,本文采用基于翻譯的方法獲得;對于文本表示,本文采用Attention_Bi-LSTM編碼器對文本描述建模,最后通過門控機制將兩種表示進行聯(lián)合建模。本文的主要貢獻概括如下:
(1) 本文通過門控機制和自適應得分函數(shù)共同學習文本和結(jié)構(gòu)的聯(lián)合表示,門控機制將決定從結(jié)構(gòu)或文本表示傳遞多少信息到最終的聯(lián)合表示。
(2) 對于文本描述,本文引入位置向量和注意力機制設計了Attention_Bi-LSTM編碼器,可以根據(jù)不同的關系從其文本描述中動態(tài)選擇最相關的信息。
(3) 本文的模型在鏈接預測與三元組分類上進行了驗證,結(jié)果表明JRED模型能改善數(shù)據(jù)稀疏問題,各項指標與最先進的方法相比都有很強的競爭性,尤其在Mean Rank指標上有明顯優(yōu)勢。
知識圖譜表示學習方法有很多,近年來這些方法已經(jīng)取得了很大的進步。受Word2Vec[12]中平移不變現(xiàn)象的啟發(fā),TransE[5]將每個三元組(h,r,t)中的關系r視為低維空間中從h到t的轉(zhuǎn)換,即h+r=t。這意味著在給定三元組的情況下,t應該最接近h+r。TransE在1-to-1關系建模中表現(xiàn)良好,但是當表示1-to-N,N-to-1和N-to-N等復雜關系時,這種簡單的翻譯方式可能會存在局限性。TransH[13]被用來解決TransE的不足,通過將關系表示為超平面,并將頭、尾實體投影到關系特定的超平面,從而使實體在不同的關系中具有不同的嵌入。為了更好地區(qū)分實體與關系的差異,TransR[14]將實體和關系的表示構(gòu)建在兩個不同的空間,并使用關系特定矩陣將實體從實體空間投影到關系空間。TransD[15]為每個實體-關系對構(gòu)建動態(tài)映射矩陣來區(qū)分頭、尾實體,考慮了實體與關系的多樣性。TranSparse[16]使用自適應的稀疏傳遞矩陣代替一般的傳遞矩陣進行實體和關系的建模。TransA[17]采用了一個非負權(quán)重矩陣,為向量的不同維度學習不同的權(quán)重,可以有效處理復雜關系建模。KG2E[18]和TransG[19]使用高斯分布來刻畫實體和關系的不同語義信息。TransRD[20]使用不對等轉(zhuǎn)換矩陣對頭實體和尾實體進行投影,并對關系進行分組且每組關系使用同樣的矩陣投影。然而,這些研究僅利用了三元組的結(jié)構(gòu)信息,忽略了實體的外部信息,因此一些學者開始考慮將文本信息融入知識表示中。
近年來,融入文本信息的知識表示已經(jīng)被很多學者研究,它可以從不同方面提供附加信息,有助于實體和關系的建模。文獻[21]提出NTN模型,將每個實體表示為實體名稱中單詞向量的平均值。文獻[6]提出將實體和單詞共同嵌入同一連續(xù)向量空間,并使用實體名稱和Wikipedia錨點將兩種嵌入在同一空間對齊。但是這種依賴錨點的方式適用范圍有限,因此文獻[7]提出了一種基于實體文本描述的對齊模型。文獻[8]使用實體名稱或其描述文本的詞向量的平均值來表示實體,該方法忽略了句子中的詞序信息。
文獻[9]提出了DKRL,使用連續(xù)詞袋編碼器(CBOW)和卷積神經(jīng)網(wǎng)絡(CNN)編碼器對實體描述進行編碼。但是該方式不僅不能充分捕捉實體描述的完整語義信息,而且尚未考慮文本信息的篩選及聯(lián)合兩種表示的有效方式。文獻[22]提出一種增強文本的表示學習方法TEKE,通過構(gòu)造實體與詞語在指定大小的窗口中的共現(xiàn)網(wǎng)絡,可得到實體與關系在文本中的上下文。文獻[23]提出了語義空間投影模型SSP,共同學習符號三元組和文本描述,并通過表征兩個信息源之間的相關性將三元組和文本進行交互。文獻[24]提出了一種利用卷積神經(jīng)網(wǎng)絡嵌入關系文本的知識表示學習方法,并將結(jié)構(gòu)表示和關系描述進行聯(lián)合建模。文獻[10]提出了基于雙向LSTM的知識表示模型,利用雙向LSTM對實體描述進行編碼,并使用門機制將結(jié)構(gòu)表示和文本表示聯(lián)合起來。該方法相比先前的模型性能顯著提高,但是對文本編碼器的輸入向量考慮有所欠缺。而在本文的模型中,輸入層重點突出了指定實體名與文本中其他單詞的相對距離,并采用了自適應得分函數(shù)對文本和結(jié)構(gòu)信息進行聯(lián)合表示。
本節(jié)首先介紹模型中用到的概念。一個知識圖譜可以被表示為G={E,R,T},其中E表示一組實體,R表示一個關系集,T表示一組事實三元組。每個三元組(h,r,t)∈T表明在實體h∈E與t∈E之間存在一個關系r∈R。
本文將利用三元組結(jié)構(gòu)信息和實體描述文本信息建模實體與關系的表示。結(jié)構(gòu)表示通過基于翻譯的模型(TransE)訓練所得,符號表示為hs、ts;文本表示通過Attention_Bi-LSTM編碼器訓練所得,符號表示為hd、td。最后,采用自適應得分函數(shù)和門機制對實體的結(jié)構(gòu)表示和文本表示進行聯(lián)合建模。JRED模型的整體框架如圖2所示。
圖2 JRED模型的整體框架
基于翻譯的模型TransE認為在低維向量空間中關系是從頭實體到尾實體的翻譯過程,它旨在將三元組中實體和關系表示成連續(xù)低維的向量,其得分函數(shù)如式(1)所示。
(1)
其中,如果三元組(h,r,t)存在,則函數(shù)值較?。环駝t,函數(shù)值較大??梢钥闯?,該得分函數(shù)采用歐氏距離度量h+r與t之間的差異,不論是實體向量還是關系向量,向量的每一維度都被認為是同樣重要的。然而,每種關系只有特定的部分維度對其是有影響的,如果按照TransE等翻譯方法將所有的特征維度都統(tǒng)一看待,將會使實體或關系的表示不準確。如圖3所示,實心三角形是正確匹配的尾實體,空心三角形是錯誤匹配的尾實體,箭頭表示頭實體和尾實體間的某種關系。圖3(a)中,傳統(tǒng)模型將向量的每一個維度無差別地對待,導致產(chǎn)生錯誤的三元組,如(h1,r1,t4),(h2,r2,t5),(h3,r3,t6);在圖3(b)中,對向量的每個表示維度重新分配一個自適應的權(quán)重,例如增加y軸的權(quán)重,降低x軸的權(quán)重,使頭實體分別都匹配到了正確的尾實體,如(h1,r1,t1),(h2,r2,t2),(h3,r3,t3)。因此,本文需要對得分函數(shù)進行改進,分別考慮每個特征維度對關系的影響[25]。
針對上述問題,本文引入對角權(quán)重矩陣Dr對不同的特征維度分配不同的權(quán)重[25],以實現(xiàn)自適應地度量向量間的距離,改進的得分函數(shù)如式(2)~式(4)所示。
fr(h,t)=(|h+r-t|)T
Dr(|h+r-t|)
(2)
Dr=diag(w1,w2,…,wi,…,wn)
(3)
|h+r-t|=(|h1+r1-t1|,
|h2+r2-t2|,…
|hn+rn-tn|)
(4)
其中,diag()表示Dr是一個對角矩陣,其值需經(jīng)過訓練不斷優(yōu)化得到,第i個特征維度的權(quán)重由wi決定,1≤i≤n。
圖3 傳統(tǒng)表示模型與自適應表示模型對比
實體描述為實體表示提供了三元組以外的附加信息,使實體表示更加準確。本文采用門控機制[10]聯(lián)合三元組結(jié)構(gòu)表示es和基于實體描述的文本表示ed,其自適應得分函數(shù)如式(5)所示。
fr(h,t)=(|eh+r-et|)TDr(|eh+r-et|)
(5)
其中,eh和et分別為頭實體和尾實體的聯(lián)合表示,其聯(lián)合表示ej如式(6)所示。
ej=gs⊙es+gd⊙ed
(6)
其中,gs、gd是平衡兩種信息源的門,gd=1-gs,取值范圍為[0,1],⊙是元素乘法。從直觀上看,當gs接近0時,聯(lián)合表示法被迫忽略結(jié)構(gòu)信息,使ej僅呈現(xiàn)文本表示。門向量gs被定義為式(7):
(7)
fr(h,t)=(|(ghs⊙hs+ghd⊙hd)
+r-(gts⊙ts+gtd⊙td)|)T
×Dr×(|(ghs⊙hs+ghd⊙hd)
+r-(gts⊙ts+gtd⊙td)|)
(8)
其中,ghs,ghd分別是頭實體的門,gts,gtd分別是尾實體的門。
目前,大型知識庫中的實體都有其對應的實體描述文本信息。在知識表示中,它可為實體表示提供三元組以外的附加信息,使實體或關系表示更加準確。
現(xiàn)有的研究大多采用CNN對實體描述進行訓練,這樣往往會忽視詞匯在文本中的出現(xiàn)順序,且無法刻畫出詞匯與詞匯之間的依賴關系。因此,本文采用Bi-LSTM和注意力機制對文本描述進行語義編碼。首先將句子中的詞預處理后加入位置信息作為編碼器的輸入,然后將輸入的信息進行前向和后向LSTM處理后,根據(jù)每個單詞是否與給定三元組的關系相關,利用注意力機制為其分配相應的權(quán)重,最后在輸出層得到實體的文本表示。Attention_Bi-LSTM編碼器整體架構(gòu)如圖4所示。
圖4 Attention_Bi-LSTM編碼器架構(gòu)
2.3.1 詞嵌入表示
Attention_Bi-LSTM編碼器將實體描述中每個單詞的嵌入作為輸入,單詞表示由單詞特征(WF)和位置特征(PF)兩部分組成[26]。
單詞特征使用Word2Vec來學習給定文本語料庫中的單詞表示,這些特征可以對大量語料庫中的上下文信息進行編碼,然后將學到的詞嵌入直接視為詞的特征。
位置特征被定義為句子中每個單詞與指定實體名之間的相對距離。假設每個句子都被表示為一個序列s=(x1,x2,…,xn),其中xi表示第i個單詞。在給定的條件下,指定實體名的位置特征被標記為0,而其他字的位置將被標記為與指定實體名相關的整數(shù)距離。左邊的單詞被標記為正的位置值,而右邊的單詞被標記為負的位置值。單詞的相對距離被投影到連續(xù)的低維矢量空間中,因此得到其位置向量表示PF=[d],最終的句子被表示為s=[WF,PF]T={[x1;d1]T,[x2;d2]T,…,[xn;dn]T},以此作為Attention_Bi-LSTM編碼器的輸入。
2.3.2Bi-LSTM編碼
其中,H()代表LSTM隱藏層的過程,bt-1泛指上一時刻所有的偏置。而每個輸出單元又同時連接到該時刻的前向和后向兩個LSTM隱藏層,如式(17)所示。
(17)
2.3.3 注意力機制
給定一個實體的關系,并不是文本描述中的所有單詞或短語都對特定三元組的建模有用,其中一些單詞與該關系相關,對三元組的表示能起到更加重要的作用。因此,本文選擇在Bi-LSTM編碼器中引入了注意力機制層[10],根據(jù)不同的關系為句子中每一個單詞分配合適的注意力權(quán)重,從而構(gòu)建出基于實體描述的文本表示。
對于文本描述中的每個位置i,注意力對于一個給定的關系r的定義是αi(r):
(18)
(19)
其中,zi是位置i處Bi-LSTM隱藏層的輸出;Wa、Ua、Va為參數(shù)矩陣,注意力層的輸出狀態(tài)c如式(20)所示。
(20)
最后,將注意力層的結(jié)果在激活函數(shù)作用下得到描述文本的語義編碼向量,即:
s=σ(c)
(21)
該向量的維數(shù)與輸入的實體和關系維數(shù)一致,通過Attention_Bi-LSTM編碼器可由實體描述訓練得到實體的文本編碼ed。
在訓練過程中,模型使用得分函數(shù)fr(h,t)評估三元組的質(zhì)量,對應的目標函數(shù)如式(22)所示。
(22)
其中,T是正確三元組的集合,T′是錯誤三元組的集合;γ> 0為間隔超參,代表正確三元組與錯誤三元組得分函數(shù)值之間的距離。本文使用隨機梯度下降法(SGD)來優(yōu)化目標函數(shù),單詞表示通過Word2Vec和Wikipedia語料庫進行預訓練。
正例是知識圖譜中已有的三元組,負例是隨機生成的錯誤三元組。假設在訓練集中有n個三元組,第i個三元組表示為(hi,ri,ti),(i=1, 2, …,n)。每個三元組有一個標簽yi,表明三元組是正確的(yi=1)或錯誤的(yi=0)。然后正確三元組和錯誤三元組被分別表示為T={(hi,ri,ti)|yi=1}和T′={(hi,ri,ti)|yi=0},反例生成如式(23)所示。
T′={(hl,rk,tk)|hl≠hk∧yk=1}
∪{(hk,rk,tl)|tl≠tk∧yk=1}
∪{(hk,rl,tk)|rl≠rk∧yk=1}
(23)
本節(jié)主要在鏈路預測和三元組分類任務上評估本方法的性能。
3.1.1 數(shù)據(jù)集
本文的數(shù)據(jù)集選用WordNet[3]的子集WN18和Freebase[4]的子集FB15K,因為它們的文本描述易于公開獲得。
為了確認每個實體都有相應的描述,實驗前從數(shù)據(jù)集中刪除了47個在預處理后描述少于3個單詞,甚至沒有描述的實體,并刪除了包含這些實體的所有三元組。經(jīng)過預處理后,F(xiàn)B15K中實體描述的平均單詞數(shù)為69個,最長的實體描述有343個單詞;WN18中實體描述的平均單詞數(shù)為13個,最長的實體描述有96個單詞。表1展示了兩個數(shù)據(jù)集的相關數(shù)據(jù)。
表1 數(shù)據(jù)集的統(tǒng)計
3.1.2 參數(shù)設置
本文的參數(shù)包括實體或關系的維度n、最大間隔γ、隨機梯度下降的兩個學習率λs和λd,它們分別是結(jié)構(gòu)和文本編碼的參數(shù)。其中
差異度量設置為L1或L2距離。為了加快收斂,本文使用TransE的結(jié)果對實體和關系的結(jié)構(gòu)嵌入進行初始化,所有實驗進行1 000次的迭代訓練,最優(yōu)參數(shù)根據(jù)驗證集中的平均排名確定。
本文將JRED模型與幾種表示模型進行比較,包括Unstructured[27]、RESCAL[28]、SE[29]、SME(linear)[27]、SME(bilinear)[27]、TransE[5],Trans-H[13],TransD[15],TransR[14],TransA[17],TranSparse[16],這些模型僅依賴知識圖譜中的三元組,且不使用實體描述。因此模型進一步與融入實體描述的其他方法進行比較,包括DKRL[9],SSP[23],STKRL(LSTM+ATT)[30],AATE_E[31],Jointly(LSTM)[10],Jointly(A-LSTM)[10],其中后四種都是基于LSTM的模型。
3.2.1 評估協(xié)議
鏈接預測是一種知識推理任務,其目的是預測三元組中缺失的頭實體或尾實體。具體實驗中,對于測試集中的三元組(h,r,t),先將頭實體h或尾實體t替換為數(shù)據(jù)集中的實體e,然后計算損壞的三元組(e,r,t)或(h,r,e)的得分函數(shù)值,并將其按照升序排列,便可獲得三元組的排名。
根據(jù)TransE表示模型,本文采用以下兩個指標評估鏈接預測的性能: (1)Mean Rank: 正確實體在三元組中的平均排名;(2)Hits@10: 前十名中正確實體在三元組中所占的比例。Mean Rank越低且Hits@10越高,則對應的預測結(jié)果越好。當某些損壞的三元組正好是數(shù)據(jù)集中正確三元組時,預測三元組的排序?qū)粶蚀_。因此,應該在進行排名前過濾掉訓練集、測試集和驗證集中的這類預測三元組,并將此設置稱為“Filter”,而未篩選的設置則稱為“Raw”。本文將在這兩種設置下評估預測結(jié)果。
最終實驗使用的最佳配置為: 在FB15K上,n=100,γ=2,λs=0.01,λd=0.05,L1距離;在WN18上,n=50,γ=2,λs=0.01,λd=0.05,L1距離。
3.2.2 結(jié)果
圖5和圖6分別展示了JRED模型在鏈路預測任務上的兩個指標Mean Rank和Hits@10隨迭代次數(shù)的變化趨勢。從圖中可以看出, 隨著迭代次數(shù)的增加,模型在兩個數(shù)據(jù)集上的Mean Rank值都逐漸下降,并穩(wěn)定在70(在FB15K上)和115(在WN18上)左右;Hits@10的值逐漸增加,并穩(wěn)定在80%(在FB15K上)和92%(在WN18上)左右。
圖5 Mean Rank值隨迭代次數(shù)的變化(Filter)
圖6 Hits@10值隨迭代次數(shù)的變化(Filter)
為了進一步分析模型的性能,本文根據(jù)是否加入注意力機制可將模型表示為JRED(Bi-LSTM)和JRED(A-Bi-LSTM)。表2具體展示了不同模型在WN18和FB15K數(shù)據(jù)集上的鏈接預測任務的實驗對比結(jié)果。
表2 鏈接預測的結(jié)果
續(xù)表
從表2中可以看到: (1)在Mean Rank指標上,JRED模型明顯優(yōu)于所有基線,這證明了模型的可用性和魯棒性。(2)在FB15K數(shù)據(jù)集上,JRED模型性能優(yōu)于TransE等基于結(jié)構(gòu)表示的模型,這說明文本編碼器已成功提取了實體描述中包含的特征文本,為實體表示提供附加信息。(3)與AATE_E等基于文本表示的模型相比,JRED模型在大多數(shù)指標上都表現(xiàn)得比較好,說明本文所引入的門控機制與自適應表示方法可以有效地對結(jié)構(gòu)表示與文本表示進行聯(lián)合。
針對Mean Rank指標,JRED模型在WN18數(shù)據(jù)集上性能略優(yōu)于Jointly模型,原因是在此基礎上本模型引入的位置向量和自適應知識表示可以使實體表示更加準確。其中,JRED(A-Bi-LSTM)模型比JRED(Bi-LSTM)模型稍差的原因可能是該數(shù)據(jù)集上關系數(shù)量較少,而本文的注意力機制是根據(jù)關系進行權(quán)重分配的,因此并沒有明顯的優(yōu)勢。在FB15K數(shù)據(jù)集上,JRED(A-Bi-LSTM)模型的Mean Rank指標明顯高于其他所有方法。這是因為本模型的得分函數(shù)是基于TransA進行改進的,即根據(jù)不同關系給向量的每個維度分配不同的權(quán)重。同時,由于FB15K中包含多種復雜的關系,因此本模型的自適應表示方法及注意力機制可以很好地適用于該數(shù)據(jù)集,在多樣復雜的實體關系表示方面發(fā)揮優(yōu)勢。
針對Hits@10指標,本文的模型在WN18數(shù)據(jù)集上的性能比AATE_E、SSP、TransA及TranSparse差;然而在FB15K上,JRED(A-Bi-LSTM)模型性能表現(xiàn)最好(Filter)。原因可能是: 盡管本文對得分函數(shù)進行了改進,但是由于WN18數(shù)據(jù)集的特性導致注意力機制基本發(fā)揮不了作用。實體描述的引入可能也會稍微降低經(jīng)過良好訓練的頻繁實體的表示,因此模型性能表示一般。同時,考慮到FB15K比WN18包含更多的關系,此結(jié)果表明,基于翻譯的模型的線性約束可以有效地處理關系較少的知識圖譜,而基于神經(jīng)網(wǎng)絡的模型更適合具有復雜關系的知識圖譜。
為了進一步比較不同類型關系下模型的預測能力,本文將關系分為四類: 1-to-1、1-to-N、N-to-1、N-to-N,實驗過程可細化為兩種不同情況: 預測頭實體和預測尾實體,結(jié)果如表3所示: (1)相較于基于結(jié)構(gòu)的表示方法,本文模型在大多數(shù)指標下都表現(xiàn)較好,說明在知識表示中融入實體描述的必要性。(2)在預測頭實體和尾實體時,本文模型在四類關系下明顯優(yōu)于Jointly模型。同時,與STKRL(LSTM+ATT)模型和AATE_E模型相比,JRED模型性能在多項指標上與其相近或表現(xiàn)更好,這說明本文所加入的門控機制與自適應知識表示的有效性與可用性。
表3 根據(jù)關系分類進行鏈接預測的結(jié)果
續(xù)表
3.3.1 評估協(xié)議
三元組分類的目的是判斷給定三元組(h,r,t)的正確性,被視為一個二分類任務。由于本文使用的測試集(WN18和FB15K)僅包含正確的三元組,因此按照2.4節(jié)采用的方法來生成負樣本,可以降低產(chǎn)生錯誤三元組的概率。
在此任務中,本文為每個關系設置一個閾值δr,如果測試三元組(h,r,t)的得分函數(shù)值小于δr,則三元組被認為是正的,否則被認為是負的。關系r的閾值δr是通過最大化驗證集上屬于關系r的有效三元組的分類精度而獲得的。對于WN18和FB15K數(shù)據(jù)集,參數(shù)的設置本文直接在鏈接預測任務中使用學習到的嵌入。
3.3.2 結(jié)果
表4中顯示了WN18和FB15K數(shù)據(jù)集上的三元組分類任務的結(jié)果,可以看出: (1)JRED(A-Bi-LSTM)模型在三元組分類中的表現(xiàn)明顯優(yōu)于所有基線,這表明本文模型在三元組分類中的能力和可擴展性。原因可能是本文的文本編碼器可以有效建模實體描述信息,并將其準確地融入實體表示中。(2)本文模型優(yōu)于TransE等基于翻譯的表示方法,這意味著實體描述文本信息的重要性。(3)在WN18上,JRED(A-Bi-LSTM)模型達到最佳性能,而JRED(Bi-LSTM)模型僅比JRED(A-Bi-LSTM)模型稍差一點,原因是該數(shù)據(jù)集上關系數(shù)量相對較少,注意力機制沒有顯示明顯的優(yōu)勢。然而,在FB15K上,JRED(A-Bi-LSTM)模型的分類準確度達到91.8%,這表明注意力機制可以自動選擇最相關的文本信息來表示一個實體,從而減輕了低質(zhì)量文本信息引起的噪聲。
表4 三元組分類的結(jié)果
本文提出了聯(lián)合三元組結(jié)構(gòu)信息和實體描述的知識表示模型JRED。具體來說,該模型提出了基于Attention_Bi-LSTM的文本編碼器,并在輸入層引入位置向量作為補充信息,以獲得文本表示;然后,以改進的自適應表示方法為基礎通過門機制共同學習文本和結(jié)構(gòu)的聯(lián)合表示。在實驗中,本文采用鏈接預測和三元組分類任務評估了該模型。實驗結(jié)果表明,本文的模型能夠從文本描述中提取出實體特征,并且門控機制聯(lián)合表示也被證明是有效的。未來,將考慮在知識表示中融入其他多源信息,例如實體的屬性信息,以提高知識表示的準確性。