王 瑞,李智杰,李昌華,張 頡
(西安建筑科技大學(xué) 信息與控制工程學(xué)院,西安 710055)
伴隨著Web技術(shù)的崛起與更新迭代,人類先后經(jīng)歷了以文檔互聯(lián)的“Web 1.0”時代與數(shù)據(jù)互聯(lián)“Web 2.0”時代,正在邁向基于知識互聯(lián)的“Web 3.0”時代[1]。同時,隨之而來的海量網(wǎng)絡(luò)數(shù)據(jù)資源推動著人類社會進入大數(shù)據(jù)時代。如何從內(nèi)容多源異質(zhì)、組織結(jié)構(gòu)松散的網(wǎng)絡(luò)數(shù)據(jù)資源中有效提取組織非結(jié)構(gòu)化信息和存儲結(jié)構(gòu)化知識變得非常重要,同時也給“Web 3.0”提出的“知識之網(wǎng)”帶來了極大的挑戰(zhàn)。強大的語義處理能力和開放互聯(lián)能力使得知識圖譜具有良好的知識表達能力和解釋性,同時也提供了一種更好組織、管理和理解互聯(lián)網(wǎng)海量信息的能力[2]。知識圖譜的研究起源于語義Web,知識圖譜的概念最早由Google公司提出以表達其升級的搜索引擎技術(shù),如今知識圖譜概念已經(jīng)被用來泛指各類包含實體與豐富關(guān)系的知識庫,被廣泛用于存儲人工智能任務(wù)的結(jié)構(gòu)化語義信息。過去幾年中,知識圖譜在人工智能應(yīng)用中具有巨大潛力,受到了廣泛的關(guān)注。知識圖譜的實例通常以三元組的形式進行存儲,將實體表示為有向圖中代表屬性或概念信息的節(jié)點,關(guān)系表示為兩實體之間具有實際語義的邊,諸如(中國,首都,北京)的三元組形式。
盡管知識圖譜已從現(xiàn)實世界中提取了包含數(shù)百萬個實體和數(shù)十億個關(guān)系事實,但大型知識圖譜中的數(shù)據(jù)仍然稀疏不完整[3]。例如,在開放知識圖譜Freebase[4]中,約有71%的人缺少出生地信息,99%的沒有民族信息[5];DBpedia[6]中有58%的科學(xué)家實體沒有指出其相關(guān)的主要貢獻。隨著知識圖譜中知識實例的高速增長,知識的表示形式以及之間的關(guān)聯(lián)也變得更加復(fù)雜化、異質(zhì)化。因此,研究人員需將缺失的實例添加到知識庫中以擴大其覆蓋范圍,操作耗時耗力且人工成本較高。此外,傳統(tǒng)三元組的符號表示還面臨著計算效率低和數(shù)據(jù)稀疏等問題[7],導(dǎo)致其在大規(guī)模知識圖譜的使用具有局限性,限制了知識圖譜的發(fā)展,為知識圖譜的表示帶來了挑戰(zhàn)。
在本文中,通過對知識圖譜鏈接預(yù)測相關(guān)知識介紹,同時對鏈接預(yù)測模型框架進行了分析,并且列出了當前典型的應(yīng)用場景,從而系統(tǒng)全面的對面向鏈接預(yù)測的知識圖譜嵌入模型做了綜述。
受當前技術(shù)的制約以及網(wǎng)絡(luò)數(shù)據(jù)的繁雜冗余,在大型知識圖譜中,需不斷向知識庫中補充新的實體和關(guān)系,導(dǎo)致研究人員的工作量劇增。此外,知識圖譜中信息的缺失限制了知識圖譜的使用,影響了知識圖譜在推理和檢索應(yīng)用時的準確率。由于不能直接對三元組進行操作,需要為知識圖譜中的實體和關(guān)系找到更好的表示形式。早期時候,使用符號三元組數(shù)據(jù)進行統(tǒng)計關(guān)系學(xué)習(xí)。但是這些方法既不具有良好的泛化性能,也不適用于大規(guī)模的知識圖譜。因此,引入了知識圖譜嵌入技術(shù)。嵌入是根據(jù)代表真實世界的數(shù)據(jù)集中相應(yīng)元素的發(fā)生方式和彼此之間的相互作用自動學(xué)習(xí)的。同時,嵌入可用于表示任何種類元素的數(shù)值向量,將實體與關(guān)系向量化可在向量空間中通過數(shù)值計算挖掘出潛在的三元組信息及語義知識。此外,當嵌入作為一種類型的先驗知識輔助時,可對神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程加以約束和監(jiān)督[8]。知識圖譜是由實體和關(guān)系組成的復(fù)雜圖結(jié)構(gòu),知識圖譜嵌入是有向圖的矢量表示,利用知識圖譜嵌入操作來高效計算實體與關(guān)系的語義聯(lián)系,提高了模型推理的準確率,同時也保留了知識圖譜的固有結(jié)構(gòu),體現(xiàn)了原始圖的語義,可用于識別其中的新鏈接,從而解決了鏈接預(yù)測任務(wù)。
伴隨著知識圖譜日新月異的發(fā)展,一系列的知識圖譜嵌入模型被學(xué)者們相繼提出。通過從知識圖譜包含的關(guān)系信息中學(xué)習(xí)低維連續(xù)空間中的嵌入操作,將實體和關(guān)系表示為低維度的帶有結(jié)構(gòu)信息與語義信息的實值特征向量[9],捕獲了實體和關(guān)系的連接屬性,為知識圖譜提供數(shù)值計算框架,同時使其固有結(jié)構(gòu)得以保留。如圖1所示,知識圖譜嵌入實質(zhì)上就是通過優(yōu)化基于邊距的損失函數(shù),其中邊距是一個非負數(shù),用于將正負三元組分開。將實體表示為空間中的向量,并通過距離來量化實體對象之間的相似性,關(guān)系通常被視為向量空間中的運算,獲得具有某些明確定義的目標函數(shù)的三元組,即(h,r,t)的矢量表示。此外,關(guān)系也可以表示矩陣、張量、高斯分布以及多元高斯分布。訓(xùn)練知識圖譜嵌入模型是為了找到模型的最佳參數(shù)從而進行最佳的嵌入,通過優(yōu)化算法來迭代更新實體和關(guān)系的表示。在迭代更新過程中,通過一定的負采樣策略替換正三元組的頭或尾實體,從而生成負例三元組。優(yōu)化過程旨在最大化肯定事實的合理性以及最小化否定事實的合理性。
圖1 知識圖譜嵌入技術(shù)
知識圖譜嵌入實現(xiàn)了對實體和關(guān)系的分布式表示,可高效地實現(xiàn)語義相似度計算等操作顯著提升計算效率。同時,在低維實值向量空間中,可以度量任意對象之間的語義相似程度以及提高低頻對象的語義表示的精確性[10],實現(xiàn)異質(zhì)知識對象之間的語義關(guān)聯(lián)計算,有效緩解數(shù)據(jù)稀疏問題,實現(xiàn)異質(zhì)信息融合。
鏈接預(yù)測(Link Prediction)也稱為知識圖譜補全(Knowledge Graph Completion),利用評分函數(shù)計算并對候選實體或關(guān)系進行排序,旨在根據(jù)知識圖譜中現(xiàn)有實體與關(guān)系推理出缺失的實體或關(guān)系。鏈接預(yù)測根據(jù)任務(wù)的不同,可分為頭實體預(yù)測、尾實體預(yù)測和關(guān)系預(yù)測三種類型。例如,給定三元組實例(h,r,t),首先利用嵌入模型學(xué)習(xí)實體與關(guān)系的向量特征;其次通過負采樣策略破壞三元組中的任一實體或者關(guān)系生成知識圖譜數(shù)據(jù)集中所沒有的三元組(h′,r,t)、(h,r,t′)以及(h,r′,t);最后利用評分函數(shù)對其進行對應(yīng)的評分fr(h,t),并將所有實體進行由低到高的排序,輸出最可能的實體或關(guān)系列表。這樣可得到所有實體的排名,利用評估指標從而獲得模型性能的評估。
鏈接預(yù)測是知識圖譜嵌入的應(yīng)用之一,是對存在于多對象總體中每個對象之間的相互作用及相互依賴關(guān)系推斷的過程。鏈接預(yù)測旨在預(yù)測圖譜中任意兩個實體之間的關(guān)系以及實體間已存在關(guān)系的正確性,是對現(xiàn)有知識進行整合過濾以及篩選,進行更精準的知識發(fā)現(xiàn),從而提高知識庫中實例的質(zhì)量,解決知識圖譜中數(shù)據(jù)缺失不完整問題。既增加了下游應(yīng)用的多樣性,又可以作為預(yù)訓(xùn)練,利用實體與關(guān)系的表征向量支撐下游向量,為下游模型提供語義支持[11]。即如圖2所示,左側(cè)圖中的實線代表的是現(xiàn)有關(guān)系,虛線代表可能的關(guān)系,通過鏈接預(yù)測任務(wù)可計算出右側(cè)圖中不同顏色所代表的各種可能的關(guān)系。此外,在不同的鏈接預(yù)測任務(wù)中往往被賦予不同的功能,例如:在社交網(wǎng)絡(luò)中鏈接預(yù)測被用于對用戶或商品進行推薦;在生物學(xué)領(lǐng)域,被用于相互作用的發(fā)現(xiàn);在知識圖譜中被用于實體與關(guān)系的學(xué)習(xí);在基礎(chǔ)研究中,被用于圖譜結(jié)構(gòu)捕捉。鏈接預(yù)測任務(wù)是當前知識圖譜嵌入模型研究的重點,面向鏈接預(yù)測的知識圖譜嵌入模型研究能夠顯著提升模型計算效率及性能,使知識獲取、融合和推理的性能得到顯著提升。對于基于知識圖譜的人工智能應(yīng)用等方面具有十分重要的意義,值得深入研究。
圖2 鏈接預(yù)測示例
為解決鏈接預(yù)測問題,已經(jīng)提出了各種技術(shù),包括基于翻譯的方法、基于語義匹配的方法和基于神經(jīng)網(wǎng)絡(luò)的方法[12]。其中,學(xué)習(xí)實體與關(guān)系的語義表示的知識圖譜嵌入模型在當前研究中占有重要位置。基于此,本文從基于三元組結(jié)構(gòu)信息和融合外部信息兩個角度重點對面向鏈接預(yù)測的知識圖譜嵌入模型進行了全面的綜述。
1.3.1 基于三元組結(jié)構(gòu)信息的知識圖譜鏈接預(yù)測
目前絕大多數(shù)鏈接預(yù)測模型僅基于知識圖譜中原始的實體與關(guān)系來推斷新的事實。翻譯模型是基于能量函數(shù)的平移模型,通過計算三元組的能量函數(shù)值來判斷其是否為正例,一般情況下,負例三元組的能量計算數(shù)值較高。TransE[13]在訓(xùn)練過程中引入負樣本,通過學(xué)習(xí)正負例樣本挖掘滿足模型假設(shè)的實體和關(guān)系向量,促使語義相近的實體或者關(guān)系在向量空間中互相靠近,語義不相近的主動遠離。TransE模型簡單高效,但不能有效的對復(fù)雜關(guān)系建模?;诖?,學(xué)者們提出了利用超平面讓同一實體在不同關(guān)系下表示不同的TransH[14]模型、利用實體向關(guān)系空間投影并引用了投影映射的關(guān)系矩陣使不同關(guān)系擁有不同語義空間的TransR[15]模型、利用實體與關(guān)系之間的相互作用構(gòu)建與實體與關(guān)系相關(guān)投影矩陣的TransD[16]模型。TransE、TransH、TransR和TransD模型均是通過映射轉(zhuǎn)換學(xué)習(xí)實體與關(guān)系的多樣性來計算同一實體的三元組分數(shù),有效避免了模型的收斂問題。自2013年首次提出TransE以來,基于這一框架提出了諸如通過關(guān)系映射屬性轉(zhuǎn)換嵌入的TransM[17]模型、通過更換損失函數(shù)中的度量函數(shù)為每一維的學(xué)習(xí)設(shè)置不同權(quán)重以實現(xiàn)自適應(yīng)轉(zhuǎn)換嵌入的TransA[18]模型等幾十種基于不同架構(gòu)的新模型。在最近的鏈接預(yù)測技術(shù)中,面向鏈接預(yù)測的知識圖譜嵌入模型在一些基準測試中取得了很好的性能。
1.3.2 融合外部信息的知識圖譜鏈接預(yù)測
基于三元組結(jié)構(gòu)信息的知識圖譜嵌入方法在一定程度上解決了當前主要問題,但是也僅僅考慮了知識圖譜中的單個三元組同時假設(shè)三元組相互獨立并對其單獨建模。除了三元組本身的結(jié)構(gòu)信息之外,知識圖譜中往往還包括關(guān)系路徑、實體描述、屬性信息及實體類型等豐富的額外信息,整合這些多源信息能夠挖掘圖譜底部更深層次語義信息,進一步提高模型的語義表示能力,從而實現(xiàn)更好的知識推理。
近年來,不少學(xué)者們還利用互聯(lián)網(wǎng)語料庫信息與三元組結(jié)構(gòu)信息進行融合的知識表示學(xué)習(xí),從而更好的實現(xiàn)開放式知識圖譜的補全任務(wù)[19]。Lin等人[20]提出了基于圖譜自身結(jié)構(gòu)信息的PTransE模型,在TransE模型的基礎(chǔ)上加入路徑信息,并使用路徑約束資源算法來度量關(guān)系路徑的置信度。其考慮了實體間多步間接路徑的語義關(guān)系,將關(guān)系路徑集成到學(xué)習(xí)過程中,在模型實驗測試時取得很好的表現(xiàn)。在考慮實體描述信息方面,Xie等人[21]在模型訓(xùn)練時加入了實體描述信息,并將其與三元組結(jié)構(gòu)信息進行聯(lián)合建模,提出了基于實體描述的語義向量提出了DKRL模型;Xu等人[22]引入注意力機制并提出了聯(lián)合學(xué)習(xí)模型,使實體在不同關(guān)系下表現(xiàn)出不同的語義向量;Gupta等人[23]提出了基于開放世界知識圖譜的CaRe模型,通過學(xué)習(xí)實體鄰域豐富的表示形式來捕獲關(guān)系鄰域的語義相似性;Shi等人[24]提出了使用依賴關(guān)系的內(nèi)容屏蔽策略的Con Mask,旨在從實體的文本信息中提取出與關(guān)系相關(guān)的語義信息;Wu等人[25]通過將數(shù)字屬性預(yù)測損失添加到關(guān)系損失來擴展TransE;An等人[26]提出了基于文本增強的知識表示學(xué)習(xí)模型,旨在處理三元組信息之間存在的歧義問題。此外,諸如ConvE[27]、ConvKB[28]、HYPER[29]、CompGCN[30]、SACN[31]和CNN-BiLSTM[32]等神經(jīng)網(wǎng)絡(luò)模型綜合考慮了實體或關(guān)系的類型、時間信息、路徑信息和子結(jié)構(gòu)信息,同時卷積神經(jīng)網(wǎng)絡(luò)或注意力機制的使用也有助于產(chǎn)生更好的嵌入。
作為當前知識圖譜方面研究熱點的知識推理研究領(lǐng)域,受益于機器學(xué)習(xí)和深度學(xué)習(xí)技術(shù)的爆炸式增長,用于評價模型效果的鏈接預(yù)測更是成為衡量知識圖譜表示模型效果最廣泛使用的任務(wù)。鏈接預(yù)測是根據(jù)知識圖譜中已存在的實體,通過對實體與關(guān)系的學(xué)習(xí),并與知識庫中對應(yīng)實體或者關(guān)系進行鏈接從而實現(xiàn)知識庫的補全[33]。其本質(zhì)思想是通過空間中已知的節(jié)點屬性和不完全的鏈接來分析拓撲結(jié)構(gòu)中存在的相似性,估計測試對象之間是否存在相應(yīng)的鏈接[34]。在過去幾年中,作為學(xué)術(shù)界研究熱點的知識圖譜嵌入模型不斷有新的研究成果產(chǎn)出,學(xué)者們也相繼提出了基于不同方法的知識表示模型。本節(jié)先是按照時間線的前后簡述了知識圖譜嵌入模型的分類,接著依據(jù)知識圖譜建模過程是否有補充信息的加入,將翻譯模型劃分為僅基于三元組結(jié)構(gòu)信息的知識圖譜嵌入模型和融合外部信息的知識圖譜嵌入模型,并對其進行詳細介紹。
知識圖譜是基于大數(shù)據(jù)的,當前已經(jīng)構(gòu)建了許多開放的知識圖譜,例如,F(xiàn)reebase、DBpedia、Yago[35]和NELL[36-37]。它們通常包含大量使用數(shù)十億實體和關(guān)系構(gòu)建的事實,這些實體和關(guān)系分別表示為節(jié)點和鏈接這些節(jié)點的邊。當前在知識圖譜鏈接預(yù)測領(lǐng)域主要使用如表1所示的數(shù)據(jù)集。
表1 實驗的數(shù)據(jù)集信息
1)Freebase是包含常見信息的世界知識,F(xiàn)B13、FB15K和FB15K-237都是Freebase的子集。FB15K中大約70%的三元組存在反向關(guān)系,測試集中同樣有70%左右的三元組,在訓(xùn)練集中存在對應(yīng)反向關(guān)系的三元組,使得知識圖譜表示模型可能傾向于學(xué)習(xí)反向關(guān)系[38];其中,F(xiàn)B15K-237是通過刪除FB15K中訓(xùn)練集、測試以及驗證集中的大量可逆關(guān)系數(shù)據(jù)創(chuàng)建得來的,而且還過濾掉了所有瑣碎的三元組,確保訓(xùn)練集中連接的所有實體都沒有直接連接到驗證集或測試集中。其中,15k表示數(shù)據(jù)集中有15k個主題詞,237表示共有237種關(guān)系。
2)WordNet是覆蓋范圍比較廣的英文語義知識庫,同時WordNet中的實體是具有不同概念的同義詞,關(guān)系表示同義實體之間的語義聯(lián)系[39]。WN11、WN18和WN18RR都是WordNet的子集,分別包含有11和18種關(guān)系。其由WN18刪除可逆關(guān)系數(shù)據(jù)得到的子數(shù)據(jù)集,消除了反向關(guān)系實例,避免了表示任務(wù)中的信息泄露問題。
3)YAGO10:YAGO數(shù)據(jù)集的子集,主要包含關(guān)于人及其公民身份、性別和職業(yè)知識的信息。
4)NELL239:NELL數(shù)據(jù)集的子集,它包含有關(guān)人員、地點、團隊、大學(xué)等實體類型的一般知識。
評價指標:
為了驗證所提出的方法的性能,通常在實驗中設(shè)置“Raw”和“Filter”兩種評價指標,在“Raw”模式下生成的負樣本不一定都是實際意義上的錯誤三元組,會擾亂排名,降低MR指標,故將其設(shè)置為“Filter”,在排名之前用來過濾假的負例三元組。此外,采用平均倒數(shù)排名(Mean Reciprocal Rank,MRR)、平均排序(Mean Rank, MR)以及Hits@k(k=1、3、10)這三種通用的評價指標來衡量鏈接預(yù)測模型的性能。
1)MRR:將測試集所有排名的倒數(shù)求均值,即
(1)
其中:rankr,t(h)表示頭實體的排序,同理,rankh,r(t)表示尾實體的排序。MRR主要用于衡量正三元組的最高排名,第一個樣本的貢獻最大而且MRR具有平滑性,受異常值的影響更小。MRR的取值范圍為MRR∈(0,1),計算值越大,表示模型的鏈接預(yù)測性能越好。
2)MR:指在得到的排序中對正確答案的實體排名求平均,即
(2)
MR數(shù)值越小,說明本模型在該任務(wù)上的模型性能越好。
3)Hits@k:計算排名在前k位的正確實體所占的比例,然后再對其求均值,即
k}|+|{(h,r,t)|rankh,r(t)≤k}|)
(3)
Hits@k側(cè)重于總體排名,數(shù)值越大,表示模型的鏈接預(yù)測性能越好。其中,K的取值一般為1、3和10。
伴隨著知識圖譜日新月異的發(fā)展,一系列的知識圖譜嵌入模型被學(xué)者們相繼提出。一般情況下,基于翻譯模型的嵌入學(xué)習(xí)過程主要有三個步驟:首先定義知識圖譜中實體e∈E和關(guān)系r∈R在連續(xù)向量空間中的表示形式,將實體表示為向量空間中帶有結(jié)構(gòu)信息與語義信息的特征向量,關(guān)系表示為向量空間中實體間的翻譯運算,通常由隨機初始化來獲得實體和關(guān)系的嵌入向量;其次定義三元組(h,r,t)的評分函數(shù)fr(h,t),根據(jù)嵌入向量h和t來評估任意事實三元組(h,r,t)在空間中成立的可能性,得分越高表明事實成立的可能性越大;最后通過優(yōu)化算法來迭代更新實體和關(guān)系的表示。在迭代更新過程中,通過一定的負采樣策略替換正三元組的頭或尾實體,從而生成負例三元組。優(yōu)化過程旨在最大限度提升真實事實的可能性,同時降低無效事實的可能性。
由表2所示,按照時間軸展示了知識圖譜嵌入模型近幾年的發(fā)展。同時,在表3中總結(jié)了面向鏈接預(yù)測的知識圖譜嵌入模型的優(yōu)缺點。
表2 知識圖譜嵌入模型
表3 鏈接預(yù)測模型優(yōu)缺點總結(jié)
翻譯模型通常使用基于距離的評分函數(shù),將三元組的合理性視為向量空間中兩個實體節(jié)點間的距離。翻譯模型本質(zhì)上也屬于距離模型,同樣是利用距離的評分函數(shù)來衡量事實成立的可能性。但相較于距離模型,翻譯模型最大不同點是將關(guān)系建模為頭實體到尾實體的翻譯向量。
基于三元組的模型只關(guān)注實體與實體之間的一跳關(guān)系,依據(jù)知識圖譜本身的結(jié)構(gòu)化信息從三元組的視角對實體和實體之間的關(guān)系進行建模,認為不同事實三元組(h,r,t)之間相互獨立。通常情況下很少考慮實體與關(guān)系的語義信息,即利用圖譜的自身結(jié)構(gòu)將每個關(guān)系解釋為潛在空間中的平移,并將實體和關(guān)系表示為相同長度的一維向量。
TransE模型是受Word2Vec[40]啟發(fā)所提出的第一個基于距離的模型,同時也是平移距離模型中最具代表性的模型。為有效捕獲知識圖譜的結(jié)構(gòu)信息,將實體和關(guān)系表示為相同語義空間中的向量形式,使得嵌入的實體h和t可以通過r以低誤差連接,即當三元組(h,r,t)成立時,有h+r≈t。TransE參數(shù)簡單訓(xùn)練效率高,但在處理N-1、1-N、N-N等復(fù)雜關(guān)系上存在著一些缺陷,缺乏對各種關(guān)系的區(qū)分策略,可能會出現(xiàn)不同實體有著同樣的含義。例如,(中國,首都,北京)和(英國,首都,倫敦)根據(jù)翻譯原則在嵌入空間中會出現(xiàn)中國-首都=英國-首都這樣的情況,但很顯然北京不等于倫敦。為了解決TransE不能很好的處理多關(guān)系實體的這一缺陷,學(xué)者們提出了一些基于TransE的變體,例如TransH、TransR等模型。表4中給出了TransE、TransH、TransR的得分函數(shù)以及參數(shù)空間類型,同時在圖3中給出了具體的圖示。
表4 純翻譯模型相關(guān)信息
圖3 TransE、TransH、TransR模型的嵌入
負采樣是在訓(xùn)練時從未觀察到的三元組數(shù)據(jù)中抽取負例三元組,也是知識圖譜嵌入過程中的重要步驟。為了提高空間效率,一般情況下知識圖譜中只存儲正樣本而不存儲負樣本,所以在模型訓(xùn)練期間,向模型提供負樣本是至關(guān)重要的。如果該模型只在真實樣本上進行訓(xùn)練,那么它可以通過簡單地返回任何事實的大分數(shù)來將所有損失降至最低,但這失去了模型訓(xùn)練的初衷。在知識圖譜嵌入過程中,否定事實的生成通常是通過負采樣來完成的,利用負采樣來最小化邊緣的排序損失,同時也體現(xiàn)了知識圖譜嵌入模型的性能在很大程度上取決于負采樣的質(zhì)量。直觀地說,利用負樣本在嵌入空間中引入排斥力,使事實三元組中不可互換的實體在嵌入時彼此遠離。因此,必須選擇盡可能的訓(xùn)練生成高質(zhì)量的負樣本。隨著訓(xùn)練的進行,為模型提供越來越接近真實事實的負樣本,學(xué)習(xí)有效的表示方法,以便更好地調(diào)整實體向量與關(guān)系向量的嵌入。
2.4.1 隨機采樣
隨機采樣是一種傳統(tǒng)的負采樣方法,旨在從均勻分布中隨機的選擇實體替換事實三元組的頭部或尾部實體生成負面事實。由于被采樣的實體可能與被替換實體和目標關(guān)系完全無關(guān),所以生成的大多數(shù)負面事實很容易與正面事實區(qū)分開來,未被充分訓(xùn)練的反例又很難被選擇,導(dǎo)致隨機生成的負例三元組質(zhì)量會很差,有時也隨之會出現(xiàn)“零損失”問題[41]:當生成的負例三元組質(zhì)量較低時,模型的評分函數(shù)會給其較低的分值,這將出現(xiàn)正、負三元組分值的差大于設(shè)置的邊界值的情況,隨之的損失值也將為零。此時模型不會對實體向量與關(guān)系向量進行更新操作,即模型在無效學(xué)習(xí),也就不能學(xué)習(xí)到更多的樣本特征,導(dǎo)致模型的訓(xùn)練程度評估出現(xiàn)偏差。如圖4所示,在訓(xùn)練初期時,隨機采樣是非常有效的,此時正、負例三元組在同一裕度內(nèi)。隨著隨機采樣訓(xùn)練的進行,即對圖中藍色圓中的三元組進行采樣,此時這些三元組對于模型訓(xùn)練毫無意義。這是因為這些三元組超出了邊界不在同一裕度內(nèi),也就不會給模型帶來任何的損失甚至減慢了模型收斂的速度。因此,在邊距內(nèi)忽略一定數(shù)量的負三元組(如黑色虛線圓圈所示)可提高模型訓(xùn)練效率。
圖4 模型訓(xùn)練零損失狀態(tài)
2.4.2 過濾采樣
過濾采樣是基于隨機采樣的一種采樣方法,只是在隨機采樣的過程中加入了過濾機制。通常情況下隨機采樣會出現(xiàn)假陰性負例三元組樣本,即有可能為正例三元組或者在數(shù)據(jù)集中曾出現(xiàn)過的三元組。當一些損壞的三元組最終成為有效的三元組時,很明顯這會影響模型的表征能力與性能。在這種情況下,當對所有三元組打分排名時,會出現(xiàn)假陰性樣本排在測試三元組之上的情況,這并不是因為模型學(xué)習(xí)效果不好,因為此時兩個三元組都為真實實例。為了避免這種誤導(dǎo)行為,在排名之前,過濾采樣會從損壞的三元組列表中刪除曾出現(xiàn)在實驗數(shù)據(jù)集中的所有三元組,保證所有損壞的三元組全部為真正的負樣本。
2.4.3 伯努利采樣
2.4.4 對抗生成采樣
受生成對抗性深度模型[43]的啟發(fā),提出了對抗生成采樣[44]這一對抗學(xué)習(xí)框架,其提供了對動態(tài)負樣本分布進行建模的采樣策略,旨在提高模型訓(xùn)練時負例三元組的質(zhì)量。將基于不同損失函數(shù)的嵌入模型作為生成器和鑒別器,分別用來生成高質(zhì)量的負例三元組和訓(xùn)練具有高表征能力的模型。如圖5所示,發(fā)生器用于訓(xùn)練原始模型,隨后通過基于概率的對數(shù)似然損失函數(shù)的生成器最大化鑒別器對其動作的響應(yīng),動態(tài)地估計負樣本分布,通過高質(zhì)量的負例三元組來改進知識圖譜嵌入模型。對候選三元組上的概率分布進行計算采樣,并通過源于強化學(xué)習(xí)的策略梯度最小化生成的負例三元組的得分?;诰嚯x的邊緣損失函數(shù)的鑒別器將接收到正負樣本三元組加以區(qū)分,并采用優(yōu)化函數(shù)來最小化邊緣損失。通過對分數(shù)較大的負例三元組進行采樣,避免了梯度消失的問題。整個模型框架通過不斷地訓(xùn)練模型,最終產(chǎn)生一個更好的鑒別器,從而獲得更好的性能。
圖5 對抗生成采樣框架
知識圖譜技術(shù)最早被Goole公司提出并應(yīng)用到其搜索引擎技術(shù)中,從而使搜索引擎具備了查詢理解的能力。從字面匹配到概念理解,可更好的理解用戶的真實想法為用戶服務(wù),讓用戶獲得與搜索關(guān)鍵字最相關(guān)的詞條鏈接以及獲得與關(guān)鍵字更加智能化的信息,返回用戶最希望的結(jié)果。如圖6所示,當在搜索引擎中搜索《西游記》作者時,搜索引擎會將查詢關(guān)鍵字理解現(xiàn)實世界中的概念和事物,然后搜索引擎根據(jù)“《西游記》”,“作者”兩個實體來理解用戶的意圖,同時返回問題的答案和與搜索實體相關(guān)的其他實體。
圖6 百度搜索界面
人工智能的卓越發(fā)展使得知識圖譜向量化表示得到了快速的發(fā)展。相較于傳統(tǒng)one-hot編碼的大維度、編碼稀疏,無法體現(xiàn)實體間關(guān)系的遠近程度,而嵌入技術(shù)可將實體和關(guān)系表示為向量的形式,更利于各種推理計算,同時節(jié)省了空間與模型訓(xùn)練時間。知識圖譜在知識推理以及多源異質(zhì)知識的整合提取方面顯得尤為重要,通過學(xué)習(xí)知識圖譜中已有事實三元組實體之間的語義關(guān)聯(lián)進而推理出新的事實并將其添加到圖譜中,促進了人工智能及其應(yīng)用的發(fā)展[45]。
如圖7所示,通過相似實體在同一空間中相互靠近的原則,只需要分析Adam Ant周圍的實體便可推知他的職業(yè)以及其他的一些信息。即,在Adam Ant的周圍相近的實體都是與音樂有關(guān)聯(lián)的實體,則可推理出此人的職業(yè)必定與音樂有關(guān)。此外,為下游關(guān)系抽取、智能問答、信息檢索、個性化智能推薦等任務(wù)發(fā)揮了必不可少的樞紐作用。例如,Apple的Siri、百度的小度、微軟的Cortana等智能聊天機器人可以處理客戶的請求或為用戶提供幫助。從而幫助用戶推薦附近的餐廳,回答簡單的事實問題,或者管理日歷活動等一系列日常任務(wù)。
圖7 FB15K中實體及其鄰居節(jié)點
由表5所示,從智能問答、系統(tǒng)推薦、信息檢索以及醫(yī)藥應(yīng)用四個方面總結(jié)了當前知識圖譜嵌入技術(shù)的典型應(yīng)用案例[46-60]。
表5 知識圖譜嵌入模型應(yīng)用案例總結(jié)
在近十年間,知識表示學(xué)習(xí)有了很大的發(fā)展,同時也提出了許多基于知識表示學(xué)習(xí)的方法。本文介紹了知識圖譜的概念性知識,包括系統(tǒng)地討論了知識圖譜鏈接預(yù)測的研究現(xiàn)狀、框架分析以及當前典型的應(yīng)用場景。面向鏈接預(yù)測的知識圖譜嵌入模型旨在提高知識圖譜鏈接預(yù)測準確率,增強嵌入模型的表達性。同時,大規(guī)模知識圖譜具有重要的人工智能應(yīng)用前景。例如,在軍事應(yīng)用方面構(gòu)建軍用無人系統(tǒng)領(lǐng)域故障知識圖譜用以智能搜索以及輔助決策;在目標檢測控制系統(tǒng)中引入知識圖譜用以多目標的關(guān)聯(lián)判別;在航空航天方面,利用知識圖譜設(shè)計雷達場景識別系統(tǒng)用以空間目標的場景識別。在未來研究中,應(yīng)注重對面向鏈接預(yù)測的知識圖譜嵌入模型的研究,更好的進行大規(guī)模知識圖譜補全,從而促進人工智能應(yīng)用的發(fā)展。