丁建輝 賈維嘉
上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系上海200240
圖1 周杰倫的知識(shí)圖譜
知識(shí)圖譜這個(gè)概念最早由Google在2012年提出,Google認(rèn)為“things,not strings”,即對(duì)于搜索引擎,世界中的各種物體不應(yīng)該僅僅是strings,而是具有實(shí)際含義的things,例如“蘋果”這個(gè)詞,既可以代表美國(guó)的蘋果公司,也可以代表一種水果。借助知識(shí)圖譜,Google的搜索引擎實(shí)現(xiàn)了從strings到things的變化,使得機(jī)器能更好地理解用戶搜索詞所代表的具體含義。知識(shí)圖譜通常以高度結(jié)構(gòu)化的形式表示,描述了現(xiàn)實(shí)世界中各種實(shí)體之間的關(guān)系[1],圖1展示了歌手周杰倫的知識(shí)圖譜。目前,知識(shí)圖譜已經(jīng)廣泛地應(yīng)用于人工智能的多個(gè)領(lǐng)域,例如自動(dòng)問(wèn)答、搜索引擎、信息抽取等。典型的知識(shí)圖譜由大量結(jié)構(gòu)化的三元組構(gòu)成,例如(奧巴馬,國(guó)籍,美國(guó)),該三元組描述了“奧巴馬的國(guó)籍是美國(guó)”這件事實(shí)。
雖然知識(shí)圖譜能提供高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),但是大部分開(kāi)放知識(shí)圖譜,例如Freebase[2]、DBpedia[3]都是由人工或者半自動(dòng)的方式構(gòu)建,這些圖譜通常比較稀疏,大量實(shí)體之間隱含的關(guān)系沒(méi)有被充分地挖掘出來(lái)。在Freebase中,有71%的人沒(méi)有確切的出生日期,75%的人沒(méi)有國(guó)籍信息[4]。由于知識(shí)圖譜具有高質(zhì)量的結(jié)構(gòu)化數(shù)據(jù),是很多人工智能應(yīng)用的基石,因此,近期很多工作都在研究如何利用機(jī)器學(xué)習(xí)算法更好地表示知識(shí)圖譜,并以此為基礎(chǔ)進(jìn)行知識(shí)圖譜補(bǔ)全,從而擴(kuò)大知識(shí)圖譜的規(guī)模。本文借助知識(shí)圖譜補(bǔ)全這個(gè)任務(wù),來(lái)介紹知識(shí)圖譜表示學(xué)習(xí)的研究進(jìn)展。
知識(shí)圖譜補(bǔ)全的目的是預(yù)測(cè)出三元組中缺失的部分,從而使知識(shí)圖譜變得更加完整。對(duì)于知識(shí)圖譜G,假設(shè)G中含有實(shí)體集E={e1,e2,…,eM}(M為實(shí)體的數(shù)量)、關(guān)系集R={r1,r2,…,rN}(N為關(guān)系的數(shù)量)以及三元組集T={(ei,rk,ej)|ei、ej屬于E,rk屬于R}。由于知識(shí)圖譜G中實(shí)體和關(guān)系的數(shù)量通常是有限的,因此,可能存在一些實(shí)體和關(guān)系不在G中。記不在知識(shí)圖譜G中的實(shí)體集為E*={e1*,e2*,…,es*}(S為實(shí)體的數(shù)量),關(guān)系集為R*={r1*,r2*,…,rT*}(T為關(guān)系的數(shù)量)。
根據(jù)三元組中具體的預(yù)測(cè)對(duì)象,知識(shí)圖譜補(bǔ)全可以分成3個(gè)子任務(wù):頭實(shí)體預(yù)測(cè)、尾實(shí)體預(yù)測(cè)以及關(guān)系預(yù)測(cè)。對(duì)于頭(尾)實(shí)體預(yù)測(cè),需給定三元組的尾(頭)實(shí)體以及關(guān)系,然后預(yù)測(cè)可以組成正確三元組的實(shí)體,例如(姚明,國(guó)籍,?),(?,首都,北京)。對(duì)于關(guān)系預(yù)測(cè),則是給定頭實(shí)體和尾實(shí)體,然后預(yù)測(cè)兩個(gè)實(shí)體之間可能存在的關(guān)系,例如(姚明,?,中國(guó))。
根據(jù)三元組中實(shí)體和關(guān)系是否均屬于知識(shí)圖譜G,可以把知識(shí)圖譜補(bǔ)全分成兩類:1)靜態(tài)知識(shí)圖譜補(bǔ)全(Static KGC),涉及的實(shí)體entity∈E以及關(guān)系relation∈R,該場(chǎng)景的作用是補(bǔ)全已知實(shí)體之間的隱含關(guān)系;2)動(dòng)態(tài)知識(shí)圖譜補(bǔ)全(Dynamic KGC),涉及不在知識(shí)圖譜G中的實(shí)體或關(guān)系(entity∈E*或者relation∈R*),該場(chǎng)景能夠建立知識(shí)圖譜與外界的關(guān)聯(lián),從而擴(kuò)大知識(shí)圖譜的實(shí)體集、關(guān)系集以及三元組集。
為了進(jìn)行知識(shí)圖譜補(bǔ)全,首先得給知識(shí)圖譜中的實(shí)體和關(guān)系選擇合適的表示,即構(gòu)建出合適的特征對(duì)實(shí)體和關(guān)系進(jìn)行編碼。在機(jī)器學(xué)習(xí)中,特征構(gòu)建通常有兩種方法:一種是手工構(gòu)建,這種方法需要較多的人工干預(yù),并且需要對(duì)所涉及的任務(wù)有深入的了解,才可能構(gòu)建出較好的特征。對(duì)于較為簡(jiǎn)單的任務(wù),該方法是可行的,但對(duì)于較為復(fù)雜的任務(wù),構(gòu)建出合適的特征可能需要耗費(fèi)大量的人力物力。另一種方法是表示學(xué)習(xí),該方法需要較少的人工干預(yù),直接通過(guò)機(jī)器學(xué)習(xí)算法自動(dòng)地從數(shù)據(jù)中學(xué)得新的表示,能夠根據(jù)具體的任務(wù)學(xué)習(xí)到合適的特征。表示學(xué)習(xí)其實(shí)是一個(gè)比較廣泛的概念,機(jī)器學(xué)習(xí)中不少算法都屬于某種形式的表示學(xué)習(xí),例如目前人工智能領(lǐng)域的研究熱點(diǎn)——深度學(xué)習(xí),就是一類常見(jiàn)的表示學(xué)習(xí)算法。隨著硬件的升級(jí)以及大數(shù)據(jù)時(shí)代的到來(lái),深度學(xué)習(xí)在很多領(lǐng)域(圖像識(shí)別、語(yǔ)音識(shí)別、機(jī)器翻譯等)都擊敗了傳統(tǒng)的機(jī)器學(xué)習(xí)算法,例如經(jīng)典的多層感知機(jī)算法、基于統(tǒng)計(jì)學(xué)的方法等。但是深度學(xué)習(xí)也不是萬(wàn)能的,基于深度學(xué)習(xí)的模型通常擁有大量的參數(shù),加大模型容量的同時(shí)也引入了過(guò)擬合的風(fēng)險(xiǎn);因此,為了增強(qiáng)模型的泛化能力,基于深度學(xué)習(xí)的模型通常需要在大規(guī)模數(shù)據(jù)集上進(jìn)行訓(xùn)練。此外,深度學(xué)習(xí)比較適用于原始特征是連續(xù)的且處于比較低層次的領(lǐng)域,例如語(yǔ)音識(shí)別、圖像識(shí)別,深度學(xué)習(xí)能基于低層次的特征構(gòu)造出適合任務(wù)的高層次語(yǔ)義特征,從而產(chǎn)生較大的突破。而對(duì)于自然語(yǔ)言處理領(lǐng)域,語(yǔ)言相關(guān)的特征通常已經(jīng)處于高層次,例如語(yǔ)法結(jié)構(gòu)、依存關(guān)系等特征。此外,語(yǔ)言的特征通常是離散的,并且存在多義性;因此,深度學(xué)習(xí)在該領(lǐng)域的突破相對(duì)要小一點(diǎn)。
手工構(gòu)建和表示學(xué)習(xí)這兩種方法各有利弊,前者雖然需要較多的人工干預(yù),但是構(gòu)建出的特征通常具有較好的可解釋性,有利于研究人員對(duì)模型起作用的原因以及任務(wù)的本質(zhì)有更深入的認(rèn)識(shí)。例如計(jì)算機(jī)視覺(jué)領(lǐng)域著名的HOG特征、SIFT特征,其背后就有嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)原理。表示學(xué)習(xí)雖然在較少的人工干預(yù)下能自動(dòng)地根據(jù)任務(wù)構(gòu)建特征,但構(gòu)建出的特征的可解釋性通常比較差,例如現(xiàn)在應(yīng)用十分廣泛的卷積神經(jīng)網(wǎng)絡(luò)(CNN),雖然在很多領(lǐng)域都取得了突破性的成果,但是學(xué)術(shù)界目前也還沒(méi)從數(shù)學(xué)角度嚴(yán)謹(jǐn)?shù)刈C明CNN能起作用的本質(zhì)原因。最近的一種研究趨勢(shì)是把這兩種構(gòu)建方式結(jié)合起來(lái),將手工構(gòu)建的特征作為先驗(yàn)知識(shí)去指導(dǎo)或者優(yōu)化表示學(xué)習(xí)算法進(jìn)行特征的學(xué)習(xí),這種做法在不少任務(wù)上取得了較好的效果。例如在知識(shí)圖譜補(bǔ)全這個(gè)任務(wù)上,不少工作就利用了規(guī)則、實(shí)體類型、多跳路徑等信息構(gòu)造出高質(zhì)量的先驗(yàn)知識(shí),并將這些先驗(yàn)知識(shí)融合到表示學(xué)習(xí)上。
接下來(lái),本文將分別介紹Static KGC以及Dynamic KGC這兩類場(chǎng)景的相關(guān)工作。由于不少綜述性文章[1]都已經(jīng)介紹過(guò)Static KGC場(chǎng)景的很多工作,因此本文重點(diǎn)介紹能解決Dynamic KGC的工作。
知識(shí)圖譜可以看成是一個(gè)有向圖,實(shí)體是結(jié)點(diǎn),而有向邊則代表了具體的關(guān)系。對(duì)于Static KGC場(chǎng)景,其實(shí)就是給知識(shí)圖譜中不同的結(jié)點(diǎn)尋找潛在的有向邊(關(guān)系)。早期的不少工作都屬于基于圖的表示學(xué)習(xí)方法,這些方法在小規(guī)模的知識(shí)圖譜上表現(xiàn)良好。然而,隨著知識(shí)圖譜規(guī)模的擴(kuò)大,數(shù)據(jù)稀疏問(wèn)題會(huì)加重,算法的效率也會(huì)降低。為了能適應(yīng)大規(guī)模Static KGC,人們陸續(xù)提出多種基于知識(shí)圖譜結(jié)構(gòu)特征(三元組)的表示學(xué)習(xí)算法,這些算法將知識(shí)圖譜中的實(shí)體和關(guān)系嵌入到低維稠密空間[1],然后在這個(gè)空間計(jì)算實(shí)體和關(guān)系的關(guān)聯(lián),從而進(jìn)行Static KGC。
最經(jīng)典的工作是Bordes等人于2013年提出的翻譯模型——TransE[5],如圖2所示,該模型認(rèn)為正確的三元組(h,r,t)(h代表頭實(shí)體的向量,r代表關(guān)系的向量,t代表尾實(shí)體的向量) 需滿足 h + r ≈t,即尾實(shí)體是頭實(shí)體通過(guò)關(guān)系平移(翻譯)得到的。TransE不僅簡(jiǎn)單高效,而且還具有較好的擴(kuò)展性。然而,通過(guò)深入分析可以得知,TransE不適合對(duì)復(fù)雜關(guān)系進(jìn)行建模。例如“性別”這類“N-1”(多對(duì)一)型關(guān)系,如圖3所示,當(dāng)訓(xùn)練數(shù)據(jù)中含有三元組(張三,性別,男)以及(李四,性別,男)時(shí),經(jīng)過(guò)TransE訓(xùn)練后,張三和李四這兩個(gè)實(shí)體的向量可能會(huì)比較接近。然而張三和李四在其他方面可能存在差異,例如年齡、籍貫等屬性,而TransE無(wú)法對(duì)這些信息進(jìn)行有效地區(qū)分,導(dǎo)致TransE在復(fù)雜關(guān)系上的表現(xiàn)比較差。
圖2 TransE的基本思想
圖3 TransE的復(fù)雜關(guān)系建模
為了能在復(fù)雜關(guān)系下有較好的表現(xiàn),不少工作考慮實(shí)體在不同關(guān)系下應(yīng)該擁有不同的向量。其中,文獻(xiàn)[6]設(shè)計(jì)了TransH模型,該模型將實(shí)體投影到由關(guān)系構(gòu)成的超平面上。文獻(xiàn)[7]提出TransR模型,該模型則認(rèn)為實(shí)體和關(guān)系存在語(yǔ)義差異,它們應(yīng)該在不同的語(yǔ)義空間。此外,不同的關(guān)系應(yīng)該構(gòu)成不同的語(yǔ)義空間,因此TransR通過(guò)關(guān)系投影矩陣,將實(shí)體空間轉(zhuǎn)換到相應(yīng)的關(guān)系空間。文獻(xiàn)[8]沿用了TransR的思想,提出了TransD模型,該模型認(rèn)為頭尾實(shí)體的屬性通常有比較大的差異,因此它們應(yīng)該擁有不同的關(guān)系投影矩陣。此外,考慮矩陣運(yùn)算比較耗時(shí),TransD將矩陣乘法改成了向量乘法,從而提升了運(yùn)算速度。文獻(xiàn)[9]基于實(shí)體描述的主題分布來(lái)構(gòu)造實(shí)體的語(yǔ)義向量,并且將實(shí)體的結(jié)構(gòu)向量投影到對(duì)應(yīng)的語(yǔ)義向量上,從而增強(qiáng)了模型的辨別能力。文獻(xiàn)[10]考慮了實(shí)體多語(yǔ)義的性質(zhì),認(rèn)為實(shí)體應(yīng)該擁有多個(gè)語(yǔ)義向量,而語(yǔ)義向量則是根據(jù)實(shí)體所處的語(yǔ)境動(dòng)態(tài)生成的。此外,文獻(xiàn)[10]通過(guò)實(shí)體類型構(gòu)造了關(guān)系的類型信息,并將實(shí)體與關(guān)系、實(shí)體與實(shí)體之間的相似度作為先驗(yàn)知識(shí)融合到表示學(xué)習(xí)算法中。此外,還有不少工作將規(guī)則、路徑等信息融入到表示學(xué)習(xí)中。這些工作通過(guò)更加細(xì)致的建模以及引入先驗(yàn)知識(shí),在靜態(tài)知識(shí)圖譜補(bǔ)全任務(wù)上取得了一定的提升。值得一提的是,文獻(xiàn)[11]設(shè)計(jì)了一個(gè)基于共享memory的網(wǎng)絡(luò)架構(gòu)IRNs(Implicitly ReasonNets),在向量空間中進(jìn)行了多跳推理,該模型在復(fù)雜關(guān)系上取得了目前最好的結(jié)果。
前面的表示學(xué)習(xí)算法均屬于“離線”算法,它們有一個(gè)共同的局限性,只能在訓(xùn)練過(guò)程中得到實(shí)體以及關(guān)系的向量。當(dāng)實(shí)體或關(guān)系不在訓(xùn)練集中時(shí),就無(wú)法獲得它們的向量。然而,為了維持知識(shí)圖譜的可靠性以及擴(kuò)大它的規(guī)模,我們通常需要對(duì)知識(shí)圖譜中的數(shù)據(jù)進(jìn)行“增”、“刪”、“改”操作。對(duì)于“離線”算法,一旦知識(shí)圖譜中的數(shù)據(jù)發(fā)生變化,就得重新訓(xùn)練所有實(shí)體以及關(guān)系的向量,擴(kuò)展性較差并且耗時(shí)耗力。
對(duì)于大規(guī)模開(kāi)放知識(shí)圖譜,例如Freebase、DBPedia,隨著時(shí)間的變化,它們所含有的事實(shí)類三元組可能會(huì)發(fā)生改變。例如2007年和2017年的美國(guó)總統(tǒng)不是同一個(gè)人,顯而易見(jiàn),(奧巴馬,總統(tǒng),美國(guó)) 這個(gè)三元組在2017年就是錯(cuò)誤的。為了維持知識(shí)圖譜的可靠性,我們需要不定期地對(duì)知識(shí)圖譜中與時(shí)間相關(guān)的事實(shí)類三元組進(jìn)行更新。文獻(xiàn)[12]考慮了知識(shí)圖譜中三元組的時(shí)間有效性,并提出了一個(gè)時(shí)間敏感型(timeaware)知識(shí)圖譜補(bǔ)全模型——TAE,該模型融合了事實(shí)的時(shí)序信息,將三元組擴(kuò)展成四元組——(頭實(shí)體,關(guān)系,尾實(shí)體,時(shí)間)。其中,時(shí)間信息能夠有效約束向量空間的幾何結(jié)構(gòu)。
現(xiàn)有知識(shí)圖譜中實(shí)體和關(guān)系的數(shù)量通常是有限的。然而,大部分表示學(xué)習(xí)模型只能在知識(shí)圖譜中的實(shí)體和關(guān)系之間進(jìn)行補(bǔ)全,因此這些模型無(wú)法自動(dòng)地引入新實(shí)體或者新關(guān)系來(lái)擴(kuò)大知識(shí)圖譜的規(guī)模。新實(shí)體和知識(shí)圖譜中的實(shí)體通常擁有豐富的額外信息,例如名稱、描述、類型等,這些信息從不同角度對(duì)實(shí)體進(jìn)行了刻畫。為了能實(shí)現(xiàn)自動(dòng)向知識(shí)圖譜中添加新實(shí)體的需求,不少方法結(jié)合了額外信息來(lái)獲得新實(shí)體的向量,從而建立新實(shí)體與現(xiàn)有知識(shí)圖譜的關(guān)聯(lián)。對(duì)于新關(guān)系,若有高質(zhì)量的額外信息,同樣可以通過(guò)這些信息來(lái)建立相應(yīng)的向量,從而實(shí)現(xiàn)關(guān)聯(lián)。
向知識(shí)圖譜中添加新實(shí)體或者新關(guān)系的場(chǎng)景其實(shí)可以抽象為遷移學(xué)習(xí)(Transfer Learning)中的零數(shù)據(jù)學(xué)習(xí)(Zero-Shot Learning)問(wèn)題,知識(shí)圖譜中的實(shí)體和關(guān)系為源域(Source Domain),新實(shí)體和新關(guān)系為目標(biāo)域(Target Domain)。實(shí)現(xiàn)遷移學(xué)習(xí)的基本前提是源域與目標(biāo)域之間要存在相關(guān)性,即要共享相同或者類似的信息(例如特征),否則遷移效果就會(huì)比較差,甚至出現(xiàn)負(fù)遷移的情況。例如,對(duì)于實(shí)體的描述信息,若兩個(gè)域中實(shí)體的描述均是英文,由于兩個(gè)域之間可能共享一些相同或者相似的英文單詞,因此可以通過(guò)對(duì)描述信息建模從而實(shí)現(xiàn)遷移,遷移的效果取決于兩個(gè)域之間英文單詞的共享程度;若實(shí)體的描述信息不屬于同一種語(yǔ)言,例如源域中實(shí)體的描述是英文,而目標(biāo)域中實(shí)體的描述是中文,兩個(gè)域之間共享的信息就非常少,直接進(jìn)行遷移學(xué)習(xí)會(huì)非常困難;因此,為了能提高添加新實(shí)體或者新關(guān)系場(chǎng)景的準(zhǔn)確率,需要尋找兩個(gè)域之間所共享的額外信息,然后結(jié)合源域中的三元組數(shù)據(jù)對(duì)這些額外信息進(jìn)行建模,再將學(xué)習(xí)到的模型遷移到目標(biāo)域中,得到目標(biāo)域中實(shí)體的向量,從而實(shí)現(xiàn)動(dòng)態(tài)知識(shí)圖譜補(bǔ)全。
在現(xiàn)實(shí)世界中,關(guān)系的數(shù)量一般遠(yuǎn)少于實(shí)體的數(shù)量;因此,現(xiàn)有知識(shí)圖譜的不完整性主要來(lái)源于實(shí)體的缺失。為了提升知識(shí)圖譜的完整性,大部分工作主要研究如何準(zhǔn)確地向知識(shí)圖譜中添加新實(shí)體,而添加新關(guān)系這個(gè)場(chǎng)景的相關(guān)工作目前還比較少。當(dāng)向知識(shí)圖譜中添加新實(shí)體時(shí),可以根據(jù)知識(shí)圖譜中的實(shí)體以及新實(shí)體所擁有的額外信息分成兩類場(chǎng)景。(1)新實(shí)體擁有豐富的文本信息,例如實(shí)體名稱、實(shí)體描述以及類型;(2)新實(shí)體與知識(shí)圖譜中的實(shí)體以及關(guān)系有顯性的三元組關(guān)聯(lián),這些三元組通常被稱為輔助三元組。輔助三元組不會(huì)參與模型的訓(xùn)練過(guò)程,它們的作用在于借助訓(xùn)練好的模型推理出新實(shí)體的向量。
對(duì)于場(chǎng)景(1),相關(guān)工作主要通過(guò)建立實(shí)體與額外信息的映射關(guān)系來(lái)挖掘以及增強(qiáng)源域與目標(biāo)域之間的關(guān)聯(lián)。例如,對(duì)于源域中的實(shí)體A,若它的描述中出現(xiàn)“人口總量”、“國(guó)土面積”等詞匯,說(shuō)明實(shí)體A很有可能代表一個(gè)國(guó)家。根據(jù)實(shí)體與詞匯之間的映射關(guān)系,當(dāng)實(shí)體B的描述中也出現(xiàn)這些詞匯時(shí),表明實(shí)體B很有可能也是一個(gè)國(guó)家,那么實(shí)體B應(yīng)該具備實(shí)體A的一些屬性。早期的模型主要通過(guò)將知識(shí)圖譜中的結(jié)構(gòu)信息(實(shí)體、關(guān)系)與額外信息統(tǒng)一到同一個(gè)空間來(lái)建立兩者的關(guān)聯(lián)。
文獻(xiàn)[13]提出了首個(gè)聯(lián)合對(duì)齊模型L,該模型分為3個(gè)子模型:知識(shí)圖譜模型K、文本模型T以及對(duì)齊模型A。
知識(shí)圖譜模型K主要通過(guò)條件概率Pr(h|r,t)、Pr(r|h,t)、Pr(t|h,r)來(lái)獲得實(shí)體和關(guān)系的向量,其中E代表實(shí)體集,R代表關(guān)系集。
文本模型T借鑒了word2vec[14]的skip-gram算法,從而獲得額外信息(實(shí)體名稱以及維基百科anchors)的詞向量,其中V代表詞庫(kù),
對(duì)齊模型A的作用是建立實(shí)體與其額外信息中詞語(yǔ)之間的映射,其中De代表實(shí)體e描述中的詞,z(e,w)=7-
然而,這個(gè)對(duì)齊模型依賴于維基百科的anchors,因此應(yīng)用范圍受到了限制。文獻(xiàn)[15]對(duì)它進(jìn)行了改進(jìn),將額外信息替換成實(shí)體的描述信息。相比維基百科的anchors,實(shí)體的描述信息更加常見(jiàn),因此能夠增大模型的應(yīng)用范圍。
此外,不少工作利用神經(jīng)網(wǎng)絡(luò)來(lái)獲得實(shí)體的向量。文獻(xiàn)[16]提出一種張量神經(jīng)網(wǎng)絡(luò),用實(shí)體名稱中所有詞的詞向量的平均作為該實(shí)體的向量,從而讓擁有類似名稱的實(shí)體能夠共享文本信息。文獻(xiàn)[17]使用了兩種表示學(xué)習(xí)方法,連續(xù)詞袋模型(CBOW)以及卷積神經(jīng)網(wǎng)絡(luò)模型(CNN)來(lái)建立基于實(shí)體描述的語(yǔ)義向量。文獻(xiàn)[18]結(jié)合了知識(shí)圖譜的結(jié)構(gòu)信息以及實(shí)體的描述信息,并提出了基于門機(jī)制(Gate-based)的聯(lián)合學(xué)習(xí)模型。此外,文獻(xiàn)[18]認(rèn)為實(shí)體具有多語(yǔ)義,在不同場(chǎng)景(關(guān)系)下可能偏向于某一種語(yǔ)義,而語(yǔ)義則通過(guò)實(shí)體描述中的詞體現(xiàn)。因此,文獻(xiàn)[18]設(shè)計(jì)了一種注意力機(jī)制來(lái)計(jì)算實(shí)體描述中的詞在不同關(guān)系下的權(quán)重,使得實(shí)體在不同關(guān)系下?lián)碛胁煌恼Z(yǔ)義向量。
對(duì)于場(chǎng)景(2),文獻(xiàn)[19]提出了一種基于圖神經(jīng)網(wǎng)絡(luò)(Graph-NNs)的模型。該模型分為兩部分:傳播模型以及輸出模型。其中,傳播模型負(fù)責(zé)在圖中的節(jié)點(diǎn)之間傳播信息,而輸出模型則是根據(jù)具體任務(wù)定義了一個(gè)目標(biāo)函數(shù)。對(duì)于知識(shí)圖譜補(bǔ)全任務(wù),文獻(xiàn)[19]將圖譜中相鄰(頭/尾)實(shí)體的向量進(jìn)行組合,從而形成最終的向量。對(duì)于輸出模型,本文使用了經(jīng)典的翻譯模型—TransE。為了模擬場(chǎng)景(2),文獻(xiàn)[19]構(gòu)造了3組測(cè)試集:僅三元組的頭實(shí)體是新實(shí)體,僅尾實(shí)體是新實(shí)體以及頭尾實(shí)體都是新實(shí)體。此外,給每個(gè)新實(shí)體設(shè)計(jì)了相應(yīng)的輔助三元組(頭尾實(shí)體中僅含有一個(gè)新實(shí)體),用于獲得新實(shí)體的向量。
為了更好地構(gòu)造知識(shí)圖譜,實(shí)現(xiàn)對(duì)數(shù)據(jù)進(jìn)行“增”、“刪”的需求,文獻(xiàn)[20]提出一個(gè)新穎的在線(online)知識(shí)圖譜表示學(xué)習(xí)模型—puTransE (Parallel Universe TransE)。相比經(jīng)典的翻譯模型,例如TransE、TransR,puTransE具有更好的魯棒性以及擴(kuò)展性,并且對(duì)超參數(shù)不太敏感,具有更好的實(shí)用價(jià)值。puTransE利用分而治之的思想,通過(guò)生成多個(gè)向量空間,將語(yǔ)義或結(jié)構(gòu)相似的三元組放在同一個(gè)空間中進(jìn)行訓(xùn)練。此外,每個(gè)空間中的超參數(shù)均是在給定范圍下隨機(jī)生成,因此,不需要進(jìn)行大規(guī)模的超參數(shù)調(diào)優(yōu)。在多個(gè)大規(guī)模數(shù)據(jù)集上的測(cè)試結(jié)果表明,puTransE在效率以及準(zhǔn)確率上均優(yōu)于翻譯模型。
本文借助知識(shí)圖譜補(bǔ)全任務(wù),將知識(shí)圖譜表示學(xué)習(xí)算法進(jìn)行了大致梳理。早期的工作主要集中在靜態(tài)知識(shí)圖譜補(bǔ)全,以TransE為代表的翻譯模型在這個(gè)場(chǎng)景上獲得了較好的效果。然而,這些模型對(duì)超參數(shù)比較敏感,并且擴(kuò)展性也比較差。在真實(shí)世界中,可能會(huì)不間斷地產(chǎn)生新實(shí)體以及新關(guān)系,翻譯模型無(wú)法滿足自動(dòng)添加新實(shí)體以及新關(guān)系的需求,因此,大家逐漸把重心轉(zhuǎn)移到動(dòng)態(tài)知識(shí)圖譜補(bǔ)全上,從而能自動(dòng)地?cái)U(kuò)大知識(shí)圖譜的規(guī)模。相比Static KGC,Dynamic KGC能建立現(xiàn)有知識(shí)圖譜與外界的有效關(guān)聯(lián),并且能對(duì)知識(shí)圖譜中的數(shù)據(jù)進(jìn)行更新,具有更好的現(xiàn)實(shí)意義。因此,如何設(shè)計(jì)高效的在線學(xué)習(xí)算法來(lái)解決Dynamic KGC是目前一個(gè)較好的研究點(diǎn)。
[1]劉知遠(yuǎn),孫茂松,林衍凱,等.知識(shí)表示學(xué)習(xí)研究進(jìn)展[J].計(jì)算機(jī)研究與發(fā)展,2016,53(2):247-261
[2]BOLLACKER K D,EVANS C,PARITOSH P,et al.:Freebase: a collaboratively created graph database for structuring human knowledge[C]//the ACM SIGMOD International Conference on Management of Data,SIGMOD 2008,Vancouver,BC,Canada,June 10-12,2008:1247-1250
[3]AUER S,BIZER C,KOBILAROV G,et al.DBpedia:A Nucleus for a Web of Open Data[C]//The Semantic Web,6th International Semantic Web Conference,2nd Asian Semantic Web Conference,ISWC 2007 + Aswc 2007,Busan,Korea,2007:722-735
[4]DONG X,GABRILOVICH E,HEITZ G,et al.Knowledge vault: a web-scale approach to probabilistic knowledge fusion[C]//In:The 20th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,KDD '14,New York,2014:601-610
[5]BORDES A,USUNIER N.Translating embeddings for modeling multi-relational data[C]//Advances in Neural Information Processing Systems 26: 27th Annual Conference on Neural Information Processing Systems 2013:2787-2795
[6]WANG Z,ZHANG J,FENG J,et al.Knowledge graph embedding by translating on hyperplanes[C]//the Twenty-Eighth AAAI Conference on Artificial Intelligence,Canada,2014:1112-1119
[7]LIN Y,LIU Z,SUN M,et al.Learning entity and relation embeddings for knowledge graph completion[C]//the Twenty-Ninth AAAI Conference on Artificial Intelligence,2015:2181-2187
[8]JI G,HE S,XU L,et al.Knowledge graph embedding via dynamic mapping matrix[C]//the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing of the Asian Federation of Natural Language Processing,Beijing,China,2015:687-696
[9]XIAO H,HUANG M,MENG L,et al.SSP:Semantic space projection for knowledge graph embedding with text descriptions[C]//the Thirty-First AAAI Conference on Artificial Intelligence,San Francisco,California,U SA,2017:3104-3110
[10]MA S,DING J,JIA W,et al.Transt:Type-based multiple embedding representations for knowledge graph completion[C]//Machine Learning and Knowledge Discovery in Databases-European Conference,ECMLPKDD 2017:717-733
[11]SHEN Y,HUANG P,CHANG M,et al.Modeling largescale structured relationships with shared memory for knowledge base completion[C]//the 2nd Workshop on Representation Learning for NLP,Rep4NLP@ACL 2017:57-68
[12]JIANG T,LIU T,GE T,et al.Towards time-aware knowledge graph completion[C]//COLING 2016,26th International Conference on Computational Linguistics,Jap an.2016:1715-1724
[13]WANG Z,ZHANG J,FENG J,et al.Knowledge graph and text jointly embedding[C]//the 2014 Conference on Empirical Methods in Natural Language Processing,2014:1591-1601
[14]Tomas Mikolov,Kai Chen,Greg Corrado,et al.Efficient estimation of word representations in vector space[EB/OL].[2018-02-06].https://www.researchgate.net/publication/234131319_Efficient_Estimation_of_Word_Representations_in_Vector_Space
[15]ZHONG H,ZHANG J,WANG Z,et al.Aligning knowledge and text embeddings by entity descriptions[C]//the 2015 Conference on Empirical Methods in Natural Language Processing,2015:267-272
[16]SOCHER R,CHEN D,MANNING C D,et al.Reasoning with neural tensor networks for knowledge base completion[C]//Advances in Neural Information Processing Systems 26:27th Annual Conference on Neural Information Processing Systems,2013:926-934
[17]XIE R,LIU Z,JIA J,et al.Representation learning of knowledge graphs with entity descriptions[C]//the Thirtieth AAAI Conference on Artificial Intelligence,2016:2659-2665
[18]XU J,QIU X,CHEN K,et al.Knowledge graph representation with jointly structural and textual encoding[C]//the Twenty-Sixth International Joint Conference on Artificial Intelligence,2017:1318-1324
[19]HAMAGUCHI T,OIWA H,SHIMBO M,et al.Knowledge transfer for out-of-knowledge-base entities: A graph neural network approach[C]//the Twenty-Sixth International Joint Conference on Artificial Intelligence,2017:1802-1808
[20]TAY Y,LUU A T,HUI S C.Non-parametric estimation of multiple embeddings for link prediction on dynamic knowledge graphs[C]//The Thirty-First AAAI Conference on Artificial Intelligence,2017:1243-1249