郭正山 左 劼 段 磊 李仁昊 何承鑫 肖英劼 王培妍
(四川大學(xué)計(jì)算機(jī)學(xué)院 成都 610065)
知識(shí)圖譜是一種以圖結(jié)構(gòu)存儲(chǔ)真實(shí)世界中事實(shí)的知識(shí)庫(kù),其基本構(gòu)成單位是一個(gè)包含頭尾實(shí)體與描述兩者間關(guān)系的三元組.然而,現(xiàn)實(shí)世界中的多元關(guān)系事實(shí)通常無(wú)法以三元組形式進(jìn)行表達(dá),如Freebase[1]知識(shí)庫(kù)中多元關(guān)系的占比超過(guò)61%[2].另一方面,將多元關(guān)系事實(shí)拆分為多個(gè)三元組會(huì)導(dǎo)致部分事實(shí)的信息丟失.例如,圖1左部分中的事實(shí)“劉翔2004年在雅典奧運(yùn)會(huì)的110米欄項(xiàng)目上獲得金牌”,“人物-時(shí)間-賽事-項(xiàng)目-獎(jiǎng)項(xiàng)”是一個(gè)涉及“劉翔”“2004年”“雅典奧運(yùn)會(huì)”“110米欄”和“金牌”的五元關(guān)系,無(wú)法在保持事實(shí)完整性的情況下進(jìn)行拆分.針對(duì)此問(wèn)題,知識(shí)超圖對(duì)知識(shí)圖譜的事實(shí)表達(dá)形式進(jìn)行了推廣,以包含多個(gè)實(shí)體及多元關(guān)系的多元組為基本單位,增強(qiáng)了對(duì)多元關(guān)系事實(shí)的表達(dá)能力,在信息檢索[3]、推薦系統(tǒng)[4-5]、自然語(yǔ)言處理[6]等場(chǎng)景中均發(fā)揮重要作用.
Fig. 1 An example of negative sampling in knowledge hypergraph圖1 知識(shí)超圖負(fù)采樣的簡(jiǎn)單示例
由于現(xiàn)實(shí)世界中新知識(shí)不斷產(chǎn)生及知識(shí)獲取困難等問(wèn)題,現(xiàn)有知識(shí)超圖不可避免地面臨不完整性問(wèn)題.例如,在Freebase知識(shí)庫(kù)中,99%的“人物”缺少“種族”信息[7];在DBpedia[8]知識(shí)庫(kù)中,58%的“學(xué)者”缺少“研究領(lǐng)域”的信息[9].因此,面向知識(shí)超圖補(bǔ)全的鏈接預(yù)測(cè)任務(wù)已成為該領(lǐng)域的研究熱點(diǎn).其通過(guò)實(shí)體間現(xiàn)有的鏈接關(guān)系預(yù)測(cè)未知鏈接,以能自動(dòng)學(xué)習(xí)和推理知識(shí)超圖為目標(biāo),是完成諸多下游應(yīng)用的重要前置任務(wù).
針對(duì)知識(shí)超圖鏈接預(yù)測(cè)任務(wù),現(xiàn)有工作主要將實(shí)體和關(guān)系編碼到低維向量空間中以捕獲兩者之間的聯(lián)系,通過(guò)評(píng)分函數(shù)分別對(duì)正、負(fù)樣本進(jìn)行合理性打分,再結(jié)合樣本真實(shí)標(biāo)簽計(jì)算預(yù)測(cè)損失以優(yōu)化模型參數(shù).在上述過(guò)程中,事實(shí)與非事實(shí)分別作為正、負(fù)樣本為鏈接預(yù)測(cè)模型提供訓(xùn)練梯度.然而,現(xiàn)有知識(shí)超圖出于對(duì)空間有效性的考慮只存儲(chǔ)事實(shí)[10],這使得如何構(gòu)建代表非事實(shí)的負(fù)樣本成為關(guān)鍵.目前,均勻隨機(jī)采樣方法[11]是鏈接預(yù)測(cè)任務(wù)中廣泛使用的一種負(fù)采樣方法,其通過(guò)將正樣本中的任一實(shí)體以相同概率隨機(jī)替換為知識(shí)超圖中其他實(shí)體以生成負(fù)樣本.然而,該方法大概率會(huì)采樣到不屬于同一實(shí)體類型或語(yǔ)義不相關(guān)的實(shí)體作為替換,生成的低質(zhì)量負(fù)樣本可能會(huì)使模型在訓(xùn)練階段面臨零損失(zero loss)問(wèn)題[12].
例1.對(duì)圖1左圖中的知識(shí)超圖多元組P3使用均勻隨機(jī)負(fù)采樣,生成圖1右圖中的6個(gè)候選負(fù)樣本N1,N2,…,N6.其中N1,N2和N3因采樣到與原實(shí)體語(yǔ)義不相關(guān)的替換實(shí)體,在映射至嵌入空間中時(shí)與原事實(shí)P3距離較遠(yuǎn),是無(wú)法在鏈接預(yù)測(cè)訓(xùn)練階段有效貢獻(xiàn)梯度的低質(zhì)量負(fù)樣本.反之,N4,N5和N6是有助于鏈接預(yù)測(cè)模型訓(xùn)練的高質(zhì)量負(fù)樣本.
為解決上述問(wèn)題,研究者提出了針對(duì)知識(shí)圖譜鏈接預(yù)測(cè)的負(fù)采樣方法,包括基于緩存和基于生成對(duì)抗網(wǎng)絡(luò)的方法.對(duì)于前者,NSCaching[13]通過(guò)AutoML[14]技術(shù)動(dòng)態(tài)更新緩存中的高質(zhì)量負(fù)樣本,然而該模型需針對(duì)元組中的不同實(shí)體位置分別設(shè)定緩存,具有較高的時(shí)空開(kāi)銷,因此不適合擴(kuò)展至知識(shí)超圖.對(duì)于后者,一系列工作[10,12,15]將生成對(duì)抗網(wǎng)絡(luò)用于知識(shí)庫(kù)鏈接預(yù)測(cè)任務(wù).具體地說(shuō),網(wǎng)絡(luò)中的生成器傾向于生成使判別器難以判斷真?zhèn)蔚臉颖?,而判別器在模型迭代過(guò)程中不斷提高判別能力.在引入到知識(shí)庫(kù)鏈接預(yù)測(cè)任務(wù)中后,該結(jié)構(gòu)適用于生成可以解決零損失問(wèn)題的高質(zhì)量負(fù)樣本.然而,這些方法均是針對(duì)知識(shí)圖譜場(chǎng)景設(shè)計(jì)的,遷移至知識(shí)超圖場(chǎng)景時(shí),會(huì)面臨2種挑戰(zhàn):
挑戰(zhàn)1.現(xiàn)有負(fù)采樣方法均針對(duì)具有固定實(shí)體數(shù)目的三元組進(jìn)行采樣,而在知識(shí)超圖場(chǎng)景下,多元組中實(shí)體數(shù)目會(huì)變化,如:四元組、五元組等.因此無(wú)法直接替換其中的鏈接預(yù)測(cè)方法以適用于知識(shí)超圖.
挑戰(zhàn)2.現(xiàn)有基于生成對(duì)抗網(wǎng)絡(luò)的負(fù)采樣方法均需加入預(yù)訓(xùn)練步驟以提高生成對(duì)抗網(wǎng)絡(luò)的穩(wěn)定性.然而在知識(shí)超圖場(chǎng)景下,多元組中實(shí)體數(shù)量的增加會(huì)進(jìn)一步提高預(yù)訓(xùn)練步驟的復(fù)雜度.
為應(yīng)對(duì)2種挑戰(zhàn),本文提出一個(gè)面向知識(shí)超圖鏈接預(yù)測(cè)的生成對(duì)抗負(fù)采樣方法HyperGAN,通過(guò)引入生成對(duì)抗網(wǎng)絡(luò)提高負(fù)樣本質(zhì)量,以對(duì)鏈接預(yù)測(cè)模型提供指導(dǎo).具體地,針對(duì)挑戰(zhàn)1,對(duì)以往負(fù)采樣方法中共享的鏈接預(yù)測(cè)與判別器模塊進(jìn)行了分離.解耦后的鏈接預(yù)測(cè)模塊可適用于知識(shí)超圖的鏈接預(yù)測(cè)方法,而不影響判別器模塊進(jìn)行樣本質(zhì)量判別.針對(duì)挑戰(zhàn)2,簡(jiǎn)化了生成器與判別器的結(jié)構(gòu),因此無(wú)需像以往負(fù)采樣方法一樣進(jìn)行預(yù)訓(xùn)練,在適用于知識(shí)超圖鏈接預(yù)測(cè)任務(wù)的同時(shí)提高了對(duì)抗訓(xùn)練的穩(wěn)定性.在多個(gè)知識(shí)超圖數(shù)據(jù)集上的實(shí)驗(yàn)表明,HyperGAN能生成高質(zhì)量負(fù)樣本并提升鏈接預(yù)測(cè)模型的準(zhǔn)確度.
本文工作的主要貢獻(xiàn)有3個(gè)方面:
1) 提出了一個(gè)面向知識(shí)超圖鏈接預(yù)測(cè)的生成對(duì)抗負(fù)采樣方法HyperGAN.其通過(guò)提高負(fù)樣本質(zhì)量改善鏈接預(yù)測(cè)任務(wù)的效果.
2) HyperGAN通過(guò)解耦預(yù)測(cè)模型與判別器提升了方法通用性,簡(jiǎn)化后的生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)無(wú)需預(yù)訓(xùn)練也可進(jìn)行穩(wěn)定的對(duì)抗訓(xùn)練,降低了時(shí)間開(kāi)銷.
3) 在5個(gè)公開(kāi)的真實(shí)知識(shí)超圖數(shù)據(jù)集上進(jìn)行了多組對(duì)比實(shí)驗(yàn),相比其他先進(jìn)方法,HyperGAN方法在性能與效率方面均取得提升.針對(duì)負(fù)樣本的具體案例分析與定量分析進(jìn)一步驗(yàn)證了HyperGAN方法的有效性.
本節(jié)主要介紹知識(shí)超圖鏈接預(yù)測(cè)方法和針對(duì)知識(shí)庫(kù)鏈接預(yù)測(cè)領(lǐng)域的負(fù)采樣方法的相關(guān)工作.
當(dāng)前針對(duì)知識(shí)超圖的鏈接預(yù)測(cè)研究工作可分為3類:基于平移的方法、基于神經(jīng)網(wǎng)絡(luò)的方法和基于張量分解的方法[16].
1) 基于平移的方法.TransE[11]是首次提出基于平移的知識(shí)圖譜鏈接預(yù)測(cè)方法,其通過(guò)將知識(shí)圖譜三元組中的關(guān)系建模為從頭實(shí)體到尾實(shí)體的平移變換,從而學(xué)習(xí)實(shí)體和關(guān)系之間的聯(lián)系.然而,該方法在關(guān)系建模上的限制使其不具有完全表達(dá)性[17].此外,該方法只適用于知識(shí)圖譜,不能應(yīng)用到知識(shí)超圖.為解決此問(wèn)題,Wen等人[18]提出的m-TransH方法通過(guò)將實(shí)體映射到知識(shí)超圖多元關(guān)系超平面,用基于平移的方法解決了知識(shí)超圖鏈接預(yù)測(cè)問(wèn)題.RAE方法[19]在此基礎(chǔ)上考慮到2個(gè)實(shí)體同時(shí)出現(xiàn)在一個(gè)多元關(guān)系中的重要性,其將該情況下的相關(guān)性概率引入到損失函數(shù)中并使用一個(gè)全連接神經(jīng)網(wǎng)絡(luò)對(duì)模型進(jìn)行訓(xùn)練.然而,上述擴(kuò)展自TransE的m-TransH及RAE方法均不可避免地繼承了其不具有完全表達(dá)性的缺點(diǎn).最近,Abboud等人[7]提出的BoxE方法解決了這一問(wèn)題,該方法將多元關(guān)系視為空間中的一組框(boxes),實(shí)體視為空間中的點(diǎn),通過(guò)計(jì)算實(shí)體點(diǎn)到對(duì)應(yīng)關(guān)系框的距離,來(lái)對(duì)知識(shí)超圖中的事實(shí)進(jìn)行評(píng)分.
2) 基于神經(jīng)網(wǎng)絡(luò)的方法.由于神經(jīng)網(wǎng)絡(luò)在各類自然語(yǔ)言處理任務(wù)上的成功應(yīng)用,部分研究工作將其引入到知識(shí)超圖鏈接預(yù)測(cè)中,并取得了較好的表現(xiàn).NaLP[20]方法將知識(shí)超圖中多元關(guān)系事實(shí)表示為“角色-實(shí)體”對(duì)的形式,使用卷積神經(jīng)網(wǎng)絡(luò)(con-volutional neural network, CNN)和全連接網(wǎng)絡(luò)(fully connected network, FCN)來(lái)衡量所有角色與實(shí)體對(duì)之間的相關(guān)性,從而對(duì)事實(shí)成立的合理性進(jìn)行評(píng)分.然而,NaLP并未考慮不同“角色-實(shí)體”對(duì)間的差異.為改進(jìn)此不足,HINGE[21]與NeuInfer[22]方法將多元關(guān)系事實(shí)表示為主三元組與輔助“角色-實(shí)體”對(duì)的形式,并分別通過(guò)CNN與FCN來(lái)計(jì)算事實(shí)的合理性得分.Galkin等人[23]提出的StarE方法將信息傳遞網(wǎng)絡(luò)應(yīng)用到知識(shí)超圖鏈接預(yù)測(cè)問(wèn)題上,通過(guò)迭代更新實(shí)體和關(guān)系的嵌入表示并將其送入Transformer[24]中,進(jìn)而對(duì)事實(shí)合理性進(jìn)行評(píng)估.一般來(lái)說(shuō),上述基于神經(jīng)網(wǎng)絡(luò)的鏈接預(yù)測(cè)方法需要經(jīng)過(guò)額外數(shù)據(jù)處理步驟確定主三元組或“角色-實(shí)體”對(duì)中的實(shí)體和關(guān)系,同時(shí)也會(huì)面臨參數(shù)過(guò)多導(dǎo)致的訓(xùn)練困難和不易推廣到大規(guī)模知識(shí)超圖等問(wèn)題.
3) 基于張量分解的方法.最初,許多基于張量分解的知識(shí)超圖鏈接預(yù)測(cè)方法是對(duì)知識(shí)圖譜鏈接預(yù)測(cè)方法的推廣,例如n-CP[2],n-TuckER[25]和m-DistMult[26]方法分別是對(duì)CP[27],TuckER[28]和DistMult[2]方法的拓展,但是這些方法不但沒(méi)有改善原始方法的不足,甚至在知識(shí)超圖鏈接預(yù)測(cè)任務(wù)中對(duì)缺點(diǎn)進(jìn)行了放大,于是研究者開(kāi)始針對(duì)知識(shí)超圖場(chǎng)景設(shè)計(jì)特定的鏈接預(yù)測(cè)方法.Fatemi等人[2]提出的HypE模型考慮了實(shí)體在多元組中不同位置的信息差異,其基于位置信息學(xué)習(xí)實(shí)體的嵌入表示并進(jìn)一步計(jì)算事實(shí)成立的合理性得分.Liu等人[25]提出的GETD模型通過(guò)使用TuckER方法[28]將知識(shí)超圖中事實(shí)的高階張量表示分解為一個(gè)核張量加若干個(gè)因子矩陣,并使用分解得到的核張量與關(guān)系和實(shí)體的嵌入表示相乘以獲得多元關(guān)系事實(shí)成立的合理性得分.此外,針對(duì)核張量具有較多參數(shù)的問(wèn)題,該模型利用張量環(huán)式(tensor ring, TR)分解方法[29]將其分解為多個(gè)三階張量以降低模型復(fù)雜度.雖然GETD具有完全表達(dá)性,但其不能同時(shí)處理具有不同元數(shù)的事實(shí).因此,當(dāng)數(shù)據(jù)集中同時(shí)包含不同元數(shù)的事實(shí)時(shí),必須將事實(shí)以元數(shù)進(jìn)行劃分,再分別進(jìn)行模型訓(xùn)練.最近,Yao等人[30]提出的S2S模型,通過(guò)將實(shí)體和關(guān)系的嵌入表示劃分為多個(gè)塊,允許嵌入表示從具有混合元數(shù)的事實(shí)中學(xué)習(xí).此外,該方法采用神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索技術(shù),稀疏化核張量的參數(shù)以降低模型復(fù)雜度.
綜上所述,基于張量分解的鏈接預(yù)測(cè)方法能有效捕獲實(shí)體和關(guān)系間的潛在交互,取得了當(dāng)前最好的預(yù)測(cè)準(zhǔn)確度,并且大多數(shù)有嚴(yán)格數(shù)學(xué)理論支撐其完全表達(dá)性,因而在知識(shí)超圖鏈接預(yù)測(cè)任務(wù)上發(fā)揮著越來(lái)越大的作用.
1.1節(jié)的知識(shí)超圖鏈接預(yù)測(cè)模型一般通過(guò)構(gòu)造事實(shí)評(píng)分函數(shù),根據(jù)輸入樣本與真實(shí)標(biāo)簽的差距計(jì)算損失以優(yōu)化模型參數(shù).其中,高質(zhì)量負(fù)樣本應(yīng)對(duì)訓(xùn)練梯度有所貢獻(xiàn)以使模型具有更好的泛化能力,因此一些研究人員將不同負(fù)采樣方法應(yīng)用于知識(shí)庫(kù)鏈接預(yù)測(cè)任務(wù),以獲得高質(zhì)量的負(fù)樣本.
最初,大多數(shù)模型使用TransE[11]在知識(shí)圖譜上提出的均勻隨機(jī)采樣(uniformly random sampling)方法,其將正樣本中的頭實(shí)體或尾實(shí)體以相同概率隨機(jī)替換為實(shí)體集中的其他實(shí)體,以生成對(duì)應(yīng)的負(fù)樣本.該方法因簡(jiǎn)單有效的特性,被后續(xù)應(yīng)用到知識(shí)超圖的鏈接預(yù)測(cè)任務(wù)中.然而,均勻隨機(jī)采樣方法的采樣空間過(guò)大,這使得隨機(jī)采樣到高質(zhì)量負(fù)樣本的概率過(guò)小,對(duì)提升模型泛化能力的貢獻(xiàn)不大[10].另一方面,該方法還可能采樣到錯(cuò)誤的負(fù)樣本(即未出現(xiàn)在數(shù)據(jù)集中的正樣本),不利于模型訓(xùn)練[15].針對(duì)該問(wèn)題,Wang等人[31]在TransH中提出一種基于伯努利采樣(Bernoulli sampling)的方法,通過(guò)統(tǒng)計(jì)知識(shí)庫(kù)中關(guān)系的一對(duì)多、多對(duì)一、多對(duì)多映射屬性,使模型以不同的概率替換頭實(shí)體和尾實(shí)體,從而減少了生成錯(cuò)誤負(fù)樣本的概率,但該方法也是從固定分布中采樣,所以不能隨著模型的訓(xùn)練動(dòng)態(tài)改變,造成大多數(shù)生成的負(fù)樣本可信度得分很小,對(duì)基于梯度的優(yōu)化算法幾乎沒(méi)有貢獻(xiàn).因此,上述2種方法都難以生成高質(zhì)量的負(fù)樣本,這可能導(dǎo)致模型訓(xùn)練時(shí)出現(xiàn)零損失問(wèn)題[12],即在訓(xùn)練一段時(shí)間后,生成的大部分負(fù)樣本對(duì)模型損失函數(shù)為零,導(dǎo)致梯度消失,對(duì)模型訓(xùn)練沒(méi)有貢獻(xiàn).
Zhang等人[13]提出針對(duì)知識(shí)圖譜鏈接預(yù)測(cè)的負(fù)采樣模型NSCaching,其通過(guò)設(shè)定緩存(cache)來(lái)直接存儲(chǔ)負(fù)樣本,并在訓(xùn)練過(guò)程中對(duì)負(fù)樣本進(jìn)行動(dòng)態(tài)更新,以使其中包含更多高質(zhì)量的負(fù)樣本.然而,該模型需針對(duì)元組中不同實(shí)體位置設(shè)定相應(yīng)緩存,且在每次模型訓(xùn)練后,需及時(shí)更新所有緩存中的負(fù)樣本,具有較高的時(shí)空開(kāi)銷,因而不適合應(yīng)用于知識(shí)超圖.Ahrabian等人[32]考慮到知識(shí)圖譜的空間結(jié)構(gòu),提出了SANS模型.該模型假設(shè)頭、尾實(shí)體的k跳鄰居實(shí)體與其有更高的相關(guān)性,于是將這些相關(guān)性高的實(shí)體作為事實(shí)中負(fù)采樣的候選集,進(jìn)而從中采樣生成高質(zhì)量的負(fù)樣本.然而,該方法亦不易于拓展應(yīng)用至空間結(jié)構(gòu)復(fù)雜的知識(shí)超圖.RotatE[33]采用自對(duì)抗負(fù)采樣方法進(jìn)行知識(shí)圖譜鏈接預(yù)測(cè),其使用模型評(píng)分函數(shù)獲得負(fù)樣本的概率分布,然后將概率作為負(fù)樣本的權(quán)重引入到鏈接預(yù)測(cè)模型的損失函數(shù)中.該方法通過(guò)模型本身衡量負(fù)樣本的質(zhì)量,無(wú)額外開(kāi)銷且簡(jiǎn)單有效,因而可靈活應(yīng)用于知識(shí)超圖.
近年來(lái)受生成對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)的啟發(fā),一些工作嘗試使用對(duì)抗式訓(xùn)練框架生成高質(zhì)量的負(fù)樣本,以解決對(duì)模型訓(xùn)練的零損失問(wèn)題.Cai等人[10]提出的KBGAN模型采用2個(gè)不同的知識(shí)圖譜鏈接預(yù)測(cè)模型分別作為對(duì)抗網(wǎng)絡(luò)的生成器與判別器,其中生成器負(fù)責(zé)負(fù)樣本生成,而判別器負(fù)責(zé)對(duì)輸入的樣本進(jìn)行正負(fù)判別.隨著模型的迭代,負(fù)樣本生成器與樣本判別器通過(guò)對(duì)抗式訓(xùn)練同時(shí)提高性能.測(cè)試階段則采用判別器中的嵌入表示對(duì)樣本進(jìn)行評(píng)估,以獲得良好的鏈接預(yù)測(cè)效果.KSGAN[15]通過(guò)在KBGAN模型上增加一個(gè)選擇器,篩選生成器生成的負(fù)樣本,進(jìn)一步提升了模型性能.Wang等人[12]提出的IGAN模型通過(guò)采用雙層全連接神經(jīng)網(wǎng)絡(luò)作為生成器,為正樣本生成對(duì)應(yīng)的高質(zhì)量負(fù)樣本,輔助基于平移的鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練,緩解模型零損失問(wèn)題的同時(shí)也降低了生成器的復(fù)雜性.盡管上述基于GAN的負(fù)采樣方法取得了較好的表現(xiàn),但為增強(qiáng)穩(wěn)定性并緩解退化問(wèn)題,必須進(jìn)行預(yù)訓(xùn)練,這帶來(lái)了額外的訓(xùn)練成本[13].
與1.2節(jié)提到的負(fù)采樣方法相比,本文工作主要致力于解決知識(shí)超圖鏈接預(yù)測(cè)中的負(fù)采樣問(wèn)題.由于知識(shí)超圖結(jié)構(gòu)復(fù)雜、采樣空間大,目前工作大多采用均勻隨機(jī)采樣的方式生成負(fù)樣本,還未有簡(jiǎn)單通用的有效方法.本文將生成對(duì)抗網(wǎng)絡(luò)引入到知識(shí)超圖負(fù)采樣中,提出的HyperGAN方法能夠應(yīng)用于不同關(guān)系元數(shù)及多種關(guān)系類型的知識(shí)超圖,通過(guò)采用GAN的輸出得分作為衡量負(fù)樣本質(zhì)量的標(biāo)準(zhǔn),過(guò)濾生成高質(zhì)量負(fù)樣本以提升鏈接預(yù)測(cè)模型的性能.此外,HyperGAN的簡(jiǎn)單結(jié)構(gòu)使得其不需要進(jìn)行額外預(yù)訓(xùn)練,節(jié)約訓(xùn)練成本.
本節(jié)給出知識(shí)超圖鏈接預(yù)測(cè)的一些基本概念.
定義1.知識(shí)超圖.一個(gè)知識(shí)超圖可以表示為B=(E,R,F),其中E為實(shí)體(節(jié)點(diǎn))集,R為多元關(guān)系集,F(xiàn)為知識(shí)超圖中的事實(shí)集合.對(duì)于每個(gè)多元關(guān)系r∈R,其元數(shù)|r|為關(guān)系r涉及到的實(shí)體數(shù)量.
在知識(shí)圖譜中,一個(gè)事實(shí)通常被表示為三元組(eh,r,et)的形式,其中eh,et∈E分別表示頭實(shí)體與尾實(shí)體,r∈R表示頭尾實(shí)體間的關(guān)系.類似地,知識(shí)超圖中的事實(shí)f∈F可以被表示為多元組(r,e1,e2,…,en)的形式,其中r∈R,ei∈E表示關(guān)系中第i個(gè)實(shí)體,該事實(shí)f也被稱為n元關(guān)系事實(shí).
這里用Fall表示世界上全部事實(shí)的集合,所有在Fall中的多元組(r,e1,e2,…,en)為正樣本,否則為負(fù)樣本.由于知識(shí)庫(kù)高度不完整,并不能存儲(chǔ)所有事實(shí)[25],所以當(dāng)前知識(shí)超圖僅包含一部分事實(shí)F?Fall.
定義2.知識(shí)超圖鏈接預(yù)測(cè).給定一個(gè)候選多元組f?F,鏈接預(yù)測(cè)任務(wù)的目的就是判斷該多元組f是否屬于F中缺少的事實(shí),即f是否屬于FallF.
本文提出的HyperGAN由3個(gè)模塊組成:1)知識(shí)超圖鏈接預(yù)測(cè)模塊.將負(fù)樣本置信度引入損失函數(shù)以改善模型性能,并將訓(xùn)練好的嵌入表示共享至其余2個(gè)模塊.2)生成器模塊.生成高質(zhì)量負(fù)樣本與判別器進(jìn)行對(duì)抗訓(xùn)練.3)判別器模塊.在鏈接預(yù)測(cè)階段,為鏈接預(yù)測(cè)模塊提供負(fù)樣本置信度;在生成對(duì)抗負(fù)采樣階段,通過(guò)判別正樣本與生成器提供的負(fù)樣本提高自身辨別能力.圖2為HyperGAN的整體架構(gòu).
Fig. 2 The architecture of HyperGAN圖2 HyperGAN架構(gòu)圖
在知識(shí)超圖鏈接預(yù)測(cè)模塊中,為了學(xué)習(xí)到多元關(guān)系事實(shí)中實(shí)體和關(guān)系的嵌入表示,本文采用常用的對(duì)數(shù)損失函數(shù)[25,33]優(yōu)化鏈接預(yù)測(cè)模塊:
(1)
其中,F(xiàn)batch表示訓(xùn)練過(guò)程中每次迭代使用的小批量正樣本集,f表示其中的一個(gè)正樣本多元組(r,e1,…,en),φ表示鏈接預(yù)測(cè)模塊中的事實(shí)合理性評(píng)分函數(shù),N(f)表示基于正樣本f均勻隨機(jī)采樣生成的負(fù)樣本集合,f′∈N(f)表示其中的一個(gè)負(fù)樣本.具體地,對(duì)于f中的任意一個(gè)實(shí)體ei,用實(shí)體集E中的其他實(shí)體替換該實(shí)體以生成不屬于F的負(fù)樣本:
(2)
(3)
其中,φD表示判別器模塊的評(píng)分函數(shù).為平衡不同負(fù)樣本之間的影響,將上述負(fù)樣本權(quán)重融入式(1)所述鏈接預(yù)測(cè)模塊,最終損失函數(shù)表示為
(4)
生成對(duì)抗網(wǎng)絡(luò)中生成器的目標(biāo)是生成能在對(duì)抗生成階段高效貢獻(xiàn)梯度的負(fù)樣本,即高質(zhì)量負(fù)樣本.具體地,HyperGAN中生成器使用鏈接預(yù)測(cè)模塊訓(xùn)練好的實(shí)體和關(guān)系的嵌入表示,將正樣本集Fbatch作為輸入,經(jīng)過(guò)實(shí)體替換操作,即對(duì)于Fbatch中每個(gè)正樣本f,按式(2)替換其中的實(shí)體,最終獲得候選負(fù)樣本集Nbatch:
(5)
之后,生成器使用3.1節(jié)鏈接預(yù)測(cè)模塊共享的實(shí)體、關(guān)系嵌入表示進(jìn)行訓(xùn)練.對(duì)于任一負(fù)樣本f′∈Nbatch,將其關(guān)系與實(shí)體的嵌入表示按順序拼接后,作為雙層全連接神經(jīng)網(wǎng)絡(luò)的輸入,經(jīng)過(guò)前向傳播,輸出負(fù)樣本f′生成的概率:
p(f′|f,θG)=
σ(tanh(⊕(f)·W1+b1)·W2+b2),
(6)
R(f′|f)=tanh(φD(f′)-φD(f)),
(7)
其中,φD表示判別器模塊的評(píng)分函數(shù).對(duì)于生成的高質(zhì)量負(fù)樣本集,生成器的總獎(jiǎng)勵(lì)為其中所有負(fù)樣本的獎(jiǎng)勵(lì)期望值:
(8)
由于生成器輸出的負(fù)樣本下標(biāo)是一個(gè)離散值,面臨不可微分的問(wèn)題,因此采用基于策略梯度的強(qiáng)化學(xué)習(xí)方法[34]計(jì)算生成器梯度:
?RG(θG)=R(f′|f)×?Glogp(f′|f,θG),
(9)
根據(jù)式(9)中θG的優(yōu)化方式,生成器傾向于為高質(zhì)量負(fù)樣本輸出更高的生成概率,以最大化獎(jiǎng)勵(lì)期望.
(10)
其中,φD表示判別器中的評(píng)分函數(shù).以正樣本f為例,經(jīng)過(guò)判別器輸出的置信度φD(f|θD)表示為
φD(f|θD)=σ(tanh(⊕(f)·W3+b3)·W4+b4),
(11)
其中,W3和W4分別表示全連接神經(jīng)網(wǎng)絡(luò)第一、二層的權(quán)重矩陣,b3和b4分別表示偏置向量,θD表示判別器模塊的參數(shù).
HyperGAN方法的訓(xùn)練過(guò)程由知識(shí)超圖鏈接預(yù)測(cè)和生成對(duì)抗負(fù)采樣2階段構(gòu)成.
知識(shí)超圖鏈接預(yù)測(cè)階段的主要目的是優(yōu)化知識(shí)超圖節(jié)點(diǎn)的嵌入表示與鏈接預(yù)測(cè)評(píng)分函數(shù)的參數(shù),因此,鏈接預(yù)測(cè)模塊與判別器模塊共同參與計(jì)算預(yù)測(cè)損失.其中,固定參數(shù)的判別器只進(jìn)行前向傳播以輸出權(quán)重,并不進(jìn)行參數(shù)更新.這一階段的訓(xùn)練通過(guò)最小化式(4)中的損失函數(shù)提升高質(zhì)量負(fù)樣本對(duì)模型的貢獻(xiàn)、降低低質(zhì)量負(fù)樣本對(duì)模型的干擾,以使模型學(xué)得更好的實(shí)體和關(guān)系的嵌入表示,提升模型的鏈接預(yù)測(cè)準(zhǔn)確度.
生成對(duì)抗負(fù)采樣階段的主要目的是對(duì)抗訓(xùn)練生成器和判別器模塊,共同提高生成器生成高質(zhì)量負(fù)樣本的能力與判別器分辨正負(fù)樣本的能力.在這一階段中,鏈接預(yù)測(cè)模塊的參數(shù)被固定,生成器模塊使用鏈接預(yù)測(cè)模塊訓(xùn)練好的實(shí)體和關(guān)系的嵌入表示,對(duì)訓(xùn)練正樣本集生成高質(zhì)量負(fù)樣本集合并送至判別器;判別器對(duì)輸入的正負(fù)樣本進(jìn)行事實(shí)合理性判別.在對(duì)抗訓(xùn)練過(guò)程中,分別采用隨機(jī)梯度下降法與Adam[35]算法優(yōu)化式(9)的梯度與式(10)中的二元交叉熵?fù)p失,2個(gè)模塊交替進(jìn)行參數(shù)更新,預(yù)期在達(dá)到平衡時(shí)獲得各自最好的性能.
值得注意的是,以往方法將結(jié)構(gòu)復(fù)雜的鏈接預(yù)測(cè)模型作為生成對(duì)抗網(wǎng)絡(luò)判別器,HyperGAN方法則將預(yù)測(cè)模型與判別器解耦,采用雙層全連接神經(jīng)網(wǎng)絡(luò)構(gòu)建生成器與判別器,因而在保持預(yù)測(cè)能力的同時(shí)簡(jiǎn)化了生成對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu).同時(shí),考慮到可能面臨的生成對(duì)抗網(wǎng)絡(luò)不穩(wěn)定性[36],HyperGAN使用結(jié)構(gòu)相同、參數(shù)不一致的生成器與判別器緩解兩者間建模能力不平衡的問(wèn)題.此外,HyperGAN方法采用間斷式兩階段訓(xùn)練模式,即在每次迭代時(shí)均進(jìn)行鏈接預(yù)測(cè)階段訓(xùn)練,而間隔C次迭代才進(jìn)行一次生成對(duì)抗訓(xùn)練,減小每次迭代帶來(lái)的不穩(wěn)定性.基于以上原因,HyperGAN方法無(wú)需像以往結(jié)構(gòu)復(fù)雜[15]或共享鏈接預(yù)測(cè)模塊與判別器[10,12]的工作一樣進(jìn)行預(yù)訓(xùn)練,也可保證其訓(xùn)練過(guò)程中的穩(wěn)定性.設(shè)計(jì)的間斷式兩階段訓(xùn)練相比每次迭代均進(jìn)行訓(xùn)練,亦提升了訓(xùn)練效率.
最終,使用知識(shí)超圖鏈接預(yù)測(cè)模塊學(xué)習(xí)到的嵌入表示作為對(duì)實(shí)體和關(guān)系的最終表示.算法1給出了HyperGAN方法的偽代碼.
算法1.HyperGAN方法.
輸入:事實(shí)集F、鏈接預(yù)測(cè)模塊損失函數(shù)L、判別器損失函數(shù)LD、生成器獎(jiǎng)勵(lì)期望RG、總訓(xùn)練次數(shù)K、生成器G、判別器D、間隔次數(shù)C、對(duì)抗網(wǎng)絡(luò)訓(xùn)練次數(shù)M;
輸出:事實(shí)集F中所有實(shí)體嵌入表示e、關(guān)系嵌入表示r.
① fori← 1 toKdo
② ifimodC=0 do/*每間隔C次*/
③ forj←1 toMdo
④ for Fbatchof F do
⑤ 通過(guò)G生成候選負(fù)樣本集Nbatch;
⑥ 過(guò)濾得到高質(zhì)量負(fù)樣本集;
⑦ 計(jì)算LD并更新參數(shù)θD;
/*式(10)(11)*/
⑧ 計(jì)算RG并更新參數(shù)θG;
/*式(8)(9)*/
① http://www.freebase.com/
② https://www.wikidata.org/
⑨ end for
⑩ end for
/*式(3)*/
本節(jié)為驗(yàn)證HyperGAN方法在知識(shí)超圖鏈接預(yù)測(cè)任務(wù)上的有效性,設(shè)計(jì)了4組實(shí)驗(yàn):1)在5個(gè)公開(kāi)數(shù)據(jù)集上對(duì)多個(gè)知識(shí)超圖鏈接預(yù)測(cè)模型應(yīng)用HyperGAN負(fù)采樣方法,并將其與均勻隨機(jī)采樣和自對(duì)抗負(fù)采樣方法進(jìn)行對(duì)比,以評(píng)估HyperGAN方法的有效性;2)通過(guò)效率實(shí)驗(yàn)對(duì)比不同負(fù)采樣方法對(duì)鏈接預(yù)測(cè)模型效率的影響;3)通過(guò)參數(shù)敏感性實(shí)驗(yàn)分析模型參數(shù)對(duì)實(shí)驗(yàn)的魯棒性影響;4)通過(guò)負(fù)樣本案例分析及定量分析驗(yàn)證HyperGAN方法生成了質(zhì)量較高的負(fù)樣本.以上實(shí)驗(yàn)均基于PyTorch[37]1.6.0,CUDA 11.0和Python 3.6.6的實(shí)驗(yàn)環(huán)境,在使用RTX3090顯卡的服務(wù)器上進(jìn)行.在詳細(xì)說(shuō)明這些實(shí)驗(yàn)之前,首先介紹實(shí)驗(yàn)中用到的數(shù)據(jù)集、評(píng)價(jià)指標(biāo)、基線模型和實(shí)驗(yàn)設(shè)置.
本文使用5個(gè)公開(kāi)的真實(shí)大型知識(shí)超圖數(shù)據(jù)集對(duì)HyperGAN方法進(jìn)行評(píng)估,其詳細(xì)統(tǒng)計(jì)信息如表1所示.數(shù)據(jù)集的簡(jiǎn)要描述:
Table 1 Statistics of Datasets表1 數(shù)據(jù)集的統(tǒng)計(jì)信息
1) JF17K-3[25]是基于Freebase(1)https://github.com/liuyuaa/GETD/過(guò)濾得到的三元關(guān)系數(shù)據(jù)集.首先將Freebase中出現(xiàn)次數(shù)較少的實(shí)體所對(duì)應(yīng)的事實(shí)刪除,在刪除涉及到字符串、數(shù)字及枚舉類型的事實(shí)之后,從每個(gè)多元關(guān)系中隨機(jī)選出10 000個(gè)事實(shí)并進(jìn)一步刪除出現(xiàn)次數(shù)少于5的實(shí)體所對(duì)應(yīng)的事實(shí);然后,利用文獻(xiàn)[18]中的逆向化方法生成多元組;最后過(guò)濾元數(shù)為3的多元組來(lái)構(gòu)成數(shù)據(jù)集.
2) JF17K-4[25]是基于Freebase依據(jù)類似1)中流程構(gòu)建的四元關(guān)系數(shù)據(jù)集.
3) WikiPeople-3[30]是基于Wikidata(2)https://github.com/AutoML-Research/過(guò)濾得到的三元關(guān)系數(shù)據(jù)集.首先抽取出實(shí)體類型為“人物”的全部事實(shí),移除其中涉及到圖像類型及包含未知實(shí)體的事實(shí),以及刪除出現(xiàn)次數(shù)少于30的實(shí)體所對(duì)應(yīng)的事實(shí),最終過(guò)濾得到元數(shù)為3的事實(shí)來(lái)構(gòu)成數(shù)據(jù)集.
4) WikiPeople-4[30]是基于Wikidata依據(jù)類似3)中流程構(gòu)建的四元關(guān)系數(shù)據(jù)集.
5) M-FB15K-3是基于M-FB15K[2]過(guò)濾得到的三元關(guān)系數(shù)據(jù)集.
本文使用2個(gè)廣泛應(yīng)用于知識(shí)超圖鏈接預(yù)測(cè)模型的度量指標(biāo)對(duì)模型性能進(jìn)行評(píng)估:平均倒數(shù)排名MRR和擊中率Hits@k,k∈{1,3,10}.給定知識(shí)超圖事實(shí)集F,用f=(r,e1,e2,…,en)表示其中任一正樣本.對(duì)于f中位置m上的實(shí)體em,使用知識(shí)超圖實(shí)體集E中的全部實(shí)體將其替換,從而得到|E|個(gè)樣本,刪除其中出現(xiàn)在F中的樣本,這樣就構(gòu)造出對(duì)應(yīng)于正樣本f位置m的負(fù)樣本集Nm(f),令Hm(f)={f}∪Nm(f).通過(guò)使用鏈接預(yù)測(cè)模型中評(píng)分函數(shù)對(duì)Hm(f)中所有樣本打分,將得到的評(píng)價(jià)分?jǐn)?shù)進(jìn)行降序排序,得到正樣本f在Hm(f)中的排名rankm(f).MRR是事實(shí)集中所有正樣本排名的倒數(shù)平均值,Hits@k是正樣本排序在前k個(gè)的比例.MRR和Hits@k的具體計(jì)算:
(12)
(13)
其中,r是正樣本f中的關(guān)系,cond(·)是條件函數(shù),當(dāng)條件成立時(shí)值為1,否則為0.MRR和Hits@k值越大表明模型性能越好.
本文選擇6個(gè)知識(shí)超圖鏈接預(yù)測(cè)模型作為實(shí)驗(yàn)基線模型:
1) m-DistMult[26].對(duì)DistMult算法[2]進(jìn)行了擴(kuò)展,通過(guò)對(duì)多元關(guān)系和實(shí)體的嵌入表示計(jì)算哈達(dá)瑪積,將其加和得到多元關(guān)系事實(shí)成立的得分.
2) RAE[19].對(duì)m-TransH算法[18]進(jìn)行了擴(kuò)展,考慮到2個(gè)實(shí)體同時(shí)出現(xiàn)在一個(gè)多元關(guān)系中的相關(guān)性,將其引入模型損失函數(shù)進(jìn)行訓(xùn)練.
3) n-CP[2].對(duì)CP算法[27]進(jìn)行了擴(kuò)展,通過(guò)賦予一個(gè)實(shí)體多個(gè)嵌入表示,將實(shí)體在關(guān)系中的位置信息引入模型以進(jìn)行知識(shí)超圖鏈接預(yù)測(cè).
4) n-TuckER[25].對(duì)TuckER算法[28]進(jìn)行了擴(kuò)展,基于TuckER分解將知識(shí)超圖中事實(shí)的高階張量表示分解為一個(gè)核張量加若干個(gè)因子矩陣的形式,并通過(guò)將關(guān)系和實(shí)體的嵌入表示與核張量相乘,獲得多元關(guān)系事實(shí)成立的得分.
5) GETD[25].對(duì)n-TuckER算法進(jìn)行了擴(kuò)展,通過(guò)引入TR分解,將核張量進(jìn)一步分解為多個(gè)三階張量,降低了模型的復(fù)雜度.
6) S2S[30].對(duì)n-TuckER算法進(jìn)行了擴(kuò)展,通過(guò)將實(shí)體和關(guān)系的嵌入表示劃分為多個(gè)塊,允許模型從具有混合元數(shù)的事實(shí)中學(xué)習(xí)嵌入表示.
為驗(yàn)證HyperGAN方法對(duì)鏈接預(yù)測(cè)模型的性能提升效果,本文分別在基線模型中鏈接預(yù)測(cè)性能良好的GETD與S2S模型上應(yīng)用本文提出的HyperGAN方法,并在相同的參數(shù)設(shè)置下,與模型本身采用的均勻隨機(jī)采樣方法和拓展到知識(shí)超圖的自對(duì)抗負(fù)采樣(Self-Adv)方法[33]進(jìn)行對(duì)比實(shí)驗(yàn).
HyperGAN中生成器和判別器模塊分別通過(guò)SGD和Adam[35]優(yōu)化器進(jìn)行訓(xùn)練,實(shí)體和關(guān)系的嵌入表示維度、批處理大小、訓(xùn)練次數(shù)等參數(shù)與框架中采用的知識(shí)超圖鏈接預(yù)測(cè)模型相關(guān),與其在原文中的參數(shù)保持一致.其他實(shí)驗(yàn)?zāi)J(rèn)參數(shù)設(shè)置如下,生成對(duì)抗網(wǎng)絡(luò)的間隔迭代次數(shù)C=20,SGD和Adam優(yōu)化器的學(xué)習(xí)率為0.01,自對(duì)抗負(fù)采樣方法的采樣率α為0.5或1,生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練次數(shù)M與全連接神經(jīng)網(wǎng)絡(luò)隱藏層的維度d在不同數(shù)據(jù)集中的設(shè)置如表2所示.HyperGAN的實(shí)驗(yàn)代碼和所用數(shù)據(jù)集將被公開(kāi)在https://github.com/GuoZhengshan/HyperGAN.
Table 2 Hyper-Parameter Settings of HyperGAN表2 HyperGAN的超參數(shù)設(shè)置
表3和表4分別給出了基于HyperGAN方法的多個(gè)知識(shí)超圖鏈接預(yù)測(cè)模型在數(shù)據(jù)集JF17K-3/4和WikiPeople-3/4上的實(shí)驗(yàn)結(jié)果.其中涉及GETD模型的結(jié)果由取自其論文文獻(xiàn)[25]中的公開(kāi)源代碼①實(shí)驗(yàn)完成.對(duì)于S2S模型,由于其未在論文中公開(kāi)源代碼,為進(jìn)行對(duì)比分析,本文使用作者公開(kāi)GitHub②倉(cāng)庫(kù)中的源代碼進(jìn)行實(shí)驗(yàn),并對(duì)缺失部分進(jìn)行了復(fù)現(xiàn)補(bǔ)全(該代碼未給出元數(shù)為4情況下的代碼).此外,針對(duì)S2S模型代碼中缺失超參數(shù)的部分,本文參考GETD模型中的超參數(shù)進(jìn)行設(shè)置與微調(diào),因此本文報(bào)告的部分實(shí)驗(yàn)結(jié)果與S2S原論文報(bào)告的結(jié)果有一定差距.盡管如此,由于HyperGAN方法是面向知識(shí)超圖鏈接預(yù)測(cè)模型的通用負(fù)采樣優(yōu)化方法,對(duì)比加入HyperGAN方法前后的性能實(shí)驗(yàn)結(jié)果依舊驗(yàn)證了該方法的有效性.除上述基線模型,其余方法的實(shí)驗(yàn)結(jié)果均采用對(duì)應(yīng)文章中報(bào)告的最好結(jié)果.
Table 3 The Link Prediction Results on the JF17K-3/4 Datasets表3 JF17K-3/4數(shù)據(jù)集鏈接預(yù)測(cè)結(jié)果
Table 4 The Link Prediction Results on the WikiPeople-3/4 Datasets表4 WikiPeople-3/4數(shù)據(jù)集鏈接預(yù)測(cè)結(jié)果
實(shí)驗(yàn)結(jié)果表明:本文提出的HyperGAN方法在上述數(shù)據(jù)集上都獲得了良好的效果.具體地說(shuō),就Hits@1指標(biāo)而言,基于GETD模型的HyperGAN方法相較于其原本均勻隨機(jī)采樣方法在JF17K-3/4和WikiPeople-3/4數(shù)據(jù)集上分別提升了3.29%,1.59%,4.58%和3.02%.擴(kuò)展到超圖的自對(duì)抗負(fù)采樣(Self-Adv)方法也提升了GETD模型的鏈接預(yù)測(cè)性能,就WikiPeople-3數(shù)據(jù)集而言,其在Hits@1和Hits@3指標(biāo)上分別提升了2.47%和2.24%,但HyperGAN方法與自對(duì)抗負(fù)采樣方法相比,在各數(shù)據(jù)集上均表現(xiàn)更優(yōu),特別是在WikiPeople-4數(shù)據(jù)集上,Hits@1和Hits@3指標(biāo)分別提升了2.25%和2.63%.基于S2S模型的HyperGAN方法對(duì)鏈接預(yù)測(cè)性能提升實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),HyperGAN方法同樣在各數(shù)據(jù)集上都取得了良好的表現(xiàn),特別是在WikiPeople-4數(shù)據(jù)集上的MRR和Hits@1指標(biāo)分別提升了1.35%和3.75%.然而,自對(duì)抗負(fù)采樣方法在S2S模型上性能不穩(wěn)定,在JF17K-3/4數(shù)據(jù)集上的指標(biāo)稍加提升,而在WikiPeople-3/4數(shù)據(jù)集上反而下降.導(dǎo)致這一點(diǎn)的原因可能是,更復(fù)雜的鏈接預(yù)測(cè)模型結(jié)構(gòu)會(huì)使自對(duì)抗負(fù)采樣方法在計(jì)算權(quán)重時(shí)具有偏差.相比之下,HyperGAN方法為優(yōu)化負(fù)樣本質(zhì)量而設(shè)計(jì)的生成對(duì)抗網(wǎng)絡(luò)在結(jié)合復(fù)雜結(jié)構(gòu)的鏈接預(yù)測(cè)模型時(shí)依舊能夠具有穩(wěn)定的性能.
為進(jìn)一步研究HyperGAN在更大規(guī)模數(shù)據(jù)集上的效果,本文基于GETD鏈接預(yù)測(cè)模型在數(shù)據(jù)集M-FB15K-3上進(jìn)行了實(shí)驗(yàn),表5給出了相應(yīng)的實(shí)驗(yàn)結(jié)果.具體地說(shuō),Self-Adv方法相較于其原本采用的均勻隨機(jī)采樣方法在各性能指標(biāo)上均表現(xiàn)不佳,而HyperGAN方法取得了良好的表現(xiàn),特別是在Hits@10指標(biāo)上提升了1.21%,從而進(jìn)一步表明HyperGAN在大規(guī)模數(shù)據(jù)集上同樣具有穩(wěn)定的性能.
Table 5 The Link Prediction Results on the M-FB15K-3表5 M-FB15K-3鏈接預(yù)測(cè)結(jié)果
本節(jié)進(jìn)一步對(duì)比了HyperGAN方法和自對(duì)抗負(fù)采樣(Self-Adv)方法[33]對(duì)知識(shí)超圖鏈接預(yù)測(cè)模型的效率影響.具體地,在JF17K-3/4數(shù)據(jù)集的驗(yàn)證集上分別訓(xùn)練加入了HyperGAN與自對(duì)抗負(fù)采樣方法的S2S鏈接預(yù)測(cè)模型,并記錄性能評(píng)價(jià)指標(biāo)隨訓(xùn)練迭代次數(shù)增加的變化.
如圖3所示,HyperGAN方法與自對(duì)抗負(fù)采樣方法在三元關(guān)系數(shù)據(jù)集JF17K-3上對(duì)鏈接預(yù)測(cè)模型的收斂速度影響相差不大,但在四元關(guān)系數(shù)據(jù)集JF17K-4上,HyperGAN方法相對(duì)自對(duì)抗負(fù)采樣方法具有更快的收斂速度.這一現(xiàn)象表明HyperGAN方法相比以往負(fù)采樣方法不僅對(duì)鏈接預(yù)測(cè)模型有更好的性能提升,在元數(shù)更大的知識(shí)超圖數(shù)據(jù)集上也有更高的效率.
Fig. 3 Performance comparison of HyperGAN and Self-Adv on multiple metrics of S2S method圖3 HyperGAN方法和Self-Adv方法在S2S模型各評(píng)價(jià)指標(biāo)上的對(duì)比
為測(cè)試HyperGAN方法的魯棒性,本文基于知識(shí)超圖鏈接預(yù)測(cè)模型GETD在JF17K-3數(shù)據(jù)集上分析了部分超參數(shù)對(duì)模型性能的影響,包括生成對(duì)抗網(wǎng)絡(luò)與鏈接預(yù)測(cè)模型的訓(xùn)練迭代間隔次數(shù)C、生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練次數(shù)M以及生成器與判別器模塊的全連接神經(jīng)網(wǎng)絡(luò)隱藏層維度d.令間隔次數(shù)C∈{10,20,30,40,50,60},生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練次數(shù)M∈{2,6,12,14,16,18,24},隱藏層的維度d∈{4,5,6,8,10,16,32},其余超參數(shù)均與4.3節(jié)實(shí)驗(yàn)設(shè)置中的參數(shù)保持一致,圖4給出了相應(yīng)的實(shí)驗(yàn)結(jié)果.
Fig. 4 Parameter sensitivity analysis圖4 參數(shù)敏感性分析
1) 間隔次數(shù).如圖4(a)所示,當(dāng)訓(xùn)練間隔次數(shù)小于20時(shí),隨著次數(shù)的增加,模型的各性能指標(biāo)均呈上升趨勢(shì),表明增大鏈接預(yù)測(cè)模型與生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練間隔,有助于各模塊自身訓(xùn)練,從而使整體的性能得以提升.然而,當(dāng)間隔次數(shù)到達(dá)20時(shí),上述指標(biāo)逐漸平穩(wěn)不再增加,表明HyperGAN方法性能逐漸穩(wěn)定,而當(dāng)次數(shù)到達(dá)50時(shí),性能出現(xiàn)下降,表明間隔次數(shù)過(guò)多會(huì)導(dǎo)致HyperGAN各模塊間信息交互不及時(shí),對(duì)模型訓(xùn)練不利.
2) 生成對(duì)抗網(wǎng)絡(luò)訓(xùn)練次數(shù).如圖4(b)所示,隨著訓(xùn)練次數(shù)的增加,各項(xiàng)性能指標(biāo)均隨之變好,表明充分訓(xùn)練生成對(duì)抗網(wǎng)絡(luò)有助于提升模型性能.但當(dāng)訓(xùn)練次數(shù)達(dá)到16時(shí),性能指標(biāo)開(kāi)始呈下降趨勢(shì),表明過(guò)多的訓(xùn)練可能導(dǎo)致過(guò)擬合問(wèn)題.因此,生成對(duì)抗網(wǎng)絡(luò)的訓(xùn)練次數(shù)對(duì)HyperGAN方法而言是一個(gè)較為敏感的超參數(shù).
3) 隱藏層維度.如圖4(c)所示,當(dāng)維度開(kāi)始增加時(shí),各項(xiàng)性能指標(biāo)均有所提升,表明加大隱藏層的維度有助于鏈接預(yù)測(cè)模型性能的提升,太小的維度可能導(dǎo)致學(xué)習(xí)過(guò)程中信息的丟失.然而,當(dāng)維度到達(dá)10時(shí),各項(xiàng)性能指標(biāo)逐漸平穩(wěn)不再增加,表明維度到達(dá)一定程度時(shí)已能夠表達(dá)所有信息.
為研究鏈接預(yù)測(cè)性能的提升與HyperGAN方法的相關(guān)性,本文將HyperGAN應(yīng)用于知識(shí)超圖場(chǎng)景下基礎(chǔ)鏈接預(yù)測(cè)模型m-DistMult[26]并記錄性能變化,結(jié)果如圖5所示.多個(gè)數(shù)據(jù)集上的4種性能指標(biāo)顯示,HyperGAN方法即使面對(duì)最基礎(chǔ)的鏈接預(yù)測(cè)模塊,也能通過(guò)提升負(fù)樣本質(zhì)量輔助提升預(yù)測(cè)精度.
Fig. 5 Performance comparison of m-DistMult and m-DistMult+HyperGAN on multiple datasets圖5 m-DistMult和m-DistMult+HyperGAN方法在各數(shù)據(jù)集上的對(duì)比
為了驗(yàn)證HyperGAN方法能生成高質(zhì)量的負(fù)樣本,本文基于知識(shí)超圖鏈接預(yù)測(cè)模型GETD在WikiPeople-3/4和JF17K-3/4數(shù)據(jù)集上進(jìn)行了案例分析.如表6所示,列2正樣本以多元組的形式表示,其中黑體單詞表示被替換的實(shí)體,列3為經(jīng)過(guò)HyperGAN方法生成的替換后實(shí)體.在WikiPeople-3/4數(shù)據(jù)集中,HyperGAN方法更傾向于選擇同一類型的實(shí)體進(jìn)行替換,例如時(shí)間實(shí)體會(huì)被替換為其他時(shí)間,影視作品“西城故事”會(huì)替換為“指環(huán)王:王者歸來(lái)”,獎(jiǎng)項(xiàng)名稱“圖靈獎(jiǎng)”被替換為“諾貝爾物理學(xué)獎(jiǎng)”.在JF17K-3/4數(shù)據(jù)集上,HyperGAN方法更傾向于選擇有相似語(yǔ)義關(guān)系的實(shí)體進(jìn)行替換.例如對(duì)于描述網(wǎng)球比賽關(guān)系的事實(shí),“塞雷娜·威廉姆斯”會(huì)被替換為同為網(wǎng)球運(yùn)動(dòng)員的“賈斯汀·海寧”;對(duì)于描述大不列顛貴族等級(jí)的事實(shí),“公爵”被替換為“子爵”.在以上4個(gè)數(shù)據(jù)集上的案例分析表明,本文提出的HyperGAN方法會(huì)選擇同類型或是在語(yǔ)義上相似、具有內(nèi)在聯(lián)系的實(shí)體作為替換,以生成能為鏈接預(yù)測(cè)模型訓(xùn)練貢獻(xiàn)更大梯度的高質(zhì)量負(fù)樣本,而傳統(tǒng)的均勻隨機(jī)采樣方法大概率會(huì)采樣到不屬于同一類型或幾乎完全不相關(guān)的實(shí)體作為替換,從而可能會(huì)使模型在訓(xùn)練階段面臨零損失問(wèn)題.
Table 6 The Positive Samples and Replaced Entities with HyperGAN on the JF17K-3/4 and WikiPeople-3/4表6 JF17K-3/4和WikiPeople-3/4中的正樣本與HyperGAN替換后的實(shí)體
此外,為進(jìn)一步定量分析負(fù)樣本質(zhì)量對(duì)鏈接預(yù)測(cè)模型的影響,本文在JF17K,WikiPeople和M-FB15K數(shù)據(jù)集上基于鏈接預(yù)測(cè)模型GETD給出了模型損失隨訓(xùn)練次數(shù)的變化情況.如圖6所示,在應(yīng)用HyperGAN方法后,模型損失相比原方法下降更快,在正樣本一致的情況下,這一現(xiàn)象表明通過(guò)HyperGAN方法生成的高質(zhì)量負(fù)樣本能為鏈接預(yù)測(cè)模型帶來(lái)更大損失,貢獻(xiàn)更多梯度,通過(guò)解決零損失問(wèn)題提升了知識(shí)超圖鏈接預(yù)測(cè)的準(zhǔn)確度.
Fig. 6 Training loss in one epoch versus number of epochs for GETD and GETD+HyperGAN on datasets圖6 GETD和GETD+HyperGAN方法在各數(shù)據(jù)集上模型損失隨訓(xùn)練次數(shù)的變化情況
本文提出了面向知識(shí)超圖鏈接預(yù)測(cè)的生成對(duì)抗負(fù)采樣方法HyperGAN,其通過(guò)對(duì)抗訓(xùn)練生成高質(zhì)量負(fù)樣本以提升鏈接預(yù)測(cè)模型的性能.此外,HyperGAN方法無(wú)需預(yù)訓(xùn)練的特性使其在輔助鏈接預(yù)測(cè)模型進(jìn)行訓(xùn)練時(shí)相比以往負(fù)采樣方法具有更高的效率.在5個(gè)大型公開(kāi)知識(shí)超圖數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)驗(yàn)證了HyperGAN方法在性能與效率方面的有效性與先進(jìn)性.
下一步,計(jì)劃探究知識(shí)超圖不同類型信息間的隱式關(guān)聯(lián),以提高鏈接預(yù)測(cè)中的負(fù)樣本質(zhì)量,并分析負(fù)樣本質(zhì)量在不同衡量準(zhǔn)則下對(duì)鏈接預(yù)測(cè)性能的影響.其次,考慮將變分自編碼器用于鏈接預(yù)測(cè)負(fù)采樣,并且將并行計(jì)算融入鏈接預(yù)測(cè)模型以進(jìn)一步提升其在大規(guī)模數(shù)據(jù)集上的訓(xùn)練效率.此外,知識(shí)超圖的其余下游應(yīng)用也是值得探索的研究方向.