国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

異質(zhì)網(wǎng)中基于圖卷積神經(jīng)網(wǎng)絡(luò)的鏈路預(yù)測方法

2022-02-15 07:00:56蔣宗禮張文婷張津麗
計算機工程與設(shè)計 2022年1期
關(guān)鍵詞:異質(zhì)信息網(wǎng)絡(luò)鏈路

蔣宗禮,張文婷,張津麗

(北京工業(yè)大學(xué) 計算機學(xué)院,北京 100124)

0 引 言

隨著信息網(wǎng)絡(luò)的快速發(fā)展,對信息網(wǎng)絡(luò)進(jìn)行鏈路預(yù)測已成為數(shù)據(jù)挖掘領(lǐng)域中的研究熱點。在社交網(wǎng)絡(luò)中,對于任意兩個還未互相關(guān)注的用戶,通過鏈路預(yù)測可以判斷他們是否是潛在的好友;在引文網(wǎng)絡(luò)中,鏈路預(yù)測能夠預(yù)測作者是否可能在未來進(jìn)行合作。將網(wǎng)絡(luò)中的對象和關(guān)系分別簡化為節(jié)點和連邊,則在社交網(wǎng)絡(luò)和引文網(wǎng)絡(luò)中,節(jié)點和連邊類型都僅有一種,這樣的網(wǎng)絡(luò)稱為同質(zhì)信息網(wǎng)絡(luò)。但是現(xiàn)實中網(wǎng)絡(luò)的節(jié)點或連邊類型往往不只一種[1],這樣的網(wǎng)絡(luò)稱為異質(zhì)信息網(wǎng)絡(luò)[2]。

目前信息網(wǎng)絡(luò)的鏈路預(yù)測方法主要分為基于相似度和基于網(wǎng)絡(luò)表征學(xué)習(xí)的方法?;谙嗨贫鹊姆椒ㄔ诓煌W(wǎng)絡(luò)中的預(yù)測準(zhǔn)確度差異明顯,通用性較差;基于網(wǎng)絡(luò)表征學(xué)習(xí)的方法大多數(shù)是針對同質(zhì)信息網(wǎng)絡(luò)提出的,無法應(yīng)用于更為復(fù)雜的異質(zhì)信息網(wǎng)絡(luò)。由于異質(zhì)網(wǎng)絡(luò)的復(fù)雜性和異質(zhì)性特點,導(dǎo)致在異質(zhì)網(wǎng)中的鏈路預(yù)測研究依然較少。考慮到異質(zhì)網(wǎng)中節(jié)點類型的不同,本文在經(jīng)典圖卷積神經(jīng)網(wǎng)絡(luò)算法的基礎(chǔ)上進(jìn)行改進(jìn),提出一種改進(jìn)的逐層傳遞規(guī)則,有效處理不同類型的節(jié)點,對節(jié)點表征進(jìn)行學(xué)習(xí),并融合對抗學(xué)習(xí)優(yōu)化節(jié)點表征。通過基于梯度提升樹的二分類算法預(yù)測鏈路是否存在,為異質(zhì)網(wǎng)中的鏈路預(yù)測提供了新思路,有效提升了鏈路預(yù)測的準(zhǔn)確性和穩(wěn)定性。

1 相關(guān)研究

目前常用的鏈路預(yù)測方法主要為基于相似性指標(biāo)的方法,CN指標(biāo)通過衡量兩個節(jié)點之間的共同鄰居的數(shù)量作為相似性指標(biāo),共同鄰居越多,則連邊存在的可能性越大。PA指標(biāo)基于兩個節(jié)點的度數(shù)作為相似性指標(biāo),連邊存在的可能性與節(jié)點度成正比。此外,其它的相似度指標(biāo)還有基于路徑的KatZ指標(biāo)、LP指標(biāo)等,基于隨機游走的ACT指標(biāo)、SimRank指標(biāo)等[3]?;谙嗨菩灾笜?biāo)的鏈路預(yù)測方法主要的局限是對于不同的網(wǎng)絡(luò),其預(yù)測性能并不穩(wěn)定。另一類鏈路預(yù)測方法是基于最大似然估計的方法,主要有層次結(jié)構(gòu)模型和隨機分塊模型,層次結(jié)構(gòu)模型的問題是計算復(fù)雜度太高[4],隨機分塊模型的整體表現(xiàn)比層次結(jié)構(gòu)模型好,但是對于大規(guī)模網(wǎng)絡(luò),其性能依然較差。

近年來的網(wǎng)絡(luò)表示學(xué)習(xí)為鏈路預(yù)測提供了新方法,網(wǎng)絡(luò)表示學(xué)習(xí)將信息網(wǎng)絡(luò)簡化為圖的形式,將圖中的節(jié)點嵌入到一個低維空間中[5]。通過網(wǎng)絡(luò)表示學(xué)習(xí)得到節(jié)點的低維特征表示,便可以根據(jù)節(jié)點表征進(jìn)行鏈路預(yù)測。DeepWalk通過隨機游走和SkipGram算法得到節(jié)點的特征向量[6]。node2Vec[7]使用兩個參數(shù)p、q控制隨機游走的策略,使隨機游走在寬度優(yōu)先策略和深度優(yōu)先策略中保持平衡。LINE[8]考慮了節(jié)點的一階相似度和二階相似度,在稀疏網(wǎng)絡(luò)和稠密網(wǎng)絡(luò)中都有良好的表現(xiàn)。圖卷積神經(jīng)網(wǎng)絡(luò)GCN[9]結(jié)合網(wǎng)絡(luò)結(jié)構(gòu)和節(jié)點屬性,學(xué)習(xí)到的節(jié)點特征有效融合了其鄰居節(jié)點的特征。上述研究都是針對同質(zhì)網(wǎng)的,而現(xiàn)實中的許多網(wǎng)絡(luò)是包含不同類型節(jié)點或關(guān)系的異質(zhì)信息網(wǎng)絡(luò)。目前,異質(zhì)網(wǎng)上的網(wǎng)絡(luò)表示學(xué)習(xí)方法仍然較少,且絕大部分是基于元路徑[10]的。Metapath2Vec[11]通過預(yù)先定義的元路徑模式進(jìn)行隨機游走,生成符合元路徑模式的節(jié)點序列,最后使用基于異質(zhì)網(wǎng)的SkipGram算法學(xué)習(xí)節(jié)點的特征向量。Hin2vec[12]同時學(xué)習(xí)節(jié)點和元路徑的特征向量,根據(jù)自動生成的多種元路徑對節(jié)點特征進(jìn)行聯(lián)合學(xué)習(xí)?;谠窂降姆椒ㄖ饕木窒拊谟谠窂降倪x擇,往往需要預(yù)先進(jìn)行大量的實驗和比較,才能在多種元路徑模式中找到較優(yōu)的模式。

針對以上問題,本文提出異質(zhì)網(wǎng)中基于圖卷積神經(jīng)網(wǎng)絡(luò)的鏈路預(yù)測方法。通過對圖卷積神經(jīng)網(wǎng)絡(luò)GCN進(jìn)行改進(jìn),解決了GCN算法只適用于同質(zhì)網(wǎng)的問題。改進(jìn)后的方法能充分利用異質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔⒑蛯傩孕畔ⅲ瑢W(xué)習(xí)不同類型節(jié)點的表征。為進(jìn)一步提高節(jié)點表征的效果,融合對抗學(xué)習(xí)對節(jié)點表征進(jìn)行優(yōu)化。獲得節(jié)點的表征向量后,將鏈路預(yù)測問題轉(zhuǎn)換為二分類問題,根據(jù)兩個節(jié)點表征向量的Hadamard積構(gòu)造節(jié)點之間連邊的表征向量,并結(jié)合基于GBDT算法的二分類器進(jìn)行鏈路預(yù)測。

2 問題定義

2.1 異質(zhì)信息網(wǎng)絡(luò)

對于一個信息網(wǎng)絡(luò)G(V,E,Tv,Te),V表示節(jié)點集合,E表示連邊集合,Tv表示節(jié)點類型集合,Te表示連邊類型集合。每個節(jié)點v∈V都對應(yīng)著其節(jié)點類型φ(v)∈Tv, 每條連邊e∈E也都對應(yīng)著其連邊類型ψ(e)=Te。 當(dāng)節(jié)點類型或連邊類型大于1時,即 |Tv|>1或 |Te|>1時,稱G為異質(zhì)信息網(wǎng)絡(luò)。圖1所示的異質(zhì)信息網(wǎng)絡(luò)包含User和Store兩種類型的節(jié)點。

圖1 異質(zhì)信息網(wǎng)絡(luò)

2.2 異質(zhì)網(wǎng)中的鏈路預(yù)測

鏈路預(yù)測的目標(biāo)是根據(jù)節(jié)點間已知連邊及節(jié)點的屬性,預(yù)測節(jié)點間未知連邊存在的可能性[13]。例如,在異質(zhì)信息網(wǎng)絡(luò)G中,節(jié)點v1的類型為φ(v1)=a1, 節(jié)點v2的類型為φ(v2)=a2, 節(jié)點類型a1和a2之間存在連邊類型r1, 但節(jié)點v1和v2之間尚未觀測到連邊。鏈路預(yù)測的目標(biāo)就是通過網(wǎng)絡(luò)中已知的拓?fù)湫畔⒑凸?jié)點的屬性信息,預(yù)測節(jié)點v1和v2之間是否存在連邊。例如,預(yù)測User1和Store1是否相連接。

3 異質(zhì)網(wǎng)絡(luò)鏈路預(yù)測模型

本文提出的鏈路預(yù)測模型如圖2所示。首先通過HeGCN層、對抗學(xué)習(xí)層對節(jié)點的表征進(jìn)行學(xué)習(xí),通過損失函數(shù)的最小化對模型進(jìn)行更新、優(yōu)化,最后構(gòu)造連邊表征并預(yù)測網(wǎng)絡(luò)中的鏈路。

圖2 異質(zhì)網(wǎng)絡(luò)鏈路預(yù)測模型

3.1 逐層傳遞規(guī)則

圖卷積神經(jīng)網(wǎng)絡(luò)GCN是一種強大的網(wǎng)絡(luò)表示學(xué)習(xí)方法,它結(jié)合網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和節(jié)點的屬性信息,將網(wǎng)絡(luò)中的節(jié)點表示為低維稠密的特征向量,僅通過兩層GCN得到的節(jié)點表征就能夠十分有效地對原始網(wǎng)絡(luò)進(jìn)行表示。但是GCN的逐層傳遞規(guī)則只適用于同質(zhì)信息網(wǎng)絡(luò),針對這一不足,本文提出一種改進(jìn)的HeGCN逐層傳遞規(guī)則,可以同時處理兩種不同類型的節(jié)點。

3.1.1 GCN逐層傳遞規(guī)則

圖卷積神經(jīng)網(wǎng)絡(luò)GCN的逐層傳遞規(guī)則如下

(1)

(2)

(3)

由式(2)、式(3)可知,GCN只能接受N×N的方陣作為鄰接矩陣輸入,而異質(zhì)信息網(wǎng)絡(luò)中不同類型節(jié)點的個數(shù)并不相同,所以GCN的逐層傳遞規(guī)則不能直接用于異質(zhì)信息網(wǎng)絡(luò)。

3.1.2 改進(jìn)的HeGCN逐層傳遞規(guī)則

由于GCN處理的是相同類型的節(jié)點,令節(jié)點vi的鄰居節(jié)點表示為 {vj|Aij=1,j∈[1,N]}, 則vi的所有鄰居節(jié)點vj的類型與vi相同,由此可知在同質(zhì)信息網(wǎng)絡(luò)中,全部節(jié)點的鄰居節(jié)點集合Vneighbor?V。 因此在式(2)中的屬性矩陣X是由集合V中節(jié)點的屬性向量構(gòu)成的。而在異質(zhì)信息網(wǎng)絡(luò)中,鄰居節(jié)點的類型不同。表1給出了異質(zhì)網(wǎng)絡(luò)中節(jié)點的相關(guān)符號表示,令節(jié)點vi∈VN的鄰居節(jié)點表示為 {vj|Aij=1,vj∈VM,j∈[1,M]}, 可以看出vi的所有鄰居節(jié)點vj的類型與vi不同,即圖中所有節(jié)點的鄰居節(jié)點的集合Vneighbor∩V=?。

本文在GCN的基礎(chǔ)上進(jìn)行改進(jìn),提出了適用于異質(zhì)網(wǎng)的HeGCN逐層傳遞規(guī)則。對于所有vi∈VN, 其鄰居節(jié)點vneighbor∈VM, 對于所有vj∈VM, 其鄰居節(jié)點vneighbor∈VN。 由于每個節(jié)點的表征與其鄰居節(jié)點的表征相關(guān)聯(lián),因此在改進(jìn)的逐層傳遞規(guī)則中,令vi∈VN對應(yīng)的屬性矩陣為XM; 同理,vj∈VM對應(yīng)的屬性矩陣為XN, 如式(4)、式(5)所示。由于鄰居節(jié)點的類型不同,在對鄰接矩陣A的預(yù)處理方面,HeGCN應(yīng)當(dāng)做如下改變:

表1 符號表示

(1)節(jié)點與其自身無連邊。因此不應(yīng)將初始鄰接矩陣與維度為N×N的單位矩陣相加;

綜上,得到HeGCN中的兩條逐層傳遞規(guī)則:

對于VN, 逐層傳遞規(guī)則為

(4)

對于VM, 逐層傳遞規(guī)則為

(5)

其中,A表示鄰接矩陣,AT表示鄰接矩陣的轉(zhuǎn)置。DA是A的度數(shù)矩陣,DAT是AT的度數(shù)矩陣,即

(6)

3.2 HeGCNE模型設(shè)計

HeGCNE的模型結(jié)構(gòu)如圖3所示,下文將分別說明每部分的具體細(xì)節(jié)。

圖3 HeGCNE模型結(jié)構(gòu)

3.2.1 HeGCN層

將改進(jìn)的逐層傳播公式應(yīng)用到HeGCN層中,通過兩層HeGCN結(jié)構(gòu),生成節(jié)點表征的高斯分布,如式(7)所示

(7)

假設(shè)節(jié)點的先驗分布和變分后驗分布都服從高斯分布[14],則有

(8)

(9)

(10)

(11)

由于在使用后向傳播算法對參數(shù)進(jìn)行優(yōu)化時,需要滿足可微條件,因此通過重參數(shù)化[14]將節(jié)點表征的高斯分布qφ1(ZN|A,XN) 和qφ2(ZM|A,XM) 轉(zhuǎn)換為確定且可微的ZN和ZM。 其中,ZN的維度為N×D,ZM的維度為M×D, 即節(jié)點的表征向量都是D維。

3.2.2 對抗學(xué)習(xí)層

為進(jìn)一步優(yōu)化學(xué)習(xí)到的節(jié)點表征,在HeGCN層的基礎(chǔ)上進(jìn)行對抗學(xué)習(xí)[15]。生成對抗模型一般由兩部分組成,分別是生成模型和判別模型。HeGCN層可以看作是生成模型,生成節(jié)點的特征分布qφ1(ZN|A,XN) 和qφ2(ZM|A,XM)。 判別模型對輸入的樣本進(jìn)行判斷,當(dāng)樣本來自先驗分布p(ZN) 或p(ZM) 時,將其判斷為真樣本;當(dāng)樣本來自生成的節(jié)點特征分布qφ1(ZN|A,XN) 或qφ2(ZM|A,XM) 時,將其判斷為假樣本。判別模型的目標(biāo)是不斷提高判斷的準(zhǔn)確度,也就是要盡可能準(zhǔn)確的對真假樣本進(jìn)行區(qū)分;而生成模型的目標(biāo)是生成盡可能混淆判別模型的樣本。在兩方博弈的過程中,判別模型和生成模型的能力都得到了提高,生成的節(jié)點特征分布更接近真實的節(jié)點特征分布,因此優(yōu)化了學(xué)習(xí)到的節(jié)點表征。

3.3 HeGCNE模型優(yōu)化

(12)

(13)

(14)

在對抗學(xué)習(xí)的過程中,一方面需要提高判別模型D準(zhǔn)確判斷的能力,即提高z~p(Zi)[log(D(ZN))] 和z~p(Zj)[log(D(ZM))], 對于從節(jié)點特征的先驗分布中采樣的樣本,判別模型D要將其判斷為真;對于從生成的節(jié)點特征分布中采樣的樣本,判別模型D要將其判斷為假。另一方面需要提高生成模型G生成假樣本的能力,即提高XN[log(1-D(G(XN,A)))] 和XM[log(1-D(G(XM,A)))], 使其盡可能混淆判別模型D,令判別模型D判斷失誤。因此,損失函數(shù)的第3部分為

(15)

3.4 連邊表征構(gòu)造與二分類

通過3.3節(jié)對模型進(jìn)行訓(xùn)練,得到了節(jié)點表征ZN和ZM,本文沒有直接根據(jù)重建的鄰接矩陣或通過計算節(jié)點表征的余弦相似度進(jìn)行鏈路預(yù)測,而是將鏈路預(yù)測問題轉(zhuǎn)化為二分類問題,先構(gòu)造連邊表征,如圖4所示。然后將連邊表征與梯度提升樹(gradient boosting decide tree,GBDT)算法相結(jié)合進(jìn)行二分類,若節(jié)點對有連邊存在,則其對應(yīng)的標(biāo)簽為1,否則標(biāo)簽為0。通過對兩個節(jié)點表征做hadamard積可以有效融合節(jié)點表征,構(gòu)造出連邊表征,如式(16)所示。其中,⊙表示hadamard積, 表示節(jié)點vi與節(jié)點vj之間的邊,vi∈VN,vj∈VM

Feature()=Feature(vi)⊙Feature(vj)

(16)

圖4 連邊表征構(gòu)造

使用梯度提升樹進(jìn)行二分類時,在算法的每一步都會通過一棵決策樹對分類器當(dāng)前的殘差進(jìn)行擬合,訓(xùn)練出一個新的弱分類器,將所有的決策樹綜合起來,就可以得到一個強分類器。使用梯度提升樹分類的優(yōu)點主要有3點:①在每一棵決策樹對殘差的計算中,被正確分類的樣本所占的權(quán)重減小,分類錯誤的樣本所占的權(quán)重增大,即著重考慮那些被錯誤分類的樣本,使得泛化能力得到增強。②梯度提升樹中的非線性變化較多,分類能力強。③梯度提升樹可以對每一維特征的重要程度排序,高效且自動地進(jìn)行特征組合。

4 實驗與分析

4.1 數(shù)據(jù)集

本文采用DBLP和YELP兩個真實數(shù)據(jù)集進(jìn)行實驗。在DBLP數(shù)據(jù)集中,有論文和作者兩種類型的節(jié)點,表示論文的節(jié)點共有14 376個,表示作者的節(jié)點共有14 475個,實驗對“論文-作者”進(jìn)行鏈路預(yù)測,即判斷論文是否被作者所寫。在YELP數(shù)據(jù)集中,有商店和用戶兩種類型的節(jié)點,表示商店的節(jié)點共有2614個,表示用戶的節(jié)點共有1286個,實驗對“商店-用戶”進(jìn)行鏈路預(yù)測,即判斷用戶是否去過商店。數(shù)據(jù)集的信息見表2。

表2 數(shù)據(jù)集的具體信息

4.2 評價指標(biāo)

鏈路預(yù)測任務(wù)的常用評價指標(biāo)為AUC和AP指標(biāo)。AUC指標(biāo)是ROC曲線下的面積,表示隨機抽取一個正例和負(fù)例,分類器將正例排在負(fù)例前面的概率。AUC值越大,意味著分類器越有可能將正例排在負(fù)例前面,因此分類器的表現(xiàn)越好,AUC值越接近1,而一個純隨機分類器的AUC值為0.5。在鏈路預(yù)測任務(wù)中,AUC值越大,表示越有可能從所有的節(jié)點對中,選出有連邊存在的節(jié)點對。AP指標(biāo)是PR曲線下的面積,在鏈路預(yù)測任務(wù)中,AP指標(biāo)也可以用來衡量預(yù)測的整體表現(xiàn)。

4.3 基準(zhǔn)算法與參數(shù)設(shè)置

為了驗證本文方法的有效性,分別與PA、DeepWalk、Hin2vec進(jìn)行對比。HeGCNE的參數(shù)設(shè)置如下,HeGCN層的維度分別設(shè)置為64和32,對抗學(xué)習(xí)層的維度分別設(shè)置為32和64,迭代次數(shù)設(shè)置為200,學(xué)習(xí)率為0.01,采用Adam 算法進(jìn)行模型的更新優(yōu)化。

(1)PA指標(biāo):基于節(jié)點度數(shù)作為鏈路預(yù)測的指標(biāo),其思想是連邊存在的概率與節(jié)點度數(shù)成正比,因此節(jié)點x和節(jié)點y之間連邊的存在概率與兩節(jié)點度數(shù)的乘積成正比。分別用k(x)、k(y) 表示節(jié)點x和節(jié)點y的度數(shù),則PA的相似度計算公式為Sxy=k(x)·k(y);

(2)DeepWalk:通過一系列的隨機游走生成固定長度的由節(jié)點構(gòu)成的隨機游走序列,將SkimGram算法應(yīng)用到隨機游走序列中學(xué)習(xí)節(jié)點表征。得到節(jié)點表征后,通過重建鄰接矩陣進(jìn)行鏈路預(yù)測;

(3)Hin2vec:同時學(xué)習(xí)節(jié)點和元路徑的表征,結(jié)合多個元路徑的信息,通過多任務(wù)學(xué)習(xí)生成節(jié)點的表征。得到節(jié)點表征后,通過重建鄰接矩陣進(jìn)行鏈路預(yù)測。

4.4 實驗結(jié)果與分析

在DBLP和YELP數(shù)據(jù)集上,隨機去掉20%的邊作為測試集,剩余80%的邊作為訓(xùn)練集,將HeGCNE和3種基準(zhǔn)算法進(jìn)行對比,實驗結(jié)果見表3。

表3 不同算法的鏈路預(yù)測性能對比/ %

從表3的數(shù)據(jù)可以看出,在DBLP和YELP數(shù)據(jù)集上,HeGCNE相對于3種基準(zhǔn)算法的性能均有所提升,且AUC、AP評價指標(biāo)均達(dá)到83%以上,說明本文提出方法可以有效地對異質(zhì)信息網(wǎng)絡(luò)中的鏈路進(jìn)行預(yù)測。在DBLP數(shù)據(jù)集上,HeGCNE的AUC指標(biāo)比PA、DeepWalk、Hin2vec分別提高了25.6%、16.4%、9.8%;HeGCNE的AP指標(biāo)比PA、DeepWalk、Hin2vec分別提高了17.3%、4.5%、3.8%。在YELP數(shù)據(jù)集上,HeGCNE的AUC指標(biāo)比PA、DeepWalk、Hin2vec分別提高了12.4%、5.0%、4.0%;HeGCNE的AP指標(biāo)比PA、DeepWalk、Hin2vec分別提高了9.9%、4.6%、1.4%。分析在不同數(shù)據(jù)集上4種算法的表現(xiàn),可以發(fā)現(xiàn)在YELP數(shù)據(jù)集上4種算法的表現(xiàn)整體都優(yōu)于DBLP數(shù)據(jù)集,這是因為YELP數(shù)據(jù)集的網(wǎng)絡(luò)稠密程度相對更高,所以預(yù)測的準(zhǔn)確性更高。而DBLP數(shù)據(jù)集的網(wǎng)絡(luò)極為稀疏,在這種情況下,PA算法的準(zhǔn)確性明顯降低,說明了PA算法對于不同網(wǎng)絡(luò)的預(yù)測性能并不穩(wěn)定。本文方法在稀疏的網(wǎng)絡(luò)中依然能夠取得良好的表現(xiàn),驗證了本文方法的有效性和穩(wěn)定性。

上述實驗結(jié)果表明,本文方法能夠有效提高鏈路預(yù)測的性能,而訓(xùn)練集與測試集的劃分比例、學(xué)習(xí)節(jié)點特征時的迭代次數(shù)也會對鏈路預(yù)測的結(jié)果產(chǎn)生影響,因此采用控制變量法,分別改變訓(xùn)練集的比例、迭代次數(shù)進(jìn)行實驗,并對實驗結(jié)果進(jìn)行比較,如圖5~圖8所示。

圖5 不同訓(xùn)練集比例的AP值

圖6 不同訓(xùn)練集比例的AUC值

圖7 不同迭代次數(shù)的AP值

圖8 不同迭代次數(shù)的AUC值

首先,固定訓(xùn)練次數(shù)為200次,將訓(xùn)練集的比例分別設(shè)置為10%、30%、50%、70%、90%。從圖5、圖6可以看出,在數(shù)據(jù)集YELP和DBLP上,AUC指標(biāo)和AP指標(biāo)均隨著訓(xùn)練集比例的增加而增大,且增長幅度呈逐漸減弱的趨勢。當(dāng)訓(xùn)練集的比例為70%時,在兩個數(shù)據(jù)集上都有著不錯的預(yù)測效果,AUC指標(biāo)和AP指標(biāo)都在0.8以上,在YELP數(shù)據(jù)集上,兩個指標(biāo)可以達(dá)到0.9左右。另外,當(dāng)訓(xùn)練集比例為30%時,在YELP數(shù)據(jù)集上兩個指標(biāo)接近0.8,這說明對于較為稠密的網(wǎng)絡(luò),僅已知小部分的拓?fù)湫畔ⅲ部梢赃_(dá)到良好的預(yù)測效果。

其次,固定訓(xùn)練集的比例為80%,將訓(xùn)練次數(shù)分別設(shè)置為50、100、200、500、1000次。從圖7、圖8可以看出,當(dāng)?shù)螖?shù)在200次左右時,AUC指標(biāo)和AP指標(biāo)達(dá)到較高水平,之后隨著迭代次數(shù)的增加,呈現(xiàn)持平或下降趨勢,這是因為當(dāng)模型訓(xùn)練的迭代次數(shù)過多時,會出現(xiàn)過擬合現(xiàn)象,因此迭代次數(shù)并不是越多越好,選取合適的迭代次數(shù)即可。對于本文所提方法,較少的迭代次數(shù)即可獲得不錯的預(yù)測結(jié)果。

5 結(jié)束語

本文提出了一種異質(zhì)網(wǎng)中基于圖卷積神經(jīng)網(wǎng)絡(luò)的鏈路預(yù)測方法,綜合異質(zhì)網(wǎng)絡(luò)的結(jié)構(gòu)信息和語義信息,學(xué)習(xí)不同類型節(jié)點的表征,并融合對抗學(xué)習(xí)來優(yōu)化節(jié)點表征。獲得節(jié)點表征后,通過求Hadamard積構(gòu)造連邊表征,使用基于梯度提升樹的二分類方法進(jìn)行鏈路預(yù)測。在數(shù)據(jù)集DBLP和YELP上,將本文方法與PA、DeepWalk、Hin2Vec這3種基準(zhǔn)算法進(jìn)行對比。實驗結(jié)果表明,本文方法使異質(zhì)網(wǎng)絡(luò)中鏈路預(yù)測的準(zhǔn)確性和穩(wěn)定性都有所提升。但本文方法只能同時處理具有兩種類型節(jié)點的異質(zhì)信息網(wǎng)絡(luò),在未來研究中,可以從多類型節(jié)點的輸入和并行性方面進(jìn)行改進(jìn)。

猜你喜歡
異質(zhì)信息網(wǎng)絡(luò)鏈路
家紡“全鏈路”升級
天空地一體化網(wǎng)絡(luò)多中繼鏈路自適應(yīng)調(diào)度技術(shù)
移動通信(2021年5期)2021-10-25 11:41:48
幫助信息網(wǎng)絡(luò)犯罪活動罪的教義學(xué)展開
刑法論叢(2018年2期)2018-10-10 03:32:22
非法利用信息網(wǎng)絡(luò)罪的適用邊界
法律方法(2018年3期)2018-10-10 03:21:34
網(wǎng)絡(luò)共享背景下信息網(wǎng)絡(luò)傳播權(quán)的保護(hù)
幫助信息網(wǎng)絡(luò)犯罪活動罪若干問題探究
隨機與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見光光催化性能
MoS2/ZnO異質(zhì)結(jié)的光電特性
物理實驗(2015年10期)2015-02-28 17:36:52
基于3G的VPDN技術(shù)在高速公路備份鏈路中的應(yīng)用
荔浦县| 望城县| 桂东县| 伊川县| 河北省| 莱西市| 武清区| 丹棱县| 临朐县| 秀山| 民丰县| 盘山县| 尉氏县| 察隅县| 鲜城| 四子王旗| 柘城县| 泸水县| 汶川县| 铜梁县| 沈丘县| 临汾市| 呼图壁县| 共和县| 陕西省| 远安县| 通道| 大埔县| 樟树市| 临洮县| 兰考县| 堆龙德庆县| 洪江市| 永济市| 泉州市| 上林县| 府谷县| 罗城| 峨眉山市| 丁青县| 雅安市|