基于變分推斷和元路徑分解的異質(zhì)網(wǎng)絡表示方法

2021-06-01 03:41孫海超譚洪勝

上海交通大學學報 2021年5期

袁銘，劉群，孫海超，譚洪勝

(重慶郵電大學計算機科學與技術(shù)學院，重慶 400065)

網(wǎng)絡表示學習[1-2]是網(wǎng)絡數(shù)據(jù)挖掘中的一項重要技術(shù)，能夠?qū)⒕W(wǎng)絡中的每個節(jié)點用一個向量表示出來，從而把網(wǎng)絡結(jié)構(gòu)映射到一個由節(jié)點向量組成的低維空間，為基于網(wǎng)絡拓撲的鏈路預測、節(jié)點分類、聚類等任務提供數(shù)據(jù)結(jié)構(gòu)的支撐.在實際應用中，不同的復雜信息網(wǎng)絡通常都具有異質(zhì)性，其表現(xiàn)為在同一個網(wǎng)絡中包含多種不同類型的節(jié)點和多種不同類型的鏈接關系，這種網(wǎng)絡也被稱為異質(zhì)網(wǎng)絡.與同質(zhì)網(wǎng)絡相比，這類網(wǎng)絡通常具有豐富的交互關系.其中，不同類型的節(jié)點和鏈接都隱含了極其豐富的語義和結(jié)構(gòu)信息，如智能電網(wǎng)、生物蛋白質(zhì)網(wǎng)絡、社交網(wǎng)絡等.

近年來，同質(zhì)網(wǎng)絡表示學習已經(jīng)取得了豐富的成果.Deepwalk算法[3]利用隨機游走首次將網(wǎng)絡結(jié)構(gòu)建模為語料序列，結(jié)合Skip-Gram模型得到節(jié)點的低維表示，為網(wǎng)絡分析任務提供了新的思路.隨后，更多的同質(zhì)網(wǎng)絡表示算法被提出[4-6]，如Node2vec算法和LINE算法，采用不同的隨機游走設計，結(jié)合Skip-Gram模型學習更為準確的節(jié)點向量表示.但以上方法將不同類型的節(jié)點和鏈接都視為相同類型來建模，不具備針對異質(zhì)網(wǎng)絡的有效設計.顯然，如果忽略網(wǎng)絡的異質(zhì)性問題，容易導致各種網(wǎng)絡分析任務的準確性有所降低.只有表征出網(wǎng)絡中不同類型節(jié)點及鏈接的獨有特征，才能捕獲網(wǎng)絡中豐富的語義，因此對異質(zhì)網(wǎng)絡表示學習的研究具有重要意義.

由于異質(zhì)網(wǎng)絡中節(jié)點和鏈接的復雜性，傳統(tǒng)的同質(zhì)網(wǎng)絡表示方法難以直接應用于異質(zhì)網(wǎng)絡表示學習中.近年來，國內(nèi)外許多研究者進行的一些相關研究，可以概括為以下3類.① 基于淺層網(wǎng)絡的方法，這類方法通過隨機游走捕獲網(wǎng)絡結(jié)構(gòu)，結(jié)合淺層模型學習節(jié)點向量的表示.文獻[7]中提出了HIN2vec算法，通過聯(lián)合執(zhí)行多個預測訓練任務來預測兩個節(jié)點之間的關系，并將預測任務轉(zhuǎn)化為二分類問題，利用兩層神經(jīng)網(wǎng)絡學習異質(zhì)網(wǎng)絡中節(jié)點和元路徑的表示.文獻[8]中提出了Metapath2vec算法，利用基于元路徑的隨機游走構(gòu)建節(jié)點的異質(zhì)鄰居，擴展了Skip-Gram模型，從而為結(jié)構(gòu)和語義上相近的節(jié)點建模.文獻[9-10]中針對異質(zhì)文本網(wǎng)絡和跨網(wǎng)絡場景學習節(jié)點的表示，采用網(wǎng)絡分解來簡化異質(zhì)網(wǎng)絡的表示建模.② 基于深度網(wǎng)絡的方法，這類方法采用不同深度學習的方法獲得網(wǎng)絡中高度非線性的特征.文獻[11-13]中嘗試將卷積神經(jīng)網(wǎng)絡、自動編碼器、強化學習等方法用于異質(zhì)網(wǎng)絡中節(jié)點的表示學習.隨著圖神經(jīng)網(wǎng)絡在網(wǎng)絡分析任務中表現(xiàn)出優(yōu)異的性能，一些研究者將其擴展到了異質(zhì)網(wǎng)絡的分析中[14-15]，針對異質(zhì)網(wǎng)絡中不同類型節(jié)點和鏈接的特點，改進圖神經(jīng)網(wǎng)絡消息傳遞方式，聚合不同類型鄰居生成節(jié)點的向量表示.③ 基于屬性異質(zhì)網(wǎng)絡的方法，這類方法嘗試利用年齡、性別、地理位置等額外的節(jié)點信息，研究更為復雜的異質(zhì)網(wǎng)絡場景.文獻[16-17]中針對金融現(xiàn)金檢測和用戶購物場景，利用線性變換將額外的屬性信息映射到低維空間，并通過設計分層的異質(zhì)網(wǎng)絡表示架構(gòu)，較好地進行了融合，學習到更加豐富的節(jié)點表示.

盡管將上述各種表示方法應用于不同網(wǎng)絡任務中都獲得了較好的效果，但是仍然存在以下兩個問題.首先，節(jié)點間關系的表示都是基于鄰居節(jié)點的相似性計算獲得的，無法反映無直接邊的節(jié)點間的相似關系；其次，整個網(wǎng)絡拓撲結(jié)構(gòu)的表示過程采用的均為基于元路徑的隨機游走策略，忽略了相鄰節(jié)點間的真實關系.顯然在實際網(wǎng)絡中，不存在直接連邊的節(jié)點仍然有可能具有較高的相似性，而簡單的基于固定概率隨機選擇生成的節(jié)點序列，并不能保證生成高度緊密相似的節(jié)點序列.為此，本文提出了基于變分推斷和元路徑分解的異質(zhì)網(wǎng)絡表示方法HetVAE，主要貢獻如下：

(1) 引入路徑相似度度量，通過不同語義下的異質(zhì)路徑實例計算出同類型節(jié)點的相似度，并在相似度的引導下設計不同類型節(jié)點的選取概率，改進了基于元路徑隨機游走的節(jié)點選擇策略，使得生成的節(jié)點序列更準確.

(2) 引入變分推斷理論，通過變分Bayesian推斷優(yōu)化真實先驗分布與后驗分布之間的誤差，同時近似推導出潛在變量，從而學習到更符合真實網(wǎng)絡分布的節(jié)點向量，使得異質(zhì)網(wǎng)絡中的節(jié)點向量表示更具穩(wěn)健性.

(3) 引入元路徑思想將異質(zhì)網(wǎng)絡拆分為多個同質(zhì)子網(wǎng)絡，以便獲取原始網(wǎng)絡不同視角下的豐富語義信息，進而結(jié)合注意力機制，通過網(wǎng)絡重建和將拆分后各個加權(quán)子網(wǎng)絡的節(jié)點向量進行融合.

本文通過相似度改進的節(jié)點選擇策略，較好地解決了異質(zhì)網(wǎng)絡中傳統(tǒng)元路徑隨機游走不精確的問題；利用變分推斷捕獲網(wǎng)絡的真實分布，改進了傳統(tǒng)異質(zhì)網(wǎng)絡表示模型不能觀測潛在變量的缺陷；結(jié)合注意力機制，自動融合不同視角下的語義信息.在多個數(shù)據(jù)集上的不同網(wǎng)絡任務的實驗結(jié)果表明，所提方法能夠獲得更好的結(jié)果.

1 預備知識

首先，給出后續(xù)使用的基本定義和概念.其中，關于異質(zhì)網(wǎng)絡以及元路徑的概念可以參考文獻 [18-19].

一個典型的異質(zhì)網(wǎng)絡DBLP學術(shù)網(wǎng)絡如圖1所示.該網(wǎng)絡中4種不同類型的節(jié)點，作者(A)、論文(Pa)、會議(C)、關鍵詞(T) 如圖1(a)所示；網(wǎng)絡中3種不同類型的邊關系，包含論文和作者、論文和會議、論文和關鍵詞如圖1(c)所示.這3種類型的邊關系分別涵蓋了3條元路徑，每一條元路徑代表一種語義，元路徑APaA代表兩位作者的合著關系，元路徑APaCPaA代表兩位作者的文章發(fā)表在同一期刊/會議上，元路徑APaTPaA代表兩位作者的文章具有相同關鍵詞.

圖1 DBLP異質(zhì)網(wǎng)絡示例Fig.1 An example of a DBLP heterogeneous network

元路徑引導下的鄰居節(jié)點：在異質(zhì)網(wǎng)絡中給定一條元路徑P，對于任意節(jié)點vi，元路徑P引導下的鄰居節(jié)點定義為節(jié)點vi通過元路徑P到達的所有節(jié)點，記為NP(vi)，定義中的鄰居節(jié)點也包含vi本身.由圖1(c)可知，對于節(jié)點A1，在元路徑APaA下的鄰居節(jié)點是A2.

2 基于變分推斷的異質(zhì)網(wǎng)絡表示模型

圖2 HetVAE的整體框架Fig.2 Overall frame work of HetVAE

2.1 拆分異質(zhì)網(wǎng)絡

2.1.1改進的隨機游走策略在異質(zhì)網(wǎng)絡中元路徑用于定義不同類型節(jié)點之間的關系.由于元路徑約束下的隨機游走能夠探索異質(zhì)網(wǎng)絡的復雜完整結(jié)構(gòu)，捕獲網(wǎng)絡的全局語義信息，所以基于元路徑的隨機游走成為異質(zhì)網(wǎng)絡挖掘中的一種通用方法.然而，傳統(tǒng)的元路徑隨機游走由于游走過程隨機性較強，無法體現(xiàn)節(jié)點間的相似關系，導致不能精確地表示網(wǎng)絡結(jié)構(gòu).目前，在異質(zhì)網(wǎng)絡表示的節(jié)點相似性計算中，大多數(shù)計算公式都是基于同質(zhì)網(wǎng)絡而設計的，如路徑總數(shù)相似度、游走相似度、成對游走相似度等計算方法，更傾向于使高度可見(即與大量路徑有關聯(lián)的對象)或者高度集中的對象(即占一組關聯(lián)路徑中很大比例的對象)獲得更高的相似度[19].這一類相似度度量方法沒有考慮路徑背后的不同語義，忽略了對象和鏈接之間的異質(zhì)性，使得相似性計算方法缺乏合理性.

為了解決這一問題，本模型引入PathSim算法[19]來度量異質(zhì)網(wǎng)絡下元路徑上節(jié)點的相似性.這種節(jié)點相似性度量方法能夠通過考慮異質(zhì)網(wǎng)絡中的鏈接關系類型，識別出元路徑下語義更為一致的相似節(jié)點.改進后的元路徑隨機游走節(jié)點選擇策略，使得生成的節(jié)點序列能夠在有限步驟的隨機游走過程中捕獲網(wǎng)絡中的語義信息，提高生成的節(jié)點序列的質(zhì)量.

sim(v,y)=

(1)

在獲得對應于不同元路徑的同質(zhì)網(wǎng)絡過程中，為了更準確地選擇元路徑引導中的不同類型節(jié)點，本模型分成兩種情況進行處理.

(1) 當后繼鄰居節(jié)點類型與元路徑起始節(jié)點類型一致時，則計算出該后繼節(jié)點與其前驅(qū)節(jié)點的sim(v,y)值，相似度值越大的節(jié)點具有更大的選擇概率.對鄰居節(jié)點的選擇概率公式為

(2)

(2) 對于不同于元路徑起始節(jié)點類型的鄰居節(jié)點，由于其主要作用是構(gòu)成語義約束，所以對這類鄰居節(jié)點的選擇概率可以相同，其計算公式如下：

(3)

節(jié)點選擇策略如圖3所示，其中虛線表示根據(jù)式(3)的選擇概率選擇下一跳節(jié)點.以A1節(jié)點為例，下一跳節(jié)點包含Pa1、Pa2兩個節(jié)點，其類型與A1節(jié)點不同，因此選擇的概率相同.實線表示從Pa類型根據(jù)式(2)的選擇概率選擇下一跳節(jié)點，以Pa2節(jié)點為例，下一跳節(jié)點包含A2、A3兩個節(jié)點，其類型與初始節(jié)點A1相同，則應計算元路徑APaA下的PathSim相似度，并根據(jù)式(2)的選擇概率選擇節(jié)點，根據(jù)選擇概率計算可知A2被選擇的可能性比A3更大，這是由于在APaA元路徑下，從A1節(jié)點出發(fā)到A2節(jié)點具有更多的可達路徑.

圖3 節(jié)點選擇策略示例Fig.3 Example of a node selection strategy

2.1.2重建同質(zhì)網(wǎng)絡通過在元路徑隨機游走過程中保留元路徑P1,P2,…,Pi引導下的同類型鄰居節(jié)點，異質(zhì)網(wǎng)絡能轉(zhuǎn)化為多組同質(zhì)節(jié)點序列H1,H2,…,Hi.為了能夠捕獲網(wǎng)絡中反映每個節(jié)點的特征向量，本模型將上述節(jié)點序列重構(gòu)為同質(zhì)網(wǎng)絡.

圖4 DBLP中重構(gòu)同質(zhì)網(wǎng)絡矩陣說明Fig.4 Reconstruction of homogeneous network matrix in DBLP

2.2 變分自編碼器生成節(jié)點向量

DKL(qφ(z(i)|x(i))‖pθ(z(i)|x(i)))=

lnpθ(x(i))-Eqφ(z(i)|x(i))[lnpθ(x(i)|z(i))-

lnqφ(z(i)|x(i))]

(4)

式中：Eqφ(z(i)|x(i))為識別模型的期望.其從后驗分布中采樣的潛在變量z(i)可以表示為

z(i)=μ(i)+σ(i)⊙ε(i)

(5)

式中：⊙表示逐元素乘法.最終獲得原始網(wǎng)絡分布中每一個數(shù)據(jù)x(i)的損失函數(shù)近似估計結(jié)果為

Γ(θ,φ;x)?

(6)

式中：第1項為近似后驗分布和先驗分布的KL散度；第2項為重建誤差對后驗分布的期望.

為了獲得原始異質(zhì)網(wǎng)絡中節(jié)點的向量表示，HetVAE將生成的多個同質(zhì)網(wǎng)絡矩陣作為變分自編碼器的輸入.在本文中，輸入數(shù)據(jù)和生成數(shù)據(jù)均為節(jié)點對象.通過訓練，利用變分推斷理論對隱空間中的節(jié)點數(shù)據(jù)分布進行采樣，生成各個同質(zhì)網(wǎng)絡中所有節(jié)點的向量表示.模型的編碼器和解碼器均為多層感知機(MLP).

(7)

對于輸入的xk其對應的隱空間表示zk由下式計算可得：

(8)

(9)

(10)

(11)

(12)

c=2,3,…,C

(13)

式中：μd、σd分別為μk、σk的第d維的均值和方差分量，即μk=[μ1μ2…μD]和σk=[σ1σ2…σD]兩個向量.為了加速收斂速度，將編碼器原本的均值輸出σ轉(zhuǎn)化為上式中的ln(σ2)，記為δ=ln(σ2).通過計算σ=eδ/2可以得到原本的均值σ，這使得編碼器可以更容易獲得不同比例的均值σ.經(jīng)過簡化之后的KL散度損失函數(shù)可以表示為

(14)

對應的隱變量z的式(12)則重寫為

(17)

(18)

(19)

c=2,3,…,C-1

由于所獲得的同質(zhì)網(wǎng)絡鄰接矩陣是典型的稀疏矩陣，即在鄰接矩陣G(i)中零元素遠遠多于非零元素.如果直接對G(i)最小化重建誤差，網(wǎng)絡將更容易重建零元素，而不是更有意義的非零元素.因此，HetVAE對非零元素加入了更多的懲罰，使模型能夠優(yōu)先重建非零元素，修正后的重建誤差損失函數(shù)如下：

(20)

模型訓練的損失函數(shù)由式(7)變換如下：

Γvae=Γrec+ΓKL+Γreg=

(21)

2.3 多視角信息的融合

顯然，只有將多視角下的同質(zhì)網(wǎng)絡表示向量進行融合才能獲得原始異質(zhì)網(wǎng)絡中節(jié)點的最終向量表示.由于拆分后的子網(wǎng)絡描述了不同語義，進行向量融合的一種合理的方式就是利用注意力機制[21].常見的注意力機制包括自注意力和多頭注意力等.自注意力機制減少了對外部信息的依賴，擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關性.多頭注意力機制通過利用多個注意力頭來學習注意力權(quán)重，擅長捕捉不同空間的關聯(lián)關系.考慮到不同視角下節(jié)點對不同語義的關注程度，自注意力機制并不適合于求解不同視角的關注，同時多頭注意力機制由于需要計算多次權(quán)重，會嚴重影響模型的訓練速度.因此，本文模型結(jié)合多層感知器實現(xiàn)注意力機制，將不同子網(wǎng)絡的節(jié)點向量進行融合.

(22)

(23)

(24)

(25)

(26)

2.4 模型算法描述

綜上所述，HetVAE的核心思想如下所示：

算法1HetVAE算法模型.

輸入異質(zhì)網(wǎng)絡G(V,E)

元路徑集合{P1,P2,…,Pi}

懲罰因子B

輸出節(jié)點的最終表示Z

(1) forPi∈{P1,P2,…,Pi}do

/*拆分異質(zhì)網(wǎng)絡*/

(2) for eachvi∈Vdo

(3)v←startvi

(4) if type(v) is equal to type (y) then

(5) calculate sim(v,y), select a node by Eq.2

/*選取同類型節(jié)點*/

(6) else

(7) select a node by Eq.3

/*選取不同類型節(jié)點*/

(8) obtain homogeneous node sequencesHi

/*獲得同質(zhì)節(jié)點序列*/

(9) end if

(10) reconstructing a homogeneous network

/*重構(gòu)同質(zhì)網(wǎng)絡*/

(11) end for

(12) end for

(13) forG(i)∈{G(1),G(2),…,G(i)} do

(14) initialized parametersW(i),b(i),B

(15) repeat

(16) minimizeΓvae=Γrec+ΓKL+Γreg

(17) until converge

(18) extract the hidden layer to get the

node representationz(i)/*獲取隱層表示*/

(19) end for

(20) for eachvi∈Vdo

(22) end for

(23) returnZ(vi)

3 實驗與結(jié)果

為了驗證HetVAE模型的有效性，在3個真實數(shù)據(jù)集DBLP、AMiner、Yelp上使用微觀F1值(Micro-F1)、宏觀F1值(Macro-F1)、標準化互信息(NMI)和調(diào)整蘭德系數(shù)(ARI)評價指標，針對3種典型的異質(zhì)網(wǎng)絡挖掘任務：節(jié)點分類、節(jié)點聚類、可視化進行了實驗評估.

3.1 數(shù)據(jù)集

實驗使用的3個被廣泛研究的公開數(shù)據(jù)集:DBLP[14]、AMiner[8]、Yelp (https://www.yelp.com/dataset/)，其詳細描述如表1所示.其中：Bu為企業(yè)；S為服務；St為星級；U為用戶.

(1) DBLP數(shù)據(jù)集：包含論文、作者、會議/期刊、關鍵詞4類節(jié)點，并按照作者的研究領域劃分為4個類別，包含數(shù)據(jù)庫、數(shù)據(jù)挖掘、人工智能、信息檢索，以此作為標簽.模型使用元路徑集合{APaA，APaCPaA，APaTPaA}進行實驗.

(2) AMiner數(shù)據(jù)集：實驗抽取了AMiner的一個子集，包含論文、作者、會議/期刊3類節(jié)點，同樣按照作者的研究領域進行劃分，得到8個類別，包含計算機語言學、計算機圖形學、計算機網(wǎng)絡和無線通信、計算機視覺和模式識別、計算機系統(tǒng)、數(shù)據(jù)庫和信息系統(tǒng)、人機交互、理論計算機科學，以此作為標簽.模型使用元路徑集合{APaA，APaCPaA}進行實驗.

(3) Yelp數(shù)據(jù)集：包含企業(yè)、用戶、星級、服務4類節(jié)點，按照企業(yè)的類型進行劃分，得到3個類別，包含酒店、購物、食品，以此作為標簽.模型使用元路徑集合{BuSBu，BuStBu，BuUBu}進行實驗.

表1 數(shù)據(jù)集描述Tab.1 Dataset description

3.2 對比算法

實驗選取了一些較新的先進方法進行了比較，包含2個同質(zhì)網(wǎng)絡方法和4個異質(zhì)網(wǎng)絡方法，用以驗證本文算法的有效性.對于同質(zhì)網(wǎng)絡算法，在實驗中忽略節(jié)點的異質(zhì)性，將算法應用在整個異質(zhì)圖中.對于異質(zhì)網(wǎng)絡算法，在實驗中測試了所有元路徑.對比算法給出的均為最優(yōu)結(jié)果.

(1) Deepwalk[3]：采用隨機游走捕獲網(wǎng)絡結(jié)構(gòu)，利用Skip-Gram模型學習節(jié)點的表示.

(2) Node2vec[4]：通過調(diào)整隨機游走的深度和廣度獲得網(wǎng)絡結(jié)構(gòu)，利用帶負采樣的Skip-Gram模型學習節(jié)點表示.

(3) HIN2vec[7]：以元路徑形式指定的一組關系聯(lián)合執(zhí)行多個預測訓練任務，學習異質(zhì)網(wǎng)絡中節(jié)點和元路徑的表示.

(4) Metapath2vec[8]：利用元路徑隨機游走構(gòu)建節(jié)點的異質(zhì)鄰居，并采用異質(zhì)的Skip-Gram模型最大化異質(zhì)上下文概率.

(5) HERec[22]：設計了一種類型約束策略來過濾節(jié)點序列，并采用Skip-Gram模型來對網(wǎng)絡進行嵌入.

(6) HAN[14]：設計了異質(zhì)圖下的節(jié)點級注意力和語義級注意力，并采用圖神經(jīng)網(wǎng)絡對基于元路徑的鄰居特征進行分層聚合生成節(jié)點向量.

(7) HetVAErw：未使用改進的隨機游走選擇策略，采用普通元路徑隨機游走算法的模型.

(8) HetVAEsk：未使用VAE生成節(jié)點向量，采用Skip-Gram算法對網(wǎng)絡進行訓練的模型.

(9) HetVAEcon：未使用個性化元路徑注意力機制，采用拼接的方式融合最終向量的模型.

(10) HetVAE：本文所提出的完整模型.

3.3 參數(shù)設置

本模型的所有實驗均在Intel(R) Core(TM) i5-7300HQ(2.5 GHz) CPU，NVIDIA GTX1060(6G) GPU，16 GB內(nèi)存的硬件環(huán)境下完成訓練，所涉及的代碼使用Python和Tensorflow框架實現(xiàn).

為了進行公平對比，實驗中將所有算法最終生成的節(jié)點向量維數(shù)設置D=128，對于需要隨機游走的算法，設置每個節(jié)點的步數(shù)為10，隨機游走長度為80.對于Deepwalk、Metapath2vec、HERec，選取了各自文獻中給出的窗口大小參數(shù)為5.對于Node2vec其窗口大小參數(shù)為5，廣度優(yōu)先參數(shù)為4，深度優(yōu)先參數(shù)為1，負采樣比率為5.對于HIN2vec，設置窗口大小參數(shù)為4.對于HAN，其正則化參數(shù)為0.001，注意力頭個數(shù)為8，注意力向量維度為128，實驗采用了其論文中相同的處理方法，對節(jié)點特征進行提取.在DBLP、AMiner數(shù)據(jù)集中，節(jié)點特征為作者論文關鍵詞的詞袋表示；在Yelp數(shù)據(jù)集中，節(jié)點特征為企業(yè)星級類別的詞袋表示.對比實驗參數(shù)設置均與其文獻推薦的最優(yōu)參數(shù)一致.在實驗中，對于DBLP數(shù)據(jù)集而言，網(wǎng)絡結(jié)構(gòu)為14475-1000-128-1000-14475，每一個數(shù)字代表網(wǎng)絡每一層的神經(jīng)元個數(shù)，學習率設置為 0.000 1，懲罰項B設置為2，批處理大小為32.對于AMiner數(shù)據(jù)集而言，網(wǎng)絡結(jié)構(gòu)為16543-2000-128-2000-16543，學習率設置為 0.000 35，懲罰項B設置為150，批處理大小為128.對于Yelp數(shù)據(jù)集而言，網(wǎng)絡結(jié)構(gòu)為2614-1000-128-1000-2614，學習率設置為 0.000 1，懲罰項B設置為64，批處理大小為128.

3.4 節(jié)點分類

對于節(jié)點分類任務，將模型學習到的節(jié)點向量作為特征向量，和文獻[13]相同，采用K=5的K近鄰(KNN)分類器進行分類，使用Micro-F1和Macro-F1作為分類結(jié)果評估指標.為了使結(jié)果具有可靠性，采用重復10次的結(jié)果平均值，并將數(shù)據(jù)集的訓練集按照30%、50%、70%、90%的比例選取，同時打亂數(shù)據(jù)順序，以比較不同訓練尺度下的分類效果.

節(jié)點分類任務實驗結(jié)果如圖5所示，其中：Fmi為Micro-F1；Fma為Macro-F1；R為標簽節(jié)點的比例.從圖5中可以看出，HetVAE具有最優(yōu)性能.值得注意的是，AMiner網(wǎng)絡中各類方法表現(xiàn)得非常接近(見圖5(c)和(d))，其他的異質(zhì)網(wǎng)絡方法均沒有超過同質(zhì)網(wǎng)絡方法.由表1可知，這是因為AMiner網(wǎng)絡的平均度更小，網(wǎng)絡中節(jié)點更為稀疏，從而導致各種方法難以訓練，結(jié)果不具有顯著差異.得益于對稀疏矩陣的特殊處理，所提方法仍然有不錯的表現(xiàn).盡管DBLP和AMiner這兩個網(wǎng)絡都是文獻網(wǎng)絡，但是相較于AMiner，DBLP增加了關鍵詞這類節(jié)點，各種類型節(jié)點的平均度更大.依靠論文之間相同的關鍵詞，論文類型節(jié)點能夠與更具相關性的文章進行相連.在與網(wǎng)絡中其他類型節(jié)點組合的過程中，能夠產(chǎn)生出語義準確豐富的元路徑.通過對比這兩個真實異質(zhì)網(wǎng)絡的實驗結(jié)果，能夠發(fā)現(xiàn)對于語義信息越豐富的網(wǎng)絡DBLP，HetVAE效果更好.在不同于文獻網(wǎng)絡的Yelp網(wǎng)絡中，邊關系主要集中在企業(yè)和用戶之間，其網(wǎng)絡平均度相較于DBLP和AMiner網(wǎng)絡更大，節(jié)點鄰居數(shù)目更多，更難精確地獲得有意義的網(wǎng)絡結(jié)構(gòu)，但所提方法仍然取得了最優(yōu)結(jié)果，說明了HetVAE具有較好的可拓展性.

圖5 節(jié)點分類任務實驗結(jié)果Fig.5 Experimental results of node classification tasks

為了驗證不同模塊的有效性，設計了一組消融實驗(見圖5).從圖5中可以看出，相對于HetVAE，HetVAErw的性能在DBLP、AMiner網(wǎng)絡中出現(xiàn)小幅度下降，在Yelp網(wǎng)絡中性能下降幅度較大，這說明改進的隨機游走策略在節(jié)點平均度越大的網(wǎng)絡中影響越大.同時網(wǎng)絡中節(jié)點平均度越大，找到有意義的節(jié)點越困難.當網(wǎng)絡的平均度較小時，隨機游走可以選擇的下一跳節(jié)點數(shù)量有限，在游走一定次數(shù)之后，普通隨機游走算法同樣能夠選擇到可能相似的節(jié)點.實驗結(jié)果證明了本文對隨機游走的節(jié)點選擇策略改進的有效性.

由圖5(e)和(f)可見，在Yelp網(wǎng)絡中，Metapath2vec和HERec算法由于僅能使用單條元路徑，其效果相比于同質(zhì)網(wǎng)絡表示算法表現(xiàn)較差，說明普通的元路徑隨機游走算法在邊關系具有高度偏向性的網(wǎng)絡中具有缺陷.而利用多條元路徑的算法HIN2vec、HAN、HetVAE，由于對多視角信息的有效利用，能夠?qū)W習到更為豐富的節(jié)點表示.對于僅采用簡單拼接方式融合節(jié)點向量的方法HetVAEcon，其性能表現(xiàn)比HetVAE差.這說明個性化元路徑注意力機制能夠更好地為每個節(jié)點融合多視角信息，同時避免非重要信息帶來的噪聲影響，對學習不同語義的關注程度具有重要作用.

3.5 節(jié)點聚類

對于節(jié)點聚類任務，同樣將模型學習到的節(jié)點向量作為特征向量，和文獻[13]相同，采用K均值(K-Means)進行節(jié)點聚類，其中K值的設置隨數(shù)據(jù)集不同而不同.在DBLP實驗中K=4，在AMiner實驗中K=8，在Yelp實驗中K=3.同時使用NMI和ARI作為聚類質(zhì)量的評價指標.實驗中均對聚類過程重復10次，取平均結(jié)果作為最終結(jié)果.

節(jié)點聚類任務的定量結(jié)果如表2所示，其中加粗的數(shù)值代表每列對比算法的最高值.由表2可以知道，HetVAE均優(yōu)于所有對比方法，且大部分異質(zhì)網(wǎng)絡方法都比同質(zhì)網(wǎng)絡方法表現(xiàn)得更好.其中，HIN2vec和HAN在部分數(shù)據(jù)集中的聚類效果較差，這是因為鏈路預測任務的準確性與網(wǎng)絡整個拓撲結(jié)構(gòu)描述的全面性密切相關，而節(jié)點分類任務的準確性與能否有效捕獲局部的節(jié)點相似性有較大的關系.未使用變分推斷的HetVAEsk方法在節(jié)點的聚類任務中表現(xiàn)不如HetVAE，這說明考慮隱空間下的數(shù)據(jù)分布采樣，能夠有效地捕獲節(jié)點的相似性特征.

表2 節(jié)點聚類任務的定量結(jié)果Tab.2 Quantitative results of node clustering tasks

3.6 可視化

為了直觀地觀察模型學習到的節(jié)點序列向量的質(zhì)量，采用向量的降維可視化方式，使用t-SNE方法將在DBLP網(wǎng)絡中學習到的所有作者的128維節(jié)點向量表示映射到2維空間中，不同的顏色代表其所屬的研究領域，在DBLP中作者的研究領域被劃分為4個不同類別，以不同顏色區(qū)分.在DBLP網(wǎng)絡中的向量可視化結(jié)果如圖6所示.其中：X為2維空間橫坐標；Y為2維空間縱坐標.

圖6 在DBLP網(wǎng)絡中的向量可視化結(jié)果Fig.6 Vector visualization results in DBLP network

由圖6可見，相比于其他方法，HetVAE能夠使得相同顏色的節(jié)點很好地聚集在一起，具有更高的區(qū)分度.

3.7 參數(shù)靈敏度

圖7 在Yelp網(wǎng)絡中的參數(shù)靈敏度實驗結(jié)果Fig.7 Results of parametric sensitivity experiments on Yelp network

為了測試參數(shù)對模型的影響，對Yelp網(wǎng)絡數(shù)據(jù)集進行了節(jié)點聚類任務的參數(shù)靈敏度實驗，測試參數(shù)包括懲罰因子B和向量表示維度D，實驗結(jié)果如圖7所示，其中I為NMI分數(shù).由圖7可知，對于B因子，當B為16和32時，NMI分數(shù)比較平均；當B為64時，NMI分數(shù)達到峰值，此時聚類的效果最好；當B取值超過64時，NMI分數(shù)隨著懲罰因子B的增大而下降.由此可以看出，對非零元素過大的懲罰會為模型優(yōu)化帶來困難，適中的懲罰讓模型更容易學習更高質(zhì)量的表示.對于向量維數(shù)D，當D的取值在32～128之間的時候，NMI分數(shù)持續(xù)上升；當D為128維時，NMI分數(shù)達到峰值；而當維數(shù)翻倍增加到256和512時，NMI分數(shù)逐步出現(xiàn)下滑.這表明更大的維度能夠編碼更多的信息，但同時可能造成冗余信息導致性能下降，節(jié)點向量需要一個合適的維度來編碼語義信息.對DBLP、Aminer網(wǎng)絡數(shù)據(jù)集的參數(shù)測試情況類似，這里不再贅述.

4 結(jié)語

本文針對異質(zhì)網(wǎng)絡提出了基于變分推斷和元路徑分解的異質(zhì)網(wǎng)絡表示方法HetVAE.通過對異質(zhì)網(wǎng)絡進行多條元路徑的拆分，改進傳統(tǒng)元路徑隨機游走的節(jié)點選擇策略，較好地捕捉了不同視角下的子網(wǎng)絡結(jié)構(gòu).進一步利用變分推斷，對潛在空間中的變量采樣，優(yōu)化真實先驗分布與后驗分布之間的誤差，為多視角下的子網(wǎng)絡拓撲結(jié)構(gòu)進行概率建模，獲得高質(zhì)量的節(jié)點向量表示.最后采用個性化元路徑注意力機制，對節(jié)點向量表示進行融合，保留了原網(wǎng)絡的豐富語義和更真實的拓撲結(jié)構(gòu).實驗結(jié)果表明，HetVAE能夠有效地提高節(jié)點表示的質(zhì)量，在不同的網(wǎng)絡任務中具有更好的準確性和有效性.在未來的工作中，將針對社交網(wǎng)絡應用，研究適合于推薦算法的異質(zhì)網(wǎng)絡表示方法，使得網(wǎng)絡表示更符合真實應用場景，并探索網(wǎng)絡表示的可解釋模型.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡