東坤杰 周麗華 朱月英 杜國王 黃 通
1(云南大學(xué)信息學(xué)院 昆明 650504)2(大連理工大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院 遼寧大連 116086)(kunjiedong@qq.com)
網(wǎng)絡(luò)是一種普遍存在的、可以描述復(fù)雜系統(tǒng)中鏈接關(guān)系的數(shù)據(jù)結(jié)構(gòu),廣泛應(yīng)用于計算機(jī)科學(xué)、生物信息學(xué)、社會科學(xué)等相關(guān)領(lǐng)域.網(wǎng)絡(luò)分析是指利用數(shù)據(jù)挖掘技術(shù)從原始網(wǎng)絡(luò)分析和挖掘網(wǎng)絡(luò)的本質(zhì)特征,發(fā)現(xiàn)和理解事物間的內(nèi)在聯(lián)系.高效的網(wǎng)絡(luò)分析方法不僅可以創(chuàng)造巨大的商業(yè)價值,而且對社會穩(wěn)固、經(jīng)濟(jì)發(fā)展和健康醫(yī)療等具有深遠(yuǎn)的積極影響.因此,網(wǎng)絡(luò)分析引起了工業(yè)界和科研工作者的關(guān)注和研究.
節(jié)點(diǎn)依附有屬性信息的網(wǎng)絡(luò)稱為屬性網(wǎng)絡(luò)[1].傳統(tǒng)的網(wǎng)絡(luò)分析方法通常只關(guān)注網(wǎng)絡(luò)中節(jié)點(diǎn)間的鏈接關(guān)系,忽略了節(jié)點(diǎn)本身的個性化屬性信息.個性化屬性信息揭示了物以類聚的同質(zhì)性效應(yīng)[2],如具有相同主題、關(guān)鍵字等屬性的論文相似性較高,論文間容易出現(xiàn)引用關(guān)系.節(jié)點(diǎn)屬性從微觀視角描述節(jié)點(diǎn)的個性化信息,網(wǎng)絡(luò)拓?fù)鋸暮暧^角度描述節(jié)點(diǎn)間的鏈接關(guān)系.盡管2種信息異質(zhì),但是由于它們描述的是同一對象,因此這2種信息之間存在一致性和互補(bǔ)性關(guān)系.如何高效地融合2種異質(zhì)性信息是影響網(wǎng)絡(luò)分析任務(wù)性能的一個關(guān)鍵問題.
目前的網(wǎng)絡(luò)分析研究大多建立在同質(zhì)屬性網(wǎng)絡(luò)(homogeneous attribute network, HoAN)上,即網(wǎng)絡(luò)中所有節(jié)點(diǎn)的類型相同,鏈接關(guān)系的類型也相同.然而,現(xiàn)實(shí)世界中的屬性網(wǎng)絡(luò)通常是異質(zhì)的,即網(wǎng)絡(luò)中包含多種類型的節(jié)點(diǎn)和(或)多種類型的鏈接關(guān)系.如圖1所示,網(wǎng)絡(luò)中包含4種節(jié)點(diǎn)類型(作者(A)、論文(P)、主題(T)和會議(C))以及10種關(guān)系類型(撰寫/被撰寫(A-P)、發(fā)表/被發(fā)表(P-C)、包含/被包含(P-T)、屬于/被屬于(T-C)和引用/被引用(P-P)).相比同質(zhì)屬性網(wǎng)絡(luò),異質(zhì)屬性網(wǎng)絡(luò)(heterogeneous attribute network, HeAN)具有多樣化的節(jié)點(diǎn)類型、復(fù)雜的網(wǎng)絡(luò)關(guān)系和更豐富的語義信息[3].在圖1中,作者間的合著關(guān)系(author-paper-author, A-P-A)、不同作者發(fā)表了相同研究主題論文的關(guān)系(author-paper-theme-paper-author, A-P-T-P-A)及不同作者在相同會議上發(fā)表論文的關(guān)系(author-paper-conference-paper-author, A-P-C-P-A)等共同描述了網(wǎng)絡(luò)中豐富多樣的語義信息.異質(zhì)屬性網(wǎng)絡(luò)中多種類型的節(jié)點(diǎn)和鏈接關(guān)系給網(wǎng)絡(luò)分析任務(wù)提供豐富語義的同時也帶來了新的挑戰(zhàn).
Fig. 1 The citation network among papers圖1 文獻(xiàn)引用網(wǎng)絡(luò)
異質(zhì)屬性網(wǎng)絡(luò)嵌入(heterogeneous attribute network embedding, HeANE)就是將網(wǎng)絡(luò)中多種類型的節(jié)點(diǎn)和(或)多種類型的鏈接關(guān)系映射到低維、緊湊的空間,同時保護(hù)原始異質(zhì)屬性網(wǎng)絡(luò)中節(jié)點(diǎn)的屬性特征和不同類型對象之間的異質(zhì)鏈接承載的復(fù)雜、多樣且豐富的語義信息[4].嵌入學(xué)習(xí)獲得的低維表示不僅有利于機(jī)器學(xué)習(xí)算法的應(yīng)用,而且有助于解決數(shù)據(jù)存儲和高計算復(fù)雜度的問題.通常,節(jié)點(diǎn)屬性被視為位于非線性流形中[5],但現(xiàn)有的HeANE方法沒有有效地捕捉這種非線性流形的幾何結(jié)構(gòu),而且節(jié)點(diǎn)屬性和異質(zhì)網(wǎng)絡(luò)拓?fù)湫畔⒌娜诤闲室灿写嵘?
為了有效捕捉網(wǎng)絡(luò)中節(jié)點(diǎn)、連邊和屬性的異質(zhì)性信息,并提升異質(zhì)性信息的融合效率,本文提出基于PPMI的異質(zhì)屬性網(wǎng)絡(luò)嵌入學(xué)習(xí)方法HANEP.HANEP首先基于屬性相似性構(gòu)建屬性圖,并依據(jù)不同的元路徑提取異質(zhì)網(wǎng)絡(luò)的拓?fù)湫畔ⅲ蝗缓蠡趯傩詧D和拓?fù)鋱D執(zhí)行隨機(jī)沖浪獲得屬性和元路徑的拓?fù)涓怕使铂F(xiàn)(probabilistic co-occurrence, PCO)矩陣,進(jìn)而計算屬性和元路徑拓?fù)涞恼c(diǎn)對互信息(positive point-wise mutual information, PPMI);最后,將PPMI輸入到考慮局部圖正則的多個自編碼器(auto-encoder, AE)完成嵌入.在HANEP中,基于屬性相似性構(gòu)建的屬性圖描述了節(jié)點(diǎn)屬性的非線性流行結(jié)構(gòu);基于不同元路徑提取的拓?fù)鋱D有效捕捉了不同類型節(jié)點(diǎn)間的異質(zhì)鏈接承載的豐富的語義信息,并且屬性圖和拓?fù)鋱D是2種異質(zhì)性信息的同質(zhì)表示,不僅方便以相同的方法處理而且有利于提高異質(zhì)信息的融合效率.另外,PCO矩陣捕捉了不同節(jié)點(diǎn)間的轉(zhuǎn)移概率,PPMI較好地維持了圖的結(jié)構(gòu)特征以捕捉節(jié)點(diǎn)的高階近鄰信息,AE有效地捕捉了潛在的非線性關(guān)系.
本文的工作主要貢獻(xiàn)有3個方面:
1) 提出了一種基于PPMI的異質(zhì)屬性網(wǎng)絡(luò)嵌入模型HANEP,通過屬性相似性和不同元路徑抽取的網(wǎng)絡(luò)拓?fù)錁?gòu)建屬性圖和拓?fù)鋱D,進(jìn)而計算PCO矩陣和PPMI矩陣,利用AE有效捕捉并融合網(wǎng)絡(luò)中的多種異質(zhì)性信息.
2) 設(shè)計了屬性圖和元路徑拓?fù)鋱D的局部圖正則以增強(qiáng)屬性和元路徑拓?fù)涞木植恳恢滦?,并給出了HANEP的算法描述.
3) 在3個真實(shí)異質(zhì)屬性網(wǎng)絡(luò)數(shù)據(jù)集上通過節(jié)點(diǎn)分類、節(jié)點(diǎn)聚類、消融實(shí)驗(yàn)、可視化和參數(shù)敏感性分析實(shí)驗(yàn),結(jié)果表明本文所提的HANEP方法的性能優(yōu)于基線算法.
近年來,許多屬性網(wǎng)絡(luò)嵌入模型被提出,本節(jié)將主要介紹同質(zhì)屬性網(wǎng)絡(luò)嵌入和異質(zhì)屬性網(wǎng)絡(luò)嵌入的相關(guān)工作.
為了在同質(zhì)屬性網(wǎng)絡(luò)嵌入中結(jié)合節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)湫畔?,ASNE[2]提出在級聯(lián)2種信息時引入1個權(quán)值參數(shù)來調(diào)整屬性的重要性.DANE[6]設(shè)計2個允許交互的AE保護(hù)節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)涞囊恢滦院突パa(bǔ)性關(guān)系.ANRL[7]采用鄰域增強(qiáng)的策略將節(jié)點(diǎn)屬性作為編碼器的輸入,在網(wǎng)絡(luò)拓?fù)湫畔⒌闹笇?dǎo)下重構(gòu)節(jié)點(diǎn)的目標(biāo)鄰居.AANE[8]采用分布式的方法考慮節(jié)點(diǎn)的屬性特征,加速嵌入學(xué)習(xí)的過程.GAT[9]基于圖注意力機(jī)制為中心節(jié)點(diǎn)的鄰域節(jié)點(diǎn)分配不同的權(quán)重,然后加權(quán)得到中心樣本的新表示.ONE[10]提出一種非監(jiān)督的異常值檢測算法,通過最小化離群節(jié)點(diǎn)的影響生成健壯的屬性網(wǎng)絡(luò)嵌入表示.DFANE[11]提出雙重融合策略充分捕捉節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)涞膮^(qū)分性特征和互補(bǔ)性信息.DANEP[12]首先構(gòu)建與網(wǎng)絡(luò)拓?fù)渫|(zhì)表示的屬性圖,進(jìn)而設(shè)計局部成對約束的圖正則以增強(qiáng)局部特征的一致性.PMI[13]通過最大化中心節(jié)點(diǎn)與其k階鄰居之間的互信息,從而利用節(jié)點(diǎn)的位置信息指導(dǎo)嵌入學(xué)習(xí)的過程.然而,上述方法僅考慮了相同類型的節(jié)點(diǎn)和鏈接關(guān)系,忽略了網(wǎng)絡(luò)中節(jié)點(diǎn)和鏈接關(guān)系的多樣化特征.
異質(zhì)屬性網(wǎng)絡(luò)中不同類型對象間的鏈接關(guān)系承載著更豐富的語義信息,這些語義信息可以通過元路徑來捕捉.不同元路徑捕捉了節(jié)點(diǎn)間不同的關(guān)聯(lián)關(guān)系,描述了不同的語義信息.Metapath2vec[4]基于元路徑的隨機(jī)游走獲取節(jié)點(diǎn)的異質(zhì)性拓?fù)湫畔?HIN2Vec[14]使用不同類型的節(jié)點(diǎn)和鏈接關(guān)系學(xué)習(xí)節(jié)點(diǎn)及元路徑的向量表示.HEER[15]對異質(zhì)網(wǎng)絡(luò)中不同的鏈接類型定義不同的度量空間,以保持統(tǒng)一度量空間下節(jié)點(diǎn)的兼容性.HAN[16]提出分層注意力機(jī)制考慮節(jié)點(diǎn)和元路徑在語義空間中的個性化偏好.GANTE[17]考慮屬性信息的多元化,同時支持直推式和歸納式2種學(xué)習(xí)方式.NECS[18]利用異質(zhì)屬性網(wǎng)絡(luò)中豐富的社區(qū)結(jié)構(gòu)指導(dǎo)節(jié)點(diǎn)的表示學(xué)習(xí).HDGI[19]利用圖卷積模塊和語義級別的注意力機(jī)制捕捉節(jié)點(diǎn)的局部表示,通過最大化局部和全局互信息學(xué)習(xí)節(jié)點(diǎn)的低維表示.HeteSpaceyWalk[20]提出基于元路徑、元圖、元模式的異質(zhì)個性化空間隨機(jī)游走方法,集成多條元路徑捕獲更豐富的拓?fù)湫畔?
定義1.異質(zhì)屬性網(wǎng)絡(luò)[3].異質(zhì)屬性網(wǎng)絡(luò)通常被定義為一個無向圖G=(V,E,A,Q,U),其中V表示網(wǎng)絡(luò)中節(jié)點(diǎn)的集合,E表示網(wǎng)絡(luò)中邊的集合,A∈n×m表示節(jié)點(diǎn)的屬性特征(n表示節(jié)點(diǎn)數(shù),m表示節(jié)點(diǎn)屬性的維度),Q表示節(jié)點(diǎn)類型的集合,U表示邊類型的集合,|Q|+|U|>2.每個節(jié)點(diǎn)對象v∈V屬于一個特定的對象類型,每條邊e∈E屬于一個特定的邊類型,節(jié)點(diǎn)類型和邊類型的映射函數(shù)分別為φ:V→Q和φ:E→U.
Fig. 2 The architecture of HANEP圖2 HANEP模型框架
定義3.異質(zhì)屬性網(wǎng)絡(luò)嵌入[15].給定一個異質(zhì)屬性網(wǎng)絡(luò)G=(V,E,A,Q,U),異質(zhì)屬性網(wǎng)絡(luò)嵌入學(xué)習(xí)的目的是找到一個映射函數(shù)f:V→d,該函數(shù)能夠?qū)愘|(zhì)屬性網(wǎng)絡(luò)中的每個節(jié)點(diǎn)v∈V映射為d維空間d中的一個向量(d?|V|),同時保留原始網(wǎng)絡(luò)中多種類型的節(jié)點(diǎn)和邊關(guān)系的本質(zhì)特征.
定義4.概率共現(xiàn)(PCO)矩陣[21].給定一個無向圖G=(V,E,A),隨機(jī)排序圖中的節(jié)點(diǎn),PCO矩陣描述了從任意節(jié)點(diǎn)vi經(jīng)過k步轉(zhuǎn)移后到達(dá)其他節(jié)點(diǎn)vj(j≠i)的轉(zhuǎn)移概率.
定義5.正點(diǎn)對互信息PPMI[22].給定一個無向圖G=(V,E,A),點(diǎn)對互信息PMI衡量節(jié)點(diǎn)對(vi,vj)間的相關(guān)性.通過進(jìn)一步將PMI矩陣中的負(fù)值分配成0,則形成PPMI,其數(shù)值越大,說明相關(guān)性越高.
為了捕捉和高效地融合多種類型節(jié)點(diǎn)的屬性和異質(zhì)鏈接關(guān)系的本質(zhì)特征,本文提出一種基于PPMI的異質(zhì)屬性網(wǎng)絡(luò)嵌入方法HANEP. HANEP首先基于節(jié)點(diǎn)屬性的相似性利用k近鄰圖[22]的方法構(gòu)建屬性圖、依據(jù)不同的元路徑r1,r2,…,rL提取不同鏈接關(guān)系的網(wǎng)絡(luò)拓?fù)鋱D,然后基于屬性圖和元路徑拓?fù)鋱D進(jìn)行隨機(jī)沖浪[22]獲得PCO矩陣,并計算屬性和元路徑拓?fù)涞腜PMI.然后,HANEP利用多個神經(jīng)網(wǎng)絡(luò)AE分別基于屬性圖和元路徑拓?fù)鋱D的PPMI學(xué)習(xí)節(jié)點(diǎn)屬性和元路徑拓?fù)涞墓逃斜举|(zhì),同時使用局部成對約束的圖正則增強(qiáng)局部結(jié)構(gòu)特征.屬性圖和拓?fù)鋱D的PPMI表示有利于保護(hù)屬性和拓?fù)涞母唠A近鄰信息和復(fù)雜的非線性結(jié)構(gòu).HANEP模型框架如圖2所示.
節(jié)點(diǎn)屬性描述了節(jié)點(diǎn)的個性化信息,通常被視為位于某種非線性流形中[5].屬性圖有利于捕捉屬性信息的非線性流形結(jié)構(gòu).設(shè)A∈n×m表示網(wǎng)絡(luò)中節(jié)點(diǎn)的屬性矩陣,Anew∈n×n表示節(jié)點(diǎn)屬性的相似性矩陣,其中元素表示節(jié)點(diǎn)vi和vj的屬性ai和aj的相似性,余弦相似性的計算如式(1)所示:
(1)
異質(zhì)屬性網(wǎng)絡(luò)中節(jié)點(diǎn)對象包含豐富的鏈接關(guān)系,依附于鏈接關(guān)系的語義信息可以通過元路徑來捕捉.如圖1所示,元路徑APA,APTPA,APCPA可以分別描述作者的合著關(guān)系、相同研究主題關(guān)系、在相同會議上的發(fā)表論文關(guān)系.依據(jù)元路徑r1,r2,…,rL可以抽取不同鏈接關(guān)系的網(wǎng)絡(luò)拓?fù)?,令S1,S2,…,SL∈n×n表示元路徑拓?fù)涞泥徑泳仃?,元素表示?jié)點(diǎn)vi和vj在元路徑rl上可達(dá);否則
pk=α·pk-1P+(1-α)p0,
(2)
其中pk是一個行向量,其第j項(xiàng)表示從節(jié)點(diǎn)vi經(jīng)過k步轉(zhuǎn)移后到達(dá)節(jié)點(diǎn)vj的概率,p0是第i個元素為1、其余元素均為0的初始化one-hot向量,α表示隨機(jī)沖浪過程中節(jié)點(diǎn)跳轉(zhuǎn)到下一個節(jié)點(diǎn)的概率,1-α表示節(jié)點(diǎn)返回原頂點(diǎn)重啟隨機(jī)沖浪過程的概率.
(3)
MPPMIvi,vj=max(MPMIvi,vj,0),
(4)
(5)
(6)
(7)
(8)
(9)
(10)
(11)
(12)
(13)
(14)
為了訓(xùn)練HANEP捕捉異質(zhì)屬性網(wǎng)絡(luò)中節(jié)點(diǎn)屬性特征和節(jié)點(diǎn)間的豐富鏈接關(guān)系,本文定義局部節(jié)點(diǎn)對約束損失Llocal和重構(gòu)損失Lrec作為懲罰項(xiàng),以反向傳播的方法訓(xùn)練AE,提高嵌入學(xué)習(xí)的質(zhì)量.Llocal和Lrec定義為:
(15)
(16)
綜上所述,HANEP模型在訓(xùn)練學(xué)習(xí)過程中考慮局部節(jié)點(diǎn)對約束損失Llocal和重構(gòu)損失Lrec.因此,HANEP模型的損失函數(shù)定義如式(17)所示,其中參數(shù)α和β是用來平衡局部節(jié)點(diǎn)對約束損失和重構(gòu)損失之間的權(quán)重.
L=αLlocal+βLrec.
(17)
本文利用Adam[23]算法在訓(xùn)練過程中迭代優(yōu)化AE直到模型收斂或迭代次數(shù)達(dá)到設(shè)定的迭代閾值,HANEP算法描述如算法1:
算法1.異質(zhì)屬性網(wǎng)絡(luò)嵌入HANEP算法.
輸入:異質(zhì)屬性圖G=(V,E,A,Q,U),元路徑r1,r2,…,rL,參數(shù)α,β,嵌入維度d,學(xué)習(xí)率λ,迭代損失閾值ε,迭代次數(shù)閾值τ;
輸出:嵌入表示hi.
① 基于屬性相似性構(gòu)建屬性近鄰圖C;
② 基于元路徑r1,r2,…,rL抽取網(wǎng)絡(luò)拓?fù)銼1,S2,…,SL;
④ 初始化參數(shù)θ={θC,θSl}(1≤l≤L);
⑤ repeat
⑥ for each nodevi∈V
⑦ 訓(xùn)練AE,更新參數(shù)θ;
⑧ end for
⑨ until迭代損失小于εor 迭代次數(shù)等于τ;
本節(jié)從節(jié)點(diǎn)分類、節(jié)點(diǎn)聚類、消融實(shí)驗(yàn)、可視化和參數(shù)敏感性分析5個方面分別來評估HANEP模型的性能.
4.1.1 數(shù)據(jù)集
本文實(shí)驗(yàn)使用了ACM,DBLP,IMDB這3個公共可用的異質(zhì)屬性網(wǎng)絡(luò)數(shù)據(jù)集來評估和驗(yàn)證HANEP模型的有效性,其中ACM包含3 025篇論文、5 835位作者、56個研究主題和3種類標(biāo)簽,論文關(guān)鍵字的bag-of-words表示為1 870維的特征向量;DBLP包含14 328篇論文、4 057位作者、20個會議、8 789個主題和4種類標(biāo)簽,作者信息表示為334維的特征向量;IMDB數(shù)據(jù)集包含3 550場電影、4 441位演員、1 726個導(dǎo)演和3種類標(biāo)簽,電影信息表示為2 000維的特征向量.與文獻(xiàn)[16,19]中的HAN和HDGI模型相似,本文分別依據(jù)元路徑{PAP,PTP},{APA,APCPA,APTPA},{MAM,MDM}提取數(shù)據(jù)集ACM,DBLP,IMDB的網(wǎng)絡(luò)拓?fù)湫畔?數(shù)據(jù)集的詳細(xì)信息如表1所示:
Table 1 Information Statistics of the Datasets Features
4.1.2 基線算法
本文選擇了11種方法作為基線,包括:4種網(wǎng)絡(luò)拓?fù)淝度敕椒?DeepWalk[24],GraRep[26],SDNE[25],DNGR[22]),4種同質(zhì)屬性網(wǎng)絡(luò)嵌入方法(PRRE[27],DANE[6],DFANE[11],DANEP[12])和3種異質(zhì)屬性網(wǎng)絡(luò)嵌入方法(HAN[16],HDGI[19],HANEP-A).實(shí)驗(yàn)中所有基線算法與HANEP使用相同元路徑抽取的網(wǎng)絡(luò)拓?fù)湫畔?具體來說,網(wǎng)絡(luò)拓?fù)淝度敕椒ú粎^(qū)分依據(jù)元路徑抽取的網(wǎng)絡(luò)拓?fù)湫畔⒌漠愘|(zhì)性,將依據(jù)不同元路徑抽取的所有網(wǎng)絡(luò)拓?fù)湫畔R聚成一個網(wǎng)絡(luò)拓?fù)溥M(jìn)行訓(xùn)練學(xué)習(xí);同質(zhì)屬性網(wǎng)絡(luò)嵌入方法使用與網(wǎng)絡(luò)拓?fù)淝度敕椒ㄏ嗤姆绞綄W(xué)習(xí)網(wǎng)絡(luò)拓?fù)?,同時考慮了網(wǎng)絡(luò)中節(jié)點(diǎn)的屬性信息;異質(zhì)屬性網(wǎng)絡(luò)嵌入方法區(qū)分依據(jù)元路徑抽取的網(wǎng)絡(luò)拓?fù)湫畔⒌漠愘|(zhì)性,即對依據(jù)不同元路徑抽取的網(wǎng)絡(luò)拓?fù)湫畔⒎謩e處理,并同時考慮節(jié)點(diǎn)的屬性信息.同質(zhì)屬性網(wǎng)絡(luò)嵌入和異質(zhì)屬性網(wǎng)絡(luò)嵌入的基線算法介紹如下.
DANE[6].DANE考慮節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)涞囊恢滦院突パa(bǔ)性關(guān)系,首先通過隨機(jī)游走獲得鄰域拓?fù)?,然后采?個對稱的、允許相互交互的AE捕捉節(jié)點(diǎn)屬性和鄰域拓?fù)涞母唠A非線性信息.節(jié)點(diǎn)屬性AE和網(wǎng)絡(luò)拓?fù)銩E在嵌入學(xué)習(xí)中實(shí)時交互,捕捉2種信息的一致性和互補(bǔ)性關(guān)系.
DFANE[11].DFANE包括基于早期融合策略的早期融合組件和基于后期融合策略的后期融合組件,前者主要負(fù)責(zé)捕捉節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)涞幕パa(bǔ)性信息;后者負(fù)責(zé)從2種異質(zhì)信息中提取各自的獨(dú)特本質(zhì),這2個組件在一致性損失函數(shù)的約束下協(xié)同訓(xùn)練以實(shí)現(xiàn)信息交互.
DANEP[12].DANEP是一種基于PPMI的同質(zhì)屬性網(wǎng)絡(luò)嵌入方法,該方法首先基于樣本屬性間的相似性構(gòu)建屬性圖;然后分別對屬性圖和網(wǎng)絡(luò)拓?fù)鋱D進(jìn)行隨機(jī)沖浪獲得屬性和拓?fù)銹CO矩陣并計算其PPMI;最后級聯(lián)屬性圖和拓?fù)鋱D的PPMI矩陣輸入共享AE學(xué)習(xí)節(jié)點(diǎn)的低維表示.
PRRE[27].PRRE考慮節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)涞牟糠窒嚓P(guān)性,即節(jié)點(diǎn)屬性相似但網(wǎng)絡(luò)拓?fù)洳幌嗨苹蚓W(wǎng)絡(luò)拓?fù)湎嗨频?jié)點(diǎn)屬性不相似.PRRE首先利用期望最大化算法訓(xùn)練2個閾值來區(qū)分節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)涞南嚓P(guān)性,進(jìn)而定義節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)涞姆e極、模糊和消極的相關(guān)關(guān)系.
HAN[16].HAN擴(kuò)展圖神經(jīng)網(wǎng)絡(luò)到異質(zhì)信息圖,首先使用指定的元路徑捕捉網(wǎng)絡(luò)中不同語義關(guān)系的鄰居節(jié)點(diǎn),然后利用分層注意力機(jī)制考慮每個鄰居和每條元路徑的不同注意力權(quán)重,聚合鄰居信息,獲取目標(biāo)節(jié)點(diǎn)的嵌入表示.
HDGI[19].HDGI基于互信息最大化實(shí)現(xiàn)無監(jiān)督的圖神經(jīng)網(wǎng)絡(luò)嵌入學(xué)習(xí),使用注意力機(jī)制捕捉不同元路徑上節(jié)點(diǎn)的局部表示,通過最大化局部和全局互信息學(xué)習(xí)節(jié)點(diǎn)的低維表示.
HANEP-A.HANEP-A是HANEP模型的變體,HANEP-A匯聚不同元路徑抽取的鏈接關(guān)系構(gòu)建異質(zhì)網(wǎng)絡(luò)拓?fù)鋱D.相比HANEP依據(jù)不同的元路徑構(gòu)建相對應(yīng)的拓?fù)鋱D,HANEP-A匯聚多條元路徑構(gòu)建異質(zhì)網(wǎng)絡(luò)的綜合拓?fù)鋱D.通過HANEP和變體HANEP-A,本文想探究依據(jù)單條元路徑構(gòu)建多個拓?fù)鋱D和匯聚多條元路徑構(gòu)建單個綜合的網(wǎng)絡(luò)拓?fù)鋱D對嵌入學(xué)習(xí)的影響.此外,通過變體HANEP-A和DANEP,本文想探究對稱獨(dú)立的節(jié)點(diǎn)屬性AE和網(wǎng)絡(luò)拓?fù)銩E與級聯(lián)節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)湫畔⒌墓蚕鞟E對嵌入學(xué)習(xí)效果的影響.
實(shí)驗(yàn)中所有基線算法都進(jìn)行了參數(shù)調(diào)優(yōu),使用最好結(jié)果進(jìn)行比較.
4.1.3 參數(shù)設(shè)置
參數(shù)α和β是用來平衡局部節(jié)點(diǎn)對約束損失Llocal和重構(gòu)損失Lrec之間的權(quán)重.在實(shí)驗(yàn)中,本文通過網(wǎng)格搜索算法調(diào)整參數(shù)α和β用于節(jié)點(diǎn)分類、節(jié)點(diǎn)聚類和可視化任務(wù).為了達(dá)到精確和直觀的評估效果,本文在節(jié)點(diǎn)分類、節(jié)點(diǎn)聚類和可視化任務(wù)上應(yīng)用相同的參數(shù).此外,本文基于數(shù)據(jù)集ACM,DBLP,IMDB設(shè)置相同的神經(jīng)元層次結(jié)構(gòu)(屬性特征數(shù)或節(jié)點(diǎn)數(shù)-512-128-64).每個數(shù)據(jù)集對應(yīng)的參數(shù)α和β數(shù)值,以及神經(jīng)網(wǎng)絡(luò)層的神經(jīng)元個數(shù)如表2所示.具體來說,節(jié)點(diǎn)屬性編碼器的第1層輸入對應(yīng)節(jié)點(diǎn)的屬性信息,而第l(1≤l≤L)個網(wǎng)絡(luò)拓?fù)渚幋a器的第1層輸入對應(yīng)節(jié)點(diǎn)在元路徑rl上可達(dá)的網(wǎng)絡(luò)拓?fù)湫畔?
Table 2 The Parameters and Structures of Neural Network for Each Dataset
本文選擇節(jié)點(diǎn)分類和節(jié)點(diǎn)聚類任務(wù)評估模型嵌入學(xué)習(xí)的性能.實(shí)驗(yàn)中,隨機(jī)選取10%,30%,50%的節(jié)點(diǎn)作為訓(xùn)練集,余下的節(jié)點(diǎn)作為測試集,SVM[7]作為分類器;Micro-F1和Macro-F1作為分類指標(biāo);k-means++[6]作為聚類算法;精確度(accuracy, ACC)和標(biāo)準(zhǔn)化互信息(normalized mutual information, NMI)[11]作為聚類指標(biāo).指標(biāo)數(shù)值越高說明性能越好,本文重復(fù)實(shí)驗(yàn)過程10次統(tǒng)計指標(biāo)的平均值示于表3.
從表3可以看到:
1) HANEP在數(shù)據(jù)集ACM和DBLP上取得了最優(yōu)的Micro-F1和Macro-F1;在數(shù)據(jù)集IMDB上取得了次優(yōu)的Micro-F1和Macro-F1;變體HANEP-A在數(shù)據(jù)集IMDB上獲得了最優(yōu)的Micro-F1和Macro-F1;在數(shù)據(jù)集ACM和DBLP上獲得了次優(yōu)的Micro-F1和Macro-F1,這些結(jié)果表明基于屬性圖和元路徑拓?fù)鋱D的PPMI在嵌入學(xué)習(xí)過程中有利于捕捉異質(zhì)屬性網(wǎng)絡(luò)中多種類型節(jié)點(diǎn)的個性化信息和異質(zhì)鏈接承載的豐富語義信息.
2) 變體HANEP-A在數(shù)據(jù)集DBLP上獲得了最優(yōu)的聚類指標(biāo)ACC和NMI;在數(shù)據(jù)集IMDB上獲得了最高的NMI值,表明匯聚多條元路徑構(gòu)建單個綜合的網(wǎng)絡(luò)拓?fù)鋱D學(xué)到的嵌入比依據(jù)不同元路徑構(gòu)建多個拓?fù)鋱D學(xué)到的嵌入更有利于聚類,進(jìn)一步說明依據(jù)不同元路徑構(gòu)建多個拓?fù)鋱D捕捉到了多種類型節(jié)點(diǎn)的個性化信息.
3) 基線HAN在數(shù)據(jù)集ACM上獲得了最優(yōu)的聚類指標(biāo)ACC和NMI、在數(shù)據(jù)集DBLP上獲得了次優(yōu)的NMI、在數(shù)據(jù)集IMDB上獲得了最優(yōu)的ACC;HDGI在數(shù)據(jù)集ACM上獲得了次優(yōu)的ACC和NMI、在數(shù)據(jù)集DBLP上獲得了次優(yōu)的ACC;說明注意力在嵌入學(xué)習(xí)中是值得考慮的因素.
4) 變體HANEP-A優(yōu)于基線DANEP,說明獨(dú)立的學(xué)習(xí)節(jié)點(diǎn)屬性和網(wǎng)絡(luò)拓?fù)浔燃壜?lián)的學(xué)習(xí)方式更有利于捕捉異質(zhì)網(wǎng)絡(luò)中節(jié)點(diǎn)的本質(zhì)特征.HANEP-A在節(jié)點(diǎn)分類和節(jié)點(diǎn)聚類任務(wù)上優(yōu)于DANE,DFANE,PRRE,說明屬性圖和拓?fù)鋱D的PPMI表示有利于捕捉高階近鄰信息和復(fù)雜的非線性結(jié)構(gòu).
5) 在網(wǎng)絡(luò)拓?fù)淝度肽P椭?,除了Deepwalk和Grarep在數(shù)據(jù)集DBLP上比同質(zhì)屬性網(wǎng)絡(luò)嵌入模型獲得較好的分類結(jié)果外,在其余情況下同質(zhì)屬性網(wǎng)絡(luò)嵌入模型的節(jié)點(diǎn)分類和節(jié)點(diǎn)聚類結(jié)果都比網(wǎng)絡(luò)拓?fù)淝度肽P秃?,說明節(jié)點(diǎn)屬性信息在異質(zhì)網(wǎng)絡(luò)嵌入學(xué)習(xí)中提供了有效的輔助作用.
本節(jié)以DBLP數(shù)據(jù)集為例,通過消融實(shí)驗(yàn)分別評估了單條元路徑APA,APCPA,APTPA;多條元路徑APA+APCPA,APA+APTPA,APCPA+APTPA,APA+APCPA+APTPA和節(jié)點(diǎn)屬性Attribute在異質(zhì)屬性網(wǎng)絡(luò)嵌入學(xué)習(xí)中的貢獻(xiàn),以探究元路徑和節(jié)點(diǎn)屬性對嵌入結(jié)果的影響.消融實(shí)驗(yàn)?zāi)P驮O(shè)置與HANEP相似,消融實(shí)驗(yàn)設(shè)置和結(jié)果示于表4,其中“學(xué)習(xí)資源”列中的APA,APA+APCPA,APA+Attribute分別表示利用單條元路徑APA、多條元路徑APA+APCPA、元路徑APA和屬性信息進(jìn)行訓(xùn)練學(xué)習(xí),其余消融實(shí)驗(yàn)的設(shè)置與此類似,不再一一列舉.
Table 3 Performance Evaluation of Node Classification and Node Clustering
Table 4 Performance Evaluation of the Ablation Experiment on the DBLP Dataset
從表4可以看到:
1) 單條元路徑APA,APCPA,APTPA的性能差異明顯,其中APTPA性能明顯優(yōu)于APA,APCPA,說明不同元路徑在嵌入學(xué)習(xí)中捕捉異質(zhì)網(wǎng)絡(luò)拓?fù)湫畔r有不同的貢獻(xiàn);元路徑APA+APCPA,APA+APTPA,APCPA+APTPA分別優(yōu)于其各自對應(yīng)的單條元路徑性能,說明不同元路徑在嵌入學(xué)習(xí)過程中可以提供互補(bǔ)信息.
2) 元路徑APTPA的性能優(yōu)于APA+APCPA,說明實(shí)驗(yàn)性能不僅取決于元路徑的條數(shù),也取決于元路徑在描述異質(zhì)網(wǎng)絡(luò)拓?fù)渲械闹匾?元路徑APCPA+APTPA的性能優(yōu)于APA+APCPA+APTPA、APCPA+APTPA+Attribute的性能優(yōu)于APA+APCPA+APTPA+Attribute,加入APA后嵌入學(xué)習(xí)性能反而降低了,說明元路徑APA存在噪聲.此外,單條元路徑APA嵌入學(xué)習(xí)時的性能明顯劣于APCPA和APTPA,也證實(shí)了APA存在噪聲.
3) 同時考慮節(jié)點(diǎn)屬性和元路徑(APA+APCPA+APTPA+Attribute,APCPA+APTPA+Attribute,APA+APTPA+Attribute,APA+APCPA+Attribute,APTPA+Attribute, APCPA+Attribute,APA+Attribute)時的學(xué)習(xí)性能優(yōu)于只考慮元路徑(APA+APCPA+APTPA,APCPA+APTPA,APA+APTPA,APA+APCPA,APTPA,APCPA,APA)時的學(xué)習(xí)性能,說明節(jié)點(diǎn)屬性在異質(zhì)屬性網(wǎng)絡(luò)嵌入學(xué)習(xí)中提供了有效的輔助作用.
本文使用t-SNE[28]方法將節(jié)點(diǎn)的低維嵌入表示投影到2維空間,布局中的點(diǎn)表示網(wǎng)絡(luò)中的節(jié)點(diǎn),其中不同的顏色表示節(jié)點(diǎn)的類標(biāo)簽.期望的布局是相同顏色的點(diǎn)相互聚集,不同顏色的點(diǎn)相互分離且有明顯的分離界線.相同顏色的節(jié)點(diǎn)越聚集、不同顏色的節(jié)點(diǎn)越疏遠(yuǎn)說明節(jié)點(diǎn)的低維表示捕捉了原始節(jié)點(diǎn)的固有本質(zhì)和區(qū)分性特征,即嵌入學(xué)習(xí)效果越好.圖3給出DBLP數(shù)據(jù)集的可視化結(jié)果作為代表案例,其中布局里的點(diǎn)表示論文,節(jié)點(diǎn)的顏色表示論文的類別.
Fig. 3 The visualization results of different methods on the DBLP dataset圖3 不同方法在DBLP數(shù)據(jù)集上的可視化結(jié)果
Fig. 4 The sensitivity of HANEP on α and β圖4 HANEP關(guān)于參數(shù)α和β的敏感性
觀察圖3可知:HANEP和變體HANEP-A的可視化表現(xiàn)最佳(圖3(l)(k)),表現(xiàn)為布局中相同顏色的節(jié)點(diǎn)彼此靠近,不同顏色的節(jié)點(diǎn)相互遠(yuǎn)離且有清晰的分離邊界;HDGI和HAN獲得了次優(yōu)的可視化結(jié)果(圖3(j)(i)),表現(xiàn)為相同顏色節(jié)點(diǎn)的聚集程度和不同顏色節(jié)點(diǎn)的分離效果差于HANEP和HANEP-A;DeepWalk(圖3(a))表現(xiàn)為相同顏色的節(jié)點(diǎn)聚集在一起,不同顏色節(jié)點(diǎn)的分離邊界不清晰;其余基線的可視化表現(xiàn)為不同顏色的節(jié)點(diǎn)混合在一起(圖3(b)~(h)).可視化結(jié)果再次表明本文所提模型HANEP在異質(zhì)屬性網(wǎng)絡(luò)嵌入學(xué)習(xí)中的有效性.
HANEP使用參數(shù)α和β平衡節(jié)點(diǎn)屬性和元路徑拓?fù)涞木植抗?jié)點(diǎn)對約束損失Llocal和重構(gòu)損失Lrec的權(quán)重.如圖4所示,本文統(tǒng)計節(jié)點(diǎn)分類指標(biāo)Micro-F1和節(jié)點(diǎn)聚類指標(biāo)ACC在DBLP數(shù)據(jù)集上隨參數(shù)α和β的變化情況作為代表來分析HANEP的參數(shù)敏感性.如果模型性能對參數(shù)不敏感,則說明模型有良好的健壯性和穩(wěn)定性;反之,則說明模型的健壯性和穩(wěn)定性較差.從圖4可見,節(jié)點(diǎn)分類指標(biāo)Micro-F1和節(jié)點(diǎn)聚類指標(biāo)ACC值在數(shù)據(jù)集ACM,DBLP,IMDB上隨參數(shù)α和β的變化情況是穩(wěn)定的,幾乎沒有明顯的波動,說明HANEP在節(jié)點(diǎn)分類和節(jié)點(diǎn)聚類任務(wù)上有良好的健壯性和穩(wěn)定性.
本文提出了一種基于PPMI的異質(zhì)屬性網(wǎng)絡(luò)嵌入學(xué)習(xí)模型HANEP,該模型基于屬性相似性構(gòu)建的屬性圖描述了節(jié)點(diǎn)屬性的非線性流行結(jié)構(gòu),基于不同元路徑提取的拓?fù)鋱D有效捕捉了不同類型節(jié)點(diǎn)間的異質(zhì)鏈接承載的豐富的語義信息,并且屬性圖和拓?fù)鋱D是2種異質(zhì)性信息的同質(zhì)表示,不僅方便用相同的方法處理而且有利于提高異質(zhì)信息的融合效率.另外,PCO矩陣捕捉了不同節(jié)點(diǎn)間的轉(zhuǎn)移概率,PPMI較好地維持了圖的結(jié)構(gòu)特征以捕捉節(jié)點(diǎn)的高階近鄰信息,AE有效地捕捉了潛在的非線性關(guān)系,設(shè)計的圖正則增強(qiáng)了局部特征的一致性.在3個數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了HANEP算法的有效性.
本文工作中,元路徑由用戶指定,并且所有元路徑間相互獨(dú)立.在未來工作中,我們將考慮識別元路徑間的耦合關(guān)系來指導(dǎo)節(jié)點(diǎn)的嵌入學(xué)習(xí)過程,消除元路徑信息的噪聲,以獲得更高質(zhì)量的嵌入表示.
作者貢獻(xiàn)聲明:東坤杰負(fù)責(zé)實(shí)驗(yàn)思路構(gòu)思、方法設(shè)計和程序設(shè)計、數(shù)據(jù)整理、實(shí)驗(yàn)探究、數(shù)據(jù)分析、初稿撰寫;周麗華負(fù)責(zé)實(shí)驗(yàn)監(jiān)督、數(shù)據(jù)分析、初稿的審閱和修改指導(dǎo);朱月英、杜國王、黃通負(fù)責(zé)數(shù)據(jù)整理、實(shí)驗(yàn)探究、數(shù)據(jù)分析、實(shí)驗(yàn)結(jié)果可視化.