国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于節(jié)點(diǎn)-屬性二部圖的網(wǎng)絡(luò)表示學(xué)習(xí)模型

2022-08-24 06:29周樂(lè)代婷婷李淳謝軍楚博策李峰張君毅劉嶠
計(jì)算機(jī)應(yīng)用 2022年8期
關(guān)鍵詞:關(guān)聯(lián)向量節(jié)點(diǎn)

周樂(lè),代婷婷,李淳,謝軍,楚博策,李峰,張君毅,劉嶠*

(1.電子科技大學(xué)信息與軟件工程學(xué)院,成都 610054;2.河北省電磁頻譜認(rèn)知與管控重點(diǎn)實(shí)驗(yàn)室,石家莊 050081;3.中國(guó)電子科技集團(tuán)公司航天信息應(yīng)用技術(shù)重點(diǎn)實(shí)驗(yàn)室,石家莊 050081)

0 引言

表示學(xué)習(xí)是指采用機(jī)器學(xué)習(xí)算法,將圖結(jié)構(gòu)數(shù)據(jù)中的實(shí)體節(jié)點(diǎn)表示為低維實(shí)值向量,可用于與圖相關(guān)的推理計(jì)算任務(wù),如鏈路預(yù)測(cè)[1]或節(jié)點(diǎn)分類[2]等。在應(yīng)用層面,可根據(jù)社交網(wǎng)絡(luò)中用戶間的拓?fù)浣Y(jié)構(gòu)與用戶描述等上下文信息預(yù)測(cè)用戶的交友興趣,或根據(jù)論文引用網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu)和關(guān)鍵詞信息推斷文章的研究主題等。

根據(jù)研究對(duì)象的不同,表示學(xué)習(xí)模型可分為兩類:1)關(guān)系類型單一的網(wǎng)絡(luò)表示學(xué)習(xí)模型,如DeepWalk[2]、node2vec[3]等,該類研究大多基于隨機(jī)游走方法進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)序列采樣,然后采用Skip-gram[2-3]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[4]等序列學(xué)習(xí)模型得到節(jié)點(diǎn)的向量表達(dá);2)關(guān)系類型多樣的知識(shí)圖譜表示學(xué)習(xí)模型,如TransE[5]、圖卷積神經(jīng)網(wǎng)絡(luò)模型(Graph Convolutional Network,GCN)[6]等,該類研究大多基于節(jié)點(diǎn)-關(guān)系語(yǔ)義映射思路[7],采用深度學(xué)習(xí)模型學(xué)習(xí)節(jié)點(diǎn)和關(guān)系的向量表達(dá)。本文主要關(guān)注屬性網(wǎng)絡(luò)表示學(xué)習(xí)建模問(wèn)題。

基于隨機(jī)游走的采樣模型在大規(guī)模稀疏的網(wǎng)絡(luò)表示學(xué)習(xí)任務(wù)中因性能良好而被廣泛采用[1-3,8]。但近期研究表明,如果僅根據(jù)網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)進(jìn)行隨機(jī)采樣,即限定隨機(jī)游走僅發(fā)生在直接相鄰的節(jié)點(diǎn)之間,容易導(dǎo)致采樣結(jié)果中,度較高的中心節(jié)點(diǎn)出現(xiàn)頻率較高[8-9],這樣不僅會(huì)削弱采樣結(jié)果的多樣性,而且難以有效利用網(wǎng)絡(luò)中的節(jié)點(diǎn)屬性等上下文信息[10-11]。為解決上述問(wèn)題,Huang 等[4]提出了一種基于節(jié)點(diǎn)-屬性二部圖的隨機(jī)游走(Attributed random Walk,AttriWalk)方法,如果圖中的節(jié)點(diǎn)具有相同的屬性(虛擬節(jié)點(diǎn)),則可以通過(guò)該屬性節(jié)點(diǎn)對(duì)不相鄰的節(jié)點(diǎn)采樣,從而利用節(jié)點(diǎn)的屬性等上下文信息,該方法在提高采樣結(jié)果多樣性的同時(shí)有效地緩解了采樣偏向中心節(jié)點(diǎn)的問(wèn)題。

然而,AttriWalk 也存在明顯局限性。AttriWalk 將網(wǎng)絡(luò)視為節(jié)點(diǎn)-屬性二部圖,分別采樣得到節(jié)點(diǎn)-節(jié)點(diǎn)、節(jié)點(diǎn)-屬性-節(jié)點(diǎn)兩種形式的序列。在“節(jié)點(diǎn)-屬性”采樣過(guò)程中,每個(gè)節(jié)點(diǎn)有多種屬性,不同屬性有不一樣的取值,AttriWalk 直接對(duì)屬性值歸一化,以此作為從多個(gè)屬性中選擇下一跳目標(biāo)的遷移概率計(jì)算依據(jù),這種概率計(jì)算方式易導(dǎo)致采樣過(guò)程偏向?qū)傩灾递^高的屬性,而忽略了屬性值低、但在有邊相連的節(jié)點(diǎn)對(duì)之間頻繁出現(xiàn)的屬性。在實(shí)際網(wǎng)絡(luò)中,在不考慮屬性值影響的情況下,當(dāng)部分屬性在有鄰接關(guān)系的節(jié)點(diǎn)對(duì)間出現(xiàn)次數(shù)越多,則非鄰接節(jié)點(diǎn)間含有這類共有屬性的數(shù)量越多,產(chǎn)生關(guān)聯(lián)的可能性越大。例如,在以關(guān)鍵詞為屬性、關(guān)鍵詞在論文中出現(xiàn)的次數(shù)為屬性值的論文引用網(wǎng)絡(luò)中,兩篇論文是否相關(guān)與其屬性值大小無(wú)關(guān),主要取決于它們是否同時(shí)包含多種在其他主題相似的論文中頻繁出現(xiàn)的共有關(guān)鍵詞,當(dāng)這類關(guān)鍵詞種數(shù)越多,主題相似性越大。

針對(duì)上述問(wèn)題,本文通過(guò)分析屬性對(duì)節(jié)點(diǎn)關(guān)系的影響,提出了一種基于節(jié)點(diǎn)鄰接關(guān)系與屬性關(guān)聯(lián)關(guān)系的隨機(jī)游走方法,根據(jù)網(wǎng)絡(luò)中相鄰節(jié)點(diǎn)間共有屬性分布情況調(diào)整屬性的權(quán)重,從而使得對(duì)節(jié)點(diǎn)間語(yǔ)義關(guān)聯(lián)真正有貢獻(xiàn)的屬性獲得采樣優(yōu)勢(shì),并以此為媒介增加網(wǎng)絡(luò)中非鄰接節(jié)點(diǎn)間的關(guān)聯(lián)。在此基礎(chǔ)上,構(gòu)建了一個(gè)基于節(jié)點(diǎn)-屬性二部圖的網(wǎng)絡(luò)表示學(xué)習(xí)模型,學(xué)習(xí)獲得網(wǎng)絡(luò)中的節(jié)點(diǎn)向量表達(dá)。

本文主要工作如下:

1)提出了一種基于節(jié)點(diǎn)鄰接關(guān)系與屬性關(guān)聯(lián)關(guān)系的隨機(jī)游走方法。與已有工作不同的是,該方法通過(guò)鄰接節(jié)點(diǎn)的共有屬性分布獲取不同屬性對(duì)節(jié)點(diǎn)關(guān)聯(lián)的重要性,進(jìn)而得到節(jié)點(diǎn)到每種屬性的采樣概率,又稱基于屬性權(quán)重的隨機(jī)游走(Weighted attribute based random Walk,WarWalk)方法。

2)構(gòu)建了一種基于節(jié)點(diǎn)-屬性二部圖的網(wǎng)絡(luò)表示學(xué)習(xí)模型(Network Embedding model based on Node Attribute Bipartite braph,NE-NAB)。NE-NAB 以WarWalk 的采樣結(jié)果為輸入,通過(guò)基于自注意力機(jī)制的序列學(xué)習(xí)模塊得到網(wǎng)絡(luò)節(jié)點(diǎn)的向量表達(dá)。在3 個(gè)公開(kāi)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,NE-NAB 的性能表現(xiàn)均優(yōu)于相關(guān)工作,且WarWalk 可以通過(guò)“節(jié)點(diǎn)-屬性-節(jié)點(diǎn)”類型的采樣序列提取非鄰接節(jié)點(diǎn)間的隱含信息,使采樣以較大概率發(fā)生在網(wǎng)絡(luò)中的同類節(jié)點(diǎn)間,從而增加序列中所包含的信息量。

1 相關(guān)工作

現(xiàn)有表示學(xué)習(xí)模型根據(jù)研究對(duì)象的不同,可劃分為關(guān)系類型多樣的知識(shí)圖譜表示學(xué)習(xí)模型和關(guān)系類型單一的網(wǎng)絡(luò)表示學(xué)習(xí)模型。

知識(shí)圖譜表示學(xué)習(xí)模型重點(diǎn)關(guān)注多關(guān)系數(shù)據(jù)中節(jié)點(diǎn)-關(guān)系的映射,并采用深度學(xué)習(xí)模型獲得映射規(guī)律與節(jié)點(diǎn)關(guān)系的向量表達(dá)。如TransE[5]、TransH[12]、TransAH[13]以縮小知識(shí)圖譜三元組〈節(jié)點(diǎn),關(guān)系,節(jié)點(diǎn)〉中任意兩個(gè)元素加和后與第三個(gè)元素的距離為節(jié)點(diǎn)-關(guān)系的映射方式,從而得到節(jié)點(diǎn)與關(guān)系的向量表達(dá)。DistMult[14]認(rèn)為節(jié)點(diǎn)與節(jié)點(diǎn)之間的關(guān)系為線性映射;ComplEx[15]針對(duì)DistMult[14]線性映射中有向邊引發(fā)的語(yǔ)義不對(duì)稱性問(wèn)題,將表示學(xué)習(xí)的向量空間推廣到復(fù)數(shù)空間;ConvE[16]、HolE(Holographic Embeddings)[17]分別通過(guò)二維卷積、循環(huán)卷積的方式學(xué)習(xí)節(jié)點(diǎn)-關(guān)系映射模式。上述模型通過(guò)知識(shí)圖譜三元組學(xué)習(xí)節(jié)點(diǎn)-關(guān)系的映射模式,忽略了多關(guān)系數(shù)據(jù)中節(jié)點(diǎn)的多跳關(guān)聯(lián),對(duì)此,Yun 等[18]提出基于元路徑的GTN(Graph Transformer Network)模型,將異構(gòu)圖轉(zhuǎn)換為由元路徑定義的同構(gòu)圖。Kipf 等[6]引入分層傳播規(guī)則對(duì)圖中節(jié)點(diǎn)的多跳鄰居進(jìn)行信息聚合。

網(wǎng)絡(luò)表示學(xué)習(xí)模型(如DeepWalk[2]),通過(guò)隨機(jī)游走從網(wǎng)絡(luò)中采樣得到節(jié)點(diǎn)序列,然后用Skip-gram 算法進(jìn)行序列學(xué)習(xí),得到圖中節(jié)點(diǎn)的向量表達(dá)。DeepWalk 通過(guò)均勻隨機(jī)分布的方式選取隨機(jī)游走序列中下一個(gè)節(jié)點(diǎn),采樣過(guò)程中會(huì)對(duì)中心節(jié)點(diǎn)重復(fù)采樣,Grover 等[3]定義目標(biāo)節(jié)點(diǎn)到鄰居節(jié)點(diǎn)的不同轉(zhuǎn)移概率,將廣度優(yōu)先搜索和深度優(yōu)先搜索引入隨機(jī)游走中,使得采樣序列從不同角度捕獲網(wǎng)絡(luò)特征,從而提高網(wǎng)絡(luò)表示學(xué)習(xí)的效果。不同于DeepWalk 與node2vec 的近鄰相似假設(shè),Ribeiro 等[19]認(rèn)為除共同鄰居外,空間結(jié)構(gòu)相似的節(jié)點(diǎn)也擁有很高的相似性,如星型結(jié)構(gòu)的中心節(jié)點(diǎn)、社區(qū)結(jié)構(gòu)之間的橋接節(jié)點(diǎn)等,并提出基于分層帶權(quán)圖的struc2vec模型。

上述網(wǎng)絡(luò)表示學(xué)習(xí)模型從不同角度提取節(jié)點(diǎn)信息,在鏈路預(yù)測(cè)[1]、節(jié)點(diǎn)分類[2]等任務(wù)中各具優(yōu)勢(shì),但由于采樣過(guò)程主要關(guān)注網(wǎng)絡(luò)結(jié)構(gòu)信息,即僅根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行隨機(jī)游走,忽略了節(jié)點(diǎn)的上下文描述信息[10-11],導(dǎo)致采樣向度中心性較高的節(jié)點(diǎn)偏移[8-9],即越靠近網(wǎng)絡(luò)中心的節(jié)點(diǎn)采樣序列越相似。同時(shí),對(duì)于分布不均衡的網(wǎng)絡(luò),常存在簇內(nèi)連接緊密、簇間關(guān)聯(lián)稀疏的簇結(jié)構(gòu),上述采樣方法可能陷入簇內(nèi),很難全面訪問(wèn)節(jié)點(diǎn)。

對(duì)于上述問(wèn)題,部分研究者提出了通過(guò)構(gòu)建節(jié)點(diǎn)鄰居集[20]、節(jié)點(diǎn)角色抽象圖[21]或節(jié)點(diǎn)-屬性二部圖[4]的方式,獲取除節(jié)點(diǎn)關(guān)系以外的節(jié)點(diǎn)屬性、角色等描述信息。如Hou 等[20]提出通過(guò)屬性相似度進(jìn)行節(jié)點(diǎn)聚類,用有偏采樣方法區(qū)分屬性相似和近鄰相似對(duì)目標(biāo)節(jié)點(diǎn)的影響。Ahmed 等[21]通過(guò)聚類方法定義網(wǎng)絡(luò)中的節(jié)點(diǎn)角色,并根據(jù)節(jié)點(diǎn)類型、標(biāo)簽、屬性值等提出基于節(jié)點(diǎn)角色的隨機(jī)采樣方法。Huang 等[4]提出了一種基于節(jié)點(diǎn)-屬性二部圖的屬性隨機(jī)游走模型,不僅可以將節(jié)點(diǎn)的直接鄰居作為采樣目標(biāo),還可以將節(jié)點(diǎn)的屬性作為采樣目標(biāo)。該方法將屬性抽象成“節(jié)點(diǎn)”進(jìn)行隨機(jī)游走,緩解了采樣向高中心性節(jié)點(diǎn)偏移的問(wèn)題,但缺乏對(duì)屬性采樣概率的考慮,即以不同屬性為橋梁增加網(wǎng)絡(luò)中的節(jié)點(diǎn)交互時(shí),不同屬性對(duì)節(jié)點(diǎn)關(guān)聯(lián)的重要性各異。

2 網(wǎng)絡(luò)表示學(xué)習(xí)算法

2.1 符號(hào)系統(tǒng)

令G={V,E,F(xiàn)T}表示帶屬性的無(wú)向網(wǎng)絡(luò),其中:V={v1,v2,…,vn}表示圖中的節(jié)點(diǎn)集合;E={e1,e2,…,em}表示圖中的邊集合;FT={ft1,ft2,…,ftk}表示圖中節(jié)點(diǎn)的屬性類型集合。令A(yù)∈Rn×n表示網(wǎng)絡(luò)鄰接矩陣,F(xiàn)∈Rn×k表示節(jié)點(diǎn)的屬性值矩陣,其中:n、m、k分別表示圖中節(jié)點(diǎn)、邊、屬性的數(shù)量。

令O∈Rk×k表示由屬性獨(dú)熱(one-hot)向量組成的特征矩陣,如式(1)所示:

令序列集合Seq={Q1,Q2,…,Qn}表示采樣結(jié)果,其中Qi表示以節(jié)點(diǎn)i為起點(diǎn)得到的采樣序列,有:

2.2 基于屬性權(quán)重的隨機(jī)游走方法

節(jié)點(diǎn)間的差異體現(xiàn)在節(jié)點(diǎn)本身所包含的屬性信息以及節(jié)點(diǎn)在網(wǎng)絡(luò)中的拓?fù)浣Y(jié)構(gòu)。文獻(xiàn)[22-24]中的研究表明,節(jié)點(diǎn)的拓?fù)浣Y(jié)構(gòu)與節(jié)點(diǎn)所包含的屬性信息存在顯著關(guān)系。現(xiàn)有工作[5]雖然通過(guò)引入屬性增加了節(jié)點(diǎn)交互的多樣性,但忽略了不同屬性對(duì)節(jié)點(diǎn)關(guān)聯(lián)的作用程度不同。對(duì)此,本文提出基于屬性權(quán)重的隨機(jī)游走方法,其核心在于分析相鄰節(jié)點(diǎn)的共同屬性分布,根據(jù)屬性對(duì)節(jié)點(diǎn)語(yǔ)義關(guān)聯(lián)的影響,提高對(duì)節(jié)點(diǎn)語(yǔ)義關(guān)聯(lián)真正有貢獻(xiàn)的屬性采樣概率。WarWalk 示意圖如圖1 所示。

圖1 WarWalk示意圖Fig.1 Schematic diagram of WarWalk

首先,根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)獲取鄰接矩陣中有直接交互(即有邊)的節(jié)點(diǎn),然后從屬性矩陣中抽取兩個(gè)節(jié)點(diǎn)對(duì)應(yīng)的屬性向量,通過(guò)屬性向量相乘判斷兩個(gè)節(jié)點(diǎn)之間的共有屬性,進(jìn)而獲得不同屬性權(quán)重W∈Rn×k,如式(4)所示:

其中:Wi,a表示節(jié)點(diǎn)i與周?chē)?jié)點(diǎn)產(chǎn)生語(yǔ)義關(guān)聯(lián)時(shí),屬性a的重要程度;degreevi表示節(jié)點(diǎn)i的度;函數(shù)cnt(vi,vj,a)用于統(tǒng)計(jì)有邊關(guān)聯(lián)的節(jié)點(diǎn)i與節(jié)點(diǎn)j是否含有共同屬性a。cnt(vi,vj,a)的計(jì)算公式如式(5)所示:

根據(jù)上述采樣概率矩陣可以計(jì)算得到采樣序列Qi中,從元素到元素采樣的概率如式(8)所示:

根據(jù)上文描述的基于節(jié)點(diǎn)鄰接關(guān)系與屬性關(guān)聯(lián)關(guān)系的混合游走方法,具體實(shí)現(xiàn)過(guò)程如算法1 所示。

2.3 網(wǎng)絡(luò)表示學(xué)習(xí)模型

網(wǎng)絡(luò)采樣過(guò)程決定模型輸入包含何種網(wǎng)絡(luò)信息,序列特征學(xué)習(xí)則決定了模型可以從輸入中學(xué)習(xí)何種特征形成節(jié)點(diǎn)向量表達(dá)。本文以WarWalk 中的采樣序列為輸入,通過(guò)自注意力機(jī)制提取序列特征獲得節(jié)點(diǎn)向量表達(dá),如圖2 所示。

圖2 NE-NAB示意圖Fig.2 Schematic diagram of NE-NAB

首先,通過(guò)屬性矩陣F與屬性獨(dú)熱矩陣O初始化序列Qi中對(duì)應(yīng)元素的向量表達(dá),并將其映射到低維向量中展開(kāi)計(jì)算,如式(9)所示:

在上述序列向量矩陣中,表示從節(jié)點(diǎn)i出發(fā),第一次采樣經(jīng)過(guò)j-1 跳可以到達(dá)的元素,表示從節(jié)點(diǎn)i出發(fā),第二次采樣經(jīng)過(guò)j-1 跳可以到達(dá)的元素,對(duì)此,通過(guò)平均池化的方式,將每次采樣得到的信息按照跳數(shù)進(jìn)行整合,如式(10)~(11)所示:

接著,通過(guò)基于自注意力機(jī)制堆疊前饋神經(jīng)網(wǎng)絡(luò)的序列學(xué)習(xí)模塊提取不同跳數(shù)上的元素特征,如式(12)~(13)所示:

根據(jù)上述模塊得到采樣序列中每個(gè)元素的向量表達(dá)。由于每個(gè)采樣序列是由一個(gè)目標(biāo)節(jié)點(diǎn)出發(fā)得到,因此所得表達(dá)不僅包含目標(biāo)節(jié)點(diǎn)自身的語(yǔ)義特征表達(dá),還包含其不同跳鄰居的語(yǔ)義特征表達(dá)。類比GCN 中的信息聚合方式[6],此處通過(guò)平均池化與向量拼接⊕得到節(jié)點(diǎn)i的向量表達(dá)vi∈Rd,d表示向量維度,如式(14)所示:

根據(jù)所得節(jié)點(diǎn)向量表達(dá),使用Softmax()函數(shù)為每個(gè)節(jié)點(diǎn)計(jì)算每個(gè)類別對(duì)應(yīng)的概率,并使用交叉熵計(jì)算模型的損失,如式(15)~(16)所示:

PDCA循環(huán)貫穿整個(gè)項(xiàng)目施工過(guò)程,從最初的立項(xiàng)、結(jié)構(gòu)圖紙?jiān)O(shè)計(jì)、現(xiàn)場(chǎng)的施工進(jìn)度管理、質(zhì)量控制措施,安全管理等。隨著現(xiàn)代管理水平和施工技術(shù)水平的迅猛發(fā)展,在土木工程施工的過(guò)程中PDCA循環(huán)的應(yīng)用越來(lái)越普遍,所起的作用也越來(lái)越顯著。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)集與預(yù)處理

本文實(shí)驗(yàn)數(shù)據(jù)情況如表1 所示。其中:n、m分別表示網(wǎng)絡(luò)中的節(jié)點(diǎn)、邊數(shù)量;k、l表示網(wǎng)絡(luò)屬性種類、節(jié)點(diǎn)標(biāo)簽數(shù)量;Edge Density 與Attributed Density 分別表示邊與屬性的分布密度。

表1 實(shí)驗(yàn)數(shù)據(jù)信息統(tǒng)計(jì)Tab.1 Statistics of experimental datasets

三個(gè)數(shù)據(jù)集分別如下:

1)Flickr 由圖片分享網(wǎng)站中的7 575 個(gè)用戶、12 047 種用戶描述信息與239 738 條好友關(guān)系組成,根據(jù)用戶喜歡的圖片類型,可將其劃分為9 種不同的興趣組;

2)BlogCatalog 是由博客社區(qū)中的5 196 個(gè)博主、171 743條關(guān)系組成,博主屬性由8 189 個(gè)博客關(guān)鍵字描述構(gòu)成,可將其劃分為6 種不同的類別;

3)Cora 數(shù)據(jù)集由2 708 篇論文、5 278 條引用關(guān)系組成,論文節(jié)點(diǎn)的屬性由1 433 個(gè)摘要關(guān)鍵詞組成,可劃分為7 種不同主題。

由于數(shù)據(jù)集來(lái)自不同領(lǐng)域,網(wǎng)絡(luò)稀疏性與屬性分布情況各不相同,所得實(shí)驗(yàn)結(jié)果能夠較好地反映出本文所提表示學(xué)習(xí)算法模型的魯棒性和泛化性。

3.2 實(shí)驗(yàn)設(shè)置

在模型訓(xùn)練過(guò)程中,設(shè)置屬性采樣概率α=0.4,學(xué)習(xí)率為0.000 1,隱藏層神經(jīng)單元數(shù)為200,dropout設(shè)置為0.2,算法迭代次數(shù)為100。

為驗(yàn)證模型性能,根據(jù)近期相關(guān)工作選取DeepWalk[2]、node2vec[3]以及GraphRNA(Graph Recurrent Networks with Attributed random walks)[4]為基準(zhǔn),并構(gòu)建了基于NE-NAB 的兩種對(duì)比模型,具體如下:

1)DeepWalk。只從節(jié)點(diǎn)關(guān)系采樣,然后采用Skip-gram學(xué)習(xí)網(wǎng)絡(luò)節(jié)點(diǎn)的向量表達(dá)。

2)node2vec。在DeepWalk 的基礎(chǔ)上引入超參數(shù)p、q控制節(jié)點(diǎn)的深度優(yōu)先采樣和廣度優(yōu)先采樣趨勢(shì),隨機(jī)游走仍然只考慮節(jié)點(diǎn)關(guān)聯(lián)關(guān)系。

3)GraphRNA。通過(guò)節(jié)點(diǎn)-屬性二部圖采樣獲得既包含節(jié)點(diǎn)關(guān)系又包含節(jié)點(diǎn)屬性描述信息的序列,然后通過(guò)循環(huán)神經(jīng)網(wǎng)絡(luò)提取節(jié)點(diǎn)信息,獲得節(jié)點(diǎn)向量表達(dá)。但是,在屬性采樣時(shí),未考慮屬性對(duì)節(jié)點(diǎn)間關(guān)系的影響。

4)NE-NAB_NW。與NE-NAB 相比,在屬性采樣時(shí),使用不加權(quán)重的屬性矩陣為采樣依據(jù),即使用GraphRNA 中的AttriWalk 采樣方式,然后通過(guò)基于自注意力機(jī)制堆疊前饋神經(jīng)網(wǎng)絡(luò)的方式學(xué)習(xí)采樣序列中的特征。

5)NE-NAB_NA。如圖3 所示,與NE-NAB 相比,在得到不同跳的聚合信息后,直接聚合節(jié)點(diǎn)i的多跳鄰居信息。通過(guò)對(duì)比NE-NAB_NA 與NE-NAB,可驗(yàn)證所提自注意力機(jī)制堆疊前饋神經(jīng)網(wǎng)絡(luò)在序列特征提取中的性能。

圖3 NE-NAB_NA示意圖Fig.3 Schematic diagram of NE-NAB_NA

3.3 節(jié)點(diǎn)分類任務(wù)

網(wǎng)絡(luò)節(jié)點(diǎn)分類指通過(guò)節(jié)點(diǎn)與其他節(jié)點(diǎn)的關(guān)聯(lián)關(guān)系等網(wǎng)絡(luò)結(jié)構(gòu)信息、節(jié)點(diǎn)的屬性描述等上下文信息對(duì)節(jié)點(diǎn)進(jìn)行分類。通過(guò)節(jié)點(diǎn)分類,可以有效區(qū)分不同類別的實(shí)體,從而根據(jù)實(shí)體類別進(jìn)行信息管理和推薦。NE-NAB 與對(duì)比模型在3個(gè)數(shù)據(jù)集中的節(jié)點(diǎn)分類實(shí)驗(yàn)結(jié)果如表2 所示,為與相關(guān)工作保持一致,將數(shù)據(jù)集劃分為訓(xùn)練集、測(cè)試集和驗(yàn)證集,其中訓(xùn)練集的比例(Training Rate,TR)根據(jù)50%、70%、90%依次遞增。由于,采樣過(guò)程具有隨機(jī)性,所以相同比例訓(xùn)練集的實(shí)驗(yàn)將重復(fù)進(jìn)行10 次,實(shí)驗(yàn)結(jié)果取平均值,以Micro-F1、Macro-F1 為評(píng)判標(biāo)準(zhǔn)。

表2 Flickr、BlogCatalog和Cora數(shù)據(jù)集上的節(jié)點(diǎn)分類結(jié)果 單位:%Tab.2 Node classification results on Flickr,BlogCatalog and Cora datasets unit:%

由實(shí)驗(yàn)結(jié)果可知,在Flickr、BlogCatalog、Cora 公開(kāi)數(shù)據(jù)集上,用NE-NAB、GraphRNA、DeepWalk 得到的節(jié)點(diǎn)向量表達(dá)進(jìn)行節(jié)點(diǎn)分類,Micro-F1 平均準(zhǔn)確率分別為89.38%、87.36%、68.26%,NE-NAB 比GraphRNA 高出了2.02 個(gè)百分點(diǎn),比經(jīng)典工作DeepWalk 高出了21.12 個(gè)百分點(diǎn)。此外,與DeepWalk、node2vec、GraphRNA 等模型相比,NE-NAB 在節(jié)點(diǎn)分類任務(wù)中呈現(xiàn)出較好的穩(wěn)定性與魯棒性,當(dāng)Cora 數(shù)據(jù)集中的訓(xùn)練集比例為70%時(shí),NE-NAB 與GraphRNA 相比性能提高5.24%。

在使用WarWalk 方法進(jìn)行隨機(jī)游走后,NE-NAB_NA 通過(guò)簡(jiǎn)單映射模型可以獲得與GraphRNA 相當(dāng)?shù)男阅?,說(shuō)明本文所提WarWalk 方法可以通過(guò)提高部分屬性的采樣概率,有效增加網(wǎng)絡(luò)中的節(jié)點(diǎn)關(guān)聯(lián),使采樣序列包含更多網(wǎng)絡(luò)信息,提高了表示學(xué)習(xí)模型輸入數(shù)據(jù)的信息質(zhì)量。該結(jié)論可通過(guò)對(duì)比NE-NAB 與NE-NAB_NW 的性能驗(yàn)證。當(dāng)Cora 數(shù)據(jù)集中訓(xùn)練集比例為90%時(shí),使用WarWalk 方法的NE-NAB 與不使用的該采樣方法的NE-NAB_NW 模型性能差異最大,其中MicroF1 增加了3.73%,MacroF1 增加了4.05%。

此外,在不使用WarWalk 方法進(jìn)行隨機(jī)游走時(shí),NENAB_NW 的性能在BlogCatalog、Cora 數(shù)據(jù)上的效果均優(yōu)于DeepWalk、node2vec、GraphRNA 等模型,在Flickr 上的效果與GraphRNA 相當(dāng),由此可以說(shuō)明:相較于GraphRNA 中的循環(huán)神經(jīng)網(wǎng)絡(luò),本文提出通過(guò)基于自注意力機(jī)制堆疊前饋神經(jīng)網(wǎng)絡(luò)的序列特征學(xué)習(xí)方法可更好地學(xué)習(xí)節(jié)點(diǎn)序列的屬性與結(jié)構(gòu)信息。當(dāng)NE-NAB 與NE-NAB_NA 都采用基于屬性權(quán)重的隨機(jī)游走方法時(shí),該結(jié)論同樣成立。NE-NAB 的性能優(yōu)于NE-NAB_NA 模型,說(shuō)明基于自注意力機(jī)制堆疊前饋神經(jīng)網(wǎng)絡(luò)的方法可以有效提取序列特征并將節(jié)點(diǎn)的上下文信息融入節(jié)點(diǎn)向量表達(dá)中。

在Flickr 與BlogCatalog 數(shù)據(jù)集上,隨著訓(xùn)練數(shù)據(jù)從70%增加到90%,GraphRNA 與NE-NAB、NE-NAB_NA、NENAB_NW 等模型的節(jié)點(diǎn)分類實(shí)驗(yàn)結(jié)果不增反降,這一下降趨勢(shì)在NE-NAB_NW 中較明顯,當(dāng)Flickr 數(shù)據(jù)集中的訓(xùn)練集比例為90%,Micro-F1 降低了2.92%。主要原因可能是隨著訓(xùn)練集的增加,訓(xùn)練數(shù)據(jù)中節(jié)點(diǎn)關(guān)系帶來(lái)的主要結(jié)構(gòu)信息增加,通過(guò)共有屬性引入的信息易對(duì)主要信息造成影響,從而導(dǎo)致性能下降。

3.4 案例分析

為驗(yàn)證屬性權(quán)重對(duì)采樣過(guò)程中提取網(wǎng)絡(luò)信息的貢獻(xiàn),本文選取了三種方法進(jìn)行了對(duì)比實(shí)驗(yàn):

1)RandomWalk[2-3]。只根據(jù)節(jié)點(diǎn)關(guān)系進(jìn)行隨機(jī)游走。

2)AttriWalk[4]。根據(jù)節(jié)點(diǎn)關(guān)系與不含權(quán)重的屬性矩陣進(jìn)行隨機(jī)游走。

3)WarWalk。根據(jù)節(jié)點(diǎn)鄰接關(guān)系和屬性關(guān)聯(lián)關(guān)系進(jìn)行隨機(jī)游走。

實(shí)驗(yàn)之前固定采樣長(zhǎng)度len=5,每個(gè)節(jié)點(diǎn)的采樣次數(shù)為num=100,節(jié)點(diǎn)采樣偏差α=0.4。

分別對(duì)三種隨機(jī)游走方法所得序列中的節(jié)點(diǎn)類別進(jìn)行統(tǒng)計(jì),以節(jié)點(diǎn)i為例,在以節(jié)點(diǎn)i為起點(diǎn)的采樣序列中,統(tǒng)計(jì)除采樣起點(diǎn)外,與節(jié)點(diǎn)i含有相同類別的節(jié)點(diǎn)數(shù)量為ni,序列中除節(jié)點(diǎn)i之外的節(jié)點(diǎn)總數(shù)為sumi,節(jié)點(diǎn)i采樣序列中含有相同標(biāo)簽節(jié)點(diǎn)所占比例Probi如式(17)所示:

用RW、AW、WW分別表示RandomWalk、AttriWalk、WarWalk。在三種采樣中,所得采樣序列中與目標(biāo)節(jié)點(diǎn)含有相同標(biāo)簽的節(jié)點(diǎn)所占比例分別記為以RandomWalk 為例,具體計(jì)算方式如式(18)所示:

在Flickr 中的所有n=7 575 個(gè)節(jié)點(diǎn)中,與RandomWalk 方法相比,使用AttriWalk 與WarWalk 方法后,采樣序列中與目標(biāo)節(jié)點(diǎn)含有相同標(biāo)簽的節(jié)點(diǎn)所占比例分別增加了14.91%和15.05%,即增加屬性對(duì)網(wǎng)絡(luò)元素進(jìn)行隨機(jī)游走,尤其對(duì)共有屬性分析計(jì)算權(quán)重,調(diào)整不同屬性采樣概率后,采樣序列中與目標(biāo)節(jié)點(diǎn)含相同標(biāo)簽的節(jié)點(diǎn)采樣概率整體增加。為更好地驗(yàn)證上述結(jié)論,在Flickr 數(shù)據(jù)集中隨機(jī)選取5 個(gè)節(jié)點(diǎn),在相同采樣設(shè)置、不同采樣方法中,對(duì)每個(gè)節(jié)點(diǎn)采樣得到的序列中與目標(biāo)節(jié)點(diǎn)含有相同標(biāo)簽的節(jié)點(diǎn)占總采樣序列總節(jié)點(diǎn)的比例分布如圖4 所示。由圖4 可知,在增加屬性采樣,并提高對(duì)節(jié)點(diǎn)關(guān)聯(lián)有促進(jìn)作用的屬性采樣概率后,能夠在采樣過(guò)程中更好地獲得與目標(biāo)節(jié)點(diǎn)標(biāo)簽相同的節(jié)點(diǎn),增加采樣序列所含信息。

圖4 Flickr數(shù)據(jù)集中與目標(biāo)節(jié)點(diǎn)含相同標(biāo)簽的節(jié)點(diǎn)占比Fig.4 Proportion of nodes with common labels with target node in Flickr dataset

4 結(jié)語(yǔ)

本文通過(guò)分析屬性對(duì)節(jié)點(diǎn)關(guān)系的影響程度,計(jì)算隨機(jī)游走過(guò)程中的屬性采樣權(quán)重,充分挖掘網(wǎng)絡(luò)潛在信息,并在有限采樣次數(shù)中獲取網(wǎng)絡(luò)結(jié)構(gòu)與節(jié)點(diǎn)屬性信息,然后提出基于注意力機(jī)制堆疊前饋神經(jīng)網(wǎng)絡(luò)的模塊提取序列中的節(jié)點(diǎn)特征,從而獲得高質(zhì)量的網(wǎng)絡(luò)節(jié)點(diǎn)向量表達(dá)。本文模型與設(shè)計(jì)的實(shí)驗(yàn)主要面向帶屬性的同質(zhì)網(wǎng)絡(luò),在未來(lái)的工作中,將針對(duì)如何提取異質(zhì)網(wǎng)絡(luò)屬性信息展開(kāi)研究。同質(zhì)網(wǎng)絡(luò)與異質(zhì)網(wǎng)絡(luò)的區(qū)別在于節(jié)點(diǎn)類型與關(guān)系類型的多樣性。一般地,同種類型的節(jié)點(diǎn)才會(huì)有相似的屬性,而不同類型的節(jié)點(diǎn)很難有相似的屬性,所以基于屬性的隨機(jī)游走方式可以有效捕獲同類節(jié)點(diǎn)間的特征,但在異質(zhì)網(wǎng)絡(luò)中將主要考慮如何將關(guān)系類型與關(guān)系屬性合理納入游走機(jī)制中。

猜你喜歡
關(guān)聯(lián)向量節(jié)點(diǎn)
向量的分解
基于圖連通支配集的子圖匹配優(yōu)化算法
聚焦“向量與三角”創(chuàng)新題
結(jié)合概率路由的機(jī)會(huì)網(wǎng)絡(luò)自私節(jié)點(diǎn)檢測(cè)算法
面向復(fù)雜網(wǎng)絡(luò)的節(jié)點(diǎn)相似性度量*
采用貪婪啟發(fā)式的異構(gòu)WSNs 部分覆蓋算法*
“一帶一路”遞進(jìn),關(guān)聯(lián)民生更緊
奇趣搭配
智趣
向量垂直在解析幾何中的應(yīng)用
庆城县| 扬中市| 漳平市| 仪征市| 侯马市| 施甸县| 平遥县| 湖北省| 磴口县| 芜湖县| 天峨县| 平安县| 武夷山市| 得荣县| 哈巴河县| 西青区| 科技| 务川| 南涧| 金山区| 繁昌县| 房山区| 手机| 潼南县| 丰城市| 高阳县| 宜宾市| 政和县| 拉萨市| 菏泽市| 晴隆县| 盘山县| 宝兴县| 台北县| 扶余县| 新建县| 云阳县| 黄陵县| 柯坪县| 德江县| 定安县|