国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多粒度的異質(zhì)圖表示

2023-04-06 18:58:23芮品德趙桓幜趙姝張燕平
關(guān)鍵詞:層次結(jié)構(gòu)質(zhì)子異質(zhì)

芮品德 ,趙桓幜 ,趙姝 *,張燕平

(1.計(jì)算與信號(hào)處理教育部重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230601;2.安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;3.安徽省信息材料與智能傳感重點(diǎn)實(shí)驗(yàn)室,安徽 合肥 230601)

0 引言

如今,隨著生產(chǎn)生活造就的“大數(shù)據(jù)”時(shí)代,“大數(shù)據(jù)”通常與多種類型的對(duì)象和關(guān)系相關(guān)聯(lián),利用同質(zhì)圖來(lái)抽象這些復(fù)雜的交互關(guān)系較為困難,而異質(zhì)圖[1]可以有效建模這樣的復(fù)雜系統(tǒng)。因此,挖掘異質(zhì)圖潛在的價(jià)值具有重要的現(xiàn)實(shí)意義。異質(zhì)圖表示學(xué)習(xí)[2-3]是挖掘異質(zhì)圖的重要工具之一,其目標(biāo)是將異質(zhì)圖中的節(jié)點(diǎn)投影到一個(gè)潛在的低維空間中,從而保留圖中蘊(yùn)含的豐富的結(jié)構(gòu)和語(yǔ)義信息,同時(shí)這些表示可以較好地服務(wù)于下游任務(wù)如節(jié)點(diǎn)分類[4]、網(wǎng)絡(luò)可視化[5-6]和社區(qū)發(fā)現(xiàn)[7-8]等。

異質(zhì)圖包含多種類型的節(jié)點(diǎn)和多種類型的關(guān)系。目前的異質(zhì)圖表示方法[9-14]主要根據(jù)元路徑[1]、元圖[15-17]和網(wǎng)絡(luò)模式[18]所代表的語(yǔ)義信息進(jìn)行采樣,將異質(zhì)圖轉(zhuǎn)化為給定語(yǔ)義下的節(jié)點(diǎn)序列或子圖。元路徑是定義在節(jié)點(diǎn)之間的關(guān)系序列,元圖則是一種多條元路徑非線性組合的更復(fù)雜的關(guān)系序列。不同于元路徑和元圖,網(wǎng)絡(luò)模式是異質(zhì)圖中所有的關(guān)系類型的不重復(fù)集合。早期的異質(zhì)圖表示學(xué)習(xí)方法通過(guò)基于元路徑、元圖的隨機(jī)游走序列采樣,并利用淺層模型學(xué)習(xí)節(jié)點(diǎn)間的局部結(jié)構(gòu)信息。而后,基于深度圖神經(jīng)網(wǎng)絡(luò)的方法則是利用元路徑、網(wǎng)絡(luò)模式對(duì)異質(zhì)圖采樣以得到不同語(yǔ)義下的同質(zhì)子圖,并通過(guò)深度神經(jīng)網(wǎng)絡(luò)建模以學(xué)習(xí)同類型節(jié)點(diǎn)在同質(zhì)子圖上的局部信息。這些方法主要關(guān)注于異質(zhì)圖中同類型節(jié)點(diǎn)的局部相似度,而現(xiàn)實(shí)世界的異質(zhì)圖中往往存在著層次結(jié)構(gòu),并且該層次結(jié)構(gòu)對(duì)于學(xué)習(xí)圖的表示起重要作用。

以學(xué)校中的學(xué)生和課程構(gòu)建的異質(zhì)圖為例,在圖1中,隨著粒度由細(xì)到粗,每個(gè)粒度上的節(jié)點(diǎn)都存在著共性。從最細(xì)粒度開(kāi)始(學(xué)生),每個(gè)學(xué)生都是獨(dú)立的個(gè)體。在更粗的一個(gè)粒度上(專業(yè)),每個(gè)專業(yè)有各自必修的課程。如軟件工程專業(yè)的學(xué)生必修軟件設(shè)計(jì)課程,網(wǎng)絡(luò)工程專業(yè)的學(xué)生必修網(wǎng)絡(luò)安全課程等。在更粗的一個(gè)粒度上(院系),每個(gè)院系有各自的專業(yè)基礎(chǔ)課,如計(jì)算機(jī)系學(xué)習(xí)計(jì)算機(jī)導(dǎo)論,化學(xué)系學(xué)習(xí)有機(jī)化學(xué)等。在最粗粒度(學(xué)校)上,所有學(xué)生會(huì)統(tǒng)一學(xué)習(xí)毛概課程。從多粒度視角來(lái)看,異質(zhì)圖中包含著層次結(jié)構(gòu)信息,并且隨著粒度由細(xì)變粗,不同類型的節(jié)點(diǎn)間依舊保持著拓?fù)渖系年P(guān)聯(lián)關(guān)系。因此,如何在異質(zhì)圖表示中保留層次結(jié)構(gòu)信息是本文待解決的問(wèn)題。

為解決上述問(wèn)題,我們引入商空間理論[19]中多粒度的思想。該思想的核心是在不同粒度下對(duì)問(wèn)題進(jìn)行分析和探究,并綜合問(wèn)題在不同粒度中的解來(lái)獲得原問(wèn)題的解的過(guò)程,在求解問(wèn)題的同時(shí)也保留了不同粒層的信息?;谠撍枷?,我們將尋求最優(yōu)的異質(zhì)圖表示作為原問(wèn)題,構(gòu)建多個(gè)多粒度子網(wǎng)絡(luò),并在學(xué)習(xí)圖的表示的過(guò)程中量化節(jié)點(diǎn)在各個(gè)粒度內(nèi)的潛在關(guān)聯(lián)關(guān)系,以保留異質(zhì)圖的層次結(jié)構(gòu)信息。具體來(lái)說(shuō),我們首先基于不同的元路徑將異質(zhì)圖采樣成多個(gè)同質(zhì)子圖以處理異質(zhì)性,再對(duì)同質(zhì)子圖進(jìn)行社團(tuán)劃分以逐層粗化,最終形成多個(gè)多粒度子網(wǎng)絡(luò)以保留層次結(jié)構(gòu)。其次,對(duì)于每個(gè)多粒度子網(wǎng)絡(luò),在其最粗層通過(guò)現(xiàn)有的圖表示學(xué)習(xí)方法得到最粗圖的表示,再將最粗層圖的表示利用不同粒度間的轉(zhuǎn)換關(guān)系逐層細(xì)化,以得到異質(zhì)圖中的節(jié)點(diǎn)在該多粒度子網(wǎng)絡(luò)下的表示。最后,利用注意力機(jī)制學(xué)習(xí)不同元路徑的權(quán)重,以對(duì)不同元路徑對(duì)應(yīng)的多粒度子網(wǎng)絡(luò)下的表示進(jìn)行融合,并得到節(jié)點(diǎn)的最終表示。本文貢獻(xiàn)點(diǎn)如下:

1) 針對(duì)目前的異質(zhì)圖表示學(xué)習(xí)未考慮圖中的層次結(jié)構(gòu)信息這一問(wèn)題,提出基于多粒度的異質(zhì)圖表示學(xué)習(xí)方法?;诙嗔6人枷耄诋愘|(zhì)圖表示過(guò)程中保留層次結(jié)構(gòu)信息,以獲得更有效的節(jié)點(diǎn)表示。

2) 提出基于多粒度的異質(zhì)圖表示學(xué)習(xí)方法(Heterogeneous Graph Representations Based on Multi-granularity, HeMug)。通過(guò)元路徑構(gòu)建多個(gè)同質(zhì)子圖,利用社團(tuán)劃分將同質(zhì)子圖形成多粒度子網(wǎng)絡(luò)來(lái)保留層次結(jié)構(gòu)信息。

3) 本文在 ACM(Association for Computing Machinery)、DBLP(DataBase systems and Logic Programming)、Aminer(Academic Research Net?work Miner)和Freebase四個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明了所提方法HeMug的有效性。

1 相關(guān)工作

多粒度思想是從不同角度和多個(gè)層次對(duì)問(wèn)題進(jìn)行求解,并綜合多個(gè)側(cè)面理解來(lái)獲得原問(wèn)題的解。粒計(jì)算方法是針對(duì)多粒度數(shù)據(jù)的研究方法,目前已有許多研究工作。如,商空間理論[19-21]將復(fù)雜問(wèn)題表示成不同的粒度空間,研究粒層之間的轉(zhuǎn)換關(guān)系,綜合不同粒度空間的解來(lái)組合原問(wèn)題的解。粗糙集理論[22-23]是利用不可分辨關(guān)系建立近似空間,基于已知的局部知識(shí)的融合得到更全面的知識(shí)。三支決策[24]將復(fù)雜問(wèn)題映射到三個(gè)不同域中,對(duì)不同的部分分別進(jìn)行分析求解。

在異質(zhì)圖表示學(xué)習(xí)中,目前的方法可大致分為兩類:淺層的異質(zhì)圖表示和深層的異質(zhì)圖表示?;跍\層模型的方法主要通過(guò)基于元路徑和元圖的隨機(jī)游走來(lái)將異質(zhì)圖分解為多個(gè)節(jié)點(diǎn)序列,然后利用淺層神經(jīng)網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)序列中節(jié)點(diǎn)的局部信息進(jìn)行建模,以得到節(jié)點(diǎn)的表示。Metapath2vec(Scalable Representation Learning for Heterogeneous Networks)[25]利用單條元路徑指導(dǎo)的隨機(jī)游走來(lái)獲取圖的局部結(jié)構(gòu),并通過(guò)異質(zhì)的skip-gram模型來(lái)學(xué)習(xí)節(jié)點(diǎn)的表示。HHNE(Hyperbolic Hetero?geneous Information Network Embedding)[26]引入雙曲空間中的黎曼流形來(lái)學(xué)習(xí)基于單條元路徑隨機(jī)游走序列中節(jié)點(diǎn)間的相似性。HERec(Hetero?geneous Information Network Embedding for Rec?ommendation)[27]則是通過(guò)在多條元路徑指導(dǎo)的隨機(jī)游走序列中提取相同類型的節(jié)點(diǎn),以構(gòu)造同類型節(jié)點(diǎn)間的游走序列來(lái)學(xué)習(xí)同類型節(jié)點(diǎn)間的局部結(jié) 構(gòu) 。 Metagraph2vec(Complex Semantic Path Augmented Heterogeneous Network Embedding)[28]提出基于元圖隨機(jī)游走來(lái)處理異質(zhì)圖的異質(zhì)性并利用skip-gram模型學(xué)習(xí)局部相似度。Mg2vec(Learning Relationship-preserving Heterogeneous Graph Representations via Metagraph Embedding)[29]將元圖映射到與節(jié)點(diǎn)相同的表示空間中,即聯(lián)合學(xué)習(xí)元圖和節(jié)點(diǎn)的表示。

基于深層模型的方法主要基于元路徑和網(wǎng)絡(luò)模式采樣多個(gè)同質(zhì)子圖,然后利用深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)節(jié)點(diǎn)間非線性的關(guān)系。如,HAN(Heterogeneous Graph Attention Network)[30]通過(guò)不同的對(duì)稱元路徑構(gòu)建多個(gè)同質(zhì)子圖,并設(shè)計(jì)注意力機(jī)制學(xué)習(xí)同類型節(jié)點(diǎn)在各個(gè)同質(zhì)子圖內(nèi)的局部結(jié)構(gòu)信息。MAGNN(Metapath Aggre?gated Graph Neural Network for Heterogeneous Graph Embedding)[31]在 HAN 的基礎(chǔ)上保留同質(zhì)子圖內(nèi)節(jié)點(diǎn)的局部結(jié)構(gòu)信息時(shí),量化了不同類型節(jié)點(diǎn)的影響。NSHE(Network Schema Pre?serving Heterogeneous Information Network Em?bedding)[18]提出一種以網(wǎng)絡(luò)模式采樣的方法來(lái)抽取子圖,然后構(gòu)建多任務(wù)學(xué)習(xí)來(lái)學(xué)習(xí)節(jié)點(diǎn)的表 示 。 HeCo(Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learn?ing)[32]提出一種新的混合神經(jīng)網(wǎng)絡(luò)協(xié)同對(duì)比學(xué)習(xí)機(jī)制,利用元路徑和網(wǎng)絡(luò)模式兩種視角進(jìn)行對(duì)比以融合同類型節(jié)點(diǎn)之間和不同類型節(jié)點(diǎn)之間的局部結(jié)構(gòu)信息。

綜上,淺層的異質(zhì)圖表示側(cè)重于捕獲異質(zhì)圖中的局部結(jié)構(gòu),雖然基于skip-gram(Efficient estimation of word representations in vector space)的方法可以通過(guò)增大滑動(dòng)窗口的方式捕獲全局信息,但會(huì)導(dǎo)致模型過(guò)平滑的問(wèn)題,并且該類方法缺乏對(duì)于層次結(jié)構(gòu)的保留。深層的異質(zhì)圖表示利用深度神經(jīng)網(wǎng)絡(luò)保留各個(gè)元路徑、網(wǎng)絡(luò)模式采樣的同質(zhì)子圖內(nèi)的局部信息,相比于淺層模型獲得了更強(qiáng)的表示,但模型依舊缺乏對(duì)于層次結(jié)構(gòu)的保留。為了在異質(zhì)圖表示學(xué)習(xí)中有效地保留圖中的層次結(jié)構(gòu),我們根據(jù)多粒度,提出在異質(zhì)圖中基于元路徑構(gòu)建多粒度子網(wǎng)絡(luò),并利用注意力機(jī)制融合不同多粒度子網(wǎng)絡(luò)信息的方法。

2 相關(guān)定義

本節(jié)中,將給出異質(zhì)圖、異質(zhì)圖表示、同質(zhì)子圖和多粒度子網(wǎng)絡(luò)的相關(guān)定義。

定義1 異質(zhì)圖:給定異質(zhì)圖G=(V,E,T,?,φ),其中 V 和 E 分別表示節(jié)點(diǎn)集和邊集。每個(gè)點(diǎn)v∈V存在點(diǎn)類型映射函數(shù)?:V→TV。每條邊e∈E存在邊類型映射函數(shù)?:E→TE,其中TV和TE分別表示節(jié)點(diǎn)和邊的類型集合,并且|TV|>=1且| |TE>=1。

定義2 異質(zhì)圖表示:對(duì)于異質(zhì)圖G中的節(jié)點(diǎn)v∈V,通過(guò)學(xué)習(xí)映射f:v→Rd將其投影到低維空間,其中d?| |V。

定義3 同質(zhì)子圖:給定異質(zhì)圖G中的任一節(jié)點(diǎn)類型ε∈?(V)和元路徑Pt,存在同質(zhì)子圖GPt=(V′,E′,A′),V′中的節(jié)點(diǎn)需滿足屬于同一節(jié)點(diǎn)類型,形式化為 ?v∈V′, ?(v)= ε,A′是加權(quán)鄰接矩陣, 權(quán)重值是節(jié)點(diǎn)間的相似度。

定義4 多粒度子網(wǎng)絡(luò):給定一個(gè)同質(zhì)子圖GPt=(V′,E′,A′),使,一系列在不同粒度下的網(wǎng)絡(luò)構(gòu)成的集合稱為多粒度子網(wǎng)絡(luò)。?表示更細(xì)的,代表相比于來(lái)自于更細(xì)的粒度。隨著粒度變粗,粗粒度下的節(jié)點(diǎn)集合是由細(xì)粒度下′的節(jié)點(diǎn)構(gòu)造而成的,且存在

3 基于多粒度的異質(zhì)圖表示

本文提出的基于多粒度的異質(zhì)圖表示模型HeMug如圖2所示,HeMug共分為三個(gè)部分。(1)基于同質(zhì)子圖構(gòu)建多粒度子網(wǎng)絡(luò)。通過(guò)多條元路徑將異質(zhì)圖劃分為多個(gè)同質(zhì)子圖以處理異質(zhì)性,接著利用社團(tuán)劃分的方法將多個(gè)同質(zhì)子圖粗化為不同的多粒度子網(wǎng)絡(luò)。(2)多粒度子網(wǎng)絡(luò)表示。對(duì)于每個(gè)多粒度子網(wǎng)絡(luò),利用現(xiàn)有的表示學(xué)習(xí)方法在最粗層學(xué)習(xí)獲得最粗層節(jié)點(diǎn)的表示,然后再逐層細(xì)化得到節(jié)點(diǎn)在該多粒度子網(wǎng)絡(luò)下的表示。(3)融合不同元路徑下的多粒度子網(wǎng)絡(luò)表示。利用注意力機(jī)制融合不同元路徑下多粒度子網(wǎng)絡(luò)的節(jié)點(diǎn)表示。

3.1 基于同質(zhì)子圖構(gòu)建多粒度子網(wǎng)絡(luò)

元路徑是異質(zhì)圖中一種能夠表達(dá)語(yǔ)義的結(jié)構(gòu),它被普遍地用于衡量節(jié)點(diǎn)間的相似度。例如 ,Pathsim(Meta Pathbased Top-k Similarity Search in Heterogeneous Information Networks)[1]是一種基于對(duì)稱元路徑的測(cè)量同類型節(jié)點(diǎn)間相似度的方法,節(jié)點(diǎn)vx和vy之間的相似度由這兩個(gè)節(jié)點(diǎn)基于給定元路徑Pt的路徑實(shí)例數(shù)的歸一化來(lái)表示的,其公式如下:

其中,INSPt(a,b)是從點(diǎn)a出發(fā)到點(diǎn)b的滿足元路徑Pt的所有節(jié)點(diǎn)序列條數(shù),該公式可以看出點(diǎn)vx和點(diǎn)vy之間基于元路徑Pt的相似度取決于兩點(diǎn)之間滿足Pt的節(jié)點(diǎn)序列條數(shù)以及從兩點(diǎn)出發(fā)再返回兩點(diǎn)的滿足Pt的節(jié)點(diǎn)序列條數(shù)。節(jié)點(diǎn)間的相似性代表著節(jié)點(diǎn)間相關(guān)的重要程度,因此我們將節(jié)點(diǎn)之間的相似性視為邊權(quán)重,并利用同類型節(jié)點(diǎn)對(duì)應(yīng)的相似性矩陣來(lái)構(gòu)建加權(quán)的同質(zhì)子圖。每條元路徑只能從一個(gè)側(cè)面反映異質(zhì)圖的語(yǔ)義信息,為了在圖表示中更全面地保留異質(zhì)圖的信息,利用不同的元路徑來(lái)構(gòu)建多個(gè)同質(zhì)子圖是必要的。給定一個(gè) 包含 T 個(gè)對(duì)稱元路徑集合 P={P1,P2,…,PT},基于每條元路徑Pt∈P構(gòu)建一個(gè)同質(zhì)子圖。同質(zhì)子圖集包含同種類型節(jié)點(diǎn)間的不同語(yǔ)義信息,其中每個(gè)同質(zhì)子圖GPt內(nèi)的節(jié)點(diǎn)是相同的。

對(duì)于每個(gè)同質(zhì)子圖GPt,基于多粒度的粗化思想來(lái)構(gòu)建一個(gè)多粒度子網(wǎng)絡(luò)。具體來(lái)說(shuō),將同質(zhì)子圖GPt作為多粒度子網(wǎng)絡(luò)的最細(xì)粒度,即網(wǎng)絡(luò)的第一層。接著,根據(jù)網(wǎng)絡(luò)中節(jié)點(diǎn)的聚集特性,構(gòu)造第二層以此類推,再由,層數(shù)L設(shè)為超參數(shù)。在本文中,采用基于模塊度的 Louvain(Fast Unfolding of Communities in Large Networks)[33]算法 ,該算法能利用拓?fù)浣Y(jié)構(gòu)有效地捕獲同質(zhì)子圖中節(jié)點(diǎn)的聚集傾向。具體來(lái)說(shuō),將細(xì)粒度l層內(nèi)的每個(gè)社團(tuán)內(nèi)的點(diǎn)合并作為超點(diǎn),并保留至更粗粒度l+1層,超點(diǎn)之間的連邊則由l層內(nèi)社團(tuán)間的連邊所構(gòu)建。

3.2 多粒度子網(wǎng)絡(luò)表示

本文選用被廣泛應(yīng)用的Node2vec(Scal?able Feature Learning for Networks)[34]作 為Emb(?)函數(shù)的表示算法,該算法通過(guò)隨機(jī)游走采樣圖中節(jié)點(diǎn)序列,得以有效地運(yùn)用圖中的拓?fù)湫畔ⅰ?/p>

接著,基于多粒度細(xì)化的思想,從粗粒度L層到細(xì)粒度層逐層細(xì)化進(jìn)行跨粒度學(xué)習(xí),以得到同質(zhì)子圖GPt的表示,該表示通過(guò)多粒度細(xì)化中的信息傳遞,保留了同質(zhì)子圖的層次信息。在本文中,我們利用圖卷積神經(jīng)網(wǎng)絡(luò)GCN(Semi-Supervised classification with graph convolu?tional networks)[35]實(shí)現(xiàn)細(xì)化過(guò)程中粒層內(nèi)的信息保留和粒層間的信息傳遞。具體的,多粒度子網(wǎng)絡(luò)的第l層,圖首先通過(guò)圖卷積實(shí)現(xiàn)粒度內(nèi)的信息保留,定義如下:

其中,θl表示多粒度子網(wǎng)絡(luò)第l層的圖卷積網(wǎng)絡(luò)GCN 的超參數(shù),σ(?)是激活函數(shù),是圖的度矩陣,表示圖的節(jié)點(diǎn)集合,是控制添加自循環(huán)的超參數(shù),在本文中設(shè)置λ為0.05,則表示圖的鄰接矩陣。是圖卷積神經(jīng)網(wǎng)絡(luò)的可訓(xùn)練參數(shù)矩陣。表示節(jié)點(diǎn)在第l層的特征矩陣,由更粗粒度的l+1層超點(diǎn)的特征傳遞得來(lái),定義為:

在多粒度子網(wǎng)絡(luò)最粗層L層,我們利用鄰接矩陣降維作為L(zhǎng)層節(jié)點(diǎn)的初始化特征,并將任意表示學(xué)習(xí)方法學(xué)到的表示作為最頂層圖卷積網(wǎng)絡(luò)的監(jiān)督信息以訓(xùn)練圖卷積網(wǎng)絡(luò)參數(shù)θL,形式化描述為:

其中PCA(?)表示降維函數(shù)。為了實(shí)現(xiàn)多粒度子網(wǎng)絡(luò)中不同粒度間的信息傳遞,我們只在最粗層L層訓(xùn)練圖卷積模型,而后利用參數(shù)共 享 實(shí) 現(xiàn) 細(xì) 化 ,存 在 θL=θL?1=…=θ1,

通過(guò)上述公式(5)(6)逐層細(xì)化操作,我們得到最細(xì)粒度上的圖表示最為節(jié)點(diǎn)在該多粒度子網(wǎng)絡(luò)下的表示。在多個(gè)元路徑對(duì)應(yīng)的多粒度子網(wǎng)絡(luò)上執(zhí)行上述操作,最終獲得在給定的多條元路徑下對(duì)應(yīng)的多粒度子網(wǎng)絡(luò)中最細(xì)層節(jié)點(diǎn)的表示集合

3.3 融合不同元路徑下的多粒度子網(wǎng)絡(luò)表示

基于給定的一條元路徑獲得的多粒度子網(wǎng)絡(luò)下的節(jié)點(diǎn)表示僅能夠表達(dá)異質(zhì)圖中的一種語(yǔ)義下的層次結(jié)構(gòu)信息。為了在嵌入中更好地融合多個(gè)側(cè)面的語(yǔ)義信息,本文利用注意力機(jī)制來(lái)學(xué)習(xí)異質(zhì)網(wǎng)絡(luò)中不同語(yǔ)義的重要性。由于通過(guò)元路徑采樣的同質(zhì)子圖代表了異質(zhì)圖上的同類型節(jié)點(diǎn)間的高階信息,為了兼顧不同類型節(jié)點(diǎn)間的局部信息,首先利用現(xiàn)有的同質(zhì)圖表示學(xué)習(xí)方法獲得節(jié)點(diǎn)的表示,并將其與不同語(yǔ)義下的多粒度子網(wǎng)絡(luò)表示得以保留,使圖中的高階信息與低階信息合并,對(duì)于同質(zhì)子圖GPt中的節(jié)點(diǎn)vx的多粒度表示,其融合后的向量表示如下:

其中,σ表示激活函數(shù),⊕表示拼接操作,WPt和分別表示在元路徑Pt下可學(xué)習(xí)的參數(shù)矩陣和偏移向量。表示節(jié)點(diǎn)vx在異質(zhì)圖G上的節(jié)點(diǎn)表示,。通過(guò)以上步驟,對(duì)于節(jié)點(diǎn)vx,基于每條元路徑Pt,我們可獲得一個(gè)節(jié)點(diǎn)表示的集合。然后,利用自注意力機(jī)制來(lái)學(xué)習(xí)該條元路徑的重要性βPt,具體如下:

其中,W是權(quán)重矩陣,b是偏移向量,q是語(yǔ)義級(jí)注意力向量,分別是可學(xué)習(xí)的參數(shù)。最后,根據(jù)元路徑的權(quán)重將表示向量進(jìn)行融合獲得節(jié)點(diǎn)vx的向量Zvx。具體如下:

在獲得最終的節(jié)點(diǎn)向量Zvx后,采用正負(fù)采樣策略,與現(xiàn)有的工作HeCo[5]類似,如果兩個(gè)節(jié)點(diǎn)之間存在多條元路徑,則為正邊,否則視為負(fù)邊,損失函數(shù)L如下:

其中,E和E?分別表示正采樣和負(fù)采樣的節(jié)點(diǎn)對(duì),cos(?)表示余弦相似度,α 是超參數(shù)。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)集

本文實(shí)驗(yàn)采用四個(gè)數(shù)據(jù)集。數(shù)據(jù)集ACM[18]是一個(gè)論文網(wǎng)絡(luò),包含三種節(jié)點(diǎn)類型(論文、作者和科目)和兩種類型邊(論文-作者和論文-科目)。數(shù)據(jù)集DBLP[31]是一個(gè)計(jì)算機(jī)科學(xué)書(shū)目網(wǎng)絡(luò),其包含四種類型節(jié)點(diǎn)(作者、論文、會(huì)議和術(shù)語(yǔ))和三種類型的邊(作者-論文、論文-術(shù)語(yǔ)、論文-會(huì)議)。數(shù)據(jù)集Aminer[36]是一個(gè)學(xué)術(shù)網(wǎng)絡(luò),其包含三種類型的節(jié)點(diǎn)(論文、作者和參考文獻(xiàn))和兩種類型的邊(論文-作者和論文-參考文獻(xiàn))。數(shù)據(jù)集Freebase[37]是一個(gè)電影網(wǎng)絡(luò),其包含四種類型節(jié)點(diǎn)(電影、演員、導(dǎo)演和作家)和兩種類型的邊(電影-演員,電影-導(dǎo)演,電影-作家)。更具體的數(shù)據(jù)集信息見(jiàn)表1。

4.2 對(duì)比算法

本文與七個(gè)圖表示學(xué)習(xí)算法進(jìn)行比較,包括經(jīng)典的傳統(tǒng)同質(zhì)圖表示算法:Node2vec,基于淺層模型的異質(zhì)圖表示學(xué)習(xí)算法:Metapath2vec(MP2vec)、HERec、MetaGraph2vec(MG2vec),基于深層模型的異質(zhì)圖表示學(xué)習(xí)算法:HAN、NSHE、HeCo。

嵌入維度設(shè)置為128維,對(duì)于Node2vec,設(shè)置窗口大小為10,隨機(jī)游走長(zhǎng)度為80,游走數(shù)量為10,參數(shù)p和q為1。對(duì)于MP2vec、HERec和HAN,設(shè)置隨機(jī)游走長(zhǎng)度為10,窗口大小為10,學(xué)習(xí)率為0.001,其中HAN使用的節(jié)點(diǎn)特征是圖的領(lǐng)接矩陣。對(duì)于NSHE,使用的節(jié)點(diǎn)特征是應(yīng)用deepwalk獲得的節(jié)點(diǎn)向量,對(duì)于參數(shù)α和β在數(shù)據(jù)集ACM、DBLP、Freebase和Amin?er分 別 為(0.001,0.135)、(0.008,0.905)、(0.008,0.05)和(0.008,0.05)。對(duì)于HeCo,所有的參數(shù)是其論文中原有的設(shè)置。

4.3 節(jié)點(diǎn)分類

分別在4個(gè)數(shù)據(jù)集進(jìn)行了節(jié)點(diǎn)分類的實(shí)驗(yàn)。在通過(guò)本文模型獲得節(jié)點(diǎn)的表示向量之后,訓(xùn)練有標(biāo)簽的節(jié)點(diǎn)表示在20%、40%、60%和80%的線性支持向量機(jī)(SVM)上,并測(cè)試未被訓(xùn)練的有標(biāo)簽節(jié)點(diǎn),通過(guò)Micro-F1和Macro-F1進(jìn)行結(jié)果評(píng)估。所有的實(shí)驗(yàn)結(jié)果都是10次實(shí)驗(yàn)的平均結(jié)果。表2、表3、表4和表5分別是在數(shù)據(jù)集ACM、DBLP、Aminer和Freebase上節(jié)點(diǎn)分類的實(shí)驗(yàn)結(jié)果。從實(shí)驗(yàn)結(jié)果來(lái)看,Node2vec的性能優(yōu)于傳統(tǒng)異質(zhì)模型,而使用分層的多粒度模型,不論層數(shù)、結(jié)果均優(yōu)于Node2vec,這表明異質(zhì)圖中的多粒度結(jié)構(gòu)對(duì)于表示質(zhì)量的提高是有幫助的。相較于使用了節(jié)點(diǎn)特征的深層模型(HAN、NSHE和HeCo),本文方法依然在大部分情況獲得更好的結(jié)果。從結(jié)果中還可以發(fā)現(xiàn),在ACM和DBLP上,本文模型都在第一層的結(jié)果最優(yōu),這與圖的規(guī)模有關(guān)。對(duì)于較小的圖,層數(shù)增加對(duì)應(yīng)的信息損失越多。相較于ACM和DBLP,Aminer和Free?base規(guī)模更大,在非第一層也有最優(yōu)的結(jié)果。

4.4 節(jié)點(diǎn)聚類

對(duì)于聚類任務(wù),使用K-means算法來(lái)分類節(jié)點(diǎn)的表示并通過(guò)NMI進(jìn)行評(píng)估結(jié)果。聚類實(shí)驗(yàn)結(jié)果如表6所示。從結(jié)果來(lái)看,在DBLP和Aminer上,本文結(jié)果要優(yōu)于其他對(duì)比算法。在ACM上,除了HeCo,本文結(jié)果是最優(yōu)的。在Freebase上,可以看出傳統(tǒng)的異質(zhì)方法略過(guò)于其他算法。從本文方法的不同層次來(lái)看,依然在相對(duì)較小的數(shù)據(jù)集上粗化一次取得最好的結(jié)果,在相對(duì)較大的數(shù)據(jù)集上粗化多次可以取得更好的效果。

4.5 HeMug層次結(jié)構(gòu)分析

HeMug模型基于多粒度思想在異質(zhì)圖中構(gòu)建了層次結(jié)構(gòu),并在表示學(xué)習(xí)過(guò)程中保留了層次結(jié)構(gòu)信息。在4.3節(jié)點(diǎn)分類和4.4節(jié)點(diǎn)聚類的實(shí)驗(yàn)中,本文結(jié)果基本優(yōu)于對(duì)比算法。為了說(shuō)明層次結(jié)構(gòu)信息對(duì)實(shí)驗(yàn)結(jié)果的提升起到了重要作用,在數(shù)據(jù)集ACM和Freebase上進(jìn)行層次結(jié)構(gòu)的分析實(shí)驗(yàn)。設(shè)計(jì)了不同層次的對(duì)比實(shí)驗(yàn),分別有無(wú)層次結(jié)構(gòu)(k=0)、有層次結(jié)構(gòu)(k=1,2,3)。使用的實(shí)驗(yàn)指標(biāo)是與節(jié)點(diǎn)分類實(shí)驗(yàn)相同。從表6中可以看出,在HeMug中粗化同質(zhì)子圖并構(gòu)建了層次結(jié)構(gòu)的實(shí)驗(yàn)結(jié)果要明顯優(yōu)于無(wú)層次結(jié)構(gòu)的結(jié)果,這表明HeMug圖表示過(guò)程保留的層次結(jié)構(gòu)信息是有效的。

4.6 時(shí)間對(duì)比

本文將對(duì)比算法和HeMug在數(shù)據(jù)集ACM和Freebase上實(shí)驗(yàn)的時(shí)間進(jìn)行對(duì)比,結(jié)果如表8所示。從表中可以看出,HeMug在ACM數(shù)據(jù)上耗時(shí)最短,在Freebase數(shù)據(jù)上僅次于MP2vec。MP2vec由于其稀疏的隨機(jī)游走采樣,以較少的時(shí)間開(kāi)銷完成圖表示學(xué)習(xí),但也損失了部分網(wǎng)絡(luò)結(jié)構(gòu)信息,導(dǎo)致在分類、聚類實(shí)驗(yàn)中的效果低于HeMug。

5 結(jié)論與展望

本文基于多粒度的粗化、細(xì)化思想在異質(zhì)圖表示學(xué)習(xí)中保留圖中的層次結(jié)構(gòu)信息,提出基于多粒度的異質(zhì)圖表示學(xué)習(xí)方法HeMug。該方法首先為了保留圖中的層次結(jié)構(gòu)信息,將異質(zhì)圖通過(guò)不同的元路徑劃分成多個(gè)同質(zhì)子圖,再粗化形成多個(gè)多粒度子網(wǎng)絡(luò)。其次通過(guò)細(xì)化學(xué)習(xí)每個(gè)多粒度子網(wǎng)絡(luò)的節(jié)點(diǎn)表示。最后為了獲得異質(zhì)圖中更全面的節(jié)點(diǎn)表示,利用注意力機(jī)制融合不同元路徑下的多粒度子網(wǎng)絡(luò)表示。通過(guò)在四個(gè)真實(shí)的數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,HeMug可以獲得更高質(zhì)量的異質(zhì)圖表示。

猜你喜歡
層次結(jié)構(gòu)質(zhì)子異質(zhì)
基于級(jí)聯(lián)網(wǎng)絡(luò)和語(yǔ)義層次結(jié)構(gòu)的圖像自動(dòng)標(biāo)注方法
質(zhì)子束放療在腫瘤中的研究新進(jìn)展
論立法修辭功能的層次結(jié)構(gòu)
法律方法(2017年2期)2017-04-18 09:00:37
淺談質(zhì)子守恒
建構(gòu)利益相關(guān)者管理的三層次結(jié)構(gòu)分析
隨機(jī)與異質(zhì)網(wǎng)絡(luò)共存的SIS傳染病模型的定性分析
Ag2CO3/Ag2O異質(zhì)p-n結(jié)光催化劑的制備及其可見(jiàn)光光催化性能
MoS2/ZnO異質(zhì)結(jié)的光電特性
“質(zhì)子”號(hào)一箭發(fā)雙星
太空探索(2014年6期)2014-07-10 13:06:11
執(zhí)政者應(yīng)學(xué)習(xí)異質(zhì)傳播
务川| 烟台市| 山丹县| 颍上县| 正蓝旗| 浦北县| 买车| 蕲春县| 噶尔县| 万全县| 金华市| 柳州市| 贵德县| 云龙县| 城口县| 佛山市| 长沙市| 汝阳县| 阜宁县| 托克逊县| 伊通| 京山县| 扎鲁特旗| 清原| 巢湖市| 万源市| 肇州县| 巴塘县| 武邑县| 平阴县| 庆城县| 宁都县| 元谋县| 军事| 霍城县| 靖安县| 临湘市| 威远县| 夏津县| 肃宁县| 绥江县|