蘇曉萍,查英華,曲鴻博
(1. 南京工業(yè)職業(yè)技術(shù)大學(xué)計(jì)算機(jī)與軟件學(xué)院 南京 210023;2. 南京郵電大學(xué)計(jì)算機(jī)學(xué)院 南京 210003)
信息網(wǎng)絡(luò)普遍存在,如經(jīng)濟(jì)貿(mào)易網(wǎng)、社交網(wǎng)和計(jì)算機(jī)網(wǎng)絡(luò),這些網(wǎng)絡(luò)的圖模型一般采用鄰接矩陣來進(jìn)行表示與存儲(chǔ),該矩陣具有高維、稀疏的特征,對(duì)其分析和計(jì)算的成本較高,因此,在網(wǎng)絡(luò)規(guī)模不斷增長(zhǎng)的情形下,需要找到更好的方法來表示、處理圖數(shù)據(jù)。圖嵌入[1-2](也稱圖表示學(xué)習(xí))是解決這一問題的有效方法,它的目標(biāo)是:將網(wǎng)絡(luò)節(jié)點(diǎn)或邊映射到一個(gè)方便計(jì)算和存儲(chǔ)的低維稠密向量空間中,嵌入形成的低維向量可為多種下游數(shù)據(jù)挖掘任務(wù)提供支撐。圖嵌入的基本原則是:用較少的數(shù)據(jù)維度盡可能多地保留原網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)、節(jié)點(diǎn)和邊屬性信息。大部分圖嵌入方法僅考慮節(jié)點(diǎn)、邊類型都相同的同質(zhì)圖。
然而,除同質(zhì)圖外,現(xiàn)實(shí)世界中還存在許多需要用異質(zhì)圖建模的復(fù)雜系統(tǒng)。異質(zhì)圖模型允許節(jié)點(diǎn)和邊的類型相異,甚至網(wǎng)絡(luò)類型也相異,如引文網(wǎng)中,節(jié)點(diǎn)包括:作者(A)、會(huì)議(C)、論文(P)等不同類型的對(duì)象,這些對(duì)象之間存在“參加”“發(fā)表”等語義不同的邊。相較于同質(zhì)圖,異質(zhì)圖的語義更豐富,對(duì)現(xiàn)實(shí)世界的描述更完整自然,因此,基于異質(zhì)圖建模的研究近期受到了廣泛關(guān)注[3~6]。由于異質(zhì)圖中節(jié)點(diǎn)、邊的類型不相同,原來同質(zhì)圖嵌入方法不能直接應(yīng)用于異質(zhì)圖,需要對(duì)這一特定的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)專門的表示方法?;诋愘|(zhì)圖的嵌入方法在近幾年也獲得了快速發(fā)展[7-8],異質(zhì)圖嵌入的主要目標(biāo)是保留原網(wǎng)絡(luò)的拓?fù)浣Y(jié)構(gòu)和語義信息,嵌入的基本原則是:網(wǎng)絡(luò)中“靠得越近的節(jié)點(diǎn)(語義相近或網(wǎng)絡(luò)可達(dá)),其向量表達(dá)越相似”。異質(zhì)圖嵌入方法大致可分為:基于近鄰保持的方法[9-14]和基于信息傳播[15-17]的方法。
以上異質(zhì)圖嵌入方法都是將異質(zhì)圖中的節(jié)點(diǎn)映射到人們熟悉的歐式空間,并用歐式距離來度量節(jié)點(diǎn)的相似性,然而,這里忽略了一個(gè)重要而根本的問題:用歐式空間表達(dá)復(fù)雜的圖數(shù)據(jù)是否合適?近期研究表明:歐式空間不能很好地表達(dá)網(wǎng)絡(luò)中的層次結(jié)構(gòu)、無標(biāo)度特性,在嵌入具有如上特征的網(wǎng)絡(luò)時(shí)將出現(xiàn)較大程度的失真[18],嵌入失真的主要原因是:歐式空間中球的體積與半徑呈多項(xiàng)式增長(zhǎng),不具備表達(dá)數(shù)據(jù)呈指數(shù)增長(zhǎng)的無標(biāo)度特性,而在雙曲空間中,球的體積與半徑呈指數(shù)增長(zhǎng),這一特性使得它能很好地表達(dá)網(wǎng)絡(luò)呈指數(shù)增長(zhǎng)的無標(biāo)度特征[19~22],因此將圖嵌入到雙曲空間能夠更多地保留網(wǎng)絡(luò)的冪率分布、強(qiáng)聚類、小世界等結(jié)構(gòu)特征,從而獲得較歐式空間更精確的節(jié)點(diǎn)向量表示,為鏈路預(yù)測(cè)[23]、節(jié)點(diǎn)分類[24]等下游任務(wù)提供更好的精確度保證。文獻(xiàn)[25]研究了異質(zhì)圖的雙曲嵌入問題,采用龐加萊模型實(shí)現(xiàn)了異質(zhì)圖的雙曲嵌入,并在鏈路預(yù)測(cè)任務(wù)下證明該方法具有比歐式空間嵌入的基準(zhǔn)算法更好的結(jié)果。
受以上研究啟發(fā),本文提出了一種基于Lorentz模型的異質(zhì)圖嵌入方法。該方法首先采用基于元路徑隨機(jī)游走的方法捕獲異質(zhì)節(jié)點(diǎn)的鄰域以及語義信息,然后采用Lorentz 模型實(shí)現(xiàn)異質(zhì)圖的雙曲嵌入并用雙曲距離評(píng)價(jià)節(jié)點(diǎn)間的相似度,最后訓(xùn)練模型,使語義相近的節(jié)點(diǎn)的向量表達(dá)也相似。所提方法解決了以下異質(zhì)圖嵌入的問題:1) 如何有效獲取異質(zhì)圖的結(jié)構(gòu)和語義信息;2) 如何將初始在歐式空間表達(dá)的節(jié)點(diǎn)語義和結(jié)構(gòu)信息映射到雙曲空間;3) 如何評(píng)價(jià)雙曲空間中節(jié)點(diǎn)對(duì)的相似性以及如何實(shí)現(xiàn)在雙曲空間中目標(biāo)函數(shù)的優(yōu)化。
異質(zhì)圖V定義為:G={V,E,T,?,ψ} 。 其中V和E分別表示異質(zhì)圖中節(jié)點(diǎn)和邊的集合,任意的節(jié)點(diǎn)v∈V和邊e∈E分 別有映射函數(shù) ?(v):V→TV,ψ(v):E→TE,TV和TE分 別 是 節(jié) 點(diǎn) 類 型 和 邊 類 型 的 集合。根據(jù)異質(zhì)圖的定義可知,它允許不同(或相同)類型節(jié)點(diǎn)間有不同(或相同)類型的連邊,且允許節(jié)點(diǎn)和邊帶有屬性。它包含了多種特殊結(jié)構(gòu)的圖,如:二部圖、三部圖、帶權(quán)圖等。圖1a 給出了異質(zhì)圖的一個(gè)實(shí)例,圖中節(jié)點(diǎn)類型包括作者(A)、會(huì)議(C)、論文(P),作者和論文之間的邊表示“發(fā)表”,會(huì)議與論文間的邊表示“收錄”,論文與論文間的邊表示“引用”。圖1a 展示了從3.2 節(jié)所述開源數(shù)據(jù)集的語義中抽取得到的異質(zhì)圖,該數(shù)據(jù)集不提供作者?作者、會(huì)議?會(huì)議間的關(guān)系,因此圖中作者、會(huì)議之間沒有顯示連邊。若去掉論文?論文間的連邊,該異質(zhì)圖將退化為三部圖,許多學(xué)者基于三部圖這一特殊異質(zhì)圖也進(jìn)行了深入研究,得到了許多有趣的結(jié)論[26]。
圖1 異質(zhì)圖與元路徑實(shí)例
隨機(jī)游走構(gòu)成的節(jié)點(diǎn)序列可以被看作“文檔”,每個(gè)節(jié)點(diǎn)可以被看作“單詞”,采用自然語言處理的skip-gram 模型[28]可實(shí)現(xiàn)節(jié)點(diǎn)的嵌入。skip-gram 基本思想是采用極大似然估計(jì)來計(jì)算兩個(gè)單詞共現(xiàn)的概率:
式中, σ是激活函數(shù);wu和w′v分 別是目標(biāo)詞u與其鄰居v的向量表示;skip-gram 模型對(duì)鄰居的定義是:在一定尺寸窗口內(nèi)共同出現(xiàn)的詞, 〈wu·w′v〉表示向量的內(nèi)積,該值越大則兩個(gè)單詞共現(xiàn)的概率就越大,模型通過優(yōu)化上述概率使其最大,即可獲得每個(gè)單詞的向量表示。為計(jì)算方便,在實(shí)際應(yīng)用中通常將上述的最大化問題通過取負(fù)對(duì)數(shù)轉(zhuǎn)換為最小化問題。
需要說明的是,上述模型僅能將節(jié)點(diǎn)嵌入到歐式空間,歐式空間在表達(dá)具有層次和無標(biāo)度的網(wǎng)絡(luò)時(shí)將會(huì)產(chǎn)生失真,不利于網(wǎng)絡(luò)結(jié)構(gòu)特征的保持,因此需要對(duì)基本skip-gram 模型進(jìn)行修改,使之能夠?qū)崿F(xiàn)雙曲空間的嵌入。
1) 雙曲空間的性質(zhì)
根據(jù)雙曲幾何的相關(guān)定義可知:雙曲空間是一類具有負(fù)常曲率的非歐空間,曲率k表示曲線的“彎曲”程度,我們熟悉的歐式空間曲率為零(k=0 ),雙曲空間的曲率為負(fù)(k<0,通常取k=?1) ,球面的曲率則為正(k>0 , 通常取k=1)。定性地說,歐式空間是平坦的,而雙曲空間有一定程度的“彎曲”,因此,雙曲空間比歐式空間更“大”,具有更多“空間”。雙曲空間可以利用更少的參數(shù)來表達(dá)具有在歐式空間中同樣容量的模型。為了表達(dá)雙曲空間,研究者建立了一系列等價(jià)模型,如:Lorentz 模型、龐加萊模型、克萊因模型等,每個(gè)模型強(qiáng)調(diào)雙曲幾何的不同屬性。
圖2 展示了Lorentz 模型和龐加萊模型間的關(guān)系:雙曲面上任意兩點(diǎn)發(fā)出的射線交于Z軸上的(0,0,?1)點(diǎn),射線與Z=0的龐加萊圓盤相交,此時(shí)連接雙曲面上兩點(diǎn)的一段圓弧被稱為L(zhǎng)orentz 模型的測(cè)地線,這段圓弧投影到龐加萊圓盤上則成為龐加萊模型的測(cè)地線。在有度規(guī)定義存在時(shí),測(cè)地線為空間中兩點(diǎn)的局域最短路徑[29]。Lorentz 模型和龐加萊圓盤中的測(cè)地線都是“彎曲”的,其上的距離度量類似于樹形結(jié)構(gòu)上兩節(jié)點(diǎn)間的最短路徑。圖3 進(jìn)一步說明:在歐式空間看來離得很近的兩個(gè)節(jié)點(diǎn)在樹形結(jié)構(gòu)下實(shí)際距離卻很遠(yuǎn),雙曲空間可以認(rèn)為是一個(gè)連續(xù)的樹形結(jié)構(gòu)。
圖2 雙曲空間模型[20]
圖3 雙曲空間中的距離[30]
Lorentz 模型的幾何性質(zhì)[31]決定了內(nèi)積、距離等算數(shù)運(yùn)算與歐式空間方法相近,且數(shù)值穩(wěn)定。與此相反,龐加萊模型中計(jì)算兩個(gè)離中心節(jié)點(diǎn)很遠(yuǎn)的節(jié)點(diǎn)內(nèi)積時(shí)數(shù)值不穩(wěn)定,難以優(yōu)化。同時(shí),網(wǎng)絡(luò)的無標(biāo)度特性使大部分節(jié)點(diǎn)分布在龐加萊圓盤的邊界附近,節(jié)點(diǎn)的集中分布將導(dǎo)致計(jì)算機(jī)浮點(diǎn)數(shù)精度不足,無法正確表示邊緣節(jié)點(diǎn)。但龐加萊模型提供了非常直觀的可視化方法可用來解釋雙曲嵌入的結(jié)果。在代數(shù)上,Lorentz 模型和龐加萊模型是同構(gòu)的,可通過數(shù)學(xué)變換將雙曲面上的點(diǎn)映射到龐加萊模型中。本文綜合利用兩個(gè)模型的優(yōu)點(diǎn),在采用Lorentz 模型實(shí)現(xiàn)異質(zhì)圖嵌入后,將其映射到龐加萊模型進(jìn)行可視化展示。
2) 洛倫茲(Lorentz)模型
定義Lorentz 標(biāo)量積為:
疏,使有連接的正樣本和沒有連接的負(fù)樣本偏斜嚴(yán)重,因此對(duì)負(fù)樣本進(jìn)行采樣:在非鄰居節(jié)點(diǎn)中隨機(jī)取若干個(gè)節(jié)點(diǎn)作為負(fù)樣本參與運(yùn)算。模型的損失函數(shù)為:
式(5)與式(1)相似,只是內(nèi)積 〈wu,w′v〉L為滿足雙曲面模型定義的Lorentz 標(biāo)量積(見式(2))。對(duì)PL(u,v)取負(fù)對(duì)數(shù)使原來概率的最大化轉(zhuǎn)換成對(duì)目標(biāo)函數(shù)的最小化以方便實(shí)現(xiàn)。
由于模型參數(shù)存在于具有黎曼流形的雙曲面中,因此反向傳播的梯度是黎曼梯度,原來歐式空間下梯度優(yōu)化方法的參數(shù)更新:wti+1=wti+η?EwL(W)不再具有實(shí)際意義,因此在進(jìn)行優(yōu)化時(shí)需要采用黎曼梯度下降(Riemannian gradient descent, RGD)[33]。
Lorentz 模型RGD 的計(jì)算可被分解為以下3 個(gè)步驟。
1) 計(jì)算關(guān)于節(jié)點(diǎn)嵌入的歐氏梯度:
算法1 給出了本文所提異質(zhì)圖雙曲嵌入算法(heterogeneous graph Lorentz embedding, HGLE)的完整流程。通過執(zhí)行算法1 將得到異質(zhì)圖上各節(jié)點(diǎn)的向量表示。
算法復(fù)雜度分析:算法1 由3 個(gè)階段組成:基于元路徑約束的隨機(jī)游走序列生成、節(jié)點(diǎn)對(duì)采樣、梯度下降學(xué)習(xí)。其中,隨機(jī)游走階段為 |V|個(gè)節(jié)點(diǎn)生成m條長(zhǎng)度為l游走序列,時(shí)間復(fù)雜度為O(|V|×m×l);節(jié)點(diǎn)對(duì)采樣階段:在游走序列上為每對(duì)節(jié)點(diǎn)計(jì)算共同出現(xiàn)在窗口中的概率,其中,窗口長(zhǎng)度為window, 時(shí)間復(fù)雜度為O(|V|×m×window×l);采用梯度下降對(duì)skip-gram 模型進(jìn)行優(yōu)化,這一階段需要對(duì)每一個(gè)共現(xiàn)節(jié)點(diǎn)對(duì)進(jìn)行n次負(fù)采樣,于是,噪聲節(jié)點(diǎn)對(duì)計(jì)算次數(shù)為O(|V|×m×window×l×n),對(duì)每個(gè)d維向量表達(dá)的節(jié)點(diǎn)進(jìn)行歐式梯度更新,其復(fù)雜度為O(d),然后需將歐式梯度轉(zhuǎn)換為黎曼梯度,其復(fù)雜度為O(d), 于是則復(fù)雜度總和就是O(|V|×m×window×l×(n+1)×2d), 其 中m、l、 window、d、n是常數(shù),因此算法1 的復(fù)雜度與節(jié)點(diǎn)總數(shù) |V|呈線性關(guān)系,可應(yīng)用于大規(guī)模異質(zhì)圖。
本文使用鏈路預(yù)測(cè)作為下游任務(wù)來驗(yàn)證異質(zhì)圖的雙曲嵌入效果,這是因?yàn)殒溌奉A(yù)測(cè)的目標(biāo)是通過學(xué)習(xí)到的節(jié)點(diǎn)屬性、拓?fù)浣Y(jié)構(gòu)等信息推斷網(wǎng)絡(luò)中未連邊的兩節(jié)點(diǎn)之間產(chǎn)生鏈接的概率,常用于驗(yàn)證圖嵌入方法的泛化能力。
算法1 得到異質(zhì)圖上各節(jié)點(diǎn)的向量表示后,即可利用節(jié)點(diǎn)間的雙曲距離作為計(jì)算連邊概率的依據(jù)。實(shí)驗(yàn)在CPU 為corei7,內(nèi)存4 GB 電腦上采用python 實(shí)現(xiàn),使用geoopt、gensim、plotly 等第三方擴(kuò)展包用于雙曲空間的優(yōu)化、可視化等操作。下面將詳細(xì)介紹實(shí)驗(yàn)過程并進(jìn)行結(jié)果分析。
1) 數(shù)據(jù)集描述
使用真實(shí)數(shù)據(jù)集評(píng)估所提HGLE 方法的效果。數(shù)據(jù)來源于公開的數(shù)據(jù)集AMiner、DBLP、ACM,這3 個(gè)數(shù)據(jù)集均為引文網(wǎng),對(duì)于AMiner、DBLP,分別提取計(jì)算機(jī)科學(xué)領(lǐng)域?qū)W者在重要學(xué)術(shù)會(huì)議發(fā)表的相關(guān)論文(P),ACM 是國(guó)際計(jì)算機(jī)協(xié)會(huì)主辦會(huì)議(C)論文發(fā)表情況,該數(shù)據(jù)集共涉及57 個(gè)與計(jì)算機(jī)相關(guān)主題(S)。各數(shù)據(jù)集的統(tǒng)計(jì)信息如表1所示。
表1 數(shù)據(jù)集統(tǒng)計(jì)
為證明所提方法對(duì)異質(zhì)圖嵌入的有效性,將它與以下基準(zhǔn)算法在經(jīng)典圖任務(wù):鏈路預(yù)測(cè)上進(jìn)行比較:
DeepWalk:經(jīng)典同質(zhì)圖嵌入方法,該方法基于隨機(jī)游走成功獲得了同質(zhì)圖節(jié)點(diǎn)的嵌入表達(dá)。
metapath2vec:經(jīng)典異質(zhì)圖嵌入方法,該方法采用元路徑指導(dǎo)的隨機(jī)游走得到蘊(yùn)含異質(zhì)圖語義信息的游走序列,然后采用skip-gram 實(shí)現(xiàn)節(jié)點(diǎn)的嵌入。
PHomoEmb:同質(zhì)圖在雙曲空間的嵌入,該方法將同質(zhì)圖嵌入在雙曲面模型的雙曲空間中,證明具有層次結(jié)構(gòu)和無標(biāo)度特征的圖在雙曲空間獲得了更好的嵌入表達(dá)。
PHeteroEmb:異質(zhì)圖在雙曲空間的嵌入,該方法基于元路徑指導(dǎo)的隨機(jī)游走獲得游走序列,然后采用龐加萊模型實(shí)現(xiàn)雙曲嵌入。
2) 模型參數(shù)
隨機(jī)游走相關(guān)參數(shù):游走長(zhǎng)度l=80,每節(jié)點(diǎn)游走次數(shù)m=50;節(jié)點(diǎn)嵌入相關(guān)參數(shù):嵌入維度d分別取2、5、10、30,窗口長(zhǎng)度 window=5,節(jié)點(diǎn)向量和上下文向量W和W′隨機(jī)初始化,負(fù)采樣數(shù)n=10,元路徑使用“APA”“APC(S)PA”。
3) 結(jié)果分析
實(shí)驗(yàn)中,同質(zhì)圖算法將所有節(jié)點(diǎn)和邊都看作是同一種類型,用相同策略實(shí)現(xiàn)節(jié)點(diǎn)的嵌入,異質(zhì)圖算法則將分別預(yù)測(cè)“P-A”和“P-C(S)”的連邊概率,實(shí)驗(yàn)結(jié)果取平均值。對(duì)每個(gè)數(shù)據(jù)集做8:1:1 劃分,80%作為訓(xùn)練集,10%為驗(yàn)證集,剩下10%為測(cè)試集。在訓(xùn)練集上對(duì)模型進(jìn)行訓(xùn)練,然后用驗(yàn)證集調(diào)整模型參數(shù),獲得最小損失,然后在測(cè)試集上計(jì)算節(jié)點(diǎn)的連邊概率并與原數(shù)據(jù)集進(jìn)行比較,使用AUC 評(píng)價(jià)鏈路預(yù)測(cè)的性能,表2 給出了實(shí)驗(yàn)結(jié)果。從結(jié)果看,論文所提HGLE 方法在連邊預(yù)測(cè)上取得了較好的結(jié)果。實(shí)驗(yàn)結(jié)果還顯示:面向同質(zhì)圖開發(fā)的嵌入算法由于不能捕捉節(jié)點(diǎn)、連邊性質(zhì)的差異,因此預(yù)測(cè)結(jié)果不理想;面向異質(zhì)圖開發(fā)的嵌入方法,如經(jīng)典的metapath2vec 算法,由于較好地保留了異質(zhì)圖的結(jié)構(gòu)特征和語義信息,獲得了比同質(zhì)圖嵌入算法好的預(yù)測(cè)效果;又由于雙曲空間的嵌入算法更好地保留了網(wǎng)絡(luò)的層次特征,獲得了較歐式空間嵌入算法更好的預(yù)測(cè)精度。在此基礎(chǔ)上,本文所提HGLE 方法避免了計(jì)算邊緣節(jié)點(diǎn)距離時(shí)的數(shù)值不穩(wěn)定問題,使預(yù)測(cè)性能進(jìn)一步改善。
表2 各算法AUC 結(jié)果
圖4 給出了在數(shù)據(jù)集ACM 上各算法的鏈路預(yù)測(cè)精確度結(jié)果,雙曲嵌入算法在嵌入維度d=10時(shí)獲得了比歐式空間嵌入維度d=30時(shí)更好的結(jié)果,這說明基于雙曲空間的嵌入能夠用較小的嵌入維度保留更多的網(wǎng)絡(luò)結(jié)構(gòu)和語義信息。
圖4 數(shù)據(jù)集ACM 上各方法鏈路預(yù)測(cè)的AUC 值
圖5 則給出了完整的AMiner 數(shù)據(jù)集嵌入在龐加萊圓盤上的投影。數(shù)據(jù)在圓盤邊沿十分密集,圓盤中心則很稀疏。利用gensim 提供的龐加萊模型計(jì)算各點(diǎn)與原點(diǎn)的距離,并用黑色圓進(jìn)行了區(qū)分。黑色圓內(nèi)節(jié)點(diǎn)與原點(diǎn)的距離在0~2 之間,黑色圓之外的距離在2~6 之間,這與“樹”的特征一致:層次高的節(jié)點(diǎn)數(shù)量少、層次低的節(jié)點(diǎn)呈指數(shù)增長(zhǎng)。根據(jù)圖5 中給出的數(shù)據(jù)標(biāo)簽可知:影響因子較高的學(xué)者韓家煒、Christos Faloutsos、Philip S. Yug等人均離圓心較近,說明他們是圖上的關(guān)鍵節(jié)點(diǎn)。經(jīng)統(tǒng)計(jì)發(fā)現(xiàn):雙曲距離在0~2 之間的作者(A)節(jié)點(diǎn)平均發(fā)表論文數(shù)為4.6 篇/人,是雙曲距離大于2 的作者(圖5 中黑色圓之外)的2 倍。
圖5 AMiner 數(shù)據(jù)集的可視化
異質(zhì)圖是建?,F(xiàn)實(shí)世界圖數(shù)據(jù)的有效手段,它蘊(yùn)含更豐富的語義,對(duì)現(xiàn)實(shí)世界的描述也更完整自然,因此對(duì)異質(zhì)圖的研究在近期受到很多關(guān)注。圖嵌入是異質(zhì)圖研究的重要手段,因?yàn)閳D嵌入的目標(biāo)是將圖結(jié)構(gòu)和節(jié)點(diǎn)屬性等映射到稠密、低維向量空間為下游任務(wù)提供基礎(chǔ),若嵌入表達(dá)不能正確保留圖信息則后續(xù)挖掘任務(wù)無法獲得好的結(jié)果。如何為圖嵌入選擇合適的嵌入空間就成為需要認(rèn)真研究的問題。由于雙曲空間中圓的周長(zhǎng)隨半徑呈指數(shù)增長(zhǎng)的幾何性質(zhì)與圖的無標(biāo)度特征恰好一致,所以可以采用雙曲空間作為異質(zhì)圖的嵌入空間,但是,不同的雙曲模型具有不同的幾何性質(zhì),需要更進(jìn)一步地探討和研究。另外,目前大部分雙曲空間的嵌入使用負(fù)常曲率,有一定的局限性,因?yàn)閿?shù)據(jù)的復(fù)雜性使其各部呈現(xiàn)出不同的幾何特性,嵌入空間各處曲率應(yīng)不同,曲率的選擇和學(xué)習(xí)也是具有挑戰(zhàn)的任務(wù)。
另外,對(duì)異質(zhì)圖自身結(jié)構(gòu)的理解依然沒有結(jié)束,異質(zhì)圖允許不同類型節(jié)點(diǎn)間有連邊,也允許相同類型的節(jié)點(diǎn)間有連邊,同時(shí),節(jié)點(diǎn)和邊帶有屬性,它包含了多種特殊結(jié)構(gòu)的圖,如二部圖(或三部圖),基于元路徑的隨機(jī)游走可以有效保留網(wǎng)絡(luò)拓?fù)浜凸?jié)點(diǎn)屬性等信息,但是元路徑的選擇需要領(lǐng)域知識(shí),若元路徑由人工確定,有可能為圖嵌入引入噪聲,當(dāng)異質(zhì)圖退化為某種特例時(shí),基于異質(zhì)圖建模是否就比基于二部圖建模的方法好?這需要認(rèn)真思考;另外,能否通過自適應(yīng)的元路徑學(xué)習(xí)方法來避免元路徑人工選擇也需要深入研究。盡管本文僅介紹了異質(zhì)圖對(duì)引文網(wǎng)的嵌入,事實(shí)上異質(zhì)圖已被應(yīng)用至推薦系統(tǒng)、信息安全和基因工程等領(lǐng)域,并提升了挖掘任務(wù)的性能,因此,基于異質(zhì)圖的具體應(yīng)用還需要進(jìn)一步挖掘。
下一步研究將重點(diǎn)關(guān)注雙曲空間的幾何性質(zhì)與網(wǎng)絡(luò)結(jié)構(gòu)之間的關(guān)系、元路徑的選擇與學(xué)習(xí)以及異質(zhì)圖嵌入在具體領(lǐng)域的應(yīng)用。