薛暉,孫偉祥
(1.東南大學 計算機科學與工程學院,江蘇 南京 211189;2.計算機網絡和信息集成教育部重點實驗室(東南大學),江蘇 南京 211189)
圖數據(Graph-Structured Data)作為一類用于描述實體(點)及實體之間關系(邊)的非歐氏數據(Non-Euclidean Data),廣泛存在于知識圖譜[1]、社交網絡[2]、計算機視覺[3]以及生物化學[4]等眾多交叉學科領域.圖數據的諸多復雜特性,例如結點的無序性與規(guī)??勺冃?,給現有的機器學習算法帶來了巨大的挑戰(zhàn).幸運的是,近年來,隨著深度學習和圖表示學習的興起,DeepWalk[5]、Node2Vec[6]以及圖卷積神經網絡等算法[7]相繼被提出.特別是圖卷積神經網絡算法,能夠將圖數據的拓撲結構特征和結點屬性高效地融合,從而學習得到高質量的圖結點嵌入表示(Node Embeddings),使得機器學習算法對于復雜圖數據的分析和挖掘能力得到了顯著提升.目前,圖卷積神經網絡算法已經成為機器學習和數據挖掘領域的研究熱點之一.
圖分類(Graph Classification)作為一類重要的圖挖掘任務,旨在對不同類型的圖數據進行分類預測.與結點分類(Node Classification)等任務不同,圖分類預測的對象為整個的圖數據.因此,當圖神經網絡被應用于該任務時,需要對學習得到的結點嵌入向量進行整合轉化,生成圖級別的表示向量(Graph-Level Representation)后才能用于后續(xù)的分類網絡[8-9].然而,在結點嵌入整合轉化生成圖表示向量的過程中,存在著以下三個難點:1)不同圖之間結點規(guī)??赡艽嬖谳^大的差異,但整合轉化后得到圖表示向量維度大小必須統(tǒng)一;2)圖結點的順序是排列無關且無意義的,但整合轉化后得到圖表示向量的特征順序必須是有意義的;3)圖數據作為一種信息密集型數據,每個結點都可能代表著一個重要實體,因此結點嵌入中所蘊含的結構特征等信息應當在圖表示向量中盡可能保留.更具體地來講,前兩個難點主要是目前大多數分類算法對于輸入數據的特定要求所致,如感知機和神經網絡等常用分類器,均要求輸入數據的特征尺寸大小必須固定,此外,這些分類器往往不具有處理數據特征排列不變性的能力,即它們對于輸入數據的特征排列順序有一定的要求.例如,對于圖像分類任務,當圖像的特征順序,即像素順序被打亂后,分類器很可能無法對該圖像進行正確分類.因此,具有明確意義的數據特征順序對于分類器而言有著至關重要的意義.
對于圖分類任務而言,一個理想的特征順序應當是全局對齊的.即數據的每個特征維度都應該對應著特定的含義.這一想法是受圖像分類任務的啟發(fā)——該領域的研究者通常采用圖像切割和旋轉操作進行數據增強[10],以此期望模型學習得到一些不變性,例如平移不變性和旋轉不變性,以增強模型對于目標物體的辨別(分類)能力.究其本質,其需要數據增強的根本原因在于其目標特征沒有全局對齊,導致存在特征平移和旋轉等現象.若假設目標物體特征是全局對齊的,則這些不變性將沒有學習的必要,這會大大降低目標檢測難度.同樣地,在圖分類任務中,特征不對齊的圖表示向量也勢必會引入特征平移和旋轉等問題,這將對下游的分類網絡提出更高的要求.例如,若分類網絡不具備對于特征平移不變性和排列不變性的良好學習能力,那么兩個相似圖結構很可能會被誤認為有較大的差異,從而產生分類誤判.
面對這些難點,一部分應用于圖分類的網絡模型選擇犧牲掉圖表示向量的信息豐富度,通過簡單地將所有結點嵌入進行聚合壓縮(求和或平均)的方式,來保證所輸出圖表示向量的尺寸大小固定,以及避免特征順序的困擾[9,11-12].此外,還有一些模型對結點嵌入向量通過給定的規(guī)則排序后,固定地取前k個,然后將其拼接得到圖表示向量[13].此類方法可以通過調節(jié)超參數k 使得特征信息丟失減少,但是其得到的圖表示向量的特征順序僅是局部對齊的,無法避免特征平移等現象,且后續(xù)的分類網絡并不能保證完全學習到這些不變性.對于該方法而言,整體模型的分類性能將受到分類網絡對于平移不變性學習的嚴重制約.
為了避免現有模型的這些缺陷,本文提出了一個新穎的圖神經網絡模型,即全局對齊圖卷積網絡(Globally Aligned Graph Convolutional Network,GAGCN),用于圖分類任務.GAGCN 通過新穎的全局對齊層(Globally-Aligned Layer)的設計,使得模型能夠學習到全局特征語義對齊,且具有豐富結構信息的圖表示向量,以此提高模型對圖分類任務的分類精度.具體地,GAGCN 對于圖分類任務的處理主要包含以下3 個步驟:1)圖卷積網絡學習得到圖數據的結點嵌入向量;2)通過對結點嵌入空間做切片,得到子圖(Subgraph)特征的近似分布,并以此生成特征順序全局對齊的圖表示向量;3)將圖表示向量送入分類網絡進行分類預測.在多個數據集上的實驗結果表明,GAGCN 在圖分類任務上的表現要優(yōu)于各類比較算法,進一步的消融實驗和敏感性分析實驗也驗證了GAGCN 全局對齊策略的有效性以及魯棒性.
GAGCN 的主要思想是受兩類圖核方法所啟發(fā),即WL-Subtree Kernel 算法[14]以及Graphlet Kernel算法[15].其中,WL-Subtree Kernel 通過Weisfeiler -Lehman 算法得到圖中以每個結點為根結點的子樹的特征集合后,通過比較兩個圖中子樹結構特征的分布,計算得到兩個圖之間相似度.而Graphlet Kernel 算法則通過比較兩個圖數據的圖元分布來計算它們之間的相似性.受這兩個工作的啟發(fā),本文提出通過構造子圖特征的近似分布來對齊圖表示向量的特征順序,從而使得模型能夠更輕易地學習和衡量不同圖數據之間的相似性以及差異性.但與這兩個方法不同的是,GAGCN 是基于圖神經網絡搭建的圖分類模型,因此具有更強的特征抽象能力和更高的可擴展性.
受傳統(tǒng)卷積神經網絡在圖像處理領域獲得巨大成功的激勵,許多研究者嘗試將卷積網絡引入圖領域,并提出了眾多圖卷積神經網絡模型[16-19].總體來說,這些模型可以分為基于頻譜(Spectral-Based)的方法和基于空間(Spatial-Based)的方法兩大類.Xu等人[9]為大多數現有的圖神經網絡抽象出了一個統(tǒng)一的架構.在該架構中,第k 層圖卷積被描述為:
本文提出的全局對齊圖卷積網絡(GAGCN)遵循三段式架構:首先,圖卷積層得到結點嵌入向量;其次,全局對齊層生成圖表示向量;最后,由分類網絡進行分類預測.
關鍵符號及其含義如表1 所示.此外,本文還約定X∈Rn×d,其中矩陣X 第u 個行向量表示結點u的屬性表示第k 層圖卷積輸出的結點u 的嵌入向量,且向量維度為ck.Zk∈Rn×ck表示第k 層圖卷積網絡輸出的圖G 所有結點嵌入向量構成的結點嵌入矩陣.
表1 關鍵符號定義Tab.1 Definition of key notations
GAGCN 定義新的圖卷積算法如下:
GAGCN 通過堆疊加深圖卷積層來提高模型對結點嵌入向量的學習能力.但值得注意的是,與傳統(tǒng)卷積神經網絡模型類似,隨著卷積層數加深,每一個神經單元的感受野也會不斷擴增,故不同圖卷積層得到的結點嵌入實際上蘊含結點周圍不同規(guī)模的子圖特征信息,即第一層得到一階鄰域子圖特征,第二層得到二階鄰域子圖特征等等,以此類推.然而,堆疊深度過深會使得深層卷積層所學習的所有結點嵌入向量產生趨同性,該現象被稱之為過渡平滑(Over-Smoothing)[7].因此,不宜采用過深的網絡結構來學習結點嵌入表示.同時,這一點也表明,對于圖分類任務而言,需要綜合考慮各層的結點嵌入輸出,才能多方位地衡量圖數據中各個領域規(guī)模的子圖特征信息,以提高模型對圖數據整體的學習能力.
進一步分析,圖卷積網絡作為Weisfeiler-Lehman 算法的一個“軟版本”(Soft Version)[13,24],其學習得到的結點嵌入向量可以被認為是“連續(xù)的色彩”(Continuous Color),而“色彩”在Weisfeiler-Lehman算法中被用來表示不同的子圖特征.因此,圖卷積層學習得到的結點嵌入本質上也可以被看作是一種子圖特征的連續(xù)向量表示形式.此外,文獻[13]指出,圖卷積網絡可以將相似的結構特征嵌入至距離相近的向量中進行表達.基于以上兩點,可以得到一個基本的論斷,即通過圖卷積網絡學習得到的距離相近的結點嵌入向量蘊含著相似的子圖結構信息.為進一步驗證本小節(jié)提出的圖卷積網絡是否符合該論斷,本文在Cora 和Citeseer 兩個常用的結點分類數據集上進行了驗證.該驗證建立在這樣一個合理假設的基礎上,即兩個帶有相同標簽的結點,其鄰域結點構成的子圖的相似性,要大于兩個帶有不同標簽的結點.結點嵌入可視化結果如圖1 所示,圖中每個點代表一個結點嵌入,不同的橫坐標代表不同的結點標簽.從圖中可以清晰地看到,即使是將結點嵌入維度壓縮到了一維,帶有相同標簽的結點嵌入仍然表現出了強聚類特征.因此,可以認為本節(jié)提出的圖卷積網絡符合結點鄰域結構越相似,學習得到的結點嵌入表示距離越相近這一特性.
圖1 一維結點嵌入可視化Fig.1 Visualization of node embeddings with 1-dimension
圖卷積網絡得到結點嵌入表示向量后需要整合轉化為整個圖的向量表示,才能交由分類網絡進行分類.前文提及了該過程的幾個難點所在,即如何保證圖表示向量在維度大小固定以及特征順序有意的前提下,盡可能地保留更多的結構信息.為了解決這些問題,本文提出了全局對齊層(Globally-Aligned Layer),其通過構建子圖特征的近似分布來全局對齊表示特征的語義,能夠有效地提高圖神經網絡方法在圖分類任務上的性能.本小節(jié)將詳細介紹Globally-Aligned Layer 的原理與定義.
首先假定,在Globally-Aligned Layer 中能夠定義U∈Rk×r,其中U 的每一個行向量Ui表示特定類型子圖的特征,則U 能夠滿足特征全局對齊性的同時,還能夠反應出子圖特征的分布信息.為了做到這一點,需要確切地給出Ui的具體定義.在2.2 節(jié)的討論中,可以發(fā)現式(1)與式(2)所定義的圖卷積網絡學習到的結點嵌入向量,實際上表示的是子圖的特征,且滿足距離越相近,所蘊含的子圖信息越相似的性質.因此,可以通過統(tǒng)計結點嵌入向量的分布來間接統(tǒng)計子圖特征的近似分布.更具體地,通過將結點嵌入的表示空間 切分為κ 個不相交的空間切片,組成空間片段集合P,即P=P1∪P2…∪Pκ,且?i,j,Pi∪Pj=?.假設Pi內的結點嵌入表示向量之間的距離較近,則這些向量可以被認為表達的是一類相似的子圖結構.因此,若將Pi與Ui做一一對應,則任意的Ui都將對應一類子圖特征.通過這樣的定義,U 中每一個特征的語義都將是確切且對齊的.然而,如何對高維空間 進行合理切分是一個較為困難的工作.受DGCNN 工作的啟發(fā)[13],首先,Globally-Aligned Layer將最后一層圖卷積神經網絡的通道數設為1,但與DGCNN 不同的是,Globally-Aligned Layer 還將最后一層卷積神經網絡的輸入設置為所有前層結點嵌入向量的拼接,意義在于能夠結合多階鄰域信息進行多層次的子圖信息綜合推斷.接著,將該層得到的結點嵌入通過值域有上下界的激活函數,例如tanh 等,進行非線性激活,則其表示空間可以用[a,b]一維區(qū)間進行表示,其中a 和b 分別為激活函數值域的上下界.最后,僅需對激活后的嵌入向量取值空間進行簡單的切分統(tǒng)計,得到結點嵌入的近似分布.最簡單地,本文將該空間均勻切分為κ 段,第i 段用來表示Pi,且Ui被定義為:
從而得到U=[U1,U2,…,Uκ]T.此處ψ(·)表示將屬于Pi的所有結點嵌入進行聚合.由于Pi內的結點嵌入距離相近,故其所表達的子圖特征具有相似性,因此此處的聚合不會因為壓縮而造成特征信息的過度損失.
進一步,為了將所有共l 層圖卷積網絡所習得的結點嵌入充分利用,對于?u∈V,定義
式中:hu表示將所有圖卷積層的輸出拼接.式(3)重寫為:
重寫后U∈Rk×r,其中為了增加圖表示向量的伸縮性,控制表示向量的維度,Globally-Aligned Layer 采用一個可學習的線性變換矩陣Ws∈Rr×m(m <r)來做最后的變換,得到最終的圖表示向量:
f(·)函數的意義為將輸入矩陣拉伸為向量形式.式(6)還可以被等價地看作對U 逐行做卷積核為1、步長為1 且通道數為m 的一維卷積,故其不僅可以伸縮圖表示向量維度,還能夠起到歸納整合U 中每個行向量Ui所蘊含的結構特征信息的作用.
進一步分析,根據R-Convolution 理論[25],兩個圖之間的相似度被定義為:
式中:S 和S′分別為G 和G′的子圖結構集合;δ(s·s′)=1 當且僅當s 和s′同構或近似同構,否則δ(s·s′)=0.該理論說明,通過對比兩個圖數據的子圖分布,可以計算得到它們近似同構的子圖對數,進而推斷出圖數據之間的相似性.事實上,許多圖分類算法都是基于該原理[14-15].因此,Globally-Aligned Layer 生成的圖表示向量所蘊含的子圖特征分布信息,有助于模型挖掘圖數據之間內在的結構相似性,能夠以此對圖數據進行更為合理的分類推斷.
為了說明GAGCN 生成的圖表示向量不存在特征平移,且蘊含信息易被挖掘,故GAGCN 采用單隱藏層的簡單全連接網絡作為分類器.最后,SoftMax和交叉熵(Cross-Entropy)被用來計算分類損失.
本節(jié)共包含3 個實驗:1)基準實驗通過將GAGCN 與多個主流圖分類算法在7 個常用圖數據集上進行比較,來評價GAGCN 模型在圖分類任務上的整體表現;2)消融實驗通過對全局對齊層的消融替換,來證明全局對齊層策略的有效性;3)參數敏感性分析實驗用來進一步驗證GAGCN 的魯棒性.
本節(jié)所涉及的所有實驗均基于Ubuntu Linux 16.04 操作系統(tǒng),GAGCN 源碼使用PyTorch 和PyTorch-Geometric[26]學習框架實現,程序運行時的硬件環(huán)境為i7-8700K CPU、32GB RAM 以及TITAN RTX GPU.
數據集.該實驗共采用7 個常用圖分類數據集,涵蓋了生物、化學以及社交網絡三個研究領域:在PROTENS、DD 以及ENZYMES 這3 個數據集中,每個樣例都代表一個蛋白質分子或酶分子;NCI-1 中不同樣例代表了不同的化學分子結構;IMDB-B、IMDB-M 以及REDDIT-MULTI-12K(下文簡寫為RED-M12K)則是由社交或關系網絡組成的圖數據集合.其中,生物、化學領域的4 個數據集中每個圖結點都帶有屬性;而社交網絡的3 個數據集則不帶有結點屬性,為了實驗比較的公平性,GAGCN 參照其他對比算法,將結點的度數作為其屬性.數據集相關的其他幾個關鍵參數在表2 中有詳細的量化說明.
比對算法.該實驗選取的對比算法包括2 個與GAGCN 相關的Graph Kernel 算法,以及5 個主流的基于深度學習的圖分類算法.具體介紹如下.
Graph Kernel 對比算法:即前文提及的WLSubtree Kernel 以及Graphlet Kernel 兩個算法.當計算得到核矩陣之后,實驗采用軟間隔支持向量機(CSVM)[27]對其進行分類.該實驗選取這2 個Graph Kernel 算法作為對比,主要是考慮到其與GAGCN 理論上的相似性,故存在比較的意義和價值.
基于深度學習的對比算法:
1)DGK[28][KDD,2015],即Deep Graph Kernel.該方法通過CBOW 以及Skip-Gram 等模型學習得到子圖結構之間的依賴性,從而提高經典Graph Kernel 的分類性能.
2)DGCNN[13][AAAI,2018].該模型提出了Sort-Pooling 層,將結點嵌入按照其表示的子結構來進行排序,從而得到局部對齊的圖表示,最后通過卷積神經網絡進行分類.
3)DiffPool[29][NeurIPS,2018].該算法實現了一個可微分的圖池化方法,幫助圖神經網絡模型更好地處理圖分類任務.
4)GIN[9][ICLR,2019].該模型主要探究了不同的圖卷積聚合算子對圖分類任務的影響.表2 中GIN-0 和GIN-?為GIN 模型的不同的實現.
表2 基準實驗分類精度比較結果Tab.2 Comparison results of accuracies on the benchmark experiment %
5)CapsGNN[30][ICLR,2019].該算法將膠囊網絡(Capsule Networks)概念遷移至圖領域,提出了膠囊圖神經網絡用于圖分類任務.
GAGCN 架構及參數設置:GAGCN 的整體架構如圖2 所示.在該實驗中,各模塊具體的參數設置如下:對于圖卷積模塊,其共包含6 層圖卷積,前5 層通道數設置為64,最后一層設置為1,并均使用tanh作為非線性激活函數,式(1)中的F(·)被設計為具有64 個隱藏神經元的簡單全連接網絡,且隱藏層采用ReLU 進行非線性激活;對于全局對齊層,設超參數κ=50,m=32 即Ws∈R321×32;對于分類網絡,設其為具有128 個隱藏神經單元的全連接網絡,為了降低過擬合的風險,在該隱藏層后采用了Dropout,且Dropout rate 為0.5.最后,SoftMax 和交叉熵被用來計算分類損失,整個模型可以做到端到端(End-to-End)訓練以及分類預測.此外,GAGCN 的訓練采用帶有動量的隨機梯度下降算法[31],且動量參數momentum 為0.9.對于不同的數據集,學 習率從{0.01,0.001}中進行搜索,且用于小批次訓練的超參數Bacth 為64.與對比算法相同[9,29],實驗使用Early-Stopping 技術,當判斷損失函數不再下降,或精度不再提升時停止訓練.
對比算法參數設置:對于WL-Subtree Kernel 算法,其迭代次數搜索范圍為 {1,2,3,4,5};對于Graphlet Kernel 算法,為了保證其計算效率,圖元的結點規(guī)模被限定為3 個結點以內.當C-SVM 進行分類時,其軟間隔超參數C 在{10-3,10-2,…,102,103}中進行搜索.這兩個算法運行壞境為MATLAB,C-S 采用LIBSVM 庫實現.對于5 個基于深度學習的對比算法,表2 報告了其原論文中的實驗結果.如果在原論文中某些數據集的結果沒有被報告,則采用其官方源碼對其進行補充實驗,超參數設置遵循原論文和官方源碼中的指導規(guī)則進行調整搜索.對DGK 而言,由于沒有找到可用官方源碼,故在DD 數據集上沒有參與比對.所有對比算法,包括GAGCN,均使用十折交叉驗證(10-Fold Cross-Validation)進行實現,表2 中報告的分類精度為十折交叉驗證精度的平均值.
由表2 可知,在7 個圖分類數據集上,GAGCN相較于表現最好的對比算法平均精度將近有2%的顯著提升.尤其在PROTEINS、IMDB-B、ENZYMES以及RED-M12K 幾個數據集上有1%~4%的提升.GAGCN 和DGCNN 都強調避免結構信息的損失,提高圖表示向量的信息豐富度,但是由于DGCNN 只做到了特征局部對齊,而GAGCN 則是利用子圖特征分布做了全局對齊,同時使用了更為強大的圖卷積網絡,故在所有數據集上,GAGCN 均好于DGCNN.此外,GIN 的分類結果也不如GAGCN,GIN雖然使用了同樣強大的圖卷積網絡來做結點嵌入,但是卻采用了簡單聚合的方法來學習圖表示向量,過度壓縮了結構特征,造成信息損失,這一對比結果也進一步證明了GAGCN 研究動機的合理性.相較于DiffPool、CapsGNN 等其他主流的圖分類模型,GAGCN 也體現了非常高的競爭力.與基于Graph Kernel 的兩個方法相比,盡管WL-Subtree Kernel 在NCI-1 數據集上取得了最好的結果,但GAGCN 在NCI-1 上的表現也同樣亮眼,并且在其他6 個數據集上的分類精度都顯著高于這兩個方法.值得注意的是,Graphlet Kernel 和GAGCN 雖然都是利用了子圖分布這一想法,但是結果卻相差較多,這也說明了圖神經網絡模型在圖分類任務上的優(yōu)越性.
為進一步證明GAGCN 的關鍵貢獻,即全局對齊策略的有效性,本文針對Globally-Aligned Pooling進行了消融實驗.該實驗通過對GAGCN 架構的Globally-Aligned Pooling 做替換,并測試替換后的模型在NCI-1、DD、PROTEINS、IMBD-B 以及ENZYMES等幾個數據集上的分類表現,來比較不同的圖表示向量生成策略對圖分類結果的影響.該實驗共測試了5 種圖表示向量生成策略,包括兩種聚合策略(Sum-Pooling 和 Average-Pooling)、Sort-Pooling、Set2Set 以及本文提出的Globally-Aligned Pooling.對于Sort-Pooling 的超參數設置,實驗遵循DGCNN 論文及其源碼的指導原則,并考慮到該策略對分類器的特殊要求,分類網絡同樣也與DGCNN 的設置保持相一致;對于Set2Set,其迭代次數在{1,2,3}中搜索最優(yōu)參數設置.
實驗對比結果如圖3 所示,本文提出的Globally-Aligned Pooling 在這些數據集上都取得了最高的分類精度.再進一步分析,可以看到Globally-Aligned Pooling 和Sort-Pooling,相較于聚合策略而言,分類精度較高,這一點證明了盡可能多地保留結構信息確實有助于提高模型的分類表現.而Globally-Aligned Pooling 和Sort-Pooling 兩者的比較結果也證明了全局對齊策略確實能夠幫助后續(xù)的分類網絡更好地利用和學習圖表示向量的特征,從而更容易幫助模型挖掘出一些有價值的信息,幫助分類網絡更好地進行分類.此外,Set2Set 這類集合學習的策略由于其本質上是基于聚合操作的一類加權求和策略,其權重的計算基于LSTM 和注意力機制,在引入這些額外的計算復雜度的同時其結果也沒有得到穩(wěn)定的提升.綜上所述,該消融實驗證明一個優(yōu)秀的圖表示向量生成策略需要保留足夠豐富的特征信息,且全局對齊的特征順序能夠有效地提高圖神經網絡在圖分類任務上的精度,進一步證明了本文提出的全局對齊策略的有效性.
圖3 不同圖表示向量生成策略對分類結果的影響Fig.3 The influence of different graph-level representation vector generation strategies for classification accuracy
κ 作為Global-Aligned Layer 的關鍵超參數,可能會對模型的預測結果產生關鍵性的影響.因此,為了評估κ 的參數取值敏感性,以及探究其有效的取值范圍,本文針對超參數κ 進行了敏感性分析實驗.該實驗設定κ 取值為{10,20,30,50,70,100,200},其他超參數采用與3.1 節(jié)相同的設置.如圖4 所示,在DD 和PROTEINS 兩個數據集上,模型的分類精度呈現出一開始隨著κ 值的增加而提高的趨勢,這是因為當κ 值過小時,子圖特征近似分布粒度較粗,特征被壓縮較多,隨著取值不斷增大圖表示向量蘊含越來越多的結構細節(jié)信息,這有助于模型更加合理地進行推斷預測.然而,當到達一定閾值之后,分類精度出現輕微的下降,雖然趨勢不明顯,但也反應出若取κ 值過高或會承擔一定過擬合的風險.而在IMDB-B 數據集上,GAGCN 分類精度總體隨κ 值的增加而提高,但當超過一定閾值后,這一增加的趨勢也變得不明顯.從該實驗結果的分析中不難發(fā)現,κ值的取值會對結果產生一定的影響,但是總體來說,κ 并不是一個取值非常敏感的超參數,在這3 個數據集上,κ 取值范圍在50 左右時,可以認為取得較為穩(wěn)定且不錯的結果.
圖4 不同κ 值下的分類精度波動Fig.4 The fluctuation for accuracies with the different κ
針對現有圖神經網絡生成圖級別表示向量時,存在的過度壓縮和特征平移等問題,本文提出了基于全局對齊策略的圖卷積網絡,即GAGCN,該網絡通過構建子圖特征的近似分布來對齊圖表示向量的特征順序,在避免特征平移問題的同時,保留了更為豐富的結構特征信息,且GAGCN 生成的圖表示向量中蘊含的子圖特征分布信息,能夠幫助后續(xù)分類網絡更容易地挖掘數據間內在的結構相似性,從而提高模型在圖分類任務上的分類精度.