摘要:深度學習已經(jīng)在許多領域取得成功,人們在這一領域投入了大量的研究工作,極大地推動了圖學習方法的發(fā)展。根據(jù)現(xiàn)有圖神經(jīng)網(wǎng)絡模型的特點,首先描述了一種通用的圖學習框架,以系統(tǒng)的方式對其進行全面概述,包括消息傳遞、特征聚合以及節(jié)點更新三個部分。然后,以該框架為基礎引入圖注意力機制,并改進消息傳遞方法,解決注意力機制對空間結構學習的不足。最后,我們簡要概述了該框架的應用,以期為圖學習方法的研究提供指引。
關鍵詞:圖學習;深度學習;注意力機制;消息傳遞
中圖分類號:TP391 文獻標識碼:A
文章編號:1009-3044(2024)22-0035-03
開放科學(資源服務)標識碼(OSID)
0 引言
現(xiàn)實世界場景中存在著各種各樣的圖數(shù)據(jù),例如社交網(wǎng)絡、引文數(shù)據(jù)和知識圖表等。利用機器學習方法分析這些數(shù)據(jù)可以為如何利用隱藏在圖中的信息提供見解。因此,有效的圖學習方法可以更深入地了解數(shù)據(jù)背后的內(nèi)容,從而有利于許多有用的應用,如文本分類[1]、特品推薦[2]、交通流預測[3]等。然而,圖數(shù)據(jù)從非歐空間中生成,將數(shù)據(jù)表示為對象之間具有復雜關系和相互依賴性的拓撲結構,使圖學習方法的計算和空間成本都很高,對現(xiàn)有的機器學習算法提出了重大挑戰(zhàn)。雖然深度學習在自然語言翻譯、生成和解碼復雜音頻信號以及從真實世界的圖像和視頻中推斷信息方面取得了顯著成功,但處理圖上信息表達的方法仍處于起步階段,部分深度卷積神經(jīng)網(wǎng)絡已被證明能有效處理圖片、文本數(shù)據(jù),卷積核的規(guī)則矩型結構卻使其在處理非歐結構的圖數(shù)據(jù)時受到限制,只能通過人為設計來修補已有缺陷。最近,注意力機制在深度學習領域受到關注,部分模型在圖中引入該機制可以不受結構變化的影響,為圖學習方法指明了一個方向,但該方法忽視了結構變化,學習不到完整的圖信息。
針對以上非歐結構的圖數(shù)據(jù)的特點,我們的目標是探索一個有效的圖學習方法,能適應圖的不同連接方式和依賴關系,并從圖中學習到節(jié)點特征和結構信息。為此,本文描述了一種在圖上進行監(jiān)督學習的通用框架,總結了現(xiàn)有圖神經(jīng)網(wǎng)絡模型之間的共性,并根據(jù)該框架的局限性提出了新的改進,指導我們對圖學習方法的研究。
1 相關研究
在深度學習領域中,當面對圖這種非歐幾何結構的應用時,由于傳統(tǒng)的卷積核無法適用于鄰居節(jié)點變化的特點,可以通過將圖的結構轉(zhuǎn)換為矩陣形式,使其可以適應卷積神經(jīng)網(wǎng)絡的訓練,但轉(zhuǎn)換后的數(shù)據(jù)會一定程度損失部分信息,直到為圖而專門設計的圖神經(jīng)網(wǎng)絡的出現(xiàn)[4]。圖神經(jīng)網(wǎng)絡可以分別從頻域和空間域兩個角度建模圖數(shù)據(jù),使該模型可以直接處理非歐結構的數(shù)據(jù)而不丟失數(shù)據(jù)間包含的相關性依賴。頻域上的建模利用了圖譜理論[5],在頻域?qū)D進行操作時,將空間上vcnxZ82TdGdb1rFIVymcbLaYBpOKbsKw7z2hM1UFtBI=的節(jié)點特征進行傅里葉變換,并在頻域中設計了圖上的卷積公式,該卷積運算消除了對數(shù)據(jù)格式的限制,且不需要對矩陣進行特征分解,使計算速度得到提升??臻g域上的建模主要通過引入鄰接矩陣來考慮圖上的一階局部近似[6],只考慮一階節(jié)點降低了網(wǎng)絡參數(shù)數(shù)量,采用堆疊的多個層來獲得類似卷積神經(jīng)網(wǎng)絡中從局部到全局的效果,這一改變使得圖神經(jīng)網(wǎng)絡開始得到研究人員的重視。劉欣瑜等人[7]在自然語言處理任務中,基于圖神經(jīng)網(wǎng)絡和外部知識建立了自然語言推理模型,補充了語義圖空間特征,進一步提高模型推理能力。由于圖神經(jīng)網(wǎng)絡可以融合圖結構和圖特征進行學習,陳佳樂等人[8]分析了基于圖神經(jīng)網(wǎng)絡的異常檢測方法,提升了對非歐式空間數(shù)據(jù)進行異常檢測的效果。
圖卷積神經(jīng)網(wǎng)絡受到大量關注的同時,注意力機制作為自然語言處理任務中的核心技術之一也開始得到廣泛運用[9],采用注意力機制的模型借鑒了人類視覺注意力原理,獲得需要重點關注的目標區(qū)域,也就是一般所說的注意力焦點,對焦點區(qū)域投入更多注意力可以獲取更多目標的細節(jié)信息。深度學習中注意力機制允許模型專注于與任務最相關的部分,以此輔助做出決策。張小婉等人[10]考慮知識圖譜推薦中不同實體對于用戶的重要性不同,結合圖神經(jīng)網(wǎng)絡與注意力機制提出了一種知識圖譜推薦系統(tǒng),該系統(tǒng)利用注意力機制區(qū)分了鄰居節(jié)點的重要性。然而,大多數(shù)涉及注意力機制的模型,無法對不同的節(jié)點位置進行區(qū)分,也無法捕捉節(jié)點的結構信息[11],自然語言翻譯中,會在注意力系數(shù)計算時加入位置編碼來表示單詞的順序,而圖中節(jié)點的順序沒有統(tǒng)一的表示,導致其注意力機制的計算范圍只限于一階鄰域。
因此本文研究注意力機制與圖學習方法的結合,從而有效利用圖神經(jīng)網(wǎng)絡與注意力機制的各自優(yōu)勢。圖神經(jīng)網(wǎng)絡的出現(xiàn)主要是用來解決傳統(tǒng)卷積核不能處理非歐結構數(shù)據(jù)的缺陷,捕獲實體以及它們之間的關系,從而學習空間特征。注意力機制允許模型為圖中的節(jié)點分配權重,以突出顯示任務相關信息最多的節(jié)點。
2 圖學習基本框架
多種與圖相關的神經(jīng)網(wǎng)絡可以歸納為一種消息傳遞神經(jīng)網(wǎng)絡(Message Passing Neural Network,MPNN) 框架。在節(jié)點分類任務上,該框架的架構如圖1所示。
該框架描述了在圖上對節(jié)點類別進行預測的過程,包括了消息傳遞、特征聚合、節(jié)點更新三個階段。需要預測的節(jié)點A,首先找到鄰居節(jié)點B、C、D、E,將它們的特征信息傳遞到一起進行聚合,最后與A的特征信息一起生成更新后的目標節(jié)點。其中,圖可以表示為G = (V, E),[V]是圖中的節(jié)點集,[E]表示邊的集合,矩陣[X∈RN×d]表示節(jié)點的特征矩陣。分類任務可表示為,在給定圖的輸入特征矩陣X時,通過MPNN將輸入轉(zhuǎn)換為輸出的過程。
2.1 消息傳遞
MPNN可以看作一種通用的框架,描述了當前大部分圖神經(jīng)網(wǎng)絡的基本結構。圖神經(jīng)網(wǎng)絡能夠?qū)W習圖中節(jié)點的特征,一般認為,相互連接的節(jié)點具有相似的特征。模型利用某種方式尋找某中心節(jié)點鄰域內(nèi)相互連接的鄰居節(jié)點,并將它們視為相似節(jié)點,通過相似節(jié)點上具有的特征或?qū)傩詠肀磉_中心節(jié)點特征,這種尋找鄰域內(nèi)相似節(jié)點的過程稱為消息的傳遞。
節(jié)點[vi]的鄰居表示為[Ni],其集合定義為通過邊與[vi]相連的節(jié)點[vj]的集合,記為[Ni={vj:eij∈E}]。圖2展示了節(jié)點A的鄰居在進行消息傳遞的具體過程,消息傳遞獲取到中心節(jié)點的鄰居節(jié)點特征,經(jīng)過函數(shù)[f]進行特征轉(zhuǎn)換并將轉(zhuǎn)換后的特征傳遞給中心節(jié)點,[f]一般是神經(jīng)網(wǎng)絡或者某個線性變換。該過程會重復地應用于圖中所有節(jié)點,以達到整個圖上節(jié)點的消息傳遞過程。
2.2 特征聚合
在圖節(jié)點分類任務中,MPNN框架遵循上述消息傳遞原則來獲取鄰居節(jié)點特征,然后通過聚合函數(shù)生成新的特征表示,聚合函數(shù)在選擇上要求具有排列不變性,即鄰居節(jié)點的排列方式對結果沒有影響,可以取鄰居節(jié)點的平均值聚合,如公式(1) 所示:
[mi=σ(W×MEAN(Xj),j∈Ni)] (1)
式中:[σ]為激活函數(shù),W為參數(shù)矩陣,MEAN為平均聚合函數(shù)。也可以取MAX最大池化聚合,如公式(2) 所示:
[mi=MAX(σ(W×Xj+b),j∈Ni)] (2)
或者直接用神經(jīng)網(wǎng)絡聚合,如LSTM。與其他聚合方式相比,LSTM具有更大的特征表達能力,但不是排列不變的。LSTM會以順序的方式處理輸入信息,因此需要簡單地將鄰居節(jié)點隨機排列后再進行輸入,以使得LSTM適應于對無序數(shù)據(jù)集的操作。
2.3 節(jié)點更新
MPNN框架的最后一步利用聚合函數(shù)輸出的新節(jié)點特征生成最終的目標節(jié)點特征。在該步驟中,中心節(jié)點不僅要利用聚合后的特征,還要利用中心節(jié)點本身的特征。通過將中心節(jié)點的特征與聚合函數(shù)輸出的特征相結合來實現(xiàn),結合的方法可以是拼接操作,如公式(3)所示:
[hi=σ(W×(xi||mi))] (3)
式中,||為特征的拼接,由于圖神經(jīng)網(wǎng)絡可以是多層的,因此MPNN框架的消息傳遞、聚合和更新步驟也可以形成多層,重復以上3個步驟,以達到增強特征表達能力的作用。
3 基于注意力機制的圖模型
注意力機制的優(yōu)點是能夠?qū)W⒂谳斎胄畔⒅兄匾牟糠?,且已被證明可用于機器翻譯、自然語言處理等任務中,其效果優(yōu)于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡。本節(jié)將討論在遵循MPNN框架原則下,設計基于注意力機制的圖模型。
3.1 消息擴散
在MPNN的消息傳遞步驟,典型的圖模型普遍只采集節(jié)點的一階鄰居節(jié)點,即在一個有限的鄰域范圍內(nèi)傳遞信息。為了選擇一個節(jié)點的鄰居,設置一個定值,每次選擇鄰居的時候就是從周圍的一階鄰居中均勻地采樣固定個數(shù)的節(jié)點。這種局部的鄰域限制了消息傳遞的能力,且圖神經(jīng)網(wǎng)絡不僅學習節(jié)點特征,還應學習圖上的空間特征,表現(xiàn)為節(jié)點之間的連接方式,即拓撲結構。圖上這種特殊結構為圖增加了更多的信息,需要在消息傳遞步驟進行捕獲。
為了解決以上問題,需要在更大的鄰域內(nèi)進行消息的擴散,并且這種擴散能捕捉圖的拓撲結構,而不僅僅是節(jié)點上的特征。我們可以采用多階的鄰接矩陣,其反映了圖的高階結構信息,使注意力機制應用到更遠的鄰居。同時,也可以采用基于隨機游走的策略來對消息進行擴散[12]。如圖3所示,該策略通過隨機游走采樣形成跟自然語言中的語料庫一樣的節(jié)點序列集,然后再利用注意力模型進行節(jié)點特征嵌入,為了獲得高階節(jié)點信息,可以將寬度優(yōu)先搜索和深度優(yōu)先搜索同時引入隨機游走序列的生成過程中,不僅刻畫了相對局部的結構,也包含了更高階節(jié)點間的結構信息,使結構相似的頂點具有相似的特征表示。例如,在給定節(jié)點u的情況下,設定固定長度L的隨機游走。設[ci]表示游走中的第i個節(jié)點,從[co=u]開始。第[ci]個節(jié)點的概率分布按照公式(4)生成:
[P(ci|ci-1)=πijz,if(i,j)∈E0,otherwise] (4)
式中:[πij]為節(jié)點[vi]和[vj]之間的轉(zhuǎn)移概率,[z]為歸一化常數(shù)。設置擴散策略的方法是基于圖上邊的權重[Wij]對下一個節(jié)點進行采樣,即[πij=Wij](在無權圖的情況下權重為1) 。這種游走的擴散策略能獲取更大鄰域內(nèi)的節(jié)點,且轉(zhuǎn)移基于邊的權重,反映了節(jié)點與邊之間的結構關系。
3.2 圖注意力
經(jīng)過圖上的消息擴散后,我們可以聚合到更多的鄰居節(jié)點,而在圖卷積網(wǎng)絡中,節(jié)點的鄰居由鄰接矩陣確定,這是一種預先設定的靜態(tài)鄰域結構。然而,鄰居節(jié)點的影響可能會變化,應該在訓練中學習比預先設定更多的信息。圖注意力網(wǎng)絡是一種基于空間的網(wǎng)絡,在聚合鄰居節(jié)點信息時,注意力機制自適應地計算鄰居節(jié)點的權重。圖注意力的計算定義為公式(5):
[h'i=σ(j∈NiαijWhj)] (5)
式中,[α]為注意力系數(shù),按公式(6) 、公式(7) 計算:
[eij=a(Whi,Whj)] (6)
[αij=softmax(eij)=exp(eij)k∈Niexp(eik)] (7)
式中,[αij]為[vi]相對于[vj]的注意力系數(shù),通過神經(jīng)網(wǎng)絡[a]擬合得到,[hi]為節(jié)點[vi]的節(jié)點特征,由上一個消息傳遞模塊輸出,通過與參數(shù)矩陣[W]相乘進行線性變換后,再由神經(jīng)網(wǎng)絡[a]計算相關性,最后利用Softmax函數(shù)得到注意力系數(shù)的得分。
3.3 應用
圖神經(jīng)網(wǎng)絡在不同的任務和領域中有著廣泛的應用。盡管每一類都經(jīng)過專門優(yōu)化,但都遵循以上 MPNN 框架,經(jīng)過本文的改進,更是在一般領域有更多的應用。其中之一是計算機視覺。作為一般的通用框架,不僅能處理傳統(tǒng)上的圖像識別,在場景圖生成、圖分割、動作識別和許多其他方向上都可以捕捉圖結構。另外,基于圖的推薦系統(tǒng)以項目和用戶為節(jié)點,具有項目與用戶以及用戶之間的關系,基于圖的推薦系統(tǒng)能夠利用此關系產(chǎn)生高質(zhì)量的推薦,尤其是注意力機制能對項目及用戶的重要性進行評分。而在交通流預測中,采用基于圖的方法和時空神經(jīng)網(wǎng)絡能方便地建模道路上的節(jié)點關系以及時間序列特征,有助于智能交通系統(tǒng)有效利用資源。
4 結論
在本文中,通過探索圖學習方法的改進,在 MPNN 通用學習框架的基礎上,分析了消息傳遞中捕捉更大鄰域范圍和圖上結構信息的方法。我們提出了多階鄰接矩陣和隨機游走的擴散方式來改進消息傳遞,并分析了在該框架中集成注意力機制的方法,使改進后的框架能同時處理結構和特征信息。最后,給出了圖神經(jīng)網(wǎng)絡在不同領域中的應用,根據(jù)不同任務所屬的領域進行了介紹。
參考文獻:
[1] 楊春霞,馬文文,徐奔,等.融合標簽信息的分層圖注意力網(wǎng)絡文本分類模型[J].計算機工程與科學,2023,45(11):2018-2026.
[2] 張秋玲,王瀅溪,王建芳,等.基于雙向注意力的圖神經(jīng)推薦算法研究[J].河南理工大學學報(自然科學版),2024,43(1):149-156.
[3] 周安眾,謝丁峰.基于圖注意力機制的交通流預測模型[J].軟件工程,2023,26(8):48-52,62.
[4] 趙港,王千閣,姚烽,等.大規(guī)模圖神經(jīng)網(wǎng)絡系統(tǒng)綜述[J].軟件學報,2022,33(1):150-170.
[5] 仝宗和,袁立寧,王洋.圖卷積神經(jīng)網(wǎng)絡理論與應用[J].信息技術與信息化,2020(2):187-192.
[6] 陳可佳,楊澤宇,劉崢,等.基于鄰域選擇策略的圖卷積網(wǎng)絡模型[J].計算機應用,2019,39(12):3415-3419.
[7] 劉欣瑜,劉瑞芳,石航,等.基于圖神經(jīng)網(wǎng)絡和語義知識的自然語言推理任務研究[J].中文信息學報,2021,35(6):122-130.
[8] 陳佳樂,陳旭,景永俊,等.圖神經(jīng)網(wǎng)絡在異常檢測中的應用綜述[J/OL].計算機工程與應用,2024:1-20 [2024-04-23].http://kns.cnki.net/kcms/detail/11.2127.TP.20240113.1222.004.html.
[9] 王匆匆,張仰森,黃改娟.基于注意力機制與端到端的中文文本糾錯方法[J].計算機應用與軟件,2022,39(6):141-147.
[10] 張小婉,鄧秋軍,柳先輝.結合圖注意力機制的知識圖譜推薦算法[J].計算機科學,2023, 50(S2):464-470.
[11] ZHOU A Z,LI Y F.Structural attention network for graph[J].Applied Intelligence,2021,51(8):6255-6264.
[12] 李文舉,姬倩倩,沙利業(yè),等.基于圖游走和圖注意力的點云分類與分割[J].鄭州大學學報(工學版),2024,45(2):33-41.
【通聯(lián)編輯:唐一東】