国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種面向圖神經(jīng)網(wǎng)絡(luò)的圖重構(gòu)防御方法

2021-06-04 00:21陳晉音黃國(guó)瀚張敦杰張旭鴻紀(jì)守領(lǐng)
關(guān)鍵詞:擾動(dòng)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)

陳晉音 黃國(guó)瀚 張敦杰 張旭鴻 紀(jì)守領(lǐng)

1(浙江工業(yè)大學(xué)網(wǎng)絡(luò)空間安全研究院 杭州 310023) 2(浙江工業(yè)大學(xué)信息工程學(xué)院 杭州 310023) 3(浙江大學(xué)控制科學(xué)與工程學(xué)院 杭州 310007) 4(浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 杭州 310007)

隨著深度學(xué)習(xí)的興起,圖神經(jīng)網(wǎng)絡(luò)(graph neural network, GNN)成為了獲取圖節(jié)點(diǎn)特征和關(guān)系的有效工具之一.圖神經(jīng)網(wǎng)絡(luò)可以通過(guò)訓(xùn)練獲得節(jié)點(diǎn)或連邊的低維表達(dá),并應(yīng)用在不同下游任務(wù)中,例如:節(jié)點(diǎn)分類[1]、鏈路預(yù)測(cè)[2]、圖分類[3]、社區(qū)發(fā)現(xiàn)[4]等.盡管圖神經(jīng)網(wǎng)絡(luò)在圖表示學(xué)習(xí)領(lǐng)域取得了的成功,但是一些研究[5-7]表明:圖神經(jīng)網(wǎng)絡(luò)容易受到對(duì)抗樣本的攻擊,即對(duì)抗樣本中加入的擾動(dòng)是經(jīng)過(guò)精心設(shè)計(jì)并且是細(xì)微的,具有隱蔽性且能使得GNN失效.已有研究表明:現(xiàn)實(shí)應(yīng)用已經(jīng)受到攻擊,例如在電子商務(wù)領(lǐng)域,網(wǎng)絡(luò)水軍集中撰寫大量的虛假評(píng)論將使電商平臺(tái)的點(diǎn)評(píng)系統(tǒng)和推薦系統(tǒng)產(chǎn)生錯(cuò)誤判斷,給真實(shí)的消費(fèi)者錯(cuò)誤的消費(fèi)引導(dǎo);在社交媒體網(wǎng)絡(luò)中,虛假新聞如果不能被有效檢測(cè),則有可能導(dǎo)致謠言傳播并引起恐慌.因此,如何提高圖神經(jīng)網(wǎng)絡(luò)的魯棒性至關(guān)重要.

目前,已經(jīng)提出了許多對(duì)抗攻擊算法用于圖神經(jīng)網(wǎng)絡(luò)漏洞發(fā)現(xiàn),主要策略包括:添加連邊或刪除連邊[5-7]和添加虛假節(jié)點(diǎn)[8-9].這些攻擊的目的在于通過(guò)操縱某些節(jié)點(diǎn)或連邊,直接或間接影響目標(biāo)節(jié)點(diǎn)的表達(dá),或使圖神經(jīng)網(wǎng)絡(luò)模型的全局性能下降.針對(duì)這些對(duì)抗攻擊,研究者提供了不同的防御策略:1)對(duì)抗訓(xùn)練[10-11],將對(duì)抗樣本和干凈樣本混合訓(xùn)練模型,提升模型對(duì)已知對(duì)抗攻擊的防御能力;2)對(duì)抗擾動(dòng)檢測(cè)[12],通過(guò)發(fā)現(xiàn)對(duì)抗樣本與干凈樣本的差異實(shí)現(xiàn)對(duì)抗擾動(dòng)檢測(cè);3)基于注意力機(jī)制的模型加固[13-14],通過(guò)學(xué)習(xí)注意力機(jī)制實(shí)現(xiàn)對(duì)抗樣本的懲罰,從而訓(xùn)練獲得魯棒的GNN模型;4)圖純化[15-17],通過(guò)對(duì)對(duì)抗擾動(dòng)進(jìn)行剔除并純化圖結(jié)構(gòu),從而保證模型的輸出準(zhǔn)確性.此外,在樣本輸入模型進(jìn)行訓(xùn)練之前,對(duì)擾動(dòng)圖進(jìn)行純化降低攻擊帶來(lái)的影響,是一種可行且有效的方法[15-17].總結(jié)已有的防御方法,依然存在3個(gè)問(wèn)題:1)已有不同的對(duì)抗攻擊方法通過(guò)增刪連邊生成對(duì)抗網(wǎng)絡(luò),這些對(duì)抗樣本的擾動(dòng)是否存在一定的規(guī)律;2)已有很多防御方法會(huì)犧牲正常樣本的分類效果達(dá)到防御的目的,如何確保GNN模型在正常樣本性能的前提下,盡可能消除對(duì)抗性攻擊的影響;3)如何從圖的結(jié)構(gòu)、特征等方面的變化上對(duì)防御方法的有效性進(jìn)行分析.

針對(duì)3個(gè)問(wèn)題,本文首先分析了不同對(duì)抗攻擊方法的對(duì)抗樣本,通過(guò)攻擊實(shí)驗(yàn)觀察得到對(duì)抗攻擊添加的連邊對(duì)應(yīng)的節(jié)點(diǎn)對(duì)之間往往具有低結(jié)構(gòu)相似度和低特征相似度的特點(diǎn).基于實(shí)驗(yàn)觀察,提出一種基于節(jié)點(diǎn)共同鄰居數(shù)和特征相似度的圖重構(gòu)方法,通過(guò)刪除低相似度的可疑連邊以最小化對(duì)抗連邊帶來(lái)的影響;其次,通過(guò)連接節(jié)點(diǎn)特征相似度較高的節(jié)點(diǎn)以獲得圖數(shù)據(jù)增強(qiáng),重構(gòu)1個(gè)有利于圖神經(jīng)網(wǎng)絡(luò)分類任務(wù)的新圖.由于圖卷積網(wǎng)絡(luò)(graph convolutional network, GCN)[18]和基于注意力機(jī)制的圖注意力網(wǎng)絡(luò)(graph attention network, GAT)[19]在圖表示學(xué)習(xí)領(lǐng)域中被廣泛使用,因此,將其作為本文實(shí)驗(yàn)的目標(biāo)模型.為了測(cè)試方法的有效性,本文采用了3種有效的攻擊方法來(lái)生成對(duì)抗網(wǎng)絡(luò),即NETTACK[5],Metattack[20],DICE[21].實(shí)驗(yàn)驗(yàn)證了本文提出的基于圖重構(gòu)的圖神經(jīng)網(wǎng)絡(luò)防御方法能夠有效地降低攻擊者的性能,并提高圖神經(jīng)網(wǎng)絡(luò)在干凈圖數(shù)據(jù)節(jié)點(diǎn)分類任務(wù)上的性能.

總結(jié)本文主要工作包括3個(gè)方面:

1) 提出了一種圖重構(gòu)防御方法GRD-GNN,根據(jù)圖的結(jié)構(gòu)信息(即節(jié)點(diǎn)的共同鄰居數(shù))和節(jié)點(diǎn)自身特征相似度來(lái)篩選并降低對(duì)抗連邊帶來(lái)的影響.

2) 從多角度對(duì)方法的有效性進(jìn)行分析,并通過(guò)圖神經(jīng)網(wǎng)絡(luò)提取的信息的可視化,對(duì)GRD-GNN有效性進(jìn)行了直觀解釋.

3) 在3個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行測(cè)試,并與最新的一些防御方法進(jìn)行對(duì)比.大量的實(shí)驗(yàn)驗(yàn)證了本文提出的方法在保證干凈樣本分類任務(wù)的前提下比已有的防御方法取得更好的防御性能.

1 相關(guān)工作

本節(jié)簡(jiǎn)要介紹圖神經(jīng)網(wǎng)絡(luò)對(duì)抗攻擊和防御方面的相關(guān)工作.

1.1 面向圖神經(jīng)網(wǎng)絡(luò)的攻擊

已有研究表明:圖神經(jīng)網(wǎng)絡(luò)容易受到對(duì)抗擾動(dòng)的攻擊,這些攻擊根據(jù)模型的結(jié)構(gòu)精心設(shè)計(jì)微小的擾動(dòng)并添加到原始網(wǎng)絡(luò)中,從而使得圖神經(jīng)網(wǎng)絡(luò)失效.針對(duì)節(jié)點(diǎn)分類任務(wù),Zügner等人[5]首次提出面向圖數(shù)據(jù)的對(duì)抗攻擊算法NETTACK,針對(duì)目標(biāo)節(jié)點(diǎn)的置信度得分在目標(biāo)函數(shù)的指導(dǎo)下迭代生成對(duì)抗連邊和特征.為了進(jìn)一步降低模型的全局性能而不是僅針對(duì)個(gè)別目標(biāo),他們提出了一種基于元梯度的對(duì)抗攻擊方法Metattack[20],能大幅度降低圖神經(jīng)網(wǎng)絡(luò)模型的全局分類性能;此外,Dai等人[6]提出的基于強(qiáng)化學(xué)習(xí)的對(duì)抗攻擊方法RL-S2V和Chen等人[7]提出的快速梯度攻擊方法FGA也被證明是有效的圖對(duì)抗攻擊方法;此外,不同于一般方法中添加或刪除連邊的方式,Greedy-GAN[8]利用生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)生成一些與真實(shí)節(jié)點(diǎn)相似的虛假節(jié)點(diǎn)并插入到網(wǎng)絡(luò)中;類似地,Sun等人[9]也通過(guò)添加虛假節(jié)點(diǎn)和連邊的方式毒化數(shù)據(jù)集來(lái)降低圖神經(jīng)網(wǎng)絡(luò)的性能;在沒(méi)有目標(biāo)模型任何信息的情況下,黑盒攻擊方法GF-Attack[22]通過(guò)攻擊圖過(guò)濾器生效;對(duì)于鏈路預(yù)測(cè)任務(wù),IGA[23]通過(guò)圖自編碼器(graph auto-encoder, GAE)[24]的梯度信息對(duì)目標(biāo)連邊進(jìn)行隱藏,從而使其進(jìn)行錯(cuò)誤預(yù)測(cè);Zhou等人[25]通過(guò)刪除圖中的連邊來(lái)攻擊圖的局部相似度和全局相似度;針對(duì)社區(qū)發(fā)現(xiàn)任務(wù),Chen等人提出了基于遺傳算法的Q-Attack方法[26]和進(jìn)化擾動(dòng)攻擊EPA[27].綜上所述,現(xiàn)有的圖對(duì)抗攻擊方法主要是通過(guò)添加或刪除圖中的關(guān)鍵連邊,從而降低GNN模型在各項(xiàng)任務(wù)中的性能.

1.2 面向圖神經(jīng)網(wǎng)絡(luò)的防御

一方面攻擊的方法層出不窮;另一方面,研究者們開(kāi)始注重模型漏洞的發(fā)現(xiàn)和加固,即如何采取有效的防御方法來(lái)增強(qiáng)圖神經(jīng)網(wǎng)絡(luò)模型對(duì)對(duì)抗攻擊的魯棒性.針對(duì)防御方法的對(duì)象不同,防御方法可分為2類,即針對(duì)輸入數(shù)據(jù)的轉(zhuǎn)換的防御方法和針對(duì)模型結(jié)構(gòu)的防御方法.針對(duì)數(shù)據(jù)轉(zhuǎn)換的防御,Dai等人在文獻(xiàn)[6]中提出了在訓(xùn)練過(guò)程中隨機(jī)丟棄一些連邊進(jìn)行對(duì)抗訓(xùn)練來(lái)達(dá)到防御對(duì)抗攻擊的效果,實(shí)驗(yàn)證明了這種方法對(duì)于模型魯棒性提高的作用不明顯;Wu等人[15]根據(jù)節(jié)點(diǎn)之間的Jaccard相似度利用貪心算法尋找相似度低的連邊,并通過(guò)設(shè)置閾值的方式刪除連邊達(dá)到防御效果,但是Jaccard相似度適用于2進(jìn)制特征而忽略了特征中潛在的數(shù)值大??;Entezari等人[16]通過(guò)研究NETTACK的擾動(dòng)性質(zhì),發(fā)現(xiàn)NETTACK僅影響圖的高秩(低奇異值)部分,據(jù)此提出了一種基于奇異值分解(singular value decomposition, SVD)的圖純化方法,該方法僅使用了top-k個(gè)奇異值對(duì)擾動(dòng)圖進(jìn)行過(guò)濾,從而達(dá)到濾除對(duì)抗連邊的效果,然而,由于僅考慮了前top-k個(gè)奇異值,因此存在丟失一些關(guān)鍵信息的風(fēng)險(xiǎn);Jin等人[17]根據(jù)圖的稀疏性、低秩性和節(jié)點(diǎn)的特征平滑設(shè)計(jì)了一種魯棒的圖神經(jīng)網(wǎng)絡(luò)Pro-GNN,在中毒圖的基礎(chǔ)上重新構(gòu)建干凈圖,實(shí)驗(yàn)證明,Pro-GNN具有良好的抵抗中毒攻擊的能力,然而由于Pro-GNN需要迭代地構(gòu)建干凈圖并交替地進(jìn)行優(yōu)化,這使得Pro-GNN的復(fù)雜度變高,訓(xùn)練時(shí)間較長(zhǎng),且需要占據(jù)較多的計(jì)算資源;在針對(duì)模型結(jié)構(gòu)的防御方法中,Zhu等人[14]利用高斯分布對(duì)噪聲的容忍度,將其作為圖卷積層中節(jié)點(diǎn)的隱層表示,并根據(jù)方差為鄰居節(jié)點(diǎn)分配注意力權(quán)重,由于被攻擊節(jié)點(diǎn)對(duì)其他節(jié)點(diǎn)的影響的方差大,并被分配了較小的注意力權(quán)重,因此可以降低不良影響的傳播,該方法是對(duì)方差進(jìn)行平滑而起到防御作用的,具有較強(qiáng)的通用性,但是該方法對(duì)不利影響的吸收能力也是有限的,對(duì)于一些較強(qiáng)的攻擊,針對(duì)性不強(qiáng),因此該方法的防御能力是有限的;此外,Chen等人[10]提出了使用平滑蒸餾和平滑損失函數(shù)的方法來(lái)實(shí)現(xiàn)梯度隱藏,并對(duì)模型進(jìn)行對(duì)抗訓(xùn)練,從而增強(qiáng)了圖神經(jīng)網(wǎng)絡(luò)模型對(duì)基于梯度的對(duì)抗攻擊方法的魯棒性,該方法對(duì)基于梯度的對(duì)抗攻擊方法具有較好的防御性能,但也需要生成大量對(duì)抗樣本進(jìn)行訓(xùn)練,防御代價(jià)較高;Tang等人[13]設(shè)計(jì)了一種具有懲罰性聚合機(jī)制的圖神經(jīng)網(wǎng)絡(luò)PA-GNN,通過(guò)限制擾動(dòng)連邊的消息傳遞從而使聚合函數(shù)更專注于真實(shí)的鄰居節(jié)點(diǎn),由于需要預(yù)先使用對(duì)抗樣本和注意力機(jī)制訓(xùn)練一個(gè)具有懲罰能力的元模型來(lái)對(duì)PA-GNN進(jìn)行初始化,因此該方法的復(fù)雜程度較高;Jin等人[28]強(qiáng)調(diào)了現(xiàn)有GCN模型的Laplacian算子在空間域中信息融合范圍有限以及在譜域中的不良偽像,并進(jìn)一步提出了一種可變冪算子替代Laplacian算子,得到可變冪網(wǎng)絡(luò),可同時(shí)不同距離的特征變換函數(shù)和全局參數(shù),從而提高圖神經(jīng)網(wǎng)絡(luò)的魯棒性.

Fig. 1 The distribution of node features similarity圖1 節(jié)點(diǎn)特征相似度分布

綜上所述,現(xiàn)有的面向圖神經(jīng)網(wǎng)絡(luò)的防御方法主要可以分為針對(duì)輸入數(shù)據(jù)的轉(zhuǎn)換的防御方法和針對(duì)模型結(jié)構(gòu)的防御方法.盡管這些防御方法取得了一定的效果,但是仍存在局限性和挑戰(zhàn).針對(duì)輸入數(shù)據(jù)的轉(zhuǎn)換防御方法需要對(duì)輸入圖進(jìn)行預(yù)處理,而預(yù)處理后的圖的質(zhì)量將直接影響GNN模型的性能.理論上這種防御方式對(duì)任何種類的對(duì)抗樣本都有一定的防御效果,但是其缺點(diǎn)在于可能增加模型對(duì)干凈樣本的誤報(bào)率,即使GNN模型損失一定的性能獲取對(duì)對(duì)抗攻擊的魯棒性.如何提高GNN模型在干凈樣本上的性能是該類方法的主要挑戰(zhàn).針對(duì)模型結(jié)構(gòu)的防御方法需要從模型內(nèi)部結(jié)構(gòu)進(jìn)行改進(jìn),這提高了模型的復(fù)雜性,尤其是與對(duì)抗訓(xùn)練相結(jié)合的防御方式需要更多的計(jì)算資源與訓(xùn)練時(shí)間.

2 基于圖重構(gòu)的圖神經(jīng)網(wǎng)絡(luò)防御方法

2.1 動(dòng) 機(jī)

在提出本文的方法之前,首先觀察4種攻擊算法生成的不同對(duì)抗樣本的結(jié)構(gòu)相似度和節(jié)點(diǎn)特征相似度,以Cora數(shù)據(jù)集為例,結(jié)果如表1和圖1所示.由表1可知,大部分對(duì)抗連邊所連接的節(jié)點(diǎn)對(duì)之間幾乎不存在共同鄰居(common neighbors, CN),這說(shuō)明了它們周圍的結(jié)構(gòu)相似性較低.此外從節(jié)點(diǎn)自身屬性特征考慮,如圖1所示,這些被對(duì)抗連邊所連接的節(jié)點(diǎn)屬性特征也具有低相似度的特點(diǎn).在此基礎(chǔ)上,本文提出了一種面向圖神經(jīng)網(wǎng)絡(luò)的圖重構(gòu)防御方法GRD-GNN.

Table 1 The Proportion of Structural Similarity of Node Pairs Connected by Adversarial Edges

Fig. 2 The framework of GRD-GNN algorithm圖2 GRD-GNN算法框架圖

2.2 目標(biāo)模型

(1)

(2)

其中,VL是帶有標(biāo)簽的節(jié)點(diǎn)集合,|F|是圖中節(jié)點(diǎn)的標(biāo)簽數(shù),Y是真實(shí)標(biāo)簽矩陣.

此外,為了驗(yàn)證本文提出方法的通用性,本文還在GAT模型[19]上進(jìn)行實(shí)驗(yàn).與GCN模型不同的是,GAT模型在卷積層中引入了注意力機(jī)制,為不同的鄰居節(jié)點(diǎn)分配不同權(quán)重.節(jié)點(diǎn)i的隱層表達(dá)為

(3)

其中,Wk是與輸入相關(guān)的線性變換的權(quán)重矩陣;K代表獨(dú)立的注意力機(jī)制的數(shù)量;a∈R2M,M是節(jié)點(diǎn)特征的維數(shù).此外,值得注意的是權(quán)重矩陣W是共享的.GAT模型的最終輸出層被定義為

(4)

此處δ(·)在節(jié)點(diǎn)分類任務(wù)中為softmax函數(shù)或sigmoid函數(shù).

2.3 GRD-GNN算法框架

本節(jié)對(duì)本文提出的基于圖重構(gòu)的GRD-GNN算法的具體細(xì)節(jié)進(jìn)行詳細(xì)介紹.GRD-GNN的框架圖如圖2所示,當(dāng)GNN模型的輸入為一張正常圖時(shí),輸出正常,并應(yīng)用于圖關(guān)鍵結(jié)構(gòu)提取等任務(wù),獲得正常的目標(biāo)節(jié)點(diǎn)相關(guān)的關(guān)鍵子圖;當(dāng)GNN模型的輸入為1張擾動(dòng)圖時(shí),模型的分類性能下降,由解釋器GRAD提取的目標(biāo)節(jié)點(diǎn)相關(guān)子圖與正常圖不一致;GRD-GNN的輸入無(wú)論是正常圖還是擾動(dòng)圖都將依據(jù)節(jié)點(diǎn)特征相似度和共同鄰居數(shù)進(jìn)行圖重構(gòu),具體步驟為根據(jù)輸入特征相似度閾值τ和共同鄰居數(shù)閾值k,刪除低于相似度閾值的連邊,并連接具有高相似度的節(jié)點(diǎn),輸出重構(gòu)圖,并作為GNN模型的輸入,獲得正常的輸出,并由解釋器GRAD提取目標(biāo)節(jié)點(diǎn)相關(guān)的關(guān)鍵子圖,此時(shí)輸出與正常圖比較,驗(yàn)證GRD-GNN的有效性.

更具體地,GRD-GNN算法主要分為2個(gè)步驟:

1) 濾除對(duì)抗擾動(dòng).通過(guò)構(gòu)建結(jié)構(gòu)相似度和節(jié)點(diǎn)特征相似度對(duì)圖中的連邊進(jìn)行貪心搜索,查找可疑連邊,刪除相似度得分低于給定閾值的連邊,達(dá)到清除圖中對(duì)抗連邊的效果.

2)
圖增強(qiáng).在步驟1)的基礎(chǔ)上,利用節(jié)點(diǎn)自身特征的相似度進(jìn)行排序,在保證節(jié)點(diǎn)在輸入圖中的度值情況下連接高節(jié)點(diǎn)相似度的連邊,達(dá)到圖增強(qiáng)的效果.

1) 濾除對(duì)抗擾動(dòng).共同鄰居數(shù)[29]是復(fù)雜網(wǎng)絡(luò)研究中的1種經(jīng)典的結(jié)構(gòu)相似度算法.2個(gè)節(jié)點(diǎn)的共同鄰居數(shù)越少,則說(shuō)明兩者在網(wǎng)絡(luò)中的關(guān)系越疏遠(yuǎn).因此,CN常用于評(píng)估節(jié)點(diǎn)對(duì)之間的結(jié)構(gòu)相似度.NCN被定義為

(5)

其中,Γ(i)表示節(jié)點(diǎn)i周圍的鄰居節(jié)點(diǎn)集合,Γ(j)表示節(jié)點(diǎn)j周圍的鄰居節(jié)點(diǎn)集合.則CN關(guān)于鄰接矩陣A表達(dá)形式為

TCN=AA,

(6)

此外,為了從節(jié)點(diǎn)自身屬性上衡量2個(gè)節(jié)點(diǎn)之間的相似性,本文采用了余弦相似度來(lái)計(jì)算2個(gè)特征向量之間的距離,得到特征相似度矩陣S.節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的余弦相似度可以表示為

(7)

其中,X為節(jié)點(diǎn)的特征,|·|代表取模運(yùn)算.

在上述相似度計(jì)算的基礎(chǔ)上進(jìn)行可疑連邊篩選和濾除,將θdel定義為刪除連邊操作:

(8)

(9)

2)
圖增強(qiáng).在KNN(k-nearest neighbor)算法[30]的啟發(fā)下,本文根據(jù)節(jié)點(diǎn)對(duì)的余弦相似度進(jìn)行圖增強(qiáng).本文定義了選擇矩陣Λ進(jìn)行增強(qiáng)連邊的選擇:

Λij=Sij×(-2eij+1),

(10)

式(10)表明當(dāng)連邊eij存在時(shí)忽略該連邊,僅考慮圖中不存在的連邊作為候選連邊集.

(11)

e′為需要添加的連邊,通過(guò)上述方式最終獲得經(jīng)過(guò)重構(gòu)后的增強(qiáng)圖G′及對(duì)應(yīng)的鄰接矩陣A′.

算法1.GRD-GNN算法.

輸出:重構(gòu)后的鄰接矩陣A′.

① 根據(jù)式(6)計(jì)算結(jié)構(gòu)相似度矩陣TCN;根據(jù)式(7)計(jì)算節(jié)點(diǎn)特征相似度矩陣S;

② foreijin連邊集合do

end for

④ 計(jì)算選擇矩陣Λij=Sij×(-2eij+1);

num+=1;

end for

⑥ return重構(gòu)圖G′及對(duì)應(yīng)鄰接矩陣A′.

2.4 GRD-GNN有效性分析

為了能更直觀地解釋GRD-GNN算法的有效性,本文從防御前后圖結(jié)構(gòu)的度分布情況、節(jié)點(diǎn)屬性特征分布情況和模型提取的embedding信息等多個(gè)角度進(jìn)行分析.其中,重構(gòu)圖的度分布應(yīng)當(dāng)盡量與干凈圖一致;圖中節(jié)點(diǎn)的特征相比擾動(dòng)圖應(yīng)當(dāng)有更高的相似度;模型提取的重構(gòu)圖的embedding信息應(yīng)當(dāng)與干凈圖相似,從而說(shuō)明GRD-GNN的有效性.

本文實(shí)驗(yàn)中還使用了基于梯度的可解釋性方法GRAD[31]對(duì)圖神經(jīng)網(wǎng)絡(luò)在攻擊前后和防御前后提取到的圖關(guān)鍵結(jié)構(gòu)進(jìn)行了可視化.進(jìn)行防御后GRAD提取的關(guān)鍵子圖應(yīng)與從干凈圖中提取的關(guān)鍵子圖相似或一致,從而說(shuō)明GRD-GNN的有效性.其中GRAD是一種基于梯度和顯著性映射的解釋方法,圖神經(jīng)網(wǎng)絡(luò)損失函數(shù)的梯度被用于解釋圖神經(jīng)網(wǎng)絡(luò)的行為.

3 實(shí)驗(yàn)與分析

為了驗(yàn)證本文提出的基于圖重構(gòu)的圖神經(jīng)網(wǎng)絡(luò)防御方法的有效性,本文在3個(gè)真實(shí)數(shù)據(jù)集和2種圖神經(jīng)網(wǎng)絡(luò)模型上進(jìn)行實(shí)驗(yàn),并與最新的防御方法進(jìn)行比較,驗(yàn)證本文方法的有效性.

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)環(huán)境是:Python3.6開(kāi)發(fā),運(yùn)行環(huán)境的CPU為i7-7700K 3.5 GHz×8,GPU為TITAN XP 12 GB,內(nèi)存為16 GB×4 memory (DDR4),開(kāi)發(fā)及實(shí)驗(yàn)的操作系統(tǒng)為Ubuntu 16.04 (OS).

3.2 數(shù)據(jù)集及評(píng)價(jià)指標(biāo)

本文在3個(gè)圖神經(jīng)網(wǎng)絡(luò)研究中常用的真實(shí)數(shù)據(jù)集上評(píng)估GRD-GNN的防御性能,分別是Cora,Citeseer,Pubmed,與文獻(xiàn)[17]相同,本文采用了3個(gè)數(shù)據(jù)集中的最大連通圖作為實(shí)驗(yàn)對(duì)象.表2總結(jié)了3個(gè)數(shù)據(jù)集的基本統(tǒng)計(jì)信息:

Table 2 The Basic Statistics of Graph Datasets表2 圖數(shù)據(jù)集的基本統(tǒng)計(jì)信息

1) Cora數(shù)據(jù)集.Cora數(shù)據(jù)集是1個(gè)引文網(wǎng)絡(luò)數(shù)據(jù)集,包含了大量機(jī)器學(xué)習(xí)相關(guān)的論文,共分為7類.其中共有2 485篇文章和5 096條引用記錄.每個(gè)節(jié)點(diǎn)包含1 433條特征.

2) Citeseer數(shù)據(jù)集.Citeseer數(shù)據(jù)集也是1個(gè)引文網(wǎng)絡(luò)數(shù)據(jù)集,它包含了2 110篇文章和3 668條引用關(guān)系,共分為6類,含有3 703個(gè)特征.

3) Pubmed數(shù)據(jù)集.Pubmed數(shù)據(jù)集是1個(gè)生物鄰域相關(guān)的引文網(wǎng)絡(luò),包含了19 717篇文章、44 338條引用關(guān)系和500個(gè)特征,分為3類.

本文實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)采用模型的預(yù)測(cè)準(zhǔn)確率(accuracy)和分類裕度(classification margin, CM),其中CM指標(biāo)表示為

(12)

3.3 攻擊方法

在本文實(shí)驗(yàn)中,使用了3種經(jīng)典的、具有較強(qiáng)攻擊性能的對(duì)抗攻擊算法,即NETTACK算法[5]和Metattack算法[20]和DICE算法[21].下面對(duì)這3種算法進(jìn)行簡(jiǎn)要介紹:

1) NETTACK[5].NETTACK算法首先根據(jù)重要的數(shù)據(jù)特征選擇候選的連邊和特征,其次設(shè)計(jì)了2個(gè)評(píng)估函數(shù)用于評(píng)估在修改候選連邊和特征后的目標(biāo)置信度變化,最后通過(guò)修改得分最高的連邊或特征,并迭代地更新對(duì)抗網(wǎng)絡(luò).

2) Metattack[20].Metattack將輸入的網(wǎng)絡(luò)G作為一個(gè)超參數(shù),構(gòu)建成Bi-level的優(yōu)化問(wèn)題,并利用基于網(wǎng)絡(luò)連邊的元梯度進(jìn)行對(duì)抗網(wǎng)絡(luò)的迭代更新,是一種無(wú)目標(biāo)攻擊算法.

3) DICE[21].DICE對(duì)目標(biāo)節(jié)點(diǎn)隨機(jī)斷開(kāi)b條連邊,再隨機(jī)連接K-b條連邊,其中K是目標(biāo)節(jié)點(diǎn)原有的連邊數(shù).

3.4 對(duì)比防御方法

為了驗(yàn)證GRD-GNN的有效性,本文將其與GCN和其他4種防御方法進(jìn)行比較,分別為RGCN[14],Jaccard_based[15],SVD_based[16],Pro-GNN[17].下面對(duì)4種防御方法進(jìn)行簡(jiǎn)要介紹:

1) RGCN[14]. RGCN利用了高斯分布對(duì)擾動(dòng)的容忍性,將圖卷積層的隱層節(jié)點(diǎn)表示為高斯分布以吸收對(duì)抗攻擊帶來(lái)的影響.此外還利用方差為鄰居節(jié)點(diǎn)分配注意力權(quán)重,具有高方差的節(jié)點(diǎn)將受到懲罰.

2) Jaccard_based[15]. Jaccard_based通過(guò)計(jì)算節(jié)點(diǎn)特征的Jaccard相似度,并設(shè)置一定的閾值對(duì)連邊進(jìn)行篩選、刪除,最終得到1張經(jīng)過(guò)凈化的圖.

3) SVD_based[16]. SVD_based旨在將受擾動(dòng)的圖進(jìn)行SVD分解,通過(guò)截取top-k個(gè)高奇異值(低秩),重新組成1張新的沒(méi)有擾動(dòng)的圖.

4) Pro-GNN[17].利用了圖的低秩、稀疏性和節(jié)點(diǎn)特征的平滑特性,從受擾動(dòng)的圖和模型參數(shù)中學(xué)習(xí)到1張干凈的圖來(lái)防御對(duì)抗攻擊.

此外,在本文的實(shí)驗(yàn)中還設(shè)置了1組對(duì)照CND(common neighbor delete),即僅在共同鄰居數(shù)的指導(dǎo)下進(jìn)行連邊刪除.

3.5 防御實(shí)驗(yàn)

在防御的過(guò)程中需要解決2個(gè)主要的問(wèn)題,即:1)在干凈樣本上,需要保持圖神經(jīng)網(wǎng)絡(luò)模型的性能.2)在第1個(gè)問(wèn)題的基礎(chǔ)上盡可能地消除對(duì)抗攻擊帶來(lái)的影響.

1) 在干凈樣本上的分類性能

首先,為了驗(yàn)證防御方法在干凈樣本(未添加擾動(dòng))上對(duì)圖神經(jīng)網(wǎng)絡(luò)模型的性能影響,本文在GCN模型上對(duì)各防御方法進(jìn)行測(cè)試,結(jié)果如表3所示:

Table 3 Accuracy of Different Defense Methods on Clean Data表3 不同防御方法在干凈數(shù)據(jù)上的準(zhǔn)確率

由表3可知,大部分的防御方法都能較好地保持GCN模型的分類性能,在規(guī)模較小的數(shù)據(jù)集Cora和Citeseer中,SVD_based和對(duì)照組CND的性能下降較為明顯,其原因在于,兩者均對(duì)圖結(jié)構(gòu)有較大程度的改變,因此對(duì)GCN模型的分類性能具有較大的影響.而在較大規(guī)模的Pubmed數(shù)據(jù)集中,兩者對(duì)圖的改動(dòng)對(duì)整體圖結(jié)構(gòu)的影響相比Cora,Citeseer較小,因此,仍能一定程度保持GCN模型的分類性能.本文提出的GRD-GNN方法雖然沒(méi)有得到最優(yōu)的分類效果,但是在整體上均能保持與僅有GCN模型相近的性能.這也驗(yàn)證了GRD-GNN能較好地保持GCN模型的性能.

2) 針對(duì)目標(biāo)攻擊的防御效果

根據(jù)節(jié)點(diǎn)的數(shù)據(jù)特征(例如度分布、中心性等)可以對(duì)節(jié)點(diǎn)在圖中的重要程度進(jìn)行劃分.攻擊者常對(duì)一些具有高價(jià)值的目標(biāo)進(jìn)行攻擊,目標(biāo)攻擊的目的在于使模型對(duì)目標(biāo)節(jié)點(diǎn)的分類錯(cuò)誤,以獲得對(duì)攻擊者而言的最大收益.因此,能否對(duì)目標(biāo)節(jié)點(diǎn)進(jìn)行有效保護(hù)使檢驗(yàn)防御方法對(duì)目標(biāo)攻擊方法的防御能力的重要指標(biāo)之一.本節(jié)實(shí)驗(yàn)即是驗(yàn)證各個(gè)防御算法對(duì)目標(biāo)攻擊的防御效果.

Table 4 Accuracy of Different Defense Method Against NETTACK Based on GCN表4 在NETTACK攻擊下不同防御方法基于GCN模型的準(zhǔn)確率

實(shí)驗(yàn)中,本文采用了具有較強(qiáng)攻擊能力且具有良好隱蔽性的圖對(duì)抗攻擊算法NETTACK.由表2可知,3個(gè)數(shù)據(jù)集中的節(jié)點(diǎn)平均度值較低,分別為2.04,1.74,2.25,因此設(shè)置每個(gè)目標(biāo)節(jié)點(diǎn)都將受到1~5條擾動(dòng)連邊的攻擊(5條擾動(dòng)連邊的添加可視為較大程度的擾動(dòng)),以測(cè)試防御算法對(duì)不同程度擾動(dòng)的防御能力.實(shí)驗(yàn)采用模型節(jié)點(diǎn)分類準(zhǔn)確率(accuracy)作為指標(biāo),結(jié)果如表4所示.

由表4可知,隨著擾動(dòng)的增加,在大部分情況下,GRD-GNN在各個(gè)數(shù)據(jù)集上均能取得最佳效果,由于對(duì)比算法.甚至在每個(gè)節(jié)點(diǎn)上的擾動(dòng)增加到5條連邊時(shí),模型對(duì)目標(biāo)節(jié)點(diǎn)的分類準(zhǔn)確率仍能達(dá)到與在無(wú)擾動(dòng)情況下相近的性能.這說(shuō)明GRD-GNN能夠有效地防御對(duì)抗攻擊.

實(shí)驗(yàn)從模型的分類準(zhǔn)確率角度驗(yàn)證了本文提出方法的有效性,這是一種宏觀的性能體現(xiàn).此外,能否使圖神經(jīng)網(wǎng)絡(luò)對(duì)節(jié)點(diǎn)進(jìn)行更加令人信服的分類也是體現(xiàn)防御方法性能的一個(gè)方面.本文實(shí)驗(yàn)中引入了CM[5]指標(biāo)來(lái)對(duì)防御方法的防御能力進(jìn)行微觀上的評(píng)判.需要說(shuō)明的是,CM指標(biāo)代表了目標(biāo)節(jié)點(diǎn)與正確分類邊界的距離,因此,當(dāng)節(jié)點(diǎn)被正確分類時(shí),其對(duì)應(yīng)的模型輸出置信度應(yīng)當(dāng)越高越好.為了更明顯地對(duì)比,實(shí)驗(yàn)中采用了添加5條連邊的擾動(dòng)進(jìn)行攻擊,結(jié)果如圖3所示.

Fig. 3 The boxplot of Classification Margin on three datasets圖3 3個(gè)數(shù)據(jù)集上的Classification Margin箱線圖

圖3表明相比其他對(duì)比算法,除去對(duì)照組CND,GRD-GNN的箱體更短一些,這說(shuō)明其數(shù)據(jù)更集中,且與未經(jīng)過(guò)擾動(dòng)的GCN模型的輸出更接近,節(jié)點(diǎn)被正確分類的置信度更高,防御的性能更好.而在Citeseer數(shù)據(jù)集上略低于對(duì)照組CND的原因可能在于,相比Cora,Pubmed數(shù)據(jù)集,Citeseer數(shù)據(jù)集更稀疏,CND對(duì)圖結(jié)構(gòu)的改動(dòng)更大一些,其中也包括了在無(wú)擾動(dòng)圖中自身攜帶的一些噪聲,且目標(biāo)節(jié)點(diǎn)的度值較大,因此即使在損失了相當(dāng)一部分模型的整體性能的情況下,CND仍能對(duì)目標(biāo)節(jié)點(diǎn)進(jìn)行較好的分類.

3) 針對(duì)無(wú)目標(biāo)攻擊的防御效果

在針對(duì)圖神經(jīng)網(wǎng)絡(luò)的對(duì)抗攻擊方法中,有一類攻擊者注重于通過(guò)修改少數(shù)連邊而使圖神經(jīng)網(wǎng)絡(luò)模型的性能大幅下降,而不是僅針對(duì)某一些節(jié)點(diǎn)的攻擊,例如Metattack就是其中一種強(qiáng)力的攻擊算法.在針對(duì)無(wú)目標(biāo)攻擊的防御實(shí)驗(yàn)中,本文采用了Metattack和DICE對(duì)圖神經(jīng)網(wǎng)絡(luò)進(jìn)行攻擊,并在Metattack攻擊達(dá)到修改網(wǎng)絡(luò)中25%連邊和DICE達(dá)到修改網(wǎng)絡(luò)中50%連邊的高強(qiáng)度攻擊情況下對(duì)各防御方法進(jìn)行性能測(cè)試,實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)為模型的節(jié)點(diǎn)分類準(zhǔn)確率.在圖結(jié)構(gòu)中,對(duì)關(guān)鍵節(jié)點(diǎn)的保護(hù)是至關(guān)重要的,這樣的節(jié)點(diǎn)數(shù)量在網(wǎng)絡(luò)中占的比重不大,對(duì)攻擊者而言卻又具有較高價(jià)值.因此,實(shí)驗(yàn)中通過(guò)對(duì)節(jié)點(diǎn)的度值進(jìn)行節(jié)點(diǎn)重要性排序,實(shí)驗(yàn)中取度值在前50%的節(jié)點(diǎn)集合進(jìn)行測(cè)試,模擬在高強(qiáng)度攻擊的情況下防御方法對(duì)關(guān)鍵節(jié)點(diǎn)的保護(hù)能力.實(shí)驗(yàn)的結(jié)果如圖4和圖5所示.

Fig. 4 Accuracy of nodes with different degrees under Metattack (25% edges are modified)圖4 在Metattack(修改25%的連邊數(shù))攻擊下不同度值節(jié)點(diǎn)的準(zhǔn)確率

Fig. 5 Accuracy of nodes with different degrees under DICE (50% edges are modified)圖5 在DICE(修改50%的連邊數(shù))攻擊下不同度值節(jié)點(diǎn)的準(zhǔn)確率

分析圖4可知,高度值節(jié)點(diǎn)對(duì)Metattack的攻擊容忍性較高,而度值較低的節(jié)點(diǎn)更容易受到對(duì)抗攻擊的影響,因此Accuracy曲線總體呈下降趨勢(shì).從圖4中可以看到,在大多數(shù)情況下,GRD-GNN算法均能取得較好的效果,尤其是在Cora數(shù)據(jù)集上的性能提升尤為明顯,在Pubmed數(shù)據(jù)集上的性能雖然略遜于Pro-GNN,可能是由于Pro-GNN方法更加復(fù)雜,但這也大大增加了Pro-GNN的計(jì)算資源消耗,在時(shí)間成本上,GRD-GNN比Pro-GNN更加占據(jù)優(yōu)勢(shì).此外,在Pubmed數(shù)據(jù)集上,CND,SVD_based在度值較小的節(jié)點(diǎn)上的分類準(zhǔn)確率略有上升,原因在于兩者對(duì)圖的修改程度比較大,而這種修改對(duì)低度值節(jié)點(diǎn)的影響大于對(duì)高度值的影響.如圖5所示,由于DICE的隨機(jī)性,使得其對(duì)其防御難度增加,但是在大多數(shù)情況下,GRD-GNN均能取得最好的性能,但是基于擾動(dòng)存在于圖的高秩部分條件的SVD_based性能明顯下降.這說(shuō)明了SVD_based具有更加苛刻的限制條件.

4) 防御通用性

作為一種對(duì)輸入圖進(jìn)行重構(gòu)的方法,GRD-GNN算法可以匹配不同的圖神經(jīng)網(wǎng)絡(luò),是一種通用的圖神經(jīng)網(wǎng)絡(luò)防御方法.同樣地,Jaccard_based,SVD_based是對(duì)擾動(dòng)圖進(jìn)行純化,因此也適用于各類圖神經(jīng)網(wǎng)絡(luò).由于模型限制和硬件條件限制,在本節(jié)實(shí)驗(yàn)中,采用Jaccard_based,SVD_based,GRD-GNN這3種方法進(jìn)行對(duì)比,在圖注意力網(wǎng)絡(luò)GAT模型上進(jìn)行測(cè)試.實(shí)驗(yàn)中的擾動(dòng)設(shè)置與針對(duì)目標(biāo)攻擊的防御效果和針對(duì)無(wú)目標(biāo)攻擊的防御效果的實(shí)驗(yàn)相同.實(shí)驗(yàn)結(jié)果如表5、圖6和圖7所示.

結(jié)合表5、圖6和圖7,在大多數(shù)情況下,GRD-GNN相比其余2種圖純化方法都能取得最佳效果.無(wú)攻擊情況下,3種防御方法均使GAT的分類性能下降,其中SVD_based在Cora,Citeseer數(shù)據(jù)集上使模型性能大幅下降,而Jaccard_based,GRD-GNN均能較好地保持GAT模型在干凈樣本上的分類性能;在NETTACK攻擊場(chǎng)景中,當(dāng)攻擊所添加的擾動(dòng)較小時(shí),對(duì)GAT模型攻擊性尚未體現(xiàn),因此GRD-GNN的對(duì)NETTACK的防御能力沒(méi)有充分體現(xiàn);在擾動(dòng)程度較大時(shí),相比其他2種防御方法,GRD-GNN的優(yōu)勢(shì)得以體現(xiàn),尤其是在Citeseer,Pubmed數(shù)據(jù)集上,甚至能取得與無(wú)攻擊情況下相近性能,在Cora數(shù)據(jù)集上也能獲得較大的準(zhǔn)確率提升.與實(shí)驗(yàn)的結(jié)果類似,GRD-GNN都能取得較好的效果,而在Metattack攻擊場(chǎng)景中,GRD-GNN在3個(gè)數(shù)據(jù)集上相比于另外2種防御方法取得了很大的優(yōu)勢(shì).實(shí)驗(yàn)證明了GRD-GNN可以有效地加載在其他圖神經(jīng)網(wǎng)絡(luò)上,以提高圖神經(jīng)網(wǎng)絡(luò)對(duì)對(duì)抗攻擊的魯棒性.

Table 5 Accuracy of Different Defense Method Against NETTACK Based on GAT

Fig. 6 Accuracy of GAT with different degrees under Metattack (25% edges are modified)圖6 在Metattack(修改25%的連邊數(shù))攻擊下不同度值GAT的準(zhǔn)確率

Fig. 7 Accuracy of GAT with different degrees under DICE (50% edges are modified) 圖7 在DICE(修改50%的連邊數(shù))攻擊下不同度 值GAT的準(zhǔn)確率

3.6 有效性分析

3.5節(jié)主要對(duì)GRD-GNN與其他防御方法進(jìn)行比較,測(cè)試了不同攻擊場(chǎng)景、不同模型上的性能,本節(jié)將進(jìn)一步從不同角度探究GRD-GNN方法的有效性原因.

1) 原圖與重構(gòu)圖的度分布比較

首先通過(guò)圖的度分布情況來(lái)評(píng)判GRD-GNN重構(gòu)圖的優(yōu)劣.由于NETTACK針對(duì)目標(biāo)節(jié)點(diǎn)進(jìn)行攻擊,且添加的擾動(dòng)相較于網(wǎng)絡(luò)連邊數(shù)量不多,因此對(duì)圖的度分布影響不大,故本文對(duì)Metattack攻擊(修改25%連邊)進(jìn)行分析.如圖8所示為干凈圖、經(jīng)過(guò)Metattack擾動(dòng)圖、CND重構(gòu)圖和GRD-GNN重構(gòu)圖的度分布情況.各數(shù)據(jù)集呈現(xiàn)明顯的冪律分布,因此,經(jīng)過(guò)重構(gòu)后的圖也應(yīng)當(dāng)保持冪律分布的特性.其中,CND對(duì)圖結(jié)構(gòu)有明顯的破壞,這是其使GCN模型總體性能下降的原因之一.觀察經(jīng)過(guò)Metattack攻擊的圖可知,Metattack對(duì)低度值的節(jié)點(diǎn)影響較大.而經(jīng)過(guò)GRD-GNN重構(gòu)后的圖分布與干凈圖更為接近,說(shuō)明GRD-GNN能在一定程度上消除Metattack對(duì)圖結(jié)構(gòu)的影響.

Fig. 8 Degree distribution of graphs圖8 圖的度分布

2) 原圖與重構(gòu)圖的節(jié)點(diǎn)相似度分布比較

從連邊對(duì)應(yīng)節(jié)點(diǎn)的特征相似度考慮,具有相同標(biāo)簽的節(jié)點(diǎn)應(yīng)當(dāng)具有高相似度.同樣使用Metattack(修改25%連邊)進(jìn)行攻擊,對(duì)圖中兩兩節(jié)點(diǎn)之間的特征相似度分布進(jìn)行分析,如圖9所示.

Fig. 9 Node similarity distribution in the graph圖9 圖中的節(jié)點(diǎn)相似度分布

由圖9可知,在Metattack的攻擊下,大量的不相似節(jié)點(diǎn)將被連接在一起,因此,節(jié)點(diǎn)間的相似度分布與干凈圖相比偏低.而CND根據(jù)節(jié)點(diǎn)的結(jié)構(gòu)相似度對(duì)連邊進(jìn)行刪除,可以有效地刪除一些對(duì)抗連邊,但是同時(shí)也導(dǎo)致了正常連邊的缺失.GRD-GNN在連邊刪除的基礎(chǔ)上基于節(jié)點(diǎn)特征相似度對(duì)圖進(jìn)行重構(gòu),因此GRD-GNN重構(gòu)圖的節(jié)點(diǎn)特征相似度分布較高,且圖結(jié)構(gòu)更加完整,更有利于圖神經(jīng)網(wǎng)絡(luò)模型的分類性能提升.

3) 防御前后embedding對(duì)比

本實(shí)驗(yàn)對(duì)GCN模型提取到的embedding利用t-SNE方法映射到2維空間進(jìn)行可視化,以此判斷模型生成的embedding的質(zhì)量.由于NETTACK是對(duì)部分目標(biāo)節(jié)點(diǎn)進(jìn)行攻擊,在t-SNE圖中難以觀察到,因此本實(shí)驗(yàn)采用無(wú)目標(biāo)攻擊的Metattack作為攻擊者,以Cora數(shù)據(jù)集為例,結(jié)果如圖10所示.

比較圖10(a)(b),GCN和GRD-GNN在干凈圖上都能分辨出明顯的7個(gè)簇,但是GRD-GNN重構(gòu)出的分布較為分散,這與GRD-GNN在干凈圖上的分類準(zhǔn)確率較GCN模型略有下降的實(shí)驗(yàn)結(jié)果相對(duì)應(yīng).對(duì)比圖10(a)(c),在Metattack的攻擊下,GCN模型提取的embedding質(zhì)量明顯下降,不同類別之間的類間距離縮小,不同類別的節(jié)點(diǎn)混雜,這是在Metattack攻擊下,GCN模型節(jié)點(diǎn)分類準(zhǔn)確率大幅下降的原因.最后比較圖10(a)(c)(d),即比較防御前后的效果,可以發(fā)現(xiàn),GRD-GNN能明顯提升GCN在攻擊下的embedding提取質(zhì)量,同類節(jié)點(diǎn)間更加緊湊,類與類之間距離增大,因此使GCN模型的分類性能得以恢復(fù),這也直接證明了GRD-GNN的有效性.相同的結(jié)論也能在Citeseer,Pubmed數(shù)據(jù)集上得出.

Fig. 10 t-SNE of embedding generated by GCN (Cora)圖10 GCN生成的embedding的t-SNE圖

3.7 圖關(guān)鍵結(jié)構(gòu)可視化及解釋

在很多情況下,圖神經(jīng)網(wǎng)絡(luò)常被作為黑箱模型使用.近年來(lái),許多工作試圖探索圖神經(jīng)網(wǎng)絡(luò)究竟學(xué)習(xí)到了什么,而這對(duì)于提高模型的透明度,減少模型出現(xiàn)系統(tǒng)性錯(cuò)誤的風(fēng)險(xiǎn)有重要作用.因此,通過(guò)對(duì)比圖神經(jīng)網(wǎng)絡(luò)在攻擊前后和防御前后學(xué)習(xí)到的關(guān)鍵結(jié)構(gòu),也可以對(duì)防御算法的優(yōu)劣進(jìn)行評(píng)判.圖11為基于GRAD解釋方法提取的與目標(biāo)節(jié)點(diǎn)相關(guān)的重要子圖.以Cora數(shù)據(jù)集為例,圖11(a)~(c)為在NETTACK攻擊下,防御前后提取到的子圖,可見(jiàn)NETTACK添加擾動(dòng)后與干凈圖有較大的區(qū)別,這也是因?yàn)镹ETTACK是一種目標(biāo)攻擊,對(duì)目標(biāo)節(jié)點(diǎn)的連邊修改較多,而由GRD-GNN重構(gòu)的圖結(jié)構(gòu)雖然與干凈圖相比并不是完全相同,但是結(jié)構(gòu)上更加相似.在Metattack攻擊場(chǎng)景中也能得到相似的結(jié)論.需要說(shuō)明的是Metattack為無(wú)目標(biāo)攻擊,因此對(duì)目標(biāo)節(jié)點(diǎn)的擾動(dòng)可能不大.如圖11(e)所示,Metattack攻擊下提取到的子圖中出現(xiàn)了環(huán)結(jié)構(gòu),這在干凈圖中是沒(méi)有的,GRD-GNN重構(gòu)圖中提取到的子圖與干凈圖基本一致.由于DICE的隨機(jī)性,GRD-GNN重構(gòu)圖中提取到的重要子圖雖然與干凈圖不太一致,但是任能保留一些主要結(jié)構(gòu),如圖11(g)(i)中的環(huán)結(jié)構(gòu).

Fig. 11 Important graph structure related to target node based on GRAD explainer (Cora)圖11 基于GRAD解釋方法的目標(biāo)節(jié)點(diǎn)相關(guān)的重要子圖(Cora)

3.8 參數(shù)敏感性分析

本節(jié)主要對(duì)GRD-GNN的2個(gè)參數(shù)(即結(jié)構(gòu)相似度閾值k和節(jié)點(diǎn)特征相似度閾值τ)的敏感性進(jìn)行分析.實(shí)驗(yàn)中,本文在固定某個(gè)閾值的條件下,改變另一個(gè)閾值來(lái)研究不同的閾值對(duì)GRD-GNN性能的影響.本實(shí)驗(yàn)中以Cora數(shù)據(jù)集為例,在NETTACK添加5條連邊的攻擊和Metattack修改圖中25%連邊的情景下分別進(jìn)行測(cè)試,其中結(jié)構(gòu)相似度閾值k由0~3設(shè)置,步長(zhǎng)為1;節(jié)點(diǎn)特征相似度τ由0~0.3設(shè)置,步長(zhǎng)為0.05.GRD-GNN的性能變化如圖12所示.為所有參數(shù)選擇合適的值,可以提高GRD-GNN的準(zhǔn)確率.當(dāng)隨著結(jié)構(gòu)相似度閾值k的提高,GRD-GNN性能下降,這是由圖的稀疏性導(dǎo)致的,即結(jié)構(gòu)相似度閾值k的值越高,更有可能刪除圖中相對(duì)重要的連邊,導(dǎo)致圖神經(jīng)網(wǎng)絡(luò)模型性能下降.而節(jié)點(diǎn)特征相似度τ過(guò)小或過(guò)大都會(huì)損壞模型的性能.因此,較小的結(jié)構(gòu)相似度閾值k和適當(dāng)?shù)墓?jié)點(diǎn)特征相似度τ可以有效地提高GRD-GNN的防御性能.根據(jù)結(jié)構(gòu)相似度閾值k和節(jié)點(diǎn)特征相似度τ對(duì)不同數(shù)據(jù)集的敏感性不強(qiáng),故本文中采用網(wǎng)格搜索的方式對(duì)閾值進(jìn)行優(yōu)化,從而獲得局部最優(yōu)值.本文實(shí)驗(yàn)設(shè)置結(jié)構(gòu)相似度閾值k參數(shù)集合為[0,1,2,3],節(jié)點(diǎn)特征相似度τ參數(shù)集合為[0,0.05,0.1,0.15,0.2,0.25,0.3].

Fig. 12 Parameter sensitivity analysis圖12 參數(shù)敏感性分析

4 總 結(jié)

本文首先觀察了4種攻擊算法生成的不同對(duì)抗樣本的結(jié)構(gòu)相似度和節(jié)點(diǎn)特征相似度,發(fā)現(xiàn)對(duì)抗連邊傾向于連接結(jié)構(gòu)相似度和節(jié)點(diǎn)特征相似度較低的節(jié)點(diǎn).在此觀察的基礎(chǔ)上,本文提出了一種基于圖重構(gòu)的圖神經(jīng)網(wǎng)絡(luò)防御方法.這是一個(gè)通用的防御框架,可以接入到圖神經(jīng)網(wǎng)絡(luò)的輸入部分來(lái)達(dá)到輸入數(shù)據(jù)轉(zhuǎn)換的防御效果.本文提出的GRD-GNN算法在確保GNN模型在干凈樣本上的性能的同時(shí),對(duì)輸入的擾動(dòng)圖進(jìn)行重構(gòu),獲得濾除對(duì)抗連邊的增強(qiáng)圖,從而提高GNN模型對(duì)對(duì)抗攻擊的魯棒性.本文在3個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行大量實(shí)驗(yàn),驗(yàn)證了本文提出的基于圖重構(gòu)的圖神經(jīng)網(wǎng)絡(luò)防御方法取得了最佳的效果.此外,本文還從度分布、節(jié)點(diǎn)屬性特征分布和GNN模型提取的embedding信息等多個(gè)角度分析了方法的有效性,并且使用圖神經(jīng)網(wǎng)絡(luò)解釋方法對(duì)防御方法的有效性進(jìn)行可視化解釋.但是在實(shí)驗(yàn)中,盡管引入了圖增強(qiáng)機(jī)制,但是GRD-GNN還是降低了GNN模型在干凈樣本上的部分性能,因此在未來(lái)的工作中,我們將致力于保持甚至提高GNN模型在干凈樣本上的性能,并進(jìn)一步降低對(duì)抗攻擊帶來(lái)的影響,提高GNN模型對(duì)對(duì)抗攻擊的防御能力.

猜你喜歡
擾動(dòng)神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)
基于RSSI測(cè)距的最大似然估計(jì)的節(jié)點(diǎn)定位算法
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
一類五次哈密頓系統(tǒng)在四次擾動(dòng)下的極限環(huán)分支(英文)
基于擾動(dòng)觀察法的光通信接收端優(yōu)化策略
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測(cè)
分區(qū)域的樹(shù)型多鏈的無(wú)線傳感器網(wǎng)絡(luò)路由算法
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對(duì)地攻擊型無(wú)人機(jī)自主能力評(píng)價(jià)
基于圖連通支配集的子圖匹配優(yōu)化算法
帶擾動(dòng)塊的細(xì)長(zhǎng)旋成體背部繞流數(shù)值模擬
基于點(diǎn)權(quán)的混合K-shell關(guān)鍵節(jié)點(diǎn)識(shí)別方法
鲜城| 江西省| 郴州市| 凤凰县| 宿迁市| 天峻县| 眉山市| 长海县| 三亚市| 司法| 东阿县| 苗栗县| 曲沃县| 绩溪县| 溆浦县| 通城县| 玉林市| 梧州市| 浦北县| 凌云县| 五指山市| 沙坪坝区| 宁津县| 开化县| 涟水县| 涞源县| 龙门县| 兴隆县| 郁南县| 长治市| 佛坪县| 金川县| 滦南县| 化州市| 微博| 镶黄旗| 孝昌县| 县级市| 永德县| 宣威市| 攀枝花市|