余 莉 萍
(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 201203)
目前,基于深度學(xué)習(xí)算法的最新進(jìn)展已經(jīng)在很多任務(wù)上取得突破(例如圖像分類[1]、自然語言處理[2]和語音處理[3]等領(lǐng)域)。但是,目前的方法通常以犧牲可解釋性為代價(jià)來提升深度神經(jīng)網(wǎng)絡(luò)(DNN)模型的性能。如何直觀地理解復(fù)雜的DNN的推理背后的依據(jù)具有挑戰(zhàn)性,決策的可解釋性是關(guān)鍵的先決條件,而簡單的黑盒預(yù)測是不可信的。DNN的另一個(gè)缺點(diǎn)是其固有的易受對抗性,惡意制作的樣本可觸發(fā)目標(biāo)DNN失效[4-6],這將造成不可預(yù)測的模型行為并阻礙其在對安全敏感的領(lǐng)域中使用。在諸如自動駕駛、醫(yī)療和金融決策等高風(fēng)險(xiǎn)領(lǐng)域,利用深度學(xué)習(xí)進(jìn)行重大決策時(shí),往往需要知曉算法所給出結(jié)果的依據(jù)。因此,透明化深度學(xué)習(xí)的“黑盒子”,使其具有可解釋性,具有重要意義。
通過提供模型級別[7-9]或?qū)嵗墑e[10-13]的解釋,這些方法的提出推動了DNN可解釋性領(lǐng)域的深入研究。這種可解釋性幫助用戶理解DNN的內(nèi)部工作原理,啟用包括模型驗(yàn)證、模型診斷、輔助分析、知識發(fā)現(xiàn)等領(lǐng)域的應(yīng)用。在本文中,引入可解釋性工作Grad-CAM[14],利用Grad-CAM生成熱力圖觀察輸出類別和輸入的內(nèi)在關(guān)系,圖1(a)所示為Grad-CAM的結(jié)果,原始輸入分類結(jié)果為“68.7% goose”,熱度越高的區(qū)域,表明該輸入部分對于類別導(dǎo)向起到越關(guān)鍵的作用。本文定義該熱力圖為注意力視圖,通過在注意力更加集中的地方引入噪聲,可以更高效地生成對抗樣本。如圖1(b)所示,第一排為原始FGSM的對抗樣本以及疊加的噪音,對抗并未成功并且需要擾動100%的輸入。第二排為本文方法,僅僅需要擾動1.13%的像素便可達(dá)到攻擊目的。實(shí)驗(yàn)驗(yàn)證了本文方法能夠潛在地挖掘最佳攻擊位置。實(shí)驗(yàn)證明,本文方法平均僅需擾動3.821%的輸入特征就能達(dá)到攻擊目的。
(a)
可解釋性和辨別力是DNN的兩個(gè)關(guān)鍵方面[15]。近年來,深度學(xué)習(xí)已經(jīng)成功運(yùn)用在計(jì)算機(jī)視覺、語音和自然語言處理等相關(guān)的特定領(lǐng)域。然而,這種“黑盒”模型在“端到端”的模式下,依賴數(shù)據(jù)驅(qū)動的工作機(jī)理,缺乏解釋性。研究表明,深度學(xué)習(xí)的這種模式在數(shù)據(jù)集存在偏差的情況下依然能對“biased knowledge”進(jìn)行編碼,從而產(chǎn)生決策失誤[9]。因此,通過可解釋性的工作來可視化隱藏在卷積神經(jīng)網(wǎng)絡(luò)(CNN)內(nèi)部的知識層具有重要意義。
近年來,出現(xiàn)了多種方法來探索CNN內(nèi)部隱藏的語義[16-17]。已經(jīng)提出了許多統(tǒng)計(jì)方法[18-20]來分析CNN功能的特征。CNN中濾波器的可視化[15]是探索隱藏在神經(jīng)單元內(nèi)部的模式的最直接方法。上卷積網(wǎng)絡(luò)[21]將學(xué)習(xí)到的特征映射轉(zhuǎn)化為圖像。相比之下,基于梯度的可視化[13,22-23]生成能夠使得給定單元最大化類別置信度的圖像,這更接近于理解DNN的內(nèi)部機(jī)制。Zintgraf等[24]通過可視化對DNN決策貢獻(xiàn)最大的區(qū)域從而提供視覺解釋性。CAM(Class Activation Mapping)[25]利用GAP(Global Average Pooling)的作用,保留空間信息的同時(shí)并且達(dá)到定位的目的,但是也正是由于GAP的限制,導(dǎo)致在一個(gè)新網(wǎng)絡(luò)的結(jié)構(gòu)上需重新訓(xùn)練模型,在實(shí)際應(yīng)用中受限。Grad-CAM[14]和CAM的基本思路一致,區(qū)別在于獲取每個(gè)特征圖的權(quán)重時(shí),采用梯度的全局平均來計(jì)算權(quán)重,該方法可以達(dá)到與CAM一樣的可解釋性效果,并且不受限于網(wǎng)絡(luò)結(jié)構(gòu)。
盡管深度學(xué)習(xí)在許多領(lǐng)域的任務(wù)中已經(jīng)取得重大突破,但由于“黑盒”性質(zhì),很難確切知道它背后的決策依據(jù),其在安全敏感任務(wù)中實(shí)際應(yīng)用飽受質(zhì)疑。惡意構(gòu)造的對抗樣本可以輕易讓DNN決策產(chǎn)生偏差或錯(cuò)誤[4-6]。攻擊任務(wù)一般分為兩類:黑盒攻擊和白盒攻擊。在黑盒攻擊中,攻擊者無法知悉模型的結(jié)構(gòu)信息,只有模型的輸入和輸出信息[26]。Papernot等[27]利用模型蒸餾來擬合受攻擊的黑盒模型的決策結(jié)果,從而完成從黑盒模型到代理模型的知識遷移,然后利用以后的攻擊方法生成對抗樣本對黑盒模型進(jìn)行遷移攻擊。Li等[26]在文本攻擊任務(wù)中,通過觀察去掉某個(gè)詞前后模型決策結(jié)果的變化來定位文本中的重要單詞,進(jìn)而利用人類無法感知的噪音進(jìn)行擾動直到達(dá)到攻擊目標(biāo)。白盒攻擊是黑盒攻擊的重要基礎(chǔ),在此類攻擊中,攻擊者可以知悉受攻擊模型的結(jié)構(gòu)參數(shù)等信息。Goodfello等[28]通過計(jì)算模型輸入和輸出的敏感性映射(FGSM),并朝著敏感方向添加噪聲來生成對抗樣本。Papernot等[29]基于雅可比圖攻擊(JSMA)選擇最重要的特征進(jìn)行攻擊。
可解釋性本身和攻擊是一對攻防對象,可解釋性為攻擊者提供了對類別敏感的輸入特征信息,而這一點(diǎn)正為進(jìn)一步的研究提供攻擊方向的關(guān)注焦點(diǎn)。本文提出一種基于Grad-CAM生成類別相關(guān)的熱力圖,在FGSM的基礎(chǔ)上僅僅需要少量的噪聲擾動就能達(dá)到高效的攻擊。
(1)
最后將其歸一化到0-1從而達(dá)到可視化的目的。但是為了應(yīng)用CAM需要將全連接層替換為卷積層,并重新訓(xùn)練網(wǎng)絡(luò),這是CAM的局限所在。
(2)
(3)
快速梯度下降法。在已知模型結(jié)構(gòu)的情況下,通過求模型對輸入的導(dǎo)數(shù),利用符號函數(shù)得到具體的梯度方向,可以得到“擾動”后的輸入從而得到FGSM攻擊下的樣本。設(shè)θ為模型參數(shù),x為輸入,y為對應(yīng)的標(biāo)簽,訓(xùn)練損失為J(θ,x,y),那么疊加的噪音為:
(4)
如圖2所示,基于Grad-CAM可以得到對于輸入圖像擾動的方向,越是對于類別重要的特征,受到攻擊越敏感,利用這樣的結(jié)果本文算法可以對原圖施以微弱的擾動,便可進(jìn)行有效攻擊。利用Grad-CAM得到輸出樣本的熱力圖,作為掩碼Mask,與FGSM生成的噪音圖進(jìn)行疊加,得到最終的對抗樣本:
x′=x+F(SGrad-CAM,Pth)·η
(5)
式中:Pth為施加在掩碼上的閾值。
F(SGrad-CAM,Pth)的計(jì)算如式(6)所示。
(6)
式中:SGrad-CAM為利用Grad-CAM得到輸出樣本的熱力圖。
圖2 對抗樣本生成
值得注意的是,控制對抗樣本和原圖的最大的L0距離,理論上給出任意距離下的對抗樣本。
(7)
一般而言,L0距離越小,擾動越小。但是,本文在保證同一個(gè)L0距離下,生成更符合人類視覺感知的擾動,探尋潛在高效的攻擊方向。
SSIM(Structural Similarity)結(jié)構(gòu)相似性是一種全參考的圖像質(zhì)量評價(jià)指標(biāo),它分別從亮度、對比度和結(jié)構(gòu)三方面度量圖像相似性。SSIM取值范圍為[0,1],值越大,表示圖像失真越小。因此,本文引入圖像的質(zhì)量評價(jià)指標(biāo)SSIM,計(jì)算式為:
(8)
式中:C1、C2是為了避免當(dāng)分母為0時(shí)造成的不穩(wěn)定問題引入的常數(shù);μX、σX、μX*、σX*和σXX*分別是輸入圖像X的亮度均值、亮度標(biāo)準(zhǔn)差、對抗圖像X*的亮度均值和亮度標(biāo)準(zhǔn)差,以及它們的相關(guān)系數(shù)。
(9)
原輸入樣本是X,目標(biāo)網(wǎng)絡(luò)輸出是Y,F(xiàn)是網(wǎng)絡(luò)在訓(xùn)練期間學(xué)習(xí)的函數(shù),η是針對特征所做的擾動,τ是最大擾動L0距離,Pth是過濾掉熱力圖里過小的像素值。利用算法1產(chǎn)生對抗樣本。
算法1對抗樣本生成
輸入:X,Y,F,τ,Pth。
1.X*←X;
3.S=GradCAM(F(X*),X*,Y);
4.η=FGSM(J(X*,Y));
5.S[S 7.δX←X*-X; 8.endwhile 9.returnX* 以Densenet161作為模型結(jié)構(gòu),ImageNet作為訓(xùn)練集。實(shí)驗(yàn)采集了來自ILSVRC2014、網(wǎng)絡(luò)圖像等數(shù)據(jù)集一共1萬幅圖片作為測試集,來驗(yàn)證攻擊效果。 為了驗(yàn)證本文方法的高效性,即驗(yàn)證Grad-CAM熱力中心的攻擊效果是否優(yōu)于非熱力中心。如圖3所示,通過隨機(jī)放置噪聲塊的位置,從而探究攻擊位置與熱力中心的關(guān)系。 圖3 噪聲塊與熱力中心的相對位置 通過實(shí)驗(yàn)驗(yàn)證,發(fā)現(xiàn)同樣大小的一塊噪聲疊加在原圖的攻擊效果與距離熱力中心的距離呈現(xiàn)圖4所示關(guān)系,其中:虛線以上表示攻擊不成功,虛線以下表示攻擊成功。噪聲塊距離熱力中心越近,則攻擊效果越好, 表現(xiàn)為模型對于錯(cuò)誤預(yù)測的類別的置信度的絕對值越高,噪聲塊距離熱力中心越遠(yuǎn),則攻擊效果越差,表現(xiàn)為模型對于正確預(yù)測的類別的置信度的絕對值越高。因此,實(shí)驗(yàn)驗(yàn)證了本文方法的高效性和有效性,該方法能挖掘潛在高效的攻擊方向。 圖4 類別置信度與噪聲塊距離熱力中心距離的關(guān)系 本文方法和原始FGSM[29]方法以及DeepFool[6]的生成對抗樣本的實(shí)驗(yàn)對比如圖5所示。從實(shí)驗(yàn)結(jié)果可以看出,本文方法僅僅需要擾動極為少量的輸入便可以達(dá)到攻擊目的。 圖5 攻擊效果對比(第一列:Grad-CAM結(jié)果以及原輸入分類結(jié)果;第二列第三列:原始FGSM攻擊結(jié)果以及疊加的噪聲擾動;第四列第五列:DeepFool對抗結(jié)果以及疊加的噪聲擾動;第六列第七列:本文的方法以及疊加的噪聲擾動) 實(shí)驗(yàn)表明本文方法僅僅需要擾動極為少量的元素便可以達(dá)到攻擊目的,表1給出了本文方法與FGSM以及目前典型的對抗樣本攻擊方法比較結(jié)果??梢钥闯?,本文方法無論是在L0距離還是SSIM評價(jià)指標(biāo)上均取得最佳效果。 表1 本文方法效果與經(jīng)典方法對比 本文引入深度學(xué)習(xí)可解釋性的模型Grad-CAM,針對深度神經(jīng)網(wǎng)絡(luò)(DNN)的結(jié)構(gòu)并基于對DNN輸入和輸出之間映射的關(guān)系,結(jié)合FGSM方法,平均僅僅需要擾動3.821%的輸入便可達(dá)到攻擊目的。通過與目前已有的經(jīng)典方法進(jìn)行實(shí)驗(yàn)結(jié)果對比,充分驗(yàn)證了本文方法的高效性。本文結(jié)合了可解釋性領(lǐng)域的成果,將其成功應(yīng)用在對抗樣本領(lǐng)域,實(shí)驗(yàn)結(jié)果表明本文方法效果顯著,發(fā)掘了潛在的攻擊方向,能夠以更少的擾動成本達(dá)到攻擊目的。此外,本文方法具有良好的普適性,可以進(jìn)一步推廣出更多的攻擊思路,具有良好的應(yīng)用前景。3 實(shí)驗(yàn)與結(jié)果分析
3.1 實(shí)驗(yàn)設(shè)置及數(shù)據(jù)集
3.2 驗(yàn)證攻擊方向
3.3 攻擊效果
4 結(jié) 語