王楊,曹鐵勇*,楊吉斌,鄭云飛,2,3,方正,鄧小桐
1.陸軍工程大學(xué)指揮控制工程學(xué)院,南京 210007;2.陸軍炮兵防空兵學(xué)院南京校區(qū)火力系,南京 211100;3.安徽省偏振成像與探測重點實驗室,合肥 230031
隨著深度神經(jīng)網(wǎng)絡(luò)在計算機(jī)視覺任務(wù)中的廣泛應(yīng)用,對抗樣本(adversarial examples)的概念也應(yīng)運而生。對抗樣本是指在原數(shù)據(jù)集中通過人工添加對抗擾動而形成的樣本。這類樣本會導(dǎo)致深度模型以高置信度給出與原樣本不同的輸出結(jié)果。對抗擾動是對抗樣本生成過程中的關(guān)鍵因素。對抗擾動的作用是使模型產(chǎn)生錯誤的輸出,同時擾動應(yīng)盡量不影響原圖像,甚至讓人眼視覺也難以感知。
攻擊成功率(attack success rate,ASR)和視覺感知性是評價對抗樣本的兩個重要指標(biāo)。攻擊成功率指添加擾動后對抗樣本被深度模型誤判的概率,其衡量了對抗樣本對深度模型的攻擊性能,數(shù)值越高,則對抗樣本對深度模型的攻擊能力越強(qiáng)。視覺感知性指在原圖像上增加對抗擾動后而不為人眼視覺所感知的能力,其衡量了對抗樣本的隱蔽性,感知性越低,說明對抗擾動越隱蔽,更不為人眼察覺。
按照對抗樣本生成算法是否獲得神經(jīng)網(wǎng)絡(luò)的參數(shù)和結(jié)構(gòu)信息,可以將現(xiàn)有算法分為白盒攻擊算法與黑盒攻擊算法。
一些典型的白盒方法通過生成對抗樣本實現(xiàn)了視覺的低感知性。FGSM(fast gradient sign method)算法(Goodfellow等,2015)在損失增加的方向上添加固定幅度的擾動生成對抗樣本,但該算法僅在圖像全局范圍內(nèi)添加擾動,沒有對擾動的分布進(jìn)行界定。Kurakin等人(2016)提出了基于FGSM的迭代版本BIM(basic iterative method),經(jīng)迭代沿?fù)p失增加的方向上添加小幅擾動,并在每次迭代后重新計算優(yōu)化方向,進(jìn)而構(gòu)建了比FGSM更精細(xì)的擾動。之后FGSM衍生算法的目標(biāo)也多是提升對抗性與遷移性(Dong等,2018;Xie等,2019;Shi等,2019),在視覺感知性上與原有方法無明顯差異。DeepFool算法(Moosavi-Dezfooli等,2016)通過比較樣本空間中樣本點到不同分類邊界的距離,添加最小幅度的擾動生成對抗樣本,它也成為白盒方法中視覺感知性比較的一個基準(zhǔn)。JSMA(Jacobian-based saliency map attacks)(Papernot等,2016)計算圖像顯著性分?jǐn)?shù),依照像素點對輸出結(jié)果的重要性添加擾動,僅改變部分圖像像素即可實現(xiàn)攻擊。C&W(Carlini &Wagner)算法(Carlini和Wagner,2017)使用改進(jìn)的范數(shù)損失對擾動進(jìn)行優(yōu)化。Rony等人(2019)對C&W算法進(jìn)行改進(jìn),在提升效率的同時仍能得到與原始算法視覺感知性近似的樣本。Croce和Hein(2020)分析了現(xiàn)有方法在迭代時存在的次優(yōu)解現(xiàn)象,提出了APGD(auto projected gradient descent)和AutoAttacks兩種方法。PerC-C&W(perceptual color distance C&W)(Zhao等,2020)在CIELch空間計算對抗樣本與原圖像在樣本空間的距離,為改善對抗樣本的視覺感知性提供了新思路。
現(xiàn)實中常常無法獲得部署模型的參數(shù)信息,因此黑盒方法的實用性要遠(yuǎn)大于白盒攻擊方法。不同于白盒中普遍使用梯度信息生成擾動的做法,黑盒方法通過向模型輸入帶有擾動的圖像,利用輸出的變化求解擾動。這使得黑盒算法生成對抗樣本的難度更大。OnePixel(Su等,2019)利用差分進(jìn)化法篩選添加擾動的像素。該方法在極端情況下僅改變一個像素的數(shù)值就使深度模型輸出錯誤,但擾動的生成位置沒有考慮對視覺感知性的影響,且若要達(dá)到較高的攻擊成功率需增加擾動像素的個數(shù)。Xiao等人(2018)提出了基于生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow 等,2014)的對抗樣本生成方法AdvGAN(adversarial GAN),使用合頁損失優(yōu)化擾動,并對擾動幅度進(jìn)行限定。之后的AdvGAN++(Jandial等,2019)、DaST(data-free substitute training for adversarial atacks)(Zhou等,2020)方法均基于GAN網(wǎng)絡(luò)。Phan等人(2020)提出CAG(content-aware adversarial attack generator)方法,利用感知損失生成對抗樣本。此外,還有利用集成思想(Liu等,2017;Che等,2019;Pang等,2019)實現(xiàn)黑盒攻擊的方法。這些方法在對抗樣本的攻擊成功率或攻擊可行性上取得了進(jìn)步,但在視覺感知性上的優(yōu)化手段與之前的方法相同。
在達(dá)到一定攻擊率的情況下,上述算法通過添加固定幅度的擾動、修改少量像素的數(shù)值或限定擾動變化的極限值實現(xiàn)對視覺感知性的客觀要求。但客觀上滿足感知性要求,并不能在主觀評價上取得很好的效果。
圖1展示了部分算法生成的對抗樣本??梢钥闯?,現(xiàn)有方法在視覺感知性上還存在一定的改進(jìn)空間:1)在圖像全局增加擾動,存在擾動紋理突出的現(xiàn)象(圖1(b)(d));2)沒有考慮生成擾動對全局結(jié)構(gòu)的影響,破壞了圖像的整體結(jié)構(gòu)(圖1(c));3)擾動分布不合理,生成擾動跨越前后背景(圖1(d))。
圖1 部分方法在Tiny-ImageNet數(shù)據(jù)集上生成的對抗樣本Fig.1 Adversarial examples generated by some algorithms on Tiny-ImageNet((a) original image;(b) FGSM;(c) PerC-C&W;(d) AdvGAN)
限定對抗擾動的幅度、面積與分布,能夠降低對抗樣本的視覺感知性,但會對樣本的攻擊成功率產(chǎn)生影響。如何平衡對抗樣本攻擊成功率與視覺感知性之間的關(guān)系,在維持較高攻擊成功率的前提下降低視覺感知性,是本文研究的主要問題。
綜上,本文提出通過提取圖像中的關(guān)鍵區(qū)域在有限的區(qū)域內(nèi)添加擾動,同時限定對抗擾動在該區(qū)域內(nèi)的分布,使擾動分布更符合圖像全局結(jié)構(gòu),從而降低視覺感知性。已有研究(Selvaraj等,2017)證明,不同區(qū)域?qū)δP洼敵鼋Y(jié)果的響應(yīng)不盡相同。本文將圖像中對模型分類結(jié)果響應(yīng)較大的區(qū)域稱為關(guān)鍵區(qū)域。在關(guān)鍵區(qū)域上添加對抗擾動能對模型的輸出結(jié)果產(chǎn)生較大影響,從而維持受限擾動條件下對抗攻擊的ASR。
本文方法具體分為兩個階段。第1階段的目標(biāo)是使用提取網(wǎng)絡(luò)提取對分類模型輸出影響較大的關(guān)鍵區(qū)域。若提取出的區(qū)域符合預(yù)期,則向該區(qū)域添加擾動,能加大分類模型輸出錯誤結(jié)果的概率。為訓(xùn)練提取網(wǎng)絡(luò),在第1階段不對擾動進(jìn)行優(yōu)化,使用數(shù)值固定的噪聲作為第1階段擾動,訓(xùn)練提取網(wǎng)絡(luò);同時,計算關(guān)鍵區(qū)域與輸入數(shù)據(jù)在感知網(wǎng)絡(luò)某一層輸出的感知損失(楊娟 等,2019),從而優(yōu)化提取網(wǎng)絡(luò),使提取出的區(qū)域與輸入數(shù)據(jù)在圖像全局結(jié)構(gòu)近似。第2階段固定提取網(wǎng)絡(luò)的權(quán)重,生成關(guān)鍵區(qū)域,通過生成對抗網(wǎng)絡(luò)向關(guān)鍵區(qū)域添加擾動,生成對抗樣本。生成對抗網(wǎng)絡(luò)是一種基于對抗性訓(xùn)練的神經(jīng)網(wǎng)絡(luò),由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)兩個子網(wǎng)絡(luò)構(gòu)成。在本文中,生成網(wǎng)絡(luò)的功能是輸入圖像信息,輸出針對該圖像的對抗擾動。之后對抗擾動與原圖像結(jié)合,成為對抗樣本。將對抗樣本與原始圖像送入判別網(wǎng)絡(luò),由網(wǎng)絡(luò)判斷輸入數(shù)據(jù)是原始數(shù)據(jù)還是對抗樣本。隨著兩種網(wǎng)絡(luò)的交替訓(xùn)練,擾動的性能逐步提升。
為驗證本文生成對抗樣本的視覺感知性,引入均方誤差(mean square error,MSE)與結(jié)構(gòu)相似性(structural similarity,SSIM)作為衡量感知性的兩個客觀指標(biāo)。最終在3個公開數(shù)據(jù)集上的實驗驗證了本文方法的有效性,在保持較高攻擊成功率的同時,有效限制了擾動生成的區(qū)域與面積,顯著降低了視覺感知性。
給定原始圖像x,y為正確的分類標(biāo)簽,圖像分類模型f能夠以較大概率實現(xiàn)從輸入x至輸出y的映射f(x)→y。向原始圖像x添加擾動ρ生成對抗樣本x+ρ,使得f(x+ρ)≠y。
本文算法提出通過約束對抗擾動的面積與空間分布,降低對抗樣本的視覺感知性。算法在設(shè)計中主要考慮以下因素:1)對抗擾動分布盡可能在圖像的同一語義區(qū)域,如目標(biāo)區(qū)域或背景區(qū)域;2)擾動分布應(yīng)與圖像結(jié)構(gòu)保持一致;3)減少無效擾動的生成。
模型包含兩個階段,總體框架如圖2所示,其中,橙色表示在某一階段進(jìn)行訓(xùn)練的網(wǎng)絡(luò),藍(lán)色表示在該階段權(quán)重固定的網(wǎng)絡(luò)。在第1階段,通過提取網(wǎng)絡(luò)提取能顯著影響深度模型輸出結(jié)果的關(guān)鍵區(qū)域,并利用感知損失進(jìn)一步限定該區(qū)域,使擾動與圖像的結(jié)構(gòu)信息保持一致。在第2階段,通過帶有自注意力機(jī)制的生成對抗網(wǎng)絡(luò),向前一階段獲得的圖像關(guān)鍵區(qū)域添加擾動,生成具有低感知性的對抗樣本。
圖2 總體框架Fig.2 Overall framework
第2階段生成擾動的對抗性應(yīng)優(yōu)于或等于第1階段使用的噪聲擾動,這也為第2階段的對抗成功率劃定了下界。同時,對抗成功率的下界也與第1階段選擇的擾動相關(guān)。本文選擇高斯噪聲作為第1階段的固定擾動。
模型中通過生成對抗網(wǎng)絡(luò)向原圖添加擾動,構(gòu)造對抗樣本。具體而言,本文生成網(wǎng)絡(luò)包含編碼器—瓶頸層—解碼器結(jié)構(gòu)。瓶頸層使用殘差連接,編碼器包含6層卷積—標(biāo)準(zhǔn)化—激活結(jié)構(gòu),瓶頸層殘差分支包含4層卷積—標(biāo)準(zhǔn)化—激活結(jié)構(gòu),解碼器包含5層結(jié)構(gòu)。生成網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。
為使生成的對抗擾動更平滑,模型在解碼器結(jié)構(gòu)圖的模塊2①中引入像素渲染模塊(Shi等,2016),如圖3右上標(biāo)注A所示,計算流程為:輸入尺寸為H×W×r2的特征圖,通過周期篩選得到尺寸為rH×rW×C的高分辨率圖像。本文在生成網(wǎng)絡(luò)的瓶頸層加入自注意力機(jī)制,如圖3右上標(biāo)注B所示。自注意力機(jī)制是注意力機(jī)制的一種,它擅長捕捉數(shù)據(jù)或特征的內(nèi)部相關(guān)性。在圖像生成領(lǐng)域中,它可以捕捉圖像中某一點像素與其他位置較遠(yuǎn)像素間的聯(lián)系,更好地對全局信息建模,具體結(jié)構(gòu)如圖4所示。
圖3 生成網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Generator structure
圖4 自注意力結(jié)構(gòu)Fig.4 Self-attention module
圖5展示了自注意生成網(wǎng)絡(luò)與普通生成網(wǎng)絡(luò)生成擾動的對比,其中圖5(b)(c)均為標(biāo)準(zhǔn)化后灰度圖像。從圖中紅框區(qū)域可以看出,使用自注意力機(jī)制與全局感知損失生成的擾動主要分布在圖像的關(guān)鍵區(qū)域,且分布更為均勻、密集。從圖中藍(lán)框區(qū)域可以看出,在非關(guān)鍵區(qū)域添加的擾動顏色較淺、幅度更小。
圖5 自注意生成網(wǎng)絡(luò)與普通生成網(wǎng)絡(luò)生成擾動的對比Fig.5 Comparison of adversarial perturbations between self-attention generator and normal generator((a) original images;(b) perturbation generated with self-attention mechanism;(c) normal perturbation)
判別網(wǎng)絡(luò)判斷輸入數(shù)據(jù)是原始樣本或是對抗樣本。網(wǎng)絡(luò)包含5層結(jié)構(gòu),前3層使用譜標(biāo)準(zhǔn)化,用以提升網(wǎng)絡(luò)訓(xùn)練時的穩(wěn)定性,結(jié)構(gòu)如圖6所示對應(yīng)圖2中模塊②。
圖6 判別網(wǎng)絡(luò)結(jié)構(gòu)Fig.6 Discriminator’s structure
算法的出發(fā)點是通過限定擾動的位置與分布,降低對抗樣本的視覺感知性。注意力機(jī)制(項圣凱等,2020)能夠提取出深度模型輸出的關(guān)鍵區(qū)域,賦予其更大權(quán)重。算法通過帶有注意力機(jī)制的提取網(wǎng)絡(luò),生成關(guān)鍵區(qū)域,約束擾動的分布。
提取網(wǎng)絡(luò)與注意力機(jī)制的結(jié)構(gòu)如圖7所示,其中D-Conv表示空洞卷積結(jié)構(gòu),Conv為卷積結(jié)構(gòu)對應(yīng)圖2中模塊③。注意力機(jī)制選擇應(yīng)用廣泛的BAM(bottleneck attention module)(Park等,2018)結(jié)構(gòu)。提取網(wǎng)絡(luò)包含3層卷積—標(biāo)準(zhǔn)化—激活結(jié)構(gòu)、1個注意力層、2個反卷積—標(biāo)準(zhǔn)化—激活結(jié)構(gòu)和1個用于增強(qiáng)局部信息的池化—卷積—標(biāo)準(zhǔn)化—激活結(jié)構(gòu)。通過提取網(wǎng)絡(luò)中卷積結(jié)構(gòu)得到的輸出特征圖,經(jīng)過門機(jī)制篩選,最終得到包含圖像關(guān)鍵區(qū)域的特征圖。門機(jī)制篩選圖像關(guān)鍵區(qū)域算法的具體步驟如下:
圖7 提取網(wǎng)絡(luò)與注意力結(jié)構(gòu)Fig.7 Extractor and attention mechanism
輸入:圖像x。
輸出:包含圖像關(guān)鍵區(qū)域的特征圖。
第1階段:圖像x送入注意力網(wǎng)絡(luò)生成標(biāo)準(zhǔn)化特征圖。
1) 將圖像送入注意力網(wǎng)絡(luò),輸出注意力特征圖(H×W× 3);
2) 將注意力特征圖通道內(nèi)像素的值歸一化至[0,1]。
第2階段:門機(jī)制生成粗特征圖,篩選后得到關(guān)鍵區(qū)域。
3) for 注意力特征圖中的像素點(x,y,c) do;
4) 粗特征圖在 (x,y) 的值為該點在第1階段生成特征圖的值 (1 × 3) 與τ(3 × 1)相乘;
5) if 值大于閾值;
6) 值不變;
7) else;
8) 值為0;
9) end for;
10) 得到關(guān)鍵區(qū)域特征圖。
經(jīng)實驗驗證,τ的取值為[0.36,0.34,0.30],閾值設(shè)定為0.7。
為更好地約束注意力網(wǎng)絡(luò)生成的關(guān)鍵區(qū)域,本文引入感知損失。計算感知損失所用的特征提取網(wǎng)絡(luò)為帶有ImageNet預(yù)訓(xùn)練權(quán)重的VGG16(Visual Geometry Group)網(wǎng)絡(luò),對應(yīng)圖2中模塊④。
第1階段訓(xùn)練注意力網(wǎng)絡(luò),損失函數(shù)為
L1=α1Ladv1+β1LD1+γ1Lp
(1)
式中,Ladv1為第1階段對抗損失,LD1為第1階段判別損失,Lp為感知損失,α1、β1、γ1的取值分別為5、10、1。
原圖進(jìn)入注意力網(wǎng)絡(luò),生成包含圖像關(guān)鍵區(qū)域的特征圖。原圖與特征圖進(jìn)入感知網(wǎng)絡(luò),計算兩者的感知損失。感知損失為特征圖與原圖在經(jīng)過感知網(wǎng)絡(luò)第2層激活函數(shù)后所得特征圖間的最小二乘損失,表達(dá)式為
(2)
式中,φ為特征提取網(wǎng)絡(luò),C、H、W為原圖x與特征圖a經(jīng)過特征提取網(wǎng)絡(luò)第2層后的通道數(shù)、高度和寬度。
將通過門機(jī)制篩選得到的特征圖與噪聲擾動相乘,生成第1階段對抗擾動。擾動與原圖結(jié)合得到第1階段的對抗樣本。對抗樣本和原圖一同送入判別網(wǎng)絡(luò),計算判別損失。之后對抗樣本送入目標(biāo)網(wǎng)絡(luò),計算第1階段對抗損失。
判別損失為
LD1=ExlogD(x)+Exlog(1-D(x+ρ1))
(3)
ρ1=F?PG
(4)
式中,ρ1為第1階段得到的擾動,F(xiàn)為經(jīng)過門機(jī)制得到的特征圖,D()為判別器輸出結(jié)果,PG表示高斯噪聲擾動(Gaussian noise perturbation),F(xiàn)與PG間使用元素級乘法?。
對抗損失表達(dá)式為
Ladv1=Exlt(T(x+ρ1),t)
ρ1∈[-Pmax,Pmax]
(5)
式中,T為被攻擊的深度模型,輸入第1階段對抗樣本,輸出向量與經(jīng)過one-hot編碼所得的分類標(biāo)簽向量t長度相同。lt為損失函數(shù),本文使用交叉熵?fù)p失。Pmax為擾動幅度的上限。
第2階段訓(xùn)練生成網(wǎng)絡(luò),損失表達(dá)式為
(6)
式中,α2、β2、γ2的取值分別為5、1、1。固定提取網(wǎng)絡(luò)權(quán)重,將原圖送入提取網(wǎng)絡(luò)與生成網(wǎng)絡(luò),生成帶有關(guān)鍵區(qū)域的特征圖和第2階段對抗擾動。擾動與特征圖之間進(jìn)行元素級乘法,并與原圖結(jié)合,生成對抗樣本。將原圖與對抗樣本送入目標(biāo)網(wǎng)絡(luò)和判別網(wǎng)絡(luò),計算對抗損失和判別損失。
第2階段的對抗損失為
Ladv2=Exlt(T(x+ρ2),t)
(7)
ρ2=F?P2,ρ2∈[-Pmax,Pmax]
(8)
式中,ρ2為第2階段得到的擾動,P2為生成網(wǎng)絡(luò)生成的第2階段擾動(perturbation generated by generator)。第2階段的判別損失為
LD2=ExlogD(x)+Exlog(1-D(x+ρ2))
(9)
在兩個階段中,算法均對判別網(wǎng)絡(luò)進(jìn)行訓(xùn)練。兩個階段的判別網(wǎng)絡(luò)結(jié)構(gòu)相同,作用是判斷輸入數(shù)據(jù)是原始數(shù)據(jù)還是添加擾動后的數(shù)據(jù)。第1階段訓(xùn)練結(jié)束后,不固定判別網(wǎng)絡(luò)的參數(shù),直接進(jìn)入第2階段的訓(xùn)練。實驗結(jié)果表明,在前一階段得到的權(quán)重上繼續(xù)訓(xùn)練與在初始化后的網(wǎng)絡(luò)上重新訓(xùn)練相比,能更快地使模型收斂。隨著輪數(shù)的增加,兩種條件下訓(xùn)練得到的損失趨于一致,對應(yīng)的攻擊成功率無明顯差別。
為評估本文算法的效果,與9種典型對抗樣本算法在3個圖像分類數(shù)據(jù)集上進(jìn)行比較。對比算法包含白盒與黑盒算法,白盒算法為FGSM (Goodfellow 等,2015)、BIM(Kurakin 等,2016)、DeepFool(Moosavi-Dezfooli等,2016)、JSMA(Papernot 等,2016)、PerC-C&W (Zhao 等,2020)、APGD(Croce和Hein,2020)和AutoAttack(Croce和Hein,2020),黑盒算法為OnePixel(Su 等,2019)和AdvGAN (Xiao 等,2018)。
本文方法使用的優(yōu)化器為Adam,判別損失學(xué)習(xí)率為0.005,對抗損失學(xué)習(xí)率為0.01,采用異步優(yōu)化策略,即判別網(wǎng)絡(luò)每5輪進(jìn)行1次優(yōu)化、生成網(wǎng)絡(luò)每輪進(jìn)行優(yōu)化。兩個階段的迭代輪數(shù)均為100輪。評估數(shù)據(jù)集為CIFAR-10、Tiny-ImageNet和隨機(jī)抽取的 ImageNet數(shù)據(jù)集圖像。CIFAR-10數(shù)據(jù)集共10種類別,包含50 000幅訓(xùn)練圖像和10 000幅測試圖像,分辨率為32 × 32像素。Tiny-ImageNet數(shù)據(jù)集共200種類別,包含100 000幅訓(xùn)練圖像和10 000幅測試圖像,分辨率為64 × 64像素。隨機(jī)選取ImageNet數(shù)據(jù)集共10種類別,包含1 000幅圖像,分辨率裁剪為224 × 224像素。對抗模型為3種廣泛使用的圖像分類模型:VGG13、ResNet18和DenseNet121。實驗硬件平臺為 GeForce Nvidia RTX 2080Ti,軟件平臺為Ubuntu 19.10、Pytorch 1.6。
在客觀指標(biāo)的評價上,使用ASR評價算法的對抗性能,通過比較對抗擾動前后圖像的MSE和SSIM衡量不同算法生成對抗樣本的客觀視覺感知性。MSE衡量對抗擾動的強(qiáng)度,SSIM從結(jié)構(gòu)化信息角度評價對抗擾動對圖像的影響。ASR與SSIM數(shù)值越接近1越好,MSE數(shù)值越小越好。FGSM的擾動步長ε= 10,APGD與AutoAttack的擾動步長均為15。其余對比算法參數(shù)為原文開源代碼的默認(rèn)參數(shù)。對比算法均設(shè)置最大迭代輪數(shù)。
實驗對不同對抗樣本的攻擊效果進(jìn)行對比與分析。不同方法在CIFAR-10和Tiny-ImageNet數(shù)據(jù)集上的ASR比較如表1和表2所示。
表2 不同方法在Tiny-ImageNet數(shù)據(jù)集的ASR比較Table 2 ASR comparison of different methods on Tiny-ImageNet dataset
從表1可以看出,在低分辨率數(shù)據(jù)集CIFAR-10上添加小幅度擾動,隨著擾動幅度的增強(qiáng),ASR逐漸提升,與基于GAN的算法相差不超過3%,而在ResNet網(wǎng)絡(luò)上甚至超過了基于GAN的算法。原因是在分辨率較低的圖像上,注意力網(wǎng)絡(luò)生成的圖像重點區(qū)域較小,添加小幅擾動能降低模型的分類置信度,但仍輸出正確的結(jié)果。
表1 不同方法在CIFAR-10數(shù)據(jù)集的ASR比較Table 1 ASR comparison of different methods on CIFAR-10 dataset
從表2可以看出,隨著圖像分辨率的增長(Tiny-ImageNet、ImageNet),注意力網(wǎng)絡(luò)提取的圖像重點區(qū)域增大,在小幅度擾動的情況下,本文方法的對抗攻擊成功率能夠與對比方法持平,相差不超過0.5%;另外由于攻擊成功率超過99%,微小的性能差別并不會影響實質(zhì)攻擊效果。綜合比較,本文方法的攻擊成功率與當(dāng)前方法近似,維持在同一水平。
3.3.1 客觀指標(biāo)分析
不同方法在CIFAR-10和Tiny-ImageNet數(shù)據(jù)集上的MSE比較如表3所示??梢钥闯觯疚姆椒ǖ腗SE值大幅低于FGSM、BIM、PerC-C&W、APGD、AutoAttack和AdvGAN。DeepFool算法的MSE值遠(yuǎn)低于其他算法,原因是Tiny-ImageNet數(shù)據(jù)集有200個類別,算法能夠找到更多的決策邊界,進(jìn)而選擇更小的邊界距離,減小擾動的幅度。PerC-C&W的MSE遠(yuǎn)大于其他方法,原因是算法并不在圖像的每一通道限制擾動幅度,而是限定在三通道上總的擾動幅度,導(dǎo)致其擾動數(shù)值分布不平均,MSE較大。OnePixel和JSMA對像素值的修改幅度劇烈,使得MSE數(shù)值偏大。這也反映了客觀的評價指標(biāo)并不能充分體現(xiàn)主觀的感知性評價。APGD通過改進(jìn)現(xiàn)有方法的不足,AutoAttack通過糅合多種方法提升對抗攻擊的成功率,但均沒有充分考慮擾動對圖像感知性的影響,故客觀感知性評價較低。綜上,在低、中分辨率數(shù)據(jù)集上對視覺感知性的客觀評價指標(biāo)比較表明,本文方法的MSE值優(yōu)于大部分比較方法,僅在中分辨率數(shù)據(jù)集上高于DeepFool方法。
表3 不同方法的MSE比較Table 3 MSE comparison of different methods
結(jié)構(gòu)相似性(SSIM)是一衡量兩幅圖像相似度的指標(biāo),其值越接近1,說明兩幅圖像越相似。不同方法在CIFAR-10和Tiny-ImageNet數(shù)據(jù)集上的SSIM比較如表4所示??梢钥闯?,本文方法的SSIM較AdvGAN大幅提升,略高于DeepFool算法。
表4 不同方法的SSIM比較Table 4 SSIM comparison of different methods
3.3.2 主觀感知性比較
圖8為不同方法在CIFAR-10數(shù)據(jù)集上生成的對抗樣本比較,其中,為確保攻擊成功率,OnePixel方法修改的像素點為5個。圖8(j)為AdvGAN方法在擾動幅度Pmax= 10時生成的對抗樣本,圖8(k)和圖8(l)分別為本文方法在擾動幅度Pmax=20和Pmax=30時生成的對抗樣本??梢钥闯?,本文方法在擾動幅度Pmax=20時較擾動幅度Pmax= 10的AdvGAN方法仍有一定的優(yōu)勢。
圖8 不同方法在CIFAR-10數(shù)據(jù)集上生成的對抗樣本比較Fig.8 Comparison of different adversarial examples on CIFAR-10 ((a) original images;(b) FGSM;(c) BIM;(d) DeepFool;(e) PerC-C&W;(f) OnePixel;(g) JSMA;(h) APGD;(i) AutoAttack;(j) AdvGAN when Pmax= 10;(k) ours whenPmax= 20;(l) ours whenPmax= 30)
圖9為不同方法在Tiny-ImageNet數(shù)據(jù)集上的效果比較。其中,圖9(j)和圖9(k)分別為擾動幅度Pmax= 10時AdvGAN和本文方法生成的對抗樣本??梢钥闯?,在擾動幅度相同情況下,與黑盒方法OnePixel和AdvGAN相比,本文生成擾動面積小,對抗紋理不明顯;與白盒方法中的FGSM、BIM和PerC-C&W方法相比,本文擾動紋理的感知性更低。
圖9 不同方法在Tiny-ImageNet數(shù)據(jù)集上生成的對抗樣本比較Fig.9 Comparison of different adversarial examples on Tiny-ImageNet((a) original images;(b) FGSM;(c) BIM;(d) DeepFool;(e) PerC-C&W;(f) OnePixel;(g) JSMA;(h) APGD;(i) AutoAttck;(j) AdvGAN when Pmax= 10;(k) ours when Pmax= 10)
在包含1 000幅挑選的ImageNet圖像數(shù)據(jù)集上對本文方法的視覺感知性進(jìn)行測試,擾動幅度限制為25,在保持較高成功率的情況下,視覺感知效果如圖10所示??梢钥闯觯?)限定最大擾動幅度為15時,本文方法的效果(圖10(k))與AdvGAN(圖10(j))相比,隨著分辨率的提升,對抗擾動的紋理對圖像信息、結(jié)構(gòu)和視覺感知性產(chǎn)生的影響降低,但AdvGAN生成的對抗樣本在圖像邊緣產(chǎn)生了一定的虛化。2)在高分辨率圖像上與對比方法相比,本文方法在視覺感知性上低于FGSM、JSMA、AdvGAN算法,與BIM、DeepFool、PerC-C&W、OnePixel、APGD和AutoAttack算法相當(dāng)。
圖10 不同方法在ImageNet數(shù)據(jù)集上生成的對抗樣本比較Fig.10 Comparison of different adversarial examples on ImageNet dataset((a) original images;(b) FGSM;(c) BIM;(d) DeepFool;(e) PerC-C&W;(f) OnePixel;(g) JSMA;(h) APGD;(i) AutoAttack;(j) AdvGAN;(k) ours)
3.4.1 參數(shù)敏感性分析
對擾動生成產(chǎn)生影響的參數(shù)主要有擾動幅度Pmax、第1階段訓(xùn)練參數(shù)和第2階段訓(xùn)練參數(shù)。其中,第1階段訓(xùn)練參數(shù)包括對抗損失權(quán)重α1=5、判別損失權(quán)重β1=10、感知損失權(quán)重γ1=1;第2階段訓(xùn)練參數(shù)包括對抗損失權(quán)重α2=5、判別損失權(quán)重β2=1、感知損失權(quán)重γ2=1。實驗對第1、2階段的訓(xùn)練參數(shù)進(jìn)行敏感性分析,并對算法中各模塊對ASR的影響做消融實驗。選用數(shù)據(jù)集為Tiny-ImageNet,對抗模型為ResNet18,擾動最大幅值Pmax=10。
對于兩個階段的6個參數(shù),分別對某一參數(shù)進(jìn)行調(diào)整,固定其余參數(shù),觀察算法ASR值的變化。對第1階段參數(shù)進(jìn)行分析,結(jié)果如圖11(a)—(c)所示。從ASR變化的幅度可以看出,對抗損失權(quán)重α1對ASR影響較大,隨著α1增大,算法ASR逐漸增加,表明算法側(cè)重于對模型的攻擊性能。隨著判別損失權(quán)重β1和感知損失權(quán)重γ1的增加,ASR下降,模型趨于對擾動的分布進(jìn)行優(yōu)化,對抗性能下降。在第1階段訓(xùn)練結(jié)束后,不對判別網(wǎng)絡(luò)權(quán)重進(jìn)行初始化,而是直接進(jìn)行下一階段的訓(xùn)練,結(jié)果如圖11(d)—(e)所示。第2階段的判別損失權(quán)重β2對ASR的影響較小。在該階段主要對生成網(wǎng)絡(luò)進(jìn)行訓(xùn)練,對抗損失權(quán)重α2對ASR產(chǎn)生較大影響。從圖11的數(shù)據(jù)觀察得到,若側(cè)重于對抗樣本的視覺感知性(降低對抗損失權(quán)重、提高判別損失權(quán)重),則攻擊成功率有所下滑,體現(xiàn)出提升對抗樣本的攻擊成功率與減低其視覺感知性之間是矛盾的。若僅進(jìn)行第1階段訓(xùn)練,得到的攻擊成功率并不理想;第2階段對擾動進(jìn)行優(yōu)化后,攻擊成功率得到提升。說明第2階段的功能是對第1階段使用固定擾動提取出的關(guān)鍵區(qū)域生成新的擾動,新生成的擾動更適應(yīng)該區(qū)域所包含的圖像信息。
圖11 參數(shù)變化對ASR的影響Fig.11 The influence of α,β and γ on ASR ((a) α1-ASR line graph;(b) β1-ASR line graph;(c) γ1-ASR line graph;(d)α2-ASR line graph;(e)β2-ASR line graph;(f)γ2-ASR line graph)
3.4.2 消融實驗
參與第1階段訓(xùn)練的模塊主要有感知網(wǎng)絡(luò)和注意力網(wǎng)絡(luò),兩種模塊對ASR的影響如表5所示。
表5 不同模塊對ASR的影響Table 5 The influence of different modules on ASR
本文分析了現(xiàn)有對抗樣本生成方法在視覺感知性上的不足,提出了全新的低感知對抗樣本生成方法,通過限定對抗樣本擾動生成的位置與面積,在保證攻擊率的情況下,顯著降低了對抗樣本的視覺感知性。最后通過定性和定量實驗,比較了本文算法與具有代表性的對抗樣本方法在攻擊成功率和視覺感知性上的性能,驗證了本文算法的有效性。
本文主要針對對抗樣本的視覺感知性進(jìn)行研究,通過約束擾動的位置與分布提升了對抗樣本的視覺效果。下一步工作將關(guān)注于提升對抗樣本的攻擊成功率,增強(qiáng)攻擊的魯棒性。