楊金 李智 張麗 王熠 盧妤
摘 要:深度學(xué)習(xí)模型極容易受到對抗樣本的攻擊。為了提高模型的魯棒性,提升相關(guān)技術(shù)在現(xiàn)實生活中應(yīng)用的安全性,提出一種輕型可逆網(wǎng)絡(luò)(lightweight reversible network, LRNet)用于有效去除對抗樣本中的對抗擾動。首先,將哈爾小波變換與可逆網(wǎng)絡(luò)相結(jié)合,獲得更豐富的特征;其次,將特征通道分離,利用干凈樣本的高低頻特征指導(dǎo)學(xué)習(xí),從隨機數(shù)中重采樣替換高頻信息去除對抗擾動;再次,提出特征分離模塊,去除非魯棒特征,提高分類準(zhǔn)確率。結(jié)果表明:LRNet防御模型能顯著提高防御準(zhǔn)確率,其分類準(zhǔn)確率在MNIST,CIFAR-10數(shù)據(jù)集上較防御模型ARN分別從91.62%和67.29% 提升到97.65%和78.55%;模型的參數(shù)大小降低至0.48 MiB,是APE-GAN模型的20%;防御模型的遷移能力得到極大提高,為對抗樣本的防御提供了一種新方法。
關(guān)鍵詞:對抗防御;對抗魯棒性;可逆網(wǎng)絡(luò);深度神經(jīng)網(wǎng)絡(luò);對抗樣本
中圖分類號:TP391;TP309
文獻標(biāo)志碼:A
近幾年,伴隨深度學(xué)習(xí)的蓬勃發(fā)展,深度神經(jīng)網(wǎng)(Deep Neural Networks,DNNs)被廣泛地應(yīng)用于計算機視覺圖像處理[1]、語音識別[2]、自然語言處理[3]等領(lǐng)域,然而深度神經(jīng)網(wǎng)絡(luò)很容易受到對抗樣本的攻擊,其脆弱性嚴(yán)重影響了對安全敏感度要求較高的應(yīng)用場景的正常使用,例如人臉識別[4]、自動駕駛[5]等。如何有效防御對抗樣本對深度神經(jīng)網(wǎng)絡(luò)的攻擊是當(dāng)前深度學(xué)習(xí)安全領(lǐng)域極具挑戰(zhàn)的問題。
在近年來的研究工作中,對抗樣本防御算法層出不窮。對抗訓(xùn)練[6]是一種常用的對抗防御策略,但其效果容易受對抗樣本規(guī)模的影響,且容易被新的攻擊方法攻破。在樣本輸入分類模型前,對其進行預(yù)處理的附加網(wǎng)絡(luò)防御方法也是一種有效的對抗防御策略:如LIAO等[7]提出一種利用高維特征為導(dǎo)向的去噪(high-level guided denoiser,HGD)網(wǎng)絡(luò),在輸入樣本輸入分類器之前,先對輸入樣本進行去噪;JIN等[8]基于GAN對對抗樣本進行圖像重構(gòu)以消除對抗擾動;ZHOU等[9]提出通過學(xué)習(xí)保留分類語義信息的攻擊不變特征以去除對抗性噪聲。這些防御方法有一定的防御效果,但上述算法通常存在防御準(zhǔn)確率及泛化能力較差、作為附加網(wǎng)絡(luò)過于復(fù)雜、計算量大等一系列問題。文獻[10]對網(wǎng)絡(luò)的可逆性進行相關(guān)研究??赡婢W(wǎng)絡(luò)具備模型輕量化、信息無損、節(jié)約內(nèi)存等特點,因此利用可逆網(wǎng)絡(luò)作為附加網(wǎng)絡(luò)可降低模型復(fù)雜度,減少計算量。當(dāng)前針對醫(yī)學(xué)圖像的防御具有極大的現(xiàn)實應(yīng)用價值。MA等[11]提出的醫(yī)學(xué)深度學(xué)習(xí)模型,相較于自然圖像深度學(xué)習(xí)模型更容易受到對抗樣本的攻擊。WANG等[12]提出一種新的多尺度醫(yī)學(xué)圖像去噪機制,取得了不錯的防御效果。
防御模型通常存在泛化能力低,模型過于復(fù)雜、防御能力較差等特點。為了更好地適應(yīng)現(xiàn)實場景的需求,提升模型的泛化能力,本文針對醫(yī)學(xué)圖像的對抗防御提出一種輕型可逆網(wǎng)絡(luò)(lightweight reversible network, LRNet),去除對抗樣本中的對抗擾動,將特征通道進行分離,利用特征分離模塊保留圖像魯棒信息,降低了模型復(fù)雜度,提高了網(wǎng)絡(luò)模型去除對抗擾動的能力及防御準(zhǔn)確率,進一步增強了模型的防御準(zhǔn)確率和泛化性。
1 主要算法
1.1 哈爾小波下采樣
可逆網(wǎng)絡(luò)具有信息無損的特點。為了去除對抗擾動,在特征反向傳送前,將輸入樣本的噪聲信息和干凈信息進行有效分離,而僅將干凈信息反向傳送是重構(gòu)出干凈圖片的重要前提。
本文利用哈爾小波變換[13]對輸入樣本Iadv進行空間域的向下采樣操作,從整體、水平、垂直和對角線等4個方向?qū)斎霕颖具M行平均池化,分別得到a,h,v,d平均池化通道,并將4個通道融合得到特征C傳入可逆網(wǎng)絡(luò),如式(1)所示。在逆變換過程中,最后一個可逆模塊輸出特征C分成a,h,v,d四部分信息,經(jīng)過哈爾小波逆變換得到重構(gòu)樣本Irec,如式(2)所示。
Haar(Iadv)=[a,h,v,d],C=Merge(a,h,v,d)(1)
(a,h,v,d)=split(C),Irec=IHaar(a,h,v,d)(2)
式中:Haar為哈爾小波變換;Merge為將特征通道融合;split為將通道分離;IHarr為哈爾小波逆變換。
圖1展示了哈爾小波下采的過程。該方法使得下一模塊獲得4個方向上更加豐富的特征信息,有利于網(wǎng)絡(luò)進一步對魯棒特征的提取。
1.2 可逆模塊通道分離
如圖2所示,哈爾下采得到的特征圖傳入可逆模塊。該模塊主要由殘差網(wǎng)絡(luò)f(·)組成,負(fù)責(zé)特征的提取,模塊的輸入是C,輸出是C′,C與C′的通道數(shù)一致,大小一致,fi(·)表示可逆模塊。
正變換、逆變換如下所示:
C′=fi(C)(3)
C=fi(C′)(4)
在反傳前的最后一個模塊,將其特征通道劃分為C1′和C2′2個部分,即
C1′,C2′=split(C′)(5)
C1′和C2′分別用于學(xué)習(xí)輸入樣本的低、高頻信息,促進低、高頻信息的有效分離。采用L2范式約束C1′和干凈樣本的低頻特征圖像ILcle,使得與C1′相關(guān)的通道學(xué)習(xí)對抗樣本去除對抗擾動的低頻信息,而高頻與噪聲信息將被編碼在C2′特征通道。干凈樣本的低頻特征圖通過高斯低通濾波器獲取。C1′通道特征圖與ILcle的相似度損失
式中:n為樣本數(shù)量;ILcle為干凈樣本低頻特征圖。
對抗樣本中的對抗擾動通常以噪聲信號的形式存在,高頻信息對應(yīng)圖像的邊緣、噪聲以及細(xì)節(jié)部分,因此從符合干凈樣本數(shù)據(jù)分布的隨機數(shù)中重采樣替換C2′通道中的信息,從而去除對抗擾動。將采樣信息D與干凈的低頻信息C1′融合得到C′,如式(7)所示。C′經(jīng)逆變換過程重構(gòu)出重構(gòu)樣本,使其無限接近干凈樣本,重構(gòu)損失計算如式(8)所示。
式中:cat(·)為特征圖進行通道拼接;Lrec為重構(gòu)損失;N(·)為去噪防御模型LRNet,其結(jié)果為重構(gòu)樣本Irec;‖·‖22為L2范式。
為了進一步提升重構(gòu)樣本質(zhì)量,本文使用預(yù)訓(xùn)練的VGG-16[14]網(wǎng)絡(luò)特征提取網(wǎng)絡(luò),將重構(gòu)樣本和干凈樣本在VGG-16網(wǎng)絡(luò)模型中得到的淺層特征做感知損失,感知損失計算為
式中:CjHjWj為P(·)產(chǎn)生的第j層特征圖的大??;P(·)為VGG網(wǎng)絡(luò)提取特征圖的函數(shù);Irec為去噪后的重構(gòu)樣本。Lp能使重構(gòu)樣本Irec獲得更好的圖像重建效果。
1.3 分類魯棒特征分離
為了進一步提高重構(gòu)樣本分類準(zhǔn)確率,本文設(shè)計了特征分離模塊,在對抗樣本轉(zhuǎn)換為高、低頻特征圖的同時,將C1′和C2′通道特征輸入特征分離模塊,對分類魯棒特征進行特征提取,如圖3所示。將提取的特征變成單通道特征圖F,將其融入圖2中重采樣特征通道D,并與去噪后的低頻通道進行合并,經(jīng)反變換生成重構(gòu)樣本。
將C1′和C2′通道進行特征提取得到的預(yù)測值p與對應(yīng)正確標(biāo)簽做交叉熵?fù)p失,得到特征分離損失
Ls=lossBCE(p;label)(10)
通過不斷學(xué)習(xí)使得分類魯棒特征集中在特征分離模塊的特征層,將其融入特征通道D用于圖像重構(gòu),從而使重構(gòu)樣本具有較高的分類準(zhǔn)確率。
1.4 網(wǎng)絡(luò)整體框架
網(wǎng)絡(luò)模型如圖4所示。對抗樣本進入Block i后分成C1′和C2′2個通道,C1′用于學(xué)習(xí)干凈樣本的低頻特征信息,C2′是符合干凈樣本特征分布中采樣的特征信息。特征分離模塊用于獲取魯棒分類特征,將得到的分類魯棒特征融合到C1′和C2′特征通道中進行重構(gòu)。訓(xùn)練好的LRNet用作目標(biāo)分類器的附加模型,對抗樣本經(jīng)過LRNet去除對抗擾動后,能達到正確的分類。總損失為
Ltot=αLf+βLrec+χLp+δLs(11)
式中:Lf為對抗樣本C1′的特征圖與干凈樣本低頻特征圖的損失;Lrec為重構(gòu)樣本與干凈樣本的重構(gòu)損失;Lp為重構(gòu)樣本與干凈樣本的感知損失;Ls為特征分離損失;α、β、χ、δ分別為各類損失的權(quán)重系數(shù)。
2 實驗
數(shù)據(jù)集:本文在MNIST[15]、CIFAR-10[16]、Caltech101[17]以及ISIC2018[18]等數(shù)據(jù)集驗證本文所提防御模型的有效性。MNIST和CIFAR-10都是10分類圖像數(shù)據(jù)集。MNIST是圖片大小28×28的灰度圖像,包含60 000張訓(xùn)練圖片和10 000張測試圖片。CIFAR-10是圖片大小32×32的彩色RGB圖像,包含50 000張訓(xùn)練圖片和10 000張測試圖片。Caltech101數(shù)據(jù)集有101個類別,每個類別由40~800張圖像組成,是尺寸為300×200的彩色圖像。實驗中采用的攻擊算法包括FGSM[19]、PGD有/無目標(biāo)攻擊[20]、CW攻擊[21]、AutoAttack攻擊[22]、DDN無目標(biāo)攻擊[23]以及JSMA攻擊[24]。
訓(xùn)練細(xì)節(jié):所有實驗均在NVIDIA SMI A100 GPU上運行,由Pytorch實現(xiàn)。在MNIST、CIFAR-10和Caltech101上擾動的大小分別設(shè)置為εMNIST=0.3,εCIFAR-10=8/255和εCaltech101=8/255,學(xué)習(xí)率分別是ηMNIST=0.001,ηCIFAR-10=0.002和ηCaltech101=0.002。實驗中MNIST使用與MagNet[25]相同的目標(biāo)分類器,CIFAR-10采用ResNet18[1]作為目標(biāo)分類器,Caltech101以AlexNet[26]作為目標(biāo)分類器。本文實驗結(jié)果皆采用目標(biāo)分類器分類準(zhǔn)確率作為防御模型防御效果的量化指標(biāo)。
當(dāng)前防御模型在重構(gòu)過程中,重構(gòu)樣本的質(zhì)量都遠低于干凈樣本,從而影響重構(gòu)樣本的分類準(zhǔn)確率。MNIST、CIFAR-10、Caltech101這3種數(shù)據(jù)集無攻擊狀態(tài)下在目標(biāo)分類器上的分類準(zhǔn)確率見表1。表中None表示干凈樣本在目標(biāo)分類器上的分類準(zhǔn)確率。從表1可以看出,本文所提防御模型LRNet的重構(gòu)樣本的分類準(zhǔn)確率基本接近干凈樣本。
為了驗證LRNet的防御能力及防御泛化能力,分別在MNIST、CIFAR-10、Caltech101這3種數(shù)據(jù)集中進行對抗樣本防御實驗。
2.1 MNIST數(shù)據(jù)集相關(guān)實驗
針對MNIST數(shù)據(jù)集,在不同攻擊實驗下對抗樣本經(jīng)防御網(wǎng)絡(luò)去除對抗擾動后在目標(biāo)分類器的分類準(zhǔn)確率如表2所示。訓(xùn)練階段使用的對抗樣本由FGSM、Rand-FGSM和CW攻擊算法生成,擾動大小設(shè)置為ε=0.3。其余攻擊算法均未參加模型訓(xùn)練,對模型而言是未知的。對抗防御實驗中,擾動大小設(shè)置為ε=0.3,ε′=0.4。由表2可知:在JSMA攻擊下,LRNet模型的防御準(zhǔn)確率為99.39%,相較于其他模型有較大提高;在DDN攻擊下以及在模型的未知對抗樣本攻擊下,LRNet模型的防御準(zhǔn)確率均有所提高,防御泛化能力得到極大提升。
為了進一步驗證LRNet在不同目標(biāo)分類器上的遷移能力,本文在Model_A、Model_B、Model_C和Model_D分類器上對重構(gòu)樣本進行黑盒測試,分類模型的分類準(zhǔn)確率如表3所示。No attack表示分類模型在無攻擊狀態(tài)下的分類準(zhǔn)確率;No defense表示目標(biāo)分類器在無防御狀態(tài)下的分類準(zhǔn)確率;With defense表示在不同對抗樣本攻擊下,對抗樣本經(jīng)防御網(wǎng)絡(luò)重構(gòu)后的分類準(zhǔn)確率。從表3可以看出:LRNet遷移到其他分類器上仍具有較高的分類準(zhǔn)確率,模型A的分類準(zhǔn)確率最高,達到98%左右。模型A、B、C、D的具體網(wǎng)絡(luò)結(jié)構(gòu)如表4所示。
圖5是不同攻擊算法下防御網(wǎng)絡(luò)的分類精度折線圖(MNIST)。圖5顯示:在不同攻擊實驗中,LRNet模型的防御準(zhǔn)確率保持在98%左右,在未知的對抗樣本攻擊測試中仍具有很強的防御能力。 LRNet不僅在常見的攻擊算法攻擊下保持較高的分類準(zhǔn)確率,在JSMA、AutoAttack等強攻擊算法攻擊下仍保持較高的分類準(zhǔn)確率,表明LRNet防御模型具有良好的防御泛化性。
本文使用UMAP降維技術(shù)對MNIST數(shù)據(jù)集進行簇狀圖可視化。MNIST干凈樣本的簇狀圖如圖6所示。從圖6可以看出,各類別輪廓清晰,僅有少量樣本重疊。MNIST攻擊前及經(jīng)過防御模型得到的重構(gòu)樣本簇狀圖如圖7所示。圖7中,第1行是MNIST數(shù)據(jù)集在不同對抗樣本攻擊下的簇狀圖,第2行是防御后的簇狀圖。由圖7可見,各類別防御后區(qū)分清晰,LRNet防御模型具有較強的防御能力。
2.2 CIFAR-10數(shù)據(jù)集相關(guān)實驗
針對CIFAR-10數(shù)據(jù)集的對抗防御實驗,訓(xùn)練階段對抗樣本由擾動大小為ε=8/255的PGDN和PGDT這2種攻擊算法生成。測試階段用不同攻擊算法驗證防御模型的防御能力。對抗防御實驗中,擾動大小設(shè)置為ε=8/255,ε′=0.05,None表示對抗樣本在目標(biāo)分類器的分類準(zhǔn)確率。不同防御模型在多種對抗樣本攻擊下的分類準(zhǔn)確率見表5。在PGD攻擊下,分類準(zhǔn)確率有所提高。
圖8是不同攻擊算法下防御網(wǎng)絡(luò)的分類精度折線圖(CIFAR-10)。在CIFAR-10數(shù)據(jù)集中,LRNet防御模型得到的重構(gòu)樣本在目標(biāo)分類器的分類準(zhǔn)確率基本全面超越其他防御模型,表明LRNet模型具有良好的防御性能。
為驗證本防御模型在CIFAR-10數(shù)據(jù)集上具有良好的遷移能力,本文訓(xùn)練了VGG-16和VGG-19網(wǎng)絡(luò),以此作為黑盒攻擊測試的目標(biāo)分類器。如表6所示,在不同對抗樣本攻擊下,經(jīng)過LRNet防御后的其他目標(biāo)分類器仍具有不錯的分類準(zhǔn)確率。
2.3 Caltech101數(shù)據(jù)集相關(guān)實驗
針對Caltech101數(shù)據(jù)集的對抗防御實驗中,訓(xùn)練階段對抗樣本由擾動大小ε=8/255的FGSM、L-BFGS攻擊算法生成。測試擾動大小ε=8/255,在不同攻擊實驗下各防御模型去除對抗擾動后分類器的分類準(zhǔn)確率見表7。在FGSM攻擊下,防御準(zhǔn)確率有所提高。實驗表明,在大尺寸數(shù)據(jù)集上,LRNet防御模型仍然具有對抗防御的能力。
2.4 醫(yī)學(xué)圖像防御實驗
本文所提防御模型不僅在自然圖像上,在醫(yī)學(xué)圖像上也具有較強的防御能力,對一些醫(yī)學(xué)診斷系統(tǒng)的應(yīng)用提供了更加安全的保障。醫(yī)學(xué)圖像數(shù)據(jù)集采用7分類的ISIC2018數(shù)據(jù)集。該數(shù)據(jù)集由大小為600×450的三通道RGB圖像組成,訓(xùn)練集有8 010張皮膚病理圖像,測試集2 005張。實驗采用的目標(biāo)分類器是ResNet50,相關(guān)實驗如下:
在不同攻擊實驗下對抗樣本經(jīng)防御網(wǎng)絡(luò)去除對抗擾動后在目標(biāo)分類器的分類準(zhǔn)確率如表8所示。訓(xùn)練集采用擾動大小ε=2/255的FGSM算法生成。測試時,在FGSM,BIM,PGD,AutoAttack攻擊算法攻擊下,擾動大小設(shè)置為ε=2/255和ε′=6/255。由表8實驗數(shù)據(jù)可知,LRNet防御模型在醫(yī)學(xué)圖像對抗防御下仍表現(xiàn)出較強的防御能力,防御泛化能力較強。
FGSM、PGD防御實驗的可視化結(jié)果如圖9、10所示。圖9、10中,第1行表示原始干凈樣本Clean,第2行表示對抗樣本Adv,第3行表示去噪后的重構(gòu)樣本Recon。FGSM、PGD攻擊下的擾動大小設(shè)置為ε=6/255。
2.5 消融實驗
為了驗證LRNet模型特征分離模塊的有效性,本文對CIFAR-10數(shù)據(jù)集進行消融實驗:取消網(wǎng)絡(luò)模型中特征分離模塊,即取消了總損失函數(shù)中的Ls。在網(wǎng)絡(luò)模型中去掉Ls時,LRNet防御模型在PGDN、DDNN、PGDN′和FGSM這4種攻擊算法構(gòu)造的對抗樣本攻擊下,平均分類準(zhǔn)確率均有所下降,如表9所示。實驗表明,特征圖分離模塊有利于提升模型的防御能力。
為了驗證LRNet模型將特征分離為高、低頻學(xué)習(xí)通道并將低頻通道進行保留的有效性,本文對CIFAR-10數(shù)據(jù)集進行消融實驗:將該部分通道直接作為干凈樣本學(xué)習(xí)通道,即取消了總損失函數(shù)中的Lf。在網(wǎng)絡(luò)模型中去掉Lf時,LRNet防御模型在PGDN、DDNN、PGDN′和FGSM這4種攻擊算法構(gòu)造的對抗樣本攻擊下,平均分類準(zhǔn)確率均有所下降,如表10所示。實驗表明,將一部分通道作為對抗樣本低頻信息學(xué)習(xí)通道有利于提升模型的防御能力。
MNIST、CIFAR-10、Caltech101重構(gòu)圖像可視化實驗如圖11、12、13所示。MNIST、CIFAR-10和Caltech101數(shù)據(jù)集中,對抗樣本由擾動大小分別為ε=0.30、ε=0.06和ε=0.05的FGSM攻擊算法生成。由圖11~13中(b)圖可知,LRNet防御模型在去除對抗擾動保證高分類準(zhǔn)確率的同時,可視質(zhì)量基本接近干凈樣本。
2.6 模型輕量化實驗
不同模型參數(shù)量大小見表11。由表11可知,LRNet模型是輕量級的,模型總參數(shù)量為12萬,參數(shù)大小為0.48 MiB。在MNIST和CIFAR-10數(shù)據(jù)集中,單張對抗樣本在LRNet防御模型中的去噪時間見表12。由表12可知,LRNet防御模型具有輕量化的特性。
3 結(jié)論
1)將Haar小波變換與可逆網(wǎng)絡(luò)相結(jié)合,從多個方向提取更豐富的特征信息,實現(xiàn)輕量級可逆網(wǎng)絡(luò)LRNet。LRNet能有效提高防御模型的分類準(zhǔn)確率,提升防御模型面對不同對抗樣本攻擊的泛化能力。除此之外,防御模型的參數(shù)大小得到極大降低,增強了現(xiàn)實應(yīng)用的可行性。
2)利用特征分離模塊有效地分離魯棒特征和非魯棒特征,提升了防御模型的泛化性及遷移能力。實驗表明,所提出的方法提高了分類器在對抗樣本攻擊下的分類精度,對模型未知的對抗樣本攻擊具有很強的防御能力,防御泛化能力超過了現(xiàn)有的防御網(wǎng)絡(luò),為防御算法的設(shè)計提供了新思路。
參考文獻:
[1]HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE Computer Society, 2016: 770-778.
[2] HINTON G, DENG L, YU D, et al. Deep neural networks for acoustic modeling in speech recognition: the shared views of four research groups[J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.
[3] SUTSKEVER I, VINYALS O, LE Q V. Sequence to sequence learning with neural networks[J]. Advances in Neural Information Processing Systems, 2014, 27:54-61.
[4] SUN Y, LIANG D, WANG X G, et al. Deepid3: face recognition with very deep neural networks[DB/OL]. (2015-02-03)[2023-03-28]. https://arxiv.org/abs/1502.00873.
[5] EYKHOLT K, EVTIMOV I, FERNANDES E, et al. Robust physical-world attacks on deep learning visual classification[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018: 1625-1634.
[6] BAI Y, ZENG Y Y, JIANG Y, et al. Improving adversarial robustness via channel-wise activation suppressing[DB/OL]. (2022-01-16)[ 2023-03-28]. https://arxiv.org/abs/2103.08307.
[7] LIAO F Z, LIANG M, DONG Y P, et al. Defense against adversarial attacks using high-level representation guided denoiser[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018: 1778-1787.
[8] JIN G Q, SHEN S W, ZHANG D M, et al. Ape-gan: adversarial perturbation elimination with gan[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Brighton: IEEE, 2019: 3842-3846.
[9] ZHOU D W, LIU T L, HAN B, et al. Towards defending against adversarial examples via attack-invariant features[C]//International Conference on Machine Learning. New York: PMLR, 2021: 12835-12845.
[10]JACOBSEN J H, SMEULDERS A, OYALLON E. I-revnet: deep invertible networks[DB/OL]. (2018-02-20)[2023-03-28]. https://arxiv.org/abs/1802.07088.
[11]MA X J, NIU Y H, GU L, et al. Understanding adversarial attacks on deep learning based medical image ana-lysis systems[J]. Pattern Recognition, 2021, 110: 107332-107346.
[12]WANG Y W, LI Y, SHEN Z Q. Fight fire with fire: reversing skin adversarial examples by multiscale diffusive and denoising aggregation mechanism[DB/OL].(2022-08-22)[2023-03-28].https://arxiv.org/abs/2208.10373.
[13]ARDIZZONE L, L?TH C, KRUSE J, et al. Guided image generation with conditional invertible neural networks[DB/OL]. (2019-07-10)[2023-03-28]. https://arxiv.org/abs/1907.02392.
[14]SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition[DB/OL].(2015-04-10)[2023-03-28]. https://arxiv.org/abs/1409.1556.
[15]LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11): 2278-2324.
[16]KRIZHEVSKY A, HINTON G. Learning multiple layers of features from tiny images[D]. Toronto: University of Tront, 2009.
[17]FEI-FEI L, FERGUS R, PERONA P. Learning generative visual models from few training examples: an incremental bayesian approach tested on 101 object categories[C]//2004 Conference on Computer Vision and Pattern Recognition Workshop. Washington, DC: IEEE, 2004: 178-186.
[18]TSCHANDL P, ROSENDAHL C, KITTLER H. The HAM10000dataset, a large collection of multi-source dermatoscopic images of common pigmented skin lesions[J]. Scientific Data, 2018, 5: 180161.1-180161.9.
[19]GOODFELLOW I J, SHLENS J, SZEGEDY C. Explaining and harnessing adversarial examples[DB/OL].(2015-03-20)[2023-03-28]. https://arxiv.org/abs/1412.6572.
[20]MDRY A, MAKELOV A, SCHMIDT L, et al. Towards deep learning models resistant to adversarial attacks[DB/OL]. (2019-09-04)[2023-03-28]. https://arxiv.org/abs/1706.06083.
[21]CARLINI N, WAGNER D. Towards evaluating the robustness of neural networks[C]//2017 IEEE Symposium on Security and Privacy (SP). San Jose, CA: IEEE, 2017: 39-57.
[22]CROCE F, HEIN M. Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks[C]//International Conference on Machine Learning. New York: PMLR, 2020: 2206-2216.
[23]RONY J, HAFEMANN L G, OLIVEIRA L S, et al. Decoupling direction and norm for efficient gradient-based L2adversarial attacks and defenses[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. Long Beach, CA: IEEE, 2019: 4322-4330.
[24]PAPERNOT N, MCDANIEL P, JHA S, et al. The limitations of deep learning in adversarial settings[C]//2016 IEEE European Symposium on Security and Privacy (EuroS&P). Saarbruecken: IEEE, 2016: 372-387.
[25]MENG D Y, CHEN H. Magnet: a two-pronged defense against adversarial examples[C]//Proceedings of the 2017 ACM SIGSAC Conference on Computer and Communications Security. New York: ACM, 2017,46: 135-147.
[26]KRIZHEVSKY A, SUTSKEVER I, HINTON G E. Imagenet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
(責(zé)任編輯:周曉南)
Design and Research of Adversarial Example Defense Algorithm Based on Reversible Network
YANG Jin1, LI Zhi*1, ZHANG Li1, WANG Yi1, LU Yu2
(1.School of Computer Science and Technology, GuiZhou University, Guiyang 550025, China; 2.Guizhou Power Grid Co., Ltd., GuiYang 550025, China)
Abstract: Deep learning models are extremely vulnerable to adversarial samples. In order to improve the robustness of deep learning models and enhance the security of related technologies in real-life applications, a lightweight reversible network (LRNet) is proposed to effectively remove adversarial perturbations in adversarial examples. First, Haar wavelet transform is combined with a reversible network to obtain richer features. Secondly, feature channels are separated, and high and low-frequency features of clean examples are used to guide learning. High-frequency information is replaced by resampling from random numbers to remove adversarial perturbations. Finally, a feature separation module is proposed to remove non-robust features and improve classification accuracy. The results show that this defense model can significantly improve defense accuracy. Compared with the defense model ARN, its accuracy increases from 91.62% and 67.29% to 97.65% and 78.55% on the MNIST, CIFAR-10 datasets, respectively. The parameter size of the model is reduced to 0.48 megabytes, which is 20% of the APE-GAN models. The transferability of the defense model is greatly improved, providing a new method for defending against adversarial examples.
Key words: adversarial defense; adversarial robustness; reversible networks; deep neural networks; adversarial example