蔡秀霞,杜慧敏
(西安郵電大學 電子工程學院,陜西 西安 710121)
自2012年以來,深度學習技術得到迅猛發(fā)展[1-3],已經被廣泛地應用于工程物理領域[4-5]。深度學習技術應用在帶給人們巨大便利的同時,從2013年開始,深度學習技術的抗干擾性能開始受到質疑[6]。研究表明,對于某些略帶擾動的輸入,人眼對這些擾動幾乎無法察覺,仍然能夠正確地識別圖像[7-8],但是,深度學習技術很難產生滿意的結果,會產生識別和分類錯誤等問題。
某些對抗樣本對神經網絡的成功攻擊案例,使得研究者們開始考慮神經網絡對輸入數(shù)據依賴性的問題[9]。后續(xù)的研究發(fā)現(xiàn),神經網絡對輸入數(shù)據很敏感。神經網絡的輸出結果與輸入數(shù)據分布之間的這種不明顯的關聯(lián)方式,受到了廣泛關注[10]。
對抗樣本是指在輸入的干凈數(shù)據中添加肉眼難以覺察的擾動所得到擾動樣本,如果該擾動樣本能夠導致學習系統(tǒng)的輸出結果錯誤,則稱該擾動樣本為對抗樣本[11]。對抗樣本生成技術是一種可以產生擾動數(shù)據并且導致現(xiàn)有機器學習方法無法正常檢測、識別和分類的技術。針對神經網絡產生對抗樣本的過程被稱為對抗攻擊。
面向機器的攻擊方法和對抗樣本生成技術是攻擊技術的核心和基礎之一。尤其是近幾年,針對機器深度學習的對抗攻擊算法和對抗樣本生成技術引起了眾多學者的極大關注,已經成為了電子對抗領域中的研究熱點之一,并取得了一系列重要進展。論文擬介紹和總結對抗攻擊算法和對抗樣本生成技術方面研究取得的重要進展、存在問題以及未來研究的發(fā)展趨勢和有待解決的問題。
對抗樣本攻擊使得攻擊者即使在不知道原始機器學習模型的情況下,也能夠攻擊機器學習模型。當前的對抗樣本研究工作大多假設對手將數(shù)據直接送入機器學習的分類器模型中。
深度學習中的對抗攻擊是指對干凈數(shù)據進行加噪聲、擾亂紋理結構等處理后,故意擾亂或者愚弄機器學習技術,尤其是深度神經網絡技術,使得原始數(shù)據不能被正確識別或分類的行為[12]。對原始數(shù)據進行的處理稱為對抗擾動。通過機器學習的方式進行訓練得到對抗擾動的過程稱為對抗訓練。對干凈數(shù)據添加了擾動的數(shù)據被稱為對抗樣本。在設計具體目標識別或分類器時,針對性地采用特定可以防范對抗攻擊的技術[13-16]被稱為對抗防御。
對抗樣本生成的基本思想是通過故意對數(shù)據集中輸入樣例添加難以察覺的擾動,使模型以高置信度給出一個錯誤的輸出。通常只需要在一張圖片上做微小地擾動,分類器就能夠以較高的置信度將圖片錯誤分類,甚至被分類成一個不是圖片正確所屬的指定標簽[17]。在分類器對樣本進行分類訓練時,通常需要使用包含樣例和相應的類標簽。由于對抗樣本在生成時已經預知各個輸入樣例的類標簽,故對抗樣本事實上是隱含有類標簽的數(shù)據。
假設有一個學習系統(tǒng)M,以及沒有添加噪聲/擾動的干凈輸入數(shù)據或者樣本C。若樣本C能夠被學習系統(tǒng)M正確地分類,則將其表示為M(C)=ytrue。構建一個與樣本C十分相像但卻會被錯誤分類的對抗樣本A,使得通過學習系統(tǒng)M能夠被錯誤的分類,記為M(A)≠ytrue,則稱樣本A為對抗攻擊需要的對抗樣本。
雖然對抗干擾的影響比噪聲干擾小,但是,被分類器誤分的概率卻遠比噪聲干擾高。此外,在訓練集的不同子集上訓練得到的具有不同結構的模型都會對相同的對抗樣本實現(xiàn)誤分,這意味著對抗樣本會成為訓練算法的一個盲點。在很多對抗攻擊算法中,對抗的目標根據需要來優(yōu)化最終的損失函數(shù)。在攻擊算法的損失函數(shù)中,攻擊就是對被學習的原始數(shù)據進行處理,使得處理后的數(shù)據被系統(tǒng)錯誤地分類[18]。嚴格來說,對抗樣本A應該滿足判別函數(shù)g(A)<-ε(ε<0為閾值),即對抗樣本僅需要越過最低的決策邊界就可以被錯誤的分類。但是,在多數(shù)情況下,一個好的攻擊策略是通過創(chuàng)建一類生成對抗樣本的方法,使得學習系統(tǒng)能夠以較高的錯誤率將被學習數(shù)據誤判為錯誤分類[19],即在滿足擾動較小的衡量準則約束的條件下最小化判別函數(shù)g(A)。
對抗樣本與干凈數(shù)據樣本關于目標學習系統(tǒng)的訓練學習過程可能會有很大不同。對抗樣本與干凈數(shù)據樣本的系統(tǒng)學習訓練的區(qū)別之處在于訓練集、樣本的特征表示、學習算法和決策函數(shù)分類模型以及分類器的反饋。
在對抗攻擊過程中,通過修改測試數(shù)據的方法實現(xiàn)攻擊行為??梢孕薷牡膬热莅ㄝ斎霐?shù)據、特征向量和某個制定的特征。利用這些方法改變不同數(shù)據之間的依賴性,最終改變高級語義的理解。
目前對抗攻擊的方法有很多,相應地,對抗樣本生成的方法也有很多[20-24]。
根據被攻擊環(huán)境,可以將對抗攻擊分為白盒攻擊、黑盒攻擊和半白盒(灰盒)攻擊。
白盒攻擊是指在被攻擊者的模型、網絡結構、權重參數(shù)以及防御手段完全已知的情況下,攻擊者進行對抗攻擊的行為。
與白盒模型相反,黑盒攻擊是指在攻擊者對被攻擊者一無所知的前提下,進行的對抗攻擊。
半白盒攻擊是指攻擊者在對待攻擊目標的了解程度介于白盒攻擊和黑盒攻擊之間時進行的對抗攻擊。比如,攻擊者僅了解模型的輸出概率,或者只知道模型結構。
根據攻擊者的目的性,可以將對抗攻擊分為定向攻擊和非定向攻擊。定向攻擊是指攻擊者試圖使得目標識別器或分類器錯誤地將目標識別或者分類成既定的另一目標的攻擊行為。比如,讓自動識別器將熊貓圖片錯誤地識別為鴕鳥圖片。非定向攻擊是指攻擊者對目標識別或者分類器進行攻擊時,只需要出現(xiàn)識別或者分類結果錯誤,不追求錯誤地識別為某種特定類型的目標。
根據擾動的強度大小,可以將對抗攻擊分為無窮范數(shù)攻擊、2范數(shù)攻擊和0范數(shù)攻擊。整體衡量擾動強度時,只考慮限制可以改變的像素個數(shù),不關心具體每個像素值改變了多少。
擾動強度的一般表達式為
(1)
其中:η表示擾動;ηi表示第i維度的擾動值;p表示不同的范數(shù)。當p趨近于無窮大時,式(1)為擾動最大的情況,此時的對抗攻擊被稱為無窮范數(shù)攻擊;當p=2時的對抗攻擊被稱為2范數(shù)攻擊,采用歐式距離衡量準則;當p=0時的對抗攻擊被稱為0范數(shù)攻擊,對應城市距離衡量準則,常被應用于單像素攻擊中。
根據擾動的類型,可以將對抗攻擊分為像素級擾動攻擊和結構擾動攻擊。
擾動為像素值變動的對抗攻擊被稱為像素級擾動攻擊或基于像素值差異程度的攻擊。目前大多數(shù)的對抗攻擊為像素級擾動攻擊。
擾動為圖像紋理或者圖形等形狀結構變動的對抗攻擊被稱為結構擾動攻擊。
根據攻擊的技術手段,可以將對抗攻擊分為基于梯度的攻擊、基于優(yōu)化的攻擊和基于決策面的攻擊等。
根據模型對輸入數(shù)據的導數(shù)來決定擾動的方式被稱為基于梯度的攻擊。常見的梯度攻擊有快速梯度符號方法(Fast Gradient Sign Method,FGSM)、投影梯度下降(Project Gradient Descent,PGD)方法和動量迭代方法(Momentum Iterative Method,MIM)等。
基于優(yōu)化的攻擊是指將攻擊重點集中于優(yōu)化失真函數(shù)來調節(jié)擾動的攻擊方式。優(yōu)化攻擊的典型代表是Carlini and Wagner (C&W)攻擊算法。
根據不同種類分類決策面的界定來調節(jié)并生成擾動的攻擊稱為基于決策面的攻擊,基于決策面的攻擊的典型代表是Deepfool方法。
根據對抗攻擊優(yōu)化生成的迭代次數(shù),可以將對抗攻擊分為單步攻擊(One-time Attack)與迭代攻擊(Iteration Attack)。
在生成對抗樣本過程中,若只需要一次優(yōu)化即可生成對抗樣本,則該對抗攻擊為單步攻擊。迭代攻擊是指在生成對抗樣本過程中,需要多次更新對抗樣本。大多數(shù)情況下,多步迭代攻擊生成的對抗樣本比單步攻擊的攻擊效果更好。但是,迭代攻擊相比于單步攻擊需要花費更多的時間來生成對抗樣本。
根據被攻擊數(shù)目可以將對抗攻擊分為個體攻擊(Individual Attack)與普適性攻擊(Universal Attack)。
對于每個具體的輸入原始數(shù)據添加不同擾動的攻擊方式被稱為為個體攻擊。目前大多數(shù)的對抗攻擊方法都屬于個體攻擊。在生成對抗樣本或者對抗擾動時,對于整個數(shù)據集生成一個通用的擾動或者通用擾動生成方式的攻擊被稱為普適性攻擊。
根據擾動生成方式還可以將對抗攻擊分為優(yōu)化擾動(Optimized Perturbation)與約束擾動(ConStrained Perturbation)。
優(yōu)化擾動方法往往需要首先初始化一個不受約束的擾動。其次,以擾動大小作為優(yōu)化過程中的優(yōu)化目標。最后,優(yōu)化生成肉眼無法識別的最小化擾動對抗樣本。
約束擾動方法起始便要求擾動滿足約束條件,之后所調整的擾動僅需滿足約束即可。該方法要求擾動足夠小。
Szegedy等人[25]在2014年首次提出使用Box-Constrained L-BFGS方法生成對抗樣本后,針對深度神經網絡展開對抗攻擊。該方法通過對圖像添加少量的擾動,使神經網絡做出錯誤分類。添加擾動后的圖像仍然能夠被肉眼正確識別,卻會擾動誤導神經網絡。
為了讓神經網絡做出錯誤分類,需要求解最小擾動方程,但是該問題復雜度較高,需要對問題進行簡化,然后通過尋找最小的損失函數(shù)添加項,使得神經網絡做出錯誤分類。如此一來,就將求解最小擾動方程問題轉化成了凸優(yōu)化求解過程。凸問題可以利用L-BFGS方法求解,并產生對抗樣本,凸優(yōu)化求解公式為
其中:x′表示對抗樣本;J表示神經網絡模型的損失函數(shù);c表示擾動參數(shù)。為了找到合適的參數(shù),使用L-BFGS算法進行線性迭代搜索c>0的所有情況,即可找到c的近似值。
在實際應用中,這種針對深度神經網絡生成的對抗樣本,可以推廣到其他的神經模型和其他的訓練數(shù)據集中。將對抗樣本加到訓練集中,可以進行對抗訓練,以此提高深度神經網絡的魯棒性,從而提升防御攻擊的能力。但是,這種生成對抗樣本的方法效率較低、運算量較大、可遷移性較差。
Goodfellow I J等人[26]提出了一種能快速有效計算對抗擾動的方法,這種求解對抗擾動的方法被稱為快速梯度符號攻擊算法。該方法的主要思想是根據深度學習模型梯度變化的最大方向,生成對抗擾動,并將擾動迭代添加到圖像中,最終使得生成的對抗樣本被模型錯誤分類。
快速梯度符號攻擊法通過計算目標類別對輸入圖像求梯度,然后對梯度求符號函數(shù),將求得的結果作為對抗擾動噪聲加到原始圖像上獲得對抗樣本。
使用快速梯度符號攻擊方法構造對抗樣本的優(yōu)點在于效率比較高,生成的對抗樣本可遷移性強,但是,最終生成的對抗樣本會對原始干凈圖像的所有像素點都產生一些微小的擾動??焖偬荻确柟舴ü魧儆诎缀泄簦枰玫侥P偷纳窠浘W絡結構信息,另外,添加的噪聲擾動容易被去除,如使用中值濾波等方法就能夠過濾噪音,導致FGSM方法的攻擊性不佳[27]。
快速梯度符號攻擊法作為經典的攻擊方法,衍生出了許多以快速梯度符號攻擊法為基礎的對抗攻擊方法。其中,有3種改進攻擊方法比較典型。
1)快速梯度值攻擊法(Fast Gradient Value,FGV)。在快速梯度攻擊方法的基礎上,FGV改進了對抗樣本噪聲的計算方法,更為簡便。
2)單步目標分類攻擊法(One-Step Target Class Method,OTCM)。Kurakin等人[28]提出了快速梯度攻擊法的變體—單步目標分類攻擊法。這種方法使用容易被錯誤識別的原始目標數(shù)據標簽代替快速梯度攻擊法對抗攻擊產的樣本標簽,然后將原始圖像減去對抗樣本中的擾動,這樣,原始圖像就變成了對抗樣本,并且能夠輸出指定的目標類別。
3)隨機噪聲-快速梯度攻擊法(Rand-FGSM,R-FGSM)。R-FGSM使用快速梯度攻擊法進行對抗訓練后得到的神經網絡模型,在進行白盒攻擊時比黑盒攻擊更為魯棒。R-FGSM方法增加了隨機梯度訓練,可以被用于對抗防御訓練。
R-FGSM方法和快速梯度符號攻擊法的主要區(qū)別在于,在進行學習系統(tǒng)模型進行梯度計算之前,R-FGSM方法首先對輸入樣本添加隨機的擾動。經過對抗防御訓練的模型,其損失函數(shù)在擾動數(shù)據位置點附近會有比較大的曲率,使得基于損失函數(shù)的一階近似攻擊變得不準確。而添加隨機擾動后,可以很大概率上跳出擾動數(shù)據點附近的大曲率,使得快速梯度符號攻擊法生成的對抗樣本更具泛化能力。
基本迭代法攻擊算法(Basic Iterative Method,BIM)由Kurakin等人[29]于2016年提出。BIM算法是一種基于快速梯度攻擊法的迭代版本??焖偬荻裙舴ㄖ谎刂荻仍黾拥姆较蛱砑右徊綌_動,而基本迭代法則通過迭代的方式,沿著梯度增加的方向進行多步小的擾動,來求取對抗樣本。而且,在每一小步的迭代之后,BIM算法均要重新計算梯度方向,從而相比快速梯度攻擊法能夠構造出更加精準的擾動。但是,該算法增大了計算量。
基本迭代法是一種優(yōu)化尋找最優(yōu)解的小步迭代攻擊方法。在每一次迭代過程中,為了盡可能避免大的改變,使用切分函數(shù)Clip來求解對抗樣本,經過多次迭代后得到對抗樣本。
迭代最小可能算法(Iterative Least-likely Class,ILLC)算法[30]和基本迭代法類似,區(qū)別在于,基本迭代法是一種非定向攻擊,而迭代最小可能法是基本迭代法針對定向攻擊做出的改進,用于產生特定目標類別的圖像。
相比于基本迭代法,迭代最小可能算法的泛化性能較弱,其攻擊成功率僅在特定目標設計下較高,如果要對此方法進行移植應用,需要大量的訓練工作。
Jacobin映射攻擊(Jacobin-based Saliency Map Attack,JSMA)算法通過對原圖添加有限個數(shù)像素點的擾動方式構造出對抗樣本。JSMA算法由Papernot等人[31]在2015年提出,該方法是一種專門針對非循環(huán)前饋(Acyclic Feedforward)神經網絡的定向攻擊算法。JSMA算法首先分析評估模型的前向傳播過程,并計算模型的前向傳播導數(shù),然后根據前向導數(shù)的梯度得到初始擾動衡量值。對目標圖像中的每個像素點均對應地算出一個擾動初始衡量值,擾動初始衡量值越大,說明給與當前像素點微小擾動就能夠使得學習模型以較大概率產生輸出誤判,只需要選擇擾動衡量值大的像素點進行擾動,就可以在給出盡可能小擾動值的條件下實現(xiàn)對抗攻擊。
在對抗攻擊過程中,為了使對抗樣本中的擾動無法被察覺,通常需要應用擾動范數(shù)。最常被使用的擾動范數(shù)為l∞或l2范數(shù)。JSMA算法一次只修改若干個干凈圖像的像素,并監(jiān)測變化對結果分類的影響,其采用l0范數(shù)產生對抗樣本,改變幾個像素值而不是擾動整張圖像。
JSMA算法只需修改原始輸入數(shù)據中4.02%特征,就可以使得學習系統(tǒng)以97%的置信度錯誤分類。但是,由于Jacobin矩陣計算復雜,資源消耗量較大,導致該方法產生對抗樣本的速度較慢。
Moosavi-Dezfooli等人[32]提出的深度欺騙(DeepFool)攻擊算法是一種基于迭代的白盒攻擊方法。深度欺騙攻擊法算法的目的是尋找可以使分類器產生誤判的最小擾動,其通過迭代計算的方式生成最小范數(shù)的對抗擾動。
深度欺騙攻擊算法根據分類器的決策邊界初始化原始圖像,然后給定初始圖像錯誤的標簽。初始化后的原始圖像突出在決策邊界邊緣部分,即為被誤判率高的圖像。深度欺騙攻擊算法根據損失函數(shù)迭代生成滿足約束條件的擾動向量,通過將擾動向量疊加到原始圖像上來生成擾動樣本。這些小的擾動向量通過線性化對抗樣本圖像所在決策區(qū)域的邊界,逐步將對抗樣本移向決策標簽類別,直到對抗樣本最終被移動到決策邊界指定的假類別區(qū)域內,從而導致分類器的分類錯誤。
通過深度欺騙攻擊法生成對抗樣本的擾動比快速梯度算法范數(shù)值更小,同時具有較相近的欺騙效果。但是,深度欺騙攻擊法所添加的擾動大小全靠人工設計,需要較多的先驗知識,這也是基于梯度算法普遍存在的問題。
基于組合模式生成網絡編碼的進化算法(ComPositional Pattern-producing Network-encoded Evolutionary Algorithm,CPPN EA)算法[33]使用進化算法產生對抗樣本。利用CPPN EA算法產生的對抗樣本會被深度神經網絡以99%的置信度進行誤分類。CPPN EA算法是深度欺騙攻擊方法和基于快速梯度方法的改進方法。該方法對深度學習神經網絡攻擊的攻擊成功率較高,但是,該方法計算復雜度大、計算成本較高,并且遷移性不夠好。
Carlini和Wagner[34]為了攻擊防御性蒸餾(Defensive Distillation)網絡,在2016年提出一系列基于最優(yōu)化的定向攻擊對抗樣本生成算法,被稱為C&W攻擊算法。該算法基于不同距離度量(l0,l2,l∞),通過限制l0、l2和l∞范數(shù)使得擾動無法被察覺。
目前,防御型蒸餾網絡無法防御CPPN EA、深度欺騙攻擊法和雅克比映射攻擊法。C&W攻擊法生成的對抗擾動可以從無蒸餾網絡遷移到有蒸餾網絡上,進而實現(xiàn)對神經網絡的黑盒攻擊。目前,C&W能有效攻擊現(xiàn)有的大多數(shù)深度學習模型。
零階優(yōu)化(Zeroth Order Optimization,ZOO)攻擊算法是一種黑盒攻擊方法,其通過直接估計目標模型的梯度來生成對抗樣本。ZOO算法不需要計算梯度,但需要查詢和評估目標模型的梯度。ZOO算法與C&W攻擊方法誤導率相近,具有相近的攻擊效果。
以ZOO算法為基礎,Chen等人提出基于自適應矩估計(Adaptive Moment Estimation,ADAM)的零階優(yōu)化攻擊法方法[34]。該方法首先隨機選擇一個變量來更新對抗樣本,然后采用ADAM迭代優(yōu)化方法找到最優(yōu)對抗樣。
Moosavi-Dezfooli等人[35]在深度欺騙攻擊法基礎上提出了通用擾動攻擊算法(Universal Perturbation)??焖偬荻裙羲惴?、迭代最小可能攻擊算法、深度欺騙攻擊算法等方法只能生成某種類型單張圖像的對抗樣本,而通用擾動攻擊算法能夠生成針對所有圖像的對抗樣本擾動。
通用擾動攻擊法中使用的迭代方法和深度欺騙攻擊法相似,均需要首先使用擾動方法將原始目標圖像移出正確的分類區(qū)域,然后將原始目標圖像移動到錯誤的分類區(qū)域邊界處。
在生成通用擾動的過程中,同樣需要滿足最小范數(shù)的限制。使用通用擾動攻擊方法,在迭代的每一步過程中均使用深度欺騙攻擊方法獲得最小范數(shù)值擾動,每次迭代的對象是不同的圖像,一直到大多數(shù)數(shù)據樣本能夠欺騙神經網絡時,結束迭代過程。通用對抗擾動可以泛化到大多數(shù)神經網絡上,尤其是與殘差網絡具有相似結構的神經網絡。
Su等人[36]提出了單像素攻擊(One Pixel Attack),通過只改動一個像素點就可以實現(xiàn)對抗攻擊目的。單像素攻擊算法是一種以差分進化(Differential Evolution)算法為基礎的對抗攻擊算法。單像素攻擊算法首先對原始圖像的每一個像素進行迭代修改,將修改后的圖像與原始干凈圖像進行對比,根據攻擊效果選擇攻擊效果最好的圖像作為對抗樣本。
單像素攻擊算法對抗攻擊所需的對抗性信息很少,不需要知道被攻擊神經網絡的權重參數(shù)、梯度和網絡結構等信息,是一種黑盒攻擊方式。實驗發(fā)現(xiàn),對73.8%的測試圖像可以使用單像素攻擊,而且平均置信率高達98.7%。
特征對抗(Feature Adversary)攻擊算法是Sabour等人[37]提出一種定向攻擊方法,該算法是一種白盒攻擊方法。特征對抗攻擊算法通過最小化神經網絡特征圖中差異值的差距來產生對抗樣本。該方法首先初始化一個錯誤標簽對應的圖像,將原始干凈圖像與錯誤目標圖像輸入到深度神經網絡中,得到兩張圖像的特征圖。然后,通過優(yōu)化迭代方法使得原始干凈圖像逼近于錯誤目標圖像,進而得到最終的對抗樣本。
Rozsa等人[38]提出了一種熱/冷(Hot/Cold)攻擊算法。熱/冷攻擊算法提出了兩個類的定義,其將目標標簽定義為熱(Hot)類,將原始標簽定義為冷(Cold)類。在每次迭代過程中,將樣本逐步移向熱類,同時遠離冷類。
熱/冷攻擊算法給出了一個新的擾動值的衡量方法,即心理感知對抗相似值(Psychometric Perceptual Adversarial Similarity Score,PASS)。使用PASS方法衡量攻擊前后樣本差異大小。PASS方法先將修改后的圖像與原始圖像對齊,然后比較對齊后的修改后圖像與原始圖像的差異性和相似性,并產生對抗攻擊樣本。熱/冷攻擊法與快速梯度法效果相近。
Zhao等人[39]提出了一種自然對抗生成網絡算法。其使用對抗生成網絡生成對抗樣本,并且盡量使得結果看起來更加自然。自然對抗生成網絡算法通過最小化特征圖譜之間的差異值來產生對抗噪聲,這種算法同樣屬于黑盒攻擊,無需了解被攻擊學習系統(tǒng)的內部結構及權重參數(shù)等信息,但是,需要知道學習系統(tǒng)的混淆矩陣信息等輸出信息。
基于模型的集成攻擊(Model-based Ensembling Attack)算法[40]定義了模型集成的概念,其利用多個不同模型生成對抗樣本。該方法對多個神經網絡模型進行集成訓練,得到針對多個深度神經網絡模型的擾動生成深度學習網絡模型?;谀P偷募晒羲惴ㄉ傻膶箻颖揪哂休^好的泛化性,能夠攻擊多個深度學習神經網絡模型。
Carlini等人[41]使用真值攻擊(Ground-truth Attack)算法最小化l1和l∞擾動以產生對抗樣本。真值攻擊算法使用C&W攻擊方法產生初始對抗樣本,然后在后續(xù)迭代過程中使用Reluplex迭代找到最小擾動的對抗樣本。真值攻擊算法相當于在C&W攻擊算法基礎上進行的改進,具有C&W攻擊方法的優(yōu)點,但是攻擊效果更好。
Sarkar等人[42]提出了面向精確目標提取的普適繞動(Universal Perturbations for Steering to Exact Targets,UPSET)算法和面向深度學習定向攻擊的繞動圖像生成的對抗網絡(Antagonistic Network for Generating Rogue Images for Targeted Fooling of Deep Neural Networks,ANGRI) 算法兩種黑盒攻擊算法。
UPSET和ANGRI算法的損失函數(shù)均由分類器損失和保真度損失兩部分組成,使用權重調節(jié)兩個損失指標,盡量使得擾動不要過于集中。其中,分類器損失對不能產生目標攻擊類進行懲罰;保真度損失保證輸出的對抗樣本和原始樣本足夠相似。
UPSET和ANGRI算法的欺騙率均較高。相對而言,ANGRI算法生成特定的對抗樣本,UPSET算法屬于定向攻擊,可以被用來進行黑盒攻擊,且攻擊成功率較高。
Houdini攻擊法[43]的核心思想是欺騙原始分類器梯度。該方法根據特定任務設計損失函數(shù),并生成相應的對抗樣本,以此實現(xiàn)對抗攻擊。其擾動的生成建立在網絡可微損失函數(shù)的梯度信息上。目前該方法被廣泛應用于攻擊圖像識別、語音識別分類器中。
Baluja和Fischer[44]通過訓練多個前饋神經網絡生成對抗樣本,經過訓練后得到的生成對抗樣本模型被稱為對抗變換網絡(Adversarial Transformation Network,ATN)攻擊算法。
ATN攻擊算法的核心是通過訓練對抗變換網絡ATN來生成對抗樣本,使得生成的樣本按概率測度被分類器錯分,且同時滿足擾動最小的要求。其通過最小化一個聯(lián)合損失函數(shù)來生成對抗樣本。聯(lián)合損失函數(shù)包括兩個部分,一部分衡量對抗樣本與被攻擊圖像的相似度,另一部分衡量對抗樣本被錯誤分類的程度。
在訓練對抗樣本時,ATN算法需要保證對抗樣本的類別與原始樣本類別一致,并且對抗樣本與被攻擊的原始樣本之間的相似度要小于一定閾值,即對抗樣本與原始樣本存在一定程度的相似性。另外,ATN算法還可以通過建立神經網絡模型將擾動建模為加性噪聲。
ATN方法可以實現(xiàn)定向攻擊和非定向攻擊。該方法的對抗樣本生成速度較快,生成的對抗樣本可以攻擊一個或多個目標網絡,并且攻擊效果較好,但是,該方法的遷移性較弱。
Brendel等人[45]提出了一種基于邊界的黑盒攻擊方法—邊界攻擊(Boundary Attack,BA)算法。該方法核心思想是根據被攻擊分類器的分類結果,針對分類結果進行攻擊從而得到對抗樣本。
在攻擊分類器時,邊界攻擊算法根據分類器的類型和分類能力對分類器進行攻擊,使得被攻擊的分類器發(fā)生分類錯誤。邊界攻擊算法不限制初始擾動值的大小,首先通過初始化找到一個初始對抗樣本,然后采用特定的搜索迭代方式將該對抗樣本沿著原樣本的方向移動,直到初始對抗樣本離原樣本足夠接近,使得擾動小于預訂閾值,同時對抗樣本依然保持對抗性為止。
當前關于對抗攻擊及對抗樣本生成的研究,大多數(shù)是在假設對手將數(shù)據直接送入學習系統(tǒng)中這一條件下開展的,但是,在真實的物理世界中,原始數(shù)據大多數(shù)是要經過傳感器采集之后,形成信號再輸入到學習系統(tǒng)的。這就意味著可以在物理世界對原始采集信號進行攻擊,產生對抗樣本[46]。
現(xiàn)在,越來越多的研究轉向對抗樣本對物理世界的攻擊。物理對抗樣本方面的研究也已不僅僅局限于現(xiàn)有對抗樣本的設計,復雜的應用需求及高精度的物理環(huán)境對對抗攻擊的誤導率與實時性都提出了很高的要求,這促使更多學者考慮如何根據人工智能技術存在的短板問題提出可行的對抗攻擊方法及對抗樣本生成技術,以便更有效率地實現(xiàn)反自動目標識別、檢測和分類[47]。
目前對抗攻擊及對抗樣本的生成技術的研究正處于發(fā)展階段,尚未成熟,還有很大的發(fā)展?jié)摿?,該方面技術的發(fā)展可以很好地促進人工智能技術的發(fā)展[48]。從攻擊對象來看,現(xiàn)有的對抗樣本技術主要針對圖像及語音的識別和分類技術。目前,人工智能技術應用層面不只包括圖像和語音的識別和分類,對抗攻擊及對抗樣本的生成技術也應擴展到眾多人工智能領域。
從對抗攻擊的方式來看,大多數(shù)對抗是以像素級擾動為基礎進行的對抗攻擊方法。以單個對抗樣本為基本單位進行攻擊,使得在生成對抗樣本時,需要大量訪問被攻擊網絡,從而不僅會導致對抗樣本的生成成本較高,而且比較容易暴露攻擊,導致后續(xù)攻擊難度的增加。另外,現(xiàn)有攻擊方法在普適性及遷移性上還有待提高。
目前對圖像攻擊的研究中,追求最小擾動(擾動大小的衡量標準是像素值的變化)的像素攻擊方法不容易引起較大的視覺差異變化,是一種比較理想的對抗攻擊方式。不過,最新的研究發(fā)現(xiàn),在具體的物理偽裝環(huán)境中一些結構型擾動很難被人眼發(fā)覺,并且可以起到很好的攻擊效果[49]。區(qū)別于傳統(tǒng)的基于像素的擾動準則,面向結構擾動的衡量準則和方法有待豐富和發(fā)展。在面向物理偽裝的可見光領域開展對抗樣本算法方面的研究,內容涉及可用于解決普適性問題的概率型對抗樣本生成方法、結構擾動衡量準則和基于結構擾動衡量準則的結構擾動型攻擊算法等。
本文介紹了對抗攻擊及對抗樣本生成的基本概念和分類,對各類對抗樣本生成方法中典型的對抗樣本模型進行分析和總結后發(fā)現(xiàn),目前對抗攻擊及對抗樣本的生成技術正處于發(fā)展階段,尚未成熟,還有很大的發(fā)展?jié)摿?。未來針對對抗攻擊及對抗樣本生成技術的研究除了需要技術深度上進一步開展之外,在技術橫向應用方面也有待進一步拓展,比如面向目標分割、邊緣提取和目標跟蹤等方面的對抗攻擊及樣本生成方法的研究均有待進一步探索。