樊佳璇(清華大學(xué))
清華有個(gè)鼎鼎大名的“姚班”,全稱(chēng)“清華學(xué)堂計(jì)算機(jī)科學(xué)實(shí)驗(yàn)班”,由“圖靈獎(jiǎng)”唯一華人得主姚期智先生到清華大學(xué)任全職教授后創(chuàng)辦,致力于培養(yǎng)領(lǐng)跑?chē)?guó)際拔尖創(chuàng)新計(jì)算機(jī)科學(xué)人才。清華大學(xué)“姚班”2021屆本科畢業(yè)生盧睿的畢業(yè)論文《對(duì)抗樣本攻防與基于傅里葉變換的后門(mén)攻擊》,其中最重要的發(fā)現(xiàn)在于,提出了一種更加簡(jiǎn)單地對(duì)神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別能力進(jìn)行攻擊的方式。
要理解這項(xiàng)看上去十分“高深莫測(cè)”的研究?jī)?nèi)容,首先要從了解什么是神經(jīng)網(wǎng)絡(luò)開(kāi)始。神經(jīng)網(wǎng)絡(luò)通過(guò)組合基本的線性運(yùn)算和非線性激活模塊,在某個(gè)給定架構(gòu)下,通過(guò)收集的數(shù)據(jù)不斷優(yōu)化其中的參數(shù),最終使得整個(gè)神經(jīng)網(wǎng)絡(luò)所代表的函數(shù)得以實(shí)現(xiàn)復(fù)雜的功能。
盧睿將神經(jīng)網(wǎng)絡(luò)比作一類(lèi)函數(shù),將需要進(jìn)行識(shí)別的內(nèi)容輸入進(jìn)去,經(jīng)過(guò)函數(shù)模型的運(yùn)算,就能輸出識(shí)別的結(jié)果,而函數(shù)內(nèi)有許多不同的參數(shù),通過(guò)調(diào)整其中的參數(shù)能夠使神經(jīng)網(wǎng)絡(luò)有不同的表現(xiàn),實(shí)現(xiàn)某些特定功能。人們訓(xùn)練它的過(guò)程,本質(zhì)上就是在不斷尋找更合適的參數(shù)的過(guò)程。換句話說(shuō),神經(jīng)網(wǎng)絡(luò)就像是一個(gè)快遞分揀機(jī)器人,它通過(guò)掃描包裹上的快遞單獲取信息,進(jìn)行運(yùn)算處理后自動(dòng)將包裹分成不同的類(lèi)別,以發(fā)往各自的目的地,對(duì)于正在進(jìn)行圖像識(shí)別的神經(jīng)網(wǎng)絡(luò)而言,它要分揀的包裹就是輸入的圖片。當(dāng)然,神經(jīng)網(wǎng)絡(luò)的功能遠(yuǎn)不止給圖片分類(lèi)這么簡(jiǎn)單,還能通過(guò)訓(xùn)練,實(shí)現(xiàn)各種各樣的復(fù)雜功能,因而在圖像識(shí)別、人臉識(shí)別、自動(dòng)駕駛等領(lǐng)域有著廣泛的應(yīng)用。
但前途一片光明的神經(jīng)網(wǎng)絡(luò),同時(shí)存在著不可忽視的問(wèn)題。要訓(xùn)練出一個(gè)“好用”的神經(jīng)網(wǎng)絡(luò),首先需要收集大量的數(shù)據(jù)供它學(xué)習(xí),然后進(jìn)行反復(fù)訓(xùn)練調(diào)整參數(shù),最終才能實(shí)現(xiàn)特定功能投入應(yīng)用,但人類(lèi)目前的技術(shù)能力只達(dá)到了“調(diào)試并且使用機(jī)器”的水平,并不完全清楚它的內(nèi)在工作原理。已經(jīng)有許多研究發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)在某些方面十分脆弱,只需要對(duì)圖片進(jìn)行像素級(jí)別的微小調(diào)整,這種調(diào)整甚至是人眼無(wú)法發(fā)現(xiàn)的,就能使神經(jīng)網(wǎng)絡(luò)原本準(zhǔn)確的判斷結(jié)果產(chǎn)生巨大偏差,甚至可以通過(guò)算法,根據(jù)預(yù)期的識(shí)別結(jié)果對(duì)圖片進(jìn)行精準(zhǔn)修改,定向改變神經(jīng)網(wǎng)絡(luò)的識(shí)別結(jié)果,實(shí)現(xiàn)AI版“指鹿為馬”。
想要在不被人眼發(fā)現(xiàn)的同時(shí)騙過(guò)神經(jīng)網(wǎng)絡(luò),原本是一件十分困難的事,不僅需要拿到原始模型的整體參數(shù),還要進(jìn)行一些復(fù)雜的計(jì)算,才能找到針對(duì)特定圖片進(jìn)行像素變化的方式。而盧睿大大簡(jiǎn)化了這個(gè)攻擊過(guò)程,通過(guò)直接在訓(xùn)練數(shù)據(jù)里摻雜一些人眼不可見(jiàn)的“噪聲”,神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)學(xué)習(xí),就會(huì)在完全不影響正常識(shí)別的前提下,非常穩(wěn)定地將添加了擾動(dòng)“噪聲”的圖片,識(shí)別成一個(gè)特定的類(lèi)別。這就像是給武俠小說(shuō)中縱橫江湖的高手下了一種無(wú)色無(wú)味的毒,只要對(duì)應(yīng)的毒出現(xiàn),就會(huì)誘發(fā)他體內(nèi)潛藏的毒素,即使是武功蓋世的大俠也會(huì)暈頭轉(zhuǎn)向,失去理智。
觀察文中兩張貓咪圖片,你能找出它們之間的區(qū)別嗎?這兩張?jiān)谌搜劭磥?lái)一模一樣的貓咪,在AI的眼中卻是天差地別。盧睿在圖片a的基礎(chǔ)上進(jìn)行了像素級(jí)別的微不可見(jiàn)的調(diào)整,得到添加了“噪聲”的圖片b,并將它們輸入到被提前“做過(guò)手腳”的神經(jīng)網(wǎng)絡(luò)中進(jìn)行識(shí)別,神經(jīng)網(wǎng)絡(luò)“十分自信”地輸出了識(shí)別結(jié)果,認(rèn)為圖片a是一只貓,而圖片b是一只狗。
對(duì)于盧睿而言,想要讓神經(jīng)網(wǎng)絡(luò)“貓狗不分”,既不需要知道具體的神經(jīng)網(wǎng)絡(luò)模型,也不需要進(jìn)行復(fù)雜的算法操作,只需要在上游收集數(shù)據(jù)的過(guò)程中進(jìn)行“投毒”,也就是往訓(xùn)練神經(jīng)網(wǎng)絡(luò)所使用的數(shù)據(jù)中植入不可察覺(jué)的“噪聲”,就可以在模型訓(xùn)練好之后,打開(kāi)一扇后門(mén),甚至通過(guò)這扇隱蔽的后門(mén)操控整個(gè)模型。盧睿在后續(xù)實(shí)驗(yàn)中進(jìn)一步發(fā)現(xiàn),一種波紋狀的傅里葉變化的基底是最為有效的“噪聲”模式。
盧睿的畢業(yè)設(shè)計(jì)可謂是一波三折,最開(kāi)始他的研究題目是《如何防御針對(duì)神經(jīng)網(wǎng)絡(luò)的攻擊》,但嘗試了許多次后都沒(méi)有找到一條十分奏效的途徑,時(shí)間也在一次次的失敗中溜走,轉(zhuǎn)眼就到了畢業(yè)設(shè)計(jì)的中期檢查。在一次和導(dǎo)師的溝通中,導(dǎo)師建議他,如果設(shè)計(jì)不了盾,那就試試矛吧,看看怎么樣能攻擊得更狠。于是,盧睿轉(zhuǎn)而開(kāi)始研究更隱蔽的攻擊方式。
盧睿發(fā)現(xiàn),現(xiàn)有的后門(mén)攻擊方式十分粗糙,首先需要對(duì)訓(xùn)練數(shù)據(jù)公然標(biāo)錯(cuò),然后在公然標(biāo)錯(cuò)的圖片上,摻雜進(jìn)一個(gè)非常明顯的標(biāo)志來(lái)開(kāi)啟后門(mén),訓(xùn)練者只需要對(duì)訓(xùn)練的數(shù)據(jù)集稍作檢查,就能發(fā)現(xiàn)這種對(duì)數(shù)據(jù)投毒的攻擊行為。盧睿試圖尋找一種讓數(shù)據(jù)投毒變得更為隱蔽的攻擊方式,努力實(shí)現(xiàn)在不對(duì)訓(xùn)練數(shù)據(jù)故意標(biāo)錯(cuò)的同時(shí),摻雜進(jìn)用于開(kāi)啟后門(mén)的鑰匙。
有了初步的思路之后,盧睿開(kāi)始尋找相應(yīng)的實(shí)現(xiàn)路徑。他了解到在圖片、視頻等內(nèi)容的知識(shí)產(chǎn)權(quán)保護(hù)領(lǐng)域,已經(jīng)有一項(xiàng)較為成熟的“盲水印”技術(shù),恰恰就是在圖片中添加一些人眼不可察覺(jué)的微小“噪聲”,這些水印既不會(huì)影響內(nèi)容本身的視覺(jué)效果,又可以非常穩(wěn)定地還原出使用者的身份信息。盧睿從“盲水印”中受到啟發(fā),他提出疑問(wèn),這些信息是否能夠被神經(jīng)網(wǎng)絡(luò)捕捉到,從而成為神經(jīng)網(wǎng)絡(luò)分類(lèi)圖片的重要依據(jù)?
1.無(wú)波貓咪圖片a2.有波貓咪圖片b
為了驗(yàn)證這個(gè)想法,盧睿做了一個(gè)簡(jiǎn)單的探測(cè)實(shí)驗(yàn),他把每一張圖片復(fù)制兩份,在其中一份圖片上摻雜“盲水印”,讓神經(jīng)網(wǎng)絡(luò)從兩張人眼看起來(lái)完全相同的圖片中,分辨出哪張是有水印的。實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)識(shí)別出水印的成功率高達(dá)99.7%,這證明了神經(jīng)網(wǎng)絡(luò)確實(shí)能夠識(shí)別“盲水印”,而且非常依賴(lài)這些微不可見(jiàn)的水印進(jìn)行分類(lèi)決策。
在發(fā)現(xiàn)神經(jīng)網(wǎng)絡(luò)對(duì)這種特性的圖樣非常敏感之后,后面的研究變得順利起來(lái)。盧睿試驗(yàn)了各種各樣不同的“噪聲”模式,也嘗試了不同的投毒比例,對(duì)新發(fā)現(xiàn)的“后門(mén)”進(jìn)行系統(tǒng)研究后發(fā)現(xiàn),神經(jīng)網(wǎng)絡(luò)對(duì)于條紋形狀的波動(dòng)特別敏感,同時(shí),由于它“非常喜歡走捷徑”的特性,只要對(duì)5%的訓(xùn)練數(shù)據(jù)摻雜“噪聲”波紋,就足夠使神經(jīng)網(wǎng)絡(luò)找到數(shù)據(jù)的規(guī)律特征,開(kāi)啟特定“后門(mén)”。
關(guān)于整個(gè)畢業(yè)設(shè)計(jì)期間最難忘的時(shí)刻,盧睿再次提到了讓神經(jīng)網(wǎng)絡(luò)識(shí)別圖片水印的探測(cè)實(shí)驗(yàn)。他說(shuō)訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過(guò)程“非常有戲劇性”,如果用曲線描繪模型的準(zhǔn)確率,最開(kāi)始的半個(gè)小時(shí),仿佛一張“心如死灰”的心電圖,準(zhǔn)確率始終在50%往前直著跑,換言之,模型已經(jīng)把幾萬(wàn)張圖片翻來(lái)覆去地看了27遍,但始終沒(méi)能認(rèn)出來(lái)哪張是有水印的。就在他快要放棄的時(shí)候,準(zhǔn)確率突然在第二十八輪開(kāi)始飆升,在一輪之內(nèi)暴漲到了99%,意味著神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)了隱形水印的規(guī)律,盧睿整個(gè)人“激動(dòng)得要命”,他又檢查了好幾天,確認(rèn)沒(méi)有任何bug,然后再展開(kāi)之后的實(shí)驗(yàn),從此整個(gè)畢業(yè)設(shè)計(jì)局面就打開(kāi)了。
盧睿說(shuō),他的畢業(yè)設(shè)計(jì)提示了當(dāng)前廣泛應(yīng)用的神經(jīng)網(wǎng)絡(luò)模型的潛在風(fēng)險(xiǎn),也為揭示神經(jīng)網(wǎng)絡(luò)的運(yùn)行原理提供了一個(gè)切口。
本科畢業(yè)后,盧睿選擇繼續(xù)在清華攻讀他的博士學(xué)位,發(fā)揮數(shù)學(xué)優(yōu)勢(shì),進(jìn)行深度學(xué)習(xí)理論方向的研究。當(dāng)直博一年級(jí)的盧睿再次回顧本科畢設(shè)的經(jīng)歷,他發(fā)現(xiàn)科研的過(guò)程就是在發(fā)現(xiàn)新靈感、嘗試、失敗的過(guò)程中反復(fù)循環(huán),怎么都得不到理想結(jié)果的時(shí)候挺難受的,但是“這種難受的感覺(jué)才是科研的常態(tài)”。
責(zé)任編輯:丁莉莎