国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能系統(tǒng)安全與隱私風(fēng)險(xiǎn)

2019-10-21 05:44陳宇飛紀(jì)守領(lǐng)管曉宏
計(jì)算機(jī)研究與發(fā)展 2019年10期
關(guān)鍵詞:攻擊者樣本人工智能

陳宇飛 沈 超 王 騫 李 琦 王 聰 紀(jì)守領(lǐng) 李 康 管曉宏

1(智能網(wǎng)絡(luò)與網(wǎng)絡(luò)安全教育部重點(diǎn)實(shí)驗(yàn)室(西安交通大學(xué)) 西安 710049) 2(西安交通大學(xué)電子與信息學(xué)部 西安 710049) 3(武漢大學(xué)網(wǎng)絡(luò)安全學(xué)院 武漢 430072) 4(清華大學(xué)網(wǎng)絡(luò)科學(xué)與網(wǎng)絡(luò)空間研究院 北京 100084) 5(香港城市大學(xué)計(jì)算機(jī)科學(xué)系 香港 999077) 6(浙江大學(xué)網(wǎng)絡(luò)空間安全研究中心 杭州 310027) 7(浙江大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 杭州 310027) 8(喬治亞大學(xué)計(jì)算機(jī)科學(xué)系 喬治亞州雅典市 30602)

近年來人工智能技術(shù),尤其是深度學(xué)習(xí)理論方法,取得了重大突破.在計(jì)算機(jī)視覺[1]、語音識(shí)別[2-3]、自然語言處理[4]、棋牌博弈[5]等多類任務(wù)上,人工智能技術(shù)的判斷準(zhǔn)確水平和決策能力已經(jīng)追平甚至超越人類.人工智能技術(shù)已經(jīng)“走出實(shí)驗(yàn)室,跨入工業(yè)界”[6],迅速觸及到人類生產(chǎn)和生活的方方面面.與此同時(shí),人工智能技術(shù)開發(fā)日趨大眾化.Caffe[7],Tensorflow[8],Torch[9],MXNet[10],PaddlePaddle[11]等開源深度學(xué)習(xí)框架提供了豐富的高級(jí)模塊化函數(shù)支持,大大降低了應(yīng)用的開發(fā)難度;騰訊[12]、阿里云[13]、百度[14]、谷歌[15]、微軟[16]、亞馬遜[17]、IBM[18]等廠商也都提供了人工智能服務(wù),涵蓋圖像識(shí)別、語音識(shí)別、自動(dòng)機(jī)器學(xué)習(xí)等多個(gè)方面.通過調(diào)用API接口,開發(fā)者可以實(shí)現(xiàn)高性能的人工智能應(yīng)用.得益于理論與工具的發(fā)展,人工智能系統(tǒng)正大范圍地部署.

然而,隨著各類人工智能應(yīng)用的出現(xiàn)和發(fā)展,其中的安全隱患也逐漸暴露出來.2018年3月發(fā)生在美國亞利桑那州的優(yōu)步無人車事故中,事發(fā)時(shí)處于自動(dòng)駕駛模式的無人車并沒有檢測(cè)到前方行人,駕駛員也未及時(shí)進(jìn)行干預(yù),最終致使行人被撞身亡[19].微軟于2016年上線的社交機(jī)器人Tay,在一天之內(nèi)受到用戶的不良誘導(dǎo)逐漸學(xué)習(xí)成為一位種族主義者,迫使微軟將該機(jī)器人緊急下線[20].在包括自動(dòng)駕駛[21-22]、惡意軟件檢測(cè)[23]、視頻安防[24]等在內(nèi)的安全敏感領(lǐng)域,需對(duì)人工智能系統(tǒng)安全性和穩(wěn)定性提出更高的要求.除了安全問題之外,隱私問題同樣也受到人工智能服務(wù)提供商和用戶的關(guān)注.由于機(jī)器模型的訓(xùn)練需要依賴大量的訓(xùn)練數(shù)據(jù)和計(jì)算資源,模型隱私與知識(shí)產(chǎn)權(quán)保護(hù)成為服務(wù)提供商最為關(guān)心的問題之一.而對(duì)用戶而言,他們則更關(guān)注其個(gè)人信息作為訓(xùn)練數(shù)據(jù)是否會(huì)被泄露,如何才能確保個(gè)人敏感信息不被第三方竊取.

目前,人工智能系統(tǒng)與人類生產(chǎn)生活關(guān)系日益緊密,其安全問題越來越受到社會(huì)重視.國務(wù)院于2017年發(fā)布的《新一代人工智能發(fā)展規(guī)劃》中明確指出:“在大力發(fā)展人工智能的同時(shí),必須高度重視可能帶來的安全風(fēng)險(xiǎn)挑戰(zhàn),加強(qiáng)前瞻預(yù)防與約束引導(dǎo),最大限度降低風(fēng)險(xiǎn),確保人工智能安全、可靠、可控發(fā)展”[25].遺憾的是,以往的人工智能理論大多基于一種“好人假設(shè)”,較少考慮到在開放甚至是對(duì)抗環(huán)境下的機(jī)器學(xué)習(xí)安全與隱私問題.

從上述問題出發(fā),本文結(jié)合當(dāng)前人工智能系統(tǒng)安全領(lǐng)域的相關(guān)研究工作,系統(tǒng)地分析和歸納了人工智能系統(tǒng)中可能存在的安全與隱私風(fēng)險(xiǎn)及現(xiàn)有的應(yīng)對(duì)方法,并對(duì)未來的發(fā)展趨勢(shì)進(jìn)行了展望,以期引起相關(guān)研究者的關(guān)注并提供指導(dǎo).

1 人工智能系統(tǒng)安全風(fēng)險(xiǎn)模型

對(duì)于系統(tǒng)進(jìn)行安全風(fēng)險(xiǎn)分析,首先需要建立安全風(fēng)險(xiǎn)模型.對(duì)此,本節(jié)首先對(duì)人工智能系統(tǒng)中潛在的攻擊面進(jìn)行簡要分析,并從攻擊能力和攻擊目標(biāo)2個(gè)角度建立攻擊者模型.

1.1 人工智能系統(tǒng)攻擊面

人工智能系統(tǒng)的應(yīng)用場(chǎng)合和作用功能多樣,例如無人駕駛、聲音識(shí)別、機(jī)器翻譯等,核心部分主要包括數(shù)據(jù)和模型.如圖1所示,根據(jù)數(shù)據(jù)流向,人工智能系統(tǒng)主要包含了4個(gè)關(guān)鍵環(huán)節(jié)[26]:

1) 輸入環(huán)節(jié).人工智能系統(tǒng)通過傳感器(攝像頭、麥克風(fēng)、激光雷達(dá)、GPS等)獲取外部環(huán)境數(shù)據(jù),或者通過直接讀取文件獲取數(shù)據(jù).

2) 數(shù)據(jù)預(yù)處理環(huán)節(jié).輸入的原始數(shù)據(jù)需要經(jīng)過格式轉(zhuǎn)換、尺度變換、數(shù)據(jù)壓縮等預(yù)處理工作,以滿足機(jī)器學(xué)習(xí)模型輸入格式要求,同時(shí)降低數(shù)據(jù)量以保證系統(tǒng)工作的實(shí)時(shí)性.

3) 機(jī)器學(xué)習(xí)模型.機(jī)器學(xué)習(xí)模型是人工智能系統(tǒng)的核心,即“大腦”,主要包括訓(xùn)練和測(cè)試2個(gè)階段.在訓(xùn)練階段,機(jī)器學(xué)習(xí)模型利用預(yù)處理過的訓(xùn)練數(shù)據(jù)對(duì)模型參數(shù)進(jìn)行調(diào)節(jié),以提升對(duì)于特定任務(wù)的工作性能(通常用準(zhǔn)確率、召回率等指標(biāo)衡量).對(duì)于強(qiáng)化學(xué)習(xí)(reinforcement learning),還存在模型與環(huán)境的動(dòng)態(tài)交互過程.當(dāng)訓(xùn)練完成時(shí),機(jī)器學(xué)習(xí)模型就進(jìn)入了測(cè)試階段.訓(xùn)練好的模型將根據(jù)輸入提供相應(yīng)的輸出結(jié)果.

4) 輸出環(huán)節(jié).人工智能系統(tǒng)會(huì)以標(biāo)簽、置信度等多種形式給予輸出,為后續(xù)的分類、決策等任務(wù)提供支持.

由于人工智能系統(tǒng)所處環(huán)境的開放性,輸入、輸出2個(gè)環(huán)節(jié)會(huì)直接暴露在攻擊威脅環(huán)境中.在后續(xù)的介紹中將會(huì)看到,即使在預(yù)處理環(huán)節(jié)或機(jī)器學(xué)習(xí)模型被隱藏的情況下,攻擊者仍然可以通過發(fā)送輪詢樣本的方式對(duì)系統(tǒng)內(nèi)部結(jié)構(gòu)進(jìn)行推測(cè)并發(fā)動(dòng)攻擊.

Fig. 1 The basic framework of artificial intelligence systems圖1 人工智能系統(tǒng)基本框架[26]

1.2 攻擊能力

在攻擊者的攻擊能力模型中,一般需要考慮2個(gè)要素:攻擊者掌握的情報(bào)以及攻擊者能夠采取的攻擊手段.

1) 依據(jù)攻擊者掌握的情報(bào),攻擊可以分為:

① 白盒攻擊(white-box attack).攻擊者了解目標(biāo)系統(tǒng)的詳細(xì)信息,如數(shù)據(jù)預(yù)處理方法、模型結(jié)構(gòu)、模型參數(shù),某些情況下攻擊者還能夠掌握部分或全部的訓(xùn)練數(shù)據(jù)信息.在白盒攻擊模型中,攻擊者能夠更容易地發(fā)現(xiàn)可攻擊環(huán)節(jié)并設(shè)計(jì)相應(yīng)的攻擊策略.

② 黑盒攻擊(black-box attack).系統(tǒng)對(duì)于攻擊者而言并不透明,關(guān)鍵細(xì)節(jié)都被隱藏,攻擊者僅能夠接觸輸入和輸出環(huán)節(jié).在黑盒攻擊模型中,攻擊者可以通過構(gòu)造并發(fā)送輸入樣本,并根據(jù)相應(yīng)的輸出信息來對(duì)系統(tǒng)的某些特性進(jìn)行推理.

2) 依據(jù)攻擊者能夠采取的干擾手段,攻擊被分為:

① 訓(xùn)練階段攻擊(attack in the training stage).攻擊者可以干擾系統(tǒng)的訓(xùn)練階段,主要方式包括對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行修改以及對(duì)環(huán)境施加影響(強(qiáng)化學(xué)習(xí)).

② 推斷階段攻擊(attack in the inference stage).攻擊者僅能接觸到訓(xùn)練完成之后的系統(tǒng).該假設(shè)在真實(shí)場(chǎng)景中更為多見.

1.3 攻擊目標(biāo)

攻擊目標(biāo)是指攻擊者希望借助攻擊所能達(dá)到的攻擊效果.根據(jù)信息安全的CIA三要素,針對(duì)人工智能系統(tǒng)的攻擊目標(biāo)主要可以分為3類:

1) 保密性(confidentiality)攻擊.攻擊者期望從人工智能系統(tǒng)中盜取訓(xùn)練數(shù)據(jù)、模型參數(shù)等保密信息,破壞數(shù)據(jù)和模型隱私.

2) 完整性(integrity)攻擊.攻擊者期望能夠影響系統(tǒng)輸出,使其偏離預(yù)期.例如通過欺騙、篡改等攻擊手段使得系統(tǒng)錯(cuò)誤地接受假類樣本,即錯(cuò)誤接受(false acceptance).

3) 可用性(availability)攻擊.攻擊者期望降低系統(tǒng)的工作性能(如準(zhǔn)確率)或者服務(wù)質(zhì)量(如響應(yīng)速度),甚至導(dǎo)致系統(tǒng)拒絕服務(wù).

而根據(jù)攻擊者的攻擊效果,攻擊目標(biāo)又被劃分為

1) 目標(biāo)攻擊(targeted attack).攻擊者限定攻擊范圍和攻擊效果,如誘導(dǎo)機(jī)器學(xué)習(xí)模型誤分類到特定結(jié)果;

本文將基于所建立的安全風(fēng)險(xiǎn)模型來審視人工智能系統(tǒng)在輸入環(huán)節(jié)、數(shù)據(jù)預(yù)處理環(huán)節(jié)、機(jī)器學(xué)習(xí)模型以及輸出環(huán)節(jié)4個(gè)核心模塊,以及系統(tǒng)實(shí)現(xiàn)與運(yùn)行中所面臨的安全風(fēng)險(xiǎn),并結(jié)合相關(guān)研究工作進(jìn)行闡述和討論.

2 輸入環(huán)節(jié)安全風(fēng)險(xiǎn)及對(duì)策

人工智能系統(tǒng)依靠傳感器(如攝像頭、麥克風(fēng)等)或數(shù)據(jù)文件輸入(文件上傳)獲取信息,并通過數(shù)據(jù)預(yù)處理環(huán)節(jié),依據(jù)模型輸入要求將采集到的原始數(shù)據(jù)進(jìn)行格式、大小等屬性的調(diào)整.一旦攻擊者借助某種方式對(duì)輸入環(huán)節(jié)進(jìn)行了干擾,就能夠從源頭上對(duì)系統(tǒng)發(fā)動(dòng)攻擊.傳感器欺騙攻擊即為一種典型的針對(duì)輸入環(huán)節(jié)的缺陷利用.

1) 傳感器欺騙.傳感器欺騙是指攻擊者針對(duì)傳感器的工作特性,惡意構(gòu)造相應(yīng)的攻擊樣本并輸送至傳感器,造成人類和傳感器對(duì)數(shù)據(jù)的感知差異,從而達(dá)成欺騙效果.該問題被認(rèn)為是對(duì)配備有傳感器的設(shè)備的最關(guān)鍵威脅之一,受到研究者的廣泛關(guān)注.Shin等人調(diào)查并將傳感器欺騙攻擊[27]分為3類:常規(guī)信道攻擊(重放攻擊)、傳輸信道攻擊和側(cè)信道攻擊.傳感器欺騙一個(gè)典型的例子是“無聲”語音命令攻擊.該類攻擊借助人類聽覺系統(tǒng)難以察覺的聲音信號(hào)對(duì)語音識(shí)別系統(tǒng)開展攻擊[28-29].對(duì)現(xiàn)代電子設(shè)備中普遍使用的非線性麥克風(fēng)硬件而言,其可錄制范圍上限為24 kHz,超越了人類對(duì)20 kHz可識(shí)別聲音頻率的上限.攻擊者可以在麥克風(fēng)超出人類聽覺的接收頻率范圍內(nèi)發(fā)送聲音信號(hào),從而使得設(shè)備能夠感知而不被聽眾察覺.由于其不可聞性,該類攻擊方法攻擊效果更強(qiáng).Zhang等人提出的“海豚音攻擊” 通過生成超聲頻段的語音控制信號(hào)實(shí)現(xiàn)了對(duì)語音系統(tǒng)的“無聲”控制[28].Dean等人證明[30-31],當(dāng)聲頻成分接近陀螺儀傳感質(zhì)量的共振頻率時(shí),MEMS陀螺儀容易受到高功率高頻聲噪聲的影響.攻擊者可以借此干擾無人機(jī)等智能設(shè)備的環(huán)境感知能力,致使設(shè)備癱瘓.但是上述攻擊假設(shè)攻擊源可以在物理上靠近目標(biāo)設(shè)備,難以實(shí)現(xiàn)遠(yuǎn)程攻擊.

2) 應(yīng)對(duì)措施.對(duì)于傳感器欺騙攻擊,可以采取傳感器增強(qiáng)(忽略相應(yīng)的攻擊頻段)、輸入濾波等措施[28]來檢測(cè)破壞惡意構(gòu)造的攻擊信息,實(shí)現(xiàn)對(duì)系統(tǒng)輸入環(huán)節(jié)的安全增強(qiáng).

3 數(shù)據(jù)預(yù)處理環(huán)節(jié)安全風(fēng)險(xiǎn)及對(duì)策

信息預(yù)處理環(huán)節(jié)是信息處理系統(tǒng)中的必備環(huán)節(jié),其作用是將輸入數(shù)據(jù)轉(zhuǎn)換為后續(xù)模型輸入所要求的特定形式.最近的研究表明,在數(shù)據(jù)的轉(zhuǎn)換過程中也存在安全風(fēng)險(xiǎn).

1) 重采樣攻擊.信息預(yù)處理環(huán)節(jié)的作用通常是為了將輸入數(shù)據(jù)轉(zhuǎn)換為模型輸入要求的特定形式.數(shù)據(jù)重采樣就是一種常見的數(shù)據(jù)預(yù)處理操作,其目的為:一是改變數(shù)據(jù)信息格式以滿足輸入要求,如當(dāng)前主流視覺深度學(xué)習(xí)模型輸入大小固定,需要對(duì)輸入圖片進(jìn)行縮放操作;二是信息壓縮,提升信息系統(tǒng)處理效率.這一過程會(huì)造成數(shù)據(jù)信息發(fā)生變化,成為一個(gè)潛在的攻擊面.Xiao等人提出了針對(duì)圖像預(yù)處理環(huán)節(jié)的欺騙攻擊[32],該方法是一種針對(duì)插值算法的逆向攻擊方法,當(dāng)攻擊圖片被圖像識(shí)別系統(tǒng)縮放后,被隱藏圖片得以顯現(xiàn).與經(jīng)典的對(duì)抗樣本攻擊方法不同,該方法針對(duì)的是圖像預(yù)處理環(huán)節(jié),理論上與圖像識(shí)別模型無關(guān),并且該方法可以實(shí)現(xiàn)源-目標(biāo)攻擊(source-to-target attack).此外,該工作還顯示,即使識(shí)別系統(tǒng)部署在云端,攻擊者仍然可以通過輪詢的方式對(duì)重采樣過程進(jìn)行推測(cè)和還原,進(jìn)而發(fā)動(dòng)重采樣攻擊.

2) 應(yīng)對(duì)措施.針對(duì)重采樣攻擊,可以采取對(duì)輸入預(yù)處理引入隨機(jī)化或者重采樣質(zhì)量監(jiān)測(cè)方法來增大攻擊難度[32].

4 機(jī)器學(xué)習(xí)模型中的安全風(fēng)險(xiǎn)及對(duì)策

機(jī)器學(xué)習(xí)模型是人工智能系統(tǒng)進(jìn)行感知和決策的核心部分,其應(yīng)用過程主要包含訓(xùn)練和預(yù)測(cè)2個(gè)重要階段.關(guān)于機(jī)器學(xué)習(xí)模型的安全問題,Dalvi等人于2004年最早提出了對(duì)抗分類(adversarial classification)的概念[33],Lowd等人于2005年進(jìn)一步提出了對(duì)抗學(xué)習(xí)(adversarial learning)的概念[34].Huang等人則對(duì)抗機(jī)器學(xué)習(xí)提出了更為具體和系統(tǒng)的分類方式[35].目前,機(jī)器學(xué)習(xí)模型安全問題可以主要分為3類:

1) 誘導(dǎo)攻擊(causative attack).攻擊者借助向訓(xùn)練數(shù)據(jù)加入毒化數(shù)據(jù)等手段,影響模型訓(xùn)練過程,進(jìn)而干擾模型的工作效果.

2) 逃逸攻擊(evasion attack).攻擊者在正常樣本基礎(chǔ)上人為地構(gòu)造異常輸入樣本,致使模型在分類或決策時(shí)出現(xiàn)錯(cuò)誤,達(dá)到規(guī)避檢測(cè)的攻擊效果.

3) 探索攻擊(exploratory attack).攻擊者試圖推斷機(jī)器學(xué)習(xí)模型是如何工作的,包括對(duì)模型邊界的預(yù)測(cè)、訓(xùn)練數(shù)據(jù)的推測(cè)等.

從保密性角度考慮,一般人工智能系統(tǒng)需要考慮2個(gè)要素——數(shù)據(jù)與模型.人工智能服務(wù)提供商需要投入資金和時(shí)間收集數(shù)據(jù),設(shè)計(jì)、訓(xùn)練和改進(jìn)模型,同時(shí)需要對(duì)用戶負(fù)責(zé),保證數(shù)據(jù)不被泄露.然而,已有研究證明存在模型逆向攻擊(model inversion attack)——可以根據(jù)系統(tǒng)輸出推測(cè)輸入特征,還原敏感信息[36-37],以及模型萃取攻擊(model extraction attack)——通過發(fā)送輪詢數(shù)據(jù)推測(cè)模型參數(shù)并嘗試還原出功能相近的替身模型(substitution model)[38],二者會(huì)分別侵犯數(shù)據(jù)隱私和模型隱私.

4.1 數(shù)據(jù)投毒

數(shù)據(jù)投毒是指攻擊者通過修改訓(xùn)練數(shù)據(jù)內(nèi)容和分布,來影響模型的訓(xùn)練結(jié)果.例如Yang等人展示了攻擊者通過對(duì)推薦系統(tǒng)注入構(gòu)造的虛假關(guān)聯(lián)數(shù)據(jù),污染訓(xùn)練數(shù)據(jù)集,實(shí)現(xiàn)對(duì)推薦系統(tǒng)反饋結(jié)果的人為干預(yù)[39].實(shí)驗(yàn)表明:通過對(duì)共同訪問(co-visitation)推薦系統(tǒng)進(jìn)行數(shù)據(jù)投毒,可以對(duì)YouTube,eBay,Amazon,Yelp,LinkedIn等Web推薦系統(tǒng)功能產(chǎn)生干擾.Munoz-Gonzlez等人提出了基于反向梯度優(yōu)化的攻擊方法,針對(duì)包含深度學(xué)習(xí)模型等在內(nèi)的一系列基于梯度方法訓(xùn)練的模型,都可以實(shí)現(xiàn)數(shù)據(jù)投毒效果[40].

應(yīng)對(duì)措施.針對(duì)投毒攻擊的防御,一般考慮污染數(shù)據(jù)和正常數(shù)據(jù)分布差異,方法主要包括魯棒性機(jī)器學(xué)習(xí)[41]以及數(shù)據(jù)清洗[42].

4.2 模型后門

模型后門(backdoor)是指通過訓(xùn)練得到的、深度神經(jīng)網(wǎng)絡(luò)中的隱藏模式.當(dāng)且僅當(dāng)輸入為觸發(fā)樣本(trigger)時(shí),模型才會(huì)產(chǎn)生特定的隱藏行為;否則,模型工作表現(xiàn)保持正常.Gu等人提出了BadNets,通過數(shù)據(jù)投毒方式來注入后門數(shù)據(jù)集[43].針對(duì)MNIST手寫數(shù)據(jù)集識(shí)別模型網(wǎng)絡(luò),使用BadNets可以達(dá)到99%以上的攻擊成功率,但不會(huì)影響模型在正常手寫樣本上的識(shí)別性能.Liu等人提出了一種針對(duì)神經(jīng)網(wǎng)絡(luò)的特洛伊木馬攻擊[44].相較于Gu等人的工作[43],該方法的一個(gè)優(yōu)點(diǎn)是攻擊者無需直接接觸訓(xùn)練集.該方法另一個(gè)優(yōu)點(diǎn)在于在觸發(fā)樣本和神經(jīng)元之間構(gòu)建了更強(qiáng)的連接,在訓(xùn)練樣本較少的情況下也能夠注入有效后門.然而,該后門構(gòu)造方法基于引起特定最大響應(yīng)值的內(nèi)部神經(jīng)元來設(shè)計(jì)觸發(fā)樣本,無法構(gòu)造任意觸發(fā)樣本.除了觸發(fā)模型的異常行為外,Song等人展示了一種利用模型后門的訓(xùn)練數(shù)據(jù)隱私竊取攻擊方式[45]:依靠類似機(jī)器學(xué)習(xí)中正則化或數(shù)據(jù)增強(qiáng)方法對(duì)機(jī)器學(xué)習(xí)算法進(jìn)行微調(diào),第三方機(jī)器學(xué)習(xí)服務(wù)提供商可以借助用戶數(shù)據(jù)訓(xùn)練出高準(zhǔn)確度和高泛化性能的模型,并使得該模型能夠暴露訓(xùn)練數(shù)據(jù)信息.

針對(duì)模型后門問題,Wang等人提出了相應(yīng)的檢測(cè)和后門還原方案[46],該方法的思想相對(duì)直觀:對(duì)于模型后門相對(duì)應(yīng)的標(biāo)簽,很小的輸入擾動(dòng)會(huì)引起該標(biāo)簽對(duì)應(yīng)置信度明顯的變化.此外,作者還提出了包括輸入過濾、神經(jīng)元裁剪以及去學(xué)習(xí)等后門去除策略.

4.3 對(duì)抗樣本

傳統(tǒng)機(jī)器學(xué)習(xí)模型大多基于一個(gè)穩(wěn)定性假設(shè):訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)近似服從相同分布.當(dāng)罕見樣本甚至是惡意構(gòu)造的非正常樣本輸入到機(jī)器學(xué)習(xí)模型時(shí),就有可能導(dǎo)致機(jī)器學(xué)習(xí)模型輸出異常結(jié)果.一個(gè)典型例子即Szegedy等人在2013年所描述的視覺“對(duì)抗樣本”(adversarial examples)現(xiàn)象:對(duì)輸入圖片構(gòu)造肉眼難以發(fā)現(xiàn)的輕微擾動(dòng),可導(dǎo)致基于深度神經(jīng)網(wǎng)絡(luò)的圖像識(shí)別器輸出錯(cuò)誤的結(jié)果[47].通過構(gòu)造對(duì)抗樣本,攻擊者可以通過干擾人工智能服務(wù)推理過程來達(dá)成逃避檢測(cè)等攻擊效果.

在機(jī)器視覺領(lǐng)域,針對(duì)對(duì)抗樣本的生成方法和對(duì)抗樣本特性已得到較多的研究.根據(jù)攻擊效果分類,對(duì)抗樣本攻擊可以被分類為目標(biāo)攻擊[48]和非目標(biāo)攻擊[49],而根據(jù)攻擊者對(duì)機(jī)器學(xué)習(xí)模型的攻擊能力則可以將攻擊分類為白盒攻擊[50](white-box attack)和黑盒攻擊[51](black-box attack).為了達(dá)到欺騙效果,對(duì)抗樣本的一個(gè)顯著特點(diǎn)是隱蔽性,即對(duì)抗擾動(dòng)難以被人類所察覺,最大限度保持原樣本的語義信息.除了隱蔽性之外,Tramèr等人的工作[52]還揭示了對(duì)抗樣本的另一個(gè)突出特性——可傳遞性(transferability).借助可傳遞性,同一個(gè)對(duì)抗樣本可以同時(shí)作用于多個(gè)模型,這部分解釋了對(duì)抗樣本問題為什么得以廣泛存在.可傳遞性使得對(duì)抗樣本防御工作變得更具挑戰(zhàn)性.針對(duì)目前常見的對(duì)抗樣本生成算法,一些研究人員合作發(fā)布了開源對(duì)抗樣本算法庫CleverHans[53],以推動(dòng)對(duì)抗樣本攻防研究工作的發(fā)展.與此同時(shí),一些研究者探究了物理世界中的對(duì)抗樣本現(xiàn)象:Kurakin等人嘗試了將對(duì)抗樣本進(jìn)行打印[54].針對(duì)Inception-V3模型生成對(duì)抗樣本并利用600像素分辨率的打印機(jī)進(jìn)行打印,打印出的對(duì)抗樣本對(duì)于識(shí)別系統(tǒng)仍然具有欺騙性.然而該方法需要在所打印出的圖片四周配備二維碼以幫助圖像識(shí)別系統(tǒng)對(duì)圖像進(jìn)行定位和裁剪,其結(jié)果并不具有普適性;Athalye等人提出了魯棒性更高的物理對(duì)抗樣本生成技術(shù),利用3D打印技術(shù)制作了物理世界對(duì)抗樣本模型,可以在多個(gè)角度下實(shí)現(xiàn)對(duì)識(shí)別模型的欺騙[55];Sharif等人引入不可打印分?jǐn)?shù)(non-printability score, NPS)到目標(biāo)函數(shù)中,通過優(yōu)化方法計(jì)算擾動(dòng)并打印到眼鏡框上,攻擊者佩戴眼鏡框后可以成功誤導(dǎo)人臉識(shí)別系統(tǒng)[56];Eykholt等人則綜合考慮了相機(jī)角度、干擾形狀、打印效果等物理因素,設(shè)計(jì)了針對(duì)無人駕駛系統(tǒng)的對(duì)抗樣本攻擊方法,通過對(duì)路標(biāo)覆蓋擾動(dòng)標(biāo)記,誘導(dǎo)無人駕駛系統(tǒng)將“停車”標(biāo)志被誤識(shí)別為“限速”標(biāo)志[57].這些例子進(jìn)一步說明了對(duì)抗樣本威脅不僅局限于信息域,對(duì)抗樣本攻擊能夠在物理域產(chǎn)生實(shí)際影響,在一些關(guān)鍵應(yīng)用上可能會(huì)引發(fā)災(zāi)難性后果.

在語音系統(tǒng)方面,Kumar等人開展了針對(duì)語音錯(cuò)誤解釋攻擊的實(shí)證研究[58].此外,Zhang等人展示了一種類似的方法[59]:針對(duì)語音助手的“技能”(skill,即某種功能)調(diào)用方式,攻擊者通過引入具有相似部分覆蓋的發(fā)音名稱或釋義名稱的惡意“技能”,來劫持目標(biāo)“技能”的語音命令.Zhang等人則系統(tǒng)地探究了自然語言處理和意圖分類器(intent classifier)的工作歸因,并創(chuàng)建了第1個(gè)語言模型引導(dǎo)的模糊測(cè)試工具,以發(fā)現(xiàn)現(xiàn)有明顯更易受攻擊的語音應(yīng)用[60].除了利用自然語言理解缺陷的語音系統(tǒng)攻擊,一些研究人員提出了一系列的語音對(duì)抗樣本生成方法,來欺騙語音識(shí)別系統(tǒng).Carlini等人開發(fā)了一種針對(duì)Mozilla DeepSpeech的對(duì)抗音頻生成技術(shù),利用優(yōu)化方法直接對(duì)原始輸入進(jìn)行修改從而對(duì)模型進(jìn)行欺騙[61].Yuan等人提出針對(duì)服務(wù)接口的對(duì)抗語音樣本生成方法,攻擊者將一組命令嵌入到一首歌中,可以有效地控制目標(biāo)系統(tǒng)而不被察覺[62].Vaidya等人提出的方法利用合成和自然聲音之間的差異,制造可以被計(jì)算機(jī)語音識(shí)別系統(tǒng)識(shí)別但人類不易理解的對(duì)抗樣本[63].Carlini等人的工作展示了利用一種迭代方法來構(gòu)造針對(duì)黑盒語音系統(tǒng)的攻擊語音[64].為了獲得更好的結(jié)果,Carlini等人同時(shí)提出了一種針對(duì)白盒模型的改進(jìn)攻擊方法.在攻擊者完全了解語音識(shí)別系統(tǒng)中所使用算法的條件下,這種改進(jìn)后的攻擊可以保證合成的語音命令不被人類所理解.在威脅模型假設(shè)方面,該類攻擊要求將攻擊者的發(fā)言者放置在受害者設(shè)備附近的物理位置(距離超過3.5 m時(shí)會(huì)失效).上述4個(gè)攻擊方法局限于特定的模型和硬件平臺(tái).不同于此,Abdullah等人提出了一種針對(duì)聲音處理環(huán)節(jié)的攻擊方法[65].該文作者提出了4種擾動(dòng)類型,并在包括Google語音API,Bing語音API等7種語音服務(wù)在內(nèi)的12個(gè)語音識(shí)別模型上進(jìn)行了測(cè)試,均成功實(shí)現(xiàn)了有效攻擊,展示了該攻擊影響的廣泛性.

除了視覺系統(tǒng)與語音系統(tǒng)外,文本處理系統(tǒng)也是人工智能技術(shù)的一類典型應(yīng)用,被廣泛應(yīng)用于垃圾郵件檢測(cè)、不良信息過濾、機(jī)器翻譯等任務(wù)上.當(dāng)前研究表明文本處理系統(tǒng)也正受到對(duì)抗樣本的威脅.Papernot等人提出了一種基于梯度的白盒對(duì)抗樣本生成方式[66],該方法迭代地修改輸入文本,直到生成的序列被循環(huán)神經(jīng)網(wǎng)絡(luò)錯(cuò)誤分類,但該攻擊引發(fā)的詞級(jí)變化會(huì)明顯影響文本語義,攻擊容易被察覺;Samanta等人利用嵌入梯度來確定重要單詞[67],并設(shè)計(jì)了啟發(fā)式規(guī)則、人工構(gòu)造的同義詞及筆誤來對(duì)文本進(jìn)行刪除、增加或替換;Ebrahimi等人提出了一種基于梯度的字符級(jí)分類器對(duì)抗樣本構(gòu)造方法,對(duì)one-hot編碼形式的輸入向量進(jìn)行修改[68];Alzantot等人提出了同義詞替換攻擊方法[69],利用遺傳算法生成使用同義詞或近義詞替換的方法,通過對(duì)抗性文本來欺騙語義識(shí)別系統(tǒng); Belinkov等人的研究表明字符級(jí)的機(jī)器翻譯系統(tǒng)對(duì)數(shù)據(jù)噪聲十分敏感,可以借助非詞匯符號(hào)進(jìn)行攻擊[70];同樣地,Gao等人提出一種黑盒文字對(duì)抗樣本攻擊方法,應(yīng)用字符擾動(dòng)來生成針對(duì)深度學(xué)習(xí)分類器的對(duì)抗性文本[71];Hosseini等人的工作展示,通過在字符之間添加空格或點(diǎn)號(hào),就可以徹底改變Google有害信息檢測(cè)服務(wù)的評(píng)分[72];Zhao等人還提出了利用生成對(duì)抗網(wǎng)絡(luò)生成針對(duì)機(jī)器翻譯應(yīng)用程序的對(duì)抗序列[73],然而該方法僅限于短文本.

除了上述研究工作外,還存在針對(duì)其他應(yīng)用類型的對(duì)抗樣本攻擊.Xu等人利用遺傳編程(genetic programming)方法隨機(jī)修改文件,成功攻擊了2個(gè)號(hào)稱準(zhǔn)確率極高的惡意PDF文件分類器:PDFrate和Hidost[74].這些逃避檢測(cè)的惡意文件都由算法自動(dòng)修改生成,并不需要PDF安全專家介入.在惡意代碼檢測(cè)方面,Grosse等人提出了在離散和二進(jìn)制輸入域修改輸入樣本,可以繞過惡意有效代碼檢測(cè)[75].

為了應(yīng)對(duì)對(duì)抗樣本的問題,近年來研究人員提出了一些包括直接對(duì)抗訓(xùn)練[47](adversarial training)——將對(duì)抗樣本及正確標(biāo)簽重新輸入到模型中進(jìn)行重訓(xùn)練,該方法較為簡單但防御未知對(duì)抗樣本能力較差;梯度掩模[76](gradient masking)——針對(duì)基于梯度的對(duì)抗樣本攻擊方式,通過隱藏梯度,令此類攻擊失效;對(duì)抗樣本檢測(cè)[77]——直接檢測(cè)是否存在對(duì)抗樣本的防御方法.此外,Dziugaite等人使用 JPG 圖像壓縮的方法,減少對(duì)抗擾動(dòng)對(duì)準(zhǔn)確率的影響[78].實(shí)驗(yàn)證明該方法對(duì)部分對(duì)抗攻擊算法有效,但通常僅采用壓縮方法是遠(yuǎn)遠(yuǎn)不夠的,并且壓縮圖像時(shí)也會(huì)降低正常分類的準(zhǔn)確率.

雖然對(duì)抗樣本防御方法已經(jīng)得到較多研究,但是當(dāng)前仍然缺少一個(gè)通用有效的防御方案.事實(shí)上,當(dāng)前大多數(shù)的防御評(píng)估方法都是在衡量對(duì)抗攻擊的能力下界[79]:這類評(píng)估所驗(yàn)證的是一個(gè)樣本集合的鄰域內(nèi)的攻擊樣本攻擊效果,僅能發(fā)現(xiàn)當(dāng)前區(qū)域而非所有防御失效點(diǎn).而且這些防御評(píng)估方法都是基于一種非適應(yīng)性攻擊模型,即假設(shè)攻擊者并不知曉防御方法.Carlini等人認(rèn)為考慮非適應(yīng)性攻擊模型是有必要的,但是有很大的局限性[80].相對(duì)應(yīng)地,一種有效的模型魯棒性評(píng)估應(yīng)該基于適應(yīng)性攻擊模型,即假設(shè)攻擊者知曉防御者已采取的防御策略并可以采取反制措施[81-82].例如針對(duì)梯度掩模防御策略,Papernot等人提出了一種通過黑盒輪詢輸入標(biāo)簽的策略來對(duì)梯度進(jìn)行回推[51];Athalye等人則提出了通過改變代價(jià)函數(shù)來進(jìn)行對(duì)抗樣本攻擊[83].從安全評(píng)估結(jié)果的可靠性考慮,需要對(duì)所有已知或未知攻擊(最壞情況)的防御效果得出被測(cè)試模型的魯棒性下界,即模型魯棒性的最低保證.

當(dāng)前一個(gè)發(fā)展方向是對(duì)模型魯棒性進(jìn)行形式化驗(yàn)證.雖然Lecuyer等人的研究成果可以應(yīng)用于對(duì)ImageNet分類器的魯棒性分析[84],但當(dāng)前的模型魯棒性驗(yàn)證方法,如文獻(xiàn)[85-86],還大多只能局限于特定的網(wǎng)絡(luò)模型.文獻(xiàn)[87-88]等工作已經(jīng)開始探索對(duì)任意神經(jīng)網(wǎng)絡(luò)模型魯棒性進(jìn)行形式化驗(yàn)證的可能性,但是由于計(jì)算復(fù)雜度過高,無法應(yīng)用于中大規(guī)模的網(wǎng)絡(luò)模型.此外,魯棒性證明方法的一個(gè)顯著缺點(diǎn)是,該類方法給出了對(duì)于特定集合的鄰域?qū)箻颖敬嬖谛宰C明,但是尚無法對(duì)該集合外的樣本提供理論上的證明和保證[80].

4.4 模型逆向

由于機(jī)器學(xué)習(xí)模型在訓(xùn)練時(shí)會(huì)或多或少地在訓(xùn)練數(shù)據(jù)上發(fā)生過擬合,攻擊者可以根據(jù)訓(xùn)練數(shù)據(jù)與非訓(xùn)練數(shù)據(jù)的擬合差異來窺探訓(xùn)練數(shù)據(jù)隱私.Fredrikson等人以醫(yī)療機(jī)器學(xué)習(xí)中的隱私問題為例闡述了模型逆向攻擊(model inversion attack)[89]:對(duì)某一個(gè)被訓(xùn)練好的機(jī)器學(xué)習(xí)模型,攻擊者利用模型、未知屬性以及模型輸出的相關(guān)相關(guān)性,實(shí)現(xiàn)對(duì)隱私屬性的推測(cè).具體到實(shí)例中,F(xiàn)redrikson等人根據(jù)華法林劑量信息來嘗試對(duì)患者的基因型進(jìn)行推測(cè).此外,F(xiàn)redrikson等人在[36]展示了針對(duì)另外2個(gè)模型進(jìn)行逆向攻擊的例子:借助模型置信度輸出,攻擊者可以估計(jì)生活調(diào)查中的受訪者是否承認(rèn)對(duì)其他重要人物存在欺騙行為;針對(duì)人臉識(shí)別系統(tǒng),攻擊者可以根據(jù)用戶姓名恢復(fù)出對(duì)應(yīng)的可識(shí)別的人臉照片.一些研究證明了另外一類的模型逆向攻擊——成員推理攻擊(membership inference attack),即攻擊者可以推斷某個(gè)特定實(shí)例是否在訓(xùn)練數(shù)據(jù)集中.早在2008年Homer等人就展示了對(duì)基因組數(shù)據(jù)的成員推理攻擊(membership attack)[90].在此基礎(chǔ)上,Shokri等人展示了可以通過訓(xùn)練多個(gè)“影子模型”(shadow models)來模擬被攻擊模型,并利用機(jī)器學(xué)習(xí)模型輸出中暗含的訓(xùn)練數(shù)據(jù)之間的區(qū)分性,來發(fā)動(dòng)成員推理攻擊[37].Salem等人通過實(shí)驗(yàn)證明了通過單個(gè)影子模型開展相同攻擊的可能性[91],即使在攻擊者無法獲取被攻擊模型的訓(xùn)練數(shù)據(jù)情況下,也根據(jù)模型輸出的統(tǒng)計(jì)特征進(jìn)行推測(cè)攻擊.針對(duì)地理位置聚集信息,Pyrgelis等人建立了博弈模型,并將其轉(zhuǎn)化為是否屬于特定集合成員的分類問題,進(jìn)一步實(shí)現(xiàn)了對(duì)于地理位置信息的成員推理攻擊[92].除了判別模型,Hayes等人還提出了白盒和黑盒情況下針對(duì)于生成模型的成員推理攻擊,并在多個(gè)數(shù)據(jù)集上開展了實(shí)證研究[93];Salem等人提出了針對(duì)在線學(xué)習(xí)算法的數(shù)據(jù)重構(gòu)攻擊,對(duì)在線學(xué)習(xí)模型的更新訓(xùn)練數(shù)據(jù)進(jìn)行了推測(cè)和復(fù)原[94].以往大多數(shù)相關(guān)研究工作會(huì)采用一些攻擊者擁有同分布數(shù)據(jù)、影子模型或者目標(biāo)模型結(jié)構(gòu)等假設(shè).對(duì)此Salem等人研究了這些假設(shè)逐步弱化時(shí)的成員推理攻擊情況[91].結(jié)果表明,即使在已知信息很有限的情況下,攻擊者仍然具有進(jìn)行成員推理攻擊的能力.

除此之外,Carlini等人揭露了深度學(xué)習(xí)模型,尤其是生成模型中存在的“意外記憶問題”[95]——模型在對(duì)低頻的敏感訓(xùn)練數(shù)據(jù)(如用戶密碼等)進(jìn)行學(xué)習(xí)的同時(shí),會(huì)傾向于完整地記憶與目標(biāo)任務(wù)無關(guān)的訓(xùn)練數(shù)據(jù)細(xì)節(jié),這就為該類數(shù)據(jù)帶來了泄露風(fēng)險(xiǎn).實(shí)驗(yàn)結(jié)果表明,傳統(tǒng)的過擬合抑制方法很難解決意外記憶問題.對(duì)此,Carlini等人提出了對(duì)應(yīng)的“暴露度”(exposure)指標(biāo)來評(píng)估意外記憶程度,用于輔助開發(fā)者進(jìn)行模型結(jié)構(gòu)和參數(shù)的選擇、調(diào)整.

針對(duì)用戶數(shù)據(jù)保護(hù)問題,研究者提出了多種解決方案.常見的一種方法是利用差分隱私(differential privacy)模型[96]來分析算法所能提供的隱私性保證.Chaudhuri等人證明在訓(xùn)練時(shí)通過向代價(jià)函數(shù),即模型預(yù)測(cè)值與標(biāo)簽的誤差加入指數(shù)分布的噪聲,可以實(shí)現(xiàn)ε-差分隱私[97].Abadi等人提出在梯度被用于參數(shù)更新前對(duì)梯度添加擾動(dòng),可以達(dá)到單一訓(xùn)練方場(chǎng)景下的一種強(qiáng)差分隱私邊界[98].Shokri等人證明對(duì)于類似深度神經(jīng)網(wǎng)絡(luò)的大容量模型,借助引入噪聲參數(shù)的多方計(jì)算,可以保證差分隱私性[99].Gilad-Bachrach等人提出了一種神經(jīng)網(wǎng)絡(luò)模型的加密方法——CryptoNets,該方法使得神經(jīng)網(wǎng)絡(luò)可以被應(yīng)用于加密數(shù)據(jù)[100].CryptoNets允許用戶向云端服務(wù)上傳加密數(shù)據(jù),而無需提供秘鑰,從而保證了用戶數(shù)據(jù)的機(jī)密性.為了保證用戶數(shù)據(jù)隱私,擁有訓(xùn)練數(shù)據(jù)的雙方或者多方可能不被允許直接進(jìn)行訓(xùn)練數(shù)據(jù)的交換和合并,這就造成了“數(shù)據(jù)孤島”問題.對(duì)此,有研究提出利用聯(lián)邦學(xué)習(xí)(federated learning)方法來進(jìn)行多方聯(lián)合學(xué)習(xí)[101].在該模型下,訓(xùn)練數(shù)據(jù)并不會(huì)離開本地.各方建立一個(gè)虛擬共有模型,通過加噪機(jī)制交換參數(shù),對(duì)共有模型進(jìn)行共同訓(xùn)練.

4.5 模型萃取

模型萃取攻擊(model extraction attack)是指攻擊者可以通過發(fā)送輪詢數(shù)據(jù)并查看對(duì)應(yīng)的響應(yīng)結(jié)果,推測(cè)機(jī)器學(xué)習(xí)模型的參數(shù)或功能,復(fù)制一個(gè)功能相似甚至完全相同的機(jī)器學(xué)習(xí)模型.例如理論上講,針對(duì)n維線性回歸模型,通過n組線性不相關(guān)輪詢數(shù)據(jù)及模型輸出可準(zhǔn)確求解出權(quán)重參數(shù)[38].該攻擊可破壞算法機(jī)密性,造成對(duì)知識(shí)產(chǎn)權(quán)的侵犯,并使攻擊者隨后能夠依據(jù)被復(fù)制模型進(jìn)行對(duì)抗樣本攻擊或模型逆向攻擊.Lowd和Meek提出了有效的算法來竊取線性分類器的模型參數(shù)[34].Tramèr等人證明,當(dāng)API為返回置信度分?jǐn)?shù)時(shí),可以更準(zhǔn)確和有效地推測(cè)模型參數(shù)[38].此外,超參數(shù)在機(jī)器學(xué)習(xí)中至關(guān)重要,因?yàn)槌瑓?shù)的差異通常會(huì)導(dǎo)致模型具有顯著不同的性能.根據(jù)機(jī)器學(xué)習(xí)模型最終學(xué)習(xí)到的參數(shù)往往會(huì)最小化代價(jià)函數(shù)這一原則,Wang等人提出了機(jī)器學(xué)習(xí)模型的超參數(shù)推測(cè)方法[102].

對(duì)于模型萃取攻擊,最直接最簡單的防御策略是對(duì)模型參數(shù)[102]或者輸出結(jié)果進(jìn)行近似處理[38].除此之外,為了避免模型被盜用、保護(hù)知識(shí)產(chǎn)權(quán),一些研究者還提出了模型水印(watermarking)的概念.Venugopal等人較早地提出關(guān)于學(xué)習(xí)模型水印技術(shù)的方法[103],但是它側(cè)重于標(biāo)記模型的輸出而非標(biāo)記模型本身.文獻(xiàn)[104-105]提出通過向損失函數(shù)添加新的正則化項(xiàng)來對(duì)神經(jīng)網(wǎng)絡(luò)添加水印的方法.雖然他們的方法保持了模型的高識(shí)別精度,同時(shí)使水印具有一定的抗毀能力,但其并沒有明確解決所有權(quán)的虛假聲明問題,也沒有明確考慮水印生成算法遭泄露后的抗攻擊情況.此外,在文獻(xiàn)[104-105]中,為了避免因密鑰泄露而發(fā)生的水印移除情況,驗(yàn)證密鑰只能使用一次,這帶來了一定的局限性.Merrer等人建議結(jié)合對(duì)抗樣本與對(duì)抗訓(xùn)練方法為神經(jīng)網(wǎng)絡(luò)注入水印[106].他們提出生成2種類型(被模型正確和錯(cuò)誤地分類)的對(duì)抗樣本,然后微調(diào)模型以使其正確地對(duì)所有類型進(jìn)行分類.這種方法在很大程度上依賴于對(duì)抗樣本以及它們?cè)诓煌P椭械目蛇w移性,但目前尚不明確對(duì)抗樣本在什么條件下能夠進(jìn)行跨模型遷移,或者這種遷移性是否會(huì)被削弱[107].Adi等人提出了一種黑盒方式的深度神經(jīng)網(wǎng)絡(luò)水印技術(shù)[108],從理論上分析了該方法與模型后門的聯(lián)系,并通過實(shí)驗(yàn)證明了該方法不影響原模型性能,同時(shí)對(duì)水印的魯棒性進(jìn)行了評(píng)估.

5 輸出環(huán)節(jié)安全風(fēng)險(xiǎn)

模型輸出將會(huì)直接決定人工智能系統(tǒng)的分類和決策.通過對(duì)決策輸出部分的劫持和結(jié)果篡改可以直接實(shí)現(xiàn)對(duì)系統(tǒng)的干擾或控制.另一個(gè)需要注意的問題是,多數(shù)人工智能服務(wù)接口會(huì)反饋豐富的信息,但是豐富準(zhǔn)確的決策輸出值可能會(huì)帶來安全隱患——攻擊者據(jù)此可以開展模型逆向攻擊和模型萃取攻擊,或者利用置信度來迭代式構(gòu)造對(duì)抗樣本.此外,Elsayed等人介紹了一種對(duì)抗性重編程方法(adversarial reprogramming)[109].即使模型的訓(xùn)練目的并非是完成攻擊者所指定的任務(wù),攻擊者通過制造一個(gè)對(duì)抗擾動(dòng)并添加至機(jī)器學(xué)習(xí)模型的所有測(cè)試輸入,可以使模型在處理這些輸入時(shí)執(zhí)行攻擊者選擇的任務(wù).利用該方法,攻擊者只需要付出很小的代價(jià),就可以借助他人訓(xùn)練好的模型資源實(shí)現(xiàn)所需的系統(tǒng)功能.

如4.4節(jié)和4.5節(jié)所述,針對(duì)利用模型輸出置信度進(jìn)行數(shù)據(jù)逆向、模型萃取或模型重用等探索攻擊行為,可以采用輸出值近似處理或引入隨機(jī)波動(dòng)來降低探索攻擊反饋結(jié)果的準(zhǔn)確性,提高攻擊難度.

6 系統(tǒng)實(shí)際搭建及運(yùn)行中的安全風(fēng)險(xiǎn)及對(duì)策

6.1 代碼漏洞

當(dāng)前流行的深度學(xué)習(xí)框架,如Caffe,Tensor-flow,Torch等,提供了高效、便捷的人工智能系統(tǒng)開發(fā)支持環(huán)境,為人工智能技術(shù)的推廣作出了巨大貢獻(xiàn).僅需幾百行甚至幾十行的核心代碼就可以完成模型的搭建、訓(xùn)練和運(yùn)行.但與框架的使用簡潔性恰恰相反,為了完成對(duì)多種軟硬件平臺(tái)的支持以及復(fù)雜計(jì)算功能的集成,深度學(xué)習(xí)框架往往需要依賴于種類紛繁的基礎(chǔ)庫和第三方組件支持,如Caffe包含有超過130種的依賴庫[110].這種組件的依賴復(fù)雜度會(huì)嚴(yán)重降低深度學(xué)習(xí)框架的安全性.某個(gè)組件開發(fā)者的疏忽,或者不同組件開發(fā)者之間開發(fā)規(guī)范的不統(tǒng)一,都可能會(huì)向深度學(xué)習(xí)框架引入漏洞.更為嚴(yán)重的是,一個(gè)底層依賴庫的漏洞(如圖像處理庫OpenCV)有可能會(huì)蔓延到多個(gè)高層深度學(xué)習(xí)框架,進(jìn)而影響到所支持的一系列應(yīng)用中.此時(shí)攻擊者可以基于控制流改寫人工智能系統(tǒng)關(guān)鍵數(shù)據(jù),或者通過數(shù)據(jù)流劫持控制代碼執(zhí)行,實(shí)現(xiàn)對(duì)人工智能系統(tǒng)的干擾、控制甚至破壞.Xiao等人分析了深度學(xué)習(xí)應(yīng)用的層級(jí)結(jié)構(gòu),并披露了Tensorflow,Caffe與Torch三種深度學(xué)習(xí)框架及其依賴庫中的數(shù)十種代碼漏洞,同時(shí)展示了如何利用該漏洞引發(fā)基于3種框架的深度學(xué)習(xí)應(yīng)用發(fā)生崩潰、識(shí)別結(jié)果篡改、非法提權(quán)等問題[110].

通常來說,可以利用傳統(tǒng)的漏洞測(cè)試方法,例如模糊測(cè)試來發(fā)現(xiàn)軟件中的代碼漏洞.但是,傳統(tǒng)的漏洞測(cè)試方法在應(yīng)用于深度學(xué)習(xí)框架時(shí)具有其局限性.Xiao等人指出,基于覆蓋率的模糊測(cè)試方法對(duì)于深度學(xué)習(xí)應(yīng)用的測(cè)試效果并不理想[110].其原因在于基本上所有的輸入數(shù)據(jù)都經(jīng)過相同的網(wǎng)絡(luò)層進(jìn)行計(jì)算,導(dǎo)致大量輸入樣本覆蓋的是同一條執(zhí)行路徑.另一個(gè)問題則在于難以區(qū)分代碼邏輯漏洞和模型本身的對(duì)抗樣本訓(xùn)練不完全問題.

6.2 學(xué)習(xí)不完全學(xué)習(xí)偏差

雖然依靠海量數(shù)據(jù)和深度學(xué)習(xí)技術(shù)的人工智能系統(tǒng)在多種任務(wù)上表現(xiàn)出突出的工作性能,但由于諸如訓(xùn)練數(shù)據(jù)偏差、過擬合和模型缺陷等原因,即便在非對(duì)抗環(huán)境下,系統(tǒng)罕見或邊緣樣本輸入可能會(huì)引起人工智能系統(tǒng)出現(xiàn)意外或錯(cuò)誤的行為.例如自動(dòng)駕駛訓(xùn)練數(shù)據(jù)無法覆蓋所有光照、天氣、道路及周圍物體分布下的行駛情況,致使未知路況下無人駕駛汽車行為的準(zhǔn)確性和可預(yù)測(cè)性難以得到保證.在安全要求較高的場(chǎng)合,罕見邊緣樣本的訓(xùn)練缺失有可能導(dǎo)致災(zāi)難性后果.由于目前深度學(xué)習(xí)模型可解釋性差,難以對(duì)系統(tǒng)異常行為進(jìn)行預(yù)測(cè)或歸因,發(fā)現(xiàn)由訓(xùn)練不完全或偏差導(dǎo)致的模型缺陷成為一個(gè)極具挑戰(zhàn)性的問題.

為了發(fā)現(xiàn)人工智能系統(tǒng)中潛藏的漏洞,相關(guān)研究工作將軟件自動(dòng)化測(cè)試中的概念遷移到了人工智能領(lǐng)域.Pei等人設(shè)計(jì)了深度學(xué)習(xí)系統(tǒng)的白盒測(cè)試框架DeepXplore[111],并提出了“神經(jīng)元覆蓋率(neuron coverage)”的概念,該框架會(huì)按照一定策略自動(dòng)生成測(cè)試樣本來觸發(fā)潛在的異常行為,以幫助發(fā)現(xiàn)網(wǎng)絡(luò)缺陷;Ma等人在文獻(xiàn)[111]基礎(chǔ)上提出了多方位細(xì)粒度的自動(dòng)化測(cè)試方法DeepGauge[112],并提出了更詳細(xì)的神經(jīng)網(wǎng)絡(luò)自動(dòng)化測(cè)試指標(biāo);受MCDC測(cè)試覆蓋率指標(biāo)的啟發(fā),Sun等人提出了基于DNN結(jié)構(gòu)特征和語義的4種測(cè)試指標(biāo)[113],并在MNIST,CIFAR-10和ImageNet分類任務(wù)上進(jìn)行了驗(yàn)證測(cè)試;Ma等人將傳統(tǒng)軟件測(cè)試中的組合測(cè)試(combinatorial testing)概念延伸到深度學(xué)習(xí)模型上并提出了DeepCT[114];Ma等人還將變異測(cè)試(mutation testing)概念沿用到深度學(xué)習(xí)模型上并提出了DeepMutation測(cè)試框架[115],設(shè)計(jì)了針對(duì)訓(xùn)練數(shù)據(jù)和訓(xùn)練過程的原始級(jí)變異方法,以及針對(duì)無訓(xùn)練環(huán)節(jié)的模型級(jí)變異方法;針對(duì)神經(jīng)網(wǎng)絡(luò)在數(shù)值傳遞過程中可能存在的漏洞,Odena等人提出了針對(duì)神經(jīng)網(wǎng)絡(luò)的基于覆蓋指導(dǎo)的模糊(coverage-guided fuzzing)方法TensorFuzz,以幫助代碼調(diào)試[116].除了自動(dòng)化測(cè)試之外,還有學(xué)者嘗試了形式化分析方法:Wang等人基于區(qū)間型符號(hào)的神經(jīng)網(wǎng)絡(luò)形式化安全分析方法[117],根據(jù)輸入估計(jì)網(wǎng)絡(luò)的輸出范圍,判斷是否會(huì)觸犯某些安全限定.

6.3 系統(tǒng)設(shè)計(jì)缺陷利用

為了提高系統(tǒng)的智能化,諸如語音助手等的人工智能服務(wù)需要被賦予很高的系統(tǒng)操作權(quán)限,一旦設(shè)計(jì)不當(dāng),很容易被攻擊者利用進(jìn)行系統(tǒng)非法操作.例如Diao等人展示了攻擊者可以控制設(shè)備揚(yáng)聲器,在后臺(tái)播放準(zhǔn)備好的音頻文件,同時(shí)借助安卓系統(tǒng)內(nèi)嵌的谷歌語音助手,進(jìn)行無權(quán)限情況下的發(fā)送信息、讀取隱私數(shù)據(jù)、甚至是遠(yuǎn)程控制等操作[118].

綜上對(duì)人工智能系統(tǒng)中的安全風(fēng)險(xiǎn)進(jìn)行總結(jié),如表1所示:

7 人工智能安全分析與防護(hù)技術(shù)的研究展望

針對(duì)表1中所總結(jié)的人工智能系統(tǒng)安全與隱私問題,在本節(jié),我們將討論在人工智能安全分析與防護(hù)研究工作中的4個(gè)發(fā)展方向:

1) 物理對(duì)抗樣本.針對(duì)無人駕駛、人臉識(shí)別、語音識(shí)別等關(guān)鍵應(yīng)用,需要評(píng)估其在真實(shí)場(chǎng)景下的安全性能,尤其是潛在的物理對(duì)抗樣本威脅.不同于信息域內(nèi)對(duì)圖像、音頻等文件直接進(jìn)行修改的對(duì)抗樣本攻擊方式,物理對(duì)抗樣本攻擊效能評(píng)估還需要同時(shí)考慮物理環(huán)境以及輸入輸出設(shè)備特性等因素的影響.例如針對(duì)視覺系統(tǒng)而言,還需考慮光照、角度、攝像頭光學(xué)特性、打印設(shè)備分辨率及色差等因素對(duì)構(gòu)造對(duì)抗樣本的影響;對(duì)音頻處理系統(tǒng)而言,進(jìn)行音頻對(duì)抗樣本的重放攻擊需同時(shí)考慮攻擊揚(yáng)聲器的聲音播放質(zhì)量、目標(biāo)麥克風(fēng)的收音性能以及背景噪聲等因素的影響.

2) 模型魯棒性的形式化驗(yàn)證.形式化驗(yàn)證可以給出對(duì)于攻擊的上界模型魯棒性下界的估計(jì),對(duì)于安全系數(shù)要求較高的場(chǎng)合而言是十分必要的.可以預(yù)見,形式化驗(yàn)證將是今后模型安全評(píng)估的一個(gè)重要研究方向,會(huì)有越來越多的研究集中在如何降低驗(yàn)證復(fù)雜度以及提高方法的模型普適性上.

3) 人工智能系統(tǒng)自動(dòng)化測(cè)試方法.當(dāng)前形式化驗(yàn)證方法計(jì)算復(fù)雜度高、難以應(yīng)用到實(shí)際深度模型上.此外,復(fù)雜的代碼依賴層級(jí)給人工智能系統(tǒng)的人工分析帶來極大的難度.對(duì)此,可以借助自動(dòng)化測(cè)試方法來持續(xù)提高對(duì)攻擊強(qiáng)度的平均估計(jì),發(fā)現(xiàn)模型可能出現(xiàn)的異常行為或者安全漏洞.除了代碼自動(dòng)化測(cè)試方法以外,模型的自動(dòng)化測(cè)試也可以作為模型形式化驗(yàn)證的一種輔助措施.在設(shè)計(jì)和應(yīng)用自動(dòng)化測(cè)試方法時(shí)需要關(guān)注3個(gè)問題:①如何定義模型異常行為;②如何區(qū)分模型在無意義分類邊界下和關(guān)鍵分類邊界下的異常行為;③如何定義自動(dòng)化評(píng)測(cè)的引導(dǎo)指標(biāo).

4) 隱私保護(hù).在某些應(yīng)用場(chǎng)景中,相較于人工智能服務(wù)的精度,用戶更重視個(gè)人數(shù)據(jù)的隱私保護(hù).尤其在大規(guī)模分布式數(shù)據(jù)存儲(chǔ)和模型訓(xùn)練的情況下,如何同時(shí)保證用戶數(shù)據(jù)隱私和模型的訓(xùn)練效率及工作精度是在人工智能服務(wù)提供商需要解決的關(guān)鍵問題.

8 結(jié) 論

隨著深度學(xué)習(xí)技術(shù)及計(jì)算硬件架構(gòu)的發(fā)展和變革,人工智能技術(shù)在機(jī)器視覺、語音識(shí)別、機(jī)器視覺等關(guān)鍵任務(wù)上取得了重大突破,接近甚至超過人類水平,這些成果推動(dòng)了人工智能技術(shù)的技術(shù)落地,衍生出諸如人臉識(shí)別、語音助手、無人駕駛等應(yīng)用領(lǐng)域.在促進(jìn)人工智能系統(tǒng)為人類生產(chǎn)生活帶來便利的同時(shí),如何發(fā)現(xiàn)、修復(fù)人工系統(tǒng)中的安全缺陷,規(guī)避人工智能應(yīng)用風(fēng)險(xiǎn)也成為了人類和社會(huì)日漸關(guān)心的問題.本文在對(duì)國內(nèi)外人工智能安全研究調(diào)研和分析的基礎(chǔ)上,總結(jié)歸納了數(shù)據(jù)輸入、數(shù)據(jù)預(yù)處理、學(xué)習(xí)模型與模型輸出4個(gè)系統(tǒng)關(guān)鍵點(diǎn)中可能存在的安全風(fēng)險(xiǎn)及應(yīng)對(duì)措施,并進(jìn)一步指出了人工智能安全分析與防護(hù)技術(shù)未來的研究趨勢(shì).

猜你喜歡
攻擊者樣本人工智能
基于貝葉斯博弈的防御資源調(diào)配模型研究
2019:人工智能
人工智能與就業(yè)
規(guī)劃·樣本
正面迎接批判
正面迎接批判
數(shù)讀人工智能
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
下一幕,人工智能!
“官員寫作”的四個(gè)樣本
平山县| 壶关县| 宜昌市| 青浦区| 宝兴县| 郯城县| 石河子市| 鸡泽县| 聊城市| 沽源县| 攀枝花市| 新巴尔虎右旗| 丰台区| 安阳县| 佛冈县| 渝北区| 加查县| 唐山市| 集安市| 平罗县| 新平| 杂多县| 和政县| 红安县| 桦甸市| 汨罗市| 海城市| 凌云县| 南平市| 泸州市| 内丘县| 芜湖市| 祁东县| 喀什市| 精河县| 博客| 平陆县| 温宿县| 巫山县| 麻栗坡县| 南溪县|