陳晉音,上官文昌,張京京,鄭海斌,鄭雅羽,張旭鴻
(1.浙江工業(yè)大學(xué)網(wǎng)絡(luò)空間安全研究院,浙江 杭州 310012;2.浙江工業(yè)大學(xué)信息工程學(xué)院,浙江 杭州 310012;3.軍事科學(xué)院系統(tǒng)工程研究院信息系統(tǒng)安全技術(shù)國防科技重點實驗室,北京 100039;4.浙江大學(xué)控制科學(xué)與工程學(xué)院,浙江 杭州 310007)
隨著深度學(xué)習(xí)技術(shù)的飛速發(fā)展,深度學(xué)習(xí)模型已成功應(yīng)用于多種任務(wù),包括圖像分類[1-4]、文本識別[5-6]、語音識別[7-8]、社交網(wǎng)絡(luò)挖掘[9-10]、電磁信號處理[11-12]等,且均取得了令人滿意的性能。
伴隨應(yīng)用任務(wù)的復(fù)雜化,以及對任務(wù)性能的需求日益增高,深度學(xué)習(xí)模型日趨復(fù)雜化[13-14],通過本地獨立完成這些復(fù)雜模型的訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)與計算資源的支持。例如,OpenAI 公司花費了將近1.4 TB 的訓(xùn)練數(shù)據(jù)和460 萬美元來訓(xùn)練GPT-3 模型[15]。通常情況下,個體研究人員和小公司負擔(dān)不了這么多的資源。針對這一問題,近期研究提出了遷移學(xué)習(xí),即通過在一個或多個源領(lǐng)域訓(xùn)練獲得模型,總結(jié)有用的知識并將其應(yīng)用于新的目標任務(wù)。常用的遷移學(xué)習(xí)方法之一是在已有的預(yù)訓(xùn)練模型(教師模型)的基礎(chǔ)上進行微調(diào)訓(xùn)練,獲得性能較好的學(xué)生模型。這種方式使個體研究人員不需要大量訓(xùn)練數(shù)據(jù)和訓(xùn)練資源也能獲得性能良好的模型,提高模型的利用效率,降低訓(xùn)練成本。例如,應(yīng)用于文本處理預(yù)訓(xùn)練模型Transformer[16],可以通過微調(diào)訓(xùn)練的方法應(yīng)用于眾多不同任務(wù)(如情感分類、文本識別等)中,且取得較好性能。
深度學(xué)習(xí)在現(xiàn)實商業(yè)中的應(yīng)用日益廣泛,其數(shù)據(jù)的誤用和不充足的法律基礎(chǔ)所導(dǎo)致的數(shù)據(jù)隱私問題頻繁發(fā)生。例如,DeepMind 項目中存在濫用國家健康服務(wù)數(shù)據(jù)的問題。在眾多深度學(xué)習(xí)技術(shù)的安全問題中,較嚴重的一個是數(shù)據(jù)隱私問題,即模型的惡意使用者通過成員推理攻擊(MIA,membership inference attack)實現(xiàn)對模型訓(xùn)練數(shù)據(jù)的竊取。具體而言,成員推理攻擊是指給定數(shù)據(jù)樣本和模型的訪問權(quán)限,判定該樣本是否存在于模型的訓(xùn)練數(shù)據(jù)集中。至今為止,針對成員推理攻擊的研究[17-28]已引起學(xué)術(shù)界的廣泛關(guān)注。成員推理攻擊根據(jù)攻擊的方式可以分為2 種類型:1)基于模型的成員推理攻擊[21],通過攻擊者訓(xùn)練攻擊模型,利用攻擊模型判斷待測樣本是否為目標模型的成員樣本;2)基于指標的成員推理攻擊[20,23],不需要訓(xùn)練攻擊模型,通過計算預(yù)測向量的指標并與預(yù)設(shè)閾值進行比較來給出成員關(guān)系的推理。
通常假設(shè)成員推理攻擊的攻擊方具有目標模型的數(shù)據(jù)知識、訓(xùn)練知識和輸出知識,獲取數(shù)據(jù)知識表明攻擊者已知訓(xùn)練數(shù)據(jù)的分布特征,訓(xùn)練知識意味著攻擊者知道目標模型的訓(xùn)練方法,輸出知識表示攻擊者可以得到目標模型的輸出。根據(jù)攻擊者是否能夠訪問模型參數(shù)的模型知識,MIA 可分為黑盒推理攻擊[20-21,23]和白盒推理攻擊[24-25]。然而,上述工作都是在所有樣本中不加選擇地進行攻擊,這種場景下的攻擊成功率在所有目標樣本上平均,而不考慮誤判的代價。文獻[26]首次研究了針對單個樣本點的MIA,從另一個角度清晰地闡明了隱私風(fēng)險,但是該攻擊需要獲取目標模型的置信度信息,在目標模型只輸出標簽信息的情況下無法正常工作。
鑒于遷移學(xué)習(xí)的優(yōu)勢,即利用較少訓(xùn)練資源獲得較高性能的深度學(xué)習(xí)模型,通過遷移學(xué)習(xí)的方式獲取深度模型成為主流方式之一,隨之而來的是遷移學(xué)習(xí)的隱私安全問題,例如,面向遷移學(xué)習(xí)模型的成員推理攻擊。遷移學(xué)習(xí)中主要包含2 種模型:教師模型和學(xué)生模型。與現(xiàn)有的針對單獨模型的成員推理攻擊不同,本文面向遷移學(xué)習(xí)的MIA 根據(jù)攻擊對象不同和攻擊者的訪問權(quán)限不同,提出了分別竊取教師模型和學(xué)生模型的數(shù)據(jù)隱私,判斷目標樣本是否為目標模型的訓(xùn)練數(shù)據(jù)。例如,當攻擊者攻擊教師模型且可以訪問教師模型時,可以判斷目標樣本是否為教師模型的訓(xùn)練數(shù)據(jù)。文獻[27]首次研究了面向遷移學(xué)習(xí)的成員推理攻擊,該方法在模型處于過擬合狀態(tài)下取得較好攻擊效果,當模型處于正常擬合狀態(tài)時,攻擊性能有明顯的下降。這一現(xiàn)象也普遍存在于針對非遷移學(xué)習(xí)的MIA 方法中,包括Salem[20]、Yeom[23]、Nasr[24]和Lenio[25]等。為了表明這些方法只能在過擬合的深度學(xué)習(xí)模型上取得較好的攻擊效果,而當模型是正常擬合的情況下攻擊性能大幅下降。本文在 VGG16 模型、Caltech101 數(shù)據(jù)集上復(fù)現(xiàn)了上述攻擊方法,攻擊結(jié)果如圖1 所示。在過擬合與正常擬合情況下,各種MIA 方法的攻擊性能均存在明顯下降。具體而言,當模型處于過擬合時,攻擊有較高的精確率;當模型處于正常擬合時,攻擊性能明顯降低,而實際應(yīng)用中的大部分深度學(xué)習(xí)模型都是正常訓(xùn)練且處于正常擬合的情況。針對這一問題,文獻[26]提出了模型處于正常擬合環(huán)境下的成員推理攻擊,然而該攻擊需要獲取置信度信息,在目標模型只輸出標簽的情況下則無法展開攻擊,限制了其實際應(yīng)用的可操作性。
圖1 訓(xùn)練集為Caltech101 的VGG16 模型的攻擊樣本精確率
綜上所述,本文提出了針對遷移學(xué)習(xí)的深度學(xué)習(xí)模型在正常擬合情況下的成員推理攻擊方法,通過搜索對目標模型預(yù)測產(chǎn)生特殊影響的異常樣本,利用異常樣本在目標模型的訓(xùn)練集中存在與否對預(yù)測結(jié)果產(chǎn)生較大差異,通過異常樣本展開成員推理攻擊,實現(xiàn)正常擬合模型的成員推理攻擊。此外,針對現(xiàn)有成員推理攻擊需要獲取置信度才能實現(xiàn)攻擊的問題,本文提出了一種只需要輸出標簽不需要置信度的更高效的MIA 方法,采用置信度分數(shù)表示樣本與模型決策邊界的距離,并使用對抗噪聲進行衡量,從而實現(xiàn)置信度重構(gòu),通過對抗攻擊和回歸分析獲取攻擊樣本所需對抗噪聲的大小與樣本在模型下的置信度關(guān)系,僅獲取模型輸出標簽的情況下,實現(xiàn)與置信度攻擊相當?shù)墓粜阅堋?/p>
本文的主要創(chuàng)新點如下。
1) 研究了遷移學(xué)習(xí)的模型處于正常擬合時的成員推理攻擊。設(shè)計了3 種攻擊模式,分別實現(xiàn)對教師模型和學(xué)生模型的成員推理攻擊,提出了異常樣本檢測和置信度重構(gòu)方法,實現(xiàn)了面向正常擬合遷移學(xué)習(xí)模型的成員推理攻擊(TMIA,transfer membership inference attack)。
2) 在目標模型只輸出標簽的情況下,通過置信度重構(gòu),尋找對抗攻擊成功時對抗噪聲的大小與置信度的邏輯關(guān)系,實現(xiàn)了成員推理攻擊,即在最小信息量的情況下,依然達到了與擁有置信度的MIA相當?shù)墓粜阅堋?/p>
3) 展開對不同數(shù)據(jù)集的實驗驗證,證明了本文所提出的成員推理攻擊在不同遷移學(xué)習(xí)方式下的攻擊有效性,并與現(xiàn)有的多種MIA 方法展開對比,本文方法在大部分情況下達到了最優(yōu)攻擊性能(SOTA,state-of-the-art)。另外,在特征提取器的遷移方式下,揭示了凍結(jié)層數(shù)對攻擊性能的影響。
4) 為了進一步驗證本文提出的TMIA 攻擊的有效性,假設(shè)實際應(yīng)用中存在對TMIA 的防御方法,對防御模型展開適應(yīng)性攻擊,實驗結(jié)果表明,即使存在防御,本文的TMIA 依然具有較高的攻擊精確率。
本節(jié)主要介紹面向機器學(xué)習(xí)模型的成員推理攻擊方法,以及遷移學(xué)習(xí)安全性研究。
成員推理攻擊主要是為了竊取模型的數(shù)據(jù)隱私,當數(shù)據(jù)包含大量敏感信息時,如生物醫(yī)學(xué)數(shù)據(jù)[28-29]和移動跟蹤數(shù)據(jù)[30],將造成嚴重的隱私風(fēng)險,因此,成員推理攻擊引起廣泛關(guān)注。
文獻[21]首次提出了針對機器學(xué)習(xí)模型的成員推理攻擊,利用影子模型模擬目標模型的行為,為攻擊模型生成訓(xùn)練數(shù)據(jù),通過攻擊模型判定樣本是否為成員樣本。然而該攻擊的前提是需要獲取目標模型的結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)的分布,而實際應(yīng)用中大部分情況下,目標模型的結(jié)構(gòu)與訓(xùn)練數(shù)據(jù)分布獲取異常困難,限制了其實際應(yīng)用。因此,文獻[20]提出目標模型結(jié)構(gòu)和訓(xùn)練數(shù)據(jù)分布未知情況下的成員推理攻擊,在訓(xùn)練攻擊模型時不使用所有的置信度分數(shù),只從中選取前3 個最大的值進行訓(xùn)練。另外,文獻[20]也提出了基于閾值的成員推理攻擊,通過比較閾值和置信度分數(shù)的最大值進行成員推理,當置信度大于設(shè)定閾值,則判定為成員樣本。文獻[23]提出了2 種成員推理攻擊:第一種只利用標簽信息,將樣本的真實標簽與預(yù)測的標簽相比,如果相同則認為是成員樣本;第二種攻擊計算樣本的交叉熵損失,并將計算出的損失與所有訓(xùn)練樣本的平均損失相比,從而判斷是否是成員樣本。文獻[24]評估了針對深度學(xué)習(xí)算法的白盒成員推理攻擊,認為白盒場景是黑盒場景的拓展,不同于黑盒環(huán)境下只能使用模型最后一層的輸出,白盒環(huán)境則可利用任意層的輸出進行攻擊,但攻擊性能并沒有明顯的提升。隨后,他們又提出了一種預(yù)測損失對模型訓(xùn)練參數(shù)求導(dǎo)的方法,利用得到的梯度信息進行白盒攻擊,并表明該攻擊的性能優(yōu)于黑盒攻擊。但這種攻擊需要得到模型的訓(xùn)練數(shù)據(jù),在實際應(yīng)用中面臨較大困難。文獻[25]針對這一問題,提出了一種不需要模型訓(xùn)練數(shù)據(jù)的白盒成員推理攻擊。
總結(jié)上述攻擊的有效性保證是模型處于過擬合狀態(tài),而當模型處于正常擬合狀態(tài)時,攻擊性能會大大降低。
除了針對批量成員數(shù)據(jù)的推理攻擊,文獻[26]首次提出了針對單個樣本點的成員推理攻擊。該方法只對部分樣本點進行攻擊,即使在模型處于正常擬合狀態(tài)下,依然有較高的攻擊準確率。然而,該方法需要獲取模型輸出的置信度信息,在模型輸出標簽的環(huán)境下無法正常工作。
綜上,現(xiàn)有工作尚未對面向正常擬合遷移學(xué)習(xí)模型的成員推理攻擊進行研究,且在目標模型只輸出標簽的情況下無法達到較好的攻擊效果。
面向深度學(xué)習(xí)的遷移學(xué)習(xí)方法在計算機視覺[31-34]、語音分析[35-38]和文本處理[39-40]等領(lǐng)域均取得了較好的性能。但已有研究表明,遷移學(xué)習(xí)存在安全隱患,包括對抗攻擊[41]、中毒攻擊[42]和成員推理攻擊[27]。
文獻[41]提出了一種針對遷移學(xué)習(xí)的對抗攻擊。常用的對抗攻擊[38-40]主要是優(yōu)化圖像,使其被預(yù)測為目標標簽,與已有方法的不同之處是,文獻[41]提出的方法的核心思想是優(yōu)化圖像來模仿目標圖像的內(nèi)部表現(xiàn)。文獻[42]提出了一種針對詞嵌入的數(shù)據(jù)中毒攻擊,基于嵌入的自然語言處理任務(wù)遵循遷移學(xué)習(xí)模式,其中嵌入模型和下游模型分別被視為教師模型和學(xué)生模型。目標可以是使目標單詞在單詞中排名更高,也可以將目標單詞與特定的單詞集的距離進行移近或者移遠。論文進行了大量的實驗,表明對嵌入模型(教師模型)進行攻擊可以嚴重影響多個下游模型(學(xué)生模型)。文獻[27]利用影子模型模仿目標模型,通過影子模型的輸出訓(xùn)練攻擊模型,最后使用攻擊模型判斷樣本是否為成員樣本,首次研究了面向遷移學(xué)習(xí)的成員推理攻擊,但是該攻擊只能在目標模型處于過擬合狀態(tài)時有較好的攻擊效果。
綜上,現(xiàn)有的面向遷移學(xué)習(xí)成員隱私的研究只在模型處于過擬合的狀態(tài)下進行,所提方法無法在模型正常擬合時有較好的攻擊效果。
本節(jié)首先介紹了攻擊模式和威脅模型,隨后對提出的攻擊方法展開詳細描述。
與成員推理攻擊[22-25]不同,遷移學(xué)習(xí)場景中包含教師模型和學(xué)生模型2 種模型,微調(diào)和特征提取器2 種遷移方式。微調(diào)是指不凍結(jié)教師模型,直接用學(xué)生數(shù)據(jù)集訓(xùn)練教師模型得到學(xué)生模型。特征提取器是指假設(shè)教師模型共n層,凍結(jié)其前k層,只用學(xué)生數(shù)據(jù)集訓(xùn)練教師模型的n-k層。另外,從攻擊者能獲得的權(quán)限來看,攻擊者在某些情況下可能獲得教師模型的訪問權(quán)限,在某些情況下可能獲得學(xué)生模型的訪問權(quán)限。從攻擊者的目標來看,攻擊者可能想要推斷教師模型的訓(xùn)練數(shù)據(jù),也可能想要推斷學(xué)生模型的訓(xùn)練數(shù)據(jù)。根據(jù)上述遷移方式的不同和攻擊者的能力及需求,本文將攻擊分為以下3 種模式。
攻擊Ⅰ:微調(diào)模式下,攻擊者攻擊教師模型,能且僅能訪問教師模型。
攻擊Ⅱ:特征提取器模式下,攻擊者攻擊教師模型,能且僅能訪問學(xué)生模型。
攻擊Ⅲ:微調(diào)模式下,攻擊者攻擊學(xué)生模型,能且僅能訪問學(xué)生模型。
與現(xiàn)有成員推理攻擊[25]相似,本文假設(shè)攻擊者可以獲得目標模型的結(jié)構(gòu)和數(shù)據(jù)分布,并且可以訪問目標模型,獲得目標模型的輸入輸出對。
攻擊Ⅰ模式下,攻擊者A攻擊教師模型ft,能且僅能訪問教師模型。攻擊目標是判斷一個數(shù)據(jù)樣本點(x,y)是否是教師模型的訓(xùn)練數(shù)據(jù),計算式為
該模式下,本文默認攻擊者A可以獲得以下內(nèi)容。
1) 教師模型結(jié)構(gòu)和訓(xùn)練方式。
2) 教師模型訓(xùn)練集的特征分布和其同分布的數(shù)據(jù)集。
3) 教師模型的黑盒訪問權(quán)限。
攻擊Ⅱ模式下,攻擊者A攻擊教師模型ft,能且僅能訪問學(xué)生模型fs。攻擊目標是判斷一個數(shù)據(jù)樣本點(x,y)是否是教師模型的訓(xùn)練數(shù)據(jù),計算式為
該模式下,A可以獲得以下內(nèi)容。
1) 教師模型和學(xué)生模型的結(jié)構(gòu)和訓(xùn)練方式。
2) 教師模型和學(xué)生模型的訓(xùn)練集的特征分布和其同分布的數(shù)據(jù)集。
3) 學(xué)生模型的黑盒訪問權(quán)限。
攻擊Ⅲ模式下,攻擊者A攻擊學(xué)生模型fs,能且僅能訪問學(xué)生模型fs。攻擊目標是判斷一個數(shù)據(jù)樣本點(x,y)是否是學(xué)生模型的訓(xùn)練數(shù)據(jù),計算式為
該模式下,本文默認攻擊者A可以獲得以下內(nèi)容。
1) 教師模型和學(xué)生模型的結(jié)構(gòu)和訓(xùn)練方式。
2) 教師模型和學(xué)生模型訓(xùn)練集的特征分布和其同分布的數(shù)據(jù)集。
3) 學(xué)生模型的黑盒訪問權(quán)限。
本節(jié)對攻擊方法進行整體概述。本文方法的整體框架如圖2 所示,主要分為3 種攻擊模式。
圖2 面向正常擬合模型的成員推理攻擊方法整體框架
1) 攻擊Ⅰ
攻擊Ⅰ模式下,攻擊者攻擊教師模型,判斷待測樣本是否為教師模型的訓(xùn)練數(shù)據(jù),且僅能訪問教師模型。為實現(xiàn)這一目標,本文建立了對比模型。對比模型的作用有2 個,首先是構(gòu)建樣本特征,然后是生成輸出特征累計概率分布圖。對比模型的結(jié)構(gòu)與目標模型相同,對比模型的訓(xùn)練集與目標模型的訓(xùn)練集特征分布一致。為構(gòu)建樣本特征,本文構(gòu)建k個對比模型,考慮到攻擊者存在獲得的數(shù)據(jù)集樣本數(shù)量不足的問題,使用bootstrap 采樣[27]來生成對比數(shù)據(jù)集,bootstrap 采樣減少了對比訓(xùn)練集之間的重疊,使對比模型之間的相似性降低。對比模型的訓(xùn)練方法與目標模型一致。
隨后,將待測樣本輸入k個對比模型,獲取其中間層輸出并將其合并構(gòu)建樣本特征,通過異常樣本檢測得到異常樣本,本文只針對異常樣本進行成員推理攻擊。
將異常樣本輸入對比模型,繪制其輸出特征累計概率分布圖,對數(shù)損失函數(shù)在訓(xùn)練模型時常用作標準函數(shù),故本文采用對數(shù)損失函數(shù)構(gòu)建輸出特征分布圖,定義為
其中,M表示分類器,x表示輸入樣本,yx表示輸入樣本的標簽,表示分類器M將樣本x分類為yx的置信度。
具體步驟如下。首先將目標樣本輸入對比模型獲取其輸出L,利用L構(gòu)建累積分布函數(shù)(CDF,cumulative distribution function)圖D(L),函數(shù)形式表示為F(L)。然后將異常樣本輸入教師模型,使用置信度重構(gòu)方法獲取教師模型預(yù)測該樣本的置信度。最后是成員推理階段,本文根據(jù)假設(shè)檢驗評估樣本x是目標模型訓(xùn)練數(shù)據(jù)的置信度。零假設(shè)H0:樣本x不是目標模型的訓(xùn)練數(shù)據(jù)。備擇假設(shè)H1:樣本x是目標模型的訓(xùn)練數(shù)據(jù)。根據(jù)假設(shè)檢驗,存在p值和顯著性水平β,當p>β時,零假設(shè)H0正確;反之,備擇假設(shè)H1正確。顯著性水平β由人為設(shè)置,p值計算式為將重構(gòu)的置信度輸入式(4)計算得到對數(shù)損失,再將其輸入式(5)計算,獲取p值,若p>β,則認為該樣本不是成員樣本,反之,則是成員樣本。
2) 攻擊Ⅱ
攻擊Ⅱ模式下,攻擊者攻擊教師模型,判斷待測樣本是否為教師模型的訓(xùn)練數(shù)據(jù),且僅能訪問學(xué)生模型。與攻擊Ⅰ不同,攻擊Ⅱ建立了學(xué)生模型的對比模型,其訓(xùn)練集分布與學(xué)生模型訓(xùn)練集分布一致,訓(xùn)練方式相同。
構(gòu)建樣本特征時將異常樣本輸入對比模型獲取其中間層輸出并合并,通過異常樣本檢測得到異常樣本。隨后將異常樣本分別輸入對比模型繪制輸出特征累計概率分布圖,輸入學(xué)生模型利用置信度重構(gòu)得到置信度。與攻擊Ⅰ不同,攻擊Ⅱ繪制輸出特征累計概率分布圖時,將目標模型輸出的最大置信度代入式(4)計算對數(shù)損失。最后通過假設(shè)檢驗,推理該樣本是否為成員樣本。
3) 攻擊Ⅲ
攻擊者攻擊學(xué)生模型,判斷待測樣本是否是學(xué)生模型的訓(xùn)練數(shù)據(jù),能且僅能訪問學(xué)生模型。與上述攻擊不同,攻擊Ⅲ攻擊目標是學(xué)生模型,待測樣本與學(xué)生模型訓(xùn)練集相同。攻擊者建立對比模型,模型的結(jié)構(gòu)與學(xué)生模型相同,其訓(xùn)練數(shù)據(jù)分布與學(xué)生模型的訓(xùn)練數(shù)據(jù)分布一致,訓(xùn)練方式與學(xué)生模型相同。
隨后,將待測樣本輸入對比模型,提取中間層輸出并將其合并得到樣本特征,通過異常樣本檢測獲取異常樣本,并只對異常樣本進行成員推理攻擊。將異常樣本輸入對比模型繪制輸出特征累計概率分布圖,與攻擊Ⅱ不同之處在于繪制輸出特征累計概率分布圖時,將目標模型輸出的預(yù)測類對應(yīng)的置信度代入式(4)計算對數(shù)損失,后將異常樣本輸入學(xué)生模型,利用置信度重構(gòu)方法獲取異常樣本在目標模型下的預(yù)測置信度。最后利用假設(shè)檢驗,推理異常樣本是否為學(xué)生模型的成員樣本。
本文只對檢測到的異常樣本進行成員推理攻擊,這些異常樣本在特征分布上與其他待測樣本存在較大差異,故在訓(xùn)練模型時,異常樣本會對模型產(chǎn)生特殊的影響。在模型訓(xùn)練集包含與不包含異常樣本時,模型對異常樣本的預(yù)測會有明顯的差別,故能達到較好的攻擊效果,異常樣本檢測算法如算法1 所示。
算法1異常樣本檢測算法
輸入待測樣本與對比模型訓(xùn)練樣本n,類別數(shù)k,最大迭代次數(shù) max_iter,當前迭代次數(shù)num_iter,距離閾值α
輸出待測樣本中的異常樣本集合Q
樣本類別計算式為
其中,ci表示第i個樣本的類,j表示第j個類,uj表示第j個類的中心,表示第i個樣本特征,即樣本xi在k個對比模型中間層輸出的組合。
簇中心計算式為
其中,uj表示第j個類的中心,n表示樣本特征的個數(shù),c i表示第i個樣本的類,j表示第j個類,表示第i個樣本特征。當ci為j時,1{ci=j}的值為1,否則為0。
樣本間距離計算式為
本文提出置信度重構(gòu)技術(shù),即使模型只輸出預(yù)測標簽,也能使攻擊有較好的攻擊性能。
置信度重構(gòu)基于的思想是將一個樣本輸入深度模型,模型輸出的置信度越大,則該樣本越難被對抗攻擊,即攻擊成功所需要的對抗噪聲越大。本文提出的置信度重構(gòu)主要分為2 個部分:首先通過對抗攻擊,獲取攻擊成功所需要的對抗噪聲大小;然后利用回歸分析,獲取對抗噪聲和置信度的邏輯關(guān)系。“HopSkipJump”攻擊[41]是最近提出的攻擊效率最高的對抗攻擊,具有查詢次數(shù)少、添加噪聲少的特點,本文選用該攻擊作為攻擊方法。第一步,將樣本輸入對比模型,獲取其置信度,隨后將樣本輸入目標模型進行對抗攻擊,獲取對抗噪聲大小。第二步,將第一步中獲取的置信度-噪聲大小對進行回歸分析,獲取其對應(yīng)關(guān)系?;貧w分析采用最小二乘法,具體步驟如下。
1)根據(jù)樣本點分布特征,初始化近似函數(shù)y=f(w,x)。
2)計算殘差函數(shù)
3)更新w,取殘差函數(shù)最小時的w為近似函數(shù)的最終參數(shù)。
因為對比模型的訓(xùn)練數(shù)據(jù)分布與目標模型的訓(xùn)練數(shù)據(jù)分布一致,本文認為在對比模型上得到的置信度和噪聲的大小關(guān)系與目標模型的基本一致。
本節(jié)在多個真實數(shù)據(jù)集和模型上進行實驗驗證正常擬合遷移學(xué)習(xí)模型的3 種成員推理攻擊有效性。首先,在4 種攻擊模式下評估了攻擊的性能,分別分析了成員推理攻擊在訪問教師模型時對教師模型造成的成員隱私風(fēng)險、訪問學(xué)生模型時對教師模型造成的成員隱私風(fēng)險和訪問學(xué)生模型時對學(xué)生模型造成的成員隱私風(fēng)險。其次,對本文方法的有效性進行分析,解釋了本文方法在正常擬合模型下有效的原因,隨后解釋了相比于其他攻擊需要獲得置信度信息,而本文方法僅需獲得標簽信息就能有效的原因。再次,進行了參數(shù)敏感性分析,評估了異常樣本檢測階段不同參數(shù)對攻擊性能造成的影響。最后,進行了適應(yīng)性攻擊實驗,對添加了防御的模型進行攻擊,以說明本文所提方法的普適性。
本節(jié)主要介紹了實驗環(huán)境、數(shù)據(jù)集、模型和評價指標、對比算法等信息。
實驗硬件及軟件平臺:i7-7700K 4.20GHzx8(CPU),TITAN Xp 12GiBx2 (GPU),16GBx4 memory(DDR4),Ubuntu16.04 (OS),Python(3.6),tensorflow-gpu (1.12.0),keras (2.2.4),torch (0.4.1)和torchvision (0.2.1)。
數(shù)據(jù)集:本文實驗采用4 個公共數(shù)據(jù)集。
Caltech101[43]。該數(shù)據(jù)集包含5 486 個訓(xùn)練圖像和3 658 張測試圖像,分為101 個不同的物體類別(如人臉、手表、螞蟻、鋼琴等)和一個背景類別。每個類別大約有40~800 張圖片,大多數(shù)類別大約有50 張圖片。
CIFAR100[44]。該數(shù)據(jù)集是廣泛用于評價圖像識別算法的基準數(shù)據(jù)集,由彩色圖像組成,這些圖像被平均分為100 類,如食物、人、昆蟲等。每個類別有500 張訓(xùn)練圖片和100 張測試圖片。
Flowers102[45]。該數(shù)據(jù)集包含102 種常見的花卉類別,包含6 149 張訓(xùn)練圖像和1 020 張測試圖像。
PubFig83[46]。該數(shù)據(jù)集由8 300 張裁剪面部圖像組成,這些圖像來自83 張公共人臉圖像,每一張人臉圖像包含100 個變體。PubFig83 中的圖片是從網(wǎng)上獲取的,并不是在可控的環(huán)境中收集的。
本文選用4 個常用的深度模型,分別是VGG16模型[47]、VGG19 模型[47]、ResNet50 模型[48]和Inception_v3 模型[49]。模型訓(xùn)練階段,優(yōu)化算法采用Adam 方法,batch_size 設(shè)置為64,epoch 設(shè)置為100。訓(xùn)練完成后,模型均處于正常擬合狀態(tài),訓(xùn)練準確率與測試準確率較高且無明顯差異。
精確率是衡量成員推理攻擊[10]的常用指標,精確率越大表示攻擊性能越高,定義為
其中,TP 表示實際為成員樣本預(yù)測為成員樣本的樣本個數(shù),F(xiàn)P 表示實際為非成員樣本預(yù)測為成員樣本的樣本個數(shù)。
另外,本文引入覆蓋率衡量成員推理攻擊性能,覆蓋率越大,表示攻擊性能越好。
其中,TP 表示實際為成員樣本預(yù)測為成員樣本的樣本個數(shù),N表示成員樣本總數(shù)。
本文采取Zou 等[27](FMIA)、Salem 等[20](GMIA)和Long 等[26](PMIA)這3 種攻擊方法作為本文方法的對比算法。FMIA 和GMIA 在攻擊過程中都建立了攻擊模型,區(qū)別是FMIA 針對每一類樣本建立了一個攻擊模型,GMIA 只需要建立一個攻擊模型。攻擊模型由兩層全連接層組成,第一層包含64 個神經(jīng)元,激活函數(shù)選用ReLU,輸出層選用Softmax。PMIA 不建立攻擊模型,通過建立參考模型獲取樣本在不同模型下的輸出差異進行攻擊。為評估攻擊方法的性能,本文建立100 個目標模型進行測試,其中50 個包含待測樣本,另外50 個不包含待測樣本。
本節(jié)在微調(diào)的遷移方式下評估了本文提出的成員推理攻擊性能。攻擊I 模式下,攻擊者攻擊教師模型,判斷輸入樣本是否為教師模型的成員樣本,且攻擊者能且僅能訪問教師模型。本文教師模型分別在4 種數(shù)據(jù)集和3 種常見的深度模型上訓(xùn)練。實驗結(jié)果如表1 所示。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。
表1 攻擊I:訪教-攻教模式下不同攻擊的攻擊性能比較
首先,本文比較了PMIA 和TMIA 檢測的異常樣本數(shù)量。TMIA 檢測到的異常樣本比PMIA 多,這主要是因為PMIA 基于密度檢測異常樣本,只能在樣本分布稀疏時檢測到較多異常樣本,而TMIA基于距離檢測異常樣本,更具普適性。FMIA 和GMIA 本身無異常檢測步驟,為與本文方法TMIA對比,測試時攻擊TMIA 檢測到的異常樣本,故其異常樣本數(shù)量與TMIA 相同。
其次,本文比較了不同攻擊方法在不同數(shù)據(jù)集和不同模型下的精確率。在任意模型和任意數(shù)據(jù)集中,TMIA 和PMIA 的精確率均高于FMIA 和GMIA,F(xiàn)MIA 和GMIA 在Caltech101 數(shù)據(jù)集的Resnet50 模型下的精確率分別為45.12%和51.01%,這主要是因為FMIA 和GMIA 是針對過擬合模型的成員推理攻擊,它們基于成員樣本和非成員樣本在目標模型下的輸出差異進行攻擊,然而,在攻擊正常擬合模型時,成員樣本和非成員樣本在目標模型下的輸出差異較小,F(xiàn)MIA 和GMIA 攻擊性能大大降低。
本文所提方法PMIA 和TMIA 的攻擊性能相近,均有較好的攻擊性能,例如在Flowers102 數(shù)據(jù)集的VGG16 模型下,精確率分別為94.22%和93.49%,這是因為TMIA 和PMIA 利用異常樣本檢測找到了容易受到攻擊的樣本,這些樣本對模型的預(yù)測輸出有特殊的影響,有較高的概率被攻擊成功。
與PMIA 需要獲取置信度不同,本文所提方法只需要獲取樣本在目標模型下輸出的標簽信息,獲得的信息更少,但是攻擊性能與PMIA 相比并沒有明顯的降低,表明了TMIA 的優(yōu)越性。
最后,本文比較了不同攻擊方法在不同模型和不同數(shù)據(jù)集下的覆蓋率。在任意模型和數(shù)據(jù)集下,TMIA 的覆蓋率明顯高于FMIA 和GMIA,這顯示了TMIA 較好的攻擊性能。與PMIA 需要置信度相比,TMIA 只需要獲取標簽信息,在獲得信息較少的情況下,性能并沒有明顯的降低,再次表現(xiàn)了TMIA 的優(yōu)越性。
本節(jié)在特征提取器的遷移方式下評估了本文提出的成員推理攻擊性能。攻擊II 模式下,攻擊者攻擊教師模型,判斷輸入樣本是否為教師模型的成員樣本,且攻擊者能且僅能訪問學(xué)生模型。本節(jié)教師模型均由Caltech101 數(shù)據(jù)集訓(xùn)練,學(xué)生模型在另外3 種數(shù)據(jù)集上訓(xùn)練,教師模型和學(xué)生模型都采用VGG16。實驗結(jié)果如圖3 所示,其中橫坐標表示凍結(jié)教師模型的層數(shù),縱坐標表示攻擊的性能指標。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。
由圖3 可知,隨著凍結(jié)層數(shù)的增加,攻擊的性能也會上升。這是因為凍結(jié)的層數(shù)越多,學(xué)生模型會更多地保留教師模型訓(xùn)練集的特征,增加了攻擊的成功率。上述結(jié)果表明,即使在不訪問教師模型的情況下,只訪問學(xué)生模型,也會造成教師模型訓(xùn)練數(shù)據(jù)的成員隱私泄露。這主要是因為學(xué)生模型也包含教師模型訓(xùn)練數(shù)據(jù)的特征,故存在泄露其數(shù)據(jù)隱私的可能。
圖3 不同攻擊方法在不同凍結(jié)層數(shù)下的性能比較
其次,在任意數(shù)據(jù)集下,TMIA 的精確率和覆蓋率均大于FMIA 和GMIA,表明了本文方法有較好的攻擊性能。這主要因為FMIA 和GMIA 基于成員樣本和非成員樣本在模型下的輸出差異進行攻擊,而模型處于正常擬合狀態(tài)下,輸出幾乎無差異,而TMIA 只攻擊異常樣本,這些異常樣本對目標模型的預(yù)測產(chǎn)生特殊影響,當模型訓(xùn)練集中存在和不存在異常樣本時,模型對異常樣本的預(yù)測會有較大的差異,對比模型訓(xùn)練集中不包含異常樣本,在推理階段,利用假設(shè)檢驗,若異常樣本在目標模型下的輸出特征不符合異常樣本在對比模型下的輸出特征分布,則認為該樣本為成員樣本,有較高的精確率推理成功。
最后,TMIA 在只獲得標簽信息的情況下,獲得的信息更少,但是和PMIA 性能幾乎無差異,再次表明了TMIA 方法的優(yōu)越性。
本節(jié)在微調(diào)的遷移模式下評估了本文提出的成員推理攻擊性能。攻擊III 模式下,攻擊者攻擊學(xué)生模型,判斷輸入樣本是否為學(xué)生模型的成員樣本,且攻擊者能且僅能訪問學(xué)生模型。本節(jié)教師模型均由Caltech101 數(shù)據(jù)集訓(xùn)練,學(xué)生模型在另外3 種數(shù)據(jù)集上訓(xùn)練,分別在3 種常見的深度模型上進行成員推理攻擊。本文用精確率和覆蓋率來衡量不同攻擊方法之間的攻擊性能。
如表2 所示,在任意模型和任意數(shù)據(jù)集中,TMIA 和PMIA 的精確率和覆蓋率均高于FMIA 和GMIA,例如在Flowers102 上訓(xùn)練的VGG19 的精確率分別為53.55%和53.06%,PMIA 和TMIA 的精確率分別為94.37%和93.53%。這是因為FMIA和GMIA是基于成員樣本和非成員樣本在模型輸出下的置信度差異進行攻擊,當模型處于正常擬合時,成員樣本和非成員樣本的置信度差異很小,導(dǎo)致FMIA 和GMIA 攻擊性能大大降低。本文所提方法TMIA 和PMIA 的攻擊性能更強,因為TMIA 和PMIA 挑選對模型輸出有特殊影響的樣本,這些樣本更容易被攻擊。
表2 攻擊III:訪學(xué)-攻學(xué)模式下不同攻擊的攻擊性能比較
與PMIA 需要獲取置信度不同,本文所提方法TMIA 只需要獲取樣本在目標模型下輸出的標簽信息,獲得的信息更少,但是攻擊性能與PMIA 相比并沒有明顯的降低,這也表明了本文置信度重構(gòu)的有效性。
本節(jié)分析了TMIA 有較強攻擊性能的原因。為此,本文給出了異常樣本在模型in 和模型out 下輸出的置信度概率累計分布,模型in 表示該模型的訓(xùn)練數(shù)據(jù)包含異常樣本,模型out 表示該模型的訓(xùn)練數(shù)據(jù)不包含異常樣本。
如圖4 所示,異常樣本在模型in 和模型out 下的輸出分布有著明顯差異。異常樣本在模型in 下的輸出置信度明顯大于在模型out 下的輸出置信度,這說明了本文方法的攻擊有效性,解釋了本文方法可以推斷出樣本成員狀態(tài)的原因。
圖4 異常樣本累計概率分布
最后,本節(jié)給出了置信度重構(gòu),如圖5 所示。構(gòu)成對抗樣本的噪聲大小和模型對樣本預(yù)測的置信度有明顯的邏輯關(guān)系,置信度越大,攻擊該樣本所需要的噪聲就越大,說明了本文所提置信度重構(gòu)方法的有效性,解釋了即使在模型只輸出標簽信息的情況下TMIA 依然能有較好攻擊性能的原因。
圖5 置信度重構(gòu)
本節(jié)主要對異常樣本檢測過程中距離閾值α進行敏感性分析,評估了不同閾值α對攻擊性能的影響。實驗結(jié)果如表3 所示,隨著閾值α的增加,檢測到的異常樣本數(shù)量會減少,精確率和覆蓋率有一定增加,這表明閾值的增高會讓更少的樣本被認為是異常樣本,這些異常樣本離聚類中心更遠,特征差異越大,對模型預(yù)測造成的影響也越大,更容易被攻擊成功。
表3 參數(shù)敏感性分析
本節(jié)主要對TMIA 方法在施加了防御后的模型的攻擊效果進行分析。現(xiàn)有研究[19]表明,Dropout對成員推理攻擊有較好的防御性能。本節(jié)在Caltech101 數(shù)據(jù)集上訓(xùn)練的目標模型上應(yīng)用了Dropout,隨后用TMIA 進行攻擊。
表4 給出了應(yīng)用Dropout 前后,模型的準確率和攻擊性能的差異。結(jié)果顯示,Dropout 方法降低了異常樣本檢測環(huán)節(jié)檢測到的異常樣本數(shù)量,但是檢測出的異常樣本仍然以較高的精確率被攻擊成功。例如,當Dropout 的參數(shù)被設(shè)置為0.1 時,檢測到了6 個異常樣本,這些異常樣本以高達96.15%的精確率被推理成功。
表4 不同Dropout 下TMIA 的攻擊性能
綜上,Dropout 在一定程度上緩解了成員推理攻擊,但是并沒有完全解決成員推理攻擊的隱私威脅,防御效果有限,進一步說明了本文方法對成員隱私的危害。
本節(jié)在微調(diào)的遷移方式下展示了Flowers102數(shù)據(jù)集在VGG16、VGG19 和Resnet50 模型上的對數(shù)損失L累計分布。攻擊I 模式下,攻擊者攻擊教師模型,判斷輸入樣本是否為教師模型的成員樣本,且攻擊者能且僅能訪問教師模型。TMIA 在VGG16、VGG19 和Resnet50 模型上分別檢測到了42、43 和40 個異常樣本。本文將檢測到的異常樣本輸入對比模型,得到輸出標簽后,利用回歸分析得到其置信度,最后通過式(4)計算其對數(shù)損失。根據(jù)獲得的對數(shù)損失,繪制累計分布圖。
累計概率分布如圖6 所示,其中橫坐標表示對數(shù)損失L,縱坐標表示累計概率。判別輸入樣本是否為成員樣本時,將輸入樣本輸入目標模型,得到輸入樣本在目標模型下真實標簽類的置信度,隨后利用式(4)計算其對數(shù)損失,最后根據(jù)假設(shè)檢驗判別輸入樣本是否為成員樣本。
圖6 累計概率分布
本文對不同遷移學(xué)習(xí)下,正常擬合模型的數(shù)據(jù)成員隱私風(fēng)險進行了系統(tǒng)的研究。針對過去的工作主要面向過擬合模型,本文考慮的是正常擬合這一更加符合現(xiàn)實條件的環(huán)境,通過異常點檢測選擇容易受到成員推理攻擊的目標數(shù)據(jù)并根據(jù)假設(shè)檢驗保守地做出成員關(guān)系預(yù)測,使攻擊失敗成本降至最低。針對過去的工作主要面向個人獨自訓(xùn)練的模型,本文在遷移學(xué)習(xí)環(huán)境中設(shè)置了2 種不同遷移方式,并設(shè)計了3 種不同的攻擊模式。本文系統(tǒng)地設(shè)計了攻擊框架,并根據(jù)實驗結(jié)果評估了3 種攻擊對4 個真實數(shù)據(jù)集的攻擊性能。針對模型只能在標簽信息情況下過去攻擊無法正常工作的問題,本文提出了置信度重構(gòu)方法,在獲得信息更少的情況下,達到了與基于置信度攻擊幾乎一致的性能。
此外,本文TMIA 方法存在異常樣本檢測數(shù)量少的問題,這是由于本文提出的異常樣本檢測技術(shù)可能無法找到所有對模型預(yù)測產(chǎn)生特殊影響的樣本。另外,本文方法需要獲取目標模型的訓(xùn)練集分布,當攻擊者無法獲取目標模型訓(xùn)練集分布時,攻擊性能有一定降低。因此,在未來的研究中,作者將繼續(xù)研究異常樣本的檢測方法,找到更多的異常樣本,并找到一種不需要獲取目標模型訓(xùn)練集的通用方法。