胡奧婷 ,胡愛群 ,胡 韻 ,李古月,3 ,韓金廣
1 東南大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 南京 中國 211189
2 東南大學(xué)信息科學(xué)與工程學(xué)院 南京 中國 210096
3 網(wǎng)絡(luò)通信與安全紫金山實(shí)驗(yàn)室 南京 中國 211111
4 南京財(cái)經(jīng)大學(xué)江蘇省電子商務(wù)重點(diǎn)實(shí)驗(yàn)室 南京 中國 210023
數(shù)據(jù)分析和發(fā)布技術(shù)使得數(shù)據(jù)分析者可以學(xué)習(xí)大數(shù)據(jù)的共有規(guī)律。其中,統(tǒng)計(jì)信息分析[1-2]和機(jī)器學(xué)習(xí)是熱門應(yīng)用領(lǐng)域。然而,所有的數(shù)據(jù)分析任務(wù)如不添加合適的隱私保護(hù)技術(shù)都有可能泄漏個(gè)人隱私信息。這導(dǎo)致如今數(shù)據(jù)擁有者由于擔(dān)憂個(gè)人隱私泄漏問題不愿貢獻(xiàn)個(gè)人數(shù)據(jù)供第三方使用。歐洲針對此類問題,已經(jīng)出臺了《通用數(shù)據(jù)保護(hù)法規(guī)》(GDPR)規(guī)定第三方數(shù)據(jù)使用者有權(quán)保護(hù)個(gè)人隱私。
首先,本文舉例描述數(shù)據(jù)分析任務(wù)場景以及可能存在的隱私威脅。圖1 為Adult 公開數(shù)據(jù)庫的片段截取示例。在Adult 數(shù)據(jù)庫中,每一行代表一條個(gè)人(隱私)信息。數(shù)據(jù)分析者想要分析數(shù)據(jù)庫中所包含的模式規(guī)律。例如,統(tǒng)計(jì)問題“數(shù)據(jù)庫中有多少人的信息滿足屬性P?”屬性P 可以是“年收入超過50K?”或者“年齡超過50 歲”,或者兩者的交集。機(jī)器學(xué)習(xí)二分類任務(wù)可以是“基于個(gè)人的其他信息預(yù)測該人的年收入是否超過50K”。
為了在保護(hù)數(shù)據(jù)擁有者的個(gè)人信息的同時(shí)允許數(shù)據(jù)分析者分析數(shù)據(jù)中暗藏的模式,傳統(tǒng)隱私保護(hù)方式有非交互式和交互式兩種。其中匿名化為非交互式保護(hù)方式。匿名化指數(shù)據(jù)收集者把能表示個(gè)人身份信息的唯一識別號(例如身份證號,學(xué)號,姓名等)從原始數(shù)據(jù)庫中去除再發(fā)布。然而,Sweeney[3]提出87%的美國人可以通過郵編、出生日期和性別這三個(gè)組合屬性唯一識別,這暗示僅僅去除唯一識別號不足以保護(hù)個(gè)人身份不被泄漏。隨后,Narayanan和Shmatikov 提出鏈接攻擊(linkage attack)[4]。該攻擊通過將一個(gè)公共數(shù)據(jù)庫的信息鏈接到私有數(shù)據(jù)庫從而暴露私有數(shù)據(jù)庫里的隱私屬性。為了應(yīng)對該攻擊,k-匿名[3]、l-多樣化[5]、t-近似[6]等技術(shù)相繼提出。但是,這些攻擊或受到背景知識攻擊影響,或缺少嚴(yán)謹(jǐn)量化的隱私定義。這些技術(shù)假設(shè)數(shù)據(jù)集中的屬性可分類為隱私屬性和公共屬性。隱私屬性需要保護(hù)而公共屬性可以公開。但根據(jù)后來研究表明[7],隱私屬性和公共屬性并不存在明顯的分界,因?yàn)槿魏螌傩越M合皆有可能泄漏個(gè)人的獨(dú)有特征規(guī)律。這個(gè)結(jié)論尤其符合如今的大數(shù)據(jù)環(huán)境。
當(dāng)非交互式數(shù)據(jù)發(fā)布難以兩全個(gè)人隱私保護(hù)和數(shù)據(jù)分析任務(wù)時(shí),交互式問答成為研究者的新方向。然而,直接回答關(guān)于數(shù)據(jù)庫的統(tǒng)計(jì)問答也有可能會泄漏個(gè)人隱私,例如差分攻擊。攻擊者向某醫(yī)療數(shù)據(jù)庫提問“數(shù)據(jù)庫中有多少人患有癌癥?”和“有多少除了小明的人患有癌癥?”可以直接差分出小明是否患有癌癥。
在以上案例場景中,隱私保護(hù)目標(biāo)是在不違反個(gè)人隱私的條件下允許數(shù)據(jù)分析者學(xué)習(xí)群體規(guī)律。因此,如何定義個(gè)人隱私泄漏至關(guān)重要。從信息論的角度上分析,群體規(guī)律的學(xué)習(xí)必然會導(dǎo)致數(shù)據(jù)分析者得到更多的信息以猜測個(gè)人隱私。例如,某調(diào)查結(jié)果“肺癌和吸煙有緊密關(guān)系”必然會增強(qiáng)攻擊者猜測吸煙人群是否患有肺癌的正確概率。在圖1 中,某機(jī)器學(xué)習(xí)分類器獲得80%的測試集正確率。然后其預(yù)測個(gè)人年薪是否超過50K 的正確率會從原本的50%提高到80%(假設(shè)income 屬性平衡)。這些情況是否能稱為隱私泄漏?現(xiàn)有的隱私定義難以回答這類定性問題,因此需要新的隱私保護(hù)定義。
差分隱私(Differential Privacy,DP)定義了“合理的可否認(rèn)性”[8],即某條個(gè)人信息是否參與調(diào)查,調(diào)查結(jié)果都維持“大致”相同。這等同于保證攻擊者幾乎無法察覺某個(gè)人的信息是否用于計(jì)算調(diào)查結(jié)果。“大致”是由隱私預(yù)算ε 控制。該參數(shù)提供隱私和實(shí)用性的折中。在實(shí)際應(yīng)用中,差分隱私機(jī)制向調(diào)查結(jié)果中加入一定量的噪聲。噪聲的量由隱私預(yù)算ε 和問題敏感度控制。敏感度度量了兩個(gè)漢明距離為1的數(shù)據(jù)庫回答同一個(gè)問題的最大差值。
如今,差分隱私已經(jīng)成為執(zhí)行隱私保護(hù)的實(shí)際標(biāo)準(zhǔn)。微軟[9]、蘋果[10]、谷歌[11-12]、美國人口調(diào)查局[13]、哈弗大學(xué)PSI 項(xiàng)目[14]等都通過利用該技術(shù)分析敏感數(shù)據(jù)。本文旨在分析差分隱私技術(shù)在機(jī)器學(xué)習(xí)領(lǐng)域用于隱私保護(hù)的理論與應(yīng)用。通過剖析差分隱私與機(jī)器學(xué)習(xí)交叉領(lǐng)域技術(shù),提出該領(lǐng)域存在的問題和可能的解決方向。
近年來有以下與差分隱私相關(guān)的綜述性分析。在這些綜述分析中,Dwork 等人[2]首先給出隱私保護(hù)分析中存在的問題以及初步的差分隱私解決方案。Dwork 和Roth[15]總結(jié)了到2014 年為止差分隱私出現(xiàn)的理論性技術(shù)。Sarwate 和Chaudhuri[7],Ji 等人[16],Goryczka 等人[17]和Jain 等人[18]分別強(qiáng)調(diào)信號處理、機(jī)器學(xué)習(xí)、多方安全計(jì)算、大數(shù)據(jù)中存在的差分隱私問題。Zhu 等人[19]介紹了差分隱私的數(shù)據(jù)共享和分析,與本文目標(biāo)類似。然而近年來,隨著差分隱私技術(shù)及機(jī)器學(xué)習(xí)技術(shù)的迅速發(fā)展,許多新的理論突破和實(shí)踐層出不窮。因此本文將涵蓋更多新發(fā)展的技術(shù)和問題。
本文旨在幫助讀者迅速了解差分隱私的進(jìn)化發(fā)展歷程,并熟悉差分隱私機(jī)制的在機(jī)器學(xué)習(xí)領(lǐng)域的應(yīng)用。圖2 給出常見的隱私數(shù)據(jù)分析場景架構(gòu),其中數(shù)據(jù)擁有者提供敏感數(shù)據(jù)集;服務(wù)提供者,例如機(jī)器學(xué)習(xí)服務(wù)提供商(Machine Learning as a Service,MLaaS)負(fù)責(zé)數(shù)據(jù)分析和以及用戶隱私保護(hù);常規(guī)用戶旨在獲取查詢結(jié)果,同時(shí)惡意用戶可能成為竊取隱私信息的攻擊者。
后文結(jié)構(gòu)如下:第2 節(jié)介紹差分隱私的定義、實(shí)現(xiàn)機(jī)制、常用性質(zhì)定理;第3 節(jié)介紹機(jī)器學(xué)習(xí)領(lǐng)域熱門的威脅模型、攻擊以及與差分隱私的聯(lián)系;第4節(jié)介紹差分隱私機(jī)制在機(jī)器學(xué)習(xí)中兩種熱門模型:鑒別模型(discriminative model)以及生成模型(generative model)中的運(yùn)用;第5 節(jié)總結(jié)差分隱私在機(jī)器學(xué)習(xí)領(lǐng)域應(yīng)用存在的公開問題和研究方向。
2.1.1 定義
直觀上,差分隱私向數(shù)據(jù)擁有者保證:無論某一條數(shù)據(jù)是否存在于隱私數(shù)據(jù)集D中,調(diào)查結(jié)果大致不變。首先,定義相鄰數(shù)據(jù)集(neighboring datasets)為:數(shù)據(jù)集D和數(shù)據(jù)集D′相差一條個(gè)人信息xi?N|X|,即漢明距離dHD,D=1。差分隱私定義為:
表1 常用符號Table 1 Notations
定義1.?-差分隱私[8].對任意相鄰數(shù)據(jù)集D和數(shù)據(jù)集D′和任意算法結(jié)果S,隨機(jī)算法M如果滿足
則M是?-差分隱私。概率空間由M的隨機(jī)性算法決定。
在定義1 中,隱私預(yù)算?是乘性界限的自然對數(shù)。小的隱私預(yù)算?指數(shù)據(jù)集D和數(shù)據(jù)集D′分布距離更小,即一條隱私數(shù)據(jù)的信息對結(jié)果的影響力十分有限。因此,小隱私預(yù)算?意味著更高的隱私保護(hù)力度。
2.1.2 機(jī)制
純粹的差分隱私可以通過拉普拉斯(Laplace)機(jī)制、指數(shù)機(jī)制和隨機(jī)應(yīng)答(randomized response)實(shí)現(xiàn)。
1) 拉普拉斯機(jī)制
拉普拉斯機(jī)制[8]旨在向數(shù)字查詢結(jié)果f:N|X|→Rk添加校準(zhǔn)噪聲。例如,在圖1 中,某計(jì)數(shù)查詢或分?jǐn)?shù)查詢?yōu)椤坝卸嗌偃说哪晔杖氤^50K?”。為了保證相鄰數(shù)據(jù)集對同一個(gè)問題的答案差距足夠小,我們需要度量查詢f的敏感度(sensitivity)。在拉普拉斯機(jī)制中,用?1度量敏感度,定義如下。
定義2.?1敏感度.?1-敏感度定義了相鄰數(shù)據(jù)集D和D回答問題f結(jié)果的最大差
其中‖?‖1是一階范數(shù)。
根據(jù)定義2,計(jì)數(shù)查詢的?1-敏感度為1。分?jǐn)?shù)查詢的?1-敏感度為1/N,N為數(shù)據(jù)集D的大小.
由于定義1 中應(yīng)用乘性距離,添加拉普拉斯噪聲天然滿足差分隱私。尺度為b、中心為0 的拉普拉斯分布的概率密度函數(shù)為據(jù)此,拉普拉斯差分隱私機(jī)制如下:
定理1.拉普拉斯機(jī)制[8].給定數(shù)值查詢函數(shù)f,隱私數(shù)據(jù)庫D和拉普拉斯噪聲Y~如下隨機(jī)擾動函數(shù)ML滿足?-差分隱私。
定理1 的合理性可以通過計(jì)算MLD,f,?在相鄰數(shù)據(jù)集上結(jié)果的最大差值對數(shù)比得出。
根據(jù)定理1,拉普拉斯機(jī)制ML的噪聲被縮放為用以滿足?-差分隱私。因?yàn)樵肼暣笮∨c隱私損失?成反比,所以隱私損失?越小,所添加的的噪聲幅度越大,則查詢結(jié)果越不準(zhǔn)確。因此,隱私損失?控制隱私與效用之間的折中。
2) 指數(shù)機(jī)制
不同于拉普拉斯機(jī)制,指數(shù)機(jī)制[20]旨在向非數(shù)值型查詢函數(shù)f:N|X|→R結(jié)果r ?R添加噪聲,特別是選擇最優(yōu)解。對于有些無法直接向答案中添加噪聲的非數(shù)值型問題和有一些直接添加噪聲會破壞數(shù)據(jù)可用性的數(shù)值型問題,例如醫(yī)療記錄、產(chǎn)品名稱等查詢,指數(shù)機(jī)制通過定義效用函數(shù)u:N|D|×R →R將輸入輸出對映射為一個(gè)實(shí)數(shù)。效用函數(shù)u定義首選對獲得更高的分?jǐn)?shù)。效用函數(shù)的敏感度定義如下:
據(jù)此,差分隱私的指數(shù)機(jī)制MED,u,R有如下定理:
因此滿足?-差分隱私。
3) 隨機(jī)應(yīng)答機(jī)制
拉普拉斯機(jī)制和指數(shù)機(jī)制都是在交互式問答的查詢結(jié)果中添加噪聲以滿足差分隱私,而隨機(jī)應(yīng)答應(yīng)用于非交互式場景。它直接向本地個(gè)人信息中添加噪聲,然后發(fā)布凈化的本地信息。該機(jī)制適用于收集眾包數(shù)據(jù)(谷歌、蘋果,微軟等公司運(yùn)用該技術(shù)收集用戶信息,如輸入習(xí)慣、表情包喜好等)。隨機(jī)應(yīng)答機(jī)制[21]早在差分隱私提出之前就已經(jīng)廣泛使用。但是后來證明其滿足差分隱私要求。
回顧圖1,數(shù)據(jù)分析者想了解“Adult 數(shù)據(jù)庫中多少比例的人群年收入超過50K?”。拉普拉斯機(jī)制要求有某個(gè)可信數(shù)據(jù)中心先收集所有用戶的真實(shí)答案,計(jì)算查詢結(jié)果再添加差分隱私噪聲。而在隨機(jī)應(yīng)答模式中無需可信數(shù)據(jù)中心。數(shù)據(jù)分析者獲取查詢“某個(gè)人年薪是否超過50K”的擾動答案,再自行聚合擾動答案以逼近真實(shí)答案。具體操作如下:每個(gè)參與回答“年薪是否超過50K”的人,都扔一枚硬幣,如果是“字”即誠實(shí)回答,如果是“花”則再扔一枚硬幣,硬幣是“字”回答“是”,硬幣是“花”回答“否”。假設(shè)真實(shí)答案中“是”的比例為q,那么擾動回答中“是”的比例則為q=0.5*q+0.25。當(dāng)發(fā)布了一批擾動答案后,數(shù)據(jù)分析者估計(jì)真實(shí)“是”比例為2*q-0.5。據(jù)此,數(shù)據(jù)分析者既獲得年收入大于50K 的人數(shù)比例,個(gè)人信息得到了保護(hù)。在該機(jī)制中,參與問答的用戶越多,數(shù)據(jù)分析者得到的查詢結(jié)果越準(zhǔn)確。因此當(dāng)數(shù)據(jù)量稀少時(shí),不適合該機(jī)制。
根據(jù)以上隨機(jī)擾動案例,令單個(gè)查詢函數(shù)為f,隨機(jī)應(yīng)答機(jī)制為MRD,f,?,對任意x ?D和其隨機(jī)應(yīng)答r,滿足
同理,
因此,隨機(jī)擾動算法MRD,f,?滿足3-差分隱私。更廣泛的,在二元分布中,給定隨機(jī)應(yīng)答機(jī)制
2.1.3 性質(zhì)
差分隱私定義的廣泛使用離不開其滿足的性質(zhì):合成定理(composition)、對輔助信息的魯棒性、抗后處理(post-processing)、群差分隱私(Group Differential Privacy,GDP)。這些性質(zhì)可以保證差分隱私適應(yīng)于模塊化設(shè)計(jì)。
1) 合成定理
合成定理[15]使得差分隱私可優(yōu)雅的模塊化疊加。多步差分隱私算法作用于同一數(shù)據(jù)庫,其隱私消耗線性疊加。
定理3.合成定理[15].令D為隱私數(shù)據(jù)庫,f為查詢函數(shù)。同時(shí)輸出擾動結(jié)果M1D,f,?1,M2D,f,?2滿足?1+?2差分隱私。
2) 對輔助信息的魯棒性
差分隱私的保護(hù)效果應(yīng)不受攻擊者掌握的背景知識多少影響[15]。該性質(zhì)可利用貝葉斯定理比較攻擊者先驗(yàn)和后驗(yàn)的攻擊優(yōu)勢差。令攻擊者對數(shù)據(jù)集D分布的先驗(yàn)知識為pD,擾動機(jī)制MD,f,?輸出結(jié)果為r。由定義1 可知,pr|Dpr|D≤exp?,在等式左邊使用貝葉斯定理得
3) 抗后處理
抗后處理定理指對某個(gè)差分隱私的結(jié)果做后續(xù)分析不會削弱其差分隱私保護(hù)效果。
定理4.抗后處理定理[15].令M:N|X|→R是?-差分隱私機(jī)制,g:R →R為任意函數(shù)。g ? M:N|X|→R依然是?-差分隱私。
該定理保證了,如果算法M是?-差分隱私,無論數(shù)據(jù)分析者如何使用差分隱私的結(jié)果,利如使用算法g對M的結(jié)果做進(jìn)一步數(shù)據(jù)分析,都不會降低算法M對隱私數(shù)據(jù)的保護(hù)效果。
4) 群差分隱私
群差分隱私保護(hù)“關(guān)聯(lián)的隱私數(shù)據(jù)”。當(dāng)多個(gè)隱私數(shù)據(jù)之間存在確定性或者概率性的關(guān)聯(lián)時(shí),可以將其當(dāng)作一個(gè)群組。群差分隱私定義隱私損失隨著群組大小的增大而線性增大。例如,當(dāng)某調(diào)查中出現(xiàn)一個(gè)家庭的多條隱私數(shù)據(jù)時(shí),他們的數(shù)據(jù)屬性是高度關(guān)聯(lián)的。他們可能會共享地址、郵編等。因?yàn)楦淖兡骋粭l記錄的屬性對結(jié)果產(chǎn)生的影響可能會比原先估計(jì)的要大。
定理 5.群差分隱私[15].某差分隱私機(jī)制MD,f,?在群組大小為k時(shí)滿足k?-差分隱私。即,對≤k以及其可能出現(xiàn)的擾動結(jié)果S
該定理用于處理數(shù)據(jù)庫分析中的關(guān)聯(lián)數(shù)據(jù)集。但是,后續(xù)有研究指出當(dāng)群數(shù)組關(guān)系為概率性而非確定性時(shí),差分隱私會引入過多的噪聲[22]。
差分隱私在實(shí)際使用中,存在幾種近似定義。近似定義意在降低達(dá)成同等隱私損失?而添加的噪聲量(對比定義1)。主流的近似定義有?,δ-差分隱私[23],Concentrated 差分隱私(CDP)[24]和zero-Concentrated 差分隱私(zCDP)[25],Moments Accountant[26],Rényi 差分隱私(RDP)[27]。其中?,δ-差分隱私使用最為廣泛。
定義3.?,δ-差分隱私[23].對任意相鄰數(shù)據(jù)集數(shù)據(jù)集D和數(shù)據(jù)集D′和任意算法結(jié)果S,隨機(jī)算法M如果滿足:
該定義配合高斯機(jī)制使用。高斯噪聲比拉普拉斯噪聲存在更為普遍,且原始數(shù)據(jù)集中可能已經(jīng)包含高斯噪聲。另外,高斯噪聲的分布函數(shù)比拉普拉斯噪聲更加集中。因此添加高斯噪聲是更自然的選擇。高 斯 噪 聲N0,σ的 概 率 密 度 函 數(shù) 為。與拉普拉斯機(jī)制類似,高斯機(jī)制也是向查詢結(jié)果中添加噪聲。噪聲幅度由問題敏感度與隱私預(yù)算決定。不同于拉普拉斯機(jī)制的是,高斯機(jī)制使用?2敏感度度量兩個(gè)查詢結(jié)果的最大差別。
定義4.?2敏感度[23].?2-敏感度定義了相鄰數(shù)據(jù)集D和D回答查詢f結(jié)果的最大差:
其中‖?‖2是歐幾里德范數(shù)。
對于查詢函數(shù)f,?2敏感度通常要比?1敏感度小(特別是敏感度小于1)。因此,需要添加的高斯噪聲幅度通常要比拉普拉斯噪聲小。
定理6.高斯機(jī)制[23].給定數(shù)值查詢函數(shù)f,隱私數(shù)據(jù)庫D 和拉普拉斯噪聲N~N0,σ,如果c2>2ln1.25/δ,σ≥cΔ2f/?,則隨機(jī)函數(shù)MG滿足?,δ-差分隱私。
與拉普拉斯機(jī)制類似,高斯噪聲的標(biāo)準(zhǔn)差設(shè)置小于cΔ2f/?,其中參數(shù)c控制不滿足?-差分隱私機(jī)制的概率不大于δ。感興趣的讀者可以在文獻(xiàn)[15]的附錄A 中找到推導(dǎo)過程。
高斯機(jī)制的優(yōu)勢有:第一,差分隱私所添加的噪聲可能與數(shù)據(jù)集中原本存在的噪聲同分布;第二,高斯噪聲的和依然是高斯噪聲(拉普拉斯噪聲不是);第三,高斯分布概率密度的尾端比拉普拉斯分布降速更快,即更集中。
其弱點(diǎn)為:第一,高斯機(jī)制為了降低同等隱私預(yù)算下的噪聲添加量,遺留δ概率的完全隱私侵犯。實(shí)際使用中,我們一般將δ設(shè)置成遠(yuǎn)遠(yuǎn)小于數(shù)據(jù)庫大小倒數(shù)的值,即δ ?1/N,以保證沒有用戶的隱私會被侵犯。第二,雖然基于高斯機(jī)制的?,δ-差分隱私定義與?-差分隱私同樣享有對冗余信息的魯棒性、抗后處理、群差分隱私,但是其合成定理較為復(fù)雜。其中同質(zhì)(homogeneous)?,δ-差分隱私機(jī)制M的合成定理[28]見定理6。但是異質(zhì)(heterogeneous)差分隱私機(jī)制的合成是#P-難度[29-30]。
定理7.高級合成定理(advanced composition)[28].同質(zhì)?,δ-差分隱私機(jī)制M重復(fù)輸出k次對數(shù)據(jù)庫D的查詢結(jié)果滿足差分隱私。
為了解決合成定理的難題,后續(xù)提出了其他的近似差分隱私定義。
2.2.2 其他近似定義
1) CDP 和zCDP
Dwork 和Rothbulum 提出CDP[24],其利用了亞高斯尾巴很小的特點(diǎn)以平均隱私損失。CDP 定義比?,δ-差分隱私定義弱一些,但是提供更高的可用性和更優(yōu)的高斯機(jī)制合成定理。其后,Bun 和Steinke[25]利用Rényi 差異(Rényi divergence)捕獲兩分布的差異性以提出改良的zCDP。
2) Moments Accountant
Abadi 等人[26]提出Moments Accountant 技術(shù),用于跟蹤深度學(xué)習(xí)中差分隱私預(yù)算的變化量。在第3節(jié)講述差分隱私的隨機(jī)梯度遞減算法時(shí)會詳述。
3) Rényi 差分隱私
2017 年,Mironov 提出Rényi 散度是差分隱私的一種天然近似形式[27]。?-差分隱私使用最大差異(maximum divergence)來度量兩個(gè)相鄰數(shù)據(jù)庫查詢差別。而Rényi 散度使用參數(shù)α放松該最大差異條件。
表2 中總結(jié)了幾種差分隱私定義。值得注意的是,Jayaraman 和Evans 在文獻(xiàn)[30]中對比了Advanced Composition(定理7)、CDP、zCDP 和RDP 在實(shí)際使用中的隱私預(yù)算累加效果,總體來說,RDP 表現(xiàn)最優(yōu)。因此在機(jī)器學(xué)習(xí)領(lǐng)域中常采用的差分隱私機(jī)制是高斯機(jī)制。在追蹤隱私預(yù)算時(shí),使用RDP+Moments Accountant 技術(shù),最后將RDP 中所定義的轉(zhuǎn)化成?,δ-差分隱私。據(jù)此,下文簡述RDP 機(jī)制原理及其對比?,δ-差分隱私的優(yōu)勢。
表2 差分隱私常見定義Table 2 Different definitions of differential privacy
理解RDP 機(jī)制首先要理解Rényi 散度的定義,以及為什么Rényi 散度是?-差分隱私的天然泛化形式。
定義5.Rényi 散度.對分布Px和Qx,α >1條件下的Rényi 散度定義為
定義6.Rényi 差分隱私[27].對任意相鄰數(shù)據(jù)集數(shù)據(jù)集D和數(shù)據(jù)集D′和任意算法結(jié)果S,隨機(jī)算法M 如果滿足DαMD||MD≤?,則稱為α,?-RDP。
根據(jù)定義6,∞,?-RDP 就是?-DP。Rényi 差分隱私有以下兩個(gè)重要性質(zhì)。
定理8.α,?-RDP 轉(zhuǎn)換成?,δ-DP[27]。對任意δ和α,α,?-RDP 可以轉(zhuǎn)換成
定理 9.RDP 的合成定理.給定α,異質(zhì)α,?i-RDP 機(jī)制Mi的累加滿足α,∑i ?i-RDP。
首先,RDP 依然享有冗余信息的魯棒性、抗后處理、群差分隱私。更重要的是,同?-DP,它能夠優(yōu)雅的累加異質(zhì)差分隱私算法的隱私預(yù)算(見定理9),但是這在?,δ-DP 定義中是難題(見2.2.1 分析)。除此之外,依據(jù)定理8,(α,?-RDP 在累加結(jié)束后可便捷轉(zhuǎn)換成?,δ-DP 定義。之所以需要轉(zhuǎn)換,是因?yàn)?,δ-DP定義更容易理解且δ具有物理意義(即不滿足?-DP 的概率)。
RDP 的實(shí)現(xiàn)機(jī)制?RDP 有多種實(shí)現(xiàn)機(jī)制,其中高斯機(jī)制較為常用。當(dāng)查詢f的?2-敏感度為1 時(shí),添加N~N0,σ噪聲的高斯機(jī)制MG滿足α,α/2σ2-RDP。該證明可以由直接計(jì)算兩個(gè)高斯分布的DαN0,σ,Nμ,σ的Rényi 散度得出。
綜上,本節(jié)總結(jié)了差分隱私常用的定義形式(表2)和實(shí)現(xiàn)機(jī)制以及其利弊(表3),下一節(jié)我們詳述機(jī)器學(xué)習(xí)中存在的威脅模型及與差分隱私的聯(lián)系。
表3 差分隱私實(shí)現(xiàn)機(jī)制Table 3 Mechanisms for Differential Privacy
隨著機(jī)器學(xué)習(xí)的深入發(fā)展,深度學(xué)習(xí)已經(jīng)成為尋找數(shù)據(jù)規(guī)律的重要手段。一般的,機(jī)器學(xué)習(xí)通過建立模型、優(yōu)化損失函數(shù)來擬合數(shù)據(jù)。但是,機(jī)器學(xué)習(xí)模型如果用來擬合個(gè)人敏感數(shù)據(jù),例如醫(yī)療數(shù)據(jù)、人口普查信息、學(xué)校數(shù)據(jù)、銀行數(shù)據(jù)等,會對個(gè)人隱私保護(hù)提出挑戰(zhàn)。當(dāng)攻擊者獲取機(jī)器學(xué)習(xí)模型后,模型輸出特性可能泄漏訓(xùn)練數(shù)據(jù)的隱私信息。例如某個(gè)人的信息是否存在于隱私數(shù)據(jù)集中(成員猜測攻擊),或者猜測某個(gè)人的隱私屬性(屬性猜測攻擊)。
討論攻擊之前,首先需要定義威脅模型。威脅模型可以用來度量攻擊者能力及其抵抗方法的有效性。具體包括以下三個(gè)方面:攻擊者的目標(biāo)、知識和能力。攻擊者的目標(biāo)根據(jù)不同攻擊類型有所不同,我們將在3.2 節(jié)詳述。攻擊者的知識和能力在機(jī)器學(xué)習(xí)領(lǐng)域主要體現(xiàn)在以下兩個(gè)方面:模型知識和數(shù)據(jù)集知識。
模型知識:白盒子MW和黑盒子MB。白盒子攻擊者掌握目標(biāo)機(jī)器學(xué)習(xí)模型的模型架構(gòu)和模型參數(shù)。黑盒子攻擊指的是攻擊者只能接入模型API,即查詢模型并獲取返回的預(yù)測結(jié)果(可能包含預(yù)測結(jié)果的概率),但是不知道模型參數(shù)。許多黑盒子模型假設(shè)攻擊者知道目標(biāo)模型的架構(gòu)。因?yàn)楫?dāng)攻擊者使用現(xiàn)有機(jī)器學(xué)習(xí)及服MLaaS 時(shí),其能夠復(fù)現(xiàn)目標(biāo)模型的架構(gòu)。
數(shù)據(jù)集知識:攻擊者是否擁有額外數(shù)據(jù)集。攻擊者能力由強(qiáng)到弱依次分為:(1)可獲取部分訓(xùn)練集;(2)獲取同分布數(shù)據(jù)集;(3)無額外數(shù)據(jù)集。第一種情況下,攻擊者獲得部分訓(xùn)練集;第二種情況下,攻擊者獲取與訓(xùn)練集同分布但不相交數(shù)據(jù)集(例如,對抗生成網(wǎng)絡(luò)生成的人工合成數(shù)據(jù)集,又叫影子數(shù)據(jù)集);第三種情況,攻擊者沒有任何額外數(shù)據(jù)集。
常見的在機(jī)器學(xué)習(xí)領(lǐng)域與隱私保護(hù)(privacy protection)相關(guān)的攻擊分為以下幾類:成員猜測攻擊(membership inference attack),模型反演攻擊(model inversion attacks),屬性猜測攻擊(attribute inference attack),模型竊取攻擊(model stealing attack),無意識記憶(unintended memorization)。值得注意的是,對抗樣本攻擊(adversarial samples)[31]是另一類較為熱門的威脅到機(jī)器學(xué)習(xí)模型安全的議題,但是屬于模型安全領(lǐng)域(model security),與隱私保護(hù)無關(guān),因此不在本文討論范圍內(nèi)。
3.2.1 成員猜測攻擊
成員猜測攻擊[32],也叫追蹤攻擊,攻擊目標(biāo)是猜測某條個(gè)人信息是否在目標(biāo)模型的訓(xùn)練集中。成員猜測攻擊導(dǎo)致的直接后果是當(dāng)某個(gè)數(shù)據(jù)集本身具有敏感屬性,則探知成員信息存在性可直接泄漏其隱私屬性。例如,用某一癌癥數(shù)據(jù)庫作為訓(xùn)練集訓(xùn)練模型,當(dāng)攻擊者探知A屬于該訓(xùn)練集,則可知A患有癌癥。另外,成員猜測攻擊還可以用于檢測非法數(shù)據(jù)使用[33]。成員猜測攻擊的原理是目標(biāo)模型對于訓(xùn)練集和其他數(shù)據(jù)的表現(xiàn)不同。例如,目標(biāo)分類器在預(yù)測階段,對訓(xùn)練集會表現(xiàn)出更高的置信度,而對其他數(shù)據(jù)則表現(xiàn)較低的置信度。因此,過擬合的模型比泛化的模型更容易受到成員猜測攻擊影響。根據(jù)攻擊者掌握的目標(biāo)模型知識不同,分為黑盒子攻擊[32,34]和白盒子[35]攻擊。在白盒子攻擊下,攻擊者通常利用模型梯度向量進(jìn)行攻擊;在黑盒子攻擊下,攻擊者通常利用對標(biāo)簽預(yù)測的置信度向量進(jìn)行攻擊。最新的文獻(xiàn)中[36-37],也有提出僅僅需要黑盒子模型預(yù)測的標(biāo)簽(無需置信度)也可以發(fā)起有效成員猜測攻擊。
差分隱私技術(shù)可以有效防止成員猜測攻擊。從定義上可以看出,差分隱私限制某一條信息對查詢結(jié)果的影響,因此限制了成員猜測攻擊的成功率上限。大多研究也表明[32,38-39],差分隱私可以有效防止成員猜測。
3.2.2 模型反演攻擊
模型反演攻擊,指的是攻擊者擁有白盒子模型,意圖重構(gòu)部分訓(xùn)練集,或者部分類表征。例如,Fredi kson 等人[40]依據(jù)目標(biāo)黑盒子模型和部分公共屬性猜測個(gè)體基因型。隨后,Fredrikson 等人[41]提出模型反演可以恢復(fù)部分訓(xùn)練集面部信息。但是,該攻擊只有當(dāng)類成員近似時(shí),才能發(fā)揮作用,例如MNIST 數(shù)據(jù)集,人臉識別數(shù)據(jù)集,等。此后,Hitaj 等人[42]提出在合作深度學(xué)習(xí)(collaborative deep learning)模式下的模型反演攻擊。攻擊者利用多方在線學(xué)習(xí)所傳遞的更新梯度以訓(xùn)練自己的GAN 生成模型[43],使得該生成模型能夠恢復(fù)部分人臉。近期,Zhang 等人[44]提出通過GAN 生成模型以及公共信息反演深度學(xué)習(xí)模型以人工合成(恢復(fù))訓(xùn)練集圖片。綜上,模型反演攻擊與下文即將提到的屬性推測攻擊有相似之處。但是模型反演攻擊所恢復(fù)的部分敏感屬性可能是和標(biāo)簽高度相關(guān)的。其攻擊的成功性也許依賴于目標(biāo)模型達(dá)到預(yù)期的泛化能力[45],因此模型反演攻擊是否需要防護(hù)在隱私保護(hù)領(lǐng)域的尚有爭議。
3.2.3 屬性猜測攻擊
屬性猜測攻擊旨在猜測與鑒別模型任務(wù)無關(guān)的屬性值。比如,某用于預(yù)測年齡的鑒別模型,攻擊者可以從中推測出種族屬性?;蛘?某張Bob 的人臉用于學(xué)習(xí)分類性別,但是攻擊者卻可以用其判斷Bob這張照片中其他人是否戴眼鏡。該攻擊說明,某些模型過度學(xué)習(xí)(overlearning)以致模型信息中包含了許多與原始任務(wù)無關(guān)的信息。Melis 等人[45]提出在合作模型學(xué)習(xí)中利用在線學(xué)習(xí)中的更新信息推測隱私屬性。比如,泄漏合作學(xué)習(xí)中的參與者在每輪更新的參與情況。防止過度學(xué)習(xí)并不十分容易?,F(xiàn)有抵抗措施主要包括學(xué)習(xí)訓(xùn)練集的替代表征[46]x →z,使得其與目標(biāo)最為相關(guān)的部分屬性,并盡量降低無關(guān)屬性的信息量s。但是,Song 和Shmatikov[47]的研究表示,即使訓(xùn)練集已經(jīng)被壓縮為不泄漏隱私的替代表征z,逆向工程仍然可以輕易的估計(jì)出逆向函數(shù)Tz→xapprox,再用xapprox訓(xùn)練攻擊模型以估計(jì)隱私信息量s。即,作者認(rèn)為過度學(xué)習(xí)可能是本能的,在不過度學(xué)習(xí)的條件下滿足目標(biāo)任務(wù)分類,也許不太可能。
3.2.4 模型竊取攻擊
模型竊取攻擊指的是,攻擊者只能提問黑盒子目標(biāo)模型 API(例如 Google,Amazon,BigML 等),推測出目標(biāo)模型的參數(shù),以使得竊取的模型和目標(biāo)模型具有相似特性。模型竊取攻擊有嚴(yán)重后果。其一,許多模型是私有財(cái)產(chǎn)并且按照查詢問題次數(shù)計(jì)費(fèi),因此偷取模型侵犯模型所有者的權(quán)利;其二,模型竊取攻擊給許多需要白盒子知識的攻擊(比如屬性知識攻擊,對抗生成樣本攻擊等)提供便利。Tramèr 等人[48]提出用解方程攻擊偷取邏輯回歸模型(logistic regression),用尋找路徑攻擊偷取決策樹模型。盡管模型竊取攻擊沒有直接泄漏用戶隱私,但是其侵犯模型所有者權(quán)益,并提高了攻擊者在其他類型攻擊者的模型知識和取勝概率。
3.2.5 無意識記憶
無意識記憶由Carlini 等人[49]在2019 年提出。作者發(fā)現(xiàn)語言生成模型可能會無意間暴露訓(xùn)練集隱私。比如,某個(gè)文字自動補(bǔ)全模型會自動補(bǔ)全隱私信息。例如,輸入“我的社交密碼是078-”,生成模型此時(shí)會自動補(bǔ)全后半部分“-05-1120”。隱私信息的自動補(bǔ)全說明模型不僅學(xué)習(xí)到語言模式,還記住了部分訓(xùn)練集中存在的隱私信息。更有甚者,作者發(fā)現(xiàn),模型記憶并非源自模型過擬合訓(xùn)練集,因?yàn)槟P驮谟?xùn)練初期已經(jīng)發(fā)生記憶,并非在后期。因此某些預(yù)防過擬合的正則化方法,例如提前停止訓(xùn)練(early-stopping)或者dropout 等并不能有效防止模型記憶。幸運(yùn)的是,作者發(fā)現(xiàn),只需要很小隱私預(yù)算?的差分隱私技術(shù)即可以有效防止模型記憶。
差分隱私機(jī)制從定義上防止成員猜測攻擊,模型記憶,并弱化屬性猜測攻擊。但是,其對模型反演攻擊和模型竊取攻擊的弱化效果不明顯。具體可參考Liu 等人[38]的研究。表4 總結(jié)了以上提到的五種攻擊以及差分隱私對它們的抵抗能力。
表4 機(jī)器學(xué)習(xí)模型的隱私威脅Table 4 The attacks that threat the machine learning models
為了能夠盡量減少對機(jī)器學(xué)習(xí)可用性的影響,不修改模型結(jié)構(gòu)及損失函數(shù),主流差分隱私抵抗機(jī)制研究分為梯度擾動(gradient perturbation)[55,26]和知識轉(zhuǎn)移(knowledge transfer)[57-58]兩種差分隱私方案。梯度擾動旨在修改訓(xùn)練過程中的梯度更新算法,在每個(gè)迭代周期的隨機(jī)梯度遞減算法結(jié)果中添加差分隱私噪聲。知識轉(zhuǎn)移機(jī)制基于采樣和聚合架構(gòu)(Sample and Aggregate Framework,SAF),將非隱私的學(xué)生模型采用差分隱私機(jī)制聚合出一個(gè)滿足差分隱私機(jī)制的老師模型然后發(fā)布。第4 節(jié)將詳細(xì)描述目標(biāo)/輸出/梯度擾動和知識轉(zhuǎn)移兩種差分隱私技術(shù)在鑒別模型和生成模型中的運(yùn)用。
鑒別模型主要指的是分類器模型,即給予目標(biāo)屬性,模型判斷其屬于哪個(gè)類別。鑒別模型在機(jī)器學(xué)習(xí)任務(wù)中應(yīng)用廣泛。生成模型,本文主要指對抗生成模型(Generative Adversarial Nets,GAN),用于生成與訓(xùn)練集近似分布的人工合成數(shù)據(jù)集。由于常見的GAN 分為一個(gè)鑒別器(discriminator)和一個(gè)生成器(generator)。所以許多針對鑒別模型的差分隱私機(jī)制可以微調(diào)以適應(yīng)GAN 模型。下文將首先介紹鑒別模型中的差分隱私機(jī)制,再介紹這些機(jī)制如何微調(diào)以保護(hù)GAN 模型。
4.1.1 目標(biāo)擾動和輸出擾動機(jī)制
機(jī)器學(xué)習(xí)領(lǐng)域,在早期經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(Empirical Risk Minimization,ERM)優(yōu)化凸函數(shù)時(shí),研究者率先提出了兩種方式:目標(biāo)擾動[59-61]和輸出擾動[58-59]。其中Chauhuri 等人[58]以邏輯回歸(logistic regression)為例,給出目標(biāo)擾動和輸出擾動的敏感度分析方法。但是其敏感度分析方法依賴目標(biāo)函數(shù)為強(qiáng)凸函數(shù)。隨著神經(jīng)網(wǎng)絡(luò)(neural networks)的深入發(fā)展,損失函數(shù)不再是凸函數(shù),因此依賴強(qiáng)凸函數(shù)條件的分析敏感度的方法不再可行,隱私保護(hù)的方法逐漸轉(zhuǎn)入梯度擾動[26,55]。梯度擾動無需損失函數(shù)為強(qiáng)凸性。且敏感度分析可以通過梯度裁剪實(shí)現(xiàn)。表6 總結(jié)了3 種擾動的實(shí)現(xiàn)機(jī)制。
機(jī)器學(xué)習(xí)任務(wù)背景:設(shè)訓(xùn)練集為x,yN,其中x是屬性,y是標(biāo)簽,機(jī)器學(xué)習(xí)目標(biāo)是根據(jù)屬性x預(yù)測標(biāo)簽y。目標(biāo)函數(shù)有如下基本形式:
其中,?為某種損失函數(shù),例如交叉墑或均方差函數(shù)。R為正則函數(shù)。機(jī)器學(xué)習(xí)的目標(biāo)是找出最優(yōu)參數(shù)使得
目標(biāo)擾動和輸出擾動。分別對應(yīng)表5 中的方案#1 和方案#3。目標(biāo)擾動在損失函數(shù)中加入噪聲。輸出擾動在輸出結(jié)果中加入噪聲。難點(diǎn)都在于敏感度分析。Chauhuri 等人[58]給出在二分類的邏輯回歸任務(wù)中采用smooth 敏感度技術(shù)等方法推導(dǎo)出的差分隱私加噪幅值,使之可以應(yīng)用于實(shí)際案例中。但是,該機(jī)制只能應(yīng)用于二分類模型,且要求目標(biāo)函數(shù)為強(qiáng)凸型,訓(xùn)練集為較低維度。
表5 差分隱私噪聲添加方法Table 5 Differential private noise addictive mechanisms
4.1.2 梯度擾動機(jī)制
隨機(jī)梯度下降(Stochastic Gradient Decent,SGD)是目前優(yōu)化神經(jīng)網(wǎng)絡(luò)損失函數(shù)的常用方法。它在每個(gè)周期隨機(jī)采樣部分訓(xùn)練集,計(jì)算經(jīng)驗(yàn)梯度以估計(jì)總體梯度并更新參數(shù)。如果損失函數(shù)并非強(qiáng)凸(神經(jīng)網(wǎng)絡(luò)中,一般都不是強(qiáng)凸),則隨機(jī)梯度下降會優(yōu)化至某個(gè)局部最優(yōu)點(diǎn)。差分隱私的隨機(jī)梯度擾動(DPSGD)旨在將符合差分隱私規(guī)范的噪聲添加到每個(gè)周期的經(jīng)驗(yàn)梯度中,用擾動的梯度估計(jì)更新網(wǎng)絡(luò),以使得每個(gè)周期更新的網(wǎng)絡(luò)參數(shù)都滿足差分隱私機(jī)制。
根據(jù)表5 公式(12),隨機(jī)梯度擾動在周期t的基本形態(tài)如下
其中,wt是第t輪模型的權(quán)重,ηt是學(xué)習(xí)率,J是損失函數(shù),Bt為第t輪選擇的訓(xùn)練集批次(batch)且b=|Bt|。
添加差分隱私擾動的形式如下:
定理10.子采樣隱私放大定理[63-64].如果機(jī)制M 滿足?,δ-DP,則M ?subsample 滿足log1+qe?-1,qδ-DP,其中q=b/N指子采樣率。
TensorFlow Privacy①https://github.com/tensorflow/privacy。RDP 可以看作是moments accountant 技術(shù)的一個(gè)實(shí)例化,其中比較著名的開源實(shí)現(xiàn)是TensorFlow 的Privacy 項(xiàng)目。我們簡要介紹其隱私追蹤思路:通過添加噪聲采樣自N0,σ2,將非隱私保護(hù)的SGD 算法修改為高斯機(jī)制 DP-SGD,則單輪對某個(gè)批次滿足α,αC2/2σ2-RDP,其中C為裁剪閾值。然后根據(jù)RDP 的子采樣放大定理[61]計(jì)算其放大后的隱私預(yù)算。之后,根據(jù)RDP 線性疊加定理,對k輪迭代線性疊加隱私消耗。最后根據(jù)定理8 遍歷部分α參數(shù)找出最小?,并將RDP 轉(zhuǎn)換為?,δ-DP。
4.1.3 知識轉(zhuǎn)移
知識轉(zhuǎn)移方法指的是從一群非隱私保護(hù)的老師模型(teacher ensembles)中以隱私保護(hù)的模式把模型知識轉(zhuǎn)移到一個(gè)新的學(xué)生模型(student model)中,使得學(xué)生模型滿足隱私保護(hù),并將學(xué)生模型發(fā)布給使用者。其中代表性的案例為Private Aggregation of Teacher Ensembles (PATE)①https://github.com/tensorflow/privacy/tree/master/research[56]。PATE可以看成是SAF技術(shù)[62]在深度學(xué)習(xí)中的一個(gè)實(shí)例化應(yīng)用。PATE 的訓(xùn)練過程可以分解為兩部分:teacher ensembles 訓(xùn)練(圖3 左側(cè))和student model 訓(xùn)練(圖3 右側(cè))。
· Teacher ensembles 訓(xùn)練。首先,對于隱私數(shù)據(jù)集x,yN將其分成均等大小的n份,對于每一份數(shù)據(jù)集x,yi訓(xùn)練一個(gè)神經(jīng)網(wǎng)絡(luò)做分類任務(wù)。由此,總共獲取n個(gè)老師模型Ti。當(dāng)有用戶用老師模型做標(biāo)簽預(yù)測時(shí),老師模型們會集合出一個(gè)加噪的標(biāo)簽返回給用戶。Papernot[56-57]采用Laplace 機(jī)制和高斯機(jī)制返回?cái)_動最大值。到此為止,機(jī)制返回了一個(gè)差分隱私的預(yù)測標(biāo)簽給用戶,用戶可以直接使用。但是,因?yàn)橛脩裘看瓮ㄟ^DP 接口界面獲取答案時(shí),都會消耗隱私,因此當(dāng)隱私預(yù)算消耗殆盡,老師模型就只能丟棄。為了解決這個(gè)問題,PATE 系統(tǒng)又添加了學(xué)生模型,以便更高效的轉(zhuǎn)移老師模型的知識。
· Student model 訓(xùn)練。學(xué)生模型的訓(xùn)練主要由公開的無標(biāo)簽數(shù)據(jù)集和老師模型預(yù)測的加噪標(biāo)簽訓(xùn)練。學(xué)生模型較好的選擇是半監(jiān)督的GAN[63],半監(jiān)督的GAN 的鑒別器是一個(gè)m+1的分類器,除了原始m個(gè)標(biāo)簽類別外,額外添件一個(gè)“fake”類別。在訓(xùn)練該學(xué)生GAN 時(shí),除了標(biāo)簽是詢問老師得到的加噪標(biāo)簽,其他都和原始半監(jiān)督的GAN 的訓(xùn)練過程類似。訓(xùn)練結(jié)束后,公開鑒別器(discriminator),可以當(dāng)作是滿足差分隱私的分類器使用。
4.1.4 DP-SGD VS PATE
對于DP-SGD和PATE兩種截然不同的隱私策略,我們從以下三個(gè)角度對比其優(yōu)劣。
· 隱私保護(hù):基于SAF 技術(shù)的PATE 架構(gòu)與DP-SGD 有略微不同的隱私假設(shè)。PATE 假設(shè)屬性x及其分布并非是需要保護(hù)的。其保護(hù)的是與x關(guān)聯(lián)的標(biāo)簽y的值。拿圖1 舉例,PATE 保護(hù)其他屬性與收入(income)之間的關(guān)聯(lián)性,但是并不保護(hù)某個(gè)人的公共屬性(婚姻狀態(tài)marital staturs 等)。該隱私保護(hù)對數(shù)據(jù)集的假設(shè)要強(qiáng)于DP-SGD,且并非所有數(shù)據(jù)集都滿足此要求。例如圖1 中的Adult 數(shù)據(jù)集、醫(yī)療數(shù)據(jù)集等的個(gè)人屬性也可能也是需要隱私保護(hù)的。
· 可用性:PATE 天然適合于分布式架構(gòu)。PATE 無需修改現(xiàn)有模型架構(gòu),但是DP-SGD 需要修改梯度下降策略。PATE 只能用于分類任務(wù),而DP-SGD 可以應(yīng)用于線性回歸、分類任務(wù)、生成任務(wù)等。當(dāng)用分類準(zhǔn)確度來衡量發(fā)布的差分隱私架構(gòu)可用性時(shí),在同等隱私預(yù)算下,PATE可能優(yōu)于DP-SGD。這是因?yàn)镻ATE 從公共分布中獲取了更多與分類任務(wù)無關(guān)的先驗(yàn)知識。且其用數(shù)據(jù)相關(guān)的隱私分析。
· 計(jì)算復(fù)雜度:在計(jì)算復(fù)雜度這一項(xiàng),DP-SGD 對比PATE 有優(yōu)勢。一個(gè)典型的PATE 模型需要250 個(gè)老師模型才能獲取隱私和有效性的較優(yōu)平衡。除此之外,PATE如果采用數(shù)據(jù)相關(guān)的隱私預(yù)算分析,計(jì)算消耗也很大。
生成模型有多種,本文專指對抗生成模型GAN。GAN 有很強(qiáng)的分布模仿能力,能夠生成與原始訓(xùn)練集分布近似的高緯度數(shù)據(jù)集。因此許多研究者用其當(dāng)作天然的規(guī)避隱私保護(hù)的方法,生成并發(fā)布合成數(shù)據(jù)集,并用人工合成數(shù)據(jù)集替代隱私數(shù)據(jù)集發(fā)布使用。但是近年來研究發(fā)現(xiàn)GAN 本身并沒有嚴(yán)格證明的隱私保護(hù)性能,特別的,成員猜測攻擊對GAN 也有攻擊效果[40,42-43,45,68]。根據(jù)第3 節(jié),差分隱私機(jī)制能夠抵抗成員猜測攻擊,因此研究差分隱私的GAN 對于隱私保護(hù)至關(guān)重要。
GAN 基本知識:GAN 的基本結(jié)構(gòu)如圖4 所示,包括一個(gè)鑒別器網(wǎng)絡(luò)(Discriminator)和一個(gè)生成器網(wǎng)絡(luò)(Generator)。敏感訓(xùn)練集為Xreal。生成器和鑒別器相互博弈,生成器要生成更加逼真的數(shù)據(jù),鑒別器提高鑒別能力以鑒別出人造數(shù)據(jù)和訓(xùn)練集的區(qū)別。兩者的損失函數(shù)如下。
鑒別器和生成器同時(shí)優(yōu)化自己的損失函數(shù),最后達(dá)到平衡點(diǎn)。從公式(16)(17)以及圖4 中的損失函數(shù)流程可以看出,只有鑒別器網(wǎng)絡(luò)D 的損失函數(shù)用到了敏感訓(xùn)練集Xreal,生成器網(wǎng)絡(luò)G 在訓(xùn)練過程中沒有直接接觸敏感數(shù)據(jù),而是使用D 返回的信息進(jìn)行梯度更新。因此只需要保證鑒別器網(wǎng)絡(luò)的差分隱私安全,根據(jù)抗后處理定理(定理4),生成器的參數(shù)及其輸出也可以自動保持差分隱私。值得注意的是,生成器的輸出為人工合成數(shù)據(jù)集,因此差分隱私的GAN 可以用來生成并發(fā)布滿足差分隱私的合成數(shù)據(jù)集。
4.2.1 基于梯度擾動的差分隱私GAN
DP-GAN 是GAN 技術(shù)與DP-SGD 技術(shù)的結(jié)合??傮w思路是對GAN 的鑒別器做差分隱私的隨機(jī)梯度遞減。根據(jù)抗后處理定理,生成器參數(shù)也能保持差分隱私。Xie 等人[65]在鑒別器中的Wasserstein 距離[66]的梯度優(yōu)化上加入高斯機(jī)制以滿足差分隱私,且也用moment accountant 技術(shù)追蹤隱私。Frigerio 等人[67]將其拓展至生成連續(xù)、時(shí)間序列、以及離散的合成數(shù)據(jù),并證明其差分隱私的合成數(shù)據(jù)集可以抵抗成員猜測攻擊。
對比4.1.2 節(jié),DP-SGD 在鑒別模型和生成模型上的技術(shù)十分類似,都是修改隨機(jī)梯度遞減SGD 使其滿足差分隱私。值得注意的是GAN 訓(xùn)練時(shí)只需要修改鑒別器的隨機(jī)梯度遞減,無需修改生成器的SGD。在DP-GAN 隱私追蹤時(shí),注意追蹤鑒別器的SGD 周期即可(有些GAN 為了增加穩(wěn)定性會增加一輪生成器周期里對應(yīng)的鑒別器周期數(shù))。
4.2.2 基于知識轉(zhuǎn)移的差分隱私GAN
PATE-GAN[68]和DP-GAN 采用的方法截然不同,源自PATE 系統(tǒng)。如圖5 所示,作者把整個(gè)PATE 系統(tǒng)都當(dāng)成是GAN 的鑒別器,讓其與額外添加的生成器博弈。訓(xùn)練結(jié)束后,發(fā)布差分隱私的生成器。PATE-GAN 不再需要無標(biāo)簽的公共數(shù)據(jù)集來訓(xùn)練學(xué)生模型,取而代之的是,用生成器的部分難以被老師模型鑒別出真假的數(shù)據(jù)當(dāng)“真數(shù)據(jù)”。PATE-GAN的差分隱私部分與PATE類似,也是用SAF技術(shù)聚合所有老師模型輸出結(jié)果。圖5 中生成器的差分隱私也是依賴于抗后處理性質(zhì)。
上文詳細(xì)討論了差分隱私技術(shù)在機(jī)器學(xué)習(xí)領(lǐng)域的發(fā)展歷程,包括定義、實(shí)現(xiàn)機(jī)制和常用性質(zhì)。并且針對實(shí)際攻擊,分析并比較了差分隱私的抗攻擊能力。此后,給出了目前主流的差分隱私的鑒別模型和生成模型保護(hù)方案。本節(jié)將討論差分隱私技術(shù)在機(jī)器學(xué)習(xí)領(lǐng)域的公開問題以及研究方向。
(1) 模型隱私安全和功能性安全存在折中
一直以來,機(jī)器學(xué)習(xí)模型的隱私安全和功能性安全處于兩個(gè)相對平行的研究線路。本文探討的是模型的隱私安全,即模型是否泄漏個(gè)人隱私。還有一類安全指模型的功能性安全,例如對抗樣本攻擊、樣本毒化等,指的是存在惡意攻擊者可以用肉眼難以分辨的數(shù)據(jù)模型的發(fā)生誤判。差分隱私目前公認(rèn)對模型的隱私安全有一定的保護(hù)效果。但是近期許多研究[69]發(fā)現(xiàn)模型的功能性安全可能與隱私安全有對立性,即防止模型的功能性安全的措施可能會加重隱私安全威脅。因此差分隱私如何同模型功能性安全的抵抗措施有效結(jié)合全面防護(hù)機(jī)器學(xué)習(xí)的安全性有待研究。
(2) 差分隱私保護(hù)機(jī)制不是萬能
根據(jù)本文表4 的總結(jié),差分隱私可以防止成員猜測攻擊和無意識記憶,對屬性猜測攻擊有一定弱化效果。但是對防止模型反演、模型竊取攻擊效果不明顯。甚至有研究發(fā)現(xiàn)[38],模型竊取攻擊和成員猜測攻擊的成功率是負(fù)相關(guān)的。差分隱私機(jī)制的效果和攻擊原理有直接關(guān)系。如果攻擊依賴于模型過擬合,那么差分隱私有明顯效果;如果攻擊不是依賴于模型過擬合,甚至利用模型的泛化能力,那么差分隱私?jīng)]有直接抗攻擊效果。因此依賴差分隱私單一機(jī)制并不能解決機(jī)器學(xué)習(xí)隱私安全的所有攻擊,應(yīng)考慮多機(jī)制結(jié)合以全面防護(hù)隱私泄漏問題。
(3) 隱私預(yù)算追蹤方法有待提高
許多研究表示目前針對機(jī)器學(xué)習(xí)的差分隱私機(jī)制犧牲過多有效性以保證安全[30]。另外一些研究也在試圖尋在更加嚴(yán)謹(jǐn)?shù)牟罘蛛[私預(yù)算追蹤方法[70]。例如,目前的DP-SGD[26]研究假設(shè)攻擊者可以獲取機(jī)器學(xué)習(xí)模型每一輪迭代參數(shù)(權(quán)重更新),而不僅僅是可以獲取最終訓(xùn)練好的模型的參數(shù)。在實(shí)際中,該攻擊條件假設(shè)太強(qiáng),但是這卻是目前唯一一種已知的分析DP-SGD 隱私累加的方式[71]。為此,Feldman等人[70]推導(dǎo)出直接分析最后一輪模型隱私的方法,但是其證明依賴損失函數(shù)是凸函數(shù)的假設(shè),在神經(jīng)網(wǎng)絡(luò)下還沒有解決方法。另外,Nasr 等人[71]提出在不同的攻擊者能力下,應(yīng)該制定不同的差分隱私下限。差分隱私一直考慮最惡劣的攻擊條件來保護(hù)隱私安全。然而實(shí)際環(huán)境中很少有攻擊者能達(dá)到如此強(qiáng)的攻擊能力。因此,針對不同攻擊強(qiáng)度細(xì)化不同的差分隱私下限有待研究。
(4) 聯(lián)邦學(xué)習(xí)模式中差分隱私存在局限性
聯(lián)邦學(xué)習(xí)通常指掌握自己部分訓(xùn)練集的多方,在不泄漏個(gè)人訓(xùn)練集的前提下,共同訓(xùn)練綜合模型。原理是訓(xùn)練的每個(gè)周期,各方先下載綜合模型,然后用自己的訓(xùn)練集計(jì)算梯度更新并上傳,中心利用各方上傳的梯度加權(quán)平均更新綜合模型。差分隱私機(jī)制通常類似SAF(見圖3),用差分隱私的方式傳遞擾動的梯度平均。但是2017 年Hitaj 等人[42]研究發(fā)現(xiàn),即使是差分隱私保護(hù)的聯(lián)邦學(xué)習(xí)依然不安全。當(dāng)有惡意參與者存在時(shí),其可以竊取其他合規(guī)參與者的隱私信息。目前還沒有可靠的用于聯(lián)邦學(xué)習(xí)的差分隱私機(jī)制。這使得目前聯(lián)邦學(xué)習(xí)的安全性只能依賴計(jì)算量以及通信量開銷巨大的多方安全計(jì)算技術(shù)或者是同態(tài)加密技術(shù)。
(5) GAN 模型中差分隱私存在局限性
差分隱私技術(shù)在對抗生成模型(GAN)中的應(yīng)用尚在探索階段。比如,較為先進(jìn)的WGAN-GP[72]尚沒有差分隱私版本。因?yàn)樘荻葢土P部分用到了真實(shí)訓(xùn)練集,其隱私預(yù)算追蹤是個(gè)難點(diǎn)。除此之外,對抗生成模型與鑒別模型的網(wǎng)絡(luò)架構(gòu)以及性質(zhì)也有所不同。其中,對抗模型的過擬合程度難以衡量(差分隱私主要保護(hù)模型過擬合)[39,51]。對抗模型的隨機(jī)性可能使得非差分隱私的GAN 可能天生含有弱差分隱私性質(zhì)[72]。因此,在GAN 中的差分隱私機(jī)制可能需要考慮其特點(diǎn)進(jìn)行定制。比如,實(shí)驗(yàn)性衡量原始非隱私保護(hù)的GAN 的隱私保護(hù)程度,再補(bǔ)充加噪。