文/孫茗珅 韋韜
大數(shù)據(jù)時(shí)代下的隱私保護(hù)
文/孫茗珅 韋韜
在大數(shù)據(jù)的時(shí)代,數(shù)據(jù)成為了科學(xué)研究的基石。人們?cè)谙硎苤扑]算法、語(yǔ)音識(shí)別、圖像識(shí)別、無(wú)人車(chē)駕駛等智能的技術(shù)帶來(lái)的便利的同時(shí),數(shù)據(jù)在背后擔(dān)任著驅(qū)動(dòng)算法不斷優(yōu)化迭代的角色。在科學(xué)研究、產(chǎn)品開(kāi)發(fā)、數(shù)據(jù)公開(kāi)的過(guò)程中,算法需要收集、使用用戶(hù)數(shù)據(jù),在這過(guò)程中數(shù)據(jù)就不可避免地暴露在外。歷史上就有很多公開(kāi)的數(shù)據(jù)暴露了用戶(hù)隱私的案例。
美國(guó)在線(AOL)是一家美國(guó)互聯(lián)網(wǎng)服務(wù)公司,也是美國(guó)最大的互聯(lián)網(wǎng)提供商
之一。2006 年8月,為了學(xué)術(shù)研究,AOL公開(kāi)了匿名的搜索記錄,其中包括 65 萬(wàn)個(gè)用戶(hù)的數(shù)據(jù),總共 20M 條查詢(xún)記錄。在這些數(shù)據(jù)中,用戶(hù)的姓名被替換成了一個(gè)個(gè)匿名的 ID,但是《紐約時(shí)報(bào)》通過(guò)這些搜索記錄,找到了 ID 匿名為4417749的用戶(hù)在真實(shí)世界中對(duì)應(yīng)的人。ID 4417749 的搜索記錄里有關(guān)于“60歲的老年人”的問(wèn)題、“Lilburn地方的風(fēng)景”、還有“Arnold”的搜索字樣。通過(guò)上面幾條數(shù)據(jù),紐約時(shí)報(bào)發(fā)現(xiàn) Lilburn 只有14個(gè)人姓Arnold,最后經(jīng)過(guò)直接聯(lián)系這14個(gè)人確認(rèn) ID 4417749是一位62歲名字叫 Thelma Arnold的老奶奶。最后 AOL 緊急撤下數(shù)據(jù),發(fā)表聲明致歉,但是已經(jīng)太晚了。因?yàn)殡[私泄露事件,AOL遭到了起訴,最終賠償受影響用戶(hù)總額高達(dá)五百萬(wàn)美元。
同樣是 2006年,美國(guó)最大的影視公司之一 —— Netflix,舉辦了一個(gè)預(yù)測(cè)算法的比賽(Netflix Prize),比賽要求在公開(kāi)數(shù)據(jù)上推測(cè)用戶(hù)的電影評(píng)分 。Netflix 把數(shù)據(jù)中唯一識(shí)別用戶(hù)的信息抹去,認(rèn)為這樣就能保證用戶(hù)的隱私。但是在 2007 年來(lái)自The University of Texas at Austin 的兩位研究人員表示通過(guò)關(guān)聯(lián) Netflix 公開(kāi)的數(shù)據(jù)和 IMDb(互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù))網(wǎng)站上公開(kāi)的記錄就能夠識(shí)別出匿名后用戶(hù)的身份。三年后,在2010年,Netflix 最后因?yàn)殡[私原因宣布停止這項(xiàng)比賽,并因此受到高額罰款,賠償金額總計(jì)九百萬(wàn)美元。
近幾年各大公司均持續(xù)關(guān)注用戶(hù)的隱私安全。例如蘋(píng)果 在2016 年 6 月份的WWDC 大會(huì)上就提出了一項(xiàng)名為Differential Privacy 的差分隱私技術(shù)。蘋(píng)果聲稱(chēng)他能通過(guò)數(shù)據(jù)計(jì)算出用戶(hù)群體的行為模式,但是卻無(wú)法獲得每個(gè)用戶(hù)個(gè)體的數(shù)據(jù)。那么差分隱私技術(shù)又是怎么做的呢?在大數(shù)據(jù)時(shí)代,如何才能保證我們的隱私呢?
從信息時(shí)代開(kāi)始,關(guān)于隱私保護(hù)的研究就開(kāi)始了。隨著數(shù)據(jù)不斷地增長(zhǎng),人們對(duì)隱私越來(lái)越重視。我們?cè)谟懻撾[私保護(hù)的時(shí)候包括兩種情況。
第一種是公司為了學(xué)術(shù)研究和數(shù)據(jù)交流開(kāi)放用戶(hù)數(shù)據(jù),學(xué)術(shù)機(jī)構(gòu)或者個(gè)人可以向數(shù)據(jù)庫(kù)發(fā)起查詢(xún)請(qǐng)求,公司返回對(duì)應(yīng)的數(shù)據(jù)時(shí)需要保證用戶(hù)的隱私。
第二種情況是公司作為服務(wù)提供商,為了提高服務(wù)質(zhì)量,主動(dòng)收集用戶(hù)的數(shù)據(jù),這些在客戶(hù)端上收集的數(shù)據(jù)也需要保證隱私性。學(xué)術(shù)界提出了多種保護(hù)隱私的方法和測(cè)量隱私是否泄露的工具,例如k-anonymity(k-匿名化)、l-diversity(l-多樣化)、t-closeness、ε-differentialprivacy(差分隱私)、同態(tài)加密(homomorphic encryption)、零知識(shí)證明(zero-knowledge proof)等等。今天主要介紹k-anonymity(k-匿名化),ldiversity(l-多樣 化),t-closeness 和ε-differential privacy(差分隱私)。這些方法先從直觀的角度去衡量一個(gè)公開(kāi)數(shù)據(jù)的隱私性,再到使用密碼學(xué)、統(tǒng)計(jì)學(xué)等工具保證數(shù)據(jù)的隱私性。
下面我們一一解讀這四種隱私保護(hù)的方法:
k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一種數(shù)據(jù)匿名化方法。
先看一下表1,我們把表格中的公開(kāi)屬性分為以下三類(lèi):
表1
Key attributes: 一般是個(gè)體的唯一標(biāo)示,比如說(shuō)姓名、地址、電話等等,這些內(nèi)容需要在公開(kāi)數(shù)據(jù)的時(shí)候刪掉。
Quasi-identifier: 類(lèi)似郵編、年齡、生日、性別等不是唯一的,但是能幫助研究人員關(guān)聯(lián)相關(guān)數(shù)據(jù)的標(biāo)示。
Sensitive attributes: 敏感數(shù)據(jù),比如說(shuō)購(gòu)買(mǎi)偏好、薪水等等,這些數(shù)據(jù)是研究人員最關(guān)心的,所以一般都直接公開(kāi)。
簡(jiǎn)單來(lái)說(shuō),k-anonymity 的目的是保證公開(kāi)的數(shù)據(jù)中包含的個(gè)人信息至少 k-1條不能通過(guò)其他個(gè)人信息確定出來(lái)。也就是公開(kāi)數(shù)據(jù)中的任意 quasi-identifier信息,相同的組合都需要出現(xiàn)至少 k 次。
舉個(gè)例子,假設(shè)一個(gè)公開(kāi)的數(shù)據(jù)進(jìn)行了 2-anonymity 保護(hù)。如果攻擊者想確認(rèn)一個(gè)人(小明)的敏感信息(購(gòu)買(mǎi)偏好),通過(guò)查詢(xún)他的年齡、郵編和性別,攻擊者會(huì)發(fā)現(xiàn)數(shù)據(jù)里至少有兩個(gè)人是有相同的年齡、郵編和性別。這樣攻擊者就沒(méi)辦法區(qū)分這兩條數(shù)據(jù)到底哪個(gè)是小明了,從而也就保證了小明的隱私不會(huì)被泄露。
表2就是 2-anonymization 過(guò)的信息:k-anonymity的方法主要有兩種,一種是刪除對(duì)應(yīng)的數(shù)據(jù)列,用星號(hào)(*)代替。另外一種方法是用概括的方法使之無(wú)法區(qū)分,比如把年齡這個(gè)數(shù)字概括成一個(gè)年齡段。對(duì)于郵編這樣的數(shù)據(jù),如果刪除所有郵編,研究人員會(huì)失去很多有意義的信息,所以可以選擇刪除最后一位數(shù)字。
表2
從這個(gè)表中,即使我們知道小明是男性、24歲、郵編是100083,卻仍然無(wú)法知道小明的購(gòu)買(mǎi)偏好。而研究人員依然可以根據(jù)這些數(shù)據(jù)統(tǒng)計(jì)出一些有意義的結(jié)果,這樣既兼顧了個(gè)人的隱私,又能為研究提供有效的數(shù)據(jù)。
k-anonymity能保證以下三點(diǎn):
1. 攻擊者無(wú)法知道某個(gè)人是否在公開(kāi)的數(shù)據(jù)中。
2. 給定一個(gè)人,攻擊者無(wú)法確認(rèn)他是否有某項(xiàng)敏感屬性。
3. 攻擊者無(wú)法確認(rèn)某條數(shù)據(jù)對(duì)應(yīng)的是哪個(gè)人(這條假設(shè)攻擊者除了 quasiidentifier 信息之外對(duì)其他數(shù)據(jù)一無(wú)所知,舉個(gè)例子,如果所有用戶(hù)的偏好都是購(gòu)買(mǎi)電子產(chǎn)品,那么 k-anonymity 也無(wú)法保證隱私?jīng)]有泄露)。
未排序匹配攻擊 (unsorted matching attack) :當(dāng)公開(kāi)的數(shù)據(jù)記錄和原始記錄的順序一樣的時(shí)候,攻擊者可以猜出匿名化的記錄是屬于誰(shuí)。例如如果攻擊者知道在數(shù)據(jù)中小明是排在小白前面,那么他就可以確認(rèn),小明的購(gòu)買(mǎi)偏好是電子產(chǎn)品,小白是家用電器。解決方法也很簡(jiǎn)單,在公開(kāi)數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類(lèi)的攻擊。
補(bǔ)充數(shù)據(jù)攻擊 (complementary release attack) :假如公開(kāi)的數(shù)據(jù)有多種類(lèi)型,如果它們的k-anonymity方法不同,那么攻擊者可以通過(guò)關(guān)聯(lián)多種數(shù)據(jù)推測(cè)用戶(hù)信息。
除此之外,如果敏感屬性在同一類(lèi)quasi-identifiers 中缺乏多樣性,或者攻擊者有其它的背景知識(shí),k-anonymity 也無(wú)法避免隱私泄露。
圖1
我們知道李雷的信息,圖1中有兩條對(duì)應(yīng)的數(shù)據(jù),但是他們的購(gòu)買(mǎi)偏好都是電子產(chǎn)品。因?yàn)檫@個(gè)敏感屬性缺乏多樣性,所以盡管是 2-anonimity 匿名化的數(shù)據(jù),我們依然能夠獲得李雷的敏感信息。
如果我們知道小紫的信息,并且知道她不喜歡購(gòu)買(mǎi)護(hù)膚品,那么從圖2中,我們?nèi)钥梢源_認(rèn)小紫的購(gòu)買(mǎi)偏好是廚具。
圖2
通過(guò)上面的例子,我們引出了多樣化的概念。簡(jiǎn)單來(lái)說(shuō),在公開(kāi)的數(shù)據(jù)中,對(duì)于那些quasi-identifier 相同的數(shù)據(jù)中,敏感屬性必須具有多樣性,這樣才能保證用戶(hù)的隱私不能通過(guò)背景知識(shí)等方法推測(cè)出來(lái)。
l-diversity 保證了相同類(lèi)型數(shù)據(jù)中至少有 l 種內(nèi)容不同的敏感屬性。
例如在圖3的例子中,有 10 條相同的類(lèi)型的數(shù)據(jù),其中 8 條的購(gòu)買(mǎi)偏好是電子產(chǎn)品,其他兩條分別是圖書(shū)和家用電器。那么在這個(gè)例子中,公開(kāi)的數(shù)據(jù)就滿(mǎn)足 3-diversity 的屬性。
圖3
除了以上介紹的簡(jiǎn)單 l-diversity 的定義,還有其他版本的 l-diversity,引入了其他統(tǒng)計(jì)方法。比如說(shuō):
基于概率的l-diversity (probabilistic l-diversity): 在一個(gè)類(lèi)型中出現(xiàn)頻率最高的值的概率不大于 1/l。
基于墑的l-diversity (entropy l-diversity):在一個(gè)類(lèi)型中敏感數(shù)據(jù)分布的墑至少是log(l)。
遞歸 (c,l)-diversity (recursive (c, l)-diversity): 簡(jiǎn)單來(lái)說(shuō)就是保證最經(jīng)常出現(xiàn)的值的出現(xiàn)頻率不要太高。
l-diversity 也有其局限性:
敏感屬性的性質(zhì)決定即使保證了一定概率的 diversity 也很容易泄露隱私。例如,醫(yī)院公開(kāi)的艾滋病數(shù)據(jù)中,敏感屬性是“艾滋病陽(yáng)性”(出現(xiàn)概率是 1%)和“艾滋病陰性”(出現(xiàn)概率是 99%),這兩種值的敏感性不同,造成的結(jié)果也不同。
有些情況下 l-diversity 是沒(méi)有意義的:比如說(shuō)艾滋病數(shù)據(jù)的例子中僅含有兩種不同的值,保證2-diversity 也是沒(méi)有意義的。
l-diversity 很難達(dá)成:例如,我們想在10000條數(shù)據(jù)中保證2-diversity,那么可能最多需要10000×0.01= 100個(gè)相同的類(lèi)型。這時(shí)可能通過(guò)之前介紹的k-anonymity的方法很難達(dá)到。
偏斜性攻擊 (Skewness Attack):假如我們要保證在同一類(lèi)型的數(shù)據(jù)中出現(xiàn)“艾滋病陽(yáng)性”和出現(xiàn)“艾滋病陰性”的概率是相同的,我們雖然保證了 diversity,但是我們泄露隱私的可能性會(huì)變大。因?yàn)閘-diversity并沒(méi)有考慮敏感屬性的總體的分布。
l-diversity 沒(méi)有考慮敏感屬性的語(yǔ)義,比如說(shuō)下面圖4的例子,我們通過(guò)李雷的信息從公開(kāi)數(shù)據(jù)中關(guān)聯(lián)到了兩條信息,通過(guò)這兩條信息我們能得出兩個(gè)結(jié)論。第一,李雷的工資相對(duì)較低;第二,李雷喜歡買(mǎi)電子電器相關(guān)的產(chǎn)品。
圖4
上面最后一個(gè)問(wèn)題就引出了t-closeness 的概念,t-closeness 是為了保證在相同的quasi-identifier類(lèi)型組中,敏感信息的分布情況與整個(gè)數(shù)據(jù)的敏感信息分布情況接近(close),不超過(guò)閾值 t。
如果剛才的那個(gè)數(shù)據(jù)保證了 t-closeness屬性,那么通過(guò)李雷的信息查詢(xún)出來(lái)的結(jié)果中,工資的分布就和整體的分布類(lèi)似,進(jìn)而很難推斷出李雷工資的高低。
最后,如果保證了 k-anonymity,l-diversity 和 t-closeness,隱私就不會(huì)泄露了么?答案并不是這樣,我們看圖5的例子,在這個(gè)例子中,我們保證了 2-anonymity , 2-diversity , t-closeness(分布近似),工資和購(gòu)買(mǎi)偏好是敏感屬性。攻擊者通過(guò)李雷的個(gè)人信息找到了四條數(shù)據(jù),同時(shí)知道李雷有很多書(shū),這樣就能很容易在四條數(shù)據(jù)中找到李雷的那一條,從而造成隱私泄露??赡苡行┳x者會(huì)有疑問(wèn),通過(guò)背景知識(shí)攻擊 k-anonymity 的前提是不是假設(shè)了解 quasi-identifier ?并不是這樣,針對(duì)敏感屬性的背景攻擊對(duì)k-anonymity 也適用,所以無(wú)論經(jīng)過(guò)哪些屬性保證,隱私泄露還是很難避免。
圖5
除了之前我們介紹的針對(duì)k-anonymity, l-diversity,t-closeness 三種隱私保護(hù)方法的攻擊之外,還有一種叫做差分攻擊 ( differential attack )。舉個(gè)例子,購(gòu)物公司發(fā)布了購(gòu)物偏好的數(shù)據(jù),說(shuō)我們有 100 個(gè)人的購(gòu)物偏好數(shù)據(jù),其中有 10個(gè)人偏愛(ài)購(gòu)買(mǎi)汽車(chē)用品,其他 90 個(gè)偏愛(ài)購(gòu)買(mǎi)電子產(chǎn)品。如果攻擊者知道其中 99個(gè)人是偏愛(ài)汽車(chē)用品還是電子產(chǎn)品,就可以知道第100 個(gè)人的購(gòu)物偏好。這樣通過(guò)比較公開(kāi)數(shù)據(jù)和既有的知識(shí)推測(cè)出個(gè)人隱私,就叫做差分攻擊。
在 2009 年,微軟研究院的Cynthia Dwork 提出差分隱私的概念,差分隱私就是為了防止差分攻擊,也就是說(shuō)盡管攻擊者知道發(fā)布的100個(gè)人的個(gè)人以信息和其中 99 個(gè)人的信息,他也沒(méi)辦法通過(guò)比對(duì)這兩個(gè)信息獲得第100個(gè)人的信息。
簡(jiǎn)單來(lái)說(shuō),差分隱私就是用一種方法使得查詢(xún)100個(gè)信息和查詢(xún)其中 99 個(gè)的信息得到的結(jié)果是相對(duì)一致的,那么攻擊者就無(wú)法通過(guò)比較(差分)數(shù)據(jù)的不同找出第100個(gè)人的信息。這種方法就是加入隨機(jī)性,如果查詢(xún) 100 個(gè)記錄和 99 個(gè)記錄,輸出同樣的值的概率是一樣的,攻擊者就無(wú)法進(jìn)行差分攻擊。進(jìn)一步說(shuō),對(duì)于差別只有一條記錄的兩個(gè)數(shù)據(jù)集 D 和 D'(neighboring datasets),查詢(xún)他們獲得結(jié)果相同的概率非常接近。注意,這里并不能保證概率相同,如果一樣的話,數(shù)據(jù)就需要完全的隨機(jī)化,那樣公開(kāi)數(shù)據(jù)也就沒(méi)有意義。所以,我們需要盡可能接近,保證在隱私和可用性之間找到一個(gè)平衡。
ε-差分隱私 (ε-differential privacy,ε-DP) 可以用下面圖6的定義來(lái)表示:
其中 M 是在 D 上做任意查詢(xún)操作,對(duì)查詢(xún)后的結(jié)果加入一定的隨機(jī)性,也就是給數(shù)據(jù)加噪音,兩個(gè) datasets 加上同一隨機(jī)噪音之后查詢(xún)結(jié)果為 C 的概率比小于一個(gè)特定的數(shù) 。這樣就能保證用戶(hù)隱私泄露的概率有一個(gè)數(shù)學(xué)的上界,相比傳統(tǒng)的 k-anonymity,差分隱私使隱私保護(hù)的模型更加清晰。
我們用圖7的例子解釋差分隱私的定義:圖7中 D1 和D2 是兩個(gè)neighboring datasets,他們只有一條記錄不一致,在攻擊者查詢(xún)“20-30歲之間有多少人偏好購(gòu)買(mǎi)電子產(chǎn)品”的時(shí)候,對(duì)于這兩個(gè)數(shù)據(jù)庫(kù)得到的查詢(xún)結(jié)果是 100的概率分別是 99%和98%,他們的比值小于某個(gè)數(shù)。如果對(duì)于任意的查詢(xún),都能滿(mǎn)足這樣的條件,我們就可以說(shuō)這種隨機(jī)方法是滿(mǎn)足ε-差分隱私的。因?yàn)?D1 和 D2 是可以互換的,所以更加嚴(yán)格地講,他們的比值也要大于 e-ε。
圖6
無(wú)論查詢(xún)是什么,兩個(gè)相鄰的數(shù)據(jù)庫(kù)返回的結(jié)果總是近似的。
要達(dá)到數(shù)據(jù)的差分隱私有四種方法:
1. 輸出結(jié)果變換
2. 輸入查詢(xún)變換
3. 中間值變換
4. 抽樣和聚合數(shù)據(jù)
本文接下來(lái)主要介紹輸出結(jié)果變換的方法,這種方法主要針對(duì)查詢(xún)結(jié)果是數(shù)值或者數(shù)值向量的情況,通過(guò)加入噪聲使輸出結(jié)果達(dá)到 ε-DP。
輸出結(jié)果變換:加入噪聲
在差分隱私中,防止隱私泄露的重要因素是在查詢(xún)結(jié)果中加噪音,對(duì)于數(shù)值的查詢(xún)結(jié)果,一種常見(jiàn)的方法就是對(duì)結(jié)果進(jìn)行數(shù)值變換。要解釋如何加入噪音,我們先看一下圖8的這個(gè)例子:假如某公司公開(kāi)了數(shù)據(jù),并且對(duì)外提供了查詢(xún)數(shù)據(jù)的接口 f(x),針對(duì)不同的查詢(xún) x,服務(wù)器都會(huì)輸出一個(gè)查詢(xún)結(jié)果 f(x) + 噪聲,加入噪聲就是為了保證 ε-差分隱私。
圖7
圖8
那么如何選擇噪聲呢?
差分隱私方法中,作者巧妙地利用了拉普拉斯分布的特性,找到了合適的噪聲方法。針對(duì)數(shù)值或向量的查詢(xún)輸出,M(x)= f(x) + 噪聲。我們能得出以下結(jié)論:
其中 Lap 是拉普拉斯分布,GS 表示global sensitivity:
詳細(xì)的證明可以參考差分隱私的相關(guān)文章。
我們有了這個(gè)結(jié)論,想要對(duì)某個(gè)查詢(xún)接口 f(x) 保證 ε-DP 的話,只需要在查詢(xún)結(jié)果上加入 Lap(GS/e) 的噪聲就可以了。
拉普拉斯分布和其概率密度函數(shù)如圖9:
(ε,δ)-differential privacy, (ε, δ)-DP
ε-DP 是一種“嚴(yán)格”的隱私保護(hù)保證,當(dāng)在數(shù)據(jù)庫(kù)中添加和刪除一條數(shù)據(jù)時(shí)候,保證所有查詢(xún)的輸出都類(lèi)似。但是(ε,δ)-DP 在ε-DP 的保證中允許了一定概率的錯(cuò)誤發(fā)生,比如說(shuō),用戶(hù)在 (ε, δ)-DP的保護(hù)下會(huì)有 δ 概率的隱私泄露。
圖9
基于這些的概念,差分隱私在機(jī)器學(xué)習(xí)算法中也能夠使用,常見(jiàn)的算法,比如說(shuō) PCA、logistic regression、SVM都有對(duì)應(yīng)的差分隱私化算法。
差分隱私在數(shù)據(jù)的實(shí)用性和隱私性之間達(dá)到了平衡,使用者可以通過(guò)設(shè)定自己的“隱私預(yù)算”(privacy budget)來(lái)調(diào)整數(shù)據(jù)的實(shí)用性和隱私性。但是差分隱私也不是萬(wàn)能的,其中加入噪聲的很多算法需要在大量的數(shù)據(jù)集上才實(shí)用。除此之外,什么才是“隱私預(yù)算”的合理設(shè)定也是一個(gè)問(wèn)題。這些都是差分隱私面臨的問(wèn)題和挑戰(zhàn)。并且由于差分隱私對(duì)于“背景知識(shí)”的要求過(guò)于強(qiáng),所以需要在結(jié)果中加入大量隨機(jī)化,導(dǎo)致數(shù)據(jù)的可用性(utility)急劇下降。但是差分隱私作為一個(gè)非常優(yōu)雅的數(shù)學(xué)工具,是隱私保護(hù)的研究在未來(lái)的一個(gè)發(fā)展方向。差分隱私用嚴(yán)格的數(shù)學(xué)證明告訴人們一個(gè)匿名化的公開(kāi)數(shù)據(jù)究竟能保護(hù)用戶(hù)多少的隱私。
我們前面分別單獨(dú)介紹了 k-匿名化和 ε-差分隱私,k-匿名化相對(duì)比較容易理解和實(shí)踐,差分隱私更像是從理論上證明了隱私保護(hù)的邊界。雖然方法的分析角度完全不同,但是它們之間卻有著緊密的聯(lián)系。普渡大學(xué)的Ninghui Li教授在 Provably PrivateData Anonymization: Or,k-Anonymity Meets Differential Privacy 文章中詳細(xì)分析了 k-匿名化和 ε-差分隱私之間的關(guān)系。文章證明了在使用 k-匿名化“得當(dāng)”的情況下,可以滿(mǎn)足一定條件的 (ε, δ)-differentialprivacy。同時(shí)也提出了一種 k-anonymity 的變形:β-Sampling+Data-independent _Generalization +k-Suppression (k, β)-SDGS ,通過(guò)變形后的k-anonymity 就可以使之滿(mǎn)足差分隱私。通過(guò)使用差分隱私這種工具,我們就能精確地衡量前人提出的 k-anonymity,這在理論研究上具有重要意義。
本文介紹了學(xué)術(shù)界和工業(yè)界對(duì)于用戶(hù)隱私保護(hù)的努力成果。首先介紹了k-anonymity,即通過(guò)變換隱私數(shù)據(jù),保證相同特性的用戶(hù)在數(shù)據(jù)庫(kù)出現(xiàn)的次數(shù)至少是 k 次。然后,為了防止攻擊者通過(guò)隱私數(shù)據(jù)的背景知識(shí)推測(cè)用戶(hù)身份,提出使用l-diversity,保證相同特征的用戶(hù)中,隱私數(shù)據(jù)相同的個(gè)數(shù)大于 l。除此之外,我們也討論了 t-closeness。最后詳細(xì)介紹了差分隱私的概念,以及實(shí)際應(yīng)用中應(yīng)如何使用差分隱私。
從最開(kāi)始的 k-anonymity, l-diversity ,t-closeness 到現(xiàn)在的ε-差分隱私,都是為了既保證用戶(hù)的個(gè)人隱私,也能對(duì)實(shí)際應(yīng)用和研究提供有價(jià)值的數(shù)據(jù)。在大數(shù)據(jù)的時(shí)代中,希望各公司在利用數(shù)據(jù)提供更好的服務(wù)的同時(shí),能保護(hù)好用戶(hù)的個(gè)人隱私。這是法律的要求,也是安全行業(yè)的追求。我們相信隱私保護(hù)技術(shù)會(huì)越來(lái)越受到重視,并從學(xué)術(shù)理論迅速投入工業(yè)界實(shí)戰(zhàn)應(yīng)用。
(責(zé)編:楊潔)
(作者單位為百度安全實(shí)驗(yàn)室)
參考文章
1.https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf
2.https://www.cs.cmu.edu/~yuxiangw/docs/Differential%20Privacy.pdf
3.https://blog.cryptographyengineering.com/2016/06/15/what-is-differential-privacy/
4.https://www.chromium.org/developers/designdocuments/rappor
5.http://static.googleusercontent.com/media/research.google.com/en/us/pubs/archive/42852.pdf
6.Provably Private Data Anonymization: Or,k-Anonymity Meets Differential Privacy