大數(shù)據(jù)時(shí)代下的隱私保護(hù)

2017-11-29 03:53孫茗珅韋韜

中國(guó)教育網(wǎng)絡(luò) 2017年10期

文/孫茗珅韋韜

文/孫茗珅韋韜

數(shù)據(jù)和隱私

在大數(shù)據(jù)的時(shí)代，數(shù)據(jù)成為了科學(xué)研究的基石。人們?cè)谙硎苤扑]算法、語(yǔ)音識(shí)別、圖像識(shí)別、無(wú)人車(chē)駕駛等智能的技術(shù)帶來(lái)的便利的同時(shí)，數(shù)據(jù)在背后擔(dān)任著驅(qū)動(dòng)算法不斷優(yōu)化迭代的角色。在科學(xué)研究、產(chǎn)品開(kāi)發(fā)、數(shù)據(jù)公開(kāi)的過(guò)程中，算法需要收集、使用用戶(hù)數(shù)據(jù)，在這過(guò)程中數(shù)據(jù)就不可避免地暴露在外。歷史上就有很多公開(kāi)的數(shù)據(jù)暴露了用戶(hù)隱私的案例。

美國(guó)在線（AOL）是一家美國(guó)互聯(lián)網(wǎng)服務(wù)公司，也是美國(guó)最大的互聯(lián)網(wǎng)提供商

之一。2006 年8月，為了學(xué)術(shù)研究，AOL公開(kāi)了匿名的搜索記錄，其中包括 65 萬(wàn)個(gè)用戶(hù)的數(shù)據(jù)，總共 20M 條查詢(xún)記錄。在這些數(shù)據(jù)中，用戶(hù)的姓名被替換成了一個(gè)個(gè)匿名的 ID，但是《紐約時(shí)報(bào)》通過(guò)這些搜索記錄，找到了 ID 匿名為4417749的用戶(hù)在真實(shí)世界中對(duì)應(yīng)的人。ID 4417749 的搜索記錄里有關(guān)于“60歲的老年人”的問(wèn)題、“Lilburn地方的風(fēng)景”、還有“Arnold”的搜索字樣。通過(guò)上面幾條數(shù)據(jù)，紐約時(shí)報(bào)發(fā)現(xiàn) Lilburn 只有14個(gè)人姓Arnold，最后經(jīng)過(guò)直接聯(lián)系這14個(gè)人確認(rèn) ID 4417749是一位62歲名字叫 Thelma Arnold的老奶奶。最后 AOL 緊急撤下數(shù)據(jù)，發(fā)表聲明致歉，但是已經(jīng)太晚了。因?yàn)殡[私泄露事件，AOL遭到了起訴，最終賠償受影響用戶(hù)總額高達(dá)五百萬(wàn)美元。

同樣是 2006年，美國(guó)最大的影視公司之一 —— Netflix，舉辦了一個(gè)預(yù)測(cè)算法的比賽（Netflix Prize），比賽要求在公開(kāi)數(shù)據(jù)上推測(cè)用戶(hù)的電影評(píng)分。Netflix 把數(shù)據(jù)中唯一識(shí)別用戶(hù)的信息抹去，認(rèn)為這樣就能保證用戶(hù)的隱私。但是在 2007 年來(lái)自The University of Texas at Austin 的兩位研究人員表示通過(guò)關(guān)聯(lián) Netflix 公開(kāi)的數(shù)據(jù)和 IMDb（互聯(lián)網(wǎng)電影數(shù)據(jù)庫(kù)）網(wǎng)站上公開(kāi)的記錄就能夠識(shí)別出匿名后用戶(hù)的身份。三年后，在2010年，Netflix 最后因?yàn)殡[私原因宣布停止這項(xiàng)比賽，并因此受到高額罰款，賠償金額總計(jì)九百萬(wàn)美元。

近幾年各大公司均持續(xù)關(guān)注用戶(hù)的隱私安全。例如蘋(píng)果在2016 年 6 月份的WWDC 大會(huì)上就提出了一項(xiàng)名為Differential Privacy 的差分隱私技術(shù)。蘋(píng)果聲稱(chēng)他能通過(guò)數(shù)據(jù)計(jì)算出用戶(hù)群體的行為模式，但是卻無(wú)法獲得每個(gè)用戶(hù)個(gè)體的數(shù)據(jù)。那么差分隱私技術(shù)又是怎么做的呢？在大數(shù)據(jù)時(shí)代，如何才能保證我們的隱私呢？

隱私保護(hù)的方法

從信息時(shí)代開(kāi)始，關(guān)于隱私保護(hù)的研究就開(kāi)始了。隨著數(shù)據(jù)不斷地增長(zhǎng)，人們對(duì)隱私越來(lái)越重視。我們?cè)谟懻撾[私保護(hù)的時(shí)候包括兩種情況。

第一種是公司為了學(xué)術(shù)研究和數(shù)據(jù)交流開(kāi)放用戶(hù)數(shù)據(jù)，學(xué)術(shù)機(jī)構(gòu)或者個(gè)人可以向數(shù)據(jù)庫(kù)發(fā)起查詢(xún)請(qǐng)求，公司返回對(duì)應(yīng)的數(shù)據(jù)時(shí)需要保證用戶(hù)的隱私。

第二種情況是公司作為服務(wù)提供商，為了提高服務(wù)質(zhì)量，主動(dòng)收集用戶(hù)的數(shù)據(jù)，這些在客戶(hù)端上收集的數(shù)據(jù)也需要保證隱私性。學(xué)術(shù)界提出了多種保護(hù)隱私的方法和測(cè)量隱私是否泄露的工具，例如k-anonymity（k-匿名化）、l-diversity（l-多樣化）、t-closeness、ε-differentialprivacy（差分隱私）、同態(tài)加密（homomorphic encryption）、零知識(shí)證明（zero-knowledge proof）等等。今天主要介紹k-anonymity（k-匿名化）,ldiversity（l-多樣化）,t-closeness 和ε-differential privacy（差分隱私）。這些方法先從直觀的角度去衡量一個(gè)公開(kāi)數(shù)據(jù)的隱私性，再到使用密碼學(xué)、統(tǒng)計(jì)學(xué)等工具保證數(shù)據(jù)的隱私性。

下面我們一一解讀這四種隱私保護(hù)的方法：

k-anonymity（k-匿名化）

k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一種數(shù)據(jù)匿名化方法。

先看一下表1，我們把表格中的公開(kāi)屬性分為以下三類(lèi)：

表1

Key attributes: 一般是個(gè)體的唯一標(biāo)示，比如說(shuō)姓名、地址、電話等等，這些內(nèi)容需要在公開(kāi)數(shù)據(jù)的時(shí)候刪掉。

Quasi-identifier: 類(lèi)似郵編、年齡、生日、性別等不是唯一的，但是能幫助研究人員關(guān)聯(lián)相關(guān)數(shù)據(jù)的標(biāo)示。

Sensitive attributes: 敏感數(shù)據(jù)，比如說(shuō)購(gòu)買(mǎi)偏好、薪水等等，這些數(shù)據(jù)是研究人員最關(guān)心的，所以一般都直接公開(kāi)。

簡(jiǎn)單來(lái)說(shuō)，k-anonymity 的目的是保證公開(kāi)的數(shù)據(jù)中包含的個(gè)人信息至少 k-1條不能通過(guò)其他個(gè)人信息確定出來(lái)。也就是公開(kāi)數(shù)據(jù)中的任意 quasi-identifier信息，相同的組合都需要出現(xiàn)至少 k 次。

舉個(gè)例子，假設(shè)一個(gè)公開(kāi)的數(shù)據(jù)進(jìn)行了 2-anonymity 保護(hù)。如果攻擊者想確認(rèn)一個(gè)人（小明）的敏感信息（購(gòu)買(mǎi)偏好），通過(guò)查詢(xún)他的年齡、郵編和性別，攻擊者會(huì)發(fā)現(xiàn)數(shù)據(jù)里至少有兩個(gè)人是有相同的年齡、郵編和性別。這樣攻擊者就沒(méi)辦法區(qū)分這兩條數(shù)據(jù)到底哪個(gè)是小明了，從而也就保證了小明的隱私不會(huì)被泄露。

表2就是 2-anonymization 過(guò)的信息：k-anonymity的方法主要有兩種，一種是刪除對(duì)應(yīng)的數(shù)據(jù)列，用星號(hào)（*）代替。另外一種方法是用概括的方法使之無(wú)法區(qū)分，比如把年齡這個(gè)數(shù)字概括成一個(gè)年齡段。對(duì)于郵編這樣的數(shù)據(jù)，如果刪除所有郵編，研究人員會(huì)失去很多有意義的信息，所以可以選擇刪除最后一位數(shù)字。

表2

從這個(gè)表中，即使我們知道小明是男性、24歲、郵編是100083，卻仍然無(wú)法知道小明的購(gòu)買(mǎi)偏好。而研究人員依然可以根據(jù)這些數(shù)據(jù)統(tǒng)計(jì)出一些有意義的結(jié)果，這樣既兼顧了個(gè)人的隱私，又能為研究提供有效的數(shù)據(jù)。

k-anonymity能保證以下三點(diǎn)：

1. 攻擊者無(wú)法知道某個(gè)人是否在公開(kāi)的數(shù)據(jù)中。

2. 給定一個(gè)人，攻擊者無(wú)法確認(rèn)他是否有某項(xiàng)敏感屬性。

3. 攻擊者無(wú)法確認(rèn)某條數(shù)據(jù)對(duì)應(yīng)的是哪個(gè)人（這條假設(shè)攻擊者除了 quasiidentifier 信息之外對(duì)其他數(shù)據(jù)一無(wú)所知，舉個(gè)例子，如果所有用戶(hù)的偏好都是購(gòu)買(mǎi)電子產(chǎn)品，那么 k-anonymity 也無(wú)法保證隱私?jīng)]有泄露）。

未排序匹配攻擊 (unsorted matching attack) ：當(dāng)公開(kāi)的數(shù)據(jù)記錄和原始記錄的順序一樣的時(shí)候，攻擊者可以猜出匿名化的記錄是屬于誰(shuí)。例如如果攻擊者知道在數(shù)據(jù)中小明是排在小白前面，那么他就可以確認(rèn)，小明的購(gòu)買(mǎi)偏好是電子產(chǎn)品，小白是家用電器。解決方法也很簡(jiǎn)單，在公開(kāi)數(shù)據(jù)之前先打亂原始數(shù)據(jù)的順序就可以避免這類(lèi)的攻擊。

補(bǔ)充數(shù)據(jù)攻擊 (complementary release attack) ：假如公開(kāi)的數(shù)據(jù)有多種類(lèi)型，如果它們的k-anonymity方法不同，那么攻擊者可以通過(guò)關(guān)聯(lián)多種數(shù)據(jù)推測(cè)用戶(hù)信息。

除此之外，如果敏感屬性在同一類(lèi)quasi-identifiers 中缺乏多樣性，或者攻擊者有其它的背景知識(shí)，k-anonymity 也無(wú)法避免隱私泄露。

圖1

我們知道李雷的信息，圖1中有兩條對(duì)應(yīng)的數(shù)據(jù)，但是他們的購(gòu)買(mǎi)偏好都是電子產(chǎn)品。因?yàn)檫@個(gè)敏感屬性缺乏多樣性，所以盡管是 2-anonimity 匿名化的數(shù)據(jù)，我們依然能夠獲得李雷的敏感信息。

如果我們知道小紫的信息，并且知道她不喜歡購(gòu)買(mǎi)護(hù)膚品，那么從圖2中，我們?nèi)钥梢源_認(rèn)小紫的購(gòu)買(mǎi)偏好是廚具。

圖2

l-diversity（l-多樣化）

通過(guò)上面的例子，我們引出了多樣化的概念。簡(jiǎn)單來(lái)說(shuō)，在公開(kāi)的數(shù)據(jù)中，對(duì)于那些quasi-identifier 相同的數(shù)據(jù)中，敏感屬性必須具有多樣性，這樣才能保證用戶(hù)的隱私不能通過(guò)背景知識(shí)等方法推測(cè)出來(lái)。

l-diversity 保證了相同類(lèi)型數(shù)據(jù)中至少有 l 種內(nèi)容不同的敏感屬性。

例如在圖3的例子中，有 10 條相同的類(lèi)型的數(shù)據(jù)，其中 8 條的購(gòu)買(mǎi)偏好是電子產(chǎn)品，其他兩條分別是圖書(shū)和家用電器。那么在這個(gè)例子中，公開(kāi)的數(shù)據(jù)就滿(mǎn)足 3-diversity 的屬性。

圖3

除了以上介紹的簡(jiǎn)單 l-diversity 的定義，還有其他版本的 l-diversity，引入了其他統(tǒng)計(jì)方法。比如說(shuō)：

基于概率的l-diversity (probabilistic l-diversity): 在一個(gè)類(lèi)型中出現(xiàn)頻率最高的值的概率不大于 1/l。

基于墑的l-diversity (entropy l-diversity):在一個(gè)類(lèi)型中敏感數(shù)據(jù)分布的墑至少是log(l)。

遞歸 (c,l)-diversity (recursive (c, l)-diversity): 簡(jiǎn)單來(lái)說(shuō)就是保證最經(jīng)常出現(xiàn)的值的出現(xiàn)頻率不要太高。

l-diversity 也有其局限性：

敏感屬性的性質(zhì)決定即使保證了一定概率的 diversity 也很容易泄露隱私。例如，醫(yī)院公開(kāi)的艾滋病數(shù)據(jù)中，敏感屬性是“艾滋病陽(yáng)性”（出現(xiàn)概率是 1%）和“艾滋病陰性”（出現(xiàn)概率是 99%），這兩種值的敏感性不同，造成的結(jié)果也不同。

有些情況下 l-diversity 是沒(méi)有意義的：比如說(shuō)艾滋病數(shù)據(jù)的例子中僅含有兩種不同的值，保證2-diversity 也是沒(méi)有意義的。

l-diversity 很難達(dá)成：例如，我們想在10000條數(shù)據(jù)中保證2-diversity，那么可能最多需要10000×0.01= 100個(gè)相同的類(lèi)型。這時(shí)可能通過(guò)之前介紹的k-anonymity的方法很難達(dá)到。

偏斜性攻擊 (Skewness Attack)：假如我們要保證在同一類(lèi)型的數(shù)據(jù)中出現(xiàn)“艾滋病陽(yáng)性”和出現(xiàn)“艾滋病陰性”的概率是相同的，我們雖然保證了 diversity，但是我們泄露隱私的可能性會(huì)變大。因?yàn)閘-diversity并沒(méi)有考慮敏感屬性的總體的分布。

l-diversity 沒(méi)有考慮敏感屬性的語(yǔ)義，比如說(shuō)下面圖4的例子，我們通過(guò)李雷的信息從公開(kāi)數(shù)據(jù)中關(guān)聯(lián)到了兩條信息，通過(guò)這兩條信息我們能得出兩個(gè)結(jié)論。第一，李雷的工資相對(duì)較低；第二，李雷喜歡買(mǎi)電子電器相關(guān)的產(chǎn)品。

圖4

t-closeness

上面最后一個(gè)問(wèn)題就引出了t-closeness 的概念，t-closeness 是為了保證在相同的quasi-identifier類(lèi)型組中，敏感信息的分布情況與整個(gè)數(shù)據(jù)的敏感信息分布情況接近(close)，不超過(guò)閾值 t。

如果剛才的那個(gè)數(shù)據(jù)保證了 t-closeness屬性，那么通過(guò)李雷的信息查詢(xún)出來(lái)的結(jié)果中，工資的分布就和整體的分布類(lèi)似，進(jìn)而很難推斷出李雷工資的高低。

最后，如果保證了 k-anonymity，l-diversity 和 t-closeness，隱私就不會(huì)泄露了么？答案并不是這樣，我們看圖5的例子，在這個(gè)例子中，我們保證了 2-anonymity , 2-diversity , t-closeness（分布近似），工資和購(gòu)買(mǎi)偏好是敏感屬性。攻擊者通過(guò)李雷的個(gè)人信息找到了四條數(shù)據(jù)，同時(shí)知道李雷有很多書(shū)，這樣就能很容易在四條數(shù)據(jù)中找到李雷的那一條，從而造成隱私泄露?？赡苡行┳x者會(huì)有疑問(wèn)，通過(guò)背景知識(shí)攻擊 k-anonymity 的前提是不是假設(shè)了解 quasi-identifier ？并不是這樣，針對(duì)敏感屬性的背景攻擊對(duì)k-anonymity 也適用，所以無(wú)論經(jīng)過(guò)哪些屬性保證，隱私泄露還是很難避免。

圖5

差分隱私（differential privacy）

除了之前我們介紹的針對(duì)k-anonymity, l-diversity,t-closeness 三種隱私保護(hù)方法的攻擊之外，還有一種叫做差分攻擊 ( differential attack )。舉個(gè)例子，購(gòu)物公司發(fā)布了購(gòu)物偏好的數(shù)據(jù)，說(shuō)我們有 100 個(gè)人的購(gòu)物偏好數(shù)據(jù)，其中有 10個(gè)人偏愛(ài)購(gòu)買(mǎi)汽車(chē)用品，其他 90 個(gè)偏愛(ài)購(gòu)買(mǎi)電子產(chǎn)品。如果攻擊者知道其中 99個(gè)人是偏愛(ài)汽車(chē)用品還是電子產(chǎn)品，就可以知道第100 個(gè)人的購(gòu)物偏好。這樣通過(guò)比較公開(kāi)數(shù)據(jù)和既有的知識(shí)推測(cè)出個(gè)人隱私，就叫做差分攻擊。

在 2009 年，微軟研究院的Cynthia Dwork 提出差分隱私的概念，差分隱私就是為了防止差分攻擊，也就是說(shuō)盡管攻擊者知道發(fā)布的100個(gè)人的個(gè)人以信息和其中 99 個(gè)人的信息，他也沒(méi)辦法通過(guò)比對(duì)這兩個(gè)信息獲得第100個(gè)人的信息。

簡(jiǎn)單來(lái)說(shuō)，差分隱私就是用一種方法使得查詢(xún)100個(gè)信息和查詢(xún)其中 99 個(gè)的信息得到的結(jié)果是相對(duì)一致的，那么攻擊者就無(wú)法通過(guò)比較（差分）數(shù)據(jù)的不同找出第100個(gè)人的信息。這種方法就是加入隨機(jī)性，如果查詢(xún) 100 個(gè)記錄和 99 個(gè)記錄，輸出同樣的值的概率是一樣的，攻擊者就無(wú)法進(jìn)行差分攻擊。進(jìn)一步說(shuō)，對(duì)于差別只有一條記錄的兩個(gè)數(shù)據(jù)集 D 和 D'(neighboring datasets)，查詢(xún)他們獲得結(jié)果相同的概率非常接近。注意，這里并不能保證概率相同，如果一樣的話，數(shù)據(jù)就需要完全的隨機(jī)化，那樣公開(kāi)數(shù)據(jù)也就沒(méi)有意義。所以，我們需要盡可能接近，保證在隱私和可用性之間找到一個(gè)平衡。

ε-差分隱私 (ε-differential privacy，ε-DP) 可以用下面圖6的定義來(lái)表示：

其中 M 是在 D 上做任意查詢(xún)操作，對(duì)查詢(xún)后的結(jié)果加入一定的隨機(jī)性，也就是給數(shù)據(jù)加噪音，兩個(gè) datasets 加上同一隨機(jī)噪音之后查詢(xún)結(jié)果為 C 的概率比小于一個(gè)特定的數(shù) 。這樣就能保證用戶(hù)隱私泄露的概率有一個(gè)數(shù)學(xué)的上界，相比傳統(tǒng)的 k-anonymity，差分隱私使隱私保護(hù)的模型更加清晰。

我們用圖7的例子解釋差分隱私的定義：圖7中 D1 和D2 是兩個(gè)neighboring datasets，他們只有一條記錄不一致，在攻擊者查詢(xún)“20-30歲之間有多少人偏好購(gòu)買(mǎi)電子產(chǎn)品”的時(shí)候，對(duì)于這兩個(gè)數(shù)據(jù)庫(kù)得到的查詢(xún)結(jié)果是 100的概率分別是 99%和98%，他們的比值小于某個(gè)數(shù)。如果對(duì)于任意的查詢(xún)，都能滿(mǎn)足這樣的條件，我們就可以說(shuō)這種隨機(jī)方法是滿(mǎn)足ε-差分隱私的。因?yàn)?D1 和 D2 是可以互換的，所以更加嚴(yán)格地講，他們的比值也要大于 e-ε。

圖6

無(wú)論查詢(xún)是什么，兩個(gè)相鄰的數(shù)據(jù)庫(kù)返回的結(jié)果總是近似的。

要達(dá)到數(shù)據(jù)的差分隱私有四種方法：

1. 輸出結(jié)果變換

2. 輸入查詢(xún)變換

3. 中間值變換

4. 抽樣和聚合數(shù)據(jù)

本文接下來(lái)主要介紹輸出結(jié)果變換的方法，這種方法主要針對(duì)查詢(xún)結(jié)果是數(shù)值或者數(shù)值向量的情況，通過(guò)加入噪聲使輸出結(jié)果達(dá)到 ε-DP。

輸出結(jié)果變換：加入噪聲

在差分隱私中，防止隱私泄露的重要因素是在查詢(xún)結(jié)果中加噪音，對(duì)于數(shù)值的查詢(xún)結(jié)果，一種常見(jiàn)的方法就是對(duì)結(jié)果進(jìn)行數(shù)值變換。要解釋如何加入噪音，我們先看一下圖8的這個(gè)例子：假如某公司公開(kāi)了數(shù)據(jù)，并且對(duì)外提供了查詢(xún)數(shù)據(jù)的接口 f(x)，針對(duì)不同的查詢(xún) x，服務(wù)器都會(huì)輸出一個(gè)查詢(xún)結(jié)果 f(x) + 噪聲，加入噪聲就是為了保證 ε-差分隱私。

圖7

圖8

那么如何選擇噪聲呢？

差分隱私方法中，作者巧妙地利用了拉普拉斯分布的特性，找到了合適的噪聲方法。針對(duì)數(shù)值或向量的查詢(xún)輸出，M(x)= f(x) + 噪聲。我們能得出以下結(jié)論：

其中 Lap 是拉普拉斯分布，GS 表示global sensitivity：

詳細(xì)的證明可以參考差分隱私的相關(guān)文章。

我們有了這個(gè)結(jié)論，想要對(duì)某個(gè)查詢(xún)接口 f(x) 保證 ε-DP 的話，只需要在查詢(xún)結(jié)果上加入 Lap(GS/e) 的噪聲就可以了。

拉普拉斯分布和其概率密度函數(shù)如圖9：

(ε,δ)-differential privacy, (ε, δ)-DP

ε-DP 是一種“嚴(yán)格”的隱私保護(hù)保證，當(dāng)在數(shù)據(jù)庫(kù)中添加和刪除一條數(shù)據(jù)時(shí)候，保證所有查詢(xún)的輸出都類(lèi)似。但是(ε,δ)-DP 在ε-DP 的保證中允許了一定概率的錯(cuò)誤發(fā)生，比如說(shuō)，用戶(hù)在 (ε, δ)-DP的保護(hù)下會(huì)有 δ 概率的隱私泄露。

圖9

基于這些的概念，差分隱私在機(jī)器學(xué)習(xí)算法中也能夠使用，常見(jiàn)的算法，比如說(shuō) PCA、logistic regression、SVM都有對(duì)應(yīng)的差分隱私化算法。

差分隱私在數(shù)據(jù)的實(shí)用性和隱私性之間達(dá)到了平衡，使用者可以通過(guò)設(shè)定自己的“隱私預(yù)算”（privacy budget）來(lái)調(diào)整數(shù)據(jù)的實(shí)用性和隱私性。但是差分隱私也不是萬(wàn)能的，其中加入噪聲的很多算法需要在大量的數(shù)據(jù)集上才實(shí)用。除此之外，什么才是“隱私預(yù)算”的合理設(shè)定也是一個(gè)問(wèn)題。這些都是差分隱私面臨的問(wèn)題和挑戰(zhàn)。并且由于差分隱私對(duì)于“背景知識(shí)”的要求過(guò)于強(qiáng)，所以需要在結(jié)果中加入大量隨機(jī)化，導(dǎo)致數(shù)據(jù)的可用性（utility）急劇下降。但是差分隱私作為一個(gè)非常優(yōu)雅的數(shù)學(xué)工具，是隱私保護(hù)的研究在未來(lái)的一個(gè)發(fā)展方向。差分隱私用嚴(yán)格的數(shù)學(xué)證明告訴人們一個(gè)匿名化的公開(kāi)數(shù)據(jù)究竟能保護(hù)用戶(hù)多少的隱私。

k-匿名化與 ε-差分隱私的關(guān)系

我們前面分別單獨(dú)介紹了 k-匿名化和 ε-差分隱私，k-匿名化相對(duì)比較容易理解和實(shí)踐，差分隱私更像是從理論上證明了隱私保護(hù)的邊界。雖然方法的分析角度完全不同，但是它們之間卻有著緊密的聯(lián)系。普渡大學(xué)的Ninghui Li教授在 Provably PrivateData Anonymization: Or,k-Anonymity Meets Differential Privacy 文章中詳細(xì)分析了 k-匿名化和 ε-差分隱私之間的關(guān)系。文章證明了在使用 k-匿名化“得當(dāng)”的情況下，可以滿(mǎn)足一定條件的 (ε, δ)-differentialprivacy。同時(shí)也提出了一種 k-anonymity 的變形：β-Sampling+Data-independent _Generalization +k-Suppression (k, β)-SDGS ，通過(guò)變形后的k-anonymity 就可以使之滿(mǎn)足差分隱私。通過(guò)使用差分隱私這種工具，我們就能精確地衡量前人提出的 k-anonymity，這在理論研究上具有重要意義。

總結(jié)

本文介紹了學(xué)術(shù)界和工業(yè)界對(duì)于用戶(hù)隱私保護(hù)的努力成果。首先介紹了k-anonymity，即通過(guò)變換隱私數(shù)據(jù)，保證相同特性的用戶(hù)在數(shù)據(jù)庫(kù)出現(xiàn)的次數(shù)至少是 k 次。然后，為了防止攻擊者通過(guò)隱私數(shù)據(jù)的背景知識(shí)推測(cè)用戶(hù)身份，提出使用l-diversity，保證相同特征的用戶(hù)中，隱私數(shù)據(jù)相同的個(gè)數(shù)大于 l。除此之外，我們也討論了 t-closeness。最后詳細(xì)介紹了差分隱私的概念，以及實(shí)際應(yīng)用中應(yīng)如何使用差分隱私。

從最開(kāi)始的 k-anonymity, l-diversity ,t-closeness 到現(xiàn)在的ε-差分隱私，都是為了既保證用戶(hù)的個(gè)人隱私，也能對(duì)實(shí)際應(yīng)用和研究提供有價(jià)值的數(shù)據(jù)。在大數(shù)據(jù)的時(shí)代中，希望各公司在利用數(shù)據(jù)提供更好的服務(wù)的同時(shí)，能保護(hù)好用戶(hù)的個(gè)人隱私。這是法律的要求，也是安全行業(yè)的追求。我們相信隱私保護(hù)技術(shù)會(huì)越來(lái)越受到重視，并從學(xué)術(shù)理論迅速投入工業(yè)界實(shí)戰(zhàn)應(yīng)用。

（責(zé)編：楊潔）

（作者單位為百度安全實(shí)驗(yàn)室）

參考文章

1.https://www.cis.upenn.edu/～aaroth/Papers/privacybook.pdf

2.https://www.cs.cmu.edu/～yuxiangw/docs/Differential%20Privacy.pdf

3.https://blog.cryptographyengineering.com/2016/06/15/what-is-differential-privacy/

4.https://www.chromium.org/developers/designdocuments/rappor

5.http://static.googleusercontent.com/media/research.google.com/en/us/pubs/archive/42852.pdf

6.Provably Private Data Anonymization: Or,k-Anonymity Meets Differential Privacy

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)時(shí)代下的隱私保護(hù)

數(shù)據(jù)和隱私

隱私保護(hù)的方法

k-anonymity（k-匿名化）

l-diversity（l-多樣化）

t-closeness

差分隱私（differential privacy）

k-匿名化與 ε-差分隱私的關(guān)系

總結(jié)