賈靖宇,譚暢,劉哲偉,李鑫豪,劉哲理,張濤
差分隱私的隱私觀與隱私目標(biāo)
賈靖宇1,2,譚暢1,2,劉哲偉2,3,李鑫豪2,3,劉哲理2,3,張濤4
(1. 南開大學(xué)計(jì)算機(jī)學(xué)院,天津 300350;2. 南開大學(xué)數(shù)據(jù)與智能系統(tǒng)安全教育部重點(diǎn)實(shí)驗(yàn)室,天津 300350;3. 南開大學(xué)網(wǎng)絡(luò)空間安全學(xué)院,天津 300350;4. 中國工程物理研究院激光聚變研究中心,四川 綿陽 621900)
為了解決差分隱私中“隱私目標(biāo)”難以理解的問題,研究差分隱私在多個(gè)領(lǐng)域中存在的隱私爭議。從數(shù)據(jù)相關(guān)性場景的具體示例展開,研究學(xué)者對差分隱私保護(hù)目標(biāo)的不同觀點(diǎn)。當(dāng)數(shù)據(jù)集中的記錄具有相關(guān)性時(shí),敵手能利用記錄間相關(guān)性從差分隱私機(jī)制中準(zhǔn)確推理用戶的某些敏感信息。這種現(xiàn)象是否違反隱私保護(hù),引起學(xué)者的長期討論。借助法學(xué)領(lǐng)域的研究,調(diào)研計(jì)算機(jī)領(lǐng)域兩種主流隱私理論對隱私定義的影響。限制訪問個(gè)人信息理論強(qiáng)調(diào)阻止他人獲取個(gè)人的敏感信息。該理論認(rèn)為隱私機(jī)制應(yīng)當(dāng)阻止敵手通過獲取用戶的真實(shí)信息。對個(gè)人信息的控制理論則強(qiáng)調(diào)個(gè)人向他人傳達(dá)有關(guān)自身信息的權(quán)利。該理論認(rèn)為因他人分享數(shù)據(jù)的相關(guān)性,個(gè)人的信息泄露不應(yīng)該被視為隱私泄露。分析計(jì)算機(jī)科學(xué)、社會科學(xué)、倫理道德以及人機(jī)交互領(lǐng)域中學(xué)者對于隱私概念的不同理解而對差分隱私產(chǎn)生的爭議。從多學(xué)科視角分析差分隱私的隱私觀,幫助讀者正確認(rèn)識差分隱私的隱私觀與隱私目標(biāo),并增進(jìn)讀者對“隱私”的理解。
差分隱私;數(shù)據(jù)相關(guān)性;隱私風(fēng)險(xiǎn);隱私理論
數(shù)據(jù)已經(jīng)成為當(dāng)今社會上技術(shù)創(chuàng)新背后的關(guān)鍵驅(qū)動(dòng)力,企業(yè)能夠依靠海量數(shù)據(jù)提供更有競爭力的產(chǎn)品。因此,企業(yè)一直在促進(jìn)各方共享數(shù)據(jù)以實(shí)現(xiàn)更大的商業(yè)以及社會價(jià)值。然而,數(shù)據(jù)隱私泄露事件的披露導(dǎo)致人們開始擔(dān)心分析敏感數(shù)據(jù)的研究工作將對個(gè)人隱私造成的不利影響[1-3]。人們迫切需要在數(shù)據(jù)分享的過程中提供足夠的隱私保護(hù),以規(guī)避不必要的隱私風(fēng)險(xiǎn)。為了促進(jìn)數(shù)據(jù)共享,研究人員提出了差分隱私[4-10](DP,differential privacy)的隱私保護(hù)概念。
差分隱私是數(shù)據(jù)分析場景下隱私保護(hù)的黃金標(biāo)準(zhǔn),在指導(dǎo)隱私算法的設(shè)計(jì)以及量化數(shù)據(jù)分析用戶的隱私泄露水平任務(wù)中發(fā)揮著重要的作用。差分隱私要求隱私算法應(yīng)當(dāng)確保單個(gè)記錄的變化幾乎不會影響數(shù)據(jù)分析的結(jié)果。在這種情況下,敵手不太可能從差分隱私保護(hù)下的分析結(jié)果中識別單個(gè)用戶的記錄。因此,無論是用戶還是企業(yè)在共享數(shù)據(jù)時(shí),都不必過分擔(dān)心數(shù)據(jù)共享行為對個(gè)人隱私造成太大的風(fēng)險(xiǎn)。
隨著差分隱私的迅速發(fā)展,一系列關(guān)于差分隱私保護(hù)目標(biāo)的爭論[11-19]開始出現(xiàn)。學(xué)者發(fā)現(xiàn)很難解釋差分隱私在現(xiàn)實(shí)場景上提供的隱私保護(hù)效果。盡管差分隱私擁有嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)屬性,能夠在復(fù)雜的場景中量化隱私泄露,但差分隱私的量化指標(biāo)并不直觀,需要結(jié)合上下文來理解,這使得學(xué)者在差分隱私的保護(hù)目標(biāo)與適用場景上產(chǎn)生了分歧。
在數(shù)據(jù)存在相關(guān)性的場景中,差分隱私的爭議引發(fā)了學(xué)術(shù)界對于隱私目標(biāo)的大量討論。2011年,Kifer等[12]指出如果原始數(shù)據(jù)集的記錄間存在相關(guān)性,差分隱私很難提供有實(shí)際意義的保護(hù)效果。一個(gè)擁有輔助信息的敵手能準(zhǔn)確推理差分隱私保護(hù)的用戶敏感信息。只有假設(shè)記錄相互獨(dú)立,差分隱私提供的保護(hù)才是有意義的?;贙ifer等的研究,相當(dāng)數(shù)量的學(xué)者認(rèn)為如果數(shù)據(jù)間存在相關(guān)性,使用差分隱私算法會導(dǎo)致用戶的隱私泄露[20-28]。對于這一問題,爭論的關(guān)鍵并不在于技術(shù),而是如何正確理解“隱私”這一概念。
在統(tǒng)計(jì)數(shù)據(jù)分析中,傳統(tǒng)的隱私目標(biāo)是在統(tǒng)計(jì)數(shù)據(jù)中學(xué)習(xí)用戶特征的同時(shí),防止敵手推理出某些個(gè)體的屬性。然而,不斷出現(xiàn)的隱私泄露事件表明,敵手總是能借助特定的輔助信息來有效地從統(tǒng)計(jì)信息中推理出一些個(gè)人屬性。在任意背景知識的敵手下同時(shí)兼顧統(tǒng)計(jì)數(shù)據(jù)的效用和隱私是不現(xiàn)實(shí)的。相對應(yīng)地,差分隱私假定無法阻止個(gè)人信息的泄露。但為了促進(jìn)用戶分享數(shù)據(jù),差分隱私要求隱私保護(hù)技術(shù)在數(shù)據(jù)分析結(jié)果中提供一定的隨機(jī)性以保證單個(gè)記錄的變化不會對分析結(jié)果產(chǎn)生較大的影響。換句話講,差分隱私保證即使出現(xiàn)隱私泄露的情況也與用戶分享數(shù)據(jù)的行為無關(guān)。然而,差分隱私的隱私目標(biāo)并不符合所有人對隱私的理解。學(xué)術(shù)界關(guān)于隱私目標(biāo)的爭議與混淆開始阻礙差分隱私技術(shù)的發(fā)展。
本文認(rèn)為,提高用戶對“隱私”概念的理解是一項(xiàng)很重要但往往被忽略的工作。在科研工作中,常常能看到“侵犯隱私”或者“隱私泄露”的描述,但學(xué)者往往沒有對他們聲稱的“隱私”進(jìn)行明確的定義。而學(xué)者對于隱私這一概念的理解,很可能會影響他們文章的立意。當(dāng)隱私保護(hù)的目標(biāo)與人們的隱私觀念沖突時(shí),非技術(shù)的不可調(diào)和的矛盾就會出現(xiàn)。在提到隱私保護(hù)時(shí),研究人員通常關(guān)注隱私算法的技術(shù)特征,而忽略這些隱私算法在“隱私”理解上可能存在的差異。而在現(xiàn)實(shí)場景中,作者的隱私觀對隱私技術(shù)的落地有重要意義。
為了解釋差分隱私在學(xué)術(shù)界引發(fā)的一系列爭議,并幫助讀者理解差分隱私的隱私觀和隱私目標(biāo),本文總結(jié)關(guān)于差分隱私的一系列爭議,并解釋差分隱私場景下的隱私目標(biāo)。同時(shí),本文引入法學(xué)界對于“隱私”這一概念的長期討論,增進(jìn)讀者對“隱私”概念的理解,并幫助讀者正確理解差分隱私的隱私目標(biāo),從而正確地學(xué)習(xí)和使用差分隱私以及其他隱私保護(hù)技術(shù)。
差分隱私是一種具有規(guī)范數(shù)學(xué)性質(zhì)的隱私定義,它要求隱私算法在數(shù)據(jù)分析結(jié)果中提供足夠的隨機(jī)性以保護(hù)用戶隱私。差分隱私承諾如果用戶得到差分隱私算法的保護(hù),用戶所面臨的隱私泄露風(fēng)險(xiǎn)與他們分享數(shù)據(jù)的行為無關(guān)。差分隱私認(rèn)為,當(dāng)敵手擁有足夠的背景知識時(shí),用戶面臨的信息泄露風(fēng)險(xiǎn)是不可避免的。但差分隱私通過為用戶提供適當(dāng)?shù)谋Wo(hù)以降低數(shù)據(jù)分享與敏感信息泄露的關(guān)聯(lián)性。
接下來,本文給出全局靈敏度的定義。全局靈敏度指的是單條記錄對查詢函數(shù)的影響程度,它用于指導(dǎo)不同查詢函數(shù)中差分隱私機(jī)制的噪聲尺度。
下面介紹一種常用的差分隱私機(jī)制——拉普拉斯機(jī)制。拉普拉斯機(jī)制通過在查詢結(jié)果中添加服從拉普拉斯分布的隨機(jī)噪聲提供差分隱私保護(hù)。
圖1 拉普拉斯機(jī)制在相鄰數(shù)據(jù)集上的輸出分布
Figure 1 Distribution of the Laplace mechanism on neighboringdatasets
數(shù)據(jù)分析的隱私保護(hù)問題跨越了多個(gè)學(xué)科。越來越詳細(xì)的個(gè)人電子數(shù)據(jù)和不斷發(fā)展的數(shù)據(jù)分析技術(shù)對數(shù)據(jù)的收集和管理提出了更高的要求。在差分隱私出現(xiàn)之前,隱私保護(hù)技術(shù)往往會對一個(gè)直觀的隱私指標(biāo)進(jìn)行保護(hù)。以-匿名化[29]為例,該技術(shù)要求發(fā)布的表格式數(shù)據(jù)集中相同的組合需要出現(xiàn)至少次。然而,如果原始數(shù)據(jù)集中記錄缺乏多樣性,敵手很容易通過統(tǒng)計(jì)結(jié)果推理出某個(gè)人的屬性。由于缺少統(tǒng)一的設(shè)計(jì)標(biāo)準(zhǔn),隱私算法很容易在不同背景知識的攻擊者下遭到攻擊。因此,學(xué)術(shù)界需要一個(gè)能夠抵御任意背景知識敵手、有實(shí)際應(yīng)用意義,并且有著嚴(yán)格數(shù)據(jù)性質(zhì)的隱私定義來指導(dǎo)隱私保護(hù)技術(shù)的設(shè)計(jì)并量化隱私技術(shù)的保護(hù)效果。
1977年,Dalenius[30]對統(tǒng)計(jì)數(shù)據(jù)庫提出了個(gè)人隱私保護(hù)要求:除非能直接接觸數(shù)據(jù)庫,關(guān)于個(gè)人的任何信息都不應(yīng)該從數(shù)據(jù)庫的統(tǒng)計(jì)信息中學(xué)習(xí)。Dalenius的隱私目標(biāo)也被稱為經(jīng)典的統(tǒng)計(jì)披露限制。統(tǒng)計(jì)披露限制認(rèn)為,如果敵手能從統(tǒng)計(jì)信息中學(xué)習(xí)到關(guān)于個(gè)人的部分信息,統(tǒng)計(jì)數(shù)據(jù)庫就是不隱私的。類似的安全性定義常見于現(xiàn)代密碼學(xué),但很難匹配一些數(shù)據(jù)分析的實(shí)際需求。
在2008年的一項(xiàng)研究中,Dwork[31]用一個(gè)簡單的例子指出統(tǒng)計(jì)披露限制的困境:假設(shè)數(shù)據(jù)庫能計(jì)算不同地區(qū)女性的平均身高。只要敵手有特定的輔助信息,統(tǒng)計(jì)披露限制的隱私目標(biāo)就幾乎不可能實(shí)現(xiàn),除非統(tǒng)計(jì)結(jié)果中幾乎不包含任何有用的信息。
由于敵手輔助信息的存在,合理限制敵手的推理能力并提供有意義的隱私保護(hù)是較為困難的。同時(shí),如果希望限制敵手輔助信息的類型,如何界定敵手的輔助信息是否合理就會成為一個(gè)困難的問題。為了提出一個(gè)合理的隱私定義,差分隱私選擇對“隱私”進(jìn)行狹義解釋,通過降低隱私保護(hù)的標(biāo)準(zhǔn)而避免出現(xiàn)上述問題[5]。
差分隱私中,用戶只應(yīng)當(dāng)對他們能控制的行為要求隱私保護(hù)。因此,差分隱私的目標(biāo)是合理量化用戶分享數(shù)據(jù)的這一行為可能導(dǎo)致的隱私泄露。差分隱私限制分享數(shù)據(jù)導(dǎo)致的信息泄露,而不限制實(shí)際敵手推理導(dǎo)致的數(shù)據(jù)泄露程度,因此它并不需要對敵手的輔助信息進(jìn)行假設(shè)。作為一個(gè)對隱私機(jī)制隨機(jī)性的量化標(biāo)準(zhǔn),差分隱私自然地抵御任意背景知識敵手。即使敵手擁有任意的背景知識,能以極高的概率從數(shù)據(jù)分析中推理用戶的真實(shí)信息,也并不影響差分隱私的保證。
差分隱私對“隱私”概念的狹義解釋使得它面對任意背景知識敵手都能穩(wěn)定地量化用戶的隱私泄露。由于其規(guī)范的數(shù)學(xué)屬性,以及能抵御任意敵手的強(qiáng)魯棒性,差分隱私在敏感信息收集、數(shù)據(jù)庫隱私保護(hù)、醫(yī)療數(shù)據(jù)分析、機(jī)器學(xué)習(xí)隱私保護(hù)等場景得到了廣泛應(yīng)用。然而,一些研究表明差分隱私算法可能無法提供足夠的隱私[12,20-28]。Kifer[20]認(rèn)為,差分隱私模糊了人們隱私需求中試圖保護(hù)的內(nèi)容。具體來講,差分隱私只保護(hù)個(gè)人記錄在數(shù)據(jù)集中的變化所造成的影響,但實(shí)際上,它并不能完全防止敵手從數(shù)據(jù)分析任務(wù)能推理出個(gè)人信息,而這一點(diǎn)往往與人們對隱私的直觀理解不符。本文借助數(shù)據(jù)具有相關(guān)性的場景中差分隱私的爭議來解釋差分隱私可能存在的隱私問題。
圖2 差分隱私數(shù)據(jù)發(fā)布示意
Figure 2 Illustration of differential privacy data release
在圖2的數(shù)據(jù)收集示例中,Bob的患病狀態(tài)信息是如何流動(dòng)的?首先,路徑3-6表示Bob自身參與數(shù)據(jù)收集導(dǎo)致其患病狀態(tài)的泄露;路徑1-4-7表示Bob家族其他人參與數(shù)據(jù)收集對Bob患病信息泄露的影響。如果Bob家族的患病情況與其他用戶還有額外的相關(guān)性,路徑1-2-5-8同樣會在一定程度上泄露Bob的患病狀態(tài)。
實(shí)驗(yàn)1 推理攻擊實(shí)驗(yàn)
2) 輸入:敵手的推理算法,差分隱私算法,數(shù)據(jù)集,
上述例子中,敵手關(guān)于數(shù)據(jù)相關(guān)性的輔助信息能幫助其以更高的概率推理出Bob的患病狀態(tài)。在圖2所示的信息流中,差分隱私只量化了路徑3-6的信息流對Bob患病狀態(tài)的泄露。然而,如果用戶希望阻止敵手推理用戶的真實(shí)信息,那么不僅需要保護(hù)路徑3-6的信息流,還需要保護(hù)路徑1-4-7甚至是路徑1-2-5-8信息流。
針對上述問題,一些學(xué)者認(rèn)為差分隱私在數(shù)據(jù)存在相關(guān)性的場景中并不能對個(gè)人的隱私泄露提供充分的保護(hù)[12,20-28]。其中,一些工作認(rèn)為差分隱私是建立在數(shù)據(jù)獨(dú)立的假設(shè)之上的[12,24,25]。只有數(shù)據(jù)集中所有記錄相互獨(dú)立時(shí),差分隱私的參數(shù)才能有效地表示為敵手的推理能力。差分隱私認(rèn)為敵手的推理能力并不能代表用戶隱私泄露的程度。即使是在圖2的例子中,敵手能以極高的概率推理Bob的患病信息,也不代表差分隱私?jīng)]能保護(hù)用戶的隱私。而他家人分享數(shù)據(jù)導(dǎo)致的信息泄露,不應(yīng)當(dāng)作為Bob的隱私來保護(hù)。在后續(xù)的研究中,Michael等[21]基于上述工作,提出通過關(guān)聯(lián)和因果關(guān)系來解釋上面兩種相互矛盾的觀點(diǎn)。Michael指出,差分隱私應(yīng)從因果關(guān)系的角度理解:差分隱私能保證敵手的推理能力與用戶分享數(shù)據(jù)缺乏因果關(guān)系,但并不能保護(hù)數(shù)據(jù)集本身的關(guān)聯(lián)性。
2019年,哈佛大學(xué)組織召開了一場關(guān)于差分隱私的研討會。差分隱私學(xué)者、計(jì)算機(jī)學(xué)者、經(jīng)濟(jì)學(xué)家與社會學(xué)家共同討論并試圖找出如何以及何時(shí)應(yīng)用差分隱私的共識。在如何衡量隱私泄露上,學(xué)者始終沒能達(dá)成統(tǒng)一的意見。差分隱私的研究人員希望將差分隱私作為隱私泄露的標(biāo)準(zhǔn),但在場的研究人員則更關(guān)注如何評估差分隱私的保護(hù)效果,即在差分隱私的保護(hù)下,如何衡量敵手重識別用戶數(shù)據(jù)的能力。由此看來,差分隱私在現(xiàn)實(shí)場景的應(yīng)用還有較長一段距離。
本文認(rèn)為有關(guān)差分隱私的爭議本質(zhì)上是學(xué)者對隱私有不同理解,進(jìn)而導(dǎo)致對隱私保護(hù)產(chǎn)生了不同的期望。由于雙方的矛盾是主觀的,因此任何技術(shù)上的研究都無法解決學(xué)者在差分隱私上的爭議。下文將描述學(xué)者的兩類隱私觀,并借助法學(xué)與社會學(xué)家的研究總結(jié)兩類隱私觀的特征。
本文借助法學(xué)對隱私的長期研究,將兩種不同的隱私理論呈現(xiàn)給讀者。Himma等[32]基于對數(shù)據(jù)信息和計(jì)算機(jī)倫理的研究,將與計(jì)算機(jī)數(shù)據(jù)有關(guān)的隱私定義為信息隱私,并指出“有關(guān)信息隱私的問題的大多數(shù)分析援引了限制訪問理論和控制理論的變體?!北疚陌l(fā)現(xiàn),學(xué)者對差分隱私的不同理解,是這兩種理論的延伸。
限制訪問個(gè)人信息(limited access to personal information)理論是最重要的隱私理論之一,它強(qiáng)調(diào)隱私是阻止他人獲取個(gè)人信息的一種權(quán)利。Gavison[33]認(rèn)為“隱私是對他人訪問個(gè)人信息的一種限制?!鳖愃频?,Bok[34]認(rèn)為“隱私是一種被保護(hù)的條件,不接受不希望的訪問,包括物理訪問、個(gè)人信息或注意?!痹谙拗圃L問理論中,當(dāng)一個(gè)人完全獨(dú)立于社會而存在時(shí),他就獲得了絕對的隱私。顯然,人們很難在社會中獲得絕對的隱私或完全的隱私喪失。因此,限制訪問個(gè)人信息理論關(guān)注的是“隱私的喪失”。Gavison[33]認(rèn)為“當(dāng)一個(gè)人獲得他人的信息、關(guān)注他們或獲得訪問他們的機(jī)會時(shí),就會發(fā)生隱私的喪失?!盩avani等[35]也有類似的觀點(diǎn),認(rèn)為“隱私從根本上是關(guān)于保護(hù)他人免受入侵和信息收集”。
限制訪問理論是對隱私的一種直觀感受:如果一個(gè)人不希望其他人訪問他的信息,但其他人通過某種方式了解了他的信息,那么他的隱私就會受到侵犯。然而,實(shí)現(xiàn)在信息隱私中限制訪問理論存在一定困難。Tavani[35]指出:限制訪問理論的深刻見解之一是認(rèn)識到需要建立邊界和上下文的重要性,以實(shí)現(xiàn)信息隱私。換句話說,如果希望在限制訪問理論下保障隱私,就需要確定隱私的范圍,以及與人們希望保障的隱私相關(guān)的各種類型的信息。然而,這正是限制訪問理論面臨的主要困境。限制訪問理論缺乏對隱私信息和公共信息的明確區(qū)分,因此人們很難建立一個(gè)統(tǒng)一的標(biāo)準(zhǔn)來辨別何種程度的接觸會構(gòu)成侵犯隱私。
大部分密碼學(xué)技術(shù)包括統(tǒng)計(jì)披露限制,均符合限制訪問理論對于隱私保護(hù)的理解。這些工作通常將防止敵手獲取用戶的敏感信息作為隱私保護(hù)的最終目標(biāo)。然而,由于難以界定哪些是用戶的隱私信息,基于限制訪問理論提供隱私保護(hù)尚存在諸多困難。例如,人物自傳中通常會涉及與他人的一些生活經(jīng)歷,然而在未惡意歪曲事實(shí)的前提下,作者可以在寫作中合法透露他人的部分經(jīng)歷而不承擔(dān)任何后果。隨著科技的進(jìn)步,在醫(yī)療方面面臨著更加復(fù)雜的隱私問題。以基因隱私為例,家庭成員間的基因通常有著密切的關(guān)聯(lián)性,而個(gè)人對基因信息的處置權(quán)利是否應(yīng)當(dāng)考慮家庭其他成員的隱私尚且處于法律和道德的空白領(lǐng)域。
對個(gè)人信息的控制(control over personal information)理論是另一個(gè)重要的隱私理論。這一理論的提出者是個(gè)人隱私理論的創(chuàng)始人Alan Westin。Westin[36]認(rèn)為“隱私是個(gè)人、團(tuán)體或機(jī)構(gòu)自行決定何時(shí)、如何以及在何種程度上向他人傳達(dá)有關(guān)他們的信息的權(quán)利?!盬estin觀察到,個(gè)人同時(shí)具有披露信息和他人陪伴的需求,這與他們的隱私需求一樣重要。這一觀察表明,人類需要在信息披露和個(gè)人隱私之間取得平衡。這個(gè)概念在現(xiàn)實(shí)生活中很常見。一個(gè)人有時(shí)可能想和家人或朋友待在一起,有時(shí)又想獨(dú)處。然而,過多或過少的隱私會破壞平衡,嚴(yán)重影響人們的生活。因?yàn)槊總€(gè)人都需要不斷地在獨(dú)處和群集之間調(diào)整,Westin認(rèn)為:個(gè)人為自己決定何時(shí)應(yīng)該向公眾披露自己的信息是個(gè)人隱私權(quán)利的核心。
控制理論同樣有著眾多的支持者[37-39]。Fried[37]指出了限制訪問理論和控制理論的區(qū)別,他認(rèn)為“人們對我們的了解越少,我們的隱私就越多,這種說法是不對的。隱私不僅僅是在別人的腦海中沒有關(guān)于我們的信息,而是我們對自身信息的控制。”
由于對隱私的狹義解釋,控制理論受到了許多學(xué)者的批評。Tavani等[35]認(rèn)為個(gè)人對敏感信息的控制是非常有限的,控制理論排除了很多應(yīng)該被理解為隱私的東西。他們建議,即使人們失去了對敏感信息的控制,這些信息也應(yīng)該作為隱私信息加以保護(hù),如傳染病發(fā)布問題以及基因隱私問題。個(gè)人的信息往往與他人具有關(guān)聯(lián)性,而他人對信息的處置有可能導(dǎo)致自身的信息泄露。為了保護(hù)某些敏感信息,人們需要擴(kuò)大隱私的范圍,以保護(hù)某些不受自己控制的信息分享行為。
基于限制訪問理論的統(tǒng)計(jì)披露限制和基于控制理論的差分隱私是目前數(shù)據(jù)分析場景中學(xué)者對于隱私保護(hù)的主流理解。這里總結(jié)兩種隱私理解的差異。
首先,對于“隱私”的理解,統(tǒng)計(jì)披露限制認(rèn)為隱私保護(hù)是為了阻止敵手推理用戶的敏感信息;而差分隱私則認(rèn)為隱私保護(hù)是為了量化用戶分享數(shù)據(jù)行為對隱私泄露的影響。其次,對于用戶面臨的數(shù)據(jù)重識別風(fēng)險(xiǎn),統(tǒng)計(jì)披露限制認(rèn)為用戶的隱私風(fēng)險(xiǎn)是可以被限制的,因此應(yīng)當(dāng)通過隱私技術(shù)來抵御此類風(fēng)險(xiǎn),并通過適當(dāng)?shù)闹笜?biāo)對風(fēng)險(xiǎn)進(jìn)行評估,而差分隱私則認(rèn)為隱私泄露的風(fēng)險(xiǎn)是不可預(yù)見且難以阻止的,因此不考慮敵手的攻擊效果而只量化隱私算法的隨機(jī)性,進(jìn)而促進(jìn)用戶分享數(shù)據(jù)。
在量化隱私保護(hù)效果時(shí),統(tǒng)計(jì)披露限制需要對敵手的推理能力進(jìn)行限制。對于具有輔助信息的敵手,統(tǒng)計(jì)披露限制很難給出統(tǒng)一的量化標(biāo)準(zhǔn),當(dāng)敵手的輔助信息超出限制時(shí)將無法提供有意義的保護(hù)。差分隱私不考慮敵手的攻擊效果,而是量化隱私算法的隨機(jī)性,因此只要隱私算法能正確運(yùn)行,差分隱私的保護(hù)在任意輔助信息的敵手下都是有效的。如果研究人員希望從統(tǒng)計(jì)披露限制的角度使用差分隱私技術(shù),就需要設(shè)置敵手的能力以及直觀的隱私泄露指標(biāo)(如假設(shè)檢驗(yàn)中的誤報(bào)率與漏報(bào)率)來重新量化差分隱私技術(shù)的保護(hù)效果。
作為一種基于控制理論的隱私定義,差分隱私自然地繼承了控制理論的特點(diǎn)。其對隱私的狹義解釋招致了諸多學(xué)者的不滿,并且在數(shù)據(jù)具有相關(guān)性的場景中,很難提供具有實(shí)際意義的保護(hù)。然而,差分隱私的廣泛應(yīng)用表示從信息控制的角度量化隱私泄露是今后隱私保護(hù)的大趨勢。
正如Nissim[11]所述,人們對隱私保護(hù)的期望往往依賴于信息交互的直覺假設(shè)而不是基于科學(xué)與數(shù)學(xué)原理。以這種方式構(gòu)建隱私可能出現(xiàn)不現(xiàn)實(shí)的隱私需求,導(dǎo)致學(xué)界追求一個(gè)不可能實(shí)現(xiàn)的理想化的隱私目標(biāo)。相對地,純技術(shù)方法可能會對隱私采取狹隘的觀點(diǎn),無法捕捉隱私的基本規(guī)范期望。如何合理地定義隱私,兼顧科學(xué)計(jì)算并滿足社會對隱私的一般期望,將會是一個(gè)復(fù)雜的研究方向。
近年來,針對差分隱私的爭議不局限于計(jì)算機(jī)領(lǐng)域的技術(shù)研究。在與現(xiàn)行法律的結(jié)合、社會科學(xué)中人們對隱私的普遍期望以及人機(jī)交互研究中普通用戶對差分隱私的理解等方面引起了學(xué)者的一定關(guān)注。
在《美國科學(xué)院院報(bào)》發(fā)表的一項(xiàng)工作中,Cohen[13]對歐洲《通用數(shù)據(jù)保護(hù)條例》(GDPR)的隱私目標(biāo)進(jìn)行建模,將GDPR對隱私泄露的描述解釋為:數(shù)據(jù)發(fā)布程序應(yīng)當(dāng)防止敵手以較高的概率從統(tǒng)計(jì)結(jié)果中找出一條記錄與數(shù)據(jù)集中的真實(shí)記錄匹配。他們將建模的隱私目標(biāo)定義為防謂詞單選安全(PSO secure,secure against predicate singling out),并證明了差分隱私滿足PSO安全。然而,Holzel[17]則指出差分隱私并不能保護(hù)數(shù)據(jù)主體免受由于統(tǒng)計(jì)數(shù)據(jù)庫的存在而造成的傷害,因?yàn)樗荒鼙WC敵手利用背景知識從發(fā)布的數(shù)據(jù)集中推理用戶的敏感信息,從而違反GDPR的隱私目標(biāo)。
在美國聯(lián)邦貿(mào)易委員(FTC,F(xiàn)ederal Trade Commission)對消費(fèi)者隱私保護(hù)的研究報(bào)告[40]中,F(xiàn)TC對企業(yè)保護(hù)個(gè)人數(shù)據(jù)隱私提出的要求中的第一條就是“企業(yè)必須采取合理措施,確保數(shù)據(jù)被去識別。這意味著企業(yè)必須達(dá)到合理的信心水平,不能合理地使用數(shù)據(jù)來推斷特定消費(fèi)者、計(jì)算機(jī)或其他設(shè)備的信息,或以其他方式與之關(guān)聯(lián)。”如果企業(yè)使用差分隱私機(jī)制為個(gè)人數(shù)據(jù)提供隱私保護(hù),F(xiàn)TC的要求意味著不能單純地通過差分隱私的參數(shù)判斷是否提供足夠的保護(hù),而需要考慮實(shí)際場景下可能敵手的推理能力。
針對學(xué)術(shù)界關(guān)于差分隱私的爭議,Oberski[14]從社會科學(xué)的角度審視了差分隱私。他認(rèn)為差分隱私可能會徹底改變社會對傳統(tǒng)隱私泄露的理解。Oberski認(rèn)為關(guān)于差分隱私的技術(shù)性研究并不能解決人們在隱私目標(biāo)上的分歧,因?yàn)榉制缗c科學(xué)事實(shí)無關(guān)。相反,人們對隱私風(fēng)險(xiǎn)有不同的主觀信念,因此他們對如何減輕此類風(fēng)險(xiǎn)的想法不同。如果不能統(tǒng)一人們對隱私的理解,關(guān)于差分隱私的分歧可能永遠(yuǎn)都無法解決。
近幾年開始出現(xiàn)針對差分隱私的人機(jī)交互研究,學(xué)者逐漸嘗試向普通用戶解釋和推廣差分隱私[16,18-19],這意味著差分隱私已經(jīng)從純技術(shù)性的研究發(fā)展到調(diào)研用戶體驗(yàn)的新階段。Xiong等[18]在收集健康信息的應(yīng)用程序中向外行人描述差分隱私提供的技術(shù)與保護(hù)。Xiong等發(fā)現(xiàn)提供差分隱私的描述能幫助用戶提高分享敏感數(shù)據(jù)的意愿,然而調(diào)查中對客觀理解問題的回答表明,普通用戶很難理解差分隱私中對隱私的承諾和其他隱私保護(hù)技術(shù)的區(qū)別。在后續(xù)的工作中,Xiong等[19]嘗試通過各種描述方法改善人們對差分隱私的理解,在對400位具有大學(xué)教育背景和計(jì)算機(jī)專業(yè)知識的對象進(jìn)行調(diào)查后,Xiong等發(fā)現(xiàn)調(diào)查對象對差分隱私的理解依舊不如預(yù)期。
Cummings等[16]調(diào)研了普通用戶對差分隱私的期望。他們發(fā)現(xiàn)當(dāng)下企業(yè)對差分隱私不恰當(dāng)?shù)拿枋龊苡锌赡苷`導(dǎo)用戶設(shè)置過高的隱私期望。Cummings等認(rèn)為,對用戶解釋差分隱私不應(yīng)僅僅為了提高他們分享數(shù)據(jù)的意愿,而應(yīng)該幫助用戶正確理解差分隱私能提供的保護(hù)。調(diào)查結(jié)果顯示,企業(yè)對差分隱私的描述會改變用戶對于隱私風(fēng)險(xiǎn)的評估,然而超過半數(shù)受訪者關(guān)心的隱私泄露與差分隱私承諾的保護(hù)目標(biāo)是不同的。
美國已經(jīng)在人口普查中應(yīng)用差分隱私在數(shù)據(jù)發(fā)布中保護(hù)公民隱私[41]。谷歌[6,7]、蘋果[8]、微軟[9]等企業(yè)也在努力拓展差分隱私的應(yīng)用場景。在技術(shù)角度的研究中,學(xué)者通常會詳盡列出所有可能出現(xiàn)的情況,并分析在各種情況下隱私保護(hù)技術(shù)的效果。而在人機(jī)交互的研究中,學(xué)者更加關(guān)注如何更好地幫助用戶理解和使用即將(或已經(jīng))在實(shí)際場景中廣泛部署的技術(shù)。因此,針對差分隱私的倫理研究還處于空窗期。盡管已經(jīng)有學(xué)者意識到,廣泛應(yīng)用差分隱私技術(shù)可能會引發(fā)一系列的倫理道德甚至法律問題。但無論是計(jì)算機(jī)、人機(jī)交互還是法學(xué)研究領(lǐng)域都沒能為差分隱私提供一個(gè)準(zhǔn)確的適用范圍。
本文總結(jié)了差分隱私在隱私觀和隱私目標(biāo)上的長期討論,并從計(jì)算機(jī)科學(xué)、法學(xué)、人機(jī)交互等多個(gè)領(lǐng)域調(diào)研學(xué)術(shù)界在差分隱私上的爭議。經(jīng)過長期的研究,差分隱私逐漸成為一種成熟可靠的數(shù)學(xué)工具,在越來越多的領(lǐng)域中為用戶提供隱私保護(hù)。然而,差分隱私對隱私的理解可能與人們對隱私的一般理解不同,這使得在實(shí)際部署和增進(jìn)用戶理解差分隱私時(shí)困難重重。差分隱私已經(jīng)逐漸從一項(xiàng)技術(shù)性的研究轉(zhuǎn)變?yōu)樯鐣⒎?、倫理道德與人機(jī)交互等多學(xué)科交叉的研究領(lǐng)域。因此,除了關(guān)于差分隱私技術(shù)性的科學(xué)研究之外,加深人們對“隱私”概念的深入理解是促進(jìn)差分隱私應(yīng)用落地的重要推手。
差分隱私已經(jīng)在事實(shí)意義上成為收集、分析與發(fā)布用戶數(shù)據(jù)的重要工具。在此情況下,確定數(shù)據(jù)分析場景的隱私保護(hù)的范圍,以及差分隱私的適用場景變成了一個(gè)關(guān)系到公民隱私保護(hù)的重要研究領(lǐng)域。設(shè)計(jì)一套行之有效的溝通機(jī)制,幫助普通用戶理解差分隱私,并指導(dǎo)用戶做出正確的數(shù)據(jù)分享決策是目前差分隱私領(lǐng)域有待深入挖掘的研究方向。
[1] PRICE W N, COHEN I G. Privacy in the age of medical big data[J]. Nature Medicine, 2019, 25(1): 37-43.
[2] WANG Z, SONG M, ZHANG Z, et al. Beyond inferring class representatives: User-level privacy leakage from federated learning[C]//IEEE INFOCOM 2019-IEEE Conference on Computer Communications. 2019: 2512-2520.
[3] AYABURI E W, TREKU D N. Effect of penitence on social media trust and privacy concerns: The case of Facebook[J]. International Journal of Information Management, 2020, 50: 171-181.
[4] DWORK C, MCSHERRY F, NISSIM K, et al. Calibrating noise to sensitivity in private data analysis[C]//Theory of Cryptography Conference. 2006: 265-284.
[5] DWORK C, ROTH A. The algorithmic foundations of differential privacy[J]. Found Trends Theor Comput SCI, 2014, 9(3-4): 211-407.
[6] ERLINGSSON ú, PIHUR V, KOROLOVA A. Rappor: randomized aggregatable privacy-preserving ordinal response[C]//Proceedings of the 2014 ACM SIGSAC Conference on Computer and Communications Security. 2014: 1054-1067.
[7] BITTAU A, ERLINGSSON ú, MANIATIS P, et al. Prochlo: strong privacy for analytics in the crowd[C]//Proceedings of the 26th Symposium on Operating Systems Principles. 2017: 441-459.
[8] Differential Privacy Team, Apple. Learning with privacy at scale[S]. 2017.
[9] DING B, KULKARNI J, YEKHANIN S. Collecting telemetry data privately[C]//Proceedings of the 31st International Conference on Neural Information Processing Systems. 2017: 3574-3583.
[10] JOHNSON N, NEAR J P, SONG D. Towards practical differential privacy for SQL queries[J]. Proceedings of the VLDB Endowment, 2018, 11(5): 526-539.
[11] NISSIM K, WOOD A. Is privacy privacy[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2018, 376(2128): 20170358.
[12] KIFER D, MACHANAVAJJHALA A. No free lunch in data privacy[C]//Proceedings of the 2011 ACM SIGMOD International Conference on Management of Data. 2011: 193-204.
[13] COHEN A, NISSIM K. Towards formalizing the GDPR’s notion of singling out[J]. Proceedings of the National Academy of Sciences, 2020, 117(15): 8344-8352.
[14] OBERSKI D L, KREUTER F. Differential privacy and social science: an urgent puzzle[J]. Harvard Data Science Review: HDSR, 2020, 2(1): 1-21.
[15] ROGAWAY P. The moral character of cryptographic work[J]. Cryptology ePrint Archive, 2015.
[16] CUMMINGS R, KAPTCHUK G, REDMILES E M. I need a better description: an investigation into user expectations for differential privacy[C]//Proceedings of the 2021 ACM SIGSAC Conference on Computer and Communications Security. 2021: 3037-3052.
[17] HOLZEL J. Differential privacy and the GDPR[J]. Eur Data Prot L Rev, 2019, 5: 184.
[18] XIONG A, WU C, WANG T, et al. Using illustrations to communicate differential privacy trust models: an investigation of users' comprehension, perception, and data sharing decision[J]. arXiv Preprint arXiv:2202.10014, 2022.
[19] XIONG A, WANG T, LI N, et al. Towards effective differential privacy communication for users’ data sharing decision and comprehension[C]//2020 IEEE Symposium on Security and Privacy (SP). 2020: 392-410.
[20] KIFER D, MACHANAVAJJHALA A. Pufferfish: a framework for mathematical privacy definitions[J]. ACM Transactions on Database Systems (TODS), 2014, 39(1): 1-36.
[21] MICHAEL C T, SEN S, DATTA A. SoK: differential privacy as a causal property[C]//2020 IEEE Symposium on Security and Privacy (SP). 2020: 354-371.
[22] LIU C, CHAKRABORTY S, MITTAL P. Dependence makes you vulnberable: differential privacy under dependent tuples[C]//NDSS. 2016: 21-24.
[23] ZHAO J, ZHANG J, POOR H V. Dependent differential privacy for correlated data[C]//2017 IEEE Globecom Workshops (GC Wkshps). 2017: 1-7.
[24] ZHU T, XIONG P, LI G, et al. Correlated differential privacy: Hiding information in non-IID data set[J]. IEEE Transactions on Information Forensics and Security, 2014, 10(2): 229-242.
[25] YANG B, SATO I, NAKAGAWA H. Bayesian differential privacy on correlated data[C]//Proceedings of the 2015 ACM SIGMOD international conference on Management of Data. 2015: 747-762.
[26] ZHANG T, ZHU T, LIU R, et al. Correlated data in differential privacy: definition and analysis[J]. Concurrency and Computation: Practice and Experience, 2020.
[27] LI Y, REN X, YANG S, et al. Impact of prior knowledge and data correlation on privacy leakage: a unified analysis[J]. IEEE Transactions on Information Forensics and Security, 2019, 14(9): 2342-2357.
[28] CHEN R, FUNG B, YU P S, et al. Correlated network data publication via differential privacy[J]. The VLDB Journal, 2014, 23(4): 653-676.
[29] SWEENEY L. k-anonymity: a model for protecting privacy[J]. International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 2002, 10(5): 557-570.
[30] DALENIUS T. Towards a methodology for statistical disclosure control[J]. Statistik Tidskrift, 1977, 15(429-444).
[31] DWORK C, NAOR M. On the difficulties of disclosure prevention in statistical databases or the case for differential privacy[J]. Journal of Privacy and Confidentiality, 2010, 2(1).
[32] HIMMA K E, TAVANI H T.The handbook of information and computer ethics[M].Hoboken: John Wiley & Sons, 2008.
[33] GAVISON R. Privacy and the limits of law[J]. The Yale Law Journal, 1980, 89(3): 421-471.
[34] BOK S. Secrets: on the ethics of concealment and revelation[M]. New York: Vintage, 1989.
[35] TAVANI H T, MOOR J H. Privacy protection, control of information, and privacy-enhancing technologies[J]. ACM Sigcas Computers and Society, 2001, 31(1): 6-11.
[36] WESTIN A F. Privacy and freedom[J]. Washington and Lee Law Review, 1968, 25(1): 166.
[37] FRIED C. Privacy: a rational context[M]. New York: Computers, Ethics & Society. 1990: 51-63.
[38] BERKMAN B A. The assault on privacy: computers, data banks, and dossiers[J]. Case Western Reserve Law Review, 1971, 22(4): 808.
[39] RACHELS J. Why privacy is important[J]. Philosophy & Public Affairs, 1975: 323-333.
[40] STAFF F T C. Protecting consumer privacy in an era of rapid change-a proposed framework for businesses and policymakers[J]. Journal of Privacy and Confidentiality, 2011, 3(1).
[41] ABOWD J M. The US census Bureau adopts differential privacy[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2867-2867.
Privacy view and target of differential privacy
JIA Jingyu1,2, TAN Chang1,2, LIU Zhewei2,3, LI Xinhao2,3,LIU Zheli2,3, ZHANG Tao4
1. College of Computer Science, Nankai University, Tianjin 300350, China 2. Key Laboratory of Data and Intelligent System Security, Ministry of Education, Nankai University, Tianjin 300350, China 3. College of Cyber Science, Nankai University, Tianjin 300350, China 4. LaserFusion Research Center, China Academy of Engineering Physics, Mianyang 621900, China
The study aimed to address the challenges in understanding the privacy goals of differential privacy by analyzing the privacy controversies surrounding it in various fields. It began with the example of data correlation and highlighted the differing perspectives among scholars regarding the targets of privacy protection. In cases where records in a dataset were correlated, adversaries can exploit this correlation to infer sensitive information about individuals, thereby sparking a debate on whether this violates privacy protection. To investigate the influence of privacy theories in the legal domain on defining privacy, two mainstream privacy theories in the computer field were examined. The first theory, limited access to personal information, focuses on preventing others from accessing an individual’s sensitive information. According to this theory, privacy mechanisms should aim to prevent adversaries from accessing a user’s actual information. In contrast, the second theory, control over personal information, emphasizes an individual’s right to communicate personal information to others. This theory suggests that the disclosure of personal information due to the relevance of others sharing data should not be considered a breach of privacy. Then the controversies of differential privacy were analyzed in the fields of computer science, social science, ethics and human-computer interaction due to their different understandings of privacy. By exploring the privacy concept of differential privacy from a multidisciplinary perspective, this study helps readers gain a correct understanding of the privacy viewpoint and goals of differential privacy while enhancing their understanding of the concept of “privacy” itself.
differential privacy, data correlation, privacy risk, privacy theory
The National Natural Science Foundation of China (62032012)
賈靖宇, 譚暢, 劉哲偉, 等. 差分隱私的隱私觀與隱私目標(biāo)[J]. 網(wǎng)絡(luò)與信息安全學(xué)報(bào), 2023, 9(5): 82-91.
TP3-05
A
10.11959/j.issn.2096?109x.2023071
賈靖宇(1996? ),男,天津人,南開大學(xué)博士生,主要研究方向?yàn)椴罘蛛[私。
譚暢(1996? ),男,天津人,南開大學(xué)博士生,主要研究方向?yàn)椴罘蛛[私。
劉哲偉(2000? ),男,吉林松原人,南開大學(xué)碩士生,主要研究方向?yàn)椴罘蛛[私。
李鑫豪(2000? ),男,山東泰安人,南開大學(xué)碩士生,主要研究方向?yàn)椴罘蛛[私。
劉哲理(1978? ),男,山東濰坊人,南開大學(xué)教授、博士生導(dǎo)師,主要研究方向?yàn)榛诿艽a學(xué)的數(shù)據(jù)隱私保護(hù)、密文數(shù)據(jù)庫、密文集合運(yùn)算、差分隱私、人工智能安全。
張濤(1990? ),男,四川蒼溪人,中國工程物理研究院激光聚變研究中心高級工程師,主要研究方向?yàn)樾畔踩?、?shù)據(jù)融合分析與應(yīng)用。
2022?11?30;
2023?03?31
劉哲理,liuzeli@nankai.edu.cn
國家自然科學(xué)基金(62032012)
JIA J Y, TAN C, LIU Z W, et al. Privacy view and target of differential privacy[J]. Chinese Journal of Network and Information Security, 2023, 9(5): 82-91.