周娜 劉剛
摘要:作為有效促進個人數(shù)據(jù)有序流動、合規(guī)共享的技術(shù)手段,匿名化在個人信息保護和個人數(shù)據(jù)共享方面發(fā)揮著至關(guān)重要的作用。本文介紹了匿名化技術(shù)領(lǐng)域的最新發(fā)展,對常見的匿名化隱私保護方法進行了對比與分析,并總結(jié)了匿名化技術(shù)的度量方法和存在的問題。最后,提出了關(guān)于個人數(shù)據(jù)共享中匿名化技術(shù)進一步發(fā)展的建議。
關(guān)鍵詞:匿名化;個人信息保護;個人數(shù)據(jù)共享
隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、5G、大數(shù)據(jù)等技術(shù)的普及應(yīng)用,新一代信息技術(shù)正在促進和深化電子商務(wù)、醫(yī)療保險、交通出行、智能家居和在線教育等各行業(yè)的融合、創(chuàng)新和發(fā)展。各行各業(yè)都在收集和共享大量的個人數(shù)據(jù)[1],數(shù)據(jù)共享不僅可以打破信息壁壘,促進產(chǎn)業(yè)的創(chuàng)新與發(fā)展。同時,行業(yè)間的數(shù)據(jù)共享也可以使用戶獲得更加個性化、便利化、高品質(zhì)的服務(wù)。很多數(shù)據(jù)中存在著用戶的敏感信息,可能危及用戶的隱私。個人信息處理者在向其他組織、機構(gòu)共享個人數(shù)據(jù)或發(fā)布用戶數(shù)據(jù)之前應(yīng)確保用戶的敏感信息和隱私數(shù)據(jù)受到保護。這些可以通過數(shù)據(jù)匿名化技術(shù)實現(xiàn)。匿名化是隱私保護領(lǐng)域的重要技術(shù)手段之一。在法律規(guī)制層面上,我國也逐步確立了匿名化處理的法律標準。例如,新實施的《個人信息保護法》第七十二條中規(guī)定了匿名化的定義:“個人信息經(jīng)過處理無法識別特定自然人且不能復原的過程”。從法律及現(xiàn)行標準來看,我國已確立的匿名化處理的法律標準是數(shù)據(jù)處理后“無法識別特定自然人且不能復原”。
一、常見的匿名化技術(shù)
為實現(xiàn)匿名化,專家學者提出了很多匿名化模型和實現(xiàn)匿名化的技術(shù)手段。1998年,Sweeney等人[2]首次提出了K-匿名模型。此后,學者們在此基礎(chǔ)上相繼提出了更有效的匿名化模型,如L-多樣性[3]、T-接近[4]和差分隱私[5]等匿名化模型。還有學者在這些模型基礎(chǔ)上提出了很多改進的匿名化模型,這些模型通過引入更多的約束條件以達到更高的隱私保護強度,例如(α,k)-匿名模型[6]、(C,l)-多樣性[7]等。接下來我們將介紹一些常用的匿名化模型和實現(xiàn)匿名化的技術(shù)手段等。
(一)匿名化模型
1.K-匿名化。K-匿名化算法最初由Sweeney提出。該算法的主要目的是通過將至少K個用戶置于具有相同準標識符的等價類中來保護用戶隱私。在K-匿名模型中,如果發(fā)布的數(shù)據(jù)集中的每個信息都不能與發(fā)布數(shù)據(jù)集中至少出現(xiàn)K-1次的元組區(qū)分開,則該數(shù)據(jù)集為K-匿名的。該算法的缺點是易受鏈路攻擊,無法抵御屬性泄漏的風險。攻擊者可以通過背景知識和同質(zhì)屬性等攻擊方法攻擊K-匿名數(shù)據(jù)集中的用戶屬性信息。
2. L-多樣性。L-多樣性模型是為了解決K-匿名模型的局限性而提出的。L-多樣性要求任意一個匿名后的等價類至少包含L個不同的敏感屬性值。通過對敏感屬性進行約束,保證每個等價類中敏感值的多元化,可以有效抵御同質(zhì)性攻擊的威脅。與K-匿名算法相比,符合L-多樣性算法的數(shù)據(jù)集顯著降低了數(shù)據(jù)泄露的風險,但會受到傾斜攻擊和相似攻擊的影響。此外,L-多樣性隱私模型由于在匿名化過程中不考慮準標識符的分布和相似性,降低了匿名數(shù)據(jù)的可用性。
3. T-接近。T-接近的提出解決了K-匿名和L-多樣性模型在隱私保護方面的局限性。T-接近要求每個等價類中敏感屬性取值分布與該屬性在整個數(shù)據(jù)集中的總體分布之間的距離不超過閾值T。T-接近度通過將所有敏感屬性保持在一個特定的范圍內(nèi),解決了針對敏感屬性值的偏斜性攻擊和相似性攻擊。入侵者重新識別信息的概率降低了,但數(shù)據(jù)的可用性也更低。
4.差分隱私。差分隱私由Dwork提出,通過向數(shù)據(jù)集添加噪聲使用戶數(shù)據(jù)匿名化,從而使攻擊者無法確定是否包含特定的用戶數(shù)據(jù)。數(shù)據(jù)處理者在向第三方提供子數(shù)據(jù)集時使用差分隱私的方法生成匿名化視圖。差分隱私算法的優(yōu)勢在于直接將特定查詢的結(jié)果提供給第三方,而不需要將整個數(shù)據(jù)集轉(zhuǎn)交給第三方。然而,攻擊者可以通過多次查詢來不斷縮小樣本范圍,從而可能獲取到個別或一組數(shù)據(jù)主體的特征。差分隱私被認為是一種非常有效的隱私保護技術(shù),因為其定義的隱私不依賴于攻擊者的背景知識,并廣泛應(yīng)用于數(shù)據(jù)挖掘、機器學習等領(lǐng)域[8]。
(二)實現(xiàn)匿名化的技術(shù)
1.泛化。對數(shù)據(jù)進行歸納總結(jié),將具體的值替換為更一般化的值。對于類別屬性,可以使用通用的類別值替換特定的值;對于數(shù)值屬性,可以用區(qū)間代替精確值,以減少個體被識別的可能性。泛化技術(shù)簡單易行,但過度泛化會損失數(shù)據(jù)的可用性。
2.抑制。隱藏或刪除直接標識符,以防止數(shù)據(jù)與個人信息直接關(guān)聯(lián)。抑制技術(shù)包括屏蔽、局部抑制和記錄抑制等方法。抑制技術(shù)可以與泛化技術(shù)結(jié)合使用,特別是用于去除異常值,避免過度泛化。
3.擾動。使用合成的數(shù)據(jù)值替換原始數(shù)據(jù),使得從擾動數(shù)據(jù)計算的統(tǒng)計信息與從原始數(shù)據(jù)計算的統(tǒng)計信息沒有顯著差異。擾動數(shù)據(jù)與真實數(shù)據(jù)不對應(yīng),因此攻擊者無法從已發(fā)布的數(shù)據(jù)中推斷出敏感信息。擾動技術(shù)的局限性在于數(shù)據(jù)是合成的,只能保留發(fā)布者選擇的統(tǒng)計屬性。
4.置換。根據(jù)特定規(guī)則重新排列原始數(shù)據(jù)。通過對敏感屬性值的重排置換,解除準標識符和敏感屬性之間的關(guān)聯(lián),從而達到數(shù)據(jù)去標識化的目的。對稱密鑰的數(shù)據(jù)重排置換算法具有加解密速度快、軟硬件標準化等優(yōu)點,但密鑰生成和操作對算法的安全性有重要影響。
5.微聚集。根據(jù)相似程度將數(shù)據(jù)分組,每個組至少包含k個記錄,然后使用質(zhì)心替代該組內(nèi)所有記錄的值。微聚集可以減少敏感屬性的泄露風險,并保持數(shù)據(jù)的可用性。
二、匿名化技術(shù)度量方法
第一節(jié)介紹了一些匿名化隱私模型,但總體而言,匿名化的主要目標是保護數(shù)據(jù)的隱私性和可用性。本節(jié)分別從這兩個方面介紹匿名化算法的度量方法。
(一)數(shù)據(jù)隱私性度量方法
在基于泛化的匿名化技術(shù)中,K-匿名,L-多樣性和T-接近等算法被用作衡量匿名數(shù)據(jù)隱私程度的指標。
在基于隨機化的匿名化技術(shù)中,貝葉斯后驗置信概率被廣泛應(yīng)用于量化匿名級別。該方法基于攻擊者的背景知識和匿名數(shù)據(jù)構(gòu)造了一個二叉樹,并利用貝葉斯推斷的信息關(guān)聯(lián)構(gòu)造了另一個二叉樹。它主要考慮了局部變化的影響?;陟氐亩攘糠椒梢杂脕砹炕S機擾動機制可能達到的匿名級別[9]。Díaz等人[10]是最早提出使用信息熵來測量匿名通信系統(tǒng)的匿名性的研究者之一。Ma等人[11]通過量化位置信息和特定個人聯(lián)系人的不確定性,利用信息論量化每個用戶的位置隱私水平。在基于差分隱私匿名化技術(shù)中,還有一些度量方法,如基于多數(shù)據(jù)集關(guān)聯(lián)的差分隱私測量度量[12]和基于互信息的差分隱私測量度量[13]。
(二)數(shù)據(jù)可用性度量方法
有多種方法可以量化匿名化算法對數(shù)據(jù)保護的可用性。本文根據(jù)數(shù)據(jù)發(fā)布時是否已知數(shù)據(jù)處理的目的將衡量匿名數(shù)據(jù)可用性的指標分為兩類:專用指標和通用指標。專用指標是指在數(shù)據(jù)發(fā)布時已知數(shù)據(jù)的處理的目的。通用指標是指數(shù)據(jù)發(fā)布者不知道接收者將如何分析處理發(fā)布的數(shù)據(jù)。專用指標使用機器學習方法來衡量匿名數(shù)據(jù)質(zhì)量。最廣泛使用的專用指標是準確率或錯誤率、F值、精度和召回率。通用指標衡量的是修改原始數(shù)據(jù)造成的信息損失。目前比較流行的通用效用評估方法是加權(quán)確定性懲罰、廣義信息損失(GenILoss)、可辨別性度量、最小失真、平均等價類大小(CAVG)、Kullback-Leible散度、粒度、查詢準確度、全局損失懲罰(GLP)、歸一化互信息(NMI)、相對誤差(RE)和信息神權(quán)度量(ITM)。一些研究對這些可用性指標進行了詳細分析介紹。
三、目前存在的問題
匿名化技術(shù)在數(shù)據(jù)共享的過程中要發(fā)揮著重要作用,但仍存在一些問題。在法律和監(jiān)管方面,我國目前對匿名化的法律標準“無法識別特定自然人且不能復原的過程”并沒有明確的判定標準;行業(yè)監(jiān)管也沒有制定明確的匿名化處理效果的監(jiān)管方案。在技術(shù)方面存在以下問題。
(一)匿名化再識別風險
個人信息匿名化處理再識別風險是指在使用技術(shù)手段對個人信息進行匿名化處理后,仍然存在通過技術(shù)手段重新識別出被隱匿的個人身份的風險。Narayanan 等人[14]在研究中發(fā)現(xiàn),利用外部數(shù)據(jù)源的輔助信息可以成功對被匿名化的數(shù)據(jù)進行去匿名化處理[15]。在大數(shù)據(jù)時代,隨著數(shù)據(jù)發(fā)布規(guī)模的增加以及數(shù)據(jù)挖掘和分析技術(shù)的提升,通過組合多個數(shù)據(jù)來源的數(shù)據(jù)集,重新識別匿名化后的個人信息的可能性會大大增加。因此,如何最大程度地避免匿名化數(shù)據(jù)再識別問題,把握匿名化再識別風險成為匿名化技術(shù)進一步發(fā)展的重要研究內(nèi)容。
(二)匿名化數(shù)據(jù)隱私性和可用性的平衡問題
目前在數(shù)據(jù)匿名化中,現(xiàn)有技術(shù)的主要問題是要么泛化數(shù)據(jù)超過所需,降低了數(shù)據(jù)的可用性,要么沒有充分保護個人隱私數(shù)據(jù)。個人信息的價值主要在于其識別性的特征,若匿名化后的個人信息毫不具備識別性,那么其利用價值也大打折扣。這是匿名化技術(shù)領(lǐng)域長期面臨的挑戰(zhàn)。
(三)匿名化技術(shù)暫無統(tǒng)一度量標準
如引言所述,目前存在一些問題需要解決。首先,匿名化的定義僅僅表明個人無法被識別且無法復原,但并沒有明確界定“無法識別”的具體范圍,也沒有明確“無法復原”是相對還是絕對的標準,這給信息處理者和法院帶來了合規(guī)成本和界定的困擾。因此,研究匿名化技術(shù)的統(tǒng)一度量和評價標準是迫切需要解決的問題。
此外,還有其他一些問題需要進一步研究,如動態(tài)數(shù)據(jù)發(fā)布和動態(tài)社會網(wǎng)絡(luò)的匿名化問題,異構(gòu)數(shù)據(jù)類型的適用性問題,高維數(shù)據(jù)的匿名化以及如何實現(xiàn)個性化匿名等。對這些問題的深入研究可以提供更全面和有效的解決方案。
四、個人數(shù)據(jù)共享中匿名化技術(shù)的發(fā)展建議
本文對匿名化技術(shù)在個人數(shù)據(jù)共享中的問題提出了一些解決方案和發(fā)展建議。對于法律規(guī)制方面,我國未來應(yīng)制定個人信息匿名化處理統(tǒng)一標準和匿名化處理再識別風險防范規(guī)則。其中,立法可規(guī)定個人信息共享中不得從事對接收到的數(shù)據(jù)進行再識別的法律義務(wù),并規(guī)定違反法律負有的法律責任。同時,可詳細規(guī)定數(shù)據(jù)處理者對數(shù)據(jù)共享后續(xù)的保護義務(wù),解決目前數(shù)據(jù)處理者背負過重責任的問題。這樣,在進一步保護個人數(shù)據(jù)的同時,最大程度減小匿名化數(shù)據(jù)再識別風險,促進數(shù)據(jù)的有序流動和合規(guī)共享。
對于行業(yè)監(jiān)管部門,可從以下四個方面考慮對企業(yè)數(shù)據(jù)共享和匿名化技術(shù)進行監(jiān)管和評估:①進行數(shù)據(jù)保護影響評估,驗證匿名化與最初收集數(shù)據(jù)的目的的兼容性。這個評估可以確保匿名化處理后的數(shù)據(jù)仍然符合原始收集數(shù)據(jù)的目的,并且不會對個人隱私造成不良影響。②確定可用于共享的數(shù)據(jù),以及其匿名化和聚合的程度,進行技術(shù)評測和合規(guī)評估。通過技術(shù)評測可以確保匿名化技術(shù)的有效性和可行性,合規(guī)評估則可以驗證企業(yè)是否按照相關(guān)法規(guī)和標準進行匿名化處理。③通過考慮第三方接收方的技術(shù)、經(jīng)濟和組織能力,評估匿名化數(shù)據(jù)再識別的風險。這個評估可以幫助監(jiān)管部門了解匿名化數(shù)據(jù)可能被再識別的風險,并采取相應(yīng)的監(jiān)管措施,確保個人數(shù)據(jù)的安全性和隱私保護。④建立評估有效性長效機制,對匿名化數(shù)據(jù)階段性進行評估,降低匿名化數(shù)據(jù)再識別風險。這個長效機制可以對企業(yè)的匿名化處理和數(shù)據(jù)共享進行定期地監(jiān)督和評估,以確保匿名化數(shù)據(jù)始終保持高度的安全性和隱私保護。
在技術(shù)層面,本文提出了兩種解決匿名化技術(shù)中的問題和未來發(fā)展方向的方法:去中心化的匿名化方法和個性化匿名化方法。去中心化的匿名化方法[16]基于區(qū)塊鏈,通過智能合約進行信息交互,保證了數(shù)據(jù)共享的可靠性和安全性。這種方法不依賴數(shù)據(jù)處理者和第三方的信任,解決了傳統(tǒng)匿名化技術(shù)中數(shù)據(jù)共享雙方的信任問題。不僅可以讓企業(yè)從數(shù)據(jù)共享中受益,而且能夠有效保護用戶的隱私。
個性化匿名方法[17]允許個人數(shù)據(jù)主體定義自己隱私數(shù)據(jù)的用途,既尊重個人隱私偏好,又最大程度地保持了數(shù)據(jù)的可用性。有研究表明,每一項屬性對數(shù)據(jù)的隱私性和可用性都有不同的影響[18]。該方法通過只選擇那些隱私比值大于某一閾值的數(shù)據(jù)屬性進行匿名化,從而最小化個人數(shù)據(jù)的損失。未來的研究方向可以通過自然啟發(fā)算法等優(yōu)化方法來優(yōu)化數(shù)據(jù)屬性的選擇過程,以達到最大隱私保護和最小可用性降低的平衡,從而提高匿名數(shù)據(jù)庫的隱私保護水平和數(shù)據(jù)效用。
通過引入這兩種方法,可以在保護數(shù)據(jù)隱私性的同時增加數(shù)據(jù)的可用性,并且為未來匿名化技術(shù)的發(fā)展提供了方向和思路。
五、結(jié)束語
信息共享已成為許多個人、公司、組織和政府機構(gòu)日?;顒拥囊徊糠?。匿名化技術(shù)可以有效保護個人隱私和敏感信息,是一種非常有前景的信息共享方法。然而,除了匿名化技術(shù)本身需要進一步提升外,還需要幫助個人信息處理者解決使用匿名化技術(shù)時面臨的非技術(shù)性困難,如匿名化技術(shù)的復雜度越來越高和數(shù)據(jù)的可用性降低,導致企業(yè)合規(guī)成本提高和服務(wù)質(zhì)量降低等問題。本文認為跨學科研究是解決這些問題的關(guān)鍵,不同領(lǐng)域的專家學者從不同角度更好地理解隱私問題,有助于匿名化技術(shù)未來在數(shù)據(jù)共享過程中發(fā)揮更大的價值。
作者單位:周娜 博鼎實華(北京)技術(shù)有限公司
劉剛 中國信息通信研究院
參? 考? 文? 獻
[1] Yao X, Farha F, Li R, et al. Security and privacy issues of physical objects in the IoT: Challenges and opportunities[J]. Digital Communications and Networks, 2021,7(3):373-384.
[2] Sweeney L. k-anonymity: A model for protecting privacy[J]. International journal of uncertainty, fuzziness and knowledge-based systems, 2002, 10(05): 557-570.
[3] Machanavajjhala A, Kifer D, Gehrke J, et al. l-diversity: Privacy beyond k-anonymity[J]. ACM Transactions on Knowledge Discovery from Data (TKDD), 2007,1(1):3-es.
[4] Li N, Li T, Venkatasubramanian S. t-closeness: Privacy beyond k-anonymity and l-diversity[C]//2007 IEEE 23rd international conference on data engineering. IEEE, 2006:106-115.
[5] Dwork C, McSherry F, Nissim K, et al. Calibrating noise to sensitivity in private data analysis[C]//Theory of cryptography conference. Springer, Berlin, Heidelberg, 2006: 265-284.
[6] Wong R C-W, Li J, Fu A W-C, et al. (α, k)-Anonymity: An Enhanced k-Anonymity Model for Privacy Preserving Data Publishing[C]//Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2006: 754–759.
[7] 韓建民, 于娟, 虞慧群等. 面向數(shù)值型敏感屬性的分級 L-多樣性模型[J]. 計算機研究與發(fā)展, 2011,48(1):147-158.
[8] Jayaraman B, Evans D. Evaluating differentially private machine learning in practice[C]//28th USENIX Security Symposium (USENIX Security 19). 2019:1895-1912
[9] Nguyen H H, Imine A, Rusinowitch M. Anonymizing social graphs via uncertainty semantics[C]//Proceedings of the 10th ACM symposium on information, computer and communications security. 2015: 495-506.
[10] Diaz C, Seys S, Claessens J, et al. Towards measuring anonymity[C]//Privacy Enhancing Technologies: Second International Workshop, PET 2002 San Francisco, CA, USA, April 14–15, 2002 Revised Papers. Berlin, Heidelberg: Springer Berlin Heidelberg, 2003: 54-68.
[11] Ma Z, Kargl F, Weber M. A location privacy metric for v2x communication systems[C]//2009 IEEE Sarn off Symposium. IEEE, 2009:1-6.
[12] Wu X, Dou W, Ni Q. Game theory based privacy preserving analysis in correlated data publication[C]//Proceedings of the Australasian Computer Science Week Multiconference. 2017:1-10.
[13] Cuff P, Yu L. Differential privacy as a mutual information constraint[C]//Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security. 2016:43-54.
[14] Narayanan A, Shi E, Rubinstein B I P. Link prediction by de-anonymization: How we won the kaggle social network challenge[C]//The 2011 International Joint Conference on Neural Networks. IEEE, 2011: 1825-1834.
[15] Narayanan A, Shmatikov V. De-anonymizing social networks[C]//2009 30th IEEE symposium on security and privacy. IEEE, 2009: 173-187.
[16] Talat R, Obaidat M S, Muzammal M, et al. A decentralised approach to privacy preserving trajectory mining[J]. Future generation computer systems, 2020,102:382-392.
[17] Can O. Personalised anonymity for microdata release[J]. IET Information Security, 2018, 12(4): 341-347.
[18] A. Majeed and S. Lee, “Attribute susceptibility and? entropy based data anonymization to improve users community privacy and utility in publishing data,” Appl. Intell., vol. 50, no. 8, pp. 2555–2574, Aug. 2020.
通訊作者:周娜(1995-),女,漢族,山西長治,研究生,研究方向:數(shù)據(jù)通信技術(shù)、信息安全、網(wǎng)絡(luò)安全;
劉剛(1974-),男,漢族,北京,研究生,高級工程師,研究方向:數(shù)據(jù)通信技術(shù)、信息安全、標準研究與制定、新技術(shù)演進發(fā)展等。