陳虹云 姬嬌娜 倪杰 史雨軒 梅香香
摘? 要:近年來,隨著大數(shù)據(jù)技術和網(wǎng)絡信息技術的迅猛發(fā)展,越來越多的信息在網(wǎng)絡中傳播和分享。在數(shù)據(jù)挖掘與分析技術的不斷進步下,人們可以快速且有效地從海量的信息數(shù)據(jù)中提取出潛在的、有價值的信息。但是,從發(fā)布的數(shù)據(jù)中依舊可以挖掘出大量的隱私信息,這些信息一旦被有目的地利用和關聯(lián),就會造成隱私信息的泄露,后果將不堪設想。在現(xiàn)實生活中,真實的數(shù)據(jù)集都是動態(tài)的數(shù)據(jù)。因此,對于在數(shù)據(jù)發(fā)布中隱私保護技術的研究具有極其重要的意義。
關鍵詞:動態(tài)數(shù)據(jù)集;隱私保護;重發(fā)布
中圖分類號:TP393? ? 文獻標識碼:A? 文章編號:2096-4706(2023)08-0111-03
Abstract: In recent years, with the rapid development of big data technology and network information technology, more and more information is disseminated and shared in the network. With the continuous progress of data mining and analysis technology, people can quickly and effectively extract potential and valuable information from massive information data. However, a large amount of private information can still be mined from the published data. Once such information is purposefully used and associated, it will cause the disclosure of private information, and the consequences will be unimaginable. In real life, real datasets are dynamic data. Therefore, the research on privacy protection technology in data publication is of great significance.
Keywords: dynamic dataset; privacy protection; republication
0? 引? 言
目前,在數(shù)據(jù)庫的應用領域中存在著大量與個人隱私相關的信息即原始數(shù)據(jù)。有些保險公司可能會因為被保人狀態(tài)的不斷變化而需要定期更新數(shù)據(jù)庫。但是,假設在變化后不進行一定的操作和處理,直接發(fā)布和分享一些信息,就會導致個人隱私信息的泄露,甚至不可預計的后果。而社會上有很多研究機構需要通過這些數(shù)據(jù)進行科學研究,從而發(fā)現(xiàn)一些社會問題并及時處理。例如,保險公司需要定期檢查保險記錄,這可能涉及到個人隱私信息。因此,數(shù)據(jù)隱私保護技術在現(xiàn)實中起著重要的作用和意義。其中,動態(tài)數(shù)據(jù)集重發(fā)布中的隱私保護在現(xiàn)實中得到了越來越廣泛的應用,相應的隱私保護模型的研究也得到了進一步的發(fā)展。然而,現(xiàn)有的動態(tài)數(shù)據(jù)集重發(fā)布隱私保護模型在動態(tài)數(shù)據(jù)集的重發(fā)布過程中大多存在一些不足和缺陷。
1? 國內外研究現(xiàn)狀
近些年來,經(jīng)過專家學者的研究和改進,匿名化技術得到了迅猛的發(fā)展。Wong等人經(jīng)研究后提出了(α,k)-匿名模型,它為每個等價類的敏感值設置了統(tǒng)一的頻率約束,要求每個等價類的任意一個敏感屬性值出現(xiàn)的頻率不大于α。王曉耘等人經(jīng)改進后提出(α,k)-MDAV模型,該模型是通過在大小可變的等價類上增加頻率約束的方法來實現(xiàn)敏感值個性化保護的目的。史麗燕等人通過微聚類技術對個人背景數(shù)據(jù)進行分類處理,可以為個人信息的隱私保護提供精確的數(shù)據(jù)基礎。楊曉春等人也隨之提出多約束的k-anonymity匿名模型—Classfly+,其中包括樸素算法、完全IndepCSet和部分IndepCSet這三種算法。但以上匿名模型都不能滿足動態(tài)數(shù)據(jù)匿名發(fā)布的需求。靜態(tài)數(shù)據(jù)匿名發(fā)布方面的研究已經(jīng)日趨完善。但是,在現(xiàn)實生活中數(shù)據(jù)是瞬息萬變的,不斷有數(shù)據(jù)需要進行多樣發(fā)布、系列發(fā)布和連續(xù)性發(fā)布。因此,對于動態(tài)數(shù)據(jù)匿名發(fā)布的研究得到了越來越廣泛的關注,成為了隱私保護研究的熱門話題。
2? 隱私保護模型的設計
匿名重發(fā)布的其中一個基本原則是保持數(shù)據(jù)的及時性。如果匿名重發(fā)布存在延時發(fā)布或者是不發(fā)布,那么很有可能就會因為這些原因導致有些機構根據(jù)其研究的成果造成偏差,從而導致很嚴重的后果。匿名重發(fā)布的另一個基本原則就是盡可能提高數(shù)據(jù)的可用性。如果匿名重發(fā)布之后的數(shù)據(jù)完全無可用性,那么將會失去匿名重發(fā)布的意義了。綜上幾點,匿名重發(fā)布的基本原則是安全性、及時性和可用性。
本文的動態(tài)數(shù)據(jù)集重發(fā)布模型為每個等價類的敏感值設置了統(tǒng)一的頻率約束,滿足了數(shù)據(jù)多樣性的要求。本模型包括三部分:新增、刪除和修改。
2.1? 新增模塊設計
新增模塊的主要功能是向已發(fā)布的數(shù)據(jù)集T*中新增數(shù)據(jù)集T。第一步設置閾值;第二步計算元組t與其等價類的語義貼近度;第三步根據(jù)計算結果選擇語義貼近度值最大的等價類;第四步判斷語義貼近度最大值跟準標識符屬性個數(shù)q是否一致,再決定是否新增數(shù)據(jù);第五步判斷匿名數(shù)據(jù)集是否滿足匿名約束。如果滿足約束條件,那么新增成功;如果不滿足約束條件,那么需要加入偽記錄來滿足約束條件。圖1為新增模塊的具體流程圖。
2.2? 刪除模塊設計
刪除模塊的主要功能是從已發(fā)布的匿名數(shù)據(jù)集T*中刪除數(shù)據(jù)。第一步設置閾值;第二步通過刪除條件φ以及元組和泛化元組的映射關系,確定對刪除的元組進行定位;第三步刪除數(shù)據(jù);第五步進行等價類個數(shù)的判斷。如果等價類個數(shù)小于k,那么跟語義貼近度最大的等價類進行合并。第六步判斷是否滿足匿名約束,如果不滿足,再進行調整。圖2為刪除模塊的具體流程圖。
2.3? 修改模塊設計
修改模塊的功能是根據(jù)實際需要對原始匿名數(shù)據(jù)集中的數(shù)據(jù)進行對應的修改。修改模塊的功能是從已發(fā)布數(shù)據(jù)集中修改數(shù)據(jù)。第一步如果修改條件中只包含敏感屬性,那么根據(jù)刪除條件和元組的映射關系來對所需修改數(shù)據(jù)所在的等價類進行定位再直接進行修改;第二步當修改條件中包含準標識符屬性,將修改操作拆分為刪除操作和插入操作。先進行刪除模塊刪除元組,再進行新增模塊添加修改后的元組;第三步判斷是否滿足約束條件,如果滿足條件,那么修改成功;如果不滿足,那么加入偽數(shù)據(jù)直至滿足匿名條件。修改模塊的主要流程如圖3所示。
3? 隱私保護模型的實現(xiàn)
3.1? 新增模塊實現(xiàn)
用戶在“發(fā)布”功能中預先設定好k值、閾值α和需更新的數(shù)據(jù)集后,點擊主菜單中的“添加新數(shù)據(jù)”,就會彈出新增模塊的操作界面,如圖4所示。在操作界面中,用戶可以選擇不同的數(shù)據(jù)集作為待添加數(shù)據(jù)集進行添加操作。為了后期實驗數(shù)據(jù)分析本系統(tǒng)預先設定了7種數(shù)據(jù)集來進行實驗。
3.2? 刪除模塊實現(xiàn)
用戶在主界面中選擇“刪除數(shù)據(jù)”來執(zhí)行刪除模塊,如圖5所示。用戶需要在8個文本框當中填寫刪除數(shù)據(jù)的條件,刪除模塊根據(jù)用戶輸入的刪除的條件進行整合,取交集來執(zhí)行刪除命令。用戶在文本框中輸入刪除命令的時候,系統(tǒng)會檢查用戶的輸入值的合法性。在點擊“刪除”按鈕后,如果任何文本框中的值都不符合輸入規(guī)則,系統(tǒng)會提示用戶重新輸入。
3.3? 修改模塊實現(xiàn)
修改模塊的功能是根據(jù)實際需要對原始匿名數(shù)據(jù)集中的數(shù)據(jù)進行對應的修改。如圖6所示,表示修改模塊的功能實現(xiàn)圖。用戶可以將修改條件填入功能界面的文本框當中。
4? 隱私保護技術性能評估
4.1? 實驗數(shù)據(jù)來源
實驗數(shù)據(jù)采用UCI的人口統(tǒng)計實際數(shù)據(jù)集中的Adult數(shù)據(jù)集,實際數(shù)據(jù)集來自http://kdd.ics.uci.edu。實驗采用
“Adult”數(shù)據(jù)集來模擬實際生活中不斷更新的醫(yī)療數(shù)據(jù)集。將收集到的數(shù)據(jù)經(jīng)過過濾,去除空值處理之后,導入到EXCEL中,其中一共包含48 842條數(shù)據(jù)記錄,14個敏感屬性數(shù)據(jù)值。
4.2? 實驗數(shù)據(jù)設置
Adult標準數(shù)據(jù)集共有48 842條數(shù)據(jù)記錄,在經(jīng)過預處理之后為45 222條數(shù)據(jù)。本次試驗取其中的8個不同的屬性:{Age,Education,Marital-status,Occupation,Race,Hours-per-week,Native-country,Work-Class},其中“Work-Class”作為敏感屬性,其余7種屬性作為準標識符屬性,如表1所示。
4.3? 實驗安全性分析
將從幾種常見的攻擊方式方面來對本文的匿名模型進行安全性分析,如表2所示(“√”代表抵抗效果好,“○”代表抵抗效果一般,“×”代表抵抗效果較差)。
實驗結果表明,本文提出的面向動態(tài)數(shù)據(jù)集發(fā)布的匿名模型以及根據(jù)其相應的更新設計與實現(xiàn)的動態(tài)數(shù)據(jù)集匿名發(fā)布系統(tǒng),對于數(shù)據(jù)規(guī)模較大、數(shù)據(jù)增減量相對較小、數(shù)據(jù)更新頻繁的動態(tài)數(shù)據(jù)集,在能夠保證動態(tài)數(shù)據(jù)的同步性和真實性方面有著明顯優(yōu)勢,尤其是對于更新數(shù)量較少的動態(tài)數(shù)據(jù)集,能夠在保證其數(shù)據(jù)精度的同時,有效地保護隱私信息安全。
5? 結? 論
隨著信息共享技術和數(shù)據(jù)挖掘技術的不斷發(fā)展,在網(wǎng)絡中傳播和共享的數(shù)據(jù)也在逐漸遞增。其中的數(shù)據(jù)中往往會包含大量個人和企業(yè)的隱私信息,這些信息一旦被有目的地利用和關聯(lián),就會造成隱私信息的泄露,后果將不堪設想。本文主要研究在動態(tài)數(shù)據(jù)發(fā)布中的隱私保護的相關技術,提出了一種動態(tài)數(shù)據(jù)發(fā)布的匿名模型,并且提供了一個完整的動態(tài)數(shù)據(jù)發(fā)布的模型及實現(xiàn)。但是,本文提出的模型還存在著不足,今后還需要進一步地研究和提高。
參考文獻:
[1] 白雨靚,李曉會,陳潮陽,等.面向軌跡數(shù)據(jù)發(fā)布的優(yōu)化抑制差分隱私保護研究 [J].小型微型計算機系統(tǒng),2021,42(8):1787-1792.
[2] 王明月,張興,李萬杰,等.面向數(shù)據(jù)發(fā)布的隱私保護技術研究綜述 [J].小型微型計算機系統(tǒng),2020,41(12):2657-2667.
[3] 梁文娟,陳紅,吳云乘,等.持續(xù)監(jiān)控下差分隱私保護 [J].軟件學報,2020,31(6):1761-1785.
[4] 楊旭東,高嶺,王海,等.一種面向直方圖發(fā)布的均衡差分隱私保護方法 [J].計算機學報,2020,43(8):1414-1432.
[5] JIN Y. Disclosure and protection of personal privacy data in the era of big data [J].Journal of Tongji University ( Social Science Edition),2020,31(3):18-29.
作者簡介:陳虹云(1993—),女,漢族,江蘇南通人,講師,碩士,研究方向:信息安全、計算機技術。