王亞男,張 磊
(1.四平農(nóng)業(yè)工程學(xué)校,吉林 四平 136100;2.佳木斯大學(xué) 信息電子技術(shù)學(xué)院,黑龍江 佳木斯 154007)
面向教務(wù)發(fā)布的隱私保護(hù)研究
王亞男1,張 磊2
(1.四平農(nóng)業(yè)工程學(xué)校,吉林 四平 136100;2.佳木斯大學(xué) 信息電子技術(shù)學(xué)院,黑龍江 佳木斯 154007)
隨著數(shù)據(jù)使用范圍和應(yīng)用領(lǐng)域的擴(kuò)大,數(shù)據(jù)挖掘和數(shù)據(jù)分析技術(shù)得到了飛速發(fā)展。而教務(wù)系統(tǒng)的廣泛應(yīng)用,使得教務(wù)數(shù)據(jù)的發(fā)布面臨泄露學(xué)生以及教務(wù)信息隱私的威脅,針對(duì)教務(wù)數(shù)據(jù)多以統(tǒng)計(jì)信息形式進(jìn)行發(fā)布的特性,提出了基于ε-差分隱私的教務(wù)數(shù)據(jù)隱私保護(hù)方案。
教務(wù)數(shù)據(jù);隱私保護(hù);差分隱私
教務(wù)數(shù)據(jù)具有較為廣泛的公開(kāi)使用范圍和較為嚴(yán)格的私密性,當(dāng)獲得大量教務(wù)相關(guān)數(shù)據(jù)時(shí),無(wú)論是惡意的攻擊者還是非惡意的好奇者,都可以按照教務(wù)數(shù)據(jù)的自然或統(tǒng)計(jì)規(guī)律獲得教務(wù)管理部門(mén)或?qū)W生所不愿公開(kāi)的信息。如何將這些教務(wù)統(tǒng)計(jì)數(shù)據(jù)在保持最大可用性的情況下發(fā)布給教務(wù)數(shù)據(jù)使用者,同時(shí)最大限度地保護(hù)教務(wù)管理部門(mén)以及學(xué)生的隱私,成為了教務(wù)數(shù)據(jù)發(fā)布所面臨的重要信息安全問(wèn)題。本文利用ε-差分隱私的保護(hù)方法,將這種針對(duì)統(tǒng)計(jì)數(shù)據(jù)的當(dāng)前最為有效的隱私保護(hù)方案與教務(wù)統(tǒng)計(jì)數(shù)據(jù)相結(jié)合,克服基于k-匿名方法在統(tǒng)計(jì)數(shù)據(jù)發(fā)布中可能存在的各種不足,為教務(wù)統(tǒng)計(jì)數(shù)據(jù)的發(fā)布提供了有效的隱私保護(hù),同時(shí)為差分隱私保護(hù)提供了有益的應(yīng)用方案。
差分隱私是在2006年針對(duì)統(tǒng)計(jì)數(shù)據(jù)可能存在的隱私泄露問(wèn)題,提出的最新型隱私定義[2]。與以往常用的k-匿名模型不同,在這種標(biāo)準(zhǔn)定義下,對(duì)任何數(shù)據(jù)集合進(jìn)行處理產(chǎn)生的結(jié)果都不會(huì)因其記錄中某條數(shù)據(jù)變化導(dǎo)致敏感性差異,進(jìn)而決定了單條數(shù)據(jù)是否存在于該數(shù)據(jù)集合中,對(duì)整個(gè)統(tǒng)計(jì)分析的計(jì)算結(jié)果不會(huì)產(chǎn)生較大影響。也就是說(shuō),一個(gè)記錄在整個(gè)數(shù)據(jù)集合中是否加入或者刪除,不會(huì)對(duì)整個(gè)數(shù)據(jù)集合的統(tǒng)計(jì)分析結(jié)果產(chǎn)生影響,從而使得該數(shù)據(jù)集合產(chǎn)生的隱私泄露風(fēng)險(xiǎn)最小化,并在用戶(hù)可以接受的范圍內(nèi)。因此,攻擊者即使通過(guò)對(duì)該數(shù)據(jù)集進(jìn)行多次結(jié)果比較,仍無(wú)法準(zhǔn)確獲得某個(gè)個(gè)體的隱私信息。
傳統(tǒng)的k-匿名模型存在兩個(gè)未能解決的缺陷:最大背景知識(shí)假設(shè)和缺乏嚴(yán)格定義的量化評(píng)估方法。差分隱私的提出很好地解決了這兩個(gè)問(wèn)題[1]。差分隱私的特點(diǎn)在于,該模型是建立在假設(shè)攻擊者能夠獲得除所需要目標(biāo)外所有可能獲得的其他記錄作為攻擊可使用的背景知識(shí),即最大可掌握背景知識(shí)的基礎(chǔ)上。另外,該模型具有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ),并且對(duì)隱私進(jìn)行了嚴(yán)格的定義和量化評(píng)價(jià)指標(biāo),針對(duì)不同參數(shù)設(shè)定下的數(shù)據(jù)集合處理結(jié)果提供了較好的比較和評(píng)價(jià),并能證明隱私保護(hù)方案的優(yōu)劣。因此,差分隱私理論迅速被業(yè)界認(rèn)可,并逐漸成為隱私保護(hù)領(lǐng)域的一個(gè)研究熱點(diǎn)。近幾年來(lái),差分隱私和其他領(lǐng)域研究的結(jié)合使得大量新成果不斷涌現(xiàn)[3-5]。
ε-差分隱私保護(hù)的基本思想是在給定的兩個(gè)數(shù)據(jù)集S和S’中,只存在至多一條相差記錄,使得|S-S’|≤1,存在一種隱私保護(hù)算法f,可使在f作用下對(duì)數(shù)據(jù)集S和S’中的任意輸出結(jié)果集合O存在:
其中,概率p表示由算法f導(dǎo)致的隨機(jī)性控制;ε表示隱私預(yù)算,即隱私保護(hù)程度,該值越小則隱私保護(hù)程度越高。
以教務(wù)數(shù)據(jù)發(fā)布中的學(xué)生成績(jī)?yōu)槔?。假設(shè)攻擊者通過(guò)查詢(xún)獲得5個(gè)人和4個(gè)人當(dāng)前科目的總成績(jī),且相差的一個(gè)數(shù)據(jù)即為攻擊者希望獲知的某個(gè)學(xué)生的成績(jī)隱私。利用兩個(gè)統(tǒng)計(jì)數(shù)據(jù)量,攻擊者可用兩組數(shù)據(jù)差的方式獲得該學(xué)生的成績(jī)隱私。
假設(shè)存在如表1所示的學(xué)生成績(jī),進(jìn)行統(tǒng)計(jì)插敘可獲得M(S)=count(i)的成績(jī)集合,若Jim不希望自己的成績(jī)被別的用戶(hù)通過(guò)統(tǒng)計(jì)查詢(xún)的方式獲取,而攻擊者可通過(guò) M(5)-M(4)=count(5)-count(4)的方式獲取到該成績(jī)。
表1 學(xué)生成績(jī)
基于這種情況,本文利用ε差分隱私數(shù)據(jù)發(fā)布中較為常見(jiàn)的噪聲機(jī)制保護(hù)成績(jī)數(shù)據(jù)隱私,即在每個(gè)查詢(xún)獲得的成績(jī)集合中添加滿(mǎn)足拉普拉斯分布的隨機(jī)噪聲擾動(dòng)。
設(shè)M是對(duì)數(shù)據(jù)進(jìn)行的統(tǒng)計(jì)查詢(xún)操作,則有f(S)=M(S)+Y,其中 Y~Lap(△/ε)為添加的隨機(jī)噪聲,該噪聲的服從尺度參數(shù)為△/ε的拉普拉斯分布。此時(shí),其概率密度函數(shù)p(x)可表示為:
設(shè)b=△/ε可得由圖1所示的不同拉普拉斯概率密度函數(shù)的圖形,從中可以看出,當(dāng)ε的取值越大時(shí)引入的噪聲數(shù)據(jù)越大,越不利于發(fā)布后的數(shù)據(jù)使用,隱私需要對(duì)不同敏感度的教務(wù)數(shù)據(jù)采用不同的隱私保護(hù)預(yù)算,以實(shí)現(xiàn)教務(wù)數(shù)據(jù)隱私保護(hù)和可用性之間的平衡。
繼續(xù)本文前面關(guān)于學(xué)生成績(jī)的例子,由于f(S)=M(S)+Y,使得 f(5)=M(5)+Y,同時(shí) f(4)=M(4)+Y,這樣即使攻擊者通過(guò)多次查詢(xún)計(jì)算f(5)-f(4)所得到的統(tǒng)計(jì)結(jié)果差值都不是Jim的真實(shí)成績(jī),且該差值滿(mǎn)足拉普拉斯分布中任意隨機(jī)位置的變化噪聲值。由此,發(fā)布后的用戶(hù)成績(jī)統(tǒng)計(jì)數(shù)據(jù)得到了隱私保護(hù)。
對(duì)于統(tǒng)計(jì)數(shù)據(jù)發(fā)布后的可用性,需要選擇合適的ε取值,按照參考文獻(xiàn)[5]所給出的方法,可以較為準(zhǔn)確且便捷地獲得對(duì)教務(wù)數(shù)據(jù)可用性和隱私性的平衡,本文不再敘述。
圖1 拉普拉斯概率密度函數(shù)
教務(wù)數(shù)據(jù)由于其特殊性,使得對(duì)該數(shù)據(jù)信息的發(fā)布需同時(shí)兼顧隱私性與可用性。本文通過(guò)使用當(dāng)前較為流行的差分隱私保護(hù)方法,對(duì)發(fā)布的教務(wù)數(shù)據(jù)進(jìn)行噪聲擾動(dòng)添加,在一定程度上保護(hù)了教務(wù)數(shù)據(jù)中的用戶(hù)隱私,為教務(wù)數(shù)據(jù)的隱私保護(hù)提供了一個(gè)有益的發(fā)展方向。然而,教務(wù)數(shù)據(jù)中的隱私問(wèn)題并不局限于統(tǒng)計(jì)信息的發(fā)布,今后的研究工作將在更為全面的教務(wù)數(shù)據(jù)隱私保護(hù)方面展開(kāi)。
[1]熊平,朱天清,王曉峰.差分隱私保護(hù)及其應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):101-122.
[2]Dwork C.Differential Privacy[C].Automata,Languages and Programming.Springer Berlin Heidelberg,2006:1-12.
[3]張嘯劍,孟小峰.面向數(shù)據(jù)發(fā)布和分析的差分隱私保護(hù)[J].計(jì)算機(jī)學(xué)報(bào),2014(4):927-949.
[4]歐陽(yáng)佳,印鑒,劉少鵬.一種有效的差分隱私事務(wù)數(shù)據(jù)發(fā)布策略[C].中國(guó)計(jì)算機(jī)學(xué)會(huì)人工智能會(huì)議,2013.
[5]何賢芒,王曉陽(yáng),陳華輝,等.差分隱私保護(hù)參數(shù)ε的選取研究[J].通信學(xué)報(bào),2015,36(12):124-130.
[6]Dwork C.Differential Privacy:A Survey of Results[C].Theory and ApplicationsofModelsofComputation.Springer Berlin Heidelberg,2008:1-19.
Research on Privacy Protection for Educational Data Publishing
With the rapid development of data publishing and data mining technology,educational data publishing may reveal the students and educational information privacy,in view of characteristics of educational data,as they are also in the form of statistical information,this paper puts forward the educational data privacy protection scheme based on ε-differential privacy.
educational data;privacy protection;differential privacy
TP391.7
A
1673-2022(2017)04-0017-02
2016-11-17
佳木斯大學(xué)教育科研課題(2016jw2003)
河北軟件職業(yè)技術(shù)學(xué)院學(xué)報(bào)2017年4期