楊麗麗
(廣西警察學(xué)院,南寧 530000)
信息化社會(huì)使我們的生活更加便捷,數(shù)據(jù)通信與資源共享更加方便,但互聯(lián)網(wǎng)中數(shù)據(jù)的傳輸與共享也會(huì)造成隱私的泄漏,使個(gè)人信息被泄露的風(fēng)險(xiǎn)大大提升。目前,盡管研究者們都在不斷努力去預(yù)防信息泄露問題,但個(gè)人信息仍然以各種意想不到的方式被泄露。
當(dāng)下的隱私數(shù)據(jù)發(fā)布技術(shù)大多是針對(duì)單敏感屬性數(shù)據(jù),而在實(shí)際應(yīng)用中,很多數(shù)據(jù)之間往往存在著某些特定的聯(lián)系,在發(fā)布一些信息時(shí),就相當(dāng)于間接發(fā)布了另外一些信息,像這種相關(guān)聯(lián)系的信息屬性就叫做相關(guān)敏感屬性。由于單敏感屬性隱私數(shù)據(jù)的發(fā)布方法與多敏感屬性方法完全不同,所以,對(duì)于這樣的關(guān)聯(lián)信息敏感數(shù)據(jù),利用單敏感屬性發(fā)布方法就很有可能會(huì)出現(xiàn)信息泄露問題。
數(shù)據(jù)泛化是指對(duì)數(shù)據(jù)表中的原始屬性值按照某種規(guī)則轉(zhuǎn)換,使轉(zhuǎn)換后的數(shù)據(jù)比原始數(shù)據(jù)包含的信息更多,以防范推理性攻擊。這種方法能夠保留原始數(shù)據(jù)的一些重要特性,所以能夠保證數(shù)據(jù)的可用性。
數(shù)據(jù)抑制是指通過采用從數(shù)據(jù)表的記錄中刪除某些或者部分屬性,來避免數(shù)據(jù)表的隱私泄露問題。數(shù)據(jù)抑制方法通常不會(huì)單獨(dú)使用,而是與數(shù)據(jù)泛化方法配合使用。
微聚合是指將原始數(shù)據(jù)中相似的記錄組合在一起,形成一個(gè)等價(jià)組。為保證隱私安全,降低隱私泄露的風(fēng)險(xiǎn),數(shù)據(jù)發(fā)布時(shí)只發(fā)布等價(jià)組中最具代表性的元祖。但用何種方式進(jìn)行微聚合,其相應(yīng)的數(shù)值應(yīng)該如何計(jì)算是我們需要研究的課題。
數(shù)據(jù)交換是指將原始數(shù)據(jù)表中各個(gè)數(shù)據(jù)記錄的相應(yīng)屬性值進(jìn)行隨機(jī)交換,然后將交換后的數(shù)據(jù)用來發(fā)布以滿足信息不被泄露的目的。但是,數(shù)據(jù)交換的前提是,需要保證原始數(shù)據(jù)表中的一些重要統(tǒng)計(jì)特性得到保持。通過使交換后的數(shù)據(jù)與原始數(shù)據(jù)無法對(duì)應(yīng)的方式來使數(shù)據(jù)增加一些不確定性,從而增加數(shù)據(jù)分析的難度,以降低數(shù)據(jù)泄露的風(fēng)險(xiǎn)。但是,需要研究如何在數(shù)據(jù)交換過程中使原始信息盡可能地保留,而保持原始數(shù)據(jù)保留統(tǒng)計(jì)屬性也是信息交換技術(shù)研究的目標(biāo)。
子采樣是指在數(shù)據(jù)發(fā)布時(shí)不將全部的原始數(shù)據(jù)對(duì)外發(fā)布,而是抽取具有代表性的小部分?jǐn)?shù)據(jù)記錄進(jìn)行分析研究。這樣不僅可減少發(fā)布數(shù)據(jù)記錄的數(shù)量,而且因大部分記錄沒有發(fā)布而減少了隱私泄露的風(fēng)險(xiǎn)。但是,由于減少樣本容量,就需要對(duì)數(shù)據(jù)進(jìn)行更細(xì)致的分析。這樣不僅增加了分析的工作量,還會(huì)使數(shù)據(jù)發(fā)布的準(zhǔn)確性降低。為了提升數(shù)據(jù)的可用性,子采樣方法需要盡可能地保留原始數(shù)據(jù)中的有用信息。這種方法比較適用于發(fā)布推理攻擊性行為數(shù)據(jù),但也不是全部都適用。
去標(biāo)識(shí)是指將原始數(shù)據(jù)表中惟一準(zhǔn)確標(biāo)識(shí)記錄的顯示標(biāo)識(shí)符去除,比如去除姓名數(shù)據(jù)。但由于這種方法操作過于簡(jiǎn)單、容易失效,并且還可以通過對(duì)個(gè)體進(jìn)行再標(biāo)識(shí)后再進(jìn)行攻擊,所以一般僅用于作為匿名數(shù)據(jù)預(yù)處理的第一個(gè)環(huán)節(jié)或是非常簡(jiǎn)單數(shù)據(jù)的發(fā)布情況。
插入噪音是指通過在原始數(shù)據(jù)中添加一些與原始數(shù)據(jù)吻合的干擾信息,來對(duì)原始數(shù)據(jù)進(jìn)行一些擾動(dòng),通過擾動(dòng)使新數(shù)據(jù)與原始數(shù)據(jù)之間產(chǎn)生一些差異,從而減少隱私泄露的風(fēng)險(xiǎn)。插入噪音數(shù)據(jù)的核心操作是保持原始數(shù)據(jù)相關(guān)性的統(tǒng)計(jì)屬性不改變,僅僅使某一條具體信息的準(zhǔn)確性降低,來減少隱私推理攻擊。因此,插入噪音數(shù)據(jù)的強(qiáng)度是我們需要把握的,也是我們?cè)谠摷夹g(shù)研究過程中的研究重點(diǎn)。
國外對(duì)隱私保護(hù)的意識(shí)比較早,所以理論也較為先進(jìn),吸引了各方面學(xué)者對(duì)該領(lǐng)域的重視。我國在該方面的研究也慢慢地引起了學(xué)者的重視,在學(xué)者們的不斷的努力下也取得了顯著的成果。例如,多維桶分組技術(shù)就是針對(duì)多敏感屬性的隱私發(fā)布而提供的一種很好的方式。但是這種方法不是都適用,比如對(duì)于數(shù)值型敏感屬性的數(shù)據(jù)發(fā)布就不可以,還有一些延伸性的情況。雖然現(xiàn)在已經(jīng)對(duì)數(shù)據(jù)泄露問題有很高的重視,但是我們的解決方案還可以更加完善,精益求精。有很多問題可以研究得更細(xì)致,解決方案也可以變得更詳細(xì)。
可以通過設(shè)計(jì)匿名模型來解決數(shù)據(jù)發(fā)布中的隱私安全性問題,以防止對(duì)數(shù)據(jù)的攻擊和泄露。也可以根據(jù)模型,結(jié)合所需要的情境進(jìn)行數(shù)據(jù)發(fā)布。對(duì)數(shù)據(jù)發(fā)布和渠道之間可能出現(xiàn)的問題做出相應(yīng)的假設(shè),在潛在攻擊的可能性上提出相應(yīng)隱私保護(hù)的模型。
在多敏感屬性上容易出現(xiàn)聯(lián)合推理性攻擊,這需要我們多加防范。很多匿名模型只是單個(gè)敏感性屬性攻擊,這種攻擊方式較為單一,也相對(duì)容易預(yù)防。但當(dāng)其衍生或者多個(gè)單個(gè)敏感屬性疊加時(shí),就容易出現(xiàn)問題。多個(gè)單屬性的投影及多個(gè)敏感屬性就會(huì)使簡(jiǎn)單問題復(fù)雜化。雖然很多問題是簡(jiǎn)化產(chǎn)生的,但多敏感屬性聯(lián)合的推理攻擊還是我們需要大力防范的問題。
雖然匿名化方法有很多,但是在選擇上還需要慎重。因?yàn)樵趫?zhí)行中可能會(huì)出現(xiàn)各種各樣的因素影響數(shù)據(jù)分析,影響數(shù)據(jù)可以操控的可能性,雖然現(xiàn)在的匿名研究也對(duì)這種可能性進(jìn)行了研究,但是我們可以拓展思路,對(duì)其他方法進(jìn)行探究。比如我們可以采用更合理的匿名方法,當(dāng)然也可以對(duì)這些方法進(jìn)行分解。
在統(tǒng)計(jì)匿名發(fā)布中,對(duì)匿名數(shù)據(jù)的有效性進(jìn)行測(cè)算,對(duì)可用性也要進(jìn)行度量,這樣才能知道匿名處理效果的影響。通過查詢準(zhǔn)確度來判斷匿名處理的情況,這是判斷匿名處理的重要標(biāo)準(zhǔn)。數(shù)據(jù)查詢的準(zhǔn)確率通過查詢的準(zhǔn)確度來判定,在統(tǒng)計(jì)查詢中,查詢準(zhǔn)確率越高,其可用性就越好。原始數(shù)據(jù)損失的部分叫做匿名代價(jià),匿名代價(jià)越小,即說明匿名數(shù)據(jù)集可用度就越高?,F(xiàn)在常見的匿名代價(jià)的測(cè)量是在匿名屬性層次化以及對(duì)比化進(jìn)行的。根據(jù)不同的情況,比如不同的度量方式,要使匿名度量變得準(zhǔn)確而又具有現(xiàn)實(shí)性就需要綜合因素進(jìn)行考量。
信息泄露風(fēng)險(xiǎn)意味著惡意用戶通過已知信息來推斷自己想要信息的可能。比如很多信息通過攻擊者以獲取的發(fā)布數(shù)據(jù),推測(cè)出想要的數(shù)據(jù)。數(shù)據(jù)發(fā)布前進(jìn)行預(yù)先處理,以降低數(shù)據(jù)被泄露的風(fēng)險(xiǎn)也是隱私保護(hù)的要求。而隱私保護(hù)的基礎(chǔ)是信息度量。
隱私保護(hù)不僅需要保護(hù)數(shù)據(jù)的可用性,還要減少數(shù)據(jù)被泄漏的風(fēng)險(xiǎn)。所以在對(duì)原始數(shù)據(jù)進(jìn)行分類處理時(shí),不能使信息造成損失而減少了數(shù)據(jù)的可用性。信息損失主要是因?yàn)樾薷暮蟮臄?shù)據(jù)和原數(shù)據(jù)相差太多,或者已經(jīng)削減了有效信息。其次是在原始數(shù)據(jù)處理時(shí)加入的噪聲強(qiáng)度過大,降低了數(shù)據(jù)的有效性。所以一定要避免將一些錯(cuò)誤信息輸入到結(jié)果數(shù)據(jù)中,保證數(shù)據(jù)的可用性。
信息損失度量的方法非常多,但都需要在經(jīng)典信息損失度量方法的基礎(chǔ)上進(jìn)行完善。對(duì)不同的情境和需求進(jìn)行不同的信息損失度量方法的改變,因?yàn)槊糠N方法都存在于它的適用情況,每種方法都具有各自的優(yōu)缺點(diǎn),因此在選擇信息損失度計(jì)量方法時(shí)要考量其應(yīng)用的環(huán)境。
目前,大多數(shù)針對(duì)數(shù)據(jù)發(fā)布的隱私保護(hù)方法是面向單維敏感數(shù)據(jù),但在實(shí)際應(yīng)用中,數(shù)據(jù)中卻更多的是多維敏感屬性數(shù)據(jù)。如果將已有的針對(duì)單維敏感數(shù)據(jù)屬性數(shù)據(jù)的處理方法,直接應(yīng)用到多敏感屬性數(shù)據(jù)的處理中,就可能引起信息被泄露的風(fēng)險(xiǎn)。因此,研究多維敏感屬性數(shù)據(jù)的隱私保護(hù),具有相當(dāng)重要的實(shí)際意義。