国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機干擾的文本型數(shù)據(jù)隱私保護方法研究

2021-04-09 05:11:04徐雅斌
關(guān)鍵詞:數(shù)據(jù)表分組關(guān)聯(lián)

徐雅斌,郭 昊

(1.北京信息科技大學 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京 100101;2.北京信息科技大學 北京材料基因工程高精尖創(chuàng)新中心,北京 100101;3.北京信息科技大學 計算機學院,北京 100101)

0 引言

經(jīng)過多年的信息化建設(shè),各行各業(yè)、各個領(lǐng)域都已經(jīng)積累了大量的數(shù)據(jù),而且數(shù)據(jù)量仍呈現(xiàn)出爆發(fā)式增長的態(tài)勢。但是,孤立數(shù)據(jù)的利用價值相對較低,只有經(jīng)過共享和交換,將數(shù)據(jù)有機地融合到一起,才能在更大程度上發(fā)揮數(shù)據(jù)的應(yīng)有價值。然而有些數(shù)據(jù)涉及個人隱私,比如:發(fā)布給第三方進行市場需求分析的零售數(shù)據(jù)中包含客戶信息;共享給醫(yī)療部門進行疾病預(yù)防研究的醫(yī)療數(shù)據(jù)中包含患者信息,等等。在數(shù)據(jù)的共享和交換過程中,如果處理不當,就可能導致隱私泄露,這正是很多數(shù)據(jù)擁有者的顧慮所在。

因此,是否能夠有效保護個人隱私,直接影響到數(shù)據(jù)的應(yīng)用,以及大數(shù)據(jù)和人工智能產(chǎn)業(yè)的發(fā)展。在此背景下,隱私保護研究成為數(shù)據(jù)科學研究中的一個熱門領(lǐng)域,隱私保護相關(guān)技術(shù)具有廣泛的市場前景和應(yīng)用價值。

1 相關(guān)工作

隱私保護就是采用技術(shù)手段,在保證數(shù)據(jù)質(zhì)量的前提下,對數(shù)據(jù)進行處理,使其不泄露個人隱私。早期簡單的人工數(shù)據(jù)脫敏技術(shù)不僅效率低,而且很難保證不存在漏洞,無法真正有效保護個人隱私。一種常見的隱私保護技術(shù)是匿名化處理,它主要用于對準標識符的部分內(nèi)容進行泛化處理,適用于數(shù)值型數(shù)據(jù)。

數(shù)據(jù)擾亂技術(shù)[1]是出現(xiàn)相對較晚的一種隱私保護方法。其主要思想是,在保證數(shù)據(jù)有效性的前提下,通過擾亂處理,使得擾亂后的數(shù)據(jù)不完全真實地反映個人信息,即使數(shù)據(jù)項與某個體相關(guān)聯(lián),該個體的隱私也不會被暴露,從而實現(xiàn)隱私保護。

數(shù)據(jù)擾亂方法主要包含隨機干擾、數(shù)據(jù)清洗、數(shù)據(jù)屏蔽、數(shù)據(jù)交換、數(shù)據(jù)泛化和亂序技術(shù)[2]等。其中隨機干擾方法是隱私保護效果較為理想、應(yīng)用更加廣泛的一種方法。

目前,隨機干擾方法主要分為兩種,一種是加法干擾,一種是乘法干擾。加法干擾由Agrawal和Srikant[3]提出,該方法的主要思想如下:盡管數(shù)據(jù)擁有者需要將數(shù)值型數(shù)據(jù)提供給他人使用,但是并不想暴露真實數(shù)值以防止隱私泄露,為此只提供這些數(shù)值型數(shù)據(jù)的分布情況和統(tǒng)計屬性。為達到這一目的,數(shù)據(jù)擁有者通過給這些數(shù)值型數(shù)據(jù)添加隨機噪聲進行干擾,其中隨機噪聲服從均勻分布或高斯分布。干擾后的數(shù)據(jù)值便不再為真實值,但是可以通過一些方法獲得真實值的統(tǒng)計屬性。這種方法的優(yōu)點是簡單易行,但只能處理數(shù)值型屬性。

乘法干擾是對整體數(shù)據(jù)進行干擾處理,而不需要考慮數(shù)據(jù)的類型。其中最典型的方法是S.R.M.Oliveira[4]等提出的幾何數(shù)據(jù)轉(zhuǎn)換方法。該方法的主要思想是通過幾何轉(zhuǎn)換,比如平移、縮放和簡單的旋轉(zhuǎn)等方法對原始數(shù)據(jù)進行轉(zhuǎn)化。但是這個方法容易改變數(shù)據(jù)的相似程度,會讓數(shù)據(jù)的聚類結(jié)果產(chǎn)生較大誤差。

此后,S.R.M.Oliveira等[5]再次提出保持空間距離不變的基于旋轉(zhuǎn)的轉(zhuǎn)換(RBT)方法,實現(xiàn)了多維空間中點的等距變換,具有很好的隱私保護效果。但是該方法在滿足過高程度的隱私要求時,可能無法取得合適的旋轉(zhuǎn)角度,從而無法完成干擾處理。而且變換后的數(shù)據(jù)往往缺乏可讀性,在不進行數(shù)據(jù)挖掘時,不能從數(shù)據(jù)表中讀出有價值的信息。而且該方法只適用于數(shù)值型的數(shù)據(jù)。

為了解決文本型屬性的隱私保護問題,隨機化回答技術(shù)應(yīng)運而生。隨機化回答技術(shù)[6]最早應(yīng)用于抽樣調(diào)查問題中。因為在實際調(diào)查中,經(jīng)常碰到一些敏感問題,如果對被調(diào)查者直接詢問,被調(diào)查者出于戒備,往往會拒絕回答或不真實回答。而隨機化回答方法既能使調(diào)查者獲得正確信息,又能讓被調(diào)查者不擔心暴露隱私,因此也被用于隱私保護。

最早出現(xiàn)的隨機化回答模型是Waner[6]模型。設(shè)X表示敏感屬性的真實值,S表示一個與X相互獨立的正的隨機數(shù),且S的均值與方差已知,分別記為θ、γ2。干擾后的值是敏感變量X與隨機數(shù)S的乘積。然后使用簡單隨機有放回抽樣方法得到真實值的無偏估計量和方差等統(tǒng)計屬性。在此基礎(chǔ)上,Singh S[7]和Hong Z[8]也提出了一些改進后的隨機化回答方法。但這些方法大都針對二值屬性,不適用于有多值屬性。

文獻[9]提出了一種基于隨機化回答的處理多值文本類型數(shù)據(jù)的隨機映射方法。其主要思想是,按照某些特定的隨機化參數(shù)對原始數(shù)據(jù)進行隨機映射,生成新的數(shù)據(jù),然后將新數(shù)據(jù)提供給數(shù)據(jù)使用方。實現(xiàn)過程如下:

假設(shè)原始數(shù)據(jù)集D中的屬性X有m個不同的取值X1,X2,…,Xm,同時給定一個固定的參數(shù)α,它的取值介于0和1之間。假設(shè)有兩個隨機數(shù)發(fā)生器M和N,M產(chǎn)生一個0到1之間的隨機數(shù)u,而N可生成一個1~m之間的隨機整數(shù)l。在隨機映射方法中,將會根據(jù)u的取值來決定是否保留原來的屬性的取值,若不保留則使用X中的Xl來替換它。隨機映射方法在進行選值替換時,不考慮替換詞的語義是否與原詞接近,因此可能出現(xiàn)大量記錄的屬性值被語義完全不同的值所替換的情況,從而產(chǎn)生語義錯誤。

從以上的介紹可以看出,乘法干擾后的數(shù)據(jù)在干擾后不再按照原有的二維表形式排列,因此不具有可讀性。加法干擾具有易實施、信息損失低、保護效果好的優(yōu)點。但傳統(tǒng)的加法干擾只能處理數(shù)值型屬性,無法處理文本型屬性。而針對文本型屬性的隨機化映射方法存在語義缺失的問題。

為了解決這些問題,本文基于加法干擾方法,引入隨機化映射的思想,提出了改進的隨機干擾方法,用以處理單屬性和多屬性文本類型的數(shù)據(jù)。

2 針對單個敏感屬性的隨機干擾

2.1 主要思想

該方法的主要思想如下:基于模糊語義處理技術(shù),使得屬性中的文本能夠被語義接近的詞所替換。假設(shè)數(shù)據(jù)集M中的屬性為Y,Y={Y1,Y2,…,Yi};Y1,Y2,…,Yi為不同的文本,根據(jù)偏移度計算方法,為Y中的每一個文本計算偏移度{y1,y2,…,yi},得到Y(jié)i的偏移度PYYi=yi。若任意兩個偏移度yn、ym數(shù)值接近,則其所對應(yīng)的文本Yn、Ym是語義接近的。

對屬性Y中所有記錄的偏移度施加噪音干擾r,r服從高斯分布。干擾后任意記錄T的偏移度為PYTi=yi+ri。在偏移度序列{y1,y2,…,yi}中,尋找數(shù)值最接近記錄T的偏移度PYTi的偏移度yi,找

到后,將記錄T中的文本改為yi所對應(yīng)的文本Yi。這樣記錄T中的文本就被與它語義最接近的文本Yi所代替,從而完成干擾處理。

關(guān)于如何衡量文本語義的接近程度,本文使用的是分類系統(tǒng)[10]。分類系統(tǒng)可以將未標識類別的概念映射到現(xiàn)有的類別中,一個概念可以同多個類別相關(guān)聯(lián)。在分類系統(tǒng)中,概念可以根據(jù)屬性關(guān)系進行排序。例如,“肺結(jié)核是一種呼吸系統(tǒng)疾病”這句話中,肺結(jié)核是一種相對狹隘的概念,呼吸系統(tǒng)疾病代表一種相對廣泛的概念。將解剖學作為排序準則,則可將“肺結(jié)核”歸類為呼吸系統(tǒng)疾病。根據(jù)該排序原則可以對所有疾病構(gòu)建一個分類樹,葉子節(jié)點為具體的疾病,互為兄弟節(jié)點的疾病則表明它們在語義上較為接近。

分類系統(tǒng)如圖1所示。

圖1 疾病屬性按病因-解剖原則定義的屬性值分類系統(tǒng)

以醫(yī)療大數(shù)據(jù)為例,屬性[疾病]為敏感屬性。通過分類系統(tǒng)對該屬性下的每一類值都進行編號,如果該屬性中的值在分類系統(tǒng)構(gòu)成的分類樹中互為兄弟節(jié)點,則說明它們是語義接近的,可以進行替換。若某一類值找不到兄弟節(jié)點,則它可以被該屬性中的任意一類值進行替換。

2.2 算法描述

使用模糊語義處理方法進行單敏感屬性隨機干擾的算法如下:

1) 根據(jù)分類系統(tǒng)對敏感屬性[疾病]的值進行分類。

2) 對屬性中的每一類值匹配分類樹中的編號,并用編號替換。

3) 計算偏移度:某一屬性集上的偏移度定義為:

(1)

PAX=±(1-μ(x))

(2)

式中:x表示屬性A中某一具體值;PAX表示該屬性值的偏移度;Pi表示某一類值i在該屬性中所占比,通過Pi來計算中間變量μ(x),然后再計算葉子節(jié)點(即屬性中的具體值)的偏移度。

4) 計算完每一類具體值的偏移度后,將屬性中的每一類具體值表示為[編號+偏移度]。

5) 對每個記錄的偏移度添加噪音r:

PiX=PAX+r

(3)

式中:PiX即每個記錄的偏移度;r服從分布U(-α,α),α為葉子節(jié)點層中最左節(jié)點與最右節(jié)點的偏移度差值,這保證了干擾程度不會超過源數(shù)據(jù)的本身差異。

6) 對每個記錄的編號進行修改。添加噪聲后某一記錄A的偏移度PiX若更接近于分類樹中兄弟節(jié)點的偏移度,則改變屬性值A(chǔ)的編號為該節(jié)點的編號;若更接近本身則不改變編號。

7) 將每個記錄的編號通過分類樹轉(zhuǎn)化為具體語義值。

算法結(jié)束。屬性中的一部分值會被替換為語義相近的值,從而完成隱私保護。

3 針對多個關(guān)聯(lián)敏感屬性的隨機干擾

3.1 主要思想

當數(shù)據(jù)表存在多個敏感屬性時,有一些敏感屬性是相互關(guān)聯(lián)的。比如敏感屬性[疾病]就與敏感屬性[主治醫(yī)生]存在某種關(guān)聯(lián)關(guān)系。如果對兩個屬性單獨進行干擾處理,就會破壞這種關(guān)聯(lián)關(guān)系。為了解決這一問題,本文提出了一種基于多維桶(MSB)分組技術(shù)[11]的多敏感屬性隨機干擾方法,可以保證在干擾后屬性之間的關(guān)聯(lián)關(guān)系不被破壞。

多維桶分組技術(shù)的主要思想,是把數(shù)據(jù)表中的多個敏感屬性看作一個高維的復(fù)合敏感屬性向量,向量中的每一維表示一個敏感屬性,從而將復(fù)合敏感屬性向量與多維桶的多維向量聯(lián)系起來,再將數(shù)據(jù)表中的所有記錄映射到多維桶中。這時對數(shù)據(jù)表中的敏感屬性值的處理就轉(zhuǎn)換為對多維桶中的記錄進行處理,并通過對多維桶中數(shù)據(jù)進行處理來滿足隱私保護要求,從而保護用戶的敏感屬性信息。多維桶分組技術(shù)構(gòu)成的分組保證了屬性間的關(guān)聯(lián)關(guān)系。這樣對敏感屬性干擾后,與它相關(guān)的屬性就可以在干擾之后依舊維持源數(shù)據(jù)中的關(guān)聯(lián)關(guān)系。

在處理多敏感屬性時,將復(fù)合敏感屬性向量作為一個整體進行干擾就避免了破壞關(guān)聯(lián)關(guān)系的問題。具體方法如下:根據(jù)數(shù)據(jù)表中的多個敏感屬性之間的關(guān)聯(lián)關(guān)系構(gòu)造多維桶。設(shè)數(shù)據(jù)表T有d維桶,將di維桶中的記錄合并為集合S,對S中所有記錄的第di+1維敏感屬性進行單敏感屬性干擾。干擾完成后將記錄重新放入d維桶中。依次類推,當d維桶中所有敏感屬性維度都被干擾后,則干擾完成。

接下來進行分組。首先選取桶容量最大的記錄作為該分組的第一個記錄,然后屏蔽該記錄所在的行和列的桶,從剩下的桶中選取容量最大的桶作為該分組的第二個記錄,以此類推,當該分組滿足隱私保護要求(比如1-多樣性),則第一個分組結(jié)束,采取同樣的方法來獲得其他分組,直至多維桶中所有的記錄不能再構(gòu)成一個分組為止。經(jīng)過分組后每一個分組內(nèi)的記錄均是相關(guān)聯(lián)的。

3.2 算法描述

多敏感屬性隨機干擾算法如下:

輸入:數(shù)據(jù)表T,多個敏感屬性(S1,S2,…,Sd),多樣性參數(shù)L;

輸出:數(shù)據(jù)表T

1) 數(shù)據(jù)表T上的分組GS,根據(jù)數(shù)據(jù)表中的多個敏感屬性之間的關(guān)聯(lián)關(guān)系,來構(gòu)造d維桶Bucket(S1,S2,…,Sd);

2) For(i=1;i≤d;i++)

集合S= Bucket(Si),任意記錄A屬于S,對A中Si+1屬性下的元組進行單敏感屬性干擾;

3) 將干擾后的記錄重新放入d維桶Bucket(S1,S2,…,Sd);

4) 開始提取記錄構(gòu)成分組;

5) 對所有的桶進行初始化,均設(shè)置為未屏蔽標記,分組GS為空;

6) 對所有記錄重新進行分組;

7) 將構(gòu)成的分組G添加到Gs;

8) 對每個剩余記錄g,如果g加入到分組G,G仍然滿足參數(shù)L要求,則插入成功,否則繼續(xù)插入到下一個分組,若所有分組均不能插入,則刪除該值;

算法結(jié)束。

經(jīng)過本方法干擾處理后,敏感屬性與其相關(guān)敏感屬性的關(guān)聯(lián)關(guān)系基本與源數(shù)據(jù)保持一致,從而避免了對關(guān)聯(lián)關(guān)系的破壞,減少了信息損失。

4 實驗及其結(jié)果分析

4.1 數(shù)據(jù)集及數(shù)據(jù)預(yù)處理

本實驗所采用的數(shù)據(jù)集為公共醫(yī)療衛(wèi)生平臺提供的疾病情況數(shù)據(jù)集。數(shù)據(jù)的大小為1.3 MiB,包含10 000條記錄。其中屬性集共有10個屬性,包含1個數(shù)值型屬性和9個文本型屬性。實驗平臺配置如下:Intel i7 2.80GHz/8GB,Windows10。算法實現(xiàn)所用的語言為Python3.5,使用的工具是Jupyter Notebook。預(yù)處理階段將數(shù)據(jù)中含有缺失項的元組去除。

4.2 評價指標

從以下3個方面對本文提出的方法進行評價。

1) 擴展性:本算法的運行時間與所處理的數(shù)據(jù)量是否呈線性關(guān)系,以此衡量本算法的擴展性是否足夠好,適用范圍是否足夠大。

2) 運行效率:在相同數(shù)據(jù)量下,本方法相比其他方法在運行時間上是否更少,效率是否更高。

3) 信息損失:源數(shù)據(jù)在進行隱私保護處理后,敏感屬性與關(guān)聯(lián)敏感屬性的關(guān)系是否保持一致。若敏感屬性與其他敏感屬性的關(guān)聯(lián)關(guān)系與源數(shù)據(jù)中的關(guān)聯(lián)關(guān)系出現(xiàn)不一致的情況,則認為產(chǎn)生了信息損失??赏ㄟ^計算產(chǎn)生信息損失的數(shù)據(jù)量占總數(shù)據(jù)量的比例來計算信息損失,若比例較低則說明信息損失較少。

4.3 實驗結(jié)果及分析

4.3.1 算法擴展性實驗

針對不同數(shù)據(jù)量進行干擾處理的算法擴展性測試結(jié)果如圖2所示。

圖2 算法擴展性實驗

從圖2可以看出,隨著數(shù)據(jù)量的增加,算法的運行時間基本呈線性增長,由此說明本算法的擴展性良好,適用范圍更廣。

4.3.2 運行效率對比實驗

由于本方法與隨機映射方法都是處理文本型數(shù)據(jù),并且最后經(jīng)過處理的數(shù)據(jù)在形式上也是相似的,因此,本實驗選擇與隨機映射方法進行比較,測試處理相同數(shù)據(jù)量時所需要的時間。實驗結(jié)果如圖3所示。

圖3 算法運行效率對比實驗

從圖3可以明顯看出,在處理相同數(shù)據(jù)時,本方法的運行時間比隨機映射方法所需時間更少,由此可以證明效率更高,且隨著數(shù)據(jù)量的變大,優(yōu)勢更加明顯。

4.3.3 信息損失對比實驗

圖4給出了兩種方法的信息損失率對比情況。

圖4 信息損失比較

由圖4可以看出,本文采用的多維桶方法的信息損失率遠小于隨機映射方法。這是因為隨機映射方法在處理幾個相關(guān)聯(lián)的敏感屬性時,對每個敏感屬性都是單獨進行干擾保護,并沒有考慮到如何維持屬性間的關(guān)聯(lián)關(guān)系,因此很容易造成干擾量較大情況下記錄的屬性間關(guān)聯(lián)度與源數(shù)據(jù)不一致。由于本方法使用了多維桶分組技術(shù)使得這種情況大大減少。產(chǎn)生少量信息損失的原因是,在所有分組產(chǎn)生后,需要將剩余的記錄插入到這些分組中,而有極少量的記錄不能插入到任何分組中,需要對這些記錄進行隨機修改,因此產(chǎn)生了信息損失。但與隨機映射方法相比,所產(chǎn)生的信息損失是大幅減少的。

以上3個實驗證明了本方法在擴展性、運行效率和減少信息損失率3個方面均比隨機映射方法更有優(yōu)勢。

5 結(jié)束語

數(shù)據(jù)的共享與交換可以有效促進數(shù)據(jù)的融合,提升數(shù)據(jù)的價值,但同時也將增加隱私泄露的風險。因此如何保護個人隱私是迫切需要解決的問題。

本文提出的隨機干擾方法是一種針對文本型數(shù)據(jù)進行隱私保護的方法。在干擾替換時,通過使用語義接近的詞進行替換,使得干擾后的數(shù)據(jù)語義更貼近源數(shù)據(jù)。由于在實際的數(shù)據(jù)應(yīng)用場景中,某個敏感屬性多是與其他屬性相互關(guān)聯(lián),如果單獨對某個敏感屬性進行干擾處理而不處理相關(guān)的屬性,干擾后的數(shù)據(jù)就將丟失原始數(shù)據(jù)中所存在的屬性間的關(guān)聯(lián)關(guān)系,造成信息損失。針對這個問題,本文采用基于多維桶分組技術(shù)的多敏感屬性干擾方法,可以有效保證關(guān)聯(lián)關(guān)系不被破壞。

本文方法可以為單個和多個敏感屬性提供隱私保護,在擴展性、運行效率以及信息損失率方面表現(xiàn)出一定的優(yōu)勢。

猜你喜歡
數(shù)據(jù)表分組關(guān)聯(lián)
湖北省新冠肺炎疫情數(shù)據(jù)表
黨員生活(2020年2期)2020-04-17 09:56:30
“一帶一路”遞進,關(guān)聯(lián)民生更緊
當代陜西(2019年15期)2019-09-02 01:52:00
分組搭配
基于列控工程數(shù)據(jù)表建立線路拓撲關(guān)系的研究
怎么分組
奇趣搭配
分組
智趣
讀者(2017年5期)2017-02-15 18:04:18
圖表
基于VSL的動態(tài)數(shù)據(jù)表應(yīng)用研究
河南科技(2014年24期)2014-02-27 14:19:25
江安县| 枣阳市| 桐柏县| 三门峡市| 庐江县| 长阳| 揭东县| 柯坪县| 胶南市| 澄迈县| 麦盖提县| 谷城县| 册亨县| 阿克陶县| 车致| 英吉沙县| 龙陵县| 谢通门县| 乌什县| 元谋县| 梁平县| 徐闻县| 正蓝旗| 延长县| 梅州市| 襄垣县| 台山市| 土默特右旗| 二连浩特市| 桃园市| 大冶市| 开远市| 江阴市| 兖州市| 台中县| 蓬莱市| 黔西县| 革吉县| 清远市| 洪湖市| 曲阜市|