国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

軌跡數(shù)據(jù)發(fā)布中基于敏感語義位置的隱私保護(hù)算法

2020-11-02 07:59:44俞望年宣占祥馬小明岳威左開中
現(xiàn)代計(jì)算機(jī) 2020年27期
關(guān)鍵詞:可用性損失率軌跡

俞望年,宣占祥,馬小明,岳威,左開中,2

(1.安徽師范大學(xué)計(jì)算機(jī)與信息學(xué)院,蕪湖 241002;2.安徽師范大學(xué)網(wǎng)絡(luò)與信息安全安徽省重點(diǎn)實(shí)驗(yàn)室,蕪湖 241002)

0 引言

近年來,隨著移動(dòng)智能設(shè)備的普及和定位技術(shù)的發(fā)展,人們的海量軌跡數(shù)據(jù)被收集、存儲(chǔ)、挖掘和分析[1-4]。然而軌跡數(shù)據(jù)含有大量的個(gè)人隱私信息,例如社會(huì)身份、家庭住址、身體健康狀況、工作場所以及日常行程等,若不經(jīng)處理直接發(fā)布軌跡數(shù)據(jù),將會(huì)泄露個(gè)人隱私信息[5-6]。因此,如何保證發(fā)布的軌跡數(shù)據(jù)具有較高數(shù)據(jù)可用性的同時(shí),保護(hù)用戶的敏感隱私信息,已成為國內(nèi)外學(xué)者關(guān)注的熱點(diǎn)。

常用的軌跡隱私保護(hù)方法有K 匿名法[7-10]、假軌跡法[11-12]、抑制法[13-14]和差分隱私法[15-16]。文獻(xiàn)[7]提出(K,δ)-隱私保護(hù)算法,利用軌跡數(shù)據(jù)不確定性進(jìn)行軌跡聚類,對(duì)軌跡位置進(jìn)行隱私保護(hù)。文獻(xiàn)[8]利用網(wǎng)格技術(shù)對(duì)軌跡位置點(diǎn)進(jìn)行空間泛化以滿足K 匿名,進(jìn)而將軌跡轉(zhuǎn)換為連續(xù)網(wǎng)格序列。文獻(xiàn)[9]認(rèn)為并非軌跡上的所有采樣位置都要進(jìn)行匿名處理,通過停留位置提取算法獲取軌跡數(shù)據(jù)中的停留位置,再利用網(wǎng)格劃分技術(shù)和K 匿名構(gòu)建匿名區(qū)域,進(jìn)一步保護(hù)用戶敏感隱私信息。文獻(xiàn)[10]利用挖掘到的真實(shí)興趣點(diǎn)數(shù)據(jù),提出(K,L)-隱私模型,利用網(wǎng)格劃分技術(shù)為停留位置構(gòu)建匿名區(qū)域,使得匿名區(qū)域滿足K 匿名和L 語義差異性。文獻(xiàn)[11]通過計(jì)算虛假軌跡和真實(shí)軌跡的K 個(gè)交叉點(diǎn),隨機(jī)生成交叉點(diǎn)間軌跡。文獻(xiàn)[12]隨機(jī)選擇軌跡采樣位置點(diǎn),將用戶真實(shí)軌跡進(jìn)行不同角度旋轉(zhuǎn)生成潛在虛假軌跡。文獻(xiàn)[13]通過對(duì)軌跡數(shù)據(jù)中的敏感或者頻繁訪問位置進(jìn)行抑制處理,保護(hù)隱私信息。文獻(xiàn)[14]提出一種基于單點(diǎn)收益的軌跡隱私保護(hù)方法,通過計(jì)算收益結(jié)果,在軌跡數(shù)據(jù)集中抑制位置或者添加假軌跡,減少信息損失率。文獻(xiàn)[15]利用隱馬爾科夫模型度量用戶位置相關(guān)性,通過設(shè)計(jì)滿足差分隱私的拉布拉斯噪聲機(jī)制保護(hù)用戶隱私信息。文獻(xiàn)[16]利用四叉樹和R樹數(shù)據(jù)結(jié)構(gòu),提出兩種滿足差分隱私的軌跡數(shù)據(jù)發(fā)布方法。然而,這些方法存在信息損失率過大導(dǎo)致的數(shù)據(jù)可用性較低問題,同時(shí)沒有充分考慮用戶所處語義位置信息,存在語義推斷攻擊[17-18],導(dǎo)致用戶敏感隱私泄露。

基于此,本文提出一種基于敏感語義位置的軌跡數(shù)據(jù)隱私保護(hù)算法,通過對(duì)用戶敏感的語義位置進(jìn)行匿名處理,構(gòu)建語義安全匿名區(qū)域,提高位置隱私保護(hù)程度,同時(shí)減少對(duì)非敏感語義位置的匿名處理,降低信息損失率,提高軌跡數(shù)據(jù)可用性。

1 預(yù)備知識(shí)

1.1 相關(guān)定義

定義1(語義位置)是指具有坐標(biāo)、語義位置類型(如學(xué)校、商場等)和流行度等特征的位置,記為loc={address,type,(lon,lat),P(loc)}。其中:address 為語義地址;type 表示語義位置類型;(lon,lat)表示語義位置經(jīng)緯度;P(loc)表示語義位置流行度。本文根據(jù)地理標(biāo)簽將語義位置類型分為10 種,如圖1 所示。此外,語義位置是否敏感由用戶定義,例如醫(yī)院,部分患者認(rèn)為是敏感的,醫(yī)生則認(rèn)為是非敏感的。

圖1 語義位置地理標(biāo)簽分類

定義2(語義位置流行度)是指用戶訪問該語義位置的概率。 設(shè) loc 是一個(gè)語義位置,U(loc)={u1,u2,…,um} 是訪問過該語義位置的用戶集合,并設(shè)nj是用戶uj對(duì)loc 的訪問次數(shù),該語義位置被訪問的總數(shù)記為因此該語義位置的流行度定義為P(loc)=2H(loc),其中:它表示該語義位置的信息熵,即被用戶訪問的可能性。

圖2 語義位置Voronoi圖

定義3(語義位置Voronoi 圖)是指以語義位置為生成元構(gòu)建的Voronoi 圖,如圖2 所示。每個(gè)語義位置的 Voronoi 單 元 滿 足Voronoi(loci)={x:d(x,loci)≤d(x,locj),loci≠locj},其中:d(x,loci)表示 x 到語義位置 loci的歐式距離;x 表示任意位置。

定義4(語義軌跡)是指將原始軌跡上的采樣位置按時(shí)間順序語義化為移動(dòng)對(duì)象停留位置序列,記為其中:表示第 i 個(gè)用戶身份標(biāo)識(shí)符,表示STi的第j 個(gè)停留位置。為了簡便,系統(tǒng)會(huì)自動(dòng)將停留位置轉(zhuǎn)化為最近鄰語義位置。

定義5(隱私需求)是指用戶的隱私保護(hù)需求,記為PR={θ,senstype},其中:θ表示用戶定義的語義安全閾值;senstype 表示用戶定義的敏感語義位置類型集。

定義6(匿名區(qū)域)是指一個(gè)用來隱藏用戶語義位置的空間區(qū)域,記為CR={Voronoi(loc1),…,Voronoi(loci),...,Voronoi(locm)},其中:ioVoronoi(loci)表示語義位置loci所處的Voronoi 單元。

定義7(θ-語義安全匿名區(qū)域)已知一個(gè)匿名區(qū)域CR 和一個(gè)用戶u,CR 中屬于u 的敏感語義位置用senslocsu表示,則匿名區(qū)域敏感語義位置總流行度記為POP(senslocsu),匿名區(qū)域語義位置總流行度記為POP(all),匿名區(qū)域語義安全程度用d(CR)表示:

若匿名區(qū)域的語義安全程度d(CR)≤u.PR.θ,我們就稱CR 對(duì)用戶u 來說是一個(gè)θ-語義安全匿名區(qū)域。

1.2 系統(tǒng)架構(gòu)

本文系統(tǒng)架構(gòu)如圖3 所示。

圖3 系統(tǒng)架構(gòu)

該架構(gòu)包括客戶端、軌跡收據(jù)收集服務(wù)器、原始軌跡數(shù)據(jù)庫、隱私保護(hù)算法服務(wù)器、可發(fā)布軌跡數(shù)據(jù)庫4個(gè)組件??蛻舳素?fù)責(zé)記錄用戶軌跡數(shù)據(jù),并將記錄的軌跡數(shù)據(jù)發(fā)送給軌跡數(shù)據(jù)收集服務(wù)器,軌跡數(shù)據(jù)收集服務(wù)器接收客戶端發(fā)送的軌跡數(shù)據(jù),原始軌跡數(shù)據(jù)庫存儲(chǔ)軌跡數(shù)據(jù)收集服務(wù)器接收到的軌跡數(shù)據(jù),隱私保護(hù)算法服務(wù)器對(duì)原始軌跡數(shù)據(jù)進(jìn)行停留位置提取、匿名區(qū)域生成和軌跡匿名處理處理,匿名后的數(shù)據(jù)存儲(chǔ)在可發(fā)布軌跡數(shù)據(jù)庫中。

2 基于敏感語義位置的軌跡數(shù)據(jù)隱私保護(hù)算法

2.1 算法設(shè)計(jì)

本文充分考慮用戶的隱私需求和軌跡數(shù)據(jù)可用性問題,提出一種基于敏感語義位置的軌跡數(shù)據(jù)隱私保護(hù)算法,主要思想如圖4 所示。

圖4 算法流程圖

具體步驟如下:

(1)利用語義位置進(jìn)行Voronoi 圖劃分。

(2)從原始軌跡的采樣位置數(shù)據(jù)中提取用戶停留位置。

(3)若停留位置處于非敏感語義位置的Voronoi 單元中,則不進(jìn)行匿名處理;若處于敏感語義位置的Voronoi 單元中,則將該Voronoi 單元加入匿名區(qū)域,執(zhí)行步驟(4)。

(4)遍歷所有與匿名區(qū)域相鄰近的語義位置,根據(jù)用戶設(shè)置的敏感語義位置類型,優(yōu)先添加流行度最大的非敏感語義位置,其次選擇流行度最小的敏感語義位置。

(5)將該語義位置對(duì)應(yīng)的Voronoi 單元加入匿名區(qū)域,若匿名區(qū)域語義安全程度滿足用戶設(shè)定的語義安全閾值,返回該匿名區(qū)域;否則,執(zhí)行步驟(4)。

算法1 給出了基于敏感語義位置的軌跡數(shù)據(jù)隱私保護(hù)算法(Sensitive Semantic Location Privacy Protection Algorithm for Trajectory Data,SSLPP)的偽代碼。首先將原始軌跡traj 轉(zhuǎn)換為語義軌跡ST(第3 行),遍歷ST 中的每一個(gè)停留的語義位置loc(第4 行),若處在敏感語義位置(第5 行),將該語義位置所在Voronoi 單元加入匿名區(qū)域(第6 行);其次根據(jù)PR.senstype 添加匿名區(qū)域鄰近Voronoi 單元,直至滿足語義安全閾值(第7-16行),并用該匿名區(qū)域替換loc(第17 行);然后掃描原始軌跡traj 中的每一個(gè)采樣位置,將敏感的停留位置轉(zhuǎn)換為ST 中的相應(yīng)匿名區(qū)域,同時(shí)若有采樣位置被ST 中的相應(yīng)匿名區(qū)域覆蓋,則使用該匿名區(qū)域替代采樣位置,形成可安全發(fā)布的軌跡traj*,并將traj*放入軌跡數(shù)據(jù)庫 D*(第 20-21 行);最后返回 D*(第 23 行)。

算法1 基于敏感語義位置的軌跡隱私保護(hù)算法

輸入:語義位置Voronoi 圖、原始軌跡數(shù)據(jù)庫D、隱私需求PR

輸出:可發(fā)布的軌跡數(shù)據(jù)庫D*

1)D*=? ;

2)For traj∈Ddo

3)轉(zhuǎn)換為語義軌跡ST={loc1,loc2,...,locn};

4)Forloc∈STdo

5) Ifloc.type∈PR.senstypethen

6)CR=GetVoronoi(loc);∕∕獲 取 loc 所 在 Voronoi單元

7) While(d(CR)>PR.θ)do

8)NSset=GetNSLinks(CR,PR.senstype);∕∕記錄非敏感語義位置

9)SNset=GetSNLinks(CR,PR.senstype);∕∕記 錄 敏感語義位置

10) IfNSset≠ ? then

11)loclink=SelectMaxpop(NSset);∕∕選擇流行度最大的語義位置

12) Else

13)loclink=SelectMinpop(SNset);∕∕選擇流行度最小的語義位置

14) End if

15)CR=CR?Voronoi(loclink);

16) End while

17) 用 CR 替換 loc;

18)End if

19)End for

20)根據(jù) ST 將 traj 轉(zhuǎn)換為 traj*;

21)D*=D*?traj*;

22)End for

23)Return D*;

2.2 算法分析

在軌跡數(shù)據(jù)發(fā)布中,真正泄露用戶隱私的是用戶停留的語義位置。因此,SSLPP 算法在此基礎(chǔ)上,考慮到用戶對(duì)不同語義位置的訪問具有差異性,利用真實(shí)數(shù)據(jù)計(jì)算各語義位置流行度。充分考慮用戶的隱私需求,根據(jù)用戶設(shè)置的敏感語義位置類型和語義安全閾值對(duì)停留的語義位置進(jìn)行有選擇的構(gòu)建θ-語義安全匿名區(qū)域,保護(hù)用戶敏感隱私信息。因?yàn)楫?dāng)用戶處于敏感語義位置時(shí),構(gòu)建的匿名區(qū)域CR 至少還包含一個(gè)非敏感語義位置,這是因?yàn)槿魶]有非敏感語義位置,CR的語義安全程度d(CR)=1,無法滿足用戶設(shè)置的θ閾值,因此增加攻擊者推測用戶敏感隱私信息的難度。

在軌跡數(shù)據(jù)可用性方面,SSLPP 算法使用信息損失率[19]來進(jìn)行衡量,計(jì)算公式如下:

其中:ILAave表示停留位置轉(zhuǎn)化為匿名區(qū)域后的平均信息損失率;n 表示軌跡條數(shù),m 表示每條軌跡上的采樣位置數(shù),Asp 表示所有軌跡上的采樣位置數(shù),Area(Zone(Ti,Sampij))表示第i 條軌跡的第j 個(gè)采樣位置所屬的匿名區(qū)域面積。信息損失率越低,數(shù)據(jù)可用性越高;反之,數(shù)據(jù)可用性越差。由于SSLPP 算法僅針對(duì)用戶敏感的停留位置進(jìn)行隱私保護(hù),減少匿名處理規(guī)模。因此,SSLPP 算法可以降低信息損失率,提高軌跡數(shù)據(jù)可用性。

3 實(shí)驗(yàn)及結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

本文對(duì)比了文獻(xiàn)[7]的(K,δ)算法、文獻(xiàn)[9]的 Grid-Partition 算法和文獻(xiàn)[10]的 SSAC 算法。其中:(K,δ)算法是對(duì)軌跡數(shù)據(jù)中的所有采樣位置進(jìn)行匿名處理,K 默認(rèn)設(shè)置為 6,δ取值為 500,1000,1500,2000;GridPartition算法對(duì)軌跡數(shù)據(jù)中的停留位置進(jìn)行K 匿名處理,K 默認(rèn)設(shè)置為6;SSAC 算法對(duì)軌跡數(shù)據(jù)中的停留位置進(jìn)行(K,L)匿名處理,K 默認(rèn)設(shè)置為 6,L 默認(rèn)設(shè)置為 3。

所有的匿名算法均用Java 實(shí)現(xiàn),并運(yùn)行在一臺(tái)配置為 Intel Core i5-4200M CPU@2.5GHz,12GB 內(nèi)存的Windows 10 計(jì)算機(jī)上。實(shí)驗(yàn)數(shù)據(jù)采用北京PoI(Point of Interest)數(shù)據(jù)[10]作為語義位置,敏感語義位置類型設(shè)置為{休閑娛樂,住宿,科教文化},隨機(jī)選取Geolife 數(shù)據(jù)[9]中 100 個(gè)用戶的 10129 條軌跡,共計(jì) 16021938 個(gè)采樣位置。經(jīng)過停留位置提取算法[9]后得到27116 個(gè)停留位置,具體分布如圖5 所示。表1 列出了實(shí)驗(yàn)參數(shù)具體信息。

表1 實(shí)驗(yàn)參數(shù)設(shè)置

圖5 停留位置可視化

圖6 θ值變動(dòng)

3.2 實(shí)驗(yàn)結(jié)果分析

(1)θ值變動(dòng)的影響

圖6 描述θ值變動(dòng)對(duì)信息損失率和運(yùn)行時(shí)間的影響,其中語義位置數(shù)為50000,敏感語義位置類型為{休閑娛樂,住宿,科教文化}。由于(K,δ)算法、GridPartition 算法和SSAC 算法不考慮語義安全性,因此只對(duì)SSLPP 算法進(jìn)行實(shí)驗(yàn)驗(yàn)證。

由圖 6(a)可知,隨著θ值的增加,SSLPP 算法的信息損失率不斷降低,這是因?yàn)棣戎翟龃?,?gòu)建語義安全匿名區(qū)域需要添加的相鄰語義位置越少,使得匿名區(qū)域面積相應(yīng)減小,降低信息損失率。

由圖 6(b)可知,隨著θ值的增加,SSLPP 算法的執(zhí)行時(shí)間不斷減少,這是因?yàn)棣戎翟龃?,匿名區(qū)域擴(kuò)展添加Voronoi 單元次數(shù)逐漸減少,降低算法執(zhí)行時(shí)間。

(2)敏感語義位置類型數(shù)量的影響

圖7 描述敏感語義位置類型數(shù)量的變動(dòng)對(duì)信息損失率和運(yùn)行時(shí)間的影響,其中語義位置數(shù)量為50000,θ值為0.6。

由圖7(a)可知,隨著敏感語義位置類型數(shù)量的增加,SSLPP 算法的信息損失率不斷增加,但始終低于(K,δ)算法、GridPartition 算法和 SSAC 算法。這是因?yàn)槊舾姓Z義位置類型數(shù)量增多,SSLPP 算法需要匿名處理的停留位置增多,相應(yīng)信息損失率逐漸增加。但GridPartition 算法和SSAC 算法對(duì)所有停留位置進(jìn)行匿名處理區(qū)域;(K,δ)算法是對(duì)軌跡數(shù)據(jù)中的所有采樣位置進(jìn)行匿名處理,因此信息損失率始終高于SSLPP算法。

由圖7(b)可知,隨著敏感語義位置類型數(shù)量的增加,SSLPP 算法匿名時(shí)間不斷增加,但始終低于(K,δ)算法、GridPartition 算法和 SSAC 算法。這是因?yàn)镾SLPP 算法僅對(duì)停留的敏感語義位置進(jìn)行匿名處理,減少匿名處理規(guī)模,減少算法運(yùn)行時(shí)間。

(3)語義位置數(shù)量的影響

圖8 描述語義位置數(shù)量的變動(dòng)對(duì)信息損失率,其中敏感語義位置類型為{休閑娛樂,住宿,科教文化},θ值為0.6。

由圖8 可知,隨著語義位置數(shù)量的增加,SSLPP 算法信息損失率不斷降低,且始終低于(K,δ)算法、Grid-Partition 算法和SSAC 算法。這是因?yàn)檎Z義位置數(shù)量越多,非敏感語義位置數(shù)量相應(yīng)增加,使得擴(kuò)展添加Voronoi 單元次數(shù)減少,縮減匿名區(qū)域面積,從而降低信息損失率。(K,δ)算法不考慮語義位置,因此信息損失率不受語義位置數(shù)量變化的影響。隨著語義位置數(shù)量的增加,GridPartition 算法和SSAC 算法信息損失率不斷降低,但降低幅度較小。

4 結(jié)語

本文針對(duì)利用軌跡數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘的場景,提出一種基于敏感語義位置的軌跡隱私保護(hù)算法。該算法根據(jù)移動(dòng)對(duì)象設(shè)置的敏感語義位置類型和語義安全閾值對(duì)停留位置進(jìn)行泛化處理,不僅可以避免語義推斷攻擊,而且可以降低信息損失率,從而提高軌跡數(shù)據(jù)可用性和敏感隱私信息保護(hù)程度。

圖7 敏感語義位置類型數(shù)量變動(dòng)

圖8 語義位置數(shù)量變動(dòng)

然而,本文算法沒有充分考慮城市交通路網(wǎng)和語義位置的時(shí)間維度。因此,下一階段的研究可以結(jié)合城市路網(wǎng)和時(shí)間維度構(gòu)建匿名區(qū)域,進(jìn)一步增強(qiáng)隱私保護(hù)程度。

猜你喜歡
可用性損失率軌跡
基于文獻(xiàn)計(jì)量學(xué)的界面設(shè)計(jì)可用性中外對(duì)比研究
包裝工程(2023年24期)2023-12-27 09:18:26
農(nóng)業(yè)農(nóng)村部印發(fā)《意見》提出到2025年農(nóng)產(chǎn)品加工環(huán)節(jié)損失率降到5%以下
基于輻射傳輸模型的GOCI晨昏時(shí)段數(shù)據(jù)的可用性分析
軌跡
軌跡
帶有治療函數(shù)及免疫損失率的SIRS流行病模型的動(dòng)力學(xué)分析
軌跡
進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
中國三峽(2017年2期)2017-06-09 08:15:29
12部使用一年后最廉價(jià)轉(zhuǎn)售車
海外星云(2016年19期)2016-10-24 11:53:42
2014~2015年冬季美國蜂群損失調(diào)查
沧源| 嘉义市| 抚顺市| 静宁县| 临潭县| 宣威市| 靖远县| 萨嘎县| 福州市| 太保市| 电白县| 宁蒗| 会同县| 霍州市| 甘洛县| 鄂托克前旗| 集贤县| 上蔡县| 岚皋县| 镇沅| 仙游县| 吴江市| 漳州市| 绥宁县| 丹棱县| 九龙坡区| 秦安县| 习水县| 陆良县| 内江市| 彭州市| 临沂市| 嘉善县| 绿春县| 隆昌县| 苍山县| 民乐县| 温宿县| 肥西县| 招远市| 靖边县|