摘 要:隨著大數(shù)據(jù)時代的來臨,大數(shù)據(jù)分析帶來的隱私泄露問題日益嚴重。近期頻發(fā)的、針對用戶隱私信息泄露的安全事件中,存在用戶自身對于信息安全不夠重視和信息接收客戶端數(shù)據(jù)處理保存程序不完善等問題。同時未經許可私下售賣交易用戶隱私的灰色產業(yè)也嚴重威脅著信息安全。本文針對K-匿名隱私保護機制在空間位置的應用展開,從位置信息、攻擊者、攻擊方式出發(fā),介紹了將K-匿名中不同思路的空間和時間相結合的方法,并對該機制的發(fā)展方向進行了闡述。
關鍵詞:K-匿名;LBS;位置隱私保護
中圖分類號:TP309 文獻標識碼:A 文章編號:2096-4706(2018)08-0160-02
Abstract:With the coming of the big data era,the problem of privacy leakage caused by big data analysis is becoming more and more serious. In the recent frequent security events for the disclosure of user privacy information,there are problems such as the lack of attention to the information security and the imperfect data processing and saving program of the client. At the same time,without permission,the gray industry that sells private users privacy is also a serious threat to information security. This paper based on the application of K-anonymous privacy protection mechanism in spatial location,from position information,attacker and attack mode,introduces how to combine the space and time of different ideas in K- anonymity,and expounds the development direction of the mechanism.
Keywords:K-anonymity;LBS;location privacy protection
0 引 言
全球化進程不斷加速,與之伴隨出現(xiàn)了大量電子信息,數(shù)據(jù)挖掘、大數(shù)據(jù)等數(shù)據(jù)分析技術不斷進步,人們對敏感信息泄露的問題更加關注,特別是移動設備的普遍運用讓位置服務(Location-Based-Service,簡稱LBS)越來越受到歡迎,成為具有切實應用前景的服務之一。同時因為各種GPS定位愈發(fā)精確,LBS已經被廣泛應用于軍事、醫(yī)療、救援、商業(yè)和建筑等領域。科技是一把雙刃劍,用戶在實時發(fā)送有關的位置信息時,信息中不僅包含大量數(shù)據(jù)信息,還存在一些用戶自身并不想被他人所知的隱私信息,如個人住宅、交通出行和聯(lián)系方式等。
1 K-匿名技術的應用
在這些情況下,人們需要一種既能繼續(xù)為自身提供高質量LBS服務,又能夠有效保護自身隱私的解決方案。K-匿名技術是1998年由Samarati和L.Sweeney提出的一種在數(shù)據(jù)發(fā)布時保護私有信息的重要方法[1]。這種技術最初用于保護數(shù)據(jù)安全,用戶匿名。在LBS信息爆炸,用戶需要匿名隱私保護之后,K-匿名技術開始應用于位置匿名。
位置匿名因存在時效性和空間性等不同于一般數(shù)據(jù)的性質,所以相較于K-匿名技術對傳統(tǒng)數(shù)據(jù)的算法,需要做出一些改變。在妥協(xié)便利性與時效性上需要對不同的情景區(qū)別對待。例如位置K-匿名算法應用于民生領域,如醫(yī)療、救援、導航等時,因數(shù)據(jù)價值相對不高,應首先考慮位置信息的便捷性和時效性。在匿名程度上可以做出一定的取舍,這樣可以顯著降低成本,提高用戶體驗。
在另一些領域,如軍事、商業(yè)等,因數(shù)據(jù)價值相對更高,一旦泄露將產生嚴重后果。例如,有人通過Strava(Strava是一款風靡歐美的測速應用,其主要功能是把運動愛好者們的成績和名將們的成績加入同一個排名中,其中包括運動時間、配速和路線等信息)發(fā)布的全球熱度圖成功推論出美軍軍事基地所在地。在阿富汗、敘利亞等中東荒涼地區(qū),只有美軍士兵會使用這種運動軟件,這些地區(qū)的熱度圖格外引人注目,這表明有外來軍隊駐扎。另外,可以從跑步者經常圍繞建筑物有規(guī)律的跑動推測出基地整體規(guī)模以及駐扎在當?shù)氐摹芭懿秸摺钡拇笾氯藬?shù)。更糟糕的是,橫穿戰(zhàn)區(qū)地圖的幾條較長線條表面暴露了更為復雜的后勤數(shù)據(jù),例如車隊和巡邏路線,這可能導致部隊遭受伏擊。
所以在一些非常依賴于信息發(fā)送、接收和處理的領域,應同時考慮時效性和安全性。這對廣泛應用于各個領域的K-匿名技術來說是一個不小的挑戰(zhàn)。另外,在建筑方面,對于位置定位服務提出了較高的精度要求,這也是K-匿名技術研究者不得不考量的一個方面。
2 信息泄露的類型
2.1 攻擊來源
探索K-匿名技術在位置信息上的應用,可以從信息攻擊者的角度出發(fā),分析匿名消息可以從被攻擊的方向著手,反向推演得到較優(yōu)解。衡量攻擊者是否可以在單一用戶位置情況下訪問位置信息。一是攻擊者只得到用戶單個獨立的位置信息,這是可以較輕松處理的情況,也是絕大多數(shù)匿名方法設計者預設的攻擊方背景;二是攻擊者可以持續(xù)不斷地接收或是跟蹤用戶的實時位置信息,繼而通過這些處于更新中的信息繪制完整的運動軌跡。這些信息可以通過在用戶發(fā)送給客戶端的過程中截取獲得,也可以通過直接攻擊信息接收服務器,盜用客戶端數(shù)據(jù)來實現(xiàn)。通常來說,信息攻擊者可以從這些方面來攻擊用戶或是客戶端得到位置隱私信息:單一位置攻擊、多位置攻擊、上下文鏈接攻擊、多位置和上下文鏈接合并攻擊[2]。
2.2 攻擊類型
(1)單一位置攻擊可以用來應對較為簡單的K-匿名方法,攻擊者分析信息成員的位置,若成員位置全部一致,則所有信息都會泄露。這種位置攻擊方法基于作為信息發(fā)送端的用戶在空間為非均勻分布;(2)多位置攻擊的攻擊者通過跟蹤和關聯(lián)用戶的多位置更新查詢來獲得所需的信息;(3)上下文鏈接攻擊要利用不同信息之間的交錯性。攻擊者可使用攻擊目標信息之外的背景知識來獲取用戶信息??煞譃槿N:個體上下文鏈接攻擊、概率分布攻擊和地圖匹配。
這幾種攻擊方式僅僅是冰山一角,位置信息攻擊者絕不僅僅局限于這幾個可能的攻擊方式,所以可以從另一個角度,從可以實現(xiàn)位置K-匿名的設計角度出發(fā)。
3 K-匿名方式
3.1 空間匿名
首先定義位置的匿名程度,忽略用戶密度,然后通過放大暴露空間區(qū)域來使用戶的精確地址被隱藏。典型的空間模糊方法通過給LS和客戶端發(fā)送刻意降低過的位置信息來保護信息安全。用戶發(fā)送給LS的不再是一個精確且具體的位置信息,而是一個將精確地址包含在內的圓形區(qū)域。同時這個圓形區(qū)域可以由用戶自己定義模糊區(qū)域,在提供位置信息的同時保護位置隱私。
但這種方法也存在局限性,即客戶端未得到精確的用戶位置,在一定情況下提高了隱形成本。這就需要用戶在隱私保護和信息安全之間進行權衡。于是有人提出在用戶發(fā)送給LS具體位置信息時,對所發(fā)送的信息進行簡單的幾何變換,如平移對稱旋轉等,在客戶端讀取數(shù)據(jù)時通過反向變換還原具體位置信息,需要變換函數(shù)分配給客戶端[2]。綜上所述,空間匿名可以成功起到對位置消息匿名的作用。但具體到一些需要精確位置的信息時,不單單是發(fā)送消息的用戶,對于接收客戶端也提出了一些硬性要求。
3.2 時間匿名
在發(fā)送消息前增加一個延遲,持續(xù)等待,直到有k移動客戶端訪問過同一位置區(qū)域,前提是這位置區(qū)域由消息發(fā)送者發(fā)送消息時所在的位置區(qū)域,達到用戶匿名防止信息泄露的作用。時間匿名的特點在于一定程度上增加了信息從發(fā)送到接收分析這一流程的時間長度,在匿名程度隱私保護上具有獨特的優(yōu)勢,但也存在不足之處。
3.3 空間和時間匿名
將空間和時間分別定義為消息集合的成員。給用戶發(fā)送到客戶端的消息一個定義,用符合S表示消息的集合,用ms代表初始信息集中的一個元素,定義為:
ms∈S{uid,rno,(t,x,y),k,(lt,lx,ly),N}
(uid—用戶id標識,k—最小匿名度)
在這個集合S中,uid代表發(fā)送者的標識符,同一個移動客戶端發(fā)送的消息標識符是一樣的,但rno存在差異,這個值用來區(qū)別同一客戶端不同的消息。(t,x,y)代表一則消息的時空坐標點,參數(shù)x和y為二維坐標的空間坐標點,參數(shù)t為在空間坐標軸上的時間二維坐標。[3]
在消息中k值代表用戶所需的最小位置匿名度,若k=1,該消息對位置匿名沒有要求;k>1,該消息與其他至少k-1個相互之間無法區(qū)分的消息存在于同一個時空匿名區(qū)域中。綜上所述,k的值與消息所需隱私程度成正比。
lx和ly代表用戶可以自身指定的空間容度,這代表消息存在一個空間匿名區(qū)域,在這個空間坐標軸上不應存在任意離消息坐標(x,y)距離超過lx和ly值的點。lt為時間容度,同樣應由用戶指定。這個參數(shù)的確定通常需要由LBS和用戶對于信息精確和信息安全之間的偏好二者共同發(fā)揮作用。例如,lx和ly的值(空間容度)越大,移動客戶端發(fā)送的消息越不精確,模糊區(qū)域越大,這表示信息的質量越低。反之空間容度越小,位置信息越精確,模糊區(qū)域越小,信息質量也就越高。同樣lt的值(時間容度)越大,代表這則消息在由LBS接收時收到的延遲越高,降低了用戶服務的時效性。
這則公式給出了一個可以定量分析位置消息的空間、時間和匿名程度值的分析方法,能將客戶端接收到的消息定性定量,為位置K-匿名技術的不斷探索與研究中提供了一個方向思路。
4 結 論
隨著計算機技術的不斷發(fā)展和全球信息化時代的來臨,信息泄露造成的后果愈發(fā)嚴重。K-匿名技術作為上個世紀末提出的概念,在十多年間發(fā)展延伸出各種算法,在數(shù)據(jù)安全領域有著不可或缺的重要性。現(xiàn)如今人們在使用LBS時應當進行位置隱私保護,絕大部分方法均利用K-匿名概念保護用戶隱私,但是考慮到現(xiàn)在日新月異的各種可能的攻擊,位置隱私保護仍然是一個很大的挑戰(zhàn),用戶需要在享受位置信息服務的便捷和隱私信息可能被泄露之間進行權衡。
參考文獻:
[1] 張毅榮.大數(shù)據(jù)背景下的K-匿名隱私保護機制研究 [J].農村經濟與科技,2017,28(4):289-290.
[2] 侯士江.基于空間k-匿名的位置隱私保護技術研究 [D].秦皇島:燕山大學,2014.
[3] 婁綠林.基于位置服務(LBS)的隱私保護方案研究 [D].昆明:昆明理工大學,2013.
作者簡介:楊升森(1996.09-),男,漢族,浙江湖州人,本科在讀。研究方向:電子信息工程。