萬利永
(江西軟件職業(yè)技術大學 江西 南昌 330041)
基于物聯(lián)網(wǎng)環(huán)境下,人們?yōu)榱嗽鰪娦畔?shù)據(jù)的利用效率,通常是采用亞馬遜、阿里云等云服務商進行數(shù)據(jù)信息處理,這樣使得數(shù)據(jù)所有權和使用權處于分離狀態(tài),在數(shù)據(jù)利用過程中輸出、輸入、儲存等各環(huán)節(jié)都成為隱私數(shù)據(jù)泄露的風險源,并且隱私數(shù)據(jù)的生成者并沒有主動參與的隱私保護中,僅依靠被動式的隱私保護和數(shù)據(jù)收集者的隱私保護,加之信息數(shù)據(jù)集之間會存在一定的關聯(lián)性,會對隱私保護造成較大的難度,文章重點從數(shù)據(jù)庫隱私來探究了隱私保護技術,希望借助完善的隱私保護技術來推動物聯(lián)網(wǎng)技術的高質量發(fā)展。
1.1.1 定義
隱私通常是指用戶不愿意公開或者讓其他人知道的個人秘密,在互聯(lián)網(wǎng)時代,隱私信息的泄露問題隨著互聯(lián)網(wǎng)技術的發(fā)展及物聯(lián)網(wǎng)技術的廣泛應用而變得越來越嚴重;人們在進行網(wǎng)站信息查詢、網(wǎng)上購物、發(fā)送電子郵件等網(wǎng)絡操作的時候均有可能在不經意間泄露個人隱私[1]。針對越來越嚴峻的隱私泄露問題,一方面要保護涉及個人隱私的數(shù)據(jù)的安全,另一方面也要保證網(wǎng)絡的正常、健康、穩(wěn)定發(fā)展,隱私保護技術能夠借助隱私度量進行相關風險披露,讓用戶能夠合理地選擇信息數(shù)據(jù)應用程度,從而達到網(wǎng)絡技術深度運用和用戶隱私安全的平衡點[2]。
1.1.2 分類
根據(jù)數(shù)據(jù)本質特性因素,可以分為個人隱私和公共隱私。個人隱私主要包括個人基本資料、網(wǎng)絡資料、郵箱信息、工作信息、健康信息、財產狀況等。公共隱私主要是指有代表性的群體的共同特征信息,如政府的一些統(tǒng)計信息、趨勢分析等。根據(jù)研究對象的不同,可分為數(shù)據(jù)隱私、位置隱私及身份隱私[3]。數(shù)據(jù)隱私主要是指數(shù)據(jù)所包含的隱私信息。位置隱私是指通過統(tǒng)計分析、聚集相關數(shù)據(jù)而獲取的關于個體的位置狀況信息。身份隱私是指通過綜合分析個體的財產狀況、購物習慣、出行時間、線路而推斷得到的身份信息。
物聯(lián)網(wǎng)技術實現(xiàn)了智能設備、計算機終端、移動設備等多通信設備的互聯(lián),讓人們更容易享受到通信技術帶來的便利和功能優(yōu)勢,但在信息數(shù)據(jù)傳遞中也會造成隱私數(shù)據(jù)的泄露威脅,隱私度量是為了合理地評估個人的隱私水平,這樣有助于隱私保護技術更易達到預期的防護密度,不同的隱私保護需求就會存在對應的度量指標,主要分為數(shù)據(jù)庫隱私、位置隱私、身份隱私三類[4],文章主要研究了數(shù)據(jù)庫隱私保護。數(shù)據(jù)庫是一個信息數(shù)據(jù)集合的存在,在數(shù)據(jù)庫隱私保護技術應用中,需要從數(shù)據(jù)庫的應用需求和隱私保護程度兩個方面入手,首先在數(shù)據(jù)應用上,可以根據(jù)數(shù)據(jù)質量評判,以數(shù)據(jù)丟失程度、原始數(shù)據(jù)相似度等指標度量。其次,在隱私保護程度上,需要明確隱私保護范疇,將不同的信息數(shù)據(jù)保護程度進行有效隔離,可以借助風險披露進行數(shù)據(jù)分離,用戶在數(shù)據(jù)庫使用中,可以根據(jù)風險等級來進行相關信息數(shù)據(jù)的輸入和讀取,風險等級越高,則泄露風險越大[5]。
現(xiàn)階段,隱私保護技術主要是在數(shù)據(jù)采集和數(shù)據(jù)發(fā)布兩個層面來實現(xiàn)數(shù)據(jù)庫隱私保護,讓數(shù)據(jù)庫能夠在安全的環(huán)境下進行數(shù)據(jù)信息采集和信息輸出,如圖1所示,展示了數(shù)據(jù)采集和數(shù)據(jù)發(fā)布的應用場景。在數(shù)據(jù)采集階段,數(shù)據(jù)發(fā)布者在用戶A.B.C處獲取到隱私數(shù)據(jù),并將數(shù)據(jù)傳輸?shù)綌?shù)據(jù)接收者,以網(wǎng)絡平臺購物為例,電商平臺作為數(shù)據(jù)發(fā)布者,將用戶A的賬戶、密碼隱私數(shù)據(jù)進行收集,并傳遞給支付平臺(數(shù)據(jù)接受者);在這個流程中,基于不可信計算模式,數(shù)據(jù)發(fā)布者是不可信的,它可能會通過多種途徑從用戶那里獲取敏感數(shù)據(jù),其中包含隱私數(shù)據(jù),在可信計算模式中,數(shù)據(jù)發(fā)布者是可信的,用戶也愿意將隱私數(shù)據(jù)提供給數(shù)據(jù)接收者,但數(shù)據(jù)接收者不可信。如支付平臺在采集大量的賬戶、密碼過程中,出現(xiàn)賬戶泄露問題,而賬目數(shù)據(jù)是用戶不愿意泄露的隱私數(shù)據(jù)[6]。
圖1 數(shù)據(jù)采集和數(shù)據(jù)發(fā)布
隱私保護技術是為了有效地解決數(shù)據(jù)發(fā)布者及數(shù)據(jù)接收者可能出現(xiàn)的數(shù)據(jù)泄露問題,在具體的實施中需要考慮到:一是隱私數(shù)據(jù)是數(shù)據(jù)庫輸入和輸出過程中不被篡改、泄露;二是在增強數(shù)據(jù)庫隱私數(shù)據(jù)保護的同時,也需要提高隱私數(shù)據(jù)利用效率,不能出現(xiàn)顧此失彼現(xiàn)象。在技術分類上,分為數(shù)據(jù)失真技術、數(shù)據(jù)加密技術、限制發(fā)布技術[7]。
2.2.1 基于數(shù)據(jù)失真的隱私保護技術
數(shù)據(jù)失真技術指的是將私密數(shù)據(jù)進行失真處理,如添加噪聲、信息交互等造成原始數(shù)據(jù)的擾動,從而達到隱私數(shù)據(jù)的保護目的,在進行數(shù)據(jù)失真處理時,首先需要確保攻擊者不能識別真實隱私數(shù)據(jù),即攻擊者難以通過數(shù)據(jù)集、關聯(lián)知識推理出真實數(shù)據(jù)。其次要確保原始數(shù)據(jù)的屬性,讓數(shù)據(jù)性質不發(fā)生變化。在實際應用中,通常采用隨機化擾動技術來實現(xiàn)數(shù)據(jù)失真:x1隨機擾動:通過采用隨機化技術(隨機添加噪聲、信息交互)來修改真實數(shù)據(jù),將真實數(shù)據(jù)進行有效隱藏,讓攻擊者難以找到原始數(shù)據(jù),從而完成隱私數(shù)據(jù)的保護。如圖2所示,攻擊者只能查獲擾動數(shù)據(jù)。
圖2 數(shù)據(jù)擾動過程
2.2.2 數(shù)據(jù)加密的隱私保護技術
(1)分布式匿名化
匿名化指的是對隱私數(shù)據(jù)的信息和來源進行隱藏,通過匿名化處理后,數(shù)據(jù)庫在進行隱私數(shù)據(jù)的采集或者發(fā)布過程中,隱私數(shù)據(jù)處于匿名化狀態(tài),這樣極大地降低了隱私數(shù)據(jù)的被攻擊的風險,進而提高隱私數(shù)據(jù)的安全性。分布式匿名化在信息通信過程中,為了保證隱私數(shù)據(jù)的利用效率,是基于垂直劃分的數(shù)據(jù)環(huán)境下實現(xiàn)兩方分布式匿名化,并以k-匿名為例來說明,在信息隱藏中以“是否滿足k-匿名條件”來判斷原始數(shù)據(jù)匿名[8]。
(2)分布式聚類
分布式聚類的關鍵是安全地計算數(shù)據(jù)間的距離,聚類模型有Naive聚類模型(K-means)和多次聚類模型,兩種模型都利用了加密技術來實現(xiàn)信息的安全傳輸[9]。①Naive聚類模型:數(shù)據(jù)節(jié)點將隱私保護方式傳輸給可信任的第三方,然后第三方對原始數(shù)據(jù)進行數(shù)據(jù)加密,聚類后反饋相關處理結果。②多次聚類模型:數(shù)據(jù)節(jié)點對原始數(shù)據(jù)進行聚類處理,并發(fā)布結果,各節(jié)點在根據(jù)隱私保護需求對聚類處理結果發(fā)布,進行二次聚類處理,從而形成分布式聚類。
2.2.3 限制發(fā)布的隱私保護技術
限制發(fā)布指的是將隱私數(shù)據(jù)進行分類,根據(jù)風險披露等來針對性地發(fā)布或者不發(fā)布數(shù)據(jù),從而起到隱私數(shù)據(jù)保護的作用?,F(xiàn)階段,匿名化處理技術是限制發(fā)布的隱私保護技術的關鍵技術,通過結合風險披露等級和隱私數(shù)據(jù)保護程度,進行部分隱私因素的匿名化處理,達到一個折中的效果,既能滿足隱私數(shù)據(jù)的使用,也確保隱私數(shù)據(jù)泄露風險處于預期范圍內。以學??荚嚦煽児紴槔谠紨?shù)據(jù)上會存在姓名、年齡、專業(yè)、成績分數(shù)等主要隱私數(shù)據(jù),通過傳統(tǒng)隱私數(shù)據(jù)保護,會將姓名進行※保護,但經過攻擊者關聯(lián)數(shù)據(jù)推理,會容易得到原始完整數(shù)據(jù),經過分布式匿名化算法匿名化處理,會將原始記錄映射到特定的度量空間,再對空間中的點進行聚類匿名。類似k匿名,算法保證每個聚類中至少有k個數(shù)據(jù)點在r-gather算法中,以所有聚類中的最大半徑為度量對所有數(shù)據(jù)點進行聚類,保證每個聚類至少包含k個數(shù)據(jù)點。如在姓名上會出現(xiàn)數(shù)字標識、年齡呈現(xiàn)出區(qū)間數(shù)值,這樣使得攻擊者難以根據(jù)關聯(lián)數(shù)據(jù)識別獲取隱私數(shù)據(jù)[10]。
基于數(shù)據(jù)擾動的分類數(shù)據(jù)采集隱私保護技術在具體應用中,首先是給原始數(shù)據(jù)集的各屬性域構建一個隨機擾動矩陣,并給定一個轉移概率,其次再根據(jù)轉移概率值將原始數(shù)據(jù)集中的值進行轉換操作,最后構建原數(shù)據(jù)分布,并進行分類采集。在數(shù)據(jù)預處理中,是通過屬性域編碼表進行,便于生成離散數(shù)據(jù)。在轉移概率值設定中,可以引入矩陣條件數(shù)、r-amplifying方法減小重建原數(shù)據(jù)分布的錯誤率,采用決策樹分類,整個過程分為數(shù)據(jù)預處理、數(shù)據(jù)擾動、分類數(shù)據(jù)采集三個階段,基本框架如圖3所示:
圖3 分類數(shù)據(jù)采集隱私保護基本框架
3.1.1 數(shù)據(jù)預處理
首先要對數(shù)據(jù)進行預處理,才能實現(xiàn)原始數(shù)據(jù)的轉換操作,本次采用的是平均區(qū)域劃分方法進行數(shù)據(jù)離散處理,如式(1):
length=離散區(qū)間長度 A=連續(xù)屬性n=離散數(shù)
在具體計算中,以A1為第一個離散值開始,進行(1)離散區(qū)間長度計算,結果采用四舍五入計,最后以0結束。
屬性域編碼是對離散數(shù)據(jù)集中各屬性域值進行查詢,并對這些不同的屬性域值進行重新編碼,進而生成屬性域編碼表。
數(shù)據(jù)集轉換成編碼集時將離散數(shù)據(jù)集的屬性值用對應的編碼來代替,替換后形成編碼集。
3.1.2 單屬性隨機擾動矩陣
單屬性隨機擾動矩陣的值體現(xiàn)著屬性域值的轉化概率,單屬性隨機擾動矩陣的應用關乎著隱私數(shù)據(jù)保護的程度和精準度,可以說是整個隱私保護技術的關鍵內容。本方法選擇r正定對稱矩陣為單屬性擾動矩陣。首先要求用戶給定每個屬性的閾值前驗率a1和后驗率a2,要求0<α1<α2< 1,并在a2(1-a1)/a1(1-a2)>r≥ 1 隨機取個r值,生成任意屬性A的擾動矩陣。
3.1.3 數(shù)據(jù)擾動
數(shù)據(jù)擾動是各屬性值根據(jù)對應的轉移概率值轉換后形成的其他值,在本次擾動中首先給定編碼數(shù)據(jù)集,再通過擾動算法進行擾亂。
3.2.1 實驗環(huán)境
(1)開發(fā)環(huán)境:WindowsXP操作系統(tǒng)17 Hz主頻,2 B內存320 GB硬盤
(2)開發(fā)工具:Eclipse-SDK-3.4.1,SQL Server 2000。
(3)開發(fā)語言:Java。
3.2.2 實驗數(shù)據(jù)
實驗數(shù)據(jù)采用學生考試成績,通過分類數(shù)據(jù)采集隱私保護技術在數(shù)據(jù)集隱私保護的前提下,找出判斷是否及格的規(guī)律,以下從隱私保護度和挖掘精度兩個方面對該方法進行考察[11]。
隱私保護度用1/(a2-a1)來表示,其中,a1為用戶前驗率,a2為后驗率。如圖4所示,隨著數(shù)據(jù)集的增加,采集精準度越高,越來越接近真實的數(shù)據(jù)水平。
圖4 精度和數(shù)據(jù)量的關系
綜上所述,物聯(lián)網(wǎng)環(huán)境下網(wǎng)絡隱私保護主要包括位置隱私、身份隱私、數(shù)據(jù)庫隱私三類,隨著物聯(lián)網(wǎng)技術發(fā)展,數(shù)據(jù)庫增量信息會呈現(xiàn)出階梯式上升,數(shù)據(jù)庫的隱私數(shù)據(jù)使用效率和保護技術都會成為影響物聯(lián)網(wǎng)技術發(fā)展的重要因素。文章以數(shù)據(jù)庫隱私保護為例,提出基于數(shù)據(jù)擾動的分類數(shù)據(jù)采集隱私保護技術研究,希望以此來滿足數(shù)據(jù)庫隱私保護需求。