◆朱禹睿
大數(shù)據(jù)背景下隱私保護(hù)技術(shù)的探究
◆朱禹睿
(浙江科技學(xué)院 浙江 310023)
本文以大數(shù)據(jù)時代存有的隱私安全問題與隱私保護(hù)技術(shù)進(jìn)行闡述,首先介紹了大數(shù)據(jù)的背景與特征,并分析了大數(shù)據(jù)在其各個環(huán)節(jié)——數(shù)據(jù)存儲、數(shù)據(jù)共享、數(shù)據(jù)采集過程中存有的隱私安全問題,又對收斂加密、同態(tài)加密、可恢復(fù)性證明、擁有權(quán)證明、差分隱私、數(shù)據(jù)脫敏等技術(shù)進(jìn)行探討,介紹了當(dāng)前社會的隱私保護(hù)技術(shù)。其目的在于提升大數(shù)據(jù)的背景下隱私保護(hù)技術(shù)發(fā)展,保證數(shù)據(jù)可以在各個環(huán)節(jié)中都受到保護(hù),推動計算機(jī)信息行業(yè)的發(fā)展,旨在為相關(guān)研究提供參考。
大數(shù)據(jù);隱私保護(hù);云計算;加密技術(shù)
隨著社會信息化和網(wǎng)絡(luò)化的發(fā)展,如今已然是大數(shù)據(jù)的時代。在我們使用的社交軟件,購物軟件,短視頻軟件中每秒都有大量的數(shù)據(jù)在交互,在醫(yī)療、教育、科學(xué)計算等領(lǐng)域也正源源不斷產(chǎn)生著數(shù)據(jù)。大數(shù)據(jù)被應(yīng)用在生活中的方方面面:用戶喜好的推測、智能交通、犯罪預(yù)防、城市規(guī)劃,大數(shù)據(jù)給計算機(jī)領(lǐng)域開拓了一個新的黃金時代。安全技術(shù)作為任何新興技術(shù)的伴生技術(shù),大數(shù)據(jù)安全與隱私保護(hù)也引起了人們的重視,如何在數(shù)據(jù)交互便利的當(dāng)今社會保護(hù)好自身的隱私是值得我們探究的問題
提到大數(shù)據(jù),人們往往最先想到的便是數(shù)據(jù)量很大,這是大數(shù)據(jù)最顯著的特征之一,但除此之外,大數(shù)據(jù)還有著時效性高、數(shù)據(jù)類型復(fù)雜、數(shù)據(jù)質(zhì)量參差不齊以及數(shù)據(jù)的相對價值較低等特點。數(shù)據(jù)的時效性高著很容易理解,尤其是在某些社交網(wǎng)站上尤為突出,例如微博、推特等,不僅數(shù)據(jù)量大,且時效性很高,若在采集、處理數(shù)據(jù)上花費大量時間,則與某些需要高時效性的數(shù)據(jù)相悖(如新聞事件、應(yīng)急事件)。數(shù)據(jù)的類型復(fù)雜指的是大數(shù)據(jù)不僅需要處理傳統(tǒng)的結(jié)構(gòu)化的數(shù)據(jù),還要處理大量非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如網(wǎng)頁、圖片視頻等。這些數(shù)據(jù)的處理不僅需要傳統(tǒng)的關(guān)系數(shù)據(jù)庫技術(shù)還需要引入許多新的技術(shù)。大數(shù)據(jù)的第四個特征是數(shù)據(jù)質(zhì)量參差不齊,主要是指在互聯(lián)網(wǎng)上存在的大量的無標(biāo)注數(shù)據(jù)以及人為的錯誤數(shù)據(jù),抑或是物聯(lián)網(wǎng)設(shè)備在采集數(shù)據(jù)時由于環(huán)境原因、設(shè)備故障等原因?qū)е碌腻e誤數(shù)據(jù)。數(shù)據(jù)相對價值較低是因為雖然數(shù)據(jù)量大,但數(shù)據(jù)的價值密度比較低,所以需要在數(shù)據(jù)中發(fā)現(xiàn)價值、創(chuàng)造價值。
隱私通常指的是數(shù)據(jù)所有者不希望被外界所知曉的敏感信息,例如:個人的身份信息、薪資情況,企業(yè)的財政信息。一般來說,從隱私所有者進(jìn)行分類,可將隱私分為,個人隱私與共同隱私。個人隱私指的是可以確定特定個人或與可確認(rèn)個人相關(guān),但個人不愿意暴露的信息。共同隱私指的是能表現(xiàn)出多個個體之間的聯(lián)系或共性且不愿意被暴露的信息。
隨著云計算技術(shù)的迅猛發(fā)展,云存儲技術(shù)受到越來越多人的青睞,用戶可以將數(shù)據(jù)上傳到云端,通過不同終端讀取云端數(shù)據(jù)實現(xiàn)數(shù)據(jù)在各個設(shè)備之間的共享,也可以將其分享給他人。在云存儲服務(wù)架構(gòu)中共有三個角色,分別是:用戶、云服務(wù)器和第三方審計者(TPA)。TPA的作用是代替數(shù)據(jù)擁有者完成對數(shù)據(jù)的完整性認(rèn)證。由于用戶確認(rèn)自己數(shù)據(jù)的完整性是一件會花費大量時間且成本較高的事情,所以會將這個任務(wù)交由TPA負(fù)責(zé)。如何在讓TPA有效率工作的同時,又不將自身的隱私泄露是一個亟須解決的問題。除此之外攻擊者有能力損壞云服務(wù)器中所存儲的數(shù)據(jù),而即使數(shù)據(jù)遭到破壞,服務(wù)器也不會通知數(shù)據(jù)擁有者,以維護(hù)自身名譽,針對這個問題,數(shù)據(jù)可恢復(fù)性證明被提出,這在之后的隱私保護(hù)機(jī)制中詳細(xì)介紹。
從大數(shù)據(jù)的整體態(tài)勢上看,數(shù)據(jù)的規(guī)模將會越來越大,多源數(shù)據(jù)的開采和分析才能使數(shù)據(jù)展現(xiàn)其真正的價值,在這過程中,數(shù)據(jù)共享技術(shù)扮演的角色日益重要。而阻礙數(shù)據(jù)大規(guī)模共享的一大問題便是如何保護(hù)隱私。在如今信息爆炸的時代,我們可以很輕易從社交網(wǎng)站上免費挖取他人的個人信息。而任何一個想做壞事的人可以通過從公開網(wǎng)絡(luò)上挖取到的個人信息進(jìn)行違法犯罪,因而存在很大的安全隱患。
在大數(shù)據(jù)時代,互聯(lián)網(wǎng)公司想盡一切辦法采集用戶的信息,而我們在網(wǎng)絡(luò)空間的任何所作所為都可能會被記錄下來進(jìn)行分析。當(dāng)我們打開購物軟件,總能發(fā)現(xiàn)首頁推薦的商品和自己曾搜索瀏覽的商品相似,它會分析我們的喜好,記錄我們的消費水平,從而挑選出更適合我們的商品供我們選擇。我們的個人信息也會被保存在網(wǎng)絡(luò)中的任何一個角落,我們?yōu)g覽過的網(wǎng)頁會被記錄下來,我們發(fā)送的電子郵件也會被存檔。這還不是全部,甚至在現(xiàn)實空間,當(dāng)我們打開定位服務(wù)時,手機(jī)會記錄我們什么時候到了什么地方,手機(jī)供應(yīng)商能輕易知道我們所有的行蹤。這些行為都引起了大眾對隱私的擔(dān)憂。
大規(guī)模的云存儲往往面臨著兩個方面之間的矛盾:一是系統(tǒng)需要壓縮數(shù)據(jù)以節(jié)省存儲空間的開銷,二是用戶希望自己的數(shù)據(jù)能夠加密存儲在云端,以保護(hù)自己的隱私,而以去重方式的壓縮與加密存儲的期望相違背。于是退而求其次,適度放寬對安全性的需求。允許密文泄漏原文相等性信息,使加密后的數(shù)據(jù)能夠有去重的可能,最早提出的方案是收斂加密。在收斂加密中,采用數(shù)據(jù)本身的哈希值作為密鑰進(jìn)行加密,在這種情況下不同用戶對相同數(shù)據(jù)加密所得到的值都是相同的,服務(wù)器也能通過數(shù)據(jù)哈希值的對比判斷數(shù)據(jù)是否相同。用于數(shù)據(jù)標(biāo)記的計算與數(shù)據(jù)密鑰計算采用不同的哈希函數(shù),因此不能夠通過數(shù)據(jù)標(biāo)記推出數(shù)據(jù)的密鑰,使數(shù)據(jù)能夠安全地在不同的用戶空間共享,也就能實現(xiàn)加密情況下的數(shù)據(jù)去重。這既保證數(shù)據(jù)的隱私性也節(jié)省了數(shù)據(jù)的存儲空間。
即使解決了數(shù)據(jù)在云端存儲的加密問題,但新的問題又產(chǎn)生了,對加密后的數(shù)據(jù)進(jìn)行搜索與處理不是一件容易的事情,不僅管理不方便,用戶的體驗也很差。為了解決這一問題,同態(tài)加密被提了出來。同態(tài)加密就是將數(shù)據(jù)加密后處理得到結(jié)果進(jìn)行解密,與對沒有加密的數(shù)據(jù)處理后的結(jié)果相同。舉個最簡單的例子,當(dāng)要進(jìn)行“1+1”的運算時,將“1”進(jìn)行加密得到“11”,預(yù)算得出結(jié)果為“22”,本地解密后得到最終結(jié)果“2”。在這種模式下云端服務(wù)器可以不用解密直接處理隱私數(shù)據(jù),而在云環(huán)境中不會出現(xiàn)任何明文數(shù)據(jù),用戶的隱私數(shù)據(jù)也得到了良好的保護(hù)。
可恢復(fù)性證明的驗證機(jī)制需要解決兩個問題:(1)檢測出文件是否被損壞。(2)修復(fù)被損壞的文件。針對第一個問題,崗哨數(shù)據(jù)塊會被加入外包文件之中,服務(wù)器無法檢測出崗哨數(shù)據(jù)塊和普通數(shù)據(jù)塊的區(qū)別。而當(dāng)文件數(shù)據(jù)被破壞時,相對應(yīng)的,加入其中的崗哨數(shù)據(jù)塊也會被破壞。因此數(shù)據(jù)擁有者能夠判斷文件是否被破壞,也可以根據(jù)崗哨數(shù)據(jù)塊在整個文件中的分布,判斷出文件被損壞的程度。修復(fù)文件則是利用RS糾錯碼對文件的容錯預(yù)處理,是恢復(fù)機(jī)制能夠恢復(fù)文件中部分被損壞的數(shù)據(jù)。利用可恢復(fù)性證明的驗證機(jī)制能夠讓數(shù)據(jù)所有者對自身的文件有更好的掌控,也更安全的保護(hù)其隱私。
當(dāng)用戶向云端上傳文件時,會發(fā)現(xiàn)幾百上千兆字節(jié)的文件,很快就能完成傳輸。這是因為每一個文件都擁有一個屬于自己的特征值,相同文件的特征值是相同的,用這個特征值與服務(wù)器中存儲的特征值相比較,若有相同,則無須上傳。這樣雖然很大節(jié)省了存儲空間與帶寬,但是攻擊者就可以根據(jù)一個文件的哈希值獲取到整個文件。為了解決這個問題,擁有權(quán)證明模型被提了出來,就是在客戶端與相應(yīng)端執(zhí)行一個挑戰(zhàn)/相應(yīng)的協(xié)議,能夠防止攻擊者通過單一哈希值獲得整個文件,從而加強了用戶的隱私保護(hù)。
當(dāng)用戶在查詢數(shù)據(jù)時,得到的反饋是數(shù)據(jù)所有者給出的準(zhǔn)確信息時,很容易造成隱私泄漏,因為攻擊者可能冒充用戶進(jìn)行查詢,從得出的結(jié)果反推用戶的隱私信息。為了避免這個問題,研究者提出了差分隱私系統(tǒng),可以保證攻擊者獲取到的數(shù)據(jù)幾乎和沒有這個人數(shù)據(jù)的數(shù)據(jù)集中所獲取的相差無幾。舉個例子:某醫(yī)院的數(shù)據(jù)庫的信息存儲格式:“小明,男,患有精神病”,“小紅,女,患有肥胖癥”......通過查詢前99條記錄性別為男的數(shù)量,與前100條記錄性別為男的數(shù)量進(jìn)行比較,可以輕易得到第100條記錄的性別。但采用差分隱私技術(shù)后兩次查詢的結(jié)果便不準(zhǔn)確,使攻擊者無法判斷。差分隱私技術(shù)就是向原始數(shù)據(jù)中添加噪聲,攻擊者獲取到帶有噪聲數(shù)據(jù)的數(shù)據(jù)集后,難以反推出用戶的隱私信息,從而得到保護(hù)隱私的目的。差分隱私的應(yīng)用很廣,小米就利用差分隱私技術(shù)實現(xiàn)模糊定位功能,當(dāng)應(yīng)用請求用戶的位置信息時僅能獲得用戶的大致位置,從而保護(hù)用戶的隱私。
數(shù)據(jù)脫敏技術(shù)就是對與一些敏感信息利用脫敏規(guī)則進(jìn)行變形,保護(hù)用戶的隱私。但與加密技術(shù)不同的是,數(shù)據(jù)脫敏后的數(shù)據(jù)與原數(shù)據(jù)的類型相同,即不是真實信息但看起來像是真實的,例如用戶名“張三”進(jìn)行脫敏后變成了“李四”,身份證號碼脫敏后依舊符合身份證的格式規(guī)范,電話號碼脫敏后依舊為11位,且不會出現(xiàn)字母。數(shù)據(jù)脫敏技術(shù)在保護(hù)隱私的同時,也保持了數(shù)據(jù)監(jiān)管的合規(guī)性。
數(shù)據(jù)脫敏技術(shù)分為靜態(tài)脫敏與動態(tài)脫敏。靜態(tài)脫敏就是將數(shù)據(jù)從數(shù)據(jù)庫中取出,將數(shù)據(jù)脫敏處理后,交給開發(fā)、測試人員使用,可以任意對其進(jìn)行讀寫操作,滿足業(yè)務(wù)需求的同時,也保護(hù)了數(shù)據(jù)安全。動態(tài)脫敏是在查詢敏感信息的同時,將數(shù)據(jù)進(jìn)行脫敏后顯示,例如查詢的信息中包含一些敏感數(shù)據(jù)時,會將敏感數(shù)據(jù)先脫敏再將結(jié)果呈現(xiàn)出來,相當(dāng)于“邊查詢,邊脫敏”。
在大數(shù)據(jù)時代,個人的隱私保護(hù)永遠(yuǎn)是重中之重,現(xiàn)有的技術(shù)可以很大程度上保護(hù)用戶的隱私,但隨著時代的革新、技術(shù)的發(fā)展,隱私保護(hù)問題依然值得關(guān)注,我們需要不斷創(chuàng)新,在信息技術(shù)飛速發(fā)展的同時,保護(hù)自身的隱私不被泄露。
[1]曹春杰,吳漢煒.網(wǎng)絡(luò)空間概論[M]. 北京:電子工業(yè)出版社,2019.
[2]石瑞生,吳旭.大數(shù)據(jù)安全與隱私保護(hù)[M]. 北京:北京郵電大學(xué)出版社,2019.
[3]劉華楠,Liu,Huanan,等. 云存儲中數(shù)據(jù)完整性的可信第三方審計研究及進(jìn)展[J]. 河南科技,2017,20(326):52-55.
[4]方濱興,賈焰,李愛平,等. 大數(shù)據(jù)隱私保護(hù)技術(shù)綜述[J]. 大數(shù)據(jù),2016,2(01):1-18.
[5]張鋒軍. 大數(shù)據(jù)技術(shù)研究綜述[J]. 通信技術(shù),:2014(11):1240-1248.
[6]Q Wang,C Wang,J Li,et al. Enabling public verifiability and data dynamics for storage security in cloud computing[J]. European Conference on Research in Computer Security,2009(5):355-370.