国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)處理和分析中的隱私保護研究綜述

2019-03-02 03:19:50任雪斌楊新宇楊樹森
關(guān)鍵詞:直方圖差分噪聲

任雪斌,楊新宇,楊樹森,張 海

(1.西安交通大學(xué) 電子與信息工程學(xué)院, 陜西 西安 710049;2.西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院, 陜西 西安 710049;3.西北大學(xué) 數(shù)學(xué)學(xué)院,陜西 西安 710127)

隨著信息技術(shù),特別是互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算等新技術(shù)的發(fā)展,人類社會已然進入了大數(shù)據(jù)時代。據(jù)國際數(shù)據(jù)資訊(IDC)公司監(jiān)測統(tǒng)計,全世界的數(shù)據(jù)量大約以每兩年翻一番的速度增長。預(yù)計到2020年,全球?qū)碛兄辽?5ZB的數(shù)據(jù)量。著名的管理和咨詢公司麥肯錫認為“大數(shù)據(jù)已經(jīng)滲透到工業(yè)和商業(yè)領(lǐng)域的各個方面,成為影響生產(chǎn)的一個重要因素”。大數(shù)據(jù)正日益對全球生產(chǎn)、流通、分配、消費活動以及經(jīng)濟運行機制、社會生活方式和國家治理能力產(chǎn)生強烈沖擊。

大數(shù)據(jù)蘊含著現(xiàn)實世界中各個領(lǐng)域的碎片化信息,具有不可估量的潛在價值。隨著計算技術(shù)與分析方法的突破,分析和解讀這些大數(shù)據(jù)信息、挖掘其中的價值已成為可能。廣泛存在的大數(shù)據(jù)具有十分巨大的潛在價值:可以提供社會科學(xué)的方法論,支持基于數(shù)據(jù)的決策,助推管理科學(xué)與方法的革命;形成科學(xué)研究的新范式,支持基于數(shù)據(jù)的科學(xué)發(fā)現(xiàn),減少對精確模型與假設(shè)的依賴,使得過去不能解決的問題變得可能解決;形成高新科技的新領(lǐng)域,推動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、人工智能等行業(yè)的深化發(fā)展,形成大數(shù)據(jù)技術(shù)產(chǎn)業(yè);成為經(jīng)濟發(fā)展和社會進步的新引擎,深刻影響全球生產(chǎn)、流通、分配與消費模式,改變?nèi)祟惖乃季S、生產(chǎn)和生活方式,推動社會變革和進步。

對海量大數(shù)據(jù)的處理和分析給人們認識自身和世界帶來便利、給人們的生產(chǎn)生活提供各種服務(wù)的同時,也帶來了前所未有的隱私憂患。例如,互聯(lián)網(wǎng)上用戶個人資料、瀏覽痕跡、社交聯(lián)系很容易被記錄,物聯(lián)網(wǎng)下智能設(shè)備普遍集成了GPS、加速度、磁場、姿態(tài)、溫度、光線等各式傳感器,云計算環(huán)境下金融交易、電商數(shù)據(jù)統(tǒng)統(tǒng)被集中存儲。對這些敏感大數(shù)據(jù)的直接處理和分析,意味著人們的社交關(guān)系、喜好傾向、資產(chǎn)負債、日常行為、所處位置、周邊環(huán)境,甚至心跳、血壓等生理特征信息都可以成為被記錄和分析的數(shù)據(jù)[1]。這些關(guān)乎人自身或者環(huán)境的敏感信息如果被超出其目的地濫用或者在數(shù)據(jù)產(chǎn)生到消亡的生命周期內(nèi)無法得到有效保護,都可能會造成隱私的暴露[2],給人們的生命財產(chǎn)安全帶來威脅。一方面,數(shù)據(jù)采集的便利性和高價值,極大地刺激了人們進一步采集、存儲、循環(huán)利用個人數(shù)據(jù)的野心。另一方面,由于數(shù)據(jù)存儲成本的持續(xù)下降和數(shù)據(jù)分析工具的不斷發(fā)展,采集和存儲的數(shù)據(jù)量將爆發(fā)式地增長。

大數(shù)據(jù)處理和分析中的隱私問題會給各類數(shù)據(jù)提供者帶來潛在人身財產(chǎn)安全威脅,例如,已被證明可以通過用電大數(shù)據(jù)對住戶用電器使用情況進行分析,從而分析用戶的行為隱私,其識別準(zhǔn)確率可以高達85%以上[3],用戶隱私一旦被不法分子掌握,后果不堪設(shè)想。也因此,隱私問題還會引起民眾對各類大數(shù)據(jù)處理和分析系統(tǒng)安全性和合理性的懷疑,甚至造成民眾的抵觸心理,有很多組織和個人因為隱私擔(dān)憂和相關(guān)問題抵制各類大數(shù)據(jù)系統(tǒng)的建設(shè)[4],這無疑會阻礙大數(shù)據(jù)系統(tǒng)的建設(shè)實施和健康發(fā)展,妨礙大數(shù)據(jù)真正價值的發(fā)掘。因此,構(gòu)建具有隱私保護的大數(shù)據(jù)處理和分析算法在大數(shù)據(jù)時代具有強烈的緊迫性和嚴(yán)峻性。

圍繞敏感大數(shù)據(jù)的隱私保護這一主題,近年來,我們對隱私保護的數(shù)據(jù)發(fā)布和分析算法進行了大量研究。本文對數(shù)據(jù)隱私保護成果進行了總結(jié),重點對隱私保護的發(fā)展、隱私度量標(biāo)準(zhǔn)和模型,相關(guān)研究現(xiàn)狀、挑戰(zhàn)及前景進行重點闡述和分析,為后續(xù)研究人員提供參考和思路。

1 隱私保護技術(shù)手段

大數(shù)據(jù)隱私保護這一主題,伴隨著大數(shù)據(jù)處理和分析問題的出現(xiàn),受到了學(xué)術(shù)界、工業(yè)界以及政界的廣泛關(guān)注,各界也投入了大量的精力對其進行研究并積累了一定的研究成果,但是對于隱私問題分析和保護的研究還處于初級階段,實際上,包括有關(guān)隱私本身的定義、危害和保護原則等問題都尚處于發(fā)展階段,技術(shù)上隱私的形式化分析、量化衡量和保護方法更是發(fā)展較慢,很多相關(guān)研究都是借鑒傳統(tǒng)意義上小數(shù)據(jù)集的隱私保護策略。其研究主要還是針對靜態(tài)數(shù)據(jù)記錄的隱私性,因此其諸多隱私保護的基本概念、衡量指標(biāo)、保護原則都是由傳統(tǒng)數(shù)據(jù)庫中發(fā)展演變而來。因此,為了清晰地展現(xiàn)相關(guān)隱私保護技術(shù)的發(fā)展脈絡(luò),我們主要基于靜態(tài)數(shù)據(jù)庫介紹當(dāng)前隱私保護的研究現(xiàn)狀。隱私保護的現(xiàn)有研究按解決思路主要分為如下幾類:基于匿名的方法、基于加密的方法、基于干擾的方法、基于噪聲的方法和基于差分隱私的方法。

1.1 基于匿名技術(shù)的隱私保護

早期的很多隱私保護研究都采用基于匿名的方法來避免用戶身份被識別,而且初期的研究主要集中在靜態(tài)的數(shù)據(jù)庫中。較為常見的是避免身份泄露的K匿名(K-anonymity)[5]策略,其通過對準(zhǔn)標(biāo)識符進行泛化后,將數(shù)據(jù)記錄分為多個等價類,而要求每個等價類中包括至少K條記錄,從而保證單條記錄被推測連接的概率小于1/K,從而提供隱私保證。然而K匿名并未保證等價類中記錄的多樣性,會造成等價類之間明顯的差異,從而使得攻擊者可以根據(jù)準(zhǔn)標(biāo)識符對目標(biāo)對象的取值特性進行判定并獲取用戶隱私。為此,提出了L多樣性(L-diversity)[6]的模型,要求每個準(zhǔn)標(biāo)識符組中對應(yīng)的敏感屬性取值至少有L個代表性取值。針對L-多樣性中可能存在的偏斜攻擊問題,又提出了T-鄰近(T-closeness)[7]的匿名隱私保護模型,要求每個準(zhǔn)標(biāo)識符組中敏感屬性的分布與整個數(shù)據(jù)集中敏感屬性取值分布接近,進一步強化了隱私保護。

然而,匿名方法主要適用于參與者數(shù)量小,數(shù)據(jù)通過傳統(tǒng)訪問控制方法得到嚴(yán)格保管的應(yīng)用中,一般使用于封閉的場景中,例如,嚴(yán)格的生理信息采集監(jiān)測等電子醫(yī)療感知場景。而對于大型數(shù)據(jù)共享的場景中,匿名化方法則存在較大的隱私暴露風(fēng)險。已有研究表明,攻擊者能夠在背景知識的幫助下對匿名的數(shù)據(jù)集進行連接匹配,發(fā)起“連接攻擊”,唯一地確定用戶身份,從而侵犯隱私,例如Narayanan A等人證明了大量數(shù)據(jù)集下可以有效地進行反匿名和連接攻擊[8]。尤其是在智能感知系統(tǒng)這樣的大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的屬性維度急劇增加,普通的匿名策略遭受連接攻擊的可能性也呈指數(shù)級增長。

1.2 基于加密技術(shù)的隱私保護

加密技術(shù)一般可以提供可驗證的網(wǎng)絡(luò)安全,因此在數(shù)據(jù)匯聚中也得到廣泛關(guān)注和研究。數(shù)據(jù)匯聚中常用的加密技術(shù)包括:多方安全計算[9]、同態(tài)加密、秘密共享[10]、承諾機制、零知識證明、區(qū)塊鏈技術(shù)等。多方安全計算與同態(tài)加密均適用于多方數(shù)據(jù)聚合過程中,可以保證在多用戶密文上進行的操作有效映射到明文對應(yīng)的操作,從而在不揭露單個用戶記錄的基礎(chǔ)實現(xiàn)對數(shù)據(jù)整體操作。零知識證明則可以在不暴露具體記錄的情況下,提供相應(yīng)知識的證明,亦可用于隱私保護的相關(guān)機制設(shè)計中。區(qū)塊鏈?zhǔn)墙鼇磔^為熱門的技術(shù),其設(shè)計初衷和密碼學(xué)技術(shù)本身使之可以廣泛應(yīng)用于很多隱私保護問題當(dāng)中。

基于加密的技術(shù),雖然可以提供可驗證的數(shù)據(jù)安全,但是仍然具有應(yīng)用的局限性。通常,加密操作將會導(dǎo)致較大的計算開銷和能量消耗,給很多資源受限的分布式感知設(shè)備帶來很大負載,而且加密策略通常受限于某個具體的技術(shù),不同的數(shù)據(jù)和不同的應(yīng)用可能需要新的加密策略。最重要的是,加密策略通常僅僅保護了數(shù)據(jù)的機密性,而非真正意義的隱私。一方面,普通的信道加密策略事實上僅僅保證了數(shù)據(jù)傳輸?shù)臋C密性,可以抵御竊聽者的竊聽攻擊,但是數(shù)據(jù)最終仍會被解密接收并被傳遞到后續(xù)的數(shù)據(jù)處理環(huán)節(jié),例如,系統(tǒng)中不良的操作人員以及后續(xù)分析中的第三方用戶都可能訪問到解碼后的明文,使得用戶的隱私面臨極高的暴露風(fēng)險;另一方面,即使保證僅僅有統(tǒng)計數(shù)據(jù)結(jié)果被接收,在多樣化的數(shù)據(jù)處理和分析系統(tǒng)中,仍然不能有效保證用戶的隱私安全。最常見的就是差異攻擊方式[11],例如,數(shù)據(jù)分析過程中通過上述加密技術(shù)很容易準(zhǔn)確得到N個用戶數(shù)據(jù)的統(tǒng)計查詢結(jié)果,同理,N+1個用戶的統(tǒng)計查詢結(jié)果同樣也能獲得,通過比較這兩者間的差異,可以得到對第N+1個用戶數(shù)據(jù)有效推測,不能真正意義上保護用戶隱私。

1.3 基于噪聲技術(shù)的隱私保護

基于噪聲的保護技術(shù),通過注入隨機噪聲來保護用戶隱私,同時會使得數(shù)據(jù)失真,因此需要實現(xiàn)隱私和數(shù)據(jù)效用的折衷。該方法同樣具有開銷小,效率高等特點,而且更為靈活。此外,很多噪聲方法以分布式的方式在用戶原始數(shù)據(jù)上進行操作,能夠有效從源頭上保證用戶數(shù)據(jù)的隱私性。常見的隨機噪聲包括加和性噪聲、乘性噪聲和旋轉(zhuǎn)噪聲。例如,Agrawal等人首先提出將加和性噪聲用于隱私保護的數(shù)據(jù)挖掘中[12],Kim J等人則提出使用乘性噪聲隱藏連續(xù)數(shù)據(jù)[13], Liu K等人則進一步提出將乘性噪聲應(yīng)用于分布式數(shù)據(jù)挖掘中保護隱私[14]。Bohli J M等人證明了分布式節(jié)點通過添加同參數(shù)的高斯分布噪聲通過中心極限定理可以保證噪聲在數(shù)據(jù)匯聚后互相抵消到一個期望為零方差有限的誤差變量,從而保證誤差有限[15]。Lin H Y等人具體設(shè)計了一個智能儀表系統(tǒng)中的隱私保護機制,該機制通過向智能儀表系統(tǒng)中數(shù)據(jù)添加獨立的高斯噪聲以達到負載監(jiān)控的目的[16]。為了去除噪聲在關(guān)鍵計費中的誤差,作者還引入了加密策略來二次消解誤差,但是會導(dǎo)致大的計算開銷和負載。

1.4 基于差分隱私的隱私保護

早期噪聲保護方法的研究出發(fā)點還只是實現(xiàn)直觀的隱私效用折衷,從一定程度上并未形成有效的隱私保護范式和數(shù)學(xué)證明。為此,近來由著名學(xué)者Dwork C提出的差分隱私(differential privacy)有效解決了此問題[17]。差分隱私保護可以保證,在數(shù)據(jù)集中添加或刪除一條數(shù)據(jù)不會影響到查詢輸出結(jié)果,即無論特定個體記錄是否在數(shù)據(jù)集中,對該數(shù)據(jù)集的任意計算分析或查詢的結(jié)果在形式上不可區(qū)分因此,即使在最壞情況下,攻擊者已知除一條記錄之外的所有敏感數(shù)據(jù),仍可以保證這一條記錄的敏感信息不會被泄露。差分隱私,是一個具有數(shù)學(xué)可推導(dǎo)和可驗證的隱私范式,其保證相鄰數(shù)據(jù)集在數(shù)據(jù)匯聚函數(shù)的輸出結(jié)果非常相似甚至無法有效區(qū)分,從而防止攻擊者通過操縱匯聚結(jié)果來推測單個數(shù)據(jù),以達到保護用戶隱私的目的[18-19]。差分隱私可以通過拉普拉斯機制[18]、指數(shù)機制[20]和幾何機制[21]等實現(xiàn),較常見是通過拉普拉斯機制給匯聚結(jié)果添加根據(jù)全局敏感度校準(zhǔn)后的拉普拉斯噪聲實現(xiàn)差分隱私[18],其中全局敏感度反映了數(shù)據(jù)集中單個數(shù)據(jù)對數(shù)據(jù)分析結(jié)果能產(chǎn)生的最大差異。

差分隱私因為其嚴(yán)格的數(shù)學(xué)證明和靈活的組合特性,目前受到越來越多的關(guān)注,并逐步成為數(shù)據(jù)隱私保護的事實標(biāo)準(zhǔn),被廣泛應(yīng)用于各類數(shù)據(jù)分析和數(shù)據(jù)挖掘的隱私保護應(yīng)用中。因此,本文將重點以差分隱私為主要隱私保護理論和技術(shù)基礎(chǔ),對大數(shù)據(jù)處理和分析中的隱私保護技術(shù)進行總結(jié)分析。

2 差分隱私

差分隱私[17]給定相鄰數(shù)據(jù)集D和D′,二者互相之間至多相差一條記錄,即|DΔD′|≤1。給定一個隱私算法A,Range(A)為A的取值范圍,若算法A在數(shù)據(jù)集D和D′上任意輸出結(jié)果范圍S(其中,S?Range(A))滿足下列不等式,則算法A滿足ε-差分隱私,且其隱私性可以用參數(shù)ε進行衡量:

Pr[A(D)∈S]≤eεPr[A(D′)∈S]

其中,概率Pr[·]由算法A的隨機性控制,也表示隱私被披露的風(fēng)險;隱私預(yù)算參數(shù)ε表示隱私保護程度,ε越小隱私保護程度越高。由定義也可看出,差分隱私實際上限制了單個記錄對算法A輸出的影響,使得單個用戶記錄的差異導(dǎo)致的輸出影響非常小以至于使得攻擊者無法在兩個相鄰數(shù)據(jù)集合之間具有辨別優(yōu)勢。另外,還可以看出,要實現(xiàn)差分隱私的有效保護,還必須依賴隨機算法A,一方面,算法A的輸出具有一定的模糊性來保護隱私,另一方面,算法A還需要保證輸出范圍的精確性,也即數(shù)據(jù)的效用性。通常,實現(xiàn)差分隱私保護的算法A需要噪聲機制的實現(xiàn)。

敏感度(sensitivity) 為了達到差分隱私,標(biāo)準(zhǔn)的方法就是給正確的輸出結(jié)果中添加噪聲?;舅枷胧鞘褂锰砑拥脑肼晛黼[藏當(dāng)數(shù)據(jù)集中單個記錄改變時,輸出結(jié)果之間的差異。因此,添加噪聲的規(guī)模取決于輸出函數(shù)的敏感度,即就是在最多有一個數(shù)據(jù)記錄不同的數(shù)據(jù)集之間數(shù)據(jù)結(jié)果的最大差異[18]。分為全局敏感度和局部敏感度,定義如下。

定義1(全局敏感度) 對于給定的查詢函數(shù)f:Dn→Rd,f的Lp全局敏感度定義為

其中,數(shù)據(jù)集D和D′之間至多相差一條記錄。

定理1對于任意的f:D→Rd,當(dāng)λ=Δf/ε時,添加滿足拉普拉斯分布Lap(λ)的機制的輸出結(jié)果滿足ε-差分隱私[17]。

組合理論(composition theorem) 隱私保護機制面對復(fù)雜的應(yīng)用場景和多樣的查詢時需要組合地使用差分隱私保護機制。差分隱私的組合性質(zhì)可以用來分析差分隱私保護機制在不同組合方法下的性能變化情況。其中,差分隱私有兩個重要的組合性質(zhì)[18]。

定理3順序組合(sequential composition)假設(shè)每一個算法Agi提供εi-差分隱私,則數(shù)據(jù)庫D上的順序的Agi算法提供∑εi-差分隱私[18]。

定理4并行組合(parallel composition)假設(shè)每一個算法Agi提供εi-差分隱私,則一系列不相交數(shù)據(jù)集Di上的算法序列Agi提供εi-差分隱私[18]。

除了以上基本的差分隱私模型外,在針對連續(xù)動態(tài)數(shù)據(jù)的場景中還包括事件級隱私和用戶級隱私的高級模型,以及針對內(nèi)部攻擊而提出的泛隱私模型[22]。

1) 事件級隱私(event-level privacy):事件級隱私保證在連續(xù)監(jiān)測的情景中,若干時間點上某個事件是否發(fā)生的隱私,從而保護某個單一事件不被攻擊者猜測到。

2) 用戶級隱私(user-level privacy):用戶級隱私保證在連續(xù)監(jiān)測的情景中,由某個用戶導(dǎo)致發(fā)生的一系列事件的隱私都得到保護,從而使得攻擊者甚至無法推知某個用戶是否參與到了系統(tǒng)中。相對事件級隱私,用戶級隱私具有更好的隱私保護。

3) 泛隱私模型(pan privacy):針對隱私計算過程中可能產(chǎn)生的中間結(jié)果和內(nèi)部過程本身所帶來的隱私性,泛隱私模型提出同時使得計算的內(nèi)部狀態(tài)和外部輸出都保證隱私性。

3 基于差分隱私的大數(shù)據(jù)隱私保護算法研究

大數(shù)據(jù)隱私保護是指針對敏感性數(shù)據(jù),設(shè)計滿足差分隱私的敏感大數(shù)據(jù)發(fā)布和分析算法,以保護數(shù)據(jù)中個體的隱私而實現(xiàn)對大數(shù)據(jù)整體效用性的獲取[23-24]。大數(shù)據(jù)隱私保護的典型發(fā)布任務(wù)包括:直方圖、流數(shù)據(jù)、圖數(shù)據(jù)和軌跡數(shù)據(jù)的發(fā)布機制;大數(shù)據(jù)隱私保護的典型分析任務(wù)包括:聚類算法、判別分析及網(wǎng)絡(luò)數(shù)據(jù)的結(jié)構(gòu)學(xué)習(xí)等。接下來,本文重點對一些典型的基于差分隱私的數(shù)據(jù)發(fā)布任務(wù)與數(shù)據(jù)分析任務(wù)進行梳理總結(jié)。

3.1 基于差分隱私的大數(shù)據(jù)發(fā)布

直方圖是反映數(shù)據(jù)分布特性的重要統(tǒng)計信息, 差分隱私的直方圖發(fā)布旨在隱藏直方圖每個桶上的頻率, 其主要問題在于進行長范圍查詢時的過量累計噪聲。 為此, Hay等人[25]提出Boost1方法并利用一致性約束對發(fā)布結(jié)果進行約束推理的后置技術(shù)提升最終發(fā)布結(jié)果的準(zhǔn)確性。 而Xu等人[26]同時提出NoiseFirst和StructureFirst兩種方法。 前者先對直方圖添加噪聲后利用動態(tài)規(guī)劃技術(shù)合并近鄰相似的桶并最小化重構(gòu)目標(biāo)函數(shù); 而后者則先合并原始等寬直方圖中近鄰相似的桶以減小查詢敏感度后添加噪聲。 與StructureFirs類似, 先對直方圖自身結(jié)構(gòu)進行重新組織的方法還有Boost2[25]和P-HPartitionb[27], 前者利用mary樹重新組織和構(gòu)造直方圖的敏感性; 而后者[27]利用層次聚類自適應(yīng)地對桶進行分割直到最優(yōu)的合并桶個數(shù)。此外,文獻[28]使用基于小波的Privelet方法對原始等寬直方圖進行轉(zhuǎn)換,文獻[29]采用傅里葉變換有損壓縮直方圖。整體上,現(xiàn)有研究仍然著眼于小數(shù)據(jù)集的單一或較低維度直方圖發(fā)布,如何在大數(shù)據(jù)處理中,對多維甚至高維直方圖進行滿足差分隱私的準(zhǔn)確性發(fā)布仍是未來重要的研究問題。

流式數(shù)據(jù)發(fā)布的主要問題在于如何開采利用流中數(shù)據(jù)的相關(guān)性減小隱私預(yù)算的消耗。文獻[30]利用二叉樹結(jié)構(gòu)方法,文獻[31]提出權(quán)重衰減發(fā)布方法,文獻[32]提出DMFDA算法研究流數(shù)據(jù)的發(fā)布;文獻[33]針對{0,1}數(shù)據(jù)流提出了級聯(lián)緩沖計數(shù)器算法以自適應(yīng)地根據(jù)數(shù)據(jù)中“1”的出現(xiàn)頻率來決定流更新發(fā)布的時機以減小隱私預(yù)算消耗。文獻[34]提出了FAST機制,利用PID控制算法來自適應(yīng)更新差分隱私保護后數(shù)據(jù)流的結(jié)果并利用卡爾曼濾波對流數(shù)據(jù)效用性進一步進行提升。早期的流數(shù)據(jù)隱私保護主要關(guān)注于事件級隱私,即僅保護某個時間點事件是否發(fā)生,而卻無法保護某個用戶在多個事件中的用戶級隱私,尤其是無限數(shù)據(jù)流。為此,文獻[35]提出了新的ω-事件隱私的概念以保證無限流中ω長度的窗口內(nèi)的任何事件序列的隱私,并設(shè)計了相應(yīng)的隱私預(yù)算分配方案。而針對多維數(shù)據(jù)流間的相關(guān)性,文獻[36]提出了基于時空關(guān)系的實時數(shù)據(jù)流發(fā)布隱私保護機制RescueDP,其主要結(jié)合了FAST和ω-事件隱私的概念,并利用了多維數(shù)據(jù)流間的相似性進行動態(tài)分組以降低小數(shù)值維度的擾動噪聲。目前,流數(shù)據(jù)發(fā)布中的隱私保護仍停留在對簡單同質(zhì)數(shù)據(jù)流的處理,對于更為復(fù)雜的高維異質(zhì)數(shù)據(jù)流的隱私保護也存在著相當(dāng)?shù)碾y度。

圖數(shù)據(jù)的發(fā)布廣泛應(yīng)用于社交網(wǎng)絡(luò)分析中,其中社交用戶的隱私自然成為了參與者的重要關(guān)切。針對圖數(shù)據(jù)發(fā)布中的差分隱私研究,主要分為邊差分隱私和節(jié)點差分隱私。邊差分隱私保證發(fā)布結(jié)果不會泄露圖中是否包含某條邊。文獻[37]最先研究了在邊差分隱私的保證下計算社交網(wǎng)絡(luò)圖中的三角關(guān)系并提出利用局部敏感度來校準(zhǔn)子圖計數(shù)中的噪聲。文獻[38]等則在此基礎(chǔ)上進一步研究了對ε差分隱私的K-三角計數(shù)和滿足(ε,δ)差分隱私的K-星型關(guān)系計數(shù)。文獻[39]指出原始圖相似的并具有特定統(tǒng)計特性的同構(gòu)圖可以用于發(fā)布對原始圖的準(zhǔn)確查詢,并利用指數(shù)機制來搜索大量原始子圖的同構(gòu)圖以發(fā)布子圖查詢。類似地,文獻[40]則使用基于密度的方法重構(gòu)原圖。節(jié)點差分隱私保證了單個節(jié)點是否在圖中的不可區(qū)分性,其比邊差分隱私的定義要更為嚴(yán)格,并且由單個節(jié)點改變造成的敏感度通常與圖的規(guī)模成正比。一般而言,許多統(tǒng)計查詢在節(jié)點度數(shù)比較小的圖中具有較小的敏感度,因此文獻[41-42]提出了將原始圖中超過給定度數(shù)門限的節(jié)點移除而轉(zhuǎn)化為一個低度數(shù)限定的新圖進行發(fā)布實現(xiàn)節(jié)點差分隱私。文獻[43]研究了利用映射的思想并結(jié)合累積直方圖和直方圖合并的方法降低敏感度,從而在節(jié)點差分隱私的保證下發(fā)布圖中節(jié)點的度分布。文獻[44]則提出了節(jié)點差分隱私的迭代機制,利用遞歸的方法迭代返回任何類型子圖的差分隱私計數(shù)結(jié)果,然而該方法通常是NP-難問題,實現(xiàn)高效的節(jié)點差分隱私仍然十分困難。

合成數(shù)據(jù)發(fā)布方法,不同于直接發(fā)布一大批隱私保護后的查詢結(jié)果,而是通過發(fā)布一個隱私保護后的近似數(shù)據(jù)集供大批量查詢。早期的研究將匿名泛化技術(shù)應(yīng)用到非交互環(huán)境下來實現(xiàn)差分隱私保護,如文獻[45-46]利用決策樹構(gòu)建算法來實現(xiàn)差分隱私保護數(shù)據(jù)發(fā)布。文獻[47-48]則提出機器學(xué)習(xí)的過程可以用于數(shù)據(jù)集的發(fā)布,如文獻[47]提出了利用指數(shù)機制不斷搜索逼近在特定查詢集合上有較高查詢精度的合成數(shù)據(jù)集。文獻[49]則結(jié)合指數(shù)機制和乘性權(quán)重迭代的方式快速獲得近似最優(yōu)的合成數(shù)據(jù)集。文獻[50]提出了使用Copula函數(shù)對高維數(shù)據(jù)的聯(lián)合概率分布進行擬合,不過,Copula函數(shù)無法處理值域較小的屬性,從而限制了其實際應(yīng)用。而且,前述的方法都面臨算法復(fù)雜度高的問題[51-52],指出時間開銷通常和數(shù)據(jù)規(guī)模和查詢集合規(guī)模成指數(shù)增加,而且隨著屬性維度不斷增高,這些方法都存在著擴展性差和低信噪比的問題,從而嚴(yán)重影響高維數(shù)據(jù)直方圖發(fā)布的效用性,因而都難以處理高維數(shù)據(jù)集合的發(fā)布。為此,近來部分?jǐn)?shù)據(jù)合成發(fā)布工作致力于對高維數(shù)據(jù)進行降維處理然后進行發(fā)布,如文獻[51]提出了基于貝葉斯網(wǎng)絡(luò)建模的高維數(shù)據(jù)發(fā)布機制Privbayes,計算屬性和父屬性集的相關(guān)性從而建模出一個貝葉斯網(wǎng)絡(luò)來分析維間相關(guān)性并進行降維處理。文獻[52]在Privbayes的基礎(chǔ)上,提出了根據(jù)概率分布來計算屬性維度中任意兩維之間基于互信息的相關(guān)性,并通過依賴圖和聯(lián)合樹等圖結(jié)構(gòu)來建模以確定相關(guān)性從而進行降維然后發(fā)布。文獻[53]還提出了一種基于分布式多方計算的高維數(shù)據(jù)發(fā)布機制能夠從多個數(shù)據(jù)服務(wù)器上進行聯(lián)合數(shù)據(jù)發(fā)布。進一步,文獻[54]提出了一種滿足本地差分隱私的高維群智感知數(shù)據(jù)合成發(fā)布機制,有效解決了群智感知場景下參與節(jié)點對中心服務(wù)器隱私不信任的難題。以上工作雖可以勉強對高維數(shù)據(jù)進行處理,但是效率仍然低下,通常會消耗大量的隱私預(yù)算,而且一般僅適用于列聯(lián)表查詢,對多種復(fù)雜查詢支持度并不好。因此,研究和設(shè)計大數(shù)據(jù)時代支持大量通用查詢的高效非交互隱私保護的高維數(shù)據(jù)發(fā)布機制仍面臨極大挑戰(zhàn)。

3.2 基于差分隱私的大數(shù)據(jù)分析

針對基于差分隱私的聚類分析,文獻[37]提出Sample-and-Aggregate框架實現(xiàn)了滿足(ε,δ)-差分隱私的PK-means算法。該方法先隨機將訓(xùn)練集分為若干個子集,在每個子集上運行K-means算法,得到若干結(jié)果,后采用平滑敏感度方法輸出滿足差分隱私的聚類結(jié)果。基于此,文獻[55]在子空間聚類中引入Laplace和Exponential機制以實現(xiàn)差分隱私。文獻[56]采用Johnson-Lindenstrauss變換來保證子空間聚類算法的差分隱私。此外,對于高斯混合的聚類問題常用EM算法實現(xiàn)。文獻[57]指出若混合模型的聯(lián)合分布滿足指數(shù)族,則EM算法的每次參數(shù)更新由充分統(tǒng)計量的期望(即矩)完全決定,且矩的敏感度有界,因此可在每次迭代中加入Laplace或Gaussian噪聲實現(xiàn)EM算法的差分隱私。針對大規(guī)模數(shù)據(jù),需要設(shè)計高效、可行算法。

對于一般線性回歸和Logistic回歸問題,文獻[58]提出函數(shù)機制FM來實現(xiàn)差分隱私。任意連續(xù)可微的目標(biāo)函數(shù)均可寫為多項式形式,FM通過擾動多項式系數(shù)來實現(xiàn)隱私保護;對正則化Logistic回歸和正則化SVM差分隱私可統(tǒng)一到經(jīng)驗風(fēng)險最下化(ERM)差分隱私框架下。文獻[59]通過輸出擾動和目標(biāo)擾動實現(xiàn)ERM差分隱私,輸出擾動方法即在算法結(jié)果上添加服從Gamma分布的擾動,目標(biāo)擾動方法即在優(yōu)化目標(biāo)中添加服從Gamma分布的噪聲,但兩種方法均要求強凸及可微,對于SVM不可微的Hinge損失可通過可微的損失函數(shù)來逼近?;诖?文獻[60]將ERM差分隱私擴展到懲罰函數(shù)不可微的情形;對于核方法,文獻[61]提出對再生核希爾伯特空間(RKHS)上所有核函數(shù)均滿足的隱私Kernal SVM算法;對于決策樹的差分隱私,文獻[62]在SuLQ平臺開發(fā)了第一個差分隱私?jīng)Q策樹算法,基于此,文獻[63]在屬性選擇過程中引入Exponential機制,文獻[64]提出隨機決策樹的隱私保護算法。對于在線學(xué)習(xí)的差分隱私,文獻[65]通過對敏感度有界的在線凸規(guī)劃(OCP)算法的每次迭代結(jié)果中添加Gaussian噪聲來達到隱私保護。針對分布式場景,通過對算法輸出結(jié)果擾動實現(xiàn)差分隱私的Logistic回歸,進一步,針對通信過程中可能的隱私泄露,通過對算法迭代過程加噪的方式提出了分布式Logistic變量擾動算法。顯然,關(guān)于此領(lǐng)域隱私保護學(xué)習(xí)算法尚處于初始階段。

基于差分隱私的因果分析:因果分析的最典型總結(jié)是深度學(xué)習(xí)問題及算法。文獻[66]通過將損失函數(shù)定義為不匹配訓(xùn)練集的懲罰,在深度學(xué)習(xí)算法中應(yīng)用目標(biāo)擾動實現(xiàn)隱私保護。由于損失函數(shù)是非凸的,因此采用小批量隨機梯度下降算法,且在每步更新中加入噪聲。文獻[67]設(shè)計了一個分布式深度學(xué)習(xí)模型訓(xùn)練系統(tǒng),使多方共同學(xué)習(xí)一個精確的神經(jīng)網(wǎng)絡(luò)。并用隱私隨機梯度下降算法來實現(xiàn)(ε,δ)-差分隱私。文獻[68]擾動了傳統(tǒng)的深度自動編碼器的目標(biāo)函數(shù),并采用Laplace機制來實現(xiàn)滿足隱私保護的深度自動編碼器算法。

基于差分隱私的隱變量分析:典型問題如特征提取、降維表示、稀疏表示等。主成分分析(PCA)是常用的降維方法,即找到數(shù)據(jù)投影方差最大的k個正交方向。文獻[69]提出一個主成分分析的差分隱私機制。由于對稱矩陣A的第一特征向量v是使vTAv最大的單位長度向量,該方法使用H(X,v)=vTAv作為Exponential機制中的得分函數(shù)從集合{v:vTv=1}中選擇第一特征向量,并通過迭代依次計算k個最大特征向量。不同于此,文獻[70]基于Exponential機制提出PPCA算法可同時選取k個最大特征向量。對于差分隱私下的特征提取問題,文獻[71]基于Exponential機制提出一個滿足ε-差分隱私的特征選擇算法PrivateKD,但該方法要求特征均定性且每個特征取有限個值。

4 挑戰(zhàn)與展望

基于差分隱私的敏感大數(shù)據(jù)發(fā)布和分析問題中的隱私保護具有重要的理論價值和現(xiàn)實意義,然而,現(xiàn)有的研究仍然主要面向?qū)傩跃S度較少的靜態(tài)小數(shù)據(jù)集,真正實現(xiàn)很多大數(shù)據(jù)處理和分析問題中的隱私保護仍然面臨著不小挑戰(zhàn)。特別是,相對于傳統(tǒng)的數(shù)據(jù)處理和分析時代,在大數(shù)據(jù)時代,數(shù)據(jù)的體量、生成速度和數(shù)據(jù)維度等多個方面的大數(shù)據(jù)特性都將更為嚴(yán)重地威脅用戶的隱私,并帶來極大的隱私保護挑戰(zhàn),具體表現(xiàn)在以下3方面:

1) 數(shù)據(jù)體量大,是指大數(shù)據(jù)時代敏感數(shù)據(jù)的量級也隨之急劇增多,以社交化關(guān)系組織的人參與的社交網(wǎng)絡(luò)和以標(biāo)識到每個物體為目標(biāo)的物聯(lián)網(wǎng),使得所有人和物的信息都可能會被采集。隨著手機等日常生活設(shè)備逐步成為物聯(lián)網(wǎng)中最廣泛、最便利的感知終端,與個人息息相關(guān)的數(shù)據(jù)和信息被廣泛地感知和在線分享,造成有意識或無意識的隱私暴露[72]。例如,ACM CCS 2013上的文章[73]驗證了智能手機中最低權(quán)限的公共資源都會暴露用戶的隱私,可用于追蹤和定位發(fā)現(xiàn)用戶。

2) 數(shù)據(jù)生成速度快,體現(xiàn)在大數(shù)據(jù)時代敏感數(shù)據(jù)在隨時間劇增和精度不斷提高造成全新的隱私威脅。如美國和歐洲部署的智能電表每6s采集一個實時讀數(shù),智能電表每天采集的數(shù)據(jù)的量和粒度遠遠超出傳統(tǒng)抄表信息的量和粒度,電器本身獨特的負載特征使得攻擊者可以通過電量消耗情況遠程監(jiān)控住戶的電器使用規(guī)律,從而推測用戶的日常行為習(xí)慣、在家/外出等行為隱私[74-75]。

3) 數(shù)據(jù)的維度多并不斷拓寬會造成很多現(xiàn)有隱私保護技術(shù)的失效。在具有多屬性維的敏感數(shù)據(jù)處理和分析場景中,通過對多來源數(shù)據(jù)的內(nèi)容進行交叉校驗,隱私攻擊者可以從中獲取異常豐富且難以隔離的信息繼而突破現(xiàn)有隱私保護策略(如告知許可、模糊化、匿名化)的藩籬。例如,匿名化方法對用戶的姓名、標(biāo)識、ID等敏感信息隱藏可以達到隱私保護的效果,然而隨著數(shù)據(jù)維度的增加,已有研究結(jié)果證明通過對多個非ID的屬性信息進行關(guān)聯(lián)分析可以唯一地標(biāo)識單個用戶[8]。

可見,對于敏感大數(shù)據(jù)的隱私保護,仍然面臨諸多大數(shù)據(jù)時代的難點。同時,這也表明敏感度大數(shù)據(jù)處理和分析中的隱私保護又具有廣闊的空間。因此,有必要針對大數(shù)據(jù)體量巨大、數(shù)據(jù)生成速度快和數(shù)據(jù)屬性維度高的特性,展開真正適用于大數(shù)據(jù)時代的敏感大數(shù)據(jù)隱私保護技術(shù)的研究。

首先,針對敏感大數(shù)據(jù)規(guī)模體量大的特點,可以考慮對數(shù)據(jù)分塊,以“分而治之”的思想對分塊的數(shù)據(jù)進行并行化的隱私保護處理,在保證效用隱私均衡的前提下,達到提升隱私保護算法并行可擴展的目的。其中,關(guān)鍵的問題在于分塊的數(shù)據(jù)間如何進行通信共享全局信息,保證隱私保護算法的準(zhǔn)確性。

其次,針對敏感大數(shù)據(jù)生成速度快的特點,一方面可以考慮建立新的時序場景或者流場景的隱私保護模型,適當(dāng)放松差分隱私的強隱私保證要求。另一方面,可以對數(shù)據(jù)流進行適當(dāng)?shù)牟蓸踊蝾A(yù)測,降低隱私預(yù)算的快速消耗[76]。

此外,針對敏感大數(shù)據(jù)屬性維度高的特點,可以考慮對數(shù)據(jù)模型的分塊降維,在盡可能不破壞數(shù)據(jù)原始特征的情況下,對數(shù)據(jù)進行降維分組,從而在克服高維數(shù)據(jù)隱私保護算法過程的復(fù)雜性和低效用性問題。

最后,包括隱私保護理論很多根本性的東西也需要進一步研究,使之更為符合大數(shù)據(jù)時代多樣性的特點。例如,如何降低其統(tǒng)一隱私安全標(biāo)準(zhǔn),達到個性化隱私保護;如何適應(yīng)數(shù)據(jù)中的異常點帶來的過大數(shù)據(jù)敏感性問題。更重要的是,如何針對不同的應(yīng)用場景特性,例如,醫(yī)療大數(shù)據(jù)、生物信息大數(shù)據(jù)、社交網(wǎng)絡(luò)大數(shù)據(jù)、物聯(lián)網(wǎng)大數(shù)據(jù)等,建立起符合不同行業(yè)規(guī)范和處理分析需要的隱私保護算法及其應(yīng)用實現(xiàn)。

猜你喜歡
直方圖差分噪聲
統(tǒng)計頻率分布直方圖的備考全攻略
符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
數(shù)列與差分
噪聲可退化且依賴于狀態(tài)和分布的平均場博弈
用直方圖控制畫面影調(diào)
控制噪聲有妙法
基于直方圖平移和互補嵌入的可逆水印方案
計算機工程(2015年8期)2015-07-03 12:20:21
基于差分隱私的大數(shù)據(jù)隱私保護
一種基于白噪聲響應(yīng)的隨機載荷譜識別方法
相對差分單項測距△DOR
太空探索(2014年1期)2014-07-10 13:41:50
石景山区| 博客| 南投市| 东港市| 刚察县| 永平县| 德州市| 北宁市| 越西县| 辽阳县| 普格县| 阳曲县| 新密市| 乌什县| 蓬安县| 淳化县| 温宿县| 隆子县| 香格里拉县| 来安县| 民权县| 广饶县| 武强县| 综艺| 城步| 肇庆市| 南和县| 喜德县| 郁南县| 临泉县| 特克斯县| 长丰县| 凤庆县| 锡林郭勒盟| 东乡族自治县| 玉溪市| 芷江| 原平市| 北宁市| 冀州市| 板桥市|