王有剛 徐勇 王澤成 周善英
云環(huán)境數(shù)據(jù)發(fā)布服務(wù)中隱私保護(hù)相關(guān)技術(shù)研究
〔摘 要〕云計(jì)算環(huán)境下數(shù)據(jù)庫(kù)服務(wù)應(yīng)用系統(tǒng)中的隱私保護(hù)問(wèn)題是影響組織是否選擇相關(guān)服務(wù)的重要因素之一,本文界定了云計(jì)算數(shù)據(jù)庫(kù)服務(wù)應(yīng)用系統(tǒng)架構(gòu);分析了基于密碼學(xué)理論實(shí)現(xiàn)訪問(wèn)控制方法的不足,探討了云計(jì)算環(huán)境下支持多管理域合成的訪問(wèn)控制模型;研究了云計(jì)算環(huán)境數(shù)據(jù)動(dòng)態(tài)變化場(chǎng)景下的用戶隱私保護(hù)問(wèn)題;介紹了經(jīng)典數(shù)據(jù)發(fā)布模型,對(duì)比了發(fā)布數(shù)據(jù)效用度量方法。最后指出云計(jì)算環(huán)境數(shù)據(jù)發(fā)布服務(wù)中隱私保護(hù)的熱點(diǎn)研究方向。
〔關(guān)鍵詞〕云計(jì)算;數(shù)據(jù)發(fā)布;隱私保護(hù);k-匿名
DOI:10.3969/j.issn.1008-0821.2012.12.001
〔中圖分類號(hào)〕TP391 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821(2012)12-0003-05
云計(jì)算在現(xiàn)有技術(shù)、方法的基礎(chǔ)上,整合諸多資源,為用戶提供無(wú)限制的、可伸縮的、易獲得的IT資源服務(wù),是目前信息領(lǐng)域的熱門課題之一。云環(huán)境下的數(shù)據(jù)發(fā)布服務(wù)(Data Releasing)是云平臺(tái)服務(wù)[1-2]的重要內(nèi)容之一,逐漸受到國(guó)內(nèi)外學(xué)者越來(lái)越多的關(guān)注。相對(duì)于傳統(tǒng)服務(wù)模式將信息保存在數(shù)據(jù)所有者可控的計(jì)算機(jī)系統(tǒng)范圍內(nèi),云環(huán)境下數(shù)據(jù)所有者把作為其重要資產(chǎn)的數(shù)據(jù)發(fā)布到“云”中時(shí),用戶數(shù)據(jù)管理方式由傳統(tǒng)的自己擁有和完全掌控格局轉(zhuǎn)變?yōu)樽庥糜傻谌教峁┪锢淼暮吞摂M的基礎(chǔ)設(shè)施資源的方式,這就意味著敏感數(shù)據(jù)將存儲(chǔ)在不受數(shù)據(jù)所有者控制的外部系統(tǒng)中,顯然這將會(huì)帶來(lái)一系列的安全問(wèn)題,云計(jì)算數(shù)據(jù)發(fā)布服務(wù)中如何在保持?jǐn)?shù)據(jù)具有足夠效用的同時(shí),保護(hù)數(shù)據(jù)主體身份信息的隱私性正日益成為其中的一個(gè)重要內(nèi)容[1,3-5]。
由于云計(jì)算與效用計(jì)算、分布式或網(wǎng)格計(jì)算等模式在用戶接口、體系結(jié)構(gòu)和系統(tǒng)自治性等方面存在顯著的區(qū)別,通過(guò)密碼學(xué)、集中系統(tǒng)訪問(wèn)控制等常規(guī)技術(shù)保護(hù)敏感數(shù)據(jù)的隱私,如:用戶訪問(wèn)模式,逐漸顯得力不從心了[6]。正如EMC信息安全部RSA和歐洲信息安全署ENISA等指出,數(shù)據(jù)的私密性和安全性以及服務(wù)的穩(wěn)定性已成為用戶考慮是否使用云服務(wù)和如何選擇云提供商的關(guān)鍵衡量指標(biāo)[7-9]。
1998年P(guān)Samarati[10]用實(shí)驗(yàn)數(shù)據(jù)證明了攻擊者將發(fā)布數(shù)據(jù)中的某些非標(biāo)識(shí)信息與從其它渠道獲得的數(shù)據(jù)進(jìn)行鏈接,可能會(huì)造成個(gè)體隱私信息的泄露。2000年Agrawal等指出數(shù)據(jù)庫(kù)隱私保護(hù)的10條規(guī)則(Ten Principles)[11]。2002年Sweeny等提出適用于數(shù)據(jù)發(fā)布過(guò)程隱私信息泄露的k-匿名模型[12-13]。在此之后,國(guó)內(nèi)外很多學(xué)者從多個(gè)不同的角度和層面對(duì)微觀數(shù)據(jù)匿名隱私保護(hù)方法展開了研究,取得了許多重要的研究成果[14]。
1 云計(jì)算環(huán)境下數(shù)據(jù)庫(kù)服務(wù)中的訪問(wèn)控制
云計(jì)算是一種利用互聯(lián)網(wǎng)實(shí)現(xiàn)隨時(shí)隨地、按需、便捷地訪問(wèn)共享資源池(如計(jì)算設(shè)施、存儲(chǔ)設(shè)備、應(yīng)用程序等)的計(jì)算模式。計(jì)算機(jī)資源服務(wù)化是云計(jì)算重要的表現(xiàn)形式,它為用戶屏蔽了數(shù)據(jù)中心管理、大規(guī)模數(shù)據(jù)處理、應(yīng)用程序部署等問(wèn)題。通過(guò)云計(jì)算,用戶可以根據(jù)其業(yè)務(wù)負(fù)載快速申請(qǐng)或釋放資源,并以按需支付的方式對(duì)所使用的資源付費(fèi),在提高服務(wù)質(zhì)量的同時(shí)降低運(yùn)維成本[15]。數(shù)據(jù)庫(kù)服務(wù)作為一種新的基于云計(jì)算平臺(tái)的網(wǎng)絡(luò)數(shù)據(jù)管理模式能夠滿足組織需求、提供像本地?cái)?shù)據(jù)庫(kù)一樣的數(shù)據(jù)管理服務(wù)。然而,由于越來(lái)越多的數(shù)據(jù)涉及敏感信息,如醫(yī)療記錄、交易信息、證券信息、財(cái)務(wù)信息等,組織對(duì)于數(shù)據(jù)庫(kù)隱私信息泄露問(wèn)題越來(lái)越重視[16]。一個(gè)典型的云計(jì)算數(shù)據(jù)庫(kù)服務(wù)應(yīng)用系統(tǒng)通常由4部分組成:(1)數(shù)據(jù)所有者(data owner),指產(chǎn)生數(shù)據(jù)并將數(shù)據(jù)交給云服務(wù)提供商管理的個(gè)人或組織;(2)數(shù)據(jù)用戶(user),指提交數(shù)據(jù)查詢等請(qǐng)求的實(shí)體,可以是個(gè)人、應(yīng)用程序等;(3)客戶端(client),指完成用戶提交的查詢與適合于在云計(jì)算平臺(tái)上執(zhí)行的查詢之間等價(jià)轉(zhuǎn)換的應(yīng)用程序或函數(shù);(4)云計(jì)算服務(wù)運(yùn)營(yíng)商(server),指提供數(shù)據(jù)庫(kù)服務(wù)的組織及其云計(jì)算平臺(tái)。在云計(jì)算平臺(tái)下,提出數(shù)據(jù)發(fā)布服務(wù)請(qǐng)求的主體將其數(shù)據(jù)發(fā)布至云計(jì)算平臺(tái),相關(guān)數(shù)據(jù)的存儲(chǔ)、處理和保護(hù)等操作,都在“云”中完成,這樣不可避免地會(huì)產(chǎn)生數(shù)據(jù)安全、用戶隱私泄露等問(wèn)題。
2012年12月第32卷第12期現(xiàn)?代?情?報(bào)Journal of Modern InformationDec,2012Vol32 No122012年12月第32卷第12期云環(huán)境數(shù)據(jù)發(fā)布服務(wù)中隱私保護(hù)相關(guān)技術(shù)研究Dec,2012Vol32 No12不同于傳統(tǒng)的本地?cái)?shù)據(jù)管理模式,云計(jì)算環(huán)境數(shù)據(jù)發(fā)布服務(wù)模式中,數(shù)據(jù)的訪問(wèn)控制、用戶隱私、機(jī)密性、完整性等概念被賦予了新的含義;并且也產(chǎn)生了一些新的安全問(wèn)題,如在云計(jì)算環(huán)境中,數(shù)據(jù)發(fā)布服務(wù)可以有隸屬不同安全管理域的服務(wù)提供商提供,每個(gè)安全域都管理著本地的資源和應(yīng)用,當(dāng)用戶提交服務(wù)請(qǐng)求時(shí)需在域邊界設(shè)置認(rèn)證服務(wù)對(duì)訪問(wèn)共享資源的用戶進(jìn)行統(tǒng)一的身份認(rèn)證管理;各域也都有自己的訪問(wèn)控制策略,在進(jìn)行資源共享和保護(hù)時(shí)必須對(duì)共享資源制定一個(gè)公共的、雙方都認(rèn)同的訪問(wèn)控制策略,因此,云計(jì)算環(huán)境需要支持訪問(wèn)控制策略的合成。關(guān)于訪問(wèn)控制策略合成問(wèn)題最早由Mclean在強(qiáng)制訪問(wèn)控制框架下提出,他將兩個(gè)安全格合成一個(gè)新的格結(jié)構(gòu)構(gòu)建了一個(gè)基于強(qiáng)制訪問(wèn)控制策略的合成框架[17]。但是Mclean沒(méi)有進(jìn)一步驗(yàn)證合成之后訪問(wèn)控制策略的安全性問(wèn)題、以及新合成的訪問(wèn)控制策略與各個(gè)域原來(lái)的訪問(wèn)控制策略的兼容性問(wèn)題。為此,Bonatti提出了一個(gè)訪問(wèn)控制策略合成代數(shù),用形式化的方法描述、分析了合成策略的安全性[18]。對(duì)于多安全域?qū)嶓w間的授權(quán)關(guān)系,林莉通過(guò)屬性值的計(jì)算結(jié)構(gòu)擴(kuò)展了現(xiàn)有的策略合成代數(shù),提出了新的基于屬性的策略合成代數(shù)模型。但是該模型存在兩點(diǎn)不足:首先,沒(méi)有區(qū)分隱私屬性和一般屬性的差異性訪問(wèn)控制問(wèn)題。其次,沒(méi)有考慮云計(jì)算環(huán)境下不同自治域異構(gòu)系統(tǒng)上的訪問(wèn)控制策略協(xié)商[19]。云計(jì)算環(huán)境下,研究者關(guān)注較多的是基于密碼學(xué)理論實(shí)現(xiàn)訪問(wèn)控制的方法[20]。基于密碼類方案面臨的一個(gè)重要問(wèn)題是權(quán)限撤銷,一種有效的解決方案是為密鑰設(shè)置失效時(shí)間,每隔一定時(shí)間用戶從認(rèn)證中心更新私鑰,并引入一個(gè)在線的半可信第三方維護(hù)授權(quán)列表[21]?;诿艽a的數(shù)據(jù)庫(kù)服務(wù)訪問(wèn)控制策略還存在可擴(kuò)展性問(wèn)題,對(duì)此Yu等綜合基于屬性的加密方法(Attribute-based Encryption,ABE)、代理重加密和懶惰重加密方法提出一種細(xì)粒度外包數(shù)據(jù)訪問(wèn)控制策略[22]。Vimercati等提出了一個(gè)訪問(wèn)控制實(shí)施及其進(jìn)化(evolution)管理的解決方法,以選擇性加密作為實(shí)現(xiàn)授權(quán)管理的基礎(chǔ),研究了適應(yīng)授權(quán)策略動(dòng)態(tài)變化場(chǎng)合的應(yīng)用方案[23]。加密是一種常用的保護(hù)敏感數(shù)據(jù)的方法,但是不支持有效的數(shù)據(jù)操作,因此黃汝維等設(shè)計(jì)了一個(gè)基于矩陣和向量運(yùn)算的可計(jì)算加密方案CESVMC,將云數(shù)據(jù)分為字符串和數(shù)值數(shù)據(jù)兩大類,通過(guò)運(yùn)用向量和矩陣的各種運(yùn)算,實(shí)現(xiàn)對(duì)數(shù)據(jù)的加密,支持對(duì)加密字符串的模糊檢索和對(duì)加密數(shù)值數(shù)據(jù)的加、減、乘、除4種算術(shù)運(yùn)算并保證數(shù)據(jù)存儲(chǔ)和運(yùn)算過(guò)程的隱私安全性。CESVMCF方案中乘除法運(yùn)算的性能仍需改進(jìn),并且該方案不支持多次乘/除法運(yùn)算。這顯然限制了該加密方案在實(shí)際云平臺(tái)數(shù)據(jù)庫(kù)服務(wù)中的應(yīng)用[24]。
近年來(lái),云計(jì)算環(huán)境數(shù)據(jù)動(dòng)態(tài)變化場(chǎng)景下的用戶隱私保護(hù)問(wèn)題[16]逐漸引起人們的關(guān)注,張逢?等利用虛擬機(jī)監(jiān)控器保證參與計(jì)算的云中數(shù)據(jù)的隱私安全,在用戶指定的時(shí)間點(diǎn),內(nèi)存中的數(shù)據(jù)以及用戶密鑰將被強(qiáng)制銷毀[25]。但是張逢?提出的隱私保護(hù)模型Dissolver存在一個(gè)假設(shè)前提:虛擬機(jī)監(jiān)控器是可信的,而事實(shí)上虛擬機(jī)監(jiān)控器仍然存在被攻擊的可能;其次云平臺(tái)中參與計(jì)算的數(shù)據(jù)必須以明文形式才能參與計(jì)算,其中的加解密過(guò)程的效率是一個(gè)重要的問(wèn)題。云計(jì)算環(huán)境下現(xiàn)有的隱私保護(hù)方案大多面向用戶可用數(shù)據(jù)的保護(hù)而忽視了個(gè)人身份信息的保護(hù)。毛劍等針對(duì)用戶身份信息保護(hù)提出基于可信服務(wù)器的云存儲(chǔ)架構(gòu),實(shí)現(xiàn)數(shù)據(jù)存儲(chǔ)和用戶個(gè)人信息管理隔離[26]。云服務(wù)器利用可信服務(wù)器提供的存儲(chǔ)認(rèn)證碼判斷用戶的存儲(chǔ)權(quán)限,用戶的身份信息存儲(chǔ)于可信服務(wù)器。但是可信服務(wù)器對(duì)用戶隱私信息的威脅問(wèn)題沒(méi)有考慮;經(jīng)過(guò)二次混淆的數(shù)據(jù)分割方案將會(huì)使得數(shù)據(jù)的可用度大為降低。
綜上所述,由于在云計(jì)算平臺(tái)下服務(wù)商未必會(huì)忠實(shí)實(shí)施安全訪問(wèn)控制策略,所以傳統(tǒng)單服務(wù)器上的訪問(wèn)控制策略研究成果都無(wú)法直接應(yīng)用于云計(jì)算平臺(tái);其次,已有關(guān)于云計(jì)算環(huán)境下數(shù)據(jù)訪問(wèn)控制策略研究工作的側(cè)重點(diǎn)是對(duì)數(shù)據(jù)機(jī)密性的保護(hù),較少考慮用戶個(gè)人身份隱私的保護(hù)問(wèn)題。所以需要進(jìn)一步研究在云計(jì)算環(huán)境下實(shí)施外包數(shù)據(jù)對(duì)象的訪問(wèn)控制,實(shí)現(xiàn)對(duì)數(shù)據(jù)機(jī)密性和用戶隱私信息的保護(hù)目的等。
2 發(fā)布數(shù)據(jù)匿名模型
在發(fā)布數(shù)據(jù)隱私保護(hù)研究領(lǐng)域,國(guó)內(nèi)外學(xué)者提出了許多有效的隱私保護(hù)匿名模型,典型的發(fā)布數(shù)據(jù)匿名模型有如下幾種。
21 k-匿名模型
Sweeny等首先設(shè)計(jì)了k-匿名模型,該模型將數(shù)據(jù)記錄劃分為若干個(gè)等價(jià)類,每個(gè)等價(jià)類至少包含k條記錄、并且這k條記錄在準(zhǔn)碼屬性上的取值相同,以防范隱私攻擊[12-13]。文獻(xiàn)[14]證明,獲得最佳的匿名數(shù)據(jù)表是一個(gè)NP-完全問(wèn)題。
K-匿名模型的形式化定義如下:假設(shè)RT(A1,…An)是一個(gè)數(shù)據(jù)表,QIRT是該表的準(zhǔn)標(biāo)識(shí)符屬性。稱RT滿足k-匿名當(dāng)且僅當(dāng)RT[QIRT]上的每一個(gè)值序列在RT[QIRT]上至少出現(xiàn)k次。即在滿足k-匿名的發(fā)布數(shù)據(jù)表RT中,任何一條記錄在準(zhǔn)標(biāo)識(shí)符屬性上都至少與其它k-1條記錄是不可區(qū)分的。
如表1即為一個(gè)滿足2-匿名要求的匿名表。在表1中,k=2,QI={Race,Birth,Gender,ZIP}。
對(duì)于滿足k-匿名的數(shù)據(jù)表,有學(xué)者研究發(fā)現(xiàn)其仍然可能遭遇同質(zhì)攻擊(homogeneity attack)和背景攻擊(background knowledge attack)而泄露用戶隱私信息。例如當(dāng)?shù)葍r(jià)類中記錄在敏感屬性上的取值相同,攻擊者仍然可以獲知個(gè)體的敏感屬性取值,從而造成隱私泄露。表1 2-匿名表
22 改進(jìn)的匿名模型
在基本k-匿名模型的基礎(chǔ)上,文獻(xiàn)[27]提出了l-diversity模型,該模型仍然首先將數(shù)據(jù)表劃分為若干個(gè)等價(jià)類,但是對(duì)于每個(gè)等價(jià)類中記錄的要求是該等價(jià)類中至少含有1條滿足特定要求的記錄,這里指定的特定要求可以根據(jù)問(wèn)題領(lǐng)域由用戶指定。例如:文獻(xiàn)[27]作者指定特定要求是“每個(gè)等價(jià)組內(nèi)敏感屬性至少出現(xiàn)1個(gè)不同的屬性值”等。L-diversity模型的實(shí)質(zhì)是要求每個(gè)等價(jià)類中記錄在敏感屬性上的取值滿足“l(fā)-diversity”特性,抵御惡意攻擊,但在有些情況下仍然不足以保證發(fā)布數(shù)據(jù)中的隱私信息。例如:等價(jià)組中的大多數(shù)記錄的敏感屬性都取相同的值,則惡意攻擊者仍然可以較高的概率推斷隱私信息具體取值。另外,若敏感屬性取值的分布情況也是隱私信息,則滿足l-diversity模型要求的數(shù)據(jù)表仍然容易遭受隱私泄露。文獻(xiàn)[28]提出的t-逼近模型針對(duì)通過(guò)全局隱私信息推測(cè)單個(gè)統(tǒng)計(jì)個(gè)體隱私信息的保護(hù)問(wèn)題而提出的,若發(fā)布表每個(gè)等價(jià)類中敏感屬性值的分布與該敏感屬性值在整個(gè)發(fā)布表中的分布差異不超過(guò)t時(shí),稱該發(fā)布表滿足t-closeness匿名要求。
針對(duì)動(dòng)態(tài)情況下的數(shù)據(jù)隱私信息保護(hù)問(wèn)題,m-invariance策略[29]利用桶裝算法保證數(shù)據(jù)表存在記錄插入和刪除兩種操作情況下的隱私保護(hù)問(wèn)題。m-invariance策略將等價(jià)組中相異敏感屬性值的集合稱為“簽名”,當(dāng)數(shù)據(jù)表等價(jià)類至少包含m條記錄、并且它們的敏感屬性取值各不相同,對(duì)于每條記錄t,在其生存期的每個(gè)發(fā)布版本中,包含t的等價(jià)組都具有相同的簽名。作者證明了若發(fā)布表序列中每個(gè)版本與前一版本之間滿足m-invariance,則所有版本兩兩間滿足m-invariance;且發(fā)布序列滿足該條件時(shí),不會(huì)產(chǎn)生信息泄露。
m-invariance桶裝算法由于在匿名時(shí)只需要考察相鄰兩個(gè)表之間的推理通道,因而效率相對(duì)較高。但是該算法要求發(fā)布序列表的等價(jià)組中,具有相同簽名的元組不能超過(guò)一條,所以m-invariance會(huì)帶來(lái)數(shù)據(jù)質(zhì)量較低的問(wèn)題;另外,算法有可能添加偽造數(shù)據(jù),從而對(duì)數(shù)據(jù)的真實(shí)性產(chǎn)生影響。該方法能處理數(shù)據(jù)具有動(dòng)態(tài)插入和刪除的情況,假設(shè)各個(gè)插入、刪除數(shù)據(jù)相互之間是完全獨(dú)立的,但實(shí)際應(yīng)用場(chǎng)合動(dòng)態(tài)更新的數(shù)據(jù)相互之間并不一定是完全獨(dú)立的。對(duì)此問(wèn)題,國(guó)內(nèi)外學(xué)者又陸續(xù)提出了一些改進(jìn)的匿名模型,如(alpha,k)-匿名模型[30]等。但是縱觀各種改進(jìn)的匿名模型可以發(fā)現(xiàn)沒(méi)有任何一種匿名模型適用于所有數(shù)據(jù)發(fā)布問(wèn)題領(lǐng)域。因此針對(duì)不同的問(wèn)題領(lǐng)域,我們應(yīng)該研究不同的匿名模型解決特定的數(shù)據(jù)發(fā)布任務(wù)。
3 匿名發(fā)布表的效用
對(duì)數(shù)據(jù)進(jìn)行隱私保護(hù)處理必然會(huì)造成原始數(shù)據(jù)表的信息損失,如何評(píng)價(jià)隱私保護(hù)方法及相關(guān)算法、如何度量發(fā)布數(shù)據(jù)表的數(shù)據(jù)質(zhì)量,建立恰當(dāng)?shù)脑u(píng)價(jià)標(biāo)準(zhǔn)是一個(gè)非常重要的問(wèn)題。
目前有很多匿名方法中都研究了數(shù)據(jù)表匿名發(fā)布之后的效用度量問(wèn)題。這些度量方法大致可以分為二類,第一類是將屬性分為數(shù)值屬性和類別屬性從屬性取值域變化角度分別度量其泛化程度,本文將其稱為域度量方法;第二類未對(duì)屬性進(jìn)行區(qū)分,從屬性取值在泛化層次樹上高度的變化情況或等價(jià)組中元組個(gè)數(shù)角度度量發(fā)布表泛化程度,本文將這一類方法稱為非域度量方法。
31 域度量方法
基于泛化技術(shù)的隱私保護(hù)模型中較多采用NCP度量標(biāo)準(zhǔn)[31],通過(guò)為每個(gè)屬性分配權(quán)重表示屬性在應(yīng)用中的數(shù)據(jù)效用。NCP度量標(biāo)準(zhǔn)中定義數(shù)據(jù)泛化前后效用變化的公式分別為:數(shù)值屬性:NCP(t)=∑ni=1ωizi-yiAi,其中wi是屬性的權(quán)重,yi、zi分別是屬性Ai泛化后的區(qū)間的左、右界,Ai是屬性Ai在表中的最大取值和最小取值的差;類別屬性:NCP(t)=size(u)A,其中size(u)為泛化后的類別屬性值集合中值的個(gè)數(shù),A為泛化屬性的所有可能取值的個(gè)數(shù)。每個(gè)等價(jià)類G的懲罰計(jì)算公式為:NCP(G)=∑di=1wi·NCPAi(G),其中d為準(zhǔn)標(biāo)識(shí)符屬性數(shù),wi為各準(zhǔn)標(biāo)識(shí)符屬性的權(quán)重。整個(gè)泛化表在經(jīng)過(guò)泛化得到的滿足k-匿名要求的表的懲罰為所有等價(jià)類的懲罰之和。
32 非域度量方法
同一個(gè)原始數(shù)據(jù)表泛化過(guò)程往往會(huì)存在多個(gè)滿足要求的泛化k-匿名表,Sweeney等在文獻(xiàn)[13]中從泛化匿名表信息損失程度視角提出了描述泛化匿名發(fā)布表擾亂程度的度量公式Prec。Sweeney等通過(guò)屬性泛化高度描述了數(shù)據(jù)表的效用變化,即用1減去泛化表中所有元組的所有字段對(duì)應(yīng)的該比值即可描述泛化表信息損失程度,其形式化描述如下:
設(shè)PT(A1,…,ANa)為原始數(shù)據(jù)表,tPj∈PT,RT(A1,…,ANa)為PT的泛化表,tRj∈RT;DGHAi表示屬性Ai的域泛化層次結(jié)構(gòu),fi為施加于屬性A的泛化函數(shù),則泛化表RT的精確度Prec(RT)為:
當(dāng)PT=RT時(shí),由于發(fā)布表RT中每個(gè)每條元組所有屬性值的泛化高度均為0,即h=0,則Prec(RT)=1;當(dāng)發(fā)布表RT中每條元組每個(gè)屬性取值為對(duì)應(yīng)屬性的最大泛化取值時(shí),即h=DGHAi,有Prec(RT)=0。
域度量方法從屬性泛化前后取值域的變化角度度量數(shù)據(jù)表效用的變化情況,度量結(jié)果精確、但計(jì)算過(guò)程復(fù)雜;非域度量方法從屬性泛化高度視角度量數(shù)據(jù)表效用變化情況,計(jì)算簡(jiǎn)單、但存在度量精度不高的問(wèn)題。
目前關(guān)于發(fā)布表數(shù)據(jù)效用度量方法的研究主要側(cè)重于基于泛化技術(shù)匿名發(fā)布表的數(shù)據(jù)效用度量方法研究,基于置換等其他隱私保護(hù)技術(shù)求解的發(fā)布表數(shù)據(jù)效用度量方法研究成果較少。
4 小結(jié)與展望
隨著人們對(duì)隱私信息越來(lái)越重視、以及云計(jì)算相關(guān)應(yīng)用的逐步開展,在云環(huán)境微觀數(shù)據(jù)發(fā)布領(lǐng)域,如何保護(hù)微觀數(shù)據(jù)中數(shù)據(jù)主體的敏感隱私信息不被惡意攻擊者獲取,同時(shí)又保證數(shù)據(jù)用戶能夠獲得足夠的數(shù)據(jù)信息進(jìn)行有效的探索和數(shù)據(jù)分析任務(wù)變成一個(gè)亟待研究、解決的問(wèn)題。尤其是隨著移動(dòng)設(shè)備和定位技術(shù)的發(fā)展,產(chǎn)生了大量的移動(dòng)對(duì)象軌跡數(shù)據(jù),數(shù)據(jù)發(fā)布中軌跡數(shù)據(jù)具有時(shí)間相關(guān)、位置相關(guān)、大規(guī)模、高維的特點(diǎn)帶來(lái)的一些新的隱私保護(hù)問(wèn)題無(wú)法直接用現(xiàn)有的隱私保護(hù)技術(shù)處理,如高維數(shù)據(jù)等價(jià)類的劃分效率,移動(dòng)軌跡數(shù)據(jù)實(shí)時(shí)、增量產(chǎn)生發(fā)布時(shí)多數(shù)據(jù)表上的依賴隱私。下一步我們將針對(duì)云計(jì)算環(huán)境下軌跡數(shù)據(jù)發(fā)布問(wèn)題領(lǐng)域的隱私保護(hù)問(wèn)題開展研究。
參考文獻(xiàn)
[1]Curino C,Jones E,Popa R et al.Relational Cloud:A Database-as-a-Service for the Cloud.5th Conf.on Innovative Data Systems Research,CIDR 2011,January 9-12,2011 Asilomar,California
[2]Choubey R,Dubey R,Bhattacharjee J.A Survey on Cloud Computing Security Challenges and Threats.Int.Journal on Computer Science and Engineering,2011,3(3):1227-1231.
[3]Dudin E,Smetanin Y.A Review of Cloud Computing[J].Scientific and Technical Information Processing,2011,38(4):280-284.
[4]Zhang Q,Cheng L,Boutaba R.Cloud Computing:State-of-the Art and Research Challenge.Journal of Internet Serv Appl,2010,1:7-18.
[5]Hamlen K,Kantarcioglu M,Khan L et al.Security Issues for Cloud Computing[J].International Journal of Information Security and Privacy,2010,4(2):39-51.
[6]Ma H,Schewe K,Thalheim B et al.A Formal Model for the Interoperability of Service Clouds.Service Oriented Computing and Applications,Online First,18 Jan 2012.
[7]Amazon Security Bulletins[EB/OL].http:∥aws.amazon.com/security/security bulletins/,2011.
[8]Google[EB/OL].http:∥googledocs.blogspot.com/2009/03/just-t o-clarify.html,2009.
[9]Microsoft[EB/OL].http:∥www.microsoft.com/technet/security/,2010.
[10]Samarati P,Sweeney L.Generalizing data to provide anonymity when disclosing information[C]∥Proc of the seventeenth ACM SIGACT-SIGMOD-SIGART symposium on Principles of database systems,Seattle,1998:188.
[11]Agrawal R,Srikant R.Privacy Preserving Data Mining.In Proc.of ACM SIGMOD,Dallas,USA,2000.
[12]Sweeney L.K-anonymity:a Model for Protecting Privacy[J].Journal on Uncertainty,F(xiàn)uzziness and Knowledge-based Systems,2002,10(5):557-570.
[13]Sweeney L.Achieving k-Anonymity Privacy Protection Using Generalization and Suppression[J].International Journal on Uncertainty,F(xiàn)uzziness and Knowledge-based Systems,2002,10(5):571-588.
[14]MEYERSON A,WILLIAMS R.On the complexity of optimal k-anonymity[C].Proc.of the 23rd ACM SIGACT-SIGMOD-SIGART Symposium on Principles of Database Systems.New York,2004:223-228.
[15]羅軍舟,金嘉暉,宋愛(ài)波,等.云計(jì)算:體系架構(gòu)與關(guān)鍵技術(shù)[J].通信學(xué)報(bào),2011,32(7):3-21.
[16]田秀霞.數(shù)據(jù)庫(kù)服務(wù)保護(hù)隱私的訪問(wèn)控制與查詢處理[D].上海:復(fù)旦大學(xué),2011.
[17]Mclean J.The Algebra of Security.In Proc.of the 1988 IEEE Computer Society Symposium on Security and Privacy,1988,pages 2-7.
[18]Bonatti P,Vimercati SC,Samarati P.An algebra for composing access control policies[J].ACM Trans.on Information and System Security,2002,5(1):1-35.
[19]林莉,懷進(jìn)鵬,李先賢.基于屬性的訪問(wèn)控制策略合成代數(shù)[J].軟件學(xué)報(bào),2009,20(2):403-414.
[20]洪澄,張敏,馮登國(guó).AB-ACCS:一種云存儲(chǔ)密文訪問(wèn)控制方法[J].計(jì)算機(jī)研究與發(fā)展,2010,47(增刊I):259-265.
[21]Ibraimi L,Petkovic M,Nikova S et al.Ciphertext-Policy attribute-based threshold decryption with flexible delegation and revocation of user attributes.Technical Report,Centre for Telematics and Information Technology,University of Twente,2009.
[22]Yu SC,Wang C,Ren K et al.Achieving Secure,Scalable,and Fine-grained Data Access Control in Cloud Computing.Proc.Of 29th IEEE Int.Conf.on Computer Communications,San Diego,CA,Mar.2010,pages 1-9.
[23]Vimercati S,F(xiàn)oresti S,Jajodia S.Over-encryption:Management of Access Control Evolution on Outsourced Data.Proc.of the 33rd Int.Conference on Very Large Data Bases,University of Vienna,Austria,September 23-27,2007.ACM 2007,pp.123-134.
[24]黃汝維,桂小林,余思,等.云環(huán)境中支持隱私保護(hù)的可計(jì)算加密方法[J].計(jì)算機(jī)學(xué)報(bào),2011,34(12):2391-2402.
[25]張逢,陳進(jìn),陳海波,等.云計(jì)算中的數(shù)據(jù)隱私性保護(hù)與自我銷毀[J].計(jì)算機(jī)研究與發(fā)展,2011,48(7):1155-1167.
[26]毛劍,李坤,徐先棟.云計(jì)算環(huán)境下隱私保護(hù)方案[J].清華大學(xué)學(xué)報(bào),2011,51(10):1357-1362.
[27]Machanavajjhala A,Gehrke J,Kifer D.l-diversity:Privacy beyond k-anonymity[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2007,1(1):1-36.
[28]Li N,Li T,Venkatasubramanian S.t-Closeness~Privacy beyond k-anonymity and l-diversity[C]∥Proc of IEEE 23RD Int.Conf on Data Engineering.Istanbul:IEEE Computer Society,2007:106-115.
[29]Xiao X K,Tao Y F.m-Invariance:Towards Privacy Preserving Re-publication of Dynamic Datasets.In Proc.of the 26th ACM International Conference on Management of Data(SIGMOD),2007:689-700.
[30]Wong RCW,Li J,F(xiàn)u AWC et al.(a,k)-Anonymity:An enhanced k-anonymity model for privacy-preserving data publishing[C]∥Proc of the 12th ACM SIGKDD int.conf on Knowledge discovery and data mining,New York:ACM Press,2006:754-759.
[31]Xu J,Wang W,Pei J et al.Utility-Based Anonymization Using Local Recoding.Proceedings of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York,ACM Press,2006:785-790.
(本文責(zé)任編輯:馬 卓)