鄺青青,彭長(zhǎng)根*,丁 洪
(1.貴州大學(xué) 理學(xué)院,貴州 貴陽(yáng) 550025;2.貴州大學(xué) 密碼學(xué)與數(shù)據(jù)安全研究所,貴州 貴陽(yáng) 550025)
?
基于關(guān)聯(lián)規(guī)則的隱私泄露風(fēng)險(xiǎn)評(píng)估模型
鄺青青1,彭長(zhǎng)根1*,丁洪2
(1.貴州大學(xué) 理學(xué)院,貴州 貴陽(yáng) 550025;2.貴州大學(xué) 密碼學(xué)與數(shù)據(jù)安全研究所,貴州 貴陽(yáng) 550025)
傳統(tǒng)的信息安全風(fēng)險(xiǎn)評(píng)估較少涉及對(duì)背景知識(shí)關(guān)聯(lián)分析所導(dǎo)致的隱私泄露風(fēng)險(xiǎn)。針對(duì)基于關(guān)聯(lián)分析的大數(shù)據(jù)隱私泄露風(fēng)險(xiǎn)問(wèn)題,以隱私資產(chǎn)、隱私威脅因子和隱私存儲(chǔ)有效時(shí)間為要素建立隱私泄露風(fēng)險(xiǎn)指標(biāo)體系、定義風(fēng)險(xiǎn)計(jì)算函數(shù);通過(guò)對(duì)隱私庫(kù)的關(guān)聯(lián)規(guī)則及頻繁項(xiàng)的分析,得出滿足最小支持度閾值的關(guān)聯(lián)概率,實(shí)現(xiàn)風(fēng)險(xiǎn)函數(shù)計(jì)算;最后,針對(duì)搜索數(shù)據(jù)進(jìn)行實(shí)例驗(yàn)證,驗(yàn)證表明該模型可以有效評(píng)估風(fēng)險(xiǎn),真實(shí)刻畫(huà)隱私泄露風(fēng)險(xiǎn)大小。
隱私數(shù)據(jù);隱私泄露;FP-Growth;關(guān)聯(lián)分析;風(fēng)險(xiǎn)評(píng)估;大數(shù)據(jù)
大數(shù)據(jù)給社會(huì)帶來(lái)了便利,同時(shí)也造成了巨大的隱私泄露問(wèn)題[1],尤其是對(duì)背景知識(shí)的關(guān)聯(lián)分析導(dǎo)致的個(gè)人隱私泄露問(wèn)題。
目前,針對(duì)安全的評(píng)估風(fēng)險(xiǎn)評(píng)估主要集中在信息安全領(lǐng)域,早期方法多為定性的評(píng)估方法。對(duì)于量化風(fēng)險(xiǎn)評(píng)估,初期研究多集中在基于簡(jiǎn)單概率模型的風(fēng)險(xiǎn)分析方面[2-4]。后來(lái),Bilge等[5]在2005年提出了一種新的量化方法,該方法考慮到當(dāng)前需求對(duì)將來(lái)的影響;Kondakci等[6]于2010年引入Bayesian網(wǎng)絡(luò)模型給出了一種量化風(fēng)險(xiǎn)分析方法。文獻(xiàn)[7]中Liu等人采用模糊層次分析(AHP)理論,通過(guò)引進(jìn)相關(guān)系數(shù),針對(duì)云計(jì)算環(huán)境下的信息安全進(jìn)行風(fēng)險(xiǎn)評(píng)估,綜合系統(tǒng)面臨的威脅因子得出結(jié)論。但是,由于使用AHP理論時(shí)需要計(jì)算最大特征值標(biāo)量,而計(jì)算過(guò)程中需要不斷的校正模糊權(quán)重,所以評(píng)估結(jié)果會(huì)因?yàn)橘x予模糊權(quán)重時(shí)的任意性而不準(zhǔn)確。文獻(xiàn)[8]提出了一種基于信息測(cè)量和模糊聚類(lèi)的風(fēng)險(xiǎn)評(píng)估,該方法對(duì)所有威脅因子進(jìn)行量化并保證在具體運(yùn)算過(guò)程中的信息獨(dú)立性,然后使用K-means聚類(lèi)算法來(lái)區(qū)分?jǐn)?shù)據(jù)。但是,該方法主觀性太強(qiáng),而且在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)量大,數(shù)據(jù)結(jié)構(gòu)多元化,使用K-means聚類(lèi)算法不能達(dá)到預(yù)期效果。Bernardo等[9]于2012年提出了一種基于距離的定性和排序,并提供用戶偏好參數(shù)的方法進(jìn)行安全風(fēng)險(xiǎn)評(píng)估。2015年Kresimir等[10]改進(jìn)了證據(jù)理論方法,并將該方法應(yīng)用于信息安全風(fēng)險(xiǎn)量化評(píng)估。
眾所周知,大數(shù)據(jù)應(yīng)用勢(shì)必帶來(lái)諸多的信息安全問(wèn)題,尤其是隱私泄露問(wèn)題。關(guān)于隱私泄露的風(fēng)險(xiǎn)評(píng)估研究迫在眉睫,然而,信息安全風(fēng)險(xiǎn)評(píng)估對(duì)因關(guān)聯(lián)隱私或威脅產(chǎn)生風(fēng)險(xiǎn)的理論研究還沒(méi)有被檢索到。因此,本文利用FP-Growth方法,設(shè)計(jì)大數(shù)據(jù)環(huán)境下的隱私泄露風(fēng)險(xiǎn)評(píng)估模型,綜合隱私資產(chǎn)、隱私威脅因子以及隱私存儲(chǔ)有效時(shí)間三要素建立隱私泄露風(fēng)險(xiǎn)指標(biāo)體系,通過(guò)對(duì)隱私庫(kù)的關(guān)聯(lián)規(guī)則及頻繁項(xiàng)的分析,對(duì)脆弱隱私項(xiàng)之間的強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行計(jì)算,得出各關(guān)聯(lián)規(guī)則的概率,把隱私泄露的風(fēng)險(xiǎn)度間接轉(zhuǎn)化為求關(guān)聯(lián)規(guī)則的概率。
1.1基本概念
隱私資產(chǎn):這里的隱私資產(chǎn)主要指用戶不愿意讓別人看見(jiàn)或非法使用的各種互聯(lián)網(wǎng)隱私數(shù)據(jù)信息,如身份隱私、位置隱私、瀏覽軌跡、網(wǎng)購(gòu)習(xí)性以及社交關(guān)系網(wǎng)等等。
脆弱性:脆弱性指隱私數(shù)據(jù)持有者由于自身的設(shè)備安全,人為安全或者管理安全等不足而客觀存在的,攻擊者可以不經(jīng)過(guò)持有者的同意而非法訪問(wèn)或盜用用戶隱私數(shù)據(jù)信息的弱點(diǎn)??煞譃榧夹g(shù)脆弱性和管理脆弱性兩類(lèi)。
風(fēng)險(xiǎn)評(píng)估:本文的風(fēng)險(xiǎn)評(píng)估,指的是對(duì)隱私數(shù)據(jù)信息持有者或管理方的脆弱性、可能存在的威脅等各方面進(jìn)行分析,構(gòu)造由脆弱隱私數(shù)據(jù)項(xiàng)之間關(guān)聯(lián)而產(chǎn)生的對(duì)個(gè)人隱私造成泄露的概率和發(fā)生泄露造成的影響所決定的函數(shù)。
隱私關(guān)聯(lián):一個(gè)單一的隱私信息發(fā)生泄露通常不會(huì)帶來(lái)風(fēng)險(xiǎn),但是如果同一用戶的多個(gè)單一隱私被關(guān)聯(lián),即隱私節(jié)點(diǎn)A將自身風(fēng)險(xiǎn)轉(zhuǎn)移給數(shù)據(jù)庫(kù)中不存在風(fēng)險(xiǎn)的另一隱私節(jié)點(diǎn)B,產(chǎn)生關(guān)聯(lián)。
1.2關(guān)聯(lián)規(guī)則
I={i1,i2,…,im}包含m個(gè)不同項(xiàng)目的集合,簡(jiǎn)稱項(xiàng)集。D為關(guān)于I的事務(wù)集合,每個(gè)事務(wù)T為包含有若干項(xiàng)集的集合,即I?T。每一個(gè)事務(wù)都具有一個(gè)標(biāo)示符TID。一個(gè)關(guān)聯(lián)規(guī)則可以表示為A?B,其中,A?I,B?I,且A∩B=φ。
定義1設(shè)A?I,B?I,對(duì)于關(guān)聯(lián)規(guī)則A?B,稱在事務(wù)集D中同時(shí)出現(xiàn)A和B的概率叫支持度,記作Support,且
Support(A?B)=P(A∪B)
定義2設(shè)A?I,B?I,對(duì)于關(guān)聯(lián)規(guī)則A?B,在事務(wù)集D中,若在A出現(xiàn)的條件下,B也出現(xiàn)的概率叫置信度,記作Confidence,表示為
Confidence(A?B)=P(B|A)
定義3設(shè)存在關(guān)聯(lián)規(guī)則A?B,若A?B同時(shí)滿足給定的最小支持度(minsupport)和最小置信度(minconfidence),則稱這樣的關(guān)聯(lián)規(guī)則為強(qiáng)關(guān)聯(lián)規(guī)則。
1.3關(guān)聯(lián)規(guī)則算法
常見(jiàn)的經(jīng)典關(guān)聯(lián)規(guī)則算法主要有Apriori、K-means及FP-Growth等算法。1993年,Agrawal等[11]人首次提出Apriori算法,該算法使用一種逐層迭代的方法搜索頻繁項(xiàng)集,頻繁k-項(xiàng)集作為探索頻繁k+1-項(xiàng)集的基礎(chǔ)。由于在產(chǎn)生頻繁項(xiàng)集時(shí)每次都要對(duì)數(shù)據(jù)庫(kù)進(jìn)行掃描,所以當(dāng)項(xiàng)目集增大時(shí),在產(chǎn)生候選集C2時(shí),Apriori算法的時(shí)間復(fù)雜度和空間復(fù)雜度都比較大。
針對(duì)Apriori算法效率和性能低下的問(wèn)題,2000年,HAN等[12]提出了FP-Growth算法,將提供頻繁項(xiàng)集的數(shù)據(jù)庫(kù)壓縮到一顆頻繁模式樹(shù)(或FP樹(shù)),整個(gè)過(guò)程不適用候選集,但保留項(xiàng)集關(guān)聯(lián)信息;然后,將壓縮后的數(shù)據(jù)庫(kù)分成一組條件數(shù)據(jù)庫(kù)(一種特殊類(lèi)型的投影數(shù)據(jù)庫(kù)),每個(gè)關(guān)聯(lián)一個(gè)頻繁項(xiàng)集,所以具有很強(qiáng)的適用性和高效性。算法核心思想:
(1)FP-Growth算法只需要掃描事務(wù)數(shù)據(jù)庫(kù)D兩次。第一次掃描數(shù)據(jù)庫(kù),收集頻繁項(xiàng)的集合F和它們的支持度。對(duì)F按支持度降序排序,結(jié)果為頻繁項(xiàng)表L;
(2)創(chuàng)建FP-tree的根結(jié)點(diǎn),以“null”標(biāo)記它。再次掃描數(shù)據(jù)庫(kù),對(duì)于D中每個(gè)事務(wù)T,選擇T中的頻繁項(xiàng),并按L中的次序排序。設(shè)排序后的頻繁項(xiàng)表為[p|P],其中,p是第一個(gè)元素,而P是剩余元素的表。調(diào)用insert_tree([p|P],T)。該過(guò)程執(zhí)行情況如下,如果T有子節(jié)點(diǎn)N使得N.item-name = p.item-name,則N的計(jì)數(shù)增加1;否則創(chuàng)建一個(gè)新結(jié)點(diǎn)N,將其計(jì)數(shù)設(shè)置為1,鏈接到它的父結(jié)點(diǎn)T,并且通過(guò)結(jié)點(diǎn)鏈結(jié)構(gòu)將其鏈接到具有相同item-name 的結(jié)點(diǎn)。如果P非空,遞歸地調(diào)用insert_tree(P,N)。FP-Tree的挖掘通過(guò)調(diào)用FP_growth(FP_tree,null)實(shí)現(xiàn)。該過(guò)程實(shí)現(xiàn)如下:
procedureFP_growth(Tree,α) ifTree含單個(gè)路徑Pthen for路徑P中結(jié)點(diǎn)的每個(gè)組合(記作β) 產(chǎn)生模式β∪α,其支持度support=β中結(jié)點(diǎn)的最小支持度; elseforeachai在Tree的頭部 { 產(chǎn)生一個(gè)模式β=ai+α,其支持度support=ai.support; 構(gòu)造β的條件模式基,然后構(gòu)造β的條件FP-樹(shù)Treeβ; ifTreeβ≠?then調(diào)用FP_growth(Treeβ,β); }
風(fēng)險(xiǎn)評(píng)估是建立在評(píng)估指標(biāo)體系的基礎(chǔ)上進(jìn)行操作的,根據(jù)隱私數(shù)據(jù)管理方的具體情況,分析隱私資產(chǎn)、威脅因子和隱私存儲(chǔ)有效時(shí)間,并建立與FP-Growth算法相匹配的風(fēng)險(xiǎn)評(píng)估指標(biāo)體系。風(fēng)險(xiǎn)評(píng)估指標(biāo)體系的建立基本分為以下幾個(gè)部分:
2.1隱私資產(chǎn)定義
風(fēng)險(xiǎn)評(píng)估中資產(chǎn)的價(jià)值主要通過(guò)保密性(C)、完整性(I)、可用性(A)三個(gè)屬性來(lái)刻畫(huà),而不同的資產(chǎn)三個(gè)屬性(CIA)的重要性不一樣。用戶隱私數(shù)據(jù)資產(chǎn),保密性是更加關(guān)注的屬性。根據(jù)大數(shù)據(jù)環(huán)境下隱私數(shù)據(jù)內(nèi)容及形式所具有的特點(diǎn),主要將隱私數(shù)據(jù)分為身份隱私、位置隱私、瀏覽軌跡、網(wǎng)購(gòu)習(xí)慣、社交網(wǎng)絡(luò)等。
身份隱私:主要指與用戶個(gè)人直接關(guān)聯(lián)的信息,如個(gè)人姓名、肖像、身份證號(hào)碼、家庭住址等;
位置隱私:本文主要指的是用戶過(guò)去、現(xiàn)在或者是將來(lái)的原始位置數(shù)據(jù),它記錄了用戶的具體位置以及行動(dòng)軌跡;
瀏覽軌跡:本文主要指用戶通過(guò)使用移動(dòng)設(shè)備等對(duì)網(wǎng)頁(yè)的瀏覽習(xí)慣及規(guī)律和瀏覽日志記錄等;
購(gòu)買(mǎi)習(xí)性:購(gòu)買(mǎi)習(xí)性這里是指用戶在長(zhǎng)期使用網(wǎng)絡(luò)運(yùn)營(yíng)商(如淘寶、京東等)過(guò)程中逐漸形成的瀏覽并購(gòu)買(mǎi)商品的網(wǎng)絡(luò)行為;
社交關(guān)系網(wǎng):用戶自己的一個(gè)朋友圈、關(guān)系圈。一般來(lái)說(shuō),可以通過(guò)用戶個(gè)人的社交關(guān)系網(wǎng)間接性關(guān)聯(lián),分析出用戶本人的完整信息。
這里的資產(chǎn)主要指以上的隱私數(shù)據(jù)信息,風(fēng)險(xiǎn)影響程度由隱私資產(chǎn)的重要性決定,隱私資產(chǎn)重要度定義為:
I=ln[(eCon+eInt+eAvail)/3]
其中Con,Int,Avail分別表示保密性、完整性、可用性賦值,且Con+Int+Avail=3。
2.2威脅因子
由于每個(gè)行業(yè)的關(guān)注點(diǎn)不一樣,管理方案和技術(shù)手段也會(huì)有差異,本文考慮一般的情況,把隱私資產(chǎn)可能面臨的隱私泄露風(fēng)險(xiǎn)劃分為隱私數(shù)據(jù)使用風(fēng)險(xiǎn)以及人為風(fēng)險(xiǎn)。如表1:
表1 隱私泄露威脅因子
2.3隱私存儲(chǔ)有效時(shí)間
各類(lèi)隱私數(shù)據(jù)由于其本身價(jià)值或效用的大小,在存儲(chǔ)有效時(shí)間上有所差異,如對(duì)于網(wǎng)購(gòu)商品的用戶來(lái)講,一次性購(gòu)買(mǎi)的用戶所產(chǎn)生的隱私信息選擇短期存儲(chǔ),之后根據(jù)其具體的購(gòu)買(mǎi)情況再更改存儲(chǔ)時(shí)間,不僅可以節(jié)省內(nèi)存,還能有選擇性的提供服務(wù)。本文定義存儲(chǔ)有效時(shí)間為:
T=ωCS+ωIM+ωAL
式中:ωC、ωI、ωA分別為隱私資產(chǎn)保密性、完整性和可用性在存儲(chǔ)有效時(shí)間內(nèi)的權(quán)重,S、M、L分別表示隱私信息短期、中期和長(zhǎng)期存儲(chǔ)有效時(shí)間上按權(quán)重分配的值,且S+M+L=5。
基于關(guān)聯(lián)規(guī)則的隱私泄露風(fēng)險(xiǎn)評(píng)估模型如圖1所示,主要步驟分為以下4步:
(1)收集并建立一個(gè)脆弱隱私數(shù)據(jù)庫(kù)。在進(jìn)行風(fēng)險(xiǎn)指標(biāo)體系構(gòu)建過(guò)程中,首先需要收集隱私數(shù)據(jù),分析隱私數(shù)據(jù)脆弱性,從而能從大量脆弱隱私數(shù)據(jù)集中選擇適合本文所采用的FP-Growth算法的數(shù)據(jù)。
(2)設(shè)計(jì)多維關(guān)聯(lián)規(guī)則隱私數(shù)據(jù)庫(kù)表。分析脆弱隱私數(shù)據(jù)庫(kù)的性質(zhì)特點(diǎn),找出各項(xiàng)指標(biāo)間的關(guān)系,構(gòu)造多維隱私數(shù)據(jù)庫(kù)表,設(shè)計(jì)基于關(guān)聯(lián)規(guī)則的隱私數(shù)據(jù)挖掘算法,挖掘頻繁項(xiàng)集,推導(dǎo)出強(qiáng)關(guān)聯(lián)規(guī)則。
(3)引入關(guān)聯(lián)規(guī)則算法。本文引入FP-Growth算法,通過(guò)建立風(fēng)險(xiǎn)隱私數(shù)據(jù)網(wǎng)絡(luò),利用該算法挖掘出頻繁項(xiàng)集,計(jì)算關(guān)聯(lián)規(guī)則強(qiáng)度。
(4)風(fēng)險(xiǎn)值定義。本文通過(guò)對(duì)隱私資產(chǎn)、威脅因子、以及隱私數(shù)據(jù)資產(chǎn)存儲(chǔ)的時(shí)間進(jìn)行風(fēng)險(xiǎn)指標(biāo)體系建模,構(gòu)造風(fēng)險(xiǎn)計(jì)算函數(shù)R=P·I·T。這里,P表示關(guān)聯(lián)風(fēng)險(xiǎn)發(fā)生的可能性,I表示風(fēng)險(xiǎn)影響程度,T表示隱私存儲(chǔ)有效時(shí)間。
圖1 隱私泄露風(fēng)險(xiǎn)評(píng)估
隱私管理方在不斷獲得用戶隱私數(shù)據(jù)信息的時(shí)候,會(huì)結(jié)合自身軟硬件設(shè)施的強(qiáng)弱而考慮存儲(chǔ)隱私數(shù)據(jù)的模式。但是,為了便于歸類(lèi)和存儲(chǔ),在數(shù)據(jù)庫(kù)結(jié)構(gòu)上通常以大類(lèi)型保存,脆弱隱私數(shù)據(jù)庫(kù)的邏輯結(jié)構(gòu)是一維的形式,在輸入存儲(chǔ)數(shù)據(jù)時(shí),一般呈現(xiàn)為表2風(fēng)格:
表2 數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)
對(duì)于脆弱隱私數(shù)據(jù)庫(kù)而言,隱私數(shù)據(jù)呈現(xiàn)多維結(jié)構(gòu),如威脅因子為兩層。所以,在隱私泄露的風(fēng)險(xiǎn)評(píng)估應(yīng)用中,為了使FP-Growth算法能夠很好的應(yīng)用于隱私泄露風(fēng)險(xiǎn)指標(biāo)體系,設(shè)計(jì)二維數(shù)據(jù)庫(kù)表如表3:
表3 二維數(shù)據(jù)庫(kù)表
表中,把項(xiàng)目分割成根項(xiàng)目和子項(xiàng)目,通過(guò)這樣的設(shè)置,隱私信息映射為二維結(jié)構(gòu)表。
以互聯(lián)網(wǎng)的用戶搜索數(shù)據(jù)為例[13],抽取其中15條搜索記錄,數(shù)據(jù)預(yù)先進(jìn)行處理,格式為:用戶ID、查詢?cè)~、該URL在返回結(jié)果中的排名、點(diǎn)擊順序及點(diǎn)擊URL,當(dāng)用戶訪問(wèn)搜索引擎時(shí)ID被自動(dòng)賦值,見(jiàn)表4。在訪問(wèn)互聯(lián)網(wǎng)數(shù)據(jù)時(shí),一般規(guī)定,當(dāng)訪問(wèn)內(nèi)容屬于同一個(gè)網(wǎng)站時(shí),盡管歸屬這個(gè)網(wǎng)站的子網(wǎng)站不同,將其歸為同一網(wǎng)站。
表4 搜索記錄表
選取表4中的1、2、5列,依據(jù)二維數(shù)據(jù)庫(kù)表,將用戶個(gè)人信息作為根項(xiàng)目,查詢值和URL作為子項(xiàng)目,根項(xiàng)目用Ii表示,子項(xiàng)目用Iij表示,則二維交易數(shù)據(jù)庫(kù)表見(jiàn)表5。
表5 交易數(shù)據(jù)庫(kù)
(1)首先,不妨設(shè)最小支持度計(jì)數(shù)為2,此時(shí)有
Support(A?B)=P(A∪B)=2/15=13%
(2)對(duì)這些隱私泄露信息進(jìn)行第一次掃描,記錄每一項(xiàng)出現(xiàn)的次數(shù)。每個(gè)記錄按次數(shù)大小排序,去掉支持度計(jì)數(shù)小于2的項(xiàng),得到滿足最小支持度的頻繁一項(xiàng)集,見(jiàn)表6。
表6 頻繁一項(xiàng)集
(3)構(gòu)造頻繁模式樹(shù)。創(chuàng)建FP-樹(shù)的根結(jié)點(diǎn),以“null”標(biāo)記,第二次掃描該隱私泄露數(shù)據(jù)信息,項(xiàng)目集一次鏈接到樹(shù)上,直到最后一項(xiàng)鏈接完成。通過(guò)挖掘條件模式樹(shù),最終得到頻繁項(xiàng)集,見(jiàn)表7。
表7 強(qiáng)關(guān)聯(lián)規(guī)則項(xiàng)
以頻繁項(xiàng)集I={I5,I53,I55}為例,我們來(lái)分析發(fā)生隱私泄露事件以后,各項(xiàng)事件之間相互影響的概率(即風(fēng)險(xiǎn)概率)的大小。
頻繁項(xiàng)集I={I5,I53,I55}擁有{I5},{I53},{I55},{I5,I53},{I5,I55}以及{I53,I55}6個(gè)非空子項(xiàng)集,各個(gè)項(xiàng)集之間的關(guān)聯(lián)規(guī)則結(jié)果如下:
(1)I5?I53,I55,置信度:40%
(2)I53?I5,I55,置信度:50%
(3)I55?I5,I53,置信度:100%
(4)I5,I53?I55,置信度:50%
(5)I5,I55?I53,置信度:100%
(6)I53,I55?I5,置信度:100%
如果由隱私數(shù)據(jù)持有方預(yù)先給定最小置信度閾值為70%,則可以得到超過(guò)最小置信度閾值的強(qiáng)關(guān)聯(lián)規(guī)則有3、5和6三個(gè)。即由被點(diǎn)擊的URL推出查詢結(jié)果和用戶ID概率為100%;由用戶ID和被點(diǎn)擊的URL推出查詢結(jié)果概率為100%,由被點(diǎn)擊的URL和查詢結(jié)果推出用戶ID的概率為100%。由此有
R1=P1·I1·T1
=1×ln[(e1.6+e0.9+e0.5)/3]×1.8=1.99
R2=P2·I1·T2
=1×ln[(e1.6+e0.9+e0.5)/3]×1.5=1.66
R3=P3·I1·T3
=1×ln[(e1.6+e0.9+e0.5)/3]×1.9=2.10
則對(duì)于整個(gè)隱私庫(kù),隱私泄露風(fēng)險(xiǎn)向量為R=(R1,R2,R3)=(1.99,1.66,2.10)。
本文通過(guò)對(duì)隱私數(shù)據(jù)資產(chǎn)的定義以及威脅等的分析,綜合隱私資產(chǎn)、隱私威脅因子以及隱私存儲(chǔ)有效時(shí)間建立風(fēng)險(xiǎn)評(píng)估指標(biāo)體系,引進(jìn)關(guān)聯(lián)規(guī)則算法,建立與隱私泄露風(fēng)險(xiǎn)評(píng)估指標(biāo)體系匹配的二維數(shù)據(jù)表,利用FP-Growth算法找出頻繁項(xiàng)集和強(qiáng)關(guān)聯(lián)規(guī)則,通過(guò)計(jì)算得到風(fēng)險(xiǎn)向量。但是,由于該模型尚處于探索階段,在大數(shù)據(jù)環(huán)境下,由于數(shù)據(jù)量大,隱私泄露風(fēng)險(xiǎn)評(píng)估估計(jì)會(huì)有一些困難。在未來(lái)的工作中,我們需要對(duì)FP-Growth算法進(jìn)行一定的改進(jìn),使之能夠在Spark下運(yùn)行,達(dá)到省時(shí)高效的目的;與此同時(shí),尋求其他不同的方法,解決大數(shù)據(jù)環(huán)境下的隱私泄露風(fēng)險(xiǎn)評(píng)估問(wèn)題。
[1] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[2] National Bureau of Standards. Guideline for Automatic Data Processing Risk Analysis[S]. USA:Federal Information Processing Standards Publication FIPS 65, 1979.
[3] James W Meritt. A Method for Quantitative Risk Analysis[EB/OL].[2015-11-04].http://csrc.nist.gov/nissc/1999/proceeding/papers/p28.pdf ,2000: 7-10.
[4] Bedford T M, Cooke R M. Probabilistic Risk Analysis: Foundationa and Methods[J]. Probabilistic Risk Analysis Foundations & Methods, 2001, 13(5):61.
[5] Bilge Karabacak,Ibrahim Sogukpinar.ISRAM:information security risk analysis method[J].Computers & Security,2005,24:147-159.
[6] Kondakci S. Network Security Risk Assessment Using Bayesian Belief Networks[C]// Proceedings of the 2010 IEEE Second International Conference on Social Computing.USA:IEEE Computer Society, 2010:952-960.
[7] Liu Peiyu.The New Risk Assessment Model for Information System in Cloud Computing Environment[J].Procedia Engineering,2011(15):3200-3204.
[8] Guo-hong Gao.Information Security Risk Assessment Based on Information Measure and Fuzzy Clustering[J].Journal of software,2011,11(6):2159-2166.
[9] Bernardo,Danilo Valeros.Security risk assessment:Toward a comprehensive practical risk management[J].International Journal of Information and Computer Security (IJICS),2012,5(2):77-104
[10] Kresimir Solic,Hrvoje Ocevcic.The information systems’security level assessment model based on an ontology and evidential reasoning approach[J].Computers & Security,2015,55:100-112.
[11] Agrawal R, Imielinski T, Swami A. Mining association rules between sets of items in large databases[J]. Acm Sigmod Record, 1993, 22(2):207-216.
[12] HAN J, PEI J, YIN Y. Mining frequent patterns without candidate generation[J]. Acm Sigmod Record, 2000, 29(2):1-12.
[13] LIU Y, MIAO J, ZHANG M, et al. How do users describe their information need: Query recommendation based on snippet click model[J]. Expert Systems with Applications, 2011, 38(11):13847-13856.
(責(zé)任編輯:周曉南)
Privacy Disclosure Risk Assessment Model Based on Association Rules
KUANG Qingqing1,PENG Changgen1*,DING Hong2
(1.College of Science, Guizhou University, Guiyang 550025, China; 2. Institute of Cryptography & Data Security, Guizhou University, Guiyang 550025, China)
The traditional information security risk assessment is less involved in the privacy disclosure risk caused by association analysis of the background knowledge. For the problem of big data’s privacy disclosure based on association analysis, privacy asset, privacy threat factors and effective time for privacy storage were combined to establish risk index system of privacy disclosure. Besides, risk function was defined; with analysis association rules of privacy and frequent items , association probability of satisfying a minimum support threshold was generated; In addition, an example verification shows that the model can effectively evaluate privacy disclosure risk.
privacy data; privacy disclosure; FP-Growth; association rule; risk assessment; big data
1000-5269(2016)02-0088-05
10.15958/j.cnki.gdxbzrb.2016.02.20
2015-11-04
國(guó)家自然科學(xué)基金項(xiàng)目資助(61262073);全國(guó)統(tǒng)計(jì)科學(xué)研究計(jì)劃基金項(xiàng)目資助(2013LZ46);貴州省統(tǒng)計(jì)科學(xué)研究課題項(xiàng)目資助(201511)
鄺青青(1988-),男,在讀碩士,研究方向:密碼學(xué)理論與工程,Email:631463293@qq.com.
彭長(zhǎng)根,Email:peng_stud@163.com;
TP309
A