国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于差分隱私保護(hù)的Stacking集成聚類算法研究*

2022-08-19 09:58:50常錦才李呂牧之蔡昆杰
關(guān)鍵詞:原始數(shù)據(jù)復(fù)雜度差分

李 帥,常錦才,李呂牧之,蔡昆杰

(1.華北理工大學(xué)理學(xué)院,河北 唐山 063210;2.河北省數(shù)據(jù)科學(xué)與應(yīng)用重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210)

1 引言

在萬物智能、萬物互聯(lián)的算力經(jīng)濟(jì)時(shí)代,對(duì)大數(shù)據(jù)的聚合與挖掘技術(shù)發(fā)展迅速。依靠數(shù)據(jù)挖掘技術(shù)獲取各數(shù)據(jù)項(xiàng)之間的內(nèi)在關(guān)聯(lián)是人工智能技術(shù)的核心工作[1]。已有的數(shù)據(jù)挖掘技術(shù)包括聚類、分類、回歸、關(guān)聯(lián)、序列和偏差[2]。聚類[3]作為一種典型的無監(jiān)督算法,將樣本數(shù)據(jù)劃分為若干簇,實(shí)現(xiàn)“簇內(nèi)相近、簇外相遠(yuǎn)”的目的。與分類不同,聚類不要求數(shù)據(jù)集中含有預(yù)先定義的類別標(biāo)簽,無需了解數(shù)據(jù)集的背景知識(shí),僅通過對(duì)數(shù)據(jù)的數(shù)值特征進(jìn)行計(jì)算實(shí)現(xiàn)集合劃分,分析其關(guān)聯(lián)規(guī)則。由于對(duì)數(shù)據(jù)進(jìn)行聚類時(shí)容易造成用戶的隱私泄露,研究人員開始探索如何在聚類過程中有效保證數(shù)據(jù)安全,隱私保護(hù)數(shù)據(jù)挖掘[4]已成為近年來的熱門研究方向。

目前隱私保護(hù)技術(shù)主要分為分組保護(hù)、加密保護(hù)和失真保護(hù)。分組保護(hù)是對(duì)數(shù)據(jù)集中包含用戶隱私信息的特征進(jìn)行刪除或修改,其代表性成果有:Sweeney等[5]提出了基于準(zhǔn)標(biāo)識(shí)符處理的k-Anonymity方法,但該方法在攻擊者掌握背景知識(shí)或敏感特征取值單一時(shí)易泄露隱私;Machanavajjhala等[6]提出了利用等價(jià)類替代敏感特征的l-Diversity方法,但特征值相近時(shí)可能受到相似性攻擊;Li等[7]提出了t-Closeness方法,通過設(shè)置等價(jià)類和數(shù)據(jù)集中敏感屬性分布距離的上限保護(hù)隱私,但數(shù)據(jù)損失較大且難以保護(hù)身份信息。加密保護(hù)通過對(duì)稱加密、非對(duì)稱加密和同態(tài)加密等技術(shù)對(duì)原始數(shù)據(jù)進(jìn)行加密,雖然保證了傳輸過程中數(shù)據(jù)的安全性,但難以尋找可信第三方,且加解密過程易產(chǎn)生較大的算力開銷。

以上隱私保護(hù)方法在解決部分隱私問題的同時(shí)未對(duì)模型做出合理假設(shè),在攻擊者掌握數(shù)據(jù)背景時(shí)仍有可能失效。失真保護(hù)通過擾亂原始數(shù)據(jù)來保障隱私安全,克服了上述方法的缺點(diǎn),但如何達(dá)到數(shù)據(jù)可用性和安全性的平衡成為了難點(diǎn)?;诖?,Dwork[8]提出了差分隱私DP(Differential Privacy),通過嚴(yán)格的數(shù)學(xué)推導(dǎo)和定量的隨機(jī)噪聲實(shí)現(xiàn)可度量的隱私保護(hù),與攻擊者擁有的數(shù)據(jù)背景無關(guān),迅速成為研究熱點(diǎn)。

Blum等[9]首先將差分隱私引入K-means聚類算法,但查詢函數(shù)敏感度大,且未明確隱私保護(hù)預(yù)算ε的分配方式。Dwork[10]完善了DPK-means算法中ε的分配方式。Dishabi等[11]將差分隱私應(yīng)用到基于小波變換的聚類算法中,通過降低數(shù)據(jù)維度來減小噪聲。Ni等[12]實(shí)現(xiàn)了多核密度聚類算法的隱私安全,并使用網(wǎng)絡(luò)用戶數(shù)據(jù)驗(yàn)證了其可行性。Zhang等[13]改進(jìn)了DPK-means算法,使用輪廓系數(shù)對(duì)其性能進(jìn)行評(píng)價(jià)。Sun等[14]提出了基于密度的峰值聚類,并將滿足差分隱私的噪聲添加到局部密度和歐氏距離矩陣中,在保護(hù)用戶隱私的同時(shí)提高了聚類性能。Zhang等[15]通過改進(jìn)模糊C均值算法中隱私預(yù)算的分配比例,依據(jù)聚類中心的高斯分布為隸屬度矩陣添加更均衡的噪聲,提高了分簇準(zhǔn)確性。可以看出,通過改進(jìn)聚類思想、優(yōu)化噪聲的添加機(jī)制可同時(shí)提高聚類準(zhǔn)確性和數(shù)據(jù)安全性,然而上述研究均使用單一算法聚類,在提升差分隱私聚類的準(zhǔn)確性時(shí)具有局限性。

為更好地平衡數(shù)據(jù)可用性與隱私性,本文提出了基于差分隱私保護(hù)的Stacking集成聚類DPC-Stacking(Differential Privacy protected Clustering of Stacking)算法。集成多種異質(zhì)聚類算法,結(jié)合輪廓系數(shù)對(duì)初級(jí)聚類算法的輸出進(jìn)行加權(quán),然后插入原始數(shù)據(jù)中進(jìn)行學(xué)習(xí),從而大幅提高聚類算法精度,同時(shí)針對(duì)原始數(shù)據(jù)和初級(jí)聚類算法輸出分別提出了自適應(yīng)的ε函數(shù)p(x),為數(shù)據(jù)添加更符合其敏感度的Laplace噪聲。實(shí)驗(yàn)表明,DPC-Stacking算法有效提升了差分隱私保護(hù)下對(duì)數(shù)據(jù)集聚類的準(zhǔn)確性,減少了噪聲對(duì)聚類結(jié)果的影響,優(yōu)于現(xiàn)有差分隱私保護(hù)下單一聚類算法的聚類效果。

2 預(yù)備知識(shí)

2.1 差分隱私模型

差分隱私模型無需考慮已獲取的最大背景知識(shí),通過向數(shù)據(jù)集或迭代結(jié)果中添加定量Laplace噪聲使數(shù)據(jù)失真,實(shí)現(xiàn)嚴(yán)格的隱私保護(hù),同時(shí)最大程度保證查詢函數(shù)的準(zhǔn)確性。

定義1(ε-差分隱私) 若有算法M,數(shù)據(jù)集D和D′僅相差一條記錄,算法M以數(shù)據(jù)集D和D′為輸入,以M(D)和M(D′)為輸出,M所有可能輸出的子集S(S∈range(M))滿足式(1):

Pr[M(D)∈S]≤eεPr[M(D′)∈S]

(1)

則稱M滿足ε-差分隱私,其中ε表示隱私保護(hù)預(yù)算,其大小與算法安全性成反比。

定義2(全局敏感度) 函數(shù)f的全局敏感度定義如式(2)所示:

(2)

差分隱私為數(shù)據(jù)集添加Laplace噪聲,設(shè)有查詢函數(shù)f:D→Rd,其敏感度為Δq,若M滿足式(3):

M(D)=f(D)+[Lap(Δq/ε)]

(3)

則稱M提供ε-差分隱私保護(hù),其中Lap(Δq/ε)表示服從尺度參數(shù)為Δq/ε的Laplace分布的隨機(jī)噪聲。

定義3(組合差分隱私[16]) 已知數(shù)據(jù)集D1={s1,s2,…,spnum}包含原始數(shù)據(jù)中的列向量;D2={sc1,sc2,sc3,sc4}為初級(jí)聚類算法產(chǎn)生的一級(jí)聚類結(jié)果,全數(shù)據(jù)集D=D1∪D2={s1,s2,…,spnum,sc1,sc2,sc3,sc4},D1和D2的ε值不同。D的相鄰數(shù)據(jù)集D′={s′1,s′2,…,s′pnum,s′c1,s′c2,s′c3,s′c4},D和D′中均包含pnum+4個(gè)列向量,相對(duì)應(yīng)的列向量s和s′僅相差1個(gè)樣本。clui為D中任意一列數(shù)據(jù),clu′i為D′中對(duì)應(yīng)列,若算法M在clui和clu′i上的輸出Si滿足Pr[M(clui)∈Si]≤eεiPr[M(clu′i)∈Si],則M滿足組合差分隱私,如式(4)所示:

(4)

其中,ε1和ε2分別表示D1和D2對(duì)應(yīng)的隱私保護(hù)預(yù)算,Lap(△qi/εi)(i=1,2)表示為Di生成的Laplace噪聲。

2.2 Stacking集成學(xué)習(xí)算法

Stacking是由Woplert[17]提出的一種可用于異質(zhì)學(xué)習(xí)器的串行集成學(xué)習(xí)框架,該框架采用多個(gè)初級(jí)學(xué)習(xí)器對(duì)數(shù)據(jù)集進(jìn)行訓(xùn)練,然后利用次級(jí)學(xué)習(xí)器對(duì)初級(jí)學(xué)習(xí)器的輸出進(jìn)行學(xué)習(xí),實(shí)現(xiàn)多個(gè)異質(zhì)學(xué)習(xí)算法的融合,提升整體算法的泛化性能。

對(duì)于數(shù)據(jù)集DS={(xn,yn),n=1,2,…,N},其中,xn為特征向量,yn為預(yù)測(cè)值,將DS劃分為訓(xùn)練集DS1和測(cè)試集DS2。Stacking集成學(xué)習(xí)算法的流程如下所示:

步驟1選擇t個(gè)初級(jí)學(xué)習(xí)器Hi(i=1,2,…,t)對(duì)訓(xùn)練集DS1進(jìn)行訓(xùn)練,然后分別得到初級(jí)學(xué)習(xí)器在訓(xùn)練集DS1上的輸出DS′1以及在測(cè)試集DS2上的輸出DS′2。

步驟2使用次級(jí)學(xué)習(xí)器H′對(duì)初級(jí)學(xué)習(xí)器的輸出DS′1進(jìn)行訓(xùn)練。

步驟3使用訓(xùn)練好的次級(jí)學(xué)習(xí)器H′對(duì)DS′2進(jìn)行預(yù)測(cè),得到最終對(duì)測(cè)試集DS2的預(yù)測(cè)結(jié)果。

3 基于差分隱私保護(hù)的Stacking集成聚類算法

3.1 初級(jí)聚類算法的選擇

在選擇初級(jí)聚類算法時(shí),算法的差異性決定著集成算法的性能,因此在選擇初級(jí)聚類算法時(shí)需要綜合考慮各種聚類算法間的差異,以期取得更優(yōu)的聚類效果。通過對(duì)常用算法分析,本文選用以下4種聚類算法:

(1)K-means經(jīng)典算法以歐氏距離作為相似度值,迭代尋找新的簇中心,預(yù)測(cè)性能較好,適用于大規(guī)模數(shù)據(jù)集。

(2)Spectral算法將數(shù)據(jù)視為無向圖的鄰接矩陣,通過多路劃分實(shí)現(xiàn)聚類,但算法復(fù)雜度較高,適合小規(guī)模應(yīng)用。

(3)Birch算法通過對(duì)構(gòu)造出的聚類特征 CF(Clustering Feature)樹進(jìn)行掃描讀取特征元組,分析CF樹結(jié)構(gòu)中的最大子樹和最大距離實(shí)現(xiàn)聚類,時(shí)間復(fù)雜度較低。

(4)GaussianMixture算法通過計(jì)算樣本滿足高斯分布的概率為其分配相似度,然后對(duì)概率進(jìn)行修正從而劃分簇。

這4種算法的時(shí)間復(fù)雜度、可伸縮性、對(duì)噪聲的敏感度以及處理較大樣本集的能力均有較大差異,滿足集成算法對(duì)基聚類器的要求。

3.2 基本思想

基于差分隱私保護(hù)的Stacking集成聚類(DPC-Stacking)算法將K-means、Spectral、Birch和GaussianMixture作為異質(zhì)聚類算法,對(duì)原始數(shù)據(jù)集D1添加自適應(yīng)的Laplace噪聲得到脫敏數(shù)據(jù)集D′1,采用k折交叉驗(yàn)證學(xué)習(xí)D′1,合并k折預(yù)測(cè)結(jié)果,作為初級(jí)聚類算法輸出。結(jié)合輪廓系數(shù)對(duì)預(yù)測(cè)集加權(quán)得到D2,為D2分配自適應(yīng)噪聲,得到加噪后的預(yù)測(cè)集D′2。以K-means算法為次級(jí)聚類算法,輸入數(shù)據(jù)集Dtotal(Dtotal=D′1∪D′2),產(chǎn)生最終聚類簇。

3.3 自適應(yīng)ε函數(shù)p(x)

ε決定隱私保護(hù)程度,不同類型數(shù)據(jù)對(duì)隱私保護(hù)程度具有不同要求,因而需要添加不同大小的噪聲。本文定義了DPC-Stacking算法工作過程中的自適應(yīng)ε函數(shù)p(x),驗(yàn)證了在集成聚類算法中分配自適應(yīng)噪聲的可行性。

在為原始數(shù)據(jù)集D1和初級(jí)聚類算法產(chǎn)生的預(yù)測(cè)集D2選擇ε函數(shù)p(x)時(shí)需要注意到,原始數(shù)據(jù)集中含有較多離群點(diǎn)和非私密信息,且數(shù)據(jù)量較大,并無過高的隱私保護(hù)需求。而初級(jí)聚類算法產(chǎn)生的預(yù)測(cè)集由初級(jí)聚類算法對(duì)整個(gè)原始數(shù)據(jù)集分析得出,當(dāng)聚類簇?cái)?shù)差異較大時(shí),易泄露用戶隱私,且其風(fēng)險(xiǎn)等級(jí)依賴聚類的準(zhǔn)確性。本文定義D1和D2上的自適應(yīng)ε函數(shù)pi(x)如式(5)所示:

(5)

式(5)綜合了樣本規(guī)模和初級(jí)聚類算法的輪廓系數(shù),當(dāng)樣本較多時(shí)不易泄露隱私,分配較大的ε。而初級(jí)聚類算法的輸出中若各簇節(jié)點(diǎn)數(shù)相差較大,則有較高安全風(fēng)險(xiǎn),因而分配較小的ε,添加更大的Laplace噪聲。

3.4 算法流程

DPC-Stacking集成聚類算法的基本流程如下所示:

輸入:數(shù)據(jù)集Da={s1,s2,…,spnum},聚類數(shù)K,隱私預(yù)算ε,初級(jí)聚類算法φi(i=1,2,…,T),次級(jí)聚類算法φ。

輸出:經(jīng)ε-差分隱私保護(hù)的聚類簇。

步驟1計(jì)算Da的隱私預(yù)算ε1=p1(x),生成Laplace噪聲noise1=Lap(Δq1/ε1);

步驟2向Da中添加噪聲得到脫敏的數(shù)據(jù)集D′a,D′a=Da+noise1;

步驟3將D′a分為k個(gè)子集D′a1,D′a2,…,D′ak;

步驟4 for1≤i≤Tdo:

步驟5for1≤j≤kdo:

步驟6將D′a-D′aj輸入到初級(jí)聚類算法φi,得到預(yù)測(cè)子集S′ij;

步驟7endfor

步驟8合并k個(gè)預(yù)測(cè)子集S′ik得到預(yù)測(cè)子集Si,Si=S′i1∪S′i2∪…∪S′ik;

步驟9 endfor

步驟10計(jì)算各初級(jí)聚類算法的輪廓系數(shù)λi(i=1,2,…,T),分別對(duì)每個(gè)預(yù)測(cè)子集Si中的每個(gè)元素乘以權(quán)重系數(shù)100×λi;

步驟11合并T個(gè)預(yù)測(cè)子集Si,得到基聚類器的預(yù)測(cè)集S=S1∪S2∪…∪ST;

步驟12計(jì)算預(yù)測(cè)集S的隱私預(yù)算ε2=p2(x),生成滿足ε2-差分隱私的Laplace噪聲noise2=Lap(Δq2/ε2);

步驟13向S中添加噪聲得到數(shù)據(jù)集S′,S′=S+noise2;

步驟14合并數(shù)據(jù)集D′a和S得到D′,將其作為次級(jí)聚類算法φ的輸入,得到最終聚類結(jié)果。

3.5 隱私性分析

由于原始數(shù)據(jù)與初級(jí)聚類算法的輸出所執(zhí)行的隱私預(yù)算不同,因此對(duì)于次級(jí)聚類算法所執(zhí)行的聚類數(shù)據(jù)無法分析其整體隱私性。本節(jié)通過組合差分隱私間接分析DPC-Stacking算法隱私性,若所有數(shù)據(jù)塊均滿足ε-差分隱私保護(hù),則算法全局滿足ε-差分隱私保護(hù)。

設(shè)相鄰數(shù)據(jù)集D與D′僅相差1個(gè)樣本,M(D)和M(D′)分別表示DPC-Stacking算法在D與D′上的輸出,S是任意一種聚類的劃分結(jié)果。若M(D)和M(D′)均滿足Pr[M(D)∈S]≤eεiPr[M(D′)∈S],則DPC-Stacking算法滿足ε-差分隱私保護(hù)。

證明由條件概率知

其中,σi為尺度參數(shù),服從Laplace分布;Pr[·]為輸出概率。由σi=Δqi/εi得

由f(D)-f(D′)≤Δqi得

故Pr[M(D)∈S]≤eεiPr[M(D′)∈S],由定義3,M滿足ε-差分隱私。

3.6 時(shí)間復(fù)雜度分析

在3.4節(jié)所述DPC-Stacking算法步驟中,步驟1和步驟2用于生成原始數(shù)據(jù)并添加噪聲,其時(shí)間復(fù)雜度為O(Nd);步驟3~步驟8中各初級(jí)聚類算法生成預(yù)測(cè)子集的時(shí)間復(fù)雜度為O(NdKI)+O(N2)+O(N2logN)+O(N2);步驟9和步驟10對(duì)初級(jí)聚類算法的輸出加權(quán)并合并至原始數(shù)據(jù)集中,其時(shí)間復(fù)雜度為O(NT);步驟11和步驟12向預(yù)測(cè)集中添加噪聲的時(shí)間復(fù)雜度為O(NT);步驟13和步驟14使用K-means算法對(duì)擴(kuò)展數(shù)據(jù)集進(jìn)行聚類的時(shí)間復(fù)雜度為O(NdKI)。其中,N為樣本數(shù),d為樣本維度,K為聚類個(gè)數(shù),I為K-means算法中的迭代次數(shù),T為初級(jí)聚類算法個(gè)數(shù)。

上述5個(gè)計(jì)算過程無嵌套關(guān)系,因而DPC-Stacking算法的總時(shí)間復(fù)雜度為5個(gè)過程中最大的時(shí)間復(fù)雜度,即O(max(N2,NT,NdKI))。由此可知,算法精度的提升雖然導(dǎo)致計(jì)算量略有提升,但與初級(jí)聚類算法相比,其時(shí)間復(fù)雜度仍為一個(gè)數(shù)量級(jí),不會(huì)對(duì)算法運(yùn)行時(shí)長(zhǎng)產(chǎn)生較大影響。

4 實(shí)驗(yàn)及結(jié)果分析

4.1 實(shí)驗(yàn)環(huán)境及數(shù)據(jù)

實(shí)驗(yàn)所用計(jì)算機(jī)配置為:Intel?CoreTMi5-7200U CPU @ 2.50 GHz、8 GB內(nèi)存,使用Python編程。所用數(shù)據(jù)如表1所示,DB1~DB3數(shù)據(jù)集均來自UCI數(shù)據(jù)庫,DB4數(shù)據(jù)集來自DRYAD數(shù)據(jù)庫。DB1為丙型肝炎血液檢測(cè)數(shù)據(jù),包含正常血液、丙型肝炎及發(fā)展至纖維化、肝硬化時(shí)期患者血液。DB2為宮頸癌行為風(fēng)險(xiǎn)數(shù)據(jù)集,包含正常受訪者和宮頸癌患者的行為特征。DB3為正常受訪者和肥胖癥患者的飲食習(xí)慣和身體狀況數(shù)據(jù)。DB4為2010年Nordsj?lland 大學(xué)醫(yī)院急診科連續(xù)入院患者的常規(guī)血液檢查及其死亡風(fēng)險(xiǎn)預(yù)測(cè)。

Table 1 Experimental data information表1 實(shí)驗(yàn)數(shù)據(jù)信息

4.2 聚類效果的評(píng)價(jià)指標(biāo)

(1)Calinski-Harabasz系數(shù)。

Calinski-Harabasz(CH)系數(shù)是一種聚類的評(píng)估標(biāo)準(zhǔn),通過簇間距離差與簇內(nèi)距離差之間跡的比值,判斷聚類結(jié)果集中簇內(nèi)的密合程度以及各簇間的分離程度。CH系數(shù)的計(jì)算如式(6)所示:

(6)

其中,tr(·)表示矩陣的跡,Bk表示各個(gè)簇的協(xié)方差矩陣,Wk表示簇內(nèi)的協(xié)方差矩陣,n表示樣本個(gè)數(shù),k表示聚類個(gè)數(shù),CH(k)∈[-1,1]。

CH系數(shù)的值越大,代表聚類效果越好,各個(gè)簇間距離更遠(yuǎn)且簇內(nèi)元素在空間中分布越緊密。

(2)輪廓系數(shù)。

輪廓系數(shù)(Silhouette Coefficient)綜合考慮了內(nèi)聚度和分離度,通過計(jì)算簇內(nèi)和簇間的不相似度,給出聚類效果的評(píng)價(jià)。樣本spl的輪廓系數(shù)定義如式(7)所示:

(7)

其中,a(spl)表示數(shù)據(jù)集的簇內(nèi)不相似度,即樣本spl到該簇內(nèi)異于該點(diǎn)樣本的平均距離;b(spl)為簇間不相似度,即樣本spl到其他簇內(nèi)樣本點(diǎn)的平均距離。

綜上,數(shù)據(jù)集的輪廓系數(shù)定義如式(8)所示:

(8)

其中,Nspl為樣本個(gè)數(shù),S∈[-1,1]。

4.3 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)對(duì)DB1~DB4進(jìn)行預(yù)處理,將類別屬性轉(zhuǎn)換為實(shí)數(shù),剔除含有缺失值的樣本。分別對(duì)K-means、Birch、Spectral和GaussianMixture 4種初級(jí)聚類算法進(jìn)行測(cè)試,然后對(duì)C-Stacking (無噪聲的DPC-Stacking)算法進(jìn)行測(cè)試,對(duì)比基于Stacking思想的集成聚類算法的CH系數(shù)和輪廓系數(shù),結(jié)果如圖1所示。

由圖1可知,與單一聚類算法相比,C- Stacking算法經(jīng)聚類計(jì)算產(chǎn)生的CH系數(shù)提升了43%~406%,輪廓系數(shù)提升了26.7%~83.9%。實(shí)驗(yàn)的數(shù)據(jù)來源于不同領(lǐng)域,且樣本數(shù)和特征數(shù)有較大差別,但聚類性能均得到顯著增強(qiáng),表明DPC-Stacking算法具有較高的可用性與魯棒性。因此可知,基于Stacking思想的集成聚類算法遠(yuǎn)優(yōu)于單一聚類算法。

然后,分別令ε=0.05,0.1,0.2,0.5,1,5,10,測(cè)試DPC-Stacking算法在不同隱私預(yù)算ε下對(duì)數(shù)據(jù)集DB1~DB4的聚類效果。考慮到算法所添加的Laplace噪聲具有隨機(jī)性,實(shí)驗(yàn)結(jié)果可能存在差異,對(duì)不同ε的DPC-Stacking算法運(yùn)行20次,取CH系數(shù)和輪廓系數(shù)的平均值作為結(jié)果,其對(duì)比圖如圖2所示。

由圖2可知,隨著ε的增大,為數(shù)據(jù)集分配的Laplace噪聲變小,數(shù)據(jù)的可用性得到提高,因而聚類結(jié)果的準(zhǔn)確性也不斷提高。當(dāng)ε<0.5時(shí)噪聲過大,加噪后數(shù)據(jù)集的空間特征難以準(zhǔn)確體現(xiàn)樣本的實(shí)際特征,聚類結(jié)果較差。當(dāng)ε≥0.5時(shí),算法可以提供足夠的隱私保護(hù),聚類的準(zhǔn)確性提升較大,實(shí)現(xiàn)了數(shù)據(jù)安全性與可用性的平衡。因此,將差分隱私保護(hù)用于DPC-Stacking算法實(shí)現(xiàn)安全高效的聚類是可行的。

Figure 1 Comparison of performance between single clustering algorithm and DPC-Stacking(no noise) algorithm圖1 單一聚類算法與無噪聲DPC-Stacking算法性能對(duì)比

Figure 2 DPC-Stacking算法在不同ε下的聚類性能圖2 Clustering performance of DPC-Stacking algorithm with different ε values

為驗(yàn)證3.3節(jié)提出的自適應(yīng)ε函數(shù)p(x),分別使用4種初級(jí)聚類算法對(duì)DB1~DB4進(jìn)行聚類,計(jì)算原始數(shù)據(jù)集D1和初級(jí)聚類算法產(chǎn)生的預(yù)測(cè)集D2的ε函數(shù)p1(x)和p2(x)的值,其具體值如表2所示。將其分別代入DPC-Stacking算法,算法運(yùn)行結(jié)果與圖2中近似的傳統(tǒng)ε的對(duì)比結(jié)果如圖3所示。

Table 2 ε function value of each dataset表2 各數(shù)據(jù)集的ε函數(shù)p(x)值

Figure 3 Comparison of adaptive ε and traditional ε clustering圖3 自適應(yīng)ε與傳統(tǒng)ε聚類對(duì)比圖

由圖3可知,其他條件不變時(shí),原始數(shù)據(jù)中添加的噪聲對(duì)聚類算法性能的影響大于對(duì)初級(jí)聚類算法的聚類結(jié)果所產(chǎn)生的影響。同時(shí),采用自適應(yīng)的ε函數(shù)p(x)確定隱私預(yù)算,其生成的噪聲更適合數(shù)據(jù)集的結(jié)構(gòu)特點(diǎn),在添加相近噪聲時(shí)可產(chǎn)生更優(yōu)的聚類效果,實(shí)現(xiàn)同級(jí)別的隱私保護(hù),在滿足ε-差分隱私保護(hù)的基礎(chǔ)上仍可提升模型聚類性能,保證了數(shù)據(jù)可用性。因此,本文提出的自適應(yīng)ε函數(shù)p(x)相對(duì)于傳統(tǒng)的無差別ε具有一定的優(yōu)越性。

5 結(jié)束語

數(shù)據(jù)挖掘中的隱私保護(hù)近年來備受關(guān)注,傳統(tǒng)聚類僅采用單一算法進(jìn)行分析,此時(shí)引入差分隱私對(duì)算法性能影響較大,難以保證數(shù)據(jù)隱私性與可用性的平衡。本文提出了一種基于差分隱私保護(hù)的DPC-Stacking集成聚類算法。通過改進(jìn)Stacking集成學(xué)習(xí)算法,并將其與聚類算法相結(jié)合,實(shí)現(xiàn)了高精度的Stacking聚類算法。考慮到聚類算法在實(shí)踐中易產(chǎn)生的隱私泄露問題,將差分隱私引入Stacking聚類算法,并提出適合該算法特性的自適應(yīng)ε函數(shù)p(x),為初級(jí)聚類算法在不同階段的輸入添加更合適的噪聲,在保證數(shù)據(jù)可用性的基礎(chǔ)上實(shí)現(xiàn)了可度量的隱私保護(hù),大幅提高了聚類的準(zhǔn)確性與安全性,為差分隱私在集成聚類中的應(yīng)用開拓了新思路。

猜你喜歡
原始數(shù)據(jù)復(fù)雜度差分
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
數(shù)列與差分
受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
一種低復(fù)雜度的慣性/GNSS矢量深組合方法
全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
求圖上廣探樹的時(shí)間復(fù)雜度
某雷達(dá)導(dǎo)51 頭中心控制軟件圈復(fù)雜度分析與改進(jìn)
出口技術(shù)復(fù)雜度研究回顧與評(píng)述
基于差分隱私的大數(shù)據(jù)隱私保護(hù)
相對(duì)差分單項(xiàng)測(cè)距△DOR
太空探索(2014年1期)2014-07-10 13:41:50
柏乡县| 桃江县| 齐齐哈尔市| 朝阳区| 荣成市| 英德市| 连江县| 巴里| 英吉沙县| 嘉荫县| 莱阳市| 库尔勒市| 周口市| 二手房| 西峡县| 策勒县| 尚志市| 全椒县| 城口县| 盈江县| 若羌县| 乐都县| 克拉玛依市| 庄河市| 天长市| 南陵县| 集安市| 大方县| 儋州市| 西昌市| 郎溪县| 宜良县| 兰溪市| 芷江| 南城县| 南涧| 松阳县| 柘荣县| 舟山市| 福清市| 南靖县|