高 琦,李紅嬌
上海電力大學 計算機科學與技術學院,上海 200090
智能電網將傳統(tǒng)電網系統(tǒng)與先進的信息通信技術(如高級量測體系)相結合,能夠提供更高的可靠性、靈活性、可持續(xù)性及安全性,被視為下一代電網發(fā)展的重要趨勢之一[1-3]。智能電表作為系統(tǒng)中的傳感器及量測點,是智能電網的重要組成部分,它允許用戶通過其監(jiān)測、跟蹤用戶用電,并且能夠向電力公司的負荷管理、線路規(guī)劃、生產優(yōu)化、識別非技術損失(例如電力盜竊)等功能提供可靠的數據支持[1-2,4]。
但是在智能電網應用中,采集用戶用電數據可能會對用戶隱私構成嚴重威脅。在實際的應用中,用戶用電數據可能被攻擊者用于推斷在家的成員數量、設備的使用情況、日?;顒訒r間甚至生活方式等私人信息[1-3,5]。
圖1 所示為某個用戶一周的用電軌跡。該系統(tǒng)共有1 個總表和3 個分表,記錄的是有功能耗值。圖1 較為直觀地展示了用戶用電數據集的數據特性,即數據存在比較明顯的周期性和稀疏性。
為了保護用戶用電數據的隱私,眾多科研人員提出了許多隱私保護方案,主要方法包括:聚合加密[1-2,4,6]、隨機擾動[5-9]及泛化匿名[10]。在這三種隱私保護方案中,隨機擾動方案對數據統(tǒng)計特性的影響較小,能夠保證較好的數據可用性。而在眾多的隨機擾動方法中,差分隱私機制[11]以嚴格的數學公式定義了隱私保護水平和量化評估方法,無論攻擊者擁有多少背景知識,都能保證隱私保護強度。因此差分隱私迅速取代傳統(tǒng)隱私保護方法的地位,成為了當前隱私保護研究的熱點。
圖1 某個家庭一周的用戶用電軌跡
由于智能電表用戶用電數據集存在多維數據的稀疏問題和數據相關性導致的隱私泄露問題,現有的面向時序數據的差分隱私保護方法在用戶用電數據上的可用性并不強,主要問題如下:
(1)發(fā)布數據集的可用性較低。由于用戶用電數據序列的統(tǒng)計特性受到用戶用電行為模式的嚴重影響,數據間存在較為明顯的差異,全局敏感度通常較大。Chen等人首次提出了能夠滿足相關性數據的組差分隱私DER機制[12],DER機制實現了在k條記錄相關時的組差分隱私,但該機制對數據統(tǒng)計特性的破壞較大,可用性不高。Zhu等人提出的相關性敏感度[13]將記錄之間的關聯程度與全局敏感度相結合,對相關性較弱的數據集上的大規(guī)模查詢有較好的效果,但數據相關性越強,全局敏感度越高,相關敏感度就越大。Wang 等人在CLM 算法[14-15]中實現了基于全局敏感度的相關性Laplace機制,實現了原數據序列與噪聲序列的不可區(qū)分性,使得攻擊者無法進行濾波攻擊。為了實現方法[12-15]設計的差分隱私保護強度,算法在原始用電數據中添加了過多的噪聲,使得發(fā)布數據的可用性不高。
(2)方法的計算開銷過大。Zhu 等人的CIM 機制[13]需要分析數據集中所有屬性相互之間的相關性,并生成維度等于數據集屬性個數的相關系數矩陣。Wang等人的CLM機制[14-15]需要計算整個序列的自相關函數,無論這個序列是否稀疏。數據的稀疏性會隨著用戶用電數據維度的增大而增大,大部分的隱私保護方法[12-15]沒有考慮到用電數據的稀疏性問題,計算開銷往往較大。
(3)方法的隱私保護強度達不到預期水平。根據Kifer 等人的研究[16],當數據存在相關性時,差分隱私方法可能達不到預期性能,會使得個人隱私受到侵害。在之后的研究中Kifer 等人提出了Pufferfish 機制[17],雖然已經將相關數據納入考量范圍,但是并不滿足差分隱私要求。根據Wang 等人的研究[14-15],若數據集存在自相關性,攻擊者可以利用這種相關關系,采取濾波等手段濾除一部分獨立同分布(Independent and Identically Distributed,IID)噪聲,并以此提高攻擊成功率。因此對于用戶用電數據集,要想實現ε-差分隱私,向原數據添加IID-噪聲是不合適的。
這意味著,目前針對時序數據發(fā)布的差分隱私機制不適用于發(fā)布智能電表用戶的用電數據集。本文針對上述問題,提出了一種基于周期敏感度的差分隱私保護方法(Period Sensitivity Method,PSM)。本文將用戶用電數據序列分為數據較為稀疏的穩(wěn)定期序列和用電行為模式明顯的活躍期序列,并給出了2種差分隱私保護策略。具體地說,本文的貢獻主要有以下3點:
(1)提出周期敏感度,避免了使用全局敏感度導致噪聲過大的問題,對穩(wěn)定期序列采用平滑濾波,提高了數據的可用性。
(2)將用戶用電數據序列分為穩(wěn)定期序列和活躍期序列,能夠針對不同的數據特性采用不同的差分隱私保護策略。減少了稀疏數據中不必要的計算開銷,提高了執(zhí)行效率。
(3)對活躍期序列使用相關性隱私保護機制,減弱了濾波攻擊對隱私保護強度的影響,保證了差分隱私保護強度。
差分隱私通過向數據集D中的每個數據項添加噪聲,來確保D中某個數據項的缺失對輸出結果的影響不明顯,有效地抵御了差分攻擊。
定義1(ε-差分隱私[11])假設M是一個隨機算法,集合S是M輸出結果的任意子集,即S∈Range(M),?D,D′ 是一對鄰近數據集,即 |DΔD′|=1,若算法M滿足:
則稱算法M滿足ε-差分隱私。其中,ε代表隱私預算,Pr(?)是概率密度函數。ε越小代表隨機算法M在D和D′上的輸出結果越相似,即隱私保護強度越強。在實際應用中,數值型數據集通常使用Laplace 機制實現算法M的差分隱私。
定義2(Laplace 機制[18])設有數據集D,給定查詢函數f:D→Rd,Rd表示f所映射的d維實數空間,函數f的敏感度為Δf。若方法M滿足:
則M滿足ε-差分隱私。
?時刻t1,t2,X(t)表示隨機信號,自相關函數描述了X(t1)和X(t2)之間的關聯程度。
定義3(自相關函數[15])假設X(t)表示某個實隨機信號,X(t)在t1,t2的自相關函數RXX(t1,t2)定義為:
其中,x1,x2∈X(t),?(?)表示概率密度函數。
當X(t)是穩(wěn)定隨機信號時,X(t)的統(tǒng)計特性與時間起點無關,令t2=t1+τ,則?(x1,x2;t1,t2)=?(x1,x2;τ)。令穩(wěn)定隨機信號的自相關函數的自變量為時間間隔τ,記為RXX(τ)。
用戶用電序列主要由時間和用戶用電值組成,分解出的活躍期序列在短時間內的用電數值之間的關聯性較強。因此,活躍期序列可視為短時穩(wěn)定過程,即可使用自相關函數表示序列的自相關性。
當噪聲序列與原序列的自相關函數相同時,攻擊者無法利用掌握的相關性背景知識濾除噪聲,也就無法識別原始序列與噪聲序列,即實現了無條件的隱私保護。
定義4(序列不可區(qū)分性[14-15]) 假設RXX(τ)與RZ(τ)分別是原始序列X與噪聲序列Z的自相關函數,若RZ(τ)=RXX(τ),則原始序列與噪聲序列滿足序列不可區(qū)分性。攻擊者無法利用原始序列的自相關信息發(fā)動攻擊。
定理1[14-15]當發(fā)布序列與原始序列的自相關函數滿足序列不可區(qū)分性時,發(fā)布序列滿足ε-差分隱私。與原始差分隱私相比,相同隱私保護強度下,噪聲規(guī)模不會擴大。
Wang等人設計的CLM濾波器[14-15]能夠使IID-Gauss噪聲Gi(i=1,2,3,4 )通過后成為相關性Gauss 噪聲(i=1,2,3,4 ),使得由生成的相關性Laplace噪聲序列Z滿足與原始序列X的不可區(qū)分性。
定理2[14-15]若Gi'(i=1,2,3,4 )的自相關函數RG′(τ)滿足:
則噪聲序列Z與原始序列X的自相關函數滿足RZ(τ)=RXX(τ)。
定理3[14-15]以N0表示Gi( )i=1,2,3,4 的功率譜密度,若濾波器的沖激響應h(τ)滿足:
由于用戶用電數據受到用戶用電行為模式的影響,存在較為明顯的周期性,并且根據是否包含用戶用電行為模式,可將一個周期序列片段分為穩(wěn)定期序列或活躍期序列,并給出了兩種隱私保護策略。
穩(wěn)定期序列值在某個常數附近波動,此時電器大多以低功率自行運轉,或是處于關閉狀態(tài),用戶用電行為不明顯。活躍期指的是用戶用電行為較為明顯,用電數據波動較大的時期,此時的用電數據包含了用戶的用電行為模式,需要不被破壞的隱私保護策略。
本文假設數據集D∈RT×Rn,D的第i維序列表示為表示Di的穩(wěn)定期用電序列集,長度為表示Di的活躍期用電序列集,長度為顯然,。
由于穩(wěn)定期與活躍期的隱私保護方法有所不同,本文實際上使用了兩種周期敏感度。當X,X′∈{Xstb} 時,得到穩(wěn)定期的周期敏感度PS(f)=PSstb;當X,X′∈{Xact} 時,得到活躍期的周期敏感度PS(f)=PSact。
定義5(穩(wěn)定期敏感度)有一對臨近序列X和X′,f為查詢函數,?f:X→Rd,則f的穩(wěn)定期敏感度為:
定義6(活躍期敏感度)有一對臨近序列X和X′,f為查詢函數,?f:X→Rd,則f的活躍期敏感度為:
與Dwork 提出的全局敏感度GS[11]相比,GS是刪除數據集D中任一記錄時對查詢造成的最大改變量,PS則是刪除某段序列X中的任一記錄時造成的最大改變量,顯然PS≤GS。根據定義2,當添加的噪聲時,方法滿足ε-差分隱私。
Rastogi 和 Nath 的研究[19]給出了由 Gauss 信號生成Laplace信號的方法,本文推導出了由Gauss噪聲生成特定的Laplace噪聲時需要滿足的條件。
定理4設有IID-Gauss隨機變量Yi,i∈{ }1,2,3,4 ,若要使Z~Lap( )λ,即E( )Z =0,。
證明令等價于Z2~Lap( )λ。
本文提出了面向智能電表用戶用電數據保護的PSM方法,具體如下。
根據穩(wěn)定期序列值與活躍期序列值的統(tǒng)計特性差異較大的特點,本文設計了分界判定算法,用來尋找穩(wěn)定期序列與活躍期序列的分界點,并判定分解出的序列屬于哪種序列集。假設X={x1,x2,…,xn} 為待分解用戶用電序列,X中的最大值為xmax,最小值為xmin,均值為;L用來存儲將要分解出的序列值,令m表示超過時間跨度σ所能包含的最少序列數量。
若步驟5和步驟6中新加入的序列片段與序列集中的前一個序列片段的時間戳是連續(xù)的,則將這兩個序列片段按照時間戳歸為一個序列片段。
顯然δ∈( 0,1] ,δ設置得越小說明xl與xj+m+1的相對差值越小,xl和xj+m+1屬于同一種序列集的概率就越大,誤分解的概率就越大,可能將某段序列劃分到另一種序列集中,使得方法在分解序列時的敏感度增大。σ設置得過大可能導致無法準確區(qū)分穩(wěn)定期序列和活躍期序列,造成方法的敏感度提升。當δ取最大值,即δ=1 時,只有L中出現xmax值,且以xmin為分界點時,Demc(?)才能分解序列,這時周期敏感度大概率接近全局敏感度。
考慮到用戶用電行為及智能電表的采樣頻率不同,界定閾值δ和分段間隔σ要由從業(yè)人員根據數據集的具體情況設定。
由于穩(wěn)定期序列中的大部分數據是電器待機或者關機時記錄的,受到用戶用電行為的影響較小,數據相關性不強,可看作獨立分布的數據?;钴S期序列集在時間上間斷,但是序列集中的用電行為連續(xù),用電行為模式不會受到太大影響,可將整個活躍期序列集看作一個連續(xù)序列。因此,穩(wěn)定期序列與活躍期序列在重要性和相關性上存在較大差異,不適合使用同一種隱私保護策略,所以PSM 對穩(wěn)定期序列和活躍期序列采取不同的隱私保護方法。
假設穩(wěn)定期序列集{Xstb}={Xi|i=1,2,…,k} ,其中表示查詢函數f在鄰接穩(wěn)定期序列Xi和Xi'上的周期敏感度。
其中,若Z~Lap(λ) ,則E(Z)=0,D(Z)=2λ2。
由于{Xact} 中是用電行為連續(xù)的序列片段,序列片段之間的相關性較強,可將{Xact} 視為長度為Tact的時間序列。
算法4活躍期用電序列發(fā)布算法DPact(X)
3.4.1 隱私保護強度
根據差分隱私并行組合特性[20],PSM方法的隱私保護強度由各段用電序列上最差的隱私保護強度決定。
定理5(差分隱私的并行組合特性)設數據集D被劃分為n個不相交子集D={D1,D2,…,Dn} ,有n個隨機算法Ai(i=1,2,…,n),其中Ai在Di上滿足εi-差分隱私,則{Ai} (i=1,2,…,n)的組合算法滿足差分隱私。
PSM 方法處理的是原數據集劃分成的互不相交的穩(wěn)定期序列和活躍期序列,因此可以直接使用定理5分析PSM 方法的隱私性。PSM 方法只在DPstb(X)生成IID-噪聲和DPact(X)生成相關噪聲時消耗隱私預算,若給定隱私預算ε,只需證明DPstb(X)和DPact(X)在互不相交的用電序列上的隱私消耗沒有超出ε,就證明PSM滿足ε-差分隱私。
定理6(后處理[21]) 設算法M:D→ Rd是滿足ε-差分隱私的隨機函數,?f:Rd→R'd是一個隨機映射函數,Rd和R'd表示2個d維實數空間,則二者的復合映射函數也滿足ε-差分隱私。
對于DPstb( )X,根據定理6,對算法輸出的映射操作不影響隱私性,因此平滑操作不會降低隱私保護強度。根據定義2[18],若生成IID-噪聲的幅度不超過λ=則DPstb( )X在各段穩(wěn)定期序列上的隱私消耗εi≤ε。因此,PSM 要求DPstb( )X生成的IID-噪聲的幅度最大值為,此時DPstb( )X的隱私消耗不超過ε,即DPstb( )X滿足ε-差分隱私。
對于DPact(X),當生成的Gauss噪聲的幅度不超過則Gauss噪聲通過特定濾波器之后得到的相關噪聲滿足序列不可區(qū)分性,因此由定理1[14-15],DPact(X)的隱私消耗不超過ε,即DPact(X)滿足ε-差分隱私。
綜上所述,由于穩(wěn)定期序列與活躍期序列互不相交,根據定理5 的差分隱私的并行組合特性,PSM 方法滿足ε-差分隱私。
3.4.2 算法可靠性
PSM 方法較好地解決了獨立噪聲容易被濾除的問題,不會因為攻擊者的濾波攻擊泄露用戶的用電行為模式敏感信息。PSM 將用戶用電數據分解為穩(wěn)定期序列和活躍期序列。穩(wěn)定期序列包含的隱私信息較少,數據相關性不強,可看作獨立分布數據,PSM在穩(wěn)定期序列中添加IID-噪聲?;钴S期序列在時間上不連續(xù),但在用電行為上連續(xù),PSM根據活躍期序列的自相關性,添加與活躍期序列的自相關函數相同的相關性噪聲,能夠抵御濾波攻擊。由于攻擊者擁有的是用戶整體的相關性背景知識,若攻擊者沒有得到具體的序列分解情況,則不能準確地濾除噪聲。即使攻擊者得到序列分解細節(jié),也只能濾除穩(wěn)定期序列上的IID-噪聲。由于活躍期序列與相關性噪聲的自相關函數相同,濾波器無法濾除活躍期序列上的噪聲。因此,即使在序列分解細節(jié)泄露的前提下,PSM仍能保證用戶的用電行為模式不被泄露。
實 驗 環(huán) 境 為 Intel?CoreTMi5-7300HQ 2.50 GHz Windows 10 系統(tǒng),8 GB 內存。每個實驗在每個數據集上分別運行20 次,并取平均值。本文提出的方法在以下兩個真實數據集中進行了測試。
(1)ECO[22]。ECO(Electricity Consumption & Occupancy)數據集搜集了6個瑞士家庭8個月的用戶用電數據。每個用戶的數據集包含3 個大項:智能電表數據、智能插座數據和房間入住數據。數據以1 Hz的頻率采集,并以“-1”表示缺失值。6個用戶的智能電表數據集分別包含16個屬性值,但智能插座數據集各不相同,房間入住數據是一個Bool 型數據集??紤]數據缺失率,本文選擇對用戶01、02 和05 數據覆蓋率在98%以上的有功用電屬性進行實驗。具體地說,本文取3個用戶智能電表數據集中的三相有功之和、有功相位1、有功相位2、有功相位3;用戶01 的智能插座數據集中的01、02、05、07;用戶02 的智能插座數據集中的04、10、11;用戶05的智能插座數據集中的03進行實驗。本文取缺失值前一周相同時刻的數據,采用均值替換法補齊缺失值。
(2)HPC[23]。HPC(Household Power Consumption)數據集來自于UCI Machine Learning Repository,記錄了一個位于法國Sceaux的家庭,在2006年12月至2010年11 月(47 個月)期間,以每分鐘一次的采樣頻率收集的2 075 259個測量值。每條測量值包含7個屬性值,本文選擇了數據集中的總有功消耗值(kW/min)、有功用電子表1(W/h)、有功用電子表2(W/h)和有功用電子表3(W/h)進行實驗測試。數據集以“?”表示缺失值,同樣取缺失值前一周相同時刻的數據,利用均值替換法補齊缺失值。
實驗中選取的數據集實際上相當于4 個智能電表用戶的用電軌跡數據集,不過ECO 數據集的采樣頻率更高,用電軌跡的相關性更強。本文對這4個用戶用電軌跡數據集進行長度為1 000 的隨機線性查詢集Q。查詢結果的準確度以平均絕對誤差(MAE)衡量,定義如下:
MAE越大數據可用性越差。
為了評估界定閾值δ和時間跨度σ對PSM可用性的影響,本節(jié)通過實驗分別驗證了不同參數條件下PSM可用性的大小,并進行了相應的理論分析。
4.2.1 界定閾值δ 評估
在PSM 方法中,δ是控制分界判定算法準確度的參數,本文通過實驗檢驗了δ對PSM 方法可用性的影響。實驗設置δ的范圍是0.1~1,增量為0.1。實驗中設置隱私預算ε=1,時間跨度σ=20 min ,本文參考Eibl等人的實驗[24],將滑動窗口長度設為η=20。
如圖2所示,PSM的MAE呈現出了一種先降后升的趨勢。開始的時候,δ的增大顯然對PSM 起到了提高可用性的作用,MAE持續(xù)減小直到δ超過某個閾值,方法的MAE才會增大。例如在圖2(a)中,MAE在δ=0.7 之前一直保持下降的趨勢,并且在δ=0.7 時,MAE得到最小值1.9。在之后隨著δ的增加,MAE也隨之增大,并在δ=1.0 時得到最大值MAE=2.351。相同的趨勢在圖2(b)、(c)和(d)中可以觀察到。
實驗結果驗證了在3.3節(jié)對界定閾值δ的分析。δ越小,序列被誤分解的概率就越高,方法在序列上的敏感度會相應提升;δ太大時,分界判定函數不能準確地分解出序列,造成穩(wěn)定期序列與活躍期序列的混雜,方法在序列上的敏感度更接近于原始的全局敏感度。由于噪聲的量級與方法的敏感度成正比,而MAE與方法的敏感度成反比,所以圖2中的MAE會呈現出先下降然后快速增長的趨勢。
4.2.2 時間跨度σ 評估
在PSM 方法中,σ是控制分界判定算法分段長度的參數,本文通過實驗檢驗了σ對PSM方法可用性的影響。實驗設置σ的范圍是10~60 min,增量為10 min。實驗中設置隱私預算ε=1,界定閾值δ=0.7,滑動窗口長度η=20。
如圖3所示,PSM的MAE呈現出了一種先降后升的趨勢。隨著時間跨度σ的增大,MAE先是減小,當σ超過某個閾值時,MAE就會逐漸增大。例如在圖3(a)中,MAE在σ=10 min 時的MAE=2.065,當σ=20 min時MAE減小為1.900。在之后MAE逐漸增大,并且在σ=60 min 時,MAE=2.438。相同的趨勢在圖3(b)、(c)和(d)中可以觀察到。
圖2 界定閾值δ 對PSM可用性的影響
圖3 時間跨度σ 對PSM可用性的影響
實驗結果表明σ不是越小越好,若σ設置得過小,數據的可用性會變差。這是因為在穩(wěn)定期序列與活躍期序列交界的地方,數據的波動往往較大,如果σ設置得太短,可能會造成誤分解。而誤分解會提高敏感度,這也是圖3 中MAE在σ=20 min 時比在σ=10 min 時小的原因。由于分解出的序列長度與σ成正比,σ設置得太長時分界判定算法無法準確地分解出序列,穩(wěn)定期序列與活躍期序列混雜在一起,方法在序列上的敏感度會接近全局敏感度,這也是σ超過某個閾值后MAE逐漸增大的原因。
為了評估PSM 方法的性能,本節(jié)將PSM 方法的數據可用性及計算復雜度與當前性能最優(yōu)的相關性差分隱私保護方法CLM機制[14-15]進行對比。
4.3.1 可用性評估
實驗設置隱私預算ε的范圍是0.1~1,增量為0.1。實驗中設置界定閾值δ=0.7,時間跨度σ=20 min ,滑動窗口長度η=20。
如圖4所示,PSM方法在所有用戶用電數據集上都比CLM 機制擁有更低的MAE,意味著PSM 擁有更好的數據可用性。由于ECO數據集的用電數據序列的相關性更強,因此圖4(d)的MAE相比會小一些。在圖4(a)中,當ε=0.3 時,PSM 的MAE=6.625 ,而 CLM 的MAE=8.075 ,方法提升了 21.9%;當ε=1 時,PSM 的MAE=1.9,而CLM的MAE=2.488,方法提升了30.9%。相似的情況可以在圖4(b)、(c)和(d)中觀察到。這是因為MAE的大小取決于方法向原數據集中添加的噪聲的量的大小,而噪聲的量級正比于Laplace 分布中的尺度參數λ。根據定義2,當ε固定時,敏感度越小,噪聲的量級越小。即敏感度越小,MAE越小。
圖4 PSM與CLM的可用性對比
一般來說,隨機擾動保護方法的可用性與添加的噪聲規(guī)模成反比,添加的噪聲越多,方法的可用性越差。對于周期敏感度PS與全局敏感度GS,PS是某段序列中的任一條記錄被刪除時的最大影響值,有PS≤GS,噪聲規(guī)模由參數決定,因此與CLM機制相比,相同的隱私保護強度ε下,PSM向原數據集中引入的噪聲更少,可用性更好。并且DPstb(X)對穩(wěn)定期加噪序列進行了平滑處理,進一步改善了方法的可用性。所以PSM的MAE更小。
4.3.2 計算復雜度評估
由于PSM 和CLM 都屬于非交互式的差分隱私保護方法,因此計算復雜度與查詢集長度 ||Q等參數無關,只與待發(fā)布的數據集有關。因此,實驗設置隱私預算ε=1,界定閾值δ=0.7,時間跨度σ=20 min,滑動窗口長度η=20,計算復雜度以1 條查詢所用的平均運行時間為衡量標準,平均運行時間越長,計算復雜度越高。
圖5所示為PSM與CLM在各個數據集上的計算復雜度對比。顯然與CLM 相比,PSM 在4 名用戶用電數據集上的平均時間都更短,意味著PSM 的計算復雜度更低,運行效率更高,這也側面印證了ECO的數據更加稀疏。例如在HPC 數據集上,PSM 的平均運行時間為4.775 s,而CLM的平均運行時間為5.615 s。由于ECO,01 和 ECO,02 的數據相比 ECO,05 更加稀疏,PSM 在ECO,05上的平均運行時間相對更長,為3.626 s。
圖5 PSM和CLM的計算復雜度
當運行的數據集相同時,計算復雜度由方法需要計算的數據量決定,數據量越大,步驟越復雜,則計算復雜度越高。與CLM 機制相比,PSM 對穩(wěn)定期序列和活躍期序列施行不同保護策略,穩(wěn)定期序列采用計算復雜度較小的原始差分隱私機制,并減少了步驟較為復雜的DPact( )
X所需計算的數據量,只需要生成長度為Tact的相關噪聲,有效解決了數據集的稀疏問題,避免在稀疏數據上浪費計算資源,改善了計算復雜度。而CLM 機制需要生成長度為T的相關噪聲。由于在用戶用電數據集中Tact<T,因此PSM的計算復雜度更低。實驗表明數據集越稀疏,PSM的計算復雜度越小,運行速度越快。
由于現有的面向時序數據的差分隱私保護方法在用戶用電數據集上無法同時滿足隱私性和可用性要求,本文提出了滿足ε-差分隱私的面向智能電表用戶用電數據集的PSM方法。該方法將用電序列分解為穩(wěn)定期序列集和活躍期序列值,提出周期敏感度,并給出了兩種隱私保護策略。穩(wěn)定期序列由于隱私信息較少,方法以可用性為首要目標,將加噪序列通過平滑濾波器,在不損失隱私保護強度的前提下提高數據可用性?;钴S期序列由于包含用戶的用電行為模式,需要更為嚴密的隱私保護,方法在活躍期序列上以隱私性為首要目標,向活躍期序列中添加與活躍期序列自相關函數相同的噪聲,有效防止濾波攻擊,能夠提供不被破壞的ε-差分隱私。方法在4 個真實的智能電表用戶用電數據集上進行了實驗檢測,結果表明在同等隱私保護強度下,PSM方法在智能電表用戶用電數據集上的可用性、計算復雜度和可靠性均優(yōu)于傳統(tǒng)的差分隱私保護方法。