宋祺鵬,王繼東,張麗偉,高雅麗
(1.天津大學(xué) 電氣自動化與信息工程學(xué)院,天津 300072;2.國網(wǎng)上海能源互聯(lián)網(wǎng)研究院有限公司,北京 100192;3.北京郵電大學(xué) 可信分布式計算與服務(wù)教育部重點實驗室,北京 100876)
隨著經(jīng)濟發(fā)展與城市化進程的不斷推進,居民的用電需求也逐步增長。傳統(tǒng)電網(wǎng)的弊端日益顯露,由于其資源利用率低、時效性差,無法使電力公司在第一時間對電力數(shù)據(jù)進行分析,影響電力供應(yīng)策略的實時調(diào)整。為應(yīng)對以上問題,國家電網(wǎng)及時調(diào)整定位與戰(zhàn)略,提出建設(shè)“泛在電力物聯(lián)網(wǎng)”的目標(biāo)[1]。泛在電力物聯(lián)網(wǎng)由傳感器、智能化設(shè)備和多元化網(wǎng)絡(luò)組合而成,對電力的生產(chǎn)、輸送、消費和管理等諸多環(huán)節(jié)提供實時監(jiān)控,并為能源互聯(lián)網(wǎng)的建設(shè)起到強大的推動作用。
由于電力物聯(lián)網(wǎng)具有全息感知、泛在連接等特點,因此,也帶來了海量的接入設(shè)備和數(shù)據(jù)。智能電表等作為重要的智能終端設(shè)備,在電力物聯(lián)網(wǎng)中廣泛應(yīng)用。智能終端負責(zé)完成對用電數(shù)據(jù)(如電壓、電流、功率等)的測量并上傳,再根據(jù)主站下達的遙控指令,對開關(guān)設(shè)備進行通/斷操作,進而實現(xiàn)對開關(guān)設(shè)備的控制。在電力物聯(lián)網(wǎng)中,智能終端收集的用電數(shù)據(jù)更加豐富和詳細,涉及用戶身份信息、用電器能耗信息以及用戶的用電行為等敏感信息。攻擊者通過監(jiān)控并分析用戶的設(shè)備使用情況,能夠推斷出用戶的具體行為,例如就寢、外出等。通過長時間的持續(xù)監(jiān)測,可以進一步推斷用戶的通勤規(guī)律、經(jīng)濟狀況等隱私信息,對用戶財產(chǎn)甚至人身安全造成威脅。
對于傳統(tǒng)電網(wǎng)中用戶行為隱私保護的研究有很多,主要包括物理擾動、密碼學(xué)方法和差分隱私技術(shù),但以上方法無法完全適用于電力物聯(lián)網(wǎng)環(huán)境中。物理擾動方法過于依賴電池,在電力物聯(lián)網(wǎng)環(huán)境中,為每個智能終端安裝大容量電池不太現(xiàn)實。密碼學(xué)方法的保護力度較強,但在交互過程中的多次加解密過程會產(chǎn)生較大的計算與通信開銷,且密碼學(xué)方法大多依賴一個可信第三方,在電力物聯(lián)網(wǎng)中難以實現(xiàn)。傳統(tǒng)差分隱私技術(shù)大大降低了計算與通信開銷,但在傳統(tǒng)電網(wǎng)中,差分隱私技術(shù)多用于數(shù)據(jù)統(tǒng)計與發(fā)布階段,并未實現(xiàn)用戶終端對數(shù)據(jù)的自主保護,且與密碼學(xué)方法類似,傳統(tǒng)差分隱私技術(shù)也需要一個可信的第三方數(shù)據(jù)中心。
針對以上用戶行為隱私問題以及當(dāng)前智能終端隱私保護研究中的不足,本文提出了一種基于本地化差分隱私的電力物聯(lián)網(wǎng)終端數(shù)據(jù)隱私保護方法,主要包括基于差分隱私的數(shù)據(jù)處理以及基于隨機置亂的數(shù)據(jù)發(fā)布。通過本地化差分隱私模糊終端數(shù)據(jù),將每條記錄的隱私泄露風(fēng)險控制在一定范圍內(nèi)。為對抗攻擊者長時間的持續(xù)監(jiān)測,在不添加額外的噪聲情況下,采用Knuth-Durstenfeld算法[2]對用電數(shù)據(jù)進行隨機置亂,之后再對數(shù)據(jù)進行發(fā)布,實現(xiàn)對用電數(shù)據(jù)的有效干擾,并隱藏原始用戶數(shù)據(jù)中的用電行為信息。最后,從安全性、數(shù)據(jù)可用性、效率分析以及綜合分析4個方面對以上方法進行評估,結(jié)果表明,本文方法符合實際應(yīng)用場景,且具有較低的計算與通信開銷。
電力物聯(lián)網(wǎng)的概念較為新穎,針對電力物聯(lián)網(wǎng)智能終端隱私保護的研究較少,但其在數(shù)據(jù)類型、模型結(jié)構(gòu)等方面與傳統(tǒng)電網(wǎng)、無線傳感器網(wǎng)絡(luò)具有一定的相似性,因此,可以在已有的隱私保護方法中進行擴展,以實現(xiàn)電力物聯(lián)網(wǎng)中智能終端的隱私保護。傳統(tǒng)電網(wǎng)中的終端數(shù)據(jù)隱私保護方法主要包括物理擾動、密碼學(xué)和傳統(tǒng)差分隱私。
物理擾動方法的原理為基于電池的負載隱藏,其主要方法是在終端處安裝電池,通過電池的充放電,模糊用電設(shè)備的實際消耗,隱藏用電設(shè)備的實時狀態(tài)。文獻[3]提出了一種基于可充電電池的電源管理模型,并應(yīng)用了Best Effort算法,通過充電電池的充放電,使用電量保持一個恒定值,從而無法判斷用電設(shè)備的使用情況;文獻[4]使用內(nèi)置電池來掩蓋電網(wǎng)負載的變化,為減少內(nèi)置電池的電量消耗,將電池的電量分為3個狀態(tài),每種狀態(tài)下的用電量是一個恒定值;文獻[5]最大化家庭所需負載與外部負載之間的誤差,只采用某規(guī)定基數(shù)的整數(shù)倍作為計量,對電池電量消耗進一步優(yōu)化。物理擾動方法對電池的依賴性過高,在資源受限的電力物聯(lián)網(wǎng)環(huán)境下,在每個用戶側(cè)安裝符合要求的大容量電池,使得智能終端無法獲取明確負載信息,出于經(jīng)濟與環(huán)保角度均不可行。
基于密碼學(xué)的方法主要通過密碼技術(shù)對用戶數(shù)據(jù)進行加密以保證其安全性。文獻[6]采用了公鑰加密技術(shù),提出了一種基于聚合樹與盲簽名的點對點智能計量協(xié)議,使得運營商智能獲取某區(qū)域內(nèi)的總用電量,而無法推斷出單個用戶的信息;文獻[7]改進了傳統(tǒng)的同態(tài)加密算法,使聚合集群中每個終端使用不同的密鑰對數(shù)據(jù)進行加密,密文疊加后不影響聚合設(shè)備的電量統(tǒng)計結(jié)果;文獻[8]提出一種基于群盲簽名的隱私保護方法,通過同態(tài)加密驗證消息完整性,同時具有良好的可擴展性。此類方法具有較強的保護效力,但密鑰共享過程會產(chǎn)生較大的計算與通信開銷,同時,基于密碼學(xué)的方法往往存在一個可信第三方,并不適用于泛在電力物聯(lián)網(wǎng)環(huán)境。
傳統(tǒng)差分隱私方法的實現(xiàn)原理為通過一定的數(shù)據(jù)處理方法,對原始數(shù)據(jù)增加噪聲擾動,使隱私數(shù)據(jù)失真,但不會破壞原始數(shù)據(jù)的統(tǒng)計規(guī)律[9-10]。文獻[11]分析了加入差分隱私后終端數(shù)據(jù)與原始數(shù)據(jù)之間的差異;文獻[12]提出了一種輕量級差分隱私保護方法,在終端數(shù)據(jù)向第三方聚合設(shè)備發(fā)布時進行聚合來實現(xiàn)隱私保護過程;文獻[13]提出了一種細粒度的電力負載數(shù)據(jù)分析機制Di-PriDA,該機制對top-k設(shè)備峰值時間進行擾動,為智能電網(wǎng)系統(tǒng)的高峰時間負載平衡控制提供隱私和準(zhǔn)確性保證。此類方法在用電信息的統(tǒng)計與發(fā)布階段進行了有效的保護,但并未實現(xiàn)用戶對用電信息的自主保護。
傳統(tǒng)的中心化差分隱私技術(shù)依賴一個可信的第三方數(shù)據(jù)中心[14],同時需要確保該數(shù)據(jù)中心不會泄露或者竊取用戶數(shù)據(jù)。將其應(yīng)用于電力物聯(lián)網(wǎng)場景,即需要一個完全可信的數(shù)據(jù)聚合中心,對收集到的用戶數(shù)據(jù)進行差分隱私,向配電主站發(fā)布滿足ε-差分隱私的用戶數(shù)據(jù)。然而,在電力物聯(lián)網(wǎng)系統(tǒng)中,難以保證數(shù)據(jù)聚合中心的絕對可信。因此,中心化差分隱私無法適用于電力物聯(lián)網(wǎng)系統(tǒng)。
針對現(xiàn)有方法中存在的高開銷以及依賴可信第三方等問題,本文采用了本地化差分隱私技術(shù)對智能終端數(shù)據(jù)進行隱私保護。本地化差分隱私不僅能量化隱私保護強度,還將添加噪聲的過程應(yīng)用于每一個終端設(shè)備,使用戶能夠?qū)﹄[私信息進行單獨加噪,不再依賴可信的第三方。然而,單純的數(shù)值擾動無法抵抗攻擊者對用戶行為模式的監(jiān)測,因此,本文采用Knuth-Durstenfeld算法,在不增加額外噪聲的情況下對終端數(shù)據(jù)進行隨機置亂,在保證數(shù)據(jù)可用性與方法可行性的同時,最大化隱私保護強度。
電力物聯(lián)網(wǎng)的網(wǎng)絡(luò)架構(gòu)主要分為終端層、傳輸層以及主站層3部分,如圖1所示。其中,終端層主要負責(zé)電力線路的數(shù)據(jù)采集與數(shù)據(jù)發(fā)送,本文研究的智能終端處于該層;傳輸層主要負責(zé)業(yè)務(wù)數(shù)據(jù)的傳送,聚合設(shè)備是傳輸層中的重要設(shè)備,一般選擇2層或者3層的以太網(wǎng)交換機等路由設(shè)備作為聚合設(shè)備;主站層的主體是配電主站,直接與外部系統(tǒng)相連,主要負責(zé)用電數(shù)據(jù)監(jiān)控匯總、調(diào)度分析和網(wǎng)絡(luò)管理。
圖1 電力物聯(lián)網(wǎng)網(wǎng)絡(luò)架構(gòu)Fig.1 Power IoT network architecture
在電力物聯(lián)網(wǎng)中,與傳統(tǒng)電網(wǎng)的信息單向傳送不同,信息傳輸主要依托現(xiàn)有的信息傳輸網(wǎng)絡(luò),形成電力企業(yè)與終端用戶的雙向信息互動。同時,電力物聯(lián)網(wǎng)具備較強的兼容性,允許多個分布式電源在網(wǎng)絡(luò)中即插即用。以上方式在給電力企業(yè)與終端用戶帶來諸多便利的同時,也將更多的終端數(shù)據(jù)暴露在傳輸網(wǎng)絡(luò)中,對終端數(shù)據(jù)安全造成了極大威脅。
在本文的研究中,針對復(fù)雜的電力物聯(lián)網(wǎng)進行簡化,簡化后的系統(tǒng)模型主要考慮智能終端、聚合設(shè)備、配電主站3種實體。在電力物聯(lián)網(wǎng)中每種實體扮演的具體角色如下。
智能終端是電力物聯(lián)網(wǎng)中安裝在用戶端的智能設(shè)備,用于定期收集終端用戶的實時用電數(shù)據(jù),并將實時數(shù)據(jù)向上層聚合設(shè)備轉(zhuǎn)發(fā)。智能終端嚴(yán)格按照協(xié)議的流程執(zhí)行操作,可能會泄露用戶信息[15]。
聚合設(shè)備通常由網(wǎng)關(guān)擔(dān)任,作為數(shù)據(jù)收集者,將從智能終端處獲取的數(shù)據(jù)進行聚合,并將聚合后的數(shù)據(jù)轉(zhuǎn)發(fā)至配電主站。
配電主站與所有聚合設(shè)備進行通信,獲取用戶數(shù)據(jù),計算每個區(qū)域的用電量,用于制定相應(yīng)的電力資源配置策略等。
假設(shè)電力物聯(lián)網(wǎng)系統(tǒng)中的用戶集合為U={Ui|i Qi={qi,1,qi,2,qi,3,…,qi,t} (1) (1)式中:q表示用電數(shù)據(jù)中所表征的電流、電壓、功率和頻率等信息,在本文中主要指功率;qi,t表示用戶Ui在某個周期t內(nèi)的測量結(jié)果。 在包含n個用戶的聚合設(shè)備網(wǎng)絡(luò)中,聚合設(shè)備某時刻t收到的用電量數(shù)據(jù)序列可表示為 (2) (2)式中,qn,t表示聚合設(shè)備在時刻t收到的第n個用戶的用電量數(shù)據(jù)。 本文主要考慮數(shù)據(jù)經(jīng)過智能終端收集并轉(zhuǎn)發(fā)到聚合設(shè)備時存在的威脅,智能終端直接與底層的用電器相連,攻擊者能夠非法竊聽獲取智能終端傳輸?shù)臄?shù)據(jù)信息,并通過長時間監(jiān)測推斷用電器使用情況,進而分析得到用戶狀態(tài),對用戶隱私甚至人身安全造成威脅。 在本文設(shè)置中,認(rèn)為智能終端、聚合設(shè)備以及配電主站3個實體均為誠實且好奇的,不會發(fā)生主動攻擊,但會獲取一定程度的額外信息,造成隱私泄露。同時,考慮一個誠實但非入侵的攻擊者,該攻擊者無法直接訪問與篡改電網(wǎng)信息,只能通過非法的手段獲取某用戶的終端用電量數(shù)據(jù),然后根據(jù)獲取的數(shù)據(jù)推斷用戶的用電行為,如用電設(shè)備的耗電量、使用時間等。 假設(shè)攻擊者使用某種攻擊算法A對用戶的用電量數(shù)據(jù)Qi進行分析,從終端處獲取用戶Ui在某時間T內(nèi)的用電信息,則該隱私威脅表示模型為 A(Qi)={(1,E1,N),(2,E2,F),…,(t,Em,S)} (3) (3)式中:m表示用電器的數(shù)量;任意(t,Ei,S)表示一組用電設(shè)備狀態(tài)標(biāo)簽;t表示用電設(shè)備狀態(tài)轉(zhuǎn)換的時刻;Ei表示用電設(shè)備i的編號;S表示t時刻用電設(shè)備狀態(tài),包括開啟狀態(tài)“on”(表示為N)與關(guān)閉狀態(tài)“off” (表示為F)。因此,攻擊者通過一系列算法分析可以得到用戶的各種用電設(shè)備使用情況,從而導(dǎo)致用戶的行為隱私信息泄露。 基于上述威脅,本文提出了一種基于本地化差分隱私的智能終端數(shù)據(jù)隱私保護方法。隱私保護操作處于智能終端與聚合設(shè)備之間,主要針對智能終端與聚合設(shè)備進行數(shù)據(jù)交互的過程,對終端數(shù)據(jù)進行隱私保護,以防止攻擊者對用電數(shù)據(jù)的竊聽與分析。 本節(jié)對提出的基于本地化差分隱私的智能終端數(shù)據(jù)隱私保護模型進行了詳細描述,介紹了模型結(jié)構(gòu),對保護流程進行了闡述,并詳細描述了模型中的2個重點步驟——基于本地化差分隱私的數(shù)據(jù)處理以及基于隨機置亂的數(shù)據(jù)發(fā)布。 本文提出的方法主要在終端進行隱私保護,整體模型架構(gòu)如圖2所示,主要包括2部分:基于本地化差分隱私的數(shù)據(jù)處理和基于隨機置亂的數(shù)據(jù)發(fā)布。在數(shù)據(jù)處理階段,對智能終端中的數(shù)據(jù)添加隨機噪聲,使其總體滿足ε-差分隱私;在數(shù)據(jù)發(fā)布階段,采用隨機置亂算法擾亂數(shù)據(jù)的時間相關(guān)性,再進行數(shù)據(jù)的聚合發(fā)布,以達到模糊用戶正常用電行為的目的。 整體流程的具體描述如算法1所示。 算法1終端數(shù)據(jù)隱私保護算法流程 輸入:原始智能終端數(shù)據(jù)序列Qi={qi,1,qi,2,qi,3,…,qi,t}。 1)參數(shù)初始化:聚合集群用戶數(shù)量N、隱私保護強度ε、隨機置亂時間間隔Tk、數(shù)據(jù)聚合時間間隔Tp; 2)差分隱私處理:將滿足差分隱私機制的噪聲G1(N,λ)-G2(N,λ)添加到智能終端數(shù)據(jù)序列中; 3)隨機置亂處理:在每個隨機置亂間隔Tk范圍內(nèi),對智能終端收集到的數(shù)據(jù)應(yīng)用算法2隨機置亂算法S(t,t′)進行處理,得到qi,t′=S(t,t′)·qi,t; 4)數(shù)據(jù)發(fā)布:智能終端在規(guī)定的時間間隔Tp下,向聚合設(shè)備發(fā)送擾動處理后的數(shù)據(jù)序列。 本地化差分隱私不僅能量化隱私保護強度,還將添加噪聲的過程應(yīng)用于每一個終端設(shè)備,使終端能夠?qū)﹄[私信息進行單獨加噪,不再依賴可信的第三方?;诓罘蛛[私本身具有的順序合成性與平行合成性,將本地化差分隱私[16]應(yīng)用于電力物聯(lián)網(wǎng)中智能終端數(shù)據(jù)的隱私保護。 假設(shè)D為原始數(shù)據(jù)集,f(·)為查詢函數(shù),R表示在查詢到的原始數(shù)據(jù)f(D)上添加噪聲的隨機擾動算法,若R滿足ε-差分隱私[17],則有 Pr[R(D1)∈S]≤eε·Pr[R(D2)∈S] (4) (4)式中:Pr[·]表示概率分布,即由隨機擾動算法控制的隱私泄露風(fēng)險;D1與D2為2個臨近數(shù)據(jù)集,相差不超過一個數(shù)據(jù)記錄;S表示算法R所有可能輸出集合的任意子集;ε表示不可區(qū)分度,ε越小說明算法的隱私程度越高。 圖2 基于本地化差分隱私的終端數(shù)據(jù)隱私保護模型Fig.2 Data privacy protection model of terminal data based on localized differential privacy 為使數(shù)據(jù)滿足ε-差分隱私,對查詢到的數(shù)據(jù)添加Laplace噪聲,計算式為 R(D)=f(D)+Lap(λ) (5) (5)式中,Lap(λ)表示添加的服從Laplace分布的噪聲,噪聲參數(shù)λ滿足 λ=Δfε (6) (6)式中,Δf表示查詢函數(shù)f的全局敏感度,該項由函數(shù)f決定,表示在數(shù)據(jù)集中刪除任意一條數(shù)據(jù)記錄后對輸出結(jié)果S產(chǎn)生的最大影響。 Laplace分布具備獨立同分布的伽馬分布的無限可分性,對于任意噪聲參數(shù)λ及整數(shù)n≥1,任意服從Laplace分布的隨機噪聲Lap(λ)可表示為 (7) (7)式中,G1(N,λ)和G2(N,λ)為獨立同分布的隨機變量,均服從概率密度分布,即 (8) (8)式中,x≥0,Γ(1/n)表示在1/n處的伽馬函數(shù)。 與傳統(tǒng)差分隱私不同,本地化差分隱私在每個用戶端對智能終端中的數(shù)據(jù)獨立地添加Laplace噪聲,即 (9) (9)式中,σn表示添加到第n個用戶數(shù)據(jù)Qn中的噪聲,每個聚合設(shè)備控制的N個智能終端分別對數(shù)據(jù)添加一定量的噪聲,使得聚合設(shè)備收集到的數(shù)據(jù)整體滿足ε-差分隱私,即 (10) (10)式中,敏感度函數(shù)Δf一般由聚合集群中單個用戶在某段規(guī)定時間內(nèi)電量使用的記錄最大值max(Qi,t)表示。基于Laplace分布的無限可分性,本文中的差分隱私方法可以表示為 (11) 對每個用戶Ui在某個時刻t的原始數(shù)據(jù)Qi,t添加G1(N,λ)-G2(N,λ)的隨機噪聲,G1(N,λ)與G2(N,λ)為獨立同分布隨機變量,且服從(8)式中的概率分布。聚合設(shè)備處得到一個終端集群的聚合結(jié)果為 (12) 通過本地化差分隱私,為每個智能終端添加噪聲,使用戶數(shù)據(jù)模糊化,達到隱私保護的目的。同時,多個智能終端的聚合結(jié)果滿足ε-差分隱私,決定了隱私泄露上限。在實際設(shè)置中,通常設(shè)置ε∈[0,1],ε越小,用戶數(shù)據(jù)隱私保護強度越高。 盡管隨機擾動在一定程度上模糊了用戶數(shù)據(jù),但智能終端數(shù)據(jù)具有一定時序性,其敏感信息間接存在于電力數(shù)據(jù)波形變化中。同時,差分隱私具有變換不變性,即對添加差分隱私噪聲的數(shù)據(jù)進行操作后,仍能保持原來數(shù)據(jù)中的隱私保護力度。因此,在本文方法中在保證隱私保護強度的同時,對智能終端的數(shù)據(jù)發(fā)布方法進行改進,通過隨機置亂破壞其時間相關(guān)性。 在本文中,應(yīng)用Knuth-Durstenfeld算法[2]對一段時間內(nèi)的智能終端數(shù)據(jù)進行隨機置亂,將原始數(shù)據(jù)序列置亂。其算法思想為將每次選擇的數(shù)字放入該數(shù)組末尾,直接對原數(shù)組進行置亂,算法的時間復(fù)雜度為O(n),且無須額外的存儲空間,具體算法流程如算法2所示。 算法2Knuth-Durstenfeld隨機置亂算法 輸入:需要置亂的數(shù)組X=[x1,x2,…,xn]。 1.初始化c=n 2.Whilec>1 do 3.生成隨機數(shù)R(滿足0-1均勻分布) 4.k←c·R+1 5.xtmp=xc 6.xc=xk 7.xk=xtmp 8.c←c-1 9.end While 輸出:置亂后數(shù)組X′。 qi,t′=S(t,t′)·qi,t (13) (13)式中,S(t,t′)表示置亂算法,且該算法無偏,保證了數(shù)據(jù)無序性。同時,基于差分隱私的變換不變性,隨機置亂后的數(shù)據(jù)仍能保持上一步驟中添加的噪聲,滿足本地化差分隱私。通過混淆智能終端數(shù)據(jù)的測量時刻和發(fā)布時刻,破壞了用電數(shù)據(jù)的時間特征,隱藏了用電設(shè)備的使用信息。經(jīng)過隨機置亂后,智能終端將處理后的用電數(shù)據(jù)傳輸?shù)骄酆显O(shè)備。 對文中提出的本地化差分隱私保護方法進行性能分析。首先,考慮其安全性,采用皮爾遜系數(shù)描述數(shù)據(jù)處理前后的相關(guān)性,分析利用本文方法進行數(shù)據(jù)保護的安全性;其次,分析其可用性,即應(yīng)用差分隱私與隨機置亂后,對電力數(shù)據(jù)可用性的影響;最后,將本文方法與其他學(xué)者提出的方法進行計算開銷與通信開銷的效率對比,并討論分析結(jié)果。 在差分隱私中,ε表示該差分隱私算法的隱私保護程度,ε越小說明算法的隱私程度越高?;诓罘蛛[私處理后,對于任意時刻t,智能終端數(shù)據(jù)滿足ε-差分隱私,攻擊者無法通過擾動后的數(shù)據(jù)推測用戶的用電行為。然而,當(dāng)攻擊者進行長時間的數(shù)據(jù)監(jiān)測時,隱私風(fēng)險逐漸累積,以m個時刻為例,此時,隱私預(yù)算為εall=m·ε。由此可知,隨著觀測時間m的增加,隱私預(yù)算的值將顯著增加,隱私保護強度隨之下降。因此,為破壞用戶數(shù)據(jù)的時間相關(guān)性,需要在數(shù)據(jù)發(fā)布時刻對用戶數(shù)據(jù)進行隨機置亂。為定量評估本文方法中2個擾動機制的安全性,引入皮爾遜相關(guān)系數(shù)r評估不同數(shù)據(jù)之間的相關(guān)性,表示為 (14) 以正態(tài)分布的隨機數(shù)據(jù)為例,對本文的擾動機制進行評估,結(jié)果如圖3所示。未添加差分隱私前的數(shù)據(jù)序列見圖3a,其中,橫軸表示時間,縱軸表示數(shù)據(jù)值,由于本文采用數(shù)據(jù)仿真,因此部分?jǐn)?shù)據(jù)為負。按照本文提出的差分隱私機制對數(shù)據(jù)添加噪聲后的數(shù)據(jù)分布見圖3b,可以看到,波形仍然有較高的相似度與辨識度,此時2條曲線的相關(guān)系數(shù)r=0.94。對添加噪聲后的數(shù)據(jù)按照一定的時間間隔進行隨機置亂處理,得到處理后的數(shù)據(jù)與僅添加噪聲的數(shù)據(jù)對比見圖3c,2條曲線的相關(guān)系數(shù)r=0.59,說明隨機置亂操作可以有效降低數(shù)據(jù)相關(guān)性。處理后的數(shù)據(jù)與原始數(shù)據(jù)的對比見圖3d,與圖3b對比可以看出,2條波形的相似度明顯降低,此時r=0.41,即經(jīng)過簡單的隨機置亂處理能夠?qū)崿F(xiàn)較好的波形干擾效果。 圖3 數(shù)據(jù)處理前后波形對比Fig.3 Waveform comparison before and after data processing 智能終端處的數(shù)據(jù)可用性主要體現(xiàn)為電力公司的數(shù)據(jù)中心對用電數(shù)據(jù)的統(tǒng)計計費、資源配置調(diào)整以及其他個性化服務(wù)等。數(shù)據(jù)可用性分析即分析在應(yīng)用差分隱私與隨機置亂之后,對電力數(shù)據(jù)可用性的影響。其可用性主要體現(xiàn)在單個智能終端在一定時間內(nèi)的累計誤差以及多個智能終端在同一時刻的聚合誤差。單個智能終端在一定時間內(nèi)的累計誤差用于評估電力公司對用電數(shù)據(jù)的統(tǒng)計與計費準(zhǔn)確性;多個智能終端在同一時刻的聚合誤差用于衡量該聚合集群中整體的數(shù)據(jù)準(zhǔn)確性。 智能終端對原始電量數(shù)據(jù)添加滿足伽馬分布的噪聲,對計費周期T內(nèi)的電量計量準(zhǔn)確性產(chǎn)生影響。隨機置亂過程并未引入新的噪聲,且計費周期通常為一個月,遠遠大于隨機置亂周期,對累計誤差的影響可以忽略。對于每個智能終端,其累計誤差可以表示為 (15) 根據(jù)(15)式可知,智能終端的累計誤差主要與計費周期T以及加入的噪聲G1(N,λ)-G2(N,λ)有關(guān),與Δf/ε成正比,與終端集群的大小N成反比。 (16) 對(16)式所述聚合誤差進行簡化可以得到 (17) 由(17)式可知,聚合誤差與加入的本地化噪聲以及實際發(fā)布數(shù)據(jù)與真實數(shù)據(jù)的差值成正比。電量序列的差值主要與隨機置亂的時間間隔有關(guān),該時間間隔通常設(shè)置為1 min。聚合設(shè)備通常每隔15 min對所有終端數(shù)據(jù)進行一次聚合分析,而隨機置亂間隔遠小于數(shù)據(jù)聚合的時間間隔,對數(shù)據(jù)造成的影響極小,可以忽略,因此聚合誤差主要由差分隱私添加的噪聲誤差引起。 在傳統(tǒng)差分隱私中,若對每個終端的數(shù)據(jù)加以滿足ε-差分隱私的噪聲擾動,則一個聚合集群下的噪聲擾動總和可表示為N·Lap(Δf/ε),而在本地化差分隱私中,添加到一個聚合集群下的噪聲為Lap(Δf/ε),大大提高了數(shù)據(jù)的可用性。 方法的運算性能主要體現(xiàn)在智能終端與聚合設(shè)備的計算開銷以及智能終端與聚合設(shè)備的通信開銷。搭建實驗環(huán)境對本文方法進行仿真驗證,實驗均在64位Windows10系統(tǒng)上進行,系統(tǒng)配置為Intel(R) Core(TM) i7-6700 CPU @ 3.40 GHz,具體實驗方法由Python 3.7實現(xiàn)。將本文中提出的方法與文獻[18]提出的高效數(shù)據(jù)聚合方案(efficient data aggregation scheme,EDAS)、文獻[19]提出的具有差分隱私和容錯性的數(shù)據(jù)聚合(data aggregation scheme with differential privacy and fault tolerance,DDPFT)方案以及文獻[20]提出的改進k-隨機響應(yīng)(k-randomized response,k-RR)方法進行計算開銷與通信開銷的對比分析。 4.3.1 計算開銷 計算開銷的對比如表1所示。表1中,H表示哈希函數(shù)的計算開銷;Se表示對稱加密的計算開銷;Ce與Cm分別表示循環(huán)群上的取冪和乘法計算開銷;A與M分別表示實數(shù)加法與乘法的計算開銷;R表示隨機置亂的計算開銷;K表示k-RR算法的分類個數(shù);N表示聚合集群的終端數(shù)量。 表1 不同實體計算開銷對比Tab.1 Comparison of computational overhead of different entities 由表1可知,本文方法在智能終端與聚合設(shè)備上的計算開銷均優(yōu)于其他方法。在本文方法中,智能終端和聚合設(shè)備只需要進行實數(shù)加法與隨機置亂操作,隨機置亂操作的算法復(fù)雜度為O(n),帶來的計算開銷很小;在EDAS方法中,智能終端處會進行一次哈希運算,聚合設(shè)備需要進行N次哈希運算和對稱加密;DDPFT方法中包括對循環(huán)群的多次取冪和乘法操作,計算開銷較大。在改進k-RR方法中,計算開銷遠小于前2種方法,但仍高于本文方法。 智能終端與聚合設(shè)備的計算通信開銷對比如圖4所示,實驗中證實了上述分析結(jié)果。以智能終端數(shù)量N=1 000為例,由于循環(huán)群上的取冪和乘法開銷遠大于其他運算,因此,DDFPT方法在智能終端處與聚合設(shè)備處均具有最大開銷,而本文方法由于輕量級的實數(shù)加法與置亂操作,具有最佳的性能。 圖4 智能終端與聚合設(shè)備的計算開銷比較Fig.4 Comparison of computing overhead between the smart terminal and the aggregation device 4.3.2 通信開銷 將本文方法與EDAS、DDPFT、改進k-RR方法的通信開銷進行對比,結(jié)果如表2所示。表2中,C表示密文;D表示智能終端處理后的數(shù)據(jù);P表示聚合結(jié)果;L表示循環(huán)群中模運算的輸出;I表示k-RR中的區(qū)間劃分;ε表示隱私預(yù)算。 表2 通信開銷對比Tab.2 Communication overhead comparison 由表2可知,在本文方法中,不需要進行加密,在聚合過程中只需要傳輸隱私預(yù)算、擾動數(shù)據(jù)和聚合結(jié)果;在EDAS方法中,除必要的擾動數(shù)據(jù)和聚合結(jié)果外,還需傳輸額外的2個哈希值和一個密文,通信開銷高于本文方法;在DDPFT方法中引入了基于循環(huán)群的加密,通信開銷最大;在改進k-RR方法中同樣不需要加密操作,除隱私預(yù)算、擾動數(shù)據(jù)和聚合結(jié)果之外,還需要傳輸區(qū)間的劃分,通信開銷與本文方法最為接近。 圖5顯示了具有不同數(shù)量的智能終端的平均通信開銷。從圖5可以看出,4種方法的通信開銷均隨智能終端數(shù)量的增加而增加。DDPFT方法采用基于循環(huán)群的加密,一直具有最大的通信開銷;其次是EDAS方法,該方法由于要額外傳輸哈希值和密文,在通信開銷上高于改進k-RR方法;k-RR方法與本文方法相比還需要傳輸區(qū)間劃分情況。因此,本文方法中傳輸?shù)臄?shù)據(jù)最少,具有最小的通信開銷。 圖5 通信開銷對比Fig.5 Communication overhead comparison 根據(jù)上述分析,本文提出的本地化差分隱私保護方法擺脫了對可信第三方的依賴,在保證數(shù)據(jù)可用性的同時,大大提高了數(shù)據(jù)安全性。通過與其他基于差分隱私的數(shù)據(jù)保護方法進行對比,可以發(fā)現(xiàn),EDAS與DDPFT方法分別采用了對稱加密與同態(tài)加密,對加密后的數(shù)據(jù)添加噪聲擾動,盡管加密后的數(shù)據(jù)安全性有所提升,但較高的算法復(fù)雜度也給終端設(shè)備帶來較大的計算開銷與通信開銷。改進的k-RR方法無須加密,但計算開銷仍高于本文方法。因此,本文方法能夠更好地平衡安全性與可用性,且更加適用于資源受限的電力物聯(lián)網(wǎng)環(huán)境。 針對電力物聯(lián)網(wǎng)環(huán)境中傳統(tǒng)隱私保護方法對用戶行為模式保護中存在的安全性不足、可用性差以及高開銷的問題,本文提出了一種基于本地化差分隱私的智能終端數(shù)據(jù)隱私保護方法,在智能終端處添加差分隱私噪聲,之后再對數(shù)據(jù)的時序性進行擾動,有效保護了用電行為模式信息。相比其他方法,本文方法在保證了數(shù)據(jù)安全性與可用性的同時,具有更小的計算和通信開銷,更加適用于物聯(lián)網(wǎng)環(huán)境。下一步將研究如何優(yōu)化本地化噪聲生成機制,在保證安全性的同時降低對原始數(shù)據(jù)的影響,使其適用于對數(shù)據(jù)準(zhǔn)確性要求更高的實際應(yīng)用場景。2.2 智能終端數(shù)據(jù)隱私威脅表示模型
3 電力物聯(lián)網(wǎng)終端數(shù)據(jù)隱私保護模型
3.1 模型架構(gòu)
3.2 基于本地化差分隱私的數(shù)據(jù)處理
3.3 基于隨機置亂的數(shù)據(jù)發(fā)布
4 實驗及性能分析
4.1 安全性分析
4.2 可用性分析
4.3 效率分析
4.4 綜合分析
5 結(jié)束語