蔡耀年 王明琪 劉建森 趙陸軍 李賢靚
摘要:針對竊電行為現(xiàn)場查證具有難以克服的現(xiàn)實(shí)困難,提出一種基于離群數(shù)據(jù)挖掘的竊電行為檢測方法。該離群算法基于密度聚類算法,采用基于用電量波動(dòng)的不同方向識別不同的用電模式,基于用電頻率、離群距離以及異常規(guī)則關(guān)聯(lián)度的計(jì)算挖掘潛在離群數(shù)據(jù)點(diǎn),并通過基于評價(jià)矩陣確定離群閾值對離群數(shù)據(jù)點(diǎn)存在竊電行為的可能性進(jìn)行確定性分析,實(shí)現(xiàn)對竊電行為的數(shù)據(jù)化檢測。最后通過仿真測試證明該算法在針對混雜不同用電模式的用電數(shù)據(jù)的竊電檢測方面相對于其他數(shù)據(jù)挖掘算法具有更好的性能表現(xiàn)。
關(guān)鍵字:竊電檢測;離群算法;密度聚類;用電頻率;關(guān)聯(lián)規(guī)則;評價(jià)矩陣
中圖分類號:TP391
文獻(xiàn)標(biāo)識碼:A
1 引言
我國10KV配電網(wǎng)的線損保持高位運(yùn)行的重要原因之一是用電客戶的竊電行為[1]。近些年,一些高科技的竊電手法有愈演愈烈之勢,如遙控裝置竊電、預(yù)付費(fèi)卡表破解充值、利用編程器對電表進(jìn)行私自調(diào)較等,這導(dǎo)致竊電行為的現(xiàn)場查證難度越來越高[2-3]。居高不下的竊電行為給電力公司帶來巨大損失,據(jù)有關(guān)資料不完全統(tǒng)計(jì),每年東北電網(wǎng)被竊電量高達(dá)20億kWh[4]。
為了提高電力企業(yè)管理水平和經(jīng)濟(jì)效益,基于電力用戶用電信息采集系統(tǒng)積累的用戶用電信息,通過分析歷史用電數(shù)據(jù),利用數(shù)據(jù)挖掘找出用戶用電的異常行為,從而實(shí)現(xiàn)對竊電行為檢測己成進(jìn)一步提高電力公司防竊電診斷能力的熱點(diǎn)研究領(lǐng)域[5-6]。
文獻(xiàn)[7]針對用戶異常用電行為提出一種利用Storm的狀態(tài)監(jiān)測算法對用戶實(shí)時(shí)用電數(shù)據(jù)流進(jìn)行基于閡值判斷的檢測方法。文獻(xiàn)[8]則對用戶實(shí)時(shí)用電數(shù)據(jù)進(jìn)行分析,提出了一種基于分層的異常用電行為檢測算法。文獻(xiàn)[9]結(jié)合聚類算法與粒子群算法對配電網(wǎng)的用電信息進(jìn)行數(shù)據(jù)分析,找出用戶異常用電的規(guī)律。文獻(xiàn)[10]結(jié)合粒子群優(yōu)化算法和向量機(jī)提出了一種基于自適應(yīng)學(xué)習(xí)的異常用電行為檢測的算法。文獻(xiàn)[11]基于網(wǎng)格的聚類算法對用電行為的異常度進(jìn)行計(jì)算。這些算法在基于異常數(shù)據(jù)計(jì)算的竊電行為檢測上具有一定的可行性,但是由與用戶用電模式差距較大,導(dǎo)致上述算法在實(shí)際進(jìn)行異常檢測時(shí)容易出現(xiàn)誤判,需要加以人工干預(yù)才能獲得較為準(zhǔn)確的竊電檢測結(jié)果。
基于上述研究,提出一種基于離群數(shù)據(jù)算法的用戶竊電行為檢測方法。該方法首先采用密度聚類算法對用戶的用電行為特征進(jìn)行提取,然后結(jié)合對用電頻率、關(guān)聯(lián)規(guī)則關(guān)聯(lián)度以及聚類距離的計(jì)算,實(shí)現(xiàn)對異常用電數(shù)據(jù)點(diǎn)定量的離群檢測,為竊電行為的最終確定提供切實(shí)數(shù)據(jù)依據(jù)。
2 基于離群算法的竊電檢測思路
用電用戶的行業(yè)特征、氣象條件以及地域特征都會在較大程度上對用戶的用電量特征產(chǎn)生影響。對用電量從時(shí)間尺度上進(jìn)行分段,每段區(qū)間包含一個(gè)特定的用電模式[12]。為便于進(jìn)行用電數(shù)據(jù)離群檢測,對用電數(shù)據(jù)采用聚類算法進(jìn)行分類,并基于用電頻率、聚類距離以及關(guān)聯(lián)規(guī)則對異常數(shù)據(jù)進(jìn)行離群度計(jì)算。最后結(jié)合優(yōu)化確定的離群閾值對離群數(shù)據(jù)進(jìn)行確定性竊電判斷。離群數(shù)據(jù)檢測算法的思路如圖1所示。
3 離群算法的實(shí)現(xiàn)
由表1可以看出相鄰兩個(gè)區(qū)段的用地量波動(dòng)方向相反,上一個(gè)區(qū)段結(jié)束時(shí)間與下一個(gè)區(qū)段開始時(shí)間重合。
3.2 異常用電區(qū)段內(nèi)離群數(shù)據(jù)計(jì)算
用電區(qū)段有四個(gè)基本參數(shù):持續(xù)時(shí)間、中心點(diǎn)位置、起始用電量以及結(jié)束用電量。由于這些參數(shù)之間具有不同的線性相關(guān)性,因此給區(qū)段內(nèi)離群數(shù)據(jù)的計(jì)算帶來一定的困難。因此要把這些參數(shù)進(jìn)行標(biāo)準(zhǔn)指標(biāo)化處理,去掉參數(shù)自身的量綱屬性,便于后續(xù)基于離群算法的數(shù)據(jù)點(diǎn)分析[14]。此處的處理方法采用MIN-MAX離差標(biāo)準(zhǔn)化手法,如式4所示。
采用基于密度聚類的離群算法進(jìn)行離群數(shù)據(jù)檢測。首先利用DBSCAN算法對用電區(qū)段內(nèi)的用電數(shù)據(jù)進(jìn)行分類[15]。DBSCAN算法有兩個(gè)基本的計(jì)算參數(shù):鄰域半徑rps和鄰域閾值thmin。如果空間內(nèi)任意兩數(shù)據(jù)點(diǎn)之間距離小于rps,則這兩點(diǎn)數(shù)據(jù)分別在對方的鄰域內(nèi)。如果某個(gè)數(shù)據(jù)點(diǎn)鄰域內(nèi)的數(shù)據(jù)點(diǎn)數(shù)量超過thmin,則該點(diǎn)被稱作核心數(shù)據(jù)點(diǎn)。核心數(shù)據(jù)點(diǎn)鄰域內(nèi)的數(shù)據(jù)點(diǎn)為邊界數(shù)據(jù)點(diǎn)。既不是核心數(shù)據(jù)點(diǎn)也不是邊界數(shù)據(jù)點(diǎn)的為離群數(shù)據(jù)點(diǎn)。任意兩個(gè)小于rps的核心數(shù)據(jù)點(diǎn)可以屬于同一個(gè)聚類,任意數(shù)據(jù)核心點(diǎn)的所有邊界數(shù)據(jù)點(diǎn)也屬于同一個(gè)聚類[16]。
在不同的用戶區(qū)段中聚類的數(shù)量會有很大不同。對該數(shù)據(jù)點(diǎn)到聚類核心數(shù)據(jù)點(diǎn)的距離進(jìn)行計(jì)算,并作為該數(shù)據(jù)電離群度的計(jì)算指標(biāo)之一。
式5中dc是該用電區(qū)段中的一個(gè)聚類,dei是該用電區(qū)段中的一個(gè)數(shù)據(jù)點(diǎn)。DIS(dei,dc)是dei到dc的距離。AVR (dc)表示聚類de中邊界點(diǎn)到核心點(diǎn)的平均距離。
3.3 關(guān)聯(lián)規(guī)則的挖掘
關(guān)聯(lián)規(guī)則是兩個(gè)不相交的項(xiàng)集之間的潛在關(guān)系,可用關(guān)聯(lián)度l和可信度b加以評價(jià)[17]。設(shè)X和Y為不相交的項(xiàng)集,則關(guān)聯(lián)度l的計(jì)算方法如式5所示。
式5和式6中的σ表示關(guān)聯(lián)度計(jì)數(shù),N表示事物的總個(gè)數(shù)。
超過關(guān)聯(lián)度閾值的項(xiàng)集為頻繁項(xiàng)集。在電力負(fù)荷離群數(shù)據(jù)的關(guān)聯(lián)規(guī)則計(jì)算中,為降低關(guān)聯(lián)規(guī)則的計(jì)算負(fù)荷,因此只對波動(dòng)量大于1的用電區(qū)段中進(jìn)行異常關(guān)聯(lián)規(guī)則ud的計(jì)算。在關(guān)聯(lián)規(guī)則分析中,考慮對非頻繁項(xiàng)集的關(guān)聯(lián),將關(guān)聯(lián)度閾值設(shè)為0?;诮o定時(shí)間間隔td關(guān)聯(lián)度1的表達(dá)式為:
3.5 離群度以及離群閾值的計(jì)算
離群度的計(jì)算指標(biāo)有三個(gè):離群距離R、關(guān)聯(lián)規(guī)則關(guān)聯(lián)度l和用電頻率f。離群度的計(jì)算公式是:
λ=Rxl×f×100%
(9)
當(dāng)計(jì)算出的離群度λ小于離群閾值δ,則認(rèn)為點(diǎn)時(shí)間點(diǎn)的用電數(shù)據(jù)為異常的離群數(shù)據(jù)。
在數(shù)據(jù)挖掘領(lǐng)域,常用基于特征曲線法的二維評價(jià)矩陣來對離群算法的正確率進(jìn)行評價(jià)。二維評價(jià)矩陣的表達(dá)式如式10所示。
式10中,TP表示正常用電量被預(yù)測為正常用電量的樣本數(shù),F(xiàn)N表示正常用電量被預(yù)測為異常用電量的樣本數(shù),F(xiàn)P表示異常用電量被預(yù)測為正常用電量的樣本數(shù),TN表示異常用電量被預(yù)測為異常用電量的樣本數(shù)。
評價(jià)矩陣四個(gè)重要參數(shù):假正率FPR、真正率
離群數(shù)據(jù)檢測屬于不均衡類分布問題,基于算法準(zhǔn)確率的統(tǒng)計(jì)對離群算法性能的評價(jià)不適用。為此在遵循數(shù)據(jù)挖掘算法通用評價(jià)規(guī)則的前提下,本文選擇由FPR和IPR組成的特征曲線的面積作為離群算法性能的評價(jià)指標(biāo)。特征曲線面積越大表示算法的計(jì)算效果越好。
基于精度Pe和召回率Re構(gòu)建調(diào)和量度θ:
調(diào)和量度θ的值越大,表明算法的效率越好,否則,算法的效率則較低。因此可以通過對θ的計(jì)算得出離群閾值δ。
3.6 算法實(shí)現(xiàn)
在基于用電量的離群算法進(jìn)行竊電分析過程中,首先對用電量數(shù)據(jù)進(jìn)行量化處理,并對用電頻率進(jìn)行計(jì)算,然后基于用電量的波動(dòng)構(gòu)建異常關(guān)聯(lián)規(guī)則,并對關(guān)聯(lián)規(guī)則的關(guān)聯(lián)度進(jìn)行計(jì)算。隨后依據(jù)用電量的波動(dòng)方向進(jìn)行用電區(qū)段的劃分,在用電區(qū)段內(nèi)基于密度聚類算法進(jìn)行離群數(shù)據(jù)的分析,得到各個(gè)區(qū)段的的異常數(shù)據(jù)的離群距離,存入用電量異常數(shù)據(jù)庫。根據(jù)離群距離、關(guān)聯(lián)度和用電頻率在異常數(shù)據(jù)庫中生成異常數(shù)據(jù)點(diǎn)離群度,然后基于評價(jià)矩陣的精度和召回率計(jì)算出離群閾值,最后通過比對離群度和離群閡值得出疑似竊電的時(shí)間、用戶。
4 仿真驗(yàn)證
仿真測試的數(shù)據(jù)來自是針對某市用電采集系統(tǒng)中采集的商用電用戶戶和民用電用戶的實(shí)際用電數(shù)據(jù)。使用本文算法與基于層次聚類離群算法、基于K均值離群算法進(jìn)行對比測試,以驗(yàn)證本文所述算法性能的優(yōu)越性。
隨機(jī)選擇4個(gè)商用電用戶和民用電用戶,采用基于特征曲線的分析方法,通過計(jì)算特征曲線面積來優(yōu)化選擇離群算法主要參數(shù)的取值。在對算法參數(shù)優(yōu)化的過程中,首先給定量化算子的值,然后對以特征曲線最大面積為目標(biāo)值對鄰域半徑和鄰域閾值進(jìn)行迭代運(yùn)算,最終確定最合適的參數(shù)值。
由圖3可以看出,在鄰域半徑為0.08、鄰域閡值為9、量化算子為0.01時(shí),特征曲線具有相對最大面積。因此在測試選用這組參數(shù)設(shè)定?;谠u價(jià)矩陣對離群閾值和調(diào)和量度進(jìn)行試驗(yàn)的結(jié)果如圖4所示。
由圖4可知,離群閡值在5.9%時(shí),調(diào)和量度達(dá)到最大值0.900,此時(shí)算法具有最好的離群數(shù)據(jù)檢測效率。
采用上述參數(shù)設(shè)置,基于本文所述算法和層次聚類離群算法、K均值離群算法進(jìn)行對比測試,對三種算法運(yùn)行效率的基于特征曲線的評價(jià)結(jié)果如圖5所示。
對圖3進(jìn)行研究發(fā)現(xiàn),本文的基于密度聚類的離群數(shù)據(jù)檢測算法相對與其他兩種算法,其特征曲線的面積最大,這表明在對用電數(shù)據(jù)進(jìn)行離群分析上本文所述的算法具有最好的檢測效果。
這是由于基于層次聚類思想在進(jìn)行聚類計(jì)算時(shí),需要事先對層次結(jié)構(gòu)和聚合策略進(jìn)行定義,因此具有較低的聚類效率。由于在單個(gè)聚類中的用電量的波動(dòng)具有不確定性,因此基于K均值聚類的離群算法無法有效確定同一聚類中的不同波動(dòng)區(qū)段,導(dǎo)致算法的檢測精度受到較大局限。本文所采用的離群算法針對上述問題做出了針對不同聚類進(jìn)行基于用電量波動(dòng)的用電區(qū)段劃分的針對性優(yōu)化,因此能夠很好的對具有不同用電模式的用電數(shù)據(jù)進(jìn)行有效離群檢測。
5 結(jié)論
基于密度聚類的離群算法提出了一種竊電行為檢測的方法。該檢測方法采用離群算法對用電數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,從而實(shí)現(xiàn)竊電檢測。所述的離群算法是在對用電數(shù)據(jù)進(jìn)行基于密度的聚類計(jì)算的基礎(chǔ),通過對用電頻率、離群距離以及異常規(guī)則關(guān)聯(lián)度的計(jì)算實(shí)現(xiàn)離群數(shù)據(jù)的挖掘,并通過基于評價(jià)矩陣的離群閡值實(shí)現(xiàn)確定竊電點(diǎn)的功能。最后通過仿真測試證明了本文所述的離群算法相對其他數(shù)據(jù)挖掘算法在對具有不同模式的用電量數(shù)據(jù)進(jìn)行竊電分析時(shí)具有更好的性能表現(xiàn)。
參考文獻(xiàn)
[l]劉鳳魁,鄧春宇,王曉蓉,等.基于改進(jìn)快速密度峰值聚類算法的電力大數(shù)據(jù)異常值檢測[J].電力信息與通信技術(shù),2017,15(06):36-41.
[2]許剛,談元鵬,戴騰輝.稀疏隨機(jī)森林下的用電側(cè)異常行為模式檢測[J/OL]電網(wǎng)技術(shù),2017,41(06):1964-1973.
[3] 陳宏.基于關(guān)聯(lián)規(guī)則挖掘算法的用電負(fù)荷能效研究[J].電子設(shè)計(jì)工程,2017,25 (04):79-82+86.
[4]王桂蘭,周國亮,趙洪山,等.大規(guī)模用電數(shù)據(jù)流的快速聚類和異常檢測技術(shù)[J].電力系統(tǒng)自動(dòng)化,2016,40 (24):27-33.
[5]王昕,田猛,趙艷峰,等.一種基于狀態(tài)估計(jì)的新型竊電方法及對策研究[J/OL].電力系統(tǒng)保護(hù)與控制,2016,44 (23):141- 146.
[6]武昕,王震.基于負(fù)熵估計(jì)的居民用電負(fù)荷非侵入式分解算法[J/OL].電網(wǎng)技術(shù),2017,41(03):931-937.
[7]陳文瑛,陳雁,邱林,等.應(yīng)用大數(shù)據(jù)技術(shù)的反竊電分析[J].電子測量與儀器學(xué)報(bào),2016,30(10):1558-1567.
[8]李亦非,宋瑋瓊,彭放,等.基于局部異常點(diǎn)檢測算法的電能表飛走異常智能分析[J].電測與儀表,2016,53 (18):69-73.
[9]周寧慧,王彬,王治華,等.基于集合論估計(jì)的電網(wǎng)狀態(tài)辨識(四)離群點(diǎn)識別[J].電力系統(tǒng)自動(dòng)化,2016,40 (08):22-28+ 50.
[1O]王衛(wèi)公,牟婷婷,王蘭君,等.基于灰色分析的集抄數(shù)據(jù)異常判定[J].電網(wǎng)與清潔能源,2016,32 (04):6-11+16.
[11]莊池杰,張斌,胡軍,李秋碩,曾嶸.基于無監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測[J].中國電機(jī)工程學(xué)報(bào),2016,36 (02):379-387.
[12]谷云東,張素杰,馮君淑.大用戶電力負(fù)荷的多模型模糊綜合預(yù)測[J].電工技術(shù)學(xué)報(bào),2015,30 (23):110-115.
[13]程超,張漢敬,景志敏,等.基于離群點(diǎn)算法和用電信息采集系統(tǒng)的反竊電研究[J/OL].電力系統(tǒng)保護(hù)與控制,2015,43 (17): 69-74.
[14]辛潔晴,夏正侃,高亦凌,等.基于事故樹的竊電損失要因分析[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2014,26 (03):47-51.
[15]藍(lán)敏,李朔宇,李錫祺,等.基于聚類分群的線損特征分析方法[J].電力科學(xué)與技術(shù)學(xué)報(bào),2013,28 (04):54-58.
[16]黃海濤,張粒子,喬慧婷,等.基于變密度聚類的居民階梯分段電量制定方法[J].電網(wǎng)技術(shù),2010,34 (11):111-116.
[17]楊政,李欣然,陳輝華,等.密度梯度聚類算法在負(fù)荷動(dòng)特性聚類中的應(yīng)用[J].電力系統(tǒng)及其自動(dòng)化學(xué)報(bào),2010,22 (02):41-47.