劉釗瑞,高云鵬,郭建波,李云峰,顧德喜,文一章
基于深度自編碼器高斯混合模型的竊電行為檢測
劉釗瑞1,高云鵬1,郭建波2,李云峰1,顧德喜1,文一章1
(1.湖南大學(xué)電氣與信息工程學(xué)院,湖南 長沙 410082;2.杭州海興電力科技股份有限公司,浙江 杭州 310011)
針對用戶側(cè)竊電檢測背景下無監(jiān)督方法的適用性,研究如何解決特征提取和異常檢測間的解耦問題,提出基于深度自編碼器高斯混合模型(Deep Auto-encoder Gaussian Mixture Model, DAGMM)的用戶竊電行為檢測方法。首先對數(shù)據(jù)進(jìn)行增廣迪基-福勒檢驗,獲取具有平穩(wěn)性的用電數(shù)據(jù)維度。然后通過壓縮網(wǎng)絡(luò)提取數(shù)據(jù)潛在特征,利用估計網(wǎng)絡(luò)及高斯混合模型獲取反映異常程度的樣本能量。最后基于端對端的學(xué)習(xí)方式對網(wǎng)絡(luò)參數(shù)聯(lián)合優(yōu)化以避免模型解耦,將樣本能量超過異常閾值的用戶識別為竊電,據(jù)此實現(xiàn)用戶竊電行為檢測。實驗結(jié)果表明,基于深度自編碼器高斯混合模型的竊電行為檢測方法受竊電樣本影響小,提取的特征可有效反映用戶用電規(guī)律,具有更高的檢測準(zhǔn)確率。相比于現(xiàn)有方法,其檢出率、誤檢率、F1測度及AUC等評價指標(biāo)均有顯著提高。
竊電行為;無監(jiān)督學(xué)習(xí);深度自編碼器高斯混合模型;增廣迪基-福勒檢驗;解耦
隨著我國電力市場化進(jìn)程不斷推進(jìn)以及用戶對電能可靠性和質(zhì)量要求不斷提升,智能電網(wǎng)安全穩(wěn)定運行的需求日益增強(qiáng)[1-2]。對用戶側(cè)數(shù)據(jù)進(jìn)行深入研究有利于降低供電企業(yè)非技術(shù)性損失,提高電力系統(tǒng)穩(wěn)定性[3]。竊電行為是造成電網(wǎng)非技術(shù)性損失的主要原因之一,其對電力企業(yè)經(jīng)濟(jì)利益、電力系統(tǒng)穩(wěn)定運行造成巨大的威脅[4-5]。因此,研究提高竊電檢測效果的方法對社會經(jīng)濟(jì)發(fā)展具有重要價值與意義[6]。
傳統(tǒng)竊電檢測主要依靠人工稽查,該方式存在盲目性,具有檢測效率低、消耗大量人力資源、增加電網(wǎng)運營成本等缺點[7]。隨著電力系統(tǒng)智能化程度不斷提高,泛在物聯(lián)網(wǎng)建設(shè)發(fā)展使電力公司獲得指數(shù)級增長的數(shù)據(jù)量,為數(shù)據(jù)驅(qū)動方法提供有力支撐[8-10]?;跀?shù)據(jù)驅(qū)動的竊電行為檢測方法主要可分為有監(jiān)督學(xué)習(xí)[11-13]和無監(jiān)督學(xué)習(xí)[14]兩類。有監(jiān)督學(xué)習(xí)需對大量已知用戶是否竊電的標(biāo)簽數(shù)據(jù)進(jìn)行學(xué)習(xí),而實際應(yīng)用中已知竊電用戶量通常很小,不足以支撐有監(jiān)督模型訓(xùn)練,且有監(jiān)督學(xué)習(xí)在用電習(xí)慣及竊電手段發(fā)生變化的情況下檢測效果降低。無監(jiān)督學(xué)習(xí)因不需要標(biāo)簽數(shù)據(jù)訓(xùn)練,對數(shù)據(jù)量的要求不高,相比有監(jiān)督學(xué)習(xí),無監(jiān)督學(xué)習(xí)具有高時效性,適用范圍更加廣泛[15]。
當(dāng)前,國內(nèi)外學(xué)者基于無監(jiān)督方法對竊電行為檢測技術(shù)展開了一定的研究。文獻(xiàn)[14]利用異常樣本與典型負(fù)荷曲線的相似程度低,采用模糊聚類提取特征曲線,通過待測曲線與特征曲線比較初步確定疑似竊電用戶。文獻(xiàn)[16]從異常點影響聚類結(jié)果及用戶用電習(xí)慣隨季節(jié)等因素變化的角度出發(fā),提出流式密度聚類算法快速檢測竊電用戶。文獻(xiàn)[17]考慮電網(wǎng)數(shù)據(jù)潔凈度與用戶類別不平衡,通過迭代篩選提取相對最大密度類群以提高竊電檢測精度。文獻(xiàn)[18]考慮到用戶日負(fù)荷具有隨機(jī)性,對多次由密度峰值聚類算法識別為竊電的用戶進(jìn)行稽查以降低誤檢率。文獻(xiàn)[19]結(jié)合形狀和密度信息,采用最大信息系數(shù)作為評價相似性指標(biāo),以更好地描述用戶用電習(xí)慣的相似性。然而,由于用戶用電習(xí)慣受季節(jié)、經(jīng)濟(jì)等多種因素影響,負(fù)荷曲線形態(tài)復(fù)雜且具有隨機(jī)波動性,相似的兩條曲線可能存在時移,導(dǎo)致歐式距離等作為評價相似性指標(biāo)失效[20],用電負(fù)荷數(shù)據(jù)的高維特性使其在原始特征空間中進(jìn)行密度估計較為困難,隨著數(shù)據(jù)維度增加,密度預(yù)測時間復(fù)雜度急劇增加[21],因此,利用負(fù)荷曲線表示用戶用電規(guī)律在某些情況下可能失效,提取合適的負(fù)荷特征表示用電習(xí)慣對竊電行為準(zhǔn)確檢測具有重要價值。
為此,文獻(xiàn)[22]考慮時段負(fù)荷波動性,提出用電量變化指標(biāo)和小時內(nèi)用電模式變化指標(biāo)等時段負(fù)荷變化特征表征用戶用電規(guī)律。文獻(xiàn)[15]考慮日用電量變化趨勢及隨季節(jié)波動特性,提取趨勢指標(biāo)、變動性指標(biāo)、波動性指標(biāo)等用戶長期負(fù)荷特征,通過主成分分析對特征降維,利用網(wǎng)格化局部離群因子檢測竊電用戶。文獻(xiàn)[23]采用同文獻(xiàn)[15]的特征,提出基于高斯核函數(shù)的局部離群因子算法以降低數(shù)據(jù)分布差異對竊電檢測性能的影響。文獻(xiàn)[24]考慮各特征重要程度不同,采用層次分析法確定各指標(biāo)權(quán)重,通過加權(quán)的離群點檢測算法識別異常。目前,基于無監(jiān)督方法對竊電行為檢測的研究,在特征提取和異常檢測上均獨立進(jìn)行,而實際負(fù)荷曲線形態(tài)復(fù)雜,現(xiàn)有提取時段特征方法只適用符合正常用戶用電基本平穩(wěn)假設(shè)的竊電行為檢測[25],當(dāng)數(shù)據(jù)不符合上述情況時,特征提取方法將失效,提取用戶長期用電特征時,若所選時長不合適,檢測效果也將變差,特征提取后不再對特征進(jìn)行優(yōu)化的異常檢測方法易丟失關(guān)鍵信息,使特征提取與異常檢測間解耦,導(dǎo)致無監(jiān)督方法在竊電行為檢測上適用性較低。
針對上述問題,本文提出基于深度自編碼器高斯混合模型(Deep Auto-encoder Gaussian Mixture Model, DAGMM)的竊電行為檢測方法。首先根據(jù)增廣迪基-福勒檢驗選取具有平穩(wěn)性的用電數(shù)據(jù)維度,通過DAGMM壓縮網(wǎng)絡(luò)提取負(fù)荷壓縮編碼和重構(gòu)誤差特征,在高斯混合模型框架下使用估計網(wǎng)絡(luò)進(jìn)行密度估計,并通過高斯混合模型獲取反映異常程度的樣本能量,將重構(gòu)誤差、樣本能量及避免局部最優(yōu)和奇點問題引入的正則項作為代價損失,再基于端對端的學(xué)習(xí)方式對網(wǎng)絡(luò)參數(shù)聯(lián)合優(yōu)化,通過箱線圖設(shè)置異常閾值,將樣本能量超過閾值的用戶識別為竊電,據(jù)此實現(xiàn)用戶竊電行為檢測。最后通過大量實驗對本文提出方法的準(zhǔn)確性和有效性進(jìn)行驗證分析。
電網(wǎng)數(shù)據(jù)采集過程中存在軟硬件故障、特殊事件等,易導(dǎo)致采集數(shù)據(jù)存在缺失[26],據(jù)此本文按缺失比例不同對數(shù)據(jù)采用不同方式預(yù)處理。當(dāng)某用戶缺失數(shù)據(jù)占比超過5%時,認(rèn)為非偶然因素導(dǎo)致用戶數(shù)據(jù)缺失,將該用戶單獨進(jìn)行用電異常排查,否則對鄰近兩天同時段負(fù)荷均值進(jìn)行修正,由此構(gòu)建修正公式為
電力負(fù)荷包括基荷和變動負(fù)荷,為突出變動負(fù)荷走勢,同時避免數(shù)量級相差較大的影響,通過歸一化去掉基荷。對每日負(fù)荷進(jìn)行歸一化,可減弱具有臨界峰值或錯誤數(shù)據(jù)注入的異常天數(shù)和季節(jié)的影響[27],本文對每日負(fù)荷采用min-max歸一化處理,有
用戶日負(fù)荷具有隨機(jī)波動性,易受季節(jié)、經(jīng)濟(jì)等多種因素影響,采用日負(fù)荷進(jìn)行分析具有不穩(wěn)定性。較長用電量數(shù)據(jù)隱含較多信息,有利于模型學(xué)習(xí)潛在用電規(guī)律,但過長負(fù)荷數(shù)據(jù)使模型復(fù)雜性增加,同時使模型學(xué)習(xí)難度提升。為減少數(shù)據(jù)維度對竊電檢測方法的影響,可選擇平穩(wěn)的多日負(fù)荷進(jìn)行分析。
增廣迪基-福勒檢驗(Augmented Dickey-Fuller test, ADF)可排除自相關(guān)影響,通過對單位根檢驗判斷數(shù)據(jù)是否存在趨勢性及季節(jié)性特征。本文實驗對訓(xùn)練集用戶負(fù)荷數(shù)據(jù)計算ADF檢驗值,根據(jù)赤池信息準(zhǔn)則(Akaike Information Criterion, AIC)確定滯后數(shù)目,各置信度下平穩(wěn)性檢驗結(jié)果如圖1所示。
圖1 各置信度下平穩(wěn)性檢驗結(jié)果
Fig. 1Results of stationarity test at each confidence level
由圖1可知,當(dāng)選擇4周負(fù)荷數(shù)據(jù)進(jìn)行平穩(wěn)性分析時,97.4%的數(shù)據(jù)有大于99%的置信度為平穩(wěn)序列,故本文選取每個用戶4周負(fù)荷數(shù)據(jù)作為輸入。
深度自編碼器高斯混合模型由壓縮網(wǎng)絡(luò)和估計網(wǎng)絡(luò)組成。其中壓縮網(wǎng)絡(luò)提取數(shù)據(jù)的潛在特征,估計網(wǎng)絡(luò)在高斯混合模型框架下對潛在特征進(jìn)行密度估計,并通過高斯混合模型得到反映異常程度的樣本能量,樣本能量超過閾值識別為異常,其結(jié)構(gòu)如圖2所示。
由此,將和組成樣本低維特征z輸入估計網(wǎng)絡(luò)。
估計網(wǎng)絡(luò)的任務(wù)是在高斯混合模型框架下對壓縮網(wǎng)絡(luò)提取的特征進(jìn)行密度估計,獲取高斯混合模型參數(shù)并通過高斯混合模型得到樣本能量?;诖蟛糠钟脩魹檎S脩艏罢S脩艟哂邢嗨朴秒娨?guī)律的假設(shè),竊電用戶符合某個高斯混合成分的概率較小,其樣本能量值較高,樣本能量越高該樣本異常的可能性越大,將低維特征輸入估計網(wǎng)絡(luò)得到輸出向量,有
輸出層神經(jīng)元數(shù)為假設(shè)的高斯混合成分?jǐn)?shù),將輸出通過softmax激活函數(shù)得到樣本歸屬于各高斯混合成分的維概率,即
式中,為樣本總數(shù)。
利用估計出的高斯混合模型參數(shù)計算樣本能量表達(dá)式為
DAGMM整體訓(xùn)練過程為壓縮網(wǎng)絡(luò)提取數(shù)據(jù)低維特征,估計網(wǎng)絡(luò)獲取高斯混合模型參數(shù),通過高斯混合模型計算樣本能量,根據(jù)代價損失函數(shù)得到代價損失值,并通過梯度下降法求代價損失最小值,更新壓縮網(wǎng)絡(luò)和估計網(wǎng)絡(luò)參數(shù)。
本文通過對用電負(fù)荷數(shù)據(jù)分析進(jìn)行竊電行為檢測,由于負(fù)荷數(shù)據(jù)中包含冗余信息,采用欠完備自編碼器作為壓縮網(wǎng)絡(luò)編碼器,網(wǎng)絡(luò)的激活函數(shù)對算法性能有較大影響,本文壓縮網(wǎng)絡(luò)采用softplus激活函數(shù),估計網(wǎng)絡(luò)采用tanh激活函數(shù),其計算式分別為
softplus激活函數(shù)用來解決梯度消失問題,具有單側(cè)抑制和稀疏靈活特性,其具有相對寬闊的興奮邊界,可有效避免大部分神經(jīng)元死亡現(xiàn)象的發(fā)生。tanh激活函數(shù)關(guān)于原點對稱,在原點附近梯度較大,可使模型快速收斂。因此,選取softplus函數(shù)作為壓縮網(wǎng)絡(luò)激活函數(shù)使模型參數(shù)稀疏化,模型可有效學(xué)習(xí)復(fù)雜的用電規(guī)律;選取tanh函數(shù)作為估計網(wǎng)絡(luò)激活函數(shù),可加快模型學(xué)習(xí)速度,使算法更快達(dá)到較好的檢測性能。
重構(gòu)誤差特征可反映樣本與其他用戶用電習(xí)慣間的差異,本文從距離和形態(tài)兩個角度進(jìn)行重構(gòu)誤差特征提取。針對距離特征,由于高維時間序列數(shù)據(jù)在平方以上的高次方運算中出現(xiàn)截斷誤差[28],且曼哈頓距離在計算速度上優(yōu)于歐幾里得距離,同時為避免特征值過大,采用相對曼哈頓距離提取樣本與重構(gòu)向量間的距離誤差,可得
采用余弦相似度衡量樣本與重構(gòu)向量間的形態(tài)誤差,其計算式為
對于DAGMM結(jié)構(gòu)的設(shè)計,本文最終確定網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示。
表1 DAGMM結(jié)構(gòu)參數(shù)
為保證本文所提方法檢出更多竊電用戶的同時減少誤判,需設(shè)置合理檢測閾值,本文將樣本能量超過所設(shè)閾值的用戶判定為較大竊電嫌疑,提出利用箱線圖設(shè)定竊電行為檢測閾值,箱線圖異常閾值選取原理圖如圖3所示。箱線圖作為可顯示數(shù)據(jù)分散情況的統(tǒng)計圖,其利用數(shù)據(jù)的5個統(tǒng)計量,即最小值、第一四分位數(shù)、中位數(shù)、第三四分位數(shù)和最大值來描述數(shù)據(jù)分布,認(rèn)為離群值為數(shù)據(jù)序列中的極端值。
圖3 箱線圖異常閾值選取
Fig. 3Selection of abnormal threshold for boxplot
本文提出的基于深度自編碼器高斯混合模型的用戶側(cè)竊電行為檢測方法,實現(xiàn)流程如圖4所示。
如圖4所示,本文檢測方法的具體實現(xiàn)步驟如下。
圖4 基于DAGMM的竊電行為檢測流程圖
Fig. 4Flow chart of electric theft behavior detection based on DAGMM
1) 以半小時為采樣周期,采集各用戶歷史6周的用電負(fù)荷數(shù)據(jù)作為原始數(shù)據(jù);
2) 對數(shù)據(jù)進(jìn)行預(yù)處理,針對缺失值進(jìn)行填補(bǔ)和剔除后,對每日負(fù)荷進(jìn)行min-max歸一化處理,去除基荷并減弱某日異常數(shù)據(jù)對歸一化的影響;
3) 對數(shù)據(jù)進(jìn)行平穩(wěn)性分析,基于AIC準(zhǔn)則確定滯后數(shù)目,選取使多數(shù)用戶滿足99%置信度下的ADF數(shù)據(jù)長度為輸入維度;
4) 將樣本輸入DAGMM模型進(jìn)行訓(xùn)練,利用壓縮網(wǎng)絡(luò)得到用戶用電習(xí)慣的低維表示,并基于余弦相似度、相對曼哈頓距離獲得用戶的重構(gòu)誤差特征,通過估計網(wǎng)絡(luò)在高斯混合模型框架下進(jìn)行特征密度估計,利用高斯混合模型獲得樣本能量;
5) 基于AdamOptimizer優(yōu)化器和總代價損失對DAGMM的壓縮網(wǎng)絡(luò)和估計網(wǎng)絡(luò)參數(shù)聯(lián)合優(yōu)化,利用優(yōu)化后的DAGMM重新計算樣本能量;
6) 通過箱線圖得出樣本能量異常閾值,將樣本能量超過閾值的用戶識別為竊電,據(jù)此實現(xiàn)用戶竊電行為檢測。
本文實驗平臺使用AMD Ryzen 7 4800U with Radeon Graphics CPU@1.80 GHz,在python3.7環(huán)境下進(jìn)行分析,深度學(xué)習(xí)框架選取TensorFlow。
3.1.1數(shù)據(jù)集構(gòu)建
本文采用愛爾蘭電力公司和愛爾蘭可持續(xù)能源局發(fā)布的真實用電數(shù)據(jù)作為數(shù)據(jù)集,該數(shù)據(jù)集包含超過5000個愛爾蘭居民和商業(yè)用戶535天的用電記錄(以半小時為采樣間隔),本文選取其中2500個居民用戶42天的負(fù)荷記錄作為研究對象。由于數(shù)據(jù)集中各居民用戶同意將采集數(shù)據(jù)用于研究使用,設(shè)所有用戶均為正常用戶。隨機(jī)選取部分正常用戶用電記錄構(gòu)造竊電樣本,構(gòu)造算式為
式中:1(·)表示持續(xù)按固定比例減小計量電量,更換互感器、分壓分流等竊電手段;2(·)表示按動態(tài)分?jǐn)?shù)降低電表計量,將超出閾值的電量攔截上報的竊電手段;3(·)表示可控開關(guān)間斷性報告零電量,在無稽查風(fēng)險時竊電;4(·)表示全時段零電量,包括電流表開路、斷開電壓表連接片、無表法等竊電手段;5(·)、6(·)分別表示持續(xù)按變比例隨機(jī)減少計量電量和在用戶電量均值基礎(chǔ)上按隨機(jī)變比減少電量,篡改電表軟件的智能化竊電;7(·)表示根據(jù)分時電價顛倒用電時序,降低電費成本的竊電手段。
3.1.2評價指標(biāo)
考慮實際檢測中大多數(shù)用戶為正常用戶,只有極少數(shù)用戶存在竊電行為,故對竊電檢測模型不能只使用準(zhǔn)確率作為評價指標(biāo),為對模型進(jìn)行有效評估,本文基于表2所示的混淆矩陣進(jìn)行評價。
表2 混淆矩陣
ROC曲線以FPR為橫軸,TPR為縱軸,反映FPR和TPR兩個指標(biāo)增長速率的相對關(guān)系,AUC為ROC曲線下的面積,作為衡量學(xué)習(xí)器優(yōu)劣的性能指標(biāo)。AUC的值越高,該分類器的效果越好,故將ROC曲線和AUC用于竊電檢測模型評估。
本文將數(shù)據(jù)隨機(jī)分為80%的訓(xùn)練集和20%的測試集,以用戶4周負(fù)荷數(shù)據(jù)為輸入,定義竊電用戶數(shù)占總用戶數(shù)的比例為竊電比例,隨機(jī)選取5%、10%、20%的正常用戶構(gòu)造竊電樣本,檢測結(jié)果如表3所示。
表3 竊電行為檢測結(jié)果
由表3可知,在10%竊電比例下,基于本文提出方法的TPR為0.6772,F(xiàn)PR為0.0627,即正常用戶被誤判的概率為6.27%時,可檢出67.72%的竊電用戶,具有較好的檢測性能。在5%和10%低竊電比例下,基于本文方法檢測的AUC均在0.82以上,同時具有較高的F1測度,由箱線圖閾值得到的TPR較高,同時FPR較低。隨竊電比例增加,當(dāng)竊電比例達(dá)到20%,TPR約為50%時,檢測性能略有下降。分析可知,本文檢測方法本質(zhì)為基于重構(gòu)的異常檢測,其要求數(shù)據(jù)符合大部分正常用戶具有相似用電規(guī)律的假設(shè),只有少數(shù)異常用戶具有與正常用戶相差較大的用電習(xí)慣。當(dāng)竊電比例較高時,不符合大多數(shù)樣本為正常樣本的基本假設(shè),導(dǎo)致模型訓(xùn)練受竊電樣本影響變大,不能偏向擬合正常樣本的數(shù)據(jù)分布。
以10%竊電比例展開分析,訓(xùn)練集各類竊電樣本數(shù)分別為32、19、28、23、27、28和32,本文所提方法對各竊電類型檢出百分比分別為9.38%、89.47%、96.43%、100.00%、0%、100.00%和93.75%。通過對5%、10%和20%竊電比例下各類竊電手段檢測情況的分析,本文所提方法對4、6對應(yīng)的竊電手段能全部檢出,大概率檢測出2、3和7造成的竊電現(xiàn)象,對1和5對應(yīng)的竊電手段無法有效檢測。
多維標(biāo)度法(Multidimensional Scaling, MDS)降維保證所有數(shù)據(jù)點在低維和高維空間中的歐式距離相等。用戶數(shù)據(jù)基于MDS映射到二維平面的散點圖如圖5所示。
圖5 用戶數(shù)據(jù)映射到二維平面的散點圖
Fig. 5Scatter diagram for customers after mapping
由圖5可知,1、5生成的竊電樣本與正常樣本分布相近,且由1表達(dá)式可知,其標(biāo)準(zhǔn)化后與生成該竊電原樣本一致,故竊電方式1較難識別。由各竊電算式定義可知,4的值一直保持不變,2、3和6導(dǎo)致負(fù)荷波動性較大,7與大多數(shù)正常樣本的峰值相反,由于編碼器能學(xué)習(xí)到位置信息,7重構(gòu)時誤差較大,竊電用戶識別結(jié)果如圖6所示。
圖6 竊電用戶識別結(jié)果
Fig. 6Electricity stealing user identification result
由圖6可知,本文所提方法將遠(yuǎn)離大多數(shù)正常樣本的正常用戶誤判為異常用戶,對有多個相似用電規(guī)律的用戶類型幾乎不會誤判。因此,本文所提方法能較為準(zhǔn)確地檢出竊電用戶,當(dāng)出現(xiàn)離群正常用戶的現(xiàn)象時,仍能有效檢測出離群用戶。
3.3.1數(shù)據(jù)維度影響分析
日用電負(fù)荷具有隨機(jī)波動性,易造成誤判,過長負(fù)荷數(shù)據(jù)具有較高的模型復(fù)雜度和學(xué)習(xí)難度。本文針對數(shù)據(jù)維度對算法性能影響進(jìn)行實驗,不同輸入數(shù)據(jù)維度下本文所提方法的ROC曲線如圖7所示。
圖7 不同輸入維度ROC曲線
Fig. 7ROC curve for different input dimensions
由圖7可知,當(dāng)采用1周、2周用電量數(shù)據(jù)分析時,本文提出方法的AUC在0.79以下,輸入數(shù)據(jù)信息量相對較少,導(dǎo)致模型學(xué)習(xí)信息不足,檢測性能相對較差。當(dāng)采用5周、6周用電數(shù)據(jù)分析時,本文方法的AUC在0.8左右,數(shù)據(jù)包含足夠信息量,增大數(shù)據(jù)維度對算法性能的提升不顯著,同時模型復(fù)雜度增加,數(shù)據(jù)重構(gòu)難度增大,算法性能相對降低。經(jīng)平穩(wěn)性分析可知,多數(shù)用戶4周負(fù)荷數(shù)據(jù)不受季節(jié)和趨勢信息影響,數(shù)據(jù)長度相對較短,使模型具有相對較少的參數(shù),其作為輸入的AUC為0.822,相較其他維度更為合理,因此,綜合數(shù)據(jù)平穩(wěn)性分析有效選取數(shù)據(jù)輸入維度,可使本文方法具有更高的檢測準(zhǔn)確率。
3.3.2 DAGMM參數(shù)影響分析
DAGMM的參數(shù)對竊電行為檢測性能有較大影響,其中,編碼器編碼數(shù)影響負(fù)荷數(shù)據(jù)的壓縮程度和方向,估計網(wǎng)絡(luò)輸出神經(jīng)元數(shù)為假設(shè)的高斯混合成分?jǐn)?shù),其影響樣本能量計算結(jié)果,本文針對編碼數(shù)和輸出層神經(jīng)元數(shù)對算法性能的影響進(jìn)行實驗,設(shè)置估計網(wǎng)絡(luò)結(jié)構(gòu)為(+2)/2/,其他參數(shù)保持不變,不同參數(shù)下各評價指標(biāo)表面圖如圖8所示。
由圖8(a)可知,當(dāng)編碼數(shù)為4時,輸出層神經(jīng)元數(shù)在13~25均具有較高的AUC,當(dāng)較小且取不同值時,本文方法的AUC在0.78以上,當(dāng)取值較高時,AUC降低。分析可知,當(dāng)較大時,提取的特征包含次要信息過多,導(dǎo)致算法性能下降。由圖8(b)和圖8(c)可見,當(dāng)較小較大時,測試集的TPR較高同時FPR相對較低,低誤檢率下能檢測出大多數(shù)竊電用戶。因此,當(dāng)選取較低和相對較大時,本文方法具有較高檢測準(zhǔn)確率。
圖8 不同參數(shù)下方法性能
Fig. 8Algorithm performance of different parameters
3.3.3箱線圖參數(shù)影響分析
圖9 參數(shù)l對方法性能的影響
Fig. 9Influence of parameteron algorithm performance
不同竊電比例下本文方法的ROC曲線如圖10所示。
圖10 不同竊電比例下本文方法的ROC曲線
由圖10可知,在低竊電比例下,設(shè)為1.5和3分別對應(yīng)ROC曲線的兩個轉(zhuǎn)折點,因此將設(shè)為1.5~3之間較為合理。
為了驗證本文方法的有效性,比較現(xiàn)有的同結(jié)構(gòu)壓縮網(wǎng)絡(luò)(Compression Network, CN)結(jié)合LOF(Local Outlier Factor)、OCSVM(one class support vector machine)、GMM(Gaussian Mixed Model)、KNN(K-Nearest Neighbor)、iForest(Isolation Forest)及同結(jié)構(gòu)自編碼器(Autoencoder, AE)結(jié)合GMM等幾種方法,各方法參數(shù)設(shè)置如表4所示,各方法檢測結(jié)果如表5所示。
由表5可知,本文方法的各評價指標(biāo)均優(yōu)于CN_GMM,本文方法端對端的學(xué)習(xí)方式對壓縮網(wǎng)絡(luò)和估計網(wǎng)絡(luò)參數(shù)聯(lián)合優(yōu)化,使模型參數(shù)更加合理。AE_GMM比CN_GMM的AUC低0.076,對重構(gòu)誤差進(jìn)行特征提取可挖掘出更多代表數(shù)據(jù)是否正常的信息。本文所提方法的AUC為0.82,CN結(jié)合其他分類器的AUC值為0.76左右,除AE_GMM的FPR較高,在各方法FPR相近的情況下,本文所提方法的TPR為67.72%,其他方法的TPR在50%左右,在特征提取方式相同的情況下,其他各無監(jiān)督檢測算法性能相似,本文方法檢測性能遠(yuǎn)優(yōu)于其他。
表4 檢測方法與參數(shù)設(shè)置
表5 不同方法竊電行為檢測結(jié)果
不同檢測方法的ROC曲線如圖11所示。
如圖11所示,本文方法的ROC曲線在低FPR下具有相對較高的TPR,即在誤檢用戶數(shù)相同的情況下,可檢測出更多竊電用戶,有效減少不必要的稽查,節(jié)約人力物力成本的同時可查處大部分竊電用戶,相比于其他方法,本文所提方法具有更高的檢測準(zhǔn)確度。
圖11 不同檢測方法的ROC曲線對比圖
Fig. 11Comparison of ROC curves of different methods
不同檢測方法對各竊電類型的檢出率如圖12所示。
圖12 不同檢測方法對各竊電類型的檢出率
Fig. 12Detection rate of different methods for each type of electric theft
由圖12可知,各方法均能檢出2、3、4和6四類竊電,而相比于現(xiàn)有方法,本文方法檢測7時,性能遠(yuǎn)優(yōu)于其他現(xiàn)有方法,可更準(zhǔn)確實現(xiàn)竊電行為識別。
本文針對用戶側(cè)竊電檢測背景下因模型解耦導(dǎo)致的無監(jiān)督方法適用性低的問題,提出了一種基于深度自編碼器高斯混合模型的竊電行為檢測方法。仿真與實驗結(jié)果表明:利用自編碼器和重構(gòu)誤差單元提取用戶用電特征,減少了數(shù)據(jù)冗余性并偏向擬合正常用戶用電習(xí)慣,有效獲取了區(qū)分正常和竊電用戶的行為特征;利用高斯混合模型進(jìn)行異常檢測,對出現(xiàn)概率低的竊電用戶可有效識別;基于端對端的模型學(xué)習(xí)方式,對特征提取與異常檢測模型參數(shù)的聯(lián)合優(yōu)化克服了解耦問題,提高了模型檢測準(zhǔn)確度;同時采用箱線圖設(shè)定竊電檢測閾值,提高了模型檢測精度;相比于現(xiàn)有檢測方法,本文所提方法受竊電樣本影響小,具有更高的檢測準(zhǔn)確率,對竊電用戶可準(zhǔn)確識別,為用戶側(cè)竊電行為準(zhǔn)確檢測與分析提供了全新有效的解決方案。
[1] LEON C, BISCARRI F, MONEDERO I, et al. Variability and trend-based generalized rule induction model to NTL detection in power companies[J]. IEEE Transactions on Power Systems, 2011, 26(4): 1798-1807.
[2] 余斌, 孟慶強(qiáng), 周衛(wèi)華, 等. 大型電池儲能電站系統(tǒng)運行控制策略研究[J]. 供用電, 2021, 38(3): 78-83.
YU Bin, MENG Qingqiang, ZHOU Weihua, et al. Study on operation control strategy of large battery energy storage power station system[J]. Distribution & Utilization, 2021, 38(3): 78-83.
[3] PUNMIYA R, CHOE S. Energy theft detection using gradient boosting theft detector with feature engineering- based preprocessing[J]. IEEE Transactions on Smart Grid, 2019, 10(2): 2326-2329.
[4] GUERRERO J I, MONEDERO I, BISCARRI F, et al. Non-technical losses reduction by improving the inspections accuracy in a power utility[J]. IEEE Transactions on Power Systems, 2017, 33(2): 1209-1218.
[5] 招景明, 唐捷, 潘峰, 等. 基于SDAE和雙模型聯(lián)合訓(xùn)練的低壓用戶竊電檢測方法[J]. 電測與儀表, 2021, 58(12): 161-168.
ZHAO Jingming, TANG Jie, PAN Feng, et al. Detection method of electricity theft for low-voltage users based on SDAE and double-model joint training[J]. Electrical Measurement & Instrumentation, 2021, 58(12): 161-168.
[6] 陳啟鑫, 鄭可迪, 康重慶, 等. 異常用電的檢測方法:評述與展望[J]. 電力系統(tǒng)自動化, 2018, 42(17): 189-199.
CHEN Qixin, ZHENG Kedi, KANG Chongqing, et al.Detection methods of abnormal electricity use: review and prospect[J]. Automation of Electric Power Systems, 2018, 42(17): 189-199.
[7] 程超, 張漢敬, 景志敏, 等. 基于離群點算法和用電信息采集系統(tǒng)的反竊電研究[J]. 電力系統(tǒng)保護(hù)與控制, 2015, 43(17): 69-74.
CHENG Chao, ZHANG Hanjing, JING Zhimin, et al. Study on the anti-electricity stealing based on outlier algorithm and the electricity information acquisition system[J]. Power System Protection and Control, 2015, 43(17): 69-74.
[8] 李欣悅, 李鳳婷, 尹純亞, 等. 直流雙極閉鎖故障下送端系統(tǒng)暫態(tài)過電壓計算方法[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(1): 1-8.
LI Xinyue, LI Fengting, YIN Chunya, et al. Transient overvoltage calculation method of HVDC sending-end system under DC bipolar blocking[J]. Power System Protection and Control, 2021, 49(1): 1-8.
[9] ASHA K S, JAYA L A. Data mining for classification of power quality problems using WEKA and the effect of attributes on classification accuracy[J]. Protection and Control of Modern Power Systems, 2018, 3(3): 303-314.
[10]孫立明, 楊博. 蓄電池/超導(dǎo)混合儲能系統(tǒng)非線性魯棒分?jǐn)?shù)階控制[J]. 電力系統(tǒng)保護(hù)與控制, 2020, 48(22): 76-83.
SUN Liming, YANG Bo. Nonlinear robust fractional-ordercontrol of battery/ SMES hybrid energy storage systems[J]. Power System Protection and Control, 2020, 48(22): 76-83.
[11] 游文霞, 申坤, 楊楠, 等.基于AdaBoost集成學(xué)習(xí)的竊電檢測研究[J].電力系統(tǒng)保護(hù)與控制, 2020, 48(19): 151-159.
YOU Wenxia, SHEN Kun, YANG Nan, et al. Research on electricity theft detection based on AdaBoost ensemble learning[J]. Power System Protection and Control, 2020, 48(19): 151-159.
[12] SUN Q, SHI L, NI Y, et al. An enhanced cascading failure model integrating data mining technique[J]. Protection and Control of Modern Power Systems, 2017, 2(1): 19-28.
[13] JINDAL A, DUA A, KAUR K, et al. Decision tree and SVM-based data analytics for theft detection in smart grid[J]. IEEE Transactions on Industrial Informatics, 2016, 12(3): 1005-1016.
[14] 康寧寧, 李川, 曾虎, 等.采用FCM聚類與改進(jìn)SVR模型的竊電行為檢測[J].電子測量與儀器學(xué)報, 2017, 31(12): 2023-2029.
KANG Ningning, LI Chuan, ZENG Hu, et al.Using FCM clustering and improved SVR model to detect electric theft behavior[J]. Journal of Electronic Measurement and Instrumentation,2017, 31(12): 2023-2029.
[15] 莊池杰, 張斌, 胡軍, 等.基于無監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測[J].中國電機(jī)工程學(xué)報, 2016, 36(2): 379-387.
ZHUANG Chijie, ZHANG Bin, HU Jun, et al. Abnormal power consumption pattern detection of power users based on unsupervised learning[J]. Proceedings of the CSEE, 2016, 36(2): 379-387.
[16] 王桂蘭, 周國亮, 趙洪山, 等.大規(guī)模用電數(shù)據(jù)流的快速聚類和異常檢測技術(shù)[J].電力系統(tǒng)自動化, 2016, 40(24): 27-33.
WANG Guilan, ZHOU Guoliang, ZHAO Hongshan, et al.Fast clustering and anomaly detection of large-scale electricity data stream[J].Automation of Electric Power Systems, 2016, 40(24): 27-33.
[17] 洪剛, 朱慶波, 樓越煥.基于密度峰值估計的用電異常檢測算法[C] // 2017智能電網(wǎng)發(fā)展研討會論文集, 2017年7月25日, 中國, 北京: 565-571.
HONG Gang, ZHU Qingbo, LOU Yuehuan. Electricity anomaly detection algorithm based on density peak estimation[C] // 2017 Smart Grid Development Symposium Proceedings, July 25, 2017, Beijing, China: 565-571.
[18] ZHENG K, WANG Y, CHEN Q, et al. Electricity theft detecting based on density-clustering method[C] // 2017 IEEE Innovative Smart Grid Technologies-Asia (ISGT-Asia), December 4-7, 2017, Auckland, New Zealand: 1-6.
[19] ZHENG K, CHEN Q, WANG Y, et al. A novel combined data-driven approach for electricity theft detection[J]. IEEE Transactions on Industrial Informatics, 2019, 15(3): 1809-1819.
[20] 宋軍英, 崔益?zhèn)? 李欣然, 等.改進(jìn)分段線性表示與動態(tài)時間彎曲相結(jié)合的負(fù)荷曲線聚類方法[J].電力系統(tǒng)自動化, 2021, 45(2): 89-96.
SONG Junying, CUI Yiwei, LI Xinran, et al. Improved piecewise linear representation combined with dynamic time bending load curve clustering method[J]. Automation of Electric Power Systems, 2021, 45(2): 89-96.
[21] 單洪明, 張軍平. 實值多變量維數(shù)約簡: 綜述[J]. 自動化學(xué)報, 2018, 44(2): 193-215.
SHAN Hongming, ZHANG Junping. Real-valued multivariate dimension reduction: a survey[J]. Acta Automatica Sinica, 2018, 44(2): 193-215.
[22] 鄭思達(dá), 梁琪琳, 彭鑫霞, 等.基于模糊聚類的異常用電行為識別研究[J].電測與儀表, 2020, 57(19): 40-44.
ZHENG Sida, LIANG Qilin, PENG Xinxia, et al. Research on recognition of abnormal electricity use behavior based on fuzzy clustering[J].Electrical Measurement & Instrumentation, 2020, 57(19): 40-44.
[23] 孫毅, 李世豪, 崔燦, 等. 基于高斯核函數(shù)改進(jìn)的電力用戶用電數(shù)據(jù)離群點檢測方法[J]. 電網(wǎng)技術(shù), 2018, 42(5): 1595-1606.
SUN Yi, LI Shihao, CUI Can, et al. An improved outlier detection method for power user data based on Gaussian kernel function[J]. Power System Technology, 2018, 42(5): 1595-1606.
[24] 王毅, 丁力, 侯興哲, 等. 基于層次分析法的加權(quán)力線竊電檢測方法[J]. 科學(xué)技術(shù)與工程, 2017, 17(33): 96-103.
WANG Yi, DING Li, HOU Xingzhe, et al. Power theft detection method based on the analytic hierarchy process[J]. Science Technology and Engineering, 2017, 17(33): 96-103.
[25] 陳建華, 戴鐵潮, 張寧, 等.確定性合同分解中異常負(fù)荷數(shù)據(jù)的識別與修正[J].電力系統(tǒng)自動化, 2009, 33(6): 21-24, 43.
CHEN Jianhua, DAI Tiechao, ZHANG Ning, et al. Identification and correction of abnormal load data in deterministic contract decomposition[J].Automation of Electric Power Systems, 2009, 33(6): 21-24, 43.
[26]金晟, 蘇盛, 薛陽, 等. 數(shù)據(jù)驅(qū)動竊電檢測方法綜述與低誤報率研究展望[J]. 電力系統(tǒng)自動化, 2022, 46(1): 3-14.
JIN Sheng, SU Sheng, XUE Yang, et al. Review of data-driven electric theft detection methods and research prospect of low false positive rate[J]. Automation of Electric Power Systems, 2022, 46(1): 3-14.
[27] WANG Y, CHEN Q, KANG C, et al.Clustering of electricity consumption behavior dynamics toward big data applications[J].IEEE Transactions on Smart Grid, 2016, 7(5): 2437-2447.
[28] 冉冉, 陳碩, 劉穎, 等. 基于聚類分析的用電模式判別研究[J]. 電力大數(shù)據(jù), 2019, 22(4): 43-49.
RAN Ran, CHEN Shuo, LIU Ying, et al. Study on power consumption pattern discrimination based on cluster analysis[J]. Power Systems and Big Data, 2019, 22(4): 43-49.
Abnormal detection of electricity theft using a deep auto-encoder Gaussian mixture model
LIU Zhaorui1, GAO Yunpeng1, GUO Jianbo2, LI Yunfeng1, GU Dexi1, WEN Yizhang1
(1. College of Electrical and Information Engineering, Hunan University, Changsha 410082, China;2. Hangzhou Haixing Electrical Co., Ltd, Hangzhou 310011, China)
Considering the applicability of unsupervised methods for user-side electricity theft detection, this paper studies how to solve the decoupling problem between feature extraction and anomaly detection. It proposes a user-side electricity theft detection method based on the deep auto encoder Gaussian mixture model (DAGMM). First, the electricity consumption data dimension with stationarity is obtained according to the augmented Dickey Fuller test. Then, potential characteristics of data are extracted by compressing the network. An estimation network and Gaussian mixture model are used to obtain sample energy. This reflects the degree of anomaly. Finally, network parameters are optimized jointly based on end-to-end learning to avoid model decoupling, and identify users whose sample energy exceeds the abnormal threshold as electricity thief. In this way theft of electricity can be detected. The experimental results show that the detection method based on DAGMM is less affected by the sample of electricity theft, and the extracted features can effectively reflect the user's electricity consumption law with higher detection accuracy. Compared with the existing methods, the detection rate, false detection rate, F1 measurement and AUC of the proposed method are significantly improved.
stealing electricity; unsupervised learning; deep auto-encoder Gaussian mixture model; augmented Dickey Fuller test; decoupling
10.19783/j.cnki.pspc.211659
2021-12-06;
2022-01-19
劉釗瑞(1997—),女,碩士研究生,主要研究方向為數(shù)據(jù)挖掘、模式識別;E-mail:Liuzr594@hnu.edu.cn
高云鵬(1978—),男,通信作者,博士后,教授,主要研究方向為模式識別、電力系統(tǒng)自動化與智能信息處理等;E-mail: gfront@126.com
郭建波(1973—),男,碩士研究生,高級工程師,主要研究方向為電力大數(shù)據(jù)應(yīng)用分析和人工智能等。E-mail: jianbo.guo@hxgroup.com
國家自然科學(xué)基金項目資助(51777061);廣西電網(wǎng)科技項目資助(GXKJXM20200020)
This work is supported by the National Natural Science Foundation of China (No. 51777061).
(編輯 許 威)