董立紅,肖純朗,葉 鷗,于振華
一種基于CAEs-LSTM融合模型的竊電檢測方法
董立紅1,肖純朗1,葉 鷗1,于振華1
(西安科技大學(xué)計算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710000)
為解決現(xiàn)有的智能電網(wǎng)電力盜竊行為檢測方法中準(zhǔn)確性不足、檢測效率低下等問題,提出了一種由卷積自編碼器網(wǎng)絡(luò)(convolutional auto-encoders, CAEs)和長短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)相結(jié)合的CAEs-LSTM檢測模型。該模型通過分析數(shù)據(jù)集的特點(diǎn)對電力數(shù)據(jù)進(jìn)行二維轉(zhuǎn)換,設(shè)計卷積自編碼器結(jié)構(gòu),采用池化、下采樣和上采樣重構(gòu)電力數(shù)據(jù)的二維空間特征,加入高斯噪聲提高模型魯棒性,并構(gòu)建長短期記憶網(wǎng)絡(luò)以學(xué)習(xí)全局時序特征。最后,對提取的時空特征進(jìn)行融合從而檢測能源竊賊,并進(jìn)行了參數(shù)調(diào)優(yōu)。在由國家電網(wǎng)公布的真實(shí)數(shù)據(jù)集上,通過將CAEs-LSTM模型與支持向量機(jī)、LSTM以及寬深度卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行對比,CAEs-LSTM模型的平均精度均值和曲線下面積值均最優(yōu)。仿真實(shí)驗(yàn)表明,基于CAEs-LSTM模型的竊電檢測方法具有更高的竊電檢測效率和精度。
竊電檢測;長短期記憶網(wǎng)絡(luò);卷積自編碼器;深度學(xué)習(xí);缺失值填補(bǔ)
近年來,隨著智能電網(wǎng)的發(fā)展,用電居民在享受其帶來的便利的同時,供電企業(yè)的線路損失率居高不下,這導(dǎo)致了供電運(yùn)營成本的提升。在電力系統(tǒng)中,電力損耗有兩種類型:技術(shù)性損失(technical losses, TLs)和非技術(shù)性損失(non-technical losses, NTLs)[1]。技術(shù)性損失是電能在傳輸過程中無法避免的固有損耗,主要由電力系統(tǒng)中組件自身的功率損耗組成。導(dǎo)致非技術(shù)性損失的原因有很多種[2],主要包括:篡改儀表、從電源上安裝線路繞過儀表、賄賂抄表員、儀表故障或損壞[3]、數(shù)據(jù)處理以及計費(fèi)中的技術(shù)和人為錯誤。在實(shí)際場景中,非法篡改導(dǎo)致的損耗是非技術(shù)性損失的主要原因,也被稱為電力盜竊。
電力盜竊正在不斷削弱世界各地的公用事業(yè)供應(yīng)商,它不僅影響了電力系統(tǒng)的穩(wěn)定運(yùn)行,甚至產(chǎn)生危及生命的公共安全問題。根據(jù)東北集團(tuán)的數(shù)據(jù)顯示,NTLs每年在全球造成960億美元的損失[4],中國福建省的年竊電損失高達(dá)1億美元[5]。據(jù)報告,在東南亞國家聯(lián)盟的大多數(shù)發(fā)展中國家中,NTLs活動的發(fā)生率很高。世界銀行還報告說,由電力盜竊而產(chǎn)生的損失是發(fā)展中國家近一半的發(fā)電量[6]。
對于電力盜竊問題,執(zhí)行定期檢查的費(fèi)用非常高,因此很難計算或衡量實(shí)際損失[7]。隨著智能電網(wǎng)技術(shù)的不斷發(fā)展,用電信息采集異常幾率逐漸增大,累計的終端用戶異常用電數(shù)據(jù)也越來越多,異常的用電模式蘊(yùn)藏著電網(wǎng)的重要信息。因此,對用電數(shù)據(jù)進(jìn)行深層次挖掘,通過其隱藏的規(guī)律可以有效檢測出異常的用電模式。
用電異常檢測是指利用電力系統(tǒng)中的歷史數(shù)據(jù)和實(shí)時數(shù)據(jù),檢測電力系統(tǒng)中存在的異常用電用戶或異常用電行為[8]。聚類[9]和支持向量機(jī)(support vector machines, SVM)等在電力盜竊檢測中應(yīng)用廣泛[10-14],文獻(xiàn)[15]利用歷史消費(fèi)數(shù)據(jù),使用數(shù)據(jù)挖掘方法和SVM分類器檢測異常行為,利用能源消費(fèi)的長期趨勢來檢測欺詐客戶。然而,基于SVM的電力竊取檢測通常需要大量的訓(xùn)練數(shù)據(jù)并且依賴從歷史數(shù)據(jù)中提取的特征,不適用于處理高維數(shù)據(jù)中的類別不平衡問題。集成學(xué)習(xí)也被用于電力盜竊檢測,文獻(xiàn)[16]通過改進(jìn) XGBoost 模型,通過實(shí)際電力用戶數(shù)據(jù)實(shí)現(xiàn)了低誤報率的檢測。
近年來,深度學(xué)習(xí)在用電異常檢測中的應(yīng)用越來越廣泛。文獻(xiàn)[17]通過對數(shù)據(jù)集進(jìn)行特殊的縮減,提取數(shù)據(jù)集中有意義的信息,然后構(gòu)建長短期記憶網(wǎng)絡(luò)(long short term memory, LSTM)模型識別異常用戶。文獻(xiàn)[18]采用歸一化和插值方法對電力數(shù)據(jù)進(jìn)行預(yù)處理,然后將預(yù)處理后的數(shù)據(jù)送入LSTM模塊進(jìn)行特征提取,最后將選定的特性傳遞給提出的RUSBoost模塊進(jìn)行分類。混合深度學(xué)習(xí)技術(shù)能結(jié)合不同模型的優(yōu)點(diǎn),近年來常被用于負(fù)荷預(yù)測等研究[19]。文獻(xiàn)[20]使用6個盜竊案例來合成盜竊數(shù)據(jù),以模擬真實(shí)世界的場景。文獻(xiàn)[21]將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)與隨機(jī)森林算法相結(jié)合,在超過5000名住宅和商業(yè)消費(fèi)者的真實(shí)數(shù)據(jù)集上驗(yàn)證了模型的有效性。受寬深度推薦系統(tǒng)的啟發(fā),文獻(xiàn)[22]提出了一種寬深度混合模型,在由國家電網(wǎng)公布的真實(shí)數(shù)據(jù)集上通過監(jiān)督訓(xùn)練驗(yàn)證了竊電檢測的效率。在此基礎(chǔ)上,文獻(xiàn)[23]通過串行將CNN和LSTM結(jié)合起來,研究電力數(shù)據(jù)的時間特性,并合成惡意數(shù)據(jù)進(jìn)行注入來解決異常檢測中的樣本失衡問題。然而,混合模型的應(yīng)用需要考慮到數(shù)據(jù)集的特性,這些檢測方法沒有從大量高維度數(shù)據(jù)中充分提取出數(shù)據(jù)的特征,檢測精度仍有待提升。
本文提出了一種新的深度學(xué)習(xí)模型,用以解決上述問題。首先對數(shù)據(jù)集中的缺失值及異常值進(jìn)行處理,然后構(gòu)建LSTM學(xué)習(xí)數(shù)據(jù)的全局時序特征,通過卷積自編碼器網(wǎng)絡(luò)(convolutional auto-encoders, CAEs)學(xué)習(xí)數(shù)據(jù)的空間特征,并將兩者學(xué)習(xí)到的特征進(jìn)行融合,用于訓(xùn)練監(jiān)督模型。本文考慮了所使用數(shù)據(jù)集的時空特性,并在卷積自編碼器的輸入中加入了高斯噪聲,提高了模型的魯棒性。最后,通過42 373個用戶的日負(fù)荷數(shù)據(jù)來訓(xùn)練和評估提出的模型,驗(yàn)證其優(yōu)越性。
Keras是一款用Python 編寫且可兼容 Tensorflow的神經(jīng)網(wǎng)絡(luò)高級包,支持快速實(shí)驗(yàn)。本文通過 Keras 建立基于 CAEs-LSTM的電力盜竊行為檢測模型,實(shí)現(xiàn)電力盜竊用戶的檢測。
作為深度學(xué)習(xí)的流行算法之一,自動編碼器已經(jīng)被廣泛應(yīng)用于醫(yī)學(xué)、圖像、生物工程、信息物理融合系統(tǒng)等各個領(lǐng)域進(jìn)行降維或特征學(xué)習(xí)[24]。自動編碼器有一個輸入層,一個隱含層和一個輸出層。典型的自編碼器結(jié)構(gòu)如圖1所示。
圖1 卷積自編碼器結(jié)構(gòu)
對自動編碼器結(jié)構(gòu)進(jìn)行改進(jìn),可以得到其他類型的自動編碼器,如卷積自編碼器。其主要思想就是加入一些卷積操作,將基本的自編碼器全連接層替換為卷積層、池化層以及采樣層。
池化層作為緊鄰卷積層的步驟,是一個下采樣過程,通常被置于兩個卷積層之間。池化層的作用是進(jìn)行特征選擇,減少特征數(shù)量,進(jìn)而減少網(wǎng)絡(luò)參數(shù)量,實(shí)現(xiàn)降維,并在一定程度上達(dá)到防止過擬合的效果。
重構(gòu)誤差可表示為
為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的短期記憶問題,提出長短期記憶網(wǎng)絡(luò)。長短期記憶網(wǎng)絡(luò)具有額外的特征來記憶數(shù)據(jù)序列,能克服循環(huán)神經(jīng)網(wǎng)絡(luò)中的消失梯度問題。LSTM能夠從網(wǎng)絡(luò)的初始階段到最后階段記憶和傳播重要信息,在處理時序數(shù)據(jù)的特征提取上有非常顯著的效果,因此常被用于時間序列數(shù)據(jù)預(yù)測及分類[25-26]。
每個LSTM是一組單元或系統(tǒng)模塊,在每個單元中使用了一些門,單元中的數(shù)據(jù)流可以被捕獲并存取,然后處理、過濾或添加到下一個單元中,因此單元可以有選擇地讓信息通過或者刪除,其結(jié)構(gòu)如圖2所示。
圖2 LSTM單元結(jié)構(gòu)
它通過3個門(稱為遺忘門、輸入門和輸出門),來控制信息的傳遞,可以通過以下公式進(jìn)行概括。
遺忘門:
輸入門:
輸出門:
為了更好地完成異常用電模式檢測,本文提出一種基于CAEs-LSTM的用戶異常用電模式檢測模型,如圖3所示。該模型通過混合深度學(xué)習(xí)模型找出電力數(shù)據(jù)中潛藏的用電模式,以檢測異常用電數(shù)據(jù)。
為了監(jiān)測消費(fèi)者的用電行為,配電公司每天定期記錄實(shí)際日負(fù)荷數(shù)據(jù)。電力盜竊數(shù)據(jù)屬于敏感數(shù)據(jù),本文所使用的數(shù)據(jù)集是來自國家電網(wǎng)(SGCC)發(fā)布的數(shù)據(jù)集,數(shù)據(jù)的采集頻率為1天1次,這些數(shù)據(jù)已經(jīng)由國家電網(wǎng)專業(yè)人員處理過,包含標(biāo)記的正常用戶和電力竊賊。數(shù)據(jù)集包含了42 372個用戶從2014年1月1日至2016年10月31日共1036天每天的能耗統(tǒng)計數(shù)據(jù),其中正常用戶數(shù)量為38 767,電力竊賊數(shù)量為3615,表1給出了數(shù)據(jù)的元信息。
圖3 用戶異常用電模式檢測流程
表1 數(shù)據(jù)集元信息
通過對數(shù)據(jù)集進(jìn)行初步觀察,發(fā)現(xiàn)正常用戶和電力竊賊在日負(fù)荷趨勢上存在差別,日負(fù)荷數(shù)據(jù)處于不間斷的波動中,而正常用戶的日負(fù)荷數(shù)據(jù)相對平緩,電力竊賊的日負(fù)荷數(shù)據(jù)波動性比較強(qiáng),且電力竊賊的能耗值一般比正常用戶高出很多,如圖4所示。
2.2.1缺失值處理
由于電表故障、系統(tǒng)不穩(wěn)定、存儲異常及自然因素等原因,數(shù)據(jù)在采集的過程中往往會丟失,導(dǎo)致數(shù)據(jù)集中出現(xiàn)大量缺失值。本文所使用的數(shù)據(jù)中,發(fā)現(xiàn)了大量的缺失值以及0值,如表2所示,缺失率為當(dāng)前列中所缺失的行數(shù)占總行數(shù)的比率。經(jīng)統(tǒng)計,缺失主要集中在列缺失率為30%~40%,而0值主要集中在0值占整列行數(shù)為10%~20%的列中。這表明數(shù)據(jù)缺失程度比較大,因此首先對缺失數(shù)據(jù)進(jìn)行處理。
圖4 正常用戶和電力竊賊的日負(fù)荷數(shù)據(jù)
表2 數(shù)據(jù)集缺失值和0值比例
對于要進(jìn)行填補(bǔ)的某一列,首先去除當(dāng)前列中帶缺失值的行,去掉缺失行后,將剩余行中對應(yīng)的當(dāng)前列的列值作為標(biāo)簽,統(tǒng)計當(dāng)前列相鄰前后各5列的數(shù)據(jù),如果這5列數(shù)據(jù)中仍存在缺失值,則以這些列的列均值取代。實(shí)驗(yàn)中存在一種情況:選取的某列全部都為缺失值,此時通過原始未處理數(shù)據(jù)的列均值來取代這些缺失值。
對提取的10列數(shù)據(jù)進(jìn)行灰色關(guān)聯(lián)分析,得到灰色關(guān)聯(lián)矩陣,對關(guān)聯(lián)矩陣中的關(guān)聯(lián)系數(shù)由大到小排序,并記錄列索引。排序的前5列為與填補(bǔ)列相關(guān)性最高的特征,將這5列作為K近鄰模型的輸入。訓(xùn)練好的模型用來預(yù)測缺失值,通過預(yù)測的缺失值進(jìn)行填補(bǔ),處理流程如圖5所示。
圖5 缺失值填補(bǔ)流程
2.2.2異常值處理
對于電力能耗數(shù)據(jù),在部分情況下會出現(xiàn)偏離正常趨勢的較大或較小值,這些對應(yīng)于實(shí)際生活中的特定假日,比如在春節(jié)等節(jié)日,用電量會迅速提高,形成遠(yuǎn)離序列一般水平的極端大值和極端小值,即離群點(diǎn)。離群點(diǎn)會降低模型的泛化性能,對于這類值,本文采用三西格瑪經(jīng)驗(yàn)法則進(jìn)行調(diào)整,可表示為
2.2.3數(shù)據(jù)歸一化
由于神經(jīng)網(wǎng)絡(luò)對不同的數(shù)據(jù)比較敏感,需要對數(shù)據(jù)進(jìn)行歸一化。常用的歸一化方法是最小-最大歸一化,可表示為
歸一化后,隨機(jī)取部分正常用戶和電力竊賊35天的數(shù)據(jù)進(jìn)行分析,如圖6所示,可以明顯的看到,電力竊賊的負(fù)荷數(shù)據(jù)波動性非常突出。
圖6 歸一化后正常用戶和電力竊賊的用電趨勢圖
在本文中,卷積自編碼器和長短期記憶網(wǎng)絡(luò)被組合起來進(jìn)行分類檢測,模型結(jié)構(gòu)圖如圖7所示。
圖7 CAEs-LSTM混合模型結(jié)構(gòu)
用戶用電數(shù)據(jù)隱藏著周期性的規(guī)律,為了更好地探索和利用用戶日負(fù)荷數(shù)據(jù)的周期性和空間特性,本文采用卷積形式的自動編碼器。將原始一維電力負(fù)荷數(shù)據(jù)進(jìn)行二維轉(zhuǎn)換,作為卷積自編碼器的輸入。為了提高卷積自編碼器的泛化性能和魯棒性,在輸入的數(shù)據(jù)中加入高斯白噪聲。
水利現(xiàn)代化繪河清湖晏藍(lán)圖——訪江蘇省淮安市水利局局長、黨委書記黃克清……………………………… 韋鳳年,江 芳,郭 純等(16.59)
圖8 卷積自編碼器編碼結(jié)構(gòu)
在解碼階段,通過與之對稱的卷積層和上采樣層完成。通過卷積自編碼器獲取從二維用電數(shù)據(jù)重構(gòu)的空間特征。最后,分別將獲取的空間和時間特征進(jìn)行融合。為了均衡融合提取的時序特征和空間特征,本文將卷積自編碼器重構(gòu)的特征連接到一個可變數(shù)神經(jīng)元的全連接層上,神經(jīng)元的數(shù)量和LSTM的隱藏單元數(shù)保持一致。由此得到數(shù)據(jù)深層次的隱含特征,用于分類檢測。本文使用二進(jìn)制交叉熵?fù)p失函數(shù)計算當(dāng)前模型的損失偏差程度,可表示為
2.4.1 AUC
AUC在機(jī)器學(xué)習(xí)領(lǐng)域中是一種模型評估指標(biāo),常用于評價分類的準(zhǔn)確性。AUC被定義為ROC曲線下與坐標(biāo)軸圍成的面積,而ROC曲線有一個很好的特性:當(dāng)測試集中的正負(fù)樣本分布發(fā)生變化,ROC曲線可以保持不變。在實(shí)際應(yīng)用中,經(jīng)常會出現(xiàn)數(shù)據(jù)集類別不平衡現(xiàn)象,而ROC曲線基本可以保持在類別均衡時繪制的曲線原貌。因此,AUC非常適用于本實(shí)驗(yàn)的性能指標(biāo)。
AUC值等于隨機(jī)選擇的陽性樣本排名高于隨機(jī)選擇的陰性樣本的概率,其值越大表示性能越好。其計算公式為
2.4.2 MAP
本節(jié)通過實(shí)驗(yàn)仿真,驗(yàn)證本文所提出的CAEs- LSTM模型的有效性。實(shí)驗(yàn)是在小型服務(wù)器上使用Python 3.7實(shí)現(xiàn)的,基于Keras實(shí)現(xiàn)了卷積自編碼器和長短期記憶網(wǎng)絡(luò)融合的結(jié)構(gòu)。
為了驗(yàn)證本文提出方法的性能,將其與支持向量機(jī)、LSTM和寬深度卷積模型[22]進(jìn)行比較。
支持向量機(jī):SVM通過找到最優(yōu)的分離超平面,將非線性分離問題轉(zhuǎn)化為線性分離問題。它常被作為一個后續(xù)處理方案,應(yīng)用于基于人類知識和專業(yè)知識的欺詐行為檢測。
LSTM:基于在處理時間序列數(shù)據(jù)上的優(yōu)秀能力及其可記憶的特點(diǎn),LSTM常被用于作為入侵檢測系統(tǒng)的基礎(chǔ)架構(gòu)。
寬深度卷積模型(wide_deep_ CNN):基于文獻(xiàn)[24]所提出的寬深度卷積模型,在處理電力數(shù)據(jù)集上有非常好的效果。
表3為本文仿真實(shí)驗(yàn)的參數(shù)設(shè)置情況。
表3 對比實(shí)驗(yàn)參數(shù)設(shè)置
本文劃分了不同的訓(xùn)練比來進(jìn)行實(shí)驗(yàn),表4為提出的CAEs-LSTM模型與其他檢測方案的性能比較。本文分別進(jìn)行了訓(xùn)練數(shù)據(jù)比例為50%、60%、70%和80%的4組實(shí)驗(yàn),并記錄了AUC以及MAP@100和MAP@200的值。
表4 CAEs-LSTM模型與其他方案的性能比較
從表4可以看出,本文提出的模型在3組指標(biāo)中均優(yōu)于SVM、LSTM以及寬深度卷積模型。特別需要指出,當(dāng)訓(xùn)練比為60%時,AUC指標(biāo)達(dá)到78%,MAP指標(biāo)達(dá)到98%,這表明CAEs-LSTM模型的穩(wěn)定性更好。
MAP指標(biāo)的迭代結(jié)果如圖9所示,結(jié)果表明,相比于其他模型,本文提出的模型達(dá)到峰值所需要的迭代次數(shù)更少。
圖9 60%訓(xùn)練比下MAP測試結(jié)果對比
當(dāng)訓(xùn)練比為60%時,本文模型相較于LSTM,AUC值提高近2.5%,MAP@100和MAP@200值分別提高將近11.5%和10%;相較于寬深度卷積模型,AUC值提高1%左右,MAP@100和MAP@200值分別提高將近6%和5%。因此,該模型具有更高的檢測精度。本文還在多個訓(xùn)練比下進(jìn)行了實(shí)驗(yàn),如圖10所示。
結(jié)果表明,在不同的訓(xùn)練比下,本文提出的模型都有穩(wěn)定的結(jié)果。
為了使本文提出模型達(dá)到更好的效果,對模型中的部分參數(shù)進(jìn)行了優(yōu)化,并在此節(jié)給出了調(diào)參的結(jié)果。
3.2.1 LSTM節(jié)點(diǎn)數(shù)
LSTM的節(jié)點(diǎn)數(shù)代表隱藏層的神經(jīng)元個數(shù),也代表輸出層的維度,它決定參數(shù)量的大小。網(wǎng)格搜索對于大批次數(shù)據(jù)訓(xùn)練往往會存在訓(xùn)練時間長、延時以及誤差等問題,本文應(yīng)用常規(guī)的節(jié)點(diǎn)個數(shù)設(shè)置,分別測試了單元數(shù)為32、64和128的情形,如圖11所示。
在訓(xùn)練比為60%的情形下進(jìn)行實(shí)驗(yàn),結(jié)果表明,隱藏層神經(jīng)元數(shù)為64時達(dá)到較優(yōu)的結(jié)果。
3.2.2 LSTM層數(shù)
LSTM的層數(shù)對實(shí)驗(yàn)性能有較大的影響,對時序數(shù)據(jù)額外的處理是非常耗時的。實(shí)驗(yàn)中使用了常用的LSTM參數(shù)設(shè)置,得到結(jié)果的如圖12所示。
結(jié)果表明,過量的疊加層數(shù)反而會弱化模型效果,導(dǎo)致擬合性能變差。造成上述結(jié)果的原因是層數(shù)疊加致使參數(shù)冗余,導(dǎo)致過擬合,此時性能也會降低。因此,選擇單層的LSTM能取得最好的效果。
本文提出了一種CAEs-LSTM模型來檢測智能電網(wǎng)中的竊電行為,并在國家電網(wǎng)公布的真實(shí)數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)。在缺失值處理階段,本文引入了基于灰色關(guān)聯(lián)分析的K近鄰模型擬合方法,尋求最優(yōu)的擬合值作為填補(bǔ)。真實(shí)數(shù)據(jù)集中通常帶有一些不可避免的噪聲,本文在訓(xùn)練階段加入了高斯白噪聲,以提高模型泛化、抗噪能力以及魯棒性。所提出的CAEs-LSTM模型在竊電檢測領(lǐng)域中是一項(xiàng)比較先進(jìn)的方法,它具有以下兩個特性:一是混合模型可以自動提取特征,而其他大多數(shù)傳統(tǒng)分類器的成功很大程度上依賴于手工設(shè)計的特征;二是混合模型結(jié)合了CAEs和LSTM的優(yōu)點(diǎn),融合的特征能較好地表征數(shù)據(jù)集的特點(diǎn),因此在竊電檢測的數(shù)據(jù)集上能表現(xiàn)出非常好的效果,本文的模型還可用于計算機(jī)視覺領(lǐng)域。
[1] BISWAL M, DASH P K. Measurement and classification of simultaneous power signal patterns with an S-transform variant and fuzzy decision tree[J]. IEEE Transactions on Industrial Informatics, 2012, 9(4): 1819-1827.
[2] GLAUNER P, MEIRA J A, VALTCHEV P, et al. The challenge of non-technical loss detection using artificial intelligence: a survey[J]. arXiv preprint arXiv: 1606. 00626, 2016.
[3] MISHRA S K, TRIPATHY L N. A critical fault detection analysis & fault time in a UPFC transmission line[J]. Protection and Control of Modern Power Systems, 2019, 4(1): 24-33.
[4] ANGELOS E W S, SAAVEDRA O R, CORTéS O A C, et al. Detection and identification of abnormalities in customer consumptions in power distribution systems[J]. IEEE Transactions on Power Delivery, 2011, 26(4): 2436-2442.
[5] 陳啟鑫, 鄭可迪, 康重慶, 等. 異常用電的檢測方法: 評述與展望[J]. 電力系統(tǒng)自動化, 2018, 42(17): 189-199.
CHEN Qixin, ZHENG Kedi, KANG Chongqing, et al. Detection methods of abnormal electricity consumption behaviors: review and prospect[J]. Automation of Electric Power Systems, 2018, 42(17): 189-199.
[6] KOSEK A M. Contextual anomaly detection for cyber- physical security in smart grids based on an artificial neural network model[C] // 2016 Joint Workshop on Cyber-Physical Security and Resilience in Smart Grids (CPSR-SG), April 12-13, 2016, Vienna, Austria: 1-6.
[7] JIANG R, LU R, WANG Y, et al. Energy-theft detection issues for advanced metering infrastructure in smart grid[J]. Tsinghua Science and Technology, 2014, 19(2): 105-120.
[8] 游文霞, 申坤, 楊楠, 等. 基于AdaBoost集成學(xué)習(xí)的竊電檢測研究[J]. 電力系統(tǒng)保護(hù)與控制, 2020, 48(19): 151-159.
YOU Wenxia, SHEN Kun, YANG Nan, et al. Research on electricity theft detection based on AdaBoost ensemble learning[J]. Power System Protection and Control, 2020, 48(19): 151-159.
[9] 李清. 基于改進(jìn)PSO-PFCM聚類算法的電力大數(shù)據(jù)異常檢測方法[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(18): 161-166.
LI Qing. Power big data anomaly detection method based on an improved PSO-PFCM clustering algorithm[J]. Power System Protection and Control, 2021, 49(18): 161-166.
[10] NAGI J, YAP K S, TIONG S K, et al. Nontechnical loss detection for metered customers in power utility using support vector machines[J]. IEEE Transactions on Power Delivery, 2009, 25(2): 1162-1171.
[11] DEPURU S S S R, WANG L, DEVABHAKTUNI V. Support vector machine based data classification for detection of electricity theft[C] // 2011 IEEE/PES Power Systems Conference and Exposition, March 20-23, 2011, Phoenix, AZ, USA: 1-8.
[12] NAGI J, YAP K S, TIONG S K, et al. Improving SVM-based nontechnical loss detection in power utility using the fuzzy inference system[J]. IEEE Transactions on Power Delivery, 2011, 26(2): 1284-1285.
[13] ESMALIFALAK M, LIU L, NGUYEN N, et al. Detecting stealthy false data injection using machine learning in smart grid[J]. IEEE Systems Journal, 2014, 11(3): 1644-1652.
[14] ALVES H, BRETAS A S, BRETAS N G. Smart grids cyber-attack defense: a solution based on an incremental learning support vector machine[C] // 2019 North American Power Symposium (NAPS), October 13-15, 2019, Wichita, KS, USA.
[15] JOKAR P, ARIANPOO N, LEUNG V C M. Electricity theft detection in AMI using customers’ consumption patterns[J]. IEEE Transactions on Smart Grid, 2015, 7(1): 216-226.
[16] 陳剛, 李德英, 陳希祥. 基于改進(jìn) XGBoost 模型的低誤報率竊電檢測方法[J]. 電力系統(tǒng)保護(hù)與控制, 2021, 49(23): 178-186.
CHEN Gang, LI Deying, CHEN Xixiang. Detection method of electricity theft with low false alarm rate based on an XGBoost model[J]. Power System Protection and Control, 2021, 49(23): 178-186.
[17] KOCAMAN B, TüMEN V. Detection of electricity theft using data processing and LSTM method in distribution systems[J]. Sādhanā, 2020, 45(1): 1-10.
[18] ADIL M, JAVAID N, QASIM U, et al. LSTM and bat-based RUSBoost approach for electricity theft detection[J]. Applied Sciences, 2020, 10(12).
[19] TIAN C, MA J, ZHANG C, et al. A deep neural network model for short-term load forecast based on long short-term memory network and convolutional neural network[J]. Energies, 2018, 11(12).
[20] MUNAWAR S, ASIF M, KABIR B, et al. Electricity theft detection in smart meters using a hybrid bi-directional GRU bi-directional LSTM model[C] // Conference on Complex, Intelligent, and Software Intensive Systems, 2021, Springer, Cham: 297-308.
[21] LI S, HAN Y, YAO X, et al. Electricity theft detection in power grids with deep learning and random forests[J]. Journal of Electrical and Computer Engineering, 2019, 2019.
[22] ZHENG Z, YANG Y, NIU X, et al. Wide and deep convolutional neural networks for electricity-theft detection to secure smart grids[J]. IEEE Transactions on Industrial Informatics, 2017, 14(4): 1606-1615.
[23] HASAN M, TOMA R N, NAHID A A, et al. Electricity theft detection in smart grid systems: a CNN-LSTM based approach[J]. Energies, 2019, 12(17).
[24] COLAK I, SAGIROGLU S, FULLI G, et al. A survey on the critical issues in smart grid technologies[J]. Renewable and Sustainable Energy Reviews, 2016, 54: 396-405.
[25] CHANG Z, ZHANG Y, CHEN W. Electricity price prediction based on hybrid model of Adam optimized LSTM neural network and wavelet transform[J]. Energy, 2019, 187.
[26] LE T, VO M T, VO B, et al. Improving electric energy consumption prediction using CNN and Bi-LSTM[J]. Applied Sciences, 2019, 9(20).
Electricity theft detection method based on a CAEs-LSTM fusion model
DONG Lihong1, XIAO Chunlang1, YE Ou1, YU Zhenhua1
(School of Computer Science and Technology, Xi’an University of Science and Technology, Xi’an 710000, China)
To solve the problems of insufficient accuracy and low detection efficiency in existing detection methods of electricity theft in smart grids, a CAEs-LSTM detection model combining convolutional auto-encoders (CAEs) with long short-term memory networks (LSTM) is proposed. The model conducts two-dimensional conversion to power data, designs the encoder structure by analyzing the characteristics of data set, and reconstructs the two-dimensional space characteristics of the electricity data using pooling layers, down and up sampling layers. It adds Gaussian noise to improve its robustness, and builds long short-term memory networks to learn the global characteristics. Finally, spatial-temporal characteristics are fused to detect energy thieves, and parameter tuning is performed. Based on the public available real data set of the State Grid, the CAEs-LSTM model is optimal in the value of mean average prediction and area under curve, by comparing the CAEs-LSTM model with support vector machines, the LSTM model, and wide and deep convolutional neural networks. Simulation experiments show that the theft detection method based on the CAEs-LSTM model has higher detection efficiency and accuracy.
electricity theft detection; long short-term memory network; convolutional auto-encoders; deep learning; missing value imputation
10.19783/j.cnki.pspc.211653
國家自然科學(xué)基金項(xiàng)目資助(61873277);中國博士后科學(xué)基金項(xiàng)目資助(2020M673446)
This work is supported by the National Natural Science Foundation of China (No. 61873277).
2021-12-04;
2022-02-27
董立紅(1968—),女,博士,教授,主要研究方向?yàn)橹腔鄣V山建設(shè)頂層設(shè)計及大數(shù)據(jù)、工業(yè)互聯(lián)網(wǎng)等新技術(shù)在煤礦電力中的應(yīng)用;E-mail: 1430315357@qq.com
肖純朗(1997—),男,通信作者,碩士,主要研究方向?yàn)殡娏ο到y(tǒng)安全,深度學(xué)習(xí)和異常檢測。E-mail: 2867836467@qq.com
(編輯 許 威)