馬曉琴 薛曉慧 羅紅郊 劉通宇 袁培森
摘要:竊電行為是導(dǎo)致電力企業(yè)電能與經(jīng)濟(jì)效益損失的重要原因.提出了一種基于t-LeNet(Time-Series Specific Version of LeNet Model)與時間序列分類(Time Series Classification, TSC)的竊電行為檢測方法: 首先,獲取用戶用電量時序數(shù)據(jù),使用降采樣方法生成訓(xùn)練集;然后,使用t-LeNet神經(jīng)網(wǎng)絡(luò)訓(xùn)練并預(yù)測 得到分類結(jié)果,判斷用戶是否存在竊電行為.使用國家電網(wǎng)真實(shí)用戶的用電量數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證. 實(shí)驗(yàn)結(jié)果表明,所提方法相較于基于 Tim&CNN(Time Convolutional Neural Network)、MLP(Muti-Layer Perception)的時間序列分類方法,在綜合評價指標(biāo)、精確率、召回率指標(biāo)上均有不同程度提高,其對竊電 行為的檢測具有可行性與有效性.
關(guān)鍵詞:時間序列分類;t-LeNet;竊電檢測
中圖分類號:TP391?????? 文獻(xiàn)標(biāo)志碼:A DOI: 10.3969/j.issn.1000-5641.2021.05.010
Electricity theft detection based on t-LeNet and time series classification
MA Xiaoqin1, XUE Xiaohui1, LUO Hongjiao1, LIU Tongyu2, YUAN Peisen2
(1. Information and Communication Company, State Grid Qinghai Province Electric Power Company,
Xmmg 810008 China;
2. College of Artificial Intelligence, Nanjing Agricultural University, Nanjing 210095, China)
Abstract: Electricity theft results in significant losses in both electric energy and economic benefits for electric power enterprises. This paper proposes a method to detect electricity theft based on t-LeNet and time series classification. First, a users power consumption time series data is obtained, and down-sampling is used to generate a training set. A t-LeNet neural network can then be used to train and predict classification results for determining whether the user exhibits behavior reflective of electricity theft. Lastly, real user power consumption data from the state grid can be used to conduct experiments. The results show that compared with the time series classification method based on Time-CNN (Time Convolutional Neural Network) and MLP (Muti-Layer Perception), the proposed method offers improvements in the comprehensive evaluation index, accuracy rate, and recall rate index. Hence, the proposed method can successfully detect electricity theft.
Keywords: time series classification; t-LeNet; electricity theft detection
0引 言
隨著互聯(lián)網(wǎng)的興起,近年來以大數(shù)據(jù)和物聯(lián)網(wǎng)技術(shù)為代表的技術(shù)進(jìn)一步推動了金融機(jī)構(gòu)數(shù)字化 轉(zhuǎn)型.通過對金融相關(guān)數(shù)據(jù)的管理、分析與挖掘,促進(jìn)金融與相關(guān)技術(shù)的深度融合,數(shù)據(jù)智能成為推動相關(guān)企業(yè)提升服務(wù)質(zhì)量、降低經(jīng)營成本的關(guān)鍵要素[1].智能化金融監(jiān)管是“金融數(shù)智化”的重要課題; 利用人工智能等技術(shù)進(jìn)行交易欺詐檢測是一個研究熱點(diǎn)[2];借助機(jī)器學(xué)習(xí)技術(shù)檢測異常的活動或交易 行為,能夠克服傳統(tǒng)的、依賴復(fù)雜且不靈活規(guī)則的金融欺詐檢測方法的缺陷,為金融行業(yè)智能化監(jiān)管 提供技術(shù)支持[3].
電力企業(yè)關(guān)乎國計民生,與國家的經(jīng)濟(jì)命脈息息相關(guān),也是社會金融業(yè)務(wù)的重要組成部分.近年 來,電力企業(yè)將新一代硬件設(shè)備、人工智能與大數(shù)據(jù)技術(shù)結(jié)合,提升了企業(yè)電能量數(shù)據(jù)的治理能力;深 化用戶用電量的掌握與理解,更好地服務(wù)用戶與能源調(diào)配,以適應(yīng)“金融數(shù)智化”的發(fā)展要求[4].隨著 智能電網(wǎng)的發(fā)展,電力企業(yè)普遍建立了數(shù)據(jù)中臺對海量的電能量數(shù)據(jù)進(jìn)行高效、統(tǒng)一的管理,形成了 將數(shù)據(jù)變?yōu)橘Y產(chǎn)進(jìn)而服務(wù)于業(yè)務(wù)的良性模式[5-6].這有助于提升電力企業(yè)的經(jīng)濟(jì)效益,同時有助于維持 社會有序的金融秩序.
竊電行為是導(dǎo)致電力企業(yè)遭受電能損失與經(jīng)濟(jì)效益損失的重要原因,在造成大量損失的同時也 會帶來極大的安全隱患,為電網(wǎng)的安全運(yùn)行帶來了一定挑戰(zhàn)電力企業(yè)需要針對電能交易環(huán)節(jié)采取 智能化監(jiān)管手段,分析用戶存在的欺詐行為,以適應(yīng)當(dāng)前金融行業(yè)智能化監(jiān)管的趨勢.近年來,隨著電 力企業(yè)對竊電行為的打擊與監(jiān)察力度的加強(qiáng),采用了智能化的電能計量裝置與信息傳輸采集系統(tǒng),一 定程度上降低了竊電行為的發(fā)生[8].然而目前電力企業(yè)對于竊電行為檢測仍存在較大提升空間,電能 損失與經(jīng)濟(jì)效益損失仍處于較高水平.與此同時,竊電手段越來越隱蔽,為電力企業(yè)打擊竊電行為帶 來了挑戰(zhàn)和困難.
目前對于竊電行為的檢測,通常有以下幾種方法:①通過專業(yè)人員人工排查的方法進(jìn)行,這種方 法判斷準(zhǔn)確,但是效率低且人力成本高;②使用智能計量裝置,增加對零線電流的采集與分析[9],這種 方法有效且準(zhǔn)確,但是由于需要更新計量裝置會產(chǎn)生較大的經(jīng)濟(jì)成本;③對用戶每日用電量數(shù)據(jù)進(jìn)行 數(shù)據(jù)挖掘與分析,建立模型判斷是否存在竊電現(xiàn)象[1°-11],這種方法經(jīng)濟(jì)成本低且采集數(shù)據(jù)來源可靠便 捷,但是對用戶用電特征的建模與時間序列數(shù)據(jù)的處理提出了較高的要求.
時間序列分類(TSC)是根據(jù)訓(xùn)練數(shù)據(jù)集并采用特征提取等方法,劃分時間序列數(shù)據(jù)類別的一種 技術(shù)[12].對于竊電行為檢測,基于用戶每日用電量的數(shù)據(jù)集,對用戶時間序列數(shù)據(jù)進(jìn)行分類是一種實(shí) 現(xiàn)思路,這可以達(dá)到竊電檢測目的.
防范竊電是智能電網(wǎng)的重要功能之一,提升電力企業(yè)對于竊電行為的檢測能力,是提升電力企業(yè) 經(jīng)濟(jì)效益的重要手段,也是推動“金融數(shù)智化”的驅(qū)動力.本文針對電力企業(yè)面臨的竊電行為檢測問 題,提出了一種基于t-LeNet神經(jīng)網(wǎng)絡(luò)與時間序列分類的竊電行為檢測方法:首先獲取用戶用電量時 序數(shù)據(jù),使用降采樣方法生成訓(xùn)練集;再使用t-LeNet神經(jīng)網(wǎng)絡(luò)訓(xùn)練并預(yù)測得到分類結(jié)果,判斷用戶是 否存在竊電行為.使用真實(shí)用戶用電量數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證.結(jié)果表明,本文方法相較于基于Time- CNN、MLP的時間序列分類方法,在綜合評價指標(biāo)、精確率、召回率指標(biāo)上均有不同程度提高,其對 竊電行為的檢測具有可行性與有效性.
1相關(guān)研究
1.1時間序列分類
時間序列分類是時間序列數(shù)據(jù)分析領(lǐng)域的重要問題,是通過提取時間序列數(shù)據(jù)的特征,劃分其類 別的一種技術(shù).隨著深度學(xué)習(xí)的崛起和對神經(jīng)網(wǎng)絡(luò)的不斷探索,越來越多的神經(jīng)網(wǎng)絡(luò)被發(fā)現(xiàn)適用于時 間序列的分類工作.時間序列數(shù)據(jù)可以視為一種二維數(shù)據(jù),利用深度學(xué)習(xí)方法處理時間序列數(shù)據(jù)的分 類,其基本原理是通過將每一個樣本的時序信息各自作為一個數(shù)組或向量,對這個數(shù)組的各個元素逐 層賦予一定的權(quán)重,然后求出最后的分類[13].
這類方法中適用于一元時間序列的有:多層感知器(MLP)、全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks, FCN)和深度殘差網(wǎng)絡(luò)(Deep Residual Network, ResNet)[14].近年來,研究人員在過去神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上,針對時間序列加以改進(jìn)后提出了一些方法,例如t-LeNet、LSTM-FCN(Long-Short Term Memory, FCN)、 BiGRU-CNN(Bidirectional Gated Recurrent Unit, Convolutional Neural Network)等[15-17].
1.2t-LeNet
t-LeNet[17]神經(jīng)網(wǎng)絡(luò)屬于一·種卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN),是在 LeNet 的 基礎(chǔ)上專門針對時間序列進(jìn)行參數(shù)優(yōu)化而產(chǎn)生的.
LeNet與CNN在模型結(jié)構(gòu)上的區(qū)別在于,CNN通常采用卷積、池化到激活的結(jié)構(gòu);而LeNet由 兩個卷積層組成,每個卷積層之后都執(zhí)行一次最大池化,最后,由全連接層將提取的要素與要預(yù)測的 類別標(biāo)簽進(jìn)行匹配.二者結(jié)構(gòu)對比如圖1所示.
t-LeNet的結(jié)構(gòu)與LeNet類似,擁有含輸入層在內(nèi)的8層深度卷積神經(jīng)網(wǎng)絡(luò),其中,卷積層可以使 原信號特征增強(qiáng),并且降低噪聲;池化層利用圖像相關(guān)性原理,對圖像進(jìn)行子采樣,可以減少參數(shù)個 數(shù),減少模型過擬合,同時也可以保留一定的有效信息.與LeNet不同的是,t-LeNet的第一層卷積使 用跨度為5的5個濾波器,接著使用大小為2的最大池進(jìn)行池化;第二層卷積使用20個相同跨度的濾 波器,并在這之后使用大小為4的最大池[18].t-LeNet模型的卷積部分如圖2所示.
圖2中,r表示輸入進(jìn)網(wǎng)絡(luò)的時間序列,巧,1、巧,2分別表示卷積層1的第1個濾波、第2個濾波產(chǎn) 生的結(jié)果,邱,1、分別表示卷積層1的第1個濾波、第2個濾波最大池化后的結(jié)果,其余標(biāo)記以此 類推.在用于時間序列分類時,t-LeNet卷積部分最后的輸出會導(dǎo)入一個監(jiān)督學(xué)習(xí)分類器.研究的結(jié)果 表明,t-LeNet在處理時間序列的分類問題時,t-LeNet表現(xiàn)出比LeNet更好的效果[17].
卷積核是卷積神經(jīng)網(wǎng)絡(luò)捕捉特征的核心單元,而卷積核的大小直接決定了網(wǎng)絡(luò)所能捕獲特征的 最遠(yuǎn)距離.因此,單層CNN往往無法有效獲取遠(yuǎn)距離特征.LeNet也存在同樣的缺陷,這使得該模型 在進(jìn)行時間序列的預(yù)測時性能表現(xiàn)不佳.
2基于t-LeNet與時間序列分類的竊電行為檢測方法
2.1竊電檢測方法框架圖
本文提出的基于t-LeNet與時間序列分類的竊電行為檢測方法框架如圖3所示.該方法分為以下 3部分.
(1)竊電行為模型建立:首先獲取用戶用電量時間序列數(shù)據(jù),使用隨機(jī)降采樣方法生成訓(xùn)練集,使 用t-LeNet神經(jīng)網(wǎng)絡(luò)對訓(xùn)練集時間序列數(shù)據(jù)進(jìn)行特征學(xué)習(xí),設(shè)置不同參數(shù)在驗(yàn)證集上測試結(jié)果,得到 最優(yōu)的竊電行為模型.
(2)竊電行為模型完善與補(bǔ)充:由于用電量數(shù)據(jù)是不斷生成的,需要對竊電行為模型實(shí)時完善與 補(bǔ)充.對于新增用戶用電量的時間序列數(shù)據(jù),通過更新訓(xùn)練樣本集,分析其用戶特征,進(jìn)而調(diào)整竊電分 析模型,最后補(bǔ)充完善竊電分析模型庫.
(3)竊電行為自動化檢測:利用得到的竊電行為模型,對多種渠道采集得到的用戶用電量數(shù)據(jù)(來 源于計量裝置的實(shí)時采集數(shù)據(jù)或電力營銷系統(tǒng)的歷史數(shù)據(jù)等)進(jìn)行時間序列分類,輸出竊電檢測結(jié)果.
2.2竊電數(shù)據(jù)的特征
通過分析用戶用電量時間序列數(shù)據(jù)及其標(biāo)簽分布,發(fā)現(xiàn)竊電用戶占比較小,以2019年11月份數(shù) 據(jù)為例,分析疑似竊電用戶數(shù)量為5367戶,采集系統(tǒng)接入用戶數(shù)為3094萬戶,占比約為0.017%.竊 電數(shù)據(jù)的一大特征是數(shù)據(jù)標(biāo)簽分布極其不平衡,因此不能簡單地將所有帶標(biāo)簽的樣本使用機(jī)器學(xué)習(xí) 的方法進(jìn)行建模,需要生成數(shù)據(jù)標(biāo)簽分布均衡的訓(xùn)練集進(jìn)行模型訓(xùn)練,否則訓(xùn)練效果將大幅下降.
2.3訓(xùn)練集降采樣
本方法使用用戶用電量時間序列數(shù)據(jù),進(jìn)行竊電行為檢測模型的構(gòu)建,因此需要構(gòu)造訓(xùn)練集對t- LeNet神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練.然而對于用戶用電量時間序列數(shù)據(jù)集,其分類標(biāo)簽極不均衡,竊電用戶標(biāo) 簽與非竊電用戶標(biāo)簽的比例約為1 : 587.因此直接采用這樣的數(shù)據(jù)進(jìn)行t-LeNet神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和建 模是不合適的,尤其是在竊電行為檢測這類更關(guān)心少數(shù)類的場合下,數(shù)據(jù)分類不均衡會使得預(yù)測模型 可能會無法做出準(zhǔn)確的預(yù)測,預(yù)測模型的結(jié)果將趨向于多數(shù)集,使得模型缺乏泛化性,導(dǎo)致竊電檢測 精確程度大幅下降[19].
解決非均衡數(shù)據(jù)集訓(xùn)練的問題主要通過升采樣、降采樣或調(diào)整訓(xùn)練時的損失函數(shù)進(jìn)行處理[20].本 文使用降采樣方法調(diào)整訓(xùn)練集數(shù)據(jù)結(jié)構(gòu),以解決數(shù)據(jù)分布不均衡的問題.其原理是從多數(shù)集中選出一 部分?jǐn)?shù)據(jù)與少數(shù)集重新組合成一個新的數(shù)據(jù)集.本文使用隨機(jī)降采樣方法進(jìn)行訓(xùn)練集數(shù)據(jù)的生成,其 原理是多數(shù)集(不存在竊電行為的時序數(shù)據(jù)樣本)中隨機(jī)抽樣選出一部分?jǐn)?shù)據(jù)與少數(shù)集(存在竊電行 為的時序數(shù)據(jù)樣本)重新組合,形成訓(xùn)練集,其中訓(xùn)練集中多數(shù)集與少數(shù)集的比例為1 : 1.
2.4基于t-LeNet的時間序列分類
本文使用t-LeNet對神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到竊電行為模型并進(jìn)行時間序列分類.使用的t- LeNet神經(jīng)網(wǎng)絡(luò)的層數(shù)與其參數(shù)設(shè)置如表1所示.
表1中,參數(shù)fliter表示輸入通道數(shù)量;Convolution 1和Convolution 2是卷積層,參數(shù) kemel_size表示卷積核大小;參數(shù)padding = ‘same表示卷積運(yùn)算前進(jìn)行補(bǔ)0擴(kuò)充,使得卷積層前后
輸入輸出的大小保持一致;Pooling 1和Pooling 2是池化層,均為最大池化(Max Pooling),屬性pool size表示池化時縮小的比例因子;Dense層的屬性units表示該層的輸出維度,其中第8層的n表示樣 本數(shù)量,即最后一層的輸出(Output)應(yīng)與輸入(Input)的樣本數(shù)量保持一致;參數(shù)activation表示激 活函數(shù)類型,‘relu與‘softmax分別表示ReLU激活函數(shù)與SoftMax激活函數(shù).ReLU激活函數(shù)與 SoftMax激活函數(shù)的公式分別為
fReLU(x) = max{0, x},
式⑵中的輸入與輸出分別是向量Z = (xi,X2,. + .,x?)和(知氏,…,5*?).
將訓(xùn)練集送入t-LeNet訓(xùn)練前,需要進(jìn)行以下預(yù)處理操作.
(1)對數(shù)據(jù)標(biāo)簽進(jìn)行獨(dú)熱編碼(One Hot Encoder),令存在竊電的數(shù)據(jù)標(biāo)簽為1,未存在竊電的數(shù) 據(jù)標(biāo)簽為O,那么相應(yīng)的獨(dú)熱編碼分別為(1,O)與(O, (1).對離散的標(biāo)簽進(jìn)行獨(dú)熱編碼后,使非偏序關(guān) 系的變量取值不具有偏序性,這有助于特征之間距離的計算或相似度的計算,提升訓(xùn)練效果[21];
(2)將用戶每日用電數(shù)據(jù)轉(zhuǎn)為多變量數(shù)據(jù),即將數(shù)據(jù)維度從1維提升到2維,通過添加啞元(dummy variables)的方式進(jìn)行,目的是使樣本數(shù)據(jù)適應(yīng)卷積層的二維卷積運(yùn)算.
訓(xùn)練t-LeNet神經(jīng)網(wǎng)絡(luò)的方法與CNN類似,使用反向傳播算法進(jìn)行訓(xùn)練,具體過程如下網(wǎng).
(1)向前傳播階段
(a)從樣本集中取1個樣本(X,F(xiàn)p),將X輸入網(wǎng)絡(luò).
(b) 計算相應(yīng)的實(shí)際輸出,即依據(jù)神經(jīng)網(wǎng)絡(luò)從輸入層經(jīng)過逐級變換,傳送到輸出層,得到輸出 結(jié)果.的計算公式為
Op = Fn(· · ·(F2(F1(XpW(1))W(2))· · ·)W(n)).
(2)向后傳播階段
(a) 計算實(shí)際輸出Op與相應(yīng)的理想輸出Yp的差.
(b)按極小化誤差的方法反向傳播調(diào)整權(quán)矩陣.
3實(shí) 驗(yàn)
3.1數(shù)據(jù)集
本文實(shí)驗(yàn)的數(shù)據(jù)集是國家電網(wǎng)發(fā)布的真實(shí)用電量數(shù)據(jù)集(http://www.sgcc.com.cn/).此數(shù)據(jù)集包含 1034 d內(nèi)(2014年1月1日至2016年10月31日),共計42372個電力客戶的用電量數(shù)據(jù).
使用前文所述的降采樣方法進(jìn)行訓(xùn)練集的生成.選取全部3 615個竊電用戶的用電量數(shù)據(jù),然后 以1 : 1隨機(jī)選取3 615條非竊電用戶的用電量數(shù)據(jù),在一共7230條用電量數(shù)據(jù)中以8 : 2的比例分 割訓(xùn)練集(5 784條)和驗(yàn)證集(1446條).此外,同樣按訓(xùn)練集比測試集8 : 2的比例從數(shù)據(jù)集第二個文 件中隨機(jī)選取1446條作為測試集,并保證竊電用戶占有一定比例,其中測試集和訓(xùn)練集之間無交集. 每一個樣本的主要字段包括用戶編號、是否竊電、日用電量時間序列.
3.2評價指標(biāo)
竊電行為檢測可以被抽象為機(jī)器學(xué)習(xí)的二分類問題,對于竊電模型需要選擇評價指標(biāo)反應(yīng)模型 分類的精確程度.本文選取精確率、召回率、巧分?jǐn)?shù)及其宏平均值作為評價指標(biāo)[23].令WP、、nFp、nTN分別為正類樣本預(yù)測為正類的數(shù)量、正類樣本預(yù)測為負(fù)類的數(shù)量、負(fù)類樣本預(yù)測為正類的數(shù)量、 負(fù)類樣本預(yù)測為負(fù)類的數(shù)量.上述評價指標(biāo)及其含義分別如下.
(1)準(zhǔn)確率(Accuracy)是模型正確分類的樣本數(shù)量占全部樣本的比例,反映了竊電檢測的總體正 確率.記4為準(zhǔn)確率,其計算公式為
(4)
⑵召回率(Recall)也稱查全率,是真實(shí)正類樣本中被預(yù)測為正類的比例,反映了竊電檢測覆蓋竊 電行為的比例.記況為召回率,其計算公式為
(5)
(3)精確率(Precision)是預(yù)測的正類樣本中實(shí)際上為正類的比例,反映了竊電檢測預(yù)測結(jié)果中正 確預(yù)測竊電行為的比例.這里用P來表示精確率,其計算公式為
(6)
(4)巧分?jǐn)?shù)(F1-score)是精確率和召回率的調(diào)和平均數(shù),是綜合了精確率與召回率的評價指標(biāo). 用巧表示巧分?jǐn)?shù),其計算公式為
(7)
對每個類別的評價指標(biāo)進(jìn)行綜合,即采用各評價指標(biāo)的宏平均進(jìn)行評估:宏平均召回率(Rmacr。) 宏平均精確率(Pmacr。)和宏平均巧分?jǐn)?shù)(Flmacro),其計算公式分別為
(8)
(9)
(10)
3.3 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)的操作系統(tǒng)平臺為Windows 10.硬件環(huán)境為CPU Intel(R) Core(TM) i5-7300HQ 2.50 GHz,內(nèi)存 8.00 GB, GPU NVIDIA GeForce GTX 1050 Ti,顯存 4 GB.算法基于 Python 3.7、 tensorflow 2.0.0 和 keras 2.3.1.
3.4實(shí)驗(yàn)參數(shù)設(shè)置
為防止超參數(shù)對文中對比實(shí)驗(yàn)的結(jié)果產(chǎn)生影響,本文將批量大小和迭代次數(shù)均設(shè)置為相同,實(shí)驗(yàn) 使用的所有模型參數(shù)配置均為使用默認(rèn)值.實(shí)驗(yàn)所用的主要模型及參數(shù)如表2所示.
3.5實(shí)驗(yàn)結(jié)果與分析 3.5.1學(xué)習(xí)率對結(jié)果影響分析
實(shí)驗(yàn)使用的驗(yàn)證集中含有711個非竊電用戶和735個竊電用戶的用電量數(shù)據(jù),共計1446條用電數(shù)據(jù).對每個模型尋找其能夠產(chǎn)生最好結(jié)果的學(xué)習(xí)率.下表為各模型在各個學(xué)習(xí)率區(qū)間內(nèi)的訓(xùn)練結(jié)果 情況.通過在每次實(shí)驗(yàn)的結(jié)果按訓(xùn)練集、驗(yàn)證集的損失值和準(zhǔn)確率確定擬合狀態(tài),提取各區(qū)間內(nèi)各模 型的最高準(zhǔn)確率和對應(yīng)學(xué)習(xí)率如表3所示.
分別挑選出各自能產(chǎn)生最好結(jié)果的學(xué)習(xí)率的情況,在訓(xùn)練50輪之后計算出所選擇的實(shí)驗(yàn)評估指 標(biāo):宏平均精確率(Pmacr。)、宏平均召回率(flmacr。)、宏平均巧分?jǐn)?shù)(Fimacr。)和準(zhǔn)確率(Pmacro),其結(jié)果如 表4所示.
分析表4中結(jié)果,可以得到如下結(jié)論.
(1)3種模型的總體準(zhǔn)確率均在0.650 0以上,其中,t-LeNet的準(zhǔn)確率最高,各模型表現(xiàn)的差距主 要體現(xiàn)在宏平均召回率上;在驗(yàn)證集上,t-LeNet為宏平均召回率最高的模型,且宏平均巧分?jǐn)?shù)也為 最高,反映了該模型具有較好的檢測能力.
(2) MLP在驗(yàn)證集上的準(zhǔn)確率較差,盡管MLP的宏平均精確率較高,但是宏平均召回率較低.因
此該模型偏向于將大量樣本歸類為某同一標(biāo)簽,故其分類結(jié)果不具有參考價值.
(3)t-LeNet和Time-CNN為在驗(yàn)證集上宏平均召回率方面表現(xiàn)較好的2個模型,其宏平均召回 率分別達(dá)到了 0.721 8和0.712 9,差距不顯著,說明這2種模型對竊電行為的識別均有較好的覆蓋率. 3.5.2訓(xùn)練過程分析
將本文方法與Time-CNN、MLP在真實(shí)數(shù)據(jù)集上的竊電檢測進(jìn)行實(shí)驗(yàn)對比,在精確率(巧、召回 率(幻、巧分?jǐn)?shù)(巧)和準(zhǔn)確率(馮方面分析不同模型的分類結(jié)果.
圖4為訓(xùn)練上述3種神經(jīng)網(wǎng)絡(luò)時,3種模型的準(zhǔn)確率(圖4(a))和損失(圖4(b))隨訓(xùn)練輪數(shù)變化的 折線圖.圖4(b)的縱軸是以2為底的對數(shù)軸.由圖4可以得出如下結(jié)論.
(1)3種模型的準(zhǔn)確率都隨著訓(xùn)練輪數(shù)的增加而上升,損失隨著訓(xùn)練輪數(shù)的增加而下降.Time- CNN、 MLP 和 t-LeNet 在訓(xùn)練過程中,隨訓(xùn)練輪數(shù)的增加, 準(zhǔn)確率均呈上升趨勢, 一開始 3 種模型的 精確度相近,隨著訓(xùn)練輪數(shù)的增加,3種模型的精確率出現(xiàn)較大差異.t-LeNet為3種模型中準(zhǔn)確率最 好,Time-CNN次之,MLP為準(zhǔn)確率最差的,3種模型在訓(xùn)練集的準(zhǔn)確率最終分別為0.7967、0.7688、 0.726 7.
(2)Time-CNN在訓(xùn)練過程中保持平滑下降,說明訓(xùn)練過程較為有效;MLP訓(xùn)練前期損失下降顯 著,后期在平緩下降的同時存在波動,說明損失收斂效果不佳;t-LeNet在前期損失下降顯著,后期損 失下降趨緩,說明模型訓(xùn)練過程表現(xiàn)良好.由此可知,MLP訓(xùn)練過程準(zhǔn)確率最低、損失收斂較差,說 明MLP模型在用戶用電量竊電行為檢測中不具有可行性;t-LeNet在訓(xùn)練過程中損失能快速收斂,說 明t-LeNet模型在用戶用電量竊電行為檢測中具有一定的可行性.
圖5給出了驗(yàn)證集上3種模型的準(zhǔn)確率隨輪數(shù)變化的情況.由圖5可以看出,Time-CNN、MLP、 t-LeNet在驗(yàn)證集上的準(zhǔn)確率隨著訓(xùn)練輪數(shù)的增加呈上升的趨勢,前期準(zhǔn)確率增長較快,后期趨于平 緩,且均存在一定波動.最終Time-CNN、MLP、t-LeNet在驗(yàn)證集上的準(zhǔn)確率分別為0.710 9、0.676 3、 0.712 3.隨著訓(xùn)練輪數(shù)的增加,3種模型在訓(xùn)練集上的準(zhǔn)確率產(chǎn)生差距,t-LeNet和Time-CNN的準(zhǔn)確 率相近,但t-LeNet的波動較為平緩,MLP的準(zhǔn)確率相較于其余2個模型較差.說明MLP模型在用戶 用電量竊電檢測中精確度較低,不適用于該問題;而t-LeNet與Time-CNN在精確度方面表現(xiàn)較好, 說明這2種模型在用戶用電量竊電行為檢測具有較好的精確度,具有可行性.
3.5.3???????? 結(jié)果指標(biāo)分析
實(shí)驗(yàn)使用的測試集共有1 446條用電數(shù)據(jù),其中包含1 012條非竊電用戶用電數(shù)據(jù)和434條惡意竊 電用戶數(shù)據(jù).首先,在測試集上運(yùn)行模型,得到各模型的竊電檢測結(jié)果;隨后,依據(jù)所選定的實(shí)驗(yàn)評估 指標(biāo),對模型的實(shí)際性能做出評估.評估結(jié)果如表5所示.
分析表5中的數(shù)據(jù),可以得到以下結(jié)論.
(1)t-LeNet和Time-CNN是在測試集上宏平均召回率(況macro)方面表現(xiàn)最好的兩個模型.其宏平 均召回率分別達(dá)到了 0.712 2和0.702 0,其中t-LeNet的準(zhǔn)確率(乂)更高,為0.728 9.
(2)在測試集上,t-LeNet為宏平均值和整體準(zhǔn)確率最高的模型,這反映出其精確率和召回率的綜 合檢測能力較Time-CNN和MLP高,且宏平均召回率是3種模型中最高的.
(3)從宏平均巧分?jǐn)?shù)(巧macro)可以看出,實(shí)驗(yàn)所用的3種模型的綜合檢測能力差異較大,盡管 3種模型在測試集上大都表現(xiàn)出了較高的宏平均精確率與宏平均準(zhǔn)確率,但其中MLP的宏平均召回 率偏低,從而導(dǎo)致了其F1marc。與其他2種模型有較大差異,這說明該模型對竊電行為的覆蓋能力較差 從而不具有可行性.
4結(jié)論
竊電管理與電力企業(yè)的經(jīng)濟(jì)密切相關(guān).本文針對電力企業(yè)面臨的竊電行為檢測問題,提出了一種 基于t-LeNet神經(jīng)網(wǎng)絡(luò)與時間序列分類的竊電行為檢測方法:首先獲取用戶用電量時序數(shù)據(jù),使用下 采樣方法生成訓(xùn)練集;再使用t-LeNet神經(jīng)網(wǎng)絡(luò)訓(xùn)練并預(yù)測得到分類結(jié)果,判斷用戶是否存在竊電行 為.最后使用國家電網(wǎng)真實(shí)用戶的用電量數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn)驗(yàn)證.結(jié)果表明,本文方法相較于Time- CNN、MLP的時間序列分類方法,在綜合評價指標(biāo)、精確率、召回率指標(biāo)上均有不同程度提高,其對竊電行為的檢測具有可行性與有效性.
[參考文獻(xiàn)]
[1]謝治春,趙興廬,劉媛.金融科技發(fā)展與商業(yè)銀行的數(shù)字化戰(zhàn)略轉(zhuǎn)型[J].中國軟科學(xué),2018: 184-192.
[2]YANG S, ZHANG Z Q, ZHOU J, et al. Financial risk analysis for smes with graph-based supply chain mining [C] // Proceedings of the 29th International Joint Conference on Artificial Intelligence (IJCAI-20), Special Track on AI in FinTech. 2020: 4661-4667.
[3 ] 喬宇鋒.智能化金融監(jiān)管:模型框架、邊緣約束和實(shí)踐策略[J].南方金融,2021(4): 71-80.
[4]程雪軍.人工智能深度介入消費(fèi)金融:動因、風(fēng)險及防控[J].深圳大學(xué)學(xué)報(人文社會科學(xué)版),2021, 38: 67-76.
[5 ] PASSERINI F, TONELLO A M. Smart grid monitoring using power line modems: Effect of anomalies on signal propagation [J]. IEEE Access, 2019(7): 27302-27312.
[6 ] 李炳森,胡全貴,陳小峰,等.電網(wǎng)企業(yè)數(shù)據(jù)中臺的研究與設(shè)計[J].電力信息與通信技術(shù),2019, 17: 29-34.
[7 ] 王全興,李思韜.基于采集系統(tǒng)的反竊電技術(shù)分析及防范措施[J].電測與儀表,2016, 53: 78-83.
[8 ] 李端超,王松,黃太貴,等.基于大數(shù)據(jù)平臺的電網(wǎng)線損與竊電預(yù)警分析關(guān)鍵技術(shù)[J].電力系統(tǒng)保護(hù)與控制,2018, 46: 143-151.
[9 ] 張曉新,王奇超,林峰,等.窄帶物聯(lián)網(wǎng)在專變用戶防竊電應(yīng)用中的研究[J].電子器件,2021, 44: 178-181.
[10]莊池杰,張斌,胡軍,等.基于無監(jiān)督學(xué)習(xí)的電力用戶異常用電模式檢測[J].中國電機(jī)工程學(xué)報,2016, 36: 379-387, 594.
[11]黃悅?cè)A,郭思涵,鮑剛,等.基于用電特征分析的異常用電檢測方法[J].三峽大學(xué)學(xué)報(自然科學(xué)版),2021, 43: 96-101.
[12]ISMAIL FAWAZ H, FORESTIER G, WEBER J, et al. Deep learning for time series classification: A review [J]. Data Mining and Knowledge Discovery, 2019, 33(4): 917-963.
[13]EBRAHIM S A , J POSHTAN, JAMALI S M, et al. Quantitative and qualitative analysis of time-series classification using deep learning [J]. IEEE Access, 2020(8): 90202-90215.
[14]WANG Z G, YAN W Z, OATES T. Time series classification from scratch with deep neural networks: A strong baseline [C]// 2017 International Joint Conference on Neural Networks (IJCNN) . IEEE, 2017: 1578-1585.
[15]LINES J, DAVIS L M, HILLS J, et al. A shapelet transform for time series classification [C] // Proceedings of the 18th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. ACM, 2012: 289-297.
[16]HE Q, DONG Z, ZHUANG F Z, et al. Fast time series classification based on infrequent shapelets [C]// 2012 11th International Conference on Machine Learning and Applications. IEEE, 2012: 215-219.
[17]LE GUENNEC A, MALINOWSKI S, TAVENARD R. Data augmentation for time series classification using convolutional neural network [C/OL]// ECML/PKDD Workshop on Advanced Analytics and Learning on Temporal Data. (2016) [2021-07-02]. https://halshs.archives-ouvertes.fr/halshs-01357973/document.
[18]CUI Z, CHEN W, CHEN Y. Multi-scale convolutional neural networks for time series classification [EB/OL]. (2016-05-1(1) [2021-0615]. https://arxiv.org/pdf/1603.06995.pdf.
[19]曹陽,閆秋艷,吳鑫.不平衡時間序列集成分類算法[J].計算機(jī)應(yīng)用,2021, 41: 651-656.
[20]李艷霞,柴毅,胡友強(qiáng),等.不平衡數(shù)據(jù)分類方法綜述[J].控制與決策,2019, 34: 673-688.
[21]LI J, SI Y Y, XU T, et al. Deep convolutional neural network based ECG classification system using information fusion and one-hot encoding techniques [J/OL]. Mathematical Problems in Engineering, (2018-12-0(2) [2021-07-02]. https://doi.org/10.1155/2018/7354 081.
[22]REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[23]CHALAPATHY R, CHAWLA S. Deep Learning for Anomaly Detection: A Survey [EB/OL]. (2019-01-2(3) [2020-07-02]. https://arxiv. org/pdf/1901.03407.pdf.
(責(zé)任編輯:李藝)