国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于重加權(quán)策略平衡損失與LSTM的竊電行為檢測研究

2022-05-19 05:49:26呂篤良劉夢爽孫羽森劉通宇袁培森
智慧電力 2022年4期
關(guān)鍵詞:樣例分類器標簽

呂篤良,劉夢爽,桓 露,孫羽森,劉通宇,袁培森

(1.國網(wǎng)新疆電力營銷服務(wù)中心,新疆烏魯木齊 830000;2.國電南瑞科技股份有限公司,江蘇南京 210000;3.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院,江蘇南京 210095)

0 引言

近年來隨著電力企業(yè)對竊電行為的打擊與監(jiān)察力度的加強,采用了基于高級量測系統(tǒng)(Advanced Metering Interface,AMI)[1]智能化的電能計量裝置,為竊電行為檢測提供有力的數(shù)據(jù)支撐。然而竊電行為發(fā)生越來越隱蔽,通過計算機技術(shù)或者通信技術(shù)攻擊智能電表或者篡改電能計量數(shù)據(jù)[2]。這使得傳統(tǒng)的人工檢查手段難以滿足目前的竊電檢測要求,為電力企業(yè)打擊竊電行為帶來了挑戰(zhàn)和困難。

目前對于竊電檢測,有以下幾種方法[3-4]:(1)通過專業(yè)人員人工排查,借助專業(yè)知識與經(jīng)驗判斷,結(jié)果較準確,但效率低且人力成本高;(2)使用智能計量裝置對零線電流的采集與分析,結(jié)果有效且準確,但更新計量裝置會產(chǎn)生較大的成本開銷;(3)通過用戶產(chǎn)生的電能量數(shù)據(jù),借助機器學(xué)習(xí)等,對用戶建立模型以判斷是否存在竊電現(xiàn)象。

文獻[5]提出了基于支持向量機(Support Vector Machine,SVM)與智能電表數(shù)據(jù)的竊電行為檢測。文獻[6-7]分別提出了基于改進循環(huán)神經(jīng)網(wǎng)絡(luò)與深度卷積神經(jīng)網(wǎng)絡(luò)的竊電行為檢測。文獻[8]提出了一種基于AdaBoost 集成學(xué)習(xí)的竊電檢測方法。

由于正常用戶遠超過竊電用戶,導(dǎo)致了用戶用電量時間序列數(shù)據(jù)集的分類標簽極不平衡。以2019 年11 月份國家電網(wǎng)提供的竊電檢測分析結(jié)果為例,疑似竊電用戶數(shù)量為5 367 戶,而采集系統(tǒng)接入用戶數(shù)為3 094 萬戶,占比約為0.017%。直接采用不平衡數(shù)據(jù)集進行模型的訓(xùn)練不合適,尤其是在竊電檢測這類更關(guān)心少數(shù)類的場合下,由于預(yù)測模型的結(jié)果趨向于多數(shù)集,使得模型缺乏泛化性,導(dǎo)致竊電檢測準確度大幅下降[9-10]。

解決非平衡數(shù)據(jù)集訓(xùn)練的問題,常用的處理方法包括以下2 類:(1)重采樣(Re-sampling),包括針對少數(shù)類的過采樣(Over-sampling)[11-12]與針對多數(shù)類的欠采樣(Under-sampling)[13],這類方法是解決非均衡數(shù)據(jù)集最簡單可行的方法,但過采樣會導(dǎo)致對少數(shù)類特征的過擬合,而欠采樣會導(dǎo)致多數(shù)類信息的損失,因此均會導(dǎo)致最終訓(xùn)練模型的泛化性下降;(2)重加權(quán)(Re-weighting)[14],其在學(xué)習(xí)過程中針對不同類別分配不同權(quán)重,提高模型對少數(shù)類的學(xué)習(xí)能力,并降低對多數(shù)類的學(xué)習(xí)能力[15]。

用戶的用電數(shù)據(jù)是典型的時序數(shù)據(jù),時間序列分類(Time Series Classification,TSC)是數(shù)據(jù)挖掘領(lǐng)域研究的重要問題之一,它是通過提取時間序列數(shù)據(jù)的特征,劃分其類別的一種技術(shù)[16]。隨著深度學(xué)習(xí)的崛起和對神經(jīng)網(wǎng)絡(luò)不斷的研究和探索,研究者提出了越來越多適用于時間序列分類的神經(jīng)網(wǎng)絡(luò)[17]。

基于日用電量的竊電行為檢測,是針對一元時間序列分類問題,針對一元時序數(shù)據(jù)問題檢測的模型包括:多層感知器(Muti-Layer Perception,MLP)[18]、全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)[19]及深度殘差網(wǎng)絡(luò)(Deep Residual Network,ResNet)[20]。近年來,研究人員提出了適用于時間序列處理的神經(jīng)網(wǎng)絡(luò)模型,如t-LeNet[21]、長短期神經(jīng)網(wǎng)絡(luò)(Long Short-term Memory,LSTM)[22]等。

本文基于LSTM 模型設(shè)計了用電時間序列分類模型,提取用戶日用電量特征并利用重加權(quán)策略解決數(shù)據(jù)集分布不平衡問題,進而實現(xiàn)智能竊電檢測任務(wù)。

1 重加權(quán)策略優(yōu)化及竊電檢測

1.1 優(yōu)化框架

針對數(shù)據(jù)集分布不平衡問題,設(shè)計一種解決重加權(quán)策略減輕不平衡數(shù)據(jù)集所帶來的分類器偏向多數(shù)類問題,以提高分類器泛化性能,最終提高竊電檢測模型的準確度,本文的重加權(quán)策略如圖1 所示。

圖1 重加權(quán)策略優(yōu)化分類器模型泛化性的示意圖Fig.1 Optimization diagram of re-weighting strategy to the generalization of classifier model

1.2 訓(xùn)練集的有效數(shù)量

竊電行為檢測為二分類問題,本文在文獻[23]的基礎(chǔ)上,設(shè)計了一種基于每種類別有效樣本數(shù)的重加權(quán)策略,以平衡分類器訓(xùn)練時的損失函數(shù),解決訓(xùn)練集標簽分布不均衡造成的模型泛化性降低的問題。

首先,從某一類別的特征空間抽樣建立一種抽象模型,以定義訓(xùn)練集“有效數(shù)量”這一概念,并將其用于表示樣本包含的有效信息,這是本文損失函數(shù)重加權(quán)策略的依據(jù)。抽象模型的有效數(shù)量概念的描述如圖2 所示。

圖2 數(shù)據(jù)集的有效數(shù)量概念示意圖Fig.2 Diagram of data sets effective number

設(shè)某類樣本的特征空間內(nèi)所有可能數(shù)據(jù)的集合為S,其“體積”為V,從集合S中隨機抽樣,每個個體是S的子集且體積為1。集合S的“體積”V是一個抽象的概念,反映了該類包含有效信息的量,抽樣相當于獲取其中的部分有效信息,因此隨著樣本數(shù)量n的不斷增大,樣本包含該類有效信息的量也會不斷增大,“體積”也會不斷增大,最終趨向V。

將“體積”定義為數(shù)據(jù)集的有效數(shù)量,記包含n個樣例的數(shù)據(jù)集的有效數(shù)量為En。若存在一個數(shù)據(jù)集覆蓋了特征空間內(nèi)所有可能數(shù)據(jù)的集合S,那么該數(shù)據(jù)集的有效數(shù)量為N;若數(shù)據(jù)集僅包含1 個樣例,則“有效數(shù)量”為1。下面給出有效數(shù)量的表達式及證明。

1)定理1。包含n個樣例的數(shù)據(jù)集,其有效數(shù)量為:

其中,β=(N-1)/N。

對式(1)采用數(shù)學(xué)歸納法證明如下:

(1)當樣例數(shù)量n=1 時,有E1=(1-β1)/(1-β)=1,式(1)成立。

(2)當數(shù)據(jù)集已經(jīng)有n-1 個樣例,假設(shè)其有效數(shù)量為En-1且有En-1=(1-βn-1)/(1-β)成立。通過隨機采樣獲得第n個樣例,存在2 種可能情況:新采樣點與先前采樣點重合,概率為P=En-1/N,有效數(shù)量不變;新采樣點與先前采樣點重合,概率為P=1-En-1/N,有效數(shù)量+1。則有:

綜合步驟(1)和(2),說明式(1)成立,證畢。

證明示意圖如圖3 所示。

圖3 有效數(shù)量表達式證明過程示意圖Fig.3 Proof illustration of effective number expression

2)定理2。包含n個樣例的數(shù)據(jù)集,當n趨于無窮大時,其有效數(shù)量的上界是N。

定理2 的推導(dǎo)過程如式所示:

實際上特征空間內(nèi)所有可能數(shù)據(jù)集合S的有效數(shù)量N是難以估算的,本文假設(shè)實際能夠采集到并屬于該標簽的所有數(shù)據(jù)構(gòu)成集合S,同時假設(shè)樣例與樣例之間不重疊,即集合S的體積為V,則該集合有效數(shù)量等于集合的大小,即N=card(S)。

1.3 類別平衡損失函數(shù)

基于數(shù)據(jù)集有效數(shù)量的概念對損失函數(shù)進行重加權(quán),主要思想是通過引入一個加權(quán)因子來實現(xiàn)。這個因子與樣本有效數(shù)量成反比,從而使多數(shù)類預(yù)測產(chǎn)生的損失權(quán)重降低而少數(shù)類預(yù)測產(chǎn)生的損失權(quán)重升高,使得分類器訓(xùn)練時更關(guān)注少數(shù)類的特征,進而降低由于標簽分布不均衡導(dǎo)致的分類器預(yù)測結(jié)果偏向多數(shù)類的問題。下面說明類別平衡損失函數(shù)的計算方式。

竊電檢測屬二分類問題,設(shè)輸入樣例(x,y),其中x是特征向量,y是標簽且y∈{0,1},其中標簽1表示竊電樣例,0 表示非竊電樣例,設(shè)分類器模型預(yù)測結(jié)果是特征向量預(yù)測為竊電樣例的概率,定義為=P{y=1},其中0 ≤≤1。

機器學(xué)習(xí)中對于二分類問題,通常使用二分類交叉熵損失函數(shù)(Binary Cross Entropy Loss,BCE Loss)[24],記損失函數(shù)為BCE Loss(),則有:

式中:y為樣例的真實標簽。

設(shè)訓(xùn)練集中類別標簽y=0 與y=1 的樣本數(shù)分別為n0與n1,則該標簽對應(yīng)類別數(shù)據(jù)集的有效數(shù)量為Eni=(1-βni)/(1-β),其中i=0或1。

為了平衡損失,對于2 類樣本分別引入權(quán)重因子α0與α1,與對應(yīng)類別的樣本有效數(shù)量成反比,即α0=1/En0與α1=1/En1,則類別平衡損失CBLoss 為:

式中:y∈{0,1}為樣例的真實標簽;αi,Eni,ni分別為標簽y對應(yīng)類別i在訓(xùn)練集的權(quán)重因子、有效數(shù)量、樣本數(shù)量。

1.4 基于LSTM的時間序列分類

LSTM 是一種改進后的循環(huán)神經(jīng)網(wǎng)絡(luò),用于解決一般循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)存在的長期依賴問題[24]。RNN 的隱藏層只有一個狀態(tài)h,對短期的輸入非常敏感,LSTM 在此基礎(chǔ)上增加了一個長期狀態(tài)C,使得LSTM 適合處理和預(yù)測時間序列[25]。

LSTM 神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)如圖4 所示,該示意圖展示了LSTM 的神經(jīng)元對t時刻的特征向量分量的運算過程,其中Wf,Wi,Wc,Wo分別為遺忘門、輸入門、輸出門、計算當前狀態(tài)的權(quán)重矩陣;為當前時刻的細胞狀態(tài),ot為sigmod 函數(shù)輸出,σ(·) 為sigmoid 函數(shù);tanh(·)為雙曲正切函數(shù);[·,·]為向量的連接。LSTM 通過3 個控制開關(guān)來控制狀態(tài)C:(1)遺忘門,上一時刻的狀態(tài)Ct-1有多少保留至當前時刻Ct;(2)輸入門,當前時刻的輸入xt有多少保留至單元狀態(tài)Ct;(3)輸出門,當前單元狀態(tài)Ct有多少輸出至當前輸出ht。

圖4 LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.4 LSTM recurrent neural network structure diagram

LSTM 神經(jīng)網(wǎng)絡(luò)在t時刻的前向傳播公式為:

式中:ft為遺忘門輸入;it為輸入門輸入;bf,bi,bc,bo為對應(yīng)的偏置項;符號°為哈達馬積(Hadamard Product),即向量對應(yīng)分量相乘得到一個新向量。

LSTM 是一種循環(huán)神經(jīng)網(wǎng)絡(luò),將LSTM 的神經(jīng)元按時間維度展開,基于LSTM 進行時間序列分類模型如圖5 所示。

圖5 基于LSTM的時間序列分類示意圖Fig.5 Diagram of time series classification based on LSTM

設(shè)輸入時間序列為x=(x1,x2,…,xk),其長度為k。在t時刻,LSTM 神經(jīng)網(wǎng)絡(luò)的輸入有3 個:(1)當前時刻網(wǎng)絡(luò)的輸入值xt;(2)上一時刻LSTM 的輸出值ht-1;(3)上一時刻的長期狀態(tài)Ct-1。循環(huán)k次后得到最后k時刻LSTM 的輸出值hk,該輸出值保留了整個時間序列的特征。最終需要通過輸入時間序列得到被預(yù)測為正例的概率,即=p{y=1},再通過一次sigmoid 函數(shù)激活得到區(qū)間在(0,1)之間的預(yù)測結(jié)果。

采用用戶日用電量竊電行為訓(xùn)練集,在訓(xùn)練過程中依據(jù)式(5)計算損失,以優(yōu)化數(shù)據(jù)集標簽部分不平衡導(dǎo)致的模型泛化性下降問題。對于LSTM 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,使用反向傳播算法確定神經(jīng)元8 個參數(shù)(Wf,Wi,Wc,Wo,bf,bi,bc,bo)的取值。對于每一輪訓(xùn)練,其前向傳播與反向傳播的過程如下:

1)依據(jù)式(5),對輸入時間序列x=(x1,x2,…,xk),依次前向計算每一時刻t神經(jīng)元的輸出ht,最終得到時刻k的輸出結(jié)果hk,經(jīng)過sigmoid 函數(shù)激活得到預(yù)測結(jié)果。

2)依據(jù)式(5),對輸入樣例(x,y)的真實標簽y與預(yù)測結(jié)果,計算類別平衡損失CBLoss(,y),沿時間通過反向傳播算法,計算8 個參數(shù)相對于損失的偏導(dǎo)數(shù)。

3)通過隨機梯度下降法,優(yōu)化8 個參數(shù)使損失最小化,通過迭代更新模型參數(shù)。

1.5 竊電檢測

使用LSTM 神經(jīng)網(wǎng)絡(luò)構(gòu)建日用電量的竊電行為分類器,并使用訓(xùn)練集通過最小化類別平衡損失函數(shù)進行訓(xùn)練。針對測試集數(shù)據(jù),使用該分類器計算得到預(yù)測結(jié)果。預(yù)測結(jié)果是輸入時間序列得到被預(yù)測為正例的概率p{y=1},因此最終竊電預(yù)測標簽結(jié)果為y∈{0,1},且:

即分類器得到的預(yù)測結(jié)果若大于等于0.5,則判定該樣例為正例,該樣例存在竊電行為;小于0.5則判定該樣例不存在竊電行為。基于重加權(quán)策略平衡損失與LSTM 分類的竊電行為檢測方法如圖6所示。首先對用戶日用電量時間序列數(shù)據(jù),通過人工標注等方法為部分數(shù)據(jù)進行標簽,將帶標簽的數(shù)據(jù)進行必要的預(yù)處理,再進行訓(xùn)練集與測試集的劃分。統(tǒng)計標簽分布,得到正例與負例的數(shù)量,目的是計算類別平衡損失函數(shù);然后使用類別平衡損失函數(shù)訓(xùn)練LSTM 時間序列分類模型,并使用測試集進行模型驗證;最后對采集得到的不帶標簽的用戶日用電量數(shù)據(jù),進行預(yù)處理后運行分類器模型并輸出竊電檢測結(jié)果。

圖6 竊電行為檢測方法框架圖Fig.6 Framework of electricity theft detection method

2 實驗及分析

2.1 實驗環(huán)境與評價指標

實驗環(huán)境:Windows 10 系統(tǒng),8GB 內(nèi)存,Intel(R)Core(TM)i5-7200U,2.5 GHz 處理器。算法的實現(xiàn)基于Python 3.6 和PyTorch 機器學(xué)習(xí)框架。

使用準確率作為基于日用電量的竊電行為檢測的評價指標,記準確率為A,計算如公式所示:

式中:TP為正類并且也被判定成正類的樣本數(shù)量;FN為正類但判定為負類的樣本數(shù)量;FP為負類但判定為正類的樣本數(shù)量;TN為負類并且也被判定成負類的樣本數(shù)量。

準確率越高說明分類器的性能越好。

2.2 實驗數(shù)據(jù)與預(yù)處理

本文實驗數(shù)據(jù)集源自國家電網(wǎng)公司發(fā)布的真實用電量數(shù)據(jù)(http://www.sgcc.com.cn/),該數(shù)據(jù)集合包含了若干用戶自2014 年1 月1 日至2016 年10月31 日共計1 034 d 的日用電量時間序列數(shù)據(jù),數(shù)據(jù)包含用戶是否發(fā)生竊電行為的標簽。數(shù)據(jù)預(yù)處理后得到共計42 372 條有效記錄。每條有效記錄包含以下字段:客戶編號,是否竊電(1 竊電,0 非竊電),1 034 d 的用電量數(shù)據(jù)(單位kWh)。

非竊電樣例有38 757 條,竊電樣例有3 615條,竊電樣例占全部樣例的8.53%,可見數(shù)據(jù)集標簽分布極不均衡。將數(shù)據(jù)集隨機打亂后,劃分為不相交的訓(xùn)練集與測試集,其比例為70:30。

2.3 實驗過程與分析

使用訓(xùn)練集進行LSTM 時間序列分類模型的訓(xùn)練。訓(xùn)練過程中使用類別平衡損失函數(shù)CBLoss,在相同實驗條件下,將其與交叉熵損失函數(shù)BCELoss進行對比實驗,實驗參數(shù)如表1 所示,其中SGD(Stochastic Gradient Descent)表示隨機梯度下降法。

表1 實驗訓(xùn)練相關(guān)參數(shù)Table 1 Related parameters for experiment&training

在其他實驗條件相同情況下,觀察2 種損失函數(shù)在測試集上準確率隨訓(xùn)練輪數(shù)的變化趨勢,實驗結(jié)果如圖7 所示。

圖7 兩種損失的訓(xùn)練實驗結(jié)果Fig.7 Experiment results of two training loss functions

實驗結(jié)果表明:相較于常規(guī)的二分類交叉熵損失函數(shù),本文的類別平衡損失函數(shù)在相同訓(xùn)練輪數(shù)下?lián)p失收斂更快,且在訓(xùn)練集上的準確率上升更快。使用二分類交叉熵損失函數(shù),盡管損失逐步下降且準確率逐步提高,但是損失收斂速度較慢,準確率提升較慢。

經(jīng)過相同的訓(xùn)練輪數(shù),使用類別平衡損失函數(shù)與二分類交叉熵損失函數(shù)在訓(xùn)練集上的準確率分別為91.22%與63.13%,前者相較后者提升約44%,說明類別平衡損失函數(shù)能夠使得分類器模型的泛化性大幅提升,提高了竊電檢測的準確率。

為測試基于類別平衡損失函數(shù)在竊電檢測方面的準確性,本文選取多層感知機(Multilayer Perceptron,MLP)與RNN 時間序列分類模型與本文的LSTM 模型進行實驗對比。在其他參數(shù)一致情況下,使用模型默認參數(shù)進行訓(xùn)練和對比。經(jīng)過40輪訓(xùn)練,實驗結(jié)果如表2 所示。

表2 3種時間序列分類模型的對比實驗結(jié)果Table 2 Comparative experimental results of 3 time series classification models

由表2 可知,在使用類別平衡損失函數(shù)情況下,基于LSTM 的時間序列分類在準確率上效果最好,RNN 次之,前者相較于后者提升約9%;MLP 則因準確率過低而不具有可行性,表明MLP 模型不適用于基于日用電量的竊電檢測任務(wù)。在模型訓(xùn)練時間方面,由于MLP 模型結(jié)構(gòu)簡單從而訓(xùn)練時間最短,LSTM 與RNN 由于循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較為復(fù)雜,相比MLP 模型的訓(xùn)練時間更長。

3 結(jié)語

本文提出了基于重加權(quán)策略平衡損失與LSTM分類的竊電行為檢測方法,設(shè)計了基于有效數(shù)量加權(quán)策略的損失函數(shù),改善了數(shù)據(jù)集分布不均衡導(dǎo)致訓(xùn)練模型泛化性能下降的問題?;谠摬呗?,設(shè)計了基于LSTM 的時間序列分類模型,用于電量的竊電行為檢測。在真實數(shù)據(jù)集上的測試結(jié)果表明,基于有效數(shù)量的加權(quán)策略可有效解決數(shù)據(jù)集不平衡導(dǎo)致的模型泛化性下降問題,對竊電行為檢測具有可行性。

猜你喜歡
樣例分類器標簽
樣例復(fù)雜度與學(xué)習(xí)形式對不同數(shù)量樣例學(xué)習(xí)的影響
樣例呈現(xiàn)方式對概念訓(xùn)練類別表征的影響
“樣例教學(xué)”在小學(xué)高年級數(shù)學(xué)中的應(yīng)用
無懼標簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
標簽化傷害了誰
基于多進制查詢樹的多標簽識別方法
計算機工程(2015年8期)2015-07-03 12:20:27
邮箱| 遂宁市| 洪泽县| 太原市| 福贡县| 肃宁县| 沅江市| 安康市| 鹰潭市| 昭觉县| 太仓市| 山丹县| 龙岩市| 九寨沟县| 迭部县| 灵寿县| 兴城市| 石首市| 泽州县| 印江| 三穗县| 灵山县| 巩义市| 金寨县| 阿合奇县| 搜索| 梧州市| 瓮安县| 夏邑县| 高碑店市| 高州市| 太仆寺旗| 宜川县| 大石桥市| 即墨市| 西昌市| 吉林省| 仪征市| 根河市| 侯马市| 太原市|