黃 剛,顏 偉,王 浩,文 旭,,張愛楓,夏 春
(1.重慶大學(xué) 輸配電裝備及系統(tǒng)安全與新技術(shù)國家重點實驗室,重慶 400044;2.深圳供電局有限公司,廣東 深圳 440310;3.國家電網(wǎng)公司西南分部,成都 610041;4.重慶電力交易中心有限公司,重慶 400013)
電力用戶的竊電行為將會給電網(wǎng)公司造成巨大經(jīng)濟(jì)損失[1],傳統(tǒng)的物理竊電方式正發(fā)展為以數(shù)字存儲和網(wǎng)絡(luò)通信技術(shù)為手段的新型竊電方式,通過攻擊智能電表注入虛假用電數(shù)據(jù)實施竊電[2],因此對新型竊電方式檢測方法的研究具有重要工程價值。
針對虛假用電數(shù)據(jù)注入的竊電方式,現(xiàn)有檢測方法一般遵循“特征設(shè)計 檢測判別”的范式[3]。然而多數(shù)方法的研究側(cè)重檢測判別階段,重點研究檢測判別算法的選擇或改進(jìn),提出了多種竊電檢測模型,包括基于分類的支持向量機(jī)[4]、隨機(jī)森林[5]、極限學(xué)習(xí)機(jī)[6],基于聚類的最優(yōu)路徑森林[7]、密度聚類[8],以及基于回歸的自回歸模型[9]等。而針對檢測特征設(shè)計的研究較少,已有研究主要通過特征提取算法對用電曲線進(jìn)行抽象凝練;文獻(xiàn)[10]首先通過小波分解提取負(fù)荷曲線的時域和頻域特征,然后通過多個分類器的分類結(jié)果交叉驗證檢測竊電用戶;文獻(xiàn)[11]首先通過主成分分析算法提取用戶用電曲線中的用電特征,然后通過密度聚類算法對異常用電曲線進(jìn)行檢測;文獻(xiàn)[3]以堆疊去相關(guān)自編碼器提取周負(fù)荷曲線的用電特征,然后用定制懲罰項的支持向量機(jī)檢測竊電用戶??梢?現(xiàn)有竊電檢測方法更多依賴通用特征提取算法對用電數(shù)據(jù)數(shù)值特征的提取能力,缺乏對正常用電或竊電情景的分析,導(dǎo)致特征設(shè)計過程與檢測對象的物理背景耦合度低,使得所提取特征可解釋性差,難以依據(jù)其物理意義調(diào)整改進(jìn),同時一些較為明顯的竊電數(shù)據(jù)特征沒能納入檢測特征,使得檢測特征的針對性不強(qiáng)。
據(jù)此,文中提出了一種基于多層次非負(fù)稀疏編碼和支持向量機(jī)的竊電檢測方法。該方法以用戶月度用電曲線為檢測對象,首先,將月度用電曲線切分為周、日兩個層次并基于非負(fù)稀疏編碼算法提取多層次用電曲線用電模式特征;然后,基于正常用戶和竊電用戶用電情景對比分析,手工提取周、日兩層次用電曲線的數(shù)值統(tǒng)計特征;最后,以用電模式特征和數(shù)值統(tǒng)計特征的融合檢測特征為輸入,通過SVM算法對用電曲線進(jìn)行竊電檢測。該方法主要創(chuàng)新點在于:1)周、日兩層次用電特征提取呼應(yīng)用電行為具有周周期性和日周期性的實際,用電特征刻畫更精細(xì);2)綜合用電模式特征和數(shù)值統(tǒng)計特征構(gòu)建曲線的融合檢測特征,可解釋性好、針對性強(qiáng)。
電力用戶竊電檢測的難點在于現(xiàn)實中臺區(qū)電網(wǎng)接線復(fù)雜,網(wǎng)絡(luò)拓?fù)鋮?shù)信息未知,難以通過潮流等精確物理約束檢測竊電用戶;此外,用戶的用電負(fù)荷低、隨機(jī)性高,簡單的統(tǒng)計分析也難以捕捉用戶的用電規(guī)律,檢測準(zhǔn)確率低。得益于智能電表在終端用戶數(shù)據(jù)采集中的應(yīng)用,海量高分辨率的用戶用電數(shù)據(jù)為數(shù)據(jù)驅(qū)動的竊電檢測方法提供了條件,用戶竊電檢測的研究逐漸轉(zhuǎn)向數(shù)據(jù)驅(qū)動方法,形成了一種“特征設(shè)計 檢測判別”的范式,設(shè)計待檢測用電曲線樣本的檢測特征,并采取各種機(jī)器學(xué)習(xí)檢測算法對樣本進(jìn)行檢測。參考現(xiàn)有數(shù)據(jù)驅(qū)動竊電檢測方法的通用范式,文中提出一種基于多層次非負(fù)稀疏編碼和SVM的竊電檢測方法,其整體框架設(shè)計如圖1所示。
圖1 基于多層次非負(fù)稀疏編碼和SVM的竊電檢測方法整體框架Fig.1 Framework of electricity theft detection method based on multi-level non-negative sparse coding and SVM
由圖1可見,該整體框架分為4個階段。
階段1:數(shù)據(jù)預(yù)處理階段。該階段對用電曲線的缺失數(shù)據(jù)進(jìn)行插補(bǔ),并將數(shù)據(jù)集分割為訓(xùn)練集和測試集;
階段2:特征設(shè)計階段。基于多層次非負(fù)稀疏編碼提取月度用電曲線的周、日多層次用電模式特征,以及正常用電和竊電情景分析提取用電曲線的數(shù)值統(tǒng)計特征,綜合用電模式特征和數(shù)值統(tǒng)計特征形成曲線的融合檢測特征;
階段3:分類檢測階段。利用階段2中訓(xùn)練集的融合檢測特征及其對應(yīng)標(biāo)簽訓(xùn)練SVM分類器,將測試集的融合檢測特征輸入SVM分類器,得到測試集用電曲線的分類檢測結(jié)果;
階段4:效果評估階段。將測試集分類檢測結(jié)果與真實標(biāo)簽對比,通過精確率、召回率、F1值等指標(biāo)評價竊電樣本的檢測效果。
上述4個階段中,數(shù)據(jù)預(yù)處理階段主要借鑒現(xiàn)有文獻(xiàn)采取線性插值法對缺失數(shù)據(jù)進(jìn)行填充,文中重點研究特征設(shè)計階段、分類檢測階段和效果評估階段等3個階段。
用電曲線的特征主要分為形狀和數(shù)量特征2類,若要充分提取用電曲線的用電特征,需同時對用電曲線的形狀特征和數(shù)量特征進(jìn)行刻畫。采取多層次非負(fù)稀疏編碼算法將月度用電曲線切分為周層次曲線和日層次曲線,并對其分別進(jìn)行非負(fù)稀疏編碼,獲取用電曲線的周周期和日周期用電模式,借此提取用電曲線的形狀特征;而后基于正常用電和竊電情景的對比分析,手動提取用電曲線的數(shù)值統(tǒng)計特征,作為曲線的數(shù)量特征。
2.1.1 非負(fù)稀疏編碼原理及算法
稀疏編碼是一種信息壓縮算法,廣泛應(yīng)用于數(shù)據(jù)壓縮領(lǐng)域,其原理是尋找一組過完備基向量對樣本變量進(jìn)行線性組合表示?;蛄拷M由于過完備性將是非正交且冗余的,用少于樣本變量維度數(shù)目的基向量即可實現(xiàn)對樣本的線性表示,基向量的線性組合系數(shù)具備稀疏性,非負(fù)稀疏編碼則在稀疏編碼的基礎(chǔ)上對基向量元素和線性組合系數(shù)增加了非負(fù)性約束。
電力用戶的用電曲線可以看作是若干種用電模式下用電曲線的加權(quán)線性組合,這與非負(fù)稀疏編碼的思想非常契合,因此可以將非負(fù)稀疏編碼引入用電曲線的用電模式特征提取過程。非負(fù)稀疏編碼中的每個基向量代表一種用電模式,而每個基向量對應(yīng)的稀疏編碼值則代表該種用電模式的線性組合系數(shù),通過非負(fù)稀疏編碼過程可將原始用電曲線解構(gòu)為少數(shù)幾種用電模式的線性疊加,即可實現(xiàn)用電曲線的用電模式特征提取。用電曲線的非負(fù)稀疏編碼解構(gòu)與重構(gòu)如圖2所示。
圖2 用電曲線的非負(fù)稀疏編碼解構(gòu)與重構(gòu)Fig.2 Deconstruction and reconstruction of electricity consumption curve by non-negative sparse coding
樣本矩陣X的非負(fù)稀疏編碼求解模型為
式中:X是N×M維樣本矩陣,含有M個N維樣本變量;D為過完備基向量組,包含K個N維基向量,且K>N以保證基向量的過完備性。通常稱D為編碼字典,D中的基向量為字典原子;C為樣本的稀疏編碼矩陣,是樣本變量解構(gòu)為字典原子線性組合時的權(quán)重系數(shù),為一稀疏矩陣;‖‖F(xiàn)(F-范數(shù))表示矩陣元素平方和的平方根;‖‖0(0范數(shù))表示向量非零元素個數(shù);λ為稀疏度約束懲罰系數(shù)。
由于模型中字典D和稀疏編碼C都是變量,難以同時優(yōu)化,故通常將優(yōu)化模型分解為稀疏編碼和字典更新兩階段,采取分階段交替優(yōu)化迭代的策略求解。文獻(xiàn)[12-13]提出了一種適用于非負(fù)稀疏編碼的字典學(xué)習(xí)算法,該算法采取基追蹤(BP,basis pursuit)算法求解樣本的稀疏編碼階段,而采取迭代奇異值分解(K-SVD,K-singular value decomposition)算法更新編碼字典。
稀疏編碼階段,固定字典D為常量,將目標(biāo)函數(shù)中稀疏度約束的0范數(shù)轉(zhuǎn)化成1范數(shù)。同時基于稀疏編碼的非負(fù)性,可將目標(biāo)函數(shù)式(1)轉(zhuǎn)化為
根據(jù)文獻(xiàn)[13]的推導(dǎo),可得到稀疏編碼矩陣C的迭代求解為
式中,稀疏編碼矩陣的初值C(0)初始化為零矩陣。為確保稀疏編碼向量c有指定數(shù)值的稀疏度約束L,需將樣本變量x用其對應(yīng)編碼向量c中編碼最大的L個字典原子進(jìn)行線性表示。
字典更新階段,固定稀疏編碼C為常量,目標(biāo)函數(shù)轉(zhuǎn)化為
遍歷更新所有字典原子dk及其對應(yīng)編碼行向量ck,使重構(gòu)誤差逐步降低,同時實現(xiàn)對字典原子的更新
最大奇異值對應(yīng)的左奇異向量u1,初值更新為最大奇異值與其對應(yīng)右奇異向量轉(zhuǎn)置的乘積
同時,為保證字典原子和編碼的非負(fù)性,通過下述迭代處理將dk和ck中的負(fù)值截斷為零:
非負(fù)稀疏編碼算法的流程如圖3所示。
圖3 非負(fù)稀疏編碼算法流程圖Fig.3 Flow chart of non-negative sparse coding algorithm
2.1.2 月度用電曲線的多層次非負(fù)稀疏編碼
考慮到用戶月度負(fù)荷曲線在時序上具有周周期性和日周期性,用戶用電曲線是否具有穩(wěn)定且普遍的周周期性和日周期性是判斷用戶是否竊電的重要依據(jù),因此可以將月度負(fù)荷曲線切分為周、日兩個層次的曲線子序列,分別通過上述非負(fù)稀疏編碼算法提取其用電模式特征,以考察其周周期性和日周期性。
設(shè)月度用電曲線跨度為T天,則將月度曲線按日切分,可得到T個日層次曲線子序列。另用長度為7天的滑窗對月度曲線進(jìn)行切分,步長為1 d,可獲得(T-6)個周層次曲線子序列。同時考慮到一周內(nèi)各天(尤其是工作日與周末)之間用電特性的區(qū)別,將每個周曲線子序列內(nèi)部各天都按照同一順序排列,一條時長31 d、數(shù)據(jù)采集分辨率30 min一次的月度用電曲線的周、日兩層次切分過程如圖4所示。
圖4 月度曲線樣本的周 日兩層次切分Fig.4 Weekly-daily two-level segmentation of monthly curve samples
含有M個用戶、采集時長跨度T天且數(shù)據(jù)采集日分辨率為t點/天的月度用電曲線樣本集XN×M(其中N=Tt)做上述兩層次切分,可得到周層次、日層次曲線子序列樣本集分別為(其中Nw=7t,Nd=t,分別為周層次、日層次曲線子序列的分辨率;Mw=(T-6)×M,Md=T×M,分別為周層次、日層次曲線子序列樣本數(shù))。然后,分別在周層次和日層次上對子序列進(jìn)行非負(fù)稀疏編碼,得到編碼字典分別為(其中Kw和Kd分別為周、日層次編碼字典的字典原子數(shù)),對應(yīng)非負(fù)稀疏編碼矩陣為。
2.1.3 基于多層次非負(fù)稀疏編碼的用電模式特征構(gòu)建
通過上述多層次非負(fù)稀疏編碼過程已獲取了表征月度曲線周、日兩層次用電模式特征的稀疏編碼,然而由于字典原子的冗余性,稀疏編碼特征具有高維度、高稀疏性的特點,價值密度低,不適合直接作為用電曲線的模式特征。同時,由于正常樣本遠(yuǎn)多于竊電樣本且正常用電模式相對竊電用電模式更少、更集中,非負(fù)稀疏編碼對正常用電曲線和竊電曲線的重構(gòu)誤差存在結(jié)構(gòu)性差別,也應(yīng)作為用電模式特征的輔助特征。據(jù)此,在多層次非負(fù)稀疏編碼的基礎(chǔ)上對月度用電曲線的用電模式特征進(jìn)行進(jìn)一步構(gòu)建,新構(gòu)建的用電模式特征分兩個部分:一是基于周、日兩層次用電曲線的稀疏編碼構(gòu)建的用電模式正常度特征;二是周、日兩層次用電曲線的非負(fù)稀疏編碼重構(gòu)相對平均誤差。
用電模式正常度特征的構(gòu)建過程如下:首先,忽略用電曲線的數(shù)量特征而僅考慮其形狀特征,將樣本曲線的稀疏編碼轉(zhuǎn)化成各編碼系數(shù)的占編碼系數(shù)總和比例的分?jǐn)?shù)形式,用以表征原始曲線中各用電模式的占比為
然后,根據(jù)各用電模式在全體樣本中占比的總和確定各用電模式的正常度為:
最后,將樣本曲線中各用電模式的正常度加權(quán)求和即可得該樣本的用電模式正常度為:
對于每個用戶,將其周、日兩層次用電曲線子序列樣本的用電模式正常度整合,即可得到該用戶用電模式正常度特征為
樣本曲線的非負(fù)稀疏編碼重構(gòu)平均相對誤差定義為重構(gòu)曲線與原始曲線之間的相對誤差,具體定義為:
現(xiàn)實中竊電用戶與正常用戶電量數(shù)值存在一些系統(tǒng)性差異,通過捕捉這些差異構(gòu)建用電曲線的數(shù)值統(tǒng)計特征,可提高竊電檢測效率。一般而言,竊電行為在時間上有持續(xù)性且在數(shù)量上有較大幅度,竊電用戶平均負(fù)荷水平相較正常用戶將有一定幅度的差距;同時竊電用戶電量通常會出現(xiàn)長時間為0或者某一較低數(shù)值的情況,且數(shù)值波動小。鑒于竊電行為的上述特征,可將電量平均值、方差和非重復(fù)數(shù)值個數(shù)等系統(tǒng)性差異變量作為月度用電曲線的數(shù)值統(tǒng)計特征,依舊分周、日兩個層次,為:
式中,unique(x)表示向量x中非重復(fù)數(shù)值的個數(shù)。整合上述周、日兩層次用電曲線的數(shù)值統(tǒng)計特征可得用戶月度用電曲線的數(shù)值統(tǒng)計特征為:
上述多層次非負(fù)稀疏編碼算法在周、日兩個層次上構(gòu)建了月度用電曲線的用電模式特征和數(shù)值統(tǒng)計特征,綜合二者設(shè)計用戶的融合檢測特征為
上述融合檢測特征的組成結(jié)構(gòu)如圖5所示。
圖5 融合檢測特征的組成結(jié)構(gòu)Fig.5 Composition structure of fusion detection features
由圖5可知,融合檢測特征兼顧了周、日兩個層次下月度用電曲線形狀和數(shù)量兩方面特征,即用電模式特征和數(shù)值統(tǒng)計特征。其中,用電模式特征包括用電曲線的用電模式正常度和重構(gòu)平均相對誤差;數(shù)值統(tǒng)計特征包括用電曲線的均值、方差以及非重復(fù)數(shù)值個數(shù)。
SVM是一種有監(jiān)督分類算法,其基本原理是尋找一個最優(yōu)超平面將特征空間中的樣本點一分為二,并使得不同標(biāo)簽的兩類樣本點離超平面的間隔最大。對于線性不可分問題,通過核技巧將輸入樣本映射到高維空間,使得低維特征空間中線性不可分的樣本在高維空間中線性可分。SVM由于其在高維特征分類問題上良好求解性[14],多次被用于竊電檢測,故文中選用高斯核函數(shù)非線性SVM算法進(jìn)行竊電樣本的檢測判別。通過帶標(biāo)簽的訓(xùn)練集對高斯核函數(shù)非線性SVM分類器進(jìn)行訓(xùn)練求解,以測試集測試分類器的檢測效果,高斯核函數(shù)非線性SVM分類器的求解流程[15]如下:
1)將訓(xùn)練集樣本的融合檢測特征fi及其標(biāo)簽yi∈{-1,1}(i=1,2,…,N,y=1表示竊電)作為輸入,線性SVM的模型為:
式中:ω為特征權(quán)重向量;ξi為函數(shù)間隔松弛變量;C為松弛變量的懲罰超參數(shù)。
2)將線性SVM轉(zhuǎn)化為其對偶問題,同時引入高斯核函數(shù)可得到高斯核函數(shù)非線性SVM模型,為:
式中α=(α1,α2,…,αN)T為拉格朗日乘子向量;K(·)表示高斯核函數(shù),為:
式中,γ為核函數(shù)待定超參數(shù)。
3)求解式(19)得最優(yōu)解α*,然后計算
4)構(gòu)造決策函數(shù),預(yù)測樣本的分類結(jié)果為
竊電樣本檢測效果評價指標(biāo)選擇基于混淆矩陣的精確率P、召回率R、F1值,具體表達(dá)式為式(23)。其中,精確率是指被判定為異常的樣本中實際為異常的比例;回率是指實際異常樣本被檢測出來的比例,而F1值則是精確率與召回率的調(diào)和平均值,只有精確率與召回率都較高才能取得較高的F1值。
式中:TP表示真陽性(竊電)樣本數(shù);FP表示假陽性樣本數(shù);FN表示假陰性樣本數(shù)。
以愛爾蘭智能電表數(shù)據(jù)集[16]為基礎(chǔ)構(gòu)造本算例基礎(chǔ)數(shù)據(jù)。該數(shù)據(jù)集包括了6 000多戶低壓臺區(qū)用戶近18個月的用電量數(shù)據(jù),時間分辨率為30 min。以數(shù)據(jù)集中3 000個用戶某月用電數(shù)據(jù)構(gòu)造算例樣本,隨機(jī)選取20%的樣本模擬竊電樣本,按文獻(xiàn)[17-19]中的數(shù)據(jù)篡改方式對選中竊電樣本作表1所示6種處理,通過分層抽樣方法將樣本集按7∶3的比例隨機(jī)分為訓(xùn)練集和測試集。
表1 竊電數(shù)據(jù)篡改方式及對應(yīng)數(shù)學(xué)表達(dá)式Table 1 Data tampering methods for electricity theft and corresponding mathematical expressions
非負(fù)稀疏編碼能夠有效提取用電曲線用電模式特征的關(guān)鍵在于編碼字典和編碼稀疏能夠良好地重構(gòu)原始用電曲線,因此需要考察非負(fù)稀疏編碼對原始用電曲線的重構(gòu)效果。非負(fù)稀疏編碼算法中字典原子數(shù)目K和編碼稀疏度L2個參數(shù)對用電曲線的重構(gòu)平均相對誤差平均值的影響如圖6所示。
圖6 參數(shù)K和L對非負(fù)稀疏編碼重構(gòu)平均相對誤差的影響Fig.6 The influence of parameters K and L on the average relative error of non-negative sparse coding reconstruction
由圖6可知,增大字典原子數(shù)目K和稀疏度L都可以降低周、日層次用電曲線非負(fù)稀疏編碼重構(gòu)的平均相對誤差,且相對而言增加編碼稀疏度L對于提升曲線重構(gòu)精度的效果更加明顯。平衡重構(gòu)效果與計算負(fù)擔(dān),選取周層次非負(fù)稀疏編碼參數(shù)Kw為400,Lw為12、日層次參數(shù)Kd為80,Ld為10,在上述參數(shù)設(shè)置下,周、日兩個層次下典型正常、竊電曲線的直觀重構(gòu)效果如圖7所示。周、日兩個層次下正常、竊電曲線樣本重構(gòu)平均相對誤差的平均值、中位數(shù)、最大值、最小值如表2所示。
表2 周、日層次正常、竊電曲線的重構(gòu)誤差Table 2 Reconstruction error of normal and abnormal curve at weekly and daily levels
圖7 周、日層次典型正常、竊電曲線的重構(gòu)效果Fig.7 Reconstruction effect of typical normal and abnormal curve at weekly and daily levels
由表2可知,周、日兩個層次下正常曲線和竊電曲線樣本重構(gòu)平均相對誤差的平均值、中位數(shù)都處于較低水平,說明非負(fù)稀疏編碼算法能夠?qū)崿F(xiàn)對用電曲線的良好重構(gòu),因此基于非負(fù)稀疏編碼提取用電曲線的用電模式特征是合理的。
文中所提基于多層次非負(fù)稀疏編碼和SVM的竊電檢測方法核心在于改善竊電檢測特征的設(shè)計方式,進(jìn)而提高竊電檢測的準(zhǔn)確率,因此只需驗證在同一檢測判別算法下采取文中特征設(shè)計方式能夠取得相較其他方式更高的檢測準(zhǔn)確率,即可驗證文中方法有效性,據(jù)此設(shè)計5種特征方式如下:
1)直接以原始變量為特征,不做額外特征設(shè)計處理;
2)基于主成分分析(principal component analysis,PCA)構(gòu)建檢測特征;
3)基于獨立成分分析(independent component analysis,ICA)構(gòu)建檢測特征;
4)基于日曲線單一層次非負(fù)稀疏編碼和竊電情景分析構(gòu)建檢測特征;
5)基于周、日曲線多層次非負(fù)稀疏編碼和竊電情景分析構(gòu)建檢測特征。
為敘述方便,將上述5種特征設(shè)計方式分別簡記為ORIGIN、PCA、ICA、DSC和 WDSC。以高斯核函數(shù)非線性SVM為檢測判別算法,各種特征設(shè)計方式下竊電樣本的檢測效果以及對應(yīng)SVM超參數(shù)的取值如表3所示。
表3 各種特征設(shè)計方式下樣本的檢測效果Table 3 Detection results of the samples under various feature processing methods
由表3可見,ORIGIN取得了最低的F1值,說明額外的特征設(shè)計可以在一定程度上排除隨機(jī)性等因素對樣本曲線的干擾,聚焦于用戶的主要用電特征,提高檢測判別方法的精確率與召回率。
對比WDSC、DSC和ICA、PCA特征設(shè)計方式下的檢測結(jié)果,WDSC和DSC取得了相較ICA和PCA更高的F1值,表明文中所提基于非負(fù)稀疏編碼和情景分析的特征設(shè)計方法相比ICA、PCA特征設(shè)計方法更有效。這是由于WDSC、DSC將月度曲線的用電特征分為形狀特征和數(shù)量特征分別構(gòu)建,分別賦予各分量特征以物理意義,保證了特征的可解釋性和針對性,易于修正改進(jìn);而ICA、PCA等通用特征提取算法沒有依據(jù)竊電檢測問題數(shù)據(jù)特征對方法作適應(yīng)性調(diào)整,故對高度隨機(jī)的用戶用電曲線樣本適應(yīng)性差。
對比WDSC和DSC特征設(shè)計方式下的檢測結(jié)果,兩種特征提取方式在檢測精確率上效果接近,但周、日多層次稀疏編碼算法在召回率上明顯高于日曲線單一層次稀疏編碼算法,說明周、日兩個層次的用電特征的確存在,多層次的特征提取能更加充分地刻畫用戶的用電特征。
綜上,文中所提基于多層次非負(fù)稀疏編碼和SVM竊電檢測方法通過改善竊電檢測特征的設(shè)計方法,能夠有效提高竊電樣本的檢測精確率和召回率。
虛假數(shù)據(jù)注入的新型竊電方式下,現(xiàn)有竊電檢測方法準(zhǔn)確率不高。文中提出了一種基于多層次非負(fù)稀疏編碼和SVM的竊電檢測方法,主要研究結(jié)論如下:
1)相較于直接以原始用電曲線為特征,對原始用電曲線進(jìn)行額外特征設(shè)計處理有助于排除隨機(jī)性等因素對曲線用電特征的干擾,聚焦用戶主要特征,進(jìn)而可提高竊電樣本檢測的準(zhǔn)確率。
2)正常曲線和竊電曲線的非負(fù)稀疏編碼重構(gòu)平均相對誤差平均值、中位數(shù)都處于較低水平,說明非負(fù)稀疏編碼算法能夠?qū)崿F(xiàn)對用電曲線的良好重構(gòu),基于非負(fù)稀疏編碼提取用電曲線的用電模式特征是合理的。
3)基于多層次非負(fù)稀疏編碼和情景分析的用電曲線融合特征設(shè)計方法能夠有效提取用電曲線的用電特征,相較其他通用特征提取方法,文中方法在竊電檢測的精確率和召回率上具有明顯優(yōu)勢。
4)多層次非負(fù)稀疏編碼由于同時考慮了月度用電曲線的日周期性和周周期性,相較單一層次非負(fù)稀疏編碼特征提取方法更能全面刻畫用戶用電特征,能取得更高的竊電樣本檢出率。