林昱奐,胡嘉銘,戴偉力,黃波
(廣東電網(wǎng)有限責(zé)任公司廣州番禺供電局,廣州 510000)
隨著我國經(jīng)濟(jì)的快速發(fā)展和人民生活水平的不斷提升,近年來我國用電總量逐年攀升,對電能的需求也越來越大。然而以竊電為代表的異常用電行為給電網(wǎng)的安全穩(wěn)定運(yùn)行帶來嚴(yán)重威脅并擾亂電力系統(tǒng)的正常電力規(guī)劃和用電調(diào)度。據(jù)不完全統(tǒng)計(jì),每年由于異常用電帶來的經(jīng)濟(jì)損失已超過200 億元[1-2]。
傳統(tǒng)的異常用電檢測多采用技術(shù)人員到現(xiàn)場進(jìn)行排查的方式,存在排查效率低,人力物力資源消耗大和主觀性強(qiáng)的問題[3]。隨著數(shù)字電網(wǎng)和智慧電力的快速發(fā)展以及用電信息采集管理系統(tǒng)的逐步完善,各級電力用戶的配用電數(shù)據(jù)得到采集、記錄和保存,其中包含大量對異常用電檢測有用的高價(jià)值信息,如何提取這些信息并構(gòu)建模型從而自動(dòng)完成異常檢測是當(dāng)前的研究熱點(diǎn)[4-5]。
當(dāng)前國內(nèi)外學(xué)者對異常用電檢測方法的研究主要可以分為基于分類的方法和基于聚類的方法兩個(gè)方向[6]。其中基于分類的方法需要用到已知標(biāo)簽類別的數(shù)據(jù)作為訓(xùn)練樣本集,用于實(shí)現(xiàn)模型參數(shù)的學(xué)習(xí),從而得到最優(yōu)分類面或分類曲線。該類方法以支撐向量機(jī)(support vector machine,SVM)、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)和深度學(xué)習(xí)(deep learning,DL)等模型為代表。文獻(xiàn)[7]提出一種粒子群優(yōu)化的SVM 分類模型對某地區(qū)221 個(gè)電力用戶的日常用電數(shù)據(jù)進(jìn)行分析和處理,得到了高于91% 的正確檢測概率;文獻(xiàn)[8]提出一種BP 神經(jīng)網(wǎng)絡(luò)與PCA 相結(jié)合的異常用電檢測方法,利用PCA 對高維數(shù)據(jù)降維以提升BP 神經(jīng)網(wǎng)絡(luò)的運(yùn)算效率,針對重慶某地區(qū)9956 個(gè)電力用戶的日用電量數(shù)據(jù)獲得了優(yōu)于88%的檢測正確率;文獻(xiàn)[9]將深度學(xué)習(xí)理論與異常檢測相結(jié)合,利用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)對某地區(qū)電網(wǎng)數(shù)據(jù)進(jìn)行試驗(yàn)分析,獲得了優(yōu)于90% 的檢測概率。不同于基于分類的方法,基于聚類的方法不需要已知標(biāo)簽的訓(xùn)練數(shù)據(jù)集進(jìn)行模型訓(xùn)練,而是根據(jù)某種既定規(guī)則對數(shù)據(jù)進(jìn)行劃分。根據(jù)規(guī)則不同可以分為K-均值聚類,模糊聚類和基于密度的聚類DBSCAN等不同方法[10]。文獻(xiàn)[11]提取電量、電壓和線損等特征并利用K-均值聚類方法進(jìn)行自動(dòng)聚類,針對某臺(tái)區(qū)用電數(shù)據(jù)開展試驗(yàn),獲得了90.7% 的檢測結(jié)果;文獻(xiàn)[12]利用模糊聚類對竊電問題進(jìn)行研究,提取用電變化率等4 類指標(biāo)作為特征向量進(jìn)行分析,利用某市153 個(gè)電力用戶用電數(shù)據(jù)驗(yàn)證了該方法的有效性;文獻(xiàn)[13]利用DBSCAN 方法對某地區(qū)電力用戶用電數(shù)據(jù)進(jìn)行異常檢測,并從準(zhǔn)確率,誤報(bào)率和漏報(bào)率等指標(biāo)進(jìn)行分析,結(jié)果表明DBCAN 得到的檢測性能明顯優(yōu)于其它對比方法。
上述文獻(xiàn)所提方法在面對各自問題時(shí)雖然能夠獲得較為理想的檢測結(jié)果,但是基于分類的方法需要大量的帶標(biāo)簽數(shù)據(jù)用于模型訓(xùn)練,然而由于異常用電數(shù)據(jù)發(fā)生的隨機(jī)性和低概率特點(diǎn),導(dǎo)致實(shí)際工程應(yīng)用中難以獲得足夠的異常樣本進(jìn)行模型訓(xùn)練,制約了該類方法的使用。基于聚類的方法雖然不需要訓(xùn)練樣本集,但是該類方法對模型參數(shù)的選擇具有較高依賴性,例如K-均值聚類K 值的選擇,DBSCAN 聚類中心的選擇等,而參數(shù)選擇在實(shí)際使用時(shí)往往比較棘手。同時(shí)隨著電力數(shù)據(jù)高維,非線性和大數(shù)據(jù)量的特點(diǎn)愈加明顯,單一異常檢測模型也逐漸暴露出準(zhǔn)確率低,誤漏報(bào)率高的問題。
本文在上述研究的基礎(chǔ)上,提出一種基于最小熵K-均值聯(lián)合果蠅算法(fruit fly optimization algorithm,F(xiàn)OA)優(yōu)化支撐向量域描述(support vector data description,SVDD)的異常用電檢測方法。首先對原始用電數(shù)據(jù)提取76 維統(tǒng)計(jì)特征并利用PCA 進(jìn)行特征變換,實(shí)現(xiàn)高維電力數(shù)據(jù)的降維表征,然后提出一種最小熵K-均值方法,自動(dòng)確定聚類個(gè)數(shù)K的同時(shí)實(shí)現(xiàn)特征數(shù)據(jù)的聚類,將電力用戶自動(dòng)劃分為4 種不同用電模式,最后采用SVDD 對各個(gè)聚類分別進(jìn)行異常檢測,作為一種一類分類器,SVDD 只需要正常類樣本即可實(shí)現(xiàn)最優(yōu)分類面的確定,同時(shí)針對SVDD 核參數(shù)和懲罰因子的設(shè)置問題,利用自適應(yīng)變步長改進(jìn)后的FOA 算法進(jìn)行全局尋優(yōu),提升異常檢測性能。采用某市電力用戶實(shí)際數(shù)據(jù)開展試驗(yàn),對所提方法的異常用電檢測性能進(jìn)行了驗(yàn)證。
用戶用電負(fù)荷數(shù)據(jù)是一種典型的終端數(shù)據(jù),能夠很好地反映用戶的用電行為和習(xí)慣,具有隨時(shí)間連續(xù)變化,曲線特征明顯的特點(diǎn),因此本文選擇電力用戶全年的用電負(fù)荷數(shù)據(jù)作為研究對象。
用電負(fù)荷數(shù)據(jù)呈現(xiàn)出高維,非線性和大規(guī)模等特點(diǎn),如果直接對其進(jìn)行分析,需要消耗大量的運(yùn)算資源,異常檢測效率低。同時(shí)由于量測誤差,數(shù)據(jù)傳輸誤差等因素的存在也會(huì)降低異常檢測結(jié)果的準(zhǔn)確性和可靠性。因此需要對原始數(shù)據(jù)進(jìn)行特征提取以降低后續(xù)檢測算法的運(yùn)算復(fù)雜度,提升實(shí)時(shí)性和魯棒性。
1.1.1 波動(dòng)性特征
波動(dòng)性特征描述的是用戶用電數(shù)據(jù)相對于用電均值的起伏程度和離散趨勢,在統(tǒng)計(jì)理論中通常采用標(biāo)準(zhǔn)差和離散系數(shù)進(jìn)行描述。標(biāo)準(zhǔn)差越大,離散系數(shù)越大表明數(shù)值的波動(dòng)范圍越大、離散程度越高。
假設(shè)數(shù)據(jù)集中包含N個(gè)用戶的日常用電數(shù)據(jù),每個(gè)用戶的用電數(shù)據(jù)包含D天,M個(gè)月,Q個(gè)季度,L年的用電數(shù)據(jù),分別表示為
日用電序列為
月用電序列:
季度用電序列為
年用電序列為
則每月、每季度和全年用電序列的標(biāo)準(zhǔn)差分別為
式中:uym,uzq和uvl分別為每月、每季度和全年用電序列的均值。
根據(jù)標(biāo)準(zhǔn)差和均值可以計(jì)算得到每月、每季度和全年用電序列的離散系數(shù)為
1.1.2 變動(dòng)性特征
變動(dòng)性特征描述的是用戶用電量隨時(shí)間變化的差異程度,本文采用相鄰兩個(gè)月和相鄰兩個(gè)季度用電量均值之間的差和比值進(jìn)行表征。具體計(jì)算公式為
式中:pyk和pzi分別為相鄰兩個(gè)月和兩個(gè)季度用電均值的差值,ryk和rzi分別為相鄰兩個(gè)月和兩個(gè)季度用電均值的比值。
1.1.3 趨勢性特征
趨勢性描述的是用戶用電量隨時(shí)間變化的整體趨勢,定義每個(gè)月、每個(gè)季度和全年用電量的最大值最小之差與均值的比為趨勢特征,其具體計(jì)算公式為
經(jīng)過上述特征提取過程,原始用戶用電量數(shù)據(jù)被量化為76 維特征量的形式,特征提取指標(biāo)見表1。可以將其直接輸入到檢測模型并進(jìn)行異常判斷,但在實(shí)際使用過程中發(fā)現(xiàn),提取的特征中不可避免的會(huì)存在一些冗余特征,這些冗余特征會(huì)影響檢測性能,因此需要進(jìn)一步對特征進(jìn)行變換與降維,剔除其中的冗余信息,降低后續(xù)檢測識(shí)別運(yùn)算復(fù)雜度。
表1 特征提取指標(biāo)Table 1 Indicators of feature extraction
主成分分析(principal component analysis,PCA)是當(dāng)前數(shù)據(jù)處理和分析領(lǐng)域中應(yīng)用最廣的一種降維方法[14-15]。通過線性變換將高維空間中具有一定相關(guān)性的數(shù)據(jù)映射為低維空間中一組線性無關(guān)的新數(shù)據(jù),并確保映射過程中信息丟失最少,從而大大降低后續(xù)數(shù)據(jù)處理的資源消耗。
將每個(gè)電力用戶用電量對應(yīng)的76 維特征構(gòu)成特征電量fn=[F1,…,FN]T,上標(biāo)T 表示矩陣轉(zhuǎn)置運(yùn)算,將所有用戶的特征向量構(gòu)成矩陣F=[f1,…,fN]。協(xié)方差矩陣C公式為
對C進(jìn)行特征值分解可得特征向量矩陣D=[d1,…,dN]和特征值向量λ=[λ1,…,λN],即
從式(7)可以看出,協(xié)方差矩陣被分解為2 項(xiàng),其中第1 項(xiàng)(前W個(gè)大特征值及特征向量)對應(yīng)信號子空間,包含原始數(shù)據(jù)中的絕大部分有用信息,第2 項(xiàng)(剩余N-W個(gè)小特征值及特征向量)對應(yīng)噪聲子空間,不包含任何有用信息。因此PCA 通過將原始高維數(shù)據(jù)投影到W維信號子空間中實(shí)現(xiàn)對數(shù)據(jù)的降維,即
式中,DW=[d1,…,dW] 。
通常選取占總能量90% 的大特征值個(gè)數(shù)作為信號子空間維度W,即:
K-均值是當(dāng)前應(yīng)用最為廣泛的一種無監(jiān)督聚類方法[16-17],利用樣本之間歐式距離的大小來量化樣本之間的相似性,通過將距離近的樣本劃分為同一簇實(shí)現(xiàn)樣本聚類,由于原理簡單、容易實(shí)現(xiàn)被廣泛應(yīng)用于電力數(shù)據(jù)處理中。然而K-均值算法需要預(yù)先設(shè)定聚類個(gè)數(shù)K,K值設(shè)置不當(dāng)會(huì)導(dǎo)致聚類質(zhì)量出現(xiàn)明顯下降。本文將信息論中熵的概念引入K-均值算法,根據(jù)最小熵準(zhǔn)則確定聚類個(gè)數(shù)K。進(jìn)而將電力用戶自動(dòng)劃分為K類,每一類中的用戶擁有相似的用電模式,從而可以降低后續(xù)異常檢測的復(fù)雜度,提升魯棒性。所提最小熵K-均值聚類算法步驟為:
步驟1:令類別數(shù)K=1;
步驟2:從特征集中隨機(jī)選取K個(gè)特征點(diǎn)作為當(dāng)前聚類中心:o1,o2,…,oK;
步驟3:將特征集中所有樣本按歐式距離的大小劃分至距離其最近的聚類中心對應(yīng)的類別中;
步驟4:對每個(gè)子類中樣本求平均得到當(dāng)前聚類對應(yīng)新的聚類中心;
步驟5:根據(jù)步驟4 得到的聚類中心對所有樣本進(jìn)行重新聚類,將其劃分至距離最近的聚類中心對應(yīng)的類別中;
步驟6:根據(jù)式(11)計(jì)算當(dāng)前聚類劃分下的信息熵值為
步驟7:令K=K+1;
步驟8:重復(fù)以上步驟,直至聚類個(gè)數(shù)K等于聚類樣本數(shù)N時(shí),算法終止;
步驟9:選取熵值最小時(shí)對應(yīng)的聚類結(jié)果作為所提最小熵K-均值算法的最優(yōu)聚類。
在實(shí)際生活中,異常用電行為只發(fā)生在一小部分電力用戶中,通常難以獲得足夠多的異常用電樣本數(shù)據(jù),因此像傳統(tǒng)SVM 等多類分類器由于無法獲得足夠的多類訓(xùn)練數(shù)據(jù)而應(yīng)用受限。SVDD 是在異常檢測領(lǐng)域中廣泛應(yīng)用的一種一類分類器,只需要一類“正常”樣本即可構(gòu)造閉合分類模型,實(shí)現(xiàn)對未知樣本“正?!被颉爱惓!钡呐袛郲18]。
SVDD 優(yōu)化目標(biāo)函數(shù)為[19]
其中:B(c,r)表示球心為c;半徑為r的超球體;C為懲罰因子;ξi為每個(gè)樣本gi,i=1,…;N對應(yīng)的松弛變量;構(gòu)成平衡系數(shù);N為樣本集大小。
真實(shí)數(shù)據(jù)的分布往往不會(huì)呈現(xiàn)球狀分布,針對這種情況SVDD 通過引入核函數(shù),將其映射到高維空間,使其在高維空間中符合球狀分布。目前常用的核函數(shù)為高斯核,具體形式為
式中:σ為高斯核參數(shù),決定著超球面邊界的緊密性。
利用核函數(shù)并引入拉格朗日乘子將式(12)轉(zhuǎn)換為對偶形式為
當(dāng)α′i=0 時(shí),對應(yīng)的gi為“正常”樣本,處于超球面內(nèi),當(dāng)>0 時(shí),對應(yīng)的gi為支撐向量,處于超球面上,當(dāng)=C時(shí),對應(yīng)的gi為“異?!睒颖?,處于超球面外,從而實(shí)現(xiàn)對異常數(shù)據(jù)的檢測。
SVDD 性能的優(yōu)劣由核參數(shù)σ和懲罰因子C共同決定,目前常用的參數(shù)優(yōu)化方法有網(wǎng)格搜索法、遺傳算法和粒子群算法。但是網(wǎng)格搜索法運(yùn)算復(fù)雜,實(shí)時(shí)性差,遺傳算法容易出現(xiàn)虛警,粒子群算法容易陷入局部極值。FOA 相對于上述方法具有更快的優(yōu)化速度和更少的參數(shù)數(shù)量,因此本文選用FOA 算法對SVDD 參數(shù)進(jìn)行優(yōu)化,以提升異常檢測性能。
FOA 算法是通過對果蠅覓食過程進(jìn)行抽象而得到的一種群體智能優(yōu)化算法,果蠅在覓食過程中通過群體協(xié)作、信息共享的方式進(jìn)行全局搜索尋優(yōu),具有算法簡單、運(yùn)算量小、尋優(yōu)精度高和收斂速度快等優(yōu)點(diǎn)。
FOA 算法的迭代過程包含2 個(gè)階段:首先果蠅個(gè)體利用嗅覺進(jìn)行大范圍全局搜索,得到群體中離食物最近的個(gè)體,然后果蠅利用視覺進(jìn)行局部搜索,確定最佳果蠅個(gè)體的位置,同時(shí)其他果蠅向該位置匯聚,通過嗅覺(全局)和視覺(局部)的相互配合不斷迭代,F(xiàn)OA 算法逐漸收斂于全局最優(yōu)解。其具體步驟為:
步驟1:參數(shù)初始化。設(shè)置果蠅群體的種群規(guī)模mf、最大迭代次數(shù)nf,搜索步長ΔR和群體的初始位置(X0,Y0);
步驟2:果蠅個(gè)體利用嗅覺進(jìn)行搜索。公式為
式中,(Xi,Yi)為第i次迭代后的位置。
步驟3:計(jì)算當(dāng)前果蠅個(gè)體到原點(diǎn)的距離Di,并得到其倒數(shù)Si,公式為
步驟4:利用Si計(jì)算得到當(dāng)前果蠅位置的味道濃度值S′i,公式為
式中,第f(?)為適應(yīng)度函數(shù)。
步驟5:記錄味道濃度最大的果蠅個(gè)體信息為
步驟6:果蠅群體利用視覺進(jìn)行局部搜索,群體內(nèi)其他果蠅向最優(yōu)位置聚集,公式為
步驟7:重復(fù)步驟2~6,直至滿足最大迭代次數(shù)。
從步驟2 可以看出,F(xiàn)OA 算法采用的是固定搜索步長ΔR,ΔR的大小影響著算法的全局和局部搜索能力,當(dāng)ΔR較大時(shí),F(xiàn)OA 的全局搜索能力提升,局部搜索能力下降,反之當(dāng)ΔR較小時(shí),F(xiàn)OA 算法的局部搜索能力增強(qiáng),全局搜索能力降低。因此這種固定搜索步長會(huì)降低算法收斂速度和收斂精度。針對該問題,本文將搜索步長與迭代次數(shù)關(guān)聯(lián),提出一種自適應(yīng)變步長搜索方法,在算法迭代初期采用較大搜索步長,保證算法的全局搜索能力,隨著迭代的進(jìn)行,搜索步長逐漸減小以保證算法的局部搜索能力。修改后的搜索過程可以表示為
從式(20)可以看出,優(yōu)化后的搜索步長隨著迭代次數(shù)的增加而減小,迭代初期,采用較大搜索步長以保證果蠅能夠快速靠向最優(yōu)位置,隨著迭代的進(jìn)行,搜索步長減小,果蠅在最優(yōu)位置附近進(jìn)行細(xì)致的搜索,確保收斂于全局最優(yōu)解。
根據(jù)上述內(nèi)容可知,所提算法中,PCA 的運(yùn)用能夠解決電力數(shù)據(jù)高維,大數(shù)據(jù)量的問題,所提最小熵K-均值方法能夠解決K-均值聚類K值的確定問題,所提FOA 優(yōu)化SVDD 模型雖然是一種基于分類的方法,但是只需要正常類樣本即可獲得最優(yōu)分類面,大大降低實(shí)際使用過程中數(shù)據(jù)獲取難度,同時(shí)該模型能夠有效解決電力數(shù)據(jù)非線性問題。
本文所提異常用電檢測算法的流程圖見圖1,可以看出算法主要包含以下5 個(gè)步驟:
圖1 算法流程圖Fig.1 Flowchart of the algorithm
步驟1:數(shù)據(jù)預(yù)處理。對數(shù)據(jù)進(jìn)行清洗,以消除數(shù)據(jù)中的殘缺、錯(cuò)誤等影響異常檢測的問題數(shù)據(jù),同時(shí)對數(shù)據(jù)進(jìn)行歸一化,消除不同量綱的影響;
步驟2:特征提取。提取第1 節(jié)介紹的76 維統(tǒng)計(jì)特征,實(shí)現(xiàn)初步的數(shù)據(jù)降維與特征表示;
步驟3:PCA 降維。利用PCA 算法對步驟2 提取的76 維特征進(jìn)行分析,剔除其中包含的冗余信息,進(jìn)一步對數(shù)據(jù)進(jìn)行降維,降低后續(xù)算法運(yùn)算復(fù)雜度;
步驟4:最小熵K-均值聚類。將PCA 輸出的特征向量作為聚類輸入數(shù)據(jù),利用第2 節(jié)所提最小熵K-均值算法進(jìn)行聚類分析,將數(shù)據(jù)集合自動(dòng)劃分為K個(gè)子類,每個(gè)子類中的用戶具有相似的用電習(xí)慣;
步驟5:改進(jìn)后的FOA-SVDD 異常檢測。利用第3 節(jié)所提改進(jìn)后的FOA-SVDD 模型對每個(gè)子類進(jìn)行異常檢測,自動(dòng)確定每個(gè)子類中的異常用戶。
為了驗(yàn)證所提方法的有效性,選取廣東省某地區(qū)電網(wǎng)956 個(gè)電力用戶2018 年1 月1 日至2018年12 月31 日共一個(gè)自然年的日用電量數(shù)據(jù)開展試驗(yàn)。首先根據(jù)以下原則進(jìn)行數(shù)據(jù)預(yù)處理。
5.1.1 信息殘缺用戶處理
由于采集、記錄、傳輸或者用戶自身外出等原因,獲取的數(shù)據(jù)中會(huì)出現(xiàn)某些日期或某些用戶用電量為0 或缺失的現(xiàn)象,即這部分日期或用戶的用電信息殘缺嚴(yán)重,對其進(jìn)行用電模式分類和異常檢測不僅沒有意義,反而會(huì)影響正確數(shù)據(jù)的特征提取和分類識(shí)別,因此需要對其進(jìn)行預(yù)處理。
對于日用電數(shù)值為0 或者缺失的天數(shù)為全年時(shí)間30% 下的用戶,采用均值補(bǔ)差法進(jìn)行數(shù)據(jù)填充,即利用為0 或缺失數(shù)據(jù)前后各5 天的數(shù)據(jù)的均值進(jìn)行插補(bǔ),對于日用電數(shù)值為0 或者缺失的天數(shù)超過全年時(shí)間30%的用戶,對其設(shè)置標(biāo)簽并予以剔除處理。同樣當(dāng)特定日期用電數(shù)據(jù)為0 或者缺失的電力用戶超過所有用戶的10%時(shí),對該日期設(shè)置標(biāo)簽并剔除該日期的所有數(shù)據(jù)。
經(jīng)上述處理后,共剔除146 個(gè)無效電力用戶數(shù)據(jù)和21 個(gè)無效日期,將剩余810 個(gè)有效電力用戶共344 天的日用電量數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,其中包含36 個(gè)異常用戶,異常比例為4.4%。
5.1.2 數(shù)據(jù)歸一化
由于數(shù)據(jù)集中除普通電力用戶外還存在部分專變用戶,其額定電壓與容量存在較大差異,因此為了清除不同量綱的影響,需要對數(shù)據(jù)進(jìn)行歸一化處理。本文采用Z-score 方法,利用特征數(shù)據(jù)的均值和標(biāo)準(zhǔn)差進(jìn)行歸一化,見式(21),歸一化后數(shù)據(jù)集合服從均值為0,方差為1 的標(biāo)準(zhǔn)正態(tài)分布,從而消除了不同量綱的影響。
按照圖1 所示流程,對預(yù)處理后的數(shù)據(jù)提取表1所示76 維統(tǒng)計(jì)特征,并利用PCA 方法對其進(jìn)行分析,得到的特征值從大到小排列,見圖2,可以看出前3 個(gè)特征值明顯大于剩余特征值,根據(jù)式(9)計(jì)算得到信號子空間維度為W=3,即選取前3 個(gè)主分量作為新的特征集,表2 給出了這3 維特征的相關(guān)性矩陣,可以看出3 個(gè)特征兩兩之間的相關(guān)系數(shù)極小,表明經(jīng)PCA 處理后得到的新特征相互獨(dú)立,不含冗余信息,并且實(shí)現(xiàn)了對高維,大數(shù)據(jù)量電力數(shù)據(jù)的低維表征,有效降低后續(xù)異常檢測方法的運(yùn)算復(fù)雜度。
圖2 歸一化特征值變化曲線Fig.2 Variation curve of normalized eigenvalue
表2 主分量相關(guān)性矩陣Table 2 Correlation matrix of principal component
將PCA 處理后的特征集合作為最小的K-均值算法的輸入進(jìn)行無監(jiān)督聚類處理,圖3 給出了算法迭代過程中熵值的變化曲線,可以看出當(dāng)聚類個(gè)數(shù)K=4 時(shí),熵值最小,即根據(jù)所提最小熵準(zhǔn)則自適應(yīng)確定的聚類個(gè)數(shù)為4,從而有效解決了傳統(tǒng)K-均值聚類個(gè)數(shù)的確定難題。利用所提最小熵K-均值對特征集合聚類的結(jié)果見圖4,可以看出4 個(gè)類別的可區(qū)分性較為明顯,聚類效果較好。其中聚類1 中樣本數(shù)為346,包含2 個(gè)異常用戶;聚類2 中樣本數(shù)為133,包含7 個(gè)異常用戶;聚類3 中樣本為158,包含12 個(gè)異常用戶;聚類4 中樣本數(shù)為173,包含15 個(gè)異常用戶。
圖3 不同K值對應(yīng)的熵Fig.3 Entropy corresponding to different K values
圖4 聚類結(jié)果Fig.4 Clustering results
對每個(gè)聚類中的用戶用電量進(jìn)行平均得到的變化曲線見圖5,可以看出4 類用戶的用電模式存在較為明顯的差異性。
圖5 不同聚類用戶用電模式曲線Fig.5 Curves of electricity consumption patterns of different clusters of users
聚類1 中用戶呈現(xiàn)出典型的雙峰特點(diǎn),在早上6 點(diǎn)~8 點(diǎn)和晚上6 點(diǎn)~10 點(diǎn)之間處于用電高峰時(shí)段,且在高峰時(shí)段的用電量較大,表明家中大功率電器較多,推測該類用戶大都屬于外企職工、政府機(jī)關(guān)等從業(yè)人員,過著朝九晚五按部就班的生活。
聚類2 中用戶是典型的“夜貓子”型用戶,其用電高峰出現(xiàn)在晚上10 點(diǎn)~第二天早上6 點(diǎn)之間,且在高峰時(shí)段的用電量較大,推測該類用戶可能從事網(wǎng)絡(luò)主播、金融或計(jì)算機(jī)方面的職業(yè)。
聚類3 中用戶是典型的“低欲望”型用戶,其用電量在全天都處于較低水平,用電負(fù)荷最大值也比較小,表明家中只使用小功率電器,推測該類用戶節(jié)電意識(shí)較強(qiáng),對價(jià)格比較敏感,應(yīng)該為早出晚歸的上班族。
聚類4 中用戶為“兩級分化”型用戶,其用電量從早上8 點(diǎn)到下午6 點(diǎn)一直處于較高的狀態(tài),晚上用電量比較低,推測該類用戶可能為自由職業(yè)或者個(gè)體戶,更多的在家辦公。
按照圖1 所示流程,在完成聚類之后,利用改進(jìn)的FOA-SVDD 對每個(gè)聚類的數(shù)據(jù)集合進(jìn)行異常檢測,算法迭代過程中,適應(yīng)度函數(shù)值的變化曲線見圖6,同時(shí)為了對比,圖6 中給出了采用傳統(tǒng)固定步長FOA、粒子群算法和遺傳算法在相同條件下分別對SVDD 參數(shù)進(jìn)行優(yōu)化得到的適應(yīng)度函數(shù)值。從圖6 可以看出,對于聚類1 和聚類4,4 種方法得到的最優(yōu)適應(yīng)度函數(shù)值是一致的,但是改進(jìn)后的FOA 算法收斂速度最快,對于聚類2 和聚類3,傳統(tǒng)固定步長FOA 和遺傳算法最終收斂時(shí)適應(yīng)度函數(shù)值較大,沒能收斂于全局最優(yōu)解,改進(jìn)后的FOA 算法和PSO 算法能夠收斂于全局最優(yōu)解,但是改進(jìn)后的FOA 算法收斂速度更快,實(shí)時(shí)性更強(qiáng)。
為了定量的評估所提方法的異常檢測性能,采用式(22)定義的準(zhǔn)確率(ACC)、誤報(bào)率(FPR)和漏報(bào)率(FNR)3 種指標(biāo),其中TP 和FP 分別為被正確檢測的“正?!睒颖緮?shù)和被錯(cuò)誤檢測的“正?!睒颖緮?shù),TN 和FN 分別為被正確檢測的“異?!睒颖緮?shù)和被錯(cuò)誤檢測的“異常”樣本數(shù)。所提方法對4 類用戶的異常檢測結(jié)果見表3,同時(shí)為了對比,表3 給出了采用文獻(xiàn)[7]所提SVM 方法和文獻(xiàn)[8]所提BP 神經(jīng)網(wǎng)絡(luò)方法得到的結(jié)果。可以看出對于聚類1,3 種方法均可以獲得最優(yōu)的檢測性能,對于聚類2、聚類3 和聚類4,所提方法在準(zhǔn)確率,誤檢率和漏檢率3 項(xiàng)指標(biāo)方面均優(yōu)于2 種對比方法,上述實(shí)驗(yàn)驗(yàn)證了所提方法的有效性。同時(shí)需要進(jìn)一步指出的是,所提方法獲得的結(jié)果是在不需要帶標(biāo)簽的異常數(shù)據(jù)進(jìn)行訓(xùn)練的條件下獲得的,而2 種對比方法的結(jié)果是在有異常數(shù)據(jù)進(jìn)行訓(xùn)練的情況下獲得的。所提方法在實(shí)際工程應(yīng)用中大大降低了對數(shù)據(jù)獲取的難度,具有更高的應(yīng)用前景。
表3 異常檢測結(jié)果Table 3 Anomaly detection results
本文提出一種基于最小熵K-均值和改進(jìn)FOA-SVDD 一類分類器的異常用電檢測模型,該模型能夠有效解決電力數(shù)據(jù)高維、非線性和大數(shù)據(jù)量帶來的運(yùn)算復(fù)雜度和異常檢測正確率低,誤漏報(bào)率高的問題。主要結(jié)論有以下幾點(diǎn):
1)提出一種統(tǒng)計(jì)特征提取方法并結(jié)合PCA 完成對高維電力數(shù)據(jù)的降維特征表示,提升后續(xù)異常檢測運(yùn)算效率;
2)針對K-均值聚類方法K值確定難題,提出一種最小熵準(zhǔn)則自動(dòng)確定聚類個(gè)數(shù),進(jìn)而利用最小熵K-均值方法將特征集合劃分為K個(gè)子集,每個(gè)子集中的電力用戶具有相似的用電模式;
3)采用自適應(yīng)變步長代替?zhèn)鹘y(tǒng)FOA 的固定步長,提升FOA 算法的收斂速度和精度,進(jìn)而利用改進(jìn)后的FOA 對SVDD 核參數(shù)和懲罰因子進(jìn)行全局尋優(yōu),提升異常檢測性能以及非線性數(shù)據(jù)適應(yīng)能力;
4)所提方法不需要帶標(biāo)簽的異常數(shù)據(jù)進(jìn)行模型訓(xùn)練,大大降低了使用過程中的數(shù)據(jù)采集難度,具有更高的應(yīng)用前景;
5)采用實(shí)際電力用戶用電數(shù)據(jù)開展試驗(yàn),結(jié)果表明所提方法相對于傳統(tǒng)方法能夠獲得更高的正確率,更低的誤報(bào)和漏報(bào)率。