楊利辛,黃曉波,李凱
(1.南方電網(wǎng)能源發(fā)展研究院有限公司,廣東 廣州 510000; 2.南方電網(wǎng)數(shù)字電網(wǎng)集團(tuán)有限公司, 廣東 廣州 510000;3.廣東電網(wǎng)有限責(zé)任公司,廣東 廣州 510000)
竊電等異常用電行為是造成電力系統(tǒng)非技術(shù)性損失的主要原因,給電網(wǎng)的安全、穩(wěn)定和可靠運(yùn)行帶來嚴(yán)重威脅。傳統(tǒng)異常用電行為檢測(cè)采用人工巡檢方式,需要消耗大量的人力物力資源,已不能滿足實(shí)際需求[1]。近年來,隨著我國(guó)智慧電網(wǎng)的建設(shè)和發(fā)展,電力公司在發(fā)電、輸電、配電和用電端安裝和部署了大量的智能電表等數(shù)據(jù)采集傳感器,這些傳感器可以按每天數(shù)十次的頻率采集和記錄電力系統(tǒng)各個(gè)環(huán)節(jié)的相關(guān)數(shù)據(jù),這些數(shù)據(jù)中隱含著不同用戶用電行為信息,也為異常用電行為檢測(cè)提供了間接的“證據(jù)”[2],如何對(duì)這些信息進(jìn)行有效挖掘利用,從而快速、準(zhǔn)確地定位異常用電行為,是電力企業(yè)亟待解決的一個(gè)難題,也是當(dāng)前研究的熱點(diǎn)[3-5]。
目前基于數(shù)據(jù)驅(qū)動(dòng)的異常用電行為檢測(cè)方法總結(jié)起來可以分為有監(jiān)督類方法和無監(jiān)督類方法2類[6],兩者的主要差異在于是否需要帶標(biāo)簽的數(shù)據(jù)集用于模型訓(xùn)練,其中有監(jiān)督類方法以支持向量機(jī)(Support Vector Machine, SVM)、隨機(jī)森林和卷積神經(jīng)網(wǎng)絡(luò)等方法為代表,利用帶標(biāo)簽數(shù)據(jù)集完成最優(yōu)模型參數(shù)的學(xué)習(xí),進(jìn)而利用最優(yōu)模型對(duì)未知用戶用電行為進(jìn)行異常判決[7-9]。文獻(xiàn)[10]提出一種基于SVM的異常用電行為檢測(cè)模型,為了提升檢測(cè)性能,利用決策樹對(duì)SVM核函數(shù)進(jìn)行優(yōu)化,基于某臺(tái)區(qū)電力用戶真實(shí)用電數(shù)據(jù)驗(yàn)證了該方法的有效性;文獻(xiàn)[11]將隨機(jī)森林算法應(yīng)用于異常用電行為檢測(cè)領(lǐng)域,并構(gòu)建Hadoop分布式計(jì)算框架以提升算法實(shí)時(shí)性;文獻(xiàn)[12]利用卷積神經(jīng)網(wǎng)絡(luò)挖掘電力用戶用電量序列中的時(shí)間相關(guān)性信息,并建立分類模型實(shí)現(xiàn)對(duì)正常和異常用電行為的分類判決。上述有監(jiān)督異常用電檢測(cè)模型由于用到了帶標(biāo)簽訓(xùn)練樣本集,通常能夠獲得較高的異常檢測(cè)性能,然而根據(jù)生產(chǎn)生活經(jīng)驗(yàn)可知,海量電力用戶中異常用戶占比很低,通常難以獲得足夠多異常用電行為對(duì)應(yīng)的訓(xùn)練樣本,限制了該類方法在實(shí)際中的應(yīng)用[13]。無監(jiān)督類方法不需要訓(xùn)練樣本,基于相似性原理對(duì)數(shù)據(jù)進(jìn)行自動(dòng)劃分聚類,大多數(shù)正常用電數(shù)據(jù)會(huì)表現(xiàn)出一定的聚集性,而異常用電數(shù)據(jù)通常會(huì)以離群點(diǎn)的形式存在,無監(jiān)督類方法以K-均值聚類,基于密度的帶噪聲空間聚類(Density-Based Spatial Clustering of Application with Noise, DBSCAN)等方法為代表,文獻(xiàn)[14]采用K-均值聚類對(duì)電力用戶用電量特征進(jìn)行聚類分析,針對(duì)真實(shí)數(shù)據(jù)獲得了優(yōu)于85%的異常用電行為檢測(cè)查準(zhǔn)率;文獻(xiàn)[15]針對(duì)異常用電行為在線實(shí)時(shí)檢測(cè)需求,利用DBSCAN方法對(duì)用電趨勢(shì)特征進(jìn)行實(shí)時(shí)聚類分析,最終獲得了優(yōu)于87.5%的檢測(cè)正確率。無監(jiān)督類方法不需要帶標(biāo)簽訓(xùn)練數(shù)據(jù),大大降低了數(shù)據(jù)獲取難度,且具有算法簡(jiǎn)單容易實(shí)現(xiàn)等優(yōu)點(diǎn),缺點(diǎn)是聚類性能對(duì)模型參數(shù)具有較強(qiáng)的依賴性,而參數(shù)選取往往并非易事[16,17]。
在此基礎(chǔ)上,提出了一種基于特征選擇和改進(jìn)K-均值聚類的無監(jiān)督異常用電行為檢測(cè)模型,首先從用電量變化,線路損耗和電力參數(shù)三個(gè)維度提取15維特征構(gòu)成特征向量,實(shí)現(xiàn)高維用電數(shù)據(jù)的降維表征,然后利用相關(guān)向量機(jī)(Relevance Vector Machine, RVM)進(jìn)行特征選擇自動(dòng)確定最優(yōu)特征集合,同時(shí)進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)降維,最后提出一種基于信息增益的改進(jìn)K-均值聚類算法對(duì)最優(yōu)特征集合進(jìn)行聚類分析,實(shí)現(xiàn)異常用電檢測(cè)。相對(duì)于傳統(tǒng)K-均值,所提方法能夠自動(dòng)確定聚類個(gè)數(shù)和初始聚類中心,從而提升聚類性能?;趷蹱柼m智能電表公開數(shù)據(jù)集開展實(shí)驗(yàn),并從精準(zhǔn)率、召回率和ROC曲線AUC值三方面對(duì)所提方法的性能進(jìn)行定量分析。
智慧電網(wǎng)背景下,電力企業(yè)利用線路參數(shù)采集設(shè)備和智能電表等電能計(jì)量設(shè)備獲得輸電線路側(cè)和用電側(cè)的海量數(shù)據(jù),這些數(shù)據(jù)中隱含著與用電行為相關(guān)的有用信息,同時(shí)也不可避免地會(huì)存在大量噪聲、干擾等無用信息,要從海量高維數(shù)據(jù)中挖掘出有用信息,實(shí)現(xiàn)去偽存真,特征提取是關(guān)鍵[18]。特征提取是指從原始高維數(shù)據(jù)中抽象凝練出一些能夠表征異常行為的特征參數(shù),這些特征是原始數(shù)據(jù)的一種降維表征,能夠較好地描述不同用電行為之間的差異性,大大降低后續(xù)數(shù)據(jù)處理的難度。
通過對(duì)大量正常和異常用電行為數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)正常用戶的用電量變化曲線存在一定周期性,并且線路損耗和電壓電流值較為平穩(wěn),而異常用電行為的用電量通常表現(xiàn)出逐漸下降的趨勢(shì),同時(shí)線路損耗值較大,電壓電流也會(huì)出現(xiàn)較大波動(dòng),因此從用電量變化趨勢(shì)、線路損耗和電壓電流波動(dòng)三個(gè)方面提取表1所示15維特征構(gòu)成特征向量。
表1 特征向量組成
按照傳統(tǒng)的異常檢測(cè)模型,特征提取完成后需要進(jìn)行分類器設(shè)計(jì)從而實(shí)現(xiàn)對(duì)不同用電行為的分類判決。然而,當(dāng)前的特征提取過程與分類器設(shè)計(jì)過程是相互獨(dú)立的,特征提取過程并沒有考慮所提特征對(duì)于分類器而言是否最優(yōu),并且主觀提取的特征通常含有較多冗余信息,這些信息不僅對(duì)異常用電檢測(cè)沒有幫助,反而會(huì)誤導(dǎo)分類器訓(xùn)練,因此有必要進(jìn)行特征選擇,從特征向量中確定最優(yōu)特征集合,從而提升分類性能。RVM是在SVM基礎(chǔ)上發(fā)展起來的一種基于貝葉斯框架的概率模型,相對(duì)于SVM具有更強(qiáng)的稀疏性,能夠?qū)崿F(xiàn)特征選擇與分類器設(shè)計(jì)的聯(lián)合優(yōu)化,因此本文選擇RVM對(duì)上述15維特征進(jìn)行進(jìn)一步分析,以獲得最優(yōu)特征集合。利用RVM進(jìn)行特征選擇的模型可以表示為:
(1)
其中,fm為第m個(gè)電力用戶對(duì)應(yīng)的特征向量,K(f,fm)為核函數(shù),w=[w1,w2,…,wm)]T為權(quán)向量,ε為數(shù)據(jù)中的噪聲成分,為了構(gòu)建完整的貝葉斯模型,分別對(duì)權(quán)向量和噪聲成分進(jìn)行概率模型設(shè)計(jì),合理的概率模型為高斯分布[19],即w服從均值為零,協(xié)方差矩陣為α-1I的高斯分布,ε服從均值為零,協(xié)方差矩陣為γ-1I的高斯分布。
K-均值聚類是一種經(jīng)典的基于劃分的聚類方法,被廣泛應(yīng)用于異常檢測(cè)領(lǐng)域。然而,傳統(tǒng)K-均值的聚類性能與聚類數(shù)目K和初始聚類中心的設(shè)置密切相關(guān),目前常用的基于專家知識(shí)庫或先驗(yàn)信息的方法存在主觀性強(qiáng)且適應(yīng)性差的問題。為了解決該問題,本文提出一種基于信息增益確定最優(yōu)聚類個(gè)數(shù)的方法,同時(shí)考慮到K-均值是以歐式距離遠(yuǎn)近作為聚類劃分準(zhǔn)則的方法,選取空間密度最大的K個(gè)樣本作為初始聚類中心,通過信息增益和樣本空間密度的方式自動(dòng)確定K-均值聚類的聚類個(gè)數(shù)和初始聚類中心,從而提升聚類性能。
所提改進(jìn)K-均值聚類涉及的相關(guān)概念為:
定義1:特征空間的信息熵
(2)
定義2:聚類后第k個(gè)子類的信息熵
根據(jù)式(2)給出的樣本空間信息熵定義,可以進(jìn)一步得到聚類后第k個(gè)子類的信息熵為:
(3)
其中,Ck為第k個(gè)子類對(duì)應(yīng)的特征序號(hào)集合。
定義3:聚類后的信息增益
假設(shè)聚類后得到K個(gè)子類,則該聚類對(duì)應(yīng)的信息增益定義為:
定義4:樣本xn的空間密度dist(xn)
(5)
其中,‖·‖l2表示求變量的l2范數(shù)。
在上述定義的基礎(chǔ)上,所提改進(jìn)K-均值聚類的具體算法流程可以總結(jié)為:
輸出:聚類結(jié)果和異常檢測(cè)結(jié)果。
算法流程:
設(shè)置聚類個(gè)數(shù)k=1,
步驟2:根據(jù)式(3)計(jì)算得到聚類個(gè)數(shù)為k情況下的信息熵Ek;
步驟3:根據(jù)式(4)計(jì)算得到此時(shí)的信息增益Ik,并將其記錄;
步驟4:令k=k+1,重復(fù)步驟1~步驟3,指導(dǎo)k=Kmax;
步驟5:選擇步驟3記錄的所有信息增益的最大值對(duì)應(yīng)的k作為最優(yōu)聚類個(gè)數(shù)K;
步驟6:選取空間密度最大的K個(gè)特征作為初始聚類中心;
步驟7:將特征空間中非聚類中心特征按照歐式距離的劃分至與其距離最近的聚類中;
步驟8:按式(6)計(jì)算得到新的聚類中心
(6)
其中,nk為第k個(gè)子集中的特征個(gè)數(shù)。
步驟9:根據(jù)步驟8得到新聚類中心對(duì)特征空間進(jìn)行重新劃分,若相鄰兩次劃分得到的結(jié)果一致,則認(rèn)為算法收斂,否則重復(fù)步驟7和步驟8。
本部分內(nèi)容中,采用愛爾蘭智能電表記錄的公開數(shù)據(jù)集開展驗(yàn)證實(shí)驗(yàn),對(duì)所提方法的異常檢測(cè)性能進(jìn)行驗(yàn)證,該數(shù)據(jù)集來源于愛爾蘭Commission for Energy Regulation,本意是為智能電網(wǎng)研究提供相應(yīng)的數(shù)據(jù)支撐,也是目前異常用電行為檢測(cè)領(lǐng)域應(yīng)用最廣的數(shù)據(jù)集,該數(shù)據(jù)集的使用方式和下載地址見[21]。該數(shù)據(jù)集包括534個(gè)電力用戶536天的用電量數(shù)據(jù),其中正常用戶數(shù)量為521,異常用戶數(shù)量為13,數(shù)據(jù)記錄頻率為30 min一次,異常用戶已被提前標(biāo)準(zhǔn),由于本文方法為無監(jiān)督方法,所以異常用戶標(biāo)簽僅用于模型評(píng)估,不在檢測(cè)過程中使用。
采用精準(zhǔn)率(Precision),召回率(Recall)和接收機(jī)工作特性曲線(Receiver Operating Characteristic, ROC)對(duì)應(yīng)的AUC值三項(xiàng)指標(biāo)定量評(píng)估所提模型的異常檢測(cè)性能,其中精準(zhǔn)率和召回率的定義為:
(7)
其中,TP表示將異常用戶檢測(cè)為異常用戶的樣本數(shù)量,TN表示將正常用戶檢測(cè)為正常用戶的樣本數(shù)量,FP表示異常用戶檢測(cè)為正常用戶的樣本數(shù)量,FN表示將正常用戶檢測(cè)為異常用戶的樣本數(shù)量。
ROC曲線是以虛警概率和檢測(cè)概率為橫縱坐標(biāo)繪制而成的一條用于評(píng)估分類模型性能的曲線,通常用ROC曲線與直線y=1之間區(qū)域的面積值A(chǔ)UC作為ROC曲線的量化指標(biāo),AUC值越大,表明分類模型性能越好。
圖1 RVM特征選擇結(jié)果
獲得最優(yōu)特征集合后,將其作為改進(jìn)K-均值聚類的輸入進(jìn)行自動(dòng)聚類分析,實(shí)驗(yàn)中設(shè)置最大聚類個(gè)數(shù)Kmax=8,根據(jù)改進(jìn)K-均值聚類步驟進(jìn)行聚類分析得到的信息增益隨聚類個(gè)數(shù)k的變化曲線如圖2所示,可以看出,當(dāng)k=3時(shí),信息增益最大,即最優(yōu)聚類個(gè)數(shù)K=3。圖3(a)給出了所提方法得到的最終聚類結(jié)果,為了對(duì)比圖3(b)給出了傳統(tǒng)K-均值聚類得到聚類結(jié)果,可以看出所提方法獲得的聚類結(jié)果呈現(xiàn)出較好的聚集性,類內(nèi)數(shù)據(jù)分布較為集中,類間數(shù)據(jù)分布較為疏遠(yuǎn),聚類結(jié)果較為理想,同時(shí)類別3即所提方法獲得異常用電行為聚類,而傳統(tǒng)K-均值聚類結(jié)果獲得的最優(yōu)聚類數(shù)為K=4,將圖3(a)中的聚類1又分為了3個(gè)子類,但是將圖3(a)中聚類2和聚類3劃分為同一個(gè)子類,該聚類結(jié)果無法直接進(jìn)行異常用電行為檢測(cè),需要聯(lián)合其他手段才能實(shí)現(xiàn)對(duì)聚類3中異常用電行為的定位,增加了模型的復(fù)雜度。
圖2 信息增益隨聚類個(gè)數(shù)變化
(a)所提改進(jìn)K-均值聚類
(b)傳統(tǒng)K-均值聚類
圖4給出了所提方法的ROC曲線,同時(shí)為了對(duì)比,圖4中給出了在相同條件下采用文獻(xiàn)[15]所提方法得到的異常檢測(cè)結(jié)果,可以看出在同一個(gè)坐標(biāo)系內(nèi),所提方法的ROC曲線位于文獻(xiàn)[15]提出方法的左上方,與直線y=1圍成的面積更大、性能更優(yōu)。表3給出了兩種方法的精準(zhǔn)率、召回率和AUC值三項(xiàng)指標(biāo),可以看出,本文所提方法的精準(zhǔn)率,召回率和AUC值三項(xiàng)指標(biāo)均優(yōu)于文獻(xiàn)[15]方法,精準(zhǔn)率提升3.58%,召回率提升2.77%,AUC值提升3.75%,具有更優(yōu)的異常檢測(cè)性能。
除了上述精準(zhǔn)率、召回率和AUC值三項(xiàng)指標(biāo)外,復(fù)雜度和實(shí)時(shí)性也是評(píng)估異常檢測(cè)算法性能的一個(gè)重要方面,表3中最后一列給出了所提方法和文獻(xiàn)[15]方法完成異常檢測(cè)所需的時(shí)間對(duì)比結(jié)果,可以看出所提方法在獲得更優(yōu)異常檢測(cè)性能的同時(shí),實(shí)時(shí)性也略優(yōu)于文獻(xiàn)[15]方法,究其原因在于,所提方法通過特征選擇流程實(shí)現(xiàn)了數(shù)據(jù)降維,有效降低了后續(xù)異常檢測(cè)算法的復(fù)雜度,提升了實(shí)時(shí)性。
表3 不同方法異常檢測(cè)結(jié)果
圖4 不同方法ROC曲線
K-均值聚類算法具有算法簡(jiǎn)單、容易實(shí)現(xiàn)、不需要訓(xùn)練數(shù)據(jù)集等優(yōu)點(diǎn),被廣泛應(yīng)用于異常用電檢測(cè)領(lǐng)域。K-均值聚類性能受最優(yōu)聚類個(gè)數(shù)和初始聚類中心的選擇影響較大。針對(duì)該問題,提出了一種基于RVM特征選擇和改進(jìn)K-均值聚類的異常用電行為檢測(cè)算法。利用RVM對(duì)提取的15維用電量變化、線路損耗和電力參數(shù)特征進(jìn)行自動(dòng)特征選擇,確定2維最優(yōu)特征向量,然后利用改進(jìn)的K-均值聚類進(jìn)行聚類實(shí)現(xiàn)異常檢測(cè),改進(jìn)后的K-均值聚類算法利用信息增益和樣本的空間密度自動(dòng)確定最優(yōu)聚類個(gè)數(shù)和初始聚類中心,能夠有效提升聚類性能?;趷蹱柼m公開數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,所提方法的精準(zhǔn)率、召回率和AUC值三項(xiàng)指標(biāo)均優(yōu)于對(duì)比方法。