高曦瑩,關(guān) 艷,楊飛龍,曹世龍,王英新
(1.國網(wǎng)遼寧省電力有限公司電力科學(xué)研究院,遼寧 沈陽 110006;2.國網(wǎng)沈陽供電公司,遼寧 沈陽 110004)
電費收入是供電企業(yè)的主要收入來源,是保證國家電力行業(yè)持續(xù)健康發(fā)展的基礎(chǔ)和保證。然而,由于誠信體系的缺失,個別用電企業(yè)存在違約用電,供電企業(yè)內(nèi)部個別員工存在徇私舞弊現(xiàn)象,致使供電企業(yè)蒙受較大的經(jīng)濟(jì)損失。因此,研究科學(xué)有效的電價執(zhí)行稽查方法成為一項不斷更新的研究課題[1]。
隨著科技的發(fā)展,供電企業(yè)信息化程度不斷提高,國家電網(wǎng)公司建立了“客戶導(dǎo)向型,機(jī)構(gòu)扁平型,業(yè)務(wù)集約化,管理專業(yè)化,管控實時化,服務(wù)協(xié)同化”一型五化電力營銷體系。大量電力營銷系統(tǒng)信息使得采用智能數(shù)據(jù)分析方法進(jìn)行數(shù)據(jù)挖掘成為可能,并隨著智能方法的更新發(fā)揮出越來越大的作用。其中,電價執(zhí)行稽查方法也在不斷更新,現(xiàn)有的方法有3種:一是采用人工檢查定期巡檢,該方法效率低、工作量大,正在逐漸淘汰;二是通過普通網(wǎng)絡(luò)稽查監(jiān)控系統(tǒng),設(shè)立用電量門限閾值篩選,該方法只能對門限閾值超量的電價執(zhí)行異常進(jìn)行篩選,原理簡單但準(zhǔn)確率較低;三是通過聚類等傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行系統(tǒng)篩選,但該方法只能憑借用電軌跡對電價執(zhí)行異常進(jìn)行辨別[2],情況單一,無法處理異構(gòu)數(shù)據(jù),在用戶數(shù)據(jù)局部缺失的情況下無法進(jìn)行有效分析計算[3]。
針對上述方法局限性,本文提出一種基于深度學(xué)習(xí)變分自動編碼器算法(variational autoencoder based anomaly detection algorithm,VABAD)解決在電價執(zhí)行稽查過程出現(xiàn)的問題。該方法中采用的變分自動編碼技術(shù)既是判別性模型又是生成性模型,既可以用來檢測異常數(shù)據(jù)又可以通過特征概率來恢復(fù)數(shù)據(jù)。其最大的優(yōu)勢是該技術(shù)通過重構(gòu)概率來判定異常數(shù)據(jù)而不是重構(gòu)數(shù)據(jù)本身,使得多種異常數(shù)據(jù)可加入判別,極大豐富了判定依據(jù),可有效處理多種電價執(zhí)行稽查。該方法分為3部分:一是用電數(shù)據(jù)獲得并進(jìn)行分類;二是用電數(shù)據(jù)提取概率特征,為每一個樣本構(gòu)造專屬正態(tài)分布,然后采樣重構(gòu),并訓(xùn)練編碼器及解碼器;三是利用重構(gòu)概率(蒙特卡洛估計值)實現(xiàn)異??蛻襞袆e,實現(xiàn)電價執(zhí)行稽查。該方法的總體框圖見圖1,利用該方法在東北某省電網(wǎng)進(jìn)行電價執(zhí)行稽查,結(jié)果表明,該方法有效提高了稽查準(zhǔn)確性,大幅降低了稽查不匹配率,極大減輕了供電企業(yè)工作量,具有較好的實用性和可行性。
圖1 電價稽查執(zhí)行方法總體框圖
數(shù)據(jù)取自供電企業(yè)市場營銷及營銷稽查監(jiān)控業(yè)務(wù)數(shù)據(jù)庫,數(shù)據(jù)類型及對應(yīng)數(shù)值化舉例如下。
異常種類:包括售電均價波動、特殊電價執(zhí)行異常、超容量用電、居民大電量、農(nóng)排大電量、化肥大電量、力率執(zhí)行異常、變損電量異常、兩部制電價執(zhí)行異常、分時電價執(zhí)行異常等,對應(yīng)數(shù)值種類從1到N。
客戶用電一般屬性:包括電壓、電流、變壓器容量、平均功率因數(shù)、平均負(fù)載率、超容率、總電費、基本電費、峰時電費、平時電費、谷時電費等,數(shù)值按歸一化處理以便于計算。
客戶用電高級屬性:包括用電同比、環(huán)比、偏差率、峰總比、平總比、谷總比、峰谷比等,數(shù)值大部分為比值,直接代入矩陣。
客戶數(shù)據(jù)屬性:包含用戶類別、所屬行業(yè)、所屬位置、抄表號段、售電均價、上月售電均價、上年同期售電均價、售電環(huán)比同比、景氣指數(shù)等,數(shù)值分類數(shù)值化。
將系統(tǒng)中采集的數(shù)據(jù)按照正常數(shù)據(jù)集和異常數(shù)據(jù)集分類導(dǎo)入算法模型,異常數(shù)據(jù)集樣本數(shù)量較少,但足以對模型進(jìn)行半監(jiān)督學(xué)習(xí)訓(xùn)練。將樣本中的文字信息轉(zhuǎn)化為數(shù)字信息,并將包含4類數(shù)據(jù)類型的數(shù)據(jù)形成正常數(shù)據(jù)集X、異常數(shù)據(jù)集x。
式中:M、N、m、n代表維度。
判別模型通過變分自動編碼器模型得以實現(xiàn)。變分自動編碼器主要由編碼器、解碼器、額外損失3部分構(gòu)成。其原理圖見圖2。
圖2 變分自動編碼器原理圖
每一個樣本數(shù)據(jù)在編碼器中通過均值和方差分布降維生成隱藏變量z,通過解碼器還原樣本(升維);通過KL散度衡量額外損失L;通過重建概率可有效判別電價執(zhí)行異??蛻簟>唧w步驟如下。
確定網(wǎng)絡(luò)結(jié)構(gòu),總共具有q+2層,輸入層和輸出層各占1層,q為隱藏層的層數(shù)。
導(dǎo)入正常數(shù)據(jù)集X,確定到模型的超參數(shù),訓(xùn)練有向圖模型參數(shù)θ、φ[4]。
初始化編碼器網(wǎng)絡(luò),網(wǎng)絡(luò)作用是將數(shù)據(jù)集中的樣本數(shù)據(jù)映射到隱藏分布參數(shù)z中,輸入過程是將非線性激活函數(shù)的密度集(Dense函數(shù))進(jìn)行連接并向前發(fā)送,然后將輸入數(shù)據(jù)轉(zhuǎn)換成隱藏空間的2個變量,使用密度集連接隱藏變量z的均值μz(i)和z的logσ2使用σz(i)表示輸入。使用異常數(shù)據(jù)集數(shù)據(jù)通過神經(jīng)網(wǎng)絡(luò)均值μz(i)和方差σz(i)計算模塊反向傳播訓(xùn)練編碼器fθ(z|x(i))。 表達(dá)式為μz(i),σz(i)=fθ(z|x(i))。
解碼器將z作為輸入量,并將參數(shù)輸出到數(shù)據(jù)概率分布中,使用μz(i)和σz(i)作為采樣數(shù)值正態(tài)分布的均值和方差,通過定義采樣函數(shù)從隱藏正態(tài)分布中隨機(jī)采樣概率近似點。
logpθ(x(i))≥L(θ,φ,x(i))=DKL(qφ(z|x(i))||pθ(z))+Eqφ(z|x(i))[logpθ(x|z)]
式中:logpθ(x(i))為數(shù)據(jù)集點的邊緣似然值;qφ(z|x(i))為潛變量z的近似后驗值;pθ(z)為潛變量z的先驗分布值;KL為散度,計算獨立分量X正態(tài)分布與標(biāo)準(zhǔn)正態(tài)分布KL散度作為L值。具體實現(xiàn)程序流程見圖3。
基于大數(shù)據(jù)深度學(xué)習(xí)的電價稽查執(zhí)行方法,數(shù)據(jù)獲取出自Hadoop分布式架構(gòu)硬件服務(wù)器系統(tǒng),通過營銷系統(tǒng)SQL語言提取數(shù)據(jù)庫數(shù)據(jù)。
本方法是一種基于大數(shù)據(jù)深度學(xué)習(xí)的電價稽查執(zhí)行方法,通過變分自動編碼器算法,由于判斷因子是概率分布,不受不同指標(biāo)之間權(quán)重關(guān)系的影響可有效處理電價執(zhí)行異常的多種情況,有效區(qū)分電力用戶。
圖3 變分自動編碼器流程圖
數(shù)據(jù)取自某省供電公司營銷系統(tǒng)及稽查系統(tǒng)近年中某一年的具體數(shù)據(jù)。針對超容量用電電價執(zhí)行異常、居民大電量電價執(zhí)行異常、兩部制電價執(zhí)行異常3種情況進(jìn)行測試,針對性提取工業(yè)及居民用電數(shù)據(jù)。由于電價執(zhí)行稽查異??蛻魯?shù)量在正常無標(biāo)簽樣本中占比較低,為了加快試驗速度,測試和訓(xùn)練數(shù)據(jù)提高了異常數(shù)據(jù)占比,對算法的計算效果無影響。
結(jié)算結(jié)果根據(jù)超容量用電電價執(zhí)行異常、居民大電量電價執(zhí)行異常、兩部制電價執(zhí)行異常3種情況列于表1、表2、表3中。
由于電價執(zhí)行稽查采用人工方法與聚類方法已有文獻(xiàn)進(jìn)行過對比[4-5],本文測試部分重點對比變分自動編碼器與聚類(k-mean)方法的對比[6]。
表1 超容量用電電價執(zhí)行異常
表2 居民大電量電價執(zhí)行異常
表3 兩部制電價執(zhí)行異常
注:傳統(tǒng)聚類方法為采用k-mean法對測試數(shù)據(jù)的判定效果。只采用用電量特征曲線;稽查準(zhǔn)確率=(診斷結(jié)果中異常的用戶數(shù)/實際異常的用戶數(shù))×100%;稽查不匹配率=(誤判異常用戶數(shù)量/測試用戶樣本)×100%。
由試驗結(jié)果可見:變分自動編碼器方法在準(zhǔn)確率上較聚類方法有大幅提高;在不匹配率上變分自動編碼器方法更是大幅低于聚類方法;無論準(zhǔn)確性和不匹配性,大量的數(shù)據(jù)樣本是獲得良好性能的基礎(chǔ)和保證,由表3可見,在訓(xùn)練樣本數(shù)量下降的同時,準(zhǔn)確率下降,不匹配率上升。
針對目前電價執(zhí)行稽查工作方法的局限性,提出了一種基于深度學(xué)習(xí)變分自動編碼器的新方法。該方法突出的優(yōu)點是可以分析異常數(shù)據(jù),不拘泥于電量等常規(guī)判據(jù),通過概率方法有效加入多種參數(shù)而無需考慮參數(shù)權(quán)重[7-8]。通過試驗證明,該方法可有效提高電價執(zhí)行稽查的準(zhǔn)確率,有效降低不匹配率,大量減少供電企業(yè)工作量,提高供電企業(yè)收入,為電力營銷工作提供有效的保障。