王 鵬白玉嶺王林梅陳一鳴高 挺孫 杰
(1.國網(wǎng)臺州供電公司,浙江 臺州 318000;2.北京中恒博瑞數(shù)字電力科技有限公司,北京 100085)
目前電網(wǎng)企業(yè)臺區(qū)線損管理普遍采用一刀切的方式,通過人工設置臺區(qū)合理線損率開展日常管理工作,沒有考慮各臺區(qū)在導線選型、供電半徑、負荷分布、用戶類別、負載水平、用電季節(jié)、運行年限等方面的差異,缺乏科學依據(jù),在指導具體節(jié)能降耗工作實施方面缺乏實際參考意義。鑒于電網(wǎng)企業(yè)對臺區(qū)線損管理的要求逐年提高,確定更加合理、精確的理論線損率計算方法迫在眉睫。
傳統(tǒng)的臺區(qū)理論線損率計算方法有潮流計算法、負荷曲線法、節(jié)點電壓法等[1-3]。由于臺區(qū)分支線路復雜,節(jié)點多,量測點少,臺賬數(shù)據(jù)不完整,線損率計算困難。近年來,人工智能算法逐漸應用于配電網(wǎng)線損率計算。文獻[4]提出了基于支持向量機回歸的計算方法,文獻[5]研究了基于改進核心向量機的配電網(wǎng)線損預測方法,文獻[6]提出了一種基于徑向基函數(shù)神經(jīng)網(wǎng)絡和改進的自適應二次變異差分進化算法的線損分析方法。但上述文獻的應用領域均為10 kV 線路領域,在臺區(qū)線損率計算與分析方面的研究成果相對較少。文獻[7]提出了一種基于數(shù)據(jù)挖掘技術(shù)的臺區(qū)線損預測模型,利用K 均值聚類將線損數(shù)據(jù)按照臺區(qū)特征分類,并對每一類數(shù)據(jù)采用線性回歸進行預測;文獻[8]提出一種改進K 均值聚類和BP神經(jīng)網(wǎng)絡的計算模型。上述文獻研究重點雖然集中在臺區(qū)線損率計算分析領域,但是還存在一些不足:(1)影響因素考慮得不夠全面,基本上只考慮供電量、配電變壓器總?cè)萘俊⒕€路總長度等,對低壓臺區(qū)自身的屬性特征涉及較少,同時計算過程中線路總長度、供電半徑等數(shù)據(jù)難以直接得到;(2)對設備(資產(chǎn))運維精益管理系統(tǒng)、SG186 營銷業(yè)務應用系統(tǒng)、用電信息采集系統(tǒng)等現(xiàn)有數(shù)據(jù)的挖掘力度不夠,造成大量數(shù)據(jù)資源閑置,并沒有得到高效利用。本文提出了一種基于聚類劃分與雙向LSTM 網(wǎng)絡的臺區(qū)線損率計算方法,基于臺區(qū)靜態(tài)參數(shù)特征采用K-medoids 聚類算法將臺區(qū)劃分為不同類別;然后對于每一類臺區(qū),基于臺區(qū)靜態(tài)參數(shù)特征和運行參數(shù)特征采用雙向LSTM網(wǎng)絡構(gòu)建臺區(qū)線損率計算模型,提高了線損率計算的精準度。以某公司28 167 個臺區(qū)樣本數(shù)據(jù)進行仿真計算,結(jié)果驗證了本文所提算法準確性明顯優(yōu)于支持向量機、回歸樹、線性回歸等算法。
由于臺區(qū)參數(shù)特征的不同,線損率分布規(guī)律有所差異。因此,需要根據(jù)臺區(qū)參數(shù)特征,將臺區(qū)劃分為不同類別,相同類別臺區(qū)線損率規(guī)律大致相同;然后在每一類臺區(qū)中分別研究臺區(qū)線損率的波動規(guī)律,使得計算模型更加精準?;诰垲悇澐峙c雙向LSTM 網(wǎng)絡的臺區(qū)線損率計算方法整體框架如圖1所示,具體包括:首先選取影響線損率的臺區(qū)靜態(tài)參數(shù)特征,例如運行年限、城農(nóng)網(wǎng)標識,基于靜態(tài)參數(shù)特征采用聚類算法將臺區(qū)劃分為不同類別;接著,選擇影響線損率的臺區(qū)運行參數(shù)特征,例如負載率、三相不平衡度,基于臺區(qū)靜態(tài)參數(shù)特征和運行參數(shù)特征,采用雙向LSTM 網(wǎng)絡構(gòu)建臺區(qū)線損率計算模型,并評價模型的精準度;最后,基于該模型計算臺區(qū)線損率理論值。
圖1 臺區(qū)線損率計算整體流程
在臺區(qū)線損率計算模型的訓練階段,臺區(qū)樣本集合需要剔除線損率異常臺區(qū)。異常臺區(qū)的日、月線損數(shù)據(jù)波動大,失真嚴重,增加了非主要因素的干擾,不能真實反映實際線損率水平,增加了分析臺區(qū)線損影響因素及其影響大小的難度。
通常情況下,參數(shù)特征類似的臺區(qū)線損率波動規(guī)律也相似。在臺區(qū)類別劃分階段,需要分析臺區(qū)線損率影響因素,選擇影響程度大的參數(shù)特征;然后基于參數(shù)特征采用合適的聚類算法將海量臺區(qū)劃分為不同類別。
在臺區(qū)類別聚類劃分過程中,臺區(qū)特征參數(shù)選擇至關(guān)重要,既要能反映線損率波動規(guī)律又要考慮數(shù)據(jù)獲取的難易程度。綜合分析電網(wǎng)企業(yè)設備(資產(chǎn))運維精益管理系統(tǒng)、SG186 營銷業(yè)務應用系統(tǒng)現(xiàn)有可用數(shù)據(jù),用于聚類劃分的臺區(qū)特征參數(shù)如下:
(1)臺區(qū)運行年限。隨著運行時間增長,當初臺區(qū)設計實施標準已經(jīng)很難夠滿足電力負荷增長的需求。同時由于某些臺區(qū)長期處于過負荷的狀態(tài)、線路老化失修嚴重,其線損相對較大,容易出現(xiàn)線損率異常現(xiàn)象。
(2)城農(nóng)網(wǎng)標識。城鄉(xiāng)經(jīng)濟發(fā)展二元結(jié)構(gòu)的存在,城鄉(xiāng)居民用電習慣的不同、都會導致線損率大小的不同。同時,城鄉(xiāng)臺區(qū)供電半徑的不同、配網(wǎng)技術(shù)的差別、線路規(guī)劃改建的不同也是影響線損率的重要因素。
(3)居民容量占比。居民用戶和非居民用戶兩類用戶的用電特點有很大差異,對臺區(qū)線損的影響也不同。居民容量占比代表居民用戶對臺區(qū)線損率起主導作用的大小。
(4)居民戶均容量。在居民型臺區(qū)中,居民戶均容量代表臺區(qū)用戶的用電水平,不同用電水平的臺區(qū)線損率值可能會有差異。
(5)臺區(qū)用戶數(shù)量。根據(jù)臺區(qū)內(nèi)總用戶數(shù)將臺區(qū)劃分為小規(guī)模臺區(qū)、中規(guī)模臺區(qū)、大規(guī)模臺區(qū)。臺區(qū)用戶數(shù)是影響臺區(qū)線損率的重要因素[9]。
由于現(xiàn)有檔案資料未標記臺區(qū)的類別,臺區(qū)類別劃分是一個典型的無監(jiān)督聚類問題。K-means 算法和K-medoids 算法是兩種最常用基于劃分的聚類方法。其中,K-means 算法由于采用簇中對象的均值作為簇中心,當遇到離群點對象時會嚴重扭曲簇中心,影響了其他對象到簇的分配,因而K-means 算法對噪聲數(shù)據(jù)比較敏感。與K-means 算法相比,K-medoids算法選取實際對象作為簇中心對象,剩余對象分配到與其最相似的中心對象所在的簇,從而降低了噪聲數(shù)據(jù)的影響[10]。本文采用K-medoids 算法開展臺區(qū)類別的聚類劃分。在聚類過程中,K-medoids 算法采用聚類質(zhì)量評價函數(shù)進行對象迭代劃分,函數(shù)定義如下:
式中:E是參加聚類的所有對象p與其所屬簇的中心對象oi的絕對誤差之和。K-medoids 算法通過最小化E把所有對象分配至k個簇。
K-medoids 算法具體劃分流程如下:
輸入:包含n個對象的數(shù)據(jù)集D和簇數(shù)k
輸出:k個簇的集合
(1)在數(shù)據(jù)對象集合D中隨機選擇k個對象作為每個簇初始中心對象;
(2)將剩余對象分配至與其最近的中心對象所代表的簇中;
(3)選取一個未選取過的中心對象oi;
(4)選取一個未選取過的非中心對象oj;如果用oj替換oi聚類質(zhì)量評價函數(shù)變小,則用oj替換oi并形成新k個中心對象的聚類集合;
(5)重復步驟(4)直至所有非中心對象都被選取過;
(6)重復步驟(3)直至所有中心對象都被選取過;
采用K-medoids 算法開展臺區(qū)類別聚類劃分時,需要提前確定臺區(qū)類別數(shù)量。由于一開始無法確定合適的臺區(qū)類別數(shù)量,本文設置不同臺區(qū)類別數(shù)量開展臺區(qū)聚類劃分,然后評估不同類別數(shù)量聚類劃分的聚類質(zhì)量,最終選擇聚類質(zhì)量最好的臺區(qū)類別劃分。輪廓系數(shù)是一種常用的聚類質(zhì)量評價方法,它通過計算不同簇對象的分離情況和相同簇對象的緊湊情況來評估聚類實際效果,具體定義如下:
對于包含n個對象的數(shù)據(jù)集D,假設D被劃分為k個簇C1,…,Ck。對于每個對象o∈D,計算o與相同簇其他對象之間的平均距離a(o),o到不同簇對象的最小平均距離b(o)。假設o∈Ci且1≤i≤k,則
式中:dist 為距離函數(shù),dist(o,o′)指對象之間的距離。
a(o)越小對象o與所屬簇越緊湊,b(o)越大對象o所屬簇越分離。當輪廓系數(shù)值s(o)接近1 時,對象o與所屬簇是緊湊的,同時對象o與其他簇是遠離的。對象o的輪廓系數(shù)只能反映對象o的聚類效果,為了度量整個數(shù)據(jù)集的聚類效果,采用數(shù)據(jù)集中所有對象的輪廓系數(shù)的均值。
在臺區(qū)類別劃分后,除了臺區(qū)運行年限、居民容量占比、居民戶均容量、臺區(qū)用戶數(shù)量、供電半徑等臺區(qū)靜態(tài)特征參數(shù)外,還需要選擇臺區(qū)運行狀態(tài)參數(shù)。本文選取臺區(qū)運行狀態(tài)參數(shù)主要包括售電量、負載率、三相不平衡度、功率因數(shù)、環(huán)境溫度。然后基于臺區(qū)靜態(tài)參數(shù)特征和運行參數(shù)特征采用回歸算法模型構(gòu)建臺區(qū)線損率計算模型,開展臺區(qū)理論線損率計算。
LSTM 網(wǎng)絡是一種常用的門控循環(huán)神經(jīng)網(wǎng)絡。LSTM 引入了3 個門,即輸入門、遺忘門、輸出門,以及與隱藏狀態(tài)形狀相同的記憶細胞,從而記錄額外的信息。LSTM 單元結(jié)構(gòu)如下圖所示:
圖2 LSTM 單元結(jié)構(gòu)
(1)輸入門、遺忘門和輸出門
長短期記憶的門的輸入均為當前時間步輸入Xt與上一時間步的隱藏狀態(tài)Ht-1,輸出由值域為[0,1]的sigmoid 激活函數(shù)的全連接層計算得到。具體來說,假設隱藏單元個數(shù)為h,給定時間步t的小批量輸入Xt∈Rn×d(樣本數(shù)為n,輸入個數(shù)為d)和上一時間步隱藏狀態(tài)Ht-1∈Rn×h。時間步t的輸入門It∈Rn×h、遺忘門Ft∈Rn×h和輸出門Ot∈Rn×h分別計算如下:
式中:Wxi,Wxf,Wxo∈Rd×h,Whi,Whf,Who∈Rh×h是權(quán)重參數(shù),bi,bf,bo是偏差參數(shù)。
(2)候選記憶細胞、記憶細胞
時間步t的候選記憶細胞∈Rn×h的計算為:
式中:Wxc∈Rd×h和Whc∈Rh×h是權(quán)重參數(shù),bc∈Rl×h是偏重參數(shù),tanh 函數(shù)是值域[-1,1]的激活函數(shù)。
當前時間步記憶細胞的計算組合了上一時間步記憶細胞和當前時間步候選記憶細胞的信息,并通過遺忘門和輸入門來控制信息的流動:
式中:⊙為邏輯運算器,表示按元素乘法。
遺忘門控制上一個時間步的記憶細胞中的信息能否流入到當前時間步,而輸入門則控制當前時間步的輸入通過候選記憶細胞流入當前時間步的記憶細胞。如果遺忘門一直近似1 且輸入門一直近似0,過去的記憶細胞將一直通過時間保存并傳遞至當前時間步。
(4)隱藏狀態(tài)
在記憶細胞基礎上,可以通過輸出門來控制從記憶細胞到隱藏狀態(tài)Ht∈Rn×h的信息流動:
式中:tanh 函數(shù)確保隱藏狀態(tài)元素在-1 到1 之間。需要注意的是,當輸出門近似1 時,記憶細胞信息將傳遞到隱藏狀態(tài)供輸出層使用;當輸出門近似0 時,記憶細胞信息志自己保留[11-13]。
基于時間序列的預測,當前時間點臨近過去和未來的序列信息都可用于評估當前時刻,且不依賴預定義參數(shù)。然而LSTM 神經(jīng)網(wǎng)絡只能使用某一時刻之前的輸入信息來預測結(jié)果。雙向LSTM 則基于整個時間序列對輸出進行預測,首先將隱藏層神經(jīng)元分成正時間方向和負時間方向兩個部分,具有兩個獨立的隱藏層,然后前饋到相同的輸出層,同時包括過去和未來的序列信息。雙向LSTM 結(jié)構(gòu)見圖3。
圖3 雙向LSTM 網(wǎng)絡結(jié)構(gòu)
第1 層LSTM 計算當前時間點順序信息,第2 層LSTM 反向讀取相同的序列,添加逆序信息,每層LSTM 具有不同參數(shù)。雙向LSTM 網(wǎng)絡彌補了LSTM缺乏下文語義信息的不足[14-15]。
為了驗證本文所提方法的有效性,以某市公司線損率穩(wěn)定的公用變壓器臺區(qū)數(shù)據(jù)為例(共28 167個臺區(qū))進行線損率的計算和分析。選擇臺區(qū)樣本數(shù)據(jù)時重點剔除以下幾種不合格臺區(qū):(1)采集未全覆蓋;(2)臺區(qū)下有特殊用戶,如光伏發(fā)電;(3)發(fā)生業(yè)務變更,如戶變關(guān)系調(diào)整;(4)線損率為負值或超過10%。確定臺區(qū)樣本集合后,從一體化電量與線損管理系統(tǒng)、設備(資產(chǎn))運維精益管理系統(tǒng)、SG186 營銷業(yè)務應用系統(tǒng)、用電信息采集系統(tǒng)等抽取臺區(qū)靜態(tài)特征參數(shù)和運行特征參數(shù)。
在臺區(qū)類別聚類劃分階段采用K-medoids 算法,樣本輸入屬性包括:運行年限、城農(nóng)網(wǎng)標識、居民容量占比、居民戶均容量、臺區(qū)用戶數(shù)量。設定聚類簇數(shù)為2 至20,計算每種簇參數(shù)情況下聚類結(jié)果的輪廓系數(shù),各種聚類簇數(shù)對應的輪廓系數(shù)如表1 所示。
圖4 不同聚類簇數(shù)的輪廓系數(shù)
表1 各聚類中心對象的屬性值
通過對輪廓系數(shù)的分析,可知在聚類簇數(shù)為9時,臺區(qū)聚類劃分結(jié)果質(zhì)量最好,將其作為臺區(qū)類別劃分的最終結(jié)果。部分聚類簇的中心對象如下表所示,可以看出,聚類1 是城網(wǎng)運行時間較短臺區(qū),同時該類臺區(qū)用戶數(shù)量和戶均容量都較大;聚類2 和聚類3 也是城網(wǎng)臺區(qū),但是運行時間和戶均容量都和聚類1 有較大差別;聚類4 是農(nóng)網(wǎng)老舊臺區(qū),用戶數(shù)量大戶均容量小。
各個聚類簇的臺區(qū)數(shù)量如圖5 所示:
圖5 各個聚類的臺區(qū)數(shù)量
在臺區(qū)類別劃分基礎上,針對每類臺區(qū)分別基于雙向LSTM 網(wǎng)絡構(gòu)建臺區(qū)線損率計算模型,模型輸入屬性包括臺區(qū)運行年限、居民容量占比、居民戶均容量、臺區(qū)用戶數(shù)量、日售電量、日負載率、日均三相不平衡度、日均功率因數(shù)、日均氣溫。在臺區(qū)線損率計算模型訓練階段,最重要的參數(shù)是雙向LSTM網(wǎng)絡層數(shù)和每層隱藏單元的數(shù)量。層數(shù)越多、隱藏單元數(shù)量越多,模型非線性擬合能力越強,但模型復雜度也會大幅增加。在確定LSTM 模型的層數(shù)及其隱藏單元數(shù)量時,首先搜索單層模型的最佳隱藏單元數(shù)量并將其固定;第2 步,增加一層隱藏層,在第一步基礎上搜索該層最佳隱藏單元數(shù);以此類推,預測誤差最小時所對應的層數(shù)及隱藏單元數(shù)量為LSTM 模型最終參數(shù)。不同學習參數(shù)的模型均方誤差如圖6 所示,可以看出模型層數(shù)為2,隱藏單元數(shù)量分別為200,150 時模型效果最佳,將其雙向LSTM模型作為最終的臺區(qū)線損率計算模型。
圖6 不同模型參數(shù)下的預測結(jié)果
為進一步驗證分析本文模型的精確性,將線性回歸模型、支持向量機回歸模型、回歸樹模型與本文所提出的雙向LSTM 網(wǎng)絡的預測結(jié)果進行對比分析,各種模型計算結(jié)果如圖7 所示,容易看出,本文方法計算的臺區(qū)線損率與真實線損率最接近。
圖7 各種算法的臺區(qū)線損率計算結(jié)果對比
同時,采用十折交叉驗證比較上述各種模型計算結(jié)果的均方誤差(Mean Squared Error,MSE)、均方根誤差(Root Mean Squared Error,RMSE)、平均絕對誤差(Mean Absolute Error,MAE)及R-Squared,結(jié)果如表2 所示??梢钥闯?,本文提出方法各種指標都是最優(yōu)的。
表2 各種算法的臺區(qū)線損率計算模型對比
在低壓臺區(qū)中,由于分支線路復雜,節(jié)點多,量測點少,臺賬數(shù)據(jù)不全,線損率計算困難。提出了一種基于臺區(qū)聚類劃分與雙向LSTM 網(wǎng)絡的臺區(qū)線損率計算方法。基于城農(nóng)網(wǎng)、變壓器容量、運行年限等影響線損率的靜態(tài)屬性特征,采用K-medoids 聚類算法將海量臺區(qū)劃分為不同類別;然后對于每一類臺區(qū),基于臺區(qū)靜態(tài)參數(shù)特征和運行參數(shù)特征采用雙向LSTM 網(wǎng)絡構(gòu)建臺區(qū)線損率計算模型,提高了線損率計算的精準度。對某公司臺區(qū)樣本數(shù)據(jù)進行仿真計算,結(jié)果驗證了本文所提算法準確性明顯優(yōu)于支持向量機、回歸樹、線性回歸等模型的準確性。