李威武,白永利,羅世剛,許青
(1 國網(wǎng)甘肅省電力公司經(jīng)濟技術研究院,蘭州 730030;2 國網(wǎng)甘肅省電力公司,蘭州 730030)
電力負荷預測是指以地區(qū)歷史負荷、天氣等外界影響因子為依據(jù),開展研究分析,通過采用數(shù)學方法或建立數(shù)學模型的方式,對電力系統(tǒng)的需求做出估計[1].準確的電力負荷預測是電力系統(tǒng)安全、穩(wěn)定、經(jīng)濟運行的保障,也是電網(wǎng)進行規(guī)劃調度的重要依據(jù).日最大負荷預測通過對未來數(shù)月甚至數(shù)年的單日電力負荷峰值進行預測,判斷電網(wǎng)網(wǎng)架結構對未來數(shù)月甚至數(shù)年的負荷承載能力,以此為電網(wǎng)規(guī)劃及電網(wǎng)項目投資提供指導意見[2].
隨著“雙碳”政策的開展及智能電網(wǎng)建設的進一步深入,當前電網(wǎng)分布式電源滲透率顯著提升,地區(qū)電網(wǎng)日最大負荷愈發(fā)易受外界環(huán)境因素的影響,為地區(qū)電網(wǎng)負荷預測工作帶來一定難度.因此參考地區(qū)歷史負荷水平,結合地區(qū)環(huán)境變量諸如溫度、濕度、節(jié)假日等因素,對歷史日進行合理分類,為數(shù)學模型提供高質量訓練集,是提升日最大負荷預測精度的有效方式之一.
借此思路,文獻[3]提出一種結合縱橫交叉算法參數(shù)優(yōu)化的魯棒極限學習機算法,以建立負荷的多分段預測模型,分段依據(jù)由聚類與CART 樹相結合的方法確定;文獻[4]將模糊C均值聚類結果進行變分模態(tài)分解,以構建神經(jīng)網(wǎng)絡模型的輸入;文獻[5]采用灰色關聯(lián)分析方法選取相似日粗集,再對相似日粗集的外部因素進行聚類分析,劃分相似日集合,最終利用相似日集合訓練長短期記憶(Long-Short Term Memory,LSTM)神經(jīng)網(wǎng)絡,進行負荷預測;文獻[6]采用動態(tài)時間規(guī)整算法計算行業(yè)電量周期性,聚類得到相似用電特性的行業(yè)電量序列,最后針對各電量子序列建立支持向量回歸模型;文獻[7]綜合考慮經(jīng)濟、氣象等因素,以計量經(jīng)濟學中的協(xié)整檢驗以及格蘭杰因果檢驗分析確定負荷關鍵影響因子,采用支持向量機進行月負荷預測.文獻[8]提出均值漂移概念,以解決模糊C均值聚類算法無法確定聚類數(shù)目的問題,在分解負荷分量后,運用XGBOOST完成最終預測.
縱觀上述研究,基于深度學習算法的負荷預測模型的精準度很大程度取決于學習樣本的質量.合適的聚類算法能有效保障相似日的代表性,大大提升負荷預測模型的可靠性[9].現(xiàn)有預測模型所應用的聚類算法,如模糊C均值算法、K-means算法等,大多存在聚類數(shù)目需人為指定、初始聚類中心選取隨機、聚類過程易受畸變數(shù)據(jù)影響等問題,算法聚類結果不穩(wěn)定、聚類質量較低,從而影響負荷預測結果的精準性.
為解決此問題,本文提出一種基于中心度的改進聚類算法(Cen-CK-means 算法),對神經(jīng)網(wǎng)絡算法的學習樣本進行優(yōu)化.首先,基于數(shù)據(jù)集中各對象的中心度,篩選聚攏效果最優(yōu)的對象作為初始聚類中心集的第一類中心;然后,采用Canopy 算法確定初始聚類中心集,并基于K-means 算法,得到不同類別相似日集合;最后,以不同類別相似日集合作為訓練樣本,構建PSO-GA-BP 神經(jīng)網(wǎng)絡算法拓撲結構,進行日最大負荷預測.算例結果表明,本文所采用聚類方法具備更好的綜合性能,能為神經(jīng)網(wǎng)絡算法提供質量更高的相似日學習樣本,從而獲取更準確的日最大負荷預測結果,滿足電網(wǎng)系統(tǒng)調度規(guī)劃需求,具有一定工程實用價值.
1.1.1 中心度概念
傳統(tǒng)Canopy 算法能在無需給定聚類數(shù)目的前提下,以較快速度實現(xiàn)對被聚類對象的分類劃分,常用作確定精準聚類算法(如:K-means 算法)的初代聚類中心[10].但由于算法初始聚類中心選取過程較為隨機,算法聚類質量不甚穩(wěn)定,一定程度影響后續(xù)精準聚類算法的精準度[11].
為改善Canopy 算法初始聚類中心選取過程,本文綜合考慮被聚類對象的密度分布與距離因素,引入中心度(Cen)的概念,對以各對象作為聚類中心的類別集合作聚攏度分析,并以此為依據(jù),研判被聚類集合中各對象作為聚類中心的優(yōu)先度.中心度數(shù)值越小,表明對象作為聚類中心的優(yōu)先度越高.
設定距離閾值參數(shù)(H),對具有n個聚類對象的被聚類對象集合D=(D1,D2,…,Dn)開展中心度分析:計算各被聚類對象Di,以自身為圓心,H為半徑的圓內,所覆蓋其他被聚類對象與圓心的標準化后的平均距離,如圖1所示.
圖1 中心度聚攏效果圖Fig.1 Centrality aggregation effect
具體計算過程如下:
首先,以被聚類集合所有對象之間的平均距離Ave(D)作為對象類別劃分的閾值參數(shù),如式(1)所示,若對象間的距離在閾值參數(shù)內,即視作同一類;
式中,d(Di,Dj)為被聚類對象Di與Dj之間的歐氏距離.
然后,對D=(D1,D2,…,Dn)中的每個被聚類對象Di進行密度Ai的計算,如式(2)所示.
式中,函數(shù)W(x)表達式如式(3)所示.
最后,根據(jù)式(4),計算每個被聚類對象Di的中心度Ceni,得被聚類集合D的中心度矩陣Cen=(Cen1,Cen2,…,Cenn).
其中,Si為各對象間距離標準化后的數(shù)值,如式(5)所示.
其中,min(Di)表示以Di為聚類中心的聚類類別中所有對象,與Di最近的距離;max(Di)表示以Di為聚類中心的聚類類別中所有對象,與Di最遠的距離.
1.1.2 基于中心度的Canopy算法
基于中心度的Canopy 算法(Cen-Canopy 算法),加入對各對象的中心度前置計算,作為第一個聚類中心的選取依據(jù).同時,算法在最后得到所有聚類結果后,對所含對象數(shù)量較少的類別作噪聲進行刪除處理,以避免個別異常數(shù)據(jù),對整體聚類質量產(chǎn)生影響.
算法具體運行流程如下:
(1)設定閾值T,T取被聚類集合D=(D1,D2,…,Dn)所有對象之間的平均距離Ave(D);
(2)對被聚類對象集合D=(D1,D2,…,Dn)開展中心度計算,得Cen=(Cen1,Cen2,…,Cenn),并按照從小至大進行排序;
(3)選取中心度最小的對象Di作為Canopy(Si),并將所有滿足d(Dj,Si)<T的對象Dj歸為此Canopy類別,并從集合D中刪除;返回步驟2),重新計算剩余對象的中心度,直至集合D中數(shù)據(jù)為空.
(4)對于算法所得所有的Canopy 類別,若類中類內對象個數(shù)小于,則將此類數(shù)據(jù)作噪聲處理,進行刪除.
1.1.3 算法實現(xiàn)過程
本文算法實現(xiàn)過程的具體流程如圖2 所示.對于具有n個對象m個特征維度的被聚類數(shù)據(jù)集D=(D1,D2,…,Dn)(其 中,Di=(Di,1,Di,2,…,Di,m)),首先,基于被聚類集各對象的中心度,選取第一個聚類中心;然后,以此為基礎,基于Canopy 算法確定聚類數(shù)目與初始聚類中心;最后,將初始聚類結果代入基于中位數(shù)的K-means 算法,進行聚類運算,得到最終聚類結果.具體步驟如圖2所示:
圖2 改進聚類算法流程圖Fig.2 Improved clustering algorithm flowchart
(1)預處理.對被聚類數(shù)據(jù)集D中各被聚類對象中各維度特征進行歸一化處理[12],如式(6)所示,得到歸一化數(shù) 據(jù)集Y=(Y1,Y2,…,Yn)(其中Yi=(yi1,yi2,…,yin)).
式中,max(Dj)、min(Dj)分別表示被聚類對象集合第j個特征的最大值與最小值.
(2)初始化.首先,根據(jù)式(1)~(4),計算各被聚類對象的中心度值,選取中心值最小的對象作第一個聚類中心C1;然后,采用Canopy算法,以平均距離Ave(Y)為閾值,確定其余聚類中心,得到初始聚類中心個數(shù)L及初始聚類中心集合的矩陣C=(C1,C2,…,CL)T.設定算法迭代次數(shù)I.
(3)相似度衡量.對被聚類對象關于每類聚類中心進行基于歐氏距離的相似度計算,根據(jù)相似度值(相似度值越小,表明越相似),將對象分至最相似的類別中.
(4)聚類中心更新.本文不同于傳統(tǒng)方法通過類別平均值進行聚類中心更新,是通過選取每一類別中的各被聚類對象各維度的中位數(shù)值作為新一代聚類中心:對于每一維度進行數(shù)值大小排列,取各維度中位數(shù),作為新聚類中心的更新值.當算法滿足以下任一條件時,跳出迭代程序,輸出最終聚類結果:1)聚類離散度運行至收斂,即|JI+1-JI|<e,如式(7)所示;2)聚類中心不再隨迭代次數(shù)增加而發(fā)生變化.否則,跳轉至步驟3),直至算法滿足跳出迭代條件或運行至最高迭代次數(shù)I.
式中CL(I)為算法進行第I 次迭代后的第L 類的聚類中心,Yn表示屬于L這一類的負荷曲線.
聚類質量較高的聚類結果,一般具有同類別集合具備較強相似性,而不同類別集合具有較強差異性的特點.本文參考文獻[13],引入DBI 指標,通過計算類內距離之和與類外距離的比值,對聚類算法的聚類效果作出評價,指標值越小,聚類效果越好,如式(8)-(9)所示.
式中,Ri用來衡量第i類與第j類的相似度.
式中,Si用以衡量第i類集合內對象的相似度,Mij用以衡量第i類集合與第j類集合中對象的的差異度.
定義I1,以歐氏距離為度量方式,評估聚類結果各類別集合數(shù)據(jù)的分布特性;定義I2,以動態(tài)時間彎曲距離為度量方式,評估聚類結果各類別集合數(shù)據(jù)的形狀特性.
BP 神經(jīng)網(wǎng)絡作為目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一,擁有非線性映射能力、自適應能力及泛化能力等優(yōu)點[14].但由于算法采用梯度下降法,算法優(yōu)化過程中較易出現(xiàn)局部極小化、收斂速度慢、過擬合及隱含節(jié)點數(shù)目難以確定等問題[15].
本節(jié)通過引入兼具全局收斂與收斂速度較快特點的PSO-GA 混合算法,形成PSO-GA-BP 神經(jīng)網(wǎng)絡算法,可以很大程度上提升算法收斂速度,避免陷入局部最優(yōu),提升算法的綜合性能.算法具體流程如圖3所示.
圖3 GA-BP神經(jīng)網(wǎng)絡算法流程圖Fig.3 Improved clustering algorithm flowchart
首先,構建此10個負荷影響指標近一個月內的日變化曲線集T=(T1,T2,…,Tn),其中Ti=(Ti,1,Ti,2,…,Ti,30)表示第i個指標的日變化曲線,Ti,j表示第i個指標在一個月內第j天的指標;
然后,對T中各指標的日變化曲線關于近一個月的日最大負荷變化曲線P=(p1,p2,…,pn)進行皮爾森相關系數(shù)分析,如式(10)所示,若|ρ(Ti,P)| <0.4,則第i個影響指標Ti與日最大負荷呈現(xiàn)弱相關關系,不納入最終負荷影響指標體系;
其中,Cov(X,Y)表示序列X與Y之間的協(xié)方差,如式(11)所示;σX表示序列X的標準差,如式(12)所示.
其中,E(X)表示序列X中所有元素的平均值.
最終,對于篩選出的k個指標T=(T1,T2,…,Tk),構建每日的負荷影響指標曲線集U=(U1,U2,…,U30),其中Ui=(Ui,1,Ui,2,…,Ui,n)表示第i天的負荷影響指標集,并根據(jù)式(6)對Ui中的第j個指標元素Ui,j進行歸一化處理.
結合Cen-CK-means 聚類算法與PSO-GA-BP 算法,搭建日最大負荷預測模型,如圖4 所示.預測模型分為兩大模塊:
圖4 日最大負荷預測模型圖Fig.4 Daily maximum load forecasting model diagram
(1)訓練模塊:對歷史數(shù)據(jù)庫中的負荷影響因素集進行關于日最大負荷數(shù)據(jù)的皮爾森相關系數(shù)分析,形成有效負荷影響因子集合.對所形成的集合采用Cen-CK-means 聚類算法,得到不同類別的相似日集合,并以此作為訓練樣本的輸入,將對應的日最大負荷數(shù)據(jù)庫作為訓練樣本的輸出,通過GABP神經(jīng)網(wǎng)絡算法形成不同類別相似日的預測模型.
(2)日最大負荷預測模塊:根據(jù)預測日負荷影響因子數(shù)據(jù),將預測日劃分至對應類別相似日集,輸入對應相似日類別的負荷預測模型,輸出待預測日的日最大負荷數(shù)據(jù).
2.2 香菇普通粉與香菇超微粉色差比較 經(jīng)色差儀測定,香菇普通粉的L*值為68.67,香菇超微粉的L*值為74.91,兩者之間存在顯著性差異(P<0.05),表明香菇粉粒度越小,粉體的亮度越高。在實際生產(chǎn)中,可以通過減小香菇粉粒度提高其色澤。
本文采用平均絕對誤差百分比(Mean Absolute Percentage Error,MAPE)與均方根誤差(Root Mean Square Error,RMSE)對日最大負荷預測結果的精準度進行評估[17].
其中n為預測序列中預測對象個數(shù),為第i個預測值,yi為第i個實際值.
為驗證本文所提方法預測效果,對處于北溫帶四季分明的某地區(qū)開展日最大負荷預測分析.地區(qū)負荷影響因子數(shù)據(jù)集采樣時間為2011 年1 月1 日-2012 年12 月31 日,其中,歷史負荷因子采樣間隔為30分鐘,溫度、濕度、降雨量等天氣因子采樣時間間隔為1天.
算例將2011年數(shù)據(jù)作為訓練樣本,2012年數(shù)據(jù)作為測試樣本,以聚類指標、預測指標作為評判依據(jù),將本文方法與方法1、方法2進行對比分析,以驗證本文所提方法的優(yōu)越性.三種方法所采用負荷預測方法一致,差別主要聚類算法:方法1采用傳統(tǒng)聚類方法K-means 算法;方法2 采用基于Canopy 的Kmeans 算法,基于Canopy 算法選取的初始聚類中心進行聚類運算;本文算法在Canopy 算法的基礎上基于中心度選取初始聚類中心.具體如下所示:
方法1:K-means-PSO-GA-BP方法.
方法2:CK-means-PSO-GA-BP方法.
本文方法:Cen-CK-means-PSO-GA-BP方法.
算例運行環(huán)境:單臺計算機,配置為i7-1165G7@2.80GHz,MX450 2G,操作系統(tǒng)為Windows 10,內存為16G.
參考文獻[16]所選取采用的負荷影響因子,構建預測地區(qū)10 個負荷影響指標近30 天內的日變化曲線集R=(R1,R2,…,R10).對曲線集中的每條曲線關于日最大負荷變化曲線P=(p1,p2,…,p30)進行皮爾森相關系數(shù)分析(皮爾森相關系數(shù)值介于-1 與1之間,絕對值越接近1,表示線性關系越強),如表1所示.本文認為若某負荷影響指標的相關系數(shù)絕對值大于0.4,則認為該負荷影響指標為強負荷影響因子,在負荷預測模型中予以采用.
表1 負荷影響因子的皮爾森相關系數(shù)表Tab.1 Daily maximum load forecasting model diagram
通過篩選,得到最終的地區(qū)負荷影響指標體系T=(T1,T2,…,T8),分別為最高溫度,最低溫度,平均溫度,相對濕度,前一天最大負荷,前兩天最大負荷,前三天最大負荷,去年同日最大負荷.
根據(jù)負荷影響因子指標體系T,構建被聚類數(shù)據(jù)集,分別運用本文方法、方法1 與方法2 中的聚類算法對數(shù)據(jù)集進行5 次聚類分析,取其中聚類質量最優(yōu)的一組聚類結果作為最終聚類結果進行展示.
各方法5 次運算的初始聚類中心質量如圖5 和圖6 所示.由于方法1 為傳統(tǒng)方法,初始聚類中心選取完全隨機,故初始聚類中心的選取質量變動較大;方法2基于Canopy算法進行初始聚類中心選取,由于對第一個聚類中心的選取仍存在隨機篩選,故初始聚類中心質量仍不完全穩(wěn)定;本文算法相比方法1和方法2,基于中心度嚴格對初始聚類中心集進行篩選,選取結果穩(wěn)定,且綜合質量最優(yōu).
圖5 不同方法的初始聚類結果的I1指標Fig.5 I1 indicator of initial clustering results of different methods
圖6 不同方法的初始聚類結果的I2指標Fig.6 I2 indicator of initial clustering results of different methods
根據(jù)圖5-6 的初始聚類中心集,本文方法、方法1 和方法2 的最終聚類結果如圖7~9 所示的聚類結果.不難發(fā)現(xiàn),三種聚類方法所得聚類中心曲線相似度較高.
圖7 本文方法聚類結果Fig.7 The clustering results of the proposed method
圖8 方法1聚類結果Fig.8 The clustering results of method 1
圖9 方法2聚類結果Fig.9 The clustering results of method 2
第一類曲線的負荷影響因素曲線集主要反映的是6-9 月的夏季典型負荷日的負荷影響集:地區(qū)溫度較高、濕度相對較低,且負荷維持在較高水平;第二類曲線的負荷影響因素曲線集主要反映的是2-4 月的春季典型負荷日的負荷影響集:地區(qū)溫度較低、濕度相對較高,但負荷維持在較低水平;第三類曲線的負荷影響因素曲線集主要反映的是11-1月的冬季典型負荷日的負荷影響集:地區(qū)溫度較低、濕度相對較高,但負荷維持在較高水平;第四類曲線的負荷影響因素曲線集主要反映的是5月與10月的初夏及初秋典型負荷日的負荷影響集:地區(qū)溫度較高、濕度相對較高,但負荷維持在較高水平.
各方法聚類指標和運算過程的聚類離散度變化情況分別如表2 和圖10 所示.本文方法雖運算時間略長于其他兩種方法,但算法迭代次數(shù)最少,綜合聚類質量更優(yōu).這主要由于本文算法在進行聚類運算之前,采用基于中心度的Canopy 算法選取初始聚類中心,故耗時相對更長,但也因此獲取了更高質量的初始聚類中心(本文方法的初始聚類中心聚類質量和聚類離散度均優(yōu)于另外兩種方法),加速了后期K-means 算法的聚類速度,使算法經(jīng)過更少迭代即能獲取聚類質量更高的聚類結果.
表2 各類方法聚類指標表Tab.2 Cluster indicator table for various methods
圖10 各類方法聚類離散度變化情況Fig.10 Changes in clustering dispersion of various methods
為驗證本文方法所得聚類結果對于最大負荷預測精準度提升的效果,本文將三種聚類算法所得聚類結果作為學習樣本,對應日最大負荷作為輸出,采用PSO-GA-BP 算法搭建日最大負荷預測模型.對從2013 年隨機選取的各季節(jié)共84 天的最大負荷進行預測分析,預測結果如圖11~13所示.
圖11 本文方法預測結果Fig.11 The predicting result of the proposed method
圖12 方法1預測結果Fig.12 The predicting result of method 1
圖13 方法2預測結果Fig.13 The predicting result of method 2
由圖11~13 及表3 可知,本文所提聚類方法精準度更高,負荷影響因子集合劃分更準確,能夠為深度學習提供更優(yōu)質的學習樣本,從而得到更高質量的預測模型,故在相同深度學習算法下,本文方法所得最大負荷的預測結果的兩項預測指標(MAPE=5.71%,RMSE=4.94 MW),均優(yōu)于方法1 與方法2.
表3 各類方法預測指標表Tab.3 Table of prediction indicators for various methods
綜上所述,本文所提方法較其他方法,在聚類質量、預測精準度等方面具有更優(yōu)的綜合性能,具備實際工程應用價值.
為優(yōu)化負荷預測模型相似日訓練樣本質量,提升預測精度,本文提出一種基于中心的的改進聚類方法,對歷史日根據(jù)有效負荷影響因子特征進行相似日集合劃分,并基于PSO-GA-BP 神經(jīng)網(wǎng)絡算法搭建日最大負荷預測模型.算例表明:
(1)基于中心度的Canopy 算法選取初始聚類中心的方法采用合理.其能夠準確評估被聚類對象集中各對象的聚攏度,準確選取最具代表性的數(shù)據(jù)集作為初始聚類中心集.
(2)本文所提聚類算法具備更優(yōu)的綜合性能,能根據(jù)負荷影響因子對歷史日進行精準劃分,形成不同類別相似日集合,為神經(jīng)網(wǎng)絡算法提供更準確的學習樣本,提升日最大負荷預測結果的精準性.
未來將納入更多負荷影響因子,建立更健全的歷史負荷影響因子數(shù)據(jù)庫,進一步提升日最大負荷預測結果的準確性與合理性,以對電網(wǎng)的規(guī)劃與調度形成更有效的支撐.