黃星知,劉 星,張文娟, 張永飛
(1.國網(wǎng)湖南省電力有限公司信息通信分公司,湖南 長沙 410007; 2.北京國電通網(wǎng)絡(luò)技術(shù)有限公司,北京 100000)
目前,在我國電力市場環(huán)境下,電力交易的增加和經(jīng)營主體的不同,使得交易環(huán)境出現(xiàn)了多種不確定因素。與此同時(shí),電網(wǎng)負(fù)荷對電價(jià)的影響程度也隨著市場的變化而不斷增加,這都給電網(wǎng)超短期負(fù)荷預(yù)測帶來了困難。電網(wǎng)負(fù)荷數(shù)據(jù)中含有4個(gè)分量:極端天氣下的敏感負(fù)荷、節(jié)假日/工作日負(fù)荷、周期性變化負(fù)荷和隨機(jī)變化負(fù)荷。
針對電網(wǎng)數(shù)據(jù)過于繁雜的特點(diǎn),張宇帆等[1]提出一種深度長短時(shí)記憶網(wǎng)絡(luò)預(yù)測方法。該方法前期對數(shù)據(jù)進(jìn)行預(yù)處理,提升輸入信息精度,再通過深度長短時(shí)記憶網(wǎng)絡(luò)確定訓(xùn)練參數(shù)值,利用隨機(jī)搜索尋優(yōu),并且使用最優(yōu)參數(shù)建立泛化能力最優(yōu)的預(yù)測模型。結(jié)果表明該方法對離線狀態(tài)下的負(fù)荷數(shù)據(jù)可以實(shí)現(xiàn)很好的預(yù)測,但是對于負(fù)荷的不確定性以及影響因素并未作出考慮,在線預(yù)測精度較低。李濱與陸明珍利用時(shí)域卷積網(wǎng)絡(luò)對電網(wǎng)短期負(fù)荷預(yù)測[2]。預(yù)測前期,綜合考慮各種影響因素,提出日負(fù)荷數(shù)與當(dāng)日天氣因素的相似日選取方法,將各類因素的影響指數(shù)作為輸入內(nèi)容輸入到預(yù)測模型中,最后,根據(jù)時(shí)域卷積網(wǎng)絡(luò)訓(xùn)練當(dāng)前日負(fù)荷數(shù),完成建模預(yù)測。該方法將氣象屬性影響因素考慮在內(nèi),但是并沒有對負(fù)荷的周期性變化和非線性問題作出預(yù)處理,使得結(jié)果與實(shí)際相比有誤差。
在實(shí)際情況中,影響電網(wǎng)負(fù)荷預(yù)測的因素有很多,例如負(fù)荷數(shù)據(jù)數(shù)量巨大、種類復(fù)雜且含有的噪聲過多,在對這些雜亂數(shù)據(jù)進(jìn)行處理時(shí),往往需要用到數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘算法是在已知數(shù)據(jù)集合內(nèi),挖掘需要信息的過程,決策樹是挖掘算法中比較常用的一種,可以實(shí)現(xiàn)對電網(wǎng)負(fù)荷數(shù)據(jù)有針對性的挖掘,避免陷入隨機(jī)性中。因此,本文在決策樹的基礎(chǔ)上,提出了電網(wǎng)超短期負(fù)荷預(yù)測方法,并將所提方法應(yīng)用到實(shí)際中,通過現(xiàn)場應(yīng)用對提出方法進(jìn)行性能測試。
決策樹算法是數(shù)據(jù)挖掘算法中最為常用的一種,根據(jù)樣本的特性進(jìn)行劃分,并根據(jù)取值范圍作為分支部分,結(jié)合信息論原理實(shí)現(xiàn)對繁雜的樣本屬性的分類和歸納。對所有樣本進(jìn)行屬性篩選,找出包含信息量最大的作為決策樹[3]的根節(jié)點(diǎn),再以根節(jié)點(diǎn)為基礎(chǔ)、選取子樹中包含信息量最大的樣本屬性作為樹的中間節(jié)點(diǎn)劃分。決策樹的葉子表示樣本之間的類別差異,通過樣本數(shù)據(jù)之間的關(guān)系分析,即歷史情況的參考,對數(shù)據(jù)進(jìn)行評估,根據(jù)前一天的數(shù)據(jù)進(jìn)行后天的預(yù)測。決策樹算法原理如圖1所示。
圖1 決策樹算法原理Fig.1 Decision tree algorithm
作為決策樹的主要構(gòu)成部分,ID3算法具有清晰的理論基礎(chǔ)、簡單的算法步驟以及超強(qiáng)的學(xué)習(xí)能力,在處理類似電網(wǎng)負(fù)荷這種大規(guī)模數(shù)據(jù)時(shí)非常有效。將ID3算法與信息增益度量算法結(jié)合起來使用,對樣本屬性信息進(jìn)行全方位測試,將測試出來的結(jié)果作為預(yù)測的依據(jù)。
選取n個(gè)電網(wǎng)歷史負(fù)荷樣本數(shù)據(jù),并將所有樣本集中在集合S內(nèi),對其進(jìn)行分類,得到c個(gè)子類別Ci(i=1,2,…,c),每個(gè)Ci中有ni個(gè)樣本。那么S中包含c個(gè)子類別的信息熵或者期望[4]信息,將Sv定義為S中屬性A的值為v的樣本子集,將Gain(S,A)定義為A與S的信息增益,Gain(S,A)的值越大,說明屬性A在分類時(shí)得到的信息就越多;反之,得到的信息就越少。ID3算法的主要目的就是對每個(gè)節(jié)點(diǎn)信息進(jìn)行增益(S,A),然后選取屬性值最大的節(jié)點(diǎn)作為測試屬性。
決策樹是通過計(jì)算樣本屬性的不同取值范圍,實(shí)現(xiàn)對樣本數(shù)據(jù)的分類。如果將電網(wǎng)負(fù)荷的相關(guān)屬性作為決策樹運(yùn)算中的條件屬性,將負(fù)荷看作目標(biāo)屬性[5],那么就可以將電網(wǎng)負(fù)荷數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集和測試數(shù)據(jù)集。利用建立好的決策樹對電網(wǎng)超短期負(fù)荷進(jìn)行預(yù)測。
基礎(chǔ)信息數(shù)據(jù)的獲取為每15 min選取1個(gè)數(shù)據(jù)點(diǎn),以1 d為例,可選取的數(shù)據(jù)點(diǎn)為96個(gè)。通過決策樹對電網(wǎng)日負(fù)荷[6]進(jìn)行預(yù)測就是通過決策樹對96個(gè)數(shù)據(jù)點(diǎn)的負(fù)荷值進(jìn)行采樣。在采集數(shù)據(jù)后,結(jié)合電網(wǎng)數(shù)據(jù)特性[7],選取待測日、待測日前兩天、一星期前同一天的氣象屬性信息以及每一天的實(shí)際負(fù)荷值。
選取第N+1天的氣象屬性代入到?jīng)Q策樹算法中,此為主要節(jié)點(diǎn),即是框架,以歷史數(shù)據(jù)作為參考依據(jù),為了準(zhǔn)確預(yù)測,選取第N-1天的實(shí)際負(fù)荷數(shù)據(jù)(由于當(dāng)天的負(fù)荷數(shù)據(jù)無法采集,所以需要選取前一天的數(shù)據(jù))進(jìn)行輸入,最終得到預(yù)測結(jié)果。
對于溫差較大的待測日選擇以下修正模型:
r=a(F1-Fu)
(1)
式中,F(xiàn)1為與待測日溫差相對較小的日期的日負(fù)荷數(shù)值;Fu為恒定溫度下負(fù)荷預(yù)測結(jié)果;a為一個(gè)置信系數(shù),滿足a=[yη-yη-1/(yr-yr-1)],其中,yη-yη-1/(yr-yr-1)為待測日與某天溫度變化量之比,yη為待測日當(dāng)天溫度數(shù)值,yr為某天溫度數(shù)值。
當(dāng)遇見溫度較高的天氣時(shí),建立溫度和溫度變化、負(fù)荷和負(fù)荷變化之間的線性回歸模型[8],公式:
r=?y/?x,y=f(W,X)
(2)
式中,y為待測日負(fù)荷或負(fù)荷變化區(qū)間;W為預(yù)測模型中的參數(shù)向量;X為溫度變化區(qū)間;?為變化因子。
當(dāng)高溫天氣持續(xù)一段時(shí)間后,需要采取相應(yīng)措施進(jìn)行特殊處理:
r=y0[f(η)-1]=y0[(1+q)x-1]
(3)
式中,q為百分量;y0為待測日的預(yù)測結(jié)果。
論文主要考慮了工作日負(fù)荷數(shù)[9],將已經(jīng)完成處理的負(fù)荷數(shù)進(jìn)行離散化處理,獲得基本數(shù)據(jù)集,采用決策樹算法,對歷史數(shù)據(jù)情況和影響因素進(jìn)行數(shù)據(jù)的交叉驗(yàn)證。
建立屬性決策表Q=[U,V∈U],將氣象屬性看作決策樹中的條件屬性集V,細(xì)分為溫度m、氣壓p、濕度h、風(fēng)速w和日照l;將負(fù)荷數(shù)值看作決策樹中的決策集D。對氣象屬性進(jìn)行數(shù)字量化[10],將溫度的取值設(shè)置在[-12.8,37.4],再將其細(xì)分為6個(gè)更小的區(qū)間,并進(jìn)行標(biāo)記:[-12.8,-4.5]標(biāo)記為0,[-4.4,3.9]標(biāo)記為1,以此類推,[28.9,37.4]標(biāo)記為5;風(fēng)速、濕度的標(biāo)記方法等同于溫度;根據(jù)日照強(qiáng)度的不同,將其細(xì)分為雨天、陰天和晴天,分別用數(shù)字表示為2、1、0;氣壓的標(biāo)記方法等同于日照;根據(jù)歷史使用情況,可以將日負(fù)荷數(shù)值的變化情況分為無、低、高3種,分別用數(shù)字表示為0、1、2。氣象屬性與數(shù)字間的量化情況及屬性劃分見表1。
表1 氣象屬性劃分Tab.1 Division of meteorological attributes
那么,對于風(fēng)速屬性w來說,有γC(D)-γC-|w|(D)=0,從等式中不難看出,風(fēng)速對負(fù)荷結(jié)果的預(yù)測不會產(chǎn)生任何影響。因此,對其忽略不計(jì)。按照此方法,可以忽略空氣濕度以及氣壓的影響,那么得到的最終屬性約簡集為{m,l},氣象屬性中只有溫度和日照會對預(yù)測結(jié)果產(chǎn)生影響,在預(yù)測模型中輸出預(yù)測結(jié)果,對預(yù)測結(jié)果進(jìn)行分析。
基于決策樹的電網(wǎng)超短期負(fù)荷預(yù)測,實(shí)現(xiàn)流程如圖2所示。
圖2 基于決策樹的電網(wǎng)超短期負(fù)荷預(yù)測流程Fig.2 Flow chart of power grid ultra short term load forecasting based on decision tree
基于決策樹的電網(wǎng)超短期負(fù)荷預(yù)測方法的實(shí)現(xiàn)可以總結(jié)為:①電網(wǎng)歷史負(fù)荷數(shù)據(jù)庫的建立,在建立的過程中對歷史數(shù)據(jù)進(jìn)行缺失、錯(cuò)誤等處理,并進(jìn)行新數(shù)據(jù)的采集;②利用決策樹參考?xì)v史情況和影響因素進(jìn)行數(shù)據(jù)的交叉驗(yàn)證;③輸出驗(yàn)證后的結(jié)果;④校驗(yàn)初步輸出結(jié)果,即驗(yàn)證預(yù)測的準(zhǔn)確性,并進(jìn)行修正;⑤輸出最終預(yù)測結(jié)果,實(shí)現(xiàn)電網(wǎng)超短期負(fù)荷預(yù)測。
為將2節(jié)提出的控制負(fù)荷預(yù)測方法的可行性分析更好地與電力電網(wǎng)超短期負(fù)荷結(jié)合,需要針對電網(wǎng)超短期負(fù)荷預(yù)測的設(shè)計(jì)相應(yīng)的分析流程。具體在實(shí)現(xiàn)過程中,有2個(gè)重要的因素會使結(jié)果出現(xiàn)誤差:①由于未知點(diǎn)的存在,在進(jìn)行比例尺選取時(shí)如果選取不當(dāng),就會對結(jié)果造成影響。②同樣因?yàn)槲粗c(diǎn)的存在,在對負(fù)荷進(jìn)行排序時(shí)由可能會出現(xiàn)錯(cuò)誤。
(1)造成第1類誤差出現(xiàn)的原因,在于未知點(diǎn)無法像正常計(jì)算時(shí)那樣直接計(jì)算比例尺,那么可以利用時(shí)間序列法以及參考相似日的數(shù)據(jù)來解決這一問題。利用本文采用的方法可以找出多個(gè)被選相似日,根據(jù)這些相似日的數(shù)據(jù)可以確定未知點(diǎn)所在的一個(gè)大致區(qū)間UN,注意到在區(qū)間UN中未知點(diǎn)(xN,yN)的x是可以確定的,只有y是不確定的。如此對于每個(gè)已知點(diǎn)xi就可以比較容易地計(jì)算出:
(4)
(5)
注意由于θ函數(shù)取值的區(qū)間性以及時(shí)間序列維數(shù)計(jì)算本身的不確定性,按照這種方法計(jì)算出來的最終負(fù)荷區(qū)間,雖然比不確定的區(qū)間范圍要小,但仍然是不確定的,所以還是只能作為最終結(jié)果的一個(gè)估值區(qū)間來輔助下面的計(jì)算。不過至少根據(jù)已經(jīng)得到的區(qū)間,可以確定比例尺d的選值范圍。
目前,已將本文提出方法應(yīng)用到湖南省長沙市開福區(qū)配電網(wǎng)中,該區(qū)域擁有10 kV線路280回,共計(jì)135 km。但由于能力有限,應(yīng)用于本文方法進(jìn)行日負(fù)荷測試的區(qū)域?yàn)樾惴褰值栏浇潆娋W(wǎng),秀峰街道電網(wǎng)現(xiàn)場如圖3所示。
通過對開福區(qū)秀峰街道配電網(wǎng)的現(xiàn)場應(yīng)用情況以及上述對本文提出的基于改進(jìn)決策樹的電網(wǎng)超短期負(fù)荷預(yù)測新方法可行性的分析,驗(yàn)證本文方法在實(shí)際應(yīng)用中具有預(yù)測精度高的特點(diǎn),能夠有效地應(yīng)用在實(shí)際的電網(wǎng)超短期負(fù)荷預(yù)測中,具有較好的實(shí)用性能。
圖3 秀峰街道配電網(wǎng)現(xiàn)場Fig.3 Site diagram of Xiufeng Street distribution network
在利用決策樹對秀峰街道進(jìn)行電網(wǎng)負(fù)荷預(yù)測之前,需要對該地區(qū)的負(fù)荷數(shù)據(jù)做準(zhǔn)備工作,主要包含負(fù)荷數(shù)據(jù)的選取、預(yù)處理以及變換。數(shù)據(jù)選取為決策樹算法提供數(shù)據(jù)來源,從開福區(qū)電網(wǎng)數(shù)據(jù)庫內(nèi)選取一組可以作為代表性的數(shù)據(jù),在負(fù)荷預(yù)測中,選取的數(shù)據(jù)通常為負(fù)荷數(shù)據(jù)和氣象數(shù)據(jù)。在挖掘電網(wǎng)負(fù)荷歷史數(shù)據(jù)時(shí),常常存在記錄不全、統(tǒng)計(jì)方式不一致和偏差較大等現(xiàn)象。為了使預(yù)測結(jié)果更加精準(zhǔn),對于這些數(shù)據(jù)需要進(jìn)行特殊處理并建立數(shù)據(jù)庫。數(shù)據(jù)處理包含去重操作、填補(bǔ)缺失數(shù)據(jù)、去除噪聲以及數(shù)據(jù)類型的轉(zhuǎn)換等。數(shù)據(jù)變換的主要內(nèi)容是對負(fù)荷數(shù)據(jù)進(jìn)行降維操作,在選取的數(shù)據(jù)中,找到符合預(yù)測的有用特征數(shù)據(jù),防止在挖掘過程中出現(xiàn)特征量過大的情況。通過過濾算法和規(guī)定的數(shù)值取值[11]范圍,將錯(cuò)誤數(shù)據(jù)篩選出來。例如,氣溫類數(shù)據(jù)的取值范圍在0~48 ℃;歷史數(shù)據(jù)庫中存在一部分?jǐn)?shù)據(jù)殘缺不全、重要數(shù)據(jù)缺失的情況。同時(shí),過濾算法篩選數(shù)據(jù)時(shí),也可能會造成某些數(shù)據(jù)的丟失。當(dāng)缺失數(shù)據(jù)與前后時(shí)間相差較近時(shí),可利用線性插值算法進(jìn)行人工填補(bǔ),例如,已知t和t+1兩個(gè)時(shí)刻下的符合數(shù)據(jù),可求得t+j時(shí)刻的數(shù)據(jù)Tt+j為:
(6)
式中,i為數(shù)據(jù)類別。
當(dāng)缺少數(shù)據(jù)的前后間隔時(shí)間較長時(shí),則可以通過觀察相鄰幾天的數(shù)據(jù)進(jìn)行填補(bǔ)。假設(shè),當(dāng)前電網(wǎng)負(fù)荷數(shù)據(jù)的采集頻率[12]為1條/min,氣象數(shù)據(jù)的采集頻率為1條/6 h,由于二者之間的采集頻率不同,需要對其進(jìn)行相同頻率下的轉(zhuǎn)換。本文通過線性插值算法補(bǔ)齊氣象數(shù)據(jù),使二者的采集頻率統(tǒng)一為1條/15 min。
為了驗(yàn)證本文方法的可行性,選取湖南省長沙市開福區(qū)進(jìn)行測試。實(shí)驗(yàn)中用到的數(shù)據(jù)來自某電網(wǎng)企業(yè)開福區(qū)2019年8月10—19日的氣象屬性以及負(fù)荷數(shù)據(jù),對該數(shù)據(jù)庫中電網(wǎng)歷史數(shù)據(jù)的缺失、錯(cuò)誤等問題進(jìn)行處理,并將工作日與節(jié)假日兩個(gè)時(shí)間劃分開來,選擇SQL Server 2015軟件建立電網(wǎng)負(fù)荷數(shù)據(jù)庫,建立預(yù)測模型進(jìn)行日負(fù)荷的預(yù)測[13]。開福區(qū)2019年8月10—19日實(shí)驗(yàn)數(shù)據(jù)的氣象屬性見表2。當(dāng)?shù)厝肇?fù)荷數(shù)據(jù)和預(yù)測數(shù)據(jù)見表3。
表2 氣象屬性數(shù)據(jù)Tab.2 Meteorological attribute data
表3 實(shí)際日負(fù)荷數(shù)據(jù)與預(yù)測日負(fù)荷數(shù)據(jù)Tab.3 Actual daily load data and predicted daily load data
為了使測試效果更加直觀,依照表3數(shù)據(jù)繪制2019年8月10—19日的工作日與休息日的日負(fù)荷預(yù)測結(jié)果圖,如圖4所示。對開福區(qū)2019年8月10—19日的電網(wǎng)日負(fù)荷進(jìn)行預(yù)測,可以看出無論休息日的電網(wǎng)日負(fù)荷預(yù)測結(jié)果還是工作日的電網(wǎng)日負(fù)荷預(yù)測結(jié)果,都與實(shí)際電網(wǎng)日負(fù)荷結(jié)果十分相近,僅具有細(xì)微差別,說明該方法在電網(wǎng)負(fù)荷預(yù)測工作中能夠?qū)崿F(xiàn)有效的預(yù)測。
圖4 2019年8月10—19日的日負(fù)荷預(yù)測結(jié)果Fig.4 Daily load forecast results from August 10 to 19,2019
隨機(jī)選取2019年8月10—19日中某一工作日與休息日進(jìn)行24 h預(yù)測日負(fù)荷數(shù)據(jù)與實(shí)際負(fù)荷數(shù)據(jù)進(jìn)行對比,如圖5所示。通過圖5的日負(fù)荷數(shù)據(jù)對比能夠看出,無論是休息日還是工作日,用電負(fù)荷較大的時(shí)間段均為18:00—21:00,通過使用本文方法對日負(fù)荷進(jìn)行預(yù)測,預(yù)測結(jié)果與實(shí)際負(fù)荷數(shù)據(jù)幾乎一致,最大誤差不超過100 W??梢宰C明本文方法具有較好的實(shí)用性與可行性,能夠滿足對電網(wǎng)超短期負(fù)荷預(yù)測的需求。
按照預(yù)測流程,使用本文方法對開福區(qū)的電網(wǎng)日負(fù)荷預(yù)測結(jié)果如圖6所示。從圖6中的數(shù)據(jù)可知,應(yīng)用本文方法進(jìn)行預(yù)測,8月10—19日中,對實(shí)驗(yàn)區(qū)域8月12日電網(wǎng)日負(fù)荷預(yù)測的準(zhǔn)確率達(dá)到了98%,其他時(shí)間負(fù)荷預(yù)測準(zhǔn)確率也在90%以上,并且一直處于一個(gè)平穩(wěn)的狀態(tài),說明本文方法對電網(wǎng)日負(fù)荷的預(yù)測不僅準(zhǔn)確率高,同時(shí)還具有較強(qiáng)的穩(wěn)定性。
圖5 日負(fù)荷數(shù)據(jù)對比Fig.5 Comparison of daily load data
圖6 超短期—日負(fù)荷預(yù)測結(jié)果分析Fig.6 Analysis of ultra-short-daily load prediction results
為避免上述日預(yù)測誤差內(nèi)可能存在的相互抵消情況,影響數(shù)據(jù)預(yù)測結(jié)果[14-15],根據(jù)負(fù)荷預(yù)測平均絕對誤差(MAPE)結(jié)果進(jìn)行分析,圖7為分析結(jié)果。MAPE的定義公式如下:
(5)
式中,R(i)和K(i)分別為1 h內(nèi)電網(wǎng)負(fù)荷數(shù)據(jù)的實(shí)際結(jié)果與預(yù)測結(jié)果;B為1 h負(fù)荷數(shù)據(jù)采樣次數(shù)。
圖7 平均絕對誤差結(jié)果分析Fig.7 Analysis of average absolute error of prediction results
由圖7可以看出,本文預(yù)測的平均絕對誤差隨時(shí)間的增加,呈現(xiàn)出一定程度的增長,但是平均絕對誤差值一直在2.0以內(nèi),說明本文方法在剪枝的過程中,隨著決策樹的不斷生長,得到越來越多的分枝,同時(shí)使得訓(xùn)練誤差在逐漸變小,找到最小代價(jià)復(fù)雜度的最優(yōu)決策樹[16-17],能夠有效降低預(yù)測誤差值,證明本文方法在超短期負(fù)荷預(yù)測上有著精度高的優(yōu)點(diǎn)。
電網(wǎng)負(fù)荷的預(yù)測是一項(xiàng)非常復(fù)雜且難度非常高的工作,以往其他方法在進(jìn)行預(yù)測時(shí)常常存在誤差較大、精度較低等缺點(diǎn)。因此,本文在決策樹算法的基礎(chǔ)上,針對超短期電網(wǎng)負(fù)荷提出了一種新的預(yù)測方法。首先,對選取的負(fù)荷數(shù)據(jù)進(jìn)行處理和變換操作,避免在后續(xù)的計(jì)算過程中出現(xiàn)錯(cuò)誤數(shù)據(jù)和缺失數(shù)據(jù)的情況;然后再結(jié)合氣象屬性以及其他影響負(fù)荷變化的因素,實(shí)現(xiàn)對未來負(fù)荷數(shù)值變化的預(yù)測。最后引入專家系統(tǒng),對首次預(yù)測結(jié)果進(jìn)行修正,確保具有較高的精準(zhǔn)度。在實(shí)際應(yīng)用中采集了某電網(wǎng)企業(yè)的歷史負(fù)荷數(shù)據(jù),對開福區(qū)秀峰街道的電網(wǎng)超短期日負(fù)荷與時(shí)負(fù)荷的預(yù)測結(jié)果分析,證明了本文方法具有較高的預(yù)測精度。