国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度森林算法的電力系統(tǒng)短期負(fù)荷預(yù)測(cè)

2018-11-09 04:57陳呂鵬殷林飛余濤王克英
電力建設(shè) 2018年11期
關(guān)鍵詞:級(jí)聯(lián)決策樹森林

陳呂鵬, 殷林飛, 余濤, 王克英

(1.華南理工大學(xué)電力學(xué)院,廣州市 510640;2.廣東省綠色能源技術(shù)重點(diǎn)實(shí)驗(yàn)室,廣州市 510640;3.廣西大學(xué)電氣工程學(xué)院,南寧市 530004)

0 引 言

作為電力調(diào)度部門重要的日常工作之一,負(fù)荷預(yù)測(cè)可以指導(dǎo)電力生產(chǎn)部門經(jīng)濟(jì)地制定發(fā)電計(jì)劃和確定電力系統(tǒng)運(yùn)行方式。精準(zhǔn)的負(fù)荷預(yù)測(cè)有利于提高電力系統(tǒng)的安全穩(wěn)定性,降低發(fā)電成本,提高電力企業(yè)的整體效益[1]。長久以來,國內(nèi)外學(xué)者對(duì)負(fù)荷預(yù)測(cè)的理論和方法進(jìn)行了大量研究。其中,傳統(tǒng)的時(shí)間序列法作為經(jīng)典負(fù)荷預(yù)測(cè)方法的代表,具有預(yù)測(cè)模型簡(jiǎn)單,預(yù)測(cè)所需數(shù)據(jù)量不大的優(yōu)點(diǎn)[2]。但由于該方法強(qiáng)調(diào)時(shí)間因素在預(yù)測(cè)當(dāng)中所起的作用,而淡化其他外界因素影響,導(dǎo)致預(yù)測(cè)誤差較大[1]。

20世紀(jì)80年代以來,隨著計(jì)算機(jī)與人工智能技術(shù)發(fā)展,許多以機(jī)器學(xué)習(xí)為基礎(chǔ)的智能預(yù)測(cè)算法相繼問世。同時(shí),為了提高電力系統(tǒng)負(fù)荷預(yù)測(cè)的精準(zhǔn)度,電力系統(tǒng)專家和學(xué)者開始嘗試將智能預(yù)測(cè)算法運(yùn)用到電力系統(tǒng)負(fù)荷預(yù)測(cè)之中[3-5],并逐步提出現(xiàn)代負(fù)荷預(yù)測(cè)的理論?,F(xiàn)代負(fù)荷預(yù)測(cè)理論主要有:灰色數(shù)學(xué)理論、專家系統(tǒng)方法、模糊負(fù)荷預(yù)測(cè)以及人工神經(jīng)網(wǎng)絡(luò)等[1]。其中,人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)及其優(yōu)化算法被廣泛運(yùn)用于各種預(yù)測(cè)之中。ANN具有自學(xué)習(xí)以及聯(lián)想記憶的能力,能夠充分逼近復(fù)雜的非線性關(guān)系,具有魯棒性和容錯(cuò)性[6]。因此,對(duì)于電力系統(tǒng)負(fù)荷預(yù)測(cè)這類非線性問題,ANN能有效地進(jìn)行求解[6-9]。但ANN存在訓(xùn)練速度慢,須人為設(shè)置和調(diào)整大量超參數(shù)的不足。同時(shí),ANN易陷入局部最優(yōu)解甚至無法收斂到最優(yōu)解,導(dǎo)致預(yù)測(cè)失準(zhǔn)[7]。隨著深度學(xué)習(xí)(deep learning)的概念被機(jī)器學(xué)習(xí)專家和學(xué)者提出[10-11],深度神經(jīng)網(wǎng)絡(luò)(deep neural network, DNN)及其優(yōu)化算法開始逐步成為目前深度學(xué)習(xí)的代表[12]。DNN具有深度學(xué)習(xí)理論中表征學(xué)習(xí)的能力[13],可以利用更少的超參數(shù)處理復(fù)雜模型[14]。同時(shí),DNN采用了預(yù)訓(xùn)練的方法緩解了算法易陷入局部最優(yōu)的問題[15]。因此,DNN同樣具備負(fù)荷預(yù)測(cè)的能力,也被應(yīng)用到了負(fù)荷預(yù)測(cè)領(lǐng)域[14]。但是,DNN依然存在訓(xùn)練速度慢[16],訓(xùn)練效果取決于人為對(duì)超參數(shù)的設(shè)置和調(diào)整的不足[7]。

國內(nèi)南京大學(xué)機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘研究所(learning and mining from data, LAMDA)的周志華教授提出了深度森林算法(deep forest),也稱作多粒度級(jí)聯(lián)森林算法(multi-grained cascade forest, gcForest)。作為一種基于決策樹的集成分類算法,深度森林算法的試驗(yàn)預(yù)測(cè)能力可與深度神經(jīng)網(wǎng)絡(luò)算法相媲美[17]。同時(shí),深度森林算法只需設(shè)置少量超參數(shù),且在訓(xùn)練過程中不需要人為調(diào)整大量超參數(shù)[17]。試驗(yàn)表明,深度森林算法默認(rèn)的超參數(shù)設(shè)置適用于處理不同領(lǐng)域的不同任務(wù)。即使不對(duì)超參數(shù)進(jìn)行調(diào)整,也能取得有效的預(yù)測(cè)效果[17]。另外,作為一種基于決策樹的方法,深度森林算法從結(jié)構(gòu)上適合于并行訓(xùn)練,具有表征學(xué)習(xí)的能力,且在理論分析方面也比深度神經(jīng)網(wǎng)絡(luò)容易[17]。本文將深度森林分類算法嘗試性地引入電力系統(tǒng)短期負(fù)荷預(yù)測(cè)領(lǐng)域,驗(yàn)證深度森林分類算法的預(yù)測(cè)能力,并探究其在電力系統(tǒng)短期負(fù)荷預(yù)測(cè)的可行性。

1 短期負(fù)荷預(yù)測(cè)

短期負(fù)荷預(yù)測(cè)是電力系統(tǒng)負(fù)荷預(yù)測(cè)的重要組成部分,主要對(duì)未來某日內(nèi)每個(gè)時(shí)刻的負(fù)荷量進(jìn)行合理的預(yù)測(cè)[1]。精準(zhǔn)的短期負(fù)荷預(yù)測(cè)對(duì)于電力調(diào)度部門的經(jīng)濟(jì)調(diào)度、控制機(jī)組調(diào)配以及當(dāng)前正在發(fā)展的電力市場(chǎng)都具有極其重要的意義[18]。

影響短期負(fù)荷預(yù)測(cè)精確度的因素主要有天氣突變、季節(jié)變化、調(diào)度計(jì)劃、突發(fā)事故以及大型社會(huì)活動(dòng)等。因此,短期負(fù)荷預(yù)測(cè)具有隨機(jī)性和不確定性[19]。但負(fù)荷在隨機(jī)變化過程之中,仍然在年、月、星期和日等不同期限上具有明顯的周期性。因此,短期負(fù)荷變化綜合表現(xiàn)為在時(shí)間序列上的非平穩(wěn)隨機(jī)過程[20]。

在進(jìn)行電力系統(tǒng)短期負(fù)荷預(yù)測(cè)之前,應(yīng)選擇具有代表性和影響度高的歷史數(shù)據(jù)資料作為預(yù)測(cè)依據(jù)。電力系統(tǒng)短期負(fù)荷預(yù)測(cè)通常采用以下數(shù)據(jù)進(jìn)行預(yù)測(cè):(1)歷史負(fù)荷數(shù)據(jù);(2)日期類型數(shù)據(jù);(3)天氣情況數(shù)據(jù)等。

精準(zhǔn)負(fù)荷預(yù)測(cè)的核心在于獲取真實(shí)可靠的歷史數(shù)據(jù)和建立有效的負(fù)荷預(yù)測(cè)模型。隨著電力系統(tǒng)信息管理系統(tǒng)的建立以及氣象數(shù)據(jù)預(yù)測(cè)精確度的提高,精確獲取電力系統(tǒng)歷史負(fù)荷數(shù)據(jù)以及未來天氣情況已不再困難。因此,建立有效的負(fù)荷預(yù)測(cè)模型成為提高電力系統(tǒng)負(fù)荷預(yù)測(cè)精準(zhǔn)度的關(guān)鍵[20]。

2 深度森林算法分析

深度森林算法是在深度學(xué)習(xí)理論以及深度神經(jīng)網(wǎng)絡(luò)的啟發(fā)下,以隨機(jī)森林算法(random forest, RF)為基礎(chǔ)的一種有監(jiān)督機(jī)器集成學(xué)習(xí)算法。作為一種具有一定深度的基于決策樹的預(yù)測(cè)算法,深度森林算法將預(yù)測(cè)過程分為2個(gè)階段:多粒度掃描階段(multi-grained scanning)和級(jí)聯(lián)森林階段(cascade forest)。以下將依次對(duì)隨機(jī)森林算法、多粒度掃描階段和級(jí)聯(lián)森林階段進(jìn)行分析。

2.1 隨機(jī)森林算法

隨機(jī)森林算法是重要的機(jī)器集成學(xué)習(xí)算法之一,其基礎(chǔ)是Breiman在1996年提出的Bagging集成算法[21]和Ho在1998年提出的隨機(jī)子空間方法[22]。隨機(jī)森林模型是一個(gè)由一組決策樹分類器{h(X,Θk),k=1,…,N}組成的集成分類模型。其中參數(shù)Θk是與第k棵決策樹獨(dú)立同分布的隨機(jī)向量,表示該棵決策樹的生長過程;X為待分類樣本。隨機(jī)森林算法的具體分類過程如圖1所示。

當(dāng)向隨機(jī)森林模型輸入待分類樣本X后,樣本X

圖1 隨機(jī)森林分類過程Fig.1 Classification procedure of random forest

將會(huì)進(jìn)入所有經(jīng)過訓(xùn)練產(chǎn)生的決策樹,從而進(jìn)行分類。各棵決策樹將依據(jù)樣本的特征屬性獨(dú)自確定樣本X的類型。當(dāng)所有決策樹得出各自的分類結(jié)果之后,隨機(jī)森林模型進(jìn)行匯總投票。獲得票數(shù)最高的類別將被確定為樣本X的預(yù)測(cè)分類類別。因此,隨機(jī)森林的分類決策如式(1)所示[23]:

(1)

式中:H(x)為隨機(jī)森林分類決策結(jié)果;hi為第i個(gè)決策樹分類模型;Y為目標(biāo)變量;I為度量函數(shù);N為決策樹數(shù)量。

式(1)體現(xiàn)了隨機(jī)森林算法的多數(shù)投票決策方式。作為一種基于決策樹的集成算法,隨機(jī)森林模型在構(gòu)造的過程中,構(gòu)造不同的訓(xùn)練集對(duì)各決策樹進(jìn)行訓(xùn)練,從而增加了各分類器之間的差異程度,并使隨機(jī)森林算法具有超越單個(gè)決策樹算法的分類效果。為體現(xiàn)隨機(jī)森林模型的隨機(jī)性,訓(xùn)練集的構(gòu)造包含2個(gè)關(guān)鍵過程,如下詳述。

2.1.1隨機(jī)選取樣本數(shù)據(jù)過程

隨機(jī)森林算法對(duì)原始訓(xùn)練數(shù)據(jù)集進(jìn)行隨機(jī)有放回抽樣,構(gòu)造出樣本容量大小與原始數(shù)據(jù)集相一致的子數(shù)據(jù)集。不同子數(shù)據(jù)集中的樣本可以重復(fù),同1個(gè)子數(shù)據(jù)集中的樣本也可以重復(fù)。每個(gè)子數(shù)據(jù)集對(duì)應(yīng)產(chǎn)生1棵決策樹。

2.1.2隨機(jī)選取待選特征過程

隨機(jī)森林模型中每一棵決策樹的分裂過程只利用了所有的待選特征中的一部分特征。隨機(jī)森林算法先從所有的待選特征中隨機(jī)選取一定數(shù)量的特征,之后再通過決策樹生成算法[24-26],在隨機(jī)選取出的特征中選擇最優(yōu)的特征進(jìn)行分裂。

隨機(jī)森林模型在構(gòu)造過程中所體現(xiàn)的隨機(jī)性和不完整性,解決了單個(gè)決策樹分類精度不高,易出現(xiàn)過擬合等問題,提高了算法的泛化能力[27]。

深度森林算法中隨機(jī)森林的決策樹一般采用分類回歸決策樹(classification and regression tree, CART)。CART是由Breiman等人提出的一種典型二叉決策樹,能夠有效地處理大數(shù)據(jù)樣本,解決非線性分類問題。因此,CART適合解決分類機(jī)理不明確的分類問題[26]。

決策樹生成算法的核心在于如何選取每個(gè)節(jié)點(diǎn)上需要進(jìn)行測(cè)試的屬性和如何根據(jù)不同的數(shù)據(jù)度量方法對(duì)數(shù)據(jù)純度進(jìn)行劃分。CART以基尼(Gini)指數(shù)作為屬性度量標(biāo)準(zhǔn),Gini指數(shù)越小,則劃分效果越精確。Gini指數(shù)定義如式(2)所示:

(2)

式中:p(i|t)為測(cè)試變量t屬于類i的概率;c為樣本的個(gè)數(shù)。

當(dāng)kGini=0時(shí),所有的樣例同屬于一類。若屬性滿足一定純度,決策樹生成算法將樣本劃分在左子樹,否則將樣本劃分到右子樹。CART決策樹生成算法根據(jù)kGini指數(shù)最小的原則來選擇分裂屬性規(guī)則。假設(shè)訓(xùn)練集C中的屬性A將C劃分為C1與C2,則給定劃分C的kGini指數(shù)為

(3)

決策樹的生長深度受條件限制,不能無限制生長下去。決策樹停止生長的條件如下:(1)節(jié)點(diǎn)的數(shù)據(jù)量小于指定值;(2)Gini指數(shù)小于閾值;(3)決策樹的深度達(dá)到指定值;(4)所有特征已經(jīng)使用完畢。

2.2 多粒度掃描階段

對(duì)于序列數(shù)據(jù)樣本而言,預(yù)測(cè)算法有效地處理樣本特性,并且把握樣本中各個(gè)特征的順序關(guān)系,有利于提高預(yù)測(cè)的精確度[28-29]。為提高深度森林算法中級(jí)聯(lián)森林階段的預(yù)測(cè)效果,深度森林算法設(shè)置了多粒度掃描階段來對(duì)樣本特征進(jìn)行提取,盡可能地挖掘序列數(shù)據(jù)特征的順序關(guān)系。深度森林算法中多粒度掃描的示意圖如圖2所示。

圖2中假定存在1個(gè)未經(jīng)多粒度掃描的具有200維特征向量的樣本。深度森林算法希望解決二分類問題。其多粒度掃描的具體步驟如下:首先,設(shè)置1個(gè)50維的向量窗口在原始特征向量上進(jìn)行滑動(dòng)取值,步長默認(rèn)取1,則可獲得151個(gè)50維向量;然后,將所得的向量分別經(jīng)2種不同類型的森林模型進(jìn)行分類處理,分別得到151個(gè)2維的分類向量;最后,再將所有分類向量按順序拼接組成1個(gè)604維的特征向量,作為級(jí)聯(lián)森林的輸入。

圖2 多粒度掃描過程Fig.2 Procedure of multi-grained scanning

圖2中僅展示了采用1種大小的取值窗口進(jìn)行多粒度掃描的過程,而在實(shí)際運(yùn)用深度森林算法時(shí),默認(rèn)會(huì)設(shè)置多個(gè)不同長度的取值窗口。因此,多粒度掃描過程將對(duì)應(yīng)產(chǎn)生多個(gè)不同的多粒度特性向量作為級(jí)聯(lián)森林的輸入。因此,最終變換所得的特征矢量將包括更多的特征。

深度森林算法通過采用多粒度掃描過程,對(duì)原始特征數(shù)據(jù)進(jìn)行加工處理,使特征數(shù)據(jù)維度得以拓展。經(jīng)過處理后的深度森林算法具有了處理樣本特性之間順序關(guān)系的能力,增強(qiáng)了后續(xù)級(jí)聯(lián)森林階段。

2.3 級(jí)聯(lián)森林階段

深度森林算法通過設(shè)置級(jí)聯(lián)森林階段,以體現(xiàn)其深度學(xué)習(xí)的過程。級(jí)聯(lián)森林階段的每一級(jí)都由多個(gè)不同類型的森林模型組成。深度森林算法利用級(jí)聯(lián)森林階段對(duì)數(shù)據(jù)特性逐層進(jìn)行處理,加強(qiáng)了算法的表征學(xué)習(xí)能力,有利于提高預(yù)測(cè)精準(zhǔn)度。

在級(jí)聯(lián)森林階段中,每一級(jí)都從上一級(jí)獲取經(jīng)處理后的特征信息,并利用特征信息產(chǎn)生出新的特征信息傳遞至下一級(jí)。除第1級(jí)直接采用經(jīng)多粒度掃描處理后的特征向量作為輸入之外,隨后的每一級(jí)都將上一級(jí)輸出的特征結(jié)果向量與原始輸入特征向量相拼接作為自身的輸入。

深度森林算法中級(jí)聯(lián)森林階段的示意圖如圖3所示。圖3中,級(jí)聯(lián)森林采用經(jīng)圖2中多粒度掃描過程處理后所得的604維特征向量作為輸入。首先,特征向量經(jīng)過2個(gè)不同類型的森林模型分類處理后,得到2個(gè)2維類別向量。深度森林理論認(rèn)為這2個(gè)2維類別向量能夠有效地反映樣本的特性,并將其稱為增強(qiáng)特性向量。接著,增強(qiáng)特性向量將與604維的原始特征向量相拼接組成608維的特征向量。然后,將具有增強(qiáng)特征的608維特征向量作為下一級(jí)的輸入向量。依此方法直至進(jìn)行到級(jí)聯(lián)森林的最后一級(jí)。最后,對(duì)最后一級(jí)產(chǎn)生的類別向量取平均值,再取其中最大值所對(duì)應(yīng)的類別作為樣本的分類結(jié)果。

圖3 級(jí)聯(lián)森林過程Fig.3 Procedure of cascade forest

在級(jí)聯(lián)森林階段處理過程中,為了降低過擬合風(fēng)險(xiǎn),每個(gè)森林產(chǎn)生的類別向量均經(jīng)過k折交叉驗(yàn)證(k-fold cross validation)產(chǎn)生。每個(gè)樣本都將作為訓(xùn)練數(shù)據(jù)訓(xùn)練k-1次,從而產(chǎn)生k-1個(gè)類別向量。然后,對(duì)其取平均值作為下一級(jí)的增強(qiáng)特征向量。深度森林算法默認(rèn)采用3折交叉驗(yàn)證。

級(jí)聯(lián)森林的級(jí)數(shù)為深度森林模型的深度,深度森林算法在訓(xùn)練級(jí)聯(lián)森林時(shí)可由算法運(yùn)算自動(dòng)確定級(jí)聯(lián)森林的級(jí)數(shù)。每當(dāng)級(jí)聯(lián)森林訓(xùn)練層數(shù)增加一層后,將會(huì)采用驗(yàn)證集對(duì)級(jí)聯(lián)森林的性能進(jìn)行測(cè)試,如果預(yù)測(cè)效果沒有提升,則停止產(chǎn)生下一層。與深度神經(jīng)網(wǎng)絡(luò)算法須人為規(guī)定模型復(fù)雜程度不同,深度森林算法可以自動(dòng)確定級(jí)聯(lián)森林的級(jí)數(shù),從而調(diào)整預(yù)測(cè)模型的復(fù)雜程度。因此,深度森林算法可以適用于不同規(guī)模的訓(xùn)練數(shù)據(jù),而不局限于大數(shù)據(jù)集。

2.4 深度森林算法流程

深度森林算法的具體實(shí)現(xiàn)步驟如下詳述。

(1)對(duì)預(yù)測(cè)所需數(shù)據(jù)進(jìn)行預(yù)處理。剔除無效數(shù)據(jù),并對(duì)缺失數(shù)據(jù)利用線性插值法進(jìn)行填補(bǔ)。依據(jù)預(yù)測(cè)算法的需要,劃分出訓(xùn)練樣本集。

(2)利用訓(xùn)練樣本集對(duì)深度森林算法進(jìn)行訓(xùn)練。按照深度森林算法的超參數(shù)設(shè)置,對(duì)多粒度掃描階段和級(jí)聯(lián)森林階段中的森林模型進(jìn)行構(gòu)造,確定級(jí)聯(lián)森林的級(jí)數(shù)。

(3)利用預(yù)測(cè)樣本的特征數(shù)據(jù)進(jìn)行預(yù)測(cè)。預(yù)測(cè)樣本的特征數(shù)據(jù)將依次進(jìn)行多粒度掃描階段以及級(jí)聯(lián)森林階段處理。深度森林算法將匯總級(jí)聯(lián)森林的輸出結(jié)果,得出預(yù)測(cè)分類結(jié)果。

整體預(yù)測(cè)過程及整體深度森林算法的實(shí)現(xiàn)流程如圖4、5所示。

圖4 深度森林整體預(yù)測(cè)過程Fig.4 Forecasting procedure of deep forest

3 預(yù)測(cè)結(jié)果

本文選取了某地區(qū)2012年1月1日—2015 年1月10日的電力負(fù)荷值(每15 min采樣1次,每日96個(gè)時(shí)刻)、氣象因素?cái)?shù)據(jù)(日最高溫度、日最低溫度、日平均溫度、日相對(duì)濕度以及日降雨量)以及日期類型數(shù)據(jù)(工作日為0,周末為1)對(duì)電力系統(tǒng)短期負(fù)荷進(jìn)行了預(yù)測(cè),所選數(shù)據(jù)均來自第九屆“中國電機(jī)工程學(xué)會(huì)杯”全國大學(xué)生電工數(shù)學(xué)建模競(jìng)賽所提供的標(biāo)準(zhǔn)數(shù)據(jù)集[31]。取2012年1月1日至2015年1月9日的數(shù)據(jù)作為歷史數(shù)據(jù),對(duì)深度森林預(yù)測(cè)模型進(jìn)行了訓(xùn)練,并分別利用了前21天以及前40天的歷史數(shù)據(jù)預(yù)測(cè)2015年1月10日當(dāng)天的負(fù)荷量。為評(píng)估深度森林算法在短期負(fù)荷預(yù)測(cè)上的能力,本文選取了BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network)[32]、隨機(jī)森林算法(random forest, RF)[33]、袋裝分類算法(bagging algorithm)[21]、梯度提升分類算法(gradient boosting algorithm)[34]、k最鄰近分類算法(k-nearest neighbor algorithm)[35]5種算法進(jìn)行負(fù)荷預(yù)測(cè),并將預(yù)測(cè)效果與深度森林算法預(yù)測(cè)效果進(jìn)行了比較分析。本文預(yù)測(cè)算法程序均基于MATLAB語言和Python語言編程,仿真環(huán)境為MATLAB R2017a 及Python 2.7。

3.1 樣本數(shù)據(jù)及處理

按照深度森林算法的步驟,首先須對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。目前針對(duì)負(fù)荷預(yù)處理的方法有很多,如數(shù)據(jù)橫向比較法、數(shù)據(jù)縱向比較法以及插值法等。本文中采用數(shù)據(jù)縱向比較法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理。其次,根據(jù)基于深度森林算法的周期性負(fù)荷預(yù)測(cè)模型的需要,劃分出訓(xùn)練樣本集。取連續(xù)N天的負(fù)荷數(shù)據(jù)、氣象因素?cái)?shù)據(jù)以及日期類型數(shù)據(jù)作為訓(xùn)練輸入數(shù)據(jù),次日的實(shí)際負(fù)荷數(shù)據(jù)作為訓(xùn)練輸出。

圖5 深度森林算法流程Fig.5 Flow chart of deep forest algorithm

以利用前21天的數(shù)據(jù)進(jìn)行電力系統(tǒng)短期負(fù)荷預(yù)測(cè)為例。取2012年1月1日—2012年1月21日連續(xù)21天的歷史負(fù)荷、氣象數(shù)據(jù)及日期類型數(shù)據(jù)作為訓(xùn)練輸入,2012年1月22日的實(shí)際負(fù)荷量作為訓(xùn)練輸出,并將此作為訓(xùn)練集中第1個(gè)訓(xùn)練樣本。直至取到2014年12月19日—2015年1月8日連續(xù)21天的歷史負(fù)荷、氣象數(shù)據(jù)以及日期類型數(shù)據(jù)作為訓(xùn)練輸入,2015年1月9日的實(shí)際負(fù)荷量作為訓(xùn)練輸出,并將此作為訓(xùn)練集中最后1個(gè)訓(xùn)練樣本。

3.2 預(yù)測(cè)模型

電力負(fù)荷變化具有周期特性。因此,構(gòu)造了一種基于深度森林算法的周期性負(fù)荷預(yù)測(cè)模型,如圖6所示(文中N先后取21和40)。

圖6 基于深度森林算法的周期性負(fù)荷的預(yù)測(cè)模型Fig.6 Forecasting model of periodic load based on deep forest

3.3 算法性能評(píng)估指標(biāo)

本文各算法預(yù)測(cè)性能采用平均絕對(duì)百分比誤差指標(biāo)(mean absolute percentage error, MAPE)和最大相對(duì)誤差進(jìn)行評(píng)估。MAPE和最大相對(duì)誤差的計(jì)算公式如式(4)、(5)所示:

(4)

(5)

總共統(tǒng)計(jì)96個(gè)時(shí)刻的絕對(duì)百分比誤差,分別取平均值δ和最大值ε對(duì)算法性能進(jìn)行評(píng)估。δ、ε越小說明算法的預(yù)測(cè)效果越精確。

3.4 深度森林算法中超參數(shù)的設(shè)置

文獻(xiàn)[17]中介紹了深度森林算法的一大優(yōu)勢(shì)在于其無須大量設(shè)置超參數(shù)和調(diào)參。采用默認(rèn)的超參數(shù)設(shè)置即可應(yīng)對(duì)規(guī)模類型不盡相同的預(yù)測(cè)任務(wù)。因此,本文試驗(yàn)對(duì)深度森林算法采用默認(rèn)的超參數(shù)設(shè)置。具體超參數(shù)設(shè)置見表1。

3.5 試驗(yàn)結(jié)果分析

利用訓(xùn)練樣本集對(duì)深度森林預(yù)測(cè)模型進(jìn)行訓(xùn)練,并對(duì)2015年1月10日當(dāng)天96個(gè)時(shí)刻的負(fù)荷量進(jìn)行了直接預(yù)測(cè)。不同分類算法利用前21天和前40天的歷史數(shù)據(jù)的負(fù)荷預(yù)測(cè)的結(jié)果如圖7、8所示。

從圖7中可以看出深度森林算法的負(fù)荷預(yù)測(cè)曲線變化趨勢(shì)與當(dāng)天實(shí)際負(fù)荷量的變化相一致,并且能夠有效地預(yù)測(cè)當(dāng)天負(fù)荷峰谷值以及出現(xiàn)的時(shí)間,而其他分類算法均無法有效地預(yù)測(cè)負(fù)荷量的具體值以及負(fù)荷的變化趨勢(shì)。同時(shí),從圖8可以看出,在增加訓(xùn)練樣本的特征數(shù)量之后,雖然其他算法的預(yù)測(cè)準(zhǔn)確度有所提高,但它們的預(yù)測(cè)精度依然低于深度森林算法。這進(jìn)一步說明了采用默認(rèn)的超參數(shù)設(shè)置的深度森林算法可處理不同規(guī)模的訓(xùn)練數(shù)據(jù)樣本集。

表1 深度森林算法中超參數(shù)的設(shè)置Table 1 Hyper-parameter setting of deep forest

圖7 利用前21天的數(shù)據(jù)負(fù)荷預(yù)測(cè)結(jié)果Fig.7 Results of load forecasting based on data of the previous 21 days

圖8 利用前40天的數(shù)據(jù)負(fù)荷預(yù)測(cè)結(jié)果Fig.8 Results of load forecasting based on data of the previous 40 days

各個(gè)預(yù)測(cè)算法的負(fù)荷預(yù)測(cè)誤差統(tǒng)計(jì)數(shù)據(jù)見表2。

表2 各算法預(yù)測(cè)誤差Table 2 Forecasting error of algorithms

從表2中可以看出,深度森林算法在所有試驗(yàn)算法之中,擁有最低的預(yù)測(cè)誤差,展示了有效的電力系統(tǒng)短期負(fù)荷預(yù)測(cè)能力。

4 結(jié) 論

本文將深度森林算法引入電力系統(tǒng)短期負(fù)荷預(yù)測(cè)領(lǐng)域。選取了某地區(qū)的真實(shí)負(fù)荷數(shù)據(jù)、氣象數(shù)據(jù)以及日期負(fù)荷數(shù)據(jù),分別利用了前21天的數(shù)據(jù)和前40天的數(shù)據(jù)對(duì)深度森林模型進(jìn)行訓(xùn)練,并運(yùn)用深度森林算法進(jìn)行電力系統(tǒng)短期負(fù)荷預(yù)測(cè)。試驗(yàn)中將深度森林算法與其他算法在短期負(fù)荷預(yù)測(cè)領(lǐng)域的性能進(jìn)行了對(duì)比,驗(yàn)證了深度森林算法對(duì)電力系統(tǒng)短期負(fù)荷預(yù)測(cè)的有效性。該算法在文中的理論分析和試驗(yàn)分析中體現(xiàn)了以下特點(diǎn)和優(yōu)勢(shì):

(1)深度森林算法受深度神經(jīng)網(wǎng)絡(luò)等深度學(xué)習(xí)理論的啟發(fā),設(shè)立多粒度掃描以及級(jí)聯(lián)森林2個(gè)階段。該算法具有處理表征關(guān)系的能力和逐層加強(qiáng)表征學(xué)習(xí)的能力。深度森林算法作為基于決策樹的集成算法,不僅克服了深度神經(jīng)網(wǎng)絡(luò)超參數(shù)確定難度大的問題,而且在理論分析方面也比深度神經(jīng)網(wǎng)絡(luò)容易。

(2)采用了某地區(qū)的真實(shí)負(fù)荷值、天氣數(shù)據(jù)以及日期負(fù)荷數(shù)據(jù),檢驗(yàn)了深度森林算法的短期負(fù)荷預(yù)測(cè)能力。作為分類算法,深度森林算法能夠有效地預(yù)測(cè)負(fù)荷的具體值以及負(fù)荷的變化趨勢(shì),并在所有進(jìn)行試驗(yàn)的算法之中,具有較低的預(yù)測(cè)誤差。

(3)在深度森林算法保持超參數(shù)設(shè)置不變的情況下,試驗(yàn)驗(yàn)證了深度森林算法在不同的數(shù)據(jù)規(guī)模下均具有有效的短期負(fù)荷預(yù)測(cè)能力。同時(shí),相較于其他分類算法,深度森林算法利用小規(guī)模預(yù)測(cè)樣本即可達(dá)到較高的負(fù)荷預(yù)測(cè)精準(zhǔn)度。因此,深度森林算法能夠有效地處理規(guī)模不同的數(shù)據(jù)集,挖掘電力系統(tǒng)的各數(shù)據(jù)之間關(guān)系,提高短期負(fù)荷預(yù)測(cè)效果。

猜你喜歡
級(jí)聯(lián)決策樹森林
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
哈Q森林
級(jí)聯(lián)LDPC碼的STBC-OFDM系統(tǒng)
哈Q森林
哈Q森林
基于決策樹的出租車乘客出行目的識(shí)別
基于級(jí)聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
哈Q森林
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用