林 濤,趙 伊,馮嘉冀
(河北工業(yè)大學(xué)人工智能與數(shù)據(jù)科學(xué)學(xué)院,天津300000)
人口增長(zhǎng)和經(jīng)濟(jì)發(fā)展促使能源使用量大幅度增加,供電公司在滿足用戶日常需求的同時(shí),為保證電量供給正常,還會(huì)提升20%的發(fā)電量用來(lái)滿足可能發(fā)生的5%潛在高峰用電,用電供需不平衡造成了剩余電力的浪費(fèi),勢(shì)必會(huì)對(duì)電力資源和生態(tài)環(huán)境造成影響。因此針對(duì)短期用電,可以通過(guò)準(zhǔn)確預(yù)測(cè)用戶的用電需求,從而做到精準(zhǔn)供電,減少資源浪費(fèi)。
現(xiàn)如今深度學(xué)習(xí)模型因具有更高的預(yù)測(cè)精度從而被廣泛應(yīng)用于最近的電力預(yù)測(cè)當(dāng)中。文獻(xiàn)[2]將循環(huán)神經(jīng)網(wǎng)絡(luò)模型(Recurrent Neural Network,RNN)運(yùn)用到電負(fù)荷預(yù)測(cè)上,盡管在預(yù)測(cè)效果上有所提升,但對(duì)時(shí)序數(shù)據(jù)之間關(guān)聯(lián)性的研究仍有欠缺。文獻(xiàn)[3]使用的時(shí)間卷積網(wǎng)絡(luò)捕獲長(zhǎng)期時(shí)序依賴關(guān)系的的能力勝過(guò)其它深度學(xué)習(xí)模型,被證明更適用于時(shí)序數(shù)據(jù)預(yù)測(cè)。單一類(lèi)型的神經(jīng)網(wǎng)絡(luò)一般只擅長(zhǎng)挖掘數(shù)據(jù)的某一類(lèi)特征,而對(duì)于電力數(shù)據(jù)而言,影響耗電的因素不止是功率、電流、電壓等,也與季節(jié)、天氣、地理等特征有關(guān),因此預(yù)測(cè)模型要具有挖掘數(shù)據(jù)多方面特征的能力。文獻(xiàn)[5]提出一種基于LSTM和時(shí)間序列分析法相結(jié)合的組合算法用于短期風(fēng)速的預(yù)測(cè),實(shí)驗(yàn)證明LSTM在捕捉數(shù)據(jù)隨機(jī)性和非線性特性表現(xiàn)良好。文獻(xiàn)[6]提出了一種基于經(jīng)驗(yàn)?zāi)B(tài)分解(Empirical Mode Decomposition,EMD)和LSTM相結(jié)合的負(fù)荷預(yù)測(cè)模型,將時(shí)間序列信號(hào)分解為數(shù)個(gè)本征模函數(shù)(Intrinsic Mode Function,IMF)分量和趨勢(shì)分量,分別進(jìn)行預(yù)測(cè),結(jié)果表明相比于單一模型預(yù)測(cè)精度得到很大提升,但分解過(guò)程中產(chǎn)生了不可避免的誤差問(wèn)題。文獻(xiàn)[7]使用聚類(lèi)(Clustering Analysis,CA)、主成分分析(Principal Component Analysis,PCA),小波分解和重構(gòu)技術(shù)獲得合理的模型輸入,用多層感知神經(jīng)網(wǎng)絡(luò)(Multi-layer perceptron neural networks,MLP neural networks)和支持向量回歸(Support Vector Regression,SVR)建立預(yù)測(cè)模型,探究了不同模型輸入選擇方法對(duì)熱負(fù)荷預(yù)測(cè)模型的影響,結(jié)果證明,經(jīng)過(guò)小波分解和重構(gòu)技術(shù)來(lái)優(yōu)化輸入數(shù)據(jù)在模型預(yù)測(cè)中取得最優(yōu)效果。
通過(guò)對(duì)以往預(yù)測(cè)模型的研究,本文提出了一種基于特征分解的組合預(yù)測(cè)模型,首先全方位分析了影響電負(fù)荷變化因素,引入“影響因子”,使用WD技術(shù)將原始電力數(shù)據(jù)分解為多頻段子序列,通過(guò)計(jì)算相關(guān)度系數(shù)篩選出相關(guān)度較高的子序列,計(jì)算殘差并保留相關(guān)度系數(shù);然后針對(duì)不同頻段數(shù)據(jù)特點(diǎn),分別使用帶循環(huán)滑窗策略的TCN模型和LSTM模型進(jìn)行預(yù)測(cè);最后對(duì)預(yù)測(cè)結(jié)果按照相關(guān)度分權(quán)求和。實(shí)驗(yàn)使用住宅用電數(shù)據(jù),從用戶側(cè)角度出發(fā)分析數(shù)據(jù)特征,實(shí)驗(yàn)結(jié)果證明了本文提出的基于特征分解的組合模型在短期預(yù)測(cè)中具有較高的準(zhǔn)確性與泛化能力。
一般用電數(shù)據(jù)變化都具有趨勢(shì)性,但存在某時(shí)用電急劇增加的情況,因此高峰時(shí)刻用電是必須考慮的因素;由于季節(jié)不同、地理位置的不同也會(huì)對(duì)用電量產(chǎn)生不同的影響;采集器故障、供電故障、正常檢修等特殊情況也需要考慮其中;針對(duì)特殊用電情況發(fā)生,還需要考慮到事件的隨機(jī)性。通過(guò)綜合分析實(shí)際用電情況,影響電負(fù)荷變化的特征可以歸納為:趨勢(shì)因子、高峰因子、季節(jié)因子、地理因子、故障因子、隨機(jī)因子。
本文采用的小波分解方法是一種非平穩(wěn)信號(hào)分析和處理的方法,將原始信號(hào)分解為高頻信號(hào)和低頻信號(hào)兩部分。高頻信號(hào)在短時(shí)間內(nèi)變化劇烈,從波形上看表現(xiàn)為波長(zhǎng)尖銳劇烈的變化;低頻信號(hào)在短時(shí)間內(nèi)變化平緩,從波形上表現(xiàn)為平滑的大波長(zhǎng)變化。因此使用小波分解方法分解電力數(shù)據(jù),分解后的信號(hào)適合用于表征影響電負(fù)荷變化的影響因子。
分解采用Symlets5小波基函數(shù),過(guò)程如下:
1)初始信號(hào)被分解為高頻信號(hào)和低頻信號(hào)。
2)高頻信號(hào)繼續(xù)分解產(chǎn)生兩個(gè)信號(hào):一個(gè)是新的低頻信號(hào),另一個(gè)是高頻信號(hào)。
3)進(jìn)一步分解高頻信號(hào),直到獲得一系列噪聲干擾信號(hào)為止。如下方法
-1=′·+′·
(1)
其中,為低頻信號(hào),為高頻信號(hào)。′為高通濾波器,′為低通濾波器。是在分辨率為2下的高頻分量部分,是在分辨率為2下的低頻分量部分。根據(jù)之前的分析,將電力數(shù)據(jù)中的有用功率分解得到時(shí)間序列分為 6 個(gè)子序列,過(guò)程如圖1。
圖1 小波分解過(guò)程
其中,高峰因子用高頻信號(hào)表示,原因是高峰因子反應(yīng)短時(shí)內(nèi)用電的極端變化,從波形上看通常就是小波長(zhǎng)尖變化;其余影響因子分別用低頻信號(hào)表示,分別為:趨勢(shì)因子、季節(jié)因子、地理因子、故障因子、隨機(jī)因子;
本文采用的時(shí)間卷積網(wǎng)絡(luò)是一種能夠處理時(shí)間序列數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)。為了實(shí)現(xiàn)長(zhǎng)期有效的歷史大小,膨脹因果卷積可以通過(guò)選擇更大的濾波器尺寸來(lái)增加TCN的接受域。但是當(dāng)歷史時(shí)間較長(zhǎng)時(shí),TCN會(huì)出現(xiàn)較大的誤差積累,導(dǎo)致預(yù)測(cè)精度下降的問(wèn)題。
針對(duì)上述TCN算法存在的問(wèn)題,提出一種基于循環(huán)滑窗策略的TCN預(yù)測(cè)模型,通過(guò)不斷調(diào)整濾波器尺寸,循環(huán)迭代預(yù)測(cè),保證每次預(yù)測(cè)的精度,步驟如下:
1)設(shè)置濾波器初始尺寸m,預(yù)測(cè)長(zhǎng)度為n=1;
2)設(shè)置TCN模型參數(shù),將長(zhǎng)度為l的訓(xùn)練集使用TCN模型迭代訓(xùn)練,根據(jù)損失函數(shù)MSE最小化,使用隨機(jī)梯度下降法找到最優(yōu)參數(shù),如果迭代次數(shù)滿足預(yù)設(shè)迭代參數(shù),則得到最終TCN模型;
3)使用得到的TCN模型,對(duì)t+1時(shí)刻電負(fù)荷進(jìn)行預(yù)測(cè),保留預(yù)測(cè)值到pre[],并將預(yù)測(cè)值輸入訓(xùn)練集末端,同時(shí)n+1;
4)當(dāng)濾波器長(zhǎng)度m>預(yù)測(cè)長(zhǎng)度n,停止循環(huán),預(yù)測(cè)結(jié)果為此時(shí)pre[]的值。否則將訓(xùn)練集向右滑動(dòng)一個(gè)窗口,長(zhǎng)度不變,重復(fù)(2-3)過(guò)程。
上述方法能保證每次預(yù)測(cè)結(jié)果的誤差較小,同時(shí)預(yù)測(cè)精度較高。
本文提出一種基于特征分解的短期電負(fù)荷組合預(yù)測(cè)模型(WD-CSTCN-LSTM)。通過(guò)WD方法將從單一數(shù)據(jù)中分解出多種特征和特征殘差,針對(duì)不同特征使用不同的預(yù)測(cè)方法,流程圖如圖2。
圖2 流程圖
算法步驟如下:
1)數(shù)據(jù)預(yù)處理。對(duì)于原始電力數(shù)據(jù)預(yù)處理,包括對(duì)于缺失值差補(bǔ),這里采用的是均值差補(bǔ);,再使用高斯濾波去噪。
2)特征分解。分析影響用電數(shù)據(jù)的特征,對(duì)于用電使用WD方法分解為高頻序列A和低頻序列D,對(duì)于各序列采用相關(guān)度分析,去除無(wú)關(guān)特征或相關(guān)度低的特征,篩選能夠表征影響因子的子序列,并保留相關(guān)度作為權(quán)值,將原始數(shù)據(jù)減去保留序列生成殘差序列,將所有的子序列歸一化處理。
3)組合模型。預(yù)測(cè)模型可以在小波分解處理的多個(gè)頻帶內(nèi)建立,針對(duì)(2)得到的序列,根據(jù)數(shù)據(jù)變化特點(diǎn),對(duì)高頻序列和殘差序列采用LSTM模型,對(duì)于低頻序列采用CSTCN模型,將各頻段和殘差預(yù)測(cè)結(jié)果按照權(quán)值求和,得到最終的預(yù)測(cè)值。
該組合預(yù)測(cè)方法,能夠最大程度的保證各頻段子序列的預(yù)測(cè)精度,殘差序列彌補(bǔ)了影響因子選擇時(shí)未入選的序列帶來(lái)的誤差問(wèn)題,按權(quán)求和保證了各影響因子影響能力的準(zhǔn)確。從整體提升了預(yù)測(cè)精度,降低了誤差。
實(shí)驗(yàn)采用的數(shù)據(jù)集來(lái)自于巴黎一所住宅收集得包含2006年12月至2010年11月用電數(shù)據(jù)(本數(shù)據(jù)集由UCI機(jī)器學(xué)習(xí)庫(kù)提供),每一分鐘采集一條記錄。
本實(shí)驗(yàn)隨機(jī)選取一天用電數(shù)據(jù),記錄共1440條,作為短期電負(fù)荷預(yù)測(cè)的數(shù)據(jù)集,其中1205條記錄作為訓(xùn)練數(shù)據(jù)集,235條記錄用于測(cè)試數(shù)據(jù)集。訓(xùn)練結(jié)束后,又在工作日、休息日、第一季度、第二季度、第三季度、第四季度中各隨機(jī)選取一天的記錄采取相同訓(xùn)練集與測(cè)試集劃分方式進(jìn)行實(shí)驗(yàn),測(cè)試模型的泛化能力。
本文使用的評(píng)價(jià)指標(biāo)為均方根誤差(Root Mean Square Error,RMSE)、平均絕對(duì)百分比誤差(Mean Absolute Percentage Error,MAPE)、絕對(duì)平均誤差(Mean Absolute Error,MAE)、決定系數(shù)(R-square,R2),如下方法
(2)
(3)
(4)
(5)
原始數(shù)據(jù)在剛獲得時(shí)存在很多噪音,這主要由于采集方式和工作環(huán)境引起的。在數(shù)據(jù)進(jìn)行實(shí)驗(yàn)前要對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,噪聲處理使用高斯濾波方法,高斯濾波使用的高斯函數(shù)如下方法,濾波后降低了數(shù)據(jù)噪聲并提高數(shù)據(jù)質(zhì)量。
(6)
3.4.1 特征分解實(shí)驗(yàn)
以一組日用電數(shù)據(jù)集為例測(cè)試模型性能,首先對(duì)分鐘平均有功功率進(jìn)行小波分解,得到10個(gè)子序列,分解結(jié)果如圖3所示。
圖3 小波分解后的子序列
考慮影響電力消耗的因素眾多,使用皮爾遜(Person correlation coefficient)相關(guān)系數(shù),來(lái)衡量特征值與預(yù)測(cè)值的相關(guān)度,皮爾遜相關(guān)系數(shù)計(jì)算如下方法
(7)
結(jié)果范圍為-1到1之間,負(fù)值為負(fù)相關(guān),正值為正相關(guān),絕對(duì)值越接近1,相關(guān)度越高,相關(guān)度系數(shù)r與相關(guān)性的關(guān)系見(jiàn)表1。
表1 相關(guān)度系數(shù)與相關(guān)度
表2是經(jīng)過(guò)相關(guān)度篩選后的特征頻段及其相關(guān)度系數(shù),篩選的原則是去除不存在線性相關(guān)的頻段,最終保留低頻信號(hào)1~5和高頻信號(hào)5,并計(jì)算殘差序列。
表2 相關(guān)度系數(shù)
3.4.2 單一預(yù)測(cè)模型實(shí)驗(yàn)
將CSTCN與TCN,LSTM.ANN,GRU模型使用相同數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),對(duì)比效果如圖4
圖4 單一模型對(duì)比圖
通過(guò)圖4和表3可以看出TCN模型善于捕捉時(shí)序數(shù)據(jù)整體變化趨勢(shì),擬合度較好,而CSTCN在預(yù)測(cè)精度上表現(xiàn)出較好的性能;LSTM在捕捉峰值上更為準(zhǔn)確。根據(jù)各頻段信號(hào)變化特點(diǎn),得到以下結(jié)論:CSTCN適合預(yù)測(cè)低頻信號(hào),LSTM適合預(yù)測(cè)高頻信號(hào)和殘差序列。
表3 單一模型預(yù)測(cè)結(jié)果
3.4.3 組合模型及其對(duì)比實(shí)驗(yàn)
經(jīng)過(guò)特征分解后的子序列和殘差序列分別使用CSTCN和LSTM模型得到的預(yù)測(cè)結(jié)果與真實(shí)值對(duì)比如圖5所示。
圖5 預(yù)測(cè)結(jié)果對(duì)比圖
使用3.2小節(jié)提出的評(píng)價(jià)指標(biāo)進(jìn)行分析,從分析結(jié)果可以看出:四項(xiàng)指標(biāo)均得到了不同程度的提高。結(jié)果證明了組合多種預(yù)測(cè)模型能有效提高預(yù)測(cè)精度,降低誤差。子序列預(yù)測(cè)結(jié)果與最終結(jié)果的評(píng)價(jià)指標(biāo)結(jié)果見(jiàn)表4。
表4 評(píng)價(jià)指標(biāo)結(jié)果
實(shí)驗(yàn)又對(duì)比了EMD分解方法和VMD下的預(yù)測(cè)模型,從表5和圖6可以看出,三種方法擬合度均表現(xiàn)良好,而使用WD分解方法的模型在預(yù)測(cè)精度上明顯高于其它方法,同時(shí)引入殘差序列也能使誤差降到最低。
表5 評(píng)價(jià)指標(biāo)結(jié)果
圖6 不同分解方法對(duì)比圖
4.3.4 不同典型日實(shí)驗(yàn)
僅根據(jù)某一天的數(shù)據(jù)不能證明模型的泛化能力,由于季度不同以及工作日和休息日的差別,電負(fù)荷會(huì)有較大變化,因此本文分別對(duì)工作日、休息日、第一季度、第二季度、第三季度和第四季度中隨機(jī)選取的某一天進(jìn)行相同實(shí)驗(yàn),預(yù)測(cè)結(jié)果見(jiàn)表6所示??梢钥闯觯鎸?duì)不同的耗電量、高峰時(shí)段、用電趨勢(shì)以及季節(jié)影響等因素影響下,本文提出的WD-CSTCN-LSTM模型的MAPE能穩(wěn)定在3.86%以內(nèi),且小于對(duì)比算法中其它預(yù)測(cè)模型,從而證明了模型具有較高的泛化能力。
表6 評(píng)價(jià)指標(biāo)結(jié)果
本文立足于短期用戶側(cè)耗電預(yù)測(cè)領(lǐng)域,針對(duì)電力數(shù)據(jù)特征挖掘不全面的問(wèn)題,提出了基于特征分解的短期電負(fù)荷組合預(yù)測(cè)模型。該模型深入挖掘了影響電負(fù)荷變化的特征后,通過(guò)小波分解手段使特征多樣化,引入影響因子,如高峰因子、季節(jié)因子、地理因子等用來(lái)捕捉少量劇烈變化和季節(jié)以及地理環(huán)境造成的影響,將分解得到的特征經(jīng)過(guò)相關(guān)度分析篩選,得到的子序列和生成的殘差序列分別利用CSTCN和LSTM模型進(jìn)行預(yù)測(cè),預(yù)測(cè)結(jié)果按相關(guān)度系數(shù)分權(quán)求和最終得到組合預(yù)測(cè)值。實(shí)驗(yàn)結(jié)果表明了結(jié)合實(shí)際用電數(shù)據(jù)情況和電負(fù)荷預(yù)測(cè)影響因素的分析,針對(duì)不同影響因素使用不同的預(yù)測(cè)模型的方法能夠有效提高預(yù)測(cè)精度,降低誤差,更適用于短期電力預(yù)測(cè)的結(jié)論,同時(shí)對(duì)工作日、休息日、四個(gè)季度分別進(jìn)行相同實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果證明了模型的泛化能力。然而,模型中使用的卷積網(wǎng)絡(luò)在訓(xùn)練過(guò)程中花費(fèi)時(shí)間較長(zhǎng),增加了訓(xùn)練時(shí)間,這一問(wèn)題將應(yīng)該是下一步的需要考慮的重點(diǎn)。