白 云,陳國強(qiáng)
(1.重慶工商大學(xué) 管理科學(xué)與工程學(xué)院,重慶 400067; 2.重慶市北碚區(qū)住房和城鄉(xiāng)建設(shè)委員會(huì),重慶 400700)
城市供水量預(yù)測在水管理和調(diào)度中起著重要作用。尤其是面對(duì)城市缺水,迫切需要精確的供水量預(yù)測模型用于水資源規(guī)劃和管理。目前供水量預(yù)測模型有很多,如多元線性回歸模型[1]、人工神經(jīng)網(wǎng)絡(luò)(ANN)[2]、關(guān)聯(lián)向量機(jī)[3]、支持向量機(jī)(SVM)[4]以及灰色模型[5]等。然而此類單回歸器的建模訓(xùn)練可能會(huì)出現(xiàn)過擬合現(xiàn)象,所以集成學(xué)習(xí)[6]提供了一個(gè)思路。Breiman[7]將他在1996年提出的Bagging集成學(xué)習(xí)理論與Ho[8]在1995年提出的隨機(jī)子空間理論結(jié)合而提出隨機(jī)森林(random forest,RF)。RF是隨機(jī)選擇多個(gè)樹的特性集的子集,以此構(gòu)造成簇的森林,利用每棵樹投票打分的模式進(jìn)行決策分類或回歸。RF模型具有執(zhí)行速度高、計(jì)算量小、計(jì)算精度高等特點(diǎn),可以處理非線性、交互、非穩(wěn)態(tài)的問題。與其他模型相比[9-10],RF體現(xiàn)出明顯的優(yōu)越性。
由于日用水量的非平穩(wěn)性和耦合特征的復(fù)雜性,在應(yīng)用預(yù)測模型前,如果對(duì)原始時(shí)間序列進(jìn)行尺度特性提取,將有助于提高預(yù)測精度。例如,Odan等[11]將ANN和傅里葉級(jí)數(shù)組合、Shafaei等[12]將小波分解與自適應(yīng)回歸模型組合、佟長福等[13]構(gòu)建小波組合模型、郝麗娜等[14]提出小波廣義回歸神經(jīng)網(wǎng)絡(luò)耦合模型。這些基于尺度分解的模型結(jié)果均表明其預(yù)測精度優(yōu)于單一模型,也表明小波變化在時(shí)域和頻域方面具有較強(qiáng)的尺度特性提取能力[15]。
基于以上介紹,本文提出基于尺度特征融合的隨機(jī)森林模型(SF-RF)對(duì)城市日供水量開展預(yù)測。首先,利用離散小波變換對(duì)原始時(shí)間序列進(jìn)行尺度轉(zhuǎn)化和細(xì)節(jié)特征提??;然后,根據(jù)各尺度信息的混沌特性構(gòu)建RF模型的輸入輸出結(jié)構(gòu),其中對(duì)于包含隨機(jī)因子最多的高頻信息予以舍去;最后,疊加各尺度的結(jié)果獲得最終預(yù)測值。將預(yù)測結(jié)果與RF、經(jīng)典神經(jīng)網(wǎng)絡(luò)(FFNN)以及融合模型(RF-FFNN)的預(yù)測結(jié)果進(jìn)行對(duì)比分析。
小波變換是由一系列的數(shù)學(xué)函數(shù)構(gòu)成,它將非平穩(wěn)時(shí)間序列分解為多個(gè)子序列,利用基波(如本文使用的Daubechies小波基)在不同的時(shí)頻域上進(jìn)行轉(zhuǎn)化。離散小波變化(DWT)因?qū)崿F(xiàn)簡易且計(jì)算量小而被廣泛應(yīng)用[16]。圖1為DWT分解示意圖(以2層分解為例),其中時(shí)間序列x=[xi|i=1, 2,…,N],N代表時(shí)間長度。
圖1 DWT分解示意圖Fig.1 Decomposition of discrete wavelet transformation
根據(jù)圖1,對(duì)時(shí)間序列x進(jìn)行采樣,利用低通濾波器LP獲得近似因子ak,利用高通濾波器HP獲得細(xì)節(jié)因子dk,則原始時(shí)間序列x的DWT轉(zhuǎn)換形式為
式中k=1, 2, …,K代表分解尺度。
隨機(jī)森林是由一系列決策樹組成,每棵樹從訓(xùn)練數(shù)據(jù)集中隨機(jī)抽樣單獨(dú)構(gòu)建,并用“if-then”的策略來更新替換,從而形成自上而下的樹狀結(jié)構(gòu)[17]。決策樹使用在所有輸入特征值中最好的特性值進(jìn)行分裂,并在每個(gè)終端節(jié)點(diǎn)處,自上向下添加隨機(jī)預(yù)測節(jié)點(diǎn)。即輸入變量對(duì)應(yīng)于根和輸出可以描述實(shí)際的樹的葉子[18]。從本質(zhì)上講,RF方法是基于分裂節(jié)點(diǎn)的特定區(qū)域搜索最佳值的預(yù)測模式。RF有兩個(gè)參數(shù),即Ntree(樹木生長的數(shù)量)和s(在每一個(gè)節(jié)點(diǎn)上隨機(jī)取樣的變量數(shù))。隨機(jī)森林回歸執(zhí)行程序如下:
(1)在原始數(shù)據(jù)集中進(jìn)行Bootstrap采樣。
(2)生成初始回歸樹并更新Bootstrap采樣:每個(gè)節(jié)點(diǎn)上,隨機(jī)選取樣本的輸入特性,并在這些樣本特性中選擇最佳的分割,而不是在所有輸入特性中選擇最佳的分割。
(3)利用out-of-bag理論計(jì)算誤差并評(píng)估更新后的樣本誤差值。
基于尺度特征融合的隨機(jī)森林模型(SF-RF)流程如圖2所示。
圖2 SF-RF預(yù)測模型流程Fig.2 Flowchart of the proposed SF-RF model
建模步驟總結(jié)如下:
第一步,日供水量時(shí)間序列分組,80%數(shù)據(jù)作為訓(xùn)練集,20%作為測試集。
第二步,對(duì)不同數(shù)據(jù)集分別執(zhí)行DWT程序,此程序在Matlab 2018a中執(zhí)行。
(1)本文選擇’db4’小波。
(2)小波變換過程中,尺度K過大原始數(shù)據(jù)失真,而尺度過小近似部分中包含較多隨機(jī)事件或噪聲。本文采用實(shí)驗(yàn)法確定。
第三步,對(duì)各尺度因子序列分別建立RF回歸模型。
(1)對(duì)于第k個(gè)細(xì)節(jié)因子序列,其輸入為[dk(i-τ), dk(i-2τ), …, dk(i-(m-1)τ)],期望輸出為[dk(i)]。類似的,第K個(gè)近似因子序列的輸入-輸出結(jié)構(gòu)為[aK(i-τ), aK(i-2τ), …, aK(i-(m-1)τ); aK(i)]。其中,m為嵌入維數(shù),τ為延遲時(shí)間。本文采用C-C法來確定[19]。
(2) RF模型由Matlab工具箱實(shí)現(xiàn),其中兩個(gè)主要參數(shù)Ntree和s由經(jīng)驗(yàn)值確定[20]。
第四步,利用測試集數(shù)據(jù)和訓(xùn)練好的各尺度RF模型,用來預(yù)測下一時(shí)段各因子序列。
第五步,根據(jù)式(1),線性融合各尺度特征的預(yù)測值,則輸出最終結(jié)果,即
(2)
式中字母帶有符號(hào)“∧”代表預(yù)測值。
本文研究數(shù)據(jù)來源于重慶某水廠,該水廠建設(shè)于2011年,核定供水能力為20萬t/d,主要供給居民生活用水和工業(yè)用水。2013年第一個(gè)方向的供水管網(wǎng)正式使用,第一方向的日用水量數(shù)據(jù)從2013年1月21日至2016年1月20日,共1 095個(gè)數(shù)據(jù)。歷史記錄見圖3。
圖3 原始數(shù)據(jù)集Fig.3 Historical records
歷史數(shù)據(jù)的統(tǒng)計(jì)學(xué)特性見表1。根據(jù)最小值、最大值和均值統(tǒng)計(jì),可以得出訓(xùn)練集包含了測試集中所有信息,說明數(shù)據(jù)分組是合理的。另外,峭度值均>3(一般的,正態(tài)分布的峭度值為3),說明原始數(shù)據(jù)中大幅值的概率密度增加,幅值的分布偏離正態(tài)分布,體現(xiàn)出數(shù)據(jù)演變的復(fù)雜性。
表1 供水量數(shù)據(jù)的統(tǒng)計(jì)學(xué)特性Table 1 Statistical characteristics of water supply data
本文采用2個(gè)指標(biāo)進(jìn)行模型評(píng)價(jià),相關(guān)系數(shù)(R)和標(biāo)準(zhǔn)均方誤差(NRMSE)。根據(jù)表1中統(tǒng)計(jì)值,數(shù)據(jù)波動(dòng)范圍較大,為了便于不同數(shù)值區(qū)間的誤差比較,采用標(biāo)準(zhǔn)化的均方誤差。
(1) 相關(guān)系數(shù)的表達(dá)式為
(3)
式中x帶有符號(hào)“-”代表平均值。
(2)標(biāo)準(zhǔn)均方誤差的表達(dá)式為
(4)
根據(jù)SF-RF建模步驟,訓(xùn)練所得模型參數(shù)見表2。
表2 模型參數(shù)設(shè)定匯總
Table 2 Definition of model parameters
建模環(huán)節(jié)參數(shù)設(shè)定尺度分解(DWT)’db4’母波, K=4特性重構(gòu)(C-C)a4(m=3, τ=25), d4(m=13, τ=6), d3(m=19, τ=4), d2(m=6, τ=7), d1(m=3, τ=4)回歸建模(RF)Ntree=1 000, s=m/3 (即a4取1,d4取4,d3取1,d2取2,d1取1)
根據(jù)表2模型參數(shù)設(shè)定,對(duì)測試集(2015年5月27日到2016年1月21日)進(jìn)行預(yù)測,結(jié)果見圖4。
圖4 各尺度隨機(jī)森林模型預(yù)測結(jié)果Fig.4 Forecast results using RF model in each scale
由圖4可知,近似序列a4的預(yù)測效果最好,預(yù)測趨勢完全模擬了真實(shí)演變。細(xì)節(jié)序列的預(yù)測表現(xiàn)出如下規(guī)律,即隨頻率的增大,預(yù)測效果變差(尤其是在峰值點(diǎn))。例如,細(xì)節(jié)序列d4預(yù)測趨勢與觀察序列一致,但隨著頻率增高,細(xì)節(jié)序列d1預(yù)測能力在極值突變處表現(xiàn)最差。
近似序列a4可以看成是原始序列的趨勢提取項(xiàng),其幅值是最大的,所以是影響預(yù)測精度的重要尺度特征。細(xì)節(jié)序列d1的高頻信息含有過多噪聲(真實(shí)系統(tǒng)中的隨機(jī)事件干擾導(dǎo)致),可以看成是原始序列的隨機(jī)提取項(xiàng),而尺度越小(頻率越高)預(yù)測精度越低,所以在尺度特征融合時(shí)不考慮細(xì)節(jié)序列d1的預(yù)測結(jié)果。此處理既減少了高頻噪聲信號(hào)的干擾,也盡可能保留了原始時(shí)間序列的有效信息。
圖5(a)為SF-RF模型的最終預(yù)測圖,與觀測值相比,其趨勢、拐點(diǎn)、峰值等均能夠較好擬合,NRMSE=0.056。圖5(b)為預(yù)測值與觀測值的散點(diǎn)圖,兩組數(shù)據(jù)呈現(xiàn)聚集趨勢,R=0.913。與全尺度特征的融合結(jié)果相比(不刪除d1尺度,NRMSE=0.067,R=0.87),不考慮高頻信號(hào)d1的融合策略,對(duì)削弱時(shí)間序列的隨著機(jī)干擾有顯著作用。然而,SF-RF模型對(duì)于極大值的預(yù)測也體現(xiàn)出不足,主要原因有以下兩個(gè)方面:① 高頻信息的隨機(jī)效應(yīng),特別是對(duì)高峰突變值的預(yù)測干擾,通過誤差累積影響了尺度融合結(jié)果;② 根據(jù)文獻(xiàn)[19],m和τ也會(huì)受到隨機(jī)事件的影響(例如,圖3中2015年2個(gè)突變點(diǎn)),從而導(dǎo)致模型輸入結(jié)構(gòu)的適宜性,即局部相空間特性學(xué)習(xí)不足影響了映射關(guān)聯(lián)度。整體而言,本文提出的SF-RF模型可以較好地模擬日供水量預(yù)測。
圖5 SF-RF模型預(yù)測結(jié)果Fig.5 Forecast results using the proposed SF-RF model
為了比較本文提出的SF-RF模型性能,2個(gè)獨(dú)立模型RF和FFNN、1個(gè)尺度特性融合的SF-FFNN模型對(duì)相同數(shù)據(jù)集進(jìn)行建模和預(yù)測。
3個(gè)對(duì)比模型的預(yù)測結(jié)果見圖6。從圖6可以發(fā)現(xiàn),尺度融合模型SF-FFNN預(yù)測性能優(yōu)于其他2種獨(dú)立模型,而與本文提出的SF-RF模型相比,極值擬合效果一般。表3匯總了4種模型的評(píng)價(jià)結(jié)果。
圖6 對(duì)比模型預(yù)測結(jié)果Fig.6 Forecast results of comparative models
表3 模型性能評(píng)估結(jié)果Table 3 Results of model performance evaluation
表3顯示:① 尺度特性融合模型(SF-RF和SF-FFNN)預(yù)測性能均優(yōu)于獨(dú)立模型(RF和FFNN),說明考慮尺度特征的建模,既減少了隨機(jī)干擾(高頻信息),又降低了模型學(xué)習(xí)難度(將復(fù)雜單尺度時(shí)間序列轉(zhuǎn)變?yōu)楹唵味喑叨纫蜃有蛄?,從而提高了獨(dú)立建模的預(yù)測精度;② 樹結(jié)構(gòu)模型(SF-RF和RF)預(yù)測性能均優(yōu)于神經(jīng)網(wǎng)絡(luò)(FFNN和SF-FFNN),驗(yàn)證了RF模型在預(yù)測領(lǐng)域的優(yōu)勢。所以,本文提出的SF-RF模型獲得了最低的NRMSE值和最高的R值,預(yù)測效果最好。
本文提出基于尺度特征融合的隨機(jī)森林模型來預(yù)測城市日供水量。首先,利用小波分解技術(shù)將單尺度時(shí)間序列的耦合特征轉(zhuǎn)化為多尺度的低、高頻特征;然后,利用混沌特性確定各尺度的隨機(jī)森林映射關(guān)系;最后,利用線性融合將各尺度特性預(yù)測結(jié)果集成。研究表明,尺度特征融合有利于提高預(yù)測精度,且預(yù)測精度隨頻率的增加而降低。
對(duì)比3種模型,本文提出的SF-RF模型獲得了最好的精度,適用于短期預(yù)測,為日供水量預(yù)測提出了一種新的思路。
本文以去除一個(gè)高頻信號(hào)(細(xì)節(jié)因子)為融合策略,提高了日供水量預(yù)測精度。而如何進(jìn)一步分解高頻信號(hào)、識(shí)別高頻信號(hào)中有效特征、構(gòu)建信息高利用率和高精度的預(yù)測模型是下一步的研究方向。