桑宇婷,趙雪花,祝雪萍,席東潔
(太原理工大學水利科學與工程學院,山西太原030024)
隨著經(jīng)濟社會的發(fā)展,溫室氣體大量排放,使得全球平均氣溫升高,降水分布不均勻度加劇,極端天氣愈發(fā)頻繁,洪水、干旱等自然災害增多[1-2]。準確、合理地對徑流進行分析預測,對水資源的合理開發(fā)利用及生態(tài)環(huán)境保護具有重要意義。受氣候、地理環(huán)境、社會發(fā)展及人類活動的影響,徑流的變化規(guī)律錯綜復雜,具體表現(xiàn)為突變性、非線性、隨機性等特性[3]。為克服徑流序列非平穩(wěn)性的影響,Huang等于1998年提出了經(jīng)驗模態(tài)分解(Empirical Mode Decomposition,簡稱EMD)法,該方法是一種自適應的局部化分析方法,可將非平穩(wěn)的徑流序列分解為有限個具有一定周期及平穩(wěn)性的固有模態(tài)函數(shù)(IMF),但EMD會出現(xiàn)模態(tài)混疊現(xiàn)象[4-5],影響后續(xù)徑流預測的精度。為解決EMD的模態(tài)混疊問題,Huang等于2009年提出了集合經(jīng)驗模態(tài)分解(Ensemble Empirical Mode Decomposition,簡稱EEMD)法,將具有均勻分布特征的白噪聲加入到待分解的信號中[6],但其分解效率較低。因此,Yeh等于2010年提出了互補集合經(jīng)驗模態(tài)分解(Complete Ensemble Empirical Mode Decomposition,簡稱 CEEMD)法[7],主要是通過向待分解信號中加入兩個互補的白噪聲信號并進行分解,此方法不僅能得到與EEMD法相同的分解效果,而且減小了由白噪聲引起的重構誤差,提高了分解效率,使徑流序列得到了有效的平穩(wěn)化處理。
在目前已有的多種徑流預測方法中,人工神經(jīng)網(wǎng)絡是一種模擬動物神經(jīng)網(wǎng)絡進行信息處理的算法數(shù)學模型,具有自適應、自學習及容錯性高等特點,可有效克服徑流序列非線性的影響。BP神經(jīng)網(wǎng)絡是應用較為普遍的人工神經(jīng)網(wǎng)絡之一[8],其結構簡單,具有較強的泛化能力和良好的非線性映射能力[9],能夠在復雜的徑流序列中找出一定的變化規(guī)律。
隨著預測模型的不斷改進和預測機制認識的不斷深化,為了降低預測誤差,人們更趨向于利用多種模型進行組合預測。本文通過構建CEEMD-BP模型,對汾河上游月徑流進行了預測,并與單一BP模型及EMDBP模型的預測結果進行對比,以驗證該模型預測非平穩(wěn)、非線性徑流序列的可行性與有效性。
CEEMD法通過對月徑流序列進行除噪分解,得到多個具有一定物理意義的IMF分量和趨勢項(Res),進而確定月徑流序列的周期性及變化趨勢。CEEMD法可依據(jù)各層分解的頻譜提取有效信號,消除高頻隨機噪聲,使徑流序列平穩(wěn)化。其主要分解步驟如下[10-11]。
(1)設 x(t)為原序列,則 IMF1的計算公式為
(2)求一階殘差 r1(t),計算公式為
(3)計算 IMF2,公式為
(4)求 k 階殘差 rk(t),計算公式為
(5)計算原序列的 IMFk+1(t),公式為
(6)重復步驟(4)~(5),直至殘差不能再分解,求得最終殘差 R(t):
則原序列x(t)的表達式為
式中:I為集總次數(shù),即每次求取分量時進行I次分解;ωi(t)為單位方差的零均值高斯白噪聲;εk為控制所添加噪聲和原始信號信噪比的噪聲系數(shù);Ek(·)為定義好的算子;K為IMF(t)的總數(shù)。
1986年,Rumelhart D E提出了BP神經(jīng)網(wǎng)絡,它是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,普遍應用于徑流預測。BP神經(jīng)網(wǎng)絡包括輸入層、隱含層和輸出層,網(wǎng)絡結構見圖1,通過各層之間的信息正向傳播和誤差反向傳播來確定權值與閾值。具體訓練過程見文獻[12-15]。
CEEMD-BP模型進行徑流預測的基本原理:月徑流序列通過CEEMD法分解,提取月徑流序列中具有一定物理意義的信號,并降低噪音干擾的影響,得到不同頻率的子序列,再通過BP神經(jīng)網(wǎng)絡對各子序列進行預測,最后對各子序列預測結果進行重構,得到月徑流預測值。模型預測過程見圖2。
汾河位于黃河中游,全長716 km,東西寬188 km,南北長412 km,從寧武縣管涔山雷鳴寺到太原市蘭村為汾河上游,全長216.9 km,流域面積為7 705 km2,屬溫帶大陸性氣候區(qū)。汾河上游水文站中,上靜游站位于汾河支流嵐河上,此站上游集水面積為1 140 km2;汾河水庫站位于嵐河與汾河干流交匯處,集水面積約32 km2,水庫總庫容為7億m3;寨上站坐落于古交市寨上村,位于汾河干流,集水面積約6 800 km2,與汾河水庫站之間的流域面積約1 500 km2;蘭村水文站位于太原市西北22.5 km的上蘭村,地處汾河中上游,集水面積約7 700 km2。4個水文站1958—2000年月徑流數(shù)據(jù)資料來自山西省水文局,已被運用于多個科研項目及工程,因此可以保證可靠性,其變差系數(shù)、偏度、峰度見表1。
表1 各站月徑流特征值
由表1可知:①上靜游站位于汾河支流,其月徑流量均值在4個水文站中最??;②汾河上游各站的變差系數(shù)為1.35~1.61,其月徑流量變化劇烈,徑流年內(nèi)分配不均,上靜游站變差系數(shù)最大,這主要與汾河水庫對下游的調(diào)節(jié)作用有關;③4個水文站的偏度均大于0,分布為右偏態(tài);④4個水文站的峰度均大于40,遠遠大于正態(tài)分布及均勻分布的峰度,說明月徑流量數(shù)值與均值相差較大,分布有更多的極端值,具有尖峰厚尾的特征。綜上所述,汾河上游4個水文站的月徑流序列是具有較多極端值、存在右偏現(xiàn)象且變化劇烈的非正態(tài)序列,即為非平穩(wěn)、非線性序列。
利用CEEMD法對4個水文站的月徑流資料進行分解,由分解結果可知4個水文站從IMF1到趨勢項的子序列均呈現(xiàn)頻率降低、波長變長、振幅變小的特征。各水文站的分解結果中,由于IMF1~IMF3中包含了原徑流序列中的主要成分,因此其仍表現(xiàn)出較高的頻率、較短的波長及較大的振幅;上靜游站、汾河水庫站、寨上站的IMF4~IMF7及蘭村站的IMF4~IMF6已明顯表現(xiàn)出一定的周期性及比較規(guī)律的波動性,其非線性、非平穩(wěn)性均有所下降;各站的Res已基本表現(xiàn)出徑流序列的長期變化趨勢,即上靜游站及汾河水庫站為下降趨勢、寨上站為先下降后上升趨勢、蘭村站總體為先下降后小幅上升再下降趨勢。由此可見,經(jīng)過CEEMD法分解可得到比原徑流序列更加平穩(wěn)的子序列。
為進一步說明CEEMD法分解效果,將CEEMD法分解結果與EMD分解結果進行了對比,可知EMD法分解結果的變化趨勢與CEEMD法的相似。但是,上靜游站、汾河水庫站、寨上站、蘭村站月徑流CEEMD法分解得到的IMF分別為8、8、8、7個,而EMD法得到的IMF分別為8、9、9、8個。除上靜游站外,其他3個水文站月徑流CEEMD法分解出的IMF比EMD法的少,且EMD法分解的各分量頻率曲線中頻率變化比CEEMD法的多,即CEEMD法分解減少了EMD法各分量中的某些頻率信號,可以推測CEEMD法能解決EMD法的模態(tài)混疊問題。通過CEEMD法分解的各分量比前一個分量頻率減小程度比EMD法的更加明顯,且CEEMD法分解的趨勢項也更加趨于線性平穩(wěn),由此驗證了CEEMD法在保留了EMD法處理非平穩(wěn)問題的優(yōu)勢的基礎上,能夠有效解決EMD法的模態(tài)混疊問題,這為后續(xù)BP神經(jīng)網(wǎng)絡預測精度的提高奠定了基礎。
將上靜游站、汾河水庫站、寨上站及蘭村站1958—2000年516個月的徑流資料分為兩部分,1958年1月—1999年6月498個月的徑流數(shù)據(jù)用于模型建模,1999年7月—2000年12月18個月的徑流數(shù)據(jù)用于模型驗證。
本文使用的BP神經(jīng)網(wǎng)絡輸入層節(jié)點數(shù)為31,輸出層節(jié)點數(shù)為18,根據(jù)前文分解出的IMF的不同頻率選擇合適的隱含層節(jié)點數(shù),高頻項、低頻項、趨勢項對應的隱含層節(jié)點數(shù)分別為18、15、17。確定好BP神經(jīng)網(wǎng)絡參數(shù)后,各IMF同樣被分為兩部分,前498個數(shù)據(jù)進行模擬,對后18個數(shù)據(jù)進行預測,再對各IMF的后18個預測數(shù)據(jù)進行重構,與原徑流數(shù)據(jù)進行對比,以驗證模型的預測效果,結果見圖3。
由圖3可知:①使用單一BP模型預測時,上靜游站2000年2—7月的預測值明顯大于實測值,其中2月偏差達到50%,BP模型預測結果是3個模型中偏差最大的;汾河水庫站除了2000年8月外,其余月份預測值均與實測值有較大偏差;寨上站出現(xiàn)兩處偏差大于50%的值,分別為1999年7月、2000年4月;蘭村站在2000年6月同樣出現(xiàn)偏差大于50%的值,但其預測值與實測值的變化趨勢基本相同,因此雖然BP模型預測精度較另外兩種模型低,但其也適用于非線性徑流序列的預測。②EMD-BP模型的預測效果整體較單一BP模型更好,均更加接近實測值,變化趨勢也基本相同,說明徑流經(jīng)過平穩(wěn)化處理后再進行預測,精度會有所提高,但汾河水庫站2000年9—12月通過EMD-BP模型預測出的結果是3種模型中偏差最大的,由此推測EMD法存在一定的模態(tài)混疊問題,對徑流預測有一定影響;改進EMD法分解過程的CEEMD-BP模型模擬各時段徑流的擬合程度均比EMD-BP模型更高。③CEEMD-BP模型的預測結果與實測徑流曲線擬合度最好,變化趨勢均與原序列相同,且無極端值出現(xiàn)。
綜上,CEEMD法在保留平穩(wěn)化處理的優(yōu)勢下,可有效克服EMD模態(tài)混疊問題對預測效果的影響,且BP模型適用于非線性徑流序列的預測,這說明利用CEEMD-BP模型對非平穩(wěn)、非線性徑流序列進行預測是可行、有效的。
為了更加清楚地反映模型預測結果的誤差及預測精度,采用平均絕對誤差(MAE)、均方根誤差(RMSE)及確定性系數(shù)(NS)這3個指標進行分析,3個指標的計算公式分別為
式中:σi為i時刻的預測值;σ0為i時刻的實測值;σ為實測值的均值。
根據(jù)《水文情報預報規(guī)范》(SL 250—2000)的規(guī)定,當 NS≥0.9 時,預測精度為甲級;0.7≤NS<0.9 時,預測精度為乙級;0.5≤NS<0.7時,預測精度為丙級;NS<0.5時,預測結果不可信。汾河上游4個水文站的誤差結果見表2。
由表2可知:①模擬期CEEMD-BP模型的誤差與BP模型、EMD-BP模型相比大幅減小,CEEMD-BP模型的MAE、RMSE與單一BP模型相比分別減小75%~82%、57%~70%;與 EMD-BP模型相比分別減小62%~77%、40%~64%。 BP 模型的 NS為 0.83~0.87,預測精度為乙級;EMD-BP 模型的 NS 為 0.87~0.91,其中上靜游站、汾河水庫站的模擬精度為乙級,寨上站及蘭村站的模擬精度為甲級;CEEMD-BP模型的NS在0.95以上,模擬精度均為甲級。由此可知,CEEMDBP模型的預測精度最高;3種模型的預測精度都達到了乙級以上,因此模型預測效果良好。②驗證期預測結果與模擬期相似,CEEMD-BP模型的誤差與BP模型、EMD-BP模型相比同樣大幅減小,CEEMD-BP模型的MAE、RMSE與單一BP模型相比分別減小53%~62%、48%~65%,與EMD-BP模型相比分別減小34%~46%、30%~43%。由于數(shù)據(jù)較多,因此BP神經(jīng)網(wǎng)絡出現(xiàn)了一定的過擬合現(xiàn)象,導致驗證期各模型的誤差均大于對應的模擬期誤差,但驗證期4個水文站通過BP 單一模型預測得出的 NS 為 0.81~0.84,EMD-BP模型的 NS 為0.84~0.86,CEEMD-BP 模型的 NS 均在0.90以上,3種模型的預測精度均達到乙級以上,因此這3種模型仍然適用于非平穩(wěn)、非線性的徑流序列預測,其中CEEMD-BP模型的預測精度均達到甲級,是3種模型中預測誤差最小的。
表2 汾河上游4個水文站的預測結果
綜上所述,無論是模擬期還是驗證期,CEEMDBP模型的模擬預測效果都比單一BP模型及EMDBP模型的要好,且預測精度均達到甲級,這進一步說明其用于非平穩(wěn)、非線性的徑流序列預測是可行、有效的。
(1)在對非平穩(wěn)、非線性徑流序列進行預測時,單一BP模型的預測精度雖然達到乙級,但是預測值與實測值易有偏差較大的情況出現(xiàn),因此需要先對徑流序列進行平穩(wěn)化處理。
(2)CEEMD法在保留EMD法對徑流序列平穩(wěn)化的優(yōu)勢下,解決了EMD法的模態(tài)混疊問題,從而提高了徑流處理的平穩(wěn)化程度。
(3)CEEMD-BP模型先通過CEEMD法將原徑流序列分解成若干子序列,再通過BP神經(jīng)網(wǎng)絡對各子序列進行預測,其預測結果與單一BP模型及EMDBP模型相比,誤差最小,預測精度最高,等級均達到甲級。因此,該方法用于復雜的非平穩(wěn)、非線性徑流序列預測是可行、有效的。