王藝晗 樊孔明
(1.河海大學(xué)水文水資源學(xué)院 南京 210000 2.加州大學(xué)洛杉磯分校土木與環(huán)境學(xué)院3.淮河水利委員會水文局(信息中心) 蚌埠 233001)
中長期徑流預(yù)報成果是月、年調(diào)度計劃編制的重要基礎(chǔ),運用典型年、時間序列分析、遙相關(guān)等多種徑流預(yù)報模型方法對關(guān)鍵水文斷面、水利工程的來水過程進行滾動預(yù)報,為流域可供水量分析、水資源調(diào)度計劃制定提供數(shù)據(jù)支撐。
該研究以史灌河流域主要站點的1956~2016年系列水文資料為基礎(chǔ),采用常見的中長期預(yù)報模型,包括AR(AutoRegression)、KNN(k-nearest Neighbor)、BPNN(Back-Propagation Neural Network) 及LSTM(Long-Short term memory neural network)共四種方法進行中長期來水預(yù)測。以前期徑流量、前期降雨量作為預(yù)報因子輸入,對重點流域的各計算分區(qū)進行年、月尺度的中長期來水預(yù)報。
根據(jù)《流域水資源調(diào)度方案編制技術(shù)指導(dǎo)(草案)》要求,考慮到BMA(Bayesian Model Averaging)模型在水文水資源領(lǐng)域的廣泛應(yīng)用,且能夠提供確定性、概率預(yù)報兩類預(yù)報結(jié)果,能提供未來有多大的可能性出現(xiàn)各種等級的降水,該模型研發(fā)過程中采用BMA 模型作為多模型集合預(yù)報的核心算法,用于綜合AR、KNN、BPNN、LSTM四類模型的預(yù)報結(jié)果。
AR 模型是最常見的平穩(wěn)時間序列模型之一,是統(tǒng)計上一種處理時間序列的方法,用同一變量xt的歷史數(shù)值,即xt-1至xt-p來預(yù)測xt,并假設(shè)它們?yōu)橐痪€性關(guān)系。自回歸模型被廣泛運用在經(jīng)濟學(xué)、信息學(xué)、自然現(xiàn)象的預(yù)測上。一個p 階自回歸模型可以表示如下:
KNN 算法是數(shù)據(jù)挖掘分類技術(shù)中最簡單的方法之一。所謂k最近鄰,就是k 個最近的鄰居的意思,說的是每個樣本都可以用它最接近的k 個鄰居來代表。KNN 算法的核心思想是如果一個樣本在特征空間中的k 個最相鄰的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別,并具有這個類別上樣本的特性。該方法在確定分類決策上只依據(jù)最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別?;贙NN 的方法依賴于歷史樣本中最有價值的少數(shù)樣本進行預(yù)報,而不是盲目地選擇時間上最近的樣本或全部可用樣本。
神經(jīng)網(wǎng)絡(luò)模型主要有以下幾種類型:前向型、反饋型、隨機型和競爭型。
1.3.1 BPNN 模型
BPNN 是前饋神經(jīng)網(wǎng)絡(luò)的一種,就是在前饋型網(wǎng)絡(luò)的結(jié)構(gòu)上增加了后向傳播算法。后向傳播是用于訓(xùn)練時網(wǎng)絡(luò)權(quán)值和閾值的調(diào)整,該過程是需要監(jiān)督學(xué)習(xí)的。在訓(xùn)練網(wǎng)絡(luò)階段,輸出與訓(xùn)練集之間的偏差逐級向前傳遞,通過梯度下降等算法求得目標(biāo)函數(shù)的取值,盡可能使得期望和輸出之間的誤差減小。
1.3.2 LSTM Networks
LSTM 是遞歸神經(jīng)網(wǎng)絡(luò)(RNNs)的一種,在處理大復(fù)雜非線性系統(tǒng)問題時往往表現(xiàn)出優(yōu)異的性能。相對于BPNN 在傳統(tǒng)的工程科學(xué)、簡單的時間序列中獲得應(yīng)用,LSTM Networks 已經(jīng)被廣泛應(yīng)用在機器人控制、文本識別及預(yù)測、語音識別、蛋白質(zhì)同源檢測等領(lǐng)域。LSTM 的優(yōu)點在于解決了 SimpleRNN 梯度消失的問題,可以處理 long-term sequence,并在一定程度上緩和了梯度爆炸問題。其缺點是計算復(fù)雜度高,采用LSTM 的谷歌翻譯技術(shù)也只是7~8 層LSTM,LSTM 的實時應(yīng)用較為困難。
Leamer 最早地將貝葉斯理論引入到多模型集合預(yù)報,提出了Bayesian Model Averaging (BMA)模型,并指出BMA 能夠處理模型選擇所帶來的不確定性,避免過分依賴某單一的所選模型所帶來的計算誤差。以年降雨Q 作為預(yù)報變量,Tobs表示本年度以前實測降雨數(shù)據(jù)。設(shè)有m 個單一的降雨預(yù)報模型,某時刻的最優(yōu)模型為M,則模型j為最優(yōu)的概率為p(M=j|Tobs),j=1,2,…m。根據(jù)貝葉斯理論,降雨量預(yù)報值Q 的后驗概率分布為:
式中:p(Q|M=j,Tobs)為在給定數(shù)據(jù)集Tobs和最優(yōu)模型為j 的條件下,預(yù)報變量Q 的后驗分布;ωj表示模型j 為最優(yōu)的概率或模型j 的權(quán)重值,且滿足ωj=p(M=k|Tobs),
由于模型結(jié)構(gòu)等不確定因素的存在,事先并不知道哪個模型為最優(yōu)模型,需要根據(jù)已知的實測與預(yù)報序列計算得出其為最優(yōu)的概率。一般以BMA 算法所得預(yù)報變量分布的平均值作為BMA 確定性預(yù)報結(jié)果發(fā)布;其0.05 與0.95分位數(shù)上的值被認為是90%置信度的置信下限、上限。
準(zhǔn)備史灌河流域1956~2016年逐年降雨、徑流數(shù)據(jù);史灌河流域代表站蔣家集的歷年逐月降雨、徑流數(shù)據(jù)。
為了得到月徑流量的的預(yù)報值,為調(diào)度計算及調(diào)度方案的制定提供數(shù)據(jù)支持,需要根據(jù)歷史降雨數(shù)據(jù),篩選出不同頻率對應(yīng)典型年,根據(jù)預(yù)報降雨量相應(yīng)頻率、典型年,確定預(yù)報年的月分配比例系數(shù)。我國水文頻率計算一般采用P-Ⅲ型頻率曲線進行經(jīng)驗頻率適線。
(1)將AR 模型的回歸階數(shù)、KNN 的特征向量維數(shù)、BPNN 與LSTM 的輸入層節(jié)點數(shù)目統(tǒng)一設(shè)置為2,BMA 算法的集合預(yù)報成員數(shù)目為4;(2)依據(jù)現(xiàn)有1956~2016年的重點流域年降雨序列,按照75%∶25%的比例將完整系列劃分為訓(xùn)練期、驗證期,對所建立中長期預(yù)報、集合預(yù)報模型進行率定與檢驗;(3)由于設(shè)定階數(shù)、特征向量維數(shù)、輸入層節(jié)點數(shù)等均為2。例如采用2015年、2016年降雨分別代入上述4 個預(yù)報模型預(yù)測2017年降雨,然后將2016年、2017年降雨分別代入預(yù)測2018年降雨,如此循環(huán)直到預(yù)測得到2030年降雨。
表1 史灌河流域降雨預(yù)報結(jié)果精度評定表
已確定BMA 集合預(yù)報成員數(shù)目為4,其各成員即上述四個中長期預(yù)報模型。依據(jù)現(xiàn)有1956~2016年的重點流域年降雨序列,按照75%∶25%的比例將完整系列劃分為訓(xùn)練期、驗證期,對所建立集合預(yù)報模型進行率定與檢驗。約定目標(biāo)函數(shù)為絕對誤差值。收斂條件為:(1)最大循環(huán)次數(shù)50000;(2)最小改進程度為0.1%。模型檢驗通過后,采用訓(xùn)練好的BMA 模型綜合四個集合預(yù)報成員對2017~2030年逐年的年降雨預(yù)報結(jié)果,BMA 集合預(yù)報均值作為各年份集合預(yù)報的確定性結(jié)果,同時,其5%~95%置信區(qū)間的預(yù)報結(jié)果作為概率預(yù)報結(jié)果提供。
根據(jù)《水文情報預(yù)報規(guī)范》,采用納什效率系數(shù)(確定性系數(shù))、均方根誤差兩指標(biāo)用于模型精度評定。整理分析各模型在訓(xùn)練期、驗證期的預(yù)報結(jié)果評定結(jié)果,如表1所示。
從表1中可以直觀看到在采用RMSE 評價時,各模型在驗證期的RMSE 指標(biāo)往往都比訓(xùn)練期略高;而NSE 指標(biāo)在驗證期更低,即各模型在采用訓(xùn)練期的參數(shù)進行驗證時,往往會出現(xiàn)模型的模擬誤差放大的情況。BMA 集合預(yù)報算法在訓(xùn)練期、驗證期的精度評定指標(biāo)值的變化較小,其NSE 指標(biāo)的變化為0.03,遠低于四個單一模型中的BPNN 指標(biāo)的0.13,而RMSE 指標(biāo)在驗證期比訓(xùn)練期還要小,這也一定程度上說明了BMA 集合預(yù)報在中長期降雨預(yù)報中比傳統(tǒng)模型相對更穩(wěn)定、可靠。
根據(jù)表1分析,認為相對其他三個模型來說,LSTM模型預(yù)報年降雨的過程與實測降雨的匹配程度更高,在評價指標(biāo)上就直觀地反映為LSTM 的NSE 指標(biāo)比其他幾個模型的NSE 指標(biāo)更大。AR、BPNN 兩種常見的傳統(tǒng)預(yù)報方法所得到的預(yù)報過程與實測之間的差距相對更為明顯,表現(xiàn)在評價指標(biāo)上就是NSE 指標(biāo)更小、RMSE 指標(biāo)相對更大。AR、BPNN 兩模型表現(xiàn)較差說明采用AR、BPNN 模型所默認存在序貫相關(guān)關(guān)系進行降雨預(yù)報,在中長期降雨預(yù)報這種紊動程度較高的應(yīng)用場景是相對不那么適用的。而BPNN、LSTM 在驗證期的誤差放大得相對較為明顯,說明采用歷史樣本訓(xùn)練的參數(shù)去預(yù)報未來降雨在一定程度上也是相對不夠可靠的。
圖1 BMA 概率預(yù)報結(jié)果圖
圖1展示了BMA 均值預(yù)報結(jié)果。BMA 集合預(yù)報結(jié)果的精度相對并不高,但是無論是其精度評定指標(biāo)、驗證期預(yù)報的穩(wěn)定性還是模型對年降雨過程的擬合精度,都不會出現(xiàn)明顯劣于單一模型的情況,采用BMA 算法能夠提高中長期降雨預(yù)報的精度與可靠性,尤其對預(yù)報結(jié)果可靠性程度的提升較為顯著。
由圖1、表1可知,率定期LSTM、BMA 均值預(yù)報結(jié)果的NSE 指標(biāo)均達到0.4 以上,其中LSTM 率定期預(yù)報結(jié)果的NSE 指標(biāo)達到0.43,RMSE 為四個模型、集合均值中的最小值為187.42。就預(yù)報精度而言普遍偏低,未能達到《水文情報預(yù)報規(guī)范》規(guī)定的預(yù)報作業(yè)要求。LSTM 模型預(yù)報精度相對最高,BMA 均值預(yù)報結(jié)果最為穩(wěn)定,可以避免上述各集合預(yù)報成員出現(xiàn)預(yù)報可靠性降低的情況。
圖1中陰影區(qū)域表示的是BMA 集合預(yù)報的90%置信度區(qū)間,從其中可以觀察到BMA 的置信區(qū)間一定程度上能夠覆蓋各年度實際降雨量值,其覆蓋度指標(biāo)為61.9%。這表明BMA 所提供的概率預(yù)報結(jié)果,具有可靠性。BMA集合預(yù)報的可靠性會隨著各單一預(yù)報模型精度的提高而顯著提升。
該研究以1956~2016年蔣家集站的長系列降雨量數(shù)據(jù)為基礎(chǔ),采用了AR、KNN、BPNN、LSTM 四種單一的預(yù)報模型,模擬進行年降雨預(yù)報;并引入BMA 算法綜合四種模型的預(yù)報結(jié)果,給出多模型集合預(yù)報的確定性及概率預(yù)報結(jié)果。經(jīng)研究結(jié)果統(tǒng)計分析可知,單一的模型在進行中長期降雨預(yù)報的時候,往往會出現(xiàn)預(yù)報精度不高、預(yù)報誤差較大、驗證期預(yù)報結(jié)果穩(wěn)定性較差的情況,這也是在中長期洪水預(yù)報應(yīng)用中常會遇到的問題。研究發(fā)現(xiàn),在采用BMA 集合預(yù)報算法對初步的預(yù)報結(jié)果進行綜合之后,算法所能夠給出的預(yù)報結(jié)果在模擬精度、驗證期預(yù)報結(jié)果穩(wěn)定性上有了提高,說明多模型綜合對于提高中長期預(yù)報結(jié)果的可靠性程度是有積極意義的。
根據(jù)中長期預(yù)報技術(shù)精度要求,下一步需要引入由中國氣象局國家氣候中心氣候監(jiān)測室提供的大氣環(huán)流指數(shù)、海溫等數(shù)據(jù),優(yōu)化篩選預(yù)報因子,進一步完善各中長期預(yù)報模型,提高模型預(yù)報精度與可靠性■