高永華
(河北省衡水水文勘測研究中心,河北 衡水 053000)
徑流量預(yù)測是基于歷史水文氣象數(shù)據(jù)預(yù)測未來時段內(nèi)徑流變化,是自然災(zāi)害預(yù)報、水資源管理、水文環(huán)境研究等領(lǐng)域中的熱點之一[1-3]。傳統(tǒng)徑流量預(yù)測方法局限于自回歸模型如ARIMA等,其顯著缺點在于基于線性關(guān)系,對于非線性的水文數(shù)據(jù)預(yù)測效果不佳,且無法考慮歷史徑流對未來水文過程影響[2-3]。近年來,深度學(xué)習(xí)技術(shù)在時間序列變量預(yù)測中得到成功應(yīng)用,其中LSTM(Long Short-Term Memory)網(wǎng)絡(luò)作為一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),具有優(yōu)異的數(shù)量級優(yōu)化和記憶管理能力[3-5]。河北省是我國北方重要的糧食生產(chǎn)和工業(yè)基地,由于區(qū)域特殊氣候環(huán)境、城鎮(zhèn)化等因素,地表徑流量發(fā)生了很大變化。本文以河北省的水文氣象數(shù)據(jù)為基礎(chǔ),提出一種基于LSTM網(wǎng)絡(luò)的河流徑流量預(yù)測新方法,通過實驗分析評估LSTM模型應(yīng)用性,進而為水文預(yù)測預(yù)報研究提供新途徑。
河北位于華北腹地,東臨渤海、西連太行、北依燕山,坐標(biāo)為35°30′~42°47′N,113°27′~119°50′E,區(qū)域面積18.7萬km2,如圖1所示??傮w地勢特點為東北高、西南低,海拔介于4~2033m,形成北部山地、中西部丘陵、東側(cè)平原的分異地貌。受海陸位置與季風(fēng)相互作用影響,形成溫帶大陸性季風(fēng)氣候,具有冬寒夏雨、春暖秋涼、降雨集中的特點,其年平均氣溫約8~15℃之間,年均降水量440~650mm之間,無霜期110~220d,平均日照時數(shù)2500h,有效積溫2600℃~3700℃,年蒸發(fā)量1105~1600mm。該地地跨黃、海、懷、漳河等水系,多年平均徑流量約120×108m3,約占區(qū)域水資源總量的7%,該地地表徑流存在干旱持續(xù)時間長、水體污染嚴(yán)重、河流斷流頻現(xiàn)等問題。
圖1 研究區(qū)河川距離分布
本研究選取河北省1961—2020年徑流量數(shù)據(jù)進行研究,數(shù)據(jù)來源為國家河流水文站臺歷史徑流量觀測數(shù)據(jù)庫和已有文獻研究。另從氣象數(shù)據(jù)共享服務(wù)網(wǎng)站搜集到研究區(qū)近60年來的降水量、蒸發(fā)量、氣溫等3項指標(biāo)數(shù)據(jù),全部數(shù)據(jù)集不存在異常值和缺失項。
作為循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的一種改進,LSTM網(wǎng)絡(luò)結(jié)構(gòu)中新建立了在時間方向上了含有反饋連接的記憶單元,具體是添加了3個門結(jié)構(gòu):輸入門、遺忘門和輸出門,用于控制網(wǎng)絡(luò)狀態(tài)信息的輸入、刪除和輸出,其核心公式如下[4]:
輸入門控制器:i(t)=σ(wixx(t)+wihh(t-1)+bi)
(1)
遺忘門控制器:f(t)=σ(wfxx(t)+wfhh(t-1)+bf)
(2)
輸出門控制器:o(t)=σ(woxx(t)+wohh(t-1)+bo)
(3)
式中,i(t)—t時刻的輸入變量;σ—sigmoidal函數(shù);w、b—各門的權(quán)重、偏置;h、s—隱藏、單元狀態(tài)。
本研究使用Rstudio平臺中的keras程序庫設(shè)計LSTM網(wǎng)絡(luò)模型,在實際應(yīng)用中需對網(wǎng)絡(luò)結(jié)構(gòu)層次、優(yōu)化器、損失函數(shù)進行優(yōu)化[5]。其中n表示網(wǎng)絡(luò)層次數(shù)量,決定了模型收斂速率,Adam優(yōu)化器可自適應(yīng)調(diào)整參數(shù)學(xué)習(xí)率,損失函數(shù)為預(yù)測輸出與真正之間誤差衡量[6]。本文選用grid方法進行參數(shù)優(yōu)化,進而調(diào)整LSTM網(wǎng)絡(luò)結(jié)構(gòu),使模型訓(xùn)練達到最優(yōu)狀態(tài)。
LSTM算法具有很強的適應(yīng)性,這意味著該算法性能依賴于數(shù)據(jù)結(jié)構(gòu)和模型參數(shù)。為此,本文對全部輸入數(shù)據(jù)進行Min-Max歸一化處理,使其范圍介于0~1之間,以便減小數(shù)據(jù)噪聲。此外,采用Grid搜索法進行超參數(shù)尋優(yōu),以保持模型穩(wěn)健性[8-9]。全部樣本數(shù)據(jù)被隨機分成兩部分,第一部分(1961—2000)用于模型校準(zhǔn),第二部分(2001—2020)用于驗證。將LSTM網(wǎng)絡(luò)模型迭代運行100次,最后基于100次運行結(jié)果的平均值評價模型精度。利用決定系數(shù)(R2)、均方根誤差(RMSE)和平均絕對誤差(MAE)評價徑流量預(yù)測性能,計算公式如下。
(4)
(5)
(6)
研究區(qū)1951—2020年逐月徑流量序列的變化特征如圖2所示。期間月徑流量最大、最小值分別為63.16億、-1.75億m3,中值、平均值和標(biāo)準(zhǔn)差依次為5.77億、9.11億、10.37億m3,但其變異系數(shù)達1.14,說明月際之間徑流量變異性顯著。利用線性回歸擬合其變化趨勢,結(jié)果表明其變化形式為y=-0.0012x+9.6289,R2=0.0008,但并未通過5%水平信度檢驗。
圖2 研究區(qū)逐月徑流量序列特征
研究區(qū)月序列徑流量呈現(xiàn)明顯峰谷特征變化,經(jīng)分析發(fā)表徑流量峰值集中于6—9月,谷值多為12~2月,這符合區(qū)域水文氣候特征實際。由于研究區(qū)受大陸性季風(fēng)影響,降雨呈現(xiàn)明顯季節(jié)性分配,而徑流量年內(nèi)變化與之俱有同步性[10]。
利用Rstudio軟件平臺中的keras程序包設(shè)計LSTM網(wǎng)絡(luò)。利用研究區(qū)1950—2000年近600個月的逐月徑流量序列為訓(xùn)練集進行建模。由于LSTM是參數(shù)化模型,模型擬合能力不僅依賴于輸入數(shù)據(jù)特征,還受算法的超參數(shù)影響。該網(wǎng)絡(luò)模型包含隱藏層大小(hidden_size)、網(wǎng)絡(luò)層數(shù)(n_layer)、Dropout、滑動窗口大小(window size)、學(xué)習(xí)率(learn rate)、梯度截斷(Gradient Clipping)等關(guān)鍵參數(shù);其中hidden_size影響模型所能捕捉的訓(xùn)練數(shù)據(jù)的復(fù)雜度;n_layer控制模型的復(fù)雜度;Dropout是為了防止模型過擬合而添加的正則化項,以減小過擬合的風(fēng)險;window size為記憶單元長度、learn rate控制收斂速度、Gradient Clipping是防止梯度爆炸或梯度消失。利用網(wǎng)格搜索法進行超參數(shù)尋優(yōu)過程,最終模型超參數(shù)設(shè)置見表1。
表1 LSTM網(wǎng)絡(luò)模型超參數(shù)配置
利用近20年共48個月序列徑流量數(shù)據(jù)進行獨立驗證,徑流量預(yù)測值與實際值之間的散點圖如圖3所示。LSTM網(wǎng)絡(luò)模型的R2達0.89、MAE和RMSE分別為3.06億、3.95億m3,并且離散度分離性較低,均聚集于1∶1線附近,表明該LSTM模型較好擬合了徑流量與歷史徑流序列、環(huán)境變量之間的關(guān)系。而經(jīng)典ARIMA模型驗證結(jié)果表明,其R2僅為0.79、MAE和RMSE分別為4.68億、5.87億m3,盡管其模型性能穩(wěn)定,但仍存在明顯離散點,部分離散信息偏離度較大,說明該模型對于極值信息擬合能力欠缺。相較而言,LSTM模型的R2比ARIMA模型提升了12%,而MAE和RMSE分別降低了35%、33%,這反映了LSTM模型在預(yù)測研究區(qū)徑流量方面的優(yōu)勢,因此該算法具有一定應(yīng)用潛力。
圖3 徑流量預(yù)測值與實際值之間的散點圖
為改進月徑流預(yù)測精度,本研究利用LSTM深度學(xué)習(xí)模型聯(lián)合歷史徑流序列、環(huán)境變量數(shù)據(jù),對河北省徑流量展開預(yù)測研究。結(jié)果表明。
(1)LSTM網(wǎng)絡(luò)通過加入時間序列歷史信息更好地發(fā)掘月徑流序列中的隱藏信息,模型驗證精度R2達0.89、MAE和RMSE分別為3.06億、3.95億m3,相較于傳統(tǒng)ARIMA模型有較大改進,在徑流量時間序列模擬中具有良好應(yīng)用前景。
(2)LSTM網(wǎng)絡(luò)模型性能受超參數(shù)影響敏感,采用網(wǎng)格搜索法可快速配置模型優(yōu)化參數(shù)。
(3)盡管LSTM網(wǎng)絡(luò)模型在地表徑流量模擬中展現(xiàn)出一定優(yōu)勢,許多方面值得改進,建議未來研究中利用小波分析、EEMD分解算法對徑流序列進行多尺度重構(gòu)進而充分發(fā)掘時間序列特征信息,將其與LSTM、CNN-LSTM模型耦合,進一步改善徑流量預(yù)測準(zhǔn)確性。