李 青
(安徽省安慶水文水資源局,安徽 安慶 246003)
洪水過程是水文領(lǐng)域中一項(xiàng)復(fù)雜非線性時間序列命題。傳統(tǒng)統(tǒng)計(jì)預(yù)測方法和物理驅(qū)動模型往往無法解決數(shù)據(jù)維度高、非線性關(guān)系復(fù)雜問題。近年來,受益于計(jì)算科學(xué)計(jì)算日益發(fā)展,機(jī)器學(xué)習(xí)方法在時間序列模擬中得到廣泛應(yīng)用。其中LightGBM采用基于梯度提升算法,通過分裂數(shù)據(jù)集來構(gòu)建樹,使得每個葉子節(jié)點(diǎn)盡可能純凈,進(jìn)而提高模型的精度和泛化能力。文中以LightGBM 回歸模型為探究對象,研究秋浦河洪水過程,并對影響洪水過程的各因素展開分析。
秋浦河位于皖南池州、屬長江下游支流,流域范圍為113.3~115.6E、32.5~34.2N,流域面積2 235 km2,總流程150 km。屬長江下游丘陵、山地、峽谷、盆地復(fù)雜地形,海拔介于50~2 768 m,地形崎嶇破碎。區(qū)域冬季受西伯利亞高壓控制,夏季受西北太平洋季風(fēng)影響,形成亞熱帶季風(fēng)性氣候,多年平均氣溫13 ℃~16 ℃,年降水量800~1 200 mm,其中夏季降水量可達(dá)50%以上,具有冬涼夏熱、雨熱同季特點(diǎn)。區(qū)域年均徑流量達(dá)24.34 億m3,年內(nèi)呈現(xiàn)豐枯變化,由于降雨強(qiáng)度大和強(qiáng)烈地表破壞,導(dǎo)致流域內(nèi)土壤侵蝕嚴(yán)重,極易誘發(fā)河道淤積和洪水。
LightGBM(Light Gradient Boosting Machine)是一基于決策樹的梯度提升框架,其采用了梯度提升和GOOS 技術(shù),因此比傳統(tǒng)決策樹模型具有更好學(xué)習(xí)能力與運(yùn)行效率。其通過梯度提升的單邊采樣和排他性特征,突破了樹模型對信息增益限制。GOSS 保留那些較大梯度的信息而隨機(jī)放棄小梯度實(shí)例,以減小不同樹之間輸出偏差進(jìn)而提高最終預(yù)測準(zhǔn)確性。對于一個具有n 個實(shí)例的訓(xùn)練集{x1…xn},式中xi是空間Xs 中維數(shù)為s的向量。在梯度提升迭代中,損失函數(shù)對模型輸出的負(fù)梯度表示為{g1…gn}。對于剩余由梯度較小實(shí)例組成集合Ac,隨機(jī)抽取大小為b×|Ac|的子集B,并根據(jù)子集A 上的向量Vj(d)的估計(jì)方差增益:
數(shù)據(jù)來源于安徽省水文中心。以秋浦河流域內(nèi)7 個雨量站2020年7月19-21日逐小時降水資料,以及水文斷面過境徑流量數(shù)據(jù)為基礎(chǔ),各數(shù)據(jù)間隔為1 h,數(shù)據(jù)時間序列長度為89,以第1-60 h的樣本為訓(xùn)練集,第61-89 h的樣本為測試集。對雨洪模擬使用的資料包含逐小時的降雨、徑流數(shù)據(jù),為避免量綱差異和數(shù)據(jù)噪聲,使用Man-min函數(shù)進(jìn)行歸一化處理進(jìn)而縮放至[0,1]區(qū)間。參考相關(guān)研究經(jīng)驗(yàn),將雨洪相關(guān)資料處理為時間序列變量,例如設(shè)置為t-n時刻的降雨資料、和t時刻徑流數(shù)據(jù),其中n為預(yù)見期時長,R表示過境斷面流量,P1~P7依次為各雨量(共7個)站觀測資料。XGBoost模型輸入為時間序列窗口,包含了9 個特征時間步長,即在模擬過程中窗口逐次向前滑動直至訓(xùn)練集末尾。預(yù)處理數(shù)據(jù)形式如表1。
表1 研究區(qū)數(shù)據(jù)預(yù)處理后時間步長形式表
秋浦河此次洪水是當(dāng)?shù)乇┯晁纬?,山地丘陵區(qū)河道狹窄、蜿蜒曲折,徑流匯聚快、紅楓過境稍慢,其漲洪約為16 h,退峰約24 h,洪峰持續(xù)時間約50 h。由于局部降水不均,洪水前峰尚未落平、后峰接踵而至,形成復(fù)式洪峰。
對于洪水預(yù)測模型的構(gòu)建,本文采用以下步驟:基于訓(xùn)練集使用Python 開源程序設(shè)計(jì)LightGBM 模型,并初始化模型參數(shù),使用GridsearchCV方法(交叉驗(yàn)證)進(jìn)行參數(shù)調(diào)優(yōu)。該模型關(guān)鍵參數(shù)調(diào)節(jié)范圍如下:
在LightGBM的回歸模型中,鏈函數(shù)是默認(rèn)的“Sigmoid”,它的輸出范圍在[0,1]之間。對于數(shù)量的預(yù)測應(yīng)該采用Quantile Regression,文中的選取了分位數(shù)為0.90,從而訓(xùn)練出的LightGBM回歸模型的準(zhǔn)確性得到了有效保證。
利用訓(xùn)練好的模型對預(yù)見期洪水過程進(jìn)行模擬,其具體效果見圖1。圖1a-f分別表示預(yù)見期為1、2、3、4、5、6 h條件下的洪水模擬與預(yù)報(bào)值,可清晰看出預(yù)測值與實(shí)際值十分貼近,其最大相對誤差Bias小于20%,且較好識別了漲洪退洪過程、洪峰等洪水特征,表明其整體模型效果較好。表2進(jìn)一步給出了6種預(yù)見期條件下LightGBM模型精度參數(shù)。當(dāng)預(yù)見期為1 h,其預(yù)報(bào)精度最高,具體的R2達(dá)0.96,RMSE 和Bias 依次為101.50 m3/s、4.57%,當(dāng)預(yù)見期為6 時,其模擬精度最低,相應(yīng)地R2為0.69,RMSE和Bias依次為192.30 m3/s、19.52%。仔細(xì)分析發(fā)現(xiàn),當(dāng)預(yù)見期小于4時,其預(yù)測精度變化緩慢;而當(dāng)預(yù)見期大于4時,其模擬精度迅速下降,表明預(yù)見期為4是其有效預(yù)測閾值。綜合來看,隨著預(yù)見期增加,LightGBM 模型預(yù)報(bào)精度隨之降低,這是由于預(yù)見期越長而輸入與輸出樣本之間間隔越寬,導(dǎo)致數(shù)據(jù)序列之間關(guān)聯(lián)性逐次下降。
圖1 不同預(yù)見期條件下LightGBM模型模擬洪水精度圖
表2 不同預(yù)見期下LightGBM模型模擬洪水精度表
文章建立了基于XGBoost樹形結(jié)構(gòu)的統(tǒng)計(jì)模型來模擬洪水過程。具體結(jié)論如下:①以LighrGBM為代表的機(jī)器學(xué)習(xí)模型利用非線性擬合技術(shù),使用同期影響洪水過程的敏感變量可準(zhǔn)確模擬和預(yù)報(bào)洪水過程,這展示了機(jī)器學(xué)習(xí)技能在水文過程、徑流量序列變化仿真中良好前景。②預(yù)見期的設(shè)定嚴(yán)重影響模擬精度,這也表明LighrGBM算法對未來雨洪模擬存在一定局限性,即該模型對短預(yù)見期的洪水過程預(yù)報(bào)精度更高。此研究存在一定不足,例如僅使用了歷史徑流氣象數(shù)據(jù)進(jìn)行模型訓(xùn)練,然而洪水過程不僅與氣候降雨密切相關(guān),還與指標(biāo)條件、土壤質(zhì)地、蒸散發(fā)等存一定關(guān)聯(lián),而這些自然要素與徑流匯聚、洪水過程之間存在滯后耦合。因此后續(xù)研究可利用EEMD特征分解的徑流過程分量來描述降雨-徑流過程中時滯特性,并增加更多敏感變量作為輸入,進(jìn)而改善增強(qiáng)模型對洪水物理過程的認(rèn)知。