祝賓皓,,方 威,張勇傳
(1.華中科技大學(xué)土木與水利工程學(xué)院,湖北 武漢 430074;2.華中科技大學(xué)數(shù)字流域科學(xué)與技術(shù)湖北省重點(diǎn)實(shí)驗(yàn)室,湖北 武漢 430074)
洪水預(yù)報(bào)作為一種有效的防洪非工程措施,在防洪減災(zāi)緊急決策中發(fā)揮著不可替代的作用。洪水預(yù)報(bào)相關(guān)理論方法,經(jīng)歷了由經(jīng)驗(yàn)?zāi)P偷骄哂邢到y(tǒng)理論概念的黑箱模型,再到結(jié)合物理過(guò)程和經(jīng)驗(yàn)概化的概念性水文模型,最后到反映流域空間分異性的分布式水文模型的發(fā)展過(guò)程[1]。然而任何一類(lèi)水文模型都是對(duì)水循環(huán)過(guò)程選擇性概化的近似描述,理論上無(wú)法精確還原真實(shí)水文過(guò)程。另外,在洪水預(yù)報(bào)中難以避免地存在降雨輸入、模型結(jié)構(gòu)以及參數(shù)的不確定性問(wèn)題,前述不確定性的存在必將導(dǎo)致洪水預(yù)報(bào)結(jié)果的不確定性,因此探索一種強(qiáng)魯棒性、高精度的洪水預(yù)報(bào)模式已成為亟待解決的問(wèn)題。
自19世紀(jì)40年代起,眾多水文工作者已開(kāi)展關(guān)于水文不確定性對(duì)洪水預(yù)報(bào)的影響研究,其中,考慮降雨輸入、參數(shù)不確定性影響的研究聚焦于對(duì)誤差概率分布特征的定量刻畫(huà);考慮模型結(jié)構(gòu)不確定性影響的研究聚焦于模型產(chǎn)匯流機(jī)理的改進(jìn)以及預(yù)報(bào)模型優(yōu)選策略、模型耦合預(yù)報(bào)等方面。KRZYSZTO‐FOWICZ[2]提出貝葉斯洪水預(yù)報(bào)理論,應(yīng)用降雨不確定性處理機(jī)(Precipitation Uncertainty Processor, PUP)和水文不確定性處理機(jī)(Hydrologic Uncertainty Processor, HUP)分別處理降雨輸入不確定性和降雨以外的其他不確定性,從而明確洪水預(yù)報(bào)的總不確定性;KAVETSKI等[3]采用額外隱變量降低降雨輸入的不確定性,提出了貝葉斯總偏差分析(BayesianTotal Error Analy‐sis, BTEA)方法;AJAMI等[4]通過(guò)改用折算系數(shù)映射降雨輸入的不確定性,并結(jié)合貝葉斯模型平均(Bayesian Model Averag‐ing, BMA)方法考慮模型結(jié)構(gòu)不確定性,提出了貝葉斯綜合不確定性估計(jì)方法(the Integrated Bayesian Uncertainty Estimator,IBUNE);謝小燕[5]將多元門(mén)限回歸模型和(Artificial Neural Net‐work, ANN)模型進(jìn)行耦合預(yù)報(bào),完成了小山水庫(kù)的中長(zhǎng)期水文預(yù)報(bào);馮鈞等[6]將(Back Propagation, BP)網(wǎng)絡(luò)和(Long Short-Term Memory, LSTM)模型在子午河流域進(jìn)行耦合預(yù)報(bào),發(fā)現(xiàn)預(yù)報(bào)結(jié)果優(yōu)于任一單模型的預(yù)報(bào)結(jié)果;丁武等[7]采用極端梯度提升樹(shù)法(eXtreme Gradient Boosting, XGBoost)進(jìn)行多元水文時(shí)間序列趨勢(shì)相似性挖掘,達(dá)到了預(yù)測(cè)水文趨勢(shì)的目的。
為降低模型結(jié)構(gòu)不確定性對(duì)洪水預(yù)報(bào)帶來(lái)的負(fù)面影響,擬探明各水文模型的預(yù)報(bào)特征,采用多祌水文模型的不同耦合策略構(gòu)建洪水耦合預(yù)報(bào)系統(tǒng),以探尋研究流域產(chǎn)匯流機(jī)理的精細(xì)化表達(dá),降低極端降水事件所帶來(lái)的影響。
水文預(yù)報(bào)是對(duì)未知水文情勢(shì)的預(yù)測(cè),無(wú)論選用什么水文模型都會(huì)有預(yù)報(bào)誤差。但考慮到各個(gè)水文模型建模機(jī)制不同,在同一研究流域的預(yù)報(bào)表現(xiàn)也各不相同,擬綜合多個(gè)模型的預(yù)報(bào)特征對(duì)研究流域的徑流序列進(jìn)行耦合預(yù)報(bào)。耦合預(yù)報(bào)定義如下:
式中:F為最終耦合預(yù)報(bào)徑流預(yù)測(cè)值;wi為各模型被分配的權(quán)重,可以是顯式的也可以是隱式的;fi是第i個(gè)水文模型預(yù)測(cè)值;h為水文模型個(gè)數(shù)。
為探明研究流域的產(chǎn)匯流機(jī)制,綜合考慮影響預(yù)報(bào)結(jié)果的各種可能因素,本研究選擇基于蓄滿(mǎn)產(chǎn)流理念的新安江模型[8]、適用性較強(qiáng)的水箱模型[9]以及基于變動(dòng)產(chǎn)流面積原理的TOP‐MODEL模型[10],將3個(gè)模型的預(yù)測(cè)結(jié)果作為耦合模型的輸入,經(jīng)各耦合方法確定模型權(quán)重后,可由式(1)確定耦合預(yù)報(bào)的徑流預(yù)測(cè)序列。由于(Particle Swarm Optimization, PSO)[11]算法已經(jīng)廣泛應(yīng)用于水文模型的參數(shù)率定中[12-14],故本研究各模型的參數(shù)以確定性系數(shù)(Determination Coefficient, DC)為目標(biāo)函數(shù),由PSO算法率定得到。確定性系數(shù)的計(jì)算如下所示:
式中:Q代表實(shí)測(cè)徑流序列,代表實(shí)測(cè)徑流序列的平均值代表預(yù)報(bào)徑流序列;n代表序列長(zhǎng)度。
最小二乘法是一種數(shù)學(xué)方法,它通過(guò)尋求最小誤差平方和的方式找到一組數(shù)據(jù)的最優(yōu)函數(shù)形式,已經(jīng)在參數(shù)估計(jì)、系統(tǒng)辨識(shí)以及預(yù)測(cè)等專(zhuān)業(yè)領(lǐng)域中得到廣泛的應(yīng)用。周建中等[15]提供了最小二乘法在水文模型耦合預(yù)報(bào)中的應(yīng)用細(xì)節(jié)。
由于前述最小二乘法在處理本文的耦合預(yù)報(bào)時(shí)容易出現(xiàn)結(jié)果不穩(wěn)定的缺陷,故引入嶺回歸法[16]進(jìn)行耦合預(yù)報(bào)。嶺回歸法是一種適用于多重共線(xiàn)性數(shù)據(jù)分析的有偏估計(jì)回歸方法,可視為改進(jìn)的最小二乘法。該方法放棄最小二乘估計(jì)的無(wú)偏性,以損失部分信息、降低一定精度的代價(jià)獲得更符合現(xiàn)實(shí)的回歸系數(shù)[17]。本文的多模型耦合預(yù)報(bào)研究可歸類(lèi)為多重共線(xiàn)性問(wèn)題,采用嶺回歸法可以更有力的挖掘多模型預(yù)報(bào)的優(yōu)勢(shì),為研究流域的水文預(yù)報(bào)提供可靠保障。
極端梯度提升樹(shù),即XGBoost方法[18]在原始(Gradient Boosting Decision Tree, GBDT)模型的基礎(chǔ)上進(jìn)行了改造,以二階泰勒展開(kāi)方式代替GBDT模型中損失函數(shù)的一階泰勒展開(kāi)方式,增加了模型的泛化能力和對(duì)多維度數(shù)據(jù)間復(fù)雜關(guān)聯(lián)的捕捉能力,該模型把正則化向的結(jié)構(gòu)損失函數(shù)加入目標(biāo)函數(shù),以避免過(guò)擬合現(xiàn)象的發(fā)生,進(jìn)一步提升了模型適用能力。本文將XGBoost算法應(yīng)用于多模型耦合預(yù)報(bào),有望精準(zhǔn)捕捉各模型的預(yù)報(bào)特征并據(jù)此對(duì)該流域的徑流序列做出符合實(shí)際的預(yù)報(bào)方案。XGBoost方法的基本原理如下:
已知某樣本集
式中:xi為樣本輸入值;Xti、Yti、Zti分別為新安江模型、水箱模型和TOPMODEL模型在時(shí)刻i的預(yù)測(cè)值;n為徑流序列長(zhǎng)度;yi是樣本輸入值xi對(duì)應(yīng)的輸出值。
綜合Mulligan的研究,我們探討出許多問(wèn)題。其一,對(duì)于Mulligan技術(shù)操作方便,效果顯著,但是機(jī)制不明確;其二,研究探討某種疾病或功能障礙時(shí),無(wú)法給出明確納入標(biāo)準(zhǔn),禁忌癥與適應(yīng)證無(wú)明確的指南,只是通過(guò)疾病的適應(yīng)癥與禁忌癥大體估量;其三,樣本量和局限性的問(wèn)題仍不能解決。目前國(guó)內(nèi)與國(guó)外的差距明顯。從研究?jī)?nèi)容上,國(guó)外Folk[47]的研究已經(jīng)進(jìn)展到手指關(guān)節(jié),國(guó)內(nèi)還沒(méi)有研究到小關(guān)節(jié);從研究文獻(xiàn)的數(shù)量上,國(guó)外的研究也是領(lǐng)先于國(guó)內(nèi);從研究領(lǐng)域上,Kim[48]對(duì)腦卒中患者步態(tài)功能的恢復(fù),應(yīng)用動(dòng)態(tài)松動(dòng)術(shù)進(jìn)行研究。
那么XGBoost模型的目標(biāo)函數(shù)可以表示為:
式中:Fm代表模型在第m次迭代學(xué)習(xí)中的目標(biāo)函數(shù);式中第一項(xiàng)為損失函數(shù)項(xiàng)為第i個(gè)樣本在第m-1次迭代學(xué)習(xí)中的預(yù)測(cè)值,fm(xi)為第m輪迭代學(xué)習(xí)中新加入的樹(shù)基于輸入值xi和上一次迭代學(xué)習(xí)誤差做出的預(yù)測(cè)值;式中為正則化項(xiàng),是對(duì)于模型復(fù)雜度的懲罰函數(shù),T為葉子結(jié)點(diǎn)個(gè)數(shù),ω為葉子權(quán)重向量,γ和λ為權(quán)重系數(shù)。
為使目標(biāo)函數(shù)值最小,XGBoost方法需要評(píng)估所有葉子節(jié)點(diǎn),挑選能使目標(biāo)函數(shù)值最小的葉子節(jié)點(diǎn)進(jìn)行分裂,評(píng)估函數(shù)如下:
最終葉子節(jié)點(diǎn)分裂完成且所有決策樹(shù)的添加也完成時(shí),各模型預(yù)測(cè)結(jié)果與耦合預(yù)報(bào)結(jié)果的隱特征關(guān)系就存儲(chǔ)在XGBoost模型的結(jié)構(gòu)中,再次調(diào)用訓(xùn)練過(guò)的XGBoost模型就可計(jì)算耦合預(yù)報(bào)結(jié)果。
雅礱江流域位于青藏高原東側(cè),四川西部,全長(zhǎng)1 571 km,流域面積13.6萬(wàn)km2,干流狹長(zhǎng),支流呈樹(shù)枝狀均勻分布于干流兩岸;河源至河口天然落差3 830 m,上游呈高山及高原景觀(guān),徑流補(bǔ)給以冰雪為主,中下游為高原、高山峽谷河流,徑流補(bǔ)給以降水為主,地勢(shì)自西北向東南漸趨平緩;流域干濕季節(jié)明顯,暴雨一般出現(xiàn)在6-9月,呈連續(xù)性、大范圍、高強(qiáng)度的特點(diǎn);全年徑流量豐沛穩(wěn)定,且空間異質(zhì)性明顯。
因雅江~吉居區(qū)間處于雅礱江流域中游和下游的分界處,徑流受融雪、降水、地形各因素的影響程度不明確,故本文將其作為研究區(qū)域。研究中耦合預(yù)報(bào)采用的數(shù)據(jù)集由3 h尺度的新安江模型、水箱模型、TOPMODEL模型徑流預(yù)報(bào)數(shù)據(jù)以及雅礱江流域雅江、吉居站點(diǎn)實(shí)測(cè)徑流序列構(gòu)成。其中各模型徑流預(yù)報(bào)數(shù)據(jù)是本文基于雅礱江流域水電開(kāi)發(fā)有限公司提供的雅江~吉居區(qū)間各氣象站點(diǎn)3 h尺度的降水、蒸發(fā)、徑流資料,以2005-2010年為率定期、2011-2013年為檢驗(yàn)期,采用PSO算法確定模型參數(shù)后計(jì)算得到。研究流域圖及水文、氣象站點(diǎn)的空間分布信息見(jiàn)圖1。
圖1 研究區(qū)域氣象站、流量站分布圖Fig.1 Distribution diagram of meteorological stations and flow stations in the study area
為了從多個(gè)角度全面、準(zhǔn)確的評(píng)價(jià)本文采用的各種耦合預(yù)報(bào)方法,本文引入確定性系數(shù)DC、均方根誤差(Root Mean Square Error,RMSE)和平均絕對(duì)誤差(Mean Absolute Error,MAE)3個(gè)指標(biāo)對(duì)模型的預(yù)報(bào)性能、預(yù)報(bào)穩(wěn)定性進(jìn)行評(píng)價(jià)。其中DC的計(jì)算由式(2)給出,RMSE和MAE的計(jì)算公式如下:
式中:Q代表實(shí)測(cè)徑流序列?代表預(yù)報(bào)徑流序列;n代表序列長(zhǎng)度。
3個(gè)獨(dú)立模型在3種耦合方法下的權(quán)重如表1、圖2所示。
表1 各模型在兩種回歸方法中被賦予的權(quán)重Tab.1 The weights assigned to each model in two regression methods
圖2 各獨(dú)立模型在XGBoost中的特征重要性Fig.2 Feature importance of each independent model in XGBoost
由表1可知,最小二乘法在賦予模型權(quán)重時(shí),易受到模型間共線(xiàn)性的影響,從而賦予某個(gè)預(yù)報(bào)效果較好的模型過(guò)多的權(quán)重,這導(dǎo)致耦合預(yù)報(bào)失去了原本的意義;相較于最小二乘法,嶺回歸方法能提供一組更穩(wěn)定、可解釋性更強(qiáng)的模型權(quán)重;但以上兩種回歸方法都是直接將權(quán)重與預(yù)測(cè)序列相乘之后得到最終預(yù)測(cè)序列,這與綜合考慮各模型預(yù)報(bào)特征進(jìn)行耦合預(yù)報(bào)的初衷仍有出入。在XGBoost中,特征重要性是指節(jié)點(diǎn)分裂時(shí)該特征帶來(lái)信息增益(目標(biāo)函數(shù))優(yōu)化的平均值,特征對(duì)信息增益影響程度的大小決定了重要性的大小,且由圖2可知各模型的預(yù)報(bào)特征在XGBoost的建模過(guò)程中得到了充分考慮,特征重要性并未出現(xiàn)過(guò)大的差距。結(jié)合圖2中各模型的特征重要性以及各模型的建模原理(新安江模型側(cè)重于蓄滿(mǎn)產(chǎn)流,即土壤類(lèi)型;水箱模型側(cè)重于冰雪融水;TOPMODEL側(cè)重于地形條件),可以認(rèn)為對(duì)研究流域產(chǎn)匯流特征影響最大的因素是冰雪融水,其次是土壤類(lèi)型和地形特征,這也與雅江~吉居區(qū)間地處青藏高原的地理位置相符合。
3個(gè)水文模型的預(yù)測(cè)表現(xiàn)以及3種耦合預(yù)報(bào)方法的預(yù)測(cè)表現(xiàn)如表2所示(加粗指標(biāo)對(duì)應(yīng)的模型為該評(píng)價(jià)指標(biāo)下的最優(yōu)模型)。
表2 模型輸出結(jié)果Tab.2 Performances of all models
由表2、圖3可知,獨(dú)立模型的預(yù)報(bào)中,不同評(píng)價(jià)指標(biāo)下的最優(yōu)單個(gè)水文模型也是不同的,例如新安江模型在確定性系數(shù)、均方根誤差這兩個(gè)指標(biāo)上的表現(xiàn)比其余兩個(gè)水文模型好,但在檢驗(yàn)期平均絕對(duì)誤差的表現(xiàn)上不如水箱模型。所以沒(méi)有任何一個(gè)水文模型能在所有評(píng)價(jià)指標(biāo)上同時(shí)表現(xiàn)出最優(yōu)。與此同時(shí),在同一研究流域的不同預(yù)報(bào)階段,同一水文模型的表現(xiàn)也會(huì)出現(xiàn)差異性,例如新安江模型在洪峰階段的擬合效果較好,但在退水階段,新安江模型就失去了擬合優(yōu)勢(shì)。這是因?yàn)樘烊凰倪^(guò)程自身具有極大的隨機(jī)性和非線(xiàn)性特征,而各模型都是在某個(gè)側(cè)重點(diǎn)上實(shí)現(xiàn)對(duì)水文過(guò)程的概化模擬,無(wú)法完全準(zhǔn)確的模擬水文過(guò)程,所以單個(gè)模型的預(yù)測(cè)能力是有限的,目前不存在一個(gè)最優(yōu)水文模型。
圖3 獨(dú)立模型預(yù)測(cè)結(jié)果Fig.3 Prediction results of independent model
圖4 耦合模型預(yù)測(cè)結(jié)果Fig.4 Prediction results of coupled model
由表2、圖3、4可知,多模型耦合預(yù)報(bào)的預(yù)測(cè)表現(xiàn)普遍優(yōu)于單模型預(yù)報(bào),但基于最小二乘法的傳統(tǒng)耦合預(yù)報(bào)在處理此類(lèi)多重共線(xiàn)性問(wèn)題時(shí),效果劣于最優(yōu)獨(dú)立模型。針對(duì)此缺陷做出改進(jìn)的嶺回歸法在預(yù)測(cè)表現(xiàn)以及適用性上都要強(qiáng)于最小二乘法,但在多數(shù)評(píng)價(jià)指標(biāo)上的表現(xiàn)劣于XGBoost方法。多模型耦合預(yù)報(bào)中,在率定期的擬合效果方面,XGBoost方法相較于最小二乘法、嶺回歸法分別提升了1.69%、1.58%;在預(yù)測(cè)誤差方面,以RMSE為指標(biāo),XGBoost方法相較于最小二乘法、嶺回歸法分別降低了29.66%、28.96%;以MAE為指標(biāo),XGBoost方法相較于最小二乘法、嶺回歸法分別降低了27.72%、28.90%。檢驗(yàn)期內(nèi),在擬合效果方面,XGBoost方法相較于最小二乘法、嶺回歸法分別提升了0.65%、0.02%;在預(yù)測(cè)誤差方面,以RMSE為指標(biāo),XGBoost方法相較于最小二乘法降低了4.45%、相較于嶺回歸法提升了1.99%;以MAE為指標(biāo),XGBoost方法相較于最小二乘法、嶺回歸法分別降低了13.09%、6.07%。
整體來(lái)看,3種耦合預(yù)報(bào)方法中,XGBoost方法預(yù)報(bào)效果最優(yōu)、嶺回歸法次之、最小二乘法最差,且不同時(shí)期內(nèi)XGBoost方法的預(yù)報(bào)效果未出現(xiàn)較大差異。充分證明XGBoost方法較其他方法能更深入地挖掘各模型在研究流域表現(xiàn)出的不同預(yù)報(bào)特征并據(jù)此進(jìn)行耦合預(yù)報(bào),同時(shí)展現(xiàn)出XGBoost方法良好的穩(wěn)健性和強(qiáng)大的泛化能力。
以雅礱江流域雅江~吉居區(qū)間為研究對(duì)象,將新安江模型、水箱模型和TOPMODEL模型作為備選模型,采用最小二乘法、嶺回歸法和XGBoost模型進(jìn)行多模型耦合徑流預(yù)報(bào)研究,經(jīng)數(shù)據(jù)對(duì)比分析得出如下結(jié)論。
(1) 從預(yù)測(cè)精度上看,基于隱式特征挖掘的XGBoost模型預(yù)測(cè)表現(xiàn)要明顯優(yōu)于服從線(xiàn)性假定的最小二乘法、嶺回歸法預(yù)測(cè)表現(xiàn),將其應(yīng)用于研究流域能更好的指導(dǎo)水庫(kù)防洪調(diào)度工作,增加社會(huì)效益。
(2) 從預(yù)測(cè)穩(wěn)定性上看,不同時(shí)期內(nèi)各方法的預(yù)報(bào)效果差距較小,均未出現(xiàn)過(guò)擬合現(xiàn)象,但XGBoost模型與嶺回歸法在應(yīng)用上的泛化能力、合理性均強(qiáng)于傳統(tǒng)最小二乘法,有望在其余流域推廣使用。
(3) 本研究有尚待改進(jìn)的地方,例如可以在單個(gè)水文模型的預(yù)報(bào)中加入洪峰識(shí)別功能,進(jìn)一步增強(qiáng)洪峰部分的預(yù)報(bào)準(zhǔn)確度;還可以在數(shù)據(jù)集中加入臨近數(shù)時(shí)段的預(yù)報(bào)誤差,預(yù)報(bào)時(shí)考慮實(shí)時(shí)誤差的影響,這些都將在以后的研究中逐步落實(shí)。