張力 王紅瑞 郭琲楠 徐源浩 李理 謝駿
摘要:揭示變化環(huán)境下非平穩(wěn)徑流序列波動特征,可為提高徑流預(yù)測精度和涉水工程規(guī)劃提供支撐。針對徑流序列具有非平穩(wěn)性、周期性和異方差性的特征,收集長江流域攀枝花、城陵磯和大通站2008—2018年實測徑流資料,基于周期趨勢分解法(STL)將原始數(shù)據(jù)分解為周期項、趨勢項和剩余項,結(jié)合各子序列特征采用多模型集成獲取未來徑流的綜合預(yù)測值,并將預(yù)測結(jié)果與Prophet、LSTM和GARCH等單一模型進(jìn)行對比。結(jié)果表明:聯(lián)合機(jī)器學(xué)習(xí)和時序分解的集成模型在多個評價指標(biāo)上均優(yōu)于單一模型,且對異方差效應(yīng)顯著的站點模擬精度提升明顯;驗證期內(nèi)3個站點的納什效率系數(shù)分別為0.96、0.95和0.93,表明該模型能有效模擬長江流域徑流波動過程。
關(guān)鍵詞:徑流模擬;時序分解;機(jī)器學(xué)習(xí);異方差;集成模型;長江流域
中圖分類號:TV122
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-6791(2023)01-0042-11
收稿日期:2022-08-27;
網(wǎng)絡(luò)出版日期:2023-01-31
網(wǎng)絡(luò)出版地址:https:∥kns.cnki.net/kcms/detail∥32.1309.P.20230131.1323.004.html
基金項目:國家自然科學(xué)基金資助項目(52279005);北京師范大學(xué)博一學(xué)科交叉項目(BNUXKJC2124)
作者簡介:張力(1997—),男,江西鄱陽人,博士研究生,主要從事水資源系統(tǒng)分析研究。
E-mail:zhanglicws@mail.bnu.edu.cn
通信作者:王紅瑞,E-mail:henrywang@bnu.edu.cn
20世紀(jì)以來,流域(區(qū)域)水循環(huán)機(jī)理顯著變化加劇了水文復(fù)雜特性,考慮非平穩(wěn)徑流序列的預(yù)測成為目前水文非一致性研究的熱點與難點[1-2],主要表現(xiàn)為:① 變化環(huán)境下流域水文序列在劇烈波動后沒有呈現(xiàn)恢復(fù)長期均值的趨勢,這種“隨機(jī)游走”行為呈現(xiàn)典型非平穩(wěn)特征,徑流預(yù)測過程中眾多動態(tài)不確定性因素的累積傳導(dǎo)造成預(yù)測結(jié)果的不確定,對現(xiàn)有徑流預(yù)測模型的適用性提出了嚴(yán)峻挑戰(zhàn);② 水文序列特征提取建模后,信息未被充分挖掘,剩余殘差平方序列的自相關(guān)函數(shù)具有較強(qiáng)的條件異方差性,致使結(jié)果不確定性增加并導(dǎo)致實際風(fēng)險管理中估計不足。例如,Ha等[3]在長江流域進(jìn)行洪水預(yù)報時,對時間序列統(tǒng)計特征提取不足,影響了徑流預(yù)測的準(zhǔn)確性。此外,國際水文科學(xué)協(xié)會(IAHS)在2019年發(fā)布的水科學(xué)領(lǐng)域23個未決問題中強(qiáng)調(diào),探究流域尺度上水文序列時間變化趨勢規(guī)律在人類生活生產(chǎn)、發(fā)電以及防汛抗旱等多方面具有重要的現(xiàn)實價值[4]。
現(xiàn)有的徑流預(yù)測模型可分為基于物理機(jī)制的流域水文過程模型和數(shù)據(jù)驅(qū)動模型,前者由于部分水文過程認(rèn)識不足,在揭示流域產(chǎn)匯流機(jī)制和水文機(jī)理過程中有所欠缺;后者僅需捕捉輸入和輸出數(shù)據(jù)之間的關(guān)系,無需理解復(fù)雜物理過程,已被廣泛應(yīng)用于降水和徑流等水文預(yù)測[5]。經(jīng)典的數(shù)據(jù)驅(qū)動模型前提條件是殘差序列獨立且服從正態(tài)分布,方差為常數(shù)或具有季節(jié)時變性[6]。顯然在實際中,大部分水文序列特性都無法滿足這一前提條件,傳統(tǒng)的隨機(jī)水文學(xué)建模方法顯現(xiàn)出一定局限性,亟需進(jìn)一步探究考慮條件異方差性序列的模型和建模方法來進(jìn)行徑流預(yù)測[7]。為消除條件異方差影響,廣義自回歸條件異方差模型(Generalized autoregressive conditional heteroskedasticity model,GARCH)通過描述序列的異方差性、異偏度和異峰度特性[8],使其能夠較好地捕捉隨機(jī)波動特征用以提高預(yù)報精度,已在水文領(lǐng)域得到部分應(yīng)用[9]。但在變化環(huán)境下徑流序列往往具有非線性和隨機(jī)性等特征,難以滿足模型的初始假設(shè)[10],以長短時記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)神經(jīng)網(wǎng)絡(luò)模型為代表的機(jī)器學(xué)習(xí)方法逐漸在水文預(yù)報領(lǐng)域得到廣泛應(yīng)用,且在人類活動影響顯著的流域能夠很好地描述徑流過程[11]。然而,上述數(shù)據(jù)驅(qū)動模型主要側(cè)重于徑流序列的非線性特征,對徑流周期性和非平穩(wěn)性的影響存在部分忽視,在一定程度上限制了徑流預(yù)測的精度。集成學(xué)習(xí)方法被證實是提高預(yù)測能力的有效方法[12],如鮑振鑫等[13]在明晰各模型優(yōu)劣的基礎(chǔ)上集成水文模型與機(jī)器學(xué)習(xí),取得了較好的水沙模擬效果;Fathian等[14]考慮了徑流序列的隨機(jī)性和異方差性,綜合神經(jīng)網(wǎng)絡(luò)和GARCH模型提高了月徑流預(yù)測精度。基于局部加權(quán)回歸的周期趨勢分解(Seasonal-trend decomposition procedure based on loess,STL)即為一種簡潔高效的模型集成方法,通過模型集成實現(xiàn)優(yōu)勢互補,適用于任何周期性數(shù)據(jù)[15]。
長江作為中華民族的母親河,淡水資源豐富,研究其徑流演變和預(yù)報可從不同角度向水資源管理提供決策支撐服務(wù)。本研究以長江干流代表性水文站點2008—2018年實測徑流為研究對象,基于STL算法和不同模型優(yōu)勢,將分解后的徑流季節(jié)項、趨勢項和剩余項數(shù)據(jù)作為多個模型輸入,輸出最終預(yù)測徑流序列值,旨在進(jìn)一步提高徑流預(yù)報精度,為涉水工程規(guī)劃提供依據(jù)。
1 模型建立
集成學(xué)習(xí)是一種根據(jù)規(guī)則整合多個基模型學(xué)習(xí)器輸出的結(jié)果,從而獲得相較于單一模型效果更優(yōu)的機(jī)器學(xué)習(xí)方法,已在長江流域得到部分應(yīng)用[16]。與此同時,多模型集成的方式能充分挖掘人類活動影響下蘊含在徑流序列中的統(tǒng)計特征,一定程度上彌補對人類活動因素考慮的不足。建模步驟如下:首先,
通過STL模型將原始徑流序列分解為季節(jié)序列、趨勢序列和剩余序列;其次,根據(jù)各子序列波動特征,采用Prophet模型預(yù)測季節(jié)成分、LSTM模型預(yù)測分解后的徑流趨勢成分、GARCH模型預(yù)測剩余波動成分;最后,將預(yù)測得出的徑流序列趨勢成分預(yù)測值、剩余成分預(yù)測值和季節(jié)成分預(yù)測值相加,得到集成模型徑流預(yù)測值(圖1)。
1.1 周期趨勢分解
周期趨勢分解是典型的時間序列分解方法,區(qū)別于傳統(tǒng)的季節(jié)分解方法,STL在處理異常值時的魯棒性更強(qiáng)[17],且能夠處理多種尺度樣本數(shù)據(jù)的季節(jié)性。對于徑流數(shù)據(jù)Yt(t=1,2,…,n),STL基于局部加權(quán)回歸將原始數(shù)據(jù)Yt分解為季節(jié)成分(St)、趨勢成分(Tt)和殘余成分(Rt),表達(dá)式如下:
Yt=St+Tt+Rt(1)
STL可分為內(nèi)循環(huán)和外循環(huán)2個遞歸過程,1個內(nèi)循環(huán)嵌套在1個外循環(huán)內(nèi)。趨勢和季節(jié)成分將在每次通過內(nèi)部循環(huán)時更新;外循環(huán)的每一輪都包括內(nèi)循環(huán),然后計算穩(wěn)健性權(quán)重,在內(nèi)循環(huán)的下一次運行中使用這些權(quán)重,以減少趨勢和季節(jié)性成分中瞬時、異常值的影響。
1.2 Prophet模型
Prophet模型是一種基于廣義加法模型的時間序列預(yù)測算法,在處理缺失數(shù)據(jù)和異常值時效果表現(xiàn)較好[18]。本研究中Prophet模型優(yōu)點在于,基于STL分解提供的先驗周期信息,模型提取的周期項更為完善,擬合速度快且適用于具有強(qiáng)烈周期性影響的時間序列,因此選用其預(yù)測分解后的季節(jié)成分。模型由4個部分組成,即
y(t)=g(t)+s(t)+h(t)+εt(2)
式中:y(t)為時間序列數(shù)據(jù);g(t)為趨勢項;s(t)為周期項;h(t)為節(jié)假日項(在徑流預(yù)測中可不考慮);εt為誤差項。
采用邏輯回歸函數(shù)來擬合時間序列的趨勢項:
式中:C為最大容量,表示未來時間序列峰值;k為增長率,增長速度隨k值增大而加快,即更容易達(dá)到序列峰值;m為偏移量。
周期項采用傅里葉級數(shù)來擬合:
式中:P為時間序列的周期;N為在模型中周期使用次數(shù);an、bn分別為正余弦函數(shù)的振幅。
1.3 LSTM模型
為解決遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)的梯度消失和梯度爆炸問題,Hochreiter等[19]提出了長短時記憶神經(jīng)網(wǎng)絡(luò)模型。該模型的核心思想是門控邏輯,基于其獨特的門控結(jié)構(gòu)和反饋連接,將數(shù)據(jù)的時序特征引入神經(jīng)網(wǎng)絡(luò),使得數(shù)據(jù)關(guān)系在網(wǎng)絡(luò)結(jié)構(gòu)中傳遞,并通過記憶模式和遺忘模式充分提取數(shù)據(jù)的時序規(guī)律。徑流序列趨勢項具有較強(qiáng)的時序特征,采用LSTM算法對其預(yù)測能夠有效利用長距離的時序信息。
為使收斂速度加快并提高集成模型預(yù)測精度,采用Python中MinMaxScaler函數(shù)對分解后的趨勢項時間序列進(jìn)行歸一化處理,將徑流數(shù)據(jù)量化在[0,1]之內(nèi)。歸一化公式如下:
式中:x為實際值;x′為歸一化處理后的值;max(x)和min(x)分別為數(shù)據(jù)集中的最大值和最小值。
1.4 GARCH模型
GARCH模型通過對時間序列增加方差的滑動自平均項,來刻畫時間序列的條件方差隨時間的變化特征,能有效捕捉時間序列中的異方差效應(yīng)和隨機(jī)項特征,然其在水文領(lǐng)域研究尚不多見。在國內(nèi),Wang等[20]最早開展水文序列異方差模型研究,并基于實測徑流資料建立GARCH模型,表明水文序列具有異方差效應(yīng),同時能夠提高預(yù)測精度。因此,采用GARCH模型來預(yù)測STL分解后剩余項序列效果較好,其表達(dá)式如下:
式中:yt是時間序列;εt為誤差項;σ2t為誤差平方項;δ0為常數(shù)項;ηi為波動的自回歸系數(shù);j為波動的條件異方差系數(shù)。一般要求p>0,q>0,δ0>0,ηi≥0,j≥0以保證條件方差為正。
由于模型參數(shù)估計復(fù)雜且具有多重共線性,選擇太多滯后期可能會帶來更多“噪音”,而GARCH(1,1)模型在方程正確設(shè)定的情況下足以捕捉到波動性[21]。因此,本研究分別采用Augmented Dickey-Fuller(ADF)和拉格朗日乘子(LM)對剩余項單位根以及異方差效應(yīng)檢驗后,建立GARCH(1,1)模型對其模擬。
1.5 模型效果評估
采用克林效率系數(shù)(EKG)、納什效率系數(shù)(ENS)、均方根誤差(ERMS)以及平均絕對百分比誤差(EMAP)4個指標(biāo)對模型效果進(jìn)行評價。計算公式分別為:
式中:r為皮爾遜線性相關(guān)系數(shù);α為實測流量與模擬流量標(biāo)準(zhǔn)差的比率;β為實測流量與模擬流量均值的比率;y為觀測序列;y′為模擬序列;
y為觀測序列的均值;n為序列長度。
2 結(jié)果及分析
2.1 研究區(qū)概況
本研究收集了長江干流攀枝花、城陵磯和大通3個水文站2008—2018年逐日徑流數(shù)據(jù)(圖2),數(shù)據(jù)來源于長江流域水文年鑒。攀枝花站扼守上游金沙江流域,控制面積約為25.92萬km2;城陵磯站為中游洞庭湖出口水文站,素有長江水文情勢和洞庭湖“晴雨表”之稱,多年平均年徑流量高達(dá)2 600億m3;大通站位于下游安徽省池州市,控制面積約170萬km2。這3個站點地理位置、氣候因子和下墊面狀況均有不同,且徑流量變化也存在一定差異。采用上述3個站點徑流的樣本數(shù)據(jù)進(jìn)行預(yù)測可更加客觀、系統(tǒng)地評價模型的有效性和穩(wěn)定性。
機(jī)器學(xué)習(xí)需要較多的訓(xùn)練數(shù)據(jù)以期獲得較好的參數(shù)估計,同時為避免數(shù)據(jù)量過少導(dǎo)致的模型過擬合或欠擬合現(xiàn)象[22],本研究按照9∶1的比例將原始數(shù)據(jù)劃分為訓(xùn)練集和驗證集,即訓(xùn)練集為2008年1月1日至2017年12月31日(共3 653個數(shù)據(jù)),驗證集為2018年1月1日至12月31日(共365個數(shù)據(jù))。
2.2 徑流序列分析
由逐日徑流過程可以看出,3個代表性水文站在2008—2018年的逐日徑流序列具有相似的過程形態(tài),在長江三峽及上游金沙江河段一批大型水庫投入運行影響下季節(jié)性和波動性顯著(圖3)。攀枝花站日均流量為1 820 m3/s,非汛期內(nèi)的實測日徑流過程變化較為平穩(wěn),而流量過程線在汛期及汛后波動顯著;城陵磯站徑流年內(nèi)年際變化均極其劇烈,日均流量為7 650 m3/s;下游地區(qū)支流眾多、降水豐富,流量和變化幅度顯著增大,大通站日均流量為27 600 m3/s,2008—2018年間最大洪峰流量是攀枝花站的8.8倍。
隨著汛期內(nèi)每日流量均值的升高,攀枝花站每日流量的標(biāo)準(zhǔn)差也上升(圖4)。從全年的范圍來看,徑流標(biāo)準(zhǔn)差的變幅很大,最低只有60.7 m3/s,最高達(dá)到1 871.2 m3/s。同時,大的方差主要集中在6—9月,而在1月、2月、3月以及12月中方差都很小,這是一種明顯的條件異方差(ARCH)效應(yīng)[6]。表1中徑流序列的拉格朗日乘子檢驗結(jié)果表明,3個站點徑流序列ARCH-LM檢驗的F統(tǒng)計量和Nobs*R2(Nobs為樣本量;R2為決定系數(shù))統(tǒng)計量所對應(yīng)的P值均為0,通過1%水平下的顯著性檢驗,表明徑流序列存在顯著異方差效應(yīng),滿足異方差模型建立的前提條件。F統(tǒng)計量越大,異方差效應(yīng)越顯著,因此,3個站點異方差效應(yīng)呈現(xiàn)沿江遞減趨勢。
2.3 STL分解時序
采用STL方法將原始徑流序列進(jìn)行分解,得到長期趨勢變化、周期變化和不規(guī)則隨機(jī)變化序列。以攀枝花水文站2018年的日徑流為例,其趨勢項與原始徑流序列數(shù)據(jù)呈現(xiàn)總體一致的變化規(guī)律,但是在分解后變化更為平滑。徑流序列分解出的剩余項波動呈現(xiàn)隨機(jī)性,且波動幅度隨著汛期的來臨明顯增大,與季節(jié)項不同的是,未呈現(xiàn)出明顯變化規(guī)律(圖5)。
圖5 攀枝花站2018年逐日徑流序列分解結(jié)果
Fig.5Decomposition results of daily runoff series at Panzhihua station in 2018
根據(jù)式(1)分解結(jié)果進(jìn)行協(xié)方差計算,進(jìn)一步分析季節(jié)項、趨勢項和剩余項在汛期(6—9月)與非汛期對徑流序列波動的貢獻(xiàn)率[15]。各成分貢獻(xiàn)率分別為:
式中:Ct為趨勢項對徑流序列波動貢獻(xiàn)率;Cs為季節(jié)項對徑流序列波動貢獻(xiàn)率;Cr為剩余項對徑流序列波動貢獻(xiàn)率。
表2展示了各子序列分量對徑流序列波動的貢獻(xiàn)率。橫向?qū)Ρ刃蛄蟹纸獬煞植町悾砻髭厔蓓椧恢笔怯绊憦搅餍蛄胁▌拥闹鲗?dǎo)貢獻(xiàn)因子,出現(xiàn)這種情況是因為長江流域河川徑流主要來源于大氣降水,徑流隨降水呈現(xiàn)顯著的年際豐枯趨勢變化,導(dǎo)致趨勢性特征的主導(dǎo)地位。剩余項的貢獻(xiàn)率次之,而季節(jié)項對徑流序列波動的長期影響相對較小,貢獻(xiàn)率均維持在0.1%。縱向?qū)Ρ雀髡军c分布地理位置,趨勢項對徑流序列波動的貢獻(xiàn)率從上游至下游逐漸增加,剩余項對徑流序列波動的貢獻(xiàn)率逐漸減小,季節(jié)項貢獻(xiàn)率保持不變。究其原因,上游在降水和下墊面的時空分布不均勻性影響下導(dǎo)致徑流湍急且呈現(xiàn)不規(guī)則波動,但在沿江水利工程和江河湖泊的調(diào)蓄作用下,下行湍急的長江中游和下游段變得水勢平緩,顯著平抑了上述不確定性因素對徑流不規(guī)則波動的影響,致使剩余項對徑流序列波動貢獻(xiàn)率從上游到下游逐漸減小,相應(yīng)地,趨勢項影響越來越大。
2.4 模型參數(shù)設(shè)置
模型參數(shù)設(shè)置對模擬精度影響較大,Prophet模型中參數(shù)較少,異方差模型采用定階后的GARCH(1,1)模型,而LSTM模型包含多個超參數(shù),需在學(xué)習(xí)過程之前進(jìn)行優(yōu)化確定,以提高學(xué)習(xí)性能。對于單變量時間序列數(shù)據(jù),過于復(fù)雜的模型結(jié)構(gòu)反而無法較好地進(jìn)行參數(shù)訓(xùn)練,同時可能導(dǎo)致訓(xùn)練的計算和時間成本增加。因此,本研究基于深度學(xué)習(xí)開源Keras框架搭建LSTM神經(jīng)網(wǎng)絡(luò)模型,模型結(jié)構(gòu)由輸入層、1個LSTM層及輸出層組成,損失函數(shù)使用均方誤差,模型訓(xùn)練過程采用Adam(Adaptive momentum)算法進(jìn)行優(yōu)化[23]。模型關(guān)鍵超參數(shù)包括輸入時間步長、批處理數(shù)據(jù)大小、神經(jīng)元數(shù)量以及迭代次數(shù)。輸入時間步長是用來預(yù)測徑流所用到的時間序列長度,過短的時間步長將導(dǎo)致預(yù)測不確定性,而過長將會提高預(yù)測難度。在長江流域徑流預(yù)報模型構(gòu)建中,初始設(shè)置輸入步長分別為3、7、14和21 d進(jìn)行預(yù)測,發(fā)現(xiàn)輸入步長為14 d時模型精度高且訓(xùn)練時間較短,因此,選擇輸入過去14 d的日徑流數(shù)據(jù)用于預(yù)測。批處理數(shù)據(jù)大小的選擇對模型預(yù)測效果較小,為提高模型效率,將該參數(shù)設(shè)置為128。另外,神經(jīng)元數(shù)量反映網(wǎng)絡(luò)復(fù)雜程度,迭代次數(shù)指模型學(xué)習(xí)一次數(shù)據(jù)的全過程。在本章中,分別將神經(jīng)元數(shù)量設(shè)置為5、10、20、50、100,并將迭代次數(shù)設(shè)置為一個較大的值進(jìn)行訓(xùn)練,隨后發(fā)現(xiàn)神經(jīng)元數(shù)量取10時預(yù)測誤差最小。圖6展示了LSTM模型在模擬過程中訓(xùn)練誤差及驗證誤差隨迭代次數(shù)變化的過程,可以看出,在迭代次數(shù)為75時,3個站點LSTM模型的收斂速度快且此時模型訓(xùn)練誤差及驗證誤差均呈現(xiàn)一致下降的趨勢,直至最終基本穩(wěn)定,表明此時模型訓(xùn)練完畢。
2.5 徑流預(yù)測結(jié)果
分別構(gòu)建長江干流不同站點徑流序列STL分解后的Prophet、GARCH(1,1)和LSTM模型,然后疊加子序列的預(yù)測結(jié)果,進(jìn)而得到各站點的最終預(yù)測流量。集成模型在3個站點的總體表現(xiàn)如表3所示:訓(xùn)練期內(nèi),模型在攀枝花、城陵磯和大通站的EKG分別為0.95、0.93
和0.98,ENS分別為0.94、0.92和0.92;而在驗證期,模型在3個站點的EKG分別為0.96、0.91和0.98,ENS分別為0.96、0.95和0.93,參照《水文情報預(yù)報規(guī)范:GB/T 22482—2008》,集成模型模擬精度為甲等。訓(xùn)練期內(nèi)模型在攀枝花、城陵磯和大通站的ERMS分別為345.7 m3/s、1 383.6 m3/s和1 438.3 m3/s;而在驗證期,模型在3個站點的ERMS分別為393.8 m3/s、1 187.7 m3/s和1 302.9 m3/s??梢钥闯?,訓(xùn)練期和驗證期內(nèi)模型效果評價指標(biāo)總體相近,但由于訓(xùn)練期內(nèi)異常值更多,考慮到提升模型應(yīng)對噪聲數(shù)據(jù)時的魯棒性和反映徑流的真實變化規(guī)律,在數(shù)據(jù)處理階段并未將其直接刪除,導(dǎo)致訓(xùn)練期內(nèi)模型模擬效果在一定程度上稍遜于驗證期。此外,在異方差效應(yīng)最強(qiáng)的攀枝花站,結(jié)合GARCH(1,1)的集成模型模擬精度最高,表明適當(dāng)階數(shù)的GARCH型模型在捕獲線性時間序列模型殘差中的異方差性和提高模型精度方面具有優(yōu)勢。對比集成模型模擬的時間序列結(jié)果與實測數(shù)據(jù),結(jié)果表明,模型能夠較為精準(zhǔn)地學(xué)習(xí)徑流的波動規(guī)律和極值,在汛期流量激增的情況下,盡管模型預(yù)測的變幅在時間上出現(xiàn)一定遲緩,對徑流極值的模擬效果仍然較好,因此,可以認(rèn)為基于STL分解和機(jī)器學(xué)習(xí)構(gòu)建的集成模型能夠很好地模擬長江流域典型水文站點的徑流過程(圖7)。
為更直觀地反映集成模型的預(yù)測性能和優(yōu)勢,對攀枝花、城陵磯和大通站分別建立了Prophet、LSTM和GARCH 3種日徑流預(yù)測模型與本文模型對比,驗證期內(nèi)徑流模擬評價指標(biāo)如表4所示。驗證期內(nèi),集成模型在攀枝花、城陵磯和大通站的ENS值均高于單一模型模擬結(jié)果。從EKG來看,各單一模型在攀枝花站的EKG分別為0.66、0.85和0.86;而在徑流波動更劇烈的大通站,EKG分別為0.82、0.91和0.89,集成模型在大通站的EMAP對比單一模型也分別降低了8.25%、6.91%和7.28%。對比模型效果評估指標(biāo)可以發(fā)現(xiàn),基于STL分解的集成模型展現(xiàn)出明顯優(yōu)于單一模型的擬合性能,模擬效果在不同程度上均有所提高,模擬出的流量過程線與觀測序列波動最為相似。對各模型效果進(jìn)行排序,集成模型性能優(yōu)于單一LSTM和GARCH模型,而Prophet模型在對此類非平穩(wěn)且波動劇烈的時間序列模擬時精度相對較差。
一般來說,模型模擬的ENS達(dá)到0.75時即表明模擬效果較好。因此,本研究構(gòu)建的集成模型模擬精度較高,能夠反映長江流域徑流過程的季節(jié)變化特征。值得一提的是,在對此類ARCH效應(yīng)顯著的時間序列進(jìn)行建模預(yù)測時,GARCH(1,1)模型表現(xiàn)出不輸于機(jī)器學(xué)習(xí)模型的性能,表明通過建立GARCH類模型修正序列異方差性對開展不確定性分析更加有利。因此,水文序列異方差效應(yīng)在實際建模中是值得考慮的,未來可推廣至其他流域,具有較為廣闊的應(yīng)用前景。此外,相對于Prophet、LSTM和GARCH單一模型,基于STL分解的集成模型有著更為明顯的優(yōu)越性。主要原因在于,Prophet、LSTM和GARCH單一模型在對徑流數(shù)據(jù)模擬時并未對原始序列進(jìn)行先驗處理,先驗信息的不足致使無法準(zhǔn)確識別非平穩(wěn)徑流序列中的波動性和周期性,導(dǎo)致在最終預(yù)測中不可避免地存在一定的模型輸入不確定性。而基于STL分解的集成模型則充分考慮了上述問題,在對徑流序列分解后,選擇適合各項數(shù)據(jù)特征的模型進(jìn)行模擬,最終有效提升了模擬精度,表現(xiàn)為較好的模擬效果。
在對比的3種單一模型中,Prophet始終是在各個站點徑流模擬精度最低的模型,主要原因在于,Prophet模型可供調(diào)節(jié)的參數(shù)較少,其假定在一定周期內(nèi)序列波動范圍是恒定的,無法捕捉目標(biāo)函數(shù)的可變性范圍。而徑流的年際波動較為劇烈且無明顯周期規(guī)律,致使對此類復(fù)雜特性的數(shù)據(jù)擬合會產(chǎn)生較大偏差[24]。將Prophet模型替換成其他契合季節(jié)性數(shù)據(jù)的模型,如SARIMA模型、支持向量機(jī)或者是其他神經(jīng)網(wǎng)絡(luò)模型[25],可能會取得更優(yōu)的模擬性能,但與此同時也會帶來更高的復(fù)雜性和更低的可解釋性。一方面,模型擬合給定訓(xùn)練數(shù)據(jù)集的能力會隨著其復(fù)雜性的增加而增加;另一方面,過于復(fù)雜的模型可能會提取噪聲數(shù)據(jù)導(dǎo)致訓(xùn)練誤差減小、測試誤差增加。事實上,由于洪水的非線性特征和復(fù)雜過程,沒有任何模型或者算法可以達(dá)到完美的預(yù)測效果,不確定性始終存在于建模過程中[26]。而在實際工程應(yīng)用中,復(fù)雜的模型設(shè)置將在整個建模周期中產(chǎn)生越來越大的影響,如何平衡時間、成本和性能是必須考慮的重要因素。在前文基于協(xié)方差計算的波動貢獻(xiàn)率分析中,季節(jié)序列對徑流波動影響最小,選擇契合其波動特征的Prophet模型不僅降低了預(yù)測誤差,同時有效提高了建模效率,最終達(dá)到整體較好的預(yù)測效果。
3 結(jié)論
本研究構(gòu)建了一種基于時間序列分解和多模型組合的徑流預(yù)測集成模型,分析了長江干流攀枝花、城陵磯和大通站2008—2018年的日徑流異方差效應(yīng)并進(jìn)行模擬預(yù)測,主要結(jié)論如下:
(1) 2008—2018年攀枝花、城陵磯和大通站日均流量分別為1 820 m3/s、7 650 m3/s和27 600 m3/s,通過方差分析及拉格朗日乘子檢驗表明徑流序列具有明顯的異方差效應(yīng),呈沿江遞減趨勢。
(2) 徑流波動序列分解后的趨勢項與原始數(shù)據(jù)較為一致,但變化更為平滑,剩余項序列未呈現(xiàn)明顯規(guī)律;通過方差分解表明趨勢項是徑流序列波動的主導(dǎo)貢獻(xiàn)因子,而季節(jié)項對徑流波動的長期影響相對較小。
(3) 集成模型能夠較為精準(zhǔn)地學(xué)習(xí)徑流的非平穩(wěn)特征和波動規(guī)律,驗證期內(nèi)3個站點的納什效率系數(shù)分別為0.96、0.95和0.93,均優(yōu)于單一的Prophet、LSTM和GARCH模型,且模型對異方差效應(yīng)顯著的站點模擬精度提升明顯。
參考文獻(xiàn):
[1]徐宗學(xué),班春廣,張瑞.雅魯藏布江流域徑流演變規(guī)律與歸因分析[J].水科學(xué)進(jìn)展,2022,33(4):519-530.(XU Z X,BAN C G,ZHANG R.Evolution laws and attribution analysis in the Yarlung Zangbo River basin[J].Advances in Water Science,2022,33(4):519-530.(in Chinese))
[2]孫鵬,孫玉燕,張強(qiáng),等.淮河流域洪水極值非平穩(wěn)性特征[J].湖泊科學(xué),2018,30(4):1123-1137.(SUN P,SUN Y Y,ZHANG Q,et al.Evaluation on non-stationarity assumption of annual maximum peak flows during 1956—2016 in the Huaihe River basin[J].Journal of Lake Sciences,2018,30(4):1123-1137.(in Chinese))
[3]HA S,LIU D R,MU L.Prediction of Yangtze River streamflow based on deep learning neural network with El Ni?o-Southern Oscillation[J].Scientific Reports,2021,11(1):11738.
[4]BL?SCHL G,BIERKENS M F P,CHAMBEL A,et al.Twenty-three unsolved problems in hydrology (UPH):a community perspective[J].Hydrological Sciences Journal,2019,64(10):1141-1158.
[5]LIANG Z M,LI Y J,HU Y M,et al.A data-driven SVR model for long-term runoff prediction and uncertainty analysis based on the Bayesian framework[J].Theoretical and Applied Climatology,2018,133(1):137-149.
[6]WANG H R,GAO X,QIAN L X,et al.Uncertainty analysis of hydrological processes based on ARMA-GARCH model[J].Science China Technological Sciences,2012,55(8):2321-2331.
[7]巴歡歡,郭生練,鐘逸軒,等.考慮降水預(yù)報的三峽入庫洪水集合概率預(yù)報方法比較[J].水科學(xué)進(jìn)展,2019,30(2):186-197.(BA H H,GUO S L,ZHONG Y X,et al.Comparative study on probabilistic ensemble flood forecasting considering precipitation forecasts for the Three Gorges Reservoir[J].Advances in Water Science,2019,30(2):186-197.(in Chinese))
[8]BOLLERSLEV T.Generalized autoregressive conditional heteroskedasticity[J].Journal of Econometrics,1986,31(3):307-327.
[9]王紅瑞,高雄,常晉源,等.基于條件異方差分析的水文時序模型及其應(yīng)用[J].系統(tǒng)工程理論與實踐,2009,29(11):19-30.(WANG H R,GAO X,CHANG J Y,et al.Hydrological time series model based on conditional heteroskedasticity analysis and its application[J].Systems Engineering-Theory & Practice,2009,29(11):19-30.(in Chinese))
[10]劉磊,高超,王志剛,等.基于非線性相關(guān)性和復(fù)雜網(wǎng)絡(luò)的徑流相似性分區(qū)[J].水科學(xué)進(jìn)展,2022,33(3):442-451.(LIU L,GAO C,WANG Z G,et al.Study on streamflow similarity regionalization based on nonlinear correlation and complex network[J].Advances in Water Science,2022,33(3):442-451.(in Chinese))
[11]徐源浩,鄔強(qiáng),李常青,等.基于長短時記憶 (LSTM) 神經(jīng)網(wǎng)絡(luò)的黃河中游洪水過程模擬及預(yù)報[J].北京師范大學(xué)學(xué)報(自然科學(xué)版),2020,56(3):387-393.(XU Y H,WU Q,LI C Q,et al.Simulation of the flood process in the middle reaches of the Yellow River by a long-short term memory (LSTM) neuro network[J].Journal of Beijing Normal University(Natural Science),2020,56(3):387-393.(in Chinese))
[12]孫少龍,魏云捷,汪壽陽.基于分解-聚類-集成學(xué)習(xí)的匯率預(yù)測方法[J].系統(tǒng)工程理論與實踐,2022,42(3):664-677.(SUN S L,WEI Y J,WANG S Y.Exchange rates forecasting with decomposition-clustering-ensemble learning approach[J].Systems Engineering-Theory & Practice,2022,42(3):664-677.(in Chinese))
[13]鮑振鑫,張建云,王國慶,等.基于水文模型與機(jī)器學(xué)習(xí)集合模擬的水沙變異歸因定量識別:以黃河中游窟野河流域為例[J].水科學(xué)進(jìn)展,2021,32(4):485-496.(BAO Z X,ZHANG J Y,WANG G Q,et al.Quantitative assessment of the attribution of runoff and sediment changes based on hydrologic model and machine learning:a case study of the Kuye River in the Middle Yellow River basin[J].Advances in Water Science,2021,32(4):485-496.(in Chinese))
[14]FATHIAN F,MEHDIZADEH S,KOZEKALANI SALES A,et al.Hybrid models to improve the monthly river flow prediction:integrating artificial intelligence and non-linear time series models[J].Journal of Hydrology,2019,575:1200-1213.
[15]劉雪,劉錦濤,李佳利,等.基于季節(jié)分解和長短期記憶的北京市雞蛋價格預(yù)測[J].農(nóng)業(yè)工程學(xué)報,2020,36(9):331-340.(LIU X,LIU J T,LI J L,et al.Egg price forecasting in Beijing market using seasonal-trend decomposition procedures based on seasonal decomposition and long-short term memory[J].Transactions of the Chinese Society of Agricultural Engineering,2020,36(9):331-340.(in Chinese))
[16]LIU D R,JIANG W C,MU L,et al.Streamflow prediction using deep learning neural network:case study of Yangtze River[J].IEEE Access,2020,8:90069-90086.
[17]童林,官錚,王立威,等.基于時序分解與誤差修正的新能源爬坡事件預(yù)測[J].浙江大學(xué)學(xué)報(工學(xué)版),2022,56(2):338-346.(TONG L,GUAN Z,WANG L W,et al.New energy ramp event prediction based on time series decomposition and error correction[J].Journal of Zhejiang University(Engineering Science),2022,56(2):338-346.(in Chinese))
[18]TAYLOR S J,LETHAM B.Forecasting at scale[J].The American Statistician,2018,72(1):37-45.
[19]HOCHREITER S,SCHMIDHUBER J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[20]WANG H R,LIN X,QIAN L X.Crytic period analysis model of hydrological process and its application[J].Hydrological Processes,2009,23(13):1834-1843.
[21]丁藤,馮冬涵,林曉凡,等.基于修正后ARIMA-GARCH模型的超短期風(fēng)速預(yù)測[J].電網(wǎng)技術(shù),2017,41(6):1808-1814.(DING T,F(xiàn)ENG D H,LIN X F,et al.Ultra-short-term wind speed forecasting based on improved ARIMA-GARCH model[J].Power System Technology,2017,41(6):1808-1814.(in Chinese))
[22]BAI P,LIU X M,XIE J X.Simulating runoff under changing climatic conditions:a comparison of the long short-term memory network with two conceptual hydrologic models[J].Journal of Hydrology,2021,592:125779.
[23]王卓鑫,趙海濤,謝月涵,等.反向傳播神經(jīng)網(wǎng)絡(luò)聯(lián)合遺傳算法對復(fù)合材料模量的預(yù)測[J].上海交通大學(xué)學(xué)報,2022,56(10):1341-1348.(WANG Z X,ZHAO H T,XIE Y H,et al.Prediction of modulus of composite materials by BP neural network optimized by genetic algorithm[J].Journal of Shanghai Jiao Tong University,2022,56(10):1341-1348.(in Chinese))
[24]ZHAO N Z,LIU Y,VANOS J K,et al.Day-of-week and seasonal patterns of PM2.5 concentrations over the United States:time-series analyses using the Prophet procedure[J].Atmospheric Environment,2018,192:116-127.
[25]唐奇,王紅瑞,許新宜,等.基于混合核函數(shù)SVM水文時序模型及其應(yīng)用[J].系統(tǒng)工程理論與實踐,2014,34(2):521-529.(TANG Q,WANG H R,XU X Y,et al.Hydrological time series model based on SVM with mixed kernel function and its application[J].Systems Engineering-Theory & Practice,2014,34(2):521-529.(in Chinese))
[26]CHEN W,HONG H Y,LI S J,et al.Flood susceptibility modelling using novel hybrid approach of reduced-error pruning trees with bagging and random subspace ensembles[J].Journal of Hydrology,2019,575:864-873.
Integrated model and application of non-stationary runoff based on time series decomposition and machine learning
The study is financially supported by the National Natural Science Foundation of China(No.52279005) and BNU Interdisciplinary Research Foundation for the First-Year Doctoral Candidates(No.BNUXKJC2124).
ZHANG Li1,WANG Hongrui1,GUO Beinan2,XU Yuanhao3,LI Li2,XIE Jun4
(1. College of Water Science,Beijing Normal University,Beijing 100875,China;2. School of Government,Beijing Normal University,Beijing 100875,China;3. School of Civil Engineering,Sun Yat-Sen University,Guangzhou 510275,China;4. School of Artificial Intelligence,Beijing Normal University,Beijing 100875,China)
Abstract:Revealing the fluctuating characteristics of non-stationary runoff series under changing environments can improve the precision of runoff prediction and support water-related project planning.Given the characteristics of non-stationarity,periodicity,and heteroscedasticity of runoff series,the observed runoff data from 2008 to 2018 were collected from Panzhihua,Chenglingji,and Datong stations in the Yangtze River basin,and based on the seasonal-trend decomposition method,the original data was decomposed into periodic sequence,trend sequence,and residual sequence.Combined with the features of each subsequence,an integrated model was applied to obtain the total predicted value of future runoff,and the results were compared with the single model of Prophet,LSTM,and GARCH.The results show that the integrated model combined with time series decomposition and machine learning is superior to the single model in different evaluation indexes,and the simulation accuracy of stations with a strong heteroscedasticity effect is significantly improved.The Nash-Sutcliffe efficiency coefficient of the three stations in the validation period is 0.96,0.95,and 0.93,respectively,indicating that the model can effectively simulate the runoff fluctuation process in the Yangtze River basin.
Key words:runoff simulation;time series decomposition;machine learning;heteroscedasticity;integrated model;Yangtze River basin