胡昊, 徐雷, 王文川
(1.黃河水利職業(yè)技術(shù)學(xué)院,河南 開(kāi)封 475004; 2.華北水利水電大學(xué) 水資源學(xué)院,河南 鄭州 450046;3.河海大學(xué) 水文水資源學(xué)院,江蘇 南京 210024)
徑流預(yù)報(bào)是水資源配置、水庫(kù)調(diào)度和洪水防范的重要依據(jù)。按照預(yù)報(bào)預(yù)見(jiàn)期的長(zhǎng)短,徑流預(yù)報(bào)任務(wù)可區(qū)分為短期徑流預(yù)報(bào)和中長(zhǎng)期徑流預(yù)報(bào)。短期徑流預(yù)報(bào)的預(yù)見(jiàn)期小于或等于流域匯流時(shí)間,而且目前對(duì)其降雨徑流機(jī)理研究較為深入,預(yù)報(bào)精度可以滿足生產(chǎn)需要[1]。中長(zhǎng)期徑流預(yù)報(bào)則是利用前期的水文要素諸如最大流量、最高水位、年月徑流量等,或者基于時(shí)間序列演變規(guī)律、太陽(yáng)活動(dòng)規(guī)律等對(duì)未來(lái)較長(zhǎng)時(shí)段(一般3 d以上、1年以內(nèi))的徑流量進(jìn)行預(yù)測(cè)預(yù)報(bào),但其預(yù)報(bào)精度仍有提升空間[2]。隨著機(jī)器學(xué)習(xí)領(lǐng)域的長(zhǎng)遠(yuǎn)發(fā)展,諸如人工神經(jīng)網(wǎng)絡(luò)[3-4]、支持向量機(jī)[5-6]、隨機(jī)森林[7-8]這類模擬人類經(jīng)驗(yàn)學(xué)習(xí)的機(jī)器學(xué)習(xí)算法被廣泛用于徑流預(yù)報(bào)來(lái)提高預(yù)報(bào)精度[9]。最小二乘支持向量機(jī)(Least Squares Support Vector Machine,LSSVM)是一種基于原始支持向量機(jī)改進(jìn)的算法,它在基于最小二乘思想構(gòu)造目標(biāo)函數(shù)、減少模型參數(shù)的同時(shí),利用解方程組的方法加快模型學(xué)習(xí)過(guò)程。但是,LSSVM性能高度依賴于需要用戶定義的正則化參數(shù)和核函數(shù)參數(shù)的選擇。傳統(tǒng)的調(diào)參方法難以兼顧全局尋優(yōu)和局部開(kāi)發(fā),智能優(yōu)化算法開(kāi)始憑借較強(qiáng)的魯棒性為模型調(diào)參提供新思路[10-13]。從以上研究中不難發(fā)現(xiàn),過(guò)去關(guān)于智能優(yōu)化算法在徑流預(yù)報(bào)模型上的性能比較研究較少,大部分仍以粒子群算法等為研究對(duì)象,算法特點(diǎn)不突出。而且隨著算法研究的不斷發(fā)展,自2020年來(lái)涌現(xiàn)出新一批如阿基米德優(yōu)化算法(Archimedes Optimization Algorithm,AOA)[14]、美洲雕搜索(Bald Eagle Search,BES)算法[15]、黑猩猩優(yōu)化算法(Chimp Optimization Algorithm,ChOA)[16]、萊維飛行分布(Lévy Flight Distribution,LFD)算法[17]和鼠群優(yōu)化(Rat Swarm Optimizer,RSO)算法[18]等新型算法,它們?cè)诨鶞?zhǔn)函數(shù)測(cè)試上已表現(xiàn)出較強(qiáng)優(yōu)越性。因此,本文為了比較以上數(shù)種新型算法在中長(zhǎng)期徑流預(yù)報(bào)中的性能,基于LSSVM模型,配合小波包分解(Wavelet Packet Decomposition,WPD)技術(shù)[19]平穩(wěn)化水文序列,提出多種耦合模型,探討各種新型優(yōu)化算法針對(duì)LSSVM模型參數(shù)優(yōu)化的效果。最后就實(shí)例預(yù)報(bào)結(jié)果進(jìn)行非參數(shù)檢驗(yàn),得到較為可靠的中長(zhǎng)期徑流預(yù)報(bào)模型。
最小二乘支持向量機(jī)(LSSVM)模型是在原始支持向量機(jī)[20]基礎(chǔ)上的改進(jìn)模型[21],可較好處理分類和回歸問(wèn)題。本文涉及的中長(zhǎng)期徑流預(yù)報(bào)問(wèn)題,其本質(zhì)屬于回歸問(wèn)題。對(duì)此,LSSVM的思路是利用核函數(shù)將低維的非線性問(wèn)題轉(zhuǎn)換到高維空間中進(jìn)行線性回歸,即在這個(gè)高維空間中尋求最優(yōu)超平(曲)面來(lái)解決問(wèn)題。
設(shè)訓(xùn)練樣本集合為(xi,yi),i=1,2,…,n;xi∈Rm,yi=R,其中xi為模型輸入向量,yi為對(duì)應(yīng)的輸出值,n為樣本個(gè)數(shù),m為維數(shù)。經(jīng)過(guò)轉(zhuǎn)換后的回歸函數(shù)為f(x)=wTΦ(x)+b,其中w為系數(shù)向量,b為偏置常量,Φ為非線性映射函數(shù)?;诮Y(jié)構(gòu)風(fēng)險(xiǎn)最小化原則,引入相關(guān)損失和松弛變量,以上擬合過(guò)程可轉(zhuǎn)化為求解凸二次優(yōu)化問(wèn)題。LSSVM所作的改進(jìn)在于將其中的不等式約束替換為等式約束,并巧妙地利用解方程組的方法回避了求解復(fù)雜的二次規(guī)劃問(wèn)題。LSSVM的最優(yōu)化目標(biāo)函數(shù)如下:
(1)
式中:γ為正則化參數(shù);ei為第i個(gè)誤差變量。
通過(guò)引入拉格朗日因子αi和KKT條件,Lagrange函數(shù)(L)可寫為:
(2)
對(duì)w,b,e和α求偏微分得:
(3)
消去上式中的w和e,可得:
(4)
式中:E=(1,1,…,1)T;Z=[Φ(x1),Φ(x2),…,Φ(xN)]T;α=(α1,α2,…,αN)T;Y=(y1,y2,…,yN)T;I為單位矩陣。選用滿足Mercer條件的核函數(shù)K(x,xi)=<Φ(x),Φ(xi)>,回歸方程最終簡(jiǎn)化為:
(5)
此外,本文選用的核函數(shù)為徑向基核函數(shù):
K(x,xi)=exp(-g‖x-xi‖2)。
(6)
式中g(shù)為代表核函數(shù)特征的核參數(shù)。
阿基米德優(yōu)化算法(AOA)[14]是一種群智能元啟發(fā)式算法,它的靈感來(lái)源于阿基米德物理學(xué)定律,也就是浮力定律。在該方法中,種群個(gè)體是下沉對(duì)象,在初始階段具有隨機(jī)的位置、體積、密度和加速度。AOA通過(guò)與具有最佳適應(yīng)度物體的密度與體積交換來(lái)更新個(gè)體,并設(shè)計(jì)了轉(zhuǎn)移算子、密度算子以及一種勘探階段來(lái)實(shí)現(xiàn)尋優(yōu)過(guò)程。詳細(xì)的AOA實(shí)現(xiàn)步驟請(qǐng)參閱文獻(xiàn)[14]。
美洲雕搜索(BES)算法[15]模擬了美洲雕(白頭海雕)在尋找魚時(shí)的狩獵策略,算法中的獵物即候選更佳位置。該算法的尋優(yōu)過(guò)程可分為三個(gè)階段:第一階段(選擇空間),美洲雕選擇獵物數(shù)量最多的空間,這個(gè)空間是由當(dāng)前種群最佳位置和種群中心點(diǎn)(該點(diǎn)的維度信息取所有個(gè)體在該維度上的平均值)產(chǎn)生;第二階段(空間搜索),美洲雕在前述產(chǎn)生選定的空間內(nèi),結(jié)合種群中心點(diǎn)螺旋移動(dòng)尋找獵物,這屬于探索過(guò)程;第三階段(俯沖),美洲雕從第二階段確定的最佳位置處擺動(dòng),參考了中心點(diǎn)信息來(lái)確定最佳狩獵方向,該階段目的在于加速收斂,這屬于開(kāi)發(fā)過(guò)程。在上述三個(gè)階段中,可以看出美洲雕的運(yùn)動(dòng)始終包含當(dāng)前種群中心點(diǎn)的信息。這一中心點(diǎn)本質(zhì)上與LIU Yu等[22]提出的中心粒子相同,他們認(rèn)為這一種群中心點(diǎn)比當(dāng)前種群最優(yōu)點(diǎn)更接近全局最優(yōu)值。詳細(xì)的BES算法實(shí)現(xiàn)步驟請(qǐng)參閱文獻(xiàn)[15]。
黑猩猩優(yōu)化算法(ChOA)是一種新穎的元啟發(fā)式算法,其靈感來(lái)自黑猩猩在其群體狩獵中的個(gè)體智力和性別動(dòng)機(jī),這時(shí)候的黑猩猩被當(dāng)作是掠奪者,具有與其他動(dòng)物明顯不同的特點(diǎn)。在ChOA中,主要包含了狩獵、驅(qū)動(dòng)、阻擋和攻擊四個(gè)主要步驟,各種混沌映射也是其重要組成部分。詳細(xì)的ChOA實(shí)現(xiàn)步驟請(qǐng)參閱文獻(xiàn)[16]。
萊維飛行分布(LFD)算法[17]采用的是具有良好的全局探索和局部挖掘的萊維分布,該隨機(jī)分布在智能優(yōu)化算法領(lǐng)域有著廣泛的應(yīng)用。LFD算法能根據(jù)當(dāng)前種群位置采取不同的萊維分布參數(shù),而以往應(yīng)用萊維分布的算法中參數(shù)往往是固定的。詳細(xì)的LFD算法實(shí)現(xiàn)步驟請(qǐng)參閱文獻(xiàn)[17]。
鼠群優(yōu)化(RSO)[18]算法的靈感來(lái)源于自然界中老鼠的追逐和攻擊行為,算法過(guò)程中包含兩個(gè)人為設(shè)定的參數(shù)。通過(guò)調(diào)整這兩個(gè)參數(shù)的范圍,可以獲得算法在開(kāi)發(fā)和搜索之間的平衡。詳細(xì)的RSO算法實(shí)現(xiàn)步驟請(qǐng)參閱文獻(xiàn)[18]。
優(yōu)化算法的目的通常即尋找空間中的最優(yōu)位置使得目標(biāo)函數(shù)最優(yōu)化,對(duì)于利用LSSVM模型的徑流預(yù)報(bào)問(wèn)題而言,最優(yōu)位置即指成對(duì)參數(shù)(γ,g)。一般而言,模型輸入的各種因子間的量綱往往不同,數(shù)據(jù)標(biāo)準(zhǔn)化方法就是用來(lái)消除數(shù)據(jù)之間的量綱差異,使不同數(shù)據(jù)具有可比性的一種預(yù)處理方法,有利于LSSVM模型的性能表達(dá)。[0,1]區(qū)間的標(biāo)準(zhǔn)化公式為:
(7)
式中:y*為標(biāo)準(zhǔn)化后的數(shù)據(jù);y為原始數(shù)據(jù);ymax為原始數(shù)據(jù)中的最大值;ymin為原始數(shù)據(jù)中的最小值。
按照前述的LSSVM模型和各種新型智能優(yōu)化算法的基本原理,配合小波包分解(WPD)技術(shù)[21],本文提出了耦合WPD-X-LSSVM模型(X指代各種算法)。首先,利用WPD技術(shù)對(duì)原始序列降噪;其次,將以往帶有主觀性的調(diào)參過(guò)程替換成各種智能算法的自動(dòng)尋優(yōu)過(guò)程,提高客觀自適應(yīng)性。其詳細(xì)實(shí)現(xiàn)步驟可描述如下。
步驟1:以年徑流預(yù)報(bào)為例,確定對(duì)應(yīng)年徑流的預(yù)報(bào)因子后,基于WPD利用db4小波對(duì)各輸入和輸出要素序列進(jìn)行三層分解得到8個(gè)子序列,確定訓(xùn)練樣本和檢驗(yàn)樣本并對(duì)樣本進(jìn)行標(biāo)準(zhǔn)化。對(duì)每個(gè)子序列進(jìn)行單獨(dú)的尋優(yōu)預(yù)報(bào),執(zhí)行步驟2—5。
步驟2:優(yōu)化算法初始化。確定不同算法的用戶定義參數(shù)和最大允許函數(shù)評(píng)價(jià)次數(shù)以及LSSVM模型參數(shù)(γ,g)的設(shè)置范圍。目標(biāo)函數(shù)采用LSSVM模型基于訓(xùn)練樣本的10次交叉驗(yàn)證得到的均方誤差(Mean Square Error,MSE)。
步驟3:以BES算法為例,BES中每只雕的空間位置向量為(γ,g),將該組數(shù)據(jù)作為模型參數(shù)取值。將經(jīng)過(guò)訓(xùn)練得到的均方誤差作為目標(biāo)函數(shù),以此進(jìn)行迭代尋優(yōu)。
步驟4:判斷是否達(dá)到輸出條件(允許最大函數(shù)評(píng)價(jià)次數(shù))。若達(dá)到,則保留并輸出當(dāng)前最優(yōu)解;若未達(dá)到,則循環(huán)運(yùn)行步驟3—4。
步驟5:輸出最優(yōu)個(gè)體的位置,作為最佳學(xué)習(xí)參數(shù)回代LSSVM模型中進(jìn)行檢驗(yàn)樣本的預(yù)報(bào)。
步驟6:將8個(gè)子序列的預(yù)報(bào)結(jié)果進(jìn)行直接加和重構(gòu),得到最后的徑流預(yù)報(bào)結(jié)果。
基于WPD-X-LSSVM模型的年徑流預(yù)報(bào)流程如圖1所示。
圖1 基于WPD-X-LSSVM模型的年徑流預(yù)報(bào)流程
為了探討本文提出的中長(zhǎng)期徑流預(yù)報(bào)模型的適用性,挑選了分別位于半干旱區(qū)的伊犁河雅馬渡水文站和半濕潤(rùn)區(qū)的呼蘭河蘭西水文站的年徑流量作為中長(zhǎng)期徑流預(yù)報(bào)的研究對(duì)象。以上兩個(gè)站點(diǎn)具有不同的水文氣象特征,具有一定的代表性;而且年徑流的相關(guān)資料樣本往往較少,對(duì)其進(jìn)行預(yù)報(bào)考驗(yàn)?zāi)P蛯?duì)極其有限的小樣本數(shù)據(jù)提取關(guān)鍵信息的能力。
雅馬渡水文站的相關(guān)數(shù)據(jù)包括23年的實(shí)測(cè)總徑流量和其相應(yīng)的4個(gè)前期氣象因子。4個(gè)前期氣象因子分別是對(duì)應(yīng)年份的上一年11月至當(dāng)年3月伊犁氣象站的總降水量、上一年8月歐亞地區(qū)月平均緯向環(huán)流指數(shù)、上一年5月歐亞地區(qū)月平均經(jīng)向環(huán)流指數(shù)和上一年6月2 800 MHz太陽(yáng)射電流量,全部數(shù)據(jù)來(lái)源于文獻(xiàn)[22]。本文中將選取雅馬渡水文站的前20年數(shù)據(jù)作為訓(xùn)練樣本,最后3年數(shù)據(jù)作為檢驗(yàn)樣本。蘭西水文站相關(guān)數(shù)據(jù)包括1990—2014年共25年的年總徑流深和對(duì)應(yīng)年份的平均氣壓、平均氣溫、平均水汽壓、平均相對(duì)濕度、降水量、蒸發(fā)量和日照時(shí)數(shù),全部數(shù)據(jù)來(lái)源于文獻(xiàn)[23]。不同于原文獻(xiàn)中采用斯皮爾曼相關(guān)分析和顯著性檢驗(yàn)篩選輸入氣象因子,本文將全部的7種氣象因子作為輸入并進(jìn)行小波包分解。本文中將選取蘭西水文站的前20年數(shù)據(jù)作為訓(xùn)練樣本,最后5年數(shù)據(jù)作為檢驗(yàn)樣本。
所有優(yōu)化算法的最大允許函數(shù)評(píng)價(jià)次數(shù)為500次,參數(shù)γ和g的搜索范圍均設(shè)為[10-5,1010],各種算法自身用戶定義參數(shù)采用原文獻(xiàn)給出的建議值。所有模型將獨(dú)立隨機(jī)運(yùn)行10次,記錄10次預(yù)報(bào)結(jié)果的平均值進(jìn)行評(píng)價(jià)。評(píng)價(jià)指標(biāo)采用均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)和平均相對(duì)誤差(MRE)。
(8)
(9)
(10)
式中:y為實(shí)測(cè)值;y*為模型的預(yù)報(bào)值;n為樣本數(shù)。
5種預(yù)報(bào)模型在訓(xùn)練期和檢驗(yàn)期的年徑流擬合平均結(jié)果如圖2和圖3所示。圖中的虛線代表訓(xùn)練樣本和檢驗(yàn)樣本的分界。
圖2 雅馬渡站訓(xùn)練-檢驗(yàn)結(jié)果
圖3 蘭西站訓(xùn)練-檢驗(yàn)結(jié)果
由圖2—3可知,耦合以上各種優(yōu)化算法的不同模型在兩個(gè)站點(diǎn)上訓(xùn)練期的擬合效果特別相近,只在檢驗(yàn)期開(kāi)始出現(xiàn)差別。其中,LFD算法在雅馬渡站檢驗(yàn)期的擬合偏差相對(duì)偏大。
與此同時(shí),表1和表2中給出了基于RMSE、MAE和MRE指標(biāo)體系下各模型在年徑流預(yù)報(bào)的訓(xùn)練期和檢驗(yàn)期中表現(xiàn)的定量評(píng)價(jià)結(jié)果,按照檢驗(yàn)期均方根誤差RMSE從小到大排序,得到以下反饋:BES和AOA整體排名靠前。在雅馬渡站的預(yù)報(bào)工作中,LFD算法與其他算法差距明顯;在蘭西站的預(yù)報(bào)中,也只有在檢驗(yàn)期的MAE指標(biāo)上略好于ChOA,符合前述直觀判斷的情況。
表1 各預(yù)報(bào)模型在雅馬渡站的評(píng)價(jià)結(jié)果
表2 各預(yù)報(bào)模型在蘭西站的評(píng)價(jià)結(jié)果
為了評(píng)價(jià)模型的綜合性能,基于各模型的RMSE、MAE和MRE的定量結(jié)果,利用Friedman檢驗(yàn)方法對(duì)各模型進(jìn)行秩均值排名,排名結(jié)果在表3中展示。其中,WPD-BES-LSSVM模型取得第一名,且與其他模型差距明顯,BES算法在有限評(píng)價(jià)次數(shù)內(nèi)尋優(yōu)LSSVM模型能力更好。
表3 基于Friedman test各模型的排名
本文首先確定徑向基函數(shù)作為L(zhǎng)SSVM的核函數(shù),然后與各種新型改進(jìn)優(yōu)化算法結(jié)合,同時(shí)嘗試加入了小波包分解降噪技術(shù)來(lái)提高中長(zhǎng)期徑流預(yù)報(bào)的精度和穩(wěn)定性,構(gòu)建了WPD-BES-LSSVM、WPD-RSO-LSSVM、WPD-AOA-LSSVM、WPD-ChOA-LSSVM、WPD-LFD-LSSVM等預(yù)報(bào)模型,實(shí)現(xiàn)了LSSVM模型參數(shù)的優(yōu)選。在年尺度實(shí)例徑流預(yù)報(bào)中,WPD-BES-LSSVM顯示出更好的尋優(yōu)和預(yù)報(bào)性能,BES優(yōu)選LSSVM模型參數(shù)更為可靠。綜合來(lái)看,本文提出的WPD-BES-LSSVM等徑流預(yù)報(bào)模型可作為中長(zhǎng)期徑流預(yù)報(bào)工作的參考途徑。