国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

耦合二次因子篩選和深度學(xué)習(xí)的徑流預(yù)報(bào)研究

2023-07-01 06:14:58程立文黃生志李紫妍賈松濤
人民珠江 2023年6期

程立文,黃生志,李 沛,李紫妍,賈松濤,黃 強(qiáng)

(西安理工大學(xué) 西北旱區(qū)生態(tài)水利工程國家重點(diǎn)實(shí)驗(yàn)室培育基地,陜西 西安 710048)

提高徑流預(yù)報(bào)精度,對(duì)區(qū)域水資源的統(tǒng)一調(diào)度管理、流域水資源的合理開發(fā)均有重要現(xiàn)實(shí)意義。近年來,中國為應(yīng)對(duì)極端干旱事件,提出了堅(jiān)持以防為主,防抗救相結(jié)合的理念。該理念努力實(shí)現(xiàn)從注重災(zāi)后救助向?yàn)?zāi)前預(yù)防轉(zhuǎn)變,落實(shí)預(yù)報(bào)、預(yù)警、預(yù)演、預(yù)案“四預(yù)”措施。而徑流預(yù)報(bào)作為“四預(yù)”措施的第一位,重要程度顯而易見。但由于徑流在變化環(huán)境下呈現(xiàn)出隨機(jī)性、非線性和非平穩(wěn)性的特性且其影響要素較多,給預(yù)報(bào)工作增加了難度[1],同時(shí)預(yù)報(bào)的精度受模型結(jié)構(gòu)、模型輸入要素等不確定因素的影響[2-3],這也給預(yù)報(bào)工作帶來了諸多阻力,因此如何在眾多水文氣象要素間選取適合研究流域的預(yù)報(bào)因子集,以及在眾多的預(yù)報(bào)模型中選擇適合研究區(qū)的模型是至關(guān)重要的。

隨著徑流預(yù)報(bào)研究的不斷發(fā)展,國內(nèi)外的專家和學(xué)者在預(yù)報(bào)模型與因子篩選方面做了大量研究并取得了許多重要成果。在預(yù)報(bào)模型方面,出現(xiàn)了大量融合計(jì)算機(jī)技術(shù)與數(shù)學(xué)理論的預(yù)測(cè)模型,如季節(jié)性自回歸模型、人工神經(jīng)網(wǎng)絡(luò)、灰色系統(tǒng)模型、極限學(xué)習(xí)機(jī)、支持向量回歸、深度學(xué)習(xí)等[3-10]。支持向量回歸模型有強(qiáng)大的泛化能力,且有大量的核函數(shù)供使用從而可以靈活解決各種非線性回歸問題,但核函數(shù)的選擇沒有通用標(biāo)準(zhǔn),大多數(shù)以主觀選擇為主,同時(shí)支持向量回歸針對(duì)小樣本集的擬合效果較好,在大樣本集的表現(xiàn)一般[11]。另有研究表明,支持向量回歸相較于人工神經(jīng)網(wǎng)絡(luò)的預(yù)報(bào)效果好[12-14]。如Feng等[15]建立基于變模態(tài)分解的支持向量回歸模型的月徑流預(yù)報(bào)模型,并與極限學(xué)習(xí)機(jī)、人工神經(jīng)網(wǎng)絡(luò)的模擬效果進(jìn)行對(duì)比,結(jié)果表明基于支持向量回歸混合模型的預(yù)測(cè)效果最優(yōu)。深度學(xué)習(xí)相較于傳統(tǒng)模型,它具有強(qiáng)大的學(xué)習(xí)擬合能力,同時(shí)可以在沒有明確的物理意義下對(duì)非線性復(fù)雜系統(tǒng)進(jìn)行建模分析,因此逐漸應(yīng)用在水資源與環(huán)境領(lǐng)域,并取得了許多重要成果[16]。如Zhang等[17]采用最大互信息數(shù)進(jìn)行相關(guān)因子篩選,并基于卷積-長短記憶網(wǎng)絡(luò)建立水庫下游水位預(yù)測(cè)模型,大大降低了預(yù)測(cè)誤差。姜淞川等[18]利用降雨、徑流數(shù)據(jù)分別作為預(yù)報(bào)因子與預(yù)報(bào)要素,建立基于長短記憶網(wǎng)絡(luò)(LSTM)模型的徑流預(yù)報(bào)模型,有效地預(yù)測(cè)了鄱陽湖流域徑流。

在因子篩選方面,通常分為成因分析法與數(shù)理統(tǒng)計(jì)法[19]。成因分析法根據(jù)徑流的形成機(jī)理主要從大氣降水及大氣環(huán)流中篩選輸入因子[20]。由于徑流受眾多因素影響,且其形成機(jī)理高度復(fù)雜、系統(tǒng)間的內(nèi)在聯(lián)系得不到充分解釋,研究中需大量水文資料支撐,當(dāng)研究區(qū)域的水文資料缺失時(shí),研究則會(huì)受到限制[21-22]。數(shù)理統(tǒng)計(jì)法是從大量的水文資料中,確定預(yù)報(bào)要素與預(yù)報(bào)因子間的統(tǒng)計(jì)規(guī)律進(jìn)行因子篩選[23]。如賴成光等[24]采用隨機(jī)森林模型對(duì)流域?yàn)?zāi)害的影響因子進(jìn)行篩選,建立了基于隨機(jī)森林的洪災(zāi)風(fēng)險(xiǎn)評(píng)價(jià)模型并應(yīng)用于東江流域,研究結(jié)果表明此模型為洪災(zāi)風(fēng)險(xiǎn)的智能化評(píng)價(jià)提供了一種新的手段。劉勇等[25]首先對(duì)預(yù)報(bào)對(duì)象與預(yù)報(bào)因子建立相關(guān)關(guān)系,備選17個(gè)預(yù)報(bào)因子,采用主成分分析法對(duì)備選因子進(jìn)行降維處理,使其達(dá)到精簡輸入因子與減少數(shù)據(jù)噪音的效果,從而提高預(yù)報(bào)精度。Zhang等[26]基于LSTM和GRU模型建立日徑流預(yù)報(bào)模型并應(yīng)用于Muskegon河與珠江,結(jié)果表明輸入變量的選擇對(duì)模型的預(yù)測(cè)結(jié)果有巨大的影響,同時(shí)應(yīng)用主成分分析法對(duì)數(shù)據(jù)進(jìn)行降維提高了預(yù)測(cè)模型的準(zhǔn)確性。

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)中的新熱點(diǎn),它最顯著的特點(diǎn)是神經(jīng)網(wǎng)絡(luò)框架中的多層神經(jīng)元,相比非深度神經(jīng)網(wǎng)絡(luò)有著更高的表征復(fù)雜系統(tǒng)的能力。深度學(xué)習(xí)中,LSTM模型是目前處理時(shí)間序列的杰出模型,并在預(yù)測(cè)徑流序列方面具有更好的性能[27-28]。但由于預(yù)報(bào)因子通常是非線性,且因子間存在高度相關(guān)性,同時(shí)傳統(tǒng)的LSTM模型由于模型復(fù)雜、數(shù)據(jù)存儲(chǔ)量大、數(shù)據(jù)冗余導(dǎo)致信息記憶丟失的問題[5],這往往導(dǎo)致預(yù)報(bào)精度的降低無法滿足水文預(yù)報(bào)精度要求[3]。因此如何在LSTM模型基礎(chǔ)上進(jìn)一步提升預(yù)測(cè)精度是本文待解決的關(guān)鍵問題。

本文以潛在蒸散發(fā)、降雨、徑流的滯時(shí)序列作為預(yù)報(bào)因子集,利用Spearman法對(duì)預(yù)報(bào)因子集進(jìn)行初次篩選,而后構(gòu)建支持向量回歸與長短記憶網(wǎng)絡(luò)預(yù)報(bào)模型,并對(duì)預(yù)報(bào)模型進(jìn)行優(yōu)選。進(jìn)行初次篩選后的預(yù)報(bào)因子仍存在高度相關(guān)性,同時(shí)傳統(tǒng)的LSTM還存在數(shù)據(jù)量過大、數(shù)據(jù)冗余從而導(dǎo)致記憶丟失的問題。對(duì)此,為進(jìn)一步提高預(yù)報(bào)精度提出對(duì)預(yù)報(bào)因子進(jìn)行二次篩選,構(gòu)建基于主成分分析、灰色關(guān)聯(lián)度分析與長短記憶網(wǎng)絡(luò)的耦合模型(PCA_LSTM、GRA_LSTM)對(duì)冗余數(shù)據(jù)進(jìn)行剔除,并分別應(yīng)用于渭河流域,最后對(duì)比分析兩耦合模型預(yù)測(cè)效果,以期為提高渭河流域徑流預(yù)報(bào)精度提供新思路和手段,為流域防洪抗旱“四預(yù)”提供科技支撐。

1 研究方法

首先采用Spearman相關(guān)法對(duì)輸入因子進(jìn)行一次篩選[29],基于SVR與LSTM構(gòu)建渭河流域徑流預(yù)報(bào)模型并進(jìn)行優(yōu)選,采用主成分分析法與灰色關(guān)聯(lián)度分析法二次篩選輸入因子并將其輸入到優(yōu)選模型中,對(duì)比分析一次篩選與二次篩選后的預(yù)報(bào)精度高低,對(duì)耦合二次篩選的預(yù)報(bào)模型的效果進(jìn)行探究,確定更加適合渭河流域徑流預(yù)報(bào)的預(yù)報(bào)方法。主要技術(shù)路線見圖1。

圖1 技術(shù)路線

1.1 預(yù)報(bào)模型

1.1.1支持向量回歸(SVR)

對(duì)于回歸問題,給定訓(xùn)練集(xi,yi) (i=1,2,…,n),xi為特征輸入,yi為目標(biāo)輸出,支持向量回歸利用非線性映射φ將數(shù)據(jù)映射到一個(gè)高維特征空間,使得φ(x)在特征空間中有很好的線性回歸特征[31-32],設(shè)其回歸擬合函數(shù)為:

f(x)=ωφ(x)+b

(1)

式中ω——權(quán)值向量;b——偏置。

SVR算法的主要優(yōu)點(diǎn)有:當(dāng)特征維度大于樣本數(shù)時(shí)依然有很好的效果;有大量的核函數(shù)供選擇,從而靈活解決各種非線性回歸問題;小樣本時(shí),泛化能力強(qiáng)。

1.1.2長短記憶網(wǎng)絡(luò)(LSTM)

傳統(tǒng)的循環(huán)記憶網(wǎng)絡(luò)可以很好地解決時(shí)間序列問題,但其缺點(diǎn)是容易出現(xiàn)梯度爆炸和梯度消失問題,為解決此長短記憶神經(jīng)網(wǎng)絡(luò)應(yīng)運(yùn)而生[33]。LSTM引入了細(xì)胞狀態(tài)(Cell State),記作Ct。LSTM在每個(gè)序列t時(shí)刻的門為遺忘門、輸入門、輸出門。完整的結(jié)構(gòu)流程見圖2。

圖2 LSTM結(jié)構(gòu)

LSTM的網(wǎng)絡(luò)結(jié)構(gòu)建模流程如下[34]。

a)遺忘門(Forget Gate)。其輸入為本時(shí)刻序列數(shù)據(jù)和上一時(shí)刻的隱藏狀態(tài)通過激活函數(shù)σ得到遺忘門的輸出f(t)。即以一定的概率控制是否遺忘上一層的隱藏細(xì)胞狀態(tài),見式(2):

ft=σ(Wfxt+Ufht-1+bf)

(2)

式中f——遺忘門;Wf、Uf——權(quán)重矩陣;bf——偏置項(xiàng);ht-1——上一時(shí)刻隱含層狀態(tài);σ——一般為Sigmoid函數(shù)。

b)輸入門。首先利用激活函數(shù)輸出it,再利用tanh激活函數(shù)輸出at,最后更新細(xì)胞狀態(tài)得到Ct,見式(3)—(5):

it=σ(Wixt+Uiht-1+bi)

(3)

at=tanh(Waxt+Uaht-1+ba)

(4)

Ct=Ct-1⊙ft+it⊙a(bǔ)t

(5)

式中 ⊙——Hadamard積;i——輸入門;a——新的記憶單元;W、U——對(duì)應(yīng)的權(quán)重矩陣;b——偏置項(xiàng);ht-1——上一時(shí)刻隱含層狀態(tài);σ——一般為Sigmoid函數(shù);Ct——當(dāng)前時(shí)刻細(xì)胞狀態(tài);Ct-1——上一時(shí)刻細(xì)胞狀態(tài)。

c)輸出門。隱狀態(tài)由兩部分構(gòu)成:第一部分為ot,由本時(shí)刻序列數(shù)據(jù)和上一時(shí)刻的隱藏狀態(tài)通過激活函數(shù)σ得到;另一部分由細(xì)胞狀態(tài)Ct和tanh函數(shù)組成,見式(6)、(7)。

ot=σ(Woxt+Uoht-1+bo)

(6)

ht=ot⊙tanhCt

(7)

式中o——輸出門;ht——當(dāng)前時(shí)刻隱含層輸出。

1.2 因子篩選

1.2.1灰色關(guān)聯(lián)度分析(GRA)

灰色關(guān)聯(lián)度分析是多因素統(tǒng)計(jì)分析方法,用灰色關(guān)聯(lián)度描述各因素間關(guān)系的強(qiáng)弱、大小和次序[34-35]。當(dāng)子序列與母序列的趨勢(shì)變化一致時(shí),認(rèn)為兩序列的關(guān)聯(lián)程度較高。GRA算法實(shí)現(xiàn)步驟[36]如下。

步驟一確定子序列與母序列。子序列(又稱比較序列)影響系統(tǒng)行為的因素所組成的序列,類似自變量X,Xi=Xi(k),k=1,2,…,n,i=1,2,…,m;母序列(又稱參考序列)反映系統(tǒng)行為特征的序列,類似因變量Y,Y=Y(k),k=1,2…,n。

步驟二無量綱化處理。對(duì)子序列與母σ序列的每個(gè)因素進(jìn)行預(yù)處理,常用方法為標(biāo)準(zhǔn)化、歸一化處理。

步驟三計(jì)算關(guān)聯(lián)度系數(shù):

ζi(k)=

(8)

式中ζi(k)——X(k)對(duì)Y(k)在k點(diǎn)的關(guān)聯(lián)系數(shù);minmin|Y(k)-X(k)|——Y序列與X序列在k點(diǎn)的二級(jí)最小差數(shù)絕對(duì)值;maxmax|Y(k)-X(k)|——Y序列與X序列在k點(diǎn)的二級(jí)最大差數(shù)絕對(duì)值;ρ——灰色分析系數(shù),取值范圍為0~1,一般取0.5。

步驟四計(jì)算關(guān)聯(lián)度(ri),關(guān)聯(lián)度越大,表明對(duì)母序列的影響也越大。

(9)

1.2.2主成分分析(PCA)

主成分分析是將n維特征映射到k維上(k

PCA算法流程:①輸入n維特征集X,對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理;②計(jì)算協(xié)方差矩陣;③對(duì)協(xié)方差矩陣進(jìn)行特征值分解;④對(duì)特征值由大到小排列,并將其對(duì)應(yīng)的特征向量進(jìn)行標(biāo)準(zhǔn)化,隨后組成特征向量矩陣;⑤計(jì)算特征值的方差累計(jì)貢獻(xiàn)率。

1.3 評(píng)價(jià)指標(biāo)

對(duì)于本文的預(yù)測(cè)結(jié)果選取Nash-Sutciline納什效率系數(shù)(NSE)、確定性系數(shù)(R2)、觀測(cè)值標(biāo)準(zhǔn)偏差比(RSR)[39]為預(yù)測(cè)模型的精度評(píng)價(jià)指標(biāo),各個(gè)指標(biāo)見式(10)—(12),其對(duì)模型性能評(píng)價(jià)的好壞見表1。

(10)

(11)

(12)

表1 模型性能評(píng)定等級(jí)

2 典型案例分析

2.1 研究區(qū)概況

渭河發(fā)源于甘肅省渭源縣鳥鼠山,是黃河的最大支流,主要流經(jīng)甘肅省天水市、陜西省關(guān)中平原的寶雞市、西安市、渭南市等地,流域面積為134 800 km2。本文選取華縣、林家村、咸陽、張家山、狀頭5個(gè)水文站作為研究對(duì)象。其中,林家村站是渭河干流上游控制站同時(shí)也是國家重點(diǎn)水文站,其控制面積為30 661 km2。咸陽站是渭河中游控制站、國家重點(diǎn)水文站以及黃委重要報(bào)汛站,其集水面積為46 827 km2。華縣站是渭河干流下游控制站,其控制面積為106 498 km2。張家山站是涇河下由游控制站、國家重點(diǎn)水文站以及中央報(bào)汛站。狀頭站是北洛河下游控制站,其集水區(qū)面積為25 154 km2。

2.2 數(shù)據(jù)來源

用于渭河流域中長期徑流預(yù)測(cè)的相關(guān)數(shù)據(jù):①林家村、咸陽、華縣、張家山、狀頭5個(gè)水文站的月徑流數(shù)據(jù)來自《中華人民共和國水文年鑒黃河流域水文資料》并選取1960年1月至2015年12月共56年的月徑流;②月降水?dāng)?shù)據(jù)與月蒸發(fā)量收集自中國氣象科學(xué)數(shù)據(jù)共享服務(wù)網(wǎng)(http://data.cma.cn/),包括臨洮、岷縣、華家?guī)X、西吉、天水、固原、平?jīng)?、寶雞、環(huán)縣、西峰鎮(zhèn)、長武、佛坪、吳旗、武功、西安、銅川、鎮(zhèn)安、洛川、商縣、華山、延安共21個(gè)氣象站1960年1月至2015年12月的數(shù)據(jù),利用泰森多邊形法將點(diǎn)數(shù)據(jù)轉(zhuǎn)為面數(shù)據(jù)。渭河流域示意見圖3。

圖3 渭河流域示意

2.3 計(jì)算結(jié)果與分析

2.3.1選取最優(yōu)預(yù)測(cè)模型

試驗(yàn)數(shù)據(jù)選取1960年1月至2015年12月渭河流域的月降雨、月潛在蒸散發(fā)以及月徑流數(shù)據(jù)并做滯時(shí)處理,采用Spearman相關(guān)系數(shù)法,選擇相關(guān)系數(shù)絕對(duì)值大于0.3,置信度水平高于95%的因子作為輸入項(xiàng)[24],其選擇結(jié)果見圖4。經(jīng)相關(guān)系數(shù)法處理后的序列作為預(yù)報(bào)因子,徑流序列作為預(yù)報(bào)要素,構(gòu)建監(jiān)督學(xué)習(xí)數(shù)據(jù)集。由于數(shù)據(jù)的量綱不一致,直接令其作為輸入項(xiàng)輸入會(huì)得到誤差較大的結(jié)果,因此,為了能夠使誤差快速收斂且得到準(zhǔn)確可靠的預(yù)測(cè)數(shù)據(jù),要對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,并按照0.6∶0.2∶0.2的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集。其中訓(xùn)練集用以訓(xùn)練模型,給出模型輸入以及對(duì)應(yīng)的輸出,使模型學(xué)習(xí)數(shù)據(jù)之間的關(guān)系;驗(yàn)證集用來評(píng)估模型的訓(xùn)練水平,由此根據(jù)驗(yàn)證集的表現(xiàn)選擇合適的模型;測(cè)試集是由輸入數(shù)據(jù)在最優(yōu)模型上得到的最后結(jié)果,測(cè)試集只用于測(cè)試模型的性能,而不用來訓(xùn)練模型。

本文基于Python平臺(tái)的sklearn庫構(gòu)建支持向量回歸模型,其懲罰系數(shù)為1.0,核函數(shù)選擇RBF高斯核。長短記憶網(wǎng)絡(luò)模型的構(gòu)建是基于Python平臺(tái)的PyTorch框架中的torch.nn.Module類構(gòu)建,使用torch.nn中提供的接口定義每個(gè)layer的屬性,最后,采用forward函數(shù)將每個(gè)layer層連接。本文將LSTM網(wǎng)絡(luò)設(shè)定為單向網(wǎng)絡(luò),隱藏層節(jié)點(diǎn)數(shù)為32,激活函數(shù)選擇Relu函數(shù)。訓(xùn)練函數(shù)中迭代次數(shù)為100次,損失函數(shù)為均方方差函數(shù)(MSE),優(yōu)化器為隨機(jī)梯度下降算法(SGD)。最后利用NSE、R2、RSR構(gòu)建指標(biāo)體系評(píng)價(jià)上述模型。

將構(gòu)建好的訓(xùn)練集分別驅(qū)動(dòng)SVR與LSTM,并用驗(yàn)證集驅(qū)動(dòng)訓(xùn)練好的模型,利用指標(biāo)評(píng)價(jià)訓(xùn)練模型的好壞,若評(píng)價(jià)指標(biāo)的結(jié)果較好,則將訓(xùn)練好的模型保存下來,轉(zhuǎn)為模型測(cè)試狀態(tài),得出測(cè)試結(jié)果;若評(píng)價(jià)指標(biāo)結(jié)果較差,則初步考慮調(diào)整學(xué)習(xí)率及動(dòng)量等參數(shù)。最后用測(cè)試集驅(qū)動(dòng)訓(xùn)練好的模型進(jìn)行預(yù)測(cè)。由圖5可知,LSTM的5個(gè)站點(diǎn)的測(cè)試期均好于SVR模型,具體為五站點(diǎn)基于支持向量回歸、長短記憶網(wǎng)絡(luò)模型的NSE均值分別為0.878、0.957,R2均值分別為0.903、0.963,RSR均值分別為0.344、0.200。同時(shí),由圖5可見長短記憶網(wǎng)絡(luò)模型在對(duì)峰值點(diǎn)與低谷點(diǎn)的模擬效果優(yōu)于支持向量回歸模型。綜上可知,基于兩單一模型對(duì)渭河流域的重要站點(diǎn)進(jìn)行徑流預(yù)測(cè)時(shí),LSTM模型效果優(yōu)于SVR,因此本文考慮最優(yōu)模型為長短記憶網(wǎng)絡(luò)模型。

圖4 徑流與滯時(shí)因子相關(guān)性分析結(jié)果

a)林家村

e)狀頭

2.3.2二次因子篩選

經(jīng)相關(guān)系數(shù)篩選出的變量對(duì)模型精度提升很高,但經(jīng)篩選后的變量仍存在成分冗余現(xiàn)象。由于預(yù)測(cè)模型需要強(qiáng)相關(guān)的變量作為輸入項(xiàng),且一些強(qiáng)相關(guān)變量對(duì)徑流預(yù)測(cè)的作用可能是重復(fù)的甚至可能使模型預(yù)測(cè)精度降低,故需剔除冗余成分變量[14]。農(nóng)振學(xué)等[39]利用主成分分析法篩選因子并結(jié)合BP算法對(duì)徑流進(jìn)行預(yù)測(cè),結(jié)果表明主成分分析法對(duì)徑流的變化趨勢(shì)描述效果好。張巖等[40]利用PCA剔除冗余信息與噪聲信息,提取預(yù)報(bào)因子間的強(qiáng)相關(guān)因子,構(gòu)建融合粒子群優(yōu)化的支持向量回歸模型進(jìn)行年徑流預(yù)報(bào)研究,預(yù)測(cè)結(jié)果可為丹江口水庫年徑流預(yù)報(bào)提供參考。方威等[41]基于長短記憶網(wǎng)絡(luò)建立模型,并利用灰色系統(tǒng)關(guān)聯(lián)分析法篩選因子,其預(yù)測(cè)模型結(jié)果優(yōu)于未經(jīng)GRA處理的變量作為輸入項(xiàng)的預(yù)測(cè)模型。故本文考慮對(duì)比分析主成分分析法與灰色關(guān)聯(lián)度分析法,進(jìn)一步對(duì)因子進(jìn)行篩選,并結(jié)合LSTM網(wǎng)絡(luò)對(duì)徑流開展預(yù)測(cè)工作。

a)基于主成分分析的長短記憶網(wǎng)絡(luò)(PCA_LSTM)。由圖3可知,華縣站由相關(guān)系數(shù)篩選的徑流滯時(shí)變量為1、12,降雨滯時(shí)變量為0、1、2、7、12,蒸發(fā)滯時(shí)變量為1、2、3、7、8、9。本文的主成分分析處理方法依據(jù)Python的sklearn庫,首先在使用PCA類時(shí)須對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。若數(shù)據(jù)中的某一特征變量的數(shù)值很高,導(dǎo)致此特征變量占整體誤差比重大,當(dāng)投影到低維空間上后,為了擬合效果整個(gè)投影會(huì)逼近最大的特征變量而忽略較小特征,然而每個(gè)特征變量的重要性無法預(yù)知,這很可能導(dǎo)致大量的信息缺失,因此防止模型過分捕捉數(shù)值大的特征變量,在建模前須事先對(duì)每個(gè)特征變量進(jìn)行標(biāo)準(zhǔn)化,使其在相同范圍內(nèi),后再進(jìn)行主成分分析;其次調(diào)用PCA函數(shù),并設(shè)置n_componenets參數(shù)為‘mle’,mle參數(shù)可根據(jù)數(shù)據(jù)的方差分布特征自動(dòng)決定降維的維度。最后對(duì)標(biāo)準(zhǔn)化的數(shù)據(jù)降維處理,得到降維后的數(shù)據(jù)。各個(gè)站點(diǎn)的各個(gè)主成分累計(jì)方差貢獻(xiàn)率見表2,其中各個(gè)站點(diǎn)所選取的主成分的累計(jì)方差貢獻(xiàn)率均達(dá)到給定的累計(jì)方差貢獻(xiàn)率閾值99%,如華縣站降維后為11維,形成主成分。利用降維后的主成分驅(qū)動(dòng)長短記憶網(wǎng)絡(luò)模型得到最終的預(yù)測(cè)結(jié)果。

b)基于灰色關(guān)聯(lián)度分析的長短記憶網(wǎng)絡(luò)(GRA_LSTM)。本文的灰色關(guān)聯(lián)度分析依據(jù)Python平臺(tái)搭建,按照1.2節(jié)方法搭建關(guān)聯(lián)度分析模型,選取徑流量為母序列Yi(此處的母序列為1961年1月至2015年12月徑流序列),其他滯時(shí)序列作為子序列Xi且其關(guān)聯(lián)度計(jì)算見表3,選取關(guān)聯(lián)度大于等于0.8的滯時(shí)序列作為模型的輸入變量并用驅(qū)動(dòng)長短記憶網(wǎng)絡(luò)模型,得到最終的預(yù)測(cè)結(jié)果。

表2 各站點(diǎn)選取的主成分變量的累計(jì)方差貢獻(xiàn)率 %

續(xù)表2 各站點(diǎn)選取的主成分變量的累計(jì)方差貢獻(xiàn)率 %

表3 各站點(diǎn)不同滯時(shí)下的相關(guān)變量與徑流的關(guān)聯(lián)度

2.3.3評(píng)估模型

利用測(cè)試期的預(yù)測(cè)結(jié)果對(duì)模型進(jìn)行評(píng)估,結(jié)合圖5與表4可知本文考慮的重要站點(diǎn)的PCA_LSTM與GRA_LSTM評(píng)估指標(biāo)結(jié)果均高于LSTM。其中,基于LSTM、PCA_LSTM、GRA_LSTM三模型5個(gè)站點(diǎn)測(cè)試期的NSE均值分別為0.957、0.982、0.994,R2均值分別為0.963、0.991、0.995,RSR均值分別為0.200、0.131、0.075。

對(duì)比LSTM、PCA_LSTM模型評(píng)估指標(biāo)結(jié)果,PCA_LSTM模型相較于LSTM模型5個(gè)站點(diǎn)的NSE、R2均值分別提升了2.6%、2.9%,RSR的均值下降了34.6%;對(duì)比LSTM與GRA_LSTM兩模型的評(píng)估指標(biāo),表明GRA_LSTM模型相較于LSTM模型5個(gè)站點(diǎn)的NSE、R2均值分別提升了3.9%、3.2%,RSR的均值下降了62.6%。由此說明,對(duì)輸入項(xiàng)進(jìn)行二次篩選去除冗余成分可有效提高模型預(yù)報(bào)精度。

本文采用泰勒?qǐng)D展現(xiàn)測(cè)試期的原始徑流序列與耦合模型模擬序列的計(jì)算結(jié)果。泰勒?qǐng)D中的符號(hào)代表不同模型,輻射線代表相關(guān)系數(shù),橫縱坐標(biāo)代表標(biāo)準(zhǔn)差,虛線代表均方根誤差,能夠綜合評(píng)價(jià)模型精度,其中模型結(jié)果越靠近參考點(diǎn)(REF)代表模型精度越高[42]。由圖6a可見,林家村站基于PCA_GRA與GRA_LSTM的模擬點(diǎn)的標(biāo)準(zhǔn)差集中在參考點(diǎn)REF~1.25,RMSE集中在0~0.25,相關(guān)系數(shù)集中在0.99~1.00。說明基于PCA_GRA與GRA_LSTM的模擬序列值與原始序列值的差異不大,但相比PCA_GRA模型,在泰勒?qǐng)D的3個(gè)指標(biāo)中,GRA_LSTM的模擬結(jié)果更加靠近參考值,則GRA_LSTM的模擬效果更優(yōu)。同時(shí)由表4可知,林家村站GRA_LSTM相比PCA_GRA的驗(yàn)證期NSE、RSR、R2均提升了0.18%、51.30%、0.20%。由此進(jìn)一步說明GRA_LSTM的模擬效果優(yōu)于PCA_GRA。

由圖6b—6e可知,咸陽、華縣、張家山、狀頭站與林家村有類似的結(jié)論,即GRA_LSTM模擬結(jié)果更接近參考點(diǎn)REF,模擬精度更高。

表4 基于PCA與GRA的LSTM模型預(yù)測(cè)結(jié)果

c)華縣

綜上所述,基于PCA_GRA與GRA_LSTM的預(yù)測(cè)效果均優(yōu)于LSTM的預(yù)測(cè)效果,表明在進(jìn)行二次優(yōu)選后的預(yù)測(cè)效果優(yōu)于初次優(yōu)選的預(yù)測(cè)效果,因此對(duì)預(yù)報(bào)因子進(jìn)行二次篩選可以有效提高預(yù)報(bào)精度;相比PCA_GRA,GRA_LSTM的預(yù)測(cè)精度更高,五站點(diǎn)訓(xùn)練集、驗(yàn)證集與測(cè)試集的實(shí)測(cè)值(OBS)與GRA_LSTM的模擬值的對(duì)比結(jié)果見圖7。

2.4 討論

在模型優(yōu)選部分,相比傳統(tǒng)機(jī)器學(xué)習(xí)SVR,深度學(xué)習(xí)LSTM有更高的預(yù)報(bào)精度。SVR在訓(xùn)練集的擬合效果較好,具體為五站點(diǎn)訓(xùn)練期、驗(yàn)證期及測(cè)試期的納什效率系數(shù)均值分別為0.951、0.871、0.878,但泛化能力相對(duì)LSTM較弱,5個(gè)站點(diǎn)的LSTM模型的訓(xùn)練期、驗(yàn)證期及測(cè)試期的納什效率系數(shù)均值分別為0.943、0.904、0.957,同時(shí)SVR在測(cè)試集的擬合效果稍差。由于LSTM擁有更深層的網(wǎng)絡(luò)結(jié)構(gòu)與自學(xué)習(xí)能力,對(duì)具有趨勢(shì)性且內(nèi)部影響因素復(fù)雜的徑流序列的特征挖掘更突出、預(yù)測(cè)精度更高。其他學(xué)者也在模型方面有大量的研究,如梁浩等[12]基于SVR等模型對(duì)渭河流域徑流預(yù)報(bào)進(jìn)行研究,其NSE為0.603~0.658,其預(yù)報(bào)精度相比LSTM模型稍差。這進(jìn)一步說明LSTM在預(yù)測(cè)徑流序列方面有顯著優(yōu)勢(shì)。

本文考慮預(yù)報(bào)因子的選取主要為2個(gè)方面:一是前期徑流,由于它本身存在強(qiáng)自相關(guān)性且認(rèn)為徑流的歷史規(guī)律會(huì)延續(xù)到未來,反映前期徑流對(duì)未來徑流的綜合作用,因此利用數(shù)理統(tǒng)計(jì)法建立前期徑流與預(yù)報(bào)要素之間的關(guān)系,就可以進(jìn)行水文預(yù)報(bào)研究;二是影響徑流的其他因素,由徑流的產(chǎn)匯流機(jī)制可知,徑流形成過程主要受流域氣候因素與下墊面條件影響。其中,流域氣候特征是影響徑流長期變化的最重要因素。在流域氣候特征中,降雨和蒸發(fā)對(duì)徑流的影響起主要作用。降水是徑流的來源,降水的空間分布與降水量的大小會(huì)直接影響徑流的形成,蒸發(fā)量的大小則會(huì)影響徑流量的變化。因此將前期降雨、蒸發(fā)納入備選因子是符合降雨徑流過程的。因此,所有的備選因子均與徑流具備成因聯(lián)系,據(jù)此開展備選因子的篩選工作。

林家村、咸陽、華縣、張家山及狀頭站進(jìn)行初次篩選后的模型均方根誤差分別為0.257、1.043、0.374、0.279、0.087,耦合主成分分析法的二次篩選后的均方根誤差依次為0.242、0.381、0.630、0.208、0.065,耦合灰色關(guān)聯(lián)度的二次篩選后的均方根誤差依次為0.118、0.276、0.374、0.086、0.049,由此說明二次篩選相比初次篩選的誤差更小,一定程度上降低了二次篩選對(duì)預(yù)測(cè)結(jié)果的不確定性。

3 結(jié)論

首先利用Spearman相關(guān)系數(shù)法初次篩選出相關(guān)性較高的滯時(shí)因子,其次建立SVR與LSTM模型并將其應(yīng)用于渭河的徑流預(yù)報(bào),并對(duì)兩模型的預(yù)測(cè)結(jié)果進(jìn)行對(duì)比分析,其結(jié)果表明LSTM的預(yù)報(bào)效果優(yōu)于SVR。這種優(yōu)勢(shì)體現(xiàn)在深度學(xué)習(xí)模型自身對(duì)于非線性、復(fù)雜的系統(tǒng)具有自適應(yīng)、非線性映射以及強(qiáng)大的時(shí)間序列處理能力。因此優(yōu)選出LSTM模型作為下一步的預(yù)測(cè)模型。

對(duì)于預(yù)報(bào)影響因子的二次篩選研究,分別利用主成分分析法與灰色系統(tǒng)關(guān)聯(lián)度法耦合LSTM模型對(duì)渭河流域的林家村、咸陽、華縣、張家山、狀頭的5站點(diǎn)進(jìn)行徑流預(yù)報(bào)研究。其結(jié)果表明:不論哪種耦合模型,其結(jié)果均好于單一LSTM模型,具體表現(xiàn)為主成分耦合模型相較于長短記憶網(wǎng)絡(luò)模型5個(gè)站點(diǎn)的測(cè)試期NSE、R2均值分別提升了2.6%、2.9%,RSR的均值下降了34.6%;灰色關(guān)聯(lián)度耦合模型相較于長短記憶網(wǎng)絡(luò)模型5個(gè)站點(diǎn)的測(cè)試期NSE、R2均值分別提升了3.9%、3.2%,測(cè)試期RSR的均值下降了62.6%。由此表明,對(duì)輸入項(xiàng)進(jìn)行再次篩選是有效的,同時(shí)也表明當(dāng)預(yù)報(bào)的輸入項(xiàng)過多時(shí),預(yù)報(bào)結(jié)果反而變差。因此,有效的篩選輸入項(xiàng)會(huì)得到更加準(zhǔn)確的預(yù)報(bào)結(jié)果。

兩耦合模型經(jīng)對(duì)比分析發(fā)現(xiàn),基于主成分耦合模型五站點(diǎn)的測(cè)試期NSE均值為0.981,R2均值為0.991,RSR均值為0.136;基于灰色關(guān)聯(lián)度耦合模型五站點(diǎn)的測(cè)試期NSE均值為0.992,R2均值為0.992,RSR均值為0.090。灰色關(guān)聯(lián)度耦合模型相比主成分耦合模型的5站點(diǎn)的測(cè)試期NSE、R2均值分別提升了0.13%、0.03%,RSR均值降低了42.9%。上述數(shù)據(jù)表明,灰色關(guān)聯(lián)度耦合模型更加適合對(duì)渭河流域經(jīng)典站點(diǎn)進(jìn)行徑流預(yù)報(bào)。在接下來的研究工作中可以考慮在以下2個(gè)方面提升預(yù)報(bào)精度:①本文只將前期降雨、潛在蒸散發(fā)、徑流作為輸入項(xiàng),而沒考慮其他影響因子,因此考慮增加更多具有物理機(jī)制的因子作為輸入項(xiàng)提升預(yù)測(cè)模型精度;②考慮基于不同深度模型進(jìn)行二次篩選從而提高預(yù)報(bào)精度。

六枝特区| 闽侯县| 修文县| 阿瓦提县| 页游| 贡觉县| 瑞金市| 富平县| 鄄城县| 清水县| 延吉市| 新宁县| 酒泉市| 桦甸市| 昌乐县| 茶陵县| 阿克苏市| 咸丰县| 鹤峰县| 宁津县| 乐业县| 孟津县| 永和县| 共和县| 思茅市| 炉霍县| 桂林市| 肥东县| 页游| 武汉市| 康平县| 阿图什市| 新干县| 万宁市| 达尔| 交口县| 河南省| 红原县| 永昌县| 门头沟区| 禄劝|