国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LSTM網(wǎng)絡(luò)的在線藻類時(shí)序數(shù)據(jù)預(yù)測(cè)研究:以三峽水庫(kù)為例*

2021-07-07 03:31:24歐陽(yáng)添周博天吳忠興尚明生
湖泊科學(xué) 2021年4期
關(guān)鍵詞:水華藻類葉綠素

歐陽(yáng)添,閃 錕,周博天,黃 昱,吳忠興,尚明生

(1:西南大學(xué)三峽庫(kù)區(qū)生態(tài)環(huán)境教育部重點(diǎn)實(shí)驗(yàn)室,重慶市三峽庫(kù)區(qū)植物生態(tài)與資源重點(diǎn)實(shí)驗(yàn)室,重慶 400715)(2:中國(guó)科學(xué)院重慶綠色智能技術(shù)研究院,大數(shù)據(jù)與智能計(jì)算重慶市重點(diǎn)實(shí)驗(yàn)室, 重慶 400714)

筑壩攔截會(huì)改變河流的水文情勢(shì),從水動(dòng)力條件、水下光熱結(jié)構(gòu)、養(yǎng)分來(lái)源及其輸送強(qiáng)度等方面,形成微觀生境的時(shí)空異質(zhì)性,加之大量陸源營(yíng)養(yǎng)物受淹溶出,極易誘發(fā)藻類大量繁殖形成水華現(xiàn)象[1-2].近年來(lái),全世界大型河流中有害水華事件的數(shù)量和規(guī)模都不斷增加[3].因而,需要研發(fā)水華的早期監(jiān)測(cè)預(yù)警系統(tǒng),幫助水資源管理人員快速診斷藻類變化,減少水華發(fā)生的風(fēng)險(xiǎn)和治理成本.但是,水華暴發(fā)是一個(gè)復(fù)雜的生態(tài)事件,是由特定水體中物理、化學(xué)和生物因素相互耦合作用引起的,變量間往往呈現(xiàn)出高維非線性的映射關(guān)系[4-5],需要借助于模型工具來(lái)實(shí)現(xiàn)生態(tài)系統(tǒng)變化的全面評(píng)估.目前,預(yù)測(cè)藻類動(dòng)態(tài)變化主要有兩種建模策略:機(jī)理過(guò)程模型和機(jī)器學(xué)習(xí)算法.其中基于生態(tài)動(dòng)力學(xué)過(guò)程的方法是模擬和分析藻類動(dòng)態(tài)變化最有效的技術(shù),并在水生態(tài)系統(tǒng)長(zhǎng)期演替趨勢(shì)分析中取得廣泛的應(yīng)用.但水華暴發(fā)涉及的生態(tài)過(guò)程還尚存著機(jī)理不明晰,或難以用數(shù)學(xué)來(lái)表達(dá)的問(wèn)題[5].隨著大數(shù)據(jù)時(shí)代的到來(lái)和人工智能技術(shù)的迅猛發(fā)展,數(shù)據(jù)驅(qū)動(dòng)的建模方式逐漸在水華短期預(yù)測(cè)上得到重視[6].

特別是人工神經(jīng)網(wǎng)絡(luò)被廣泛應(yīng)用在藻類動(dòng)態(tài)變化預(yù)測(cè)上,如BP神經(jīng)網(wǎng)絡(luò)(back propagation neural network, BPNN)[7]、徑向基(radial basis function,RBF)神經(jīng)網(wǎng)絡(luò)[8]、小波神經(jīng)網(wǎng)絡(luò)(wavelet neural network,WNN)[9]和深度置信網(wǎng)絡(luò)(deep belief network,DBN)[10].但是,上述方法并未對(duì)時(shí)間序列數(shù)據(jù)開(kāi)發(fā),對(duì)單批次輸入時(shí)間序列數(shù)據(jù)前后之間的依賴關(guān)系缺乏考慮.而長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(long short-term memory neural network, LSTM-NN)作為一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),在保留傳統(tǒng)循環(huán)網(wǎng)絡(luò)(recurrent neural network,RNN)對(duì)連續(xù)時(shí)間序列處理能力的同時(shí),可有效地解決時(shí)間依賴上的問(wèn)題,已經(jīng)在自然語(yǔ)言處理領(lǐng)域取得了巨大的成功,國(guó)內(nèi)外最新研究也嘗試將LSTM引用于藻類動(dòng)態(tài)預(yù)測(cè)上.如Yu等[11]將小波分析和LSTM相結(jié)合提出了WDTD-LSTM-WMF長(zhǎng)期預(yù)測(cè)模型,并結(jié)合地理空間分析模擬了滇池葉綠素a濃度的歷史變化過(guò)程,并有效地預(yù)測(cè)了葉綠素a濃度的未來(lái)變化趨勢(shì);Wang等[12]利用福建海洋預(yù)報(bào)站2009-2011年的監(jiān)測(cè)數(shù)據(jù),構(gòu)建了預(yù)測(cè)葉綠素a濃度的LSTM時(shí)空分布模型,結(jié)果表明該模型能夠很好地處理水質(zhì)指標(biāo)與葉綠素a濃度之間的非線性關(guān)系;Lee等[13]將3種深度學(xué)習(xí)模型(多層感知器MLP、RNN和LSTM)和普通最小二乘OLS回歸分析方法用于韓國(guó)4條主要河流的水華預(yù)測(cè)并進(jìn)行比較分析,LSTM模型在其中表現(xiàn)出最優(yōu)的性能;Shin等[14]利用LSTM模型,基于衛(wèi)星收集到的海表溫度和光合有效輻射數(shù)據(jù)對(duì)韓國(guó)南海赤潮發(fā)生進(jìn)行預(yù)測(cè).

然而,LSTM模型的預(yù)測(cè)效果依賴于輸入變量的可靠性,當(dāng)使用離散監(jiān)測(cè)數(shù)據(jù)評(píng)估藻類動(dòng)態(tài)變化時(shí),模型預(yù)測(cè)性能可能會(huì)受到一定限制,但尚未有研究探索藻類在線監(jiān)測(cè)數(shù)據(jù)與LSTM結(jié)合的問(wèn)題;此外,考慮到藻類在線監(jiān)測(cè)數(shù)據(jù)會(huì)受各種隨機(jī)因素的影響,呈現(xiàn)出非穩(wěn)態(tài)的時(shí)序變化特征,會(huì)影響模型訓(xùn)練與預(yù)測(cè)的穩(wěn)定性,因而有必要對(duì)獲取的信息提取進(jìn)行降噪處理.小波變換(wavelet transformation,WT)具有良好的時(shí)頻分辨功能,是分析生態(tài)時(shí)間序列中經(jīng)常出現(xiàn)的非平穩(wěn)、非周期性和含噪聲信號(hào)的有力工具[15].例如在用神經(jīng)網(wǎng)絡(luò)對(duì)北京河湖進(jìn)行水華預(yù)測(cè)的研究結(jié)果表明,經(jīng)過(guò)小波分析降噪處理后的數(shù)據(jù)能有效避免其中噪聲部分對(duì)網(wǎng)絡(luò)的干擾,提高網(wǎng)絡(luò)的性能[16].為此,本研究以在線系統(tǒng)獲取的監(jiān)測(cè)數(shù)據(jù)為基礎(chǔ),構(gòu)建基于小波變換和LSTM網(wǎng)絡(luò)的藻類時(shí)序預(yù)測(cè)模型,探討模型在三峽水庫(kù)4條支流葉綠素a時(shí)序變化預(yù)測(cè)上的表現(xiàn),以期為水華的監(jiān)測(cè)預(yù)警系統(tǒng)構(gòu)建提供借鑒與依據(jù).

1 材料與方法

1.1 研究區(qū)域概況

三峽大壩自2003年建成蓄水后,部分支流受干流回水頂托的影響,表現(xiàn)出區(qū)別經(jīng)典河湖的水動(dòng)力學(xué)特征,極易誘發(fā)藻類大量繁殖而形成水華[17-18].本研究圍繞三峽庫(kù)區(qū)4條支流香溪河、澎溪河、大寧河及草堂河開(kāi)展,具體位置如圖1所示.香溪河(31°04′~31°34′N(xiāo),110°25′~111°06′E)全長(zhǎng)94 km,是三峽庫(kù)區(qū)中距離大壩最近的支流,與大壩相距僅34.5 km,形成了長(zhǎng)約40 km的回水區(qū).位于三峽庫(kù)區(qū)中部的草堂河(30°35′~31°26′N(xiāo),108°14′~109°25′E),距大壩165 km,全長(zhǎng)31.4 km,有約8 km的回水區(qū).處于三峽庫(kù)區(qū)中上部的大寧河(31°04′~31°44′N(xiāo),108°44′~110°11′E)長(zhǎng)162 km,最大深度110 m,位于大壩上游123 km處,回水區(qū)約60 km.彭溪河(31°00′~31°42′N(xiāo),107°56′~108°54′E)處于三峽庫(kù)區(qū)的中段,是庫(kù)區(qū)北岸流域面積最大的支流全長(zhǎng)182 km,位于大壩上游約250 km的地方,回水區(qū)約60 km.

圖1 三峽庫(kù)區(qū)支流監(jiān)測(cè)點(diǎn)位分布示意

1.2 數(shù)據(jù)處理

1.2.1 數(shù)據(jù)篩選 基于研究團(tuán)隊(duì)在4條河流分別安置的以浮標(biāo)為載體的在線監(jiān)測(cè)系統(tǒng),選取多參數(shù)水質(zhì)分析儀(型號(hào)AP7000,Aquaread)獲取的葉綠素a濃度來(lái)指示藻類動(dòng)態(tài)變化.監(jiān)測(cè)數(shù)據(jù)以10 min/次的頻率原位采集,并通過(guò)CDMA2000(中國(guó)電信)網(wǎng)絡(luò)實(shí)時(shí)傳輸?shù)娇刂浦行?考慮到計(jì)算成本與管理需求,將葉綠素a原始值求每小時(shí)平均后作為模型輸入,本研究提取出一個(gè)完整水文年的數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練與測(cè)試(2017年9月1日至2018年8月31日,總計(jì)35040條).為保障監(jiān)測(cè)數(shù)據(jù)可靠性,儀器每?jī)芍苓M(jìn)行維護(hù)與校驗(yàn),確保數(shù)據(jù)集中缺失與離異值占比較低(<1%).

1.2.2 小波變換預(yù)處理 由于受到各種不確定因素的干擾,在線數(shù)據(jù)時(shí)序變化特征常表現(xiàn)為非平穩(wěn)趨勢(shì)(non-stationary),直接輸入模型后會(huì)影響到預(yù)測(cè)精度.葉綠素a濃度作為表征水華的一個(gè)重要參數(shù),在實(shí)際測(cè)定葉綠素a濃度的過(guò)程中,往往會(huì)受天氣(雨、雪等)、引水過(guò)程和儀器精度等隨機(jī)因素的影響,使測(cè)量值含有噪聲,噪聲的存在會(huì)淹沒(méi)葉綠素序列的真實(shí)變化規(guī)律[16].因此,本文采用小波變換方法對(duì)原始數(shù)據(jù)進(jìn)行預(yù)處理,包括小波分解與小波重構(gòu)2個(gè)主要過(guò)程.小波分解可獲得多個(gè)層次的分解結(jié)果,每一層的結(jié)果都是將原低頻信號(hào)分解成低頻和高頻2個(gè)部分,在經(jīng)過(guò)n層分解之后源信號(hào)被分解為一個(gè)低頻信號(hào)(An)以及若干高頻信號(hào)(D1,D2,…,Dn),源信號(hào)數(shù)據(jù)的噪聲一般集中在高頻信號(hào)部分,可對(duì)高頻部分進(jìn)行一定處理,然后與低頻部分進(jìn)行小波重構(gòu),還原成降噪數(shù)據(jù)[19].為使LSTM模型更有效地提取隱藏的信息,本研究選取應(yīng)用較廣的Daubechies小波族中的db4小波函數(shù)將葉綠素a濃度時(shí)序數(shù)據(jù)經(jīng)3層分解得到的高頻信息濾除,僅保留低頻數(shù)據(jù)以刻畫(huà)葉綠素a濃度的變化趨勢(shì),其中部分?jǐn)?shù)據(jù)降噪處理前后的結(jié)果對(duì)比如圖2所示,從圖中可以看出經(jīng)過(guò)小波變換降噪后的葉綠素時(shí)序信號(hào)較為平滑,同時(shí)也很好地保留了葉綠素的動(dòng)態(tài)變化.

圖2 小波變換降噪前后數(shù)據(jù)對(duì)比

1.2.3 數(shù)據(jù)標(biāo)準(zhǔn)化 為利于模型抽提出更多的特征,本文對(duì)葉綠素a時(shí)序數(shù)據(jù)按照式(1)進(jìn)行極差標(biāo)準(zhǔn)化處理,使樣本數(shù)據(jù)處于[0,1]區(qū)間內(nèi).

(1)

1.3 LSTM神經(jīng)網(wǎng)絡(luò)模型的構(gòu)建

LSTM模型采用主流的TensorFlow深度學(xué)習(xí)框架實(shí)現(xiàn),具體的技術(shù)路線如圖3所示.數(shù)據(jù)經(jīng)預(yù)處理和標(biāo)準(zhǔn)化后,采用3個(gè)步驟研究LSTM對(duì)葉綠素a的預(yù)測(cè)效果.首先,將不同河流于2017年9月1日至2018年5月31日采集的葉綠素a數(shù)據(jù)(占總樣本的75%)作為訓(xùn)練集,2018年6月1日至8月31日的葉綠素a數(shù)據(jù)(占總樣本的25%)作為測(cè)試集,分別構(gòu)建每條支流的水華預(yù)測(cè)模型;隨后,為進(jìn)一步驗(yàn)證LSTM模型的泛化能力,在樣本數(shù)據(jù)擴(kuò)大的情況下對(duì)模型進(jìn)行校驗(yàn),選取任一條河流的樣本數(shù)據(jù)為測(cè)試集,其余3條河流的樣本數(shù)據(jù)為訓(xùn)練集,對(duì)葉綠素a的預(yù)測(cè)進(jìn)行交叉驗(yàn)證;最后,為衡量不同時(shí)間尺度下模型對(duì)葉綠素a預(yù)測(cè)效果的影響,分別在1~24 h范圍內(nèi)設(shè)置不同時(shí)間尺度,對(duì)葉綠素a預(yù)測(cè)效果進(jìn)行比較.如圖4所示,在1~6 h內(nèi)的短期預(yù)測(cè)上,模型預(yù)測(cè)目標(biāo)是以小時(shí)為節(jié)點(diǎn)遞增的葉綠素a濃度;在相對(duì)長(zhǎng)的時(shí)間尺度上,采用7~12和13~24 h兩個(gè)區(qū)段內(nèi)葉綠素a濃度極大值與均值,以評(píng)價(jià)模型在不同時(shí)間步長(zhǎng)下對(duì)葉綠素a濃度的預(yù)測(cè)效果.這是考慮到特定時(shí)間區(qū)間內(nèi)葉綠素a濃度的峰值表征水華的嚴(yán)重程度,而其均值則反映出時(shí)序變化的整體趨勢(shì).

圖3 基于WT-LSTM神經(jīng)網(wǎng)絡(luò)的水華預(yù)測(cè)模型流程

圖4 不同時(shí)間尺度下的預(yù)測(cè)形式

1.3.1 LSTM模型介紹 LSTM最早是由Hochreiter和Schmidhuber所提出,為了解決傳統(tǒng)RNN不能捕捉輸入序列中的長(zhǎng)時(shí)間依賴關(guān)系,而產(chǎn)生梯度消失和梯度爆炸的問(wèn)題[20].LSTM核心在于有一個(gè)用來(lái)儲(chǔ)存信息狀態(tài)的記憶單元(memory cell,MC),并通過(guò)3個(gè)門(mén)控單元(輸入門(mén)、輸出門(mén)和遺忘門(mén))的結(jié)構(gòu)來(lái)調(diào)節(jié)進(jìn)出記憶單元的信息流(圖5).記憶單元可保留時(shí)序中的隱藏信息,以便LSTM利用較長(zhǎng)時(shí)間序列的信息;3個(gè)門(mén)控單元?jiǎng)t通過(guò)sigmoid 函數(shù)的激活與否來(lái)改變記憶單元中的信息狀態(tài),其中遺忘門(mén)(forget gate,F(xiàn)G)用來(lái)決定從記憶單元狀態(tài)中丟棄哪些信息,而輸入門(mén)(input gate,IG)用于確定向記憶單元狀態(tài)中添加那些新信息,最后輸出門(mén)(output gate,OG)控制輸出當(dāng)前單元狀態(tài)的信息.

圖5 LSTM神經(jīng)網(wǎng)絡(luò)在時(shí)序上的展開(kāi)

1.3.2 模型參數(shù)選取 LSTM模型涉及到主要參數(shù)包括神經(jīng)網(wǎng)絡(luò)層數(shù)、每層神經(jīng)元節(jié)點(diǎn)數(shù)及回溯時(shí)間步長(zhǎng)數(shù).在網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)中,通過(guò)預(yù)先多次的比較實(shí)驗(yàn),并考慮到模型的復(fù)雜度與計(jì)算效率,確定相關(guān)參數(shù)取值集合的范圍:神經(jīng)網(wǎng)絡(luò)層數(shù)取值{1,2,3};每層隱藏神經(jīng)元個(gè)數(shù)取值{40,80,120,160};回溯時(shí)間步長(zhǎng)取值{6,12,24}.本文從結(jié)構(gòu)參數(shù)集中隨機(jī)選取一組值來(lái)構(gòu)建模型,并采用5倍K折疊交叉驗(yàn)證的隨機(jī)搜索方法,將數(shù)據(jù)集等比例劃分為K份,選擇其中1份作為測(cè)試,其余K-1份數(shù)據(jù)用于訓(xùn)練,保證每個(gè)部分的數(shù)據(jù)都做過(guò)測(cè)試,每次實(shí)驗(yàn)得到K個(gè)模型并綜合評(píng)價(jià),比較不同參數(shù)取值對(duì)于模型性能的影響,最終得到最優(yōu)的參數(shù)組合.

1.3.3 模型訓(xùn)練過(guò)程 LSTM訓(xùn)練過(guò)程中采用隨時(shí)間反向傳播(back propagation through time, BPTT)算法,主要分為3步.

① 向前計(jì)算每個(gè)神經(jīng)元的輸出值.在計(jì)算中的信息流動(dòng)方向在圖5中用箭頭標(biāo)明,具體的計(jì)算過(guò)程可以用下列公式來(lái)表示:

ft=σ(Wf·[ht-1,xt]+bf)

(2)

it=σ(Wi·[ht-1,xt]+bi)

(3)

Ct=ft*Ct-1+it*tanh(WC·[ht-1,xt]+bC)

(4)

ot=σ(Wo*[ht-1,xt]+bo)

(5)

ht=ot·tanh(Ct)

(6)

式中,ft、it和ot分別表示遺忘門(mén)、輸入門(mén)和輸出門(mén)的激活函數(shù);Ct-1和Ct分別表示記憶單元中前一時(shí)刻和現(xiàn)在時(shí)刻的狀態(tài)向量;ht-1和ht分別表示LSTM的隱藏層前一時(shí)刻和現(xiàn)在時(shí)刻的輸出向量;xt表示當(dāng)前的輸入向量;W和b分別表示各單元結(jié)構(gòu)的權(quán)重矩陣和偏差向量;“*”表示矩陣逐元素點(diǎn)乘.另外,σ(·)表示Sigmoid函數(shù),tanh(·)表示雙曲正切函數(shù),其計(jì)算公式分別為:

(7)

(8)

② 反向計(jì)算每個(gè)神經(jīng)元的誤差項(xiàng),并根據(jù)誤差項(xiàng)計(jì)算權(quán)重梯度.本文的目標(biāo)是預(yù)測(cè)未來(lái)河流中葉綠素a濃度變化,故選取均方誤差(mean square error,MSE)作為損失函數(shù),其中每個(gè)訓(xùn)練樣本的平方誤差損失是實(shí)際值和預(yù)測(cè)值之差的平方,模型平均損失函數(shù)L定義如下:

(9)

式中, 單個(gè)樣本的損失為網(wǎng)絡(luò)的輸出值fθ(xi)和目標(biāo)輸出值yi的平方差,m表示樣本的數(shù)目,θ為模型學(xué)習(xí)的權(quán)重參數(shù).對(duì)于長(zhǎng)度為n的樣本序列,輸出值fθ(x)的表達(dá)式為:

fθ(x)=θ1x1+θ2x2+…+θnxn,j∈{1,2…n}

(10)

在梯度下降算法中,需要先對(duì)參數(shù)求導(dǎo),得到梯度.將每個(gè)樣本中某一參數(shù)θj求導(dǎo)后求和得到式(11):

(11)

③ 應(yīng)用梯度下降算法更新權(quán)重.本文模型在訓(xùn)練過(guò)程中的算法選取由Kingma和Ba所提的出適應(yīng)性動(dòng)量估計(jì)(adaptive moment estimation, Adam)算法,與其他優(yōu)化算法相比,Adam算法計(jì)算更為高效、實(shí)際應(yīng)用中效果更好[21].Adam算法作為經(jīng)典隨機(jī)梯度下降算法的拓展,能更加有效地更新網(wǎng)絡(luò)權(quán)重,在應(yīng)用過(guò)程中使用動(dòng)量與自適應(yīng)學(xué)習(xí)率來(lái)加快網(wǎng)絡(luò)的收斂速度,使得模型沿梯度的負(fù)方向更新參數(shù),同時(shí)為了避免模型在學(xué)習(xí)過(guò)程中容易遇到的過(guò)擬合問(wèn)題,本文通過(guò)采用L2正則化方法可以使模型多次迭代所得到的權(quán)重參數(shù)θj不斷減小,而參數(shù)較小的模型泛化能力也更強(qiáng),在一定程度上避免了過(guò)擬合現(xiàn)象,因?yàn)楫?dāng)權(quán)重值很大時(shí),數(shù)據(jù)偏移一點(diǎn)對(duì)結(jié)果都會(huì)造成很大的影響.最終得到用于迭代計(jì)算權(quán)重參數(shù)θj的公式(12):

(12)

1.3.4 模型評(píng)價(jià) 評(píng)價(jià)模型的性能采用均方根誤差(root mean square error,RMSE)、平均相對(duì)誤差(mean relative error,MRE)和納什效率系數(shù)(Nash efficiency coefficient,NSE).計(jì)算所得的RMSE和MRE的值越小,NSE值越接近1,則模型預(yù)測(cè)的精度越高可信度也越高,具體公式如下:

(13)

(14)

(15)

2 結(jié)果與討論

2.1 模型在三峽庫(kù)區(qū)支流藻類時(shí)序變化預(yù)測(cè)中的應(yīng)用

利用小波變換(WT)與長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)構(gòu)建藻類時(shí)序變化預(yù)測(cè)模型,分別對(duì)4條支流葉綠素a濃度進(jìn)行學(xué)習(xí)與預(yù)測(cè).表1為利用隨機(jī)網(wǎng)格搜索獲取的最優(yōu)參數(shù)組合,以香溪河為例,WT-LSTM模型對(duì)水華預(yù)測(cè)最好的參數(shù)組合為:神經(jīng)網(wǎng)絡(luò)層數(shù)取2、每層隱藏神經(jīng)元取120、回溯時(shí)間步長(zhǎng)取24 h.考慮到模型需反復(fù)不斷地調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù),以獲得具有誤差較低、訓(xùn)練時(shí)間短及精度較高的最佳參數(shù)組合[22],因此,4條支流預(yù)測(cè)模型所選擇的參數(shù)并不一致,體現(xiàn)香溪河和草堂河相較大寧河和澎溪河在網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)等參數(shù)取值上更大,也證實(shí)前兩者所構(gòu)建的神經(jīng)網(wǎng)絡(luò)相對(duì)更加復(fù)雜.

表1 WT-LSTM神經(jīng)網(wǎng)絡(luò)在4條河流中的最優(yōu)參數(shù)組合

在最優(yōu)參數(shù)組合下,圖6給出WT-LSTM模型對(duì)葉綠素a濃度的預(yù)測(cè)效果(1 h預(yù)測(cè)為例).結(jié)果表明在不同河流數(shù)據(jù)集的應(yīng)用中,WT-LSTM模型在訓(xùn)練和測(cè)試階段均表現(xiàn)出較好的預(yù)測(cè)效果,NSE值均接近1,具體在澎溪河、草堂河、大寧河和香溪河依次為0.999、0.993、0.997和0.996,表明WT-LSTM模型可學(xué)習(xí)到在線數(shù)據(jù)的潛在變化趨勢(shì).為進(jìn)一步驗(yàn)證WT-LSTM模型的泛化能力,在樣本數(shù)據(jù)擴(kuò)大的情況下對(duì)模型進(jìn)行校驗(yàn),首先分析了4條河流中葉綠素a濃度的空間相關(guān)性,結(jié)果如表2所示,河流中葉綠素a濃度間均顯著相關(guān)(P< 0.01),證明這4條河流葉綠素a濃度變化趨勢(shì)具有一定的相似性;然后選取3條河流葉綠素a數(shù)據(jù)訓(xùn)練模型,另一條河流的葉綠素a濃度測(cè)試模型,模型預(yù)測(cè)效果如表3所示.可以觀察到WT-LSTM模型對(duì)4條河流葉綠素a濃度值皆有較好的預(yù)測(cè)效果,無(wú)論選取4條河流中任意一條河流作為測(cè)試集,所得到的預(yù)測(cè)結(jié)果與實(shí)際監(jiān)測(cè)值之間吻合程度較高,平均相對(duì)誤差均不超過(guò)5%,具體在澎溪河、草堂河、大寧河和香溪河依次為1.36%、1.70%、2.51%和4.74%;不同數(shù)據(jù)集的交叉驗(yàn)證實(shí)驗(yàn)表明,模型可耦合多個(gè)監(jiān)測(cè)站點(diǎn)數(shù)據(jù),擴(kuò)大訓(xùn)練與測(cè)試樣本空間,提供模型的泛化能力.因而,在湖庫(kù)中在線監(jiān)測(cè)系統(tǒng)應(yīng)用上,可以學(xué)習(xí)多個(gè)具備相似特征的在線監(jiān)測(cè)數(shù)據(jù),提高模型對(duì)具體問(wèn)題的預(yù)測(cè)能力.

圖6 WT-LSTM模型監(jiān)測(cè)期間內(nèi)在4條河流中葉綠素a濃度預(yù)測(cè)值和實(shí)測(cè)值對(duì)比

表2 4條河流中葉綠素a的Spearman相關(guān)性

表3 不同河流作為測(cè)試集的LSTM模型預(yù)測(cè)效果

2.2 模型對(duì)不同時(shí)間步長(zhǎng)的葉綠素a濃度預(yù)測(cè)效果

為比較不同時(shí)間尺度下模型對(duì)葉綠素a濃度預(yù)測(cè)效果,分別在1~24 h范圍內(nèi)設(shè)置多個(gè)時(shí)間步長(zhǎng)的預(yù)測(cè)任務(wù),并對(duì)葉綠素a極大值與平均值的預(yù)測(cè)效果進(jìn)行比較.考慮到澎溪河監(jiān)測(cè)的生物量最高(葉綠素a濃度可維持在25 μg/L以上),此處選取澎溪河數(shù)據(jù)集為代表測(cè)試模型的預(yù)測(cè)效果.

根據(jù)前期研究發(fā)現(xiàn),不同的回溯時(shí)間步長(zhǎng)對(duì)模型的預(yù)測(cè)效果有較為顯著的影響,因此對(duì)不同時(shí)間尺度的預(yù)測(cè)任務(wù)采取相同的回溯時(shí)長(zhǎng)以便于比較模型的預(yù)測(cè)效果,為分析建立合理的預(yù)報(bào)時(shí)長(zhǎng)提供依據(jù).結(jié)合模型參數(shù)選取實(shí)驗(yàn)結(jié)果,神經(jīng)網(wǎng)絡(luò)層數(shù)為2,隱藏神經(jīng)元個(gè)數(shù)為40,回溯時(shí)間步長(zhǎng)為24 h,即利用過(guò)去一天的歷史數(shù)據(jù)預(yù)測(cè)可預(yù)測(cè)不同時(shí)間節(jié)點(diǎn)的葉綠素a濃度,預(yù)測(cè)效果如表4所示.

表4 WT-LSTM模型在不同時(shí)間尺度下澎溪河葉綠素a濃度預(yù)測(cè)效果

為更直觀地比較模型對(duì)不同時(shí)間尺度的預(yù)測(cè)效果,在澎溪河水華發(fā)生期間(以6月11日-6月17日期間為例)的模型預(yù)測(cè)值與實(shí)測(cè)值的對(duì)比如圖7所示.由圖7和表4可知,短期預(yù)測(cè)目標(biāo)下(1~6 h節(jié)點(diǎn)),模型的預(yù)測(cè)精度隨著預(yù)測(cè)時(shí)間尺度的增大而降低,表現(xiàn)為RMSE和MRE值增加.這與趙文喜等[23]在天津海河中的研究結(jié)果較為一致.此外在7~12和13~24 h兩個(gè)時(shí)間尺度預(yù)測(cè)上,模型對(duì)葉綠素a均值的預(yù)測(cè)精度低于對(duì)葉綠素a極值的預(yù)測(cè),RMSE計(jì)算值分別由2.86和4.38 μg/L,降低到1.45和1.73 μg/L.可能原因是水華生物量變化是逐步累積過(guò)程[24],在時(shí)間段內(nèi)葉綠素a的峰值更容易從歷史變化趨勢(shì)中學(xué)習(xí),因而在未來(lái)較長(zhǎng)時(shí)間的尺度預(yù)測(cè)時(shí),可把預(yù)測(cè)目標(biāo)設(shè)置為葉綠素a峰值,不僅可簡(jiǎn)化模型運(yùn)行步驟,也能達(dá)到較好的水華暴發(fā)預(yù)警效果.

圖7 短時(shí)尺度(1~6 h)下葉綠素a濃度預(yù)測(cè)值和實(shí)測(cè)值對(duì)比

2.3 模型預(yù)測(cè)效果比較分析

通過(guò)LSTM與深度置信網(wǎng)絡(luò)(DBN)比較,說(shuō)明不同深度學(xué)習(xí)方法對(duì)藻類時(shí)序預(yù)測(cè)結(jié)果的適用性.同樣,在相同參數(shù)設(shè)置前提下,同步評(píng)估小波變換處理對(duì)兩種模型的預(yù)測(cè)效果影響.分別采用4條支流數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練與測(cè)試,確保使用相同的數(shù)據(jù)集;但由于LSTM模型的輸入張量為三維格式,因而與DBN模型在輸入上存在略微的差異.

如表5所示,針對(duì)不同的支流數(shù)據(jù),無(wú)論是否進(jìn)行WT降噪處理,LSTM對(duì)葉綠素a的預(yù)測(cè)效果均顯著優(yōu)于DBN,且在香溪河葉綠素a預(yù)測(cè)的精度最高,其RMSE和MRE分別為0.05 μg/L和0.43%;相比較下,在草堂河葉綠素a預(yù)測(cè)的RMSE和MRE的值最大,分別為0.22 μg/L和1.12%.在未對(duì)樣本數(shù)據(jù)進(jìn)行WT處理,相較于DBN模型,LSTM模型在4條支流葉綠素a預(yù)測(cè)的平均RMSE和MRE分別下降了9.20%和3.06%;而樣本數(shù)據(jù)經(jīng)過(guò)WT后,LSTM模型對(duì)葉綠素a預(yù)測(cè)顯著升高,較之于DBN模型平均的RMSE和MRE分別下降了51.72%和59.24%.這一結(jié)果與北京空氣中PM2.5研究結(jié)果較為一致,即在大規(guī)模數(shù)據(jù)學(xué)習(xí)前提下,LSTM對(duì)環(huán)境監(jiān)測(cè)的時(shí)序數(shù)據(jù)預(yù)測(cè)性能要優(yōu)于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)方法[25].Lee等[13]通過(guò)比較分析不同的模型對(duì)預(yù)測(cè)葉綠素a濃度的相對(duì)性能時(shí)發(fā)現(xiàn),基于數(shù)理統(tǒng)計(jì)的OLS回歸分析較深度學(xué)習(xí)模型表現(xiàn)更差;3種深度學(xué)習(xí)模型比較時(shí),遞歸模型(RNN和LSTM)預(yù)測(cè)性能要優(yōu)于前饋模型(MLP).同時(shí),本研究強(qiáng)調(diào)在對(duì)自動(dòng)監(jiān)測(cè)數(shù)據(jù)進(jìn)行建模處理與預(yù)測(cè)時(shí),LSTM神經(jīng)網(wǎng)絡(luò)相比于傳統(tǒng)的人工神經(jīng)網(wǎng)絡(luò)(以DBN為例),可有效地挖掘與學(xué)習(xí)在線時(shí)序列信息的長(zhǎng)期依賴關(guān)系,從而得到理想的預(yù)測(cè)效果.

表5 DBN和LSTM神經(jīng)網(wǎng)絡(luò)在4條河流中的預(yù)測(cè)效果

此外,結(jié)果強(qiáng)調(diào)小波降噪處理可顯著提高深度神經(jīng)網(wǎng)絡(luò)對(duì)在線監(jiān)測(cè)數(shù)據(jù)的預(yù)測(cè)精度,WT-DBN模型對(duì)葉綠素a預(yù)測(cè)的平均RMSE和MRE分別降低了66.67%和70.19%;而WT-LSTM模型的預(yù)測(cè)平均RMSE和MRE分別降低了82.28%和81.61%.Xiao等[9]結(jié)合小波分析將ANN運(yùn)用于水華預(yù)測(cè),并提出節(jié)省成本的單參數(shù)方法,實(shí)現(xiàn)Siling水庫(kù)和Winnebago湖中葉綠素a高精度預(yù)測(cè),文中指出小波分析集成在神經(jīng)網(wǎng)絡(luò)模型中具備如下優(yōu)勢(shì):一是相比于直接預(yù)測(cè)非線性和非平穩(wěn)的序列數(shù)據(jù),小波分析可以從原始序列中將趨勢(shì)、周期和噪聲等成分提取出來(lái)以簡(jiǎn)化預(yù)測(cè)過(guò)程;二是小波分析可以確保分解后的高分辨率,起到放大細(xì)節(jié)的效果.同時(shí),Lu等[26]在利用小波變換對(duì)天津于橋水庫(kù)中葉綠素a日測(cè)量時(shí)間序列進(jìn)行分析時(shí)指出,分解得到的高頻噪聲信息可能是受到降雨、風(fēng)向、水樣深度以及測(cè)量誤差的影響,并且降噪后的葉綠素a時(shí)間序列能很好地逼近原始序列.因此,對(duì)于在利用數(shù)據(jù)驅(qū)動(dòng)的模型分析時(shí),將包含噪聲的在線監(jiān)測(cè)數(shù)據(jù)進(jìn)行適當(dāng)?shù)那逑椿蝾A(yù)處理,能夠有效提高模型的預(yù)測(cè)精度.

3 結(jié)論

本研究圍繞著三峽水庫(kù)4條支流獲取的在線監(jiān)測(cè)數(shù)據(jù),結(jié)合小波變換與LSTM深度神經(jīng)網(wǎng)絡(luò)模型,探索了模型在藻類時(shí)序變化短期預(yù)測(cè)上的應(yīng)用,具體結(jié)論如下:①LSTM神經(jīng)網(wǎng)絡(luò)模型在藻類水華短期預(yù)測(cè)方面有很強(qiáng)的泛化能力.②對(duì)于不同的短時(shí)尺度預(yù)測(cè)任務(wù),LSTM模型向前預(yù)測(cè)的時(shí)間步長(zhǎng)越短預(yù)測(cè)精度越高,在一定的時(shí)間區(qū)段內(nèi)對(duì)于峰值的預(yù)測(cè)效果優(yōu)于均值.③ 與傳統(tǒng)的深度學(xué)習(xí)DBN模型相比較,LSTM模型在時(shí)間序列的預(yù)測(cè)上表現(xiàn)更優(yōu),若對(duì)在線數(shù)據(jù)進(jìn)行小波降噪處理后,LSTM模型的優(yōu)越性則更加明顯.總而言之,本文所探討的基于在線監(jiān)測(cè)數(shù)據(jù)與深度神經(jīng)網(wǎng)絡(luò)模型的策略,能夠有效提取藻類高頻率監(jiān)測(cè)的動(dòng)態(tài)特征,且可有效實(shí)現(xiàn)一定時(shí)段內(nèi)的葉綠素a峰值的預(yù)測(cè),這為三峽水庫(kù)支流水華的預(yù)測(cè)提供了一定的實(shí)踐參考.同時(shí),實(shí)際應(yīng)用中建議盡可能在研究水域增設(shè)站點(diǎn),通過(guò)結(jié)合具有統(tǒng)計(jì)學(xué)關(guān)聯(lián)性的不同空間數(shù)據(jù),克服在線監(jiān)測(cè)在藻類空間變化刻畫(huà)上的局限,增強(qiáng)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練與測(cè)試中的穩(wěn)健性.

猜你喜歡
水華藻類葉綠素
藻類水華控制技術(shù)及應(yīng)用
細(xì)菌和藻類先移民火星
軍事文摘(2020年20期)2020-11-16 00:31:40
提取葉綠素
南美白對(duì)蝦養(yǎng)殖池塘藍(lán)藻水華處理舉措
南美白對(duì)蝦養(yǎng)殖池塘藍(lán)藻水華處理舉措
桃樹(shù)葉綠素含量與SPAD值呈極顯著正相關(guān)
吃蔬菜有個(gè)“321模式” 三兩葉菜類,二兩其他類,一兩菌藻類
葉綠素家族概述
浮游藻類在水體PAHs富集與降解中的研究
由松針制取三種葉綠素鈉鹽及其穩(wěn)定性的研究
东乌珠穆沁旗| 讷河市| 柘荣县| 沂南县| 界首市| 无棣县| 馆陶县| 项城市| 商南县| 兰溪市| 罗定市| 桃园县| 嘉祥县| 屏东市| 宁武县| 休宁县| 正安县| 门源| 汉川市| 咸丰县| 永修县| 新巴尔虎左旗| 慈利县| 鄱阳县| 涞源县| 高阳县| 玉门市| 从江县| 新干县| 图木舒克市| 靖边县| 亳州市| 蒙自县| 义乌市| 马关县| 如皋市| 红河县| 富裕县| 长汀县| 泸州市| 封开县|