戈苗苗 陸振宇 梁邵陽 夏英茹
降水實時預報是指在很短的時間內(nèi)對區(qū)域降水進行分析和預報,可為管理決策提供及時有效的環(huán)境信息,防止災害的發(fā)生.現(xiàn)階段天氣預報主要依靠數(shù)值模式預報[1],預報員首先通過模式產(chǎn)品進行數(shù)據(jù)分析,然后根據(jù)自己多年的預報經(jīng)驗進行模式訂正,但是這需要花費大量時間和成本對預報員進行培養(yǎng).由于降水影響因素比較特殊,依靠模式預報很難抓取降水與環(huán)境要素之間的聯(lián)系[2].李啟芬等[3]通過選取預報因子,建立了夏季降水和氣溫預報動力統(tǒng)計混合模型,然而,模型訂正效果在不同地區(qū)有明顯的差異.降水量預測需要一種啟發(fā)式的方法,這是典型的數(shù)值天氣預報和統(tǒng)計學習方法所不能解決的,而機器學習、深度學習的迅速發(fā)展有效地彌補了數(shù)值預報的缺陷.任海青[4]利用灰度預測模型構建了預報模型,程敏等[5]基于時間序列模型ARIMA 對區(qū)域降水進行建模,構建了當?shù)亟邓A報模型,張帥等[6]構建了遞歸神經(jīng)網(wǎng)絡的降水預報模型,上述模型在降雨量預測任務上取得了不錯的結果,但因降雨形成因素具有動態(tài)性和非線性特性,僅依靠線性外推技術,是無法根據(jù)歷史數(shù)據(jù)捕捉其繁衍趨勢的.臨近預報的研究領域涉及大量數(shù)據(jù),基于序列的深層神經(jīng)網(wǎng)絡缺少非線性關系,在降水預報訂正中效果欠佳.雙階段注意力機制網(wǎng)絡是由Qin等[7]提出的一種多變量時間序列神經(jīng)網(wǎng)絡,它能長時間捕獲時間序列的長期依賴性,改善模型的預測效果.本文所使用的降雨數(shù)據(jù)由與降雨量關系密切的環(huán)境因子組成,和雙階段注意機制網(wǎng)絡的輸入變量有著相似的結構.
本文基于雙階段注意力機制網(wǎng)絡進行了一定修改:首先在第一階段輸入注意力機制中引入目標序列,通過連續(xù)三層注意力機制提取穩(wěn)定的權重,讓網(wǎng)絡穩(wěn)定抓取降雨環(huán)境因子的空間關系;其次,在網(wǎng)絡輸入階段映射到編碼階段中,通過加入形變LSTM[8]緩解循環(huán)神經(jīng)網(wǎng)絡長時間記憶流失問題,進一步提高模型預報性能.
廣東省以亞熱帶季風氣候為主,全境地勢北高南低,北部、東北部和西部都有較高山脈,中部和南部沿海地區(qū)多為低丘、臺地或平原.廣東省海拔分布如圖1所示.南部城市平均海拔較低,其中江門、陽江等臨海城市受海洋氣團的影響,普遍吹偏南風,從而帶來了豐沛的雨水.6月是廣東前汛期的降雨高峰期,而每年的6—10 月又是熱帶氣旋影響廣東的主要時段,各地出現(xiàn)暴雨的次數(shù)較多.如圖2所示,臨海城市普遍年平均降雨量相對北部城市而言較高,海拔高度、溫度分布、風向等氣象環(huán)境因素對不同地區(qū)降雨有著顯著影響.
由于自動站設備老化或極端雷擊等因素造成觀測數(shù)據(jù)出現(xiàn)缺失、異常值的情況,在實驗前,必須對臟數(shù)據(jù)進行去噪,過濾掉異常值.盒須圖定義了識別異常值的標準:異常值一般為小于QL-1.5RIQ或大于QU+1.5RIQ的值.QL為下四分位數(shù),QU為上四分位數(shù),RIQ為四分位數(shù)間距,是上四分位數(shù)與下四分位數(shù)的差值.
由盒須圖識別出的異常值,直接刪除容易丟失眾多隱藏在上下文數(shù)據(jù)中的信息,削弱數(shù)據(jù)之間的時間相關性.本文將異常值作為缺失值,利用缺失值的解決方案進行插值.常用的數(shù)據(jù)插補方法大致有:眾數(shù)插補、最近鄰插補、回歸方法、插值法.由于降雨量數(shù)據(jù)前后關系緊密,使用眾數(shù)、中位數(shù)等插補法插值的數(shù)據(jù)只能單一解決缺失值問題,并不能平滑數(shù)據(jù),因此本文對缺失值前后的數(shù)據(jù)進行拉格朗日插值[9],其公式定義如下:
圖1 廣東省海拔分布Fig.1 Altitude distribution map of Guangdong province
圖2 廣東省平均年降水量分布Fig.2 Annual average precipitation distribution of Guangdong province
y=a0+a1x+a2x2+…+an-1xn-1,
(1)
(2)
式(1)為已知平面上n個點形成的n-1次多項式,式(2)為將n個點的坐標代入多項式函數(shù),讓缺失值對應的點x插值多項式,得到缺失值的近似值L(x).
對數(shù)據(jù)進行質(zhì)量分析能有效剔除噪聲數(shù)據(jù),得到更加合理的觀測資料,但這些數(shù)據(jù)并不能直接輸入模型.氣象臺的觀測特征較多,數(shù)據(jù)未經(jīng)處理容易造成特征冗余的現(xiàn)象.因此,本文引入統(tǒng)計學方法[10]來研究變量之間的關系密切程度.
圖3 數(shù)據(jù)預處理流程Fig.3 Data preprocessing flowchart
Lasso 變量選擇具有穩(wěn)定性,變量選取較為準確,其公式定義如下:
(3)
其中xij為矩陣中對應位置的值,yi為目標變量對應值,β為回歸系數(shù)向量,λ為非負正則參數(shù).通過選擇合適的λ對模型進行調(diào)整,可以減少與因變量關系小的系數(shù),同時對變量進行顯著性檢驗,證明變量之間的相關性不是偶然因素導致的.實驗中算法尋得最優(yōu)λ為0.01.表1展示了部分Lasso變量選擇和顯著性檢驗結果.
表1 Lasso變量選擇系數(shù)及顯著性檢驗
由表1看出:最高氣溫出現(xiàn)時間相關系數(shù)為0,同時p值小于0.05,說明該因素對降水量是不相關的,可視為無關因素;小時最高溫、小時最高壓等影響因子與小時降水量之間有著很強的相關性且p值小于0.05,說明這些因素是相關的;天氣現(xiàn)象相關系數(shù)表現(xiàn)出弱相關性,但p值大于0.05,說明兩個因素的高相關性可能是偶然因素導致的.
皮爾遜相關系數(shù)可以分析目標與變量之間的線性相關程度,其計算公式如下:
(4)
循環(huán)神經(jīng)網(wǎng)絡(RNN)被設計成可以利用歷史的信息來輔助當下的判斷,但是RNN主要依靠最后的輸入信號來決策最后的結果,更早之前的輸入信號會隨著時間的推移被忽略,所以RNN在長期依賴問題上顯得差強人意.長短時記憶神經(jīng)網(wǎng)絡(LSTM)的出現(xiàn)解決了這一難題,它主要在網(wǎng)絡結構中新增了一個判別器,這個判別器的結構被稱為“細胞”(cell).每個cell中包含三個門結構,依次為輸入門、遺忘門和輸出門.網(wǎng)絡計算公式如下:
ft=σ(Wf·[ht-1,xt]+bf),
(5)
it=σ(Wi·[ht-1,xt]+bi),
(6)
(7)
(8)
Ot=σ(WO·[ht-1,xt]+bO),
(9)
ht=Ottanh(Ct),
(10)
式中:ft,it,Ct,Ot分別為遺忘、輸入、記憶細胞和輸出門,Wf,Wi,WC,WO為相應權重矩陣,bf,bi,bC,bO為相應偏置向量.
LSTM通過加入輸入、遺忘、輸出門的方式,可以緩解梯度消失和信息遺忘問題.但是,在LSTM計算公式中,當前時刻輸入xt和隱藏狀態(tài)ht-1是沒有關聯(lián)的,而形變LSTM則在現(xiàn)有LSTM計算之前,通過門機制讓輸入xt和隱藏狀態(tài)ht-1進行充分交互,得到新的輸入和新的隱藏狀態(tài),這樣兩者能互相關聯(lián),達到增強上下信息聯(lián)系的目的[8].具體公式如下:
(11)
(12)
圖4 Mogrifier LSTM交互示意Fig.4 Schematic of Mogrifier LSTM interaction
對于給定的序列信息{x1,x2,…,xt-1,xt},xi∈Rn,定義激活函數(shù)(形變LSTM)為F,則能計算每個時間步ht=F(ht-1,xt).
目前,注意力機制廣泛應用于深度學習,在自然語言處理中,傳統(tǒng)RNN注意力機制[14]通常在隱藏層信息中選擇對結果有重要影響的時間步,而忽略了輸入序列之間的影響.因此本文先對輸入序列進行自適應選取,與雙階段注意力機制不同的是,本文在其第一階段注意力中引入目標序列y和加深注意力模塊層數(shù)得到一個穩(wěn)定的輸出權重,用來提取輸入序列和目標序列的空間相關性,稱該模塊為深度輸入注意力機制,結構如圖5所示.
圖5 深度輸入注意力機制示意Fig.5 Schematic of deep input attention mechanism
(13)
(14)
(15)
(16)
(17)
(18)
(19)
(20)
(21)
圖6 時間注意力機制Fig.6 Time attention mechanism
(22)
(23)
(24)
(25)
(26)
Wy∈Rp(p+q),by∈Rp,[dt;ct]∈Rp+q.
首先獲取預處理的氣象環(huán)境因子逐時實況資料,其次將ECMWF模式資料處理成對應站點數(shù)據(jù),并對數(shù)據(jù)進行集成和歸一化處理,再次將集成的預報因子輸入到本文構建的改進雙階段注意力機制模型(DeepAMogLSTM)中進行訓練、調(diào)優(yōu),優(yōu)化模型效果,選取最優(yōu)超參進行降水預報,最后進行數(shù)值檢驗和時空分布檢驗.
本文選擇回歸任務中的均方根誤差(RMSE,量值記為ηRMSE)、平均絕對誤差(MAE,量值記為ηMAE)和決定系數(shù)(R2)評價指標對模型進行數(shù)值檢驗.RMSE是均方誤差的平方根,通常代表預測值的離散程度,即標準誤差,ηRMSE越小,結果擬合越好;MAE是平均絕對誤差,由于預測誤差有正有負,MAE能防止預測誤差正負抵消,可以更好地反映預測值誤差的實際情況;R2反映觀測值與預測值的擬合優(yōu)度,其數(shù)值越靠近1,擬合程度越好.它們定義分別如下:
(27)
(28)
(29)
3.2.1 降水預報數(shù)值檢驗
為驗證模型在多因素降水預測上的有效性,本文對廣東省沿海城市降水量數(shù)據(jù)進行網(wǎng)絡評估,該數(shù)據(jù)經(jīng)過上文相關預處理步驟,提升了數(shù)據(jù)質(zhì)量.并以湛江市3 h累計降水量測試數(shù)據(jù)為例,圖7、圖8給出了本文模型降水量預報數(shù)值與其余方法(AR、SVR[15]、LSTM[16]、LSTnet[17]、DARNN[7])降水量預報數(shù)值的對比結果,預報時效分別為1 h和2 h,實驗中對累計降水量不大于0.1 mm的數(shù)據(jù)進行了清零處理.
圖7 各模型下1 h降水量預報值Fig.7 The 1 h precipitation forecasted by different models
圖8 各模型下2 h降水量預報值Fig.8 The 2 h precipitation forecasted by different models
不難發(fā)現(xiàn),AR線性模型作為時間序列算法之一,在時間序列問題的處理上有一定優(yōu)勢,但缺少非線性因素的影響,容易出現(xiàn)過大的峰值.SVR支持向量回歸模型采用線性核函數(shù)做回歸預測,但是在傳統(tǒng)的多變量方法中,冗余的信息容易導致模型過擬合問題.作為近些年比較熱門的深度學習網(wǎng)絡LSTM和LSTnet能有效利用其長時間的記憶性能,取得更好的結果,但這兩種方法更多的是關注時間相關性,沒有考慮空間相關性.DARNN模型與單一的LSTM和LSTnet相比擬合更好,但本文提出的算法(DeepAMogLSTM)在曲線趨勢上更加擬合,它能有效緩解單注意力機制權重變化分散的問題,通過第一階段連續(xù)三層注意力機制提取平穩(wěn)的權重,以更好地表示輸入與目標序列的空間相關性.
為直觀檢驗本模型在降水量預報上的性能,表2給出了各算法在測試集上的誤差對比結果.
表2 六種預測方法的評價指標
表2結果表明,本文提出的模型在各評價指標上都有較好的成績.當預報時長為1 h,模型的RMSE為1.796 mm,MAE為0.412 mm,R2為0.801;當預報時長為2 h,模型的RMSE為1.877 mm,MAE為0.727 mm,R2為0.783,其誤差指數(shù)低于其他模型.
為驗證改進模塊在降水數(shù)據(jù)集上的影響結果,對DARNN的兩個改動模塊進行消融實驗,主要結果如表3(模塊1是改進第一階段輸入注意力機制,簡稱DeepA,模塊2是加入形變LSTM,簡稱MogLSTM)所示.
表3 各模塊實驗評價指標對比
相較于DARNN,加入其余模塊后預測效果都有小幅提升,其中加入輸入注意力機制模塊的改動對實驗結果提升較大,加入形變LSTM后,模型能取得更優(yōu)的結果.
3.2.2 降水預報空間分布分析
每年的夏季都是全國降雨高峰期,出現(xiàn)暴雨天氣次數(shù)較多.本節(jié)以廣東省2019年7月31日18時降水為例,對累計降水量進行空間預報分析.圖9a—f和g—l分別是各模型預測廣東省未來1 h和2 h累計降水量的空間分布,圖10表示的是對應時間廣東省觀測資料的降水量空間分布.由于克里金插值法考慮了空間屬性的變異分布,它可以有效剔除由于空間采樣不均勻造成的誤差,使結果更加貼合真實情況,所以作圖過程中使用克里金插值法對廣東省的降水預報空間分布進行插值.
由圖10觀測資料降水空間分布來看,廣東省各城市降雨狀態(tài)有明顯分層,沿海城市(汕頭、湛江等臨海城市)累計降雨量多于西北山地地區(qū),西北地區(qū)可能因為山地海拔高等原因,降水趨勢往東北方向擴散.由圖9可知,各模型整體預測累計降雨量空間分布狀態(tài)是趨向于真實降雨空間分布的,其中DeepAMogLSTM和DARNN的降雨空間預報結果相對其余的降雨空間預報而言更符合實際情況,部分線性模型出現(xiàn)較高峰值,預報訂正效果較差.由圖9e—f和k—l可知,本文模型的降雨空間預報結果相對而言更擬合實際,從而間接反映加強輸入注意力機制的空間特征提取能力對模型降水預報的訂正十分有效.
本文以降雨量預測為例,根據(jù)Lasso系數(shù)、顯著性t檢驗和皮爾遜相關系數(shù),篩選氣象環(huán)境因子,并對部分缺失的特征數(shù)據(jù)進行插值填補.針對降水因素非線性關系復雜,預測較難的問題,提出一種改進雙階段注意力機制網(wǎng)絡模型,并對該模型的性能進行數(shù)值檢驗和時空分布檢驗.通過實驗分析得到如下結論:
1)本文對雙階段注意力機制模型進行了改進,相比DARNN與其余模型而言,DeepAMogLSTM模型在降水預報上的RMSE與MAE都取得了更好的結果.其中,模型預報時長1 h的均方根誤差為1.796 mm,平均絕對誤差為0.412 mm,擬合優(yōu)度為0.801,模型預報時長2 h的均方根誤差為1.877 mm,平均絕對誤差位0.727 mm,擬合優(yōu)度為0.783.
圖9 2019-07-31 18:00各模型降水量預報空間分布 a—f.預測1 h累計降水量;g—l.預測2 h累計降水量;a,g.AR模型預報;b,h.SVR模型預報;c,i.LSTM預報; d,j.LSTnet模型預報;e,k.DARNN模型預報;f,l.DeepAMogLSTM模型預報Fig.9 Spatial distribution of precipitation forecast at 18:00 on July 31,2019, a-f.the 1 h cumulative precipitation;g-l.the 2 h cumulative precipitation;a,g.AR model;b,h.SVR model; c,i.LSTM forecast;d,j.LSTnet forecast;e,k.DARNN model;f,l.the proposed DeepAMogLSTM model
圖10 2019-07-31 18:00(a),2019-07-31 19:00(b)觀測資料日降水量空間分布Fig.10 Spatial distribution of daily precipitation observed at 18:00 (a) and 19:00 (b) on July 31,2019
2)以廣東省2019年夏季各市降水空間預報為例,本文模型降水空間預報分布更擬合實際降水空間分布,局部分布相對其余模型而言更具優(yōu)勢.