利用深度神經(jīng)網(wǎng)絡(luò)和先兆信號(hào)的江蘇夏季降水客觀預(yù)測(cè)方法*

2022-01-04 06:32劉蕓蕓張志薇

氣象學(xué)報(bào) 2021年6期

蔣薇劉蕓蕓陳鵬張志薇

1.江蘇省氣候中心，南京，210041 2.國(guó)家氣候中心，中國(guó)氣象局氣候研究開(kāi)放實(shí)驗(yàn)室，北京，100081 3.江蘇省氣象信息中心，南京，210041 4.江蘇省氣象科學(xué)研究所，南京，210041

1 引言

中國(guó)東部地區(qū)受東亞季風(fēng)活動(dòng)影響，是洪澇災(zāi)害較為嚴(yán)重的地區(qū)之一（黃榮輝等，2003；Ding，et al，2021）。因此，針對(duì)東部地區(qū)夏季降水預(yù)測(cè)的研究一直是氣候研究的重要課題之一（丁一匯等，1997；Fan，et al，2008；魏鳳英等，2010）。準(zhǔn)確的降水預(yù)測(cè)是洪澇防治和防災(zāi)、減災(zāi)的關(guān)鍵（馮強(qiáng)等，2001）。

影響中國(guó)東部夏季旱澇的物理過(guò)程和影響因子眾多，諸如東亞季風(fēng)、西北太平洋副熱帶高壓、中高緯度大氣模態(tài)、ENSO循環(huán)、西太平洋熱力狀況等（高輝等，2003；張慶云等，2007；梁萍等，2008；朱蒙等，2014；李秀真等，2018；劉蕓蕓等，2009，2020）。此外，由于預(yù)測(cè)因子之間存在復(fù)雜的相互聯(lián)系，使得夏季降水預(yù)測(cè)面臨巨大的挑戰(zhàn)（彭京備等，2006；楊杰等，2012；杜良敏等，2016）。近年來(lái)中國(guó)夏季降水預(yù)測(cè)準(zhǔn)確率為60%—70%，而長(zhǎng)江流域只有50%左右（李維京等，2013）。江蘇省地處中國(guó)東部地區(qū)，位于長(zhǎng)江、淮河下游，河湖縱橫，水網(wǎng)密布，洪澇災(zāi)害不容忽視，例如1991年夏季江淮流域暴雨、1998年長(zhǎng)江全流域特大洪水、2003和2007年淮河流域洪澇災(zāi)害、2016年長(zhǎng)江中下游地區(qū)區(qū)域性暴雨等事件，都造成了人員傷亡和巨大經(jīng)濟(jì)損失。因此，提高對(duì)江蘇夏季旱澇的預(yù)測(cè)能力意義重大。

進(jìn)入21世紀(jì)以來(lái)，機(jī)器學(xué)習(xí)方法在諸多領(lǐng)域得到了越來(lái)越多的應(yīng)用，涌現(xiàn)出了大量研究成果（Gers，et al，2000；Ranzato，et al，2007；LeCun，et al，2015）。其中，由多層感知機(jī)基礎(chǔ)上發(fā)展而來(lái)的人工神經(jīng)網(wǎng)絡(luò)（ANN）成為機(jī)器學(xué)習(xí)領(lǐng)域發(fā)展最快的一個(gè)分支，在此基礎(chǔ)上發(fā)展出了遞歸神經(jīng)網(wǎng)絡(luò)（RNN）、卷積神經(jīng)網(wǎng)絡(luò)（CNN）和深度神經(jīng)網(wǎng)絡(luò)（DNN）等適應(yīng)于不同應(yīng)用場(chǎng)景的神經(jīng)網(wǎng)絡(luò)方法。與傳統(tǒng)的統(tǒng)計(jì)方法相比，神經(jīng)網(wǎng)絡(luò)模型由于結(jié)構(gòu)復(fù)雜，訓(xùn)練數(shù)據(jù)量大，往往能夠通過(guò)機(jī)器學(xué)習(xí)獲取更加復(fù)雜的時(shí)間、空間甚至是物理特征，因此被廣泛應(yīng)用于政府決策、工業(yè)生產(chǎn)、金融預(yù)測(cè)、科學(xué)研究等領(lǐng)域，且取得了不錯(cuò)的效果（Tompson，et al，2014；Yan，et al，2018）。

數(shù)據(jù)和算法是氣象預(yù)報(bào)、預(yù)測(cè)的核心。隨著觀測(cè)手段及預(yù)報(bào)、預(yù)測(cè)業(yè)務(wù)的發(fā)展，氣象數(shù)據(jù)的覆蓋范圍廣、時(shí)間頻次高，為利用機(jī)器學(xué)習(xí)算法提升氣象預(yù)報(bào)、預(yù)測(cè)水平提供了有力的數(shù)據(jù)基礎(chǔ)和技術(shù)支撐。另外，天氣、氣候系統(tǒng)是典型的非線性復(fù)雜系統(tǒng)，預(yù)報(bào)、預(yù)測(cè)涉及的要素多，關(guān)系復(fù)雜。傳統(tǒng)的預(yù)測(cè)方法存在一定的局限性，其中天氣學(xué)方法主要依賴于預(yù)報(bào)員的主觀經(jīng)驗(yàn)，而統(tǒng)計(jì)學(xué)方法則沒(méi)有充分利用已知的物理規(guī)律，二者都很難實(shí)現(xiàn)真正意義上的非線性預(yù)報(bào)（任宏利等，2007）。20世紀(jì)90年代，已有相關(guān)研究工作（孫照渤等，1998）嘗試將人工神經(jīng)網(wǎng)絡(luò)應(yīng)用于夏季降水預(yù)報(bào)中。近十幾年來(lái)，機(jī)器學(xué)習(xí)技術(shù)在氣象預(yù)報(bào)領(lǐng)域得到了越來(lái)越多地應(yīng)用，已有一些學(xué)者（孫軍波等，2010；孫照渤等，2013；孔令彬等，2014；李文娟等，2018；Kamani，et al，2018；Haberlie，et al，2019；孫全德等，2019；任萍等，2020；周康輝等，2021）將機(jī)器學(xué)習(xí)應(yīng)用于短時(shí)臨近預(yù)報(bào)和天氣模式的預(yù)報(bào)訂正中，研究表明利用機(jī)器學(xué)習(xí)方法和觀測(cè)、預(yù)測(cè)數(shù)據(jù)可以實(shí)現(xiàn)有效信息的提取，實(shí)現(xiàn)更準(zhǔn)確的天氣預(yù)報(bào)。也有一些研究（李智才等，2006；Kisi，et al，2012；Ho，et al，2014；苗春生等，2017；Reichstein，et al，2019；沈皓俊等，2020）在極端氣候事件、環(huán)流異常、全球溫度變化等方面進(jìn)行了探討?；跈C(jī)器學(xué)習(xí)方法，利用多因子建模開(kāi)展對(duì)中國(guó)汛期區(qū)域降水的預(yù)測(cè)，近年來(lái)也已取得了一些突破性進(jìn)展。例如，Wei等（2020）用決策樹(shù)方法嘗試構(gòu)建了中國(guó)汛期降水預(yù)測(cè)模型；Tong等（2019）發(fā)展了一套遞歸隨機(jī)森林方法，從中國(guó)氣象局國(guó)家氣候中心發(fā)布的88個(gè)環(huán)流因子中選取出影響華北降水異常的決定性因子；Gao等（2019）運(yùn)用多元Logistic回歸的方法建立了中國(guó)東部降水的客觀預(yù)測(cè)模型。這些研究成果無(wú)疑為進(jìn)一步提升季節(jié)預(yù)測(cè)準(zhǔn)確率提供了一個(gè)新的研究方向。

深度神經(jīng)網(wǎng)絡(luò)模型可以嘗試從樣本量較小的氣候數(shù)據(jù)中發(fā)現(xiàn)和學(xué)習(xí)復(fù)雜非線性特征（Tompson，et al，2014；Yan，et al，2018）。本研究利用江蘇省67個(gè)國(guó)家級(jí)氣象觀測(cè)站降水資料和氣候指數(shù)數(shù)據(jù)集，基于深度神經(jīng)網(wǎng)絡(luò)模型對(duì)江蘇省夏季降水開(kāi)展季節(jié)預(yù)測(cè)試驗(yàn)，構(gòu)建夏季降水預(yù)測(cè)模型，并與傳統(tǒng)統(tǒng)計(jì)方法和多種機(jī)器學(xué)習(xí)算法的預(yù)測(cè)效果進(jìn)行對(duì)比。在此基礎(chǔ)上，通過(guò)對(duì)深度神經(jīng)網(wǎng)絡(luò)模型的網(wǎng)絡(luò)層數(shù)、神經(jīng)元數(shù)量以及學(xué)習(xí)率等超參數(shù)進(jìn)一步對(duì)比優(yōu)化（Wistuba，et al，2015），從而獲得最優(yōu)超參數(shù)方案。最后，對(duì)比分析不同預(yù)測(cè)因子組合的預(yù)測(cè)結(jié)果，討論影響深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)結(jié)果的因素。本研究嘗試將深度學(xué)習(xí)方法與氣候預(yù)測(cè)業(yè)務(wù)融合，為氣候預(yù)測(cè)提供一種新思路，推動(dòng)氣候預(yù)測(cè)業(yè)務(wù)智能化發(fā)展。

2 資料和方法

2.1 資料

降水觀測(cè)資料是由江蘇省氣象信息中心提供的全省70個(gè)國(guó)家級(jí)氣象觀測(cè)站（圖1）1961—2019年夏季（6—8月）降水?dāng)?shù)據(jù)，經(jīng)過(guò)質(zhì)量控制剔除存在缺測(cè)的站點(diǎn)，實(shí)際使用站點(diǎn)為67個(gè)。本研究中氣候態(tài)為1981—2010年30 a的平均值，這里關(guān)注夏季降水異常分布，預(yù)測(cè)對(duì)象和建模時(shí)使用的是各站的降水距平百分率。

圖1 江蘇省70個(gè)國(guó)家級(jí)氣象觀測(cè)站分布Fig.1 Distribution of 70 national observation stations in Jiangsu province

此外，選取了由中國(guó)國(guó)家氣候中心以及美國(guó)國(guó)家海洋和大氣管理局（NOAA）發(fā)布的共130項(xiàng)氣候指數(shù)數(shù)據(jù)集作為預(yù)測(cè)因子（王啟光等，2011），起始時(shí)間為1961年1月至2019年3月。將其分為88項(xiàng)大氣環(huán)流指數(shù)、26項(xiàng)海溫指數(shù)和16項(xiàng)積雪、海冰等陸面因子氣候指數(shù)（楊杰等，2012；沈皓俊等，2020）。數(shù)據(jù)取自http://cmdp.ncc-cma.net/Monitoring/cn_index_130.php。所有因子均分別經(jīng)過(guò)歸一化處理后再輸入模型進(jìn)行建模和預(yù)測(cè)。歸一化公式如下，其中X表示任一預(yù)測(cè)因子矩陣，X'為歸一化處理后得到的新矩陣。

所有方案中的因子都應(yīng)用于模型訓(xùn)練，模型在訓(xùn)練過(guò)程中迭代更新網(wǎng)絡(luò)權(quán)重的過(guò)程，包含了傳統(tǒng)預(yù)測(cè)方法中根據(jù)權(quán)重、相關(guān)性篩選預(yù)測(cè)因子的過(guò)程，通過(guò)模型的迭代訓(xùn)練和更新，根據(jù)因子對(duì)預(yù)測(cè)誤差的貢獻(xiàn)，動(dòng)態(tài)更新各個(gè)因子的權(quán)重，其中重要的因子權(quán)重較大，而不重要的因子會(huì)得到非常低的權(quán)重。

2.2 研究方法

2.2.1 深度神經(jīng)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)是在感知機(jī)基礎(chǔ)上發(fā)展出來(lái)的一種具有多個(gè)隱含層的人工神經(jīng)網(wǎng)絡(luò)（Schmidhuber，2015）。深度神經(jīng)網(wǎng)絡(luò)內(nèi)部的神經(jīng)網(wǎng)絡(luò)層可以分為3類(lèi)：輸入層、隱藏層和輸出層，第一層是輸入層，最后一層是輸出層，中間的都是隱藏層。數(shù)據(jù)經(jīng)輸入層進(jìn)入網(wǎng)絡(luò)，其維度由實(shí)際輸入數(shù)據(jù)的維度決定，經(jīng)過(guò)各層向后流動(dòng)，最后到達(dá)輸出層輸出。

網(wǎng)絡(luò)中間有n個(gè)隱藏層，每層含有若干個(gè)神經(jīng)元，層與層之間是全連接的，如第i層的任意一個(gè)神經(jīng)元一定與第i+1層的任意一個(gè)神經(jīng)元相連，對(duì)于每個(gè)神經(jīng)元之間的局部模型來(lái)說(shuō)，計(jì)算包含線性變換和激活函數(shù)兩部分，激活函數(shù)是用來(lái)加入非線性因素，解決線性模型所不能解決的問(wèn)題。不同網(wǎng)絡(luò)層之間是由激活函數(shù)來(lái)模擬神經(jīng)元對(duì)激勵(lì)的響應(yīng)，通過(guò)選擇不同的激活函數(shù)以及動(dòng)態(tài)阻斷前后層神經(jīng)元之間的連接，可以使模型更好地學(xué)習(xí)到數(shù)據(jù)的非線性特征，避免出現(xiàn)過(guò)擬合的情況。常用的激活函數(shù)有雙曲正切函數(shù)、線性整流函數(shù)、泄露線性整流函數(shù)等，文中使用的是線性整流函數(shù)，其優(yōu)勢(shì)在于可以解決梯度消失問(wèn)題，還能加快收斂速度提高學(xué)習(xí)速度（Krizhevsky，et al，2012）。

深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過(guò)程包含前向傳播算法和后向傳播算法2個(gè)步驟：第1步是前向傳播算法，進(jìn)行一系列線性運(yùn)算和激活運(yùn)算，從輸入層開(kāi)始，一層層向后計(jì)算，一直到輸出層，得到輸出結(jié)果。第2步后向傳播算法，選擇一個(gè)損失函數(shù)，也就是誤差評(píng)定標(biāo)準(zhǔn)，度量訓(xùn)練樣本計(jì)算出的輸出和真實(shí)的訓(xùn)練樣本輸出之間的損失，對(duì)這個(gè)損失函數(shù)進(jìn)行優(yōu)化求最小化的極值過(guò)程中，后向不斷對(duì)一系列線性系數(shù)w和偏倚向量b進(jìn)行更新，直到達(dá)到預(yù)期效果。

2.2.2 其他預(yù)測(cè)方法

此外，還使用輕量級(jí)梯度提升機(jī)（Light GBM）、隨機(jī)森林（RF）、支持向量機(jī)（SVM）等機(jī)器學(xué)習(xí)方法和線性回歸（LR）方法，比較不同的客觀預(yù)測(cè)方法對(duì)江蘇省夏季降水的預(yù)測(cè)能力。

輕量級(jí)梯度提升機(jī)是2017年8月微軟公司開(kāi)源的一個(gè)實(shí)現(xiàn)梯度提升決策樹(shù)算法的框架（Ke，et al，2017），能夠解決樣本量大、數(shù)據(jù)維度高時(shí)占用內(nèi)存大、耗費(fèi)時(shí)間長(zhǎng)等問(wèn)題，通過(guò)訓(xùn)練回歸決策樹(shù)對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí)并做出合理的預(yù)測(cè)。

隨機(jī)森林是由Breiman（2001）和Adele Cutler提出的機(jī)器學(xué)習(xí)算法，通過(guò)隨機(jī)生成多棵決策樹(shù)對(duì)樣本進(jìn)行分類(lèi)回歸，在降低過(guò)度擬合情況的前提下實(shí)現(xiàn)預(yù)測(cè)。其優(yōu)勢(shì)體現(xiàn)在可以將高維度數(shù)據(jù)轉(zhuǎn)化為多個(gè)變量輸入并且確定最重要的變量，達(dá)到降低數(shù)據(jù)維度的目的。

支持向量機(jī)開(kāi)始提出是為了解決分類(lèi)問(wèn)題（Cortes，et al，1995），經(jīng)過(guò)推廣可以將之應(yīng)用到求解回歸問(wèn)題中（Drucker，et al，1997）。利用統(tǒng)計(jì)理論中的結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則在非線性問(wèn)題上具有一定的優(yōu)勢(shì)，但訓(xùn)練出來(lái)的模型往往存在泛化能力差的缺陷，所以需要集成其他算法對(duì)模型進(jìn)行進(jìn)一步優(yōu)化。

線性回歸是傳統(tǒng)氣候預(yù)測(cè)中應(yīng)用最為廣泛的統(tǒng)計(jì)方法（魏鳳英，2007），其具體做法是將變量逐個(gè)引入，以保證最后得到的解釋變量集是最優(yōu)的。

2.2.3 評(píng)價(jià)指標(biāo)

均方根誤差（RMSE）和平均絕對(duì)誤差（MAE）是機(jī)器學(xué)習(xí)常見(jiàn)的回歸評(píng)價(jià)指標(biāo)（門(mén)曉磊等，2019），其誤差值越小代表模型預(yù)測(cè)技巧越高。這里主要參考這兩個(gè)指標(biāo)來(lái)判斷不同的機(jī)器學(xué)習(xí)方法對(duì)預(yù)報(bào)對(duì)象的適用性。氣候趨勢(shì)預(yù)測(cè)評(píng)分（PS）、距平符號(hào)一致率（SC）和距平相關(guān)系數(shù)（ACC）是中國(guó)氣候預(yù)測(cè)業(yè)務(wù)中常用的預(yù)測(cè)準(zhǔn)確率評(píng)價(jià)指標(biāo)（陳桂英等，1998），主要用于對(duì)江蘇省夏季降水預(yù)測(cè)結(jié)果的評(píng)估。

此外，采用交叉檢驗(yàn)和獨(dú)立樣本檢驗(yàn)（吳洪寶等，2005）兩種方式來(lái)評(píng)估模型的預(yù)測(cè)技巧。為了避免模型過(guò)擬合，提高模型泛化能力，增強(qiáng)模型的實(shí)際業(yè)務(wù)應(yīng)用能力，本研究將1961—2014年作為訓(xùn)練時(shí)段，2015—2019年作為預(yù)測(cè)時(shí)段，檢驗(yàn)?zāi)Ｐ偷膶?shí)際預(yù)測(cè)能力。

3 江蘇省夏季降水異常特征分析

從江蘇省夏季降水的標(biāo)準(zhǔn)化距平序列（圖2）可以看到，1961—2019年江蘇省夏季降水總體呈現(xiàn)上升趨勢(shì)，且表現(xiàn)出明顯的階段性變化。20世紀(jì)60年代至80年代前期為少雨期；80年代后期至90年代前期夏季降水增多，進(jìn)入相對(duì)多雨期；90年代中后期夏季降水減少；從90年代末至21世紀(jì)以來(lái)，夏季降水再次顯著增加，進(jìn)入多雨期。此外，2015—2019年江蘇省夏季降水階段性特征顯著，2015—2016年為顯著多雨年，2017—2019年則是相對(duì)少雨年。近年來(lái)，江蘇省夏季降水極端性也較強(qiáng)，2015年蘇南地區(qū)降水量較常年偏多7成，僅次于1991和1999年，夏季前期6—7月江蘇省梅雨量偏多，盛夏期間7—8月先后受到“燦鴻”“蘇迪羅”和“天鵝”3個(gè)臺(tái)風(fēng)影響，風(fēng)大雨強(qiáng)；2016年夏季“暴力梅”致全省江河湖堤全線超警，梅雨期降水量為430.8 mm，較常年偏多1倍；2017年夏季降水量顯著偏少，區(qū)域性暴雨日數(shù)為1961年以來(lái)最少。因此，將2015—2019年作為本研究的預(yù)測(cè)時(shí)段，具有較好的代表性。

圖2 1961—2019年江蘇省夏季平均降水量標(biāo)準(zhǔn)化距平序列（黑色線為5 a滑動(dòng)平均）Fig.2 Time series of normalized anomaly of summer precipitation in Jiangsu province from 1961 to 2019（the black line is the 5 a moving average）

4 預(yù)測(cè)試驗(yàn)與結(jié)果檢驗(yàn)

4.1 預(yù)測(cè)因子

預(yù)測(cè)因子的選取是建立預(yù)測(cè)模型非常重要的部分，因子選擇是否合適對(duì)預(yù)測(cè)模型的結(jié)果有很大影響。這里考慮將130項(xiàng)指數(shù)在當(dāng)年1、2月和前一年3—12月的所有因子作為預(yù)測(cè)前兆信號(hào)使用，共130×12=1560個(gè)因子。對(duì)因子進(jìn)行初步篩選，把缺測(cè)較多的因子去掉，參加建模的共1153個(gè)因子。因子中既包含了因子的年際變化尺度，也包含冬春季因子變化對(duì)后期的跨季節(jié)影響。考慮到因子的物理意義，將其分為3組，即大氣環(huán)流因子組、海溫因子組和積雪等其他因子組。對(duì)比試驗(yàn)中，在因子組合上考慮了5種方案，方案1—3是單獨(dú)考慮大氣環(huán)流因子、海溫因子和積雪等其他因子，方案4是包括所有預(yù)測(cè)因子，方案5將前3種方案融合后的動(dòng)態(tài)權(quán)重集合（表1），5種方案的計(jì)算流程如圖3所示。方案5是將方案1—3的模型作為基礎(chǔ)模型，將3個(gè)方案產(chǎn)生的預(yù)測(cè)結(jié)果作為方案5的預(yù)測(cè)因子，進(jìn)行訓(xùn)練，構(gòu)建預(yù)測(cè)模型，最終得到動(dòng)態(tài)的加權(quán)模型，加權(quán)模型能夠在一定程度上降低預(yù)測(cè)誤差。

圖3 5種因子方案與計(jì)算流程示意Fig.3 Schematic diagram of five factor schemes and calculation process

表1 5種方案的因子選擇組合Table 1 Five different schemes of factor selection and combination

4.2 預(yù)測(cè)模型

使用深度神經(jīng)網(wǎng)絡(luò)、輕量級(jí)梯度提升機(jī)、隨機(jī)森林、支持向量機(jī)和線性回歸等多種預(yù)測(cè)方法預(yù)測(cè)江蘇省夏季降水，對(duì)比不同模型的學(xué)習(xí)和泛化能力，選出最優(yōu)模型。利用上述5種方法和方案4預(yù)測(cè)江蘇省夏季降水距平百分率，將1961—2014年作為訓(xùn)練時(shí)段，2015—2019年作為預(yù)測(cè)時(shí)段。表2為預(yù)測(cè)的誤差分析結(jié)果，綜合考慮平均絕對(duì)誤差和均方根誤差兩個(gè)指標(biāo)，深度神經(jīng)網(wǎng)絡(luò)模型較其他方法有一定的優(yōu)勢(shì)，故選擇深度神經(jīng)網(wǎng)絡(luò)模型做進(jìn)一步的預(yù)測(cè)試驗(yàn)。

表2 不同方法得到的江蘇省夏季降水預(yù)測(cè)誤差分析Table 2 Error analysis of summer precipitation prediction in Jiangsu province obtained by different methods

4.3 深度神經(jīng)網(wǎng)絡(luò)模型調(diào)優(yōu)

由于不同站點(diǎn)的實(shí)際地形、氣候特征存在差異，針對(duì)江蘇省67個(gè)國(guó)家級(jí)氣象觀測(cè)站分別搭建深度神經(jīng)網(wǎng)絡(luò)模型，并對(duì)每個(gè)模型的參數(shù)進(jìn)行調(diào)優(yōu)，需要調(diào)優(yōu)的參數(shù)如表3所示。深度神經(jīng)網(wǎng)絡(luò)模型是基于PyTorch框架進(jìn)行建模，其中隱含層節(jié)點(diǎn)數(shù)對(duì)應(yīng)了每層提取的數(shù)據(jù)特征，節(jié)點(diǎn)數(shù)過(guò)少無(wú)法提取到足夠多的數(shù)據(jù)特征，節(jié)點(diǎn)數(shù)過(guò)多會(huì)出現(xiàn)數(shù)據(jù)過(guò)擬合的現(xiàn)象，此處隱含層節(jié)點(diǎn)參數(shù)設(shè)為10、20、50和100共4種。神經(jīng)網(wǎng)絡(luò)層數(shù)為5—10層，通過(guò)對(duì)比不同層數(shù)模型的訓(xùn)練效果，確定最優(yōu)隱含層數(shù)。訓(xùn)練批次是模型的訓(xùn)練迭代次數(shù)，學(xué)習(xí)率決定了模型梯度更新的快慢，本研究學(xué)習(xí)率的初始值在訓(xùn)練中設(shè)為0.01，隨著模型訓(xùn)練迭代學(xué)習(xí)率逐漸減少至0.0001，這樣可以保證訓(xùn)練前期模型較快收斂到最優(yōu)值附近，訓(xùn)練后期又能夠更精確地找到全局最優(yōu)解。此外，激活函數(shù)能夠使模型更好地學(xué)習(xí)到數(shù)據(jù)的非線性特征，經(jīng)過(guò)對(duì)比參數(shù)方案中的3種激活函數(shù)發(fā)現(xiàn)，線性整流函數(shù)（Rectified Linear Unit，簡(jiǎn)稱ReLU）在實(shí)際預(yù)測(cè)中能夠起到更好的效果。為了避免數(shù)據(jù)出現(xiàn)過(guò)擬合，在模型訓(xùn)練中采用十折交叉驗(yàn)證，每個(gè)訓(xùn)練批次中都將1961—2014年的逐年數(shù)據(jù)隨機(jī)分成10份，每一份數(shù)量不需要完全相同。輪流將其中9份作為訓(xùn)練數(shù)據(jù)、1份作為驗(yàn)證數(shù)據(jù)，循環(huán)進(jìn)行10次后，針對(duì)每年數(shù)據(jù)都有10個(gè)驗(yàn)證結(jié)果，計(jì)算10個(gè)驗(yàn)證結(jié)果的誤差平均作為該訓(xùn)練批次的交叉驗(yàn)證誤差，在訓(xùn)練達(dá)200個(gè)批次時(shí)取驗(yàn)證誤差最小的作為最優(yōu)模型。

表3 深度神經(jīng)網(wǎng)絡(luò)參數(shù)Table 3 DNN network parameters

4.4 預(yù)測(cè)結(jié)果分析

利用參數(shù)調(diào)優(yōu)后的深度神經(jīng)網(wǎng)絡(luò)模型預(yù)測(cè)1961—2019年的江蘇省67個(gè)國(guó)家級(jí)氣象觀測(cè)站夏季降水距平百分率，并與觀測(cè)結(jié)果進(jìn)行對(duì)比。圖4給出了1961—2014年訓(xùn)練時(shí)段江蘇區(qū)域平均夏季降水距平百分率的觀測(cè)與預(yù)測(cè)結(jié)果的對(duì)比。方案1—5模擬的夏季降水與觀測(cè)值的年際變化幾乎一致，兩者相關(guān)系數(shù)都在0.99以上，達(dá)到0.001的顯著性水平。而2015—2019年預(yù)測(cè)時(shí)段，方案1—5模擬的夏季降水與觀測(cè)值存在一些差異。下面將定量化評(píng)估預(yù)測(cè)時(shí)段的預(yù)測(cè)效果。

圖4 1961—2014 年江蘇區(qū)域平均夏季降水的觀測(cè)（藍(lán)色柱狀）與訓(xùn)練期模擬結(jié)果（黑線）的逐年變化（a.方案 1，b.方案 2，c.方案 3，d.方案 4，e.方案 5）Fig.4 Time series of observed（blue bars）and predicted（black lines）summer precipitation in Jiangsu province from 1961 to 2014 （a.Scheme 1，b.Scheme 2，c.Scheme 3，d.Scheme 4，e.Scheme 5）

首先對(duì)5種方案的訓(xùn)練時(shí)段和預(yù)測(cè)時(shí)段分別進(jìn)行評(píng)分。5種方案在訓(xùn)練時(shí)段的交叉預(yù)報(bào)檢驗(yàn)結(jié)果都具有很好的評(píng)分（表4），PS評(píng)分為97.0—99.2，距平符號(hào)一致率為0.93—0.98，距平相關(guān)系數(shù)評(píng)分為0.95—0.99。但預(yù)測(cè)時(shí)段的獨(dú)立樣本預(yù)報(bào)檢驗(yàn)結(jié)果存在較大差異（表4和圖5）。在方案1中，只使用大氣環(huán)流因子，其5 a回報(bào)的PS評(píng)分為77.7、符號(hào)一致率為0.64，距平相關(guān)系數(shù)達(dá)0.34，總體效果不錯(cuò)。方案2只使用海溫因子，方案3使用積雪等其他因子，盡管這兩個(gè)方案建模在訓(xùn)練期的交叉檢驗(yàn)結(jié)果僅比方案1稍差，但獨(dú)立樣本檢驗(yàn)結(jié)果不太理想，方案2的5 a平均距平相關(guān)系數(shù)為負(fù)值。方案4是考慮了大氣、海溫、積雪等所有因子，訓(xùn)練期的交叉預(yù)報(bào)檢驗(yàn)結(jié)果評(píng)分較方案1有所提升，但獨(dú)立樣本檢驗(yàn)的結(jié)果不如方案1。方案5是方案1—3的動(dòng)態(tài)權(quán)重集合，包含了所有預(yù)測(cè)因子和不同因子方案的信息，具有集合的思想，建模的交叉預(yù)報(bào)檢驗(yàn)結(jié)果有明顯提升，且獨(dú)立樣本檢驗(yàn)結(jié)果也較為穩(wěn)定，PS評(píng)分為76.4，距平符號(hào)一致率為0.62，距平相關(guān)系數(shù)的5 a均值達(dá)到了0.35，逐年的交叉預(yù)報(bào)檢驗(yàn)結(jié)果僅有1 年為負(fù)值，表明其預(yù)測(cè)結(jié)果相對(duì)穩(wěn)定，預(yù)測(cè)結(jié)論有較好的參考價(jià)值。

圖5 5種方案對(duì)江蘇省夏季降水2015—2019 年的獨(dú)立樣本預(yù)報(bào)檢驗(yàn)評(píng)分（a.方案 1，b.方案 2，c.方案 3，d.方案 4，e.方案 5）Fig.5 Independent forecast verification for summer precipitation in Jiangsu province during 2015—2019 through five different schemes（a.Scheme 1，b.Scheme 2，c.Scheme 3，d.Scheme 4，e.Scheme 5）

表4 5種方案的交叉檢驗(yàn)和獨(dú)立預(yù)測(cè)檢驗(yàn)Table 4 Cross-validation and independent forecast verification for five schemes

進(jìn)一步對(duì)方案5的逐年空間預(yù)報(bào)結(jié)果與觀測(cè)進(jìn)行對(duì)比分析。在2015—2019年預(yù)測(cè)時(shí)段，2015年（圖6a）和2019年（圖6c）的江蘇夏季降水空間分布類(lèi)型有顯著差異：2015年降水以偏多為主，主雨帶位于蘇南地區(qū)，而2019年降水則以整體偏少為主。對(duì)比這兩年的預(yù)測(cè)結(jié)果（圖6b、d）可以看到，預(yù)測(cè)的空間型與實(shí)況基本相符。此外，2015年預(yù)報(bào)偏多2成以上的區(qū)域與實(shí)況較為一致，2019年偏少2成以上的區(qū)域也有所體現(xiàn)，可見(jiàn)預(yù)測(cè)結(jié)果對(duì)偏多或者偏少的異常量級(jí)把握也較好，在一定程度上能夠預(yù)測(cè)出降水的極端性。說(shuō)明深度神經(jīng)網(wǎng)絡(luò)結(jié)合動(dòng)態(tài)權(quán)重集合方案的預(yù)報(bào)模型對(duì)江蘇省夏季降水具備較好的預(yù)測(cè)能力。

圖6 2015 （a、b）和2019 （c、d）年觀測(cè)的（a、c）和方案5預(yù)測(cè)的（b、d）江蘇夏季降水距平百分率（%）分布Fig.6 Distributions of observed （a，c） and predicted （b，d） summer precipitation anomaly percentage （%） in Jiangsu province under Scheme 5 in 2015 （a，b） and 2019 （c，d），respectively

江蘇夏季降水根據(jù)時(shí)空演變特征可以從南至北劃分為蘇南、江淮和淮北3個(gè)區(qū)域（呂軍等，2006）。圖7給出了蘇南地區(qū)（30.5°—32.0°N，118.5°—122.0°E）、江淮地區(qū)（32.0°—33.5°N，118.0°—121.0°E）和淮北地區(qū)（33.5°—35.0°N，116.5°—120.5°E）3個(gè)區(qū)域的降水預(yù)測(cè)與觀測(cè)實(shí)況的對(duì)比。降水預(yù)測(cè)結(jié)果成功地再現(xiàn)了2015—2019年蘇南夏季降水逐年減少的變化特征，降水距平同號(hào)率為1，5 a預(yù)測(cè)值和觀測(cè)值的趨勢(shì)都呈現(xiàn)出一致偏多或偏少，其中2019年預(yù)測(cè)值與觀測(cè)值最為接近（圖7a）。預(yù)測(cè)（圖7b）也很好地呈現(xiàn)出2015—2019年江淮地區(qū)夏季降水的下降趨勢(shì)，降水距平百分率的同號(hào)率為0.8，其中2016和2017年預(yù)測(cè)和實(shí)況最接近，尤其在2016年，二者幾乎相等?；幢钡貐^(qū)降水預(yù)測(cè)結(jié)果（圖7c）和實(shí)況在前2年存在一些差異，后3年較為一致，降水距平同號(hào)率為0.6，其中2018年預(yù)測(cè)與實(shí)況趨于一致。由前面的分析可知2018年江蘇全省預(yù)測(cè)效果不理想，從分區(qū)域預(yù)測(cè)和實(shí)況對(duì)比來(lái)看，主要是由于江淮地區(qū)預(yù)測(cè)與觀測(cè)趨勢(shì)相反，而蘇南和淮北地區(qū)均把握住了偏少的趨勢(shì)?？梢?jiàn)，深度神經(jīng)網(wǎng)絡(luò)結(jié)合動(dòng)態(tài)權(quán)重集合因子的預(yù)報(bào)方案能夠較好地預(yù)測(cè)江蘇夏季降水，預(yù)測(cè)技巧存在一定區(qū)域差異，對(duì)江蘇中部和南部的預(yù)測(cè)技巧更高，獨(dú)立樣本檢驗(yàn)期5 a評(píng)分江淮地區(qū)的PS為78.4，距平相關(guān)系數(shù)為0.39；蘇南地區(qū)的PS為74.9，距平符號(hào)一致率為0.34。表明模型對(duì)江蘇中南部地區(qū)夏季降水具有更高的預(yù)測(cè)能力和業(yè)務(wù)應(yīng)用價(jià)值。

圖7 2015—2019 年江蘇省不同區(qū)域（a.蘇南地區(qū)，b.江淮之間地區(qū)，c.淮北地區(qū)）夏季降水的深度神經(jīng)網(wǎng)絡(luò)動(dòng)態(tài)權(quán)重集合方案預(yù)測(cè)結(jié)果與觀測(cè)實(shí)況的對(duì)比Fig.7 Comparison of the observed and predicted summer precipitation in different regions of Jiangsu province（a.South Jiangsu，b.Central Jiangsu，c.North Jiangsu）under DNN dynamic weight set scheme from 2015 to 2019

4.5 預(yù)測(cè)因子的討論

深度學(xué)習(xí)在氣象中的應(yīng)用目前還處于初級(jí)階段，這種數(shù)據(jù)驅(qū)動(dòng)的方式有可能發(fā)現(xiàn)過(guò)去未知的規(guī)律和內(nèi)在聯(lián)系，從而推動(dòng)氣象領(lǐng)域的新認(rèn)識(shí)（Reichstein，et al，2019）。可解釋性一直是人工神經(jīng)網(wǎng)絡(luò)發(fā)展的重大方向，受制于模型的復(fù)雜性以及人們對(duì)模型可解釋性的認(rèn)知，深度神經(jīng)網(wǎng)絡(luò)目前還很難像傳統(tǒng)的統(tǒng)計(jì)方法或氣候模式一樣找到相對(duì)直觀的物理機(jī)理解釋。這里，試圖通過(guò)對(duì)比試驗(yàn)來(lái)初步討論不同因子方案對(duì)預(yù)測(cè)結(jié)果的影響。

圖8是預(yù)測(cè)時(shí)段使用不同因子方案的深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果與江蘇區(qū)域平均夏季降水實(shí)況的對(duì)比。與觀測(cè)實(shí)況相比，深度神經(jīng)網(wǎng)絡(luò)方法整體預(yù)測(cè)性能在2015、2016、2019年較好，大部分方案把握住了降水偏多或偏少的異常趨勢(shì)，2015年方案1、2、4、5和2016年方案1、4、5都預(yù)測(cè)出偏多2成以上，偏多異常預(yù)測(cè)正確，2019年方案1、4、5都預(yù)測(cè)出偏少2成以內(nèi)，其中方案5與實(shí)況完全一致，而2017、2018年預(yù)測(cè)效果不太理想。比較不同方案發(fā)現(xiàn)，大氣環(huán)流因子、所有因子和動(dòng)態(tài)權(quán)重集合的方案都能較好地模擬出江蘇夏季降水的趨勢(shì)變化特征，動(dòng)態(tài)權(quán)重集合方案與實(shí)況更為接近、更加穩(wěn)定，而海溫因子和積雪等其他因子的方案模擬能力年際差異較大，在特定年份表現(xiàn)出技巧，方案2在2015、2016年與觀測(cè)值接近，可能與這兩年處于超強(qiáng)厄爾尼諾背景有關(guān)；方案3在2018、2019年與觀測(cè)值接近，可能與這兩年高原積雪異常信號(hào)較為明顯有關(guān)（2017/2018年冬季高原積雪偏少，2018/2019年冬季積雪則異常偏多）。說(shuō)明海溫和積雪等其他因子在異常信號(hào)顯著時(shí)對(duì)江蘇夏季降水預(yù)測(cè)也有正貢獻(xiàn)。

圖8 2015—2019年逐年江蘇區(qū)域平均夏季降水實(shí)況與不同因子方案深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果對(duì)比Fig.8 Comparison between real-time average summer precipitation in Jiangsu from 2015 to 2019 and predictions of different schemes with DNN

表5給出了2015—2019年深度神經(jīng)網(wǎng)絡(luò)結(jié)合不同方案的預(yù)測(cè)結(jié)果與觀測(cè)的誤差指標(biāo)對(duì)比?？傮w來(lái)看，方案2和方案3預(yù)測(cè)結(jié)果的誤差較大，方案1、4、5誤差較小，從誤差分析結(jié)果來(lái)看方案5最佳。誤差指標(biāo)對(duì)比的結(jié)果同樣是大氣環(huán)流因子、所有因子和動(dòng)態(tài)權(quán)重集合的方案效果較好，動(dòng)態(tài)權(quán)重集合方案的誤差最小。綜上所述，大氣環(huán)流因子對(duì)江蘇夏季降水預(yù)測(cè)有主要貢獻(xiàn)，海溫因子和積雪等其他因子的貢獻(xiàn)在不同年份存在差異，動(dòng)態(tài)權(quán)重集合方案預(yù)測(cè)效果最好。

表5 2015—2019年不同因子方案深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)江蘇夏季降水與觀測(cè)的誤差指標(biāo)對(duì)比Table 5 Comparison of error index between different DNN schemes for summer precipitation predictions and observations in Jiangsu province

5 結(jié)論與討論

利用1961—2019年江蘇省67個(gè)國(guó)家級(jí)氣象觀測(cè)站降水量和氣候指數(shù)數(shù)據(jù)集等資料，選取大氣環(huán)流、海溫和積雪等先兆信號(hào)的不同組合作為預(yù)測(cè)因子方案，使用深度神經(jīng)網(wǎng)絡(luò)、輕量級(jí)梯度提升機(jī)、隨機(jī)森林、支持向量機(jī)和線性回歸等方法建立預(yù)測(cè)模型，開(kāi)展江蘇省夏季降水的預(yù)測(cè)試驗(yàn)，對(duì)預(yù)測(cè)效果進(jìn)行對(duì)比分析，并探討了不同預(yù)測(cè)因子方案對(duì)江蘇省夏季降水預(yù)測(cè)結(jié)果的潛在影響。具體結(jié)論如下：

（1）1961—2019年江蘇省夏季降水總體呈現(xiàn)上升趨勢(shì)，且表現(xiàn)出明顯的階段性變化，近5年中2015—2016年為顯著多雨年，2017—2019年為相對(duì)少雨年。對(duì)比分析深度神經(jīng)網(wǎng)絡(luò)、輕量級(jí)梯度提升機(jī)、隨機(jī)森林、支持向量機(jī)和線性回歸等預(yù)測(cè)模型對(duì)江蘇省夏季降水的預(yù)測(cè)結(jié)果誤差特征，發(fā)現(xiàn)利用深度神經(jīng)網(wǎng)絡(luò)模型對(duì)江蘇省夏季降水預(yù)測(cè)具有一定優(yōu)勢(shì)。

（2）不同因子方案的深度神經(jīng)網(wǎng)絡(luò)預(yù)測(cè)結(jié)果在訓(xùn)練時(shí)段（1961—2014年）的交叉預(yù)報(bào)檢驗(yàn)結(jié)果都有很好的表現(xiàn)，但從預(yù)測(cè)時(shí)段（2015—2019年）的獨(dú)立樣本預(yù)報(bào)檢驗(yàn)結(jié)果來(lái)看，動(dòng)態(tài)權(quán)重集合的方案預(yù)測(cè)效果最好，深度神經(jīng)網(wǎng)絡(luò)結(jié)合動(dòng)態(tài)權(quán)重集合因子方案能夠較好地預(yù)測(cè)江蘇夏季降水，獨(dú)立樣本檢驗(yàn)PS評(píng)分為76.4，距平符號(hào)一致率為0.62，距平相關(guān)系數(shù)的5 a均值達(dá)到了0.35，其預(yù)測(cè)結(jié)果較為穩(wěn)定。預(yù)測(cè)技巧還存在區(qū)域差異，對(duì)江蘇中南部的預(yù)測(cè)技巧更高，具有業(yè)務(wù)應(yīng)用價(jià)值。

（3）不同預(yù)測(cè)因子組合方案的預(yù)測(cè)結(jié)果對(duì)比分析表明，就單類(lèi)型因子方案而言，大氣環(huán)流因子方案優(yōu)于海溫因子和積雪等其他因子方案，對(duì)江蘇夏季降水預(yù)測(cè)有主要貢獻(xiàn)，海溫因子和積雪等其他因子的貢獻(xiàn)在不同年份存在差異；所有因子方案優(yōu)于大氣環(huán)流因子方案，說(shuō)明海溫因子和積雪等其他因子在特定年份有正貢獻(xiàn)；將所有因子和方案信息進(jìn)行動(dòng)態(tài)權(quán)重集合的方案預(yù)測(cè)效果最好，說(shuō)明深度神經(jīng)網(wǎng)絡(luò)模型結(jié)合動(dòng)態(tài)權(quán)重集合方案有助于提升季節(jié)預(yù)測(cè)準(zhǔn)確性。

本研究針對(duì)汛期降水預(yù)測(cè)這一重點(diǎn)與難點(diǎn)，使用深度神經(jīng)網(wǎng)絡(luò)方法建立預(yù)測(cè)模型，有效提升了預(yù)測(cè)的準(zhǔn)確性，為汛期降水預(yù)測(cè)提供了一種可能的參考。在對(duì)比不同預(yù)測(cè)因子方案時(shí)發(fā)現(xiàn)，單獨(dú)使用海溫因子的方案預(yù)測(cè)效果不佳，且大氣環(huán)流因子總體優(yōu)于海溫和積雪陸面因子，這可能一方面是海溫因子僅考慮了某幾個(gè)區(qū)域平均指數(shù)，而海溫對(duì)大氣和降水的影響需要綜合考慮海溫的不同發(fā)展階段和空間分布型；另一方面這里的分析主要針對(duì)江蘇夏季降水，預(yù)報(bào)對(duì)象區(qū)域范圍較小，關(guān)鍵大氣環(huán)流因子對(duì)局地降水的關(guān)系和表征性更為直接，而熱帶海溫異常信號(hào)對(duì)較小區(qū)域范圍的降水異常的關(guān)系不一定顯著。但也需要指出，本研究的結(jié)果是初步的，而深度學(xué)習(xí)的可解釋性范疇仍是計(jì)算機(jī)領(lǐng)域的熱點(diǎn)問(wèn)題，如何更有效地解釋深度神經(jīng)網(wǎng)絡(luò)方法預(yù)測(cè)降水的物理機(jī)制仍有待于進(jìn)一步探索。

本研究使用近幾十年的觀測(cè)數(shù)據(jù)建模，但實(shí)際上與機(jī)器學(xué)習(xí)方法建模所需要的大量數(shù)據(jù)樣本相比還存在較大差距，會(huì)增加模型獲得穩(wěn)定有效特征的難度，同時(shí)數(shù)據(jù)樣本不夠還會(huì)導(dǎo)致出現(xiàn)過(guò)擬合問(wèn)題。為了避免模型出現(xiàn)過(guò)擬合，在模型訓(xùn)練中采用了隨機(jī)失活和十折交叉驗(yàn)證兩種優(yōu)化方法，隨機(jī)失活即在訓(xùn)練過(guò)程中隨機(jī)將部分隱含層節(jié)點(diǎn)的權(quán)重歸零，十折交叉驗(yàn)證通過(guò)重復(fù)運(yùn)用隨機(jī)產(chǎn)生的子樣本進(jìn)行訓(xùn)練和驗(yàn)證，能夠很大程度上避免數(shù)據(jù)過(guò)擬合的問(wèn)題。但由于氣候數(shù)據(jù)樣本有限，如何在提高擬合精度的同時(shí)避免過(guò)擬合確實(shí)是個(gè)難題，這也是機(jī)器學(xué)習(xí)在氣候領(lǐng)域應(yīng)用遇到的瓶頸之一。Tong等（2019）曾提出通過(guò)對(duì)多種（88個(gè)）可能因子基于傳統(tǒng)氣候?qū)W分析先分類(lèi)，再通過(guò)遞歸式隨機(jī)森林的方法進(jìn)行建模，通過(guò)特征工程從原始數(shù)據(jù)中挖掘、構(gòu)造更加有效的特征數(shù)據(jù)，有助于減小過(guò)擬合問(wèn)題，提升模型的預(yù)測(cè)精度。這也為下一步工作提供了思路，在深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和應(yīng)用中可以通過(guò)數(shù)據(jù)的特征提取、構(gòu)造更多有效特征來(lái)減少樣本量不足的問(wèn)題，提升模型預(yù)測(cè)效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡