劉 冰, 張燁方, 吳生燦, 朱 彪
(1 福建省氣象災(zāi)害防御技術(shù)中心, 福州 350008; 2 福建省南平市氣象局, 福建 南平 353000)
人工智能在數(shù)據(jù)分析和處理方面具有的顯著優(yōu)勢,使其在氣象領(lǐng)域的應(yīng)用受到極大關(guān)注。 20 世紀(jì)80 年代開始,國內(nèi)研究者已開始嘗試在氣象領(lǐng)域使用人工智能方法。 如,李吉順等在“北京暴雨短期預(yù)報專家系統(tǒng)”中,運(yùn)用專家系統(tǒng)作暴雨短期預(yù)報;楊望月等運(yùn)用專家神經(jīng)網(wǎng)絡(luò)作前汛期暴雨預(yù)報。 近幾年來,在高性能計算機(jī)及個人PC 硬件計算能力迅猛發(fā)展的引領(lǐng)下,基于機(jī)器學(xué)習(xí)的人工智能氣象研究也隨之增多。 如,王靜等采用單隱層的多層前饋神經(jīng)網(wǎng)絡(luò)模型,對雷達(dá)資料進(jìn)行對流云降水、層狀云降水和混合云降水3 種降水類型的分類;匡秋明等應(yīng)用隨機(jī)森林方法,得到基于雷達(dá)、衛(wèi)星、地面觀測等多元數(shù)據(jù)的晴雨分類模型;陳勇偉等使用BP 神經(jīng)網(wǎng)絡(luò)模型,選用TT、SI、CIN 等7個對流參數(shù),對雷暴活動做了潛勢預(yù)報;楊曉君等建立了基于人工神經(jīng)網(wǎng)絡(luò)算法的兩級海風(fēng)預(yù)報模型;楊仲江等使用序列結(jié)構(gòu)的RNN 模型,對強(qiáng)對流天氣中發(fā)生的閃電事件進(jìn)行預(yù)警。 雖然人工智能已逐漸在氣象預(yù)報與業(yè)務(wù)中得到認(rèn)可和推廣,但當(dāng)前國內(nèi)氣象技術(shù)人工智能主要集中在機(jī)器學(xué)習(xí)的模式上,深度學(xué)習(xí)、大數(shù)據(jù)的研究與產(chǎn)品仍較少。
相比于其它領(lǐng)域或范圍的人工智能應(yīng)用,由于氣象數(shù)據(jù)的自有特征,以及預(yù)報結(jié)果的網(wǎng)格化密集程度高、臨近預(yù)警產(chǎn)品計算時間必須足夠短的要求,采用當(dāng)前流行的Deep_NN、CNN、RNN 等人工智能算法計算方式,往往難以開展或效果無法滿足業(yè)務(wù)需求。 因此,本文設(shè)計了一種基于“多時段、多近鄰模式”的氣象人工智能預(yù)報模式,并以雷電臨近預(yù)警預(yù)報的神經(jīng)網(wǎng)絡(luò)應(yīng)用為例,對該模式的可行性做了實(shí)例驗證。
隨著氣象探測手段及計算機(jī)技術(shù)的發(fā)展,氣象探測與導(dǎo)出參數(shù)基本已實(shí)現(xiàn)網(wǎng)格化,每個氣象柵格數(shù)據(jù)均可視為一張單通道的圖片,圖片的分辨率在0.01°~1.0°(經(jīng)緯度)之間不等。 如,福建省氣象雷達(dá)拼圖數(shù)據(jù)可視為700×800 的網(wǎng)格數(shù)據(jù)。 氣象柵格數(shù)據(jù)與普通圖片有很大差別,普通圖片最多只有RGB 3 個通道,而氣象柵格數(shù)據(jù)中僅直接探測得到的氣象數(shù)據(jù)類別就可達(dá)上百種,通過基礎(chǔ)探測數(shù)據(jù)演變和計算后的二次物理量數(shù)量也有很多。 為了便于氣象預(yù)報,氣象專家們通過一定的天氣物理模型和數(shù)學(xué)算法,對這些探測數(shù)據(jù)和物理量進(jìn)行了未來時段的預(yù)測,又得到不同預(yù)測時間段的新“圖片”。此外,預(yù)報過程中還可能涉及世界許多國家共享使用的數(shù)值預(yù)報產(chǎn)品,且氣象數(shù)據(jù)還具有明顯的高度特征屬性等,以上這些特征,使得使用氣象預(yù)報涉及的數(shù)據(jù)量極其龐大。
相比于一些領(lǐng)域的人工智能技術(shù)(NN、CNN、RNN)是多圖片輸入、有限類別的輸出(如常見的圖片動物類別識別工作,不管圖片數(shù)量多少,輸出的類別都是“有限”的。),而氣象預(yù)報的神經(jīng)網(wǎng)絡(luò)面臨多圖片輸入、多圖片輸出的難點(diǎn)(如圖1 所示),且輸出的圖片(即預(yù)報結(jié)果)在分辨率上也有著較高的要求,以福建省范圍內(nèi)雷電臨近預(yù)警預(yù)報的神經(jīng)網(wǎng)絡(luò)輸出為例,要求輸出的“圖片”分辨率為700×800,每個網(wǎng)格有0、1 兩種可能值,如果逐個網(wǎng)格進(jìn)行類別輸出的話,需要有700×800 =560 000種類別,實(shí)際操作較為困難。
圖1 氣象預(yù)報人工智能輸出特征Fig.1 Output Characteristics of artificial intelligence in weather forecasting
為了得到更好的人工智能氣象預(yù)報效果,在進(jìn)行人工智能氣象預(yù)報模型設(shè)計時,需要結(jié)合天氣學(xué)原理,對相關(guān)的物理模型進(jìn)行基于人工智能數(shù)據(jù)結(jié)構(gòu)的反演,使得人工智能模型既有本身非線性的特征,又包含科學(xué)的物理意義。 如:強(qiáng)天氣潛勢預(yù)報的天氣學(xué)模型,應(yīng)包含“流型識別”與“物理量配料”兩部分內(nèi)容。 本文設(shè)計的處理模式如圖2 所示。 先選擇大尺度的探測數(shù)據(jù),采用CNN 卷積神經(jīng)網(wǎng)絡(luò),按非監(jiān)督學(xué)習(xí)模式提取“流型”的識別網(wǎng)格;再結(jié)合該網(wǎng)格融入“物理量配料”的相關(guān)參數(shù),循環(huán)完成需求網(wǎng)格的逐點(diǎn)預(yù)報。 雖然可以在開始時就把“流型識別”、“物理量配料”的所有參數(shù)都作為輸入來處理神經(jīng)網(wǎng)絡(luò),但這將使得“流型識別”的輸入被重復(fù)計算(每一個預(yù)報網(wǎng)格輸出就要重新計算一遍),大大降低了計算效率。
圖2 強(qiáng)天氣潛勢人工智能預(yù)報處理模型Fig.2 Artificial intelligence prediction and processing model of strong weather potential
在網(wǎng)格化的氣象預(yù)報計算中,某個網(wǎng)格的預(yù)報結(jié)果與某個參數(shù)前面幾個時段的數(shù)值情況、變化規(guī)律有關(guān)。 此外,在一些小尺度的天氣預(yù)報中(即天氣現(xiàn)象只發(fā)生在“局部地區(qū)”,如短時雷電、強(qiáng)降水、大風(fēng)、冰雹等),某個網(wǎng)格上下左右一定距離范圍內(nèi)的相鄰網(wǎng)格數(shù)據(jù)情況對該網(wǎng)格的預(yù)報具有重要影響,有明顯的近鄰特征。
氣象探測數(shù)據(jù)從采集時刻開始,經(jīng)過格式化、傳輸、入庫、衍生參數(shù)計算到最后進(jìn)入預(yù)報模型,需要經(jīng)歷一定的時間。 如:當(dāng)前使用的SWAN 系統(tǒng),在雷達(dá)拼圖產(chǎn)品的數(shù)據(jù)上,大概延遲約10 ~20 min。如果預(yù)報模型的計算速度太慢,時間延遲過長,預(yù)報得到的結(jié)果傳輸?shù)接脩艚K端,基本與“天氣實(shí)況”同步,甚至一些持續(xù)時間很短的單體雷暴,用戶接收到消息時天氣過程已經(jīng)消退。 因此,人工智能的氣象預(yù)報,在短臨預(yù)報產(chǎn)品上要求計算時間必須短,才能保證預(yù)報的產(chǎn)品具有實(shí)用價值。
綜上所述,由于氣象預(yù)報本身自有的特點(diǎn),如果直接套用現(xiàn)有人工智能的常見方法,會出現(xiàn)數(shù)據(jù)量太大、計算時間過長、設(shè)計模型不符合天氣學(xué)特征而準(zhǔn)確率不高等現(xiàn)象。 因此,對基于人工智能的氣象預(yù)報模型進(jìn)行改進(jìn),具有重要的現(xiàn)實(shí)意義。
氣象預(yù)報輸入雖然可看成是個通道的圖片,但由于輸出要求是單通道的圖片,如果直接按圖片每個格點(diǎn)值的可能結(jié)果進(jìn)行類別劃分、預(yù)報的話,該模型的類別數(shù)目太大。 因此,本文采取針對單通道輸出圖片的每一個格點(diǎn)進(jìn)行遍歷計算、預(yù)測的方式,建立單個格點(diǎn)的神經(jīng)網(wǎng)絡(luò)算法。
對于每一個格點(diǎn)的天氣預(yù)報結(jié)果,與其上下左右一定距離的其它格點(diǎn)參數(shù)輸入值、變化率有關(guān)。 因此,獲取每一個格點(diǎn)預(yù)測的輸入指標(biāo)時,要把不同參數(shù)、不同時間序列段、上下左右各拓展一定距離的所有網(wǎng)格,按順序提取出來,展開成一個1的輸入,根據(jù)預(yù)報結(jié)果的可能類型得到相應(yīng)數(shù)目類型的輸出。 如圖3 所示,圖中紅色柵格為待預(yù)測的柵格,不同參數(shù)紅色方框內(nèi)的數(shù)據(jù)都需提取、展開到下面的柵格集。
圖3 多時段、多近鄰模式示意圖Fig.3 Multi-period and multi-neighbor mode illustration
經(jīng)過上述處理后,每一批次的氣象“圖片”輸入,都可以根據(jù)圖片分辨率的大小得到數(shù)量可觀的單柵格輸入、輸出實(shí)例,一定批次數(shù)的氣象“圖片”輸入后,就可以得到大數(shù)據(jù)量的訓(xùn)練樣本。 對這些訓(xùn)練數(shù)據(jù)設(shè)計一定深度層次的中間層和激活函數(shù),就可得到應(yīng)用于實(shí)踐的神經(jīng)網(wǎng)絡(luò)模型,再進(jìn)行學(xué)習(xí)和訓(xùn)練,得到最終具有一定準(zhǔn)確率的神經(jīng)網(wǎng)絡(luò)。
本文設(shè)計的模型與卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別是:卷積神經(jīng)網(wǎng)絡(luò)使用過濾器,對各個通道的氣象參數(shù)圖片進(jìn)行數(shù)值計算與特征提取;經(jīng)過一定數(shù)量的卷積、池化層處理并展開全連接后,得到的是對個輸入通道氣象參數(shù)圖片的總體特征類別劃分,與實(shí)際氣象預(yù)報需求的網(wǎng)格化數(shù)據(jù)不同;而本文設(shè)計的模型,實(shí)際是將預(yù)測輸出的圖片進(jìn)行基于分辨率的切割處理,滿足實(shí)際預(yù)報的格式要求。
為了檢驗“多時段、多近鄰模式”氣象神經(jīng)網(wǎng)絡(luò)預(yù)報模型,本文以雷電臨近預(yù)警預(yù)報的神經(jīng)網(wǎng)絡(luò)計算為例,對模型進(jìn)行了實(shí)例檢驗。
當(dāng)前雷電臨近預(yù)警預(yù)報常用方法,是使用與雷電發(fā)生相關(guān)的雷達(dá)組合反射率、垂直液態(tài)水含量、回波頂高以及閃電定位數(shù)據(jù),對上述指標(biāo)是否達(dá)到一定的閾值以及整體移動趨勢、速度、形狀,結(jié)合雷電致災(zāi)單元(單體、多單體、超級單體、颮線等)的持續(xù)時間來進(jìn)行雷電短臨預(yù)報。 因此,對于每個柵格的神經(jīng)網(wǎng)絡(luò)雷電預(yù)報,也可以按照上述的預(yù)報模型進(jìn)行設(shè)計。
以經(jīng)緯度劃分,0.01°×0.01°為柵格單元。 設(shè)當(dāng)前時間為,計算距離最近的前一個雷達(dá)時間,雷達(dá)時間即獲得雷達(dá)數(shù)據(jù)的時間,記為每個小時的第00、 06、 12、 …、 54 min。 例 如: 當(dāng) 前 時 間 為20170817140730, 則 最 近 的 雷 達(dá) 時 間 為20170817140600。 以為基準(zhǔn),向后計算3 個時刻的雷達(dá)時間,分別記為、、,取這4 個時段的雷達(dá)組合反射率等4 個指標(biāo)的“單通道圖片”為數(shù)據(jù)集,針對每個柵格在每個時次向經(jīng)向、緯向的正負(fù)方向分別拓展4 個柵格距離,將所有涉及的柵格全部提取出來作為一個輸入(實(shí)際得到的輸入維度為1 296,即9×9×4×4=1 296),取該柵格[,30 mins]內(nèi)是否發(fā)生閃電,作為預(yù)測輸出(有發(fā)生閃電記為1,否則記為0。)中間設(shè)計3 個隱藏層,節(jié)點(diǎn)之間加入偏置項進(jìn)行全連接計算,使用線性整流函數(shù)()()max(0,) 作為激活函數(shù),最后輸出一個格點(diǎn),為一個二分類輸出;取累積單次損失量的平均值為損失函數(shù);為了減少神經(jīng)網(wǎng)絡(luò)的過擬合,使用L2 正則化項對每個權(quán)重矩陣進(jìn)行罰值計算,正則項系數(shù)均按0.05 選?。辉O(shè)置梯度下降算法初始學(xué)習(xí)率為0.01,選用Tensorflow 自帶的_函數(shù)進(jìn)行實(shí)時學(xué)習(xí)率的遞減計算,遞減率設(shè)置為0.97。
選取福建省2016 年、2017 年內(nèi)57 個閃電定位數(shù)據(jù)日文件大于1 MB 的日期對應(yīng)的閃電、雷達(dá)數(shù)據(jù)為樣本,由于導(dǎo)出的數(shù)據(jù)中值為1(即實(shí)際發(fā)生閃電的柵格數(shù)據(jù))的樣本量相比于值為0 的樣本量少很多,為了保證訓(xùn)練樣本的值分類相對平衡,在數(shù)據(jù)導(dǎo)出時加入了隨機(jī)遴選的模塊,以保證訓(xùn)練樣本數(shù)據(jù)中兩類數(shù)據(jù)量相對一致。 此外,剔除了實(shí)際樣本數(shù)例中,因閃電定位數(shù)據(jù)、雷達(dá)數(shù)據(jù)探測誤差、計算算法而出現(xiàn)的異常值。 按上述規(guī)則最后得到5 722 415 條數(shù)據(jù),其中有閃電發(fā)生的樣本為2 486 544個,沒有閃電發(fā)生的樣本為3 235 871個。將上述訓(xùn)練數(shù)據(jù)導(dǎo)入到圖4 所示模型中進(jìn)行訓(xùn)練,單次訓(xùn)練個數(shù)512 個,按80%的樣本數(shù)據(jù)進(jìn)行訓(xùn)練,20%的樣本數(shù)據(jù)進(jìn)行準(zhǔn)確率校驗,經(jīng)過約8 萬次訓(xùn)練后,最終測試準(zhǔn)確率維持在95%左右。
圖4 雷電臨近預(yù)警神經(jīng)網(wǎng)絡(luò)模型示意圖Fig.4 Schematic diagram of neural network model for lightning impending early warning
為了檢驗本文設(shè)計模型的效果,結(jié)合文獻(xiàn)[8-10]的雷電短臨預(yù)警方法(使用閃電、雷達(dá)數(shù)據(jù)進(jìn)行閾值控制或外推),按閃電逼近網(wǎng)格距離的大小、變化趨勢以及雷達(dá)數(shù)據(jù)(組合反射率、垂直液態(tài)水含量、回波頂高)的控制閾值,建立雷電臨近預(yù)警預(yù)報模型;選取福建省2018 年5 月~2018 年8 月期間閃電定位數(shù)據(jù)日文件大小排名前20 d 的閃電定位數(shù)據(jù),及對應(yīng)的SWAN 雷達(dá)數(shù)據(jù)作為樣本,分別使用上述兩種模型進(jìn)行預(yù)警與準(zhǔn)確率計算,驗證結(jié)果見表1。
表1 2 種模型雷電臨近預(yù)警平均準(zhǔn)確率比較(30 mins 預(yù)警)Tab.1 Comparison of average accuracy rate of lightning warning between two models (30 mins Warning)
本文研究的模型(4 個時間序列、4 個拓展網(wǎng)格)自2018 年6 月下旬以來,在福建省實(shí)際業(yè)務(wù)工作中進(jìn)行了試運(yùn)行,總體上看,本文所建立的神經(jīng)網(wǎng)絡(luò)模型在雷電過程的預(yù)警應(yīng)用中取得了良好的效果,每個數(shù)據(jù)集的計算時間在1 min 左右,基本在模型所設(shè)立30 mins 預(yù)警時效內(nèi),對未來雷電發(fā)生區(qū)域做出了預(yù)報,對于一些首次雷電發(fā)生區(qū)域的預(yù)警也做出了判斷。 以福建省2018 年9 月7 日14 時階段的預(yù)警結(jié)果為例,圖5(a)中的紅色區(qū)域表示未來可能發(fā)生雷電的預(yù)警柵格,圖5(b)中紅色“-”表示負(fù)極性閃電,黃色“+”表示正極性閃電。 預(yù)警結(jié)果與當(dāng)時福建省范圍內(nèi)的幾個雷暴活動區(qū)域基本一致。
圖5 福建省2018 年9 月7 日14 時預(yù)警與實(shí)際雷電對比圖Fig.5 Comparison between prediction and true data on September 7, 2018, at 14:00 in Fujian Province
本文在分析人工智能氣象預(yù)報輸入數(shù)據(jù)與輸出結(jié)果特點(diǎn)的基礎(chǔ)上,結(jié)合氣象預(yù)報相關(guān)天氣學(xué)原理,設(shè)計了基于“多時段、多近鄰”方式的神經(jīng)網(wǎng)絡(luò)模型,用于滿足氣象預(yù)報中多通道圖片輸入、圖片輸出的業(yè)務(wù)需要。以雷電臨近預(yù)警預(yù)報的神經(jīng)網(wǎng)絡(luò)應(yīng)用為例,對設(shè)計的模型做了實(shí)例檢驗,結(jié)果表明該模型可滿足氣象預(yù)報人工智能模型對數(shù)據(jù)特征、時間響應(yīng)、準(zhǔn)確率方面的需求,可以嘗試拓展到其他氣象預(yù)報領(lǐng)域的應(yīng)用。
由于計算機(jī)硬件設(shè)備的限制,本文在“多時段、多近鄰”的實(shí)例應(yīng)用中(福建省雷電臨近預(yù)警)僅使用4 個時間序列、4 個柵格距離拓展的計算模式,盡管已經(jīng)取得了較良好的效果,但增加“多時段、多近鄰”的時間序列、距離拓展能否取得更好結(jié)論,還有待進(jìn)一步研究和討論。