国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林算法的廣州白云機(jī)場(chǎng)終端區(qū)雷暴潛勢(shì)預(yù)報(bào)

2022-08-24 07:06楊潔曹正杜宇武凱軍李雅
熱帶氣象學(xué)報(bào) 2022年3期
關(guān)鍵詞:雷暴決策樹(shù)樣本

楊潔,曹正,杜宇,武凱軍,李雅

(1.中國(guó)民用航空中南空中交通管理局氣象中心,廣東 廣州510405;2.中山大學(xué)大氣科學(xué)學(xué)院,廣東 珠海519082;3.中國(guó)民航大學(xué)航空氣象系,天津300300)

1 引 言

雷暴在華南夏季經(jīng)常發(fā)生,常伴隨著強(qiáng)降水、風(fēng)切變、冰雹、閃電、低能見(jiàn)度等天氣現(xiàn)象,對(duì)航空飛行正常運(yùn)行易造成很大的影響。因此,雷暴潛勢(shì)預(yù)報(bào)對(duì)航空業(yè)務(wù)來(lái)說(shuō)具有重要意義。很多學(xué)者建立對(duì)流指數(shù)來(lái)預(yù)測(cè)雷暴潛勢(shì)[1-7]。雷暴的產(chǎn)生機(jī)制較復(fù)雜,具有非線(xiàn)性特征。神經(jīng)網(wǎng)絡(luò)算法具有非線(xiàn)性映射能力和并行性、適應(yīng)性、容錯(cuò)性及學(xué)習(xí)能力,被許多學(xué)者應(yīng)用于雷暴潛勢(shì)預(yù)報(bào)。Agostino[8]采用神經(jīng)網(wǎng)絡(luò)對(duì)探空資料和閃電定位資料進(jìn)行訓(xùn)練,來(lái)預(yù)報(bào)雷暴的發(fā)生以及閃電密度。陳勇偉等[9]基于BP神經(jīng)網(wǎng)絡(luò)采用南京地區(qū)2008年的閃電定位資料和探空資料預(yù)報(bào)了南京地區(qū)2009年6—8月的雷暴潛勢(shì)。楊仲江等[10]利用閃電定位資料和探空資料,采用雙隱層BP神經(jīng)網(wǎng)絡(luò)對(duì)太原地區(qū)的雷暴潛勢(shì)進(jìn)行預(yù)報(bào),發(fā)現(xiàn)雙隱層BP神經(jīng)網(wǎng)絡(luò)比BP神經(jīng)網(wǎng)絡(luò)、多元統(tǒng)計(jì)回歸法預(yù)報(bào)效果更好。周明薇等[11]根據(jù)2008—2010年夏季邵陽(yáng)地區(qū)的NCEP全球再分析資料和閃電定位資料,采用支持向量機(jī)SVM分類(lèi)算法建立了6小時(shí)雷暴潛勢(shì)預(yù)報(bào)模型。但是BP神經(jīng)網(wǎng)絡(luò)算法為一種局部搜索的優(yōu)化方法,采用了梯度下降法,學(xué)習(xí)速度慢,網(wǎng)絡(luò)訓(xùn)練失敗概率大。Fernández-Delgado等[12]應(yīng)用了179個(gè)分類(lèi)器對(duì)UCI數(shù)據(jù)庫(kù)的相應(yīng)數(shù)據(jù)集進(jìn)行分類(lèi)預(yù)測(cè),發(fā)現(xiàn)隨機(jī)森林分類(lèi)器的各項(xiàng)性能表現(xiàn)排在前5名,優(yōu)于BP神經(jīng)網(wǎng)絡(luò)。

隨機(jī)森林算法由Breiman Leo[13]和Adele Cutler等[14]提出,該算法結(jié)合了Breiman的“Bootstrap aggregating”(自舉匯聚法)思想和Ho[15]的“Random Subspace”(隨機(jī)子空間)方法。與BP神經(jīng)網(wǎng)絡(luò)算法相比,隨機(jī)森林算法具有以下優(yōu)點(diǎn):(1)高準(zhǔn)確度的分類(lèi)器;(2)可處理大量的輸入變量;(3)可評(píng)估變量的重要性;(4)可在內(nèi)部對(duì)于一般化后的誤差產(chǎn)生不偏差的估計(jì);(5)可有效地估計(jì)缺失的數(shù)據(jù)并保持精度;(6)對(duì)于不平衡的分類(lèi)資料集來(lái)說(shuō),可平衡誤差;(7)可計(jì)算個(gè)例中的親近度,對(duì)于數(shù)據(jù)挖掘、偵測(cè)離群點(diǎn)和將資料可視化非常有用;(8)可實(shí)現(xiàn)無(wú)監(jiān)督聚類(lèi)、數(shù)據(jù)視圖和離群點(diǎn)檢測(cè);(9)可檢測(cè)可變相互作用。因此,隨機(jī)森林算法在遙感[16]、環(huán)境[17]、商業(yè)[18]、醫(yī)學(xué)[19]等方面得到廣泛應(yīng)用。

廣州白云機(jī)場(chǎng)每天要制作兩次未來(lái)24小時(shí)重要天氣概率預(yù)報(bào),其中雷暴是發(fā)生頻率最高的重要天氣,雷暴潛勢(shì)的預(yù)報(bào)十分重要。平時(shí)預(yù)報(bào)員分析預(yù)報(bào)雷暴的資料基本來(lái)源于天氣圖、數(shù)值模式,空間分辨率較大,都超過(guò)100 km。而機(jī)場(chǎng)預(yù)報(bào)要求精細(xì)化,100 km(廣州白云機(jī)場(chǎng)終端區(qū)范圍)內(nèi)的雷暴潛勢(shì)預(yù)報(bào)基本靠天氣系統(tǒng)分析和經(jīng)驗(yàn)判斷,因此期望能有可靠的計(jì)算方法得到廣州白云機(jī)場(chǎng)終端區(qū)范圍內(nèi)的雷暴潛勢(shì)預(yù)報(bào)。本文使用2014—2015年夏季雷達(dá)MAX圖(最大反射率圖)資料來(lái)獲得雷暴發(fā)生有無(wú)數(shù)據(jù),結(jié)合探空數(shù)據(jù)建立廣州白云機(jī)場(chǎng)終端區(qū)內(nèi)3類(lèi)區(qū)域的12小時(shí)隨機(jī)森林分類(lèi)模型,對(duì)不同區(qū)域的雷暴潛勢(shì)進(jìn)行預(yù)報(bào)對(duì)比,以期獲得更高的預(yù)報(bào)準(zhǔn)確率。

2 數(shù)據(jù)來(lái)源及處理

2.1 探空數(shù)據(jù)選取

選用2014—2015年夏季(6、7、8月)的探空數(shù)據(jù)和雷達(dá)MAX圖資料。其中探空數(shù)據(jù)來(lái)自美國(guó)懷俄明州立大學(xué)提供的清遠(yuǎn)探空站和香港探空站,一日2次,分別是世界時(shí)00:00 UTC和12:00 UTC,共選取20個(gè)探空資料對(duì)流指數(shù)因子(表1)。表2為表1公式中出現(xiàn)的參數(shù)的釋意。

表1 懷俄明大學(xué)探空資料對(duì)流指數(shù)及其物理意義

表2 表1中公式中出現(xiàn)的參數(shù)的釋意

2.2 雷暴樣本選取

雷暴樣本在白云機(jī)場(chǎng)終端區(qū)內(nèi)選取,以塔臺(tái)為中心,分別選取離塔臺(tái)8 km(區(qū)域1)、50 km(區(qū)域2)、100 km(區(qū)域3)的3個(gè)區(qū)域。雷暴發(fā)生有無(wú)根據(jù)雷達(dá)MAX圖(圖1)來(lái)判定,判別條件如下。

(1)雷達(dá)反射率因子大于等于35 dBZ。研究表明35 dBZ與成熟積雨云的降雨強(qiáng)度和閃電有很好的相關(guān)關(guān)系,而且常被選為識(shí)別和追蹤雷暴算法所選的閾值[20-23]。徐慧[24]、郭巍等[25]均利用雷達(dá)反射率因子大于等于35 dBZ作為標(biāo)準(zhǔn)來(lái)研究中國(guó)區(qū)域的對(duì)流初生,證明了這一標(biāo)準(zhǔn)在中國(guó)的適用性。同時(shí)在實(shí)際飛行中,機(jī)組多次反映當(dāng)機(jī)載雷達(dá)探測(cè)到雷達(dá)反射率因子大于等于35 dBZ及其以上的云團(tuán)就實(shí)施繞飛。

(2)雷達(dá)反射率因子大于等于35 dBZ區(qū)域在10 km以上的連續(xù)區(qū)域。對(duì)應(yīng)的MAX圖中大于等于35 dBZ的像素點(diǎn)要超過(guò)23個(gè)。

(3)雷達(dá)最大反射率對(duì)應(yīng)高度大于等于6 km,這是為了與低云區(qū)別開(kāi)來(lái)。

出現(xiàn)滿(mǎn)足以上3個(gè)條件的情況,則判定為有雷暴發(fā)生。沒(méi)有雷暴發(fā)生的樣本記為1,有雷暴發(fā)生的樣本則記為2。如圖1所示,2014年6月23日05:40 UTC,區(qū)域1、2、3范圍內(nèi)均有雷暴云團(tuán)活動(dòng)。

圖1 2014年6月23日05:40 UTC廣州白云機(jī)場(chǎng)125 km的MAX雷達(dá)回波圖 橫向和縱向1.0~17.0 km子圖為橫向和縱向雷達(dá)回波最大反射率對(duì)應(yīng)的高度。三個(gè)圓圈分別表示以塔臺(tái)為中心,離塔臺(tái)8 km、50 km、100 km區(qū)域。右側(cè)文字說(shuō)明為雷達(dá)的各種參數(shù):時(shí)間(世界時(shí)),雷達(dá)雜波濾波方法(離散傅里葉變換),時(shí)間采樣,脈沖重復(fù)頻率(1 000 Hz/666 Hz),范圍(125 km),水平分辨率(0.417 km/pixel×0.417 km/pixel),垂直分辨率(0.107 km/pixel),高度范圍(1.0~17.0 km)。

2.3 樣本處理

將清遠(yuǎn)探空站和香港探空站的探空數(shù)據(jù)進(jìn)行距離線(xiàn)性插值法得到白云機(jī)場(chǎng)的探空數(shù)據(jù)。距離線(xiàn)性插值法如下:

其中,LAT和LNG(本場(chǎng)經(jīng)緯度)、LAT1和LNG1(清遠(yuǎn)探空站經(jīng)緯度)、LAT2和LNG2(香港探空站經(jīng)緯度),a為清遠(yuǎn)探空站到白云機(jī)場(chǎng)的距離,b為香港探空站到白云機(jī)場(chǎng)的距離,x為清遠(yuǎn)探空站的探空數(shù)據(jù),y為香港探空站對(duì)應(yīng)清遠(yuǎn)探空站的同一天同一時(shí)次的探空數(shù)據(jù),Z為插值后的白云機(jī)場(chǎng)探空數(shù)據(jù)。

統(tǒng)計(jì)區(qū)域1、區(qū)域2范圍內(nèi)、區(qū)域3范圍內(nèi)雷暴發(fā)生與否數(shù)據(jù)共得三組數(shù)據(jù)。將同一天的00:00 UTC的探空數(shù)據(jù)與00:00—11:59 UTC雷暴發(fā)生與否數(shù)據(jù)匹配,12:00 UTC的探空數(shù)據(jù)與12:00—23:59 UTC雷暴發(fā)生與否數(shù)據(jù)匹配,因此每組樣本包含20個(gè)探空指數(shù)因子和1個(gè)雷暴發(fā)生與否數(shù)據(jù)。除去缺失資料的樣本,2014年的數(shù)據(jù)為183組,2015年的數(shù)據(jù)為182組,共計(jì)365組。其中區(qū)域1樣本組雷暴概率為135/365≈37%;區(qū)域2樣本雷暴概率為237/365≈65%;區(qū)域3樣本雷暴概率為277/365≈76%。

2.4 預(yù)報(bào)因子的選取

在篩選合適的輸入因子時(shí),由于對(duì)流指數(shù)是連續(xù)型因子,雷暴發(fā)生與否為1、2非連續(xù)型變量,所以不能采用皮爾森相關(guān)系數(shù)一類(lèi)的線(xiàn)性相關(guān)系數(shù)來(lái)衡量?jī)烧叩年P(guān)系。灰色關(guān)聯(lián)度分析是研究因子間的幾何對(duì)應(yīng)關(guān)系(即灰色關(guān)聯(lián)度),序列曲線(xiàn)的幾何形狀的相似程度與灰色關(guān)聯(lián)度成正比[26-27],它計(jì)算量小,適用于任何類(lèi)型包括無(wú)規(guī)律的數(shù)據(jù),在多因素,非線(xiàn)性領(lǐng)域得到廣泛應(yīng)用[28-31]。

灰色關(guān)聯(lián)分析的步驟如下。

(1)確定雷暴發(fā)生與否數(shù)列和對(duì)流指數(shù)因子數(shù)列。設(shè)雷暴發(fā)生與否數(shù)列為X0′={X0′(k)|k=1,2,……,n};對(duì)流指數(shù)因子數(shù)列Yi′={Yi′(k)|k=1,2,……,n},i=1,2,……,m。這里m為指數(shù)因子個(gè)數(shù)20,n為樣本組數(shù)365。

(2)對(duì)指標(biāo)數(shù)據(jù)進(jìn)行無(wú)量綱化。由于各因子的物理意義不同,導(dǎo)致量綱不同,為了便于比較,采用均值化法(式(2))進(jìn)行數(shù)據(jù)的無(wú)量綱處理。

其中,j=0,1,……,20,k=1,2,……,365。

(3)計(jì)算每個(gè)對(duì)流指數(shù)因子數(shù)列與雷暴發(fā)生與否數(shù)列對(duì)應(yīng)元素的絕對(duì)差值。即|X0(k)-Xi(k)|。

(5)計(jì)算每個(gè)對(duì)流指數(shù)因子數(shù)列與雷暴發(fā)生與否數(shù)列對(duì)應(yīng)元素的灰色關(guān)聯(lián)系數(shù)ξi(k):

其中μ為分辨系數(shù),此處取μ=0.5。

(6)計(jì)算灰色關(guān)聯(lián)度r0。分別計(jì)算各個(gè)指數(shù)與雷暴發(fā)生與否序列對(duì)應(yīng)元素的均值即灰色關(guān)聯(lián)度r0i:

分別將20個(gè)對(duì)流指數(shù)因子與預(yù)報(bào)量(雷暴發(fā)生與否)作灰色關(guān)聯(lián)度分析,經(jīng)過(guò)計(jì)算得到表3,表3為白云機(jī)場(chǎng)終端區(qū)區(qū)域1、區(qū)域2、區(qū)域3范圍內(nèi),20個(gè)對(duì)流指數(shù)與雷暴發(fā)生有無(wú)的灰色關(guān)聯(lián)度r0。區(qū)域1范圍內(nèi)的r0平均值為0.968 9,大于平均值的指數(shù)由大到小依次為PLCL、SWI、BRCV、CT、KI、LFCV、TT、LFCT、BRN、VT、LCVT、CAPV、CAPE、LI。由于LI和LFCV、CAPE和CAPV物理意義近似,所以保留兩者中的大值LFCV、CAPV,刪去LI、CAPE。最終區(qū)域1選取了10個(gè)預(yù)報(bào)因子為PLCL、SWI、BRCV、CT、KI、LFCV、TT、LFCT、BRN、VT。同理,區(qū)域2的r0平均值為0.971 4,共選取了10個(gè)預(yù)報(bào)因子為PLCL、KI、CT、BRCV、SWI、LFCV、TT、VT、LCVT、CAPV。區(qū)域3的r0平均值為0.973 5,共選取了10個(gè)預(yù)報(bào)因子為

表3 白云機(jī)場(chǎng)終端區(qū)(區(qū)域1、區(qū)域2、區(qū)域3)20個(gè)對(duì)流指數(shù)與雷暴發(fā)生有無(wú)的灰色關(guān)聯(lián)度r0

PLCL、KI、BRCV、CT、TT、LFCV、SWI、VT、LCVT、CAPV。在白云機(jī)場(chǎng)終端區(qū)三個(gè)區(qū)域內(nèi),PLCL、KI、CT、BRCV、SWI、LFCV、TT、VT、LCVT、CAPV這10個(gè)對(duì)流參數(shù)與雷暴發(fā)生有無(wú)的灰色關(guān)聯(lián)度較大,其中PLCL、KI、CT、BRCV這4個(gè)指數(shù)的關(guān)聯(lián)度一直排在前五里,表明雷暴產(chǎn)生跟抬升凝結(jié)高度氣壓、850~700 hPa的溫度和露點(diǎn)溫度、風(fēng)切變的關(guān)系最緊密。

3 隨機(jī)森林算法

隨機(jī)森林算法是一種包含多個(gè)無(wú)關(guān)聯(lián)的決策樹(shù)的分類(lèi)器,并取所有決策樹(shù)中分類(lèi)結(jié)果最多的那類(lèi)為最終結(jié)果,其算法原理如下。

3.1 Bootstrap法重采樣

設(shè)集合Z為Z={Z(k)|k=1,2,……,n},若每次有放回地從集合S中抽取一個(gè)樣本,一共抽取n次,形成新的集合Z*,則集合S*中不包含某個(gè)樣本Z(i)(i=1,2,……,n)的概率為:

因此,通過(guò)Bootstrap法重采樣,除去重復(fù)的樣本,新集合Z*約占原集合Z中(1-0.368)×100%=63.2%的樣本。

3.2 隨機(jī)森林算法流程

(1)基于Bootstrap方法隨機(jī)產(chǎn)生R個(gè)訓(xùn)練集Z1、Z2、……、ZR。

(2)每個(gè)訓(xùn)練集生成對(duì)應(yīng)的決策樹(shù)C1、C2、……、CR;設(shè)樣本的屬性個(gè)數(shù)為A,從A個(gè)屬性中隨機(jī)抽取aa(aa為大于0且小于A的整數(shù))個(gè)屬性用最好的分裂方式對(duì)當(dāng)前節(jié)點(diǎn)進(jìn)行分裂,得到分裂屬性集。

(3)所有決策樹(shù)不剪枝。

(4)利用每個(gè)決策樹(shù)對(duì)測(cè)試集樣本X進(jìn)行測(cè)試,得到對(duì)應(yīng)的測(cè)試結(jié)果C1(X)、C2(X)、……、C R

(X)。

(5)將R個(gè)決策樹(shù)中輸出最多的分類(lèi)類(lèi)別作為測(cè)試集樣本X所屬的分類(lèi)類(lèi)別。

3.3 輸入輸出數(shù)據(jù)處理

為了對(duì)比分析,設(shè)立3個(gè)樣本輸入組:區(qū)域1樣本輸入組、區(qū)域2范圍內(nèi)樣本輸入組、區(qū)域3范圍內(nèi)樣本輸入組。其中區(qū)域1樣本輸入組包括365組10個(gè)預(yù)報(bào)因子,區(qū)域2范圍內(nèi)樣本輸入組包括365組10個(gè)預(yù)報(bào)因子,區(qū)域3范圍內(nèi)樣本輸入組包括365組10個(gè)預(yù)報(bào)因子。為了簡(jiǎn)化計(jì)算,縮小量值,加快網(wǎng)絡(luò)收斂,將樣本輸入組進(jìn)行[0.1,0.9]之間的歸一化:

其中,P為歸一化前的樣本輸入數(shù)據(jù),Pmin為P的最小值,Pmax為P的最大值,Q為歸一化之后的矩陣。

樣本輸出組為365組雷暴發(fā)生有無(wú)數(shù)據(jù)。365組輸入輸出樣本中,將183組用來(lái)訓(xùn)練網(wǎng)絡(luò),182組用于檢驗(yàn)。

4 結(jié)果分析

4.1 區(qū)域1預(yù)報(bào)結(jié)果及泛化分析

本文采用randomforest-matlab開(kāi)源工具箱進(jìn)行計(jì)算。區(qū)域1共有10個(gè)預(yù)報(bào)因子,因此樣本的屬性個(gè)數(shù)A為10,分裂屬性個(gè)數(shù)aa為的取整數(shù)值3。為了減少隨機(jī)性的影響,決策樹(shù)顆數(shù)T分別取{50,100,150,200,……,950,1 000}共20種情況,每種情況運(yùn)行100次模型,取其準(zhǔn)確值(即測(cè)試結(jié)果里預(yù)報(bào)值1,實(shí)況值1和預(yù)報(bào)值2,實(shí)況值2的總和除以182)的最高值作為當(dāng)前決策樹(shù)顆數(shù)下的分類(lèi)正確率。圖2為區(qū)域1樣本輸入隨機(jī)森林模型中,決策樹(shù)顆數(shù)對(duì)性能的影響,可看到當(dāng)決策樹(shù)顆數(shù)為400時(shí),分類(lèi)正確率最高。

圖2 區(qū)域1樣本輸入隨機(jī)森林模型中,決策樹(shù)顆數(shù)對(duì)性能的影響

設(shè)立T=400,aa=3,運(yùn)行隨機(jī)森林模型,將結(jié)果用兩變量預(yù)報(bào)驗(yàn)證列聯(lián)表[32]表示得到表4。采用4個(gè)指數(shù)(如式組(8)所示)來(lái)評(píng)估預(yù)報(bào)結(jié)果,分別為:臨界成功指數(shù)CSI[33]、預(yù)報(bào)準(zhǔn)確率AF[34]、虛假報(bào)警率FAR[32]和探測(cè)概率POD[32]。

表4 12 h區(qū)域1隨機(jī)森林分類(lèi)器預(yù)報(bào)結(jié)果

隨機(jī)森林有一個(gè)重要的特點(diǎn):沒(méi)有必要對(duì)它進(jìn)行交叉驗(yàn)證或用一個(gè)獨(dú)立的測(cè)試集來(lái)獲得誤差的一個(gè)無(wú)偏估計(jì)。它可在內(nèi)部進(jìn)行評(píng)估,即在生成過(guò)程中就對(duì)誤差建立了一個(gè)無(wú)偏估計(jì)。袋外錯(cuò)誤率oob是隨機(jī)森林泛化誤差的一個(gè)無(wú)偏估計(jì),它的結(jié)果近似于需要大量計(jì)算的k折交叉驗(yàn)證。如式(9)所示,區(qū)域1的袋外錯(cuò)誤率oob為31.32%,表明超過(guò)2/3的樣本能正確分類(lèi),泛化性能較好。

4.2 區(qū)域2分析結(jié)果

區(qū)域2共有10個(gè)預(yù)報(bào)因子,因此樣本的屬性個(gè)數(shù)A為10,分裂屬性個(gè)數(shù)aa為的取整數(shù)值3。圖3為區(qū)域2范圍內(nèi)樣本輸入隨機(jī)森林模型中,決策樹(shù)顆數(shù)對(duì)性能的影響,可看到當(dāng)決策樹(shù)顆數(shù)為250時(shí),分類(lèi)正確率最高。

圖3 區(qū)域2范圍內(nèi)樣本輸入隨機(jī)森林模型中,決策樹(shù)顆數(shù)對(duì)性能的影響

設(shè)立T=250,aa=3,運(yùn)行隨機(jī)森林模型得到的結(jié)果為表5和式組(10)。對(duì)比區(qū)域1預(yù)報(bào)結(jié)果,CSI、AF、POD值都要高,而虛假報(bào)警率FAR值偏低,表明雷暴預(yù)報(bào)效果更好了。當(dāng)雷暴未來(lái)24小時(shí)發(fā)生可能性大于70%時(shí),航空重要天氣MDRS通報(bào)業(yè)務(wù)將啟動(dòng)。預(yù)報(bào)準(zhǔn)確率AF和探測(cè)概率POD超過(guò)70%,開(kāi)始對(duì)業(yè)務(wù)有指示作用。區(qū)域2范圍內(nèi)的袋外錯(cuò)誤率為28.57%,泛化性能有提升。

表5 12 h區(qū)域2隨機(jī)森林分類(lèi)器預(yù)報(bào)結(jié)果

4.3 區(qū)域3范圍內(nèi)分析結(jié)果

區(qū)域3共有10個(gè)預(yù)報(bào)因子,因此樣本的屬性個(gè)數(shù)A為10,分裂屬性個(gè)數(shù)aa為的取整數(shù)值3。圖4為區(qū)域3樣本輸入隨機(jī)森林模型中,決策樹(shù)顆數(shù)對(duì)性能的影響,可看到當(dāng)決策樹(shù)顆數(shù)為100時(shí),分類(lèi)正確率最高。

圖4 區(qū)域2范圍內(nèi)樣本輸入隨機(jī)森林模型中,決策樹(shù)顆數(shù)對(duì)性能的影響

設(shè)立T=100,aa為的取整數(shù)值3,運(yùn)行隨機(jī)森林模型得到的結(jié)果為表6和式組(11)。三組預(yù)報(bào)結(jié)果里,區(qū)域3的預(yù)報(bào)結(jié)果CSI、AF、POD值最高,而虛假報(bào)警率FAR值最低,表明雷暴預(yù)報(bào)效果最好。區(qū)域3的袋外錯(cuò)誤率為24.73%,泛化性能不錯(cuò)。

表6 12 h區(qū)域3隨機(jī)森林分類(lèi)器預(yù)報(bào)結(jié)果

5 結(jié) 論

本文將2014—2015年夏季雷達(dá)MAX圖資料獲取雷暴發(fā)生有無(wú)數(shù)據(jù),結(jié)合美國(guó)懷俄明州立大學(xué)探空數(shù)據(jù)建立廣州白云機(jī)場(chǎng)終端區(qū)3個(gè)區(qū)域的12小時(shí)隨機(jī)森林分類(lèi)模型,通過(guò)對(duì)比可得到以下結(jié)論。

(1)白云機(jī)場(chǎng)終端區(qū)區(qū)域1、區(qū)域2、區(qū)域3內(nèi),PLCL、KI、CT、BRCV、SWI、LFCV、TT、VT、LCVT、CAPV這10個(gè)對(duì)流參數(shù)與雷暴發(fā)生有無(wú)的灰色關(guān)聯(lián)度較大。雷暴的產(chǎn)生跟抬升凝結(jié)高度氣壓、850~700 hPa的溫度和露點(diǎn)溫度、風(fēng)切變的關(guān)系最緊密。

(2)終端區(qū)區(qū)域面積越大,雷暴發(fā)生樣本比例越高,臨界成功指數(shù)CSI、預(yù)報(bào)準(zhǔn)確率AF、探測(cè)概率POD越來(lái)越高,虛假報(bào)警率FAR越來(lái)越低,表明預(yù)報(bào)出來(lái)的準(zhǔn)確率越來(lái)越高。區(qū)域2、區(qū)域3的預(yù)報(bào)準(zhǔn)確率AF和探測(cè)概率POD超過(guò)70%,給航空天氣預(yù)報(bào)員分析預(yù)報(bào)雷暴提供了參考,對(duì)航空重要天氣MDRS通報(bào)業(yè)務(wù)有指示作用。

(3)終端區(qū)三個(gè)區(qū)域的測(cè)試樣本超過(guò)2/3能得到正確分類(lèi),表明隨機(jī)森林算法泛化性能較好。區(qū)域范圍越大,袋外錯(cuò)誤率越低,泛化性能越好。

猜你喜歡
雷暴決策樹(shù)樣本
新德里雷暴
簡(jiǎn)述一種基于C4.5的隨機(jī)決策樹(shù)集成分類(lèi)算法設(shè)計(jì)
牙克石市圖里河地區(qū)雷暴特征統(tǒng)計(jì)分析
阜新地區(qū)雷暴活動(dòng)特點(diǎn)研究
規(guī)劃·樣本
人大專(zhuān)題詢(xún)問(wèn)之“方城樣本”
隨機(jī)微分方程的樣本Lyapunov二次型估計(jì)
決策樹(shù)學(xué)習(xí)的剪枝方法
1957—2013年莘縣雷暴氣候特征分析
決策樹(shù)在施工項(xiàng)目管理中的應(yīng)用
湾仔区| 龙游县| 南部县| 广水市| 五家渠市| 九龙坡区| 许昌市| 白河县| 伊金霍洛旗| 叙永县| 大庆市| 益阳市| 宜都市| 樟树市| 莒南县| 宿松县| 玉山县| 龙南县| 洪泽县| 饶河县| 靖边县| 松滋市| 米泉市| 新泰市| 墨玉县| 河池市| 定襄县| 盐津县| 寿阳县| 临桂县| 吉木乃县| 瑞安市| 龙川县| 高陵县| 阳原县| 海兴县| 逊克县| 福清市| 奈曼旗| 湟源县| 普兰县|