隨機森林方法在機場溫度預(yù)測中的應(yīng)用

2021-10-07 05:20:38朱國棟孫建杰陳陽權(quán)王照剛

Advances in Meteorological Science and Technology 2021年4期

朱國棟孫建杰陳陽權(quán) 王照剛

（民航新疆空中交通管理局氣象中心，烏魯木齊 830016）

0 引言

隨著近年民用航空產(chǎn)業(yè)的不斷發(fā)展，航空公司、機場、空管等民航氣象用戶單位對機場預(yù)報的準(zhǔn)確性和時效性要求不斷提高。其中機場溫度作為民用航空器配載的重要指標(biāo)，準(zhǔn)確的預(yù)報將會對飛機旅客、貨物、油料的裝載數(shù)量提供科學(xué)的參考，同時為確保航班起降安全提供幫助。

目前對地面溫度的預(yù)測主要依托數(shù)值預(yù)報產(chǎn)品，但是模式直接輸出的溫度預(yù)測產(chǎn)品與實況存在一定的偏差，為了解決模式直接輸出產(chǎn)品的誤差，通過對不同數(shù)值模式產(chǎn)品的檢驗和誤差訂正，并應(yīng)用機器學(xué)習(xí)方法開展模式解釋應(yīng)用，較好地改善了溫度預(yù)測的效果。同時參考不同的機器學(xué)習(xí)方法的特性和在氣象領(lǐng)域的預(yù)測效果，本文選取能夠較好地處理非線性問題的隨機森林方法，結(jié)合歐洲中心細網(wǎng)格數(shù)值預(yù)報產(chǎn)品，實現(xiàn)對烏魯木齊地窩堡國際機場的逐小時地面2 m溫度的預(yù)測，為民航運行單位提供科學(xué)、可靠的溫度預(yù)報產(chǎn)品，進而更好地為民航安全、效益服務(wù)。

1 隨機森林方法

隨機森林是基于決策樹的集成學(xué)習(xí)算法，決策樹是一種廣泛應(yīng)用的樹狀分類器，在樹的所有節(jié)點上，通過選擇最優(yōu)的特征不斷進行分類，直到達到建樹的停止條件。決策樹是無參數(shù)有監(jiān)督的機器學(xué)習(xí)方法，不需要先驗知識，相比神經(jīng)網(wǎng)絡(luò)等方法更容易解釋，但是單個決策樹對問題預(yù)測性能有限，為了改善單個分類器的預(yù)測性能，將單個分類器聚集起來，通過對每個基本分類器的分類結(jié)果進行組合，也就是形成多個決策樹組成的隨機森林，提升模型的預(yù)測精度和泛化能力，避免出現(xiàn)過擬合現(xiàn)象。

2 數(shù)據(jù)預(yù)處理

在機器學(xué)習(xí)方法中，雖然算法的選型很重要，但是良好的數(shù)據(jù)才是算法的基本。然而在實際的應(yīng)用中，產(chǎn)生的氣象數(shù)據(jù)并不一定符合算法的要求，總會由于一些客觀因素影響數(shù)據(jù)的收集，例如觀測設(shè)備故障、數(shù)值模式傳輸錯誤等。

本文整理烏魯木齊地窩堡國際機場（以下簡稱機場）逐小時地面觀測資料，將機場溫度作為預(yù)測對象，篩選氣溫對應(yīng)時刻的前24 h地面風(fēng)、氣溫等要素。同時，利用2015—2017年逐日20時起報的歐洲中心細網(wǎng)格數(shù)值預(yù)報產(chǎn)品，包括2T、2D、高空溫度、濕度、高度場、UV風(fēng)場等要素，預(yù)報有效時間12～36 h的預(yù)測產(chǎn)品，由于不同的預(yù)測要素產(chǎn)品網(wǎng)格距離不同，本文采用查找距離機場最近網(wǎng)格點上的數(shù)據(jù)，與機場溫度構(gòu)建訓(xùn)練樣本序列。通過對收集到的數(shù)據(jù)進行數(shù)據(jù)篩查、清洗等預(yù)處理，剔除數(shù)值預(yù)報產(chǎn)品中的缺測記錄后，共得到22056條樣本記錄。

由于不同的物理量組成的因子存在著量級差異，在進行模型訓(xùn)練和參數(shù)尋優(yōu)前，需要歸一化處理所有的因子，將其限定在0～1，具體處理方法如式（1）所示：

為了評估不同算法模型的預(yù)測能力，同時避免模型出現(xiàn)過擬合，本文利用開源工具包scikit-learn對歸一化后的樣本進行隨機切分，確保檢驗樣本的獨立性，將樣本數(shù)據(jù)中隨機抽取33%作為檢驗樣本，67%作為訓(xùn)練樣本，進行模型訓(xùn)練和參數(shù)尋優(yōu)。

3 溫度預(yù)測模型構(gòu)建

3.1 模型構(gòu)建

利用Python的開源機器學(xué)習(xí)庫scikit-learn構(gòu)建預(yù)測模型，為了評估不同的方法和模型參數(shù)下的溫度預(yù)測效果，本文選取決策樹回歸方法和隨機森林回歸方法進行建模，并通過設(shè)置不同決策樹數(shù)量來評估隨機森林方法的預(yù)測能力，具體模型實現(xiàn)代碼如下：

1）決策樹方法

from sklearn.tree import DecisionTreeRegressor

model=DecisionTreeRegressor()

model.fit(trainX,trainY)

2）隨機森林方法

from sklearn.ensemble import RandomForestRegressor

model=RandomForestRegressor(n_estimators=200)

model.fit(trainX,trainY)

3.2 模型尋優(yōu)

通過分析預(yù)測模型可以發(fā)現(xiàn)，決策樹回歸方法對測試樣本的機場溫度預(yù)報平均絕對誤差為1.01 ℃，而采用5個決策樹的隨機森林方法較好地改善了平均絕對誤差，達到0.82 ℃，隨著增加決策樹數(shù)量，模型對測試樣本預(yù)測結(jié)果的平均絕對誤差逐漸減小，當(dāng)決策樹數(shù)量達到200個以上后，模型預(yù)測誤差逐漸趨于穩(wěn)定，達到0.70左右。由此可見隨機森林用于溫度回歸預(yù)測效果明顯好于單個決策樹，同時隨著決策樹數(shù)量的增加，對測試樣本的平均絕對誤差逐漸減小。具體模型預(yù)測結(jié)果如表1所示。

表1 不同模型及參數(shù)構(gòu)建的預(yù)測模型效果評價Table 1 Evaluation of prediction models for different models and parameters

3.3 溫度回歸預(yù)測

利用模型尋優(yōu)得到的預(yù)測模型，對樣本中隨機抽取的7279條測試樣本進行預(yù)測，其中預(yù)測結(jié)果平均絕對誤差≤1 ℃的占樣本總數(shù)78%，平均絕對誤差≤2 ℃的占樣本總數(shù)94%，模型預(yù)測結(jié)果的平均絕對誤差能夠控制在2 ℃以內(nèi)，對于溫度業(yè)務(wù)預(yù)報有較好的指導(dǎo)作用。為了充分評估模型預(yù)測能力，本文將預(yù)測對象機場溫度按照10 ℃為一個量級（表2），劃分出8個量級。烏魯木齊機場溫度主要分布在-10～30 ℃，模型的平均絕對誤差主要在1.2 ℃左右，其中-10～0 ℃平均絕對誤差最小，為0.939 ℃。而-30～-20 ℃考慮到樣本數(shù)量占比較少，僅為31個，此范圍內(nèi)的預(yù)測誤差不單獨進行統(tǒng)計。

表2 不同區(qū)間段內(nèi)的溫度預(yù)測誤差分析Table 2 Analysis of temperature prediction error in different interval segments

通過對四個季節(jié)的樣本建立獨立的隨機森林預(yù)測模型，分析模型對訓(xùn)練樣本的預(yù)測誤差可以看到，春季氣溫預(yù)測模型的平均絕對誤差為0.956 ℃，夏季氣溫預(yù)測模型的平均絕對誤差為1.100 ℃，秋季氣溫預(yù)測模型的平均絕對誤差為0.935 ℃，冬季氣溫預(yù)測模型的平均絕對誤差為1.067 ℃。對比全年樣本數(shù)據(jù)構(gòu)建的預(yù)測模型，按季節(jié)構(gòu)建的預(yù)測模型，在不同溫度量級下的春季預(yù)測效果更優(yōu)，具體見表3。

表3 不同季節(jié)的溫度預(yù)測誤差分析Table 3 Analysis of temperature prediction error in different season

4 數(shù)值預(yù)報對烏魯木齊機場溫度預(yù)測誤差分析

利用歐洲中心細網(wǎng)格數(shù)值預(yù)報輸出72 h 的0.125°×0.125°2 m氣溫產(chǎn)品資料，結(jié)合烏魯木齊機場本地特點，采用最近經(jīng)緯網(wǎng)格點的數(shù)據(jù)做為烏魯木齊機場的氣溫預(yù)報結(jié)果，通過對不同預(yù)報有效時間下的預(yù)報數(shù)據(jù)進行篩選，每個預(yù)報有效時間大約獲得3100個樣本，平均絕對誤差為2.151 ℃，誤差最小的為預(yù)報有效時間21 h，為1.932 ℃，誤差最大的為預(yù)報有效時間72 h，為2.357 ℃，通過分析不同溫度區(qū)間內(nèi)的平均絕對誤差可以看到，其中0～10 ℃平均絕對誤差為1.839 ℃。具體見表4。

表4 數(shù)值預(yù)報溫度預(yù)測的平均絕對誤差分析Table 4 Analysis of the numerical forecast temperature prediction error

結(jié)合烏魯木齊機場季節(jié)劃分以及模式不同預(yù)報有效時間下的預(yù)測效果，選取預(yù)報有效時間為24 h的結(jié)果進行分析，春季氣溫預(yù)測的平均絕對誤差為2.043 ℃，夏季氣溫預(yù)測的平均絕對誤差為1.982 ℃，秋季氣溫預(yù)測的平均絕對誤差為2.238 ℃，冬季氣溫預(yù)測的平均絕對誤差為2.288 ℃。對比全年預(yù)測誤差結(jié)果可以看到，夏季預(yù)測效果更優(yōu)，具體見表5。

表5 數(shù)值預(yù)報溫度預(yù)測（24 h）在不同季節(jié)的平均絕對誤差分析Table 5 Analysis of the numerical forecast temperature prediction error in different season

通過對比分析可以看到，歐洲中心細網(wǎng)格數(shù)值預(yù)報直接輸出的溫度預(yù)測結(jié)果較為穩(wěn)定，平均絕對誤差在2 ℃左右，利用隨機森林方法的溫度回歸預(yù)測結(jié)果，平均絕對誤差在1 ℃左右，對模式直接輸出的溫度結(jié)果有了較大的提升，其預(yù)測效果明顯優(yōu)于模式直接輸出的結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡