朱國棟 孫建杰 陳陽權(quán) 王照剛
(民航新疆空中交通管理局氣象中心,烏魯木齊 830016)
隨著近年民用航空產(chǎn)業(yè)的不斷發(fā)展,航空公司、機場、空管等民航氣象用戶單位對機場預(yù)報的準(zhǔn)確性和時效性要求不斷提高。其中機場溫度作為民用航空器配載的重要指標(biāo),準(zhǔn)確的預(yù)報將會對飛機旅客、貨物、油料的裝載數(shù)量提供科學(xué)的參考,同時為確保航班起降安全提供幫助。
目前對地面溫度的預(yù)測主要依托數(shù)值預(yù)報產(chǎn)品,但是模式直接輸出的溫度預(yù)測產(chǎn)品與實況存在一定的偏差,為了解決模式直接輸出產(chǎn)品的誤差,通過對不同數(shù)值模式產(chǎn)品的檢驗和誤差訂正,并應(yīng)用機器學(xué)習(xí)方法開展模式解釋應(yīng)用,較好地改善了溫度預(yù)測的效果。同時參考不同的機器學(xué)習(xí)方法的特性和在氣象領(lǐng)域的預(yù)測效果,本文選取能夠較好地處理非線性問題的隨機森林方法,結(jié)合歐洲中心細網(wǎng)格數(shù)值預(yù)報產(chǎn)品,實現(xiàn)對烏魯木齊地窩堡國際機場的逐小時地面2 m溫度的預(yù)測,為民航運行單位提供科學(xué)、可靠的溫度預(yù)報產(chǎn)品,進而更好地為民航安全、效益服務(wù)。
隨機森林是基于決策樹的集成學(xué)習(xí)算法,決策樹是一種廣泛應(yīng)用的樹狀分類器,在樹的所有節(jié)點上,通過選擇最優(yōu)的特征不斷進行分類,直到達到建樹的停止條件。決策樹是無參數(shù)有監(jiān)督的機器學(xué)習(xí)方法,不需要先驗知識,相比神經(jīng)網(wǎng)絡(luò)等方法更容易解釋,但是單個決策樹對問題預(yù)測性能有限,為了改善單個分類器的預(yù)測性能,將單個分類器聚集起來,通過對每個基本分類器的分類結(jié)果進行組合,也就是形成多個決策樹組成的隨機森林,提升模型的預(yù)測精度和泛化能力,避免出現(xiàn)過擬合現(xiàn)象。
在機器學(xué)習(xí)方法中,雖然算法的選型很重要,但是良好的數(shù)據(jù)才是算法的基本。然而在實際的應(yīng)用中,產(chǎn)生的氣象數(shù)據(jù)并不一定符合算法的要求,總會由于一些客觀因素影響數(shù)據(jù)的收集,例如觀測設(shè)備故障、數(shù)值模式傳輸錯誤等。
本文整理烏魯木齊地窩堡國際機場(以下簡稱機場)逐小時地面觀測資料,將機場溫度作為預(yù)測對象,篩選氣溫對應(yīng)時刻的前24 h地面風(fēng)、氣溫等要素。同時,利用2015—2017年逐日20時起報的歐洲中心細網(wǎng)格數(shù)值預(yù)報產(chǎn)品,包括2T、2D、高空溫度、濕度、高度場、UV風(fēng)場等要素,預(yù)報有效時間12~36 h的預(yù)測產(chǎn)品,由于不同的預(yù)測要素產(chǎn)品網(wǎng)格距離不同,本文采用查找距離機場最近網(wǎng)格點上的數(shù)據(jù),與機場溫度構(gòu)建訓(xùn)練樣本序列。通過對收集到的數(shù)據(jù)進行數(shù)據(jù)篩查、清洗等預(yù)處理,剔除數(shù)值預(yù)報產(chǎn)品中的缺測記錄后,共得到22056條樣本記錄。
由于不同的物理量組成的因子存在著量級差異,在進行模型訓(xùn)練和參數(shù)尋優(yōu)前,需要歸一化處理所有的因子,將其限定在0~1,具體處理方法如式(1)所示:
為了評估不同算法模型的預(yù)測能力,同時避免模型出現(xiàn)過擬合,本文利用開源工具包scikit-learn對歸一化后的樣本進行隨機切分,確保檢驗樣本的獨立性,將樣本數(shù)據(jù)中隨機抽取33%作為檢驗樣本,67%作為訓(xùn)練樣本,進行模型訓(xùn)練和參數(shù)尋優(yōu)。
利用Python的開源機器學(xué)習(xí)庫scikit-learn構(gòu)建預(yù)測模型,為了評估不同的方法和模型參數(shù)下的溫度預(yù)測效果,本文選取決策樹回歸方法和隨機森林回歸方法進行建模,并通過設(shè)置不同決策樹數(shù)量來評估隨機森林方法的預(yù)測能力,具體模型實現(xiàn)代碼如下:
1)決策樹方法
from sklearn.tree import DecisionTreeRegressor
model=DecisionTreeRegressor()
model.fit(trainX,trainY)
2)隨機森林方法
from sklearn.ensemble import RandomForestRegressor
model=RandomForestRegressor(n_estimators=200)
model.fit(trainX,trainY)
通過分析預(yù)測模型可以發(fā)現(xiàn),決策樹回歸方法對測試樣本的機場溫度預(yù)報平均絕對誤差為1.01 ℃,而采用5個決策樹的隨機森林方法較好地改善了平均絕對誤差,達到0.82 ℃,隨著增加決策樹數(shù)量,模型對測試樣本預(yù)測結(jié)果的平均絕對誤差逐漸減小,當(dāng)決策樹數(shù)量達到200個以上后,模型預(yù)測誤差逐漸趨于穩(wěn)定,達到0.70左右。由此可見隨機森林用于溫度回歸預(yù)測效果明顯好于單個決策樹,同時隨著決策樹數(shù)量的增加,對測試樣本的平均絕對誤差逐漸減小。具體模型預(yù)測結(jié)果如表1所示。
表1 不同模型及參數(shù)構(gòu)建的預(yù)測模型效果評價Table 1 Evaluation of prediction models for different models and parameters
利用模型尋優(yōu)得到的預(yù)測模型,對樣本中隨機抽取的7279條測試樣本進行預(yù)測,其中預(yù)測結(jié)果平均絕對誤差≤1 ℃的占樣本總數(shù)78%,平均絕對誤差≤2 ℃的占樣本總數(shù)94%,模型預(yù)測結(jié)果的平均絕對誤差能夠控制在2 ℃以內(nèi),對于溫度業(yè)務(wù)預(yù)報有較好的指導(dǎo)作用。為了充分評估模型預(yù)測能力,本文將預(yù)測對象機場溫度按照10 ℃為一個量級(表2),劃分出8個量級。烏魯木齊機場溫度主要分布在-10~30 ℃,模型的平均絕對誤差主要在1.2 ℃左右,其中-10~0 ℃平均絕對誤差最小,為0.939 ℃。而-30~-20 ℃考慮到樣本數(shù)量占比較少,僅為31個,此范圍內(nèi)的預(yù)測誤差不單獨進行統(tǒng)計。
表2 不同區(qū)間段內(nèi)的溫度預(yù)測誤差分析Table 2 Analysis of temperature prediction error in different interval segments
通過對四個季節(jié)的樣本建立獨立的隨機森林預(yù)測模型,分析模型對訓(xùn)練樣本的預(yù)測誤差可以看到,春季氣溫預(yù)測模型的平均絕對誤差為0.956 ℃,夏季氣溫預(yù)測模型的平均絕對誤差為1.100 ℃,秋季氣溫預(yù)測模型的平均絕對誤差為0.935 ℃,冬季氣溫預(yù)測模型的平均絕對誤差為1.067 ℃。對比全年樣本數(shù)據(jù)構(gòu)建的預(yù)測模型,按季節(jié)構(gòu)建的預(yù)測模型,在不同溫度量級下的春季預(yù)測效果更優(yōu),具體見表3。
表3 不同季節(jié)的溫度預(yù)測誤差分析Table 3 Analysis of temperature prediction error in different season
利用歐洲中心細網(wǎng)格數(shù)值預(yù)報輸出72 h 的0.125°×0.125°2 m氣溫產(chǎn)品資料,結(jié)合烏魯木齊機場本地特點,采用最近經(jīng)緯網(wǎng)格點的數(shù)據(jù)做為烏魯木齊機場的氣溫預(yù)報結(jié)果,通過對不同預(yù)報有效時間下的預(yù)報數(shù)據(jù)進行篩選,每個預(yù)報有效時間大約獲得3100個樣本,平均絕對誤差為2.151 ℃,誤差最小的為預(yù)報有效時間21 h,為1.932 ℃,誤差最大的為預(yù)報有效時間72 h,為2.357 ℃,通過分析不同溫度區(qū)間內(nèi)的平均絕對誤差可以看到,其中0~10 ℃平均絕對誤差為1.839 ℃。具體見表4。
表4 數(shù)值預(yù)報溫度預(yù)測的平均絕對誤差分析Table 4 Analysis of the numerical forecast temperature prediction error
結(jié)合烏魯木齊機場季節(jié)劃分以及模式不同預(yù)報有效時間下的預(yù)測效果,選取預(yù)報有效時間為24 h的結(jié)果進行分析,春季氣溫預(yù)測的平均絕對誤差為2.043 ℃,夏季氣溫預(yù)測的平均絕對誤差為1.982 ℃,秋季氣溫預(yù)測的平均絕對誤差為2.238 ℃,冬季氣溫預(yù)測的平均絕對誤差為2.288 ℃。對比全年預(yù)測誤差結(jié)果可以看到,夏季預(yù)測效果更優(yōu),具體見表5。
表5 數(shù)值預(yù)報溫度預(yù)測(24 h)在不同季節(jié)的平均絕對誤差分析Table 5 Analysis of the numerical forecast temperature prediction error in different season
通過對比分析可以看到,歐洲中心細網(wǎng)格數(shù)值預(yù)報直接輸出的溫度預(yù)測結(jié)果較為穩(wěn)定,平均絕對誤差在2 ℃左右,利用隨機森林方法的溫度回歸預(yù)測結(jié)果,平均絕對誤差在1 ℃左右,對模式直接輸出的溫度結(jié)果有了較大的提升,其預(yù)測效果明顯優(yōu)于模式直接輸出的結(jié)果。
Advances in Meteorological Science and Technology2021年4期