王濤 王乙舒 趙春雨 王小桃 秦美歐 沈玉敏 侯依玲 趙建云
(1.沈陽區(qū)域氣候中心,遼寧 沈陽 110166;2.中國氣象局沈陽大氣環(huán)境研究所,遼寧 沈陽 110166)
霜凍是遼寧省秋季農(nóng)業(yè)生產(chǎn)的主要災(zāi)害之一,初霜凍來的早的年份,低溫冷害作物成熟期縮短,作物不能安全成熟,遭受凍害,影響糧食產(chǎn)量和質(zhì)量[1]。因此,初霜凍日期的預(yù)測對保證糧食安全具有十分重要意義。
近年來,中國學(xué)者在霜凍災(zāi)害方面做了大量工作,大多是利用傳統(tǒng)統(tǒng)計方法分析初霜凍[2-3]、終霜凍[4-5]、霜凍日[6]氣候變化特征、成因[7-8]及對農(nóng)業(yè)生產(chǎn)影響。如王國復(fù)等[7]利用1954—2003年中國霜期觀測數(shù)據(jù),通過趨勢分析方法發(fā)現(xiàn)中國大部分地區(qū)初霜凍日呈推遲趨勢而終霜凍日呈提前趨勢,并指出日最低氣溫、日最低0 cm地面溫度的升高可能是引起霜凍日期變化的原因。韓榮青等[9]不但分析了中國北方地區(qū)初霜凍日期歷史變化特征,還討論了初霜凍日期出現(xiàn)早晚對水稻和玉米產(chǎn)量的影響,發(fā)現(xiàn)成熟期之前無持續(xù)性異常低溫時段,初霜凍日期早晚對其影響是顯著的。然而傳統(tǒng)統(tǒng)計預(yù)測方法也存在很多問題,如特別依賴預(yù)報員個人預(yù)報經(jīng)驗,預(yù)測準(zhǔn)確率也不穩(wěn)定,無法滿足當(dāng)前預(yù)測業(yè)務(wù)發(fā)展需求。因此也有少部分學(xué)者對客觀化初霜凍預(yù)報方法進(jìn)行研究,但大都是從初霜發(fā)生前1—3 d大氣環(huán)流變化去分析研究做出短期預(yù)判[10-11],或者從前期月季環(huán)流因子、終霜日、夏季平均氣溫等因子構(gòu)建預(yù)測模型作出長期預(yù)判[12],其中短期預(yù)判由于預(yù)測時效較短,農(nóng)業(yè)部門來不及采用大范圍防范措施,仍然可以造成較大損失;而長期預(yù)測多采用前期比較單一物理指標(biāo)作為預(yù)測因子,通常以線性方法作為主要研究方法,但由于氣候變化的非線性特征、預(yù)報量與預(yù)報因子關(guān)系的非線性特征,線性方法的局限性較大。機器學(xué)習(xí)算法不但可以捕捉前期預(yù)測因子作用預(yù)測結(jié)果的潛在非線性機制,還能提取重要關(guān)鍵預(yù)測因子。因此已有學(xué)者開始將其應(yīng)用于預(yù)報實踐,在預(yù)測中表現(xiàn)出良好的效果[13-15]。Moon和Kim[16]基于機器學(xué)習(xí)中相關(guān)性的特征選擇來組合短期天氣預(yù)報中可用的大量氣象要素變量的有效子集,從中獲得多項式回歸的系數(shù),然后將其用于預(yù)測降水。孫全德等[17]基于機器學(xué)習(xí)算法建立預(yù)測模型對ECMWF模式預(yù)測的中國華北地區(qū)10 m風(fēng)速進(jìn)行訂正,發(fā)現(xiàn)機器學(xué)習(xí)算法的訂正效果好于傳統(tǒng)訂正方法。
目前,機器學(xué)習(xí)方法應(yīng)用大都在短臨尺度上對模式輸出要素做訂正評估,缺乏直接在氣候尺度上利用前期再分析數(shù)據(jù)構(gòu)建預(yù)測模型研究,因此本文基于前期ERA5逐月再分析數(shù)據(jù)(1961—2019年2—7月),采用3種典型機器學(xué)習(xí)算法(Lasso回歸、隨機森林和神經(jīng)網(wǎng)絡(luò))建立遼寧省初霜凍日期預(yù)測模型。首先基于前期ERA5再分析數(shù)據(jù)的氣象要素特征進(jìn)行特征選擇,即通過特征工程方法提取重要要素特征集,再以篩選出的特征集進(jìn)行機器學(xué)習(xí)建模,分別對2—7月起報的遼寧省初霜凍日期進(jìn)行預(yù)測,并檢驗其效果,最后重點討論前期因子影響預(yù)測結(jié)果可能原因,為初霜期預(yù)測提供參考。
采用的資料分為格點和站點數(shù)據(jù),其中格點數(shù)據(jù)源于歐洲中期預(yù)報中心(The fifth generation ECMWF reanalysis for the global climate and weather,ERA5)網(wǎng)站公開的再分析數(shù)據(jù),時間段為1961—2019年2—7月,空間范圍為115°—130°E,35°—45°N,空間分辨率為0.25°×0.25°,包括對初霜凍日期預(yù)測可能有影響的28個氣象要素場,在氣候預(yù)測中優(yōu)先考慮環(huán)流場對當(dāng)月氣溫和降水的影響,如當(dāng)高空為低槽或冷渦(脊或高壓)時,有利于當(dāng)月氣溫偏低(偏高)、降水偏多(偏少)。植被覆蓋、積雪、土壤溫度、含水量等要素可能影響當(dāng)月及秋冬季的局地氣溫和地面濕度,如植被覆蓋率越高越有利于保持地表溫度和濕度(具體分析見2.4節(jié))。低溫、氣溫和濕度均為對初霜凍預(yù)測可能有影響的因子(表1)。站點數(shù)據(jù)來自遼寧省氣象信息中心,要素為1961—2019年遼寧省61個氣象觀測站逐年初霜凍日期。
本研究采用研究時段內(nèi)氣象觀測站初霜凍日期作為機器學(xué)習(xí)算法的預(yù)測標(biāo)記,將所在月的28個氣象要素場形成的特征矩陣作為輸入,經(jīng)過特征工程,選取有效氣象要素構(gòu)建機器學(xué)習(xí)初霜期預(yù)測模型。
1.2.1Lasso回歸
Lasso(Least absolute shrinkage and selection operator)方法是以縮小特征集(降階)為思想的壓縮估計方法。目標(biāo)函數(shù)在一般線性回歸的基礎(chǔ)上加入了正則項(懲罰函數(shù)),可以壓縮特征系數(shù)并使某些特征系數(shù)(權(quán)重)變?yōu)?,使用較少的非0系數(shù)進(jìn)而達(dá)到特征選擇的目的,使用較少的特征建模,使得模型訓(xùn)練盡可能的“簡單”,使得模型的泛化能力較強[18-19]。
表1 ERA5再分析數(shù)據(jù)28個氣象要素場Table 1 28 meteorological element fields from ERA5 reanalysis data
1.2.2隨機森林
隨機森林(Random forest)算法是利用bootstrap技術(shù)從原始樣本中抽取隨機化樣本(樣本bagging)來構(gòu)建單棵決策樹。對于每個樹節(jié)點,首先從原始特征隨機抽樣出部分或全部特征,然后從這些特征構(gòu)成特征子空間中選擇分裂特征和分裂點。選擇標(biāo)準(zhǔn)是分類問題中的最大不純度的減小或回歸問題中最大均方差(MSE)的減小。不斷循環(huán)上述過程來逐個構(gòu)造樹節(jié)點,直到達(dá)到停止條件。對于回歸問題,模型輸出值是隨機森林中所有決策樹輸出結(jié)果平均值[20-21]。
1.2.3深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)由3部分構(gòu)成,分別為輸入層、隱藏層和輸出層,其中隱藏層的層數(shù)可以有很多。在模型訓(xùn)練時,多層的深度神經(jīng)網(wǎng)絡(luò)參數(shù)通過反向傳播(Back propagation,BP)算法實現(xiàn)學(xué)習(xí)和更新,通常利用梯度下降法計算目標(biāo)函數(shù)梯度以更新權(quán)重系數(shù),從而使目標(biāo)函數(shù)最小化,模型輸出值盡可能與實際值接近,而模型需要調(diào)整的參數(shù)是通過模型在訓(xùn)練集訓(xùn)練和驗證確定的[22-23]。
1.2.4檢驗方法
均方根誤差(Rootmean square error,RMSE)評估初霜凍日期預(yù)測值與觀測值的差距,是預(yù)報預(yù)測中常用評估指標(biāo),同時也是機器學(xué)習(xí)回歸模型性能評估和優(yōu)化過程廣泛使用的函數(shù)。均方根誤差越小,初霜期預(yù)測越準(zhǔn)確,表示模型預(yù)測性能越好。公式為
式(1)中,n為樣本數(shù);ytrue,i為第i個樣本真值(即數(shù)據(jù)集標(biāo)記);ypredict,i為第i個樣本預(yù)測值。
在預(yù)報預(yù)測中也常用距平同號率定性評估預(yù)測效果,同號率越高,初霜凍日期預(yù)測趨勢越準(zhǔn)確,表示模型預(yù)測效果越好。具體定義是在測試集上評估模型預(yù)測趨勢與真值趨勢相同的樣本數(shù)與所用樣本數(shù)的比值。預(yù)測趨勢為預(yù)測值相比于對應(yīng)樣本氣候平均態(tài)偏離度,真值趨勢為真值相比于對應(yīng)樣本氣候平均態(tài)偏離度。公式為
式(2)—式(4)中,n為樣本數(shù);yi,j為第i個樣本第j個樣本的真值(即數(shù)據(jù)集標(biāo)記);ytrue,i為第i個樣本真值;ypredict,i為第i個樣本預(yù)測值;ymean,i為第i個樣本對應(yīng)的1981—2010年氣候平均值;φi為第i個樣本預(yù)測值和真值趨勢比值,相同趨勢取1,相反趨勢取0;p為距平同號率。
1.2.5模型構(gòu)建
首先以不同起報時間劃分?jǐn)?shù)據(jù)集,以每年2—7月數(shù)據(jù)分別構(gòu)建6個數(shù)據(jù)集,標(biāo)記為對應(yīng)年份的初霜凍日期。將數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集3部分。訓(xùn)練集和驗證集用于交叉驗證超參數(shù)調(diào)整確定性能最優(yōu)模型,測試集用于評估模型預(yù)測性能(泛化能力)。從1961—2014年ERA5再分析數(shù)據(jù)中打亂隨機抽取80%作為訓(xùn)練集,余下20%數(shù)據(jù)作為驗證集;2015—2019年ERA5再分析數(shù)據(jù)作為測試集。基于機器學(xué)習(xí)算法的遼寧省初霜凍日期預(yù)測建模流程如圖1所示,具體建模步驟如下:①數(shù)據(jù)預(yù)處理,初霜凍日期存在一定數(shù)量的缺測值,主要表現(xiàn)在某些站點在某些年存在缺測值,為了保持?jǐn)?shù)據(jù)的完整性和準(zhǔn)確性,直接剔除存在缺測的站點形成具有連續(xù)時間序列的初霜凍日期數(shù)據(jù)(共45站)。同時,對所有氣象要素數(shù)據(jù)構(gòu)成的特征矩陣進(jìn)行標(biāo)準(zhǔn)化處理,可以避免特征間不同單位(尺度)的影響,還可以提高模型訓(xùn)練效率,加快收斂速度。根據(jù)不同起報時間(2—7月)將1961—2019年數(shù)據(jù)劃分為6個數(shù)據(jù)集,每個數(shù)據(jù)集共有59個月,由逐年月再分析數(shù)據(jù)和同年的初霜凍日期組成,利用雙線性空間插值方法形成相應(yīng)的站點數(shù)據(jù),因此每個數(shù)據(jù)集由大小為45×59共2655個樣本組成,其中每個樣本有28個特征因子。②特征選擇,利用Lasso和交叉驗證方法針對每個訓(xùn)練—驗證集提取對初霜凍日期預(yù)測有重要影響的氣象要素特征數(shù)據(jù)集。③模型訓(xùn)練,采用lasso回歸、隨機森林和神經(jīng)網(wǎng)絡(luò)算法分別利用特征選擇出的特征數(shù)據(jù)集進(jìn)行訓(xùn)練構(gòu)建預(yù)測模型。④預(yù)測結(jié)果評估,將測試集輸入到以上訓(xùn)練好的預(yù)測模型中,輸出結(jié)果即為初霜凍日期,利用均方根誤差和距平同號率評估模型預(yù)測性能。⑤歸因分析,探討關(guān)鍵氣象要素對初霜凍日期預(yù)測的可能影響。
圖1 初霜凍日期預(yù)測流程Fig.1 Flow chart of the prediction of the first-frost date
1.2.6特征選擇
特征選擇是利用機器學(xué)習(xí)算法從原始特征中選出對模型預(yù)測最有效的特征。特征選擇主要有以下特點:①簡化模型,增加模型的可解釋性,去除冗余特征,降低學(xué)習(xí)難度,提高模型穩(wěn)定性。②改善性能,大幅提高計算效率。③改善通用性、降低過擬合風(fēng)險,減輕維數(shù)災(zāi)難,特征的增加可以更好地擬合訓(xùn)練數(shù)據(jù),但可能在驗證集和測試集上表現(xiàn)很差。常見的特征選擇方法有過濾法(Filter)、包裹法(W rapper)和嵌入法(Embedded)。從模型性能來看,包裹法比過濾法更好,但包裹法計算負(fù)荷大,效率低[24]。因此,利用嵌入法中的Lasso模型進(jìn)行特征選擇,調(diào)用機器學(xué)習(xí)庫基于該模型將特征選擇和模型訓(xùn)練在同一個過程中完成,并且該方法計算效率高。
結(jié)合1.2.1節(jié),由于Lasso模型加入正則化因子α‖w‖,以降低損失函數(shù)為目標(biāo),調(diào)節(jié)超參數(shù)α,加大懲罰力度,不重要的特征權(quán)重變?yōu)?,不僅可以降低過擬合風(fēng)險,還可以提高計算效率。
如圖2所示,采用Lasso回歸、隨機森林和神經(jīng)網(wǎng)絡(luò)算法進(jìn)行2—7月遼寧省初霜凍日期預(yù)測。通過模型訓(xùn)練和超參數(shù)調(diào)節(jié)構(gòu)建預(yù)測模型發(fā)現(xiàn)利用特征選擇后特征訓(xùn)練的模型與利用全部特征訓(xùn)練的模型預(yù)測的RMSE基本一致,說明Lasso回歸算法能夠提取出對初霜凍日期預(yù)測有效的特征,利用這些特征建模完全可以替代全部特征。3種不同模型在各起報月預(yù)測性能差別不大,在驗證集上RMSE為6—8 d,測試集上RMSE為8—10 d,其中Lasso回歸和神經(jīng)網(wǎng)絡(luò)在4月和5月起報的預(yù)測效果最好,測試集RMSE在8—9 d。
圖2 2月(a)、3月(b)、4月(c)、5月(d)、6月(e)和7月(f)起報遼寧省初霜凍日期特征選擇前后均方根誤差Fig.2 Com parison of prediction performance of first-frost date before and after feature selection w ith p rediction starting from February(a),March(b),April(c),M ay(d),June(e),and July(f)
采用機器學(xué)習(xí)算法(Lasso回歸、隨機森林和神經(jīng)網(wǎng)絡(luò))對遼寧省初霜凍日期進(jìn)行預(yù)測,起報時間是當(dāng)年2—7月并結(jié)合實際站點數(shù)據(jù)對模型預(yù)測性能進(jìn)行客觀評估。對各起報月(樣本量5×45個)計算RMSE和距平同號率,結(jié)果如圖3a所示。由圖3a可知,RMSE隨著預(yù)報時效的增加呈緩慢上升趨勢,但整體差別不大(大都為8—10 d),其中4—5月起報RMSE最低(8—9 d),在3種模型中,Lasso回歸預(yù)測性能最好。圖3b表明,不同模型距平同號率隨著起報時間增加呈波動變化,其中Lasso回歸和神經(jīng)網(wǎng)絡(luò)模型在3月起報的距平同號率最低(約為53%),隨機森林在7月起報最低(約為50%);Lasso回歸和神經(jīng)網(wǎng)絡(luò)模型在5月最高(約為68%),隨機森林在3月起報最高(約為62%)。機器學(xué)習(xí)模型在不同起報時間下RMSE平均為9 d左右,平均同號率在60%以上,因此機器學(xué)習(xí)模型對初霜凍日期預(yù)測無論在定量還是定性預(yù)測上均有較好的表現(xiàn)(尤其4月和5月起報)。
圖3 2—7月起報的機器學(xué)習(xí)模型預(yù)測遼寧省初霜凍日期的均方根誤差變化(a)和距平同號率(b)Fig.3 RM SE(a)and the rate w ith the same sign of anomaly(b)of the first-frost date in Liaoning province predicted by threemachine learning modelsw ith different prediction starting time
分別采用Lasso回歸、隨機森林和神經(jīng)網(wǎng)絡(luò)方法對遼寧省初霜凍日期進(jìn)行站點預(yù)測(起報時間仍為2—7月),定量定性評估模型預(yù)測性能。在測試集上,對不同起報月每個站點(樣本量5個,2015—2019年)計算RMSE,結(jié)果如圖4所示。由圖4可知,隨著起報時間的鄰近,機器學(xué)習(xí)模型沒有呈現(xiàn)出明顯的線性趨勢,RMSE變化不大(大都為6—11 d),其中Lasso回歸和神經(jīng)網(wǎng)絡(luò)模型在4月起報的預(yù)測結(jié)果最好(RMSE為6—8 d),神經(jīng)網(wǎng)絡(luò)在5月起報的預(yù)測結(jié)果最好(RMSE在6—9 d),與圖3a趨勢基本一致,說明機器學(xué)習(xí)模型具有較高的預(yù)測精度。從RMSE分布來看,Lasso回歸和神經(jīng)網(wǎng)絡(luò)預(yù)測的RMSE大都呈東高西低分布,隨機森林大體呈東西高中間低分布。在定性預(yù)測上,對于不同起報時間大部分站點距平同號率超過50%,說明機器學(xué)習(xí)模型表現(xiàn)出較好的穩(wěn)定性和準(zhǔn)確率。
圖4 2月(a1,b1,c1),3月(a2,b2,c2),4月(a3,b3,c3),5月(a4,b4,c4),6月(a5,b5,c5),7月(a6,b6,c6)起報Lasso回歸(a)、隨機森林(b)和神經(jīng)網(wǎng)絡(luò)(c)預(yù)測的遼寧省初霜凍日期均方根誤差和距平同號率的空間分布Fig.4 Spatial distribution of RMSE and the rate w ith the same sign of anomaly of the first-frost date in Liaoning province predicted by the Lasso Regression(a),Random Forest(b),and Neural Network(c)modelsw ith prediction starting from February(a1,b1,c1),M arch(a2,b2,c2),April(a3,b3,c3),M ay(a4,b4,c4),June(a5,b5,c5),and July(a6,b6,c6)
利用Lasso回歸算法的特征選擇方法對所有起報月(2—7月逐月)進(jìn)行特征提取,如表2所示數(shù)值代表各起報月的特征因子權(quán)重。特征因子對初霜凍日期預(yù)測輸出值的影響程度與其權(quán)重絕對值的大小成正比,即特征因子絕對值的權(quán)重越大,表明該特征因子對初霜凍日期預(yù)測輸出值的影響也就越大,負(fù)的特征權(quán)重表明該特征對初霜凍日期預(yù)測有負(fù)貢獻(xiàn),即該特征增加將會使得初霜凍日期提前,反之亦然。對起報時間(2—7月)的平均權(quán)重絕對值由大到小依次為(特征排列前10個):低植被覆蓋比例、64.0 cm土壤含水量、64.0 cm土壤溫度、高植被覆蓋比例、500 hPa位勢高度、500 hPa溫度場、3.5 cm土壤含水量、低植被用地所有葉子一側(cè)表面積、194.5 cm土壤含水量、土壤類型。在以上特征因子中:①低植被用地所有葉子一側(cè)表面積的權(quán)重隨著起報時間臨近而減小。②高植被覆蓋比例、64 cm土壤溫度的權(quán)重是隨著起報時間臨近而增大。③低植被覆蓋比例、64 cm土壤含水量、500 hPa位勢高度、500 hPa溫度、3.5 cm土壤含水量、194.5 cm土壤含水量、土壤類型的權(quán)重與起報時間沒有明顯的相關(guān)關(guān)系。
植被覆蓋對局地氣候具有重要的調(diào)節(jié)作用,植被覆蓋率越高越有利于地表含水量保持,出現(xiàn)降溫越容易產(chǎn)生霜,初霜凍日期也就越易提前。植被覆蓋(高植被覆蓋比例、低植被用地所有葉子一側(cè)表面積、低植被覆蓋比例)對初霜凍日期預(yù)測均為負(fù)貢獻(xiàn)(表2)。土壤水的體積(3.5 cm土壤含水量、64.0 cm土壤含水量、194.5 cm土壤含水量)與土壤質(zhì)地(或分類),土壤深度和底層地下水位有關(guān),不同深度的土壤水體積對初霜凍日期預(yù)測的貢獻(xiàn)也有較大不同,3.5 cm土壤含水量、194.5 cm土壤含水量對初霜凍日期預(yù)測大都為負(fù)貢獻(xiàn),有利于初霜凍日期提前,而64.0 cm土壤含水量對初霜凍日期預(yù)測為正貢獻(xiàn),有利于初霜凍日期延后。64.0 cm土壤溫度是第3級(在第3層中間)的土壤溫度,5—7月起報的該要素對初霜凍日期預(yù)測為正貢獻(xiàn)。土壤類型是ECMWF綜合預(yù)測系統(tǒng)(IFS)的地表方案使用的土壤質(zhì)地(或分類),用于預(yù)測土壤水分和徑流計算中的持水量,土壤質(zhì)地越細(xì)密、有機物含量越大,越有利于初霜凍日期推遲。高空要素中500 hPa位勢高度對初霜凍日期預(yù)測為負(fù)貢獻(xiàn),對流層中層位勢高度越高,越利于初霜凍日期提前,而500 hPa溫度場對初霜凍日期預(yù)測為正貢獻(xiàn),對流層中層溫度越高,越利于初霜凍日期延后。在以上要素中,低植被覆蓋比例最重要,以4月起報為例,對低植被覆蓋比例因素的影響進(jìn)行評估(圖5),發(fā)現(xiàn)大部分地區(qū)RMSE在7—10 d,東部和西部地區(qū)RMSE大于中部地區(qū),去掉低植被覆蓋比例因素后,Lasso回歸和神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果的RMSE均有比較顯著的上升,表明低植被覆蓋比例對模型的預(yù)測性能確實有重要影響,也反映出利用Lasso算法對原始特征進(jìn)行特征選擇的合理性。同時也發(fā)現(xiàn),去掉低植被覆蓋比例因素對距平同號率影響不大。遼寧全省大部分站點初霜凍日期同號率達(dá)到50%以上,說明機器學(xué)習(xí)模型在初霜凍日期定性預(yù)測上也表現(xiàn)出較好預(yù)測效果。
表2 2—7月起報的遼寧省初霜凍日期預(yù)測模型特征權(quán)重分布Table 2 Distribution of feature weights of the first-frost date in Liaoning province w ith prediction starting from February to Ju ly
圖5 有(a)和無(d)低植被覆蓋比例因素的Lasso回歸、有(b)和無(e)低植被覆蓋比例因素隨機森林、有(c)和無(f)低植被覆蓋比例因素的神經(jīng)網(wǎng)絡(luò)預(yù)測的遼寧省初霜凍日期均方根誤差和距平同號率分布Fig.5 Distribution of RMSE and the rate w ith the same sign of anomaly of the first-frost date in Liaoning province predicted by Lasso Regression,Random Forest,and Neural Network models w ith(a-c)and w ithout(d-f)low vegetation coverage scale
(1)對于不同起報時間,各機器學(xué)習(xí)模型預(yù)測的RMSE總體變化不大(大都為6—11 d),但不同模型有所差異,Lasso回歸4月起報預(yù)測效果最好(RMSE為6—8 d),神經(jīng)網(wǎng)絡(luò)為5月起報的預(yù)測效果最好(RMSE在6—9 d)。對于不同模型,RMSE分布有所不同,Lasso回歸和神經(jīng)網(wǎng)絡(luò)大都呈“東高西低”分布,隨機森林大體呈“東西高中間低”分布,總的來說不同模型預(yù)測的初霜凍日期的RMSE分布比較均勻,因此機器學(xué)習(xí)模型具有優(yōu)秀、穩(wěn)定的預(yù)測效果。
(2)在定性預(yù)測上,大部分站點距平同號率為50%—70%,不同模型對于不同起報時間同號率表現(xiàn)也有不同,Lasso回歸和神經(jīng)網(wǎng)絡(luò)模型距平同號率為3月起報最低(約為53%),5月起報最高(約為68%),隨機森林為7月起報最低(約為50%),3月起報最高(約為62%)。因此,機器學(xué)習(xí)模型表現(xiàn)出較高準(zhǔn)確率。
(3)Lasso回歸算法不僅可以構(gòu)建初霜凍日期預(yù)測模型,還在特征選擇上表現(xiàn)非常優(yōu)秀。特征選擇結(jié)果表明,對初霜凍日期預(yù)測有影響的關(guān)鍵特征(按平均權(quán)重由大到小排序前10個)分別為低植被覆蓋比例、64.0 cm土壤含水量、64.0 cm土壤溫度、高植被覆蓋比例、500 hPa位勢高度、500 hPa溫度場、3.5 cm土壤含水量、低植被用地所有葉子一側(cè)表面積、194.5 cm土壤含水量、土壤類型。通過機器學(xué)習(xí)特征選擇算法獲得的氣象要素特征集不僅可以提高模型預(yù)測效果,而且從一定程度上也有助于加深對以往建立初霜凍日期的預(yù)測物理統(tǒng)計模型所使用的氣象要素組合的認(rèn)識。
(4)從特征重要性的分析結(jié)果看,3—5月起報的64.0 cm土壤溫度權(quán)重最接近于0(權(quán)重分別為0.00、0.00、0.47),排除這個特征建??赡苡欣?—5月起報模型預(yù)報效果的改善,但具體物理機制還需要進(jìn)一步分析。低植被覆蓋比例因子對遼寧省初霜凍日期預(yù)測影響較大,去掉這個特征建模輸出的初霜凍日期預(yù)測效果顯著下降,尤其是Lasso回歸和神經(jīng)網(wǎng)絡(luò)模型。
(5)機器學(xué)習(xí)算法對遼寧省初霜凍日期預(yù)測具有良好的效果。初霜凍日期預(yù)測較大程度上依賴于前期預(yù)測因子選擇,不同特征因子集合對預(yù)測性能影響較大,在下一步工作中需要嘗試不同特征選擇方法提取對預(yù)測效果最優(yōu)的特征組合。另外,雖然機器學(xué)習(xí)模型具有一定的可解釋性,但該模型不能有效揭示特征要素之間內(nèi)在相互作用的動力學(xué)機制,在下一步工作中需要結(jié)合經(jīng)典氣候動力學(xué)理論和方法分析其可能原因。另外通過前期單月數(shù)據(jù)建模可能難以考慮連續(xù)多月數(shù)據(jù)之間相互作用,利用多月數(shù)據(jù)建模的預(yù)測效果如何,有待于在以后的工作中進(jìn)行深入研究。