張薇 韋群 吳天傲 林潔 邵光成 丁鳴鳴
摘要:選取江蘇省6個氣象站點1997-2016年的逐日氣象資料,建立了3種基于樹型算法的參考作物蒸散量(ET0)預測模型,包括梯度提升決策樹(Gradient boosting decision tree,GBDT)、隨機森林(Random forest,RF)和回歸樹(Regression tree)模型,以FAO-56 Penman-Monteith公式計算所得的ET0值作為標準值,對GBDT、RF、Regresssion tree模型和3種經(jīng)驗模型(EI-Sebail、Irmak、Hargreaves-Samani模型)的預測結果進行比較分析。結果表明:在相同氣象因子輸入組合下,GBDT、RF模型能取得較高的模擬精度,且明顯高于Regression tree模型和經(jīng)驗模型,其中,氣象參數(shù)組合為最高氣溫、最低氣溫和輻射的GBDT模型具有最高的模擬精度[全局評價指標(GPI)排名第1];通過敏感性分析發(fā)現(xiàn),輻射是對江蘇省逐日ET0影響最為顯著的氣象因子,其直接通徑系數(shù)為0.512,對決定系數(shù)(R2)的貢獻度為0.740,顯著高于其他氣象因子;通過可移植性分析發(fā)現(xiàn),氣象因子組合為最高氣溫、最低氣溫和輻射的GBDT、RF模型在江蘇省內6個站點相互交叉驗證下仍具有較高的預測精度。因此,可以將GBDT、RF模型應用于江蘇省氣象資料缺乏時的ET0預測,為農業(yè)灌溉提供可靠依據(jù)。
關鍵詞:參考作物蒸散量;梯度提升決策樹(GBDT)算法;隨機森林(RF)算法;可移植性分析;敏感性分析
中圖分類號:S16文獻標識碼:A文章編號:1000-4440(2020)05-1169-12
Abstract:Daily meteorological data from 1997 to 2016 in six meteorological stations of Jiangsu province were selected to establish three prediction models of reference crop evapotranspiration (ET0) based on tree algorithm, including gradient boosting decision tree (GBDT) model, random forest (RF) model and regression tree model. Taking ET0 value calculated by formula of FAO-56 Penman-Monteith as standard value, the prediction results of GBDT model, RF model, regression tree model and three empirical models (EI-Sebail model, Irmak model and Hargreaves-Samani model) were compared. The results showed that GBDT model and RF model could get high simulation accuracies under the combination of the same meteorological factor inputs, and the accuracies of GBDT model and RF model were significantly higher than regression tree model and empirical model. Among them, GBDT model with the meteorological parameters of maximum temperature, minimum temperature and radiation had the highest simulation accuracy (global performance indicator ranked No.1). Through sensitivity analysis, it was found that radiation was the most significant meteorological factor affecting the daily ET0 of Jiangsu province, its direct path coefficient was 0.512 and its contribution to the determination coefficient (R2) was 0.740, which were significantly higher than other meteorological factors. Through portability analysis, it was found that GBDT model and RF model with the meteorological parameters of maximum temperature, minimum temperature and radiation still had high prediction accuracies under cross-validation of six stations in Jiangsu province. Therefore, GBDT model and RF model can be applied for ET0 prediction in Jiangsu province when the meteorological data are absent and provide reliable evidence for agricultural irrigation.
Key words:reference crop evapotranspiration;gradient boosting decision tree(GBDT) algorithm;random forest(RF) algorithm;portability analysis;sensitivity analysis
參考作物蒸散量(ET0)是作物需水量計算、灌溉制度制定、水資源配置以及節(jié)水灌溉管理的核心參數(shù),因此,ET0的精確計算對作物的生長發(fā)育以及智能化灌溉的實現(xiàn)和精準農業(yè)的發(fā)展至關重要[1]。
目前參考作物蒸散量的計算方法大致分為實驗測定法、經(jīng)驗公式法和數(shù)值模擬法[2]。實驗測定法能夠直接測算參考作物蒸散量,但由于設備昂貴、操作繁瑣和地區(qū)限制性而難以推廣[3]?;诳諝鈩恿W和能量平衡原理建立的FAO-56 Penman-Monteith (FAO56-PM)模型被公認為計算半干旱地區(qū)和濕潤地區(qū)ET0最為權威的方法[4]。然而,F(xiàn)AO56-PM計算ET0所需的氣象參數(shù),包括最高氣溫、最低氣溫、總輻射、相對濕度和2 m高風速,在大多數(shù)地區(qū)不易獲取或不能夠完全獲取,使得通過FAO56-PM準確計算ET0變得較為困難[5-8]。經(jīng)驗公式法能夠基于較少的氣象參數(shù)得到相對可靠的計算結果[9-10]。Priestley和Taylor對Penman-Monteith模型進行簡化而提出了基于輻射的Priestley-Taylor模型[11],Hargreaves和Samani提出了基于溫度的Hargreaves-Samani模型[12]。Priestley-Taylor模型和Hargreaves-Samani模型具有較高的ET0估算精度,同時只需要最高氣溫、最低氣溫和天頂輻射3個氣象參數(shù),但是它們的缺點是區(qū)域限制性較強、可移植性較差[13-15]。
近年來,憑借現(xiàn)代信息技術和人工智能的發(fā)展,利用多種人工智能算法擬合分析氣象參數(shù)與ET0之間的非線性關系從而得到最優(yōu)擬合參數(shù)完成建模的數(shù)值模擬法,具有用時短、精度高、泛化能力良好的優(yōu)點[16-19],因此在ET0的計算和預測中得到了更為廣泛的應用與研究。Kumar在2002年首次將人工神經(jīng)網(wǎng)絡(Artificial neural network,ANN)引入到ET0計算中[20]。隨后基于ANN算法和基于其他算法的各種模型被迅速應用到ET0的計算和預測中[21-22]。Tabari等利用自適應神經(jīng)模糊推理系統(tǒng)(Adaptive neuro-fuzzy inference system,ANFIS)和支持向量機(Support vector machine,SVM)能夠精確擬合非線性關系的特點,將它們應用于氣象因子和ET0的映射模擬中并精確擬合了兩者的非線性關系[23]。Abdullah等引入了基于極限學習機(Extreme learning machine,ELM)的ET0預測模型,該模型不僅可以有效提高模擬計算ET0的速度和精度,同時還具有較好的泛化性能[24]。
然而,目前大多數(shù)人工智能模型結構都比較復雜,需要進行大量調試且計算成本較高[25]?;跇湫退惴ǖ臋C器學習方法具有良好的模式識別和趨勢檢測性能并且結構相對簡單,因而在作物ET0估算中越來越受歡迎[26-31]。Feng等將隨機森林(Random forest,RF)模型應用于中國西南地區(qū)的ET0預測,并與廣義回歸神經(jīng)網(wǎng)絡(Generalized regression neural network,GRNN)模型進行了比較,結果表明,兩種模型均能很好地預測ET0且有較高的精度,而RF模型的預測效果略好于GRNN模型[32]。王升等建立了基于RF和基因表達式編程(Gene expression programming, GEP)算法的ET0模型,并與傳統(tǒng)Hargreaves模型的計算結果進行了比較,結果表明,該模型在不同氣象參數(shù)輸入組合條件下均能較好地反映氣象因子與ET0之間的非線性關系[33]。梯度提升決策樹(Gradient boosting decision tree,GBDT)算法因結構簡單且具有較高的計算效率和較強的過擬合處理能力,在許多其他領域得到了廣泛的應用[34-36]。然而,基于GBDT算法的模型在ET0預測上的應用和研究還較少,因此,本研究利用江蘇省6個氣象站點1997-2016年的逐日氣象數(shù)據(jù),通過建立基于梯度提升決策樹(GBDT)算法、隨機森林(RF)算法以及回歸樹(Regression tree)算法的ET0模型對江蘇省ET0的預測進行研究,對比和分析基于以上3種樹型算法的ET0預測模型的性能,獲得精度更高、更加適用于江蘇省ET0預測的模型,為該地區(qū)作物需水量計算和灌溉決策提供科學依據(jù)。
1材料與方法
1.1研究區(qū)域與數(shù)據(jù)來源
江蘇省地處中國大陸東部沿海地區(qū)中部,位于長江、淮河下游,經(jīng)緯度為116°18′~121°57′ E,30°45′~35°20′ N,全省地形以平原為主,土地總面積1.067×105 km2,耕地面積4.58×106 hm2。多年平均氣溫 13~16 ℃,年均降水量 800~1 200 mm,氣候溫和,雨量適中。江蘇省屬暖溫帶向亞熱帶過渡性氣候,通常以淮河、蘇北灌溉總渠一線為界。
本研究中選取江蘇省徐州、淮安、射陽、南京、常州和南通氣象站資料作為研究對象,其中徐州、淮安、射陽屬于暖溫帶半濕潤季風氣候,南通、南京、常州屬于亞熱帶濕潤季風氣候(圖1)。氣象資料序列起止時間為1997年至2016年,氣象參數(shù)包括逐日最高氣溫(Tmax)、最低氣溫(Tmin)、相對濕度(RH)、2 m高風速(U2)和輻射(Rs)的連續(xù)數(shù)據(jù)(表1)。
為了提高模型收斂的速度和減少變量尺度范圍的影響,將所有輸入的氣象數(shù)據(jù)歸一化至0到1之間,公式如下:
式中,xnorm為歸一化后的值,x0、xmin和xmax分別為原始數(shù)據(jù)的真實值、最小值和最大值。
1.2研究方法
1.2.1FAO-56 Penman-Monteith 模型由于研究區(qū)域各站點實測ET0資料很難獲得,因此將FAO56-PM計算所得的ET0值作為模型訓練和測試的標準值進行模型模擬精度的對比分析[4]。公式如下:
式中,ET0為參考作物蒸散量(mm/d),Rn為凈輻射[MJ/( m2· d)],G為土壤熱通量[MJ/( m2· d)],Tmean為2 m高處日平均氣溫(℃),U2為2 m高處的風速(m/s),es為飽和水汽壓(kPa),ea為實際水汽壓(kPa),es -ea為飽和水汽壓差(kPa),△為飽和水汽壓曲線的斜率,γ為濕度計常數(shù)(kPa/℃)。
1.2.2回歸樹(Regression tree)算法分類與回歸樹(Classification and regression trees,CART)算法是應用廣泛的決策樹方法。CART將特征空間劃分為若干單元,然后根據(jù)特征向量來決定對應的每一個劃分單元的輸出。它使用最大均方差劃分節(jié)點,將每個節(jié)點樣本的均值作為測試樣本的回歸預測值。和分類樹(Classification tree)算法通過分類進行決策不同,回歸樹(Regression tree)算法針對的是連續(xù)性問題,輸出結果是一個具體的值?;貧w樹算法計算簡單,易于理解,可解釋性強,但有較高的方差,容易過度擬合。關于回歸樹算法的具體原理和代碼參見文獻[37]、[38]。
1.2.3隨機森林(RF)算法隨機森林(Random forest,RF)算法是一種基于集成學習“Bagging”思想的樹型算法。隨機森林算法通過自主抽樣法(Bootstrap)從原始數(shù)據(jù)里集中有放回地抽取多個樣本,然后使用弱學習器(決策樹)對抽取的樣本進行訓練,再把這些決策樹組合,一起投票得出最終的分類或預測結果。弱學習器間不存在強依賴關系,能夠并行訓練數(shù)據(jù)。RF算法易于使用,超參數(shù)數(shù)量少,不易過擬合,因此被廣泛應用于回歸和分類問題中。關于RF算法的具體原理和代碼參見文獻[39]。
1.2.4梯度提升決策樹(GBDT)算法
梯度提升決策樹(Gradient boosting decision tree,GBDT)算法是一種基于集成學習“Boosting”思想的迭代決策樹算法。GBDT算法通過訓練多個弱學習器(回歸樹)得出基于每個樣本的殘差,再基于所有的殘差訓練回歸樹并且根據(jù)回歸樹的權重更新得出新的模型——強學習器,即所有回歸樹的結論累加起來獲得最終預測結果(圖2)。和RF算法不同,GBDT算法的弱學習器間存在很強的依賴關系,難以并行訓練數(shù)據(jù)。GBDT算法對數(shù)據(jù)字段缺失不敏感并且可以減少偏差,而RF算法可以減少方差。因此,在過度擬合和計算成本方面,GBDT算法優(yōu)于RF算法。GBDT算法的詳細信息和計算程序詳見文獻[40]。
1.2.5經(jīng)驗模型選取EI-Sebail(E-S)、 Irmak(IR)和Hargreaves-Samani(H-S)等3種常用ET0計算經(jīng)驗模型與基于集成學習的模型進行對比分析,具體模型和計算公式見表2。為確保以上經(jīng)驗模型能夠更好地計算研究區(qū)域的逐日參考作物蒸散量,以上經(jīng)驗模型均以FAO56-PM計算值為標準值,通過多元線性回歸進行本地化處理,處理方法如下:
式中,ETPM0為FAO56-PM公式計算的ET0值,ETempirical0為經(jīng)驗公式計算的ET0值,a、b為回歸系數(shù)。
1.2.6輸入組合與10折交叉驗證本研究考慮了4種氣象因子輸入組合(表3),以評估模型在氣象參數(shù)缺失和在不同組合下對ET0預測的影響。同時使用 10 折交叉驗證方法,將初始數(shù)據(jù)集分割成10個子樣本,每次將其中1個子樣本單獨保留用于驗證,其他9個子樣本用于訓練,以最終10 折交叉驗證所得的平均誤差指標作為模型最終表現(xiàn),從而更好地驗證模型精度,提高模型的穩(wěn)定性和減少隨機性。此外,以不同于10折交叉驗證階段的數(shù)據(jù)比例,即以1997-2011年的氣象數(shù)據(jù)作為訓練集,2012-2016年的氣象數(shù)據(jù)作為測試集,對模型日尺度上的精度進行評估。
1.2.7結果評價
選用均方根誤差(RMSE)、平均絕對誤差(MAE)、可釋方差分(EVS)、納什系數(shù)(NSE)、決定系數(shù)(R2)作為評價模型模擬精度的指標,并將其統(tǒng)一到全局評價指標GPI (Global performance indicator)中,作為描述模型綜合表現(xiàn)的評價指標。公式如下:
式中,ETMi為其他模型模擬的第i個日值,ETPMi為FAO56-PM模型計算的第i個標準日值,N為測試集樣本數(shù)量,ET0,mean為標準日值的總平均值,ETM,mean為其他模型計算的總平均值,Ti為上述5個評價指標歸一化后的值,Ti,median為對應參數(shù)的中位數(shù)。當Ti為RSME和MEA時,αi等于-1,其他情況等于1。RMSE和MAE越接近于0,說明模型偏差越小,模型精度越高;EVS、NSE和R2越接近1,說明吻合度越高,模型質量越好,可信度越高;GPI越高,說明模型的總體預測表現(xiàn)越佳。
2結果與分析
2.1基于參考作物蒸散量日值模型比較
對比基于ET0日值的3種樹型算法模型和3種經(jīng)驗模型之間的模擬精度(表4)發(fā)現(xiàn),在氣象因子缺失的情況下,采用輸入組合為Tmax、Tmin和Rs的GBDT2、RF2、T2、IR模型在6個站點表現(xiàn)均較好。其中GBDT2模型表現(xiàn)最佳,GPI排名在6個站點均為第1;RF2模型表現(xiàn)次之,GPI排名均為第2,具有相對高的模擬精度。GBDT2和RF2模型在各站點的RMSE基本小于0.5 mm/d(除徐州站點RF3的RMSE=0.506 7 mm/d外),MAE均小于0.3 mm/d,EVS、NSE和R2均大于0.9。同時,T2、IR模型也取得了較高的模擬精度。T2模型的RMSE在 0.48 mm/d至0.67 mm/d之間,MAE在 0.35 mm/d至 0.48 mm/d之間,EVS、NSE和R2在0.84至 0.89之間;經(jīng)驗模型IR的RMSE在 0.46 mm/d至 0.66 mm/d之間,MAE在 0.36 mm/d至 0.51 mm/d之間,EVS、NSE和R2在0.85至0.90之間。
輸入組合為Tmax、Tmin、RH、Ra時,GBDT1、RF1模型均取得了相對較高的模擬精度,而RF1模型的GPI排名略高于GBDT1模型。其中,GBDT1模型的RMSE在0.48 mm/d至 0.58 mm/d之間,MAE在0.30 mm/d至0.36 mm/d之間,EVS、NSE和R2在0.86 至 0.89之間;RF1模型的RMSE在 0.47 mm/d至 0.57 mm/d之間,MAE在 0.29 mm/d至 0.35 mm/d之間,EVS、NSE和R2在0.86 至 0.90之間;T1模型的RMSE在 062 mm/d至 0.78 mm/d之間,MAE在 0.39 mm/d至 0.47 mm/d之間,EVS、NSE和R2在0.72 至 0.83之間。經(jīng)驗模型E-S的GPI排名在6個站點均為第15名,在所有模型中排最低,其RMSE在 0.88 mm/d至1.01 mm/d之間,MAE在 0.67 mm/d至 0.75 mm/d之間,EVS、NSE和R2在0.56至0.65之間。
輸入組合為Tmax、Tmin、Ra時,GBDT4模型的RMSE在0.65 mm/d至0.72 mm/d之間,MAE在0.43 mm/d至0.50 mm/d之間,EVS、NSE和R2在0.76至0.83之間;RF4模型的RMSE在0.65 mm/d至0.73 mm/d之間,MAE在0.43 mm/d至 0.50 mm/d之間,EVS、NSE和R2在0.76至 0.83之間;T4模型的RMSE在0.80 mm/d至0.93 mm/d,MAE在0.56 mm/d至0.64 mm/d之間,EVS、NSE和R2在0.64 至0.70之間;經(jīng)驗模型H-S在6個站點的RMSE在0.68 mm/d至0.75 mm/d之間,MAE在0.53 mm/d至0.56 mm/d之間,EVS、NSE和R2在0.73至0.81之間??梢?,GBDT4、RF4模型的模擬精度明顯高于T4模型和經(jīng)驗模型H-S。
輸入組合為Tmax、Tmin、U2時,GBDT3、RF3、T3模型均表現(xiàn)欠佳,模擬精度較低。其中,GBDT3模型的RMSE略大于0.7 mm/d,在0.70 mm/d至0.74 mm/d之間,MAE在0.48 mm/d至0.52 mm/d之間,EVS、NSE和R2在0.72至0.82之間;RF3模型的RMSE在0.71 mm/d至0.93 mm/d之間,MAE在0.49 mm/d至0.67 mm/d之間,EVS、NSE和R2在0.64至0.82之間;T3模型的RMSE在0.89 mm/d至 0.97 mm/d之間,MAE在0.63 mm/d至0.70 mm/d之間,EVS、NSE和R2在0.55至0.68之間。
表5顯示,4種不同氣象因子輸入組合下的GBDT模型中,GBDT2模型(輸入組合為Tmax、Tmin和Rs)表現(xiàn)最佳,具有最高的模擬精度,其GPI在6個站點均排在第1位,GBDT1模型(輸入組合為Tmax、Tmin、RH、Ra)的GPI在6個站點均排在第2位,GBDT4模型(輸入組合為Tmax、Tmin、Ra)的GPI排在第3位,而GBDT3模型(輸入組合為Tmax、Tmin、U2)的GPI排名最低。同樣地,對比4種不同氣象因子輸入組合下RF模型的模擬精度,在6個站點中,RF2模型(輸入組合為Tmax、Tmin和Rs)表現(xiàn)最佳,其GPI在6個站點均排于第1位,RF1模型(輸入組合為Tmax、Tmin、RH、Ra)的GPI排于第2位,RF4模型(輸入組合為Tmax、Tmin、Ra)的GPI排名位于第3位,RF3模型(輸入組合為Tmax、Tmin、U2)的GPI排名最低。對比4種不同氣象因子輸入組合下Regression Tree模型的模擬精度,在6個站點中,T2模型(輸入組合為Tmax、Tmin和Rs) 同樣地表現(xiàn)最佳,GPI排名第1,T1模型(輸入組合為Tmax、Tmin、RH、Ra)的GPI排在第2位,T4模型(輸入組合為Tmax、Tmin、Ra)的GPI排在第3位,T3模型(輸入組合為Tmax、Tmin、U2)的GPI排名最低。3種經(jīng)驗模型中,IR模型(輸入組合為Tmax、Tmin、Rs)的GPI排名最高,H-S模型(輸入組合為Tmax、Tmin、Ra)的GPI排名第2,E-S模型(輸入組合為Tmax、Tmin、RH、Ra)排名最低。因此可知,采用輸入組合為Tmax、Tmin和Rs 的模型模擬精度最高,采用輸入組合為Tmax、Tmin、RH、Ra的模型模擬精度次之,采用輸入組合為Tmax、Tmin、Ra的模型模擬精度較差,而輸入組合為Tmax、Tmin、U2的模型模擬精度最差。
由于各模型在6個氣象站點的表現(xiàn)非常類似,本研究僅以江蘇省省會南京市的模擬結果為例進行詳細分析。圖3是在不同氣象因子輸入組合下GBDT、RF、Regression Tree模型以及經(jīng)驗模型(E-S、IR和H-S)在南京站點預測的ET0值與以FAO56-PM值為參考標準值的散點圖。圖3顯示,采用輸入組合為Tmax、Tmin和Rs的GBDT2、RF2、T2模型以及IR模型離散度最小,與FAO56-PM值的相關性最好。
可以看出,GBDT、RF模型在各個站點的相同氣象因子輸入組合下都能達到較高的模擬精度,兩種模型的模擬精度非常接近,但GBDT模型總體表現(xiàn)比RF模型更好。Regression Tree模型和3種經(jīng)驗模型的模擬精度相對較低且變動較大。并且,氣象因子輸入組合為Tmax、Tmin、Rs時各模型的模擬表現(xiàn)均高于其他氣象因子輸入組合。因此,在氣象資料缺乏的情況下,可以選用氣象因子輸入組合為Tmax、Tmin和Rs的GBDT2模型作為江蘇省ET0的預測模型。
2.2ET0對氣象因子的敏感性分析
以南京站為例,使用SPSS對Tmax、Tmin、U2、RH和Rs進行ET0的通徑分析(表6)。由表6可知,輻射(Rs)對ET0的直接通徑系數(shù)為0.512,對決定系數(shù)(R2)的貢獻度達到0.740,顯著高于其他各氣象因子,因此輻射Rs是對江蘇省逐日ET0影響最為顯著的氣象因子。此結論與本研究基于ET0日值模型比較中,采用氣象因子輸入組合為Tmax、Tmin、Rs的模型模擬精度高于采用其他氣象因子輸入組合的模型的結論相一致。最高氣溫(Tmax)對ET0的直接通徑系數(shù)為0.286,對決定系數(shù)(R2)的貢獻達到0.150,說明最高氣溫(Tmax)也對逐日ET0具有較大的影響。最低氣溫(Tmin)對ET0直接通徑系數(shù)和對決定系數(shù)(R2)的貢獻度分別為0.265和0.004,對逐日ET0的影響最小。相對濕度(RH)對ET0的直接通徑系數(shù)和對決定系數(shù)(R2)的貢獻度分別為 -0.301和0.038,而風速(U2)對ET0的直接通徑系數(shù)和對決定系數(shù)(R2)的貢獻度分別為0.142和0.019,這與本研究中基于相對濕度(RH)的模型模擬精度高于基于風速(U2)的模型模擬精度結果相一致,表明在江蘇省相對濕度(RH)比風速(U2)對ET0的影響更大,此結論與西北地區(qū)[41]和川中丘陵區(qū)[42]風速是ET0變化主導因子的結論有明顯差異。
2.3GBDT2、RF2模型在各站點間的可移植性分析
本研究中GBDT2、RF2模型(輸入組合為Tmax、Tmin和Rs)能在較少參數(shù)輸入下取得較高的ET0預測精度。為檢驗GBDT2、RF2模型在江蘇省的普適性和泛用程度,通過不同站點之間數(shù)據(jù)的交叉驗證對GBDT2、RF2進行可移植性分析。結果(表7、表8)表明,除了在以徐州為訓練站和射陽為驗證站的組合中,RF2模型的決定系數(shù)(R2)為0.891 7,略小于0.9,其余不同站點組合的GBDT2模型和RF2模型的R2均大于0.9,模型預測精度均達到較高水平。與不同站點組合前的預測精度相比,不同站點組合后GBDT2模型的下降比例在5.17% 至 8.26%之間,RF2模型的下降比例在5.51% 至 9.90%之間,預測精度下降相對較小。由此可知GBDT2模型和RF2模型在江蘇省各站點之間的可移植性較強,因此當缺乏氣象資料時,可利用GBDT2模型或RF2模型使用臨近氣象站點的數(shù)據(jù)預測ET0。
RMSE、MAE、EVS、NSE和R2分別表示均方根誤差、平均絕對誤差、可釋方差分、納什系數(shù)和決定系數(shù),GPI排名表示綜合排名。RMSE和MAE越接近于0,說明模型模擬偏差越小,模型模擬精度越高;EVS、NSE和R2越接近1,說明吻合度越高,模型模擬質量越好,可信度越高。Tmax、Tmin、RH、U2和Rs分別表示最高氣溫、最低氣溫、相對濕度、2 m高風速和輻射。GBDT1、GBDT2、GBDT3、GBDT4、RF1、RF2、RF3、RF4、T1、T2、T3、T4、E-S、IR、H-S分別表示不同氣象因子輸入組合的ET0模型。
3結論
通過對GBDT、RF和Regression Tree模型以及經(jīng)驗模型(E-S、IR、H-S)的模擬結果對比分析發(fā)現(xiàn),在4種氣象因子輸入組合中GBDT、RF模型的預測精度非常接近,而GBDT模型總體表現(xiàn)略優(yōu)于RF模型,同時GBDT、RF模型的預測精度均明顯高于同種氣象因子輸入組合的Regression Tree模型和經(jīng)驗模型(H-S、IR和E-S)。其中,氣象因子輸入組合為Tmax、Tmin和Rs的GBDT2模型在所有站點的預測精度最高,可作為江蘇省在氣象資料缺乏時獲得ET0的最佳預測模型。
敏感性分析結果表明輻射Rs對ET0的直接通徑系數(shù)為0.512,對決定系數(shù)(R2)的貢獻度為0.740,顯著高于其他氣象因子,因此輻射Rs是對江蘇省逐日ET0影響最為顯著的氣象因子。其次是最高氣溫(Tmax)和相對濕度(RH),風速(U2)對ET0的影響較小,最低氣溫(Tmin)對ET0的影響最小。
GBDT2、RF2模型的可移植性分析結果表明,江蘇省各氣象站點間相互預測ET0時精度較高,除RF2模型在徐州-射陽站點組合的決定系數(shù)(R2)略小于0.9(R2=0.891 7)外,其余站點組合的決定系數(shù)(R2)均大于0.9??梢奊BDT2、RF2模型可移植性和泛化能力強。因此在站點氣象資料缺失情況下可使用臨近站點的氣象資料建立GBDT2模型或RF2模型進行ET0預測。
參考文獻:
[1]徐俊增,彭世彰,丁加麗,等. 基于蒸滲儀實測數(shù)據(jù)的日參考作物蒸發(fā)騰發(fā)量計算方法評價[J]. 水利學報, 2010, 41(12):1497-1505.
[2]馮禹,崔寧博,龔道枝,等. 基于極限學習機的參考作物蒸散量預測模型[J].農業(yè)工程學報,2015,31(S1):153-160.
[3]李晨,崔寧博,馮禹,等. 四川省不同區(qū)域參考作物蒸散量計算方法的適用性評價[J].農業(yè)工程學報,2016,32(4):127-134,316.
[4]ALLEN R G, PEREIRA L S, RAES D, et al. Crop evapotranspiration:Guidelines for computing crop water requirements[M]. Rome:FAO Irrigation and Drainage Paper 56,1998:1-15.
[5]FAN J L, YUE W J, WU L F, et al. Evaluation of SVM, ELM and four tree-based ensemble models for predicting daily reference evapotranspiration using limited meteorological data in different climates of China[J]. Agricultural and Forest Meteorology, 2018,263: 225-241.
[6]WU L F, FAN J L. Comparison of neuron-based, kernel-based, tree-based and curve-based machine learning models for predicting daily reference evapotranspiration [J]. PLoS One,2019,14(5): e0217520.
[7]KISI O. Applicability of Mamdani and Sugeno fuzzy genetic approaches for modeling reference evapotranspiration[J]. Journal of Hydrology, 2013, 504: 160-170.
[8]SHIH S F, SNYDER G H. Leaf area index and evapotranspiration of taro[J]. Agronomy Journal, 1985, 77(4):554-556.
[9]彭世彰,徐俊增. 參考作物蒸發(fā)蒸騰量計算方法的應用比較[J]. 灌溉排水學報, 2004,23(6):5-9.
[10]IRMAK S, IRMAK A, ALLEN R G, et al. Solar and net radiation-based equations to estimate reference evapotranspiration in humid climates[J]. Journal of Irrigation and Drainage Engineering, 2003, 129(5): 336-347.
[11]PRIESTLEY C H B, TAYLO R J. On the assessment of surface heat flux and evaporation using large-scale parameters[J]. Mon Weather Rev, 1972,100:81-92.
[12]HARGREAVES G H, SAMANI Z A. Reference crop evapotranspiration from temperature[J]. Appl Eng Agric, 1985,1:96-99.
[13]KISI O. Pan evaporation modeling using least square support vector machine, multivariate adaptive regression splines and M5 model tree[J]. J Hydrol,2015,528: 312-320.
[14]WANG L, KISI O, Zounemat-Kermani M, et al. Pan evaporation modeling using six different heuristic computing methods in different climates of China[J]. J Hydrol, 2017,544: 407-427.
[15]JOVIC S, NEDELJKOVIC B, GOLUBOVIC Z, et al. Evolutionary algorithm for reference evapotranspiration analysis[J]. Comput Electron Agric,2018,150: 1-4.
[16]LANDERAS G, ORTIZ-BARREDO A, LO′PEZ J J. Comparison of artificial neural network models and empirical and semi-empirical equations for daily reference evapotranspiration estimation in the Basque Country (Northern Spain) [J]. Agric Water Manag,2008,95: 553-565.
[17]FENG Y, CUI N B, ZHAO L, et al. Comparison of ELM, GANN, WNN and empirical models for estimating reference evapotranspiration in humid region of Southwest China[J]. Journal of Hydrology, 2016, 536: 376-383.
[18]MOUSAVI R, SABZIPARVAR A A, MAROFI S, et al. Calibration of the Angstrm-Prescott solar radiation model for accurate estimation of reference evapotranspiration in the absence of observed solar radiation[J]. Theoretical and Applied Climatology, 2015, 119(1/2):43-54.
[19]LADLANI I, HOUICHI L, DJEMILI L, et al. Estimation of daily reference evapotranspiration (ET0) in the North of Algeria using adaptive neuro-fuzzy inference system (ANFIS) and multiple linear regression (MLR) models: A comparative study[J]. Arabian Journal for Science and Engineering, 2014, 39(8):5959-5969.
[20]KUMAR M, RAGHUWANSHI N S, SINGH R, et al. Estimating evapotranspiration using artificial neural networks[J]. Journal of Irrigation and Drainage Engineering, 2002, 128(4): 224-233.
[21]張皓杰,崔寧博,徐穎,等. 基于ELM的西北旱區(qū)參考作物蒸散量預報模型[J]. 排灌機械工程學報, 2018, 36 (8):140-145.
[22]TRAORE S, WANG Y M, KERH T. Artificial neural network for modeling reference evapotranspiration complex process in Sudano-Sahelian zone[J]. Agricultural Water Management, 2010, 97(5): 707-714.
[23]TABARI H, KISI O, EZANI A, et al. SVM, ANFIS, regression and climate based models for reference evapotranspiration modeling using limited climatic data in a semi-arid highland environment[J]. Journal of Hydrology, 2012, 777: 78-89.
[24]ABDULLAH S S, MALEK M A, ABDULLAH N S, et al. Extreme learning machines: A new approach for prediction of reference evapotranspiration[J]. Journal of Hydrology, 2015, 527:184-195.
[25]HASSAN M A, KHALIL A, KASEB S, et al. Potential of four different machine-learning algorithms in modeling daily global solar radiation[J]. Renewable Energy, 2017, 111:52-62.
[26]FAN J, WANG X, WU L, et al. Comparison of support vector machine and extreme gradient boosting for predicting daily global solar radiation using temperature and precipitation in humid subtropical climates: A case study in China[J]. Energy Conversion & Management, 2018, 164:102-111.
[27]于玲,吳鐵軍. 集成學習:Boosting算法綜述[J]. 模式識別與人工智能, 2004, 17(1):52-59.
[28]HASTIE T, TIBSHIRANI R, FRIEDMAN J. Ensemble Learning[M]//HASTIE T, TIBSHIRANI R, FRIEDMAN J. The Elements of Statistical Learning. Springer Series in Statistics. New York, NY: Springer, 2009: 605-624.
[29]BAUER E, KOHAVI R. An Empirical comparison of voting classification algorithms: Bagging, Boosting, and Variants[J]. Machine Learning, 1999, 36(1/2):105-139.
[30]DIETTERICH T G. An experimental comparison of three methods for constructing ensembles of decision trees: Bagging, Boosting, and Randomization[J]. Machine Learning, 2000, 40(2):139-157.
[31]MANIKUMARI N, MURUGAPPAN A, VINODHINI G. Time series forecasting of daily reference evapotranspiration by neural network ensemble learning for irrigation system[J]. IOP Conference Series: Earth and Environmental Science, 2017, 80:012069.
[32]FENG Y, CUI N, GONG D, et al. Evaluation of random forests and generalized regression neural networks for daily reference evapotranspiration modelling[J]. Agric Water Manage,2017, 193:163-173.
[33]王升,付智勇,陳洪松,等.基于隨機森林算法的參考作物蒸發(fā)蒸騰量模擬計算[J].農業(yè)機械學報,2017,48(3):302-309.
[34]韓啟迪,張小桐,申維.基于梯度提升決策樹(GBDT)算法的巖性識別技術[J].礦物巖石地球化學通報,2018,37(6):1173-1180.
[35]鄭凱文,楊超.基于迭代決策樹(GBDT)短期負荷預測研究[J].貴州電力技術,2017,20(2):82-84,90.
[36]蔡文學,羅永豪,張冠湘,等.基于GBDT與Logistic回歸融合的個人信貸風險評估模型及實證分析[J].管理現(xiàn)代化,2017,37(2):1-4.
[37]GORDON R B A D. Classification and regression trees[J]. Biometrics, 1984, 40(3):874.
[38]EVERITT B S. Classification and regression trees[M]//GOLDBERG J, FISCHER M. Encyclopedia of Statistics in Behavioral Science. Hoboken, NJ, USA:John Wiley& Sons, Ltd., 2005.
[39]BREIMAN L. Random Forests[J]. Machine Learning, 2001, 45(1):5-32.
[40]FRIEDMAN J H. Stochastic gradient boosting[J].Computational Statistics and Data Analysis,2002,38(4):367-378.
[41]汪彪,曾新民,劉正奇,等. 中國西北地區(qū)參考作物蒸散量的估算與變化特征[J]. 干旱氣象, 2016, 34(2):243-251.
[42]馮禹,崔寧博,魏新平,等. 川中丘陵區(qū)參考作物蒸散量時空變化特征與成因分析[J].農業(yè)工程學報, 2014,30(14):78-86,339.
(責任編輯:張震林)