基于機(jī)器學(xué)習(xí)的ET0跨站適應(yīng)性研究

2021-09-10 12:07董建華劉小剛吳立峰黃國敏楊啟良

西北農(nóng)林科技大學(xué)學(xué)報(bào)（自然科學(xué)版） 2021年9期

董建華，劉小剛，吳立峰，黃國敏，楊啟良

(1 昆明理工大學(xué) 農(nóng)業(yè)與食品學(xué)院，云南昆明 650500；2 南昌工程學(xué)院水利與生態(tài)工程學(xué)院，江西南昌 330099)

參考作物蒸散量(reference crop evapotranspiration,ET0)是作物灌溉等領(lǐng)域的重要參數(shù)之一，準(zhǔn)確計(jì)算ET0是氣候變化分析和區(qū)域水資源管理的關(guān)鍵環(huán)節(jié)[1-2]。ET0是由多種氣象因子組成的函數(shù)，而氣象因子通常與地理位置和氣候類型有關(guān)[3]。聯(lián)合國糧農(nóng)組織(FAO)將Penman-Monteith方程確定為計(jì)算ET0的標(biāo)準(zhǔn)方程(FAO-56 PM)，常被用于衡量其他方程的準(zhǔn)確性[4]。但FAO-56 PM對(duì)氣象數(shù)據(jù)的完整性要求較高，導(dǎo)致FAO-56 PM在氣象資料缺失地區(qū)的應(yīng)用受到一定限制。因此，在有限的氣象資料下，開發(fā)更高效的ET0估算方法具有重要的實(shí)際意義。

目前已有一些在有限氣象資料下估算ET0的經(jīng)驗(yàn)?zāi)Ｐ蚚5-7]，但因受地域環(huán)境影響較大而難以推廣使用[8]。近年來，機(jī)器學(xué)習(xí)模型因具有更高的估算精度等而倍受關(guān)注，現(xiàn)已用于有限氣象數(shù)據(jù)下ET0的估算[9]。吳立峰等[8]評(píng)估了多元自適應(yīng)回歸樣條(multivariate adaptive regression splines,MARS)模型和支持向量機(jī)(support vector machine,SVM)模型在江西鄱陽湖地區(qū)有限氣象數(shù)據(jù)下估算ET0的潛力,表明溫度參數(shù)影響力最大。但此類研究的前提是研究區(qū)存在有限氣象數(shù)據(jù)(如溫度和輻射數(shù)據(jù)等)，而實(shí)際研究中存在部分站點(diǎn)完全缺失或僅有不完整氣象數(shù)據(jù)，氣象數(shù)據(jù)序列的缺失使ET0的估算受到明顯影響。

由于部分地區(qū)缺失氣溫等氣象數(shù)據(jù)會(huì)使ET0的估算受到影響，故學(xué)者們嘗試借助研究區(qū)周邊站點(diǎn)(鄰站)氣象信息通過插值估算目標(biāo)站點(diǎn)ET0。目前，關(guān)于借助鄰站氣象信息的有關(guān)研究總體可分為4類：1)當(dāng)本地歷史氣象信息完全缺乏時(shí)，可借助鄰站氣象信息和鄰站建立的ET0模型來估算本地ET0。如張學(xué)梅等[10]在內(nèi)陸干旱地區(qū)直接采用鄰站氣象數(shù)據(jù)結(jié)合人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)模型，成功估算了目標(biāo)站點(diǎn)的ET0月值。Karimi等[11]在韓國潮濕地區(qū)的7個(gè)輔助站和8個(gè)目標(biāo)站中，直接使用輔助站點(diǎn)氣象數(shù)據(jù)依次估算目標(biāo)站點(diǎn)ET0值，構(gòu)成56種建模情景，推薦使用基因表達(dá)式編程(gene expression programming, GEP)作為通用模型。Sanikhani等[12]也指出，機(jī)器學(xué)習(xí)模型的估算精度優(yōu)于經(jīng)驗(yàn)?zāi)Ｐ停冶镜厝笔?shù)據(jù)時(shí)跨站輸入具有可行性。2)本地有歷史觀測信息，但由于遷站等原因缺乏現(xiàn)階段氣象信息時(shí)，可以使用本站歷史信息建立的ET0模型和鄰站氣溫等數(shù)據(jù)來估算本地ET0。Shiri[13]評(píng)估了一種混合小波隨機(jī)森林算法在伊朗南部5個(gè)氣象站估算ET0的潛力，其先用本站歷史數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練，再用鄰站數(shù)據(jù)對(duì)模型進(jìn)行測試，表明混合模型性能優(yōu)于經(jīng)驗(yàn)?zāi)Ｐ汀hiri等[14]還在伊朗西北部地區(qū)使用了本地歷史數(shù)據(jù)所訓(xùn)練的GEP模型，表明結(jié)合鄰站數(shù)據(jù)所得模型的性能優(yōu)于完全鄰站數(shù)據(jù)輸入模式下模型的性能。3)當(dāng)本地部分?jǐn)?shù)據(jù)缺失時(shí)，可建立本地與鄰站融合的新數(shù)據(jù)集來估算本地ET0。Feng等[15]將兩站點(diǎn)間的溫度和輻射數(shù)據(jù)進(jìn)行重組，輸入隨機(jī)森林(random forests,RF)模型和廣義回歸神經(jīng)網(wǎng)絡(luò)(generalized regression neural networks,GRNN)模型中，并使用K折交叉驗(yàn)證法估算ET0值，均能準(zhǔn)確估算中國四川省跨站模式下的ET0。Kisi[16]在土耳其不同區(qū)域站點(diǎn)中，使用鄰站氣象數(shù)據(jù)對(duì)缺乏部分本地?cái)?shù)據(jù)的目標(biāo)站點(diǎn)的ET0進(jìn)行校正及插值估算，推薦使用M5模型樹(M5 Tree)作為估算模型。Wu等[17]研究了當(dāng)鄱陽湖地區(qū)的本地站點(diǎn)只有輻射數(shù)據(jù)時(shí)，可將其與對(duì)應(yīng)鄰站溫度數(shù)據(jù)進(jìn)行結(jié)合組成新數(shù)據(jù)集來建模，在該模式下MARS和SVM模型估算性能更佳。4)使用周邊ET0和地理信息直接估算本地ET0。Shiri等[14]直接使用1個(gè)鄰站ET0數(shù)據(jù)估算目標(biāo)站點(diǎn)ET0，所得估算精度略遜于含本地?cái)?shù)據(jù)輸入模式下的估算性能。還有學(xué)者指出，在缺乏本地氣象數(shù)據(jù)時(shí)，可以直接使用對(duì)應(yīng)鄰站的地理數(shù)據(jù)(如經(jīng)緯度和海拔高度等)作為輸入直接估算本地ET0值[18]。

從以上研究可以看出，前人多通過借助鄰站氣溫、輻射、相對(duì)濕度和風(fēng)速等基礎(chǔ)氣象數(shù)據(jù)來實(shí)現(xiàn)數(shù)據(jù)資料不足地區(qū)的ET0估算。在鄱陽湖地區(qū)，已有學(xué)者利用鄰站的氣溫和輻射數(shù)據(jù)來估算目標(biāo)站點(diǎn)的ET0值[8,17]，表明該地區(qū)跨站輸入具有可行性。然而，由于鄱陽湖地區(qū)輻射、相對(duì)濕度和風(fēng)速空間變異較大，僅借助氣溫信息難以保證ET0的估算精度。為此，本研究嘗試將鄰站ET0數(shù)據(jù)和本地部分?jǐn)?shù)據(jù)相融合，用2種流行的機(jī)器學(xué)習(xí)方法(支持向量機(jī)(SVM)模型和極限梯度提升法(extreme gradient boosting,XGBoost)模型)進(jìn)行ET0估算，并評(píng)估其適用性，以期為江西鄱陽湖地區(qū)灌溉制度的確定和水分的高效利用提供依據(jù)。

1 材料與方法

1.1 研究區(qū)域概況

江西省位于長江中下游，面積約16.69萬km2。贛北為鄱陽湖平原，其他三面環(huán)山。氣候?qū)儆谥衼啛釒嘏瘽駶櫦撅L(fēng)氣候，由于降雨量較多，常導(dǎo)致澇災(zāi)。多年年均氣溫為16.3～19.5 ℃，且由南向北、自東向西逐漸遞減[19]。當(dāng)?shù)刈钪饕r(nóng)作物為水稻。

1.2 數(shù)據(jù)來源

所選站點(diǎn)資料及其在江西省的地理位置如圖1和表1所示。本研究選取江西省吉安和鄱陽2個(gè)站1966-2015年逐月氣象資料，包括最高溫度(Tmax)、最低溫度(Tmin)、相對(duì)濕度(RH)、地表總輻射量(Rs)、地外總輻射量(Ra)、2 m高風(fēng)速(U2)及對(duì)應(yīng)鄰站ET0、Tmax、Tmin、Rs(分別對(duì)應(yīng)用ET0-ex、Tmax-ex、Tmin-ex和Rs-ex表示)數(shù)據(jù)。其中吉安站點(diǎn)對(duì)應(yīng)鄰站為宜春、夏坪、贛縣和廣昌站點(diǎn)，鄱陽站點(diǎn)對(duì)應(yīng)鄰站為景德鎮(zhèn)、廬山、南昌和貴溪站點(diǎn)。此外，相對(duì)于經(jīng)緯度信息，加入站點(diǎn)海拔信息對(duì)模型性能無明顯提升，所以將鄰站的經(jīng)緯度信息也作為輸入因子與氣象因子共同輸入到模型中。

圖1 研究區(qū)域位置及所涉及氣象站點(diǎn)的空間分布Fig.1 Location of the study area and spatial distribution of related meteorological stations

表1 研究所涉及氣象站點(diǎn)的基本信息Table 1 Basic information of related weather stations

所使用氣象資料均由中國氣象數(shù)據(jù)共享服務(wù)網(wǎng)提供，數(shù)據(jù)經(jīng)嚴(yán)格把控，質(zhì)量較好。本研究使用K折交叉驗(yàn)證法進(jìn)行測試，將觀測數(shù)據(jù)的數(shù)據(jù)集均分成4等份，取其中3份訓(xùn)練模型，剩下1份用于模型測試。該過程重復(fù)4次，每次使用的測試數(shù)據(jù)應(yīng)有區(qū)別。

1.3 研究方法

1.3.1 支持向量機(jī)(SVM)模型 SVM是近年國際上開始流行的一種新型處理非線性分類和回歸的有效方法，其以Vapnik等[20]提出的統(tǒng)計(jì)學(xué)習(xí)理論為基礎(chǔ)，借助核函數(shù)將樣本空間映射到一個(gè)更高維特征空間。在特征空間中將尋求最優(yōu)回歸超平面問題歸結(jié)為一個(gè)約束條件下的凸二次規(guī)劃問題，從而求得最優(yōu)解。與常用神經(jīng)網(wǎng)絡(luò)模型相比，SVM由于最優(yōu)化問題是凸函數(shù)，因此可以得到一個(gè)全局最優(yōu)解[21]。

首先假設(shè)存在某個(gè)線性問題，其數(shù)據(jù)集H可表示為：

(1)

式中：xi為輸入變量，di為目標(biāo)值，i=[1,2,…,n]，n為數(shù)據(jù)量。

則存在以下關(guān)系：

f(x)=ωφ(x)+b。

(2)

式中：ω為權(quán)重，φ(x)為高維超平面函數(shù)，b為偏差。ω和b可由結(jié)構(gòu)風(fēng)險(xiǎn)最小化來確定。

可見，該問題轉(zhuǎn)換為凸二次規(guī)劃問題，當(dāng)存在唯一最小值時(shí)，引入拉格朗日乘子，則式(2)還可表示為：

(3)

1.3.2 極限梯度提升法(XGBoost)模型 XGBoost是梯度提升機(jī)(GBMs)的一種新模式[22]，其通過對(duì)決策樹算法的優(yōu)化，改進(jìn)了對(duì)數(shù)據(jù)庫的處理，通過正則化和內(nèi)置交叉驗(yàn)證來解決過擬合問題，從而提高了計(jì)算精度并可以保持最佳計(jì)算速度。此外，在訓(xùn)練期，XGBoost模型中的函數(shù)將自動(dòng)運(yùn)行并進(jìn)行計(jì)算，因而在特征提取[23]、分類[24]和估算[25]等方面被廣泛應(yīng)用。XGBoost模型是源于“提升”的概念，其結(jié)合了一組所有弱學(xué)習(xí)者的預(yù)測，通過特殊訓(xùn)練培養(yǎng)強(qiáng)學(xué)習(xí)者[26]。其表達(dá)方式如下：

(4)

為了在不影響模型計(jì)算速度的情況下防止過擬合問題，XGBoost模型可推導(dǎo)出以下公式：

(5)

(6)

式中：β和λ為正則化系數(shù)，T為葉子節(jié)點(diǎn)個(gè)數(shù)。

1.4 FAO-56 PM模型

采用FAO-56 PM模型[27]計(jì)算吉安站和鄱陽站的ET0值，計(jì)算公式如下：

(7)

式中：Rn為地表凈輻射(MJ/(m2·d))，G為土壤熱通量密度(MJ/(m2·d))，γ為溫度計(jì)常數(shù)(kPa/℃)，Tmean為2 m高處的平均氣溫(℃)，es和ea分別為飽和水汽壓與實(shí)際水汽壓(kPa)，Δ為蒸汽壓曲線的斜率(kPa/℃)。

1.5 統(tǒng)計(jì)指標(biāo)

選擇決定系數(shù)(R2)、均方根誤差(RMSE)、平均偏置誤差(MBE)和歸一化均方根誤差(NRMSE)4個(gè)常用統(tǒng)計(jì)指標(biāo)，分析和比較不同模型估算ET0月值的精度和穩(wěn)定性。其數(shù)學(xué)方程式分別為：

(8)

(9)

(10)

(11)

衡量標(biāo)準(zhǔn)為：R2值越高(即越靠近1)，表明模型性能越好，回歸曲線與數(shù)據(jù)擬合越好。相反地，RMSE、NRMSE值和MBE值的絕對(duì)值越低，說明模型性能越好。

2 結(jié)果與分析

2.1 本地輸入氣象組合下模型估算性能的比較

為評(píng)估SVM和XGBoost模型在本地?cái)?shù)據(jù)輸入模式下估算ET0的適用性，表2，3分別列出了吉安站和鄱陽站在8種輸入?yún)?shù)組合下(依次對(duì)應(yīng)記為模型SVM1～SVM8和XGBoost1～XGBoost8)，訓(xùn)練期和測試期估算ET0的各統(tǒng)計(jì)指標(biāo)的計(jì)算結(jié)果，其中最佳值以粗體標(biāo)出。

表2 吉安站兩時(shí)期8種輸入?yún)?shù)組合下各模型不同統(tǒng)計(jì)指標(biāo)的比較(本站輸入數(shù)據(jù))Table 2 Comparison of different statistical indicators of each model under eight combinations of input parameters in two phases of Ji’an station (local input data)

表3 鄱陽站兩時(shí)期8種輸入?yún)?shù)組合下各模型不同統(tǒng)計(jì)指標(biāo)的比較(本站輸入數(shù)據(jù))Table 3 Comparison of different statistical indicators of each model under eight combinations of input parameters in two phases of Poyang station (local input data)

表2，3顯示，在吉安站的測試期，SVM7性能最佳，XGBoost1表現(xiàn)較差，但其參數(shù)種類及資料少，且易獲取。從MBE值來看，SVM1和XGBoost1被嚴(yán)重低估。在鄱陽站的測試期中，SVM3和XGBoost3也被嚴(yán)重低估，說明輸入?yún)?shù)不足使得模型估算精度較低且穩(wěn)定性較差。由表2和表3還可知，在吉安站的測試期中，XGBoost5的估算性能優(yōu)于XGBoost1，其中R2值增加1.7%，RMSE值下降了39.4%，說明輸入氣象因子Rs較Ra更能提高模型的估算性能，此規(guī)律在鄱陽站也存在。XGBoost6的性能優(yōu)于XGBoost5，可知增加輸入?yún)?shù)U2能提高模型的估算性能，這可能是因?yàn)轱L(fēng)速對(duì)ET0的平流效應(yīng)所致。表3顯示，SVM6的估算性能整體優(yōu)于SVM8，說明增加輸入?yún)?shù)RH反而降低了模型的估算性能，可能是由于RH因子的影響因素過多，使得其變化差異較大所致。

以吉安站點(diǎn)為例，圖2為本地輸入條件下SVM和XGBoost模型的散點(diǎn)圖。圖2顯示，SVM2和XGBoost1的R2值較低，且散點(diǎn)分布偏離擬合線；SVM7和XGBoost7中各散點(diǎn)的分布均緊貼擬合線，且優(yōu)于SVM8和XGBoost8的精度，說明參數(shù)增多會(huì)導(dǎo)致影響因素增加，反而影響模型的估算性能。SVM5和XGBoost5的估算精度較高，性價(jià)比最高。綜上所述，當(dāng)輸入本地?cái)?shù)據(jù)時(shí)，各模型在估算ET0時(shí)均有較好表現(xiàn)，此時(shí)最實(shí)用的輸入組合是Tmax、Tmin、Rs，而且結(jié)合兩個(gè)時(shí)期可知，XGBoost的性能整體上略優(yōu)于SVM模型。

圖2 測試期吉安站ET0模擬值與估算值的散點(diǎn)圖(本地輸入)Fig.2 Scatter plot of measured and estimated values of ET0 at Ji’an station during testing phase (local input data)

2.2 鄰站與本地?cái)?shù)據(jù)結(jié)合情況下模型估算性能的比較

在本地融合鄰站氣象數(shù)據(jù)的9種輸入?yún)?shù)組合模式下(依次對(duì)應(yīng)記為模型SVM9～SVM17和XGBoost9～XGBoost17)，分別對(duì)各輸入模型估算ET0的適用性進(jìn)行評(píng)估，得到吉安站和鄱陽站各模型估算ET0的各統(tǒng)計(jì)指標(biāo)的計(jì)算結(jié)果見表4和表5。

表4 吉安站兩時(shí)期9種輸入?yún)?shù)組合下各模型不同統(tǒng)計(jì)指標(biāo)的比較(本站結(jié)合鄰站數(shù)據(jù))Table 4 Comparison of different statistical indicators of each model under nine combinations of input parameters in two phases of Ji’an station (local and cross-station data)

表5 鄱陽站兩時(shí)期9種輸入?yún)?shù)組合下各模型不同統(tǒng)計(jì)指標(biāo)的比較(本站結(jié)合鄰站數(shù)據(jù))Table 5 Comparison of different statistical indicators of each model under nine combirations of input parameters in two phases of Poyang station (local and cross-station data)

表4顯示，在吉安站的測試期中，除XGBoost16和XGBoost17外，XGBoost9～XGBoost15的估算性能差異較小，其R2為0.982～0.990。大部分情況下，輸入同種參數(shù)組合時(shí)，XGBoost的估算性能優(yōu)于相對(duì)應(yīng)的SVM模型。從表5可以看出，在鄱陽站的測試期中，XGBoost9～XGBoost15的R2為0.988～0.992，而XGBoost17的R2為0.945。該結(jié)果說明，只輸入鄰站的Tmax、Tmin和Rs數(shù)據(jù)來估算目標(biāo)站點(diǎn)的ET0，雖具有可行性，但無法獲得較好的估算性能，可能是因?yàn)槎鄠€(gè)相鄰站點(diǎn)之間的參數(shù)數(shù)據(jù)差異較大導(dǎo)致模型估算精度較低。在吉安站的測試期中，只采用ET0-ex作為輸入?yún)?shù)的SVM和XGBoost模型依然表現(xiàn)出較好的性能，其平均R2為0.978，RMSE接近或等于0.250 mm/d，此時(shí)所需氣象資料最少且易獲取。

以吉安站為例，圖3繪制了數(shù)據(jù)融合模式下2種模型的散點(diǎn)圖。從SVM9和XGBoost9的散點(diǎn)分布情況可知，該模型擬合程度良好，且XGBoost9的估算性能優(yōu)于XGBoost16和XGBoost17。而SVM14和XGBoost14的散點(diǎn)分布緊貼擬合線，擬合程度最好。另外，XGBoost11的散點(diǎn)分布較XGBoost10更靠近擬合線，分布更均勻,所以準(zhǔn)確選取合適的參數(shù)組合對(duì)ET0的估算至關(guān)重要。綜上可知，當(dāng)輸入本地融合鄰站氣象數(shù)據(jù)時(shí)，各模型可成功估算目標(biāo)站點(diǎn)的ET0，且具有較好表現(xiàn)。但只采用氣象因子ET0-ex作為輸入?yún)?shù)時(shí)性價(jià)比最高，而且XGBoost9的性能優(yōu)于SVM9。

圖3 測試期吉安站ET0模擬值與估算值的散點(diǎn)圖(本地與鄰站數(shù)據(jù)結(jié)合)Fig.3 Scatter plot of measured and estimated values of ET0 at Ji’an station during testing phase (local and cross-station)

2.3 2種機(jī)器學(xué)習(xí)模型綜合性能的比較

以吉安站為例，對(duì)2種機(jī)器學(xué)習(xí)模型(SVM1～17和XGBoost1～17)在不同輸入?yún)?shù)條件下的估算性能進(jìn)行綜合分析，并繪制由FAO-56 PM模型計(jì)算的ET0及SVM和XGBoost模型測試期所估算ET0差值的箱線圖，結(jié)果見圖4。從圖4可以看出，以ET0差值的中位值來看，各模型表現(xiàn)存在偏差，其中SVM1、SVM3、SVM10、SVM16、SVM17、XGBoost1和XGBoost3對(duì)ET0的估算偏差較大，SVM6、SVM8、SVM14、XGBoost6和XGBoost8的表現(xiàn)較為穩(wěn)定。從四分位線來看，除SVM1、SVM3、XGBoost1、XGBoost3、XGBoost16和XGBoost17外，其他模型之間差異較小。在極值方面，SVM1所模擬極小值效果不佳，SVM7表現(xiàn)最優(yōu)；而XGBoost模型均能模擬出標(biāo)準(zhǔn)極值，其中以XGBoost6整體表現(xiàn)最為穩(wěn)定，各種誤差值均較穩(wěn)定地接近于0。本地融合鄰站氣象數(shù)據(jù)作為輸入時(shí)，各模型性能較本地輸入時(shí)略顯穩(wěn)定，但前者所需數(shù)據(jù)集更多。

S1～S17分別表示模型SVM1～SVM17，X1～X17分別表示模型XGBoost1～XGBoost17。圖5同S1-S17 represent SVM1-SVM17 models,X1-X17 represent XGBoost1-XGBoost17 models.The same for Fig.5

圖5繪制了吉安站各模型RMSE值的變化情況。圖5表明，在訓(xùn)練期，XGBoost模型在對(duì)應(yīng)組合下的穩(wěn)定性均優(yōu)于SVM模型，且XGBoost10～XGBoost15的穩(wěn)定性較XGBoost16和XGBoost17更優(yōu)，RMSE更接近于0。但在測試期，各模型的RMSE值均顯著增加，存在過度擬合問題。SVM模型中，SVM6和XGBoost6的穩(wěn)定性最佳，且兩者穩(wěn)定性相差不大。采用Tmax、Tmin、Rs作為輸入?yún)?shù)時(shí)RMSE值較低。另外，XGBoost模型的數(shù)據(jù)處理速度優(yōu)于SVM模型，計(jì)算時(shí)間較SVM模型少。根據(jù)散點(diǎn)圖、箱線圖和柱狀圖所表現(xiàn)出來的結(jié)果，綜合評(píng)估XGBoost和SVM模型在2種輸入模式下估算ET0的精度和穩(wěn)定性等，表明使用本地結(jié)合鄰站氣象資料估算目標(biāo)站點(diǎn)ET0月值具有可行性，且推薦使用XGBoost模型，且2種輸入模式下最實(shí)用輸入組合分別為組合Tmax、Tmin、Rs和ET0-ex。

圖5 2種機(jī)器學(xué)習(xí)模型測試期和訓(xùn)練期RMSE值的比較(吉安站)Fig.5 Comparison of RMSE values of two machine learning models during testing and training phases (Ji’an station)

3 討論

Fan等[28]針對(duì)中國不同氣候區(qū)，評(píng)估了SVM和XGBoost等模型估算ET0的潛力，發(fā)現(xiàn)XGBoost模型的估算性能優(yōu)于SVM模型。本研究針對(duì)江西鄱陽湖地區(qū)，使用同一氣候區(qū)內(nèi)本地氣象資料及本地和多個(gè)鄰站ET0等氣象資料結(jié)合的兩種模式，用SVM和XGBoost 2種模型估算ET0，結(jié)果表明，在大多數(shù)參數(shù)組合輸入條件下，XGBoost模型的精度和穩(wěn)定性優(yōu)于SVM模型，與前人的研究結(jié)論[29]相一致。已有學(xué)者使用鄰站數(shù)據(jù)來估算目標(biāo)站點(diǎn)ET0的報(bào)道，如Kisi[16]評(píng)估了MARS和M5 Tree等模型在土耳其使用鄰站數(shù)據(jù)估算ET0的潛力，發(fā)現(xiàn)在缺乏本地輸入和輸出情況下，以MARS模型性能較好。Fan等[30]在江西地區(qū)使用其他15個(gè)站點(diǎn)數(shù)據(jù)估算井岡山站ET0時(shí)發(fā)現(xiàn)，M5 Tree模型的測試期估算精度較訓(xùn)練期提升了1%，與低海拔站點(diǎn)估算結(jié)果差異較小。Wu等[17]在江西地區(qū)使用廬山站與鄱陽湖流域站點(diǎn)進(jìn)行換站研究，得出MARS模型估算性能具有較高的穩(wěn)定性，說明在同一氣候區(qū)，不同海拔站點(diǎn)在換站估算ET0研究中對(duì)模型的估算性能影響較小。另外，針對(duì)本研究站點(diǎn)間距離因素而言，Lu等[31]在鄱陽湖流域估算ET0時(shí)的研究表明，RF和M5 Tree模型的RMSE值隨著換站站點(diǎn)間距離增加而增大，但所得估算精度較好，說明本研究選取的各站點(diǎn)的換站距離具有合理性。

Citakoglu等[32]和Mehdizadeh等[33]進(jìn)行了不同模型在不同區(qū)域估算ET0的研究，表明增加氣象因子U2能提升模型的估算性能，與本研究所得結(jié)論一致。輸入單一風(fēng)速參數(shù)時(shí)模型估算精度不高，但與溫度、輻射等結(jié)合，可提高模型估算精度。此外，地表總輻射Rs是估算江西鄱陽湖地區(qū)ET0的最關(guān)鍵氣象因子，這與Fan等[28]在中國武漢站和廣州站及Feng等[15]在四川地區(qū)的研究結(jié)果相似。然而，Mattar[34]在埃及進(jìn)行的ET0估算研究發(fā)現(xiàn)，U2是最重要的氣象因子，將其添加到基于溫度的估算模型中，所得RMSE值可從10.20 mm/d降到0.58 mm/d。但本研究表明，添加Rs數(shù)據(jù)僅可略微提高ET0估算精度，出現(xiàn)該差異的原因，可能與估算ET0的主要?dú)庀笞兞考捌鋵?duì)ET0的影響在不同區(qū)域間存在差異有關(guān)[35]。

常規(guī)經(jīng)驗(yàn)?zāi)Ｐ蛢H需少量氣象數(shù)據(jù)就可獲得較高的ET0估算精度，但仍存在估算性能被高估或低估的現(xiàn)象[36-37]。本研究表明，SVM和XGBoost模型在江西省吉安站和鄱陽站ET0估算運(yùn)用中，存在一定程度上的低估現(xiàn)象。這可能是由于測試期的平均溫度較訓(xùn)練期有所提高，使得ET0增大，導(dǎo)致模型存在低估現(xiàn)象。ET0受氣候影響較大，馮禹等[38]使用不同模型對(duì)四川中部不同區(qū)域的ET0進(jìn)行了估算，結(jié)果表明地理、人類活動(dòng)等因素會(huì)對(duì)ET0的估算產(chǎn)生差異性影響，但在同一氣候區(qū)仍可以進(jìn)行換站研究。

4 結(jié) 論

1)在江西鄱陽湖地區(qū)，使用本地氣象資料來估算ET0時(shí)，綜合測試期和訓(xùn)練期2個(gè)時(shí)期來看，XGBoost模型的性能略優(yōu)于SVM模型。采用Tmax、Tmin、Rs作為輸入?yún)?shù)時(shí)，其估算性能的性價(jià)比最高，測試期R2值均大于0.98。因此在使用本地氣象資料估算ET0時(shí)，在江西地區(qū)推薦使用XGBoost模型。

2)將本地與鄰站數(shù)據(jù)相結(jié)合，可成功估算目標(biāo)站點(diǎn)的ET0值，此時(shí)推薦使用XGBoost模型，且只采用氣象因子ET0-ex作為輸入?yún)?shù)時(shí)性價(jià)比最高，即數(shù)據(jù)量最少且估算性能高，R2值均大于0.97。因此，在本研究中的同一區(qū)域或其他相類似條件的氣候區(qū)中，當(dāng)部分站點(diǎn)缺少正常氣象資料時(shí)，可將本地與鄰站數(shù)據(jù)相結(jié)合，使用XGBoost模型來估算ET0。

3)選擇合理的氣象因子組合對(duì)ET0的準(zhǔn)確估算十分重要。Tmax和Tmin是估算ET0研究的最基本因子，增加U2因子會(huì)略微提高研究模型的估算性能，因子Rs的重要性高于RH，但增加輸入多余低效因子會(huì)使模型運(yùn)算量加大從而降低模型的估算性能。因此，本研究推薦使用XGBoost模型來估算ET0，且2種輸入模式下推薦輸入組合分別為Tmax、Tmin、Rs和ET0-ex。

在本研究中，僅使用幾種常規(guī)氣象因子作為輸入，且運(yùn)用了鄰站ET0等氣象資料，之后的研究可進(jìn)一步引用其他氣象因子，如日照時(shí)數(shù)、降雨量等，分析其對(duì)模型估算ET0的影響。另外，還需要研究站點(diǎn)間距離、所屬省份和氣候?qū)δＰ瓦m用性的影響。此外，還可以開發(fā)一些新混合機(jī)器學(xué)習(xí)模型，比如使用粒子群算法(particle swarm optimization，PSO)來優(yōu)化SVM，或?qū)?種模型進(jìn)行耦合，以獲得更高的ET0估算精度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡