蓋長(zhǎng)松,曹麗娟,陽(yáng)園燕,3
(1.中國(guó)氣象局氣候資源經(jīng)濟(jì)轉(zhuǎn)化重點(diǎn)開(kāi)放實(shí)驗(yàn)室,重慶市氣象信息與技術(shù)保障中心,重慶 401147;2.國(guó)家氣象信息中心,北京 100081;3.重慶市氣象科學(xué)研究所,重慶 401147)
全球變暖對(duì)天氣氣候系統(tǒng)產(chǎn)生重要影響,IPCC第6次評(píng)估報(bào)告指出,未來(lái)每0.5 ℃的升溫都會(huì)干擾包括極端高溫、降水等在內(nèi)的極端天氣氣候事件發(fā)生頻率與規(guī)模(嚴(yán)中偉等,2020;唐懿等,2022),特別是中國(guó)西南地區(qū)尤為明顯(伍清等,2018;曾劍等,2022),而長(zhǎng)時(shí)間序列的氣溫資料能夠有效反映氣候冷暖變化程度,是判斷極端天氣氣候事件強(qiáng)度的重要指標(biāo)(Cao et al.,2017;馮蜀青等;2019;金紅梅等,2019)。同時(shí),氣溫也是陸面過(guò)程模型、數(shù)值預(yù)報(bào)模式等的重要輸入?yún)⒘浚哔|(zhì)量、高精度的長(zhǎng)時(shí)間序列氣溫資料有利于模式模擬和預(yù)報(bào)水平的提升。因此,對(duì)氣溫觀測(cè)數(shù)據(jù)進(jìn)行插補(bǔ)、質(zhì)量控制及偏差訂正,提升數(shù)據(jù)完整性、質(zhì)量及均一性,是氣象觀測(cè)系統(tǒng)發(fā)展的重點(diǎn)(吳國(guó)雄等,2014;廖捷和周自江,2018)。
針對(duì)氣溫序列數(shù)據(jù)插補(bǔ)訂正的研究成果較多,通常歷史長(zhǎng)年代際的氣溫序列數(shù)據(jù)插補(bǔ)多依靠歷史文獻(xiàn)、冰芯和樹(shù)木年輪等代用資料及統(tǒng)計(jì)方法(丁玲玲等,2013;鄭景云等,2014;鄭景云等,2015;劉炳濤等,2018;鄧國(guó)富和李明啟,2021)。余君等(2018)采用貝葉斯方法,對(duì)中國(guó)北疆地區(qū)8條樹(shù)輪氣溫重建資料、器測(cè)資料與CMIP5(Coupled Model Intercomparison Project Phase 5)模式資料進(jìn)行融合試驗(yàn),發(fā)現(xiàn)該方法能夠糾正先驗(yàn)分布及氣候模擬數(shù)據(jù)的明顯偏差。對(duì)于實(shí)際觀測(cè)的氣溫?cái)?shù)據(jù)多采用單站資料或多站資料聯(lián)合方式,結(jié)合標(biāo)準(zhǔn)序列法(Degaetano et al., 1995;余予等,2012)、回歸分析(王海軍等,2008;楊青等,2009;陳鵬翔等,2014)、SVD(Singular Value Decomposition)迭代(張永領(lǐng)等,2006)、偏最小二乘法(李慶祥等,2008)、最優(yōu)配對(duì)分段插補(bǔ)(黃蓉等,2014)等方法,建立氣溫插補(bǔ)訂正模型,實(shí)現(xiàn)對(duì)日、月、年等時(shí)間尺度的氣溫序列插補(bǔ)。閆麗莉等(2019)采用多站聯(lián)合方式,建立線性回歸插補(bǔ)模型,對(duì)唐山逐小時(shí)氣溫觀測(cè)序列進(jìn)行插補(bǔ)重建,結(jié)果表明該方法重建序列誤差在±0.8 ℃范圍內(nèi)的比例為80.3%,平均絕對(duì)誤差為0.84 ℃。在百年站氣溫要素序列重建方面,基于傳統(tǒng)統(tǒng)計(jì)方法與資料的同時(shí),部分研究還引入了再分析資料(彭嘉棟等,2014;司鵬等,2017;肖晶晶等,2021;杜澤玉等,2021;司鵬等,2022)。劉蕾等(2022)基于本站氣溫觀測(cè)資料,聯(lián)合使用英國(guó)CRU(Climatic Research Unit)格點(diǎn)氣溫資料作為補(bǔ)充和對(duì)比,采用多元逐步回歸模型,重建了蕪湖站百年(1880—2020年)月平均氣溫序列,結(jié)果表明近140 a來(lái)蕪湖春、夏、冬季增溫顯著,但近20 a增溫有所停滯,存在40~50 a和20~30 a的變化周期。隨著機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等大數(shù)據(jù)技術(shù)的發(fā)展,該類(lèi)技術(shù)也逐漸應(yīng)用于氣溫序列數(shù)據(jù)插補(bǔ)中。鄭欣彤等(2022)基于編碼—解碼結(jié)構(gòu)的序列—序列深度學(xué)習(xí)結(jié)構(gòu)(BiLSTM-I),利用同一區(qū)域較低時(shí)頻的人工觀測(cè)氣溫序列數(shù)據(jù)搭建插補(bǔ)模型,重建了野外小氣象站30 min時(shí)間尺度的氣溫序列數(shù)據(jù),并與BRTS-I和卡爾曼方法的重建結(jié)果相比較,發(fā)現(xiàn)BiLSTM-I方法在氣溫插補(bǔ)方面有良好的適用性。孟欣寧等(2020)應(yīng)用隨機(jī)森林模型整合中亞地區(qū)65個(gè)氣象站逐日最高氣溫?cái)?shù)據(jù)和ERA-Interim再分析資料以及經(jīng)緯度、海拔數(shù)據(jù),構(gòu)建插補(bǔ)方案,補(bǔ)全了氣象站觀測(cè)缺失值,并插值得到中亞1979—2016年逐日最高氣溫格點(diǎn)數(shù)據(jù)集(空間分辨率為0.75°×0.75°)。
上述研究大多針對(duì)單站或區(qū)域內(nèi)氣溫資料開(kāi)展的單一統(tǒng)計(jì)學(xué)或機(jī)器學(xué)習(xí)插補(bǔ)方法的應(yīng)用,缺乏同一區(qū)域內(nèi)上述多類(lèi)插補(bǔ)方法的對(duì)比研究,同時(shí)也較少考慮地形地貌對(duì)插補(bǔ)方法的影響。鑒于此,本文基于中國(guó)西南地區(qū)氣象站點(diǎn)逐日及逐月平均氣溫?cái)?shù)據(jù),綜合臺(tái)站及其所處區(qū)域的高程、坡度坡向、地表覆蓋類(lèi)型、地形起伏度和氣候區(qū)等信息,開(kāi)展空間回歸、標(biāo)準(zhǔn)序列法與隨機(jī)森林等3種插補(bǔ)方法在西南地區(qū)的適用性分析,以期為該區(qū)域長(zhǎng)序列、高質(zhì)量基礎(chǔ)數(shù)據(jù)產(chǎn)品研制提供科學(xué)支撐。
選取1970—2020年川、渝、滇、黔4?。ㄊ校┤掌骄鶜鉁?cái)?shù)據(jù),數(shù)據(jù)來(lái)源于中國(guó)地面氣象站均一化氣溫日值數(shù)據(jù)集,經(jīng)過(guò)內(nèi)部一致性、氣候界限值、時(shí)間一致性檢查等數(shù)據(jù)質(zhì)量控制以及序列均一化檢驗(yàn)與訂正(Cao et al., 2016)。百年站氣溫?cái)?shù)據(jù)來(lái)自中國(guó)近百年均一化氣溫?cái)?shù)據(jù)集(Cao et al., 2017)。觀測(cè)站點(diǎn)的坡度、坡向來(lái)自ASTER-GDEM V3數(shù)據(jù)集,本文將坡度(S)分為5級(jí):S≤2°為1級(jí),2°<S≤6°為2級(jí),6°<S≤15°為3級(jí),15°<S≤25°為4級(jí),S>25°為5級(jí)。地形起伏度來(lái)自中國(guó)地形起伏度公里網(wǎng)格數(shù)據(jù)集(https://geodoi.ac.cn/WebCn/doi.aspx?Id=887)。地表覆蓋類(lèi)型來(lái)自全球地表覆蓋遙感制圖數(shù)據(jù)集(GlobeLand30 V2020,http://www.webmap.cn/mapDataAction.do?method=globalLandCover),地表覆蓋包括耕地、林地、草地、灌木地、濕地、水體、苔原、人造地表、裸地、冰川和永久積雪10種類(lèi)型,空間分辨率30 m。
中國(guó)西南地區(qū)包括川、渝、滇、黔四?。ㄊ校摰貐^(qū)地形地貌復(fù)雜、氣候類(lèi)型豐富,分布著川藏高山峽谷區(qū)、云貴高原、四川盆地、湘鄂西山區(qū)、秦巴山區(qū)等,自西北向東南依次為亞寒帶、溫帶、中亞熱帶及南亞熱帶濕潤(rùn)和半濕潤(rùn)區(qū),氣候區(qū)劃(鄭景云等,2010)及氣象站點(diǎn)分布如圖1所示。從圖1看出,四川盆地及其周邊氣候區(qū)內(nèi)氣象站點(diǎn)分布最密,云貴高原及其周邊次之,而川西北高原、橫斷山脈等地區(qū)氣候區(qū)內(nèi)氣象站點(diǎn)分布最為稀疏。本文研究范圍主要為氣象站點(diǎn)分布較為密集的川西南滇北山地中亞熱帶濕潤(rùn)區(qū)(VATb-c,簡(jiǎn)稱“川西南滇北山地”)、滇西山地滇中高原中亞熱帶濕潤(rùn)區(qū)(VATc-d,簡(jiǎn)稱“滇西山地滇中高原”)、貴州高原山地中亞熱帶濕潤(rùn)區(qū)(VATd-e,簡(jiǎn)稱“貴州高原山地”)、四川盆地中亞熱帶濕潤(rùn)區(qū)(VATe-f,簡(jiǎn)稱“四川盆地”)和湘鄂西山地中亞熱帶濕潤(rùn)區(qū)(VATf,簡(jiǎn)稱“湘鄂西山地”)等5個(gè)區(qū)域。西南地區(qū)?。ㄊ校┬姓吔缁趪?guó)家自然資源部標(biāo)準(zhǔn)地圖服務(wù)網(wǎng)下載的審圖號(hào)為GS(2023)2767號(hào)的標(biāo)準(zhǔn)地圖制作,底圖無(wú)修改。
圖1 中國(guó)西南地區(qū)氣候分區(qū)(鄭景云等,2010)與氣象站點(diǎn)分布Fig.1 The climatic divisions (Zheng et al., 2010) and distribution of meteorological observation stations in southwestern China
首先,以研究區(qū)域內(nèi)某一氣象觀測(cè)站為目標(biāo)站,以100 km為半徑,其內(nèi)所有觀測(cè)站初步設(shè)定為該目標(biāo)站的參考站;然后,將海拔高度納入到參考站的篩選條件中,當(dāng)目標(biāo)站海拔高度小于(大于)1 500 m時(shí),選定的參考站與目標(biāo)站的海拔高差需小于350 m(500 m)。按照此原則,上述5個(gè)氣候區(qū)內(nèi)目標(biāo)站與參考站分布情況見(jiàn)表1。
表1 5個(gè)氣候區(qū)內(nèi)目標(biāo)站與參考站數(shù)量Tab.1 The numbers of target and reference stations in five climatic divisions
應(yīng)用空間回歸、標(biāo)準(zhǔn)序列法和隨機(jī)森林3種插補(bǔ)方法,對(duì)中國(guó)西南地區(qū)5個(gè)氣候區(qū)內(nèi)觀測(cè)站日平均氣溫與2個(gè)百年站月平均氣溫進(jìn)行插補(bǔ)試驗(yàn),并對(duì)插補(bǔ)結(jié)果進(jìn)行檢驗(yàn)評(píng)估。
(1)空間回歸插補(bǔ)方法
該方法基于Hubbard等(2007)的空間回歸質(zhì)量控制算法,圍繞目標(biāo)站與參考站的均方根誤差序列建立的一種插補(bǔ)方案。其步驟:首先,對(duì)參考站與目標(biāo)站的觀測(cè)要素進(jìn)行相關(guān)分析,剔除未通過(guò)α=0.05顯著性檢驗(yàn)且相關(guān)系數(shù)小于0.5的參考站;其次,建立目標(biāo)站與參考站觀測(cè)要素的回歸方程,并計(jì)算構(gòu)建參考站的均方根誤差序列;最后,計(jì)算基于加權(quán)的目標(biāo)站觀測(cè)要素估計(jì)值。計(jì)算公式如下:
截至2018年9月底,培訓(xùn)班已經(jīng)完成22期,學(xué)員超過(guò)460人,培訓(xùn)也已經(jīng)進(jìn)入第四輪。而且,隨著培訓(xùn)班一輪輪積累經(jīng)驗(yàn),課程設(shè)計(jì)也日益完善。
式中:i為參考站序號(hào);n為參考站數(shù)量;j為日期序號(hào);m為日數(shù);xij為第i參考站第j日平均氣溫觀測(cè)值;?、xj分別為目標(biāo)站第j日平均氣溫估計(jì)值與觀測(cè)值;ai、bi是第i參考站的回歸系數(shù);ei為第i參考站平均氣溫的均方根誤差;k為回歸方程的階數(shù),本文取值為1;?'j是基于加權(quán)(參考站)的目標(biāo)站第j日平均氣溫估計(jì)值。
(2)標(biāo)準(zhǔn)序列插補(bǔ)方法
該方法是基于目標(biāo)站和參考站觀測(cè)要素?cái)?shù)據(jù)的多年均值序列與標(biāo)準(zhǔn)差序列建立的插補(bǔ)方法,計(jì)算公式如下:
(3)隨機(jī)森林插補(bǔ)方法
該方法是基于機(jī)器學(xué)習(xí)采用Scikit-Learn建立的一種插補(bǔ)方法。其中,隨機(jī)森林模擬器決策樹(shù)數(shù)量為100,迭代深度為5,以均方誤差(Mean Squared Error,MSE)值作為節(jié)點(diǎn)分割指標(biāo)。在特征值設(shè)定上,除觀測(cè)值信息外,還納入了參考站經(jīng)緯度、地表覆蓋類(lèi)型和坡度坡向以及觀測(cè)日期等信息。計(jì)算流程:依據(jù)前面空間回歸插補(bǔ)方法中已得到的目標(biāo)站及其對(duì)應(yīng)的參考站序列,以逐站增加的方式建立多個(gè)不同特征值序列,如若該目標(biāo)站有n個(gè)參考站,則對(duì)應(yīng)分別建立n組特征值序列;對(duì)由每一組特征值序列構(gòu)成的數(shù)據(jù)集按照3∶7的比例分成訓(xùn)練集和測(cè)試集,其中訓(xùn)練集數(shù)據(jù)輸入隨機(jī)森林回歸器進(jìn)行訓(xùn)練并生成回歸器模型,再將測(cè)試集數(shù)據(jù)輸入該模型,以生成插補(bǔ)計(jì)算結(jié)果,即可獲得不同參考站組合條件下隨機(jī)森林插補(bǔ)結(jié)果。具體流程如圖2所示。
圖2 隨機(jī)森林插補(bǔ)方案流程圖Fig.2 The flowchart of random forest interpolation scheme
采用平均絕對(duì)誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error, RMSE)(黃嘉佑,2004)以及誤差位于±0.5 ℃和±0.8 ℃區(qū)間的樣本數(shù)與總樣本數(shù)的比值(分別記為P0.5和P0.8)作為評(píng)估指標(biāo)(插補(bǔ)精度),對(duì)上述3種方法插補(bǔ)結(jié)果進(jìn)行精度檢驗(yàn)。
圖3是中國(guó)西南地區(qū)5個(gè)氣候區(qū)日平均氣溫3種插補(bǔ)方法P0.5、P0.8檢驗(yàn)指標(biāo)與參考站數(shù)量的關(guān)系??梢钥闯?,5個(gè)氣候區(qū)3種插補(bǔ)方法的P0.5、P0.8變化具有一致性,起初均隨參考站數(shù)量增加迅速增大,當(dāng)參考站為5~8個(gè)時(shí)擬合結(jié)果較好,之后變化較為平緩,表明參考站數(shù)的增加有助于提高插補(bǔ)精度,整體上最優(yōu)參考站數(shù)為7。從P0.8指標(biāo)變化曲線來(lái)看,3種方法在四川盆地的日平均氣溫插補(bǔ)精度基本在0.90左右,遠(yuǎn)高于其他區(qū)域,貴州高原山地、湘鄂西山地和滇西山地滇中高原插補(bǔ)精度依次降低(0.70~0.80),而川西南滇北山地插補(bǔ)精度最低(0.60~0.70)。對(duì)比發(fā)現(xiàn),各氣候區(qū)3種方法的日平均氣溫插補(bǔ)精度P0.5均小于P0.8。其中,四川盆地空間回歸和標(biāo)準(zhǔn)序列方法的插補(bǔ)精度P0.5最高,基本都在0.70以上,而隨機(jī)森林方法的P0.5為0.45~0.70;貴州高原山地和湘鄂西山地3種方法的插補(bǔ)精度P0.5都為0.50~0.70,而滇西山地滇中高原和川西南滇北山地最小為0.40~0.60。3種插補(bǔ)方法對(duì)比來(lái)看,空間回歸方法的插補(bǔ)精度在5個(gè)氣候區(qū)基本都是最高,尤其在貴州高原山地和湘鄂西山地。
圖3 1970—2020年中國(guó)西南地區(qū)5個(gè)氣候區(qū)日平均氣溫3種方法插補(bǔ)精度與參考站數(shù)量的關(guān)系(a)滇西山地滇中高原,(b)貴州高原山地,(c)四川盆地,(d)湘鄂西山地,(e)川西南滇北山地Fig.3 The relation between the accuracy of daily mean temperature interpolated by three methods and numbers of reference stations in five climatic divisions in southwestern China from 1970 to 2020(a) western Yunnan mountains and central Yunnan plateau, (b) mountainous region of Guizhou plateau, (c) Sichuan Basin,(d) mountainous region of western Hunan and western Hubei, (e) mountainous region of southwestern Sichuan and northern Yunnan
表2是以7為最優(yōu)參考站數(shù)條件下西南地區(qū)5個(gè)氣候區(qū)3種氣溫插補(bǔ)方法的MAE和RMSE。總體來(lái)看,隨機(jī)森林方法插補(bǔ)的氣溫MAE和RMSE均最小,分別為0.15~0.26 ℃、0.35~0.62 ℃,標(biāo)準(zhǔn)序列方法插補(bǔ)誤差最大,且兩種誤差具有同步性;川西南滇北山地氣溫插補(bǔ)誤差最大,其次是滇西山地滇中高原,四川盆地最小。
表2 最優(yōu)參考站數(shù)量條件下1970—2020年中國(guó)西南地區(qū)各氣候區(qū)3種氣溫插補(bǔ)方法的MAE與RMSETab.2 The MAE and RMSE of temperature with three interpolation methods under the optimal numbers of reference stations in five climatic divisions in southwestern China from 1970 to 2020 單位:℃
3種方法的氣溫插補(bǔ)精度與下墊面有關(guān),西南地區(qū)多山地高原,平壩、河谷、山嶺縱橫其間,地形起伏大。地形起伏度是表征下墊面地貌狀況的重要指標(biāo)(馬士彬和安裕倫,2012)。經(jīng)統(tǒng)計(jì),5個(gè)氣候區(qū)區(qū)域平均地形起伏度為0.90~3.13,站點(diǎn)平均起伏度為0.59~2.20,川西南滇北山地起伏度最大,其次是滇西山地滇中高原,四川盆地最?。ū?),即盆地地勢(shì)最為平坦,而川西南滇北山地地勢(shì)最為崎嶇。
表3 中國(guó)西南地區(qū)5個(gè)氣候區(qū)站點(diǎn)及區(qū)域平均地形起伏度Tab.3 The station and regional average relief in five climatic divisions in southwestern China
這一地貌分布狀況也可以從坡度變化看出,四川盆地、湘鄂西山地、貴州高原山地坡度大部分在3級(jí)以下(S≤15°),而川西南滇北山地、滇西山地滇中高原坡度大部分在4級(jí)以下(S≤25°)。其中,四川盆地54%的格點(diǎn)坡度為1級(jí)(S≤2°),占比最大,其次為2級(jí)(2°<S≤6°),占比為27%;貴州高原山地和湘鄂西山地坡度大多為2級(jí),占比分別為49%和43%,前者其次為1級(jí),占比32%,后者其次為3級(jí)(6°<S≤15°),占比33%;川西南滇北山地、滇西山地滇中高原近40%的格點(diǎn)坡度為3級(jí),其次是2級(jí),占比分別為31%、34%[圖4(a)]??傮w來(lái)看,地形起伏程度自四川盆地、貴州高原山地、湘鄂西山地、滇西山地滇中高原、川西南滇北山地逐漸增大。另外,從各氣候區(qū)站點(diǎn)坡度分級(jí)情況[圖4(b)]看出,各站點(diǎn)坡度均在3級(jí)以下,四川盆地、滇西山地滇中高原60%以上的測(cè)站坡度為1級(jí),占比最高,而川西南滇北山地的站點(diǎn)坡度大多也為1級(jí),占比41%;貴州高原山地站點(diǎn)坡度以1級(jí)和2級(jí)為主,2級(jí)占比略高于1級(jí),而湘鄂西山地的站點(diǎn)坡度2級(jí)占比最大,其次為3級(jí)。
圖4 中國(guó)西南地區(qū)5個(gè)氣候區(qū)區(qū)域(a)及站點(diǎn)(b)平均坡度等級(jí)占比Fig.4 The proportion of regional (a) and station (b) average slope grades in five climatic divisions in southwestern China
上述分析可見(jiàn),各氣候區(qū)下墊面狀況對(duì)3種方法日平均氣溫插補(bǔ)精度影響明顯,下墊面越平坦,插補(bǔ)精度越高,四川盆地及其測(cè)站平均地形起伏度最小,坡度等級(jí)最低,其插補(bǔ)精度曲線變化較平緩,精度也最高;下墊面崎嶇地區(qū)氣溫插補(bǔ)精度曲線變化較大,插補(bǔ)精度有所下降,如川西南滇北山地和滇西山地滇中高原,2個(gè)氣候區(qū)平均地形起伏度都在3.00以上,且坡度在3級(jí)以上的占比約50%,但站點(diǎn)平均起伏度在2級(jí)以上的占比前者(59%)遠(yuǎn)高于后者(40%),因而氣溫插補(bǔ)精度曲線的波動(dòng)前者比后者明顯,前者插補(bǔ)精度相對(duì)更低;湘鄂西山地與貴州高原山地的區(qū)域平均地形起伏度相似,站點(diǎn)平均地形起伏度前者略低于后者,但前者區(qū)域平均坡度在3級(jí)以上的占比(36%)遠(yuǎn)大于后者(19%),且站點(diǎn)平均坡度為3級(jí)的占比前者(32%)也遠(yuǎn)高于后者(10%),故湘鄂西山地氣溫插補(bǔ)精度曲線相對(duì)貴州高原山地有一定的波動(dòng)。
此外,還統(tǒng)計(jì)了5個(gè)氣候區(qū)及其站點(diǎn)下墊面地表覆蓋情況(圖5),發(fā)現(xiàn)5個(gè)氣候區(qū)下墊面都以耕地、林地、草地為主,而觀測(cè)站大都修建于城鎮(zhèn),故而所處的地表覆蓋類(lèi)型大部分為人造地表,表明西南地區(qū)觀測(cè)站的地表覆蓋狀況對(duì)氣溫插補(bǔ)結(jié)果影響不明顯。
圖5 中國(guó)西南地區(qū)5個(gè)氣候區(qū)區(qū)域(a)及站點(diǎn)(b)地表覆蓋類(lèi)型占比Fig.5 The proportion of regional (a) and station (b) land cover types in five climatic divisions in southwestern China
采用上述3種插補(bǔ)方法,對(duì)中國(guó)西南地區(qū)重慶市北碚和四川省犍為2個(gè)百年站的歷史月平均氣溫?cái)?shù)據(jù)進(jìn)行插補(bǔ)試驗(yàn),其中以各站為中心100 km內(nèi)與目標(biāo)站高度差小于300 m的其他百年站作為參考站。
圖6是基于空間回歸和標(biāo)準(zhǔn)序列2種方法插補(bǔ)的犍為和北碚站月平均氣溫P0.5、P0.8檢驗(yàn)指標(biāo)與參考站數(shù)量的關(guān)系。整體來(lái)看,2種方法的月平均氣溫插補(bǔ)精度隨參考站數(shù)增加都保持著較高精度,P0.5、P0.8值皆在0.90以上,但2站隨參考站數(shù)增加變化不一致,當(dāng)參考站數(shù)為5時(shí),2種方法插補(bǔ)精度相對(duì)最高。因此,以5作為最優(yōu)參考站數(shù),則該條件下北碚站空間回歸和標(biāo)準(zhǔn)序列方法插補(bǔ)的月平均氣溫RMSE(MAE)分別為0.211(0.149)、0.223(0.171),犍為站分別為0.187(0.130)、0.225(0.159),誤差較小,2種方法具有較好的插補(bǔ)效果。
圖6 犍為(a)和北碚(b)站2種方法插補(bǔ)的月平均氣溫P0.5與P0.8檢驗(yàn)指標(biāo)與參考站數(shù)量的關(guān)系Fig.6 The relation between P0.5, P0.8 test indexes of monthly mean temperature with two interpolation methods and numbers of reference station at Qianwei (a) and Beibei (b) stations
依據(jù)上述最優(yōu)參考站數(shù)(5個(gè)),將2站的經(jīng)緯度、坡度坡向和地表覆蓋信息作為特征值輸入,在樣本總量不變、訓(xùn)練集和測(cè)試集分割比例固定條件下進(jìn)行4次隨機(jī)森林插補(bǔ)試驗(yàn),每次參與試驗(yàn)的樣本隨機(jī)。圖7是犍為和北碚站基于隨機(jī)森林方法的月平均氣溫插補(bǔ)值與觀測(cè)差值隨樣本數(shù)的變化,發(fā)現(xiàn)絕大部分樣本氣溫插補(bǔ)值與觀測(cè)的差值在±0.5 ℃以內(nèi),犍為和北碚站月平均氣溫插補(bǔ)的RMSE(MAE)分別為0.147(0.061)、0.142(0.060),P0.8(P0.5)分別為0.98(0.95)、0.99(0.95),誤差小且位于±0.5 ℃和±0.8 ℃區(qū)間的樣本數(shù)占比高,表明隨機(jī)森林插補(bǔ)方法對(duì)于具有連續(xù)屬性的氣溫序列數(shù)據(jù)具有較好的擬合能力。
圖7 隨機(jī)森林方法插補(bǔ)的犍為和北碚站月平均氣溫與觀測(cè)差值隨樣本數(shù)的變化(a)第1次試驗(yàn),(b)第2次試驗(yàn),(c)第3次試驗(yàn),(4)第4次試驗(yàn)Fig.7 The variation of difference between monthly mean temperature interpolated by random forest method and observation with sample numbers at Qianwei and Beibei stations(a) the first test, (b) the second test, (c) the third test, (d) the forth test
為進(jìn)一步判斷百年站氣溫序列數(shù)據(jù)中極值對(duì)隨機(jī)森林插補(bǔ)方法的影響,分別將12、1月和7、8月作為出現(xiàn)極端低溫和高溫的月份(簡(jiǎn)稱“極值月”),以4次插補(bǔ)試驗(yàn)中超出±0.5 ℃的數(shù)據(jù)作為極值,分別統(tǒng)計(jì)2站每次試驗(yàn)中極值出現(xiàn)于極值月的樣本量及其占比(與極值總樣本量的百分比),占比越大表明序列中的極值對(duì)插補(bǔ)方法的影響也越大。圖8是隨機(jī)森林方法4次插補(bǔ)試驗(yàn)的極值位于極值月的樣本量占比,發(fā)現(xiàn)犍為站70%以上的極值出現(xiàn)在極值月,而北碚站極值出現(xiàn)在極值月的樣本量占比相對(duì)較低,平均在50%左右,表明氣溫觀測(cè)序列中的極值對(duì)插補(bǔ)方法有一定影響,犍為站序列中的極值較北碚站影響更大,即隨機(jī)森林插補(bǔ)方法不能完全擬合氣溫觀測(cè)序列中的極值。這說(shuō)明還需要進(jìn)一步優(yōu)化該方法中的特征值和超參數(shù)設(shè)置,其中本文超參數(shù)設(shè)置未進(jìn)行迭代優(yōu)化而是采用固定值,一定程度上影響了插補(bǔ)能力,而特征值選擇上,雖然引入經(jīng)緯度、坡度坡向、地表覆蓋等地形地貌信息,但仍有其他相關(guān)要素有待挖掘。因此,通過(guò)上述兩方面優(yōu)化,可以進(jìn)一步提高隨機(jī)森林插補(bǔ)方法精度和適用性。
圖8 隨機(jī)森林方法4次月平均氣溫插補(bǔ)試驗(yàn)極值出現(xiàn)在極值月的樣本量占比Fig.8 The proportion of extreme temperature samples in extreme value months to all samples of extreme value in four interpolation tests with random forest method
應(yīng)用標(biāo)準(zhǔn)序列法、空間回歸和隨機(jī)森林3種方法,對(duì)中國(guó)西南地區(qū)5個(gè)主要?dú)夂騾^(qū)內(nèi)觀測(cè)站的日平均氣溫序列數(shù)據(jù)及北碚、犍為2個(gè)百年站的月平均氣溫序列數(shù)據(jù)進(jìn)行插補(bǔ)試驗(yàn),發(fā)現(xiàn)3種方法對(duì)西南地區(qū)5個(gè)氣候區(qū)各站點(diǎn)氣溫日均值序列數(shù)據(jù)和百年站氣溫月均值序列數(shù)據(jù)插補(bǔ)精度較高,但地形因素的影響不容忽略,主要結(jié)論如下:
(1)3種方法對(duì)中國(guó)西南地區(qū)5個(gè)氣候區(qū)日平均氣溫和2個(gè)百年站月平均氣溫的插補(bǔ)效果較好,整體上空間回歸方法的插值精度最高、適用性最好,無(wú)論在地形相對(duì)平坦的四川盆地,還是在地形較為崎嶇的川西南滇北山地,空間回歸方法的插補(bǔ)精度相較其他兩種方法高,日平均氣溫插補(bǔ)的P0.8在四川盆地約0.90,在川西南滇北山地在0.60以上。
(2)不同氣候區(qū)日平均氣溫插補(bǔ)精度隨參考站數(shù)增加變化特征雖有不同,但大都在5~8站時(shí)插補(bǔ)精度較高,最優(yōu)參考站數(shù)可有效降低插補(bǔ)誤差。下墊面狀況對(duì)3種方法氣溫插補(bǔ)精度影響明顯,下墊面越平坦,插補(bǔ)精度越高,地勢(shì)較平坦的四川盆地插補(bǔ)精度遠(yuǎn)高于地勢(shì)較為崎嶇的滇西山地滇中高原、川西南滇北山地等區(qū)域。
(3)隨機(jī)森林插補(bǔ)方法對(duì)于具有連續(xù)屬性的氣溫序列數(shù)據(jù)具有較好的擬合能力,絕大部分樣本的氣溫插補(bǔ)值與觀測(cè)差值在±0.5 ℃以內(nèi),但不能完全擬合序列中的極大值,未來(lái)還需要通過(guò)迭代優(yōu)化等技術(shù)進(jìn)一步優(yōu)化該方法中的超參數(shù)設(shè)置,同時(shí)結(jié)合氣溫要素特點(diǎn),補(bǔ)充更多的關(guān)聯(lián)特征值。