侯方國,王化光
基于隨機(jī)森林與多源遙感數(shù)據(jù)的青海省降水空間分布
侯方國1,王化光2
1. 河南測繪職業(yè)學(xué)院, 河南 鄭州 450015 2. 西南交通大學(xué), 四川 成都 614200
基于青海省56個(gè)氣象站點(diǎn)2000-2012年平均年降水資料,在地理信息技術(shù)支持下提取由地形()變量(、坡度、坡向、曲率、起伏度)、地表覆被()變量(歸一化植被指數(shù)、植被初級生產(chǎn)力)和海陸位置()變量(經(jīng)度、緯度、經(jīng)緯度乘積)等10個(gè)因子構(gòu)成的協(xié)變量集,運(yùn)用隨機(jī)森林(Randomforest,RF)算法建立區(qū)域降水量空間預(yù)測模型。結(jié)果表明,RF算法結(jié)合多元協(xié)變量集能實(shí)現(xiàn)區(qū)域降水量精確預(yù)測。十折交叉驗(yàn)證顯示,不同輸入變量條件下RF擬合的降水量預(yù)測模型性能排序?yàn)?++>+>>+>+>>,其中++和+模型的2達(dá)到0.893、0.892,僅為12.31、13.55 mm,比其他模型的2提高了0.028~0.102,降低了1.24~12.95 mm,能滿足區(qū)域降水量空間精細(xì)估計(jì)。旨在為低密度氣象站點(diǎn)分布區(qū)的降水量空間分布式信息獲取提供新的技術(shù)參考。
隨機(jī)森林; 遙感; 降水分布
精細(xì)化的降水?dāng)?shù)據(jù)是揭示水文過程、認(rèn)識全球氣候變化的基礎(chǔ)資料,對促進(jìn)氣象災(zāi)害防御、指導(dǎo)水資源管理具有重要意義[1]。然而受復(fù)雜地形、交通可達(dá)性、經(jīng)濟(jì)成本等因素限制,氣象觀測站點(diǎn)通常呈不均勻分布且在地形復(fù)雜、人跡較少地區(qū)分布密度低下,這為獲取廣域尺度降水量分布式信息帶來一定困難。對于該問題,當(dāng)前國內(nèi)外學(xué)者主要開發(fā)了基于地統(tǒng)計(jì)學(xué)的空間插值法(如樣條函數(shù)、IDW、Kriging、Anusplin、地理加權(quán)回歸模型等)和基于環(huán)境變量的回歸模型。其中地統(tǒng)計(jì)學(xué)模型但通常只在高密度站點(diǎn)情況下才有效[1,2],在站點(diǎn)分布稀疏且極不均衡的高寒干旱區(qū),其可靠性有待商榷。為克服該方法的局限性,學(xué)者們提出了基于星地資料的非線性建模方法,以將離散降水量分布信息擴(kuò)展到一定分辨率的柵格尺度。非線性的柵格化方法核心在于構(gòu)建地面觀測降水資料與地表環(huán)境因子間的關(guān)系模型以推廣至精細(xì)尺度[3]。隨著地學(xué)大數(shù)據(jù)發(fā)展,基于機(jī)器學(xué)習(xí)回歸方法被廣泛應(yīng)用于降水量空間預(yù)測研究中。Sekulic A等[4]利用隨機(jī)森林(Randomforest, RF)獲取了Catalonia地區(qū)2016-2018年日降水量分布信息,其模型2達(dá)0.55,為4.6 mm。Paraskevas T等[5]利用人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network, ANN)結(jié)合23個(gè)氣象站點(diǎn)資料建立Greece地區(qū)降水量柵格化模型,模型精度達(dá)65%以上。Zhang X等[6]基于緯度、高程因子建立了三峽庫區(qū)月降水量空間預(yù)測模型,基于31個(gè)地面測站的驗(yàn)證精度為16.85 mm。這些研究表明,非線性建模技術(shù)在處理多維地表因子與降水量變異性過程中具有優(yōu)秀學(xué)習(xí)能力,相對于傳統(tǒng)插值法以及多元回歸法具有潛在的優(yōu)勢,并且不同建模技術(shù)的柵格化精度不同。在眾多非線性空間建模方法中,RF方法具有數(shù)據(jù)容錯(cuò)、魯棒性和防止過擬合的特點(diǎn)因而具有一定優(yōu)勢[6,7]。雖然機(jī)器學(xué)習(xí)方法在部分地區(qū)取得良好應(yīng)用效果,然而在國內(nèi)的降水量柵格化研究中未見報(bào)道。
除建模方法外,協(xié)變量也是影響降水量空間柵格化精度的重要因素之一。目前被廣泛應(yīng)用的降尺度因子主要分為三類:地形因子、海陸位置因子、地表覆被因子。通常地形因子能在小尺度上解釋降水量隨地形起伏、海拔梯度分布的規(guī)律,特別是在復(fù)雜山地區(qū)、盆地河谷地區(qū)能反映地形對降水的再分配效應(yīng)。海陸位置因子則在大尺度上直觀反映距水汽源的距離,解釋了水汽運(yùn)移路徑、季風(fēng)強(qiáng)度的影響。地表覆被是影響地表蒸散發(fā)速率的關(guān)鍵環(huán)境因素,一定程度上反映了大氣水汽與地表水之間的交互作用,常用的地表覆被因子由土地利用、植被指數(shù)等。盡管降尺度因子的物理意義已被廣泛探討,然而不同類型降尺度因子對降水?dāng)?shù)據(jù)柵格化方面的應(yīng)用潛力還未得到充分認(rèn)識。
鑒于上述研究背景,本文以青海省為例,探究基于地面有限站點(diǎn)觀測資料結(jié)合RF算法建立區(qū)域降水量空間柵格化預(yù)測模型的可行性,并比較多元遙感數(shù)據(jù)提取的協(xié)變量對模型性能的影響,以期為降水觀測資料充分利用和區(qū)域水資源管理提供參考依據(jù)。
青海位于青藏高原東部(73°18′52″~104°46′59″E,26°00′12″~39°46′50″N),總面積為面積72.23萬km2。受亞洲季風(fēng)和西風(fēng)影響,青海省旱季和雨季分異明顯,約70%的降水發(fā)生在雨季(6、7、8月),其他月份降水稀少,多年平均降水量250~550 mm。月氣溫變化較大,平均氣溫在最暖月份(7月)為15 ℃,最冷的月份(1月)為-7 ℃。青海地區(qū)地表覆被由草原、森林、灌叢、荒漠、雪蓋冰川組成。
圖 1 研究區(qū)DEM和氣象站點(diǎn)分布
本研究數(shù)據(jù)源如表1所示?;谡军c(diǎn)數(shù)據(jù)完整性考慮,選取青海省內(nèi)56氣象站的2000-2012年間多年平均降水量作為建?;A(chǔ)。精確的空間預(yù)測依賴于能反映區(qū)域降水空間異質(zhì)性的協(xié)變量。地形和地表覆被因子能反映降水量局部地帶性規(guī)律,因此本研究以數(shù)字高程模型()為基礎(chǔ),提取基坡度()、破向()、起伏度()、地形曲率()等地形變量。歸一化植被指數(shù)()、植被初級生產(chǎn)力()能反映植被生長活性,用以表征區(qū)域地表覆被特征()。為反映降水量分布宏觀規(guī)律,還考慮了地理位置信息()作為協(xié)變量。
表 1 數(shù)據(jù)來源
隨機(jī)森林(Random Forest, RF)是Breiman等[11]提出的集成多棵決策樹(Decision tree)模型{(,θ)=1,2,…}而形成的融合算法。該算法借助隨機(jī)子空間和自助聚集理論,運(yùn)用bootstrap方法從全部特征變量屬性中進(jìn)行隨機(jī)等概率地放回抽樣,對每個(gè)bootstrap樣本構(gòu)建決策樹,通過打分尋找得分最高結(jié)果作為分類或回歸的結(jié)果[12]。該算法主要流程為:
先利用bootstrap隨抽樣法從原始訓(xùn)練集={(1,1),(2,2),…,(x,y)}中抽取個(gè)樣本,記作訓(xùn)練集T,進(jìn)行次抽樣,則有個(gè)獨(dú)立樣本形成的訓(xùn)練集{T,=1,2,…,},其中1,2,…,x∈。
然后對各bootstrap訓(xùn)練集構(gòu)建回歸決策樹組合模型,單樹由根節(jié)點(diǎn)遍歷向下分裂,使其自由生長而不剪枝處理,棵樹集成即為隨機(jī)森林。對于單棵樹,從隨機(jī)選擇的個(gè)屬性中選出最優(yōu)屬性進(jìn)行分裂。
生成的單棵樹模型即為獨(dú)立領(lǐng)域的專家,組合棵樹中得分最高的類別即為預(yù)測的結(jié)果。RF回歸預(yù)測結(jié)果表示為棵回歸模型的預(yù)測結(jié)果是棵決策樹{(,θ,=1,2,...,)}回歸的均值:
式中()為隨機(jī)森林組合模型結(jié)果,p為單棵樹分類模型。
先基于ArcGIS10.6軟件將和變量數(shù)據(jù)轉(zhuǎn)換為grid柵格格式,并統(tǒng)一其空間投影為Lambert,空間分辨率為500 m。然后利用標(biāo)準(zhǔn)化后的柵格數(shù)據(jù)生成每一像素的(經(jīng)度)、(緯度)和(經(jīng)緯度乘積)信息,以得到海陸位置變量()集,最終構(gòu)成由、、組成的降水量預(yù)測的協(xié)變量集。最后基于研究區(qū)56個(gè)氣象站點(diǎn)空間位置,采用ArcGIS的Extract multivalue to point工具提取各個(gè)站點(diǎn)對應(yīng)的環(huán)境變量信息,用以RF建模。為解析宏觀變量()與局部變量(和)對降水量空間預(yù)測的影響,本研究以分別以、、、+、+、+和++等7種變量組合為輸入變量構(gòu)建RF模型。
RF是一種基于數(shù)據(jù)學(xué)習(xí)的集成方法對數(shù)據(jù)結(jié)構(gòu)具有一定敏感性。為避免模型過擬合,應(yīng)用十折交叉驗(yàn)證方法評估模型精度[13]。十折交叉驗(yàn)證原理是將全部樣本隨機(jī)劃分為10個(gè)子集,以其中9個(gè)子集作為訓(xùn)練集,其余為驗(yàn)證集,以交叉驗(yàn)證重復(fù)10次產(chǎn)生的決定系數(shù)(2)、均方根誤差()和林氏一致性相關(guān)系數(shù)()(式2-5)的平均值作為模型性能度量指標(biāo)。
協(xié)變量的空間異質(zhì)性影響著上降水量預(yù)測模型性能。圖2為本研究使用的協(xié)變量空間分布。表2為利用ArcGIS的Band Collection Statistics工具統(tǒng)計(jì)了500 m像素水平上區(qū)域協(xié)變量的統(tǒng)計(jì)特征??芍?,除了、、等反映海陸位置信息的變量具有較小的變異系數(shù)(CV僅為3.48%、4.99%、6.09%),且呈現(xiàn)弱變異性外(<10%),其他協(xié)變量為中度程度變異(∈[10%,100%])。其中反映區(qū)域地表覆被的具有最高變異性,變異系數(shù)達(dá)73.68%,其他協(xié)變量的變異性分別為(19.50%) <(20.69%) <(31.39%) <(51.57%) <(63.19%) <(73.21%)。基于56個(gè)氣象站點(diǎn)的年均降水量統(tǒng)計(jì)顯示,研究區(qū)年均降水量空間最大最小值分別為146.2、786.8 mm,平均值為367.85 mm,變異性達(dá)45.89%。
表 2 協(xié)變量的描述性統(tǒng)計(jì)特征
為確保模型平穩(wěn)性,采用Grid搜索法對RF模型中的關(guān)鍵參數(shù):Mtry和Ntree進(jìn)行尋優(yōu)。其中,Mtry表征樹形生長所需的變量數(shù)量,影響著每棵樹的強(qiáng)度與樹之間的相關(guān)性,Ntree表征模型中回歸樹的數(shù)量。RF一般通過增加回歸樹數(shù)量和單棵樹的強(qiáng)度來減小樹之間的相關(guān)性和改善模型精度。如圖3所示,7個(gè)模型的2隨著Ntree增加呈現(xiàn)先增大再趨于平穩(wěn)特征,因此選擇各模型的Ntree為500。除了++模型中Mtry為4時(shí)性能達(dá)到最優(yōu),其他模型的最佳Mtry均為2,經(jīng)參數(shù)優(yōu)化后執(zhí)行RF回歸訓(xùn)練,以構(gòu)建區(qū)域降水量空間預(yù)測模型。
圖 3 RF模型精度隨Ntree和Mtry變化圖
RF是一種基于數(shù)據(jù)的學(xué)習(xí)方法,對數(shù)據(jù)結(jié)構(gòu)具有一定依賴性。表4為不同輸入變量條件下降水量預(yù)測模型的十折交叉驗(yàn)證結(jié)果。綜合而言,對于7種變量組合,模型的2介于0.791-0.893,為0.817~0.986,則在12.24~25.26 mm之間,為35.02~79.05 mm,表明基于RF的降水量空間預(yù)測模型具有穩(wěn)健性和可靠性。具體而言,模型精度排序?yàn)?++>+>>+>+>>。++和+模型中同時(shí)包含宏觀變量()和局部環(huán)境變量(,),因而具有最高的精度。僅以作為輸入變量時(shí),模型能充分反映降水量分布與海陸位置之間的關(guān)系且無其他噪聲影響,因而亦具有較高精度。相比于++和+模型,模型的2僅減小了0.02、0.019,增加了7.73、3.56 mm。在基礎(chǔ)上加入之后,模型的2、降低了0.008、0.01,和則增加了6.69,13.27 mm,表明增加變量并不能絕對提高模型性能。這是由于加入更多變量的同時(shí),也引入了數(shù)據(jù)噪聲,特別是一些非重要變量會(huì)掩蓋重要變量的貢獻(xiàn),進(jìn)而影響模型性能。在以單一、作為輸入變量情況下,模型的可解釋能力(2)最弱,且其和分別達(dá)到較大值。本研究與石志華等[2]的研究相比,本文方法具有更高預(yù)測性能,表明基于RF的降水量空間預(yù)測模型具有穩(wěn)健性和可靠性。
表 4 不同輸入變量條件下模型精度驗(yàn)證
基于RF回歸算法與7種輸入變量得到研究區(qū)降水量500 m分辨率的柵格位圖(圖4a-g)??芍?,不同變量集產(chǎn)生了相似的降水量分布格局。柵格統(tǒng)計(jì)顯示,其空間像素范圍介于103.56~772.95 mm,柵格平均值介于358.62~386.52 mm,變異系數(shù)在43.27%~53.62%之間。研究區(qū)降水量呈現(xiàn)自東南向西北減少的分布模式,具有明顯的經(jīng)向和緯向地帶性。這是由于區(qū)域地理環(huán)境造成的。青海省總體地勢呈現(xiàn)自西向東傾斜,西北和北部受到阿爾金山、昆侖山等高大山體阻擋而導(dǎo)致西南和東南季風(fēng)帶來的海洋水汽難以到達(dá),加上水汽遠(yuǎn)距離傳輸產(chǎn)生一定損失,導(dǎo)致降水量呈現(xiàn)地帶性分異,特別是柴達(dá)木盆地形成雨影區(qū)。相對而言,東南部地勢較低、屬于迎風(fēng)坡,降水來源受到一定程度季風(fēng)的補(bǔ)充,因而形成區(qū)域降水中心。
圖 4 青海省降水量空間分布圖
注:圖中a、b、c、d、e、f、g分別為、、、+、+、+和++變量生成的降水量圖,h為采用Anusplin插值產(chǎn)生的分布圖。
Note:Figures a, b, c, d, e, f, and g are the precipitation distribution maps obtained using,,,+,+,+, and++, respectively, and h is the distribution map generated by using Anusplin interpolation.
對比分析可知,不同變量產(chǎn)生的降水量位圖極具空間細(xì)節(jié)差異(圖4a-h)。由、+變量集預(yù)測得到降水量分布圖中略去了局部信息而呈現(xiàn)空間概化,而、、+、+和++模型提供了豐富的分布信息,例如在在玉樹州南部、昆侖山和祁連山脈附近,降水量分布均呈現(xiàn)隨海拔變化的局部差異。這不僅反映了地形對降水再分配的影響,也表明局部小氣候(水面蒸發(fā)散、特殊地形對流)的影響。例如高黎明等[14]解析了青海湖對局部氣候系統(tǒng)穩(wěn)定性的影響,認(rèn)為湖區(qū)強(qiáng)烈太陽輻射與湖面蒸發(fā)影響著氣壓場、風(fēng)向以及局部降水分布均勻性。黃琦等[15]研究表明,祁連山地區(qū)降水量分布隨海拔增高而呈現(xiàn)先增加后減少規(guī)律,其中祁連山東段降水量分布最高值在海拔3000 m處,中段、和西段分別位于4100 m和4500 m左右。這些研究證實(shí)了采用和等局部環(huán)境變量有利于增強(qiáng)降水量分布預(yù)測模型的解釋能力。
為進(jìn)一步驗(yàn)證RF模擬結(jié)果的合理性,給出了葉輝等[3]基于Anuslpin氣象學(xué)專業(yè)插值法生成的區(qū)域降水量(2000-2012年)柵格位圖(1 km分辨率)作為參照??芍狙芯颗c葉的結(jié)果(圖4h)具有良好的空間一致性,這證實(shí)了本研究的科學(xué)性與準(zhǔn)確性。但相比而言,本研究結(jié)果的空間表現(xiàn)力更強(qiáng),特別是對解釋降水量局域分布信息更具優(yōu)勢。
(1)RF回歸算法能基于有限的地面觀測資料精確擬合青海省降水量空間分布與地形特征()、地表覆被()、海陸位置()之間的關(guān)系,實(shí)現(xiàn)區(qū)域降水量空間精確模擬,在柵格像素水平的降水量空間估計(jì)中具有一定應(yīng)用潛力;
(2)協(xié)變量類型對降水量空間預(yù)測具有一定影響。融合、、等協(xié)變量的模型能展示區(qū)域降水量分布的更多細(xì)節(jié)信息(垂直地帶性規(guī)律等),僅考慮變量雖能反映降水分布宏觀規(guī)律,但略去了空間細(xì)節(jié)表現(xiàn)力;
(3)基于預(yù)測精度考慮,本研究推薦使用融合++和+協(xié)變量的預(yù)測模型應(yīng)用于降水量空間預(yù)測。
[1] Hu Q, Li Z, Wang L,. Rainfall Spatial Estimations: A Review from Spatial Interpolation to Multi-Source Data Merging [J]. Water, 2019,11(3):579
[2] 石志華,劉夢云,常慶瑞,等.基于優(yōu)化參數(shù)的陜西省氣溫、降水柵格化方法分析[J].自然資源學(xué)報(bào),2015,30(7):1141-1152
[3] 葉輝,王軍邦,王居午,等.2000~2012年全國1 km空間分辨率氣溫和降水柵格數(shù)據(jù)集(討論版)[J/OL].中國科學(xué) 數(shù)據(jù),2017.DOI: 10.11922/csdata.170.2016.0112.
[4] Sekulic A, Kilibarda M, Heuvelink G,. Spatial interpolation of daily precipitation using random forest [C]//EGU General Assembly Conference Abstracts, 2020:972
[5] Paraskevas T, Dimitrios R, Andreas B. Use of artificial neural network for spatial rainfall analysis [J]. Journal of Earth System Science, 2014,123(3):457-465
[6] Zhang X, Liu G, Wang H,. Application of a hybrid interpolation method based on support vector machine in the precipitation spatial interpolation of basins [J]. Water, 2017,9(10):760-781
[7] Jang DH, Wi NS, Park NW. High-resolution Spatial Mapping and Evaluation of Temperature and Rainfall in South Korea using a Simple Kriging with Local Means [J]. journal of Climate Research, 2015,10(2):165-182
[8] 曾業(yè)隆,譚偉,王超,等.基于GWR模型的貴州喀斯特山區(qū)TRMM 3B43降水資料降尺度分析[J].干旱氣象,2018,36(3):405-414
[9] 胡實(shí),韓建,占車生,等.基于地理加權(quán)回歸模型的典型山地衛(wèi)星反演降水產(chǎn)品降尺度研究[J].山地學(xué)報(bào),2019,37(3):451-461
[10] 史嵐,何其全,楊嬌,等.閩浙贛地區(qū)GPM IMERG降水產(chǎn)品降尺度建模與比較分析[J].地球信息科學(xué)學(xué)報(bào),2019,21(10):1642-1652
[11] Breiman L. Random Forest [J]. Machine Learning, 2001,45:5-32
[12] Surhone LM, Tennoe MT, Henssonow SF,. Random Forest [J]. Machine Learning, 2010,45(1):5-32
[13] Zhou Y, Hartemink AE, Shi Z,. Land use and climate change effects on soil organic carbon in North and Northeast China [J]. Science of the Total Environment, 2019,647:1230-1238
[14] 高黎明,張樂樂,陳克龍.青海湖流域濕地小氣候特征[J].干旱區(qū)研究,2019,36(1):186-192
[15] 黃琦,覃光華,王瑞敏,等.基于MSWEP的祁連山地區(qū)降水空間分布特性解析[J].水利學(xué)報(bào),2020,51(2):232-244
Spatial Distribution of Precipitation in Qinghai Province Based on Randomforest and Multivariate Remote Sensing Data
HOU Fang-guo1, WANG Hua-guang2
1.450015,2.614200,
With the support of geographic information technology, a set of 10 covariates, including topographic () (, slope, slope direction, curvature, undulation), surface cover () (Normalized vegetation index, vegetation primary productivity NPP) and land-sea location () (longitude, latitude, latitude*longitude) were extracted and a random forest (RF) algorithm was applied to establish a spatial precipitation prediction model based on the average annual precipitation data of 56 meteorological stations in Qinghai Province from 2000 to 2012. Results show that the RF algorithm combined with the multi-variables set can achieve accurately regional precipitation prediction. The ten-fold cross-validation shows that the performance of the RF-fitted precipitation prediction models with different input variables are ranked as follows:++>+>>+>+>>, where the2of the++and+models reach 0.893 and 0.892, and theis only 12.31 and 13.55 mm, which is higher than the2of other models improved by 0.028~0.102 andreduced by 1.24~12.95 mm, thus satisfying the spatial fine estimation of regional precipitation. The present study provides a new technical reference for the spatially distributed information acquisition of precipitation in low-density meteorological station distribution areas.
Random forest; remote sensing; precipitation distribution
P333.5
A
1000-2324(2022)01-0091-07
10.3969/j.issn.1000-2324.2022.01.015
2021-12-21
2021-12-21
侯方國(1971-),男,碩士,副教授,主要從事測繪工程工作. E-mail:houfangguo333@126.com