張常清
(河北省衡水水文勘測研究中心,河北 衡水 053000)
地表徑流是陸地生態(tài)過程中多元物質(zhì)與能量流動的關(guān)鍵驅(qū)動要素,徑流量時空分布對經(jīng)濟(jì)社會發(fā)展、生態(tài)環(huán)境變化具有重要影響[1]。目前,GOU等[1]開發(fā)了我國為數(shù)不多的徑流量格點產(chǎn)品,但其空間分布僅為0.25°(約25km),導(dǎo)致在流域尺度水文模擬、水資源管理中缺乏有效應(yīng)用。因此,降尺度技術(shù)為改善其空間分辨率和數(shù)值精度提供了潛在可能。降尺度過程依賴于解釋地表徑流過程的地形、土地利用、人為活動、土壤含水率等環(huán)境變量,但各變量之間可能存在線性、冗余關(guān)系,導(dǎo)致模型過擬合。遺傳算法(Genetic Algorithm,GA)可以不考慮線性相關(guān)性而側(cè)重于構(gòu)建最小變量集,以使模型擬合精度最優(yōu)。隨機森林(Random forest, RF)是經(jīng)典機器學(xué)習(xí)技術(shù)之一,相比于其他神經(jīng)網(wǎng)絡(luò)、機器學(xué)習(xí)等非線性方法,其參數(shù)優(yōu)化簡易、收斂性佳,因此善于解決高維、非線性問題。
本文以江蘇省為案例,運用GA-RF算法,先利用GA算法對降尺度因子進(jìn)行優(yōu)化,再結(jié)合RF技術(shù)建立徑流格點數(shù)據(jù)降尺度模型,進(jìn)而重構(gòu)省域尺度徑流量精細(xì)化分布式的柵格面。
河北省地處我國陰山-太行山向渤海中段延伸地帶,經(jīng)緯度在E113°27′-E119°50′、N36°05′-N42°40′之間,省域陸地面積18.85×104km2。全省地勢西高東低、北高南低,形成壩上高原、土石山地、華北平原、前海濕地等折疊地貌景觀,海拔0~2 882m,見圖1。河北省屬溫帶季風(fēng)性氣候向溫帶大陸性氣候過渡區(qū),具有季候差異明顯、水熱同期、年內(nèi)溫差大的特點,多年平均氣溫8℃~14℃,平均降水量531.7mm,年日照時數(shù)2 303.1h,各地?zé)o霜期介于81~204d。主要河流為海河、灤河等,多年平均水資源總量204.69×108m3,僅占全國水資源總的0.72%。其中,地表水資源量約120.17×108m3,全省人均水資源量僅約為300m3,不足全國平均水平的1/9??傮w而言,河北省地表水資源相對匱乏,以徑流量格點數(shù)據(jù)降尺度為研究目標(biāo),對半濕潤半干旱區(qū)水資源優(yōu)化配置具有積極意義。
圖1 研究區(qū)及主要河流分布
本文綜合再分析產(chǎn)品、衛(wèi)星遙感數(shù)據(jù)、地面水文觀測資料,具體描述如下:
1)使用的降尺度目標(biāo)數(shù)據(jù)為《中國天然徑流量格點數(shù)據(jù)集CNRD v1.0(1961-2018)》,其由GOU等基于VIC(The Variable Infiltration Capacity)分布式水文模型結(jié)合地面徑流觀測資料生成,并證明在全國尺度上的數(shù)值精度優(yōu)于其他開源產(chǎn)品,且保持了空間分布連續(xù)性(https://poles.tpdc.ac.cn/zh-hans/news/1f6a8d07-b413-4a3b-875e-32dadca3196b)。
2)水文觀測資料。從水文水資源局收集到研究區(qū)28個水文站的2018年徑流量資料,并以此作為真值。
3)DEM數(shù)據(jù)。DEM數(shù)據(jù)由美國聯(lián)邦地質(zhì)調(diào)查局(USGS)提供的STRM數(shù)字高程(DEM)V3.0產(chǎn)品,其空間分辨率為30m,以DEM數(shù)據(jù)為基礎(chǔ),據(jù)此使用SAGAGIS軟件平臺(https://www.pcsoft.com.cn/soft/205412.html)提取相關(guān)地形因子,見表1。
表1 徑流量格點降尺度的環(huán)境變量
4)Landsat-8 OLI數(shù)據(jù)。本研究從United States Geological Survey (USGS) Earth Explorer website (https://earthexplorer.usgs.gov)獲得2018年遙感影像。先利用ENVI5.6軟件中Mosaic工具進(jìn)行鑲嵌處理,再利用(Exelis Visual Information Solutions, Boulder, Colorado)基于24個地面控制點進(jìn)行幾何校正,使每個控制點的均方根誤差小于0.5個像素,然后使用FLAASH模塊進(jìn)行了輻射到反射率的轉(zhuǎn)換與大氣校。最后,利用Spectral indices extraction工具提取相關(guān)植被指數(shù),見表1。
5)土壤和土壤是地表水源涵養(yǎng)的主要控制因素之一,將土壤砂礫、粉砂、黏粒、有機質(zhì)、平均降水量、氣溫納入環(huán)境變量集,進(jìn)而預(yù)測潛在水分。該數(shù)據(jù)由中國科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心(http://www.resdc.cn/)獲得,其空間分辨率為1km,另收集Global-land2020數(shù)據(jù)(LUCC)。
除站點觀測資料外,將其他柵格數(shù)據(jù)使用ArcGIS工具進(jìn)行空間提取、投影轉(zhuǎn)換、歸一化處理。
GA是借鑒達(dá)爾文自然選擇進(jìn)化論發(fā)展而來的最優(yōu)解搜索算法。GA首先按一定比例選擇現(xiàn)有的種群進(jìn)行新一代繁殖,然后利用交叉、變異等操作產(chǎn)生第二代種群,在此過程中,淘汰適應(yīng)度( Fitness )低的個體,保留適應(yīng)度高的個體,并不斷重復(fù)選擇、交叉、變異等操作,直至進(jìn)化出具有最大適應(yīng)度的個體作為最優(yōu)解輸出,則終止進(jìn)化。Scrucca(2013)利用R軟件的caret包構(gòu)建基于GA算法的最優(yōu)集。
隨機森林(RF)是基于Boostrap抽樣和bagging理論的一種組合器算法,由許多決策樹組成,每棵樹依賴于獨立采樣的隨機向量值,并且數(shù)據(jù)中所有樹的分布相同。RF建模使用boostrap采樣允許袋外數(shù)據(jù)用于估計一般誤差,預(yù)測結(jié)果是所有聚合預(yù)測的平均輸出。RF建模需優(yōu)化兩個關(guān)鍵參數(shù):用于生長每棵樹的變量數(shù)量(mtry)、林中樹數(shù)量(ntree)和終端節(jié)點的最小數(shù)量。mtry參數(shù)確定每棵樹的強度和樹之間的相關(guān)性,增加mtry還會增加每棵樹的強度和樹之間的相關(guān)性。RF模型性能通過增加樹木強度和降低樹木之間的相關(guān)性而得到改善。在本研究中,RF模型構(gòu)建與參數(shù)優(yōu)化通過caret包實現(xiàn)。
為了客觀評估GA-RF在粗糙集徑流量格點數(shù)據(jù)降尺度中的應(yīng)用性,以降尺度前后格點數(shù)值與實際水文觀測站點值為基本輸入,運用納西系數(shù)(NSE)、平均絕對誤差(MAE)、均方根誤差(RMSE)作為評價指標(biāo),兩個模型性能,相關(guān)計算公式如下:
(1)
(2)
(3)
圖2為研究區(qū)原徑流量格點數(shù)據(jù)。由圖2可知,其空間分辨率粗糙,對局部細(xì)節(jié)信息刻畫不足。利用站點數(shù)據(jù)進(jìn)行驗證發(fā)現(xiàn),該產(chǎn)品與28個地面觀測站點數(shù)據(jù)具有良好一致性,見圖3,其NSE為0.70,MAE和RMSE分別為34.48、48.05mm,該誤差在可接受范圍內(nèi),因此在研究區(qū)具有一定可替代性。
圖2 河北省原徑流格點數(shù)據(jù)空間分布
圖3 研究區(qū)原徑流量格點數(shù)據(jù)與實測徑流量散點圖
將GA全局變量選擇技術(shù)應(yīng)用于28×29的樣本矩陣,矩陣值因變量為站點尺度徑流量,其他均為自變量,進(jìn)而檢索出徑流量格點降尺度模型所需的最優(yōu)變量。圖4中,橫坐標(biāo)為協(xié)變量數(shù)目或迭代次數(shù),縱坐標(biāo)為訓(xùn)練精度的度量。由圖4可知,當(dāng)變量數(shù)為11時,模型的RMSE達(dá)到最小,次數(shù)的精度最具可靠性。相應(yīng)地,此時確定了11個環(huán)境變量如下:徑流量格點、降水量、氣溫、海拔、距河流距離、LUCC、地形濕度指數(shù)、NDVI、EVI、土壤粉粒、有機質(zhì)。
圖4 GA算法變量選擇迭代圖
盡管相關(guān)研究認(rèn)為RF算法對超參數(shù)配置并不敏感,但為了確保模型穩(wěn)健,使用網(wǎng)格搜索法,對其關(guān)鍵參數(shù)進(jìn)行優(yōu)化。利用隨機抽樣方法,將28×29個輸入樣本隨機劃分為10份,其中9份作為訓(xùn)練樣本,剩余1份為測試樣本,進(jìn)而構(gòu)建RF模型進(jìn)行非線性擬合。圖5為不同mtry、ntree配置下,RF模型訓(xùn)練精度RMSE的變化特征。由圖5可知,這兩個參數(shù)互相影響且單調(diào)性并不同步,最終確認(rèn)當(dāng)mtry=3、ntree=700時,模型訓(xùn)練的擬合性能達(dá)到最優(yōu)狀態(tài),此時RMSE僅為0.6mm。
圖5 RF模型參數(shù)的網(wǎng)格搜索結(jié)果
將優(yōu)化后的RF模型代入由11項環(huán)境變量組成柵格集,然后進(jìn)行降尺度空間預(yù)測,得到研究區(qū)精細(xì)化的徑流量格點空間分布,見圖6。由圖6可知,降尺度后,其徑流量數(shù)值范圍介于24~303mm之間,空間柵格統(tǒng)計平均值為223mm,與圖2的原數(shù)據(jù)數(shù)值特征一致,表明降尺度的結(jié)果集成其表征功能。降水量呈現(xiàn)東多西少、南多北少的格局,以衡水、滄州、邯鄲東南部、唐山東南局部地區(qū)徑流量相對較大,可達(dá)250~300mm;石家莊、承德、唐山北部、廊坊、保定等地徑流量次之,在150~250mm之間;陰山和燕山地區(qū)的張家口、承德北部徑流量最少,僅在150mm以下。另外,與原徑流量格點數(shù)據(jù)相比,降尺度后的徑流量分布圖呈現(xiàn)了細(xì)節(jié)分布,避免了粗糙集格點鋸齒狀特征,反映了地形、河流對地表徑流深的影響。
圖6 河北省徑流量降尺度結(jié)果
為了評估降尺度精度,利用站點進(jìn)行驗證,其結(jié)果顯示降尺度后的精度NSE為0.76,MAE和RMSE 分別為28.39、37.97mm。相對于原始徑流量格點數(shù)據(jù)精度,降尺度后的NSE提升了8.57%,MAE和RMSE 依次減小21.44%、23.92%。見圖7。
圖7 降尺度后徑流量格點與地面觀測數(shù)據(jù)之間一致性
粗糙集徑流量產(chǎn)品的降尺度研究是水文工作研究的重點方向之一。本文運用GA算法,從高維數(shù)據(jù)集里選擇最小變量集,進(jìn)而采用RF擬合徑流量與環(huán)境變量之間復(fù)雜非線性關(guān)系。結(jié)果顯示,GA-RF算法將0.25°分辨率的徑流量產(chǎn)品降尺度至30m,且不犧牲其本源精度,表明所提出的GA-DNN降尺度方案具有移植性,可為其他區(qū)域和類似粗糙水文氣象數(shù)據(jù)的分辨率重構(gòu)提供新方案。