湯宇磊, 吳楊楊, 蔣興征, 馮亮, 高陽
(1.中國地質(zhì)調(diào)查局地球物理調(diào)查中心,河北 廊坊 065000; 2.自然資源要素耦合過程與效益重點(diǎn)實(shí)驗(yàn)室,北京 100055; 3.四川大學(xué)建筑與環(huán)境學(xué)院,四川 成都 610065; 4.中國農(nóng)業(yè)大學(xué)土地科學(xué)與技術(shù)學(xué)院,北京 100083)
進(jìn)入信息時(shí)代以來,人類對地球的觀測與探測能力不斷提升,獲取的數(shù)據(jù)量成冪律增長,數(shù)據(jù)處理技術(shù)的不斷豐富為數(shù)據(jù)融合利用提供了可能。各類自然資源時(shí)空屬性信息充實(shí)于大量非關(guān)系型、非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)中,具有典型的多源、多維、多類、多尺度等特征[1]。已有研究表明,多傳感器數(shù)據(jù)融合相較于單一來源數(shù)據(jù)在數(shù)據(jù)準(zhǔn)確性和實(shí)際應(yīng)用方面更具優(yōu)勢[2]。歐美等國基于不同衛(wèi)星傳感器,相繼發(fā)布了各類歸一化植被指數(shù)(Normalized Difference Vegetation Index,NDVI)遙感數(shù)據(jù)產(chǎn)品,在生態(tài)恢復(fù)工程評價(jià)[3]、林草資源監(jiān)測[4]、生物多樣性估算[5]、高分辨率森林覆蓋分類[6]等諸多方面發(fā)揮了重要作用。但NDVI數(shù)據(jù)源的多源性同時(shí)也帶來了植被評估的不確定性[7],一定程度上限制了遙感數(shù)據(jù)的價(jià)值挖掘及植被演變研究的延續(xù)性和準(zhǔn)確性。不同流域之間植被種類與分布存在較大差異,NDVI反演參數(shù)差異較大,難以依據(jù)單一產(chǎn)品客觀評估區(qū)域植被生長水平[8],迫切需要針對各類時(shí)空數(shù)據(jù)開展規(guī)則化重建、數(shù)學(xué)建模等工作,實(shí)現(xiàn)多源異構(gòu)自然資源信息的融匯和海量觀測數(shù)據(jù)的高效利用。漢江流域是我國南水北調(diào)工程的水源地,也是長江中游生態(tài)保護(hù)屏障區(qū),國內(nèi)外學(xué)者針對流域生態(tài)服務(wù)[9]、水文效應(yīng)[10]、濕地變化[11]等開展了大量研究,但基于多源數(shù)據(jù)的資源-生態(tài)評估工作有待進(jìn)一步深入。本文以漢江流域植被覆蓋為研究案例,探索了一種基于數(shù)據(jù)規(guī)則化重構(gòu)與機(jī)器學(xué)習(xí)算法的多源異構(gòu)數(shù)據(jù)融合技術(shù),有效融合了各類數(shù)據(jù)信息,獲得了多年期高分辨率自然資源觀測指標(biāo)時(shí)空數(shù)據(jù)集,實(shí)現(xiàn)了地表植被演變的精準(zhǔn)評估,進(jìn)而定量核算了各類自然資源稟賦規(guī)模與時(shí)空演變規(guī)律,為區(qū)域長時(shí)間序列生態(tài)保護(hù)情況評估與社會(huì)經(jīng)濟(jì)發(fā)展策略回溯提供了數(shù)據(jù)支持,對我國自然資源調(diào)查和經(jīng)濟(jì)社會(huì)綠色健康發(fā)展具有現(xiàn)實(shí)意義[12]。
數(shù)據(jù)融合指處理來自單一和多個(gè)來源的數(shù)據(jù)和信息關(guān)聯(lián)的多層次過程,以實(shí)現(xiàn)重新定位,從而及時(shí)、完善地對其形勢、風(fēng)險(xiǎn)及重要性進(jìn)行評估[13],主要包括數(shù)據(jù)級融合、特征級融合和決策級融合3類。數(shù)據(jù)運(yùn)營層主要針對數(shù)據(jù)讀入、置信驗(yàn)證等方面進(jìn)行原始數(shù)據(jù)融合; 數(shù)據(jù)倉庫層主要針對權(quán)重篩查、時(shí)空定位、特征空間提取進(jìn)行特征數(shù)據(jù)融合; 數(shù)據(jù)產(chǎn)品層主要針對全局模擬、需求導(dǎo)向等進(jìn)行決策分析融合(圖1)。
圖1 3類數(shù)據(jù)融合方法技術(shù)路線
數(shù)據(jù)規(guī)則化重構(gòu)是數(shù)據(jù)融合的先決條件,也是數(shù)據(jù)管理的必要步驟。隨著生態(tài)環(huán)境質(zhì)量評估與自然資源存量調(diào)查的不斷深入,數(shù)據(jù)源不斷豐富,不同的變量數(shù)據(jù)在數(shù)據(jù)結(jié)構(gòu)、格式、時(shí)空分辨率等方面均存在較大差異,需預(yù)先進(jìn)行數(shù)據(jù)規(guī)則化重構(gòu)。在數(shù)據(jù)建庫過程中要兼顧服務(wù)器存儲與計(jì)算效率,通常采用PostgreSQL、MySQL、Oracle等主流數(shù)據(jù)庫軟件平臺搭建目標(biāo)數(shù)據(jù)的底層架構(gòu),并通過搭建數(shù)據(jù)索引提高數(shù)據(jù)檢索速度,建成融合研究前的環(huán)境基礎(chǔ)數(shù)據(jù)庫。這個(gè)環(huán)境基礎(chǔ)數(shù)據(jù)庫為自然資源變化區(qū)域的快速識別與精準(zhǔn)定位提供了有效抓手。
多源遙感NDVI在不同植被類型區(qū)域內(nèi)的相關(guān)性不同,即在像元尺度上的相關(guān)性存在差異,難以依據(jù)線性關(guān)系進(jìn)行有效擬合[14]。隨機(jī)森林(Randon Forest,RF)是精細(xì)空間和時(shí)間分辨率下預(yù)測地面植被覆蓋情況的有效工具,可以有效解決上述問題[15-16]。本文以RF為主體,輔以遺傳算法進(jìn)行因子權(quán)重與數(shù)據(jù)特征空間迭代篩查,實(shí)現(xiàn)機(jī)器學(xué)習(xí)數(shù)據(jù)融合。在模型訓(xùn)練過程中,導(dǎo)入訓(xùn)練數(shù)據(jù)集構(gòu)建回歸樹。隨機(jī)選擇三分之一的預(yù)測變量用于構(gòu)建每棵樹[17]。首先,基于單個(gè)節(jié)點(diǎn)構(gòu)建一個(gè)樹; 然后,重復(fù)引導(dǎo)步驟,直到每個(gè)終端節(jié)點(diǎn)中只有一個(gè)數(shù)據(jù)條,從大量訓(xùn)練樣本中提取特征,在回歸樹的每個(gè)節(jié)點(diǎn)處選擇最佳分割,構(gòu)建自變量與各協(xié)變量之間的相互關(guān)系,提取訓(xùn)練樣本特征空間; 最后,建立指標(biāo)因子預(yù)測子模型。植被變化不僅包括自然屬性,還涵蓋經(jīng)濟(jì)、社會(huì)、生態(tài)等多類人文屬性。通過融合3類NDVI數(shù)據(jù)產(chǎn)品和Landsat部分解譯數(shù)據(jù),配合氣象、地形、流域模式、人口密度等環(huán)境協(xié)變量對研究區(qū)域及時(shí)段進(jìn)行模型預(yù)測。
漢江流域地處長江經(jīng)濟(jì)帶中部,涵蓋面積超過15萬km2,位于我國南北氣候過渡帶,氣候溫和濕潤(年均氣溫14.1 ℃),水量較豐沛(年均降水量972 mm),是我國重要的水源涵養(yǎng)地和長江中游生態(tài)保護(hù)屏障區(qū)。區(qū)域溫帶季風(fēng)氣候與平原地形特點(diǎn)賦予了流域良好的植被覆蓋條件,流域天然植被主要為亞熱帶常綠闊葉林與常綠和落葉闊葉混交林。流域地勢呈現(xiàn)西北高、東南低的特點(diǎn),分別以干流丹江口和鐘祥為節(jié)點(diǎn),區(qū)分上、中、下游。上游高山聳立,峽谷多,植被景觀豐富,丹江口水庫是南水北調(diào)的中線水源區(qū); 中、下游的江漢平原是我國中部地區(qū)重要的農(nóng)作物產(chǎn)區(qū)[18],城市外延化進(jìn)程明顯。區(qū)域工農(nóng)業(yè)等社會(huì)、經(jīng)濟(jì)活動(dòng)的不斷加劇與人口的快速增長,造成流域生態(tài)功能弱化、自然資源減少等,這些問題值得關(guān)注。
數(shù)據(jù)重構(gòu)主要包括數(shù)據(jù)獲取與清洗、特征工程建模、模型檢驗(yàn)、產(chǎn)品輸出等過程。本研究針對漢江流域上中下游植被的不同特點(diǎn),結(jié)合區(qū)域林地、草地、濕地等主要土地利用類型,開展了基于機(jī)器學(xué)習(xí)的多源NDVI數(shù)據(jù)重構(gòu)研究,通過交叉驗(yàn)證與真實(shí)值檢驗(yàn)等方式評估了重構(gòu)數(shù)據(jù)的準(zhǔn)確性與精度。
2.2.1 數(shù)據(jù)獲取與清洗
NDVI數(shù)據(jù)來源于MODIS(美國)、SPOT-VGT(法國等)、PROBA-V(歐洲)3類衛(wèi)星傳感器,時(shí)間跨度分別為2000年1月至2019年12月,2000年1月至2014年5月和2013年10月至2019年12月。MODIS產(chǎn)品為16 d短期合成數(shù)據(jù),一定程度上消除了大部分氣象因素與云層的影響,但仍存在部分噪聲干擾[19]。SPOT產(chǎn)品對于常綠闊葉林和針葉林的指示準(zhǔn)確,優(yōu)于MODIS[20],但受衛(wèi)星壽命限制,已于2014年5月停止提供數(shù)據(jù)。PROBA-V產(chǎn)品是一類植被專有觀測傳感器,具有與SPOT-VGT相似的光譜特征,旨在延續(xù)其地表植被觀測任務(wù),兩者在整體上保持了觀測一致性(均方根誤差RMSE為0.003),同時(shí)也存在某些未知的非系統(tǒng)差異[21]。
基礎(chǔ)數(shù)據(jù)共涵蓋NDVI數(shù)據(jù)、自然類環(huán)境協(xié)變量、社會(huì)經(jīng)濟(jì)協(xié)變量等12種不同數(shù)據(jù)來源(表1)的45個(gè)數(shù)據(jù)信息。各類數(shù)據(jù)均進(jìn)行了值域分布檢查、異常值剔除、置信區(qū)間篩查,去除了部分不良噪音。根據(jù)不同數(shù)據(jù)源格式,基于R、Python、SQL等不同計(jì)算機(jī)編譯語言,實(shí)現(xiàn)了數(shù)據(jù)批量導(dǎo)入[22]。
表1 基礎(chǔ)數(shù)據(jù)信息匯總
2.2.2 基于機(jī)器學(xué)習(xí)的多源數(shù)據(jù)融合建模
本研究首先構(gòu)建了漢江流域高分辨率空間網(wǎng)格(1 km×1 km),獲得基礎(chǔ)網(wǎng)格單元155 365個(gè)。之后以盆地網(wǎng)格要素的單元格中心點(diǎn)為基準(zhǔn),將各類數(shù)據(jù)進(jìn)行重采樣處理,嵌套進(jìn)入對應(yīng)網(wǎng)格中。Landsat輔助解譯數(shù)據(jù)直接依據(jù)經(jīng)緯度進(jìn)行網(wǎng)格落定; NDVI值(兩組衛(wèi)星數(shù)據(jù)插值后)、人口密度和國內(nèi)生產(chǎn)總值(Gross Domestic Product, GDP)3類數(shù)據(jù)的空間分辨率與基礎(chǔ)網(wǎng)格一致,采用最近距離法進(jìn)行重采樣匹配; 氣象(差值后數(shù)據(jù))、海拔、NDVI值(年度最大值)和土地利用類型4類環(huán)境協(xié)變量數(shù)據(jù)的空間分辨率高于已有網(wǎng)格,采用嵌套與反距離權(quán)重插值相結(jié)合的方法,對源數(shù)據(jù)網(wǎng)格內(nèi)多測量值進(jìn)行加權(quán)和加和; PBLH和排放清單數(shù)據(jù)的空間分辨率低于基礎(chǔ)網(wǎng)格,采用反距離權(quán)重插值方法,基于源數(shù)據(jù)的多測量值的加權(quán)平均,進(jìn)行網(wǎng)格值重采樣。同時(shí),為了保證數(shù)據(jù)的空間平滑性,對人口密度、海拔、NDVI和土地利用類型4種數(shù)據(jù)均進(jìn)行了二次空間卷積,卷積前后的兩個(gè)變量均作為變量數(shù)據(jù)加入模型構(gòu)建中,相關(guān)過程基于PostGIS、Rstudio等實(shí)現(xiàn)(圖2)。
經(jīng)過梳理,20 a的基礎(chǔ)數(shù)據(jù)中,有效記錄為3 728.76萬條,每個(gè)數(shù)據(jù)集設(shè)立唯一的DOI編碼,明確數(shù)據(jù)溯源,便于數(shù)據(jù)后期發(fā)布過程中的知識產(chǎn)權(quán)保護(hù)。數(shù)據(jù)均依據(jù)變量類別,通過數(shù)據(jù)時(shí)段和網(wǎng)格編號ID實(shí)現(xiàn)各類信息時(shí)空化識別與提取,為下一步數(shù)值建模提供支撐。模型訓(xùn)練樣本為2015—2019年Landsat影像解譯數(shù)據(jù)及部分實(shí)測值。模型添加了季節(jié)性變量,對變量取值空間進(jìn)行了有效分隔。
圖2 研究技術(shù)路線
通過量化各變量因子單一置換后的預(yù)測誤差結(jié)果差異,篩查出每個(gè)變量的相對重要性[25]。基于袋外誤差結(jié)果,剔除了各子模型中相關(guān)重要性低(<5‰)的自變量。依據(jù)多組模型超參數(shù)調(diào)整實(shí)驗(yàn)結(jié)果,各子模型中樹的棵數(shù)設(shè)置為500,最終預(yù)測結(jié)果取所有回歸樹結(jié)果的均值。在并行與并發(fā)運(yùn)算支持[26]下,單次模型預(yù)測運(yùn)行時(shí)間為55 min,各子模型的模擬結(jié)果均達(dá)到近似最優(yōu)的計(jì)算效率和預(yù)測性能。
2.2.3 模型準(zhǔn)確性檢驗(yàn)
k折交叉驗(yàn)證是檢驗(yàn)時(shí)空模型泛化能力的合理有效的方法,可以有效避免模型可能存在的過度擬合現(xiàn)象。將模型的訓(xùn)練數(shù)據(jù)根據(jù)數(shù)量大小,平均分為k份,每次使用其中的(k-1)份數(shù)據(jù)進(jìn)行模型訓(xùn)練,預(yù)測余下1組數(shù)據(jù),最后將k次訓(xùn)練的結(jié)果全部合并,并與原始訓(xùn)練集數(shù)據(jù)進(jìn)行比較,根據(jù)決定系數(shù)(R2)、均方根誤差(Root Mean Square Error, RMSE)等指標(biāo)衡量模型的預(yù)測準(zhǔn)確性。
本文兼顧服務(wù)器計(jì)算效率,基于網(wǎng)格經(jīng)緯度的分組方式將32.7萬行訓(xùn)練數(shù)據(jù)進(jìn)行20折交叉驗(yàn)證,得出決定系數(shù)R2為0.86,表明了模型在NDVI時(shí)空分布重構(gòu)上的優(yōu)越性(圖3)。同時(shí),基于年份與月份進(jìn)行交叉驗(yàn)證,R2分別為0.77和0.82,基于流域上、中、下游分別建模驗(yàn)證,R2分別為0.88、0.86和0.82,表明模型在時(shí)間外延與空間外延上均表現(xiàn)出較好的預(yù)測準(zhǔn)確性。同時(shí),根據(jù)流域42個(gè)實(shí)地林草樣地調(diào)查結(jié)果比對,重構(gòu)數(shù)據(jù)的植被覆蓋準(zhǔn)確度為92.9%,高于單一數(shù)據(jù)源MODIS(88.0%)、SPOT-VGT(83.3%)和PROBA-V(76.1%),體現(xiàn)了基于機(jī)器學(xué)習(xí)的多源數(shù)據(jù)融合技術(shù)的優(yōu)勢。
圖3 模型交叉驗(yàn)證結(jié)果
NDVI值域高、低地區(qū)交錯(cuò),受局部氣候、地形、人文等因素分布差異影響,具有明顯的空間異質(zhì)性[27-28]。流域上游植被茂密,植被覆蓋處于相對最高水平(NDVI>0.8),屬亞熱帶山地濕潤季風(fēng)氣候,降水與日照充足,氣候溫和,區(qū)域的水熱條件非常適合植被的生長和更新[29],森林覆蓋率高,漢中市、安康市市區(qū)及周邊地區(qū)是上游植被覆蓋較低的區(qū)域; 中、下游各城市及周邊區(qū)域植被覆蓋較低(NDVI城區(qū)=0.52±0.03),通過與縣級及以上等級的居民點(diǎn)疊加分析,NDVI低值區(qū)主要為城鎮(zhèn)等人口聚集區(qū),與Landsat影像解譯結(jié)果一致,丹江口水庫是漢江流域的重點(diǎn)水利工程,其改變了流域中、下游部分生態(tài)系統(tǒng)的原有面貌[30]。研究區(qū)植被覆蓋水平相對較低(NDVI≤0.3)的區(qū)域主要分布于丹江口水庫和武漢市、襄陽市、南陽市市區(qū)及其周邊地區(qū)(圖4)。
圖4 漢江流域2000—2019年NDVI年最大值空間分布
流域的植被覆蓋率整體呈波動(dòng)增加趨勢,總增長率為1.6%/10 a,中、上游增量較明顯[31](增長率分別為2.2%/10 a和1.6%/10 a),下游植被覆蓋率基本維持不變,一直處于波動(dòng)階段。流域植被改善面積達(dá)到75.1%,其中5.4%面積的植被改善程度超過10%,植被退化面積比例為10.2%。植被覆蓋變化分布存在地區(qū)差異,河流沿岸和人類活動(dòng)密集區(qū)植被覆蓋變化顯著[32](圖5)。計(jì)算結(jié)果表明,20 a間流域植被覆蓋上升區(qū)人口密度平均減少0.3%,植被退化區(qū)人口密度平均增長4.0%。植被覆蓋上升區(qū)主要分布于漢江上游沿岸和流域東北部區(qū)域,丹江口水庫周邊與荊門市西部區(qū)域植被改善情況尤為明顯,一定程度上表明國家水源保護(hù)地退耕還林、荒地造林、水土保持等政策的有效性,表明人類活動(dòng)發(fā)揮了積極作用[33-34]。植被覆蓋減少區(qū)則主要位于城市及周邊區(qū)域,也是人類活動(dòng)密集區(qū)。
圖5 漢江流域2000—2019年NDVI空間變化趨勢
流域的土地利用類型主要包括林地、園地、耕地、濕地/水體和城區(qū),各類土地植被變化特征有所差異。本文將獲得的NDVI數(shù)據(jù)集與流域兩類土地利用類型數(shù)據(jù)相交疊加,得到流域各類土地NDVI時(shí)空變化序列(表2),進(jìn)而評估出區(qū)域自然資源賦存與生態(tài)環(huán)境質(zhì)量情況。
由表2可知: 漢江流域所屬林地與園地主要位于上游地區(qū),一直保持著整體較高的植被覆蓋水平且穩(wěn)中有升(NDVI林地=0.903±0.006,NDVI園地=0.888±0.010),長期以來的森林撫育、封山育林等積極行為使森林生態(tài)系統(tǒng)保持了穩(wěn)定向好的趨勢[35-36]; 耕地主要位于中、下游的江漢平原,NDVI維持穩(wěn)定水平(NDVI耕地=0.799±0.009); 濕地/水體主要分布于河流及周邊區(qū)域,NDVI水平中等(NDVI濕地/水體=0.572±0.009),變化不明顯,丹江口水庫大壩下游,即流域中、下游,濕地生態(tài)系統(tǒng)有所恢復(fù); 城區(qū)NDVI則下降較為突出,每10 a平均下降4.7%,城市建設(shè)用地的不斷擴(kuò)張帶來了植被的消極變化。上游森林資源與下游耕地資源均保持了相對穩(wěn)定的水平,一定程度上體現(xiàn)了20 a間上游森林生態(tài)系統(tǒng)與中、下游耕地資源的相對穩(wěn)定性[37]。但隨著城鎮(zhèn)化進(jìn)程的不斷推進(jìn),人類活動(dòng)密集與城市向外擴(kuò)張?jiān)斐沙菂^(qū)及周邊區(qū)域植被覆蓋顯著減少,區(qū)域生態(tài)風(fēng)險(xiǎn)形勢依然不容樂觀。
表2 漢江流域2000—2019年不同土地利用類型下NDVI最大值匯總
基于研究區(qū)各網(wǎng)格單位計(jì)算流域多年期NDVI與人口密度Spearman秩相關(guān)系數(shù),兩者相關(guān)性空間分布具有明顯的空間異質(zhì)性(圖6)。NDVI與區(qū)域人口密度正相關(guān)性區(qū)域占總面積的28%,主要集中于河南省南陽市轄區(qū),印證了該區(qū)域退耕還林工程成效明顯[38]; 負(fù)相關(guān)性區(qū)域占總面積的72%,主要分布于流域中游耕地區(qū)及人口密度較高的城市區(qū)域。兩類截然不同的相關(guān)系數(shù)分布情況體現(xiàn)了人類活動(dòng)對植被覆蓋影響的不確定性和隨機(jī)性,會(huì)受到國家政策和不同時(shí)期發(fā)展需求等多種因素的影響[39]。
圖6 漢江流域NDVI與人口密度相關(guān)系數(shù)空間分布
本文主要針對植被每年的生長旺盛期進(jìn)行逐年NDVI最大值模擬與分析,未進(jìn)行植被生長季全周期的跟蹤觀測。未來可基于該融合技術(shù)方法,進(jìn)一步提升數(shù)據(jù)的時(shí)空分辨率,模擬年內(nèi)植被生長全過程,更精準(zhǔn)地實(shí)現(xiàn)植被動(dòng)態(tài)觀測,更好地支撐自然資源管理與生態(tài)質(zhì)量評估。
本研究聚焦自然資源信息高效提取與利用,以漢江流域NDVI數(shù)據(jù)為例,探索了一種多源異構(gòu)數(shù)據(jù)融合技術(shù),主要結(jié)論如下。
(1)基于機(jī)器學(xué)習(xí)的多源數(shù)據(jù)融合技術(shù)具有速度快、準(zhǔn)確度高、經(jīng)濟(jì)高效等優(yōu)勢,本研究面向自然資源信息提取領(lǐng)域,形成了一個(gè)多源異構(gòu)數(shù)據(jù)智能融合技術(shù)方法,可實(shí)現(xiàn)數(shù)據(jù)高效利用與特征空間快速優(yōu)選。
(2)以漢江流域?yàn)槔?,基于隨機(jī)森林算法,融合了3種異源NDVI數(shù)據(jù)產(chǎn)品,構(gòu)建了NDVI回溯預(yù)測子模型,獲得了2000—2019年漢江流域NDVI逐年時(shí)空分布數(shù)據(jù)集,模型交叉驗(yàn)證決定了系數(shù)R2為0.86,空間分辨率為1 km。模型從多源數(shù)據(jù)中優(yōu)化提取了數(shù)據(jù)特征空間,與原有單一數(shù)據(jù)產(chǎn)品相比,模擬結(jié)果更貼近實(shí)際,數(shù)據(jù)質(zhì)量有所提升。
(3)漢江流域植被變化與區(qū)域人類活動(dòng)密切相關(guān),兩者相關(guān)系數(shù)分布存在顯著的空間異質(zhì)性,正相關(guān)區(qū)主要為流域東北部區(qū)域,負(fù)相關(guān)區(qū)主要為流域中游耕地地區(qū)與城市周邊區(qū)域。人類活動(dòng)對植被的影響受國家政策、經(jīng)濟(jì)發(fā)展等多方面因素控制。