摘 要:基于93個濕地蘆葦?shù)厣仙锪浚ˋGB)實測樣本數(shù)據(jù)和原始光譜(R)反射率及其數(shù)學變換,包括一階微分(R′)、二階微分(R\")、倒數(shù)(1/R)和積分(∫R),采用競爭性自適應重加權算法(Competitive Adaptive Reweighted Sampling,CARS),進行敏感波段篩選后,采用逐波段組合法(Band Combination Index, BCI)構建19種不同組合形式的雙波段和三波段優(yōu)化植被指數(shù),使用極端梯度提升(eXtreme Gradient Boosting, XGBoost),提升回歸樹(Boosted Regression Tree, BRT)和隨機森林(Random Forest, RF)三種算法,基于優(yōu)化植被指數(shù)分別建立蘆葦AGB的預測模型。結果表明:蘆葦AGB與微分變換后的優(yōu)化植被指數(shù)之間的相關性均有所提升,其中經(jīng)R\"變換的相關系數(shù)最大為0.56;XGBoost、BRT和RF基于微分變換構建的AGB模型R2均大于0.5,均可用于濕地蘆葦AGB的估算;經(jīng)過R\"變換后,RF模型為最優(yōu)模型,R2為0.65,RMSE為0.234kg/m2,是預測蘆葦AGB的最優(yōu)模型,可為準確獲取濕地蘆葦AGB提供可靠方法。
關鍵詞:光譜變換;蘆葦AGB;機器學習;逐波段組合法;優(yōu)化植被指數(shù)
中圖分類號:TP79" 文獻標識碼:A" 文章編號:1673-260X(2025)01-0079-07
濕地是在水陸交互作用下,形成的獨特生態(tài)系統(tǒng),是全球氣候變化最為敏感的生態(tài)系統(tǒng)之一[1],具有極高的生態(tài)和研究價值,在全球碳循環(huán)中發(fā)揮著不可替代的作用,在蓄洪防旱、保護生物多樣性、調節(jié)氣候等方面,同樣發(fā)揮著不可或缺的作用[2]。濕地生態(tài)系統(tǒng)十分復雜,濕地植被作為重要組成部分之一,不僅可以保護珍稀鳥類資源、維系生態(tài)系統(tǒng)的穩(wěn)定[3,4],其地上生物量(Aboverground biomass, AGB)還可以作為濕地生態(tài)系統(tǒng)健康的重要指標[5],是碳循環(huán)評估和濕地初級生產(chǎn)力的重要參數(shù)[6]。蘆葦濕地具有很強適應性和抗逆性[7],在陸地生態(tài)系統(tǒng)固碳和全球碳循環(huán)中發(fā)揮著重要作用。因而,如何對區(qū)域蘆葦AGB進行監(jiān)測,并進行定量估算,對濕地資源可持續(xù)利用,濕地生態(tài)系統(tǒng)管理和發(fā)展具有重要意義[8]。
傳統(tǒng)的植被AGB測量方法需要人為進行收割、稱重和記錄,工作量大且費時費力,對植被具有破壞性,并且濕地水文條件復雜,可達性差,使得傳統(tǒng)采集任務更為困難[9,10],難以實現(xiàn)空間連續(xù)的有效觀測。隨著遙感技術的發(fā)展,廣泛開展低成本的植被參數(shù)無損觀測成為可能[11]。高光譜數(shù)據(jù)能夠提供連續(xù)的波段、豐富的光譜信息,還擁有較高的光譜分辨率,但同時也造成了數(shù)據(jù)冗余問題[12-14]。光譜指數(shù)可以放大植被、土壤等之間的光譜差異[15]。然而,以往研究大多是通過文獻研究等途徑獲得光譜指數(shù),難以保證其與反演參數(shù)的相關性。為了提高反演參數(shù)的相關性,利用特征波段選擇算法和逐波段組合等方法構建的優(yōu)化后的光譜指數(shù)在植被參數(shù)估算等方面已有成效。競爭性自適應重加權算法(CARS)能夠篩選出與植被AGB相關的特征波段,減少光譜冗余波段,夢珊[16]等采用CARS算法進行特征波段篩選,對土壤碳進行了建模估算,最優(yōu)模型R2為0.81;BCI算法的優(yōu)點是能夠在保留敏感參數(shù)信息的同時減少數(shù)據(jù)冗余,F(xiàn)ang[17]等在BCI方法的基礎上,利用光譜指數(shù)估算了互花米草LAI,模型估算效果較好,RF模型的R2達到0.85。
參數(shù)模型和非參數(shù)模型是植被AGB估算的常用方法。參數(shù)模型易于實現(xiàn),但難以解決數(shù)據(jù)間的多重共線性問題。與參數(shù)模型相比,隨機森林、提升回歸樹、極端梯度提升等機器學習模型能夠更加靈活處理復雜數(shù)據(jù)間的關系和噪聲,在解決非線性擬合問題上具有極強的能力[18],可以提高模型的估測精度,更適用于濕地植被地上生物量的估算[19]。宋柯馨[20]等采用線性模型和RF、XGBoost、SVM等模型,對草地AGB進行建模估算,結果表明RF優(yōu)于線性模。楊可樂[21]等對竹林AGB進行了建模估算,結果表明XGBoost模型比多元線性回歸模型更適用于竹林AGB估算。雖然RF、XGBoost等方法在植被AGB中有許多潛在的應用,但目前尚缺乏機器學習算法結合高光譜數(shù)據(jù)對蘆葦AGB進行建模估算。
本文利用實測高光譜數(shù)據(jù)與蘆葦?shù)厣仙锪?,在SG平滑和光譜變換基礎上,利用CARS和BCI相結合的方法,優(yōu)化構建不同處理下對蘆葦AGB敏感的高光譜指數(shù),分別采用XGBoost、BRT和RF三種機器學習方法建立蘆葦AGB的估算模型,分析各模型的估測精度,探求可用于估測濕地蘆葦AGB的最優(yōu)估算方法,以期為估算濕地蘆葦AGB總量提供方法和科學依據(jù)。
1 材料與方法
1.1 研究區(qū)概況
研究區(qū)選擇唐山曹妃甸典型的濱海蘆葦濕地,長度和寬度分別為560m和380m,屬于東部季風區(qū)溫帶半濕潤氣候,年均降雨量為636mm,年均溫度為11℃。該地四季分明,濕地生物多樣性豐富,有利于候鳥的遷徙和繁殖棲息。研究區(qū)內主要植被為蘆葦,濕地中水源充足,光照良好,人際活動較少,蘆葦植株生長高大、茂盛,實測蘆葦AGB平均干重為1.01kg/m2,平均株高為1.4m。研究區(qū)及采樣點如圖1所示。
1.2 數(shù)據(jù)來源與處理
1.2.1 蘆葦?shù)厣仙锪坎杉?/p>
于2023年5月31日采集蘆葦?shù)厣仙锪?,依?jù)全面性、代表性和典型性的樣地選取原則[22],在研究區(qū)內隨機選擇樣地,每個樣地之間的間隔約為30~40m,在每個樣地內設置1個樣方,樣方大小為0.5m×0.5m的,記錄每個樣方內的植株密度,以及中心位置的經(jīng)緯度坐標。對樣方內的蘆葦采用齊根收割方式獲取樣方內植物的地上部分,隨機選取5株,放置于保鮮箱內,迅速帶至實驗室,稱取鮮重,用烘箱105℃條件下進行殺青,時間為2h,然后在85℃條件下進行烘干,烘24h至恒重,再稱量作為干重(精度0.01g)。最終,根據(jù)每個樣方內獲得的5株蘆葦?shù)纳锪坑嬎愠雒總€樣方內的蘆葦AGB,再將其換算為單位面積內蘆葦?shù)牡厣仙锪浚膊杉行J葦?shù)厣仙锪繕颖?3個。單位面積蘆葦AGB計算公式如下:
AGB=AGBavg×D" (1)
公式(1)中,AGB表示樣地單位面積內蘆葦?shù)厣仙锪?;AGBavg表示樣方內隨機割取的5株樣本蘆葦AGB的均值;D為植株密度,是單個樣方內的蘆葦總株數(shù)。
1.2.2 實測高光譜曲線及預處理
高光譜反射率測定于2023年5月31日,光照條件良好、低風無云時進行光譜采集,以避免光照和天氣等外部因素對實測數(shù)據(jù)的影響。使用ASD Field Spec4野外便攜式高光譜儀,該儀器是由美國ASD(Analytical Spectral Devices)公司生產(chǎn)的。儀器的光譜測定范圍是350~2 500nm,不同波段范圍有著不同采樣間隔,例如在350~1 000nm波段范圍內,采樣間隔為1.4nm。每次測量之前,采用白板進行標定,來保證數(shù)據(jù)的準確性,每個樣品測取10條光譜曲線。原始光譜曲線處理使用View Spec Pro軟件,導入10條光譜曲線,取平均值。為避免由于環(huán)境和儀器等原因產(chǎn)生的誤差,對原始光譜信息進行Savitzky-Golay(SG)算法平滑去噪得到R。對R做4種光譜變換:一階微分(R′)、二階微分(R\")、倒數(shù)(1/R)和積分(∫R),4種變換處理采用Origin Pro 2021完成。
1.3 優(yōu)化植被指數(shù)構建
高光譜數(shù)據(jù)包含大量波段,存在信息冗余和多重共線性等問題,正確選取對蘆葦AGB敏感性強的波段及波段組合是提高模型擬合精度的關鍵。本文通過CARS選取敏感波段,BCI算法構建雙波段和三波段優(yōu)化植被指數(shù)。
Cars算法是一種敏感波段篩選算法。核心算法是能夠自適應調整各波段的選擇概率,通過等概率采樣來建立PLS模型,依據(jù)PLS模型的回歸系數(shù)更新各波段的選擇概率,然后引入指數(shù)衰減函數(shù)來剔除不需要的波段,循環(huán)多次直至選擇概率收斂,確定建模所需波段。該算法的模型穩(wěn)定度較高,能夠通過PLS回歸系數(shù)來反映各波段的重要性,避免欠擬合和過擬合現(xiàn)象的產(chǎn)生。
BCI的基本原理是將任意兩個或三個波段組合起來構建植被指數(shù),并與AGB進行線性相關分析,通過比較相關系數(shù)得到最優(yōu)植被指數(shù)。優(yōu)化植被指數(shù)具有更高的相關性,能夠更好的提高模型預測的可靠性。本文使用CARS篩選后的敏感波段進行BCI算法,增強其對AGB的敏感性。本研究基于原始和變換光譜構建19個優(yōu)化植被指數(shù),如表1所示。
1.4 模型構建
本研究使用優(yōu)化植被指數(shù)作為預測蘆葦AGB的輸入變量,同時采用隨機法劃分數(shù)據(jù)集,70%用于訓練集,30%用于驗證集。為了比較不同模型對于AGB估測的效果,構建了XGBoost、BRT和RF三種模型,使用網(wǎng)格搜索法設置機器學習模型的超參數(shù)組合,選擇當RMSE最小時的超參數(shù),作為模型的最優(yōu)超參數(shù),同時基于十折交叉驗證,來將所有的變量進行遍歷。模型構建基于R語言實現(xiàn)。
1.4.1 極端梯度提升
極端梯度提升(XGBoost)是一個基于決策樹的強大預測模型。該算法采用加權迭代法生成決策樹,下一次迭代生成的決策樹在上一次迭代的基礎上進行訓練,將所有決策樹的結果相加得到預測結果。XGBoost還包括L1和L2正則化項,從而增強模型對難以預測樣本的擬合能力。不同于傳統(tǒng)梯度提升機(GBM),XGBoost模型優(yōu)化了運行速度,提高了精度。在實際應用中能夠防止過擬合現(xiàn)象的產(chǎn)生,且具有較高的精度。
1.4.2 提升回歸樹
提升回歸樹(BRT)是一種統(tǒng)計模型,結合了回歸樹和增長方法,核心是將多個弱學習器進行組合,形成一個強學習器。基于boosting策略,在每一次的迭代中,初始化數(shù)據(jù)的權重分布,并使用當前數(shù)據(jù)權重分布來訓練新的決策樹。與梯度提升樹不同的是該方法在損失函數(shù)擬合方面用的是平方損失,以獲得最優(yōu)損失函數(shù)。BRT有很強的適應性,在適應各種類型的變量的同時還能夠處理數(shù)據(jù)中的缺失值。
1.4.3 隨機森林
隨機森林(RF)是一種基于集成學習思想的算法。該算法由多個決策樹構成,通過決策樹來對數(shù)據(jù)進行建模,同時將預測的結果進行集成,以提高模型的穩(wěn)定性和性能。在RF中,每棵決策樹在進行隨機選擇子樣本后,在子樣本上獨立的進行訓練,增加了模型的隨機性,提高了組合決策樹模型對AGB預測的精度,具有較強的抗噪聲性,可以防止過擬合現(xiàn)象的產(chǎn)生[23]。最終的回歸結果是通過將多個決策樹的預測結果進行加權得到的。
1.5 精度評價指標
采用3個指標來對模型的估算效果進行評價:(1)決定系數(shù)R2(Determination Cofficient,R2),(2)均方根誤差RMSE(Root Mean Square Error, RMSE),(3)平均絕對誤差MAE(Mean absolute error, MAE)。R2表示自變量和因變量的相關程度,R2的值在0~1之間,R2值越接近于1,表示模型的擬合效果越好;RMSE用于衡量預測值與真實值之間的誤差,RMSE越小,表示模型的預測結果越好;MAE表示絕對誤差的平均值,MAE越小,表示模型的精度越高。計算公式如下:
R2=" (2)
RMSE=" (3)
MAE=" (4)
式中:Yi為實測蘆葦AGB,Y′i為預測蘆葦AGB,為實測蘆葦AGB的平均值,N為樣本數(shù)。
2 結果與分析
2.1 蘆葦?shù)墓庾V特征
對蘆葦原始光譜進行變換后,光譜曲線變化如圖2所示,蘆葦?shù)脑脊庾V曲線具有典型的健康植被光譜特征。例如,在可見光波段,蘆葦葉片反射率受葉綠素等色素吸收的作用,呈現(xiàn)出較低的反射率;在550nm附近,由于會強烈反射綠光,呈現(xiàn)出反射峰;在670nm附近,葉綠素對紅光進行吸收,呈現(xiàn)吸收谷;在680nm~760nm范圍內蘆葦葉片呈現(xiàn)出反射“陡坡”;在770nm~940nm的近紅外波段內,呈現(xiàn)出極高反射率;而在短紅外波段,呈現(xiàn)出水分吸收谷。數(shù)學變換后的蘆葦光譜特性明顯改變。一階微分(R′)的曲線波動劇烈,使得原始光譜的上升和下降趨勢更為明顯;二階微分(R\")的光譜反射率在0周圍浮動,反映原始曲線的凹凸性;經(jīng)過倒數(shù)(1/R)變換后,蘆葦?shù)墓庾V反射率曲線整體與原始的相反且更加聚集;經(jīng)過積分(∫R)變換后,蘆葦光譜曲線呈現(xiàn)出逐漸遞增的趨勢。
2.2 優(yōu)化植被指數(shù)與AGB相關性
由不同變換下的優(yōu)化植被指數(shù)與AGB相關性(表2)可知,AGB與微分變換下的優(yōu)化植被指數(shù)相關性明顯提高,最高可達0.56;進過1/R變換后,優(yōu)化植被指數(shù)與AGB之間的相關性沒有變化;經(jīng)過∫R變換后,二者相關性反而下降,例如NDVI與AGB的相關性由0.28下降到了0.23。結果表明,對R經(jīng)過合適的變換能夠消除一定的噪聲,增強植被指數(shù)和AGB之間的相關性。在同一變換下,發(fā)現(xiàn)三波段優(yōu)化植被指數(shù)的相關性要明顯高于雙波段優(yōu)化植被指數(shù),如在二階微分變換下,三波段優(yōu)化植被指數(shù)NVI與蘆葦AGB的相關性為0.52,雙波段優(yōu)化植被指數(shù)NDVI與蘆葦AGB的相關性為0.43,表明在三波段選取的光譜信息更為豐富,更好的捕獲了傳統(tǒng)植被反射率指數(shù)無法覆蓋的植被信息,使得優(yōu)化植被指數(shù)與蘆葦AGB呈現(xiàn)出強相關性。
2.3 模型對比分析
對蘆葦原始光譜經(jīng)過4種變換,微分變換后的建模效果顯著優(yōu)于倒數(shù)和積分變換,見表3。原始光譜經(jīng)過微分變換后,反射率與蘆葦AGB之間的關系轉換為了反射率的斜率與蘆葦AGB之間的關系,有效消除了反射率中存在的噪聲;倒數(shù)變換在3種建模方法中與原始數(shù)據(jù)表現(xiàn)相近,表明簡單的算術運算并不能充分挖掘出光譜中的有效信息;積分變換后的建模效果有所降低,表明積分變換不能提高對蘆葦AGB的敏感性。由此表明對R經(jīng)過合適的變換能夠更好的消除外界因素對植被指數(shù)的影響,以增強優(yōu)化植被指數(shù)對蘆葦AGB的敏感性。
三種機器學習算法中,微分變換下的優(yōu)化植被指數(shù)建立的模型R2均高于經(jīng)其他變換所建立模型的R2,而RMSE和MAE的值則要低于其他(表3)。例如,RF中二階微分(R\")變換下的優(yōu)化植被指數(shù)建立的模型效果最好,R2為0.65,RMSE為0.234 kg/m2,MAE為0.196kg/m2,與原始光譜(R)相比,R2提升了38.3%,RMSE和MAE分別降低了11.7%和12.5%。而不同變換對不同模型的估測效果有著顯著差異,XGBoost模型R2集中于0.35~0.58,BRT模型R2集中于0.36~0.57,RF模型R2集中于0.43~0.65;在XGBoost模型中,估測效果最好的是一階微分(R′)變換,而在BRT模型和RF模型中,建模效果最好的是二階微分(R\")變換。綜合評價以RF與二階微分(R\")變換建模效果最好,模型R2為0.65,RMSE為0.234kg/m2,MAE為0.196kg/m2。
利用優(yōu)化植被指數(shù)和3種回歸模型進行建模,圖3顯示了3種回歸模型各自的最優(yōu)模型蘆葦AGB實測值和預測值的散點圖,從圖中可以看出,RF模型的蘆葦AGB實測值和預測值的擬合曲線比XGBoost和BRT更接近1:1線,其次是BRT和XGBoost模型,結果表明,RF模型的預測值更接近實測值,更適用于估算蘆葦AGB。
3 結論
基于3種回歸模型和優(yōu)化植被指數(shù)建立蘆葦AGB的高光譜預測模型,重點討論了不同變換下建立的蘆葦AGB回歸模型的估測效果,表明對光譜進行微分變換可以有效提升蘆葦AGB的建模估測精度,具體結論如下:
(1)對原始光譜反射率進行變換后提取優(yōu)化植被指數(shù),發(fā)現(xiàn)三波段優(yōu)化植被指數(shù)與蘆葦AGB的相關性要高于雙波段,表明三波段選取的光譜信息更為豐富,更好的捕獲了傳統(tǒng)植被反射率指數(shù)無法覆蓋的植被信息,使得優(yōu)化植被指數(shù)與蘆葦AGB呈現(xiàn)出強相關性。
(2)基于優(yōu)化植被指數(shù)建立XGBoost、BRT和RF三種模型,微分變換后的建模效果顯著優(yōu)于倒數(shù)和積分變換,表明微分變換可以有效消除誤差,提高優(yōu)化植被指數(shù)對蘆葦AGB的敏感性。
(3)基于R\"變換下建立的RF模型R2是0.65,RMSE是0.234kg/m2,MAE是0.196kg/m2,是預測濕地蘆葦AGB的最優(yōu)模型。
——————————
參考文獻:
〔1〕董李勤,章光新.全球氣候變化對濕地生態(tài)水文的影響研究綜述[J].水科學進展,2011,22(03):429-436.
〔2〕Barbier B E, Hacker D S, Kennedy C, et al. The value of estuarine and coastal ecosystem services[J]. Ecological Monographs,2011,81(02):169-193.
〔3〕唐娜,崔保山,趙欣勝.黃河三角洲蘆葦濕地的恢復[J].生態(tài)學報,2006,(08):2616-2624.
〔4〕程嘉偉,鄧昶身,魯長虎.蘇州太湖湖濱人工種植和原生蘆葦濕地鳥類群落[J].動物學雜志,2014, 49(03):347-356.
〔5〕田艷林,劉賢趙,毛德華,等.基于MODIS數(shù)據(jù)的松嫩平原西部蘆葦濕地地上生物量遙感估算[J].生態(tài)學報,2016,36(24):8071-8080.
〔6〕Jensen D, Cavanaugh C K, Simard M, et al. Integrating Imaging Spectrometer and Synthetic Aperture Radar Data for Estimating Wetland Vegetation Aboveground Biomass in Coastal Louisiana[J]. Remote Sensing,2019,11(21):2533.
〔7〕梁雪,賀鋒,徐棟,等.人工濕地植物的功能與選擇[J].水生態(tài)學雜志,2012,33(01):131-138.
〔8〕厲成偉,趙萌,陶燕東,等.濱海濕地植被-土壤相互作用及其對沉積環(huán)境分異的響應格局[J].生態(tài)學雜志,2018,37(11):3305-3314.
〔9〕劉潤紅,梁士楚,趙紅艷,等.中國濱海濕地遙感研究進展[J].遙感技術與應用,2017,32(06):998-1011.
〔10〕朱遠輝,柳林,劉凱,等.紅樹林植物生物量研究進展[J].濕地科學,2014,12(04):515-526.
〔11〕Bilige S, Guangzhi R, Suri G, et al.Retrieving SPAD Values of Summer Maize Using UAV Hyperspectral Data Based on Multiple Machine Learning Algorithm[J]. Remote Sensing,2022,14(21):5407-5407.
〔12〕Anting G, Wenjiang H, Yingying D, et al. Wheat Yellow Rust Detection Using UAV-Based Hyperspectral Technology[J]. Remote Sensing,2021,13(01):123-123.
〔13〕Milica C, Kang Y, Mladen T, et al. Hyperspectral Vegetation Indices to Assess Water and Nitrogen Status of Sweet Maize Crop[J]. Agronomy,2022,12(09):2181-2181.
〔14〕孫煜焱,董建軍,王秀梅.基于ASD地物光譜儀反演錫林郭勒典型草原地上生物量模型研究[J].草地學報,2024,32(07):2234-2244.
〔15〕Wenjing F, Hongfen Z, Shuai L, et al. Rapid Identification of Main Vegetation Types in the Lingkong Mountain Nature Reserve Based on Multi-Temporal Modified Vegetation Indices[J]. Sensors,2023,23(02):659-659.
〔16〕孟珊,李新國,焦黎.基于CARS算法的湖濱綠洲土壤表層有機碳估算[J].環(huán)境科學與技術,2022,45(08):218-225.
〔17〕Fang H, Man W, Liu M, et al. Leaf Area Index Inversion ofSpartina alternifloraUsing UAV Hyperspectral Data Based on Multiple Optimized Machine Learning Algorithms[J]. Remote Sensing,2023,15(18):115-121.
〔18〕張清文,吳風華,宋敬茹,等.基于光譜變換的濱海濕地土壤全氮含量建模預測[J].土壤,2023,55(04):880-886.
〔19〕Prakriti S, Larry L, Jiyul C, et al. Above-Ground Biomass Estimation in Oats Using UAV Remote Sensing and Machine Learning[J]. Sensors,2022,22(2):601-601.
〔20〕宋柯馨,蔣馥根,胡宗達,等.西藏自治區(qū)草地地上生物量遙感反演研究[J].生態(tài)學報,2023,43(13):5600-5613.
〔21〕楊可樂,譚艷,郭孝玉,等.集成多源遙感與極限梯度提升的竹林地上生物量估測[J].森林與環(huán)境學報,2024,44(04):431-440.
〔22〕楊曉蕪,滿衛(wèi)東,劉明月,等.浙江濱海濕地互花米草生物量遙感估算模型研究[J].遙感技術與應用,2023,38(06):1445-1454.
〔23〕Yue J, Yang G, Tian Q, et al. Estimate of winter-wheat above-ground biomass based on UAV ultrahigh-ground-resolution image textures and vegetation indices[J]. ISPRS Journal of Photogrammetry and Remote Sensing,2019,150226-244.