陳 磊,薛東劍,代 優(yōu)
(成都理工大學地球科學學院,四川成都 610059)
森林是碳儲藏庫和衡量生態(tài)系統(tǒng)平衡的關(guān)鍵指標之一,準確估測森林地上生物量(above-ground biomass,AGB)對于了解氣候變化、維持生態(tài)系統(tǒng)平衡具有不可代替的作用[1-3].同時,林業(yè)是國家經(jīng)濟發(fā)展的重要組成部分,森林儲蓄量是衡量國家林業(yè)資源的關(guān)鍵指標,進行森林地上生物量估測,具有重要的自然和社會經(jīng)濟價值[4].傳統(tǒng)的森林地上生物量估測方法主要以野外實地測量為主,此方法雖然精度高、估測準確,但因其耗時、耗力、耗材且在偏遠山區(qū)和地質(zhì)條件復雜的地區(qū)難以實施,難以運用在連續(xù)大范圍的生物量監(jiān)測[5]方面.隨著遙感技術(shù)不斷發(fā)展,借助其高效、動態(tài)、宏觀優(yōu)勢快速獲取各個尺度的森林參數(shù),已成為區(qū)域或全球大尺度森林資源動態(tài)監(jiān)測和定量評價的重要工具[6].
利用光學遙感、激光雷達和微波遙感數(shù)據(jù)結(jié)合實測樣地數(shù)據(jù)進行森林地上生物量反演已成為國內(nèi)外學者研究的熱點并取得了顯著成果[7-10].合成孔徑雷達(Synthetic Aperture Radar,SAR)技術(shù),波長較長,對森林有一定的穿透能力,能有效獲取森林樹干結(jié)構(gòu)特征,且具有全天時、全天候大范圍連續(xù)動態(tài)監(jiān)測等優(yōu)點,彌補光學遙感和激光雷達的缺點,在森林地上生物量反方面具有巨大潛力[11-14].陳爾學[15]等利用SIR-C/X兩個波段的SAR數(shù)據(jù),采用極化干涉測量數(shù)據(jù)處理方法和樹高反演算法,應用于平均樹高的提??;張國飛[16]等利用Sentinel數(shù)據(jù)通過線性回歸和機器學習算法估測了滇池湖濱森林地上生物量.除了數(shù)據(jù)源,森林地上生物量反演方法的選擇也十分關(guān)鍵.參數(shù)化方法主要是基于數(shù)理統(tǒng)計的線性回歸方法,譚炳香、李增元[17]等利用Hyperion高光譜數(shù)據(jù)采用逐步多元線性回歸定量估測森林郁閉度,精度達到86.34%.Kronseder[18]等利用全波形激光雷達數(shù)據(jù)建立多元線性回歸模型應用于熱帶森林地上生物量的估測,解釋了樣地71%的變化.潘磊[19]等以Sentinel-1 SAR數(shù)據(jù)的紋理信息構(gòu)建回歸模型估測森林生物量,R2達到0.716.非參數(shù)化方法主要是通過建立實測數(shù)據(jù)和特征變量的非線性關(guān)系而實現(xiàn)的,菅永峰[20]等基于GF-2和SPOT-6衛(wèi)星的紋理信息和光譜信息構(gòu)建隨機森林模型,兩者精度分別為R2=0.88、R2=0.89.陳爾學[21]等利用Landsat TM數(shù)據(jù)采用K最近鄰法(K-NN)對小面積統(tǒng)計單元森林蓄積進行了估測,平均誤差低于1.5 m3·hm-2;Gleason[22]等利用機載激光雷達數(shù)據(jù),對比分析線性混合效應(LME)回歸、支持向量機(SVR)和Cubist四種建模技術(shù)在生物量估測上的有效性.
本文以Sentinel-1 SAR為數(shù)據(jù)源,分別提取VV、VH極化下的后向散射系數(shù)和四個不同大小窗口下的紋理特征,結(jié)合坡度、坡向、高程三個地形信息,采用多元線性回歸和隨機森林進行建模反演,對比分析兩種模型的精度,以探索采用微波遙感數(shù)據(jù)和非線性方法在森林地上生物量反演上的能力.
研究區(qū)位于美國弗吉尼亞州東南部和北卡羅來納州東北部,地理位置為36°26′-36°46′N、76°34′-76°21′W,面積約637 km2,距離大西洋海岸不到64 km.迪斯默爾沼澤屬于副熱帶濕潤氣候,年均溫19℃,年平均降水量為(117~137)cm,地形以平原為主,地勢平坦、起伏小.研究區(qū)及實測樣地數(shù)據(jù)如圖1所示.
圖1 研究區(qū)位置及樣地分布圖
(1)雷達數(shù)據(jù)及處理.采用的Sentinel-1A數(shù)據(jù)來源于歐空局,影像成像時間為2015年9月18日,數(shù)據(jù)類型為干涉寬幅模式(IW)斜距單視復數(shù)(SLC)影像,極化方式為VV、VH,空間分辨率為5 m×20 m,入射角為43.99°.對Sentinel-1 IW SLC影像進行精密軌道校正、多視處理、Frost濾波處理,利用ASTGTM2 30 m分辨率的DEM進行地形校正、輻射定標和地理編碼,最后將圖像轉(zhuǎn)換為以分貝為單位的后向散射系數(shù)圖.
(2)樣地調(diào)查數(shù)據(jù).研究區(qū)樣地調(diào)查數(shù)據(jù)來源于美國地質(zhì)調(diào)查局于2014年夏季收集地塊級現(xiàn)場數(shù)據(jù),使用Trimble ProXH全球定位系統(tǒng)(GPS)記錄每個樣地的中心位置,并進行差分校正.每塊樣地的半徑設(shè)置為5.6 m,共計83塊樣地調(diào)查數(shù)據(jù).
(1)紋理特征:影像紋理特征提取采用灰度共生矩 陣(GLCM),GLCM于20世 紀70年 代 由Haralick[23]等人提出,它是圖像像元之間的角度和距離二者的函數(shù),該矩陣中的值表示的是圖像中某個像元與某一個距離和方向處指定像元的像元值出現(xiàn)的次數(shù).本研究采用4個不同大小的窗口(3×3、5×5、7×7、9×9)下的4個不同方向:0°(從左到右)、45°(從左下到右上)、90°(從下到上)、135°(從右下到左上)來計算8個常用紋理變量.
(2)地形特征:利用DEM數(shù)據(jù)分別提取坡度、坡向、高程三個特征.
本研究提取了VV、VH后向散射系數(shù),VV、VH極化下4個窗口的8種紋理特征,坡度(Slope)、坡向(Aspect)和高程(Elevation)三個地形特征,共計69個特征.特征變量類型、名稱和個數(shù)見表1.
表1 特征變量因子
2.3.1 多元線性回歸模型
回歸分析的目的是分析兩個或兩個以上的變量間是否存在相關(guān)性以及相關(guān)方向和強度.構(gòu)建多元線性回歸模型的任務主要包括:根據(jù)多個響應變量和解釋變量的實測值來構(gòu)建線性方程;分析各個響應變量對解釋變量的綜合線性影響顯著性;評價各個響應變量與解釋變量的相關(guān)性及各個響應變量之間的共線性;選擇出對解釋變量有顯著影響的最優(yōu)解釋變量建立回歸模型.多元線性回歸模型的一般表達式為:
其中,y為生物量實測值,x1,x2,···,xn為特征變量,β0為常數(shù),β1,β2,···,βn為回歸系數(shù),n為預測變量個數(shù),ε為誤差項.
2.3.2 隨機森林模型
隨機森林(RF)是由Breiman[24]于2001年提出的一種基于決策樹的分類、回歸算法,由于隨機森林每顆決策樹都隨機地選擇部分樣本和部分特征,故該模型可以很好地避免過擬合問題,具有很好的抗噪能力和較好的穩(wěn)定性,適合并行計算且運算速度和精度都較高.隨機森林通過自助法bootstrap重采樣技術(shù),從原始訓練樣本集中隨機有放回的抽取2/3樣本生成新的訓練集合訓練決策樹,同時從所有特征中選擇m個特征來確定決策樹節(jié)點,按照以上步驟生成n顆決策樹組成隨機森林.該模型需要調(diào)整的參數(shù)為決策樹的數(shù)目(ntree)和節(jié)點分類時的變量個數(shù)(mtry).經(jīng)多次運行,根據(jù)決策樹數(shù)目和誤差之間的關(guān)系圖確定最優(yōu)的數(shù)目和變量個數(shù).
2.3.3 模型最優(yōu)特征變量的選擇
在多元線性回歸和隨機森林兩個模型中選擇出最優(yōu)的特征變量進行建模是決定預測精度的重要因素.使用逐步回歸法選擇多元線性回歸模型的最優(yōu)特征變量,隨機森林法選擇隨機森林模型的最優(yōu)特征變量.
逐步回歸的思想是將變量逐個引入模型,每引入一個解釋變量后都要進行F檢驗,并對已經(jīng)入選的解釋變量逐個進行t檢驗,當原來引入的解釋變量由于后面引入的解釋變量變得不再顯著時,則將其刪除,以確保每次引入新的變量之前回歸方程中只包含顯著性變量.此過程直到既沒有顯著的解釋變量選入回歸方程,也沒有不顯著的解釋變量從回歸方程中刪除為止,以保證最后所得到的變量集是顯著的、最優(yōu)的.
隨機森林算法對解釋變量重要性進行度量,選擇出重要性高的解釋變量.隨機森林使用Inc-NodePurity(Increase in Node Purity)值對解釋變量重要性進行排序,通過殘差平方和來度量,其代表了每個變量對決策樹每個節(jié)點上觀測值的異質(zhì)性的影響,該值越大表示變量重要性越高.
利用逐步回歸法和隨機森林法進行最優(yōu)變量選擇的結(jié)果見表2.其中,逐步回歸法選擇出的變量按照進入順序進行排列,隨機森林法選擇出的變量按照重要性進行排列.
表2 最優(yōu)變量選擇結(jié)果
由表2可知,在地形信息中,兩種方法均篩選出坡度(Slope)作為最優(yōu)變量,且重要性大于其他所有特征;VV極化下的紋理特征更多地參與到森林地上生物量反演建模中.坡度(Slope)信息對于森林生物量估測具有重要作用,VV極化下的紋理特征在森林生物量估測中更具有穩(wěn)定性,地形信息和微波遙感提取的紋理特征在生物量反演中具有較大潛力.
多元線性回歸模型:根據(jù)逐步回歸法選擇出的最優(yōu)變量作為自變量,實測樣地生物量作為因變量構(gòu)建回歸模型,即:
隨機森林模型:根據(jù)決策樹數(shù)目和誤差之間的關(guān)系圖選擇最優(yōu)的數(shù)目.經(jīng)過多次調(diào)試,根據(jù)圖2,當決策樹數(shù)目為300以后,誤差趨于平穩(wěn),將隨機森林法選擇出的最優(yōu)變量代入模型進行建模反演.
圖2 決策樹數(shù)目和模型誤差關(guān)系圖
為定量分析參數(shù)和非參數(shù)模型在森林地上生物量的反演精度,進行多元線性回歸模型和隨機森林模型的反演,結(jié)果見圖3.多元線性回歸模型的預測結(jié)果較為離散,R2為0.458,均方根誤差(RMSE)為65.822 t/hm2,預測精度較差;隨機森林模型的預測值和實測值較為吻合,R2為0.697,均方根誤差為43.957 t/hm2,預測精度較好.因此,隨機森林模型在森林地上生物量預測上效果更好.
圖3 多元線性回歸模型(上)和隨機森林模型(下)預測結(jié)果
從兩個模型的預測值和實測值的比較可以看出,兩種模型都存在對低生物量過高估計,對高生物量過低估計的問題.基于多元線性回歸模型的森林地上生物量預測值最低為31.68 t/hm2,最高為438.08 t/hm2,與之對應的實測值為90.18 t/hm2和588.35 t/hm2,彈性幅度較大,表現(xiàn)出明顯飽和的特點,該模型各組數(shù)據(jù)相對誤差較大.基于隨機森林模型的森林地上生物量預測值最低為91.97 t/hm2,最高為473.8 t/hm2,與之對應的實測值為41.34 t/hm2和588.35 t/hm2,當生物量小于150 t/hm2和大于270 t/hm2時,相對誤差最大,平均相對誤差為61.03 t/hm2,生 物 量 在150 t/hm2和270 t/hm2之 間時,相對誤差最小,平均相對誤差為6.69 t/hm2.
本文以美國迪斯默爾沼澤國家野生動物保護區(qū)為研究對象,利用Sentinel-1 SAR數(shù)據(jù)對比分析隨機森林和多元線性回歸模型在生物量反演中的精度.隨機森林方法相比于多元線性回歸方法更適用于森林地上生物量反演.多元線性回歸方法以數(shù)理統(tǒng)計為理論基礎(chǔ),便于分析解釋變量和響應變量之間的線性因果關(guān)系,但難以描述森林地上生物量與遙感數(shù)據(jù)間復雜的非線性因果關(guān)系,容易造成估測值與實測值之間的偏差過大.隨機森林方法不依賴于特定的函數(shù)分布,能夠有效的在大數(shù)據(jù)集上運行,處理高維度數(shù)據(jù),不容易出現(xiàn)過擬合問題,可以對變量重要性進行排序,既提升了變量特征選擇效率,又提高了森林地上生物量估測精度.