羅為檢
(國家林業(yè)和草原局中南調查規(guī)劃設計院,長沙,410014)
森林是地球上最大的有機碳庫,在陸地碳循環(huán)中發(fā)揮著不可替代的作用。為了實現森林的多功能服務并且對其進行可持續(xù)經營管理,人們則需要在時間和空間上了解其資源分布和發(fā)展的信息[1]。傳統(tǒng)的森林資源信息獲取方法都是通過森林資源一類、二類調查獲得的,這種方式雖然可以獲得較為準確的數值,但是其工作量巨大,同時需要耗費大量的人力、物力和財力,并且在有些特殊環(huán)境條件下,調查人員無法到達目標區(qū)域。因此,遙感技術在森林資源調查中的應用潛力早已被研究人員所發(fā)掘[2]。
近幾十年,隨著不同傳感器的發(fā)射,利用遙感技術提取森林參數的方法與技術也發(fā)展的十分迅速。在諸多遙感數據中,光學遙感數據從上世紀70年代就已經開始研究,其研究時間最長,技術積累最多,數據源最豐富,數據性能最穩(wěn)定,不僅可以用于地物識別,而且已廣泛應用于遙感定量觀測研究。在早期的森林資源檢測過程中,所使用的遙感數據以中低分辨率為主,如MODIS、NOAA/AVHRR、Landsat TM/ETM+等遙感數據常被用于森林遙感監(jiān)測。在1995年,Gemmel利用TM遙感數據,并探究了許多遙感因子與蓄積量的關系,他的實驗結果說明郁閉度對蓄積量的影響程度最大,其次是TM數據的第4波段和第5波段,這為其他學者在蓄積量的研究提供了重要的理論的基礎[3];Fazakas使用TM數據,通過KNN算法在瑞典對一部分森林估測了蓄積量,其實驗結果表明,將遙感影像多個像元結合起來與地面特征對應相比于單一像元估測精度更高,結果更有說服力[4]。還有如Labrecque(2006)、Alkan(2012)、Gizachew(2016)等學者使用Landsat系列數據在估算森林的蓄積量以及生長量的問題上做出了大量的研究,他們的實驗結果均證明了Landsat系列遙感數據具備很好的林分參數估測潛力[5-7]。
中國的國土面積位居世界第三,截止到2020年3月,中國的森林覆蓋率更是達到22.96%,超過總陸地面積的五分之一。在我國當前的林業(yè)發(fā)展與建設綠水青山的大社會背景下,準確的繪制出森林的蓄積量分布已經成為當前一個極為重要的研究內容。介于此,本研究以湖南省株洲市為研究區(qū),采用Landsat8 OLI為遙感數據源,通過最大信息系數對遙感變量進行篩選,并構建多元線性回歸模型和基于四種不同核函數的支持向量機回歸模型對研究區(qū)的森林蓄積量進行估測,使用十折交叉的驗證方法進行精度驗證。為市域級單位的森林蓄積量估測提供理論依據和技術支持。
株洲市位于湖南省東部,湘江下游,地理坐標為北緯26°3′5″~28°1′7″、東經112°57′30″~114°7′15″(見圖1)。研究區(qū)總面積11 262 km2,森林覆蓋率42.2%。該地區(qū)四季分明,雨量充沛、光熱充足,風向冬季多西北風,夏季多正南風,年降水量1 400~1 700 mm,年日照時間1 400 h,無霜期在286 d以上,年平均氣溫17 ℃,屬亞熱帶季風性濕潤氣候。
圖1 研究區(qū)位置圖
本次研究以2014年湖南森林資源二類調查的樣點調查數據中的活立木蓄積量作為研究樣本,每個樣地大小為25 m×25 m,通過計算樣本的標準差對樣本進行篩選,剔除離群值較大的樣本后余下90個樣點作為研究樣本,樣點的活立木蓄積量最大值為526.96 m3/hm2、最小值為51.97 m3/hm2、平均值為257.15 m3/hm2、標準差為112.63 m3/hm2,樣本的森林蓄積量分布51~530 m3/hm2,變異系數為45.8。樣點分布如圖2所示。
圖2 樣本分布圖
研究使用的Landsat8遙感影響拍攝于2013年8月,與地面調查時間基本一致。用于研究的影像包括藍、綠、紅、近紅外及兩個短波紅外在內的6個波段。用ENVI5.3軟件實現數據的預處理(包括輻射定標、大氣校正、幾何校正和地形校正)[8-10]。將樣點位置通過ARCGIS軟件導入到遙感影像中,并提取樣地所在像元的灰度值作為該樣點的遙感因子。
本次實驗中通過遙感影像提取出用于建模的遙感變量共131個,包括遙感因子和地形因子兩類。其中遙感因子有:Landsat8 OLI的單波段、植被指數和紋理共生矩陣[11-16](見表1、表2);地形因子有海拔、坡度和坡向。
表1 植被指數計算公式
表2 紋理特征計算方法
如果將提取的所有變量都帶入模型中,則會導致信息冗余和模型的可解釋性降低,因而要對特征變量進行篩選。常用的變量降維方法有Pearson相關系數(PC)和隨機森林重要性(RF)等。其中,PC是判斷變量之間線性關系的強弱,且可以表示出變量的單調性,但PC只對線性關系敏感,對于非線性變化的變量則無法用其數值來體現,某一些特征變量可能與蓄積量存在非線性關系[15];隨機森林(RF)選擇變量是通過決策樹算出每個變量平均減少了多少不純度,并把它平均減少的不純度作為特征選擇的值,但是這種方法存在偏向,對具有更多類別的變量會更有利,所以這中變量的降維方法主要用于圖像的分類[16]。
最大信息系數(MIC)是通過對連續(xù)型變量實施不等間隔的離散化尋優(yōu)來挖掘變量之間的線性和非線性關系,同時還可以廣泛地挖掘出特征之間的非函數依賴關系[17]。最大信息系數的計算方法如下:
利用互信息和網格劃分方法來進行計算.其中互信息可以看成一個隨機變量中包含的關于另一個隨機變量的信息量,或者說是一個隨機變量由于已知另一個隨機變量而減少的不肯定性。在本實驗中,森林蓄積量(F)與遙感變量(R)的互信息I(F;R)定義為
式中:P(F,R)為F和R的聯合概率密度;P(F)和P(R)分別為F和R的邊緣概率分布密度。
將F分別與每一個R看作為一個數據集A,把F的取值范圍劃分為a個區(qū)間,R的取值范圍劃分為b個區(qū)間,這樣在F-R的散點圖上來看,所有的點就被分為a×b個區(qū)間,數據集A在不同的區(qū)間劃分方法中,會得到不同的數據分布情況,不同區(qū)間劃分方式中的最大值即為最大信息值,經歸一化處理后得到最大信息系數(MIC),其數學表達式為:
式中:B(n)=n0.6。
最大信息系數是衡量兩個變量之間相關性(包括線性相關和非線性相關)大小的一種標準,由公式可知,其取值分布在0到1之間,取值越大,則說明相關性越強,反之則越弱。
最大信息系數相比于線性相關系數具有普適性和公平性的優(yōu)點[18]。當樣本數足夠多時,最大信息系數可以反應出變量之間的線性和非線性關系,同時也能反映出非函數依賴關系的強弱,并且能為不同類型的單噪生成都相似的關系給出相近的最大信息系數值。
支持向量機模型的主要思想是將低維空間中的向量用非線性函數映射到一個高維特征空間,在高維空間中尋求線性回歸超平面,從而解決低維空間中的非線性問題[19]。在支持向量機回歸模型中,核函數的選擇是極為重要的一個環(huán)節(jié),選擇不同的核函數將會直接影響模型的預測性能[20]。因此,本實驗應用4種常見的核函數(見表3)構建了4種支持向量機模型(多項式核的PK-SVR模型、徑向基核的RK-SVR模型、拉普拉斯核的LK-SVR模型和Sigmoid核的SK-SVR模型[21]),探討最適合用于森林蓄積量估測的核函數。
表3 支持向量機核函數
本研究中,應用十折交叉驗證方法并計算模型預測結果的決定系數(R2)和相對均方根誤差(RRMSE)對模型進行精度驗證與評價[22]。
由表4可知,通過計算遙感變量與森林蓄積量的最大信息系數將遙感變量進行排序,其中最大信息系數最高的前10個變量,由于部分遙感變量間存在較為嚴重的共線性問題,如這10個變量中的藍波段與綠波段,通過共線性診斷,最后確定建模的遙感變量為B3、IARV、IEV、IRV25、ISAV0.35。
表4 遙感變量最大信息系數
由圖3可知,4種不同核函數的支持向量機回歸模型均取得了較好的擬合結果,其決定系數(R2)均大于0.5,其中多項式核的模型擬合結果最好,其決定系數(R2)為0.61。
圖3 5種模型實測值與預測值散點圖
由圖4可知,4種不同核函數的支持向量機回歸模型的預測結果的樣本殘差值都在100m3·hm-2之內,當蓄積量真實值在小于300m3·hm-2時,殘差基本均勻分布在X軸兩側,當真實值大于300m3·hm-2時,殘差基本都在X軸上方且遠離X軸,表示模型對該樣本存在較為嚴重的低估。
A為多項式核的模型(PK-SVR);B為徑向基核的模型(RK-SVR);C為拉普拉斯核的模型(LK-SVR);D為Sigmoid核的模型(SK-SVR);E為多元線性回歸模型(MLR)。
由表5可知,4種不同核函數的支持向量機回歸模型的估測精度均明顯高于多元線性回歸模型,相對均方根誤差比多元線性回歸模型降低了5~10個百分點,其中多項式核模型的估測結果最佳,其決定系數為0.61,均方根誤差為69.26m3·hm-2,相對均方根誤差為31.2%。
表5 不同模型的預測結果
由圖5可知,4中模型對于研究區(qū)的總體蓄積量估測分布規(guī)律基本一致,總體來說,研究區(qū)南部及東南部森林分布較為集中,蓄積量較大;在北部及中部地區(qū),人為活動較多,森林覆蓋相對分散,蓄積量較小。
PK-SVR為多項式核的模型,LK-SVR為拉普拉斯核的模型,LK-SVR為Sigmoid核的模型,PK-SVR為徑向基核的模型。
本研究以湖南省株洲市為研究區(qū),以Landsat8OLI數據作為遙感數據源和同時期的林業(yè)二調數據,分別構建了多項式核模型(PK-SVR)、徑向基核模型(RK-SVR)、拉普拉斯核模型(LK-SVR)、Sigmoid核模型(SK-SVR)和多元線性回歸模型(MLR)等蓄積量估測模型,并使用十折交叉方法進行精度驗證,得到了以下結論:利用Landsat8OLI數據進行森林蓄積量的估測時,4種核模型均取得了較好的擬合結果,并且其均方根誤差都低于25%,說明使用Landsat8OLI遙感數據構建核蓄積量估測模型是可行的;4種核模型的估測結果均明顯優(yōu)于多元線性回歸模型,RK-SVR模型取得了最佳的估測結果,說明徑向基核函數在4種核函數模型中對森林蓄積量估測的精度最高。
核模型比傳統(tǒng)的線性模型更強的蓄積量估測能力,通過4種不同的核函數進行對比,當核函數不同時,核模型的蓄積量預測結果有明顯的差異,可見核函數的選擇對核模型的預測結果具有決定性的作用。通過殘差分析發(fā)現,當蓄積量的真實值小于300m3·hm-2時,各模型的預測結果相對于總體來說較為準確并且殘差均勻的分布在X軸兩端;當蓄積量真實值大于300m3·hm-2時,幾種模型的預測結果并不理想,均存在著較為嚴重的低估。當蓄積量大于300m3·hm-2時,森林的光譜反射率達到飽和,隨著蓄積量的增加,其光譜值不再發(fā)生變化,導致使用數學模型對大蓄積量樣本進行預測時,估測值始終在300m3·hm-2左右。因此,在預測蓄積量較大的成熟林或過熟林時有待進一步研究。