宋亞斌,邢元軍,江騰宇,林 輝
(1.國家林業(yè)和草原局 中南調(diào)查規(guī)劃設(shè)計(jì)院,湖南 長沙 410014;2.中南林業(yè)科技大學(xué) 林業(yè)遙感信息工程研究中心,湖南 長沙 410004;3.南方森林資源經(jīng)營與監(jiān)測國家林業(yè)與草原局重點(diǎn)實(shí)驗(yàn)室,湖南 長沙 410004)
森林結(jié)構(gòu)參數(shù)估測是森林可持續(xù)經(jīng)營和生態(tài)環(huán)境監(jiān)測的重要內(nèi)容。森林蓄積量作為森林結(jié)構(gòu)參數(shù)中的一個(gè)重要因子,是組成陸地植被生物量的重要成分之一,是評(píng)價(jià)森林資源數(shù)量與質(zhì)量、反映森林經(jīng)營管理水平的重要因子[1],因此,準(zhǔn)確地估測森林蓄積量對(duì)森林經(jīng)營管理和生態(tài)環(huán)境保護(hù)建設(shè)具有重要意義[2]。
目前主要通過人工方法測量得到森林蓄積量,該方法費(fèi)時(shí)費(fèi)力,是森林資源調(diào)查工作中的難點(diǎn)之一。隨著遙感技術(shù)的發(fā)展,將遙感數(shù)據(jù)與地面數(shù)據(jù)相結(jié)合進(jìn)行建模,估測出森林蓄積量并繪制出其分布圖,是未來森林蓄積量的主要獲取方法。應(yīng)用遙感技術(shù)估測森林蓄積量的研究主要體現(xiàn)在兩個(gè)方面:一是采用不同遙感數(shù)據(jù)源構(gòu)建估測模型,進(jìn)行森林蓄積量估測[3-4];二是采用不同的估測方法,由傳統(tǒng)的線性模型向非線性模型方法轉(zhuǎn)變(如人工神經(jīng)網(wǎng)絡(luò)[5-6]、k 近鄰分類算法等[7-9])。
本研究以湖南省湘潭縣為研究區(qū),采用Landsat8 OLI 作為數(shù)據(jù)源,應(yīng)用線性模型、傳統(tǒng)KNN 算法、距離加權(quán)KNN 算法和優(yōu)化歐式距離的KNN 算法構(gòu)建森林蓄積量模型,使用十折交叉驗(yàn)證方法進(jìn)行精度檢驗(yàn),并對(duì)檢驗(yàn)結(jié)果進(jìn)行對(duì)比分析。為市域尺度的森林蓄積量估測提供理論依據(jù)和技術(shù)支持。
湘潭縣位于南岳衡山北部,湘江下游西岸,長衡丘陵盆地北段,27°20′~28°05′N、112°25′~113°03′E 之間(圖1)。湘潭縣屬中亞熱帶東部常綠闊葉林亞帶,按植被區(qū)系劃分,屬華中偏東亞系。氣候?yàn)閬啛釒Ъ撅L(fēng)濕潤氣候,冬夏兩季長,春秋兩季短,暑熱期長,嚴(yán)寒期短,熱量充足,雨水集中,光、溫、水空間分布差異小,災(zāi)害性天氣較多,具有明顯的大陸性氣候特征。
圖1 研究區(qū)位置Fig.1 Location of the study area
1.2.1 數(shù)據(jù)處理
本次研究采用2014年湘潭縣森林資源二類調(diào)查的地面數(shù)據(jù)作為研究樣本,每個(gè)樣地大小為25 m×25 m,樣地分布如圖2所示,運(yùn)用標(biāo)準(zhǔn)差分析方法進(jìn)行篩選,剔除了離群值較大的樣本點(diǎn)后留下120個(gè)樣點(diǎn)作為實(shí)驗(yàn)樣本。
1.2.2 遙感數(shù)據(jù)的獲取及處理
研究中所使用的遙感數(shù)據(jù)為2014年與二調(diào)同時(shí)期的Landsat8 OLI 影像,包括藍(lán)、綠、紅、近紅外及兩個(gè)短波紅外在內(nèi)的6個(gè)波段,由于Coastal 波段主要用于觀測海岸線,因此在這里沒有使用該波段。在ENVI5.3 軟件中實(shí)現(xiàn)數(shù)據(jù)的預(yù)處理過程,包括輻射定標(biāo)、大氣校正、正射校正、幾何校正和地形校正[10-12]。將樣地位置通過ARCGIS 軟件導(dǎo)入到遙感影像中,并提取樣地所在像元的DN 值作為該樣地的遙感因子。
圖2 樣地分布Fig.2 Sample plot distribution
本次研究所提取的建模因子包括遙感因子與地形因子兩個(gè)方面,其中遙感因子有:Landsat8 OLI 影像的7個(gè)單波段、植被指數(shù)[13]以及7個(gè)單波段的紋理共生矩陣;地形因子包括:海拔、坡度和坡向(地形因子使用研究區(qū)DEM 影像提?。?。
如果將所有的候選變量都用于訓(xùn)練模型,則會(huì)導(dǎo)致信息沉余[14-15],并且使得模型的可解釋性降低,因此要對(duì)所提取的建模因子進(jìn)行篩選[16-17]。目前在同類研究中,最常用的變量選擇方法為Pearson 相關(guān)系數(shù)。但Pearson 相關(guān)系數(shù)只能度量變量與蓄積量間的線性相關(guān),并且必須服從正態(tài)分布假設(shè)。因此,本次研究使用距離相關(guān)系數(shù)來衡量變量與蓄積量的相關(guān)性,并選擇出更加適合估測蓄積量的變量。距離相關(guān)系數(shù)彌補(bǔ)了Pearson相關(guān)系數(shù)的不足,它不僅能反映變量間的線性關(guān)系,也可以表示變量間的非線性關(guān)系[18],并且不需要任何的模型假設(shè)和參數(shù)條件。距離相關(guān)系數(shù)的計(jì)算方法如下:
同理計(jì)算dcov(u,u)和dcov(v,v)。
K 近鄰(k-nearest neighbor,KNN)算法,是一個(gè)理論上比較成熟的方法,也是最簡單的機(jī)器學(xué)習(xí)算法之一,并且已經(jīng)被廣泛的應(yīng)用于林分參數(shù)估計(jì)和蓄積量反演的研究中[19-21]。該方法的思路是:通過找出一個(gè)樣本的K個(gè)最近鄰居,將這些鄰居的屬性的平均值賦給該樣本,就可以得到該樣本的屬性。也有學(xué)者在給樣本賦值時(shí),將不同距離的鄰居對(duì)樣本產(chǎn)生的影響給予不同的權(quán)重,再把根據(jù)此權(quán)重計(jì)算K個(gè)鄰居的加權(quán)平均值賦值給樣本,構(gòu)成一種給予距離加權(quán)的KNN 算法[22-24]。
傳統(tǒng)的KNN回歸模型在計(jì)算距離時(shí),每一個(gè)特征在計(jì)算距離時(shí)具有均等的貢獻(xiàn),沒有考慮到樣本各個(gè)自變量與蓄積量的相關(guān)性。因此,本次研究提出一種基于優(yōu)化歐式距離的KNN 算法,此算法在計(jì)算歐式距離時(shí),將各特征與蓄積量的距離相關(guān)系數(shù)作為權(quán)重,重新計(jì)算了樣本間的距離具體公式如下:
根據(jù)優(yōu)化的歐氏距離,將所有訓(xùn)練樣本重新排序,并根據(jù)距離加權(quán)KNN的方法將k個(gè)鄰居的值賦值給預(yù)測樣本。
本次實(shí)驗(yàn)使用十折交叉方法進(jìn)行精度驗(yàn)證[25],以決定系數(shù)(R2)均方根誤差(RMSE),相對(duì)均方根誤差(RRMSE%)[26]3個(gè)指標(biāo)對(duì)蓄積量估測模型進(jìn)行評(píng)價(jià),3個(gè)指標(biāo)的計(jì)算方法如下:
式(6)~式(8)中,yi為樣地蓄積量的估測值,y為樣地蓄積量的實(shí)測值,為樣地蓄積量實(shí)測值的平均值,N為樣地總數(shù)。
本實(shí)驗(yàn)根據(jù)各個(gè)特征與蓄積量間的距離相關(guān)系數(shù)(DC)將所有特征進(jìn)行排序,從第一個(gè)特征開始依次加入KNN模型中,當(dāng)加入第7個(gè)變量時(shí),模型的決定系數(shù)(R2)開始減小,因此取前6個(gè)特征作為本次試驗(yàn)的建模變量,特征選擇結(jié)果見表1。
表1 變量選擇結(jié)果Table1 Variable selection results
研究中通過十折交叉驗(yàn)證的方法對(duì)所有樣本進(jìn)行預(yù)測,3種模型下樣本的預(yù)測值和實(shí)測值的散點(diǎn)圖(圖3),通過散點(diǎn)圖和殘差圖可以看出3種模型都取得了較好的擬合結(jié)果,其R2均大于0.6,且殘差均勻的分布在橫軸的兩側(cè)。
為了進(jìn)一步比較3種KNN模型對(duì)蓄積量的估測結(jié)果,分別計(jì)算模型的均方根誤差(RMSE)和相對(duì)均方根誤差(RRMSE%)并匯總(表2)。
由表2可以看出,3種KNN模型的估測結(jié)果均高于傳統(tǒng)的線性模型,并且在3種KNN模型中,F(xiàn)W-KNN 取得了最好的擬合結(jié)果,其決定系數(shù)達(dá)到0.69,為3種模型中最高;3種KNN模型中,F(xiàn)W-KNN模型取得了最高的估測精度,其相對(duì)均方根誤差為30.3%,相比于傳統(tǒng)KNN模型降低了5.1個(gè)百分點(diǎn),相比于FW-KNN模型降低了3.3個(gè)百分點(diǎn)。
圖3 3種模型反演結(jié)果Fig.3 Inversion results of three models
表2 模型精度驗(yàn)證比較Table2 Comparison of model accuracy verification
研究以湖南省湘潭縣為研究區(qū),采用Landsat8 OLI數(shù)據(jù)與同時(shí)期的二調(diào)數(shù)據(jù)結(jié)合起來,分別構(gòu)建了MLR、KNN、DW-KNN 以及FW-KNN 4種蓄積量估測模型,使用十折交叉方法進(jìn)行精度檢驗(yàn),得到了以下結(jié)論:
1)在使用Landsat8 OLI 影像估測蓄積量的過程中,3種KNN模型均取得了良好的擬合效果,說明利用Landsat8 OLI 影像信息構(gòu)建KNN 蓄積量估測模型是可行的。
2)3種KNN模型的估測結(jié)果遠(yuǎn)高于傳統(tǒng)的線性模型,說明利用遙感數(shù)據(jù)估測蓄積量時(shí),KNN算法要優(yōu)于傳統(tǒng)線性模型。
3)傳統(tǒng)的KNN模型在計(jì)算樣本間距離時(shí)沒有考慮到特征與蓄積量的相關(guān)性并且在給樣本賦值時(shí)也沒有考慮到預(yù)測樣本與鄰居的距離,本次研究中對(duì)這兩點(diǎn)進(jìn)行了優(yōu)化,并構(gòu)建了一種FWKNN模型,其估測誤差相比于傳統(tǒng)KNN模型降低了5.1%,說明通過特征與蓄積量的相關(guān)性優(yōu)化樣本間的距離是一種較好的KNN 優(yōu)化方法。
在本研究中,KNN模型相比于線性模型在估測森林蓄積量中表現(xiàn)出了更加強(qiáng)大的預(yù)測能力,并且本研究對(duì)傳統(tǒng)的KNN 算法進(jìn)行了優(yōu)化,在計(jì)算距離時(shí)考慮到了特征與蓄積量的相關(guān)性以及給預(yù)測樣本賦值時(shí)加入了樣本與K個(gè)鄰居的距離作為權(quán)重,為KNN模型的優(yōu)化方法提供參考。本研究中,所有的樣本均使用一個(gè)K值,但每一個(gè)樣本的最佳K值并沒有找到,因此,如何找到每一個(gè)樣本所對(duì)應(yīng)的最佳K值還有待進(jìn)一步研究。