劉 海,蘇本躍
(1.安慶師范大學 計算機與信息學院,安徽 安慶 246133;2.國家林業(yè)和草原局華東調(diào)查規(guī)劃設(shè)計院,浙江 杭州 340019)
森林是陸地生態(tài)系統(tǒng)中的重要組成部分,具有巨大的固碳功能,并且在維護生態(tài)安全、應(yīng)對氣候變化中發(fā)揮著特殊作用。蓄積量是林業(yè)調(diào)查中的一項重要指標,它能夠衡量森林資源的豐富程度以及健康程度,也直接反映了森林的經(jīng)營成效。遙感技術(shù)已被廣泛應(yīng)用于各個領(lǐng)域,而林業(yè)遙感技術(shù)作為其中一個不可或缺的組成部分,不僅可以獲取林業(yè)資源管理的數(shù)據(jù),更能進一步揭示林業(yè)經(jīng)營管理的生態(tài)影響。定量遙感是指在基于模型知識的基礎(chǔ)上,依據(jù)可測參數(shù)值去反推目標值,這一過程也被稱作為模型反演。激光雷達等遙感數(shù)據(jù)應(yīng)用于森林測樹因子的定量估測反演一直是林業(yè)科研的主要方向。雙重抽樣是以一個大樣本估測權(quán)重,用一個較小的樣本估測蓄積量,采用誤差估計方法來計算兩重樣本估測精度的算法。研究主要是利用激光雷達點云數(shù)據(jù)進行森林蓄積量反演,構(gòu)建反演模型,并通過優(yōu)化兩重抽樣算法,形成基于兩步回歸估計的森林蓄積量反演結(jié)果與人工驗證結(jié)果的精度估算。
在森林蓄積量反演的遙感估測方法中有兩個重要的中間環(huán)節(jié)。一是特征提取。被動光學圖像(可見光、多光譜、高光譜)主要是提取光譜特征,與冠幅有關(guān)的冠幅大小、形狀、閉合度等,以及紋理特征,而LiDAR主要提取單木的三維冠層結(jié)構(gòu)特征、點云強度特征,組成特征向量集;二是反演模型的選擇。多元逐步回歸和隨機森林是近些年來頻繁使用的分類器,森林蓄積量的遙感估測基本流程如圖1所示。研究主要側(cè)重于遙感估測的模型反演與反演結(jié)果的精度計算,因此,具體激光雷達數(shù)據(jù)的獲取及處理暫不在研究研討的范圍之內(nèi)。
圖1 森林蓄積量的遙感估測基本流程
z
表示,實地調(diào)查的用y
表示,回歸方程為y
=α
+βz
+ε
,(1)
小班平均蓄積估計為
(2)
(3)
總體蓄積總量估計為
(4)
(5)
(6)
估計值的誤差限為
(7)
大樣本時u
005可取1.
96。估計精度為(8)
系統(tǒng)整理分析現(xiàn)有森林參數(shù)反演方法,目前基于LiDAR信息反演森林生物量或蓄積量的各類建模方法,較為適合廣域范圍尺度,估測精度較高的主要有隨機森林和多元線性回歸等反演模型。
(1)隨機森林模型。隨機森林模型可以看作是決策樹模型的一個升級,而決策樹模型是一種基于有監(jiān)督的機器學習算法的數(shù)學模型。其基本思想首先是從根節(jié)點開始,對實例的某一特征值進行測試,然后根據(jù)測試結(jié)果將實例分配到其子節(jié)點,此時每個子節(jié)點都對應(yīng)著該特征的一個取值,如此遞歸地對實例進行測試并分配,直到到達葉節(jié)點,最后實例就被完全分到葉節(jié)點的類中。隨機森林模型對樣本進行了重采樣,并且對特征也進行了隨機選取,形成多棵樹,再通過投票的方式?jīng)Q定數(shù)據(jù)分類。
(2)多元線性回歸模型。多元線性回歸是森林蓄積量遙感估測的常用算法,其主要思想是利用線性回歸方程的最小平方函數(shù)對多個自變量和因變量之間關(guān)系進行建模的一種回歸分析。這種函數(shù)為帶有多個回歸系數(shù)的模型參數(shù)的線性組合,其模型公式為
y
=β
+β
x
+β
x
+…+β
x
+ε
,(9)
式中,y
為因變量;β
、β
、…、β
為參數(shù);x
、x
、…、x
為自變量;ε
為誤差。運用在估計中,公式就變成
(10)
采用最小二乘法估計,即求
(11)
在建立回歸模型時,需要對自變量進行選擇,一般采用顯著性檢驗的方法對統(tǒng)計量進行篩選,其主要流程是:將一個或一個以上的自變量引入回歸模型中時,是否使殘差平方和(SSE
)顯著減少。如果增加一個自變量使殘差平方和(SSE
)顯著減少,則說明有必要將這個變量引入回歸模型中,否則,沒有必要將這個變量引入回歸模型中。確定在模型中引入自變量x
是否使殘差平方和(SSE
)顯著減少的方法,就是使用F
統(tǒng)計量的值作為一個標準,以此來確定在模型中增加一個自變量,還是從模型中剔除一個自變量。變量選擇方式分為三種:①向前選擇。第一步:對k
個自變量分別與因變量y
的一元線性回歸模型,共有k
個,然后找到F
統(tǒng)計量的值最大的模型及其自變量x
并將其首先引入模型。第二步:在已經(jīng)引入模型的x
的基礎(chǔ)上,再分別擬合x
與模型外的k
-1個自變量的線性回歸模型,挑選出F
值最大的含有兩個自變量的模型,依次循環(huán)、直到增加自變量不能導(dǎo)致SSE
顯著增加為止。②向后剔除。第一步:先對所有的自變量進行線性回歸模型。然后考察小于k
個去掉一個自變量的模型,使模型的SSE
值減小最少的自變量被挑選出來從模型中剔除。第二步:考察p
-1個再去掉一個自變量的模型,使模型的SSE
值減小最少的自變量被挑選出來從模型中剔除,直到剔除一個自變量不會使SSE
值顯著減小為止,這時,模型中所剩自變量自然都是顯著的。③逐步回歸。在向前選擇的基礎(chǔ)上,當引入一個變量后,首先查看這個變量是否使得模型發(fā)生顯著性變化(F
檢驗),若發(fā)生顯著性變化,再對所有變量進行t
檢驗。當原來引入的變量由于后面加入的變量的引入而不再顯著變化時,則剔除此變量,確保每次引入新的變量之前回歸方程中只包含顯著性變量,直到既沒有顯著的解釋變量選入回歸方程,也沒有不顯著的解釋變量從回歸方程中剔除為止,最終得到一個最優(yōu)的變量集合。研究采用安徽省2019年金寨等9縣(市)LiDAR反演森林蓄積量試點項目的激光點云數(shù)據(jù)及785個樣地數(shù)據(jù)進行建模。從LiDAR數(shù)據(jù)中計算提取46個與高度相關(guān)的、10個點云密度相關(guān)的及42個與強度相關(guān)的,共計98個統(tǒng)計變量,參與建模。
模型的評價和檢驗是評價模型好壞的關(guān)鍵工作,研究在評價LiDAR森林蓄積量模型時,將調(diào)整確定系數(shù)(adjR
)、估計值的標準差(SEE
)、均方根誤差(RMSE
)、相對均方根誤差(rRMSE
)4項指標作為基本評價指標,計算公式如下:(12)
(13)
(14)
(15)
(16)
不同的精度估測方法會從不同的角度采用不同的參數(shù)反映反演結(jié)果的優(yōu)劣。一般情況下,adjR
表示根據(jù)自變量的變異來解釋因變量的變異部分,adjR
值越接近于1,估測值與真實值的擬合情況越好。RMSE
是均方誤差的平方根,用來衡量預(yù)測值與真實值之間的誤差情況;rRMSE
是無量綱統(tǒng)計指標,反映模型精度情況,通常rRMSE
<10%表示模型精度非常好,10%<rRMSE
<20%表示模型精度較好,20%<rRMSE
<30%表示模型精度一般,rRMSE
>30%表示模型精度較差。考慮到模型反演的結(jié)果(由于不同模型得到的評價指標并不完全相同,所以比較各算法模型的指標不是上文中的全部指標)、運行速度以及可解釋性的強弱,研究最后采用多元逐步回歸的方法,兩者的比較如表1所示。
表1 兩種算法的adjR2及運行時間比較
根據(jù)安徽省森林資源狀況及地形地貌,分地形分樹種建立13個蓄積量估測模型:柏木、平原闊葉純、平原闊葉混、丘陵闊葉混、丘陵杉類、丘陵松類、丘陵針闊混、山區(qū)闊葉純、山區(qū)闊葉混、山區(qū)杉類、山區(qū)松類、山區(qū)針闊混、楊。研究中建模過程都在Spss Modeler上進行,硬件環(huán)境為Intel?Core(TM)i9-9900K 3.6 GHz CPU,64 G內(nèi)存;操作系統(tǒng)是Windows 10。建模過程中采用隨機分組10次10折交叉驗證方法確定最優(yōu)模型參數(shù)。各模型通過0.
05置信水平的顯著性檢驗,變量無自相關(guān)性,VIF
均小于10,不存在多重共線性。具體模型結(jié)構(gòu)及評價指標如表2所示。從表2中可以看出,LiDAR反演蓄積結(jié)果擬合度相對較好,調(diào)整決定系數(shù)在0.
53~0.
93之間,平均決定系數(shù)約0.
74,均方根誤差RMSE
在(0.
58~2.
77)立方米/
畝,均值1.
6 立方米/
畝;相對均方根誤差rRMSE
在(0.
15~0.
48)范圍內(nèi),均值0.
32,達到當前公認研究水平(0.
2~0.
4)。表2 安徽省十區(qū)縣點云密度不足1個每平米的模型結(jié)構(gòu)及評價指標
在遙感反演森林蓄積量的過程中都會涉及到反演精度的估算,而在廣域范圍的實際生產(chǎn)應(yīng)用過程中,為了獲得更為良好的成果,往往除了使用遙感反演以外,都會匹配相應(yīng)的人工驗證,因此,結(jié)合人工驗證結(jié)果計算精度也是值得探討的問題。
為了驗證安徽省2019年金寨等9縣(市)LiDAR反演森林蓄積量的精度,采集了兩重驗證樣本:第一重樣本為利用高清遙感影像、2014年森林資源規(guī)劃設(shè)計調(diào)查成果、2016年LiDAR反演得到的森林蓄積及2019年LiDAR反演得到的森林蓄積等數(shù)據(jù)源,進行人工修正,獲得修正后喬木林小班蓄積;第二重樣本分山區(qū)、丘陵和平原三種類型,依據(jù)《安徽省森林資源規(guī)劃設(shè)計調(diào)查實施細則》,實地調(diào)查采集喬木林小班的林分相關(guān)因子,再由每公頃蓄積計算出小班蓄積。兩重樣本采用兩步回歸估計方法,計算金寨等9縣(市)LiDAR反演喬木林蓄積的精度和估測區(qū)間。
(1)人工基于多源數(shù)據(jù)的修正樣本。修正樣本利用高清遙感影像、2014年森林資源規(guī)劃設(shè)計調(diào)查成果、2016年LiDAR反演蓄積及2019年LiDAR反演蓄積等數(shù)據(jù)源,進行人工修正后獲得。人工修正喬木林小班總數(shù)31 659個,占喬木林小班總數(shù)254 086的12.46%,其中,平原修正10 791個,丘陵修正3 439個,山區(qū)修正17 429個。經(jīng)過修正,在喬木林小班中有1 610個小班實際為非林地或無林地,占驗證小班數(shù)的5.09%。
表3 人工修正喬木林小班數(shù)統(tǒng)計表
(2)人工基于現(xiàn)地驗證的修正樣本。為驗證2019年金寨等9縣(市)LiDAR反演喬木林蓄積的估測精度,按照平原、丘陵、山區(qū)三種類型,在人工修正小班中抽取部分喬木林小班開展現(xiàn)地驗證?,F(xiàn)地驗證喬木林小班總數(shù)5 560個,其中,平原驗證1 876個,丘陵驗證1 655個,山區(qū)驗證2 029個?,F(xiàn)地驗證小班總數(shù)占喬木林小班總數(shù)的2.09%,占人工修正喬木林小班數(shù)的17.56%。
表4 現(xiàn)地驗證喬木林小班數(shù)統(tǒng)計表
因為雙重回歸抽樣估計法不能利用全覆蓋的激光雷達數(shù)據(jù)信息,為了充分利用人工修正和現(xiàn)地驗證兩重樣本,對LiDAR反演蓄積估測區(qū)間和精度進行估測,所以采用改進的兩重回歸估計——兩步回歸估計方法:①通過在人工修正數(shù)據(jù)與LiDAR反演蓄積數(shù)據(jù)之間建立第一重樣本的回歸模型,計算人工修正數(shù)據(jù)估計值;②通過建立現(xiàn)地讀數(shù)據(jù)與第一重樣本之間的回歸模型,計算總體LiDAR反演喬木林小班的蓄積估計值;③兩重樣本之間采用雙重回歸估計公式,獲得LiDAR反演蓄積總體的估測區(qū)間和精度。
(1)人工修正數(shù)據(jù)與LiDAR反演蓄積數(shù)據(jù)之間的回歸。利用具有人工修正喬木林小班數(shù)據(jù)為因變量z
,對應(yīng)的LiDAR反演蓄積數(shù)據(jù)為自變量x
,建立回歸方程z
=a
+bx
+ε
,(17)
其估計形式為
(18)
(19)
其估計形式為
(20)
(21)
式中,n
為現(xiàn)地驗證小班數(shù),即參與建立回歸模型(3)的小班數(shù)量,計算參數(shù)的方差矩陣。(22)
式中,D
(α
)、D
(β
)分別為參數(shù)α
、β
的方差;cov
(α
,β
)為參數(shù)之間的協(xié)方差。根據(jù)式(12)計算出總體LiDAR反演喬木林小班的蓄積估計值。這里的cov
(α
,β
)均為用式(10)計算得到的估計值。(3)LiDAR反演喬木林總體蓄積及精度估算??傮w蓄積量估計值為
(23)
(24)
估計值的誤差限和估計精度與兩重回歸相同。
依據(jù)前面的估測方法,以人工修正喬木林蓄積為第一重樣本、現(xiàn)地驗證喬木林蓄積為第二重樣本,采用雙重回歸估計方法對金寨等9縣(市)LiDAR反演喬木林蓄積進行估測,獲得總體及平原、丘陵、山區(qū)三個地貌類型的蓄積樣本檢驗精度如表5所示(蓄積量估測值及估測區(qū)間因為數(shù)據(jù)成果的保密性,因此不便展示)。樣本檢驗結(jié)果表明,LiDAR反演喬木林蓄積總體精度在90%以上,符合蓄積量產(chǎn)出精度要求。
表5 現(xiàn)地驗證喬木林小班數(shù)統(tǒng)計表
研究主要對森林蓄積量進行了基于激光雷達遙感數(shù)據(jù)的模型反演,依照評價體系選取了多元線性回歸數(shù)學模型作為反演模型,采用隨機分組10次10折交叉驗證方法確定最優(yōu)模型參數(shù),反演模型的擬合能力較強,模型精度也較好。針對實際生產(chǎn)應(yīng)用中,常運用人工驗證結(jié)果來反映反演精度,研究采用了兩步回歸估計方法,既兼顧了激光雷達數(shù)據(jù)信息反演的結(jié)果,又結(jié)合了人工修正和現(xiàn)地驗證數(shù)據(jù)的結(jié)果,得到了整個反演方法的精度估算,結(jié)果也十分良好。