顧及變量相關(guān)性的主成分分析法在森林蓄積量估測中的應(yīng)用1)

2022-04-06 06:07崔博文佘濟(jì)云張廷琛劉兆華王瀟

東北林業(yè)大學(xué)學(xué)報 2022年2期

崔博文佘濟(jì)云張廷琛劉兆華王瀟

(中南林業(yè)科技大學(xué)，長沙，410004)

森林是地球上最重要的資源之一，是生物多樣性的基礎(chǔ)，人類生存發(fā)展的保障[1]。森林蓄積量是評判森林質(zhì)量的重要指標(biāo)，森林蓄積量指一定森林面積存在的林木樹干部分的總材積，能夠直接反映森林資源的豐富程度，所以，精準(zhǔn)且迅速地對森林蓄積量進(jìn)行預(yù)測具有非常重要的意義。

傳統(tǒng)的森林蓄積量統(tǒng)計雖然準(zhǔn)確率較高，但是需要耗費大量的人力及物資，目前隨著計算機技術(shù)、遙感(RS)、地理信息系統(tǒng)等技術(shù)的逐漸成熟，通過將數(shù)學(xué)模型、遙感影像及部分實地數(shù)據(jù)聯(lián)合，從而對森林蓄積量進(jìn)行反演的研究方法逐漸成為研究的熱點之一。

在進(jìn)行森林蓄積量估測時，遙感變量的篩選尤為重要，過多的數(shù)據(jù)不僅會存在共線性問題，而且會增大計算量;選擇數(shù)據(jù)較少會造成數(shù)據(jù)沒有代表性，結(jié)果不準(zhǔn)確的問題。目前在遙感因子篩選較為常用的方法主要是Pearson相關(guān)系數(shù)法及主成分分析法。劉明艷等[2]以老禿頂子自然保護(hù)區(qū)為研究區(qū)，采用Landsat8 OLI數(shù)據(jù)以及實地數(shù)據(jù)作為數(shù)據(jù)源，通過使用主成分分析法提取變量，構(gòu)建了線性回歸估測模型，模型預(yù)估精度達(dá)到了92.18%；郝瀧等[3]以Landsat8 OLI為遙感數(shù)據(jù)源，森林資源二調(diào)數(shù)據(jù)為地面數(shù)據(jù)源，通過使用主成分分析法對數(shù)據(jù)降維并構(gòu)建多元線性回歸模型，最終精度達(dá)到80.24%；周如意[4]以浙江省龍泉市作為研究區(qū)，通過使用Pearson雙變量相關(guān)性分析方法對自變量進(jìn)行相關(guān)性分析，構(gòu)建模型后估測精度達(dá)到74.96%。

由于Pearson相關(guān)系數(shù)法只能反映變量間線性關(guān)系的強弱[5]，主成分分析法雖可以避免發(fā)生共線性問題，但容易造成數(shù)據(jù)冗余[6]，本研究在原有2種篩選變量方法的基礎(chǔ)上增加了一種先采由Pearson相關(guān)系數(shù)法去除相關(guān)性較小的變量，再對剩余變量進(jìn)行主成分分析的篩選方法(PCA-P)。通過將3種篩選方法所獲得的自變量分別構(gòu)建多元線性回歸模型(MLR)、K最近鄰模型(KNN)、隨機森林模型(RF)、支持向量機模型(SVR)4種蓄積量反演模型，研究不同變量選擇方法及不同模型對蓄積量估測精度的影響，以期得到精度最高、擬合度最好的蓄積量反演估測模型。

1 研究區(qū)概況

選取湖南省懷化市靖州縣排牙山國家森林公園作為研究區(qū)，排牙山國家森林公園的地理坐標(biāo)為109°27′8″～109°37′57″E,26°26′1″～26°35′20″N(圖1)。總面積3 745.41 hm2,以低山地貌為主，地勢中間高，兩邊低，呈帶狀延伸。森林公園屬亞熱帶季風(fēng)濕潤氣候區(qū),氣候溫和,雨量充沛,年均氣溫17.0 ℃,年均降水量為1 250 mm,無霜期為290 d左右。主要成土母巖為紫砂巖，土壤以紫色砂巖發(fā)育而成的紫色土為主。林分類型以杉木人工林為主，林場分類為以保護(hù)為主的生態(tài)公益型林場[7]。

圖1 研究區(qū)位置

2 研究方法

2.1 數(shù)據(jù)來源及處理

2.1.1 地面數(shù)據(jù)來源及預(yù)處理

樣地地面數(shù)據(jù)使用靖州縣森林資源二類調(diào)查數(shù)據(jù)為基礎(chǔ)。由于地面數(shù)據(jù)數(shù)量較大，樹種較為復(fù)雜，本研究所選用的蓄積量估測模型不足以支撐多樹種蓄積量共同反演，因此僅保留杉木樣本作為本次試驗的研究對象。使用標(biāo)準(zhǔn)差分析方法，剔除離散程度較大的樣地點，剩余110個樣地點作為試驗樣地點(圖2)。樣地蓄積量范圍為70.59～507.12 m3·hm-2，標(biāo)準(zhǔn)差為91.34 m3·hm-2,變異系數(shù)為0.35。

圖2 樣地點分布圖

2.1.2 遙感數(shù)據(jù)來源及處理

影像選用與森林資源二類調(diào)查同時期的Landsat8 OLI影像，通過地理空間數(shù)據(jù)云免費下載。對遙感數(shù)據(jù)進(jìn)行輻射定標(biāo)、大氣校正、正射校正、幾何校正、地形校正，再將數(shù)據(jù)矢量化，使單塊樣地的像元亮度值與蓄積量一一對應(yīng)。

2.2 遙感變量提取與篩選

2.2.1 遙感變量的提取

試驗共提取遙感因子83個，包括6個Landsat8OLI單波段因子(由于B1波段用于觀測海岸線、B9為卷云波段所以不計入)、3×3窗口下的8個紋理特征值、通過單波段因子計算得到的69個植被指數(shù)。植被指數(shù)計算公式見表1，其中B2為藍(lán)波段、B3為綠波段、B4為紅波段、B5為近紅外波段、B6為短波紅外1、B7為短波紅外2；L為隨植被密度變化的參數(shù)，L為0.5時消除土壤反射率的效果較好[6]。

表1 植被指數(shù)

2.2.2 特征選擇方法

目前，Pearson相關(guān)系數(shù)法及主成分分析法在篩選變量時應(yīng)用較為廣泛[8]。應(yīng)用Pearson相關(guān)系數(shù)法分別對每個指標(biāo)進(jìn)行分析，其結(jié)果往往是孤立的，并不是綜合的，而盲目減少指標(biāo)會損失很多可能有用的信息，容易出現(xiàn)錯誤的結(jié)論[8]。使用主成分分析法能有效地提取初始數(shù)據(jù)的信息，得到的特征根數(shù)量遠(yuǎn)小于原始變量，每個特征根之間相互獨立，不會出現(xiàn)共線性問題,但如果將全部原始數(shù)據(jù)直接進(jìn)行主成分分析，容易造成數(shù)據(jù)冗余，造成結(jié)果不準(zhǔn)確[9]。為提高準(zhǔn)確性，本研究在原有的2種篩選變量方法基礎(chǔ)上，增加了Pearson相關(guān)系數(shù)法聯(lián)合主成分分析法(PCA-P)篩選變量，即先使用Pearson雙變量相關(guān)系數(shù)法對原始數(shù)據(jù)進(jìn)行篩選，保留相關(guān)性大于0.5的變量，再使用主成分分析法對其進(jìn)行降維。使用這種方法可以綜合考慮所有變量，去除數(shù)據(jù)冗余的同時，保留數(shù)據(jù)的目標(biāo)信息，提高估測精度。

2.3 蓄積量估測模型的構(gòu)建

使用3種篩選方法提取的特征構(gòu)建多元線性回歸、支持向量機、隨機森林法、K最近鄰4種回歸模型。多元線性回歸通常用來研究1個因變量和多個自變量的變化關(guān)系，主要是以多個主要影響因素作為自變量來解釋因變量的變化，當(dāng)多個自變量與因變量之間是線性關(guān)系時，所進(jìn)行的回歸分析就是多元線性回歸[10]。隨機森林算法屬于集成學(xué)習(xí)法中的套袋法，隨機森林模型采用自助法(Bootstarp)有放回地抽樣從原始數(shù)據(jù)中隨機選擇n個樣本構(gòu)建CART決策樹，從所有原始變量中隨機抽取若干個特征變量用于決策樹構(gòu)建，最終組成隨機森林模型。隨機森林算法的優(yōu)點在于其結(jié)果不容易發(fā)生擬合且具有很好的抗噪聲能力，而構(gòu)建模型的關(guān)鍵在于其決策樹的數(shù)量選擇[11-12]。支持向量機的基本原理是通過某種事先選擇的非線性映射將輸入向量x映射到1個高維特征空間，在這個空間中構(gòu)造最優(yōu)分類超平面，從而使正例和反例樣本之間的分離界限達(dá)到最大，優(yōu)化模型的方法是使用結(jié)構(gòu)風(fēng)險最小化原則，其核函數(shù)的選擇將直接影響其估測結(jié)果[13-15]。K最近鄰屬于數(shù)據(jù)挖掘分類中的一種，其基本原理是使用一致類別的樣本作為參考，計算所有已知樣本與未知樣本的距離，最終選取出K個與未知距離最近的已知樣本，采用少數(shù)服從多數(shù)的投票法則來進(jìn)行分類，其關(guān)鍵在于K值的選擇。在應(yīng)用中可采用交叉驗證法來選擇最優(yōu)的K值[16-18]。

本次試驗設(shè)置隨機森林法模型決策樹數(shù)目為100，K最近鄰模型K值從2循環(huán)到50，當(dāng)K=13時，模型精度最好。因此選擇13作為本次試驗K值。

2.4 模型評價

本試驗采用檢驗?zāi)Ｐ偷姆椒榱粢唤徊娣?，分別計算各模型的決定系數(shù)(R2)，均方根誤差(RMSE)，以及相對均方根誤差(RRMSE)3個指標(biāo)對模型進(jìn)行精度評價，指標(biāo)計算公式如下：

(1)

(2)

(3)

式中：yi為估測樣地蓄積量；y為實測樣地蓄積量；N為樣地數(shù)目。

3 結(jié)果與分析

3.1 特征選擇結(jié)果

3.1.1 Pearson相關(guān)系數(shù)法特征選擇結(jié)果

將83個遙感變量進(jìn)行Pearson雙變量相關(guān)性檢驗，在0.01顯著水平上，相關(guān)性大于0.5的遙感變量共17個[19-20]。為保證參與建模變量的準(zhǔn)確性，引入方差膨脹因子(VIF)對遙感變量進(jìn)行共線性分析，去除方差膨脹因子大于10的變量，得到的遙感變量為IB2(相關(guān)性0.716)、IMSR(相關(guān)性0.623)、IND25(相關(guān)性0.597)。

3.1.2 主成分分析法特征選擇結(jié)果

對83個原始變量進(jìn)行主成分分析，分析結(jié)果如表2所示，得到3個主成分，累計貢獻(xiàn)率為93.42%，選擇這3個特征根作為主成分分析法反演蓄積量模型的自變量。

表2 主成分分析

3.1.3 PCA-P特征選擇結(jié)果

計算83個原始變量與蓄積量的Pearson相關(guān)系數(shù)，保留在0.1顯著水平上相關(guān)系數(shù)大于0.5的變量(表3)，并對其進(jìn)行主成分分析，分析結(jié)果如表4所示。共得到2個特征根，累計貢獻(xiàn)率達(dá)到88.992%，選擇這2個主成分作為PCA-P反演蓄積量模型的自變量。

表3 遙感變量與蓄積量的相關(guān)性

表4 PCA-P分析

3.2 構(gòu)建模型結(jié)果

3.2.1Pearson相關(guān)系數(shù)篩選變量蓄積量估測模型構(gòu)建

將通過Pearson相關(guān)系數(shù)法及方差膨脹因子得到的3個遙感變量構(gòu)建蓄積量估測模型，參與構(gòu)建的模型分別為多元線性回歸模型、K最近鄰模型、隨機森林模型、支持向量機模型。分別計算統(tǒng)計各模型的決定系數(shù)、均方根誤差、相對均方根誤差。

由表5可知，通過Pearson相關(guān)系數(shù)篩選得到的變量，在K最近鄰模型中取得了最好的效果，決定系數(shù)為0.50，均方根誤差為49.1 m3·hm-2，模型精度達(dá)到76.7%；線性回歸模型僅次于K最近鄰模型，其模型決定系數(shù)為0.48，精度達(dá)到75.9%；隨機森林模型效果最差，擬合度僅為0.37。K最近鄰模型蓄積量散點圖見圖3。

表5 Pearson篩選變量構(gòu)建模型結(jié)果

圖3 K最近鄰模型蓄積量散點圖

3.2.2 主成分分析法篩選變量蓄積量估測模型構(gòu)建

將通過主成分分析法得到的4個特征根參與構(gòu)建多元線性回歸模型、隨機森林模型、支持向量機模型、K最近鄰模型，分別計算統(tǒng)計各模型的決定系數(shù)、均方根誤差、相對均方根誤差。

由表6可知，在全部變量參與主成分分析并構(gòu)建模型的情況下，多元線性回歸模型效果最好(R2=0.47)，其他3種機器學(xué)習(xí)法決定系數(shù)較低，且支持向量機模型決定系數(shù)為負(fù)值，說明冗余數(shù)據(jù)中存在內(nèi)生變量的滯后值。多元線性回歸模型蓄積量散點圖見圖4。

表6 主成分分析法篩選變量構(gòu)建模型結(jié)果

圖4 多元線性回歸模型蓄積量散點圖

3.2.3 PCA-P蓄積量估測模型構(gòu)建

將通過PCA-P得到的兩個特征根參與構(gòu)建多元線性回歸模型、隨機森林模型、支持向量機模型、K最近鄰模型，分別計算統(tǒng)計各模型的決定系數(shù)、均方根誤差、相對均方根誤差

由表7可知，通過PCA-P作為篩選方法所構(gòu)建的模型精度且3種機器學(xué)習(xí)法結(jié)果優(yōu)于多元線性回歸模型，其中隨機森林法效果最好，決定系數(shù)達(dá)到0.59，其均方根誤差為46.5 m3·hm-2，相對均方根誤差為22.1%；K最近鄰模型決定系數(shù)為0.52，精度為75.3%；支持向量機決定系數(shù)為0.46，精度為75.3%；多元線性回歸模型決定系數(shù)為0.40，其均方根誤差為24.3%。隨機森林法模型蓄積量散點圖見圖5。

表7 PCA-P篩選變量構(gòu)建模型

圖5 隨機森林法模型蓄積量散點圖

3.3 研究區(qū)蓄積量反演結(jié)果

分別構(gòu)建3種篩選方法中最優(yōu)模型的蓄積量反演圖，即使用Pearson相關(guān)系數(shù)法構(gòu)建的K最近鄰模型、使用主成分分析法構(gòu)建的多元線性回歸模型組合、使用PCA-P構(gòu)建的隨機森林模型。由圖6可知，3種篩選方法構(gòu)建的蓄積量反演結(jié)果均體現(xiàn)出蓄積量主要分布在研究區(qū)東北部及中部，西南部分布較少。

圖6 排牙山林場蓄積量分布

4 結(jié)論與討論

本研究選取靖州縣排牙山國有林場作為研究區(qū)，使用Landsat8 OLI數(shù)據(jù)作為遙感數(shù)據(jù)源，結(jié)合森林資源二類調(diào)查數(shù)據(jù)，通過將Pearson相關(guān)系數(shù)法及主成分分析法結(jié)合得到一種新的篩選方法(PCA-P)并構(gòu)建4種不同模型，為進(jìn)行對比分析構(gòu)建了Pearson相關(guān)系數(shù)法及主成分分析法的估測模型，并使用留一交叉驗證的方法對結(jié)果進(jìn)行精度檢驗。

使用Landsat8 OLI數(shù)據(jù)提取的光譜變量與森林蓄積量具有較強相關(guān)性，所以使用Landsat8 OLI數(shù)據(jù)對森林蓄積量進(jìn)行反演是可行的。將2種篩選方式結(jié)合可以有效去除數(shù)據(jù)冗余并保留目標(biāo)信息，提高蓄積量估測精度。使用PCA-P結(jié)合隨機森林法模型達(dá)到了最高精度，其決定系數(shù)為0.59，均方根誤差為46.5 m3·hm-2，相對均方根誤差為22.1%。

本研究中發(fā)現(xiàn)，將Pearson相關(guān)系數(shù)法與主成分分析法聯(lián)合起來篩選特征能夠在降低維度的同時不丟失原有數(shù)據(jù)的大部分信息，且通過對比發(fā)現(xiàn)，使用不同篩選方法構(gòu)建同一種反演模型時，模型擬合度及精度均有較大提高，如支持向量機模型在使用Pearson相關(guān)系數(shù)法、主成分分析法時，決定系數(shù)分別為0.42、-0.05，相對均方根誤差分別為25.9%、32.7%，但使用PCA-P作為篩選方式構(gòu)建支持向量機模型，決定系數(shù)達(dá)到0.46，相對均方根誤差達(dá)到24.7%。PCA-P為利用衛(wèi)星影像對森林蓄積量反演在篩選特征值這一關(guān)鍵步驟提供了一種新的思路。使用PCA-P作為篩選方法構(gòu)建的隨機森林模型是否在北方林地也可以發(fā)揮較好效果，需要進(jìn)一步驗證。由蓄積量反演圖可知，每公頃林分蓄積量大于300 m3時，反演模型出現(xiàn)飽和現(xiàn)象，如何解決光譜飽和問題需進(jìn)一步驗證。由于研究區(qū)樹種主要為針葉林，所以本研究對針葉林蓄積量研究具有一定參考價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡