廖佩瑩,王雅楠,丘甜,華偉平,3*,鄭士超,周艷,饒貴川
(1.武夷學(xué)院 生態(tài)與資源工程學(xué)院,福建 武夷山 354300;2.武夷學(xué)院 商學(xué)院,福建 武夷山 354300;3.福建農(nóng)林大學(xué) 林學(xué)院,福建 福州 350002;4.武夷山國(guó)家公園科研監(jiān)測(cè)中心,福建 武夷山 354300)
森林是陸地生態(tài)系統(tǒng)的組成部分之一,具有凈化空氣、調(diào)節(jié)氣候、涵養(yǎng)水源等8 種生態(tài)功能,同時(shí)它還具有碳匯功能,森林植被總碳儲(chǔ)量中80%以上的貢獻(xiàn)來源于天然林[1]。我國(guó)森林資源十分豐富,根據(jù)全國(guó)森林資源清查報(bào)告數(shù)據(jù)顯示,我國(guó)森林面積在逐漸增加,其中,福建省的森林覆蓋率達(dá)到66.8%,是全國(guó)森林覆蓋率最高的省份。全國(guó)森林清查中的一項(xiàng)是對(duì)森林蓄積量的調(diào)查,森林蓄積量不僅反映一個(gè)國(guó)家的森林資源數(shù)量規(guī)模,而且對(duì)森林生態(tài)系統(tǒng)整體固碳功能也起著重大作用[2],也是評(píng)價(jià)森林生長(zhǎng)質(zhì)量、森林生產(chǎn)力的重要指標(biāo)[3]。隨著全球氣候的變化,森林生產(chǎn)力受到了不同程度的影響[4-6]。
近年來,森林蓄積量一直都是國(guó)內(nèi)外學(xué)者們研究的熱點(diǎn)。D’Amico[7]研究野外樣地?cái)?shù)據(jù)和ALS 數(shù)據(jù)以及Landsat 數(shù)據(jù)對(duì)蓄積量生長(zhǎng)的貢獻(xiàn),得出在使用Landsat 數(shù)據(jù)時(shí)相對(duì)效率為1.16,使用ALS 覆蓋率增加的情況下,相對(duì)效率高達(dá)1.33;黃冰倩等[8]利用遙感技術(shù)、隨機(jī)森林、多元逐步回歸方法對(duì)森林蓄積量進(jìn)行估測(cè)研究,主要是利用光譜、紋理特征進(jìn)行組合研究,未將地形、環(huán)境因子參與建模分析;崔博文[9]利用機(jī)器學(xué)習(xí)結(jié)合遙感衛(wèi)星對(duì)森林蓄積量進(jìn)行研究。有的學(xué)者在研究森林蓄積量時(shí)還會(huì)以立地因子、林分年齡、氣候因子等環(huán)境因子為自變量結(jié)合機(jī)器學(xué)習(xí)來估測(cè)森林蓄積量,如:王震等[10]利用貝葉斯模型平均法(BMA)和逐步回歸法(SR)構(gòu)建杉木林分蓄積量與林分變量因子和氣候因子的關(guān)系模型;劉帥[11]以地形、地貌、氣候、土壤、林分結(jié)構(gòu)等為自變量來估測(cè)森林蓄積量。
隨著科技不斷的發(fā)展,機(jī)器學(xué)習(xí)方法越來越受研究者的青睞,并且在不同領(lǐng)域被廣泛的應(yīng)用。機(jī)器學(xué)習(xí)是人工智能的一個(gè)重要分支,對(duì)處理數(shù)據(jù)量大的數(shù)據(jù)具有優(yōu)勢(shì)之處。自20 世紀(jì)90 年代以來,機(jī)器學(xué)習(xí)越來越多地用于生態(tài)學(xué)領(lǐng)域研究,如水文學(xué)、氣候變化、物種分布等領(lǐng)域[12]。本文以環(huán)境因子為自變量,借助決策樹回歸、隨機(jī)森林回歸、adaboost 回歸、梯度提升樹回歸(GBDT)、CatBoost 回歸、ExtraTrees 回歸、XGBoost 回歸、LightGBM 回歸8 種機(jī)器學(xué)習(xí)的方法,分析比較在有無林分年齡的情況下,環(huán)境因子與林分蓄積量的關(guān)系,為后期建立天然林生長(zhǎng)模型構(gòu)建提供理論支撐。
福建省地處中國(guó)東南沿海地區(qū),介于23°33′N~28°20′N、115°50′E~120°40′E,東隔臺(tái)灣海峽,東北與浙江省毗鄰,西北橫貫武夷山脈與江西省交界,西南與廣東省相連。福建省氣候?qū)賮啛釒ШQ笮约撅L(fēng)氣候,溫暖濕潤(rùn),雨量充沛,光照充足,年平均氣溫17~21 ℃,平均降雨量1 400~2 000 mm,雨量豐富[13]。氣候條件優(yōu)越,但氣候區(qū)域差異較大,閩東南沿海地區(qū)屬南亞熱帶氣候,閩東北、閩北和閩西屬中亞熱帶氣候,各氣候帶內(nèi)水熱條件的垂直分異較明顯。其土壤類型以紅壤、黃壤為主。
數(shù)據(jù)來源于福建省第九次森林資源清查一類固定樣地中的馬尾松、闊葉林樹種(組)、針闊混交樹種(組)、針葉混交樹種(組)。馬尾松有121 塊樣地、闊葉林樹種(組)695 塊樣地、針闊混交樹種(組)147、針葉混交樹種(組)76 塊樣地。調(diào)查因子主要包括樹種(組)、年齡、蓄積量。
表1 不同樹種(組)天然林蓄積量統(tǒng)計(jì)值Tab.1 Statistical values of natural forest volume for different tree species (groups)
研究對(duì)象是環(huán)境因子中的氣候因子和立地因子以及林分年齡因子對(duì)4 種樹種(組)蓄積量的影響。其中氣候因子有年平均溫度、年降水量、生長(zhǎng)積溫、哈格里夫斯氣候水汽虧缺等,其數(shù)據(jù)是通過固定樣地的緯度和經(jīng)度以及高程利用ClimateAP[14]獲得;立地因子主要包含坡位、坡度、土層厚度、腐殖層厚度、枯枝落葉厚度。
機(jī)器學(xué)習(xí)法主要有決策樹回歸、隨機(jī)森林回歸、adaboost 回歸、梯度提升樹回歸(GBDT)、CatBoost 回歸、ExtraTrees 回歸、XGBoost 回歸、LightGBM 回歸。決策樹回歸具有很強(qiáng)的可解釋性,能處理離散和連續(xù)變量的優(yōu)點(diǎn)[15];隨機(jī)森林回歸具有訓(xùn)練速度快、準(zhǔn)確率極高、處理高維數(shù)據(jù)、處理特征遺失數(shù)據(jù)、處理不平衡數(shù)據(jù)等優(yōu)點(diǎn)[16];adaboost 回歸具有較高科學(xué)性、規(guī)范性和可行性、準(zhǔn)確率高、運(yùn)算速度快的優(yōu)點(diǎn)[17];GBDT 預(yù)測(cè)準(zhǔn)確率高、強(qiáng)魯棒性等優(yōu)點(diǎn),可靈活處理各種數(shù)據(jù)[18];CatBoost 回歸具有具有性能卓越、魯棒性與通用性更好、降低了模型過擬合的可能[19];ExtraTrees 回歸具有訓(xùn)練出來的模型方差小,隨機(jī)性、泛化能力強(qiáng)、具有抵抗噪聲的能力的優(yōu)點(diǎn)[20];XGBoost 回歸具有較強(qiáng)的泛化能力、較高的擴(kuò)展性、較快的運(yùn)行速度的優(yōu)點(diǎn)[21];Light-GBM 回歸具有效率快、高精度、高效并行的優(yōu)點(diǎn)[22]。
采用評(píng)價(jià)指標(biāo)為MSE(均方誤差)、RMSE(均方根誤差)、MAE(平均絕對(duì)誤差)、MAPE(平均絕對(duì)百分比誤差)、相關(guān)系數(shù)(R2),R2值結(jié)果越靠近1 模型準(zhǔn)確度越高。
式中:yi為第i 樣本實(shí)測(cè)值;是第i 樣本預(yù)估值;m 為樣本數(shù)。
不同方法分析4 種樹種(組)蓄積量與氣候因子和地貌因子關(guān)系檢驗(yàn)結(jié)果存在較大差異。從表2 可得,馬尾松中GBDT、CatBoost 回歸和XGBoost 回歸的方法較好,最佳的是GBDT,較差的是隨機(jī)森林回歸和ExtraTrees 回歸;而闊葉林樹種(組)中方法較好的是adaboost 回歸、GBDT 和XGBoost 回歸,最佳的是adaboost 回歸,較差的是決策樹回歸、隨機(jī)森林回歸和ExtraTrees 回歸;在針闊混交樹種(組)中GBDT、XGBoost 回歸和LightGBM 回歸的方法較好,最佳的是GBDT,較差的是隨機(jī)森林回歸、LightGBM 回歸;在針葉混交樹種(組)中方法較高的是GBDT、CatBoost 回歸和XGBoost 回歸,其中最佳的是GBDT,較差的是隨機(jī)森林回歸和ExtraTrees 回歸??傮w來看,8 種機(jī)器學(xué)習(xí)方法分析4 種樹種(組)蓄積量與氣候因子和地貌因子關(guān)系檢驗(yàn)的結(jié)果存在差異性,但不明顯。除闊葉林樹種(組)外,最好的方法為GBDT。因此,本次選用GBDT計(jì)算馬尾松、針闊混交樹種(組)、針葉混交樹種(組)與氣候和地貌因子重要值(或特征值),選用XGBoost 回歸計(jì)算闊葉林樹種(組) 與氣候和地貌因子的重要值(或特征值)。
表2 未引入年齡因子的預(yù)測(cè)模型效果評(píng)價(jià)Tab.2 Evaluation of the effectiveness of predictive models without introducing age factors
在考慮林分年齡后,不同方法分析4 種樹種(組)蓄積量與林分年齡、氣候和地貌因子關(guān)系檢驗(yàn)結(jié)果存在較大差異。表3 表明,馬尾松中GBDT、CatBoost 回歸、XGBoost 回歸的方法較好,最佳的是GBDT,較差的是ExtraTrees 回歸;而闊葉林樹種(組)中方法較好的是決策樹回歸、GBDT、XGBoost 回歸,最佳的是XGBoost 回歸,較差的是決策樹回歸、ExtraTrees 回歸;在針闊混交樹種(組) 中決策樹回歸、GBDT、CatBoost 回歸、XGBoost 回歸的方法較好,最佳的是GBDT,較差的是隨機(jī)森林回歸、LightGBM 回歸;在針葉混交樹種(組)中方法較好的是GBDT、CatBoost 回歸、XGBoost 回歸,最佳的是GBDT,較差的是隨機(jī)森林回歸、Extra-Trees 回歸、LightGBM 回歸。8 種機(jī)器學(xué)習(xí)方法分析4種樹種(組)與林分年齡、氣候和地貌因子關(guān)系檢驗(yàn)的結(jié)果存在一定的差異,除闊葉林樹種(組)外,最好的方法為GBDT。因此,本次選用GBDT 計(jì)算馬尾松、針闊混交樹種(組)、針葉混交樹種(組)與林分年齡、氣候和地貌因子重要值(或特征值),選用XGBoost 回歸計(jì)算闊葉林樹種(組)與林分年齡、氣候和地貌因子的重要值(或特征值)。
表3 引入年齡因子的預(yù)測(cè)模型效果評(píng)價(jià)Tab.3 Evaluation of the effect of introducing age factor in predictive models
不同的樹種,在未引入林分年齡的情況下,各因子對(duì)林分蓄積量的影響存在一定差異。圖1 可看出,對(duì)馬尾松影響較大的因子有平均最冷月溫度、腐殖層厚度、年平均降水量、坡度、夏季平均最低溫度;對(duì)闊葉樹種(組)蓄積量影響較大的因子有土層厚度、干燥指數(shù)、坡度、夏季降雨量、夏季平均最低溫度,年平均溫度對(duì)其影響較??;對(duì)針闊混交樹種(組)蓄積量影響較大的因子有夏季平均最高溫度、坡度、夏季降雨量、腐殖層厚度、年平均降水量,年平均溫度對(duì)其影響相對(duì)較小;對(duì)針葉混交樹種(組)蓄積量影響較大的因子有平均氣溫差、腐殖層厚度、生長(zhǎng)積溫、夏季降雨量、土層厚度,坡位、夏季平均最低溫對(duì)其影響相對(duì)較小。從整體上來看,氣候因子和地貌因子均交互影響4 種樹種(組)的蓄積量,因此在建立林分蓄積量預(yù)估模型時(shí),應(yīng)當(dāng)要充分考慮氣候與地貌因子。
圖1 未引入年齡的4 種樹種(組)重要值占比Fig.1 The proportion of important values of four tree species (groups) without introducing age
引入林分年齡后,各因子對(duì)各林分的影響與未引入林分年齡的存在差異。在所有影響因子中林分年齡對(duì)林分蓄積量影響均較大,且大于0.50;其他因子對(duì)4種樹種(組)的影響有所不同,其中,對(duì)馬尾松影響較大的因子有年平均降水量、平均最冷月溫度、坡度、腐殖層厚度,哈格里夫斯氣候水汽虧缺、平均月最熱溫度對(duì)其影響相對(duì)較??;對(duì)闊葉樹種(組)蓄積量影響較大的因子有夏季降雨量、夏季平均最低溫度、腐殖層厚度、干燥指數(shù)、土層厚度;對(duì)針闊混交樹種(組)蓄積量影響較大的因子有腐殖層厚度、土層厚度、夏季降雨量、年平均溫度、平均氣溫差,坡位對(duì)其影響相對(duì)較??;對(duì)針葉混交樹種(組)蓄積量影響較大的因子有夏季平均溫度、夏季平均最高溫度、生長(zhǎng)積溫、年平均溫度、夏季平均最低溫度,坡位、哈格里夫斯氣候水汽虧缺對(duì)其影響相對(duì)較小。(圖2)林分年齡對(duì)4 種(組)樹種林分蓄積量的影響程度都很大,且氣候因子和地貌因子均交互對(duì)4 種樹種(組)林分蓄積存在不同程度的影響。因此,在建立氣候和地貌因子與林分蓄積量關(guān)系模型時(shí),應(yīng)當(dāng)將林分年齡作為重要的因子。
圖2 引入年齡因子的4 種樹種(組)重要值占比Fig.2 The proportion of important values of four tree species (groups) introducing age factors
國(guó)內(nèi)的學(xué)者也有利用機(jī)器學(xué)習(xí)對(duì)蓄積量進(jìn)行研究,黃宇玲等[21]利用XGboost 方法結(jié)合林分因子、地形因子、遙感因子對(duì)森林蓄積量研究,他們得出的結(jié)論是逐步回歸特征選擇方法結(jié)合XGboost 方法對(duì)森林蓄積量的估測(cè)效果最佳,與我們研究的結(jié)果有所差異,這一現(xiàn)象可能在研究過程中采用的自變量以及所用的具體機(jī)器學(xué)習(xí)方法不同而導(dǎo)致結(jié)果有所差異;賈勃等[23]對(duì)比逐步回歸與貝葉斯模型平均法得出的決定系數(shù)相對(duì)于貝葉斯模型平均法逐步回歸更為準(zhǔn)確,林分因子、環(huán)境因子對(duì)林分蓄積量的影響也是不盡相同;胡建錦等[24]利用4 種不同的機(jī)器學(xué)習(xí)法在不區(qū)分樹種情況下對(duì)森林蓄積量進(jìn)行估測(cè),得出的結(jié)論是Catboost 的預(yù)測(cè)結(jié)果最優(yōu),與此研究得出的結(jié)果有所差異。相對(duì)于其他學(xué)者研究的情況而言,本研究對(duì)環(huán)境因子研究范圍較大,采用了多種機(jī)器學(xué)習(xí)方法進(jìn)行比較,認(rèn)為環(huán)境因子對(duì)4 種樹種(組)蓄積量有影響。
利用決策樹回歸、隨機(jī)森林回歸以及adaboost 回歸等8 種機(jī)器學(xué)習(xí)方法對(duì)福建省的馬尾松、闊葉林樹種、針闊混交樹種、針葉混交樹種的蓄積量進(jìn)行處理分析,研究結(jié)果表明,馬尾松、針闊混交樹種(組)和針葉混交樹種(組)無論是否引入林分年齡,GBDT 模型能較好地分析出環(huán)境因子與蓄積量重要性,而對(duì)于闊葉林樹種(組)來說,在引入林分年齡的情況下,模型較好的為GBDT;未引入林分年齡的情況下,預(yù)估模性較好的均為adaboost 回歸。GBDT 和adaboost 回歸的評(píng)價(jià)指標(biāo)R2都大于0.95。通過較好模型預(yù)估的R2來看,林分年齡對(duì)蓄積量的影響較大,其值大于0.50。因此在建立天然林蓄積量生長(zhǎng)模型時(shí)應(yīng)綜合考慮林分年齡、氣候、地貌、土壤等林分和環(huán)境因子。