王志遠(yuǎn),湯哲,周萍,賴佳鑫,戴玉婷,周林,王玉婷,陳港明,姜雨辰,郭曉彬,吳金水
(1. 中南大學(xué)計算機(jī)學(xué)院,湖南 長沙 410083;2. 中國科學(xué)院亞熱帶農(nóng)業(yè)生態(tài)研究所,亞熱帶農(nóng)業(yè)生態(tài)過程重點(diǎn)實(shí)驗(yàn)室,長沙農(nóng)業(yè)環(huán)境觀測研究站,湖南 長沙 410125;3. 北京郵電大學(xué)計算機(jī)學(xué)院,北京 100876)
土壤有機(jī)碳(SOC)含量是衡量生態(tài)系統(tǒng)生產(chǎn)力和生態(tài)服務(wù)功能的關(guān)鍵指標(biāo),在提升土壤肥力與農(nóng)業(yè)可持續(xù)利用以及減緩全球氣候變化方面至關(guān)重要。土壤有機(jī)碳的精準(zhǔn)預(yù)測有助于精確評估區(qū)域乃至國家尺度土壤碳庫儲量,從而助力區(qū)域碳中和目標(biāo)的實(shí)現(xiàn),具有突出的科學(xué)意義[1]。
計算機(jī)模擬是預(yù)測土壤有機(jī)碳含量變化與分布的關(guān)鍵手段,國際上建立了諸多土壤有機(jī)碳過程模擬模型(Roth-C、CENTURY、DNDC等)。由于SOC含量與諸多環(huán)境因素密切相關(guān),對土壤條件、空間分辨率、氣候、水文、植被、地形地貌等環(huán)境條件的變化十分敏感[2],而現(xiàn)有的過程模型模擬主要涉及到碳輸入量、部分氣候和土壤屬性(如粘粒含量)等參數(shù),對其他環(huán)境變量的關(guān)注較小,導(dǎo)致不同區(qū)域和生態(tài)系統(tǒng)的過程模擬存在較大的不確定性,區(qū)域應(yīng)用存在局限性[3]。
機(jī)器學(xué)習(xí)在處理數(shù)據(jù)方面具有固有的優(yōu)勢,在SOC預(yù)測中具有很強(qiáng)的泛化性,也比傳統(tǒng)的數(shù)字化測繪方法更加敏感,可以較好地模擬SOC和環(huán)境協(xié)變量之間復(fù)雜的、非線性的關(guān)系,提升區(qū)域SOC含量預(yù)測的準(zhǔn)確性[4-6]。并且在樣本數(shù)并不豐富的情況下,機(jī)器學(xué)習(xí)模型仍然表現(xiàn)出很強(qiáng)的適用性[7]。比如Emadi等[6]使用不同機(jī)器學(xué)習(xí)模型對伊朗東北部SOC含量預(yù)測的研究表明,機(jī)器學(xué)習(xí)模型在SOC預(yù)測中具有很強(qiáng)的適用性。Khaledian和Miller[8]總結(jié)了近幾年來關(guān)于SOC的機(jī)器學(xué)習(xí)方面的研究認(rèn)為,人工神經(jīng)網(wǎng)絡(luò)(ANN)在預(yù)測SOC含量方面具有強(qiáng)有力的表現(xiàn),但是隨機(jī)森林(RF)比ANN更快,其結(jié)果也趨于更好的魯棒性,并且RF和立體派模型(Cubist)克服了ANN對小數(shù)據(jù)集敏感和完全是黑箱模型的弱點(diǎn)。由此可見,基于機(jī)器學(xué)習(xí)模型提高SOC空間模擬精度的研究已具備一定基礎(chǔ),但是在小流域尺度上如何對復(fù)雜地形地貌條件下的SOC含量開展精確預(yù)測仍然存在較大挑戰(zhàn)。
亞熱帶丘陵區(qū)地形變化復(fù)雜,相關(guān)地形地貌和土壤環(huán)境的空間異質(zhì)性很大,目前已有基于傳統(tǒng)機(jī)器學(xué)習(xí)模型(如RF、支持向量機(jī)回歸SVR)預(yù)測復(fù)雜地形地貌區(qū)SOC含量的少量研究,且不同機(jī)器學(xué)習(xí)模型的表現(xiàn)具有明顯的差異性[9-10]。而關(guān)于極端梯度提升算法(XGBoost)和輕量級梯度提升機(jī)(LightGBM)對亞熱帶丘陵地貌區(qū)SOC的預(yù)測性能尚未有過嘗試。由于XGBoost考慮了訓(xùn)練數(shù)據(jù)為稀疏值的情況,可以為缺失值或者指定的值指定分支的默認(rèn)方向,從而大大提升算法的效率。LightGBM模型則采用了直方圖算法將遍歷樣本轉(zhuǎn)變?yōu)楸闅v直方圖,極大的降低了時間復(fù)雜度,同時也降低了內(nèi)存消耗。因此很有必要對XGBoost和LightGBM模型預(yù)測復(fù)雜地形地貌區(qū)SOC含量的性能進(jìn)行評價?;诖耍狙芯恳詠啛釒鹆陞^(qū)一個具有復(fù)雜地形地貌特征的小流域?yàn)閷ο?,結(jié)合地形、氣候、植被等環(huán)境變量的輸入,以傳統(tǒng)的非集成機(jī)器學(xué)習(xí)模型SVR與傳統(tǒng)的RF模型作為對比,分析XGBoost和LightGBM模型對土壤表層(0~20 cm)SOC含量預(yù)測的可能性,評估不同機(jī)器學(xué)習(xí)模型在亞熱帶丘陵小流域SOC預(yù)測中的性能差異,以期為復(fù)雜地形地貌區(qū)SOC含量的精確預(yù)測提供理論基礎(chǔ)。
研究區(qū)位于湖南省長沙縣金井鎮(zhèn)(112°56′~113°30′E、27°55′~28°40′N),面積約134.40 km2,其中耕地面積為23.13 km2。地貌類型以丘陵為主,海拔介于56~440 m。研究區(qū)域?qū)賮啛釒Ъ撅L(fēng)氣候;多年平均氣溫17.2 ℃;年平均降水量1360 mm。金井鎮(zhèn)境內(nèi)河道屬湘江水系,有金井河流經(jīng)境內(nèi)。土壤類型主要為花崗巖和板頁巖風(fēng)化物發(fā)育的紅壤和水稻土。土地利用類型以水田和林地為主,林地主要以馬尾松、杉木等人工林和灌木、草叢群落為主,常綠闊葉林的覆蓋率相對較低。
于2009年8月根據(jù)流域內(nèi)地形分布情況,按各高程段樣點(diǎn)大致均勻、隨機(jī)取樣的原則布置采樣點(diǎn)(圖1)。每個樣點(diǎn)以GPS定位點(diǎn)為中心,5 m為半徑的樣方取樣,采用土鉆隨機(jī)采集5~8個表層土樣(0~20 cm),混勻作為一個土樣,共采集601個土壤樣品。所有土樣置于室內(nèi)通風(fēng)處自然風(fēng)干,并剔除石子、植物根系等。風(fēng)干土樣過0.25 mm篩后供SOC含量的測定。具體的土壤采樣與分析方法詳見劉歡瑤等[11]的研究。
圖1 研究區(qū)域與采樣點(diǎn)分布Fig. 1 Study area and distribution of sampling points
本研究選取地形、氣候和植被三類環(huán)境變量作為模型輸入?yún)?shù)。地形變量包括海拔、坡度、地形濕度指數(shù)等。由于氣溫隨海拔和坡度坡向的改變呈現(xiàn)較大的差異,而降雨量在流域內(nèi)差異不大,因此本研究將氣溫作為氣候變量納入環(huán)境變量指標(biāo)。植被變量包括歸一化植被指數(shù),相對植被指數(shù)等。所有環(huán)境變量的提取來源于從中國科學(xué)院地理科學(xué)與資源研究所(https://www.resdc.cn/Default.aspx)下載的數(shù)據(jù)和從美國地質(zhì)調(diào)查局(https://earthexplorer.usgs.gov)下載的landsat 5衛(wèi)星圖像數(shù)據(jù)。除氣溫的精度是100 m外,其他環(huán)境變量的精度都是30 m。使用ArcGis 10.8對氣溫變量進(jìn)行重采樣至30 m。除了相對植被指數(shù)(RVI)外,所有下載的環(huán)境變量數(shù)據(jù)經(jīng)ArcGis 10.8處理后,采用近鄰抽樣法提取到樣點(diǎn)所在位置的變量。Hengl等[12]的研究描述了所有環(huán)境變量的提取方法。具體環(huán)境變量的使用情況與介紹見表1。
表1 樣本變量特征表述Table 1 Description of sample variable characteristics
RVI最早由Jordan[13]提出,其計算方法為:
式中:NIR為紅外波段值,RED為紅色波段值。
本研究采用XGBoost和lightGBM兩種機(jī)器學(xué)習(xí)模型進(jìn)行SOC預(yù)測,并與傳統(tǒng)的RF模型和SVR非集成學(xué)習(xí)模型進(jìn)行對比。所有模型均基于python3.7實(shí)現(xiàn),其中RF和SVR模型來自于sklearn包,XGBoost模型來自于xgboost包,LightGBM模型自于lightgbm包。
RF是基于決策樹的機(jī)器學(xué)習(xí)算法[14],常用于回歸分析問題。該模型是由多個決策樹組成的集成學(xué)習(xí)模型,通過對每個決策樹的預(yù)測結(jié)果進(jìn)行平均或加權(quán)平均來得出最終的預(yù)測結(jié)果。隨機(jī)森林回歸在構(gòu)建每個決策樹時,會隨機(jī)選擇一部分訓(xùn)練樣本和一部分特征進(jìn)行訓(xùn)練,以此來避免決策樹的過擬合問題,提高模型的泛化能力。
SVR是一種基于統(tǒng)計學(xué)習(xí)理論的回歸分析方法,通過尋找最優(yōu)超平面,將數(shù)據(jù)映射到高維空間中進(jìn)行非線性回歸預(yù)測。SVR的核心思想是通過尋找最優(yōu)超平面來最小化預(yù)測誤差。在SVR中,最優(yōu)超平面是指能夠?qū)㈩A(yù)測值與真實(shí)值之間的誤差最小化的超平面[15]。
XGBoost是一種基于決策樹的梯度提升(GBDT)算法[16-17],GBDT在訓(xùn)練新的基學(xué)習(xí)器時只使用了損失函數(shù)的一階導(dǎo)數(shù),而XGBoost則對損失函數(shù)進(jìn)行二階泰勒展開,同時使用損失函數(shù)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù),此外,XGBoost還在損失函數(shù)中加入了正則項(xiàng)來控制模型的復(fù)雜度,有利于防止過擬合。XGboost可以自動處理缺失值、自動調(diào)整每個弱學(xué)習(xí)器的參數(shù)、自動調(diào)整每個弱學(xué)習(xí)器的深度,以便模型更好地擬合數(shù)據(jù)。
LightGBM是一種基于決策樹的高效算法,是一種梯度提升機(jī)(GBM)的改進(jìn)版本,用于提高機(jī)器學(xué)習(xí)算法的準(zhǔn)確性和效率[18]。LightGBM的工作原理如下:使用基于樹的算法來構(gòu)建模型,并使用梯度提升算法來優(yōu)化模型的準(zhǔn)確性。LightGBM支持并行訓(xùn)練,可以更快地構(gòu)建模型;支持自動調(diào)整參數(shù),可以自動調(diào)整模型的參數(shù),以獲得更好的性能;支持多種數(shù)據(jù)類型,可以處理稀疏數(shù)據(jù)以及類別特征。
在進(jìn)行實(shí)驗(yàn)之前,對601個樣本進(jìn)行了處理,剔除掉無效樣本和異常值,最后剩下401個樣本點(diǎn)作為輸入。為了評估不同模型對SOC預(yù)測的適用性,基于sklearn軟件包將數(shù)據(jù)集隨機(jī)分為訓(xùn)練集(80%)和測試集(20%)。每個模型都用訓(xùn)練數(shù)據(jù)進(jìn)行擬合,用實(shí)驗(yàn)數(shù)據(jù)進(jìn)行驗(yàn)證。每個模型的訓(xùn)練數(shù)據(jù)集都采用10倍的交叉驗(yàn)證。
模型的超參數(shù)優(yōu)化采用RandomSearch[19],在超參數(shù)的組合空間中進(jìn)行隨機(jī)采樣和搜索,其搜索能力取決于設(shè)定的采樣次數(shù)(n_iter參數(shù))。RandomSearch的搜索過程如下:對于搜索范圍為分布的超參數(shù),按照給定的分布隨機(jī)采樣;對于搜索范圍為列表的超參數(shù),在給定的列表中以中等概率采樣;如果給定的搜索范圍為全部列表,則不放回采樣n_iter次數(shù)。
模型評估采用決定系數(shù)(R2)、平均絕對誤差(MAE)、均方根誤差(RMSE)和林氏一致性相關(guān)系數(shù)(Lin’s Concordance Correlation Coefficient,LCCC)四個指標(biāo)來確定模型的模擬性能。R2反應(yīng)了因變量的波動有多少百分比能被自變量的波動所描述,R2接近1表示模型完美,即100%的變異被模型解釋,大于0.75時表示良好預(yù)測,0.50~0.75之間表示可接受的預(yù)測,小于0.50表示不可接受的預(yù)測[20]。MAE可以避免正負(fù)誤差相加出現(xiàn)相互抵消的問題,因而可以準(zhǔn)確反映預(yù)測誤差的大小。MAE值越接近0,說明模型的預(yù)測能力越好。RMSE可以評價數(shù)據(jù)的變化程度,RMSE值越接近0,說明模型的預(yù)測能力越好。LCCC結(jié)合了精度和偏差兩個度量。LCCC的取值在(-1, +1)之間,+1表示完全一致,大于0.9表示接近完全一致,0.8~0.9之間表示實(shí)質(zhì)性一致,0.65~0.8之間表示中等一致,小于0.65表示差一致[21]。四個指標(biāo)的計算方法為:
式中:n表示樣本量,ai為第i個樣本的SOC含量預(yù)測值,bi是第i個樣本的SOC含量實(shí)測值,k是所有n個樣本預(yù)測值的平均值,h是所有n個樣本實(shí)測值的平均值,θa和θb分別是n個樣本預(yù)測值和實(shí)測值的變異系數(shù),r是實(shí)測值和預(yù)測值之間的皮爾遜相關(guān)系數(shù)。
根據(jù)實(shí)測的SOC數(shù)據(jù)分析顯示,SOC含量變化范圍介于1.47~39.37 g/kg,平均值為12.27 g/kg,標(biāo)準(zhǔn)差為6.62 g/kg。偏度為0.99,峰度為1.57(表2),整體分布近似于正態(tài)分布,適合訓(xùn)練機(jī)器學(xué)習(xí)模型。SOC的變異系數(shù)為54%,屬于中等變異性類。由于研究區(qū)域地形多變,區(qū)域植被呈現(xiàn)一定的垂直分布特點(diǎn),此外土地利用方式也存在差異,導(dǎo)致樣本點(diǎn)的SOC變異系數(shù)偏高。
表2 土壤有機(jī)碳實(shí)測數(shù)據(jù)樣本集統(tǒng)計特征Table 2 Statistical characteristics of the sample set of SOC measurement data
對SVR、RF、XGBoost和LightGBM四種機(jī)器學(xué)習(xí)算法預(yù)測亞熱帶丘陵區(qū)小流域SOC的性能進(jìn)行統(tǒng)計分析,根據(jù)R2、MAE、RMSE和LCCC四個指標(biāo)的比較,結(jié)果顯示,RF模型的預(yù)測誤差相對最低,其MAE值和RMSE值分別為3.323和4.464,且R2值為最高(0.540),LCCC值(0.672)僅次于XGBoost(表3),具有相對最優(yōu)的模型預(yù)測效果,其原因?yàn)镽F采用自助采樣法和隨機(jī)特征選擇的方式生成多棵決策樹,以此來降低方差,防止過擬合,提高泛化能力。XGBoost是一種基于樹的集成學(xué)習(xí)算法,通過優(yōu)化的損失函數(shù)和正則化技術(shù)來提高模型的泛化能力。在本研究中,XGBoost模型亦能較好地模擬SOC分布,其預(yù)測誤差MAE值(3.416)和RMSE值(4.523)略高于RF模型,R2值略低(0.528),但是LCCC值(0.676)卻為最高。排在第三位的LightGBM模型的預(yù)測誤差值略高于XGBoost,模擬精度略低。而SVR模型具有相對最高的預(yù)測誤差,MAE值和RMSE值分別達(dá)到3.698和4.982,且R2值(0.427)和LCCC值(0.537)為最低,低于模型預(yù)測精度的最低可接受值(0.50),模型表現(xiàn)最差,究其原因?yàn)镾VR算法對數(shù)據(jù)的線性可分性要求比較高,如果數(shù)據(jù)集中存在復(fù)雜的非線性關(guān)系,SVR算法的擬合度可能會降低。
表3 四種機(jī)器學(xué)習(xí)模型的精度對比Table 3 Comparison of prediction accuracy of four machine learning models
圖2給出了RF、XGBoost和LightGBM三種模型的環(huán)境變量特征重要性分布(SVR未給出,所使用的sklearn包不提供SVR顯示特征重要性的功能)。由于RF、XGBoost和LightGBM采用不同的方法評估環(huán)境變量重要性,可能會導(dǎo)致不同環(huán)境變量的重要性呈現(xiàn)一定的差異。RF算法采用隨機(jī)特征選擇的方式生成多棵決策樹,每棵決策樹只使用部分特征進(jìn)行劃分,通過計算每個環(huán)境變量在所有決策樹中出現(xiàn)的次數(shù)來評估其重要性。在RF模型中,各環(huán)境變量的重要性從高到低分別為海拔(30.49%)、氣溫(21.93%)、坡度(13.97%),植被指數(shù)(12.64%)、landsat 5第四波段(10.01%)、相對植被指數(shù)(6.89%)和地形濕度指數(shù)(4.07%)。XGBoost則是通過計算每個環(huán)境變量在每棵樹中的分裂貢獻(xiàn)度來評估特征的重要性。分裂貢獻(xiàn)度是指每個環(huán)境變量在樹的每個分裂點(diǎn)上的增益值之和。在本研究中,XGBoost模型環(huán)境變量重要性分布與RF相同,各變量重要性占比從高到低分別為海拔(32.84%)、氣溫(22.11%)、坡度(18.99%)、植被指數(shù)(11.00%)、landsat 5第四波段(8.83%)、相對植被指數(shù)(3.51%)和地形濕度指數(shù)(2.71%)。LightGBM的環(huán)境變量重要性計算則是通過計算每個環(huán)境變量在每個葉子節(jié)點(diǎn)上的樣本數(shù)來評估特征的重要性。因此LightGBM的環(huán)境變量特征重要性分布與RF和XGBoost存在較大差異,從高到低分別為海拔(20.61%)、地形濕度指數(shù)(16.36%)、植被指數(shù)(14.89%)、坡度(13.83%)、landsat 5第四波段(12.50%)、溫度(11.30%)和相對植被指數(shù)(10.51%)。上述結(jié)果顯示,所選幾類環(huán)境變量中以海拔對三種模型的預(yù)測最為重要,說明在亞熱帶丘陵地區(qū)海拔對模型預(yù)測SOC含量的高低起顯著作用。
圖2 環(huán)境變量在三種模型預(yù)測SOC中的相對重要性Fig. 2 Relative importance of environmental variables for SOC prediction by three models
通過對上述7種環(huán)境變量按表1歸類為地形變量、氣候變量和植被變量三類。在RF模型中,上述三類變量的重要性占比分別為48.53%、21.93%和29.60%。在XGBoost模型中,各變量的重要性占比分別為54.54%、22.11%和23.34%。而在LightGBM中,地形、氣候和植被變量的重要性占比分別為50.8%、11.3%和37.99%。三種模型地形變量類別的重要性均以地形排在第一位。此外,RF和XGBoost在變量類別的重要性分布上表現(xiàn)一致。而LightGBM呈現(xiàn)出一定的差異性,其植被變量的重要性明顯偏高,比RF高出8.39個百分點(diǎn),比XGBoost高出14.65個百分點(diǎn),而氣候變量的重要性分別比RF低10.63個百分點(diǎn),比XGBoost低10.81個百分點(diǎn)。
通過RF、SVR、XGBoost和LightGBM四種機(jī)器學(xué)習(xí)方法預(yù)測的SOC含量范圍分別為5.35~21.72 g/kg、5.31~19.18 g/kg、3.57~20.42 g/kg和6.08~22.09 g/kg(圖3)。盡管不同模型的總體分布特征相似,但SOC含量的高低卻有較為明顯的差異。其中LightGBM模型預(yù)測的SOC含量最低值和最高值均高于其他模型,而XGBoost模型預(yù)測的SOC含量最低值在所有模型中為最低。
圖3 四種機(jī)器學(xué)習(xí)模型的SOC的空間預(yù)測結(jié)果Fig. 3 Spatial prediction of SOC by four machine learning models
將四種模型預(yù)測的SOC含量通過ArcGIS 10.8制圖后顯示,SOC空間分布呈現(xiàn)出相同的規(guī)律,即北部大部分區(qū)域、西南方邊緣區(qū)域和東南方的邊緣區(qū)域SOC含量高,中部SOC含量普遍偏低。SVR模型預(yù)測的東南部和西南部的SOC含量值明顯高于其他模型的預(yù)測值。SOC含量高低的空間分布與海拔的高低分布具有一致性(圖1、圖3),再次證明了海拔對于SOC含量的預(yù)測起顯著作用,即在地貌復(fù)雜多變且耕地較少的區(qū)域,地形及其相關(guān)環(huán)境變量對SOC的空間分布具有重要影響。
本研究中幾種模型模擬SOC含量的預(yù)測精度存在一定的差異(表3)。RF、LightGBM和XGBoost均表現(xiàn)出較好的適用性,以RF模型的性能相對最好,其預(yù)測SOC含量的R2(0.540)亦略高于LightGBM和XGBoost模型,而SVR模型并不適用于亞熱帶丘陵區(qū)復(fù)雜地形的SOC含量預(yù)測。就四種模型對比而言,RF可以作為亞熱帶丘陵區(qū)景觀單元SOC含量預(yù)測的最佳適用模型。但是,F(xiàn)athololoumi等[22]應(yīng)用RF和Cubist模型對伊朗北部復(fù)雜地形山區(qū)SOC 等土壤屬性的預(yù)測表明,不同預(yù)測模型的預(yù)測精度存在差異,相比于RF模型,Cubist模型非平坦區(qū)域擁有更高的模擬精度,表現(xiàn)出較好的適用性。Emadi等[6]對伊朗北部山地SOC的模擬結(jié)果表明,深度神經(jīng)網(wǎng)絡(luò)模型相較于其他模型(SVR、人工神經(jīng)網(wǎng)絡(luò)、RF和XGBoost)更具有優(yōu)勢。這與本文的研究結(jié)果存在差異。原因可能是不同區(qū)域土壤性質(zhì)與其他主導(dǎo)SOC空間分布的環(huán)境因素相差太大,故數(shù)據(jù)集的特征會產(chǎn)生較大偏差。由此可見,不同區(qū)域SOC模擬的最適模型也存在差異,在開展SOC模擬預(yù)測時,應(yīng)根據(jù)特定的區(qū)域環(huán)境特點(diǎn)篩選合適的模擬模型以提升SOC空間模擬的精度。未來可以嘗試更多模型或進(jìn)行模型融合,以探究適合更為廣泛區(qū)域尺度的SOC模擬模型。
就同一模型的模擬精度而言,本研究中RF模型預(yù)測SOC含量的R2值高于Zeraatpisheh等[23]在伊朗南部半干旱地區(qū)達(dá)拉布平原農(nóng)業(yè)用地使用237個樣本結(jié)合RF算法進(jìn)行SOC含量預(yù)測的R2值(0.29),也略高于Yang等[24]使用49個樣本點(diǎn)作為訓(xùn)練集對中國安徽省某地區(qū)農(nóng)田SOC含量進(jìn)行RF預(yù)測的R2值(0.51)。其原因可能跟本研究的土壤采樣密度較高,模型預(yù)測的樣本量較多有關(guān)。較高的樣本量條件下模型能得到更加充分的訓(xùn)練,因此具有相對較高的模擬精度。盡管本研究所用SOC的樣本數(shù)較已有研究稍多,但在數(shù)量上仍然不足。如Malone等[25]所述,機(jī)器學(xué)習(xí)模型預(yù)測SOC含量的一個主要誤差來源是樣本數(shù)據(jù)的稀少,因此可將樣本數(shù)不足歸為本研究機(jī)器學(xué)習(xí)模型預(yù)測SOC含量的高不確定性的主要原因。此外,此前的研究已經(jīng)證明高精度的環(huán)境變量數(shù)據(jù)對于土壤屬性預(yù)測的有效性[26],但從已有的小流域尺度的研究來看,高精度的環(huán)境變量數(shù)據(jù)的應(yīng)用缺乏關(guān)注。本研究也缺乏更高精度的環(huán)境變量數(shù)據(jù),這也是模型精度不高的另一個原因。后續(xù)可以考慮擴(kuò)大樣本數(shù)量與范圍,提高環(huán)境變量的分辨率(目前使用的一般是30 m ×30 m或100 m × 100 m的分辨率),探尋更好的樣本降噪方法,使機(jī)器學(xué)習(xí)模型具有更充分的訓(xùn)練空間,可能會進(jìn)一步提升機(jī)器學(xué)習(xí)模型對于復(fù)雜地形區(qū)土壤有機(jī)碳的預(yù)測精度。
此外,所選幾種模型環(huán)境變量的相對重要性也存在差異。XGBoost模型中環(huán)境變量的相對重要性分布與RF相似。但是LightGBM與RF和XGBoost模型在環(huán)境變量的特征重要性排序上差異較大,表現(xiàn)為植被變量高于上述二者10%左右且氣候變量低10%左右。盡管如此,三種模型均以地形(主要為海拔)作為解釋模型擬合度的最重要的環(huán)境變量。這可能跟亞熱帶丘陵區(qū)地形地貌復(fù)雜有關(guān),地形相較于其他環(huán)境變量具有更高的空間異質(zhì)性。因此,幾種機(jī)器學(xué)習(xí)模型預(yù)測的SOC含量的空間分布格局相似(圖3),均以高海拔的北部、東南部和西南部地區(qū)的SOC含量較高,該區(qū)域植被覆蓋密集,土壤相對肥沃,植被的固土能力強(qiáng),不易發(fā)生養(yǎng)分流失,另外林木茂密為動物們提供了很好的棲息所,生物多樣性高,枯枝落葉和動物糞便尸體等均貢獻(xiàn)于土地肥力。張厚喜等[27]和鐘兆全[28]分別運(yùn)用不同模型預(yù)測福建省SOC含量,發(fā)現(xiàn)高程是影響SOC含量的重要因子,且SOC含量隨海拔的升高而增加。即在地貌復(fù)雜多變且耕地較少的區(qū)域,地形及其相關(guān)環(huán)境變量往往對SOC的空間分布有關(guān)鍵性的影響。而在小流域尺度內(nèi),沒有了降雨這一氣候因素的作用,地形地貌對于SOC的空間分布的影響更為突出。Zeraatpisheh等[29]對沙漠地區(qū)SOC的模擬研究顯示,海拔和地形濕度指數(shù)均是預(yù)測沙漠地區(qū)SOC含量的重要參數(shù),而本研究結(jié)果顯示地形濕度指數(shù)對亞熱帶丘陵區(qū)SOC的模型預(yù)測貢獻(xiàn)不大。John等[7]的研究顯示,在濱海平原區(qū),地形對于機(jī)器學(xué)習(xí)模型的SOC預(yù)測貢獻(xiàn)不大,而土壤理化性質(zhì)是最重要的環(huán)境變量,因?yàn)樵谄皆瓍^(qū)海拔幾乎沒有差異,海拔對于模型學(xué)習(xí)的過程貢獻(xiàn)不高。因此,可以針對不同研究區(qū)域的主導(dǎo)環(huán)境變量特點(diǎn)選取模型的重要環(huán)境參數(shù)。
本研究所選的亞熱帶丘陵區(qū)典型小流域,不僅具有復(fù)雜的地形地貌特點(diǎn),也受到強(qiáng)烈的人類活動影響。但是在環(huán)境變量的選取方面僅選擇了容易獲取的地形變量、氣候變量、植被變量參與模型構(gòu)建并預(yù)測SOC含量,并未加入人類活動對SOC含量的影響。有研究表明農(nóng)業(yè)活動(如輪作、灌溉、施肥等)對SOC尤其是土壤表層SOC含量產(chǎn)生重要影響,從而可能影響氣候等自然環(huán)境變量與SOC的關(guān)系[30-31]。除此之外,有研究報道土地利用、土壤母質(zhì)、土壤養(yǎng)分指標(biāo)等也與SOC關(guān)系密切[32-33]。因此,未來應(yīng)尋找更多與SOC相關(guān)性強(qiáng)的輔助變量以及能代表人類活動的替代因子作為模型輸入?yún)?shù),從而提升模型的泛化性能和魯棒性。后續(xù)研究可以擴(kuò)展環(huán)境預(yù)測因子(如土壤理化性質(zhì)和人類活動),并涵蓋更為廣泛區(qū)域的土壤類型,提高機(jī)器學(xué)習(xí)模型的預(yù)測精度與廣泛適應(yīng)性,實(shí)現(xiàn)更高精度和更大區(qū)域尺度的SOC含量的預(yù)測。
在具有復(fù)雜地形的亞熱帶丘陵地區(qū),RF、LightGBM和XGBoost模型均能較為有效地預(yù)測SOC含量,以隨機(jī)森林的模擬性能相對較優(yōu),可以應(yīng)用于亞熱帶丘陵區(qū)的SOC空間分布預(yù)測研究。而SVR模型的模擬精度最低,不適用于亞熱帶丘陵區(qū)SOC的空間預(yù)測研究。在環(huán)境變量重要性上,幾種模型均以地形(主要為海拔)作為SOC空間分布預(yù)測的最重要的影響因子,其余環(huán)境變量的重要性在不同模型之間存在較大差異。幾種模型預(yù)測的SOC含量結(jié)果具有相似的空間分布格局和顯著的空間異質(zhì)性,總體表現(xiàn)為北部、西南方邊緣區(qū)域和東南方邊緣區(qū)域的高海拔區(qū)SOC含量高于中部低海拔區(qū)。
農(nóng)業(yè)現(xiàn)代化研究2023年3期