任必武,陳瀚閱,張黎明,聶祥琴,邢世和,范協(xié)裕
(1.福建農(nóng)林大學(xué)資源與環(huán)境學(xué)院/福建省土壤生態(tài)系統(tǒng)健康與調(diào)控重點(diǎn)實(shí)驗(yàn)室 福州 350002;2.福建農(nóng)林大學(xué)公共管理學(xué)院 福州 350002)
耕地土壤有機(jī)碳(SOC)是影響土壤養(yǎng)分和理化性質(zhì)的重要因素,也是衡量土壤質(zhì)量和肥力的重要指標(biāo)[1-3]。獲取SOC含量及空間變化對(duì)提升土壤結(jié)構(gòu)、保證糧食安全和緩解全球氣候變化具有重要意義。傳統(tǒng)的土壤制圖方法因在大量采樣點(diǎn)的采集和分析上存在困難,限制了其在大范圍復(fù)雜地形地貌區(qū)的應(yīng)用[4]。數(shù)字土壤制圖方法,如傳統(tǒng)的普通克里格法(Ordinary Kriging,OK)因簡單、插值效果顯著[5],以及具備良好的空間自相關(guān)性[6],而得到廣泛應(yīng)用[7],但其未能考慮土壤屬性與環(huán)境因子間復(fù)雜的非線性關(guān)系[8],限制其在復(fù)雜地形地貌等SOC可能產(chǎn)生劇烈變化區(qū)域的應(yīng)用。
隨著3S技術(shù)的發(fā)展,基于機(jī)器學(xué)習(xí)算法(Machine Learning,ML)建立的輔助環(huán)境變量與土壤屬性之間的預(yù)測(cè)模型已越來越多地被用于區(qū)域土壤屬性空間預(yù)測(cè)。如隨機(jī)森林算法(Random Forest,RF)因其處理多元非線性數(shù)據(jù)方面的優(yōu)勢(shì)而在SOC空間預(yù)測(cè)研究中表現(xiàn)較為突出[9];支持向量機(jī)算法(Support Vector Machine,SVM)在解決高維問題和非線性問題等方面表現(xiàn)出良好的泛化能力和預(yù)測(cè)性能[10],也逐漸被用于SOC空間預(yù)測(cè)研究。如:Wiesmeier等[11]利用RF模型成功預(yù)測(cè)半干旱草原生態(tài)系統(tǒng)SOC的空間分布(R2=0.76);Sreenivas等[12]基于RF模型算法利用氣候、土壤、植被等輔助變量模擬并預(yù)測(cè)印度地區(qū)SOC空間分布特征(R2=0.82);Emadi等[13]利用SVM模型成功預(yù)測(cè)了伊朗地區(qū)森林環(huán)境下SOC含量(R2=0.55)。在不同方法預(yù)測(cè)SOC對(duì)比研究中,Were等[14]得出東非森林土壤環(huán)境下SVM模型表現(xiàn)(R2=0.64,RMSE=14.88)優(yōu)于RF模型表現(xiàn)(R2=0.53,RMSE=17.57);而Siewert[15]則發(fā)現(xiàn)凍土環(huán)境下RF模型預(yù)測(cè)效果(R2=0.736,RMSE=14.13)優(yōu)于SVM模型預(yù)測(cè)效果(R2=0.726,RMSE=14.9);楊煜岑等[16]對(duì)西安市SOC進(jìn)行研究也發(fā)現(xiàn)隨機(jī)森林模型表現(xiàn)最好(r=0.78)。
由此可見,RF和SVM等ML算法具備提高復(fù)雜地貌區(qū)SOC空間模擬精度的潛力,但不同ML算法用于區(qū)域SOC模擬的研究仍處于起步階段,尤其在不同算法的對(duì)比研究方面仍需有所補(bǔ)充。不同算法可能適應(yīng)不同變量組合和不同環(huán)境下的SOC預(yù)測(cè),因此需要對(duì)不同算法的預(yù)測(cè)精度進(jìn)行對(duì)比分析。此外,國內(nèi)多基于單一模型對(duì)簡單地貌類型的小尺度區(qū)域進(jìn)行預(yù)測(cè)研究,且空間分辨率多為中低分辨率[17],不能準(zhǔn)確反映復(fù)雜地貌區(qū)零碎耕地圖斑上SOC含量,而高空間分辨率更能捕捉SOC空間分異特征。針對(duì)福建省小而破碎的耕地圖斑,10 m空間分辨率更有利于捕獲SOC空間分異特征,因此有必要對(duì)高分辨率影像數(shù)據(jù)SOC應(yīng)用效果進(jìn)行評(píng)價(jià)。
目前,全國性的土壤普查已積累了大量的土壤樣點(diǎn)及其屬性數(shù)據(jù),可為高空間分辨率SOC預(yù)測(cè)模型對(duì)比研究提供極為便利的研究條件?;诖?本研究以典型的亞熱帶復(fù)雜地貌區(qū)為例,選取較易獲取的地形因子、遙感植被因子、氣候因子等輔助變量作為模型輸入,分別通過RF模型和SVM模型預(yù)測(cè)SOC,并與普通克里格插值方法進(jìn)行比較,找出適合耕地SOC預(yù)測(cè)的方法,以期為復(fù)雜地形地貌區(qū)SOC空間分布預(yù)測(cè)提供理論基礎(chǔ)。
研究區(qū)位于福建省東北部(24°59′~27°4′N,118°08′~120°44′E),包括寧德、福州和莆田3個(gè)地級(jí)市(圖1),南北長約880 km,東西寬約490 km,區(qū)域總面積29 829.26 km2,其中耕地面積4747.5 km2,地跨福建省最大的水系——閩江,流域面積超過60 000 km2,約占全省面積的1/2。該區(qū)位于鷲峰山脈、太姥山脈和戴云山脈之間,海拔高度400~1500 m,地形地貌復(fù)雜,以山地、丘陵、盆地和平原為主,其中山地(>500 m)面積高達(dá)70.18%,丘陵(300~500 m)面積達(dá)20.01%。全年受到亞熱帶季風(fēng)氣候和地形影響,年平均氣溫為17~21 ℃,平均降雨量為1400~2000 mm,主要集中在3—8月,雨量充沛,光照充足,適合農(nóng)作物生長。全區(qū)耕地以水稻土為主,占耕地總面積的79.51%。
研究區(qū)SOC數(shù)據(jù)來源于國家農(nóng)業(yè)農(nóng)村部2017年末測(cè)土配方調(diào)查樣點(diǎn)數(shù)據(jù),共計(jì)1128個(gè)(圖1),每個(gè)樣點(diǎn)均按照代表性、均勻性和適當(dāng)性原則進(jìn)行采樣,采樣深度為0~20 cm,采樣的同時(shí)記錄采樣點(diǎn)GPS位置信息,最后對(duì)采集樣品進(jìn)行風(fēng)干、篩選備用,其中土壤有機(jī)質(zhì)含量采用重鉻酸鉀氧化-外加熱方法測(cè)定。其他輔助數(shù)據(jù)包括1∶50 000福建省土地利用現(xiàn)狀數(shù)據(jù)庫和1∶50 000土壤類型數(shù)據(jù)庫,分別來源于福建省國土資源廳和農(nóng)業(yè)農(nóng)村廳,并于ArcGIS 10.2中空間疊加后提取耕地圖斑作為研究區(qū)評(píng)價(jià)底圖。本研究選取與SOC空間分異密切相關(guān)的遙感植被指數(shù)、氣候因子和地形因子3類輔助因子作為預(yù)測(cè)環(huán)境變量(表1)。
1.2.1 遙感植被因子
植被指數(shù)基于Sentinel-2衛(wèi)星影像數(shù)據(jù)計(jì)算得到,空間分辨率為10 m,數(shù)據(jù)來源于歐洲航天局(European Space Agency,https://scihub.copernicus.eu)。影像選取植被生長旺盛的季節(jié)以有效反映有機(jī)質(zhì)狀況,且云量低于10%,保證數(shù)據(jù)質(zhì)量。利用ArcGIS 10.2對(duì)影像數(shù)據(jù)進(jìn)行大氣校正、鑲嵌和裁剪等預(yù)處理,統(tǒng)一坐標(biāo)系為WGS_1984_UTM_Zone_50N,獲得研究區(qū)地表反射率,最后通過波段運(yùn)算(Band Math)計(jì)算比值植被指數(shù)(RVI)和歸一化植被指數(shù)(NDVI)以反映植被生長狀況,計(jì)算公式如下:
式中:RNIR為近紅外波段,Rred為紅光波段。
1.2.2 氣候因子
研究區(qū)氣候因子包括月最高溫、月最低溫和月降水量等柵格數(shù)據(jù),空間分辨率約為4.6 km,來自世界氣象數(shù)據(jù)庫(WorldClim Database,http://www.worldclim.org/)。年降水量通過波段運(yùn)算對(duì)月降水量進(jìn)行求和計(jì)算,月最高溫和月最低溫分別求和,平均得到年最高溫和年最低溫。利用ArcGIS 10.2對(duì)3類氣候因子進(jìn)行鑲嵌、裁剪、掩膜等預(yù)處理,并統(tǒng)一坐標(biāo),最后通過最鄰近算法(NEAREST)重采樣為10 m空間分辨率得到結(jié)果。
1.2.3 地形因子
研究區(qū)地形因子中DEM數(shù)據(jù)由福建省ASTERGDEM數(shù)據(jù)通過鑲嵌、裁剪等預(yù)處理,統(tǒng)一坐標(biāo)并通過最鄰近算法將30 m空間分辨率重采樣為10 m空間分辨率得到,來源于地理空間數(shù)據(jù)云(Geospatial Data Cloud,http://www.gscloud.cn/),相關(guān)衍生因子(坡度、坡向、曲率等)在ArcGIS 10.2通過Spatial Analyst模塊計(jì)算得到結(jié)果。
表1 影響土壤有機(jī)碳的環(huán)境變量Table 1 Environmental variables affecting soil organic carbon
1.3.1 環(huán)境變量篩選
影響SOC含量的環(huán)境變量眾多,模型訓(xùn)練之前需對(duì)模型變量進(jìn)行篩選。機(jī)器模型因被稱為“黑匣子”而不能揭示環(huán)境變量與目標(biāo)變量之間的函數(shù)關(guān)系,因此將每個(gè)變量依次排除在模型之外,根據(jù)RMSE增減對(duì)變量進(jìn)行篩選,其中RMSE增加則變量保留,反之剔除。
1.3.2 隨機(jī)森林模型
隨機(jī)森林(RF)是一種組合分類器的學(xué)習(xí)算法,在回歸樹模型基礎(chǔ)上發(fā)展而來,它是利用bootstrap重抽樣的方法[18]從原始樣本中抽取多個(gè)樣本,對(duì)每個(gè)抽取樣本進(jìn)行決策樹建模,然后組成多棵決策樹進(jìn)行預(yù)測(cè),通過投票得出最終預(yù)測(cè)結(jié)果。模型用于回歸預(yù)測(cè)時(shí),取所有回歸樹預(yù)測(cè)的平均值作為最后的輸出結(jié)果[19]。其中n_estimators和max_depth兩個(gè)參數(shù)最為重要,分別代表決策樹的數(shù)量和決策樹的最大深度。根據(jù)RMSE篩選后的環(huán)境變量和SOC實(shí)測(cè)值為自變量和因變量參與模型計(jì)算,通過網(wǎng)格搜索[14](Grid Search CV)工具設(shè)置參數(shù)選項(xiàng)n_estimators值(500、600、700、800、900和1000)和max_depth值(15、16、17、18、19和20)進(jìn)行逐次參數(shù)組合計(jì)算,根據(jù)訓(xùn)練集和驗(yàn)證集R2最為接近為原則,確定決策樹數(shù)量(n_estimators=600)和決策樹的最大深度(max_depth=16)為最優(yōu)參數(shù)對(duì)SOC進(jìn)行預(yù)測(cè)。RF模型的構(gòu)建和預(yù)測(cè)通過python中Random Forest Regressor模塊實(shí)現(xiàn)。
1.3.3 支持向量機(jī)
支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)理論的基礎(chǔ)上,以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為原則建立起來的機(jī)器學(xué)習(xí)模型,通過生成最優(yōu)分離平面,控制參數(shù)、調(diào)節(jié)模型結(jié)構(gòu),實(shí)現(xiàn)經(jīng)驗(yàn)風(fēng)險(xiǎn)和結(jié)構(gòu)風(fēng)險(xiǎn)的最小化[20]。SVM回歸預(yù)測(cè)基于不敏感函數(shù)及核函數(shù)算法進(jìn)行計(jì)算,針對(duì)非線性回歸,常通過非線性映射核函數(shù)(Φ)把數(shù)據(jù)映射到高維空間進(jìn)行線性回歸處理[21],其中懲罰系數(shù)(C)和不敏感損失函數(shù)(ε)兩個(gè)參數(shù)最為重要,用于平衡誤差和調(diào)整模型復(fù)雜程度[22]。根據(jù)RMSE篩選后的環(huán)境變量和SOC實(shí)測(cè)值作為模型輸入,通過網(wǎng)格搜索工具(Grid Search CV)設(shè)置參數(shù)選項(xiàng)C值(5、8、10、12、15、18和20)和ε值(0.01、0.005、0.001、0.0005和0.0001)進(jìn)行逐步參數(shù)組合計(jì)算,根據(jù)訓(xùn)練集和驗(yàn)證集R2最為接近為原則,確定懲罰系數(shù)(C=10)和損失函數(shù)(ε=0.001)為模型外推的最優(yōu)參數(shù)進(jìn)行SOC的空間預(yù)測(cè)。SVM模型的構(gòu)建和預(yù)測(cè)通過python中SVR模塊實(shí)現(xiàn)。
1.3.4 普通克里格
普通克里格(OK)基于SOC的空間自相關(guān)性,進(jìn)行內(nèi)插或外推來達(dá)到預(yù)測(cè)SOC的目的,其實(shí)質(zhì)就是對(duì)SOC實(shí)測(cè)數(shù)據(jù)進(jìn)行線性無偏最優(yōu)估計(jì)[23]。OK模型基于SOC實(shí)測(cè)樣點(diǎn)于ArcGIS 10.2中通過3D Analysis模塊進(jìn)行空間插值得到預(yù)測(cè)結(jié)果。
1.4.1 模型精度對(duì)比
針對(duì)3種模型(RF、SVM、和OK模型)整體精度,采用80%的訓(xùn)練樣本和20%的驗(yàn)證樣本進(jìn)行SOC的模擬與驗(yàn)證,通過均方根誤差(RMSE)、平均絕對(duì)誤差(MAE)、決定系數(shù)(R2)和相關(guān)系數(shù)(r)定量化模型精度并進(jìn)行比較,其中RMSE、MAE越小,R2和r值越接近1,表明模型預(yù)測(cè)精度越高;不同范圍SOC模型精度通過不同比例5次隨機(jī)抽樣計(jì)算RMSE平均值得到(抽樣比例分別為30%、40%、50%、60%、70%、80%、90%),避免樣點(diǎn)在不同范圍數(shù)量較少帶來誤差的不準(zhǔn)確。
1.4.2 模型變量重要性對(duì)比
去除某一環(huán)境變量計(jì)算RMSE與全部環(huán)境變量RMSE的差值代表該變量重要性大小,差值越大表明該因子相對(duì)重要性程度越高,以此比較同一機(jī)器模型不同變量的重要性大小以及不同模型反演SOC環(huán)境變量組合間的差異。
1.4.3 模型預(yù)測(cè)SOC空間分布對(duì)比
比較RF、SVM模型和OK模型預(yù)測(cè)SOC空間分布圖,對(duì)差異性較大的區(qū)域放大對(duì)比,用于評(píng)價(jià)SOC預(yù)測(cè)模型空間異質(zhì)性的優(yōu)劣。
基于研究區(qū)耕地圖斑對(duì)預(yù)處理好的輔助變量進(jìn)行裁剪得到耕地對(duì)應(yīng)的遙感植被因子、氣候因子、地形因子等環(huán)境變量,并作為機(jī)器模型的輸入對(duì)象,最后得到不同機(jī)器模型預(yù)測(cè)SOC空間分布格局;OK模型預(yù)測(cè)結(jié)果基于SOC實(shí)測(cè)樣點(diǎn)于ArcGIS 10.2進(jìn)行插值并重采樣為10 m得到。ArcGIS 10.2中完成SOC空間分布圖的制作。
基于SOC實(shí)測(cè)樣點(diǎn)對(duì)不同模型性能進(jìn)行統(tǒng)計(jì),結(jié)果如圖2。根據(jù)RMSE、MAE、R2和r4個(gè)模型指標(biāo)比較:RF模型得到最低的預(yù)測(cè)誤差和最高的r值(RMSE=2.004,R2=0.880,r=0.897),模型表現(xiàn)最優(yōu),能解釋SOC 88%的空間變異性;相較于RF模型,SVM模型和OK模型中RMSE分別增加159.0%和128.1%,誤差較大。在SOC所有含量范圍的誤差中RF模型均低于其他模型(圖2d),表現(xiàn)最好;在SOC為10~15 g·kg?1和15~20 g·kg?1范圍內(nèi)SVM模型誤差低于OK模型誤差,而在其余SOC含量范圍SVM模型誤差高于OK模型。
如表2,不同方法預(yù)測(cè)SOC中值和平均值都與實(shí)測(cè)結(jié)果接近,約為15 g·kg?1,但變異系數(shù)和標(biāo)準(zhǔn)偏差均變小,預(yù)測(cè)結(jié)果范圍被明顯壓縮,這與Siewert[15]預(yù)測(cè)亞北極SOC結(jié)論一致,主要因?yàn)樗惴ɑ貧w趨于平均所導(dǎo)致;相較于RF和OK模型,SVM模型這一現(xiàn)象更為明顯,壓縮范圍高達(dá)56.03%;從標(biāo)準(zhǔn)偏差(SD)和變異系數(shù)(CV)發(fā)現(xiàn),3種算法中,RF模型預(yù)測(cè)結(jié)果的SD和CV與實(shí)測(cè)值最為接近,更能表征SOC的動(dòng)態(tài)變化范圍??傊?3種預(yù)測(cè)模型中,RF表現(xiàn)最佳,其次OK模型,SVM相對(duì)最弱。
表2 不同模型土壤有機(jī)碳(SOC)預(yù)測(cè)值與實(shí)測(cè)值對(duì)比Table 2 Comparison of predicted by different models and measured soil organic carbon(SOC)values
圖3所示,RF模型中重要性占主導(dǎo)地位的變量主要包括最低溫度(Mint,87)、高程(DEM,75)和降水(Rainfall,48);SVM模型中重要性占主導(dǎo)地位的變量主要包括降水(Rainfall,93)、高程(DEM,28)和地形起伏度(Rel,22),其中Rainfall和DEM在山區(qū)SOC的貢獻(xiàn)率表現(xiàn)突出[24]。Mza等[25]認(rèn)為地形和降水在一定程度上改變了土壤性質(zhì)促進(jìn)SOC的積累,楊煜岑等[16]和任麗等[17]在SOC研究中也發(fā)現(xiàn)DEM是影響SOC最重要的變量之一;且張厚喜等[26]和鐘兆全[27]分別運(yùn)用不同模型預(yù)測(cè)福建省SOC,發(fā)現(xiàn)高程是影響SOC含量的重要因子,且SOC含量隨海拔的升高而增加,與本研究觀點(diǎn)一致。
兩種模型中遙感植被指數(shù)NDVI和RVI對(duì)SOC重要性都低于高程和降水,但都作為貢獻(xiàn)因子參與模型預(yù)測(cè),對(duì)SOC空間預(yù)測(cè)不可或缺。Guo等[28]預(yù)測(cè)海南橡膠園SOC,齊雁冰等[29]針對(duì)陜西省SOC研究中也發(fā)現(xiàn)遙感植被因子重要性均低于高程,且盧宏亮等[30]和馬冉[23]在SOC空間預(yù)測(cè)研究中均得到相同結(jié)論。SVM模型中坡向(Aspect)因子被排除不參與SOC建模;RF模型中地形起伏度(Rel)、地形濕度指數(shù)(TWI)和平面曲率(Plan)3個(gè)因子被排除不參與模型計(jì)算,其余因子[剖面曲率(Profile)、坡度(Slope)、年最高氣溫(Maxt)]對(duì)模型的貢獻(xiàn)率較低。年最低氣溫(Mint)在RF模型中貢獻(xiàn)率較高而在SVM模型中貢獻(xiàn)率較低。
圖4展示了不同模型預(yù)測(cè)的SOC空間分布狀況??傮w上看3種模型預(yù)測(cè)的SOC空間分布相似,呈現(xiàn)出北部、中部高于南部地區(qū),西部高于東部沿海地區(qū)的分布態(tài)勢(shì)。統(tǒng)計(jì)分析發(fā)現(xiàn)(圖5),SOC空間分布特征與3類環(huán)境變量代表性因子(DEM,Rainfall,NDVI)呈現(xiàn)明顯的相關(guān)性。針對(duì)亞熱帶復(fù)雜的高山地貌環(huán)境,一般海拔越高,降水量越高,越有利于SOC的積累,這與本研究中SOC與高程和降水呈正相關(guān)的結(jié)論一致(圖5a,b),且這一結(jié)論被多位學(xué)者所證明[31-33]。植被是SOC含量的重要來源,控制著土壤有機(jī)質(zhì)含量的輸入,故遙感植被指數(shù)NDVI與SOC含量呈現(xiàn)明顯的正相關(guān)關(guān)系(圖5c),這與Shi等[34]觀點(diǎn)相一致。研究區(qū)北部、中部和西部地區(qū)(SOC高值區(qū))高海拔高降水的土壤環(huán)境有利于SOC的積累和保持,形成較高的SOC分布格局;東部沿海與南部低海拔地區(qū)SOC含量低于北部、中部和西部高海拔地區(qū),可能是SOC積累速率較低導(dǎo)致。
選取不同模型預(yù)測(cè)SOC分布差異較大的子區(qū)域(圖4Ⅰ-Ⅲ,a,b框)對(duì)SOC空間異質(zhì)性進(jìn)行比較發(fā)現(xiàn):機(jī)器模型(RF模型和SVM模型)所表達(dá)空間異質(zhì)性更為精細(xì),而OK模型空間表達(dá)相對(duì)粗糙,主要?dú)w因于OK模型僅考慮SOC空間自相關(guān)因素,而缺乏對(duì)影響SOC多種環(huán)境因子的考量[35]。圖2d不同范圍SOC誤差對(duì)比得出:RF模型在SOC所有范圍誤差最小,故RF模型預(yù)測(cè)SOC空間分布更為平滑,預(yù)測(cè)結(jié)果更為精細(xì)(圖4Ⅰ);SVM模型在高值區(qū)(>25 g·kg?1)和低值區(qū)(<5 g·kg?1)存在較大的預(yù)測(cè)誤差(RMSE>9.2,圖2d),造成SOC預(yù)測(cè)值過于趨向平均,其SOC空間分布上表現(xiàn)為高值低值區(qū)較少(圖4Ⅱ),不能完全反映SOC的動(dòng)態(tài)變化范圍。最后,無論從模型精度還是空間異質(zhì)性表達(dá),RF模型表現(xiàn)最優(yōu),可用于亞熱帶復(fù)雜地貌環(huán)境的SOC預(yù)測(cè)。以下僅對(duì)最優(yōu)模型預(yù)測(cè)的SOC空間分布狀況進(jìn)行描述。
RF模型預(yù)測(cè)SOC含量均值為15.33±4.07 g·kg?1,范圍是3.57~29.91 g·kg?1,其中SOC中高值區(qū)(>20 g·kg?1)主要分布在鷲峰山脈和戴云山脈的高海拔地區(qū),僅占研究區(qū)總面積的4.13%;SOC中低值區(qū)(<10 g·kg?1)主要分布于福州平原和興化平原等低海拔的沿海地區(qū),占研究區(qū)總面積的5.15%;10~20 g·kg?1區(qū)間所占面積超過90%,位于海拔高低過渡帶之間。
福建省地形地貌環(huán)境復(fù)雜,本研究選取了容易獲取的地形因子、氣候因子以及遙感植被因子參與模型構(gòu)建并預(yù)測(cè)SOC,但缺乏人類活動(dòng)對(duì)SOC影響的研究。實(shí)踐證明農(nóng)業(yè)活動(dòng)[36](如:輪作、灌溉、施肥)等人為要素對(duì)SOC尤其表層SOC含量產(chǎn)生重要影響,如:尹萍[37]認(rèn)為農(nóng)業(yè)活動(dòng)會(huì)改變表層SOC含量,影響氣候等自然環(huán)境變量與SOC的關(guān)系;田慎重等[38]研究發(fā)現(xiàn)保護(hù)性輪作措施能有效提高表層SOC含量。因此,尋找更多SOC相關(guān)性強(qiáng)的輔助變量以及能代表人類活動(dòng)的替代因子作為模型輸入將是提高SOC預(yù)測(cè)準(zhǔn)確度的重要途徑之一。
本研究僅針對(duì)兩種機(jī)器模型(RF模型和SVM模型)預(yù)測(cè)SOC,并與OK進(jìn)行比較,機(jī)器模型應(yīng)用較少,而未來SOC研究需要更多的機(jī)器學(xué)習(xí)方法進(jìn)行對(duì)比研究,如:分類樹[39](Classification Tree models)、樸素貝葉斯[40](Naive Bayesian Classifier)、人工神經(jīng)網(wǎng)絡(luò)[41](Artificial Neural Network)等,隨著機(jī)器模型的發(fā)展,深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)也被應(yīng)用于數(shù)字土壤制圖,如:Emadi等[13]研究伊朗北部地區(qū)SOC發(fā)現(xiàn)DNN模型優(yōu)于其他機(jī)器模型,表現(xiàn)最好。因此,多種機(jī)器模型的評(píng)估和比較更有利于對(duì)研究區(qū)SOC空間分布狀況進(jìn)行整體而全面的把握。
本研究基于福建省復(fù)雜地貌區(qū)大量實(shí)測(cè)樣點(diǎn)和10 m空間分辨率Sentinel-2衛(wèi)星影像數(shù)據(jù),選擇植被遙感變量、地形變量以及氣候變量作為模型輸入,重點(diǎn)比較RF模型和SVM模型在模型精度、變量重要性和空間分布的差異,并與OK模型進(jìn)行對(duì)比。結(jié)果顯示:1)從模型誤差和相關(guān)系數(shù)比較,RF模型表現(xiàn)最好(RMSE=2.004,R2=0.880,r=0.897),OK模型次之,SVM模型表現(xiàn)相對(duì)最差(RMSE=5.190,R2=0.193,r=0.431);2)RF模型和SVM模型重要性變量選擇上,高程和降水最為重要,與SOC呈正相關(guān)關(guān)系,而遙感植被因子重要性低于高程,也與SOC呈正相關(guān)關(guān)系;3)3種模型預(yù)測(cè)SOC空間分布趨勢(shì)總體一致,表現(xiàn)為:北、中、西部高海拔地區(qū)SOC含量高于南部和東部低海拔地區(qū),相較于SVM和OK模型,RF模型能體現(xiàn)更多的空間變異性信息,空間異質(zhì)性表達(dá)更為精確,可作為復(fù)雜地貌區(qū)SOC含量預(yù)測(cè)的高效方法。