陳玉藍,梁太波,張艷玲,王 勇,袁大剛,朱 俊,李德成
基于特征集成學習的四川省土壤厚度預測①
陳玉藍1,梁太波2,張艷玲2,王 勇1,袁大剛3,朱 俊4*,李德成5
(1 四川省煙草公司涼山州公司,四川西昌 615000;2 中國煙草總公司鄭州煙草研究院,鄭州 450001;3 四川農業(yè)大學資源學院,成都 611130;4 南京工業(yè)職業(yè)技術大學計算機與軟件學院,南京 210023;5 中國科學院南京土壤研究所,南京 210008)
以四川省土壤厚度預測為例,為農業(yè)生產與生態(tài)環(huán)境評價中土壤厚度空間分布圖的編制提供方法支持。對比分析了隨機森林、分位數回歸森林、支持向量機、集成學習模型對連續(xù)型土壤厚度的預測精度,并提出了一種基于特征集成學習的土壤厚度類型預測算法。研究結果表明:①四川省土壤厚度具有較高的空間異質性,控制其空間變化的主要地形因子包括谷底平坦綜合指數、高程與地形濕度指數;②四川省土壤厚度預測模型的決定系數為0.32 ~ 0.47,均方根誤差為0.28 ~ 0.41 m;③面向連續(xù)型土壤厚度預測的集成模型具有較高的預測精度與穩(wěn)健性,能夠充分集成子模型的優(yōu)勢。特征集成學習能夠有效集成并融合了連續(xù)型土壤厚度預測與離散型土壤厚度類型預測結果,通過減少方差來提高預測結果的穩(wěn)健性。
數字土壤制圖;機器學習;集成學習;四川省
土壤厚度是土壤質量評價、土壤碳庫估算與水土保持最重要的物理指標之一[1]。土壤性質的垂直變異程度受到土壤厚度的直接影響,因此土壤厚度是土壤屬性空間變化模擬乃至土壤時空變異特征研究的重要主題[2]。
通常情況下,土壤厚度是通過土壤剖面的調查來獲得的。我國中西部山地地區(qū)道路可達性較差、面積較大,這就導致我國部分地區(qū)難以獲得詳實的土壤厚度調查數據。基于土壤–景觀范式,數字土壤制圖通過集成地理信息系統(tǒng)技術、遙感分析技術與計算機模擬技術來量化土壤屬性的時空變異特征,已受到國內外土壤學界的普遍接受。目前,數字土壤制圖的主流技術已從傳統(tǒng)的地統(tǒng)計學發(fā)展為機器學習[3]。有別于其他土壤理化屬性,土壤厚度與成土要素(例如氣候、地形)的相關性較低,常規(guī)的機器學習算法預測性能往往不夠理想。國內外學者對土壤厚度預測過程中的數據獲取[4]、環(huán)境變量篩選[5-7]、預測模型改進[8-11]、預測不確定性分析[12-13]進行了探討。相關研究表明,地形是預測土壤厚度最重要的環(huán)境變量之一[14],機器學習算法在表征土壤厚度空間變異方面具有較高的適宜性[6]。
在實際生產過程中,技術人員往往不太關心土壤厚度的準確數值,而更關注土體厚度是否能夠滿足特定的應用。例如,如果土壤剖面中A層與B層厚度之和大于60 cm,在不考慮地形對于水土流失影響的情況下,該土壤可能就適宜于農業(yè)生產。需要指出的是,野外調查獲取到的土壤厚度數據往往基于挖掘或觀察到的土壤剖面,受限于調查手段而無法獲取到準確的土壤厚度信息,尤其是在土壤厚度大于2 m時。因此,獲取準確的土壤厚度類型數據在實際應用上具有重要的意義。由于影響土壤厚度空間分布的環(huán)境變量種類較多,準確量化土壤厚度與環(huán)境變量之間的關系往往受到預測模型性能的影響,而且預測模型往往基于不同的理論假設,其預測結果在不同地形區(qū)的不確定性也不盡相同。因此,如何使用集成學習方法有機結合復雜景觀區(qū)的預測模型,進而獲得比單一種類預測模型更加優(yōu)越的泛化性能是一個迫切需要解決的科學問題。
在前人已有相關工作的基礎上,本文以四川省的土壤厚度預測為例,對比分析不同機器學習算法預測土壤厚度的精度,提出一種基于特征集成學習的土壤厚度預測方法,以提升土壤厚度空間預測的精度與穩(wěn)健性。
四川省是我國的第五大省份,位于長江中下游平原和青藏高原地區(qū)的過渡帶,地勢西高東低,地形復雜多樣,以山地為主,山地、丘陵約占全省面積的89%,這也導致了四川省土壤厚度空間變化的異質性較大。四川省絕大部分地區(qū)受季風環(huán)流影響,東部地區(qū)主要受東南季風控制,西部地區(qū)則主要受西南季風控制,因此四川省氣候可以分為三大類,分別是川西北高山高原高寒氣候、川西南山地亞熱帶半濕潤氣候與四川盆地中亞熱帶濕潤氣候。全省年平均氣溫7.97 ℃,平均日照1 830 h,平均年降水量858.32 mm。四川省的耕地面積為6.72萬km2,林地面積為22.20萬km2。按照中國土壤系統(tǒng)分類,四川省土壤類型主要是雛形土 (71%)、淋溶土(14%)與人為土(4%)。
本文的土壤樣本數據主要是四川省的土系調查[15](=195)與第二次全國土壤普查的數據[16](=99)(圖1)。土系調查數據作為訓練數據集用來訓練預測模型,歷史土壤數據作為獨立驗證數據集評估預測模型的精度。土系調查樣點的布置主要考慮到交通可達性以及第二次土壤普查已采集樣點的位置與氣候、植被、母質、地形等成土因素的空間分布特征。土系調查樣點的成土環(huán)境與發(fā)生層樣品主要依據《野外土壤描述與采樣手冊》[17]進行描述,詳細記錄了各采樣點的景觀、剖面與新生體特寫照片、成土條件描述、土壤剖面層次劃分與各層次形態(tài)特征。
圖1 四川省土壤采樣點空間分布
本文共收集了17個環(huán)境變量(表1),包括地形因子、遙感因子、成土母質、土地利用。地形因子包括高程、坡向、坡度、平面曲率、剖面曲率、地形濕度指數等變量。氣候變量包括年均氣溫、年均降雨。其他的變量包括土壤類型(土綱)、歸一化植被指數、土地利用類型等。地形因子使用SRTM數據,遙感因子使用Landsat8數據,土地利用數據使用多年的平均值[18]。連續(xù)型環(huán)境變量使用Z-score方法進行標準化處理。
表1 環(huán)境變量介紹
傳統(tǒng)研究將土壤厚度作為連續(xù)型的因變量。本文重點關注土壤厚度類型的空間分布規(guī)律及其主要驅動因素,提出一種基于特征集成學習的土壤厚度預測方法,將面向連續(xù)型土壤厚度的預測結果進行重分類,作為新的特征進行集成。具體的預測流程包括:
1) 使用機器學習算法預測連續(xù)型土壤厚度的空間分布。訓練的機器學習算法包括:隨機森林(Random Forest,RF)、分位數回歸森林(Quantile Regression Forest,QRF)與支持向量機(Support Vector Machine,SVM)。
3) 對于上一步中的土壤厚度空間分布圖進行重分類。由于本文土壤厚度數據較為有限(=195),考慮到土壤厚度數據的頻率分布與土壤厚度預測精度對比的可操作性,將重分類的閾值設定為0 ~ 60 cm、60 ~ 100 cm與 >100 cm,對應的土壤厚度類型標識分別為1、2、3,該圖層記為Depth1。如果研究區(qū)的土壤樣點數據較多,也可以考慮劃分更多的土壤厚度類型。
4) 基于訓練數據集(=195),將采樣點的土壤觀測數據進行重分類,重分類的閾值為0 ~ 60、60 ~ 100 與>100 cm,對應的土壤厚度標識分別為1、2、3。使用隨機森林、分位數回歸森林與支持向量機算法分別進行土壤厚度類型的預測,篩選出預測精度最高的預測模型,并使用該方法預測四川省的土壤厚度類型空間分布圖Depth2,分類精度為cla。因為因變量不同,該步驟與步驟2是完全獨立的。
5) 使用特征集成機制,將兩類土壤厚度類型空間分布圖進行集成:
式中:ensm、cla分別是步驟2中連續(xù)型土壤厚度集成模型的預測精度和步驟4中離散型土壤厚度類型的預測精度。最終的預測結果采用四舍五入的方式生成土壤厚度類型的空間分布圖。
采集的土壤厚度統(tǒng)計信息如表2、表3所示。根據《中華人民共和國水土保持法》[30],在5°以上地區(qū)的坡地植樹造林、撫育幼林等需要采取水土保持措施,本文以5° 為閾值對采樣點的土壤厚度進行了統(tǒng)計(表2)。方差分析結果表明沖積物、洪積物、泥巖成土母質條件下的土壤厚度呈現(xiàn)顯著性差異(<0.05),不同土地利用、土壤類型條件下土壤厚度也呈現(xiàn)顯著性差異(表3)。這說明四川省土壤厚度具有較高的空間異質性,需要綜合考慮多種成土因素對土壤厚度的影響。
表2 采樣點土壤厚度統(tǒng)計結果
表3 不同成土母質、土地利用與土壤類型條件下土壤厚度(基于土系調查數據)
注:同列數據小寫字母不同表示差異達<0.05顯著水平。
由于收集的環(huán)境變量間具有一定的相關性,為了避免多重共線性問題,本文使用逐步回歸方法選擇最優(yōu)自變量集合,并計算篩選環(huán)境變量的方差膨脹因子(Variance Inflation Factor,VIF),移除VIF》5的環(huán)境變量。使用隨機森林模型量化了不同環(huán)境變量對于土壤厚度空間變異的表征能力(圖2)。分析結果表明:氣候因子、地形因子與植被指數被遴選為最有效的環(huán)境變量,其中地形因子(谷底平坦綜合指數、高程與地形濕度指數)能夠較好地表征土壤厚度的空間變異。
圖2 基于隨機森林的環(huán)境變量重要性
在獨立執(zhí)行100次試驗之后,子模型與集成模型預測連續(xù)型土壤厚度的預測精度平均值如表4所示??傮w上,子模型與集成模型的標準誤差均接近0,隨機森林與分位數回歸森林的預測精度較為接近,均略高于支持向量機。集成模型的精度較子模型略有提升(2=0.47)。將土壤厚度樣點數據進行重分類后構建分類預測模型,使用獨立驗證數據集對不同的預測模型進行精度評價(表5),結果表明特征集成模型的預測精度顯著高于子模型與基于連續(xù)型土壤厚度的集成模型。使用獨立驗證數據的平均值作為預測結果,獲取到的預測精度(分類精度)為0.29,特征集成模型的預測精度是以平均值作為預測結果的2.1倍(表5),本文提出的預測方法顯著優(yōu)于各子模型與以平均值作為預測結果的精度。
基于3種機器學習與集成學習預測的土壤厚度值空間分布如圖3所示。3種子模型與集成學習模型預測的平均土壤厚度基本一致(1.17 ~ 1.19 m),預測的土壤厚度最小值為0.36 m,最大值為2.10 m(表6)。集成學習預測結果的標準差比其他3種子模型的預測結果小,說明集成學習模型具有較高的穩(wěn)健性。宏觀分布上,成都平原、川西高原呈現(xiàn)截然不同的土壤厚度空間分布特征,這主要歸因于地形地貌對于土壤厚度的影響。成都平原雖然屬于四川盆地內的平原,但是其平均厚度遠大于1 m。川西高原地形起伏大,自然條件復雜,土壤形成過程也復雜多變,因此該地區(qū)的土壤厚度具有極高的空間異質性。
表4 面向連續(xù)型土壤厚度子模型與集成模型的預測精度(基于土系調查數據)
表5 面向土壤厚度類型子模型與集成模型的預測精度(基于獨立驗證數據)
使用分位數回歸森林預測的90% 置信區(qū)間來分析預測結果的不確定性(圖4)。連續(xù)型土壤厚度的5%分位數與95% 分位數(圖4)與其他預測結果呈現(xiàn)類似的空間分布特征,也即土壤厚度自西向東呈現(xiàn)逐步下降的趨勢。山地區(qū)域,尤其是四川盆地至川西高山高原區(qū)過渡區(qū)域土壤厚度的空間預測不確定性較高,說明在山地區(qū)域需要收集更多的土壤樣點來降低預測結果的不確定性?;陬A測的連續(xù)型土壤厚度(圖3D)、子模型(分位數回歸森林)預測的土壤厚度類型與預測精度,生成最終的土壤厚度類型空間分布圖(圖5),其中<0.6、0.6 ~ 1.0和>1.0 m 3種類型的面積百分比分別為5.6%、31.4% 和63.0%。
表6 不同預測算法預測土壤厚度的統(tǒng)計結果
(A. 5%分位數;B. 95%分位數)
圖5 基于集成學習生成的土壤厚度類型空間分布
土壤厚度是指導農業(yè)生產與生態(tài)環(huán)境評價的重要基礎信息,然而傳統(tǒng)的土壤調查僅能獲取采樣點的土壤厚度數據,難以獲取土壤厚度的空間分布圖層。本文使用基于權重的機器學習模型,針對地形復雜的平原與山地地貌區(qū)域提出了一種基于特征集成學習的土壤厚度預測算法,該算法充分利用了集成學習能夠充分結合多個機器學習算法的優(yōu)點,并融合了連續(xù)型土壤厚度預測與離散型土壤厚度類型預測結果,通過減少方差來提高預測結果的穩(wěn)健性。在前期的預試驗過程中,也嘗試了人工神經網絡、普通克里格、多元線性回歸方法,但是這些子模型的精度比本文使用的3種機器學習算法精度低。在提出的特征集成學習的框架下,用戶可以根據需求遴選不同數量、不同種類的子模型。由于土壤厚度數據有限,本文使用歷史土壤數據作為獨立驗證數據集評估預測模型的精度。有別于其他土壤屬性,土壤厚度隨時間的推移變化較小,而且本研究中土壤厚度類型分類閾值跨度較大(0 ~ 60 cm、60 ~ 100 cm與>100 cm)。盡管驗證數據集與建模數據集的采樣時間相差30多年,歷史土壤厚度數據的使用并未影響本文的獨立驗證。
有別于以往的集成學習模型,本文提出的方法使用子模型進行土壤厚度類型預測,這主要是考慮到機器學習算法在構建回歸與分類預測模型上的差異性。同時,需要特別指出的是,與常規(guī)的土壤理化屬性不同,土壤厚度一般為實際觀測到的最大采樣深度,這取決于調查人員挖掘剖面的實際調查深度,因此使用土壤厚度分類機制能夠較好地表征土壤類型的空間分布特征,避免給出不夠準確的土壤厚度信息。盡管獨立驗證數據集平均值略低于建模樣點(表2),但是模型預測精度評價結果表明特征集成模型能夠較好地預測土壤厚度類型的空間分布(表5)。
在實際的土壤調查過程中,土壤厚度往往只記錄了觀測數據,事實上的土壤厚度可能遠遠大于實際的觀測值[1],這種“不準確的”土壤厚度觀測數據會給預測模型帶來一定的預測誤差,導致部分地區(qū)的土壤厚度出現(xiàn)嚴重的低估情況。針對這種情況,國內外也有部分學者將土壤厚度定義為刪失數據(right censored data)[12],并構建了隨機生存森林來預測超過一定土壤厚度閾值概率的空間分布。分析預測的土壤厚度的宏觀分布特征(圖3、圖4)可以發(fā)現(xiàn),土壤厚度與地形因子之間絕非簡單的線性關系,而是存在十分復雜的非線性關系。地統(tǒng)計模型需要滿足空間自相關假設條件,而土壤厚度在不同地形條件下呈現(xiàn)迥異的分布特征(圖3),因此本文未考慮使用地統(tǒng)計技術作為對比模型。
基于隨機森林的變量重要性分析僅能量化環(huán)境變量對土壤厚度空間變異的表征能力,不能給出具體的驅動作用的解釋。由于土壤演化受到多種成土因素的長期綜合作用,因此土壤厚度的主要驅動因素也復雜多樣。方差分析結果顯示土壤厚度在不同的土壤類型、成土母質條件下呈現(xiàn)顯著性差異(表3),但是環(huán)境變量篩選過程卻剔除了這些分類變量。因此,在現(xiàn)有篩選的環(huán)境變量集的基礎上(圖2)增加了這些分類變量并測試了模型的預測精度。結果表明,無論是增加一個分類變量還是多個分類變量,集成模型的預測精度均沒有顯著提升(>0.05)。這可能是由于表3中的環(huán)境變量信息是基于野外調查的結果,而收集到的覆蓋整個研究區(qū)的分類變量的精度與分辨率還不足以表征土壤厚度的空間變異特征。
總體上,本文連續(xù)型土壤厚度預測模型的決定系數為0.47(表4),比相關研究在區(qū)域尺度(0.16 ~ 0.34)與國家尺度(0.11 ~ 0.41)的預測準確度高[10, 13],這說明本文使用的環(huán)境變量能夠較好地表征土壤厚度的空間變化特征,擬合的預測模型能夠準確地量化土壤–景觀關系。例如,地形濕度指數通常在靠近流域網絡的區(qū)域值較高,這些區(qū)域比其他區(qū)域具有更多的河流沖積物,因此其土壤厚度也可能比其他地區(qū)高,地形濕度指數能夠較好地表征山地區(qū)域土壤厚度的空間分布特征[9]。Ryland等人[4]在約16 hm2的Calhoun地球關鍵帶觀測站使用電磁感應設備(Dualem-21S EMI)調查了3.7萬個觀測點,并使用地統(tǒng)計方法獲得了該地區(qū)土壤黏化層的厚度空間分布圖。該研究指出坡底由于受到更嚴重的土壤侵蝕而具有較淺的沖積物,這也說明土壤厚度空間預測模型的準確擬合需要足夠土壤數據的支持。
1) 四川省土壤厚度具有較高的空間異質性,難以使用單一的成土要素進行量化。
2) 地形因子(谷底平坦綜合指數、高程與地形濕度指數)能夠較好地表征山地區(qū)土壤厚度的空間變異特征。
3) 面向連續(xù)型土壤厚度預測的集成模型具有較高的預測精度與穩(wěn)健性,能夠充分集成子模型的優(yōu)勢。特征集成學習能夠有效集成并融合了連續(xù)型土壤厚度預測與離散型土壤厚度類型預測結果,通過減少方差來提高預測結果的穩(wěn)健性。
但由于研究區(qū)較大,樣本數據有限,本文提出的算法還需要在收集到更多的土壤數據或類似的研究區(qū)進行完善。
[1] 易晨, 李德成, 張甘霖, 等. 土壤厚度的劃分標準與案例研究[J]. 土壤學報, 2015, 52(1): 220–227.
[2] 張甘霖, 史舟, 朱阿興, 等. 土壤時空變化研究的進展與未來[J]. 土壤學報, 2020, 57(5): 1060–1070.
[3] Wadoux A M J C, Minasny B, McBratney A B. Machine learning for digital soil mapping: Applications, challenges and suggested solutions[J]. Earth-Science Reviews, 2020, 210: 103359.
[4] Ryland R C, Thompson A, Sutter L A, et al. Mapping depth to the argillic horizon on historically farmed soil currently under forests[J]. Geoderma, 2020, 369: 114291.
[5] Lu Y Y, Liu F, Zhao Y G, et al. An integrated method of selecting environmental covariates for predictive soil depth mapping[J]. Journal of Integrative Agriculture, 2019, 18(2): 301–315.
[6] Horst-Heinen T Z, Dalmolin R S D, ten Caten A, et al. Soil depth prediction by digital soil mapping and its impact in pine forestry productivity in South Brazil[J]. Forest Ecology and Management, 2021, 488: 118983.
[7] Wang Q, Wu B F, Stein A, et al. Soil depth spatial prediction by fuzzy soil-landscape model[J]. Journal of Soils and Sediments, 2018, 18(3): 1041–1051.
[8] Pení?ek V, Bor?vka L. Soil depth prediction supported by primary terrain attributes: A comparison of methods[J]. Plant, Soil and Environment, 2006, 52(9): 424–430.
[9] Wu S W, Lin C Y, Sun M Y, et al. Estimation of soil depth in the Liukuei Experimental Forest by using conceptual model[J]. CATENA, 2022, 209: 105839.
[10] Dharumarajan S, Vasundhara R, Suputhra A, et al. Prediction of soil depth inusing digital soil mapping approach[J]. Journal of the Indian Society of Remote Sensing, 2020, 48(11): 1593–1600.
[11] 王改粉, 趙玉國, 楊金玲, 等. 流域尺度土壤厚度的模糊聚類與預測制圖研究[J]. 土壤, 2011, 43(5): 835–841.
[12] Chen S C, Mulder V L, Martin M P, et al. Probability mapping of soil thickness by random survival forest at a national scale[J]. Geoderma, 2019, 344: 184–194.
[13] Chen S C, Richer-de-Forges A C, Leatitia Mulder V, et al. Digital mapping of the soil thickness of loess deposits over a calcareous bedrock in central France[J]. Catena, 2021, 198: 105062.
[14] 于全波, 張浪, 黃紹敏, 等. 城鎮(zhèn)搬遷地土壤厚度劃分與案例研究[J]. 土壤, 2021, 53(5): 1081–1086.
[15] 張甘霖, 袁大剛. 中國土系志·四川卷[M]. 北京: 科學出版社, 2020.
[16] 全國土壤普查辦公室. 中國土種志·第六卷[M]. 北京: 中國農業(yè)出版社, 1996.
[17] 張甘霖, 李德成. 野外土壤描述與采樣手冊[M]. 北京: 科學出版社, 2022.
[18] Li X C, Yu L, Sohl T, et al. A cellular automata downscaling based 1 km global land use datasets (2010—2100)[J]. Science Bulletin, 2016, 61(21): 1651–1661.
[19] Jarvis A, Reuter H I, Nelson A, et al. Hole-filled SRTM for globe (Version 4)[OL]. 2018-11-01(2023-07-04). http:// srtm.csi.cgiar.org.
[20] 熊毅主編. 王鶴林, 黃翠琴編繪. 中國土壤圖集[M]. 北京: 地圖出版社, 1986.
[21] Maisongrande P, Duchemin B, Dedieu G. VEGETATION/ SPOT: An operational mission for the Earth monitoring; presentation of new standard products[J]. International Journal of Remote Sensing, 2004, 25(1): 9–14.
[22] Yang L Q, Jia K, Liang S L, et al. Comparison of four machine learning methods for generating the GLASS fractional vegetation cover product from MODIS data[J]. Remote Sensing, 2016, 8(8): 682.
[23] Xiao Z Q, Liang S L, Jiang B. Evaluation of four long time-series global leaf area index products[J]. Agricultural and Forest Meteorology, 2017, 246: 218–230.
[24] Zhang G L, Song X D, Wu K N. A classification scheme for Earth’s critical zones and its application in China[J]. Science China Earth Sciences, 2021, 64(10): 1709–1720.
[25] Brungard C, Nauman T, Duniway M, et al. Regional ensemble modeling reduces uncertainty for digital soil mapping[J]. Geoderma, 2021, 397: 114998.
[26] Song X D, Wu H Y, Ju B, et al. Pedoclimatic zone-based three-dimensional soil organic carbon mapping in China[J]. Geoderma, 2020, 363: 114145.
[27] Meyer D, Dimitriadou E, Hornik K, et al. e1071: Misc functions of the department of statistics, probability theory group (Formerly: E1071), TU Wien[OL]. 2023-02-01 (2023-07-04). https://CRAN.R-project.org/package=e1071.
[28] Liaw A, Wiener M. Classification and regression by randomForest[J]. R News, 2002, 2(3): 18–22.
[29] Meinshausen N. quantregForest: Quantile Regression Forests[OL]. 2017-12-19 (2023-07-04). https://CRAN.R- project.org/package=quantregForest.
[30] 劉志仁, 王嘉奇. 黃河流域中上游水土保持法律制度研究[J]. 干旱區(qū)資源與環(huán)境, 2022, 36(11): 10–18.
Spatial Prediction of Soil Thicknesses in Sichuan Province Based on Feature-Ensemble Learning
CHEN Yulan1, LIANG Taibo2, ZHANG Yanling2, WANG Yong1, YUAN Dagang3, ZHU Jun4*, LI Decheng5
(1 Liangshan Branch of Sichun Tobacco Company, Xichang, Sichuan 615000, China; 2 Zhengzhou Tobacco Research Institute of CNTC, Zhengzhou 450001, China; 3 College of Resources, Sichuan Agricultural University, Chengdu 611130, China; 4 School of Computer and Software, Nanjing Vocational University of Industry Technology, Nanjing 210023, China; 5 Institute of Soil Science, Chinese Academy of Sciences, Nanjing 210008, China)
This study compared the prediction accuracy of random forest, quantile regression forest, support vector machine and ensemble learning in mapping soil thickness taken as a continuous variable, where the machine learning models were weighted as individual models. Furthermore, a feature-ensemble learning algorithm was proposed for mapping soil thickness, in which soil thicknesses was classified as a new categorical variable, and the discrete predictions were further weighted with the predicted continuous soil thicknesses.The results showed that soil thicknesses in Sichuan Province were characterized with high spatial variation, of which the dominated drivers included multiresolution index of valley bottom flatness, elevation and topographic wetness index. The overall performance of prediction models in terms of coefficients of determinations and root mean square errors were 0.32–0.47 and 0.28–0.41 m, respectively. For the prediction of continuous soil thickness, ensemble models had low errors than those of individual models. For soil thickness types, the proposed feature-ensemble learning algorithm achieved higher robustness than other considered models by reducing the variance of prediction.
Digital soil mapping; Machine learning, Ensemble learning; Sichuan Province
S158.3
A
10.13758/j.cnki.tr.2023.04.024
陳玉藍, 梁太波, 張艷玲, 等. 基于特征集成學習的四川省土壤厚度預測. 土壤, 2023, 55(4): 894–902.
中國煙草總公司四川省公司科技項目(SCYC202103)、中國煙草總公司重點研發(fā)項目(110202102038)和南京工業(yè)職業(yè)技術大學引進人才科研啟動基金項目資助。
(zj_zijin@163.com)
陳玉藍(1990—),女,四川宜賓人,博士研究生,主要研究領域為土壤肥料。E-mail: 369507968@qq.com