田鈺朝,徐明德
(太原理工大學(xué) 環(huán)境科學(xué)與工程學(xué)院,山西 太原 030024)
土壤是地球陸地表層五大生態(tài)圈層進(jìn)行生物、物理、化學(xué)能量遷移轉(zhuǎn)化的多界面礦質(zhì)綜合體,作為人類生存發(fā)展和維系生態(tài)系統(tǒng)正常運(yùn)轉(zhuǎn)的基質(zhì),土壤肥力質(zhì)量演進(jìn)對(duì)于陸地生態(tài)系統(tǒng)具有深刻意義[1].土壤肥力意指其為植物生長提供所需的營養(yǎng)成分、環(huán)境條件的能力[1-2],由于廣受時(shí)空維度的隨機(jī)性與結(jié)構(gòu)因子的非均質(zhì)反饋,土壤質(zhì)量屬性分布模式呈現(xiàn)一定復(fù)雜性,因此探究其綜合質(zhì)量特征,可揭示環(huán)境因子的影響速率與方向,深刻認(rèn)識(shí)土壤發(fā)育格局與元素生物地球化學(xué)過程[3].
肥力質(zhì)量測(cè)評(píng)在于客觀反映區(qū)域土壤養(yǎng)分綜合水平,為土壤質(zhì)量管理、環(huán)境調(diào)控提供決策依據(jù).對(duì)此,學(xué)者們進(jìn)行了廣泛探索,其以單一指標(biāo)表征的養(yǎng)分豐缺度作為基本評(píng)價(jià)測(cè)度,在歸一了各指標(biāo)間的量綱差異后建立參評(píng)指標(biāo)與肥力質(zhì)量間的模糊關(guān)系,以綜合指數(shù)大小反映土壤肥力量級(jí)[4-5].代表性的測(cè)評(píng)方法有主觀分析法和客觀評(píng)判法,前者有諸如層析分析[6]、D數(shù)理論[7]、專家賦權(quán)法[5]等;后者有多元統(tǒng)計(jì)[8]、主成分分析[9]、地積累指數(shù)法[10]、熵權(quán)綜合評(píng)判[11]、TOPSIS[12]等.但是上述方法均以線性函數(shù)描述指標(biāo)因子與肥力量級(jí)之間的關(guān)系,在評(píng)價(jià)過程中權(quán)重分配極易受到某種單一指標(biāo)的數(shù)據(jù)噪聲影響,在肥力量級(jí)劃分的過程中存在一定的主觀性,因而評(píng)價(jià)有失客觀性與現(xiàn)勢(shì)性.而基于機(jī)器學(xué)習(xí)的模式識(shí)別理論能夠較好規(guī)避上述問題[13].近年來機(jī)器學(xué)習(xí)在各學(xué)科領(lǐng)域中獲得廣泛關(guān)注,其中隨機(jī)森林算法(Random Forest,RF)以其獨(dú)有的優(yōu)勢(shì)在遙感解譯、語義識(shí)別、文本分類等模式歸并領(lǐng)域取得了良好應(yīng)用效果.鑒于此,本文闡述了RF在土壤肥力測(cè)評(píng)中的應(yīng)用原理、過程,以期為土壤肥力自動(dòng)化測(cè)評(píng)提供參考依據(jù).
試區(qū)位于廣東中山市,屬于珠江三角洲平原,地理坐標(biāo)介于113°11′~113°31′E,22°19′~ 22°43′N,北臨北回歸線,屬于典型的南亞熱帶濕潤季風(fēng)氣候,年均溫度21.8 ℃,降水量在1 300~1 600 mm之間,雨熱資源豐沛.區(qū)域地形平坦,海拔在100~300 m之間,土壤由河口沖積母質(zhì)發(fā)育而來,屬于地帶性紅壤,質(zhì)地偏粘.試區(qū)為水田和旱地,主要種植葉菜、蔬菜、瓜果.
樣品采集時(shí)間為2013年10月.按網(wǎng)格布點(diǎn),網(wǎng)格尺度為100 m*100 m,采集0~20 cm表層土壤,每份樣品采樣量為2 kg左右,樣點(diǎn)共計(jì)64個(gè).樣品帶回后經(jīng)風(fēng)干、去雜、搗碎、過篩等實(shí)驗(yàn)流程,對(duì)其土壤有機(jī)質(zhì)(SOM)、全氮(TN)、速效氮(AN)、全磷(TP)、速效磷(AP)、速效鉀(AK)等6項(xiàng)屬性予以測(cè)定,測(cè)定方法按照土壤農(nóng)化分析一般方法進(jìn)行[14].
Breiman等將隨機(jī)森林發(fā)展了分類回歸樹模型并提出組合樹構(gòu)成的監(jiān)督學(xué)習(xí)算法[15],其基于隨機(jī)子空間(random subspace)和自助聚集(bootstrap aggregating)理論,從原始m個(gè)訓(xùn)練樣本中抽取n個(gè)訓(xùn)練集(n 本文將土壤肥力評(píng)價(jià)視作模式識(shí)別問題,模式類別參照《土壤環(huán)境質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)》[17],各量級(jí)下養(yǎng)分指標(biāo)因子以葉節(jié)點(diǎn)輸入,把相應(yīng)的肥力量級(jí)作為模式識(shí)別結(jié)果輸出,通過訓(xùn)練二者間類別對(duì)應(yīng)關(guān)系,對(duì)目標(biāo)樣本進(jìn)行分類預(yù)測(cè). 構(gòu)建的機(jī)器學(xué)習(xí)模式識(shí)別的土壤肥力評(píng)價(jià)模型,關(guān)鍵在于依據(jù)土壤養(yǎng)分指標(biāo)與肥力等級(jí)之間的聯(lián)系構(gòu)建分類規(guī)則,即將土壤單一養(yǎng)分與綜合肥力評(píng)價(jià)問題轉(zhuǎn)化為模式識(shí)別問題.模型構(gòu)建步驟如下: Step 1:明確目標(biāo)識(shí)別模式,本文中即為土壤肥力量級(jí)模式.土壤肥力量級(jí)模式是根據(jù)土壤環(huán)境質(zhì)量分級(jí)標(biāo)準(zhǔn)(GB15618-1995)確定區(qū)域土壤養(yǎng)分指標(biāo)及分級(jí)標(biāo)準(zhǔn),其具體分級(jí)標(biāo)準(zhǔn)如表 1 所示.從表中可以看出,該標(biāo)準(zhǔn)將SOM、TN、AN、TP、AP、AK等主要土壤養(yǎng)分的豐缺度劃分為6個(gè)量級(jí),對(duì)應(yīng)于不同的肥力等級(jí),籍此作為肥力評(píng)價(jià)的標(biāo)準(zhǔn)與依據(jù). Step 2:樣本數(shù)據(jù)生成與處理.在各組肥力評(píng)價(jià)標(biāo)準(zhǔn)的標(biāo)準(zhǔn)值范圍內(nèi)內(nèi)插生成500組訓(xùn)練樣本,并將各指標(biāo)數(shù)據(jù)進(jìn)行歸一化處理,以剔除量綱、噪聲影響. Step 3:應(yīng)用RF算法構(gòu)建土壤肥力評(píng)價(jià)模型.該評(píng)價(jià)模型由6個(gè)參評(píng)因子組成,模式類別為6,將生1 200組樣本數(shù)據(jù)進(jìn)行建模訓(xùn)練. 表 1 六種參評(píng)土壤養(yǎng)分的分級(jí)標(biāo)準(zhǔn) Step 4:參數(shù)設(shè)置與模型優(yōu)化.模型參數(shù)對(duì)于模型的精度有著顯著影響,RF模型中的ntree和mtry參數(shù)需要進(jìn)行優(yōu)化選取,一般需要取整[18]. Step 5:模型應(yīng)用.對(duì)試區(qū)64組土壤養(yǎng)分?jǐn)?shù)據(jù)運(yùn)用土壤肥力質(zhì)量評(píng)價(jià)模型進(jìn)行識(shí)別,進(jìn)行土壤肥力質(zhì)量的綜合評(píng)價(jià). 土壤養(yǎng)分指標(biāo)數(shù)據(jù)基本處理分析在Excel 2016中進(jìn)行,運(yùn)用RStudio中的Randomforest程序包進(jìn)行建模訓(xùn)練與分類預(yù)測(cè)[19],于 ArcGIS 10.2 平臺(tái)進(jìn)行肥力量級(jí)空間分布可視化. 試區(qū)中土壤養(yǎng)分指標(biāo)描述性特征如表 2 所示.從表中可以看出,試區(qū)土壤化學(xué)指標(biāo)均具有中等程度的變異性,其中TP、TN和SOM的變異系數(shù)較小且相差不大,其值分別為22.17%、27.44% 和22.29%;AN、AP和AK的變異性較強(qiáng),其值分別達(dá)到54.04%、77.79%和49.38%.SOM是土壤質(zhì)量的基礎(chǔ),其含量與土壤肥力質(zhì)量密切相關(guān),試區(qū)土壤的SOM均值達(dá)到 21.04 g/kg;氮是環(huán)境和氣候變化的重要因素,作為植物生長的三大營養(yǎng)元素之一,試區(qū)中TN和AN的含量分別為1.39 g/kg和76.81 mg/kg;磷不僅影響著土壤微生物活動(dòng)及作物生產(chǎn)力,也對(duì)碳氮等元素的礦化等生態(tài)過程具有重要意義,試區(qū)中TP和AP含量分別為 0.78 g/kg 和 13.12 mg/kg;鉀是公認(rèn)的作物生長限制因素,速效鉀為其直接來源,試區(qū)中AK含量相對(duì)缺乏,僅為64.92 mg/kg.綜合來看,研究區(qū)土壤6種化學(xué)指標(biāo)中,SOM,TN,AN,TP和AP含量屬于Ⅲ級(jí)中等水平,AK處于Ⅳ級(jí)較缺乏水平.從其分布特征來看,各養(yǎng)分指標(biāo)序列中SOM,TN和AN未能通過5%水平kolmogorov-smirnov檢驗(yàn),即表明這3種養(yǎng)分指標(biāo)在試區(qū)土壤中的分布不服從正態(tài)分布;TP,AP和AK通過5%水平kolmogorov-smirnov檢驗(yàn),即表明這3種養(yǎng)分指標(biāo)在試區(qū)土壤中的分布服從正態(tài)分布. 表 2 土壤化學(xué)指標(biāo)描述統(tǒng)計(jì) 根據(jù)土壤養(yǎng)分實(shí)測(cè)指標(biāo)數(shù)值大小將土壤的肥力進(jìn)行量級(jí)劃分,其空間分布如圖 1 所示.雖然試區(qū)采樣距離較小,但土壤屬性在微域空間上亦表現(xiàn)出空間異質(zhì)性.SOM以Ⅲ和Ⅳ級(jí)為主,呈帶狀分布;TN以Ⅱ和Ⅲ級(jí)分布占優(yōu),量級(jí)跨距在 Ⅰ~Ⅴ 級(jí)之間;AN則空間連續(xù)性差,以點(diǎn)、塊狀分布為主,分屬于Ⅰ~Ⅴ級(jí);TP高量級(jí)(Ⅰ、Ⅱ)區(qū)為中南部,低量級(jí)呈離散分布特征;AP具有較好的連續(xù)性,以Ⅲ級(jí)肥力為主,呈條帶狀分布;AK以Ⅲ級(jí)分布較為均一,集中于北部片區(qū). 圖 1 土壤養(yǎng)分量級(jí)空間分布Fig.1 The classification standard of six kinds of the evaluated soil nutrients 土壤為地球化學(xué)元素礦質(zhì)綜合體,存在復(fù)雜的生物、物理、化學(xué)方面的能量流動(dòng).試區(qū)6種土壤養(yǎng)分指標(biāo)的皮爾遜相關(guān)性結(jié)果如表 3 所示.從表中可以看出,土壤磷素與SOM、氮素之間呈負(fù)相關(guān),SOM與TN、AN、AK,AP與TP、AK呈正相關(guān)關(guān)系,并在0.05或0.01水平上(雙側(cè))達(dá)到顯著程度,結(jié)果表明其來源具有同質(zhì)性,試區(qū)為菜園地,耕作施肥為該地土壤肥力的主要來源.其中TN與SOM的相關(guān)系數(shù)高達(dá)0.813,分析主要原因是由于前者是后者的重要的物質(zhì)源. 表 3 土壤養(yǎng)分之間的相關(guān)性 2.3.1 隨機(jī)森林模型的參數(shù)設(shè)置 本研究中,選取的模型變量為上述6個(gè)土壤養(yǎng)分指標(biāo),而mtry參數(shù)的最優(yōu)參數(shù)應(yīng)為變量個(gè)數(shù)的方根值,因此,本研究mtry參數(shù)值選擇為3.ntree的優(yōu)選集中于500~1 000之間.當(dāng)mtry為3,ntree的值由80增加到1 000時(shí),RF模型中的出包錯(cuò)誤率(Out of bag,OOB)變化曲線如圖 2 所示.從圖 2 可知,當(dāng)ntree的值大于100后,RF模型的OOB已經(jīng)較小且變化趨于穩(wěn)定.因此,本研究最終確定RF模型匯總mtry為3,ntree為500.訓(xùn)練結(jié)果表明,建模混淆矩陣錯(cuò)誤率為0,精度達(dá)100%,表明該模型能夠準(zhǔn)確地對(duì)新樣本數(shù)據(jù)進(jìn)行分類預(yù)測(cè),且具有良好的模式識(shí)別能力. 圖 2 RF模型表現(xiàn)與參數(shù)Fig.2 The distributions of soil fertility grades 2.3.2 模型驗(yàn)證 應(yīng)用訓(xùn)練好的RF模型對(duì)試區(qū)64組土壤養(yǎng)分指標(biāo)數(shù)據(jù)進(jìn)行模式歸類,并在ArcGIS 10.2平臺(tái)上予以直觀呈現(xiàn),結(jié)果如圖 3 所示.從圖 3 中可以看出,試區(qū)土壤肥力分屬Ⅱ、Ⅲ、Ⅳ和Ⅴ共4個(gè)量級(jí),各量級(jí)樣點(diǎn)依次為15、21、19和9個(gè),表明以中量級(jí)肥力為主.其中Ⅱ級(jí)肥力分布于試區(qū)北部和中部,Ⅲ和V級(jí)呈鄰近分布,Ⅴ級(jí)集中于邊緣地帶.試區(qū)面積較小,而肥力特性分布不均衡,表明土壤空間異質(zhì)性普遍存在,其中在微觀田塊尺度,作物類型及其耕作水平的差異是引起肥力差異性的主源. 圖 3 試區(qū)土壤肥力分布Fig.3 The distribution of soil chemical fertility in research area 通過對(duì)比RF模型對(duì)土壤肥力的自動(dòng)化評(píng)測(cè)結(jié)果與實(shí)際土壤肥力量化等級(jí)的結(jié)果,可以發(fā)現(xiàn): 1) 訓(xùn)練樣本的科學(xué)性.采用線性內(nèi)插生成肥力量級(jí)區(qū)間內(nèi)的樣本數(shù)據(jù)構(gòu)建訓(xùn)練樣本,具有一定的隨機(jī)性,對(duì)此有學(xué)者認(rèn)為這種隨機(jī)樣本的建模結(jié)果存在不確定性,因而對(duì)RF預(yù)測(cè)模型性能產(chǎn)生一定影響[20].該試驗(yàn)以每組肥力量級(jí)區(qū)間生成500組隨機(jī)數(shù),豐富的樣本能夠較好地填充肥力量級(jí)準(zhǔn)則區(qū)間,提高了模型的一般性,從而保證了應(yīng)用RF模型進(jìn)行預(yù)測(cè)時(shí)對(duì)目標(biāo)樣本數(shù)字的分類識(shí)別精度.而且,肥力量級(jí)評(píng)價(jià)準(zhǔn)則明確界定了單一肥力數(shù)值與其等級(jí),符合評(píng)價(jià)規(guī)則的隨機(jī)樣本經(jīng)RF的bagging抽樣處理,能很好地去除噪聲,提升模型穩(wěn)健性.因此,RF模型對(duì)該樣本數(shù)據(jù)容忍度高,經(jīng)過參數(shù)優(yōu)化便能夠有效提高模型精度. 2) RF模型對(duì)土壤肥力量級(jí)的識(shí)別.如表 1 所示的肥力量級(jí)評(píng)價(jià)規(guī)則明確,據(jù)此構(gòu)造的訓(xùn)練樣本具有良好的可分性(本實(shí)驗(yàn)中訓(xùn)練模型精度為100%).然而實(shí)際中某一樣品土壤的多種肥力指標(biāo)并不很好地服從某一特定肥力量級(jí)分級(jí)規(guī)則,如圖2所示,1號(hào)樣點(diǎn)的SOM、TN和AN屬于Ⅱ級(jí),TP、AK為Ⅳ級(jí),AP屬于Ⅲ級(jí),其不同維度屬性隸屬于不同量級(jí)區(qū)間,增加了分類預(yù)測(cè)的復(fù)雜度.對(duì)此,RF模型在提取樣本進(jìn)行遞歸分裂時(shí)以純度最優(yōu)原則為前提,直至裂分出余量值最大、純度最小的類別.在這一過程中,維度屬性即肥力指標(biāo)特性對(duì)RF模型泛化較為敏感,對(duì)于每一顆決策樹,都可以得到OOB誤差估計(jì);通過增減維度指標(biāo)估算OOB的增量可得出維度因子的重要性,然而在每顆決策樹中其重要性是不一致的[21]. 運(yùn)用隨機(jī)森林機(jī)器學(xué)習(xí)算法將土壤肥力評(píng)價(jià)轉(zhuǎn)化為模式識(shí)別問題,其內(nèi)積函數(shù)能夠模擬肥力量級(jí)與各養(yǎng)分指標(biāo)間的多分類非線性映射關(guān)系.在模型的構(gòu)建中,隨機(jī)森林模型能夠根據(jù)需要調(diào)節(jié)屬性特征與自身形態(tài),通過充分訓(xùn)練獲得肥力量級(jí)識(shí)別能力,在解決了線性不可分問題的基礎(chǔ)上,進(jìn)而實(shí)現(xiàn)了評(píng)價(jià)結(jié)果的客觀性.依靠隨機(jī)森林模型維數(shù)擴(kuò)充靈活的特點(diǎn),可實(shí)現(xiàn)土壤肥力自動(dòng)化評(píng)價(jià),因而具有廣泛的適用性.1.4 應(yīng)用隨機(jī)森林算法的土壤肥力評(píng)價(jià)流程
1.5 數(shù)據(jù)處理
2 結(jié)果與分析
2.1 土壤養(yǎng)分指標(biāo)豐缺度評(píng)價(jià)
2.2 土壤養(yǎng)分指標(biāo)相關(guān)性分析
2.3 應(yīng)用隨機(jī)森林的土壤肥力評(píng)價(jià)
3 討 論
4 結(jié) 論