王亞新,楊 莎,喬星星,王 超,馮美臣,肖璐潔,宋曉彥,張美俊,楊武德
(山西農(nóng)業(yè)大學(xué) 農(nóng)學(xué)院,山西 太谷 030801)
土壤酶主要由微生物、植物根系和土壤動物分泌。土壤酶是土壤中所有生物生化過程可以持續(xù)進(jìn)行的動力,其活性反映了土壤生物化學(xué)過程的方向與強(qiáng)度,與土壤中各種有機(jī)、無機(jī)物質(zhì)的轉(zhuǎn)化密切相關(guān)[1]。土壤中各種含蛋白質(zhì)物質(zhì)(如幾丁質(zhì)、葉綠素、尿素等)在蛋白酶的催化下轉(zhuǎn)化為無機(jī)態(tài)氮,供植物吸收利用,這個過程蛋白酶具有很強(qiáng)的專一性[2],是促進(jìn)土壤氮循環(huán)的重要組分[3-4],可以作為一種氮礦化的指示劑[5]。殷陶剛等[6]研究指出,土壤水分降低會顯著降低蛋白酶活性,而我國水資源分布不均,水分已成為制約我國農(nóng)業(yè)發(fā)展的主要因素[7],因此,研究不同水分條件下土壤蛋白酶活性具有重要意義。目前土壤蛋白酶活性的測量方法大多為荷夫曼法、洛美科法及加勒斯江法[8],這些方法耗時較長,過程繁雜,在試驗過程中可能造成較大誤差,而且有研究認(rèn)為這些不同方法的有效性在很大程度上仍是未知的[9]。
高光譜技術(shù)在估測土壤氮含量方面已有了較多研究[10-12],偏最小二乘(PLS)作為線性建模方法被廣泛應(yīng)用且取得了不錯的估測效果[13-14]。隨著高光譜技術(shù)的不斷發(fā)展,機(jī)器學(xué)習(xí)、支持向量機(jī)等非線性模型也被用于土壤氮含量的估測,同樣得到了較好的預(yù)測結(jié)果[15-17]。土壤光譜在實際測量中,容易受到儀器噪聲和測量環(huán)境的影響,從而影響建模效果[18],而陶培峰等[19]通過研究證明,光譜預(yù)處理可以提高模型預(yù)測的精度。
土壤蛋白酶活性與土壤氮密切相關(guān),而高光譜可以較為準(zhǔn)確地估測土壤氮含量。此外,孫倩倩[20]通過研究證明,高光譜技術(shù)可以對植物超氧化物歧化酶和過氧化物酶活性進(jìn)行有效預(yù)測;楊晨波[21]利用高光譜技術(shù)有效估測了土壤脲酶活性。那么高光譜技術(shù)是否可以對土壤蛋白酶活性進(jìn)行準(zhǔn)確估測呢?為了探究這個問題,本研究以冬小麥水分脅迫試驗采集的土壤為研究對象,測定蛋白酶活性和土壤光譜反射率,對原始光譜數(shù)據(jù)進(jìn)行不同的預(yù)處理,并對高光譜數(shù)據(jù)及土壤蛋白酶活性進(jìn)行相關(guān)性分析,構(gòu)建偏最小二乘(PLS)線性模型和支持向量機(jī)(SVM)非線性模型對土壤蛋白酶活性進(jìn)行估測,旨在探究高光譜技術(shù)估測土壤酶活性的可行性。
供試小麥品種為長6878和長4738。
試驗于2019年10月至2020年7月在山西農(nóng)業(yè)大學(xué)農(nóng)學(xué)院實驗站進(jìn)行,共設(shè)21個小區(qū),各小區(qū)面積均為3 m×3 m,行距為20 cm,施用尿素227.85 kg/hm2、鉀肥(硫酸鉀)655.5 kg/hm2、磷肥(過磷酸鈣)115.5 kg/hm2,作為底肥使用,不追肥。試驗采取完全隨機(jī)設(shè)計,根據(jù)田間持水量的百分比控制水分,設(shè)置2個水分脅迫時期:拔節(jié)期至抽穗期、開花期至灌漿期,3個水分脅迫程度:輕度脅迫(田間持水量的65%±5%)、中度脅迫(田間持水量的55%±5%)、重度脅迫(田間持水量的45%±5%),以不進(jìn)行水分脅迫(田間持水量的75%~80%)為對照。在開花期至灌漿期不進(jìn)行水分脅迫,在拔節(jié)期至抽穗期分別進(jìn)行重度脅迫(T1)、中度脅迫(T2)、輕度脅迫(T3);在拔節(jié)期至抽穗期不進(jìn)行水分脅迫,在開花期至灌漿期分別進(jìn)行重度脅迫(T4)、中度脅迫(T5)、輕度脅迫(T6)。試驗設(shè)計如表1所示。
表1 試驗設(shè)計Tab.1 Test design
在冬小麥返青、抽穗、灌漿3個關(guān)鍵生育時期采集0~10、10~20、20~40、40~60 cm這4個土層的土壤。將相同處理的土壤充分混合成1份土壤樣品,再將土壤樣本去除動植物殘體以及其他雜質(zhì)后放在室內(nèi)陰涼通風(fēng)處進(jìn)行風(fēng)干,風(fēng)干后過2 mm篩,采用加勒斯江法測量土壤蛋白酶活性。剔除異常值及缺失值之后,共獲得土壤樣品128個。
采用美國ASD公司生產(chǎn)的Field Spec Pro FR型便攜式光譜儀采集光譜數(shù)據(jù),該儀器波段范圍為350~2 500 nm,其中,350~1 000 nm光譜分辨率為3 nm,光譜采樣間隔為1.4 nm;在1 000~2 500 nm,光譜分辨率為10 nm,光譜采樣間隔為2 nm。土壤光譜測定在暗室內(nèi)進(jìn)行,光纖探頭視場角25°,探頭垂直向下,距樣品表面0.10 m,光源為1 000 W鹵化燈,光源垂直高度0.5 m,入射角度45°。將處理好的樣品放置到干凈的黑色托盤內(nèi)(高1.5 cm,直徑9.5 cm),保持土壤厚度1 cm左右并保持土壤表面平整,每個樣本平均選擇5個光譜測定點(diǎn),每光譜采集點(diǎn)獲取10條光譜曲線,每土壤樣本共計采集50個,平均后得到該樣本的最終反射光譜。
由于在光譜邊緣有較大的噪聲影響,故刪除光譜區(qū)域 350~399、2 451~2 500 nm,采用 400~2 450 nm波段范圍內(nèi)的光譜數(shù)據(jù)[22]。對原始光譜反射率數(shù)據(jù)進(jìn)行不同的變換處理,采取的光譜預(yù)處理方法為 Savitzky-Golay Smoothing(SG)[23]、一階導(dǎo)數(shù)(FD)、二階導(dǎo)數(shù)(SD)[24]、歸一化(Nor)[25]、去趨勢化(Det)[26]、變量標(biāo)準(zhǔn)化(SNV)[27]和多元散射校正(MSC)[28]這7種變換。
1.6.1 偏最小二乘(PLS) 通過將自變量和因變量的高維數(shù)據(jù)空間投影到相應(yīng)的低維空間,分別得到自變量和因變量的相互正交的特征向量,再建立自變量和因變量的特征向量間的一元線性回歸關(guān)系,不僅可以克服共線性問題和去除對回歸無益噪聲的影響,其在選取特征向量時也突出和強(qiáng)調(diào)自變量對因變量的解釋和預(yù)測作用[29]。
1.6.2 支持向量機(jī)(SVM) SVM是一種基于機(jī)器學(xué)習(xí)理論的非線性方法,能夠?qū)€性和非線性關(guān)系進(jìn)行建模。其可以消除波長變量共線性,解決因土壤各組分的吸收波段相互重疊干擾土壤有機(jī)質(zhì)含量估算精度的問題,避免模型過度擬合[30]。
本研究使用決定系數(shù)(R2)、標(biāo)準(zhǔn)偏差(RMSE)和相對預(yù)測偏差(RPD)來作為模型的評價指標(biāo)。R2越大,RMSE越小,表示模型預(yù)測效果越好。一般認(rèn)為,當(dāng)RPD<1.4時,模型難以對樣本進(jìn)行有效預(yù)測;當(dāng)1.4≤RPD<2.0時,模型可以對樣本進(jìn)行粗略地預(yù)測;RPD≥2,表明模型具有較好的預(yù)測精度和穩(wěn)健度[31-33]。
式中,n為樣本數(shù)為土壤酶活性預(yù)測值,yi為土壤酶活性實測值為所有樣本的土壤酶活性平均實測值;SD為土壤酶活性實測值的標(biāo)準(zhǔn)差。
試驗采用View Spec Pro 6.0對土壤光譜數(shù)據(jù)進(jìn)行提取,采用The Unscrambler X 10.4對光譜數(shù)據(jù)進(jìn)行預(yù)處理,采用Excel 2019以及SPSS 20.0進(jìn)行數(shù)據(jù)整理與分析,采用MATLAB 2010進(jìn)行模型的建立,采用Origin 2021制圖。
將土壤樣本按蛋白酶活性的實測值排序并按照3∶1的比例將數(shù)據(jù)分為建模集(n=96)和驗證集(n=32),對數(shù)據(jù)集進(jìn)行描述性統(tǒng)計分析(表2)。
表2 蛋白酶活性的描述性統(tǒng)計分析Tab.2 Descriptive statistical analysis of protease activity
本試驗中蛋白酶總數(shù)據(jù)集的范圍在0.14~3.29 mg/g,平均值為1.47 mg/g,偏度系數(shù)接近0,峰度系數(shù)在-1,本試驗數(shù)據(jù)較為符合正態(tài)分布。建模集數(shù)據(jù)、驗證集數(shù)據(jù)及全部數(shù)據(jù)的平均值、標(biāo)準(zhǔn)差和變異系數(shù)都較為一致,說明建模集和驗證集的劃分較為合理。
按照四分位法將土壤蛋白酶活性由小到大排列并分成4等份,每份包含25%的蛋白酶樣本數(shù)據(jù),將每部分內(nèi)的蛋白酶數(shù)據(jù)及相對應(yīng)的光譜數(shù)據(jù)進(jìn)行平均,得到不同蛋白酶活性水平下的光譜反射率,如圖1所示。
由圖1可知,蛋白酶活性在一定范圍內(nèi)土壤光譜反射率隨著蛋白酶活性水平的增高而降低,蛋白酶活性超過一定范圍后土壤光譜反射率隨著蛋白酶活性水平的增加而升高。在不同土壤蛋白酶活性水平下的土壤光譜反射率曲線走勢一致,全波段范圍內(nèi)蛋白酶光譜曲線整體呈上升趨勢。在可見光(400~800 nm)波段范圍內(nèi)反射率迅速上升;在800~1 900 nm波段范圍內(nèi)反射率平緩上升;在1 400 nm附近有一個較小的吸收谷,在1 900 nm波段附近出現(xiàn)較大的吸收谷,在2 200 nm波段以后波峰和波谷交替出現(xiàn)。
圖1 不同蛋白酶活性水平下的土壤光譜反射率變化曲線Fig.1 Variation curve of soil spectral reflectance under different protease activity levels
將蛋白酶活性與經(jīng)過不同預(yù)處理的土壤光譜反射率進(jìn)行相關(guān)性分析,結(jié)果如圖2所示。由圖2可知,原始光譜反射率與土壤蛋白酶活性呈正相關(guān),在400~2 450 nm波段范圍內(nèi),相關(guān)系數(shù)都在0.4附近且波動較小,經(jīng)過SG預(yù)處理的光譜反射率和蛋白酶的相關(guān)性與原始光譜下的蛋白酶相關(guān)性趨勢接近。Nor預(yù)處理的光譜反射率與蛋白酶的相關(guān)性在350~1 500 nm波段呈負(fù)相關(guān),在1 500~2 500 nm波段呈正相關(guān),其相關(guān)系數(shù)在-0.40~0.43。FD預(yù)處理和SD預(yù)處理的光譜反射率與蛋白酶活性在全波段呈正負(fù)相關(guān),其相關(guān)性達(dá)到0.68。在Det、SNV和MSC預(yù)處理下的光譜反射率與蛋白酶都呈正負(fù)相關(guān),但在500~1 300 nm波段Det預(yù)處理下為正相關(guān),SNV和MSC預(yù)處理下為負(fù)相關(guān),且在SNV和MSC預(yù)處理下相關(guān)系數(shù)達(dá)到最大,為0.99。與原始光譜數(shù)據(jù)相比,經(jīng)過不同預(yù)處理(FD、SD、Det、SNV、MSC)的光譜數(shù)據(jù)與土壤蛋白酶的相關(guān)性得到了顯著提高。
圖2 不同預(yù)處理下土壤光譜與土壤酶活性的相關(guān)性分析Fig.2 Correlation analysis between soil spectrum and soil protease activity under different pretreatments
光譜數(shù)據(jù)經(jīng)7種預(yù)處理方法變換后,與土壤蛋白酶活性值之間建立PLS線性模型和SVM非線性模型,所建模型表現(xiàn)如圖3所示。從圖3可以看出,除基于MSC預(yù)處理所建的模型外,基于R、SG、FD、SD、Nor、Det、SNV所建立的PLS線性模型表現(xiàn)都優(yōu)于SVM非線性模型。除MSC外,PLS線性的模型決定系數(shù)Rc2均在0.80以上,預(yù)測決定系數(shù)Rv2均在0.75以上,RMSEc均在0.31以下,RMSEv均在0.40以下,RPDc和RPDv均在2.0以上;基于MSC所建立的模型其R2也在0.6以上,RPD在1.6以上,可以粗略地估測蛋白酶活性,基于原始光譜和其他預(yù)處理所建的模型可以較為準(zhǔn)確地估測蛋白酶活性。經(jīng)過7種處理后所建立的土壤蛋白酶近紅外SVM模型除基于原始光譜和SG預(yù)處理所建的模型外,基于其他6種預(yù)處理所建立的模型Rc2均在 0.70以上,Rv2均在 0.55以上,RMSEc均在0.43以下,RMSEv均在0.53以下,RPDc均在1.90以上,RPDv均在1.50以上,可以對蛋白酶活性進(jìn)行有效估測。PLS線性模型和SVM非線性模型都基于導(dǎo)數(shù)變換預(yù)處理得到最佳的估測效果,R2在0.95以上,RMSE在0.20以下,RPD在4.0以上,基于FD預(yù)處理下的PLS線性模型估測效果最好,其模型 表 現(xiàn) 為 :Rc2=0.99、RMSEc=0.08、RPDc=10.51;Rv2=0.96、RMSEv=0.17、RPDv=4.68。
圖3 基于不同預(yù)處理方法的PLS和SVM建模效果Fig.3 Modeling results of PLS and SVM based on different pretreatment methods
在本研究中,一定酶活性水平下土壤光譜反射率隨土壤蛋白酶活性的增加而降低,超出一定水平后,土壤光譜反射率隨著土壤蛋白酶活性的增加而升高,但其反射率變化并不明顯。根據(jù)張盼盼等[34]的研究,土壤蛋白酶活性增加的同時土壤有機(jī)碳含量也呈增加趨勢,因此,在土壤蛋白酶活性超過一定水平后,可能由于土壤有機(jī)碳含量的影響使得土壤蛋白酶光譜反射率變化較小。
光譜在測量過程中容易受到測量儀器和測量環(huán)境的影響,前人通過研究發(fā)現(xiàn),光譜預(yù)處理可以有效去除各種噪聲影響[35]。本研究中,土壤蛋白酶光譜數(shù)據(jù)經(jīng)不同預(yù)處理之后,土壤蛋白酶活性與土壤光譜的相關(guān)性得到了顯著提高。不同預(yù)處理方式對土壤蛋白酶與土壤光譜之間相關(guān)性的影響不同,SNV與MSC預(yù)處理顯著提高了短波近紅外與中波近紅外波段范圍內(nèi)光譜與土壤蛋白酶的相關(guān)性,Det預(yù)處理提高了短波近紅外波段土壤光譜與土壤蛋白酶的正相關(guān)性,主要是由于預(yù)處理方法工作原理的不同,對光譜與蛋白酶活性相關(guān)性的影響不同。導(dǎo)數(shù)變換明顯放大不同波段土壤蛋白酶的光譜反射率變化,使得更多的光譜信息顯現(xiàn)出來,基于導(dǎo)數(shù)預(yù)處理所構(gòu)建的PLS和SVM模型對于蛋白酶的估測效果顯著優(yōu)于其他預(yù)處理所建模型。這一結(jié)果與崔霞等[36]所提出的“導(dǎo)數(shù)變換處理具有去除部分線性或接近線性的背景值干擾的功能,有助于降低低頻噪聲對光譜的影響和突顯細(xì)微信息差異的變化,能夠較好的提高模型估算效果”的觀點(diǎn)相同。對比不同預(yù)處理下的模型效果,多數(shù)光譜預(yù)處理都提高了模型的估測效果,大部分模型都是穩(wěn)健和可靠的,可以用來快速估測土壤蛋白酶活性,證明光譜預(yù)處理能夠去除噪聲影響,有效提高模型的估測效果。在整體上,PLS模型的估測效果優(yōu)于SVM模型的估測效果,PLS具有多元線性回歸、主成分分析、典型相關(guān)分析3種分析方法的優(yōu)點(diǎn),在處理小容量樣本數(shù)據(jù)方面具有獨(dú)特的優(yōu)勢,能更有效地提取和利用光譜中的重要信息。但是CHANG等[37]也提出同一種模型方法在不同的試驗中所達(dá)到的效果不同,并沒有一種適用于所有試驗的模型方法。因此,在不同的試驗中,對于模型方法的選取可能需要從多方面考慮。
本研究以128個土壤樣品為研究對象,測定其土壤蛋白酶活性和土壤光譜信息,對原始光譜反射率數(shù)據(jù)進(jìn)行不同的變換處理,再分別與土壤蛋白酶活性進(jìn)行相關(guān)分析,構(gòu)建偏最小二乘(PLS)線性估測模型和支持向量機(jī)(SVM)非線性估測模型。研究結(jié)果表明,不同的光譜預(yù)處理方法顯著提高了土壤光譜數(shù)據(jù)與土壤蛋白酶的相關(guān)性,其相關(guān)系數(shù)最高達(dá)到0.99。對比分析基于不同預(yù)處理下所建立的土壤蛋白酶PLS線性估測模型和SVM非線性估測模型的表現(xiàn),導(dǎo)數(shù)變換處理下模型效果最好,大部分模型精度和準(zhǔn)確性都較高,可以對土壤蛋白酶進(jìn)行估測;基于一階導(dǎo)數(shù)預(yù)處理所構(gòu)建的PLS線性模型得到土壤蛋白酶活性的最佳預(yù)測效果(Rc2=0.99、RMSEc=0.08、RPDc=10.51;Rv2=0.96、RMSEv=0.17、RPDv=4.68)。