石文強(qiáng), 許秀英*, 張 偉, 張 平, 孫海天, 3, 胡 軍
1.黑龍江八一農(nóng)墾大學(xué)工程學(xué)院,黑龍江 大慶 163319 2.黑龍江八一農(nóng)墾大學(xué)理學(xué)院,黑龍江 大慶 163319 3.中國(guó)熱帶農(nóng)業(yè)科學(xué)院南亞熱帶作物研究所,廣東 湛江 524091
土壤含水率是土壤屬性關(guān)鍵的表征參數(shù)之一,同時(shí)也是土壤團(tuán)粒結(jié)構(gòu)和養(yǎng)分的關(guān)鍵因素,在農(nóng)業(yè)、水文、生態(tài)環(huán)境、氣象等領(lǐng)域起著十分重要的作用[1-2]。土壤含水率的快速準(zhǔn)確獲取是農(nóng)業(yè)生產(chǎn)中的一項(xiàng)重要任務(wù)。近紅外光譜技術(shù)(NIRS)具有無損、在線、速度快等優(yōu)點(diǎn),近年在各個(gè)領(lǐng)域內(nèi)應(yīng)用廣泛[3-4]。一些學(xué)者研究發(fā)現(xiàn)在近紅外區(qū)土壤的含水率反射光譜最為敏感。因此利用近紅外反射光譜實(shí)現(xiàn)對(duì)土壤含水率無損快速測(cè)定具有十分重要的意義[5]。當(dāng)溫度改變時(shí),分子間的作用力將會(huì)發(fā)生改變,進(jìn)而會(huì)影響光譜的變化[6]。所以近紅外光譜儀在檢測(cè)樣品時(shí),檢測(cè)結(jié)果易受溫度變化的影響,隨著溫度的升高,羥基官能團(tuán)處的光譜移向較低的波長(zhǎng)并且變得更窄,因此溫度對(duì)于土壤含水率的理化性質(zhì)影響較大。梁秀英等[7]利用LS-SVM建立了全光譜范圍內(nèi)的近紅外光譜預(yù)測(cè)模型,首先探討了土壤含水量在零攝氏度以上不同土壤溫度對(duì)最終預(yù)測(cè)結(jié)果的影響。結(jié)果顯示,溫度對(duì)不同水分含量土壤的近紅外光譜模型的精度有一定影響。通過結(jié)合多尺度小波特征和多波長(zhǎng)法可以降低其影響;但該實(shí)驗(yàn)設(shè)置的溫度范圍比較小,只有5~30 ℃;李小昱等[8]制備了5%~35%的土壤含水率樣本,采用傅里葉法提取了相關(guān)特征信息,然后結(jié)合土壤含水率利用偏最小二乘法建立預(yù)測(cè)模型,預(yù)測(cè)模型的R2較高達(dá)到了0.988,證明該方法的可行性與準(zhǔn)確性,但該研究未考慮溫度對(duì)于土壤含水率的光譜影響。Thamasopinkul[9]等研究了溫度對(duì)蜂蜜近紅外光譜的影響,利用偏最小二乘回歸方法建立的三個(gè)恒溫(25,35和45 ℃)定標(biāo)模型的R2達(dá)到了0.95。綜上所述,部分學(xué)者研究了溫度對(duì)土壤水分近紅外光譜的影響,但對(duì)于溫度脅迫的影響范圍比較小(多為0 ℃以上),對(duì)于溫度范圍大以及低溫環(huán)境下的預(yù)測(cè)模型還有待研究和提升。
基于近紅外光譜,針對(duì)北方寒地土壤,研究不同溫度(-20~40 ℃)脅迫下土樣近紅外光譜與土壤含水率間的關(guān)系,并進(jìn)行基于近紅外光譜的溫度脅迫對(duì)土壤含水率預(yù)測(cè)模型方法的探究。對(duì)全波段原始數(shù)據(jù),結(jié)合多元散射校正法(MSC)、標(biāo)準(zhǔn)正態(tài)變量校正法(SNV)、一階導(dǎo)數(shù)法(D1)、二階導(dǎo)數(shù)法(D2)和平滑處理(S_G)五種方法,建立了不同溫度脅迫下土壤水分的BP神經(jīng)網(wǎng)絡(luò)算法、優(yōu)化支持向量機(jī)算法(SVM)和高斯過程算法(GP),對(duì)比分析了18種模型的建模效果和預(yù)測(cè)效果,選出了最優(yōu)模型。可針對(duì)北方寒地為設(shè)計(jì)優(yōu)化便攜式近紅外土壤含水率快速測(cè)量?jī)x提供科學(xué)依據(jù)。
土壤樣品為黑龍江八一農(nóng)墾大學(xué)農(nóng)學(xué)試驗(yàn)基地中的黑土,其亞類為普通黑土(ordinary chernoze),供試土壤的有機(jī)質(zhì)含量為52.8 g·kg-1,pH值為5.75,堿解氮含量為190 mg·kg-1,有效磷含量為41.5 mg·kg-1,速效鉀含量為182.6 mg·kg-1。采樣深度為壟上除表層土壤后1~15 cm。將采取的土壤烘干處理,并利用粉碎機(jī)打碎,然后手工研磨,最后利用50目網(wǎng)過篩處理,得到直徑大小為0.355 mm的土壤粉末進(jìn)行下一步處理。將得到的土壤粉末放置容器中并逐步加入純凈水稀釋,充分?jǐn)嚢杈鶆颍来闻渲贸刹煌瑵穸鹊膶?shí)驗(yàn)樣品。將配置好的土壤樣品依次放入到相同規(guī)格的鋁制樣品盒中并鎮(zhèn)壓刮平,使得不同濕度的土壤樣品能夠保證在樣品盒中表面平整、體積一致。依據(jù)田地實(shí)際條件以5%為間隔制備了15%~50%共8種不同濕度的土壤樣品。將制備好的樣品分別置于土壤樣品恒溫保存控制箱中,將其分別置于以5 ℃為間隔大小的-20~40 ℃共13種溫度環(huán)境下,使其溫度達(dá)到相應(yīng)溫度。制備的土壤樣本濕度基本信息如表1所示。
表1 土壤樣本濕度基本信息
選擇德國(guó)Bruker公司所制造的TANGO型近紅外光譜儀獲取光譜數(shù)據(jù)。儀器分辨率為8 cm-1,光譜波數(shù)范圍為11 520~4 000 cm-1,配備了一個(gè)IN311/C型號(hào)的旋轉(zhuǎn)臺(tái)和直徑為50 mm的IN311-S材料樣品杯,測(cè)量方式為漫反射。恒溫裝置采用BYAU-2019-1型號(hào)的土壤樣品恒溫保存控制箱,控制精度為±0.5 ℃。土壤濕度測(cè)量裝置采用德國(guó)IMKO公司的TRIM-PICO的土壤水分儀,分析軟件采用UnscramblerX10.3(64位)和Matlab2019b。
土壤樣本的原始光譜如圖1所示。
圖1 土壤原始近紅外光譜圖
土壤原始光譜數(shù)據(jù)受差異化光譜散射信息及光譜曲線間的基線偏移和傾斜等噪聲的影響。為提高光譜信噪比,對(duì)于在不同溫度條件下收集的不同水分近紅外光譜數(shù)據(jù),采用多種方法進(jìn)行預(yù)處理。包括可以消除光譜散射效應(yīng)的多元散射校正方法[10-11](MSC);可以消除因?qū)嶒?yàn)樣品顆粒大小產(chǎn)生的影響及減少實(shí)驗(yàn)樣品表面散射現(xiàn)象的標(biāo)準(zhǔn)正態(tài)變量校正(SNV);可以消除基線漂移和平緩背景引起的干擾的一階導(dǎo)數(shù)處理;能夠提高分辨率和光譜靈敏度并能克服背景顏色或其他因素引起的誤差的二階導(dǎo)數(shù)處理;以及可以消除光譜信號(hào)中隨機(jī)噪聲的平滑處理方法。處理后的光譜如圖2(a—e)所示。
圖2 經(jīng)過預(yù)處理的土壤近紅外光譜圖
將104個(gè)樣本數(shù)據(jù)按照2∶1的比例進(jìn)行隨機(jī)劃分。69個(gè)樣本數(shù)據(jù)做為建模集數(shù)據(jù),35個(gè)樣本作為驗(yàn)證集數(shù)據(jù)。利用具有分類和映射功能的BP網(wǎng)絡(luò)、能夠有效地解決數(shù)據(jù)分析中高維特征回歸的問題支持向量機(jī)(SVM)、適用低維數(shù)場(chǎng)景以及小樣本的回歸問題中且具有平滑的特性的高斯過程(GP)三種方法進(jìn)行建模及預(yù)測(cè)驗(yàn)證[12-13]。
2.1.1 BP神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練效果
首先利用MATLAB建立基于BP,MSC-BP,SNV-BP,D1-BP,D2-BP,S_G-BP的6種預(yù)測(cè)模型,為了加快求解速度和準(zhǔn)確性,將數(shù)據(jù)標(biāo)準(zhǔn)化。將104組實(shí)驗(yàn)數(shù)據(jù)中的三分之二(69組)用作建模數(shù)據(jù)。對(duì)BP神經(jīng)網(wǎng)絡(luò)相關(guān)參數(shù)進(jìn)行設(shè)置,其中模型的學(xué)習(xí)率、目標(biāo)誤差和最大訓(xùn)練次數(shù)分別為0.05,0.000 1和5 000。經(jīng)過對(duì)比試驗(yàn),確定神經(jīng)網(wǎng)絡(luò)內(nèi)隱層單元的個(gè)數(shù)為20個(gè)時(shí)模型的效果最佳,建立的六種BP模型的R2分別為0.958 7,0.958 2,0.958 9,0.950 9,0.958 1和0.960 9,RMSEC分別為2.356 0,2.372 9,2.429 0,2.563 0,2.425 5和2.379 7。經(jīng)BP神經(jīng)網(wǎng)絡(luò)訓(xùn)練的最佳模型為基于S_G的BP神經(jīng)網(wǎng)絡(luò)模型,效果如圖3(a)所示,模型的R2為0.960 9,RMSE為2.379 7。
2.1.2 SVM模型訓(xùn)練效果
將69組土壤樣本分別在SVM,MSC-SVM,SNV-SVM,D1-SVM,D2-SVM和S_G-SVM六種模型中訓(xùn)練, 徑向基函數(shù)(高斯核)可以將每一個(gè)特征映射到一個(gè)無窮維的特征空間,有利于參數(shù)的選擇,因此以徑向基函數(shù)作為核函數(shù)做訓(xùn)練,并利用leave-one-out cross validation優(yōu)化了懲罰參數(shù),確定了最佳參數(shù)為0.87,提高了模型的預(yù)測(cè)精度。建立的六種SVM模型的R2分別為0.989 8,0.990 0,0.991 1,0.988 2,0.988 4和0.989 5,RMSEC分別為1.166 2,1.143 6,1.081 5,1.221 2,1.218 2和1.202 7。最終經(jīng)SVM訓(xùn)練的最佳模型為基于SNV的SVM模型, 效果如圖3(b)所示,此模型的R2為0.991 1,RMSE為1.081 5。
2.1.3 GP模型訓(xùn)練效果
建立基于高斯過程的GP,MSC-GP,SNV-GP,D1-GP,D2-GP和S_G-GP的六種模型,各模型的R2分別為0.920 7,0.907 3,0.912 2,0.919 1,0.907 1和0.920 8,RMSEC分別為3.300 1,3.509 5,3.433 8,3.348 6,3.314 4和3.258 1。相較來說基于S_G的GP模型的效果最好,模型的R2為0.928,RMSE為3.258 1。訓(xùn)練效果如圖3(c)所示,從圖中可以看出,沒有達(dá)到理想建模結(jié)果,其效果弱于BP神經(jīng)網(wǎng)絡(luò)和SVM訓(xùn)練模型。
圖3 基于不同算法的最佳訓(xùn)練效果
為檢驗(yàn)所建立模型的穩(wěn)定性和可靠性,利用剩余的三分之一(35組)的土壤樣品數(shù)據(jù)來進(jìn)行各模型的精度與預(yù)測(cè)效果驗(yàn)證。在所建立的BP,MSC-BP,SNV-BP,D1-BP,D2-BP,S_G-BP,SVM,MSC-SVM,SNV-SVM,D1-SVM,D2-SVM,S_G-SVM,GP,MSC-GP,SNV-GP,D1-GP,D2-GP和S_G-GP共18種土壤水分含量預(yù)測(cè)模型中,代入35組土壤樣本數(shù)據(jù), 各算法的最佳模型驗(yàn)證效果分別如圖4(a—c)所示,從圖中可以發(fā)現(xiàn),SVM預(yù)測(cè)模型的效果要比BP神經(jīng)網(wǎng)絡(luò)和高斯過程好得多,其中基于S_G的SVM預(yù)測(cè)模型效果最好。其決定系數(shù)和均方根誤差分別達(dá)到了0.992 1和0.736 9。
圖4 基于不同算法的最佳預(yù)測(cè)擬合效果
如圖5所示,對(duì)比分析不同算法模型的預(yù)測(cè)值與實(shí)際的測(cè)定值,結(jié)果表明,基于原始數(shù)據(jù)以及五種不同預(yù)處理方法的SVM模型整體的預(yù)測(cè)結(jié)果較其他兩種方法更加準(zhǔn)確。
依據(jù)圖3和圖5模型預(yù)測(cè)效果,結(jié)合表2的R2和RMSE參數(shù)發(fā)現(xiàn),無論在基于各算法的建模集還是預(yù)測(cè)集中,基于SVM的模型表現(xiàn)最佳,其中基于SNV的SVM模型為建模集中的最佳模型。在各算法的預(yù)測(cè)集中,基于S_G的SVM模型相較于本組其他模型預(yù)測(cè)效果最佳,基于原始數(shù)據(jù)的BP神經(jīng)網(wǎng)絡(luò)模型相較于本組其他模型預(yù)測(cè)效果最佳,基于MSC的GP模型預(yù)相較于本組其他模型預(yù)測(cè)效果最佳。最終預(yù)測(cè)結(jié)果表明支持向量機(jī)模型的擬合效果均優(yōu)于其他兩種模型,因此綜合建模集與預(yù)測(cè)集指標(biāo)最終確定基于S_G的SVM模型為北方寒地土壤含水率最佳預(yù)測(cè)模型。三種模型參數(shù)如表2所示。
表2 不同模型參數(shù)對(duì)比
圖5 預(yù)測(cè)結(jié)果對(duì)比圖
王璨[14]等利用卷積神經(jīng)網(wǎng)絡(luò)在常溫狀態(tài)下對(duì)土壤含水率進(jìn)行了預(yù)測(cè),其預(yù)測(cè)模型的決定系數(shù)為0.981。梁秀英[7]等在5~30 ℃范圍內(nèi)的溫度脅迫下利用最小二乘支持向量機(jī)建模,建立的最終模型的預(yù)測(cè)集相關(guān)系數(shù)最高為0.988 7,均方根誤差最小達(dá)到0.901 1,但研究的溫度脅迫范圍較小,不能滿足低溫脅迫下的實(shí)際情況。董桂梅[3]等在常溫環(huán)境下對(duì)含水率在0%~17%的土壤利用偏最小二乘法進(jìn)行建模預(yù)測(cè),得到最佳模型的決定系數(shù)為0.978 7, 預(yù)測(cè)均方根誤差為1.021。本研究最佳模型決定系數(shù)達(dá)到0.992 1,且溫度脅迫測(cè)量范圍更大,因此所確定的最佳模型精度有所提高、實(shí)用性更強(qiáng)。
綜上所述,本研究所得最優(yōu)方法精度得到了提高,并且溫度脅迫范圍以及土壤濕度范圍相對(duì)來說更大,彌補(bǔ)了現(xiàn)有的近紅外土壤含水率快速測(cè)量?jī)x的缺陷。
利用近紅外光譜針對(duì)北方寒地土壤對(duì)大范圍溫度脅迫下(-20~40 ℃)土壤的含水率的變化進(jìn)行研究。以全波段原始數(shù)據(jù)為基礎(chǔ),結(jié)合不同的近紅外光譜預(yù)處理方法,建立了不同溫度脅迫下土壤含水量的定量預(yù)測(cè)模型,包括BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)(SVM)和高斯過程(GP)共18種預(yù)測(cè)模型。最終選出基于S_G的SVM模型為最佳模型,基于S_G的SVM預(yù)測(cè)模型的決定系數(shù)R2和均方根誤差RMSE分別達(dá)到了0.992 1和0.736 9,優(yōu)于其他模型。此模型可以作為大范圍溫度脅迫條件下(北方寒地)土壤含水率的有效預(yù)測(cè)方法,有效的彌補(bǔ)了現(xiàn)有的近紅外土壤含水率快速測(cè)量?jī)x工作環(huán)境范圍與精度的缺陷,為設(shè)計(jì)優(yōu)化便攜式近紅外土壤含水率快速測(cè)量?jī)x提供參考。