鐘翔君, 楊 麗*, 張東興, 崔 濤, 和賢桃, 杜兆輝
1. 中國農(nóng)業(yè)大學(xué)工學(xué)院, 北京 100083 2. 農(nóng)業(yè)農(nóng)村部土壤-機器-植物系統(tǒng)技術(shù)重點實驗室, 北京 100083
土壤有機質(zhì)(soil organic matter, SOM)是影響播量的土壤關(guān)鍵參數(shù), 對作物的生長發(fā)育起至關(guān)重要的作用[1-2]。 根據(jù)田間SOM信息對播量進行實時調(diào)控, 可以充分挖掘土壤潛力、 節(jié)約良種用量, 對作物的提質(zhì)增效具有重要意義[3-6]。 傳統(tǒng)SOM信息的獲取多以實驗室化學(xué)分析為主[7], 雖然應(yīng)用較廣, 但分析過程繁瑣、 時效性差、 成本高且采樣的密度難以滿足大面積檢測需求。 近年來可見-近紅外光譜分析因其具有操作方便、 采樣速率快等優(yōu)勢, 還可提供高分辨率和豐富的土壤光譜信息, 成為SOM快速獲取的熱門途徑。
國內(nèi)外許多學(xué)者對SOM含量的光譜預(yù)測已開展了大量研究[8-12], 其中, 光譜特征篩選方法[13]有效解決光譜信息量大、 數(shù)據(jù)冗雜等造成預(yù)測模型效率低的問題, 是光譜分析過程的重要環(huán)節(jié)。 Vohland等[14]對德國不同類型的土樣進行光譜分析, 通過競爭性自適應(yīng)重加權(quán)算法(competitive adaptive reweighted sampling, CARS)結(jié)合偏最小二乘回歸(partial least squares regression, PLSR)建立了SOM含量預(yù)測模型。 Viscarra Rossel等[15]對澳大利亞不同類型土壤有機碳的組成進行研究, 基于決策樹算法推導(dǎo)傳遞函數(shù)并構(gòu)建預(yù)測模型來預(yù)測土壤總有機碳組分。 Shi等[16]對不同省份的土類數(shù)據(jù)進行可見-近紅外光譜分析, 通過空間約束局部-偏最小二乘方法建立了SOM預(yù)測模型。 張智濤等[17]基于分數(shù)階微分結(jié)合支持向量機分類-隨機森林構(gòu)建荒漠土SOM含量預(yù)測模型。 張娟娟等[18]分析了5種砂姜黑土樣本的光譜特征, 通過遺傳算法篩選特征波長并結(jié)合支持向量機建立了預(yù)測模型。 于雷等[19]采用不同變量篩選方法對漢江平原土樣進行特征提取, 并構(gòu)建了SOM含量預(yù)測模型。 Hong等[20]通過分數(shù)階微分結(jié)合不同的變量篩選方法, 分析了華中地區(qū)土樣的光譜特征并構(gòu)建了SOM含量預(yù)測模型。 綜上可以看出, 利用特征變量篩選方法可以有效優(yōu)化模型, 但是不同類型土壤差異較大, 構(gòu)建的模型大多僅針對某種特定類型的土壤, 對不同土壤類型的估測精度和適用性難以估測[21]。
華北平原是全國重要的糧食和經(jīng)濟作物區(qū), 同時是我國玉米主產(chǎn)區(qū)之一, 通過研究該區(qū)域SOM信息指導(dǎo)播種、 施肥及其他土壤改良作業(yè), 可有效降低生產(chǎn)投入、 提高肥料利用率。 基于此, 以該區(qū)域北部的砂壤潮土為研究對象, 以高靈敏度微型可見-近紅外光譜儀采集并分析300~2 500 nm波長范圍的光譜反射率, 以多種波長選擇方法篩選出特征波長, 在對不同特征波長進行建模分析的基礎(chǔ)上, 找出反演SOM的優(yōu)選方法, 為該區(qū)域SOM的快速獲取設(shè)備的設(shè)計方法和模型選擇提供參考。
研究區(qū)位于河北省廊坊市(39°19′N, 116°17′E)中部平原地帶, 地處華北平原北部, 是我國玉米生產(chǎn)主區(qū)之一。 地勢平坦, 土壤類型以砂壤質(zhì)為主, 占土壤總面積90%以上, 光照充足, 溫差較大, 這些獨特的土壤及氣候條件, 使得該地區(qū)以種植玉米、 花生、 甘薯等作物為主。
在常年耕作的地塊上以五點采樣法采集0~20 cm耕作層的土壤樣本, 采集時去除地表殘茬及礫石, 并將采集的土樣密封帶回實驗室進行處理。 共采集了60份土樣, 每份大約3 kg。 為不破壞其內(nèi)部成分, 將取回的土樣分別置于恒溫干燥箱(DHG-9123A型, 上海)并在40 ℃下烘干24 h至恒重, 然后將烘干后的土壤研磨并過1 mm篩網(wǎng)后備用, 分別供實驗室分析及光譜測試用。
樣品的SOM含量采用TOC元素分析儀(Elementar vario TOC cube, 德國)進行測定。 首先分別用萬分之一電子天平(FA324型, 上海)稱取研磨后的土樣15~20 mg, 并置于準(zhǔn)備好的直徑4 mm、 高6 mm開口銀囊中, 隨后在每個銀囊滴入1 mol·L-1HCl將土樣完全浸潤, 靜置30 min后轉(zhuǎn)移至恒溫干燥箱中干燥至恒重。 將烘干后的銀囊封口并用錫紙包裹、 壓實, 隨后依次投放于TOC元素分析儀中測量其SOM含量。 為保證數(shù)據(jù)的有效性, 每個樣本準(zhǔn)備5個重復(fù)并求均值, 得到SOM含量統(tǒng)計結(jié)果如表1所示。
表1 SOM含量統(tǒng)計
土壤樣品的光譜數(shù)據(jù)用美國海洋光學(xué)公司的QE Pro高性能光譜儀及NIR Quest系列近紅外光譜儀同步采集。 其中, NIR Quest512-2.5近紅外光譜儀采用穩(wěn)定性高的濱松銦鎵砷化物(InGaAs)陣列探測器, 可測量900~2 500 nm波長范圍的光譜數(shù)據(jù), 光學(xué)分辨率為9.0 nm。 QE Pro高性能光纖光譜儀采用低噪音的電子部分與18位A/D轉(zhuǎn)換器, 同時配備高容量的板存緩沖區(qū), 具有高靈敏度與寬動態(tài)范圍特性, 可大大提高光譜檢測的準(zhǔn)確度, 同時具有很高的信噪比(大于1 000∶1)和穩(wěn)定性, 可測量185~1 100 nm可見-近紅外波長范圍的光譜數(shù)據(jù), 滿足高速及寬濃度范圍的快速高精度的光譜測量, 光學(xué)分辨率為1.7 nm。
圖1為光譜采集裝置實物圖, 其中, 光源為5W HL-2000-FHSA型鹵鎢燈光源(Ocean Optics, Inc., 美國), 其內(nèi)部集成風(fēng)扇冷卻、 快門和手動衰減器功能, 可以保證持續(xù)穩(wěn)定的光源輸出; 光源配合實驗試級QR200-12-MIXED型全光譜一分三光纖(Ocean Optics, Inc., 美國)進行試驗, 該光纖主要包括1個入射光纖、 2個反射光纖(UV-Vis和Vis-NIR)和光纖探頭組成; 光纖探頭固定在Stage-RTL-T型多功能檢測臺(Ocean Optics, Inc., 美國)光具座上, 裝有土樣的培養(yǎng)皿置于檢測臺下方的樣品支座上; 通過筆記本電腦的Ocean View軟件采集樣本的反射光譜。
圖1 光譜采集裝置圖
為降低環(huán)境及儀器噪聲的影響, 獲取高精度的光譜反射率數(shù)據(jù), 樣品測量前用美國海洋光學(xué)公司99%漫反射標(biāo)準(zhǔn)白板進行校正, 分別獲取開啟光源及關(guān)閉光源后得到的亮、 暗光譜數(shù)據(jù)后, 根據(jù)式(1)運算得到校正后的反射率數(shù)據(jù)。
(1)
式(1)中:WS為開啟光源得到的校正亮光譜,DS為關(guān)閉光源的得到的校正暗光譜,RS為樣品初始反射率光譜,Rf為校正后的樣品反射率光譜。
經(jīng)白板校準(zhǔn)后, 將不同SOM含量的土壤樣本置于直徑3.5 mm的培養(yǎng)皿中, 通過調(diào)節(jié)檢測臺滑軌使光纖探頭位于樣品上表面, 試驗時每采集5個樣本, 用標(biāo)準(zhǔn)白板校正1次。 其中, 試驗時光纖探頭距標(biāo)準(zhǔn)白板及樣品的上表面高度均為3 mm。 采用五點法選取樣本5個位置采集光譜, 每個位置連續(xù)采集5次的均值作為該位置的反射光譜, 每個土壤樣本準(zhǔn)備3個重復(fù), 試驗共得到900條光譜數(shù)據(jù)。
由于低于380 nm和高于2 400 nm波長的數(shù)據(jù)噪聲較大, 因此將上述波段從每組光譜數(shù)據(jù)中去除, 只保留380~2 400 nm范圍的光譜數(shù)據(jù)用于后續(xù)分析。 為降低因儀器噪聲、 測量環(huán)境及土樣表面粗糙度等因素對采樣的影響, 采用蒙特卡洛交叉驗證法(Monte Carlo cross validation, MCCV)篩選異常數(shù)據(jù)并剔除。 對剔除異常樣本后的光譜數(shù)據(jù)采用Savitzky-Golay(SG)平滑法進行預(yù)處理, 并用作后續(xù)分析。
1.5.1 CARS算法
CARS方法首先抽取部分樣本作為校正集, 利用MCCV方法及PLSR構(gòu)建模型, 以模型中回歸系數(shù)絕對值權(quán)重作為基準(zhǔn), 保留模型中權(quán)重值大的特征波長并建立新的模型, 經(jīng)過多次計算, 結(jié)合交叉驗證確定交叉驗證均方根誤差(root mean square error of cross validation, RMSECV)小的波長集合為最優(yōu)特征組合[19]。 該方法可以降低冗余數(shù)據(jù)的干擾, 從而選出優(yōu)化后的變量組合, 提高模型的穩(wěn)定性及預(yù)測效果。
1.5.2 連續(xù)投影算法
連續(xù)投影算法(successive projections algorithm, SPA)首先將校正集波長矩陣投影到其他波長上, 計算出每個波長點對應(yīng)的投影值, 以投影值為基準(zhǔn), 篩選并保留最大投影值所在的波長, 通過不斷計算篩選出最優(yōu)的波長組合。 通過SPA方法選擇的是冗余信息低及共線性少的變量組合, 可以在一定程度上避免光譜信息重疊, 有利于簡化模型結(jié)構(gòu)、 提高運算效率。
1.5.3 其他特征提取算法
無信息變量消除(uninformative variables elimination, UVE)方法通過噪聲信息加入到光譜數(shù)據(jù)中, 通過交叉驗證剔除無效信息變量并建立PLSR模型, 通過對比系數(shù)矩陣的絕對值大小, 確定出特征變量組合。 變量組合集群分析法(variable combination population analysis, VCPA)采用二進制矩陣采樣策略, 利用指數(shù)衰減函數(shù)篩選無效變量, 并依據(jù)交叉驗證均方根誤差最終選擇出特征變量組合。
利用光譜-理化值共生距離法(sample set partitioning based on joint x-y distance, SPXY)將樣本集按7∶3劃分為建模集和預(yù)測集。 分別以全波長及CARS, SPA, UVE, VCPA及CARS-SPA等不同方法篩選的特征波長為自變量, SOM含量為因變量, 基于PLSR結(jié)合交叉驗證構(gòu)建SOM含量預(yù)測模型。 分別以決定系數(shù)(R2)、 校正均方根誤差(root mean square error of calibration, RMSEC)、 預(yù)測均方根誤差(root mean square error of prediction, RMSEP)及剩余預(yù)測偏差(residual prediction deviation, RPD)等作為模型的評價指標(biāo)[16]。 其中, RPD越大、R2越接近1、 RMSEC與RMSEP越小表明模型效果越好。
采用MCCV方法分別對不同樣本的反射率數(shù)據(jù)進行異常篩選, 其中每個樣本的光譜數(shù)據(jù)作為一個獨立的數(shù)據(jù)點, 分別以樣本的標(biāo)準(zhǔn)偏差作為y軸, 平均預(yù)測誤差為x軸, 對所有樣本光譜數(shù)據(jù)(數(shù)據(jù)點)進行篩選, 不同樣本的數(shù)據(jù)集分布結(jié)果如圖2所示。 從圖中可以看出, 不同土樣光譜的數(shù)據(jù)集離散程度不一樣, 但大部分數(shù)據(jù)點在某范圍內(nèi)呈現(xiàn)集中分布。 將遠離大部分數(shù)據(jù)集分布的數(shù)據(jù)點(即平均誤差和標(biāo)準(zhǔn)偏差越大)視為異常樣本并予以剔除, 留下的樣本數(shù)據(jù)作為有效數(shù)據(jù), 用于后續(xù)分析與運算。 經(jīng)過異常值的篩選剔除, 最終共保留了809個有效數(shù)據(jù)。
圖2 MCCV異常值篩選結(jié)果
對剔除異常數(shù)據(jù)后的光譜進行SG平滑, 得到平滑后的光譜曲線如圖3所示。 從圖中可以看出, 不同SOM含量的光譜反射率曲線總體變化趨勢類似, 隨著波長的增加, 光譜反射率呈現(xiàn)先增加后減小的趨勢。 同時, 所有光譜曲線均在1 410, 1 910和2 200 nm附近出現(xiàn)明顯的水分吸收谷, 這與Laamrani等[13]得到的光譜曲線特征結(jié)論類似。 另外, 由于兩臺光譜儀在Ocean View軟件中進行拼接, 所以在970 nm附近的反射率出現(xiàn)明顯波動。
圖3 光譜反射率曲線
經(jīng)過CARS, SPA, CARS-SPA, UVE及VCPA方法篩選變量結(jié)果如圖4所示, 從圖中可以看出, 不同篩選方法篩選出的波長數(shù)目及波長所在位置存在顯著差異。 從圖4(a)中可以看出, CARS算法在采樣次數(shù)增加至200次的過程中, 特征變量的個數(shù)逐漸減少, 其趨勢由快速下降逐漸變?yōu)槠骄彛?而RMSECV的值呈現(xiàn)先減小后增加的趨勢, 這與Hong等[20]對漢江平原土樣進行光譜數(shù)據(jù)處理得到的結(jié)論類似。 如圖4(a)中黑色豎直線標(biāo)注, 當(dāng)采樣次數(shù)為46次時RMSECV取得最小值, 該采樣次數(shù)對應(yīng)篩選出的特征波長個數(shù)為288個, 使得波段數(shù)目壓縮至全波段數(shù)目的23.4%, 波長的分布如圖4(b)所示。 將基于SPXY方法劃分好的建模集和預(yù)測集數(shù)據(jù)通過SPA算法進行計算, 結(jié)合圖4(c)可以看出, 隨著變量個數(shù)的增加, RMSECV的值大致呈現(xiàn)快速減小然后趨于穩(wěn)定的趨勢, 而當(dāng)變量個數(shù)為138個時, 其值達到最小, 篩選出的特征變量分布如圖4(d)所示, 波段數(shù)目壓縮至全波段的11.2%。 相較于CARS方法, SPA法篩選的變量共線性達到最小, 極大地減少了建模所需的波長個數(shù), 而經(jīng)過CARS方法篩選的變量個數(shù)雖然相較于全波長有所降低, 但是波長數(shù)量仍然較多, 在全波長范圍內(nèi)均有分布, 所以采用SPA算法對CARS篩選后的變量進行二次篩選, 進一步優(yōu)化變量的結(jié)構(gòu), 結(jié)果如圖4(e)和(f)所示, 共篩選出了185組特征波長, 波段數(shù)目壓縮至全波段的15.0%。 通過比較UVE方法運算得到的系數(shù)矩陣, 篩選出248組特征波長, 波段數(shù)目壓縮至全波段的20.1%, 如圖4(g)所示, 該方法篩選出的波段較為集中。 經(jīng)過對比RMSECV的值, 基于VCPA方法最終篩選出100組特征波長, 波段數(shù)目壓縮至全波段的8.1%, 波長分布如圖4(h)所示。
分別基于全波長及不同變量篩選方法得到的特征波長為自變量, SOM含量為因變量, 采用SPXY法將光譜數(shù)據(jù)按7∶3分為建模集和預(yù)測集, 結(jié)合留一法交叉驗證, 構(gòu)建PLSR預(yù)測模型, 得到不同模型的預(yù)測效果如圖5所示。
圖5 不同波長PLSR建模結(jié)果
利用光譜可以實現(xiàn)SOM的預(yù)測, 但是光譜波段多、 數(shù)據(jù)信息冗雜, 且土壤光譜反射率易受土壤質(zhì)地、 顏色及外部工作環(huán)境等多種因素的影響, 均為SOM的快速預(yù)測及儀器設(shè)計增加了難度。 本研究針對玉米主產(chǎn)區(qū)之一華北平原地帶的砂壤潮土進行一致的處理以后, 對比不同的波長篩選方法提取有效變量, 降低了無效信息對預(yù)測效果的干擾, 實現(xiàn)SOM含量預(yù)測。 在后續(xù)研究中, 需要考慮其他影響因素如光照、 溫度、 土壤類型等對預(yù)測效果的影響, 優(yōu)化數(shù)據(jù)處理及建模方法, 以進一步提高SOM的預(yù)測精度, 實現(xiàn)田間SOM快速高精度檢測。
以玉米主產(chǎn)區(qū)之一華北平原為研究區(qū)域, 對該區(qū)域砂壤潮土進行可見-近紅外光譜采集, 通過不同的波長篩選方法提取有效變量并進行SOM含量預(yù)測, 得到主要結(jié)論如下:
(1)不同方法篩選的波長數(shù)目及波長位置存在顯著差異, CARS和SPA算法選擇的光譜特征在整個光譜范圍都有分布, UVE和VCPA篩選的波段較為集中, 且基于CARS-SPA方法可以進一步優(yōu)選特征變量, 其特征波長僅為全波長數(shù)量的15%。
(2)通過對比不同模型的建模及預(yù)測效果, 除UVE和VCPA算法外, 其余算法構(gòu)建的模型均能實現(xiàn)SOM含量的有效預(yù)測, 其RPD值均大于2.0。