王 鍵, 汪六三, 王儒敬, 魯翠萍, 黃 偉, 汪玉冰
(1. 中國科學院合肥物質(zhì)科學研究院 合肥智能機械研究所, 安徽 合肥 230031; 2. 中國科學技術大學, 安徽 合肥 230026)
我國是農(nóng)業(yè)大國,同時也是施肥大國,化肥的質(zhì)量一直是農(nóng)業(yè)的熱點,高質(zhì)量的化肥提高了農(nóng)產(chǎn)品的產(chǎn)量,增加了農(nóng)民的收入,同時,也為企業(yè)的發(fā)展打下了堅實的基礎。隨著我國化肥產(chǎn)品的不斷發(fā)展,對化肥產(chǎn)品的要求也隨之不斷提高,但是就目前化肥產(chǎn)品的總體情況來看,化肥產(chǎn)品質(zhì)量的合格率較低,而且產(chǎn)品的生產(chǎn)并不是非常穩(wěn)定[1]。企業(yè)為了節(jié)約成本,減少了化肥抽樣樣本的個數(shù),使得抽樣的樣品不能全面地反映生產(chǎn)線的化肥質(zhì)量。同時,由于化學方法的局限性,使得檢測周期變長,滯后性變得非常明顯,化學試劑的持續(xù)使用對環(huán)境也會造成一定的傷害。這些都是化肥企業(yè)急需解決的難題。
近紅外光譜技術是一種利用物質(zhì)有機官能團(如C—H、O—H、N—H等)對近紅外光的選擇性吸收測量物質(zhì)中一種或幾種成分含量的技術。其具有分析速度快、效率高[2]、成本低、再現(xiàn)性好等特點。近紅外光譜技術在農(nóng)業(yè)領域有著廣泛的應用,如謝越等[3]建立了生物炭的近紅外光譜快速分析定量分析方法。劉燕德等[4]利用近紅外光譜技術對柑桔黃龍病進行快速無損檢測研究。近紅外光譜技術在復合肥養(yǎng)分測定方面國內(nèi)外也做了一定的研究。Janse等[5]使用掃描近紅外光譜,實現(xiàn)批量混合肥料的快速檢測,經(jīng)濟有效地控制了化肥質(zhì)量。王獻忠[6]采用近紅外光譜快速測定復合肥中的總氮量,決定系數(shù)達到了0.98以上。蘇彩珠等[7-8]進行了近紅外漫反射檢測復合肥中鉀含量和總氮含量的成分,實驗結(jié)果表明可以對復合肥中的成分連續(xù)快速檢測,適合大批量樣品。郭崢、袁洪福等[9]提出了利用復合肥水溶液的近紅外透射光譜進行化學計量學建模,實現(xiàn)了復合肥料多養(yǎng)分的快速檢測。宋樂等[10]提出了基于NIRS 測定復合肥料中尿素、縮二脲和水分含量的新方法,有較好的應用前景和實際意義。研究表明,采用近紅外光譜對化肥成分進行測量是可行的。
針對復合肥快速檢測問題,本文通過近紅外光譜結(jié)合基礎波長加優(yōu)選波長的方法測定復合肥中總氮含量,為復合肥氮素的快速檢測提供了一種新方法。
本實驗共選取某化肥生產(chǎn)基地不同批次的51個樣品,其中2,11,14,19,29,36,45,49號樣品表面著有不同的顏色,剩余樣品表面顏色均為白色,所有樣品都是顆粒狀固體。
復合肥的總氮含量由其化肥質(zhì)檢部門測定提供,其分布如表1所示。
表1 51份樣品總氮含量測定結(jié)果表
Kennard-Stone(KS)算法是根據(jù)樣本間光譜的歐氏距離來計算樣品間差異,為了尋求樣本間差異的最佳表達式,用K/S算法能選出更有代表性的樣品[11]。本實驗通過K/S對選取的復合肥樣品進行校正集與驗證集的劃分。校正集和驗證集樣本總氮含量統(tǒng)計結(jié)果如表2所示。
表2 校正集與驗證集樣本總氮含量統(tǒng)計結(jié)果表
可見/近紅外光譜采集的光譜信息既包含了有用信息也包含了噪聲,為了提高復合肥近紅外光譜分析的精度,在建模之前,需要用預處理的方法消除噪聲的干擾。光譜的預處理技術通常使用的是平滑、一階導數(shù)、二階導數(shù)、標準正態(tài)變量轉(zhuǎn)換以及多元散射校正。在實際預處理數(shù)據(jù)時,會同時使用多種預處理技術相結(jié)合,更好地得到穩(wěn)定的模型。本文采用MSC和一階導數(shù)對光譜進行預處理。
偏最小二乘回歸(PLS)分析模型是最為常用的化學計量學建模方法,它由Wold等于1983年提出。與傳統(tǒng)多元線性回歸相比,偏最小二乘法不但能同時分解光譜信息矩陣和濃度矩陣,而且還能很好地消除噪聲的干擾[12]。對于PLS,其因子數(shù)的選取直接關系到模型的實際預測能力,使用的主因子數(shù)過少,則不能充分表達樣品的光譜信息;使用的主因子數(shù)過多,就會加入噪聲,降低模型的實際預測能力。因此,合理確定參加建立模型的主因子數(shù)是充分利用光譜信息和濾除噪聲的有效方法之一[13-14]。
最小二乘回歸(PLS)建模方法中,判斷模型好壞的基本參數(shù)有:模型預測決定系數(shù)(R2),直接決定了模型預測值與實測值之間的相關程度;預測標準差(SRMSEP),它反映所建立的模型做預測時,實際值與預測值之間的偏離程度;相對分析誤差(KRPD),反映了模型預測的能力,其值越大,回歸模型的預測能力就越好。一個預測能力強的模型具有較高的模型預測決定系數(shù)和相對分析誤差。
(1)
(2)
(3)
由于光譜變量之間存在多重相關性,如果不進行波長的優(yōu)選,直接采用全波長建模,會大大增加模型的計算負擔,最重要的是,模型的預測精度可能大大降低,主要是由于建模過程中引入的無關變量和相互之間存在共線性的變量造成的。通過特定的方法進行波長的選擇可以建立更好的回歸模型。本文確定波長的方法為采用基礎波長結(jié)合優(yōu)選波長的方法,基礎波長由不同波段的驗證集評價數(shù)據(jù)決定,優(yōu)選波長采用以下算法確定:
Step2:從notWaveSpedata集合中依次只取一個波長加入到waveSpedata集合中建立模型,得到R2值,加入到R_Square數(shù)組。遍歷notWaveSpedata集合后,得到R_Square數(shù)組。
本實驗采用的光譜檢測儀為中國科學院合肥智能機械研究所自主研發(fā)的可見/近紅外光譜分析儀,該系統(tǒng)的光譜儀為海洋光學(Ocean Optics)的USB4000和NIRQuest512-2.5, 整個光譜范圍為345.8~2 516.8 nm,儀器如圖1所示,測量的復合肥原始光譜如圖2所示。從光譜圖可知,樣品在345.8~1 000 nm范圍的吸光度大小有明顯的差異,這是由于復合肥樣品存在不同顏色所造成的。
圖2 復合肥樣品原始光譜圖
由于復合肥樣本為顆粒狀,需要考慮散射的影響。MSC(多元散射校正)是最廣泛的應用于近紅外光譜預處理技術,主要用來消除樣品粒徑大小不一致以及分布不均引起的散射影響。由Martens等人在1983年首次引入[12]。同時考慮到噪聲的影響,本文采用MSC加一階導數(shù)進行光譜的預處理。圖3、圖4分別是經(jīng)過MSC變換處理,MSC加一階導數(shù)處理后的光譜圖。經(jīng)過預處理之后,樣本光譜差異更加明顯,吸收峰得到加強。
圖3 經(jīng)MSC預處理的光譜圖
圖4 經(jīng)MSC和一階導數(shù)預處理的光譜圖
由前文可知,主因子數(shù)的選取直接關系到模型的實際預測能力。目前常用的選擇最佳主因子數(shù)的方法有兩種:一是交叉驗證最小預測殘差平方和確定模型的最佳因子數(shù);二是希望交叉驗證均方根與校正標準偏差的比值越小越好。本文對波長1 000~2 500 nm采用留一法交叉驗證最小預測殘差平方和得到主因子數(shù)與PRESS值的關系,如圖5所示。理想狀態(tài)下,PRESS值先增大,后迅速減小到整體最小值,最后增大到平穩(wěn)狀態(tài)。從圖可知,曲線趨勢接近理想狀態(tài),當主因子數(shù)為6時,此時的預測殘差平方和為最小。
圖5 主因子數(shù)與預測殘差平方和關系圖
由上文可知,光譜變量之間存在多重相關性,不同的波段所含信號的信噪比不同,選擇太多的波長建模,可能會引入大量的干擾信號。為了解決上述問題,提出了基礎波段加優(yōu)選波長的建模方法,通過比較建模后驗證集樣本的評價數(shù)據(jù),最終確定建模波長范圍。表3給出了不同波長范圍下建模的驗證集樣本評價數(shù)據(jù)。
由表3可知,當建模數(shù)據(jù)波長范圍在1 000~2 500 nm時,評價指標預測決定系數(shù)值達到了0.760 4,SRMSEP=2.044 4,KRPD=2.043 1,相比于其他波長范圍內(nèi)建模,該波段內(nèi)建模最好。圖6給出了上述波長范圍下的驗證集化肥樣本總氮含量真實值與預測值散點圖。從圖6可知,驗證集化肥樣本總氮含量的真實值和預測值之間的相關性并不是特別好。由于初始建模波長并不是全波段波長,雖然剩余的波長基本上是對建模無用的干擾噪聲,但是可能含有某些有用的信息,所以接下來將對未被選擇波長作進一步的篩選。
表3 不同波長范圍下建模的驗證集評價數(shù)據(jù)
圖6 驗證集樣本總氮含量真實值與預測值散點圖
按照上述算法進行波長挑選,得到加入優(yōu)選波長后,波長的個數(shù)與模型預測決定系數(shù)以及預測標準差的關系如圖7、圖8所示。由圖可知,隨著波長數(shù)的增加,預測決定系數(shù)增加,預測標準差降低;當加入波長數(shù)超過49后,預測決定系數(shù)和預測標準差不再增加??紤]到在加入波長為40左右時,指標基本上不發(fā)生變化,所以本文選擇加入波長數(shù)為42。
通過以上分析,建立了預測復合肥總氮含量的PLS模型。圖9給出了驗證集樣本總氮含量的真實值與預測值散點圖。表4給出了采用優(yōu)選波長建模和未采用優(yōu)選波長建模后的評價數(shù)據(jù)。從圖中可知,模型對驗證集樣本的總氮含量預測決定系數(shù)R2達到了0.99以上,同時SRMSEP也只有0.393 8。從表中我們可以看出,采用優(yōu)選波長后,相對分析誤差(KRPD)達到了10以上,預測標準偏差降到了原來的1/5左右,說明模型的預測效果很好。
圖7 優(yōu)選波長預測決定系數(shù)曲線圖
圖8 優(yōu)選波長預測標準差曲線圖
圖9 驗證集樣本總氮含量真實值預測值散點圖
表4 不同波長數(shù)建模后的評價指標
本文通過可見/近紅外光譜分析儀采集到51份復合肥光譜信息,并使用多元散射校正和一階導數(shù)進行預處理,建立了多個波段的總氮含量的PLS模型,通過比較,在波長為1 000~2 500 nm范圍內(nèi)建模比其他波段范圍內(nèi)建模預測性能更好。同時,在分段建模的基礎上,通過優(yōu)選波長算法,篩選對模型有用的波長數(shù)據(jù),提高了模型的預測精度。實驗結(jié)果表明:不加入優(yōu)選波長算法,波長數(shù)為475個,預測決定系數(shù)為0.760 4,模型KRDP=2.043 1;在加入優(yōu)選波長算法后,波長數(shù)據(jù)增加42個,預測決定系數(shù)達到0.991 1,模型的KRPD=10.606 0,大幅提升了模型的預測能力。同時也驗證了研制的可見/近紅外光譜分析儀可以對復合肥中的總氮含量實現(xiàn)快速連續(xù)測量。特別是對大批量的樣本,具有很強的應用價值,未來將利用復合肥自動檢測裝置,實現(xiàn)復合肥生產(chǎn)線上大批量樣本總氮成分實時在線測定。