陳素彬 楊華 羅蓉 胡振
摘要 [目的]為了檢測馬鈴薯的飼用品質(zhì),用近紅外光譜法建立馬鈴薯可溶性固形物含量(SSC)快速測定模型。[方法]以偏最小二乘法(PLS)建立原始光譜的校正模型為基礎(chǔ),用蒙特卡洛交互驗證法剔除異常樣本,經(jīng)比較選擇標準正態(tài)變量和均值中心化算法進行光譜預處理、光譜-參考值共生距離法劃分樣本集,然后對所得數(shù)據(jù)分別以PLS和最小二乘支持向量機(LS-SVM)建立定量校正模型,并用競爭性自適應重加權(quán)采樣法和風驅(qū)動-差分進化混合算法完成相應模型的特征波長和參數(shù)優(yōu)化。[結(jié)果]優(yōu)化的PLS模型和LS-SVM模型波長變量分別減至全光譜的8.67%、67.80%,二者的Rc2、Rp2、RMSEC、RMSEP、RPD分別為0.970 8、0.954 2、0.258 6、0.262 8、5.91和0.987 3、0.983 0、0.170 5、0.173 4、8.96,LS-SVM模型的各項性能指標全面優(yōu)于PLS模型。[結(jié)論]2種定量模型均可用于馬鈴薯SSC的實際檢測工作。
關(guān)鍵詞 可溶性固形物;近紅外光譜分析;定量模型;偏最小二乘法;最小二乘支持向量機
中圖分類號 TS 255.7? 文獻標識碼 A? 文章編號 0517-6611(2021)20-0205-05
doi:10.3969/j.issn.0517-6611.2021.20.055
開放科學(資源服務(wù))標識碼(OSID):
Rapid Quantitative Model and Optimization of Potato Soluble Solids by Near Infrared Spectroscopy
CHEN Su-bin? YANG Hua? LUO Rong2 et al
(1. Nanchong Vocational and Technical College, Nanchong, Sichuan 637131;2. Geological Resarch Institute of Central Sichuan Oil and Gas District of Southwest Oil and Gasfield Company, Suining, Sichuan 629000)
Abstract [Objective]In order to test the feeding quality of potatoes, the quick measurement model of potato soluble solids content (SSC) had been established by means of the near infrared spectroscopy.[Method]The establishment of the original spectrum correction model was taken as the basis by the partial least squares (PLS), the abnormal samples were eliminated by using the Monte Carlo cross validation method, the sample set was divided by the spectrum pretreatment and spectral-reference value symbiotic distance method through comparing and selecting the standard normal variable and mean centralized algorithm, and then the quantitative calibration model of the obtained data was established with the PLS and the least squares-support vector machine (LS-SVM) respectively, and the characteristic wave length and parameters of the corresponding model were optimized by the competitive adaptive reweighted sampling method and the wind-driven differential evolution hybrid algorithm.[Result]The wavelength variables of the optimized PLS model and LS-SVM model were reduced to the 8.67% and 67.80% of the full spectrum respectively, and the Rc? Rp? RMSEC, RMSEP and RPD of the two models were 0.970 8, 0.954?? 0.258 6, 0.262 8,5.91 and 0.987 3, 0.983 0, 0.170 5, 0.173 4, 8.96, respectively. The various performance indexes of LS-SVM model were fully superior to those of the PLS model.[Conclusion] The two quantitative models can be used for practical detection of potato SSC.
Key words Soluble solids;Near infrared spectroscopy;Quantitative model;PLS;LS-SVM
基金項目 南充市2019年應用技術(shù)研究與開發(fā)資金項目(19YFZJ0028)。
作者簡介 陳素彬(1967—),女,四川儀隴人,副教授,從事分析檢測工作。
收稿日期 2021-02-03
馬鈴薯是重要的糧食、飼料兼用作物,其可食部分富含有益于動物健康的各種物質(zhì)成分,為世界公認的全價食品和優(yōu)良飼料,可用于鮮食和加工原料。可溶性固形物含量(soluble solids content,SSC)是馬鈴薯的主要品質(zhì)指標之一,直接反映其質(zhì)量和加工適宜性[1]。
在實際檢測和相關(guān)研究中,SSC的測定常用折射儀(折光計)法和手持糖度計法[2-3],相應國家標準和農(nóng)業(yè)行業(yè)標準分別為《食品罐頭的檢驗方法》(GB/T 10786—2006)、《水果和蔬菜可溶性固形物含量的測定 折射儀法》(NY/T 2637—2014)。近年來,隨著各類新型分析儀器的普及應用和化學計量學方法、軟件技術(shù)的不斷發(fā)展,近紅外光譜分析(near infrared spectroscopy,NIRS)技術(shù)得到了廣泛應用,在SSC檢測方面也取得了一些成果[4-5]。王世芳等[6]對西瓜不同部位的樣品集進行近紅外光譜檢測,其赤道部位樣品光譜經(jīng)歸一化預處理后,建立的偏最小二乘(partial least squares,PLS)模型預測相關(guān)系數(shù)為0.864、均方根誤差為0.33%;王冬等[7]采用PLS結(jié)合全交互驗證算法,將2種櫻桃樣品光譜數(shù)據(jù)與SSC測定值建立定量校正模型,其校正決定系數(shù)、校正均方根誤差、交互驗證決定系數(shù)、交互驗證均方根誤差和相對分析誤差分別為0.912 5、0.81、0.894 6、0.89、3.38;于懷智等[8]基于近紅外光譜技術(shù)設(shè)計了“蒙陰黃桃”內(nèi)部品質(zhì)在線無損檢測分級系統(tǒng),所建SPA-PLS模型較優(yōu),其SSC預測集相關(guān)系數(shù)和預測均方根誤差分別為0.916、0.721%。這些研究為應用NIRS技術(shù)檢測SSC提供了有效驗證,但用于測定馬鈴薯SSC的報道尚不多見。
該試驗參考農(nóng)業(yè)行業(yè)標準《蘋果中可溶性固形物、可滴定酸無損傷快速測定 近紅外光譜法》(NY/T 1841—2010),以NIRS法檢測馬鈴薯SSC為目標,分別以偏最小二乘(PLS)和最小二乘支持向量機(least squares-support vector machine,LS-SVM)建立定量模型,并運用化學計量學方法和軟件技術(shù)對其進行全面優(yōu)化,通過性能對比確定較優(yōu)建模方案,為同類試驗和實際檢測提供方法和技術(shù)思路。
1 材料與方法
1.1 試驗材料
從南充市農(nóng)貿(mào)市場、生豬飼養(yǎng)場和飼料企業(yè)采集新鮮馬鈴薯樣品213個,其品種、產(chǎn)地和種植條件不盡相同。獲得的樣品在實驗室統(tǒng)一編號,清潔其表面、于陰涼處風干,在溫度(6±1)℃、相對濕度80%~85%環(huán)境避光保存。
1.2 主要儀器
近紅外光譜儀(型號為MPA),德國Bruker公司;阿貝折光儀(型號為WAY-1S),上海精密儀器廠;組織搗碎機(型號為JJ-2),江蘇金壇市億通電子有限公司。
1.3 樣品SSC參考值測定
隨機取馬鈴薯樣品塊莖3~5 個,選擇相同部位切碎、混勻,放入組織搗碎機中打漿,用4層紗布擠出濾液,棄去最初幾滴,按農(nóng)業(yè)行業(yè)標準《水果和蔬菜可溶性固形物含量的測定 折射儀法》(NY/T 2637—2014)之步驟完成SSC測定。
1.4 SSC快速定量模型建立
1.4.1
樣品近紅外光譜測量。將馬鈴薯樣品切成圓形片塊,用近紅外光譜儀直接測量其漫反射光譜。光譜掃描范圍10 500~7 400 cm- 以8 cm-1分辨率掃描樣品64 次;每個試樣重復裝樣、掃描3 次,取其平均值為光譜數(shù)據(jù)。
1.4.2
NIRS定量模型建立。用KS法(kennard-stone)將樣品按3∶1劃分為定標集和驗證集,以PLS法建立定標集樣品光譜與相應SSC參考值的校正模型,用該模型預測驗證集樣品的SSC,并以校正決定系數(shù)(calibration r-square,Rc2)、預測決定系數(shù)(prediction r-square,Rp2)、校正均方差(root mean square error of calibration,RMSEC)、預測均方差(root mean square error of prediction,RMSEP)和相對分析誤差(residual predictive deviation,RPD)為指標評價模型性能。
1.5 模型性能優(yōu)化
1.5.1
異常樣本判斷與剔除。采用蒙特卡洛交互驗證法(Monte Carlo cross validation,MCCV)。以蒙特卡洛采樣法(Monte Carlo sampling,MCS)取樣本總量的80%組成校正集,其余樣本為驗證集,用PLS法建模、預測,計算各樣本的預測殘差。重復該過程2 000 次,計算各樣本預測殘差的均值(MEAN)和標準差(standard deviation,STD),繪制全部樣本預測殘差的MEAN-STD分布圖,圖中均值和標準差較大且明顯離群的樣本為異常樣本[9]。
1.5.2
光譜預處理與樣本集劃分。首先分別嘗試均值中心化(mean centralization,MC)、矢量歸一化(vector normalization,VN)、薩維茨基-戈萊平滑(savitzky-golay smoothing,SGS)、一階導數(shù)(first derivative,F(xiàn)D)、標準正態(tài)變量變換(standard normal variable,SNV)、多元散射校正(multiple scattering correction,MSC)和離散小波變換(discrete wavelet transform,DWT)等數(shù)據(jù)變換算法,然后依次用其他算法與MC的組合方法進行樣本光譜預處理;同時分別以KS法和光譜-參考值共生距離法(sample set partitioning based on joint X-Y distance,SPXY)按3∶1劃分樣本集,用預處理后的樣本光譜與相應SSC參考值建模,比較其性能以確定最優(yōu)的光譜預處理和樣本集劃分方案。然后對于以最優(yōu)方案所得樣本數(shù)據(jù),分別用PLS和LS-SVM方法建模、預測,并進行性能評價與比較。
1.5.3
建模波長優(yōu)化。PLS模型以競爭性自適應重加權(quán)采樣法(competitive adaptive reweighted sampling,CARS)選取特征波長:用MCS法抽取80%樣本為校正集,其余為驗證集,以PLS法建模預測,計算波長j對目標的貢獻|bj|和權(quán)重wj,以指數(shù)遞減函數(shù)計算波長變量的保留率ri=ae-ki(a、k為常數(shù),i為采樣次數(shù));去掉|bj|較小的波長點,從m×ri個(m為波長數(shù))波長變量中用自適應重加權(quán)采樣(adaptive reweighted sampling,ARS)法得到樣本優(yōu)選子集,以相應光譜數(shù)據(jù)建立PLS模型,計算其交互驗證均方根誤差(root mean square error of cross validation,RMSECV)。重復此過程200 次,取RMSECV最小值對應的變量子集為特征波長[10]。
LS-SVM模型采用智能搜索算法進行波長變量和參數(shù)優(yōu)化:基于風驅(qū)動優(yōu)化(wind driven optimization,WDO)和差分進化(differential evolution,DE)算法構(gòu)造一種WDO-DE混合優(yōu)化算法[11],將其離散化,使連續(xù)的實數(shù)搜索空間映射到離散的二進制空間,以各維搜索位置對應全部待選波長,其值為1則相應波長被選中,反之為未選中,故最終取值為1的各維即構(gòu)成特征波長。將待選波長與模型參數(shù)σ2、γ一起構(gòu)成優(yōu)化變量,并進行二進制編碼,用樣本數(shù)據(jù)建立LS-SVM模型進行預測,以RMSECV為算法適應度,迭代搜索特征波長和最優(yōu)建模參數(shù)[12]。
1.5.4
優(yōu)化模型建立及性能評價。綜合應用異常樣本判斷、光譜預處理、樣本集劃分和特征波長選取的結(jié)果,得到優(yōu)化的定標集和驗證集數(shù)據(jù),分別建立PLS模型和LS-SVM模型進行預測驗證。
以Rc2、Rp2、RMSEC、RMSEP和RPD為評價指標,比較PLS模型優(yōu)化前后及LS-SVM模型的性能。Rc2越大、RMSEC越小,則建模質(zhì)量越好;Rp2越大、RMSEP越小,則模型預測能力越強;Rc2和Rp2、RMSEC和RMSEP相差少,則模型精度高、穩(wěn)健性好。根據(jù)國際谷物科技協(xié)會標準,模型的RPD≥3才能用于實際檢測。
1.6 數(shù)據(jù)處理與建模工具
數(shù)據(jù)記錄、統(tǒng)計和結(jié)果計算用Microsoft Excel 2010完成,光譜預處理和PLS建模以The Unscrambler X 10.4實施,LS-SVM建模和模型優(yōu)化利用MATLAB R2020a編程實現(xiàn)。
2 結(jié)果與分析
2.1 SSC快速定量模型建立
2.1.1 馬鈴薯樣品近紅外光譜測量。213個馬鈴薯樣品的原始近紅外光譜見圖1。由圖1可知,在9 000~10 500 cm-1波段光譜趨勢平緩,7 400~9 000 cm-1波段相對尖銳、吸收峰較多。樣品光譜在7 630和8 965 cm-1處存在明顯的波谷,而在7 830、8 216和8 833 cm-1左右有較明顯的波峰,這些區(qū)域含有較多特征光譜信息。不同品種、產(chǎn)地和種植條件的馬鈴薯樣品近紅外光譜相似度很高,但譜線較分散,表明各樣品的成分一致、含量差異明顯。
2.1.2
NIRS定量模型建立。將全部213個樣品用KS法按3∶1劃分樣本集后,以無預處理的全光譜數(shù)據(jù)直接建立PLS定量模型,結(jié)果發(fā)現(xiàn),用樣本集原始NIRS數(shù)據(jù)所建PLS定量模型的Rc2和Rp2分別為0.723 7、0.660? RMSEC和RMSEP分別為0.784 9、0.800? RPD僅為1.87,其各項性能指標較差,不能直接用于實際檢測。
2.2 模型性能優(yōu)化
2.2.1
異常樣本判斷與剔除。用MCCV法所得全部樣本的預測殘差MEAN-STD分布如圖2所示。從圖2可看出,全部樣本預測殘差的均值和標準差集中分布于坐標原點區(qū)域附近,預測殘差均值大于0.8的樣品有140 號、81 號、147 號和172 號,但其預測殘差標準差均較小;預測殘差標準差大于0.15的樣品有141 號、148 號、32 號和33 號,其中141 號樣品的預測殘差均值也較大,故可確定為異常樣本。將該樣本剔除后,再以PLS法建立SSC定量模型,結(jié)果發(fā)現(xiàn),其模型的Rc2和Rp2分別為0.725 3、0.661 0,RMSEC和RMSEP分別為0.781 8、0.789 5,RPD僅為1.90,可見剔除141 號樣本后,所建PLS定量模型的各項性能指標皆有所改善。
2.2.2
光譜預處理與樣本集劃分。分別以KS法和SPXY法劃分樣本集,結(jié)果見表1。
從表1可以看出,用KS法和SPXY法劃分樣本集的結(jié)果沒有明顯差異,2種方法所得定標集和驗證集樣本的SSC分布情況極為相似,各項數(shù)據(jù)均相差很小。樣本集中SSC的變化范圍較大,最小值和最大值的樣本都劃分在定標集中;定標集樣本的SSC涵蓋了驗證集樣本的SSC范圍,驗證集樣本SSC的標準差大于定標集,適合于建立一個準確、穩(wěn)健的校正模型。
分別以2種樣本集劃分方法結(jié)合多種光譜預處理方案處理樣本集數(shù)據(jù),用PLS法建立SSC定量模型,結(jié)果見表2。
將表2中的數(shù)據(jù)對比可知,樣本光譜經(jīng)過預處理后,所建NIR定量模型的性能皆有提高,其中組合方法的預處理效果優(yōu)于單一算法;對于同一種光譜預處理方法,用SPXY法劃分樣本集所建模型的性能優(yōu)于KS法。顯然,光譜預處理結(jié)合樣本集劃分的最優(yōu)方案為“‘SNV+MC+SPXY”,相應PLS校正模型的性能指標Rc2和Rp2分別為0.970 2、0.936 9,RMSEC和RMSEP分別為0.261 9、0.269? RPD為5.77,達到了可用于實際檢測的標準。
2.2.3
建模波長優(yōu)化。對于用“‘SNV+MC+SPXY”方案優(yōu)化所得樣本集數(shù)據(jù),以CARS法選取PLS模型的特征波長、WDO-DE混合優(yōu)化算法搜索LS-SVM模型的最優(yōu)參數(shù)和波長變量,所得特征波長見表 同時得到LS-SVM模型最優(yōu)參數(shù)為σ2=11.309 93、γ= 240.478 8。
由表3可知,PLS校正模型用CARS法篩選后,保留了35 個波長點,僅占全波長的8.67%;所選波長多數(shù)集中于8 826~9 188 cm-1波段,共有25 個,正好位于8 833 cm-1處的波峰和8 965 cm-1處的波谷區(qū)域,該段光譜表達了馬鈴薯樣品SSC的主要信息;另外10 個特征波長中,7 400、7 406和10 176、10 191、10 222 cm-1分別位于譜線兩端的波峰附近,7 607、7 907 cm-1分別在7 630 cm-1處的波谷和7 830 cm-1處的波峰區(qū)域,8 154、8 170和8 394 cm-1也位于8 216? cm-1處的波峰附近。
LS-SVM校正模型以WDO-DE混合優(yōu)化算法選得波長變量274 個,為全波長的67.8%;建模波長主要分布在8 455~9 720 cm-1波段,共146 個,其中包含了8 833 cm-1處的波峰和8 965 cm-1處的波谷區(qū)域;其次為7 607~7 938 cm-1波段,共38 個,正好位于7 630 cm-1處的波谷和7 830 cm-1處的波峰區(qū)域;然后為9 805~10 014 cm-1波段,共21 個,對應于9 900 cm-1附近的平緩波峰;此外,10 083~10 245 cm-1波段18 個、10 368~10 500 cm-1波段15 個,其余波長36 個。
2.2.4 優(yōu)化模型建立及性能評價結(jié)果。綜合應用前述優(yōu)化方法,分別以PLS和LS-SVM法建立馬鈴薯SSC定量模型,結(jié)果見表4。
由表4可知,剔除異常樣本并應用光譜預處理、樣本集劃分和波長選擇等優(yōu)化方法后,用PLS法所建馬鈴薯SSC校正模型的優(yōu)化效果較為顯著,其Rc2和Rp2分別為0.970 8、0.954? RMSEC和RMSEP分別0.258 6、0.262 8,RPD為591;與之相比,采用智能搜索算法進行波長和參數(shù)優(yōu)化的LS-SVM模型性能更好,其Rc2和Rp2分別為0.987 3、0.983 0,RMSEC和RMSEP分別0.170 5、0.173? RPD為896。顯然,后者的Rc2和Rp2均大于前者且相差更小,RMSEC和RMSEP則小于前者且更為接近,RPD亦明顯高于前者。
2種模型所得樣品SSC預測值與相應參考值的擬合曲線見圖3。從圖3可以看出,數(shù)據(jù)點在擬合線兩邊分布較均勻,且距擬合線較近,說明校正模型穩(wěn)定性好,其預測值與參考值相差較小。與PLS模型相比,LS-SVM模型中的數(shù)據(jù)點分布更集中,其中多數(shù)緊靠擬合線,表明LS-SVM校正模型的預測精度高于PLS模型。
3 結(jié)論與討論
利用近紅外光譜法建模檢測馬鈴薯SSC,以MCCV法剔除異常樣本,選用“SNV+MC”組合算法進行光譜預處理、SPXY法劃分樣本集,分別采用CARS法、WDO-DE混合優(yōu)化算法選取PLS模型和LS-SVM模型的特征波長,得到全面優(yōu)化的NIRS校正模型。結(jié)果表明:
(1)剔除異常樣本后,以PLS法所建校正模型性能有所改善,其Rc2和Rp2分別由0.723 7、0.660 3升到0.725 3、0661 0,RMSEC和RMSEP分別由0.784 9、0.800 3降為0781 8、0.789 5,RPD由1.87增至1.90;在此基礎(chǔ)上,選擇、應用優(yōu)化的光譜預處理和樣本集劃分方法,相應PLS模型的性能顯著提升,此時Rc2、Rp2、RMSEC、RMSEP和RPD分別為0.970 2、0.936 9、0.261 9、0.269 1、5.77。相比之下,光譜預處理對模型性能提升的作用尤為顯著。究其原因,SNV變換可消除樣品不均勻造成的噪聲、散射以及光程變換對NIR漫反射的影響,增強光譜與數(shù)據(jù)之間的相關(guān)性;MC方法可增加樣品光譜之間的差異,提高模型的預測能力和穩(wěn)健性。SPXY算法利用光譜數(shù)據(jù)和待測成分參考值計算樣品間距離,可保證最大程度表征樣本分布,有效覆蓋多維向量空間,增加樣本間的差異性和代表性,從而提高模型穩(wěn)定性。
(2)同時引入了LS-SVM方法建模,所得模型性能顯著優(yōu)于PLS模型,其Rc2、Rp2、RMSEC、RMSEP和RPD分別為0.987 3、0.983 0、0.170 5、0.173 4、8.96。由此可見,馬鈴薯樣品的NIRS與相應SSC之間并非簡單的線性關(guān)系,采用非線性的LS-SVM方法建模是更好的選擇。
(3)優(yōu)化的PLS模型和LS-SVM模型大幅度縮減了波長變量,消除了光譜中的大量非待測成分信息,既提高了模型的預測能力,也顯著降低了計算量,加快了運行速度。
綜上所述,試驗所建馬鈴薯SSC測定的2種NIRS定量校正模型均有較高精度和效率,其性能優(yōu)于同類試驗模型,均已達到國際谷物科技協(xié)會的實際檢測標準,可用于馬鈴薯SSC的快速檢測。2種校正模型相比,PLS模型波長變量較少、計算量小,故其運行速度占優(yōu);LS-SVM模型則預測精度更高、穩(wěn)健性較好,具有更好的泛化性能。
參考文獻
[1] 楊炳南,張小燕,趙鳳敏,等.常見馬鈴薯品種特性分析及加工適宜性分類[J].食品科學技術(shù)學報,2016,34(1):28-36.
[2] 吳聰宇,李子賢,李新國,等.3種熱帶水果可溶性固形物含量的測定[J].熱帶農(nóng)業(yè)科學,2018,38(9):69-72.
[3] 張巍巍,安進軍,趙玉靖,等.大蔥干物質(zhì)和可溶性固形物含量的研究[J].食品研究與開發(fā),2017,38(10):128-130.
[4] KRIVOSHIEV G P,CHALUCOVA R P,MOUKAREV M I.A possibility for elimination of the interference from the peel in nondestructive determination of the internal quality of fruit and vegetables by VIS/NIR spectroscopy[J].LWT-Food science and technology,2000,33(5):344-353.
[5] KANG S,LEE K J,CHOI W,et al.A near-infrared sensing technique for measuring the quality of potatoes[C]//ASAE Annual International Meeting.St.Joseph,Michigan:American Society of Agricultural and Biological Engineers,2003:27-30.
[6] 王世芳,韓平,崔廣祿,等.SPXY算法的西瓜可溶性固形物近紅外光譜檢測[J].光譜學與光譜分析,2019,39(3):738-742.
[7] 王冬,張鶴冬,朱業(yè)偉,等.基于LVF-NIR的櫻桃可溶性固形物含量無損速測模型的建立與優(yōu)化[J].食品安全質(zhì)量檢測學報,2020,11(3):854-859.
[8] 于懷智,陳東杰,姜沛宏,等.近紅外光譜對蒙陰黃桃硬度和可溶性固形物的在線檢測[J].食品與發(fā)酵工業(yè),2020,46(14):216-221.
[9] 陳素彬,胡振,張曉琪,等.軟件技術(shù)在近紅外光譜定量分析中的應用[J].化學教育,2018,39(16):62-67.
[10] 陳素彬,胡振,楊華.近紅外光譜法檢測飼料玉米品質(zhì)的優(yōu)化PLS模型[J].飼料研究,2020,43(5):112-116.
[11] 胡振,楊華,周金容,等.風驅(qū)動-差分進化混合優(yōu)化算法設(shè)計及其性能分析[J].現(xiàn)代計算機,2020(20):14-19.
[12] 陳素彬,胡振.優(yōu)化的近紅外光譜LS-SVM模型測定小麥蛋白質(zhì)[J].食品工業(yè),2019,40(12):329-333.