吳靜珠, 劉翠玲, 邢素霞, 孫 梅
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
光譜分辨率的選取對食用油近紅外模型性能影響分析
吳靜珠, 劉翠玲, 邢素霞, 孫 梅
(北京工商大學(xué)計(jì)算機(jī)與信息工程學(xué)院,北京 100048)
近紅外光譜儀的類型和工作參數(shù)的設(shè)定對測量過程和分析結(jié)果均有一定影響.重點(diǎn)討論了在傅立葉變換型光譜儀上設(shè)定不同的光譜分辨率對食用油近紅外定量模型性能的影響.實(shí)驗(yàn)采用Vertex 70光譜儀,在3種光譜分辨率(4,8,16 cm-1)條件下,采用透射式液體光纖探頭采集60份食用油樣品近紅外譜圖.針對3組近紅外光譜樣品集,分別采用蒙特卡羅采樣法剔除異常樣品,根據(jù)Kennard-Stone法劃分校正集和校驗(yàn)集后,建立優(yōu)化食用油棕櫚酸近紅外定量分析模型并作預(yù)測.結(jié)果表明基于16 cm-1建立的食用油近紅外模型指標(biāo)優(yōu)于4 cm-1和8 cm-1所建的模型,該結(jié)果可以為均勻液體作近紅外檢測時光譜分辨率的設(shè)定提供參考.
光譜分辨率;近紅外;蒙特卡洛采樣;食用油
近紅外光譜儀的類型、工作狀態(tài)和掃描時各參數(shù)的設(shè)定對測量過程和分析結(jié)果均有一定影響[1].根據(jù)采用的分光技術(shù)不同,近紅外光譜儀的類型可劃分為濾光片型、光柵掃描型、陣列檢測型、傅立葉變換型和聲光過濾調(diào)制型等.其中,傅立葉型光譜儀器已經(jīng)成為目前實(shí)驗(yàn)室紅外光譜儀器的主導(dǎo)產(chǎn)品[2].一般情況下,近紅外光譜儀類型的選擇局限于實(shí)驗(yàn)室所購買的儀器.而光譜儀的工作狀態(tài)(如波長準(zhǔn)確度、信噪比等)一般在儀器上都帶有硬件工作狀態(tài)的自診斷軟件來告知用戶當(dāng)前儀器是否工作在正常狀態(tài),因此無需過多考慮.但是光譜掃描時需要人為設(shè)定的一些參數(shù),如光譜分辨率,特別需要用戶引起注意,因?yàn)楣庾V分辨率影響樣品光譜的質(zhì)量,最終影響分析的準(zhǔn)確性.這類參數(shù)若在實(shí)驗(yàn)過程中設(shè)置得當(dāng),會有助于用戶得到準(zhǔn)確可靠的近紅外分析結(jié)果,反之,則會嚴(yán)重影響近紅外分析結(jié)果.如何設(shè)定這類參數(shù),需要用戶反復(fù)測試摸索一些經(jīng)驗(yàn)值,并結(jié)合具體測試對象狀態(tài)(如粉末、籽粒、均勻液態(tài)、懸濁液等)而定.本文重點(diǎn)研究在傅立葉變換型光譜儀上設(shè)定不同的光譜分辨率對食用油近紅外定量模型性能的影響,探索對于食用油這類均勻液態(tài)物質(zhì)在作近紅外檢測時設(shè)定光譜分辨率的參考值.
60個植物油樣品,包括花生油、大豆油、橄欖油、芝麻油、葵花籽油、玉米胚芽油、芥花油等,均購自當(dāng)?shù)爻校?/p>
采用氣相色譜法測定60個食用油樣品中棕櫚酸含量.
VERTEX 70型紅外光譜儀,德國Bruker公司.采集樣品近紅外光譜,使用液體光纖探頭采樣方式,光程2 mm.儀器參數(shù)設(shè)定如下:波數(shù)范圍4 000~12 500 cm-1,每個樣品重復(fù)掃描次數(shù)32次.
一般要求儀器的分辨率比測量峰寬小1/10左右.樣品在近紅外區(qū)域的吸收多為寬峰且重疊嚴(yán)重,進(jìn)行定量分析時不要求高的儀器分辨率.在實(shí)際應(yīng)用中,通常16 cm-1或10 nm(在2 500 nm處)的分辨率就可滿足大部分分析對象的應(yīng)用要求.但對于結(jié)構(gòu)特征十分相近的復(fù)雜樣品(如農(nóng)產(chǎn)品等),要得到準(zhǔn)確的分析結(jié)果,就要對儀器的分辨率提出一定的要求,一般也不會超過4 cm-1[2].綜上所述,本實(shí)驗(yàn)設(shè)定分別在光譜分辨率為4,8,16 cm-1時掃描樣品,相應(yīng)地波長點(diǎn)個數(shù)分別為 4 407,2 203和1 102.顯然,分辨率設(shè)得越高,掃描速度越慢,掃描時間延長,而且圖譜所占的存儲空間增大.因此,在不影響圖譜質(zhì)量的前提下,分辨率可以不取太高.圖1為分辨率16 cm-1時樣本的近紅外譜集.
全部樣品未經(jīng)任何化學(xué)處理,將光纖探頭插入裝有樣品的小瓶中,逐一掃描樣品,每次測量前均用石油醚清洗探頭,避免樣品間交叉污染.
圖1 樣品集近紅外光譜圖Fig.1 Near-infrared spectroscopy of samples
實(shí)驗(yàn)中食用油棕櫚酸近紅外定量分析模型的建立采用近紅外分析的常規(guī)流程,包括:異常樣品剔除,校正集樣品選擇以及模型的建立與測試.近紅外校正模型的預(yù)測精度和穩(wěn)健性采用主成分?jǐn)?shù)(nf),決定系數(shù) R2,交叉校驗(yàn)標(biāo)準(zhǔn)差(root mean square error of cross validation,RMSECV),預(yù)測均方根誤差(root mean square error of prediction,RMSEP)指標(biāo)評價.
建立性能較好的近紅外模型,進(jìn)行異常樣品的剔除是非常必要的.這里采用蒙特卡洛采樣法進(jìn)行異常樣品的剔除[3],在MATLAB R2008a中實(shí)現(xiàn).圖2為在分辨率為4 cm-1,隨機(jī)采樣1 000次的條件下,各個樣本的預(yù)測均方根誤差(RMSEP)的統(tǒng)計(jì)信息(均值MEAN和標(biāo)準(zhǔn)偏差STD)的分布圖.設(shè)定均值為2,標(biāo)準(zhǔn)偏差為0.5的條件下可將圖2劃分成A、B、C、D 4個區(qū)域.
其中,A區(qū)域樣本的預(yù)測均方根誤差的均值和標(biāo)準(zhǔn)偏差較小,因此屬于正常樣本;B區(qū)域樣本預(yù)測均方根誤差的均值較大,屬于濃度異常樣本;C區(qū)域樣本的誤差均值和標(biāo)準(zhǔn)偏差較大,屬于異常樣本;D區(qū)域樣本的標(biāo)準(zhǔn)偏差較大,屬于光譜異常本.因此,BCD區(qū)域的樣本均可作為異常本剔除.光譜分辨率為4,8,16 cm-1時,采用蒙特卡洛法剔除異常樣本信息,如表1.從表中可以看出,除樣本5外,在不同分辨率條件下,剔除的異常樣本大部分都是不同的.因此這也從一個側(cè)面反映出在不同光譜分辨率條件下,樣本所含的光譜信息或者說光譜質(zhì)量是有明顯不同的.
圖2 60個樣本的RMSEP統(tǒng)計(jì)信息分布圖Fig.2 Statistical information distribution of 60 samples’RMSEP
表1 剔除異常樣本相關(guān)信息Tab.1 Related information of abnormal samples eliminated
Kennard-Stone法[4]將光譜差異較大的樣品選入校正集,而其余較相近的樣品進(jìn)入校驗(yàn)集,這樣可使有代表性的樣品全部進(jìn)入校正集,從而在一定程度上避免了校正集樣品分布的不均勻.將剔除異常樣本后的樣本集采用Kennard-Stone法劃分校正集和校驗(yàn)集,在MATLAB R2008a中實(shí)現(xiàn),結(jié)果如表2.表2中,經(jīng)過Kennard-Stone法劃分得到校正集的濃度范圍涵蓋了校驗(yàn)集的濃度范圍,因此校正集所建模型可用于校驗(yàn)集的預(yù)測.在不同分辨率條件下,基于光譜信息的Kennard-Stone法挑選出的校驗(yàn)集樣本明顯不同,因此可見相同樣本在不同分辨率下采集得到的光譜信息是有很大差異的.
表2 Kennard-Stone法劃分的樣本集信息Tab.2 Classification information of sample set by Kennard-Stone method
采用5折交叉校驗(yàn)的偏最小二乘回歸法(partial least squares regression method,PLS)建立食用油棕櫚酸的近紅外定量分析模型,并對校驗(yàn)集作預(yù)測.上述建模和預(yù)測方法均在MATLAB R2008a中實(shí)現(xiàn).結(jié)果如表3.從表中可看出,采用全譜建模時模型指標(biāo)不是很好,但是仍舊能得出分辨率為16 cm-1所建模型及預(yù)測結(jié)果遠(yuǎn)優(yōu)于8 cm-1和4 cm-1.
表3 5折-pls建模分析結(jié)果Tab.3 Modeling analysis results by 5 fold-pls
實(shí)驗(yàn)采用CARS(competitive adaptive reweighted sampling,CARS)[5]波長變量挑選方法對這 3 組樣品集進(jìn)行優(yōu)化建模,結(jié)果如表4.同樣可以得出相同的結(jié)論:在分辨率為16 cm-1所建模型的預(yù)測能力優(yōu)于8 cm-1和 4 cm-1所建模型.
表4 cars-pls建模分析結(jié)果Tab.4 Modeling analysis results by cras-pls
本實(shí)驗(yàn)中,對于食用油這類均勻液體做近紅外檢測,分析其常規(guī)指標(biāo)棕櫚酸時,在分辨率為16 cm-1時掃描樣品建模即可獲得較好的模型指標(biāo).實(shí)驗(yàn)表明,并非近紅外光譜分辨率越高,模型性能越好.因?yàn)楦盗⑷~變換性近紅外光譜儀的分辨率由動鏡移動距離決定,分辨率越高,掃描速度越慢,單位時間內(nèi)的信噪比也會降低[6].實(shí)驗(yàn)測試過程中,分辨率到底該如何設(shè)定,需視具體情況而定,如果是日??焖俜治觯直媛士梢暂^低,如果是為了研究,如建立標(biāo)準(zhǔn)光譜庫或需要細(xì)節(jié)的判別分析,則可適當(dāng)提高掃描光譜的分辨率.
本工作在Vertex 70光譜儀上,設(shè)定3種光譜分辨率(4,8,16 cm-1)分別采集60份食用油樣本的近紅外光譜,重點(diǎn)研究了不同光譜分辨率對食用油近紅外定量模型性能的影響.結(jié)果表明光譜分辨率的高低與模型性能之間并無絕對的關(guān)系,對于食用油這類均勻液態(tài)物質(zhì)中的常規(guī)組分作近紅外檢測時,光譜分辨率的參考值可首選16 cm-1.
[1]嚴(yán)衍祿,趙龍蓮,韓東海,等.近紅外光譜分析基礎(chǔ)與應(yīng)用[M].北京:中國輕工業(yè)出版社,2005:240-300.
[2]陸婉珍.現(xiàn)代近紅外光譜分析技術(shù)[M].2版.北京:中國石化出版社,2007:95-140.
[3]Cao Dongsheng,Liang Yizeng,Xu Qingsong,et al.Toward better QSAR/QSPR modeling:simultaneous outlier detection and variable selection using distribution of model features[J].Journal of Computer-Aided Molecular Design,2011(25):67-80.
[4]吳靜珠,王一鳴,張小超,等.近紅外光譜分析中定標(biāo)集樣品挑選方法研究[J].農(nóng)業(yè)機(jī)械學(xué)報(bào),2006,37(9):80-82.
[5]LI Hongdong,LIANG Yizeng,XU Qingsong,et al.Key wavelengths screening using competitive adaptive reweighted sampling method for multivariate calibration[J].Anal Chim Acta,2009,648(1):77-84.
[6]陸婉珍,袁洪福,褚小立.近紅外光譜儀器[M].北京:化學(xué)工業(yè)出版社,2010:107-114.
(責(zé)任編輯:王 寬)
Research on NIR Model of Edible Oil Impacted by Spectral Resolution Determination
WU Jing-zhu, LIU Cui-ling, XING Su-xia, SUN Mei
(School of Computer Science and Information Engineering,Beijing Technology and Business University,Beijing 100048,China)
There are some effects on near infrared analysis result caused by the type of near infrared spectrometer and working parameters settings.How the different spectral resolution on Fourier transform spectrometer impact quantitative NIR model of edible oil was discussed in this paper.The experiment collected near infrared spectrum of 60 edible oil samples using Vertex 70 spectrometer,in three kinds of spectral resolution(4,8,16 cm-1)conditions,by the transmission type liquid optical fiber probe.Monte Carlo sampling method was used to analysis three groups of near infrared spectral sample set and eliminate the abnormal samples.The calibration set and validation set were divided according to Kennard-Stone method.The quantitative models of palm acid were established,optimized and validated.Experiments shown that the model built based on 16 cm-1had better performance than 4 cm-1and 8 cm-1.The results can provided a reference spectral resolution while detecting uniform liquid by near infrared technology.
spectral resolution;near infrared spectroscopy;Monte Carlo sampling;edible oil
TS207.3
A
1671-1513(2012)01-0066-03
2011-10-28
北京市優(yōu)秀人才培養(yǎng)資助項(xiàng)目(20081D0500300130).
吳靜珠,女,副教授,博士,主要從事基于近紅外光譜的農(nóng)產(chǎn)品及食品檢測技術(shù)方面的研究.