孫 通,魏小梅,胡 田,許文麗,劉木華,*
(1.江西農(nóng)業(yè)大學(xué)生物光電技術(shù)及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江西南昌 330045;2.南昌市青山湖區(qū)食品化妝品監(jiān)督所,江西南昌 330029)
可見/近紅外結(jié)合MIA變量優(yōu)選和支持向量機(jī)判別山茶油的制取方式
孫 通1,魏小梅2,胡 田1,許文麗1,劉木華1,*
(1.江西農(nóng)業(yè)大學(xué)生物光電技術(shù)及應(yīng)用重點(diǎn)實(shí)驗(yàn)室,江西南昌 330045;2.南昌市青山湖區(qū)食品化妝品監(jiān)督所,江西南昌 330029)
山茶油的主要制取方式有壓榨法和浸出法,且壓榨山茶油的品質(zhì)優(yōu)于浸出法。本研究利用可見/近紅外光譜技術(shù)結(jié)合化學(xué)計(jì)量學(xué)對山茶油的制取方式進(jìn)行判別研究。采集不同制取方式的山茶油樣本在350~1800nm波段范圍的可見/近紅外光譜,利用邊界影響分析(margin influence analysis,MIA)新方法進(jìn)行波長變量優(yōu)選,并應(yīng)用支持向量機(jī)(support vector machines,SVM)對優(yōu)選的波長變量建立山茶油制取方式的判別分類模型。結(jié)果表明:可見/近紅外光譜聯(lián)合MIA-SVM方法判別山茶油的制取方式是可行的,其校正集和預(yù)測集樣本的靈敏度、特異性及正確率分別為100%、87.50%、93.75和100%、87.50%、93.75%。說明MIA是一種有效的波長變量選擇方法,能簡化分類模型,提高分類模型的穩(wěn)定性和預(yù)測精度。
可見/近紅外,邊界影響分析,支持向量機(jī),制取方式判別,山茶油
山茶油是我國特有的優(yōu)質(zhì)食用植物油,享有“油王”、“油中珍品”及“東方橄欖油”的美譽(yù)[1]。山茶油的主要制取方式有壓榨法和浸出法。壓榨法出油率低,但能保持原料的原有風(fēng)味和營養(yǎng)成分;浸出法則出油率高,但會破壞油脂的部分天然成分且有溶劑殘留。目前,大多油脂企業(yè)均采用先壓榨后浸出的方式制取山茶油,即先對山茶籽進(jìn)行壓榨獲得壓榨山茶油,再對壓榨后的油餅利用浸出法進(jìn)行充分提取,提高出油率。因此,與浸出山茶油相比,壓榨山茶油的品質(zhì)更優(yōu)且售價高。為了牟取暴利,一些不法商人將浸出山茶油摻入壓榨山茶油或直接作為壓榨山茶油出售,嚴(yán)重?fù)p害消費(fèi)者的利益。因此,非常有必要對山茶油的制取方式進(jìn)行判別研究。
可見/近紅外光譜技術(shù)是一種快速、無損、綠色的現(xiàn)代分析技術(shù)。目前,該技術(shù)已用于果蔬[2]、葡萄酒[3]、茶葉[4]、奶粉[5]、蜂蜜[6]、卷煙[7]等品種判別或真?zhèn)闻袆e。對于山茶油的摻假檢測及真?zhèn)闻袆e,國內(nèi)外僅有少部分學(xué)者進(jìn)行了一些研究[8-10],但尚未有山茶油制取方式的判別研究。本研究利用可見/近紅外光譜技術(shù)對山茶油的制取方式進(jìn)行判別研究。采用邊界影 響 分 析(margin influence analysis,MIA)變 量 選 擇新方法對光譜波長變量進(jìn)行優(yōu)選,然后應(yīng)用支持向量機(jī)(support vector machines,SVM)方法建立山茶油制取方式的判別分類模型。最后,利用未參與建模的預(yù)測集樣本對判別分類模型性能進(jìn)行評價。
1.1 材料與儀器
本研究采用的山茶油樣本 共有80個,壓榨和浸出方式制取的山茶油樣本各有40個;山茶油樣本 由江西各地區(qū)出入境檢驗(yàn)檢疫局收集提供,各樣本均為獨(dú)立樣本。
QualitySpec型可見/近紅外光譜儀 ASD公司,美國,配有低噪聲512陣元PDA探測器(350~1000nm)和InGaAs探測器(1000~1800nm),光譜采樣間隔為1nm;High Intensity Contact Probe鹵鎢燈光源 ASD公司,美國,色溫為2627.85℃,功率為6.5W。
1.2 實(shí)驗(yàn)方法
1.2.1 樣本分配及光譜采集 將樣本按照3∶2比例隨機(jī)分配到校正集和預(yù)測集。校正集樣本為48個,壓榨和浸出方式制取的山茶油樣本各有24個,用于建立判別分類模型;預(yù)測集樣本為32個,壓榨和浸出方式制取的山茶油樣本各有16個,用于評價判別分類模型性能。
將不同制取方式的山茶油樣本置于1cm的比色皿中,樣本光譜采集參數(shù)設(shè)置如下:光譜掃描時間為34ms,掃描次數(shù)為10次。每個山茶油樣本采集3次光譜,取平均光譜用于后續(xù)的分析。
1.2.2 光 譜 預(yù) 處 理 采 用 多 元 散 射 校 正(multiple scatter correction,MSC)、標(biāo)準(zhǔn)正態(tài)變量變換(standard normal variate,SNV)、一階微分及二階微分方法對樣本光譜進(jìn)行預(yù)處理,分析不同光譜預(yù)處理方法對判別分類模型性能的影響,并確定較優(yōu)的光譜預(yù)處理方 法 。 光 譜 預(yù) 處 理 分 析 在Unscrambler X 10.1 軟 件(CAMO公司,挪威)里運(yùn)行完成。
1.2.3 MIA變量選擇 MIA是一種基于模型集群分析(model population analysis,MPA)思想的新變量選擇方法。MIA通過建立一系列的支持向量機(jī)(support vector machines,SVM)分類模型,并對SVM分類模型的邊界進(jìn)行統(tǒng)計(jì)分析,邊界越大則SVM模型性能越好,某變量能使SVM分類模型的邊界增大,表明該變量可能包含有用信息。MIA的基本步驟如下:a.通過蒙特卡羅抽樣獲得N個數(shù)據(jù)子集;b.對N個數(shù)據(jù)子集分別建立N個SVM分類模型;c.對N個SVM分類模型的邊界進(jìn)行統(tǒng)計(jì)分析,以變量i為例,分別統(tǒng)計(jì)包含變量i和不包含變量i的SVM分類模型的邊界平均值,分別記為Imeani和Emeani,Imeani<Emeani的變量被認(rèn)為對模型無貢獻(xiàn)被剔除;d.對剩余的變量進(jìn)行Mann-Whitney U和Holm-Bonferroni檢驗(yàn),將變量的p值與設(shè)定的閾值相比較,p值小于設(shè)定閾值的變量為有用信息變量。MIA的具體算法原理參見文獻(xiàn)[11-12]。本研究中,MIA變量選擇的參數(shù)設(shè)置如下:蒙特卡羅抽樣次數(shù)為10000,SVM懲罰因子為1,蒙特卡羅抽樣變量數(shù)為38,顯著水平為0.05。MIA變量選擇分析在MATLAB 7.6.0(The Math Works,美國)里運(yùn)行完成。
1.2.4 SVM 經(jīng)MIA變量優(yōu)選后,采用SVM方法建立山茶油制取方式的判別分類模型。本研究中,壓榨制取方式的類別值為1,浸出制取方式的類別值為-1。SVM方法的參數(shù)設(shè)置如下:核函數(shù)為線性,懲罰因子為1。SVM分析[13]在MATLAB 7.6.0(The Math Works,美國)里運(yùn)行完成。
山茶油制取方式的判別分類模型性能由靈敏度、特異性及正確率等指標(biāo)評價。靈敏度為壓榨制取方式的山茶油樣本中正確判別為壓榨制取方式的山茶油樣本的比率,特異性為浸出制取方式的山茶油樣本中正確判別為浸出制取方式的山茶油樣本的比率。
2.1 光譜預(yù)處理分析
圖1為壓榨和浸出制取方式的山茶油樣本的可見/近紅外光譜。從圖1可以看出,所有山茶油樣本的光譜均非常接近,肉眼難以區(qū)分差別,需要采用化學(xué)計(jì)量學(xué)方法提取有用信號。圖1中,光譜在1000~1800nm波段范圍內(nèi)存在明顯的波峰和波谷,而在350~1000nm波段范圍內(nèi)較為平坦。光譜在兩端存在一些噪聲,為了減弱噪聲的影響,后續(xù)的分析在500~1780nm波段范圍內(nèi)進(jìn)行,該波段范圍內(nèi)共有1281個波長變量。
圖1 壓榨和浸出制取方式的山茶油樣本的可見/近紅外光譜Fig.1 Vis/NIR spectra of pressed and extracted camellia oil samples
為了研究光譜預(yù)處理方法對判別分類模型性能的影響,采用不同的光譜預(yù)處理方法對校正集樣本光譜進(jìn)行預(yù)處理,并應(yīng)用SVM交叉驗(yàn)證建立判別分類模型。表1為不同光譜預(yù)處理的山茶油制取方式的SVM交叉驗(yàn)證判別分類模型結(jié)果。從表1可以看出,SVM結(jié)合MSC光譜預(yù)處理所建立的判別分類模型性能最優(yōu),SNV及一階微分預(yù)處理方法次之,而二階微分和原始光譜最差。最優(yōu)分類模型的靈敏度、特異性及正確率分別為100%、87.5%和93.75%。因此,后續(xù)的數(shù)據(jù)分析將在MSC預(yù)處理后的樣本光譜上進(jìn)行。
表1 不同光譜預(yù)處理的山茶油制取方式的SVM交叉驗(yàn)證分類模型結(jié)果Table 1 Results of cross validation SVM for produce method of camellia oils at different pretreatment methods
2.2 MIA變量選擇
采用MIA變量選擇方法對MSC預(yù)處理后的校正集樣本光譜進(jìn)行變量選擇。對10000個SVM分類模型的邊界進(jìn)行統(tǒng)計(jì)分析,分別統(tǒng)計(jì)包含變量i和不包含變量i的SVM分類模型的邊界平均值,若包含變量i后使得邊界平均值下降則認(rèn)為該變量為無用信息變量。圖2為1779nm和593nm波長變量的邊界分布。從圖2(a)可以看出,對于1779nm波長變量,包含1779nm波長變量的SVM分類模型的邊界分布處于右邊,而不包含1779nm波長變量的SVM分類模型的邊界分布處于左邊,即包含1779nm波長變量的SVM分類模型的邊界平均值大于不包含1779nm波長變量的SVM分類模型的邊界平均值,表明1779nm波長變量可能為有用信息變量。從圖2(b)可知,對于593nm波長變量,包含593nm波長變量的SVM分類模型的邊界平均值小于不包含593nm波長變量的SVM分類模型的邊界平均值,表明593nm波長變量為無用信息變量,需要被剔除。對于500~1780nm波段范圍內(nèi)的1281個波長變量,經(jīng)統(tǒng)計(jì)發(fā)現(xiàn)共有1073個波長變量使得SVM分類模型的分界下降,此類波長變量均被作為無用信息變量而剔除,共剩余208個波長變量。
對剩余的208個波長變量進(jìn)行Mann-Whitney U和Holm-Bonferroni檢驗(yàn),并將每個波長變量計(jì)算獲得的p值與設(shè)定的閾值(p=0.05)進(jìn)行比較,p值小于設(shè)定的閾值的波長變量作為有用信息變量而保留。經(jīng)計(jì)算,共有100個波長變量被保留。圖3為被保留的有用信息波長變量的分布。
圖2 1779nm和593nm波長變量的邊界分布Fig.2 Margin distributions of two wavelength variables of 1779nm and 593nm
圖3 MIA方法選擇的波長變量的分布Fig.3 Distribution of wavelength variables selected by MIA method
2.3 模型建立及預(yù)測
采用SVM方法對優(yōu)選后的波長變量建立判別分類模型,對校正集和預(yù)測集樣本進(jìn)行預(yù)測,并與常用的分類方法結(jié)果進(jìn)行比較。從表2可以看出,經(jīng)MIA變量優(yōu)選后建立的SVM判別分類模型對校正集和預(yù)測集樣本的預(yù)測結(jié)果相近,校正集和預(yù)測集樣本的靈敏度、特異性及正確率分別為100%、87.5%、93.75和100%、87.5%、93.75,分類模型性能較為穩(wěn)定。由此表明,可見/近紅外光譜結(jié)合MIA-SVM方法可以用于山茶油制取方式的判別。
此外,全光譜建立的SVM判別分類模型對校正集和預(yù)測集樣本的預(yù)測結(jié)果相差較大,校正集預(yù)測結(jié)果明顯優(yōu)于預(yù)測集,判別分類模型可能由于波長變量過多而存在過擬合。與全光譜的SVM判別分類模型相比,MIA-SVM判別分類模型的穩(wěn)定性及預(yù)測精度均有所提高。與UVE-SVM及PCA-SIMCA判別分類模型相比,MIA-SVM判別分類模型的預(yù)測結(jié)果略優(yōu)。由此可見,MIA是一種有效的波長變量選擇方法,能簡化分類模型,提高分類模型的穩(wěn)定性和預(yù)測精度。圖4為MIA-SVM判別分類模型對預(yù)測集樣本的預(yù)測結(jié)果。X軸為樣本的真實(shí)類別值,Y軸為樣本的預(yù)測類別值。當(dāng)預(yù)測類別值處于0以下時,樣本則歸類于浸出山茶油(類別值為-1),反之歸類于壓榨山茶油(類別值為1)。
表2 校正集和預(yù)測集樣本的SVM判別分類模型的預(yù)測結(jié)果Table 2 Predicted results of SVM classification models for calibration and prediction sets
圖4 MIA-SVM判別分類模型的預(yù)測集樣本的預(yù)測結(jié)果Fig.4 Predicted results of samples in prediction set by MIA-SVM
本研究利用可見/近紅外光譜聯(lián)合MIA-SVM方法對山茶油的制取方式進(jìn)行判別研究。研究結(jié)果表明,可見/近紅外光譜聯(lián)合MIA-SVM方法判別山茶油的制取方式是可行的,其校正集和預(yù)測集樣本的靈敏度、特異性及正確率分別為100%、87.50%、93.75和100%、87.50%、93.75%。說明MIA是一種有效的波長變量選擇方法,能簡化分類模型,提高分類模型的穩(wěn)定性和預(yù)測精度。
[1]梁雨祥. 試談我國油茶和優(yōu)質(zhì)山茶油的產(chǎn)業(yè) 化開發(fā)[J]. 宏觀經(jīng)濟(jì)研究,2006(1):25-27.
[2]楊冬風(fēng),朱洪德.基于近紅外透射光譜分析和BP 神經(jīng)網(wǎng)絡(luò)的大豆品種識別[J]. 大豆科學(xué),2013,32(2):249-253.
[3]郭海霞,王濤,劉洋,等.基于可見-近紅外光譜技術(shù)的葡萄酒真?zhèn)舞b別的研究[J].光譜學(xué)與光譜分析,2011,31(12):3269-3272.
[4]周健,成浩,葉陽,等.基于近紅外的Fisher分類法識別茶葉原料品種的研究[J]. 光學(xué)學(xué)報,2009,29(4):1117-1120.
[5]Wu D,F(xiàn)eng S,He Y.Short-wave near-infrared spectroscopy of milk powder for brand identification and component analysis [J].Journal of Dairy Science,2008,91(3):939-949.
[6]Chen LZ,Xue XF,Ye ZH,et al.Determination of Chinese honey adulterated with high fructose corn syrup by near infrared spectroscopy[J].Food Chemistry,2011,128(4):1110-1114.
[7]Moreiraa EDT,Pontesa MJC,Galv?ob RKH,et al.Near infrared reflectance spectrometry classification of cigarettes using the successive projections algorithm for variable selection[J].Talanta,2009,79(5):1260-1264.
[8]Wang L,Lee FSC,Wang X,et al.Feasibility study of quantifying and discriminating soybean oil adulteration in camellia oils by attenuated total reflectance MIR and fiber optic diffuse reflectance NIR[J].Food Chemistry,2006,95:529-536.
[9]張菊華,朱向榮,尚雪波,等.近紅外光譜結(jié)合偏最小二乘法用于油茶籽油中摻雜菜籽油和大豆油的定量分析[J]. 食品工業(yè)科技,2012,33(3):334-336.
[10]Li S,Zhu X,Zhang J,et al.Authentication of pure camellia oil by using near infrared spectroscopy and pattern recognition techniques[J].Journal of Food Science,2012,77(4):C374-C380.
[11]Li H,Liang Y,Xu Q,et al.Recipe for uncovering predictive genes using support vector machines based on model population analysis[J].Transactions on Computational Biology and Bioinformatics,2011,8(6):1633-1641.
[12]Li H,Liang Y,Xu Q,et al.Model population analysis for variable selection[J].Journal of Chemometrics,2010,24(7-8):418-423.
[13]Chang CC,Lin CJ.LIBSVM:a library for support vector machines[J].Transactions on Intelligent Systems and Technology,2011,2(3):27.
Discrimination of extraction method of camellia oil by Vis/NIR spectra and MIA-SVM
SUN Tong1,WEI Xiao-mei2,HU Tian1,XU Wen-li1,LIU Mu-hua1,*
(1.Optics-Electronics Application of Biomaterials Lab,Jiangxi Agricultural University,Nanchang 330045,China;2.Food Cosmetics Supervision Institute,Nanchang 330029,China)
The main ways of camellia oil production are pressing and extraction,and the quality of pressed camellia oil is superior to extracted camellia oil.The objective of this research was to discriminate extraction method of camellia oil by visible/near infrared ( Vis/NIR ) spectroscopy.Spectra of camellia oil samples extracted by different methods were acquired in the wavelength range of 350~1800nm.Margin influence analysis (MIA) was used to select sensitive wavelength variables , then support vector machines ( SVM ) was used to develop classification model for extraction method of camellia oil using the selected wavelength variables.The results indicate that Vis/NIR spectra combined with MIA-SVM method is feasible for discriminating extraction method of camellia oil,the sensitivity,specificity and accuracy of classification model for samples in calibration and prediction sets are 100%,87.50%,93.75%and 100%,87.50%,93.75%,respectively.This demonstrates that MIA was an effective variable selection method,it could simplify classification model,improved stability and prediction accuracy of classification model.
Visible/near infrared ; margin influence analysis ; support vector machines ; extraction method discrimination;camellia oil
TS227
A
1002-0306(2014)20-0062-04
10.13386/j.issn1002-0306.2014.20.004
2014-01-02
孫通(1983-),男,博士,講師,研究方向:農(nóng)產(chǎn)品/食品品質(zhì)與安全的無損檢測。
* 通訊作者:劉木華(1969-),男,博士,教授,主要從事農(nóng)產(chǎn)品、食品質(zhì)量光學(xué)無損檢測方面的研究。
國家自然科學(xué)基金(31271612);江西省自然科學(xué)基金(20132BAB214010);江西省教育廳科學(xué)研究基金(GJJ13254);江西農(nóng)業(yè)大學(xué)科學(xué)研究基金(QN201105)。