蘇東斌,秦嘉檜,李開開*
1(中國人民公安大學(xué) 偵查學(xué)院,北京,100038)
2(中國人民公安大學(xué) 研究生院,北京,100038)
植物油是每日膳食攝入的必需成分,也是食品質(zhì)量安全的重要監(jiān)管對象。由于產(chǎn)量不同和營養(yǎng)價值不同,不同種類植物油的價格差異較大。因此針對植物油種類鑒別開展研究,不僅有利于在第一時間獲取相關(guān)線索信息,可以在涉植物油的案件中為公安機(jī)關(guān)提供偵查方向,而且也有助于提升監(jiān)督部門的植物油分析效率,具有重要意義及應(yīng)用價值[1]。
氣相色譜法[2-3]、液相色譜法[4-5]、質(zhì)譜法[6-7]和核磁共振波譜法[8-9]常被用于測定植物油中的脂肪酸、甘油三酯等成分。然而這些方法普遍存在分析過程繁瑣、耗費(fèi)時間長、對樣本具有破壞性的缺點(diǎn)。相比于以上分析方法,光譜分析法具有操作簡單、檢測速度快、樣品用量少等優(yōu)點(diǎn),被廣泛應(yīng)用于食品的檢測分析。目前采用紫外可見光譜法[10-11]、拉曼光譜法[12-13]、紅外光譜法[14]等對植物油的分析檢驗(yàn)已有報道。由于植物油的光譜具有極高相似性,僅通過目測光譜很難將其區(qū)分。機(jī)器學(xué)習(xí)方法與光譜分析的結(jié)合可以使油脂的分類識別率得到很大提升。VARGAS等[15]使用拉曼光譜儀對19種植物油和9種精油進(jìn)行了檢測,并通過線性判別分析達(dá)到了100%的分類準(zhǔn)確率。黃平捷等[16]在研究飲用水的有機(jī)污染物時,引入連續(xù)投影法(successive projections algorithm,SPA)處理紫外-可見光光譜。結(jié)果表明SPA可以有效地對有機(jī)污染物的紫外-可見光光譜進(jìn)行特征提取。聶黎行等[17]在剔除異常樣本后,應(yīng)用競爭性自適應(yīng)重加權(quán)法(competitive adaptive reweighted sampling,CARS)篩選相關(guān)變量,建立了偏最小二乘法(partial least squares,PLS)校正模型,為光譜的重疊問題提供了解決思路。
本文采用拉曼光譜結(jié)合機(jī)器學(xué)習(xí)對食用植物油進(jìn)行分類識別。采用拉曼光譜技術(shù),獲取六類常見的植物油光譜數(shù)據(jù),分別采用SPA和CARS提取各樣本的光譜數(shù)據(jù)特征,使用正交偏最小二乘判別法(orthogonal partial least squares-linear discriminant analysis,OPLS-DA)和基于網(wǎng)格搜索和交叉驗(yàn)證的支持向量機(jī)(support vector machine,SVM)對食用植物油種類以及品牌進(jìn)行分類識別。
共從市場上收集了六類(包括38個品牌)的植物油樣本,其品牌、編號等詳細(xì)信息如表1所示。
表1 植物油信息
共聚焦顯微拉曼成像光譜儀,德國WITec科學(xué)儀器公司。主要由半導(dǎo)體激光器單元、光譜儀、拉曼光學(xué)探頭、激發(fā)光纖、采集光纖、計(jì)算機(jī)、樣品池和數(shù)據(jù)處理系統(tǒng)組成。其基本參數(shù)如表2所示。
表2 儀器參數(shù)信息
基于拉曼光譜的食用植物油快速鑒別方法具體流程如圖1所示。主要包括:拉曼光譜獲取、光譜數(shù)據(jù)預(yù)處理、特征波長優(yōu)選與類別判斷等步驟。
圖1 光譜數(shù)據(jù)處理
1.3.1 光譜數(shù)據(jù)預(yù)處理
在實(shí)際測量過程中,光譜采集易受到放置環(huán)境及儀器狀態(tài)的影響。在分析光譜數(shù)據(jù)前使用光譜校正方法消除該因素引起的光譜變異是十分必要的。Savitzky-Golay算法和多元散射校正(multiplicative scatter correction,MSC)是多波段建模常用的數(shù)據(jù)處理方法,能夠在一定程度上消除光譜數(shù)據(jù)產(chǎn)生的基線漂移問題[18-19]。
1.3.2 拉曼光譜特征波長優(yōu)選
利用特征優(yōu)選算法對原始數(shù)據(jù)進(jìn)行優(yōu)選,可以選取少量的特征波長進(jìn)行分析,能夠從嚴(yán)重重疊的光譜信息中提取有效信息提高模型運(yùn)行效率。連續(xù)投影法是將各波長特征向量投影到其他特征波長上,以投影向量最大的波長作為待選的特征波長,然后根據(jù)迭代特征向量與待選變量個數(shù)回歸模型的均方根誤差(root mean squared error,RMSE)來確定候選特征數(shù)量[18]。它可以從嚴(yán)重重疊的光譜信息中提取有效信息,提高建模效率。競爭性自適應(yīng)重加權(quán)采樣法是一種結(jié)合蒙特卡洛采樣與PLS模型回歸系數(shù)的特征變量選擇方法。蒙特卡洛采樣法每次隨機(jī)從校正集中選擇一定數(shù)量的樣本進(jìn)行建模,剩余的樣本作為預(yù)測集。然后利用指數(shù)衰減函數(shù)去除回歸系數(shù)絕對值權(quán)重較小的波長[17]。在每次采樣時都會計(jì)算所選變量的交互驗(yàn)證均方根誤差(root mean square error of cross validation,RMSECV),利用交互驗(yàn)證選出RMSECV值最低的子集可有效尋出最優(yōu)變量組合。
1.3.3 植物油的分類研究
PLS能夠?qū)⒒貧w結(jié)果轉(zhuǎn)換為一組可用于預(yù)測因變量的中間線性潛在變量,具有降低噪音、特征提取、參數(shù)結(jié)構(gòu)簡單及穩(wěn)定性優(yōu)良等優(yōu)點(diǎn)。OPLS-DA是PLS的擴(kuò)展,利用正交信號校正的思想增強(qiáng)了PLS-DA的可解釋性,常用來處理分類和判別問題。支持向量機(jī)是利用區(qū)間最大化的原理尋找一個超平面分割樣本,最后將分類問題轉(zhuǎn)換為凸二次規(guī)劃問題來解決[19]。網(wǎng)格搜索(Grid Search)是一種窮舉方法的參數(shù)調(diào)優(yōu)手段,可以保證所得的搜索解是劃定網(wǎng)格中的全局最優(yōu)解,避免出現(xiàn)重大誤差。
為讓被評估的模型更加準(zhǔn)確可信,本研究在網(wǎng)格搜索中應(yīng)用K-fold交叉驗(yàn)證法對每組參數(shù)的性能進(jìn)行綜合評價?;赑ython選擇線性核(linear kernel)、多項(xiàng)式核(polynomial kernel)以及徑向基函數(shù)核(radial basis function kernel,RBF),采用十折交叉驗(yàn)證法進(jìn)行參數(shù)尋優(yōu)。分別建立SVM分類模型對植物油的種類和品牌進(jìn)行分類。參數(shù)網(wǎng)格范圍設(shè)定見表3。
表3 不同核函數(shù)的參數(shù)設(shè)定范圍
植物油的原始光譜以及經(jīng)過Savitzky-Golay平滑、MSC、Savitzky-Golay+MSC預(yù)處理后的光譜如圖2所示。對原始光譜進(jìn)行平滑、MSC不僅能夠增強(qiáng)光譜的吸收特性,還可以減少光譜曲線的離散性。
a-原始光譜;b-Savitzky-Golay平滑;c-多元散射校正;d-Savitzky-Golay平滑+多元散射校正
2.2.1 SPA特征波長優(yōu)選結(jié)果
在298~3 300 cm-1的拉曼位移范圍內(nèi),每一個光譜樣本共采集779個數(shù)據(jù)點(diǎn)。隨著迭代次數(shù)的增加,SPA模型中所包含的特征變量數(shù)量逐漸增加。RMSE隨變量個數(shù)變化以及光譜特征提取結(jié)果如圖3所示。最終通過SPA模型的建立與提取,所得到的特征波長共計(jì)249個。
圖3 SPA光譜變量篩選
2.2.2 CARS特征波長優(yōu)選結(jié)果
利用CARS算法采用十折交叉驗(yàn)證,最大迭代次數(shù)為50次。光譜特征波長優(yōu)選過程如圖4所示。由圖4可知,被選擇的特征波長數(shù)量隨著迭代數(shù)量次數(shù)的增加而減少。在迭代次數(shù)為13時,RMSECV值達(dá)到最小,所得到的特征波長共計(jì)146個。
圖4 CARS光譜變量篩選
2.3.1 樣本異常值排除
使用Kennard-Stone方法將光譜數(shù)據(jù)集中70%樣本劃分為訓(xùn)練集(385個光譜),其余為驗(yàn)證集(166個光譜)。圖5和圖6分別表示以經(jīng)過SPA和CARS特征波長優(yōu)選后的訓(xùn)練集數(shù)據(jù)的二維OPLS-DA得分圖、DModX(distance to the model X)檢驗(yàn)圖、Hotelling′sT2檢驗(yàn)圖和置換檢驗(yàn)結(jié)果圖。
a-偏最小二乘判別分析得分圖;b-DModX檢驗(yàn)結(jié)果;c-Hotelling′s T2檢驗(yàn)結(jié)果;d-置換檢驗(yàn)結(jié)果
對于已知真實(shí)分類的數(shù)據(jù)集,得分圖可以顯示訓(xùn)練集樣本中可能存在的異常值。根據(jù)變量分?jǐn)?shù),通過HotellingT2檢驗(yàn)繪制95%置信橢圓,通常認(rèn)為距離橢圓較遠(yuǎn)的樣本觀測值可能是異常值。而DModX統(tǒng)計(jì)量指的是給定樣本觀測值與模型平面的距離,同樣可以反映樣本偏離模型的程度。Dcrit值是由F分布計(jì)算的DModX臨界值。當(dāng)樣本DModX值為Dcrit兩倍時可認(rèn)定其屬于中等異常值。將HotellingT2與DModX兩種統(tǒng)計(jì)量相互結(jié)合、綜合分析,訓(xùn)練集中被排除于建模外的樣本匯總于表4。
表4 建模時被排除的樣本
2.3.2 置換檢驗(yàn)
置換檢驗(yàn)是將樣本觀測值的順序隨機(jī)排列,而變量矩陣順序保持不變,可以用于評估當(dāng)前模型是否過擬合。置換檢驗(yàn)的結(jié)果分別如圖5-d、圖6-d所示。橫坐標(biāo)表示置換模型中觀測值與原始模型觀測值的相關(guān)性,橫坐標(biāo)最大值為原始模型與其自身相關(guān)性。將原始模型的擬合度(由R2和Q2表示)與數(shù)據(jù)置換后模型的擬合度進(jìn)行比較,原始OPLS-DA模型的R2和Q2值(最右側(cè))均大于置換模型中所有R2和Q2值,同時Q2點(diǎn)回歸線的縱截距低于零點(diǎn)。這表明原始模型沒有過度擬合,對新樣本具有較好的預(yù)測能力。
a-偏最小二乘判別分析得分圖;b-DModX檢驗(yàn)結(jié)果;c-Hotelling′s T2檢驗(yàn)結(jié)果;d-置換檢驗(yàn)結(jié)果
2.3.3 OPLS-DA分析結(jié)果
根據(jù)原始波長數(shù)據(jù)以及提取波長分別建立OPLS-DA模型,測試集樣本的分類識別結(jié)果如圖7所示。
a-OPLS-DA分類結(jié)果;b-SPA-OPLS-DA分類結(jié)果;c-CARS-OPLS-DA分類結(jié)果
由圖7可知,根據(jù)原始光譜數(shù)據(jù)建立的OPLS-DA模型對各樣本預(yù)測識別總體準(zhǔn)確率為89.76%。模型對椰子油的種類預(yù)測正確率達(dá)到100%;對花生油的種類預(yù)測錯誤最多,正確率為78.95%。相比于原始光譜數(shù)據(jù)建立的OPLS-DA模型,基于SPA和CARS改進(jìn)OPLS-DA對各樣本預(yù)測識別的總體準(zhǔn)確率稍有下降,分別為82.53%、83.13%。
特征波長優(yōu)選算法的優(yōu)勢在于減少建立分類模型所需的變量數(shù)目,通過使用少量變量使得建立模型所需計(jì)算資源極大降低。對于二分類問題或者類別較少的多分類問題,特征波長優(yōu)選導(dǎo)致的部分信息丟失對模型預(yù)測能力的影響小于變量間共線性的影響,最終使得模型預(yù)測能力得到提升。然而本研究結(jié)果顯示波長優(yōu)選導(dǎo)致模型預(yù)測正確率有所下降。選取少量光譜波長代替全光譜,不可避免地會導(dǎo)致信息丟失。對于類別較多的多分類問題,特別是樣本類別區(qū)分度較低的多分類問題,信息丟失對于預(yù)測結(jié)果影響較大。因而基于SPA和CARS改進(jìn)OPLS-DA模型的預(yù)測正確率均低于全光譜模型。
表5為各方法模型的參數(shù)尋優(yōu)結(jié)果。線性核是最簡單的核函數(shù),具有參數(shù)少、操作簡單、計(jì)算方便的優(yōu)勢,但只能用于解決線性可分問題,在相似樣本的多分類問題中表現(xiàn)不佳。而徑向基函數(shù)核在三類模型中均有良好表現(xiàn)。
表5 模型的參數(shù)尋優(yōu)結(jié)果
根據(jù)三類模型的最佳參數(shù)組合,以70%數(shù)據(jù)集作為訓(xùn)練集,30%數(shù)據(jù)集作為測試集分別建立SVM模型。SPA+SVM、CARS+SVM以及全光譜SVM模型的測試集預(yù)測結(jié)果如圖8所示。三類模型的測試集正確率均為100%,運(yùn)算時間分別為9.699、9.001、14.481 s。根據(jù)CARS建立的植物油類別模型的預(yù)測能力與根據(jù)SPA算法所建立的模型沒有明顯差異。運(yùn)算時間與模型所包含變量數(shù)量相關(guān),全光譜SVM模型包含變量數(shù)最多,因而其所需運(yùn)算時間也最長。
a-SPA+SVM預(yù)測結(jié)果;b-CARS+SVM預(yù)測結(jié)果;c-全光譜SVM預(yù)測結(jié)果
在植物油種類預(yù)測中,CARS+SVM達(dá)到100%的測試集正確率且所需運(yùn)算時間最短。因此在原有光譜預(yù)處理的基礎(chǔ)上利用CARS-SVM模型對同一類別的植物油進(jìn)行品牌分類。按照7∶3的比例采用五折交叉驗(yàn)證法進(jìn)行訓(xùn)練和驗(yàn)證,最終得到植物油同一類別中不同品牌樣本預(yù)測正確率如圖9所示。不同種類植物油的SVM模型的參數(shù)尋優(yōu)結(jié)果如表6所示。
a-玉米油預(yù)測結(jié)果;b-橄欖油預(yù)測結(jié)果;c-椰子油預(yù)測結(jié)果;d-花生油預(yù)測結(jié)果;e-葵花籽油預(yù)測結(jié)果;f-芝麻油預(yù)測結(jié)果
CARS-SVM模型對玉米油、橄欖油、葵花籽油和芝麻油的品牌分類識別的效果最佳,測試集正確率均達(dá)到100%;對椰子油和花生油品牌分類識別的準(zhǔn)確率較差,測試集正確率分別為22.22%、63.64%。不同種類植物油的正確率差異可能與植物油原材料相關(guān)。本研究所使用的椰子油,除品牌5(椰來香SUPERCOCO)外,其余椰子油產(chǎn)地均為海南省,所用原料也全部產(chǎn)于海南省。不同產(chǎn)品所使用的制作工藝和原材料的高相似度使得SVM模型無法很好地將椰子油按照產(chǎn)品品牌分類。
采集多個植物油的拉曼光譜數(shù)據(jù),采用連續(xù)投影算法和競爭性自適應(yīng)重加權(quán)算法分別優(yōu)選光譜波段,建立了OPLS-DA和SVM分類模型并與全光譜數(shù)據(jù)所建立模型進(jìn)行對比。SPA-OPLS-DA和CARS-OPLS-DA的測試集總體正確率分別為82.53%、83.13%均低于全光譜數(shù)據(jù)建立的OPLS-DA模型。SPA-SVM和CARS-SVM的測試集正確率均可達(dá)到100%。CARS-SVM模型對玉米油、橄欖油、葵花籽油和芝麻油的品牌分類識別的效果最佳,對椰子油和花生油品牌分類識別的準(zhǔn)確率較差。
a)在植物油種類識別中,SPA和CARS都可以作為特征提取的處理方式,對模型測試集正確率無顯著差異。特征波長優(yōu)選算法可以極大減少建立分類模型所需的變量數(shù)目,減少光譜變量之間的共線性影響,使得建立模型所需計(jì)算資源極大降低。但同時通過算法選取特征波長,以少量光譜數(shù)據(jù)代替全光譜數(shù)據(jù),不可避免地會導(dǎo)致部分信息丟失,可能會導(dǎo)致模型識別正確率下降。
b)在解決樣本類別區(qū)分度較低的多分類問題時,支持向量機(jī)優(yōu)于正交偏最小二乘判別模型。SVM以引入核函數(shù)的方法可以更好地解決線性不可分問題。CARS-SVM模型對植物油分類識別效率高,為植物油的無損快速檢驗(yàn)提供一定的參考與借鑒。在依據(jù)品牌對各種類植物油進(jìn)行分類時,玉米油、橄欖油、葵花籽油和芝麻油的品牌分類識別的效果最好,椰子油和花生油的分類正確率較低。原因可能與生產(chǎn)商的生產(chǎn)工藝以及原料來源相關(guān)。對于進(jìn)一步研究,深入調(diào)查各生產(chǎn)商的原料來源以及生產(chǎn)工藝的必不可少的。