郭文川 朱德寬 張 乾 杜榮宇
(1.西北農(nóng)林科技大學(xué)機(jī)械與電子工程學(xué)院, 陜西楊凌 712100; 2.農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)物聯(lián)網(wǎng)重點(diǎn)實(shí)驗(yàn)室, 陜西楊凌 712100)
油茶籽油富含油酸、亞油酸、亞麻酸等不飽和脂肪酸[1],其脂肪酸組成與橄欖油相似[2]。油茶籽油的優(yōu)良品質(zhì)使其市場銷售價(jià)格是普通植物油的5~10倍。隨著人們身體健康意識的增強(qiáng),油茶籽油的市場需求量也逐漸增大。一些不法經(jīng)營者為了謀取高額利潤,向油茶籽油中摻入廉價(jià)的普通植物油,嚴(yán)重?fù)p害了消費(fèi)者與合法經(jīng)營者的正當(dāng)權(quán)益。
目前,用于檢測食用油品質(zhì)的方法主要有氣相色譜[3]、液相色譜[4]、低場核磁共振[5]、激發(fā)矩陣熒光光譜[6]、電子鼻[7]等方法。這些方法需要使用大型昂貴的分析儀器或大量的化學(xué)試劑,因而整個檢測過程費(fèi)時(shí)、繁瑣,且成本較高,無法滿足快速鑒別摻偽油茶籽油的要求。近紅外光譜分析技術(shù)是一種無損、快速、高效且無污染的現(xiàn)代分析技術(shù),已廣泛應(yīng)用于多種領(lǐng)域[8-13]。
目前,在應(yīng)用近紅外光譜技術(shù)檢測摻偽油茶籽油方面已有一些研究報(bào)道[14-16]。但現(xiàn)有研究的樣本量偏少,而且大多是直接利用全光譜數(shù)據(jù)建?;?qū)⑽辗甯浇墓庾V作為輸入變量。直接利用全光譜數(shù)據(jù)建模使得模型輸入變量多、模型復(fù)雜,易出現(xiàn)過擬合的現(xiàn)象,同時(shí)無關(guān)信息的引入有可能降低模型的精度,且不利于經(jīng)濟(jì)實(shí)用的檢測儀開發(fā)。而直接以油茶籽油光譜吸收峰的位置作為建模變量,則有可能忽略其他光譜處對建模有用的信息[17]。為了開發(fā)便攜式摻偽油茶籽油檢測儀,有必要提取對摻偽油茶籽油敏感的特征波長,并分析其對建模效果的影響。本文以多個產(chǎn)地生產(chǎn)的油茶籽油、玉米油、花生油、菜籽油和大豆油為對象,制備摻偽油茶籽油,采用不同方法從全光譜數(shù)據(jù)中提取對摻偽油茶籽油敏感的特征波長,并基于全光譜數(shù)據(jù)和提取的特征波長建立識別摻偽油茶籽油的判別模型,對模型的綜合性能進(jìn)行分析,以期為基于多光譜技術(shù)的摻偽油茶籽油檢測儀的研發(fā)提供基礎(chǔ)數(shù)據(jù)。
1.1.1試驗(yàn)樣本
試驗(yàn)所用油茶籽油樣品共5個,產(chǎn)地分別為江西省吉安市、江西省玉山市、湖南省永州市祁陽縣、浙江省杭州市和廣西壯族自治區(qū)河池市巴馬瑤族自治縣。用作摻偽的植物油為玉米油、花生油、菜籽油和大豆油,每類植物油均來自3個不同產(chǎn)地。故用于摻偽的植物油樣品共計(jì)12個。試驗(yàn)所用油均購于西安市某大型超市,所購置的油茶籽油均符合GB/T 11765—2018。試驗(yàn)期間,所有樣品均在保質(zhì)期內(nèi)。
制備樣品時(shí),向每個約20 g油茶籽油樣品中按摻偽質(zhì)量分?jǐn)?shù)為1%、3%、6%、10%、15%和20%的梯度摻入12個用于摻偽的植物油樣品,共得到360個摻偽油茶籽油樣品。
為了增加純油茶籽油樣本量以保證后續(xù)試驗(yàn)所建模型具有普遍性,按質(zhì)量分?jǐn)?shù)0~90%間以10%為梯度將5個純油茶籽油樣品兩兩混合,共得到95個不同的純油茶籽油樣品。
1.1.2試驗(yàn)儀器及軟件
FA2004型電子天平(上海舜宇恒平科學(xué)儀器有限公司,精度0.1 mg);MPA型傅里葉變換近紅外光譜儀(德國Bruker公司,配備積分球漫反射附件,波長范圍為833~2 500 nm)。
由MPA型傅里葉變換近紅外光譜儀自帶的光譜分析軟件OPUS 6.5 (德國Bruker公司) 采集光譜數(shù)據(jù);由Matlab2016a (美國The MathWork公司)完成光譜數(shù)據(jù)預(yù)處理、樣本劃分、特征波長提取和模型建立。
利用傅里葉變換近紅外光譜儀采集樣本的近紅外漫反射光譜。光譜掃描范圍:833~2 500 nm (12 000~4 000 cm-1),掃描次數(shù):32次;光譜分辨率:8 cm-1;采集條件:室溫(23~25℃),以空比色皿為參比。采集光譜時(shí)每個樣品測量3次,取平均值作為該樣品的最終光譜。
由于受到儀器自身或外界環(huán)境的干擾,所采集的近紅外光譜會受到噪聲、基線偏移等與建模無關(guān)信息的影響,因此在建模前需要對采集的原始光譜進(jìn)行預(yù)處理。常見的光譜預(yù)處理方法有Savitzky-Golay (S-G)平滑、標(biāo)準(zhǔn)正態(tài)變量變換(Standard normal variate transformation, SNV)、多元散射校正(Multiple scatter correction, MSC)、一階微分、二階微分等。
S-G平滑法是光譜分析中常用的預(yù)處理方法,它是基于最小二乘原理的移動窗口加權(quán)平均算法,能有效地提高光譜的平滑性,并降低噪聲的干擾[18]。SNV和MSC法可以消除表面散射、固體顆粒大小和光程變化對近紅外漫反射光譜的影響,達(dá)到去噪的效果[19-20]。一階微分、二階微分等導(dǎo)數(shù)預(yù)處理方法能減少由系統(tǒng)內(nèi)部引起的隨機(jī)噪聲,并能增強(qiáng)處理后信號頻率的分辨率。
基于樣本光譜間歐氏距離的Kennard-Stone (K-S)樣本劃分方法,能有效地將光譜差異較大的樣品選入校正集,將其余相近樣品歸入測試集,達(dá)到保證校正集樣品具有代表性和均勻性的目的[21]。因而K-S方法被廣泛地用在定性研究中對樣本進(jìn)行劃分。
1.5.1連續(xù)投影算法
基于向量投影分析的連續(xù)投影(Successive projections algorithm, SPA)算法能夠在光譜矩陣中充分尋找含有最低限度冗余信息的變量組,使變量之間的共線性達(dá)到最小。同時(shí)能極大地減少建模所用特征波長的數(shù)量,提高建模的速度和效率[22]。
對于定性分析問題,文獻(xiàn)[23]提出提取的波長數(shù)量可以由G值確定。G值定義為
(1)
(2)
式中n——總樣品數(shù)
xi——SPA選定波長下第i個樣品的吸光度
μIi——第i個樣品所屬類別的平均吸光度
μJi——第i個樣品對應(yīng)錯誤類別的平均吸光度
r(xi-μIi)——xi與μIi馬氏距離
Ii、Ji——第i個樣品對應(yīng)的正確、錯誤類別
gi應(yīng)該盡可能小,即xi應(yīng)該靠近其真實(shí)類別樣本的中心,并且與錯誤類別樣本中心相距較遠(yuǎn)。
1.5.2無信息變量消除算法
無信息變量消除(Uninformative variable elimination, UVE)算法通過引入一定數(shù)目的隨機(jī)變量到光譜矩陣中,建立偏最小二乘回歸(Partial least squares regression, PLS)交互驗(yàn)證模型,根據(jù)各波長穩(wěn)定性指數(shù),即回歸系數(shù)向量的均值與標(biāo)準(zhǔn)偏差的商的絕對值,決定光譜變量是否被選取[24]。
1.5.3競爭性自適應(yīng)重加權(quán)算法
競爭性自適應(yīng)重加權(quán)(Competitive adaptive reweighted sampling, CARS)算法是將每個波長作為一個單獨(dú)的個體,利用自適應(yīng)加權(quán)采樣技術(shù)篩選出PLS模型中回歸系數(shù)絕對值大的波長點(diǎn),淘汰回歸系數(shù)絕對值小的波長點(diǎn),利用交互驗(yàn)證選出均方根誤差(Root mean square error of cross validation, RMSECV)最低的波長變量子集作為優(yōu)選波長變量子集[25]。
1.6.1支持向量機(jī)
支持向量機(jī)(Support vector machine, SVM)是一種以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為基礎(chǔ)思想的有監(jiān)督學(xué)習(xí)模式識別算法[26]。該算法將原始數(shù)據(jù)映射到高維空間以構(gòu)建最優(yōu)的分類超平面,然后假設(shè)分類器誤差與平行超平面間的距離成反比關(guān)系,從而解決常規(guī)空間里數(shù)據(jù)間線性不可分的問題[27]。SVM在解決小樣本、非線性和高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并在很大程度上克服了“維數(shù)災(zāi)難”和“過學(xué)習(xí)”等問題。
1.6.2隨機(jī)森林
隨機(jī)森林(Random forest, RF)是一種用于分類和回歸的機(jī)器學(xué)習(xí)方法。該方法組合多個決策樹算法對相同現(xiàn)象產(chǎn)生重復(fù)的預(yù)測結(jié)果。RF算法對每棵決策樹進(jìn)行自助法重采樣,使誤差估計(jì)的計(jì)算能夠基于袋外樣本數(shù)據(jù)。該算法的優(yōu)點(diǎn)體現(xiàn)在對數(shù)據(jù)集中的噪聲有較強(qiáng)的魯棒性,不需要另外預(yù)留部分?jǐn)?shù)據(jù)做交叉驗(yàn)證[28]。
1.6.3評價(jià)指標(biāo)
本研究將識別準(zhǔn)確率、靈敏度、特異性作為油茶籽油判別模型的評價(jià)指標(biāo)。識別準(zhǔn)確率為純油茶籽油樣品和摻偽油茶籽油樣品被正確判別的百分比;靈敏度是指純油茶籽油樣品被正確判別為純油茶籽油的百分比;特異性是指摻偽油茶籽油樣品被正確判別為摻偽油茶籽油的百分比。
圖1 所有樣品的原始近紅外光譜Fig.1 Original near-infrared spectra of all samples
為了減少無關(guān)因素對建模效果的影響,分別用MSC、SNV、S-G平滑、一階微分和二階微分共5種預(yù)處理方法對光譜進(jìn)行預(yù)處理,然后使用SVM建立油茶籽油摻偽判別模型。以徑向基函數(shù)作為SVM模型的核函數(shù),并根據(jù)十折交叉驗(yàn)證和網(wǎng)格搜索法選擇各模型交叉驗(yàn)證識別準(zhǔn)確率最高時(shí)對應(yīng)的懲罰因子和核參數(shù)作為建模參數(shù)。具體參數(shù)見表1。
表1 不同預(yù)處理方法下SVM建模的參數(shù)Tab.1 Determined parameters of SVM models by different pretreatment methods
對比不同預(yù)處理方法下校正識別準(zhǔn)確率和交叉驗(yàn)證識別準(zhǔn)確率,確定最優(yōu)的光譜預(yù)處理方法。不同預(yù)處理方法的建模結(jié)果如表2所示。由于MSC預(yù)處理方法使得建立的SVM模型具有最高的交叉驗(yàn)證識別準(zhǔn)確率,因此在后續(xù)的研究中只對MSC預(yù)處理后的光譜進(jìn)行分析。
表2 不同預(yù)處理方法下SVM建模的預(yù)測結(jié)果Tab.2 Prediction results of SVM models by different pretreatment methods %
對經(jīng)MSC處理后的光譜采用K-S法按2∶1的比例分別對360個摻偽油茶籽油和95個純油茶籽油進(jìn)行樣本劃分,得到校正集樣品304個(240個摻偽油茶籽油和64個純油茶籽油樣品),測試集樣品151個(120個摻偽油茶籽油樣品和31個純油茶籽油樣品)。
2.3.1SPA算法
將該算法提取的最小波長數(shù)設(shè)定為1,最大數(shù)設(shè)定為30,計(jì)算不同特征波長數(shù)下的G,結(jié)果如圖2所示。由圖2可見,當(dāng)特征波長數(shù)小于9時(shí),隨著波長數(shù)的增加,G迅速減小,但當(dāng)波長數(shù)量大于9時(shí),G逐漸增大。以G最小處的波長數(shù)作為最佳波長數(shù)。因此本文以9個特征波長作為輸入的特征變量,該9個特征波長分別是1 163.64、1 235.16、1 382.72、1 419.82、1 458.97、1 633.64、1 733.02、1 756.50、1 896.56 nm。
圖2 不同特征波長數(shù)的G變化曲線Fig.2 Calculated G values at different numbers of characteristic wavelengths
2.3.2UVE算法
基于UVE算法的摻偽油茶籽油特征波長選取結(jié)果如圖3所示。其中,豎線左側(cè)為全光譜1 178個波長的穩(wěn)定性指數(shù)分布曲線,右側(cè)為相同數(shù)量的隨機(jī)變量穩(wěn)定性指數(shù)分布曲線。以隨機(jī)變量穩(wěn)定性指數(shù)最大絕對值的99%作為變量篩選的閾值,即穩(wěn)定性指數(shù)在兩條水平虛線以外的特征波長被選中。利用UVE算法共選擇出207個特征波長,其分布如圖4所示。
圖3 各波長變量和隨機(jī)變量下的穩(wěn)定性指數(shù)Fig.3 Stability indices at different wavelength variables and random variables
2.3.3CARS算法
圖5為應(yīng)用CARS算法篩選特征波長過程中特征波長數(shù)、RMSECV以及回歸系數(shù)隨運(yùn)行次數(shù)的變化圖。由圖5可見,當(dāng)運(yùn)行次數(shù)從1次增加到28次,特征波長數(shù)從迅速下降到緩慢下降,RMSECV逐步降低,表明在1~28次篩選過程中淘汰了較多無關(guān)變量,模型精度逐步提高。當(dāng)運(yùn)行次數(shù)大于28次時(shí),隨著運(yùn)行次數(shù)的增加,RMSECV緩慢或快速增大,模型精度下降。在運(yùn)行次數(shù)為28次時(shí),RMSECV降到最低,此時(shí)有35個波長變量被保留下來。因此以該35個波長為特征波長,其分布如圖6所示。
圖4 基于UVE算法篩選的特征波長Fig.4 Selected characteristic wavelengths by using UVE algorithm
圖5 基于CARS算法篩選特征波長的過程Fig.5 Process of selecting characteristic wavelengths by using CARS algorithm
圖6 基于CARS算法篩選的特征波長Fig.6 Selected characteristic wavelengths by using CARS algorithm
從利用SPA、UVE和CARS算法提取的特征波長看,特征波長數(shù)明顯少于全光譜(1 100~2 200 nm)下的1 178個波長,分別僅是全光譜下波長數(shù)的0.936 9%、17.57%和2.971%。這說明提取特征波長對于簡化模型、提高運(yùn)算速度有很重要的作用。此外,從提取的特征波長看,除了吸收峰或吸收峰附近的波長外,吸收峰之間的一些波長也是對摻偽油茶籽油敏感的特征波長。
2.4.1建模參數(shù)的選擇和設(shè)定
以徑向基函數(shù)作為SVM模型的核函數(shù)。根據(jù)十折交叉驗(yàn)證和網(wǎng)格搜索法選取懲罰因子C和核參數(shù)γ。建立RF模型時(shí),以不同特征波長提取方法下預(yù)測準(zhǔn)確率最高時(shí)的決策樹個數(shù)作為RF模型的決策樹數(shù)量。確定的參數(shù)見表3。
表3 不同特征波長提取方法確定的SVM和RF模型的參數(shù)Tab.3 Determined parameters of SVM and RF models by different methods of characteristic wavelength selection
2.4.2SVM模型建模結(jié)果
以不同方法所提取的特征波長作為建模輸入變量時(shí),所建立的SVM模型對校正集和測試集的純油茶籽油和摻偽油茶籽油的判別結(jié)果見表4。由表4可以看出,基于SPA、UVE和CARS所提取的特征波長建立的SVM模型(SPA-SVM、UVE-SVM和CARS-SVM)對測試集的識別準(zhǔn)確率分別為96.03%、96.69%和96.69%,均高于基于全光譜建立的SVM模型(FS-SVM)對測試集94.70%的識別準(zhǔn)確率。在靈敏度方面,SPA-SVM的靈敏度與FS-SVM相同,均為96.77%,UVE-SVM和CARS-SVM的靈敏度最高,達(dá)到100%,說明UVE和CARS提高了SVM模型對純油茶籽油樣本的識別能力。在特異性方面,SPA-SVM、UVE-SVM和CARS-SVM的特異性均為95.83%,高于FS-SVM的94.17%,說明3種特征波長提取方法均提高了SVM模型對摻偽油茶籽油樣本的識別能力。
所建立的SVM模型對不同摻偽質(zhì)量分?jǐn)?shù)油茶籽油的識別準(zhǔn)確率如表5所示。表5說明FS-SVM、UVE-SVM和CARS-SVM對摻偽質(zhì)量分?jǐn)?shù)為3%以上的油茶籽油樣本的識別準(zhǔn)確率達(dá)到100%,UVE-SVM和CARS-SVM對摻偽質(zhì)量分?jǐn)?shù)為1%的油茶籽油樣本的識別準(zhǔn)確率為73.68%,高于FS-SVM的63.16%,說明UVE和CARS提高了SVM模型對摻偽質(zhì)量分?jǐn)?shù)為1%的油茶籽油樣本的識別能力。而SPA方法雖然使SVM模型對摻偽質(zhì)量分?jǐn)?shù)為1%的油茶籽油樣本的識別準(zhǔn)確率提高到78.95%,但對摻偽質(zhì)量分?jǐn)?shù)為3%的油茶籽油樣本的識別準(zhǔn)確率卻下降到96.43%,說明SPA方法在減少波長輸入的同時(shí)也刪去了對SVM建模有用的信息。
表4 不同特征波長提取方法下SVM和RF模型對純油菜籽油和摻偽油茶籽油的識別結(jié)果Tab.4 Identification results of SVM and RF models for pure and adulterated oil-tea camellia seed oil by using different characteristic wavelength selecting methods %
表5 不同模型對不同摻偽質(zhì)量分?jǐn)?shù)油茶籽油的識別準(zhǔn)確率Tab.5 Identification accuracy of different models for adulterated oil-tea camellia seed oil at different mass fractions %
2.4.3RF模型建模結(jié)果
不同特征波長提取方法下,基于所提取的特征變量建立的RF模型對校正集和測試集中純油茶籽油和摻偽油茶籽油的判別結(jié)果見表4。由表4可見,基于SPA、UVE和CARS所提取的特征波長建立的RF模型(SPA-RF、UVE-RF和CARS-RF)的識別準(zhǔn)確率分別為99.34%、97.35%和98.01%,均高于基于全光譜所建立的RF模型(FS-RF)。在靈敏度上,SPA-RF、UVE-RF和CARS-RF的靈敏度分別為100%、93.55%和93.55%,高于FS-RF的90.32%,說明3種特征波長提取方法均提高了RF模型對純油茶籽油的識別能力。在特異性上,UVE-RF與FS-RF的特異性相等,為98.33%,SPA-RF和CARS-RF的特異性均為99.17%,說明利用SPA和CARS特征波長提取方法提高了RF模型對摻偽油茶籽油的識別能力。
所建立的RF模型對不同摻偽質(zhì)量分?jǐn)?shù)油茶籽油的識別準(zhǔn)確率見表5。由表5可見,不管是基于全光譜,還是基于不同方法所提取的特征波長,所建立的RF模型對摻偽質(zhì)量分?jǐn)?shù)為1%的摻偽油茶籽油的識別準(zhǔn)確率均為94.74%。當(dāng)摻偽質(zhì)量分?jǐn)?shù)為3%時(shí),SPA-RF和CARS-RF的識別準(zhǔn)確率為100%,高于FS-RF和UVE-RF 96.43%的識別準(zhǔn)確率。結(jié)果表明,全光譜中含有對RF模型冗余的信息,而SPA和CARS方法比UVE方法能有效地從全光譜中提取出對摻偽油茶籽油敏感的特征波長。
2.4.4結(jié)果比較
當(dāng)對SVM和RF模型性能進(jìn)行比較時(shí),由表4可知,除SPA外,測試集其他特征波長提取方法下所建SVM模型的靈敏度均高于RF模型的靈敏度,說明SVM模型對純油茶籽油的識別能力更強(qiáng)。而RF模型的特異性均高于SVM模型的特異性,說明RF模型對摻偽油茶籽油的識別能力更強(qiáng)。
由表5可知,RF模型對摻偽質(zhì)量分?jǐn)?shù)為1%的摻偽油茶籽油的識別準(zhǔn)確率(94.74%)明顯高于SVM模型的最高識別準(zhǔn)確率78.95%。而當(dāng)摻偽質(zhì)量分?jǐn)?shù)在3%以上時(shí),兩種模型的判別能力基本相當(dāng)。
在所建立的8種摻偽油茶籽油判別模型中,測試集SPA-RF的識別準(zhǔn)確率、靈敏度和特異性均最高,分別為99.34%、100%和99.17%(表4),且該模型對摻偽質(zhì)量分?jǐn)?shù)為1%和3%及以上的摻偽油茶籽油的識別準(zhǔn)確率分別為94.74%和100%(表5)。此外,該模型的輸入波長數(shù)只有9個,對于簡化模型,降低運(yùn)算時(shí)間和便攜式摻偽油茶籽油檢測儀的開發(fā)具有重要的意義。
(1)研究了SPA、UVE和CARS 3種特征波長選擇方法下SVM和RF模型對不同摻偽質(zhì)量分?jǐn)?shù)(0~20%)油茶籽油的識別能力。結(jié)果表明,這3種特征波長提取方法均可提高所建模型對油茶籽油的識別準(zhǔn)確率、靈敏度和特異性,SVM模型具有較高的靈敏度,而RF模型具有良好的特異性。
(2)在所建立的8個模型中,SPA-RF模型具有最佳識別能力,其識別準(zhǔn)確率、靈敏度、特異性分別為99.34%、100%和99.17%,對摻偽質(zhì)量分?jǐn)?shù)為1%的摻偽油茶籽油識別準(zhǔn)確率達(dá)94.74%,對摻偽質(zhì)量分?jǐn)?shù)為3%及以上的摻偽油茶籽油的識別準(zhǔn)確率達(dá)到100%。本研究為基于多光譜技術(shù)開發(fā)便攜式摻偽油茶籽油檢測儀提供了基礎(chǔ)數(shù)據(jù)。