謝有超,彭黔榮*,,楊 敏,阮藝斌,張辭海,胡 蕓,陳 毅,付陽(yáng)洋
1. 貴州大學(xué)化學(xué)與化工學(xué)院,貴陽(yáng)市花溪區(qū)甲秀南路 550025 2. 貴州大學(xué)藥學(xué)院,貴陽(yáng)市花溪區(qū)甲秀南路 550025 3. 貴州中煙工業(yè)有限責(zé)任公司技術(shù)中心,貴陽(yáng)市小河經(jīng)濟(jì)技術(shù)開(kāi)發(fā)區(qū)開(kāi)發(fā)大道96 號(hào) 550009
配方和調(diào)香決定了各卷煙品牌獨(dú)特的香氣和風(fēng)味[1]。不同卷煙品牌的化學(xué)成分、零售價(jià)格以及潛在有害成分水平有所不同,同一牌號(hào)卷煙也可能由于批次不同而產(chǎn)生差異[2]。每種卷煙品牌都具有固定消費(fèi)人群,其對(duì)卷煙變化十分敏感,如果卷煙的香氣和風(fēng)味波動(dòng)較大,則會(huì)對(duì)卷煙銷售產(chǎn)生影響。當(dāng)前對(duì)不同卷煙品牌的區(qū)分仍以感官評(píng)吸為主[3],但該方法存在主觀性強(qiáng)且難以實(shí)現(xiàn)在線監(jiān)控等問(wèn)題。近紅外光譜技術(shù)以其快速、無(wú)損、高效等特點(diǎn)在石油化工[4]、醫(yī)藥[5]和食品[6]等領(lǐng)域已廣泛應(yīng)用,在煙草理化指標(biāo)定量分析[7-8]、煙葉分級(jí)[9]和煙葉溯源[10]等方面也有較多研究。其中,Tan 等[11]對(duì)比了近紅外光譜結(jié)合多類別支持向量機(jī)(BSVM)、K 最鄰近法(KNN)和簇類的獨(dú)立軟模式法(SIMCA)3 種分類算法對(duì)卷煙品牌的判別效果,結(jié)果表明BSVM 算法明顯優(yōu)于KNN 和SIMCA,尤其在訓(xùn)練集樣本數(shù)較少時(shí)優(yōu)勢(shì)顯著。Omar 等[12]采用標(biāo)準(zhǔn)正態(tài)變量變換對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理后,再進(jìn)行主成分分析,建立了偏最小二乘判別分析模型,實(shí)現(xiàn)了對(duì)3 種卷煙品牌的識(shí)別。Yang 等[13]采用稀疏表達(dá)分類算法(SRC)、支持向量機(jī)(SVM)和線性判別分析法(LDA)構(gòu)建了能夠?qū)? 種卷煙品牌定性判別的模型,對(duì)比發(fā)現(xiàn)SRC 模型不需進(jìn)行主成分分析就可減少數(shù)據(jù)維度,具有較高鑒別能力。但目前缺少對(duì)卷煙光譜數(shù)據(jù)的深入研究,導(dǎo)致建模變量多、計(jì)算量大,且總體判別準(zhǔn)確率低于95%。為此,利用煙絲的近紅外光譜數(shù)據(jù),通過(guò)選擇最優(yōu)的光譜數(shù)據(jù)預(yù)處理方法和降維方法,基于支持向量機(jī)(SVM)和線性判別分析法(LDA)分別建立卷煙品牌識(shí)別模型并對(duì)比驗(yàn)證,旨在為卷煙配方維護(hù)和真假煙識(shí)別提供技術(shù)支持。
采用2019—2020 年貴州中煙工業(yè)有限責(zé)任公司生產(chǎn)的10 種不同卷煙品牌,編號(hào)為A~J。利用Kennard-Stone 算法[14]從329 個(gè)樣品中選擇222 個(gè)樣品作為訓(xùn)練集,剩余的107 個(gè)樣品作為測(cè)試集,見(jiàn)表1。
表1 10 種卷煙品牌樣品集的劃分Tab.1 Sample numbers in sample sets of cut filler of 10 cigarette brands
參照標(biāo)準(zhǔn)YC/T 31—1996[15]的方法除去卷煙包裝紙,將煙絲樣品經(jīng)40 ℃烘箱干燥2 h 左右,直至用手可以輕輕捏碎;再冷卻至室溫,采用煙草粉碎機(jī)進(jìn)行粉碎,粉碎后的煙絲粉末過(guò)0.25 mm(60 目)篩后裝入密封袋中備用。
Thermo Antaris Ⅱ型傅里葉近紅外分析儀(美國(guó)Thermo Scientific 公司);FED-240 型干燥箱(德國(guó)Binder 公司);YC-400B-03 型煙草粉碎機(jī)(成都英特瑞公司)。
1.3.1 光譜采集
掃描前近紅外分析儀開(kāi)機(jī)預(yù)熱30 min,設(shè)定掃描波長(zhǎng)范圍10 000~4 000 cm-1,分辨率為8 cm-1,掃描次數(shù)64 次。保持溫濕度恒定,將煙絲粉末裝入石英杯中,用壓塊自然落下壓實(shí),每個(gè)樣品采集2次,取平均值。
1.3.2 模式識(shí)別方法
模式識(shí)別又稱模式分類,本研究中基于線性判別分析(LDA)和支持向量機(jī)(SVM)分別建立模式識(shí)別方法,用于評(píng)估不同數(shù)據(jù)預(yù)處理方法和降維方法的優(yōu)劣。其中,LDA 是一種有監(jiān)督的判別方法,原變量經(jīng)投影后可以使類內(nèi)方差最小、類間方差最大,從而實(shí)現(xiàn)對(duì)類與類的區(qū)分[16]。LDA對(duì)于小樣本光譜數(shù)據(jù)的預(yù)測(cè)能力不高,在高維數(shù)據(jù)計(jì)算過(guò)程中容易產(chǎn)生協(xié)方差矩陣奇異,因此需要結(jié)合降維方法進(jìn)行特征提取。分析發(fā)現(xiàn),不同潛變量個(gè)數(shù)會(huì)得到不同的判別正確率。為確定LDA 模型的最佳潛變量個(gè)數(shù),經(jīng)不同降維方法提取9~16 個(gè)潛變量作為L(zhǎng)DA 模型的輸入值,并采用訓(xùn)練集的RA(Recognition Accuracy)值作為評(píng)價(jià)指標(biāo)選擇最佳潛變量個(gè)數(shù)。
SVM 是一種以結(jié)構(gòu)風(fēng)險(xiǎn)最小化為基礎(chǔ)的模式識(shí)別方法,其基本思想來(lái)源于線性判別的最優(yōu)分類面,在小樣本數(shù)據(jù)集分類中具有顯著優(yōu)勢(shì)[17]。SVM 可以將高維空間的內(nèi)積運(yùn)算轉(zhuǎn)化為低維輸入空間的核函數(shù)計(jì)算,解決了在高維空間計(jì)算中存在的“維數(shù)災(zāi)難”問(wèn)題。但不同核函數(shù)建立的SVM 模型的預(yù)測(cè)能力不同,為取得最佳識(shí)別效果,采用訓(xùn)練集的RA 值作為評(píng)價(jià)指標(biāo)并選擇最佳核函數(shù)。
1.3.3 光譜數(shù)據(jù)預(yù)處理方法的選擇
光譜數(shù)據(jù)除含有樣品自身化學(xué)信息外,還含有其他信息和噪聲,例如電噪聲、樣品背景和散光等[18]。本研究中比較了標(biāo)準(zhǔn)正態(tài)變量變換(SNV)、多元散射校正(MSC)、基線校正(Baseline)、去勢(shì)(De-trending)、均值方差化(Autoscaling)、線性函數(shù)歸一化(Rangescaling)、一 階導(dǎo)數(shù)(first derivative)、連續(xù)小波變換(CWT)、SNV+first derivative、MSC + first derivative、SNV + CWT 和MSC+CWT 等12 種光譜數(shù)據(jù)預(yù)處理方法,結(jié)合1.3.2 節(jié)中確定的兩種模式識(shí)別方法,采用RA 值作為評(píng)價(jià)標(biāo)準(zhǔn)選擇最有效的光譜數(shù)據(jù)預(yù)處理方法。
1.3.4 數(shù)據(jù)降維方法的選擇
數(shù)據(jù)降維是指通過(guò)將原始特征空間進(jìn)行變換,將高維空間中的數(shù)據(jù)點(diǎn)映射到低維空間中,既可減少冗余信息造成的誤差,也可考察光譜數(shù)據(jù)內(nèi)部的結(jié)構(gòu)特征[19]。為尋找最適宜的降維方法,在對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理后,分別采用線性降維主成分分析(PCA)、非線性提取方法局部嵌入(LLE)、局部切空間排列(LTSA)、核主成分分析(KPCA)、隨機(jī)鄰近嵌入(SPE)、Sammon 映射(Sammon mapping)、概率主成分分析(PPCA)和擴(kuò)展映射(Diffusion mapping)等方法進(jìn)行數(shù)據(jù)降維。結(jié)合1.3.2 節(jié)和1.3.3 節(jié)中確定的兩種模式識(shí)別方法和光譜數(shù)據(jù)預(yù)處理方法,采用RA 值作為評(píng)價(jià)標(biāo)準(zhǔn)選擇最有效的降維方法。
1.3.5 模型評(píng)價(jià)
采用RA 值作為評(píng)價(jià)指標(biāo)考察模型的優(yōu)劣,即正確判斷的樣品數(shù)占全部樣品數(shù)的百分比[20]。
使用Matlab R2019a(The Math Works, USA)和The Unscrambler X 10.3(CAMO Software AS,NORWAY)軟件進(jìn)行數(shù)據(jù)分析。
圖1 為10 種卷煙品牌329 個(gè)樣品的近紅外光譜圖??梢?jiàn),各卷煙品牌的近紅外光譜圖無(wú)太大差異,吸收峰形和位置較為相似,無(wú)法從直觀上進(jìn)行區(qū)分,需要對(duì)光譜數(shù)據(jù)進(jìn)行預(yù)處理。
圖1 不同卷煙品牌近紅外光譜圖Fig.1 NIR spectra of different cigarette brands
表2 不同降維方法不同潛變量個(gè)數(shù)下LDA 模型的RA 值Tab.2 RA values of LDA models under different dimension reduction methods and different number of latent variables(%)
為確定LDA 模型的最佳潛變量個(gè)數(shù),經(jīng)不同降維方法提取到9~16 個(gè)潛變量作為L(zhǎng)DA 模型的輸入值,其訓(xùn)練集的RA 值見(jiàn)表2。可見(jiàn),隨著潛變量個(gè)數(shù)增加,不同降維方法下LDA 模型的判別能力均呈先上升后下降趨勢(shì)。其中,采用LLE、LTSA、SPE、Sammom mapping 和PPCA 降維方法在提取13 個(gè)潛變量時(shí)LDA 模型的RA 值最大。而基 于PCA、KPCA 和Diffusion mapping 方 法 降 維時(shí),選擇13 個(gè)和14 個(gè)潛變量所建模型的判別能力接近。因此,在建立LDA 模型時(shí),提取13 個(gè)潛變量作為模型的輸入變量,可減少冗余信息,且能得到重要的分類信息。
不同降維方法和4 種核函數(shù)下SVM 模型的10種卷煙品牌訓(xùn)練集的RA 值見(jiàn)表3。可見(jiàn),利用8種降維方法分別提取13 個(gè)潛變量后,采用Linear核函數(shù)建立的SVM 模型的RA 值最高。因此,選擇Linear 作為SVM 模型的核函數(shù)進(jìn)行內(nèi)積計(jì)算。
表3 不同降維方法不同核函數(shù)下SVM 模型的RA 值Tab.3 RA values of SVM models under different dimension reduction methods and different kernel functions (%)
采用12 種光譜數(shù)據(jù)預(yù)處理方法變換后的光譜圖見(jiàn)圖2。其中,圖2a 和圖2b 消除了固體顆粒大小產(chǎn)生的散射影響;圖2d 和圖2g 消除了光譜中的基線漂移;圖2c 和圖2j 消除了噪聲和背景;圖2e和圖2f 是近紅外光譜數(shù)據(jù)預(yù)處理最常用的方法,用于增強(qiáng)光譜數(shù)據(jù)之間的差異;圖2h、圖2i、圖2k和圖2l 是光譜數(shù)據(jù)預(yù)處理方法的聯(lián)合應(yīng)用,可從多角度濾除與光譜數(shù)據(jù)無(wú)關(guān)的信息。由于儀器、樣品特征以及測(cè)量環(huán)境、條件的變化,需要通過(guò)模型評(píng)價(jià)選擇最佳光譜數(shù)據(jù)預(yù)處理方法。
基于本研究中確定的SVM 和LDA 模式識(shí)別方法,對(duì)比12 種光譜數(shù)據(jù)預(yù)處理方法的RA 值,見(jiàn)表4??梢?jiàn),對(duì)于SVM 模型,采用CWT 預(yù)處理方法的測(cè)試集RA 值最高(92.53%);對(duì)于LDA 模型,采用Baseline、CWT 和MSC+CWT 這3 種預(yù)處理方法的測(cè)試集RA 值最高(93.46%)。因此,選擇CWT 作為識(shí)別模型的光譜數(shù)據(jù)預(yù)處理方法,這可能與CWT 能更好地消除光譜數(shù)據(jù)中的背景干擾和基線漂移有關(guān)。
圖2 經(jīng)12 種光譜數(shù)據(jù)預(yù)處理方法變換后的光譜圖Fig.2 Spectra transformed by twelve pre-processing methods
表4 不同光譜數(shù)據(jù)預(yù)處理方法下不同識(shí)別模型的RA 值Tab.4 RA values of different recognition models under different spectral data pre-processing methods (%)
為進(jìn)一步提高模型的識(shí)別精度,采用LLE、LTSA 和KPCA 等7 種非線性降維方法,對(duì)經(jīng)過(guò)CWT 預(yù)處理后的訓(xùn)練集數(shù)據(jù)進(jìn)行處理,再分別采用優(yōu)化后的SVM 和LDA 建模,其測(cè)試集的RA 值見(jiàn)表5??梢?jiàn),不同識(shí)別方法下基于PPCA 降維方法的RA 值均為最高,SVM 和LDA 模型的RA 值分別為97.20%和96.26%。
綜上可知,采用CWT 進(jìn)行近紅外光譜數(shù)據(jù)預(yù)處理,PPCA 方法進(jìn)行數(shù)據(jù)降維,Linear 作為核函數(shù),基于SVM 方法建立的識(shí)別模型得到的RA 值最佳。
表5 不同非線性降維方法下不同識(shí)別模型的RA 值Tab.5 RA values of different recognition models under different nonlinear dimension reduction methods(%)
基于卷煙煙絲的近紅外光譜數(shù)據(jù),結(jié)合機(jī)器學(xué)習(xí)技術(shù),以貴州中煙工業(yè)有限責(zé)任公司生產(chǎn)的10 種卷煙品牌為對(duì)象,建立了一種卷煙品牌識(shí)別模型。通過(guò)交叉驗(yàn)證,確定了最佳光譜數(shù)據(jù)預(yù)處理方法、潛變量個(gè)數(shù)、核函數(shù)、降維方法等關(guān)鍵參數(shù)。利用采集的卷煙樣品數(shù)據(jù)進(jìn)行驗(yàn)證,結(jié)果表明:采用CWT 進(jìn)行近紅外光譜數(shù)據(jù)預(yù)處理,PPCA方法進(jìn)行數(shù)據(jù)降維,選擇Linear 作為核函數(shù),基于SVM 方法建立的識(shí)別模型的RA 值達(dá)到97.20%,表明可以根據(jù)煙絲光譜數(shù)據(jù)實(shí)現(xiàn)對(duì)卷煙品牌的準(zhǔn)確識(shí)別。