張秋菊++田曠達(dá)++李祖紅++呂亞瓊++熊艷梅++閔順耕
[摘要]目的:研究烤煙香氣風(fēng)格中焦香、辛香、甜香等香韻的識別技術(shù)。方法:采用近紅外光譜技術(shù)結(jié)合最小二乘支持向量機(LS-SVM)模式識別方法。煙葉粉末的近紅外漫反射光譜經(jīng)過波長范圍選擇和多種預(yù)處理優(yōu)化后輸入模型,使用k折交互驗證和多層網(wǎng)格法優(yōu)化LS-SVM模型參數(shù),建立三種香韻識別模型。結(jié)果:焦香、甜香、辛香的識別準(zhǔn)確率CR分別為94.7%、88.9%、 94.8%,ROC曲線下面積AUC分別為0.99、0.99、1.00。結(jié)論:說明使用近紅外光譜技術(shù)結(jié)合LS-SVM方法可有效識別烤煙香氣風(fēng)格。
[關(guān)鍵詞]近紅外;最小二乘支持向量機;香氣風(fēng)格;焦香;辛香;甜香
中圖分類號:O657文獻(xiàn)標(biāo)識碼:A文章編號:2095-5200(2014)04-066-03
DOI:10.11876/mimt201404021
A study of recognition of tobacco aroma style using near infrared spectroscopy ZHANG Qiu-ju1,TIAN Kuang-da2,LI Zu-hong1,LYU Ya-qiong1,XIONG Yan-mei2,MIN Shun-geng2.(1. Qujing Tobacco Company, 655000, China;2. China Agricultural University, 100193, China)
[Abstract]A method combined with near infrared (NIR) spectroscopy and least squares–support vector machine (LS-SVM) was applied to study identification technology of tobacco aroma styles. The NIR spectrum of the tobacco powder were preprocessed by a wavelength selection technique and several pretreatment methods including smoothing, multiplicative scatter correction and standard normal variate transformation. The LS-SVM identification models for three kinds of tobacco aroma styles were built, after optimizing parameters by k–fold cross validation and multilayer grid search. The values of accuracy rate of burnt aroma, spice aroma and sweetness aroma model were 94.7%, 88.9% and 94.8%, respectively. And the area under AOC curve were 0.99, 0.99 and 1.00, respectively. The overall results show that NIR spectroscopy combined with LS-SVM can be efficiently utilized for rapid and accurate identification of tobacco aroma styles.
[Key words]near infrared;least squares-support vector machine;tobacco aroma styles;empyreumatique;spicier前言
煙草的風(fēng)格特征包括香型、香韻、香氣狀態(tài)、煙氣濃度和勁頭。焦香、辛香、甜香等香韻是烤煙香氣風(fēng)格的重要指標(biāo),是卷煙企業(yè)配方設(shè)計、原料采購的參考依據(jù),主要依靠評吸人員抽吸燃燒煙葉產(chǎn)生的煙氣進行感官評定。煙葉的香氣風(fēng)格是其所含化學(xué)成分在煙氣特征上的表現(xiàn),化學(xué)成分與感官評吸關(guān)系已得到充分研究[1-2]。由于近紅外光譜攜帶有機物分子含氫基團(C-H、N-H、O-H等)伸縮振動的倍頻與合頻信息,使用近紅外光譜技術(shù)(NIR)分析煙草香氣風(fēng)格從理論上可行。近紅外光譜結(jié)合化學(xué)計量學(xué)的分析技術(shù)具有快速、無損、多組分同時分析的優(yōu)勢[3]。支持向量機(SVM)[4]基于統(tǒng)計學(xué)習(xí)理論,通過核函數(shù)將非線性求解轉(zhuǎn)化為在高維空間中線性求解,能夠解決線性和非線性分類問題。最小二乘支持向量機(LS-SVM)[5]是SVM的擴展算法,使用誤差的二范數(shù)作為損失函數(shù),將二次規(guī)劃問題轉(zhuǎn)為線性規(guī)劃,大幅簡化運算,具有收斂快、穩(wěn)定、推廣性強的優(yōu)點。本文研究目的是探究NIR結(jié)合LS-SVM方法建立分類模型以準(zhǔn)確識別烤煙焦香、辛香、甜香等香氣風(fēng)格特點的可行性。
1實驗部分
1.1試劑與儀器
167個煙葉樣品采集自云南省曲靖市煙區(qū)。質(zhì)量評吸數(shù)據(jù)來自云南瑞升煙草技術(shù)有限公司。近紅外光譜儀為布魯克公司的MATRIX-I(Bruker Optics, Bremen, Germany)。
1.2實驗過程
按照標(biāo)準(zhǔn)YC/T 31-1996,煙葉經(jīng)過烘干、研磨制備成粉末樣品。將煙葉粉末裝入樣品杯,搖勻后壓實,放置在MATRIX-I旋轉(zhuǎn)采樣臺上。漫反射積分球收集樣品近紅外光譜,使用內(nèi)置的陶瓷片作為參比。譜區(qū)采集范圍為10000-4000cm-1,光譜分辨率為8cm-1,掃描次數(shù)為64。
使用模式識別方法研究煙葉的近紅外光譜數(shù)據(jù)與評吸結(jié)果中香氣風(fēng)格(焦香、甜香、辛香)評分的統(tǒng)計關(guān)系。劃分校正集和驗證集,選擇光譜波長范圍,挑選合適的預(yù)處理方法,分別建立焦香、甜香、辛香的LS-SVM分類模型,交互驗證法優(yōu)化模型參數(shù),評價模型的預(yù)測性能。數(shù)據(jù)處理使用MATLAB 7.0(The Math Works, Natick, USA)。
2結(jié)果與討論
2.1樣品挑選與波長選擇
圖1所示為167個煙葉粉末樣本的近紅外漫反射光譜。圖2是煙葉評吸結(jié)果中的焦香、辛香、甜香得分?jǐn)?shù)據(jù)統(tǒng)計,三種香韻的評分范圍分別是0~1,0~4,0~3。由于評吸數(shù)據(jù)的主觀性強,精確度低,近紅外光譜與感觀數(shù)據(jù)無法建立準(zhǔn)確的定量關(guān)系。按評分的高低,將煙草樣本劃分為香型明顯和香型不明顯兩類,從模式識別角度研究煙草樣本是否具有焦香、辛香或甜香特征,分類標(biāo)準(zhǔn)見表1。
受測試環(huán)境和儀器狀態(tài)影響存光譜中存在異常樣本,為提高模型預(yù)測性能,使用主成分分析和馬氏距離結(jié)合的PCA-MD方法找出杠桿指大于平均值3倍的樣本。8個樣本的光譜判斷為異常數(shù)據(jù)并剔除,占樣本總量的5%。
圖1中水蒸氣峰在5500cm-1和7300cm-1附近引起光譜波動,通過2階導(dǎo)數(shù)光譜對噪聲的放大作用找出水蒸氣峰的準(zhǔn)確位置:5150cm-1~5570cm-1,7000cm-1~7400cm-1。波長8750cm-1以下儀器的檢測器靈敏度較低,并且該區(qū)域是有機分子的4倍頻吸收,光譜信噪比低。選擇這些區(qū)域以外的波長范圍作為模式識別模型的光譜輸入數(shù)據(jù)。
endprint
固體粉末的近紅外漫反射光譜通常受到光的散射效應(yīng)的影響,光譜曲線基線出現(xiàn)漂移,一般需要使用散射校正算法,如多元散射校正(MSC)和標(biāo)準(zhǔn)正態(tài)變量變換(SNV)消除散射。平滑1、2階求導(dǎo)和標(biāo)準(zhǔn)化變換也是常用的光譜預(yù)處理方法。嘗試使用多種預(yù)處理方法及其組合處理原始光譜數(shù)據(jù)和波長選擇后的光譜數(shù)據(jù),選擇使得回歸模型性能最佳的預(yù)處理方案。
識別模型使用K折交叉驗證的平均預(yù)測準(zhǔn)確率(CR)和ROC曲線下面積(AUC)作為評價標(biāo)準(zhǔn)。ROC曲線由所評價模型的不同閾值對應(yīng)的真正率和假正率構(gòu)成,曲線下積分面積作為模型優(yōu)劣的指標(biāo)。
2.2LS-SVM模式識別
2.2.1焦香識別模型Kennard-Stone(K-S)[6]方法從71個焦香樣本(焦香得分1)和72個非焦香樣本(焦香得分0)中各選擇最具代表性的30個樣本組成校正集,其余的83個樣品組成驗證集。首先由10折交互驗證的預(yù)測準(zhǔn)確率(CR)選定最優(yōu)預(yù)處理方法,部分預(yù)處理方法的模型預(yù)測結(jié)果如表2所示。對于焦香識別模型,標(biāo)準(zhǔn)化處理對模型最為有效,CR為0.9354。
表2焦香、辛香、甜香LS-SVM模型光譜預(yù)處理效果
Preprocess CR(%)1) CR(%)2) CR(%)3)
Original4) 0.9065 0.8415 0.8795
None 0.9157 0.8620 0.9362
MSC 0.8791 0.8995 0.9100
SNV 0.8543 0.8732 0.9399
autoscaling 0.9354 0.8752 0.9420
SG smoothing 0.9079 0.8921 0.9245
SG 1st derivative 0.8816 0.8852 0.9111
SG 2nd derivative 0.9035 0.8751 0.9045
MSC + SG smoothing 0.9120 0.8573 0.9414
SNV+SG 1st derivative 0.8289 0.9025 0.9517
注:1) 焦香模型識別準(zhǔn)確率;2)甜香模型識別準(zhǔn)確率;3)辛香模型識別準(zhǔn)確率;4)未做波長選擇的原始光譜,其余均為波長選擇后的處理。
正則化參數(shù)λ優(yōu)化、核函數(shù)選擇和核函數(shù)參數(shù)優(yōu)化是LS-SVM的三個關(guān)鍵問題。由于RBF核的緊致性和計算復(fù)雜度的考慮,選用RBF核作為LS-SVM模型核函數(shù),使用網(wǎng)格搜索結(jié)合10折交叉驗證同時優(yōu)化正則化參數(shù)λ和核寬σ2。設(shè)置多層搜索網(wǎng)格,λ和σ2初始優(yōu)化范圍由經(jīng)驗值確定,均設(shè)置成e-5 ~ e25,每層網(wǎng)格節(jié)點個數(shù)19×19,評價函數(shù)采用10折交叉驗證的均方根誤差(MSE),相鄰層網(wǎng)格最優(yōu)MSE差值小于10-4時迭代收斂,最大迭代網(wǎng)格層數(shù)為3。
LS-SVM模型通過2層網(wǎng)格搜索即得到最優(yōu)參數(shù)λ(e13.28)和σ2(e16.76)。建立最終的焦香識別LS-SVM模型,驗證集的預(yù)測準(zhǔn)確率CR為0.9474,ROC曲線下面積AUC為0.9910。
2.2.2甜香識別模型甜香(評分2.5、3、3.5)和非甜香(評分0、1)樣本各有43個和33個,使用K-S方法從兩類中各選擇最具代表性的20個樣本作為校正集,其余共36個樣本作為驗證集。預(yù)處理結(jié)果如表2所示,先SNV處理再求SG一階導(dǎo)數(shù),模型的交叉驗證識別準(zhǔn)確率最高,為0.9025。
使用網(wǎng)格搜索結(jié)合10折交叉驗證優(yōu)化λ和σ2。λ和σ2初始優(yōu)化范圍均為e0 ~ e15,每層網(wǎng)格節(jié)點數(shù)15×15,評價函數(shù)為10折交叉驗證結(jié)果的均方根誤差(MSE),收斂判據(jù)為MSE差值小于10-4,最大迭代網(wǎng)格層數(shù)為3。
LS-SVM模型經(jīng)過兩層網(wǎng)格搜索得到最優(yōu)參數(shù)λ為e11.30,σ2為e4.48。建立最終的甜香識別LS-SVM模型,CR為0.8889,AUC為0.9900。
2.2.3辛香識別模型K-S方法從42個非辛香樣本(評分0, 1)和46個辛香樣本(評分2, 2.5)中分別選擇最具代表性的25個作為校正集,其余共38個樣品作為驗證集。預(yù)處理效果如表2所示,選擇先做SNV處理再求SG一階導(dǎo)數(shù)作為光譜預(yù)處理方法建立辛香的LS-SVM分類模型。
λ和σ2初始范圍設(shè)置為e0 ~ e15,網(wǎng)格節(jié)點數(shù)19×19。LS-SVM模型經(jīng)過3層網(wǎng)格搜索得到最優(yōu)參數(shù)λ為e8.65,σ2為e13.60。使用這些參數(shù)建立最終的辛香識別LS-SVM模型,驗證集的預(yù)測準(zhǔn)確率為0.9483,ROC曲線下面積AUC為0.9971。
3結(jié)論
本文研究了煙草評吸中焦香、甜香、辛香三種香氣風(fēng)格的近紅外光譜識別方法。選擇光譜波長范圍,優(yōu)化預(yù)處理方法,建立LS-SVM分類模型。最終焦香的識別準(zhǔn)確率CR為94.7%,ROC曲線下面積AUC為0.99;甜香識別模型的CR為88.9%,AUC為0.99;辛香識別模型的CR為94.8%,AUC為1.00。說明使用近紅外光譜技術(shù)結(jié)合LS-SVM方法快速、準(zhǔn)確地識別烤煙香氣風(fēng)格特征是可行的。
參考文獻(xiàn)
[1]李洪勛,潘文杰,李建偉,等.烤煙內(nèi)在化學(xué)成分分析與感官評吸指標(biāo)的關(guān)系分析[J].湖北農(nóng)業(yè)科學(xué),2013,52(8):1837-1841.
[2]張燕,馬林,孔留艷,等.卷煙香氣風(fēng)格特征聚類分析[J].食品工業(yè),2012,33(8): 152-155.
[3]褚小立.化學(xué)計量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社.2011:23.
[4]Vapnik V. Statistical Learning Theory[M].New York: Wiley-Interscience, 1998.
[5]Suykens J, Vandewalle J. Neural Processing Letters. 1999,9(3):293-300.
[6]Kennard R, Stone L. American Society for Quality Control[J]. Technometrics,1969: 137.
endprint
固體粉末的近紅外漫反射光譜通常受到光的散射效應(yīng)的影響,光譜曲線基線出現(xiàn)漂移,一般需要使用散射校正算法,如多元散射校正(MSC)和標(biāo)準(zhǔn)正態(tài)變量變換(SNV)消除散射。平滑1、2階求導(dǎo)和標(biāo)準(zhǔn)化變換也是常用的光譜預(yù)處理方法。嘗試使用多種預(yù)處理方法及其組合處理原始光譜數(shù)據(jù)和波長選擇后的光譜數(shù)據(jù),選擇使得回歸模型性能最佳的預(yù)處理方案。
識別模型使用K折交叉驗證的平均預(yù)測準(zhǔn)確率(CR)和ROC曲線下面積(AUC)作為評價標(biāo)準(zhǔn)。ROC曲線由所評價模型的不同閾值對應(yīng)的真正率和假正率構(gòu)成,曲線下積分面積作為模型優(yōu)劣的指標(biāo)。
2.2LS-SVM模式識別
2.2.1焦香識別模型Kennard-Stone(K-S)[6]方法從71個焦香樣本(焦香得分1)和72個非焦香樣本(焦香得分0)中各選擇最具代表性的30個樣本組成校正集,其余的83個樣品組成驗證集。首先由10折交互驗證的預(yù)測準(zhǔn)確率(CR)選定最優(yōu)預(yù)處理方法,部分預(yù)處理方法的模型預(yù)測結(jié)果如表2所示。對于焦香識別模型,標(biāo)準(zhǔn)化處理對模型最為有效,CR為0.9354。
表2焦香、辛香、甜香LS-SVM模型光譜預(yù)處理效果
Preprocess CR(%)1) CR(%)2) CR(%)3)
Original4) 0.9065 0.8415 0.8795
None 0.9157 0.8620 0.9362
MSC 0.8791 0.8995 0.9100
SNV 0.8543 0.8732 0.9399
autoscaling 0.9354 0.8752 0.9420
SG smoothing 0.9079 0.8921 0.9245
SG 1st derivative 0.8816 0.8852 0.9111
SG 2nd derivative 0.9035 0.8751 0.9045
MSC + SG smoothing 0.9120 0.8573 0.9414
SNV+SG 1st derivative 0.8289 0.9025 0.9517
注:1) 焦香模型識別準(zhǔn)確率;2)甜香模型識別準(zhǔn)確率;3)辛香模型識別準(zhǔn)確率;4)未做波長選擇的原始光譜,其余均為波長選擇后的處理。
正則化參數(shù)λ優(yōu)化、核函數(shù)選擇和核函數(shù)參數(shù)優(yōu)化是LS-SVM的三個關(guān)鍵問題。由于RBF核的緊致性和計算復(fù)雜度的考慮,選用RBF核作為LS-SVM模型核函數(shù),使用網(wǎng)格搜索結(jié)合10折交叉驗證同時優(yōu)化正則化參數(shù)λ和核寬σ2。設(shè)置多層搜索網(wǎng)格,λ和σ2初始優(yōu)化范圍由經(jīng)驗值確定,均設(shè)置成e-5 ~ e25,每層網(wǎng)格節(jié)點個數(shù)19×19,評價函數(shù)采用10折交叉驗證的均方根誤差(MSE),相鄰層網(wǎng)格最優(yōu)MSE差值小于10-4時迭代收斂,最大迭代網(wǎng)格層數(shù)為3。
LS-SVM模型通過2層網(wǎng)格搜索即得到最優(yōu)參數(shù)λ(e13.28)和σ2(e16.76)。建立最終的焦香識別LS-SVM模型,驗證集的預(yù)測準(zhǔn)確率CR為0.9474,ROC曲線下面積AUC為0.9910。
2.2.2甜香識別模型甜香(評分2.5、3、3.5)和非甜香(評分0、1)樣本各有43個和33個,使用K-S方法從兩類中各選擇最具代表性的20個樣本作為校正集,其余共36個樣本作為驗證集。預(yù)處理結(jié)果如表2所示,先SNV處理再求SG一階導(dǎo)數(shù),模型的交叉驗證識別準(zhǔn)確率最高,為0.9025。
使用網(wǎng)格搜索結(jié)合10折交叉驗證優(yōu)化λ和σ2。λ和σ2初始優(yōu)化范圍均為e0 ~ e15,每層網(wǎng)格節(jié)點數(shù)15×15,評價函數(shù)為10折交叉驗證結(jié)果的均方根誤差(MSE),收斂判據(jù)為MSE差值小于10-4,最大迭代網(wǎng)格層數(shù)為3。
LS-SVM模型經(jīng)過兩層網(wǎng)格搜索得到最優(yōu)參數(shù)λ為e11.30,σ2為e4.48。建立最終的甜香識別LS-SVM模型,CR為0.8889,AUC為0.9900。
2.2.3辛香識別模型K-S方法從42個非辛香樣本(評分0, 1)和46個辛香樣本(評分2, 2.5)中分別選擇最具代表性的25個作為校正集,其余共38個樣品作為驗證集。預(yù)處理效果如表2所示,選擇先做SNV處理再求SG一階導(dǎo)數(shù)作為光譜預(yù)處理方法建立辛香的LS-SVM分類模型。
λ和σ2初始范圍設(shè)置為e0 ~ e15,網(wǎng)格節(jié)點數(shù)19×19。LS-SVM模型經(jīng)過3層網(wǎng)格搜索得到最優(yōu)參數(shù)λ為e8.65,σ2為e13.60。使用這些參數(shù)建立最終的辛香識別LS-SVM模型,驗證集的預(yù)測準(zhǔn)確率為0.9483,ROC曲線下面積AUC為0.9971。
3結(jié)論
本文研究了煙草評吸中焦香、甜香、辛香三種香氣風(fēng)格的近紅外光譜識別方法。選擇光譜波長范圍,優(yōu)化預(yù)處理方法,建立LS-SVM分類模型。最終焦香的識別準(zhǔn)確率CR為94.7%,ROC曲線下面積AUC為0.99;甜香識別模型的CR為88.9%,AUC為0.99;辛香識別模型的CR為94.8%,AUC為1.00。說明使用近紅外光譜技術(shù)結(jié)合LS-SVM方法快速、準(zhǔn)確地識別烤煙香氣風(fēng)格特征是可行的。
參考文獻(xiàn)
[1]李洪勛,潘文杰,李建偉,等.烤煙內(nèi)在化學(xué)成分分析與感官評吸指標(biāo)的關(guān)系分析[J].湖北農(nóng)業(yè)科學(xué),2013,52(8):1837-1841.
[2]張燕,馬林,孔留艷,等.卷煙香氣風(fēng)格特征聚類分析[J].食品工業(yè),2012,33(8): 152-155.
[3]褚小立.化學(xué)計量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社.2011:23.
[4]Vapnik V. Statistical Learning Theory[M].New York: Wiley-Interscience, 1998.
[5]Suykens J, Vandewalle J. Neural Processing Letters. 1999,9(3):293-300.
[6]Kennard R, Stone L. American Society for Quality Control[J]. Technometrics,1969: 137.
endprint
固體粉末的近紅外漫反射光譜通常受到光的散射效應(yīng)的影響,光譜曲線基線出現(xiàn)漂移,一般需要使用散射校正算法,如多元散射校正(MSC)和標(biāo)準(zhǔn)正態(tài)變量變換(SNV)消除散射。平滑1、2階求導(dǎo)和標(biāo)準(zhǔn)化變換也是常用的光譜預(yù)處理方法。嘗試使用多種預(yù)處理方法及其組合處理原始光譜數(shù)據(jù)和波長選擇后的光譜數(shù)據(jù),選擇使得回歸模型性能最佳的預(yù)處理方案。
識別模型使用K折交叉驗證的平均預(yù)測準(zhǔn)確率(CR)和ROC曲線下面積(AUC)作為評價標(biāo)準(zhǔn)。ROC曲線由所評價模型的不同閾值對應(yīng)的真正率和假正率構(gòu)成,曲線下積分面積作為模型優(yōu)劣的指標(biāo)。
2.2LS-SVM模式識別
2.2.1焦香識別模型Kennard-Stone(K-S)[6]方法從71個焦香樣本(焦香得分1)和72個非焦香樣本(焦香得分0)中各選擇最具代表性的30個樣本組成校正集,其余的83個樣品組成驗證集。首先由10折交互驗證的預(yù)測準(zhǔn)確率(CR)選定最優(yōu)預(yù)處理方法,部分預(yù)處理方法的模型預(yù)測結(jié)果如表2所示。對于焦香識別模型,標(biāo)準(zhǔn)化處理對模型最為有效,CR為0.9354。
表2焦香、辛香、甜香LS-SVM模型光譜預(yù)處理效果
Preprocess CR(%)1) CR(%)2) CR(%)3)
Original4) 0.9065 0.8415 0.8795
None 0.9157 0.8620 0.9362
MSC 0.8791 0.8995 0.9100
SNV 0.8543 0.8732 0.9399
autoscaling 0.9354 0.8752 0.9420
SG smoothing 0.9079 0.8921 0.9245
SG 1st derivative 0.8816 0.8852 0.9111
SG 2nd derivative 0.9035 0.8751 0.9045
MSC + SG smoothing 0.9120 0.8573 0.9414
SNV+SG 1st derivative 0.8289 0.9025 0.9517
注:1) 焦香模型識別準(zhǔn)確率;2)甜香模型識別準(zhǔn)確率;3)辛香模型識別準(zhǔn)確率;4)未做波長選擇的原始光譜,其余均為波長選擇后的處理。
正則化參數(shù)λ優(yōu)化、核函數(shù)選擇和核函數(shù)參數(shù)優(yōu)化是LS-SVM的三個關(guān)鍵問題。由于RBF核的緊致性和計算復(fù)雜度的考慮,選用RBF核作為LS-SVM模型核函數(shù),使用網(wǎng)格搜索結(jié)合10折交叉驗證同時優(yōu)化正則化參數(shù)λ和核寬σ2。設(shè)置多層搜索網(wǎng)格,λ和σ2初始優(yōu)化范圍由經(jīng)驗值確定,均設(shè)置成e-5 ~ e25,每層網(wǎng)格節(jié)點個數(shù)19×19,評價函數(shù)采用10折交叉驗證的均方根誤差(MSE),相鄰層網(wǎng)格最優(yōu)MSE差值小于10-4時迭代收斂,最大迭代網(wǎng)格層數(shù)為3。
LS-SVM模型通過2層網(wǎng)格搜索即得到最優(yōu)參數(shù)λ(e13.28)和σ2(e16.76)。建立最終的焦香識別LS-SVM模型,驗證集的預(yù)測準(zhǔn)確率CR為0.9474,ROC曲線下面積AUC為0.9910。
2.2.2甜香識別模型甜香(評分2.5、3、3.5)和非甜香(評分0、1)樣本各有43個和33個,使用K-S方法從兩類中各選擇最具代表性的20個樣本作為校正集,其余共36個樣本作為驗證集。預(yù)處理結(jié)果如表2所示,先SNV處理再求SG一階導(dǎo)數(shù),模型的交叉驗證識別準(zhǔn)確率最高,為0.9025。
使用網(wǎng)格搜索結(jié)合10折交叉驗證優(yōu)化λ和σ2。λ和σ2初始優(yōu)化范圍均為e0 ~ e15,每層網(wǎng)格節(jié)點數(shù)15×15,評價函數(shù)為10折交叉驗證結(jié)果的均方根誤差(MSE),收斂判據(jù)為MSE差值小于10-4,最大迭代網(wǎng)格層數(shù)為3。
LS-SVM模型經(jīng)過兩層網(wǎng)格搜索得到最優(yōu)參數(shù)λ為e11.30,σ2為e4.48。建立最終的甜香識別LS-SVM模型,CR為0.8889,AUC為0.9900。
2.2.3辛香識別模型K-S方法從42個非辛香樣本(評分0, 1)和46個辛香樣本(評分2, 2.5)中分別選擇最具代表性的25個作為校正集,其余共38個樣品作為驗證集。預(yù)處理效果如表2所示,選擇先做SNV處理再求SG一階導(dǎo)數(shù)作為光譜預(yù)處理方法建立辛香的LS-SVM分類模型。
λ和σ2初始范圍設(shè)置為e0 ~ e15,網(wǎng)格節(jié)點數(shù)19×19。LS-SVM模型經(jīng)過3層網(wǎng)格搜索得到最優(yōu)參數(shù)λ為e8.65,σ2為e13.60。使用這些參數(shù)建立最終的辛香識別LS-SVM模型,驗證集的預(yù)測準(zhǔn)確率為0.9483,ROC曲線下面積AUC為0.9971。
3結(jié)論
本文研究了煙草評吸中焦香、甜香、辛香三種香氣風(fēng)格的近紅外光譜識別方法。選擇光譜波長范圍,優(yōu)化預(yù)處理方法,建立LS-SVM分類模型。最終焦香的識別準(zhǔn)確率CR為94.7%,ROC曲線下面積AUC為0.99;甜香識別模型的CR為88.9%,AUC為0.99;辛香識別模型的CR為94.8%,AUC為1.00。說明使用近紅外光譜技術(shù)結(jié)合LS-SVM方法快速、準(zhǔn)確地識別烤煙香氣風(fēng)格特征是可行的。
參考文獻(xiàn)
[1]李洪勛,潘文杰,李建偉,等.烤煙內(nèi)在化學(xué)成分分析與感官評吸指標(biāo)的關(guān)系分析[J].湖北農(nóng)業(yè)科學(xué),2013,52(8):1837-1841.
[2]張燕,馬林,孔留艷,等.卷煙香氣風(fēng)格特征聚類分析[J].食品工業(yè),2012,33(8): 152-155.
[3]褚小立.化學(xué)計量學(xué)方法與分子光譜分析技術(shù)[M].北京:化學(xué)工業(yè)出版社.2011:23.
[4]Vapnik V. Statistical Learning Theory[M].New York: Wiley-Interscience, 1998.
[5]Suykens J, Vandewalle J. Neural Processing Letters. 1999,9(3):293-300.
[6]Kennard R, Stone L. American Society for Quality Control[J]. Technometrics,1969: 137.
endprint