章英 賀立源 葉穎澤 吳昭輝
摘要:為了探索一種快速有效的烤煙煙葉產(chǎn)地鑒別方法,利用近紅外光譜技術(shù)結(jié)合最小二乘支持向量機(jī)(LS-SVM)對(duì)烤煙煙葉的產(chǎn)地進(jìn)行了判別。選擇云南、湖北、河南三地不同等級(jí)烤煙煙葉作為研究對(duì)象,對(duì)原始光譜數(shù)據(jù)進(jìn)行平滑和附加散射校正(MSC)預(yù)處理后再進(jìn)行主成分分析,選擇4~12個(gè)主成分作為輸入變量進(jìn)行LS-SVM建模。結(jié)果顯示,該LS-SVM模型預(yù)測(cè)效果較好,預(yù)測(cè)相關(guān)系數(shù)rp≥0.990 7,預(yù)測(cè)標(biāo)準(zhǔn)誤差(SEP)和預(yù)測(cè)均方根誤差(RMSEP)分別為1.755 1和1.737 3,優(yōu)于偏最小二乘回歸(PLS)的預(yù)測(cè)結(jié)果,基于LS-SVM的近紅外光譜技術(shù)能夠很好地對(duì)煙葉產(chǎn)地進(jìn)行判別。
關(guān)鍵詞:煙葉;產(chǎn)地判別;近紅外光譜;最小二乘支持向量機(jī)
中圖分類號(hào):TN219文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):0439-8114(2012)03-0583-03
Identification of Producing Area of Tobacco Leaf Based on LS-SVM
ZHANG Ying1a,1b,HE Li-yuan1b,YE Ying-ze1c,WU Zhao-hui2
(a. College of Science; b. College of Resources and Environment; c. Network Center, 1.Huazhong Agricultural University, Wuhan 430070, China; 2. Tobacco Research Center of Henan Academy of Agricultural Sciences, Xuchang 461000, Henan, China)
Abstract: In order to explore a fast and efficient method which determines the producing area of tobacco leaf, near-infrared reflectance spectroscopy with least squares-support vector machines (LS-SVM) was applied to determine producing area of tobacco leaf. Three producing areas including Yunnan, Hubei and Henan were selected as the research objects. As the pretreatments of the optimal smoothing way, moving average with three segments and multiplication scatter correction (MSC) were applied to reduce the noise of the spectra. After the principle component analysis, 4 to 12 principal components (PCs) were chosen as the inputs of LS-SVM models. The Results show that the prediction performance of the LS-SVM model with 12 PCs is better than partial least square(PLS) model. Its correlation coefficient of prediction set (rp) is 0.990 7, standard error of prediction (SEP) is 1.755 1, and root mean square error of prediction (RMSEP) is 1.737 3. It is concluded that NIR spectroscopy with LS-SVM is a feasible method to determine the producing area of tobacco leaf.
Key words: tobacco leaf; origin discriminant; NIR spectroscopy; least squares-support vector machines (LS-SVM)
煙草是我國(guó)重要的經(jīng)濟(jì)作物,煙葉的品質(zhì)與遺傳因素、栽培措施、調(diào)制技術(shù)和產(chǎn)地環(huán)境等密切相關(guān)。其中,產(chǎn)地環(huán)境(海拔、溫濕度、氣候條件等)對(duì)煙葉品質(zhì)的影響極為明顯,也是構(gòu)成不同品牌卷煙特有風(fēng)格的基礎(chǔ),但不同產(chǎn)地的煙葉特征迄今難以量化描述。目前,對(duì)烤煙煙葉產(chǎn)地的判別除依賴感官評(píng)定外,需要對(duì)其化學(xué)成分進(jìn)行分析,判別過(guò)程費(fèi)時(shí)、費(fèi)力。因此,研究一種能夠快速、準(zhǔn)確地對(duì)烤煙煙葉產(chǎn)地進(jìn)行判別的方法非常必要。
Maha等[1]采用神經(jīng)元網(wǎng)絡(luò)方法對(duì)美國(guó)本土及國(guó)外1 000多個(gè)煙葉樣品的近紅外光譜(NIRs)信息進(jìn)行分析,對(duì)本國(guó)煙葉取得了很好的模式識(shí)別結(jié)果。國(guó)內(nèi)研究人員曾采用NIR法預(yù)測(cè)了煙草根、莖、葉中的蛋白質(zhì)、總糖、總氮、總植物堿等[2,3],采用主成分分析的馬氏距離法判別煙葉產(chǎn)地歸屬,獲得了較佳的識(shí)別準(zhǔn)確率[4]。但上述研究均需要對(duì)煙葉進(jìn)行切絲過(guò)篩,屬于有損檢測(cè)且費(fèi)時(shí)費(fèi)力。用NIR法專門針對(duì)收購(gòu)環(huán)節(jié)進(jìn)行完整煙葉品質(zhì)分析預(yù)測(cè)煙葉產(chǎn)地尚無(wú)研究報(bào)道。試驗(yàn)采用近紅外波段(867~258 9 nm)進(jìn)行光譜掃描,應(yīng)用最小二乘支持向量機(jī)(LS-SVM),建立了LS-SVM判別分析組合模型,實(shí)現(xiàn)了烤煙煙葉產(chǎn)地的快速準(zhǔn)確判別。
1材料與方法
1.1儀器及參數(shù)
試驗(yàn)使用光譜檢測(cè)設(shè)備是Ocean Optics公司的NIR256-2.5光纖光譜儀,配套的QBIF600-VIS-BX白金級(jí)Y形分叉光導(dǎo)纖維探頭,儀器光譜采樣間隔6 nm,測(cè)定波長(zhǎng)867~2 589 nm,光纖探測(cè)器與樣品垂直,暗室溫度18~22 ℃,相對(duì)濕度22%~25%,以14.5 V、50W鹵素?zé)魹槲┮还庠?,光源與樣品夾角45°。開(kāi)機(jī)預(yù)熱1 h后進(jìn)行光譜掃描,采樣方式是漫反射,采樣軟件是機(jī)器自帶的Spectra Suite。分析軟件采用ASD View Spec Pro、Unscramble V9和DPS(Data Procession System for Practical Statistics)。積分時(shí)間設(shè)置為250 mm,平滑度設(shè)置為9,平均次數(shù)為3,即對(duì)每個(gè)樣品自動(dòng)掃描3次取平均值。
1.2樣本制備
收集了2010年10月云南、河南、湖北三省的煙草公司提供的已由專家人工定級(jí)的煙葉。為保證試驗(yàn)結(jié)果的代表性,每個(gè)產(chǎn)地?zé)熑~按7個(gè)分組每組1~4個(gè)等級(jí)隨機(jī)選擇90個(gè)樣本。根據(jù)文獻(xiàn)[5]報(bào)道,直接將煙葉樣品平鋪置于載物臺(tái)上,采用漫反射模式采集近紅外光譜,光譜掃描穩(wěn)定后進(jìn)行數(shù)據(jù)采集。保存3條光譜曲線,以其平均光譜作為最終的反射光譜。從全部270個(gè)樣本中,每個(gè)產(chǎn)地隨機(jī)選擇30個(gè)共90個(gè)樣本作為預(yù)測(cè)集,剩余的180個(gè)樣本作為建模集。
1.3光譜數(shù)據(jù)預(yù)處理
首先采用Savitzky-Golay平滑法,平滑點(diǎn)數(shù)?。担靡匀コ庾V曲線中的高頻成分,保留有用低頻信息,然后進(jìn)行附加散射校正(Multiplication Scatter Correction, MSC)處理,以降低煙葉樣本表面不均質(zhì)的散射對(duì)光譜數(shù)據(jù)造成的影響。為了消除光譜數(shù)據(jù)在首尾兩端產(chǎn)生的較大噪音,只?。?101~2 395 nm波段的數(shù)據(jù)進(jìn)行分析,以提高測(cè)量數(shù)據(jù)的信噪比[5]。
2結(jié)果與分析
2.1光譜圖分析
圖1為不同產(chǎn)地?zé)熑~樣本的光譜圖。從圖1可以看出,不同產(chǎn)地?zé)熑~的光譜交錯(cuò)重疊。由于近紅外光譜包含了噪聲、環(huán)境、儀器響應(yīng)、人為操作誤差等各種干擾因素,再加上煙葉樣本表面不均質(zhì)特性,這些都對(duì)光的漫反射有一定影響。要消除這些因素的影響,需要結(jié)合化學(xué)計(jì)量學(xué)方法對(duì)所得的光譜數(shù)據(jù)進(jìn)行處理,從而建立起煙葉不同產(chǎn)地的鑒別模型。
2.2主成分分析結(jié)果
在1 101~2 395 nm光譜范圍內(nèi)一共有193個(gè)輸入變量。雖然這些輸入變量能夠作為輸入值進(jìn)行LS-SVM建模,但是為了提高模型建立的運(yùn)算速度,減少其中的運(yùn)算量,試驗(yàn)采用主成分分析法[6,7]先提取光譜的主成分。主成分分析中主成分?jǐn)?shù)的選擇非常重要,如果建立模型使用主成分?jǐn)?shù)過(guò)少,則不能反映未知樣本被測(cè)組分產(chǎn)生的測(cè)量數(shù)據(jù)變化,其模型的預(yù)測(cè)能力就會(huì)降低;如果選擇的主成分?jǐn)?shù)過(guò)多,就會(huì)將一些代表噪聲的主成分加入到模型中,同樣會(huì)使模型的預(yù)測(cè)能力下降。
利用主成分分析法將經(jīng)過(guò)平滑和附加散射校正預(yù)處理后的光譜數(shù)據(jù)輸入變量進(jìn)行降維,得到的前12個(gè)主成分的累積貢獻(xiàn)率如表1所示。從表1可知,前12個(gè)主成分的累積可信度已達(dá)到99.84%以上,說(shuō)明其能夠很好地代表原始輸入變量的信息,所以每個(gè)樣本的光譜數(shù)據(jù)可以用前12個(gè)主成分代替。
選取前3個(gè)主成分得到3個(gè)不同產(chǎn)地?zé)熑~光譜數(shù)據(jù)的主成分分析三維聚類圖(圖2)。從圖2可以看出,3個(gè)不同產(chǎn)地?zé)熑~樣本之間的界限比較模糊,無(wú)法直接從圖中加以區(qū)別。此外,前3個(gè)主成分的聚類圖只能在3個(gè)維度范圍內(nèi)進(jìn)行直觀、定性地分析,難以定量地精確區(qū)分及預(yù)測(cè)。因此采用LS-SVM對(duì)光譜數(shù)據(jù)在主成分分析基礎(chǔ)之上進(jìn)一步分析。
2.3LS-SVM建模及預(yù)測(cè)
分別用4~12個(gè)主成分進(jìn)行LS-SVM建模,通過(guò)比較基于不同主成分?jǐn)?shù)建立的預(yù)測(cè)模型的精度,最終確定最優(yōu)主成分?jǐn)?shù),模型參數(shù)和精度比較結(jié)果如表2所示。由表2可知,以12個(gè)主成分?jǐn)?shù)作為輸入變量建立的LS-SVM模型預(yù)測(cè)效果最好,其預(yù)測(cè)相關(guān)系數(shù)rp達(dá)到0.990 7,且預(yù)測(cè)標(biāo)準(zhǔn)誤差(Standard Error of Prediction,SEP)和預(yù)測(cè)均方根誤差(Root Mean Square Error of Prediction,RMSEP)均較小,分別為1.755 1和1.737 3。
同時(shí)選用偏最小二乘法(PLS)建立的模型對(duì)煙葉產(chǎn)地進(jìn)行預(yù)測(cè),比較結(jié)果見(jiàn)表3,可以看到LS-SVM模型的預(yù)測(cè)效果好于PLS模型。說(shuō)明LS-SVM模型能夠更好地提取光譜中的有用信息,從而更加精確地預(yù)測(cè)煙葉產(chǎn)地。
3小結(jié)
基于收購(gòu)環(huán)節(jié)的烤煙煙葉質(zhì)量評(píng)價(jià)及產(chǎn)地分析一直是煙草行業(yè)備受關(guān)注的問(wèn)題,近紅外無(wú)損檢測(cè)過(guò)程比常見(jiàn)的化學(xué)方法簡(jiǎn)單、操作性強(qiáng)。試驗(yàn)進(jìn)行了基于近紅外光譜技術(shù)無(wú)損鑒別烤煙煙葉產(chǎn)地的研究,采用近紅外光譜技術(shù)對(duì)不同產(chǎn)地的烤煙煙葉進(jìn)行了檢測(cè)。選擇4~12個(gè)主成分?jǐn)?shù)分別作為輸入變量建立了LS-SVM模型,通過(guò)比較模型參數(shù)確定當(dāng)輸入變量為前12個(gè)主成分時(shí),LS-SVM模型預(yù)測(cè)效果最好,預(yù)測(cè)相關(guān)系數(shù)可以達(dá)到0.990 7,且預(yù)測(cè)結(jié)果優(yōu)于PLS模型。結(jié)果表明,運(yùn)用基于LS-SVM的近紅外光譜技術(shù)可以快速、無(wú)損地檢測(cè)烤煙煙葉的產(chǎn)地,為今后進(jìn)一步研究光譜技術(shù)應(yīng)用于烤煙煙葉收購(gòu)質(zhì)量的檢測(cè)提供了新的途徑。
參考文獻(xiàn):
[1] MAHA H, MCCLURE W F. Applying artificial neural networks. II. Using near infrared data to classify tobacco types and identify native grown tobacco[J]. J Near Infrared Spectra,1997(5):19-25.
[2] 鄧發(fā)達(dá),朱立軍,戴亞,等. 近紅外技術(shù)測(cè)定成品卷煙中總糖和還原糖及綠原酸的含量[J].安徽農(nóng)業(yè)科學(xué), 2010, 38(12):6181-6182,6188.
[3] 覃鑫. 在線近紅外光譜(NIR)快速測(cè)定煙草化學(xué)成分[J].西昌學(xué)院學(xué)報(bào)(自然科學(xué)版), 2010,24(1):52-54,79.
[4] 束茹欣,王國(guó)東,張建平,等. 國(guó)產(chǎn)烤煙煙葉的NIRS模式識(shí)別[J].煙草科技,2006(8):12-15,20.
[5] 章英,賀立源. 基于近紅外光譜的烤煙煙葉自動(dòng)分組方法[J].農(nóng)業(yè)工程學(xué)報(bào),2011,27(4):350-354.
[6] 王徽蓉,李衛(wèi)軍,劉揚(yáng)陽(yáng),等. 基于遺傳算法與線性鑒別的近紅外光譜玉米品種鑒別研究[J].光譜學(xué)與光譜分析,2011,31(3):669-672.
[7] 趙磊,李繼海,朱大洲,等. 5種鹿茸營(yíng)養(yǎng)成分的主成分分析[J].光譜學(xué)與光譜分析,2010(9):2571-2575.
(責(zé)任編輯王曉芳)
收稿日期:2011-08-08
基金項(xiàng)目:國(guó)家科技支撐計(jì)劃項(xiàng)目(2006BAD10A1304);云南省煙草煙葉公司攻關(guān)項(xiàng)目(2009YN010)
作者簡(jiǎn)介:章英(1978-),女,湖北枝江人,講師,在職博士研究生,從事數(shù)字圖像處理技術(shù)和農(nóng)業(yè)信息化的研究工作,(電話)15307115201
(電子信箱)zy@mail.hzau.edu.cn;通訊作者,賀立源,男,河南鞏縣人,教授,從事農(nóng)業(yè)信息化的研究工作,(電話)13971622358
(電子信箱)heliyuan@mail.hzau.edu.cn。