国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于化學指標的煙葉產(chǎn)區(qū)正交偏最小二乘判別分析

2017-03-09 09:10:30王俊許多寬肖勇2王勇陳志華2陳維建
中國煙草科學 2017年1期
關(guān)鍵詞:中國煙草產(chǎn)區(qū)正確率

王俊,許多寬,肖勇2,王勇,陳志華2,陳維建

(1.四川省煙草公司德陽市公司,四川 德陽 618400;2.中國煙草總公司四川省公司,成都 610041)

基于化學指標的煙葉產(chǎn)區(qū)正交偏最小二乘判別分析

王俊1,許多寬1,肖勇2,王勇1,陳志華2,陳維建1

(1.四川省煙草公司德陽市公司,四川 德陽 618400;2.中國煙草總公司四川省公司,成都 610041)

為構(gòu)建基于化學指標的不同產(chǎn)區(qū)煙葉的模式識別模型,收集2003—2007年5個年度四川、云南和福建3省份共計1262份烤煙樣品的21種化學指標,并進行正交偏最小二乘判別分析(OPLS-DA)。結(jié)果表明,基于21種化學指標所構(gòu)建的OPLS-DA模型顯著可靠,模型參數(shù)R2X、R2Y和Q2值分別為0.429、0.702和0.627;模型提取出2個預(yù)測主成分,對四川、云南和福建3省未知煙樣識別正確率分別為76.67%、93.33%和93.33%?;诨瘜W指標的煙葉產(chǎn)區(qū)OPLS-DA模型,可以有效識別不同產(chǎn)區(qū)煙葉樣品,篩選出各產(chǎn)區(qū)特征指標并解釋產(chǎn)區(qū)間差異。

烤煙;化學指標;正交偏最小二乘;判別分析

開發(fā)特色優(yōu)質(zhì)煙葉對于打造中式卷煙核心技術(shù),提高中式卷煙市場競爭力具有重要意義。不同煙葉產(chǎn)區(qū)光照、降水、溫度和土壤等生態(tài)條件差異較大,所生產(chǎn)的煙葉往往具有不同的品質(zhì)和風格特征[1-4],連同品種和栽培措施的差異[5-6],形成了生產(chǎn)特色優(yōu)質(zhì)煙葉的客觀條件。自“特色優(yōu)質(zhì)煙葉開發(fā)”作為《煙草行業(yè)中長期科技發(fā)展規(guī)劃綱要(2006―2020年)》的重大專項實施以來,圍繞煙葉品質(zhì)與環(huán)境關(guān)系、煙葉品質(zhì)區(qū)劃相關(guān)研究頗多,包括相關(guān)[7]、聚類[8-9]、因子[10]、判別[11-14]、模糊數(shù)學[15]、灰色關(guān)聯(lián)[16]、人工神經(jīng)網(wǎng)絡(luò)[17]等多種統(tǒng)計方法被運用。但由于各個化學指標間關(guān)系的不確定性與復(fù)雜性,導致這些統(tǒng)計方法很難系統(tǒng)性地建立煙葉的特征化學指標識別模型[18-19],或模型識別率低[18]。因此,本研究基于煙葉化學指標進行正交偏最小二乘判別分析(Orthogonal Partial Least Squares Regression Discriminant Analysis,OPLS-DA)構(gòu)建不同產(chǎn)區(qū)煙葉的高效模式識別模型,探索不同產(chǎn)區(qū)煙葉之間的化學指標差異,并進行解釋和預(yù)測分析,為辨別煙葉產(chǎn)地、理解和分析煙葉質(zhì)量和風格特色的形成提供幫助和參考。

1 材料與方法

1.1 煙葉樣品

收集整理了“中國煙草科學技術(shù)數(shù)據(jù)庫”[20]中2003—2007年5個年度四川、云南和福建3省份的全部烤煙樣品信息,共計1262份,其中,四川278份、云南691份、福建293份。煙草品種包括K326、K346、NC82、翠碧1號、紅花大金元、云煙85和云煙87。煙葉等級包括B2F、C2F、C3F和X2F。研究中,分別從3個省份各隨機抽取30個煙樣,構(gòu)成含有 90個煙樣的檢測集數(shù)據(jù),用于驗證模型的有效性。剩余的 1172個煙樣作為構(gòu)建模型的訓練集數(shù)據(jù)。

1.2 煙葉化學成分指標

煙葉化學指標數(shù)據(jù)來源于“中國煙草科學技術(shù)數(shù)據(jù)庫”,指標共21種,包括:水溶性總糖、總植物堿、蛋白質(zhì)、總氮、還原糖、總揮發(fā)酸、總揮發(fā)堿、氮堿比、糖堿比、鉀氯比、石油醚提取物總量、醚提取物中性總量、醚提取物酸性總量、醚提取物堿性總量、pH、鉀、氯、硝酸根、硫酸根、灰分和水溶性灰分堿度。

1.3 正交偏最小二乘分析

偏最小二乘判別(Partial Least Squares Regression Discriminant Analysis, PLS-DA)是基于PLS回歸方法,主要反映預(yù)測變量和因變量之間的線性關(guān)系,是一種有監(jiān)督分類方法。它基于X變量構(gòu)建Y變量的預(yù)測模型,并根據(jù)X變量新的預(yù)測集數(shù)據(jù)預(yù)測Y變量。其公式如下:

①式中為X變量均值;為X變量的得分矩陣,是對X變量的概括;P′為X變量的載荷矩陣,是對變量重要性的描述;E為X變量剩余殘差矩陣,度量預(yù)測值和原始值之間的偏差;為Y變量的均值;U為Y變量的得分矩陣,是對Y變量的概括;′為Y變量的載荷矩陣,是對變量重要性的描述;F為X變量剩余殘差矩陣,度量預(yù)測值和原始值之間的偏差;H為總剩余殘差矩陣。

當X變量是光譜數(shù)據(jù)、過程數(shù)據(jù)等,X變量中系統(tǒng)的變異可能同Y變量不是線性相關(guān),即X變量中的這種變異正交在X[21]。雖然正交在X的變異可以由一個 PLS模型來處理,但模型解釋性不強。正交偏最小二乘判別(Orthogonal Partial Least Squares Regression Discriminant Analysis, OPLS-DA)是在偏最小二乘判別分析(PLS-DA)基礎(chǔ)上發(fā)展的算法[21],相較于PLS-DA而言,將X變量中的系統(tǒng)變異分解為兩部分,即同Y線性相關(guān)的部分和同Y正交。隨著正交變異組分的增加,將提供更多的解釋性和減少結(jié)果的誤差[22-23]。

1.4 數(shù)據(jù)預(yù)處理方法

對21種化學指標原始數(shù)據(jù)進行Logit轉(zhuǎn)換,調(diào)整數(shù)據(jù)正態(tài)性;通過Pareto縮放,使數(shù)據(jù)中心化和無量綱化;將化學指標交叉乘積作為虛擬變量[24]。

1.5 統(tǒng)計軟件

采用 SIMCA13(Umetrics AB,Sweden)和Minitab17(TechMax,USA)統(tǒng)計軟件進行統(tǒng)計分析。

2 結(jié) 果

2.1 煙葉化學指標差異性分析

對3個省份煙葉樣品的21種化學指標進行統(tǒng)計分析,結(jié)果見表1??梢钥闯?,四川省煙葉醚提取物中性總量(5.71 mg/g)、醚提取物堿性總量(3.24 μg/g)顯著低于云南和福建兩地;水溶性總糖(32.28%)和硝酸根(0.20%)顯著高于其余兩地;總揮發(fā)酸(0.19%)、總揮發(fā)堿(0.29%)和pH(5.39)介于云南和福建之間。云南省煙葉水溶性總糖(29.87%)、還原糖(24.83%)、總揮發(fā)酸(0.11%)和糖堿比(9.97)顯著低于四川和福建兩地;總揮發(fā)堿(0.30%)、石油醚提取物總量(5.46%)、pH(5.46)、灰分(11.31%)顯著高于四川和福建兩地。福建省煙葉總氮(1.96%)、總揮發(fā)堿(0.24%)、pH(5.34)、氯(0.27%)顯著低于四川和云南兩地;總揮發(fā)酸(0.28%)、鉀氯比(17.83)、鉀(2.74%)和硫酸根(1.72%)顯著高于四川和云南兩地;水溶性總糖(31.15%)介于四川和云南兩地之間??傊参飰A、蛋白質(zhì)和水溶性灰分堿度在四川、云南和福建3個省份的煙樣中無顯著差異。綜上所述,3個省份所產(chǎn)煙葉在多個化學指標上存在顯著差異,是各省份煙葉風格差異的物質(zhì)基礎(chǔ)。

2.2 煙葉化學指標OPLS-DA模型

表2為煙葉化學指標OPLS-DA模型的統(tǒng)計結(jié)果,表明通過訓練集 1172個樣品構(gòu)建的模型篩選出了 2個預(yù)測主成分和 9個正交主成分,而R2X=0.429,表明該11個主成分對X變量變異的解釋能力為42.90%(其中預(yù)測主成分5.30%,正交主成分37.70%);R2Y=0.702,表明模型中2個預(yù)測主成分對Y變量變異的解釋能力為70.20%;Q2=0.627,表明模型中2個預(yù)測主成分對不同產(chǎn)區(qū)的煙葉樣品的預(yù)測能力為62.70%。綜合來看,模型擬合較好。

圖1為基于21種化學指標構(gòu)建的四川、云南和福建3個煙區(qū)煙葉OPLS-DA模型第1、2主成分得分圖。可以看出,各個煙區(qū)樣品群體內(nèi)有明顯的聚集趨勢,且3個煙區(qū)的樣品群體彼此之間能夠較好的分離。其中,橫坐標為第1主成分得分,表明通過第1主成分可以將四川煙樣同云南和福建的區(qū)分開;縱坐標為第2主成分得分,表明通過第2主成分可以將福建煙樣同四川和云南的區(qū)分開。

2.3 模型檢驗

采用CV-ANOVA(交叉驗證方差分析)檢驗了模型的可靠性,結(jié)果(F=99.80,P=0)表明該模型統(tǒng)計上顯著有效。將訓練集 1172個樣品作為驗證集樣品回驗?zāi)P妥R別正確率,結(jié)果可以看出(表3),模型對3個煙區(qū)樣品識別的正確率平均為94.45%,其中四川正確率為88.71%,云南正確率為97.43%,福建正確率為92.40%。

表1 不同省份間煙葉化學指標差異分析Table 1 Statistical results of chemical measurements of tobacco in different provinces

表2 OPLS-DA模型的統(tǒng)計結(jié)果Table 2 OPLS-DA model performance statistics

圖1 OPLS-DA模型第1、2主成分得分圖Fig. 1 Score plot of 1st versus 2nd components in OPLS-DA

進一步用檢測集 90個樣品檢測模型識別正確率,結(jié)果可以看出(表4),模型對3個煙區(qū)樣品識別的正確率平均為 87.78%,其中四川正確率為76.67%,云南正確率為 93.33%,福建正確率為93.33%。

表3 OPLS-DA模型驗證集數(shù)據(jù)識別率Table 3 Accuracy of OPLS-DA model by validation set

表4 OPLS-DA模型檢測集數(shù)據(jù)識別率Table 4 Accuracy of OPLS-DA model by test set

2.4 煙葉特征化學指標篩選

圖2為OPLS-DA模型第1、2主成分載荷圖,表示了第1、2主成分中的各個化學指標與不同煙區(qū)的相關(guān)性大小,即圖中X變量同Y變量越靠近,表示其相關(guān)性越高。圖3為OPLS-DA模型的VIP(Variable Importance for the Projection)圖,VIP值越大,表示各種化學指標對于解釋變量的貢獻越大、與產(chǎn)區(qū)差異的相關(guān)性越高。

從圖3中可以篩選出8個VIP值大于1.5、對建模貢獻率較大的化學指標,結(jié)合圖2和圖3可以發(fā)現(xiàn)煙葉總揮發(fā)酸(X6)和硝酸根(X18)2個化學指標同四川相關(guān)性高;灰分(X20)、醚提取物中性總量(X12)和醚提取物堿性總量(X14)3個化學指標同云南相關(guān)性高;鉀氯比(X10)、鉀(X16)、硫酸根(X19)3個化學指標同福建相關(guān)性高。由表1可以看出,通過OPLS-DA模型篩選的特征物質(zhì),在產(chǎn)區(qū)間差異顯著,具有統(tǒng)計學意義,可以作為產(chǎn)區(qū)特征化學指標。

圖2 OPLS-DA模型第1、2主成分載荷圖Fig. 2 Lording scatter plot of 1st versus 2nd components in OPLS-DA

圖3 OPLS-DA模型VIP值Fig. 3 TheVIPplot of OPLS-DA

3 討 論

張毅[18]采用分類-決策樹方法Mining Tree模型分析了湖南、河南、福建和云南4省煙葉樣品的21個化學指標,提取各煙區(qū)特征化學指標數(shù)量為8個、6個、5個和9個,樣本量越大的煙區(qū)特征指標越多,且部分所篩選指標在各煙區(qū)間存在重疊,如4個煙區(qū)特征指標都包括鉀和硝酸根。本研究構(gòu)建的OPLS-DA模型分別提取了2個、3個和3個指標作為四川、云南和福建特征化學指標,特征指標數(shù)量與樣本容量不相關(guān),并且所提取的特征化學指標具有唯一性,各個煙區(qū)不存在重疊。本研究提取的云南、福建煙葉特征化學指標與上述Mining Tree模型提取的特征指標有異同,說明模型篩選的特征指標只是相對的特征指標,對于不同的煙區(qū)煙葉和分析模型,特征化學指標會有所差異。

對所構(gòu)建的OPLS-DA模型進行交叉驗證時,驗證集數(shù)據(jù)(n=1172)識別率為94.45%,測試集數(shù)據(jù)(n=90)識別率為87.78%,遠高于文獻[18]中21.15%水平。在四川、云南和福建同為清香型煙葉產(chǎn)區(qū),且各產(chǎn)區(qū)內(nèi)產(chǎn)地間差異較大(如四川包括3個二級煙草種植區(qū)劃[25],煙葉包括清香型和中間香型)的背景下,OPLS-DA模型表現(xiàn)良好。研究中,將模型運用于河南、湖南和云南這種產(chǎn)區(qū)間煙葉風格差異明顯,以及玉溪、攀枝花和龍巖這種產(chǎn)地內(nèi)煙葉風格差異較小時,結(jié)果表明模型擬合效果表現(xiàn)更好,未知樣品識別正確率達100%。同時,適當增大訓練集樣本量,有助于于提高模型精度和可靠性[24]。此外,該模型還可以引入煙葉品種、等級、經(jīng)緯度、土壤理化指標、氣象因子等變量,為明確不同產(chǎn)區(qū)煙葉風格特色、形成不同風格特色煙葉的區(qū)域定位和定向生產(chǎn)技術(shù)提供更系統(tǒng)的參考。

4 結(jié) 論

OPLS-DA模型有效地從21種化學指標中篩選出了云南、四川和福建3個烤煙產(chǎn)區(qū)煙葉的唯一特征指標,通過提取的預(yù)測主成分和正交主成分,對不同產(chǎn)區(qū)煙葉之間化學指標的差異進行了解釋和預(yù)測,這為進一步理解和分析不同生態(tài)條件煙葉質(zhì)量和風格特色的形成提供了新的思路和方法。

[1] 韓錦峰,汪耀富,楊素勤. 干旱脅迫對烤煙化學成分和香氣物質(zhì)含量的影響[J]. 中國煙草,1994(1):35-38.

[2] 韋成才,馬英明,艾綏龍,等. 陜南烤煙質(zhì)量與氣候關(guān)系研究[J]. 中國煙草科學,2004(3):38-41.

[3] 王淑芳,王愛忠,奕雙. 熱量條件分析與最佳移栽期探討[J]. 煙草科技,1991(2):4l-44.

[4] 程昌新,盧秀萍,許自成,等. 基因型和生態(tài)因素對煙草香氣物質(zhì)含量的影響[J]. 中國農(nóng)學通報,2005,21(11):137-139.

[5] 楊鐵釗. 煙草育種學[M]. 北京:中國農(nóng)業(yè)出版社,2003.

[6] 中國農(nóng)業(yè)科學院煙草研究所. 中國煙草栽培學[M]. 上海:上??茖W技術(shù)出版社,2005:113-115.

[7] 于建軍,邵惠芳,劉艷芳,等. 四川涼山烤煙葉片巨豆三烯酮含量與生態(tài)因子的關(guān)系[J]. 生態(tài)學報,2009,29(4):1668-1674.

[8] 劉雷,王俊,雷強,等. 涼山和宜賓烤煙煙葉中特征揮發(fā)性物質(zhì)的聚類分析與產(chǎn)地識別[J]. 煙草科技,2013,46(7):58-62.

[9] 王鵬澤,劉鵬飛,來苗,等. 因子、聚類及判別分析在煙葉風格特色評價中的應(yīng)用[J]. 中國煙草科學,2015,36(2):20-25.

[10] 于建軍,代惠娟,李愛軍,等. 鄂西南烤煙主要化學成分因子分析及綜合評價[J]. 甘肅農(nóng)業(yè)大學學報,2008,43(1):98-101.

[11] 畢淑峰,朱顯靈,馬成澤. 逐步判別分析在中國烤煙香型鑒定中的應(yīng)用[J]. 熱帶作物學報,2006,27(4):104-107.

[12] 杜文,易建華,譚新良,等. 基于近紅外光譜的煙葉SIMCA模式識別[J]. 中國煙草科學,2009,15(5):1-5.

[13] LIU L,HUANG Y B,WANG J,et al. Study on Discriminating Flue-Cured Tobacco by Volatile Compounds Related to Geographical Origin and Cultivar[J]. Asian Journal of Chemistry, 2013, 25: 7587-7592.

[14] 施豐成,李東亮,馮廣林,等. 基于近紅外光譜的PLSDA算法判別烤煙煙葉產(chǎn)地[J]. 煙草科技,2013,46(4):56-59.

[15] 王子芳,秦建成,羅云云,等. 基于模糊數(shù)學方法的煙葉品質(zhì)評價[J]. 土壤通報,2008,39(2):349-353.

[16] 唐力為,顧會戰(zhàn),吳紹軍,等. 廣元市植煙土壤養(yǎng)分與其煙葉品質(zhì)的灰色關(guān)聯(lián)分析[J]. 貴州農(nóng)業(yè)科學,2013,47(7):67-72.

[17] 邵惠芳,許自成,李東亮,等. 基于BP神經(jīng)網(wǎng)絡(luò)建立烤煙感官質(zhì)量的預(yù)測模型[J]. 中國煙草學報,2011,17(1):19-25.

[18] 張毅,李強,王政,等. 一種基于分類-回歸決策樹的烤煙產(chǎn)區(qū)識別模型[J]. 中國煙草學報,2014,20(6):28-33.

[19] SADEGHI-BAZARGANI H, BANGDIWALA S I, MOHAMMAD K, et al. Compared application of the new OPLS-DA statistical model versus partial least squares regression to manage large numbers of variables in an injury case-control study[J]. Scientific Research and Essays, 2011, 6(20): 4369-4377.

[20] 國家煙草專賣局科教司.中國煙草科學技術(shù)數(shù)據(jù)庫[DB/OL]. (2003-08-05)[2016-03-21]. http://sjk.ztri.com. cn/tobacco/index.jsp.

[21] TRYGG J, WOLD S. Orthogonal Projections to Latent Structures (OPLS)[J].Journal of Chemometrics, 2002, 16(3): 119-128.

[22] ERIKSSON L, JOHANSSON E, WOLD N, et al. Multiand Megavariate Data Analysis: Advanced Applications and Method Extensions(1st ed.)[M]. Umetrics AB; Umea: 2006.

[23] TRYGG J. Prediction and Spectral Profile Estimation in Multivariate Calibration[J]. Journal of Chemometrics, 2004, 18(18): 166-172.

[24] 李東亮. 數(shù)據(jù)處理方法及其在煙草質(zhì)量評價中的應(yīng)用[M]. 鄭州:鄭州大學出版社,2014.

[25] 中國煙草總公司鄭州煙草研究院,中國農(nóng)業(yè)科學院農(nóng)業(yè)資源與農(nóng)業(yè)區(qū)劃研究所. 中國煙草種植區(qū)劃[M]. 北京:科學出版社,2009.

The OPLS-DA Model of Tobacco Producing Areas Based on Chemical Measurements

WANG Jun1, XU Duokuan1, XIAO Yong2, WANG Yong1, CHEN Zhihua2, CHEN Weijian1
(1. Sichuan Tobacco Corporation Deyang branch, Deyang, Sichuan 618400, China; 2. China National Tobacco Corporation Sichuan Branch, Chengdu 610041, China)

In order to construct the pattern recognition model of tobacco producing areas based on chemical measurements, 21 chemical measurements from 1262 samples of flue-cured tobacco were collected from 2003 to 2007, and were used to construct a OPLS-DA model. The results showed that the OPLS-DA model was highly significant with the following model performance statistics (R2X=0.429,R2Y=0.702,Q2= 0.627). The OPLS-DA of the training set gave a model with two Y-predictive components, and gave the correct rate of 76.67%, 93.33% and 93.33% to distinguish samples from Sichuan, Yunnan and Fujian tobacco producing areas. The OPLS-DA model based on chemical measurements can recognize tobacco samples from different producing areas, and can be used in screening for biomarkers for different areas and providing interpretations for regional difference of tobacco samples.

flue-cured tobacco; chemical measurements; OPLS; discriminant analysis

TS41+1

1007-5119(2017)01-0091-06

10.13496/j.issn.1007-5119.2017.01.016

公益性行業(yè)(農(nóng)業(yè))科研專項“煙草增香減害關(guān)鍵技術(shù)研究與示范”(201203091);中國煙草總公司四川省公司“德陽雪茄煙移栽期研究”(201505)

王 ?。?986-),男,碩士,主要從事煙草化學相關(guān)研究。E-mail:599187325@qq.com

2016-05-10

2016-08-15

猜你喜歡
中國煙草產(chǎn)區(qū)正確率
《中國煙草學報》入編《中文核心期刊要目總覽》2023年版
"中國煙草科教網(wǎng)"平臺簡介
門診分診服務(wù)態(tài)度與正確率對護患關(guān)系的影響
葡萄酒的產(chǎn)區(qū)品牌
收藏界(2019年2期)2019-10-12 08:27:04
葡萄酒的產(chǎn)區(qū)品牌(下)
收藏界(2019年3期)2019-10-10 03:16:48
葡萄酒產(chǎn)區(qū)與『風土』
收藏界(2018年1期)2018-10-10 05:23:20
基于完全壟斷體制下的中國煙草企業(yè)倫理管理淺析
消費導刊(2018年8期)2018-05-25 13:20:23
生意
新疆產(chǎn)區(qū)有機甜菜栽培技術(shù)探討
中國糖料(2016年1期)2016-12-01 06:49:04
品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
天津護理(2016年3期)2016-12-01 05:40:01
永嘉县| 高尔夫| 天祝| 全南县| 察隅县| 吕梁市| 佳木斯市| 梨树县| 平原县| 凌源市| 水城县| 通化市| 习水县| 沽源县| 锡林郭勒盟| 通州区| 乌海市| 呼伦贝尔市| 莱州市| 泌阳县| 大余县| 大田县| 霍山县| 满城县| 黔西县| 桃源县| 襄垣县| 苏尼特右旗| 房山区| 商城县| 泾阳县| 天台县| 盐津县| 太谷县| 乐至县| 齐齐哈尔市| 富民县| 罗甸县| 巧家县| 合山市| 望城县|