陳 頤 ,范迎杰 ,汪 旭 ,楊 菁 ,趙文濤 ,張志敏*
(1.云南省煙草農(nóng)業(yè)科學(xué)研究院,昆明 650021;2.中南大學(xué) 化學(xué)化工學(xué)院,長沙 410083;3.上海新型煙草制品研究院有限公司,上海 200082)
加熱卷煙是利用特殊加熱源加熱而不點燃的一種新型煙草制品,煙草加熱到足夠高的溫度(一般在500 ℃以下)后僅產(chǎn)生低溫蒸汽[1],有效減少了煙草制品由高溫燃燒產(chǎn)生的潛在有害成分[2]。雷諾公司開發(fā)的“Eclipse”是一種使用碳質(zhì)固體燃料作為熱源的燃料加熱型卷煙產(chǎn)品,其兩段式煙芯材料中添加了煙絲,靠近熱源端的卷煙原料中丙三醇含量較高,而靠近過濾端卷煙原料中不含丙三醇。菲利普莫里斯國際2014 年推出采用電子加熱技術(shù)的“IQOS”產(chǎn)品[3],包括實心濾棒、空心濾棒、聚乳酸薄膜段和煙芯。煙芯作為加熱卷煙核心技術(shù)之一,其煙葉原料的質(zhì)量直接影響和制約新型煙草制品的發(fā)展。因此,需要對加熱卷煙煙葉原料的適用性進行研究。
目前,國內(nèi)對加熱卷煙煙葉原料評價的基礎(chǔ)性研究相對較少,確定其品質(zhì)主要是依靠專業(yè)人員的感官評價。熱裂解-氣相色譜-質(zhì)譜法(Py-GC-MS)可用于分析煙草中復(fù)雜的化學(xué)成分[4]。文獻[5]采用Py-GC-MS分析添加紅茶的加熱卷煙在低溫條件下釋放出的揮發(fā)物含量的變化。隨機森林(RF)是由Leo Breiman在2001年提出的一種算法[6],可用于解決分類和回歸問題,具有良好的泛化性和準確度,在煙草工藝和成分研究方面具有良好的應(yīng)用前景。文獻[7]采用RF 回歸算法對卷煙制絲工藝過程中關(guān)鍵參數(shù)的篩選和賦權(quán)進行了分析。文獻[8]根據(jù)細支卷煙原料的需求,對各類煙草樣品的外觀和感官質(zhì)量指標進行了分析,并采用RF 和邏輯回歸分類模型確定了所選煙草的品控指標。Py-GC-MS分析復(fù)雜樣品時會產(chǎn)生大量數(shù)據(jù),需要利用數(shù)據(jù)處理工具與機器學(xué)習(xí)來解決噪聲、基線和保留時間漂移等問題。借助 MathDAMP[9]、AMDIS[10]、Met Align[11]、MET-IDEA[12]、TagFinder[13]、MSFACTs[14]、MZmine[15]等數(shù)據(jù)處理工具,可從原始數(shù)據(jù)中得到用于建立模型的化合物特征峰表。
本工作采用Py-GC-MS 對加熱卷煙釋放的化學(xué)成分進行分析,利用MZmine數(shù)據(jù)處理工具以及RF算法建立加熱卷煙煙葉原料適用性評價模型,并與偏最小二乘法(PLS)模型進行比對,為深入研究加熱卷煙煙葉原料評價及開發(fā)專用型煙葉原料奠定理論基礎(chǔ)和積累經(jīng)驗。
PY-3030D 型熱裂解儀;GCMS-QP2010 Ultra型氣相色譜-質(zhì)譜聯(lián)用儀;Mettler Toledo MX5型電子天平。
用于試驗研究的28種不同類型的加熱卷煙樣品均源于云南產(chǎn)區(qū),使用scikit-learn軟件包(版本1.0)中的train_test_split函數(shù)隨機劃分訓(xùn)練集和測試集,具體信息見表1。
表1 加熱卷煙樣品信息Tab.1 Information of the heat-not-burn tobacco samples
1.2.1 熱裂解儀
裂解溫度350 ℃;接口溫度300 ℃。
1.2.2 色譜條件
DB-5MS毛細管色譜柱(30 m×0.25 mm,0.25μm);進樣口溫度300 ℃;分流進樣,分流比50∶1;載氣為氦氣,流量1 mL·min-1。柱升溫程序:初始溫度50 ℃;以10 ℃·min-1速率升溫至300℃,保持10 min。
1.2.3 質(zhì)譜條件
電子轟擊離子(EI)源;離子源溫度230℃,傳輸線溫度300 ℃;電離能量70 eV;檢測器電壓0.8 kV;全掃描模式;掃描范圍 質(zhì)荷比(m/z)29~800。
1.3.1 感官評價
按照云南中煙企業(yè)標準Q/YNZY.J04.022-2015《新型卷煙感官評價方法》(此標準目前僅在云南中煙使用,待煙草行業(yè)標準制定并發(fā)布后,將改用行業(yè)標準評價),采用煙霧量、香氣香味、勁頭、諧調(diào)性、刺激性、口感等6項評價指標對卷煙進行打分。每項指標有3個等級的評分標準,其中煙霧量分為煙霧充足(10 分),煙霧略少(8 分),煙霧較少(6分);香氣香味分為香氣豐滿、細膩(30分),香氣充足、少粗糙(25分),香氣偏淡、較粗糙(20分);勁頭分為適宜(10分),略大或略小(8分),較大或較小(6分);諧調(diào)性分為諧調(diào)(10分),較諧調(diào)(8分),尚諧調(diào)(6分);刺激性分為無刺激(15分),略有刺激(12分),刺激較強(9分);口感分為舒適(25分),較舒適(22分),尚舒適(20分)。各項指標的權(quán)重分別為0.10,0.30,0.10,0.10,0.15,0.25。最終得分為單項加權(quán)平均,采用百分制計分,各項指標以0.5分為計分單位。
1.3.2 樣品分析
煙絲經(jīng)液氮冷凍研磨后置于烘箱內(nèi),于40℃干燥,然后過0.18 mm(80 目)篩。稱取樣品粉末0.90 mg于樣品杯中,將其固定于進樣桿上,裝入熱裂解儀。待儀器達到設(shè)定溫度并穩(wěn)定后,按下進樣按鈕,樣品杯通過自由落體迅速掉入熱裂解儀爐心。在氦氣氛圍中,揮發(fā)性成分瞬間氣化,由載氣帶入氣相色譜儀中進行分離,通過聯(lián)用的質(zhì)譜儀檢測,得到樣品的Py-GC-MS數(shù)據(jù)。
1.3.3 數(shù)據(jù)處理
從GCMSsolution2.5 工作站中以NetCDF 格式導(dǎo)出Py-GC-MS 數(shù)據(jù),然后導(dǎo)入MZmine 軟件(版本2.53)進行數(shù)據(jù)處理,包括構(gòu)建提取離子流色譜圖(EIC)、檢測EIC 峰、解卷積和峰校準,以獲得具有m/z、保留時間和峰強度信息的特征峰表。其中解卷積是數(shù)據(jù)處理的重要步驟,采用多元曲線分辨(MCR)進行,包括以下3個步驟:①解卷積窗口的確定;②通過MCR 在每個解卷積窗口中構(gòu)建模型峰;③將解卷積窗口中構(gòu)建的每個EIC峰分解為模型峰的線性組合。將構(gòu)建的質(zhì)譜數(shù)據(jù)以msp格式導(dǎo)出,然后導(dǎo)入NIST 2017庫中進行檢索定性。
1.3.4 建立模型
采用Python編程語言(版本3.8.12)和scikitlearn軟件(版本1.0)中的RF 算法進行回歸分析,建立加熱卷煙化學(xué)成分與感官評價得分(評吸值)之間關(guān)系的RF模型。
RF是一種以決策樹為基礎(chǔ)學(xué)習(xí)器的集成學(xué)習(xí)算法,由很多決策樹共同構(gòu)成。決策樹的每個非葉結(jié)點表示由一種特征屬性引發(fā)的判斷,每個分支代表判斷結(jié)果的輸出,每個葉結(jié)點存放一個決策結(jié)果。使用決策樹進行決策的過程是從根結(jié)點開始,測試待測數(shù)據(jù)中相應(yīng)的特征屬性,并根據(jù)其結(jié)果選擇輸出分支,直到到達葉結(jié)點,獲得決策結(jié)果。
以Gini指數(shù)作為評價指標來衡量樣品中化學(xué)成分的特征重要性[16]。將所有決策樹上每個化學(xué)成分的Gini指數(shù)降低值相加,即可獲得每個化學(xué)成分的特征重要性評分[17]。
1.3.5 模型評價
以均方根誤差(RMSE)和決定系數(shù)(R2)作為模型的評價指標[18]。RMSE 用于衡量模型在預(yù)測中產(chǎn)生的誤差。R2表示預(yù)測值對實際值的解釋程度,越接近于1,說明預(yù)測效果越好;越接近于0,說明預(yù)測效果越差;負值時說明預(yù)測效果非常差。
樣品量太大,會導(dǎo)致色譜柱殘留,污染儀器,影響結(jié)果重現(xiàn)性;樣品量過少,會導(dǎo)致色譜峰的強度下降,數(shù)量減少,有些低含量化學(xué)組分檢測不到。以樣品1為研究對象,分別取0.70,0.90,1.10 mg,按照1.3.2節(jié)進行檢測。
結(jié)果表明:當保留時間為6.0~10.0 min時,基線漂移嚴重,這是由于樣品中丙三醇含量較高、極性較強;當樣品量為0.70 mg時,少數(shù)含量較低的組分未被檢測到;當樣品量為0.90,1.10 mg時,裂解產(chǎn)物的數(shù)量較多,色譜峰強度適中,分離度良好,并且兩者的色譜峰個數(shù)和強度無明顯差別。因此,試驗選擇的樣品量為0.90 mg。
每種樣品分別選取3份,按照試驗方法進行分析,計算樣品中各組分峰面積的相對標準偏差(RSD)。為了便于展示,按照不同RSD 范圍(0~10%,10%~20%,20%~30%)對28種加熱卷煙樣品進行統(tǒng)計分析,結(jié)果見表2。其中,峰個數(shù)百分比=不同RSD 范圍內(nèi)峰個數(shù)/總峰個數(shù)×100%,峰面積百分比=不同RSD 范圍內(nèi)峰面積和/總峰面積×100%。
表2 精密度試驗結(jié)果(n=3)Tab.2 Results of test for precision(n=3)
表2 (續(xù))
結(jié)果表明:每種樣品中峰面積RSD 小于20%的峰個數(shù)和峰面積占總峰個數(shù)和總峰面積的88.00%以上;以樣品1為例,有93.20%的組分峰的峰面積RSD 在20%以內(nèi),占總峰面積的98.30%,說明儀器穩(wěn)定,結(jié)果重現(xiàn)性好。
按照1.3.3 節(jié)對Py-GC-MS 原始數(shù)據(jù)進行處理。以樣品1為例,首先對噪聲進行過濾。取m/z容差參數(shù)(εm/z)為0.2,樣品1 在m/z56.800 0~57.200 0內(nèi)的EIC見圖1(a)。接著,使用連續(xù)小波變換(CWT)[19]檢測EIC 峰,通過不斷改變平移因子和尺度因子來確定峰的位置和邊界。樣品1 在m/z39.050 0通道上所檢測到的EIC峰見圖1(b),共流出區(qū)間的EIC 峰見圖1(c)。通過MCR 解卷積,在解卷積窗口6.170~6.346 min內(nèi)檢測到未被色譜完全分離的共流出區(qū)間中每個組分的色譜峰[圖1(d)]。將解卷積窗口中檢測到的EIC峰分解為模型峰的線性組合,為每個組分構(gòu)建質(zhì)譜數(shù)據(jù)[圖1(e)]。最后根據(jù)質(zhì)譜相似性和保留時間相似性對每個組分峰進行校準,當兩個組分相似度(范圍0~1)不小于0.85時,即認為是同一組分。圖1(e)上半部分代表構(gòu)建的質(zhì)譜數(shù)據(jù),下半部分代表NIST 2017庫中的質(zhì)譜數(shù)據(jù)。結(jié)果表明:峰1的初步定性結(jié)果為苯酚,匹配度為912;峰2的初步定性結(jié)果為2,4-二羥基-2,5-二甲基-3(2H)-呋喃-3-酮,匹配度為738。將包含峰強度信息的特征峰表以csv格式導(dǎo)出,用于建立RF模型。
圖1 數(shù)據(jù)處理結(jié)果Fig.1 Results of data processing
以數(shù)據(jù)處理后獲得的包含峰強度信息的特征峰表作為自變量,評吸值作為因變量,采用RF建立加熱卷煙煙葉原料適用性模型,并與PLS 模型進行對比。
對RF模型性能影響較大的參數(shù)是森林中樹的個數(shù)(n_estimators)、每棵樹隨機選擇的特征數(shù)目(max_features)和樹的最大深度(max_depth)[20]。增加n_estimators可減小誤差并提高預(yù)測的穩(wěn)定性,但訓(xùn)練RF 時間隨著n_estimators的增加顯著延長[21],增加了時間成本;適當減少max_features可降低每棵樹之間的相關(guān)性,有助于提高RF 模型的準確度;max_depth越深,模型越復(fù)雜,也會增加訓(xùn)練的時間成本。將數(shù)據(jù)集劃分為訓(xùn)練集和測試集,采用K折交叉驗證對參數(shù)進行優(yōu)化。當K為10時,結(jié)果得n_estimators=20,max_features=21,max_depth=6。
加熱卷煙感官評價的評吸值與RF、PLS 模型預(yù)測值之間的關(guān)系如圖2所示,RF、PLS模型的評價結(jié)果如表3所示。
由圖2訓(xùn)練集結(jié)果來看,RF 模型具有良好的預(yù)測能力,并且由表3結(jié)果可知RF 模型在測試集上的R2顯著高于PLS模型的,RF模型在測試集上的RMSE值顯著低于PLS模型的,表明RF模型預(yù)測效果較好,具有良好的泛化能力。通過Py-GCMS采集某一類型加熱卷煙的化學(xué)成分信息,用MZmine軟件對Py-GC-MS數(shù)據(jù)進行處理,獲得化學(xué)成分特征信息,將特征信息輸入RF模型,從而得到加熱卷煙的感官評價得分預(yù)測值。
表3 RF、PLS模型的評價結(jié)果Tab.3 Evaluation results of RF and PLS models
圖2 評吸值與RF、PLS模型預(yù)測值之間的關(guān)系Fig.2 Relationships between the suction values and the predicted valuse of RF and PLS models
表4展示了特征重要性評分較高的前20個成分,由NIST 2017庫定性,其中包括2個酸性成分,4個堿性成分,其余均為中性成分。酸性成分可以調(diào)節(jié)煙氣的酸堿平衡、柔和煙氣,對卷煙的香氣和吃味具有積極影響;堿性成分中7-羥基-6-甲氧基-香豆素具有弱甜味[22],特征重要性評分最高,并且雜環(huán)類化合物也是卷煙煙氣中的重要香氣成分;中性成分中,除了醇類、脂類等香味物質(zhì)具有較高的評分外,烴類物質(zhì)(2-甲基十八烷、正十七烷、2-甲基二十八烷)并不屬于香味成分,也具有較高的評分,這是由于烴類物質(zhì)可以調(diào)節(jié)煙葉表面的水平衡,水分的變化也是影響其感官評價的重要因素[23]。
表4 特征重要性評分較高的前20個化學(xué)成分Tab.4 The top 20 chemical compositions with high feature importance scores
本工作采用Py-GC-MS 對加熱卷煙的化學(xué)成分進行分析,利用MZmine軟件對數(shù)據(jù)進行處理,獲得化學(xué)成分特征峰表,基于RF 分析化學(xué)成分特征峰表與加熱卷煙感官評價評吸值之間的關(guān)系,建立了加熱卷煙煙葉原料適用性的RF 模型,并篩選出對RF模型特征重要性影響較高的20個化學(xué)成分。該方法從化學(xué)成分角度對加熱卷煙煙葉原料進行評價,所建模型具有良好的預(yù)測能力和較高的準確度,適用于卷煙質(zhì)量評價背后復(fù)雜化學(xué)成分分析,為優(yōu)化煙草配方及添加劑提供方法參考和探索中式新型煙草制品發(fā)展積累經(jīng)驗。