文建輝,鐘科軍,杜文,銀董紅,劉惠民
1.湖南中煙工業(yè)有限責(zé)任公司技術(shù)研發(fā)中心,長(zhǎng)沙市勞動(dòng)路426號(hào)410007
2.中國(guó)煙草總公司鄭州煙草研究院煙草行業(yè)煙草化學(xué)重點(diǎn)實(shí)驗(yàn)室,鄭州高新技術(shù)產(chǎn)業(yè)開發(fā)區(qū)楓楊街2號(hào)450001
近年來(lái),以現(xiàn)代儀器分析和化學(xué)計(jì)量學(xué)方法為基礎(chǔ)的指紋圖譜技術(shù)提高了卷煙風(fēng)格和質(zhì)量相關(guān)評(píng)價(jià)的科學(xué)性、可靠性和可操作性[1-5]。主成分分析(PCA)及其投影顯示是指紋圖譜解析中常用的化學(xué)模式識(shí)別方法[6],但采用該法難以準(zhǔn)確評(píng)價(jià)卷煙煙氣色譜。因此,進(jìn)行了用結(jié)合離散的粒子群優(yōu)化算法(discrete particle swarm optimization algorithm,DPSO)[7-12]和PCA投影法解析卷煙煙氣色譜指紋圖譜研究,旨在尋找一種客觀準(zhǔn)確評(píng)價(jià)卷煙煙氣色譜的方法。
Agilent 6890N全二維氣相色譜/Leco飛行時(shí)間質(zhì)譜儀(美國(guó)Leco公司),配備Pegasus 4D工作站;Mettler AE100電子天平(感量:0.0001 g,瑞士Mettler公司);Milli-Q純水機(jī)(美國(guó)Millipore公司);RM1/Plus單通道吸煙機(jī)(德國(guó)Brogwaldt公司);主流煙氣在線冷阱捕集裝置(自制);Binder溫濕度平衡箱(德國(guó)Binder公司)。
乙酸苯乙酯(AR,汕頭市精細(xì)化學(xué)品有限公司);無(wú)水乙醇、二氯甲烷和無(wú)水硫酸鈉(AR,天津市化學(xué)試劑三廠);液氮(常德市畜牧水產(chǎn)局);YDS-3-125液氮罐(四川東亞液氮罐廠);W1和W2同一牌號(hào)兩種規(guī)格卷煙各19批次樣品。
1.2.1 樣本制備與分析
將煙支均勻地放在溫度(22±1)℃和相對(duì)濕度(60±2)%的環(huán)境條件下平衡48 h以上,挑選平均質(zhì)量±0.02 g范圍內(nèi)的煙支為實(shí)驗(yàn)煙支。按照YC/T 29—1996用單通道吸煙機(jī)抽吸煙支,每次抽吸5支卷煙,煙氣通入與吸煙機(jī)連接的冷阱(溫度-15℃~-118℃,致冷介質(zhì)無(wú)水乙醇/液氮溶液,制冷容量3.5 L)煙氣捕集管(內(nèi)徑8 mm石英螺旋管,有效冷凝容積35 mL)中。吸畢,取出捕集管,用1 mL×4二氯甲烷常溫下振蕩提取15 s,合并提取液,加入0.5 g無(wú)水硫酸鈉,室溫下放置過夜,加入0.2 mL 1.0 mg/mL乙酸苯乙酯(內(nèi)標(biāo))溶液,用二氯甲烷定容至4 mL,過濾,濾液取樣進(jìn)行GC/TOFMS分析。分析條件為:
色譜柱:DB-5MS(60 m,250 μm×0.25 μm)石英毛細(xì)管柱;載氣:氦氣,恒1.0 mL/min;進(jìn)樣量:2μL;分流比:20∶1;程序升溫:60℃(1.0 min)(10 min);
傳輸線溫度:280℃;電離方式:EI;電子能量:70eV;離子源溫度:200℃;掃描范圍(m/z):35~450;采集頻率:50 scans/s;溶劑延遲:5 min;掃描方式:TIC。
1.2.2 煙氣色譜的處理與DPSO-主成分投影分析[6]
先將所有煙氣樣品的總離子流色譜圖(TIC)分段線性擬合,扣除基線[2],并用乙酸苯乙酯(內(nèi)標(biāo))校正各色譜峰的保留時(shí)間,再將煙氣樣本的整個(gè)色譜區(qū)間依據(jù)一階導(dǎo)數(shù)法[2]劃分為有明顯色譜峰流出的26個(gè)色譜段,依照保留時(shí)間的長(zhǎng)短依次將這26個(gè)色譜段(二進(jìn)制)編碼,利用隨機(jī)產(chǎn)生的26個(gè)僅含0與1的向量和1個(gè)所有元素都為1的向量作為DPSO法最初的一組可行解,由DPSO通過最小化目標(biāo)函數(shù)式(1)得到優(yōu)化的色譜區(qū)間,通過優(yōu)化色譜區(qū)間的主成分投影分析進(jìn)行判別。譬如,圖1中A為模擬色譜信號(hào),B為模擬信號(hào)A的一階導(dǎo)數(shù),在色譜峰流出區(qū)域,一階導(dǎo)數(shù)由相鄰的一個(gè)正區(qū)間和一個(gè)負(fù)區(qū)間組成,據(jù)此即可將色譜曲線中的各信號(hào)峰所在的區(qū)間一一鑒別、標(biāo)記,然后再進(jìn)行二進(jìn)制編碼,流出峰a~d可分別編碼為1,1,0,1。二進(jìn)制編碼分別表示某次迭代優(yōu)化過程中對(duì)應(yīng)區(qū)間色譜峰是否參與建模(“1”參與,“0”不參與)。所有色譜峰的二進(jìn)制編碼序列都視為一個(gè)粒子,其總長(zhǎng)度等于TIC中色譜區(qū)間的總數(shù)。
圖1 模擬色譜信號(hào)(A)及其一階導(dǎo)數(shù)(B)
使用DPSO尋找各類型卷煙產(chǎn)品煙氣色譜圖中既具專屬性又能反映整體特性的特征指紋峰,最優(yōu)的DPSO目標(biāo)的目標(biāo)函數(shù)[10]為:
式中:Xk為第k(k=1,…,K)組樣本在由前幾個(gè)主成分構(gòu)成的空間中的均值,X為全體樣本在主成分空間中的均值,函數(shù)I(·)為指示函數(shù),當(dāng)樣本xi屬于第k(k=1,…,K)組時(shí),函數(shù)值為1,否則為0。WSS反映了類內(nèi)樣本的相互關(guān)系,而BSS則反映了類間樣本的相互關(guān)系,當(dāng)兩者比值達(dá)到最小時(shí),組內(nèi)樣本具有最大的一致性,而組間樣本則達(dá)到最大的異質(zhì)性。
圖2 W1(紅)與W2(藍(lán))煙氣樣本的全色譜區(qū)間的無(wú)基線、保留時(shí)間校正的總離子流圖(TIC)
為了消除基線漂移的影響,先將W1與W2所有煙氣樣品的TIC譜圖分段線性擬合,扣除基線,并用乙酸苯乙酯(內(nèi)標(biāo))校正各色譜峰的保留時(shí)間,結(jié)果見圖2。由圖2可知,2類屬同品牌卷煙煙氣樣本的全色譜區(qū)間的TIC圖極為相似,難以辨別其差異。而W1與W2的38個(gè)煙氣樣本的全色譜區(qū)間的主成分投影分析結(jié)果(圖3)顯示,兩組煙氣樣本全色譜區(qū)間的主成分投影結(jié)果間的分散度極小,兩類樣本嚴(yán)重重疊,采用全色譜區(qū)間的主成分投影分析結(jié)果亦無(wú)法考察W1與W2煙氣樣本之間的差異。其原因可能是兩類卷煙產(chǎn)品在葉組及香精香料配方上差別不大,在大部分色譜區(qū)間都有很高的相似度,故全色譜區(qū)間的主成分投影分析難以區(qū)分這兩類卷煙煙氣樣本。
為獲取可區(qū)分W1與W2兩組煙氣樣本的色譜區(qū)間,先將煙氣樣本的整個(gè)色譜區(qū)間依據(jù)一階導(dǎo)數(shù)法[2]劃分為有明顯色譜峰流出的26個(gè)色譜段。每個(gè)色譜段中僅包含一個(gè)色譜峰,這個(gè)色譜峰可能代表一種成分,也可能代表保留時(shí)間相近的多個(gè)成分。然后,依照保留時(shí)間的長(zhǎng)短依次將這26個(gè)色譜段二進(jìn)制編碼??紤]到數(shù)據(jù)集的大小,利用隨機(jī)產(chǎn)生的26個(gè)僅含0與1的向量和1個(gè)所有元素都為1的向量(對(duì)應(yīng)于26個(gè)色譜區(qū)間的主成分投影分析)作為DPSO法最初的一組可行解,即26個(gè)色譜區(qū)間不同組合的初始解。最優(yōu)的色譜區(qū)間組合由DPSO通過最小化目標(biāo)函數(shù)式(1)得到。結(jié)果表明,在26個(gè)色譜段中有6個(gè)保留時(shí)間區(qū)域的色譜峰可用于評(píng)價(jià)W1與W2煙氣樣品的差異。這6個(gè)色譜區(qū)域?qū)?yīng)的保留時(shí)間段分別為395.678~399.318,556.418~562.238,704.138~712.9180,1619.338~1628.958,1962.798~1971.918,1972.258~1979.398 s。這些區(qū)域的色譜峰在W1與W2兩類煙氣樣本組內(nèi)樣本間的離散度較小,而組間樣本間的離散度較大,即DPSO法搜索的這6個(gè)色譜區(qū)間對(duì)鑒別W1與W2兩類煙氣樣本是具判別力的。W1與W2的38個(gè)煙氣樣本在這6個(gè)保留時(shí)間區(qū)間內(nèi)的色譜峰的主成分投影分析結(jié)果見圖4。由此可以看出,W1與W2煙氣樣品在這6個(gè)色譜區(qū)間的前兩個(gè)主成分構(gòu)成的投影空間中,這兩種高相似度的卷煙產(chǎn)品的煙氣樣本得到了各自較為清晰可分辨的投影范圍,說(shuō)明這6個(gè)色譜區(qū)間內(nèi)的色譜峰確實(shí)能提供較多的判別信息。而且,這38個(gè)煙氣樣本在包含幾乎所有具有明顯色譜峰流出的26個(gè)色譜段的色譜區(qū)間內(nèi)的主成分投影分析結(jié)果(圖5)亦顯示,當(dāng)用具有明顯色譜峰流出的這26個(gè)色譜段做主成分投影分析時(shí),兩組煙氣樣本在第一、第二主成分構(gòu)成的投影空間中依然嚴(yán)重重疊,這可能是較多的不具判別信息的色譜區(qū)間的太多的無(wú)用信息干擾所致。
圖3 W1與W2煙氣樣本的全色譜區(qū)間流出峰在第一、第二主成分上的投影圖
此外,DPSO迭代搜尋特征色譜流出區(qū)間過程中的目標(biāo)函數(shù)值Fit的變化情況(圖6)表明,隨著迭代次數(shù)的增加,F(xiàn)it值呈現(xiàn)較好的收斂特性,且能快速收斂到最優(yōu)解,在50代以內(nèi)算法即收斂,從而保證了最優(yōu)色譜區(qū)間的搜索效率。
圖6 W1與W2煙氣樣本的GC/TOFMS數(shù)據(jù)的DPSO收斂曲線
為進(jìn)一步考察DPSO法結(jié)合主成分投影分析搜尋的色譜區(qū)間提供的分類判別信息的可靠性和穩(wěn)定性,將W1與W2的38個(gè)煙氣樣品隨機(jī)地分成樣本量大致相等完全獨(dú)立的5份,取1份作測(cè)試集,其他4份作訓(xùn)練集,獲得5種不同的訓(xùn)練集、測(cè)試集組合,然后在這5組數(shù)據(jù)上重復(fù)進(jìn)行試驗(yàn),并在最優(yōu)色譜流出區(qū)間建立偏最小二乘(PLS)分類模型,獲取5次獨(dú)立計(jì)算結(jié)果,同時(shí)也在全色譜區(qū)間和全26個(gè)色譜段建立PLS分類模型,3種模型各次計(jì)算的結(jié)果及5次的平均結(jié)果見表1。
表1 3種色譜區(qū)間的PLS分類模型對(duì)W1與W2煙氣樣本的分類建模的訓(xùn)練與預(yù)測(cè)結(jié)果
由表1可以看出,在各次計(jì)算中,全色譜區(qū)間建立的PLS模型精度最差,每次計(jì)算中均出現(xiàn)預(yù)報(bào)錯(cuò)誤的樣本,而且在模型預(yù)測(cè)方面,其性能也是最差的,5次計(jì)算測(cè)試集的平均預(yù)報(bào)錯(cuò)誤數(shù)為2個(gè)樣本??赡苁且?yàn)?,在整個(gè)色譜區(qū)間建模,難以避免冗余色譜信息對(duì)模型訓(xùn)練的干擾。26個(gè)色譜段和DPSO優(yōu)化色譜段上建立的PLS模型對(duì)訓(xùn)練集的預(yù)報(bào)基本上都能達(dá)到100%準(zhǔn)確率,但在模型預(yù)測(cè)上26個(gè)色譜段的模型卻遜色于優(yōu)化色譜區(qū)間模型,優(yōu)化色譜區(qū)間的PLS模型每次計(jì)算均表現(xiàn)出很高的訓(xùn)練集和測(cè)試集分類準(zhǔn)確度,在各次計(jì)算中,訓(xùn)練集的預(yù)報(bào)錯(cuò)誤數(shù)均為0,獲得了很好的模型訓(xùn)練,測(cè)試集的5次計(jì)算中有4次預(yù)報(bào)錯(cuò)誤數(shù)為1,一次為0。這說(shuō)明,DPSO法結(jié)合主成分分析搜尋的最優(yōu)色譜區(qū)間提供的判別信息是有效的,可靠的。
DPSO法結(jié)合主成分分析是一種能在復(fù)雜譜圖中有效提取具有較強(qiáng)類別判別能力的色譜區(qū)間的方法。主成分投影分析能合理地評(píng)價(jià)不同色譜區(qū)間包含的信息對(duì)于類別的判別能力,結(jié)合DPSO法則能自動(dòng)搜尋到最優(yōu)的色譜流出區(qū)間并保證數(shù)據(jù)分析的效率。本方法能夠快速有效地定位合理的色譜區(qū)間,且助于建立有效的主流煙氣樣本分類模型。
[1]閆克玉.煙草化學(xué)[M].鄭州:鄭州大學(xué)出版社,2002.
[2]俞汝勤.化學(xué)計(jì)量學(xué)導(dǎo)論[M].長(zhǎng)沙:湖南教育出版社,1991.
[3]閆克玉,王光耀,許志杰,等.指紋圖譜技術(shù)在煙草行業(yè)中的應(yīng)用研究進(jìn)展[J].鄭州輕工業(yè)學(xué)院學(xué)報(bào)(自然科學(xué)版),2008,23(1):6-10.
[4]李軍,朱蘇閩,林平.固相微萃取-氣相色譜-質(zhì)譜指紋圖譜鑒別仿冒品牌卷煙[J].煙草科技,2002(12):26-28.
[5]余苓,張怡春,周春平,等.煙絲硅烷化GC指紋圖譜在卷煙質(zhì)量判別中的應(yīng)用[J].中國(guó)煙草學(xué)報(bào),2007,13(3):18-20.
[6]Wu W,Massartd D L,de Jong S.The kernel PCA algorithms for wide data.Part1:Theory and algorithms[J].Chemometr Intell Lab Syst,1997,36(2):165-172.
[7]Lin W Q,Jiang J H,Yu R Q,et al.Optimized block-wise variablecombinationbyparticleswarmoptimizationfor partial least squares modeling inquantitativestructureactivity relationship studies[J].J Chem Inf and Model,2005,45(2):486-493.
[8]ShenQ,JiangJH,YuRQ,etal.Modifiedparticle swarmoptimizationalgorithmforvariableselectionin MLR and PLS modeling:QSAR studies of antagonism of angiotensin II antagonists[J].Eur J Pharm Sci,2004,22(2-3):145-152.
[9]ZhouYP,JiangJH,LinWQ,etal.Adaptive configuringofradialbasisfunctionnetworkbyhybrid particleswarmalgorithmforQSARstudiesoforganic compounds[J].J Chem Inf Model,2006,46(6):2494-2501.
[10]Krnnedy J,Eberhart R.Particleswarmoptimization[C]//Proceedings of IEEE International Conference on Neural Networks.Piscataway.IEEE Press,1995:1942-1948.
[11]Ciuprina G,Loan D,Munteanu I.Use of intelligent-particle swarm optimization in electromagnetics[J].IEEE T Magn,2002,38(2):1037-1040.
[12]Clerc M,Kennedy J.The particle swarm-explosion,stability andconvergenceinamultidimensionalcomplexspace[J].IEEE T Evolut Comput,2002,6(1):58-73.