張 進,姜 紅*,劉 峰,段 斌
(1.中國人民公安大學(xué) 偵查與刑事科學(xué)技術(shù)學(xué)院,北京100038; 2.南京簡智儀器設(shè)備有限公司,南京 210049)
我國是煙草生產(chǎn)與消費大國,香煙在日常生活中隨處可見,在各類刑事案件現(xiàn)場中,常能提取到各種與香煙相關(guān)的物證,如煙蒂、煙盒外包裝薄膜、煙用內(nèi)襯紙等,通過對其檢驗分析,可為公安機關(guān)實際辦案提供幫助。
煙用內(nèi)襯紙是包裝于卷煙煙支和煙盒之間的紙張,其正反兩面分別是金屬層(大多數(shù)是鋁)和紙基層,其紙基層的主要成分為植物纖維[1-3]。目前,檢驗香煙內(nèi)襯紙的方法主要有紅外光譜法[4]、喇曼光譜法[5-6]、掃描電鏡/能譜法[7]和X射線熒光光譜法[8-9]等。GUO等人[10]利用顯微共聚焦喇曼光譜對煙用內(nèi)襯紙的成分做了相關(guān)研究,但喇曼光譜信號較弱,易受干擾,且煙用內(nèi)襯紙樣品具有一定的熒光,會對實驗結(jié)果有一定的影響。作者采用最新的差分喇曼光譜技術(shù)對煙用內(nèi)襯紙樣品進行了檢驗研究,差分喇曼光譜不僅具有無損檢材、處理時間短、操作簡便的特點,而且能直接測量高熒光物質(zhì),濾除干擾峰,抗干擾、抗噪聲,大幅度提高系統(tǒng)整體的檢測靈敏度和信噪比[11]。
本實驗中利用差分喇曼光譜法對44個不同品牌、系列的煙用內(nèi)襯紙樣品進行了檢驗,采用主成分分析對光譜數(shù)據(jù)降維,系統(tǒng)聚類分析對樣品進行分類,用顯著性P值和Pearson相關(guān)系數(shù)對聚類結(jié)果加以評價,并據(jù)此建立了判別式,對樣品做出區(qū)分判定,以期為煙用內(nèi)襯紙的鑒別分類提供幫助。
實驗儀器:便攜式差分喇曼光譜儀(SEDRS Portable-Base,南京簡智儀器設(shè)備有限公司)。
實驗條件:光源采用雙頻輸出(Δλ≤1nm),單頻輸出功率不大于450mW,線寬不大于0.06nm;積分時間30s,激光功率為220mW,測量范圍180cm-1~2800cm-1。
44個不同品牌、不同系列的煙用內(nèi)襯紙樣本信息見表1。
Table 1 Cigarette liner sample information
continue
分別剪取收集到的煙用內(nèi)襯紙樣品約0.5cm×0.5cm大小,以紙基面為檢測面,在上述實驗條件下進行測試,并將數(shù)據(jù)導(dǎo)入IBM SPSS Statistics 25統(tǒng)計分析軟件中進行處理。
隨機選取13#樣品(黃鶴樓/軟藍)和27#樣品(長白山/777系列),在13#樣品的同一位置平行測試10次,以考查方法的重現(xiàn)性;在27#樣品的5個不同位置分別進行測試,以考查樣品的均勻性。
2.3.1 主成分分析 在進行喇曼光譜分析時,由于喇曼數(shù)據(jù)信息龐大,變量之間常面臨信息重疊的問題,使得分析結(jié)果出現(xiàn)偏差,因此常常使用降維手段對數(shù)據(jù)進行處理,減少數(shù)據(jù)維數(shù),為模型的建立做鋪墊。主成分分析是一種常用的降維方法,在保留原數(shù)據(jù)主要信息不變的前提下,將多變量問題處理成一組新的相互無關(guān)的少數(shù)綜合變量的問題,可以有效降低多個變量之間的信息重疊,提高分析結(jié)果的準(zhǔn)確度[12-15]。
2.3.2 系統(tǒng)聚類 系統(tǒng)聚類是首先將每個樣品單獨形成最相似的一類,選定類間距離,計算并比較各類間距離,將距離最小者合并為新的一類,不斷重復(fù),直至將所有樣品歸為一個總類為止。主要的系統(tǒng)聚類方法有最短距離法、中間距離法、離差平方和法等[16-17]。
2.3.3 判別分析 判別分析是判別樣品所屬類型的一種常用多變量統(tǒng)計分析方法,在具有確切的分類條件下,根據(jù)已知研究對象的觀測數(shù)據(jù)和某些判別準(zhǔn)則建立判別函數(shù),對未知對象做出合理的判別分類。常用的判別方法有距離判別法、Fisher判別法、Bayes判別法和逐步判別法[18-20]。
重現(xiàn)性實驗結(jié)果見圖1,均勻性實驗結(jié)果見圖2。由圖1和圖2可以看出,樣品的差分喇曼光譜譜圖的峰數(shù)、峰位、峰形和峰強基本一致,僅個別受宇宙射線的干擾,如圖1所示的10次實驗中出現(xiàn)的1180cm-1,1705cm-1,1763cm-1,1866-1和2230cm-1;圖2中出現(xiàn)的574cm-1和998cm-1,單次實驗出現(xiàn)干擾峰的數(shù)目最多不超過1個,對實驗影響很小。實驗結(jié)果表明:該方法重現(xiàn)性良好,樣品的均勻性良好,可用該方法對煙用內(nèi)襯紙進行檢驗分析。
Fig.1 Reproducible experiment results of 13# sample
Fig.2 Homogeneity experiment results of 27# sample
在生產(chǎn)過程中,生產(chǎn)廠家為了填補植物纖維間的空隙,提升紙張的性能,降低成本,常會加入不同種類、配比、產(chǎn)地、加工工藝的填料和膠料,這些差異會反映在差分喇曼譜圖中,為利用差分喇曼光譜法檢驗煙用內(nèi)襯紙?zhí)峁┝死碚撘罁?jù)。煙用內(nèi)襯紙常用的填料有:碳酸鈣、高嶺土、滑石粉、鈦白粉、氧化鋅、硫酸鋇、二氧化硅等。不同種類的煙用內(nèi)襯紙都含有植物纖維素,區(qū)別主要在于填料。植物纖維素及常見填料的喇曼特征峰見表2。由表2可以看出,填料和纖維素,填料和填料之間,存在很多相近的特征峰,根據(jù)某個特征峰無法判斷出是否含有該填料,因此結(jié)合儀器實際的掃描范圍,對表2中的特征峰進行剔除篩選。經(jīng)過篩選,可以得出識別碳酸鈣的特征峰為711cm-1,1085cm-1;識別高嶺土的特征峰為393cm-1,636cm-1;識別滑石粉的特征峰為289cm-1,360cm-1,674cm-1;識別硫酸鋇的特征峰為459cm-1,1138cm-1。
Table 2 Raman characteristic peaks of cellulose and commonly used fillers for cigarette liner paper
通過對44個煙用內(nèi)襯紙樣品的差分喇曼光譜譜圖初步分析,發(fā)現(xiàn)依據(jù)主要填料的不同可將樣品分為4大類(分類結(jié)果見表3)。第1類樣品中只含有碳酸鈣(見圖3),第2類樣品只含有高嶺土(見圖4),第3類樣品既不含有碳酸鈣,也不含有高嶺土(見圖5);第4類樣品既含碳酸鈣又含高嶺土(見圖6)。
Table 3 Classification results of cigarette liner
Fig.3 Differential Raman spectrum of sample 27#
Fig.4 Differential Raman spectrum of sample 28#
Fig.5 Differential Raman spectrum of sample 19#
Fig.6 Differential Raman spectrum of sample 38#
通過直接比對光譜圖并依據(jù)樣品主要填料的不同,對樣品進行分類的方法,結(jié)果直觀,但不能避免人工主觀帶來的誤差,且當(dāng)樣品成分較復(fù)雜時,比對難度也會增大,因此需要結(jié)合多種客觀分析方法,以期達到準(zhǔn)確的區(qū)分效果。
實驗中將44個樣品的喇曼數(shù)據(jù)處理成喇曼位移-喇曼強度的2維數(shù)組,由于變量(喇曼位移)數(shù)目較多,故采用主成分分析對數(shù)據(jù)進行降維,各主成分得分情況見圖7。貢獻率是指單個主成分在總變異中占據(jù)的比例,代表了此主成分對因變量的影響力大??;累計貢獻率表示了當(dāng)前選擇的所有主成分?jǐn)y帶原數(shù)據(jù)的信息的比例。由圖7可知,提取的24個主成分包含了原喇曼光譜數(shù)據(jù) 93.48%的信息量,其中主成分1 貢獻最大,為 16.89%,表明其對 44 個樣本數(shù)據(jù)的影響力較強,主成分24的方差貢獻率小,為1.05%,其對44個樣本數(shù)據(jù)影響力較弱。
Fig.7 Sample principal component score
將3.3節(jié)中得出的前24個主成分進行系統(tǒng)聚類分析,用平方歐氏距離度量類間距離,聚類方法選擇瓦爾德法,聚類結(jié)果譜系圖見圖8。
Fig.8 System clustering pedigree
由圖8可知,當(dāng)類間距離為最小值時,樣品被分為32類;當(dāng)類間距離為5時,樣品被分為10類,當(dāng)類間距離達到閾值25時,所有樣品被歸為一類。為選擇合理的分類,以連接距離為依據(jù),抽取9#,13#,14#,29#,39#這5個樣品,考察它們的顯著性P值和Pearson相關(guān)系數(shù),計算結(jié)果見表4。
由表4可知,5個樣品的P值都為0.000,說明它們之間的差異具有高度統(tǒng)計學(xué)意義。13#和14#,14#和29#的相關(guān)系數(shù)分別為0.984和0.927,表明兩者的相關(guān)性很強,而9#,39#和其余樣品的相關(guān)系數(shù)均小于0.7,說明其相關(guān)性較弱,因此可以將13#,14#,29#樣品分為一類,9#,39#樣品各自單獨成一類。同理,通過對不同組間距離分類的結(jié)果進行相關(guān)性檢驗,比較P值和Pearson相關(guān)系數(shù),發(fā)現(xiàn):當(dāng)組間距離為7時,分類效果最好,此時樣品被分為5類,分類結(jié)果見表5。
Table 4 Correlation results of 5 samples
Table 5 Clustering results
考慮到在實際辦案中,判斷未知樣本的類別情況意義重大,因此,用主成分分析提取的24個主成分構(gòu)建判別分析,在數(shù)據(jù)分析中,判別分析常和聚類分析聯(lián)合起來使用,這里利用3.4節(jié)中聚類分析得出的最佳分類結(jié)果,選擇各類別的先驗概率與其樣本量成正比進行計算,使用合并的類內(nèi)協(xié)方差矩陣進行分析,得到了各樣本的特征值輸出和Wilk lambda檢驗結(jié)果(見表6)。
Table 6 Eigenvalue output and Wilk lambda test results of each sample
由表6可知,該模型構(gòu)建了4個典則判別函數(shù),其中函數(shù)1攜帶了47.7%的原始信息,函數(shù)2攜帶了33.4%的原始信息,前兩個函數(shù)的累計百分比達81.1%,能較好的解釋原始數(shù)據(jù)的基本特征。Wilk lambda檢驗結(jié)果用于檢驗各個判別函數(shù)有無統(tǒng)計學(xué)上的顯著意義,函數(shù)1、函數(shù)2的Wilk lambda數(shù)值都極接近0,表示組間變異較大,且P值均為0,說明這兩個判別函數(shù)的作用都是顯著成立的。綜上所述,選擇函數(shù)1和函數(shù)2建立聯(lián)合分布散點圖(見圖9),并得出判別結(jié)果(見表7)。
Fig.9 Scatter plot of joint distribution of 5 samples
Table 7 Discriminant analysis results
由圖9可以看出,5類樣本的質(zhì)心在整體上得到了區(qū)分。第1類、第2類、第3類樣品在水平方向上,類與類之間的距離均超過20,因此這3類樣本在函數(shù)1判別軸上區(qū)分明顯;第2類樣本和第4類和第5類樣本在豎直方向上,間隔的距離超過20,因此第2類和第4類和第5類樣本在函數(shù)2判別軸上區(qū)分明顯;第4類樣本和第5類樣本在圖9中區(qū)分不是十分明顯,通過調(diào)節(jié)函數(shù)1判別軸的取值范圍,如圖10所示,將數(shù)值范圍(-30,30)調(diào)節(jié)為(-5,5),可以看出,第4類和第5類的質(zhì)心在水平方向上仍然可以得到很好的區(qū)分。結(jié)合表7中的判別分析結(jié)果可知,該模型能對5類煙用內(nèi)襯紙樣品做出100%的正確分類。如果想考察未知樣本的分類情況,只需要將相應(yīng)數(shù)據(jù)代入上述兩個判別函數(shù),就可以聯(lián)合分布圖上找到位置,從而完成對未知樣本的類別判定。
Fig.10 Scatter plot after changing the axis scale of function 1
利用最新的差分喇曼光譜技術(shù)對44個煙用內(nèi)襯紙樣品(隸屬于20個品牌)做出檢驗,根據(jù)樣品中主要填料的不同,對樣品差分喇曼光譜譜圖做出解析比對,將樣品分為了4類,分類結(jié)果較為直觀。又結(jié)合化學(xué)計量法對實驗數(shù)據(jù)作出處理,使用主成分分析提取了24個有效主成分,降低了數(shù)據(jù)變量的信息重疊,用降維后的數(shù)據(jù)做聚類分析,將樣品分為了5類,并建立了判別式,對44個樣品做出了100%的正確判別,實驗結(jié)果理想,并給未知樣品的判別提供了依據(jù)。該方法無損樣本,快速準(zhǔn)確,將差分喇曼譜圖分析法和化學(xué)計量學(xué)方法有效地結(jié)合在一起,可為公安實踐工作中對微量物證的判別檢驗提供參考。今后,將進一步收集樣本,擴大樣本容量,嘗試結(jié)合其它新型判別分類方法,以期達到對煙用內(nèi)襯紙科學(xué)的分類研究目的,為法庭科學(xué)中物證的鑒別提供幫助。