化學計量學在毒物化學歸因中的應(yīng)用

2021-05-17 02:10:38盧曉剛王紅梅

分析測試學報 2021年4期

盧曉剛，王飛，王紅梅*

(1.國民核生化災害防護國家重點實驗室，北京 102205；2.陸軍裝備部裝備項目管理中心，北京 100072)

法醫(yī)學是一種利用科學手段處理、解決與司法體系利益相關(guān)問題的科學[1]。從復雜證據(jù)中提取關(guān)鍵信息，正確識別采集的證據(jù)樣本，并根據(jù)類別特征對其進行分類有助于在法醫(yī)案件中做出公正的判決。對于大量樣本，輸出數(shù)據(jù)量將大大增加，數(shù)據(jù)分析工作變得非常繁瑣、耗時，且人工檢測可能會產(chǎn)生假陽性結(jié)果。隨著先進的化學計量學方法的多領(lǐng)域運用，其在快速時域中提供了準確和顯著的分析歸納結(jié)果。將化學計量學方法與應(yīng)用于法醫(yī)領(lǐng)域的化學歸因相結(jié)合，對研判因化學物質(zhì)引起的化學安全事件起到了推動作用。

化學歸因是應(yīng)用法醫(yī)學的思路和概念對毒物樣本進行分析和鑒定，從而開展追蹤溯源和歸因研究。其主要目的是通過多種分析技術(shù)結(jié)合一定的化學計量手段對化學物質(zhì)本身或其相關(guān)的材料成分進行解析，尋找其中有價值的成分，對感興趣(或目標)的物質(zhì)(或混合物)進行溯源[2]，而這些有價值的成分稱之為化學歸因特征(Chemical attribution signatures,CAS)。利用CAS能夠提供關(guān)鍵化學特征信息這一重要特性，不論是在中毒溯源還是在法醫(yī)相關(guān)領(lǐng)域開展鑒定工作時，均可根據(jù)它們保留的、缺失的或出現(xiàn)的譜學信息相對強度等，將化學事件或事故現(xiàn)場發(fā)現(xiàn)的樣品和污染證據(jù)與人、地點和其他信息相關(guān)聯(lián)。

毒物的化學歸因研究可起溯自2010年。本文作者從事有機合成及有機磷硫化合物的歸因研究[3-5]，結(jié)合自身研究工作，針對化學計量學在毒物化學歸因研究中的應(yīng)用進行評述，希望幫助相關(guān)研究人員進一步了解每種化學計量學方法及其在毒物化學歸因中的應(yīng)用概況。

1 多變量數(shù)據(jù)分析

不同種類的樣品通過分析方法獲得的光譜或色譜圖是不同的。通過化學計量學手段提取樣品中獨特的信息對特定類別樣品進行分類的方法，稱之為化學模式識別(Chemical pattern recognition)。這些模式識別方法可分為有監(jiān)督模式識別和無監(jiān)督模式識別兩大類。

目前，有監(jiān)督模式識別方法已廣泛應(yīng)用于樣品分類、判別分析、指紋提取和雜質(zhì)檢測等不同的數(shù)據(jù)處理。在這些方法中，必須有訓練集和測試樣本。通過訓練集和測試樣本尋找規(guī)律，訓練模型的最優(yōu)性能。然后，通過外部數(shù)據(jù)測試集對建立的模型進行評估，驗證其有效性。使用有監(jiān)督模式識別的方法有兩種：一是基于類間判別，即偏最小二乘判別分析(Partial least squares discrimination analysis，PLSDA)[6]、K最近鄰分類算法(K nearest neighbors，KNN)[7-8]、支持向量機判別分析(Support vector machine discriminant analysis，SVMDA)[9]和隨機森林(Random forests，RF)[10-11]等；二是基于單個類的建模，即軟獨立建模(Soft independent modeling of class analogies,SIMCA)[12]。

無監(jiān)督模式識別方法主要為主成分分析(Principal components analysis，PCA)，通常作為數(shù)據(jù)分析的第一步，以檢測數(shù)據(jù)的集中趨勢。PCA在不丟失原始數(shù)據(jù)的情況下對數(shù)據(jù)集降維處理[13-15]。由PCA生成的幾個主成分能夠解釋數(shù)據(jù)集中的大部分信息。除了PCA分析外，無監(jiān)督模式識別方法還包括K-均值和層次聚類分析(Hierarchical cluster analysis，HCA)[16]等聚類分析用作分類目的。

2 化學計量學在毒物化學歸因中的應(yīng)用

使用WOS(Web of Knowledge)知識網(wǎng)絡(luò)對2009年至2020年在法醫(yī)學中運用多元分析的文獻進行了調(diào)查，發(fā)現(xiàn)采用化學計量學方法進行法醫(yī)檢查的范圍很廣。法醫(yī)學針對物理層面的分析涉及涂料[17]和紡織纖維[18]等，結(jié)合化學計量學的分析方法檢測微量和未知樣品。經(jīng)過詳細的分析檢查后，法醫(yī)專家判定這兩件物品/證物是否相同。PCA對數(shù)據(jù)進行了簡化，是近年來使用最多的方法。一般會將PCA和其他判別分析方法結(jié)合使用，判別分析的改進形式可能會獲得更好的有價值的結(jié)果。法醫(yī)學針對生物層面的分析鑒定包括血跡[19]和唾液[20]等相關(guān)證據(jù)。最近的文獻表明，在進行DNA分析前，化學計量學與分析方法的結(jié)合，可以提供關(guān)于個體鑒別的有用信息。這種結(jié)合方法提供了基于生物學證據(jù)對嫌疑人進行區(qū)分/個體化的有價值的結(jié)果。法醫(yī)學針對化學層面的分析研究涉及藥物片劑[21-23]、煙草[24]和槍彈殘留物[25]等證物及其鑒定，一些非破壞性的光譜方法，如拉曼光譜[21]、紅外光譜[26-28]和熒光光譜[29-30]獲得較多的應(yīng)用。研究人員利用氣相色譜-質(zhì)譜(GC-MS)[31]和液相色譜-質(zhì)譜(LC-MS)[32]等多種分析技術(shù)，同時利用化學計量學不同的變量方法對輸出數(shù)據(jù)進行分析，以獲得有效、快速、可靠的結(jié)果。然而，關(guān)于毒物化學歸因有關(guān)的文獻目前較少。表1匯總了毒物化學歸因研究中有關(guān)文獻的研究信息。

表1 毒物化學歸因研究Table 1 Chemical attribution of toxic chemicals

2.1 化學計量學在毒性無機物化學歸因研究中的應(yīng)用

無機氰化物是一種重要的化工原料，可應(yīng)用于化學合成、冶金、電鍍、農(nóng)藥及金屬處理等各個方面[43-44]，但它們也是一種劇毒化合物，皮膚傷口接觸、吸入、微量吞食均可導致中毒死亡。2011年，F(xiàn)raga等[33]使用氰化鉀(KCN)作為模型毒物，探索了陰離子雜質(zhì)作為法醫(yī)特征的可行性。該研究針對來自4個國家的8種KCN原料，制備了60種KCN水溶液樣品，采用陰離子交換柱和電導檢測對樣品進行高效離子色譜(High performance ion chromatography，HPIC)分析，對比標樣和空白樣，篩選出11種陰離子雜質(zhì)。根據(jù)樣品和陰離子濃度構(gòu)成了一個數(shù)據(jù)矩陣。為獲取數(shù)據(jù)集的集中變化信息，采用HCA和PCA進行分析。為進一步優(yōu)化樣本聚類，采用Fisher比值法和級別分離法(Degree-of-class separation，DCS)對KCN樣品進行雜質(zhì)特征選擇，篩選出4種特征陰離子雜質(zhì)。為考察以11種陰離子雜質(zhì)和4種特征陰離子雜質(zhì)構(gòu)建的KNN分類模型匹配庫存來源的能力，選取了10個測試樣品進行比較，根據(jù)4種特征陰離子雜質(zhì)進行的來源匹配正確率達到100%，而根據(jù)11種陰離子雜質(zhì)的匹配出現(xiàn)了一處錯誤。作者采用Fisher比值法和DCS進行特征選擇，提高了分類的準確性和置信度，減少了數(shù)據(jù)處理量，有利于模型的廣泛應(yīng)用。

2016年，Mirjankar等[34]進一步采用同位素比值質(zhì)譜法(Isotope ratio mass spectrometry，IRMS)和電感耦合光學發(fā)射光譜法(Inductively coupled plasma optical emission spectroscopy，ICP-OES)對氰化物的化學歸因特征進行研究。為了提高判別的準確性以及剔除無用的雜質(zhì)信息，在特征變量選擇方面采用區(qū)間偏最小二乘(Interval partial least-squares，iPLs)、基于遺傳算法的偏最小二乘(Genetic algorithm-based partial least-squares，GAPLS)與Fisher比值法進行比較，此外，還采用PLSDA、SVMDA與KNN對收集到的數(shù)據(jù)進行比較分析。經(jīng)過數(shù)據(jù)比較發(fā)現(xiàn)，總體而言，iPLs和Fisher比值法優(yōu)于GAPLS。這兩種特征變量選擇法提高了KNN和SVMDA分類的能力，可將分類誤差降至零。

2.2 化學計量學在毒性有機物化學歸因研究中的應(yīng)用

2.2.1 典型化學毒劑的化學歸因研究2010年，F(xiàn)raga等研究了沙林(GB，異丙基甲基膦酸二氟酯)的化學歸因特征[45]，在此基礎(chǔ)上，進一步開展了GB的源匹配研究[35]。該研究以2份97%純度的甲基膦酰二氯(DC)商業(yè)庫存作為原材料合成了6個批次的GB及其中間體甲基膦酸二氟酯(DF)，通過GC-MS對DC、GB和DF樣品進行了分析。在數(shù)據(jù)分析前，對數(shù)據(jù)進行了歸一化處理，可有效糾正由樣品制備引起的變化。由樣品的雜質(zhì)譜庫柱狀圖可以明顯看出不同的庫存樣品之間存在特征分布。作者對比分析了GB和DF的雜質(zhì)譜庫與DC雜質(zhì)譜庫的差異性，發(fā)現(xiàn)合成的GB雜質(zhì)譜的相對數(shù)量與相應(yīng)的DC庫存雜質(zhì)譜相似，說明一些特征雜質(zhì)在合成過程中未發(fā)生變化，可作為歸因溯源的依據(jù)。經(jīng)由HCA聚類分析，能夠直觀地看到GB樣品與相應(yīng)DC樣品庫的聚類信息。作者對篩選的特征雜質(zhì)也進行了簡要分析，推測這些雜質(zhì)可能來源于樣品合成過程中的溶劑、催化劑等。

2016年，F(xiàn)raga等[37]在研究氮芥化合物(HN3)時，探索了合成的HN3與不同試劑庫存匹配的可行性。首先采用GC-MS對具有不同庫存的4種試劑(三乙胺、亞硫酰氯、丙酮和氯仿)樣品的雜質(zhì)進行分析，得到相應(yīng)的雜質(zhì)譜庫。為提高分類的準確性，采用Fisher比值法和DCS進行特征選擇。根據(jù)4種試劑的化學歸因特征，采用PLSDA和KNN對試劑樣品進行分類。所建立的分類模型通過交叉驗證，最高平均分類誤差僅為11%。對比了未建立分類模型的樣品，發(fā)現(xiàn)未建立分類模型的7個氯仿庫存僅有2個得到正確分類。雖然基于試劑雜質(zhì)譜庫建立的模型具有較好的分類性能，但分析由這些試劑合成的HN3樣品時未獲得理想的結(jié)果。由于在合成HN3樣品過程中，一些雜質(zhì)出現(xiàn)損耗及反應(yīng)變化，基于最初的試劑庫存雜質(zhì)譜庫，考察HN3合成樣品及其重復樣品和特定的試劑庫存之間并未發(fā)現(xiàn)明顯的相關(guān)性，無法通過PLSDA和KNN進行分類關(guān)聯(lián)。需要進一步捕獲更加穩(wěn)定的CAS以建立樣品與庫存的關(guān)聯(lián)性。

2018年，Hojer等[38]開展了芥子氣(HD)合成路線的溯源分析研究，根據(jù)11種文獻報道的HD合成方法，制備了66個樣品。樣品經(jīng)GC-MS分析，所得的質(zhì)譜數(shù)據(jù)分析比對篩選出103個CAS。對樣品-CAS組成的數(shù)據(jù)集進行PCA分析獲取數(shù)據(jù)集的集中變化，而后運用正交偏最小二乘判別分析(Orthogonal partial least squares discriminant analysis，OPLSDA)建立樣品分類的多元模型。所建立的模型對不涉及純度較高合成步驟的方法路線能夠較好地分類。該研究還考慮了老化的影響，但由于選擇的CAS隨著時間推移發(fā)生變化，導致某些合成路線的樣品分類出現(xiàn)偏差。該作者還研究了一種能夠快速進行現(xiàn)場分析的手持式拉曼和便攜式紅外儀器(Attenuated total reflectance Fourier transform infrared，ATR-FTIR)[39]。利用HD的光譜數(shù)據(jù)構(gòu)造隨機森林多元模型，根據(jù)光譜中波數(shù)的微小變化對測試集樣本進行分類。隨機森林算法在處理數(shù)據(jù)方面不涉及降維，它是在隨機選擇的數(shù)據(jù)和變量的子樣本上構(gòu)建許多樹(一個森林)。使用分層隨機樣本代替每棵樹上的簡單隨機樣本，以確保所有數(shù)據(jù)源均被平等地表示出來，由于每棵樹中只使用數(shù)據(jù)的1個子樣本，因此未使用的數(shù)據(jù)可用于評估算法，而不會過度擬合。拉曼和紅外光譜在一定程度上可互補，兩者的組合數(shù)據(jù)可使模型性能得到增強，建立的模型針對測試集的分類準確率能達到83%。然而，這項研究對涉及純度較高合成步驟的方法路線的分類不理想。

早期關(guān)于俄羅斯維?？怂?VR)的研究主要集中在化學驗證分析，即證明化合物的使用或存在[46-48]。2018年，Holmgren等[40]開展了VR的溯源分析研究，采用氣相色譜-電子電離質(zhì)譜(GC-MS-EI)分析了6條路線中雜質(zhì)和副產(chǎn)物的化學成分，并標記了49種潛在的CAS。首先利用PCA獲取數(shù)據(jù)集中的變化，在不丟失原始數(shù)據(jù)的情況下對數(shù)據(jù)集進行降維處理。由PCA生成的7個主成分可解釋82%的數(shù)據(jù)集中信息。用PLSDA建立分類模型，根據(jù)CAS的分布情況對訓練集樣品進行合成路線的分類。建立的PLSDA模型對由6條路線合成的11個測試樣品進行了分析預測，準確性達100%。另外，該研究還對樣品進行了衍生化處理，得到相應(yīng)的衍生化雜質(zhì)譜庫。然而，相較于未包含衍生化信息的模型，包含衍生化信息的模型預測性能并未提升。衍生化所針對的是酸、醇類等極性化合物，這些極性化合物不存在太多的特異性，基本屬于所有合成路線的共性化合物，對分類性能貢獻不大。該研究所有樣品的合成和分析由兩個實驗室完成，可在一定程度排除人員以及環(huán)境因素對實驗的影響。該工作是瑞典與美國合作完成的法醫(yī)系列研究之一，在此基礎(chǔ)上，兩國的實驗室還拓展研究了不同食品基質(zhì)對CAS的影響[41-42]。對復雜食品基質(zhì)中含有的VR研究分為兩部分進行，第一部分采用LC-MS/MS多反應(yīng)監(jiān)測方式進行樣品檢測，標記了17個CAS，利用PLSDA建立多變量統(tǒng)計校正模型。該模型能夠?qū)?種路線合成的VR樣品組成的外部測試集進行正確匹配，識別率達到94%。V類神經(jīng)毒劑在水中易水解[49]，這項研究所篩選的特征雜質(zhì)在實驗所選食品基質(zhì)中比較穩(wěn)定，因而能夠達到準確預測的效果。第二部分主要聚焦3條合成路線的VR樣品，比較VR原體樣品和食品基質(zhì)中VR樣品的差別，重點檢測揮發(fā)性雜質(zhì)，采用固相微萃取技術(shù)處理樣品，雖然不同基質(zhì)會對萃取的樣品造成一定影響，但利用該技術(shù)能獲得60%以上的CAS信息。研究采用GC-MS和LC-MS相互結(jié)合鑒定目標物的化學歸因特征，能夠獲取更多有價值的雜質(zhì)信息[50]。該研究進行了特征化合物重要性排序，發(fā)現(xiàn)無論在VR原體樣品還是在食品基質(zhì)VR樣品中，LC-MS檢測出的特征化合物均占據(jù)較大比例。這些化合物結(jié)構(gòu)比較穩(wěn)定，不易發(fā)生水解。該研究將PLSDA與梯度提升機器(Gradient boosted machine，GBM)結(jié)合建立分類模型，GBM是一種基于邏輯的決策算法[51]，對過度擬合問題具有魯棒性，且對小的訓練數(shù)據(jù)集具有較高的性能[11,52]，研究測試的樣品匹配率大于75%。

2.2.2 有機磷農(nóng)藥的化學歸因研究化學計量學手段在處理復雜數(shù)據(jù)時具有出色的表現(xiàn)。2016年，Strozier等[36]選擇隨機森林統(tǒng)計識別技術(shù)(Balanced random forest，BRF)與全二維飛行時間質(zhì)譜(GC×GC-TOF MS)結(jié)合分析3種有機磷農(nóng)藥(毒死蜱、敵敵畏和百治磷)。為了減小樣品老化以及儀器波動的影響，樣品在不同時間進行至少7次的重復分析，確保了數(shù)據(jù)的可靠性。根據(jù)雜質(zhì)峰的存在與否或者峰的響應(yīng)強度，區(qū)別不同來源的樣品。在使用橢圓面積變量的3次實驗中，分類成功率為97%～100%；使用輸入/輸出變量的3次實驗中，分類成功率為87%～100%。為驗證BRF分類模型的準確性，該實驗采用毒死蜱的4個盲樣進行測試，使用輸入/輸出或橢圓面積變量進行盲樣識別時，每個樣本均能正確進行歸屬分類。

上述研究中，PCA分析是近來使用最廣泛的方法，因為它將數(shù)據(jù)矩陣進行降維，通過降維得到的幾個主成分進行分析。在模型開發(fā)前可應(yīng)用PCA來考察數(shù)據(jù)集之間的線性關(guān)系，然后運用判別分析的高級形式獲取相應(yīng)的預測模型。模型的準確性和重要性取決于儀器的敏感性和輸出數(shù)據(jù)，研究人員往往會開發(fā)多個模型比較樣品的分類效果，從而獲取最佳結(jié)果。不同算法以及不同模型的比較也表明，其均可以應(yīng)用于相似類型數(shù)據(jù)集的建模。多變量分析中，一般要進行一定的數(shù)據(jù)預處理，否則可能會獲得假陽性結(jié)果。

3 結(jié) 論