朱 強(qiáng),俞建成,張 榮
(寧波大學(xué)信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
氣相色譜-質(zhì)譜聯(lián)用儀可以定性和定量分析混合物的組成成分[1],在石油化工[2]、材料分析[3]、食品科學(xué)[4]、生物醫(yī)學(xué)[5]、環(huán)境監(jiān)測[6]和軍事工業(yè)[7]等領(lǐng)域都發(fā)揮著重要作用。目前,待測樣品的鑒定主要通過譜庫檢索的方式,計算樣品質(zhì)譜圖與參考譜圖的相似度,找到相似度最高的若干譜圖[8]。因此,提高譜庫檢索算法的性能尤為重要。
為了提高檢索的性能,研究者提出了多種相似度計算方法,如Hertz相似度算法[9]、PBM算法[10]、SS組合算法[11]、歐幾里得距離算法[12]、加權(quán)點積相似度算法[13]等。其中,Stein和Scott[11]提出的SS組合算法是由加權(quán)點積相似度算法和峰比例算法組合而來,測得質(zhì)譜圖匹配的準(zhǔn)確度最高。Koo等[14]提出了基于小波和傅里葉變換的復(fù)合相似度算法,該算法比加權(quán)點積相似度算法計算的相似度更大,此外,他們使用統(tǒng)計的方式找到最優(yōu)的權(quán)值因子[15]。Kim等[16]研究了偏相關(guān)和半偏相關(guān)的相似度算法,該算法相比之前的算法有更高的識別精度,但是會消耗大量的時間。
SS組合算法是近年來提出的組合算法的基礎(chǔ),該算法的改進(jìn)有助于優(yōu)化相關(guān)算法。為了提高它的性能,在原有算法的基礎(chǔ)上采用了優(yōu)化的權(quán)值因子,重新分配了峰比例因子和加權(quán)因子的系數(shù)。
Agilent 7890B-5977A氣相色譜-質(zhì)譜聯(lián)用儀:美國Agilent公司產(chǎn)品;三硫磷、樂果、乙硫磷、滅克磷、倍硫磷、亞胺硫磷、地磷丁烯酯、甲拌磷(純度均大于99.0%):阿爾塔科技有限公司產(chǎn)品。
1.2.1色譜條件 色譜柱:HP-5MS(30 m×250 μm×0.25 μm);升溫程序:初始溫度60 ℃,保持2.00 min,以25 ℃/min升至150 ℃,然后以3 ℃/min升至200 ℃,再以8 ℃/min升至325 ℃,保持2.28 min;進(jìn)樣方式:脈沖不分流進(jìn)樣;開閥時間0.80 min;進(jìn)樣量1.0 μL;分流比20∶1;載氣為He(>99.999%);載氣流速1.0 mL/min(恒流)。
1.2.2質(zhì)譜條件 離子源能量70 eV;離子源溫度230 ℃;掃描速度為低速;質(zhì)量掃描范圍m/z50.00~500.00;溶劑延遲時間3.00 min。
參考譜庫:提取NIST 11主庫中212 961張質(zhì)譜圖;查詢譜圖:提取NIST 11復(fù)制庫中30 932張質(zhì)譜圖;電腦配置為CPU:i3-4160、3.60 GHz;內(nèi)存:8.00 GB;操作系統(tǒng):Windows 7旗艦版;使用Eclipse Mars.1 (4.5.1)編寫所有程序。
1.4.1SS組合算法 加權(quán)點積相似度算法的公式[11]如下:
(1)
(2)
(3)
式中,αn是質(zhì)譜圖中第n個質(zhì)荷比的數(shù)據(jù),βn是第n個質(zhì)荷比對應(yīng)的峰強(qiáng)度值,Stein和Scott提出的權(quán)值因子為x=3,y=0.5。
峰比例公式[11]如下:
(4)
式中,ui、vi是相同質(zhì)荷比的非零峰,前者峰值比小于后者時,n=1,否則n=-1。由式(1)和式(4)組合的算法[11]如下:
Sss(Uw,Vw)=
(5)
式中,NR是未知譜圖中峰強(qiáng)度不為零的質(zhì)荷比的數(shù)目,NQ∧R是未知譜圖和參考譜圖都含有的峰強(qiáng)度不為零的質(zhì)荷比的數(shù)目。
1.4.2組合算法的改進(jìn) 首先,采用的權(quán)值因子為x=1.3,y=0.53,這是Kim等[15]通過大量研究得到的,比使用其他權(quán)值因子得到的準(zhǔn)確度更高。此外,周義等[17]也做了權(quán)值因子比較,發(fā)現(xiàn)該權(quán)值因子能夠提高同種算法的相似度。
其次,由于原系數(shù)的分配沒有側(cè)重點,重新分配了式(5)中SC(Uw,Vw)、SD(Uw,Vw)的系數(shù)NR、NQ∧R。在計算過程中,無論2個質(zhì)譜圖是否相似,以NR為系數(shù)的SC(Uw,Vw)都是計算的重點,而以NQ∧R為系數(shù)的SD(Uw,Vw)只在質(zhì)譜圖足夠相似時才能發(fā)揮作用。因此,將原系數(shù)NR、NQ∧R分別用2·NQ∧R、NR-NQ∧R取代,系數(shù)之間相互制約。在質(zhì)譜圖相似程度低時,不同譜圖的同種質(zhì)荷比的強(qiáng)度也會相差較大,這時傾向于峰比例計算;而在相似程度高時,相同質(zhì)荷比的數(shù)目增多,并且相同質(zhì)荷比對應(yīng)強(qiáng)度之間的差距減小,這時傾向于加權(quán)點積相似度計算,可以進(jìn)一步提高質(zhì)譜圖之間的相似度。改進(jìn)后的算法公式如下:
Sss(Uw,Vw)=(2·NQ∧RSC(Uw,Vw)+
(NR-NQ∧R)·SD(Uw,Vw))/(NR+NQ∧R)
(6)
最后,利用該算法計算質(zhì)譜圖之間匹配的準(zhǔn)確度和相似度評價該算法的性能,準(zhǔn)確度的計算公式如下:
(7)
選擇兩組不同的實驗樣品,第一組是提取NIST 11查詢庫中的30 932張質(zhì)譜圖,分別與參考庫中212 961張質(zhì)譜圖進(jìn)行比較;第二組是氣相色譜-質(zhì)譜聯(lián)用儀檢測8種不同的實驗樣品獲得的質(zhì)譜圖,與NIST 11標(biāo)準(zhǔn)參考庫中的212 961張質(zhì)譜圖進(jìn)行對比。
在相似度方面,為了評價改進(jìn)的組合算法性能,與SS組合算法進(jìn)行比較,分別對查詢庫中的30 932個質(zhì)譜圖進(jìn)行分析,其中有29 214個質(zhì)譜圖的相似度在使用改進(jìn)的組合算法之后得到提高,占總數(shù)的94.45%。
此外,分別用兩種組合算法計算了8種不同實驗樣品的相似度,結(jié)果列于表1。
表1 樣品的相似度Table 1 Similarity of the samples
可見,使用改進(jìn)的算法,待測樣品的相似度分別提高了2.608%、1.048%、4.387%、1.137%、5.158%、3.560%、7.249%、3.350%,平均提高了3.56%。
首先分析了參考庫中30 932張質(zhì)譜圖,根據(jù)式(7),用改進(jìn)的組合算法計算質(zhì)譜圖匹配的準(zhǔn)確度,并與SS組合算法進(jìn)行比較,結(jié)果列于表2。
表2 查詢庫中組合算法計算的準(zhǔn)確度Table 2 Accuracy calculated of composite algorithm in the query library
當(dāng)在參考庫中只考慮1個化合物時,使用SS組合算法,查詢庫中能夠正確匹配的譜圖比例為77.40%,而改進(jìn)的組合算法可達(dá)到78.55%,提高了1.15%。隨著參考庫中被考慮的化合物數(shù)目增多,正確匹配的比例也逐漸增大,改進(jìn)的組合算法的計算準(zhǔn)確度均高于SS組合算法。當(dāng)增大到10個化合物時,改進(jìn)的組合算法能夠正確匹配的比例達(dá)到98.13%,SS組合算法僅為97.81%。
然后,使用該算法分析了8種不同樣品在NIST 11中的命中情況,根據(jù)質(zhì)譜圖之間相似度大小排序,結(jié)果列于表3。
表3 樣品命中表Table 3 Hit list of the samples
從表3可知,使用SS組合算法檢測亞胺硫磷時,參考庫需要考慮3個化合物,而改進(jìn)的組合算法僅需考慮1個化合物,并且改進(jìn)的組合算法和NIST 11檢測結(jié)果完全一致。
本研究采用優(yōu)化的權(quán)值因子,重新分配了SS組合算法的加權(quán)點積相似度算法和峰比例算法的系數(shù)。為了評價該算法的性能,對該算法計算的相似度和準(zhǔn)確度進(jìn)行分析。結(jié)果表明,該算法能夠有效地提高譜圖匹配的相似度和準(zhǔn)確度。此外,該算法對于改進(jìn)近年來以SS組合算法為理論基礎(chǔ)的其他算法也有參考意義。
參考文獻(xiàn):
[1] FERNANDES D R, PEREIRA V B, STELZER K T, et al. Quantification of traceO-containing compounds in GTL process samples via Fischer-Tropsch reaction by comprehensive two-dimensional gas chromatography/mass spectrometry[J]. Talanta, 2015, 144: 627-635.
[2] SMITH P A, KLUCHINSKY T A, SAVAGE P B, et al. Traditional sampling with laboratory analysis and solid phase microextraction sampling with field gas chromatography/mass spectrometry by military industrial hygienists[J]. American Industrial Hygiene Association Journal, 2002, 63(3): 284-292.
[3] GUILLONG M, HAMETNER K, REUSSER E, et al. Preliminary characterisation of new glass reference materials (GSA-1G, GSC-1G, GSD-1G and GSE-1G) by laser ablation-inductively coupled plasma-mass spectrometry using 193 nm, 213 nm and 266 nm wavelengths[J]. Geostandards and Geoanalytical Research, 2005, 29(3): 315-331.
[4] 黃湛艷,王志偉. GC-MS檢測食品包裝用PET中6種潛在添加的小分子化合物[J]. 現(xiàn)代食品科技,2016,32(1):297-303.
HUANG Zhanyan, WANG Zhiwei. Determination of six small-molecule compounds in polyethylene terephthalate (PET) used for food packaging by GC-MS[J]. Modern Food Science and Technology, 2016,32(1): 297-303(in Chineses).
[5] CHRISTOU C, GIKA H G, RAIKOS N, et al. GC-MS analysis of organic acids in human urine in clinical settings: a study of derivatization and other analytical parameters[J]. Journal of Chromatography B Analytical Technologies in the Biomedical & Life Sciences, 2014, 964: 195-201.
[6] DUERING R A, KOHL C D, GASCH T, et al. Detection of infochemicals in agriculture and environmental chemistry by in situ GC-MS/EAD and semiconductor gas sensors[C]. Sensors and Measuring Systems 2014; 17. ITG/GMA Symposium; Proceedings of. VDE, 2014: 7-12.
[7] BEDNAR A J, RUSSELL A L, HAYES C A, et al. Analysis of munitions constituents in groundwater using a field-portable GC-MS[J]. Chemosphere, 2012, 87(8): 894-901.
[8] 李寶強(qiáng),李翠萍,郭春濤,等. 基于小波變換的譜圖預(yù)檢索和精檢索的組合匹配算法[J]. 質(zhì)譜學(xué)報,2014,35(2):118-124.
LI Baoqiang, LI Cuiping, GUO Chuntao, et al. A composed matching algorithm of spectrum pre-search and precision search based on wavelet transform[J]. Journal of Chinese Mass Spectrometry Society, 2014, 35(2): 118-124(in Chinese).
[9] HERTZ H S, HITES R A, BIEMANN K. Identification of mass spectra by computer-searching a file of known spectra[J]. Analytical Chemistry, 1971, 43(6): 681-691.
[10] ATWATER B L, STAUFFER D B, MCLAFFERTY F W, et al. Reliability ranking and scaling improvements to the probability based matching system for unknown mass spectra[J]. Analytical Chemistry, 1985, 57(4): 899-903.
[11] STEIN S E, SCOTT D R. Optimization and testing of mass spectral library search algorithms for compound identification[J]. Journal of the American Society for Mass Spectrometry, 1994, 5(9): 859-866.
[12] RASMUSSEN G T, ISENHOUR T L. The evaluation of mass spectral search algorithms[J]. Journal of Chemical Information & Modeling, 1979, 19(3): 179-186.
[13] TABB D L, MACCOSS M J, WU C C, et al. Similarity among tandem mass spectra from proteomic experiments: detection, significance, and utility[J]. Analytical Chemistry, 2003, 75(10): 2 470-2 477.
[14] KOO I, ZHANG X, KIM S. Wavelet- and Fourier-transform-based spectrum similarity approaches to compound identification in gas chromatography/mass spectrometry[J]. Analytical Chemistry, 2011, 83(14): 5 631-5 638.
[15] KIM S, KOO I, WEI X, et al. A method of finding optimal weight factors for compound identification in gas chromatography-mass spectrometry[J]. Bioinformatics, 2012, 28(8): 1 158-1 163.
[16] KIM S, KOO I, JEONG J, et al. Compound identification using partial and semipartial correlations for gas chromatography-mass spectrometry data[J]. Analytical Chemistry, 2012, 84(15): 6 477-6 487.
[17] 周義,俞建成,張俊良,等. 一種基于新的向量空間模型的譜庫檢索算法[J]. 真空科學(xué)與技術(shù)學(xué)報,2016,36(12):1 450-1 454.
ZHOU Yi, YU Jiancheng, ZHANG Junliang, et al. Novel vector space model and algorithm for search of mass spectral library[J]. Chinese Journal of Vacuum Science and Technology, 2016, 36(12): 1 450-1 454(in Chinese).