国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)預(yù)處理技術(shù)和機(jī)器學(xué)習(xí)方法在 質(zhì)子轉(zhuǎn)移反應(yīng)質(zhì)譜中的應(yīng)用

2018-10-11 01:34:58陳一冰褚美娟蔣學(xué)慧郭冰清
質(zhì)譜學(xué)報(bào) 2018年5期
關(guān)鍵詞:濃度檢測(cè)方法

孫 運(yùn),陳一冰,褚美娟,蔣學(xué)慧,汪 曣,郭冰清

(1.天津大學(xué)精密儀器與光電子工程學(xué)院,天津 300072; 2.中國(guó)人民解放軍總醫(yī)院呼吸內(nèi)科,北京 100853)

質(zhì)子轉(zhuǎn)移反應(yīng)質(zhì)譜(PTR-MS)由奧地利因斯布魯克大學(xué)的Lindinger等[1]研發(fā)于20世紀(jì)90年代。經(jīng)過(guò)20多年的發(fā)展,PTR-MS的應(yīng)用從早期的環(huán)境污染物分析,擴(kuò)展到食品科學(xué)、生物制藥、醫(yī)學(xué)診斷、防化安保等領(lǐng)域,主要用于揮發(fā)性有機(jī)物(VOCs)檢測(cè)[2]。VOCs的種類(lèi)多達(dá)上萬(wàn)種,比如,在食品領(lǐng)域,水果的香氣物質(zhì)有2 000多種;在醫(yī)學(xué)領(lǐng)域,人體中呼氣、血液、尿液等樣品釋放的VOCs均在幾百種以上[3]。如何更好地在復(fù)雜未知混合物中進(jìn)行VOCs成分的檢測(cè),并通過(guò)數(shù)據(jù)分析深度挖掘VOCs的特征是非常重要的。

不同于電子轟擊源,PTR-MS采用的是一種軟電離方式,通過(guò)質(zhì)子轉(zhuǎn)移反應(yīng)將VOCs離子化。這是一個(gè)需要精密控制的過(guò)程,溫度、濕度、壓強(qiáng)、電場(chǎng)的變動(dòng)都會(huì)對(duì)儀器的信號(hào)輸出產(chǎn)生影響。如果直接用儀器產(chǎn)生的數(shù)據(jù)來(lái)進(jìn)行統(tǒng)計(jì)分析,會(huì)帶來(lái)極大的誤差,所以,數(shù)據(jù)的預(yù)處理必不可少[4-5]。隨著化學(xué)計(jì)量學(xué)和軟件技術(shù)的發(fā)展,以及蛋白組學(xué)、代謝組學(xué)等領(lǐng)域分析需求的促進(jìn),機(jī)器學(xué)習(xí)算法得到了極大的應(yīng)用和推廣,能夠很好的幫助人們進(jìn)行特征提取,解讀數(shù)據(jù)中有價(jià)值的信息[6-8]。目前,已經(jīng)有很多機(jī)器學(xué)習(xí)方法應(yīng)用到PTR-MS的數(shù)據(jù)分析中[9]。

1 質(zhì)子轉(zhuǎn)移反應(yīng)質(zhì)譜儀

PTR-MS主要包括進(jìn)樣系統(tǒng)、空心陰極放電源、漂移管、質(zhì)量分析器、檢測(cè)系統(tǒng)5大部分[10-11]。其中,空心陰極放電源主要用于產(chǎn)生水合氫離子(H3O+)。隨后,H3O+進(jìn)入漂移管,與VOCs在電場(chǎng)和氣流作用下不斷碰撞。在碰撞過(guò)程中,質(zhì)子親和勢(shì)比水高的VOCs與H3O+發(fā)生質(zhì)子轉(zhuǎn)移反應(yīng),這些攜帶質(zhì)子的VOCs以離子形式進(jìn)入后續(xù)的質(zhì)譜系統(tǒng)。在 PTR-MS中,四極桿、離子阱、飛行時(shí)間等質(zhì)量分析器各具特點(diǎn)[12-14]。其中,四極桿和飛行時(shí)間質(zhì)量分析器的應(yīng)用最多。四極桿質(zhì)量分析器具有良好的定量檢測(cè)能力,最早被用作PTR-MS的質(zhì)量分析器[12]。飛行時(shí)間質(zhì)量分析器根據(jù)不同質(zhì)量離子到達(dá)檢測(cè)器時(shí)間的差異實(shí)現(xiàn)對(duì)離子的鑒別,具有質(zhì)量范圍寬、分辨率高等優(yōu)點(diǎn),并且在高分子質(zhì)量和混合物分析方面顯示了很大優(yōu)勢(shì)[14]。

2 質(zhì)子轉(zhuǎn)移反應(yīng)質(zhì)譜數(shù)據(jù)預(yù)處理

從PTR-MS儀器中得到的檢測(cè)信號(hào)是原始數(shù)據(jù),需要進(jìn)行科學(xué)合理的預(yù)處理才可用于統(tǒng)計(jì)分析。數(shù)據(jù)預(yù)處理通常包括降噪、基線校準(zhǔn)、峰形校準(zhǔn)等[15-17]。PTR-MS數(shù)據(jù)預(yù)處理流程示于圖1。

圖1 PTR-MS數(shù)據(jù)預(yù)處理流程
Fig.1 Process of the data preprocessing in PTR-MS

2.1 降噪

PTR-MS儀器噪聲主要來(lái)源于電子器件,此外,也與傳輸線及屏蔽狀況、儀器環(huán)境溫度等因素有關(guān)。儀器噪聲往往表現(xiàn)為隨機(jī)噪聲,對(duì)于這種隨機(jī)誤差的處理,采用多次測(cè)量求取平均值是比較常規(guī)的做法,但是該法并不適用所有場(chǎng)合。

Cappellin等[4]強(qiáng)調(diào)了質(zhì)量軸的穩(wěn)定性是均值法的前提。相比于四極桿質(zhì)量分析器,飛行時(shí)間質(zhì)譜的譜圖質(zhì)量軸不穩(wěn)定性更加突出。飛行時(shí)間質(zhì)譜檢測(cè)中,一次脈沖產(chǎn)生的離子信號(hào)非常小,需要疊加多次脈沖產(chǎn)生的離子信號(hào)。每次分析都有一定的掃描速度,可能有400張譜圖(即400次掃描),甚至是更多的譜圖被疊加。對(duì)于一個(gè)質(zhì)量數(shù),需要每一張譜圖的軸點(diǎn)位置都得到校正,均值法才會(huì)可靠。雖然在分析樣品之前都會(huì)利用標(biāo)準(zhǔn)品對(duì)質(zhì)量軸進(jìn)行校準(zhǔn),但受限于標(biāo)準(zhǔn)品的個(gè)數(shù),只有少數(shù)質(zhì)量數(shù)能夠得到校準(zhǔn)。因此,該課題組采取了較為簡(jiǎn)單的操作,不改變信號(hào)值,僅根據(jù)校準(zhǔn)的質(zhì)量數(shù)偏移譜圖。采用該方法,所得的質(zhì)量誤差小于1×10-6。

Hewitt等[18]提到均值法在VOCs濃度較高并且波動(dòng)較大時(shí)不適用。他們對(duì)噪聲進(jìn)行了定量分析,從而優(yōu)化駐留時(shí)間及補(bǔ)償儀器輸出信號(hào)。利用m/z63、69、70這3個(gè)質(zhì)量數(shù)的信號(hào)對(duì)儀器噪聲進(jìn)行定量計(jì)算,調(diào)節(jié)駐留時(shí)間范圍為0.1~20 s,每個(gè)質(zhì)量數(shù)至少采樣170個(gè)數(shù)據(jù)點(diǎn),并定義了噪聲統(tǒng)計(jì)值(noise statistic,NS):

(1)

其中,cps(counts per second)表示離子信號(hào)計(jì)數(shù)值。結(jié)果發(fā)現(xiàn),儀器噪聲近似為高斯分布。對(duì)于設(shè)定的閾值(平均值±2×NS),檢測(cè)值中有2%在上偏差范圍內(nèi),2%在下偏差范圍內(nèi),并且這一規(guī)律獨(dú)立于質(zhì)量數(shù)、駐留時(shí)間、計(jì)數(shù)率。基于此,他們提出了“2%”法則,認(rèn)為在閾值(平均值±2×NS)以外的數(shù)值變化很有可能不是噪聲,而是由真實(shí)濃度變化引起的。

此外,還可以應(yīng)用很多標(biāo)準(zhǔn)的降噪方法[19-20],特別是小波變換[21]。小波變換具有多分辨率性、尺度內(nèi)相關(guān)性和時(shí)域局部化等特點(diǎn),適用于不穩(wěn)定信號(hào)的平滑降噪,同時(shí)不引起信號(hào)失真,使信號(hào)的原始特征得到最大程度的保留。

2.2 水團(tuán)簇因素的補(bǔ)償與歸一化

在PTR-MS漂移管內(nèi),會(huì)有水團(tuán)簇離子生成,這些團(tuán)簇離子使得譜圖復(fù)雜化。雖然可以通過(guò)增強(qiáng)漂移管內(nèi)的E/N值(E為電場(chǎng)強(qiáng)度,N為氣體數(shù)密度)抑制團(tuán)簇的生成,但不能完全消除。考慮到團(tuán)簇效應(yīng),Gouw等[22]引入了一個(gè)新的參數(shù)XR進(jìn)行歸一化。通過(guò)實(shí)驗(yàn)測(cè)定,絕大多數(shù)VOCs的XR值為0.5,但苯和甲苯的XR值接近0,因?yàn)樗鼈兣cH3O+(H2O)的反應(yīng)較慢。如果XR為負(fù)值,說(shuō)明有一部分H3O+(H2O)的碎片峰在漂移管和質(zhì)量分析器的接口處生成。據(jù)此對(duì)計(jì)數(shù)值進(jìn)行歸一化,記為NCPS(normalized counts/s):

(2)

Tani等[23]定義了SCPS,對(duì)檢測(cè)的離子進(jìn)行歸一化。SCPS是所檢測(cè)的物質(zhì)信號(hào)總離子數(shù),按照106計(jì)數(shù)的母離子,對(duì)2 kPa漂移管壓強(qiáng)進(jìn)行歸一,示于式(3):

(3)

Sinha等[24]采用PTR-MS檢測(cè)吡咯,討論了濕度的影響。以cps計(jì)量的檢測(cè)信號(hào)按照漂移管壓力200 Pa,溫度為298.15 K以及1.0×106母離子的條件進(jìn)行歸一化,并分為4種情況:1) 只有m/z19;2) 只有m/z19、37;3) 只有m/z19、37、55;4) 只有m/z19、37、55、73。

(4)

這里x=1,2,3,4,分別對(duì)應(yīng)上述4種情況。

2.3 計(jì)數(shù)值轉(zhuǎn)化濃度的計(jì)算方法

通常,VOCs的檢測(cè)都需要有對(duì)應(yīng)的標(biāo)準(zhǔn)物質(zhì),利用標(biāo)準(zhǔn)曲線進(jìn)行定量計(jì)算。盡管這種方法的精度較高,但不是所有的物質(zhì)都有標(biāo)準(zhǔn)品,并且在檢測(cè)未知混合物時(shí)很難確定標(biāo)準(zhǔn)品的種類(lèi)。PTR-MS可以通過(guò)化學(xué)反應(yīng)計(jì)算VOCs濃度。當(dāng)VOCs分子的質(zhì)子親和勢(shì)大于水時(shí),即可發(fā)生質(zhì)子轉(zhuǎn)移反應(yīng)。用R表示VOCs分子,上述反應(yīng)可以用式(5)表示:

(5)

式中,k表示質(zhì)子轉(zhuǎn)移反應(yīng)過(guò)程的反應(yīng)速率常數(shù)。參照文獻(xiàn)[1,25]報(bào)道,在反應(yīng)區(qū)末端的產(chǎn)物離子濃度[RH+]可以表示為:

[RH+]=[H3O+]0[1-e-k[R]t]

≈[H3O+]0[R]kt

(6)

式(6)中,[H3O+]0為反應(yīng)試劑H3O+的初始濃度,[R]為待測(cè)物R的濃度,t為離子通過(guò)漂移管的平均時(shí)間。因?yàn)榇郎y(cè)物R的濃度遠(yuǎn)小于H3O+的濃度,其只與少量的H3O+發(fā)生質(zhì)子轉(zhuǎn)移反應(yīng),H3O+信號(hào)強(qiáng)度在反應(yīng)前后可以近似不變。由此,可得待測(cè)物R的濃度計(jì)算公式為:

(7)

式(7)中,計(jì)數(shù)率i[RH+]和i[H3O+]為待測(cè)物和H3O+的離子計(jì)數(shù)值,可由檢測(cè)系統(tǒng)測(cè)得。它們與RH+和H3O+的濃度成比例,比例系數(shù)分別為T(mén)RH+和TH3O+,反應(yīng)速率常數(shù)k可通過(guò)查閱文獻(xiàn)得到,平均反應(yīng)時(shí)間t可以直接測(cè)得,也可以通過(guò)計(jì)算公式求出[26],這里不再敘述。

從式(7)可以看出,反應(yīng)速率k對(duì)待測(cè)組分濃度的影響很大。Zhao等[27]利用量子化學(xué)方法得出反應(yīng)物結(jié)構(gòu),然后通過(guò)平均極化理論(average-dipole-orientation, ADO)計(jì)算了78種烴類(lèi)物質(zhì)和58種非烴類(lèi)VOCs與H3O+的質(zhì)子轉(zhuǎn)移反應(yīng)速率。新計(jì)算的反應(yīng)速率常數(shù)可以為PTR-MS定量檢測(cè)VOCs提供可靠的參考值。

Keck等[28]對(duì)濃度計(jì)算方程做了進(jìn)一步修正。他們提出,RH+的濃度在漂移管入口到出口間不斷增加,并且增速大于H3O+濃度減少的速度,這種流動(dòng)效應(yīng)會(huì)造成計(jì)算結(jié)果的偏差。為此,考慮RH+濃度隨著時(shí)間變化的函數(shù),經(jīng)過(guò)一系列推導(dǎo),對(duì)濃度計(jì)算式(7)進(jìn)行了修正。

3 多變量統(tǒng)計(jì)分析

PTR-MS能夠獲得多達(dá)500個(gè)不同m/z的譜圖,但相比于色譜和光譜等儀器,譜圖信息仍不夠豐富。此外,PTR-MS儀器的分析檢測(cè)不含分離過(guò)程,譜圖中的單個(gè)譜峰可能來(lái)自不同物質(zhì)。所以,針對(duì)少量的具有代表性的物質(zhì)成分進(jìn)行快速檢測(cè),彌補(bǔ)因缺少分離過(guò)程造成的信息不足是PTR-MS譜圖分析的一個(gè)策略。機(jī)器學(xué)習(xí)方法提供了多種渠道分析和理解復(fù)雜的數(shù)據(jù),幫助獲取有用信息[29-31]。通常最初的算法選擇無(wú)監(jiān)督模式,用于數(shù)據(jù)探索和挖掘,各個(gè)數(shù)據(jù)的權(quán)重是相同的。該算法能夠在缺乏經(jīng)驗(yàn)的前提下,研究VOCs與樣品間的復(fù)雜關(guān)系。當(dāng)有了先驗(yàn)知識(shí),有監(jiān)督模式算法將是更好的選擇。

3.1 無(wú)監(jiān)督學(xué)習(xí)方法

3.1.1主成分分析 主成分分析(principal component analysis, PCA)是機(jī)器學(xué)習(xí)中應(yīng)用非常廣泛的無(wú)監(jiān)督學(xué)習(xí)方法。PCA方法是通過(guò)構(gòu)造原隨機(jī)變量的一系列線性不相關(guān)的組合反映原變量的信息[32]。其目標(biāo)是用低維子空間表示高維數(shù)據(jù),使得在誤差平方和意義下能更好地描述原始數(shù)據(jù)。該法常被用于食品領(lǐng)域中產(chǎn)地、種類(lèi)的區(qū)分[33-41]。

Boscaini等[33]用PCA法處理PTR-MS檢測(cè)數(shù)據(jù)的結(jié)果示于圖2。圖中的每一個(gè)點(diǎn)對(duì)應(yīng)一種樣品,每條線對(duì)應(yīng)一個(gè)質(zhì)量數(shù)。線與線之間的角度代表二者的相關(guān)性,角度小說(shuō)明正相關(guān),反之說(shuō)明相關(guān)性較差。從圖中可以看出,PCA方法很好地區(qū)分了4種不同品種的葡萄酒。

注:縮寫(xiě)字母MA、GV、CV、CF代表4種不同品種的葡萄酒 圖2 PCA分析舉例Fig.2 An example of PCA

Farneti等[34]用PCA法找出了21種質(zhì)量數(shù)用于描述番茄揮發(fā)物的模型,并區(qū)分了番茄的不同成熟階段。張丹丹等[35]將PTR-TOF MS采集到的3個(gè)不同產(chǎn)地的閩北水仙茶的揮發(fā)性指紋圖譜進(jìn)行數(shù)學(xué)統(tǒng)計(jì)分析,利用PCA法提取了3個(gè)主成分,累計(jì)貢獻(xiàn)率達(dá)到84.66%,表明PTR-TOF MS 結(jié)合分類(lèi)算法可以有效區(qū)分不同產(chǎn)地的閩北水仙茶。除此之外,PCA法常作為其他多變量分析法的第一步處理[42-44]。

從傳統(tǒng)主成分分析方法的計(jì)算過(guò)程可以看出,進(jìn)行PCA計(jì)算的關(guān)鍵是算出變量的協(xié)方差矩陣或者相關(guān)矩陣,相關(guān)矩陣可以從協(xié)方差矩陣得到,所以可以把問(wèn)題都?xì)w結(jié)為協(xié)方差矩陣的計(jì)算。這個(gè)過(guò)程對(duì)離群值非常敏感,所以導(dǎo)致接下來(lái)所計(jì)算的相關(guān)矩陣、特征值和特征向量也受其影響,產(chǎn)生不合理的結(jié)果。協(xié)方差矩陣對(duì)離群值敏感,主要因?yàn)槠溆?jì)算過(guò)程中要使用均值向量,而均值向量只是對(duì)多維數(shù)據(jù)的簡(jiǎn)單求平均值,這種計(jì)算方法很容易受到離群值的影響,使得協(xié)方差矩陣不是穩(wěn)健的估計(jì)量。穩(wěn)健主成分分析方法則可以有效解決這個(gè)問(wèn)題,通過(guò)構(gòu)造一個(gè)穩(wěn)健的協(xié)方差矩陣,降低離群值對(duì)協(xié)方差矩陣的影響[45]。

3.1.2層次聚類(lèi)分析法 另一種常用的無(wú)監(jiān)督統(tǒng)計(jì)方法是聚類(lèi)分析。聚類(lèi)分析是根據(jù)各個(gè)樣品或指標(biāo)的數(shù)量對(duì)事物進(jìn)行分類(lèi),在分類(lèi)過(guò)程中不必給出分類(lèi)的標(biāo)準(zhǔn),是一種探索性的分析。聚類(lèi)分析中的層次聚類(lèi)分析法(hierarchical cluster analysis, HCA)是最常用的,其基本思想是將N個(gè)樣品看成N類(lèi),然后將性質(zhì)相近的2類(lèi)合并為1個(gè)新類(lèi),再?gòu)氖O碌腘-1類(lèi)找出最接近的2類(lèi)合并成N-2類(lèi),以此類(lèi)推,直到所有樣品合成一類(lèi)。這個(gè)過(guò)程可以用一系列的嵌套聚類(lèi)樹(shù)完成[46-47]。

Sánchezlópez等[48]利用PTR-TOF MS結(jié)合HCA研究了生產(chǎn)濃縮咖啡的熱水萃取工藝,并利用Ward最小方差法和半平方歐氏距離法對(duì)46個(gè)初步確定的化合物規(guī)范化時(shí)間強(qiáng)度特征進(jìn)行了層次聚類(lèi)分析。Ciesa等[49]用PTR-MS法檢測(cè)7種現(xiàn)代和35種老式蘋(píng)果品種,分析單個(gè)水果在收獲和存儲(chǔ)期間釋放出的VOCs信息,用HCA法評(píng)估了各品種釋放的VOCs差異。Pozo-Bayón等[50]用HCA法對(duì)PTR-MS和GC/MS檢測(cè)的奶酪餅干數(shù)據(jù)進(jìn)行分析,研究其存儲(chǔ)時(shí)間。

但在處理過(guò)程中,每次合并分類(lèi)將會(huì)直接影響接下來(lái)對(duì)新類(lèi)的處理,造成每一個(gè)步驟的效果變差,降低聚類(lèi)結(jié)果的質(zhì)量。針對(duì)此問(wèn)題,人們發(fā)展了雙聚類(lèi)算法,通過(guò)分別對(duì)矩陣的行和列聚類(lèi),然后合并聚類(lèi)結(jié)果[51-52]。

3.2 有監(jiān)督學(xué)習(xí)方法

有監(jiān)督學(xué)習(xí)方法利用已知某種特征的樣本進(jìn)行訓(xùn)練,建立數(shù)學(xué)模型,再利用這一模型將所有新數(shù)據(jù)樣本映射為響應(yīng)的輸出結(jié)果,從而實(shí)現(xiàn)預(yù)測(cè)的目的。因此,有監(jiān)督學(xué)習(xí)方法的主要目標(biāo)是發(fā)現(xiàn)樣本與變量響應(yīng)之間的關(guān)系。為了檢測(cè)判別模型的識(shí)別能力,通常采用另一組已知類(lèi)別的樣本組成測(cè)試集,將訓(xùn)練中得到的正確判斷率作為識(shí)別率,用測(cè)試樣本集所得到的準(zhǔn)確識(shí)別率稱(chēng)為預(yù)測(cè)率,一般情況下,識(shí)別率均優(yōu)于預(yù)測(cè)率[53]。有監(jiān)督學(xué)習(xí)方法包含很多,這里只介紹PTR-MS中常用的分析方法。

3.2.1偏最小二乘判別 偏最小二乘判別分析(partial least squares discrimination analysis, PLS-DA)是偏最小二乘回歸分析的變形,是在很大程度上可以取代主成分分析、多元線性回歸的判別分析統(tǒng)計(jì)方法。不同于主成分分析,PLS是同時(shí)對(duì)自變量矩陣(樣本數(shù)據(jù)矩陣)X和相應(yīng)變量Y進(jìn)行分解,并力圖建立它們之間的回歸關(guān)系。它適用于解釋多變量,并且存在多重共線性、觀測(cè)樣本少以及干擾較大的情況,尤其對(duì)于二元分類(lèi)問(wèn)題,可以獲得很好的分類(lèi)效果[54-55]。

Ruth等[56]通過(guò)PTR-MS與PLS-DA的結(jié)合,成功區(qū)分了牛奶脂肪。首先,利用PTR-MS分析、感官分析和經(jīng)典化學(xué)分析3種方式評(píng)估食品的處理過(guò)程。隨后,利用PLS-DA處理PTR-MS數(shù)據(jù),預(yù)測(cè)基質(zhì)(黃油/奶油)以及樣品的感官等級(jí)。采用十倍交叉驗(yàn)證機(jī)制模型,正確區(qū)分了89%的樣品。結(jié)果表明,PTR-MS和PLS-DA的結(jié)合是質(zhì)量控制和制度控制的潛在應(yīng)用方法。

Nooshin等[57]用PTR-MS法分析了來(lái)自5個(gè)歐洲國(guó)家的192個(gè)橄欖油樣品的頂空揮發(fā)性化合物,提出了3個(gè)不同偏最小二乘法PLS-DA模型,分別用于區(qū)分樣品的原產(chǎn)國(guó)、意大利國(guó)內(nèi)的原產(chǎn)地和更小范圍的產(chǎn)地,并用交叉驗(yàn)證方法評(píng)估模型的正確率。第一個(gè)模型對(duì)于區(qū)分橄欖油的原產(chǎn)國(guó)有86%的正確率,其中只有法國(guó)的正確率較低,為40%;第二個(gè)模型,只適用于區(qū)分意大利國(guó)內(nèi)不同原產(chǎn)地的橄欖油,其正確率達(dá)到了74%;第三個(gè)模型,則用于意大利國(guó)內(nèi)更小地域的橄欖油產(chǎn)地區(qū)分,正確率只有52%,這可能是因?yàn)樵谠摮叨葍?nèi)橄欖油VOCs成分的組成及比例較為近似。

隨著對(duì)PLS-DA法的應(yīng)用與研究[58-60],對(duì)該方法進(jìn)行了很多改進(jìn)。正交偏最小二乘判別分析(orthogonal PLS-DA, OPLS-DA)利用正交信號(hào)校正思想,濾除了自變量矩陣和相應(yīng)變量矩陣的無(wú)關(guān)信息,所以O(shè)PLS-DA能夠更好地區(qū)分組間差異,提高模型的有效性和解析能力,更加適用于多類(lèi)區(qū)分問(wèn)題[61]。

3.2.2隨機(jī)森林 決策樹(shù)是在已知各種情況發(fā)生概率的基礎(chǔ)上,通過(guò)構(gòu)成決策樹(shù)來(lái)求取凈現(xiàn)值的期望值大于等于零的概率,判斷其可行性的決策分析方法,是直觀運(yùn)用概率分析的一種圖解法。由于這種決策分支畫(huà)成圖形很像一棵樹(shù)的枝干,故稱(chēng)決策樹(shù)[62]。Brieman等[63]提出的隨機(jī)森林(random forest, RF)算法是一種包含多個(gè)互不關(guān)聯(lián)決策樹(shù)的分類(lèi)器,其構(gòu)建主要考慮數(shù)據(jù)的隨機(jī)性選取和待選特征的隨機(jī)選取,對(duì)異常值和噪聲具有很好的容忍度,且不容易出現(xiàn)過(guò)擬合。

Kistler等[64]利用PTR-TOF首次研究了飲食特點(diǎn)對(duì)營(yíng)養(yǎng)性肥胖癥老鼠呼氣的影響。在呼氣成分?jǐn)?shù)據(jù)分析中,用RF進(jìn)行特征識(shí)別,但是存在信息丟失、分類(lèi)效果差等問(wèn)題[65]。為了解決這些問(wèn)題,他們提出了RF++算法,在傳統(tǒng)RF算法中執(zhí)行基于主題的引導(dǎo)過(guò)程,通過(guò)包外誤差對(duì)模型進(jìn)行評(píng)估。實(shí)驗(yàn)結(jié)果表明,從以植物為原料的飲食到幾種半純化加工食物的變化,會(huì)影響實(shí)驗(yàn)鼠呼氣中VOCs的特征。

Granitto等[66-67]利用隨機(jī)森林-遞歸特征消除(RF-RFE)算法對(duì)PTR-MS分析工農(nóng)業(yè)產(chǎn)品產(chǎn)生的譜圖進(jìn)行相關(guān)特征鑒別,并與支持向量機(jī)-遞歸特征消除(SVM-RFE)方法做比對(duì),利用多次重復(fù)的實(shí)驗(yàn)估計(jì)無(wú)偏的泛化誤差。結(jié)果表明,在小種群的特征提取方面,RF-RFE法比SVM-RFE法更可靠,RF-RFE比SVM-RFE更適用于指紋識(shí)別工農(nóng)業(yè)產(chǎn)品的PTR-MS譜圖。

3.2.3其他有監(jiān)督學(xué)習(xí)方法 判別分析是在分類(lèi)已經(jīng)確定的條件下,根據(jù)某一研究對(duì)象的特征判別其類(lèi)型歸屬的一種多元統(tǒng)計(jì)方法。按照數(shù)學(xué)模型可分為線性判別和非線性判別。其判別準(zhǔn)則有多種,例如費(fèi)舍爾準(zhǔn)則、最小平方準(zhǔn)則、最小距離準(zhǔn)則、最大概率準(zhǔn)則等[68]。Thekedar等[69]利用線性判別分析方法(linear discriminant analysis, LDA)將病人和對(duì)照組的呼氣成分與室內(nèi)空氣成功進(jìn)行了區(qū)分,進(jìn)一步減小了外源性環(huán)境因素產(chǎn)生的VOCs背景影響。

人工神經(jīng)網(wǎng)絡(luò)(artificial neural network, ANN)是由大量處理單元互聯(lián)組成的非線性、自適應(yīng)信息處理系統(tǒng)。它是在現(xiàn)代神經(jīng)科學(xué)研究成果的基礎(chǔ)上提出的,試圖通過(guò)模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進(jìn)行信息處理。Cancilla等[70]利用ANN模型對(duì)18位肺癌患者和22位健康人員的呼氣成分的PTR-MS譜圖進(jìn)行了分析,討論了是否考慮葡萄糖攝取因素下的統(tǒng)計(jì)結(jié)果。當(dāng)不考慮葡萄糖攝取因素時(shí),只用8種質(zhì)量數(shù)作為獨(dú)立變量就可以建立一個(gè)MLP模型,精準(zhǔn)度達(dá)到93%,所挑選出的質(zhì)量數(shù)有助于檢測(cè)和診斷肺癌疾病。

3.3 機(jī)器學(xué)習(xí)方法在PTR-MS譜圖分析中面臨的困難

不同的機(jī)器學(xué)習(xí)方法有各自的優(yōu)缺點(diǎn),這決定了它們的適用性。關(guān)于算法本身的特點(diǎn),這里不再論述。本文主要結(jié)合PTR-MS譜圖的特點(diǎn),介紹這些算法在應(yīng)用中面臨的困難。相比于GC/MS,PTR-MS雖然具有快速檢測(cè)的特點(diǎn),但是定性能力不足,缺少色譜分離過(guò)程,且只能獲得單一質(zhì)荷比信息,所以有很多成分無(wú)法區(qū)分,其譜圖中的同一質(zhì)荷比信號(hào)可能對(duì)應(yīng)多個(gè)VOCs成分。具有高分辨能力的PTR-TOF MS雖可進(jìn)一步分離譜圖信號(hào),但仍不能分辨同分異構(gòu)體,例如,二甲苯和乙苯,丙酮和丙醛等。另外,利用質(zhì)子轉(zhuǎn)移反應(yīng)這種化學(xué)軟電離方式得到的VOCs質(zhì)譜峰,也會(huì)存在多個(gè)碎片離子峰。例如,乙酸乙酯(C4H8O2)與H3O+發(fā)生質(zhì)子轉(zhuǎn)移反應(yīng)后,譜圖中會(huì)有m/z61、43、89三種質(zhì)荷比信號(hào),它們的比例隨著漂移管內(nèi)E/N比值的大小而變化。所以,PTR-MS中的每個(gè)質(zhì)荷比信號(hào)可能對(duì)應(yīng)多個(gè)VOC,而每個(gè)VOC在PTR-MS產(chǎn)生的譜圖中可能對(duì)應(yīng)多個(gè)質(zhì)荷比信號(hào),但目標(biāo)成分通常是痕量的,極有可能被干擾離子掩蓋。此外,同一VOC產(chǎn)生的不同質(zhì)荷比信號(hào),其內(nèi)在的比例關(guān)系可能干擾統(tǒng)計(jì)分析算法在一些篩查標(biāo)志物實(shí)驗(yàn)中的應(yīng)用。這些問(wèn)題將給PTR-MS用于VOCs的檢測(cè)分析帶來(lái)諸多困難,尤其是對(duì)未知混合物的分析。

4 總結(jié)與展望

PTR-MS在VOCs檢測(cè)方面有著獨(dú)特的優(yōu)勢(shì),隨著其在多個(gè)領(lǐng)域的廣泛應(yīng)用,數(shù)據(jù)處理方法面臨著越來(lái)越多的問(wèn)題和難點(diǎn)。本文總結(jié)了符合PTR-MS儀器特點(diǎn)的數(shù)據(jù)預(yù)處理方法和機(jī)器學(xué)習(xí)方法在PTR-MS譜圖分析上的應(yīng)用。在數(shù)據(jù)預(yù)處理方面,重點(diǎn)描述了無(wú)需標(biāo)定的濃度計(jì)算方法;在數(shù)據(jù)分析方面,概括了不同算法的特點(diǎn)和不足,并歸納了不同算法的典型應(yīng)用。

本課題組在PTR-MS儀器研制和應(yīng)用方面做了一些研究并取得了階段性成果。目前,本課題組自主研制的一臺(tái)PTR-MS儀器整機(jī)已搭建完成,正處于性能參數(shù)調(diào)試階段。在呼氣檢測(cè)和食品領(lǐng)域進(jìn)行了應(yīng)用研究,取得了一定的成果[71]。李子曉等[72]對(duì)呼氣成分分析中濕度和CO2的影響進(jìn)行了分析。申丹寧等[73]用PTR-MS檢測(cè)了不同品種和同品種不同產(chǎn)地橙汁的頂空揮發(fā)性氣體,通過(guò)PCA區(qū)分了不同品種和產(chǎn)地的橙汁,并用費(fèi)舍爾判別法建立了橙汁品種和產(chǎn)地的鑒別模型。郭冰清等[74]利用PTR-MS對(duì)肺癌患者呼氣中特異性VOCs進(jìn)行研究,建立了標(biāo)準(zhǔn)的臨床試驗(yàn)方案,利用PTR-MS對(duì)40名肺癌患者、32名健康志愿者呼出氣體中的VOCs進(jìn)行檢測(cè),并進(jìn)一步采用秩和分析、人工神經(jīng)網(wǎng)絡(luò)、隨機(jī)森林、支持向量機(jī)和二元Logistic回歸對(duì)全部呼氣數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,發(fā)現(xiàn)了3種高可靠性的呼氣特征生物標(biāo)記物,并建立了相應(yīng)的分類(lèi)模型。結(jié)果表明,利用支持向量機(jī)建立的分類(lèi)模型靈敏度為99.2%,特異性為98.5%,可對(duì)未知人群的患癌情況進(jìn)行早期預(yù)判。

隨著大數(shù)據(jù)時(shí)代的到來(lái),不同儀器平臺(tái)的整合、不同樣品的數(shù)據(jù)融合是未來(lái)趨勢(shì)。在這種背景下,PTR-MS會(huì)面臨更多的挑戰(zhàn)。合理的數(shù)據(jù)預(yù)處理技術(shù)以及機(jī)器學(xué)習(xí)方法,將會(huì)對(duì)數(shù)據(jù)分析起到越來(lái)越重要的作用,使PTR-MS技術(shù)的應(yīng)用更加廣泛。

猜你喜歡
濃度檢測(cè)方法
拍照濃度有待降低
神醫(yī)的煩惱——濃度與配比
“不等式”檢測(cè)題
“一元一次不等式”檢測(cè)題
“一元一次不等式組”檢測(cè)題
可能是方法不對(duì)
小波變換在PCB缺陷檢測(cè)中的應(yīng)用
用對(duì)方法才能瘦
Coco薇(2016年2期)2016-03-22 02:42:52
對(duì)改良的三種最小抑菌濃度測(cè)試方法的探討
四大方法 教你不再“坐以待病”!
Coco薇(2015年1期)2015-08-13 02:47:34
扎囊县| 松江区| 遂川县| 略阳县| 南木林县| 荔浦县| 徐汇区| 梅河口市| 兴安盟| 赤壁市| 鄱阳县| 申扎县| 赤城县| 驻马店市| 富平县| 固安县| 依安县| 宝清县| 襄汾县| 读书| 疏勒县| 布拖县| 泰兴市| 怀安县| 平武县| 江孜县| 白城市| 昭苏县| 定南县| 贵德县| 仙桃市| 离岛区| 磐石市| 新营市| 庐江县| 榕江县| 通辽市| 湖口县| 无锡市| 新绛县| 阳曲县|