李鵬輝, 鄧伶莉,2, 羅 嬌, 李 巍, 寧 晶, 丁健樺, 鄔小萍
(1. 東華理工大學(xué)江西省質(zhì)譜科學(xué)與儀器重點(diǎn)實(shí)驗(yàn)室, 南昌 330013;2. 東華理工大學(xué)信息工程學(xué)院, 南昌 330013; 3. 南昌大學(xué)第一附屬醫(yī)院, 南昌 330123)
?
多批次肝衰竭患者呼出氣體的電噴霧萃取電離質(zhì)譜檢測(cè)及代謝組學(xué)數(shù)據(jù)分析
李鵬輝1, 鄧伶莉1,2, 羅 嬌3, 李 巍3, 寧 晶1, 丁健樺1, 鄔小萍3
(1. 東華理工大學(xué)江西省質(zhì)譜科學(xué)與儀器重點(diǎn)實(shí)驗(yàn)室, 南昌 330013;2. 東華理工大學(xué)信息工程學(xué)院, 南昌 330013; 3. 南昌大學(xué)第一附屬醫(yī)院, 南昌 330123)
采用高分辨電噴霧萃取電離質(zhì)譜(EESI-MS)技術(shù)對(duì)肝衰竭患者和健康志愿者呼出氣體樣本進(jìn)行快速檢測(cè), 結(jié)合多塊偏最小二乘分析(MB-PLS)方法, 對(duì)多批次獲取的呼出氣體代謝數(shù)據(jù)進(jìn)行統(tǒng)計(jì)建模分析, 并與傳統(tǒng)的PLS方法進(jìn)行比較. 結(jié)果表明, MB-PLS方法能有效消除批次差異對(duì)統(tǒng)計(jì)建模的影響. 此外, 利用MB-PLS模型變量VIP值對(duì)變量進(jìn)行篩選, 可降低數(shù)據(jù)的冗余, 消除無(wú)關(guān)變量對(duì)模型的影響, 從而有效提高了模型的性能.
呼出氣體; 代謝組學(xué); 電噴霧萃取電離質(zhì)譜; 多塊偏最小二乘分析
呼吸是人體基本的生命體征之一, 人體呼出氣體作為生物媒介攜帶了大量生理/病理信息, 有研究報(bào)道在健康人體呼出氣體中檢測(cè)出3000多種化合物[1]. 傳統(tǒng)的代謝組學(xué)方法主要分析生物體液[2~4](血清、 尿液、 唾液、 乳液和組織液等)和生物組織中代謝物水平[5]的變化規(guī)律, 實(shí)際上生物呼出氣體也可作為代謝組學(xué)的研究對(duì)象, 用于探索機(jī)體生理/病理狀態(tài)[6,7]. 近年來(lái), 在基于代謝組學(xué)的疾病研究領(lǐng)域[8~10], 尤其是肝病相關(guān)領(lǐng)域, 呼出氣體因其安全、 采樣方便且非侵入性、 不涉及個(gè)人隱私問(wèn)題以及攜帶大量代謝信息等特點(diǎn)而備受關(guān)注[11,12].
人體呼出氣體中代謝物含量極低[13], 因此對(duì)檢測(cè)儀器的靈敏度有很高的要求, 這一直是限制呼出氣體代謝組學(xué)發(fā)展的重要原因之一. 隨著現(xiàn)代分析技術(shù)的快速發(fā)展, 呼出氣體檢測(cè)技術(shù)也逐漸豐富, 如氣相色譜-質(zhì)譜聯(lián)用(GC-MS)[1,12,14]、 離子分子反應(yīng)質(zhì)譜(IMR-MS)[15]、 電子鼻傳感技術(shù)(EN)[16,17]、 激光光譜(LS)[18]、 選擇離子流動(dòng)管質(zhì)譜(SIFT-MS)[19]和質(zhì)子轉(zhuǎn)移反應(yīng)質(zhì)譜(PTR-MS)[20]等技術(shù). 電噴霧萃取電離質(zhì)譜(EESI-MS)技術(shù)是一種新型直接質(zhì)譜分析方法[21,22], 可在無(wú)需樣品預(yù)處理?xiàng)l件下對(duì)復(fù)雜機(jī)體進(jìn)行直接快速檢測(cè), 其檢測(cè)靈敏度高、 響應(yīng)速度快, 能夠?qū)崿F(xiàn)呼出氣體中痕量揮發(fā)性有機(jī)化合物的原位、 實(shí)時(shí)、 在線分析[23~25]. 然而, 由于呼出氣體的有效存儲(chǔ)時(shí)間短, 難以在短時(shí)間內(nèi)完成大量樣本的收集與檢測(cè). 在數(shù)據(jù)統(tǒng)計(jì)分析方面, 為保證結(jié)果的可靠性, 通常對(duì)樣本量有一定要求. 多批次樣本雖然可以獲取足夠的數(shù)據(jù)量, 但由于人體呼出氣體受環(huán)境空氣影響較大, 不同批次(不同時(shí)間或地點(diǎn))收集的樣本其檢測(cè)結(jié)果存在較大的差異. 若直接將不同批次樣本數(shù)據(jù)合并成一個(gè)大數(shù)據(jù)矩陣, 采用代謝組學(xué)中常用的主成分分析(PCA)[26]方法或偏最小二乘分析(PLS)[27]方法對(duì)其進(jìn)行統(tǒng)計(jì)分析, 由于批次間差異信息的干擾, 通常很難準(zhǔn)確提取出有用的特征信息.
代謝組學(xué)數(shù)據(jù)往往非常復(fù)雜, 因此數(shù)據(jù)處理已經(jīng)成為代謝組學(xué)研究中的關(guān)鍵技術(shù)和瓶頸之一. 不同批次獲取的數(shù)據(jù)存在批次間的變異, 致使不同批次的數(shù)據(jù)難以集成. 雖然有一些樣本歸一化方法已經(jīng)被開(kāi)發(fā)來(lái)解決批次間差異的問(wèn)題, 例如常數(shù)和歸一化法[28]、 內(nèi)標(biāo)法[29]、 質(zhì)量控制法[30]和基于方差的歸一化法[31]等, 但是每種方法都有其優(yōu)點(diǎn)和缺點(diǎn). 多塊偏最小二乘分析(Multi-block PLS, MB-PLS)是近年來(lái)廣泛應(yīng)用的一種基于監(jiān)督的多塊數(shù)據(jù)分析方法[32], 該方法能利用數(shù)據(jù)塊之間的關(guān)聯(lián)性將數(shù)據(jù)塊進(jìn)行有效整合, 并對(duì)數(shù)據(jù)中相關(guān)特征信息進(jìn)行提取. 因其結(jié)果是由多個(gè)數(shù)據(jù)塊綜合分析得到, 故相比于單個(gè)數(shù)據(jù)塊的分析結(jié)果為更為全面、 準(zhǔn)確. 本文利用EESI-MS技術(shù)獲取了4批次肝衰竭患者和健康志愿者呼出氣體的代謝組學(xué)數(shù)據(jù), 根據(jù)各批次數(shù)據(jù)間“變量空間”一致的特點(diǎn), 采用相應(yīng)的MB-PLS方法對(duì)其進(jìn)行整合建模, 并與傳統(tǒng)的PLS方法進(jìn)行比較.
Fig.1 Two typical multi-block problems(A) The objects are in common, but the variables measured on these objects are different; (B) the variables are in common, but the objects are different.
代謝組學(xué)數(shù)據(jù)分析中的多塊數(shù)據(jù)問(wèn)題通常包括2類: “樣本空間”相同但“變量空間”不同; “變量空間”相同但“樣本空間”不同(圖1). 對(duì)于采用EESI-MS技術(shù)獲取的各批次呼出氣體代謝組學(xué)數(shù)據(jù), 雖然不同批次的樣本不同(即“樣本空間”不同), 但是所檢測(cè)的代謝物變量是一致的(即“變量空間”相同), 與圖1(B)描述問(wèn)題相等.
(1)
在PLS模型中, 變量投影重要性指標(biāo)VIP(Variableimportanceintheprojection)用于評(píng)估各變量在模型中的重要性. 對(duì)于K個(gè)成分的MB-PLS模型, 變量i在該模型中的投影重要性指標(biāo)VIP定義如下:
(2)
2.1 儀器與試劑
EESI離子源(東華理工大學(xué)研制)[20,22];LTQ-Orbitrap-XL高分辨質(zhì)譜儀(美國(guó)Finnigan公司), 配有Xcalibur數(shù)據(jù)處理系統(tǒng);T2PV/L型5L-Tedlar?采樣袋(大連德霖氣體包裝有限公司); 甲醇(色譜純,SKChemicals公司).
2.2 研究對(duì)象與分組
在遵守醫(yī)學(xué)道德準(zhǔn)則的相關(guān)規(guī)定下, 分4個(gè)批次收集就診于南昌大學(xué)第一附屬醫(yī)院感染科的共35例肝衰竭患者和35例健康志愿者的呼出氣體. 肝衰竭患者年齡均在38~65歲之間, 排除同時(shí)患有糖尿病、 脂肪肝、 酒精肝、 自身免疫性肝病、 腎病、 呼吸系統(tǒng)疾病、 未控制的精神病及活動(dòng)性感染等疾病的患者; 健康志愿者均來(lái)自患者家屬和醫(yī)院醫(yī)務(wù)人員, 既往無(wú)肝病病史, 無(wú)煙酒嗜好, 年齡在28~55歲之間. 各批次樣本收集的具體信息如表1所示.
Table 1 Four batches of exhaled breath sample
2.3 質(zhì)譜條件及呼出氣體的收集與檢測(cè)
高分辨質(zhì)譜儀在正離子檢測(cè)模式下工作, 掃描范圍m/z50~700; 離子傳輸管溫度100 ℃; 噴霧電壓3.5 kV; 霧化氣(N2)壓力1.2 MPa; 萃取劑為純甲醇, 流速5 μL/min; 氣體樣品通過(guò)轉(zhuǎn)子流量計(jì)控制流速為800 mL/min; 其它條件由LTQ-Orbitrap-XL系統(tǒng)自動(dòng)優(yōu)化得到. EESI 離子源2個(gè)毛細(xì)管噴霧口之間距離1~2 mm, 夾角為60°, 到質(zhì)譜進(jìn)樣口的距離為5 mm, 詳細(xì)參見(jiàn)文獻(xiàn)[20,22]. 在高分辨質(zhì)譜掃描模式下, 一級(jí)質(zhì)譜質(zhì)量分辨率R=60000.
用5L-Tedlar?采樣袋收集呼出氣體樣本, 采樣袋在使用前以純凈氮?dú)鉀_洗3次. 所有受試者在采樣前 10 h內(nèi)禁食、 禁煙、 禁酒, 采樣前 24 h 內(nèi)禁止食用辛辣物, 晨起后僅以清水漱口. 受試者在通風(fēng)條件良好的環(huán)境下呼吸30 min以上, 靜息狀態(tài)下向采樣袋內(nèi)深呼氣, 直至采樣袋充滿為止. 收集后在3 h內(nèi)完成EESI-MS檢測(cè), 并獲得相應(yīng)的代謝指紋圖譜. 各個(gè)批次疾病組(肝衰竭患者)和對(duì)照組(健康志愿者)的代謝指紋圖譜如圖2所示.
Fig.2 EESI-MS spectra of exhaled breath from liver failure patients and healthy volunteers (A)—(D) MS data of exhaled breath from liver failure patients; (E)—(H) MS data of exhaled breath fromhealthy volunteers. Each row represents a batch.
3.1 數(shù)據(jù)預(yù)處理
3.2 數(shù)據(jù)統(tǒng)計(jì)分析與建模
設(shè)置類別矢量yb(b=1, 2, ……4), 其中“1”表示疾病組, “0”表示對(duì)照組. 采用MB-PLS方法對(duì)4個(gè)批次數(shù)據(jù)Xb(b=1,2,3,4)進(jìn)行統(tǒng)計(jì)建模. 通過(guò)7-fold交叉驗(yàn)證法確定MB-PLS模型的最優(yōu)成分?jǐn)?shù)為2個(gè). 圖3(A)為MB-PLS模型前2個(gè)成分對(duì)應(yīng)的得分圖. 圖中每1個(gè)點(diǎn)對(duì)應(yīng)1個(gè)樣本, 不同批次樣本用不同的圖形進(jìn)行區(qū)分(如, 圖形△代表第1批次樣本); 藍(lán)色和紅色分別表示疾病組與健康組樣本. 可見(jiàn), 疾病組與對(duì)照組樣本之間存在明顯的分組趨勢(shì), 根據(jù)公式X計(jì)算類別矢量的回歸值, 利用分類準(zhǔn)確率(CA), 即正確分類的樣本數(shù)除以總樣本個(gè)數(shù), 來(lái)描述樣本可分性, 計(jì)算結(jié)果CA=0.93. 圖3(A)中, 相同類別的不同批次樣本相互混疊, 無(wú)明顯分組趨勢(shì), 表明模型中未提取出各批次數(shù)據(jù)塊之間的差異信息, 因此批次間的差異信息并未對(duì)該模型產(chǎn)生干擾.
Fig.3 Scores plot of MB-PLS model(A) and PLS model(B) by the four batches of data respectivelyThe batches labeled by different graphics, the hollow red graphics and solid blue graphics for the disease group and control group respectively.
為與傳統(tǒng)PLS方法進(jìn)行對(duì)比, 將4個(gè)批次數(shù)據(jù)串聯(lián)成1個(gè)大的數(shù)據(jù)矩陣, 即X=(X1X2X3X4)T, 并采用PLS方法進(jìn)行分析, 模型前2個(gè)成分的得分圖如圖3(B)所示. 在圖3(B)中, 雖然同一批次疾病組樣本與對(duì)照組樣本之間表現(xiàn)出一定的分組趨勢(shì), 但是樣本間批次差異信息在模型中占絕對(duì)優(yōu)勢(shì), 嚴(yán)重干擾了與疾病相關(guān)的特征信息的提取. 在不同批次的樣本間, 疾病組樣本難以與對(duì)照組樣本區(qū)分開(kāi)來(lái), 分類準(zhǔn)確率CA僅為0.77.
Fig.4 Model validation results of MB-PLS(○) andPLS(△) respectively
采用蒙特卡洛交叉驗(yàn)證法(MCCV)[34]對(duì)MB-PLS模型進(jìn)行了驗(yàn)證. 在各批次樣本中隨機(jī)選取70%的樣本作為訓(xùn)練集用于建立分類模型; 剩余的樣本作為測(cè)試集代入模型中, 計(jì)算測(cè)試樣本集的預(yù)測(cè)值. 重復(fù)上述過(guò)程100次, 計(jì)算測(cè)試集的平均分類準(zhǔn)確率CAMCCV來(lái)評(píng)估模型的預(yù)測(cè)性能. 進(jìn)一步對(duì)疾病組和對(duì)照組的MB-PLS模型進(jìn)行置換檢驗(yàn)(Permutation test)[35], 樣本類別被隨機(jī)打亂100次, 每次利用打亂后的類別矢量來(lái)建模, 并結(jié)合MCCV計(jì)算預(yù)測(cè)集的分類準(zhǔn)確率CAMCCV, 結(jié)果見(jiàn)圖4. 圖4中, 橫坐標(biāo)│r│為隨機(jī)打亂后的類別矢量與原類別矢量的相關(guān)系數(shù)的絕對(duì)值, 其中│r│=1對(duì)應(yīng)的CAMCCV值為利用正確類別信息建立模型的分類準(zhǔn)確率. 對(duì)于一個(gè)魯棒的模型, 當(dāng)類別信息被打亂, 模型預(yù)測(cè)性能應(yīng)該比正確類別信息建立的模型預(yù)測(cè)性能要差. 圖4中, 100次置換檢驗(yàn)的結(jié)果相對(duì)正確類別計(jì)算得到的CAMCCV要低, 表明疾病組與對(duì)照組數(shù)據(jù)存在差異信息, MB-PLS模型中提取的差異信息是有效的. 此外, PLS模型由于受到批次差異信息的干擾, 模型的預(yù)測(cè)能力(CAMCCV=0.72±0.08)顯著低于MB-PLS模型(CAMCCV=0.84±0.06). 綜上所述, 利用MB-PLS對(duì)多批次數(shù)據(jù)進(jìn)行分類建模, 能有效避免批次差異對(duì)模型的影響, 提取出數(shù)據(jù)中有用的特征信息.
3.3 變量篩選
在上述MB-PLS模型中, 變量具有很高的維數(shù)(1035個(gè)變量), 數(shù)據(jù)中只有少部分變量對(duì)建立分類模型有貢獻(xiàn). 因此對(duì)變量進(jìn)行了篩選, 以有效降低數(shù)據(jù)的冗余, 提高模型的性能.
Fig.5 VIP scores of MB-PLS model
由模型變量VIP的定義可知: 變量的VIP值越大, 該變量在模型中越重要. 利用式(2)計(jì)算得到了MB-PLS模型中各變量的VIP值(見(jiàn)圖5). 圖5中大部分變量對(duì)于該模型并不重要, 其對(duì)應(yīng)的VIP值非常小(VIP<1.0), 故可以利用變量的VIP值對(duì)變量的重要性進(jìn)行評(píng)估, 選擇VIP值大的變量來(lái)重新建立分類建模.
實(shí)驗(yàn)中將變量按VIP值進(jìn)行排序, 選取其中VIP值大于某一閾值的變量構(gòu)成新的數(shù)據(jù)子集, 進(jìn)行MB-PLS建模. 結(jié)合MCCV計(jì)算MB-PLS模型的分類準(zhǔn)確率CAMCCV, 結(jié)果如圖6所示. 圖6中模型分類準(zhǔn)確率CAMCCV隨著選取的VIP閾值總體表現(xiàn)出先增大后降低的變化趨勢(shì). 當(dāng)VIP閾值由0增加到0.8時(shí), 大量冗余或者無(wú)用的變量被刪除, 模型的CAMCCV急劇增大; 當(dāng)VIP閾值由0.8增加到2.2時(shí), 由于VIP閾值在這一區(qū)域變量相對(duì)較少, 模型CAMCCV值變化相對(duì)緩慢, 盡管某一階段區(qū)域中CAMCCV值出現(xiàn)了小幅度的降低, 但總體變化趨勢(shì)仍是不斷增大; 當(dāng)VIP閾值大于2.2時(shí), 可能由于某些有意義的變量被刪除, 此時(shí)模型的 CAMCCV開(kāi)始下降. 選取VIP閾值為2.2的9個(gè)變量用于MB-PLS建模, 此時(shí)模型的分類準(zhǔn)確率CAMCCV由原來(lái)的0.84±0.06(1035個(gè)變量)提高到0.96±0.04.
Fig.6 Variation of the mean CAMCCV of MB-PLSmodel with the threshold of VIP
Fig.7 MS/MS spectrum and proposed structure of m/z 90 from the data of liver failure patients and healthy volunteers breath samples
3.4 差異變量分析
采用EESI-MS對(duì)肝衰竭患者和健康志愿者呼出氣體樣本進(jìn)行快速檢測(cè), 結(jié)合MB-PLS方法對(duì)多批次獲取的呼出氣體代謝數(shù)據(jù)進(jìn)行分析, 并與傳統(tǒng)的PLS方法進(jìn)行比較. 結(jié)果表明, MB-PLS方法能有效消除批次間差異對(duì)統(tǒng)計(jì)建模的影響, 建立區(qū)分疾病組與健康組的分類模型; 采用蒙特卡洛交叉驗(yàn)證和排序測(cè)試對(duì)模型進(jìn)行驗(yàn)證, 發(fā)現(xiàn)肝衰竭患者與健康志愿者呼出氣體中存在顯著的代謝差異. 此外, 采用基于MB-PLS模型變量VIP值的篩選方法, 對(duì)變量進(jìn)行篩選, 模型交叉驗(yàn)證分類準(zhǔn)確率由原來(lái)的0.84±0.06提高到了0.96±0.04, 利用該模型能有效區(qū)分肝衰竭患者與健康人群. 該項(xiàng)工作有望為不同分析平臺(tái)、 不同樣本源獲取的多批次代謝組學(xué)數(shù)據(jù)的處理提供一種新的途徑和依據(jù). 由于部分差異變量及其與肝衰竭的相關(guān)性未能確定, 因此仍需要進(jìn)一步研究.
[1] Phillips M., Herrera J., Krishnan S., Zain M., Greenberg J., Cataneo R. N.,J.Chromatogr.B, 1999, 729(1/2), 75—88
[2] Gieger C., Geistlinger L., Altmaier E., de Angelis M. H., Kronenberg F., Meitinger T., Mewes H. W., Wichmann H. E., Weinberger K. M., Adamski J., Illig T., Suhre K.,PlosGenet., 2008, 4(11), e1000282
[3] Want E. J., Wilson I. D., Gika H., Theodoridis G., Plumb R. S., Shockcor J., Holmes E., Nicholson J. K.,Nat.Protoc., 2010, 5(6), 1005—1018
[4] Sugimoto M., Wong D. T., Hirayama A., Soga T., Tomita M.,Metabolomics, 2010, 6(1), 78—95
[5] Yuan M., Breitkopf S. B., Yang X. M., Asara J. M.,Nat.Protoc., 2012, 7(5), 872—881
[6] Carraro S., Rezzi S., Reniero F., Héberger K., Giordano G., Zanconato S., Guillou C., Baraldi E.,Am.J.Respir.Crit.Care.Med., 2007, 175(10), 986—990
[7] Motta A., Paris D., Melck D., de Laurentiis G., Maniscalco M., Sofia M., Montuschi P.,Eur.Respir.J., 2012, 39(2), 498—500
[8] Gu H. W., Qi Y. P., Xu N., Ding J. H., An Y. B., Chen H. W.,ChineseJ.Anal.Chem., 2012, 40(12), 1933—1937(顧海威, 齊云鵬, 許寧, 丁健樺, 安艷波, 陳煥文. 分析化學(xué), 2012, 40(12), 1933—1937 )
[9] Chen C., Deng L. L., Wei S. W., Gowda G. A. N., Gu H. W., Chiorean E. G., Abu Zaid M., Harrison M. L., Pekny J. F., Loehrer P. J.,J.ProteomeRes., 2015, 14(6), 2492—2499
[10] Gu H. W., Huang Y., Filgueira M., Carr P. W.,J.Chromatogr.A, 2011, 1218(38), 6675—6687
[11] Hanouneh I. A., Zein N. N., Cikach F., Dababneh L., Grove D., Alkhouri N., Lopez R., Dweik R. A.,Clin.Gastroenterol.H., 2014, 12(3), 516—523
[12] Van Den Velde S., Nevens F., Van Hee P., Van Steenberghe D., Quirynen M.,J.Chromatogr.B.Analyt.Technol.Biomed.LifeSci., 2008, 875(2), 344—348
[13] Krotoszynski B., Gabriel G., Oneill H., Claudio M. P. A.,J.Chromatogr.Sci., 1977, 15(7), 239—244
[14] Phillips M., Gleeson K., Hughes J. M. B., Greenberg J., Cataneo R. N., Baker L., McVay W. P.,Lancet, 1999, 353(9168), 1930—1933
[15] Netzer M., Millonig G., Osl M., Pfeifer B., Praun S., Villinger J., Vogel W., Baumgartner C.,Bioinformatics, 2009, 25(7), 941—947
[16] Casalinuovo I. A., Di Pierro D., Coletta M., Di Francesco P.,Sensors, 2006, 6(11), 1428—1439
[17] Roeck F., Barsan N., Weimar U.,Chem.Rev., 2008, 108(2), 705—725
[18] Skeldon K. D., Mcmillan L. C., Wyse C. A., Monk S. D., Gibson G., Patterson C., France T., Longbottom C., Padgett M. J.,Respir.Med., 2006, 100(2), 300—306
[19] Storer M., Dummer J., Sturney S., Epton M.,Curr.Anal.Chem., 2013, 9(4), 576—583
[20] Moser B., Bodrogi F., Eibl G., Lechner M., Rieder J., Lirk P.,Resp.Physiol.Neurobi., 2005, 145(2/3), 295—300
[21] Pan S. S., Zhao N., Ouyang Y. Z., Huang K. K., Ding J. H., Chen H. W., Yuan L., Wang X. X.,Chem.J.ChineseUniversities, 2013, 34(6), 1379—1384(潘素素, 趙娜, 歐陽(yáng)永中, 黃科科, 丁健樺, 陳煥文, 袁龍, 王興祥. 高等學(xué)?;瘜W(xué)學(xué)報(bào), 2013, 34(6), 1379—1384 )
[22] Ding J. H., Wang X. X., Zhang H., Pan S. S., Luo M. B., Li J. Q., Chen H. W.,Chem.J.ChineseUniversities, 2011, 32(8), 1714—1719(丁健樺, 王興祥, 張慧, 潘素素, 羅明標(biāo), 李建強(qiáng), 陳煥文. 高等學(xué)校化學(xué)學(xué)報(bào), 2011, 32(8), 1714—1719)
[23] Chen H. W., Wortmann A., Zhang W. H., Zenobi R.,Angew.Chem.Int.Ed., 2007, 46(46), 580—583
[24] Pan S. S., Tian Y., Li M., Zhao J. Y., Zhu L. L., Zhang W., Gu H. W., Wang H. D., Shi J. B., Fang X., Li P. H., Chen H. W.,Sci.Rep., 2015, 5, 8725
[25] Ding J.H., Yang S. P., Liang D. P., Chen H. W., Wu Z. Z., Zhang L. L., Ren Y. L.,Analyst, 2009, 134(10), 2040—2050
[26] Wood C. C., Mccarthy G.,Electroencephalogr.Clin.Neurophysiol., 1984, 59(3), 249—260
[27] Frank I. E., Kowalski B. R.,Anal.Chim.Acta, 1984, 162, 241—251
[28] Wang W. X., Zhou H. H., Lin H., Roy S., Shaler T. A., Hill L. R., Norton S., Kumar P., Anderle M., Becker C. H.,Anal.Chem., 2003, 75(18), 4818—4826
[29] Redestig H., Fukushima A., Stenlund H., Moritz T., Arita M., Saito K., Kusano M.,Anal.Chem., 2009, 81(19), 7974—7960
[30] Jauhiainen A., Basetti M., Narita M., Narita M., Griffiths J., Tavare′ S.,BMCBioinformatics, 2014, 30(15), 2155—2161
[31] De Livera A. M., Dias D. A., De Souza D., Rupasinghe T., Pyke J., Tull D., Roessner U., McConville M., Speed T. P.,Anal.Chem., 2012, 84(24), 10768—10776
[32] Wangen L. E., Kowalski B. R.,J.Chemometr., 1989, 3(1), 3—20
[33] Beauchamp J., Herbig J., Gutmann R., Hansel A.,J.BreathRes., 2008, 2(4), 046001
[34] Picard R. R., Cook R. D.,J.Am.Stat.Assoc., 1984, 79(387), 575—583
[35] Lindgren F., Hansen B., Karcher W., Sjostrom M., Eriksson L.,J.Chemometr., 1996, 10(5/6), 521—532
[36] Levine M., Tarver H.,J.Biol.Chem., 1950, 184(2), 427—436
[37] Pilgeram L. O., Gal E. M., Sassenrath E. N., Greenberg D. M.,J.Biol.Chem., 1953, 204(1), 367—377
[38] Duvigneaud V., Chandler J. P., Simmonds S., Moyer A. W., Cohn M.,J.Biol.Chem., 1946, 164(2), 603—613
[39] Artom C., Crowder M.,Fed.Proc., 1949, 8(1), 180—181
(Ed.: D, K)
EESI-MS Detection and Statistical Analysis of Multi-batch of Exhaled Breath Metabolomics Data of Liver Failure Patients?
LI Penghui1, DENG Lingli1, 2, LUO Jiao3, LI Wei3, NING Jing1, DING Jianhua1, WU Xiaoping3*
(1.EastChinaUniversityofTechnology,JiangxiKeyLaboratoryforMassSpectrometryandInstrumentation,Nanchang330013,China;2.EastChinaUniversityofTechnology,InformationEngineeringCollege,Nanchang330013,China;3.TheFirstAffiliatedHospitalofNanChangUniversity,Nanchang330123,China)
In metabolomics studies, the number of samples should be enough to guarantee the reliability of data statistical analysis. The effective storage time of exhaled breath is short, and it is difficult to collect and detect a large number of breath samples in a short time. Combining multi batches of samples may obtain a large data, but usually there is a large variance between batches induced by ambient air varying. In this paper, the exhaled breath data of liver failure patients and healthy volunteers were obtained by high resolution extractive electrospray ionization mass spectrometry(EESI-MS) and then analyzed by multi-block partial least square(MB-PLS). The results were compared with traditional PLS method and showed its strength of removing the variance of batches for modeling. Moreover, we provided a variable selection strategy that based on variable importance in the projection(VIP) of MB-PLS to reduce the redundancy of data and eliminate the effect of non-information variables for modeling, and the performance of MB-PLS model had a great improvement.
Exhaled breath; Metabolomics; Extractive electrospray ionization mass spectrometry; Multi-block partial least square analysis
10.7503/cjcu20150826
2015-10-27;
日期: 2016-03-18.
江西省重大科技創(chuàng)新研究項(xiàng)目(批準(zhǔn)號(hào): 20124ACB00700)、 長(zhǎng)江學(xué)者和創(chuàng)新團(tuán)隊(duì)發(fā)展計(jì)劃項(xiàng)目(批準(zhǔn)號(hào): IRT13054)和國(guó)家自然科學(xué)基金(批準(zhǔn)號(hào): 21265002)資助.
O657.6
A
聯(lián)系人簡(jiǎn)介: 鄔小萍, 女, 教授, 主要從事傳染病臨床研究. E-mail: wuxiaoping2823@aliyun.com
? Supported by the Jiangxi Major Scientific and Technological Innovation Research Project, China(No.2012ACB00700), the Program for Changjiang Scholars and Innovative Research Team in University, China(No. IRT13054) and the National Natural Science Foundation of China(No.21265002).