孫海濤,楊志強,李葆紅,陳德展
(1.山東師范大學(xué)信息技術(shù)管理處,山東 濟南 250014;2.山東師范大學(xué)實驗室與設(shè)備管理處,山東 濟南 250014;3.山東師范大學(xué)化學(xué)化工與材料科學(xué)學(xué)院,山東 濟南 250014)
代謝組學(xué)是關(guān)于生物系統(tǒng)代謝物組成及變化規(guī)律的科學(xué),是系統(tǒng)生物學(xué)的重要組成部分[1]。核磁共振(NMR)、GC/MS、LC/MS是代謝組學(xué)研究中常用的3種分析方法。與GC/MS和NMR技術(shù)相比,LC/MS技術(shù)因具有普適性、高靈敏度和特異性,更適于分析難揮發(fā)或熱穩(wěn)定性差的代謝物,因此被廣泛應(yīng)用于疾病診斷、藥物分析等領(lǐng)域,現(xiàn)已成為代謝組學(xué)研究的主流技術(shù)[2-4]。根據(jù)不同的研究目的,代謝組學(xué)研究策略可分為非靶向代謝組學(xué)和靶向代謝組學(xué)。其中,靶向代謝組學(xué)預(yù)先清楚代謝物的成分,不需要進行繁瑣的生物信息學(xué)數(shù)據(jù)處理;而基于LC/MS的非靶向代謝組學(xué)一般不對樣品中的代謝物做預(yù)先鑒定,只是按照既定的流程進行樣品預(yù)處理、代謝物提取、LC/MS全掃描檢測、數(shù)據(jù)預(yù)處理等,因此數(shù)據(jù)處理工作相對繁重[5]。在非靶向代謝組學(xué)實驗中,UPLC/MS在帶來較高的出峰能力(Zucker大鼠尿樣分析,1 min即可得到1 000多個峰)[6]、較好的分辨率和靈敏度的同時,也產(chǎn)生了大量的需要處理的原始數(shù)據(jù)。文獻[7-8]通過對國內(nèi)外的代謝組學(xué)數(shù)據(jù)處理進行分析研究認為,高效、準(zhǔn)確的數(shù)據(jù)處理工作是未來代謝組學(xué)發(fā)展的重要方向。
MZmine是芬蘭Matej等[9]開發(fā)的一款開源免費的代謝數(shù)據(jù)處理軟件,該軟件能夠完成基于LC/MS模式產(chǎn)生的原始數(shù)據(jù)處理、可視化和分析等任務(wù),具有準(zhǔn)確的數(shù)據(jù)處理能力,被廣泛應(yīng)用于代謝組學(xué)研究[10-11]。隨著LC/MS技術(shù)的發(fā)展,一次實驗的單個樣本數(shù)據(jù)文件就有幾百M甚至幾G,MZmine在單計算節(jié)點上處理全部樣本數(shù)據(jù)常常耗時多天。為此,加州大學(xué)的代謝組學(xué)研究人員通過增加單節(jié)點處理器數(shù)目來提高處理速度,發(fā)現(xiàn)相較于單核處理器,四核處理器處理同樣數(shù)據(jù)的速度可以提高20%~30%,但是該方法在處理太大文件時的效果不佳[12]。在單計算節(jié)點數(shù)據(jù)處理速度提升受限的情況下,數(shù)據(jù)處理并行化是提高數(shù)據(jù)處理速度的重要手段:蛋白質(zhì)分析軟件X!Tandem并行化以后,在20個雙核處理器的計算節(jié)點上處理同樣的計算任務(wù)的速度提高了40倍[13];在基于LC/MS代謝數(shù)據(jù)多變量的分析階段,Par等[14]采取數(shù)據(jù)降維和劃分時間窗并行的方法提高數(shù)據(jù)處理速度,黎建輝等[15]也提出了基于MapReduce的并行化方法提高化合物的LC/MS鑒定效率。
數(shù)據(jù)預(yù)處理是代謝組學(xué)研究最復(fù)雜、最耗時的工作,為提高數(shù)據(jù)處理速度,本研究提出一種數(shù)據(jù)并行的預(yù)處理過程并行化方法,即原始數(shù)據(jù)分組后由多個安裝了MZmine軟件的計算節(jié)點分別處理。本工作將對并行方法的可行性和效率進行分析,提出依據(jù)組成成分的保留時間對原始數(shù)據(jù)分組,滿足并行計算的可行性要求;按照譜峰分組,實現(xiàn)并行處理的負載均衡,使得并行時間最短。希望通過該并行方法,解決單計算節(jié)點數(shù)據(jù)處理慢的問題,有效加快海量代謝數(shù)據(jù)處理的速度。
并行處理是指同時使用多個計算節(jié)點解決問題。一個問題的并行化需要考慮兩個方面:一是問題可并行,即計算任務(wù)能分解成多個部分同時執(zhí)行;二是并行處理的負載均衡問題,即多個計算節(jié)點下解決問題的耗時要少于單個計算節(jié)點下的耗時[16]。從程序和算法設(shè)計的角度看,并行處理可分為任務(wù)并行和數(shù)據(jù)并行。其中,任務(wù)并行是將處理問題的方法并行化;數(shù)據(jù)并行是把數(shù)據(jù)分解成多個數(shù)據(jù)子集分別處理,比任務(wù)并行簡單。本研究采用對LC/MS產(chǎn)生的原始數(shù)據(jù)分組并行處理的方法。
基于LC/MS進行代謝物分析,待測樣品經(jīng)色譜儀分離時,組分的保留時間(tR)常用來作為成分鑒定的依據(jù)[17-19]。色譜儀作為質(zhì)譜分析的進樣裝置,在質(zhì)譜分析前對化合物進行分離,混合物中各個化合物依據(jù)其保留時間依次進入質(zhì)譜儀。質(zhì)譜儀連續(xù)掃描采集數(shù)據(jù),每一次掃描得到一幀質(zhì)譜圖,將一幀質(zhì)譜圖中所有的離子強度相加,得到對應(yīng)掃描時間的一個總離子流強度;總離子流隨時間變化的圖譜是總離子流色譜圖(TIC),以離子強度為縱坐標(biāo),時間為橫坐標(biāo)。TIC可視為該次分析的色譜圖,即反映該混合物在色譜柱中分離后各組分濃度隨時間的變化[20]。
從TIC可以發(fā)現(xiàn),當(dāng)總離子強度為零或低于某一個閾值時,此時無組分檢出,因此,峰強可以作為組分有無的判定條件。如果成分A在TIC中對應(yīng)的時間段為[t1,t2],則對于原始數(shù)據(jù)而言,依據(jù)t1和t2劃分數(shù)據(jù)可以保證成分A數(shù)據(jù)的完整性。此外,數(shù)據(jù)預(yù)處理階段的主要工作是識別混合物含有的各種成分,一種成分的鑒定是由其自身的保留時間和離子強度決定的,與其他成分的數(shù)據(jù)關(guān)系是松散耦合的,因此,保留時間可以作為不同成分數(shù)據(jù)劃分的依據(jù)。通過上述分析,按照保留時間對數(shù)據(jù)分組能夠滿足數(shù)據(jù)并行的可行性條件。
應(yīng)用軟件并行處理的目的是縮短執(zhí)行時間,一個原始數(shù)據(jù)文件在未并行處理之前,所有的預(yù)處理過程都是由一個計算節(jié)點單獨完成的,該過程耗時較長;并行化以后,數(shù)據(jù)文件被分成多組,交由多個計算節(jié)點同時完成,以此達到縮短計算時間的目的。由于一個并行處理的執(zhí)行時間受限于運行最慢的部分,所以負載均衡一直是并行程序設(shè)計中的一個重要因素[21]。
負載均衡考慮的首要因素是需要處理的數(shù)據(jù)的特點以及所應(yīng)用軟件的運行方式。在基于數(shù)據(jù)并行的處理模式中,數(shù)據(jù)劃分的效果和質(zhì)量會影響并行處理的效率[22]。對代謝數(shù)據(jù)進行劃分要考慮代謝數(shù)據(jù)預(yù)處理的特點。代謝數(shù)據(jù)預(yù)處理包括峰識別、重疊峰解析、峰對齊和歸一化等[23]。數(shù)據(jù)處理在TIC不同時間段的復(fù)雜度不同,在有譜峰出現(xiàn)的時間段,需要進行大量的數(shù)據(jù)計算,耗時較長;在沒有組分數(shù)據(jù)檢出的時間段,計算耗時較短。根據(jù)代謝數(shù)據(jù)預(yù)處理的這一特點,按照譜峰進行數(shù)據(jù)分組來實現(xiàn)并行處理的負載均衡。
按照譜峰,而不是樣品檢測時間對數(shù)據(jù)平均分組實現(xiàn)負載均衡,是根據(jù)代謝物組成成分的性質(zhì)不同。因樣品經(jīng)過色譜儀分離后進入質(zhì)譜儀的時間并不相同,而離子檢測器是以固定頻率進行掃描,在某個時間段可能并無成分被檢測到,所以數(shù)據(jù)在整個儀器運行時間的分布并不均衡。在定長的時間段內(nèi),譜峰的數(shù)目并不完全相同,因此在任務(wù)分解時不能按照樣品檢測時間平均分段來分組數(shù)據(jù)。小鼠血清樣本的總離子流色譜圖和三維色譜-質(zhì)譜圖示于圖1,可以發(fā)現(xiàn)數(shù)據(jù)在全檢測時間分布的不均衡性。
此外,各個計算節(jié)點的計算能力、I/O、圖形處理能力等也是負載均衡考慮的因素。在本研究中,為了簡化問題的復(fù)雜度,將參與計算的節(jié)點配置成完全相同,目的是消除由于配置不同導(dǎo)致的負載不均衡問題;數(shù)據(jù)在每個計算節(jié)點上由MZmine獨立完成預(yù)處理任務(wù),計算過程中不同節(jié)點不需要交換數(shù)據(jù),這也消除了由于數(shù)據(jù)通信帶來的負載均衡問題;此外,由于數(shù)據(jù)預(yù)處理工作是由同一軟件完成的,消除了處理方法不同造成的負載均衡問題。
圖1 小鼠血清樣本的總離子流色譜圖(a)和三維色譜-質(zhì)譜圖(b)Fig.1 TIC (a) and 3D chromatography mass spectrum (b) of the mice serum
按照譜峰分組數(shù)據(jù)的目的是提高并行效率,但是原始數(shù)據(jù)并不以譜峰形式存在。在TIC中,一個譜峰時間窗含有多個數(shù)據(jù)點(DP),一個數(shù)據(jù)點是一次儀器全掃描的結(jié)果。一般來講,最窄的色譜峰至少包括10個DP,也有以20或40個點作為檢測譜峰的標(biāo)準(zhǔn)[24-25]。以時間窗口表示譜峰,一個原始的TIC由多個時間窗組成,于是在按照譜峰進行負載均衡時,問題就變成了時間窗口的劃分。在由分離完全的組分形成的原始譜圖中,譜峰在時間軸上是一個時間窗[ts,te],ts表示一種組分經(jīng)過色譜儀分離后開始進入質(zhì)譜儀的時間,te表示這種組分從質(zhì)譜儀完全流出的時間。當(dāng)組分分離不完全時,在譜圖上有重疊峰出現(xiàn),雖然重疊峰是不同組分的集合,但是也可以表示為[ts,te]。在后續(xù)的譜峰預(yù)識別中,本研究將不再對峰和重疊峰進行區(qū)分,統(tǒng)一以峰來對待。
在譜峰預(yù)識別時允許存在重疊峰,是因為隨著LC/MS技術(shù)的發(fā)展,特別是UPLC/MS的使用,多數(shù)組分能夠得到完全的分離,表現(xiàn)在譜圖上就是峰與峰之間有明顯的邊界,重疊峰在原始數(shù)據(jù)中只占很少的部分。在并行效率方面,譜峰的個數(shù)遠遠大于計算節(jié)點的個數(shù),每個計算節(jié)點上實際分得大量的譜峰數(shù)據(jù),這樣即使由于少量重疊峰的存在導(dǎo)致某個計算節(jié)點在數(shù)據(jù)預(yù)處理階段耗時長一點,但是相對單節(jié)點計算耗時(T串)以及并行處理時長(T并),額外耗時所占的比重也很小。在依據(jù)譜峰對數(shù)據(jù)分組并行時,忽略重疊峰不會對負載均衡造成較大的影響,但是卻能明顯降低數(shù)據(jù)分組的難度。
代謝數(shù)據(jù)依據(jù)保留時間分組滿足了并行處理的可行性條件,按照譜峰分組能實現(xiàn)并行處理的負載均衡,譜峰的時間窗表示使得TIC中的譜峰與實測的按保留時間記錄的數(shù)據(jù)實現(xiàn)了一一對應(yīng)。代謝數(shù)據(jù)并行處理的流程是:管理節(jié)點接收原始數(shù)據(jù)后,按照樣品檢測時間對原始數(shù)據(jù)平均分組,分發(fā)給各個計算節(jié)點,計算節(jié)點對分組數(shù)據(jù)所包含的譜峰進行預(yù)識別;預(yù)識別完成后,管理節(jié)點對譜峰進行統(tǒng)計,再按照譜峰將原始數(shù)據(jù)平均分組,由MZmine完成代謝數(shù)據(jù)的預(yù)處理工作。為了便于陳述,在實際計算時以時間窗來劃分譜峰數(shù)據(jù),但在論述時仍然以按譜峰分組表示實現(xiàn)負載均衡的并行模式。
常用的譜峰識別方法有幅值法和斜率鑒別法。歐林軍等[25]利用標(biāo)尺與色譜曲線的交點來識別色譜峰;劉曉[26]利用迭代移動平均及歸一化分析技術(shù)提高譜峰的識別率;這些方法在準(zhǔn)確識別譜峰的同時也增加了計算的耗時。本研究提出了一種按照總離子強度對TIC中譜峰預(yù)識別的算法,該算法以i值確定色譜峰起始點和結(jié)束點,不對同一峰中的混合成分進行分離。譜峰預(yù)識別的目的是統(tǒng)計數(shù)據(jù)預(yù)處理總的工作量,不作為成分鑒定的依據(jù)。譜峰預(yù)識別算法分為譜峰時間窗識別和消除干擾值兩個步驟。
2.1.1譜峰時間窗識別 原始的代謝數(shù)據(jù)由一些離散的點組成,每個點有一個數(shù)值對(t,i),這些離散的點構(gòu)成了一個時間序列{(t1,i1),(t2,i2),…, (tR,in)}。在有譜峰存在的時間窗口i值呈現(xiàn)規(guī)律性的增加或減少,但都滿足i>ib,ib是基線信號。設(shè)定x=i-ib,x是扣除基線信號后的強度,則峰與峰之間掃描點的x值為零,于是對譜峰的預(yù)識別變成尋找時間序列中連續(xù)的x非零的時間窗。
2.1.2消除干擾值 由于儀器或操作造成的誤差,經(jīng)過處理的數(shù)據(jù)仍然有很多x非零,但實際不是譜峰的時間窗,可以通過以下兩種方法對這些時間窗進行排除:一是根據(jù)譜峰應(yīng)包含的最少點的個數(shù),連續(xù)的x>0點的個數(shù)多于20個的時間窗才能作為譜峰的候選;二是對多于20個點的時間窗,通過計算標(biāo)準(zhǔn)差排除非譜峰時間窗,只有在標(biāo)準(zhǔn)差大于一定值時才認為存在譜峰,即:
(1)
式中,N表示連續(xù)的非零點的個數(shù),φ表示連續(xù)的偏離基線信號的噪音值。在實際操作中,φ需要經(jīng)過不斷調(diào)整才能既去除噪音,又保證不丟失譜峰信息。
通過上述算法完成對譜峰的預(yù)識別,得到記錄譜峰的數(shù)組P,數(shù)組中每個元素記錄了譜峰的起止時間,如Pn[tns,tne]中,tns表示第n個峰的開始時間,tne表示這個峰的結(jié)束時間。
譜峰預(yù)識別可以由單一計算節(jié)點完成,也可以并行處理。并行處理時,管理節(jié)點將原始數(shù)據(jù)接收進來后,按照樣品檢測時間對原始數(shù)據(jù)平均分組分發(fā)給每個計算節(jié)點。譜峰預(yù)識別并行處理數(shù)據(jù)分組示于圖2(實線部分)。譜峰預(yù)識別算法的時間復(fù)雜度低,在并行處理時各個節(jié)點耗時相差不大,因此這一過程不考慮負載均衡。按照時間平均分組,在TIC上會出現(xiàn)譜峰被分割的情況,原始數(shù)據(jù)則是某段數(shù)據(jù)后面出現(xiàn)連續(xù)多個x大于0,但是總數(shù)又少于20個的點,在譜峰預(yù)識別時將這些點默認為一個譜峰,ts以第1個非0點開始的時刻為準(zhǔn)。
圖2 原始數(shù)據(jù)不同分組方法示意圖Fig.2 Different group methods for raw data
譜峰預(yù)識別完成后,得到以譜峰為衡量的總工作量。按照譜峰對數(shù)據(jù)平均分組,就是將預(yù)識別的譜峰平均分配到每個計算節(jié)點上。如第m個節(jié)點分得的譜峰段為[Pl,Pk],則該節(jié)點實際分得數(shù)據(jù)的時間窗為[tls,tke],tls為第l個峰的開始時間,tke為第k個峰的結(jié)束時間,其分組方法示于圖2(虛線部分)。
實驗數(shù)據(jù)是小鼠血清樣本經(jīng)過UPLC-Q TOF-MS檢測得到的,采用全掃描模式,樣品檢測時間為0~12 min。并行處理環(huán)境為5個配置完全相同的計算節(jié)點,1個為管理節(jié)點,4個為計算節(jié)點;管理節(jié)點在完成數(shù)據(jù)接收、分組、匯總等工作的同時也參與代謝數(shù)據(jù)預(yù)處理任務(wù)。5個節(jié)點都預(yù)裝了MZmine和自行開發(fā)的代謝數(shù)據(jù)并行處理軟件PMDP(parallel metabonomic data process)。PMDP具有完成代謝數(shù)據(jù)的接收、譜峰預(yù)識別、數(shù)據(jù)分組以及與MZmine通信等功能。
實驗數(shù)據(jù)處理分為3種模式:1) 單計算節(jié)點模式,由一個計算節(jié)點完成所有代謝數(shù)據(jù)預(yù)處理任務(wù);2) 時間并行模式,按樣品檢測時間平均分段對數(shù)據(jù)分組的并行處理模式;3)譜峰并行模式,按譜峰對數(shù)據(jù)平均分組的并行處理模式。為了便于比較并行結(jié)果,本研究引入了相對時間(tr)的概念,即以單節(jié)點計算耗時(T串)作為基準(zhǔn)時間,并行處理時,各計算節(jié)點耗時與之對比得到相對計算時間。如,單節(jié)點處理30個樣品耗時為18 h,則T串=18,并行處理時某節(jié)點耗時為6 h,則該節(jié)點的相對時間tr=6/18=0.33。tr的引入是一種歸一化處理方式,消除了樣品本身性質(zhì)的影響,從而使并行結(jié)果具有普遍意義。歸一化后,t串=1,t并=Max(tr)。從圖2可以看出,時間并行模式與譜峰并行模式兩種分組方法在整個樣品檢測時間的數(shù)據(jù)分組不同;時間并行模式與譜峰預(yù)識別的數(shù)據(jù)分組方法相同。原始數(shù)據(jù)為27個血清樣本,在單計算節(jié)點上預(yù)處理耗時約為23 h 40 min,2種并行處理模式的tr統(tǒng)計結(jié)果列于表1。
表1 同一數(shù)據(jù)2種并行模式的trTable 1 tr of two parallel computing modes
注:1)T是計算節(jié)點分組數(shù)據(jù)所在的時間窗,0~2.4 min是P1節(jié)點在按時間并行模式時,對這個時間窗口的數(shù)據(jù)進行預(yù)處理;
2) 在數(shù)據(jù)處理時,按照譜峰并行模式也是以時間窗來分組數(shù)據(jù)
從表1可以看出:在并行時間的耗時方面,譜峰并行模式要少于時間并行模式;在負載效果方面,平均偏差大則說明各個計算節(jié)點的負載均衡不理想,因此,譜峰并行的負載均衡效果要更好一些。加速比(speedup)是指求解同一計算任務(wù)在單計算節(jié)點消耗的時間T串與在節(jié)點數(shù)為P的并行系統(tǒng)中消耗的時間T并的比值,即Sp=T串/T并,常用來衡量一個并行算法的效果[27]。加速比與本研究引入的相對時間的關(guān)系為Sp=1/tr。更多的實驗數(shù)據(jù)證實,隨著計算節(jié)點的增多以及代謝數(shù)據(jù)規(guī)模的擴大,譜峰并行模式的加速比Sp≈P;而時間并行模式的加速比則具有較大的隨意性,在(1,P)之間波動,Sp與代謝物中成分組成有關(guān)。譜峰并行模式時,不同計算節(jié)點數(shù)目Sp趨勢示于圖3。
圖3 譜峰并行模式時,不同節(jié)點數(shù)目的加速比Fig.3 Speedup of different node numbers in peak grouping mode
本研究提出了一種基于LC/MS的代謝組學(xué)數(shù)據(jù)并行處理方法,原始數(shù)據(jù)分組后由成熟的代謝數(shù)據(jù)處理軟件MZmine分別處理。實驗結(jié)果表明,隨著待處理數(shù)據(jù)的增多以及參與并行處理節(jié)點的增多,譜峰并行模式的加速比Sp趨近于線性加速比P。該方法部署簡單、可擴展性強,可以解決單計算節(jié)點數(shù)據(jù)處理速度慢的問題,且能快速準(zhǔn)確地處理基于LC/MS產(chǎn)生的海量數(shù)據(jù)。
[1] 王獻,林樹海,蔡宗葦. 基于質(zhì)譜技術(shù)的代謝組學(xué)研究及其在中國的發(fā)展[J]. 中國科學(xué):化學(xué),2014,44(5):724-731.
WANG Xian, LIN Shuhai, CAI Zongwei. Mass spectrometry-based metabolomics and their developments in China[J]. Scientia Sinica Chimica, 2014, 44(5): 724-731(in Chinese).
[2] 李寧,范雪梅,王義明,等. 代謝組學(xué)及其分析技術(shù)的研究進展[J]. 中南藥學(xué),2014,12(7):668-673.
LI Ning, FAN Xuemei, WANG Yiming, et al. Development of metabolomics and its analytical technique[J]. Central South Pharmacy, 2014, 12(7): 668-673(in Chinese).
[3] 蘇翠紅,李笑天. 液相色譜和質(zhì)譜聯(lián)用技術(shù)及其在代謝組學(xué)中的應(yīng)用[J]. 中華婦幼臨床醫(yī)學(xué)雜志:電子版,2010,6(1):62-64.
SU Cuihong, LI Xiaotian. High performance liquid chromatography mass sepctrometry and its application in metabonomics[J]. Chinese Journal of Obstetrics & Gynecology and Pediatrics: Electronic Edition, 2010, 6(1): 62-64(in Chinese).
[4] 王鵬遠,張金蘭. LC/MS技術(shù)在發(fā)現(xiàn)和鑒定藥物中有關(guān)物質(zhì)的應(yīng)用[J]. 質(zhì)譜學(xué)報,2010,31(6):362-367.
WANG Pengyuan, ZHANG Jinlan. Applications of LC/MS in discovery and characterization of related impurities in drug[J]. Journal of Chinese Mass Spectrometry Society, 2010, 31(6): 362-367(in Chinese).
[5] 趙春霞,許國旺. 基于液相色譜-質(zhì)譜技術(shù)的代謝組學(xué)分析方法新進展[J]. 分析科學(xué)學(xué)報,2014,30(5):761-766.
ZHAO Chunxia, XU Guowang. Progress of metabonomics technique based on liquid chromatography-mass spectrometry[J]. Journal of Analytical Science, 2014, 30(5): 761-766(in Chinese).
[6] 謝躍生,潘桂湘,高秀梅,等. 高效液相色譜技術(shù)在代謝組學(xué)研究中的應(yīng)用[J]. 分析化學(xué),2006,34(11):1 644-1 648.
XIE Yuesheng, PAN Guixiang, GAO Xiumei, et al. Application of high performance liquid chromatographic technique in metabonomics studies[J]. Chinese Journal of Analytical Chemistry, 2006, 34(11): 1 644-1 648(in Chinese).
[7] 盧紅梅,梁逸曾. 代謝組學(xué)分析技術(shù)及數(shù)據(jù)處理技術(shù)[J]. 分析測試學(xué)報,2008,27(3):325-332.
LU Hongmei, LIANG Yizeng. The development of analytical technologies and data mining in metabolomics[J]. Journal of Instrumental Analysis, 2008, 27(3): 325-332(in Chinese).
[8] 亓云鵬,胡杰偉,柴逸峰,等. 代謝組學(xué)數(shù)據(jù)處理研究的進展[J]. 計算機與應(yīng)用化學(xué),2008,25(9):1 139-1 142.
QI Yunpeng, HU Jiewei, CHAI Yifeng, et al. Advances of data analysis in metabonomics study[J]. Computers and Applied Chemistry, 2008, 25(9): 1 139-1 142(in Chinese).
[9] TOMAS P, SANDRA C, ALEJANDRO V B, et al. MZmine 2: Modular framework for processing, visualizing, and analyzing mass spectrometry-based molecular profile data[J]. Bioinformatics, 2010, 11(1): 1-11.
[10] TREVINO V, YANEZ-GARZA L L, RODRIQUEZ-LOPEZ C E, et al. GridMass: A fast two-dimensional feature detection method for LC/MS[J]. Journal of Mass Spectrometry, 2015, 50(1): 165-174.
[11] COBLE J B, FRAGA C G. Comparative evaluation of preprocessing freeware on chromatography/mass spectrometry data for signature discovery[J]. Journal of Chromatography A, 2014, 1358: 155-164.
[12] TOBIAS K. West Coast Metabolomics Center at UC Davis. MZmine[EB/OL]. http:∥fiehnlab.ucdavis.edu/staff/kind/Metabolomics/Peak_Ali-gnment/mzmine/.
[13] DEXTER D, ANDREW L. Vanderbilt university school of medicine. Parallel Tandem[EB/OL]. http:∥www.thegpm.org/parallel/.
[14] PAR J, STEPHEN J B, THOMAS M, et al. Extraction, interpretation and validation of information for comparing samples in metabolic LC/MS data sets[J]. Analyst, 2005, 130(5): 701-707.
[15] 黎建輝,劉勇,王衛(wèi)華,等. MapReduce計算模型下的化合物L(fēng)C/MS鑒定[J]. 計算機科學(xué)與探索,2011,5(12):1 094-1 103.
LI Jianhui, LIU Yong, WANG Weihua, et al. LC/MS compounds identification under MapReduce[J]. Journal of Frontiers of Computer Science and Technology, 2011, 5(12): 1 094-1 103(in Chinese).
[16] 陳國良,孫廣中,徐云,等. 并行計算的一體化研究現(xiàn)狀與發(fā)展趨勢[J]. 科學(xué)通報,2009,54(8):1 043-1 049.
CHEN Guoliang, SUN Guangzhong, XU Yun, et al. Integrated research of parallel computing: Status and future[J]. Chinese Science Bulletin, 2009, 54(8): 1 043-1 049(in Chinese).
[17] 潘芳芳. HPLC-QTOF-MS聯(lián)用技術(shù)在藥物雜質(zhì)分析中的運用[D]. 杭州:浙江工業(yè)大學(xué),2013.
[18] 張良曉. 氣相色譜-質(zhì)譜定性定量分析新方法研究[D]. 長沙:中南大學(xué),2011.
[19] 邵晨,高友鶴. 色譜保留時間在蛋白質(zhì)組研究中的應(yīng)用[J]. 色譜,2010,28(2):128-134.
SHAO Chen, GAO Youhe. Application of peptide retention time in proteome research[J]. Chinese Journal of Chromatography, 2010, 28(2): 128-134(in Chinese).
[20] 蔣學(xué)慧. 色譜-質(zhì)譜聯(lián)用儀數(shù)據(jù)處理關(guān)鍵技術(shù)的研究[D]. 天津:天津大學(xué),2013.
[21] 廖湘科. 網(wǎng)絡(luò)并行計算中的負載平衡[J]. 小型微型計算機系統(tǒng),1995,16(9):32-36.
LIAO Xiangke. Load balance in network parallel computing[J]. Mini-Micro Systems, 1995, 16(9): 32-36(in Chinese).
[22] 胡霞. 并行計算如何用于科學(xué)問題研究[J]. 科技資訊,2009:176.
HU Xia. Parallel computing in scientific research[J]. Science & Technologying Information, 2009: 176(in Chinese).
[23] 汪明明,程海婷,薛明. 基于LC/MS的代謝組學(xué)分析流程與技術(shù)方法[J]. 國際藥學(xué)研究雜志,2011,38(2):130-136.
WANG Mingming, CHENG Haiting, XUE Ming. Recent development of LC-MS-based analytical procedures and techniques in metabonomics[J]. Journal of International Pharmaceutical Research, 2011, 38(2): 130-136(in Chinese).
[24] HANS J K, STAVROS K. 液相與氣相色譜定量分析使用指南[M]. 陳小明,唐雅妍,譯. 北京:人民衛(wèi)生出版社,2010:43.
[25] 歐林軍,曹建. 一種變壓器油色譜峰識別算法的設(shè)計[J]. 色譜,2014,32(9):1 019-1 024.
OU Linjun, CAO Jian. A peak recognition algorithm designed for chromatographic peaks of transformer oil[J]. Chinese Journal of Chromatography, 2014, 32(9): 1 019-1 024(in Chinese).
[26] 劉曉. 識別色譜峰的一種方法[J]. 分析儀器,2005,(3):54-57.
LIU Xiao. A new method for distinguishing gas chromatographic peaks[J]. Analytical Instrumentation, 2005, (3): 54-57(in Chinese).
[27] 謝超,麥聯(lián)叨,都志輝,等. 關(guān)于并行計算系統(tǒng)中加速比的研究與分析[J]. 計算機工程與應(yīng)用,2003,39:66-68.
XIE Chao, MAI Liandao, DU Zhihui, et al. Research and analysis of parallel computing system speedup[J]. Computer Engineering and Applications, 2003, 39: 66-68(in Chinese).