李龍,張紀(jì)陽(yáng),,史秀建,孫漢昌,謝紅衛(wèi),歐陽(yáng)辰星
(1. 國(guó)防科學(xué)技術(shù)大學(xué) 機(jī)電工程與自動(dòng)化學(xué)院,湖南 長(zhǎng)沙,410073;2. 北京蛋白質(zhì)組研究中心 蛋白質(zhì)組學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京,102206;3. 中南大學(xué) 商學(xué)院,湖南 長(zhǎng)沙,410083)
基于局部回歸的色譜保留時(shí)間對(duì)齊可逆算法
李龍1,張紀(jì)陽(yáng)1,2,史秀建1,孫漢昌1,謝紅衛(wèi)1,歐陽(yáng)辰星3
(1. 國(guó)防科學(xué)技術(shù)大學(xué) 機(jī)電工程與自動(dòng)化學(xué)院,湖南 長(zhǎng)沙,410073;2. 北京蛋白質(zhì)組研究中心 蛋白質(zhì)組學(xué)國(guó)家重點(diǎn)實(shí)驗(yàn)室,北京,102206;3. 中南大學(xué) 商學(xué)院,湖南 長(zhǎng)沙,410083)
提出并實(shí)現(xiàn)一種基于局部回歸的對(duì)齊算法,選擇鑒定結(jié)果最多的一次實(shí)驗(yàn)作為參考,實(shí)現(xiàn)色譜保留時(shí)間的可逆對(duì)齊,將n次實(shí)驗(yàn)的對(duì)齊建模次數(shù)從n(n?1)/2次減少為n?1次。該算法還實(shí)現(xiàn)不同實(shí)驗(yàn)間色譜保留時(shí)間的非線性對(duì)齊,并且能夠克服少量從色譜柱中多次流出肽段的影響。研究結(jié)果表明:該方法計(jì)算時(shí)間復(fù)雜度遠(yuǎn)比現(xiàn)有算法的低,對(duì)齊精度也能夠滿足后續(xù)計(jì)算的需要。
液質(zhì)聯(lián)用串聯(lián)質(zhì)譜;定量蛋白質(zhì)組學(xué);色譜保留時(shí)間對(duì)齊;局部回歸;可逆算法
基于液相色譜?串聯(lián)質(zhì)譜(LC-MS/MS)的無(wú)標(biāo)記(label free)定量是蛋白質(zhì)定量分析的核心技術(shù)之一[1?2],特別是基于高精度質(zhì)譜儀(例如熱電公司的LTQ-FT[3]和LTQ-Orbitrap[4])的分析平臺(tái)在大規(guī)模生物標(biāo)志物發(fā)現(xiàn)中已經(jīng)廣泛應(yīng)用[5?9]。LC-MS/MS實(shí)驗(yàn)可以同時(shí)鑒定、定量肽段,但是由于受分析能力的限制,只能根據(jù)“動(dòng)態(tài)排除”策略,選擇部分母離子進(jìn)行MS/MS分析,所以,肽段的鑒定結(jié)果具有很大的隨機(jī)性[10]。有研究表明,2次重復(fù)實(shí)驗(yàn)(技術(shù)重復(fù),每次重復(fù)又稱為一次LC-run)之間重疊鑒定的肽段只有60%~70%[11];所以,對(duì)同一樣本重復(fù)分析成為克服隨機(jī)采樣效應(yīng)的重要方法。MS圖譜中的信號(hào)重復(fù)性遠(yuǎn)優(yōu)于MS/MS分析的重復(fù)性,超過(guò) 95%的離子流色譜峰(Extracted ion chromatograms, XIC)在重復(fù)實(shí)驗(yàn)中都會(huì)出現(xiàn)[12];因此,在數(shù)據(jù)分析中利用色譜保留時(shí)間對(duì)齊實(shí)現(xiàn)重復(fù)實(shí)驗(yàn)和不同樣品的 LC-MS分析中的信號(hào)對(duì)應(yīng),可以克服 MS/MS分析的隨機(jī)效應(yīng),充分利用實(shí)驗(yàn)數(shù)據(jù)。色譜保留時(shí)間對(duì)齊(Retention time alignment)一般是利用2次實(shí)驗(yàn)間共同鑒定的肽段來(lái)建立色譜保留時(shí)間對(duì)齊模型,然后,利用該模型預(yù)測(cè)那些在實(shí)驗(yàn)中未鑒定肽段的色譜保留時(shí)間[13]??紤]影響色譜分析重復(fù)性的復(fù)雜因素,一般采用非線性模型建立2次實(shí)驗(yàn)間色譜保留時(shí)間的關(guān)系。常用的模型有3次樣條、局部回歸、小波基、相關(guān)函數(shù)、偏移向量等[14]。在處理多次重復(fù)實(shí)驗(yàn)的數(shù)據(jù)時(shí),一般采用兩兩對(duì)齊或者尋找參考LC-run的方法[15]。兩兩對(duì)齊一般要計(jì)算量大,而參考 LC-run方法需要找到一個(gè)能夠包含所有信號(hào)的LC-run,對(duì)于隨機(jī)性較大的MS/MS分析來(lái)說(shuō),十分困難。由于很多非線性模型都不是可逆的,為了實(shí)現(xiàn)2次實(shí)驗(yàn)間的色譜保留時(shí)間對(duì)齊,需要建立2個(gè)模型,增加了計(jì)算量和計(jì)算復(fù)雜程度。在此,本文作者基于局部回歸方法實(shí)現(xiàn)一個(gè)可逆的色譜保留時(shí)間對(duì)齊模型。利用該模型,提出一種使用參考LC-run的色譜保留時(shí)間對(duì)齊策略,解決了任何一次實(shí)驗(yàn)都只能鑒定部分肽段、不適合作為參考LC-run的問(wèn)題,提高了計(jì)算速度。
在基于無(wú)標(biāo)記定量的生物標(biāo)志物發(fā)現(xiàn)過(guò)程中,利用質(zhì)譜對(duì)目標(biāo)樣本和對(duì)照樣本分別進(jìn)行分析,找出不同質(zhì)譜信號(hào)的差異以及其代表的蛋白質(zhì),實(shí)現(xiàn)相對(duì)定量[16]。目前,基于高性能質(zhì)譜平臺(tái)的無(wú)標(biāo)記定量分析主要有 2種典型的實(shí)驗(yàn)策略:LC-MS策略和LC-MS/MS策略[17]。其中 LC-MS策略直接分析蛋白質(zhì)混合物酶切(一般使用胰酶)得到的肽段混合物,得到以整體肽段離子的質(zhì)荷比(Mass to charge ratio,m/z)和信號(hào)強(qiáng)度為基本元素的一級(jí)質(zhì)譜圖(MS圖譜),然后,在數(shù)據(jù)分析中直接解析MS圖譜中的同位素峰,構(gòu)建肽段的離子流色譜峰,進(jìn)行肽段定量(肽段序列未知)。這種方法不直接利用質(zhì)譜鑒定肽段,而是利用MS圖譜中的信號(hào)來(lái)表征肽段。與之不同的是:LC-MS/MS策略進(jìn)行一般的鳥槍法實(shí)驗(yàn)(Shotgun),肽段在進(jìn)行MS分析后,還要選擇母離子(Precursor ions)進(jìn)行惰性氣體誘導(dǎo)碰撞碎裂(Collision-induced dissociation, CID),得到包含肽段序列信息的MS/MS圖譜。在數(shù)據(jù)處理中,首先利用 MS/MS圖譜鑒定肽段序列,然后利用MS圖譜中的母離子信號(hào)實(shí)現(xiàn)肽段的定量。這種方法的最大優(yōu)勢(shì)在于可以同時(shí)實(shí)現(xiàn)肽段的鑒定和定量,2種策略的最大差異是是否進(jìn)行MS/MS分析。無(wú)論是哪種策略,都需要將不同實(shí)驗(yàn)得到的質(zhì)譜信號(hào)進(jìn)行對(duì)比,色譜保留時(shí)間是實(shí)現(xiàn)信號(hào)對(duì)齊的重要參數(shù)[11]。本文作者針對(duì)LC-MS/MS策略進(jìn)行研究,其實(shí)驗(yàn)和數(shù)據(jù)分析流程可以用圖1來(lái)概括[13]。可以看出:在數(shù)據(jù)分析中,色譜保留時(shí)間的對(duì)齊是重要的一步。
圖1 典型無(wú)標(biāo)記定量的實(shí)驗(yàn)和數(shù)據(jù)分析流程Fig.1 Typical workflow of experiment and data processing for label free quantification in proteomics
本文所使用的數(shù)據(jù)來(lái)自文獻(xiàn)[18],酵母(Saccharomyces cerevisiae, Type Ⅱ, Sigma)經(jīng)過(guò)樣品處理后,利用配備有Agilent 1100(Agilent Technologies,Palo Alto, CA)高效液相色譜(HPLC)的LTQ/FT質(zhì)譜儀(Thermo Electron, San Jose, CA)進(jìn)行10次重復(fù)實(shí)驗(yàn)。在質(zhì)譜分析中,采用了LC-MS/MS策略,1次MS分析之后緊跟著進(jìn)行10次MS/MS分析,采用30 s動(dòng)態(tài)排除和自動(dòng)增益控制(Auto gain control, AGC)。得到的數(shù)據(jù)使用SEQUEST搜庫(kù)(Bioworks 3.2版本),使用誘騙數(shù)據(jù)庫(kù)搜索(Decoy searching)策略來(lái)對(duì)搜庫(kù)結(jié)果進(jìn)行假陽(yáng)性率(False discovery rate, FDR)控制,使用1%FDR的標(biāo)準(zhǔn)過(guò)濾搜庫(kù)結(jié)果。得到的搜庫(kù)結(jié)果去冗余,然后,提取肽段色譜保留時(shí)間并對(duì)齊。另外,為了驗(yàn)證重復(fù)實(shí)驗(yàn)間色譜保留時(shí)間的非線性關(guān)系,還利用一個(gè)上樣量(loading amount)不同的2次重復(fù)實(shí)驗(yàn)數(shù)據(jù),實(shí)驗(yàn)方法與參考文獻(xiàn)[18]中的相同。
色譜保留時(shí)間對(duì)齊采用局部回歸方法(Local regression),10次重復(fù)實(shí)驗(yàn)之間對(duì)齊采用下列步驟:
(1) 首先利用肽段鑒定結(jié)果提供的質(zhì)荷比、序列和MS/MS圖譜掃描號(hào)(Scan number)在單個(gè)LC-run得到的原始數(shù)據(jù)(raw文件)中提取離子流色譜峰,得到肽段的色譜保留時(shí)間。
(2) 找出原始數(shù)據(jù)文件最大的那次 LC-run(預(yù)期包含信息最多)作為參考,其他9次實(shí)驗(yàn)的色譜保留時(shí)間均采用局部回歸方法向參考實(shí)驗(yàn)對(duì)齊,同時(shí)記錄局部回歸的模型參數(shù)。
(3) 參考實(shí)驗(yàn)中的所有肽段(對(duì)齊和鑒定)向其他9次實(shí)驗(yàn)進(jìn)行色譜保留時(shí)間對(duì)齊。這一步可以利用已經(jīng)建立的局部回歸可逆模型,不需再建模。
(4) 輸出色譜保留時(shí)間對(duì)齊結(jié)果,并且進(jìn)行其他定量分析。
從上面的步驟可以看出:采用局部回歸方法進(jìn)行可逆的保留時(shí)間對(duì)齊,關(guān)鍵要保證模型是可逆的,這樣只需要建立和記錄9個(gè)模型,進(jìn)行18次對(duì)齊計(jì)算,就可以實(shí)現(xiàn)10次實(shí)驗(yàn)之間的對(duì)齊。而兩兩對(duì)齊的不可逆模型則需要建立=45個(gè)模型,進(jìn)行45次對(duì)齊計(jì)算。一般來(lái)說(shuō),對(duì)于n次重復(fù)實(shí)驗(yàn),若采用兩兩對(duì)齊方法,則需要建立=n(n? 1)/2個(gè)模型,而若采用可逆對(duì)齊方法,則只需要建立n?1個(gè)模型,可以看出本文使用的模型將會(huì)大大減少計(jì)算量,重復(fù)實(shí)驗(yàn)次數(shù)越多,效果越明顯。另外,本文采用的LOWESS模型是局部線性模型,也是局部回歸中最簡(jiǎn)單的一種,算法自身的計(jì)算量也得到了控制[19]。為了排除異常值數(shù)據(jù)點(diǎn)的影響,在計(jì)算局部最小二乘回歸時(shí),采用魯棒(Robust)方法[19],整個(gè)算法如下所示,算法的收斂性等性能分析見(jiàn)文獻(xiàn)[19]。
算法1:魯棒局部回歸算法。
步驟1:輸入。
(1) 參考實(shí)驗(yàn)和其他任意一次實(shí)驗(yàn)的共同鑒定肽段的色譜保留時(shí)間TR向量,x=rTR和y=xTR;
(2) 局部回歸窗口大小span,參考數(shù)據(jù)點(diǎn)向量數(shù)目ref_num,最大迭代次數(shù)iter;
步驟2:初始化變量。
步驟3:開(kāi)始局部回歸Local regression。
(1) 計(jì)算窗口范圍:
(2) 提取窗口范圍內(nèi)的數(shù)據(jù)點(diǎn),并且統(tǒng)計(jì)數(shù)據(jù)點(diǎn)數(shù)目sub_num;
(3) 若num小于 4,sub_min=sub_min?binW,sub_max=sub_max+binW,則返回步驟 3中(2),否則進(jìn)行下一步,得到的數(shù)據(jù)點(diǎn)集合稱為S;
(4) 假設(shè)得到的局部數(shù)據(jù)點(diǎn)為sub_x,sub_y,求每個(gè)數(shù)據(jù)點(diǎn)的權(quán)重:
(5) 進(jìn)行加權(quán)最小二乘回歸(WLS):
步驟4:迭代進(jìn)行Robust回歸。
(1) 計(jì)算殘差:
(2) 對(duì)殘差進(jìn)行歸一化處理:
其中:median表示求取中值。
(3) 計(jì)算權(quán)重因子:
若Rweight[j]=1,則Rweight[j]=0,進(jìn)行變換:Rweight[j]=1?Rweight[j]*Rweight[j],其中j∈S;
(4) 更新權(quán)重:W_new[j]=Weight[j]*Rweight[j],其中j∈S;
(5) 記錄回歸參數(shù),bold=b,重新進(jìn)行WLS:
其中:WX=W_new·sub_x,WY=W_new·sub_y;
(6) 迭代次數(shù)+1,若超過(guò)預(yù)設(shè)迭代次數(shù)iter,則退出循環(huán),否則計(jì)算差值:e=|b?bold|;若e<ε(例如1×10?6),則退出循環(huán),否則跳轉(zhuǎn)到步驟4中(1)。
得到局部線性模型參數(shù),結(jié)束計(jì)算。
在實(shí)現(xiàn)色譜保留時(shí)間對(duì)齊之后,還要利用對(duì)齊得到的色譜保留時(shí)間,提取未鑒定肽段的離子流色譜峰;所以,盡量減小色譜保留時(shí)間的誤差,縮小搜索范圍,提高色譜保留時(shí)間參數(shù)區(qū)分不同肽段的能力,可以減少假陽(yáng)性結(jié)果。為了驗(yàn)證局部回歸方法的建模效果,使用2個(gè)最大的數(shù)據(jù)文件,分析局部回歸方法的色譜保留時(shí)間對(duì)齊的殘差,結(jié)果如圖2所示。從圖2可以看出:殘差符合正態(tài)分布,均值為0,標(biāo)準(zhǔn)差為0.112(時(shí)間單位為min),相對(duì)于一般的離子流色譜峰的范圍(2 min左右),誤差區(qū)間比較小??紤]到數(shù)據(jù)點(diǎn)集中存在噪聲數(shù)據(jù)點(diǎn),殘差分布并不能嚴(yán)格通過(guò)正態(tài)性檢驗(yàn)(例如 Jarque-Bera檢驗(yàn)),這也正是在局部回歸中引入魯棒迭代回歸排除異常值點(diǎn)的原因。
圖2 局部回歸殘差分布Fig.2 Residual distribution of local regression
局部可逆回歸的最大優(yōu)勢(shì)在于可以大大節(jié)省計(jì)算時(shí)間。對(duì)于 10次重復(fù)的實(shí)驗(yàn)數(shù)據(jù),利用 C++語(yǔ)言編寫的算法來(lái)測(cè)試運(yùn)算時(shí)間,發(fā)現(xiàn)在HP 6520s計(jì)算機(jī)上(Intel T5870 2.0G雙核 CPU,2Gb內(nèi)存),僅僅需要10.07 s,而采用3次樣條平滑方法則需要184.94 s[16],大約是局部回歸方法的 18倍。即使采用局部回歸算法,若不利用可逆特性,則大約需要22 s,是本文提出算法的2倍。經(jīng)過(guò)測(cè)試,那些基于LC-MS策略(把LC-MS/MS數(shù)據(jù)當(dāng)作 LC-MS數(shù)據(jù)分析,包括MSInspect[12],MSAlign[20]和 XCMS[21])的對(duì)齊算法則需要更長(zhǎng)的運(yùn)算時(shí)間。可以看出:可逆局部回歸方法可以大大減少運(yùn)算時(shí)間,在更大數(shù)據(jù)集上的作用會(huì)更加明顯。
設(shè)計(jì)嚴(yán)密的技術(shù)重復(fù)實(shí)驗(yàn)之間色譜保留時(shí)間的非線性關(guān)系并不是很明顯,這一點(diǎn)可以從圖 3(a)中看到(其中,TR為色譜保留時(shí)間)。但是,在生物標(biāo)志物發(fā)現(xiàn)的實(shí)際應(yīng)用中,往往需要對(duì)比不同樣品。由于色譜分離中不同組分之間的交互作用,色譜保留時(shí)間之間的非線性對(duì)應(yīng)關(guān)系就會(huì)比較明顯[22]。圖3(b)所示是LC分析時(shí)間為60 min時(shí),不同上樣量情況下色譜保留時(shí)間的對(duì)齊關(guān)系,可以發(fā)現(xiàn)有明顯的非線性效應(yīng)。所以,采用局部回歸方法來(lái)描述這種非線性關(guān)系也是必須的。
另外,在LC時(shí)間為60 min的數(shù)據(jù)分析中,發(fā)現(xiàn)最后10 min分析時(shí)間中存在一些異常數(shù)據(jù)點(diǎn),在上樣量為3.0 μg/μL的分析中,其色譜保留時(shí)間都大于50 min;而在上樣量為0.3 μg/μL的分析中,這些肽段的色譜保留時(shí)間小于50 min,遠(yuǎn)遠(yuǎn)偏離了2次實(shí)驗(yàn)間色譜保留時(shí)間的基本線性關(guān)系,如圖 4(a)所示。分析實(shí)驗(yàn)過(guò)程發(fā)現(xiàn):最后10 min為色譜柱沖洗時(shí)間,若樣品上樣量比較大,則還會(huì)有一些在以前已經(jīng)鑒定的肽段被洗脫和鑒定,就出現(xiàn)了雙離子流色譜峰;而在上樣量比較小時(shí),沖洗過(guò)程中很難再鑒定這些已經(jīng)洗脫過(guò)的肽段,殘留已經(jīng)不能達(dá)到質(zhì)譜儀的檢測(cè)靈敏度門限。所以,本文實(shí)現(xiàn)的局部回歸方法考慮了這一問(wèn)題,沖洗時(shí)間的色譜保留時(shí)間對(duì)齊采用洗脫時(shí)間段最后1個(gè)局部線性模型代替,而不利用實(shí)驗(yàn)數(shù)據(jù)建模,這樣就避免了這個(gè)問(wèn)題。圖4(b)給出了相關(guān)結(jié)果。
圖3 不同實(shí)驗(yàn)條件下色譜保留時(shí)間對(duì)齊的非線性效應(yīng)Fig.3 Nonlinear effect of TR alignment in different experiment conditions
(1) 基于局部回歸方法實(shí)現(xiàn)了一個(gè)可逆的色譜保留時(shí)間對(duì)齊模型,給出了算法流程,并且實(shí)現(xiàn)了該算法。
(2) 利用色譜保留時(shí)間對(duì)齊的可逆模型,提出了一種使用參考LC-run的色譜保留時(shí)間對(duì)齊策略,對(duì)齊模型只需要建立n個(gè)(n為重復(fù)實(shí)驗(yàn)次數(shù)),對(duì)齊計(jì)算只需要進(jìn)行2n次,就能夠?qū)崿F(xiàn)LC-MS/MS策略中的色譜保留時(shí)間對(duì)齊,解決了任何一次實(shí)驗(yàn)都只能鑒定出部分肽段、不適合作為參考LC-run的問(wèn)題,并且提高了計(jì)算速度。
(3) 利用10次技術(shù)重復(fù)的LTQ/FT數(shù)據(jù),發(fā)現(xiàn)對(duì)齊精度能夠滿足現(xiàn)階段離子流色譜峰提取的需要。利用不同上樣量的實(shí)驗(yàn)數(shù)據(jù),分析和驗(yàn)證了色譜保留時(shí)間對(duì)齊的非線性問(wèn)題。
[1] Wang M, You J, Bemis K G, et al. Label-free mass spectrometry-based protein quantification technologies in proteomic analysis[J]. Briefings in Functional Genomics, 2008,7(5): 329?339.
[2] 薛曉芳, 吳松鋒, 朱云平, 等. 蛋白質(zhì)組學(xué)研究中的無(wú)標(biāo)記定量方法[J]. 中國(guó)生物化學(xué)與分子生物學(xué)報(bào), 2006, 22(6):442?449.
XUE Xiao-fang, WU Song-feng, ZHU Yun-ping, et al.Label-free protein quantification methods in proteomics research[J]. Chinese Journal of Biochemistry and Molecular Biology, 2006, 22(6): 442?449.
[3] Olsen J V, De Godoy L M, Li G Q, et al. Parts per million mass accuracy on an orbitrap mass spectrometer via lock mass injection into a C-trap[J]. Molecular & Cellular Proteomics.2005, 4(12): 2010?2021.
[4] Hu Q, Noll R J, Li H, et al. The orbitrap: A new mass spectrometer[J]. Journal of Mass Spectrometry, 2005, 40(4):430?443.
[5] PENG Xin-qing, WANG Fei, GENG Xin, et al. Current advances in tumor proteomics and candidate biomarkers for hepatic cancer[J]. Expert Review of Proteomics, 2009, 6(5):551?561.
[6] Hanash S M, Pitteri S J, Faca V M. Mining the plasma proteome for cancer biomarkers[J]. Nature, 2008, 452(7178): 571?579.
[7] Sawyers C L. The cancer biomarker problem[J]. Nature, 2008,452(7178): 548?552.
[8] McIntosh M, McIntosh M, Fitzgibbon M. Biomarker validation by targeted mass spectrometry[J]. Nature Biotechnology, 2009,27(7): 622?623.
[9] 厲欣, 徐松云, 張宇, 等. 基于保留時(shí)間和質(zhì)荷比匹配的液相色譜?質(zhì)譜聯(lián)用技術(shù)用于非標(biāo)記肽段的差異分析[J]. 分析化學(xué), 2008, 36(7): 867?873.
LI Xin, XU Song-yun, ZHANG Yu, et al. Retention time mass-charge ratio pairs for label-free differential analysis of peptides[J]. Chinese Journal of Analytical Chemistry, 2008,36(7):867?873.
[10] Domon B, Aebersold R. Challenges and opportunities in proteomic data analysis[J]. Molecular & Cellular Proteomics,2006, 5(10): 1921?1926.
[11] Tabb D L, Vega-Montoto L, Rudnick P A, et al. Repeatability and reproducibility in proteomic identifications by liquid chromatography-tandem mass spectrometry[J]. Journal of Proteome Research, 2010, 9(2): 761?776.
[12] Bellew M, Coram M, Fitzgibbon M, et al. A suite of algorithms for the comprehensive analysis of complex protein mixtures using high-resolution LC-MS[J]. Bioinformatics, 2006, 22(15):1902?1909.
[13] Park S K, Venable J D, Xu T, et al. A quantitative analysis software tool for mass spectrometry-based proteomics[J]. Nature Methods, 2008, 5(4): 319?322..
[14] Podwojski K, Fritsch A, Chamrad D C, et al. Retention time alignment algorithms for LC/MS data must consider non-linear shifts[J]. Bioinformatics, 2009, 25(6): 758?764.
[15] Prince J T, Marcotte E M. Chromatographic alignment of ESI-LC-MS proteomics data sets by ordered bijective interpolated warping[J]. Analytical Chemistry, 2006,78(17):6140?6152.
[16] Mueller L N, Brusniak M Y, Mani D R, et al. An assessment of software solutions for the analysis of mass spectrometry based quantitative proteomics data[J]. Journal of Proteome Research,2008, 7(1): 51?61.
[17] Schmidt A, Gehlenborg N, Bodenmiller B, et al. An integrated,directed mass spectrometric approach for in-depth characterization of complex peptide mixtures[J]. Molecular &Cellular Proteomics, 2008, 7(11): 2138?2150.
[18] LIU Ke-hui, ZHANG Ji-yang, WANG Jing-lan, et al.Relationship between sample loading amount and peptides identification and its effects on quantitative proteomics[J].Analytical Chemistry, 2009, 81(4): 1307?1314.
[19] Cleveland W S. Robust locally weighted regression and smoothing scatterplots[J]. Journal of the American Statistical Association, 1979, 74(368): 829?836.
[20] Alterovitz G, Ramoni M F. Systems bioinformatics: an engineering case-based approach[M]. Norwood: Artech House,2007: 112?116.
[21] Benton H P, Wong D M, Trauger S A, et al. XCMS2: processing tandem mass spectrometry data for metabolite identification and structural characterization[J]. Analytical Chemistry, 2008, 80(16):6382?6389.
[22] 林炳昌. 色譜模型理論導(dǎo)引[M]. 北京: 科學(xué)出版社, 2004:63?75.
LIN Bing-chang. An introduction of chromatography models[M].Beijing: Science Press, 2004: 63?75.
(編輯 楊幼平)
Reversible retention time alignment algorithm based on local regression
LI Long1, ZHANG Ji-yang1,2, SHI Xiu-jian1, SUN Han-chang1, XIE Hong-wei1, OUYANG Chen-xing3
(1. College of Mechatronic Engineering and Automation, National University of Defense Technology,Changsha 410073, China;2. State Key Laboratory of Proteomics, Beijing Proteome Research Center, Beijing 102206, China;3. School of Business, Central South University, Changsha 410083, China)
A nonlinear and reversible algorithm based on local regression was proposed and implemented, which could reduce the alignment model formn(n?1)/2 ton?1 for anrepeated experiment design. The nonlinear effect of retention time alignment could be modeled by this method, and the negative effect of the peptides with multiple chromatographic peaks could also be overcome. The results show that the time complexity of this algorithm was reduced and the accuracy of it can satisfy the requirement of the following date processing steps.
liquid chromatography-tandem mass spectrometry; quantitative proteomics; retention time alignment; local regression; reversible algorithm
TP391;Q-332
A
1672?7207(2011)01?0100?06
2010?01?10;
2010?09?10
國(guó)家自然科學(xué)基金資助項(xiàng)目(30621063)
謝紅衛(wèi)(1965?),男,湖北洪湖人,教授,博士生導(dǎo)師,從事武器裝備試驗(yàn)與鑒定技術(shù)、復(fù)雜系統(tǒng)可靠性分析、人因可靠性分析、生物信息等研究;電話:0731-84576311;E-mail: xhwei65@nudt.edu.cn