国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

原核生物蛋白質(zhì)基因組學(xué)研究進(jìn)展

2014-06-15 18:29:33張成普徐平朱云平
生物工程學(xué)報 2014年7期
關(guān)鍵詞:基因組學(xué)原核組學(xué)

張成普,徐平,朱云平

原核生物蛋白質(zhì)基因組學(xué)研究進(jìn)展

張成普,徐平,朱云平

軍事醫(yī)學(xué)科學(xué)院放射與輻射醫(yī)學(xué)研究所 蛋白質(zhì)組學(xué)國家重點實驗室 國家蛋白質(zhì)科學(xué)中心 (北京) 北京蛋白質(zhì)組研究中心 蛋白質(zhì)藥物國家工程研究中心,北京 102206

隨著基因組測序技術(shù)的不斷發(fā)展,大量微生物基因組序列可以在短時間內(nèi)得以準(zhǔn)確鑒定。為了進(jìn)一步探究基因組的結(jié)構(gòu)與功能,基于序列特征與同源特征的基因組注釋算法廣泛應(yīng)用于新測序物種。然而受基因組測序質(zhì)量以及算法本身準(zhǔn)確性偏低等問題的影響,現(xiàn)有的基因組注釋存在著相當(dāng)比例的假基因以及注釋錯誤,尤其是蛋白質(zhì)N端的注釋錯誤。為了彌補(bǔ)基因組注釋的不足,以基因芯片或RNA-seq為核心的轉(zhuǎn)錄組測序技術(shù)和以串聯(lián)質(zhì)譜為核心的蛋白質(zhì)組測序技術(shù)可以高通量地對基因的轉(zhuǎn)錄和翻譯產(chǎn)物進(jìn)行精確測定,進(jìn)而實現(xiàn)預(yù)測基因結(jié)構(gòu)的實驗驗證。然而,原核生物細(xì)胞中存在的大量非編碼RNA給轉(zhuǎn)錄組測序技術(shù)引入了污染數(shù)據(jù),限制了其對基因組注釋的應(yīng)用。相對而言,以串聯(lián)質(zhì)譜技術(shù)為核心的蛋白質(zhì)組學(xué)測序可以在短時間內(nèi)鑒定到生物體內(nèi)大量的蛋白質(zhì),實現(xiàn)注釋基因的驗證甚至校準(zhǔn)。已成為基因組注釋和重注釋的重要依據(jù),并因而衍生了“蛋白質(zhì)基因組學(xué)”的新研究方向。文中首先介紹傳統(tǒng)的基于序列預(yù)測和同源比對的基因組注釋算法,指出其中存在的不足。在此基礎(chǔ)上,結(jié)合轉(zhuǎn)錄組學(xué)與蛋白質(zhì)組學(xué)的技術(shù)特點,分析蛋白質(zhì)組學(xué)對于原核生物基因組注釋的優(yōu)勢,總結(jié)現(xiàn)階段大規(guī)模蛋白質(zhì)基因組學(xué)研究的進(jìn)展情況。最后從信息學(xué)角度指出當(dāng)前蛋白質(zhì)組數(shù)據(jù)進(jìn)行基因組重注釋存在的問題與相應(yīng)的解決方案,進(jìn)而探討未來蛋白質(zhì)基因組學(xué)的發(fā)展方向。

蛋白質(zhì)基因組學(xué),原核生物,基因組注釋,質(zhì)譜

自1995年首個原核生物實現(xiàn)全基因組測序至今[1],基因組測序技術(shù)的快速發(fā)展已經(jīng)實現(xiàn)對古生菌 (Archaea)、 細(xì)菌 (Bacteria) 以及真核生物 (Eukaryotes) 等3界中11 176個物種序列的精確測定,其中原核生物4 572個,占到了總數(shù)的40.9% (基于NCBI 2013年12月統(tǒng)計結(jié)果)。為了充分解析基因組的結(jié)構(gòu)和功能,基因組注釋得到了快速推廣[2-4]。相對于真核生物而言,原核生物基因組基因數(shù)目較少,大部分序列屬于編碼基因。依托序列預(yù)測和同源比對,大量原核生物基因組得以批量化注釋。然而受基因組測序質(zhì)量影響以及缺乏合適的校正評估機(jī)制,原核生物基因組注釋存在相當(dāng)比例的假基因和注釋錯誤,尤其是蛋白質(zhì)N端的注釋錯誤,給充分研究相應(yīng)物種的生理學(xué)機(jī)制帶來了困難[5-6]。為了解決這一問題,多種新興技術(shù)策略開始采用實驗數(shù)據(jù)集對基因組基因注釋進(jìn)行校正。最為典型的是以RNA-seq或基因芯片為核心的轉(zhuǎn)錄組測序技術(shù)[7]和以串聯(lián)質(zhì)譜技術(shù)為核心的蛋白質(zhì)組測序技術(shù)[8]。其中基于串聯(lián)質(zhì)譜的蛋白質(zhì)組學(xué)技術(shù)研究可通過大規(guī)模、高通量地測定基因表達(dá)終產(chǎn)物蛋白質(zhì)的序列,是有別于核酸測序的相對獨立的技術(shù)手段,不僅可以驗證已注釋基因,還可對已注釋基因的結(jié)構(gòu)進(jìn)行修正和鑒定未被傳統(tǒng)基因組注釋算法注釋的基因,發(fā)現(xiàn)新的基因結(jié)構(gòu)特征。這對于基因組學(xué)本身的發(fā)展和研究相應(yīng)物種的生物學(xué)特性具有十分重要的意義。

從轉(zhuǎn)錄組與蛋白質(zhì)組的比較來看,原核生物細(xì)胞中存在有大量的非編碼RNA,這給轉(zhuǎn)錄組測序技術(shù)引入了較多的污染數(shù)據(jù),限制了其對原核生物基因組注釋的應(yīng)用[9-10]。相對而言,以串聯(lián)質(zhì)譜為核心的蛋白質(zhì)組學(xué)測序技術(shù)可以在短時間內(nèi)鑒定到生物體或細(xì)胞內(nèi)大量的蛋白質(zhì),實現(xiàn)對于基因表達(dá)最直接的驗證,已成為基因組注釋的重要依據(jù)之一,“蛋白質(zhì)基因組學(xué)”應(yīng)運(yùn)而生[11]。如今,快速發(fā)展的質(zhì)譜技術(shù)令人們可以對原核生物的基因組有著較高的鑒定蛋白質(zhì)比例和鑒定肽段覆蓋度,實現(xiàn)基因組注釋的高通量、規(guī)模化重注釋。利用原核生物基因組相對簡單的特點,通過數(shù)據(jù)庫搜索的方式檢索六閱讀框翻譯的基因組數(shù)據(jù)庫 (Six-reading Frame translated Genome Database) 并與已注釋蛋白質(zhì)進(jìn)行比對,可以快速準(zhǔn)確檢索出注釋數(shù)據(jù)庫存在和不存在的肽段及其對應(yīng)的基因,在驗證已有注釋基因的同時實現(xiàn)對基因組注釋的修正。

本文首先介紹傳統(tǒng)基于序列預(yù)測和同源比對的基因組注釋算法,指出其中存在的不足。之后結(jié)合轉(zhuǎn)錄組學(xué)與蛋白質(zhì)組學(xué)的技術(shù)特點,分析蛋白質(zhì)組學(xué)對原核生物基因組重注釋的優(yōu)勢,總結(jié)現(xiàn)階段大規(guī)模蛋白質(zhì)基因組學(xué)研究的進(jìn)展情況。最后從信息學(xué)角度指出當(dāng)前蛋白質(zhì)組數(shù)據(jù)進(jìn)行基因組重注釋存在的問題與相應(yīng)的解決方案,進(jìn)而探討未來蛋白質(zhì)基因組學(xué)的發(fā)展方向。

1 原核生物基因組注釋研究背景

早在1995年嗜血流感菌Haemophilus influenza被作為首個物種實現(xiàn)基因組全測序之前,研究者就開始思考探索相應(yīng)的基因注釋方案[4]。利用基因組序列特征,一系列基因組注釋軟件被廣泛地應(yīng)用于測序結(jié)果的基因注釋,例如Glimmer[12]、GenemarkHMM[13]以及Easygene[2]等。不同于人或者小鼠等研究廣泛的真核生物,數(shù)目眾多的原核生物對應(yīng)的基因組注釋很少有充分的實驗驗證。大多數(shù)原核生物在實現(xiàn)基因組測序之后,基因結(jié)構(gòu)的確定都會使用自動化注釋軟件實現(xiàn),功能注釋則采用同源比對實現(xiàn)[2]。隨著基因組數(shù)目的不斷增加,自動化注釋流程在準(zhǔn)確性上的不足逐漸顯現(xiàn)。已有研究表明,目前已注釋的原核生物基因組中,有一半以上的基因結(jié)構(gòu)存在注釋不準(zhǔn)確的現(xiàn)象[2,10],其中蛋白質(zhì)N端的注釋錯誤尤為明顯,即便是對于研究廣泛的大腸桿菌也是如此[14-15]。造成這種現(xiàn)象的原因主要有3個方面:一是基因組測序中存在的錯誤導(dǎo)致注釋的不準(zhǔn)確;二是通用性的序列預(yù)測特征不一定適用于各個物種,尤其是對于一些存在于短閱讀框區(qū)的基因,很難實現(xiàn)準(zhǔn)確預(yù)測;三是對原核生物的N端缺少合適的特征,導(dǎo)致N端具有較高的注釋錯誤率。采用序列比對的方式進(jìn)行功能注釋僅適用于物種間的直系同源基因,對于一些物種特有基因則無法進(jìn)行功能注釋,這也是原核生物中存在大量“假定蛋白質(zhì)”(Hypothetical protein) 的重要原因。

為了彌補(bǔ)傳統(tǒng)基因組注釋方法的不足。具有高通量、高基因組覆蓋度的轉(zhuǎn)錄組測序技術(shù)被廣泛地應(yīng)用于基因組注釋研究,尤其是真核生物的基因組校正分析[3,16-18]。然而對于原核生物,細(xì)胞中存在的大量非編碼RNA容易對轉(zhuǎn)錄組測序造成污染,導(dǎo)致一些與非編碼RNA序列相似的編碼RNA難以得到準(zhǔn)確的測定[9-10]。此外,由于蛋白質(zhì)成熟過程中N端降解現(xiàn)象的存在[10,19],直接對細(xì)胞中存在的蛋白質(zhì)進(jìn)行高通量測定更有利于準(zhǔn)確注釋基因結(jié)構(gòu),挖掘相應(yīng)基因的生物學(xué)功能。

2 利用蛋白質(zhì)組數(shù)據(jù)對原核生物基因組進(jìn)行重注釋

以高速發(fā)展的質(zhì)譜技術(shù)為核心的蛋白質(zhì)組學(xué)已經(jīng)成為后基因組時代研究的熱點之一[8]。鳥槍法策略是目前蛋白質(zhì)組學(xué)領(lǐng)域使用最為廣泛的技術(shù)路線。該策略首先對分離得到的蛋白質(zhì)混合物進(jìn)行酶解成為肽段混合物,之后進(jìn)行液相色譜分離,最后由串聯(lián)質(zhì)譜產(chǎn)出肽段匹配信息。數(shù)據(jù)庫搜索結(jié)合蛋白質(zhì)水平的質(zhì)控策略是目前分析大規(guī)模質(zhì)譜數(shù)據(jù)的最主要手段[20-21]。在得到高可信的肽段鑒定列表之后,通過蛋白質(zhì)裝配獲得鑒定蛋白質(zhì)列表,進(jìn)而確定樣品中鑒定得到的表達(dá)基因及其相應(yīng)的匹配肽段。

相對于轉(zhuǎn)錄組測序而言,目前蛋白質(zhì)組學(xué)技術(shù)的最大問題是基因組鑒定覆蓋度偏低。以人類相關(guān)研究為例,已有的大規(guī)模蛋白質(zhì)組學(xué)數(shù)據(jù)集的基因組覆蓋度一般在50%?60%之間,而轉(zhuǎn)錄組數(shù)據(jù)的基因組覆蓋度一般在70%以上[22-23]。造成這種現(xiàn)象的原因主要是蛋白質(zhì)在時空表達(dá)上的差異以及質(zhì)譜技術(shù)的局限[24]。相對于真核生物,原核生物基因組相對較為簡單,對應(yīng)的基因數(shù)目也相對較少。單細(xì)胞結(jié)構(gòu)以及相對簡單的表達(dá)調(diào)控機(jī)制,有利于用蛋白質(zhì)組學(xué)技術(shù)對細(xì)胞內(nèi)的所有蛋白質(zhì)進(jìn)行高通量測定[25]。

2.1 蛋白質(zhì)組學(xué)數(shù)據(jù)進(jìn)行基因組重注釋基本原理

利用蛋白質(zhì)組學(xué)數(shù)據(jù)進(jìn)行基因組重注釋的首要任務(wù)是構(gòu)建六框翻譯數(shù)據(jù)庫,即人為地將雙鏈DNA按照三聯(lián)密碼子的排列方式窮舉所有的可翻譯蛋白質(zhì),每兩個終止子之間的DNA序列定義為一個“開放閱讀框”(Open reading frame, ORF)。原核生物不含內(nèi)含子,采用六編碼閱讀框方式直接翻譯基因組序列,并與已注釋的蛋白質(zhì)序列庫合并進(jìn)行數(shù)據(jù)庫搜索,找尋相應(yīng)的鑒定肽段,從而在驗證并修正已注釋基因結(jié)構(gòu)的同時發(fā)現(xiàn)未注釋基因。

圖1 新肽段編碼序列與已注釋基因染色體位置鄰近關(guān)系Fig. 1 The relationship between novel peptides and annotated genes on the chromosome.

鑒定得到的高可信肽段會被分成兩類:一類是屬于已注釋基因的肽段,主要用于驗證相因基因注釋的準(zhǔn)確性;另一類是不屬于已注釋基因的新肽段。根據(jù)這些新肽段與已注釋基因的鄰近關(guān)系可以進(jìn)一步分成4類,如圖1所示。第一類是新基因,即新肽段處于一個獨立的閱讀框中,并且不與已注釋基因有過多重疊。第二類是注釋基因N端的延伸,要求新肽段與原注釋基因在同一個閱讀框內(nèi)。第三類是注釋基因C端的延伸,通常對應(yīng)于終止子測序錯誤、核苷酸突變或終止密碼翻譯通讀。第四類是注釋基因發(fā)生了具有閱讀框移動的延伸,即新肽段與已注釋基因相鄰或者部分重疊,但是不處于同一個閱讀框中,并且沒有充分的證據(jù)證明新基因的存在。第四類新肽段的產(chǎn)生可能是由于基因本身翻譯后的移碼 (Frameshift)[26],但更主要是由于基因組測序錯誤所導(dǎo)致[27]。

盡管原核生物不需要像真核生物一樣在六框翻譯數(shù)據(jù)庫搜索時考慮搜索空間過大的問題[28],但仍需要在常規(guī)質(zhì)量控制[29]的基礎(chǔ)上對新肽段進(jìn)行更加嚴(yán)格過濾卡值,以降低新肽段鑒定錯誤匹配的可能[30]。在鑒定得到新肽段列表之后,需要對其進(jìn)行質(zhì)譜證據(jù)以外的驗證。目前常見的新肽段驗證方式主要有3個:一是采用序列特征分析、同源比對以及功能分析等方式在信息學(xué)角度進(jìn)行驗證;二是采用RT-PCR[31]對特定的基因表達(dá)區(qū)域進(jìn)行驗證;三是采用合成肽段的方式確認(rèn)譜圖匹配的準(zhǔn)確性或者結(jié)合質(zhì)譜多離子反應(yīng)監(jiān)測 (Multiple reaction monitoring,MRM) 和選擇反應(yīng)監(jiān)測 (Selective reaction monitoring,SRM)[32]技術(shù)進(jìn)行驗證。

2.2 蛋白質(zhì)基因組學(xué)發(fā)展歷史與現(xiàn)狀

早在1995年,Yates等已經(jīng)將蛋白質(zhì)組數(shù)據(jù)應(yīng)用于DNA序列庫搜索[33],但并沒有系統(tǒng)地對某個物種的基因組注釋進(jìn)行修正。蛋白質(zhì)基因組學(xué)始于2004年Jaffe等對于肺炎支原體的研究[34]。盡管當(dāng)時技術(shù)條件有限,但對于像支原體等規(guī)模很小的基因組 (約810 kb) 以及相對簡單的細(xì)胞結(jié)構(gòu),他們驗證了81%的注釋基因,并利用蛋白質(zhì)組學(xué)數(shù)據(jù)修正了將近10%的已注釋基因結(jié)構(gòu)。隨著蛋白質(zhì)組學(xué)技術(shù)的不斷發(fā)展,越來越多的人們開始質(zhì)疑基因組測序及其注釋的準(zhǔn)確性,并采用以質(zhì)譜為核心的蛋白質(zhì)學(xué)組技術(shù)對基因組注釋進(jìn)行修正。

表1列舉了近十年來原核生物蛋白質(zhì)基因組學(xué)的部分研究成果。基因組重注釋對于樣本制備或數(shù)據(jù)沒有特殊要求,對計算資源的需求也相對較小,原核生物蛋白質(zhì)基因組學(xué)研究已經(jīng)形成了數(shù)據(jù)產(chǎn)出→六閱讀框翻譯數(shù)據(jù)庫搜索→新基因挖掘的流程化模式。研究顯示通過蛋白質(zhì)基因組學(xué)鑒定的新基因的數(shù)目與數(shù)據(jù)規(guī)模也呈現(xiàn)出一定的正相關(guān)性。隨著時間的推移,單一的重注釋分析已經(jīng)難以吸引人們的眼球,研究者開始關(guān)注于新基因或者已有基因形式修正的生物學(xué)意義。比如Baudet等對沙漠奇異球菌Deinococcus deserti的研究專門關(guān)注于N端注釋的修正[35],而不是全譜的覆蓋,因此即使其鑒定基因數(shù)目不多,也可以實現(xiàn)對于60個基因N端注釋的修正,并驗證了若干對生理機(jī)制十分重要的非經(jīng)典起始編碼的基因。Gupta等在對奧奈達(dá)湖希瓦氏菌Shewanella oneidensis的研究中不僅關(guān)注于新基因和N端注釋的修正,還對翻譯后修飾進(jìn)行了系統(tǒng)研究,發(fā)現(xiàn)并驗證了9種高可信體內(nèi)修飾,成為首個針對翻譯后修飾的蛋白質(zhì)基因組學(xué)研究[36]。在定量方面,Chen等對騰沖嗜熱桿菌Thermoanaerobacter tengcongensis在不同溫度環(huán)境下的基因表達(dá)狀況進(jìn)行了基于同位素標(biāo)記 (Isobaric tags for relative and absolute quantitation,iTRAQ) 的定量比較分析[37],找到了高可信的溫度相關(guān)基因,并用轉(zhuǎn)錄組手段進(jìn)行了驗證。盡管該文未進(jìn)行新基因的挖掘,但提示研究者們不斷發(fā)展的蛋白質(zhì)組學(xué)定量技術(shù)可以和基因組注釋的修正相聯(lián)系,更好地揭示相關(guān)物種的生物學(xué)特性。

具有較高基因組覆蓋度以及鑒定肽段覆蓋度的蛋白質(zhì)組學(xué)數(shù)據(jù)可以對現(xiàn)有的基因組注釋進(jìn)行有效的修正,但卻必須建立在該物種基因組測序正確的基礎(chǔ)上進(jìn)行。此外,受環(huán)境變化等因素的影響,原核生物功能和進(jìn)化相對較大的多樣性[27]也會令這些物種的基因組發(fā)生一定的改變。為了彌補(bǔ)這一點,蛋白質(zhì)基因組學(xué)的研究不再局限于單一物種,開始對多個物種進(jìn)行比較分析,以期實現(xiàn)交叉驗證,進(jìn)一步提升基因注釋修正的規(guī)模和準(zhǔn)確性。

2.3 比較蛋白質(zhì)基因組學(xué)

在基因組時代,利用物種間親緣關(guān)系進(jìn)行同源比對獲取相應(yīng)基因的注釋信息十分常見。蛋白質(zhì)組學(xué)測序通量的不斷提升促使人們得以在蛋白質(zhì)水平比較不同物種的表達(dá)差異。這對于揭示近源微生物表型差異發(fā)揮了重要的作用[42]。從注釋修正的角度考慮,參考多個物種的基因組序列及其注釋情況還有助于校正基因組測序中存在的錯誤,彌補(bǔ)蛋白質(zhì)組測序目前還普遍存在的肽段覆蓋度不足的難題。比較蛋白質(zhì)組學(xué)研究可以分成兩個層面:一是在實驗數(shù)據(jù)層面進(jìn)行比較;二是在數(shù)據(jù)分析層面進(jìn)行比較。

表1 原核生物蛋白質(zhì)基因組注釋主要研究成果Table 1 List of proteogenomic analyses in prokaryotes

在實驗數(shù)據(jù)層面進(jìn)行比較分析是指對若干近源物種的蛋白質(zhì)組學(xué)數(shù)據(jù)進(jìn)行比較分析,在實現(xiàn)基因組重注釋的同時還可以在蛋白質(zhì)層面比較相應(yīng)物種的表達(dá)差異,找尋重要的功能基因。2008年Gupta等首先對希瓦氏菌Shewanella的3個近源菌株進(jìn)行了比較蛋白質(zhì)基因組學(xué)研究[43]。通過確定3個菌株共有的直系同源基因,提升了這些基因的鑒定肽段覆蓋度,降低了單肽段蛋白質(zhì)比例。在注釋修正方面,除了傳統(tǒng)的新基因挖掘和N端注釋的修正,該工作還發(fā)現(xiàn)了12個移碼現(xiàn)象以及相當(dāng)比例的基因組測序錯誤。此后,對多個近源物種 (一般2?3個) 的基因組進(jìn)行蛋白質(zhì)水平的比較分析,成為了蛋白質(zhì)基因組學(xué)研究的新趨勢,比如Alexova等對銅綠微囊藻Microcystis aeruginosa的比較分析[44]、Schrimpe-Rutledge等對3種耶爾森氏菌Yersinia菌株的研究[45]以及Zhong等對鉤端螺旋體Leptospira interro gans致病基因的分析[46]等。

盡管對多個物種的蛋白質(zhì)組數(shù)據(jù)進(jìn)行比較分析有利于提升鑒定基因的比例并提升基因組重注釋的質(zhì)量,但也提高了實驗操作的負(fù)擔(dān),尤其是只需要對單一物種進(jìn)行分析的情況。針對這一問題,人們開始在數(shù)據(jù)層面進(jìn)行比較蛋白質(zhì)基因組學(xué)分析。即僅對單一物種進(jìn)行蛋白質(zhì)組學(xué)測序,并以該物種為核心,其他物種為背景進(jìn)行比較分析,最終只對核心物種的基因組注釋進(jìn)行修正。這種分析策略一般需要引入多種與核心物種近源的背景物種,以提高注釋修正的準(zhǔn)確性。比如2009年Gallien等對恥垢分枝桿菌Mycobacterium smegmatis的質(zhì)譜數(shù)據(jù)進(jìn)行數(shù)據(jù)庫搜索時,還同時考慮16種分枝桿菌近源菌株[40],有效地提升了N端注釋的修正數(shù)目。由于使用了較多的背景物種,合理地確定直系同源基因是比較蛋白質(zhì)基因組學(xué)研究的重要問題。目前使用較為廣泛算法可以分為兩類:一是以PipeAlign[47]和MUSCLE[48]為代表的多重比對算法,優(yōu)點是多物種比較、準(zhǔn)確性高,不足之處是運(yùn)算速度慢;二是以Remm等使用的方法為代表的兩兩比對算法[49],可以快速找出兩個物種的直系同源基因。

比較蛋白質(zhì)基因組學(xué)可以實現(xiàn)基因組學(xué)與蛋白質(zhì)組學(xué)的優(yōu)勢互補(bǔ),提升基因組重注釋修正基因的規(guī)模與準(zhǔn)確性,并已成為如今原核生物蛋白質(zhì)基因組研究廣泛使用的策略[11]。

3 原核生物蛋白質(zhì)基因組學(xué)研究存在的問題與對策

盡管針對原核生物的蛋白質(zhì)基因組注釋已經(jīng)得到了廣泛應(yīng)用,但仍然存在許多技術(shù)瓶頸需要解決。在實驗技術(shù)層面,蛋白質(zhì)組學(xué)相對偏低的鑒定肽段覆蓋度嚴(yán)重降低了N端的修正效率,需要采用具有針對性的技術(shù)手段對N端進(jìn)行專門分析[40],而不是一味地進(jìn)行大規(guī)模蛋白質(zhì)組學(xué)數(shù)據(jù)產(chǎn)出。在信息學(xué)層面,盡管原核生物基因組中無內(nèi)含子存在,采用六閱讀框翻譯構(gòu)建數(shù)據(jù)庫的方式仍然極大地提升了數(shù)據(jù)庫中候選肽段數(shù)目,并且會引入相當(dāng)比例的假陽性結(jié)果,致使新肽段鑒定可信度低于原有的注釋肽段[50]。現(xiàn)在廣泛使用的比較蛋白質(zhì)基因組學(xué)分析策略,在搜庫時加入了同源物種蛋白質(zhì)序列,提高了蛋白質(zhì)序列的冗余度,也會影響基于正反庫的質(zhì)量控制策略對錯誤發(fā)現(xiàn)率(False discovery rate, FDR) 的估計。因此在數(shù)據(jù)庫構(gòu)建時,應(yīng)盡可能地排除完全不可能的肽段序列,在同源基因?qū)用婀烙嫿Y(jié)果的FDR,并對新肽段進(jìn)行單獨的質(zhì)控控制。在信息整合方面,從質(zhì)譜數(shù)據(jù)分析到新肽段的確認(rèn)與驗證,一直沒有合適的標(biāo)準(zhǔn)去衡量相應(yīng)操作的可靠性。過多的人為操作不僅降低了結(jié)果的可重復(fù)性和可信度,也降低了分析的效率。在蛋白質(zhì)組學(xué)數(shù)據(jù)通量不斷提升的今天,大量微生物的蛋白質(zhì)組學(xué)數(shù)據(jù)將會涌現(xiàn),一套完整的高通量、自動化基因組重注釋流程顯得十分重要。Kumar等在對慢生型大豆根瘤菌Bradyrhizobium japonicum進(jìn)行蛋白質(zhì)基因組分析時,推出了半自動化分析流程Genosuite[30],可以規(guī)模化的完成基因組重注釋并對結(jié)果進(jìn)行展示。盡管Genosuite沒有整合基因組序列預(yù)測信息與同源信息,但是其從譜圖到肽段再到蛋白質(zhì)的多搜索引擎整合質(zhì)量控制體系也開啟了蛋白質(zhì)基因組學(xué)流程化分析的先河,為原核生物的批量化重注釋奠定了基礎(chǔ)。

4 小結(jié)與展望

后基因組時代,整合轉(zhuǎn)錄組與蛋白質(zhì)組等多組學(xué)數(shù)據(jù),明確基因的結(jié)構(gòu)和功能,對于揭示相應(yīng)物種的生物學(xué)特性具有十分重要的意義。蛋白質(zhì)基因組學(xué)結(jié)束了蛋白質(zhì)組學(xué)與基因組學(xué)獨立研究的狀態(tài)。利用蛋白質(zhì)組學(xué)實現(xiàn)基因產(chǎn)物高通量、高肽段覆蓋的鑒定,可以有效地對原有基于序列預(yù)測和同源比對的基因組注釋結(jié)果進(jìn)行修正。比較蛋白質(zhì)基因組學(xué)策略的出現(xiàn),令大量基因組測序錯誤得到修正,終結(jié)了基因組學(xué)獨樹一幟的局面。盡管現(xiàn)階段蛋白質(zhì)基因組學(xué)研究在質(zhì)量控制與信息整合等方面還有一些問題需要解決,但在蛋白質(zhì)組學(xué)數(shù)據(jù)快速產(chǎn)出并得以共享的大背景下[51],相應(yīng)的信息學(xué)問題將很快得以解決。未來蛋白質(zhì)基因組學(xué)研究將可能向3個方面邁進(jìn):一是多組學(xué)整合,即充分整合基因組、轉(zhuǎn)錄組與蛋白質(zhì)組學(xué)的數(shù)據(jù)特征,提高基因組注釋的準(zhǔn)確性;二是規(guī)范的自動化分析流程,保證注釋修正的可靠性;三是不再拘泥于原核生物,現(xiàn)有的質(zhì)譜分離技術(shù)以及算法的不斷改進(jìn),真核生物基因組注釋的大規(guī)模修正也正逐步得以推廣[52],并將成為未來蛋白質(zhì)組學(xué)研究的熱點之一。

REFERENCES

[1] Fleischmann RD, Adams MD, White O, et al. Whole-genome random sequencing and assembly of Haemophilus influenzae Rd. Science, 1995, 269(5223): 496–512.

[2] Nielsen P, Krogh A. Large-scale prokaryotic gene prediction and comparison to genome annotation. Bioinformatics, 2005, 21(24): 4322–4329.

[3] Lomsadze A, Ter-Hovhannisyan V, Chernoff YO, et al. Gene identification in novel eukaryotic genomes by self-training algorithm. Nucleic Acids Res, 2005, 33(20): 6494–6506.

[4] Fickett JW. The gene identification problem: an overview for developers. Comput Chem, 1996, 20(1): 103–118.

[5] Mathe C, Sagot MF, Schiex T, et al. Current methods of gene prediction, their strengths and weaknesses. Nucleic Acids Res, 2002, 30(19): 4103–4117.

[6] Poptsova MS, Gogarten JP. Using comparative genome analysis to identify problems in annotated microbial genomes. Microbiology, 2010, 156(Pt 7): 1909–1917.

[7] Korf I. Genomics: the state of the art in RNA-seq analysis. Nat Methods, 2013, 10(12): 1165–1166.

[8] Aebersold R, Mann M. Mass spectrometry-based proteomics. Nature, 2003, 422(6928): 198–207.

[9] Castellana NE, Shen Z, He Y, et al. An automated proteogenomic method utilizes mass spectrometry to reveal novel genes in zea mays. Mol Cell Proteomics, 2014, 13(1): 157–167.

[10] Christie-Oleza JA, Miotello G, Armengaud J. High-throughput proteogenomics of Ruegeria pomeroyi: seeding a better genomic annotation for the whole marine Roseobacter clade. BMC Genomics, 2012, 13: 73.

[11] Castellana N, Bafna V. Proteogenomics to discover the full coding content of genomes: a computational perspective. J Proteomics, 2010, 73(11): 2124–2135.

[12] Delcher AL, Bratke KA, Powers EC, et al. Identifying bacterial genes and endosymbiont DNA with Glimmer. Bioinformatics, 2007, 23(6): 673–679.

[13] Lukashin AV, Borodovsky M. GeneMark. hmm: new solutions for gene finding. Nucleic Acids Res, 1998, 26(4): 1107–1115.

[14] Raghavan R, Sage A, Ochman H. Genome-wide identification of transcription start sites yields a novel thermosensing RNA and new cyclic AMP receptor protein-regulated genes in Escherichia coli.J Bacteriol, 2011, 193(11): 2871–2874.

[15] Mendoza-Vargas A, Olvera L, Olvera M, et al. Genome-wide identification of transcription start sites, promoters and transcription factor binding sites in E. coli. PLoS ONE, 2009, 4(10): e7526.

[16] Mou X, Sun S, Edwards RA, et al. Bacterial carbon processing by generalist species in the coastal ocean. Nature, 2008, 451(7179): 708–711.

[17] Denoeud F, Aury JM, Da Silva C, et al. Annotating genomes with massive-scale RNA sequencing. Genome Biol, 2008, 9(12): R175.

[18] Stanke M, Schoffmann O, Morgenstern B, et al. Gene prediction in eukaryotes with a generalized hidden Markov model that uses hints from external sources. BMC Bioinformatics, 2006, 7: 62.

[19] Wang T, Cui Y, Jin J, et al. Translating mRNAs strongly correlate to proteins in a multivariate manner and their translation ratios are phenotype specific. Nucleic Acids Res, 2013, 41(9): 4743–4754.

[20] Hather G, Higdon R, Bauman A, et al. Estimating false discovery rates for peptide and protein identification using randomized databases. Proteomics, 2010, 10(12): 2369–2376.

[21] Reiter L, Claassen M, Schrimpf SP, et al. Protein identification false discovery rates for very large proteomics data sets generated by tandem mass spectrometry. Mol Cell Proteomics, 2009, 8(11): 2405–2417.

[22] Wu S, Li N, Ma J, et al. First proteomic exploration of protein-encoding genes on chromosome 1 in human liver, stomach, and colon. J Proteome Res, 2013, 12(1): 67–80.

[23] Marko-Varga G, Omenn GS, Paik YK, et al. A first step toward completion of a genome-wide characterization of the human proteome. J Proteome Res, 2013, 12(1): 1–5.

[24] Chang C, Li L, Zhang C, et al. Systematic analyses of the transcriptome, translatome, and proteome provide a global view and potential strategy for the C-HPP. J Proteome Res, 2013, (In revised).

[25] Kelkar DS, Kumar D, Kumar P, et al. Proteogenomic analysis of Mycobacterium tuberculosis by high resolution mass spectrometry. Mol Cell Proteomics, 2011, 10(12): M111. 011627.

[26] Ketteler R. On programmed ribosomal frameshifting: the alternative proteomes. Front Genet, 2012, 3: 242.

[27] Kyrpides NC. Fifteen years of microbial genomics: meeting the challenges and fulfilling the dream. Nat Biotechnol, 2009, 27(7): 627–632.

[28] Yandell M, Ence D. A beginner's guide to eukaryotic genome annotation. Nat Rev Genet, 2012, 13(5): 329–342.

[29] Li N, Wu S, Zhang C, et al. PepDistiller: a quality control tool to improve the sensitivity and accuracy of peptide identifications in shotgun proteomics. Proteomics, 2012, 12(11): 1720–1725.

[30] Kumar D, Yadav AK, Kadimi PK, et al. Proteogenomic analysis of Bradyrhizobium japonicum USDA110 using genosuite, an automated multi-algorithmic pipeline. Mol Cell Proteomics, 2013, 12(11): 3388–3397.

[31] Bachman J. Reverse-transcription PCR (RT-PCR). Methods Enzymol, 2013, 530: 67–74.

[32] Afzal V, Huang JT, Atrih A, et al. PChopper: high throughput peptide prediction for MRM/SRM transition design. BMC Bioinformatics, 2011, 12: 338.

[33] Yates JR 3rd, Eng JK, McCormack AL. Mining genomes: correlating tandem mass spectra of modified and unmodified peptides to sequences in nucleotide databases. Anal Chem, 1995, 67(18): 3202–3210.

[34] Jaffe JD, Berg HC, Church GM. Proteogenomic mapping as a complementary method to perform genome annotation. Proteomics, 2004, 4(1): 59–77.

[35] Baudet M, Ortet P, Gaillard JC, et al. Proteomics-based refinement of Deinococcus deserti genome annotation reveals an unwonted use of non-canonical translation initiation codons. Mol Cell Proteomics, 2010, 9(2): 415–426.

[36] Gupta N, Tanner S, Jaitly N, et al. Whole proteome analysis of post-translational modifications: applications of mass-spectrometry for proteogenomic annotation. Genome Res, 2007, 17(9): 1362–1377.

[37] Chen Z, Wen B, Wang Q, et al. Quantitative proteomics reveals the temperature-dependent proteins encoded by a series of cluster genes in thermoanaerobacter tengcongensis. Mol Cell Proteomics, 2013, 12(8): 2266–2277.

[38] Savidor A, Donahoo RS, Hurtado-Gonzales O, et al.Expressed peptide tags: an additional layer of data for genome annotation. J Proteome Res, 2006, 5(11): 3048–3058.

[39] de Groot A, Dulermo R, Ortet P, et al. Alliance of proteomics and genomics to unravel the specificities of Sahara bacterium Deinococcus deserti. PLoS Genet, 2009, 5(3): e1000434.

[40] Gallien S, Perrodou E, Carapito C, et al. Ortho-proteogenomics: multiple proteomes investigation through orthology and a new MS-based protocol. Genome Res, 2009, 19(1): 128–135.

[41] Krug K, Carpy A, Behrends G, et al. Deep coverage of the Escherichia coli proteome enables the assessment of false discovery rates in simple proteogenomic experiments. Mol Cell Proteomics, 2013, 12(11): 3420–3430.

[42] Denef VJ, Kalnejais LH, Mueller RS, et al. Proteogenomic basis for ecological divergence of closely related bacteria in natural acidophilic microbial communities. Proc Natl Acad Sci USA, 2010, 107(6): 2383–2390.

[43] Gupta N, Benhamida J, Bhargava V, et al. Comparative proteogenomics: combining mass spectrometry and comparative genomics to analyze multiple genomes. Genome Res, 2008, 18(7): 1133–1142.

[44] Alexova R, Haynes PA, Ferrari BC, et al. Comparative protein expression in different strains of the bloom-forming cyanobacterium Microcystis aeruginosa. Mol Cell Proteomics, 2011, 10(9): M110 003749.

[45] Schrimpe-Rutledge AC, Jones MB, Chauhan S, et al. Comparative omics-driven genome annotation refinement: application across Yersiniae. PLoS ONE, 2012, 7(3): e33903.

[46] Zhong Y, Chang X, Cao XJ, et al. Comparative proteogenomic analysis of the Leptospira interrogans virulence-attenuated strain IPAV against the pathogenic strain 56601. Cell Res, 2011, 21(8): 1210–1229.

[47] Plewniak F, Bianchetti L, Brelivet Y, et al. PipeAlign: a new toolkit for protein family analysis. Nucleic Acids Res, 2003, 31(13): 3829–3832.

[48] Edgar RC. MUSCLE: multiple sequence alignment with high accuracy and high throughput. Nucleic Acids Res, 2004, 32(5): 1792–1797.

[49] Remm M, Storm CE, Sonnhammer EL. Automatic clustering of orthologs and in-paralogs from pairwise species comparisons. J Mol Biol, 2001, 314(5): 1041–1052.

[50] Blakeley P, Overton IM, Hubbard SJ. Addressing statistical biases in nucleotide-derived protein databases for proteogenomic search strategies. J Proteome Res, 2012, 11(11): 5221–5234.

[51] Vizcaino JA, Cote RG, Csordas A, et al. The PRoteomics IDEntifications (PRIDE) database and associated tools: status in 2013. Nucleic Acids Res, 2013, 41(Database issue): D1063–1069.

[52] Branca RM, Orre LM, Johansson HJ, et al. HiRIEF LC-MS enables deep proteome coverage and unbiased proteogenomics. Nat Methods, 2014, 11(1): 59–62.

(本文責(zé)編 陳宏宇)

Progress in proteogenomics of prokaryotes

Chengpu Zhang, Ping Xu, and Yunping Zhu
Beijing Proteome Research Center, State Key Laboratory of Proteomics, National Engineering Research Center for Protein Drugs, National Center for Protein Sciences Beijing, Beijing Institute of Radiation Medicine, Beijing 102206, China

With the rapid development of genome sequencing technologies, a large amount of prokaryote genomes have been sequenced in recent years. To further investigate the models and functions of genomes, the algorithms for genome annotations based on the sequence and homology features have been widely implemented to newly sequenced genomes. However, gene annotations only using the genomic information are prone to errors, such as the incorrect N-terminals and pseudogenes. It is even harder to provide reasonable annotating results in the case of the poor genome sequencing results. The transcriptomics based on the technologies such as microarray and RNA-seq and the proteomics based on the MS/MS have been used widely to identify the gene products with high throughput and high sensitivity, providing the powerful tools for the verification and correction of annotated genome. Compared with transcriptomics, proteomics can generate the protein list for the expressed genes in the samples or cells without any confusion of the non-coding RNA, leading the proteogenomics an important basis for the genome annotations in prokaryotes. In this paper, we first described the traditional genome annotation algorithms and pointed out the shortcomings. Then we summarized the advantages of proteomics in the genome annotations and reviewed the progress of proteogenomics in prokaryotes. Finally we discussed the challenges and strategies in the data analyses and potential solutions for the developments of proteogenomics.

proteogenomics, prokaryotes, genome annotation, mass spectrometry

December 24, 2013; Accepted: February 17, 2014

Yunping Zhu. Tel/Fax: +86-10-80705225; E-mail: zhuyunping@gmail.com

張成普, 徐平, 朱云平. 原核生物蛋白質(zhì)基因組學(xué)研究進(jìn)展. 生物工程學(xué)報, 2014, 30(7): 1026?1035.

Zhang CP, Xu P, Zhu YP. Progress in proteogenomics of prokaryotes. Chin J Biotech, 2014, 30(7): 1026?1035.

Supported by: National Basic Research Program of China (973 Program) (Nos. 2011CB910600, 2010CB912700, 2013CB911200), National High Technology Research and Development Program of China (863 Program) (Nos. 2012AA020409, 2012AA020201), National Natural Science Foundation of China (Nos. 21105121, 21275160), Beijing Natural Science Foundation (No. 5122013).

Ping Xu. Tel: +86-10-83147777-1314; Fax: +86-10-80705155; E-mail: xupingghy@gmail.com

國家重點基礎(chǔ)研究計劃 (973計劃) (Nos. 2011CB910600,2010CB912700,2013CB911200),國家高技術(shù)研究發(fā)展計劃 (863計劃) (Nos. 2012AA020409, 2012AA020201),國家自然科學(xué)基金 (Nos. 21105121, 21275160),北京市自然科學(xué)基金 (No. 5122013) 資助。

時間:2014-03-25 網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/doi/10.13345/j.cjb.130659.html

猜你喜歡
基因組學(xué)原核組學(xué)
基于基因組學(xué)數(shù)據(jù)分析構(gòu)建腎上腺皮質(zhì)癌預(yù)后模型
系統(tǒng)基因組學(xué)解碼反芻動物的演化
科學(xué)(2020年2期)2020-08-24 07:56:44
口腔代謝組學(xué)研究
基于UHPLC-Q-TOF/MS的歸身和歸尾補(bǔ)血機(jī)制的代謝組學(xué)初步研究
結(jié)核分枝桿菌CFP10、ESAT6蛋白的原核表達(dá)、純化及ELISPOT檢測方法的建立與應(yīng)用
癌癥標(biāo)記蛋白 AGR2的原核表達(dá)及純化
牛分支桿菌HBHA基因的克隆及原核表達(dá)
代謝組學(xué)在多囊卵巢綜合征中的應(yīng)用
人巨細(xì)胞病毒pp150-gp52蛋白原核可溶性表達(dá)與IgM捕獲ELISA方法建立和應(yīng)用
營養(yǎng)基因組學(xué)——我們可以吃得更健康
克拉玛依市| 海安县| 高邮市| 日照市| 五河县| 南投县| 永康市| 瑞丽市| 台南市| 平昌县| 定襄县| 栾城县| 长泰县| 通山县| 华亭县| 凉城县| 页游| 高阳县| 溧阳市| 阿荣旗| 平定县| 巴青县| 盐源县| 黑龙江省| 辽阳县| 阿拉尔市| 建水县| 凤阳县| 永德县| 旌德县| 神木县| 霍邱县| 广安市| 闸北区| 儋州市| 出国| 扎赉特旗| 遵化市| 赫章县| 竹山县| 原平市|