楊悅,杜欣軍,梁彬,郭季冬,程曉真,王碩
(天津科技大學(xué)食品營(yíng)養(yǎng)與安全重點(diǎn)實(shí)驗(yàn)室,天津300457)
第三代DNA測(cè)序及其相關(guān)生物信息學(xué)技術(shù)發(fā)展概況
楊悅,杜欣軍,梁彬,郭季冬,程曉真,王碩*
(天津科技大學(xué)食品營(yíng)養(yǎng)與安全重點(diǎn)實(shí)驗(yàn)室,天津300457)
本文介紹了第三代DNA測(cè)序的技術(shù)原理及應(yīng)用現(xiàn)狀,并對(duì)相關(guān)的生物信息學(xué)技術(shù)進(jìn)行了綜述。第三代測(cè)序技術(shù)以單分子測(cè)序?yàn)橹饕攸c(diǎn),目前已廣泛應(yīng)用于食品科學(xué)及生命科學(xué)研究的各個(gè)領(lǐng)域,其代表有Heliscope BioScience公司的SMS技術(shù)、Pacific BioSciences公司的SMRT技術(shù)等。本文同時(shí)歸納總結(jié)了基因組學(xué)相關(guān)的生物信息學(xué)發(fā)展?fàn)顩r及常用的數(shù)據(jù)庫(kù)。
基因組學(xué);第三代DNA測(cè)序技術(shù);生物信息學(xué);數(shù)據(jù)庫(kù)
1986年美國(guó)科學(xué)家Thomas Roderick首次提出基因組學(xué)的概念,基因組學(xué)包括核苷酸測(cè)序及序列分析、基因定位、基因功能分析等內(nèi)容[1]?;蚪M學(xué)始于人類基因組圖譜繪制和測(cè)序的提出,這一偉大的理想在2004年完成,使基因組學(xué)成為生命科學(xué)領(lǐng)域中最重要和最基礎(chǔ)的研究領(lǐng)域之一[2],如今也廣泛于食品科學(xué)、環(huán)境科學(xué)等眾多研究領(lǐng)域。
基因組學(xué)的迅速發(fā)展離不開(kāi)DNA測(cè)序技術(shù)與生物數(shù)據(jù)處理手段-生物信息學(xué)。從上世紀(jì)六、七十年代開(kāi)始,由最初的人工DNA測(cè)序到現(xiàn)在的第三代測(cè)序技術(shù)-單分子實(shí)時(shí)測(cè)序技術(shù),DNA測(cè)序技術(shù)經(jīng)歷了翻天覆地的變化,同時(shí),DNA測(cè)序獲得的大量數(shù)據(jù)促進(jìn)了生物信息學(xué)的產(chǎn)生和發(fā)展,利用生物信息學(xué)的方法分析和處理序列數(shù)據(jù)對(duì)認(rèn)識(shí)和揭示基因組序列中蘊(yùn)含的信息至關(guān)重要。本文旨在闡述第三代DNA測(cè)序技術(shù)的技術(shù)原理及應(yīng)用情況,同時(shí)介紹了與之相關(guān)的生物信息學(xué)的研究?jī)?nèi)容及一些常用的數(shù)據(jù)庫(kù),為基因組測(cè)序及后續(xù)分析工作提供參考。
目前正在興起的第三代測(cè)序是單分子測(cè)序[3-6],這種技術(shù)無(wú)需PCR擴(kuò)增,這種方法測(cè)序通量更高,操作過(guò)程更簡(jiǎn)單,成本更低。另外它還具有3個(gè)顯著的特點(diǎn):第一,單分子測(cè)序技術(shù)可以直接對(duì)RNA進(jìn)行序列,這樣大幅度降低體外逆轉(zhuǎn)錄產(chǎn)生的系統(tǒng)誤差;第二,可以直接檢測(cè)甲基化的DNA序列,為表觀遺傳學(xué)研究奠定了基礎(chǔ);第三,可以對(duì)特定序列的SNP進(jìn)行檢測(cè),實(shí)現(xiàn)對(duì)稀有突變及其頻率的測(cè)定。目前市面上單分子測(cè)序平臺(tái)有Heliscope BioScience公司的SMS(true single molecular sequencing)技術(shù)[7-8],Pacific BioSciences公司的SMRT(single molecule real-time)技術(shù)[9],VisiGen Biotechnologies公司的FRET(fluorescence resonance energy transfer)技術(shù)[10]以及Oxford Nanopore Nechnologies公司的納米孔技術(shù)[11]。
1.1SMS測(cè)序平臺(tái)
SMS技術(shù)仍然建立在合成測(cè)序的基礎(chǔ)之上,只是檢測(cè)方法更加靈敏。它是利用電場(chǎng)的作用以采集與聚合酶結(jié)合的標(biāo)記核苷酸的熒光特征進(jìn)行測(cè)序[12]。其原理如圖1所示[13]。
圖1 SMS技術(shù)原理Fig.1The principle of SMS technology
(1)將待測(cè)的DNA序列隨機(jī)打斷并在3'末端加上polyA,利用末端轉(zhuǎn)移酶進(jìn)行熒光標(biāo)記和阻斷,阻斷的目的是防止在測(cè)序過(guò)程中核苷酸在模板的3'末端進(jìn)行延伸;(2)將這些標(biāo)記好的小片段與帶有polyT引物的平板雜交并精確定位;(3)逐一加入A、C、G、T4種熒光修飾的dNTP及聚合酶,當(dāng)堿基互補(bǔ)延伸后,利用全內(nèi)反射顯微鏡(total internal reflection microscopy,TIRM)進(jìn)行單色成像,之后切開(kāi)熒光染料和抑制基團(tuán),洗滌,加帽,允許下一個(gè)核苷酸的摻入;(4)如此反復(fù)循環(huán),就可以實(shí)現(xiàn)實(shí)時(shí)測(cè)序采集熒光信號(hào)獲得堿基信息。數(shù)十個(gè)循環(huán)后,將測(cè)得的DNA序列拼接,即得到完整的基因序列,目前已有所應(yīng)用[14-15]。SMS測(cè)序技術(shù)的優(yōu)點(diǎn)是:文庫(kù)制備簡(jiǎn)單,不需要PCR擴(kuò)增或連接酶,尤其適合RNA直接測(cè)序,無(wú)需傳統(tǒng)的cDNA合成步驟,從而避免了體外逆轉(zhuǎn)錄產(chǎn)生的錯(cuò)誤;缺點(diǎn)是初始讀長(zhǎng)較短,僅有35 bp,準(zhǔn)確率較低,同時(shí)單分子測(cè)序成本較高,阻礙著這項(xiàng)技術(shù)的推廣應(yīng)用。
1.2SMRT測(cè)序平臺(tái)
SMRT測(cè)序技術(shù)的單分子熒光檢測(cè)設(shè)備采用零模式波導(dǎo)技術(shù),以SMRT芯片為載體進(jìn)行測(cè)序反應(yīng),其原理如圖2所示[16-17]。
圖2 SMRT技術(shù)原理Fig.2The principle of SMRT technology
測(cè)序的大致流程如下:(1)將待測(cè)的DNA樣品隨機(jī)打斷,制成液滴后將其分散到SMRT芯片中;(2)MRT芯片是包含成千上萬(wàn)的納米孔(Zero-Mode Waveguides,ZMWs)的金屬片,這些納米孔的直徑短于激光的單個(gè)波長(zhǎng)并且內(nèi)部錨定有DNA聚合酶,測(cè)序時(shí)待測(cè)的DNA單鏈進(jìn)入ZMW被DNA聚合酶捕獲后,四種不同熒光標(biāo)記的dNTP加在反應(yīng)孔的上端,當(dāng)dNTP與待測(cè)的DNA模板互補(bǔ)延伸時(shí),DNA聚合酶首先捕獲與模板匹配的dNTP,在熒光檢測(cè)區(qū)被激光束激發(fā)出熒光,進(jìn)而識(shí)別核苷酸的種類;(3)在熒光脈沖結(jié)束后,被標(biāo)記的磷酸集團(tuán)被切割并釋放,DNA聚合酶轉(zhuǎn)移到下一個(gè)位置,下一個(gè)待測(cè)的堿基連接到位點(diǎn)上開(kāi)始釋放熒光脈沖,進(jìn)行下一個(gè)循環(huán)。SMRT測(cè)序技術(shù)是實(shí)際意義上的實(shí)時(shí)測(cè)序,完全依靠DNA聚合酶的作用,使測(cè)序速度明顯提高,同時(shí)DNA聚合酶自身的延續(xù)性也能夠保證了測(cè)序的讀長(zhǎng),降低了測(cè)序的時(shí)間及費(fèi)用;但是不足之處是會(huì)由于堿基摻入速度過(guò)快而出現(xiàn)插入和缺失錯(cuò)誤,從而影響測(cè)序的準(zhǔn)確性。
1.3FRET測(cè)序平臺(tái)
FRET技術(shù)基本原理是利用熒光共振能量轉(zhuǎn)移(fluorescence resonance energy transfer)現(xiàn)象,具體是指在進(jìn)行測(cè)序時(shí)被熒光受體標(biāo)記的4種脫氧核苷酸分子隨著測(cè)序引物的延伸會(huì)發(fā)出特異性的微光,以達(dá)到對(duì)DNA的堿基序列進(jìn)行連續(xù)、快速檢測(cè)的目的[10]。其測(cè)序原理如圖3[18-19]。
圖3 FRET技術(shù)原理Fig.3The principle of FRET technology
測(cè)序流程如下:(1)將被供體熒光基團(tuán)修飾的DNA聚合酶及待測(cè)的DNA模板分子固定在載玻片上;(2)向其加入含引物、4種dNTP(其磷酸上標(biāo)記特異的熒光受體基團(tuán))測(cè)序緩沖液,測(cè)序過(guò)程中,當(dāng)dNTP靠近含熒光供體基團(tuán)的聚合酶時(shí),后者就能釋放能量激光并發(fā)出特異的熒光(即FRET信號(hào)),從而識(shí)別相應(yīng)的堿基類型;(3)當(dāng)dNTP被識(shí)別后,熒光基團(tuán)就會(huì)隨著磷酸離開(kāi),保證下一個(gè)dNTP能繼續(xù)反應(yīng),從而達(dá)到測(cè)序的目的。FRET測(cè)序技術(shù)最明顯的優(yōu)勢(shì)是測(cè)序過(guò)程簡(jiǎn)單直接,速度較快,如同看電影一般[20],其測(cè)序速度有望達(dá)到1百萬(wàn)堿基/秒;但是缺乏相應(yīng)的技術(shù)參數(shù)從而限制了其廣泛應(yīng)用。
1.4納米孔測(cè)序平臺(tái)
納米孔技術(shù)是一種純物理學(xué)的方法,是利用不同的堿基通過(guò)納米孔時(shí)產(chǎn)生的電信號(hào)變化來(lái)對(duì)其進(jìn)行測(cè)序[21]。其技術(shù)原理類似于電泳,如圖4所示[22-24]。
一線教師的付出是辛勞的,不僅僅是腦力勞動(dòng),同時(shí)還有體力勞動(dòng),費(fèi)心費(fèi)力。備課、上課、批改作業(yè)和試卷,還要反思教學(xué),針對(duì)個(gè)別學(xué)生補(bǔ)缺補(bǔ)差,很少有休息時(shí)間。可是,作為一名教師,只有用心教學(xué)才能贏得家長(zhǎng)的尊重和理解,在工作中,只有家長(zhǎng)和學(xué)校相互配合,教師和家長(zhǎng)之間互相理解和尊重,才能共同的把孩子教育好。應(yīng)該說(shuō),我們需要家長(zhǎng)的配合,理解和支持,讓學(xué)生學(xué)好是共同的期待,這需要我們用心與家長(zhǎng)溝通、交流,做家長(zhǎng)的朋友。得到了家長(zhǎng)的理解和支持,我們才能教出成績(jī),從而收獲快樂(lè),提升幸福感。
圖4 納米孔技術(shù)原理Fig.4The principle of Oxford Nanopore technology
大致過(guò)程為:待測(cè)的DNA序列在核酸外切酶的作用下迅速的逐一切割其脫氧核糖核苷酸分子,切下的核苷酸落入直徑非常小的納米孔(Nanopore)中,由于這種孔的直徑只允許單一的核苷酸通過(guò),當(dāng)其通過(guò)納米孔時(shí),就會(huì)產(chǎn)生不同的電流變化幅度,從而區(qū)分不同的堿基,進(jìn)而推測(cè)出待測(cè)DNA的序列信息。納米孔單分子測(cè)序技術(shù)相對(duì)于其他的單分子測(cè)序技術(shù)而言,無(wú)需傳統(tǒng)的DNA聚合酶、連接酶或者dNTPs,樣本處理簡(jiǎn)單,同時(shí)也不需要復(fù)雜的光學(xué)探測(cè)系統(tǒng)(如激光發(fā)射器和CCD信號(hào)采集系統(tǒng)等),因此大大降低了測(cè)序成本,另外由于其測(cè)序的對(duì)象為單個(gè)核苷酸,所以這種技術(shù)有很好的持續(xù)性和準(zhǔn)確性,還可以直接對(duì)RNA樣品進(jìn)行測(cè)序;缺點(diǎn)就是單個(gè)核苷酸通過(guò)納米孔的速度及納米孔的厚度可能引起電流差異特征性的不明顯,從而降低測(cè)序的精確度。
測(cè)序技術(shù)不斷的更新?lián)Q代,與前代產(chǎn)品相比,第三代測(cè)序技術(shù)具有比不可比擬的優(yōu)點(diǎn),不僅大幅度降低了高昂的測(cè)序費(fèi)用,而且使得對(duì)更多的物種進(jìn)行測(cè)序成為可能,這些都將對(duì)分子生物學(xué)、基因組學(xué)和進(jìn)化生物學(xué)的研究產(chǎn)生深遠(yuǎn)的影響。另一方面,第二代測(cè)序和第三代測(cè)序技術(shù)并駕齊驅(qū)使基因組測(cè)序的成本迅速下降,這將會(huì)給食品、醫(yī)療衛(wèi)生等行業(yè)帶來(lái)里程碑式的變革。
2.1生物信息學(xué)
生物信息學(xué)(Bioinformatics)是以計(jì)算機(jī)為工具對(duì)生物遺傳信息進(jìn)行加工處理以獲得所需信息的科學(xué)[25]。這一門新興的交叉學(xué)科以信息學(xué)、統(tǒng)計(jì)學(xué)、生物學(xué)、計(jì)算機(jī)為主要研究手段,在當(dāng)今的生命科學(xué)和自然科學(xué)領(lǐng)域應(yīng)用十分廣泛。生物信息學(xué)起源于20世紀(jì)70年代,各種生物信息學(xué)的基本理論逐漸誕生,其中最重要的突破是Kimura提出的分子鐘假說(shuō)[26]。生物信息學(xué)發(fā)展成為一門獨(dú)立的學(xué)科是在80年代,在這期間逐漸形成自己獨(dú)特的理論體系和解決問(wèn)題的方法,例如序列比對(duì)中的經(jīng)典算法和FASTA家族的數(shù)據(jù)庫(kù)搜索算法[27]。
2.2基因組測(cè)序相關(guān)生物信息學(xué)技術(shù)
過(guò)去30年,基因組DNA測(cè)序技術(shù)發(fā)展迅猛,應(yīng)用領(lǐng)域也不斷擴(kuò)展,各種物種基因組測(cè)序的完成只是基因組計(jì)劃的第一步,從基因組序列中提取有用信息,進(jìn)而揭示其蘊(yùn)含的全部意義,才是這些基因組計(jì)劃的最終目標(biāo)。在各種物種基因組被逐步破解的過(guò)程中,生物信息學(xué)能夠通過(guò)信息學(xué)、統(tǒng)計(jì)學(xué)、計(jì)算機(jī)等手段對(duì)基因組測(cè)序所產(chǎn)生的海量數(shù)據(jù)進(jìn)行科學(xué)的處理及分析,因此其在基因組及后基因組時(shí)代逐漸承擔(dān)起越來(lái)越重要的角色。本文將生物信息學(xué)在基因組學(xué)方面的應(yīng)用歸納為以下幾個(gè)方面:
第二,基因區(qū)域及功能預(yù)測(cè)。經(jīng)過(guò)序列拼接后能夠得到完整的基因組序列信息,但是如果想要研究每個(gè)基因的功能就需要分析和解讀核酸序列中所表達(dá)的結(jié)構(gòu)與功能的生物信息。在真核生物中,并不是所有的基因都能夠行使功能,例如在人類的基因組中,編碼基因僅占總序列的3%~5%。所謂基因區(qū)域的預(yù)測(cè),一般是指預(yù)測(cè)DNA序列中編碼蛋白質(zhì)的部分,即外顯子部分。預(yù)測(cè)外顯子的基本算法有ORF(open reading frame)法、核苷酸語(yǔ)匯(nucleotide words)及線性判別分析(Linear Discriminant Analysis,LDA)等。找到這些編碼基因后,就要進(jìn)行基因功能的預(yù)測(cè),基本方法是序列同源比較,尋找蛋白質(zhì)家族保守順序,常用的算法有Smit-Waterman算法,F(xiàn)ASTA算法和BLAST算法。
第三,代謝網(wǎng)絡(luò)建模的分析。將分析得到的某種生物的基因組序列根據(jù)功能進(jìn)行分類及其代謝組學(xué)的研究是近幾年的研究前沿方向,將基因定位到代謝網(wǎng)絡(luò)中(其涉及到生化反應(yīng)途徑,基因調(diào)控,信號(hào)轉(zhuǎn)導(dǎo)過(guò)程等),這種后基因組時(shí)代的研究涉及到大規(guī)模網(wǎng)絡(luò)的生命過(guò)程,又叫做“網(wǎng)絡(luò)生物研究”[30]。如今,利用生物信息學(xué)技術(shù)開(kāi)發(fā)專門軟件工具來(lái)自動(dòng)分析大規(guī)模網(wǎng)絡(luò)系統(tǒng)的物理屬性,提供路徑導(dǎo)航、模式搜索、圖形簡(jiǎn)化等分析手段以及基于代謝控制分析原理,使用常微分方程來(lái)求解反應(yīng)速率,已經(jīng)成為一種研究熱點(diǎn)。
第四,數(shù)據(jù)庫(kù)的建設(shè)及整合。生物數(shù)據(jù)庫(kù)是進(jìn)行生物信息學(xué)研究的基礎(chǔ),盡管目前已有許多公共的數(shù)據(jù)庫(kù)可供使用,如Genbank等,這些都凝聚了大量生物信息學(xué)的工作。但我們進(jìn)行專項(xiàng)研究時(shí),往往需要根據(jù)具體分析內(nèi)容構(gòu)建新的數(shù)據(jù)庫(kù)。要建立自己的數(shù)據(jù)庫(kù),就必須分析數(shù)據(jù)庫(kù)的儲(chǔ)存形式和復(fù)雜程度,設(shè)計(jì)相應(yīng)的分析程序及算法,實(shí)現(xiàn)并行計(jì)算和先進(jìn)的內(nèi)存管理以提高數(shù)據(jù)庫(kù)的速度等,這些都需要通過(guò)生物信息學(xué)來(lái)實(shí)現(xiàn)。另外,生物信息學(xué)技術(shù)還可以將多個(gè)數(shù)據(jù)庫(kù)整合在一起提供綜合服務(wù),實(shí)現(xiàn)數(shù)據(jù)庫(kù)的一體化和集成環(huán)境,能夠使用戶共享不同數(shù)據(jù)庫(kù),達(dá)到資源共享。
2.3生物信息學(xué)的常用數(shù)據(jù)庫(kù)
隨著第一代測(cè)序儀的全面推廣,基因組測(cè)序數(shù)據(jù)量快速增加,使數(shù)據(jù)庫(kù)的容量逐漸擴(kuò)大,因此基因的預(yù)測(cè)和比對(duì)將生物信息學(xué)帶入了一個(gè)嶄新的時(shí)期,加速了各種數(shù)據(jù)庫(kù)的誕生。
2.3.1生物信息學(xué)數(shù)據(jù)庫(kù)的分類
根據(jù)建庫(kù)方式,生物信息學(xué)中的數(shù)據(jù)庫(kù)大致分為四類[31]:一級(jí)數(shù)據(jù)庫(kù)、二級(jí)數(shù)據(jù)庫(kù)、專家?guī)旒罢蠑?shù)據(jù)庫(kù)。一級(jí)數(shù)據(jù)庫(kù)最基礎(chǔ),一般是由國(guó)家或國(guó)際組織建設(shè)和維護(hù),例如GenBank、EMBL及DDBJ等;二級(jí)數(shù)據(jù)庫(kù)是在一級(jí)數(shù)據(jù)庫(kù)的基礎(chǔ)上,結(jié)合特殊的需要將部分?jǐn)?shù)據(jù)從一級(jí)數(shù)據(jù)庫(kù)中取出,經(jīng)過(guò)重新組合(包括一定的修正或調(diào)整)而成的數(shù)據(jù)庫(kù),其專一性很強(qiáng),數(shù)據(jù)量相對(duì)較少,如KEGG、CAZY及COG等;專家?guī)焓且环N特殊的二級(jí)數(shù)據(jù)庫(kù),它是通過(guò)有經(jīng)驗(yàn)的專家經(jīng)過(guò)人工校對(duì)標(biāo)識(shí)之后建立的,這類數(shù)據(jù)庫(kù)的優(yōu)點(diǎn)是質(zhì)量高,使用方便可靠,但是更新和發(fā)展比較緩慢,如Unipro-Swiss-Prot等。整合數(shù)據(jù)庫(kù)是將不同數(shù)據(jù)庫(kù)的內(nèi)容按照一定的要求整合而成,如商業(yè)及內(nèi)部數(shù)據(jù)庫(kù)。
2.3.2常用生物信息學(xué)數(shù)據(jù)庫(kù)
熟練掌握常用數(shù)據(jù)庫(kù)及軟件對(duì)基因組拼接和分析至關(guān)重要,下面簡(jiǎn)要介紹幾個(gè)常用的數(shù)據(jù)庫(kù)。
三個(gè)一級(jí)核酸數(shù)據(jù)庫(kù)GenBank、EMBL和DDBJ在生命科學(xué)中占據(jù)著不可動(dòng)搖的重要地位,是生物信息學(xué)中不可或缺的數(shù)據(jù)資源與分析工具。GenBank由美國(guó)國(guó)立衛(wèi)生研究院下屬的國(guó)立生物技術(shù)信息中心(national center for biotechnology information,NCBI)建立[32-33],這個(gè)數(shù)據(jù)庫(kù)匯集并注釋了所有公開(kāi)的核酸序列,Genbank的數(shù)據(jù)可以從NCBI的FTP服務(wù)器上免費(fèi)下載完整的庫(kù),或下載積累的新數(shù)據(jù),NCBI還提供廣泛的數(shù)據(jù)查詢、序列相似性搜索以及其它分析服務(wù),官方網(wǎng)址為http://www.ncbi.nlm.nih.gov/genbank。EMBL全稱為European molecular biology laboratory,是由歐洲生物信息研究所創(chuàng)建的歐洲分子生物學(xué)實(shí)驗(yàn)室核苷酸數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)由Oracal數(shù)據(jù)庫(kù)系統(tǒng)管理維護(hù),查詢檢索可以通過(guò)因特網(wǎng)上的序列提取系統(tǒng)(SRS)服務(wù)完成[34],官方網(wǎng)址為http://www.embl.org/。DDBJ的英文全稱為DNA data bank of Japan,是日本DNA數(shù)據(jù)庫(kù)系統(tǒng),人們可以使用其主頁(yè)上提供的SAS工具進(jìn)行數(shù)據(jù)檢索和分析[35],官方網(wǎng)址為http://www. ddbj.nig.ac.jp/。這三個(gè)數(shù)據(jù)庫(kù)都是國(guó)際核苷酸序列數(shù)據(jù)庫(kù)合作的成員,他們定期進(jìn)行數(shù)據(jù)交換,互通有無(wú),同步更新。
重要的二級(jí)數(shù)據(jù)庫(kù)有KEGG、CAZY和COG等。KEGG即Kyto Encyclopeida of Genes and Genomes,譯為京都基因與基因組百科全書(shū),是全面破譯基因組的數(shù)據(jù)庫(kù),將基因組序列信息、化學(xué)、藥物和基因的功能信息有機(jī)地結(jié)合起來(lái),其特色是代謝途徑的分析,對(duì)于獲得全基因組序列的物種,只要輸入其全部的蛋白質(zhì)序列,通過(guò)計(jì)算機(jī)化處理,就可以預(yù)測(cè)出該物種的代謝網(wǎng)絡(luò)途徑。該數(shù)據(jù)庫(kù)的官方網(wǎng)址是http://www. genome.jp/kegg/,更新版本為Release 69.0,最近更新日期是2014年1月1日。CAZY是Carbohydrate-Active enzymes Database的縮寫(xiě),是有關(guān)碳水化合物酶類的數(shù)據(jù)庫(kù),依據(jù)對(duì)糖苷鍵的作用將其分類,這些作用包括形成、降解及修飾,該數(shù)據(jù)庫(kù)對(duì)物種的初級(jí)代謝研究具有重要的意義,其官方網(wǎng)址為http://www.cazy.org/,最近更新日期為2014年1月14日。COG全稱為Clusters of Orthologous Groups of proteins,是直系同源蛋白質(zhì)聚類數(shù)據(jù)庫(kù),可以根據(jù)系統(tǒng)進(jìn)化關(guān)系將測(cè)序完成的各種生物中的編碼蛋白進(jìn)行分類,每個(gè)COG都有功能注釋,對(duì)于預(yù)測(cè)單個(gè)蛋白質(zhì)的功能或者新物種的功能都非常有用,該數(shù)據(jù)庫(kù)的官方網(wǎng)址為http://www. ncbi.nlm.nih.gov/COG/。
專家?guī)霼nipro-Swiss-Prot是目前世界上規(guī)模較大的蛋白質(zhì)數(shù)據(jù)庫(kù),由歐洲生物信息研究所和瑞士生物信息研究所共同維護(hù)的,這個(gè)數(shù)據(jù)庫(kù)盡可能減少了冗余序列,并與其它30多個(gè)數(shù)據(jù)建立了交叉引用,功能比較強(qiáng)大,官方網(wǎng)址為http://www.uniprot.org/[36],更新版本為UniProt release 2014_01,最近更新日期是2014年1月22日。
近十幾年來(lái),隨著高通量DNA自動(dòng)測(cè)序技術(shù)的廣泛應(yīng)用,越來(lái)越多的物種包括動(dòng)物、植物及微生物的基因組測(cè)序完成,DNA的數(shù)據(jù)量也以指數(shù)速度增長(zhǎng)。但是常用的高通量測(cè)序儀如Solexa和SOLiD平臺(tái)測(cè)出的序列讀長(zhǎng)都較短,需要進(jìn)行拼接和注釋才能得到完整的基因組信息,此刻生物信息學(xué)技術(shù)就顯得尤為關(guān)鍵。相信在不久的將來(lái),成本不斷降低的高通量測(cè)序技術(shù)與數(shù)據(jù)處理能力不斷提高的生物信息學(xué)技術(shù)能夠更好的結(jié)合并成為一項(xiàng)常規(guī)的實(shí)驗(yàn)手段,成為促進(jìn)整個(gè)生物學(xué)發(fā)展的強(qiáng)大動(dòng)力。
[1]Peakall D,Shugar L.The human genome Projeet(HGP)[J].Ecotoxicology,2002,11(1):7-9
[2]International Human Genome Sequencing Consortium.Finishing the euchromatic sequence of the human genome[J].Nature,2004,431(7011):931-945
[3]Chan E Y.Advances in sequencing technology[J].Mutat Res,2005,573(1/2):13-40
[4]Mardis E R.Next-generation DNA sequencing methods[J].Annu RevGenomics Hum Genet,2008,9:387-402
[5]Schuster S C.Next-generation sequencing transforms todaypsbiology[J].Nat methods,2008,5:16-18
[6]解增言,林俊華,譚軍,等.DNA測(cè)序技術(shù)的發(fā)展歷史與最新進(jìn)展[J].生物技術(shù)通報(bào),2010(8):64-71
[7]Bowers J,Mitchell J,Beer E,et al.Virtual terminator nucleotides for next-generation DNA sequencing[J].Nat Methods,2009,6:593-595
[8]TesslerL A,Reifenberger J G,Mitra R D.Protein quantification in complex mixtures by solid phase single-molecule counting[J].Anal Chem,2009,81:7141-7148
[9]Pacific B,PacBio M.USA on World Wide Web URL:http://www. pacificbiosciences.com
[10]Roy R,Hohng S,Ha T.A practical guide to single-molecule FRET[J].Nat methods,2008,5(6):507-516
[11]Clarke J,Wu H C,Jayasinghe L,et al.Continuous base identification for single-molecule nanopore DNA sequencing[J].Nat Nanotechnol,2009,4:265-270
[12]Ashkenasy N,Sanchez-Quesada J,Bayley H,et al.Recognizing a single base in an individual DNA strand:a step toward DNA sequencing in nanopores[J].Angew Chem Int Ed Engl,2005,44(9):1401-1404
[13]Harris T D,Buzby P R,Babcock H,et al.Single-molecule DNA sequencing of a viral genome[J].Science,2008,320(5872):106-109
[14]Pastor W A,Pape U J,Huang Y,et al.Genome-wide mapping of 5-hydroxymethylcytosine in embryonic stem cells[J].Nature,2011,473(7347):394-397
[15]Goren A,Ozsolak F,Shoresh N,et al.Chromatin profiling by directly sequencing small quantities of immunoprecipitated DNA[J].Nat Methods,2010,7(1):47-49
[16]Astier Y,Braha O,Bayley H.Toward single molecule DNA sequencing:direct identification of ribonucleoside and deoxyribonucleoside 5'-monophosphates by using an engineered protein nanopore equipped with a molecular adapter[J].J Am Chem Soc,2006,128(5):1705-1710
[17]Eid J,F(xiàn)ehr A,Gray J,et al.Real-time DNA sequencing from single polymerase molecules[J].Science,2009,323(5910):133-138
[18]Flusberg B A,Webster D R,Lee J H,et al.Direct detection of DNA methylation during single-molecule,real-time sequencing[J].Nat. Methods,2010,7(6):461-465
[19]Hardin S,Gao X L,Briggs J,et al.Methods for real-time single molecule sequence determination[P].US Patent 7329492,2008
[20]Gupta P K.Single-molecule DNA sequencing technologies for future genomics research[J].Trends Biotechnol,2008,26(11):602-611
[21]Rhee M,Burns M.Nanopore sequencing technology:research trends and applications[J].Trends Biotechnol,2006,24(12):580-586
[22]Clarke J,Wu H C,Jayasinghe L,et al.Continuous base identification for single-molecule nanopore DNA sequencing[J].Nat Nanotechnol.,2009,4(4):265-270
[23]Stoddart D,Heron A J,Mikhailova E,et al.Single-nucleotide discrimination in immobilized DNA oligonucleotides with a biological nanopore[J].Proc Natl Acad Sci U S A,2009,106(19):7702-7707
[24]Schadt E E,Turner S,Kasarskis A.A window into third-generation sequencing[J].Hum Mol Genet,2010,19(R2):R227-R240
[25]Cantor C R,Lim H A.Electrophoresis,Supercomputing and the Human genomes[M].World Scientific Publishing Co,1991
[26]Motoo K,Tomoko O.On Some Principles Governing Molecular Evolution[J].Proc Natl Acad Sci U S A,1974,71(7):2848-2852
[27]Wilbur W J,Lipman D J.Rapid similarity searches of nucleic acid and protein data banks[J].Proc Natl Acad Sci U S A,1983,80(3):726-730
[28]張春霆.生物信息學(xué)的現(xiàn)狀與展望[J].世界科技研究與發(fā)展,2000,22(6):17-20
[29]Rudert F G,Ilag L.Functional genomicswith protein-protein interactions[J].Biotechnol Annul Rev,2000,5:45-86
[30]Barabasi A-L,Oltvai Z N.Network Biology:Understanding The Cell’s Function Organization[J].Nat Rev Genet,2004.5:101-113
[31]姜鑫.生物信息學(xué)數(shù)據(jù)庫(kù)及其利用方法[J].現(xiàn)代情報(bào),2005,25(6):185-187
[32]維斯特海德,帕里什,特懷曼.生物信息學(xué)(中譯本)[M].北京:科學(xué)出版社,2004
[33]蔣彥,王小行,曹毅,等.基礎(chǔ)生物信息學(xué)及應(yīng)用[M].北京:清華大學(xué)出版社,2003
[34]鐘楊,張亮,趙瓊.簡(jiǎn)明生物信息學(xué)[M].北京:高等教育出版社,2001
[35]張曉東,張傳富,彭科峰,等.生物信息學(xué)數(shù)據(jù)庫(kù)研究進(jìn)展[J].生物信息學(xué),2006,4(3):143-145
[36]Berman H M,Westbrook J,F(xiàn)eng Z,et al.The Protein Data Bank[J].Nucleic Acids Res,2000,28(1):235-242
Development of the Third Generation Sequencing Technologies and Related Bioinformatics
YANG Yue,DU Xin-jun,LIANG Bin,GUO Ji-dong,CHENG Xiao-zhen,WANG Shuo*
(Key Laboratory of Food Nutrition and Safety,Tianjin University of Science and Technology,Tianjin 300457,China)
In the present study,the principles and applications of the third generation of DNA sequencing technology were summerized,as well as the progresses of bioinformatics involved genome sequencing.The third generation DNA sequencing technology was characterized by single DNA molecular and had been used in many fields of food science and life science research,for instance,SMS from Heliscope BioScience and SMRT from Pacific BioSciences.Meanwhile,the developement of bioinformatics and the main bioinformatics databases were summarized in the paper.
genomics;the third DNA sequencing technology;bioinformatics;database
10.3969/j.issn.1005-6521.2015.10.038
2014-01-28
楊悅(1984—),女(漢),博士研究生,研究方向:食品微生物。
王碩,男,教授,博士,研究方向:食品安全與食品微生物。