国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

單分子實(shí)時(shí)測(cè)序技術(shù)的原理與應(yīng)用

2015-02-04 06:26:32柳延虎王璐于黎
遺傳 2015年3期
關(guān)鍵詞:堿基基因組測(cè)序

柳延虎,王璐,2,于黎,2

?

單分子實(shí)時(shí)測(cè)序技術(shù)的原理與應(yīng)用

柳延虎1,王璐1,2,于黎1,2

1. 云南大學(xué),云南省生物資源保護(hù)與利用重點(diǎn)實(shí)驗(yàn)室,昆明 650091;2. 云南大學(xué),云南省高校動(dòng)物遺傳多樣性與進(jìn)化重點(diǎn)實(shí)驗(yàn)室,昆明 650091

單分子DNA測(cè)序技術(shù)是近10年發(fā)展起來(lái)的新一代測(cè)序技術(shù),也稱為第三代測(cè)序技術(shù),包括單分子實(shí)時(shí)測(cè)序、真正單分子測(cè)序、單分子納米孔測(cè)序等技術(shù)。文章介紹了單分子實(shí)時(shí)(Single-molecule real-time,SMRT)測(cè)序技術(shù)的基本原理、性能以及應(yīng)用。與Sanger測(cè)序法和下一代測(cè)序技術(shù)相比,SMRT測(cè)序具有超長(zhǎng)讀長(zhǎng)、測(cè)序周期短、無(wú)需模板擴(kuò)增和直接檢測(cè)表觀修飾位點(diǎn)等特點(diǎn),為研究人員提供了新選擇。同時(shí),SMRT測(cè)序的低準(zhǔn)確率備受爭(zhēng)議(約85%),其中約93%的錯(cuò)誤是插入缺失,因此,其數(shù)據(jù)應(yīng)用于基因組組裝前需先對(duì)數(shù)據(jù)進(jìn)行糾錯(cuò)處理。目前,SMRT測(cè)序在小型基因組從頭測(cè)序和完整組裝中已有良好應(yīng)用,并且已經(jīng)或?qū)⒃诒碛^遺傳學(xué)、轉(zhuǎn)錄組學(xué)、大型基因組組裝等領(lǐng)域發(fā)揮其優(yōu)勢(shì),促進(jìn)基因組學(xué)的研究。

單分子測(cè)序;PacBio;SMRT測(cè)序

DNA序列蘊(yùn)藏了生物絕大部分遺傳信息,是生物遺傳和進(jìn)化的基礎(chǔ)。獲得DNA序列對(duì)于闡明生命奧秘至關(guān)重要。為了測(cè)定DNA序列,1977年,Maxam和Gibert發(fā)明了化學(xué)降解法[1]。同年,Sanger發(fā)明了雙脫氧末端終止法[2],即至今廣泛應(yīng)用的Sanger測(cè)序法。20世紀(jì)90年代,熒光自動(dòng)測(cè)序技術(shù)用熒光代替Sanger法中的同位素,實(shí)現(xiàn)了自動(dòng)化測(cè)序。這些技術(shù)現(xiàn)在也被稱為第一代測(cè)序技術(shù)(First-genera-tion sequencing)。應(yīng)用Sanger測(cè)序法,人們完成了人類基因組計(jì)劃。目前應(yīng)用最廣泛的第一代測(cè)序儀是ABI 3730xl測(cè)序儀,該測(cè)序儀擁有較長(zhǎng)讀長(zhǎng)(平均讀長(zhǎng)700 bp)和極高準(zhǔn)確率(99.9%),但是由于相對(duì)高昂的成本(表1),目前主要應(yīng)用于細(xì)菌基因組測(cè)序、質(zhì)粒測(cè)序、細(xì)菌人工染色體末端測(cè)序、突變位點(diǎn)驗(yàn)證等研究,而在大型基因組組裝方面已很少應(yīng)用。

近10年,下一代測(cè)序(Next-generation sequen-cing,NGS)技術(shù)相繼出現(xiàn)并發(fā)展成熟,主要包括Roche公司的焦磷酸測(cè)序技術(shù)(454)[7]、Illumina公司的Solexa測(cè)序技術(shù)[8]和ABI公司的SOLiD測(cè)序技術(shù)[9],這些也被稱為第二代測(cè)序技術(shù)(Second-genera-tion sequencing)。第二代測(cè)序技術(shù)以高通量、低成本為主要特點(diǎn)(表1)。其中Hiseq 2500測(cè)序儀的通量達(dá)1 Tb,測(cè)序成本為30美元/Gb,與3730xl測(cè)序儀相比,單堿基成本降低到萬(wàn)分之一。第二代測(cè)序技術(shù)極大地推進(jìn)了基因組學(xué)的發(fā)展,更多物種的基因組組裝、重測(cè)序、甲基化、轉(zhuǎn)錄本、宏基因組等研究得以展開(kāi)[10]。2012年11月,大型國(guó)際科研合作項(xiàng)目“千人基因組計(jì)劃”的研究人員發(fā)布了1 092個(gè)人的基因組數(shù)據(jù)[11],該研究應(yīng)用第二代測(cè)序技術(shù)完成了對(duì)世界上主要人群的基因組測(cè)序工作,繪制了迄今為止最詳盡、最有醫(yī)學(xué)應(yīng)用價(jià)值的人類基因組遺傳多態(tài)性圖譜。另外,萬(wàn)種脊椎動(dòng)物基因組計(jì)劃[12]和萬(wàn)種微生物基因組計(jì)劃(http://www.gen-omics.cn/news/sh-ow_news?nid=93218)正在進(jìn)行中,這為生命科學(xué)和全球動(dòng)物保護(hù)提供前所未有的基礎(chǔ)資源。然而,讀長(zhǎng)相對(duì)較短仍是第二代測(cè)序技術(shù)的主要瓶頸。Roche公司454 GS FLX+測(cè)序儀平均測(cè)序讀長(zhǎng)最長(zhǎng),也僅為700 bp。Illumina公司Hiseq 2500測(cè)序儀的讀長(zhǎng)只有2×125 bp(表1)。較短的測(cè)序讀長(zhǎng)為組裝基因組帶來(lái)巨大困難;同時(shí),由于采用了模板擴(kuò)增步驟,其在組裝高GC含量基因組時(shí)尤其受限[13]。

為了更好地發(fā)掘DNA序列信息,研究人員研發(fā)出最新一代測(cè)序方法——單分子的測(cè)序技術(shù)(Single- molecule sequencing),也稱為第三代測(cè)序技術(shù)(Third- generation sequencing),其共同特征是基于單分子水平的邊合成邊測(cè)序,主要包括Pacific Biosciences (PacBio)公司的單分子實(shí)時(shí)(Single-molecule real- time,SMRT)測(cè)序技術(shù)、Oxford Nanopore公司的單分子納米孔測(cè)序技術(shù)(The single-molecule nanopore DNA sequencing)、和Helicos公司的真正單分子測(cè)序技術(shù)(True single-molecule sequencing,tSMSTM)等[14]。目前,大部分第三代測(cè)序技術(shù)尚處于研發(fā)階段,只有PacBio公司的RS(Real-timesequencing)系列測(cè)序儀已經(jīng)商業(yè)化,其采用的就是SMRT測(cè)序技術(shù)。SMRT測(cè)序技術(shù)具有超長(zhǎng)讀長(zhǎng),還擁有不需要模板擴(kuò)增、運(yùn)行時(shí)間較短、直接檢測(cè)表觀修飾位點(diǎn)、較高的隨機(jī)測(cè)序錯(cuò)誤等特點(diǎn)。它彌補(bǔ)了第二代測(cè)序讀長(zhǎng)短、受GC含量影響大等局限性,已在小型基因組從頭測(cè)序和組裝中有較多應(yīng)用。本文主要介紹了PacBio RS系列測(cè)序儀使用的SMRT測(cè)序技術(shù)的原理、性能及其應(yīng)用。

表1 常用測(cè)序儀性能比較

注:#以測(cè)定96個(gè)樣品為一次運(yùn)行,其準(zhǔn)確率為經(jīng)過(guò)人工矯正后的準(zhǔn)確率;##使用SBS v4試劑盒并且同時(shí)測(cè)兩個(gè)flow cell為一次運(yùn)行;*以測(cè)定8個(gè)SMRT cell為一次運(yùn)行;**http://www.appliedbiosystems.com/absite/us/en/home/applications-technologies/solid- next-generation- sequencing/next-generation-systems/5500xl-solid.html。

1 SMRT測(cè)序原理

SMRT測(cè)序即單分子實(shí)時(shí)測(cè)序,其原理是:當(dāng)DNA模板被聚合酶捕獲后,4種不同熒光標(biāo)記的dNTP通過(guò)布朗運(yùn)動(dòng)隨機(jī)進(jìn)入檢測(cè)區(qū)域并與聚合酶結(jié)合,與模板匹配的堿基生成化學(xué)鍵的時(shí)間遠(yuǎn)遠(yuǎn)長(zhǎng)于其他堿基停留的時(shí)間。因此統(tǒng)計(jì)熒光信號(hào)存在時(shí)間的長(zhǎng)短,可區(qū)分匹配的堿基與游離堿基。通過(guò)統(tǒng)計(jì)4種熒光信號(hào)與時(shí)間的關(guān)系圖(http://www.paci-ficbiosciences.com/),即可測(cè)定DNA模板序列。

SMRT測(cè)序核心技術(shù)之一是零級(jí)波導(dǎo)技術(shù)(Zero mode waveguide,ZMW)[15]。ZMW是一個(gè)直徑只有10~50 nm的孔,遠(yuǎn)小于檢測(cè)激光的波長(zhǎng)(數(shù)百納米)。因此當(dāng)激光打在ZMW底部時(shí),激光無(wú)法穿過(guò),而是在ZMW底部發(fā)生衍射,只能照亮很小的區(qū)域。DNA聚合酶就被固定在這個(gè)區(qū)域。只有在這個(gè)區(qū)域內(nèi),堿基攜帶的熒光基團(tuán)才能被激活而被檢測(cè)到,大幅地降低了背景熒光干擾。每個(gè)ZMW只固定一個(gè)DNA聚合酶,當(dāng)一個(gè)ZMW結(jié)合少于或超過(guò)一個(gè)DNA模板時(shí),該ZMW所產(chǎn)生的測(cè)序結(jié)果在后續(xù)數(shù)據(jù)分析時(shí)被過(guò)濾掉,由此保證每個(gè)可用的ZMW都是一個(gè)單獨(dú)的DNA合成體系。15萬(wàn)個(gè)ZMW聚合在一個(gè)芯片上,稱為一個(gè)SMRT Cell。PacBio RSⅡ測(cè)序儀一個(gè)流程內(nèi)可同時(shí)完成8個(gè)SMRT Cell的測(cè)序,產(chǎn)生3.2 Gb的數(shù)據(jù)(表1)。

SMRT測(cè)序的另一個(gè)核心技術(shù)是熒光基團(tuán)標(biāo)記在核苷酸3¢端磷酸上[16]。在DNA合成過(guò)程中,3¢端的磷酸鍵隨著DNA鏈的延伸被斷開(kāi),標(biāo)記物被棄去,減少了DNA合成的空間位阻,維持DNA鏈連續(xù)合成,延長(zhǎng)了測(cè)序讀長(zhǎng)。而第二代測(cè)序技術(shù)中熒光基團(tuán)都標(biāo)記在5¢端甲基上,在合成過(guò)程中,熒光標(biāo)記物保留在DNA鏈上,隨DNA鏈的延伸會(huì)產(chǎn)生三維空間阻力,導(dǎo)致DNA鏈延長(zhǎng)到一定程度后出現(xiàn)錯(cuò)讀,這是限制二代測(cè)序讀長(zhǎng)的原因之一。SMRT測(cè)序最大限度地保持了聚合酶的活性,是最接近天然狀態(tài)的聚合酶反應(yīng)體系。在實(shí)時(shí)監(jiān)控系統(tǒng)下,DNA鏈以每秒10個(gè)堿基的速度合成。從建庫(kù)到測(cè)序,整個(gè)過(guò)程在2 d內(nèi)完成。

2 SMRT測(cè)序特點(diǎn)

2.1 超長(zhǎng)讀長(zhǎng)

2013年4月,PacBio公司推出了PacBio RSⅡ測(cè)序儀,平均讀長(zhǎng)達(dá)到4 600 bp,最長(zhǎng)讀長(zhǎng)超過(guò) 20 000 bp,每個(gè)SMRT cell 的通量為400 Mb。PacBio RSⅡ超長(zhǎng)的讀長(zhǎng)非常有利于基因組組裝,還可以填補(bǔ)已知基因組上的未測(cè)通區(qū)域,同時(shí)還開(kāi)創(chuàng)了全新的應(yīng)用領(lǐng)域:轉(zhuǎn)錄本全長(zhǎng)測(cè)序和全長(zhǎng)16S基因測(cè)序等[17, 18]。轉(zhuǎn)錄本全長(zhǎng)測(cè)序?yàn)榛蚩勺兗艚有问降淖R(shí)別、復(fù)雜的轉(zhuǎn)錄分析和新基因探索提供了更有效的支持[19]。如Treutlein等[20]使用SMRT測(cè)序技術(shù)發(fā)現(xiàn)軸突蛋白基因家族中數(shù)百種不同亞型,這些基因產(chǎn)物展現(xiàn)出了驚人的復(fù)雜性,并提供了軸突蛋白在促進(jìn)大腦細(xì)胞連接過(guò)程中作為識(shí)別分子具有重要作用的證據(jù)。

2.2 無(wú)需模板擴(kuò)增

基因組GC含量直接影響DNA序列的測(cè)定。第二代測(cè)序技術(shù)中文庫(kù)構(gòu)建和測(cè)序過(guò)程中都有PCR 擴(kuò)增步驟,高GC或低GC含量的基因組區(qū)域不容易被PCR擴(kuò)增,導(dǎo)致在測(cè)序過(guò)程中測(cè)序覆蓋度不足[21]。另外,在文庫(kù)構(gòu)建時(shí)需將DNA 打斷成適當(dāng)大小的片段,由于高GC含量區(qū)域不易被打斷,使得這些片段過(guò)大而在長(zhǎng)度篩選時(shí)被舍棄[21~23]。由于SMRT測(cè)序是真正意義上的單分子測(cè)序技術(shù),沒(méi)有PCR擴(kuò)增步驟[6, 24],結(jié)合SMRT測(cè)序超長(zhǎng)讀長(zhǎng)的特點(diǎn),可以完成長(zhǎng)片段的高GC含量區(qū)域測(cè)序,從而幫助高GC含量基因組完成組裝。SMRT測(cè)序這一優(yōu)勢(shì)很好的應(yīng)用到極端微生物的基因組研究中[13]。同時(shí),無(wú)需模板擴(kuò)增步驟還避免了PCR引入的錯(cuò)誤,并且只需要使用極少的熒光基團(tuán),為今后大幅降低測(cè)序試劑成本提供了空間。

2.3 較短的運(yùn)行時(shí)間

與第二代測(cè)序技術(shù)相比,SMRT測(cè)序簡(jiǎn)化了建庫(kù)和測(cè)序步驟。一張SMRT cell從文庫(kù)制備到測(cè)序完成只需要不到1 d時(shí)間。SMRT測(cè)序的讀取速度可達(dá)每秒鐘10個(gè)堿基,實(shí)現(xiàn)了DNA聚合酶自身反應(yīng)速度,大幅縮短了測(cè)序周期,因此可以在酶失活之前測(cè)得更長(zhǎng)的序列。較短的運(yùn)行時(shí)間對(duì)于應(yīng)對(duì)傳染病爆發(fā)尤為重要,在很短時(shí)間內(nèi)得到變異微生物的基因組,可以為快速和準(zhǔn)確地研究爆發(fā)起因以及治療策略提供基礎(chǔ)[25]。

2.4 直接檢測(cè)表觀修飾位點(diǎn)

SMRT測(cè)序在DNA合成時(shí),如遇到模板上的甲基化堿基,則從dNTP與DNA聚合酶結(jié)合至釋放熒光基團(tuán)的時(shí)間顯著大于遇到非甲基化堿基所需時(shí)間,并且不同類型的修飾堿基具有不同的DNA聚合酶動(dòng)力學(xué)特征。最終根據(jù)這些動(dòng)力學(xué)特征,主要是脈沖間隔時(shí)間(Interpulse duration,IPD)長(zhǎng)短,判斷堿基的甲基化類型[16]。因此,在較高測(cè)序覆蓋度(>15×)的前提下,SMRT測(cè)序可在完成常規(guī)測(cè)序的同時(shí),還能獲得5-甲基胞嘧啶、5-羥甲基胞嘧啶和N6-甲基腺嘌呤的信息[26]。因?yàn)?-甲基胞嘧啶可能與5-羥甲基胞嘧啶執(zhí)行不同的生物功能[27],所以如何簡(jiǎn)單且有效區(qū)分這兩種不同修飾堿基一直是分子生物學(xué)家關(guān)注的問(wèn)題。應(yīng)用SMRT測(cè)序技術(shù),可以較好地解決這個(gè)問(wèn)題。

2.5 直接測(cè)轉(zhuǎn)錄本

如果將DNA聚合酶換成RNA反轉(zhuǎn)錄酶,SMRT測(cè)序就可以直接進(jìn)行RNA測(cè)序,無(wú)需逆轉(zhuǎn)錄[28]。這一技術(shù)目前尚處于研發(fā)階段。RNA直接測(cè)序?qū)⒔档腕w外逆轉(zhuǎn)錄產(chǎn)生的系統(tǒng)誤差,還可以檢測(cè)RNA上堿基的分子修飾,這將打開(kāi)一個(gè)全新的研究思路。Uemura等[29]使用該技術(shù)對(duì)核糖體中mRNA的翻譯過(guò)程進(jìn)行了實(shí)時(shí)測(cè)序觀察,實(shí)時(shí)觀測(cè)到了單個(gè)核糖體如何將氨基酸串聯(lián)起來(lái)的過(guò)程。

2.6 較高但是完全隨機(jī)的測(cè)序錯(cuò)誤

SMRT測(cè)序的錯(cuò)誤率大約是15%,堿基錯(cuò)測(cè)率約1%,其他錯(cuò)誤主要是單堿基的插入和缺失(Inser-tions and deletions,INDELs)。但是當(dāng)覆蓋度超過(guò)15×?xí)r,SMRT測(cè)序過(guò)程中產(chǎn)生的錯(cuò)誤通過(guò)概率算法進(jìn)行糾正后,其正確率可達(dá)99.3%[16]。通過(guò)糾錯(cuò)提高序列準(zhǔn)確性需要較高覆蓋度和大量計(jì)算機(jī)資源,這對(duì)大多數(shù)動(dòng)植物大型基因組來(lái)說(shuō)較難實(shí)施,最根本的解決方法是通過(guò)技術(shù)革新提升SMRT測(cè)序本身的準(zhǔn)確率。值得注意的是,SMRT測(cè)序的錯(cuò)誤都是隨機(jī)錯(cuò)誤,而非系統(tǒng)錯(cuò)誤,系統(tǒng)錯(cuò)誤是無(wú)法通過(guò)提高測(cè)序覆蓋度矯正的[16]。

3 SMRT測(cè)序數(shù)據(jù)分析軟件

為了更好地應(yīng)用SMRT測(cè)序技術(shù)所產(chǎn)生的序列數(shù)據(jù),近幾年報(bào)道了一些應(yīng)用這些數(shù)據(jù)的算法及軟件(表2)。從表2可以看出,這些軟件涵蓋了組裝軟件(HGAP[30]、ALLPATHS-LG[31]、AHA[32]、MIRA[33]、PacBioToCA[34])、比對(duì)軟件(BLASR[35])、糾錯(cuò)軟件(LSC[36]、PacBioToCA)、補(bǔ)“洞”軟件(AHA、PBJelly[37])、數(shù)據(jù)模擬軟件(PBSIM[38])(表2)。

由于SMRT測(cè)序數(shù)據(jù)高錯(cuò)誤率的特點(diǎn),應(yīng)用這些數(shù)據(jù)組裝基因組和補(bǔ)“洞”前需要先糾正其中的錯(cuò)誤。根據(jù)糾錯(cuò)過(guò)程是否使用第二代測(cè)序數(shù)據(jù)可將軟件分成兩類。目前,利用第二代測(cè)序數(shù)據(jù)的高準(zhǔn)確度數(shù)據(jù)糾正SMRT數(shù)據(jù)的軟件有LSC、PacBio-ToCA等,這兩種方法雖然可以將SMRT測(cè)序數(shù)據(jù)的錯(cuò)誤率降到小于1%,但是糾錯(cuò)的同時(shí)將第二代測(cè)序數(shù)據(jù)的系統(tǒng)錯(cuò)誤引入其中,并且需要消耗大量的計(jì)算機(jī)資源。為了避免使用第二代測(cè)序數(shù)據(jù),Chin等[30]開(kāi)發(fā)了軟件HGAP,該軟件使用SMRT測(cè)序數(shù)據(jù)中的較短序列糾正較長(zhǎng)的“種子”序列,再用糾錯(cuò)后的“種子”長(zhǎng)序列組裝基因組。HGAP軟件使用SMRT測(cè)序數(shù)據(jù)獨(dú)立地完成糾錯(cuò)和組裝,不再依賴第二代測(cè)序數(shù)據(jù)。目前,這個(gè)軟件適用于組裝小于130 M的基因組。在這些組裝軟件中,軟件AHA更適合搭建基因組草圖框架,其余幾個(gè)組裝軟件更適合混合拼接。BLASR軟件是快速比對(duì)軟件,適用于將SMRT測(cè)序數(shù)據(jù)比對(duì)到基因組,因?yàn)锽LASR比其他比對(duì)軟件更好地“容忍”這些數(shù)據(jù)中的INDEL。由于基因組上存在重復(fù)區(qū)域和高GC含量區(qū)域,目前已公布的基因組都存在“洞”,SMRT測(cè)序超長(zhǎng)讀長(zhǎng)和無(wú)GC偏好可以很好地完善基因組,可以應(yīng)用PBJelly等軟件填補(bǔ)基因組上的“洞”。

表2 SMRT數(shù)據(jù)的分析軟件

4 SMRT測(cè)序應(yīng)用

目前SMRT測(cè)序技術(shù)已應(yīng)用在基因組組裝、轉(zhuǎn)錄組測(cè)序、甲基化分析和基因組重測(cè)序等方面(表3),尤其是在基因組組裝和甲基化研究中有著獨(dú)特優(yōu)勢(shì),下面將詳細(xì)介紹這兩個(gè)方面的應(yīng)用。

4.1 組裝基因組

4.1.1 大型基因組組裝

SMRT測(cè)序具有超長(zhǎng)的讀長(zhǎng),對(duì)于組裝大型基因組很有幫助。但是,由于其價(jià)格較高,通常用第二代測(cè)序數(shù)據(jù)加SMRT測(cè)序數(shù)據(jù)混合組裝的策略組裝大型基因組。Koren等[34]對(duì)比了第二代測(cè)序數(shù)據(jù)和混合數(shù)據(jù)組裝的虎皮鸚鵡()基因組結(jié)果:用Illumina 數(shù)據(jù)194×(包括短片段文庫(kù)和長(zhǎng)片段文庫(kù))組裝的conitg 數(shù)目為24 181,N50為47 838 bp;用454數(shù)據(jù)15.4×(包括短片段文庫(kù)和長(zhǎng)片段文庫(kù)) 組裝得到contig 16 574條,N50長(zhǎng)度為75 178 bp;用454數(shù)據(jù)15.4×加上PacBioToCA糾錯(cuò)后的SMRT測(cè)序數(shù)據(jù)3.83×混合組裝,conitg數(shù)目為15 328條,N50 長(zhǎng)度為93 069 bp。PacBio數(shù)據(jù)和454數(shù)據(jù)混合組裝與僅用454數(shù)據(jù)組裝的結(jié)果相比,conitg數(shù)目減少了1 246條,N50提升了24%。由此可見(jiàn),SMRT測(cè)序超長(zhǎng)的讀長(zhǎng)能幫助提高大型基因組組裝效果。

4.1.2 小型基因組組裝

與混合組裝大型基因組不同,單獨(dú)使用SMRT測(cè)序數(shù)據(jù)即可很好地完成小型基因組組裝。Chin等[30]比較了僅用SMRT測(cè)序數(shù)據(jù)組裝和混合組裝大腸桿菌基因組(4 639 675 bp):混合組裝用130×Illumina數(shù)據(jù)和133×SMRT測(cè)序數(shù)據(jù),采用ALLPATHS-LG軟件組裝得到1個(gè)contig,長(zhǎng)度為4 638 970 bp;僅用99×SMRT測(cè)序數(shù)據(jù),使用HGAP軟件組裝得到2個(gè)conitg,N50為4 648 564 bp,接近基因組全長(zhǎng)。只用SMRT測(cè)序數(shù)據(jù)組裝得到與混合組裝相差無(wú)幾的結(jié)果。應(yīng)用SMRT測(cè)序數(shù)據(jù)組裝小型基因組已有較多報(bào)道(表3)。

表3 SMRT測(cè)序在各方面的應(yīng)用

PacBio公司在2013年1月加入100K基因組計(jì)劃,該計(jì)劃旨在測(cè)序100 000種食源性致病菌基因組,并在同年8月已完成20種食源性病原微生物的基因組測(cè)序工作。使用SMRT測(cè)序數(shù)據(jù)不但將每個(gè)基因組組裝成了單個(gè)染色體,還包含了完整的表觀遺傳學(xué)信息、完整的噬菌體以及質(zhì)粒元件信息。這對(duì)于了解菌株致病性、耐藥性及其他與生存相關(guān)的重要生物性狀非常關(guān)鍵。這些信息將有助于減少診斷和確定爆發(fā)株所需時(shí)間。目前已經(jīng)將序列和完整的表觀遺傳學(xué)信息發(fā)布在NCBI網(wǎng)站(http://www. ncbi.nlm.nih.gov/bioproject/186441)。

4.1.3 高/低GC含量基因組組裝

SMRT測(cè)序沒(méi)有PCR擴(kuò)增步驟,可以很好地完成高GC含量基因組的組裝。韓國(guó)極地研究所Dr. Park研究團(tuán)隊(duì)首先利用Illumina Hiseq 2000平臺(tái)對(duì)南極微生物sp. PAMC 26508的基因組進(jìn)行測(cè)序[13]。該菌株基因組GC含量高達(dá)71%,即使利用Hiseq 2000平臺(tái)進(jìn)行了200×深度的測(cè)序,仍無(wú)法獲得完整基因組。組裝時(shí)產(chǎn)生了185 個(gè)contigs,隨后使用Sanger法仍然無(wú)法有效填補(bǔ)草圖中的缺口。研究人員利用14×糾錯(cuò)過(guò)的SMRT測(cè)序數(shù)據(jù)和8×454數(shù)據(jù)混合組裝,得到5個(gè)染色體conitgs和1個(gè)質(zhì)粒conitg,conitg N50達(dá)到1 430 884 bp。SMRT測(cè)序?qū)Ω逩C區(qū)域有著較其他測(cè)序儀更好的測(cè)序效果,是一項(xiàng)非常好的從頭測(cè)序和組裝高GC含量基因組的新工具。

SMRT測(cè)序也非常適用于組裝低GC含量的葉綠體基因組[50]。Ferrarini等[51]使用9111×Illumina HiSeq2000數(shù)據(jù)組裝的葉綠體基因組,只能組裝到7個(gè)contigs,有9.41%的基因組未覆蓋到。而使用320×的SMRT測(cè)序數(shù)據(jù)則將葉綠體組裝成一個(gè)完整的基因組。文章中統(tǒng)計(jì)了SMRT測(cè)序所得序列與GC含量的相關(guān)性,結(jié)果顯示SMRT測(cè)序無(wú)明顯的GC偏好。

4.1.4 完善已有基因組

利用SMRT測(cè)序技術(shù)超長(zhǎng)讀長(zhǎng)和無(wú)GC偏好的優(yōu)勢(shì),可對(duì)模式生物基因組草圖進(jìn)行改善。Richard Gibbs團(tuán)隊(duì)開(kāi)發(fā)了高度自動(dòng)化的工具PBJelly,能夠?qū)MRT測(cè)序所得長(zhǎng)片段與基因組草圖進(jìn)行比對(duì),填補(bǔ)或減少草圖中的缺口,從而完善基因組草圖[37]。他們用18×SMRT測(cè)序數(shù)據(jù)對(duì)黑腹果蠅基因組進(jìn)行補(bǔ)洞,缺口數(shù)目從4 651個(gè)降低到311個(gè),降低了15倍;conitg N50從64 006 bp提高到723 621 bp,提高了11倍。同時(shí)他們用6.8×SMRT測(cè)序數(shù)據(jù)對(duì)黑子白眉猴基因組(2.8 G)進(jìn)行升級(jí),缺口數(shù)目從186 841個(gè)降低到66 211個(gè),降低了2.8倍;contig N50從34 925 bp提升到128 379 bp,提升了3.7倍。由此可見(jiàn),應(yīng)用SMRT測(cè)序提升基因組組裝結(jié)果,不僅可以減少缺口數(shù)目,還可以大大提高contig的長(zhǎng)度,而且對(duì)大型基因組和小型基因組提升效果同樣明顯。

4.2 甲基化分析

SMRT測(cè)序系統(tǒng)不需要進(jìn)行重亞硫酸鹽處理等額外實(shí)驗(yàn)步驟,就能夠直接進(jìn)行表觀遺傳學(xué)分析。New England Biolabs聯(lián)合Pacific Biosciences的研究人員利用PacBio RS系統(tǒng)對(duì)6種細(xì)菌基因組進(jìn)行了重測(cè)序[52],不僅鑒定出細(xì)菌基因組中新的胞嘧啶和腺嘌呤甲基化位點(diǎn),還鑒定出介導(dǎo)這些表觀遺傳學(xué)標(biāo)志的甲基轉(zhuǎn)移酶。SMRT測(cè)序系統(tǒng)可以同時(shí)對(duì)堿基序列和堿基修飾兩方面測(cè)序信息進(jìn)行分析,這為表觀遺傳學(xué)及疾病基因組學(xué)開(kāi)辟了新的研究思路。

5 結(jié)語(yǔ)與展望

近10年,DNA測(cè)序技術(shù)飛速發(fā)展,多種第二代和第三代測(cè)序儀相繼問(wèn)世。從第一代測(cè)序到第三代測(cè)序都有各自的優(yōu)勢(shì)。Sanger測(cè)序通量低、讀長(zhǎng)較長(zhǎng)、準(zhǔn)確率高,對(duì)于小量測(cè)序仍是最佳選擇。高通量、低成本的第二代測(cè)序已發(fā)展成熟,在大型基因組測(cè)序和重測(cè)序中廣泛應(yīng)用。尤其是Illumina公司2014年推出的Hiseq X Ten測(cè)序儀,已實(shí)現(xiàn)1000美元完成一個(gè)人類基因組的目標(biāo)(http://www.nat-ure.com/news/is-the-1-000-genome-for-real-1.14530)。SMRT測(cè)序以超長(zhǎng)的讀長(zhǎng)、無(wú)GC偏好等優(yōu)勢(shì),可以完成高GC含量、重復(fù)區(qū)域多的基因組,已廣泛應(yīng)用到細(xì)菌和真菌基因組學(xué)研究中,并將在更多研究領(lǐng)域發(fā)揮作用。在未來(lái)的一段時(shí)間里,三代測(cè)序技術(shù)將共同存在,在不同的領(lǐng)域發(fā)揮各自優(yōu)勢(shì),并互相補(bǔ)充[53]。鑒于第一代、第二代測(cè)序技術(shù)的一些局限性,人們?cè)絹?lái)越關(guān)注單分子測(cè)序。針對(duì)已商業(yè)化的SMRT測(cè)序技術(shù),目前已公布了一系列相關(guān)的應(yīng)用軟件,涵蓋了組裝、糾錯(cuò)、比對(duì)、數(shù)據(jù)模擬和補(bǔ)洞等常用分析。SMRT測(cè)序在細(xì)菌和真菌的基因組學(xué)以及表觀遺傳學(xué)研究中已有較多應(yīng)用,為解決生物學(xué)問(wèn)題提供了新的方案。隨著SMRT測(cè)序的不斷發(fā)展,相信在不久的將來(lái),它將為轉(zhuǎn)錄組學(xué)分析、大型基因組組裝等領(lǐng)域提供有力的支持。

目前,未商用化的其他單分子測(cè)序技術(shù)有Helicos Biosciences公司的True single-molecule sequencing (tSMSTM)[54]、Oxford Nanopore Technologies公司的the single-molecule nanopore DNA sequencing (https: //nanoporetech.com/)、NABsys公司的‘Hybridization’-assisted nanopore sequencing (HANS)等 (http://www. nabsys.com/)。其中Oxford Nanopore Technologies公司將推出GridION和MinION兩款基于納米孔DNA測(cè)序技術(shù)的便攜式基因組測(cè)序儀,后者僅有U盤大小,可插入計(jì)算機(jī)的USB端口完成測(cè)序工作,價(jià)格僅900美元。

2009年9月,中國(guó)科學(xué)院北京基因組研究所與浪潮集團(tuán)共同成立了“中科院北京基因組所-浪潮基因組科學(xué)聯(lián)合實(shí)驗(yàn)室”(http://www.big.ac.cn/ydhz/ hzxm/200909/t20090918_2511445.html),聯(lián)合各領(lǐng)域科研力量共同研發(fā)單分子測(cè)序技術(shù),目前尚處于研發(fā)階段(http://www.big.ac.cn/ydhz/hzdt/200912/t20091207_ 2690938. html)。作為基因科學(xué)的戰(zhàn)略性裝備,具有國(guó)際先進(jìn)水平的第三代DNA測(cè)序儀的研制,將為中國(guó)在該領(lǐng)域取得領(lǐng)先優(yōu)勢(shì)奠定基礎(chǔ)。擁有自主知識(shí)產(chǎn)權(quán)的第三代測(cè)序儀不僅將填補(bǔ)中國(guó)在DNA測(cè)序基礎(chǔ)裝備領(lǐng)域的空白、提升裝備自主化水平,同時(shí)也將使國(guó)內(nèi)生命科學(xué)研究機(jī)構(gòu)能獲得低成本、高效率的測(cè)序工具。

隨著單分子測(cè)序技術(shù)的不斷發(fā)展及完善,預(yù)計(jì)單分子測(cè)序技術(shù)成本將逐漸下降。這將有利于展開(kāi)個(gè)人基因組測(cè)序工作,基因組水平指導(dǎo)下的遺傳病診治、個(gè)人醫(yī)療和保健等工作可以更高效的進(jìn)行,人們進(jìn)入人性化醫(yī)療時(shí)代。同時(shí)也便捷了各領(lǐng)域的研究人員獲得研究領(lǐng)域的物種基因組,促進(jìn)基因組學(xué)研究的發(fā)展。

[1] Maxam AM, Gilbert W. A new method for sequencing DNA., 1977, 74(2): 560–564.

[2] Sanger F, Nicklen S, Coulson AR. DNA sequencing with chain-terminating inhibitors., 1977, 74(12): 5463–5467.

[3] Liu L, Li YH, Li SL, Hu N, He YM, Pong R, Lin DN, Lu LH, Law M. Comparison of next-generation sequencing systems., 2012, 2012: Article ID 251364.

[4] Gilles A, Meglécz E, Pech N, Ferreira S, Malausa T, Martin JF. Accuracy and quality assessment of 454 GS-FLX Titanium pyrosequencing., 2011, 12(1): 245.

[5] Chin CS, Sorenson J, Harris JB, Robins WP, Charles RC, Jean-Charles RR, Bullard J, Webster DR, Kasarskis A, Peluso P, Paxinos EE, Yamaichi Y, Calderwood SB, Mekalanos JJ, Schadt EE, Waldor MK. The origin of the Haitian cholera outbreak strain., 2011, 364(1): 33–42.

[6] Rasko DA, Webster DR, Sahl JW, Bashir A, Boisen N, Scheutz F, Paxinos EE, Sebra R, Chin CS, Iliopoulos D, Klammer A, Peluso P, Lee L, Kislyuk AO, Bullard J, Kasarskis A, Wang S, Eid J, Rank D, Redman JC, Steyert SR, Frimodt-M?ller J, Struve C, Petersen AM, Krogfelt KA, Nataro JP, Schadt EE, Waldor MK. Origins of the E. coli strain causing an outbreak of hemolytic–uremic syndrome in Germany., 2011, 365(8): 709–717.

[7] Margulies M, Egholm M, Altman WE, Attiya S, Bader JS, Bemben LA, Berka J, Braverman MS, Chen YJ, Chen ZT, Dewell SB, Du L, Fierro JM, Gomes XV, Godwin BC, He W, Helgesen S, Ho CH, Irzyk GP, Jando SC, Alenquer ML, Jarvie TP, Jirage KB, Kim JB, Knight JR, Lanza JR, Leamon JH, Lefkowitz SM, Lei M, Li J, Lohman KL, Lu H, Makhijani VB, McDade KE, McKenna MP, Myers EW, Nickerson E, Nobile JR, Plant R, Puc BP, Ronan MT, Roth GT, Sarkis GJ, Simons JF, Simpson JW, Srinivasan M, Tartaro KR, Tomasz A, Vogt KA, Volkmer GA, Wang SH, Wang Y, Weiner MP, Yu PG, Begley RF, Rothberg JM. Genome sequencing in microfabricated high-density picolitre reactors., 2005, 437(7057): 376–380.

[8] Bentley DR, Balasubramanian S, Swerdlow HP, Smith GP, Milton J, Brown CG, Hall KP, Evers DJ, Barnes CL, Bignell HR, Boutell JM, Bryant J, Carter RJ, Keira Cheetham R, Cox AJ, Ellis DJ, Flatbush MR, Gormley NA, Humphray SJ, Irving LJ, Karbelashvili MS, Kirk SM, Li H, Liu XH, Maisinger KS, Murray LJ, Obradovic B, Ost T, Parkinson ML, Pratt MR, Rasolonjatovo IM, Reed MT, Rigatti R, Rodighiero C, Ross MT, Sabot A, Sankar SV, Scally A, Schroth GP, Smith ME, Smith VP, Spiridou A, Torrance PE, Tzonev SS, Vermaas EH, Walter K, Wu XL, Zhang L, Alam MD, Anastasi C, Aniebo IC, Bailey DM, Bancarz IR, Banerjee S, Barbour SG, Baybayan PA, Benoit VA, Benson KF, Bevis C, Black PJ, Boodhun A, Brennan JS, Bridgham JA, Brown RC, Brown AA, Buermann DH, Bundu AA, Burrows JC, Carter NP, Castillo N, Chiara E Catenazzi M, Chang S, Neil Cooley R, Crake NR, Dada OO, Diakoumakos KD, Dominguez-Fernandez B, Earnshaw DJ, Egbujor UC, Elmore DW, Etchin SS, Ewan MR, Fedurco M, Fraser LJ, Fuentes Fajardo KV, Scott Furey W, George D, Gietzen KJ, Goddard CP, Golda GS, Granieri PA, Green DE, Gustafson DL, Hansen NF, Harnish K, Haudenschild CD, Heyer NI, Hims MM, Ho JT, Horgan AM, Hoschler K, Hurwitz S, Ivanov DV, Johnson MQ, James T, Huw Jones TA, Kang GD, Kerelska TH, Kersey AD, Khrebtukova I, Kindwall AP, Kingsbury Z, Kokko-Gonzales PI, Kumar A, Laurent MA, Lawley CT, Lee SE, Lee X, Liao AK, Loch JA, Lok M, Luo SJ, Mammen RM, Martin JW, McCauley PG, McNitt P, Mehta P, Moon KW, Mullens JW, Newington T, Ning ZM, Ling Ng B, Novo SM, O'Neill MJ, Osborne MA, Osnowski A, Ostadan O, Paraschos LL, Pickering L, Pike AC, Pike AC, Chris Pinkard D, Pliskin DP, Podhasky J, Quijano VJ, Raczy C, Rae VH, Rawlings SR, Chiva Rodriguez A, Roe PM, Rogers J, Rogert Bacigalupo MC, Romanov N, Romieu A, Roth RK, Rourke NJ, Ruediger ST, Rusman E, Sanches-Kuiper RM, Schenker MR, Seoane JM, Shaw RJ, Shiver MK, Short SW, Sizto NL, Sluis JP, Smith MA, Ernest Sohna Sohna J, Spence EJ, Stevens K, Sutton N, Szajkowski L, Tregidgo CL, Turcatti G, Vandevondele S, Verhovsky Y, Virk SM, Wakelin S, Walcott GC, Wang JW, Worsley GJ, Yan JY, Yau L, Zuerlein M, Rogers J, Mullikin JC, Hurles ME, McCooke NJ, West JS, Oaks FL, Lundberg PL, Klenerman D, Durbin R, Smith AJ. Accurate whole human genome sequencing using reversible terminator chemistry., 2008, 456(7218): 53–59.

[9] Valouev A, Ichikawa J, Tonthat T, Stuart J, Ranade S, Peckham H, Zeng K, Malek JA, Costa G, McKernan K, Sidow A, Fire A, Johnson SM. A high-resolution, nucleosome position map of C. elegans reveals a lack of universal sequence-dictated positioning., 2008, 18(7): 1051–1063.

[10] 楊曉玲, 施蘇華, 唐恬. 新一代測(cè)序技術(shù)的發(fā)展及應(yīng)用前景. 生物技術(shù)通報(bào), 2010, (10): 76–81.

[11] 1000 Genomes Project Consortium, Abecasis GR, Auton A, Brooks LD, DePristo MA, Durbin RM, Handsaker RE, Kang HM, Marth GT, McVean GA. An integrated map of genetic variation from 1, 092 human genomes., 2012, 491(7422): 56–65.

[12] Haussler D, O'Brien S J, Ryder OA, Barker FK, Clamp M, Crawford AJ, Hanner R, Hanotte O, Johnson WE, McGuire JA, Miller W, Murphy RW, Murphy WJ, Sheldon FH, Sinervo B, Venkatesh B, Wiley EO, Allendorf FW, Amato G, Baker CS, Bauer A, Beja-Pereira A, Bermingham E, Bernardi G, Bonvicino CR, Brenner S, Burke T, Cracraft J, Diekhans M, Edwards S, Ericson PG, Estes J, Fjelsda J, Flesness N, Gamble T, Gaubert P, Graphodatsky AS, Marshall Graves JA, Green ED, Green RE, Hackett S, Hebert P, Helgen KM, Joseph L, Kessing B, Kingsley DM, Lewin HA, Luikart G, Martelli P, Moreira MA, Nguyen N, Ortí G, Pike BL, Rawson DM, Schuster SC, Seuánez HN, Shaffer HB, Springer MS, Stuart JM, Sumner J, Teeling E, Vrijenhoek RC, Ward RD, Warren WC, Wayne R, Williams TM, Wolfe ND, Zhang YP. Genome 10K: a proposal to obtain whole-genome sequence for 10 000 vertebrate species., 2009, 100(6): 659–674.

[13] Shin SC, Ahn do H, Kim SJ, Lee H, Oh TJ, Lee JE, Park H. Advantages of single-molecule real-time sequencing in high-GC content genomes., 2013, 8(7): e68824.

[14] 李明爽, 趙敏. 第三代測(cè)序基本原理. 現(xiàn)代生物醫(yī)學(xué)進(jìn)展, 2012, 12(10): 1980–1982.

[15] Levene MJ, Korlach J, Turner SW, Foquet M, Craighead HG, Webb WW. Zero-mode waveguides for single-mol-ecule analysis at high concentrations., 2003, 299(5607): 682–686.

[16] Eid J, Fehr A, Gray J, Luong K, Lyle J, Otto G, Peluso P, Rank D, Baybayan P, Bettman B, Bibillo A, Bjornson K, Chaudhuri B, Christians F, Cicero R, Clark S, Dalal R, Dewinter A, Dixon J, Foquet M, Gaertner A, Hardenbol P, Heiner C, Hester K, Holden D, Kearns G, Kong XX, Kuse R, Lacroix Y, Lin S, Lundquist P, Ma CC, Marks P, Maxham M, Murphy D, Park I, Pham T, Phillips M, Roy J, Sebra R, Shen G, Sorenson J, Tomaney A, Travers K, Trulson M, Vieceli J, Wegener J, Wu D, Yang A, Zaccarin D, Zhao P, Zhong F, Korlach J, Turner S. Real-time DNA sequencing from single polymerase molecules., 2009, 323(5910): 133–138.

[17] Heiner C, Baybayan P, Wang S, Guo Y, Ashby M, Wilson J, Travers K, Chin J, Underwood J. Greater than 10 kb read lengths routine when sequencing with Pacific Biosciences’ XL release., 2013, 24(S): S43.

[18] Mosher JJ, Bowman B, Bernberg EL, Shevchenko O, Kan JJ, Korlach J, Kaplan LA. Improved performance of the PacBio SMRT technology for 16S rDNA sequencing., 2014, 104: 59–60.

[19] Sharon D, Tilgner H, Grubert F, Snyder M. A single-molecule long-read survey of the human transcriptome., 2013, 31(11): 1009–1014.

[20] Treutlein B, Gokce O, Quake SR, Südhof TC. Cartography of neurexin alternative splicing mapped by single-molecule long-read mRNA sequencing., 2014, 111(13): E1291-E1299.

[21] Aird D, Ross MG, Chen WS, Danielsson M, Fennell T, Russ C, Jaffe DB, Nusbaum C, Gnirke A. Analyzing and minimizing PCR amplification bias in Illumina sequencing libraries., 2011, 12(2): R18.

[22] Niu BF, Fu LM, Sun SL, Li WZ. Artificial and natural duplicates in pyrosequencing reads of metagenomic data., 2010, 11: 187.

[23] Dohm JC, Lottaz C, Borodina T, Himmelbauer H. Substantial biases in ultra-short read data sets from high- throughput DNA sequencing., 2008, 36(16): e105.

[24] Schadt EE, Turner S, Kasarskis A. A window into third- gen-eration sequencing., 2010, 19(R2): R227-R240.

[25] 劉巖, 吳秉銓. 第三代測(cè)序技術(shù): 單分子即時(shí)測(cè)序. 中華病理學(xué)雜志, 2011, 40(10): 718–720.

[26] Flusberg BA, Webster DR, Lee JH, Travers KJ, Olivares EC, Clark TA, Korlach J, Turner SW. Direct detection of DNA methylation during single-molecule, real-time sequencing., 2010, 7(6): 461–465.

[27] Kriaucionis S, Heintz N. The nuclear DNA base 5-hy-droxymethylcytosine is present in Purkinje neurons and the brain., 2009, 324(5929): 929–930.

[28] 張得芳, 馬秋月, 尹佟明, 夏濤. 第三代測(cè)序技術(shù)及其應(yīng)用. 中國(guó)生物工程雜志, 2013, 33(5): 125–131.

[29] Uemura S, Aitken CE, Korlach J, Flusberg BA, Turner SW, Puglisi JD. Real-time tRNA transit on single translating ribosomes at codon resolution., 2010, 464(7291): 1012–1017.

[30] Chin CS, Alexander DH, Marks P, Klammer AA, Drake J, Heiner C, Clum A, Copeland A, Huddleston J, Eichler EE, Turner SW, Korlach J. Nonhybrid, finished microbial genome assemblies from long-read SMRT sequencing data., 2013, 10(6): 563–569.

[31] Gnerre S, MacCallum I, Przybylski D, Ribeiro FJ, Burton JN, Walker BJ, Sharpe T, Hall G, Shea TP, Sykes S, Berlin AM, Aird D, Costello M, Daza R, Williams L, Nicol R, Gnirke A, N J Virol usbaum C, Lander ES, Jaffe DB. High-quality draft assemblies of mammalian genomes from massively parallel sequence data., 2011, 108(4): 1513–1518.

[32] Bashir A, Klammer AA, Robins WP, Chin CS, Webster D, Paxinos E, Hsu D, Ashby M, Wang S, Peluso P, Sebra R, Sorenson J, Bullard J, Yen J, Valdovino M, Mollova E, Luong K, Lin S, LaMay B, Joshi A, Rowe L, Frace M, Tarr CL, Turnsek M, Davis BM, Kasarskis A, Mekalanos JJ, Waldor MK, Schadt EE. A hybrid approach for the automated finishing of bacterial genomes., 2012, 30(7): 701–707.

[33] Chevreux B. MIRA: an automated genome and EST assembler[Ph. D. Thesis]. Duisburg: Heidelberg, 2005.

[34] Koren S, Schatz MC, Walenz BP, Martin J, Howard JT, Ganapathy G, Wang Z, Rasko DA, McCombie WR, Jarvis ED, Phillippy AM. Hybrid error correction and de novo assembly of single-molecule sequencing reads., 2012, 30(7): 693–700.

[35] Chaisson MJ, Tesler G. Mapping single molecule sequencing reads using basic local alignment with successive refinement (BLASR): application and theory., 2012, 13(1): 238.

[36] Au KF, Underwood JG, Lee L, Wong WH. Improving PacBio long read accuracy by short read alignment., 2012, 7(10): e46679.

[37] English AC, Richards S, Han Y, Wang M, Vee V, Qu JX, Qin X, Muzny DM, Reid JG, Worley KC, Gibbs RA. Mind the gap: upgrading genomes with Pacific Biosciences RS long-read sequencing technology., 2012, 7(11): e47768.

[38] Ono Y, Asai K, Hamada M. PBSIM: PacBio reads simulator—toward accurate genome assembly., 2013, 29(1): 119–121.

[39] Coupland P, Chandra T, Quail M, Reik W, Swerdlow H. Direct sequencing of small genomes on the Pacific Biosciences RS without library preparation., 2012, 53(6): 365–372.

[40] Youssef NH, Couger MB, Struchtemeyer CG, Liggenstoffer AS, Prade RA, Najar FZ, Atiyeh HK, Wilkins MR, Elshahed MS. The genome of the anaerobic fungussp. strain C1A reveals the unique evolutionary history of a remarkable plant biomass degrader., 2013, 79(15): 4620–4634.

[41] Schmuki MM, Erne D, Loessner MJ, Klumpp J. Bacteriophage P70: Unique morphology and unrelatedness to other Listeria bacteriophages., 2012, 86(23): 13099–13102.

[42] Carneiro MO, Russ C, Ross MG, Gabriel SB, Nusbaum C, DePristo MA. Pacific biosciences sequencing technology for genotyping and variation discovery in human data., 2012, 13(1): 375.

[43] Loomis EW, Eid JS, Peluso P, Yin J, Hickey L, Rank D, McCalmon S, Hagerman RJ, Tassone F, Hagerman PJ. Sequencing the unsequenceable: Expanded CGG-repeat alleles of the fragile X gene., 2013, 23(1): 121–128.

[44] Song CX, Clark TA, Lu XY, Kislyuk A, Dai Q, Turner SW, He C, Korlach J. Sensitive and specific single-molecule sequencing of 5-hydroxymethylcytosine., 2012, 9(1): 75–77.

[45] Fang G, Munera D, Friedman DI, Mandlik A, Chao MC, Banerjee O, Feng ZX, Losic B, Mahajan MC, Jabado OJ, Deikus G, Clark TA, Luong K, Murray IA, Davis BM, Keren-Paz A, Chess A, Roberts RJ, Korlach J, Turner SW, Kumar V, Waldor MK, Schadt EE. Genome-wide mapping of methylated adenine residues in pathogenic Escherichia coli using single-molecule real-time sequencing., 2012, 30(12): 1232–1239.

[46] Schadt EE, Banerjee O, Fang G, Feng ZX, Wong WH, Zhang XG, Kislyuk A, Clark TA, Luong K, Keren-Paz A, Chess A, Kumar V, Chen-Plotkin A, Sondheimer N, Korlach J, Kasarskis A. Modeling kinetic rate variation in third generation DNA sequencing data to detect putative modifications to DNA bases., 2013, 23(1): 129–141.

[47] Lluch-Senar M, Luong K, Lloréns-Rico V, Delgado J, Fang G, Spittle K, Clark TA, Schadt E, Turner SW, Korlach J, Serrano L. Comprehensive methylome characterization ofat single-base resolution., 2013, 9(1): e1003191.

[48] Vilfan ID, Tsai YC, Clark TA, Wegener J, Dai Q, Yi CQ, Pan T, Turner SW, Korlach J. Analysis of RNA base modification and structural rearrangement by single-molecule real-time detection of reverse transcription., 2013, 11(1): 8.

[49] Ocwieja KE, Sherrill-Mix S, Mukherjee R, Custers-Allen R, David P, Brown M, Wang S, Link DR, Olson J, Travers K, Schadt E, Bushman FD. Dynamic regulation of HIV-1 mRNA populations analyzed by single-molecule enrichment and long-read sequencing., 2012, 40(20): 10345–10355.

[50] Li QS, Li Y, Song JY, Xu HB, Xu J, Zhu YJ, Li XW, Gao HH, Dong LL, Qian J, Sun C, Chen SL. High-accuracy de novo assembly and SNP detection of chloroplast genomes using a SMRT circular consensus sequencing strategy., 2014, 204(4): 1041–1049.

[51] Ferrarini M, Moretto M, Ward JA, ?urbanovski N, Stevanovi? V, Giongo L, Viola R, Cavalieri D, Velasco R, Cestaro A, Sargent DJ. An evaluation of the PacBio RS platform for sequencing and de novo assembly of a chloroplast genome., 2013, 14(1): 670.

[52] Murray IA, Clark TA, Morgan RD, Boitano M, Anton BP, Luong K, Fomenkov A, Turner SW, Korlach J, Roberts RJ. The methylomes of six bacteria., 2012, 40(22): 11450–11462.

[53] 王興春, 楊致榮, 王敏, 李瑋, 李生才. 高通量測(cè)序技術(shù)及其應(yīng)用. 中國(guó)生物工程雜志, 2012, 32(1): 109–114.

[54] Harris TD, Buzby PR, Babcock H, Beer E, Bowers J, Braslavsky I, Causey M, Colonell J, DiMeo J, Efcavitch JW, Giladi E, Gill J, Healy J, Jarosz M, Lapen D, Moulton K, Quake SR, Steinmann K, Thayer E, Tyurina A, Ward R, Weiss H, Xie Z. Single-molecule DNA sequencing of a viral genome., 2008, 320(5872): 106–109.

(責(zé)任編委: 胡松年)

The principle and application of the single-molecule real-time sequencing technology

Yanhu Liu1, Lu Wang1,2, Li Yu1,2

Last decade witnessed the explosive development of the third-generation sequencing strategy, including single-molecule real-time sequencing (SMRT), true single-molecule sequencing (tSMSTM) and the single-molecule nanopore DNA sequencing. In this review, we summarize the principle, performance and application of the SMRT sequencing technology. Compared with the traditional Sanger method and the next-generation sequencing (NGS) technologies, the SMRT approach has several advantages, including long read length, high speed, PCR-free and the capability of direct detection of epigenetic modi?cations. However, the disadvantage of its low accuracy, most of which resulted from insertions and deletions, is also notable. So, the raw sequence data need to be corrected before assembly. Up to now, the SMRT is a good fit for applications in thegenomic sequencing and the high-quality assemblies of small genomes. In the future, it is expected to play an important role in epigenetics, transcriptomic sequencing, and assemblies of large genomes.

single molecule sequencing; PacBio; SMRT sequencing

2014-09-25;

2014-12-01

國(guó)家自然科學(xué)基金重大研究計(jì)劃項(xiàng)目(編號(hào):91131904)和中國(guó)科學(xué)院昆明動(dòng)物研究所遺傳資源與進(jìn)化國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放課題(編號(hào):GREKF14-04)資助

柳延虎,博士研究生,研究方向:基因組學(xué)。E-mail: liuyanhu005@163.com

于黎,研究員,博士生導(dǎo)師,研究方向:動(dòng)物遺傳與進(jìn)化。E-mail: yuli-1220@163.com王璐,助理研究員,研究方向:基因組學(xué)。E-mail: wanglu@ynu.edu.cn

致 謝: 感謝王國(guó)棟在文章寫作和修改過(guò)程中的指導(dǎo)和寶貴意見(jiàn),感謝陳岳工程師在文章寫作過(guò)程中給予的幫助。

10.16288/j.yczz.14-323

2015-1-19 16:51:26

http://www.cnki.net/kcms/detail/11.1913.R.20150119.1651.002.html

猜你喜歡
堿基基因組測(cè)序
杰 Sir 帶你認(rèn)識(shí)宏基因二代測(cè)序(mNGS)
新民周刊(2022年27期)2022-08-01 07:04:49
牛參考基因組中發(fā)現(xiàn)被忽視基因
二代測(cè)序協(xié)助診斷AIDS合并馬爾尼菲籃狀菌腦膜炎1例
傳染病信息(2021年6期)2021-02-12 01:52:58
應(yīng)用思維進(jìn)階構(gòu)建模型 例談培養(yǎng)學(xué)生創(chuàng)造性思維
中國(guó)科學(xué)家創(chuàng)建出新型糖基化酶堿基編輯器
生命“字母表”迎來(lái)4名新成員
生命“字母表”迎來(lái)4名新成員
基因捕獲測(cè)序診斷血癌
單細(xì)胞測(cè)序技術(shù)研究進(jìn)展
基因組DNA甲基化及組蛋白甲基化
遺傳(2014年3期)2014-02-28 20:58:49
云梦县| 徐水县| 从化市| 互助| 嵊州市| 蕲春县| 全南县| 炉霍县| 德保县| 滨海县| 玉屏| 古田县| 井陉县| 龙南县| 罗定市| 旺苍县| 重庆市| 沁水县| 大同县| 龙山县| 金华市| 凤阳县| 图们市| 佛教| 城口县| 巴东县| 金华市| 铜川市| 连城县| 八宿县| 香港| 察隅县| 芜湖市| 筠连县| 太原市| 泌阳县| 定日县| 堆龙德庆县| 昌吉市| 阳曲县| 静宁县|