陶婧芬 謝婷 鄭覺(jué)非 楊慶勇 張紅雨
DNA是生物體遺傳信息的主要載體,高質(zhì)量的基因組參考序列是現(xiàn)代遺傳學(xué)、分子生物學(xué)等現(xiàn)代生物學(xué)科的重要基礎(chǔ)。因此,基因組測(cè)序?qū)μ剿髋c認(rèn)識(shí)生命本質(zhì)等基礎(chǔ)生物科學(xué)研究、人類重要遺傳病防治及動(dòng)植物遺傳育種等應(yīng)用性研究均具有十分重要的意義。
基于二代測(cè)序技術(shù),又稱下一代測(cè)序技術(shù)(Next generation sequencing,NGS)的全基因組測(cè)序工程一般包含兩個(gè)部分:拼接和組裝,前者是將二代測(cè)序技術(shù)產(chǎn)生的DNA測(cè)序片段(Reads)拼接成小的重疊群(Contigs)的過(guò)程,后者是將拼接階段產(chǎn)生的重疊群組裝成長(zhǎng)序列片段(Scaffolds),以及將長(zhǎng)序列片段定位到染色體上的過(guò)程。伴隨著DNA測(cè)序技術(shù)的不斷推陳出新[1]和單位測(cè)序成本的大幅度降低[2],如何準(zhǔn)確、高效、快速地將scaffolds定位到染色體上逐漸成為高質(zhì)量全基因組序列獲得的主要挑戰(zhàn)。
得益于DNA測(cè)序技術(shù)飛速發(fā)展,不斷有新的物種基因組被測(cè)序,繼而由測(cè)序的片段組裝出相對(duì)完整的基因組序列。現(xiàn)有的基因組測(cè)序工程主要借助于全基因組鳥(niǎo)槍法(Whole genome shotgun,WGS)的策略[3],其原理是將基因組打斷成小片段,隨后將片段克隆到載體上組建重組克隆群并測(cè)序以獲得用于組裝的序列。這種方法克服了大片段克隆分別測(cè)序(Clone-by-clone,CBC)策略難以分離并克隆著絲粒等區(qū)域的缺陷。隨著高通量測(cè)序技術(shù)的發(fā)展,WGS策略以更低的成本以及更高的效率成為近年來(lái)大多數(shù)測(cè)序工程的首選。截止到現(xiàn)在,GenBank中采用WGS方法進(jìn)行測(cè)序組裝的項(xiàng)目已有42 925個(gè)(http://www.ncbi.nlm.nih.gov/assembly/,統(tǒng)計(jì)日期:2015年7月20日)。
盡管在測(cè)序和拼接技術(shù)日趨完善的今天,絕大多數(shù)物種的組裝結(jié)果仍然不夠完整且存在不少組裝錯(cuò)誤[4],并且很多已被測(cè)序物種的參考序列信息仍以零散的序列片段的形式存在。NCBI中的數(shù)據(jù)統(tǒng)計(jì)顯示(http://www.ncbi.nlm.nih.gov/assembly/,統(tǒng)計(jì)日期:2015年7月27日),僅有26.6%的植物、12.0%的動(dòng)物和15.4%的真菌基因組完成了染色體水平的組裝(表1)。由此可見(jiàn),基因組組裝大多僅僅停留在長(zhǎng)序列片段(BAC和/或scaffolds,下文統(tǒng)稱為scaffolds)的水平,而確定scaffolds在染色體上的具體位置逐漸成為染色體水平的參考序列獲得的限制環(huán)節(jié)。
表1 植物、動(dòng)物、真菌中基因組組裝情況
傳統(tǒng)的scaffolds錨位方法主要分為兩個(gè)大類,基于物理圖譜的方法和基于遺傳圖譜的方法。前者是通過(guò)序列或序列特征的重疊關(guān)系來(lái)確定DNA片段的位置,后者是利用減數(shù)分裂時(shí)期的姊妹染色單體聯(lián)會(huì)后不同DNA片段共交換的頻率來(lái)判斷DNA片段的相對(duì)位置。由于這兩類方法都包含大規(guī)模文庫(kù)或群體構(gòu)建、篩選等一系列復(fù)雜的實(shí)驗(yàn)過(guò)程,其所需成本、結(jié)果的精度、準(zhǔn)確性等在很大程度取決于實(shí)驗(yàn)的設(shè)計(jì)和實(shí)施,在實(shí)際的scaffolds錨位的過(guò)程中主要存在以下難點(diǎn)。
1.2.1 大片段文庫(kù)構(gòu)建難度大 構(gòu)建大片段的BAC文庫(kù)是基于物理圖譜錨位scaffolds方法的限制性環(huán)節(jié)。而傳統(tǒng)的基于遺傳圖譜錨位scaffolds的方法對(duì)片段長(zhǎng)度(如scaffolds N50)要求較高,為了提高scaffolds的長(zhǎng)度,一般需要構(gòu)建大片段mate pair測(cè)序文庫(kù)。大片段文庫(kù)構(gòu)建的整個(gè)操作流程相比普通實(shí)驗(yàn)更復(fù)雜且對(duì)實(shí)驗(yàn)經(jīng)驗(yàn)的要求更高[5]。在文庫(kù)構(gòu)建過(guò)程中將基因組片段插入載體中,不同物種基因組的重復(fù)度高低等指標(biāo)會(huì)影響大片段文庫(kù)插入片段長(zhǎng)度的目標(biāo)值;而插入片段越長(zhǎng)、連接率越低、構(gòu)建成功率則越低;再者,隨著插入片段的增大,文庫(kù)冗余率的升高等均會(huì)影響大片段文庫(kù)最終有效數(shù)據(jù)的產(chǎn)出。因此,對(duì)于大部分分子生物學(xué)實(shí)驗(yàn)室,都不具備構(gòu)建高質(zhì)量、低冗余率大片段文庫(kù)的技術(shù)條件,目前該系列實(shí)驗(yàn)仍存在諸多困難。
1.2.2 成本較高 一方面,傳統(tǒng)的scaffolds錨位方法通常需要構(gòu)建遺傳群體或者基因組文庫(kù)。對(duì)于植物來(lái)說(shuō),其生長(zhǎng)周期一般都超過(guò)3個(gè)月甚至更長(zhǎng),并且經(jīng)常受制于種植季節(jié),構(gòu)建作圖群體一般就需要1-2年,整個(gè)過(guò)程將會(huì)消耗更多的時(shí)間。另一方面,傳統(tǒng)的組裝方法在前期進(jìn)行大規(guī)模的實(shí)驗(yàn),這需要消耗大量的人力成本和物力成本來(lái)建立遺傳分離群體和標(biāo)記基因型分析。特別是為了提高定位精度,需要進(jìn)一步提高有效標(biāo)記密度時(shí)(即獲得更多的交換單株),隨著作圖遺傳群體的擴(kuò)大,需要消耗大量的人力物力[6]。
1.2.3 誤差偏高 傳統(tǒng)的scaffolds錨位方法一般涉及大規(guī)模田間種植和分子生物學(xué)實(shí)驗(yàn),在復(fù)雜繁瑣的實(shí)驗(yàn)過(guò)程中,多個(gè)環(huán)節(jié)實(shí)驗(yàn)不可避免地導(dǎo)致實(shí)驗(yàn)誤差和隨機(jī)偏差的積累,同時(shí)也更容易引入人為誤差和系統(tǒng)誤差。
染色質(zhì)構(gòu)象捕獲(Chromosome conformation capture,3C)技術(shù)原本用于研究基因表達(dá)時(shí)染色質(zhì)的空間構(gòu)象[7]。該技術(shù)利用了連接反應(yīng)傾向于發(fā)生在物理上相互靠近的DNA片段之間(即鄰近連接原則),然后利用PCR對(duì)模板數(shù)量的敏感性,迅速準(zhǔn)確地抓出與目標(biāo)區(qū)域相互靠近的DNA片段。
Hi-C(High-throughput chromosome conformation capture)技術(shù)是由3C[6]技術(shù)發(fā)展而來(lái),結(jié)合了生物素標(biāo)記篩選和二代測(cè)序技術(shù),通過(guò)交聯(lián)、酶切、連接等步驟,實(shí)現(xiàn)全基因組范圍內(nèi)染色質(zhì)交互的高通量檢測(cè)。2009年,Job Dekker的研究小組在3C技術(shù)的基礎(chǔ)上開(kāi)發(fā)出全基因組范圍的染色質(zhì)構(gòu)象捕獲技術(shù)(Hi-C),獲得了分辨率為1 Mb的交互圖譜并模建出核內(nèi)染色質(zhì)的三維立體模型[8]。研究人員通過(guò)化學(xué)手段固定住蛋白與核酸或蛋白與蛋白之間的接觸。隨后將DNA片段化,并將相互聯(lián)系的DNA連接在一起。最終對(duì)所有區(qū)域間的接觸次數(shù)進(jìn)行統(tǒng)計(jì),繪制出交互矩陣,便可估算出三維狀態(tài)下任意兩個(gè)區(qū)域相隔距離。
目前,染色質(zhì)交互數(shù)據(jù)在酵母、人類、小鼠、果蠅和擬南芥等物種中均有過(guò)報(bào)道。其中人類的染色質(zhì)交互數(shù)據(jù)達(dá)到了1 kb的分辨率[9],精細(xì)程度深入到了單基因水平。
Hi-C技術(shù)傳統(tǒng)應(yīng)用于研究與特定蛋白質(zhì)因子作用的染色質(zhì)組和全基因組范圍內(nèi)染色質(zhì)組的互作[10]。同時(shí),Hi-C產(chǎn)生了大量的染色質(zhì)交互數(shù)據(jù),根據(jù)這些染色質(zhì)交互數(shù)據(jù),可以重建染色質(zhì)的三維結(jié)構(gòu)[11]。真核生物的基因組在細(xì)胞核中以染色質(zhì)的形式存在,基因組的復(fù)制、轉(zhuǎn)錄、調(diào)控、DNA突變、長(zhǎng)鏈非編碼RNA的傳播和胚胎發(fā)育等生物功能與其三維結(jié)構(gòu)密切相關(guān)[12]。三維結(jié)構(gòu)的重建,為我們更加系統(tǒng)地了解染色質(zhì)的調(diào)控功能提供結(jié)構(gòu)依據(jù)[13]。
此外,Hi-C技術(shù)所揭示的染色質(zhì)片段間的交互強(qiáng)度呈現(xiàn)出隨距離衰減的規(guī)律[8]。正是這一規(guī)律,催生出了“基于Hi-C技術(shù)組裝基因組”這一新的研究領(lǐng)域。與傳統(tǒng)的遺傳定律相類似,這一規(guī)律可以用來(lái)判斷scaffolds的分群及相鄰關(guān)系。具體而言,“染色體內(nèi)交互高于染色體間交互”可以指導(dǎo)核酸片段的染色質(zhì)分群,“同一染色體上近程交互高于遠(yuǎn)程交互”則可以引導(dǎo)核酸片段的排序和定向。
目前Hi-C技術(shù)應(yīng)用于基因組組裝的物種主要包括人類、小鼠、果蠅、擬南芥、酵母以及其他微生物和微生物群落。2013年,Job Dekker等人[14]通過(guò)整合Hi-C數(shù)據(jù)、鳥(niǎo)槍法測(cè)序序列以及短序配對(duì)(Short jump mate-pair)文庫(kù)序列定位了人類基因組中65個(gè)尚未錨定到染色體上的重疊群,與其他方法得出的結(jié)果有83.78%相吻合。其中掛載到染色體的準(zhǔn)確率為99.80%。Burton等[15]將這種方法應(yīng)用到了人、小鼠和果蠅的全基因組de novo組裝當(dāng)中,占人類和小鼠序列總長(zhǎng)超過(guò)98%的scaffolds被用于分組、排序和定向,正確率達(dá)到90%以上。在果蠅中,雖然原始鳥(niǎo)槍法得到的scaffolds 質(zhì)量與人類和小鼠相比較差,分組和排序的scaffolds利用率能達(dá)到81.2%和82.0%,scaffolds定向的正確率高達(dá)93.9%。Marie-Nelly等[16]用這種方法填補(bǔ)釀酒酵母基因組組裝中的缺口(gap),隨后又用它來(lái)組裝里氏木霉菌基因組。Burton小組[17]將Hi-C技術(shù)與宏基因組學(xué)相結(jié)合,在微生物群落的物種鑒別以及單個(gè)物種基因組組裝上都取得了很好的效果。而Putnam等[3]利用體外模擬體內(nèi)DNA互作獲取的染色質(zhì)信息組裝美國(guó)短吻鱷基因組,其中,在人類中68.9%測(cè)序讀長(zhǎng)的比對(duì)質(zhì)量超過(guò)了20;在美國(guó)短吻鱷中1298個(gè)測(cè)序讀長(zhǎng)覆蓋度達(dá)到90%,一致性達(dá)到95%,都取得了較好的應(yīng)用(表2)。
本課題組利用此方法來(lái)組裝擬南芥基因組。利用有效的Hi-C交互數(shù)據(jù),將總長(zhǎng)度為112.61 Mb的 1705個(gè) scaffolds[18]進(jìn)行分群,其中 1350個(gè)scaffolds(占總長(zhǎng)的97.12%)能夠被準(zhǔn)確地分配到其相應(yīng)的染色體上?;谌旧w局部交互信息,對(duì)551個(gè)的scaffolds進(jìn)行了排序和方向確定,其中516個(gè)(占總長(zhǎng)的92.29%)scaffolds能夠被準(zhǔn)確排序和確定方向[19]。
表2 Hi-C數(shù)據(jù)從頭組裝基因組結(jié)果匯總
現(xiàn)有的獲取染色質(zhì)體內(nèi)交互數(shù)據(jù)的技術(shù)有很多,都是基于染色質(zhì)構(gòu)象捕獲技術(shù)(3C)發(fā)展而來(lái),而應(yīng)用于組裝最多的是Hi-C技術(shù)。Hi-C實(shí)驗(yàn)主要的原理是甲醛能在常溫下與氨基或羥基發(fā)生化學(xué)反應(yīng),將蛋白與DNA或蛋白與蛋白之間的物理接觸“固定”下來(lái)。Hi-C技術(shù)的大致流程為:通過(guò)甲醛交聯(lián)固定,將細(xì)胞內(nèi)由蛋白質(zhì)介導(dǎo)的空間上鄰近的染色質(zhì)片段進(jìn)行共價(jià)連接。甲醛交聯(lián)后加入特定的限制性內(nèi)切酶進(jìn)行酶切。酶切后的黏性末端利用核苷酸補(bǔ)平,用于補(bǔ)平的其中一種核苷酸(如C)用生物素標(biāo)記。之后在非常稀釋的環(huán)境中,加入連接酶連接平末端形成分子內(nèi)連接,原有的酶切位點(diǎn)丟失,取而代之的是新的酶切位點(diǎn)。最后將連接的DNA進(jìn)行純化后超聲破碎,并用生物素親和層析將生物素化的DNA片段分離出來(lái),加上接頭通過(guò)高通量雙末端測(cè)序檢測(cè)交互的 DNA片段[8]。
圖1 Hi-C測(cè)定染色質(zhì)交互的基本原理及技術(shù)流程[8]
3.2.1 數(shù)據(jù)的比對(duì)、去噪和校正 Hi-C實(shí)驗(yàn)得到的原始染色體交互數(shù)據(jù)中具有大量的噪聲,因此,在基因組組裝前必須對(duì)原始數(shù)據(jù)進(jìn)行處理。通過(guò)測(cè)序平臺(tái)獲得的原始交互數(shù)據(jù)是雙端測(cè)序數(shù)據(jù),即pairend reads。與其他二代測(cè)序?qū)嶒?yàn)一樣,必須先檢測(cè)測(cè)序的質(zhì)量。因?yàn)閷?shí)驗(yàn)操作中可能因?yàn)闂l件控制而導(dǎo)致實(shí)驗(yàn)差錯(cuò),對(duì)于建庫(kù)測(cè)序的結(jié)果,需要用相關(guān)的測(cè)序數(shù)據(jù)質(zhì)量控制軟件(如FastQC)衡量數(shù)據(jù)的可利用性。
在確定獲取的數(shù)據(jù)質(zhì)量之后,需要將雙端測(cè)序結(jié)果比對(duì)到參考基因組上??芍苯邮褂枚绦蛄斜葘?duì)軟件設(shè)置相關(guān)參數(shù)進(jìn)行比對(duì),也可以運(yùn)用迭代增加mapping reads長(zhǎng)度的比對(duì)算法[20],以便最大限度增加數(shù)據(jù)的利用率。
最后,Hi-C實(shí)驗(yàn)的各個(gè)操作步驟會(huì)引入各種各樣的噪聲,包括PCR重復(fù)、隨機(jī)打斷、自連接、隨機(jī)連接等[20-22],所以必須根據(jù)數(shù)據(jù)特征對(duì)這些噪聲進(jìn)行過(guò)濾。同時(shí),序列本身的特征如GC含量、酶切位點(diǎn)頻率[20,21]等都會(huì)對(duì)交互數(shù)據(jù)產(chǎn)生影響,因此通常還要對(duì)得到的原始交互數(shù)據(jù)進(jìn)行迭代校正(Iterative correction and eigenvector decomposition,ICE)[20]。通過(guò)上述質(zhì)量控制步驟后,我們可獲得用于基因組組裝的Hi-C交互數(shù)據(jù)。
3.2.2 構(gòu)建交互矩陣和掛載scaffolds 利用去噪校正之后的交互數(shù)據(jù),構(gòu)建染色質(zhì)交互矩陣。如果有兩個(gè)以上技術(shù)重復(fù),還需要檢驗(yàn)交互矩陣的皮爾森相關(guān)性。
針對(duì)其染色質(zhì)三維空間結(jié)構(gòu)特征,選取合適的聚類模型將未定位scaffolds錨定到染色體上,并采用相應(yīng)的排序算法確定掛載scaffolds的正確順序和方向,組裝出染色體水平的全基因組序列(圖2)。目前基于染色質(zhì)交互數(shù)據(jù)進(jìn)行基因組組裝的幾個(gè)軟件都是按染色質(zhì)三維空間交互規(guī)律開(kāi)發(fā)的(表3),每個(gè)軟件在分組、排序和定向中采用的算法不同,使得不同軟件的參數(shù)設(shè)置也有所區(qū)別。研究者在基因組組裝過(guò)程中需要根據(jù)自身研究目標(biāo)和數(shù)據(jù)特征來(lái)選擇不同的組裝軟件。
與傳統(tǒng)的組裝方法相比,基于染色質(zhì)交互數(shù)據(jù)確定scaffolds在染色質(zhì)上的具體位置具有以下三個(gè)方面的優(yōu)勢(shì):
圖2 利用染色質(zhì)交互組裝基因組示意圖(以LACHESIS軟件為例[15],有改動(dòng))
表3 基因組裝的相關(guān)軟件對(duì)比
(1)利用染色質(zhì)交互的reads分布來(lái)判定scaffolds的相對(duì)位置,具有更高覆蓋率和特異性。基于染色質(zhì)交互的組裝方法的reads長(zhǎng)度是一般遺傳標(biāo)記的4-5倍,這使得其具有更高的位點(diǎn)特異性。此外,利用全局染色質(zhì)捕獲技術(shù)能獲取所有的scaffolds片段的交互信息,因此絕大部分scaffolds都能被組裝。
(2)基于單一株系染色質(zhì)交互規(guī)律的組裝方法,是利用scaffolds在體內(nèi)染色質(zhì)相互作用的分布特征來(lái)判定染色體片段之間的鄰接關(guān)系,比利用親本后代遺傳連鎖交互的組裝方法更為直接和可靠。同時(shí),它避免了繁瑣的群體構(gòu)建工作,在極大程度上減少了實(shí)驗(yàn)誤差、系統(tǒng)偏差及機(jī)械混雜等不可控因素的干擾。
(3)基于染色質(zhì)交互的組裝方法要求的基礎(chǔ)數(shù)據(jù)為進(jìn)行基因組測(cè)序材料的單一株系Hi-C交互數(shù)據(jù),整個(gè)過(guò)程無(wú)需構(gòu)建龐大的遺傳群體和進(jìn)行大規(guī)模的基因型分型工作。相比之下,Hi-C技術(shù)實(shí)驗(yàn)周期短、實(shí)驗(yàn)規(guī)模小,節(jié)約了時(shí)間和成本。
由于Hi-C技術(shù)是以二代測(cè)序?yàn)榛A(chǔ)的,在基于交互組裝基因組的過(guò)程中,二代測(cè)序技術(shù)中存在的偏好和問(wèn)題很有可能被引入到基因組組裝過(guò)程中。首先,位于著絲粒和端粒附近的序列往往是高度重復(fù)的,二代測(cè)序從根本上是無(wú)法確定其具體的序列信息的,也就很難對(duì)其完成組裝。也就是說(shuō)基于交互組裝基因組只能在原有的基礎(chǔ)上提高基因組組裝的正確率和完成率,而無(wú)法使其達(dá)到100%。其次,由于Hi-C技術(shù)本身分辨率的限制,使得組裝無(wú)法更加精細(xì),這一缺點(diǎn)有望在原位Hi-C中得到改進(jìn)。再者,基于染色質(zhì)交互組裝基因組方法的主要理論基礎(chǔ)是“近程交互高于遠(yuǎn)程交互”這個(gè)一般性、全局性的規(guī)律,而事實(shí)上在特定的小區(qū)域(如著絲粒、斷離及拓?fù)湎嚓P(guān)結(jié)構(gòu)域(Topologically associating domain,TAD)等,這一規(guī)律并不總是成立[23]。綜上所述,在scaffolds片段較?。ǎ?5 kb)、高度重復(fù)序列區(qū)域等因素都可能直接導(dǎo)致scaffolds錨位準(zhǔn)確性和覆蓋率降低。
染色質(zhì)構(gòu)象捕獲技術(shù)表明,高等生物細(xì)胞核內(nèi)染色質(zhì)片段間的交互不是隨機(jī)、雜亂無(wú)章的,而是遵循著“染色體內(nèi)交互高于染色體間交互,近程交互高于遠(yuǎn)程交互”這一基本規(guī)律的。從生物學(xué)意義上講,這一規(guī)律反映了高等生物染色體三維結(jié)構(gòu)形成的內(nèi)在模式;在本文中我們展現(xiàn)了將這一規(guī)律應(yīng)用于基因組組裝的潛力?;贖i-C技術(shù)進(jìn)行基因組組裝的方法具有實(shí)驗(yàn)操作簡(jiǎn)單、周期短、成本低的優(yōu)點(diǎn),能夠在有限的人力物力條件下獲得高覆蓋率和準(zhǔn)確率的參考基因組。即使與目前正在興起的三代測(cè)序相比,該方法在成本上仍然具有相當(dāng)?shù)膬?yōu)勢(shì)。
相比傳統(tǒng)的基因組組裝的方法,以染色質(zhì)相互作用為基礎(chǔ)的組裝擁有較高的特異性和不依賴于遺傳群體等特點(diǎn),可能更適合復(fù)雜的基因組組裝。同時(shí),Hi-C實(shí)驗(yàn)簡(jiǎn)單并且有較短的時(shí)間周期和較低的成本,這使得基于染色質(zhì)交互的組裝方法有望獲得更廣泛的應(yīng)用。因此,基于染色質(zhì)交互組裝的方法在實(shí)驗(yàn)設(shè)計(jì)、測(cè)序策略及算法等層面都存在較大的發(fā)展空間。
基于染色質(zhì)交互的組裝方法從DNA片段交互頻率與染色體內(nèi)部結(jié)構(gòu)之間的關(guān)系出發(fā),避免了群體規(guī)模和交換頻率這兩個(gè)問(wèn)題,可以與遺傳圖譜方法互相補(bǔ)充,并且極大地節(jié)省了時(shí)間和成本。與經(jīng)典可靠的物理圖譜組裝方法相比,基于交互數(shù)據(jù)組裝基因組在實(shí)驗(yàn)規(guī)模、時(shí)間消耗和人力物力等方面均遠(yuǎn)遠(yuǎn)小于物理圖譜方法。結(jié)合該方法的優(yōu)勢(shì),我們認(rèn)為基于染色質(zhì)交互數(shù)據(jù)的組裝方法可在以下四個(gè)方面獲得較大應(yīng)用前景。
第一,測(cè)序基因組的進(jìn)一步完善。目前最為常用的是使用遺傳連鎖圖來(lái)掛載和確定contigs/scaffolds的染色體位置,但受限于物種群體規(guī)模和交換頻率,仍然有許多contigs/scaffolds不能確定染色體位置,因此,繼續(xù)使用遺傳圖譜方法來(lái)確定這部分序列將會(huì)花費(fèi)巨大人力和物力。而利用基于染色質(zhì)交互數(shù)據(jù)的方法,可用于掛載未掛載到染色體上的scaffolds的錨位和方向確定,從而提高已測(cè)序完成的基因組參考序列的完整性。
第二,高度雜合的植物基因組從頭組裝和完善。由于多年生物種的雜合度高,群體的構(gòu)建具有很大的困難,這就限制了基于遺傳連鎖圖譜掛載scaffolds的可行性、精度和準(zhǔn)確性。而基于染色質(zhì)交互組裝的方法不依賴于遺傳群體,僅需測(cè)序親本的少量組織樣品即可開(kāi)展。因此,我們認(rèn)為這種不依賴遺傳群體的方法能應(yīng)用于雜合度較高的植物基因組組裝和完善中,并能獲得更加真實(shí)和完整的參考序列。
第三,多倍體物種基因組的進(jìn)一步完善。經(jīng)典的基于遺傳圖譜掛載染色體的方法主要是通過(guò)SSR或SNP探針等遺傳標(biāo)記來(lái)反映同源染色體之間的遺傳交換,然后利用標(biāo)記之間的遺傳連鎖關(guān)系來(lái)判斷染色體片段的相鄰關(guān)系。而基于Hi-C的方法是利用reads之間交互的強(qiáng)弱來(lái)判斷其染色體片段的相鄰關(guān)系。相比前者,基于Hi-C的方法的reads長(zhǎng)度是SSR、SNP等遺傳標(biāo)記的4-5倍,這使得其具有更高的位點(diǎn)特異性。因此,我們認(rèn)為這種高特異性的方法應(yīng)用在基因組相對(duì)復(fù)雜,多倍體現(xiàn)象十分普遍的物種、尤其是植物中具有更大的優(yōu)勢(shì)。
第四,具有重要科研、生態(tài)價(jià)值或區(qū)域特色的小眾物種的基因組從頭組裝和完善??紤]到小眾物種的科研群體較小、可用于全基因組測(cè)序的科研經(jīng)費(fèi)有限,而基于染色質(zhì)交互組裝的方法成本較低,該方法的應(yīng)用可節(jié)約高密度遺傳連鎖圖譜構(gòu)建的成本。
由于基于染色質(zhì)交互組裝基因組的研究尚處于起步階段,目前僅限于少數(shù)模式物種中。因此要充分發(fā)揮該方法在基因組組裝的作用,需要從以下三個(gè)方面著手,進(jìn)一步優(yōu)化、整合和完善組裝方法。
第一,高分辨率、高質(zhì)量染色質(zhì)交互數(shù)據(jù)的獲取。染色質(zhì)交互數(shù)據(jù)是該組裝方法的基礎(chǔ),其質(zhì)量的好壞、精度的高低直接制約著基因組組裝的準(zhǔn)確性和覆蓋率。因此,針對(duì)特定物種,應(yīng)該在染色質(zhì)空間構(gòu)象捕獲實(shí)驗(yàn)的準(zhǔn)確性、精度等多個(gè)層面進(jìn)行努力。如最近發(fā)表在Cell雜志上的通過(guò)一種名為原位Hi-C(in situ Hi-C)的方法,測(cè)定了人類淋巴母細(xì)胞株(GM12878)的全局染色質(zhì)交互,分辨率高達(dá)1 kb[9]。這種原位的方法,使DNA在連接期間仍保留在細(xì)胞核內(nèi),而不是被釋放到溶液中,顯著降低了DNA片段隨機(jī)連接的可能性[9]。
第二,與傳統(tǒng)及新興的大片段文庫(kù)構(gòu)建技術(shù)、第三代測(cè)序相結(jié)合,獲取高質(zhì)量的長(zhǎng)片段scaffolds。這不僅能提高染色質(zhì)交互數(shù)據(jù)的精度,還能提高基因組組裝的完整性,同時(shí)可減少組裝錯(cuò)誤。例如,將基于染色質(zhì)互作的組裝方法與大片段文庫(kù)構(gòu)建的策略,如雙末端測(cè)序、最近發(fā)展的CPT-Seq(Contiguity preserving transposase sequencing)[24]或新的測(cè)序技術(shù)(如第三代測(cè)序)相結(jié)合以獲得高質(zhì)量的組裝結(jié)果。
第三,與傳統(tǒng)遺傳圖譜信息相結(jié)合,相互補(bǔ)充。不管是以物種染色體片段遺傳交換為基礎(chǔ)的圖譜組裝法,還是以染色質(zhì)交互為基礎(chǔ)的Hi-C組裝法,其都可能存在系統(tǒng)偏好性、甚至錯(cuò)誤。因此,在基因組測(cè)序工作開(kāi)展時(shí),可綜合兩種方法進(jìn)行基因組組裝,實(shí)現(xiàn)優(yōu)勢(shì)互補(bǔ),從而獲得更加完整準(zhǔn)確的參考基因組序列。
[1]https://en. wikipedia. org/wiki/DNA_sequencing. com /.
[2]http://www. genome. gov/sequencingcosts. com /.
[3]Putnam NH, O’Connell B, Stites JC, et al. Chromosomescale shotgun assembly using an in vitro method for long-range linkage[J]. ArXiv, 2015, Available online at:http://arxiv.org/abs/1502. 05331.
[4]Treangen TJ, Salzberg SL. Repetitive DNA and next-generation sequencing:computational challenges and solutions[J]. Nature Reviews Genetics, 2012, 13(1):36-46.
[5]馬艷玲, 鄧海, 劉中來(lái), 等. 海洋放線菌Streptomyces sp. 大片段DNA基因組文庫(kù)的構(gòu)建[J]. 生物技術(shù), 2010(5):1-3.
[6]Claros MG, Bautista R, Guerrero-Fernández D, et al. Why assembling plant genome sequences is so challenging[J]. Biology, 2012, 1(2):439-459.
[7]Dekker J, Rippe K, Dekker M, et al. Capturing chromosome conformation[J]. Science, 2002, 295(5558):1306-1311.
[8]Lieberman-Aiden E, van Berkum NL, Williams L, et al.Comprehensive mapping of long-range interactions reveals folding principles of the human genome[J]. Science, 2009, 326(5950):289-293.
[9]Rao SSP, Huntley MH, Durand NC, et al. A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping[J]. Cell, 2014, 159(7):1665-1680.
[10]翟侃, 武治印, 于典科. 染色質(zhì)構(gòu)象捕獲及其衍生技術(shù)[J].生物化學(xué)與生物物理進(jìn)展, 2010, 37(9):939-944.
[11]Dekker J, Marti-Renom MA, Mirny LA. Exploring the threedimensional organization of genomes:interpreting chromatin interaction data[J]. Nat Rev Genet, 2013, 14:390-403.
[12]彭城, 李國(guó)亮, 張紅雨, 阮一駿. 染色質(zhì)三維結(jié)構(gòu)重建及其生物學(xué)意義[J]. 中國(guó)科學(xué):生命科學(xué), 2014, 44(8):794-802.
[13]李國(guó)亮, 阮一駿, 谷瑞升, 等. 起航三維基因組學(xué)研究[J].科學(xué)通報(bào), 2014, 59:1165-1172.
[14]Kaplan N, Dekker J. High-throughput genome scaffolding from in vivo DNA interaction frequency[J]. Nature Biotechnology, 2013,31(12):1143-1147.
[15]Burton JN, Adey A, Patwardhan RP, et al. Chromosome-scale scaffolding of de novo genome assemblies based on chromatin interactions[J]. Nature Biotechnology, 2013, 31(12):1119-1125.
[16]Marie-Nelly H, Marbouty M, Cournac A, et al. High-quality genome(re)assembly using chromosomal contact data[J]. Nature Communications, 2014, 5:5695.
[17]Burton JN, Liachko I, Dunham MJ, et al. Species-Level deconvolution of metagenome assemblies with Hi-C Based contact probability maps[J]. G3:Genes/Genomes/Genetics, 2014, 4(7):1339-1346.
[18]Schneeberger K, Ossowski S, Ott F, et al. Reference-guided assembly of four diverse Arabidopsis thaliana genomes[J]. Proc Natl Acad SciUSA, 2011, 108(25):10249-10254.
[19]Xie T, Zheng JF, Liu S, et al. De novo plant genome assembly based on chromatin interactions:A case study of Arabidopsis thaliana[J]. Molecular Plant, 2015, 8(3):489-492.
[20]Imakaev M, Fudenberg G, McCord RP, et al. Iterative correction of Hi-C data reveals hallmarks of chromosome organization[J].Nature Methods, 2012, 9(10):999-1003.
[21]Yaffe E, Tanay A. Probabilistic modeling of Hi-C contact maps eliminates systematic biases to characterize global chromosomal architecture[J]. Nature Genetics, 2011, 43(11):1059-1065.
[22]Xie T, Fu LY, Yang QY, et al. Spatial features for Escherichia coli genome organization[J]. BMC Genomics, 2015, 16(1):37.
[23]Dixon JR, Selvaraj S, Yue F, et al. Topological domains in mammalian genomes identified by analysis of chromatin interactions[J]. Nature, 2012, 485(7398):376-380.
[24]Adey A, Kitzman JO, Burton JN, et al. In vitro, long-range sequence information for de novo genome assembly via transposase contiguity[J]. Genome Research, 2014, 24(12):2041-2049.