植物基因組組裝技術(shù)研究進(jìn)展

2021-08-11 02:45唐蝶周倩

生物技術(shù)通報 2021年6期

唐蝶周倩

（1. 中國農(nóng)業(yè)科學(xué)院深圳農(nóng)業(yè)基因組研究所，深圳 518124；2. 鵬城實(shí)驗室，深圳 518055）

基因組組裝是將全基因組測序的小片段（read，長度100 bp-100 kb）通過算法拼接成盡量長的片段（contig和scaffold，長度幾十kb到Mb不等）或者整條染色體的過程。組裝過程的關(guān)鍵是識別基因組上相鄰測序片段的重疊關(guān)系，除測序技術(shù)外，基因組的雜合度和重復(fù)序列對組裝效果影響最大［1］。植物基因組往往經(jīng)歷局部復(fù)制、全基因組加倍、重復(fù)序列擴(kuò)張等，導(dǎo)致基因組中存在大量相似或者同源的片段，組裝時產(chǎn)生冗余的重疊關(guān)系，增加組裝的困難。由于植物基因組具有非常豐富的多樣性，參考已發(fā)表的少數(shù)物種組裝新的物種，有時卻無法達(dá)到理想的組裝效果。測序技術(shù)發(fā)展提供了短序列測序、單分子測序、光學(xué)圖譜、Hi-C圖譜等多種測序技術(shù)及其組合的組裝方案［2］，如何以最低成本獲得滿足研究需求的基因組，是科研人員普遍面臨的一個問題。本文綜合闡述植物基因組特征與組裝效果之間的關(guān)系，以期對研究人員選擇組裝策略、預(yù)估組裝結(jié)果提供一定的參考。

1 基因組特征評估

在組裝前通常需要對基因組進(jìn)行評估，獲得基因組的概括性特征。在各項特征中，基因組大小、雜合度和重復(fù)序列含量是決定測序成本、組裝難度和最終組裝效果的最重要的幾個特征［3］。這些特征可以通過全基因組的K-mer分析進(jìn)行評估。在測序read上相隔1 bp取長度為K的子序列，稱為K-mer，全部測序read中K-mer的種類及其出現(xiàn)次數(shù)（K-mer深度）通過分布曲線展示出來，即可觀察到基因組的基本特征（圖1）。在測序覆蓋均勻、沒有測序錯誤和重復(fù)序列的基因組上，K-mer分布曲線符合泊松分布。如果基因組存在某些復(fù)雜特征，會使分布曲線偏離泊松分布，出現(xiàn)與特征相對應(yīng)的峰。

圖1 幾種植物基因組Illumina測序數(shù)據(jù)K-mer分布曲線Fig. 1 K-mer volume histograms of illumina sequencing data from several plant genomes

在實(shí)際測序數(shù)據(jù)的K-mer分布曲線上，第一個極高的值是測序錯誤導(dǎo)致的K-mer，深度只有1-2。單倍體或純合基因組的K-mer分布曲線只有一個主峰。雜合二倍體基因組的K-mer分布曲線有兩個峰，分別為雜合峰和純合峰，前者深度只有后者的一半。雜合多倍體基因組則會出現(xiàn)多個雜合峰。雜合峰的比例越高，表示雜合度越大。重復(fù)序列含量較高時會在主峰后面形成一個小峰或者在極高深度處形成拖尾。

基因組大小可以由（總K-mer數(shù)量）/（K-mer期望測序深度）來估計，通常以K-mer分布曲線的主峰深度作為期望測序深度。該公式估算的基因組大小有10%左右的誤差，可以結(jié)合流式細(xì)胞實(shí)驗檢測DNA含量，估算基因組大小進(jìn)行綜合考慮。

2 簡單植物基因組組裝

基因組大小不超過1Gb，純合或者雜合度低于千分之五，重復(fù)序列含量低于50%的基因組可以被歸類為簡單基因組。作為模式物種首先完成基因組圖譜的擬南芥（Arabidopsis thaliana）、水稻（Oryza sativa L. ssp. indica）等都屬于簡單基因組。簡單基因組使用二代測序數(shù)據(jù)、二三代測序數(shù)據(jù)混合或者純?nèi)鷾y序數(shù)據(jù)，都可以完成組裝（表1）。在二代數(shù)據(jù)為主的項目中，通常用小片段文庫組裝contig，大片段文庫（mate-pair）構(gòu)建scaffold；加入少量三代數(shù)據(jù)混合組裝，以填補(bǔ)scaffold中的“空洞”區(qū)域。與前兩種方式相比，使用純?nèi)鷶?shù)據(jù)組裝，能夠顯著提高組裝的連續(xù)性、完整性等指標(biāo)，縮短組裝時間。10年前由多國實(shí)驗室合作、耗費(fèi)數(shù)年完成的馬鈴薯（Solanum tuberosum L.）［6］和番茄（Solanum lycopersicum）［10］參考基因組，如今由單個團(tuán)隊使用純?nèi)鷾y序數(shù)據(jù)就組裝了contig N50 提高500倍（32 kb vs 17.3 Mb）［11］和60倍（87 kb vs 5.5 Mb）［12］的新版本。使用三代測序數(shù)據(jù)獲得高質(zhì)量的組裝片段，再利用遺傳圖譜、Hi-C圖譜［13-14］、光學(xué)圖譜［15］等構(gòu)建成染色體，是當(dāng)前解析簡單基因組最高效的方案，也是學(xué)術(shù)期刊對簡單基因組組裝的普遍要求。

表1 幾種植物基因組組裝方案及組裝結(jié)果Table1 Assembly strategies and results of several plant genomes

由于三代測序數(shù)據(jù)單堿基錯誤率高達(dá)10%-15%，組裝得到的基因組通常需要先進(jìn)行序列糾錯（“拋光”）再進(jìn)行基因注釋等分析?；蚪M糾錯可以使用二代數(shù)據(jù)或者三代數(shù)據(jù)，必要時兩種數(shù)據(jù)結(jié)合進(jìn)行多次糾錯。

3 高雜合基因組組裝

自交不親和和無性繁殖在自然界的植物中普遍存在，造成了基因組的雜合特征。本文討論的高雜合基因組雜合度約為1%-2%，即同源片段的序列差異達(dá)到1%-2%，導(dǎo)致組裝時同源區(qū)域的read無法充分合并，產(chǎn)生大量分支結(jié)構(gòu)，嚴(yán)重影響組裝的連續(xù)性及后續(xù)分析。

將基因組DNA分成小份分別進(jìn)行測序、組裝是避免雜合片段干擾的一種有效方法［37-38］，每份DNA含有極少量雜合片段，基本可作為純合基因組組裝，從而降低組裝難度。早期解決雜合基因組使用BAC-by-BAC策略［9］，構(gòu)建數(shù)萬個BAC克隆，每個單獨(dú)測序、組裝，然后合并成一套基因組。另一種方法是借助減數(shù)分裂分離出單套基因組，比如通過花粉培養(yǎng)獲得單倍體個體。而對于無法獲得單倍體的物種，研究人員則設(shè)法從二倍體的測序數(shù)據(jù)中提取單倍體數(shù)據(jù)。在雜合菠蘿（Ananas comosus（L.）Merr.）基因組項目中，研究人員將雜合菠蘿F153與CB5雜交，通過比較后代F1個體與親本F153的測序read，分離出F153其中一套基因組的read進(jìn)行組裝［5］。

近年來發(fā)展的10×Genomeics技術(shù)，將大片段DNA分子包裹進(jìn)油滴添加標(biāo)簽后測序，產(chǎn)生的linked-read保留了基因組長距離的信息，有助于構(gòu)建更長的scaffold［39］。高雜合楊桃基因組的組裝結(jié)果顯示，單個10×G文庫組裝的scaffold N50達(dá)到2.7 Mb［40］，組裝指標(biāo)優(yōu)于早期雜合梨（Pyrus bretschneideri Rehd.）和菠蘿基因組。該方案能以最少的測序和計算成本提供可用的參考基因組，已經(jīng)在植物基因組中廣泛應(yīng)用。

在早期的基因組項目中，組裝的目的是得到一個完整的單倍體參考基因組，因此只取單套基因組進(jìn)行組裝或者將基因組內(nèi)雜合區(qū)域盡量合并。隨著對基因組研究的深入，基因組單體型信息越來越受到重視，對雜合物種的基因組提出了分型組裝的需求。

Falcon-unzip是最早利用三代測序數(shù)據(jù)進(jìn)行雜合基因組組裝和分型的工具［35］，其組裝結(jié)果包含一個單倍體參考基因組和雜合區(qū)域的局部單體型信息，是目前雜合基因組分型最常見的呈現(xiàn)方式。由于三代測序數(shù)據(jù)的讀長優(yōu)勢，F(xiàn)alcon-unzip組裝的雜合物種參考基因組在contig連續(xù)性上有顯著提升，但是輸出的參考基因組混合了兩個單體型的序列，在基因注釋等后續(xù)分析中仍然存在問題。

由于組裝算法的局限或變異位點(diǎn)分布不均勻，單純使用全基因組測序組裝的單體型都是局部的、片段化的。借助遺傳信息分離同源區(qū)域的基因組數(shù)據(jù)，再將每個區(qū)域組裝成單體型，是目前解決高雜合物種組裝最成功的方法（圖2）。

圖2 三種植物基因組組裝和分型方案Fig. 2 Three assembly and genotyping strategies of genome in plants

“親本-子代”家系測序是區(qū)分雜合個體內(nèi)兩套單體型最直接的方法。Triobin方法將家系測序與第三代測序技術(shù)結(jié)合［41］，使用親本測序數(shù)據(jù)將雜合F1個體的測序數(shù)據(jù)分成兩類，然后兩類分別組裝成兩個親本的單體型。該方法對擬南芥F1個體（雜合度1.36%）的組裝結(jié)果顯示，兩個單體型的完成度和質(zhì)量都達(dá)到較高水平。Triobin對來自親本雜合區(qū)域的read分類效果較差，更適用于純合親本的情況。另外，家系測序的條件在很多研究中無法滿足，限制了Triobin的應(yīng)用范圍。

遺傳群體也是基因組分型的有力工具。通過遺傳群體與不同測序技術(shù)結(jié)合，梨雜合基因組［42］和馬鈴薯雜合基因組［7］項目發(fā)表了組裝雜合基因組完整單體型的方案。在雜合梨項目中，研究人員使用單倍體群體（12個花粉細(xì)胞）的測序數(shù)據(jù)對先前構(gòu)建的3.8萬個BAC進(jìn)行分型，每條染色體的BAC被分成A、B兩類，再分別組裝成A、B單體型。為避免不同染色體互相干擾，分型前先用梨單倍體參考基因組識別BAC所屬染色體，有效提高了分型的效率，但也限制了其在無參考物種上的應(yīng)用效果。雜合馬鈴薯分型組裝的流程包含3個階段：（1）用高保真三代測序數(shù)據(jù)（HiFi read）組裝出二倍體基因組的全部contig序列；（2）構(gòu)建遺傳圖譜將contig分配到12個連鎖群中，對應(yīng)單倍體基因組的12條染色體；（3）同一連鎖群的contig根據(jù)基因型分成兩組，代表染色體的兩個單體型。與其他分型方法類似，該流程也先區(qū)分不同染色體，再區(qū)分染色體的兩個單體型。在階段（2）中，研究人員開發(fā)了利用contig構(gòu)建連鎖群的方法，使用遺傳連鎖群區(qū)分不同染色體，避免了對已知參考基因組的依賴，擴(kuò)展了應(yīng)用范圍。

高雜合基因組的組裝和分型一直是基因組方法領(lǐng)域的難點(diǎn)，目前仍然沒有相對簡便的方法和工具。隨著HiFi read 數(shù)據(jù)的應(yīng)用以及hifiasm等綜合利用三代測序、Hi-C數(shù)據(jù)優(yōu)勢的組裝軟件的開發(fā)［42-43］，將促進(jìn)雜合植物基因組解析的快速進(jìn)展。

4 高重復(fù)基因組組裝

重復(fù)序列在物種進(jìn)化和功能調(diào)控中扮演不可或缺的角色，是基因組重要的組成部分。重復(fù)序列的序列相似性高、長度不一、拷貝數(shù)變化范圍大，一直是組裝中的難題。相比于二代測序技術(shù)，三代長讀長測序可以跨過重復(fù)序列區(qū)域，提高重復(fù)序列的區(qū)分度，顯著改善組裝的連續(xù)性和重復(fù)序列組裝的完整性、準(zhǔn)確性，這種優(yōu)勢在85%的序列都來源于轉(zhuǎn)座子擴(kuò)增的玉米（Zea mays ssp. mays L.）基因組中得到充分體現(xiàn)。PacBio數(shù)據(jù)組裝的玉米B73基因組，相對之前基于二代組裝的版本，contig連續(xù)性提高了52倍，并且糾正了著絲粒區(qū)的組裝錯誤，極大改善了基因功能區(qū)注釋和轉(zhuǎn)座子的進(jìn)化分析［45-46］。

高重復(fù)序列基因組的另外一類代表是擁有巨大基因組的植物，如火炬松（Pinus taeda L.，22 Gb， 82%）［47］、挪威云杉（Picea abies，20 Gb，>71%）［48］、銀杏（Ginkgo biloba，10 Gb，80%）［49］，基因組70% 以上都是重復(fù)序列，遠(yuǎn)超擬南芥（20%）［50］、水稻（40%）［51］等模式植物。這些裸子植物都是雜合的，可以選擇單倍的配子體胚乳進(jìn)行測序。大型基因組的測序成本和組裝技術(shù)難度都較大，最初發(fā)表的幾個裸子植物基因組采用二代數(shù)據(jù)組裝的方式，contig N50僅有幾kb或者幾十kb。近日阮玨團(tuán)隊利用~44× PacBio數(shù)據(jù)重新組裝了銀杏基因組［52］，將contig N50由二代組裝的48 kb［49］提高至1.58 Mb，并利用Hi-C掛載了12條染色體，是目前發(fā)表的最高質(zhì)量的裸子植物基因組，也提高了研究人員對大型基因組的組裝要求。2020年發(fā)表的大蒜（Allium sativum）基因組［53］，經(jīng)歷3次全基因組復(fù)制及重復(fù)序列擴(kuò)張，基因組達(dá)到16.9 Gb，其中91.3%都是重復(fù)序列，是迄今組裝的重復(fù)序列比例最高的基因組，組裝方法采用了 PacBio 構(gòu)建contig、10×G文庫連接成scaffold、最后用Hi-C數(shù)據(jù)掛載染色體。最新公布的雜合加州紅杉（Sequoia sempervirens ）基因組（6倍體，單倍體27 Gb）組裝結(jié)果，研究人員使用PacBio HiFi數(shù)據(jù)和Hifiasm［42］軟件獲得47.47 Gb contig序列，N50達(dá)到1.92 Mb（https：//downloads. pacbcloud. com/public/dataset/redwood2020/），并且組裝時間僅需幾天，展示了高準(zhǔn)確率三代數(shù)據(jù)在大型植物基因組組裝上的應(yīng)用前景。

5 高倍性基因組組裝

由于雜交和基因組加倍導(dǎo)致了多倍體植物的存在，一些重要的農(nóng)作物例如小麥、棉花、馬鈴薯等都是多倍體，其基因組的解析是影響作物育種進(jìn)展的重要因素。多倍體物種根據(jù)其形成機(jī)制分為異源多倍體和同源多倍體，異源多倍體中染色體來源于不同祖先，基因組內(nèi)可以區(qū)分亞基因組，對組裝干擾較少；而同源多倍體中多套染色體之間高度相似，相當(dāng)于高雜合基因組，組裝難度極大。

異源多倍體基因組通常可以當(dāng)做純合基因組進(jìn)行組裝，其重點(diǎn)是組裝后區(qū)分亞基因組。國際小麥測序聯(lián)盟解析六倍體栽培小麥（Triticum aestivum，AABBDD）基因組時利用流式細(xì)胞儀分離技術(shù)將21條染色體分離開，分別構(gòu)建BAC文庫進(jìn)行測序和組裝［54］。分離染色體的技術(shù)和成本要求較高，并不常見于普通植物研究。四倍體油菜基因組（Brassica napus，AACC）［55］和四倍體花生基因組（Arachis hypogaea，AABB）［56-57］的組裝借助了二倍體祖先的測序數(shù)據(jù)區(qū)分出兩個亞基因組。相對二代測序數(shù)據(jù)，三代測序數(shù)據(jù)可以更好區(qū)分相似序列，組裝出連續(xù)性更長的contig，再結(jié)合全基因組遺傳圖譜或者Hi-C圖譜區(qū)分異源染色體。2015年發(fā)表的四倍體棉花TM-1（Gossypium hirsutum，AADD）基因組由10萬個BAC克隆和遺傳圖譜組裝完成［58］，2019和2020年發(fā)表的新版本的TM-1基因組均由PacBio數(shù)據(jù)和Hi-C圖譜、光學(xué)圖譜完成，提高了參考基因組質(zhì)量，也提供了更高效、更低成本的多倍體組裝方法［59-60］。

相比異源多倍體由自然雜交產(chǎn)生，同源多倍體通過染色體加倍形成，遺傳上多套染色體都可以聯(lián)會，序列上同源區(qū)域相似度較高，在組裝過程中互相干擾。在二代測序數(shù)據(jù)為主的時代，為構(gòu)建物種的參考基因組，只能測序單倍體材料降低組裝難度或者容忍、合并雜合區(qū)域。2017 年發(fā)表的六倍體甘薯基因組（Ipomoea batatas，B1B1B2B2B2B2）首次報道了同源多倍體植物的單倍體參考基因組和基因組30%區(qū)域的分型結(jié)果［61］。隨后，2018年同源四倍體甘蔗基因組（Saccharum officinarum，1n=4x）首次攻克了同源多倍體單體型組裝的難題［62］，其關(guān)鍵步驟是使用BAC文庫和三代測序數(shù)據(jù)克服序列相似性，組裝出四倍體全部contig，再結(jié)合Hi-C圖譜分成4套染色體。其中Hi-C分型軟件ALLHIC［63］借助近緣物種高粱基因組，區(qū)分出甘蔗不同染色體的contig，再根據(jù)Hi-C互作信號對同源contig進(jìn)行區(qū)分及錨定。同源四倍體紫花苜蓿（Medicago sativa L.，2n=4x）基因組的解析也使用了該方案，在二倍體苜蓿（M. truncatula）基因組的輔助下，成功獲得了4套分型結(jié)果［8］。四倍體苜蓿首次使用了高準(zhǔn)確率的PacBio HiFi數(shù)據(jù)進(jìn)行多倍體組裝，獲得了比甘蔗基因組更好的contig 連續(xù)性。雖然同源多倍體的組裝和分型在多個物種上都獲得了成功，但是基于Hi-C的分型軟件仍然要依賴單倍體的參考基因組，并且在處理差異較小的同源染色體時區(qū)分效果不明顯，解析復(fù)雜同源多倍體基因組還需繼續(xù)探索多種類型數(shù)據(jù)和技術(shù)整合［64］。

6 植物泛基因組進(jìn)展

完成物種的參考基因組后，為挖掘和利用該物種的基因組資源，通常會進(jìn)行群體重測序分析。傳統(tǒng)分析方法是將個體的短序列匹配到參考基因組上識別個體間的差異。這種方式得到變異類型十分有限，尤其對于個體間遺傳差異大的物種，單一參考基因組無法滿足分析需求。泛基因組（pan-genome）通過對物種的不同個體進(jìn)行測序及組裝，盡可能地捕獲該物種的全部遺傳信息，為后續(xù)功能研究提供新的參考基因組，正逐漸成為挖掘物種遺傳多樣性的研究趨勢。

泛基因組構(gòu)建的方式有3種（圖3）。早期研究由于測序數(shù)據(jù)較少，將個體測序數(shù)據(jù)比對到參考基因組，提取沒有比對上的read進(jìn)行組裝，產(chǎn)生的新序列迭代補(bǔ)充到參考基因組上，這種方式稱為迭代組裝。2018年發(fā)表的3 010份水稻（Oryza sativa L.）測序是迭代組裝構(gòu)建泛基因組的經(jīng)典研究［65］，研究人員提出“map-to-pan”策略，從重測序個體中組裝出268 Mb的非冗余序列，補(bǔ)充到日本晴參考基因組，作為后續(xù)變異檢測和功能分析的基礎(chǔ)。這種方式構(gòu)建的泛基因組連續(xù)性較差，無法檢測大的結(jié)構(gòu)變異，重新組裝的新序列也會導(dǎo)致泛基因組的冗余。

圖3 泛基因組構(gòu)建的三種方式Fig. 3 Three approaches of assembling pan-genome

第二種方式是從頭組裝個體基因組后再構(gòu)建泛基因組。高質(zhì)量的個體基因組是泛基因組分析的前提，因此組裝成本較高。目前已發(fā)表的栽培稻-野生稻［66］、大麥（Hordeum vulgare L.）［67］和小麥泛基因組（Triticum aestivum L.）［68］，均使用二代數(shù)據(jù)進(jìn)行組裝。其中大麥和小麥泛基因組中利用Hi-C數(shù)據(jù)將部分材料組裝到染色體級別。從頭組裝有利于系統(tǒng)鑒定各類群的“存在-缺失”變異集，染色體水平的比較能夠揭示全基因組大規(guī)模序列重排和結(jié)構(gòu)變異，為解析復(fù)雜表型的遺傳機(jī)制提供更精確的信息。大麥泛基因組的分析揭示了不同種質(zhì)中兩個高頻染色體異位與育種和馴化的關(guān)系，展示了組裝的質(zhì)量決定泛基因組分析的精度以及其在育種中的應(yīng)用。

第三種方式是近年來快速發(fā)展的圖基因組（graph-based genome）［69-70］，用圖上的路徑（path）表示不同個體中相同和差異的序列。圖參考基因組的構(gòu)建一般基于從頭組裝的基因組，將不同個體的基因組比對到線性參考基因組提取變異，所有個體的變異經(jīng)過去冗余，再與線性基因組進(jìn)行整合，通過多條路徑的方式展示各種變異。圖基因組考慮了個體間的相似性和差異性，也能更加直觀的展示群體中復(fù)雜的結(jié)構(gòu)變異。圖基因組相對線性基因組，能夠更好的協(xié)調(diào)多個基因組的坐標(biāo)對應(yīng)關(guān)系，以最小的數(shù)據(jù)結(jié)構(gòu)保留全部個體的序列信息，將在泛基因組分析模型中獲得廣泛應(yīng)用［71］。2020年發(fā)表的大豆（Glycine）泛基因組［72］，是第一個構(gòu)建高質(zhì)量的圖參考基因組的作物，研究人員使用第三代測序數(shù)據(jù)從頭組裝選擇了26個代表性材料并錨定到染色體，平均contig N50達(dá)到了22.6 Mb，獲得了在泛基因組分析中最高的組裝連續(xù)性，對后續(xù)的泛基因組研究的提出了更高的標(biāo)準(zhǔn)［73］。

7 測序技術(shù)發(fā)展與組裝質(zhì)量

早期使用Sanger測序BAC等大片段克隆，再將大片段拼接成基因組。人類基因組項目用該方法完成了大腸桿菌、酵母、線蟲及果蠅等模式物種的標(biāo)準(zhǔn)參考基因組。此方法完成的基因組質(zhì)量較好，但是成本過高，無法滿足日益增長的物種組裝需求。

在過去十幾年間，第二代測序技術(shù)快速發(fā)展，每Gb數(shù)據(jù)價格降低到50元以內(nèi)，片段長度從30 bp提高到300 bp，并保證了較高的堿基準(zhǔn)確率（>99%），使完成的基因組數(shù)量得到迅速增長。二代測序建庫過程中需要PCR擴(kuò)增，存在GC偏好性，有些區(qū)域無法被二代測序覆蓋，影響組裝完整性。由于二代測序的讀長較短，通常構(gòu)建2 kb-40 kb的mate-paire文庫以跨過重復(fù)序列等難組裝區(qū)域。這導(dǎo)致用二代數(shù)據(jù)完成的基因組含有大量gap，contig通常只有幾十kb。此外，讀長限制使二代測序難以解決基因組復(fù)雜區(qū)域，如著絲粒，端粒等富含串聯(lián)重復(fù)片段區(qū)域，組裝結(jié)果遠(yuǎn)達(dá)不到基因組“完成圖”的質(zhì)量。

以PacBio和Nanopore為代表的第三代測序技術(shù)無需PCR建庫過程對基因組覆蓋更均勻，實(shí)現(xiàn)了單分子測序，讀長可以達(dá)到幾十kb到上百kb。Nanopore ultra-long 測序技術(shù)，甚至可以產(chǎn)生Mb級別的read［74-75］。長度優(yōu)勢使第三代long read能夠跨過長距離復(fù)雜區(qū)域，提供足夠多標(biāo)記區(qū)分相似、同源片段，將組裝contig N50提高到Mb甚至幾十Mb級別。Pacbio和Nanopore已經(jīng)成為基因組組裝最常用的數(shù)據(jù)類型，許多之前使用二代數(shù)據(jù)組裝的物種基因組，使用三代數(shù)據(jù)重新進(jìn)行了組裝，提高contig連續(xù)性并且補(bǔ)充之前二代測序沒有覆蓋的區(qū)域。

PacBio的CLR（continuous long reads）數(shù)據(jù)原始堿基準(zhǔn)確率為85%-92%。堿基錯誤是隨機(jī)的，增加測序深度進(jìn)行校正后，一致性序列準(zhǔn)確性可以達(dá)到99.99%。Nanopore 數(shù)據(jù)的原始堿基準(zhǔn)確率與CLR相似，但是錯誤不完全隨機(jī)，糾錯后準(zhǔn)確率可以提高到99%。然而，在植物雜合基因組或者高重復(fù)序列基因組中，同源或者多拷貝的序列之間差異只有1%-2%，遠(yuǎn)低于三代序列的測序錯誤（10%-15%），對原始數(shù)據(jù)進(jìn)行糾錯不可避免會合并基因組上的相似序列，在后續(xù)組裝和分型過程中損失該類序列的信息。在使用CANU等軟件組裝這類基因組時，有時糾錯階段會將原始數(shù)據(jù)量減少至三分之一，導(dǎo)致最后組裝結(jié)果遠(yuǎn)小于預(yù)估基因組大小。并且原始數(shù)據(jù)糾錯耗時較長，在大型基因組（>10 Gb）組裝中成為短板因素。

近兩年來PacBio公司推出的高保真HiFi read，堿基準(zhǔn)確率>99%。HiFi數(shù)據(jù)的高準(zhǔn)確率顯著提高了參考基因組組裝的質(zhì)量并且精減了原始序列糾錯、組裝結(jié)果拋光等步驟，是當(dāng)前質(zhì)量認(rèn)可度最高的測序數(shù)據(jù)。HiFi read測序時對DNA插入片段進(jìn)行多次循環(huán)讀取，以犧牲長度換取高準(zhǔn)確率，平均讀長只有CLR的1/2（10-20 kb vs 20-40 kb），并且通量只有CLR的1/5，當(dāng)前一張SMRT cell芯片可以產(chǎn)出>100 Gb CLR read數(shù)據(jù)，而只能產(chǎn)出20-25 Gb HiFi read數(shù)據(jù)，無法跨過長距離復(fù)雜區(qū)域，且數(shù)據(jù)有效率較低、成本較高，這些是HiFi數(shù)據(jù)在解決大型、復(fù)雜基因組時的局限。

基因組組裝的質(zhì)量在很大程度上取決于測序技術(shù)產(chǎn)出的片段長度和準(zhǔn)確率。HiFi提供了高精度單分子測序，Nanopore ultra-long提供了超長片段，相信在不久的將來隨著測序成本的降低，這兩種技術(shù)的綜合應(yīng)用能推動植物基因組進(jìn)入端粒到端粒的“完成圖”組裝時代。

8 總結(jié)與展望

當(dāng)前各種建庫技術(shù)、測序平臺都在不停發(fā)展，獲得高質(zhì)量、高深度、多維度測序數(shù)據(jù)的成本在快速降低，構(gòu)建研究物種的參考基因組成為基因組項目的常規(guī)任務(wù)。隨著被解析的基因組數(shù)量增加，植物基因組的易變性和多樣性不斷在各種復(fù)雜基因組中得到體現(xiàn)。在實(shí)際研究中，每個待組裝的基因組所面臨的技術(shù)問題和后續(xù)的分析需求也不盡相同。在項目初期做好基因組特征評估和對組裝質(zhì)量的預(yù)期，再選擇測序和組裝策略是比較明智的做法。

泛基因組正逐漸成為研究作物馴化與基因功能的新參考基因組。越來越多的個體基因組完成了高質(zhì)量組裝，使泛基因組的構(gòu)建更具有實(shí)用價值，同時也對數(shù)據(jù)的存儲、可視化以及流程化分析提出新的要求。如何整合參考基因組與多組學(xué)數(shù)據(jù)，實(shí)現(xiàn)泛基因組指導(dǎo)作物育種改良成為新的熱點(diǎn)方向。

除組裝方法外，植物基因組面臨的還有測序技術(shù)方面的挑戰(zhàn)。由于細(xì)胞壁的存在，以及大量的多糖、次生代謝產(chǎn)物等，從植物細(xì)胞中提取高質(zhì)量、大片段DNA構(gòu)建測序文庫經(jīng)常會遇到困難。例如Nanopore ultra-long 測序技術(shù)受限于植物DNA提取技術(shù)，目前仍未在植物基因組中有應(yīng)用報道。未來相關(guān)測序?qū)嶒灱夹g(shù)的突破也能夠為復(fù)雜植物基因組解析提供新的契機(jī)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡