董雨青,魏雪蘋,強(qiáng)亭燕,張本剛,齊耀東,劉海濤
(中國(guó)醫(yī)學(xué)科學(xué)院藥用植物研究所,北京 100193)
1977年Sanger等[1]提出雙脫氧核苷酸末端終止測(cè)序法,也稱為Sanger測(cè)序法,成為了第一代測(cè)序技術(shù)的代表,同時(shí)揭開了基因組學(xué)研究的序幕。2005年美國(guó)454公司在Nature上發(fā)表了基于焦磷酸測(cè)序的方法[2],標(biāo)志著二代測(cè)序(Next-generation sequencing,NGS)時(shí)代的開啟。隨后又出現(xiàn)了基于聚合酶合成測(cè)序的Solexa和基于連接酶測(cè)序的SOLID平臺(tái)[3]。二代測(cè)序技術(shù)的開發(fā)大幅降低了測(cè)序時(shí)間,并成功地把DNA測(cè)序引入到了高通量測(cè)序時(shí)代[4]。簡(jiǎn)化基因組測(cè)序(Reduced-representation genome sequencing,RRGS)便是在高通量測(cè)序的基礎(chǔ)上發(fā)展起來的一種利用酶切將基因組進(jìn)行打斷,對(duì)部分區(qū)域進(jìn)行測(cè)序從而降低基因組復(fù)雜程度的測(cè)序技術(shù)。
分子標(biāo)記是反映生物不同群體或同一群體不同個(gè)體間遺傳多樣性的內(nèi)在特征,其在遺傳圖譜構(gòu)建、基因定位、分子育種、全基因組關(guān)聯(lián)分析等領(lǐng)域具有廣泛的應(yīng)用。近些年來,分子標(biāo)記的開發(fā)技術(shù)迅速發(fā)展,從限制性片段長(zhǎng)度多態(tài)性(RFLP)到簡(jiǎn)單重復(fù)序列(SSR)再到目前應(yīng)用非常廣泛的單核苷酸多態(tài)性(SNP)[5-7],分子標(biāo)記在種類上已經(jīng)可以基本滿足各種研究的需求,而如何更快速地獲取大量的分子標(biāo)記是目前研究者們關(guān)注的問題。傳統(tǒng)的Sanger測(cè)序首先需要對(duì)大量的潛在標(biāo)記進(jìn)行篩選,然后對(duì)不同個(gè)體的同源位點(diǎn)設(shè)計(jì)引物進(jìn)行PCR擴(kuò)增來獲得分子標(biāo)記,此種方法耗時(shí)久,且成本高。基于序列捕獲芯片技術(shù)的SNP開發(fā)在基因分型方面有一定優(yōu)勢(shì),但是開發(fā)過程仍然較為繁瑣,且對(duì)新群體檢測(cè)時(shí)會(huì)出現(xiàn)偏差[8]。而基于簡(jiǎn)化基因組技術(shù)開發(fā)分子標(biāo)記,可以通過一次測(cè)序獲得成千上萬個(gè)變異位點(diǎn),并且對(duì)于不同個(gè)體的基因分型可以和開發(fā)標(biāo)記的工作同時(shí)完成。因此,簡(jiǎn)化基因組測(cè)序無論是在效率上還是成本上都要明顯優(yōu)于傳統(tǒng)方法。未來,隨著測(cè)序成本的不斷降低,全基因組測(cè)序或許會(huì)成為研究植物基因組的普遍方法,但目前,尤其是對(duì)群體研究而言,簡(jiǎn)化基因組仍然是極具優(yōu)勢(shì)的技術(shù)[9]。
自簡(jiǎn)化測(cè)序概念提出以來,其衍生出了許多不同種類的測(cè)序技術(shù),并且已經(jīng)廣泛應(yīng)用于動(dòng)植物的單核苷酸多態(tài)性位點(diǎn)開發(fā)、構(gòu)建高密度遺傳圖譜、植物數(shù)量性狀基因座(QTL)定位、群體遺傳學(xué)及譜系地理學(xué)等領(lǐng)域[10-13]。本研究主要總結(jié)了簡(jiǎn)化基因組測(cè)序的發(fā)展過程及其主要技術(shù)種類和建庫(kù)測(cè)序原理,并聚焦于其在植物,如農(nóng)作物、經(jīng)濟(jì)作物、藥用植物等中的研究進(jìn)展,為簡(jiǎn)化基因組測(cè)序技術(shù)在植物遺傳分析等方面的應(yīng)用提供參考和借鑒。
限制性酶切位點(diǎn)DNA測(cè)序(Restriction-site Associated DNA Sequence,RAD-seq)技術(shù)由Miller等[10]于2007年提出,其第一次應(yīng)用是Baird等[14]對(duì)三刺魚(Gasterosteus aculeatus)進(jìn)行了測(cè)序,并開發(fā)出了13,000多個(gè)SNPs用于構(gòu)建高密度的遺傳連鎖圖譜。RAD-seq的基本流程是:首先通過限制性內(nèi)切酶將樣本基因組DNA酶切成小片段,然后在片段兩端加上P1接頭,接下來將樣本混池并自由剪切,選擇300 ~700 bp的片段,加上具有特殊“Y型”結(jié)構(gòu)的P2接頭,保證PCR只擴(kuò)增同時(shí)具有兩種接頭的序列,最終上機(jī)測(cè)序。
上述RAD-seq技術(shù)是基于單酶切的sd-RAD(single digest-RAD),盡管其可以獲得較多的標(biāo)記數(shù),但是建庫(kù)步驟繁瑣,對(duì)實(shí)驗(yàn)人員的操作水平有很高的要求,且測(cè)序的序列分散度較高[15-17]。隨著RAD-seq技術(shù)的優(yōu)化,目前基于單酶切技術(shù)發(fā)展形成了雙酶切的RAD(Double digest RAD,ddRAD)技術(shù)和應(yīng)用ⅡB型限制內(nèi)切酶的RAD(ⅡB digest,2b-RAD)技術(shù)[18-23]。
ddRAD首先對(duì)基因組DNA的常見酶酶切位點(diǎn)和稀有酶酶切位點(diǎn)進(jìn)行雙酶切,然后通過電泳切膠選擇500 bp左右的片段,最后在片段兩端加上接頭并上機(jī)測(cè)序。ddRAD-seq對(duì)DNA文庫(kù)的篩選比單酶切嚴(yán)格得多,雖然使測(cè)序片段減少,但得到的測(cè)序結(jié)果會(huì)更加準(zhǔn)確,并且可以提高建庫(kù)效率,降低實(shí)驗(yàn)成本[24]。
2b-RAD技術(shù)對(duì)基因組進(jìn)行酶切所采用的是ⅡB型限制性內(nèi)切酶,此類酶可以將識(shí)別位點(diǎn)的上游和下游分別切斷并獲得長(zhǎng)度一致的片段。該技術(shù)首先在擬南芥上進(jìn)行了驗(yàn)證,結(jié)果表明其具有很高的準(zhǔn)確度。但由于獲得的片段較短,因此不適合重復(fù)序列比例高、高雜合或無參考基因組的物種[25]。
基于測(cè)序的基因分型技術(shù)(Genotyping by Sequence,GBS)是Elshire等[26]于2011年提出來的,其原理是將基因組進(jìn)行酶切并測(cè)序,然后通過生物信息學(xué)分析獲得SNPs并進(jìn)行基因分型。此技術(shù)與RAD非常相似,也是通過兩種接頭來篩選片段,首先將基因組進(jìn)行酶切,隨后將Barcode接頭和Common接頭連接到片段的兩端,這樣便產(chǎn)生3種類型的片段:兩端分別為不同接頭的片段和兩端為相同接頭的片段,而只有同時(shí)具有Barcode接頭和Common接頭的片段可以進(jìn)行PCR擴(kuò)增并測(cè)序。該技術(shù)的核心是對(duì)限制性內(nèi)切酶的選擇,ApeK Ⅰ酶是目前應(yīng)用頻率最高的,用以減少基因組的重復(fù)序列[27]。GBS技術(shù)建庫(kù)步驟少,可以對(duì)大量樣本進(jìn)行建庫(kù),因此具有省時(shí)、成本低的優(yōu)點(diǎn)。但獲得的標(biāo)記數(shù)比RAD少。基于GBS發(fā)展起來的雙酶切GBS(Doubule digest GBS,ddGBS)技術(shù),類似ddRAD,同樣采用兩種酶對(duì)基因組進(jìn)行酶切,此技術(shù)的建庫(kù)成本低且標(biāo)記分布均勻,但是對(duì)基因組覆蓋率相對(duì)低,獲得的片段數(shù)目少[28-30]。
特異性位點(diǎn)擴(kuò)增片段測(cè)序(SLAF-seq)是吸取其他簡(jiǎn)化基因組優(yōu)勢(shì)而形成的一項(xiàng)新技術(shù),由Sun等[31]于2013年提出。其基本流程為:首先通過生物信息學(xué)模擬酶切結(jié)果,選擇合適的限制內(nèi)切酶,然后對(duì)特異長(zhǎng)度基因組DNA進(jìn)行酶切,接著給每個(gè)片段加一級(jí)接頭,混合后再加二級(jí)接頭,完成文庫(kù)構(gòu)建并上機(jī)測(cè)序。SLAF-seq一次可以開發(fā)10萬個(gè)以上的標(biāo)簽,得到覆蓋整個(gè)基因組的變異信息。其明顯優(yōu)勢(shì)是在保證高質(zhì)量和較多數(shù)量分子標(biāo)記的同時(shí),降低實(shí)驗(yàn)成本,適用于樣本量較大且基因組較復(fù)雜的無參物種[32-36]。
簡(jiǎn)化代表庫(kù)通過選擇酶切后的片段來簡(jiǎn)化基因組,將群體中不同個(gè)體保留的具有差異的片段結(jié)合在一起,完成對(duì)基因組的覆蓋。目前,主要包括簡(jiǎn)化代表庫(kù)(reduced-representation libraries,RRLs)和簡(jiǎn)化多態(tài)序列復(fù)雜度測(cè)序(complexity reduction of polymorphic sequences,CRoPS)[37]。
1.4.1 RRLs RRLs是最早的簡(jiǎn)化基因組技術(shù),其第一次應(yīng)用是被用于構(gòu)建人類基因組的SNP圖譜[38]。Tassell等[12]于2008年對(duì)結(jié)合了新一代測(cè)序技術(shù)的RRLs技術(shù)進(jìn)行了系統(tǒng)的闡述。其基本流程是首先將樣本基因組進(jìn)行酶切處理,接著將所有樣本的片段混合在一起并按照長(zhǎng)度篩選,然后對(duì)篩選出來的片段加上接頭,最終完成上機(jī)測(cè)序。此技術(shù)的建庫(kù)過程通??梢员A糸L(zhǎng)度為基因組1% ~10%的初始酶切片段。對(duì)于最簡(jiǎn)化的RRLs技術(shù)而言,可以選擇對(duì)整個(gè)酶切片段或是片段的兩端進(jìn)行測(cè)序[39-40]。RRLs技術(shù)步驟簡(jiǎn)單,成本低廉,但是早期的RRLs并不會(huì)對(duì)不同個(gè)體的樣本加上barcode,因此只能對(duì)整個(gè)群體進(jìn)行估計(jì)。
1.4.2 CRoPS CRoPS是Van Orsouw等[41]于2007年提出的將擴(kuò)增片段長(zhǎng)度多態(tài)性(AFLP)方法與高通量測(cè)序結(jié)合起來開發(fā)多態(tài)性位點(diǎn)的技術(shù)。其通過限制性內(nèi)切酶來打斷基因組DNA,接著將片段連接接頭并進(jìn)行AFLP擴(kuò)增,最終上機(jī)測(cè)序。該技術(shù)適用于含有高重復(fù)序列或序列多態(tài)性較低的物種[42]。目前此技術(shù)已被應(yīng)用于SNP開發(fā)和群體遺傳學(xué)研究[43-44]。
從2011—2020年簡(jiǎn)化基因組不同技術(shù)的發(fā)文量中可以看出(如圖1所示),總發(fā)文量呈現(xiàn)不斷上升的趨勢(shì),說明簡(jiǎn)化基因組技術(shù)越來越受研究人員的歡迎,其中應(yīng)用最廣泛的是RAD及其衍生技術(shù)和GBS技術(shù),ddRAD的增長(zhǎng)速度最快,已基本趕超單酶切RAD的發(fā)文量,SLAF技術(shù)也在逐年增加。但是較早出現(xiàn)的RRLs和CRoPS近幾年來幾乎不再被研究者們使用,這也反映出了新技術(shù)在提高SNP開發(fā)數(shù)量和降低實(shí)驗(yàn)成本上的優(yōu)勢(shì)。
圖1 2011—2020年簡(jiǎn)化基因組不同技術(shù)發(fā)文情況
SNP為基因組中常見的遺傳變異類型,具有分布廣,數(shù)量多的特點(diǎn)。傳統(tǒng)的分子標(biāo)記開發(fā)方法通量較低,成本較高。而簡(jiǎn)化基因組技術(shù)具有不參考基因組便可進(jìn)行大量SNPs開發(fā)的優(yōu)勢(shì)[45-47]。基于開發(fā)的大量分子標(biāo)記,可用于構(gòu)建高密度遺傳圖譜[48-50]、QTL定位[51-53]、群體遺傳學(xué)和系統(tǒng)發(fā)育學(xué)分析等[54-56]。
比起傳統(tǒng)的基于分子雜交或PCR等技術(shù)獲得的分子標(biāo)記(RFLP、SSR、AFLP),利用簡(jiǎn)化基因組測(cè)序技術(shù)開發(fā)的分子標(biāo)記(SNP等),在遺傳圖譜的構(gòu)建方面要更具優(yōu)勢(shì),大量的分子標(biāo)記使遺傳圖譜的分辨率得以進(jìn)一步提升(如表1所示)。
表1 簡(jiǎn)化基因組測(cè)序技術(shù)在植物中的應(yīng)用
Bai等[57]利用RAD-seq技術(shù)對(duì)油棕(Elaeis guineensisJacq.)進(jìn)行了全基因組水平的SNPs開發(fā),共獲得510,251個(gè)SNP位點(diǎn),經(jīng)過過濾后,構(gòu)建了包含10,023個(gè)標(biāo)記,覆蓋16條染色體的高密度連鎖圖譜,圖譜總長(zhǎng)為2,938.2 CM,位點(diǎn)間平均距離為0.29 CM。彌補(bǔ)了前人利用RFLP等標(biāo)記構(gòu)建油棕遺傳譜圖不飽和及包含分子標(biāo)記少的不足[58],為發(fā)現(xiàn)油棕重要性狀的QTLs,促進(jìn)分子標(biāo)記輔助選擇,加速遺傳改良提供了基礎(chǔ)。Zhao等[59]對(duì)130個(gè)山楂(CrataeguspinnatifidaBge.)雜交F1個(gè)體及2個(gè)親本進(jìn)行RAD測(cè)序并開發(fā)SNPs,利用開發(fā)的分子標(biāo)記構(gòu)建了3個(gè)遺傳圖譜,分別為兩個(gè)親本和一個(gè)整合的圖譜,包含17個(gè)連鎖群。母本和父本的遺傳圖譜分別包含2,657和4,088個(gè)SNP標(biāo)記,遺傳距離分別為2,689.65和2,558.41 CM,而整合圖譜為2,470.02 CM,包含6,384個(gè)SNP標(biāo)記。該遺傳圖譜包含了迄今為止從山楂中獲得的最多的分子標(biāo)記,為今后山楂經(jīng)濟(jì)性狀的精細(xì)QTL定位和分子輔助選擇提供重要參考。Zhang等[60]利用RAD-seq對(duì)紫苜蓿(Medicago sativaL.)生成的SNP標(biāo)記構(gòu)建了一個(gè)高密度連鎖圖譜,該連鎖圖包含4,346個(gè)SNP標(biāo)記和119個(gè)SSR標(biāo)記,每個(gè)親本有32個(gè)連鎖群。父本和母本的遺傳距離分別為3,455 CM和4,381 CM,平均標(biāo)記距離為3.00 CM和1.32 CM。與以往的研究相比,該圖譜的標(biāo)記密度大大提高,并且為紫苜蓿產(chǎn)量相關(guān)性狀的定位提供了有益的參考。Carrasco等[61]通過GBS對(duì)李(Prunus salicinaL.)進(jìn)行SNP標(biāo)記,使用桃基因組作為參考,共鑒定出49,826個(gè)SNPs。經(jīng)過嚴(yán)格篩選后,發(fā)現(xiàn)了137個(gè)雜交后代的1,441個(gè)分子標(biāo)記,并將其映射到8個(gè)連鎖群。最后使用732個(gè)SNPs構(gòu)建了整合圖譜,遺傳距離為617 CM,相鄰標(biāo)記間的平均值為0.96 CM。在藥用植物方面,Liu等[62]采用SLAF-seq對(duì)丹參(Salvia miltiorrhizaBunge)進(jìn)行分子標(biāo)記的開發(fā),對(duì)2個(gè)親本及其96個(gè)F1個(gè)體中提取的基因組DNA進(jìn)行SLAF文庫(kù)的構(gòu)建,親本中每個(gè)標(biāo)記的平均覆蓋深度是83.43倍,F(xiàn)1后代為10.36倍。最終得到由5,164個(gè)SLAFs組成的連鎖圖譜,包含8個(gè)連鎖群,全長(zhǎng)1,516.43 CM,位點(diǎn)間平均距離為0.29 CM。該結(jié)果不僅為定位數(shù)量性狀基因座提供了平臺(tái),而且為丹參生物技術(shù)和比較基因組學(xué)提供了重要的新工具,并為中藥研究提供了有價(jià)值的參考。
QTL定位可追溯到20世紀(jì)80年代,但是,早期的研究中確定大量的多態(tài)遺傳標(biāo)記,分化親本基因型,往往受到費(fèi)用和時(shí)間的限制。而高通量測(cè)序方法,例如RAD-seq和GBS,可直接用于鑒定多態(tài)性標(biāo)記并進(jìn)行基因分型,因此,即使在連鎖不平衡較低的情況下,也可以以高分辨率對(duì)QTL進(jìn)行定位[63](如表1所示)。
Du等[64]利用SLAF技術(shù)構(gòu)建了芝麻(Sesamum indicumL.)F2種群的高密度連鎖圖譜,并發(fā)現(xiàn)表型效應(yīng)大于10%的QTL共19個(gè),包括種皮顏色、種子大小、千粒重。揭示了與種子性狀相關(guān)的特定標(biāo)記在芝麻中的位置,并為進(jìn)一步研究種子品質(zhì)性狀提供了基礎(chǔ)。Li等[65]通過SLAF測(cè)序構(gòu)建了由20個(gè)連鎖群組成的大豆[Glycine max(L.)Merr.]遺傳圖譜,在此基礎(chǔ)上,鑒定出了41個(gè)影響異黃酮含量的QTL。此外,41個(gè)QTL中11個(gè)與多種環(huán)境中的異黃酮含量相關(guān)。其中的qIF20-2,在各種環(huán)境中促成了大部分異黃酮的產(chǎn)生,并解釋了大量的表型變異(8.7% ~35.3%),代表了不同環(huán)境下大豆異黃酮含量的一種新的主要QTL。Xu等[66]采用2b-RAD技術(shù)對(duì)茶樹[Camellia sinensis(L.)O.Ktze.]F1種群進(jìn)行基因分型,構(gòu)建了包含15個(gè)連鎖群的遺傳圖譜,經(jīng)過QTL分析后,共有27個(gè)與類黃酮或咖啡因含量相關(guān)的QTL被定位到8個(gè)不同的連鎖基團(tuán),為茶樹中類黃酮含量相關(guān)的功能基因發(fā)現(xiàn),標(biāo)記輔助選擇育種提供了有價(jià)值的信息。Gangadhara等[67]利用GBS為苦瓜(Momordica charantiaL.)構(gòu)建了高密度遺傳圖譜,共有4個(gè)性狀(雌蕊數(shù)、性別比、節(jié)數(shù)和首次出現(xiàn)雌花的天數(shù))的22個(gè)QTL被鑒定并定位到20個(gè)連鎖群上。在藥用植物方面,Lu等[68]采用SLAF對(duì)細(xì)莖石斛[Dendrobium moniliforme(L.)Sw.]和鐵皮石斛(Dendrobium officinaleKimura et Migo)及其雜交F1代進(jìn)行分子標(biāo)記開發(fā)并構(gòu)建遺傳圖譜,最終確定了5個(gè)與莖總多糖含量相關(guān)的QTL,為多糖代謝相關(guān)基因挖掘以及其他藥用植物的分子育種提供重要參考。Kang等[69]通過GBS對(duì)紫蘇[Perilla frutescens(L.)Britt.]進(jìn)行了高密度遺傳圖譜的構(gòu)建,基于該圖譜,共鑒定了6個(gè)QTL,這些QTL涉及3個(gè)與開花時(shí)間有關(guān)的性狀:可見花芽的天數(shù)、開花的天數(shù)和成熟的天數(shù)。利用已知的不同作物花期調(diào)控基因進(jìn)行同源基因分析,推斷GI、CO和ELF4為與紫蘇花期有關(guān)的QTL區(qū)域密切相關(guān)的同源基因。這些結(jié)果為今后利用精細(xì)定位技術(shù)研究紫蘇花期和利用分子標(biāo)記輔助選擇技術(shù)開發(fā)紫蘇新品種提供了依據(jù)。
簡(jiǎn)化基因組另一個(gè)極具優(yōu)勢(shì)的應(yīng)用是利用開發(fā)的分子標(biāo)記以及基因分型的結(jié)果,進(jìn)行高精度的群體遺傳學(xué)、系統(tǒng)發(fā)育學(xué)和譜系地理學(xué)的研究。早期基于少量片段進(jìn)行的群體遺傳學(xué)研究只能利用少量的基因座進(jìn)行分析,無法得到準(zhǔn)確的結(jié)果,而基于全基因組重測(cè)序手段進(jìn)行的群體遺傳學(xué)研究,結(jié)果雖然更加精確,但是成本較高?;诤?jiǎn)化基因組測(cè)序技術(shù)進(jìn)行的群體遺傳學(xué)研究克服了上述的問題,因此被廣泛應(yīng)用(如表1所示)。
Ren等[70]對(duì)西藏報(bào)春(Primula tibeticaWatt)的16個(gè)群體共293個(gè)個(gè)體進(jìn)行了RAD-seq測(cè)序,根據(jù)個(gè)體基因分型數(shù)據(jù),作者進(jìn)行了群體遺傳結(jié)構(gòu)和主成分分析,將報(bào)春花分成了4個(gè)亞群。此外,結(jié)合生態(tài)位模擬,推測(cè)西藏報(bào)春在青藏高原存在若干個(gè)冰期避難所,加之本身缺乏長(zhǎng)距離擴(kuò)散能量,進(jìn)一步加強(qiáng)了這種遺傳結(jié)構(gòu)。此種通過將簡(jiǎn)化基因組信息與生態(tài)位模擬相結(jié)合的方法,為研究植物可能存在的冰期避難所和生物多樣性中心提供了基礎(chǔ)。Feng等[71]采用RAD-seq技術(shù)對(duì)81個(gè)甘薯(Ipomoea batatasL.)進(jìn)行了測(cè)序,共發(fā)現(xiàn)55,622個(gè)限制性位點(diǎn)DNA測(cè)序標(biāo)簽,包含97,010個(gè)SNPs。根據(jù)基因分型構(gòu)建的系統(tǒng)發(fā)育樹顯示,81個(gè)個(gè)體聚成5個(gè)分支,種群遺傳結(jié)構(gòu)分析也顯示在K=5時(shí)似然值具有最大值。結(jié)果表明,基于全基因組的SNPs數(shù)據(jù)更準(zhǔn)確地揭示了不同來源甘薯的遺傳關(guān)系,這為其分子標(biāo)記輔助育種等研究提供了重要參考。在藥用植物方面,F(xiàn)eng等[72]對(duì)橫斷山區(qū)以及毗鄰地區(qū)的大黃(Rheum palmatumL.)復(fù)合體為研究對(duì)象,利用SLAF-seq技術(shù),在大黃的46個(gè)居群共218個(gè)個(gè)體中得到5,256個(gè)SNPs。通過遺傳結(jié)構(gòu)分析、空間變異分析、祖先分布區(qū)重建以及群體動(dòng)態(tài)模型檢驗(yàn)等揭示大黃復(fù)合體的種內(nèi)多樣化機(jī)制和起源擴(kuò)散路線。結(jié)果表明,大黃復(fù)合體存在東部和西部?jī)蓚€(gè)種下譜系,而這兩個(gè)種下譜系還可進(jìn)一步細(xì)分。大黃復(fù)合體的生物多樣性中心位于橫斷山區(qū)中部,推測(cè)其起源于該地區(qū),隨后向東西兩面擴(kuò)散形成如今的地理分布格局。該研究使用以過程為導(dǎo)向的方法為研究其他物種的異域分化和種內(nèi)多樣性的形成與維持機(jī)制提供了一個(gè)全新的視角。
隨著測(cè)序成本的不斷降低、測(cè)序準(zhǔn)確性的進(jìn)一步提高,基于簡(jiǎn)化基因組技術(shù)來開發(fā)植物的分子標(biāo)記將被大量應(yīng)用。盡管對(duì)個(gè)體進(jìn)行全基因組測(cè)序的成本也在降低,分析結(jié)果也更加準(zhǔn)確,但是對(duì)于基因組較大或者是高雜合度基因組的物種而言,簡(jiǎn)化基因組顯然更具優(yōu)勢(shì)。然而簡(jiǎn)化基因組測(cè)序技術(shù)在某些分析方面仍然有一定不足和誤差:(1)整體覆蓋度相較于整個(gè)基因組而言還是較低,因此會(huì)有大量的變異信息丟失,在群體遺傳學(xué)的分析中,雖可以較為準(zhǔn)確的進(jìn)行遺傳結(jié)構(gòu)、遺傳多樣性等計(jì)算,但對(duì)于LD衰減等難以得到準(zhǔn)確的判斷。(2)測(cè)序深度的不足,導(dǎo)致某些SNP位點(diǎn)的準(zhǔn)確性不夠,難以進(jìn)行種群歷史動(dòng)態(tài)(PSMC、MSMC)的分析。對(duì)于上述存在的2個(gè)問題,進(jìn)行高深度的重測(cè)序可能是更優(yōu)的選擇。(3)簡(jiǎn)化基因組在建庫(kù)測(cè)序的過程中仍然會(huì)產(chǎn)生一些錯(cuò)誤,因此,在后續(xù)分析的時(shí)候,要有條件的對(duì)數(shù)據(jù)進(jìn)行檢測(cè)、修正和過濾。針對(duì)不同物種或者不同研究目的時(shí),需開發(fā)出適用于各種模型的分析工具,而目前存在的一些分析及可視化軟件在細(xì)節(jié)上還有待進(jìn)一步改善。
在進(jìn)一步的研究中,簡(jiǎn)化基因組還可以同其他技術(shù)手段進(jìn)行結(jié)合,如(1)與轉(zhuǎn)錄組結(jié)合通過全基因組關(guān)聯(lián)分析及表達(dá)譜分析對(duì)目標(biāo)基因進(jìn)行精準(zhǔn)定位。(2)與代謝組、蛋白質(zhì)組等結(jié)合分析,探究植物體內(nèi)代謝物的遺傳調(diào)控機(jī)理。(3)在群體遺傳學(xué)領(lǐng)域,簡(jiǎn)化基因組還可以結(jié)合生態(tài)位模擬,根據(jù)地質(zhì)歷史及氣候變化等生態(tài)因子,探討物種地理分布格局的成因??傊?,簡(jiǎn)化基因組作為一種高效開發(fā)分子標(biāo)記的技術(shù),將在植物遺傳研究中繼續(xù)發(fā)揮重要作用。