任民 程立銳 劉旦 蔣彩虹 楊?lèi)?ài)國(guó)
摘要:利用限制性?xún)?nèi)切酶位點(diǎn)標(biāo)簽(RAD)技術(shù),通過(guò)對(duì)10份供試煙草材料的基因組簡(jiǎn)化重測(cè)序,發(fā)掘了煙草高通量SNP位點(diǎn),為煙草基因組學(xué)提供標(biāo)記信息。結(jié)果表明,本研究共獲得了44.33 Gb的Clean data數(shù)據(jù),平均覆蓋度1.01 X,共鑒定到291 770個(gè)SNP位點(diǎn),SNP位點(diǎn)間的平均間距為10.066±29.801 kb。發(fā)掘到的SNP位點(diǎn)能夠覆蓋整個(gè)基因組,但在不同染色體部位上的分布密度存在一定差異,在17號(hào)染色上半臂的存在一段大范圍的SNP密集區(qū)域。SNP變異類(lèi)型以轉(zhuǎn)換為主,通過(guò)功能注釋在基因區(qū)域發(fā)現(xiàn)45 049處SNP位點(diǎn)。利用SNP分型信息,計(jì)算了供試品種間的遺傳距離,平均為0.29,臺(tái)煙8號(hào)的遺傳背景與其他品種相對(duì)最遠(yuǎn)。該結(jié)果將為煙草QTL定位、候選基因發(fā)掘、親本組配等研究提供科研依據(jù)。
關(guān)鍵詞:煙草:限制性?xún)?nèi)切酶位點(diǎn)標(biāo)簽:重測(cè)序:?jiǎn)魏塑账岫鄳B(tài)性
煙草品種是煙葉生產(chǎn)的基礎(chǔ),在行業(yè)可持續(xù)發(fā)展與產(chǎn)業(yè)升級(jí)中發(fā)揮著重要的作用。而且品種本身也是一類(lèi)重要的種質(zhì)資源,其研究?jī)r(jià)值不僅在于所攜帶的優(yōu)良基因或等位變異,也包括這些優(yōu)良基因的組合方式、組成特點(diǎn),及其所承載的育種經(jīng)驗(yàn)和成果。從育種技術(shù)發(fā)展的趨勢(shì)來(lái)看,對(duì)品種的綜合性狀提升提出了越來(lái)越高的要求。深入發(fā)掘種質(zhì)資源、多途徑創(chuàng)新種質(zhì)、擴(kuò)大遺傳背景等研究已經(jīng)越來(lái)越受到重視,分子育種、基因組學(xué)等新技術(shù)新理論已經(jīng)成為育種技術(shù)的研究熱點(diǎn)。近年來(lái),圍繞煙草育種骨干親本、種質(zhì)資源,開(kāi)展了大量的分子標(biāo)記研究?,F(xiàn)已構(gòu)建了煙草高密度SSR遺傳圖譜,并開(kāi)展了重要性狀的QTL定位和GWAS分析等研究。但煙草是異源四倍體(2n=4X=48),基因組龐大結(jié)構(gòu)復(fù)雜,且品種間遺傳多樣性較低。因此隨著研究的深入,以SSR為代表的二代分子標(biāo)記技術(shù),在標(biāo)記密度、數(shù)據(jù)通量和研究效率等方面的限制都制約著進(jìn)一步的應(yīng)用。近年來(lái)高通量測(cè)序技術(shù)取得了快速發(fā)展,限制性?xún)?nèi)切酶位點(diǎn)標(biāo)簽(Restriction-Site Associated DNA,RAD)成為當(dāng)前簡(jiǎn)化基因組測(cè)序策略中運(yùn)用較為廣泛的測(cè)序技術(shù),該技術(shù)與海量平行測(cè)序技術(shù)偶聯(lián)可實(shí)現(xiàn)極高的分析效率,且成本相對(duì)較低。能夠廣泛的運(yùn)用于全基因組關(guān)聯(lián)分析,高密度遺傳連鎖圖譜的構(gòu)建,目標(biāo)性狀調(diào)控相關(guān)基因組區(qū)段或候選基因快速定位,個(gè)體間遺傳多態(tài)性分析等。為此本研究擬利用高通量測(cè)序技術(shù)(RAD)對(duì)10份常用的煙草病毒病(TMV、CMV)抗感鑒定品種進(jìn)行重測(cè)序,發(fā)掘單核苷酸多態(tài)性(single NucleotidePolymorphism,SNP)位點(diǎn),深入了解供試品種的遺傳多樣性。對(duì)于促進(jìn)優(yōu)異基因資源發(fā)掘、抗病品種分子育種等有重要的研究和實(shí)踐意義。
1材料與方法
1.1供試材料
本研究供試品種均為普通煙草(Nicotianatabacum L)種烤煙類(lèi)型,由國(guó)家煙草種質(zhì)資源中期庫(kù)提供,其品種名稱(chēng)及編號(hào)見(jiàn)表1??赏ㄟ^(guò)種質(zhì)資源編號(hào)在中國(guó)煙草種質(zhì)資源網(wǎng)(http://www.ycsjk.com.cn/)檢索供試品種的資源調(diào)查信息。
1.2全基因組DNA提取
供試品種播種后培養(yǎng)至苗期,取幼葉組織采用稍加改良的SLS法提取全基因組DNA。(1)將磨好的葉片放入2 mLEP管中,加SLS提取液800μL,搖晃5 min至搖勻:(2)加入等體積的酚氯仿異戊醇混合液(V:V:V=25:24:1),搖晃5 min至搖勻,然后12000 rpm離心10 min:(3)吸取上清600μL至一新的1.5 mL離心管,加等體積預(yù)冷的異丙醇(-20℃)沉淀DNA:(4)12000rpm離心10min,棄上清。用75%乙醇洗滌1次,無(wú)水乙醇再漂洗1次:(5)置于超凈臺(tái)內(nèi)晾30~60min至完全干燥無(wú)酒精殘留后,加100~200μLddH20溶解。最后用1.0%的瓊脂糖凝膠電泳和NanoDrop 2000分光光度計(jì)對(duì)DNA質(zhì)量進(jìn)行檢測(cè)。
1.3參考基因組
本研究SNP鑒定和功能預(yù)測(cè)采用的參考基因組為普通煙草栽培品種紅花大金元的全基因組組裝序列(第2版),其基因組序列數(shù)據(jù)和基因注釋信息見(jiàn)中國(guó)煙草基因研究中心煙草基因組數(shù)據(jù)庫(kù)(http://218.28.140.17/)。參考基因組序列總長(zhǎng)4411.73 Mb,其中組裝到24條染色體的序列總長(zhǎng)2939.14Mb,此外還有29 802條Scaffold序列,其總長(zhǎng)為1472.58 Mb。
1.4簡(jiǎn)化基因組(RAD)測(cè)序及SNP鑒定
RAD簡(jiǎn)化基因組測(cè)序及SNP鑒定由華大基因有限公司完成,采用Eeor I限制性?xún)?nèi)切酶進(jìn)行酶切隨機(jī)打斷基因組DNA,測(cè)序儀器為Illumina Hiseq2000:從測(cè)序后CleanData數(shù)據(jù)中鑒定SNP采用了GATK-3.2-2流程(https://www.broadinstitute.org/gatk/)。
1.5數(shù)據(jù)分析
采用DnaSP 6.01281計(jì)算供試群體的核苷酸多態(tài)性(Nucleotide Polymorphism)兀值和每位點(diǎn)核苷酸多態(tài)性指數(shù)[Tbeta(per site)from Etal 0/b0值:采用MEGA 7.0.9軟件根據(jù)Maximum CompositeLikelihood模型計(jì)算品種間兩兩遺傳距離:采用SnpEff4.1g軟件對(duì)鑒定到的SNP進(jìn)行功能注釋.采用Python 2.7.2計(jì)算機(jī)語(yǔ)言和P1L(Python ImageLibrary)圖像處理函數(shù)庫(kù),按照滑動(dòng)窗口(slidingwindow)方法統(tǒng)計(jì)SNP位置信息并繪制分布密度熱圖,窗口長(zhǎng)度(window length)為1.0 Mb,步長(zhǎng)(step size)為0.5 Mb:其他數(shù)據(jù)統(tǒng)計(jì)和圖表繪制采用EXCEL 2013完成。
1.6數(shù)據(jù)獲取
本研究的測(cè)序Clean data序列數(shù)據(jù),SNP群體分型信息均已提交至中國(guó)煙草基因研究中心煙草基因組數(shù)據(jù)庫(kù)(http://218.28.140.17/),數(shù)據(jù)庫(kù)用戶(hù)在使用GBrowser瀏覽普通煙草栽培種紅花大金元基因組數(shù)據(jù)時(shí),可通過(guò)添加SNP信息軌道(Track)訪問(wèn)本研究的相關(guān)數(shù)據(jù)。
2結(jié)果
2.1供試品種的基因組重測(cè)序
采用RAD測(cè)序技術(shù)對(duì)10份供試品種進(jìn)行了基因組重測(cè)序,獲得原始?jí)A基序列片段(reads)后,又經(jīng)質(zhì)量控制和數(shù)據(jù)過(guò)濾,生成高質(zhì)量的CleanData作為本研究的分析基礎(chǔ)。由表2看出,在供試品種上,測(cè)序得到的總堿基數(shù)從最少3 016.48 Mb(L9)到最多10032.99Mb(L1),平均為4432.52Mb:按普通煙草基因組大小約為4.4 Gb計(jì)算,基因組覆蓋度從供試品種L9的0.69 x到供試品種L1的2.28 X,平均覆蓋度1.01 X:供試品種的平均GC含量和平均Q20比例分別為38.66%和97.65%,其變異系數(shù)(c功分別僅為0.31%和0.30%,表明GC含量和Q20在品種間的離散程度低。
2.2供試品種的SNP位點(diǎn)發(fā)掘
完成測(cè)序后,按照GATK流程開(kāi)展了供試品種的SNP位點(diǎn)鑒定研究。由表3看出,在參考基因組染色體范圍內(nèi),共發(fā)掘到291770個(gè)SNP位點(diǎn)。SNP數(shù)量最多的染色體為17號(hào),共鑒定到33 807處,最少的為24號(hào),僅4527處。SNP位點(diǎn)間的平均間距為10.066±29.801 kb,不同染色體的SNP平均間距亦不相同,間距最小的染色體為17號(hào)(平均間距為2.58±16.52 kb),間距最大的染色體為10號(hào)(平均間距15.32±39.34 kb)。將24條染色體的SNP密度分布繪制成熱圖(圖1),可發(fā)現(xiàn)本研究發(fā)掘到的SNP位點(diǎn)能夠覆蓋全部染色體的各個(gè)區(qū)段,但SNP位點(diǎn)在染色體上的分布密度由圖1可知存在明顯的差異,在2號(hào)、13號(hào)、17號(hào)等染色體上存在較大范圍的SNP高密度區(qū)域,尤其以17號(hào)染色體上半臂的SNP密度最高。
2.3SNP位點(diǎn)的分類(lèi)與注釋
對(duì)本研究發(fā)掘到的291770個(gè)SNP位點(diǎn)進(jìn)行了分類(lèi)和注釋。SNP的變異類(lèi)型中屬于轉(zhuǎn)換(transitions)的位點(diǎn)有179751處(占63.50%),屬于顛換(transversions)的位點(diǎn)有103329處(占36.50%),轉(zhuǎn)換與顛換比值為1.74,另外還檢測(cè)到8690處非二態(tài)性分型的位點(diǎn)(占SNP位點(diǎn)總數(shù)的2.98%)。進(jìn)而結(jié)合參考基因組的基因注釋信息,對(duì)SNP位點(diǎn)功能進(jìn)行了注釋?zhuān)卜殖?5類(lèi)。數(shù)量最多的一類(lèi)為基因間區(qū)域(intergenic region)SNP,共246721處,占SNP總數(shù)的84.56%。其余14類(lèi)共計(jì)45049處SNP位點(diǎn)位于基因區(qū)域(含基因上下游3kb以?xún)?nèi)),基因區(qū)域的SNP功能注釋如圖2所示。其中導(dǎo)致氨基酸改變的錯(cuò)義突變(missensevariant)1992處,翻譯提前終止的突變(stop gained)49處,翻譯無(wú)法起始的突變(start lost)6處。
2.4群體遺傳多樣性分析
利用供試SNP位點(diǎn)在10份材料上的堿基分型信息,開(kāi)展了供試群體的遺傳多樣性分析。計(jì)算了品種間的遺傳距離,全部供試品種間的平均遺傳距離為0.29,通過(guò)圖3可發(fā)現(xiàn),品種L1的遺傳背景與其他品種相對(duì)較遠(yuǎn),遺傳距離從0.09到0.46,平均為0.35,而品種L7和L10間的遺傳距離僅為0.03,表明兩份種質(zhì)的遺傳背景非常接近。在全部供試群體中SNP位點(diǎn)的核苷酸多態(tài)性兀值為0.223±0.028,O/bp值為0.221。不同染色體間的遺傳多態(tài)性存在明顯的差異(圖4),9號(hào)染色體的遺傳多態(tài)性程度最低,其兀值為0.040,O/bp為0.05l。23號(hào)染色體的多態(tài)性最高,其兀值為0.404,O/bp為0.332。
3討論
本研究利用RAD技術(shù)對(duì)供試品種進(jìn)行了重測(cè)序,獲得了44.33 Gb的Cleandata數(shù)據(jù),共鑒定到291 770個(gè)SNP位點(diǎn),SNP位點(diǎn)間的平均間距為10.066±29.801 Kb。分析不同染色體上SNP的分布特點(diǎn),可見(jiàn)17號(hào)染色體的上半臂是一段SNP位點(diǎn)密集的區(qū)域,其具體的成因還有待深入研究。在其他煙草基因組研究中也發(fā)現(xiàn)了類(lèi)似的現(xiàn)象,茄科基因組網(wǎng)站(sol Genomics Network,SGN)公布的“HMtabacum 30k Infinium HD consensus map 2015”。(https://solgenomics.net/cview/map.pl?map_versionid=178)煙草高密度SNP遺傳圖譜中報(bào)道了一條編號(hào)為“Chromosome 17”的連鎖群,該連鎖群的長(zhǎng)度較短但SNP數(shù)量卻較其他連鎖群多出3~15倍,雖然該連鎖群的編號(hào)與本研究所用參考基因組的編號(hào)間并無(wú)聯(lián)系,但其顯著的SNP密度特點(diǎn)與本研究的17號(hào)染色體非常一致,故推測(cè)很可能是同一條染色體。EDWARDS等對(duì)普通煙草的24條染色體的起源進(jìn)行了分析,發(fā)現(xiàn)除“Chromosome Nt17”(編號(hào)與SGN網(wǎng)站一致)外其他染色體都能良好的區(qū)分為“S基因組起源”和“T基因組起源”,而“Chromosome Nt17”在普通煙草的兩個(gè)祖先種林煙草和絨毛狀煙草基因組上均有相近比例的覆蓋率,致使無(wú)法明確其染色體來(lái)源。該研究推測(cè)“Chromosome Nt17”的這種現(xiàn)象可能是由基因滲入或系譜特異染色體重排所導(dǎo)致。綜合上述分析,一方面說(shuō)明在煙草基因組內(nèi)可能存在染色體尺度的結(jié)構(gòu)變異,這對(duì)揭示異源多倍體的物種起源與進(jìn)化,基因組變異,多倍化現(xiàn)象等均有重要的研究意義:另一方面也表明,本研究的基因組測(cè)序和SNP鑒定可靠性良好,能夠準(zhǔn)確地反映煙草基因組的序列結(jié)構(gòu)特點(diǎn),可用于進(jìn)一步數(shù)據(jù)分析和發(fā)掘。
無(wú)論是在通過(guò)遺傳作圖群體進(jìn)行連鎖分析(QTL定位)還是通過(guò)自然群體進(jìn)行關(guān)聯(lián)分析(GWAS),SNP位點(diǎn)的數(shù)量都是關(guān)系到分析精度的關(guān)鍵指標(biāo),尤其是在GWAS研究中,SNP位點(diǎn)的數(shù)量還是決定能否進(jìn)行有效候選基因預(yù)測(cè)的關(guān)鍵因素。本研究采用了RAD簡(jiǎn)化基因組測(cè)序技術(shù),該技術(shù)能夠有效壓縮基因組測(cè)序的數(shù)據(jù)量,從而大幅降低研究成本,將測(cè)序技術(shù)普及到更多的分子遺傳學(xué)研究中。雖然RAD技術(shù)鑒定到的SNP位點(diǎn)數(shù)量大幅低于全基因組測(cè)序,但仍然是一種高通量的基因組遺傳位點(diǎn)分型技術(shù),且遠(yuǎn)高于SSR等分子標(biāo)記技術(shù)所能檢測(cè)到的位點(diǎn)數(shù)量。在QTL定位研究中,當(dāng)上圖標(biāo)記數(shù)量達(dá)到幾十kb,甚至僅幾kb時(shí),群體大小就成為了影響定位精度的決定因素。如煙草NtEGY1和NtEGY2的基因圖位克隆研究中,所用遺傳連鎖圖譜的位點(diǎn)總數(shù)僅9.7 kb。因此本研究鑒定到的291 kb SNP位點(diǎn)已經(jīng)足以支撐各類(lèi)煙草性狀的精細(xì)定位:在GWAS研究中,需要在目標(biāo)基因所處LD區(qū)段內(nèi)檢測(cè)到一定數(shù)量的SNP位點(diǎn)。目前煙草基因組還缺少較為精準(zhǔn)LD衰減距離,F(xiàn)RICANO A等利用7個(gè)SSR標(biāo)記遺傳連鎖群,估算了普通煙草的平均LD距離約在1 cM以?xún)?nèi),本研究將其折算成物理距離則約為1-3 Mb。根據(jù)本研究SNP位點(diǎn)的平均距離計(jì)算,在1 Mb的范圍內(nèi),檢測(cè)到的SNP數(shù)量達(dá)到了100個(gè),因此即使基因組個(gè)別位置的LD衰減速度遠(yuǎn)超平均值,本研究的SNP標(biāo)記密度仍可有效錨定候選基因。且在GWAS研究中,供試材料的數(shù)量一般會(huì)在200個(gè)以上,因此在測(cè)序深度不變的情況下鑒定到的SNP位點(diǎn)必然會(huì)大幅增加,故在利用RAD技術(shù)進(jìn)行煙草GWAS分析時(shí),平均測(cè)序深度還可比本研究的1.01 x再降低,從而進(jìn)一步減少測(cè)序成本。
目前SNP的檢測(cè)(Genotyping)方法日益豐富,如適用于高通量位點(diǎn)和群體的SNP芯片法(http://www.illumina.com/),中高通量基于質(zhì)譜的iPLEX
GoldTM
Assay、
Mass
ARRAYTM(http://www.sequenom.com/iplex),目標(biāo)序列捕捉或靶向測(cè)序(http://sequencing.roche.com),適合有限位點(diǎn)但群體規(guī)模較大的KASP標(biāo)記法,適合少量位點(diǎn)和材料且對(duì)儀器設(shè)備要求較低的CASP/dCAPS標(biāo)記、AS-PCR標(biāo)記和SSCP檢測(cè)方法等。在完成SNP位點(diǎn)的開(kāi)發(fā)后,相關(guān)研究可根據(jù)群體規(guī)模及位點(diǎn)通量需求選擇相應(yīng)的檢測(cè)方法。
4結(jié)論
本研究對(duì)10份烤煙材料利用RAD技術(shù)進(jìn)行了重測(cè)序,共鑒定到291770個(gè)SNP位點(diǎn)。煙草中SNP的變異類(lèi)型以轉(zhuǎn)換為主,轉(zhuǎn)換與顛換比值為1.74。通過(guò)分析不同染色體上SNP的分布特點(diǎn),發(fā)現(xiàn)在煙草基因組中17號(hào)染色體上半臂的SNP位點(diǎn)密度最高?;诟咄繙y(cè)序的RAD技術(shù)能夠?yàn)闊煵葸z傳研究提供足夠數(shù)量的SNP位點(diǎn),還能大幅節(jié)省測(cè)序費(fèi)用,在遺傳定位和基因發(fā)掘研究中具有良好的應(yīng)用前景。