陸海燕,陳璐,王顯生,趙涵,沈奇*
(1.江蘇省農(nóng)業(yè)科學(xué)院/江蘇省農(nóng)業(yè)生物學(xué)重點(diǎn)實(shí)驗(yàn)室,南京210014;2.鹽城師范學(xué)院,江蘇鹽城224007)
棉花是世界上重要的纖維作物[1]。我國(guó)作為主要的棉花生產(chǎn)國(guó)家,棉花新品種數(shù)量持續(xù)增加,產(chǎn)量和纖維品質(zhì)也有極大提高,促進(jìn)了棉花生產(chǎn)的發(fā)展[2]。在新品種審定過(guò)程中,須通過(guò)田間測(cè)試評(píng)價(jià)品種的特異性、一致性和穩(wěn)定性[3],工作量大,成本高,且同名異物和近似品種等問(wèn)題,無(wú)形中增加了工作難度。此外,隨著衍生品種的不斷涌現(xiàn),通過(guò)形態(tài)學(xué)鑒定棉花品種顯得越來(lái)越難[4]。分子標(biāo)記能有效地在DNA水平上區(qū)分材料之間的差異,反映親緣關(guān)系,可用于輔助選擇近似品種以及棉花品種的鑒定工作。
目前許多分子標(biāo)記已用于棉花品種鑒定等研究中,例如隨機(jī)擴(kuò)增多態(tài)性DNA(Random amplified polymorphic DNA,RAPD)標(biāo)記[5-8]、擴(kuò)增片段長(zhǎng)度多態(tài)性(Amplified fragment length polymorphism,AFLP)標(biāo)記[9-11]、簡(jiǎn)單 重 復(fù)序列(Simple sequence repeat,SSR)[12-15]。 盡管這些標(biāo)記能夠在一定程度上揭示不同品種的基因變異,但是部分標(biāo)記仍存在多態(tài)性低、基因型不易判別等局限性。而理想的分子標(biāo)記應(yīng)具有穩(wěn)定性好、多態(tài)性高、操作簡(jiǎn)便、帶型清晰易判別、在各基因組上分布均勻及開(kāi)發(fā)使用成本低等特點(diǎn)[16]。
InDel(Insertion-deletion)是基于聚合酶鏈?zhǔn)椒磻?yīng)(Polymerase chain reaction,PCR)擴(kuò)增技術(shù)的堿基序列長(zhǎng)度多態(tài)性標(biāo)記[17]。大量研究表明,InDel標(biāo)記不僅具有分布廣、重復(fù)性好、開(kāi)發(fā)成本低、結(jié)果準(zhǔn)確等優(yōu)點(diǎn),而且基因型判別簡(jiǎn)單快速[18]。InDel標(biāo)記已經(jīng)被認(rèn)定為1個(gè)重要的分子標(biāo)記來(lái)源,并成功應(yīng)用于水稻[19-20]、玉米[21-22]等作物的連鎖圖譜構(gòu)建和品種鑒定。徐鵬等開(kāi)發(fā)了陸地棉耐鹽相關(guān)的功能InDel標(biāo)記,能夠用于輔助育種改良陸地棉等耐鹽性[23];Zhang等[24]開(kāi)發(fā)了一個(gè)能用于區(qū)分?jǐn)y帶核不育修復(fù)基因的恢復(fù)系和不攜帶該基因等位基因的其他基因型的InDel-R標(biāo)記,而InDel標(biāo)記用于解析棉花的遺傳組成差異、棉花品種鑒定和純度檢測(cè)等方面的報(bào)道較少。目前,棉花基因組二代測(cè)序數(shù)據(jù)提供了豐富的In-Del變異位點(diǎn),為開(kāi)發(fā)InDel標(biāo)記提供了便利。通過(guò)生物信息學(xué)手段篩選、過(guò)濾測(cè)序數(shù)據(jù),評(píng)價(jià)多態(tài)性,能夠挖掘有效的InDel分子標(biāo)記。
本研究擬采用來(lái)源不同的121份棉花全基因組信息,根據(jù)高多態(tài)性信息含量(Polymorphism information content,PIC)篩選多態(tài)性高的InDel位點(diǎn),基于部分多態(tài)性高的InDel位點(diǎn),開(kāi)發(fā)二態(tài)性InDel標(biāo)記,并在66個(gè)棉花主栽品種中進(jìn)行驗(yàn)證;通過(guò)基因型數(shù)據(jù)構(gòu)建系統(tǒng)發(fā)育樹(shù)及對(duì)所用棉花品種的背景和來(lái)源進(jìn)行遺傳結(jié)構(gòu)推斷,以獲得可以用于棉花品種鑒定和純度檢測(cè)的多態(tài)性In-Del標(biāo)記,提高種子檢驗(yàn)的精確度和效率,并在棉花的育種中發(fā)揮作用。
從 NCBI(www.ncbi.nlm.nih.gov)下載 121 份棉花序列,刪除經(jīng)Q20過(guò)濾后保留的堿基數(shù)低于棉花理論基因組大小的材料。采用編寫的Perl腳本和VCFtools軟件計(jì)算分析最小等位基因頻率(Minimum average allelic frequency,MAF)和最終保留PIC,選擇MAF大于0.05的位點(diǎn),刪除基因型缺失率超過(guò)20%的位點(diǎn),同時(shí)以哈迪溫伯格平衡顯著性閥值(Hardy-Weinberg equilibrium,HWE)P<0.001為標(biāo)準(zhǔn)再次過(guò)濾,最終保留PIC>0.4的二態(tài)性InDel變異位點(diǎn)[21]。
選取來(lái)源于我國(guó)黃河流域與長(zhǎng)江流域棉區(qū)的66個(gè)主栽棉花品種為研究材料,于2018年種植于江蘇省農(nóng)業(yè)科學(xué)院實(shí)驗(yàn)基地,采集嫩葉提取DNA,用于 PCR 驗(yàn)證(表 1)。
InDel標(biāo)記開(kāi)發(fā):根據(jù)InDel位點(diǎn)和側(cè)翼序列設(shè)計(jì)PCR擴(kuò)增引物,開(kāi)發(fā)InDel分子標(biāo)記。每個(gè)標(biāo)記包含上下游(F、R)2條引物,引物設(shè)計(jì)由mInDel軟件包[25]完成,設(shè)置參數(shù)Tm為(58±3)℃,引物長(zhǎng)度為(20±3)bp(base paris),PCR 產(chǎn)物預(yù)測(cè)長(zhǎng)度為100~450 bp,其他參數(shù)為默認(rèn)。引物由上海生工生物科技有限公司合成。
棉花基因組DNA提取和PCR擴(kuò)增:取棉花幼嫩葉,按照上海浦迪植物基因組提取試劑盒操作步驟提取基因組DNA。PCR反應(yīng)總體系為12 μL, 包含上下游引物各 0.5 μL(濃度 為10 μmol·L-1)、6 μL 2 ×TaqMaster Mix、3.2 μL ddH2O、模板 DNA 1.8 μL。PCR反應(yīng)程序:第 1步,94 ℃ 3 min; 第 2 步,94 ℃ 30 s,58 ℃ 30 s,72℃ 30 s,共進(jìn)行 35個(gè)循環(huán) ;第 3步:72℃ 5 min。PCR擴(kuò)增產(chǎn)物在20 g·L-1的瓊脂糖凝膠上進(jìn)行電泳分離,經(jīng)溴化乙錠(EB)染色,用凝膠成像儀拍照、記錄。
表1 試驗(yàn)材料詳細(xì)信息Table 1 Details of experimental materials
凝膠上的帶型讀取方式:短片段讀成A、長(zhǎng)片段讀成B、2條帶型讀成H。根據(jù)基因型分型結(jié)果,以及標(biāo)記在棉花基因組染色體上的分布等信息,挑選有效的InDel標(biāo)記。采用編寫的Perl腳本和VCFtools軟件計(jì)算分析二態(tài)性InDel標(biāo)記的MAF、PIC[26]。利用TASSELV5.0軟件的鄰接算法(Neighbor-Joining,N-J)[27]計(jì)算品種之間的遺傳距離并構(gòu)建聚類圖。
通過(guò)同源對(duì)比過(guò)濾121份棉花基因組序列,共篩選出10 967個(gè)二態(tài)性InDel位點(diǎn)(缺失率<20%,MAF>0.05)。 物理定位結(jié)果顯示,InDel位點(diǎn)主要分布在基因間區(qū)。
為了便于電泳技術(shù)檢測(cè)目標(biāo)InDel位點(diǎn)差異,選擇生物信息學(xué)分析獲得的大于20 nt的In-Dels,并結(jié)合其在棉花基因組上的位置信息,在這些位點(diǎn)附近選擇合適的位點(diǎn)轉(zhuǎn)化為InDel標(biāo)記。本研究選取85個(gè)位點(diǎn)合成引物,用于檢測(cè)InDel標(biāo)記的多態(tài)性,其中有52對(duì)引物是棉花基因組At亞組的特異引物,33對(duì)是Dt亞組的特異引物。用85對(duì)引物分別擴(kuò)增66個(gè)主栽棉花品種DNA,結(jié)果顯示:64對(duì)引物能擴(kuò)增出清晰的帶型(其中部分引物信息見(jiàn)表2),在不同品種之間有明顯的多態(tài)性。以引物JSC009、JSC071為例,在66個(gè)品種DNA中,均能擴(kuò)增出3種帶型:A/B/H(圖1),且產(chǎn)物大小與預(yù)測(cè)結(jié)果相吻合。
對(duì)擴(kuò)增有效的64對(duì)引物位點(diǎn)的多態(tài)性信息統(tǒng)計(jì)結(jié)果:At亞組染色體的MAF變化范圍為0.15~0.49,平均值為 0.45;Dt亞組染色體的MAF變化范圍為0.14~0.49,平均值為0.32。At亞組染色體的PIC變化范圍為0.16~0.49,平均值為 0.49;Dt亞組染色體的 PIC變化范圍為0.18~0.49,平均值為 0.40(圖 2)。 結(jié)果表明,64對(duì)引物具有較高的特異性和穩(wěn)定性。
圖1 高多態(tài)性InDel標(biāo)記JSC009和JSC071對(duì)66個(gè)棉花品種DNA擴(kuò)增產(chǎn)物的瓊脂糖凝膠檢測(cè)結(jié)果Fig.1 The agarose gel electrophoresis results of DNA PCR products with high polymorphism InDel markers JSC009 and JSC071 in 66 cotton cultivars
表2 部分InDel標(biāo)記信息Table 2 The information of partial InDel markers
表2(續(xù))Table 2(Continued)
圖2 64個(gè)InDel標(biāo)記的遺傳多態(tài)性Fig.2 The genetic polymorphisms of 64 InDels
基于64個(gè)InDel分子標(biāo)記的電泳結(jié)果統(tǒng)計(jì)66個(gè)棉花品種的基因型,計(jì)算其遺傳距離。結(jié)果(表3)表明,所用棉花品種的遺傳距離范圍是0.04~0.65 cM(centimorgan,厘摩),平均為 0.39 cM,表明所用的棉花品種具有豐富的遺傳多樣性,能夠用來(lái)驗(yàn)證64個(gè)InDel分子標(biāo)記特異性。遺傳距離最大的2個(gè)品種是泗棉3號(hào)(編號(hào)為49)和中棉所 36(編號(hào)為 43),遺傳距離為 0.65 cM,表明二者的遺傳差異較大,親緣關(guān)系較遠(yuǎn);遺傳距離最小的是徐棉18(編號(hào)為8)和徐雜3號(hào)(編號(hào)為9),遺傳距離為0.04 cM,表明兩者遺傳差異較小。
66個(gè)棉花品種的系統(tǒng)發(fā)育樹(shù)(圖3)顯示,在Group 1中,來(lái)自河南的新植5號(hào)、豫雜35、豫雜37、中棉所12、中棉所45聚在一起;鑫秋1號(hào)和鑫秋4號(hào)聚集,通過(guò)對(duì)這2個(gè)品種遺傳系譜查詢表明,兩者均來(lái)自山東;同樣來(lái)自河南的鄭農(nóng)棉4號(hào)、鄭育棉2號(hào)、鄭雜棉2號(hào)聚類在一起。Group 2群體結(jié)構(gòu)顯示,來(lái)自徐州的2個(gè)品種,徐棉18和徐雜3號(hào)聚類,來(lái)自湖南的湘K27、湘XP63、湘K26聚類在一起。在Group 3中,同樣來(lái)自河南的銀山2號(hào)、豫棉13、中棉所17、中棉所19聚
類在一起。具有相同地理來(lái)源的多數(shù)品種聚為一類,但也有例外,如安徽省的2個(gè)品種,綠億棉19劃分在Group 1中,思福棉1號(hào)劃分為Group 2;江蘇省的其他7個(gè)品種散落于3組。
表3 遺傳距離統(tǒng)計(jì)結(jié)果Table 3 Statistics of genetic distance
圖3 基于鄰接算法構(gòu)建的66個(gè)棉花品種系統(tǒng)發(fā)育樹(shù)Fig.3 Phylogenetic tree of 66 cotton cultivars based on the Neighbor-Joining method
在分子水平上揭示不同材料之間的遺傳差異,方法易行,結(jié)果可靠,不受外界環(huán)境條件影響。分子標(biāo)記技術(shù)可在棉花生育早期檢測(cè),準(zhǔn)確鑒定棉花品種間的差異,對(duì)于提高種子純度檢測(cè)效率有重要意義。Jia等[28]利用80個(gè)全基因組SSR標(biāo)記,對(duì)197份亞洲棉進(jìn)行了基因分型,建立了亞洲棉的遺傳多樣性和種群結(jié)構(gòu)模式。郭旺珍等[5]利用18個(gè)RAPD標(biāo)記,對(duì)我國(guó)9個(gè)棉花主栽品種的基因組進(jìn)行PCR擴(kuò)增,有13個(gè)標(biāo)記在品種間具有多態(tài)性,證明了RAPD標(biāo)記在品種純度鑒定的可行性;Abdalla等[11]利用16個(gè)AFLP引物組合對(duì)我國(guó)2種四倍體棉種和3種二倍體棉種進(jìn)行了研究,結(jié)果表明,AFLP標(biāo)記的多態(tài)性明顯高于RAPD標(biāo)記;匡猛等[1]用36對(duì)SSR引物擴(kuò)增32個(gè)材料DNA,共擴(kuò)增出142種基因型,平均每對(duì)引物擴(kuò)增出3.94種基因型。本研究用64對(duì)InDel引物擴(kuò)增66個(gè)材料的DNA,每對(duì)引物均呈現(xiàn)二態(tài)性,提高了基因型判讀的準(zhǔn)確性和效率。
目前,在水稻、人類等物種中,InDel的相關(guān)研究越來(lái)越受到關(guān)注[29-30]。InDel標(biāo)記已被公認(rèn)為重要的遺傳標(biāo)記資源,應(yīng)用于高密度遺傳圖譜的構(gòu)建、全基因組關(guān)聯(lián)分析等研究中。二態(tài)性InDel標(biāo)記具有穩(wěn)定遺傳、多態(tài)性高、共顯性等優(yōu)點(diǎn),通過(guò)簡(jiǎn)單的PCR及凝膠電泳即可進(jìn)行基因分型。但是二態(tài)性InDel標(biāo)記在檢測(cè)多倍體物種中,用一對(duì)引物不能實(shí)現(xiàn)該位點(diǎn)多種不同變異的檢測(cè),因此最終產(chǎn)生的二態(tài)性InDel標(biāo)記組合需要覆蓋整個(gè)基因組,才能保證品種鑒定的準(zhǔn)確性。
本研究所用棉花是異源四倍體,基因組的結(jié)構(gòu)變異更為復(fù)雜。棉花二態(tài)性InDel標(biāo)記的獲得對(duì)揭示棉花進(jìn)化以及品種鑒定有著巨大的價(jià)值。本研究中,基于棉花基因組序列,采用生物學(xué)手段篩選,挖掘10 967個(gè)InDel位點(diǎn),這些位點(diǎn)覆蓋棉花基因組的關(guān)鍵區(qū)域。根據(jù)InDel標(biāo)記基因分型特點(diǎn)及位點(diǎn)的多態(tài)性要求,合成85對(duì)InDel引物,根據(jù)基因分型結(jié)果,選擇其中高PIC的引物,共64對(duì)。通過(guò)對(duì)66個(gè)棉花材料聚類分析發(fā)現(xiàn),具有相同地理來(lái)源的品種有時(shí)會(huì)最先聚為一起,例如徐棉18和徐雜3號(hào),這與Liu等[31]認(rèn)為SSR聚類結(jié)果與地理分布成正相關(guān)基本一致。本研究表明,地理來(lái)源相近的多數(shù)品種聚為一類,來(lái)自同一種植區(qū)的栽培種親緣關(guān)系較近,遺傳距離和聚類分析結(jié)果基本上反映了品種之間的親緣關(guān)系。棉花At、Dt基因亞組在馴化和選擇過(guò)程中的進(jìn)化是獨(dú)立的,各基因組的變異能夠反映整個(gè)棉花的基因組變異。
本研究基于66個(gè)國(guó)內(nèi)主要棉花品種,開(kāi)發(fā)針對(duì)棉花At、Dt基因亞組的特異性InDel標(biāo)記,不僅容易檢測(cè),而且能很好地反映棉花之間的差異,有助于棉花品種的檢測(cè)以及能夠在棉花分子育種方面提供DNA水平上的信息。