張小紅,彭 瓊,鄢 錚
(福州市農(nóng)業(yè)科學研究所,福州 350018)
甘薯[Ipomoea batatas(L.)Lam.]被認為是最具潛力的高產(chǎn)救荒糧食作物,具有易種植、自然適應(yīng)性廣、抗逆性強等優(yōu)點[1]。由于甘薯富含淀粉,能源產(chǎn)量較高,因此也被當作一種新型能源作物,用于燃料乙醇的生產(chǎn)[2]。中國作為甘薯的主要生產(chǎn)國,種植面積與產(chǎn)量早已超越其他國家,分別占全球總量的36.65%和63.84%[3]。但是,目前中國甘薯多數(shù)育成品種的遺傳組成都具有‘勝利百號’和‘南瑞苕’的成分,主栽品種種間遺傳基礎(chǔ)過于狹窄,不利于甘薯品種的遺傳改良,同時也制約著甘薯新品種的選育進程[4-5]。因此,對甘薯品種的遺傳多樣性進行分析,有助于明確甘薯種質(zhì)的差異,鑒定和評估優(yōu)質(zhì)甘薯種質(zhì)資源,了解甘薯品種間的親緣關(guān)系及遺傳背景,對甘薯的遺傳改良與新品種選育具有現(xiàn)實意義。
DNA分子標記是目前研究物種遺傳多樣性、鑒定物種種質(zhì)資源、構(gòu)建遺傳圖譜最高效可靠的方法,具有傳統(tǒng)標記所沒有的優(yōu)勢,在植物中已經(jīng)得到了廣泛的應(yīng)用[6-9]。近年來,隨著基因組學和分子生物學的迅速發(fā)展,利用具有高通量特性的轉(zhuǎn)錄組測序技術(shù)實現(xiàn)了分子標記的大規(guī)模挖掘,基于轉(zhuǎn)錄組測序的DNA分子標記技術(shù)也因此受到了極大的關(guān)注[10]。目前,以轉(zhuǎn)錄組測序為基礎(chǔ)開發(fā)的分子標記主要為簡單重復序列標記(Simple Sequence Repeats,SSR)和單核苷酸多態(tài)性標記(Single Nucleotide Polymorphsm,SNP)[10-11]。SSR作為第二代微衛(wèi)星分子標記技術(shù),因其數(shù)量豐富、多態(tài)性高、重復性好、易于檢測等優(yōu)點,成為植物基因組分析的重要來源[12]。SNP 是由單個核苷酸變異引起的DNA序列多態(tài)性,具有位點密度高、分布廣泛、代表性強、遺傳穩(wěn)定等特點,被認為是逐步取代過去其他分子標記的新一代分子標記技術(shù)[13-14]。
由于甘薯是一種異源六倍體植物,遺傳背景復雜,且存在自交不親等問題,僅根據(jù)表型性狀比較判斷,難以真實反映其遺傳差異和親緣關(guān)系,而DNA分子標記具有穩(wěn)定性好、多態(tài)性高且不受客觀環(huán)境影響等特點,因此已作為甘薯種質(zhì)資源研究及遺傳鑒定的一種重要手段[15-16]。Wang 等[17]基于甘薯轉(zhuǎn)錄組測序數(shù)據(jù),獲得了8294 個SSR 重復位點,并設(shè)計了1060 對SSR 引物用于甘薯多態(tài)性評價和遺傳圖譜構(gòu)建。張超凡等[18]通過對12 對SSR 引物進行PCR 擴增,分析了31 份湖南甘薯品種的遺傳多樣性。Xie 等[19]從紫薯的轉(zhuǎn)錄組測序分析中搜索到851個潛在的SSR。Zhao等[20]利用高通量測序?qū)ψ先飧适怼┦?號’及其高花青素的突變體進行轉(zhuǎn)錄組分析,從7547個Unigenes中鑒定出2349個潛在的SSR 標記用于多態(tài)性研究。許家磊從‘徐781’和‘徐薯18’的轉(zhuǎn)錄組測序數(shù)據(jù)中挖掘到1386 個SNP 候選位點,并檢測了這些候選SNP 位點,提出了甘薯SNP 分子標記適合的檢測方法,可以用于甘薯SNP分子標記的開發(fā)[10]。
因此,鑒于SSR 和SNP 標記具有共顯性遺傳、檢測方便和多態(tài)信息含量高等特點,本研究基于甘薯轉(zhuǎn)錄組的測序數(shù)據(jù),對潛在的SSR位點和SNP位點進行挖掘及特征分析,以此完善甘薯分子標記,為今后甘薯的種質(zhì)資源評估、遺傳圖譜構(gòu)建和分子標記輔助育種等方面的研究提供有力參考。
供試材料耐鹽甘薯品種‘榕薯819’和不耐鹽甘薯品種‘榕薯910’均由福州市農(nóng)業(yè)科學研究所提供。
將經(jīng)200 mmol/L NaCl 溶液處理0、3、6 天的不同基因型甘薯樣品進行Illumina 高通量測序(測序委托北京組學生物科技有限公司完成)。測序完成后,對原始數(shù)據(jù)(Raw data)進行過濾,再采用Trinity[21]組裝軟件對Clean reads 進行序列組裝,共獲得157252 條Unigenes,總長度為90649057 bp,平均組裝長度為576 bp。后續(xù)SSR及SNP分析均基于該Unigenes庫進行。
采 用MISA(http://pgrc.ipk-gatersleben.de/misa/misa.html)對Unigenes 進行SSR 檢測,鑒定SSR 類型,再根據(jù)SSR兩端互補序列,利用Primer3[22]進行SSR引物設(shè)計。以Unigene作為模板用e-PCR[23]做電子PCR,去除有多處比對的引物以保證設(shè)計引物擴增的唯一性。
利用針對RNA-Seq的STAR軟件[24]比對每個樣本的Reads 與Unigene 序列,使用GATK 軟件[25]識別測序樣品與Unigene 間的單堿基錯配,識別潛在的SNP 位點。GATK 識別標準為:(1)35 bp 范圍內(nèi)連續(xù)出現(xiàn)的單堿基錯配不超過3 個;(2)經(jīng)過序列深度標準化的SNP質(zhì)量值高于30。
利用MISA 對Unigenes 進行SSR 分析,統(tǒng)計結(jié)果如表1 所示,甘薯轉(zhuǎn)錄組共獲得157252 條Unigenes 序列,序列總長度為90649057 bp,平均長度為576 bp。按照搜索標準,在157252 條Unigenes 序列中共發(fā)現(xiàn)SSR 位點33192 個,分布在24323 條Unigenes 中,發(fā)生頻率(含SSR 的Unigenes 數(shù)與總Unigenes 數(shù)之比)為15.47%。其中,6271 條Unigenes 含有超過1 個以上的SSR 位點。甘薯轉(zhuǎn)錄組中SSR 位點出現(xiàn)頻率(SSR 數(shù)目與總Unigenes的數(shù)目比值)為21.11%。SSR 位點的平均出現(xiàn)頻率為0.37 個/kb,即每2.73 kb 堿基序列就出現(xiàn)1個SSR位點。
研究共鑒定出全部6 種SSR 類型,涉及類型較為豐富,且各類型的出現(xiàn)頻率和所占比率各不相同(表1)。其中單核苷酸重復SSR 18718 個,雙核苷酸重復SSR 8121 個,三核苷酸重復SSR 5565 個,四核苷酸重復SSR 601個,五核苷酸重復SSR 129個,六核苷酸重復SSR 58 個,分別占總SSR 數(shù)量的56.39%、24.47%、16.77%、1.81%、0.39%以及0.17%。
表1 SSR分析結(jié)果統(tǒng)計
在甘薯轉(zhuǎn)錄組SSR 中,重復基元的種類較多,共觀察到120 種重復基元(表2)。其中單核苷酸重復基元有A/T、C/G 兩種,且A/T 數(shù)量最多,為18391 個,占SSR 總數(shù)的55.41%。雙核苷酸重復基元有4 種,所占比例最高的為AG/CT,共3706 個(11.17%)。三核苷酸重復基元有10 種,AAT/ATT 和AAG/CTT 數(shù)量最多,分別有1606 個(4.84%)和1325 個(3.99%)。四核苷酸、五核苷酸和六核苷酸重復基元則分別有28 種)、40 種和36 種,除AAAT/ATTT之外(231 個,0.69%),其余核苷酸重復基元數(shù)量均在100個以下,占比不足1%。
表2 甘薯轉(zhuǎn)錄組的SSR重復基元類型分布
由表3 可以看出,甘薯耐鹽轉(zhuǎn)錄組SSR 重復基元中,單核苷酸重復基元的重復次數(shù)主要集中在10~12次,且在5~9次重復中并無重復基元,而其他核苷酸重復基元的重復次數(shù)則主要分布在5~8次之間。從表中可以看出,SSR 基元重復次數(shù)最多的為10 次,有6256個,其次為6 次,有4139 個。從總體趨勢上看,SSR 重復基元數(shù)是隨著重復次數(shù)的增加而遞減。
表3 甘薯轉(zhuǎn)錄組SSR重復基元的重復次數(shù)分布 次
由表4 可見,本研究中SSR 長度變化范圍主要分布在10~553 bp之間。其中長度在12~20 bp的SSR數(shù)量最多,共14075個,占總數(shù)的49.01%。其次為21~30 bp,共有SSR 3647 個,占總數(shù)的12.70%。長度在41~50 bp 和50~60 bp 的SSR 則分別有573 個和390 個,占比3.28%和2.00%。而長度分布在61~70 bp 以及71~80 bp的SSR占比最少,均不足1%,分別為0.80%(229個)和0.65%(188 個)。長度大于80 bp 的SSR 則有1873個,占總數(shù)的6.52%。由此可見,甘薯耐鹽轉(zhuǎn)錄組SSR主要集中在10~20 bp之間,多態(tài)性中等。
表4 甘薯轉(zhuǎn)錄組SSR重復序列的長度分布
篩選出可應(yīng)用的甘薯SSR,利用Primer 3 進行SSR引物設(shè)計,結(jié)果顯示,研究共獲得符合標準的引物15411 對,其中多態(tài)性較高的SSR(長度在20 bp 以上)共獲得3175對引物。部分引物序列參見表5。
表5 甘薯轉(zhuǎn)錄組部分SSR引物序列
研究利用GATK 軟件識別測序樣品潛在的SNP位點,在157252 條Unigenes 中挖掘到7691906 個SNP位點,SNP的分布密度為0.08個/bp,即平均約11.78 bp就會岀現(xiàn)1 個SNP 位點。從表6 中可以看出,轉(zhuǎn)換類型(Transition)有4729922個,占總數(shù)的61.49%,顛換類型(Transversion)有2961984個,占38.51%,轉(zhuǎn)換類型與顛換類型之比為1.60。在6 種突變類型中,同屬于轉(zhuǎn)換類型的C/T 和A/G 含量最高,分別為2487774 個和2242148 個,占總數(shù)的32.34%和29.15%。剩下的4 種顛換類型所占比例較低,分別為G/T 10.48%(806215個)、A/T 10.22%(785938 個)、C/G 9.31%(716147 個)以及A/C 8.50%(653684個)。
表6 甘薯轉(zhuǎn)錄組SNP類型統(tǒng)計
近年來,隨著新一代高通量測序技術(shù)的快速發(fā)展和完善,基于轉(zhuǎn)錄組測序開發(fā)的SSR標記和SNP標記也成為了目前生物界最流行的用于遺傳圖譜構(gòu)建、基因功能研究、分子標記輔助育種的技術(shù)方法[10,26]。目前,國內(nèi)已有學者對基于甘薯轉(zhuǎn)錄組測序的SSR分子標記開發(fā)進行了研究,但相關(guān)報道仍少于其他作物,而SNP分子標記的研究更是處于相對滯后的狀態(tài)[27-28]。
本研究基于甘薯轉(zhuǎn)錄組測序數(shù)據(jù),共發(fā)現(xiàn)SSR 位點33192 個,出現(xiàn)頻率為21.11%,高于小麥(7.32%)[29]、玉米野生近緣種‘大芻草’(13.31%)[30]、印度南瓜(9.52%)[31]和辣椒(7.83%)[32],同時也高于Wang 等[33](7.28%)、Li(4.88%)等[34]和Zhu(10.38%)等[35]其他學者對甘薯SSR的研究結(jié)果,表明本研究中SSR的分布密度較大,數(shù)量較為豐富。
在SSR 類型分布特征分析中,本研究共鑒定出全部6種SSR類型,涉及類型較為豐富,且各類型的出現(xiàn)頻率和所占比率各不相同,其中單核苷酸重復SSR所占比重最大,占總數(shù)的56.39%,這與火龍果[9]、木荷[36]、李府貢棗[8]等植物的研究結(jié)果相同。而鄭燕等[37]在對4 種禾本科植物(二穗短柄草、水稻、玉米、高粱)的SSR研究中發(fā)現(xiàn),三核苷酸重復SSR數(shù)量最多,六核苷酸重復SSR 次之。蔣超等[38]研究發(fā)現(xiàn),在金銀花及其變種紅白忍冬中,占主導地位的SSR為二核苷酸重復SSR,其次為三核苷酸重復SSR。由此可見,不同物種間的SSR分布特征相差較大,其原因可能是物種間的基因組大小存在差異。此外,有研究表明,除三核苷酸和六核苷酸主要發(fā)生在編碼區(qū)以內(nèi)之外,其余核苷酸類型均與非翻譯區(qū)相關(guān)[39]。本研究中,甘薯SSR 以單核苷酸為優(yōu)勢基元,表明該轉(zhuǎn)錄組Unigenes中包含了更多的非翻譯區(qū)信息。在單核苷酸重復基元中,A/T(55.41%)含量明顯高于C/G(0.99%)含量,這一結(jié)果符合植物單核苷酸重復基元中A/T 更為豐富這一規(guī)律[40]。在二核苷酸重復基元中,AG/CT所占比例最高,為11.17%,這也與前人的研究結(jié)果相一致[33]。
SSR分子標記的多態(tài)性是判斷其可用性的重要標準,SSR 的長度和重復次數(shù)是影響其多態(tài)性高低的重要因素[8,41]。當SSR長度在12 bp以下時,多態(tài)性較低;長度分布在12~20 bp 之間時,多態(tài)性中等;而長度大于20 bp時,多態(tài)性較高[8,41]。本研究中,甘薯SSR長度變化范圍主要分布在10~553 bp之間,其中長度在12~20 bp 的SSR 數(shù)量最多,共14075 個,占總數(shù)的49.01%。長度大于20 bp 的SSR 有7843 個,占總數(shù)的27.30%。由此可見,甘薯耐鹽轉(zhuǎn)錄組SSR主要集中在10~20 bp 之間,多態(tài)性中等,而長度大于20 bp 的SSR具有較高的多態(tài)性,可以作為甘薯SSR分子標記引物設(shè)計的依據(jù)。雖然SSR在基因組上的位置不盡相同,但是其兩端序列多是保守的單拷貝序列,因此根據(jù)SSR兩端互補序列來設(shè)計擴增引物,通過PCR反應(yīng)將得到的產(chǎn)物進行凝膠電泳,即可顯示SSR位點的多態(tài)性。本研究共獲得符合標準的引物15411 對,其中多態(tài)性較高的SSR(長度在20 bp以上)共獲得3175對引物,可為后續(xù)甘薯SSR多態(tài)性分析提供有效數(shù)據(jù)。
在SNP 特征分析中,研究共獲得7691906 個SNP位點,分布密度為0.08個/bp,即平均約11.78 bp就會出現(xiàn)1 個SNP 位點。SNP 分布密度顯著大于SSR,表明單核苷酸變異在甘薯的基因組中更易發(fā)生。其中,轉(zhuǎn)換類型(61.49%)所占比例明顯高于顛換類型(38.51%),這與大多數(shù)植物的研究結(jié)果相一致。究其原因在于,DNA 序列中包含了大量的CpG 位點,而CpG 位點的胞嘧啶(C)極易發(fā)生突變,被甲基化后可以通過脫氨作用轉(zhuǎn)化為胸腺嘧啶(T),從而形成了嘧啶和嘧啶之間的替換,使得轉(zhuǎn)換比例有所增加[42-43]。在6 種突變類型中,同屬于轉(zhuǎn)換類型的C/T和A/G含量最高,分別占總數(shù)的32.34%和29.15%,這與蛇足石杉[7]、火龍果[9]和李府貢棗[8]等植物的研究結(jié)果相同。
鑒于甘薯的遺傳背景較為復雜,DNA分子標記以其高穩(wěn)定性、高多態(tài)性等特點已成為甘薯種質(zhì)資源研究及遺傳鑒定的一種重要手段。本研究基于轉(zhuǎn)錄組測序技術(shù),結(jié)合生物信息學分析等方法,在甘薯中挖掘到大量SSR和SNP位點,豐富了甘薯分子標記類型。在對這些分子標記位點的特征分析中發(fā)現(xiàn),本研究獲得的SSR 和SNP 數(shù)量較豐富,出現(xiàn)頻率較高,分布密度較大,具有較高的多態(tài)性。此外,獲得的這些SSR 和SNP 標記均來自甘薯轉(zhuǎn)錄組測序數(shù)據(jù),轉(zhuǎn)錄組來源的SSR和SNP多位于基因編碼區(qū),可獲得與植物抗逆、生長發(fā)育等直接相關(guān)的功能基因表達信息,這也為甘薯功能基因的挖掘鑒定、分子標記輔助育種、甘薯遺傳結(jié)構(gòu)分析以及遺傳圖譜的構(gòu)建奠定了理論基礎(chǔ)。