毛立彥 龍凌云 檀小輝 檀業(yè)維 韋勇杰 於艷萍 賓振鈞 覃劍鋒 覃茜 金剛
(廣西壯族自治區(qū)亞熱帶作物研究所,南寧,530001)
單核苷酸多態(tài)性(SNP)是指基因組范圍的單個核酸堿基的插入、缺失、轉(zhuǎn)換、顛換等突變引起的DNA序列多態(tài)性。由于其密度高、遺傳穩(wěn)定性強,易于自動化分析等特點,已經(jīng)成為第三代分子標(biāo)記,目前已廣泛應(yīng)用于動植物的遺傳多樣性分析[1]、遺傳連鎖圖譜構(gòu)建[2]、品種鑒定[3]及重要性狀的基因定位[4]等相關(guān)研究中。但SNP標(biāo)記開發(fā)前期需要測序的成本費用較高導(dǎo)致其未能被大規(guī)模開發(fā),因此,利用已知數(shù)據(jù),通過生物信息學(xué)分析進(jìn)行SNP標(biāo)記進(jìn)行前期位點開發(fā)挖掘、再通過試驗進(jìn)行候選SNP位點檢測驗證,是SNP標(biāo)記降低成本的快捷高效的開發(fā)途徑之一[5]。
EST(表達(dá)序列標(biāo)簽)是來源于功能基因表達(dá)的cDNA片段,也是識別轉(zhuǎn)錄區(qū)多態(tài)性的重要資源。隨著研究的深入,公共數(shù)據(jù)庫中EST序列以飛快的速度遞增,極大地促進(jìn)了以EST序列為基礎(chǔ)的分子標(biāo)記的開發(fā),目前EST-AFLP、EST-RFLP、EST-SSR、EST-SNP等分子標(biāo)記手段已經(jīng)非常普遍[6]。這些基于EST序列開發(fā)出的分子標(biāo)記除具有一般常用分子標(biāo)記的特點之外還具有通用性好、信息量大、開發(fā)方法簡單快捷、成本低等優(yōu)點。特別是綜合多種優(yōu)點的EST-SNP,其研究結(jié)果很可能與表達(dá)基因緊密相關(guān),可直接運用于動植物分子育種等相關(guān)研究領(lǐng)域的實踐應(yīng)用[7]。對于沒有全基因序列信息的動植物來講,利用EST序列進(jìn)行候選SNP位點的挖掘具有非常重要的研究意義。
石斛屬(DendrobiumSw.)是蘭科植物中僅次于石豆蘭屬(BulbophyllumThou.)的第二大屬,也是兼具較高藥用價值和觀賞價值的一個屬,全球有1 000~1 400個種,廣泛分布于亞熱帶及熱帶地區(qū)。我國是石斛的重要分布地區(qū)之一,由于品種數(shù)量龐大,對于其品種鑒定前人嘗試了多種方法[8],但至今對于石斛的分子鑒定及分類還是存在極大困難,嚴(yán)重限制了石斛育種進(jìn)程及其產(chǎn)業(yè)的發(fā)展,因此,對于石斛的品種鑒定、分類及遺傳多樣性的研究仍舊是石斛研究當(dāng)務(wù)之急。利用石斛在NCBI中的dbEST數(shù)據(jù)庫進(jìn)行候選SNP位點的挖掘,開發(fā)石斛SNP分子標(biāo)記對石斛育種、分類及遺傳多樣性分析都具有重要意義。本研究從NCBI的EST數(shù)據(jù)下載石斛EST序列,通過生物信息學(xué)方法篩選候選SNP位點,為石斛EST-SNP標(biāo)記的開發(fā)及后續(xù)石斛的遺傳多樣性分析、品種鑒定、性狀基因定位及分子育種等研究奠定基礎(chǔ)。
從NCBI的dbEST數(shù)據(jù)庫(https://www.ncbi.nlm.nih.gov/nucest/?term=Dendrobium)下載16 183條石斛EST序列,所有EST序列均以FASTA格式保存,序列信息來源見表1。序列下載后,采用DNASTAR 7.1.0(44.1)軟件包中的SeqMan程序檢測去除全部EST序列的載體序列,然后組裝拼接疊連群。
表1 石斛EST序列來源信息
采用SNASTAR中的SeqMAn程序中的SNP工具對拼裝好的疊連群進(jìn)行候選SNP位點篩選。篩選原則:①候選SNP位點兩側(cè)至少有5 bp完全保守序列;②拼接組裝含有4條(包括4條)以上EST序列的疊連群;③候選SNP位點中的次要等位基因頻率至少為30%(圖1)[9-10]。
SNP頻率=(候選SNP數(shù)目/疊連群長度)×100%。
圖1 候選SNP位點的人工篩選原則
提取篩選得到的SNP位點兩側(cè)各約50 bp的EST序列,采用NCBI上的BLAST(https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome)進(jìn)行核酸序列比對,從比對結(jié)果中提取與比對序列相似性最高的序列注釋信息,對SNP靶向基因產(chǎn)物及物種來源進(jìn)行分析。
從NCBI的dbEST數(shù)據(jù)庫中下載得到石斛EST序列16 183條,參與拼接的EST序列為9 756條,拼接聚類后共得到疊連群2 267個,其中含4條及4條以上EST序列的疊連群621個,占總數(shù)的27.4%,總長度628 444 bp,未參與拼接的序列6 427條,拼接效率為60.3%。
通過DNASTAR軟件中的SeqMan程序?qū)?條EST序列以上的621個疊連群進(jìn)行候選SNP位點篩選,結(jié)果表明:共有342個疊連群含有候選SNP位點1 083個,平均580.28個bp含有1個SNP位點,每個疊連群含有3.25個SNP位點,SNP位點發(fā)生頻率為0.17%。其中含SNP位點最多的疊連群(疊連群規(guī)模為8)共有22個SNP位點,30.70%的疊連群只含有1個SNP侯選位點,含3個以下候選SNP位點的疊連群占全部候選SNP位點的總疊連群數(shù)的69.59%,含3個以上候選SNP位點的疊連群只占總疊連群的30.41%,多數(shù)疊連群包含的SNP位點并不豐富,這可能與石斛的遺傳背景緊密聯(lián)系(表2)。
表2 包含不同數(shù)量SNP位點數(shù)的疊連群數(shù)量統(tǒng)計
隨著疊連群規(guī)模不斷增加,疊連群包含的候選SNP位點總數(shù)呈下降趨勢,整體上顯示小規(guī)模疊連群包含的候選SNP位點數(shù)最多,其中疊連群規(guī)模為4~6的包含的候選SNP位點數(shù)占候選SNP位點總數(shù)的42.7%,在規(guī)模為4的疊連群中包含150個SNP位點,這些位點的陽性率可能會很高[11](表3)。包含SNP候選位點的疊連群規(guī)模在4~6的占總疊連群的48.8%(表3),通過統(tǒng)計分析每種規(guī)模疊連群平均包含候選SNP位點數(shù)與疊連群規(guī)模之間并沒有相關(guān)性,平均含量分別在疊連群規(guī)模為19時最大,15、21、43次之(表3)。綜合以上數(shù)據(jù)說明雖然大規(guī)模疊連群容易篩選到更多的SNP位點,但其總量卻遠(yuǎn)遠(yuǎn)不如小規(guī)格疊連群。
篩出的候選SNP位點有轉(zhuǎn)換、顛換及插入缺失3類型,其中轉(zhuǎn)換類型位點為655個,占總數(shù)的60.5%,顛換類型位點為408個,占總數(shù)的37.7%,二者比值約為1.6∶1.0,插入缺失為20個,占總數(shù)的1.8%(表4)。在轉(zhuǎn)換類型中C-T轉(zhuǎn)換的頻率(37.0%)遠(yuǎn)遠(yuǎn)大于A-G轉(zhuǎn)換頻率(23.5%)。顛換類型中以AT和GT顛換類型為主,二者分別占候選SNP位點總數(shù)的10.3%和10.5%,CG和CA顛換占少數(shù),比例分別為8.1%和8.7%。
提取篩選得到的1 063個轉(zhuǎn)換和顛換SNP位點兩側(cè)各50 bp序列在NCBI核酸比對數(shù)據(jù)庫中進(jìn)行同源性比對,發(fā)現(xiàn)共有25個SNP候選位點所在的10條核酸序列無比對結(jié)果,可能是還未發(fā)現(xiàn)的基因,但也需要進(jìn)一步驗證。在具比對結(jié)果的SNP位點中有2個SNP位點所在核酸序列與梵凈山石斛葉綠體DNA具99%的同源性,1個SNP位點所在核酸序列與金釵石斛葉綠體DNA具99%的同源性,3個SNP位點所在核酸序列與流蘇石斛葉綠體DNA具99%的同源性,6個SNP位點所在核酸序列與小蘭嶼蝴蝶蘭(Phalaenopsisequestris)的細(xì)胞色素蛋白具86%的同源性,另外3個SNP位點所在核酸序列與小蘭嶼蝴蝶蘭的休眠相關(guān)蛋白同源物具87%的同源性,1個SNP位點所在核酸序列與建蘭花葉病毒(Cymbidiummosaicvirus)的外殼蛋白具99%的同源性,共有1 021個SNP所在核酸序列與鐵皮石斛的不同基因序列存在高度同源性(表5,表6),說明同科屬植物存在較高的同源性。唯一一個SNP位點所在核酸序列與綠豆的60 S核糖體蛋白具有98%的同源性(表7)。
表3 疊連群規(guī)模與SNP位點數(shù)目的關(guān)系
表4 SNP候選位點類型
表5 同源比對位于鐵皮石斛核酸序列的280個石斛SNP位點
續(xù)(表5)
表6 同源比對位于鐵皮石斛核酸序列的741個石斛SNP位點
續(xù)(表6)
表7 不與鐵皮石斛同源的SNP位點所在核酸序列比對
1 021個SNP位點所在核酸序列與鐵皮石斛的302個基因同源,其中有相同基因產(chǎn)物或基因所在細(xì)胞位置一致的總結(jié)歸納后詳見表3。經(jīng)統(tǒng)計共有280個SNP位點分別與鐵皮石斛中的88條相關(guān)蛋白基因序列存在高度同源,同源性均在90%以上,113個SNP位點所在核酸序列與25條鐵皮石斛的未知功能基因序列具有較高的同源性,但基因產(chǎn)物還待進(jìn)一步驗證,有22個SNP位點所在核酸序列與鐵皮石斛線粒體的6個核酸序列具有較高同源性,99個SNP位點所在核酸序列與26條葉綠體基因序列同源性較高,剩余507個SNP位點所在核酸序列分別與157條鐵皮石斛中某些酶基因或代謝活動相關(guān)酶基因序列存在高度同源,同源性均在89%以上。
SNP是動植物基因中廣泛、隨機分布的一種可遺傳變異,具有很多獨特的優(yōu)點,自問世以來不斷取得研究者的重視。利用公共數(shù)據(jù)庫的已知EST序列進(jìn)行SNP位點的開發(fā)不僅可以降低成本、快捷高效,而且開發(fā)得到的SNP位點還可能位于轉(zhuǎn)錄基因的功能區(qū)域,對于物種的遺傳多樣性分析、品種鑒定和遺傳育種都具重要意義。目前利用EST序列進(jìn)行SNP位點開發(fā)已經(jīng)廣泛應(yīng)用于甘蔗(SaccharumofficinarumL.)[11]、枇杷(EriobotryajaponicaLindl.)[12]、葡萄(VitisviniferaL.)[9]、板栗(CastaneamollissimaBL.)[13]、菊花(Dendranthemamorifolium(Ramat.) Tzvel.)[14]、玫瑰(RosarugosaThunb.)[15]、梅(ArmeniacamumeSieb.)、杏(ArmeniacavulgarisLam.)、桃(AmygdaluspersicaL.)[16],蕓薹屬(Brassica)[17]等多種植物中,但在對石斛的EST-SNP開發(fā)方面還未見報道。本研究利用dbEST數(shù)據(jù)庫中的16 183條石斛EST序列,采用SeqMan拼接,最終統(tǒng)計得出石斛的SNP位點平均出現(xiàn)頻率為0.17%,SNP發(fā)生頻率與菊花的SNP發(fā)生頻率比較接近,與其他植物相比相對較低[11-13,15-17],這主要是因為不同植物的遺傳背景差異不同造成的,遺傳背景差異性越大,SNP發(fā)生頻率越高[18]。另有研究表明,SNP頻率與EST來源的品種數(shù)量呈相關(guān)性,開發(fā)的EST序列來源的品種數(shù)目越多,SNP位點開發(fā)頻率就越高[19]。目前對石斛的基因組學(xué)研究較少,dbEST數(shù)據(jù)庫中的EST序列品種來源僅有兩個,與菊花EST序列來源品種一致,這也是造成在石斛中開發(fā)出的SNP頻率與菊花相似的重要原因。
進(jìn)行軟件或人工篩選開發(fā)EST-SNP位點過程中,篩選原則是影響篩選結(jié)果準(zhǔn)確度和候選SNP位點陽性率高低的關(guān)鍵因素,而EST來源的品種數(shù)量對SNP開發(fā)頻率有重要影響[20]。研究者在甘蔗[11]、玫瑰[15]中對采用的葡萄SNP位點篩選原則進(jìn)行了改良,篩選SNP位點的候選疊連群規(guī)模提高到20,從而提高SNP候選位點的陽性率,但他們的研究結(jié)果顯示這種修改僅適于EST序列品種來源豐富的物種,且容易漏掉部分候選SNP位點。故本研究基于dbEST數(shù)據(jù)庫中現(xiàn)有的石斛EST序列品種來源較少,EST序列較少的情況,完全參照在葡萄[9]上經(jīng)試驗驗證的篩選原則對石斛SNP位點進(jìn)行預(yù)測,在降低SNP位點假陽性率的同時提高候選SNP位點數(shù)量,以便為后期開展驗證試驗提供充足的可選位點。
數(shù)據(jù)統(tǒng)計分析顯示,預(yù)測的石斛SNP候選位點含量超過3個的疊連群僅占所有獲取的疊連群的30.93%,超過60%的疊連群包含的候選SNP位點不豐富,推測可能與本試驗中獲取的石斛EST序列的來源品種數(shù)量較少和遺傳背景差異較小有關(guān)。此外,本研究發(fā)現(xiàn)預(yù)測的石斛SNP候選位點總數(shù)及包含SNP候選位點的相同規(guī)模疊連群數(shù)量隨疊連群規(guī)模增大而呈下降趨勢,這一趨勢與已報道的葡萄[9]、蕓薹屬[17]植物中預(yù)測的SNP位點及其疊連群數(shù)量與疊連群規(guī)模的相關(guān)性一樣,而與甘蔗[11]、大麥(HordeumvulgareL.)[20]等禾本科植物中的同類研究結(jié)果差異較大;獲得的石斛疊連群中包含的SNP位點平均數(shù)與疊連群規(guī)模之間未顯示任何相關(guān)性,該結(jié)果與玫瑰[15]的SNP位點預(yù)測分析結(jié)果相似,但有別于菊花[14]、葡萄[9]、蕓薹屬[17]植物的同類研究結(jié)論,故推測不同物種SNP位點在基因上的分布可能存在較大差異。
對預(yù)測的石斛候選SNP位點進(jìn)行歸類,結(jié)果顯示預(yù)測的石斛EST-SNP以轉(zhuǎn)換類型為主,顛換次之,這與葡萄[9]、甘蔗[11]、菊花[14]、玫瑰[15]等已報道候選SNP位點歸類分析研究結(jié)論相似,但本研究發(fā)現(xiàn)預(yù)測的石斛SNP位點的插入或缺失突變率低于葡萄[9]、甘蔗[11]、菊花[14]、玫瑰[15]等,這可能與本研究所選取的石斛EST序列來源品種的數(shù)量較少、遺傳背景差異不明顯有關(guān)。此外,本研究結(jié)果顯示石斛SNP位點的C-T轉(zhuǎn)換率為37.0%,高于A-G轉(zhuǎn)換頻率(23.5%),推測可能是由于C在生物體中多以甲基化形式存在,容易脫氨后轉(zhuǎn)換為T,進(jìn)而導(dǎo)致了轉(zhuǎn)換類型高于顛換類型[21]。
篩選的1 063個置換與顛換類型的SNP候選位點中有1 038個SNP位點被注釋到398個基因上,但有25個基因?qū)儆阼F皮石斛未知基因產(chǎn)物基因序列,需要進(jìn)一步驗證其功能。另外有25個SNP位點所在的10條核酸序列未被注釋,需要進(jìn)一步驗證其全長mRNA和基因功能。
采用合理的人工篩選原則從提取的16 183條石斛EST序列得出1 083個SNP候選位點,為提高候選SNP位點的陽性率,只篩選了疊連群規(guī)模為4以上的EST序列,另外72.6%的疊連群并未參與篩選,這些疊連群中也可能存在著潛在的SNP位點,需采用測序等其他手段進(jìn)行開發(fā)。接下來本研究將根據(jù)已獲得的研究結(jié)果設(shè)計相應(yīng)的SNP位點引物,采用測序、熒光定量或酶切手段進(jìn)一步驗證候選SNP位點的可靠性,為石斛的多樣性分析、品種鑒定及遺傳育種提供參考。
參 考 文 獻(xiàn)
[1] 吳永升,鄒成林,黃愛花,等.玉米自交系遺傳關(guān)系及應(yīng)用潛勢分析[J].西南農(nóng)業(yè)學(xué)報,2014,27(3):955-959.
[2] TREBBI D, MACCAFERRI M, DE HEER P, et al. High-throughput SNP discovery and genotyping in durum wheat (TriticumdurumDesf.)[J]. Theoretical and Applied Genetics,2011,123(4):555-569.
[3] JIANG D, YE Q L, WANG F S, et al. The mining of citrus EST-SNP and its application in cultivar discrimination[J]. Agricultural Science in China,2010,9(2):179-190.
[4] SINGH A, SINGH P K, SINGH R, et al. SNP haplotypes of the BADH1 gene and their association with aroma in rice (OryzasativaL.)[J]. Molecular Breeding,2010,26(2):325-338.
[5] KIM S, MISRA A. SNP genotyping: technologies and biomedical applications[J]. Annual Review of Biomedical Engineering,2007,9:289-320.
[6] 陳全求,詹先進(jìn),藍(lán)家樣,等.EST分子標(biāo)記在基因組學(xué)中應(yīng)用的研究進(jìn)展[J].中國農(nóng)學(xué)通報,2010,26(3):59-63.
[7] LEIN W, USADEL B, STITT M, et al. Large scale phenotyping of transgenic tobacco plants (Nicotianatabacum) to identify essential leaf functions[J]. Plant Biotechnology Journal,2008,6(3):246-263.
[8] 栗丹,李振堅,毛萍,等.基于ITS序列石斛材料的鑒定及系統(tǒng)進(jìn)化分析[J].園藝學(xué)報,2012,39(8):1539-1550.
[9] 李猛,郭大龍,劉崇懷,等.葡萄EST-SNP位點的信息與特征[J].浙江大學(xué)學(xué)報(農(nóng)業(yè)與生命科學(xué)版),2012,38(3):263-270.
[10] WANG S, SHA Z, SONSTEGARD T S, et al. Quality assessment parameters for EST-derived SNPs from catfish[J]. BMC Genomics,2008,9.Doi.10.1186/1471-2164-9-450.
[11] 檀小輝,張繼,梁芳,等.基于EST序列的甘蔗SNP發(fā)掘分析[J].江蘇農(nóng)業(yè)科學(xué),2016,44(7):64-67.
[12] 王俊.枇杷(EriobotryajaponicaLindl.)SNP位點篩選及遺傳多樣性分析[D].重慶:西南大學(xué),2013.
[13] 劉偉,康明,黃宏文.中國板栗EST-SNP和抗栗疫病候選基因分析及同源比對[J].植物科學(xué)學(xué)報,2012,30(1):55-63.
[14] 萬志兵,王言言,陳黎.菊花EST-SNP的發(fā)掘與特征分析[J].東北林業(yè)大學(xué)學(xué)報,2013,41(5):84-86,90.
[15] 梁芳,張繼,呂平,等.基于EST序列的玫瑰EST-SNP位點發(fā)掘與分析[J].南方農(nóng)業(yè)學(xué)報,2016,47(3):325-331.
[16] 李曉穎,王玉柱,上官凌飛,等.梅、杏、桃EST同源序列特征分析及EST-SNP發(fā)掘[J].南京農(nóng)業(yè)大學(xué)學(xué)報,2012,35(4):47-53.
[17] 李雪姣,張耿,顧愛俠,等.蕓薹屬作物EST-SNP的發(fā)掘與分析[J].植物遺傳資源學(xué)報,2010,11(6):772-776.
[18] VAN TASSELL C P, SMITH T P, MATUKUMALLI L K, et al. SNP discovery and allele frequency estimation by deep sequencing of reduced representation libraries[J]. Nature Methods,2008,5(3):247-252.
[19] DONG Q H, CAO X, YANG G, et al. Discovery and characterization of SNPs in Vitis vinifera and genetic assessment of some grapevine cultivars[J]. Scientia Horticulturae,2010,125(3):233-238.
[20] DURAN C, APPLEBY N, VARDY M, et al. Single nucleotide polymorphism discovery in barley using autoSNPdb[J]. Plant Biotechnology Journal,2009,7(4):326-333.
[21] VEZZULLI S, MICHELETTI D, RIAZ S, et al. A SNP transferability survey within the genus Vitis[J]. BMC Plant Biology,2008,8.Doi.1186/1471-2229-8-128.