趙濤 王靜毅 劉菊華 徐碧玉 金志強(qiáng)
摘要:為發(fā)掘出一批香蕉的SNP位點(diǎn)、進(jìn)一步研究香蕉的遺傳關(guān)系、相關(guān)性狀的定位等打下基礎(chǔ),從美國(guó)國(guó)立生物技術(shù)信息中心(National Center for Biotechnology Information,NCBI)的dbEST數(shù)據(jù)庫(kù)下載46 665條香蕉EST序列,經(jīng)生物信息學(xué)方法分析發(fā)掘EST-SNP位點(diǎn),并對(duì)其所在核酸序列進(jìn)行功能注釋分析。通過對(duì)46 665條EST進(jìn)行拼接,共得到3 490條重疊群(contigs),在含有4條以上重疊群中發(fā)現(xiàn)有39條重疊群中含有SNP位點(diǎn),從中篩選出127個(gè)候選SNP位點(diǎn),其堿基突變類型中轉(zhuǎn)換、顛換分別占SNP位點(diǎn)總數(shù)的63.78%、36.22%。通過序列比對(duì)分析發(fā)現(xiàn)了34個(gè)與香蕉相關(guān)基因,證明NCBI中的香蕉EST數(shù)據(jù)庫(kù)數(shù)據(jù)量大,能夠發(fā)掘出SNP標(biāo)記對(duì)香蕉進(jìn)行品種鑒定、分類和遺傳多樣性分析。
關(guān)鍵詞:香蕉;EST序列;SNP位點(diǎn);重疊群;轉(zhuǎn)換;顛換;序列比對(duì)分析;遺傳多樣性
中圖分類號(hào): S668.101文獻(xiàn)標(biāo)志碼: A
文章編號(hào):1002-1302(2019)21-0107-04
收稿日期:2018-08-03
基金項(xiàng)目:海南省重點(diǎn)研發(fā)計(jì)劃(編號(hào):ZDYF2018097);國(guó)家自然科學(xué)基金(編號(hào):31501043);國(guó)家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)專項(xiàng)(編號(hào):CARS-31);中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)項(xiàng)目(編號(hào):1630052017018)。
作者簡(jiǎn)介:趙濤(1990—),男,江蘇徐州人,碩士研究生,研究方向?yàn)閳@藝學(xué)。Tel:(0898)66890772;E-mail:2532450562@qq.com。
通信作者:金志強(qiáng),博士,研究員,博士生導(dǎo)師,研究方向?yàn)闊釒Ч麡浞肿舆z傳學(xué),E-mail:zhiqiangjin2001@yahoo.com.cn;徐碧玉,博士,研究員,研究方向?yàn)闊釒@藝植物基因工程,E-mail:biyuxu@126.com。
單核苷酸多態(tài)性(single nucleotide polymorphisms,SNPs)是指在基因組水平上,由單個(gè)核苷酸的變異導(dǎo)致等位基因的多態(tài)性,不同的等位基因在特定位置上含有不同的堿基對(duì),等位基因頻率一般要大于1%。SNP變異類型有轉(zhuǎn)換(transition)、顛換(transversion)、插入(insert)和缺失(deletion)4種,通常只分析顛換和轉(zhuǎn)換。如果一個(gè)SNPs的次等位基因頻率大于0.1,便可用于關(guān)聯(lián)或者連鎖研究。單核苷酸多態(tài)性不僅分布在非編碼區(qū),在編碼區(qū)也有分布,存在于編碼區(qū)的SNP稱為cSNP,這為研究者提供了豐富的生物信息。同時(shí),SNP相比SSR具有更高的遺傳穩(wěn)定性。因此,現(xiàn)在人們廣泛的將其稱為第3代分子標(biāo)記,同時(shí)被認(rèn)為是應(yīng)用前景最好的遺傳標(biāo)記[1-3]。
表達(dá)序列標(biāo)簽(expressed sequence tags,EST)是來源于功能基因表達(dá)的cDNA片段,是轉(zhuǎn)錄區(qū)域多態(tài)性識(shí)別的重要資源。隨著公共數(shù)據(jù)庫(kù)中EST序列的暴發(fā)式增長(zhǎng),以EST序列為基礎(chǔ)開發(fā)分子標(biāo)記變得越來越方便;同時(shí),EST標(biāo)記還具有通用性好、信息量大、開發(fā)方法簡(jiǎn)單快捷以及成本低等優(yōu)點(diǎn)。利用EST開發(fā)分子標(biāo)記可直接用于動(dòng)植物分子育種等相關(guān)領(lǐng)域的研究[4]。
香蕉(Musa acuminata)屬于芭蕉科芭蕉屬,單子葉草本植物。目前,香蕉已經(jīng)成為我國(guó)熱帶地區(qū)主要農(nóng)業(yè)支柱產(chǎn)業(yè),同時(shí)也是世界6億人口的主食作物[5],更是世界四大水果之一。然而,近年來環(huán)境氣候的變化導(dǎo)致我國(guó)香蕉主產(chǎn)區(qū)經(jīng)常遭受冷、干旱等逆境脅迫,同時(shí)香蕉枯萎病使得香蕉產(chǎn)業(yè)正遭受著毀滅性威脅[6]。目前,香蕉主栽品種大多是三倍體,基因組高度復(fù)雜,通常狀況下都是高度不育的,難以通過傳統(tǒng)的雜交育種得到優(yōu)良品種?,F(xiàn)在香蕉育種中如何進(jìn)行品種鑒定是難點(diǎn)之一。近年來,SNP已廣泛應(yīng)用于品種鑒定和重要性狀的基因定位、遺傳連鎖圖譜構(gòu)建、遺傳多樣性分析等相關(guān)研究領(lǐng)域[7-13]。同時(shí),國(guó)內(nèi)外在香蕉方面進(jìn)行開發(fā)SNP的文章鮮有報(bào)道。本研究利用NCBI中的dbEST數(shù)據(jù)庫(kù),通過生物信息學(xué)分析開發(fā)SNP,以期獲得合適的分子標(biāo)記,為香蕉育種株系鑒定提供技術(shù)支持。
1材料與方法
1.1香蕉EST序列的獲取
從NCBI網(wǎng)站(http://www.ncbi.nlm.nih.gov/genbank/)通過關(guān)鍵詞“MUSA”搜索下載,共得到46 665條香蕉EST,所有EST序列均以FASTA格式保存。
1.2香蕉SNP的挖掘
利用SeqClean(http://compbio.dfci.harvard.edu/tgi/software)去除載體序列及冗余序列,之后使用CD-HIT(http://www.bioinformatics.org/cd-hit)和CAP3(http://seq.cs.iastate.edu/cap3.html)進(jìn)行序列的聚類與拼接。利用QualitySNP(http://www.bioinformatics.nUtools/snpweb/)尋找SNP位點(diǎn)。
1.3篩選原則
香蕉SNP位點(diǎn)篩選原則:(1)規(guī)定候選SNP位點(diǎn)兩側(cè)至少有5 bp堿基要完全保守;(2)候選SNP位點(diǎn)中的次要等位基因頻率至少為30%[14];(3)堿基判讀質(zhì)量與其所在的位置相關(guān),測(cè)序所得的序列前區(qū)段質(zhì)量普遍偏低,應(yīng)選擇序列100 bp 以后的候選SNP位點(diǎn)。
1.4BLAST比對(duì)
提取含有SNP位點(diǎn)的重疊群(contigs)在NCBI的BLASTn數(shù)據(jù)庫(kù)中進(jìn)行序列比對(duì),提取與序列相似性最高的序列注釋信息,對(duì)SNP靶向基因產(chǎn)物和物種來源進(jìn)行分析。
2結(jié)果與分析
2.1EST文庫(kù)來源
由表1可知,香蕉EST文庫(kù)數(shù)量多,但其序列主要來源于14個(gè)EST文庫(kù),其數(shù)量為44 829條,占總EST的96.06%。香蕉EST文庫(kù)主要來源于香蕉A基因組,在所有的EST文庫(kù)中,來源于香蕉葉片組織的高達(dá)49.48%,來源于菜花樣芽分生組織的占23.72%,來源于香蕉根系的占11.09%,來源于香蕉果實(shí)的僅占5.41%。在香蕉EST文庫(kù)中源于Cachaco品種的最多,高達(dá)23.72%,其次為Calcutta 4-AA,占比為2000%,Grande Naine品種占14.05%,Pisang Awak(ABB)Sukari Ndizi(AB)Mpologoma(AAA)占11.77%,Pisang Klutug Wulung(PKW)-BB僅占11.33%,其品種和主要組織來源見表1。
2.2香蕉EST序列SNP頻率分析
如表2所示,在GenBank數(shù)據(jù)庫(kù)中下載到46 665條香蕉EST序列,通過SeqClean去除序列冗余,得到有效的EST序列46 056條。使用CD-HIT和CAP3進(jìn)行序列的聚類與拼接,獲得3 490條重疊群,為了提高SNP位點(diǎn)的可靠性,本研究所用的重疊群EST條數(shù)均大于4,經(jīng)過QualitySNP軟件發(fā)掘SNP位點(diǎn),在456條重疊群中發(fā)現(xiàn)39條中含有SNP位點(diǎn),總計(jì)127個(gè)SNP位點(diǎn)。39條重疊群的堿基總數(shù)為35 743 bp,SNP出現(xiàn)的頻率為0.35%,即平均每281 bp含有1個(gè)SNP位點(diǎn)。39條重疊群中平均1條重疊群中含有3.2個(gè)SNP位點(diǎn),含有SNP位點(diǎn)數(shù)最多的重疊群有14個(gè)位點(diǎn),具體見表3。
如表4所示,本研究使用的EST序列包含SNP位點(diǎn)堿基轉(zhuǎn)換占比63.78%,顛換占比36.23%,堿基的插入、缺失不統(tǒng)計(jì)。在不同重疊群中不同突變類型SNP位點(diǎn)的數(shù)量差異較大,其分布密度變化也很大。
2.3SNP位點(diǎn)所在核苷酸序列同源性比對(duì)結(jié)果分析
提取39個(gè)含有SNP位點(diǎn)的重疊群在NCBI的BLASTn數(shù)據(jù)庫(kù)中進(jìn)行比對(duì)。本研究發(fā)現(xiàn)3個(gè)未知蛋白,可能是香蕉特有或尚未被發(fā)現(xiàn)的基因(表5),但須進(jìn)一步驗(yàn)證。其他基因包括1個(gè)與抗逆有關(guān)的類熱休克蛋白,3個(gè)與蛋白質(zhì)降解、DNA損傷修復(fù)有關(guān)的泛素蛋白,1個(gè)CBS(cystathionine-beta-synthase)編碼胱硫醚-β-合成酶基因,4個(gè)與蛋白質(zhì)合成相關(guān)的核糖體蛋白,1個(gè)與信號(hào)傳導(dǎo)相關(guān)的鈣調(diào)蛋白,1個(gè)參與真核翻譯起始進(jìn)程的真核翻譯起始因子,1個(gè)含LIM結(jié)構(gòu)域的LIM蛋白,1個(gè)與DNA結(jié)合的組蛋白,1個(gè)參與細(xì)胞內(nèi)物質(zhì)運(yùn)輸和信號(hào)轉(zhuǎn)導(dǎo)的ADP-核糖基化因子,1個(gè)運(yùn)輸?shù)鞍祝?個(gè)過氧化物酶基因,1個(gè)韌皮部蛋白以及1個(gè)磷脂酰肌醇轉(zhuǎn)移蛋白質(zhì)家族成員等,其具體的SNP位點(diǎn)的比對(duì)結(jié)果見表5。
3討論與結(jié)論
目前,開發(fā)EST-SNP的軟件眾多,軟件的選取以及如何設(shè)置參數(shù)都是影響試驗(yàn)結(jié)果的關(guān)鍵因素。如PolyPhred只能預(yù)測(cè)某一核苷酸位點(diǎn)上單個(gè)堿基的替換,SNPdetector假陽(yáng)性率和假陰性率均低,novoSNP的假陽(yáng)性率明顯偏高;在具有可靠的參考序列時(shí),SOAPsnp正確率較高;AutoSNP正確率低;QualitySNP預(yù)測(cè)位點(diǎn)少但正確率高于AutoSNP,且QualitySNP運(yùn)行速度更快[15];因此,本研究應(yīng)選取QualitySNP開發(fā)SNP。
在EST序列中進(jìn)行SNP位點(diǎn)開發(fā)時(shí),研究者應(yīng)當(dāng)注意影響SNP開發(fā)質(zhì)量的各種篩選參數(shù)。其中最主要的因素為重疊群的規(guī)格(重疊群所包含EST序列的數(shù)量)和次要等位基因(等位基因中出現(xiàn)次數(shù)較少的堿基)的出現(xiàn)次數(shù)。李猛利用QualitySNP軟件對(duì)葡萄EST序列進(jìn)行候選SNP位點(diǎn)分析時(shí)發(fā)現(xiàn),為了得到高質(zhì)量的候選SNP位點(diǎn),重疊群規(guī)格應(yīng)選擇拼接EST數(shù)量≥4條以上,同時(shí)次要等位基因至少出現(xiàn)2次[16]。因?yàn)殄e(cuò)配僅出現(xiàn)1次的話很可能是由序列差錯(cuò)引起的,而同一堿基位置上發(fā)生2次序列差錯(cuò)的概率則很小。因此在規(guī)格為4條,主次等位基因出現(xiàn)次數(shù)比為1 ∶1,即次要等位基因出現(xiàn)2次的重疊群中開發(fā)的候選SNP其可靠度較高。在規(guī)格大于4條的重疊群中,也應(yīng)當(dāng)盡量保證主次等位基因出現(xiàn)次數(shù)比近似為1 ∶1,即在規(guī)格為5~6條的重疊群中,次要等位基因應(yīng)至少出現(xiàn)2次。一般在聚類時(shí)為得到高的比對(duì)分值,通常須要在1條序列中加入空格,但這樣會(huì)被誤判為插入或缺失,為避免出現(xiàn)這種情況,在處理結(jié)果時(shí)可以不考慮插入或缺失,而只分析替換類型。
本研究從NCBI中dbEST公共數(shù)據(jù)庫(kù)下載46 665條EST序列,共有46 056條EST序列參與拼接,總計(jì)拼接成3 490條重疊群,所含EST序列≥4條的重疊群共456條,在39個(gè)重疊群中發(fā)現(xiàn)SNP位點(diǎn)。同時(shí)大于4條以上的重疊群主要由4~7條EST序列拼接而成,最多的1條重疊群也只有13條EST,8條以上EST拼接的重疊群比較少。同時(shí),本研究中重疊群主要長(zhǎng)度在800~1 500 bp,長(zhǎng)度在1 500 bp以上的較少。一般為了提高SNP的可靠性,用于SNP分析的重疊群至少包含4條以上。
在39條重疊群中篩選出127個(gè)候選SNP位點(diǎn),SNP頻率為0.35%,較甘蔗[14]、茶樹[17]等其他物種的SNP頻率低,可能是由于香蕉是三倍體植物自交高度不育,在生產(chǎn)上主要依靠吸芽和組培苗進(jìn)行繁殖生產(chǎn),香蕉無法通過基因交流產(chǎn)生新的基因變化,所以自身遺傳差異變化小,SNP位點(diǎn)相比其他植物少。
一般情況下堿基轉(zhuǎn)換的C/T比A/G更常發(fā)生。CpG二核苷酸的胞嘧啶(C)在基因組中最易發(fā)生突變,其中大多數(shù)是甲基化的,可自發(fā)地脫去氨基而形成胸腺嘧啶(T),因此轉(zhuǎn)換型變異的SNP約占2/3[17]。在本研究中,香蕉SNP位點(diǎn)堿基變異類型以G/A為主,占33.07%,C/T占30.70%,與甘蔗[14]、櫛孔扇貝[18]堿基變異類型相同,與小麥[19]、大麥[20]、辣椒[21]等物種的SNP堿基變異類型不符。轉(zhuǎn)換類型和顛換類型的數(shù)量分別占候選SNP位點(diǎn)總數(shù)的63.78%和36.22%,轉(zhuǎn)換與顛換比為1.76 ∶1.00,即轉(zhuǎn)換類型的數(shù)量明顯高于顛換,與檀小輝等的研究結(jié)果[14]存在差異。
本研究中,含有SNP位點(diǎn)最多的重疊群Contigs402和Contigs373分別有14、11個(gè)SNP位點(diǎn),其EST構(gòu)成分別為5、4條,長(zhǎng)度分別為852、863 bp。而只含有1個(gè)位點(diǎn)的Contigs97、Contigs287的EST組成分別為6、6條,長(zhǎng)度分別為766、901 bp。由此看出,香蕉重疊群中EST序列數(shù)量與包含的SNP位點(diǎn)數(shù)量并無明顯規(guī)律,這可能與不同物種間SNP位點(diǎn)的分布差異有關(guān)。
參考文獻(xiàn):
[1]Collins F S,Guyer M S,Charkravarti A. Variations on a theme:cataloging human DNA sequence variations[J]. Science,1997,278(5343):1580-1581.
[2]Harding R M,F(xiàn)ullerton S M,Griffiths R C,et al. Archaic African and Asian lineages in the genetic ancestry of modern humans[J]. American Journal of Human Genetics,1997,60(4):772-789.
[3]Nickerson D A,Taylor S L,Weiss K M,et al. DNA sequence diversity in a 9.7kb region of the human lipoprotein lipase gene[J]. Nature Genetics,1998,19(3):233-240.
[4]梁芳,張繼,呂平,等. 基于EST序列的玫瑰EST-SNP位點(diǎn)發(fā)掘與分析[J]. 南方農(nóng)業(yè)學(xué)報(bào),2016,47(3):325-331.
[5]張靜,孫秀秀,徐碧玉,等. 香蕉分子育種研究進(jìn)展[J]. 分子植物育種,2018,16(3):914-923.
[6]竇同心. 香蕉抗寒、抗病相關(guān)基因的遺傳轉(zhuǎn)化驗(yàn)證[D]. 廣州:華南農(nóng)業(yè)大學(xué),2016:1-2.
[7]孟霞,曾興權(quán),其美旺姆,等. 西藏冬青稞種質(zhì)資源SNP標(biāo)記的遺傳多樣性分析[J]. 現(xiàn)代農(nóng)業(yè)科技,2018(1):40-41,43.
[8]姚丹青,樓堅(jiān)鋒,朱文瑩,等. 基于SNP標(biāo)記的黃瓜遺傳多樣性分析[J]. 上海農(nóng)業(yè)學(xué)報(bào),2017,33(1):21-30.
[9]劉凱,鄧志英,李青芳,等. 利用高密度SNP遺傳圖譜定位小麥穗部性狀基因[J]. 作物學(xué)報(bào),2016,42(6):820-831.
[10]楊潤(rùn)婷,吳波,李翀,等. 兩種SNP分型方法的比較及其在柚品種鑒定中的應(yīng)用[J]. 園藝學(xué)報(bào),2013,40(6):1061-1070.
[11]毛建軍. 雜交水稻品種鑒定的SNP研究及東鄉(xiāng)野生稻兩個(gè)NBS序列的分析[D]. 長(zhǎng)沙:湖南農(nóng)業(yè)大學(xué),2005:44-45.
[12]李勝杰,白俊杰,趙犖,等. 大口黑鱸EST-SNP標(biāo)記開發(fā)及其與生長(zhǎng)性狀的相關(guān)性分析[J]. 海洋漁業(yè),2018,40(1):38-46.
[13]陰長(zhǎng)發(fā). 甘藍(lán)型油菜EST-SNP開發(fā)及花色性狀的QTL定位[D]. 長(zhǎng)沙:湖南農(nóng)業(yè)大學(xué),2013:38-40.
[14]檀小輝,張繼,梁芳,等. 基于EST序列的甘蔗SNP發(fā)掘及分析[J]. 江蘇農(nóng)業(yè)科學(xué),2016,44(7):64-66,67.
[15]李猛,郭大龍,劉崇懷,等. EST-SNP開發(fā)軟件特性分析及比較[J]. 生命的化學(xué),2011,31(6):906-911.
[16]李猛. 葡萄EST-SNP標(biāo)記的開發(fā)及應(yīng)用[D]. 洛陽(yáng):河南科技大學(xué),2012:24-25.
[17]王麗鴛,張成才,成浩,等. 茶樹EST-SNP分布特征及標(biāo)記開發(fā)[J]. 茶葉科學(xué),2012,32(4):369-376.
[18]李紀(jì)勤,包振民,李玲,等. 櫛孔扇貝EST-SNP標(biāo)記開發(fā)及多態(tài)性分析[J]. 中國(guó)海洋大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,43(1):56-63.
[19]Chao S,Zhang W J,Akhunov E,et al. arker polymorphism in US wheat (Triticum aestivum L.) cultivars[J]. Molecular Breeding,2009,23(1):23-33.
[20]Sato K,Close T J,Bhat P,et al. Single nucleotide polymorphism mapping and alignment of recombinant chromosome substitution lines in barley[J]. Plant & Cell Physiology,2011,52(5):728-737.
[21]劉峰,謝玲玲,弭寶彬,等. 辣椒轉(zhuǎn)錄組SNP挖掘及多態(tài)性分析[J]. 園藝學(xué)報(bào),2014,41(2):343-348.