香蕉EST-SNP標(biāo)記的開發(fā)

2019-01-03 02:05:58趙濤王靜毅劉菊華徐碧玉金志強(qiáng)

江蘇農(nóng)業(yè)科學(xué) 2019年21期

趙濤王靜毅劉菊華徐碧玉金志強(qiáng)

摘要：為發(fā)掘出一批香蕉的SNP位點(diǎn)、進(jìn)一步研究香蕉的遺傳關(guān)系、相關(guān)性狀的定位等打下基礎(chǔ)，從美國(guó)國(guó)立生物技術(shù)信息中心（National Center for Biotechnology Information，NCBI）的dbEST數(shù)據(jù)庫(kù)下載46 665條香蕉EST序列，經(jīng)生物信息學(xué)方法分析發(fā)掘EST-SNP位點(diǎn)，并對(duì)其所在核酸序列進(jìn)行功能注釋分析。通過對(duì)46 665條EST進(jìn)行拼接，共得到3 490條重疊群（contigs），在含有4條以上重疊群中發(fā)現(xiàn)有39條重疊群中含有SNP位點(diǎn)，從中篩選出127個(gè)候選SNP位點(diǎn)，其堿基突變類型中轉(zhuǎn)換、顛換分別占SNP位點(diǎn)總數(shù)的63.78%、36.22%。通過序列比對(duì)分析發(fā)現(xiàn)了34個(gè)與香蕉相關(guān)基因，證明NCBI中的香蕉EST數(shù)據(jù)庫(kù)數(shù)據(jù)量大，能夠發(fā)掘出SNP標(biāo)記對(duì)香蕉進(jìn)行品種鑒定、分類和遺傳多樣性分析。

關(guān)鍵詞：香蕉;EST序列;SNP位點(diǎn);重疊群;轉(zhuǎn)換;顛換;序列比對(duì)分析;遺傳多樣性

中圖分類號(hào)： S668.101文獻(xiàn)標(biāo)志碼： A

文章編號(hào)：1002-1302（2019）21-0107-04

收稿日期：2018-08-03

基金項(xiàng)目：海南省重點(diǎn)研發(fā)計(jì)劃（編號(hào)：ZDYF2018097）;國(guó)家自然科學(xué)基金（編號(hào)：31501043）;國(guó)家現(xiàn)代農(nóng)業(yè)產(chǎn)業(yè)技術(shù)體系建設(shè)專項(xiàng)（編號(hào)：CARS-31）;中央級(jí)公益性科研院所基本科研業(yè)務(wù)費(fèi)項(xiàng)目（編號(hào)：1630052017018）。

作者簡(jiǎn)介：趙濤（1990—），男，江蘇徐州人，碩士研究生，研究方向?yàn)閳@藝學(xué)。Tel：（0898）66890772;E-mail：2532450562@qq.com。

通信作者：金志強(qiáng)，博士，研究員，博士生導(dǎo)師，研究方向?yàn)闊釒Ч麡浞肿舆z傳學(xué)，E-mail：zhiqiangjin2001@yahoo.com.cn;徐碧玉，博士，研究員，研究方向?yàn)闊釒@藝植物基因工程，E-mail：biyuxu@126.com。

單核苷酸多態(tài)性（single nucleotide polymorphisms，SNPs）是指在基因組水平上，由單個(gè)核苷酸的變異導(dǎo)致等位基因的多態(tài)性，不同的等位基因在特定位置上含有不同的堿基對(duì)，等位基因頻率一般要大于1%。SNP變異類型有轉(zhuǎn)換（transition）、顛換（transversion）、插入（insert）和缺失（deletion）4種，通常只分析顛換和轉(zhuǎn)換。如果一個(gè)SNPs的次等位基因頻率大于0.1，便可用于關(guān)聯(lián)或者連鎖研究。單核苷酸多態(tài)性不僅分布在非編碼區(qū)，在編碼區(qū)也有分布，存在于編碼區(qū)的SNP稱為cSNP，這為研究者提供了豐富的生物信息。同時(shí)，SNP相比SSR具有更高的遺傳穩(wěn)定性。因此，現(xiàn)在人們廣泛的將其稱為第3代分子標(biāo)記，同時(shí)被認(rèn)為是應(yīng)用前景最好的遺傳標(biāo)記[1-3]。

表達(dá)序列標(biāo)簽（expressed sequence tags，EST）是來源于功能基因表達(dá)的cDNA片段，是轉(zhuǎn)錄區(qū)域多態(tài)性識(shí)別的重要資源。隨著公共數(shù)據(jù)庫(kù)中EST序列的暴發(fā)式增長(zhǎng)，以EST序列為基礎(chǔ)開發(fā)分子標(biāo)記變得越來越方便;同時(shí)，EST標(biāo)記還具有通用性好、信息量大、開發(fā)方法簡(jiǎn)單快捷以及成本低等優(yōu)點(diǎn)。利用EST開發(fā)分子標(biāo)記可直接用于動(dòng)植物分子育種等相關(guān)領(lǐng)域的研究[4]。

香蕉（Musa acuminata）屬于芭蕉科芭蕉屬，單子葉草本植物。目前，香蕉已經(jīng)成為我國(guó)熱帶地區(qū)主要農(nóng)業(yè)支柱產(chǎn)業(yè)，同時(shí)也是世界6億人口的主食作物[5]，更是世界四大水果之一。然而，近年來環(huán)境氣候的變化導(dǎo)致我國(guó)香蕉主產(chǎn)區(qū)經(jīng)常遭受冷、干旱等逆境脅迫，同時(shí)香蕉枯萎病使得香蕉產(chǎn)業(yè)正遭受著毀滅性威脅[6]。目前，香蕉主栽品種大多是三倍體，基因組高度復(fù)雜，通常狀況下都是高度不育的，難以通過傳統(tǒng)的雜交育種得到優(yōu)良品種?，F(xiàn)在香蕉育種中如何進(jìn)行品種鑒定是難點(diǎn)之一。近年來，SNP已廣泛應(yīng)用于品種鑒定和重要性狀的基因定位、遺傳連鎖圖譜構(gòu)建、遺傳多樣性分析等相關(guān)研究領(lǐng)域[7-13]。同時(shí)，國(guó)內(nèi)外在香蕉方面進(jìn)行開發(fā)SNP的文章鮮有報(bào)道。本研究利用NCBI中的dbEST數(shù)據(jù)庫(kù)，通過生物信息學(xué)分析開發(fā)SNP，以期獲得合適的分子標(biāo)記，為香蕉育種株系鑒定提供技術(shù)支持。

1材料與方法

1.1香蕉EST序列的獲取

從NCBI網(wǎng)站（http：//www.ncbi.nlm.nih.gov/genbank/）通過關(guān)鍵詞“MUSA”搜索下載，共得到46 665條香蕉EST，所有EST序列均以FASTA格式保存。

1.2香蕉SNP的挖掘

利用SeqClean（http：//compbio.dfci.harvard.edu/tgi/software）去除載體序列及冗余序列，之后使用CD-HIT（http：//www.bioinformatics.org/cd-hit）和CAP3（http：//seq.cs.iastate.edu/cap3.html）進(jìn)行序列的聚類與拼接。利用QualitySNP（http：//www.bioinformatics.nUtools/snpweb/）尋找SNP位點(diǎn)。

1.3篩選原則

香蕉SNP位點(diǎn)篩選原則：（1）規(guī)定候選SNP位點(diǎn)兩側(cè)至少有5 bp堿基要完全保守;（2）候選SNP位點(diǎn)中的次要等位基因頻率至少為30%[14];（3）堿基判讀質(zhì)量與其所在的位置相關(guān)，測(cè)序所得的序列前區(qū)段質(zhì)量普遍偏低，應(yīng)選擇序列100 bp 以后的候選SNP位點(diǎn)。

1.4BLAST比對(duì)

提取含有SNP位點(diǎn)的重疊群（contigs）在NCBI的BLASTn數(shù)據(jù)庫(kù)中進(jìn)行序列比對(duì)，提取與序列相似性最高的序列注釋信息，對(duì)SNP靶向基因產(chǎn)物和物種來源進(jìn)行分析。

2結(jié)果與分析

2.1EST文庫(kù)來源

由表1可知，香蕉EST文庫(kù)數(shù)量多，但其序列主要來源于14個(gè)EST文庫(kù)，其數(shù)量為44 829條，占總EST的96.06%。香蕉EST文庫(kù)主要來源于香蕉A基因組，在所有的EST文庫(kù)中，來源于香蕉葉片組織的高達(dá)49.48%，來源于菜花樣芽分生組織的占23.72%，來源于香蕉根系的占11.09%，來源于香蕉果實(shí)的僅占5.41%。在香蕉EST文庫(kù)中源于Cachaco品種的最多，高達(dá)23.72%，其次為Calcutta 4-AA，占比為2000%，Grande Naine品種占14.05%，Pisang Awak（ABB）Sukari Ndizi（AB）Mpologoma（AAA）占11.77%，Pisang Klutug Wulung（PKW）-BB僅占11.33%，其品種和主要組織來源見表1。

2.2香蕉EST序列SNP頻率分析

如表2所示，在GenBank數(shù)據(jù)庫(kù)中下載到46 665條香蕉EST序列，通過SeqClean去除序列冗余，得到有效的EST序列46 056條。使用CD-HIT和CAP3進(jìn)行序列的聚類與拼接，獲得3 490條重疊群，為了提高SNP位點(diǎn)的可靠性，本研究所用的重疊群EST條數(shù)均大于4，經(jīng)過QualitySNP軟件發(fā)掘SNP位點(diǎn)，在456條重疊群中發(fā)現(xiàn)39條中含有SNP位點(diǎn)，總計(jì)127個(gè)SNP位點(diǎn)。39條重疊群的堿基總數(shù)為35 743 bp，SNP出現(xiàn)的頻率為0.35%，即平均每281 bp含有1個(gè)SNP位點(diǎn)。39條重疊群中平均1條重疊群中含有3.2個(gè)SNP位點(diǎn)，含有SNP位點(diǎn)數(shù)最多的重疊群有14個(gè)位點(diǎn)，具體見表3。

如表4所示，本研究使用的EST序列包含SNP位點(diǎn)堿基轉(zhuǎn)換占比63.78%，顛換占比36.23%，堿基的插入、缺失不統(tǒng)計(jì)。在不同重疊群中不同突變類型SNP位點(diǎn)的數(shù)量差異較大，其分布密度變化也很大。

2.3SNP位點(diǎn)所在核苷酸序列同源性比對(duì)結(jié)果分析

提取39個(gè)含有SNP位點(diǎn)的重疊群在NCBI的BLASTn數(shù)據(jù)庫(kù)中進(jìn)行比對(duì)。本研究發(fā)現(xiàn)3個(gè)未知蛋白，可能是香蕉特有或尚未被發(fā)現(xiàn)的基因（表5），但須進(jìn)一步驗(yàn)證。其他基因包括1個(gè)與抗逆有關(guān)的類熱休克蛋白，3個(gè)與蛋白質(zhì)降解、DNA損傷修復(fù)有關(guān)的泛素蛋白，1個(gè)CBS（cystathionine-beta-synthase）編碼胱硫醚-β-合成酶基因，4個(gè)與蛋白質(zhì)合成相關(guān)的核糖體蛋白，1個(gè)與信號(hào)傳導(dǎo)相關(guān)的鈣調(diào)蛋白，1個(gè)參與真核翻譯起始進(jìn)程的真核翻譯起始因子，1個(gè)含LIM結(jié)構(gòu)域的LIM蛋白，1個(gè)與DNA結(jié)合的組蛋白，1個(gè)參與細(xì)胞內(nèi)物質(zhì)運(yùn)輸和信號(hào)轉(zhuǎn)導(dǎo)的ADP-核糖基化因子，1個(gè)運(yùn)輸?shù)鞍祝?個(gè)過氧化物酶基因，1個(gè)韌皮部蛋白以及1個(gè)磷脂酰肌醇轉(zhuǎn)移蛋白質(zhì)家族成員等，其具體的SNP位點(diǎn)的比對(duì)結(jié)果見表5。

3討論與結(jié)論

目前，開發(fā)EST-SNP的軟件眾多，軟件的選取以及如何設(shè)置參數(shù)都是影響試驗(yàn)結(jié)果的關(guān)鍵因素。如PolyPhred只能預(yù)測(cè)某一核苷酸位點(diǎn)上單個(gè)堿基的替換，SNPdetector假陽(yáng)性率和假陰性率均低，novoSNP的假陽(yáng)性率明顯偏高;在具有可靠的參考序列時(shí)，SOAPsnp正確率較高;AutoSNP正確率低;QualitySNP預(yù)測(cè)位點(diǎn)少但正確率高于AutoSNP，且QualitySNP運(yùn)行速度更快[15];因此，本研究應(yīng)選取QualitySNP開發(fā)SNP。

在EST序列中進(jìn)行SNP位點(diǎn)開發(fā)時(shí)，研究者應(yīng)當(dāng)注意影響SNP開發(fā)質(zhì)量的各種篩選參數(shù)。其中最主要的因素為重疊群的規(guī)格（重疊群所包含EST序列的數(shù)量）和次要等位基因（等位基因中出現(xiàn)次數(shù)較少的堿基）的出現(xiàn)次數(shù)。李猛利用QualitySNP軟件對(duì)葡萄EST序列進(jìn)行候選SNP位點(diǎn)分析時(shí)發(fā)現(xiàn)，為了得到高質(zhì)量的候選SNP位點(diǎn)，重疊群規(guī)格應(yīng)選擇拼接EST數(shù)量≥4條以上，同時(shí)次要等位基因至少出現(xiàn)2次[16]。因?yàn)殄e(cuò)配僅出現(xiàn)1次的話很可能是由序列差錯(cuò)引起的，而同一堿基位置上發(fā)生2次序列差錯(cuò)的概率則很小。因此在規(guī)格為4條，主次等位基因出現(xiàn)次數(shù)比為1 ∶1，即次要等位基因出現(xiàn)2次的重疊群中開發(fā)的候選SNP其可靠度較高。在規(guī)格大于4條的重疊群中，也應(yīng)當(dāng)盡量保證主次等位基因出現(xiàn)次數(shù)比近似為1 ∶1，即在規(guī)格為5～6條的重疊群中，次要等位基因應(yīng)至少出現(xiàn)2次。一般在聚類時(shí)為得到高的比對(duì)分值，通常須要在1條序列中加入空格，但這樣會(huì)被誤判為插入或缺失，為避免出現(xiàn)這種情況，在處理結(jié)果時(shí)可以不考慮插入或缺失，而只分析替換類型。

本研究從NCBI中dbEST公共數(shù)據(jù)庫(kù)下載46 665條EST序列，共有46 056條EST序列參與拼接，總計(jì)拼接成3 490條重疊群，所含EST序列≥4條的重疊群共456條，在39個(gè)重疊群中發(fā)現(xiàn)SNP位點(diǎn)。同時(shí)大于4條以上的重疊群主要由4～7條EST序列拼接而成，最多的1條重疊群也只有13條EST，8條以上EST拼接的重疊群比較少。同時(shí)，本研究中重疊群主要長(zhǎng)度在800～1 500 bp，長(zhǎng)度在1 500 bp以上的較少。一般為了提高SNP的可靠性，用于SNP分析的重疊群至少包含4條以上。

在39條重疊群中篩選出127個(gè)候選SNP位點(diǎn)，SNP頻率為0.35%，較甘蔗[14]、茶樹[17]等其他物種的SNP頻率低，可能是由于香蕉是三倍體植物自交高度不育，在生產(chǎn)上主要依靠吸芽和組培苗進(jìn)行繁殖生產(chǎn)，香蕉無法通過基因交流產(chǎn)生新的基因變化，所以自身遺傳差異變化小，SNP位點(diǎn)相比其他植物少。

一般情況下堿基轉(zhuǎn)換的C/T比A/G更常發(fā)生。CpG二核苷酸的胞嘧啶（C）在基因組中最易發(fā)生突變，其中大多數(shù)是甲基化的，可自發(fā)地脫去氨基而形成胸腺嘧啶（T），因此轉(zhuǎn)換型變異的SNP約占2/3[17]。在本研究中，香蕉SNP位點(diǎn)堿基變異類型以G/A為主，占33.07%，C/T占30.70%，與甘蔗[14]、櫛孔扇貝[18]堿基變異類型相同，與小麥[19]、大麥[20]、辣椒[21]等物種的SNP堿基變異類型不符。轉(zhuǎn)換類型和顛換類型的數(shù)量分別占候選SNP位點(diǎn)總數(shù)的63.78%和36.22%，轉(zhuǎn)換與顛換比為1.76 ∶1.00，即轉(zhuǎn)換類型的數(shù)量明顯高于顛換，與檀小輝等的研究結(jié)果[14]存在差異。

本研究中，含有SNP位點(diǎn)最多的重疊群Contigs402和Contigs373分別有14、11個(gè)SNP位點(diǎn)，其EST構(gòu)成分別為5、4條，長(zhǎng)度分別為852、863 bp。而只含有1個(gè)位點(diǎn)的Contigs97、Contigs287的EST組成分別為6、6條，長(zhǎng)度分別為766、901 bp。由此看出，香蕉重疊群中EST序列數(shù)量與包含的SNP位點(diǎn)數(shù)量并無明顯規(guī)律，這可能與不同物種間SNP位點(diǎn)的分布差異有關(guān)。

參考文獻(xiàn)：

[1]Collins F S，Guyer M S，Charkravarti A. Variations on a theme：cataloging human DNA sequence variations[J]. Science，1997，278（5343）：1580-1581.

[2]Harding R M，F(xiàn)ullerton S M，Griffiths R C，et al. Archaic African and Asian lineages in the genetic ancestry of modern humans[J]. American Journal of Human Genetics，1997，60（4）：772-789.

[3]Nickerson D A，Taylor S L，Weiss K M，et al. DNA sequence diversity in a 9.7kb region of the human lipoprotein lipase gene[J]. Nature Genetics，1998，19（3）：233-240.

[4]梁芳，張繼，呂平，等. 基于EST序列的玫瑰EST-SNP位點(diǎn)發(fā)掘與分析[J]. 南方農(nóng)業(yè)學(xué)報(bào)，2016，47（3）：325-331.

[5]張靜，孫秀秀，徐碧玉，等. 香蕉分子育種研究進(jìn)展[J]. 分子植物育種，2018，16（3）：914-923.

[6]竇同心. 香蕉抗寒、抗病相關(guān)基因的遺傳轉(zhuǎn)化驗(yàn)證[D]. 廣州：華南農(nóng)業(yè)大學(xué)，2016：1-2.

[7]孟霞，曾興權(quán)，其美旺姆，等. 西藏冬青稞種質(zhì)資源SNP標(biāo)記的遺傳多樣性分析[J]. 現(xiàn)代農(nóng)業(yè)科技，2018（1）：40-41，43.

[8]姚丹青，樓堅(jiān)鋒，朱文瑩，等. 基于SNP標(biāo)記的黃瓜遺傳多樣性分析[J]. 上海農(nóng)業(yè)學(xué)報(bào)，2017，33（1）：21-30.

[9]劉凱，鄧志英，李青芳，等. 利用高密度SNP遺傳圖譜定位小麥穗部性狀基因[J]. 作物學(xué)報(bào)，2016，42（6）：820-831.

[10]楊潤(rùn)婷，吳波，李翀，等. 兩種SNP分型方法的比較及其在柚品種鑒定中的應(yīng)用[J]. 園藝學(xué)報(bào)，2013，40（6）：1061-1070.

[11]毛建軍. 雜交水稻品種鑒定的SNP研究及東鄉(xiāng)野生稻兩個(gè)NBS序列的分析[D]. 長(zhǎng)沙：湖南農(nóng)業(yè)大學(xué)，2005：44-45.

[12]李勝杰，白俊杰，趙犖，等. 大口黑鱸EST-SNP標(biāo)記開發(fā)及其與生長(zhǎng)性狀的相關(guān)性分析[J]. 海洋漁業(yè)，2018，40（1）：38-46.

[13]陰長(zhǎng)發(fā). 甘藍(lán)型油菜EST-SNP開發(fā)及花色性狀的QTL定位[D]. 長(zhǎng)沙：湖南農(nóng)業(yè)大學(xué)，2013：38-40.

[14]檀小輝，張繼，梁芳，等. 基于EST序列的甘蔗SNP發(fā)掘及分析[J]. 江蘇農(nóng)業(yè)科學(xué)，2016，44（7）：64-66，67.

[15]李猛，郭大龍，劉崇懷，等. EST-SNP開發(fā)軟件特性分析及比較[J]. 生命的化學(xué)，2011，31（6）：906-911.

[16]李猛. 葡萄EST-SNP標(biāo)記的開發(fā)及應(yīng)用[D]. 洛陽(yáng)：河南科技大學(xué)，2012：24-25.

[17]王麗鴛，張成才，成浩，等. 茶樹EST-SNP分布特征及標(biāo)記開發(fā)[J]. 茶葉科學(xué)，2012，32（4）：369-376.

[18]李紀(jì)勤，包振民，李玲，等. 櫛孔扇貝EST-SNP標(biāo)記開發(fā)及多態(tài)性分析[J]. 中國(guó)海洋大學(xué)學(xué)報(bào)（自然科學(xué)版），2013，43（1）：56-63.

[19]Chao S，Zhang W J，Akhunov E，et al. arker polymorphism in US wheat （Triticum aestivum L.） cultivars[J]. Molecular Breeding，2009，23（1）：23-33.

[20]Sato K，Close T J，Bhat P，et al. Single nucleotide polymorphism mapping and alignment of recombinant chromosome substitution lines in barley[J]. Plant & Cell Physiology，2011，52（5）：728-737.

[21]劉峰，謝玲玲，弭寶彬，等. 辣椒轉(zhuǎn)錄組SNP挖掘及多態(tài)性分析[J]. 園藝學(xué)報(bào)，2014，41（2）：343-348.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

香蕉EST-SNP標(biāo)記的開發(fā)