国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

龍眼全基因組和轉(zhuǎn)錄本序列SSR位點的鑒定

2022-11-01 04:20林恩文林榕榕陳欽常徐秀明方靜平
關(guān)鍵詞:核苷酸龍眼位點

林恩文, 林榕榕, 陳欽常, 雷 雯, 徐秀明, 方靜平

(1.福建師范大學(xué)生命科學(xué)學(xué)院,福建 福州 350117;2.廈門大學(xué)環(huán)境與生態(tài)學(xué)院濱海濕地生態(tài)系統(tǒng)教育部重點實驗室,福建 廈門 361102)

龍眼(DimocarpuslonganLour.)起源于中國,為無患子科(Sapindaceae)龍眼屬(Dimocarpus)喬木,常分布于亞熱帶地區(qū),在我國已有2 000年的種植歷史,主要種植于福建、廣西等地區(qū).得益于其獨特的風(fēng)味、豐富的營養(yǎng)和功能特效,龍眼廣受人們喜愛,在我國具有一定的農(nóng)業(yè)經(jīng)濟(jì)地位.我國具有豐富的龍眼種質(zhì)資源(約400個品種[1]),占世界品種的2/3,開展龍眼群體遺傳多樣性以及種群遺傳結(jié)構(gòu)研究可以為龍眼資源遺傳多樣性保護(hù)提供理論基礎(chǔ).龍眼新品種(系)的培育主要是通過雜交育種,雜種鑒定保證雙親與后代親緣一致是果樹遺傳改良的必要前提.傳統(tǒng)的形態(tài)標(biāo)記、細(xì)胞學(xué)標(biāo)記和生化標(biāo)記方法工作量大、周期長、經(jīng)驗性要求高、效率低下[2-3],已經(jīng)不能滿足品種快速鑒定的需求,而分子標(biāo)記以其多態(tài)性強(qiáng)、信息量大、檢測方便可靠[4],成為近年來雜種鑒定或品種遺傳多樣性分析最廣泛采取的方法.

簡單重復(fù)序列(simple sequence repeats, SSR)也稱微衛(wèi)星序列,廣泛分布于真核生物基因組中,具有高可變性、顯著多態(tài)性及相對的保守性、共顯性等特點[5],已經(jīng)在荔枝(Litchichinensis)[6]、紅毛丹(NepheliumlappaceumL.)[7]、葡萄(VitisviniferaL.)[8]、菠蘿[Ananascomosus(Linn.) Merr.][9]等果樹的雜種真實性鑒定、種群遺傳多態(tài)性分析、基因定位和遺傳圖譜構(gòu)建等研究工作上取得成功.在龍眼SSR分子標(biāo)記的研究中,陳虎等[10]利用SSR標(biāo)記把龍眼劃分為中國、泰國、越南等類群;洪自同[11]通過建立SSR引物和PCR擴(kuò)增,鑒定了龍眼部分優(yōu)良品種株系;胡文舜等[12]利用SSR鑒定了‘石硤’和‘香脆’兩個龍眼品種正、反交的遺傳多樣性;洪仕南[13]鑒定了龍眼轉(zhuǎn)錄本SSR位點并探索了不同品種龍眼的親緣關(guān)系.但以上工作均是基于龍眼基因組的部分信息,目前尚未有人展開對龍眼全基因組SSR位點的全面性挖掘和準(zhǔn)確性鑒定.本實驗室前期已完成了我國主栽早熟優(yōu)質(zhì)龍眼品種‘石硤’染色體級別高質(zhì)量基因組的測序和組裝工作(GenBank登錄號:PRJNA741049),該工作組裝了龍眼483.4 Mb的基因組序列,Scaffold N50為31.4 Mb,Contig N50為764 kb,覆蓋龍眼全基因組99.30%的區(qū)域.基于該基因組序列,可以更準(zhǔn)確全面地進(jìn)行龍眼全基因組SSR序列鑒定和特征分析,從而篩選更準(zhǔn)確的引物用于品種鑒定和遺傳多樣性分析.

本研究旨在挖掘具有優(yōu)良基因型的‘石峽’龍眼品種的全基因組數(shù)據(jù),結(jié)合生物信息學(xué)手段,鑒定龍眼全基因組的SSR位點,分析SSR位點在龍眼全基因組/轉(zhuǎn)錄本序列中的分布特征,包括基因組不同區(qū)域SSR位點的密度分布特征、不同長度基序的SSR分布規(guī)律等,并對單、雙子葉植物及無患子目等不同種的植物進(jìn)行全基因組水平的SSR位點鑒定和比較,總結(jié)SSR位點的一般規(guī)律和物種特異性.本研究旨在為龍眼的真實雜交種鑒定、遺傳多樣性研究、遺傳圖譜構(gòu)建和分子標(biāo)記輔助育種提供重要數(shù)據(jù)庫支撐,對其他物種SSR位點的深度挖掘和鑒定也提供參考和方向.

1 材料與方法

1.1 RNA提取、RNA文庫構(gòu)建與測序

選取龍眼不同時期的花芽、葉芽、果實進(jìn)行轉(zhuǎn)錄組測序,每個處理設(shè)計3個生物學(xué)重復(fù).采用天根RNA提取試劑盒[Qiagen, #74904,天根生化科技(北京)有限公司]提取龍眼不同樣本的RNA,提取方法見試劑盒說明書.采用DNA純化試劑盒 TIANquick Midi Purification Kit[天根生化科技(北京)有限公司]去除RNA中的DNA污染.RNA樣品建庫后在Hiseq×10 測序儀(Illumina公司)上進(jìn)行雙端測序,測序模式為“快速模式2×150 nt”.

1.2 基因組數(shù)據(jù)和轉(zhuǎn)錄組數(shù)據(jù)

龍眼品種‘石硤’染色體水平的基因組已在NCBI公布,GenBank登錄號為:PRJNA741049.該基因組數(shù)據(jù)用于下游SSR的挖掘.通過TRINITY軟件(http://trinityrnaseq.github.io/)對前期獲得的所有轉(zhuǎn)錄組數(shù)據(jù)進(jìn)行拼接,得到轉(zhuǎn)錄本序列,該數(shù)據(jù)總大小約為48.6 Mb.

1.3 SSR的挖掘

利用Perl軟件編寫的一款軟件MISA掃描和挖掘‘石硤’龍眼全基因組的SSR序列,這款軟件的安裝包下載于http://pgrc.ipk-gatersleben.de/misa/.在配置文件參數(shù)的設(shè)定中,考慮了完美和復(fù)合標(biāo)記類型.核苷酸重復(fù)基序長度設(shè)置為2~6 bp,二、三、四核苷酸SSR序列的最短長度均為12 bp,五、六核苷酸SSR序列的最短長度分別為15、18 bp.在本研究中,單核苷酸的SSR位點未被考慮,因為基因組序列的測序錯誤和組裝錯誤常常會引入新的單元重復(fù),多聚腺苷酸尾巴 (polyA)也常與單核苷酸重復(fù)混淆.對于復(fù)合SSR重復(fù)序列,兩個SSR位點之間的最大差異設(shè)為100 bp.使用在線gff2bed Python腳本(http://bedops.readthedocs.org/en/latest/content/reference/filemanagement/conversion/gff2bed.html)、bedtools軟件(https://bedtools.readthedocs.io/en/latest/index.html)的“bedtools getfasta”命令和自編的Python腳本將3′UTR區(qū)、5′UTR區(qū)、CDS區(qū)、外顯子區(qū)和內(nèi)含子區(qū)從gff3注釋文件提取出來.利用Windows Excel 2010軟件和自編的Python腳本對龍眼全基因組、基因區(qū)和EST序列的SSR密度、G+C含量及核苷酸重復(fù)基序、重復(fù)長度、重復(fù)次數(shù)分布進(jìn)行了估計和分析,并進(jìn)行了比較.互補(bǔ)鏈上的重復(fù)基序被認(rèn)為是等價物,并組合成一個基序,如AG基序相當(dāng)于GA、TC、CT等.

1.4 龍眼SSR相關(guān)基因的鑒定

為了鑒定SSR位點相關(guān)基因的功能,通過編寫的Python腳本提取包含SSR位點的基因.利用在線網(wǎng)站(http://eggnog-mapper.embl.de/)對龍眼全基因組做基因本體聯(lián)合會(gene ontology,GO)注釋,將含有SSR位點的基因作為目的基因,全基因組基因作為背景基因,進(jìn)行GO富集分析.

1.5 近緣物種系統(tǒng)發(fā)育樹的構(gòu)建

近緣物種系統(tǒng)發(fā)育樹的構(gòu)建一般基于單拷貝基因,利用OrthoFinder軟件(https://github.com/davidemms/OrthoFinder)鑒定了不同物種間的單拷貝基因,得到了龍眼與其近緣種荔枝、紅毛丹、文冠果(XanthocerassorbifoliumBunge)、漾濞楓(Aceryangbiense)的單拷貝同源基因列表信息,通過EasySpeciesTree腳本(https://github.com/dongwei1220/EasySpeciesTree)構(gòu)建系統(tǒng)發(fā)育樹.

2 結(jié)果與分析

2.1 SSR在基因組不同區(qū)域中的密度分布

基于最新組裝的483.4 Mb龍眼基因組,共挖掘到260 204個SSR位點,SSR平均密度為每1 Mb含有538.24個SSR位點(即每1 kb含有1.86個SSR位點,不包含單核苷酸SSR).其中,39 102個(15.03%)分類為類型一SSR(≥20 bp),密度為每1 Mb含有80.88個SSR位點.221 102個(84.97%)分類為類型二SSR(≥12 bp,且<20 bp),密度為每1 Mb含有457.35個SSR位點.類型二SSR的數(shù)量和密度遠(yuǎn)超類型一SSR.基因區(qū)(含外顯子區(qū)、內(nèi)含子區(qū)、CDS區(qū)、5′UTR區(qū)、3′UTR區(qū))和轉(zhuǎn)錄本中SSR數(shù)量和密度的分布如附圖1(掃OSID碼可見)、表1所示.非編碼區(qū)SSR的密度顯著高于編碼區(qū).在非編碼區(qū)中,5′UTR區(qū)SSR的密度最高,每1 Mb含有955.47個SSR位點,接著依次為基因間區(qū)(每1 Mb含有567.39個SSR位點, 見附圖1, 掃OSID碼可見)、內(nèi)含子區(qū)(每1 Mb含有535.15個SSR位點)、3′UTR區(qū)(每1 Mb含有385.88個SSR位點).CDS區(qū)SSR的密度最低,每1 Mb僅含有240.36個SSR位點.

表1 龍眼不同基因組區(qū)域和轉(zhuǎn)錄本序列中SSR密度、G+C含量的分布Table 1 SSR density and G+C content in different genomic regions and transcript sequences of longan

2.2 SSR總長度與基序長度的分布

在全基因組中,SSR重復(fù)序列總長分布為12~69 bp,而轉(zhuǎn)錄本SSR重復(fù)序列總長分布為12~309 bp.基因組和轉(zhuǎn)錄本的SSR重復(fù)序列長度均以12 bp為主,分別占SSR總量的48.26%、52.00%(圖1a),分別占類型二SSR總量的56.80%、59.24%(圖1b).排在第2位的SSR重復(fù)序列長度為15 bp,其占比在基因組和轉(zhuǎn)錄本中的趨勢是相似的,在基因組中約13.33%的SSR長度為15 bp,在轉(zhuǎn)錄本中,有15.27%的SSR長度為15 bp.在全基因組的類型一SSR中, 總長為20 bp的重復(fù)序列最多,為11 533個(29.49%),其次是24 bp(17.70%)(圖1c).相反地,在轉(zhuǎn)錄本中24 bp的SSR重復(fù)序列最多,為497個(24.52%),緊接著是20 bp(22.00%).有趣的是,當(dāng)SSR重復(fù)序列長度為3的倍數(shù)時(如12、15、18、21、24、27、30 bp等),轉(zhuǎn)錄本對應(yīng)的SSR數(shù)量高于基因組中的SSR數(shù)量.

a:全基因組;b:類型二SSR;c:類型一SSR.圖1 SSR長度在龍眼全基因組和轉(zhuǎn)錄本序列中的分布Fig.1 Distribution of longan SSR at the genome and transcriptome level by repeat length

不同SSR基序長度的分布如圖2所示.在全基因組中,二核苷酸基序SSR的數(shù)量最多,為86 048個(33.07%),大于其他基序(圖2a).類型一中的SSR以二核苷酸基序為主(圖2b),高達(dá)60.95%,數(shù)量23 833個,接著依次為三、四、五核苷酸基序,分別占SSR總量的19.58%、7.58%、8.61%.在基因組和類型一的SSR中,SSR數(shù)量隨核苷酸基序長度的增加而減少.但在類型二SSR中卻沒有呈現(xiàn)該規(guī)律(圖2c),類型二SSR中重復(fù)次數(shù)最多的為四核苷酸基序,為65 853個(占29.78%),略高于三核苷酸基序和二核苷酸基序(分別占28.57%、28.14%).在全基因組中,SSR不同基序分布密度在CDS區(qū)、外顯子區(qū)、內(nèi)含子區(qū)和UTR區(qū)呈現(xiàn)不同的趨勢(圖2).基因編碼區(qū)的分布密度與非編碼區(qū)顯著不同,編碼區(qū)(含轉(zhuǎn)錄本、CDS區(qū)、外顯子區(qū))的三核苷酸基序數(shù)量明顯高于其他核苷酸基序,且六核苷酸基序高于五核苷酸基序.轉(zhuǎn)錄本、CDS區(qū)和外顯子區(qū)的三核苷酸基序數(shù)量占比分別為52.51%、79.19%、56.51%,是非編碼區(qū)5′UTR區(qū)、3′UTR區(qū)和內(nèi)含子區(qū)的該基序占比的1.84倍以上(分別為28.52%、28.29%、22.89%)(圖2a).在轉(zhuǎn)錄本SSR中,三、六核苷酸基序比例略微高于基因組中的該基序(圖2).

a:全基因組;b:類型一SSR;c:類型二SSR.圖2 不同SSR基序長度在龍眼全基因組和轉(zhuǎn)錄本序列中的分布Fig.2 Distribution of longan SSR at the genome and transcriptome level by motif length

2.3 SSR基序在全基因組和轉(zhuǎn)錄本中的分布

在全基因組和轉(zhuǎn)錄本中,不同基序的重復(fù)次數(shù)頻率隨重復(fù)單元數(shù)量的增加而急劇下降(圖3).在全基因組和轉(zhuǎn)錄本中,以二核苷酸基序為重復(fù)單元的SSR位點的平均數(shù)量(每1 Mb含有177.99個SSR位點)為三核苷酸重復(fù)基序的1.74~1.76倍,是四至六核苷酸重復(fù)基序的2.53~2.73倍(附表1,掃OSID碼可見).在基因組區(qū)域中,二核苷酸重復(fù)基序的累計長度為1 472.40 kb,是所有核苷酸重復(fù)基序類型中最長的.在轉(zhuǎn)錄本中,盡管二核苷酸重復(fù)基序SSR平均重復(fù)單元數(shù)量(8.23個)是三核苷酸重復(fù)基序SSR(4.74個)的1.74倍,然而由于三核苷酸重復(fù)基序的出現(xiàn)頻率(8 716次)最高(52.51%),分布密度最高(每1 Mb含有179.47個SSR位點),因而三核苷酸重復(fù)基序在轉(zhuǎn)錄本SSR中所占比重最大:其累計長度為123.89 kb,約是二核苷酸重復(fù)基序SSR累計總長(62.33 kb)的1.99倍(附表1,掃OSID碼可見).在龍眼基因組中最長的SSR是以AAG三核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為103,長達(dá)309 bp;其次仍是以AAG三核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為99,長達(dá)296 bp.在轉(zhuǎn)錄本中,二核苷酸重復(fù)基序序列最長,以CT二核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為34,累計長度為68 bp;其次是以AGA三核苷酸為重復(fù)基序的序列,重復(fù)次數(shù)為18,長度為54 bp.在基因組和轉(zhuǎn)錄本相同的重復(fù)基序中,重復(fù)基序的出現(xiàn)次數(shù)和序列長度均不同,更詳細(xì)的信息見圖3、附表2(掃OSID碼可見)、附表3(掃OSID碼可見).

圖3 龍眼全基因組和轉(zhuǎn)錄本序列中SSR重復(fù)單元和基序的分布Fig.3 Frequency of longan SSR at the genome and transcriptome level by motif length

2.4 含有SSR重復(fù)基序的基因鑒定

本研究結(jié)果表明:在含有SSR位點的基因中,含有1~10個SSR位點的基因數(shù)量最多(附圖2a,掃OSID碼可見);在這些基因中,SSR位點分布在外顯子上的數(shù)量集中在1~4個(附圖2b,掃OSID碼可見).共有20 761個基因含有SSR位點,占全基因組基因數(shù)量的56%,不含SSR位點的基因數(shù)量為16 381個(44%)(附圖2c,掃OSID碼可見).不同基因含有不同數(shù)量的SSR位點.含有SSR位點的基因中,一個基因最多含有42個SSR位點,8 761個基因(42.19%)只含有一個SSR位點,5 011個基因(24.14%)含有兩個SSR位點,2 813個基因(13.55%)含有3個SSR位點.在不同的基因組區(qū)域中,內(nèi)含子片段包含的SSR位點最多(24 981個),外顯子片段包含的SSR位點最少(1 730個)(附圖2d,掃OSID碼可見),含有SSR位點的外顯子數(shù)量隨SSR位點的增多而急劇下降(附圖2b,掃OSID碼可見).

將含有SSR位點的基因進(jìn)行GO注釋富集分析,結(jié)果如附圖3(掃OSID碼可見)所示.在20 761個含有SSR位點的基因中,9 231個基因可比對到一個或多個GO號,分別涉及到1 129個生物過程、2 442個細(xì)胞組分和7 476個分子功能.在分子功能分類中,較高比例的基因(66.70 %)被富集到蛋白結(jié)合和催化活性(62.00%)等功能,接著是轉(zhuǎn)運(yùn)活性(25.36%)和核酸結(jié)合轉(zhuǎn)錄因子活性(10.23%);在細(xì)胞組分分類中,97.21%的基因被注釋到細(xì)胞,接著是細(xì)胞膜/細(xì)胞器或部分細(xì)胞器和分子復(fù)合物,所占比例分別是40.26%、72.85%(36.74%)、17.38%;在生物學(xué)過程分類中的基因占比前三的數(shù)據(jù)如下:注釋到細(xì)胞類別中的比例為85.73%,單組織過程中的比例為71.06%,代謝過程中的比例為62.66%;其他主要被注釋到的功能是:生物調(diào)節(jié)、應(yīng)激反應(yīng)及細(xì)胞成分與信號傳導(dǎo)等.

2.5 龍眼與近緣種SSR位點數(shù)量和分布的比較

基于NCBI下載的無患子目無患子科的3個高質(zhì)量基因組(荔枝、紅毛丹、文冠果)和無患子目槭樹科的漾濞楓等物種已組裝的高質(zhì)量基因組,使用與本研究中龍眼SSR位點鑒定相同的方法對其做了全基因組SSR位點的鑒定,并分析了不同基序SSR位點的分布規(guī)律,結(jié)果如表2、附表4(掃OSID碼可見)、圖4所示.龍眼與荔枝基因組大小僅相差13.04 Mb,SSR數(shù)量分布特征和G+C含量特征最為相似,其次相似的是紅毛丹.通過比較5個物種SSR的分布,漾濞楓基因組最大(666 Mb),所含SSR位點的數(shù)量最多(457 104個);文冠果基因組大小位居第二(506 Mb),但文冠果是5種植物中含有SSR位點數(shù)量最少的物種(附表4,掃OSID碼可見).基于拷貝同源基因構(gòu)建的進(jìn)化樹,龍眼、荔枝與紅毛丹有著較近的親緣關(guān)系,龍眼與荔枝的親緣關(guān)系最近,而與文冠果、漾濞楓的親緣關(guān)系較遠(yuǎn)(圖4a).通過統(tǒng)計5種植物不同基序SSR位點的重復(fù)次數(shù),結(jié)果(圖4b)顯示,二、三核苷酸重復(fù)基序的重復(fù)次數(shù)均高于其他基序類型.通過統(tǒng)計5種植物不同基序長度SSR位點的G+C含量,結(jié)果(表2)顯示,除漾濞楓外,二至六核苷酸重復(fù)基序的G+C含量(12.43%~25.17%)遠(yuǎn)低于A+T含量(87.57%~74.83%).在漾濞楓的六核苷酸重復(fù)基序中,G+C含量顯著上升為36.01%,其他植物六核苷酸重復(fù)基序的G+C含量為18.63%~24.04%.

表2 不同物種不同基序G+C含量的統(tǒng)計Table 2 G+C content of different motifs in longan and closely related species

a:系統(tǒng)發(fā)生樹;b:SSR分布數(shù)量熱圖.圖4 龍眼近緣物種系統(tǒng)發(fā)生樹和SSR分布數(shù)量熱圖Fig.4 Phylogenetic tree and heatmap of SSR in longan and closely related species

2.6 單、雙子葉植物SSR位點的比較

本研究還比較了不同單、雙子葉植物中SSR位點的數(shù)量分布規(guī)律和G+C含量分布情況.除了雙子葉植物龍眼外,還選取擬南芥(Arabidopsisthaliana)、橙子(Citrussinensis)、葡萄3種雙子葉植物及水稻(OryzasativaL.)、高粱[Sorghumbicolor(L.) Moench]兩種單子葉植物.分別對這些物種的基因組和轉(zhuǎn)錄本進(jìn)行SSR位點鑒定和比較分析,結(jié)果如附表3(掃OSID碼可見)所示.單子葉植物基因組SSR比雙子葉植物呈現(xiàn)出較高的G+C含量.在單子葉植物的基因組中,水稻和高粱SSR的G+C含量分別為43.60%、43.90%;而在雙子葉植物中,龍眼SSR的G+C含量僅為16.97%,擬南芥、橙子和葡萄SSR的G+C含量分別為36.00%、32.30%、34.40%.單子葉植物水稻和高粱的SSR均是以三堿基重復(fù)單元為優(yōu)勢重復(fù)單元,水稻SSR的三堿基重復(fù)單元分布密度最大,每1 Mb含有220.1個SSR位點;在雙子葉植物中,除擬南芥以三堿基重復(fù)單元為優(yōu)勢重復(fù)單元外,其他物種的SSR均是以二堿基重復(fù)單元為優(yōu)勢重復(fù)單元,橙子的二堿基重復(fù)單元密度最大,每1 Mb含有146.0個SSR位點.在轉(zhuǎn)錄本SSR中,單子葉植物依舊具有較高的G+C含量,水稻和高粱的G+C含量分別高達(dá)51.50%、52.00%;而在龍眼、擬南芥、橙子和葡萄等雙子葉植物中,G+C含量均表現(xiàn)出明顯的下降趨勢,分別為39.71%、42.70%、41.40%、43.90%.與基因組SSR不同,在轉(zhuǎn)錄本SSR中,本研究涉及的所有單、雙子葉植物均是以三堿基重復(fù)單元為優(yōu)勢重復(fù)單元,但是在單子葉植物中,四至六堿基重復(fù)單元的密度比雙子葉植物約高出一倍,即單子葉植物的SSR密度均大于雙子葉植物.

3 討論

微衛(wèi)星標(biāo)記在遺傳學(xué)、生態(tài)學(xué)、分類學(xué)和進(jìn)化研究中起著至關(guān)重要的作用.分析龍眼編碼區(qū)和非編碼區(qū)的SSR位點,有助于理解龍眼基因組結(jié)構(gòu)與進(jìn)化,為揭示微衛(wèi)星標(biāo)記在基因調(diào)控中的潛在作用以及基因定位提供數(shù)據(jù)支持.隨著近期龍眼基因組的公布,可對龍眼SSR位點進(jìn)行全基因組水平鑒定.本研究首次對龍眼高質(zhì)量基因組進(jìn)行SSR位點分析并總結(jié)其分布規(guī)律,為開展龍眼屬植物的雜種鑒定、遺傳圖譜構(gòu)建、種質(zhì)資源保護(hù)等提供了重要的基礎(chǔ)數(shù)據(jù)庫.本研究還挖掘了SSR位點在龍眼轉(zhuǎn)錄本中的分布情況,首次對龍眼SSR序列全基因組和轉(zhuǎn)錄本內(nèi)部特征分布進(jìn)行了詳細(xì)的比較分析.

在龍眼基因組中,以二核苷酸重復(fù)基序為優(yōu)勢基序,SSR位點的分布頻率與重復(fù)單元數(shù)量呈反比,這符合一般規(guī)律[14],與菠蘿[9]、石榴(PunicagranatumL.)[15]、閩楠(Phoebebournei)[16]等物種的分析結(jié)果一致.但在禾本科植物中沒有此規(guī)律,它們以三、六核苷酸為優(yōu)勢重復(fù)類型[17].本研究也發(fā)現(xiàn),單子葉植物(水稻、高粱)基因組中常常以三核苷酸重復(fù)為優(yōu)勢,雙子葉植物(龍眼、橙子、葡萄)往往以二核苷酸重復(fù)為優(yōu)勢.已有研究顯示,雙子葉植物的SSR位點在基因組出現(xiàn)的頻率要比單子葉植物高得多[18],但本研究未發(fā)現(xiàn)相同的趨勢.

在龍眼基因組中,類型二SSR的數(shù)量比類型一SSR更豐富(圖1),該規(guī)律與其他物種[19-20]類似.本研究中,龍眼基因組共鑒定到了260 204個SSR位點,SSR平均密度為538.24個·Mb-1,漾濞楓、紅毛丹、文冠果和荔枝SSR的平均密度分別為686.34、678.01、415.92、545.09個·Mb-1,荔枝與龍眼的親緣關(guān)系最近,基因組大小及SSR位點的數(shù)量和分布最相似.本研究還將無患子目目前已有的參考基因組構(gòu)建了進(jìn)化發(fā)生樹,盡管紅毛丹的外形、口感與荔枝相似,但該進(jìn)化樹表明了無患子科的荔枝與龍眼的關(guān)系近于紅毛丹,這與前人利用同源序列分析研究的結(jié)果[21]一致.另外,文冠果與龍眼的親緣關(guān)系最遠(yuǎn).據(jù)已有研究報道,二核苷酸重復(fù)或三核苷酸重復(fù)單元越多,則表明該物種具有較高的進(jìn)化水平,反之,則物種的變異較少或進(jìn)化時間短[22].漾濞楓基因組合中含有最多的二、三核苷酸重復(fù)基序,暗示了漾濞楓在無患子目中可能具有較高的進(jìn)化水平.甘蔗(Saccharumofficinarum)、玉米(ZeamaysL.)、高粱等禾本科植物SSR數(shù)量的多少與基因組大小呈正相關(guān)[23],而無患子科卻沒有此規(guī)律.

基因不同區(qū)域SSR密度的分布規(guī)律與以往的研究報道[20]基本一致.不同基因位置的SSR可能在發(fā)育、適應(yīng)、生存和進(jìn)化中發(fā)揮不同的作用.含有SSR位點的基因區(qū)域的突變可能會影響相應(yīng)的基因產(chǎn)物.如:基因編碼區(qū)SSR位點的插入或缺失可能通過移碼突變或擴(kuò)展毒性mRNA導(dǎo)致基因功能的獲得或喪失[24];在UTR或內(nèi)含子中存在某些多態(tài)SSR可能會影響基因的表達(dá)水平[25].通過比較龍眼轉(zhuǎn)錄區(qū)域(CDS、外顯子、EST)和整個龍眼基因組區(qū)域的SSR位點的結(jié)果表明,除三、六核苷酸重復(fù)外,所有重復(fù)類型在轉(zhuǎn)錄區(qū)域的數(shù)量都相對較少[圖2、附表1(掃OSID碼可見)].這種趨勢在其他物種中也存在.龍眼轉(zhuǎn)錄本中以三核苷酸重復(fù)基序為優(yōu)勢基序,三、六核苷酸相對于其他重復(fù)類型的優(yōu)勢被歸因于對移碼突變的負(fù)選擇.三、六核苷酸是多個密碼子的整合,它們的突變可能不會破壞閱讀框,這一過程可能與遺傳保護(hù)有關(guān)[20].以往的研究顯示,在睡蓮(Nymphaeatetragona)[26]、荔枝[27]、黑莓(RubusfruticosusPollich)[28]、胡蘿卜(Daucuscarotavar.sativaHoffm.)[29]的轉(zhuǎn)錄本中,二核苷酸重復(fù)基序的SSR數(shù)量最多,在柑橘(CitrusreticulataBlanco)[30]、黨參[Codonopsispilosula(Franch.) Nannf.][31]、芒果(MangiferaindicaL.)[32]中是三核苷酸重復(fù)基序的SSR數(shù)量最多,因此在轉(zhuǎn)錄本中依舊是以二、三核苷酸重復(fù)基序為優(yōu)勢基序.在龍眼中,全基因組序列SSR以二核苷酸重復(fù)基序為優(yōu)勢基序,轉(zhuǎn)錄本SSR以三核苷酸重復(fù)基序為優(yōu)勢基序,基本具有基序越短而重復(fù)次數(shù)越多、基序越長而重復(fù)次數(shù)越少的規(guī)律.此外,對龍眼轉(zhuǎn)錄本SSR的挖掘,有利于進(jìn)一步進(jìn)行重要功能基因的關(guān)聯(lián),做更精細(xì)的基因定位.徐志軍等[33]通過轉(zhuǎn)錄本數(shù)據(jù)和SSR位點圖譜,聯(lián)合重要性狀的QTL位點對抗病基因做精準(zhǔn)定位,這是今后研究可探討和結(jié)合的方向.

SSR位點區(qū)域被認(rèn)為是基因組中的突變熱點區(qū)域,因此在基因組的起源和進(jìn)化動力學(xué)中發(fā)揮著重要作用[34].這一趨勢可能是由于較長的類型一SSR重復(fù)序列固有的不穩(wěn)定性,這些重復(fù)序列容易通過復(fù)制滑移、點突變或重組等機(jī)制突變?yōu)椴煌昝赖腟SR[34],而較短的類型二SSR重復(fù)序列對突變具有更強(qiáng)的耐受力而被保留.在本研究所有物種的SSR位點中,均是AT占主要優(yōu)勢,而G+C含量較少,這種現(xiàn)象在動植物中普遍存在.如在花生(ArachishypogaeaLinn.)的SSR位點中,主要重復(fù)單元也是AT、GA、GT和ATT[35].若假設(shè)SSR區(qū)域是DNA穩(wěn)定區(qū)域,GC富集區(qū)域也相對穩(wěn)定,只存在較少的突變,那么AC或AG的重復(fù)應(yīng)多于AT,但本研究卻發(fā)現(xiàn)相反的情況,這暗示著AT與GC富集基序的突變或修復(fù)機(jī)制的差異,如打破AT結(jié)構(gòu)類型的堿基所需的能量相對于GC結(jié)構(gòu)類型的堿基需要的能量更少,使得AT更容易產(chǎn)生突變[36].本研究也觀察到,隨著核苷酸重復(fù)基序變長,AT優(yōu)勢呈下降趨勢.

SSR在植物基因中的功能尚不清楚.本研究對龍眼含有SSR位點的基因進(jìn)行功能注釋和分類的結(jié)果表明,這些基因具有一系列功能,如蛋白質(zhì)結(jié)合、催化活性、代謝酶、疾病信號轉(zhuǎn)導(dǎo)、結(jié)構(gòu)和存儲蛋白、轉(zhuǎn)錄因子等.在分子功能分類中,含有SSR位點的基因大多與具有結(jié)合和催化活性的蛋白質(zhì)同源;在細(xì)胞成分分類中,多與細(xì)胞、細(xì)胞膜和細(xì)胞器相關(guān).表明SSR在植物代謝、基因表達(dá)調(diào)控和基因進(jìn)化中可能具有重要的生物學(xué)意義.

猜你喜歡
核苷酸龍眼位點
Pd改性多活性位點催化劑NH3-SCR脫硝反應(yīng)機(jī)理研究
多環(huán)境下玉米保綠相關(guān)性狀遺傳位點的挖掘
相信科學(xué)!DNA追兇是如何實現(xiàn)的?
慢性乙型肝炎抗病毒治療進(jìn)展
買龍眼
吃味精會對身體有害嗎
5月龍眼市場監(jiān)測分析
一種改進(jìn)的多聚腺苷酸化位點提取方法
6月龍眼市場監(jiān)測分析
甜甜的龍眼,美美的景色
昌平区| 察隅县| 通化市| 依安县| 健康| 连云港市| 东港市| 鄯善县| 治县。| 兴海县| 隆昌县| 灵丘县| 屯昌县| 稻城县| 平定县| 滨海县| 黑水县| 敦煌市| 中超| 房山区| 舒兰市| 门源| 惠水县| 通海县| 珠海市| 青田县| 长岭县| 砚山县| 抚松县| 绥阳县| 历史| 新安县| 南京市| 冕宁县| 积石山| 沁源县| 三台县| 观塘区| 阿荣旗| 潜山县| 滨海县|