常越 閆嵩 劉振鵬 任偉超 劉玠 馬偉
[摘要]該實(shí)驗(yàn)采用Roche 454 GS FLX測(cè)序儀獲得黃芪的轉(zhuǎn)錄組數(shù)據(jù),使用454 Sequencing System Software分析軟件進(jìn)行轉(zhuǎn)錄組從頭拼接;利用MISA工具篩選了黃芪轉(zhuǎn)錄組測(cè)序獲得的9 893條unigenes,對(duì)其SSR 位點(diǎn)信息進(jìn)行了分析。結(jié)果表明,進(jìn)行測(cè)序所得的reads的平均長(zhǎng)度為413 bp,約86%的reads參與了拼接,拼接的N50長(zhǎng)度為1 205 bp,所測(cè)得的unigene數(shù)量基本涵蓋了全部轉(zhuǎn)錄組信息;黃芪轉(zhuǎn)錄組搜索到1 729個(gè)SSR位點(diǎn),SSR的發(fā)生頻率為924%,SSR在黃芪整個(gè)轉(zhuǎn)錄組中出現(xiàn)的頻率為1342%,SSR的平均距離為797 kb。一共發(fā)現(xiàn)核心重復(fù)序列127種,占優(yōu)勢(shì)的是二核苷酸型中的TG/AC型,出現(xiàn)的頻率占總SSR位點(diǎn)的425%。黃芪轉(zhuǎn)錄組的測(cè)序結(jié)果揭示了黃芪轉(zhuǎn)錄組的整體表達(dá)特征,并得到大量黃芪轉(zhuǎn)錄組unigene序列,并且黃芪轉(zhuǎn)錄組SSR位點(diǎn)出現(xiàn)頻率高,類型多樣,多態(tài)性潛能高。
[關(guān)鍵詞]膜莢黃芪;轉(zhuǎn)錄組測(cè)序;SSR;位點(diǎn)信息
[Abstract]In this study, 454/Roche GS FLX sequencing technology was used to obtain the data of the Astragalus membranaceus Four hundred and fiftyfour Sequencing System Software was applied to carry out the transcription of the group from scratch Using MISA tools, 9 893 unigenes were selected for the sequence of the genome of A membranaceus, and the information of SSR locus was analyzed According to the result, the average length of reads was 413 bp, about 86% of the reads was involved in the splicing, the length of the N50 was 1 205 bp, the number of unigenes was measured by the whole transcript 1 729 SSR loci in the A membranaceus transcriptome were searched, the occurrence frequency of SSR was 924%, the frequency of SSR in the whole transcriptome was 1342%, the average length of SSR was 797 kbOne hundred and twentyseven kinds of core repeat sequences were found, the dominant type was TG/AC type of dinucleotide, it appeared to account for 425% of the total SSR locus The results of the sequence of the transcription of the A membranaceus transcriptome revealed the overall expression, and a large number of unigenessequence was obtained, and the SSR locus in the genome of the A membranaceus is high, and the type is diverse, and the polymorphism of the gene is high
[Key words]Astragalus membranaceus; transcriptome sequencing; SSR; information of loci
doi:10.4268/cjcmm20160810
中藥材黃芪按《中國(guó)藥典》(2010年版)規(guī)定,是蒙古黃芪Astragalus membranaceus(Fisch) Bgevarmongholicus Hsiao Bge或膜莢黃芪A membranaceus(Fisch) Bge的干燥根。味甘性溫,具有補(bǔ)氣升陽(yáng),健脾利尿,排毒排膿,斂瘡生肌等功效[1]。轉(zhuǎn)錄組(transcriptome)是指特定細(xì)胞在某一功能狀態(tài)下全部表達(dá)的基因總和,代表了每一個(gè)基因的身份和表達(dá)水平,轉(zhuǎn)錄組測(cè)序能全面的地揭示生物個(gè)體在特定組織和特定時(shí)期的全局基因的表達(dá)情況。簡(jiǎn)單重復(fù)序列(simple sequence repeats,SSR),一般以1~6個(gè)堿基為核心序列,具有高度多態(tài)性。目前已利用SSR 標(biāo)記構(gòu)建了許多物種的染色體遺傳圖譜,并被廣泛應(yīng)用于基因定位及親緣關(guān)系分析、品種鑒定和動(dòng)植物育種等領(lǐng)域[2]。本實(shí)驗(yàn)旨在完成黃芪轉(zhuǎn)錄組測(cè)序并分析其SSR位點(diǎn)信息,為黃芪進(jìn)一步在遺傳圖譜構(gòu)建、種質(zhì)鑒定、遺傳多樣性分析等方面的研究奠定了基礎(chǔ)。
1材料與方法
11植物
本試驗(yàn)所用膜莢黃芪種子,由黑龍江中醫(yī)藥大學(xué)試驗(yàn)中心馬偉研究員鑒定。在黑龍江中醫(yī)藥大學(xué)藥用植物園日光溫室內(nèi)無(wú)土栽培培養(yǎng),選取苗齡40 d的黃芪。取材健康的根、莖、葉,采集后用液氮速凍后-80 ℃保存。
12植物總RNA的提取
黃芪總RNA提取參考改良的CTAB方法[3],具體步驟如下:取適量植物材料于研缽中加入液氮研磨至粉末狀;將粉末轉(zhuǎn)移至20 mL離心管中,加入1 mL無(wú)水乙醇,充分振蕩后,冰上放置10 min,4 ℃ 12 000 r·min-1離心2~5 min;小心棄掉上清,在離心管中加入900 μL CTAB提取液,振蕩混勻后,65 ℃水浴5 min,放置冰上,加入等體積氯仿,4 ℃ 12 000 r·min-1離心5~10 min;小心吸取上清至新的離心管中,加入1/2體積無(wú)水乙醇及08體積5 mol·L-1LiCl,混勻,冰上放置10 min,4 ℃ 12 000 r·min-1離心10 min,棄上清;70%乙醇洗滌沉淀2次,室溫放置5 min干燥RNA,加入50 μL滅菌水溶解RNA,-80 ℃?zhèn)溆谩?/p>
13mRNA 樣品準(zhǔn)備
131總RNA的質(zhì)量檢測(cè)與定量使用紫外分光光度計(jì),對(duì)總RNA的濃度、總量及A260/280和A260/230進(jìn)行分析。采用Agilent RNA 6000 Pico Kit;Agilent,50671513,對(duì)總RNA的完整性、純度及降解度進(jìn)行測(cè)定。
132mRNA的純化與定量采用Oligotex mRNA Mini Kit;Qiagen, 70022;Agilent RNA 6000 Pico Kit;Agilent,50671513試劑盒,進(jìn)行mRNA 純化與定量。
14cDNA文庫(kù)制備
mRNA片段化至主峰在450~1 200 nt;以1∶1∶1混合根、莖、葉總RNA;采用DNA Synthesis system,Roche,11117831001和AgencourtAMPure XP Beads,Beckman,A63881試劑盒,進(jìn)行雙鏈 cDNA 合成與純化;采用Roche Rapid Library Preparation Kit,Roche,5608228001試劑盒,進(jìn)行片段末端修復(fù);連接接頭;采用AgencourtAMPure XP Beads,Beckman,A63881試劑盒,去除小片段;使用儀器QuantifluorST fluorometer,Promega,E6090,進(jìn)行cDNA 文庫(kù)定量;使用儀器Agilent 2100 Bioanalyzer,Agilent,2100和Agilent High Sensitivity DNA Kit,Agilent,50674626試劑盒,進(jìn)行cDNA文庫(kù)質(zhì)量檢測(cè);準(zhǔn)備工作液。
15emPCR擴(kuò)增
通過(guò)乳液滴定或測(cè)序滴定確定emPCR擴(kuò)增中所需的DNA文庫(kù)的量;準(zhǔn)備emPCR各試劑、乳化油、Mock Amplification Mix 和預(yù)乳液、Live Amplification Mix;使用DNA Capture Beads將DNA文庫(kù)捕獲;乳化;擴(kuò)增;回收DNA Capture Beads;含DNA文庫(kù)的DNA Capture Beads的富集;測(cè)序引物退火。
16Roche 454 GS FLX+測(cè)序儀上機(jī)測(cè)序
轉(zhuǎn)錄組測(cè)序工作委托上海派森諾生物科技有限公司完成。
17原始數(shù)據(jù)整理、過(guò)濾及質(zhì)量評(píng)估
下機(jī)數(shù)據(jù)經(jīng)過(guò)454Newbler去接頭、去低質(zhì)量堿基處理。使用454 Sequencing System Software (http://www454com/)分析軟件進(jìn)行轉(zhuǎn)錄組從頭拼接[45]。
18測(cè)序飽和度分析
測(cè)序飽和度是隨著采樣讀取的測(cè)序量(sampled reads number)的增加,而檢測(cè)到的unigene數(shù)目的變化情況。當(dāng)采樣讀取的測(cè)序量到一定程度,而檢測(cè)到的unigene幾乎不增加或者很少增加,則測(cè)序包和,否者就是測(cè)序量不夠沒(méi)有達(dá)到飽和。在本次測(cè)序數(shù)據(jù)中,以15 000作為梯度,對(duì)數(shù)據(jù)依次隨機(jī)抽樣,看抽出來(lái)的這些reads分別檢測(cè)到多少unigene。然后把采樣讀取的測(cè)序量做橫坐標(biāo)和檢測(cè)到的unigene的數(shù)量做縱坐標(biāo)畫一個(gè)曲線,查看這條曲線隨著采樣讀取數(shù)據(jù)量的增加unigene是否具有飽和性。
19轉(zhuǎn)錄組SSR位點(diǎn)的信息分析
將轉(zhuǎn)錄組數(shù)據(jù)用MISAMIcroSAtellite identification tool( http://pgrcipkgaterslebende/misa/ )進(jìn)行SSR分析。程序配置為:1/10,2/6,3/5,4/5,5/5,6/5(串聯(lián)重復(fù)的核心序列/最小重復(fù)單位數(shù)目);復(fù)合型SSR中間隔串聯(lián)核心序列的非重復(fù)堿基數(shù)最大不超過(guò)100[68]。
2結(jié)果與分析
21總RNA質(zhì)量分析
質(zhì)量濃度≥250 mg·L-1,總量≥50 μg;A260/28018~22,A260/230應(yīng)≥20。電泳檢測(cè)28S∶18S至少大于15,見(jiàn)圖1;RIN≥80;并確保RNA無(wú)降解,無(wú)污染,見(jiàn)表1。
22測(cè)序量統(tǒng)計(jì)
測(cè)得原始數(shù)據(jù)量約513 Mb,通過(guò)過(guò)濾得到符合拼接要求的有效數(shù)據(jù)306 Mb。數(shù)據(jù)總匯后,數(shù)據(jù)量為306 805 437,基因條數(shù)為742 721條,平均長(zhǎng)度為413 kb;基因統(tǒng)計(jì)后,基因?yàn)?42 721條,讀長(zhǎng)大于20 bp序列數(shù)為742 602,原始數(shù)據(jù)為513 365 449,過(guò)濾后數(shù)據(jù)為306 805 437,拼接利用率為5976%。
經(jīng)過(guò)轉(zhuǎn)錄組從頭拼接,8604%的reads參與拼接,共計(jì)639 061條reads。序列拼接的N50長(zhǎng)度為1 205 bp,長(zhǎng)度>N50為3 823 bp,平均長(zhǎng)度為1 0695 bp。拼接得到contig 15 167個(gè),這些contig繼而拼接成為12 851個(gè)isotig。無(wú)法進(jìn)一步拼接成為isotig的contig與這些isotig一起,組成10 742個(gè)isogroup,總共得到12 880條Isotig(包括無(wú)法進(jìn)一步拼接成為isotig的contig),Unigene數(shù)量為9 893,Unigene平均長(zhǎng)度為1 097128 98 bp。
23測(cè)序飽和度分析
當(dāng)采樣讀取測(cè)序量達(dá)到2×102 kb時(shí),unigene的數(shù)目已趨于飽和,當(dāng)采樣讀取數(shù)據(jù)量達(dá)到3×102 kb unigene的數(shù)據(jù)已經(jīng)完全飽和。這說(shuō)明對(duì)于本次黃芪根、莖、葉的等比例混樣測(cè)序,測(cè)序量已經(jīng)達(dá)到飽和,測(cè)序量滿足試驗(yàn)要求,見(jiàn)圖2。
24SSR位點(diǎn)的數(shù)量與分布
對(duì)黃芪轉(zhuǎn)錄組的12 880條isotig進(jìn)行SSR的搜索,得到SSR的總堿基數(shù)是23 834 bp,共找到SSR位點(diǎn)1 729個(gè),復(fù)合型SSR位點(diǎn)435個(gè),含有SSR位點(diǎn)的isotig條數(shù)為1 190條,包含一個(gè)以上SSR位點(diǎn)的isotig的條數(shù)是252條。SSR的發(fā)生頻率(含有SSR的unigene數(shù)目與總unigene數(shù)目的比值)924%;SSR在黃芪整個(gè)轉(zhuǎn)錄組中出現(xiàn)的頻率(SSR位點(diǎn)個(gè)數(shù)和總unigene數(shù)目的比值)1342%;黃芪轉(zhuǎn)錄組中SSR的平均距離(總unigene的長(zhǎng)度與SSR數(shù)目的比值)797 kb,見(jiàn)表2。
從表2可以看出黃芪轉(zhuǎn)錄組SSR種類豐富,從單核苷酸到六核苷酸的各種核酸重復(fù)類型都能夠看到,但他們相差的比列較大。SSR類型多集中在單核苷酸、二核苷酸、三核苷酸上,占963%,其他類型相對(duì)的占有量很低。
黃芪轉(zhuǎn)錄組SSR位點(diǎn)序列總長(zhǎng)度達(dá)到23 834 bp,其中三核苷酸核心重復(fù)序列的總長(zhǎng)度最長(zhǎng),為11 433 bp;其次是二核苷酸,為4 472 bp;接下來(lái)是單核苷酸,是1 919 bp。SSR位點(diǎn)的平均長(zhǎng)度是24 bp,各類型SSR位點(diǎn)的平均長(zhǎng)度分別是12,18,18,24,27,32 bp。
25SSR的特性
在黃芪轉(zhuǎn)錄組的1 729個(gè)SSR位點(diǎn)中共發(fā)現(xiàn)核心重復(fù)序列127種,其中單核苷酸型4種;二核苷酸型11種;三核苷酸型57種;四核苷酸型28種;五核苷酸型11種;六核苷酸型16種。這6種重復(fù)序列類型的重復(fù)次數(shù)大多集中在5~10次,達(dá)到1 173次,占整個(gè)重復(fù)次數(shù)的6784%;其次是10~15次,重復(fù)次數(shù)是356次,占整個(gè)重復(fù)次數(shù)的2059;第三的是16~20次,重復(fù)次數(shù)是149次,占整個(gè)重復(fù)次數(shù)的862%。也就是說(shuō),核心序列重復(fù)次數(shù)在5~20次的SSR的出現(xiàn)次數(shù)為1 678次,占整個(gè)重復(fù)次數(shù)的9705%,核心序列重復(fù)次數(shù)超過(guò)20次的SSR出現(xiàn)的次數(shù)比例還不到3%,見(jiàn)圖3。從出現(xiàn)的具體類型分析,占優(yōu)勢(shì)的是二核苷酸型中的TG/AC型,出現(xiàn)的頻率占總SSR位點(diǎn)的425%;其次是GA/CT型,出現(xiàn)的頻率占總SSR位點(diǎn)的394%;接下來(lái)是GAA/CTT型,頻率是356%;CCT/GGA型,頻率是309%,見(jiàn)表3。
26SSR的可用性評(píng)價(jià)
判斷SSR可用性的重要依據(jù)是SSR分子標(biāo)記的多態(tài)性,一般認(rèn)為SSR的長(zhǎng)度是影響其多態(tài)性高低的重要因素,當(dāng)SSR≥20 bp時(shí),多態(tài)性較高;當(dāng)12 bp≤SSR≤20 bp時(shí),多態(tài)性中等;當(dāng)SSR≤12 bp時(shí),多態(tài)性極低。黃芪轉(zhuǎn)錄組數(shù)據(jù)顯示SSR的長(zhǎng)度多集中在12~45 bp,其中12 bp≤SSR≤20 bp具有中度多態(tài)性的SSR共有861個(gè),占總SSR的4980%;SSR≥20 bp具有高多態(tài)性的SSR共422個(gè),占總SSR的2441%。同時(shí)有研究表明,高級(jí)基元SSR的多態(tài)性比低級(jí)基元的多態(tài)性普遍偏低。在黃芪轉(zhuǎn)錄組數(shù)據(jù)統(tǒng)計(jì)分析中發(fā)現(xiàn),長(zhǎng)度大于20 bp的SSR大多屬于低級(jí)基元,共包含SSR位點(diǎn)282個(gè)。可以預(yù)計(jì)這部分多態(tài)性潛能高的SSR在黃芪基因功能研究上具有較高的利用價(jià)值。
3討論與結(jié)論
31黃芪轉(zhuǎn)錄組測(cè)序質(zhì)量評(píng)估
黃芪轉(zhuǎn)錄組測(cè)序所用的根、莖、葉提取的總RNA檢測(cè)結(jié)果合格。進(jìn)行測(cè)序所得的reads的平均長(zhǎng)度為413 bp,約86%的reads參與了拼接,拼接的N50長(zhǎng)度為1 205 bp。測(cè)序飽和度結(jié)果表明,所測(cè)得的unigene數(shù)量基本涵蓋了全部轉(zhuǎn)錄組信息。從以上結(jié)果可知本轉(zhuǎn)錄組的測(cè)序結(jié)果真實(shí)可信,可以對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步分析。
32黃芪轉(zhuǎn)錄組SSR位點(diǎn)信息分析
SSR廣泛分布于各種真核生物的基因組中,大約每隔10~50 kb就存在1個(gè)SSR。在植物中,平均233 kb就有1個(gè)SSR;雙子葉植物中的SSR數(shù)量大于單子葉植物,前者2個(gè)SSR之間的平均間距為212 kb,后者為646 kb。通過(guò)對(duì)黃芪轉(zhuǎn)錄組數(shù)據(jù)的SSR分析,黃芪轉(zhuǎn)錄組中SSR的平均距離是797 kb,從單核苷酸類型到六核苷酸類型均具備,核心重復(fù)序列127種,這表明黃芪基因組內(nèi)具有較高豐度的SSR。
大部分植物的SSR重復(fù)基元主要以二、三核苷酸型為主,但不同物種之間的主導(dǎo)SSR重復(fù)類型有所差異。本研究發(fā)現(xiàn)膜莢黃芪轉(zhuǎn)錄組SSR重復(fù)類型主要以三核苷酸為主,占全部SSR的4222%,一核苷酸所占比例也較高,占全部SSR的3777%。這與大豆、棉花、大麥、玉米、水稻等主要經(jīng)濟(jì)作物的研究結(jié)果相同,這些植物也是以三核苷酸重復(fù)類型為主[910]。在膜莢黃芪的SSR中的二核苷酸基元中TG/AC類型最多,三核苷酸基元中GAA/CTT類型最多。這些重復(fù)類型與人參[11]、丹參[12]、番紅花[13]等植物中二元堿基以AG,TC,CT為主要類型不同,在三堿基重復(fù)基元中以AAG/TTC,GAA/TCC為主與黃芪相同。據(jù)此推斷這種重復(fù)基元的差別可能與物種差異有關(guān)聯(lián)。從SSR的類型來(lái)看,黃芪轉(zhuǎn)錄組SSR類型多樣。這些類型多樣,數(shù)量豐富的SSR為黃芪進(jìn)一步在遺傳圖譜構(gòu)建、種質(zhì)鑒定、遺傳多樣性分析、標(biāo)記輔助選擇(MAS,marker assistant seletion,marker aided seletion)、基因定位、數(shù)量性狀基因座(QTL)分析,系譜分析和親源關(guān)系鑒定等方面的研究奠定了基礎(chǔ)。
[參考文獻(xiàn)]
[1]中國(guó)藥典. 一部[S]. 2010:11.
[2]閆秋良. 基于生物信息學(xué)方法從牛和綿羊表達(dá)序列標(biāo)簽中篩選SSR標(biāo)記的初步研究[D]. 楊凌:西北農(nóng)林科技大學(xué), 2007.
[3]陳肅,劉雪梅,李發(fā)兵. 一種快捷有效的提取樹木RNA方法[J]. 遼寧林業(yè)科技,2008(5):25
[4]Margulies M, Egholm M, AltmanW E, et al. Genome sequencing in microfabricated highdensity picolitre reactors[J]. Nature,2005,437(7057):376.
[5]Kumar S, Blaxter M L. Comparing de novo assemblers for 454 transcriptome data[J]. BMC Genomics,2010,11(2):237.
[6]Argout X, Fouet O, Wincker P, et al. Towards the understanding of the cocoa transcriptome:production and analysis of an exhaustive dataset of ESTs of Theobroma cacao L. generated from various tissues and under various conditions[J]. BMC Genomics,2008,9(11):512.
[7]Luro F L, Costantino G,Terol J, et al. Transferability of the ESTSSRs developed on Nules clementine(Citrus clementina Hort ex Tan) to other Citrus species and their effectiveness for genetic mapping[J]. BMC Genomics,2008,9(12):287.
[8]Simbaqueba J,Sanchez P,Sanchez E,et al. Development and characterization of microsatellite markers for the cape gooseberry physalisperuviana[J]. PLoS ONE,2011,6(10):e26719.
[9]Cardle L, Ramsay L, Milbourne D, et al. Computational and experimental characterization of physically clustered simple sequence repeats in plants[J]. Genetics. 2000,156(2):847.
[10]Varshney R K, Graner A, Sorrells M E. Genic microsatellite markers in plants: features and applications[J]. Trends Biotechnol,2005,23(1):48.
[11]Li C, Zhu Y, Guo X, et al. Transcriptome analysis reveals ginsenosides biosynthetic genes,microRNAs and simple sequence repeats in Panax ginseng C. A. Meyer[J]. BMC Genomics,2013,14:245.
[12]王學(xué)勇,周曉麗,高偉,等. 丹參新的ESTSSR分布規(guī)律及分子標(biāo)記的建立[J]. 中國(guó)中藥雜志,2011, 36 (3):289.
[13]陳國(guó)慶. 番紅花EST資源的SSR信息分析[J]. 廣西植物,2011,31(1):43.
[責(zé)任編輯呂冬梅]