国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

印度南瓜高通量轉(zhuǎn)錄組測(cè)序與數(shù)據(jù)分析

2020-02-25 08:27劉建汀溫文旭朱海生白昌輝張前榮溫慶放
關(guān)鍵詞:堿基結(jié)構(gòu)域南瓜

劉建汀,溫文旭,朱海生*,王 彬,白昌輝,張前榮,溫慶放*

(1. 福建省蔬菜遺傳育種重點(diǎn)實(shí)驗(yàn)室,福建 福州 350013;2. 福建省農(nóng)業(yè)科學(xué)院作物研究所,福建 福州 350013;3. 福建省蔬菜工程技術(shù)研究中心,福建 福州 350013)

【研究意義】印度南瓜(CucurbitamaximaDuch.)作為葫蘆科(Cueurbitaceae)南瓜屬(Cucurbita)重要的蔬菜作物,在我國(guó)各地普遍栽培,種植面積和產(chǎn)量均居世界前列[1]。印度南瓜肉質(zhì)致密,富含維生素C、胡蘿卜素和多糖多酚等,栽培面積逐年擴(kuò)大,具有良好的市場(chǎng)效益[2]。目前印度南瓜的研究多集中于營(yíng)養(yǎng)成分[3-4]、遺傳育種[5-9]、栽培技術(shù)[10]和采后生理[11-13]等方面。了解印度南瓜農(nóng)藝性狀的基因定位及其控制次生代謝途徑基因的類(lèi)型和功能[14-16],有助于推進(jìn)印度南瓜營(yíng)養(yǎng)價(jià)值的開(kāi)發(fā)及利用和優(yōu)良品種的選育研究?!颈狙芯壳腥朦c(diǎn)】近年來(lái),關(guān)于印度南瓜在醫(yī)療保健方面研究已受到廣泛關(guān)注,并逐漸成為研究印度南瓜的一個(gè)熱點(diǎn),這對(duì)于印度南瓜優(yōu)良品種選育、各類(lèi)生物代謝合成途徑以及基因資源豐富程度提出了更高要求。高通量測(cè)序技術(shù)極大地推動(dòng)了非模式物種的全基因組測(cè)序工作,能夠快速、精準(zhǔn)地獲得所需豐富分子標(biāo)記信息、目的基因資源和代謝通路類(lèi)型。【前人研究進(jìn)展】利用Illumina HiSeq 2000高通量測(cè)序平臺(tái)獲得的轉(zhuǎn)錄組信息可以為后續(xù)開(kāi)展印度南瓜功能基因功能鑒定、分子標(biāo)記以及相關(guān)代謝途徑的鑒定提供參考[17-18]。林艷玲[19]利用Illumina Hi SeqTM2000系統(tǒng)進(jìn)行轉(zhuǎn)錄組測(cè)序,共獲得73 434條Unigenes,平均長(zhǎng)度為877 nt,分別有51 407、37 640、17 735、29 197條Unigenes比對(duì)到Nr、GO、COG功能分類(lèi)以及KEGG經(jīng)典代謝通路當(dāng)中。Wyatt等[20]報(bào)道了美洲南瓜果實(shí)和種子的轉(zhuǎn)錄組,通過(guò)Illumina HiSeqTM2000測(cè)序得到141 838 600個(gè)讀序,組裝獲得55 949個(gè)Unigene,在公共數(shù)據(jù)庫(kù)(Swiss-prot,TrEMBL,TAIR10,Nr)注釋到的功能基因超過(guò)62 %。近兩年,印度南瓜相關(guān)的轉(zhuǎn)錄組測(cè)序已陸續(xù)開(kāi)展,這對(duì)于印度南瓜基因資源挖掘、基因功能鑒定以及基因組學(xué)相關(guān)的研究分析提供了可靠的科學(xué)基礎(chǔ)[21-22]?!緮M解決的關(guān)鍵問(wèn)題】本研究通過(guò)Illumina HiSeq 2000高通量測(cè)序平臺(tái)對(duì)印度南瓜轉(zhuǎn)錄組進(jìn)行測(cè)序,利用公共數(shù)據(jù)庫(kù)對(duì)測(cè)序結(jié)果進(jìn)行生物信息學(xué)分析,為印度南瓜多糖多酚、類(lèi)黃酮、莨菪烷、哌啶和吡啶生物堿等重要的生物代謝途徑及其相關(guān)功能基因和分子標(biāo)記信息的開(kāi)發(fā)奠定基礎(chǔ)。

1 材料與方法

1.1 試驗(yàn)材料

測(cè)序材料印度南瓜取自福建省農(nóng)業(yè)科學(xué)院作物所蔬菜中心福清東張基地蔬菜育苗大棚。試驗(yàn)于2017年3月1號(hào)選取50粒飽滿(mǎn)的印度南瓜種子,清洗干凈后用次氯酸鈣溶液(100~200 mL/L)消毒10 min,再次用清水洗凈殘留的次氯酸鈣后播種到育苗盤(pán)中。于2017年3月15日上午9時(shí)從20株生長(zhǎng)正常、大小相似的印度南瓜幼苗中隨機(jī)選取3株作為生物學(xué)重復(fù),活體包裝后送至北京百邁客生物科技有限公司(Biomarker Technologies Co,LTD,Beijing)測(cè)序。研究采用Trizol法分別提取3株印度南瓜幼苗葉片總RNA,各樣本分別取等量混合組成3個(gè)RNA池,并依次采用Qubit 2.0、Nanodrop和Aglient 2100分析檢測(cè)印度南瓜RNA樣品的濃度、純度和完整性。通過(guò)以下3個(gè)步驟構(gòu)建印度南瓜cDNA文庫(kù):①用磁珠和磁分離器分離并純化出mRNA,將純化后的mRNA進(jìn)行隨機(jī)打斷并作為模板,利用random hexamers作為引物反轉(zhuǎn)錄合成第一條cDNA鏈;②加入反應(yīng)液(由緩沖液、dNTPs、RNA聚合酶H和DNA聚合酶I)合成第二條cDNA鏈;③利用AMPure XP beads核酸試劑純化cDNA,再加EB緩沖液洗脫之后進(jìn)行末端修復(fù)、C端加A尾并連接測(cè)序接頭、利用瓊脂糖凝膠電泳選擇片段大小,最后通過(guò)PCR擴(kuò)增得到印度南瓜轉(zhuǎn)錄組cDNA文庫(kù)。

1.2 印度南瓜轉(zhuǎn)錄組測(cè)序

通過(guò)Illumina HiSeq 2000測(cè)序平臺(tái)和PE125測(cè)序方法對(duì)1.1中構(gòu)建好的印度南瓜cDNA文庫(kù)進(jìn)行高通量測(cè)序,測(cè)序得到的原始圖像數(shù)據(jù)經(jīng)過(guò)濾得到純化后到高質(zhì)量的讀序(clean reads),再利用Trinity軟件進(jìn)行轉(zhuǎn)錄組de dovo分析組裝。Trinity通過(guò)序列之間的overlap信息組裝得到Transcripts,最后用TGICL聚類(lèi)和Phrap拼接軟件分別對(duì)Transcripts進(jìn)行同源聚類(lèi)和拼接獲得不含N的組裝片段(Unigene)。印度南瓜轉(zhuǎn)錄組分析項(xiàng)目包括測(cè)序組裝結(jié)果分析、Unigene基因功能注釋及分類(lèi)、基因表達(dá)量(FPKM,F(xiàn)ragments Per Kilobase of transcript per Million mapped reads)統(tǒng)計(jì)分析以及SSRs特征分析等。

1.3 印度南瓜基因功能注釋

通過(guò)Blastx(https://blast.ncbi.nlm.nih.gov/Blast.cgi)下線(xiàn)比對(duì)工具,將印度南瓜Unigene與蛋白數(shù)據(jù)庫(kù)進(jìn)行比對(duì)(設(shè)定E值≤1E-5),匹配相似性>30 %的基因功能注釋信息,選取與其Unigene序列編碼具備最高相似性的蛋白作為該Unigene的蛋白功能注釋信息。蛋白比對(duì)數(shù)據(jù)庫(kù)包括非冗余蛋白數(shù)據(jù)庫(kù)Nr(Non-redundant protein database,ftp://ftp.ncbi.nih.gov/blast/db/)、蛋白質(zhì)序列數(shù)據(jù)庫(kù)SwissProt(http://www.uniprot.org/,SwissProt protein database)、蛋白質(zhì)直系同源和功能注釋數(shù)據(jù)庫(kù)eggNOG(v4.5)(A database of orthologous groups and functional annotation,http://eggnogdb.embl.de/)、真核生物蛋白質(zhì)同源數(shù)據(jù)庫(kù)KOG(euKaryotic Orthologous Groups,http://www.ncbi.nlm.nih.gov/KOG/)、蛋白質(zhì)直系同源數(shù)據(jù)庫(kù)COG(Cluster of Orthologous Groups,http://www.ncbi.nlm.nih.gov/COG/)、蛋白質(zhì)家族域數(shù)據(jù)庫(kù)Pfam(Protein families database,http://pfam.xfam.org/)、基因本體論數(shù)據(jù)庫(kù)GO(Gene Ontology,http://www.geneontology.org/)、東京基因與基金組百科全書(shū)KEGG(Kyoto Encyclopedia of Genes and Genomes,http://www.genome.jp/kegg/)。

2 結(jié)果與分析

2.1 印度南瓜轉(zhuǎn)錄組測(cè)序結(jié)果分析與組裝

通對(duì)印度南瓜嫩葉進(jìn)行轉(zhuǎn)錄組測(cè)序,共獲得26 083 711個(gè)片段(reads),其中包含7789 098 902(7.79 Gb)個(gè)核苷酸序列信息;各樣品Q(chēng)30堿基百分比均不小于93.11 %,GC含量為46.64 %。該結(jié)果表明,印度南瓜轉(zhuǎn)錄組測(cè)序數(shù)據(jù)量和質(zhì)量都很高,因此,可用于為后續(xù)的數(shù)據(jù)組裝提供原始數(shù)據(jù)。

隨后利用Trinity軟件進(jìn)行序列組裝,組裝共獲得179 524條Transcript??傂蛄行畔⑦_(dá)222 022 708 bp(0.22 Gb),平均長(zhǎng)度1236.73 nt,Transcript的N50為1947 bp。其中各長(zhǎng)度占比如圖1所示,長(zhǎng)度200~300、300~500、500~1000、1000~2000 bp、≥2000 bp分別占17.81 %、15.74 %、18.49 %、27.25 %、20.72 %。所得Transcript序列再次組裝后得到68 073條Unigene,Unigene總序列信息達(dá)44 206 542 bp(44.2 Mb),平均長(zhǎng)度649.40 bp,長(zhǎng)度200~300、300~500、500~1000、1000~2000 bp、≥2000 bp分別占38.47 %、27.60 %、16.48 %、11.19 %、6.25 %。本研究中Unigene的N50為1070 bp,表明印度南瓜轉(zhuǎn)錄組測(cè)序組裝完整性較高。

圖1 Transcript和Unigene長(zhǎng)度分布Fig.1 Transcript and Unigene length distribution

將建庫(kù)后的各印度南瓜樣品Clean Data與組裝得到的Transcript或Unigene庫(kù)進(jìn)行序列比對(duì),結(jié)果表明,測(cè)序得到的26 083 711個(gè)reads中有19 901 135個(gè)reads具有表達(dá)量,占總量的76.3 %,其中僅比對(duì)到1個(gè)位置的reads有9521 986個(gè)(占47.85 %),而比對(duì)到2個(gè)或2個(gè)以上位置的reads(多基因家族序列)為10 379 149個(gè)(占52.15 %)。所有印度南瓜68 073個(gè)Unigene的FPKM平均值為14.03,其中最大值為59 317.29(ID:c27343.graph_c0),最小值(除0外)為0.10(ID:c48851.graph_c0),F(xiàn)PKM值為0的Unigene有10 699個(gè),其中有11 659個(gè)Unigene的FPKM值大于10,另有18 038個(gè)Unigene基因的FPKM值小于1。

2.2 印度南瓜Unigene功能注釋

使用BLAST[23]軟件將西葫蘆轉(zhuǎn)錄組測(cè)序獲得的Unigene序列分別與六大數(shù)據(jù)庫(kù)Nr、Swiss-Prot、GO、COG、KOG、eggNOG 4.5和KEGG進(jìn)行比對(duì)。利用KOBAS 2.0和HMMER軟件分別與KEGG、Pfam數(shù)據(jù)庫(kù)比對(duì)獲取Unigene響應(yīng)的注釋信息。在各數(shù)據(jù)庫(kù)獲得的功能注釋Unigene統(tǒng)計(jì)數(shù)如圖2所示,總共有38 177條Unigene在上述8個(gè)數(shù)據(jù)庫(kù)得到注釋?zhuān)渲?,Nr數(shù)據(jù)庫(kù)注釋的Unigene最多,為37 542條(占總Unigenes的98.34 %),其次為Pfam數(shù)據(jù)庫(kù),為33 927條,在COG數(shù)據(jù)庫(kù)中注釋的結(jié)果最少,為9938條(僅占總Unigenes的26.03 %)。

圖2 Unigene注釋統(tǒng)計(jì)Fig.2 Annotation statistics of Unigene

2.3 印度南瓜Unigene的Nr及SwissProt數(shù)據(jù)庫(kù)比對(duì)分析

通過(guò)BLAST程序?qū)τ《饶瞎蠝y(cè)序后獲得的68 073個(gè)Unigene進(jìn)行Nr和SwissPort數(shù)據(jù)庫(kù)比對(duì)分析(E≤1E-5),由圖3-A可知,37 542個(gè)(55.15 %)Unigene在Nr數(shù)據(jù)庫(kù)中能找到相似序列。其中E值小于1E-150的Unigene有7986個(gè)(21.27 %),E值介于1E-100~1E-150的Unigene有3622個(gè)(9.65 %),E值介于1E-50~1E-100的Unigene有8389個(gè)(22.35 %),E值介于1E-5~1E-50的Unigene有17 545個(gè)(46.73 %)。Nr功能注釋匹配的物種如圖3-B所示,其中香瓜13 737個(gè)Unigene(36.62 %)、黃瓜13 347個(gè)Unigene(35.58 %)、可可2346個(gè)Unigene(6.25 %)、擬南芥720個(gè)Unigene(1.92 %)、葡萄662個(gè)Unigene(1.76 %)、木棉595個(gè)Unigene(1.59 %)、香橙(287個(gè)Unigene(0.77 %)、毛果楊215個(gè)Unigene(0.57 %)、巴旦木210個(gè)Unigene(0.56 %)、芝麻210個(gè)Unigene(0.56 %)等。匹配序列相似度(identity)如圖3-C所示,相似度80 %以上的Unigene有25 848個(gè)(68.85 %),相似度40 %~80 %的Unigene有11 532個(gè)(30.72 %),相似度低于40 %的Unigene有162個(gè)(0.43 %)。

與Nr相比SwissProt數(shù)據(jù)來(lái)源較少,因此可找到相似度高(E<1e-150,相似度>80 %)序列的Unigene大幅減少。本研究中印度南瓜Unigene在SwissPort數(shù)據(jù)庫(kù)共找到23 946個(gè)(35.18 %)相似序列。如圖3-D所示,其中E值小于1E-150的Unigene有3257個(gè)(13.60 %),E值介于1E-100~1E-150的Unigene有2125個(gè)(8.87 %),E值介于1E-50~1E-100的Unigene有4891個(gè)(20.43 %),E值介于1E-5到1E-50的Unigene有13 673個(gè)(57.10 %);SwissPort功能注釋匹配的物種圖3-E,其中擬南芥18 422個(gè)(76.93 %)、水稻1109個(gè)(4.63 %)、番茄253個(gè)(1.06 %)、大豆250個(gè)(1.04 %)、豌豆230個(gè)(0.96 %)、馬鈴薯226個(gè)(0.94 %)、玉米182個(gè)(0.76 %)、黃瓜136個(gè)(0.57 %)、菠菜123個(gè)(0.51 %)等。由圖3-F可知,相似度80 %以上的Unigene有6417個(gè)(26.80 %),相似度40 %~80 %的Unigene有15 485個(gè)(64.67 %),相似度低于40 %的Unigene有2044個(gè)(8.54 %)。

2.4 印度南瓜Unigene的Go數(shù)據(jù)庫(kù)分類(lèi)

GO(Gene Ontology)數(shù)據(jù)庫(kù)是基因功能?chē)?guó)際標(biāo)準(zhǔn)化分類(lèi)體系,包含生物學(xué)過(guò)程(Biological Process)、細(xì)胞組分(Cellular Component)和分子功能(Molecular Function)3個(gè)部分,分別描述了基因產(chǎn)物可能參與的生物學(xué)過(guò)程、所處的細(xì)胞環(huán)境和行使的分子功能。由圖4可知,21 414個(gè)Unigene被分為3個(gè)本體51個(gè)功能組,46 420個(gè)GO條目被分類(lèi)到細(xì)胞組分的17個(gè)功能組中,其中細(xì)胞部分(1036 422.33 %)、細(xì)胞(1036 422.33 %)、細(xì)胞器(775 316.70 %)以及膜(589 812.71 %)功能組中涉及的Unigene較多;26 165個(gè)GO條目分類(lèi)到16個(gè)分子功能組,其中催化活性(1133 843.33 %)和結(jié)合活性(1053 340.26 %)功能組中涉及的Unigene較多;65 232個(gè)GO條目被分類(lèi)到20個(gè)生物學(xué)過(guò)程功能組,代謝進(jìn)程(1476 122.63 %)、細(xì)胞進(jìn)程(1303 119.98 %)以及單一生物進(jìn)程(1124 717.24 %)功能組中涉及的Unigene較多。

由圖4可知,21 414個(gè)Unigene被分為3個(gè)本體51個(gè)功能組,46 420個(gè)GO條目被分類(lèi)到細(xì)胞組分的17個(gè)功能組中,其中細(xì)胞部分(10 364,22.33 %)、細(xì)胞(10 364,22.33 %)、細(xì)胞器(7753,16.70 %)以及膜(5898,12.71 %)功能組中涉及的Unigene較多;26 165個(gè)GO條目分類(lèi)到16個(gè)分子功能組,其中催化活性(11 338,43.33 %)和結(jié)合活性(10 533,40.26 %)功能組中涉及的Unigene較多;65 232個(gè)GO條目被分類(lèi)到20個(gè)生物學(xué)過(guò)程功能組,代謝進(jìn)程(14 761,22.63 %)、細(xì)胞進(jìn)程(13 031,19.98 %)以及單一生物進(jìn)程(11 247,17.24 %)功能組中涉及的Unigene較多。

2.5 印度南瓜Unigene的KOG、COG和eggNOG數(shù)據(jù)庫(kù)分類(lèi)

通過(guò)KOG、COG和eggNOG數(shù)據(jù)庫(kù)比對(duì)Unigene,可對(duì)獲得注釋的Unigene進(jìn)行蛋白功能描述和功能分類(lèi)。本研究將印度南瓜Unigene與KOG、COG和eggNOG數(shù)據(jù)庫(kù)進(jìn)行比對(duì),并對(duì)其結(jié)果進(jìn)行功能分類(lèi)統(tǒng)計(jì)。結(jié)果表明,KOG、COG和eggNOG數(shù)據(jù)庫(kù)分別注釋到20 011個(gè)、9938個(gè)和33 927個(gè)Unigene,根據(jù)其功能劃分為25個(gè)類(lèi)(表1)。其中KOG數(shù)據(jù)庫(kù)中一般功能預(yù)測(cè)(3456個(gè))注釋到的Unigene最多,其次是翻譯后修飾、蛋白折疊和分子伴侶(2017個(gè)),而細(xì)胞運(yùn)動(dòng)(7個(gè))注釋到的Unigene最少;COG數(shù)據(jù)庫(kù)中同樣是一般功能預(yù)測(cè)(2551個(gè))注釋到的Unigene最多,而胞外結(jié)構(gòu)未注釋到Unigene,核結(jié)構(gòu)中僅注釋到1個(gè)Unigene;eggNOG數(shù)據(jù)庫(kù)中功能未知的Unigene有7665個(gè),其次是一般功能預(yù)測(cè)6165個(gè),而細(xì)胞運(yùn)動(dòng)僅注釋到3個(gè)Unigene。由表1可知,印度南瓜轉(zhuǎn)錄組測(cè)序結(jié)果極為豐富,獲得的Unigenes涉及到了植物生長(zhǎng)發(fā)育過(guò)程中的所有生命活動(dòng)。

表1 印度南瓜Unigene的KOG、COG和eggNOG數(shù)據(jù)庫(kù)分類(lèi)

2.6 印度南瓜Unigene的Pfam數(shù)據(jù)庫(kù)分析

Pfam(Protein family)數(shù)據(jù)庫(kù)建立了每個(gè)蛋白質(zhì)家族的氨基酸序列的HMM(Hidden Markov Model)統(tǒng)計(jì)模型,是目前最全面的蛋白質(zhì)結(jié)構(gòu)域注釋的分類(lèi)系統(tǒng),可用于識(shí)別蛋白的結(jié)構(gòu)域序列,從而初步預(yù)測(cè)蛋白質(zhì)的功能。將印度南瓜的68 073個(gè)Unigene進(jìn)行Pfam數(shù)據(jù)庫(kù)編碼蛋白結(jié)構(gòu)域功能分析,Pfam數(shù)據(jù)庫(kù)注釋到21 823個(gè)Unigene,共分為7311類(lèi)。Pfam數(shù)據(jù)庫(kù)注釋到最多的蛋白結(jié)構(gòu)域?yàn)榈鞍准っ附Y(jié)構(gòu)域(Protein kinase domain)共計(jì)906個(gè)Unigene,其次為蛋白酪氨酸激酶(Protein tyrosine kinase)872個(gè)Unigene和PPR重復(fù)家族(PPR repeat family)632個(gè)Unigene;其他注釋到的數(shù)量較多的蛋白功能區(qū)域分別為WD結(jié)構(gòu)域(WD domain)243個(gè)、G-beta重復(fù)(G-beta repeat)228個(gè)、細(xì)胞色素P450(Cytochrome P450)214個(gè)、反轉(zhuǎn)錄酶(Reverse transcriptase)47個(gè)、線(xiàn)粒體載體蛋白(Mitochondrial carrier protein)93個(gè)、AP2結(jié)構(gòu)域(AP2 domain)99個(gè)、轉(zhuǎn)移酶家族(Transferase family)271個(gè)、RNA識(shí)別基序(RNA recognition motif)259個(gè)、WRKY轉(zhuǎn)錄因子結(jié)構(gòu)域(WRKY DNA-binding domain)56個(gè)、螺旋-環(huán)-螺旋結(jié)構(gòu)域(Helix-loop-helix DNA-binding domain)80個(gè)、NB-ARC結(jié)構(gòu)域(NB-ARC domain)25個(gè)、GRAS家族(GRAS domain family)59個(gè)、類(lèi)GDSL脂肪酶/?;饷?GDSL-like Lipase/Acylhydrolase)60個(gè)。

2.7 印度南瓜Unigene的KEGG數(shù)據(jù)庫(kù)功能注釋

KEGG是系統(tǒng)分析基因產(chǎn)物功能及其在細(xì)胞中參與代謝途徑的數(shù)據(jù)庫(kù),通過(guò)KEGG分析能夠把基因及其表達(dá)信息形成一個(gè)整體的研究網(wǎng)絡(luò)。本研究中印度南瓜轉(zhuǎn)錄組測(cè)序獲得68 073個(gè)Unigene序列,其中有15 074個(gè)Unigene在KEGG數(shù)據(jù)庫(kù)中得到注釋?zhuān)⒐采婕暗降?27個(gè)代謝途徑(表2)。其中注釋較多Unigene的有:核糖體代謝途徑(676個(gè),ID:ko03010)、碳代謝代謝途徑(665個(gè),ID:ko01200)、氨基酸的生物合成代謝途徑(595個(gè),ID:ko01230)、植物激素信號(hào)傳導(dǎo)代謝途徑(529個(gè),ID:ko04075)、內(nèi)質(zhì)網(wǎng)蛋白質(zhì)處理代謝途徑(429個(gè),ID:ko04141)等。注釋較少的Unigene有:花色素苷生物合成代謝途徑(ID:ko00942)和芥子油苷的生物合成代謝途徑(ID:ko00966)僅識(shí)別到1個(gè)Unigene。另外,類(lèi)胡蘿卜素生物合成代謝途徑(86個(gè),ID:00906)、N-多糖生物合成代謝途徑(82個(gè),ID:ko00510)以及類(lèi)黃酮生物合成代謝途徑(52個(gè),ID:ko00941),這些代謝途徑中的Unigene為之后開(kāi)展印度南瓜次生代謝產(chǎn)物合成途徑及其分子調(diào)控奠定了基礎(chǔ)。

表2 印度南瓜Unigene的KEGG代謝途徑分析

續(xù)表2 Continued table 2

續(xù)表2 Continued table 2

續(xù)表2 Continued table 2

2.8 印度南瓜轉(zhuǎn)錄組SSRs特征分析

從印度南瓜68 073個(gè)Unigene中篩選出大于1 Kb以上的Unigene共11 871個(gè),借助MISA(A MIcroSAtellite identification tool,http://pgrc.ipk-gatersleben.de/misa/misa.html)軟件,分別按單堿基類(lèi)型(Mono-nucleotide type)、雙堿基類(lèi)型(Di-nucleotide type)、三堿基類(lèi)型(Tri-nucleotide type)、四堿基類(lèi)型(Tetra-nucleotide type)、五堿基類(lèi)型(Penta-nucleotide type)、六堿基類(lèi)型(Hexa-nucleotide type)重復(fù)和混合類(lèi)型(Compound type,位點(diǎn)≥2)SSR等進(jìn)行搜索,搜索結(jié)果標(biāo)記為p1、p2、p3、p4、p5、p6和c(表3~4)。印度南瓜含有SSR位點(diǎn)的Unigene共5391個(gè),其中含有單堿基重復(fù)(p1)類(lèi)型的Unigene最多,共2906個(gè)占總數(shù)的53.90 %;雙堿基重復(fù)(p2)類(lèi)型的Unigene共942個(gè),三堿基重復(fù)(p3)類(lèi)型的Unigene有1096個(gè),四堿基重復(fù)(p4)類(lèi)型的Unigene共89個(gè),五堿基重復(fù)(p5)類(lèi)型的Unigene共10個(gè),六堿基重復(fù)(p6)類(lèi)型的Unigene共18個(gè)。含有至少2個(gè)SSR位點(diǎn)的Unigene共319個(gè),含有至少2個(gè)位點(diǎn)且存在共用堿基的類(lèi)型有11個(gè)。通過(guò)對(duì)印度南瓜SSR位點(diǎn)進(jìn)行分析,了解其組成和類(lèi)型分布特征,可為進(jìn)一步開(kāi)展印度南瓜及其近緣種遺傳圖譜構(gòu)建、基因組差異表達(dá)分析及其通用性引物設(shè)計(jì)等奠定科學(xué)基礎(chǔ)。

表3 印度南瓜SSR優(yōu)勢(shì)堿基組成

3 討 論

近年來(lái),轉(zhuǎn)錄組測(cè)序技術(shù)在多種植物基因組及合成生物學(xué)等研究方面應(yīng)用廣泛,并取得重大進(jìn)展。Zhu等[24]利用轉(zhuǎn)錄組測(cè)序(RNA-seq)技術(shù)對(duì)普通絲瓜品種“福絲3號(hào)”進(jìn)行鮮切褐變差異分析,獲得58 073條有效序列,從中篩選出27 301條Unigene在絲瓜鮮切褐變不同時(shí)間段差異表達(dá)基因(DEGs),并獲得了15條差異表達(dá)全長(zhǎng)基因序列。在南瓜屬作物中,Wu等[25]使用Illumina HiSeqTM2000對(duì)中國(guó)南瓜進(jìn)行了轉(zhuǎn)錄組測(cè)序,得到52 849 316個(gè)讀序組裝后得到62 480個(gè)Unigene,在Nr、Swiss Port和COG中分別注釋到了47 596、34 368和16 700個(gè)功能基因,通過(guò)篩選獲得了4794對(duì)SSR引物。本研究對(duì)印度南瓜進(jìn)行轉(zhuǎn)錄組測(cè)序,從3個(gè)RNA池中共獲得26 083 711個(gè)reads,包含了7 789 098 902(7.79 Gb)個(gè)核苷酸序列信息,Q30小于93.11 %,GC含量為46.64 %。組裝獲得179 524條Transcript,Transcript序列再次組裝后得到68 073個(gè)Unigene,平均長(zhǎng)度649.40 bp,N50為1070 bp,表明印度南瓜測(cè)序測(cè)序質(zhì)量較好,能為后續(xù)數(shù)據(jù)分析提供很好的原始數(shù)據(jù)。

表4 印度南瓜SSR重復(fù)基序分布情況

前人研究表明,在不同植物的轉(zhuǎn)錄組數(shù)據(jù)結(jié)果分析中,皆存在大量Unigene未獲得匹配的情況,如:玉米[26]、亞麻芥[27]、龍眼[28]、喀西茄[29]等,未注釋到的Unigene與其長(zhǎng)度和數(shù)據(jù)庫(kù)信息缺乏有關(guān)。本研究通過(guò)Illumina HiSeqTM2000測(cè)序平臺(tái)對(duì)印度南瓜轉(zhuǎn)錄組進(jìn)行測(cè)序,通過(guò)拼接獲得了68 073個(gè)印度南瓜Unigene。研究通過(guò)進(jìn)一步對(duì)組裝獲得的Unigene在Nr、Swiss-Prot、GO、COG、KOG、eggNOG4.5、KEGG、Pfam等公共數(shù)據(jù)庫(kù)進(jìn)行了比對(duì),獲得功能注釋的Unigene共計(jì)38 177個(gè),占Unigene總數(shù)56.08 %。進(jìn)一步分析發(fā)現(xiàn),在Nr數(shù)據(jù)庫(kù)中找到37 542個(gè)相似序列,其中36.62 %(13 737個(gè))的Unigene注釋匹配到甜瓜;35.58 %(13 347個(gè))Unigene注釋匹配到黃瓜;在GO數(shù)據(jù)庫(kù)中21 414個(gè)Unigene被分為3個(gè)本體51個(gè)功能組,印度南瓜的Unigene幾乎涵蓋了植物所有功能,但是仍然存在較多的Unigene未被注釋需要利用其他數(shù)據(jù)庫(kù)進(jìn)一步補(bǔ)充。研究表明,印度南瓜提取物中含有抗癌、抗糖尿病和抗肥胖等重要功效[30-33]。本研究獲得注釋到的Unigene廣泛涉及各類(lèi)生命代謝活動(dòng),KEGG數(shù)據(jù)庫(kù)中共注釋到15 074個(gè)Unigene分布在127個(gè)代謝途徑中,其中涉及到了類(lèi)黃酮、莨菪烷、哌啶、吡啶生物堿、花色素苷和芥子油苷等次生代謝產(chǎn)物合成途徑。印度南瓜轉(zhuǎn)錄組測(cè)序KEGG代謝通路分析表明共有52條Unigene參與到類(lèi)黃酮代謝通路中,該代謝途徑能夠有效合成許多具有抗癌、抗氧化、抗病毒、增強(qiáng)免疫力等多種功能的黃酮類(lèi)化合物,這為今后從印度南瓜成熟果實(shí)入手挖掘控制黃酮類(lèi)化合物的生物合成關(guān)鍵基因提供了重要的基因資源[34]。

目前已開(kāi)發(fā)的南瓜屬SSR標(biāo)記主要來(lái)自于美洲南瓜的基因組以及轉(zhuǎn)錄組[35-36]、印度南瓜基因組以及轉(zhuǎn)錄組[37-38]和中國(guó)南瓜轉(zhuǎn)錄組[39-40]數(shù)據(jù),這些SSR標(biāo)記具有一定通用性,由于同一個(gè)屬內(nèi)不同種之間具有一定保守性,且在印度南瓜上表現(xiàn)為多態(tài)性較低,限制了其在印度南瓜上的應(yīng)用?;谵D(zhuǎn)錄組的SSR標(biāo)記較一般的分子標(biāo)記具有信息量大和通用性好的優(yōu)勢(shì)。朱海生等[41]對(duì)美洲南瓜轉(zhuǎn)錄組測(cè)序獲得的SSR種類(lèi)較為豐富,共檢測(cè)出7478個(gè)SSR位點(diǎn),各種重復(fù)類(lèi)型的出現(xiàn)頻率有較大差異,含6種SSR重復(fù)類(lèi)型,其中單核苷酸占總SSR的47.90 %。本研究從印度南瓜68 073個(gè)Unigene中篩選出5391個(gè)SSR位點(diǎn),其中含有單堿基重復(fù)類(lèi)型的Unigene最多,共2906個(gè)占總數(shù)的53.90 %,表明在印度南瓜中和美洲南瓜測(cè)序獲得的結(jié)果相似,均以單堿基型重復(fù)所占比例居多。本研究為印度南瓜種質(zhì)資源遺傳多樣性分析、遺傳圖譜構(gòu)建、基因定位與克隆及分子標(biāo)記輔助育種等奠定了基礎(chǔ)。現(xiàn)有的印度南瓜SSR分子標(biāo)記數(shù)量遠(yuǎn)遠(yuǎn)不能滿(mǎn)足印度南瓜分子生物學(xué)研究的需求,因此,大量開(kāi)發(fā)SSR標(biāo)記仍是目前印度南瓜研究的重要工作之一,今后需增加南瓜品種測(cè)試包括中國(guó)南瓜和美洲南瓜,以進(jìn)一步獲得較高頻率的SSR位點(diǎn)和豐富的SSR類(lèi)型。

4 結(jié) 論

研究獲得印度南瓜獲得質(zhì)量較好的轉(zhuǎn)錄組測(cè)序,并對(duì)組裝獲得的Unigene進(jìn)行基因功能注釋以及KEGG代謝通路和SSR序列基本特征分析,為后續(xù)基因資源挖掘、基因功能鑒定以及遺傳多樣性分析和遺傳圖譜構(gòu)建提共依據(jù)。

猜你喜歡
堿基結(jié)構(gòu)域南瓜
細(xì)菌四類(lèi)胞外感覺(jué)結(jié)構(gòu)域的概述
基因“字母表”擴(kuò)充后的生命
UBR5突變與淋巴瘤B細(xì)胞成熟
創(chuàng)建新型糖基化酶堿基編輯器
生命“字母表”迎來(lái)新成員
生命“字母表”迎來(lái)4名新成員
南瓜燈
DEP結(jié)構(gòu)域的功能研究進(jìn)展
水稻DnaJ蛋白的生物信息學(xué)分析
拜泉县| 博客| 岱山县| 海盐县| 宕昌县| 嘉义县| 河南省| 陆丰市| 晋宁县| 卢龙县| 东丰县| 怀宁县| 万安县| 饶平县| 丹棱县| 苍溪县| 聂荣县| 美姑县| 合川市| 耒阳市| 崇义县| 广宗县| 乌兰县| 延川县| 思南县| 津市市| 嘉峪关市| 武冈市| 轮台县| 平和县| 兰州市| 敦煌市| 东台市| 水城县| 固阳县| 绍兴县| 荔浦县| 八宿县| 合山市| 蒙山县| 济阳县|