石好宇,王慧蕓,趙藝,朱甫臻,尹艷燕,繆劍華,王靈芝*(.北京中醫(yī)藥大學(xué)生命科學(xué)學(xué)院,北京 0009;.廣西藥用植物園,廣西藥用植物資源保護(hù)與遺傳改良重點(diǎn)實(shí)驗(yàn)室,南寧 53003)
中藥鴉膽子是苦木科植物鴉膽子[Brucea javanica
(L.)Merr.]的干燥成熟果實(shí),又名鴉蛋子、老鴉膽、苦榛子、苦參子,主產(chǎn)于我國廣東、廣西、云南、福建、海南和臺灣等地,始記于清代《本草綱目拾遺》。鴉膽子味苦、性寒,有小毒,歸大腸、肝經(jīng),有清熱解毒、截瘧止痢等功效。鴉膽子含有多種化學(xué)成分,主要包括苦木素類、類固醇、三萜類、生物堿、木質(zhì)素、黃酮類、甾體類和脂肪酸等??嗄舅仡惢衔锸区f膽子主要的藥理活性物質(zhì),是一類由苦楝烷型三萜降解得到的高度氧合三萜及其苷類化合物,多為四環(huán)三萜及五環(huán)三萜內(nèi)酯,是鴉膽子的代表性藥理活性成分,其中鴉膽子苦醇(brusatol)和鴉膽?。╞ruceantin)是該藥材中代表性抗腫瘤成分;苦木素還具有抗炎和抗醫(yī)學(xué)原蟲等藥理活性。鴉膽子油是鴉膽子中的脂肪油,抗腫瘤療效確切且毒副作用小,被廣泛應(yīng)用于各種腫瘤的輔助治療。鴉膽子中蛋白質(zhì)含量為17.47%,鴉膽子多肽具有抗菌活性,本課題組前期研究發(fā)現(xiàn)鴉膽子球蛋白酶解物具有顯著的抑制腫瘤細(xì)胞增殖的活性。目前關(guān)于鴉膽子的研究主要集中于新化學(xué)成分的發(fā)現(xiàn)及作用,對于其次生代謝物合成途徑的研究較少,缺乏鴉膽子基因和蛋白質(zhì)序列信息,極大地限制了對鴉膽子生長發(fā)育研究以及功能分析和利用。轉(zhuǎn)錄組測序(RNA-seq)是利用高通量測序技術(shù)將細(xì)胞或組織中mRNA、small RNA或no-codingRNA 進(jìn)行測序分析的技術(shù),可用于發(fā)現(xiàn)新基因、提供基因表達(dá)和調(diào)控信息。該技術(shù)已廣泛用于藥用植物,如半夏、黃芪以及薏苡仁等研究中。因此本文對鴉膽子進(jìn)行轉(zhuǎn)錄組測序,并分析苦木素類化合物萜類骨架生物合成以及其衍生化修飾途徑,為今后藥用成分開發(fā)和藥用植物的遺傳改良提供理論支撐。
鴉膽子采集于廣西南寧市武鳴區(qū)(108.27719°N,23.15643°E),采集不同發(fā)育時(shí)期的根、莖、葉、花序及果實(shí)等組織部位,液氮速凍后,保存于-80℃?zhèn)溆谩?/p>
Aglient RNA 6000 Nano Reagents 試劑盒、Agilent 2100 生物分析儀(美國Aglient 公司);BGISEQ-500 測序儀(深圳華大智造科技有限公司);NanoDrop 超微量分光光度計(jì)(美國Nanodrop 公司)。
利用Aglient RNA 6000 試劑盒提取鴉膽子各組織總RNA。采用NanoDrop 超微量分光光度計(jì)進(jìn)行樣本RNA 純度檢測,通過Agilent 2100生物分析儀進(jìn)行樣本濃度及完整性RIN(RNA integrity number)進(jìn)行檢測。質(zhì)檢合格后,等量混合樣品,用帶有Oligo(dT)的磁珠富集mRNA,采用fragmentation buffer 將mRNA 片段化,隨后使用隨機(jī)N6 引物進(jìn)行反轉(zhuǎn)錄合成雙鏈cDNA,然后將雙鏈DNA 黏性末端補(bǔ)平、5'端磷酸化、添加并連接測序接頭,經(jīng)PCR 擴(kuò)增后構(gòu)建cDNA 文庫,質(zhì)檢合格的文庫使用BGISEQ-500進(jìn)行測序。
de novo
組裝,將組裝獲得的轉(zhuǎn)錄本去除冗余,得到非重復(fù)序列基因(Unigene)用于后續(xù)分析。使用單拷貝直系同源數(shù)據(jù)庫BUSCO(benchmarking universal single-copy orthologs)對組裝的轉(zhuǎn)錄本進(jìn)行質(zhì)量評估。組裝得到轉(zhuǎn)錄組數(shù)據(jù)后,使用Blast 軟件將Unigene 序列與NR(non-redundant protein sequence database)、NT(nucleotide sequence database)、Swissprot、KEGG(kyoto encyclopedia of genes and genomes)和KOG(clusters of orthologous groups for eukaryotic complete genomes)數(shù)據(jù)庫進(jìn)行比對,進(jìn)行功能注釋。基于NR 注釋,使用Blast2GO 軟件對Unigene 進(jìn)行GO(gene ontology)注釋,使用Hmmscan 軟件進(jìn)行Pfam 注釋。
Getorf 軟件檢測Unigene 的開放閱讀框(ORF)后使用Hmmsearch 將ORF 比對到轉(zhuǎn)錄因子蛋白結(jié)構(gòu)域(數(shù)據(jù)來源于TF),然后根據(jù)PlantTFDB 描述的轉(zhuǎn)錄因子家族特征對Unigene進(jìn)行能力鑒定。使用TransDecoder 軟件識別Unigene 中的候選編碼區(qū)域,通過Blast 比對SwissProt 數(shù)據(jù)庫和Hmmscan 搜索Pfam 蛋白同源序列,從而進(jìn)行編碼序列(CDS)預(yù)測。經(jīng)MISA軟件對Unigene 進(jìn)行分析后使用Primer3 對檢測到的簡單重復(fù)序列(SSR)進(jìn)行引物設(shè)計(jì)。
基因表達(dá)量用FPKM(fragments per kilobase of transcript per million mapped reads)表示,即每百萬reads 中來自比對到某一基因每千堿基長度的reads 數(shù)目。本實(shí)驗(yàn)使用Bowtie2 軟件將clean reads 比對到基因序列上,然后使用RSEM 計(jì)算各個(gè)樣品的基因表達(dá)水平。計(jì)算公式如下:
FPKM =(cDNA fragments)/[mapped fragments(millions)/transcript length(kd)]
式中,cDNA fragments 表示比對到某一轉(zhuǎn)錄本上的片段數(shù)目,即雙端reads 數(shù)目;mapped fragments(Millions)表示比對到轉(zhuǎn)錄本上的片段總數(shù),以10為單位;transcript length(kd)表示轉(zhuǎn)錄本的長度,以10個(gè)堿基為單位。
采用NanoDrop 超微量分光光度計(jì)和Agilent 2100 生物分析儀對各樣本RNA 進(jìn)行質(zhì)量檢測,結(jié)果RIN >5.8,基線平整,表明完整性較好,樣品質(zhì)量合格。使用BGISEQ-500 平臺共獲得鴉膽子114.55 Mb Raw reads,過濾去除低質(zhì)量、接頭污染以及未知堿基N 含量過高的reads后,獲得110.67 Mb(96.61%)clean reads,其中質(zhì)量值大于20(Q20)的堿基數(shù)目占總堿基數(shù)目的98.73%,且無明顯AT 或GC 分離現(xiàn)象(見圖1A),表明測序質(zhì)量較高,能滿足后續(xù)分析。
對clean reads 進(jìn)行組裝獲得轉(zhuǎn)錄本,使用BUSCO 軟件進(jìn)行質(zhì)量評估,其完全匹配的BUSCOs占比98.02%,表明組裝效果良好。使用Tgicl 軟件對轉(zhuǎn)錄本進(jìn)行聚類并去除冗余得到85 828 條Unigenes,平均長度為1775 bp,GC 含量為40.07%,N50 值為2608 bp,N70 值為1887 bp,N90 值1005 bp。對Unigenes 的長度進(jìn)行統(tǒng)計(jì)(見圖1B),其中長度≥3000 bp 的序列數(shù)目最多,為14 663 條。
圖1 Clean reads 的堿基含量(A)與Unigenes 長度(B)分布圖Fig 1 Distribution of clean reads base content(A)and Unigenes length(B)
為獲得更全面的基因功能信息,將Unigenes與NR、NT、Swissprot、KEGG、KOG、Pfam和GO 七大功能數(shù)據(jù)庫進(jìn)行比對,共有68 806 條Unigenes 得到注釋,占總數(shù)的80.17%。如表1 所示,有67 087(78.16%)條Unigenes 在NR 數(shù)據(jù)庫匹配成功,數(shù)量最多,而在GO 數(shù)據(jù)庫中,獲得注釋的Unigenes 數(shù)量最少,僅有43 042 個(gè),占50.15%;有25 734 條Unigens 在七大功能注釋庫同時(shí)得到注釋,占Unigenes 總數(shù)的29.98%。
表1 Unigenes 功能注釋表
Tab 1 Function annotation of Unigenes
數(shù)據(jù)庫數(shù)量占比/%NR67 08778.16 NT59 85069.73 Swissprot49 80158.02 KEGG52 41661.07 KOG53 75562.63 Pfam 52 21460.84 GO43 04250.15 Intersection25 73429.98
3.2.1 NR 數(shù)據(jù)庫對比分析 將Unigenes 與NR 數(shù)據(jù)庫進(jìn)行相似序列匹配,結(jié)果如圖2A 所示,與鴉膽子Unigenes 匹配數(shù)最多的物種是甜橙(Citrus sinensis
),約占47.07%。此外,克萊門柚(Citrus clementina
)和可可樹(Theobroma cacao
)同源性分別占27.7%和2.08%。3.2.2 GO 數(shù)據(jù)庫功能分類注釋 將鴉膽子Unigenes 與GO 數(shù)據(jù)庫進(jìn)行比對,共有43 042 條Unigenes 得到注釋,獲得了99 940 條對應(yīng)關(guān)系,結(jié)果如圖2B 所示,分屬于生物學(xué)過程、細(xì)胞組分和分子功能三大類。在生物學(xué)過程分類中,與細(xì)胞過程(cellular process)相關(guān)的Unigenes 為11 377 條,所占比例最高;在細(xì)胞組分分類中,與膜部分(membrane part)相關(guān)的Unigenes 最多,為12 940 條;在分子功能分類中,注釋上的Unigenes 涉及抗氧化、結(jié)合、催化、分子功能調(diào)節(jié)、轉(zhuǎn)運(yùn)、轉(zhuǎn)錄調(diào)節(jié)等多方面功能活性,其中,涉及到結(jié)合(binding)功能的Unigenes 有21 235條,所占比例最高;對應(yīng)蛋白標(biāo)簽(protein tag)功能的Unigenes 最少,為7 條。
3.2.3 KEGG 代謝通路分析 鴉膽子52 416 條Unigenes 被注釋到KEGG 數(shù)據(jù)庫的134 條代謝通路中(見圖2C),其中涉及包含細(xì)胞過程(cellular processes,2282 條)、環(huán)境信息加工(environmental information processing,3191 條)、遺傳信息加工(genetic information processing,10 076條)、新陳代謝(metabolism,29 789 條)及生物體系統(tǒng)(organismal systems,1775 條)五大類。其中,與新陳代謝相關(guān)的Unigenes 數(shù)量最多,占總數(shù)的63.23%,主要參與影響氨基酸代謝、糖代謝、脂代謝等多個(gè)方面。
對鴉膽子藥用活性成分合成相關(guān)信號通路進(jìn)行了分析,涉及不飽和脂肪酸生物合成(Ko01040)、萜類骨架生物合成(Ko00900)、類固醇生物合成(Ko00100)相關(guān)Unigenes 數(shù)量分別為206、276、8 條。根據(jù)鴉膽子KEGG 注釋結(jié)果,篩選276 條基因參與萜類骨架生物合成,其中涉及甲羥戊酸(MVA)以及非甲羥戊酸(MEP)途徑的分別有68、83 條Unigenes(見表2)。萜類化合物的生物合成涉及甲羥戊酸途徑和脫氧木酮糖-5-磷酸途徑兩條生物合成途徑,羥甲基戊二酰 CoA 還原酶(HMGR)是萜類代謝過程中的關(guān)鍵調(diào)控位點(diǎn),有8 條Unigenes 調(diào)控此位點(diǎn),其FPKM 值為85.37。1-脫氧木糖-5-磷酸合酶(DXS)與1-脫氧木糖-5-磷酸還原異構(gòu)酶(DXR)是MEP 途徑關(guān)鍵限速酶,分別有53 和4條基因編碼,其FPKM 值分別為121.74、64.03。
表2 鴉膽子萜類骨架生物合成中編碼關(guān)鍵酶的Unigenes
Tab 2 Unigenes encoding the key enzymes related with terpenoid backbone biosynthesis in (L.) Merr
合成途徑酶的名稱酶編號Unigenes 數(shù)目FPKM 值MVAacetyl-CoA acetyltransferase(ACAT)2.3.1.96124.71 MVAhydroxy methylglutaryl-CoA synthase(HMGS)2.3.3.10540.20 MVAhydroxymethylglutaryl-CoA reductase(HMGR)1.1.1.34885.37 MVAmevalonate kinase(MVK)2.7.1.36217.02 MVAphosphomevalonate kinase(PMK)2.7.4.2311.56 MVAmevalonate diphosphate decarboxylase(MVD)4.1.1.33333.39 MVAisopentenyl-diphosphate delta-isomerase(IPPs)5.3.3.211339.72 MVAfarnesyl diphosphate synthase(FDPS)2.5.1.130239.09 MEP1-deoxy-D-xylulose-5-phosphate synthase(DXS)2.2.1.753121.74 MEP1-deoxy-D-xylulose-5-phosphate reductoisomerase(DXR)1.1.1.267464.03 MEP2-C-methyl-D-erythritol 4-phosphate cytidylyltransferase(ispD)2.7.7.60820.36 MEP4-diphosphocytidyl-2-C-methyl-D-erythritol kinase(ispE)2.7.1.148548.69 MEP2-C-methyl-D-erythritol 2,4-cyclodiphosphate synthase(ispF)4.6.121120.13 MEP(E)-4-hydroxy-3-methylbut-2-enyl-diphosphate synthase(ispG)1.17.7.1188.64 MEP4-hydroxy-3-methylbut-2-en-1-yl diphosphate reductase(ispH)1.17.7.411203.29
萜類骨架形成后需要衍生修飾,細(xì)胞色素P450(cytochrome P450,CYP450)和糖基轉(zhuǎn)移酶(UDP-glycosyltransferase,UGT)主要起氧化、置換和糖基化修飾的重要作用。根據(jù)鴉膽子轉(zhuǎn)錄組SwissProt 數(shù)據(jù)庫注釋結(jié)果,有284 條 Unigenes被注釋為 CYP450,隸屬于20 個(gè)CYP450 家族,其中 CYP71 家族的Unigenes 為71 條,占比最多,其次是CYP82 和CYP704,分別為34 條和22 條。共找到屬于18 個(gè)UGT 亞家族的129 個(gè)UGTs,包括22 個(gè) UGT74、17 個(gè) UGT83 等。對各個(gè)樣品中基因表達(dá)量進(jìn)行聚類表達(dá)分析,其中CYP450家族 FPKM 值較高的有 CYP82A1(FPKM =284.88)、CYP71A1(FPKM =112.44)和CYP71A2(FPKM =105.64),UGT 家族FPKM 值較高的有UGT73C3(FPKM =65.93)、UGT71A15(FPKM =53.73)和UGT71A16(FPKM =36.44)。
3.2.4 KOG 分類 利用Blast 軟件,共有53 755條Unigenes 被注釋到KOG 數(shù)據(jù)庫中,得到基因同源物的分類信息(見圖2D)。KOG 根據(jù)其功能可分為25 類,其中,一般功能預(yù)測(general function prediction only)類別中Unigenes 數(shù)量最多,占總量的21.94%;細(xì)胞運(yùn)動(cell motility)類Unigenes 數(shù)量最少, 為1 個(gè); 未知功能(function unknown),翻譯后修飾、蛋白質(zhì)轉(zhuǎn)換、分子伴侶(posttranslational modification,protein turnover,chaperones)、信號轉(zhuǎn)導(dǎo)機(jī)制(signal transduction mechanisms)和轉(zhuǎn)錄(transcription)等類別的Unigenes 表達(dá)豐度也相對較高,分別占總量的9.32%、7.92%、10.78%和6.50%。
圖2 Unigene 功能注釋圖Fig 2 Functional annotation of Unigenes
CDS 預(yù)測可為鴉膽子基因組圖譜繪制及基因功能研究提供關(guān)鍵依據(jù),結(jié)果共預(yù)測得到56 624個(gè)CDS 序列,總長度為64 922 145 bp,N50 值為1446 bp,GC 含量為43.48%。課題組前期工作表明,鴉膽子球蛋白酶解物具有顯著的體外抗腫瘤活性,通過注釋,共獲得10 個(gè)與球蛋白相關(guān)的CDS序列,結(jié)果見表3,可為今后高球蛋白鴉膽子藥材的篩選及抗腫瘤生物肽的開發(fā)提供文本信息。
表3 鴉膽子球蛋白相關(guān)CDS 序列
Tab 3 Globulin related CDS of (L.) Merr
編號基因IDFPKM 值功能注釋數(shù)據(jù)庫來源1 Unigene 1078627.63Basic 7S globulinSwissprot 2 Unigene 123901.69Basic 7S globulinSwissprot 3 Unigene 1523759.38Basic 7S globulinSwissprot 4 Unigene 1564050.42Basic 7S globulinSwissprot 5 Unigene 20499.46Basic 7S globulinSwissprot 6 Unigene 2744610.94Basic 7S globulin 2Swissprot 7 Unigene 718641.50Basic 7S globulinSwissprot 8 Unigene1305220.96Citrus sinensis 12S seed storage globulin 1-likeNT 9 Unigene 108290.632S globulin [Corchorus olitorius]NR 10Unigene 308863.03basic 7S globulin-like [Manihot esculenta]NR
鴉膽子轉(zhuǎn)錄組共鑒定出6 種SSR 重復(fù)類型,共檢測出36 045 個(gè)SSR 分布于25 747 個(gè)Unigenes中,單核苷酸至六核苷酸重復(fù)類型均存在,其中有14 631 個(gè)單核苷酸,11 594 個(gè)二核苷酸,7554個(gè)三核苷酸,649 個(gè)四核苷酸,574 個(gè)五核苷酸,1043 個(gè)六核苷酸,單核苷酸重復(fù)類型數(shù)量最多。
RNA-seq 技術(shù)能夠?qū)φ婧松飶?fù)雜的轉(zhuǎn)錄本結(jié)構(gòu)和表達(dá)水平進(jìn)行分析,還可用于發(fā)現(xiàn)非編碼RNA 和全新的基因轉(zhuǎn)錄本,有助于揭示生物生長發(fā)育、逆境應(yīng)答機(jī)制和次生代謝產(chǎn)物的富集調(diào)控機(jī)制。此外,該技術(shù)還在低豐度基因檢測、基因家族鑒定等方面發(fā)揮重要作用。有學(xué)者利用Illumina 高通量測序發(fā)現(xiàn)三江源地區(qū)灌木亞菊中與藥用活性相關(guān)的基因主要富集在甾體、黃酮類、苯丙素類及萜類化合物;通過與烏頭轉(zhuǎn)錄組測序分析比較,證實(shí)鐵棒錘是烏頭堿生物合成途徑的理想材料;梅瑜等利用高通量測序PacBio Sequel 平臺深入了解甘葛藤轉(zhuǎn)錄組的整體水平,挖掘其中黃酮類生物合成相關(guān)候選基因;林江波等利用Illumina HiSeq 4000 高通量測序技術(shù)對鐵皮石斛莖和葉進(jìn)行轉(zhuǎn)錄組測序,并分析了植物甾醇生物合成關(guān)鍵酶基因的表達(dá)。
本研究首次采用BGISEQ-500 測序平臺,進(jìn)行了鴉膽子轉(zhuǎn)錄組序列分析,共獲得85 828 條Unigenes,數(shù)據(jù)量大且組裝效果良好,填補(bǔ)了鴉膽子轉(zhuǎn)錄組信息的空白,確定了參與萜類骨架生物合成的基因,文本信息將有助于進(jìn)一步研究苦木素類化合物及其衍生化在鴉膽子中生物合成的分子機(jī)制,并促進(jìn)鴉膽子功能基因組學(xué)的研究。MEP 和MVA 通路在植物萜類化合物的生物合成中發(fā)揮著重要作用。在次級代謝物的衍生化修飾過程中,需要CYP450 和糖基轉(zhuǎn)移酶的參與。Zheng 等研究表明CYP450 參與了真菌甲基的羥基化反應(yīng);UGT73AD1 可使羥基積雪草酸的C-28 羧基部分糖基化。本研究發(fā)現(xiàn)鴉膽子轉(zhuǎn)錄組中有較多CYP450、UGT 序列,推測其可能在苦木素類衍生修飾中起重要作用。
本研究共獲得56 624 個(gè)CDS 序列,構(gòu)建鴉膽子基因編碼數(shù)據(jù)庫,豐富了該物種蛋白質(zhì)編碼基因的注釋,為鴉膽子及其近緣物種蛋白序列鑒定提供了更可靠的質(zhì)譜數(shù)據(jù)庫信息。后期可通過蛋白質(zhì)組學(xué)等手段來進(jìn)行數(shù)據(jù)校正,并確定新的編碼基因;與蛋白質(zhì)組學(xué)聯(lián)用還可以有效地量化生物體中重要的蛋白質(zhì),確定基因在植物生長發(fā)育過程中的功能。鴉膽子球蛋白及其酶解物具有明確的抗腫瘤活性,在獲得的CDS 序列中有10 個(gè)與球蛋白相關(guān),今后可借助分子標(biāo)記輔助育種技術(shù),進(jìn)行高球蛋白親本的篩選,增強(qiáng)鴉膽子球蛋白抗腫瘤活性。通過植物轉(zhuǎn)錄組測序,還可反向預(yù)測和開發(fā)多肽類藥物。Rodríguez-Decuadro 等根據(jù)Peltophorum dubium
幼苗轉(zhuǎn)錄組測序結(jié)果,采用同源序列搜索和半胱氨酸殘基模式匹配的方法,對其中的抗菌肽進(jìn)行了預(yù)測。鴉膽子SSR 位點(diǎn)重復(fù)類型以單核苷酸和雙核苷酸為主,占72.7%,與蘋果、川穹等植物研究結(jié)果一致。短重復(fù)序列的大量存在表明該物種的進(jìn)化水平相對較高,表明鴉膽子處于相對較高的生物進(jìn)化與分類地位,其基因組經(jīng)歷了較長的進(jìn)化時(shí)間或具有較高的突變頻率,還可為近緣物種SSR 標(biāo)記的開發(fā)及其遺傳分析提供便利。
本研究基于高通量測序平臺進(jìn)行了鴉膽子全長轉(zhuǎn)錄組分析,獲得了高質(zhì)量轉(zhuǎn)錄本,共有68 806 條Unigenes 注釋到七大功能數(shù)據(jù)。萜類骨架是苦木素生物合成的重要前體,KEGG 分析共有276 條Unigenes 參與,其中涉及MEP 和MVA途徑的15 種酶;還發(fā)現(xiàn)涉及鴉萜類骨架修飾的CYP450 和UGT 的Unigenes 分別有284 條和129條,為提高苦木素類化合物產(chǎn)量的分子生藥學(xué)研究提供了重要文本信息。通過CDS 預(yù)測共獲得10 個(gè)CDS 序列與球蛋白相關(guān),進(jìn)一步豐富了鴉膽子球蛋白源抗腫瘤肽的數(shù)據(jù)庫。本研究獲得了鴉膽子轉(zhuǎn)錄組的數(shù)據(jù),可為今后鴉膽子藥用價(jià)值開發(fā)與利用提供理論基礎(chǔ)。