李在芳, 鄭福建, 夏悅怡, 張秀瓊, 王鑫欣,趙春霞, 趙欣捷, 路 鑫*, 許國旺
(1. 中國科學院大連化學物理研究所, 中國科學院分離分析化學重點實驗室,遼寧省代謝組學重點實驗室, 遼寧 大連 116023; 2. 中國科學院大學, 北京 100049)
植物在進化進程中,為適應復雜的生存環(huán)境及滿足發(fā)育需要,產(chǎn)生出種類繁多、數(shù)量巨大、結構非常豐富的次生代謝物,在抵御生物/非生物脅迫、生物間互作以及信息傳遞等方面發(fā)揮重要作用[1],次生代謝途徑解析對植物分子育種及天然產(chǎn)物生物合成等具有重要意義。苯丙烷代謝是植物最重要的次生代謝合成途徑之一,與植物應激誘導有著密切關系[2,3]。苯丙烷代謝有多個分支途徑,如黃酮途徑、木質(zhì)素途徑、木脂素途徑、羥基肉桂酸酰胺途徑等;骨架結構經(jīng)多種后修飾,如羥基化、糖基化、乙?;?、異戊二烯化、硫酸化和甲基化等,產(chǎn)生了復雜多樣的苯丙烷途徑代謝物。
基于液相色譜-高分辨串聯(lián)質(zhì)譜(LC-HRMS/MS)的代謝組學分析技術為次生代謝物鑒定及途徑闡釋提供了手段[4-7]。如Wen等[8]基于非靶向LC-HRMS/MS代謝組學技術鑒別了玉米中29個類黃酮,通過整合基因組學、轉錄組學信息,揭示了玉米黃酮生物合成的遺傳學基礎。牟紅梅等[9]基于超高效液相色譜-串聯(lián)質(zhì)譜的非靶向代謝組學分析研究了成熟期茄梨和紅茄梨果皮代謝物差異,發(fā)現(xiàn)差異代謝物涉及黃酮代謝、氨基酸代謝、苯丙烷代謝以及苯丙烷分支途徑黃酮代謝等。胡永丹等[10]基于超高效液相色譜-高分辨質(zhì)譜聯(lián)用技術分析茶樹花化學成分,采用氮規(guī)則、質(zhì)量虧損和特征子離子篩選目標化學成分,從7個茶樹花樣本中共鑒定出137個化合物。非靶向代謝組學采集了非常豐富的質(zhì)譜信號,包括一級質(zhì)譜和二級質(zhì)譜(MS & MS/MS),代謝組鑒定多采用質(zhì)譜數(shù)據(jù)庫搜索方式[11]。盡管全球天然產(chǎn)物社會分子網(wǎng)絡(Global Natural Products Social Molecular Networking, GNPS)數(shù)據(jù)庫已收錄免費共享的83 314張MS/MS譜圖,但與復雜多樣的植物代謝組,特別是次生代謝組相比,質(zhì)譜庫的覆蓋范圍仍不足,搜庫鑒定能力有限[12]。利用非靶向代謝組實驗數(shù)據(jù),構建基于質(zhì)譜相似性(MS/MS similarity)的分子網(wǎng)絡(molecular networking, MN)[13,14],可人工推斷注釋數(shù)據(jù)庫無法鑒定的結構類似物[15]。如Clements等[16]采用代謝組學結合分子網(wǎng)絡的方法,推測了一種新型開環(huán)賽氏菌縮肽(serratamolide)類似物的結構。但該方法不能有效篩選目標途徑相關分子簇,且方法注釋能力主要依賴分子簇內(nèi)可搜庫注釋的種子節(jié)點。植物次生代謝物結構存在大量修飾基團,在MS/MS中常以中性丟失形式體現(xiàn)[17]。植物代謝途徑數(shù)據(jù)庫包含大量代謝反應信息,如植物代謝途徑(Plant Metabolic Pathways,PlantCyc,https://www.plantcyc.org/)[18]收錄了5 234個反應,京都基因與基因組百科全書(Kyoto Encyclopedia of Genes and Genomes, KEGG, https://www.genome.jp/kegg/)收錄了11 744個生化反應。將代謝途徑中的修飾反應用于非靶向數(shù)據(jù)中代謝特征的篩選,可有助于提高途徑代謝物的發(fā)現(xiàn)效率[19]。
為此,本研究針對次生代謝物種類多、結構復雜,且存在大量未知結構代謝物的分析挑戰(zhàn),以玉米葉片苯丙烷途徑代謝物為例,利用代謝途徑的修飾反應以及現(xiàn)有質(zhì)譜數(shù)據(jù)庫,發(fā)展用于非靶向LC-HRMS/MS代謝組數(shù)據(jù)中重要途徑代謝物篩選和注釋的新方法,為次生代謝物的注釋和途徑解析提供新思路。
ACQUITY UPLC超高效液相色譜系統(tǒng)購自美國Waters公司。Triple TOF 5600+飛行時間質(zhì)譜(TOF-MS)購自美國AB SCIEX公司。超純水由購自美國Billerica公司的Milli-Q系統(tǒng)純化制備。乙腈(HPLC級)和甲醇(HPLC級)購自德國Merck公司。甲酸(純度98%)和碳酸氫銨購自中國J & K Scientific有限公司。
玉米葉片代謝組提取:準確稱取玉米新鮮葉片組織凍干粉50 mg,置于1.5 mL離心管中。加入1.0 mL 80%(v/v)甲醇水提取劑,渦旋提取5 min,在4 ℃條件下,以21 500 g轉速離心10 min。取700 μL上清液,放入真空離心濃縮儀凍干。凍干樣品加入100 μL 80%(v/v)甲醇水復溶,復溶液在4 ℃條件下,以21 500 g轉速離心10 min。取上清液用于儀器分析。
正離子模式下的液相色譜條件 Waters ACQUITY BEH C18色譜柱(100 mm×2.1 mm, 1.7 μm);柱溫:50 ℃;進樣器溫度:4 ℃;流動相A: 0.1%(v/v)甲酸水溶液;流動相B: 0.1%(v/v)甲酸乙腈溶液;流速:0.35 mL/min;進樣量:5 μL。洗脫梯度:0~1.0 min, 5%B; 1.0~24.0 min, 5%B~100%B; 24.0~28.0 min, 100%B; 28.0~28.1 min, 100%B~5%B; 28.1~30.0 min, 5%B。
負離子模式下的液相色譜條件 Waters ACQUITY HSS T3色譜柱(100 mm×2.1 mm, 1.8 μm);柱溫:50 ℃;進樣器溫度:4 ℃;流動相A: 6.5 mmol/L碳酸氫銨水溶液;流動相B: 含6.5 mmol/L碳酸氫銨的95%(v/v)甲醇水溶液;流速:0.35 mL/min;進樣量:5 μL。洗脫梯度:0~1.0 min, 2%B; 1.0~18.0 min, 2%B~100%B; 18.0~22.0 min, 100%B; 22.0~22.1 min, 100%B~2%B; 22.1~25.0 min, 2%B。
質(zhì)譜條件 離子源:電噴霧電離(ESI)源,采用正、負離子模式檢測;掃描方式:一級全掃描質(zhì)量范圍m/z50~1 250;二級數(shù)據(jù)依賴型掃描(Top 15)質(zhì)量范圍m/z50~1 250;碰撞能量:15、30和45 eV;離子源溫度:500 ℃;電噴霧電壓:4 500 V;氣簾氣壓強:0.241 MPa;霧化氣(gas 1)壓強:0.345 MPa;加熱氣(gas 2)壓強:0.345 MPa。
1.4.1原始數(shù)據(jù)預處理
采用MarkerView 1.2.1軟件處理質(zhì)譜原始數(shù)據(jù),獲得包含代謝特征保留時間、質(zhì)荷比和峰強度的質(zhì)譜峰列表。采用ProteoWizard 3.0.10240軟件將質(zhì)譜原始數(shù)據(jù)文件轉化為. mgf格式的二級質(zhì)譜文件。
1.4.2修飾代謝組篩選
首先,從代謝途徑數(shù)據(jù)庫收集修飾反應,將修飾類型的名稱、分子式和精確相對分子質(zhì)量整理至.csv格式的文件中,生成修飾類型列表。將非靶向代謝組數(shù)據(jù)的質(zhì)譜峰列表、二級質(zhì)譜文件,以及修飾類型列表作為輸入文件,運行自編程序包ModifiedMetMRM。設置質(zhì)譜峰列表與二級質(zhì)譜文件的匹配參數(shù)為質(zhì)量精度15×10-6,保留時間窗口12 s?;谛揎楊愋土斜慝@取非靶向代謝組數(shù)據(jù)中修飾代謝組的匹配參數(shù)為質(zhì)量窗口15×10-6,子離子最低絕對強度為100。離子融合參數(shù)為質(zhì)量窗口15×10-6,保留時間窗口12 s。
1.4.3探針分子數(shù)據(jù)庫構建
下載GNPS(https://gnps.ucsd.edu/)中的3個質(zhì)譜數(shù)據(jù)集(GNPS Library, NIH Natural Products Library Round 1和NIH Natural Products Library Round 2)。采用自編代碼收集3個數(shù)據(jù)庫化合物的SMILES,并在ChemDes平臺(http://www.scbdd.com/convert/convert/)將其轉化為InChIKey。利用ClassyFire(https://cfb.fiehnlab.ucdavis.edu/)工具獲得化合物的化學分類,保留其中苯丙烷類化合物,獲取化合物的相關信息,包括采集MS/MS的儀器類型、SMILES和二級質(zhì)譜圖等。
圖 1 重要途徑代謝物的篩選與注釋流程Fig. 1 Workflow of screening and annotation of pathway-associated metabolites KEGG: the Kyoto Encyclopedia of Genes and Genomes; MN: molecular networking; GNPS: Global Natural Products Social Molecular Networking.
1.4.4分子網(wǎng)絡構建
分子網(wǎng)絡由開源工具GNPS平臺完成。建網(wǎng)參數(shù):不少于6個子離子匹配,MS/MS相似度閾值為0.7;母離子質(zhì)量精度閾值:0.01 Da;子離子質(zhì)量精度閾值:0.02 Da;單個連通網(wǎng)絡節(jié)點數(shù)最大值:500;單個節(jié)點最大相鄰節(jié)點數(shù):50。分子網(wǎng)絡可視化由軟件Cytoscape 3.8.0實現(xiàn)。
1.4.5代謝物定性
采用基于SMRT數(shù)據(jù)集構建的GNN-RT模型[20],通過標準品遷移學習預測本實驗色譜條件下的保留時間;使用開源工具CFM-ID 4.4.3 (https://hub.docker.com/r/wishartlab/cfmid)預測代謝物的虛擬(insilico)二級質(zhì)譜;二級質(zhì)譜相似度計算采用譜熵算法[21]。代謝物化學類別預測采用SIRIUS 4[22]中的CANOPUS[12]完成,使用默認參數(shù)。
方法總體框架如圖1所示,途徑代謝物的篩選與注釋步驟主要包括:1)基于公共代謝途徑數(shù)據(jù)庫及文獻報道,收集參與途徑的修飾反應,構建修飾基團質(zhì)譜數(shù)據(jù)庫,進而從非靶向實驗數(shù)據(jù)中篩選修飾代謝組(含有修飾基團的代謝物); 2)從開源質(zhì)譜數(shù)據(jù)庫中收集目標途徑代謝物及其類似物作為探針分子,構建探針分子串聯(lián)質(zhì)譜數(shù)據(jù)庫;3)將探針分子與修飾代謝組共建分子網(wǎng)絡;4)篩選目標途徑代謝物分子簇;5)基于探針分子結構、修飾基團、子結構信息等注釋代謝物。
利用開源代謝途徑知識庫,如:KEGG、PlantCyc以及文獻報道[23-25],收集參與苯丙烷途徑的代謝反應,提取修飾基團。表1給出了收集到的61種修飾反應類型,包括11種通用修飾類型(甲基化、甲氧基化、羥基化、甲氨基化、乙?;?、羧基化、硫酸化、丙二?;?、戊糖基化、脫氧己糖基化和己糖基化)和50種途徑特異性修飾類型(13種胺結合、5種羥基肉桂酰結合、13種酸結合、18種醇結合和1種異戊二烯化修飾)。
表 1 參與苯丙烷代謝的后修飾反應Table 1 Modifications involved in phenylpropanoids biosynthesis
從玉米葉片正、負離子模式非靶向代謝組學數(shù)據(jù)中篩選到60種修飾類型,對應1 385個和1 412個代謝物。其中,正、負離子模式下分別有32.27%(447/1 385)和26.06%(368/1 412)的代謝物含有兩種及以上修飾基團,通用修飾類型占比32.31%(正離子模式)和34.85%(負離子模式);正離子模式下,特異性修飾類型主要是胺結合(7.76%)、羥基肉桂酰結合(8.09%)、酸結合(13.91%)和醇結合(36.28%)修飾;異戊二烯化修飾占比較低,僅為1.66%。負離子模式與正離子模式類似,上述特異性修飾及異戊二烯化修飾的占比分別為3.94%、13.62%、19.21%、28.12%和0.26%。
基于ClassyFire[26]化學分類從GNPS數(shù)據(jù)庫中包含天然產(chǎn)物較多的3個質(zhì)譜數(shù)據(jù)集(GNPSLibrary、NIH Natural Products Library Round 1和NIH Natural Products Library Round 2)中共收集到1 542個苯丙烷類化合物的正離子模式二級譜圖2 677張和661個苯丙烷類化合物的負離子模式二級譜圖814張,建立探針分子串聯(lián)質(zhì)譜數(shù)據(jù)庫。圖2給出了探針分子二級質(zhì)譜采集條件統(tǒng)計,其中來自飛行時間質(zhì)譜的二級譜圖占主要的比重,正、負離子模式占比分別為83.75%和97.67%(見圖2a)。對探針分子的化學類別進行統(tǒng)計,分屬36個亞類,其中類黃酮、異黃酮、香豆素及其衍生物、肉桂酸及其衍生物占比較大,正、負離子模式占比分別為68.61%和71.26%(見圖2b)。
圖 2 探針分子串聯(lián)質(zhì)譜數(shù)據(jù)庫收錄統(tǒng)計Fig. 2 Statistics of the probe molecule MS/MS database
將探針分子與玉米葉片中篩選出的修飾代謝組共建分子網(wǎng)絡,選取其中苯丙烷途徑代謝物所在的分子簇。分子簇篩選條件為:簇內(nèi)同時含有探針分子與修飾代謝物,或雖不含探針分子但含有一個及以上途徑特異性修飾的代謝物。滿足篩選條件的分子簇中共含有392(正離子模式)和417個(負離子模式)修飾代謝物。圖3a所示為負離子模式篩選出的分子簇,簇內(nèi)的探針分子可快速提示簇內(nèi)代謝物所屬的途徑信息。如圖3b所示,簇內(nèi)8個探針分子(黃色)均為木脂素類化合物,提示該分子簇為木脂素及其結構類似物。僅含途徑特異性修飾基團的代謝物分子簇如圖3c,簇內(nèi)含有木脂素途徑特異性醇結合的修飾基團,如松柏醇(non-condensed coniferyl alcohol)和芥子醇(non-condensed sinapyl alcohol)等,該分子簇也被快速識別為木脂素途徑代謝物。
圖 3 基于探針-修飾組分子網(wǎng)絡篩選出的苯丙烷途徑代謝物Fig. 3 Phenylpropanoids pathway-associated metabolites screened by probes-modified metabolome molecular network a. phenylpropanoids pathway-associated clusters in negative ion mode; b. co-cluster consisting of both probe molecules and modified metabolites; c. modified metabolites with one or more pathway-specific modification types.
對篩選出的途徑代謝物進行結構注釋,對于含有探針分子的分子簇,以探針分子為初始種子節(jié)點,結合修飾基團信息進行網(wǎng)絡傳播注釋。以圖3b紅色虛框中紫色節(jié)點(m/z697.228 6)的注釋為例,其相鄰黃色節(jié)點為探針分子9″-O-Z-p-香豆酰-9″′-O-E-p-香豆酰-(7S,8S)-愈創(chuàng)木酰甘油8-O-4′-松柏醚(9″-O-Z-p-coumaroyl-9″′-O-E-p-coumaroyl-(7S,8S)-guaiacylglycerol 8-O-4′-coniferyl ether,m/z667.218 0);它們之間存在Δm/z為30.010 5的質(zhì)量差,推斷其為探針分子甲氧基化修飾的產(chǎn)物。此外,該節(jié)點只有香豆酰(coumaroyl)一種修飾(中性丟失),說明甲氧基化修飾未發(fā)生在香豆酰部分。進一步從該節(jié)點的二級譜圖可知,香豆酰(146.035 7)以中性形式丟失后,產(chǎn)生子離子m/z551.192 9,它與子離子m/z341.101 2之間可能存在m/z210.091 7的中性丟失,從表1可知歸屬為非縮合芥子醇(non-condensed sinapyl alcohol),基于該子結構推斷甲氧基化修飾僅能發(fā)生在阿魏醇(feruloyl alcohol)上。對其二級質(zhì)譜碎片離子進行子結構注釋(見圖4a),并將碎片信息進行化合物結構拼接,將得到的結構搜索PubChem數(shù)據(jù)庫,確定為稀有木脂素A(dadahol A)。
圖 4 (a)基于已知相鄰節(jié)點的代謝物傳播注釋和(b)代謝物從頭注釋Fig. 4 (a)Annotation of metabolites with known neighbor-nodes and (b) de novo annotation of metabolites
對只含有途徑特異性修飾代謝物的分子簇,如簇內(nèi)有可被搜庫鑒定的節(jié)點,則以注釋節(jié)點為初始種子,注釋過程與含有探針分子的分子簇類似。對于無相鄰注釋節(jié)點的修飾代謝物采用從頭注釋方式,如圖3c所示簇內(nèi)代謝物僅有修飾基團提供的子結構信息。以簇末端代謝物(m/z551.191 5)的結構解析為例說明如下:該代謝物含有非縮合松柏醇(non-condensed coniferyl alcohol)子結構,經(jīng)中性丟失(m/z180.078 6)產(chǎn)生m/z371.111 2的子離子;另外還有香豆酸(coumaric acid)特征離子(m/z163.037 7),它與子離子m/z371.111 2之間可能存在m/z208.073 5的中性丟失;該中性丟失與修飾基團庫中的非縮合芥子醇(m/z210.089 2)相差2.015 7,推斷可能是非縮合芥子醇開環(huán)失去2個H;將得到的子結構非縮合松柏醇、香豆酸和非縮合芥子醇進行拼接,符合二級譜圖注釋結果的僅存在一種合理結構(見圖4b)。該結構經(jīng)PubChem和SciFinder數(shù)據(jù)庫搜索,均未見收錄。采用上述注釋方法,將正、負離子均注釋出的同一代謝物,根據(jù)其結構去冗余后共初步注釋出129個苯丙烷途徑代謝物,其中89個在PubChem和SciFinder數(shù)據(jù)庫中已有收錄,26個為數(shù)據(jù)庫未報道的“未知結構”化合物。采用注釋代謝物的MS/MS對其結構進一步驗證,其中68個注釋代謝物的化合物類別可被準確預測為苯丙烷代謝物。對其中115個有確切結構的代謝物(其余14個為同分異構體)預測其保留時間,其中102個代謝物的預測保留時間相對誤差小于30%。采用CFM-ID工具預測了115個代謝物的二級譜圖,并計算了與實驗二級譜圖的相似性;其中,具有較高相似性(>0.5)的代謝物有28個,較相似(0.4~0.5)的代謝物有30個,有一定相似性(<0.4)的有57個。此外,對其中10個有標準品的代謝物進行了驗證,驗證結果顯示注釋結構正確。
從注釋結果可知,129個苯丙烷途徑代謝物涉及苯丙烷下游主要分支途徑產(chǎn)生的次生代謝物(見圖5),如黃酮分支途徑的8個類黃酮、19個氧苷類黃酮、32個碳苷類黃酮,羥基肉桂酸途徑的31個羥基肉桂酸酰胺及其衍生物,以及木脂素合成途徑的22個(新)木脂素/木脂素苷等。其中4個氧苷類黃酮、4個碳苷類黃酮、6個羥基肉桂酸酰胺及其衍生物和11個木脂素結構在PubChem和SciFinder數(shù)據(jù)庫中均未被收錄(見圖5括號內(nèi)紅色數(shù)字)。
圖 5 注釋代謝物的分支途徑分布Fig. 5 Distributions of annotated metabolites in the downstream branches of the phenylpropanoid pathwayRed numbers in brackets: previously unreported in both PubChem and SciFinder databases.
本研究以苯丙烷途徑代謝物的篩選和注釋為例,發(fā)展了一種基于修飾組和探針分子的重要途徑代謝物高效篩選和注釋方法。僅從一種玉米葉片組織中就注釋出了129個苯丙烷途徑代謝物,其中有26個未被PubChem和SciFinder數(shù)據(jù)庫收錄,顯示了方法在發(fā)現(xiàn)與注釋途徑代謝物特別是未在數(shù)據(jù)庫收錄的“未知結構”代謝物方面的能力。鑒于目前途徑數(shù)據(jù)庫提供的修飾反應尚不全面,以及開源質(zhì)譜數(shù)據(jù)庫因譜圖質(zhì)量、儀器采集條件差異等原因,方法注釋能力還未能充分發(fā)揮。隨著數(shù)據(jù)庫信息的不斷積累和完善,以及基于機器學習的子結構預測方法不斷成熟,未來將在重要代謝途徑挖掘和利用方面發(fā)揮更大的作用。