吳振龍 ,王英 ,葉文才 *
(1. 暨南大學(xué)天然生物活性分子與創(chuàng)新藥物研究中心,廣東 廣州 510632;2. 廣東省中藥藥效物質(zhì)基礎(chǔ)與創(chuàng)新藥物研究重點(diǎn)實(shí)驗(yàn)室,廣東 廣州 510632)
天然生物活性分子因其多樣的化學(xué)結(jié)構(gòu)和廣泛的藥理活性,一直是藥物先導(dǎo)物的重要源泉。據(jù)統(tǒng)計(jì),從1981年1月至2019年9月,F(xiàn)DA共批準(zhǔn)了1 881個(gè)新藥,其中約有一半直接或間接來源于天然化合物[1]。然而,近年來,大型制藥公司和研發(fā)機(jī)構(gòu)對(duì)天然生物活性分子的研究興趣逐漸減少,相關(guān)的研發(fā)投入也呈逐年下降趨勢(shì)[2-4]。究其原因,一方面是由于傳統(tǒng)的天然生物活性化合物發(fā)現(xiàn)過程漫長(zhǎng)、費(fèi)時(shí)耗力,且定向性不強(qiáng),分離過程的盲目性導(dǎo)致大量的已知成分被重復(fù)地發(fā)現(xiàn);另一方面,與發(fā)現(xiàn)新天然化合物的數(shù)量逐年增加相反,近年來所發(fā)現(xiàn)化合物的結(jié)構(gòu)新穎性卻在逐漸降低,適用于首創(chuàng)新藥(first-in-class)研發(fā)的新穎結(jié)構(gòu)小分子化合物仍然匱乏[5-6]。針對(duì)上述不足和挑戰(zhàn),如何實(shí)現(xiàn)已知化合物的去重(dereplication),并快速、定向地發(fā)現(xiàn)結(jié)構(gòu)新穎的天然生物活性分子成為了天然藥物化學(xué)學(xué)科關(guān)注的熱點(diǎn)和難點(diǎn)問題。
近年來,隨著現(xiàn)代分析技術(shù)、代謝組學(xué)、生物信息學(xué)、人工智能技術(shù)等的快速發(fā)展以及各學(xué)科之間的交叉融合,天然生物活性分子的發(fā)現(xiàn)研究也涌現(xiàn)出了一批新的策略和方法[7-10],如基于液相色譜串聯(lián)二級(jí)質(zhì)譜(LC-MS/MS)的分子網(wǎng)絡(luò)技術(shù)(molecular networking,MN)和基于核磁共振(NMR)的小分子精確識(shí)別技術(shù)(small molecule accurate recognition technology,SMART)等。這些新策略和新方法的出現(xiàn)為靶向挖掘結(jié)構(gòu)新穎的天然生物活性分子帶來了新的研究思路,目前已廣泛應(yīng)用于植物、微生物、海洋天然產(chǎn)物的發(fā)現(xiàn)研究中,掀起了天然產(chǎn)物研究的新浪潮。本文將對(duì)部分具代表性的新技術(shù)和方法進(jìn)行總結(jié),以期為進(jìn)一步開發(fā)和利用天然生物活性分子的高效發(fā)現(xiàn)策略和方法提供參考。
液相色譜串聯(lián)質(zhì)譜(LC-MS)因具有較高的靈敏度、分辨率以及較快的分析速度等優(yōu)點(diǎn),可滿足對(duì)天然產(chǎn)物提取物進(jìn)行準(zhǔn)確的定性和定量分析的要求。前期,已有學(xué)者借助化合物在LC-MS中的特征紫外吸收峰和相對(duì)分子質(zhì)量,實(shí)現(xiàn)了對(duì)天然產(chǎn)物提取物或餾分中目標(biāo)化合物的靶向分離。但由于特征紫外吸收通常僅適用于分離度較好、樣品組成較為簡(jiǎn)單的組分,而對(duì)成分復(fù)雜的粗提物則效果不理想。此外,對(duì)于一些結(jié)構(gòu)新穎的化合物,其相對(duì)分子質(zhì)量可能與已知成分相同,故在LC-MS中也難以區(qū)分。因此,單獨(dú)使用LC-MS技術(shù)無法對(duì)復(fù)雜天然提取物中的未知成分進(jìn)行高效識(shí)別。
2012年,美國(guó)加利福尼亞大學(xué)圣地亞哥分校的Pieter Dorrestein教授團(tuán)隊(duì)首次提出了基于二級(jí)質(zhì)譜(MS/MS)的分子網(wǎng)絡(luò)技術(shù),并將其運(yùn)用于天然生物活性分子的發(fā)現(xiàn)研究中[11]。分子網(wǎng)絡(luò)技術(shù)是綜合運(yùn)用現(xiàn)代質(zhì)譜、生物信息學(xué)、計(jì)算機(jī)等技術(shù)所開發(fā)的一種二級(jí)質(zhì)譜數(shù)據(jù)可視化策略。其原理是:結(jié)構(gòu)相同或相近的化合物在同一條件下可產(chǎn)生相同或相似的二級(jí)質(zhì)譜碎片,反之亦然。按照一定的算法將LC-MS/MS圖譜中的每張二級(jí)質(zhì)譜圖進(jìn)行比對(duì),并計(jì)算各圖譜的相似度,以余弦值(0 ~ 1)表示,相似度越高,則余弦值越大。根據(jù)計(jì)算所得余弦值的大小,可將相似度較高的圖譜分別聚集成簇,而相似度較低的圖譜則單獨(dú)成簇,最終可將所有的二級(jí)質(zhì)譜圖整合成為一張可視化的分子網(wǎng)絡(luò)圖(見圖1)。在該網(wǎng)絡(luò)圖中,每一個(gè)節(jié)點(diǎn)代表一個(gè)化合物,其所包含的二級(jí)質(zhì)譜信息可用節(jié)點(diǎn)的名稱、顏色、大小、形狀等來表示。節(jié)點(diǎn)與節(jié)點(diǎn)之間的連線則表示兩個(gè)化合物結(jié)構(gòu)的相關(guān)性,其大小可用連線的粗細(xì)來表示。通過構(gòu)建分子網(wǎng)絡(luò)圖,可將復(fù)雜的二級(jí)質(zhì)譜信息十分直觀地呈現(xiàn)出來,這些信息包括了測(cè)試樣品中所含有的全部化合物,以及化合物與化合物之間化學(xué)結(jié)構(gòu)的關(guān)聯(lián)性。近期,Nothias等[12]在運(yùn)用MS/MS數(shù)據(jù)構(gòu)建經(jīng)典分子網(wǎng)絡(luò)的基礎(chǔ)上,首次引入了液相色譜的保留時(shí)間以及一級(jí)質(zhì)譜數(shù)據(jù)的信息,開發(fā)了基于特征的分子網(wǎng)絡(luò)技術(shù)(feature-based molecular networking,F(xiàn)BMN)。該技術(shù)一方面解決了傳統(tǒng)分子網(wǎng)絡(luò)技術(shù)在鑒定同分異構(gòu)體方面的局限性,可區(qū)分同分異構(gòu)體;另一方面,還可通過整合一級(jí)質(zhì)譜數(shù)據(jù)的離子豐度等信息,對(duì)目標(biāo)化合物進(jìn)行相對(duì)定量分析。
在傳統(tǒng)分子網(wǎng)絡(luò)技術(shù)中,化合物的指認(rèn)通常是通過比對(duì)待分析物與已知化合物的二級(jí)質(zhì)譜數(shù)據(jù)完成,利用該方法所發(fā)現(xiàn)的新化合物多為已知化合物的同系物或類似物,其結(jié)構(gòu)的新穎性往往不強(qiáng)。因此,如何實(shí)現(xiàn)靶向識(shí)別具有新穎骨架的化合物依然面臨挑戰(zhàn)。天然化合物骨架結(jié)構(gòu)復(fù)雜、類型多樣,但它們通常來自于簡(jiǎn)單的生源前體,經(jīng)轉(zhuǎn)化形成特定的生源砌塊,再經(jīng)進(jìn)一步的生物合成途徑而形成。而天然化合物的生源砌塊所對(duì)應(yīng)的結(jié)構(gòu)片段往往會(huì)在化合物的二級(jí)質(zhì)譜圖中顯示出特征性的子離子碎片峰或(和)中性丟失碎片峰,可用于生源砌塊的識(shí)別。為克服傳統(tǒng)分子網(wǎng)絡(luò)技術(shù)在鑒定具有新穎骨架結(jié)構(gòu)化合物方面的不足,筆者所在課題組最近通過集成生源砌塊識(shí)別技術(shù)和分子網(wǎng)絡(luò)技術(shù),首次提出了基于生源砌塊的分子網(wǎng)絡(luò)策略(building blocksbased molecular network,BBMN)[13]。相比于傳統(tǒng)的分子網(wǎng)絡(luò)技術(shù),BBMN策略在發(fā)現(xiàn)新穎骨架結(jié)構(gòu)化合物方面具有明顯的優(yōu)勢(shì):一方面,BBMN策略可根據(jù)目標(biāo)化合物的結(jié)構(gòu)特點(diǎn)對(duì)復(fù)雜提取物中所包含的生源砌塊進(jìn)行快速識(shí)別,因而對(duì)分析的化合物具有強(qiáng)選擇性;另一方面,針對(duì)二級(jí)質(zhì)譜數(shù)據(jù)量龐大、冗雜的特點(diǎn),BBMN策略在選擇性過濾的基礎(chǔ)上可簡(jiǎn)化待分析物的數(shù)據(jù)集,并通過分子網(wǎng)絡(luò)技術(shù)對(duì)數(shù)據(jù)進(jìn)行可視化分析,方便研究人員快速鎖定目標(biāo)化合物(見圖2)。天然化合物大多由特定的生源砌塊組合而成,因此,BBMN策略可廣泛應(yīng)用于其他結(jié)構(gòu)類型天然化合物的發(fā)現(xiàn)研究中,有望為傳統(tǒng)天然活性化合物的發(fā)現(xiàn)研究帶來新變革。
圖 1 分子網(wǎng)絡(luò)原理示意圖Figure 1 A schematic diagram of molecular networking
圖 2 基于生源砌塊的分子網(wǎng)絡(luò)構(gòu)建流程圖Figure 2 A diagram for the building blocks-based molecular network construction
為避免重復(fù)分離得到已知化合物,在對(duì)復(fù)雜的天然提取物進(jìn)行分離純化前,快速指認(rèn)出提取物中所包含的已知化合物尤為重要,該過程通常被稱作去重[8,14-15]。2016年,Dorrestein教授和Bandeira教授共同建立了基于LC-MS/MS數(shù)據(jù)的全球天然產(chǎn)物交互分子網(wǎng)絡(luò)平臺(tái)(Global Natural Products Society molecular networking,GNPS)(http://gnps.ucsd.edu)[16],旨在為全世界天然產(chǎn)物化學(xué)家提供一個(gè)可共享使用的二級(jí)質(zhì)譜數(shù)據(jù)存儲(chǔ)及分析平臺(tái)。在數(shù)據(jù)存儲(chǔ)方面,GNPS平臺(tái)提供了開放性的免費(fèi)數(shù)據(jù)庫(kù)Mass Spectrometry Interactive Virtual Enviroment(MassIVE),可通過該數(shù)據(jù)庫(kù)查找化合物的原始MS/MS質(zhì)譜數(shù)據(jù),并進(jìn)行數(shù)據(jù)共享。該數(shù)據(jù)庫(kù)不僅囊 括 了FDA Library、PhytoChemical Library、NIH Clinical Collection、MassBank Spectral Library、HMDB Spectral Library、CASMI Spectral Library等第三方數(shù)據(jù)庫(kù)的化合物二級(jí)質(zhì)譜數(shù)據(jù)信息,還收錄了Dorrestein教授實(shí)驗(yàn)室及其合作實(shí)驗(yàn)室所采集的大量化合物二級(jí)質(zhì)譜數(shù)據(jù)。目前,MassIVE數(shù)據(jù)庫(kù)共收錄了大約2萬余個(gè)天然化合物的共計(jì)約23萬余張二級(jí)質(zhì)譜圖。除存儲(chǔ)收錄二級(jí)質(zhì)譜數(shù)據(jù)外,GNPS平臺(tái)還利用加州大學(xué)圣地亞哥分校的計(jì)算質(zhì)譜中心(Center for Computational Mass Spectrometry,CCMS),開發(fā)了一系列可處理二級(jí)質(zhì)譜數(shù)據(jù)的計(jì)算機(jī)算法和軟件,如Dereplicator+、VarQuest等[17-18]。利用這些算法和軟件,可將待分析物的二級(jí)質(zhì)譜數(shù)據(jù)與數(shù)據(jù)庫(kù)中的化合物質(zhì)譜數(shù)據(jù)進(jìn)行比對(duì),快速指認(rèn)出待分析物中所包含的已知化合物。
借助GNPS平臺(tái),國(guó)內(nèi)外研究人員已運(yùn)用分子網(wǎng)絡(luò)技術(shù)對(duì)微生物、海洋以及植物來源的天然產(chǎn)物成功開展了去重研究,在快速識(shí)別已知化合物的基礎(chǔ)上,發(fā)現(xiàn)了一系列結(jié)構(gòu)新穎的天然化合物。Yang等[19]運(yùn)用分子網(wǎng)絡(luò)技術(shù)對(duì)一系列海洋和陸地來源的微生物樣本進(jìn)行了研究,通過分別采集各樣品的LC-MS/MS圖譜,并運(yùn)用一些已知結(jié)構(gòu)的單體化合物作為“種子”,構(gòu)建了這些樣本的分子網(wǎng)絡(luò)圖。借助于“種子”化合物在網(wǎng)絡(luò)圖中的指示作用,作者快速地識(shí)別了12個(gè)已知化合物和46個(gè)結(jié)構(gòu)類似物,并最終實(shí)現(xiàn)了對(duì)上述樣本中化合物的針對(duì)性分離。Moore課題組[20]運(yùn)用分子網(wǎng)絡(luò)技術(shù)對(duì)146種鹽孢菌屬和鏈霉菌屬菌株在不同培養(yǎng)條件下的次生代謝產(chǎn)物進(jìn)行了快速檢測(cè),從603個(gè)樣品中獲得了近180萬張二級(jí)質(zhì)譜的譜圖。通過分析比對(duì)以上次生代謝產(chǎn)物的分子網(wǎng)絡(luò)圖譜,發(fā)現(xiàn)同一菌株在不同培養(yǎng)環(huán)境下的生物合成途徑較為多樣,其次生代謝產(chǎn)物有較大差異。基于以上發(fā)現(xiàn),高效、快速地確定了部分菌株的最優(yōu)培養(yǎng)條件,并從中獲得了一些結(jié)構(gòu)新穎的天然化合物。Fox Ramos等[21]在對(duì)夾竹桃科植物Geissopermum laeve的吲哚型生物堿類成分的研究過程中,運(yùn)用分子網(wǎng)絡(luò)技術(shù)對(duì)該植物的莖皮部位開展了進(jìn)一步的化學(xué)成分挖掘。通過一個(gè)自建的單萜吲哚生物堿二級(jí)質(zhì)譜數(shù)據(jù)庫(kù)(monoterpene indole alkaloid database,MIADB),作者對(duì)分子網(wǎng)絡(luò)圖中已知化合物的節(jié)點(diǎn)進(jìn)行了指認(rèn),并指導(dǎo)分離了3個(gè)新的單萜吲哚生物堿類化合物。此外,Zhu等[22]運(yùn)用分子網(wǎng)絡(luò)技術(shù)對(duì)植物致病真菌Epicoccum nigrum09116進(jìn)行了化學(xué)成分探索,成功分離獲得了8個(gè)新的二苯并螺縮酮類化合物。有趣的是,該研究除利用分子網(wǎng)絡(luò)技術(shù)進(jìn)行去重研究外,還利用此技術(shù)成功鑒別出了上述新化合物的生物合成中間體。
運(yùn)用基于生源砌塊的分子網(wǎng)絡(luò)策略,筆者課題組對(duì)大戟科白飯樹屬藥用植物一葉萩(Flueggea suffurtiocsa)的總生物堿部位進(jìn)行了深入挖掘[13]。首先,通過搜索總生物堿部位中所包含的特征生源砌塊的離子碎片,即質(zhì)荷比為84.08的子離子碎片和(或)質(zhì)荷比為134.06的中性丟失碎片,二者分別對(duì)應(yīng)為一葉萩型生物堿骨架中的哌啶環(huán)和苯并呋喃酮結(jié)構(gòu)單元,可從一葉萩總生物堿部位的LC-MS/MS譜圖中快速識(shí)別含有一葉萩型生物堿生物合成砌塊的離子峰。隨后,結(jié)合化學(xué)信息學(xué)手段和分子網(wǎng)絡(luò)技術(shù),成功構(gòu)建了一葉萩總生物堿部位的基于生源砌塊的分子網(wǎng)絡(luò)圖。借助于該網(wǎng)絡(luò)圖,從一葉萩總生物堿部位中快速識(shí)別并分離鑒定了3個(gè)目標(biāo)化合物。其中,化合物suffranidine A具有一個(gè)十分罕見的8/5/6/5/6/6/6/6八環(huán)骨架,并包含一個(gè)獨(dú)特的籠狀氮雜雙環(huán)[6.4.0.03,11]十二烷結(jié)構(gòu)單元。化合物suffranidines B和C是2個(gè)高度官能團(tuán)化的一葉萩型生物堿二聚體,二者分別在一葉萩堿基本母核結(jié)構(gòu)基礎(chǔ)上插入了一個(gè)額外的C6單元,構(gòu)建成了2類全新骨架的一葉萩型生物堿。
在天然產(chǎn)物研究中,除發(fā)現(xiàn)結(jié)構(gòu)新穎的化合物之外,如何快速尋找具有生物活性的化合物是天然產(chǎn)物化學(xué)家所關(guān)注的另外一個(gè)十分重要的問題[23-28]。從前期的研究經(jīng)驗(yàn)來看,獲得天然生物活性化合物的途徑通常有以下2條。1)以結(jié)構(gòu)為導(dǎo)向的分離策略。通過對(duì)復(fù)雜提取物進(jìn)行系統(tǒng)的化學(xué)成分研究,從中分離獲得單體化合物,再對(duì)所獲得的化合物進(jìn)行系統(tǒng)的生物活性評(píng)價(jià),從而發(fā)現(xiàn)具有生物活性的化合物。2)以活性為導(dǎo)向的追蹤分離策略。首先對(duì)粗提物進(jìn)行活性評(píng)價(jià),再針對(duì)活性部位或餾分開展進(jìn)一步分離,然后評(píng)價(jià)各次級(jí)餾分的生物活性,依次反復(fù),直到獲得活性化合物。雖然以上方法均有成功獲得藥物分子的案例,如紫杉醇、長(zhǎng)春堿、青蒿素的發(fā)現(xiàn),但是由于該過程需要耗費(fèi)巨大的時(shí)間及人力、物力成本,無法與現(xiàn)代高通量篩選技術(shù)相兼容,已逐漸被制藥企業(yè)和研究機(jī)構(gòu)所棄用。另外,在近年來的研究中,通過活性追蹤方法所分離獲得的天然產(chǎn)物大多為已知化合物[29],并經(jīng)常發(fā)生活性“消失”的情況,造成研究往往以失敗告終。因此,運(yùn)用傳統(tǒng)的方法高效獲取結(jié)構(gòu)新穎的活性天然產(chǎn)物依然面臨巨大的挑戰(zhàn)。
隨著現(xiàn)代質(zhì)譜技術(shù)及生物信息學(xué)的快速發(fā)展,運(yùn)用基于LC-MS/MS的分子網(wǎng)絡(luò)技術(shù)指導(dǎo)發(fā)現(xiàn)活性天然產(chǎn)物已成為可能[30]。例如,Naman等[31]運(yùn)用分子網(wǎng)絡(luò)技術(shù)對(duì)藍(lán)藻細(xì)菌Symplocasp.的細(xì)胞毒活性成分進(jìn)行了研究。在此之前,研究人員已從該細(xì)菌中分離鑒定了多個(gè)具有顯著體外細(xì)胞毒活性的化合物。為了從該細(xì)菌中獲得其他結(jié)構(gòu)新穎的活性化合物,作者采集了不同地域的藍(lán)藻細(xì)菌樣品并培養(yǎng)富集其次級(jí)代謝產(chǎn)物,經(jīng)初步分離,分別測(cè)試各餾分的二級(jí)質(zhì)譜數(shù)據(jù)及體外細(xì)胞毒活性,最終將生物活性結(jié)果整合到分子網(wǎng)絡(luò)圖中。在這個(gè)帶有生物活性標(biāo)簽的分子網(wǎng)絡(luò)圖指導(dǎo)下,作者首先從眾多樣本中識(shí)別細(xì)胞毒活性較強(qiáng)的餾分,隨后從中排除已報(bào)道具有生物活性的已知化合物,最終成功獲得了一個(gè)新的環(huán)狀八肽化合物。體外細(xì)胞毒活性測(cè)試結(jié)果顯示,該化合物具有較強(qiáng)的抗大細(xì)胞肺癌細(xì)胞株H460活性,其IC50值為1.1 μmol · L-1。該方法雖然可有效避免重復(fù)分離已知的活性化合物,但仍然需要對(duì)各次餾分進(jìn)行反復(fù)的活性測(cè)試,故研究周期相對(duì)較長(zhǎng)。
2018年,Nothias等[32]首次提出了基于生物活性的分子網(wǎng)絡(luò)(bioactivity-based molecular network)策略,并運(yùn)用該策略從大戟科植物Euphorbia dendroides的提取物中靶向獲得了2個(gè)新的具顯著抗基孔肯雅病毒(CHIKV)活性的二萜類化合物?;谏锘钚缘姆肿泳W(wǎng)絡(luò)策略主要包括以下3個(gè)步驟:1)采集待分析物各餾分的LC-MS/MS數(shù)據(jù),運(yùn)用MZmine、OpenMS等質(zhì)譜數(shù)據(jù)處理軟件提取譜圖中的母離子峰及碎片峰信號(hào),并對(duì)各母離子峰進(jìn)行相對(duì)定量分析;2)測(cè)試各餾分的生物活性,根據(jù)樣品質(zhì)譜數(shù)據(jù)中母離子峰強(qiáng)度和所測(cè)得的樣品活性數(shù)據(jù)結(jié)果,運(yùn)用Pearson相關(guān)性分析計(jì)算各母離子峰的生物活性分值;3)將活性預(yù)測(cè)分值整合到質(zhì)譜數(shù)據(jù)中,并運(yùn)用GNPS平臺(tái)生成基于生物活性的分子網(wǎng)絡(luò)圖。與Naman等[31]的方法相比,基于生物活性的分子網(wǎng)絡(luò)策略不需要通過反復(fù)的分離和活性測(cè)試,便可從復(fù)雜的天然產(chǎn)物提取物中快速識(shí)別出具有生物活性的化合物,顯示出了較強(qiáng)的靶向性。
目前,NMR技術(shù)是天然產(chǎn)物結(jié)構(gòu)表征最常用、最可靠的方法之一,它提供了測(cè)試分子在原子層面的信息,在未知化合物結(jié)構(gòu)鑒定方面具有十分重要的地位[33]。與LC-MS/MS相比較,NMR技術(shù)的靈敏度低、測(cè)試時(shí)間長(zhǎng),但同時(shí)NMR也具有LCMS/MS技術(shù)所無法比擬的優(yōu)點(diǎn),如測(cè)試時(shí)不破壞樣品、數(shù)據(jù)重現(xiàn)性高、可對(duì)難離子化的樣品進(jìn)行測(cè)試、可區(qū)分同分異構(gòu)體等。除此之外,通過NMR技術(shù)所獲取的樣品結(jié)構(gòu)信息較MS更為豐富,可對(duì)復(fù)雜樣品中所包含化合物的結(jié)構(gòu)進(jìn)行準(zhǔn)確鑒定[34]。近年來,隨著商業(yè)化NMR儀器磁場(chǎng)強(qiáng)度的逐漸提高,以及超低溫探頭的普遍使用,NMR儀器的分辨率和靈敏度均得到了極大提升,可對(duì)微克級(jí)別的樣品進(jìn)行測(cè)試,并同時(shí)大大縮短測(cè)試時(shí)間[35]。另外,二維NMR技術(shù)(2D NMR)克服了一維NMR(1D NMR)譜圖信號(hào)重疊嚴(yán)重的問題,更適用于復(fù)雜天然產(chǎn)物的結(jié)構(gòu)分析[36]。最近,研究人員開發(fā)了一系列功能強(qiáng)大的2D NMR脈沖序列(如diffusion-ordered spectroscopy,DOSY)、非均一采樣技術(shù)(nonuniform sampling,NUS)、協(xié)方差核磁共振技術(shù)(covariance NMR)等[37-42],進(jìn)一步提高了儀器的分辨率,并縮短了測(cè)試時(shí)間,使NMR技術(shù)可更加廣泛地應(yīng)用于復(fù)雜和微量成分的研究中。
在天然產(chǎn)物研究領(lǐng)域,研究人員開發(fā)了多種譜圖比對(duì)算法,利用NMR譜圖(尤其是2D NMR譜圖)進(jìn)行去重研究[43-44]。然而,由于樣品濃度、雜質(zhì)峰信號(hào)、溶劑效應(yīng)、官能團(tuán)之間的相互作用等對(duì)化學(xué)位移值的影響,上述算法對(duì)復(fù)雜的NMR譜圖信號(hào)的識(shí)別效率和準(zhǔn)確性較差,限制了它們?cè)谔烊划a(chǎn)物去重研究中的推廣和應(yīng)用。為克服上述不足,深度學(xué)習(xí)(deep learning)等人工智能技術(shù)(artificial intelligence,AI)逐漸被應(yīng)用到復(fù)雜2D NMR圖譜的精確識(shí)別中。相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)不需要研究人員的任何設(shè)計(jì)和參與,在訓(xùn)練過程中即可創(chuàng)建最合適的特征集,尤其適合龐大且未知的數(shù)據(jù)集[45-46]。
2017年,Zhang等[47]運(yùn)用非均一采樣技術(shù)(non-uniform sampling,NUS)和卷積神經(jīng)網(wǎng)絡(luò)技術(shù)(convolutional neural network,CNN),開 發(fā) 了基于異核單量子相關(guān)譜(heteronuclear single quantum coherence,HSQC)的天然產(chǎn)物高效發(fā)現(xiàn)新策略,并將其命名為小分子精確識(shí)別技術(shù)(small molecule accurate recognition technology,SMART)。該技術(shù)利用siamese神經(jīng)網(wǎng)絡(luò)架構(gòu)對(duì)一個(gè)包含了2 054張?zhí)烊划a(chǎn)物HSQC譜圖的數(shù)據(jù)集進(jìn)行深度卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練[48],構(gòu)建了一個(gè)可區(qū)分譜圖相似度的節(jié)點(diǎn)空間。在這個(gè)節(jié)點(diǎn)空間中,結(jié)構(gòu)相似的化合物在空間上相近,而結(jié)構(gòu)相差較大的化合物在空間上則相離較遠(yuǎn)。隨后,通過一個(gè)非均一采樣序列,快速采集待分析物的HSQC圖譜,并提交至上述訓(xùn)練后的深度卷積神經(jīng)網(wǎng)絡(luò)。在接下來的數(shù)據(jù)分析中,可根據(jù)待分析物的HSQC譜圖信號(hào)在節(jié)點(diǎn)空間中的分布來實(shí)現(xiàn)對(duì)復(fù)雜提取物中所含有的已知化合物和新化合物的快速區(qū)分(見圖3)。
為進(jìn)一步提高SMART技術(shù)識(shí)別天然產(chǎn)物HSQC譜圖的準(zhǔn)確性,Reher等[49]運(yùn)用JEOL數(shù)據(jù)庫(kù)(https://www.j-resonance.com/en/nmrdb)中25 434張?zhí)烊划a(chǎn)物的HSQC譜圖以及利用ACD/Labs軟件所預(yù)測(cè)的27 642張?zhí)烊划a(chǎn)物的HSQC譜圖進(jìn)行了卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),將SMART技術(shù)升級(jí)到2.0版本。相比于之前的版本,SMART 2.0使用了更多的天然化合物的HSQC譜圖作為訓(xùn)練集,這些化合物大約占目前已知天然產(chǎn)物的15%。因此,通過增加訓(xùn)練集的數(shù)目極大地提升了SMART技術(shù)在識(shí)別不同結(jié)構(gòu)類型天然產(chǎn)物HSQC譜圖方面的能力。為驗(yàn)證該技術(shù)的適用性,作者隨后運(yùn)用該工具對(duì)藍(lán)藻細(xì)菌Symplocasp.的提取物進(jìn)行了分析。首先,作者使用1.7 mm TCI微量核磁管溶解了1 mg的餾分樣品,運(yùn)用NUS-ASAP-HSQC序列快速測(cè)試了該樣品的HSQC譜圖(600 MHz,13 min)。隨后,運(yùn)用SMART 2.0對(duì)該譜圖進(jìn)行分析,并結(jié)合質(zhì)譜靶向分離技術(shù),從中快速識(shí)別并獲得了一個(gè)結(jié)構(gòu)新穎的大環(huán)內(nèi)酯類化合物symplocolide A。
除SMART技術(shù)外,近期還有學(xué)者基于HSQC譜開發(fā)了metabolomics and dereplication by twodimensional experiments(MADByTE)和atomic novelty scoring技術(shù)[50-51]。前者可通過HSQC及TOCSY譜圖信息獲得復(fù)雜混合物的自旋耦合體系特征,并通過構(gòu)建相關(guān)的網(wǎng)絡(luò)圖實(shí)現(xiàn)對(duì)混合物中的共有質(zhì)子自旋耦合體系的識(shí)別,從而實(shí)現(xiàn)去重。后者則 根 據(jù)human metabolome database(HMDB)和BioMagResBank庫(kù)中的HSQC數(shù)據(jù)列出10 308個(gè)信號(hào)峰,隨后通過計(jì)算待分析物中各核磁信號(hào)峰與庫(kù)中相鄰最近的信號(hào)峰的距離,并進(jìn)行打分,便可從復(fù)雜混合物體系中快速識(shí)別與庫(kù)中化合物結(jié)構(gòu)差異較大的新穎結(jié)構(gòu)化合物。
圖 3 小分子精確識(shí)別技術(shù)工作流程示意圖Figure 3 Workflow for the small molecule accurate recognition technology
與基于MS技術(shù)的活性成分靶向分離策略類似,利用NMR技術(shù)定向地尋找活性成分也是天然生物活性化合物發(fā)現(xiàn)研究的重要方向之一,但目前在該領(lǐng)域的研究報(bào)道相對(duì)較少。迄今,僅有學(xué)者基于統(tǒng)計(jì)泛多樣性分析(statistical heterocovariance analysis,HetCA)方法,將小分子化合物的NMR數(shù)據(jù)與生物學(xué)功能相關(guān)聯(lián)。其中,ELINA是Eliciting Nature's Activities的簡(jiǎn)稱,是由Grienke等[52]基于1H NMR譜的HetCA統(tǒng)計(jì)分析所開發(fā)的一種活性化合物追蹤分離策略。在該策略中,根據(jù)提取物或餾分活性測(cè)試的結(jié)果,對(duì)其1H NMR譜信號(hào)中的特征峰進(jìn)行正面(hot)或負(fù)面(cold)評(píng)分,從而可在未分離前判斷活性化合物可能含有的特征信號(hào)峰。運(yùn)用該策略,作者從多孔真菌Fomitopsis pinicola的復(fù)雜提取物中發(fā)現(xiàn)了具有甾醇硫脂酶抑制活性的羊毛甾烷三萜類化合物。此外,Delsuc課題組[53]開發(fā)了一種名為Plasmodesma的計(jì)算機(jī)程序(https://plasmodesma.igbmc.science),可將復(fù)雜天然產(chǎn)物提取物的1D和2D NMR譜圖數(shù)據(jù)進(jìn)行自動(dòng)化處理,進(jìn)而可從中提取出活性相關(guān)成分的NMR指紋圖譜,從而實(shí)現(xiàn)對(duì)藥效團(tuán)結(jié)構(gòu)進(jìn)行快速排查。
近年來,受益于各種現(xiàn)代技術(shù)的迅猛發(fā)展,天然生物活性分子的發(fā)現(xiàn)研究涌現(xiàn)出了一大批基于LC-MS/MS和NMR技術(shù),并集成生物信息學(xué)、代謝組學(xué)、計(jì)算機(jī)科學(xué)等多學(xué)科技術(shù)手段的新策略和新方法。通過綜合運(yùn)用這些新策略和新方法,天然藥物化學(xué)家已開展了諸多創(chuàng)新性的研究工作,并取得了豐碩的研究成果。相比于傳統(tǒng)的提取-分離-純化-活性測(cè)試手段,這些新策略和新方法具有更強(qiáng)的靶向性,因而研究效率更高,更加符合現(xiàn)代藥物研發(fā)對(duì)快速篩選獲得先導(dǎo)化合物的需求。迄今為止,天然生物活性分子高效發(fā)現(xiàn)的新策略和新方法研究仍處于高速發(fā)展階段。隨著質(zhì)譜、NMR等分析技術(shù)的分辨率和靈敏度的進(jìn)一步提升,天然化合物質(zhì)譜及NMR譜圖數(shù)據(jù)庫(kù)的逐步擴(kuò)充、完善并實(shí)現(xiàn)資源共享,以及更加精準(zhǔn)的計(jì)算機(jī)算法和更加“聰明”的人工智能技術(shù)的不斷推出,這些新技術(shù)和新方法在天然產(chǎn)物研究中的應(yīng)用將會(huì)更加廣泛,并進(jìn)一步助力天然生物活性分子的高效發(fā)現(xiàn)。