艾連中,侯成杰
(上海理工大學(xué) 醫(yī)療器械與食品學(xué)院/上海食品微生物工程技術(shù)研究中心, 上海 200093)
隨著基因組測(cè)序技術(shù)的快速發(fā)展,基因組測(cè)序數(shù)據(jù)量成指數(shù)級(jí)增長(zhǎng),大量微生物的基因組序列被公布,人們可以從基因和分子水平對(duì)微生物的代謝機(jī)理進(jìn)行深入研究,極大地推動(dòng)了相關(guān)學(xué)科的發(fā)展。如何有效利用這些高通量數(shù)據(jù),獲得對(duì)生命行為機(jī)制的系統(tǒng)理解則成為“后基因組時(shí)代”的巨大挑戰(zhàn)[1]。生物系統(tǒng)的動(dòng)態(tài)行為是不同性質(zhì)的多個(gè)分子之間非線性相互作用的結(jié)果,而計(jì)算機(jī)模擬可以高效完成這一工作?;谀M的研究有助于理解生命系統(tǒng)復(fù)雜的底層結(jié)構(gòu),幫助研究人員對(duì)生命行為進(jìn)行預(yù)測(cè)。而基因組代謝網(wǎng)絡(luò)模型(genome-scale metabolic models,簡(jiǎn)稱GEMs或GSMM)正是基于這一需求而發(fā)展起來(lái)的。基因組代謝網(wǎng)絡(luò)模型是基于特定生物體的基因組序列,將所有與代謝相關(guān)的基因、酶、生化反應(yīng)和代謝物數(shù)據(jù)整合到一起的知識(shí)庫(kù),并將其轉(zhuǎn)化為數(shù)學(xué)模型,實(shí)現(xiàn)對(duì)目標(biāo)生物體代謝表型的預(yù)測(cè),系統(tǒng)表征基因與表型之間的關(guān)系[2]。
基因組代謝網(wǎng)絡(luò)模型有效地模擬了基因組信息和代謝表型之間的關(guān)系,為代謝有關(guān)的實(shí)驗(yàn)數(shù)據(jù)提供了堅(jiān)實(shí)的解釋框架,并使全細(xì)胞代謝的模擬實(shí)驗(yàn)變得簡(jiǎn)單。自1999年世界上第一個(gè)基因組代謝網(wǎng)絡(luò)模型流感嗜血桿菌模型被構(gòu)建以來(lái)[3],截至2019年已有超過(guò)6 000個(gè)GEMs被構(gòu)建[4],并被廣泛應(yīng)用于系統(tǒng)生物學(xué)[5]、代謝工程[6]、藥物開(kāi)發(fā)[7-8]、酶功能預(yù)測(cè)[9]及微生物群落的相互作用[10]等多個(gè)領(lǐng)域。乳酸菌作為一類重要的工業(yè)菌,廣泛應(yīng)用于發(fā)酵食品工業(yè),特別是乳制品工業(yè),部分乳酸菌因具有益生功能還被應(yīng)用于醫(yī)學(xué)健康領(lǐng)域。為了更深入地對(duì)乳酸菌開(kāi)展功能機(jī)制及代謝相關(guān)研究,國(guó)內(nèi)外研究人員已構(gòu)建了多個(gè)乳酸菌的GEMs。這些乳酸菌GEMs的構(gòu)建使人們可以探索乳酸菌在不同環(huán)境中的代謝規(guī)律和代謝機(jī)理,為乳酸菌的研究和應(yīng)用提供了有價(jià)值的工具。
本文將系統(tǒng)回顧微生物基因組代謝網(wǎng)絡(luò)模型的構(gòu)建方法及發(fā)展,重點(diǎn)聚焦乳酸菌基因組代謝網(wǎng)絡(luò)模型的研究進(jìn)展,并對(duì)未來(lái)研究趨勢(shì)進(jìn)行了展望。
隨著基因測(cè)序技術(shù)和算法的發(fā)展,研究人員能夠基于特定微生物的基因組測(cè)序數(shù)據(jù)和注釋結(jié)果構(gòu)建GEMs。GEMs構(gòu)建的核心是建立基因- 酶- 代謝反應(yīng)(GPR)之間的關(guān)系。為了完成模型的構(gòu)建,研究人員需要回答以下問(wèn)題:酶的底物和產(chǎn)物是什么?是否有多個(gè)基因參與同一個(gè)酶的表達(dá)?每個(gè)代謝物的化學(xué)計(jì)量系數(shù)是多少?反應(yīng)是否可逆?反應(yīng)在細(xì)胞內(nèi)的定位(細(xì)胞質(zhì)或細(xì)胞周質(zhì))[11]?這些信息可以通過(guò)各種生化數(shù)據(jù)庫(kù)、文獻(xiàn)以及實(shí)驗(yàn)數(shù)據(jù)來(lái)確定。通過(guò)建立生化反應(yīng)組成的網(wǎng)絡(luò),就構(gòu)成了一個(gè)針對(duì)特定生物體的代謝網(wǎng)絡(luò)模型。構(gòu)建過(guò)程通常包含4個(gè)階段,見(jiàn)圖1。
基于基因組注釋構(gòu)建模型草圖。構(gòu)建基因組代謝網(wǎng)絡(luò)模型的起點(diǎn)是目標(biāo)生物的基因組注釋信息,這些數(shù)據(jù)可以通過(guò)測(cè)序得到,也可以在NCBI等公共數(shù)據(jù)庫(kù)下載?;蚪M注釋為構(gòu)建提供了唯一的標(biāo)識(shí),列出了被認(rèn)為可能存在于目標(biāo)生物中的酶,并指出這些基因產(chǎn)物如何相互作用(亞基、復(fù)合酶、同工酶)形成具有催化代謝反應(yīng)的活性酶[11]。代謝數(shù)據(jù)庫(kù)(如KEGG[12]、BRENDA[13]、SEED[14]、Transport DB[15])收集了一系列不同生物體中的代謝反應(yīng)和轉(zhuǎn)運(yùn)反應(yīng),為建立酶與代謝反應(yīng)的關(guān)系提供了重要的參考?;诨蚪M注釋和代謝反應(yīng)整理所建立的GPR關(guān)系就構(gòu)成了代謝模型的草圖。在構(gòu)建模型的過(guò)程中還需要注意,即使酶的EC號(hào)相同,不同生物體之間也會(huì)存在底物特異性和酶活性不同,因此,酶在目標(biāo)生物中催化的反應(yīng)可能不同于數(shù)據(jù)庫(kù)中的反應(yīng)。
代謝模型草圖的人工精煉。代謝模型草圖雖然提供了基于基因注釋的候選反應(yīng)合集,但還不能建立目標(biāo)生物體特有的特征。這些特征信息需要根據(jù)目標(biāo)生物體的文獻(xiàn)信息進(jìn)行人工校正。同時(shí),模型草圖中還包含了一些錯(cuò)誤反應(yīng)和代謝缺口(gap),因此必須通過(guò)人工精煉以修正錯(cuò)誤反應(yīng),填補(bǔ)缺失反應(yīng)。模型中所有反應(yīng)的化學(xué)計(jì)量學(xué)平衡、電荷平衡、元素平衡都需要進(jìn)行人工檢驗(yàn)。因此人工精煉是整個(gè)GEMs構(gòu)建過(guò)程中最耗時(shí)耗力的,甚至是煩瑣的步驟。代謝網(wǎng)絡(luò)模型的精煉通常需要數(shù)月到一年的時(shí)間才能完成,這既取決于目標(biāo)生物的基因組大小,也取決于目標(biāo)生物是否有足夠數(shù)量的生化數(shù)據(jù)[16]。文獻(xiàn)、教材、目標(biāo)生物特有的數(shù)據(jù)庫(kù)以及熟悉目標(biāo)生物的專家都是人工精煉步驟的重要信息來(lái)源。
一個(gè)高質(zhì)量的GEMs是通過(guò)基因組注釋和人工管理相結(jié)合的方式構(gòu)建的。這一過(guò)程將創(chuàng)建一個(gè)針對(duì)目標(biāo)生物的生化、基因組、遺傳學(xué)和表型的知識(shí)庫(kù)。而隨著新的基因注釋結(jié)果和新的實(shí)驗(yàn)數(shù)據(jù)的發(fā)表,目標(biāo)生物的代謝網(wǎng)絡(luò)模型應(yīng)以迭代的方式進(jìn)行更新[17]。
將代謝網(wǎng)絡(luò)模型轉(zhuǎn)換為數(shù)學(xué)模型。精煉后的代謝模型需要轉(zhuǎn)換為計(jì)算機(jī)可以識(shí)別的數(shù)學(xué)格式(S矩陣,如圖2),以便通過(guò)計(jì)算機(jī)對(duì)模型進(jìn)行模擬計(jì)算。在S矩陣中,行代表網(wǎng)絡(luò)代謝產(chǎn)物,列代表代謝反應(yīng)。反應(yīng)中的底物被定義為具有負(fù)系數(shù),而產(chǎn)物具有正系數(shù)[16]。
在進(jìn)行模型模擬計(jì)算前,需要定義模型的系統(tǒng)邊界,也就是對(duì)所有能被目標(biāo)生物消耗或分泌的代謝物,都需要在模型中加入交換反應(yīng)。交換反應(yīng)可以在模擬中用于定義環(huán)境條件(如碳源、氧氣等)。擬穩(wěn)態(tài)假設(shè)和基于約束的重構(gòu)分析(constraint-based reconstruction and analysis,COBRA)[18]是最廣泛應(yīng)用的模擬計(jì)算策略。對(duì)模型進(jìn)行優(yōu)化計(jì)算最常用的目標(biāo)函數(shù)是優(yōu)化生長(zhǎng)速率,即生物量函數(shù),由生長(zhǎng)所需的基本代謝產(chǎn)物組成。利用數(shù)學(xué)表達(dá)式和計(jì)算平臺(tái)生成生物質(zhì)目標(biāo)函數(shù)是驗(yàn)證代謝網(wǎng)絡(luò)模型最基本的功能。細(xì)胞生物質(zhì)組成數(shù)據(jù)可以通過(guò)實(shí)驗(yàn)獲得,也可以通過(guò)文獻(xiàn)或數(shù)據(jù)庫(kù)獲得。
流量平衡分析(flux balance analysis,F(xiàn)BA)是表征代謝網(wǎng)絡(luò)模型最常用的方法。FBA是一種分析代謝網(wǎng)絡(luò)中代謝物流動(dòng)的數(shù)學(xué)方法,通過(guò)計(jì)算代謝網(wǎng)絡(luò)的代謝物流量,從而可以預(yù)測(cè)生物體的生長(zhǎng)速度或重要代謝物的生成速率[19]。S矩陣和目標(biāo)函數(shù)定義了一個(gè)線性方程組,在給定的約束條件下可以求解得到一個(gè)解空間。FBA可以識(shí)別解空間中優(yōu)化目標(biāo)函數(shù)的單個(gè)最優(yōu)通量分布或多個(gè)最優(yōu)通量分布。目前,廣泛用于流量平衡分析的軟件是基于Matlab平臺(tái)的COBRA工具箱[20]和基于python平臺(tái)的COBRApy[21]。
模型的驗(yàn)證與評(píng)估。精煉后的模型是否能夠準(zhǔn)確預(yù)測(cè)微生物的生長(zhǎng)表型是需要進(jìn)行驗(yàn)證和評(píng)估的。驗(yàn)證和評(píng)估模型的方法有很多,最常用的方法是單一碳源驗(yàn)證、氨基酸缺失驗(yàn)證以及基于文獻(xiàn)的各種生理代謝參數(shù)驗(yàn)證[22]。例如:通過(guò)限制碳源、氨基酸、生長(zhǎng)因子的通量,我們可以預(yù)測(cè)菌株的營(yíng)養(yǎng)缺陷型;通過(guò)恒化培養(yǎng)實(shí)驗(yàn)與模擬生長(zhǎng)速率進(jìn)行擬合,可以推測(cè)出模型中存在的影響生物質(zhì)合成的代謝途徑[11,16]。將這些模擬計(jì)算的結(jié)果與“濕”實(shí)驗(yàn)數(shù)據(jù)進(jìn)行對(duì)比驗(yàn)證,可以幫助我們分析模型中的缺陷并改進(jìn)??傊?,代謝網(wǎng)絡(luò)模型的構(gòu)建是一個(gè)不斷迭代的過(guò)程,而如何確定模型構(gòu)建完成則取決于模型構(gòu)建的范圍和用途[16]。
為了確保構(gòu)建結(jié)果的準(zhǔn)確性和可用性,Palsson課題組于2010年發(fā)表了構(gòu)建代謝網(wǎng)絡(luò)模型的標(biāo)準(zhǔn)化操作程序,該程序共分為5個(gè)階段,包含了96個(gè)具體步驟[16]。該程序很好地規(guī)范了構(gòu)建GEMs的流程及GEMs的格式,使構(gòu)建GEMs具有了統(tǒng)一的標(biāo)準(zhǔn),方便國(guó)際間的交流與合作。
人工構(gòu)建基因組代謝網(wǎng)絡(luò)模型費(fèi)時(shí)費(fèi)力,因此多個(gè)研究團(tuán)隊(duì)還開(kāi)發(fā)了用于GEMs構(gòu)建的自動(dòng)化工具,如ModelSEED[23]、RAVEN[24]、Merlin[25]、CarveMe[26]、kbase[27]等。這些自動(dòng)化工具大大提高了構(gòu)建GEMs 的效率,有的工具只需要幾十個(gè)小時(shí)就可以構(gòu)建一個(gè)GEMs。利用自動(dòng)化工具構(gòu)建的GEMs普遍存在大量的錯(cuò)誤反應(yīng)、代謝缺口,甚至是基因注釋錯(cuò)誤,所以這些自動(dòng)構(gòu)建的GEMs通常只能作為代謝模型的草圖使用,還需要人工精煉才能成為高質(zhì)量的GEMs?,F(xiàn)有的自動(dòng)化構(gòu)建工具尚無(wú)法完全替代人工精煉的步驟,目前最常用的方法是自動(dòng)化構(gòu)建與人工精煉相結(jié)合的方式,即先通過(guò)自動(dòng)化工具構(gòu)建出目標(biāo)生物的代謝網(wǎng)絡(luò)模型草圖,再由人工對(duì)草圖進(jìn)行精煉和驗(yàn)證,最終得到一個(gè)高質(zhì)量的GEMs[28-29]。
基因組測(cè)序數(shù)據(jù)的指數(shù)級(jí)增長(zhǎng)加速了微生物GEMs的構(gòu)建,截至2019年2月,已有6 105個(gè)微生物基因組代謝網(wǎng)絡(luò)模型被構(gòu)建,其中細(xì)菌5 897個(gè),古細(xì)菌127個(gè),真核微生物81個(gè)[4]。這些快速增加的GEMs中大部分是由自動(dòng)化工具構(gòu)建的未人工精煉模型,雖然也被用于各種微生物的研究,但相較于經(jīng)過(guò)人工精煉的高質(zhì)量GEMs,它們的預(yù)測(cè)準(zhǔn)確度比較差。以大腸桿菌為代表的模式生物,因被科學(xué)家廣泛研究而積累了大量生理生化數(shù)據(jù),使得這些模式生物在構(gòu)建GEMs的過(guò)程中具有極大的優(yōu)勢(shì),產(chǎn)生了一系列高質(zhì)量的GEMs。以大腸桿菌為例,從2000年發(fā)布的第一個(gè)模型開(kāi)始到2017年發(fā)表的iML1515[30],已經(jīng)歷了至少6次迭代,模型的規(guī)模和準(zhǔn)確度都有了極大提升。這些模式菌株GEMs的構(gòu)建和發(fā)展使代謝網(wǎng)絡(luò)模型的應(yīng)用不斷擴(kuò)大,為目標(biāo)生物體的代謝研究提供了極好的知識(shí)庫(kù),同時(shí)也為其它微生物GEMs的構(gòu)建提供了良好的參考模板,推動(dòng)更多模型的出現(xiàn),也推動(dòng)了構(gòu)建方法的不斷升級(jí)。
第一個(gè)大腸桿菌(Escherichiacoli)基因組代謝網(wǎng)絡(luò)模型是基于大腸桿菌E.coliK-12 MG1655構(gòu)建的iJE660[31],該模型包含了660個(gè)基因,含有完整的氨基酸、核酸、細(xì)胞壁和輔因子合成代謝、脂肪酸代謝,能夠?qū)ιL(zhǎng)表型進(jìn)行預(yù)測(cè),基因缺失模擬的準(zhǔn)確度為86%。在后續(xù)的幾次迭代中,陸續(xù)添加了不同碳源代謝、醌的表征[32]、細(xì)胞周質(zhì)交換反應(yīng)、完善了元素平衡和電荷平衡,并填充了缺失反應(yīng)[33],不斷提高模型的準(zhǔn)確性,見(jiàn)圖3。最新的iML1515模型包含了1 515個(gè)基因,2 719個(gè)代謝反應(yīng)和1 192個(gè)代謝物,并加入了所有酶的三維結(jié)構(gòu)。iML1515對(duì)基因重要性的模擬準(zhǔn)確率達(dá)到了93.4%。此外,iML1515還可以從大量生物數(shù)據(jù)中提取最相關(guān)的信息快速生成新的子模型。例如:通過(guò)iML1515生成的子集iML976僅包含了1 000多個(gè)大腸桿菌菌株共有的代謝網(wǎng)絡(luò)信息,使人們可以更清楚的了解大腸桿菌的核心和輔助代謝能力,突出了識(shí)別藥物靶標(biāo)的潛力。將iML1515用于分析不同條件下的轉(zhuǎn)錄組數(shù)據(jù)為轉(zhuǎn)錄組變異分析提供了有價(jià)值的見(jiàn)解。由大腸桿菌GEMs的發(fā)展可以看出,隨著模型的不斷迭代,其覆蓋的基因和代謝反應(yīng)數(shù)量不斷增加,模型的應(yīng)用范圍也不斷擴(kuò)大。早期的GEMs主要用于計(jì)算微生物的生長(zhǎng)速率、副產(chǎn)物產(chǎn)量等基本表型,而最新的GEMs已經(jīng)可以用于各種應(yīng)激反應(yīng)分析、泛基因組分析、蛋白質(zhì)組功能分析等[30]。
圖3 大腸桿菌GEMs的迭代Fig.3 Iteration of E. coli GEMs
枯草芽孢桿菌(Bacillussubtilis)是革蘭陽(yáng)性菌中的代表性菌種,具有出色的生產(chǎn)異種蛋白的能力,被認(rèn)為是工業(yè)酶和生物制藥的“細(xì)胞工廠”[34]。目前已有多個(gè)枯草芽孢桿菌的GEMs被構(gòu)建,包括iYO844[35]、iBsu1103[36]、iBsu1103V2[37]、iBsu1147[38]、iBsu1144[39]以及天津大學(xué)研究團(tuán)隊(duì)構(gòu)建的iBsu1141[40]。最新版本的枯草芽孢桿菌GEMs是iBsu1144,該模型基于對(duì)枯草芽孢桿菌基因組重新注釋而建立。iBsu1144包含了1 144個(gè)基因、1 955個(gè)反應(yīng)和1 103個(gè)代謝物,通過(guò)熱力學(xué)分析重新修正了代謝反應(yīng)的方向性和可逆性。基于必需基因和非必需基因分析的準(zhǔn)確率分別達(dá)到91.6%和91.4%。該模型可用于枯草芽孢桿菌的代謝工程設(shè)計(jì),同時(shí)也為其他革蘭陽(yáng)性菌GEMs的構(gòu)建提供了參考模板。
釀酒酵母(Saccharomycescerevisiae)是第一個(gè)被構(gòu)建GEMs的真核微生物[41]。與原核微生物不同,真核微生物中存在多個(gè)細(xì)胞器,在構(gòu)建GEMs時(shí)需要考慮代謝反應(yīng)發(fā)生的區(qū)室并加入胞內(nèi)轉(zhuǎn)運(yùn)反應(yīng),因此真核微生物GEMs的構(gòu)建過(guò)程更加復(fù)雜。
釀酒酵母作為真核生物的模式生物而受到廣泛的關(guān)注和研究,從釀酒酵母的第一個(gè)GEMs[41]誕生以來(lái),已經(jīng)有多個(gè)研究團(tuán)隊(duì)發(fā)布了多個(gè)版本的釀酒酵母GEMs[42-44]。由于不同研究團(tuán)隊(duì)在注釋結(jié)果和術(shù)語(yǔ)等方面存在差異,使不同模型之間的比較和使用都變得困難,給釀酒酵母GEMs的應(yīng)用和升級(jí)帶來(lái)了極大困擾。為解決這一問(wèn)題,科學(xué)界通過(guò)國(guó)際合作建立了一個(gè)關(guān)于酵母的共識(shí)代謝網(wǎng)絡(luò)模型[45],這一共識(shí)模型采用統(tǒng)一的規(guī)范術(shù)語(yǔ)并由專人維護(hù)升級(jí)。最新發(fā)表的釀酒酵母代謝模型有效整合了RNA和蛋白質(zhì)合成數(shù)據(jù),得到了第一個(gè)添加了表達(dá)與熱力學(xué)通量(ETFL)的釀酒酵母代謝與表達(dá)模型(ME-models)。在預(yù)測(cè)最大生長(zhǎng)速率、必需基因和溢出代謝表型等方面表現(xiàn)出良好的能力[46]。
乳酸菌是一類能夠?qū)⑻妓衔镛D(zhuǎn)化為乳酸的細(xì)菌的統(tǒng)稱[47]。乳酸菌在發(fā)酵的過(guò)程中利用碳源產(chǎn)生乳酸使食品快速酸化,可以延長(zhǎng)食品的貨架期和保質(zhì)期,同時(shí)乳酸菌代謝產(chǎn)生的一些化合物還能夠賦予食品特殊的風(fēng)味和質(zhì)地[48]。近二十年來(lái),隨著微生物組技術(shù)、組學(xué)技術(shù)和生物信息學(xué)技術(shù)在乳酸菌領(lǐng)域的應(yīng)用,人們對(duì)乳酸菌的代謝有了深入的認(rèn)知,構(gòu)建乳酸菌的GEMs也有助于更深入的研究乳酸菌的代謝活動(dòng),指導(dǎo)乳酸菌的代謝工程改造。表1列出了已發(fā)表的乳酸菌GEMs[28-29,49-55]。
乳酸乳球菌(Lactococcuslactis)作為乳酸菌的模式菌株,是研究最廣泛的一種乳酸菌,其基因組也是乳酸菌中第一個(gè)被測(cè)序和注釋的[56]。第一個(gè)乳酸乳球菌GEMs是由Nielsen課題組于2005年構(gòu)建[49]。該模型是基于Lactococcuslactisssp.lactisIL1403的基因組注釋構(gòu)建的,包含358個(gè)基因、621個(gè)反應(yīng)和509個(gè)代謝物,其中476個(gè)代謝反應(yīng)與基因建立關(guān)聯(lián),其余145個(gè)代謝反應(yīng)是基于生理生化考慮而推測(cè)加入的。通過(guò)FBA和MOMA進(jìn)行代謝分析,證明該模型的很多預(yù)測(cè)結(jié)果和實(shí)驗(yàn)結(jié)果是吻合的。例如:在所有氨基酸都被提供的情況下,乳酸乳球菌更傾向于從頭合成丙氨酸、天冬氨酸、甘氨酸和苯丙氨酸。該模型作為一個(gè)有用的工具可用于測(cè)試或開(kāi)發(fā)新的代謝工程策略[49]。
另一個(gè)乳酸乳球菌GEMs是由荷蘭瓦赫寧根大學(xué)的研究團(tuán)隊(duì)基于Lactococcuslactisssp.cremorisMG1363構(gòu)建的,得益于十幾年來(lái)分子生物學(xué)和基因組學(xué)的快速發(fā)展,該模型涵蓋的基因數(shù)量明顯增加,包括518個(gè)基因、754個(gè)反應(yīng)和650個(gè)代謝物。通過(guò)FBA和FVA分析了整個(gè)代謝網(wǎng)絡(luò)中的通量分布情況以及與風(fēng)味物質(zhì)形成有關(guān)的通路,發(fā)現(xiàn)754個(gè)代謝反應(yīng)中有59個(gè)反應(yīng)直接或間接參與了風(fēng)味的形成。全面的模型驅(qū)動(dòng)分析顯示了乳酸乳球菌高度靈活的氮代謝,與氧化還原平衡相結(jié)合的支鏈氨基酸分解代謝是預(yù)測(cè)不同風(fēng)味化合物形成的關(guān)鍵。該模型為解析乳酸菌合成風(fēng)味物質(zhì)的代謝網(wǎng)絡(luò)提供了基礎(chǔ)工具[50]。
表1 已發(fā)表的乳酸菌GEMsTab.1 Published lactic acid bacteria GEMs
最新發(fā)表的乳酸乳球菌GEMs(iOA1084)是基于Lactococcuslactisssp.lactisNCDO 2118構(gòu)建的,該菌株具有高產(chǎn)γ-氨基丁酸(GABA)的能力。iOA1084涵蓋了62個(gè)代謝途徑、1 084個(gè)基因、965個(gè)代謝反應(yīng)和864個(gè)代謝物。研究者重點(diǎn)關(guān)注了通過(guò)模型預(yù)測(cè)提高菌株產(chǎn)GABA的能力,通過(guò)FBA分析正常和高谷氨酸攝取速率下GABA的產(chǎn)生,發(fā)現(xiàn)高谷氨酸可以增加GABA的生產(chǎn)速率[52]。
植物乳桿菌(Lactobacillusplantarum)是一種工業(yè)菌株,因其具有益生作用而受到廣泛關(guān)注。研究人員基于植物乳桿菌WCFS1構(gòu)建了一個(gè)包含721個(gè)基因、643個(gè)反應(yīng)和531個(gè)代謝物的GSMs,優(yōu)化了ATP的產(chǎn)生并確定了與自由能代謝無(wú)關(guān)的氨基酸分解代謝途徑。通過(guò)FVA分析補(bǔ)充了基本模型中的平行途徑,如產(chǎn)物相同但輔因子不同的途徑。FBA分析顯示模型過(guò)高估計(jì)了增加葡萄糖濃度產(chǎn)生的生物質(zhì)通量而低估了乳酸生成量,這可能是因?yàn)槟P图俣?xì)胞生成生物質(zhì)的效率最優(yōu),所以不能有效預(yù)測(cè)代謝效率較低的乳酸的生成[53]。
嗜熱鏈球菌(Streptococcusthermophilus)作為優(yōu)良發(fā)酵劑被廣泛用于乳制品工業(yè),基于嗜熱鏈球菌LMG18311的GEMs于2009年發(fā)布并與其他兩種乳酸菌(乳酸乳球菌和植物乳桿菌)的GEMs進(jìn)行了比較。相較于其它兩種乳酸菌,嗜熱鏈球菌顯示出較低的自養(yǎng)能力,這種低自養(yǎng)能力是由于嗜熱鏈球菌的進(jìn)化環(huán)境決定的。此外,風(fēng)味分析發(fā)現(xiàn)嗜熱鏈球菌氨基酸代謝通路產(chǎn)生了較多的揮發(fā)性化合物,這也是其賦予酸奶等發(fā)酵乳制品特殊風(fēng)味的原因[54]。
干酪乳桿菌(Lactobacilluscasei)被認(rèn)為是一種具有益生作用的乳酸菌,在乳制品、制藥及臨床醫(yī)學(xué)領(lǐng)域均有應(yīng)用。江南大學(xué)劉立明團(tuán)隊(duì)利用人工注釋和ModelSeed自動(dòng)建模結(jié)合的方式構(gòu)建了第一個(gè)干酪乳桿菌基因組代謝網(wǎng)絡(luò)模型iJL846,該模型由846個(gè)基因、969個(gè)代謝反應(yīng)和785個(gè)代謝產(chǎn)物組成。模型分析發(fā)現(xiàn)有10種氨基酸和7種維生素是干酪乳桿菌LC2W的必需營(yíng)養(yǎng)素;通量分析表明EMP途徑是產(chǎn)生乳酸的主要途徑,同時(shí)預(yù)測(cè)了混合酸發(fā)酵過(guò)程中氨基酸的通量。FBA分析表明揮發(fā)性風(fēng)味化合物的形成與氧環(huán)境有直接關(guān)系,并通過(guò)模擬基因缺失預(yù)測(cè)了三個(gè)可以改善3-羥基丁酮產(chǎn)量的新靶點(diǎn)[55]。
口腔鏈球菌(Streptococcusoralis)是一種存在于口腔中的乳酸菌,與口腔中其他細(xì)菌存在著復(fù)雜的互作關(guān)系,這些互作關(guān)系被認(rèn)為與人類的口腔健康有關(guān)。Palsson課題組基于口腔鏈球菌SK141的基因組序列,并結(jié)合近緣物種的實(shí)驗(yàn)數(shù)據(jù)構(gòu)建了首個(gè)口腔鏈球菌的GEMs(iCJ415)。利用近緣物種的基因必需性數(shù)據(jù)和氨基酸營(yíng)養(yǎng)缺陷數(shù)據(jù)驗(yàn)證該模型,其基因必需性的預(yù)測(cè)準(zhǔn)確率為71%~76%,氨基酸營(yíng)養(yǎng)缺陷預(yù)測(cè)準(zhǔn)確率為85%,碳源預(yù)測(cè)結(jié)果的準(zhǔn)確率為82%。說(shuō)明iCJ415可以較好地反映口腔鏈球菌的代謝特性,該模型可以作為探索同一物種不同菌株之間相互作用以及不同物種在人類口腔內(nèi)復(fù)雜代謝作用的起點(diǎn)[29]。
肺炎鏈球菌(Streptococcuspneumoniae)是一種革蘭氏陽(yáng)性菌,可以產(chǎn)生少量乳酸,因此也屬于乳酸菌[47]。但不同于大多數(shù)乳酸菌,肺炎鏈球菌是一種致病菌,可導(dǎo)致肺炎、中耳炎等疾病。為了更好地了解肺炎鏈球菌的代謝,研究人員利用自動(dòng)化構(gòu)建軟件Merlin構(gòu)建了肺炎鏈球菌的基因組代謝模型iDS372,該模型可以模擬肺炎鏈球菌在不同環(huán)境條件下的代謝行為,為新的藥物靶點(diǎn)提供了線索[28]。
雖然研究人員很早就開(kāi)始了乳酸菌GEMs的構(gòu)建,但相較于以大腸桿菌和釀酒酵母為代表的模式菌株,乳酸菌GEMs無(wú)論在數(shù)量還是質(zhì)量上都明顯落后。很多模型是十幾年前構(gòu)建的,模型中往往只包含了GPR關(guān)系等核心內(nèi)容,缺少代謝通路子系統(tǒng)分類,代謝物也沒(méi)有進(jìn)行統(tǒng)一術(shù)語(yǔ)規(guī)范,不利于其他研究人員對(duì)模型進(jìn)行應(yīng)用和升級(jí)。乳酸菌GEMs的研究還有很大的空間,同時(shí)也存在巨大的挑戰(zhàn)。未來(lái)乳酸菌GEMs的研究可以重點(diǎn)圍繞以下兩個(gè)方面開(kāi)展。
隨著基因組學(xué)、微生物組學(xué)的快速發(fā)展以及大量乳酸菌生理生化數(shù)據(jù)的更新,基因注釋的范圍及準(zhǔn)確性都有了明顯提高,而現(xiàn)有的乳酸菌GEMs構(gòu)建時(shí)間普遍較早,無(wú)論是基因注釋信息、數(shù)量以及代謝反應(yīng)的數(shù)量和質(zhì)量都需要進(jìn)行更新。隨著蛋白組、轉(zhuǎn)錄組、代謝組等組學(xué)技術(shù)的發(fā)展,整合代謝模型和蛋白質(zhì)合成途徑(包括轉(zhuǎn)錄、翻譯)的ME模型(代謝與大分子表達(dá)模型)應(yīng)運(yùn)而生。ME模型除了反應(yīng)代謝網(wǎng)絡(luò)外,還明確包含了構(gòu)成轉(zhuǎn)錄和翻譯的途徑,能夠模擬蛋白質(zhì)組的組成,因此,ME模型可以用于計(jì)算菌株生長(zhǎng)條件或新環(huán)境進(jìn)化適應(yīng)性的蛋白質(zhì)組分配,大大擴(kuò)展了模型的功能和應(yīng)用范圍。ME模型是代謝模型(M)和表達(dá)矩陣(E)的整合,表達(dá)矩陣中包含了已知的所有功能成分(蛋白質(zhì)、核苷酸等)和轉(zhuǎn)錄途徑,包括RNA和蛋白質(zhì)的合成、修飾和降解[17]。ME模型不僅可以預(yù)測(cè)細(xì)胞的最大生長(zhǎng)速率和相應(yīng)的代謝通量,還可以計(jì)算最優(yōu)的蛋白質(zhì)組分配和基因產(chǎn)物表達(dá)水平。通過(guò)ME模型可以實(shí)現(xiàn)組學(xué)數(shù)據(jù)的定量集成和表型模擬。目前已經(jīng)發(fā)表了多個(gè)大腸桿菌ME模型[9, 30],但是還沒(méi)有針對(duì)乳酸菌的ME模型。構(gòu)建乳酸菌ME模型可以為乳酸菌的代謝工程設(shè)計(jì)提供更有價(jià)值的策略。
隨著基因組測(cè)序數(shù)量的不斷增加,泛基因組的概念被提出。泛基因組是指某一物種全部基因的總和,由核心基因組(即一個(gè)物種內(nèi)所有菌株共有的基因)和輔助基因組(即只存在于某個(gè)菌株的基因)構(gòu)成[57]。泛基因組可用于不同菌株之間的基因比較分析,有助于對(duì)菌株代謝過(guò)程的所有機(jī)制進(jìn)行更深入的分析。通過(guò)對(duì)炎癥性腸病患者臨床分離得到的大腸桿菌進(jìn)行泛基因組分析發(fā)現(xiàn),患者體內(nèi)分離到的特定大腸桿菌菌株能通過(guò)特殊代謝途徑參與黏液多糖代謝,有助于該菌株在腸道內(nèi)的定植[58]。乳酸菌在腸道中的定植能力與其功能作用有著密切的關(guān)系,大腸桿菌的泛基因組分析為乳酸菌在腸道內(nèi)的定植研究提供了新思路。目前已構(gòu)建的泛基因組代謝網(wǎng)絡(luò)模型主要集中于大腸桿菌、沙門(mén)氏菌[59]、金黃色葡萄球菌[60]等致病菌。而乳酸菌中包含數(shù)量眾多的益生菌,其在維持人體腸道健康等方面具有重要的作用,建立乳酸菌泛基因組模型將有助于我們解析這些菌株的特異性,研究其在人體腸道定植以及與其他腸道微生物互作的機(jī)理。