蘇紹玉,盧芷琳,史智凌,葉秀云* ,鄢仁祥*
(1.福建省科學(xué)技術(shù)信息研究所 福州 350003; 2.福建省海洋酶工程重點(diǎn)實(shí)驗(yàn)室,福州 350116; 3.福州大學(xué) 生物科學(xué)與工程學(xué)院,福州 350100)
蛋白質(zhì)是細(xì)胞生命活動的主要承擔(dān)者之一,是生物生長發(fā)育、遺傳繁殖以及行使生物學(xué)功能的主要物質(zhì)基礎(chǔ)[1]。蛋白質(zhì)酶是一種重要的生物分子,在科學(xué)研究以及工業(yè)應(yīng)用中都扮演著重要的角色[2]。近十幾年來,隨著蛋白質(zhì)和酶序列數(shù)據(jù)的大規(guī)??焖僭鲩L,其功能分析以也從傳統(tǒng)分子生物學(xué)實(shí)驗(yàn)轉(zhuǎn)向?qū)嶒?yàn)結(jié)合計算機(jī)技術(shù)協(xié)同進(jìn)行的路徑,以此來結(jié)合實(shí)驗(yàn)和計算模擬的雙重優(yōu)勢,以期更好地探索酶以及其他生物分子相應(yīng)的生物分子機(jī)制[3]。隨著蛋白質(zhì)和酶功能預(yù)測方法的研究得到廣泛關(guān)注,相應(yīng)的計算和分析方法在生物信息學(xué)領(lǐng)域持續(xù)不斷發(fā)展和應(yīng)用。例如,基于三維空間結(jié)構(gòu)和功能的基礎(chǔ)知識對酶分子進(jìn)行設(shè)計和改造也是近幾年的研究熱點(diǎn)之一[4]。酶分子的設(shè)計有兩個重要的研究方向:提高酶的親和力以及穩(wěn)定性。酶的親和力一般是指酶和底物的結(jié)合能力,也就是酶的催化活力。酶的穩(wěn)定性包括熱穩(wěn)定性、以及耐酸耐堿性等。在一些經(jīng)典的酶分子設(shè)計案例中,新突變體可以同時優(yōu)化酶的活力和穩(wěn)定性。在我們課題組的前期工作中,分別在兩個實(shí)例中對特定的酶進(jìn)行改造,提高了酶的催化活力[5],以及提高了酶的熱穩(wěn)定性[6]。
酶與蛋白質(zhì)的三維空間結(jié)構(gòu)是分析其功能的重要信息之一。通常來說,酶和蛋白質(zhì)的三維結(jié)構(gòu)在很大程度上決定了其生物學(xué)功能。在PDB結(jié)構(gòu)數(shù)據(jù)庫[7]中,不少酶分子含有兩條或多條多肽鏈,每一條多肽鏈通常都有完整的三級結(jié)構(gòu),稱為酶結(jié)構(gòu)的亞基 (Subunit)。亞基之間的結(jié)合力主要是疏水作用,其次是氫鍵和離子鍵等作用力。酶分子中各亞基的空間排布及亞基接觸部位的布局和相互作用稱為酶的四級結(jié)構(gòu)。酶功能的分析和其四級結(jié)構(gòu)有著緊密聯(lián)系。在結(jié)構(gòu)生物學(xué)界,通常使用X射線衍射法、核磁共振以及電鏡等實(shí)驗(yàn)手段來解析其結(jié)構(gòu)以及測定相應(yīng)功能,但結(jié)構(gòu)生物學(xué)的實(shí)驗(yàn)成本太高以及耗時太長,進(jìn)而難以開發(fā)出高通量的結(jié)構(gòu)與功能的實(shí)驗(yàn)測定方法。從總體上看,酶功能分析從上個世紀(jì)以來一直是生物信息學(xué)家們面臨的巨大科學(xué)挑戰(zhàn)之一,科學(xué)家們付出了巨大努力進(jìn)行探索,進(jìn)展十分迅速但是仍然存在不少科學(xué)問題亟待解決。
簡而言之,數(shù)以萬種的物種已實(shí)現(xiàn)順利測序,而相應(yīng)的蛋白質(zhì)和酶序列卻沒有得到高質(zhì)量的功能注釋,若直接投入濕實(shí)驗(yàn)分析需要投入大量的人力、經(jīng)費(fèi)及時間等資源[8]。因此,正逢高性能計算技術(shù)的飛速發(fā)展,學(xué)術(shù)界與工業(yè)界皆希望借助計算機(jī)與模擬技術(shù)來實(shí)現(xiàn)蛋白質(zhì)以及酶的結(jié)構(gòu)與功能自動分析與預(yù)測,以取代繁瑣的手工預(yù)測或者成為現(xiàn)有人工注釋的互補(bǔ)性方法。這已成為新興的生物信息學(xué)科的重要研究方向之一??茖W(xué)家們正在使用序列搜索、結(jié)構(gòu)匹配和機(jī)器學(xué)習(xí)等尖端技術(shù),通過結(jié)構(gòu)已知的蛋白質(zhì)和未知蛋白質(zhì)的對比分析等方法來預(yù)測和分析未知酶和蛋白質(zhì)的結(jié)構(gòu)以及功能特點(diǎn),從而一定程度上解決酶功能分析的難題?;诖?,本文對酶功能分析與預(yù)測方法進(jìn)行系統(tǒng)性總結(jié)。
隨著國際上對蛋白質(zhì)和酶功能的持續(xù)關(guān)注,國際蛋白質(zhì)功能預(yù)測競賽(Critical Assessment of Function Annotation,CAFA)應(yīng)運(yùn)而生。CAFA的競賽網(wǎng)站為https://www.biofunctionprediction.org/cafa/。CAFA競賽的目標(biāo)是大批量地測試現(xiàn)有計算方法預(yù)測功能的性能,主要是系統(tǒng)性地測試不同算法預(yù)測GO(Gene Ontology)詞條的能力。GO詞條預(yù)測一般包括分子功能、細(xì)胞過程以及細(xì)胞組分等預(yù)測和評價。另外,CAFA競賽也系統(tǒng)性測試不同方法對結(jié)合位點(diǎn)(Binding site)的預(yù)測性能。CAFA競賽設(shè)計原則為對不同方法非偏向性(Unbiased)的評價。這個競賽內(nèi)容包括兩個類型:1)真核生物類型的預(yù)測;2)原核生物類型的預(yù)測。不同的類型都提供一定的測試樣本,參與者在規(guī)定時間內(nèi)對樣本進(jìn)行預(yù)測并得到結(jié)果反饋給組織者,組織者將根據(jù)一定的指標(biāo)對結(jié)果進(jìn)行評價。CAFA競賽中對蛋白質(zhì)功能分析的方法可以歸為以下幾類[9]:
這種方法的理論基礎(chǔ)是同源蛋白質(zhì)以及酶通常具有相似的功能。由大量分子生物學(xué)研究可知,序列相似的蛋白以及酶具有較高的同源性具有類似的生物學(xué)功能。
一般而言,可以使用BLAST[10]和CLUSTAL[11]等比對工具找尋潛在的同源序列,從而進(jìn)行蛋白質(zhì)或者酶同源性的比對及識別。其主要方法是通過上述序列對比工具尋找與未知功能的蛋白質(zhì)或酶相近的序列,從而把已知酶(或者蛋白質(zhì))序列的功能映射到未知功能的酶序列上,這樣完成基于序列比對的功能信息注釋。
但需要注意的是,緊密相關(guān)的酶并非總是具有相同的功能,例如旁系同源酶可以進(jìn)化出差距較大的功能,故而同源性方法雖然簡單但需要有較多的專家或者背景知識介入。一般而言,這種方法比較適用于與功能已知的酶有較高同源性的新酶的功能預(yù)測,在序列保守區(qū)穩(wěn)定的酶功能分析中也可以使用這個方法。并隨著序列之間相似性的降低,依靠序列相似性建立起來模型的誤差可能將增加?,F(xiàn)如今,還沒有明確的序列相似性閾值可用于界定酶功能的相似性。
在圖1中,列出了對三條漆酶(Laccase)包括1KYA、3PXL以及3X1B序列的多序列比對結(jié)果。這里的多序列比對由CLUSTAL軟件產(chǎn)生,并通過Bioedit[12]軟件編輯。文獻(xiàn)中報道漆酶中有10個組氨酸(His)會與4個銅原子進(jìn)行相互作用[13],因此漆酶中一般有10個組氨酸為保守氨基酸。在這個例子中,我們通過多序列比對結(jié)果分析,找出了與銅離子相互作用的10個組氨酸(圖1中紅色三角形標(biāo)注位置)。從圖中可以看出,三條漆酶的序列是不太相似的,但是10個保守的組氨酸功能位點(diǎn)恰好比對上。通過本例進(jìn)一步論證了可以通過序列比對尋找酶中的保守和關(guān)鍵區(qū)域。在這個多序列比對中,雖然其他位置也有共同的組氨酸比對上,但是其他位置的組氨酸并非是銅離子相互作用的組氨酸。通過序列尋找同源序列以及分析功能目前已經(jīng)是學(xué)術(shù)界通用的一種方法。
圖1 3個漆酶序列的多序列比對Fig.1 Multiple sequence alignment of sequences of three laccases
基序有時也稱為模體,一般是指蛋白質(zhì)結(jié)構(gòu)域(Domain)中表示特定氨基酸序列的亞單元,是與特定的功能相關(guān)的多肽短片段,并體現(xiàn)結(jié)構(gòu)域的多種生物學(xué)作用。序列基序是生物序列中具有一定生物學(xué)功能的短片段,具有生物學(xué)意義的多重序列中出現(xiàn)的子序列。序列基序可以是完全不變的,也可以是部分非保守區(qū)域可變的。編程中的正則表達(dá)式與生物序列中的基序有類似的概念,不少數(shù)據(jù)庫(例如Prosite[14])采用正則表達(dá)式進(jìn)行基序表示。
基序可以用來預(yù)測蛋白質(zhì)在細(xì)胞中合成后被送到哪里,即蛋白質(zhì)的亞細(xì)胞定位??偟膩碚f,基于基序的酶功能預(yù)測分析方法可以歸為一種序列局部特征分析的方法。序列局部特征分析方法又稱為從頭預(yù)測方法,該方法不依賴于蛋白質(zhì)序列的全局比對,而是通過統(tǒng)計一組已知的具有相同功能的蛋白質(zhì)序列的組成及生化特性等局部特征并建立分類模型,將具有相近或相似特征的序列看作同源序列再劃為同一類,從而進(jìn)行蛋白質(zhì)和酶功能預(yù)測。
一些數(shù)據(jù)庫,例如Pfam[15](Protein Families Database) 以及Prosite,可以用于分析蛋白質(zhì)以及酶的結(jié)構(gòu)域和基序, 這為深入分析酶功能分析提供一定的依據(jù)。考慮到序列突變以及隨機(jī)性的情況,通過多序列比對識別基序可能比直接通過正則表達(dá)式匹配的方法更可靠,可以獲得更少的假陽性。因?yàn)椋嘈蛄斜葘梢苑治龆鄺l酶序列之間共同的保守區(qū)域和模體,這樣得到的結(jié)果通常更加可靠。若一個模體在同一個多序列比對的多個酶中同時出現(xiàn),則其為真陽性的概率顯然更高。
在圖2中,把蛋白質(zhì)1N55(PDB號)的序列輸入網(wǎng)站https://myhits.sib.swiss/cgi-bin/PFSCAN進(jìn)行模體搜索,搜索到1N55序列中的AYEPLWSIGTG(序列位置為166-176)匹配上Prosite數(shù)據(jù)庫中的模體PS00171,這與已有的文獻(xiàn)報道基本一致[16]。圖2中這個模體對應(yīng)的區(qū)域標(biāo)注為紅色。
圖2 蛋白1N55中包含的一個功能模體PS00171Fig. 2 A functional motif PS00171 in 1N55 protein
由于蛋白質(zhì)三維結(jié)構(gòu)(也包括酶的結(jié)構(gòu))通常比其序列更為保守,因此結(jié)構(gòu)相似性是兩種或兩種以上酶功能相似的良好指標(biāo)。針對許多酶沒有實(shí)驗(yàn)結(jié)構(gòu)的情況,可以采用預(yù)測的三維模型。在許多情況下,代表活性位點(diǎn)或結(jié)合位點(diǎn)的特定基序的三維結(jié)構(gòu)可以被靶向結(jié)構(gòu)比對,這種情況下可以不用整個蛋白質(zhì)結(jié)構(gòu)的信息。通過已知靶點(diǎn)的模板數(shù)據(jù)庫的結(jié)構(gòu)比對,可以使用新的蛋白質(zhì)和酶結(jié)構(gòu)來預(yù)測特定的功能位點(diǎn)。
結(jié)構(gòu)比對可以用于判斷兩個蛋白質(zhì)或者酶之間是否有相似的功能。在圖3中,列出了SCOPe[17]數(shù)據(jù)庫中兩個蛋白質(zhì)d1w0ma_和d2vxna_之間結(jié)構(gòu)比對的結(jié)果, 在圖中d1w0ma_與d2vxna_分別以紅色和綠色渲染。這兩個蛋白(d1w0ma_和d2vxna_為SCOPe數(shù)據(jù)庫中蛋白質(zhì)的名稱)同屬于SCOPe數(shù)據(jù)庫中的同一個家族(家族編號為c.1.1.1),同屬于磷酸丙糖異構(gòu)酶。一般而言,在SCOPe數(shù)據(jù)庫中屬于同一個家族的蛋白之間,是具有結(jié)構(gòu)以及功能上的相似性的。從圖3中,可以清晰地看出,這兩個蛋白質(zhì)之間結(jié)構(gòu)是非常相似的。
圖3 2個磷酸丙糖異構(gòu)酶之間的結(jié)構(gòu)比對Fig.3 Structural alignment of two triose phosphateisomerases
蛋白質(zhì)結(jié)構(gòu)分類(SCOPe)數(shù)據(jù)庫主要是根據(jù)蛋白質(zhì)結(jié)構(gòu)域的結(jié)構(gòu)和氨基酸序列的相似性對蛋白質(zhì)結(jié)構(gòu)域進(jìn)行人工分類。這種分類的動機(jī)是確定蛋白質(zhì)和酶的進(jìn)化關(guān)系。
基于基因組背景的方法一般廣泛應(yīng)用于預(yù)測蛋白質(zhì)以及酶的進(jìn)化關(guān)系,也稱為系統(tǒng)發(fā)育樹的方法。兩個或多個酶在多個物種的蛋白質(zhì)組中頻繁共同出現(xiàn)。這可能表示這些酶之間具有生物學(xué)功能上的關(guān)聯(lián)性或者一致性,這與機(jī)器學(xué)習(xí)算法中的關(guān)聯(lián)分析類似。同源性的方法可以用于識別蛋白的分子功能,而基因組背景的方法可以用于預(yù)測蛋白參與的細(xì)胞或者生物學(xué)過程。例如,參與物種中參與信號轉(zhuǎn)導(dǎo)的蛋白可能具有相似的基因組背景。
除了以上提到的4種方法之外,學(xué)術(shù)界還常常通過從序列層次上直接預(yù)測蛋白質(zhì)或者酶的功能。這類方法一般直接通過機(jī)器學(xué)習(xí)[18]算法進(jìn)行建模。這類方法一般可以分為以下幾個主要步驟: 類標(biāo)簽定義、特征提取和篩選、訓(xùn)練模型和實(shí)際分類預(yù)測等。其中,類標(biāo)簽定義就是把功能預(yù)測問題轉(zhuǎn)化為一個分類問題。特征提取,就是構(gòu)造和酶功能分類相關(guān)的一些序列和結(jié)構(gòu)參數(shù),這個過程主要涉及序列特征的定義和提取,常用的特征包括氨基酸組成、二級結(jié)構(gòu)、溶劑表面可及性、結(jié)構(gòu)域、序列模體等;特征選擇主要是對特征提取階段提取的特征集進(jìn)行數(shù)值化,同時去除噪聲和去冗余等操作。這部分的內(nèi)容在數(shù)據(jù)建模過程中稱為特征工程;之后,利用機(jī)器學(xué)習(xí)方法建立一個分類模型,并對模型的準(zhǔn)確率進(jìn)行評估,最終使用該模型對未知功能的酶序列進(jìn)行功能預(yù)測。
這類基于機(jī)器學(xué)習(xí)的算法與前面四種方法有一定的互補(bǔ)性。然而這類方法也有一定的局限性,特定分類問題的特征選取策略、以及正負(fù)樣本比例選取策略對分類模型的性能都有一定的影響。在實(shí)際建立分類模型時常常發(fā)現(xiàn),已知的具有某一功能的酶序列較少(正樣本) 、已知的不具有該功能的蛋白質(zhì)序列不確定,訓(xùn)練模型時正樣本和負(fù)樣本集比例不平衡對模型的實(shí)際預(yù)測性能的影響也比較大。另外,不少酶可能同時具有多個功能,簡單將功能預(yù)測問題看成二分類或者簡單多類分類問題,會忽略個體酶功能多樣性的特點(diǎn)。
一般可以通過結(jié)構(gòu)分析、模板信息以及文獻(xiàn)調(diào)研等方式分析出酶的結(jié)合位點(diǎn)(Binding sites),之后結(jié)合活性口袋信息進(jìn)行進(jìn)一步的分子對接(Molecular docking)。
分子對接是在找到酶結(jié)合位點(diǎn)后進(jìn)一步分析其與底物相互作用的一種方法,也就是通過計算模擬的方法推測出酶與底物之間的構(gòu)象關(guān)系。分子對接是分子模擬的重要方法之一,是兩個或多個分子之間通過空間匹配和能量匹配的相互識別,形成分子復(fù)合物,并對復(fù)合物結(jié)構(gòu)進(jìn)行預(yù)測的過程。其核心概念是對受體和配體分子形成復(fù)合結(jié)構(gòu)進(jìn)行預(yù)測。分子對接方法在藥物設(shè)計、材料設(shè)計等領(lǐng)域均具有廣泛的應(yīng)用。且由于在整體上考慮配體與受體的結(jié)合效果,可以較好地避免了局部作用優(yōu)、整體欠佳的情況。
配體與受體相互作用是分子識別的過程,主要包括靜電作用、氫鍵作用、疏水作用、范德華作用等。通過計算,可以預(yù)測兩者間的結(jié)合模式和親和力,從而進(jìn)行藥物的虛擬篩選。從對接方法的角度來,分子對接可以分為以下三類:1)剛性對接;2)半柔性對接;3)全柔性對接。剛性對接是指在對接的過程中,參與對接的受體與配體分子構(gòu)象不發(fā)生變化,僅改變分子的空間位置與姿態(tài)。如鎖匙模型,受體和配體均為剛性,進(jìn)行剛性對接。剛性對接通常用于考察大分子之間的對接,如蛋白質(zhì)-蛋白質(zhì)(例如,酶與抑制劑之間的對接)之間的作用和蛋白質(zhì)-核酸之間的作用。半柔性對接是指允許對接過程中配體(例如,小分子)構(gòu)象發(fā)生一定程度的變化,但通常會固定大分子的構(gòu)象,也即受體剛性,配體柔性。全柔性對接是指允許研究體系的構(gòu)像發(fā)生自由變化,由于變量隨著體系的原子數(shù)呈幾何級數(shù)增長,因此柔性對接方法的計算量非常大,消耗計算機(jī)時很多,適合精確考察分子間識別情況。如誘導(dǎo)契合模型,其受體和配體均為柔性。不少軟件(例如Autodock vina[19])通過設(shè)置,可以進(jìn)行半柔性或者全柔性對接。不過,由于全柔性的時間耗時長,所以在實(shí)際的全柔性對接中也僅僅選擇受體上的幾個關(guān)鍵氨基酸進(jìn)行可以自由旋轉(zhuǎn)的全柔性對接。表1中列出了幾個經(jīng)典以及具有代表性的分子對接程序。
表1 幾種代表性的分子對接程序Table 1 Several representative molecular docking programs
分子對接在生物信息學(xué)中有諸多的應(yīng)用。計算機(jī)輔助藥物設(shè)計的方法學(xué)可以分為基于配體的藥物設(shè)計和基于受體的藥物設(shè)計。基于受體的藥物設(shè)計方法是通過受體的特征及受體和藥物之間的相互作用方式來進(jìn)行藥物設(shè)計的方法。主要方法為分子對接和從頭設(shè)計。分子對接的應(yīng)用范圍包括:1)虛擬篩選;2)機(jī)理解釋;3)先導(dǎo)優(yōu)化。一般可以通過分子對接進(jìn)一步深入地分析蛋白質(zhì)酶的生物學(xué)功能。分子對接模型最早可以追溯到1894年Fischer提出的鎖匙模型。鎖和鑰匙相互識別的首要條件是它們在空間形狀上要完美匹配,但藥物分子和靶蛋白之間的識別比鎖匙模型更為復(fù)雜,再結(jié)合過程中,受體和配體需要適應(yīng)對方,已達(dá)到誘導(dǎo)契合。實(shí)驗(yàn)和計算得到的模型與生物體中真實(shí)的蛋白結(jié)構(gòu)都存在一定誤差,因此在對接過程中的一些區(qū)域采取柔性對接,這樣處理有可能修正相應(yīng)的結(jié)構(gòu)誤差。
“酶-蛋白質(zhì)”與“酶-核酸”大分子間的對接最常用的為Zdock[20]和 Rosetta[21]等程序。這些程序可以從單個酶結(jié)構(gòu)出發(fā),用計算的手段確定酶與底物的復(fù)合物的空間結(jié)構(gòu)。Zdock[20]是一種基于快速傅里葉變換的剛性蛋白對接程序,由波士頓大學(xué)Weng研究組創(chuàng)建,Weng研究組相繼開發(fā)出優(yōu)化程序RDOCK和單獨(dú)的打分程序ZRANK。Zdock采用快速傅里葉轉(zhuǎn)化,根據(jù)蛋白質(zhì)間形狀匹配(去溶劑作用、靜電作用)搜索分子間結(jié)合模式的剛性對接。主要預(yù)測領(lǐng)域?yàn)椋旱鞍?蛋白相互作用;抗原抗體相互作用;酶-DNA相互作用的結(jié)合預(yù)測等。
Zdock軟件的使用流程如下:產(chǎn)生對接構(gòu)象,使用Zdock軟件進(jìn)行打分,形狀互補(bǔ)性越好,打分越高;過濾聚類對接構(gòu)象,通過計算靜電、范德華力、去溶劑化能等,使用ZRANK對對接構(gòu)象進(jìn)行沖打分,能量值越低,結(jié)構(gòu)越穩(wěn)定,得分越低。
FlexPepDock[22]是基于Rosetta軟件包中開發(fā)出的一種蛋白質(zhì)與多肽對接方法,這種方法可以提供一種高分辨率的多肽分子對接。FlexPepDock方法的網(wǎng)站為http://flexpepdock.furmanlab.cs.huji.ac.il/index.php。Autodock vina算法主要用于大分子和小分子對接(例如,酶和底物之間的對接)。分子對接完成之后,可以分析酶和底物之間的相互作用關(guān)系。例如可以通過Ligplus[23]等軟件進(jìn)行相互作用的可視化以及分析等。
對于分子對接而言,可以分為酶-小分子、酶與其他大分子、以及酶與多肽之間的對接過程。由于對接體系的不同,由于使用到的能量函數(shù)不同,所以研究人員需要選擇特定的程序進(jìn)行對接。目前還未形成一個統(tǒng)一的能量體系或者計算公式,以及未存在可以智能地選擇特定對接能量體系的程序。另外,對接過程中,界面氨基酸(Interface residues)以及結(jié)合口袋的選擇往往是決定對接結(jié)果與實(shí)驗(yàn)結(jié)果是否接近的一個關(guān)鍵因素,目前這個部分主要依靠科研人員根據(jù)實(shí)驗(yàn)背景以及經(jīng)驗(yàn)選擇,所以具有一定的不確定性以及可以改進(jìn)的空間。
分子對接得到的復(fù)合物(例如酶和底物的復(fù)合物)是一種靜態(tài)的結(jié)構(gòu)。另外,結(jié)構(gòu)生物學(xué)目前通過實(shí)驗(yàn)手段大多數(shù)情況下也只能獲得靜止的蛋白質(zhì)和酶的三維結(jié)構(gòu)構(gòu)象。為了深入揭示相應(yīng)生物分子機(jī)制,就要不斷獲得中間態(tài)的三維結(jié)構(gòu)構(gòu)象信息,獲得的這種情況的三維動態(tài)構(gòu)象越多,相應(yīng)分子機(jī)制則解釋得越精準(zhǔn)及深入。分子動力學(xué)就是通過計算機(jī)模擬得到這種中間態(tài)構(gòu)象的一種計算模擬方法。
分子動力學(xué)模擬一般主要分為體系準(zhǔn)備、能量最小化、加熱、平衡、采樣以及后續(xù)動態(tài)結(jié)構(gòu)分析等步驟。動力學(xué)模擬是研究酶的作用機(jī)制的重要方法之一。常用的分子動力學(xué)方法有Amber[24]、Gromacs[25]以及Namd[26]等。為了更深入地表示蛋白和氨基酸殘基的相互作用,一般文獻(xiàn)中會用相互作用能量和氨基酸殘基數(shù)的一個關(guān)系圖表示,可以把每個殘基對結(jié)合能的貢獻(xiàn)算出來。每個分子結(jié)構(gòu)不是靜止的,基本都像個小機(jī)器,有一定的變化,通過動力學(xué)模擬的方法可以一定程度上分析這種動態(tài)狀態(tài)。雖然經(jīng)過幾十年的發(fā)展,分子動力學(xué)模擬還是存在一些待改進(jìn)的方面和可持續(xù)發(fā)展的方向。例如,大多數(shù)的分子動力學(xué)模擬軟件包的命令行數(shù)量較多以及使用也相對復(fù)雜,另外模擬時間一般較長,對計算機(jī)的軟件和硬件要求都相對較高。未來若能開發(fā)出使用更加簡單易用的分子動力學(xué)模擬軟件,也許是可以讓更多實(shí)驗(yàn)科學(xué)使用分子動力學(xué)方法的可行途徑之一。
在酶機(jī)理的解釋中,分子動力學(xué)模擬往往是關(guān)鍵的一個重要步驟。但是動力學(xué)模擬由于計算量大以及后續(xù)的分析需要較為專業(yè)的計算模擬基礎(chǔ)知識,對于實(shí)驗(yàn)科學(xué)家而言,應(yīng)用起來有一定的門檻。更重要的是,由于計算量大,目前學(xué)術(shù)界較為缺少可以直接提交數(shù)據(jù)就可以進(jìn)行動力學(xué)模擬的網(wǎng)站和服務(wù)器。生物信息學(xué)界開發(fā)并提供更多的可以直接提交數(shù)據(jù)就可以全自動進(jìn)行動力學(xué)模擬的程序和網(wǎng)站也許是具有發(fā)展前景的一個重要方面。
學(xué)術(shù)界分析以及預(yù)測酶的功能是為了進(jìn)一步改進(jìn)其功能。酶分子設(shè)計是酶工程和科學(xué)研究的主要內(nèi)容之一。酶工程就是科學(xué)家們在了解酶空間結(jié)構(gòu)及其功能關(guān)系,并且在熟練掌握基因操作技術(shù)的基礎(chǔ)上,設(shè)計和改造酶,借以改善酶的物理和化學(xué)性質(zhì)以滿足特定的科學(xué)研究以及工業(yè)應(yīng)用的需求。例如,提高酶的熱穩(wěn)定性、酶的專一性等,使之更好地為人類所用。酶分子設(shè)計就是為有目的的酶質(zhì)改造提供設(shè)計方案。按照改造部位多與少可分為三類:小改、中改以及大改。小改一般是指可通過幾個位點(diǎn)的定位突變或化學(xué)修飾來實(shí)現(xiàn);中改一般是對來源于不同蛋白的結(jié)構(gòu)域進(jìn)行拼接組裝以達(dá)到酶性質(zhì)的優(yōu)化組合;大改則是完全從頭設(shè)計新的酶。提高酶的親和力是酶分子設(shè)計的一個重要方面。一般可以把一些非關(guān)鍵氨基酸突變?yōu)楸彼峄蛘吒拾彼?,以減少小分子進(jìn)入相應(yīng)位置的空間阻力。另外,考慮到酶中與底物距離較近的氨基酸可能為關(guān)鍵氨基酸。所以學(xué)術(shù)界常常以分子對接結(jié)果為輸入;在對接結(jié)果的復(fù)合物中,選擇底物(通常為小分子)3-5Angstrom范圍的氨基酸;把選擇的氨基酸突變?yōu)榱硗?9種氨基酸重新計算結(jié)合能量,若所計算得到的結(jié)合能變小,那么這個突變則可以通過實(shí)驗(yàn)的方法進(jìn)一步驗(yàn)證。提高酶的熱穩(wěn)定性是酶分子設(shè)計的另外一個重要方向。對提高酶熱穩(wěn)定性有一個經(jīng)驗(yàn)性策略: 把遠(yuǎn)離酶活性位點(diǎn)的無規(guī)則卷曲(LOOP)區(qū)域的甘氨酸突變?yōu)楣劝彼?。這個策略的主要原理為谷氨酸相比甘氨酸剛性更強(qiáng),以及可以形成更多的分子鍵。另外,可以考慮把一些空間距離比較近的氨基酸同時突變?yōu)镃YS讓酶形成更多二硫鍵。在沒有合適的方案情況下,也可以采用隨機(jī)突變的方法尋找合適的突變位點(diǎn),一般可以通過易錯PCR的實(shí)驗(yàn)方式進(jìn)行隨機(jī)突變。有時為了同時提高親和力和熱穩(wěn)定性,會采用雙靶點(diǎn)或者多靶點(diǎn)共同改進(jìn)以提高酶的性能。
酶功能分析中一般綜合利用基于同源性方法、模體、三維空間結(jié)構(gòu)、基因組以及蛋白質(zhì)組上下文、文獻(xiàn)調(diào)研以及實(shí)驗(yàn)等進(jìn)行酶功能的基礎(chǔ)分析。之后分析復(fù)合物結(jié)構(gòu),根據(jù)相應(yīng)體系選擇合適的對接程序進(jìn)行復(fù)合物結(jié)構(gòu)的構(gòu)象預(yù)測。分子對接完成之后,利用分子動力學(xué)模擬算法進(jìn)行深入分析和機(jī)理解釋。酶是一個復(fù)雜的體系,不少酶具有多靶點(diǎn)、整體性以及動態(tài)性等特點(diǎn)。酶行使功能過程中一般由多個部分協(xié)同發(fā)揮作用,重要和不重要的區(qū)域都只是相對而言的。
分子對接可以分析酶與底物的相互作用關(guān)系。動力學(xué)模擬可以更深入地解釋相應(yīng)的作用機(jī)理。簡而言之,分子對接和動力學(xué)模擬在酶功能分析方面都有重要應(yīng)用,但也都存在一定的可改進(jìn)空間。功能分析是酶分子設(shè)計的基礎(chǔ)。酶分子設(shè)計通常采用點(diǎn)突變或者改變相應(yīng)氨基酸片段提高酶親和力與熱穩(wěn)定性,這需要對酶結(jié)構(gòu)的每個基團(tuán)以及功能結(jié)構(gòu)域系統(tǒng)分析和準(zhǔn)確定位。酶分子設(shè)計時一般需要準(zhǔn)確分析出活性位點(diǎn),之后常常采用在重要區(qū)域(例如,Loop區(qū))再設(shè)計提高其催化效率和親和力。酶分子設(shè)計的策略還包括通過對底物、產(chǎn)物的分子通道和路徑再設(shè)計來減少產(chǎn)物抑制,同時減少空間位阻來提高催化效率和親和力;通過對蛋白質(zhì)內(nèi)部氫鍵、鹽橋、二硫鍵再設(shè)計來改善蛋白質(zhì)的熱穩(wěn)定性;采用多種方法拓寬蛋白質(zhì)分子的最適溫度和pH范圍;若可以同時提高酶的熱穩(wěn)定性和親和力則為優(yōu)良的分子設(shè)計策略。
本文系統(tǒng)性地總結(jié)了酶功能分析和預(yù)測的主要方法,包括酶結(jié)合位點(diǎn)、分子對接、分子動力學(xué)模擬以及分子設(shè)計等。由于近些年來學(xué)術(shù)界在酶結(jié)構(gòu)預(yù)測方面的持續(xù)進(jìn)展,特別是AlphaFold等高精度結(jié)構(gòu)預(yù)測方法的出現(xiàn),可以讓更多的實(shí)驗(yàn)人員依靠計算方法獲得相對可靠的蛋白質(zhì)結(jié)構(gòu)。這讓基于結(jié)構(gòu)的酶功能分析成為未來發(fā)展的一種方法。綜上所述,功能分析也許會是未來學(xué)術(shù)界對酶研究的一個重要方面。