許彤,郭庚妮,蔣南
(南京醫(yī)科大學(xué) 藥學(xué)院,江蘇 南京 211166)
近年來,伴隨蛋白組學(xué)的迅猛發(fā)展和人類基因組學(xué)研究的突破性進展,蛋白質(zhì)- 基因組- 疾病網(wǎng)絡(luò)關(guān)系圖日漸清晰,許多導(dǎo)致疾病的基因被一一揭示,新的治療靶點及其三維結(jié)構(gòu)也不斷被發(fā)現(xiàn)或確認,這為計算機輔助藥物設(shè)計[1](computer- aided drug design,CADD)提供了堅實的基礎(chǔ)。在計算機技術(shù)的推動下,計算和模擬方法持續(xù)進步,CADD已成為創(chuàng)新藥物研究的一項基本工作。傳統(tǒng)藥物設(shè)計需要大量的嘗試、試錯,成本昂貴、耗時費力。與此比較,CADD具有多種優(yōu)勢,如有效地模擬出各類環(huán)境下的反應(yīng)、虛擬計算配體- 受體結(jié)合能、反應(yīng)中的能壘變化等,從而快速有效地指導(dǎo)化合物合成方向、篩選先導(dǎo)化合物,大大減少了時間、金錢的消耗。
CADD是采用計算化學(xué)方法分析蛋白靶標結(jié)合位點的結(jié)構(gòu)性質(zhì),如靜電場、疏水場、氫鍵供/受體位點分布等信息,然后再運用數(shù)據(jù)庫搜尋,得到分子形狀和理化性質(zhì)與受體結(jié)合位點相匹配的分子,進而合成并測試分子的生物活性,經(jīng)過幾輪測試與改性以發(fā)現(xiàn)先導(dǎo)化合物。由此,CADD的本質(zhì)是模擬和計算藥物與靶標的相互作用[2]關(guān)系。因此,蛋白質(zhì)結(jié)構(gòu)對藥物和靶標之間的相互作用研究以及基于生物大分子結(jié)構(gòu)的藥物設(shè)計是非常重要的。
此外,虛擬篩選作為高通量篩選[3]識別潛在生物活性化合物的重要工具,也已在藥物發(fā)現(xiàn)中得到了廣泛應(yīng)用。它是在已知大分子結(jié)構(gòu)的基礎(chǔ)上,應(yīng)用分子對接方法,從大型化合物庫中迅速篩選出具有潛在活性的藥物分子。例如,華中科技大學(xué)同濟學(xué)院的李華教授課題組[4]從蛋白質(zhì)數(shù)據(jù)庫中獲得SARS- CoV- 2同源性蛋白,并與ZINC藥物小分子數(shù)據(jù)庫聯(lián)用進行高通量虛擬篩選,挑選出了有潛在活性的小分子,為新冠肺炎的藥物治療提供了理論依據(jù)。除此之外,構(gòu)建藥效團模型[5]也是進行虛擬篩選的一種常用方法,它是基于一系列具有不同活性的配體以及蛋白質(zhì)- 配體復(fù)合物結(jié)構(gòu),總結(jié)出對活性至關(guān)重要的原子或基團及它們之間的空間關(guān)系,在此基礎(chǔ)上進行新藥設(shè)計、靶點垂釣[6]、藥物不良反應(yīng)的檢測[7]以及老藥新用的開發(fā)等。
由此可見,蛋白靶標的三維結(jié)構(gòu)是開展CADD的物質(zhì)基礎(chǔ)或必要條件。在過去幾十年里,各種蛋白質(zhì)、核酸等大分子數(shù)據(jù)庫被構(gòu)建并迅速擴充,藥效團模型的構(gòu)建算法快速發(fā)展,為藥物研發(fā)提供了重要資源。為了充分利用好這些寶貴資源,作者對常用蛋白質(zhì)、核酸及藥效團數(shù)據(jù)庫進行總結(jié),簡要介紹其發(fā)展歷史,詳細綜述其構(gòu)建思想與使用方法,如數(shù)據(jù)來源、信息內(nèi)容、數(shù)據(jù)檢索的關(guān)鍵字段及其說明等。在此基礎(chǔ)上,我們對數(shù)據(jù)庫開發(fā)面臨的問題進行分析,并對未來的發(fā)展方向提出展望。我們希望該工作能為從事計算機輔助新藥開發(fā)的研究工作者提供有益幫助。
確認蛋白質(zhì)或蛋白質(zhì)- 配體復(fù)合物結(jié)構(gòu),是研究蛋白- 藥物相互作用進而開展CADD與篩選等的必要條件。將已知結(jié)構(gòu)的蛋白質(zhì)及其相關(guān)信息(如與配體形成的復(fù)合物結(jié)構(gòu)、活性數(shù)據(jù)、序列信息、參考文獻等)集合成一個數(shù)據(jù)庫,方便用戶的查閱及下載使用。世界范圍內(nèi)現(xiàn)已有多個數(shù)據(jù)庫被建立并使用,覆蓋大約1億個分子。目前,發(fā)展迅速并廣為使用的蛋白質(zhì)數(shù)據(jù)庫有UniProt(The Universal Protein Resource)、PDB(Protein Data Bank)、AlphaFold(Alpha Fold Protein Structure Database)、BindingDB(Binding Database)、InterPro、STITCH和STRING等。作者對UniProt、PDB及AlphaFold數(shù)據(jù)庫詳細介紹如下,其他數(shù)據(jù)庫的網(wǎng)址和簡要介紹見表1。
表1 其他常見的蛋白質(zhì)數(shù)據(jù)庫及其簡介
UniProt(https:∥www.uniprot.org)[8- 9]是收錄最廣泛和注釋信息最全面的蛋白質(zhì)數(shù)據(jù)庫,提供詳細的蛋白質(zhì)序列、功能信息(如蛋白質(zhì)功能描述、結(jié)構(gòu)域結(jié)構(gòu)、轉(zhuǎn)錄后修飾、修飾位點、變異度、二級結(jié)構(gòu)、三級結(jié)構(gòu)等),同時提供與其它數(shù)據(jù)庫(包括序列數(shù)據(jù)庫、三維結(jié)構(gòu)數(shù)據(jù)庫、二維凝聚電泳數(shù)據(jù)庫、蛋白質(zhì)家族數(shù)據(jù)庫)的鏈接。
1.1.1 發(fā)展歷史 UniProt數(shù)據(jù)庫的創(chuàng)建可以追溯到20世紀中期。20世紀60年代,美國國家生物醫(yī)學(xué)研究基金會開始著手蛋白質(zhì)序列收集和分類。1984年,美國蛋白質(zhì)信息資源部成立,并開發(fā)了蛋白質(zhì)資源鑒定系統(tǒng),內(nèi)容涵蓋蛋白質(zhì)、核酸序列和分析軟件。在此基礎(chǔ)上,美國國家生物醫(yī)學(xué)研究基金會、德國慕尼黑蛋白質(zhì)序列信息中心和日本國際蛋白質(zhì)信息數(shù)據(jù)庫聯(lián)手,于1988年建立了國際上最早的蛋白質(zhì)序列數(shù)據(jù)庫,即:PIR- PSD(Protein Identification Resource- International Protein Sequence Database)[10]。該數(shù)據(jù)庫不僅收集和注釋蛋白質(zhì)序列,還根據(jù)序列注釋信息的詳盡程度將蛋白質(zhì)序列進行了級別劃分。
同時期成立的大分子數(shù)據(jù)庫還有Swiss- Prot[11]和TrEMBL[12]。其中Swiss- Prot是由瑞士日內(nèi)瓦大學(xué)醫(yī)學(xué)院于1986年創(chuàng)建的蛋白質(zhì)序列數(shù)據(jù)庫,數(shù)據(jù)資源包括PIR- PSD數(shù)據(jù)庫、歐洲分子生物學(xué)實驗室核苷序列數(shù)據(jù)庫EMBL,和從文獻中收集得到的其它蛋白質(zhì)序列。該數(shù)據(jù)庫的特色是對序列條目如物種分類學(xué)來源、功能、定位、表達等,進行人工審閱和注釋,并建立與其它數(shù)據(jù)的鏈接。1994年,該數(shù)據(jù)庫被移交至歐洲生物信息學(xué)研究所管理。與此同時,伴隨著核酸序列的激增,通過其翻譯得到的蛋白質(zhì)序列也急劇增加。為了存放核酸序列數(shù)據(jù)庫EMBL中蛋白質(zhì)編碼序列翻譯所得的氨基酸序列,歐洲生物信息學(xué)研究所和瑞士日內(nèi)瓦大學(xué)共同創(chuàng)建了TrEMBL數(shù)據(jù)庫,作為Swiss- Prot數(shù)據(jù)庫的補充。
2002年,上述3個蛋白質(zhì)序列數(shù)據(jù)庫合并為UniProt數(shù)據(jù)庫,實現(xiàn)了收集、管理、注釋和發(fā)布蛋白質(zhì)序列數(shù)據(jù)及注釋信息的統(tǒng)一化。該數(shù)據(jù)庫由美國蛋白質(zhì)信息資源部、歐洲生物信息學(xué)研究所和瑞士生物信息研究所共同管理和維護,為世界各國公眾提供無償服務(wù),實現(xiàn)了基因組、蛋白組等生物信息數(shù)據(jù)的全球共享,目前已成為生命科學(xué)領(lǐng)域不可或缺的蛋白質(zhì)序列信息資源。
1.1.2 重要子庫 UniProt含有4個重要子庫:UniProtKB(UniProt Knowledgebase,蛋白質(zhì)知識庫,蛋白質(zhì)知識庫)[13]、UniParc(UniProt Sequence Archive,蛋白質(zhì)序列歸檔庫)、UniRef(UniProt Reference Clusters,蛋白質(zhì)序列參考集)[14]以及Proteome(蛋白組)。
UniProtKB子庫和核心內(nèi)容是蛋白質(zhì)序列和注釋信息[15],如功能、物種及分類、蛋白加工修飾及表達等,并提供與基因組、核酸序列、蛋白質(zhì)結(jié)構(gòu)與功能位點等數(shù)據(jù)的交叉引用與鏈接。UniProtKB包含兩個部分:一部分是Swiss- Prot[16],其序列條目經(jīng)過了人工審閱和手工注釋;另一部分是TrEMBL,其序列條目是利用計算機程序進行的自動注釋。Swiss- Prot為用戶提供了高質(zhì)量的蛋白質(zhì)序列和豐富的注釋信息;相比之下,由于TrEMBL中的記錄未經(jīng)人工審閱,因而可靠性較低。值得一提的是,上述兩個部分采用相同的登錄號和數(shù)據(jù)格式,TrEMBL中的記錄一經(jīng)人工審閱和手工注釋,便移到Swiss- Prot而不再保留在TrEMBL。因此,這兩個部分的序列條目數(shù)量差別很大,根據(jù)2022年5月25日發(fā)布的數(shù)據(jù),Swiss- Prot中含約56.7萬條序列記錄,而TrEMBL的數(shù)據(jù)量高達約2.3億。
UniParc子庫存儲了公開發(fā)表的蛋白質(zhì)序列。其數(shù)據(jù)來源于UniProtKB子庫、國際核酸序列數(shù)據(jù)庫、美國國家生物信息中心的參考序列數(shù)據(jù)庫、蛋白質(zhì)三維結(jié)構(gòu)數(shù)據(jù)庫,以及歐洲、美國、日本專利局等。為避免冗余問題,它使用特定標識符(Unique Identifier,UI)將相同序列歸并在同一記錄中,即無論序列來源、測定方法、遞交時間、審閱方式等是否相同,具有統(tǒng)一標識符的所有條目具有完全相同的序列。每條記錄包含UI、序列、循環(huán)冗余校驗碼(Cyclic Redundancy Check Number,CRCN)、源數(shù)據(jù)庫及其登記的接收號、版本信息等。UniParc的最大用途是記錄蛋白質(zhì)序列的歷史信息和當前狀態(tài),“Active”表示該記錄仍存在于原來的數(shù)據(jù)庫中,“Obsolete”表示該記錄已經(jīng)不存在。值得注意的是,UniParc記錄中不含注釋信息,此類注釋信息可在UniProtKB中查詢。
為避免數(shù)據(jù)冗余,UniRef將UniProtKB和UniParc子庫中的序列信息進行聚類。具有相同序列或片段的記錄信息被合并在一起,構(gòu)成UniRef100子集;而同源性>90%和50%~90%的序列記錄分別合并至UniRef 90 和UniRef 50子集,以便于快速進行同源搜索。
Proteome是于2011年9月新增加的蛋白組子庫,記錄了已經(jīng)完成全基因組測序物種的核酸序列翻譯所得的蛋白質(zhì)序列。截至2022年7月,該子庫已經(jīng)收錄了近46萬條記錄。
1.1.3 主要功能的使用方法 通過蛋白質(zhì)名稱或UniProt ID進行檢索,可快速查找蛋白質(zhì)相關(guān)信息,包括功能、毒性、結(jié)構(gòu)、序列等。高級檢索功能是UniProt數(shù)據(jù)庫的特色之一?;跀?shù)據(jù)庫條目中的不同字段,該數(shù)據(jù)庫對大量注釋信息作了索引,實現(xiàn)了快速、準確地對特定信息進行查找。不同數(shù)據(jù)集使用統(tǒng)一的檢索界面,檢索框的下拉菜單提供所有可檢索的數(shù)據(jù)集,包括UniProtKB、UniRef、UniParc、Proteomes、Taxonomy、Keywords、Literature citations、Human diseases、Cross- referenced databases、Subcellular locations、UniRule等。為了便于用戶依據(jù)注釋信息精確查找,UniProt數(shù)據(jù)庫還支持基于邏輯運算的高級檢索。對于蛋白質(zhì)的三維結(jié)構(gòu),UniProt實現(xiàn)了與PDB、PDBe、PDBj、AlphaFold等數(shù)據(jù)庫的鏈接。
另外,UniProt還提供了同源建模(BLAST)、序列比對(Align)等功能。在BLAST模塊,只需要提供未知結(jié)構(gòu)的蛋白質(zhì)序列就可以在如UniProtKB、Human源等數(shù)據(jù)庫中查找結(jié)構(gòu)模板,通過Align模塊可將多個蛋白質(zhì)序列進行比對,進而實現(xiàn)同源建模。
PDB數(shù)據(jù)庫(https:∥www.rcsb.org/)[17]于1971年由美國布魯克海文國家實驗室創(chuàng)建,并于1988年由結(jié)構(gòu)生物信息學(xué)研究聯(lián)合實驗室(Research Collaboratory for Structural Bioinformatics,RCSB)接管。它是世界范圍內(nèi)唯一的生物大分子結(jié)構(gòu)數(shù)據(jù)檔案庫,主要收集蛋白質(zhì)、核酸和糖的三維結(jié)構(gòu)數(shù)據(jù),包括原子坐標、參考文獻、一級和二級結(jié)構(gòu),以及晶體結(jié)構(gòu)因數(shù)和實驗測定數(shù)據(jù)等。結(jié)構(gòu)數(shù)據(jù)來源于世界各國的生物學(xué)家和生物化學(xué)家,并通過X射線單晶衍射、核磁共振波譜法、三維電子衍射或微電子衍射等實驗確定,向全球用戶免費開放。
數(shù)據(jù)庫提供多種使用功能,如數(shù)據(jù)上傳(deposit)、搜索(search)、可視化(visualize)、結(jié)構(gòu)分析(analyze)、下載(download)、相關(guān)知識介紹(learn)、其他(more)、文件(documentation)、疾病相關(guān)資訊(careers)等。用戶可在瀏覽器上通過下拉菜單或側(cè)邊菜單免費使用這些功能,而不需要額外其它軟件。下面對常用功能及其使用進行簡要介紹。
1.2.1 Deposit工具 Deposit工具欄提供了上傳蛋白質(zhì)結(jié)構(gòu)數(shù)據(jù)、驗證報告、存儲數(shù)據(jù)的功能。為了更好地應(yīng)對日益復(fù)雜和龐大的數(shù)據(jù),該數(shù)據(jù)庫接受、處理和發(fā)布基于大分子晶體學(xué)信息文件(Protein Data Bank Macromolecular Crystallographic Information file,PDBx/mmCIF)[18]的數(shù)據(jù)文件。數(shù)據(jù)以文本文件的方式存放,每個分子各用一個獨立的文件,對應(yīng)唯一的識別號(Protein Data Bank Identification Document,PDB ID)。PDB ID由4個包含字母和數(shù)字的字符組成,早期的文件以“ID.pdb”命名,而1997年后每個ID對應(yīng)1組文件,分別是“ID.full”(相當于原來的ID.pdb)、數(shù)目文件“ID.biblio”和圖形文件“ID.gif”。
PDB的每一條數(shù)據(jù)結(jié)構(gòu)記錄兩種序列信息,分別是顯式序列信息和隱式序列信息。在PDB文件中,關(guān)鍵字SEQRES是顯式序列標記,以它為標志的行是關(guān)于序列的信息。PDB的隱式序列為立體化學(xué)數(shù)據(jù),包括每個原子的名稱及其三維坐標。除了序列信息,其它字段及其說明列于表2。
表2 PDB文件的關(guān)鍵字段及其說明
續(xù)表
1.2.2 Search工具 Search工具欄提供了多種搜索方式,常見的有:(1) Basic Search(基礎(chǔ)檢索)。用戶可通過輸入PDB ID、名稱的全稱或者關(guān)鍵詞來進行搜索。其中使用ID是最便捷、快速的搜索方式,但前提是已知目標生物大分子的ID。當使用ID檢索時,結(jié)果只有該ID對應(yīng)的唯一結(jié)構(gòu);若使用蛋白質(zhì)名稱進行檢索,含有該蛋白質(zhì)單體及復(fù)合物所有結(jié)構(gòu)均被列出。(2) Advanced Search(高級檢索)。用戶可以通過數(shù)據(jù)庫中各種條目的不同字段進行檢索,如結(jié)構(gòu)屬性、化學(xué)屬性、序列信息等。由于高級檢索是基于邏輯運算進行的,因而更加精確并具有個性化特點。(3) Sequence Search(序列檢索)是使用蛋白質(zhì)和核酸序列來查詢或搜索。(4) Chemical Sketch Tool(化學(xué)骨架工具)則是基于分子二維結(jié)構(gòu)圖來搜索生物大分子中特定或類似的配體。(5) Search by Drug & Drug Targets是通過藥物及藥物靶點來進行搜索,該搜索方式可與藥物庫(Drug Bank)聯(lián)用。
PDB數(shù)據(jù)庫允許用戶使用上述方式以及邏輯組合(AND、OR和NOT)進行檢索,可檢索字段包括除了上述的功能類別、PDB代碼外,還包括名稱、作者、空間群、分辨率、來源、入庫時間、分子式、參考文獻、生物來源等關(guān)鍵詞。在檢索出的生物大分子頁面中,該結(jié)構(gòu)的三維結(jié)構(gòu)模型、生物信息、序列信息、確認結(jié)構(gòu)的實驗方法以及文獻記錄等均被列出。對于檢索出的蛋白- 配體復(fù)合物,還提供了配體信息以及蛋白- 配體之間的相互作用信息。
1.2.3 Visualize、Analyze、Download及其它工具欄 Visualize欄提供了快速的可視化服務(wù),用戶可以查看生物大分子的三維結(jié)構(gòu)、蛋白特征以及基因組信息。Analyze欄則提供分析相關(guān)特征的服務(wù),如將多個生物大分子的序列進行比對。在Download欄,用戶可下載目標生物大分子的結(jié)構(gòu),可供下載的文件格式有“.pdb”和“.cif”的。Learn欄目提供了PDB- 101的服務(wù),它是面向教師、學(xué)生和公眾的在線門戶,旨在促進蛋白質(zhì)和核酸領(lǐng)域的探索。More、Documentation欄則提供了該網(wǎng)站建立、如何引用、資金來源等信息。
1.2.4 UniProt數(shù)據(jù)庫與PDB數(shù)據(jù)庫的功能對比 上述PDB和UniProt均為生物學(xué)領(lǐng)域使用廣泛、非常重要的數(shù)據(jù)庫,但是二者的側(cè)重點不同。UniProt是世界上最權(quán)威的蛋白質(zhì)信息數(shù)據(jù)庫,側(cè)重于蛋白質(zhì)的序列及其注釋信息。而PDB是生物學(xué)和醫(yī)學(xué)領(lǐng)域第一個開放訪問的數(shù)字數(shù)據(jù)資源庫,它存儲的是蛋白質(zhì)結(jié)構(gòu)信息,提供了生物大分子(如蛋白質(zhì)、DNA 和 RNA)的三維結(jié)構(gòu)數(shù)據(jù),及相關(guān)領(lǐng)域的最新進展,為結(jié)構(gòu)生物學(xué)、細胞和分子生物學(xué)、計算生物學(xué)、信息技術(shù)等領(lǐng)域的研究提供信息。
AlphaFold(https:∥alphafold.ebi.ac.uk/)[19- 20]是由人工智能技術(shù)公司DeepMind與歐洲分子生物學(xué)實驗室于2020年合作建立的一個記載虛擬預(yù)測蛋白質(zhì)結(jié)構(gòu)的程序及數(shù)據(jù)庫,可以通過蛋白質(zhì)名稱、基因名稱、Uniprot標識符或物種來檢索需要的信息。AlphaFold近期的最大進展是,基于計算方法根據(jù)蛋白質(zhì)的序列信息預(yù)測其三維結(jié)構(gòu),并使用pLDDT值進行評價。pLDDT>90的殘基用深藍色標注,表示很可靠;pLDDT處于70~90之間的殘基用天藍色標注,表示可信任;pLDDT處于50~70間的殘基用黃色標注,表示可靠性較低;而pLDDT<50的殘基使用紅色顯示,表示孤立無參考結(jié)構(gòu)。Downloads欄提供48個物種的預(yù)測結(jié)構(gòu)壓縮包和Swiss- Prot中的預(yù)測結(jié)構(gòu)數(shù)據(jù)。
目前AlphaFold已更新至2.0版本,包含2億個科學(xué)界已知的近乎所有蛋白質(zhì)的三維結(jié)構(gòu),涵蓋100萬個物種和UniRef 90序列數(shù)據(jù)庫中的大部分代表性序列。這些預(yù)測結(jié)構(gòu)中,約有35%被認為高度準確,45%可被應(yīng)用于虛擬計算。
藥效團是指對配體- 蛋白靶標相互作用中具有重要作用的“藥效特征元素”及其空間排列形式。復(fù)合物中的藥效團特征一般分為氫鍵受體(acceptor,A)、氫鍵供體(donor,D)、疏水(hydrophobic,H)、負離子(negative,N)、正離子(positive,P)和芳香環(huán)(aromatic,A)6種。根據(jù)一組已知活性的配體與蛋白靶標在結(jié)合位點處的結(jié)構(gòu)信息,提取重復(fù)的藥效團特征建立藥效團模型,進而搜索化合物數(shù)據(jù)庫,對具有相同作用機制的化合物進行篩選并找到蛋白靶標潛在的新配體,就是基于藥效團模型的虛擬篩選。目前,許多藥效團網(wǎng)站服務(wù)如ZINCPharmer[21]、PharmMapper[22]、Pharmit等,提供了藥效團搜索服務(wù)。此外,Pharmer[23]、Discovery Studio[24- 25]、LigandScout[26]、Phase、MOE[27]等主流計算軟件,也開發(fā)了建立藥效團模型或進行藥效團搜索的計算模塊。常見藥效團數(shù)據(jù)庫網(wǎng)址及簡介如表3。
表3 常見藥效團數(shù)據(jù)庫
ePharmaLib[28]是目前僅有的開源免費的藥效團數(shù)據(jù)庫(http:∥www.pharmbioinf.uni- freiburg.de/epharmalib),旨在使用廣泛多樣又可靠的藥效團來破譯生物活性化合物的靶蛋白。它包含了15 148個藥效團模型,涵蓋了4 616個靶點蛋白。藥效團的初始結(jié)構(gòu)來源于sc- PDB(screening- PDB)[29]數(shù)據(jù)庫中與治療相關(guān)的蛋白- 配體復(fù)合物。ePharmaLib可以在主流軟件薛定諤Schr?dinger/Phase(反向?qū)?和Pharao/Align- it(開源的藥效團建模軟件)中使用,并能夠用來進行靶點垂釣、副作用預(yù)測、藥物再利用和表型預(yù)測。
該數(shù)據(jù)庫構(gòu)建藥效團模擬所需復(fù)合物結(jié)構(gòu)來源于sc- PDB數(shù)據(jù)庫,它是由17 594個結(jié)構(gòu)分辨率≤2.5 ?且與臨床治療相關(guān)的蛋白質(zhì)- 配體復(fù)合物結(jié)構(gòu)組成的。用戶可使用Schr?dinger中“Small- Molecule Drug Discovery Suite”模塊準備復(fù)合物結(jié)構(gòu),并應(yīng)用“Glide XP”對蛋白- 配體結(jié)合能進行計算,進而對結(jié)合貢獻較大的特征基團進行排序。一般情況下,當特征基團數(shù)小于3時,藥效團搜索會有很高的假陽性。因此,該數(shù)據(jù)庫去除了少于3個特征基團的藥效團模型。該數(shù)據(jù)庫包含了15 148個藥效團模型,每個藥效團模型包含3~8個特征,6種常見特征占比分別為12.6%、17.9%、20.9%、17.1%、10.6%、20.9%。構(gòu)建的藥效團以“PDB ID- het ID- Uniprot Entry Name”來命名,其中PDB ID是該構(gòu)建藥效團模型所用的復(fù)合物在RCSB PDB中的編號,het ID是復(fù)合物中配體在RCSB中的名稱,Uniprot Entry Name是復(fù)合物在Uniprot中的簡要蛋白質(zhì)名稱。
ePharmaLib網(wǎng)站主頁提供了ePharmaLib幫助文件夾,其中包含3個文件:(1) README.md,詳細介紹了ePharmaLib數(shù)據(jù)庫在Pharao/Align- it[30]和Schr?dinger/Phase兩個軟件模塊中的使用方法。(2) ePharmaLib_PHARAO.zip文件,包含了適用于Pharao軟件中Align- it模塊的藥效團結(jié)構(gòu)。(3) ePharmaLib_PHASE.zip文件,包含了Sch?dinger軟件中Phase模塊的藥效團結(jié)構(gòu)。當用戶使用整個數(shù)據(jù)庫進行藥物篩選時,無需對該文件進行解壓;倘若用戶只需使用一部分數(shù)據(jù)或可視化藥效團模型,則要解壓文件進而對數(shù)據(jù)進行選擇。
對于目標小分子的二維結(jié)構(gòu),應(yīng)用LigPrep功能模塊可實現(xiàn)pH 7.4環(huán)境下的三維結(jié)構(gòu)轉(zhuǎn)換,并生成“.maegz”格式的輸出文件。由于配體小分子往往具有構(gòu)象多樣性,且構(gòu)象對其發(fā)揮活性具有重要影響,因此,我們需要探索其構(gòu)象性質(zhì)并使用三維構(gòu)象來構(gòu)建藥效團模型。在Schr?dinger圖形界面Maestro中,Create Phase Database功能模塊可以進一步將三維結(jié)構(gòu)生成三維構(gòu)象數(shù)據(jù)庫,文件格式為“.phdb”,表示Phase Database。若小分子的可旋轉(zhuǎn)鍵少于10個,通常生成50個構(gòu)象;若可旋轉(zhuǎn)鍵超過10個,則生成100個構(gòu)象。
在進行藥效團搜索時,若使用由LigPrep輸出的小分子三維結(jié)構(gòu)文件,三維構(gòu)象則需要在Phase的命令框中輸入“$ SCHRODINGER/phase_screen
任務(wù)結(jié)束后,可將結(jié)果文件加載至Maestro中進行查看。結(jié)果包含多個藥效團模型- 目標分子構(gòu)象結(jié)構(gòu)的組合。Window欄中的Project Table可以查看Phase的打分情況,即Phase Screen Score。其中“Matched Ligand Sites”顯示該構(gòu)象結(jié)構(gòu)包含的藥效團特征。
盡管目前數(shù)據(jù)庫開發(fā)已取得了很大進展,但仍然存在一些缺陷,主要表現(xiàn)為:
(1) 數(shù)據(jù)冗余。當某些蛋白序列之間具有很高的相似度時,它們可被認定為互為冗余的序列。其原因可能是很多相似序列屬于同一個基因或蛋白質(zhì)家族,或者在不同生物體發(fā)現(xiàn)的同源基因或蛋白;也可能是某個研究團隊向數(shù)據(jù)庫提交了相同的序列數(shù)據(jù),從而導(dǎo)致數(shù)據(jù)庫存儲了多個相同序列。這些冗余問題不僅導(dǎo)致分析處理數(shù)據(jù)時占用大量計算機資源,進而降低了數(shù)據(jù)庫搜索速度;而且由于冗余問題不能提供更多信息,從而導(dǎo)致不準確的預(yù)測結(jié)果。
(2) 數(shù)據(jù)結(jié)構(gòu)不統(tǒng)一。就蛋白質(zhì)大分子而言,由于其結(jié)構(gòu)解析方式的不同,其數(shù)據(jù)結(jié)構(gòu)存在較大差異。例如,有的結(jié)構(gòu)文件中含有H原子信息,有的則沒有;有的結(jié)構(gòu)文件中對二硫鍵的鏈接方式進行了標注,而有的則沒有標注。這些問題會在應(yīng)用結(jié)構(gòu)進行新藥設(shè)計或者結(jié)構(gòu)模擬時,給用戶帶來不便。
為了改善上述問題,未來的數(shù)據(jù)庫開發(fā)可以從以下3個方面進行改進:
(1) 開發(fā)實用的去冗余軟件。就蛋白質(zhì)序列庫而言,一般可認為相似的生物序列具有相似的結(jié)構(gòu)和生物功能,因此,可采用序列對比和片段過濾等方式來比較和分析序列之間的相似度。進一步,從某個蛋白質(zhì)家族中找出一個序列來代表整個家族,或者從一個結(jié)構(gòu)和功能相近的蛋白質(zhì)集合中找到一個序列來代表該集合。根據(jù)擬解決的科學(xué)問題不同,確定代表序列的規(guī)則可能有所差別,但其基本目標均是在最小化冗余度的基礎(chǔ)上,達到最大的覆蓋面。
(2) 成立國際學(xué)會等學(xué)術(shù)組織并制定相應(yīng)規(guī)則,對數(shù)據(jù)結(jié)構(gòu)、單位等進行規(guī)范化統(tǒng)一。在結(jié)構(gòu)、單位等格式統(tǒng)一的前提下,更便于對開放性數(shù)據(jù)實現(xiàn)不同數(shù)據(jù)庫之間的鏈接。
(3) 在蛋白質(zhì)- 基因組- 疾病網(wǎng)絡(luò)關(guān)系圖日漸清晰的現(xiàn)狀下,以疾病(如抗腦卒中、抗抑郁等)為索引,構(gòu)建其信號通路上的蛋白質(zhì)數(shù)據(jù)庫以及藥效團數(shù)據(jù)庫,可便于圍繞疾病開展的藥物設(shè)計與篩選。
基因組學(xué)和蛋白組學(xué)等學(xué)科的飛速進步,使得許多疾病的治療靶標及其三維結(jié)構(gòu)得以發(fā)現(xiàn)或確定,各種蛋白質(zhì)、核酸等生物大分子數(shù)據(jù)庫得到迅速擴充,這為基于結(jié)構(gòu)的CADD和篩選提供了新的機遇。熟練應(yīng)用這些數(shù)據(jù)庫將會給基于結(jié)構(gòu)的CADD和高通量虛擬篩選帶來更大的進步。