周 玥 張心苑 毛雪石
(中國醫(yī)學(xué)科學(xué)院藥物研究所信息中心 北京 100050)
傳統(tǒng)藥物研發(fā)面臨研發(fā)周期長、經(jīng)費投入大、臨床批準(zhǔn)成功率低等方面的挑戰(zhàn),同時藥物研發(fā)人員需要處理和分析海量信息[1]。隨著計算機軟硬件的進步,人工智能理論的發(fā)展和藥理學(xué)數(shù)據(jù)的積累,人工智能技術(shù)的重要分支機器學(xué)習(xí)作為一種強大的數(shù)據(jù)挖掘工具已經(jīng)應(yīng)用于藥物設(shè)計各個領(lǐng)域,如靶點識別、藥物設(shè)計和結(jié)構(gòu)優(yōu)化、藥物重新利用、性質(zhì)評估和臨床試驗等[2]。本文將從機器學(xué)習(xí)重要算法、藥物設(shè)計基本理論和機器學(xué)習(xí)在基于配體和受體虛擬篩選中的應(yīng)用幾個方面進行闡述。
人工智能概念始于1930年艾倫·圖靈的通用圖靈機并在1956年達特茅斯會議上由約翰·麥卡錫正式提出。作為一個交叉學(xué)科,人工智能整合計算機、數(shù)學(xué)、心理學(xué)和語言學(xué)等眾多學(xué)科知識,已應(yīng)用于文字語言處理、圖像影像分析及自主智能領(lǐng)域[2]。從誕生至今人工智能共經(jīng)歷3個發(fā)展高峰期。20世紀(jì)50和60 年代,邏輯推理和啟發(fā)式搜索概念的出現(xiàn)使人機交互成為可能。20世紀(jì)80年代,前饋神經(jīng)網(wǎng)絡(luò)和反向傳播算法的創(chuàng)立成功實現(xiàn)人工智能在化學(xué)和分子生物學(xué)領(lǐng)域的首次探索,完成基于序列信息的蛋白質(zhì)二級結(jié)構(gòu)預(yù)測。2012年至今,深層網(wǎng)絡(luò)模型的成熟使人工智能應(yīng)用拓展到醫(yī)學(xué)圖像分析和自動駕駛車輛等領(lǐng)域[1-2]。
聚焦藥物設(shè)計領(lǐng)域,藥物化學(xué)家基于定量構(gòu)效關(guān)系Hansh模型,逐漸開始應(yīng)用人工智能方法以評估和預(yù)測化學(xué)與生物效應(yīng)的核心問題[3]。20世紀(jì)90年代,神經(jīng)網(wǎng)絡(luò)、支持向量機和隨機森林等方法已開始應(yīng)用于抗癌藥物篩選、蛋白序列設(shè)計和藥物設(shè)計[4-5]。21世紀(jì)以來,人工智能在先導(dǎo)化合物優(yōu)化、活性和毒性預(yù)測等領(lǐng)域取得成功[6]?;谌斯ぶ悄茉谒幬镅邪l(fā)領(lǐng)域的快速發(fā)展,制藥公司開始與人工智能公司開展合作,促進該領(lǐng)域的進一步發(fā)展[7]。
3.1.1 概述 人工智能在藥物設(shè)計中的應(yīng)用即學(xué)習(xí)和解釋與藥物相關(guān)的大數(shù)據(jù)以發(fā)現(xiàn)新藥物算法,以更加綜合和自動的方式結(jié)合機器學(xué)習(xí)的發(fā)展[8]。與傳統(tǒng)方法相比,基于機器學(xué)習(xí)的藥物設(shè)計方法不依賴于基礎(chǔ)原理和理論進步,而是更加注重從龐大生物醫(yī)學(xué)大數(shù)據(jù)中提取新知識。
3.1.2 分類 目前藥物研發(fā)使用最多的機器學(xué)習(xí)方法大致可分為5類:監(jiān)督學(xué)習(xí)(監(jiān)督、半監(jiān)督、非監(jiān)督)、主動學(xué)習(xí)、強化學(xué)習(xí)、遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)[2]。(1)監(jiān)督學(xué)習(xí)。根據(jù)已知的輸入和輸出數(shù)據(jù)關(guān)系訓(xùn)練模型,以預(yù)測新樣本數(shù)據(jù)分類和數(shù)值結(jié)果,主要用于藥物療效和ADMET預(yù)測等[1]。具體而言,可以對給定化合物庫中的分子進行活性和非活性標(biāo)記,通過分析分子特征與生物活性之間的關(guān)系預(yù)測新分子生物活性。(2)非監(jiān)督學(xué)習(xí)。通過識別輸入數(shù)據(jù)中的隱藏模式或固有結(jié)構(gòu)來進行聚類和特征查找,已應(yīng)用于疾病靶點的發(fā)現(xiàn)[1, 9]。(3)主動學(xué)習(xí)。通過關(guān)注結(jié)構(gòu)空間新穎性及最大可能化學(xué)空間領(lǐng)域來輔助選擇過程,同時識別具有針對特定疾病靶標(biāo)的潛在活性新型化合物[7, 10]。(4)強化學(xué)習(xí)。在某種程度上模仿獎勵驅(qū)動的學(xué)習(xí)方式,通過獎勵和懲罰模式來設(shè)計和優(yōu)化系統(tǒng),主要用于從頭藥物設(shè)計領(lǐng)域[1-2]。(5)遷移學(xué)習(xí)和多任務(wù)學(xué)習(xí)。已應(yīng)用于藥物設(shè)計領(lǐng)域[2]。
3.1.3 具體實現(xiàn)算法 包括用于預(yù)測活性的回歸算法,用于分類的隨機森林、樸素貝葉斯和聚類算法,以及用于圖像識別和結(jié)構(gòu)創(chuàng)建的人工神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)等[1-2, 11]。相對于傳統(tǒng)學(xué)習(xí)方法,深度學(xué)習(xí)可以自動從輸入數(shù)據(jù)中學(xué)習(xí)特征,通過多層特征提取將簡單特征轉(zhuǎn)換為復(fù)雜特征。目前比較流行的深度學(xué)習(xí)算法主要有深度神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度自動編碼器神經(jīng)網(wǎng)絡(luò)和生成對抗網(wǎng)絡(luò),已在生物活性預(yù)測、全新藥物設(shè)計與合成及生物圖像分析領(lǐng)域展現(xiàn)出巨大優(yōu)勢[1-2, 11]。
3.2.1 遵循藥物研發(fā)過程 藥物研發(fā)過程主要包括潛在藥物靶標(biāo)發(fā)現(xiàn)與驗證、苗頭化合物發(fā)現(xiàn)、先導(dǎo)化合物結(jié)構(gòu)優(yōu)化和候選化合物確認(rèn)以及臨床前與臨床研究等[6]。機器學(xué)習(xí)在藥物設(shè)計中的應(yīng)用是一個順序過程,包括研究問題的提出、機器學(xué)習(xí)方法結(jié)構(gòu)設(shè)計、數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練與評估,以及結(jié)果理解和解釋等[1-2]。
3.2.2 具體步驟 一是提出研究問題。確認(rèn)特定問題屬于回歸預(yù)測活性任務(wù)、分類區(qū)分活性和非活性任務(wù)或產(chǎn)生新分子的結(jié)構(gòu)性任務(wù)。二是根據(jù)問題和數(shù)據(jù)類型及數(shù)量選擇合適算法并設(shè)置合理初始值。對于回歸預(yù)測任務(wù)多使用邏輯回歸方法;分類區(qū)分任務(wù)則較多使用支持向量機、隨機森林和人工神經(jīng)網(wǎng)絡(luò)等算法;而對于生成性任務(wù),深度學(xué)習(xí)網(wǎng)絡(luò)則更為適用,如深度玻爾茲曼機和深度信念網(wǎng)絡(luò)等。三是數(shù)據(jù)收集準(zhǔn)備,初始數(shù)據(jù)的代表性、質(zhì)量和數(shù)量對人工智能模型質(zhì)量至關(guān)重要。為最大程度地提高可預(yù)測性,用于訓(xùn)練的數(shù)據(jù)需準(zhǔn)確、合理且完整。四是模型訓(xùn)練和評估。通過訓(xùn)練搜尋一組參數(shù)以達到減小誤差的目的?;谏鲜鰴C器學(xué)習(xí)步驟,科研人員可以解決藥物設(shè)計中絕大多數(shù)的問題。但是目前機器學(xué)習(xí)在藥物領(lǐng)域的應(yīng)用還處于早期階段,應(yīng)重視結(jié)果的可解釋性和可重復(fù)性,否則將制約機器學(xué)習(xí)在該領(lǐng)域的進一步發(fā)展。
4.1.1 原理 虛擬篩選已成為藥物研發(fā)過程中一種重要的技術(shù)手段,通過該方法可對大批量化合物進行有效搜索,獲得針對潛在靶標(biāo)的苗頭或先導(dǎo)化合物。虛擬篩選技術(shù)雖然克服了傳統(tǒng)高通量篩選在時間及資源消耗上的不足,但其僅是高通量篩選的補充,減少后期篩選化合物數(shù)量,仍必須與實驗相結(jié)合[12]。
4.1.2 步驟 常規(guī)虛擬篩選流程主要包括3大步驟。首先,基于自創(chuàng)、開源或商用數(shù)據(jù)庫構(gòu)建初始化合物庫,依據(jù)類藥性和假陽性評價標(biāo)準(zhǔn)過濾無法成藥的化合物,進而構(gòu)建篩選化合物庫。其次,依據(jù)靶點結(jié)構(gòu)是否已知,選擇基于結(jié)構(gòu)或配體的虛擬篩選技術(shù),根據(jù)篩選條件獲得理論上具有活性的化合物。最后,通過體外實驗驗證獲得苗頭或先導(dǎo)化合物。在上述過程中涉及大量的參數(shù)擬合、模型評價等工作,這正是機器學(xué)習(xí)優(yōu)勢所在,此外還可以提升整體運算速度,這些優(yōu)點促使研究人員開始使用機器學(xué)習(xí)來完成虛擬篩選相關(guān)工作。
4.2.1 基于機器學(xué)習(xí)的虛擬篩選 將機器學(xué)習(xí)算法和策略有機融合到基于結(jié)構(gòu)和配體的虛擬篩選技術(shù)之中,可以自主完成相關(guān)模型構(gòu)建及參數(shù)擬合工作,提高整體虛擬篩選完成速度、準(zhǔn)確度和客觀性,近年來越來越受到科研人員青睞。應(yīng)用機器學(xué)習(xí)開展虛擬篩選工作,首先要構(gòu)建化學(xué)基因數(shù)據(jù)庫,根據(jù)篩選條件獲得數(shù)據(jù)集。其次要根據(jù)k倍交叉驗證方法和最小化結(jié)構(gòu)風(fēng)險原則以合理方式將數(shù)據(jù)集分為訓(xùn)練集和測試集。之后訓(xùn)練模型并依據(jù)混淆矩陣評價模型性能。最終將訓(xùn)練好的模型應(yīng)用于虛擬篩選[12-14]。
4.2.2 應(yīng)用模型 基于配體的虛擬篩選方法包括相似性搜索、化合物分類和回歸活性預(yù)測3大技術(shù)。應(yīng)用于配體虛擬篩選的機器學(xué)習(xí)方法以分類器為主。具有代表性的模型主要有:樸素貝葉斯、k最近鄰居、支持向量機、隨機森林和人工神經(jīng)網(wǎng)絡(luò)等。樸素貝葉斯模型適用于虛擬篩選分類和獲取特異性結(jié)合于靶點的分子骨架[15]。k最近鄰居模型對于預(yù)測多靶點結(jié)合活性等多任務(wù)學(xué)習(xí)具有明顯優(yōu)勢[12]。支持向量機則可用于化合物分類和合成可及性或水溶性等化合物屬性值預(yù)測[16]。隨機森林可以改善定量構(gòu)效關(guān)系數(shù)據(jù)預(yù)測,也可用于對接打分函數(shù)以及預(yù)測蛋白質(zhì)-配體結(jié)合親和力研究[14]。人工神經(jīng)網(wǎng)絡(luò)常應(yīng)用于潛在藥物靶標(biāo)識別、化合物分類、定量構(gòu)效關(guān)系以及蛋白質(zhì)-配體結(jié)合親和力等研究[6]。
4.2.3 基于結(jié)構(gòu)的藥物設(shè)計 這是一個復(fù)雜過程,主要涉及靶點結(jié)構(gòu)預(yù)測、活性位點識別、配體和受體相互作用識別、對接打分函數(shù)和結(jié)合親和力計算等[2]。靶點結(jié)構(gòu)預(yù)測方面,機器學(xué)習(xí)已用于靶標(biāo)蛋白質(zhì)同源性檢測,扭轉(zhuǎn)角,二級結(jié)構(gòu)、理化性質(zhì)及翻譯后修飾預(yù)測,區(qū)分活性和非活性構(gòu)象以及模型評估等[17-18]。預(yù)測蛋白質(zhì)二級結(jié)構(gòu)的軟件包主要有:基于分類器的ASAP和refineD以及基于深度學(xué)習(xí)網(wǎng)絡(luò)算法的MUFOLD-SS等?;钚晕稽c與相互作用識別方面,機器學(xué)習(xí)可以基于卷積神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)合位點或聯(lián)合決策樹與人工神經(jīng)網(wǎng)絡(luò)識別別構(gòu)位點[19-20]。關(guān)于靶標(biāo)蛋白結(jié)合位點識別的經(jīng)典方法和機器學(xué)習(xí)策略可參考相關(guān)綜述[21-23]。針對活性位點識別的相關(guān)軟件包有:基于3D卷積神經(jīng)網(wǎng)絡(luò)DeepSite和基于隨機森林算法的P2Rank。對接打分函數(shù)和結(jié)合親和力計算方面,主要是通過結(jié)構(gòu)分類、回歸模型和深度學(xué)習(xí)算法來預(yù)測[24-25]。此外深度學(xué)習(xí)網(wǎng)絡(luò)還可應(yīng)用于化合物的反向找靶[25]。Khamis和Colwell[26-27]詳盡闡述有關(guān)機器學(xué)習(xí)在分子對接中的主要應(yīng)用和該領(lǐng)域研究成果,以及深度神經(jīng)網(wǎng)絡(luò)面臨的挑戰(zhàn)。目前關(guān)于親和力計算的軟件包主要有:OnionNet、gnina、KDEEP、DeepAffinity、DeepConv-DTI和 GraphDTA等。
創(chuàng)新藥物設(shè)計雖然克服了傳統(tǒng)藥物設(shè)計中研發(fā)周期長和經(jīng)費投入大等問題,但仍面臨著海量數(shù)據(jù)挖掘與分析的難題。人工智能憑借其技術(shù)優(yōu)勢逐步應(yīng)用于藥物設(shè)計領(lǐng)域,虛擬篩選技術(shù)作為發(fā)現(xiàn)先導(dǎo)化合物的重要來源已成為藥物設(shè)計中的重要組成部分。機器學(xué)習(xí)應(yīng)用于虛擬篩選,可有效提升大量模型構(gòu)建和參數(shù)擬合工作效率,從而獲得更為理想的先導(dǎo)化合物或潛在藥物分子。不同機器學(xué)習(xí)模型適用于虛擬篩選的不同問題,目前比較成熟的應(yīng)用主要集中于基于配體虛擬篩選中的活性預(yù)測與化合物分類,基于受體虛擬篩選的新位點識別與結(jié)合親和力計算。人工智能在創(chuàng)新藥物研發(fā)中的應(yīng)用還涉及先導(dǎo)化合物優(yōu)化、全新藥物設(shè)計和化合物性質(zhì)預(yù)測等。目前越來越多的制藥公司或人工智能公司開始與科研院所合作,共同促進人工智能在藥物研發(fā)中的應(yīng)用與發(fā)展。中國醫(yī)學(xué)科學(xué)院藥物研究所已與元氣制藥合作創(chuàng)建協(xié)和知藥人工智能實驗室。聯(lián)合創(chuàng)建實驗室將發(fā)揮各自優(yōu)勢,有利于醫(yī)藥事業(yè)發(fā)展,對我國創(chuàng)新藥物研發(fā)領(lǐng)域起到推動作用,為生物醫(yī)藥領(lǐng)域做出一定貢獻。