李風(fēng)雷,胡喬宇,熊若凡,白芳
上??萍即髮W(xué) 免疫化學(xué)研究所,上海 201210
隨著科學(xué)技術(shù)的不斷進(jìn)步,藥物研發(fā)已經(jīng)從“偶然發(fā)現(xiàn)”模式逐漸轉(zhuǎn)型為“理性設(shè)計(jì)”模式。特別是計(jì)算機(jī)輔助藥物設(shè)計(jì)(computer aided drug design,CADD)方法的出現(xiàn),極大地豐富了“理性設(shè)計(jì)”技術(shù),作為與實(shí)驗(yàn)技術(shù)互補(bǔ)的關(guān)鍵手段,不斷推動(dòng)著創(chuàng)新藥物的研發(fā)進(jìn)程。
藥物研發(fā)過(guò)程可簡(jiǎn)化為4個(gè)主要階段:靶標(biāo)的鑒定、先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化、臨床前研究以及臨床研究。首先,基于特定的疾病類型,通過(guò)遺傳學(xué)、組學(xué)以及生物信息學(xué)等方法,發(fā)現(xiàn)和鑒定與該疾病的發(fā)生、發(fā)展以及惡化過(guò)程直接相關(guān)的分子靶標(biāo),通過(guò)一系列評(píng)估確定藥物靶標(biāo)。其次,基于已知的藥物靶標(biāo),結(jié)合結(jié)構(gòu)生物學(xué)、計(jì)算機(jī)輔助藥物設(shè)計(jì)、藥物化學(xué)、分子生物化學(xué)、藥理評(píng)價(jià)等方法,尋找先導(dǎo)化合物,再通過(guò)不斷修飾化學(xué)結(jié)構(gòu),優(yōu)化其在有機(jī)體內(nèi)的吸收、分布、代謝、排泄和毒性等性質(zhì)。再次,對(duì)于具有良好成藥性和體外實(shí)驗(yàn)中有效的先導(dǎo)化合物,進(jìn)一步開展臨床前研究,在實(shí)驗(yàn)動(dòng)物、人體類器官上驗(yàn)證先導(dǎo)化合物的藥效和藥代動(dòng)力學(xué)性質(zhì),這一過(guò)程通常是由學(xué)術(shù)界和工業(yè)界合作完成的。最后,經(jīng)過(guò)系統(tǒng)評(píng)估,只有在臨床前研究中藥效與安全性均佳的候選化合物,才能被推向臨床研究與評(píng)估。臨床研究通常也分為4個(gè)階段:主要測(cè)試藥物安全性的臨床I期;在相對(duì)較小的樣本上測(cè)試藥物有效性的臨床II期;在大樣本上測(cè)試藥物有效性的臨床III期;以及上市后長(zhǎng)期觀察的臨床IV期。
近年來(lái),生物制藥行業(yè)的蓬勃發(fā)展,產(chǎn)生并積累了越來(lái)越多的藥物研發(fā)數(shù)據(jù),這為人工智能技術(shù)在藥物研發(fā)行業(yè)的滲入鋪平道路。傳統(tǒng)的CADD在藥物研發(fā)的整個(gè)周期特別是臨床前研究中具有重要的作用。20世紀(jì)90年代以后,大量藥物設(shè)計(jì)計(jì)算方法不斷被提出,助力著藥物研發(fā)的各個(gè)階段。生物醫(yī)學(xué)大數(shù)據(jù)的涌現(xiàn)和人工智能技術(shù)的革新,無(wú)疑將進(jìn)一步促進(jìn)CADD方法的發(fā)展。本文將針對(duì)人工智能技術(shù)(主要是深度學(xué)習(xí)算法)在藥物設(shè)計(jì)方法開發(fā)中的應(yīng)用,進(jìn)行簡(jiǎn)要回顧和總結(jié),以期為藥物設(shè)計(jì)提供更多的思路和方法。
人工智能(artificial intelligence,AI),是指人工制造的機(jī)器系統(tǒng)所表現(xiàn)出來(lái)的智能。該詞語(yǔ)最早由麻省理工學(xué)院的約翰·麥卡錫于1956年在達(dá)特茅斯(Dartmouth)會(huì)議上提出。人工智能的發(fā)展跌宕起伏,并于近年開始加速。特別是大數(shù)據(jù)的出現(xiàn)、并行計(jì)算能力的提升和先進(jìn)算法的提出,使得人工智能的發(fā)展進(jìn)入前所未有的炙熱局面。
機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方式,是人工智能的子領(lǐng)域。機(jī)器學(xué)習(xí)基于已有的數(shù)據(jù)、知識(shí)或者經(jīng)驗(yàn),自動(dòng)識(shí)別和解析(“學(xué)習(xí)”)數(shù)據(jù),總結(jié)有意義的模式,并以此在相似的環(huán)境里做出預(yù)測(cè)或決策。機(jī)器學(xué)習(xí)可分為:有訓(xùn)練標(biāo)簽的監(jiān)督學(xué)習(xí)(supervised learning)、無(wú)訓(xùn)練標(biāo)簽的無(wú)監(jiān)督學(xué)習(xí)(unsupervised learning)、通過(guò)觀察環(huán)境做出動(dòng)作并獲得環(huán)境獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)(reinforcement learning)、有部分訓(xùn)練標(biāo)簽的半監(jiān)督學(xué)習(xí)(semi-supervised learning)、交互式獲得標(biāo)簽的主動(dòng)學(xué)習(xí)(active learning),以及學(xué)習(xí)如何學(xué)習(xí)的元學(xué)習(xí)(meta learning)等。
深度學(xué)習(xí)(deep learning)是機(jī)器學(xué)習(xí)的關(guān)鍵技術(shù)之一。近10年來(lái),深度學(xué)習(xí)技術(shù)一路高歌猛進(jìn),在機(jī)器視覺、自然語(yǔ)言處理、機(jī)器翻譯和路徑規(guī)劃等領(lǐng)域均取得了令人矚目的成績(jī)。人工智能作為引領(lǐng)未來(lái)的戰(zhàn)略性技術(shù),在生命科學(xué)特別是藥物設(shè)計(jì)領(lǐng)域的應(yīng)用得到逐步推廣,對(duì)藥物設(shè)計(jì)方法的研究起著重要的推動(dòng)作用。本文將簡(jiǎn)要介紹一些重要的深度學(xué)習(xí)算法,以及這些算法在藥物設(shè)計(jì)計(jì)算方法中的應(yīng)用。
神經(jīng)網(wǎng)絡(luò)算法是深度學(xué)習(xí)的一個(gè)重要的代表性算法,設(shè)計(jì)靈感來(lái)自生物神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)算法從信息處理角度對(duì)生物神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立神經(jīng)元之間的通信網(wǎng)絡(luò),神經(jīng)元間的不同連接方式組成不同的學(xué)習(xí)網(wǎng)絡(luò)。神經(jīng)元將輸入的“信號(hào)”處理并逐層傳遞,最終獲得輸出。以下介紹幾種簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)形式。
多層感知機(jī)(multi-layer perceptron,MLP)是由一個(gè)輸入層(input layer)、一個(gè)或多個(gè)隱藏層(hidden layer)和一個(gè)輸出層(output layer)構(gòu)成的全連接網(wǎng)絡(luò)(圖1)。全連接網(wǎng)絡(luò)中每個(gè)神經(jīng)元都與前一層的神經(jīng)元相連接,且連接均具有權(quán)重。因此,每個(gè)神經(jīng)元可由前一層的所有神經(jīng)元計(jì)算得出,公式如下:
圖1 多層感知機(jī)
其中,xj是輸入層的神經(jīng)元,hi是隱藏層的神經(jīng)元,ok是輸出層的神經(jīng)元。為了避免網(wǎng)絡(luò)輸入與輸出間線性依賴的局限性,感知機(jī)的神經(jīng)元中還可引入非線性激勵(lì)函數(shù)(如Sigmoid、tanh和Softplus等),使得神經(jīng)元的輸入以非線性的形式映射到輸出端。
卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)一般由卷積層和池化層組成。卷積計(jì)算作為CNN中最重要的部分,可有效地減少神經(jīng)網(wǎng)絡(luò)中的參數(shù)。如圖2所示的網(wǎng)絡(luò)由兩層卷積層構(gòu)成,每一層中的每一步操作均為一個(gè)卷積,用公式表示為:
圖2 卷積神經(jīng)網(wǎng)絡(luò)
其中,f為輸入數(shù)據(jù),g為卷積核。該公式為數(shù)學(xué)定義的卷積,且是一維形式,而在深度學(xué)習(xí)中,往往用到的是高維的形式,并且在實(shí)現(xiàn)的時(shí)候會(huì)做一些修改。一層的卷積操作即是一個(gè)卷積層。增加卷積的層數(shù)、使用殘差網(wǎng)絡(luò)和池化等操作,可進(jìn)一步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)(如VGG、Resnet等)。
循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)是考慮時(shí)間前饋的神經(jīng)網(wǎng)絡(luò)。RNN考慮了輸入的序列性,即每一次輸入都考慮到之前輸出的信息,體現(xiàn)出“記憶功能”,是進(jìn)行實(shí)踐序列分析最好的選擇(圖3)。其模型表示為:
圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)
其中,xi是輸入層的神經(jīng)元,hi是隱藏層的神經(jīng)元,oi是輸出層的神經(jīng)元。對(duì)當(dāng)前學(xué)習(xí)之前的信息有選擇性地輸入,可提高RNN的效果,如長(zhǎng)短期記憶(long short-term memory,LSTM)、門控循環(huán)單元(gated recurrent unit,GRU)等。
圖是一種具有點(diǎn)和邊的結(jié)構(gòu)數(shù)據(jù)。圖神經(jīng)網(wǎng)絡(luò)(graph neural network,GNN)則是一類基于深度學(xué)習(xí)的處理具有圖信息的方法(圖4),由于其較好的性能與可解釋性,已經(jīng)成為一種應(yīng)用廣泛的圖分析方法。圖神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型可表示為:
圖4 圖神經(jīng)網(wǎng)絡(luò)
第i個(gè)點(diǎn)的特征hi是通過(guò)與其相鄰的所有xj點(diǎn)的特征、xi本身的特征和其與xj間的邊ei,j的性質(zhì)綜合得出的。f 和f'是可微函數(shù),g通常為求和、求均值或求最大值函數(shù)等。通過(guò)將狀態(tài)hi與特征ei,j傳遞給g函數(shù),來(lái)計(jì)算GNN的輸出oi。
注意力機(jī)制(attention mechanism)源自人類視覺和大腦處理信號(hào)的機(jī)制。在認(rèn)知中,人類往往會(huì)因?yàn)樾畔嫶蠖x擇性地關(guān)注其中高價(jià)值的一部分而忽略其他信息,即注意力機(jī)制。處理數(shù)據(jù)時(shí),注意力機(jī)制模型對(duì)數(shù)據(jù)構(gòu)成元素引入了查詢(query)、鍵(key)和值 (value)構(gòu)成數(shù)據(jù)對(duì),通過(guò)計(jì)算查詢與鍵之間的相關(guān)性或者相似性,得到鍵對(duì)應(yīng)于值的權(quán)重系數(shù)(圖5)。注意力機(jī)制可描述為:
圖5 注意力機(jī)制
其中:q(query)在匹配ki(key)后與vi(value)結(jié)合,從而增加需要“注意力”部分的權(quán)重;α是注意力打分函數(shù),不同的打分函數(shù)有不同的效果。在注意力機(jī)制模型基礎(chǔ)上,衍生出Transformer[1]、Bert[2]等更高級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)。
目前已有多種深度學(xué)習(xí)框架,如PyTorch、TensorFlow、Paddle和Keras等,為神經(jīng)網(wǎng)絡(luò)的搭建提供了平臺(tái),給開發(fā)基于深度學(xué)習(xí)的應(yīng)用模型帶來(lái)極大便利。截至目前,已有多個(gè)基于深度學(xué)習(xí)算法的工具包,如DeepChem[3]、DeepPurpose[4]和OpenChem[5]等,在此基礎(chǔ)上結(jié)合簡(jiǎn)單的深度學(xué)習(xí)算法的成功建立,為用戶采用新的數(shù)據(jù)集進(jìn)行訓(xùn)練提供了直接的工具。
藥物研發(fā)過(guò)程主要包括藥物靶標(biāo)發(fā)現(xiàn)、先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化、候選藥物的確定和成藥性優(yōu)化等步驟。近年來(lái),深度學(xué)習(xí)在藥物研發(fā)中的應(yīng)用日漸廣泛,以下將分別介紹深度學(xué)習(xí)算法在藥物研發(fā)各步驟中的應(yīng)用現(xiàn)狀。
藥物靶標(biāo)發(fā)現(xiàn)是現(xiàn)代藥物研發(fā)模式中的第一步,也是決定新藥研發(fā)成功與否的關(guān)鍵步驟。傳統(tǒng)的藥物靶標(biāo)發(fā)現(xiàn)方法,主要是通過(guò)分析基因組學(xué)、蛋白質(zhì)組學(xué)數(shù)據(jù)尋找疾病相關(guān)的潛在靶標(biāo)。這些靶標(biāo)可能是蛋白質(zhì)、核酸(DNA、RNA)或其他生物大分子。隨后,研究者使用細(xì)胞生物學(xué)、遺傳學(xué)以及分子生物學(xué)的方法來(lái)驗(yàn)證潛在靶點(diǎn)的可成藥性,包括靶標(biāo)的功能機(jī)制、靶標(biāo)與疾病的相關(guān)性和藥物分子可設(shè)計(jì)性等,進(jìn)而確定藥物靶標(biāo)。已經(jīng)報(bào)道的藥物靶標(biāo)發(fā)現(xiàn)的計(jì)算方法主要分為兩類:①基于反向分子對(duì)接的策略(如IdTarget[6]和TarFishDock[7]),該類方法計(jì)算量大,且受限于候選靶點(diǎn)結(jié)構(gòu)的準(zhǔn)確性,對(duì)于結(jié)構(gòu)未知的體系無(wú)法準(zhǔn)確預(yù)測(cè);②以相似化合物具有相似的作用靶點(diǎn)為前提,通過(guò)比較發(fā)現(xiàn)的活性化合物與已知靶點(diǎn)的活性化合物的結(jié)構(gòu)相似性,建立化合物與靶點(diǎn)之間間接關(guān)聯(lián)網(wǎng)絡(luò),從而揭示候選藥物靶點(diǎn)的方法(如ChemMapper[8]、PharmMapper[9]和SwissTargetPrediction[10]等),該類方法依賴于小分子-靶標(biāo)信息的數(shù)據(jù),因此在化學(xué)結(jié)構(gòu)新穎的小分子上效果較差。除此之外,還有針對(duì)潛在靶點(diǎn)的成藥性位點(diǎn)發(fā)現(xiàn)與評(píng)價(jià)方法(如Fd-DCA[11]等)也存在一定的局限性。基于深度學(xué)習(xí)的算法可以有效地綜合來(lái)自多種數(shù)據(jù)集的信息,進(jìn)而給出更加準(zhǔn)確的預(yù)測(cè),如DeepDTnet[12]根據(jù)構(gòu)建的藥物-基因-疾病網(wǎng)絡(luò)就使用了圖表示學(xué)習(xí)來(lái)進(jìn)行靶標(biāo)識(shí)別。通過(guò)采用該方法,研究者預(yù)測(cè)發(fā)現(xiàn)了Topotecan是ROR-γt(retinoic-acid-receptor-related orphan receptor-γt)的抑制劑,并得到實(shí)驗(yàn)的驗(yàn)證。這些方法的出現(xiàn),無(wú)疑加速了藥物靶點(diǎn)的發(fā)現(xiàn)與評(píng)價(jià)進(jìn)程。
蛋白質(zhì)-蛋白質(zhì)相互作用是一類重要的藥物靶點(diǎn),已經(jīng)有多種針對(duì)蛋白質(zhì)-蛋白質(zhì)相互作用的藥物成功上市。然而,預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用仍富有挑戰(zhàn)性。2019年,David Baker等[13]利用蛋白氨基酸序列作用位點(diǎn)的共進(jìn)化理論與分子對(duì)接相結(jié)合的方法,通過(guò)發(fā)展計(jì)算方法成功預(yù)測(cè)了1 618組大腸桿菌蛋白對(duì)和384組未見報(bào)道的結(jié)核桿菌蛋白質(zhì)-蛋白質(zhì)相互作用對(duì)。然而,對(duì)于包括人類在內(nèi)的真核生物而言,共進(jìn)化分析所具有的同源序列信息較少。因此,基于統(tǒng)計(jì)算法的共進(jìn)化分析方法的預(yù)測(cè)準(zhǔn)確性便受到了極大的限制。深度學(xué)習(xí)方法對(duì)該領(lǐng)域的發(fā)展起到一定的推動(dòng)作用(如DPPI[14]使用了卷積、隨機(jī)投影和全連接預(yù)測(cè)3個(gè)模塊構(gòu)成的神經(jīng)網(wǎng)絡(luò)),通過(guò)對(duì)蛋白質(zhì)-蛋白質(zhì)作用對(duì)的序列氨基酸組成、順序以及互作結(jié)構(gòu)域序列的共同性特征等進(jìn)行學(xué)習(xí),發(fā)展了只依賴于氨基酸序列預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)互作的計(jì)算模型,在測(cè)試中其精度-回歸曲線auPR得分約41%(人源測(cè)試集)。另外,如MaSIF[15]使用了幾何神經(jīng)網(wǎng)絡(luò)(geometric neural network),將蛋白質(zhì)表面的幾何特征、化學(xué)特征與生物大分子間的互作關(guān)系相聯(lián)系,建立了蛋白質(zhì)-蛋白質(zhì)互作以及蛋白質(zhì)-小分子互作位點(diǎn)的預(yù)測(cè)方法,在蛋白質(zhì)-蛋白質(zhì)互作位點(diǎn)預(yù)測(cè)上每個(gè)蛋白的ROC AUC的中位數(shù)為0.81。
傳統(tǒng)的蛋白質(zhì)功能預(yù)測(cè)方式基于相似序列具有相似功能的進(jìn)化理論,利用蛋白質(zhì)之間的序列相似性,通過(guò)尋找與靶標(biāo)蛋白序列相似,且功能明確的同源蛋白來(lái)間接推測(cè)其功能(如BLAST[16]、PSI-BLAST[17]、HMMER[18]等)。近年來(lái),一些研究開始通過(guò)綜合學(xué)習(xí)序列信息和已知的蛋白質(zhì)結(jié)構(gòu),發(fā)展預(yù)測(cè)模型來(lái)預(yù)測(cè)蛋白質(zhì)的功能。在2019—2020年蛋白功能預(yù)測(cè)大賽(critical assessment of functional annotation,CAFA)中,DeepGO[19]對(duì)蛋白序列編碼后使用卷積神經(jīng)網(wǎng)絡(luò)獲得潛在編碼,并通過(guò)STRING[20]數(shù)據(jù)庫(kù)中的蛋白-蛋白互作網(wǎng)絡(luò)為每個(gè)蛋白生成圖嵌入編碼,隨后將這兩種編碼合并后送入分類層,從而預(yù)測(cè)功能。TALE[21]使用基于自注意力(selfattention)Transformer來(lái)捕捉序列中的全局特征,進(jìn)一步提高了對(duì)蛋白質(zhì)功能預(yù)測(cè)準(zhǔn)確性(其精度-回歸曲線下面積AuPRC在不同的測(cè)試集和GO的不同子類中均比DeepGO高)。特別地,作者聲稱該方法對(duì)于同源序列信息缺乏的體系具有一定的優(yōu)勢(shì)。
藥物設(shè)計(jì)中,先導(dǎo)化合物的發(fā)現(xiàn)途徑主要分為基于配體和基于靶標(biāo)受體的兩種藥物設(shè)計(jì)方法?;谂潴w的藥物設(shè)計(jì),認(rèn)為具有相同理化性質(zhì)或結(jié)構(gòu)的化合物應(yīng)具有相同或相似的作用靶點(diǎn)及活性。因此,該方法策略是基于已知的活性化合物配體的結(jié)構(gòu)及其活性信息,通過(guò)建立其結(jié)構(gòu)與藥效關(guān)系模型,來(lái)預(yù)測(cè)和評(píng)價(jià)新化學(xué)結(jié)構(gòu)的相關(guān)生物學(xué)活性。其中,定量構(gòu)效關(guān)系(quantitative structure-activity relationship,QSAR)是基于配體藥物設(shè)計(jì)的主要方法之一,以配體(藥物)的化學(xué)結(jié)構(gòu)標(biāo)識(shí)符和活性作為輸入,通過(guò)多元線性回歸、偏最小二乘回歸和小波核偏最小二乘回歸等方法,建立化學(xué)結(jié)構(gòu)標(biāo)識(shí)符與配體活性之間的關(guān)系。傳統(tǒng)的QSAR方法依賴于大量的配體-活性關(guān)系數(shù)據(jù),同時(shí)受限于已知活性配體的化學(xué)結(jié)構(gòu)空間。因此,傳統(tǒng)的QSAR方法具有較大的改進(jìn)空間。近年來(lái),深度學(xué)習(xí)的發(fā)展顯著提高了QSAR方法的準(zhǔn)確性和魯棒性。Ma等[22]使用全連接的深度神經(jīng)網(wǎng)絡(luò)作為構(gòu)建QSAR模型的方法。之后,他們又改進(jìn)為多任務(wù)深度神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練不同任務(wù)的組合,他們發(fā)現(xiàn),如果輔助任務(wù)的訓(xùn)練集與主任務(wù)的測(cè)試集的分子有較大的相似性,且兩個(gè)任務(wù)的目標(biāo)有生物活動(dòng)關(guān)聯(lián)性時(shí)可以提高主任務(wù)的預(yù)測(cè),若沒有關(guān)聯(lián)則會(huì)降低預(yù)測(cè),而若兩個(gè)任務(wù)的數(shù)據(jù)集不同時(shí)對(duì)主任務(wù)的影響不大。
除基于配體的藥物設(shè)計(jì)策略之外,基于結(jié)構(gòu)的藥物設(shè)計(jì)也是藥物研發(fā)中的重要策略之一。該策略的傳統(tǒng)的流程為:獲取藥物靶標(biāo)的三維結(jié)構(gòu)—確定藥物靶標(biāo)結(jié)構(gòu)中的活性位點(diǎn)—使用分子對(duì)接等方法進(jìn)行化合物的虛擬篩選。
隨著結(jié)構(gòu)生物學(xué)的發(fā)展,獲得藥物靶標(biāo)三維空間結(jié)構(gòu)的方法已經(jīng)日漸成熟。如,AlphaFold[24]使用殘差卷積神經(jīng)網(wǎng)絡(luò),進(jìn)行多序列比對(duì)(multiple sequence alignment,MSA)求出殘基之間的距離矩陣,據(jù)此求出勢(shì)能并通過(guò)Rosetta[25]獲得結(jié)構(gòu)。TrRosetta[26]在氨基酸距離矩陣的基礎(chǔ)上,引入氨基酸構(gòu)象角度矩陣,進(jìn)一步提高結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確度。近日,AlphaFold2[27]的出現(xiàn),實(shí)現(xiàn)了蛋白質(zhì)結(jié)構(gòu)領(lǐng)域的極大突破,并在CASP14(critical assessment of techniques for protein structure prediction 14)上的表現(xiàn)一騎絕塵,在一些較難體系中,其全局距離測(cè)試得分(global distance test score)為90,而其他隊(duì)伍僅為75分左右!
RNA的結(jié)構(gòu)預(yù)測(cè)一般集中在二級(jí)結(jié)構(gòu)預(yù)測(cè)上,如MXfold2[28]使用卷積雙向LSTM等網(wǎng)絡(luò)層,輸入RNA序列,輸出相對(duì)堿基處于4種不同折疊狀態(tài)的得分,然后使用動(dòng)態(tài)規(guī)劃預(yù)測(cè)最優(yōu)二級(jí)結(jié)構(gòu)。SPOT-RNA[29]與MXfold2的輸入和網(wǎng)絡(luò)相似,不同之處是其網(wǎng)絡(luò)結(jié)構(gòu)使用了遷移學(xué)習(xí),輸出為堿基與其他堿基形成氫鍵的可能性。而SPOT-RNA2的輸入加上了經(jīng)過(guò)LinearPartition[30]和RNAcmap[31]處理后的特征,且簡(jiǎn)化了網(wǎng)絡(luò)。還有針對(duì)RNA結(jié)構(gòu)的穩(wěn)定性評(píng)判的計(jì)算方法,如RNA3DCNN[32]使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練了基于知識(shí)的打分函數(shù),可用于評(píng)價(jià)RNA三維結(jié)構(gòu)的合理性。
與獲得靶標(biāo)三維結(jié)構(gòu)相比,確定藥物靶標(biāo)結(jié)構(gòu)中的活性位點(diǎn)同樣重要。對(duì)于無(wú)已知活性化合物的藥物靶標(biāo),需要通過(guò)可藥性結(jié)合位點(diǎn)的預(yù)測(cè)方法來(lái)預(yù)測(cè)藥物設(shè)計(jì)位點(diǎn)。傳統(tǒng)的方法是使用探針?lè)肿?,通過(guò)分子對(duì)接模擬的方法或靶標(biāo)空腔(cavity)掃描等方法(如FTMap[33]和Fd-DCA[11]),尋找探針小分子集中結(jié)合的位點(diǎn),作為預(yù)測(cè)的可藥性位點(diǎn)。近日,一些基于深度學(xué)習(xí)算法的可藥性位點(diǎn)的預(yù)測(cè)方法先后被報(bào)道。BiteNet[34]采用三維卷積神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)小分子-蛋白質(zhì)復(fù)合物結(jié)構(gòu)體系進(jìn)行學(xué)習(xí),從而建立藥物設(shè)計(jì)位點(diǎn)的預(yù)測(cè)模型,該模型在GPCR、EGFR等體系都進(jìn)行了應(yīng)用測(cè)試,在精度與計(jì)算速度方面均表現(xiàn)出一定優(yōu)勢(shì)。PointSite[35]將蛋白質(zhì)三維結(jié)構(gòu)轉(zhuǎn)換為點(diǎn)云,采用基于U-Net的子流形卷積(submanifold sparse convolution)方法進(jìn)行分割,通過(guò)結(jié)合原子級(jí)表示和增強(qiáng)學(xué)習(xí)的手段,發(fā)展了可在原子水平預(yù)測(cè)蛋白質(zhì)上小分子結(jié)合位點(diǎn)的算法。
當(dāng)確定藥物靶標(biāo)的活性位點(diǎn)之后,便可采用分子對(duì)接的方法進(jìn)行小分子化合物的虛擬篩選,即先導(dǎo)化合物的發(fā)現(xiàn)工作。傳統(tǒng)的分子對(duì)接方法主要包括兩個(gè)重要的模塊,分子構(gòu)象搜索與打分函數(shù)。打分函數(shù)是評(píng)價(jià)小分子與藥物靶標(biāo)親和力的函數(shù),是指導(dǎo)分子三維構(gòu)象優(yōu)化的目標(biāo)函數(shù),是決定分子對(duì)接方法效率的關(guān)鍵因素。然而,傳統(tǒng)的分子對(duì)接打分函數(shù)基于力場(chǎng)和經(jīng)驗(yàn)參數(shù),在不同的藥物靶標(biāo)中很難同時(shí)取得良好的效果。因此,在先導(dǎo)化合物的發(fā)現(xiàn)過(guò)程中,仍然十分依賴藥物化學(xué)家的經(jīng)驗(yàn)判斷。深度學(xué)習(xí)的方法直接從已有的復(fù)合物結(jié)構(gòu)以及化合物-蛋白質(zhì)的實(shí)驗(yàn)結(jié)合親和力數(shù)據(jù)來(lái)建立預(yù)測(cè)藥物-靶標(biāo)結(jié)合親和力模型。DeepDTA[36]使用了蛋白質(zhì)殘基序列,小分子結(jié)構(gòu)SMILES(simplified molecular input line entry specification)編碼,采用卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練蛋白質(zhì)、小分子與結(jié)合親和力間的相關(guān)性的深度學(xué)習(xí)模型。另外,OnionNet[37]使用CNN網(wǎng)絡(luò),通過(guò)同時(shí)考慮蛋白質(zhì)-小分子局部互作模式以及非局部互作模式,發(fā)展了小分子-蛋白質(zhì)親和力預(yù)測(cè)方法。在測(cè)試中,其結(jié)合親和力預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性可達(dá)73%。除此之外,基于深度學(xué)習(xí)算法發(fā)展的小分子-蛋白質(zhì)親和力算法還有KDEEP[38]、RosENet[39]和DeepGS[40]等。鑒于篇幅所限,在此不一一贅述。
藥物的化學(xué)合成是制約新藥研發(fā)速度的關(guān)鍵過(guò)程。早期有機(jī)化學(xué)研究積累了大量的化合物數(shù)據(jù)以及合成路線信息,為設(shè)計(jì)新化合物并預(yù)測(cè)其可合成性提供了重要的學(xué)習(xí)信息。然而,對(duì)于真實(shí)的化學(xué)空間而言,人類目前所能成功合成的化學(xué)結(jié)構(gòu)只是冰山一角。因此,設(shè)計(jì)具有新穎化學(xué)結(jié)構(gòu)的化合物,并準(zhǔn)確評(píng)價(jià)其可合成性的方法,將有力地推動(dòng)新藥研發(fā)的進(jìn)程。針對(duì)上述問(wèn)題,已有眾多基于深度學(xué)習(xí)算法發(fā)展的用于類藥性分子生成和有機(jī)分子的逆合成分析的方法被報(bào)道。對(duì)于分子生成方法,Méndez-Lucio等[41]使用生成式對(duì)抗網(wǎng)絡(luò)[42](generative adversarial networks,GAN),在對(duì)SMILES編碼時(shí),使用了基于GRU的編碼器和解碼器,依賴于L1000數(shù)據(jù)庫(kù)中小分子與基因表達(dá)差異的影響數(shù)據(jù),建立了小分子與其對(duì)基因表達(dá)間的深度學(xué)習(xí)模型。該模型可根據(jù)某個(gè)基因敲除的基因表達(dá)圖譜,生成具有特定調(diào)控基因表達(dá)功能的全新小分子。此外,ReLeaSE[43]使用了強(qiáng)化學(xué)習(xí)算法(其中網(wǎng)絡(luò)部分使用到Stack-RNN)生成具有特定性質(zhì)的分子。使用分子的圖結(jié)構(gòu)信息發(fā)展的分子生成方法,如DeepGraphMolGen[44]使用了基于圖卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法,生成具有類藥性和可合成性的分子。
對(duì)于有機(jī)化學(xué)分子的逆合成分析,Liu等[45]使用了具有Attention機(jī)制的RNN,輸入已有目標(biāo)分子的SMILES和特定的化學(xué)反應(yīng)類型,建立可預(yù)測(cè)反應(yīng)產(chǎn)物的深度學(xué)習(xí)模型。此外,G2Gs[46]以一種圖到圖的框架,同樣以上述信息作為學(xué)習(xí)數(shù)據(jù),建立了預(yù)測(cè)模型來(lái)預(yù)測(cè)合成反應(yīng)產(chǎn)物。
藥物的吸收(absorption)、分布(distribution)、代謝(metabolism)、排泄(excretion)和毒性(toxicity)等性質(zhì),合稱ADMET性質(zhì),決定了藥物在臨床研究中的成功率。其中,藥物毒性的評(píng)價(jià)對(duì)于臨床前研究至關(guān)重要。使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)藥物的ADMET性質(zhì)已被廣泛報(bào)道。2012年,唐赟課題組報(bào)道了基于機(jī)器學(xué)習(xí)技術(shù)發(fā)展的ADMET性質(zhì)預(yù)測(cè)方法admetSAR[47],之后通過(guò)進(jìn)一步豐富數(shù)據(jù)庫(kù),加入網(wǎng)絡(luò)算法升級(jí)到admetSAR2.0版本[48]。此外,如Chemi-net[49]將分子轉(zhuǎn)為圖結(jié)構(gòu),并使用圖卷積來(lái)預(yù)測(cè)ADMET性質(zhì)。Wenzel等[50]使用全連接的深度神經(jīng)網(wǎng)絡(luò)發(fā)展了ADMET預(yù)測(cè)模型。ADMET預(yù)測(cè)模型是藥物設(shè)計(jì)領(lǐng)域中機(jī)器學(xué)習(xí)算法最先介入后的研究成果。截至目前,基于AI算法而發(fā)展的預(yù)測(cè)模型也極其豐富,鑒于篇幅所限不再一一展開。
本文以介紹重要的深度學(xué)習(xí)算法為切入點(diǎn),沿著藥物研發(fā)主線,回顧了多種深度學(xué)習(xí)算法在藥物研發(fā)初期的幾個(gè)關(guān)鍵環(huán)節(jié)中的應(yīng)用進(jìn)展。深度學(xué)習(xí)算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)與分子生成等諸多領(lǐng)域已經(jīng)取得顯著的成功。然而,仍有以下幾個(gè)方面有待進(jìn)一步探索:①數(shù)據(jù)集的數(shù)量和質(zhì)量是改進(jìn)深度學(xué)習(xí)的必要條件,如何有效產(chǎn)生、高效收集和準(zhǔn)確處理數(shù)據(jù)將是進(jìn)一步基于深度學(xué)習(xí)的藥物設(shè)計(jì)關(guān)鍵問(wèn)題;②如何設(shè)計(jì)和開發(fā)更高效且適宜于藥物設(shè)計(jì)的深度學(xué)習(xí)算法,是進(jìn)一步改進(jìn)藥物設(shè)計(jì)方法的另一關(guān)鍵;③如何針對(duì)藥物設(shè)計(jì)中的不同問(wèn)題,合理設(shè)計(jì)和提取學(xué)習(xí)特征,是彌補(bǔ)輸入數(shù)據(jù)不足或網(wǎng)絡(luò)學(xué)習(xí)能力不佳的關(guān)鍵手段。綜上,鑒于深度學(xué)習(xí)算法在藥物設(shè)計(jì)方法發(fā)展方面已經(jīng)取得的成績(jī),以及生物醫(yī)藥行業(yè)技術(shù)的不斷革新,我們對(duì)AI驅(qū)動(dòng)的藥物設(shè)計(jì)的未來(lái)充滿信心,相信將有更多高效、高質(zhì)量的藥物設(shè)計(jì)方法被開發(fā)出來(lái)并推廣應(yīng)用。