基于深度學(xué)習(xí)的藥物設(shè)計(jì)方法

2021-10-27 08:25李風(fēng)雷胡喬宇熊若凡白芳

自然雜志 2021年5期

李風(fēng)雷，胡喬宇，熊若凡，白芳

上?？萍即髮W(xué) 免疫化學(xué)研究所，上海 201210

隨著科學(xué)技術(shù)的不斷進(jìn)步，藥物研發(fā)已經(jīng)從“偶然發(fā)現(xiàn)”模式逐漸轉(zhuǎn)型為“理性設(shè)計(jì)”模式。特別是計(jì)算機(jī)輔助藥物設(shè)計(jì)（computer aided drug design,CADD）方法的出現(xiàn)，極大地豐富了“理性設(shè)計(jì)”技術(shù)，作為與實(shí)驗(yàn)技術(shù)互補(bǔ)的關(guān)鍵手段，不斷推動(dòng)著創(chuàng)新藥物的研發(fā)進(jìn)程。

藥物研發(fā)過(guò)程可簡(jiǎn)化為4個(gè)主要階段：靶標(biāo)的鑒定、先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化、臨床前研究以及臨床研究。首先，基于特定的疾病類型，通過(guò)遺傳學(xué)、組學(xué)以及生物信息學(xué)等方法，發(fā)現(xiàn)和鑒定與該疾病的發(fā)生、發(fā)展以及惡化過(guò)程直接相關(guān)的分子靶標(biāo)，通過(guò)一系列評(píng)估確定藥物靶標(biāo)。其次，基于已知的藥物靶標(biāo)，結(jié)合結(jié)構(gòu)生物學(xué)、計(jì)算機(jī)輔助藥物設(shè)計(jì)、藥物化學(xué)、分子生物化學(xué)、藥理評(píng)價(jià)等方法，尋找先導(dǎo)化合物，再通過(guò)不斷修飾化學(xué)結(jié)構(gòu)，優(yōu)化其在有機(jī)體內(nèi)的吸收、分布、代謝、排泄和毒性等性質(zhì)。再次，對(duì)于具有良好成藥性和體外實(shí)驗(yàn)中有效的先導(dǎo)化合物，進(jìn)一步開展臨床前研究，在實(shí)驗(yàn)動(dòng)物、人體類器官上驗(yàn)證先導(dǎo)化合物的藥效和藥代動(dòng)力學(xué)性質(zhì)，這一過(guò)程通常是由學(xué)術(shù)界和工業(yè)界合作完成的。最后，經(jīng)過(guò)系統(tǒng)評(píng)估，只有在臨床前研究中藥效與安全性均佳的候選化合物，才能被推向臨床研究與評(píng)估。臨床研究通常也分為4個(gè)階段：主要測(cè)試藥物安全性的臨床I期；在相對(duì)較小的樣本上測(cè)試藥物有效性的臨床II期；在大樣本上測(cè)試藥物有效性的臨床III期；以及上市后長(zhǎng)期觀察的臨床IV期。

近年來(lái)，生物制藥行業(yè)的蓬勃發(fā)展，產(chǎn)生并積累了越來(lái)越多的藥物研發(fā)數(shù)據(jù)，這為人工智能技術(shù)在藥物研發(fā)行業(yè)的滲入鋪平道路。傳統(tǒng)的CADD在藥物研發(fā)的整個(gè)周期特別是臨床前研究中具有重要的作用。20世紀(jì)90年代以后，大量藥物設(shè)計(jì)計(jì)算方法不斷被提出，助力著藥物研發(fā)的各個(gè)階段。生物醫(yī)學(xué)大數(shù)據(jù)的涌現(xiàn)和人工智能技術(shù)的革新，無(wú)疑將進(jìn)一步促進(jìn)CADD方法的發(fā)展。本文將針對(duì)人工智能技術(shù)（主要是深度學(xué)習(xí)算法）在藥物設(shè)計(jì)方法開發(fā)中的應(yīng)用，進(jìn)行簡(jiǎn)要回顧和總結(jié)，以期為藥物設(shè)計(jì)提供更多的思路和方法。

1 人工智能與深度學(xué)習(xí)技術(shù)

人工智能（artificial intelligence,AI），是指人工制造的機(jī)器系統(tǒng)所表現(xiàn)出來(lái)的智能。該詞語(yǔ)最早由麻省理工學(xué)院的約翰·麥卡錫于1956年在達(dá)特茅斯（Dartmouth）會(huì)議上提出。人工智能的發(fā)展跌宕起伏，并于近年開始加速。特別是大數(shù)據(jù)的出現(xiàn)、并行計(jì)算能力的提升和先進(jìn)算法的提出，使得人工智能的發(fā)展進(jìn)入前所未有的炙熱局面。

機(jī)器學(xué)習(xí)是實(shí)現(xiàn)人工智能的一種方式，是人工智能的子領(lǐng)域。機(jī)器學(xué)習(xí)基于已有的數(shù)據(jù)、知識(shí)或者經(jīng)驗(yàn)，自動(dòng)識(shí)別和解析（“學(xué)習(xí)”）數(shù)據(jù)，總結(jié)有意義的模式，并以此在相似的環(huán)境里做出預(yù)測(cè)或決策。機(jī)器學(xué)習(xí)可分為：有訓(xùn)練標(biāo)簽的監(jiān)督學(xué)習(xí)（supervised learning）、無(wú)訓(xùn)練標(biāo)簽的無(wú)監(jiān)督學(xué)習(xí)（unsupervised learning）、通過(guò)觀察環(huán)境做出動(dòng)作并獲得環(huán)境獎(jiǎng)勵(lì)的強(qiáng)化學(xué)習(xí)（reinforcement learning）、有部分訓(xùn)練標(biāo)簽的半監(jiān)督學(xué)習(xí)（semi-supervised learning）、交互式獲得標(biāo)簽的主動(dòng)學(xué)習(xí)（active learning），以及學(xué)習(xí)如何學(xué)習(xí)的元學(xué)習(xí)（meta learning）等。

深度學(xué)習(xí)（deep learning）是機(jī)器學(xué)習(xí)的關(guān)鍵技術(shù)之一。近10年來(lái)，深度學(xué)習(xí)技術(shù)一路高歌猛進(jìn)，在機(jī)器視覺、自然語(yǔ)言處理、機(jī)器翻譯和路徑規(guī)劃等領(lǐng)域均取得了令人矚目的成績(jī)。人工智能作為引領(lǐng)未來(lái)的戰(zhàn)略性技術(shù)，在生命科學(xué)特別是藥物設(shè)計(jì)領(lǐng)域的應(yīng)用得到逐步推廣，對(duì)藥物設(shè)計(jì)方法的研究起著重要的推動(dòng)作用。本文將簡(jiǎn)要介紹一些重要的深度學(xué)習(xí)算法，以及這些算法在藥物設(shè)計(jì)計(jì)算方法中的應(yīng)用。

2 神經(jīng)網(wǎng)絡(luò)算法

神經(jīng)網(wǎng)絡(luò)算法是深度學(xué)習(xí)的一個(gè)重要的代表性算法，設(shè)計(jì)靈感來(lái)自生物神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)算法從信息處理角度對(duì)生物神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象，建立神經(jīng)元之間的通信網(wǎng)絡(luò)，神經(jīng)元間的不同連接方式組成不同的學(xué)習(xí)網(wǎng)絡(luò)。神經(jīng)元將輸入的“信號(hào)”處理并逐層傳遞，最終獲得輸出。以下介紹幾種簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)形式。

2.1 多層感知機(jī)

多層感知機(jī)（multi-layer perceptron,MLP）是由一個(gè)輸入層（input layer）、一個(gè)或多個(gè)隱藏層（hidden layer）和一個(gè)輸出層（output layer）構(gòu)成的全連接網(wǎng)絡(luò)（圖1）。全連接網(wǎng)絡(luò)中每個(gè)神經(jīng)元都與前一層的神經(jīng)元相連接，且連接均具有權(quán)重。因此，每個(gè)神經(jīng)元可由前一層的所有神經(jīng)元計(jì)算得出，公式如下：

圖1 多層感知機(jī)

其中，xj是輸入層的神經(jīng)元，hi是隱藏層的神經(jīng)元，ok是輸出層的神經(jīng)元。為了避免網(wǎng)絡(luò)輸入與輸出間線性依賴的局限性，感知機(jī)的神經(jīng)元中還可引入非線性激勵(lì)函數(shù)（如Sigmoid、tanh和Softplus等），使得神經(jīng)元的輸入以非線性的形式映射到輸出端。

2.2 卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)（convolution neural network,CNN）一般由卷積層和池化層組成。卷積計(jì)算作為CNN中最重要的部分，可有效地減少神經(jīng)網(wǎng)絡(luò)中的參數(shù)。如圖2所示的網(wǎng)絡(luò)由兩層卷積層構(gòu)成，每一層中的每一步操作均為一個(gè)卷積，用公式表示為：

圖2 卷積神經(jīng)網(wǎng)絡(luò)

其中，f為輸入數(shù)據(jù)，g為卷積核。該公式為數(shù)學(xué)定義的卷積，且是一維形式，而在深度學(xué)習(xí)中，往往用到的是高維的形式，并且在實(shí)現(xiàn)的時(shí)候會(huì)做一些修改。一層的卷積操作即是一個(gè)卷積層。增加卷積的層數(shù)、使用殘差網(wǎng)絡(luò)和池化等操作，可進(jìn)一步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)（如VGG、Resnet等）。

2.3 循環(huán)神經(jīng)網(wǎng)絡(luò)

循環(huán)神經(jīng)網(wǎng)絡(luò)（recurrent neural network,RNN）是考慮時(shí)間前饋的神經(jīng)網(wǎng)絡(luò)。RNN考慮了輸入的序列性，即每一次輸入都考慮到之前輸出的信息，體現(xiàn)出“記憶功能”，是進(jìn)行實(shí)踐序列分析最好的選擇（圖3）。其模型表示為：

圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)

其中，xi是輸入層的神經(jīng)元，hi是隱藏層的神經(jīng)元，oi是輸出層的神經(jīng)元。對(duì)當(dāng)前學(xué)習(xí)之前的信息有選擇性地輸入，可提高RNN的效果，如長(zhǎng)短期記憶（long short-term memory,LSTM）、門控循環(huán)單元（gated recurrent unit,GRU）等。

2.4 圖神經(jīng)網(wǎng)絡(luò)

圖是一種具有點(diǎn)和邊的結(jié)構(gòu)數(shù)據(jù)。圖神經(jīng)網(wǎng)絡(luò)（graph neural network,GNN）則是一類基于深度學(xué)習(xí)的處理具有圖信息的方法（圖4），由于其較好的性能與可解釋性，已經(jīng)成為一種應(yīng)用廣泛的圖分析方法。圖神經(jīng)網(wǎng)絡(luò)的數(shù)學(xué)模型可表示為：

圖4 圖神經(jīng)網(wǎng)絡(luò)

第i個(gè)點(diǎn)的特征hi是通過(guò)與其相鄰的所有xj點(diǎn)的特征、xi本身的特征和其與xj間的邊ei,j的性質(zhì)綜合得出的。f 和f＇是可微函數(shù)，g通常為求和、求均值或求最大值函數(shù)等。通過(guò)將狀態(tài)hi與特征ei,j傳遞給g函數(shù)，來(lái)計(jì)算GNN的輸出oi。

2.5 注意力機(jī)制

注意力機(jī)制（attention mechanism）源自人類視覺和大腦處理信號(hào)的機(jī)制。在認(rèn)知中，人類往往會(huì)因?yàn)樾畔嫶蠖x擇性地關(guān)注其中高價(jià)值的一部分而忽略其他信息，即注意力機(jī)制。處理數(shù)據(jù)時(shí)，注意力機(jī)制模型對(duì)數(shù)據(jù)構(gòu)成元素引入了查詢（query）、鍵（key）和值（value）構(gòu)成數(shù)據(jù)對(duì)，通過(guò)計(jì)算查詢與鍵之間的相關(guān)性或者相似性，得到鍵對(duì)應(yīng)于值的權(quán)重系數(shù)（圖5）。注意力機(jī)制可描述為：

圖5 注意力機(jī)制

其中：q（query）在匹配ki（key）后與vi（value）結(jié)合，從而增加需要“注意力”部分的權(quán)重；α是注意力打分函數(shù)，不同的打分函數(shù)有不同的效果。在注意力機(jī)制模型基礎(chǔ)上，衍生出Transformer[1]、Bert[2]等更高級(jí)的網(wǎng)絡(luò)結(jié)構(gòu)。

3 常用深度學(xué)習(xí)工具

目前已有多種深度學(xué)習(xí)框架，如PyTorch、TensorFlow、Paddle和Keras等，為神經(jīng)網(wǎng)絡(luò)的搭建提供了平臺(tái)，給開發(fā)基于深度學(xué)習(xí)的應(yīng)用模型帶來(lái)極大便利。截至目前，已有多個(gè)基于深度學(xué)習(xí)算法的工具包，如DeepChem[3]、DeepPurpose[4]和OpenChem[5]等，在此基礎(chǔ)上結(jié)合簡(jiǎn)單的深度學(xué)習(xí)算法的成功建立，為用戶采用新的數(shù)據(jù)集進(jìn)行訓(xùn)練提供了直接的工具。

4 深度學(xué)習(xí)算法在藥物設(shè)計(jì)中的應(yīng)用

藥物研發(fā)過(guò)程主要包括藥物靶標(biāo)發(fā)現(xiàn)、先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化、候選藥物的確定和成藥性優(yōu)化等步驟。近年來(lái)，深度學(xué)習(xí)在藥物研發(fā)中的應(yīng)用日漸廣泛，以下將分別介紹深度學(xué)習(xí)算法在藥物研發(fā)各步驟中的應(yīng)用現(xiàn)狀。

4.1 深度學(xué)習(xí)在藥物靶標(biāo)發(fā)現(xiàn)中的應(yīng)用

藥物靶標(biāo)發(fā)現(xiàn)是現(xiàn)代藥物研發(fā)模式中的第一步，也是決定新藥研發(fā)成功與否的關(guān)鍵步驟。傳統(tǒng)的藥物靶標(biāo)發(fā)現(xiàn)方法，主要是通過(guò)分析基因組學(xué)、蛋白質(zhì)組學(xué)數(shù)據(jù)尋找疾病相關(guān)的潛在靶標(biāo)。這些靶標(biāo)可能是蛋白質(zhì)、核酸（DNA、RNA）或其他生物大分子。隨后，研究者使用細(xì)胞生物學(xué)、遺傳學(xué)以及分子生物學(xué)的方法來(lái)驗(yàn)證潛在靶點(diǎn)的可成藥性，包括靶標(biāo)的功能機(jī)制、靶標(biāo)與疾病的相關(guān)性和藥物分子可設(shè)計(jì)性等，進(jìn)而確定藥物靶標(biāo)。已經(jīng)報(bào)道的藥物靶標(biāo)發(fā)現(xiàn)的計(jì)算方法主要分為兩類：①基于反向分子對(duì)接的策略（如IdTarget[6]和TarFishDock[7]），該類方法計(jì)算量大，且受限于候選靶點(diǎn)結(jié)構(gòu)的準(zhǔn)確性，對(duì)于結(jié)構(gòu)未知的體系無(wú)法準(zhǔn)確預(yù)測(cè)；②以相似化合物具有相似的作用靶點(diǎn)為前提，通過(guò)比較發(fā)現(xiàn)的活性化合物與已知靶點(diǎn)的活性化合物的結(jié)構(gòu)相似性，建立化合物與靶點(diǎn)之間間接關(guān)聯(lián)網(wǎng)絡(luò)，從而揭示候選藥物靶點(diǎn)的方法（如ChemMapper[8]、PharmMapper[9]和SwissTargetPrediction[10]等），該類方法依賴于小分子-靶標(biāo)信息的數(shù)據(jù)，因此在化學(xué)結(jié)構(gòu)新穎的小分子上效果較差。除此之外，還有針對(duì)潛在靶點(diǎn)的成藥性位點(diǎn)發(fā)現(xiàn)與評(píng)價(jià)方法（如Fd-DCA[11]等）也存在一定的局限性。基于深度學(xué)習(xí)的算法可以有效地綜合來(lái)自多種數(shù)據(jù)集的信息，進(jìn)而給出更加準(zhǔn)確的預(yù)測(cè)，如DeepDTnet[12]根據(jù)構(gòu)建的藥物-基因-疾病網(wǎng)絡(luò)就使用了圖表示學(xué)習(xí)來(lái)進(jìn)行靶標(biāo)識(shí)別。通過(guò)采用該方法，研究者預(yù)測(cè)發(fā)現(xiàn)了Topotecan是ROR-γt（retinoic-acid-receptor-related orphan receptor-γt）的抑制劑，并得到實(shí)驗(yàn)的驗(yàn)證。這些方法的出現(xiàn)，無(wú)疑加速了藥物靶點(diǎn)的發(fā)現(xiàn)與評(píng)價(jià)進(jìn)程。

蛋白質(zhì)-蛋白質(zhì)相互作用是一類重要的藥物靶點(diǎn)，已經(jīng)有多種針對(duì)蛋白質(zhì)-蛋白質(zhì)相互作用的藥物成功上市。然而，預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)相互作用仍富有挑戰(zhàn)性。2019年，David Baker等[13]利用蛋白氨基酸序列作用位點(diǎn)的共進(jìn)化理論與分子對(duì)接相結(jié)合的方法，通過(guò)發(fā)展計(jì)算方法成功預(yù)測(cè)了1 618組大腸桿菌蛋白對(duì)和384組未見報(bào)道的結(jié)核桿菌蛋白質(zhì)-蛋白質(zhì)相互作用對(duì)。然而，對(duì)于包括人類在內(nèi)的真核生物而言，共進(jìn)化分析所具有的同源序列信息較少。因此，基于統(tǒng)計(jì)算法的共進(jìn)化分析方法的預(yù)測(cè)準(zhǔn)確性便受到了極大的限制。深度學(xué)習(xí)方法對(duì)該領(lǐng)域的發(fā)展起到一定的推動(dòng)作用（如DPPI[14]使用了卷積、隨機(jī)投影和全連接預(yù)測(cè)3個(gè)模塊構(gòu)成的神經(jīng)網(wǎng)絡(luò)），通過(guò)對(duì)蛋白質(zhì)-蛋白質(zhì)作用對(duì)的序列氨基酸組成、順序以及互作結(jié)構(gòu)域序列的共同性特征等進(jìn)行學(xué)習(xí)，發(fā)展了只依賴于氨基酸序列預(yù)測(cè)蛋白質(zhì)-蛋白質(zhì)互作的計(jì)算模型，在測(cè)試中其精度-回歸曲線auPR得分約41%（人源測(cè)試集）。另外，如MaSIF[15]使用了幾何神經(jīng)網(wǎng)絡(luò)（geometric neural network），將蛋白質(zhì)表面的幾何特征、化學(xué)特征與生物大分子間的互作關(guān)系相聯(lián)系，建立了蛋白質(zhì)-蛋白質(zhì)互作以及蛋白質(zhì)-小分子互作位點(diǎn)的預(yù)測(cè)方法，在蛋白質(zhì)-蛋白質(zhì)互作位點(diǎn)預(yù)測(cè)上每個(gè)蛋白的ROC AUC的中位數(shù)為0.81。

傳統(tǒng)的蛋白質(zhì)功能預(yù)測(cè)方式基于相似序列具有相似功能的進(jìn)化理論，利用蛋白質(zhì)之間的序列相似性，通過(guò)尋找與靶標(biāo)蛋白序列相似，且功能明確的同源蛋白來(lái)間接推測(cè)其功能（如BLAST[16]、PSI-BLAST[17]、HMMER[18]等）。近年來(lái)，一些研究開始通過(guò)綜合學(xué)習(xí)序列信息和已知的蛋白質(zhì)結(jié)構(gòu)，發(fā)展預(yù)測(cè)模型來(lái)預(yù)測(cè)蛋白質(zhì)的功能。在2019—2020年蛋白功能預(yù)測(cè)大賽（critical assessment of functional annotation,CAFA）中，DeepGO[19]對(duì)蛋白序列編碼后使用卷積神經(jīng)網(wǎng)絡(luò)獲得潛在編碼，并通過(guò)STRING[20]數(shù)據(jù)庫(kù)中的蛋白-蛋白互作網(wǎng)絡(luò)為每個(gè)蛋白生成圖嵌入編碼，隨后將這兩種編碼合并后送入分類層，從而預(yù)測(cè)功能。TALE[21]使用基于自注意力（selfattention）Transformer來(lái)捕捉序列中的全局特征，進(jìn)一步提高了對(duì)蛋白質(zhì)功能預(yù)測(cè)準(zhǔn)確性（其精度-回歸曲線下面積AuPRC在不同的測(cè)試集和GO的不同子類中均比DeepGO高）。特別地，作者聲稱該方法對(duì)于同源序列信息缺乏的體系具有一定的優(yōu)勢(shì)。

4.2 深度學(xué)習(xí)在先導(dǎo)化合物的發(fā)現(xiàn)與優(yōu)化中的應(yīng)用

藥物設(shè)計(jì)中，先導(dǎo)化合物的發(fā)現(xiàn)途徑主要分為基于配體和基于靶標(biāo)受體的兩種藥物設(shè)計(jì)方法?；谂潴w的藥物設(shè)計(jì)，認(rèn)為具有相同理化性質(zhì)或結(jié)構(gòu)的化合物應(yīng)具有相同或相似的作用靶點(diǎn)及活性。因此，該方法策略是基于已知的活性化合物配體的結(jié)構(gòu)及其活性信息，通過(guò)建立其結(jié)構(gòu)與藥效關(guān)系模型，來(lái)預(yù)測(cè)和評(píng)價(jià)新化學(xué)結(jié)構(gòu)的相關(guān)生物學(xué)活性。其中，定量構(gòu)效關(guān)系（quantitative structure-activity relationship,QSAR）是基于配體藥物設(shè)計(jì)的主要方法之一，以配體（藥物）的化學(xué)結(jié)構(gòu)標(biāo)識(shí)符和活性作為輸入，通過(guò)多元線性回歸、偏最小二乘回歸和小波核偏最小二乘回歸等方法，建立化學(xué)結(jié)構(gòu)標(biāo)識(shí)符與配體活性之間的關(guān)系。傳統(tǒng)的QSAR方法依賴于大量的配體-活性關(guān)系數(shù)據(jù)，同時(shí)受限于已知活性配體的化學(xué)結(jié)構(gòu)空間。因此，傳統(tǒng)的QSAR方法具有較大的改進(jìn)空間。近年來(lái)，深度學(xué)習(xí)的發(fā)展顯著提高了QSAR方法的準(zhǔn)確性和魯棒性。Ma等[22]使用全連接的深度神經(jīng)網(wǎng)絡(luò)作為構(gòu)建QSAR模型的方法。之后，他們又改進(jìn)為多任務(wù)深度神經(jīng)網(wǎng)絡(luò)，通過(guò)訓(xùn)練不同任務(wù)的組合，他們發(fā)現(xiàn)，如果輔助任務(wù)的訓(xùn)練集與主任務(wù)的測(cè)試集的分子有較大的相似性，且兩個(gè)任務(wù)的目標(biāo)有生物活動(dòng)關(guān)聯(lián)性時(shí)可以提高主任務(wù)的預(yù)測(cè)，若沒有關(guān)聯(lián)則會(huì)降低預(yù)測(cè)，而若兩個(gè)任務(wù)的數(shù)據(jù)集不同時(shí)對(duì)主任務(wù)的影響不大。

除基于配體的藥物設(shè)計(jì)策略之外，基于結(jié)構(gòu)的藥物設(shè)計(jì)也是藥物研發(fā)中的重要策略之一。該策略的傳統(tǒng)的流程為：獲取藥物靶標(biāo)的三維結(jié)構(gòu)—確定藥物靶標(biāo)結(jié)構(gòu)中的活性位點(diǎn)—使用分子對(duì)接等方法進(jìn)行化合物的虛擬篩選。

隨著結(jié)構(gòu)生物學(xué)的發(fā)展，獲得藥物靶標(biāo)三維空間結(jié)構(gòu)的方法已經(jīng)日漸成熟。如，AlphaFold[24]使用殘差卷積神經(jīng)網(wǎng)絡(luò)，進(jìn)行多序列比對(duì)（multiple sequence alignment,MSA）求出殘基之間的距離矩陣，據(jù)此求出勢(shì)能并通過(guò)Rosetta[25]獲得結(jié)構(gòu)。TrRosetta[26]在氨基酸距離矩陣的基礎(chǔ)上，引入氨基酸構(gòu)象角度矩陣，進(jìn)一步提高結(jié)構(gòu)的預(yù)測(cè)準(zhǔn)確度。近日，AlphaFold2[27]的出現(xiàn)，實(shí)現(xiàn)了蛋白質(zhì)結(jié)構(gòu)領(lǐng)域的極大突破，并在CASP14（critical assessment of techniques for protein structure prediction 14）上的表現(xiàn)一騎絕塵，在一些較難體系中，其全局距離測(cè)試得分（global distance test score）為90，而其他隊(duì)伍僅為75分左右！

RNA的結(jié)構(gòu)預(yù)測(cè)一般集中在二級(jí)結(jié)構(gòu)預(yù)測(cè)上，如MXfold2[28]使用卷積雙向LSTM等網(wǎng)絡(luò)層，輸入RNA序列，輸出相對(duì)堿基處于4種不同折疊狀態(tài)的得分，然后使用動(dòng)態(tài)規(guī)劃預(yù)測(cè)最優(yōu)二級(jí)結(jié)構(gòu)。SPOT-RNA[29]與MXfold2的輸入和網(wǎng)絡(luò)相似，不同之處是其網(wǎng)絡(luò)結(jié)構(gòu)使用了遷移學(xué)習(xí)，輸出為堿基與其他堿基形成氫鍵的可能性。而SPOT-RNA2的輸入加上了經(jīng)過(guò)LinearPartition[30]和RNAcmap[31]處理后的特征，且簡(jiǎn)化了網(wǎng)絡(luò)。還有針對(duì)RNA結(jié)構(gòu)的穩(wěn)定性評(píng)判的計(jì)算方法，如RNA3DCNN[32]使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練了基于知識(shí)的打分函數(shù)，可用于評(píng)價(jià)RNA三維結(jié)構(gòu)的合理性。

與獲得靶標(biāo)三維結(jié)構(gòu)相比，確定藥物靶標(biāo)結(jié)構(gòu)中的活性位點(diǎn)同樣重要。對(duì)于無(wú)已知活性化合物的藥物靶標(biāo)，需要通過(guò)可藥性結(jié)合位點(diǎn)的預(yù)測(cè)方法來(lái)預(yù)測(cè)藥物設(shè)計(jì)位點(diǎn)。傳統(tǒng)的方法是使用探針?lè)肿?，通過(guò)分子對(duì)接模擬的方法或靶標(biāo)空腔（cavity）掃描等方法（如FTMap[33]和Fd-DCA[11]），尋找探針小分子集中結(jié)合的位點(diǎn)，作為預(yù)測(cè)的可藥性位點(diǎn)。近日，一些基于深度學(xué)習(xí)算法的可藥性位點(diǎn)的預(yù)測(cè)方法先后被報(bào)道。BiteNet[34]采用三維卷積神經(jīng)網(wǎng)絡(luò)通過(guò)對(duì)小分子-蛋白質(zhì)復(fù)合物結(jié)構(gòu)體系進(jìn)行學(xué)習(xí)，從而建立藥物設(shè)計(jì)位點(diǎn)的預(yù)測(cè)模型，該模型在GPCR、EGFR等體系都進(jìn)行了應(yīng)用測(cè)試，在精度與計(jì)算速度方面均表現(xiàn)出一定優(yōu)勢(shì)。PointSite[35]將蛋白質(zhì)三維結(jié)構(gòu)轉(zhuǎn)換為點(diǎn)云，采用基于U-Net的子流形卷積（submanifold sparse convolution）方法進(jìn)行分割，通過(guò)結(jié)合原子級(jí)表示和增強(qiáng)學(xué)習(xí)的手段，發(fā)展了可在原子水平預(yù)測(cè)蛋白質(zhì)上小分子結(jié)合位點(diǎn)的算法。

當(dāng)確定藥物靶標(biāo)的活性位點(diǎn)之后，便可采用分子對(duì)接的方法進(jìn)行小分子化合物的虛擬篩選，即先導(dǎo)化合物的發(fā)現(xiàn)工作。傳統(tǒng)的分子對(duì)接方法主要包括兩個(gè)重要的模塊，分子構(gòu)象搜索與打分函數(shù)。打分函數(shù)是評(píng)價(jià)小分子與藥物靶標(biāo)親和力的函數(shù)，是指導(dǎo)分子三維構(gòu)象優(yōu)化的目標(biāo)函數(shù)，是決定分子對(duì)接方法效率的關(guān)鍵因素。然而，傳統(tǒng)的分子對(duì)接打分函數(shù)基于力場(chǎng)和經(jīng)驗(yàn)參數(shù)，在不同的藥物靶標(biāo)中很難同時(shí)取得良好的效果。因此，在先導(dǎo)化合物的發(fā)現(xiàn)過(guò)程中，仍然十分依賴藥物化學(xué)家的經(jīng)驗(yàn)判斷。深度學(xué)習(xí)的方法直接從已有的復(fù)合物結(jié)構(gòu)以及化合物-蛋白質(zhì)的實(shí)驗(yàn)結(jié)合親和力數(shù)據(jù)來(lái)建立預(yù)測(cè)藥物-靶標(biāo)結(jié)合親和力模型。DeepDTA[36]使用了蛋白質(zhì)殘基序列，小分子結(jié)構(gòu)SMILES（simplified molecular input line entry specification）編碼，采用卷積神經(jīng)網(wǎng)絡(luò)，訓(xùn)練蛋白質(zhì)、小分子與結(jié)合親和力間的相關(guān)性的深度學(xué)習(xí)模型。另外，OnionNet[37]使用CNN網(wǎng)絡(luò)，通過(guò)同時(shí)考慮蛋白質(zhì)-小分子局部互作模式以及非局部互作模式，發(fā)展了小分子-蛋白質(zhì)親和力預(yù)測(cè)方法。在測(cè)試中，其結(jié)合親和力預(yù)測(cè)值與實(shí)驗(yàn)值的相關(guān)性可達(dá)73%。除此之外，基于深度學(xué)習(xí)算法發(fā)展的小分子-蛋白質(zhì)親和力算法還有KDEEP[38]、RosENet[39]和DeepGS[40]等。鑒于篇幅所限，在此不一一贅述。

4.3 深度學(xué)習(xí)在分子生成中的應(yīng)用

藥物的化學(xué)合成是制約新藥研發(fā)速度的關(guān)鍵過(guò)程。早期有機(jī)化學(xué)研究積累了大量的化合物數(shù)據(jù)以及合成路線信息，為設(shè)計(jì)新化合物并預(yù)測(cè)其可合成性提供了重要的學(xué)習(xí)信息。然而，對(duì)于真實(shí)的化學(xué)空間而言，人類目前所能成功合成的化學(xué)結(jié)構(gòu)只是冰山一角。因此，設(shè)計(jì)具有新穎化學(xué)結(jié)構(gòu)的化合物，并準(zhǔn)確評(píng)價(jià)其可合成性的方法，將有力地推動(dòng)新藥研發(fā)的進(jìn)程。針對(duì)上述問(wèn)題，已有眾多基于深度學(xué)習(xí)算法發(fā)展的用于類藥性分子生成和有機(jī)分子的逆合成分析的方法被報(bào)道。對(duì)于分子生成方法，Méndez-Lucio等[41]使用生成式對(duì)抗網(wǎng)絡(luò)[42]（generative adversarial networks,GAN），在對(duì)SMILES編碼時(shí)，使用了基于GRU的編碼器和解碼器，依賴于L1000數(shù)據(jù)庫(kù)中小分子與基因表達(dá)差異的影響數(shù)據(jù)，建立了小分子與其對(duì)基因表達(dá)間的深度學(xué)習(xí)模型。該模型可根據(jù)某個(gè)基因敲除的基因表達(dá)圖譜，生成具有特定調(diào)控基因表達(dá)功能的全新小分子。此外，ReLeaSE[43]使用了強(qiáng)化學(xué)習(xí)算法（其中網(wǎng)絡(luò)部分使用到Stack-RNN）生成具有特定性質(zhì)的分子。使用分子的圖結(jié)構(gòu)信息發(fā)展的分子生成方法，如DeepGraphMolGen[44]使用了基于圖卷積神經(jīng)網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)算法，生成具有類藥性和可合成性的分子。

對(duì)于有機(jī)化學(xué)分子的逆合成分析，Liu等[45]使用了具有Attention機(jī)制的RNN，輸入已有目標(biāo)分子的SMILES和特定的化學(xué)反應(yīng)類型，建立可預(yù)測(cè)反應(yīng)產(chǎn)物的深度學(xué)習(xí)模型。此外，G2Gs[46]以一種圖到圖的框架，同樣以上述信息作為學(xué)習(xí)數(shù)據(jù)，建立了預(yù)測(cè)模型來(lái)預(yù)測(cè)合成反應(yīng)產(chǎn)物。

藥物的吸收（absorption）、分布（distribution）、代謝（metabolism）、排泄（excretion）和毒性（toxicity）等性質(zhì)，合稱ADMET性質(zhì)，決定了藥物在臨床研究中的成功率。其中，藥物毒性的評(píng)價(jià)對(duì)于臨床前研究至關(guān)重要。使用機(jī)器學(xué)習(xí)方法預(yù)測(cè)藥物的ADMET性質(zhì)已被廣泛報(bào)道。2012年，唐赟課題組報(bào)道了基于機(jī)器學(xué)習(xí)技術(shù)發(fā)展的ADMET性質(zhì)預(yù)測(cè)方法admetSAR[47]，之后通過(guò)進(jìn)一步豐富數(shù)據(jù)庫(kù)，加入網(wǎng)絡(luò)算法升級(jí)到admetSAR2.0版本[48]。此外，如Chemi-net[49]將分子轉(zhuǎn)為圖結(jié)構(gòu)，并使用圖卷積來(lái)預(yù)測(cè)ADMET性質(zhì)。Wenzel等[50]使用全連接的深度神經(jīng)網(wǎng)絡(luò)發(fā)展了ADMET預(yù)測(cè)模型。ADMET預(yù)測(cè)模型是藥物設(shè)計(jì)領(lǐng)域中機(jī)器學(xué)習(xí)算法最先介入后的研究成果。截至目前，基于AI算法而發(fā)展的預(yù)測(cè)模型也極其豐富，鑒于篇幅所限不再一一展開。

5 總結(jié)與展望

本文以介紹重要的深度學(xué)習(xí)算法為切入點(diǎn)，沿著藥物研發(fā)主線，回顧了多種深度學(xué)習(xí)算法在藥物研發(fā)初期的幾個(gè)關(guān)鍵環(huán)節(jié)中的應(yīng)用進(jìn)展。深度學(xué)習(xí)算法在蛋白質(zhì)結(jié)構(gòu)預(yù)測(cè)與分子生成等諸多領(lǐng)域已經(jīng)取得顯著的成功。然而，仍有以下幾個(gè)方面有待進(jìn)一步探索：①數(shù)據(jù)集的數(shù)量和質(zhì)量是改進(jìn)深度學(xué)習(xí)的必要條件，如何有效產(chǎn)生、高效收集和準(zhǔn)確處理數(shù)據(jù)將是進(jìn)一步基于深度學(xué)習(xí)的藥物設(shè)計(jì)關(guān)鍵問(wèn)題；②如何設(shè)計(jì)和開發(fā)更高效且適宜于藥物設(shè)計(jì)的深度學(xué)習(xí)算法，是進(jìn)一步改進(jìn)藥物設(shè)計(jì)方法的另一關(guān)鍵；③如何針對(duì)藥物設(shè)計(jì)中的不同問(wèn)題，合理設(shè)計(jì)和提取學(xué)習(xí)特征，是彌補(bǔ)輸入數(shù)據(jù)不足或網(wǎng)絡(luò)學(xué)習(xí)能力不佳的關(guān)鍵手段。綜上，鑒于深度學(xué)習(xí)算法在藥物設(shè)計(jì)方法發(fā)展方面已經(jīng)取得的成績(jī)，以及生物醫(yī)藥行業(yè)技術(shù)的不斷革新，我們對(duì)AI驅(qū)動(dòng)的藥物設(shè)計(jì)的未來(lái)充滿信心，相信將有更多高效、高質(zhì)量的藥物設(shè)計(jì)方法被開發(fā)出來(lái)并推廣應(yīng)用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡