国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖卷積神經網絡的小分子虛擬篩選

2022-07-21 11:54張凱睿黃鋼
軟件工程 2022年7期
關鍵詞:機器學習

張凱睿 黃鋼

摘 ?要:新藥研發(fā)存在研發(fā)周期長、成本高和成功率低等問題。為了解決這一系列問題,提高早期藥物研發(fā)效率,提出一種基于圖卷積神經網絡的虛擬篩選方法,并利用模型對EGFR(Epidermal Growth Factor Receptor, 表皮生長因子受體)靶點進行虛擬篩選。首先獲取EGFR靶點的相關數據,對其進行數據處理后用于模型訓練;隨后應用模型篩選大量化合物,篩選出小分子后,將其與藥物分子進行化合物相似性搜索,驗證其是否與已知的EGFR藥物存在相似性;同時,將圖卷積神經網絡(Graph Convolutional Networks, GCN)模型與其他傳統機器學習模型進行比較,證明本研究模型在各項指標中均優(yōu)于其他模型。實驗結果表明,本研究提出的方法具有較好的預測性和準確性,為發(fā)現潛在藥物提供了助力。

關鍵詞:圖卷積神經網絡;虛擬篩選;EGFR;化合物相似性搜索;機器學習

中圖分類號:TP391 ? ? 文獻標識碼:A

Virtual Screening of Small Molecules based on Graph Convolutional Neural Network

ZHANG Kairui1,2, HUANG Gang1,2

(1. School of Health Science and Engineering, University of Shanghai for Science and Technology, Shanghai 200093, China;

2. Shanghai Key Laboratory of Molecular Imaging, Shanghai University of Medicine and Health Sciences, Shanghai 201318, China)

zhangkarry0328@163.com; huanggang@sumhs.cn

Abstract: New drug research and development has the problems of long research and development cycle, high cost and low success rate. In order to solve these problems and improve the efficiency of early drug research and development, this paper proposes a virtual screening method based on graph convolution neural network, and uses the model to perform virtual screening of the EGFR (Epidermal Growth Factor Receptor) targets. Firstly, the relevant data of EGFR targets are obtained and used for model training after data processing. After that, the model is used to screen a large number of compounds, and after small molecules are screened out, they are searched for compound similarity with drug molecules to verify whether they are similar to known EGFR drugs. At the same time, the graph convolution neural network model is also compared with other traditional machine learning models, and the proposed model is superior to other models in all indicators. Experimental results show that the proposed method has good predictability and accuracy, which facilitates the discovery of potential drugs.

Keywords: graph convolutional neural network; virtual screening; EGFR; compound similarity search; machine

learning

1 ? 引言(Introduction)

隨著疾病多樣性以及藥物耐藥性等問題的出現,對新藥的需求日益增加,但是新藥研發(fā)存在研發(fā)周期長、研發(fā)成本高以及成功率低等問題。藥物開發(fā)是一個昂貴且耗時的過程,通常來講,一個新的藥物從開始研發(fā)到最終上市,需要花費數十億美元和10—15 年的時間[1]。在人力、物力投入高和耗時長的同時,小分子藥物最終上市的成功率卻只有6.2%,研發(fā)失敗的風險比較高[2]。計算機輔助藥物設計能夠大幅度地縮短新藥研發(fā)的時間,提高新藥研發(fā)的成功率。傳統的藥物篩選方法有分子對接、藥效團匹配[3]和相似性搜索[4]等。隨著近年來計算機算力的提升和大數據時代的到來,以機器學習和深度學習為代表的算法進一步促進了藥物研發(fā)的進程。

虛擬篩選是一種藥物篩選方法,其使用計算機算法和模型來發(fā)現新的生物活性小分子藥物。與高通量篩選(HTS)相比,虛擬篩選具有高效、低成本的特點。虛擬篩選的方法通常分為兩類:基于結構的虛擬篩選和基于配體的虛擬篩選。

在基于結構的虛擬篩選中,算法通過模擬靶點蛋白質與小分子之間的物理相互作用,計算它們之間的親和度[5-6]。根據與結合能相關的親和度打分函數,對蛋白質和小分子化合物的結合能力進行評價,最終從大量化合物分子中篩選出結合方式合理、預測分數較高的化合物,用于后續(xù)的生物活性測試。

在基于配體的虛擬篩選中,通常不需要靶點的信息和結構,而是收集一系列作用于這個靶點的已知小分子化合物,從這些已知小分子開始,去發(fā)掘這部分小分子的內在結構規(guī)律。根據化合物相似性或者藥效團模型在化合物數據庫中搜索能與之匹配的化學分子結構,最后對所篩選出來的化合物進行實驗篩選研究。

近年來,隨著計算機計算能力的發(fā)展,深度學習[7]被廣泛應用于計算機視覺、自然語言處理、語音識別等領域。由于各類組學以及生物學數據的積累,深度學習模型已在藥物研發(fā)的各個領域嶄露頭角[8],并且在一部分領域展現出優(yōu)于傳統的機器學習模型的優(yōu)勢。

本文從DUD-E中收集了EGFR靶點的活性化合物和誘餌化合物數據,并對這些化合物數據進行數據處理,將其分割成訓練集和測試集。利用收集好的化合物數據訓練圖卷積神經網絡[9-10]模型,隨后篩選了ZINC數據庫中的大量數據,將篩選出的10 個小分子與DrugBank數據庫中收集到的藥物數據做相似性搜索,發(fā)現其中4 個小分子與已知EGFR藥物分子存在較高相似性。同時利用相同數據,訓練6 個傳統機器學習模型,結果表明GCN模型要優(yōu)于機器學習模型。實驗結果證明了GCN模型在藥物篩選方面具有比較好的預測性和準確性。

2 ? 材料與方法(Materials and methods)

基于圖卷積神經網絡的藥物篩選模型構建流程及方法主要包括從化合物數據庫收集相關數據,對藥物數據進行數據處理和篩選,訓練圖卷積模型,隨后進行藥物篩選及對篩選結果的相似性進行搜索,如圖1所示。

2.1 ? 數據來源

本研究使用的數據來源于多個公共化合物數據庫,包括DUD-E[11]、ZINC[12]、DrugBank[13]。DUD-E(A Database of Useful Decoys: Enhanced)是由美國加州大學舊金山分校藥物化學系的Shoichet實驗室提供的數據庫(http://dude.docking.org),在Target中可以選擇想要選擇的靶點,下載actives_final.ism和decoys_final.ism文件,獲取對應靶點的活性化合物和誘餌化合物數據,用于訓練模型。ZINC數據庫是目前最大的有機小分子化合物庫之一,不少類藥分子的前期虛擬篩選都是基于這個數據庫的,數據庫中包含9.8億多個小分子,根據后續(xù)的研究條件和需要設定過濾標準,將小分子數量鎖定在10萬個后下載數據文件,用于后續(xù)的虛擬篩選。DrugBank數據庫是一個綜合的、可自由訪問的在線數據庫,包含有關藥物和藥物目標的信息,在利用模型篩選完ZINC數據庫中下載的小分子后,將篩選出的分子與DrugBank中的藥物分子做相似性搜索,從而驗證模型的準確性。

2.2 ? 數據預處理

為了更好地應用來源于DUD-E數據庫中的數據集從而構建一個有效的模型,需要確保活性化合物與誘餌化合物的分子性質相似。從DUD-E數據庫中收集到的化合物數據都有各個化合物對應的SMILES(Simplified Molecular-Input Line-Entry System)號。SMILES是一種用文本字符串定義分子的常用方法,SMILES字符串以既簡潔又直觀的方式描述了分子的原子和鍵。在本研究中,可以利用化學信息學軟件包RDkit,結合化合物的SMILES號,計算出化合物的分子量、LogP以及形式電荷,通過化合物的這些屬性可以比較活性集和誘餌集的分布。根據活性集和誘餌集的分布,對其進行平衡,為后續(xù)的模型訓練做好準備。

2.3 ? 圖卷積網絡模型

本文使用圖卷積神經網絡模型來預測分子抑制EGFR的能力。圖卷積神經網絡是一類采用卷積操作的圖神經網絡,屬于圖神經網絡(Graph Neural Network)[14]的一種。

對于圖,為節(jié)點的集合,為邊的集合。對于每個點,均有其特征,可以用表示。一個中有3 個比較重要的矩陣:鄰接矩陣、度矩陣和特征矩陣。鄰接矩陣用來表示節(jié)點間的連接關系。度矩陣是一個對角矩陣,每個節(jié)點的度指的是其連接的節(jié)點數,其中對角線元素。特征矩陣用于表示節(jié)點的特征,,其中是特征的維度。

深度學習中最重要的是學習特征:隨著網絡層數的增加,特征愈發(fā)抽象,然后用于最終的任務。對于圖任務,深度模型從最開始的特征出發(fā)學習到更抽象的特征。任何一個圖卷積層都可以寫成如下非線性函數:

(1)

為第一層的輸入,其中,為圖的節(jié)點個數,為每個節(jié)點特征向量的維度,為鄰接矩陣。這里指的是網絡層數,就是網絡第層的特征。不同模型的差異點在于函數的實現不同。

在圖學習中,每個節(jié)點的新特征就是對該節(jié)點的鄰域節(jié)點特征進行變換然后求和。其公式為:

(2)

其中,是學習權重,維度是,是激活函數,這是神經網絡的基本單元。不難看出,乘以鄰接矩陣就相當于對每個節(jié)點都加上了其相應鄰域節(jié)點的特征。這里存在兩個問題,一是計算節(jié)點的新特征時并沒有考慮自身的特征;二是矩陣沒有正則化,這可能導致網絡訓練過程中發(fā)生梯度爆炸或者是梯度消失的問題。對于第一個問題,解決方法是對每一個節(jié)點加上自環(huán),即為。對于第二個問題,則是對矩陣進行正則化,使其每一行的和都為1,例如。

圖卷積神經網絡的最終形式為:

(3)

其中,第層網絡的輸入為(初始輸入為);;為待訓練的參數;為相應的激活函數。

2.4 ? 評估標準

本研究使用馬修斯相關系數(Matthews Correlation Coefficient, MCC)、準確率(Accuracy)、召回率(Recall)和F1分數(F1-Score)作為評價指標。MCC、Accuracy、Recall及F1-Score的公式如下:

其中,為真正例,表示正類正確預測為正類數;為真負例,表示負類正確預測為負類數;為假正例,表示負類錯誤預測為正類數;為假負例,表示正類錯誤預測為負類數。

2.5 ? Morgan指紋

化合物相似性搜索在化學信息學和新藥研發(fā)中有著悠久的歷史,許多算法都使用相似性搜索來驗證正在研究的新化合物。

本研究通過計算化合物的Morgan[15]指紋(Morgan Fingerprints, 摩根分子指紋)來進行化合物相似性搜索。Morgan指紋是一種圓形指紋,也屬于拓撲型指紋,是通過對標準的Morgan算法進行改造后得到的。Morgan指紋具有如下優(yōu)點:計算速度快,沒有經過預定義,可以包含手性信息,指紋中的每個元素代表一種特定子結構,可以方便地進行分析和解釋,可以根據不同的需要進行相應的修改。Morgan指紋設計的最初目的是用于搜索與活性相關的分子特征,也可以用于相似性搜索、聚類、虛擬篩選等方向。

3 ?實驗結果及分析(Experimental results and analysis)

3.1 ? 虛擬篩選結果

將DUD-E中獲取的EGFR的活性化合物和誘餌化合物數據進行數據處理、整合之后得到542 個活性小分子和35,050 個非活性小分子,將整合好的數據分割為訓練集和驗證集,然后用于GCN模型的訓練。

訓練好模型后,用模型篩選ZINC數據庫中收集的化合物,將得分最高的10 個小分子取出。篩選出的小分子信息如表1所示,化學結構如圖2所示。

3.2 ? 相似性搜索

本研究通過計算分子的Morgan指紋將篩選結果中的小分子與DrugBank數據庫中下載的藥物小分子數據進行化合物相似性搜索,驗證篩選結果是否與EGFR藥物分子存在相似性。首先讀入DrugBank數據庫中的數據和需要查詢相似性的小分子的SMILES號,然后計算查詢分子與數據庫分子的分子指紋,計算相似度并排序,輸出相似度最高的前20 個藥物分子,隨后在DrugBank數據庫中根據相似度最高的20 個藥物分子的DRUGBANK_ID查詢其相關信息,看其是否為EGFR藥物分子。

對篩選結果中的10 個小分子依次進行上述操作,結果顯示4 個小分子與已知的EGFR藥物分子存在相似性。相似性搜索的結果如表2所示。

3.3 ? 模型比較

將數據處理后得到的EGFR活性化合物和誘餌化合物數據應用于六種機器學習模型進行訓練,然后與GCN模型進行比較。七種模型的MCC、Accuracy、Recall、F1-Score結果如表3所示。結果顯示,在四項指標中GCN模型均取得了最優(yōu)結果。本數據集存在類別不均衡的情況,在這種情況下,MCC、F1-Score指標更具有說服力,在這兩項指標中,GCN模型遠遠優(yōu)于其他幾種模型。

3.4 ? 模型驗證

為了防止模型僅對EGFR靶點產生較好的篩選效果,需針對其他靶點重復實驗流程,從而進一步驗證模型性能。

這里選擇使用DRD3(Dopamine D3 Receptor, 多巴胺受體D3抗體)靶點進行模型驗證。對DRD3靶點進行虛擬篩選和相似性搜索后得到的結果如表4所示,結果顯示篩選出的10 個小分子中有8 個小分子與已知的DRD3藥物分子存在相似性,證明模型對其他靶點也能產生較好的篩選效果。

4 ? 結論(Conclusion)

本研究從DUD-E、ZINC、DrugBank數據庫收集得到所需相關數據,基于圖卷積神經網絡方法進行虛擬篩選工作,并后續(xù)進行化合物相似性搜索,對模型性能進行驗證,結果顯示模型具有較好的預測性和準確性。同時,將本文模型與傳統機器學習模型進行比較,通過十折交叉驗證,使用MCC、Accuracy、Recall及F1-Score指標評估了模型,結果表明GCN模型優(yōu)于其他傳統機器學習模型,證明圖卷積神經網絡結合大數據在藥物篩選方面的優(yōu)越性?;趫D卷積神經網絡的虛擬篩選方法提升了早期藥物研發(fā)工作的效率,為后續(xù)的生物實驗及最終發(fā)現潛在藥物提供了助力。

同時,在研究中也注意到圖卷積神經網絡在虛擬篩選中還存在的一些問題。當從DUD-E數據庫中下載ACE靶點的活性化合物和誘餌化合物數據并用于模型訓練時,會發(fā)現模型出現過擬合現象,這可能是因為ACE靶點的相關數據量遠小于EGFR靶點的相關數據量,數據量過少導致了過擬合現象的產生。因此應當注意到,深度學習模型需要一定量的樣本用來訓練才能有效避免模型過擬合。為了解決這一問題,在后續(xù)的研究中需要考慮對模型進行改進,以應對小樣本學習任務。

參考文獻(References)

[1] DIMASI J A, GRABOWSKI H G, HANSEN R W. Innovation in the pharmaceutical industry: New estimates of R&D costs[J]. Journal of Health Economics, 2016, 47:20-33.

[2] WONG C H, SIAH K W, LO A W. Estimation of clinical trial success rates and related parameters[J]. Biostatistics, 2019, 20(2):273-286.

[3] WOLBER G, LANGER T. LigandScout: 3-D pharmacophores derived from protein-bound ligands and their use as virtual screening filters[J]. Journal of Chemical Information and Modeling, 2005, 45(1):160-169.

[4] WILLETT P, BARNARD J M, DOWNS G M. Chemical similarity searching[J]. Journal of Chemical Information and Computer Sciences, 1998, 38(6):983-996.

[5] KITCHEN D B, DECORNEZ H, FURR J R, et al. Docking and scoring in virtual screening for drug discovery: Methods and applications[J]. Nature Reviews Drug Discovery, 2004, 3(11):935-949.

[6] MENG X Y, ZHANG H X, MEZEI M, et al. Molecular docking: A powerful approach for structure-based drug discovery[J]. Current Computer-Aided Drug Design, 2011, 7(2):146-157.

[7] LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553):436-444.

[8] CHEN H, ENGKVIST O, WANG Y, et al. The rise of deep learning in drug discovery[J]. Drug Discovery Today, 2018, 23(6):1241-1250.

[9] KIPF T N, WELLING M. Semi-supervised classification with graph convolutional networks[Z/OL]. (2017-02-22) [2022-06-08]. https://arxiv.org/abs/1609.02907.

[10] 徐冰冰,岑科廷,黃俊杰,等.圖卷積神經網絡綜述[J].計算機學報,2020,43(05):755-780.

[11] MYSINGER M M, CARCHIA M, IRWIN J J, et al. Directory of useful decoys, enhanced (DUD-E): Better ligands and decoys for better benchmarking[J]. Journal of Medicinal Chemistry, 2012, 55(14):6582-6594.

[12] STERLING T, IRWIN J J. ZINC 15-ligand discovery for everyone[J]. Journal of Chemical Information and Modeling, 2015, 55(11):2324-2337.

[13] WISHART D S, FEUNANG Y D, GUO A C, et al.

DrugBank 5.0: A major update to the DrugBank database for 2018[J]. Nucleic Acids Research, 2018, 46(D1):D1074-D1082.

[14] SCARSELLI F, GORI M, TSOI A C, et al. The graph neural network model[J]. IEEE Transactions on Neural Networks, 2008, 20(1):61-80.

[15] MORGAN H L. The generation of a unique machine description for chemical structures—a technique developed at chemical abstracts service[J]. Journal of Chemical Documentation, 1965, 5(2):107-113.

作者簡介:

張凱睿(1996-),男,碩士生.研究領域:生物醫(yī)學工程.

黃 ?鋼(1961-),男,博士,教授.研究領域:核醫(yī)學分子影像.本文通信作者.

猜你喜歡
機器學習
基于詞典與機器學習的中文微博情感分析
基于網絡搜索數據的平遙旅游客流量預測分析
前綴字母為特征在維吾爾語文本情感分類中的研究
下一代廣播電視網中“人工智能”的應用
基于支持向量機的金融數據分析研究
基于Spark的大數據計算模型
基于樸素貝葉斯算法的垃圾短信智能識別系統
基于圖的半監(jiān)督學習方法綜述
機器學習理論在高中自主學習中的應用
極限學習機在圖像分割中的應用
信宜市| 靖西县| 沈丘县| 汉阴县| 甘谷县| 额敏县| 镇雄县| 霞浦县| 根河市| 香格里拉县| 保山市| 常熟市| 新蔡县| 宣化县| 吴川市| 云林县| 伊春市| 金堂县| 日喀则市| 英超| 和龙市| 城步| 乌什县| 鄂温| 湾仔区| 本溪市| 乐清市| 肥东县| 大化| 台江县| 陆丰市| 承德市| 怀化市| 赞皇县| 高要市| 吴桥县| 新宁县| 哈巴河县| 封开县| 布拖县| 淮安市|