周世英 李福東 姜定
摘? 要:藥物的研發(fā)是一種投入成本高、耗費(fèi)時(shí)間長(zhǎng)且成功率較低的一種研究,為了在藥物開發(fā)階段可以快速獲得潛在的化合物,針對(duì)性地提出一種基于深度神經(jīng)網(wǎng)絡(luò)的藥物蛋白虛擬篩選的方法。首先從給定數(shù)據(jù)集中學(xué)習(xí)如何提取相關(guān)特征,獲取配體原子和殘基類型進(jìn)行特征分析,快速識(shí)別活性分子和非活性分子,然后使用降維方式和K折驗(yàn)證等方法對(duì)藥物篩選的模型進(jìn)行處理,最后通過(guò)分析富集因子和AUC值驗(yàn)證誘餌化合物與分子蛋白的互相作用驗(yàn)證模型的可靠程度,實(shí)驗(yàn)結(jié)果表明所提出的篩選方法具有很好的可行性和有效性,有效地加快了虛擬篩選過(guò)程。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò);虛擬篩選;特征提取
中圖分類號(hào):TP391? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
Abstract: Drug development is a kind of research with high input cost, long development cycle and low success rate. In order to quickly obtain potential compounds in the drug development stage, the paper proposes a deep neural network based virtual screening method for drug proteins. First, by learning how to extract the features from a given data set, the ligand atoms and the residue type are acquired to conduct characteristic analysis. After fast identification of active and inactive molecules, the dimension reduction method and the K-fold validation method are used to process the drug screening model. Finally, by analyzing enrichment factors and the interaction between AUC value bait compounds and molecular protein, the reliability of the model is verified. The experiment proves the feasibility and effectiveness of the proposed screening method which can effectively speed up the virtual screening process.
Keywords: deep neural network; virtual screening; feature extraction
1? ?引言(Introduction)
虛擬篩選已經(jīng)成為現(xiàn)代藥物開發(fā)過(guò)程中的一個(gè)重要輔助工具[1],它可以在成千上萬(wàn)的候選化合物藥物中篩選出與所需的藥物目標(biāo)結(jié)合的新型化合物,得到可以激活或抑制選定蛋白的小分子。一般來(lái)說(shuō)虛擬篩選方法可以分為基于受體的虛擬篩選和基于配體的虛擬篩選,前者通過(guò)對(duì)已知具有相同作用機(jī)理的化合物進(jìn)行定量構(gòu)效(QSAR)關(guān)系研究,依照藥效團(tuán)模型對(duì)化合物數(shù)據(jù)庫(kù)進(jìn)行搜索以得到最佳的構(gòu)象。后者主要應(yīng)用分子對(duì)接技術(shù),實(shí)施這種篩選需要獲知藥物作用靶標(biāo)的分子結(jié)構(gòu),通過(guò)分子模擬手段計(jì)算化合物庫(kù)中的小分子與靶標(biāo)結(jié)合的能力,預(yù)測(cè)候選化合物的生理活性。雖然虛擬篩選的準(zhǔn)確性有待提高,但是其快速廉價(jià)的特點(diǎn)使之成為發(fā)展最為迅速地藥物篩選技術(shù)之一。
到目前為止,隨著新的分子生物學(xué)技術(shù)的出現(xiàn),藥物開發(fā)產(chǎn)生了完全性的改變和演變,出現(xiàn)了神經(jīng)網(wǎng)絡(luò)等可以增強(qiáng)虛擬篩選能力的方法,可以訓(xùn)練基于輸入和輸出對(duì)生成分類器。Adam[2]將可學(xué)習(xí)的原子卷積和softmax操作分別應(yīng)用于每個(gè)分子的基礎(chǔ)上建立了一種用于基于結(jié)構(gòu)的虛擬篩選的深度學(xué)習(xí)架構(gòu),該架構(gòu)可以生成固定大小的蛋白質(zhì)和小分子指紋并進(jìn)行進(jìn)一步的非線性變換,通過(guò)計(jì)算它們的內(nèi)積并用于預(yù)測(cè)結(jié)合勢(shì)得到篩選的效果。該方法的篩選效率較高,檢索速度快,但在針對(duì)不同特征的權(quán)重值方面存在著局限性,本文通過(guò)使用了深度神經(jīng)網(wǎng)絡(luò)來(lái)改進(jìn)虛擬篩選的結(jié)果,提出了一種DL的虛擬篩選,它以深度神經(jīng)網(wǎng)絡(luò)為基礎(chǔ),可以大量的小分子化合物進(jìn)行分類篩選并排除不具有活性的小分子化合物,本文其余部分的結(jié)構(gòu)如下。
2? 基于深度神經(jīng)網(wǎng)絡(luò)藥物蛋白虛擬篩選算法構(gòu)建(Construction of virtual screening algorithm for drug protein based on deep neural network)
2.1? ?數(shù)據(jù)采集
A Directory of Useful Decoys(DUD)是由加州大學(xué)舊金山分校藥物化學(xué)系的Irwin和Shoichet實(shí)驗(yàn)室所歸納的藥物數(shù)據(jù)集,它用于測(cè)試基于配體的誘餌對(duì)接算法,DUD是迄今為止用于對(duì)虛擬篩選程序進(jìn)行基準(zhǔn)測(cè)試的最大,最全面的公共數(shù)據(jù)集。DUD含有40個(gè)受體蛋白酶,每種蛋白酶的配體中都有幾十到幾百個(gè)分子從而組成了2950種配體。又從商業(yè)可用化合物ZINC數(shù)據(jù)庫(kù)中對(duì)每個(gè)配體檢索到36個(gè)誘餌以模擬相關(guān)配體的某些物理性質(zhì),它們?cè)谖锢硇再|(zhì)上類似于特定的配體,如分子量、cLogP和氫鍵基團(tuán)的數(shù)量,但在拓?fù)浣Y(jié)構(gòu)上卻截然不同,從而形成了一個(gè)包含98266種化合物的數(shù)據(jù)庫(kù)。使用的數(shù)據(jù)集包括復(fù)雜晶體的PDB代號(hào)和結(jié)構(gòu)活性物的數(shù)量,誘餌數(shù)及不同的化學(xué)類型數(shù)。我們使用以下九個(gè)具有代表性的受體用于后續(xù)分析[3]。
2.2? 深度神經(jīng)網(wǎng)絡(luò)算法的構(gòu)建
深度神經(jīng)網(wǎng)絡(luò)(DNN)是一種多層神經(jīng)網(wǎng)絡(luò),它包含一個(gè)輸入層、一個(gè)輸出層和多個(gè)隱藏層,層與層之間通過(guò)前向或反饋連接方式相互結(jié)合,其中隱藏層可以根據(jù)模型需要設(shè)置層數(shù)以追求最佳的效果,連接強(qiáng)度使用權(quán)重因子表達(dá),神經(jīng)元通過(guò)給定的數(shù)據(jù)集按照一定的規(guī)則對(duì)網(wǎng)絡(luò)連接權(quán)重進(jìn)行學(xué)習(xí),通過(guò)多次訓(xùn)練以達(dá)到最佳的實(shí)際結(jié)構(gòu),本文的隱藏層包括三層,是一個(gè)全連接層序列,以每個(gè)化合物的特征為輸入并沿著網(wǎng)絡(luò)層依次計(jì)算,每一層通過(guò)前一層中的輸入值乘以當(dāng)前隱藏層中每個(gè)單元的權(quán)向量計(jì)算加權(quán)和,其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)如圖1所示。本研究還通過(guò)在網(wǎng)絡(luò)中使用詞嵌入(word Enbedding)、Adam算法和K折交叉驗(yàn)證進(jìn)行訓(xùn)練和網(wǎng)絡(luò)優(yōu)化。
(1)特征提取:詞嵌入是自然語(yǔ)言處理(NLP)語(yǔ)言模型與表征學(xué)習(xí)技術(shù)的統(tǒng)稱,它可以將高維度數(shù)量的詞嵌入到低維度的向量空間中,數(shù)據(jù)被映射為實(shí)數(shù)域上的向量,它可以對(duì)分子數(shù)據(jù)的特征進(jìn)行進(jìn)一步地進(jìn)行信息抽取,從蛋白質(zhì)復(fù)合物中提取相關(guān)信息得到相關(guān)特征,通過(guò)相似量的表達(dá)得到數(shù)據(jù)處理,這里輸入層使用來(lái)自的信息包括Watom、Wdist、Wchrg和Wamino這四個(gè)特征量,既原子類型、相關(guān)距離、原子的電荷和氨基酸類型,這些特征量矩陣構(gòu)成一個(gè)隱層的權(quán)重矩陣,使用詞嵌入可以在很大程度上對(duì)數(shù)據(jù)維度縮減,有益于增加后續(xù)網(wǎng)絡(luò)訓(xùn)練的收斂性,并且最大程度上保留了原分子的信息以確保篩選的正確性。嵌入層模型如圖2所示。
(2)Adam算法:Adam算法[4]是一種可以替代傳統(tǒng)隨機(jī)梯度下降(SGD)過(guò)程的一階優(yōu)化算法,它能基于訓(xùn)練數(shù)據(jù)迭代地更新神經(jīng)網(wǎng)絡(luò)權(quán)重,不同于傳統(tǒng)的隨機(jī)梯度下降A(chǔ)dam算法通過(guò)計(jì)算梯度的一階矩估計(jì)和二階矩估計(jì)為不同的參數(shù)設(shè)計(jì)獨(dú)立的自適應(yīng)性學(xué)習(xí)率進(jìn)行迭代的方式對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行更新。Adam算法同時(shí)獲得了適應(yīng)性梯度算法(AdaGrad)和均方根傳播算法(RMSProp)這兩種隨機(jī)梯度下降擴(kuò)展式的優(yōu)點(diǎn),通過(guò)維持每個(gè)參數(shù)的學(xué)習(xí)率以改善稀疏梯度的性能,自適應(yīng)地保持學(xué)習(xí)速率。
(3)交叉驗(yàn)證:交叉驗(yàn)證是一種評(píng)估泛化性能的統(tǒng)計(jì)學(xué)方法,他比單次劃分訓(xùn)練集和測(cè)試集的方法更加全面穩(wěn)定,最常用的交叉驗(yàn)證方法是K折交叉驗(yàn)證(K-fold cross-validation),其中K是由用戶指定的數(shù)字,文中將數(shù)據(jù)集劃分為相等的五部分,每一部分叫作折(fold)。在實(shí)驗(yàn)過(guò)程中對(duì)數(shù)據(jù)集中化合物具有活性值設(shè)為1,沒(méi)有活性值設(shè)為0,分別對(duì)應(yīng)標(biāo)記1和0標(biāo)簽,以40個(gè)藥物相關(guān)靶標(biāo)蛋白質(zhì)對(duì)應(yīng)的活性非活性化合物作為基準(zhǔn)測(cè)試數(shù)據(jù)集進(jìn)行5折交叉驗(yàn)證,對(duì)這個(gè)神經(jīng)網(wǎng)絡(luò)訓(xùn)練過(guò)程重復(fù)40次,每次用不同的一組DUD的40個(gè)受體作為測(cè)試受體打分,基于結(jié)構(gòu)的虛擬篩選,需要蛋白質(zhì)的結(jié)構(gòu)信息來(lái)將配體候選體??吭谀繕?biāo)物的結(jié)合口袋中。在這里,大量的小分子被篩選來(lái)對(duì)抗目標(biāo)蛋白的結(jié)構(gòu)。然后利用評(píng)分函數(shù)對(duì)蛋白質(zhì)與化合物的結(jié)合能力進(jìn)行評(píng)估分類。
研究中基于深度神經(jīng)網(wǎng)絡(luò)的藥物蛋白虛擬篩選訓(xùn)練步驟具體如下:
(1)將(DUD)蛋白酶數(shù)據(jù)進(jìn)行預(yù)處理和篩選,考慮交叉富集相似關(guān)系去除相似的蛋白酶。
(2)通過(guò)原子綁定類型、相鄰原子距離和原子電荷作為特征進(jìn)行篩選。
(3)采用DNN神經(jīng)網(wǎng)絡(luò)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整。
(4)使用K折驗(yàn)證在平均性能的基礎(chǔ)上對(duì)模型進(jìn)行準(zhǔn)確評(píng)估。
(5)計(jì)算富集因子和誤差和精度,得到篩選結(jié)果。如圖3所示。
3? 實(shí)驗(yàn)結(jié)果及分析(Experimental results and analysis)
虛擬篩選結(jié)果評(píng)價(jià)是一項(xiàng)十分重要的工作,由于缺乏標(biāo)準(zhǔn)的評(píng)價(jià)準(zhǔn)則,對(duì)應(yīng)的篩選結(jié)果差距也十分大,主流評(píng)價(jià)標(biāo)準(zhǔn)是使用富集因子(Enrichment Factor, EF)和AUC(Area Under Curve),即ROC曲線下的面積[5]。
3.1? ?富集因子
富集因子是評(píng)估分子對(duì)接性能的重要指標(biāo),主要考察對(duì)接計(jì)算所使用的參數(shù)是否從包含活性分子和誘餌分子的數(shù)據(jù)庫(kù)中將活性分子通過(guò)打分的形式篩選出來(lái)。本文通過(guò)這種方法驗(yàn)證對(duì)接方法是否有效。其計(jì)算公式為:
式中,TP代表預(yù)測(cè)正確的正樣本數(shù),TN代表預(yù)測(cè)正確的負(fù)樣本數(shù),F(xiàn)P代表預(yù)測(cè)錯(cuò)誤的負(fù)樣本數(shù),F(xiàn)N代表預(yù)測(cè)錯(cuò)誤的正樣本數(shù)。模型的靈敏性分析SE(sensitivity)用于評(píng)估正樣本的預(yù)測(cè)正確率,特效性分析SP(specificity)用于評(píng)估負(fù)樣本的預(yù)測(cè)正確率。Nt為所有化合物分子個(gè)數(shù),Ns是取樣化合物數(shù)量,total actives為取樣重活性化合物的個(gè)數(shù),total molecules為測(cè)試集中所有活性化合物的個(gè)數(shù),EFX%為打分結(jié)果前x%分子的個(gè)數(shù)(本文設(shè)定為2%),對(duì)于同一數(shù)據(jù)集式中total actives/total molecules的值是固定的。當(dāng)EF>1時(shí),說(shuō)明該方法具有顯著地活性化合物的富集能力,得到的結(jié)果是有效地,而且其富集能力隨著EF的值得增加而增加。如表2所示,除了ace蛋白外,我們的DL篩選方法均能得到驗(yàn)證[6]。
3.2? ?AUC值
AUC是計(jì)算ROC曲線下的面積(area under curve),該值可反映虛擬篩選方法的效果。一般認(rèn)為該值為0.7—1時(shí)具有一定的篩選效果,由于ROC曲線一般都處于y=x這條直線的上方,所以AUC正確的取值范圍在0.5—1。而且AUC越接近1.0,檢測(cè)方法真實(shí)性越高。當(dāng)AUC值等于0.5時(shí),則真實(shí)性最低,說(shuō)明無(wú)應(yīng)用價(jià)值,得到的結(jié)果如表3所示。
將我們建立的模型的預(yù)測(cè)結(jié)果與文獻(xiàn)[6]預(yù)測(cè)的結(jié)果進(jìn)行比較,以便檢驗(yàn)我們模型的預(yù)測(cè)水平。文獻(xiàn)使用DOCK、RosettaLigand(RL)和AutodockVina(ADV)這三種篩選軟件進(jìn)行篩選操作,計(jì)算結(jié)果如表2和表3所示。由于數(shù)據(jù)的特性問(wèn)題研究中使用的DL方法與其他相比選取的靶點(diǎn)蛋白富集因子除ace外均大于1,證明對(duì)接得到的前期活性分子可被使用,可以驗(yàn)證對(duì)接方法及參數(shù)適用于該體系。但是需要指出的是直接和不同模型的預(yù)測(cè)結(jié)果相比較不太合理,因?yàn)椴煌哪P筒捎昧瞬煌?yàn)證方法和篩選特征。通過(guò)實(shí)驗(yàn)結(jié)果對(duì)比可得可知DL這種研究所得到的富集因子和AUC值均能得到較好的結(jié)果,深度神經(jīng)網(wǎng)絡(luò)相比其他三種傳統(tǒng)方法的篩選效果穩(wěn)定性提高了很多。
4? ?結(jié)論(Conclusion)
本文在這項(xiàng)工作中引入的深度神經(jīng)網(wǎng)絡(luò)的方法進(jìn)行虛擬篩選方法的開發(fā),有效考慮關(guān)鍵數(shù)據(jù)中的有效特征,通過(guò)提取目標(biāo)原子種類、原子距離、電荷和氨基酸類型增強(qiáng)了虛擬篩選的正確性,這種方法大大減輕了人為干預(yù),可以為后續(xù)的對(duì)接實(shí)驗(yàn)、蛋白活性實(shí)驗(yàn)等操作打下了基礎(chǔ)。通過(guò)比較同類型的虛擬篩選所得到的富集因子和AUC值均表現(xiàn)出較好的結(jié)果,研究結(jié)果表明,建立深度神經(jīng)網(wǎng)絡(luò)模型在虛擬篩選方面的操作是成功的,研究中的DL方法對(duì)加快設(shè)計(jì)和發(fā)現(xiàn)藥物有著極其重要的意義。
參考文獻(xiàn)(References)
[1] Kristy A Carpenter,David S Cohen.Deep learning and virtual drug screening[J].Future.Medicinal.Chemistry,2018,10(21):2557-2567.
[2] Adam Gonczarek,Jakub M.TomczakInteraction prediction in structure-based virtual screening using deep learning[J].Computers in Biology and Medicine,2017(100):253-258.
[3] Andreas Jahn,Georg Hinselmann.Optimal assignment methods for ligand-based virtual screening[J].Journal of Cheminformatics,2009(1):1-14.
[4] 楊觀賜,楊靜,李少波,等.基于Dopout與ADAM優(yōu)化器的改進(jìn)CNN算法[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2018,46(07):122-127.
[5] 楊國(guó)兵,李澤榮,饒含兵.機(jī)器學(xué)習(xí)方法用于建立乙酰膽堿酯酶抑制劑的分類模型[J].物理化學(xué)學(xué)報(bào),2010,26(12):3351-3359.
[6] Marcelino Arciniega,Oliver F.Lange.Improvement of Virtual Screening Results by Docking Data Feature Analysis[J].Journal of Chemical Information and Modeling,2014(54):1401-1411.