秦雅琴,夏玉蘭,盧夢媛,王錦銳,謝濟(jì)銘
(昆明理工大學(xué) 交通工程學(xué)院,云南 昆明 650500)
在抗乳腺癌藥物的研發(fā)過程中,由于某些化合物的一些藥代動(dòng)力學(xué)性質(zhì)(ADMET)無法被預(yù)見,即藥物的吸收(Absorption)、分配(Distribution)、代謝(Metabolism)、排泄(Excretion)、和毒性(Toxicity),可能會(huì)降低藥物研發(fā)效率,造成大量的資源浪費(fèi)[1-2].而常規(guī)的生物試驗(yàn)方法常常代價(jià)高昂且耗時(shí)長[3-4],隨著藥物信息學(xué)技術(shù)及數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,利用累積的藥物實(shí)驗(yàn)數(shù)據(jù)進(jìn)行ADMET性質(zhì)建??煽焖賹?duì)批量化合物進(jìn)行處理和預(yù)測[5].
機(jī)器學(xué)習(xí)因其能有效捕獲非線性數(shù)據(jù)的內(nèi)在規(guī)律,從復(fù)雜的ADMET 數(shù)據(jù)中學(xué)習(xí)化學(xué)結(jié)構(gòu)與藥效學(xué)的關(guān)聯(lián),成為藥物化學(xué)領(lǐng)域用來解決復(fù)雜化合物性質(zhì)預(yù)測問題的一個(gè)重要方法[6-7].Chi等[5]使用支持向量回歸方法(Support Vector Regression,SVR)解決了藥物吸收預(yù)測時(shí)輸入和輸出之間的非線性問題.李曉等[8]針對(duì)人體小腸吸收、血腦屏障透過等多個(gè)ADMET 相關(guān)的性質(zhì),使用支持向量機(jī)(Support Vector Machine,SVM)分別建立適用于小分子化合物的預(yù)測模型.但SVM 對(duì)參數(shù)調(diào)節(jié)和和函數(shù)的選擇相當(dāng)敏感,極易影響預(yù)測精度.莫賢煒等[9]對(duì)苯基哌嗪類5-HT7受體拮抗劑進(jìn)行三維定量構(gòu)效關(guān)系(Quantitative Structure-Activity Relationship,QSAR)分析及ADMET 相關(guān)性質(zhì)的預(yù)測,用于受體拮抗藥物的預(yù)測與篩選.Tsou等[10]將深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)用于三陰性乳腺癌(Triple-Negative Breast Cancer,TNBC)抑制劑藥物的虛擬篩選,由于DNN 結(jié)構(gòu)里下層神經(jīng)元和所有上層神經(jīng)元都能夠形成連接,若調(diào)參不當(dāng),易導(dǎo)致參數(shù)數(shù)量膨脹.Feinberg等[11]利用包含多個(gè)圖卷積層的圖卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)每個(gè)化合物分子式的圖示化特征向量,并應(yīng)用于ADMET 性質(zhì)預(yù)測,取得了較好的準(zhǔn)確性.Dahl等[12]使用分子描述符和藥效團(tuán)指紋作為分子特征,訓(xùn)練并構(gòu)建了基于隨機(jī)森林(Random Forest,RF)和邏輯回歸(Logistic Regression,LR)的ADMET 預(yù)測模型.Dong等[13]利用多個(gè)數(shù)據(jù)庫得到的海量化合物數(shù)據(jù),分別構(gòu)建了基于樸素貝葉斯(Na?ve Bayes,NB)和決策樹(Decision Tree,DT)的預(yù)測模型,結(jié)果表明,在面對(duì)多分類任務(wù)或數(shù)據(jù)特征缺失時(shí),NB 模型能夠表現(xiàn)出良好的魯棒性.以上研究多使用較為經(jīng)典的機(jī)器學(xué)習(xí)模型,其模型結(jié)構(gòu)可以繼續(xù)優(yōu)化以更加適應(yīng)化合物的ADMET 屬性預(yù)測任務(wù).
基于此,本文從數(shù)據(jù)樣本與特征約束條件出發(fā),構(gòu)建基于LR、NB、GBDT 模型的ADMET 性質(zhì)預(yù)測模型,并挑選出最優(yōu)模型GBDT.同時(shí)考慮上述經(jīng)典模型中超參數(shù)設(shè)置對(duì)預(yù)測精度、調(diào)參時(shí)間等的影響,提出改進(jìn)最優(yōu)模型GBDT*.經(jīng)對(duì)比驗(yàn)證,發(fā)現(xiàn)超參數(shù)調(diào)優(yōu)算法可有效發(fā)揮分類GBDT*模型最優(yōu)性能,研究成果有助于抗乳腺癌候選藥物的ADMET 性質(zhì)預(yù)測.
針對(duì)抗乳腺癌活性化合物的ADMET 性質(zhì)預(yù)測問題,需收集一系列作用于乳腺癌治療靶標(biāo)的化合物數(shù)據(jù),然后以化合物的諸多分子結(jié)構(gòu)描述符作為輸入變量,選取ADMET 性質(zhì)中表征人體對(duì)化合物滲透吸收能力的Caco-2 性質(zhì)、表征化合物在人體內(nèi)的代謝能力的CYP3A4 性質(zhì)、表征化合物對(duì)心臟毒副作用的hERG 性質(zhì)進(jìn)行建模,并定義化合物各性質(zhì)的表現(xiàn)程度為二分類變量,例如‘Caco-2=1’代表小腸上皮細(xì)胞對(duì)該化合物具有較好的滲透吸收能力,‘Caco-2=0’代表小腸上皮細(xì)胞對(duì)該化合物滲透吸收能力較差;‘CYP3A4=1’代表人體對(duì)該化合物具有代謝能力,‘CYP3A4=0’代表對(duì)該化合物無代謝能力;‘hERG=1’代表該化合物具有心臟毒性,‘hERG=0’代表該化合物無心臟毒性.基于此,構(gòu)建基于邏輯回歸和機(jī)器學(xué)習(xí)方法的化合物ADMET 預(yù)測模型,篩選出最優(yōu)模型,并采用超參數(shù)調(diào)優(yōu)的方法對(duì)優(yōu)選模型進(jìn)行優(yōu)化處理,作為最終的ADMET 性質(zhì)分類預(yù)測模型,進(jìn)行抗乳腺癌活性化合物的ADMET 性質(zhì)預(yù)測.模型框架如圖1 所示.
圖1 ADMET 性質(zhì)預(yù)測模型框架Fig.1 A predictive modelling framework for the nature of ADMET
將降維處理后的N個(gè)化合物分子描述符數(shù)據(jù)作為分類器的輸入,以實(shí)現(xiàn)ADMET 性質(zhì)判別.
邏輯回歸(Logistic Regression,LR)[14]作為一種基于二項(xiàng)分類的回歸分析模型,通過在線性回歸的基礎(chǔ)上增加一個(gè)Sigmoid 函數(shù)映射,實(shí)現(xiàn)對(duì)定性變量的有效預(yù)測.樸素貝葉斯(Na?ve Bayes,NB)[15]通過給定獨(dú)立的目標(biāo)值屬性之間的相互條件,假定模型的變量遵循某種概率分布,對(duì)樣本數(shù)據(jù)集進(jìn)行分類.兩者均具有形式簡單、性能穩(wěn)定、魯棒性強(qiáng)等優(yōu)點(diǎn),廣泛應(yīng)用于文本分類、入侵檢測、故障診斷等領(lǐng)域[16].隨著深度學(xué)習(xí)在模式識(shí)別中的廣泛應(yīng)用,梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)[17]基于梯度提升學(xué)習(xí)策略,對(duì)決策樹中的回歸樹的迭代優(yōu)化,尋找最佳劃分特征,進(jìn)而學(xué)習(xí)樣本路徑實(shí)現(xiàn)分類,是近年來一種模型復(fù)雜度較高、參數(shù)隨機(jī)性較強(qiáng)的學(xué)習(xí)器.因此,本文選取LR 模型、NB 模型及GBDT 模型進(jìn)行ADMET 性質(zhì)分類預(yù)測模型的構(gòu)建.
此外,由于上述經(jīng)典模型中人工設(shè)置超參數(shù)(如學(xué)習(xí)速率、層數(shù)以及每層的神經(jīng)元數(shù)等參數(shù))對(duì)預(yù)測性能的影響較大,訓(xùn)練時(shí)間較長[18].為使算法獲得最優(yōu)性能,采用概率代理模型擬合超參數(shù)x與預(yù)測精度y之間的關(guān)系(即黑箱模型),再通過采集函數(shù)擴(kuò)大數(shù)據(jù)集D={(x1,y1),(x2,y2),(x3,y3),···,(xn,yn)}的規(guī)模,更新代理模型的后驗(yàn)分布,直到后驗(yàn)分布基本貼合于真實(shí)分布,從而篩選出優(yōu)選模型的最優(yōu)超參數(shù),能有效地搜索可能的超參數(shù)空間,提升模型的訓(xùn)練速度.
3.1 數(shù)據(jù)處理實(shí)驗(yàn)數(shù)據(jù)來源于公開數(shù)據(jù)集“2021 年中國研究生數(shù)學(xué)建模競賽”.數(shù)據(jù)集包含:①分子描述符:1 974 個(gè)化合物的729 個(gè)分子描述符信息,分子描述符是一系列用于描述化合物的結(jié)構(gòu)和性質(zhì)特征的參數(shù),包括物理化學(xué)性質(zhì)與拓?fù)浣Y(jié)構(gòu)特征等;② ADMET 性質(zhì):1 974 個(gè)化合物的ADMET 性質(zhì)(Caco-2、CYP3A4、hERG)的數(shù)據(jù),該性質(zhì)可表征候選藥物在人體內(nèi)是否具備良好的藥代動(dòng)力學(xué)性質(zhì).
根據(jù)以往的研究可知,該數(shù)據(jù)集化合物樣本量較?。? 974 個(gè)化合物),分子描述符(729 個(gè)特征變量)特征冗余,具有有效特征不明顯、難以直接預(yù)測應(yīng)用等特點(diǎn)[19].首先通過描述性統(tǒng)計(jì)分析,剔除原始數(shù)據(jù)中的“0”值樣本,如表1 所示;然后為客觀評(píng)價(jià)模型性能,避免模型忽略不同量綱指標(biāo)的潛在信息,利用多重共線性診斷[20]、極值歸一化處理等方法,對(duì)數(shù)據(jù)做深層次的處理分析;最后從729 個(gè)分子描述符中,遴選出對(duì)ADMET 性質(zhì)具有影響的319 個(gè)特征變量,為構(gòu)建化合物的ADMET 性質(zhì)預(yù)測模型提供有效的數(shù)據(jù)基礎(chǔ).
表1 描述性統(tǒng)計(jì)分析結(jié)果示例Tab.1 Example of descriptive statistical analysis results
3.2 模型預(yù)測結(jié)果分析為降低由于數(shù)據(jù)樣本量受限導(dǎo)致的預(yù)測偶然性,提高模型泛化能力及數(shù)據(jù)使用率,采用小型數(shù)據(jù)集適用的k折交叉驗(yàn)證方法對(duì)各預(yù)測模型驗(yàn)證.本文通過將數(shù)據(jù)集劃分為5折,即將樣本集分為5份,每次選擇1 份樣本集用于驗(yàn)證,將剩余的4 份樣本集用于測試.
3.2.1 Caco-2 性質(zhì)預(yù)測結(jié)果 ADMET 性質(zhì)中Caco-2 性質(zhì)預(yù)測混淆矩陣如圖2 所示.結(jié)合表2 可以發(fā)現(xiàn),NB 模型對(duì)Caco-2 性質(zhì)的預(yù)測效果在準(zhǔn)確率(Accuracy,評(píng)價(jià)總體預(yù)測效果)、精準(zhǔn)率(Precision,反映預(yù)測的精確性)、靈敏度(True Positive Rate,TPR)、誤報(bào)率(False Positive Rate,F(xiàn)PR)方面表現(xiàn)最差,而GBDT 模型優(yōu)于LR 和NB 模型.
表2 模型指標(biāo)對(duì)比(Caco-2)Tab.2 Comparison of model indicators (Caco-2)
圖2 Caco-2 性質(zhì)各預(yù)測模型混淆矩陣Fig.2 Confusion matrix of each prediction model of Caco-2
具體來看,GBDT 模型相比LR 模型在準(zhǔn)確率、精準(zhǔn)率、靈敏度、誤報(bào)率方面依次提升了3.9%、5.8%、3.3%、4.2%;GBDT 模型相比NB 模型在準(zhǔn)確率、精準(zhǔn)率、誤報(bào)率方面則依次提升了11.7%、20.5%、22.3%,靈敏度雖然下降了5.4%,但也達(dá)到了85%以上,同時(shí)與精準(zhǔn)率保持均衡,表明GBDT模型對(duì)ADMET 性質(zhì)中的Caco-2 性質(zhì)的預(yù)測精度良好,優(yōu)選模型即基于GBDT 的ADMET 性質(zhì)預(yù)測模型.對(duì)其進(jìn)行超參數(shù)優(yōu)化過后,基于GBDT*的ADMET 性質(zhì)預(yù)測模型的準(zhǔn)確率達(dá)到91.2%.其相比基準(zhǔn)GBDT 模型在準(zhǔn)確率、精準(zhǔn)率、靈敏度、誤報(bào)率方面則依次提升了1.3%、2.6%、0.4%、1.9%.GBDT*模型準(zhǔn)確率的進(jìn)一步上升,驗(yàn)證了本文超參數(shù)優(yōu)化方法的有效性.同時(shí)也說明GBDT*更適用于ADMET 性質(zhì)的預(yù)測問題.
考慮到ADMET 性質(zhì)預(yù)測問題中樣本數(shù)據(jù)數(shù)量不平衡會(huì)對(duì)模型的預(yù)測效果產(chǎn)生影響,而工作特性曲線(Receiver Operating Characteristic curve,ROC)能夠綜合客觀衡量模型本身整體性能,具有避免不同測試集帶來的干擾,不受樣本不均影響等特點(diǎn).因此,為客觀反映模型的預(yù)測性能,選取ROC 作為ADMET 性質(zhì)預(yù)測效果的進(jìn)一步評(píng)價(jià)指標(biāo).在顯著性水平為0.05 的情況下,計(jì)算ROC 曲線下面積(Area Under Curve,AUC),研究所構(gòu)建的預(yù)測模型是否適用于ADMET 不同性質(zhì)的判別.
從圖3 可以看出,在對(duì)Caco-2 性質(zhì)進(jìn)行預(yù)測時(shí),基于GBDT 的ADMET 預(yù)測模型AUC 最大(AUC=0.96).相比LR 和NB 算法的預(yù)測模型,GBDT模型AUC 指標(biāo)分別提高了0.10 和0.11.再次說明在對(duì)分子描述符數(shù)據(jù)進(jìn)行統(tǒng)一清洗處理的條件下,基于GBDT 算法構(gòu)建的ADMET 性質(zhì)預(yù)測模型對(duì)Caco-2 性質(zhì)具有較好的預(yù)測能力.同時(shí)也說明基于GBDT 的ADMET 預(yù)測模型更適合處理低維非線性分析描述符數(shù)據(jù),對(duì)其進(jìn)行超參數(shù)優(yōu)化后,GBDT*與GBDT 模型的AUC 指標(biāo)雖相差不大,但準(zhǔn)確率、精準(zhǔn)率、靈敏度、誤報(bào)率均有效提升.總體來看,基于GBDT*算法構(gòu)建的ADMET 性質(zhì)預(yù)測模型能有效提升預(yù)測精度,具有應(yīng)用于ADMET性質(zhì)預(yù)測的潛力.
圖3 Caco-2 性質(zhì)各預(yù)測模型ROC 曲線Fig.3 ROC curves of each prediction model of Caco-2
3.2.2 CYP3A4 性質(zhì)預(yù)測結(jié)果 CYP3A4 結(jié)果與Caco-2 類似,如表3 所示.具體表現(xiàn)為:與基于LR的ADMET 性質(zhì)預(yù)測模型相比,GBDT 在準(zhǔn)確率、精準(zhǔn)率、靈敏度、誤報(bào)率方面分別提升了3.2%、0.4%、4.2%、0.6%;與基于NB 的ADMET 性質(zhì)預(yù)測模型相比,GBDT 模型在精準(zhǔn)率和誤報(bào)率方面較弱,這是因?yàn)樵紨?shù)據(jù)集中CYP3A4 樣本類別不均衡,無代謝能力的樣本(CYP3A4=0)占有代謝能力的樣本(CYP3A4=1)的35%,導(dǎo)致模型對(duì)無代謝能力的樣本(CYP3A4=0)判斷不準(zhǔn)確;但在模型總體預(yù)測效果方面,GBDT 模型的準(zhǔn)確率較NB 模型提升了5.8%,AUC 綜合評(píng)估指標(biāo)提升了0.07,并且精準(zhǔn)率和靈敏度也得到了兼顧.因此,從全局考慮,仍選用GBDT 模型作為優(yōu)選模型,進(jìn)行ADMET 性質(zhì)預(yù)測,在對(duì)其進(jìn)行超參數(shù)優(yōu)化過后,GBDT*與GBDT 各評(píng)價(jià)指標(biāo)相差不大,但有效縮減了基于GBDT 的ADMET 性質(zhì)預(yù)測模型的訓(xùn)練時(shí)間.
表3 模型指標(biāo)對(duì)比(CYP3A4)Tab.3 Comparison of model indicators (CYP3A4)
3.2.3 hERG 性質(zhì)預(yù)測結(jié)果 hERG 性質(zhì)判別結(jié)果也與上述類似,如表4 所示.在hERG 性質(zhì)預(yù)測過程中,集成學(xué)習(xí)方法GBDT 相較于LR 模型與NB 模型在準(zhǔn)確率、精準(zhǔn)率等方面均取得了最佳的預(yù)測結(jié)果,成為優(yōu)選模型.且GBDT*較GBDT 在準(zhǔn)確率、精準(zhǔn)率、靈敏度、誤報(bào)率方面提升了0.9%、1%、0.5%、1.4%;在AUC 綜合評(píng)價(jià)指標(biāo)方面提升了0.01,體現(xiàn)出基于GBDT*的ADMET 預(yù)測模型的優(yōu)越性.
表4 模型指標(biāo)對(duì)比(hERG)Tab.4 Comparison of model indicators (hERG)
3.2.4 ADMET 性質(zhì)的特征篩選 基于模型精度分析,選擇優(yōu)選模型GBDT 預(yù)測模型探究不同特征變量對(duì)各ADMET 性質(zhì)的影響,采用經(jīng)驗(yàn)閾值法(特征權(quán)重大于0.015 的變量)篩選出顯著變量.按重要性百分比從大到小依次排序,結(jié)果如圖4 所示.三類性質(zhì)的特征變量在權(quán)重?cái)?shù)值層面較為集中分布于某一種或幾種變量上.例如Caco-2 特征重要性指標(biāo)中,大于0.015 的指標(biāo)有8項(xiàng),其中ECCEN 特征對(duì)Caco-2 性質(zhì)起到絕對(duì)控制作用,占比50.30%.CYP3A4 各特征重要性指標(biāo)中,VP-7、Zagreb、SP-6 是對(duì)CYP3A4 影響程度較大的變量,分別占比27.00%、13.97%、10.97%.hERG 各特征重要性指標(biāo)中,ECCEN 是影響hERG 預(yù)測的關(guān)鍵特征變量,占比31.40%.
圖4 ADMET 性質(zhì)的特征重要性Fig.4 Characteristic importance of ADMET
可見,ADMET 性質(zhì)受不同特征因素影響差異大,導(dǎo)致其預(yù)測效果的隨機(jī)性.傳統(tǒng)的最優(yōu)權(quán)重閾值方法只能篩選出ADMET 性質(zhì)的明顯特征,而難以確定最有效的特征變量.因此,本文采用概率代理模型擬合超參數(shù)與預(yù)測精度之間的關(guān)系(即黑箱模型),及時(shí)調(diào)整模型最佳超參數(shù),獲取有效特征因子,以適應(yīng)各性質(zhì)的預(yù)測需求.
3.3 GBDT*模型優(yōu)化效果分析為進(jìn)一步驗(yàn)證本文GBDT*算法的優(yōu)勢,設(shè)置GBDT*模型最大迭代次數(shù)為30次,參數(shù)調(diào)整范圍為:樹的數(shù)量為(0,1 200),學(xué)習(xí)率為(0,1),最大特征數(shù)為(0,100),經(jīng)超參數(shù)自動(dòng)尋優(yōu)后,輸出結(jié)果如表5 所示.同時(shí)找到適合Caco-2、CYP3A4、hERG 預(yù)測的有效特征數(shù)分別為49、14、36 個(gè).調(diào)參可視化過程如圖5 所示,可以看出,GBDT*對(duì)Caco-2 性質(zhì)和hERG 性質(zhì)預(yù)測模型的優(yōu)化效果顯著,對(duì)CYP3A4 性質(zhì)預(yù)測模型的優(yōu)化效果稍弱,可能是數(shù)據(jù)樣本量太小、有效特征不明顯所致.總的來說,GBDT*模型能夠針對(duì)不同輸入及時(shí)調(diào)整所需超參數(shù),提升模型快速找到不同ADMET 性質(zhì)的有用特征,有效改善數(shù)據(jù)特征不明顯、維度過高導(dǎo)致特征冗余等情況,提升模型訓(xùn)練的效率.
圖5 GBDT*模型超參數(shù)優(yōu)化過程可視化Fig.5 Visualization of hyperparaments optimization process for GBDT* model
表5 GBDT*調(diào)參結(jié)果Tab.5 Hyperparameters tuning results of GBDT*
本文以抗乳腺癌活性化合物的ADMET 性質(zhì)中的吸收、代謝、毒性屬性的分類預(yù)測為研究方向,提出基于GBDT*算法的ADMET 性質(zhì)預(yù)測方法.然后對(duì)抗乳腺癌活性化合物的物理化學(xué)性質(zhì)、拓?fù)浣Y(jié)構(gòu)特征等數(shù)據(jù)進(jìn)行清洗處理,獲取豐富的狀態(tài)信息,選取LR、NB、GBDT 作為ADMET 分類預(yù)測的候選模型,針對(duì)經(jīng)典算法訓(xùn)練成本較高的問題,對(duì)GBDT 模型進(jìn)行超參數(shù)尋優(yōu),提出ADMET 性質(zhì)分類預(yù)測模型為最優(yōu)模型GBDT*,有效改善淺層機(jī)器學(xué)習(xí)調(diào)參時(shí)間久、局部最小化以及過擬合等缺陷,能更好地根據(jù)小樣本、多特征條件下分子描述符變量對(duì)ADMET 性質(zhì)進(jìn)行預(yù)測,有助于抗乳腺癌候選藥物的虛擬篩選研究.本文在預(yù)測時(shí)僅以分子描述符特征作為自變量,未來將綜合考慮各類因素,建立更加通用且穩(wěn)定的ADMET 性質(zhì)預(yù)測模型.