基于PSO-BP神經(jīng)網(wǎng)絡(luò)與PSO-SVM的抗乳腺癌藥物性質(zhì)預(yù)測

2023-06-14 08:44:08許美賢鄭琰李炎舉吳偉豪

南京信息工程大學(xué)學(xué)報 2023年1期

許美賢鄭琰李炎舉吳偉豪

摘要

通過實驗篩選研發(fā)新藥的過程非常緩慢且需耗費大量的人力物力，而利用計算機輔助預(yù)測藥物的分子性質(zhì)可極大地節(jié)省藥物研發(fā)時間和成本．因此，為了能夠使抗乳腺癌候選藥物對抑制ERα具有良好的生物活性和ADMET性質(zhì)，針對收集到的1 974種化合物，首先利用隨機森林分類器篩選出前20個對生物活性最具顯著影響的分子描述符，并以此和pIC50值作為特征數(shù)據(jù)建立QSAR模型．其次，基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)對50個新化合物的生物活性值進行預(yù)測，模型擬合度為0.833 7，根均方誤差為0.731 5，比優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò)預(yù)測值更貼合實際．隨后為提高藥物研發(fā)的成功率，依據(jù)已有的ADMET性質(zhì)數(shù)據(jù)利用PSO優(yōu)化SVM構(gòu)建ADMET分類預(yù)測模型，算法交叉驗證CV準(zhǔn)確率達到94.076 7％，5個指標(biāo)模型的預(yù)測準(zhǔn)確率均在79％以上．結(jié)果表明，所建立的模型比基準(zhǔn)模型的預(yù)測性能更好，采用的預(yù)測策略是有效的，可為抗乳腺癌藥物的研發(fā)提供借鑒．

關(guān)鍵詞抗乳腺癌藥物;生物活性;ADMET性質(zhì);粒子群優(yōu)化算法;BP神經(jīng)網(wǎng)絡(luò);支持向量機

中圖分類號

TP183

文獻標(biāo)志碼

收稿日期

2021-12-06

資助項目

國家自然科學(xué)基金（71701099，71501090）；江蘇省高等學(xué)校自然科學(xué)研究項目（17KJB580008）

作者簡介

許美賢，女，碩士生，主要從事人工智能輔助藥物設(shè)計、數(shù)據(jù)挖掘的研究.xumeixain3210@163.com

鄭琰（通信作者），女，博士，副教授，主要從事計算生物物理學(xué)、人工智能輔助生物分子結(jié)構(gòu)預(yù)測的研究.ZhengYan3210@163.com

0 引言

美國癌癥中心2018年的癌癥數(shù)據(jù)報告顯示，乳腺癌是目前全球女性最高發(fā)的惡性腫瘤，它嚴重威脅著女性的身心健康［1］．乳腺癌已經(jīng)成為一個世界性的醫(yī)療保健問題，治療方案既要有選擇性也要考慮有效性的概率．為解決這個問題，藥用化學(xué)領(lǐng)域?qū)Υ罅康暮蜻x藥物進行了研究分析．通過對雌激素受體α亞型（ERα）基因缺失小鼠的實驗結(jié)果表明，ERα被認為是治療乳腺癌的重要靶標(biāo)，能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物．

抗乳腺癌候選藥物從研發(fā)到投入使用需要擁有良好的生物活性，同時其藥代動力學(xué)性質(zhì)和安全性也要符合相關(guān)政策法規(guī)的要求．而如果僅僅采用實驗的方式去評估化合物的生物活性、藥代動力學(xué)性質(zhì)和安全性，需要花費的時間和成本將不可計量，其中藥代動力學(xué)性質(zhì)和安全性合稱為ADMET（Absorption（吸收）、Distribution（分布）、Metabolism（代謝）、Excretion（排泄）、Toxicity（毒性））性質(zhì)．而且在試驗動物身上獲取的數(shù)據(jù)與臨床數(shù)據(jù)并不完全重合，因此不能滿足現(xiàn)代藥物研究的需求［2］．為了節(jié)約時間和成本，研究機構(gòu)通常選擇把體外研究技術(shù)和計算機運算模型結(jié)合起來建立化合物活性預(yù)測模型，篩選潛在活性化合物．即通過收集一系列作用于ERα的化合物及其生物活性數(shù)據(jù)，并選取一系列分子結(jié)構(gòu)描述符作為自變量，化合物的生物活性值作為因變量，構(gòu)建化合物的定量結(jié)構(gòu)-活性關(guān)系（QSAR）模型，然后使用該模型預(yù)測具有更好生物活性的新化合物分子，或者指導(dǎo)已有活性化合物的結(jié)構(gòu)優(yōu)化．此外，除了考慮生物活性，藥物代謝動力學(xué)性質(zhì)和毒性（ADMET）也是決定藥物研發(fā)成功與否的重要因素．一個化合物的活性再好，如果其ADMET性質(zhì)不佳，比如很難被人體吸收，或者體內(nèi)代謝速度太快，或者具有某種毒性，那么其仍然難以成為藥物，因而還需要進行ADMET性質(zhì)優(yōu)化．

而在如今藥物數(shù)量劇增的情況下，最經(jīng)濟合理的研究方式是利用計算機輔助的人工智能算法對藥物生物活性和ADMET性質(zhì)進行預(yù)測分析．顧耀文等［3］從多個公共數(shù)據(jù)庫中收集到了大量的藥物ADMET數(shù)據(jù)，經(jīng)過有效的數(shù)據(jù)清洗后提出利用圖神經(jīng)網(wǎng)絡(luò)模型來進行藥物研發(fā)的虛擬篩選，研究結(jié)果表明所建模型預(yù)測性能較好，可進行泛化使用．謝良旭等［4］考慮到淺層和深層神經(jīng)網(wǎng)絡(luò)的精度和擬合度問題，選擇把數(shù)個神經(jīng)網(wǎng)絡(luò)和堆疊法等結(jié)合起來預(yù)測藥物分子性質(zhì)，融合模型預(yù)測準(zhǔn)確性和可靠性較高．秦潔［5］為有效預(yù)測藥物先導(dǎo)化合物分子生物活性值，深入研究了矩陣補全算法在標(biāo)記配體特征中的學(xué)習(xí)，算法比深度學(xué)習(xí)展現(xiàn)出更強的優(yōu)勢，預(yù)測的最優(yōu)值更貼合實際．賈聰敏［6］采用隨機森林、支持向量機、人工神經(jīng)網(wǎng)絡(luò)3種機器學(xué)習(xí)算法進行藥物靶點定量預(yù)測模型的構(gòu)建，對比分析3種算法的預(yù)測結(jié)果，表明其構(gòu)建的最優(yōu)模型能夠客觀地從分子振動角度篩選出有效的分子描述符．沈杰［7］在經(jīng)典遺傳算法的基礎(chǔ)上吸入精英倉庫策略建立小分子ADMET的QSAR預(yù)測模型，同時基于信息增益來評估化合物分子結(jié)構(gòu)，驗證了所建模型可推廣應(yīng)用至藥物代謝、毒性評估等方面．

回顧文獻［1-7］可知，利用人工智能方法預(yù)測藥物的生物活性和ADMET性質(zhì)顯然已成為研究的熱點．研究表明利用人工智能算法開展對藥物生物活性和ADMET性質(zhì)的預(yù)測分析可顯著地降低研發(fā)成本，提高研發(fā)成功幾率，且更有利于對候選藥物在生物體內(nèi)發(fā)揮的作用進行探索，有效避免因藥物產(chǎn)生的副作用和毒性導(dǎo)致的人體疾病，可指導(dǎo)臨床治療時的合理用藥［8］．由此可見，使用計算機輔助的人工智能算法進行理論預(yù)測抗乳腺癌候選藥物的生物活性和ADMET性質(zhì)是極具現(xiàn)實意義的．

本文從加拿大阿爾伯塔大學(xué)的DrugBank藥物分子數(shù)據(jù)庫中獲取1 974種化合物對乳腺癌治療靶標(biāo)ERα的生物活性和ADMET性質(zhì)數(shù)據(jù)，利用所收集到的信息從化合物分子描述符角度出發(fā)建立定量預(yù)測模型，基于粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法來預(yù)測新化合物的IC 50和pIC 50值．同時構(gòu)建分類預(yù)測模型，基于粒子群優(yōu)化支持向量機來預(yù)測化合物的5種ADMET性質(zhì)，分別是Caco-2、CYP3A4、hERG、HOB、MN，從而尋找到能滿足化合物活性較高且盡可能使得ADMET性質(zhì)較好的化合物分子描述符，以加快抗乳腺癌候選藥物的研發(fā)進程．

1 數(shù)據(jù)收集

針對乳腺癌治療靶標(biāo)ERα，從阿爾伯塔大學(xué)的DrugBank藥物分子數(shù)據(jù)庫中獲取了1 974個化合物對ERα的生物活性數(shù)據(jù)、729個分子描述符信息數(shù)據(jù)、5種ADMET性質(zhì)數(shù)據(jù)［9］．DrugBank數(shù)據(jù)庫擁有獨特的生物信息學(xué)和化學(xué)信息學(xué)資源，它將詳細的藥物數(shù)據(jù)和全面的藥物目標(biāo)信息結(jié)合起來，以便科學(xué)家們研究藥物機制和探索新型藥物．本文收集到的數(shù)據(jù)中包含了化合物的SMILES結(jié)構(gòu)式、化合物對ERα的生物活性值IC 50和pIC 50值、729個分子描述符信息（自變量）、分子描述符含義解釋，以及采用0-1二分類法提供相應(yīng)取值的Caco-2、CYP3A4、hERG、HOB、MN等5種藥代動力學(xué)性質(zhì)和毒性．

2 篩選主要的分子描述符

2.1 數(shù)據(jù)預(yù)處理

針對收集到的729個分子描述符信息進行觀察，對數(shù)據(jù)進行處理發(fā)現(xiàn)1 974個有機化合物中有些描述符全為0，例如分子描述符nB（硼原子數(shù)）全為0．大量為“0”的數(shù)據(jù)并不是缺失，而是化合物的分子描述符就是“0”這個數(shù)字［10］，這對制藥研究是有實際意義的，故在數(shù)據(jù)預(yù)處理時不需要把全為0的描述符行列剔除．因此可直接利用原有的1 974個化合物的729個分子描述符數(shù)據(jù)作為自變量，生物活性值作為因變量構(gòu)建定量結(jié)構(gòu)-活性關(guān)系（QSAR）模型．

在收集到的數(shù)據(jù)集中，化合物對ERα的生物活性值用IC 50表示．IC 50為實驗測定值，單位是nmol／L，該值越小代表生物活性越大，對抑制ERα活性越有效．參考文獻［7-10］及利用分子描述符計算的專用軟件PaDEL-Descriptor試驗可知，pIC 50值通常由IC 50轉(zhuǎn)化而得到（即IC 50值的負對數(shù)），而pIC 50值通常與生物活性具有正相關(guān)性，即pIC 50值越大表明生物活性越高．在實際QSAR理論建模中，一般采取pIC 50值來表示生物的活性值．首先需要針對1 974個化合物的729個分子描述符進行變量選擇，根據(jù)各變量對生物活性影響的重要性進行排序，得出前20個對生物活性最具顯著影響的分子描述符（即自變量）．由于收集到的分子描述符數(shù)據(jù)為二維數(shù)據(jù)，即對應(yīng)分子的溶解度、表面積等信息，需要篩選出對結(jié)果影響最大的幾個特征，以此作為建立模型時的特征數(shù)據(jù)．而常見的求解方法有主成分分析法、LASSO、隨機森林等，但是主成分分析法和LASSO這類經(jīng)典算法對729個變量指標(biāo)進行特征提取和降維時會帶來模糊性，使得原始變量含義失去了清晰確切性［11］．因此選擇利用隨機森林（RF）算法對特征重要性進行評估，篩選出對活性值影響大的分子描述符．

2.2 基于隨機森林篩選分子描述符

隨機森林基于Bagging算法的集成思想為每棵決策樹生成獨立的同分布訓(xùn)練樣本集，所有決策樹的投票將決定最終的分類結(jié)果．基于隨機森林模型把收集到的分子描述符數(shù)據(jù)輸入MATLAB軟件中進行運算，第i次和第j次程序運行結(jié)果分別如圖1和圖2所示．

由于每次訓(xùn)練都是隨機抽樣，程序運行后分子描述符重要度排名結(jié)果有所差異，則設(shè)計10次實驗對分子描述符重要性進行統(tǒng)計．設(shè)VIM為重要度系數(shù)，則VIMi j 分別表示第j次實驗的第i名分子描述符的重要度系數(shù)．通過統(tǒng)計10次實驗排名前20所出現(xiàn)過的分子描述符，然后計算統(tǒng)計的分子描述符的平均重要性系數(shù)，記為VIM．最后根據(jù)VIM對所統(tǒng)計的分子描述符進行排序，取平均重要性系數(shù)前20的為最具顯著影響的分子描述符．統(tǒng)計10次實驗分子變量符中出現(xiàn)的次數(shù)如表1所示．由表1可知27個變量出現(xiàn)次數(shù)排序，理論出現(xiàn)次數(shù)高的其重要性系數(shù)也相對較大．通過統(tǒng)計這27個變量的平均重要性系數(shù)，可得10次實驗中平均重要性系數(shù)排序，如圖3所示．根據(jù)圖3可得出這20個分子描述符來盡可能地描述化合物的生物活性．

3 基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的QSAR模型預(yù)測分析

在對分子描述符數(shù)據(jù)進行降維處理后，大大減少了數(shù)據(jù)量.鑒于BP神經(jīng)網(wǎng)絡(luò)模型的自適應(yīng)、泛化及容錯能力較強，且可以通過數(shù)據(jù)逼近任意線性連續(xù)的函數(shù)，這一特點與分子描述符數(shù)據(jù)性質(zhì)對候選藥物影響方式的特點相吻合．因此可以選擇BP神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練學(xué)習(xí)，并對50個化合物進行IC 50值和對應(yīng)的pIC 50值預(yù)測．本節(jié)分析基于BP神經(jīng)網(wǎng)絡(luò)的生物活性值預(yù)測方法，并通過引入具備運行速度較快、全局尋優(yōu)能力較好的粒子群算法（PSO）來避免傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)易陷入局部最優(yōu)解的問題．

3.1 BP神經(jīng)網(wǎng)絡(luò)生物活性值預(yù)測模型

采用包含著輸入層、隱含層和輸出層共3層的神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練和預(yù)測．如圖4所示，設(shè)定輸入數(shù)據(jù)為前文篩選得出的20個分子描述符，即輸入層神經(jīng)元節(jié)點數(shù)為20，輸出層神經(jīng)元節(jié)點數(shù)設(shè)置為1［12］．

隱含層神經(jīng)元節(jié)點數(shù)可根據(jù)經(jīng)驗公式（1）進行確定數(shù)量范圍在4～14，本節(jié)設(shè)置隱含層神經(jīng)元節(jié)點數(shù)為10：

q=k+l+a，（1）

式（1）中：q是隱含層神經(jīng)元的個數(shù);k是輸入層神經(jīng)元的個數(shù);l是輸出層神經(jīng)元的個數(shù);a是一個固定的常數(shù)值，取值范圍在0～10之間［13］．

BP神經(jīng)網(wǎng)絡(luò)中隱含層的激活函數(shù)為sigmoid，輸出層的激活函數(shù)為relu，用函數(shù)式（2）、（3）表示：

sigmoid（z）=11+e-z，（2）

relu（z）=z， z>0，0， z≤0.（3）

用S［l］ j 來表示第l層中第j個神經(jīng)元的激活函數(shù)輸出，ωl jk 表示從網(wǎng)絡(luò)第（l-1）層k個神經(jīng)元指向第l層第j個神經(jīng)元的連接權(quán)重［14］．用σ表示激活函數(shù)．

從輸入層到隱含層的計算公式為

Sl j=σ∑Pp=1ω plx p+b 1，? p=1，2，…，P;l=1，2，…，L．（4）

由隱含層到輸出層的計算公式為

S m=σ∑Ll=1ω lmf 1（Sl j）+b 2，

l=1，2，…，L;m=1，2，…，M．（5）

式（4）、（5）中：b 1和b 2為閾值;ω pl和ω lm為連接權(quán)值;隱含層輸出結(jié)果為f 1（S l），f 1為relu激活函數(shù);輸出層輸出結(jié)果為f 2（S m），f 2為輸出層的輸出函數(shù)．

3.2 BP神經(jīng)網(wǎng)絡(luò)求解結(jié)果分析

基于傳統(tǒng)BP神經(jīng)網(wǎng)絡(luò)模型，按8∶2的比例將1 974個樣本數(shù)據(jù)劃分成訓(xùn)練集和測試集，用訓(xùn)練集訓(xùn)練模型，再用訓(xùn)練好的模型在測試集上驗證效果，訓(xùn)練回歸結(jié)果如圖5所示．觀察可得該模型計算的擬合度為0.820 62，其訓(xùn)練和測試數(shù)據(jù)較為集中．測試預(yù)測結(jié)果誤差如圖6和圖7所示．由圖6可知選取的50組測試集進行預(yù)測有所波動，出現(xiàn)個別誤差較大的情況，但主要集中在0.1～0.3范圍內(nèi)，測試平均誤差為21.671 5％．由圖7可知50組測試集所預(yù)測的pIC 50值與實際測試值有誤差，其均方根誤差RMSE為1.416 4，決定系數(shù)R2=0.466 69．可以發(fā)現(xiàn)單純通過BP神經(jīng)網(wǎng)絡(luò)進行模型預(yù)測雖然可以預(yù)測出一定的pIC 50值，但并不準(zhǔn)確，應(yīng)該通過相關(guān)算法對模型進行優(yōu)化從而減少誤差．由于粒子群優(yōu)化算法（PSO）不依賴于問題信息，采用實數(shù)求解，算法的通用性強［15］，容易實現(xiàn)且收斂速度快，因此，在追求誤差較小的基礎(chǔ)上，可以通過基于粒子群算法來優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型進行預(yù)測．

3.3 PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型

BP神經(jīng)網(wǎng)絡(luò)會由于初始閾值與權(quán)值選取不合理，而導(dǎo)致陷入局部最優(yōu)解.同時若需要進行大量的訓(xùn)練，極容易造成過度擬合，將在一定程度上影響泛化能力．針對BP神經(jīng)網(wǎng)絡(luò)的缺點，可以考慮使用遺傳算法或粒子群算法對網(wǎng)絡(luò)進行優(yōu)化，本文考慮到PSO算法采用實數(shù)編碼，比采用二進制編碼的遺傳算法運行速度更快，同時可利用遺傳算法的變異思想增加變異算子和動態(tài)調(diào)整學(xué)習(xí)因子等來改進不足［16］，避免陷入局部最優(yōu)，保證種群多樣化．使用的PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法流程如圖8所示．

在更新粒子的速度和位置時，可以依據(jù)式（6）對粒子的位置和速度進行調(diào)整：

Vk+1 i=ωVk i+c 1（j）×r 1×（P best-Xk i）+? c 2（j）×r 2×（g best-Xk i），

Xk+1 i=Xk i+Vk+1 i，

c 2（j）=c max-（c max-c min）×（i tmax-j）i tmax，

c 1（j）=4-c 2（j），（6）

式（6）中：c 1（j），c 2（j）表示進行第j次迭代產(chǎn)生的學(xué)習(xí)因子;i表示迭代的次數(shù);ω表示權(quán)值系數(shù)；r 1，r 2表示隨機函數(shù)．

3.4 PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)預(yù)測生物活性結(jié)果分析

基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法建立定量預(yù)測模型，同樣將1 974個樣本數(shù)據(jù)劃隨機分成80％的訓(xùn)練集和20％的測試集，用訓(xùn)練集訓(xùn)練，用測試集對模型進行檢驗．其預(yù)測結(jié)果如圖9所示，訓(xùn)練集和測試集的擬合優(yōu)度分別為0.862 77和0.745 85，預(yù)測模型整體擬合優(yōu)度為0.833 7，比優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò)的擬合度有所提升．

PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)算法測試預(yù)測結(jié)果誤差如圖10和圖11所示．由圖10可知測試集樣本預(yù)測的平均相對誤差為9.491 3％，預(yù)測準(zhǔn)確度有所提升，其測試集的數(shù)據(jù)相對集中．而圖11表明均根方誤差RMSE為0.731 5，決定系數(shù)R2=0.740 92．相比未優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果，其RMSE降低且R2有所增加，說明優(yōu)化后的網(wǎng)絡(luò)預(yù)測得到的生物活性值數(shù)據(jù)更加貼近真實值，通過擬合度和誤差分析論證了PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的模型整體效果更好．

通過上文建立的化合物對ERα生物活性的定量預(yù)測模型，對50個化合物的生物活性值進行預(yù)測．在數(shù)據(jù)集中IC 50值的單位是nmol／L，因此不能直接用IC 50值取負對數(shù)，應(yīng)乘以10的-9次方后再取負對數(shù)，所以IC 50與pIC 50的關(guān)系為IC 50=10（9-pIC 50），而pIC 50是IC 50的轉(zhuǎn)化值，并無單位．由此可得模型優(yōu)化前后的預(yù)測值，但經(jīng)過對比最終只選取PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)模型預(yù)測得到的IC 50值和對應(yīng)的pIC 50值，詳見表2．

4 基于PSO優(yōu)化SVM的ADMET性質(zhì)預(yù)測模型分析

4.1 化合物ADMET性質(zhì)分析及預(yù)測模型構(gòu)建

一個化合物想要成為候選藥物，除了需要具備良好的生物活性（即抗乳腺癌活性）外，還需要在人體內(nèi)具備良好的藥代動力學(xué)性質(zhì)和安全性，合稱為ADMET（Absorption（吸收）、Distribution（分布）、Metabolism（代謝）、Excretion（排泄）、Toxicity（毒性））性質(zhì)［17］．其中，ADME主要指化合物的藥代動力學(xué)性質(zhì)，描述了化合物在生物體內(nèi)的濃度隨時間變化的規(guī)律，T主要指化合物可能在人體內(nèi)產(chǎn)生的毒副作用．一個化合物的活性再好，如果其ADMET性質(zhì)不佳，比如很難被人體吸收，或者在體內(nèi)代謝速度太快，或者具有某種毒性，那么其仍然難以成為藥物，因而還需要進行ADMET性質(zhì)優(yōu)化．由于建模優(yōu)化的復(fù)雜程度，本文僅考慮化合物的5種ADMET性質(zhì)，分別是：1）小腸上皮細胞滲透性（Caco-2），可度量化合物被人吸收的能力;2）細胞色素P450酶（Cytochrome P450，CYP）3A4亞型（CYP3A4），這是人體內(nèi)的主要代謝酶，可度量化合物的代謝穩(wěn)定性;3）化合物心臟安全性評價（human Ether-a-go-go Related Gene，hERG），可度量化合物的心臟毒性;4）人體口服生物利用度（Human Oral Bioavailability，HOB），可度量藥物進入人體后被吸收進入人體血液循環(huán)的藥量比例;5）微核試驗（Micronucleus，MN），是檢測化合物是否具有遺傳毒性的一種方法［18］．為方便討論，

本文統(tǒng)一使用二分類法提供ADMET性質(zhì)的相應(yīng)取值，比如對于Caco-2：“1”代表該化合物的小腸上皮細胞滲透性較好，“0”代表該化合物的小腸上皮細胞滲透性較差.其他4個的二分類法可依此類推．

由于收集到的ADMET性質(zhì)數(shù)據(jù)樣本量有限，且具有非線性及維數(shù)較多的特點，在收集過程中易受到操作環(huán)境等復(fù)雜因素的影響，使得數(shù)據(jù)具有較高的含噪性且容易出現(xiàn)缺失和錯漏，因此在選用數(shù)據(jù)挖掘算法進行分析預(yù)測時，需考慮算法的適用性．經(jīng)過比較分析幾個常用算法發(fā)現(xiàn)：樸素貝葉斯算法對輸入數(shù)據(jù)的表達形式很敏感，分類決策存在一定的錯誤率，其訓(xùn)練效率低且運算框架比較復(fù)雜，不適用于化合物的ADMET性質(zhì)預(yù)測;決策樹算法在處理特征關(guān)聯(lián)性比較強的數(shù)據(jù)時表現(xiàn)一般，容易出現(xiàn)過擬合;支持向量機SVM算法的最終決策函數(shù)只由少數(shù)的支持向量所確定，計算的復(fù)雜性取決于支持向量的數(shù)目，而不是樣本空間的維數(shù)，避免了“維數(shù)災(zāi)難”，且對非線性分類任務(wù)的可解釋性強，能找出至關(guān)重要的關(guān)鍵樣本，算法擬合精度較高，具有較好的魯棒性，對化合物ADMET性質(zhì)預(yù)測具有較強的適用性．故采用支持向量機建立出5種ADMET性質(zhì)各自的0-1二分類模型．但該方法的參數(shù)核函數(shù)g和懲罰參數(shù)c的選取問題會限制其進一步的發(fā)展．根據(jù)現(xiàn)有研究表明，截至目前還沒有一種比較好的、公認的、固定的參數(shù)選取方法．一般而言，經(jīng)驗估計法是研究中最常使用的方法，但是該方法在選取參數(shù)時比較隨機，會產(chǎn)生較大的局限性．而粒子群算法（PSO）在參數(shù)尋優(yōu)求解過程中擁有比較顯著的優(yōu)勢，并且該方法的模型結(jié)構(gòu)相對簡單［19］，因此，本文將選擇使用粒子群算法優(yōu)化支持向量機參數(shù)，其算法的運行流程如圖12所示．

在使用PSO優(yōu)化SVM方法來計算各粒子的適應(yīng)度值時，適應(yīng)度函數(shù)取均方誤差（MSE），如式（7）所示：

MSE=1n∑ni=1（y i- i）2，（7）

式（7）中：y i是實際取值; i是預(yù)測取值;n是訓(xùn)練的樣本個數(shù)．

4.2 基于PSO優(yōu)化SVM的分類預(yù)測結(jié)果分析

基于上述PSO優(yōu)化SVM算法構(gòu)建化合物的ADMET預(yù)測模型，分別對5個指標(biāo)進行預(yù)測分析，依次設(shè)立輸出變量指標(biāo)分別為Caco-2、CYP3A4、hERG、HOB、MN，代入MATLAB軟件中運行．

4.2.1 化合物的小腸上皮細胞滲透性Caco-2預(yù)測分析

對于指標(biāo)Caco-2的預(yù)測，圖13表示PSO優(yōu)化SVM的Caco-2迭代過程，可得到優(yōu)化后的懲罰參數(shù)c=268.757 6和核參數(shù)g=0.001，交叉驗證CV準(zhǔn)確率達到94.076 7％，準(zhǔn)確性較好，對Caco-2指標(biāo)預(yù)測具備一定參考價值．圖14表示574個測試數(shù)據(jù)的混淆矩陣，其中有396個化合物的實際樣本分類值和模型預(yù)測分類值均為“0”，117個化合物的實際樣本分類值和模型預(yù)測分類值均為“1”，混淆矩陣的精確度為80.7％，召回率為78.0％，特異度為93.4％．圖15表示PSO優(yōu)化SVM后的實際分類與預(yù)測分類對比情況［20］，對于574個測試數(shù)據(jù)的Caco-2的真實值和預(yù)測值大部分相互吻合，其預(yù)測準(zhǔn)確度為89.372 8％．

4.2.2 化合物的代謝穩(wěn)定性CYP3A4預(yù)測分析

對于指標(biāo)CYP3A4的預(yù)測，圖16表示其迭代過程，優(yōu)化后的懲罰參數(shù)c=549.464 9和核參數(shù)g=0.001，交叉驗證迭代過程中CV的準(zhǔn)確率為97.735 2％，具有較好的精度．圖17表示574個測試數(shù)據(jù)的混淆矩陣，其中有59個化合物的實際樣本分類值和模型預(yù)測分類值均為“0”，481個化合物的實際樣本分類值和模型預(yù)測分類值均為“1”，混淆矩陣的精確度為97.0％，召回率為96.2％，特異度為79.7％．圖18為預(yù)測CYP3A4指標(biāo)時測試集的實際分類和預(yù)測分類結(jié)果［21］，測試集的實際分類和預(yù)測分類也相對較高，其預(yù)測準(zhǔn)確度為94.076 7％．

4.2.3 化合物的心臟毒性hERG預(yù)測分析

對于指標(biāo)hERG的預(yù)測，圖19表示其迭代過程，優(yōu)化后的懲罰參數(shù)c=891.311 9和核參數(shù)g=0.001，交叉驗證迭代過程中CV準(zhǔn)確率為89.198 6％，精度一般．圖20表示574個測試數(shù)據(jù)的混淆矩陣，其中有93個化合物的實際樣本分類值和模型預(yù)測分類值均為“0”，390個化合物的實際樣本分類值和模型預(yù)測分類值均為“1”，混淆矩陣的精確度為84.4％，召回率為95.4％，特異度為56.4％．圖21為預(yù)測hERG指標(biāo)時測試集的實際分類和預(yù)測分類結(jié)果［22］，測試集的實際分類和預(yù)測分類也相對較高，其預(yù)測準(zhǔn)確度為84.146 3％．

4.2.4 化合物的HOB預(yù)測分析

對于指標(biāo)HOB的預(yù)測，圖22表示其迭代過程，優(yōu)化后的懲罰系數(shù)c=119.618 4和核參數(shù)g=0.001，交叉驗證迭代過程中的CV準(zhǔn)確率為87.971 9％，精度一般．圖23表示574個測試數(shù)據(jù)的混淆矩陣，其中有394個化合物的實際樣本分類值和模型預(yù)測分類值均為“0”，60個化合物的實際樣本分類值和模型預(yù)測分類值均為“1”，混淆矩陣的精確度為50％，召回率為50％，特異度為86.8％．圖24為預(yù)測HOB指標(biāo)時測試集的實際分類和預(yù)測分類結(jié)果［23］，測試集的實際分類和預(yù)測分類也相對較高，其預(yù)測準(zhǔn)確度為79.094 1％．

4.2.5 化合物的遺傳毒性MN預(yù)測分析

對于指標(biāo)MN的預(yù)測，圖25表示其迭代過程，優(yōu)化后的懲罰系數(shù)c=63.284 6和核參數(shù)g=0.001，交叉驗證迭代過程中的CV準(zhǔn)確率為92.508 7％，精度一般．圖26表示574個測試數(shù)據(jù)的混淆矩陣，其中有104個化合物的實際樣本分類值和模型預(yù)測分類值均為“0”，381個化合物的實際樣本分類值和模型預(yù)測分類值均為“1”，混淆矩陣的精確度為86.4％，召回率為92.9％，特異度為63.4％．圖27為預(yù)測MN指標(biāo)時測試集的實際分類和預(yù)測分類結(jié)果［24］．測試集的實際分類和預(yù)測分類也相對較高，其預(yù)測準(zhǔn)確度為84.494 8％．

根據(jù)前文所構(gòu)建的Caco-2、CYP3A4、hERG、HOB、MN的分類預(yù)測模型，由于所建模型預(yù)測準(zhǔn)確

度都相對較高，即可由化合物分子的結(jié)構(gòu)式對50個新化合物的ADMET性質(zhì)進行相應(yīng)預(yù)測，從而判斷新化合物的性質(zhì)好壞，對藥物性質(zhì)判斷提供一定的參考價值，預(yù)測結(jié)果如表3所示．

5 結(jié)論

針對抗乳腺癌候選藥物研發(fā)過程中的生物活性和ADMET性質(zhì)預(yù)測問題，本文選擇利用計算機輔助方法．從化合物的“特征重要性分析”角度出發(fā)，首先采用隨機森林分類器對1 974種化合物進行特征重要性評估，從而將分子描述符對生物活性影響的重要性進行重新排序，篩選出對生物活性最具顯著影響的前20個分子描述符．其次利用粒子群優(yōu)化BP神經(jīng)網(wǎng)絡(luò)構(gòu)建定量預(yù)測模型求取50個化合物的IC 50和pIC 50值，模型擬合度為0.833 7，對比優(yōu)化前的BP神經(jīng)網(wǎng)絡(luò)，其RMSE值降低且R2有所提高，優(yōu)化后的生物活性預(yù)測值更貼近真實值．再者結(jié)合粒子群優(yōu)化支持向量機算法構(gòu)建化合物ADMET性質(zhì)5個指標(biāo)Caco-2、CYP3A4、hERG、HOB、MN的分類預(yù)測模型，進行訓(xùn)練和測試得到交叉驗證CV準(zhǔn)確率達到94.076 7％，準(zhǔn)確性較好．5個指標(biāo)的模型預(yù)測準(zhǔn)確率分別為89.372 8％、94.067? 7％、84.146 3％、79.094 1％、84.494 8％，求得50個化合物的ADMET二分類法的取值．

研究表明文中所構(gòu)建的預(yù)測模型比基準(zhǔn)模型的預(yù)測效果更好，驗證了模型的適用性.通過對化合物分子描述符的預(yù)測分析能夠在抗乳腺癌候選藥物研制方面提供有效的借鑒作用，所建立的模型還可以拓寬到求解其他關(guān)于數(shù)據(jù)分析預(yù)測和多目標(biāo)優(yōu)化等實際問題中，在防治抗擊乳腺癌、白血病、宮頸癌或其他腫瘤疾病等人體生命健康的研究具有一定的指導(dǎo)作用［25］．

參考文獻

References

［1］ Chan H C S，Shan H B，Dahoun T，et al.Advancing drug discovery via artificial intelligence［J］.Trends in Pharmacological Sciences，2019，40（8）：592-604

［2］ Shen C，Ding J J，Wang Z，et al.From machine learning to deep learning：advances in scoring functions for protein-ligand docking［J］.Wiley Interdisciplinary Reviews：Computational Molecular Science，2020，10（1）：e1429

［3］顧耀文，張博文，鄭思，等.基于圖注意力網(wǎng)絡(luò)的藥物ADMET分類預(yù)測模型構(gòu)建方法［J］.數(shù)據(jù)分析與知識發(fā)現(xiàn)，2021，5（8）：76-85

GU Yaowen，ZHANG Bowen，ZHENG Si，et al.Predicting drug ADMET properties based on graph attention network［J］.Data Analysis and Knowledge Discovery，2021，5（8）：76-85

［4］謝良旭，李峰，謝建平，等.基于融合神經(jīng)網(wǎng)絡(luò)模型的藥物分子性質(zhì)預(yù)測［J］.計算機科學(xué)，2021，48（9）：251-256

XIE Liangxu，LI Feng，XIE Jianping，et al.Predicting drug molecular properties based on ensembling neural networks models［J］.Computer Science，2021，48（9）：251-256

［5］秦潔.基于矩陣補全的藥物前體分子生物活性預(yù)測方法研究［D］.南京：南京郵電大學(xué)，2020

QIN Jie.Research on matrix completion with side information for better modeling bioactivates of drug leads［D］.Nanjing：Nanjing University of Posts and Telecommunications，2020

［6］賈聰敏.基于分子振動特征的藥物靶點識別及活性預(yù)測模型研究［D］.北京：北京中醫(yī)藥大學(xué)，2019

JIA Congmin.Study on drug target recognition and activity prediction model based on molecular vibration characteristics ［D］.Beijing：Beijing University of Chinese Medicine，2019

［7］沈杰.藥物ADMET理論預(yù)測方法開發(fā)和靶向雌激素受體的藥物設(shè)計研究［D］.上海：華東理工大學(xué)，2011

SHEN Jie.Development of drug ADMET theory prediction method and drug design research targeting estrogen receptor ［D］.Shanghai：East China University of Science and Technology，2011

［8］ Wenzel J，Matter H，Schmidt F.Predictive multitask deep neural network models for ADME-tox properties：learning from large data sets［J］.Journal of Chemical Information and Modeling，2019，59（3）：1253-1268

［9］ Lei T L，Sun H Y，Kang Y，et al.ADMET evaluation in drug discovery.18.reliable prediction of chemical-induced urinary tract toxicity by boosting machine learning approaches［J］.Molecular Pharmaceutics，2017，14（11）：3935-3953

［10］路珩，張一奇.雄激素受體在雌激素受體陽性乳腺癌患者中的表達及其臨床意義［J］.中國現(xiàn)代醫(yī)學(xué)雜志，2021，31（18）：55-59

LU Heng，ZHANG Yiqi.Expression and significance of androgen receptor in estrogen receptor-positive breast cancer［J］.China Journal of Modern Medicine，2021，31（18）：55-59

［11］叢斌斌，王永勝.激素受體陽性早期乳腺癌治療現(xiàn)狀與挑戰(zhàn)［J］.中國癌癥雜志，2021，31（8）：689-696

CONG Binbin，WANG Yongsheng.Treatment landscape and challenges of managing the hormone receptor-positive early breast cancer［J］.China Oncology，2021，31（8）：689-696

［12］ Wu Z Q，Ramsundar B，F(xiàn)einberg E N，et al.MoleculeNet：a benchmark for molecular machine learning［J］.Chemical Science，2017，9（2）：513-530

［13］楊德俊，姚香草，許重遠，等.紅茴香小分子化合物降尿酸活性及ADMET性質(zhì)的分子對接［J］.中國臨床藥理學(xué)雜志，2018，34（23）：2750-2752，2777

YANG Dejun，YAO Xiangcao，XU Zhongyuan，et al.Molecular docking of the chemicals of Illicium lanceolatum in lowering uric acid and ADMET properties［J］.The Chinese Journal of Clinical Pharmacology，2018，34（23）：2750-2752，2777

［14］張翠鋒，謝海棠，潘國宇.大分子藥物的吸收、分布、代謝、排泄和毒性特征及藥代模型的應(yīng)用［J］.藥學(xué)學(xué)報，2016，51（8）：1202-1208

ZHANG Cuifeng，XIE Haitang，PAN Guoyu.Absorption，distribution，metabolism，excretion and toxicity of biologics and its application in pharmacokinetic modeling［J］.Acta Pharmaceutica Sinica，2016，51（8）：1202-1208

［15］ Mansouri K，Cariello N F，Korotcov A，et al.Open-source QSAR models for pKa prediction using multiple machine learning approaches［J］.Journal of Cheminformatics，2019，11（1）：60

［16］陳憲.基于OECD準(zhǔn)則對QSAR／QSPR模型幾個重要問題的研究［D］.長沙：中南大學(xué)，2013

CHEN Xian.Studies on a few key problems of QSAR／QSPR modeling based on the OECD principles［D］.Changsha：Central South University，2013

［17］ Shar P A，Tao W Y，Gao S，et al.Pred-binding：large-scale protein-ligand binding affinity prediction［J］.Journal of Enzyme Inhibition and Medicinal Chemistry，2016，31（6）：1443-1450

［18］蘇敏儀，劉慧思，林海霞，等.應(yīng)用機器學(xué)習(xí)方法構(gòu)建藥物分子解離速率常數(shù)的預(yù)測模型［J］.物理化學(xué)學(xué)報，2020，36（1）：179-187

SU Minyi，LIU Huisi，LIN Haixia，et al.Machine-learning model for predicting the rate constant of proteinligand dissociation［J］.Acta Physico-Chimica Sinica，2020，36（1）：179-187

［19］劉光徽，胡俊，於東軍.基于多視角特征組合與隨機森林的G蛋白偶聯(lián)受體與藥物相互作用預(yù)測［J］.南京理工大學(xué)學(xué)報，2016，40（1）：1-9

LIU Guanghui，HU Jun，YU Dongjun.Predicting GPCR-drug interactions with multi-view feature combination and random forest［J］.Journal of Nanjing University of Science and Technology，2016，40（1）：1-9

［20］李小強，莫淼，吳菲，等.基于問卷調(diào)查的上海女性乳腺癌人工神經(jīng)網(wǎng)絡(luò)預(yù)測模型［J］.腫瘤，2018，38（9）：883-893

LI Xiaoqiang，MO Miao，WU Fei，et al.Artificial neural network models based on questionnaire survey for prediction of breast cancer risk among Chinese women in Shanghai［J］.Tumor，2018，38（9）：883-893

［21］劉雅琴，王成，章魯.基于神經(jīng)網(wǎng)絡(luò)的乳腺癌生存預(yù)測模型［J］.中國生物醫(yī)學(xué)工程學(xué)報，2009，28（2）：221-225

LIU Yaqin，WANG Cheng，ZHANG Lu.Neural network based models for predicting breast cancer survivability［J］.Chinese Journal of Biomedical Engineering，2009，28（2）：221-225

［22］閔倩，廖俊，陸濤.基于大型藥物數(shù)據(jù)庫的藥物相互作用預(yù)測模型［J］.中國臨床藥理學(xué)雜志，2016，32（11）：1034-1036

MIN Qian，LIAO Jun，LU Tao.Drug-drug interaction predicting model based on large scale drug databases［J］.The Chinese Journal of Clinical Pharmacology，2016，32（11）：1034-1036

［23］湯井田，曹揚，肖嘉瑩，等.基于粒子群優(yōu)化支持向量機的瑞芬太尼血藥濃度預(yù)測模型［J］.中國藥學(xué)雜志，2013，48（16）：1394-1399

TANG Jingtian，CAO Yang，XIAO Jiaying，et al.Remifentanil blood concentration forecast model based on support vector machine with particle swarm optimization［J］.Chinese Pharmaceutical Journal，2013，48（16）：1394-1399

［24］白茹，滕奇志，楊曉敏，等.基于SVM和GA的藥物與人血清白蛋白結(jié)合的預(yù)測［J］.計算機工程與應(yīng)用，2009，45（12）：226-228，248

BAI Ru，TENG Qizhi，YANG Xiaomin，et al.Prediction of combinative activity of drugs and human serum albumin by using SVM and GA［J］.Computer Engineering and Applications，2009，45（12）：226-228，248

［25］袁仙琴.基于基因表達數(shù)據(jù)的化合物肝毒性SVM預(yù)測模型研究［D］.鎮(zhèn)江：江蘇大學(xué)，2018

YUAN Xianqin.Study on SVM prediction model of compound hepatotoxicity based on gene expression data ［D］.Zhenjiang：Jiangsu University，2018

Prediction of properties of anti-breast cancer drugs based

on PSO-BP neural network and PSO-SVM

XU Meixian1 ZHENG Yan1 LI Yanju1 WU Weihao1

1College of Automobile and Traffic Engineering，Nanjing Forestry University，Nanjing 210037

Abstract The process of screening and developing new drugs through experiments is very slow and requires a lot of manpower and material resources，and the use of computer-aided prediction of the molecular properties of drugs can greatly save time and cost of drug development.Therefore，in order to enable anti-breast cancer candidate drugs to have good biological activity and ADMET properties for inhibiting ERα，the random forest classifier was first used for the collected 1 974 compounds to screen the top 20 molecular descriptors with the most significant effects on biological activity.Then a QSAR model was established using this and pIC50 value as characteristic data.The biological activity values of 50 new compounds were predicted via the PSO optimized BP neural network，with the model fit of 0.833 7 and the root mean square error of 0.731 5，which were more consistent with the actual values than the predicted results of the BP neural network.Subsequently，in order to improve the success rate of drug development，the ADMET classification prediction model was constructed using PSO to optimize the SVM based on the existing ADMET property data.The algorithm cross-validation CV accuracy rate reached 94.076 7％，and the prediction accuracy rates of the five index models were all above 79％.The results show that the proposed model has better prediction performance than the benchmark model，and the adopted prediction strategy is effective，which can provide reference for the discovery and development of anti-breast cancer drugs.

Key words anti breast cancer drugs;biological activity;ADMET properties;particle swarm optimization （PSO）;BP neural network;support vector machines （SVM）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于PSO-BP神經(jīng)網(wǎng)絡(luò)與PSO-SVM的抗乳腺癌藥物性質(zhì)預(yù)測