国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林的抗乳腺癌候選藥物的優(yōu)化

2023-12-02 15:26:28湯仕星曾瑩
關(guān)鍵詞:隨機(jī)森林

湯仕星 曾瑩

[摘 要]充分利用藥物大數(shù)據(jù)平臺和臨床資源,運(yùn)用數(shù)據(jù)分析方法預(yù)測抗乳腺癌候選藥物的ADMET性質(zhì)和抗乳腺癌活性,為實(shí)驗(yàn)室研制抗乳腺癌新藥過程提供參考方向。針對1974種化合物的分子描述符變量數(shù)據(jù),分別構(gòu)建以ADMET性質(zhì)和pIC50值為因變量的隨機(jī)森林預(yù)測模型,模型的預(yù)測精度分別為88.7%和91.3%。基于隨機(jī)森林模型求得的重要影響因子貢獻(xiàn)率確定出4個(gè)變化顯著的共同重要影響因子的取值范圍,分別為MLFER_BH(0.56,2.65)、MLFER_S(1.30,4.41)、WTPT-5(0.00,10.01)和SdssC(-1.92,2.76),對實(shí)現(xiàn)抗乳腺癌藥物的優(yōu)化具有指導(dǎo)意義。

[關(guān)鍵詞]抗乳腺癌藥物;抗乳腺癌活性;ADMET性質(zhì);相關(guān)性檢驗(yàn);隨機(jī)森林

[中圖分類號]F213.5 [文獻(xiàn)標(biāo)識碼]A

乳腺癌是指在多種致癌因子的作用下,乳腺的上皮細(xì)胞發(fā)生增值失控的一種現(xiàn)象,是目前世界上最常見的致死率較高的癌癥之一。對于治療乳腺癌的藥物研究,國內(nèi)外已有不少學(xué)者在乳腺癌分子靶點(diǎn)和靶向治療方向上取得顯著進(jìn)展,已發(fā)現(xiàn)不少抗乳腺癌活性表現(xiàn)良好的化合物,且在臨床實(shí)踐中取得明顯療效[1],例如查耳酮類化合物、他莫昔芬和雷諾昔芬;靶向治療的優(yōu)越性在于能在細(xì)胞分子水平上基因調(diào)控,代謝通路,某一靶點(diǎn)特異性結(jié)合而達(dá)到治療作用,最終導(dǎo)致部分癌基因表達(dá)失調(diào)、腫瘤增殖減弱、受體表達(dá)缺失等。特別是雌激素受體α亞型(ERα)作為乳腺癌內(nèi)分泌療法的主要靶點(diǎn)[2],在超過70%的乳腺癌患者[3-5]中過度表達(dá),因此拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物。

近年來隨著藥物大數(shù)據(jù)平臺的實(shí)現(xiàn),豐富的原始臨床試驗(yàn)數(shù)據(jù)[6]為構(gòu)建化合物的定量結(jié)構(gòu)-活性關(guān)系奠定了數(shù)據(jù)基礎(chǔ),不少學(xué)者在研究治療乳腺癌過程中運(yùn)用數(shù)據(jù)挖掘方法得到重要結(jié)論。例如秦璞應(yīng)用隨機(jī)森林和支持向量機(jī)對三陰性乳腺癌基因數(shù)據(jù)的降維和篩選[7],得到部分基因和三陰性乳腺癌的轉(zhuǎn)移或者預(yù)后有相關(guān)性等;隨著抗乳腺癌藥物的生物活性被逐漸深入研究,評價(jià)抗乳腺癌藥物的副作用的研究也越發(fā)受到關(guān)注,例如魏靜通過實(shí)驗(yàn)研究得到羧甲基β-葡聚糖聯(lián)合阿霉素具有協(xié)同抗乳腺癌以及減輕心臟毒性的功能[8]。國內(nèi)外學(xué)者研究表明藥效性和藥代動力學(xué)的研究可以為新藥研發(fā)提供指導(dǎo),進(jìn)而優(yōu)化藥方設(shè)計(jì),通過將其與藥物的靶點(diǎn)、理化性質(zhì)等各方面信息相結(jié)合,可以發(fā)現(xiàn)其中存在的客觀規(guī)律,為藥物研究提供新思路。

隨機(jī)森林是基于分類回歸樹的集成算法[9]。對于海量數(shù)據(jù)的研究,區(qū)別于傳統(tǒng)的多元線性回歸模型[10],隨機(jī)森林算法在處理回歸問題時(shí)能夠克服協(xié)變量之間復(fù)雜的交互作用,且毋需預(yù)先設(shè)定函數(shù)形式[11],相較于神經(jīng)網(wǎng)絡(luò)[12],隨機(jī)森林算法在處理分類問題時(shí)不易過度擬合,因而隨機(jī)森林算法被廣泛應(yīng)用于各領(lǐng)域研究并取得較好效果,為此將隨機(jī)森林模型應(yīng)用于拮抗ERα活性的抗乳腺候選藥物的ADMET性質(zhì)的研究。相較于國內(nèi)外學(xué)者通過臨床試驗(yàn)探求新藥的藥效性的同時(shí)還要對新藥的副作用進(jìn)行驗(yàn)證的漫長過程,構(gòu)建隨機(jī)森林預(yù)測模型,充分挖掘臨床試驗(yàn)數(shù)據(jù)的內(nèi)在價(jià)值,不僅能更準(zhǔn)確得到化合物的ADMET性質(zhì)和生物活性,而且可以篩選出能共同影響化合物ADMET性質(zhì)和生物活性的重要因子,進(jìn)而優(yōu)化抗乳腺癌候選藥物的篩選過程,為尋求潛在的優(yōu)質(zhì)抗乳腺癌藥物提供實(shí)證研究。

1 模型和數(shù)據(jù)

從阿爾伯塔大學(xué)的DrugBank藥物分子數(shù)據(jù)庫中獲取針對ERα靶點(diǎn)的化合物樣本集[13]。DrugBank數(shù)據(jù)庫擁有獨(dú)特的生物信息學(xué)和化學(xué)信息學(xué)資源,它將詳細(xì)的藥物數(shù)據(jù)和全面的藥物目標(biāo)信息結(jié)合起來,以便科學(xué)家們研究藥物機(jī)制和探索新型藥物[14]。數(shù)據(jù)集包含了1974個(gè)化合物樣本,并給出了每個(gè)化合物的SMILES式,每個(gè)化合物樣本都有729個(gè)分子描述符變量,1個(gè)生物活性數(shù)據(jù)(IC50為測定值、pIC50為轉(zhuǎn)化值)和5個(gè)ADMET性質(zhì)數(shù)據(jù)(Caco-2、CYP3A4、hERG、HOB和MN)。

1.1 符號說明

Erα:雌激素受體α亞型;IC50:ERα的生物活性值(值越小代表生物活性越大,對抑制ERα活性越有效);pIC50:IC50值轉(zhuǎn)化而得的ERα的生物活性指標(biāo)(與生物活性具有正相關(guān)性);ADMET:藥代動力學(xué)性質(zhì)和安全性;Caco-2:小腸上皮細(xì)胞滲透性;CYP3A4:細(xì)胞色素P450酶(Cytochrome P450, CYP)3A4亞型;hERG:化合物心臟安全性評價(jià);HOB:人體口服生物利用度;MN:微核試驗(yàn)。

1.2 模型設(shè)定

1.2.1 相關(guān)性檢驗(yàn) 本文采用皮爾遜相關(guān)系數(shù)[15]判斷不同的變量之間的相關(guān)程度,其公式為:

其中:n代表樣本的個(gè)數(shù),xi,yi分別表示兩個(gè)變量的第i個(gè)樣本值,相關(guān)系數(shù)r的取值范圍為[-1,1]。r值越大,表示其相關(guān)性越強(qiáng),當(dāng)r>0,表示兩個(gè)變量間呈現(xiàn)正相關(guān),r<0,表示兩個(gè)變量為負(fù)相關(guān)。

1.2.2 隨機(jī)森林 決策樹是一種基于IF-then-else規(guī)則的算法,屬于有監(jiān)督學(xué)習(xí)算法[16]。它是一種樹形的結(jié)構(gòu),每個(gè)節(jié)點(diǎn)表示其一個(gè)樹形上的判斷,每個(gè)分支表示其一個(gè)判斷結(jié)果的輸出,它是根據(jù)基尼系數(shù)通過訓(xùn)練數(shù)據(jù)統(tǒng)計(jì)而得到的?;嵯禂?shù)的大小代表數(shù)據(jù)集中樣本的差異程度大小,基尼系數(shù)越大說明數(shù)據(jù)集的種類越多,即說明有多種的分類結(jié)果。其計(jì)算公式為:

決策樹的缺點(diǎn)就是可能會對訓(xùn)練的數(shù)據(jù)過擬合,而隨機(jī)森林通過構(gòu)造很多棵樹的方式,在得知每棵樹的預(yù)測結(jié)果的情況下,綜合分析每棵樹的分類和回歸預(yù)測結(jié)果,不僅可以減少過擬合,而且還能很好的保持樹的預(yù)測效果。

1.3 數(shù)據(jù)準(zhǔn)備

1.3.1 數(shù)據(jù)預(yù)處理 對分子描述符變量值進(jìn)行初步的分析發(fā)現(xiàn):樣本集中數(shù)據(jù)不存在缺失值,除了化合物的SMILES屬性是字符型外,其他字段的變量都是數(shù)值型且有明確含義,數(shù)據(jù)是完備的。依據(jù)相關(guān)性檢驗(yàn),通過R軟件循環(huán)遍歷求出pIC50指標(biāo)與729個(gè)變量的相關(guān)系數(shù),發(fā)現(xiàn)存在225個(gè)缺失值,即有225個(gè)分子描述符變量的取值全為零,可認(rèn)為其包含有用信息的可能性較少,這些分子描述符的變量值在化合物樣本的分類和回歸問題無區(qū)分度??紤]到隨機(jī)森林會出現(xiàn)樹的冗余現(xiàn)象,為提高算法的計(jì)算效率,數(shù)據(jù)處理時(shí)剔除這些無差別的變量,將剩余的504個(gè)變量組成一個(gè)新訓(xùn)練集。

1.3.2 確定IC50和pIC50函數(shù)關(guān)系 為了保持生物活性指標(biāo)與生物活性具有正相關(guān)關(guān)系,通常將實(shí)驗(yàn)測定值IC50通過對數(shù)變換進(jìn)而轉(zhuǎn)換為pIC50值來表示生物活性的強(qiáng)弱,IC50值越小,表明生物活性越強(qiáng),進(jìn)而pIC50值越大,實(shí)際中它們滿足一種特定的函數(shù)關(guān)系,因此本文引進(jìn)中間變量ln(IC50)來對數(shù)據(jù)進(jìn)行分析,求得ln(IC50)和pIC50的相關(guān)系數(shù)為-1,證實(shí)了pIC50和IC50的負(fù)對數(shù)滿足確定的函數(shù)關(guān)系。利用R軟件對兩者進(jìn)行線性擬合,求得pIC50=-0.4343*ln(IC50)+9,因此可將pIC50作為生物活性指標(biāo)用于新化合物抗乳腺癌活性的預(yù)測,進(jìn)而也可通過預(yù)測出的pIC50值求出IC50實(shí)驗(yàn)測定值。

1.3.3 ADMET性質(zhì)相關(guān)性 在化合物樣本的ADMET性質(zhì)數(shù)據(jù)中,分類變量hERG與MN用“1”表示具有毒性,“0”則表示沒有毒性,這與其他3種性質(zhì)分類變量數(shù)據(jù)表示的一致性相反,與意識中認(rèn)為的“1”代表性質(zhì)好,“0”代表性質(zhì)劣的邏輯相反,于是先對分類變量hERG與MN進(jìn)行重編碼。在R軟件中將hERG與MN的數(shù)據(jù)重新賦值,將原始數(shù)據(jù)中的“1”賦值為“-1”,再將hERG與MN的全部數(shù)據(jù)進(jìn)行加1操作,使得hERG與MN性質(zhì)數(shù)據(jù)中原有的“1”轉(zhuǎn)化為“0”,“0”轉(zhuǎn)化為“1”,于是ADMET性質(zhì)可同趨勢化。然后可以求出ADMET性質(zhì)兩兩之間的相關(guān)關(guān)系,并在R軟件中畫出ADMET性質(zhì)相關(guān)圖(圖1)。

從圖1中可以看出Caco-2與hERG(0.393)、HOB(0.201)、MN(0.190)之間都存在較弱的正相關(guān)性,而CYP3A4與hERG(-0.487)、Caco-2(-0.337)和HOB(-0.113)之間都存在較弱的負(fù)相關(guān)性,MN與hERG(-0.019)和CYP3A4(-0.010)之間的相關(guān)性很小,這使得化合物同時(shí)滿足ADMET性質(zhì)最優(yōu)的情況較少,藥代動力學(xué)性質(zhì)和安全性之間很難達(dá)到最優(yōu)。于是可對每個(gè)樣本的5種ADMET性質(zhì)變量進(jìn)行求和,將其記為化合物的ADMET性質(zhì)得分,ADMET性質(zhì)得分越高,代表化合物的藥代動力學(xué)性質(zhì)和安全性越好。

在1974個(gè)化合物樣本中ADMET性質(zhì)得分為3的樣本有444個(gè),得分為4的樣本有177個(gè),ADMET性質(zhì)最優(yōu)即得分5的樣本個(gè)數(shù)僅為11,再求出pIC50和ADMET性質(zhì)得分的相關(guān)系數(shù)為-0.261,存在弱負(fù)相關(guān)性,符合現(xiàn)實(shí)中藥效性和藥代動力學(xué)性質(zhì)與安全性俱佳的化合物很少的現(xiàn)象。為了擴(kuò)大候選藥物的篩選范圍,將ADMET性質(zhì)得分大于等于3定義為ADMET性質(zhì)較優(yōu)的化合物并記為“1”,ADMET性質(zhì)得分小于3定義為ADMET性質(zhì)較差的化合物并記為“0”,使得將ADMET性質(zhì)得分二分類。

2 實(shí)證分析

2.1 隨機(jī)森林分類

為了判定不同化合物的藥代動力學(xué)性質(zhì)和安全性,用于對抗乳腺癌藥物的副作用研究,對于新藥的生產(chǎn)提供可參考性建議。將基于化合物的分子描述符變量構(gòu)成訓(xùn)練得到隨機(jī)森林分類器用于對化合物的藥代動力學(xué)性質(zhì)和安全性的判定,進(jìn)而篩選出ADMET性質(zhì)得分更高的化合物,并尋找出影響ADMET性質(zhì)得分的重要因子。

對于剔除無差別變量后的數(shù)據(jù),在R軟件中分別構(gòu)建5種分類變量ADMET性質(zhì)與504個(gè)分子描述符變量的隨機(jī)森林分類模型,采用默認(rèn)棵數(shù)500,隨機(jī)抽取90%的樣本作為訓(xùn)練集,對分類器進(jìn)行訓(xùn)練,剩下10%的樣本作為測試集用于對模型的評估,分別計(jì)算出模型的預(yù)測精度。為減小隨機(jī)因素的影響,再采用R軟件中的ipred包的errorest函數(shù)進(jìn)行10折交叉驗(yàn)證,用于計(jì)算分類模型的錯分率,進(jìn)而可判斷出隨機(jī)森林分類器的效果(表1)。

表1結(jié)果顯示,5個(gè)隨機(jī)森林分類模型的預(yù)測精度都在85%以上,最高精度達(dá)到96%,模型的錯分率大部分在10%以內(nèi),因此可認(rèn)為隨機(jī)森林分類模型的分類準(zhǔn)確率都較高,模型具有可行性。

為了尋找出對ADMET性質(zhì)影響更重要的分子描述符變量,結(jié)合ADMET性質(zhì)得分的優(yōu)劣,隨機(jī)森林分類預(yù)測模型也可應(yīng)用于二分類后的ADMET性質(zhì)得分。考慮到影響ADMET性質(zhì)得分的因素的復(fù)雜性,設(shè)置決策樹的棵數(shù)為1000,將訓(xùn)練后的模型用于測試集的分類預(yù)測,然后畫出隨機(jī)森林預(yù)測ADMET性質(zhì)得分效果圖(圖2)。

通過繪制模型的均方誤差圖和ROC曲線可見,將ADMET性質(zhì)較差的化合物錯判成ADMET性質(zhì)較好的錯誤率為7.94%,將ADMET性質(zhì)較好的化合物錯判成ADMET性質(zhì)較差的錯誤率為26.7%,AUC=0.854,95%的置信區(qū)間為(0.746,0.962),計(jì)算得到模型的錯分率為13.9%,預(yù)測精度為88.7%。較單個(gè)分類模型預(yù)測效果有所下降,可能是因?yàn)锳DMET性質(zhì)之間的相關(guān)性,造成現(xiàn)有的樣本數(shù)據(jù)的價(jià)值信息不足,進(jìn)而提高了錯分率。

2.2 隨機(jī)森林回歸

隨機(jī)森林作為集成學(xué)習(xí)常用的模型,通過建立多個(gè)決策樹不僅可以用于解決分類預(yù)測問題,也常用于解決回歸預(yù)測問題,且模型的準(zhǔn)確率較高。將基于化合物分子描述符構(gòu)成數(shù)據(jù)訓(xùn)練得到的隨機(jī)森林預(yù)測模型用于對化合物抗乳腺癌活性的檢測,便于篩選出生物活性更好的化合物作為抗乳腺癌候選藥物,并找出影響抗乳腺癌活性的重要分子描述符。

針對含有504個(gè)不同分子描述符變量和pIC50值的數(shù)據(jù)集,隨機(jī)將1974個(gè)樣本平均分成10份,取出9份用于隨機(jī)森林預(yù)測模型的訓(xùn)練,另外1份作為用于評估模型預(yù)測精度的測試集。通過R軟件構(gòu)建以pIC50值為因變量的隨機(jī)森林預(yù)測模型,將訓(xùn)練后的模型用于測試集的預(yù)測,然后畫出隨機(jī)森林回歸模型的預(yù)測效果圖(圖3)。

從圖3可以看出真實(shí)值與預(yù)測值的散點(diǎn)均勻分布在y=x直線的兩側(cè),且散點(diǎn)在一個(gè)狹長的范圍內(nèi);通過真實(shí)值和預(yù)測值的數(shù)據(jù)概況可以發(fā)現(xiàn),真實(shí)值的分布相對均勻,適合作為測試集代表一般預(yù)測樣本,預(yù)測值的均值和真實(shí)值的中位數(shù)大致相等,分布相對真實(shí)值更為集中,這和隨機(jī)森林在同一類樣本中取特征的平均值作為輸出有關(guān)。通過R軟件計(jì)算可知預(yù)測值與真實(shí)值之間的相關(guān)系數(shù)為0.913,在訓(xùn)練數(shù)據(jù)變量如此之多和測試集預(yù)測樣本較大的情況下,可解釋性方差還能達(dá)到75.73%,殘差平方均值為0.507,相對多元線性回歸模型的預(yù)測準(zhǔn)確率好很多,因此認(rèn)為隨機(jī)森林用于抗乳腺癌活性的檢測是有效的,具有一定的優(yōu)越性。

2.3 隨機(jī)森林優(yōu)化

為了尋找出藥效性良好同時(shí)具有良好的藥代動力學(xué)性質(zhì)和安全性的候選藥物,即在化合物保持抗乳腺癌活性良好的同時(shí)具有更高的ADMET性質(zhì)得分。需要找到能共同影響生物活性pIC50值和ADMET性質(zhì)得分的重要因子,而隨機(jī)森林在預(yù)測pIC50值的同時(shí)可根據(jù)分子描述符變量的可解釋性方差的大小計(jì)算出各變量的貢獻(xiàn)率,在處理ADMET性質(zhì)得分的分類問題時(shí),可根據(jù)各個(gè)分子描述符變量的袋外誤差率與原誤差率的差值大小計(jì)算出分子描述符變量的重要程度。依據(jù)上述研究,通過隨機(jī)森林模型可分別求出影響pIC50值大小和ADMET性質(zhì)得分排名的前30個(gè)重要影響因子,利用R畫出重要影響因子曲線圖(圖4)。

由圖4可以發(fā)現(xiàn):在影響pIC50值和ADMET性質(zhì)得分的前30個(gè)重要變量中,能共同顯著影響pIC50和ADMET性質(zhì)得分的變量共有9個(gè),分別是MLFER_BH、MLFER_S、ETA_Shape_Y、minHBa、MDEC-33、VCH-7、ATSc2、WTPT-5和SdssC。

為了進(jìn)一步優(yōu)化候選藥物的篩選,可參考化合物在共同重要影響因子上的表達(dá),劃定共同重要影響因子的取值范圍作為候選藥物的基本條件??稍谘芯恐委熑橄侔┖蜻x藥物時(shí)充分利用藥物大數(shù)據(jù)平臺和臨床資源,大大節(jié)省人力和物力成本,而劃定共同重要影響因子的取值范圍顯得尤為重要。

確定共同重要影響因子的取值范圍需要滿足分子描述符變量在化合物樣本中顯著表達(dá)的特征,于是設(shè)定在所有化合物樣本中抗乳腺癌活性排名前25%且藥代動力學(xué)性質(zhì)和安全性較好的化合物屬于優(yōu)質(zhì)抗乳腺癌候選藥物。通過判斷pIC50值是否大于上四分位數(shù)7.57和ADMET得分是否大于等于3,篩選出69個(gè)優(yōu)質(zhì)抗乳腺癌候選藥物,對比優(yōu)質(zhì)抗乳腺癌候選藥物和總體化合物樣本在共同重要影響因子上的取值范圍。發(fā)現(xiàn)優(yōu)質(zhì)抗乳腺癌候選藥物的部分共同重要影響因子的取值范圍較大,相較于總體化合物樣本的共同重要影響因子的區(qū)間長度衰減并不明顯,這樣得到的共同重要影響因子的取值范圍對于候選藥物的優(yōu)化意義不大,于是設(shè)定區(qū)間長度衰減的閾值為20%,即衰減后的區(qū)間長度小于全局區(qū)間長度的20%認(rèn)定為表達(dá)更顯著的重要影響因子。通過迭代優(yōu)化,從9個(gè)共同重要影響因子中找到了4個(gè)變化更為顯著的變量,并求出其取值范圍見表2,然后在R中畫出表達(dá)顯著的共同重要影響因子在優(yōu)質(zhì)抗乳腺癌候選藥物中的分布直方圖(圖5)。

從表2可以看出:共同重要影響因子MLFER_BH(0.56,2.65)、MLFER_S(1.30,4.41)、WTPT-5(0.00,10.01)、SdssC(-1.92,2.76)的衰減區(qū)間長度均大于總體區(qū)間長度的85%以上,因此可以認(rèn)為這些因子在優(yōu)質(zhì)抗乳腺癌候選藥物中表達(dá)更顯著,它們的取值將更有可能共同影響抗乳腺癌候選藥物的抗乳腺癌活性和ADMET性質(zhì)。

由圖5可以發(fā)現(xiàn):優(yōu)質(zhì)抗乳腺癌候選藥物的共同重要影響因子除了相對總體樣本取值的分布更為集中之外,它們的分布還近似滿足某一區(qū)間內(nèi)的正態(tài)分布,因此可以認(rèn)為這些共同重要影響因子在優(yōu)質(zhì)抗乳腺癌藥物中有在其均值附近波動的趨勢,共同重要影響因子不在此區(qū)間范圍之內(nèi)的化合物有可能在藥效性和藥代動力學(xué)性質(zhì)與安全性中表達(dá)異常,便于篩選出劣質(zhì)抗乳腺癌候選藥物,簡化抗乳腺癌藥物的優(yōu)化過程。

3 結(jié)論

針對實(shí)驗(yàn)室研發(fā)抗乳腺癌新藥的艱難而漫長的過程,為了提高新藥物研發(fā)的效率、縮短研發(fā)周期、節(jié)省時(shí)間和成本。本文選取1974種化合物的高維分子描述符變量數(shù)據(jù),分別構(gòu)建了以ADMET性質(zhì)為因變量的隨機(jī)森林分類預(yù)測模型和以pIC50值為因變量的隨機(jī)森林回歸預(yù)測模型,模型的預(yù)測精度都較好,判定模型具有可行性?;陔S機(jī)森林計(jì)算得到的袋外誤差與原始誤差的差值大小和可解釋性方差的大小判定重要因子貢獻(xiàn)率,從ADMET性質(zhì)和pIC50值排名前30的重要影響因子中篩選出9個(gè)共同影響因子,再通過設(shè)定優(yōu)質(zhì)抗乳腺癌候選藥物的衰減閾值為20%確定4個(gè)表達(dá)顯著的共同重要影響因子,并求出其取值范圍,分別為MLFER_BH(0.56,2.65)、MLFER_S(1.30,4.41)、WTPT-5(0.00,10.01)和SdssC(-1.92,2.76)。隨著藥物大數(shù)據(jù)平臺和合成藥物技術(shù)的發(fā)展以及進(jìn)一步臨床試驗(yàn)的數(shù)據(jù)驗(yàn)證,控制變化顯著的4個(gè)共同重要影響因子在最優(yōu)的取值范圍之內(nèi),將更容易實(shí)現(xiàn)抗乳腺癌新藥物滿足良好的生物活性且具有良好ADMET性質(zhì),達(dá)到抗乳腺癌候選藥物優(yōu)化的目的。

[ 參 考 文 獻(xiàn) ]

[1] DE LAURENTIIS M, CIANNIELLO D, CAPUTO R, et al. Treatment of triple negative breast cancer (TNBC): current options and future perspectives[J]. Cancer Treatment Reviews, 2010, 36(suppl.3):80-86.

[2] 寧文濤, 胡志燁, 董春娥等. 抗乳腺癌雙靶點(diǎn)藥物研究進(jìn)展[J]. 中國藥物化學(xué)雜志,2020,12(30):778-788.

[3] HARBECK N, PENAULT-LLORCA F, CORTES J, et al.Breast cancer[J].Nat Rev Dis Primers, 2019,5(01):66.

[4] GUAN J, ZHOU W, HAFNER M, et al.Therapeutic ligands antagonize estrogen receptor function by impairing its mobility[J]. Cell,2019,178(04):949-963.

[5] SIEGEL R L,MILLER K D,JEMAL A.Cancer statistics,2018[J].CA Cancer J Clin,2018,68(01) :7-30.

[6] 袁升月, 金羿, 廖俊. 藥物大數(shù)據(jù)平臺在抗乳腺癌藥物藥代動力學(xué)/藥效學(xué)研究中的應(yīng)用[J]. 中國臨床藥理學(xué)雜志,2017,23(33):2464-2467.

[7] 秦璞, 郭志旺, 郭維恒等. 應(yīng)用隨機(jī)森林和支持向量機(jī)對三陰性乳腺癌基因數(shù)據(jù)的降維和篩選[J]. 中國衛(wèi)生統(tǒng)計(jì), 2020,37(03):71-76.

[8] 魏靜,李婷英,張瑩等. 羧甲基β-葡聚糖聯(lián)合阿霉素抗乳腺癌以及減輕心臟毒性的實(shí)驗(yàn)研究[J]. 中國臨床藥理學(xué)雜志,2021,37(03):275-279.

[9] BREIMAN L. Random Forests [J]. Machine Learning,2001(45):65-68.

[10]吳喜之.多元統(tǒng)計(jì)分析[M].北京:中國人民大學(xué)出版社, 2019:245-247.

[11]曹桃云,陳敏瓊.基于學(xué)生化極差分布的隨機(jī)森林變量選擇研究[J].統(tǒng)計(jì)與信息論壇,2021,36(08):15-22.

[12]王奕森. 隨機(jī)森林和深度神經(jīng)網(wǎng)絡(luò)的若干關(guān)鍵技術(shù)研究[D].北京:清華大學(xué),2018.

[13]LEI T L, SUN H Y, KANG Y, et al. ADMET evaluation in drug discovery. 18. reliable prediction of chemical-induced urinary tract toxicity by boosting machine learning approaches[J]. Molecular Pharmaceutics, 2017, 14(11): 3935-3953.

[14]許美賢, 鄭琰, 李炎舉,等.基于PSO-BP神經(jīng)網(wǎng)絡(luò)與PSO-SVM 的抗乳腺癌藥物性質(zhì)預(yù)測[J].南京信息工程大學(xué)學(xué)報(bào),2022,1.18:3.

[15]孫兆亮. 數(shù)學(xué)建模算法與應(yīng)用[M].北京:國防工業(yè)出版社, 2017:425-428.

[16]丘佑瑋. 機(jī)器學(xué)習(xí)與R語言實(shí)踐[M].北京:機(jī)械工業(yè)出版社, 2016:146-170.

Optimization of Anti Breast Cancer Drug

Candidates based on Random Forests

TANG Shixing,ZENG Ying

(School of Science, Hubei Univ. of Tech., Wuhan 430068,China)

Abstract:By making full use of big pharmaceutical data platforms and clinical resources, we used data analysis methods to predict ADMET properties and anti-breast cancer activity of anti-breast cancer drug candidates. It provided a reference for the process of developing new anti-breast cancer drugs in the laboratory. Random forests were constructed for the molecular descriptor variable data of 1974 compounds, and the dependent variables of prediction models were ADMET properties and pIC50 values. The prediction accuracies of the models were 88.7% and 91.3% respectively. Based on the random forest model, we obtained the contribution rate of important impact factors. Then we established the ranges of four common significant influencers that varied significantly. They were MLFER_BH (0.56,2.65), MLFER_S (-1.30, 4.41), WTPT-5 (-0.00, 10.01) and Sdssc (-1.92, 2.76). The result was instructive to optimize the anti-breast cancer drugs.

Keywords:anti-breast cancer drugs; anti-breast cancer activity; ADMET properties; correlation test; random forest

[責(zé)任編校:閆 品]

猜你喜歡
隨機(jī)森林
隨機(jī)森林算法在中藥指紋圖譜中的應(yīng)用:以不同品牌夏桑菊顆粒指紋圖譜分析為例
基于隨機(jī)森林的登革熱時(shí)空擴(kuò)散影響因子等級體系挖掘
基于隨機(jī)森林的HTTP異常檢測
個(gè)人信用評分模型比較數(shù)據(jù)挖掘分析
隨機(jī)森林在棉蚜蟲害等級預(yù)測中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
基于隨機(jī)森林算法的飛機(jī)發(fā)動機(jī)故障診斷方法的研究
基于奇異熵和隨機(jī)森林的人臉識別
軟件(2016年2期)2016-04-08 02:06:21
基于隨機(jī)森林算法的B2B客戶分級系統(tǒng)的設(shè)計(jì)
邛崃市| 马关县| 谢通门县| 昆山市| 浦江县| 巴彦淖尔市| 白城市| 余庆县| 九江市| 巴南区| 定日县| 寿阳县| 大渡口区| 嘉善县| 永丰县| 金塔县| 宜兰县| 南宫市| 巴彦县| 岳阳县| 云林县| 平凉市| 玉龙| 全州县| 钟祥市| 通化市| 通江县| 阳信县| 子洲县| 广德县| 墨竹工卡县| 璧山县| 武乡县| 威远县| 德安县| 乌苏市| 新巴尔虎右旗| 田林县| 修文县| 县级市| 南涧|