朱永先
摘 要:對于癌癥、心血管疾病等復(fù)雜疾病,采取組合用藥克服耐藥性和改善功效已成為標(biāo)準(zhǔn)治療方案。鑒定藥物組合標(biāo)準(zhǔn)的方法是進(jìn)行體內(nèi)或體外藥物篩選實驗,但這一過程很緩慢,代價高昂。各種高通量組學(xué)技術(shù)產(chǎn)生度量藥物效應(yīng)的各層次數(shù)據(jù),使得從計算角度挖掘數(shù)據(jù)進(jìn)而預(yù)測有效藥物組合成為主流手段。針對有效藥物組合的預(yù)測模型大多是利用單一機器學(xué)習(xí)模型建模。為獲得更高的精度,提出一種新的有效藥物組合預(yù)測方法。該方法充分利用5種不同層次的藥物信息構(gòu)建相似性特征,特別引入藥物靶標(biāo)的序列信息和功能信息,基于Stacking算法融合多個傳統(tǒng)機器學(xué)習(xí)模型和最新的集成學(xué)習(xí)模型LightGBM。實驗表明,該方法預(yù)測的AUC值為0.953,精度比單一機器學(xué)習(xí)模型有顯著提升。
關(guān)鍵詞:藥物組合;模型融合;基分類器;預(yù)測方法;相似性特征
DOI:10. 11907/rjdk. 191508 開放科學(xué)(資源服務(wù))標(biāo)識碼(OSID):
中圖分類號:TP306文獻(xiàn)標(biāo)識碼:A 文章編號:1672-7800(2020)002-0100-05
英標(biāo):Effective Drug Combination Based on Stacking Algorithm and Multi-data Source
英作:ZHU Yong-xian
英單:(Business School, University of Shanghai for Science and Technology, Shanghai? 200093, China)
Abstract: For complex diseases such as cancer and cardiovascular diseases, it has become a standard treatment to use combination drugs to overcome drug resistance and improve efficacy. The method for identifying drug combination criteria is through in vivo or in vitro drug screening experiments, but this process is expensive and slow. Various high-throughput omics techniques produce data at various levels that measure drug effects, making it a mainstream and effective means of mining data from a computational perspective to predict effective drug combinations. Most of the current predictive models for effective drug combinations are modeled using a single machine learning model. In order to obtain a better prediction rate, this paper proposes a new effective drug combination prediction method. The method makes full use of five different levels of drug information to construct similarity features, especially the introduction of sequence information and functional information of drug targets. Based on the Stacking algorithm, multiple traditional machine learning models and the latest integrated learning model LightGBM are combined. Finally, the AUC value of the prediction result of this method is as high as 0.953, and the precision is significantly improved compared with the single machine learning model.
Key Words: drug combination; model fusion; base classifier; prediction method; similarity feature
0 引言
組合用藥指兩種或多種有效藥物成分組合在一起,共同治療某種疾病。在治療癌癥和心血管疾病時,組合用藥比單藥治療效果更好。藥物組合的多種成分會同時作用多種不同靶蛋白,能更好地避免復(fù)雜疾病所涉及的反饋機制,即提高復(fù)雜疾病的治療效果并降低副作用,這是一種非常有前景的治療策略[1-5]。然而,考慮藥物之間所有的可能匹配,經(jīng)實驗篩選新的藥物組合是不切實際的[6]。隨著各種組學(xué)技術(shù)的發(fā)展,積累了大量生物學(xué)數(shù)據(jù),運用生物信息學(xué)和計算工具,挖掘并整合這些數(shù)據(jù)中相互關(guān)聯(lián)信息,從中篩選出有效的藥物組合,既符合成本效益,又節(jié)約人力時間[7]。當(dāng)然,現(xiàn)有大多數(shù)方法都是為了預(yù)測兩種藥物的協(xié)同效應(yīng),因為三種藥物組合效應(yīng)在技術(shù)上難以預(yù)測,缺乏模型評價的實驗數(shù)據(jù)。
有效藥物組合預(yù)測研究近年取得了不俗成果。模型的特征數(shù)據(jù)分為靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)包括藥物的生物學(xué)信息(靶蛋白,pathway)、化學(xué)信息、藥理學(xué)信息;動態(tài)數(shù)據(jù)包括基因表達(dá)數(shù)據(jù)、蛋白質(zhì)相互作用數(shù)據(jù)(PPI)。Sun等[8]運用基因表達(dá)數(shù)據(jù)構(gòu)建生物學(xué)特征,利用支持向量機及樸素貝葉斯分類器預(yù)測有效藥物組合;Li等[9]基于生物學(xué)信息和基因表達(dá)數(shù)據(jù)構(gòu)建生物分子網(wǎng)絡(luò),利用隨機森林算法預(yù)測有效藥物組合;Preuer[10]等使用化學(xué)信息和基因表達(dá)數(shù)據(jù)作為輸入,利用深度學(xué)習(xí)算法預(yù)測有效藥物組合。Xu等[11]整合生物學(xué)、化學(xué)及藥理學(xué)信息,運用隨機梯度提升算法預(yù)測藥物組合。
結(jié)合藥物的動靜數(shù)據(jù)構(gòu)建特征,并利用機器學(xué)習(xí)算法進(jìn)行有效組合預(yù)測效果突出,但這些預(yù)測方法大多使用單一的機器學(xué)習(xí)模型。為了增強模型的魯棒性,提升預(yù)測精度,本文應(yīng)用Stacking算法融合主流且強大的機器學(xué)習(xí)算法構(gòu)建藥物組合預(yù)測模型。對于特征的構(gòu)建,除利用常用藥物動靜態(tài)信息外,還深入挖掘藥物靶標(biāo)信息,引入靶標(biāo)的序列信息和功能(Go Term)信息。
1 Stacking模型融合算法
1.1 Stacking簡介
Stacking(堆疊)是Wolpert[12]于1992年在“Staked Generalization”論文中提出的一種集成學(xué)習(xí)算法。不同于bagging和boosting采用相同的分類算法訓(xùn)練單個學(xué)習(xí)器[13-14],Stacking能夠組合來自多個預(yù)測基模型的結(jié)果信息生成新模型,是一種特殊的組合策略。通常Stacking模型融合可以突出效果好的基模型,同時抹黑執(zhí)行效果不佳的基模型,所以預(yù)測效果優(yōu)于單個模型。特別當(dāng)基模型顯著不同時,堆疊是最有效的。
Stacking將基模型的輸出結(jié)果作為新特征輸入到其它模型中,這種方法實現(xiàn)了模型的堆疊,即以第一層的模型輸出作為第二層模型的特征輸入,第二層模型的輸出作為第三層模型的特征輸入,依此類推,最后一層模型輸出的結(jié)果作為最終預(yù)測結(jié)果,最后訓(xùn)練出精準(zhǔn)、穩(wěn)健、魯棒的模型。Stacking一般為兩層結(jié)構(gòu),如圖1所示。
1.2 Stacking選擇
本文綜合應(yīng)用藥物生物學(xué)、化學(xué)、藥理學(xué)等多方面信息構(gòu)建藥物組合特征,提升有效藥物組合的預(yù)測精度。運用Stacking算法融合主流且具有顯著差異的機器學(xué)習(xí)算法,通過組合幾種機器學(xué)習(xí)技術(shù)組成一個預(yù)測模型,以達(dá)到減小方差、偏差和提升預(yù)測精度的效果。研究選用邏輯回歸(LR)、隨機森林(Random Frost)、K-近鄰算法(KNN)和高效梯度提升決策樹(LightGBM)4個機器學(xué)習(xí)算法進(jìn)行Stacking融合。
1.3 基分類器
Stacking模型融合需要多個基分類器構(gòu)成差異化,根據(jù)Stacking的特性本文選用以下4個基分類器。
1.3.1 隨機森林
隨機森林算法(Random Frost)是基于Bagging 集成學(xué)習(xí)理論的代表算法,由Leo Breiman[15]于2001提出。主要思想是從給定的數(shù)據(jù)集 K 中隨機抽取 m 個樣本用以生成新的訓(xùn)練樣本集合,然后根據(jù)新的訓(xùn)練樣本集生成 m 個決策樹,同時這m個決策樹為了避免過擬合,不進(jìn)行后剪枝處理,單個分類結(jié)果按各個決策樹投票多少形成的分?jǐn)?shù)決定。一棵決策樹的分類能力可能很小,但在隨機產(chǎn)生大量決策樹并組成隨機森林后,m個樣品都逐一通過一棵樹分類決策,最后組合的結(jié)果將更接近于正確分類。隨機森林通過在每個節(jié)點處隨機選擇特征進(jìn)行分支,每棵分類樹之間的相關(guān)性得到最小化,故對多元共線性不敏感,這樣就提高了分類的精確性及抗噪聲能力。
1.3.2 K-近鄰算法
K-近鄰算法(KNN)是基于實例的代表算法,1968年由Cover & Hart[16]提出,是一種用于分類和回歸的無母數(shù)統(tǒng)計方法,主要思想是通過測量不同特征值之間的距離進(jìn)行分類。如果一個樣本在特征空間中的k個最相似(特征空間中最鄰近)的樣本中的大多數(shù)屬于某一個類別,則該樣本也屬于這個類別。KNN 方法雖然依賴于極限定理,但在類別決策時只與極少量的相鄰樣本有關(guān)。KNN算法中,所選擇的鄰居都是已經(jīng)正確分類的對象。該方法在定類決策上只依據(jù)最鄰近的一個或幾個樣本的類別決定待分樣本所屬的類別。
1.3.3 邏輯回歸
邏輯回歸(LR)是回歸算法的代表,由統(tǒng)計學(xué)家David Cox[17]于1958年開發(fā)。它是廣義線性模型的特殊應(yīng)用,是一個二分類問題預(yù)測方法。LR使用 Sigmod 函數(shù)作為預(yù)測函數(shù),估計預(yù)測結(jié)果概率 P(y | x)的大小。如果 P > 0.5則認(rèn)為屬于正類別,否則屬于負(fù)類別。在有效藥物組合預(yù)測問題中,Sigmod函數(shù)的輸出就是每對藥物組合是否有效的概率值,大小取值在 0-1 之間。Logistic 模型在訓(xùn)練階段,通過隨機梯度下降法(SGD)不斷最小化預(yù)測函數(shù)誤差以提高模型的泛化能力。為避免模型陷入過擬合,在損失函數(shù)上采用相應(yīng)的正則化方式,以緩解模型的過擬合程度。
1.3.4 高效梯度提升決策樹
高效梯度提升決策樹(LightGBM)是基于GBDT 樹和Boosting 算法的分布式機器學(xué)習(xí)框架。LightGBM 是微軟DMTK 團隊2016年的開源項目,為Gradient Boosting(GBDT) 算法的改進(jìn)版本[18]。其中 GBDT 算法的思想是將弱分類算法提升為強分類算法,從而在一定程度上提高分類準(zhǔn)確率。LightGBM中的決策樹子模型采用按葉子分裂的方法分裂節(jié)點,因此它的計算代價較小。也正是因為選擇了這種分裂方式,需要控制樹的深度和每個葉子節(jié)點的最小數(shù)據(jù)量,從而避免過擬合現(xiàn)象發(fā)生。LightGBM 選擇基于Histogram的決策樹算法,將特征值分為很多個小 “桶”,進(jìn)而在這些 “桶”上尋找分裂,這樣可以降低儲存成本和計算成本。LightGBM與目前最為強大的機器學(xué)習(xí)模型XGBoost相比,速度更快、內(nèi)存占用更少、準(zhǔn)確率更高,所以本研究選取其作為最后一層的分類器。
2 特征工程
2.1 數(shù)據(jù)準(zhǔn)備
本文有效藥物組合數(shù)據(jù)來自Drug Combination Database(DCDB,version 2.0)[19](http://www.cls.zju.edu.cn/dcdb/),最新版本的DCDB收集了1 363種藥物組合(330份批準(zhǔn)和1 033份研究,包括237份無效用法),涉及904種個體藥物,805種靶標(biāo)。將946種成對藥物組合作為研究對象,通過爬蟲技術(shù)爬取DrugBank數(shù)據(jù)庫得到單藥的二維分子結(jié)構(gòu)信息、靶標(biāo)信息、ATC編碼信息[20],其中各個靶標(biāo)的序列信息和Go Term信息分別下載自Uniprot與STRING數(shù)據(jù)庫。如果一種藥物以上信息不全,其涉及的藥物組合將被刪除。通過篩選,共留下358對藥物組合。根據(jù)DCDB提供的藥物組合清單信息,358對藥物組合有效的有317對,無效的41對,故獲得標(biāo)準(zhǔn)正樣本317份,標(biāo)準(zhǔn)負(fù)樣本41份。
2.2 特征構(gòu)建
通過整合藥物的二維分子結(jié)構(gòu)信息、藥物ATC編碼信息、蛋白質(zhì)相互作用、藥物靶標(biāo)序列信息和Go Term信息,構(gòu)建5個不同層次的藥物組合特征。
2.2.1 二維分子結(jié)構(gòu)相似性特征
本文應(yīng)用軟件RDKit計算兩個藥物小分子之間的相似度。 RDKit是一款免費開源的化學(xué)信息學(xué)與機器學(xué)習(xí)軟件,提供了C++和Python的API,利用Python腳本很容易計算多個分子或構(gòu)象之間的接近程度。首先利用獲取的各個藥物分子二維結(jié)構(gòu)信息(SMILES),調(diào)用RDKit計算出對應(yīng)的二維 MACCS 分子指紋[21],然后用谷本系數(shù)(Tanimoto)計算兩種藥物二維 MACCS 分子指紋相似度。藥物[Di]和[Dj]的Tanimoto系數(shù)定義如下:
式(1)中,[Mi]和[Mj]分別代表藥物[Di]、[Dj]的二維 MACCS 分子指紋。
2.2.2 ATC編碼相似性特征
ATC編碼是解剖治療學(xué)及化學(xué)分類系統(tǒng)編碼,可以代表藥物的療效信息。ATC編碼共有7位,其中第1、4、5位為字母,第2、3、6、7位為數(shù)字。 ATC系統(tǒng)將藥物分為5個級別:ATC編碼第1級為一位字母,表示解剖學(xué)上的分類,共有14個組別;ATC編碼第2級為兩位數(shù)字,表示治療學(xué)上的分類;ATC編碼第3級為一位字母,表示藥理學(xué)上的分類;ATC編碼第4級為一位字母,表示化學(xué)上的分類;ATC編碼第5級為兩位數(shù)字,表示化合物上的分類。兩種藥物成分的第 K 級藥物療效相似性定義如下:
在此, ATC 編碼在第 N 級水平上表示為[ATCN(Di)],極少的藥會在ATC 編碼的5級水平上都一致,故N取3級。本文的ATC編碼相似性特征為兩種藥物ATC編碼相似度的最大值。
2.2.3 蛋白質(zhì)相互作用的相似性特征
本文從 STRING 數(shù)據(jù)庫(Version 11.0)(https://string-db.org/)下載所有人類兩兩靶標(biāo)的蛋白質(zhì)相互作用得分[22],將成對藥物對應(yīng)的靶標(biāo)與之匹配,并累加兩藥靶標(biāo)間所有蛋白質(zhì)相互作用得分,最后取平均分值,得到藥物組合蛋白質(zhì)相互作用相似性得分,定義如下:
式(4)中,[pi]和[pj]分別代表藥物[Di]、[Dj]的靶標(biāo)。
2.2.4 藥物靶標(biāo)序列相似度特征
利用Biopython(http://www.biopython.org)進(jìn)行藥物靶標(biāo)的序列相似度計算。Biopython是為生物信息學(xué)開發(fā)者提供的在線資源庫,包括模塊、腳本以及一些基于Python的軟件網(wǎng)站鏈接。Biopython提供了獨立的模塊pairwise2進(jìn)行成對序列比對。同樣,藥物靶標(biāo)的序列相似度得分與蛋白質(zhì)相互作用相似性得分類似,如式(4)所示。
2.2.5 藥物靶標(biāo)的Go Term相似性特征
使用軟件EnrichFunSim[23]構(gòu)建兩兩藥物靶標(biāo)的Go Term相似性特征?;蛑g的功能相似性廣泛應(yīng)用于生物信息學(xué),評估基因功能相似性的方法主要是基于基因本體術(shù)語(Go Term)的語義相似性。EnrichFunSim是一種將Go結(jié)合現(xiàn)有功能的最新方法。實驗表明,EnrichFunSim顯著提高了功能相似性測量能力。
3 實驗與分析
3.1 實驗數(shù)據(jù)處理
本文構(gòu)建的特征數(shù)據(jù)都是數(shù)值類型,其大小有實際意義,表示相似度高低。因為不同特征數(shù)值量級不同,因此需要進(jìn)行標(biāo)準(zhǔn)化處理消除特征之間的數(shù)量級差別,以避免數(shù)值問題,平衡各個特征貢獻(xiàn),提升模型求解速度。標(biāo)準(zhǔn)化公式如下:
考慮到總樣本358份,其中標(biāo)準(zhǔn)正樣本317份,標(biāo)準(zhǔn)負(fù)樣本41份,預(yù)測成對藥物組合是否有效成為一個二分類問題。為克服正負(fù)樣本不平衡問題,本研究采用SMOTE算法進(jìn)行過采樣。SMOTE算法的思想是合成新的少數(shù)類樣本,合成方式是對每個少數(shù)類樣本a從它的最近鄰中隨機選一個樣本b,然后在a、b之間的連線上隨機選一點作為新合成的少數(shù)類樣本。
3.2 實驗分析
3.2.1 基模型建模分析
首先利用構(gòu)建的特征數(shù)據(jù)和全部正負(fù)樣本,將總數(shù)據(jù)中67%劃分為訓(xùn)練集,其余作為測試集。分別輸入邏輯回歸(LR)、隨機森林(Random Frost)、K-近鄰算法(KNN)和高效梯度提升決策樹(LightGBM)4個模型中,結(jié)果如表1和圖2所示。
3.2.2 Stacking模型融合分析
Stacking模型融合過程:第一層在LR、Random Frost、 KNN三個基分類器上,分別對訓(xùn)練數(shù)據(jù)作5折交叉驗證。對第一個基分類器,先從訓(xùn)練集拿出4折作為訓(xùn)練數(shù)據(jù),另外1折作驗證數(shù)據(jù),用4折數(shù)據(jù)訓(xùn)練好的模型去預(yù)測另外1折驗證數(shù)據(jù),得到概率結(jié)果為[P1_n(n=5)]。同時測試數(shù)據(jù)沒有加入5折交叉驗證,所以每次用此模型去預(yù)測對應(yīng)測試數(shù)據(jù),得到[T1_n(n=5)],最后測試數(shù)據(jù)輸出的[Tn]取平均值為[T1_MEAN],拼接[P1_n]與[T1_MEAN]為新的特征數(shù)據(jù)[[P1_1,P1_2,P1_3,P1_4,P1_5,T1_MEAN]]。接下來對其它兩個基分類器采用同樣的策略產(chǎn)生新的特征數(shù)據(jù)[[P2_1,P2_2,][P2_3,P2_4,P2_5,T2_MEAN]]和[[P3_1,P3_2,P3_3,P3_4,P3_5,][T3_MEAN]]。第二層,利用前面3個基分類器產(chǎn)生的新的特征數(shù)據(jù)輸入到LightGBM分類模型中,模型融合結(jié)果如表2、表3和圖3所示。
由于單模型LightGBM預(yù)測效果最好,故取其與Stacking模型融合進(jìn)行對比分析。由表2和圖3可以發(fā)現(xiàn),基于Stacking模型融合的藥物組合預(yù)測模型預(yù)測精度明顯優(yōu)于基于LightGBM的藥物組合預(yù)測模型,部分預(yù)測結(jié)果見表3。
4 結(jié)語
本研究綜合應(yīng)用了藥物二維分子結(jié)構(gòu)信息、藥物ATC編碼信息、蛋白質(zhì)相互作用、藥物靶標(biāo)的序列信息和Go Term信息,對藥物信息的提取與集成突出了層次性、互補性。同時引入Stacking算法,融合邏輯回歸(LR)、隨機森林(Random Frost)、K-近鄰算法(KNN)和高效梯度提升決策樹(LightGBM)4個機器學(xué)習(xí)算法構(gòu)建藥物組合預(yù)測模型。實驗結(jié)果表明,利用Stacking算法模型融合的預(yù)測效果優(yōu)于傳統(tǒng)及最新的機器學(xué)習(xí)算法建模。但本文還有一些局限性,如利用SMOTE算法進(jìn)行過采樣解決正負(fù)樣本不平衡問題,由此生成的并不是真正的負(fù)樣本,存在生成的負(fù)樣本為有效藥物組合的情況,如何尋找更多真正的負(fù)樣本或者考慮不利用負(fù)樣本建模是未來的研究方向。
參考文獻(xiàn):
[1] SUCHER NIKOLAUS J. Searching for synergy in silico, in vitro and in vivo[J]. Synergy, 2014,1(1):30-43.
[2] CHOU T C . Theoretical basis, experimental design, and computerized simulation of synergism and antagonism in drug combination studies[J]. Pharmacological reviews, 2006,58(3):621-681.
[3] SHIM JOONG SUP, LIU JUN O. Recent advances in drug repositioning for the discovery of new anticancer drugs[J]. Int J Biol Sci, 2014, 10(7):654-663.
[4] GU L, LIU H, FAN L,et al. Treatment outcomes of transcatheter arterial chemoembolization combined with local ablative therapy versus monotherapy in hepatocellular carcinoma: a meta-analysis[J]. Cancer Res Clin Oncol. 2013(140):199–210.
[5] ZHANG X, ZHANG X J, ZHANG T Y, et al. Effect and safety of dual anti-human epidermal growth factor receptor 2 therapy compared to monotherapy in patients with human epidermal growth factor receptor 2-positive breast cancer: a systematic review[J]. BMC Cancer,2014(14):625-630.
[6] DIMASI JOSEPH A, GRABOWSKI HENRY G, HANSEN RONALD W. Innovation in the pharmaceutical industry: new estimates of R&D costs[J]. Journal of health economics, 2016(47):20-33.
[7] 趙明珠. 藥物—靶標(biāo)相互作用及藥物對組合研究[D]. 上海:上海交通大學(xué),2013.
[8] SUN Y, XIONG Y, XU Q, et al. A hadoop-based method to predict potential effective drug combination[J]. BioMed research international, 2014(6):1541-1548.
[9] LI X Y,QIN G R,YANG Q M,et al. Biomolecular network-based synergistic drug combination discovery[J]. Biomed Research International, 2016 (2):1-11.
[10] KRISTINA PREUER,RICHARD P I LEWIS. Deepsynergy: predicting anti-cancer drug synergy with Deep Learning[J].Bioinformatics, 2017(11):1-9.
[11] XU Q, YI X, OU H Y,et al. A similarity-feature based method to predict effective drug combination[J]. Interdisciplinary Sciences Computational Life Sciences,2015(3):896-907.
[12] WOLPERTDH. Stacked generalization[J]. NeuralNetworks,1992,5(2):241-259
[13] BREIMANL. Baggingpredictors[J]. MachineLearning,1996,24(2):123-140.
[14] BREIMANL. Arcingclassifiers[J]. AnnalsofStatistics,1998,26(3):801-849