葉丹 胡二琴
摘要:文章提出在嵌入式特征選擇算法背景下,通過對比正則化模型和樹模型兩種篩選方法下的重要性權(quán)重選取出對生物活性最具有顯著影響的20個分子描述符,并分別建立預測模型。結(jié)果表明樹模型下的隨機森林方法真實值與預測值相對平均誤為0.0167,相較于正則化方法和樹模型方法下的梯度提升決策樹更優(yōu),證實基于該方法下篩選的模型具有預測誤差小、預測精度更高的優(yōu)點。
關(guān)鍵詞:抗乳腺癌;嵌入式特征選擇;重要性權(quán)重選擇特征;生物活性預測
中圖分類號:TP301? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2022)34-0008-03
1 引言
乳腺癌是目前世界上最常見,致死率較高的癌癥之一。世界衛(wèi)生組織國際癌癥研究機構(gòu)(IARC) 發(fā)布的2020年全球最新癌癥負擔數(shù)據(jù)顯示,2020年全球新增癌癥病人約1930萬人,其中女性乳腺癌占11.7%,在數(shù)量上已經(jīng)超越了肺癌(11.4%) ,成為全球新診斷人數(shù)最多的癌癥。乳腺癌確診病人超過226萬[1],其中僅中國就超過41萬人,占比9.1%。其發(fā)病率和死亡率分別位列我國女性惡性腫瘤的第1位和第4位[2]。雖然乳腺癌發(fā)病率高,但致死率相較于肺癌、腸癌這些常見癌癥要稍低。提高早期乳腺癌及其癌前病變的檢出率并進行及時有效的治療是提高乳腺癌預后、降低乳腺癌死亡率的重要措施[3]。
近年來,國內(nèi)外研究發(fā)現(xiàn)雌激素受體α亞型(Estrogen receptors alpha, ERα) 在乳腺發(fā)育過程中扮演了十分重要的角色[4-5]。在惡性乳腺癌組織中的雌激素受體的濃度一般較高,而大部分良性腫瘤和正常組織都不含雌激素受體[6],因此ERα被認為是治療乳腺癌的重要靶標。能夠拮抗ERα活性的化合物可能是治療乳腺癌的候選藥物。
不斷地尋找新的手段來改進藥物以最大化藥物的治療效果是科學制藥發(fā)展的趨勢。因此,尋找新的抗乳腺癌候選藥物尤為關(guān)鍵,對于乳腺癌患者精確治療具有積極而重大意義,可以降低乳腺癌患者死亡率。本文提出在嵌入式特征篩選背景下,通過對比正則化模型和樹模型下不同方法的特征選擇,對1974個化合物所對應的ERα生物活性數(shù)據(jù)進行特征篩選,并利用不同篩選辦法選取的前20個對生物活性具有顯著性影響的化合物分子式分別構(gòu)建預測模型并對模型進行評估。
2 數(shù)據(jù)處理及變量篩選
本文數(shù)據(jù)來源于2021年中國研究生數(shù)學建模競賽數(shù)據(jù),數(shù)據(jù)包含1974個化合物的729個分子描述符信息(自變量)和化合物對應ERα的生物活性值PIC50。PIC50值越大表明生物活性越高,對抑制ERα活性越有效。本文設(shè)定PIC50為因變量。利用Python、R編程完成對集中數(shù)據(jù)的預處理。
2.1 數(shù)據(jù)預處理
1) 刪除原始數(shù)據(jù)中化合物分子式中缺失值。原始數(shù)據(jù)中有225個分子描述符取值全部為零,刪除全部為零的分子描述符后剩余504個分子描述符(自變量)。
2) 進行化合物分子的相關(guān)性分析。去除冗余的化合物分子式,防止過度擬合。結(jié)合熱力圖1可發(fā)現(xiàn)部分變量相關(guān)系數(shù)絕對值接近1,此類變量的信息高度重疊(本文選取絕對值大于0.9) 。為解決模型建立復雜問題,本文將信息高度重疊的部分變量進行剔除。
經(jīng)過剔除后還剩222個有化合物分子,顯然直接應用這些化合物分子式不僅浪費時間還可能會導致模型的過度擬合,因此還需要篩選出與因變量PIC50具有一定相關(guān)性的自變量。
3) 相關(guān)性顯著性檢驗。計算化合物分子式與藥物分子活性PIC50之間的Pearson相關(guān)系數(shù)并進行假設(shè)檢驗得到對應的t值,發(fā)現(xiàn)部分化合物分子式與PIC50之間的相關(guān)性較弱。為使數(shù)據(jù)降維,減少原始數(shù)據(jù)對預測模型準確性的干擾,對相關(guān)系數(shù)進行顯著性檢驗。運用 Python語言計算出相關(guān)系數(shù)檢驗統(tǒng)計量t值為1.9612,依次求出每個化合物與藥物分子活性之間的相關(guān)系數(shù)及對應的檢驗統(tǒng)計量。選出t值>1.9612的統(tǒng)計量,表示拒絕原假設(shè)H0,說明該分子化合物與PIC50之間存在顯著的相關(guān)關(guān)系。經(jīng)篩選后還剩169個變量下進行特征篩選。
3 特征選擇
變量篩選是高維數(shù)據(jù)分析中的重要環(huán)節(jié),其目的是從眾多變量中識別少數(shù)與結(jié)局相關(guān)的變量。Embedded類特征算法結(jié)合了Filter和Wrapper類的優(yōu)點[7],利用估計器內(nèi)部的參數(shù)對特征進行排序,在選擇特征的同時訓練了模型這樣就有效地提高了運算效率。嵌入式算法有樹結(jié)構(gòu)模型、正則化方法。據(jù)此,本文特征選擇階段是對上述預處理剔除后的169個分子描述符數(shù)據(jù),在嵌入式算法背景下利用正則化和樹模型特征選擇算法。正則化方法下分別使用內(nèi)置交叉驗證的嶺回歸、Lasso和彈性網(wǎng)絡估計器;樹模型方法下使用隨機森林方法和GBDT模型進行對比,篩選出前20個對生物活性具有顯著影響的分子描述符。
3.1 基于正則化模型的特征選擇
1) 基于嶺回歸的重要性權(quán)重選擇特征
2) 基于Lasso的重要性權(quán)重選擇特征
3) 基于ElasticNet的重要性權(quán)重選擇特征
3.2 基于樹模型的重要性權(quán)重選擇特征
1) 基于隨機森林的重要性權(quán)重選擇特征
隨機森林(Random Forest, RF)的基本原理[11]是建立起大量的決策樹,然后把它們?nèi)诤显谝黄?,這樣能夠建立起一個更為精準且穩(wěn)定性更高的模型。其工作流程為:首先,運用 bootstrap 重抽樣方法從原始的訓練集當中隨機取出大量的樣本子集,對每個bootstrap樣本構(gòu)建決策樹模型,然后組合多棵決策樹的預測,并將預測結(jié)果以投票法的方式,從所有的預測結(jié)果之中選擇出來最終的結(jié)果。簡單來說,RF是由多個弱學習器(決策樹)所集成的強學習器。是一種有效的預測工具?;陔S機森林篩選的前20個對生物活性最具顯著影響的分子描述符如圖5所示。
2) 基于GBDT模型的重要性權(quán)重選擇特征
梯度提升決策樹[12](GBDT)是以分類回歸樹為基學習器Boosting集成學習算法。在GBDT的每次迭代中都在殘差減少的梯度方向新建一棵CART決策樹,經(jīng)多次迭代最后的殘差趨近0,最后將所有決策樹的結(jié)果累加獲得最終的預測結(jié)果?;陔S機森林篩選的前20個對生物活性最具顯著影響的分子描述符如圖6所示。
通過查閱藥物分子研究文獻發(fā)現(xiàn):1) 高效率結(jié)合靶標的小分子配體具有更強的疏水性,藥物分子可以通過其疏水基團與機體內(nèi)的靶標相結(jié)合,發(fā)揮藥理活性[13];2) 化合物的親脂性對化合物的藥理學活性有重大影響[14];3) 氫鍵作用是藥物與生物靶標之間非共價相互作用中作用力較強的形式之一,往往對藥效的強弱產(chǎn)生重要影響[15]。本文中篩選的部分變量與藥物分子研究理論吻合,如:XLogp、LipoaffinityIndex、nHBAcc。體現(xiàn)出上述使用正則化方法和樹模型方法篩選出的分子描述符較為合理,具有可信度。
4 生物活性預測模型構(gòu)建與評價
構(gòu)建預測模型的整體思想:結(jié)合三種特征篩選方法下分子描述符的數(shù)據(jù)作為模型樣本集。正則化篩選變量分別建立嶺回歸、Lasso和ElasticNet彈性網(wǎng)絡預測模型;樹模型篩選變量分別建立隨機森林回歸和梯度提升決策樹回歸模型。模型評估時選用相對平均誤差(MSRE) 作為評價模型的指標。相對平均誤差(MSRE) 的定義如下:
從上述分析可以看出基于嵌入式算法下建立的預測模型都保持了較高的預測精度,而其中所有的樹模型預測結(jié)果較正則化方法下的結(jié)果更優(yōu)。在樹模型下方法下,隨機森林方法預測結(jié)果優(yōu)于GBDT模型。
5 結(jié)束語
本文從嵌入式特征選擇方法出發(fā),通過化合物對ERα的生物活性數(shù)據(jù)進行分析,采用特征重要性排序方法進行特征選擇建立不同預測模型,結(jié)果表明隨機森林方法在生物活性預測方面具有精度更高的優(yōu)點。此外,通過特征選擇方法篩選出的部分化合物分子式與藥物分子研究吻合,有望成為抗乳腺癌藥物研究的可選標志物。嵌入式方法下的特征篩選方法具有可拓展性,未來可以將該算法推廣到其他類型癌癥的藥物篩選上,推動未來不同癌癥的靶細胞篩選不同的化合物分子事業(yè)發(fā)展。
參考文獻:
[1] Sung H,F(xiàn)erlay J,Siegel R L,et al.Global cancer statistics 2020:GLOBOCAN estimates of incidence and mortality worldwide for 36 cancers in 185 countries[J].CA:a Cancer Journal for Clinicians,2021,71(3):209-249.
[2] 赫捷,陳萬青,李霓,等.中國女性乳腺癌篩查與早診早治指南(2021,北京)[J].中國腫瘤,2021,30(3):357-382.
[3] 中華預防醫(yī)學會,赫捷.中國女性乳腺癌篩查標準(T/CPMA 014-2020)[J].中華腫瘤雜志,2021,43(1):8-15.
[4] Fuqua S A,Wiltschke C,Zhang Q X,et al.A hypersensitive estrogen receptor-alpha mutation in premalignant breast lesions[J].Cancer Research,2000,60(15):4026-9.
[5] 張桂香,趙學東.雌激素受體亞型的研究現(xiàn)狀[J].國外醫(yī)學 婦產(chǎn)科學分冊,2002,29(6):352-355.
[6] 趙曉民,徐小明.雌激素受體及其作用機制[J].西北農(nóng)林科技大學學報(自然科學版),2004,32(12):154-158.
[7] 周志華.機器學習[M].北京:清華大學出版社,2016.
[8] Liu J,Ji S W,Ye J P.Multi-task feature learning via efficient l2,1-norm minimization[J].Uncertainty in Artificial Intelligence,2009:339-348.
[9] Keerthi S S,Shevade S.A fast tracking algorithm for generalized LARS/LASSO[J].IEEE Transactions on Neural Networks,2007,18(6):1826-1830.
[10] Zou H,Hastie T.Regularization and variable selection via the elastic net[J].Journal of the Royal Statistical Society:Series B (Statistical Methodology),2005,67(2):301-320.
[11] 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.
[12] Friedman J H.Greedy function approximation:a gradient boosting machine[J].The Annals of Statistics,2001,29(5): 1189-1232.
[13] Ferreira de Freitas R,Schapira M.A systematic analysis of atomic protein-ligand interactions in the PDB[J].MedChemComm,2017,8(10):1970-1981.
[14] 王佩利.新型抗腫瘤活性小分子化合物的類藥性質(zhì)研究[D].上海:華東師范大學,2018.
[15] 盛春泉.藥物結(jié)構(gòu)優(yōu)化——設(shè)計策略和經(jīng)驗規(guī)則[M].北京:化學工業(yè)出版社,2018.
【通聯(lián)編輯:王力】