国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機(jī)器學(xué)習(xí)XGBoost算法在醫(yī)學(xué)領(lǐng)域的應(yīng)用研究進(jìn)展

2021-10-23 02:16:24齊巧娜陳霽暉劉昕竹張津源崔夢(mèng)璇謝藝萌王則遠(yuǎn)
分子影像學(xué)雜志 2021年5期
關(guān)鍵詞:機(jī)器預(yù)測(cè)藥物

齊巧娜,劉 艷,陳霽暉,劉昕竹,楊 銳,張津源,崔夢(mèng)璇,謝藝萌,王則遠(yuǎn),于 澤,高 飛,張 健

1北京諾道醫(yī)學(xué)認(rèn)知科技有限公司,北京 100161;2上海交通大學(xué)醫(yī)學(xué)院附屬新華醫(yī)院臨床藥學(xué)部,上海200092

隨著醫(yī)療信息化的飛速發(fā)展,醫(yī)療大數(shù)據(jù)呈爆炸式增長(zhǎng)。醫(yī)療大數(shù)據(jù)包含患者在疾病診療過(guò)程中產(chǎn)生的全部數(shù)據(jù),包括醫(yī)生處方、電子病歷、生命體征、醫(yī)學(xué)成像、檢驗(yàn)檢查、藥物治療、醫(yī)療保險(xiǎn)等數(shù)據(jù)。通過(guò)對(duì)醫(yī)療大數(shù)據(jù)的深入挖掘,可促進(jìn)個(gè)性化醫(yī)療、優(yōu)化診療手段和提高診療效率[1-3]。人工智能作為計(jì)算機(jī)科學(xué)的一個(gè)新的技術(shù)分支,它試圖通過(guò)獲取、表示和使用知識(shí)來(lái)不斷改善性能和自我完善,而賦予計(jì)算機(jī)類似于人類的學(xué)習(xí)能力[4-5]。機(jī)器學(xué)習(xí)是人工智能的主要實(shí)現(xiàn)途徑,并且是人工智能研究中發(fā)展最快的領(lǐng)域之一[6]?,F(xiàn)代醫(yī)療領(lǐng)域已經(jīng)配備醫(yī)療數(shù)據(jù)的采集及存儲(chǔ)系統(tǒng),并且能夠在大容量的信息系統(tǒng)中實(shí)現(xiàn)集成和分享。應(yīng)用機(jī)器學(xué)習(xí)對(duì)醫(yī)療大數(shù)據(jù)進(jìn)行挖掘,以總結(jié)、獲取新的知識(shí),相比常規(guī)的臨床研究和傳統(tǒng)統(tǒng)計(jì)學(xué),具有更強(qiáng)的數(shù)據(jù)處理和知識(shí)獲取能力[7-8]。

Boosting也稱為增強(qiáng)學(xué)習(xí)或提升法,是集成學(xué)習(xí)技術(shù)中重要的框架之一,其應(yīng)用十分廣泛。2014年陳天奇博士提出XGBoost 算法,XGBoost 是“極端梯度上升”的簡(jiǎn)稱,它類似于梯度上升框架,但是兼具線性模型求解器和樹(shù)學(xué)習(xí)算法算法,作為一種新型高效的Boosting算法,在基礎(chǔ)算法上加以優(yōu)化改進(jìn),提高了精度,其關(guān)注度和應(yīng)用價(jià)值越來(lái)越高[9],已廣泛地運(yùn)用于醫(yī)療保健、金融、教育、制造等領(lǐng)域的數(shù)據(jù)分析中。在醫(yī)藥學(xué)領(lǐng)域,XGBoost已應(yīng)用于疾病診斷以及疾病發(fā)生風(fēng)險(xiǎn)、轉(zhuǎn)歸與預(yù)后、合理安全用藥和藥物研發(fā)的數(shù)據(jù)分析,在這些方面XGBoost 均表現(xiàn)出了強(qiáng)大性能和較高精度。本文針對(duì)XGBoost 算法的原理、優(yōu)勢(shì)及其在醫(yī)藥學(xué)領(lǐng)域的應(yīng)用研究進(jìn)行綜述。

1 XGBoost算法

1.1 XGBoost算法原理簡(jiǎn)介

XGBoost作為一種新型機(jī)器學(xué)習(xí)算法,其算法運(yùn)行過(guò)程分為學(xué)習(xí)和推理兩部分[9]。其中,學(xué)習(xí)機(jī)的目標(biāo)是使得損失函數(shù)最小化,即在決策樹(shù)復(fù)雜度盡可能低的情況下要求預(yù)測(cè)誤差盡可能小。決策樹(shù)的構(gòu)建過(guò)程,首先通過(guò)貪心法枚舉所有符合條件的樹(shù)結(jié)構(gòu)方案,并結(jié)合Gain 值和自定義閾值作為節(jié)點(diǎn)分裂依據(jù)進(jìn)行分裂或剪枝終止分裂;其次,計(jì)算所有方案中葉節(jié)點(diǎn)的分?jǐn)?shù)以及決策樹(shù)得分,更新決策樹(shù)序列;最后,計(jì)算各個(gè)樣本的預(yù)測(cè)結(jié)果,即每棵決策樹(shù)的得分之和,得到樣本屬于各個(gè)類別的概率。

而推理機(jī)是基于學(xué)習(xí)機(jī)得出的決策樹(shù)序列。首先,代入樣本信息依次從決策樹(shù)序列的根節(jié)點(diǎn)到葉節(jié)點(diǎn)進(jìn)行邏輯判斷,如果不是葉節(jié)點(diǎn),判斷該樣本屬于左/右子節(jié)點(diǎn),反之則計(jì)算葉節(jié)點(diǎn)分?jǐn)?shù)并輸入下一顆決策樹(shù)進(jìn)行判斷;其次,對(duì)所有決策樹(shù)給出的預(yù)測(cè)值進(jìn)行求和,得到該樣本分類為1的概率并根據(jù)閾值函數(shù)判斷樣本最終所屬分類(圖1)。

圖1 決策樹(shù)分類原理整體模型—對(duì)于給定的示例,最后的預(yù)測(cè)是每棵樹(shù)的預(yù)測(cè)之和[9]Fig.1 Tree ensemble model-The final prediction for a given example is the sum of predictions from each tree[9].

1.2 XGBoost 應(yīng)用于醫(yī)學(xué)數(shù)據(jù)挖掘的優(yōu)勢(shì)

醫(yī)學(xué)數(shù)據(jù)的類型、屬性、表達(dá)方式是錯(cuò)綜復(fù)雜的。其特點(diǎn)包括:資源龐大,過(guò)程復(fù)雜,可能存在大量的冗余數(shù)據(jù);數(shù)據(jù)類型多樣,包括文字、影像、信號(hào)等;數(shù)據(jù)稀疏性強(qiáng),比如病案往往并未包含某種疾病的全部信息或者患者的化驗(yàn)結(jié)果由于各種原因,導(dǎo)致大量數(shù)據(jù)缺失[10-12]。然而,許多常用的機(jī)器學(xué)習(xí)算法需要完整的數(shù)據(jù)集(沒(méi)有丟失的數(shù)據(jù)),臨床分析方法通常需要一個(gè)輸入程序來(lái)“填補(bǔ)”丟失的數(shù)據(jù)。管理缺失數(shù)據(jù)最常用的兩種策略是輸入或刪除值,前者可能導(dǎo)致偏差,而后者可能導(dǎo)致偏差和統(tǒng)計(jì)能力的損失[13-15]。

而XGBoost 算法在處理這些問(wèn)題上顯示出獨(dú)特的優(yōu)勢(shì):以并行運(yùn)算著稱,可快速運(yùn)行大規(guī)模數(shù)據(jù);可自動(dòng)優(yōu)化分裂節(jié)點(diǎn),擅長(zhǎng)處理異常值和缺失值較多的無(wú)規(guī)則數(shù)據(jù);可進(jìn)行自主學(xué)習(xí),模型具有可解釋性和靈活性[9]。

2 XGBoost在醫(yī)學(xué)領(lǐng)域中的應(yīng)用研究

2.1 疾病診斷

XGBoost算法常用于影像學(xué)診斷。比如,基于癲癇患者M(jìn)RI的神經(jīng)生理學(xué)特征數(shù)據(jù),對(duì)癲癇病灶區(qū)進(jìn)行識(shí)別[16]。該研究可輔助醫(yī)生在術(shù)前判斷病灶區(qū)域從而準(zhǔn)確地進(jìn)行病灶切除。此外,XGBoost 和貝葉斯優(yōu)化可用于對(duì)肺結(jié)節(jié)計(jì)算機(jī)輔助診斷,有學(xué)者采集了肺結(jié)節(jié)(62位肺癌患者及37位良性肺結(jié)節(jié)患者)患者的CT影像數(shù)據(jù),抽取影像特征后采用支持向量機(jī)(SVM)和XGBoost算法對(duì)特征向量及對(duì)應(yīng)標(biāo)簽進(jìn)行預(yù)測(cè)學(xué)習(xí),其中將TPE作為SVM和XGBoost參數(shù)的貝葉斯優(yōu)化方法,得到的曲線下面積(AUC)值分別為0.850和0.896,XGBoost算法的預(yù)測(cè)效果總體優(yōu)于SVM算法[17]。

此外,還有一些疾病的診斷也應(yīng)用了XGBoost算法。如有研究使用機(jī)器學(xué)習(xí)方法構(gòu)建了尿路感染診斷預(yù)測(cè)模型,通過(guò)提取人口統(tǒng)計(jì)資料、生命體征、化驗(yàn)結(jié)果、用藥等數(shù)據(jù),驗(yàn)證和比較了6種機(jī)器學(xué)習(xí)算法用于構(gòu)建尿路感染診斷預(yù)測(cè)模型(AUC=0.826~0.904),發(fā)現(xiàn)XGBoost 模型是最佳表現(xiàn)算法,顯著提高了尿路感染預(yù)測(cè)中的特異性和敏感度[18]。另有研究采用電感耦合等離子體場(chǎng)質(zhì)譜對(duì)36例帕金森病患者和42例年齡匹配的對(duì)照患者腦脊液樣本進(jìn)行分析,共量化了28種不同元素,將XGBoost、隨機(jī)森林(RF)等不同算法應(yīng)用于數(shù)據(jù)集,以識(shí)別一組新元素指紋圖譜作為生物標(biāo)志物進(jìn)行帕金森病患者的診斷。該研究確定了一個(gè)可識(shí)別帕金森病患者的元素指紋簇(Se、Fe、As、Ni、Mg、Sr),XGBoost 算法在識(shí)別帕金森病中顯示出了很高特異性(78.6%)和敏感度(83.3%),其中Se 和Fe被認(rèn)為是該簇中標(biāo)志性最強(qiáng)的元素。經(jīng)前瞻性驗(yàn)證,該元素指紋可能成為帕金森病診斷標(biāo)志物[19]。有學(xué)者使用來(lái)自cfDNA的染色體臂水平拷貝數(shù)變異作為肺癌診斷生物標(biāo)志物,采用XGBoost算法進(jìn)行癌癥預(yù)測(cè)[20]。研究基于Z評(píng)分分析手臂級(jí)拷貝數(shù)變異分布,結(jié)果發(fā)現(xiàn)3q、8q、12p和7q染色體有擴(kuò)增的趨勢(shì)。22q、3p、5q、16q、10q和15q染色體上經(jīng)常檢測(cè)到缺失。實(shí)驗(yàn)組應(yīng)用經(jīng)過(guò)訓(xùn)練的XGBoost分類器,特異性和敏感度最終達(dá)到100%。此外,5次交叉驗(yàn)證驗(yàn)證了模型的穩(wěn)定性。結(jié)果表明整合4個(gè)臂級(jí)拷貝數(shù)變異和cfDNA濃度到訓(xùn)練的XGBoost分類器中,可以為檢測(cè)肺癌提供一種潛在的方法。

2.2 疾病風(fēng)險(xiǎn)、轉(zhuǎn)歸及預(yù)后的預(yù)測(cè)

XGBoost算法在疾病風(fēng)險(xiǎn)、轉(zhuǎn)歸及預(yù)后預(yù)測(cè)方面也有著廣泛的應(yīng)用。有學(xué)者運(yùn)用美國(guó)緬因州電子健康記錄數(shù)據(jù)庫(kù),采集了823 627位患者的數(shù)據(jù),構(gòu)建了在未來(lái)1年內(nèi)發(fā)生原發(fā)性高血壓的風(fēng)險(xiǎn)預(yù)測(cè)模型。該研究在特征選擇和模型構(gòu)建過(guò)程中采用了XGBoost算法,其中在回顧性和前瞻性隊(duì)列中的AUC分別為0.917和0.870,計(jì)算風(fēng)險(xiǎn)評(píng)分將患者分為5個(gè)風(fēng)險(xiǎn)級(jí)別,并得出各類別下一年內(nèi)的生存曲線(圖3)[21]。2型糖尿病、脂質(zhì)紊亂、心血管疾病、精神疾病、臨床使用指標(biāo)和社會(huì)經(jīng)濟(jì)決定因素被認(rèn)為是原發(fā)性高血壓的驅(qū)動(dòng)或相關(guān)特征。高風(fēng)險(xiǎn)人群主要包括患有多種慢性病的老年人(>50歲),特別是接受精神障礙藥物治療的人群。同時(shí)發(fā)現(xiàn)高血壓與社會(huì)經(jīng)濟(jì)因素存在關(guān)聯(lián)。

另有研究首次建立了一種miRNA-疾病關(guān)聯(lián)的XGBoost模型(EGBMMDA),并證明了模型的可信度與穩(wěn)定性[22]。運(yùn)用EGBMMDA模型預(yù)測(cè)了與miRNAs 潛在相關(guān)的結(jié)腸腫瘤、淋巴瘤、前列腺腫瘤、乳腺腫瘤和食管腫瘤。結(jié)果表明,5 種疾病的預(yù)測(cè)中,EGBMMDA 的準(zhǔn)確率均高于98%。有學(xué)者用機(jī)器學(xué)習(xí)XGBoost分析整個(gè)外顯子組測(cè)序數(shù)據(jù),用于識(shí)別精神分裂癥高危人群。運(yùn)用XGBoost模型學(xué)習(xí)不同基因的突變模式,模型推理得出的前50個(gè)基因能夠更好地預(yù)測(cè)精神分裂癥的發(fā)?。?3]。

還有機(jī)器學(xué)習(xí)與影像資料的結(jié)合。有學(xué)者利用冠狀動(dòng)脈計(jì)算機(jī)斷層掃描(CCTA)讀數(shù)中的16段冠狀動(dòng)脈狹窄和斑塊信息數(shù)據(jù),通過(guò)XGBoost構(gòu)建風(fēng)險(xiǎn)分層預(yù)測(cè)模型,以優(yōu)化常規(guī)CCTA對(duì)于疑似冠心病患者的風(fēng)險(xiǎn)評(píng)分[24]。分析表明,與常規(guī)CCTA風(fēng)險(xiǎn)評(píng)分相比,基于XGBoost的風(fēng)險(xiǎn)分層模型可以最大限度地整合來(lái)自CCTA的斑塊信息,進(jìn)一步對(duì)疑似冠心病患者的風(fēng)險(xiǎn)進(jìn)行評(píng)估。有學(xué)者基于急性腦卒中患者的MRI影像數(shù)據(jù)構(gòu)建XGBoost腦梗死預(yù)測(cè)模型,將灌注參數(shù)作為急性腦卒中梗死預(yù)測(cè)的重要因素,準(zhǔn)確預(yù)測(cè)急性缺血性腦卒中[25]。

風(fēng)險(xiǎn)預(yù)測(cè)或生存分析模型的研究也越來(lái)越多的應(yīng)用了機(jī)器學(xué)習(xí)方法。有研究利用機(jī)器學(xué)習(xí)生成風(fēng)險(xiǎn)模型,對(duì)心衰患者的意外入院進(jìn)行預(yù)測(cè)。納入至少18月的心衰患者數(shù)據(jù),使用XGBoost、RF和梯度提升算法建立風(fēng)險(xiǎn)預(yù)測(cè)模型,并結(jié)合多元邏輯回歸(LR)模型得出心衰風(fēng)險(xiǎn)評(píng)分。該模型正確預(yù)測(cè)了84%心衰患者的意外入院情況[26]。有學(xué)者構(gòu)建了基于卷積神經(jīng)網(wǎng)絡(luò)和XGBoost的兩階段補(bǔ)丁的卷積神經(jīng)網(wǎng)絡(luò)模型,能夠預(yù)測(cè)腦瘤患者的整體生存時(shí)間。首先通過(guò)訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型提取的高度抽象的成像特征,然后通過(guò)XGBoost和后處理程序進(jìn)一步細(xì)化分割不同的腫瘤及其亞區(qū)域(非腫瘤和3個(gè)腫瘤區(qū)域),實(shí)現(xiàn)了在小樣本量情況下對(duì)腦瘤患者生存時(shí)間的準(zhǔn)確預(yù)測(cè)[27]。有研究采用LR、RF、SVM和XGBoost機(jī)器學(xué)習(xí)技術(shù),對(duì)帕金森病患者跌倒臨床結(jié)果進(jìn)行分類預(yù)測(cè)。研究表明,對(duì)比其他方法,SVM和XGBoost技術(shù)為帕金森病患者的跌倒提供了更可靠的臨床結(jié)果預(yù)測(cè),分類準(zhǔn)確度70%~80%[28]。此外,也有研究在機(jī)器學(xué)習(xí)框架基礎(chǔ)上,通過(guò)XGBoost、RF和梯度提升決策樹(shù)3種機(jī)器學(xué)習(xí)算法進(jìn)行變量選擇,并使用逐步Cox回歸得出一個(gè)改進(jìn)的評(píng)分系統(tǒng),來(lái)優(yōu)化現(xiàn)有的基于臨床數(shù)據(jù)的ICC分期策略。該研究表明基于機(jī)器學(xué)習(xí)的EHBH-ICC評(píng)分系統(tǒng)不但能有效地評(píng)價(jià)切除后的ICC預(yù)后,而且可以應(yīng)用于臨床實(shí)踐[29]。

2.3 合理安全用藥

2.3.1 藥物不良反應(yīng)預(yù)警 在藥物不良反應(yīng)預(yù)警方面,XGBoost不僅可以從真實(shí)世界數(shù)據(jù)中挖掘風(fēng)險(xiǎn)因素之間復(fù)雜且高度相關(guān)的關(guān)系,還可以提供充分的適用于臨床工作者的可解釋性數(shù)據(jù)結(jié)果。

有學(xué)者使用了XGBoost算法從電子病歷中挖掘數(shù)據(jù),找出重要特征變量,建立模型以預(yù)測(cè)鎮(zhèn)痛藥對(duì)骨關(guān)節(jié)炎患者的副作用[30]。在骨關(guān)節(jié)患者的藥物治療中,鎮(zhèn)痛藥的使用可能會(huì)使心血管疾病的風(fēng)險(xiǎn)增加20%~50%,而相關(guān)的用藥副作用的風(fēng)險(xiǎn)預(yù)測(cè)模型研究則較少。此外,大多數(shù)預(yù)測(cè)模型沒(méi)有提供適用于臨床用藥的可解釋性來(lái)解釋其預(yù)測(cè)背后的推理過(guò)程。而XGBoost建立的預(yù)測(cè)模型擁有優(yōu)秀的準(zhǔn)確性和可解釋性,能夠有效地幫助骨關(guān)節(jié)炎患者預(yù)防藥物副作用。在該研究中,XGBoost模型與SVM、LR、DT等經(jīng)典的監(jiān)督機(jī)器學(xué)習(xí)模型進(jìn)行了預(yù)測(cè)性能的比較。研究顯示:不論是在ROC曲線還是precision-recall曲線中,XGBoost都擁有最好的性能(AUC分別為0.92和0.89)。XGBoost預(yù)測(cè)模型的可解釋性主要取決于特征變量重要性的選擇。研究從超過(guò)300個(gè)危險(xiǎn)特征集中,利用XGBoost算法計(jì)算出所有特征的重要性排名,選取了前20個(gè)重要特征變量納入模型,以支持該預(yù)測(cè)模型在臨床應(yīng)用上的可解釋性。例如,危險(xiǎn)特征變量排名位居前列的有“做過(guò)腿部動(dòng)脈搭橋手術(shù)”,這意味著這些患者術(shù)后需使用大量鎮(zhèn)痛藥,極大增加了藥物副作用發(fā)生的可能性。

依那西普作為常用的腫瘤壞死因子抑制劑,長(zhǎng)期使用可能導(dǎo)致注射部位的感染和疼痛等不良反應(yīng)。有學(xué)者建立了依那西普在幼年特發(fā)性關(guān)節(jié)炎患者中的不良反應(yīng)預(yù)測(cè)模型[31]。研究采用5種機(jī)器學(xué)習(xí)算法進(jìn)行建模并比較預(yù)測(cè)性能,最終XGBoost生成的模型預(yù)測(cè)效果最好(敏感度75%、特異性66.67%、準(zhǔn)確性72.22%、AUC 79.17%)。臨床醫(yī)生和藥師可以使用這個(gè)簡(jiǎn)單而準(zhǔn)確的模型來(lái)早期預(yù)測(cè)幼年特發(fā)性關(guān)節(jié)炎患者對(duì)依那西普的反應(yīng),可以有效避免藥物不良反應(yīng)的發(fā)生。

有學(xué)者采集了2213名接受國(guó)藥、阿斯利康、輝瑞生物科技公司等疫苗接種的受試者信息,使用機(jī)器學(xué)習(xí)技術(shù)建立模型預(yù)測(cè)疫苗副作用的嚴(yán)重程度[32]。其中,基于疫苗類型、人口統(tǒng)計(jì)學(xué)和副作用相關(guān)數(shù)據(jù),XGBoost給出了很高的準(zhǔn)確性(0.79)和科恩Kappa值(0.70)。在這項(xiàng)研究中,XGBoost可根據(jù)輸入數(shù)據(jù)預(yù)測(cè)副作用的嚴(yán)重程度,從而提前預(yù)判出可能會(huì)發(fā)生嚴(yán)重不良反應(yīng)的受試者,給予該類人群特殊關(guān)注。

2.3.2 個(gè)體化用藥劑量預(yù)測(cè)與傳統(tǒng)PKPD模型相比,XGBoost在個(gè)體化用藥劑量預(yù)測(cè)方面表現(xiàn)出較好的性能,為藥物計(jì)算的發(fā)展提供了更多可能。

有學(xué)者開(kāi)發(fā)了一種基于XGBoost算法的機(jī)器學(xué)習(xí)模型,用來(lái)預(yù)測(cè)葉黃素酯、玉米黃質(zhì)、黑醋栗提取物、菊花和枸杞的藥物組合對(duì)眼疲勞患者的最佳劑量[33]。研究者從303名受試者中收集了504項(xiàng)特征,包括人口統(tǒng)計(jì)學(xué)、人體測(cè)量學(xué)、眼睛相關(guān)指標(biāo)、血液生物標(biāo)志物和飲食習(xí)慣等。XGBoost 算法使用基線的所有特征來(lái)預(yù)測(cè)干預(yù)后45 d的視覺(jué)健康評(píng)分,以顯示眼睛疲勞的改善,然后根據(jù)預(yù)測(cè)的視覺(jué)健康評(píng)分選擇組合的最佳劑量。經(jīng)過(guò)特征選擇和參數(shù)優(yōu)化后,Pearson相關(guān)系數(shù)分別為0.649、0.638和0.685。在去除了侵入性血液測(cè)試和昂貴的光學(xué)相干斷層掃描收集的特征后,模型仍然保持良好的性能。在測(cè)試和驗(yàn)證集中的58名受試者中,39名應(yīng)采取最高劑量作為最佳選擇,17名可能采取較低劑量,而2名不能從組合中受益。結(jié)果表明該模型可以成功預(yù)測(cè)組合的最佳劑量,為眼疲勞患者提供個(gè)性化的營(yíng)養(yǎng)解決方案。

有學(xué)者基于高維數(shù)據(jù)、建議變量工程和機(jī)器學(xué)習(xí)方法,開(kāi)發(fā)了一種模型,來(lái)預(yù)測(cè)萬(wàn)古霉素的最佳給藥劑量[34]。研究采用極端梯度上升算法對(duì)自變量和交互變量進(jìn)行了初步的檢查,然后基于導(dǎo)出的變量建立萬(wàn)古霉素劑量預(yù)測(cè)模型?;隍?yàn)證隊(duì)列中對(duì)模型性能的評(píng)估,該算法占萬(wàn)古霉素劑量變化的67.5%。亞組分析顯示,中、高體質(zhì)量(理想預(yù)測(cè)百分比分別為72.7%和73.7%)、血清肌酐中、低水平(理想預(yù)測(cè)百分比分別為77.8%和73.1%)的患者表現(xiàn)更好。

2.3.3 治療藥物濃度預(yù)測(cè)與傳統(tǒng)藥代動(dòng)力學(xué)模型相比,機(jī)器學(xué)習(xí)模型在模型擬合、預(yù)測(cè)精度上也體現(xiàn)了較好的效果。

有學(xué)者采用機(jī)器學(xué)習(xí)建立預(yù)測(cè)萬(wàn)古霉素谷濃度模型,研究納入407名兒科患者(年齡<18歲),整個(gè)數(shù)據(jù)集(n=407)按照8:2的比例分為訓(xùn)練組(n=325)和測(cè)試組(n=82)。萬(wàn)古霉素谷濃度被視為目標(biāo)變量,并使用8種不同的算法進(jìn)行預(yù)測(cè)性能比較。最終選擇了5種高R2(R2=0.657、0.514、0.468、0.425、0.450)的算法(XGBoost、GBRT、Bagging、Extra Tree、Decision Tree),并進(jìn)一步集成,建立最優(yōu)模型(R2=0.614、MAE=3.32、MSE=24.39、RMSE=4.94、預(yù)測(cè)精度=51.22%)。與傳統(tǒng)藥代動(dòng)力學(xué)模型(R2=0.3)相比,機(jī)器學(xué)習(xí)模型在模型擬合方面效果更好,預(yù)測(cè)精度更高[35]。

有學(xué)者基于XGBoost、logVd、人工神經(jīng)網(wǎng)絡(luò)建立了包含典型人體藥代動(dòng)力學(xué)參數(shù)的Rb預(yù)測(cè)模型[36],為289種化合物編制了實(shí)驗(yàn)Rb值,通過(guò)擴(kuò)展適用范圍提供可靠的預(yù)測(cè)。研究利用血漿藥物濃度計(jì)算出的人體藥代動(dòng)力學(xué)參數(shù)(包括分布容積、清除率、平均停留時(shí)間和血漿蛋白結(jié)合率),以及2702種分子描述符,構(gòu)建定量結(jié)構(gòu)-藥代動(dòng)力學(xué)關(guān)系的Rb模型。在評(píng)估的藥代動(dòng)力學(xué)參數(shù)中,log Vd與Rb 的相關(guān)性最好(相關(guān)系數(shù)為0.47)。使用6個(gè)分子描述符和logVd進(jìn)行優(yōu)化后,該模型的相關(guān)系數(shù)為0.64,均方根誤差為0.205,優(yōu)于先前報(bào)道的其他Rb 預(yù)測(cè)模型。

有研究基于肺炎克雷伯菌臨床分離株的全基因組序列數(shù)據(jù)搭建了XGBoost的機(jī)器學(xué)習(xí)模型,該模型可準(zhǔn)確預(yù)測(cè)20種抗生素的最低抑菌濃度(MIC)[37]。研究提供了一種在未知基因序列的情況下預(yù)測(cè)分離菌株MIC的方法,并為構(gòu)建其他致病細(xì)菌的MIC預(yù)測(cè)模型提供了框架。當(dāng)患者被診斷出患有感染時(shí),根據(jù)該模型的MIC預(yù)測(cè)可合理快速地選擇治療方案。有學(xué)者基于人口統(tǒng)計(jì)、社會(huì)因素、健康史等建立機(jī)器學(xué)習(xí)模型,評(píng)估大數(shù)據(jù)在預(yù)測(cè)OTP結(jié)果方面的潛力,模型收集分析樣本超過(guò)3萬(wàn)人次,通過(guò)比較LR、RF和XGBoost等方法,最終結(jié)果顯示XGBoost構(gòu)建的模型結(jié)果最佳,能較準(zhǔn)確識(shí)別阿片類藥物治療方案有效的患者[38]。還有學(xué)者在數(shù)據(jù)集NCI-ALMANAC 基礎(chǔ)上,利用RF 和XGBoost兩種機(jī)器學(xué)習(xí)技術(shù)建模,通過(guò)預(yù)測(cè)大型復(fù)合庫(kù)中所有可能組合中哪些是協(xié)調(diào)的工具,擴(kuò)大相應(yīng)搜索,以較高地準(zhǔn)確性預(yù)測(cè)未知藥物組合對(duì)癌癥治療的協(xié)同作用[39]。該研究納入了5000多對(duì)藥物組合、60個(gè)細(xì)胞系、4種模型、5種化學(xué)特征等進(jìn)行預(yù)測(cè)分析,研究顯示XGBoost模型比RF有更好的性能。

2.4 藥物研發(fā)

在藥物研發(fā)方面,有學(xué)者采用XGBoost算法構(gòu)建了一個(gè)集成用于定量結(jié)構(gòu)活動(dòng)關(guān)系模型各種工作流的計(jì)算機(jī)平臺(tái),快速篩選對(duì)人類ether-à-go-go相關(guān)基因(hERG)的藥物封鎖,用于藥物合成和開(kāi)發(fā)過(guò)程中藥物對(duì)心臟毒性預(yù)測(cè)的研究[40]。該預(yù)測(cè)模型可定性和定量預(yù)測(cè)hERG的IC50值,在評(píng)估hERG通道藥物阻斷的大型數(shù)據(jù)集時(shí),具有較高的靈敏度和預(yù)測(cè)能力。有學(xué)者運(yùn)用XGBoost對(duì)化合物生物活性進(jìn)行預(yù)測(cè),可用于新藥開(kāi)發(fā)中的藥物評(píng)估[41]?;诨衔锓肿咏Y(jié)構(gòu)的定量描述,XGBoost在預(yù)測(cè)生物活性方面優(yōu)于其他機(jī)器學(xué)習(xí)算法。除了可以在高度不平衡的數(shù)據(jù)集中檢測(cè)少數(shù)群體活動(dòng)的能力之外,它在高多樣性和低多樣性數(shù)據(jù)集中都表現(xiàn)出顯著的性能。有學(xué)者開(kāi)發(fā)了一種基于LINCSL1000擾動(dòng)信號(hào)的自編碼—極端梯度上升(算法SAEXGBoost)細(xì)胞活性預(yù)測(cè)模型。研究通過(guò)細(xì)胞活性與藥物基因組學(xué)之間的關(guān)聯(lián),結(jié)合隨機(jī)游走—極端梯度上升算法預(yù)測(cè)藥物誘導(dǎo)下的細(xì)胞活性,建立藥物敏感性預(yù)測(cè)模型。與其他方法相比,該模型取得了良好效果,有助于發(fā)現(xiàn)新型有效的抗癌藥物,為精準(zhǔn)醫(yī)療提供幫助[42]。

除此之外,有學(xué)者提出了一種命名為基本蛋白質(zhì)預(yù)測(cè)的基于XGboost的框架,用于識(shí)別基本蛋白質(zhì),在藥物設(shè)計(jì)研究和生物學(xué)中可發(fā)揮重要作用[43]。本框架基于XGBoost算法,其中包括一種名為替代擴(kuò)充縮小的模型融合方法,此法可獲得更有效的預(yù)測(cè)模型。與其他方法比較,該框架在預(yù)測(cè)必需蛋白質(zhì)的準(zhǔn)確性方面具有很大的優(yōu)勢(shì)。此外,有學(xué)者利用特征提取、特征選擇和機(jī)器學(xué)習(xí)算法開(kāi)發(fā)了蛋白質(zhì)線粒體定位預(yù)測(cè)模型,基于SubMito-XGBoost算法的三步法預(yù)測(cè)模型,在交叉驗(yàn)證數(shù)據(jù)集中預(yù)測(cè)ACC分別為97.65%和98.94%,又利用獨(dú)立數(shù)據(jù)集評(píng)價(jià)SubMito-XGBoost 模型的預(yù)測(cè)能力,ACC為94.83%,顯著高于其他算法,精準(zhǔn)預(yù)測(cè)蛋白質(zhì)線粒體定位,為探索人類疾病分子水平新藥的發(fā)病機(jī)制、診斷和開(kāi)發(fā)提供了理論基礎(chǔ)[44]。

2.5 其他臨床輔助決策支持

臨床輔助決策支持系統(tǒng)(CDSS)的開(kāi)發(fā)和使用在過(guò)去的幾年里取得了巨大的進(jìn)步。CDSS是一個(gè)基于人機(jī)交互的醫(yī)療信息技術(shù)應(yīng)用系統(tǒng),旨在為醫(yī)生和其他衛(wèi)生從業(yè)人員提供臨床決策支持,通過(guò)數(shù)據(jù)、模型等輔助完成臨床決策。CDSS能夠通過(guò)降低漏診率、誤診率以及規(guī)范化診療行為與過(guò)程達(dá)到提高醫(yī)療衛(wèi)生機(jī)構(gòu)醫(yī)療服務(wù)質(zhì)量的目的[45]。有學(xué)者介紹了構(gòu)建醫(yī)療預(yù)測(cè)的決策支持系統(tǒng)的基本內(nèi)容。其中包含臨床DSS 的重要流程、不同參數(shù)及其預(yù)測(cè)能力,比較了各種運(yùn)算方法應(yīng)用于DSS的適用性[46]。此外評(píng)估了GBM與XGBoost 算法分別及集成地應(yīng)用于臨床預(yù)測(cè)模型的性能,不同參數(shù)下的GBM+XGBoost集成模型能夠達(dá)到最高的精確度。

CDSS在臨床上也取得了廣泛的應(yīng)用。有學(xué)者提出了一種CDSS心臟病預(yù)測(cè)模型[47]。該模型利用2個(gè)公開(kāi)可用的數(shù)據(jù)集(Statlog和Cleveland)建立模型,由基于密度的噪聲應(yīng)用空間聚類來(lái)檢測(cè)和消除離群點(diǎn),混合合成少數(shù)過(guò)采樣技術(shù)-近鄰來(lái)平衡訓(xùn)練數(shù)據(jù)分布和基于XGBoost模型的機(jī)器算法來(lái)預(yù)測(cè)心臟病,并與其他模型以及先前的研究結(jié)果進(jìn)行比較。結(jié)果表明,該模型數(shù)據(jù)集上為95.90%,準(zhǔn)確率優(yōu)于其他模型。

此外,有學(xué)者首次在EMR 的基礎(chǔ)上,采用基于XGBoost的機(jī)器學(xué)習(xí)方法建立了幼年特發(fā)性關(guān)節(jié)炎患者對(duì)甲氨蝶呤用藥反應(yīng)的2個(gè)早期預(yù)測(cè)模型。研究納入了治療的362例幼年特發(fā)性關(guān)節(jié)炎患者的甲氨蝶呤單治療資料。采用DAS44/ESR-3簡(jiǎn)化標(biāo)準(zhǔn)對(duì)甲氨蝶呤響應(yīng)進(jìn)行了評(píng)價(jià)。通過(guò)比較各種運(yùn)算方法應(yīng)用于DSS的適用性,證實(shí)了XGBoost可有效地避免過(guò)擬合,預(yù)測(cè)甲氨蝶呤的療效優(yōu)于其他模型,醫(yī)生在治療前后制定或調(diào)整治療方案提供了有力的決策支持[48]。

膿毒癥是住院死亡的一個(gè)重要原因,特別是ICU患者。對(duì)于早期預(yù)測(cè)敗血癥,及時(shí)和適當(dāng)?shù)闹委熆梢蕴岣呱娼Y(jié)果。有研究利用XGboost開(kāi)發(fā)一種機(jī)器學(xué)習(xí)方法來(lái)預(yù)測(cè)MIMIC-III膿毒癥-3患者的30 d死亡率,研究共納入膿毒癥-3患者4559例,其中死亡889例,30 d內(nèi)存活3670例。通過(guò)對(duì)接收機(jī)工作特性曲線和決策曲線分析的AUCs對(duì)logistic回歸模型、SAPS-II評(píng)分預(yù)測(cè)模型和XGBoost 算法模型的性能進(jìn)行測(cè)試和比較。最后,利用列線圖和臨床影響曲線對(duì)模型進(jìn)行了驗(yàn)證。3種模型的AUCs和決策曲線分析結(jié)果顯示XGboost模型表現(xiàn)最好[49]。風(fēng)險(xiǎn)列線圖和臨床影響曲線驗(yàn)證了XGboost模型具有顯著的預(yù)測(cè)價(jià)值,可以幫助臨床醫(yī)生對(duì)膿毒癥3患者進(jìn)行量身定做的精確管理和治療。

3 結(jié)語(yǔ)

本文介紹了XGBoost算法在醫(yī)藥領(lǐng)域中的應(yīng)用,在所述研究方向中,XGBoost算法展現(xiàn)了較強(qiáng)的性能:可為缺失值或者指定值指定分支的默認(rèn)方向,大大提升算法的效率;在處理大型數(shù)據(jù)集時(shí),XGBoost算法能夠模擬非線性效應(yīng),具有較高的效率和準(zhǔn)確性。但是XGBoost算法也存在一定的限制因素,例如XGBoost算法更適合處理中低維、結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)樣本量較大時(shí),比較耗時(shí)。

XGBoost算法相較某些機(jī)器學(xué)習(xí)算法調(diào)參簡(jiǎn)單,但想要獲取更好的結(jié)果,還需要提升藥學(xué)與算法、信息化等多學(xué)科的結(jié)合能力。這對(duì)醫(yī)務(wù)人員來(lái)說(shuō),無(wú)疑是一個(gè)很大挑戰(zhàn),希望本文能夠給醫(yī)藥領(lǐng)域的研究人員帶來(lái)更多的獲益與思考。

猜你喜歡
機(jī)器預(yù)測(cè)藥物
無(wú)可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
機(jī)器狗
選修2-2期中考試預(yù)測(cè)卷(B卷)
選修2-2期中考試預(yù)測(cè)卷(A卷)
機(jī)器狗
如何選擇降壓藥物?
中老年保健(2021年9期)2021-08-24 03:50:50
不是所有藥物都能掰開(kāi)吃——呼吸系統(tǒng)篇
未來(lái)機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
無(wú)敵機(jī)器蛛
大余县| 奉新县| 综艺| 巴楚县| 南江县| 临江市| 井陉县| 名山县| 乐清市| 河池市| 绥中县| 台江县| 泽库县| 准格尔旗| 罗定市| 白河县| 左云县| 临江市| 宁城县| 龙江县| 荥阳市| 封丘县| 山西省| 思南县| 修水县| 长兴县| 手游| 扎囊县| 富源县| 武隆县| 饶平县| 彭泽县| 萨嘎县| 新建县| 中宁县| 滦南县| 灵丘县| 葫芦岛市| 大渡口区| 宜川县| 辛集市|