吉史伍呷 方進博
基金項目 成都市科技局技術研發(fā)項目,編號:2022?YF05?01516?SN
摘要? 總結了機器學習算法分類,以及機器學習在心力衰竭病人生存(死亡)、心力衰竭再入院、心臟事件預測中的應用現(xiàn)狀,篩選出最能準確評估心力衰竭病人預后的機器學習算法,為臨床早期評估心力衰竭病人的預后提供新的依據(jù)。
關鍵詞? 心力衰竭;機器學習;預后;風險因素;綜述
doi:10.12102/j.issn.1009-6493.2023.07.013
心力衰竭具有高患病率、高住院率、高死亡率的特點,據(jù)統(tǒng)計,全球心力衰竭病人超過3 770萬例[1],我國心力衰竭病人約有890萬例[2],并且50%的病人將會在5年內(nèi)死亡[3],已經(jīng)是嚴重的社會公共問題之一。評估心力衰竭病人的預后、早期發(fā)現(xiàn)病人的潛在風險因素、早期給予干預是目前臨床醫(yī)療和護理研究的重點和熱點。心力衰竭的預后評估內(nèi)容主要包括確診后生存預測、再入院風險、死亡風險、心臟不良事件的發(fā)生發(fā)展預測等。既往評估心力衰竭病人預后的方法有B型鈉尿肽(BNP)預測、邏輯回歸、受試者工作特征曲線下面積(AUC)、C?Index、心力衰竭風險評分(MAGGIC?HF)、心力衰竭院內(nèi)死亡風險評分(GWTG)等。機器學習作為一種高效的學習算法,在評估或預測心力衰竭病人的預后中被廣泛使用,并且多項研究已表明,在心力衰竭的預后評估中機器學習算法比傳統(tǒng)的方法準確度和靈敏度更高,值得推廣應用[4?6]。因此,本研究就機器學習算法在心力衰竭病人預后中的應用進行綜述,試圖篩選出最能準確評估心力衰竭病人預后的機器學習算法,為臨床早期評估心力衰竭病人的預后、確定個性化治療方案和護理方式提供新的依據(jù)。
1? 機器學習算法
機器學習是一門研究計算機如何從數(shù)據(jù)中學習的學科,是統(tǒng)計學和計算機科學的交叉學科,統(tǒng)計學試圖從數(shù)據(jù)中學習關系,而計算機科學則強調(diào)高效的計算算法[7]。相對于傳統(tǒng)的統(tǒng)計學分析方法,機器學習方法對數(shù)據(jù)分布無線性要求,能夠自動發(fā)現(xiàn)并利用相關因素之間的交互效應及非線性關系[8]。機器學習算法主要分為監(jiān)督學習和無監(jiān)督學習,監(jiān)督學習主要側重于分類和回歸,常用來評估預測疾病的風險及預后,算法主要包括K?近鄰算法(K?nearest neighbor,KNN)、線性回歸(linear regression)、邏輯回歸(Logistics regression,LR)、決策樹(decision tree,DT)、支持向量機(support vector machines,SVM)、梯度提升機(gradient boosting machine,GBM)、隨機森林(random forests,RF)和神經(jīng)網(wǎng)絡(neural network)等;而無監(jiān)督學習側重于挖掘數(shù)據(jù)之間的關系,重在聚類和降維,可協(xié)助監(jiān)督學習建立疾病預測風險模型,典型算法包括K均值聚類(K?means clustering)、主成分分析、分層聚類算法、最大期望算法(expectation maximization algorithm)等。在心力衰竭的預后評估方面,大多使用監(jiān)督學習的算法,常用的算法包括邏輯回歸、決策樹、支持向量機、隨機森林、梯度提升機、人工神經(jīng)網(wǎng)絡、K?近鄰算法等。
1.1 決策樹 決策樹以最大限度分離數(shù)據(jù)集的原則對數(shù)據(jù)進行反復分割,形成樹形結構。決策樹內(nèi)部的樹枝樣的連接代表對象屬性和對象值之間的關系,主要缺點是其構造過程,在每一步中選擇單個最佳變量和最佳分割點的組合,但考慮變量組合的多步前瞻可能會獲得不同或者更好的結果;另一個缺點在于連續(xù)變量被分裂過程隱式離散化,沿途丟失信息,容易過擬合[9]。與其他算法相比,決策樹不是“黑匣子”模型,可以很容易地被表達為規(guī)則[9],優(yōu)勢大于其缺點,因此在醫(yī)學領域被廣泛應用,亦有研究將其運用在心力衰竭的預后評估中[5,10]。
1.2 支持向量機 支持向量機是非概率監(jiān)督學習程序,它創(chuàng)建一個多維超平面,將協(xié)變量空間劃分為兩組,以便進行分類[11]。其優(yōu)點是可用于線性或非線性分類,也可以用于回歸;低泛化誤差;結果容易解釋;計算復雜度較低。缺點是對參數(shù)和核函數(shù)的選擇比較敏感,原始的支持向量機比較擅長處理二分類問題。支持向量機廣泛用于模式識別和疾病預測模型的建立,且可直接使用結構化數(shù)據(jù)[12]。多項研究應用支持向量機算法預測了心力衰竭病人的預后[3,6]。
1.3 隨機森林 隨機森林是基于決策樹的分類模型算法,旨在減小決策樹過擬合現(xiàn)象。它將Bootstrap重抽樣方法和決策樹算法相結合,對每個Bootsrap樣本進行決策樹建模,然后組合多棵決策樹的預測,通過投票得出最終預測結果[13?14]。其優(yōu)點是有很好的預測準確率以及對異常值和噪聲具有很好的包容性,并且能同時處理連續(xù)型變量和分類變量[14],被認為是較好的分類算法之一[7]。在醫(yī)學領域常常用來挖掘大數(shù)據(jù)和預測疾病風險。多項研究將隨機森林與其他算法結合建立了心力衰竭病人預后風險預測模型[4,15]。
1.4 梯度提升機 梯度提升機是一種基于多種決策樹模型的典型的機器學習算法,它依賴于直覺,即當以階段順序與之前的弱模型(如決策樹)相結合時,能夠最小化性能評估器的總體預測誤差,例如精度以及AUC[16]。梯度提升機的優(yōu)點主要為低泛化誤差,容易實現(xiàn),分類準確率較高,沒有太多參數(shù)可以調(diào)。與隨機森林相比,梯度提升機更加關注在已訓練的決策樹上預測結果不好的數(shù)據(jù)點,不斷提升模型的短板,其效果通常會比隨機森林更好[8]。在心血管領域,梯度提升機通常與其他算法結合運用,并且多項研究結果表明,梯度提升機的預測準確度比其他機器學習算法高[17?20]。
1.5 K?近鄰算法 K?近鄰算法具有較強的一致性結果。隨著數(shù)據(jù)趨于無限,算法可保證錯誤率不會超過貝葉斯算法錯誤率的兩倍。其優(yōu)點為思想簡單,理論成熟,既可以用來做分類也可以用來做回歸;可用于非線性分類;準確度高,對數(shù)據(jù)沒有假設。缺點為計算量大;樣本不平衡問題,即有些類別的樣本數(shù)量很多,而其他樣本的數(shù)量很少;需要大量的內(nèi)存。K?近鄰算法相對于其他算法的優(yōu)勢在于近鄰可以對分類結果提供解釋,這種基于案例的解釋可以在黑盒模型不充分的領域提供優(yōu)勢[9],在心血管領域被廣泛應用[21]。
1.6 邏輯回歸 邏輯回歸是目前常用來建立心力衰竭病人預后風險預測模型的算法,是最常用的標準傳統(tǒng)方法。邏輯回歸是用來分類的,是一種線性分類器。其優(yōu)勢在于實現(xiàn)簡單;分類時計算量非常小,速度很快,存儲資源低。缺點為容易欠擬合,一般準確度不太高;只能處理兩分類問題,且必須線性可分。由于計算速度快,邏輯回歸通常結合其他算法應用于疾病預測研究中[22?24],在心血管領域中的運用已較成熟。
1.7 人工神經(jīng)網(wǎng)絡 人工神經(jīng)網(wǎng)絡通過模擬生物神經(jīng)網(wǎng)絡 (大腦)的結構和功能,由大量的節(jié)點和之間相互連接構成,通常用于解決分類和回歸問題,也可以用來對數(shù)據(jù)之間的復雜關系進行建模。其優(yōu)點為非線性分類、自我學習能力強。缺點是“黑匣子”模型,即訓練有素的人工神經(jīng)網(wǎng)絡是不容易被破譯的,容易出現(xiàn)過擬合;計算量大,耗時耗力。盡管如此,人工神經(jīng)網(wǎng)絡由于其強大的分類功能,在心血管研究領域很受歡迎,常用于建立疾病風險預測模型[23,25]。
2? 機器學習在心力衰竭預后評估中的應用
與傳統(tǒng)工具相比,機器學習算法在預測心力衰竭病人的死亡率、住院以及再次入院等方面具有更好的準確性,因此,運用機器學習算法對心力衰竭病人進行預后評估,能夠早期發(fā)現(xiàn)病人風險因素,早期給予干預,從而達到降低病人不良預后發(fā)生率及提升生活質(zhì)量的目的,也可為心力衰竭出院后延續(xù)性護理提供干預依據(jù)。在心力衰竭的預后評估中,常用的機器學習算法主要為監(jiān)督學習,并且由于各個算法各有優(yōu)缺點,相互補充,因此多結合運用于病人的預后評估中。近年來機器學習算法在心力衰竭預后評估中的應用研究見表1。
2.1 機器學習在心力衰竭病人生存(死亡)預測中的應用 機器學習算法在心力衰竭病人死亡或生存預測方面有較強的能力,其建立的死亡風險預測模型比傳統(tǒng)方式較為精準,可以輔助醫(yī)護人員確定病人的個性化治療方式和個性化護理方式。目前,利用機器學習算法建立的病人死亡風險預測模型是較為準確的風險預測模型。Kim等[31]利用Lasso分組算法建立了東亞地區(qū)心力衰竭死亡風險預測模型,結果顯示,對3 683例心力衰竭病人隨訪3年后,死亡率為32.8%,并且證明了利用機器學習風險評分預測1年死亡率的AUC高于MAGGIC?HF評分(P<0.01),即前者預測準確度更高。K?nig等[17]利用4種機器學習算法,包括邏輯回歸、隨機森林、梯度提升機、單層神經(jīng)網(wǎng)絡,分別建立了心力衰竭住院病人的死亡預測模型,且通過計算AUC評價模型的性能,結果顯示,病人住院期間死亡率為6.2%,病人死亡風險因素主要有高齡(≥65歲)、肥胖、住院天數(shù)≥5 d、入住ICU、心功能分級≥Ⅲ級、合并慢性腎病、瓣膜病、高血壓、甲狀腺功能減退癥及伴有水電解質(zhì)紊亂、心律失常和體重降低;邏輯回歸的AUC為0.829,隨機森林的AUC為0.875,梯度提升機的AUC為0.882,單層神經(jīng)網(wǎng)絡的AUC為0.866,表明運用梯度提升機算法建立的死亡預測模型預測準確度最好。此外,K?nig等[18]另一篇關于利用機器學習預測新型冠狀病毒感染疫情期間心力衰竭病人住院期間死亡的研究結果顯示,機器學習算法建立的模型能夠準確預測病人的死亡,并且疫情期間心力衰竭病人的死亡率沒有上升。Tohyama等[32]研究也利用機器學習建立了預測精度較高的急性心力衰竭病人死亡風險預測模型,結果顯示,急性心力衰竭病人1年后死亡率為17%,并且確定了急性心力衰竭病人死亡相關預測因子,如體質(zhì)指數(shù)(BMI)、合并腎臟疾病等。以上多項研究表明,機器學習算法建立的心力衰竭死亡風險預測模型預測準確度比傳統(tǒng)的方式更高,在今后的臨床護理研究中,研究者可借助機器學習運用于心力衰竭的其他領域,以促進心力衰竭病人的精準護理,改善病人的長期預后。
2.2 機器學習在心力衰竭病人再入院預測中的應用 在提倡延續(xù)性護理、支持疾病全周期照護、改善慢性疾病長期預后和生活質(zhì)量的號召下,早期識別出院后心力衰竭病人再入院的風險,早期給予干預,對改善心力衰竭病人長期預后和生活質(zhì)量意義重大。多項研究運用多種機器學習算法挖掘出病人再入院的風險因素,并且建立了預測準確度更高的風險預測模型。Golas等[24]研究利用邏輯回歸、梯度提升機等多種機器學習算法建立了心力衰竭病人出院30 d后再入院的風險預測模型,研究結果表明,模型預測準確度為76.4%,30 d再入院率為23.3%,再入院強相關因素主要為受教育程度、就業(yè)狀況、合并癥數(shù)量,高中以下學歷、失業(yè)狀態(tài)、殘疾率高、伴有≥3種合并癥的病人是再入院的高風險因素。此外,Pishgar等[33]研究也運用神經(jīng)網(wǎng)絡模型預測了ICU心力衰竭病人30 d非計劃再入院率,建立的預測模型準確度為0.841,敏感度為0.805,比其他方式建立的模型準確度和靈敏度均高。因此,在心力衰竭隨訪時,護理人員可利用機器學習算法建立的病人再入院風險預測模型評估病人的高危因素,重點評估病人的再入院高危因素并進行干預,從而降低病人的再入院率。
2.3 機器學習在心力衰竭病人心臟事件預測中的應用 心臟事件是指在超聲心動圖檢查之日起3年內(nèi)猝死、心力衰竭死亡或因心力衰竭惡化住院治療。心力衰竭病人一旦發(fā)生心臟事件將嚴重影響病人的長期預后,嚴重者可導致死亡。因此,對心力衰竭病人心臟事件風險進行有效預測并采取有效的治療措施進行早期干預具有重要的臨床價值,而運用機器學習建立的預測模型能夠準確預測病人心臟事件風險,如Harada等[34]研究結合機器學習建立了心力衰竭病人3年發(fā)生心臟事件風險預測模型,結果表明,機器學習建立的預測模型準確度及靈敏度均比用BNP預測病人心臟事件高,并且發(fā)現(xiàn)心臟事件風險因素主要包括年齡、心功能分級、BNP、射血分數(shù)等13個因素。雖然BNP常用于評估心力衰竭病人的預后,但機器學習建立的預測模型更為準確且靈敏,因此臨床護理中評估心力衰竭病人的心臟事件時,除了關注病人的BNP值,更需要綜合評估病人,早期發(fā)現(xiàn)病人發(fā)生心臟事件的風險因素并進行早期干預。
3? 小結
研究者在評估和預測心力衰竭病人預后研究中多運用監(jiān)督學習的機器學習算法,并且常結合多種算法共同建立心力衰竭預后風險預測模型,其中梯度提升機建立的預測準確度比其他常用的算法較好,可能是因為梯度提升機更加關注在已訓練的決策樹上預測結果不好的數(shù)據(jù)點,不斷提升模型的短板。然而,也有研究表明多層感知機預測心力衰竭病人出院后30 d再入院或死亡風險比其他機器學習算法好[22],但該研究中未應用梯度提升機;此外,有研究表明在心力衰竭病人住院風險的預測中廣義線性模型網(wǎng)絡(GLMN)的預測準確度比其他的機器學習算法高[6]。因此,研究者在將機器學習算法運用于心力衰竭病人的預后評估時,可根據(jù)研究內(nèi)容選擇最適合的算法,但何種機器學習算法在評估預測心力衰竭病人預后中預測準確度和靈敏度更高,目前研究未得到統(tǒng)一結論,需要進一步研究證明。
參考文獻:
[1]? ZIAEIAN B,F(xiàn)ONAROW G C.Epidemiology and aetiology of heart failure[J].Nature Reviews Cardiology,2016,13(6):368-378.
[2]? 中國心血管健康與疾病報告編寫組.中國心血管健康與疾病報告2020概要[J].中國循環(huán)雜志,2021,36(6):521-545.
[3]? GUO A X,PASQUE M,LOH F,et al.Heart failure diagnosis,readmission,and mortality prediction using machine learning and artificial intelligence models[J].Current Epidemiology Reports,2020,7(4):212-219.
[4]? BAZOUKIS G,STAVRAKIS S,ZHOU J D,et al.Machine learning versus conventional clinical methods in Guiding management of heart failure patients--a systematic review[J].Heart Failure Reviews,2021,26(1):23-34.
[5]? SHIN S,AUSTIN P C,ROSS H J,et al.Machine learning vs.conventional statistical models for predicting heart failure readmission and mortality[J].ESC Heart Failure,2021,8(1):106-115.
[6]? LORENZONI G,SABATO S S,LANERA C,et al.Comparison of machine learning techniques for prediction of hospitalization in heart failure patients[J].Journal of Clinical Medicine,2019,8(9):1298.
[7]? DEO R C.Machine learning in medicine[J].Circulation,2015,132(20):1920-1930.
[8]? 韋仁杰,楊明鈺,崔斌,等.機器學習算法在肺癌研究中的應用進展[J].中華檢驗醫(yī)學雜志,2021,43(5):430-436.
[9]? DREISEITL S,OHNO-MACHADO L.Logistic regression and artificial neural network classification models:a methodology review[J].Journal of Biomedical Informatics,2002,35(5/6):352-359.
[10]? CHICCO D,JURMAN G.Machine learning can predict survival of patients with heart failure from serum creatinine and ejection fraction alone[J].BMC Medical Informatics and Decision Making,2020,20(1):16.
[11]? REYNOLDS E,CALLAGHAN B,BANERJEE M.SVM-CART for disease classification[J].Journal of Applied Statistics,2019,46(16):2987-3007.
[12]? LIN H J,WANG X L,TIAN M Y,et al.Machine learning and its epidemiological applications[J].Chinese Journal of Epidemiology,2021,42(9):1689-1694.
[13]? 曹正鳳.隨機森林算法優(yōu)化研究[D].北京:首都經(jīng)濟貿(mào)易大學,2014.
[14]? 方匡南,吳見彬,朱建平,等.隨機森林方法研究綜述[J].統(tǒng)計與信息論壇,2011,26(3):32-38.
[15]? PARIS S,INCIARDI R M,SPECCHIA C,et al.Machine learning for prediction of in-hospital mortality in COVID-19 patients:results from an Italian multicentre study[J].European Heart Journal,2021,23(Suppl):suab135.035.
[16]? JU C S,ZHOU J D,LEE S R,et al.Derivation of an electronic frailty index for predicting short-term mortality in heart failure:a machine learning approach[J].ESC Heart Failure,2021,8(4):2837-2845.
[17]? K?NIG S,PELLISSIER V,HOHENSTEIN S,et al.Machine ?learning algorithms for claims data-based prediction of in-hospital mortality in patients with heart failure[J].ESC Heart Failure,2021,8(4):3026-3036.
[18]? K?NIG S,PELLISSIER V,LEINER J,et al.Expected and observed in-hospital mortality in heart failure patients before and during the COVID-19 pandemic:introduction of the machine learning-based standardized mortality ratio at Helios hospitals[J].Clinical Cardiology,2022,45(1):75-82.
[19]? AGIBETOV A,SEIRER B,DACHS T M,et al.Machine learning enables prediction of cardiac amyloidosis by routine laboratory parameters:a proof-of-concept study[J].Journal of Clinical Medicine,2020,9(5):1334.
[20]? BAASHAR Y,ALKAWSI G,ALHUSSIAN H,et al.Effectiveness of artificial intelligence models for cardiovascular disease prediction:network Meta-analysis[J].Computational Intelligence and Neuroscience,2022,2022:5849995.
[21]? CHEN S L,BANERJEE A.Machine learning:a long way from implementation in cardiovascular disease[J].Heart,2020,106(5):318-320.
[22]? AWAN S E,BENNAMOUN M,SOHEL F,et al.Machine learning-based prediction of heart failure readmission or death:implications of choosing the right model and the right metrics[J].ESC Heart Failure,2019,6(2):428-435.
[23]? CHERUKUPALLI R,ACHANTA A,CHERUKUPALLI A,et al.Machine learning based diagnosis of heart failure with preserved ejection fraction among South Asian patients[J].European Heart Journal,2022,43(Suppl 1):ehab849.061.
[24]? GOLAS S B,SHIBAHARA T,AGBOOLA S,et al.A machine learning model to predict the risk of 30-day readmissions in patients with heart failure:a retrospective analysis of electronic medical records data[J].BMC Medical Informatics and Decision Making,2018,18(1):44.
[25]? CHEN R,STEWART W F,SUN J M,et al.Recurrent neural networks for early detection of heart failure from longitudinal electronic health record data:implications for temporal modeling with respect to time before diagnosis,data density,data quantity,and data type[J].Circulation Cardiovascular Quality and Outcomes,2019,12(10):e005114.
[26]? AGASTHI P,BURAS M R,SMITH S D,et al.Machine learning helps predict long-term mortality and graft failure in patients undergoing heart transplant[J].General Thoracic and Cardiovascular Surgery,2020,68(12):1369-1376.
[27]? AWAN S E,BENNAMOUN M,SOHEL F,et al.Feature selection and transformation by machine learning reduce variable numbers and improve prediction for heart failure readmission or death[J].PLoS One,2019,14(6):e0218760.
[28]? KAMPAKTSIS P N,MOUSTAKIDIS S,TZANI A,et al.State-of-the-art machine learning improves predictive accuracy of 1-year survival after heart transplantation[J].ESC Heart Failure,2021,8(4):3433-3436.
[29]? LI F H,XIN H,ZHANG J D,et al.Prediction model of in-hospital mortality in intensive care unit patients with heart failure:machine learning-based,retrospective analysis of the MIMIC-Ⅲ database[J].BMJ Open,2021,11(7):e044779.
[30]? LUO C D,ZHU Y,ZHU Z,et al.A machine learning-based risk stratification tool for in-hospital mortality of intensive care unit patients with heart failure[J].Journal of Translational Medicine,2022,20(1):136.
[31]? KIM W,PARK J J,LEE H Y,et al.Predicting survival in heart failure:a risk score based on machine-learning and change point algorithm[J].Clinical Research in Cardiology,2021,110(8):1321-1333.
[32]? TOHYAMA T,IDE T,IKEDA M,et al.Machine learning-based model for predicting 1 year mortality of hospitalized patients with heart failure[J].ESC Heart Failure,2021,8(5):4077-4085.
[33]? PISHGAR M,THEIS J,DEL RIOS M,et al.Prediction of unplanned 30-day readmission for ICU patients with heart failure[J].BMC Medical Informatics and Decision Making,2022,22(1):117.
[34]? HARADA D,ASANOI H,NOTO T,et al.Naive Bayes prediction of the development of cardiac events in heart failure with preserved ejection fraction in an outpatient clinic--beyond B-type natriuretic peptide[J].Circulation Journal,2021,86(1):37-46.
(收稿日期:2022-05-26;修回日期:2023-03-18)
(本文編輯 蘇琳)