上官藝,王孟,王春娟,谷鴻秋,趙性泉,,3,王伊龍,,王擁軍,,3,李子孝,,3,4
卒中是我國居民最主要的致死和致殘性疾病之一[1]。缺血性卒中是卒中最常見的亞型,15%~30%的患者會遺留不同程度的神經(jīng)功能殘疾[2-3]。建立預測功能預后的風險模型能夠幫助臨床醫(yī)師預測和篩選出卒中后神經(jīng)功能預后不良高風險的患者,制訂更有針對性的治療方案?,F(xiàn)有預測模型如休斯敦動脈內(nèi)血管再通治療評分[4]、匹茲堡血管內(nèi)治療反應評分[5],以及其他結(jié)合實驗室檢查及影像學的評分等[6-8],已逐步應用于臨床實踐。
機器學習可以對多維醫(yī)學數(shù)據(jù)進行深度挖掘和分析,目前在醫(yī)學診斷、預測預后等方面已經(jīng)有了廣泛的應用[9-10],但采用機器學習對于缺血性卒中患者的功能預后進行預測建模的研究尚少見,本研究采用logistic回歸和基于機器學習的CatBoost、XGBoost、LightGBM三種算法,建立缺血性卒中患者3個月神經(jīng)功能預后預測模型,并評價和比較模型的預測價值。
1.1 研究對象 本研究基于中國國家卒中登記Ⅱ(China National Stoke Registry Ⅱ,CNSRⅡ)研究數(shù)據(jù)庫,以2012年5月-2013年1月登記發(fā)病7 d內(nèi)的急性缺血性卒中住院患者為研究對象。CNSRⅡ數(shù)據(jù)庫覆蓋我國219家醫(yī)院。
納入標準:①年齡>18歲;②根據(jù)世界衛(wèi)生組織診斷標準診斷為缺血性卒中,且經(jīng)頭顱CT或MRI確診[11];③發(fā)病在7 d內(nèi);④住院治療;⑤患者或法定代表人同意參與研究并簽署知情同意。排除標準:①臨床信息不完整;②發(fā)病3個月內(nèi)死亡。
1.2 變量采集及標準
1.2.1 預測變量 使用病例報告表收集患者的人口學信息(年齡、性別)、吸煙、飲酒、受教育程度(小學及以下、初中、高中)、既往病史(高血壓、糖尿病、脂代謝紊亂、腦血管病、周圍動脈病、心肌梗死、頸動脈狹窄、心力衰竭、心房顫動)、合并肺炎、入院時NIHSS評分、發(fā)病前mRS評分、入院時實驗室檢查結(jié)果(LDL-C、空腹血糖、血清肌酐、白細胞計數(shù))。數(shù)據(jù)的完整性、準確性由獨立的數(shù)據(jù)監(jiān)察員進行審核。
1.2.2 結(jié)局變量 采用中心化電話隨訪的方法,使用mRS評估發(fā)病3個月時患者的功能預后,隨訪由經(jīng)過統(tǒng)一培訓的中心化隨訪員進行。將患者按照預后良好(mRS 0~2分)和預后不良(mRS>2分)分為兩組。
1.3 預測模型建立方法 將納入的研究對象按8∶2隨機分為訓練集和測試集,利用訓練集數(shù)據(jù)建立預測模型。傳統(tǒng)預測模型采用非條件logistic回歸的方法,將單因素logistic回歸中P<0.1的預測因素納入多因素分析,使用逐步回歸法建立預測模型。機器學習采用Boruta算法篩選特征,流程如下:①對特征矩陣的各個特征取值進行隨機打亂,將隨機打亂后的特征與原特征拼接構(gòu)成新的特征矩陣;②使用新特征矩陣作為輸入,訓練可以輸出特征重要性的模型;③計算新特征與原特征的Z值;④在新特征中找出最大Z值記為Zmax;⑤Z值大于Zmax的原特征標記為重要,小于Zmax的原特征標記為不重要,并從特征集合中永久剔除小于Zmax的原特征;⑥刪除所有打亂后的特征;⑦重復上述過程,直到所有特征都被標記為重要或者不重要[12]。使用Boruta算法選出的變量,采用CatBoost、XGBoost、LightGBM三種機器學習的方法分別建立預測模型。在測試集內(nèi)對各個預測模型的預測性能進行內(nèi)部驗證。
2.1 基線信息 本研究共納入19 604例急性缺血性卒中患者,排除mRS缺失2251例,血液指標缺失2468例,共14 885例納入研究,平均年齡64.34±11.71歲,其中男性占63.96%(9521/14 885)。將患者隨機分為訓練集11 908例和測試集2977例,兩組功能預后不良率分別為17.36%(2067/11 908)和17.06%(508/2977),差異無統(tǒng)計學意義(χ2=0.1438,P=0.7045)。
訓練集中預后不良組的既往高血壓、糖尿病、腦血管病、心力衰竭、心房顫動病史及合并肺炎的比例,年齡、入院時NIHSS、發(fā)病前mRS>2分的比例均高于預后良好組,入院檢查中的LDL-C、空腹血糖、白細胞計數(shù)水平高于預后良好組,男性、吸煙史、飲酒史的比例低于預后良好組,差異有統(tǒng)計學意義。另外,兩組受教育程度分布差異也有統(tǒng)計學意義(表1)。
表1 訓練集中發(fā)病3個月功能預后良好和預后不良患者的基線特征
2.2 logistic回歸分析結(jié)果 多因素logistic回歸結(jié)果顯示,年齡、男性、糖尿病病史、腦血管病史、合并肺炎、入院時NIHSS評分、發(fā)病前mRS、LDL-C、空腹血糖和白細胞計數(shù)可作為預測模型的預測因子(表2)。
表2 單因素與多因素logistic回歸分析結(jié)果
2.3 logistic回歸和機器學習預測模型的比較Boruta算法選出的3個月預后不良的預測變量包括年齡、性別、受教育程度、腦血管病史、是否合并肺炎、入院NIHSS評分、腦血管病史、LDL-C、空腹血糖、血清肌酐、白細胞計數(shù)。在測試集中,CatBoost模型的靈敏度最高,XGBoost的特異度最高;logistic回歸、CatBoost、XGBoost、LightGBM預測模型預測缺血性卒中功能預后的AUC分別為0.815(0.801~0.829)、0.828(0.814~0.841)、0.826(0.812~0.839)和0.822(0.808~0.836)。CatBoost(P=0.0023)和XGBoost(P=0.0182)建立的預測模型預測效果優(yōu)于傳統(tǒng)logistic回歸模型。具體靈敏度、特異度和AUC數(shù)據(jù)見圖1、表3。
表3 logistic回歸、CatBoost、XGBoost、LightGBM四種模型預測性能比較
圖1 logistic回歸、CatBoost、XGBoost、LightGBM四種模型預測性能比較
本研究基于機器學習的方法建立了急性缺血性卒中患者3個月神經(jīng)功能預后的預測模型,并與傳統(tǒng)logistic回歸建立的預測模型進行比較。結(jié)果提示,CatBoost和XGBoost建立的預測模型對缺血性卒中患者功能預后的預測效果優(yōu)于傳統(tǒng)logistic回歸模型。
常用的缺血性卒中預后預測模型包括Counsell等[13]建立的模型及Ntaios等[14]建立的洛桑急性卒中登記分析(acute stroke registry and analysis of Lausanne,ASTRAL)評分等。Counsell等采用多因素logistic回歸的方法,篩選出了包括年齡、獨居、發(fā)病前日常生活不需要幫助、GCS評分的語言部分、上肢力量以及行走能力6個關(guān)鍵預測變量,在其選取的測試集中預測預后的AUC可達0.84~0.88。不過Counsell等建立的預測模型使用牛津殘障評分來定義終點結(jié)局,臨床已較少使用該評分,因此預測模型不能得到廣泛推廣。ASTRAL評分同樣也使用多因素logistic回歸的方法篩選出年齡、入院NIHSS評分、卒中發(fā)病至入院時間、視野、快速血糖和意識水平6個變量作為預測預后的變量并對各變量分級賦分。ASTRAL評分在兩個外部驗證集及它們的集合中預測功能預后的AUC為0.937、0.771和0.902(合并時)。該研究的不足之處在于其對血糖范圍的定義與我國不同,不能直接應用于我國卒中患者,另外,預測變量中視野缺損為查體獲取的信息,當患者病情嚴重至意識水平較差時難以配合,可造成部分重癥患者被排除。本研究使用mRS作為患者功能結(jié)局的評價指標,除納入年齡、NIHSS評分、既往史等常用指標,還納入血液檢查指標,如白細胞計數(shù)、LDL-C等,參與預測模型的構(gòu)建,一方面用目前臨床普遍應用的mRS作為預后指標,利于預測模型在臨床中的推廣,另一方面匯總了臨床常用且簡便的檢查項目,可以使預測模型盡可能地適用于臨床。
本研究采用了多種機器學習的方法,對非線性的數(shù)據(jù)擬合程度更好。在機器學習的應用中特征選擇是一個重要的問題。通常在模型構(gòu)建的過程中,數(shù)據(jù)集的數(shù)量會很龐大,但是大多數(shù)變量與目標問題無關(guān),將所有變量納入模型進行的方法有以下不足:首先,處理大型的數(shù)據(jù)集時,運行速度會很慢,占用過多的資源;其次,當變量數(shù)過多時,機器學習方法的準確性會顯著下降[15]。因此,在解決實際問題時,迫切需要找到變量數(shù)量少、分類結(jié)果好的特征集。Boruta算法并不針對某種特定的模型,而是首先篩選出所有與因變量具有相關(guān)性的特征集合。Boruta基于隨機森林分類器的相同思想,即在系統(tǒng)中加入隨機性,從隨機樣本集合中收集結(jié)果,減少了隨機波動和相關(guān)性的誤導影響[12]。
目前采用機器學習預測缺血性卒中結(jié)局的方法已開始在臨床應用。有研究者采用包括隨機森林、分類和回歸樹、C5.0決策樹、支持向量、機器、自適應提升機、最小絕對收縮和選擇算子邏輯回歸在內(nèi)的模型預測發(fā)病3個月缺血性卒中患者的功能預后,證明機器學習算法和logistic回歸預測患者功能預后具有一定的準確性(AUC 0.66~0.71)[16];Monteiro等[17]也做了類似的研究,對比了傳統(tǒng)logistic回歸、決策樹以及隨機森林、XGBoost的預測效果,結(jié)果顯示,機器學習可以將預測3個月mRS的AUC提高至0.808,但該研究的不足之處在于樣本量較少(541例患者),同時未納入實驗室指標,因此預測效果還有待提高。本研究使用Boruta算法,從既往研究提示可影響急性缺血性卒中患者功能預后的危險因素中,選出10種相關(guān)因素,選用三種機器學習方法建立的預測模型,結(jié)果顯示,CatBoost、XGBoost和LightGBM的預測AUC分別為0.828、0.826和0.822,其中CatBoost和XGBoost預測效果優(yōu)于傳統(tǒng)logistic回歸,LightGBM未顯著提高模型預測效果。
本研究納入的樣本量大,對我國缺血性卒中人群的代表性較好;使用并對比了三種機器學習模型的優(yōu)缺點,對于非線性數(shù)據(jù)擬合程度較傳統(tǒng)logistic回歸分析更高;納入了實驗室指標,特異度高的危險因素可以提高預測模型的準確性。但是本研究也存在一定的局限性:一方面,研究未將影像學指標納入預測模型,可能導致預測模型的特異度下降;另一方面,盡管CNSR Ⅱ為全國性的多中心隊列,在我國卒中人群中有良好的代表性,但本研究的預測模型仍需要進一步在獨立的外部人群中進行驗證。
致謝:感謝嚴麥童(北京安德醫(yī)智科技有限公司)在機器學習算法方法學方面提供的幫助和指導。
【點睛】本研究通過涵蓋219家中心的CNSRⅡ數(shù)據(jù)庫的大樣本數(shù)據(jù),檢驗了傳統(tǒng)多因素logistic回歸分析方法和基于機器學習建立的缺血性卒中3個月預后模型的預測效能,結(jié)果提示通過CatBoost和XGBoost方法建立的預測模型預測效果優(yōu)于傳統(tǒng)logistic回歸模型。