谷鴻秋,王春娟,李子孝,王伊龍,王擁軍,姜勇,3
中國是卒中終身風險最高的國家,全球疾病負擔研究顯示,中國卒中終身風險高達39.3%,將近全球平均水平的1.6倍[1]。在國內,卒中在單病種死因順位排名自2010年后一直位居第一[2-3]。卒中的高患病率、高死亡率及高致殘率給中國的醫(yī)療保健系統(tǒng)造成了沉重的負擔。缺血性卒中是卒中的主要類型,約占80%以上[4]。缺血性卒中的預后不穩(wěn)定,易復發(fā),且早期復發(fā)風險最高。據(jù)氯吡格雷用于急性非致殘性腦血管事件高危人群的療效(Clopidogrel in High-Risk Patients with Acute Nondisabling Cerebrovascular Events,CHANCE)研究顯示,超過80%的卒中復發(fā)發(fā)生在14 d內[5]。因此,利用預測模型準確預測卒中早期復發(fā)風險,提升患者的精準風險分層與管理、優(yōu)化醫(yī)療資源配置、降低院內卒中復發(fā)是卒中二級預防中不可忽視的環(huán)節(jié)。
關于缺血性卒中院內復發(fā)風險的預測,目前缺乏特異性的工具。傳統(tǒng)的風險預測模型,主要是基于Logistic回歸或者Cox回歸模型構建,但機器學習算法在處理高維變量,以及變量間復雜的交互作用、非線性關系上具有獨特的優(yōu)勢,尤其是XGBoost[6]。本文利用中國國家卒中登記Ⅱ(China National Stoke Registry Ⅱ,CNSRⅡ)數(shù)據(jù)[7],分別利用傳統(tǒng)的Logistic回歸和機器學習算法XGBoost構建缺血性卒中院內復發(fā)風險預測模型,并進行初步比較,探討兩種模型的預測價值,以期為后續(xù)建立更加完善的缺血性卒中院內復發(fā)風險預測模型提供借鑒。
1.1 研究隊列與人群 本研究的研究對象來源于CNSRⅡ項目。CNSRⅡ納入2012年5月-2013年1月全國219家醫(yī)院發(fā)病7 d內的急性卒中住院患者。本研究患者納入標準:①年齡>18歲;②缺血性卒中患者;③患者出院方式為醫(yī)囑離院(考慮到轉院或非醫(yī)囑離院的患者可能因為在院時間短暫,院內復發(fā)事件難以被觀測捕捉到)。排除標準:血液檢測指標缺失。
1.2 預測因子與結局 結合急性缺血性卒中早期管理指南[8]、文獻報道的相關評分預測模型[9]及CNSRⅡ數(shù)據(jù)特點,確定備選的預測因子包括人口學特征(性別、年齡、教育程度、家庭月收入、吸煙、飲酒),卒中嚴重程度(入院NIHSS評分、發(fā)病前mRS評分),既往病史(卒中、高血壓、糖尿病、血脂異常、心房顫動、周圍血管疾病、心肌梗死/冠心?。盟幨罚寡“逅?、抗凝藥、降壓藥、降脂藥、降糖藥)以及臨床測量指標(TC、TG、LDL-C、HDL-C、收縮壓、舒張壓)。結局為院內的卒中復發(fā)事件,包括缺血性卒中和出血性卒中。
1.3 模型構建方法
1.3.1 Logistic回歸 Logistic回歸是預測結局變量為二分類變量時最為常用的統(tǒng)計模型,其通用形式為:
其中x1,x 2,…,x m即為預測因子,b1,b2,…,bm為m個預測因子的回歸系數(shù)。①式經(jīng)過簡單變換,可得預測事件的概率P。
1.3.2 XGBoost XGBoost是基于決策樹使用梯度提升框架的集成機器學習算法,由華人學者陳天奇博士于2016年提出[6]。XGBoost的思想是先從初始訓練集訓練出一個基學習器,再根據(jù)基學習器的表現(xiàn)對訓練樣本分布進行調整,使得先前基學習器做錯的訓練樣本在后續(xù)受到更多關注,然后基于調整后的樣本分布來訓練下一個基學習器;如此重復進行,直至基學習器數(shù)目達到事先指定的值T,最終將這T個基學習器進行加權結合。XGBoost的基學習器就是一棵樹分類器。XGBoost的簡要算法的數(shù)學描述:假設有k棵樹,則模型的表達式為:
其中F表示回歸森林中的所有函數(shù)空間。fk(xi)表示第i個樣本在第k棵樹中落在葉子的權重。目標函數(shù)為:
其中,L是損失函數(shù),用來估計預測值??與真實值yi的差距,正則項Ω,可以懲罰模型的復雜度,避免過擬合。
1.4 統(tǒng)計學方法 本研究的所有統(tǒng)計分析均在R(3.6.2版)中完成。Logistic回歸采用stats包的glm函數(shù),XGBoost采用XGBoost包(1.0.0.1版)的xgb.train函數(shù)。超參數(shù)的調整優(yōu)化采用mlr包(2.17.1版),并采用隨機搜索算法。符合本研究要求的數(shù)據(jù)集將按7∶3的比例隨機拆分為訓練集與測試集,訓練集用來擬合預測模型,測試集用來評價模型效果。為防止過擬合,提高模型預測性能,Logistic回歸預測模型中,通過赤池信息準則(Akaike information criterion,AIC)篩選訓練集中的最優(yōu)模型。XGBoost預測模型中,采用10折交叉驗證法,將訓練集進一步細分為10份,循環(huán)抽取其中的一份作為驗證集,用于調整XGBoost的超參數(shù)。Logistic預測模型中預測因子的效應通過回歸系數(shù)或者OR值及其95%CI體現(xiàn),XGBoost預測模型中,預測因子的重要性通過SHAP(Shapley Additive Explanation)值體現(xiàn),SHAP值越高,預測因子越重要[10]。模型的預測性能將從區(qū)分度和校準度兩個方面進行比較和評價。區(qū)分度指標采用受試者工作特征曲線下面積(area under the curve,AUC),AUC值越高,表明模型的區(qū)分度越高。校準度指標采用校準截距、校準斜率以及Brier得分[11],并繪制校準度曲線。校準截距和Brier得分越趨近0,校準斜率越趨近1,模型的校準度越好。P<0.05為差異具有統(tǒng)計學意義。
2.1 人群基本特征 納入CNSRⅡ項目中按醫(yī)囑離院的急性缺血性卒中患者總計18 142例,剔除了血液檢測指標缺失病例915例,17 227例進入最終分析。平均年齡64.72±11.84歲,女性6317例(36.7%),發(fā)病前mRS評分為0或1分的病例14 482例(84.1%),入院NIHSS評分4(2~6)分。6095例(35.2%)有卒中病史,伴有高血壓、糖尿病及血脂異常病史的患者,分別為13 153例(76.4%)、4493例(26.1%)和6120例(35.5%)。服用抗血小板、降壓、降糖及降脂藥的患者分別為3338例(19.4%)、7749例(45.0%)、2965例(6.7%)和1156例(15.6%)??傆?44例(2.6%)的患者院內復發(fā)卒中。各特征在訓練集和測試集的數(shù)據(jù)上非常接近(表1)。
2.2 預測模型構建 Logistic回歸預測模型中,最終納入年齡、家庭月收入、發(fā)病前mRS評分、入院NIHSS評分、卒中史、心房顫動、心肌梗死/冠心病、抗血小板、降壓藥、LDL-C、收縮壓及舒張壓12個預測因子,具體的回歸系數(shù)及相對效應見表2。其中,發(fā)病前mRS評分、心房顫動及卒中史是前三位強預測因子。XGBoost預測模型,由8棵決策樹組合而成,其中第一棵決策樹如圖1所示。XGBoost構建的預測模型中,前三位強預測因子為發(fā)病前mRS評分、心房顫動及TC,具體如圖2所示。
表1 研究對象基本特征
2.3 預測模型性能比較 在訓練集中,Logistic回歸預測模型的AUC低于XGBoo s t預測模型(0.67,95%CI0.64~0.70vs0.72,95%CI0.69~0.76,P=0.0176);在測試集中,與XGBoost預測模型差異無統(tǒng)計學意義(0.63,95%CI0.58~0.68vs0.64,95%CI0.59~0.68,P=0.9229)(圖3)。
Logistic預測模型在訓練集中的校準截距、校準斜率以及Brier得分分別為0.00、1.00、0.02;在測試集中,分別為-0.81、0.76、0.03。XGBoost預測模型在訓練集中校準截距、校準斜率及Brier得分分別為3.31、3.90、0.35;在測試集中分別為-1.37、1.20、0.38。Logistic預測模型的校準度要好于XGBoost預測模型,尤其是在訓練集數(shù)據(jù)中(圖4)。
本研究基于CNSRⅡ項目中按醫(yī)囑離院的缺血性卒中病例,分別采用了傳統(tǒng)的Logistic回歸和機器學習方法XGBoost構建缺血性卒中院內復發(fā)的預測模型。結果顯示,Logistic回歸與XGBoost方法在預測性能上非常接近,XGBoost方法在訓練集上AUC更高,而Logistic回歸的校準度更高,尤其是在訓練集數(shù)據(jù)上。
相較于傳統(tǒng)Logistic回歸或者Cox比例風險回歸模型,機器學習算法在處理高維變量,以及變量間復雜的交互作用、非線性關系上具有獨特的優(yōu)勢。XGBoost是機器學習中的一種梯度提升算法,其軟件包有其獨特的優(yōu)點,比如:支持并行計算,可調用計算機的所有內核同時運算;支持正則化,可防止模型過擬合;自帶交叉驗證及缺失值處理機制;靈活支持個性化目標函數(shù)和評估指標。因此,XGBoost在預測模型中,受到越來越多的關注和研究,例如,基于國際多中心注冊研究的急性心肌梗死預測研究[12],基于醫(yī)院電子健康檔案的卒中后肺炎預測[13],基于患者病史和分診時收集的信息預測住院患者人數(shù)[14]以及癌癥患者化療后的短期死亡預測等[15]。由于各研究中具體的研究問題、研究設計及數(shù)據(jù)不同,XGBoost預測模型的表現(xiàn)也不盡相同,和傳統(tǒng)Logistic回歸預測模型相比,有些情形下兩者相當,有些情形下XGBoost更優(yōu)。
表2 基于Logistic回歸的預測模型
本研究個案結果顯示,相比Logistic回歸,XGBoost預測模型并未顯示出特別的優(yōu)越性。這可能與研究的數(shù)據(jù)有較大的關系。研究數(shù)據(jù)的維度(變量的個數(shù),變量的種類)、性質(是否包含了真正有預測作用的變量)、數(shù)據(jù)量(樣本量)均有可能影響預測模型的效能。本研究中,預測變量維度和數(shù)量有限,這可能在一定程度上限制了機器學習算法的優(yōu)勢。一些強預測因子,比如氧化低密度脂蛋白、中性粒細胞計數(shù)、應激性高血糖等血液指標[16-20],梗死模式、狹窄程度等影像指標均未采集[21],無法納入預測模型中。
圖2 XGBoost構建的預測模型中預測因子SHAP值
圖3 Logistic與XGBoost構建的預測模型的ROC曲線
圖4 Logistic與XGBoost構建的預測模型的校準度
考察預測模型的好壞,不僅需要評估其預測性能,還需考慮數(shù)據(jù)采集的成本、開發(fā)的難易度以及應用的便利性。一個預測性能良好的預測模型,只有真正普及應用到臨床,才能對患者實現(xiàn)精準風險分層管理,優(yōu)化資源配置、改善患者結局,提高醫(yī)療質量。傳統(tǒng)的Logistic回歸旨在盡可能用最少的預測變量獲得最佳的預測效能,因此,一般來說數(shù)據(jù)采集成本較低,且其原理清晰易理解,開發(fā)方便,后期也便于制作評分系統(tǒng)、列線圖或者顏色打分卡等不需要電子設備支持即可應用于臨床的實用工具[22]。機器學習算法XGBoost原理較為復雜,開發(fā)過程長(比如數(shù)據(jù)需要轉換為稀疏矩陣、需要對超參數(shù)進行調整等),在預測變量多、關系復雜、數(shù)據(jù)量大時,旨在盡可能用當下所有的預測變量獲得最佳的預測效能,若能將其嵌于臨床診療系統(tǒng)中,整合在在臨床實踐中,則數(shù)據(jù)收集和應用將更為方便,如此方能體現(xiàn)其優(yōu)勢。
傳統(tǒng)的Logistic回歸與XGBoost方法,在預測模型的構建中,各有優(yōu)劣。研究者可依據(jù)具體的研究問題、研究數(shù)據(jù),并考慮到后續(xù)的推廣使用的成本和便利性,綜合決定。隨著大數(shù)據(jù)相關的基礎設施和技術的普及,機器學習算法構建的預測模型,將會有廣闊的應用前景。