劉 彬, 肖曉霞,2, 龔后武, 周 展, 鄭立瑞, 譚建聰
(1 湖南中醫(yī)藥大學(xué) 信息科學(xué)與工程學(xué)院, 長(zhǎng)沙 410208; 2 湖南中醫(yī)藥大學(xué) 中醫(yī)學(xué)國(guó)內(nèi)一流建設(shè)學(xué)科, 長(zhǎng)沙 410208;3 東華醫(yī)為科技有限公司, 北京 100089)
膿毒癥是由感染引起的全身炎癥反應(yīng)綜合征,全球發(fā)病率較高,每年患膿毒癥的人數(shù)約為3 100萬(wàn),住院病死率約為17%[1]。 膿毒癥相關(guān)性腦?。⊿AE)是指在患膿毒癥過(guò)程中發(fā)生的腦功能障礙,是一種比較嚴(yán)重的膿毒癥并發(fā)癥,也是造成膿毒癥患者死亡的獨(dú)立危險(xiǎn)因素[2]。 并與人體行為、記憶、認(rèn)知功能的長(zhǎng)期損害密切相關(guān),給患者的家庭和社會(huì)帶來(lái)沉重的經(jīng)濟(jì)負(fù)擔(dān)。 仍需指出的是,SAE 患者的死亡率往往高于只患膿毒癥的患者。 格拉斯哥昏迷評(píng)分法(Glasgow Coma Scale,GCS) 是一種用來(lái)評(píng)估病人昏迷程度的方法,滿(mǎn)分為15 分[3],表示意識(shí)清楚;12~14 分表示輕度意識(shí)障礙;9 ~11 分表示中度意識(shí)障礙;8 分以下為昏迷。 Eidelman 等學(xué)者[4]的研究表明腦病與醫(yī)院死亡率的增加成正相關(guān)性,當(dāng)格拉斯哥昏迷評(píng)分(GCS) 為15 分時(shí),死亡率為16%,而當(dāng)GCS分?jǐn)?shù)為3 到8 分時(shí),死亡率為63%。 Sonneville 等學(xué)者[5]的研究也得出了類(lèi)似的結(jié)論,研究顯示當(dāng)GCS分?jǐn)?shù)為15 時(shí),患者30 天生存率為67%;當(dāng)GCS分?jǐn)?shù)為3~8 分時(shí),30 天生存率下降到32%。 即使發(fā)生輕度意識(shí)障礙(GCS分?jǐn)?shù)為12~14)也是影響30 天死亡的一個(gè)獨(dú)立危險(xiǎn)因素。綜上表明,SAE 對(duì)于膿毒癥患者短期死亡率的增加是有影響的,而這將進(jìn)一步影響患者的健康,同時(shí)加重醫(yī)療資源的消耗。
基于上述問(wèn)題,識(shí)別出短期死亡率較高的SAE患者,有利于及時(shí)進(jìn)行醫(yī)療干預(yù),對(duì)于改善這類(lèi)患者的預(yù)后也具有重要的意義。 因此本研究的主要目的是通過(guò)大型的臨床數(shù)據(jù)庫(kù)MIMIC 去提取相應(yīng)的SAE 患者數(shù)據(jù),然后通過(guò)rfe 算法[6]對(duì)相應(yīng)特征進(jìn)行篩選,選出影響SAE 患者30 天死亡率的重要特征,最后基于這些特征構(gòu)建機(jī)器學(xué)習(xí)模型,用于改善SAE 患者的預(yù)后。
特征遞歸消除(Recursive Feature Elimination,RFE)是一種用來(lái)衡量特征變量重要性的方法,通過(guò)重復(fù)構(gòu)建模型,逐步迭代選出最重要的特征變量,能夠?qū)ふ页鲎顑?yōu)的特征子集,剔除不重要的特征變量。具體運(yùn)算步驟如下:
(1)設(shè)定需要進(jìn)行選擇的特征數(shù)。
(2)選擇一個(gè)基模型來(lái)進(jìn)行多輪訓(xùn)練, 每次訓(xùn)練將J(k)=(wk)2作為每個(gè)特征的排序準(zhǔn)則,并且每次迭代去除排序最后需要移除的特征數(shù)量。
(3)基于新的特征集進(jìn)行下一輪訓(xùn)練,直至特征個(gè)數(shù)為特征設(shè)定值。
本文選擇的基模型為XGBoost 模型,對(duì)總計(jì)17個(gè)特征進(jìn)行篩選。
邏輯回歸[7]是一種廣義的線(xiàn)性回歸模型,屬于機(jī)器學(xué)習(xí)中的監(jiān)督算法,主要是用來(lái)解決二分類(lèi)問(wèn)題。 該算法首先通過(guò)輸入數(shù)據(jù)擬合出一條直線(xiàn)z =wTx +b,顯然這樣的函數(shù)圖像是一條斜線(xiàn),難以達(dá)到最終想要的結(jié)果(0 或1),于是要將z通過(guò)一個(gè)函數(shù)映射成0~1 之間的數(shù),這個(gè)函數(shù)就是sigmoid函數(shù),式子如下:
然后,通過(guò)極大似然估計(jì)推導(dǎo)出損失函數(shù):
最后,通過(guò)梯度下降法求解出式(2)中的參數(shù),從而解決了二分類(lèi)問(wèn)題。
GBDT(Gradient Boosting Decision Tree)是一種基于決策樹(shù)的集成算法。 算法采用將基函數(shù)線(xiàn)性組合的方法[8],在訓(xùn)練過(guò)程中使得殘差不斷地減小,最終實(shí)現(xiàn)數(shù)據(jù)回歸或者分類(lèi)。 GBDT 算法的訓(xùn)練過(guò)程具體如圖1 所示。
圖1 GBDT 算法訓(xùn)練過(guò)程Fig. 1 GBDT algorithm training process
GBDT 通過(guò)多輪迭代,產(chǎn)生多個(gè)弱分類(lèi)器,每個(gè)分類(lèi)器在上一輪分類(lèi)器的梯度(如果損失函數(shù)是平方損失函數(shù),則梯度就是殘差值)基礎(chǔ)上進(jìn)行訓(xùn)練。弱分類(lèi)器一般會(huì)選擇CART TREE(分類(lèi)回歸樹(shù)),這種樹(shù)具有結(jié)構(gòu)簡(jiǎn)單、高偏差、低方差的特點(diǎn),因此十分適合用于GBDT 算法的訓(xùn)練中。
XGBoost 算法[9]是在GBDT 算法的基礎(chǔ)上發(fā)展而來(lái)的,主要改進(jìn)有:算法不僅可以使用CART 分類(lèi)回歸樹(shù),還能使用線(xiàn)性基礎(chǔ)模型;在目標(biāo)函數(shù)中加入了正則化項(xiàng),用來(lái)防止模型出現(xiàn)過(guò)擬合;借鑒了隨機(jī)森林的原理,支持列抽樣,不僅能降低過(guò)擬合,還能夠減少模型的計(jì)算量;考慮到了訓(xùn)練數(shù)據(jù)為稀疏值的情況,能為缺失值指定分支的默認(rèn)方向,從而提高算法效率。
MIMIC[10](Medical Information Mart for ICU)是一個(gè)大型的、免費(fèi)提供的數(shù)據(jù)庫(kù),其中包括來(lái)自美國(guó)馬薩諸塞州波士頓貝斯以色列女執(zhí)事醫(yī)療中心重癥監(jiān)護(hù)病房住院病人的高質(zhì)量健康相關(guān)數(shù)據(jù),數(shù)據(jù)包括生命體征、藥物、化驗(yàn)數(shù)據(jù)、護(hù)理人員的觀察和記錄、輸液、手術(shù)、診斷代碼、成像報(bào)告、住院時(shí)間、生存數(shù)據(jù)。 MIMIC 數(shù)據(jù)庫(kù)到現(xiàn)在已經(jīng)發(fā)布4 個(gè)版本。MIMIC-II 中包含2001 ~2008 年的數(shù)據(jù),MIMIC-Ⅲ包含2001 ~2012 年的數(shù)據(jù),MIMIC-IV 包含2008 ~2019 年的數(shù)據(jù)。 本文將基于MIMIC-IV 數(shù)據(jù)庫(kù)抽取相應(yīng)的SAE 患者數(shù)據(jù)。
SAE 被定義為膿毒癥患者中GCS分?jǐn)?shù)小于15的患者。 研究使用的主要軟件為Navicat Premium(15.0.12 版本), 按 照 關(guān) 鍵 字[11]“ s - epsis”、“severe sepsis”、“septic shoc-k”從數(shù)據(jù)庫(kù)中搜索被診斷為“膿毒癥”、“嚴(yán)重膿毒癥”、“膿毒癥休克”患者的原始數(shù)據(jù)。 根據(jù)以往研究,確定好納排標(biāo)準(zhǔn)后進(jìn)一步篩選患者。 患者篩選的詳細(xì)過(guò)程如圖2 所示。
圖2 患者篩選圖Fig. 2 Patient screening
確定最終的SAE 患者后,根據(jù)此前的研究文獻(xiàn),從MIMIC 數(shù)據(jù)庫(kù)中提取患者首次入院時(shí)對(duì)應(yīng)的年齡(anchor_age)、性別(gender)、住院天數(shù)(day)、葡萄糖(glucose)、鈉(sodium)、GCS 分?jǐn)?shù)(gcs)、血小板( platelet)、 肌 酐 ( creatinine )、 血 紅 蛋 白(hemoglobin)、鉀(potassium)、血尿素氮(BUN)、白細(xì)胞(WBC)、乳酸鹽(lactate)、血漿凝血酶原時(shí)間(PT)、心率(heart_rate)、血氧飽和度(spo2)、呼吸速率(respiratory_rate)、30 天是否死亡(morality)。 數(shù)據(jù)總計(jì)17 個(gè)特征屬性,再加一個(gè)類(lèi)別標(biāo)簽屬性,其中類(lèi)別標(biāo)簽表明患者是否在患病30 天內(nèi)死亡。
提取了數(shù)據(jù)后,對(duì)數(shù)據(jù)的缺失情況進(jìn)行統(tǒng)計(jì),結(jié)果見(jiàn)表1。
表1 數(shù)據(jù)缺失情況表Tab. 1 Data missing table
從表1 的結(jié)果中可以看出10 個(gè)特征存在數(shù)據(jù)缺失的問(wèn)題,缺失最多的特征是乳酸鹽,缺失比例為19.84%,缺失最少的是肌酐,僅缺失一例。 根據(jù)文獻(xiàn)[8]中對(duì)缺失數(shù)據(jù)的處理方法來(lái)看,缺失特征比例均小于20%,予以保留,并統(tǒng)一采用平均值對(duì)其進(jìn)行填補(bǔ),在此基礎(chǔ)上將對(duì)數(shù)據(jù)進(jìn)行具體分析。
總計(jì)納入4 808 例膿毒癥患者,其中2 131 例為SAE 患者。 SAE 患者年齡為19 ~91 歲之間,中位年齡數(shù)為68 歲。 男性為1 127 例,女性為1 004 例。30 天內(nèi)死亡病例為492 例,存活病例為1 639 例,數(shù)據(jù)分布較為均衡。
根據(jù)RFE 特征篩選,每一輪篩選移去特征系數(shù)(wk)2最小的特征,直到特征個(gè)數(shù)為設(shè)定值。 結(jié)果顯示,當(dāng)特征數(shù)設(shè)定為13 時(shí),3 個(gè)模型中GBDT 的AUC值最高,其在測(cè)試集上AUC為0.783。 此時(shí)選出的13 個(gè)特征分別為:年齡、住院天數(shù)、鈉、GCS 分?jǐn)?shù)、血小板、肌酐、鉀、血尿素氮、乳酸鹽、血漿凝血酶原時(shí)間、血氧飽和度、心率、呼吸速率。
將SAE 數(shù)據(jù)集按照7:3 的比例隨機(jī)劃分為訓(xùn)練集和測(cè)試集進(jìn)行訓(xùn)練。 本文采用的評(píng)價(jià)指標(biāo)為準(zhǔn)確率、P值、R值、F1值、AUC值。 具體的實(shí)驗(yàn)結(jié)果見(jiàn)表2、表3。
表2 未進(jìn)行特征篩選結(jié)果Tab. 2 No feature filtering results
表3 特征篩選后結(jié)果Tab. 3 Results after feature screening
從表2 和表3 中可以看出,數(shù)據(jù)集經(jīng)過(guò)特征篩選后,3 個(gè)模型的某些指標(biāo)得到了提高。 邏輯回歸模型的準(zhǔn)確率提高了1.6%、精度提高了6.3%、F1值提高了1.4%、AUC值提高了0.3%;XGboost 模型的準(zhǔn)確率提高了0.6%、精度提高了2.1%、召回率提高了0.7%、F1值提高了1.2%;GBDT 模型的AUC值提高了0.9%。
為了更直觀地比較3 個(gè)不同算法的性能,繪制的ROC曲線(xiàn)如圖3 所示。
圖3 3 種分類(lèi)算法的ROC 曲線(xiàn)Fig. 3 ROC curves of three classification algorithms
從圖3 中可以看出,在3 個(gè)算法中GBDT 算法的AUC值最大、為0.783,說(shuō)明GBDT 算法性能最優(yōu),更適合用于SAE 患者30 天死亡預(yù)測(cè)。
在這項(xiàng)基于MIMIC-IV 數(shù)據(jù)庫(kù)的研究中,從MIMIC 數(shù)據(jù)庫(kù)中抽取出對(duì)應(yīng)的SAE 患者數(shù)據(jù),然后使用了RFE 特征選擇,篩選出了與SAE 患者30 天死亡率相關(guān)的危險(xiǎn)因素,最后基于這些特征建立了3 個(gè)機(jī)器學(xué)習(xí)模型去對(duì)SAE 患者30 天死亡進(jìn)行預(yù)測(cè)。 其中,GBDT 算法對(duì)于SAE 患者30 天死亡預(yù)測(cè)效果最佳,其精度為52.9%,準(zhǔn)確率為78.6%、AUC值為78.3%,3 個(gè)指標(biāo)均為不同算法中最高的。 與其它研究方法進(jìn)行對(duì)比,文獻(xiàn)[3]提出的列線(xiàn)圖模型在訓(xùn)練集上的AUC值為0.763,在驗(yàn)證集上的AUC值為0.753,均比本文提出的GBDT 算法的AUC值略低。 說(shuō)明本文提出的模型性能更優(yōu)、泛化能力也更強(qiáng)。 目前,對(duì)于SAE 的治療是具有挑戰(zhàn)性的,有許多關(guān)于膿毒癥的指南列出了各種治療膿毒癥的建議,但卻很少有治療SAE 的建議。 有關(guān)SAE 患者死亡預(yù)測(cè)的研究也較為匱乏,本研究很好地彌補(bǔ)了這方面的空白。 從應(yīng)用價(jià)值來(lái)看,本文提出的GBDT 預(yù)測(cè)模型能夠輔助臨床醫(yī)生去評(píng)估SAE 患者的預(yù)后,從而制定出相應(yīng)的治療措施,降低患者死亡率。 一旦研究出針對(duì)SAE 的具體治療方法,該模型的應(yīng)用價(jià)值就會(huì)更高。 未來(lái)可以開(kāi)發(fā)一款能嵌入電子醫(yī)療系統(tǒng)的軟件,該軟件能夠在不增加臨床醫(yī)生工作時(shí)間和負(fù)擔(dān)的情況下,輔助臨床醫(yī)生及時(shí)治療SAE。
本文基于MIMIC 數(shù)據(jù)庫(kù),提取相應(yīng)的膿毒癥患者數(shù)據(jù),并通過(guò)GCS分?jǐn)?shù)進(jìn)一步篩選出SAE 患者的數(shù)據(jù)。 然后經(jīng)過(guò)RFE 特征篩選,篩選出13 個(gè)重要的特征。 使用邏輯回歸、XGBoost、GBDT 三種算法基于篩選后的特征進(jìn)行建模,實(shí)驗(yàn)結(jié)果表明,GBDT算法更適合用于SAE 患者30 天死亡預(yù)測(cè),其AUC值為78.3%,高于其他2 種算法,也比其他文獻(xiàn)中的方法略好。 對(duì)于SAE 患者的預(yù)后具有一定的參考價(jià)值。
本次研究也存在局限性,即只對(duì)該數(shù)據(jù)庫(kù)進(jìn)行了內(nèi)部驗(yàn)證,在今后的研究中還需要根據(jù)其它的數(shù)據(jù)進(jìn)行外部驗(yàn)證,以進(jìn)一步檢驗(yàn)?zāi)P偷聂敯粜院托阅堋?/p>