秦家駿,陳先震
(同濟大學附屬第十人民醫(yī)院神經(jīng)外科,上海 200072)
創(chuàng)傷性顱腦損傷(traumatic brain injury,TBI)是發(fā)病率和死亡率較高的外傷性疾病之一,全球每年TBI 發(fā)病率為(110~332) /10 萬人,死亡率為(10 ~20) /10 萬人[1];老年 TBI 發(fā)病率占全年齡的 5% ~10%,其中,重型TBI 中老年人的占比約為15%,輕中度占比約為10%,死亡TBI 病例中,老年人占比為50%~60%[2]。老年 TBI 具有程度重、預后差的特點,通過急性期臨床指標來對老年TBI 預后進行預測的研究日益受到重視。目前,常用的預測模型有格拉斯哥昏迷評分量表(Glasgow Coma Scale,GCS)、簡明損傷評分量表(Abbreviated Injury Scale)等,均采用TBI 急性期指標作為預測依據(jù),但并未針對老年人機體功能減退、并發(fā)癥多等情況進行優(yōu)化,對老年人的預測評估具有較大偏差,進而對患者的臨床決策產(chǎn)生影響,一定程度上造成不必要的社會、經(jīng)濟負擔[3?4]。
為此,本研究運用機器學習的方法對TBI 患者預后進行統(tǒng)計建模,利用篩選后的預測模型對老年TBI 的影響因素進行研究,比較老年TBI 患者與非老年患者的差異,以期加強對TBI 預后的認識。
收集同濟大學附屬第十人民醫(yī)院2009年1月—2019年1月2 272 例TBI 患者的資料進行分析,納入患者均為在我院首診的TBI 患者,性別、年齡不限,急診治療方案不限,但合并有非顱腦多發(fā)傷的患者應予以排除。本研究經(jīng)過同濟大學附屬第十人民醫(yī)院倫理委員會批準(SHSY?IEC?3.1/16?87/01)。試驗過程中對受試者的資料進行了嚴格的保密,不涉及活體的侵入性檢查、手術,符合倫理學的相關要求。
采用回顧性隊列研究的方法,對符合納入標準的研究對象資料進行收集。根據(jù)世界衛(wèi)生組織(WHO)的共識,老年患者定義為年齡≥65 周歲的患者,本研究采用該標準將研究對象分為老年組與非老年組。將兩組患者的年齡、性別、急診影像學診斷、急診治療方案、急診GCS 評分作為基線指標,外傷后3 個月格拉斯哥預后評分(Glasgow Outcome Scale,GOS)、住院天數(shù)、并發(fā)癥發(fā)生次數(shù)作為觀察的終點指標??紤]到TBI 重度殘疾、植物狀態(tài)及死亡患者的醫(yī)療、家庭負擔較大,故對GOS 進行二分類轉(zhuǎn)換,將GOS中4~5 分患者規(guī)定為預后較好的一類,1~3 分規(guī)定為預后較差的一類。根據(jù)目前神經(jīng)外科的診療經(jīng)驗,加強預測模型的臨床實用性,將住院天數(shù)分為<14 d 與≥14 d 兩類。上述資料不全的患者不納入研究。將相關數(shù)據(jù)資料進行整理、統(tǒng)計,并利用相關模型進行數(shù)據(jù)分析。
本研究采用R3.5.3 軟件進行數(shù)據(jù)處理。數(shù)據(jù)資料首先進行標準化處理,單因素分析中,計量資料采用t檢驗或wilcoxon 秩和檢驗進行分析,分類資料采用χ2檢驗進行分析。計量資料通過Kolmogorov?Smirnov 法進行正態(tài)性檢驗。P<0.05 為差異有統(tǒng)計學意義。
GOS 和住院天數(shù)的模型預測目標為二分類數(shù)據(jù)資料,并發(fā)癥次數(shù)為計數(shù)資料,結局指標的初步分析中,二分類資料采用Logistic 回歸進行分析,計數(shù)資料采用泊松回歸進行分析。未調(diào)整結果不考慮基線指標的影響,調(diào)整后結果考慮基線指標的主效應。通過計算,明確老年組相對于非老年組的終點指標比值比。
將兩組數(shù)據(jù)一并歸入數(shù)據(jù)集,并按0.75 ∶0.15 ∶0.15 的比例隨機分為訓練集、測試集和驗證集,訓練集數(shù)據(jù)用于統(tǒng)計模型的訓練,驗證集數(shù)據(jù)用于各模型超參數(shù)校準,測試集數(shù)據(jù)用于模型泛化能力的驗證。統(tǒng)計模型采用多層感知器、徑向基函數(shù)、C5.0 決策樹、CHAID 決策樹、QUEST 決策樹、C&R決策樹、貝葉斯網(wǎng)絡、判別分析及決策列表模型進行建立,上述過程重復5 次,采用受試者工作曲線(ROC)曲線和準確率對各模型的平均精確性進行比較,ROC 曲線的差異性檢驗采用非參數(shù)法進行。根據(jù)驗證集平均曲線下面積(AUC)和準確率的高低優(yōu)選3 種模型作為最終的預測模型。
計算篩選后的模型在各分組中的平均準確度、特異度、敏感度,評價模型在各組患者中的適用性。適用性好的標準為模型的特異度、特異度、敏感度>0.7。比較各模型影響因素權重占比的差異,并結合模型適用性,分析老年組患者與非老年組患者預后影響因素的差異。
納入研究患者共計2 272 例,其中老年組680 例,非老年組1 592 例,兩組各項基線資料匯總如表1 所示。兩組患者年齡、性別、影像診斷結果、手術治療率、GCS 的分布與構成差異均有統(tǒng)計學意義(P<0.001)。
終點指標的分析表明,老年組患者預后比非老年組患者差,OR 值為0.7;老年組住院天數(shù)較長,OR 值為 1.8,兩指標差異有統(tǒng)計學意義(P=0.024,P<0.001),但傷后并發(fā)癥的發(fā)生次數(shù)的差異無統(tǒng)計學意義(P=0.295),見表2。
數(shù)據(jù)集中包括訓練集、驗證集、測試機,利用數(shù)據(jù)集對不同的模型進行訓練,其中多層感知器和貝葉斯網(wǎng)絡模型的結果如圖1、2 所示。上述過程進行5 折交叉驗證,得到圖3 中各GOS、住院天數(shù)、并發(fā)癥次數(shù)的預測模型 ROC 曲線。由表3中測試集AUC 及準確度可知,所有模型的綜合預測能力較高,AUC>0.90,準確度>0.8。其中,多層感知器、C5.0 決策樹、支持向量機對GOS 模型擬合比較理想,3 種模型 AUC>0.85,準確度>0.8。
表1 患者一般資料匯總Tab.1 Summary of general characteristics of patients
表2 終點指標結果匯總Tab.2 Summary of endpoint indicator results
為了進一步考察模型對各分組病例的預測能力,計算了上述3 種模型在老年組與非老年組中的特異度、敏感度、準確度。表4 的結果表明,各模型對老年組的適用性整體低于非老年組,GOS 模型中,多層感知器對兩組病例的適用性均是最理想的,而住院天數(shù)和并發(fā)癥次數(shù)模型中,多層感知器對老年組的適用性較好,C5.0 決策樹對非老年組的適用性較好,住院天數(shù)的支持向量機模型適用性較差,應予以排除。因此,老年組的3 個預測指標和非老年組的GOS 應使用多層感知器模型進行擬合,非老年組的住院天數(shù)和并發(fā)癥次數(shù)應使用C5.0 決策樹進行預測。
多層感知器在3 個目標預測中AUC 和準確度均比較理想,3 個目標變量的網(wǎng)絡結構大致相同。如圖1 所示,網(wǎng)絡模型的輸入層和隱藏層均包括10個輸入(或隱藏)變量和1 個偏差變量,輸出層包括1 個輸出變量。GOS 模型測試集準確度95.3%,特異度96.3%,敏感度93.2%;住院天數(shù)模型準確度85.2%,特異度79.7%,敏感度97.3%;并發(fā)癥模型準確度89.7%。多層感知器模型表明(圖4),基線指標對不同預測指標有不同影響。然而,急診GCS、年齡對患者傷后第3月GOS、住院天數(shù)、并發(fā)癥次數(shù)均有較大影響。
C5.0 算法的決策樹模型對顱腦外傷3 種指標的預測準確性也比較高。其中,GOS 和并發(fā)癥次數(shù)的深度為20,住院天數(shù)的深度為21。GOS 模型共有10 個輸入變量納入模型,住院天數(shù)和并發(fā)癥次數(shù)模型共有11 個變量納入模型。GOS 模型準確度94.7%,特異度95.9%,敏感度92.4%;住院天數(shù)模型準確度90.5%,特異度79.7%,敏感度97.3%;并發(fā)癥次數(shù)準確度89.4%。與多層感知器模型不同,各輸入變量對預測指標的影響比較均衡,年齡對預測指標的影響較小(圖4)。
圖1 GOS 多層感知器模型網(wǎng)絡結構Fig.1 GOS multilayer perceptron model network structure
圖2 GOS 貝葉斯網(wǎng)絡模型結構Fig.2 GOS Bayesian network model structure
支持向量機模型使用徑向基函數(shù)內(nèi)核,懲罰系數(shù)0.1,伽馬值0.1。GOS 模型共有9 個輸入?yún)?shù),特異度90.0%,敏感度85.6%;住院天數(shù)模型有8 個參數(shù),特異度65.2%,敏感度90.5%;并發(fā)癥次數(shù)模型有10 個參數(shù),準確度為80.5%。模型中基線指標對預測目標的貢獻比重與上述兩模型均不同,年齡因素與多層感知模型相比占比較?。▓D4)。
結合2.4 節(jié)的結果來看,GOS 在兩組中的影響因素無明顯差異,急診時的GCS 與患者的具體年齡為影響患者傷后第3 個月患者狀態(tài)的主要因素;而住院天數(shù)和并發(fā)癥次數(shù)在兩組中的影響因素有明顯差異,老年組兩指標的主要影響因素與GOS 模型基本一致,但非老年組中各基線指標對住院天數(shù)和并發(fā)癥次數(shù)的影響權重大致相同,缺乏主要影響因素。由此可以得知,與非老年人相比,入院GCS 和具體年齡對老年患者的預后影響更大,老年組中不同年齡段的預后也有一定的差異。
圖3 GOS、住院天數(shù)模型ROCFig.3 ROC of GOS,hospitalization days models
老年 TBI 的預后研究已有眾多文獻的報道[5?7],但既往文獻多數(shù)是確證性研究,探索性研究偏少。近年來,由于機器學習方法的大量應用,TBI 預后模型的研究逐漸增多,但目前文獻報道[8?10]的模型上有以下幾點不足。(1) 多數(shù)文獻是探索性研究,缺乏對模型中不同影響因素差異的確證性探討。(2) 目前TBI的死亡率低,單純將死亡率作為終點指標可能不盡合理。(3) 機器學習模型與傳統(tǒng)模型相比,在不同年齡層或不同診斷患者中影響因素的異同無法直接進行比較。(4) 既往文獻所納入的影響因素中包含許多急診不易獲取的指標,臨床決策的外部實用性較差。
表3 GOS、住院天數(shù)、并發(fā)癥次數(shù)預測模型AUC 和準確度的匯總Tab.3 Summary of AUC and accuracy of GOS,hospitalization days,and number of complications prediction models
表4 模型在老年組與非老年組中的適用性Tab.4 Applicability of models in the elderly and non?elderly groups
圖4 基線指標在預測模型中權重的占比Fig.4 The proportion of the weight of the baseline indicator in prediction models
針對上述4 點問題,本研究進行了以下改進。(1) 利用Logistic 模型對預后影響因素進行了確證性研究,但由于本研究自變量較多,Logistic 回歸對模型的擬合度較差,臨床適用性不高。為此,在確證性研究的基礎上進行了探索性研究,建立并篩選出了對數(shù)據(jù)集擬合度較好的統(tǒng)計模型。(2) 由于TBI患者預后評估的多維性、復雜性,采用傷后第3 個月GOS 的評分作為主要指標,住院天數(shù)、并發(fā)癥次數(shù)作為次要指標,以期盡可能全面地反映老年性TBI預后的基本情況。(3) 本研究篩選出針對不同年齡層的最優(yōu)模型,考察老年患者與非老年患者預后影響因素的差異。(4) 在指標選擇過程中,盡可能采用臨床表現(xiàn)和診斷方面的指標,使預測模型能夠更好地指導急診醫(yī)師的診療決策。
老年TBI 患者預后差、住院天數(shù)長這一結果在既往文獻中已有多次報道[11?14],但老年患者并發(fā)癥次數(shù)的問題,在過去的研究中較少提及[15]。本研究表明,老年患者并發(fā)癥發(fā)生次數(shù)與年輕人之間的差異無統(tǒng)計學意義,這一結果可能與指標的選擇有關,老年患者并發(fā)癥次數(shù)雖然與非老年人大致相同,但并發(fā)癥的嚴重程度可能有極大的差異。
通過對多種機器學習模型的篩選和評估,本研究發(fā)現(xiàn),在全年齡數(shù)據(jù)集中,多層感知器、C5.0 決策樹和支持向量機模型對GOS、住院天數(shù)、并發(fā)癥次數(shù)的預測能力均比較理想,雖然貝葉斯網(wǎng)絡等模型對GOS 預測的準確度較高,但它們對另外兩個指標的擬合不佳。以往文獻中缺乏對上述3 個指標預測模型的研究,故無法簡單進行類比,但近年來以死亡率為指標的研究提示[16?19],多層感知器模型優(yōu)于其他類型的統(tǒng)計模型,而決策樹的準確度卻低于其他模型,這可能與決策樹的不同算法有關。文獻表明,支持向量機的模型擬合能力優(yōu)于廣義線性模型,本研究的結論與既往文獻基本一致[20?21]。
在老年組與非老年組的分組評估中,本研究發(fā)現(xiàn)上述3 種模型對老年組的預測能力低于非老年組。這一現(xiàn)象在既往文獻中未見報道,但從模型構建的流程中看,可能與老年組患者病例數(shù)較少有關,同時,這可能反映了老年組與非老年組預后影響因素的差異,這一猜測在后面的組件影響因素差異的分析中也得到了印證。本研究表明,老年組與非老年組傷后第3 個月GOS 的影響因素基本一致,入院GCS 依然是評估患者預后的重要標準,這與文獻中的結論一致[7,22?23],此外,具體的年齡也對 GOS 的結果有重要影響,這說明在≥65 歲患者中,不同年齡段的人群預后也有所不同,結合既往文獻結果[5,24],可以推斷 GOS 得分與年齡呈反相關關系。對于住院天數(shù)和并發(fā)癥次數(shù)的預測模型而言,不同分組所使用的模型也不同,由此可以看出,老年患者的住院天數(shù)和并發(fā)癥次數(shù)對急診GCS 和具體年齡更敏感,非老年患者的影響因素比較復雜,缺乏主要影響因素。這一結果在既往文獻中尚無報道,結合臨床經(jīng)驗分析,這可能與老年TBI 患者機體功能減退,病情重、病程長有關。
本研究雖采用多種統(tǒng)計方法來探討老年TBI 預后的問題,但仍有以下幾點不足。(1) 研究人群可能存在選擇偏畸,研究中未將急診前已經(jīng)死亡或多次專員的患者納入分析。(2) 模型中僅考慮了患者急診來院時的人口學資料、臨床表現(xiàn)、影像學診斷和治療方案,重要的生化指標、分子標志物等指標未被納入研究,這一問題可能導致模型的準確度降低。(3) 研究樣本量偏少,指標偏多,缺乏降維分析、聚類分析,模型的復雜度問題尚需進一步探討。
綜上所述,老年顱腦外傷患者的傷后第3 個月GOS、住院天數(shù)和并發(fā)癥次數(shù)可采用多層感知器模型進行預測,而非老年患者的GOS 可利用多層感知器模型預測,住院天數(shù)和并發(fā)癥次數(shù)則可以利用C5.0 決策樹進行預測,老年TBI 預后模型與非老年TBI 不盡相同。老年患者中年齡和急診GCS 對預后的影響可能更大。下一步將擴大樣本量,增加基線指標,提高預測模型準確率。