鄧宇含,姜 勇,王子堯,劉 爽,汪雨欣,劉寶花△
[1.北京大學(xué)公共衛(wèi)生學(xué)院社會(huì)醫(yī)學(xué)與健康教育學(xué)系,北京 100191;2.國家神經(jīng)系統(tǒng)疾病臨床醫(yī)學(xué)研究中心,首都醫(yī)科大學(xué)附屬北京天壇醫(yī)院神經(jīng)病學(xué)中心,北京 100050;3.北京大數(shù)據(jù)精準(zhǔn)醫(yī)療高精尖創(chuàng)新中心(北京航空航天大學(xué)&首都醫(yī)科大學(xué)),北京 100070]
腦卒中是全球最主要的死亡原因和致殘?jiān)蛑籟1],給社會(huì)帶來嚴(yán)重經(jīng)濟(jì)負(fù)擔(dān)[2]。盡管腦卒中患者的死亡風(fēng)險(xiǎn)在西歐和北美的大多數(shù)國家中都呈下降趨勢(shì)[3],但在需要進(jìn)入重癥監(jiān)護(hù)病房(intensive care unit,ICU)治療的患者中死亡風(fēng)險(xiǎn)仍然較高[4]。如果能對(duì)死亡風(fēng)險(xiǎn)高的患者進(jìn)行早期識(shí)別,在患者病情惡化前預(yù)警并采取有針對(duì)性的預(yù)防和治療措施,則對(duì)于醫(yī)療資源的合理分配以及降低患者死亡風(fēng)險(xiǎn)和改善患者預(yù)后方面都具有重要意義[5]。
ICU內(nèi)獲取的數(shù)據(jù)與常規(guī)數(shù)據(jù)的區(qū)別在于其大多為時(shí)序數(shù)據(jù),即對(duì)同一變量在不同時(shí)間進(jìn)行了多次測(cè)量[6]。目前用于時(shí)序數(shù)據(jù)處理的模型主要為循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neutral network, RNN)等深度學(xué)習(xí)模型,這些模型由于能夠從大樣本、高維數(shù)據(jù)中學(xué)習(xí)變量間復(fù)雜的交互作用而不需要遵從統(tǒng)計(jì)學(xué)假設(shè)[7],從而在放射[8]、腫瘤[9]、重癥監(jiān)護(hù)[10]等醫(yī)學(xué)領(lǐng)域有了越來越多的應(yīng)用。然而,RNN在實(shí)際應(yīng)用時(shí)存在諸多弊端,例如其無法對(duì)長(zhǎng)期信息進(jìn)行學(xué)習(xí),因此在時(shí)序數(shù)據(jù)的處理方面存在一定的局限性。
長(zhǎng)短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)[11]在RNN的基礎(chǔ)上增加了門控單元,從而可以對(duì)時(shí)序信息進(jìn)行選擇性遺忘或保留,因此具有較好的預(yù)測(cè)效果,被較多地應(yīng)用于ICU內(nèi),如Thorsen-Meyer等[12]使用動(dòng)態(tài)的LSTM模型對(duì)患者進(jìn)入ICU后90 d內(nèi)的死亡風(fēng)險(xiǎn)進(jìn)行了實(shí)時(shí)預(yù)測(cè),Xia等[13]使用LSTM集成算法對(duì)ICU患者28 d內(nèi)的死亡風(fēng)險(xiǎn)進(jìn)行了預(yù)測(cè),Maheshwari等[14]用LSTM模型預(yù)測(cè)了ICU內(nèi)心血管疾病患者的死亡風(fēng)險(xiǎn)。然而,LSTM等深度學(xué)習(xí)模型由于內(nèi)部結(jié)構(gòu)復(fù)雜,無法判斷特定變量對(duì)結(jié)局的具體貢獻(xiàn),因此可解釋性較差[15]。
Logistic回歸作為傳統(tǒng)的統(tǒng)計(jì)學(xué)模型,其優(yōu)勢(shì)在于可以對(duì)變量和結(jié)局間的關(guān)系進(jìn)行很好地解釋,但由于其要求變量間不存在共線性等較為嚴(yán)苛的應(yīng)用條件使其在實(shí)際應(yīng)用時(shí)受到限制[16]。如果將深度學(xué)習(xí)模型和Logistic回歸相結(jié)合,使二者優(yōu)勢(shì)互補(bǔ),對(duì)于疾病預(yù)測(cè)或許會(huì)具有很大價(jià)值。
本研究以重癥醫(yī)學(xué)信息數(shù)據(jù)庫(Medical Information Mart for Intensive Care-Ⅳ,MIMIC-Ⅳ)為數(shù)據(jù)源,基于引入注意力機(jī)制的LSTM深度學(xué)習(xí)模型和L1正則化的Logistic回歸提取腦卒中患者進(jìn)入ICU后48 h內(nèi)的重要變量,再用傳統(tǒng)的Logistic回歸構(gòu)建腦卒中患者死亡風(fēng)險(xiǎn)預(yù)測(cè)模型,對(duì)模型的預(yù)測(cè)效果進(jìn)行評(píng)價(jià),并與未預(yù)先進(jìn)行變量篩選而直接進(jìn)行前進(jìn)法Logistic回歸的模型進(jìn)行對(duì)比。
研究對(duì)象均來源于MIMIC-Ⅳ數(shù)據(jù)庫,該數(shù)據(jù)庫由美國麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)計(jì)算生理學(xué)實(shí)驗(yàn)室和貝斯以色列迪康醫(yī)學(xué)中心(Beth Israel Deaconess Medical Center, BIDMC)提供,包含了2008—2019年期間ICU或急診科收治的256 878位患者的真實(shí)住院信息。MIMIC-Ⅳ數(shù)據(jù)庫由核心模塊、住院模塊和重癥監(jiān)護(hù)模塊三個(gè)模塊構(gòu)成,包括了患者基本信息、診斷編碼、實(shí)驗(yàn)室檢查、生命體征、藥物處方、手術(shù)類型等較全面的臨床信息記錄,并對(duì)所有患者信息均進(jìn)行了去識(shí)別處理。
本研究選取MIMIC-Ⅳ數(shù)據(jù)庫中出院診斷為腦卒中的2 755位患者作為研究對(duì)象,納入流程圖見圖1。納入標(biāo)準(zhǔn):年齡≥18歲;經(jīng)國際疾病分類(International Classification of Diseases,ICD)第9版(ICD-9)或第10版(ICD-10)診斷標(biāo)準(zhǔn)確定的首要診斷為腦卒中的患者。排除標(biāo)準(zhǔn):無ICU入院記錄的患者;入院后48 h內(nèi)出現(xiàn)院內(nèi)死亡或出院的患者。對(duì)于有多次ICU入院記錄的患者,所有ICU記錄均納入統(tǒng)計(jì)分析。
MIMIC-Ⅳ, Medical Information Mart for Intensive Care-Ⅳ; ICU, intensive care unit.
以入院48 h后是否出現(xiàn)院內(nèi)死亡為結(jié)局指標(biāo)。結(jié)合既往研究結(jié)果[17-18]、腦卒中診治指南及MIMIC-Ⅳ數(shù)據(jù)庫特征,納入以下變量作為預(yù)測(cè)變量:人口學(xué)特征(性別、種族、年齡、卒中類型)、生命體征(收縮壓、舒張壓、平均血壓、體溫、心率、呼吸頻率、血氧飽和度)、實(shí)驗(yàn)室檢查(白細(xì)胞計(jì)數(shù)、血紅蛋白、血小板、肌酐、尿素氮、鈉離子、鉀離子、葡萄糖、氯離子、碳酸氫鹽、總膽紅素、凝血酶原時(shí)間、白蛋白、血細(xì)胞比容、紅細(xì)胞分布寬度、陰離子間隙、pH值、國際標(biāo)準(zhǔn)化比值、乳酸)、合并癥(高血壓、高脂血癥、糖尿病、充血性心力衰竭、心房顫動(dòng)、周圍血管病、腎臟疾病、肝臟疾病、呼吸衰竭、慢性阻塞性肺疾病),其中,生命體征和實(shí)驗(yàn)室檢查數(shù)據(jù)均為重復(fù)測(cè)量數(shù)據(jù)。
LSTM在RNN的基礎(chǔ)上增加了門控單元,從而對(duì)當(dāng)前狀態(tài)和過去狀態(tài)的信息進(jìn)行選擇性遺忘或保留。RNN處理時(shí)間序列數(shù)據(jù)的機(jī)制為通過隱藏層對(duì)時(shí)序信息進(jìn)行保留和傳遞,可表示為:Ht=φ(WhhHt-1+WhxXt+bh),Ot=tanh(WhoHt+bo),其中,Xt為當(dāng)前時(shí)點(diǎn)的變量值,W為權(quán)重,b為偏移,Ht-1為上一個(gè)時(shí)點(diǎn)的隱藏狀態(tài),當(dāng)前時(shí)點(diǎn)的隱藏狀態(tài)Ht是由當(dāng)前時(shí)點(diǎn)的輸入變量Xt和上一個(gè)時(shí)點(diǎn)的隱藏狀態(tài)Ht-1共同決定的,下一個(gè)時(shí)點(diǎn)的隱藏狀態(tài)Ht+1又由下一個(gè)時(shí)點(diǎn)的輸入變量Xt+1和當(dāng)前時(shí)點(diǎn)的隱藏狀態(tài)Ht共同決定,即每一個(gè)隱藏狀態(tài)都包含了此前所有時(shí)間步的信息。
LSTM, long short-term memory.It, input gate; Ft, forget gate; Ot, output gate; candidate memory cell; Ct, memory cell; Ht, hidden layer; Xt, input variables; Ct-1, memory cell at last time step; Ht-1, hidden layer at last time step.
由于LSTM內(nèi)部結(jié)構(gòu)復(fù)雜,無法得出變量對(duì)結(jié)局的具體貢獻(xiàn)并進(jìn)行合理的解釋,為增強(qiáng)模型的可解釋性,在變量輸入的水平上引入了注意力機(jī)制,即在變量進(jìn)入LSTM之前,給予在各時(shí)點(diǎn)測(cè)量的每個(gè)變量一定的注意力權(quán)重at,在每個(gè)時(shí)點(diǎn),所有變量注意力權(quán)重at之和為1,at可以表示為:at=softmax(xtWt)。此時(shí),新的輸入變量為:Xnew=A⊙X。通過對(duì)各時(shí)點(diǎn)的整合可以得到每個(gè)變量對(duì)結(jié)局的全局貢獻(xiàn),從而進(jìn)行變量篩選。
本研究中LSTM的超參數(shù)在模型訓(xùn)練前根據(jù)既往研究結(jié)果[20]預(yù)先確定,再根據(jù)驗(yàn)證集上的受試者工作特征曲線下面積(area under curve, AUC)進(jìn)行調(diào)整。最終采用的超參數(shù)為:unit為128的單層LSTM,Sigmoid激活函數(shù),dropout為20%,通過RMSPROP優(yōu)化器進(jìn)行訓(xùn)練,學(xué)習(xí)率0.001,rho為0.9,episilon為1e-08,迭代次數(shù)為10次,批樣本量為64。
由于生命體征變量多以小時(shí)為單位進(jìn)行測(cè)量,因此以小時(shí)為單位對(duì)入院后的48 h進(jìn)行劃分,并對(duì)每小時(shí)的各指標(biāo)進(jìn)行記錄,即劃分后每位患者均存在48個(gè)時(shí)間點(diǎn)×39個(gè)變量的二維數(shù)據(jù)。為使每個(gè)時(shí)點(diǎn)對(duì)應(yīng)唯一的變量值,若某變量在1 h內(nèi)被多次測(cè)量,則取該小時(shí)內(nèi)測(cè)量值的均值作為該時(shí)間點(diǎn)的變量值,若某變量在某時(shí)點(diǎn)存在缺失,則采用末次觀察推進(jìn)法(last observation carried forward,LOCF)對(duì)該時(shí)點(diǎn)的缺失值進(jìn)行填補(bǔ)。對(duì)于年齡、性別、出院診斷等非重復(fù)測(cè)量數(shù)據(jù),48個(gè)時(shí)間點(diǎn)均記錄相同值。去除初次填補(bǔ)后缺失比例大于30%的變量,其余連續(xù)變量的缺失值用均值填補(bǔ),分類變量的缺失值用出現(xiàn)比例較高的啞變量填補(bǔ)。LSTM模型對(duì)48 h內(nèi)每個(gè)時(shí)點(diǎn)的所有數(shù)據(jù)均進(jìn)行了提取和利用,而在L1正則化的Logistic回歸模型中,48 h內(nèi)的重復(fù)測(cè)量數(shù)據(jù)以最大值、最小值、均值和標(biāo)準(zhǔn)差的形式表示后納入模型。
共納入2 755位腦卒中患者,共包含2 979條ICU入院記錄,其中526條入院記錄存在對(duì)應(yīng)的院內(nèi)死亡記錄,占17.66%?;颊呋厩闆r、實(shí)驗(yàn)室檢查、生命體征檢查和合并癥的組間比較見表1。對(duì)于重復(fù)測(cè)量數(shù)據(jù),取48 h的均值進(jìn)行組間比較,其中,除性別、卒中亞型、慢性阻塞性肺疾病、血脂異常、周圍血管病變、收縮壓外,其余變量在是否出現(xiàn)院內(nèi)死亡上的差異均有統(tǒng)計(jì)學(xué)意義(P<0.05)。
表1 根據(jù)院內(nèi)死亡情況分組的ICU腦卒中患者的變量特征
LSTM模型和L1正則的Logistic回歸模型在10次隨機(jī)劃分?jǐn)?shù)據(jù)集中測(cè)試集的AUC分別為0.760±0.018和0.819±0.031,經(jīng)配對(duì)t檢驗(yàn)比較兩者差異有統(tǒng)計(jì)學(xué)意義(P<0.001),測(cè)試集的受試者工作特征曲線見圖3。
LSTM, long short-term memory; LR, Logistic regression; AUC, area under curve.
經(jīng)LSTM模型得出的變量重要程度中排名前20的變量見圖4。前10的變量依次為血糖、呼級(jí)衰竭、年齡、尿素氮、種族(白種人)、充血性心力衰竭、肝臟疾病、高脂血癥、碳酸氫鹽濃度、糖尿病。通過L1正則的Logistic回歸得出的經(jīng)最大值、最小值、均值和標(biāo)準(zhǔn)差擴(kuò)充后變量的回歸系數(shù)見圖5,回歸系數(shù)絕對(duì)值位于前10的變量分別為心率均值、年齡、心率最小值、鈉離子濃度最大值、血糖均值、鈉離子濃度標(biāo)準(zhǔn)差、尿素氮標(biāo)準(zhǔn)差、血紅蛋白標(biāo)準(zhǔn)差、血氧飽和度均值和陰離子間隙均值。
LSTM, long short-term memory; CHF, congestive heart failure; AFIB, atrial fibrillation; WBC, white blood cells; RDW, red cell volume distribution width.
HR, heart rate; WBC, white blood cells; RR, respiratory rate; PT, prothrombin time; SD, standard deviation.
選取兩個(gè)模型所得出的重要程度排名前10的變量,通過主成分法對(duì)連續(xù)型變量進(jìn)行聚類,通過1-R2統(tǒng)計(jì)量在每個(gè)類內(nèi)選取唯一變量以去除變量間的共線性。對(duì)二分類變量進(jìn)行相關(guān)性分析,對(duì)存在較強(qiáng)相關(guān)性的變量?jī)H保留其中之一進(jìn)入Logistic回歸模型,最終得到的預(yù)測(cè)模型見表2。模型共納入15個(gè)變量,測(cè)試集AUC為0.851,最佳截?cái)嘀迪?,靈敏度為85.98%,特異度為71.74%,預(yù)測(cè)準(zhǔn)確率為74.26%。
表2 基于Logistic回歸的預(yù)測(cè)模型
為比較模型的預(yù)測(cè)效果,將未進(jìn)行變量篩選的所有變量,即以最大值、最小值、均值和標(biāo)準(zhǔn)差的形式表示的重復(fù)測(cè)量的變量以及其他未經(jīng)處理的非重復(fù)測(cè)量變量(共102個(gè)變量)納入Logistic回歸模型,分別用前進(jìn)法、后退法和逐步法篩選變量并建立預(yù)測(cè)模型。其中,前進(jìn)法模型效果最好,模型共包含26個(gè)變量,測(cè)試集AUC為0.827,最佳截?cái)嘀迪拢`敏度為73.83%,特異度為79.16%,預(yù)測(cè)準(zhǔn)確率為78.22%。兩種預(yù)測(cè)模型的受試者工作特征曲線見圖6。
LR, Logistic regression; AUC, area under curve.
腦卒中患者是否出現(xiàn)院內(nèi)死亡受多種復(fù)雜因素的影響。本研究通過既往研究結(jié)果[17-18]、臨床經(jīng)驗(yàn)以及MIMIC-Ⅳ數(shù)據(jù)特征,納入了包括心率、呼吸頻率、血氧飽和度等在內(nèi)的潛在影響因素,通過引入注意力機(jī)制的LSTM深度學(xué)習(xí)模型和L1正則化的Logistic回歸對(duì)變量進(jìn)行篩選,將重要程度最高的15個(gè)變量納入Logistic回歸模型,通過AUC等指標(biāo)評(píng)價(jià)模型效果,達(dá)到使用盡可能少的變量對(duì)死亡風(fēng)險(xiǎn)進(jìn)行相對(duì)準(zhǔn)確預(yù)測(cè)的效果,從而輔助臨床決策。
ICU內(nèi)收集的數(shù)據(jù)與其他數(shù)據(jù)的區(qū)別在于其多為重復(fù)測(cè)量數(shù)據(jù),傳統(tǒng)的統(tǒng)計(jì)學(xué)模型和機(jī)器學(xué)習(xí)模型傾向于將重復(fù)測(cè)量數(shù)據(jù)以少數(shù)獨(dú)立的綜合指標(biāo)概括后進(jìn)行模型建立,而這樣并不能將時(shí)序數(shù)據(jù)中所包含的信息充分提取出來,可能導(dǎo)致有偏倚的結(jié)果[21]。LSTM模型由于可以對(duì)時(shí)序數(shù)據(jù)進(jìn)行學(xué)習(xí)[22],因此對(duì)于數(shù)據(jù)信息的利用較為充分,然而,從兩種變量篩選模型的預(yù)測(cè)效果來看,LSTM的預(yù)測(cè)效果并沒有L1正則化的Logistic回歸預(yù)測(cè)效果好,出現(xiàn)這種結(jié)果的原因可能是由于本研究納入的生命體征等測(cè)量頻率較高的時(shí)序數(shù)據(jù)較少,而納入較多的實(shí)驗(yàn)室檢查數(shù)據(jù)的測(cè)量頻率并不高,從而影響LSTM對(duì)長(zhǎng)期依賴關(guān)系進(jìn)行學(xué)習(xí)[23]。通過最大值、最小值、標(biāo)準(zhǔn)差和均數(shù)等指標(biāo),可以將時(shí)序數(shù)據(jù)的集中趨勢(shì)和離散程度的信息較充分地表現(xiàn)出來,可能造成L1正則化的Logistic回歸在預(yù)測(cè)效果方面表現(xiàn)更好。在變量進(jìn)入LSTM之前,通過注意力機(jī)制對(duì)變量賦予一定的權(quán)重,從而增強(qiáng)模型的可解釋性,然而,與L1正則化的Logistic回歸相比,注意力機(jī)制產(chǎn)生的變量重要性僅能提供變量的重要程度的結(jié)果,而對(duì)于變量對(duì)結(jié)局影響的方向信息無從獲取。L1正則化的Logistic回歸雖然可以通過偏回歸系數(shù)得到變量對(duì)結(jié)局影響的方向和程度,但由于該模型無法利用原始數(shù)據(jù)信息,即時(shí)序數(shù)據(jù)信息,而僅能將由時(shí)序數(shù)據(jù)轉(zhuǎn)化而來的綜合指標(biāo)信息作為輸入,因此對(duì)于篩選后所得變量的完整性和綜合性方面表現(xiàn)較差。例如,對(duì)于尿素氮這一指標(biāo),兩個(gè)變量篩選模型均將其列為重要程度排名前10的變量,但L1正則化的Logistic回歸所提取出的僅是尿素氮的標(biāo)準(zhǔn)差這一指標(biāo),而這一指標(biāo)無法對(duì)原始數(shù)據(jù)的信息進(jìn)行充分囊括,且不具備較為明確的臨床意義。
從兩種模型篩選出的變量來看,年齡、血糖和尿素氮在兩個(gè)模型中都是重要程度位于前10的變量,其中,年齡與腦卒中預(yù)后的關(guān)系在既往研究中也已被證實(shí),即年齡是腦卒中結(jié)局最重要的預(yù)測(cè)因子之一[24-26]。這與本研究建立的預(yù)測(cè)模型中的結(jié)果相一致,即年齡的OR值為30.81所表明的年齡與腦卒中死亡風(fēng)險(xiǎn)之間有極強(qiáng)關(guān)聯(lián)。年齡越大的患者,身體機(jī)能相對(duì)越差,合并的慢性病也越多,因此發(fā)生不良預(yù)后的風(fēng)險(xiǎn)越高。此外,本研究得出血糖與腦卒中的預(yù)后有重要關(guān)系,這也與既往研究結(jié)果一致[27]。持續(xù)性血糖升高與預(yù)后不良顯著相關(guān)[28],血糖對(duì)腦卒中預(yù)后的影響涉及包括內(nèi)皮細(xì)胞功能受損、一氧化氮生成紊亂[29]和血管收縮因子激活[30]等在內(nèi)的復(fù)雜神經(jīng)病理學(xué)機(jī)制,最終表現(xiàn)為血管收縮、炎癥、血栓等不良反應(yīng)[31]。本研究結(jié)果顯示,尿素氮與腦卒中患者的院內(nèi)死亡風(fēng)險(xiǎn)相關(guān),既往研究也得出了相同結(jié)果[32]。
由于兩種模型是基于不同原理進(jìn)行變量篩選,因此得出的重要變量存在差異,其中,LSTM傾向于篩選出合并癥相關(guān)變量,而L1正則化的Logistic回歸則傾向于篩選出生命體征和實(shí)驗(yàn)室檢查相關(guān)變量,這一方面是由于生命體征和實(shí)驗(yàn)室檢查等重復(fù)測(cè)量數(shù)據(jù)在L1正則化的Logistic回歸里被擴(kuò)充為最大值、最小值、均值和標(biāo)準(zhǔn)差的形式,即每個(gè)重復(fù)測(cè)量的變量個(gè)數(shù)都在原先的基礎(chǔ)上被擴(kuò)大了4倍,而合并癥等變量個(gè)數(shù)并沒有發(fā)生改變,因此生命體征和實(shí)驗(yàn)室檢查變量被篩選為重要變量的機(jī)會(huì)更大。
從最終建立的Logistic回歸模型的預(yù)測(cè)效果來看,相比于未預(yù)先用深度學(xué)習(xí)(LSTM)和機(jī)器學(xué)習(xí)(L1正則化的Logistic回歸)方法進(jìn)行變量篩選而直接通過前進(jìn)法Logistic回歸建立的模型,經(jīng)過深度學(xué)習(xí)和機(jī)器學(xué)習(xí)方法進(jìn)行變量篩選后再用Logistic回歸建模具有明顯的優(yōu)勢(shì),表現(xiàn)在其用遠(yuǎn)少于前進(jìn)法Logistic回歸的變量數(shù)得到了優(yōu)于前進(jìn)法Logistic回歸的預(yù)測(cè)效果。進(jìn)行變量篩選的目的在于提高預(yù)測(cè)效果,在一定程度上篩選出高危人群并在實(shí)際應(yīng)用時(shí)節(jié)省開銷[33]。本研究采用兩種不同的方法充分利用時(shí)序數(shù)據(jù)信息進(jìn)行變量篩選,將篩選后的變量納入最常規(guī)的Logistic回歸模型進(jìn)行建模預(yù)測(cè),從而達(dá)到將重要的信息應(yīng)用于最普遍、最易于理解和解釋的傳統(tǒng)統(tǒng)計(jì)學(xué)模型的效果。雖然機(jī)器學(xué)習(xí)和深度學(xué)習(xí)方法在醫(yī)學(xué)領(lǐng)域應(yīng)用的越來越廣泛,但Logistic回歸的優(yōu)勢(shì)仍然是不能被忽視的,如其所提供的OR值等指標(biāo),能夠?qū)⒆兞繉?duì)于結(jié)局影響的方向和程度進(jìn)行很好地解釋,這也是其在臨床普遍應(yīng)用的原因之一[16]。對(duì)于Logistic回歸無法解決變量間存在的交互作用和共線性等問題,本研究使用深度學(xué)習(xí)和機(jī)器學(xué)習(xí)方法預(yù)先進(jìn)行了變量篩選,并最終回歸到Logistic回歸模型,將機(jī)器學(xué)習(xí)和傳統(tǒng)統(tǒng)計(jì)學(xué)模型的優(yōu)勢(shì)相結(jié)合,得到了優(yōu)于僅使用一種方法建模所得出的結(jié)果。相較于其他同類研究,本研究模型的預(yù)測(cè)效果也具備一定優(yōu)勢(shì)。Ge等[34]的研究將RNN-LSTM模型和Logistic回歸模型分別用于對(duì)4 896位ICU患者進(jìn)行死亡風(fēng)險(xiǎn)預(yù)測(cè),所得到的AUC分別為0.761和0.741。Xia等[13]的研究將LSTM集成算法用于對(duì)18 415位ICU患者進(jìn)行院內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè),模型的AUC為0.845。Gandin等[23]的研究將LSTM模型用于對(duì)10 616位來源于MIMIC-Ⅲ數(shù)據(jù)庫的患有心血管疾病的患者進(jìn)行7 d內(nèi)死亡風(fēng)險(xiǎn)預(yù)測(cè),AUC為0.790。考慮到本研究樣本量較小,因此模型具備較好的預(yù)測(cè)性能。
本研究存在一定的局限性:首先,選取腦卒中患者作為研究對(duì)象在一定程度上限制了樣本量的大小,深度學(xué)習(xí)算法的優(yōu)勢(shì)在于其可以有效地實(shí)現(xiàn)預(yù)測(cè)變量和結(jié)局變量之間的復(fù)雜映射,但需要大量的樣本對(duì)模型的參數(shù)進(jìn)行推斷[35],因此,本研究的樣本量對(duì)深度學(xué)習(xí)模型的預(yù)測(cè)效果產(chǎn)生了一定的影響;其次,本研究建立的預(yù)后預(yù)測(cè)模型是基于最大值、最小值、均值和標(biāo)準(zhǔn)差擴(kuò)充后的數(shù)據(jù)建立的,雖然可以通過OR值獲得變量與結(jié)局的關(guān)聯(lián)強(qiáng)度,但是在解釋上仍然存在一定的困難,如變量的標(biāo)準(zhǔn)差對(duì)結(jié)局的影響并不能較為直觀地應(yīng)用于臨床;第三,本研究?jī)H納入了患者基本信息、實(shí)驗(yàn)室檢查、生命體征和合并癥相關(guān)變量,而對(duì)于包括機(jī)械通氣在內(nèi)的手術(shù)、包括輸液在內(nèi)的液體流入、包括尿量在內(nèi)的液體輸出和用藥信息并未納入,因此在一定程度上影響了模型的預(yù)測(cè)效果;最后,本研究建立的預(yù)測(cè)模型并沒有進(jìn)行外部驗(yàn)證,因此其具體價(jià)值還需進(jìn)一步考量。
綜上所述,基于引入注意力機(jī)制的LSTM和L1正則化的Logistic回歸篩選變量,并通過傳統(tǒng)的Logistic回歸建立的預(yù)測(cè)模型效果較好,有利于輔助臨床決策和預(yù)后評(píng)估。