国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

CCU數(shù)據(jù)的多模態(tài)融合在動(dòng)態(tài)死亡風(fēng)險(xiǎn)預(yù)測(cè)中的應(yīng)用

2022-02-08 13:40:48然,邱皖,婁
關(guān)鍵詞:結(jié)構(gòu)化模態(tài)預(yù)測(cè)

李 然,邱 皖,婁 巖

(1.大連海洋大學(xué) 信息工程學(xué)院,遼寧 大連 116023;2.中國(guó)醫(yī)科大學(xué) 智能醫(yī)學(xué)學(xué)院,沈陽(yáng) 110122)

冠心病監(jiān)護(hù)室(CCU)是重癥監(jiān)護(hù)室(ICU)的一部分,主要關(guān)注心臟病患者,病情通常嚴(yán)重威脅到患者的生命。CCU先進(jìn)的設(shè)備和持續(xù)的監(jiān)護(hù)保證了病人的病情可以得到有效監(jiān)測(cè),這些監(jiān)測(cè)數(shù)據(jù)對(duì)醫(yī)生制定合適的干預(yù)措施至關(guān)重要。同時(shí),在CCU可以得到患者的生命體征、檢查結(jié)果和處方等各種數(shù)據(jù),為使用CCU數(shù)據(jù)決策提供了較好的支持。

死亡預(yù)測(cè)是CCU的醫(yī)務(wù)人員進(jìn)行治療決策的重要的依據(jù)之一。作為重癥監(jiān)護(hù)的一部分,各種危重評(píng)估系統(tǒng)用于CCU臨床預(yù)測(cè),包括急性生理學(xué)和慢性健康評(píng)估(APACHE)[1]、簡(jiǎn)化急性生理學(xué)評(píng)估(SAPS)[2]和死亡率概率模型(MPM)[3]。這些評(píng)估模型依賴患者在入住CCU后最初幾個(gè)小時(shí)內(nèi)獲得的生理測(cè)量值(例如24 h),測(cè)量值與規(guī)定正常值的偏差越高,死亡風(fēng)險(xiǎn)越高。醫(yī)生制定治療方案時(shí)會(huì)考慮這些評(píng)估值。然而,這些傳統(tǒng)的基于統(tǒng)計(jì)的模型存在一些局限性,包括:①用于預(yù)測(cè)的數(shù)據(jù)取自于靜態(tài)數(shù)據(jù);②模型更新周期長(zhǎng);③沒(méi)有利用多模態(tài)數(shù)據(jù)。

為了克服這些局限性,近年來(lái),機(jī)器學(xué)習(xí)方法,如決策樹(shù)[4-5]和支持向量機(jī)(SVM)[6-8],被用來(lái)預(yù)測(cè)CCU死亡風(fēng)險(xiǎn)。由于這些數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)模型的存在,建立基于局域ICU數(shù)據(jù)的個(gè)性化評(píng)估系統(tǒng)成為可能。而基準(zhǔn)的機(jī)器學(xué)習(xí)方法很難充分利用ICU數(shù)據(jù)的時(shí)間性和異構(gòu)性。最近,有研究人員引入深度學(xué)習(xí)技術(shù)來(lái)解決這些問(wèn)題,將具有時(shí)間屬性的多模態(tài)ICU事件輸入到不同的神經(jīng)網(wǎng)絡(luò),如傳統(tǒng)神經(jīng)網(wǎng)絡(luò)(CNN)[9-10]和遞歸神經(jīng)網(wǎng)絡(luò)(RNN)[11-13],生成低維的特征表示。這些特征包含了患者歷史信息的核心特征,對(duì)提高死亡風(fēng)險(xiǎn)預(yù)測(cè)很有幫助。

已有的ICU相關(guān)研究中,邏輯回歸、支持向量機(jī)、樸素貝葉斯等方法適用于小規(guī)模和特定數(shù)據(jù)集,CNN、CNN-NHANES、GaborCNN、CNN-LSTM等方法需要大量數(shù)據(jù)進(jìn)行訓(xùn)練,且訓(xùn)練出的模型可解釋性較差,CWT-CNN允許樣本有較大的的缺損、畸變,運(yùn)行速度快,模型具備一定可解釋性。

目前大多數(shù)的針對(duì)ICU的死亡預(yù)測(cè)研究更加重視結(jié)構(gòu)化數(shù)據(jù),很少結(jié)合患者的CT影像和心電圖這樣的非結(jié)構(gòu)化數(shù)據(jù)研究。但由于CCU主要關(guān)注心臟病患者,必須備有做心電圖的長(zhǎng)期監(jiān)護(hù)措施,所以CCU患者更需要關(guān)注心臟的檢測(cè)數(shù)據(jù)心電圖(ECG)和心臟超聲報(bào)告(ECHO)數(shù)據(jù),這在CCU患者的死亡率預(yù)測(cè)中起著至關(guān)重要的作用。

本研究提出了一種動(dòng)態(tài)預(yù)測(cè)CCU患者死亡風(fēng)險(xiǎn)的多模態(tài)融合方法,主要分析現(xiàn)有的CCU中危重風(fēng)險(xiǎn)評(píng)估系統(tǒng)的局限性,指出了在死亡預(yù)測(cè)中探索多模態(tài)數(shù)據(jù)機(jī)器學(xué)習(xí)方法的必要性。同時(shí),從2個(gè)維度對(duì)CCU多模態(tài)數(shù)據(jù)進(jìn)行了系統(tǒng)分類。在此基礎(chǔ)上,對(duì)不同類型的數(shù)據(jù)采用不同的融合方法,加入了時(shí)間維度進(jìn)行預(yù)測(cè)。

1 CCU多模態(tài)數(shù)據(jù)的分類

現(xiàn)有的臨床多模態(tài)融合研究主要集中在醫(yī)學(xué)影像上,如核磁共振(MRI)、計(jì)算機(jī)斷層掃描(CT)和X射線。然而,CCU數(shù)據(jù)的形式遠(yuǎn)不止這些。因此,本研究從2個(gè)維度進(jìn)行系統(tǒng)分類,以展示數(shù)據(jù)的多樣性,如圖1所示。

圖1 CCU數(shù)據(jù)2個(gè)維度分類Fig.1 Classification for CCU data from two orthogonal dimensions

圖1中,第1個(gè)維度將數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)?;鶞?zhǔn)的機(jī)器學(xué)習(xí)方法大多采用結(jié)構(gòu)化數(shù)據(jù)進(jìn)行建模,如年齡、性別和檢查數(shù)據(jù)等,很少采用醫(yī)學(xué)影像、自然語(yǔ)言報(bào)告和心電圖這樣的非結(jié)構(gòu)化數(shù)據(jù)。第2個(gè)維度是關(guān)于時(shí)間屬性。數(shù)據(jù)可歸納為4類:高頻采樣數(shù)據(jù)、低頻采樣數(shù)據(jù)、不定期采樣數(shù)據(jù)及時(shí)間無(wú)關(guān)數(shù)據(jù)。在不同的時(shí)間維度上整合這些數(shù)據(jù)是本研究著重解決的問(wèn)題。

2 問(wèn)題定義

將患者在CCU中住院期間發(fā)生的臨床事件定義為si,觀察的時(shí)間為長(zhǎng)度Ti,臨床事件s_(i)表示為三元組eji=(k,v,t)。k和v分別是事件的類型和值。k和v對(duì)應(yīng)一個(gè)時(shí)間記錄t,在這里t是相對(duì)于患者進(jìn)入CCU的時(shí)間間隔。例如,(pulse,56,5 h)表示患者入院后5 h脈搏為56。對(duì)于與時(shí)間無(wú)關(guān)的事件,設(shè)置t為NULL。

動(dòng)態(tài)死亡風(fēng)險(xiǎn)預(yù)測(cè)任務(wù)定義為:對(duì)于每個(gè)CCU的臨床事件si,給定一個(gè)預(yù)測(cè)時(shí)間戳T(Tmin≤T≤Ti),根據(jù)事件順序預(yù)測(cè)患者是否會(huì)在未來(lái)24 h內(nèi)死亡(從T到T+24 h),Tmin是預(yù)測(cè)中收集數(shù)據(jù)的最小時(shí)間跨度。在本研究中,每小時(shí)進(jìn)行一次預(yù)測(cè)。

3 文本和波形數(shù)據(jù)的處理方法

在CCU數(shù)據(jù)的各種形式中,非結(jié)構(gòu)化數(shù)據(jù)很少用于死亡風(fēng)險(xiǎn)預(yù)測(cè)。主要障礙是很難將這些數(shù)據(jù)與用于預(yù)測(cè)的結(jié)構(gòu)化數(shù)據(jù)相集成。本研究的關(guān)鍵技術(shù)是對(duì)不同的非結(jié)構(gòu)化數(shù)據(jù)使用不同的方法來(lái)提取不同的結(jié)構(gòu)化特征,這些特征可以與結(jié)構(gòu)化數(shù)據(jù)融合。以MIMIC-III數(shù)據(jù)集為例,有2種典型的非結(jié)構(gòu)化數(shù)據(jù):文本形式的ECHO和波形形式的ECG。這些數(shù)據(jù)對(duì)反映CCU患者的心臟狀態(tài)很重要[14]。

3.1 文本數(shù)據(jù)

對(duì)于自然語(yǔ)言處理,深度學(xué)習(xí)方法已經(jīng)達(dá)到了較成熟的水平。本研究采用經(jīng)典的處理路線,包含3個(gè)步驟來(lái)從超聲報(bào)告ECHO中生成結(jié)構(gòu)化特征[15]。

(1)詞級(jí)嵌入。假設(shè)一個(gè)單詞可以用上下文單詞來(lái)表示,為每個(gè)單詞生成嵌入。單詞嵌入是一組包含豐富語(yǔ)義信息的低維向量[16]。

(2)報(bào)表級(jí)嵌入?;趩卧~級(jí)嵌入,構(gòu)建一個(gè)CNN為每個(gè)報(bào)告生成嵌入,如圖2所示。在CNN訓(xùn)練中,解決兩個(gè)問(wèn)題:①是冠心病還是其他功能性心臟病;②是否住院死亡。多任務(wù)學(xué)習(xí)不僅有助于避免過(guò)擬合,而且有助于提取更豐富的特征。使用不同大小的多個(gè)卷積核來(lái)捕獲各種詞序、語(yǔ)法和語(yǔ)義信息。從池層導(dǎo)出的向量形成報(bào)表級(jí)嵌入。

圖2 CNN和文本數(shù)據(jù)聚類Fig.2 CNN and clustering for textual data

(3)聚類。雖然報(bào)表級(jí)嵌入對(duì)于表示超聲報(bào)告ECHO是有效的,但是很難將它們與其他結(jié)構(gòu)化特征融合以進(jìn)行預(yù)測(cè)。本研究在這些嵌入上使用K均值將它們分到幾個(gè)集群中,使CCU的每個(gè)超聲ECHO報(bào)告都可以轉(zhuǎn)換為一個(gè)熱特征。

3.2 波形數(shù)據(jù)

心電圖作為反映心臟生理活動(dòng)的高頻波形數(shù)據(jù),在CCU患者的死亡風(fēng)險(xiǎn)預(yù)測(cè)中具有很大的潛在價(jià)值,信號(hào)處理在心電分析中起著重要的作用,結(jié)構(gòu)化特征可以通過(guò)成熟的技術(shù)進(jìn)行提取。本研究采用文獻(xiàn)[17]中提出的特征提取流程對(duì)心電數(shù)據(jù)進(jìn)行處理。首先計(jì)算整個(gè)信號(hào)的頻譜圖以去除噪聲,然后從心電信號(hào)中提取形態(tài)學(xué)特征、心率變異性(HRV)特征、頻率特征、統(tǒng)計(jì)特征和一些噪聲檢測(cè)特征[18]。

3.3 多模態(tài)融合

大多數(shù)常用分類器沒(méi)有考慮時(shí)間因素對(duì)于預(yù)測(cè)的有效性。為了在模型中加入時(shí)間信息,本研究構(gòu)造了2種與時(shí)間相關(guān)的特征集,使分類器具有時(shí)間屬性。一個(gè)特征集來(lái)自事件序列{eji}T-1h≤eji.t≤T),表示預(yù)測(cè)時(shí)間戳最近(1 h)發(fā)生的事件;另一個(gè)特征集來(lái)自事件序列,{eji}0≤eji.t≤T-1h)代表更早發(fā)生的歷史事件。時(shí)間屬性的事件中既包括定期測(cè)量的生命體征,也包括不定期采集的化驗(yàn)結(jié)果,例如白細(xì)胞計(jì)數(shù)(WBC)和鉀含量。這些事件序列全部來(lái)自病人的歷史數(shù)據(jù)收集窗口,時(shí)間段為進(jìn)入CCU后的前24 h。一個(gè)事件序列在數(shù)據(jù)收集窗口內(nèi)會(huì)存在多個(gè)觀測(cè)值,而且不同事件序列的采樣頻率不相同[19]。為了解決事件序列采樣不均勻的問(wèn)題,基于時(shí)間采樣窗口對(duì)事件序列進(jìn)行重采樣,例如每小時(shí)采樣一次,這樣數(shù)據(jù)收集窗口可分成24個(gè)時(shí)間采樣窗口。在一個(gè)時(shí)間段內(nèi)若仍然存在多個(gè)觀測(cè)值,則計(jì)算出現(xiàn)在同一個(gè)時(shí)間段內(nèi)的所有觀測(cè)值的統(tǒng)計(jì)量,以此作為該時(shí)間段的特征表示。根據(jù)每個(gè)事件序列的特性選擇合適的統(tǒng)計(jì)量[20]。例如,尿量在某個(gè)時(shí)間段的表示是所有尿量的總和。將全部事件序列的特征表示向量拼接起來(lái),即可得到時(shí)間序列數(shù)據(jù)的特征表示向量。對(duì)于臨床數(shù)據(jù)中的非事件序列,如離散型變量,則采用one-hot方法來(lái)表示。最終,將臨床數(shù)據(jù)中所有變量的表示拼接,得到病人的表示,再輸入到XGboost中,進(jìn)行未來(lái)的死亡風(fēng)險(xiǎn)預(yù)測(cè)。

對(duì)具有不同時(shí)間屬性的事件使用不同的策略:

(1)對(duì)于波形事件(高頻或低頻),使用上述方法生成特征。

(2)對(duì)于不定期采樣的事件,使用最近特征集的最新值和早期特征集的平均值。

(3)對(duì)于與時(shí)間無(wú)關(guān)的事件,將它們插入到2個(gè)特征集中。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)源

MIMIC-III是一個(gè)可自由訪問(wèn)的數(shù)據(jù)庫(kù),包含5種不同類型的重癥監(jiān)護(hù)室的多模態(tài)數(shù)據(jù):CCU、心臟外科康復(fù)室(CSRU)、內(nèi)科重癥監(jiān)護(hù)室(MICU)、外科重癥監(jiān)護(hù)室(SICU)和創(chuàng)傷外科重癥監(jiān)護(hù)室(TSICU)。數(shù)據(jù)種類包括人口統(tǒng)計(jì)、生命體征、化驗(yàn)數(shù)據(jù)、藥物信息等,這些數(shù)據(jù)來(lái)自4萬(wàn)多名危重患者,時(shí)間跨度超過(guò)10 a。本研究從實(shí)驗(yàn)數(shù)據(jù)集中提取了CCU的數(shù)據(jù)。MIMIC-III數(shù)據(jù)集和CCU子集的簡(jiǎn)要統(tǒng)計(jì)數(shù)據(jù)如表1所示。

表1 MIMIC-III數(shù)據(jù)集的統(tǒng)計(jì)Tab.1 The statistic of MIMIC-III dataset

4.2 實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)的目標(biāo)是基于病人在進(jìn)入CCU后的前24 h的歷史數(shù)據(jù),預(yù)測(cè)未來(lái)24 h內(nèi)是否會(huì)死亡。實(shí)驗(yàn)的輸入是從數(shù)據(jù)收集窗口中采集的非時(shí)間序列數(shù)據(jù)、臨床時(shí)間序列數(shù)據(jù)和ECG波形監(jiān)測(cè)信號(hào)數(shù)據(jù),標(biāo)簽是病人在未來(lái)24 h內(nèi)的死亡情況。在清洗后(刪除參考價(jià)值不高、缺失較多的數(shù)據(jù))的數(shù)據(jù)中提取出患者在CCU期間死亡風(fēng)險(xiǎn)預(yù)測(cè)模型中所需的43個(gè)變量后進(jìn)行數(shù)據(jù)歸一化后拼接,得到病人的特征表示,使用XGBoost將多模態(tài)數(shù)據(jù)融合,進(jìn)行預(yù)測(cè)模型的學(xué)習(xí),結(jié)合這些變量進(jìn)行患者死亡風(fēng)險(xiǎn)的預(yù)測(cè),最后輸出患者的預(yù)測(cè)類別(存活/死亡)。通過(guò)設(shè)置對(duì)照實(shí)驗(yàn),驗(yàn)證本文所述方法性能的優(yōu)越性。

4.2.1 患者數(shù)據(jù)集定義及樣本特征選取

本研究定義最小觀察窗Tmin=6 h,最長(zhǎng)觀察窗Tmax=24 h。在實(shí)驗(yàn)中。由于患者在整個(gè)CCU停留期間,ECG并非總是連續(xù)記錄的,因此將每個(gè)患者在CCU停留時(shí)間分割成幾個(gè)事件序列,對(duì)一次就診中的所有事件向量進(jìn)行分組,以確保每個(gè)序列包含超過(guò)6 h的連續(xù)ECG數(shù)據(jù)。此步驟的主要原因是減少模型輸入數(shù)據(jù),提高計(jì)算效率。

(1)患者數(shù)據(jù)集定義:選取第一次進(jìn)入CCU以及年齡大于18歲的患者作為CCU患者數(shù)據(jù)集,對(duì)于患者第二次或者多次入院情況數(shù)據(jù)暫時(shí)不予考慮。樣本必須能從數(shù)據(jù)收集窗口中提取出3個(gè)模態(tài)的醫(yī)療數(shù)據(jù),包括臨床時(shí)間序列數(shù)據(jù)、ECG信號(hào)數(shù)據(jù)和非時(shí)序的臨床數(shù)據(jù)。對(duì)于篩選過(guò)后的數(shù)據(jù)集中每一個(gè)CCU樣本,提取進(jìn)入CCU后的前24 h內(nèi)的多模態(tài)數(shù)據(jù),包括MIMIC-III臨床數(shù)據(jù)庫(kù)中的臨床數(shù)據(jù)和MIMIC-III波形數(shù)據(jù)庫(kù)中的ECG第二導(dǎo)聯(lián)(Lead-II)數(shù)據(jù)。將患者首次入住CCU作為統(tǒng)計(jì)其是否死亡的起點(diǎn),將患者死亡或者患者在數(shù)據(jù)庫(kù)記錄時(shí)間段內(nèi)未死亡作為統(tǒng)計(jì)的終點(diǎn)。

(2)患者特征納入:除ECG和ECHO報(bào)告外,選用以下幾大類特征來(lái)構(gòu)建模型,主要納入的特征是:①與時(shí)間無(wú)關(guān)的基礎(chǔ)變量,包括年齡、性別、民族;②低頻采樣變量,包括血氧飽和度、舒張壓、收縮壓等;③不規(guī)則采樣變量,包括血糖、pH值、鈉含量(全血)、動(dòng)脈血氧飽和度等。

總共獲得了6 688個(gè)事件序列作為實(shí)驗(yàn)的數(shù)據(jù)集,其中80%用于訓(xùn)練,20%用于測(cè)試。利用10折交叉驗(yàn)證法進(jìn)行模型訓(xùn)練與評(píng)估,得到10個(gè)驗(yàn)證集的結(jié)果,并將其平均化為模型的平均結(jié)果。同時(shí),根據(jù)這些結(jié)果進(jìn)行模型選擇和參數(shù)調(diào)整。

4.2.2 參數(shù)選擇

在本研究中,采用網(wǎng)格搜索和隨機(jī)搜索來(lái)優(yōu)化參數(shù),通過(guò)結(jié)合5折交叉驗(yàn)證來(lái)減少結(jié)果的偶然性,避免陷入局部最優(yōu)。為了獲得參數(shù)的最優(yōu)組合,實(shí)驗(yàn)時(shí),網(wǎng)格搜索不采用縮短步長(zhǎng)的方式,而采樣窮舉策略來(lái)尋找參數(shù),實(shí)驗(yàn)次數(shù)為1輪。隨機(jī)搜索由于結(jié)果的不確定性,實(shí)驗(yàn)次數(shù)為10輪。

4.2.3 實(shí)驗(yàn)方法

本研究融合具有不同結(jié)構(gòu)和時(shí)間維度的數(shù)據(jù)用于死亡預(yù)測(cè)。分別針對(duì)基準(zhǔn)的機(jī)器學(xué)習(xí)方法SVM和主流機(jī)器學(xué)習(xí)方法進(jìn)行預(yù)測(cè)及評(píng)估。實(shí)驗(yàn)首先對(duì)比基準(zhǔn)的機(jī)器學(xué)習(xí)方法SVM,設(shè)計(jì)了8種預(yù)測(cè)方法進(jìn)行預(yù)測(cè)及評(píng)估。

(1)基準(zhǔn)方法-無(wú)非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的SVM:不會(huì)將數(shù)據(jù)分成與2個(gè)時(shí)間相關(guān)的特征集;同時(shí)不使用文本和波形數(shù)據(jù)進(jìn)行預(yù)測(cè)。

(2)基準(zhǔn)方法-無(wú)非結(jié)構(gòu)化數(shù)據(jù)的SVM:將使用時(shí)間信息(與時(shí)間相關(guān)的特征集)進(jìn)行預(yù)測(cè)。

(3)基準(zhǔn)方法-無(wú)時(shí)間信息的SVM:使用TF-IDF[22]和統(tǒng)計(jì)信息(如平均值、最大值、最小值)用作超聲報(bào)告和波形數(shù)據(jù)的特征值。

(4)基準(zhǔn)方法-SVM:使用非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的SVM。

(5)本研究方法-無(wú)非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息:預(yù)測(cè)無(wú)非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息。

(6)本研究方法-無(wú)非結(jié)構(gòu)化數(shù)據(jù):預(yù)測(cè)沒(méi)有文本和波形數(shù)據(jù)。

(7)本研究方法-無(wú)時(shí)間信息分析:預(yù)測(cè)沒(méi)有時(shí)間信息。

(8)本研究方法-有非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息:預(yù)測(cè)使用文本和波形數(shù)據(jù)及時(shí)間信息。

其次,實(shí)驗(yàn)對(duì)比主流機(jī)器學(xué)習(xí)方法,所有方法均在融合非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息情況下進(jìn)行預(yù)測(cè)及評(píng)估。

4.2.4 評(píng)估指標(biāo)

本研究選用的評(píng)估指標(biāo)包括:準(zhǔn)確率(Accuracy)、靈敏度(Sensitivity)、特異度(Specificity)、F1值、AUCROC及其AUC-PR值。

4.3 結(jié)果分析

定量評(píng)估結(jié)果如表2所示。

表2 預(yù)測(cè)性能評(píng)估Tab.2 Evaluation of the prediction performance

從表2中可以看到,本研究的方法在AUC-ROC和AUC-PR方面都比基準(zhǔn)方法有顯著改進(jìn)。分別從縱向和橫向2個(gè)方面進(jìn)行詳細(xì)分析。

4.3.1 縱向比較

通過(guò)分析基準(zhǔn)SVM的方法和本研究的方法,推斷出二者在預(yù)測(cè)性能上的差異。對(duì)于基準(zhǔn)SVM的方法,非結(jié)構(gòu)化數(shù)據(jù)(無(wú)時(shí)間信息的SVM)和時(shí)間信息(無(wú)非結(jié)構(gòu)化數(shù)據(jù)的SVM)的引入分別比無(wú)非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的SVM在AUC-ROC/AUC-PR上分別獲得1.36%/3.94%和2.4%/3.41%的改進(jìn)。而組合使用非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的SVM獲得3.64%/9.38%提升,對(duì)于本研究的的方法,可以得出類似的結(jié)論,如圖3所示。由此可見(jiàn),通過(guò)引入多模態(tài)數(shù)據(jù),可以獲得更好的動(dòng)態(tài)死亡風(fēng)險(xiǎn)預(yù)測(cè)性能。

圖3 基于SVM方法的預(yù)測(cè)得分Fig.3 Prediction score based on SVMmethod

4.3.2 橫向比較

給定相同的數(shù)據(jù)類型,重點(diǎn)討論基準(zhǔn)的SVM方法和本研究之間的差異。

首先,通過(guò)對(duì)不含時(shí)間信息的方法的比較,發(fā)現(xiàn)引入非結(jié)構(gòu)化數(shù)據(jù),本研究在AUC-ROC上比基準(zhǔn)的SVM(0.776 9~0.787 5)有更大的改進(jìn)(0.841 0~0.872 1),在AUC-ROC/AUC-PR上的改進(jìn)分別為8.25%/14.26%和10.74%/21.06%。原因是本研究在方法中使用了更先進(jìn)的技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)中提取特征,即:CNN用于文本數(shù)據(jù)處理;信號(hào)處理方法用于波形數(shù)據(jù)。

通過(guò)對(duì)含時(shí)間信息的方法的比較,分析無(wú)非結(jié)構(gòu)化數(shù)據(jù)和有非結(jié)構(gòu)化數(shù)據(jù)及時(shí)間信息的方法,結(jié)果標(biāo)明本研究的性能較基準(zhǔn)的SVM在AUC-ROC/AUCPR上獲得9.31%/18.25%和11.36%/25.31%的改進(jìn)。原因之一可能是基準(zhǔn)的SVM中變量獨(dú)立性的假設(shè)在很大程度上限制了多模態(tài)融合的能力,而XGBoost等機(jī)器學(xué)習(xí)方法可以更好地處理海量數(shù)據(jù)。

4.3.3 與其他主流機(jī)器學(xué)習(xí)模型對(duì)比分析

除了從縱向和橫向2個(gè)方面進(jìn)行對(duì)比,為了更好的驗(yàn)證本研究模型的性能,將本研究模型與4種主流機(jī)器學(xué)習(xí)算法進(jìn)行對(duì)比,使用準(zhǔn)確率、靈敏度、特異度、F1值、AUC值5個(gè)指標(biāo)進(jìn)行模型評(píng)估,如表3所示。將處理后數(shù)據(jù)集的80%劃分為訓(xùn)練集,20%劃分為測(cè)試集,各模型均使用默認(rèn)參數(shù)。

表3 主流機(jī)器學(xué)習(xí)模型的指標(biāo)比較結(jié)果Tab.3 Comparison of index for mainstream machine learning models

由表3中對(duì)比的實(shí)驗(yàn)結(jié)果可知:

(1)在融合非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的情況下,對(duì)比基于線性分類的邏輯回歸模型,本研究在AUC上獲得11.42%的改進(jìn)。這表明CCU臨床數(shù)據(jù)通常表現(xiàn)出復(fù)雜的非線性關(guān)系,所以基于非線性關(guān)系的模型可以獲得較好的分類效果。

(2)基于集成算法的模型在數(shù)據(jù)集上均表現(xiàn)較好,本研究采用的XGBoost算法是集成學(xué)習(xí)boosting方法的一種,實(shí)驗(yàn)表明,在融合非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的情況下,本研究較隨機(jī)森林、GradientBoost、AdaBoost在AUC上獲得平均1.31%的改進(jìn)。原因是XGBoost在目標(biāo)函數(shù)中加上了正則化項(xiàng),使學(xué)習(xí)出來(lái)的模型更加簡(jiǎn)單,有效地防止過(guò)擬合。

(3)XGBoost模型在訓(xùn)練之前,對(duì)輸入特征數(shù)據(jù)排序,存儲(chǔ)為Block結(jié)構(gòu),在之后的預(yù)測(cè)過(guò)程中重復(fù)地使用這個(gè)結(jié)構(gòu),很大程度上減少了計(jì)算量,可以在預(yù)測(cè)中實(shí)現(xiàn)并行計(jì)算,因此具有更快的預(yù)測(cè)速度。綜合比較上述指標(biāo),在5種算法中,XGBoost算法預(yù)測(cè)結(jié)果相比其他算法更加優(yōu)秀。

在本研究中,由于采用數(shù)據(jù)多模態(tài)融合策略,建模的所有特征都是結(jié)構(gòu)化的。XGBoost提供了一個(gè)關(guān)于特征的權(quán)重,該權(quán)重體現(xiàn)了每個(gè)特征在構(gòu)建預(yù)測(cè)模型中的價(jià)值。通過(guò)統(tǒng)計(jì)權(quán)重最高的前20個(gè)特征的特征類型,得到1個(gè)與時(shí)間無(wú)關(guān)特征(年齡)、3個(gè)與心電圖相關(guān)特征、9個(gè)低頻采樣特征(血壓/心率/呼吸頻率相關(guān))和7個(gè)不規(guī)則采樣特征(pH/血糖/體溫相關(guān))。這些特征中的大部分來(lái)源于最近和較近的特征集。以上結(jié)果表明,CCU數(shù)據(jù)的多模態(tài)性對(duì)提高預(yù)測(cè)模型的準(zhǔn)確率起著重要的作用。

5 結(jié)論

本文從結(jié)構(gòu)和時(shí)間2個(gè)維度對(duì)CCU數(shù)據(jù)進(jìn)行了分類。為了融合文本形式和波形等非結(jié)構(gòu)化數(shù)據(jù),應(yīng)用深度學(xué)習(xí)和信號(hào)處理技術(shù)提取其結(jié)構(gòu)化特征。為了融合不同時(shí)間粒度的數(shù)據(jù),采用不同的策略構(gòu)造具有時(shí)間屬性的特征集。通過(guò)對(duì)MIMIC-III數(shù)據(jù)集中CCU數(shù)據(jù)的預(yù)測(cè),結(jié)果表明:

(1)采用有效的融合策略,非結(jié)構(gòu)化數(shù)據(jù)(無(wú)時(shí)間信息的SVM)和時(shí)間信息(無(wú)非結(jié)構(gòu)化數(shù)據(jù)的SVM)的引入分別比無(wú)非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的SVM在AUC-ROC/AUC-PR上獲得1.36%/3.94%和2.4%/3.41%的改進(jìn)。組合使用非結(jié)構(gòu)化數(shù)據(jù)和時(shí)間信息的SVM在AUC-ROC/AUC-PR上獲得3.64%/9.38%提升。

(2)使用CNN、信號(hào)處理等先進(jìn)的技術(shù)從非結(jié)構(gòu)化數(shù)據(jù)中提取特征的方法,通過(guò)基準(zhǔn)的SVM方法和本研究方法的分析,對(duì)不含時(shí)間信息的方法的比較,引入非結(jié)構(gòu)化數(shù)據(jù),本研究在AUC-ROC/AUC-PR上的改進(jìn)分別為8.25%/14.26%和10.74%/21.06%。對(duì)含時(shí)間信息的方法的比較,引入非結(jié)構(gòu)化數(shù)據(jù),本研究在AUC-ROC/AUC-PR上獲得9.31%/18.3%和11.36%/25.31%的改進(jìn)。

(3)與主流機(jī)器學(xué)習(xí)模型對(duì)比分析,對(duì)于基于線性分類的模型,本研究在AUC上獲得11.42%的改進(jìn)。對(duì)于其他基于集成算法的模型,在AUC上平均獲得1.31%的改進(jìn),本算法減少了計(jì)算量具有更快的預(yù)測(cè)速度。

猜你喜歡
結(jié)構(gòu)化模態(tài)預(yù)測(cè)
無(wú)可預(yù)測(cè)
黃河之聲(2022年10期)2022-09-27 13:59:46
選修2-2期中考試預(yù)測(cè)卷(A卷)
選修2-2期中考試預(yù)測(cè)卷(B卷)
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
不必預(yù)測(cè)未來(lái),只需把握現(xiàn)在
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
旌德县| 宣化县| 隆子县| 大名县| 曲松县| 郴州市| 木兰县| 车险| 罗定市| 霸州市| 延吉市| 垫江县| 安溪县| 临桂县| 修文县| 潼关县| 德钦县| 得荣县| 当雄县| 成都市| 吉首市| 江永县| 隆回县| 明光市| 静乐县| 鸡东县| 隆子县| 封丘县| 牡丹江市| 教育| 邹平县| 黔西| 固始县| 临城县| 长丰县| 子长县| 上饶市| 沅陵县| 沂南县| 广州市| 章丘市|