柯博文,楊 湘,陳艷紅
(1.武漢科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,武漢 430065;2.國家新聞出版署富媒體數(shù)字出版內(nèi)容組織與知識(shí)服務(wù)重點(diǎn)實(shí)驗(yàn)室,北京 100038;3.武漢亞洲心臟病醫(yī)院 心血管內(nèi)科,武漢 430022)
心房顫動(dòng)是心血管疾病中常見的慢性心律失常[1],隨著年齡增長,患病率逐漸上升。房顫具有隱秘性,患者在病發(fā)前不會(huì)出現(xiàn)任何明顯的身體異常,但病發(fā)時(shí)容易致命[2]。因此,針對心房顫動(dòng)的早期篩查和風(fēng)險(xiǎn)預(yù)測工作是非常有必要的。
心電圖(Electrocardiogram,ECG)是一種常用的心房顫動(dòng)診斷手段,但具有普適性的電子健康病歷(Electronic Health Records,EHR)更適合用于心房顫動(dòng)的早期篩查工作[3]。EHR 直接反應(yīng)了患者一段時(shí)間內(nèi)的身體健康狀況,其中涵蓋了患者一段時(shí)間內(nèi)做過的診斷、檢查檢驗(yàn)、用藥等信息。不同于心電圖,EHR 來源于患者的日常治療過程,是一種較易獲取的數(shù)據(jù)。
受益于近些年來深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)(Convolution Neural Network,CNN)[4-5]和循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[6-7]被廣泛應(yīng)用于疾病風(fēng)險(xiǎn)預(yù)測任務(wù)。CNN 是一個(gè)能夠提取數(shù)據(jù)中的局部特征,并不斷匯聚以反映數(shù)據(jù)整體特征的深度神經(jīng)網(wǎng)絡(luò),在圖像處理[8]、語音識(shí)別[9]等領(lǐng)域表現(xiàn)理想。EHR 涵蓋了非常多的醫(yī)療事件,醫(yī)療事件之間的多依賴關(guān)系使得數(shù)據(jù)的全局特征更為重要,而CNN 無法完全提取到數(shù)據(jù)的全局特征。
除了EHR 的數(shù)據(jù)特性以外,在實(shí)際臨床診斷過程中,房顫的發(fā)生也受到其他醫(yī)學(xué)指標(biāo)的影響。臨床醫(yī)學(xué)[10]與早期的分析方法[11]已經(jīng)證實(shí),高血壓、甲狀腺功能異常等指標(biāo)會(huì)直接導(dǎo)致房顫發(fā)生,因此重點(diǎn)關(guān)注這些特定指標(biāo)是非常有必要的。
為了克服上述挑戰(zhàn),本文提出因素風(fēng)險(xiǎn)-注意神經(jīng)網(wǎng)絡(luò)(Factor Risk-Attention Neural Network,F(xiàn)RANN),F(xiàn)R-ANN 的一個(gè)通道通過引入注意力機(jī)制來提取數(shù)據(jù)的全局特征,另一個(gè)通道對一些重要的醫(yī)療事件獨(dú)立進(jìn)行特征提取,解決CNN 無法有效提取到數(shù)據(jù)全局特征的問題。根據(jù)患者近幾次就診記錄,預(yù)測患者半年內(nèi)是否有患病風(fēng)險(xiǎn),并采用專用通道提取單個(gè)醫(yī)療事件的變化特征,捕捉醫(yī)療事件對結(jié)果的直接影響。在MIT 的公共數(shù)據(jù)集MIMIC-Ⅲ[12]和武漢亞洲心臟病醫(yī)院提供的私有數(shù)據(jù)集上驗(yàn)證FR-ANN 在房顫風(fēng)險(xiǎn)預(yù)測工作中的有效性。
在現(xiàn)代醫(yī)學(xué)領(lǐng)域,基于EHR 的房顫早期篩查技術(shù)對于降低疾病致死率具有重要意義,它能夠幫助醫(yī)生預(yù)防疾病的發(fā)生。EHR 數(shù)據(jù)包含大量的醫(yī)療事件,主要由醫(yī)療診斷和檢查檢驗(yàn)構(gòu)成。特征提取是疾病預(yù)測工作中最重要的一步,它將經(jīng)過特征工程的數(shù)據(jù)輸入到模型中,模型通過手動(dòng)或自動(dòng)的方式提取特征,最后預(yù)測結(jié)果。
在早期的疾病預(yù)測任務(wù)研究中,許多研究人員通過邏輯回歸、決策樹、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)等機(jī)器學(xué)習(xí)算法從EHR 中提取與患者相關(guān)的特征[13]。機(jī)器學(xué)習(xí)算法能夠結(jié)合臨床醫(yī)學(xué)知識(shí),幫助研究人員重建疾病的潛在機(jī)制,構(gòu)建符合任務(wù)特點(diǎn)的框架。但這些方法建立在手動(dòng)特征提取的模式之上,需要加入大量的醫(yī)學(xué)專業(yè)知識(shí)以及專家輔助完成特征提取工作,這將會(huì)限制實(shí)際應(yīng)用的適用性。
隨著計(jì)算機(jī)性能逐漸提升,更多的研究偏向于使用深度學(xué)習(xí)方法對EHR 數(shù)據(jù)進(jìn)行建模。在醫(yī)學(xué)領(lǐng)域,深度學(xué)習(xí)的自動(dòng)特征提取模式使其使用范圍非常廣泛,它不需要手動(dòng)加入醫(yī)學(xué)專業(yè)知識(shí)。CNN是疾病風(fēng)險(xiǎn)預(yù)測任務(wù)中最常用的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)之一[14],能夠提取到EHR 中的局部特征,通過增加模型深度的方式建立醫(yī)療事件之間的聯(lián)系,其池化層能夠?qū)μ卣鬟M(jìn)行壓縮與下采樣,以擴(kuò)大感知視野。LANDI 等[15]使用CNN 提取醫(yī)療事件的時(shí)間特征,并預(yù)測最終結(jié)果。文獻(xiàn)[16]使用基于CNN 的方法預(yù)測心力衰竭的患病風(fēng)險(xiǎn)。CNN 擅于捕獲數(shù)據(jù)的局部特征,然而EHR 的全局特征使CNN 方法的分類效果與醫(yī)療事件序列的排列規(guī)則具有緊密聯(lián)系。值得注意的是,F(xiàn)RDLS 通過多種分析方法計(jì)算每個(gè)醫(yī)療事件的得分,根據(jù)得分從高到低重新排列醫(yī)療事件序列。通過不同的分析方法得到多種排列規(guī)則,并對多種排列規(guī)則的數(shù)據(jù)同時(shí)進(jìn)行建模,分析排列規(guī)則對結(jié)果的影響,提供幾種性能較優(yōu)的排列方式。
RNN[17-19]同樣適用于疾病風(fēng)險(xiǎn)預(yù)測任務(wù)。RNN善于通過鏈?zhǔn)降姆绞綄⒍鄠€(gè)醫(yī)療事件聯(lián)系起來,使前后醫(yī)療事件之間的時(shí)間關(guān)系顯而易見。文獻(xiàn)[20]將時(shí)間1 到t的醫(yī)療代碼序列輸入Bi-LSTM 模型中,從而預(yù)測第t+1 次的醫(yī)療代碼。雙向LSTM 很好地保留了前t次醫(yī)療代碼之間的時(shí)序關(guān)系,以此推斷出第t+1 次的結(jié)果。XU 等[21]將醫(yī)療 事件按 時(shí)間排 序輸入到LSTM 中,提取醫(yī)療事件之間的時(shí)間特征。RNN 對于數(shù)據(jù)的時(shí)序關(guān)系是非常敏感的,但是將EHR 數(shù)據(jù)鏈?zhǔn)脚帕袝r(shí),并不能直接斷定前后兩個(gè)醫(yī)療事件存在潛在多依賴關(guān)系。雖然LSTM 加入了“門”機(jī)制,但是每個(gè)單元的計(jì)算過程依然依賴于上一個(gè)單元,這可能會(huì)加入原本不存在的潛在關(guān)系。
近年來,隨著自然語言處理的發(fā)展,注意力(Attention)機(jī)制[22]開始被普及。注意力機(jī)制并行計(jì)算的特點(diǎn)降低了其性能消耗。在注意力機(jī)制的特征提取過程中,每個(gè)醫(yī)療事件的特征提取過程相對獨(dú)立,但在提取過程中醫(yī)療事件之間又相互依賴,清晰的界限能夠很好地解決數(shù)據(jù)存在多依賴關(guān)系帶來的全局特征問題。文獻(xiàn)[23]引入Attention 機(jī)制提取每個(gè)醫(yī)療事件對結(jié)果的貢獻(xiàn),然后通過一個(gè)3 層的多層感知機(jī)(Multilayer Perceptron,MLP)得到預(yù)測結(jié)果。在MLP 之前加入注意力機(jī)制,相當(dāng)于先進(jìn)行一次特征提取,能夠降低模型的資源消耗,提高計(jì)算效率。文獻(xiàn)[24]基于LSTM 結(jié)構(gòu)在醫(yī)療事件和就診記錄兩個(gè)級別分別加入注意力機(jī)制預(yù)測哮喘疾病的風(fēng)險(xiǎn)。TSANN 加入的兩層注意力機(jī)制能夠分析單次就診與單個(gè)事件在各自維度內(nèi)的權(quán)重,并提供就診和醫(yī)療事件兩個(gè)維度的事后可解釋性。文獻(xiàn)[25]通過構(gòu)造多尺度的注意力機(jī)制的方式對單次就診進(jìn)行建模,然后將多尺度信息匯集,減少序列長度。多尺度注意力機(jī)制可以理解為多個(gè)局部注意力機(jī)制,這種方式可以定制化地獲取數(shù)據(jù)不同尺度的特征,貼合任務(wù)特性。
目前絕大多數(shù)的研究都是基于深度學(xué)習(xí)進(jìn)行的,這得益于自動(dòng)特征提取模式。對于疾病風(fēng)險(xiǎn)預(yù)測任務(wù)來說,深度學(xué)習(xí)有很多方法可以使用,但選擇符合數(shù)據(jù)與疾病特性的方法才是解決問題的關(guān)鍵??偟膩碚f,CNN 適用于提取數(shù)據(jù)的局部關(guān)系,以局部特征反映全局特征;RNN 的結(jié)構(gòu)優(yōu)勢使得它善于提取數(shù)據(jù)的時(shí)序性特征;注意力機(jī)制使用較少的參數(shù)提取數(shù)據(jù)的全局特征,并挖掘數(shù)據(jù)之間的潛在依賴關(guān)系。
以上方法均在考慮如何解決數(shù)據(jù)特性,除此之外,疾病帶來的特性同樣重要。年齡較大是最有可能直接導(dǎo)致房顫發(fā)生的因素之一,但更深層次的原因是患有多種其他疾病導(dǎo)致心房顫動(dòng)發(fā)生的概率上升,心房顫動(dòng)的并發(fā)性需要引起重視。現(xiàn)有的臨床醫(yī)學(xué)知識(shí)已經(jīng)可以篩選出一部分與心房顫動(dòng)相關(guān)性較高的醫(yī)療事件,例如高血壓、甲狀腺功能等,獨(dú)立捕獲這些醫(yī)療事件對心房顫動(dòng)的預(yù)測非常必要。
心房顫動(dòng)的疾病風(fēng)險(xiǎn)預(yù)測工作可以看作是一個(gè)二分類任務(wù),即是否患有心房顫動(dòng)。本文將患有房顫的樣本分為陽性樣本(正樣本),未患有房顫的樣本分為陰性樣本(負(fù)樣本)。本節(jié)將描述FR-ANN 的模型結(jié)構(gòu),并介紹FR-ANN 中的每個(gè)模塊。
本文數(shù)據(jù)集以病人為單位,用X代表每個(gè)病人。每個(gè)病人的EHR 數(shù)據(jù)可構(gòu)成一個(gè)二維矩陣,如式(1)所示:
其中:ci表示病人的第i次就診記錄,每次就診記錄中包含多個(gè)醫(yī)療事件,即ci=[si,1,si,2,…,si,m],si,m表示病人的第i次就診記錄中的第m個(gè)醫(yī)療事件。
本文模型將從時(shí)間序列特征分析通道和單指標(biāo)特征分析通道兩個(gè)不同的通道進(jìn)行分析,它們的輸入由原始EHR 矩陣切割得到。圖1 所示為數(shù)據(jù)切割的過程。EHR 矩陣縱向切割得到多個(gè)醫(yī)療事件向量,即Sj代表由第j個(gè)醫(yī)療事件在多次就診記錄中的表現(xiàn)構(gòu)成的向量,本文根據(jù)醫(yī)學(xué)專業(yè)知識(shí)從m個(gè)醫(yī)療事件中篩選出100 多個(gè)對房顫影響較大的醫(yī)療事件(表1 給出了部分篩選出的醫(yī)療事件),將這些篩選后的醫(yī)療事件作為最終得到的Sj=[s1,j,s2,j,…,sn,j],j?[1,m]醫(yī)療事 件向量序列MR=[S1,S2,…,Sm]。由EHR 矩陣橫向切割將得到多個(gè)就診記錄向量,即ci=[si,1,si,2,…,si,m],i?[1,n],ci代表第i次就診記錄,多個(gè)就診記錄向量構(gòu)成最終的就診記錄向量序列VR=[c1,c2,…,cn]。數(shù)據(jù)切割過程只是把病人的EHR 矩陣轉(zhuǎn)換成了兩種形式,它們依然是同源的數(shù)據(jù)。
表1 部分篩選出的醫(yī)療事件(用于單指標(biāo)特征分析通道)Table 1 Selected medical events(for single indicator characteristic analysis channel)
圖1 數(shù)據(jù)切割過程Fig.1 Process of data cutting
圖2 所示為FR-ANN 的模型結(jié)構(gòu)。
圖2 FR-ANN 模型結(jié)構(gòu)Fig.2 Structure of FR-ANN model
由圖2 可知,F(xiàn)R-ANN 模型將就診記錄向量序列VR輸入到時(shí)間序列特征分析通道,將醫(yī)療事件向量序列MR輸入到單指標(biāo)特征分析通道。
單指標(biāo)特征分析通道會(huì)對醫(yī)療事件向量序列MR中的每個(gè)醫(yī)療事件向量獨(dú)立分析,以提取每個(gè)醫(yī)療事件在多次就診中不同表現(xiàn)的綜合特征,并匯總得到所有醫(yī)療事件的綜合變化特征coutput;時(shí)間序列特征分析通道會(huì)先對VR中的每條就診記錄向量單獨(dú)進(jìn)行特征提取與注意力分析,并將多條就診記錄向量的特征匯總輸入到一個(gè)LSTM 中,根據(jù)前幾次的就診記錄得到下一次的預(yù)測狀態(tài)信息hn。分類器模塊把2 個(gè)通道的輸出拼接,通過多個(gè)全連接層與一個(gè)Sigmoid 分類器得到最終預(yù)測結(jié)果。具體的計(jì)算過程如下:
其中:W1?Rr×(4+4m)、W2?Rs×r、b1?Rr×1、b2?Rs×1是全連接層的參數(shù)矩陣;yD是全連接層的計(jì)算結(jié)果;y是yD通過Sigmoid 函數(shù)得到的最終預(yù)測結(jié)果。
數(shù)據(jù)樣本比例不平衡是醫(yī)療數(shù)據(jù)的通病,本文使用的數(shù)據(jù)同樣存在此類問題。為了與醫(yī)學(xué)臨床過程保持一致,本文在模型方法上做出一些優(yōu)化,而不是直接增加正樣本的占比。在損失函數(shù)的選擇上,本文使用了Focal Loss[26]代替常用的二值交叉熵?fù)p失函數(shù)作為FR-ANN 的損失函數(shù)。這是因?yàn)镕ocal Loss 的出現(xiàn)就是為了解決訓(xùn)練集正負(fù)樣本極度不平衡的問題。損失函數(shù)的計(jì)算過程如下:
其中:y為標(biāo)簽值為模型預(yù)測值;α和γ是超參數(shù),α用于調(diào)和正負(fù)樣本比例,γ負(fù)責(zé)緩解易分類樣本(負(fù)樣本)的影響。實(shí)驗(yàn)過程中使用的超參數(shù)均設(shè)置為Focal Loss 推薦的值,即α=0.25、γ=2。
EHR 數(shù)據(jù)中的潛在關(guān)系可分為兩種形式:單個(gè)就診記錄形成的時(shí)間片內(nèi)和多個(gè)就診記錄之間。在單個(gè)時(shí)間片內(nèi),各個(gè)醫(yī)療事件的指標(biāo)綜合反映了患者一段時(shí)間內(nèi)的身體狀況;在多個(gè)就診記錄之間,每個(gè)就診記錄根據(jù)時(shí)間順序排列。分級提取兩種潛在特征是有必要的。首先,本文基于注意力機(jī)制提取每個(gè)時(shí)間片內(nèi)醫(yī)療事件之間的多依賴潛在特征,然后再使用LSTM 提取多個(gè)就診記錄之間的時(shí)序特征,最后將提取到的特征輸入到分類器中。
2.3.1 基于注意力機(jī)制的片內(nèi)特征提取
在時(shí)間序列特征分析通道中,本文拿到患者單次就診 記錄向 量ci=[si,1,si,2,…,si,m],i?[1,n]。CNN在特征提取工作中,由于卷積核大小的限制,一般通過增加模型深度的方法達(dá)到提取與距離較遠(yuǎn)的單元之間的潛在關(guān)系的目的。而注意力機(jī)制由于并行計(jì)算的優(yōu)勢,可以獨(dú)立考慮醫(yī)療事件與其他事件之間的潛在關(guān)系,不會(huì)受到距離與其他因素的影響。并且注意力機(jī)制計(jì)算得到的注意力分布體現(xiàn)了單個(gè)醫(yī)療事件在整體上的權(quán)重,增強(qiáng)了模型的可解釋性。所以本文在FR-ANN 中引入注意力機(jī)制,代替時(shí)間序列特征分析通道中的常規(guī)卷積方法。
對于每一個(gè)就診記錄ci,本文都將接入一個(gè)獨(dú)立的注意力層。注意力機(jī)制的計(jì)算過程可以簡寫為:
其中:ci表示病人第i次就診記錄;ai表示ci計(jì)算得到的注意力權(quán)重是可訓(xùn)練參數(shù)矩陣;Dk表示ci的維度m,即醫(yī)療事件的個(gè)數(shù)。
2.3.2 基于LSTM 的時(shí)序特征提取
AATTs=[a1,a2,…,an]是多個(gè)自注意力層的輸出構(gòu)成的注意力權(quán)重序列,at對應(yīng)患者的第t次就診記錄。多次就診記錄之間存在的時(shí)序關(guān)系反映了患者在一段時(shí)間內(nèi)的身體變化趨勢。LSTM 既能夠捕捉多次就診記錄之間的時(shí)序關(guān)系,又可以保留每個(gè)就診記錄內(nèi)的潛在關(guān)系。所以本文把LSTM 放在自注意力層之后,用于提取多個(gè)就診之間的時(shí)序特征。
整個(gè)LSTM 模塊由一層LSTM 構(gòu)成,具有n個(gè)隱藏層單元。LSTM 模塊的結(jié)構(gòu)圖如圖3 所示。對于LSTM 的每個(gè)單元而言,它的輸入由一個(gè)自注意力層的輸出at得到,AATTs通過LSTM 層得到多個(gè)隱藏層狀態(tài)h1,h2,…,hn,本文取最后一個(gè)狀態(tài)hn作為LSTM 層的輸出。LSTM 每個(gè)單元中的計(jì)算過程如下:
圖3 LSTM 模塊的結(jié)構(gòu)Fig.3 Structure of LSTM module
其中:第t次的輸入at和第t-1 次的隱藏狀態(tài)ht-1的拼接得到[ht-1,at],構(gòu)成每個(gè)單元的輸入;在保留隱藏狀態(tài)過程中,主要起作用的是記憶門和輸出門ot;?表示逐元素相乘。
醫(yī)學(xué)臨床知識(shí)能夠篩選出與心房顫動(dòng)相關(guān)性較大的醫(yī)療事件,本文專門在單指標(biāo)特征分析通道上獨(dú)立提取每個(gè)篩選得到的醫(yī)療事件在多個(gè)時(shí)間片之間的變化趨勢,加強(qiáng)對結(jié)果的預(yù)測能力。本文通過CNN 提取單個(gè)醫(yī)療事件在多次就診中的變化特征,將多個(gè)醫(yī)療事件的變化特征拼接得到的綜合變化特征coutput輸入到分類器中,由分類器拼接特征并預(yù)測結(jié)果。
房顫是一種慢性疾病,它與許多疾病關(guān)系密切?,F(xiàn)代臨床醫(yī)學(xué)已經(jīng)證實(shí),高血壓、心動(dòng)過速等癥狀會(huì)直接導(dǎo)致房顫的發(fā)生。第2.1 節(jié)已經(jīng)篩選出部分相關(guān)性較大的醫(yī)療事件作為此通道的輸入。因?yàn)榛颊叩木驮\次數(shù)在4 次左右,所以CNN 的卷積核可以輕松地幫助本文模型捕捉到單個(gè)醫(yī)療事件在較低跨度上的變化特征。由于房顫的治療過程較為漫長,因此更早的記錄產(chǎn)生的影響會(huì)逐漸減弱。所以本文把卷積核的大小設(shè)置為1×2,以關(guān)注單個(gè)醫(yī)療事件前后兩次就診之間的變化趨勢。
在得到單個(gè)醫(yī)療事件的變化曲線之后,本文還需要對特征進(jìn)行收斂。平均池化層(Average Pooling Layer)和最大 池化層(Maximum Pooling Layer)是兩種常用的池化手段,前者保留信息的平均值,后者保留信息的最大值。對于單個(gè)醫(yī)療事件的變化特征而言,平均值能夠權(quán)衡醫(yī)療事件在每一次就診時(shí)的表現(xiàn),而最大值只記錄了極端情況。結(jié)合實(shí)際情況,平均池化層更適用于收斂單個(gè)醫(yī)療事件的變化特征。
單指標(biāo)特征分析通道的模塊結(jié)構(gòu)如圖4 所示。對于每個(gè)醫(yī)療事件向量Sj,都將經(jīng)過3 個(gè)卷積層和1 個(gè)平均池化層,卷積層的通道數(shù)均為16,卷積核大小均為2×1,平均池化層的卷積核均為16×1。計(jì)算過程如下:
圖4 單指標(biāo)特征分析通道的模塊結(jié)構(gòu)Fig.4 Module structure of single index feature analysis channel
對于每個(gè)醫(yī)療事件ei都有輸出Aj,將所有的輸出拼接得到序列coutput=[A1,A2,…,Am]。
本研究使用的數(shù)據(jù)來源于武漢亞洲心臟病醫(yī)院房顫中心的私有數(shù)據(jù)庫和MIT 的公開數(shù)據(jù)庫MIMIC-Ⅲ。私有數(shù)據(jù)集經(jīng)過武漢亞洲心臟病醫(yī)院倫理委員會(huì)批準(zhǔn),所有數(shù)據(jù)都經(jīng)過去標(biāo)識(shí)化處理,即去除了所有可能跟患者個(gè)人隱私相關(guān)的信息。
本文從數(shù)據(jù)庫中收集病人的診斷數(shù)據(jù)、檢查檢驗(yàn)數(shù)據(jù)和人口學(xué)數(shù)據(jù),將其組合得到患者的電子病歷信息。對于各種醫(yī)療事件,來自亞心的私有數(shù)據(jù)庫保留頻率不小于1 000 次的事件,最終篩選出480 種診斷、檢查檢驗(yàn)等項(xiàng)目;而MIMIC-Ⅲ數(shù)據(jù)庫保留了頻率不小于5 000 次的事件,最終篩選出241 種診斷、檢查檢驗(yàn)等項(xiàng)目。本文統(tǒng)計(jì)了所有病人的就診次數(shù),最終確定將患者的前4 次就診記錄作為實(shí)驗(yàn)用數(shù)據(jù),以預(yù)測患者半年內(nèi)是否會(huì)發(fā)生房顫。
本文涉及的所有代碼均基于Python3.8.3 完成。機(jī)器學(xué)習(xí)模型通過sklearn 實(shí)現(xiàn),深度學(xué)習(xí)模型基于Keras2.4.3 實(shí)現(xiàn)。在深度學(xué)習(xí)模型中,自動(dòng)學(xué)習(xí)的參數(shù)使用Adam 優(yōu)化器自動(dòng)更新,初始學(xué)習(xí)率為0.001,訓(xùn)練20 個(gè)輪次。所有模型均采用批量大小為1 024的小批量訓(xùn)練方式。深度學(xué)習(xí)模型使用Dropout 和L1、L2 正則化防止過擬合問題。在訓(xùn)練開始前將數(shù)據(jù)集隨機(jī)打亂,再以6∶2∶2 的比例區(qū)分訓(xùn)練集、驗(yàn)證集和測試集。在每個(gè)輪次過程中,模型利用訓(xùn)練集來訓(xùn)練模型,使用驗(yàn)證集驗(yàn)證模型訓(xùn)練后的結(jié)果并自動(dòng)調(diào)整可訓(xùn)練參數(shù)。在所有輪次訓(xùn)練完成后,使用測試集測試模型的最終性能,并計(jì)算評價(jià)指標(biāo)。
在疾病預(yù)測任務(wù)中,如何評判模型的性能非常重要。在實(shí)驗(yàn)過程中,本文使用了4 種評價(jià)指標(biāo):精確率(P)、召回率(R)、F1 值(F1)以及AUC 曲線。計(jì)算式如下:
其中:精確率指的是預(yù)測為患病的結(jié)果中實(shí)際患病的占比;召回率指的是對于實(shí)際患病的樣本中,預(yù)測正確(預(yù)測為患?。┑谋壤痪_率體現(xiàn)了模型對樣本整體預(yù)測的準(zhǔn)確性;召回率體現(xiàn)了對患病群體判斷的準(zhǔn)確性;F1 值兼顧了精確率和召回率,是一種綜合性能指標(biāo);AUC 代表模型區(qū)分陽性樣本和陰性樣本的能力,數(shù)值越高,表示模型的分辨能力越強(qiáng)。
為了驗(yàn)證模型性能,本文選取了幾種機(jī)器學(xué)習(xí)算法以及基于EHR 數(shù)據(jù)并應(yīng)用在疾病風(fēng)險(xiǎn)預(yù)測任務(wù)上的深度學(xué)習(xí)模型,和本文提出的FR-ANN 模型進(jìn)行比較。本文所選用的機(jī)器學(xué)習(xí)算法包括邏輯回歸(Logistic Regression,LR)和隨機(jī)森林(Random Forest,RF)。深度學(xué)習(xí)模型分別是基于MLP 與注意力機(jī)制 的MLP_Attention[23]、基 于CNN 的FRDLS[16]和基于LSTM 與注意力機(jī)制的TSANN[24]。
實(shí)驗(yàn)分別在來自武漢亞洲心臟病醫(yī)院的私有數(shù)據(jù)庫(簡稱亞心數(shù)據(jù)庫)和MIT 的公開數(shù)據(jù)庫MIMIC-Ⅲ中進(jìn)行?;€模型與FR-ANN 模型的性能評分如表2、表3 所示。
表2 對比模型評分表(亞心數(shù)據(jù)庫)Table 2 Scoring table of comparison model(Yaxin database)
表3 對比模型評分表(MIMIC-Ⅲ數(shù)據(jù)庫)Table 3 Scoring table of comparison model(MIMIC-Ⅲ database)
在基于私有數(shù)據(jù)集的實(shí)驗(yàn)中,MLP_Attention 和FRDLS 的AUC 分別為0.744 和0.724。多層感知機(jī)是一種全連接的神經(jīng)網(wǎng)絡(luò),雖然MLP 增加了參數(shù)數(shù)量,但它的性能優(yōu)于FRDLS 模型,而TSANN 模型的召回率要優(yōu)于前兩者,這歸功于注意力機(jī)制準(zhǔn)確地注意到了醫(yī)療事件之間的多依賴關(guān)系,捕捉到了數(shù)據(jù)中的潛在知識(shí)。FR-ANN 模型的時(shí)間序列特征分析通道完成了醫(yī)療事件之間的多依賴關(guān)系與就診記錄之間時(shí)序關(guān)系的特征提取工作;單指標(biāo)特征分析通道通過提取每個(gè)醫(yī)療事件的變化特征,增加FR-ANN 模型對重要醫(yī)療事件的關(guān)注度,兩者結(jié)合使得FR-ANN模型的各項(xiàng)指標(biāo)均優(yōu)于幾種基線模型。
首先,本文在消融實(shí)驗(yàn)中以僅使用時(shí)間序列特征分析通道和僅使用單指標(biāo)特征分析通道兩種模式預(yù)測患者的心房顫動(dòng)風(fēng)險(xiǎn),并與FR-ANN 模型進(jìn)行比較,以分析單個(gè)通道對FR-ANN 模型的貢獻(xiàn)。其次,本文還將FR-ANN 模型的時(shí)間序列特征分析通道中的注意力層替換成卷積層,分析兩種不同模塊給FR-ANN 模型帶來的影響。消融實(shí)驗(yàn)均在亞心數(shù)據(jù)庫上進(jìn)行。
圖5 為消融實(shí)驗(yàn)評分圖。圖5(a)展示了兩種模式以及FR-ANN 的性能評分。僅使用單個(gè)通道時(shí),各項(xiàng)性能指標(biāo)讀數(shù)有所下降,兩個(gè)通道的差異主要體現(xiàn)在精確率和召回率上。時(shí)間序列特征分析通道的召回率有所提升,這歸功于注意力機(jī)制能在全局范圍內(nèi)提取醫(yī)療事件之間的潛在關(guān)系。單指標(biāo)特征分析通道的精確率較高,這是因?yàn)榇送ǖ赖妮斎刖墙?jīng)過醫(yī)學(xué)專業(yè)知識(shí)鑒定的、與房顫疾病相關(guān)性較大的醫(yī)療事件,使得單指標(biāo)特征分析通道能夠直接聚焦于疾病相關(guān)性較大的醫(yī)療事件,排除了其他醫(yī)療事件的干擾。
圖5 消融實(shí)驗(yàn)評分圖Fig.5 Rating chart of ablation experiment
從性能與功能上看,F(xiàn)R-ANN 模型中的兩個(gè)通道各自承擔(dān)了不同的職責(zé)。時(shí)間序列特征分析通道采用多層級的特征提取方法,在醫(yī)療事件層級提取醫(yī)療事件之間的多依賴關(guān)系,在就診記錄層級提取就診記錄之間的時(shí)序特征。單指標(biāo)特征分析通道針對每個(gè)輸入的醫(yī)療事件獨(dú)立分析,并且輸入的醫(yī)療事件由醫(yī)學(xué)臨床知識(shí)篩選得到,能夠加強(qiáng)模型的可解釋性。
圖5(b)展示了FR-ANN 模型的時(shí)間序列特征分析通道中,使用CNN 或者使用注意力機(jī)制兩種情況下的性能差異。由實(shí)驗(yàn)結(jié)果可看出,引入注意力機(jī)制主要提升了召回率。相較于CNN,注意力機(jī)制的優(yōu)勢在于全局性,這使得它能夠兼顧所有醫(yī)療事件之間的潛在關(guān)系。實(shí)驗(yàn)結(jié)果表明,使用注意力機(jī)制的FR-ANN:Attention 的各項(xiàng)指標(biāo)均優(yōu)于FR-ANN:Conv1d。
在臨床治療過程中,醫(yī)生往往需要結(jié)合多項(xiàng)指標(biāo)綜合分析才能給出治療方案。常見的診斷依據(jù)包含高血壓、冠心病等與心臟、血液相關(guān)的疾病,也包括鉀測定、血糖、血清總蛋白等檢查檢驗(yàn)指標(biāo)。而FR-ANN 模型在訓(xùn)練過程中會(huì)自動(dòng)學(xué)習(xí)這些模式,本文引入的注意力機(jī)制通過分析醫(yī)療事件之間的潛在依賴關(guān)系,得到每個(gè)醫(yī)療事件在整個(gè)集合中的注意力權(quán)重,權(quán)重越高表示它越可能導(dǎo)致房顫發(fā)生。圖6 所示為在亞心數(shù)據(jù)庫中FR-ANN 的注意力層輸出的注意力分布結(jié)果。
圖6 FR-ANN 自注意力層輸出的注意力分布Fig.6 Attention distribution outputing by FR-ANN self attention level
在注意力評分超過0.03 的醫(yī)療事件中,多數(shù)指標(biāo)是與心血管疾病相關(guān)的,例如心包積液、心房撲動(dòng)、冠心病、高血壓、膽固醇等指標(biāo),這些指標(biāo)均預(yù)示著人體健康狀況異常,提高心房顫動(dòng)發(fā)生的概率。
由圖6 可知,心房顫動(dòng)與其他心血管類疾病具有非常大的關(guān)聯(lián)性,同時(shí)也受到高血糖、高血壓等其他疾病的影響。并且當(dāng)?shù)鞍啄懝檀?、血清蛋白等常?guī)檢查檢驗(yàn)指標(biāo)異常時(shí),也需要結(jié)合其他指標(biāo)綜合考慮心房顫動(dòng)的風(fēng)險(xiǎn)。注意力分布得到的信息與臨床診斷結(jié)果較為接近,注意力機(jī)制不僅注意到了高血壓、高血糖等相關(guān)性較大的醫(yī)療事件,而且能發(fā)現(xiàn)一些常規(guī)檢查檢驗(yàn)指標(biāo)對房顫的影響,例如紅細(xì)胞濃度、鉀測定、血清蛋白等。
圖6 的注意力分布的結(jié)果表明,以上對注意力權(quán)重的分析結(jié)論與臨床醫(yī)學(xué)知識(shí)相吻合,能夠?yàn)榕R床診斷提供建議。
基于EHR 的心房顫動(dòng)風(fēng)險(xiǎn)預(yù)測有助于更早地預(yù)防心房顫動(dòng)。本文提出一種新的基于深度學(xué)習(xí)的模型FR-ANN,模型結(jié)構(gòu)充分考慮了目前EHR 存在的問題以及心房顫動(dòng)的隱蔽性等疾病特性。實(shí)驗(yàn)結(jié)果表明:FR-ANN 模型對多項(xiàng)醫(yī)療事件的篩選工作提升了模型的召回率;注意力機(jī)制的引入能夠代替卷積層完成特征提取工作,提升了模型的計(jì)算性能,注意力機(jī)制的事后可解釋性為臨床診斷提供了解決方案。但目前模型只考慮了醫(yī)療事件的變化趨勢,沒有考慮單個(gè)醫(yī)療事件的時(shí)間間隔因素,例如,持續(xù)30 天與持續(xù)300 天的高血壓所反映的癥狀嚴(yán)重性是不同的。因此下一步將在數(shù)據(jù)中融入時(shí)間信息以刻畫癥狀的嚴(yán)重性程度,并改善模型,提升模型的可解釋性。