羅望成,楊 湘,陳艷紅
(1.武漢科技大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,湖北 武漢 430065;2.武漢亞洲心臟病醫(yī)院,湖北 武漢 430022)
心血管疾病(Cardiovascular Disease,CVD)是威脅人類生命的重要疾病之一,其患病率和致死率逐年上升,在全球的死亡率居首位[1]。大部分的心血管疾病的發(fā)生都伴隨著心律失常,心律失常是心血管疾病中常見的臨床表現(xiàn)形式[2],也是誘發(fā)心臟病和心臟性猝死的一個重要原因。所以準(zhǔn)確快速地檢測出病人的心律失常,對于預(yù)防和診斷心臟病有著極其重要的研究意義。心電圖(Electrocardiogram,ECG)作為一種容易獲得且非侵入性的診斷工具,是診斷心律失常疾病的重要手段和主要依據(jù)。傳統(tǒng)的心律失常診斷通常是依靠醫(yī)生以數(shù)字圖像形式觀察病人的心電圖,目測分析心電圖的波形特征來診斷和區(qū)分不同類型的心律失常。然而,通過視覺評估來檢測和診斷心律失常容易出錯,而且人工長時間觀測圖形而超負(fù)荷的工作進(jìn)一步加劇了對突發(fā)心律失常的疏忽[3]。所以,心律失常的自動檢測和識別具有重大的研究價值,它可以幫助醫(yī)生更早發(fā)現(xiàn)心律失常事件。
在過去幾十年中,對心電信號的心律失常自動分類得到了廣泛的研究,提出了各種機(jī)器學(xué)習(xí)技術(shù)來進(jìn)行分類。然而,其中大部分工作遵循醫(yī)療儀器促進(jìn)協(xié)會(AAMI)標(biāo)準(zhǔn)[4],將心拍分為五種宏觀類別,即正常搏動(N)、室上異位搏動(S)、室性異位搏動(V)、融合搏動(F)和未知搏動(Q),如表1所示,很少有人致力于對心電信號的微觀分類。由于不同類型的心律失常在臨床上有不同的產(chǎn)生機(jī)制與含義,需要對應(yīng)不同的治療方案。因此,相對于宏觀分類而言,微觀分類更具有實(shí)際臨床意義,所以該文致力于五種微觀類型的研究。
表1 AAMI標(biāo)準(zhǔn)分類描述
在實(shí)際臨床環(huán)境中,除了準(zhǔn)確的分類外,結(jié)果的可解釋性也同樣重要,心臟病專家除了提供診斷結(jié)果之外,還要有詳細(xì)的解釋來支持自己的診斷[4]。因此,可解釋性對于臨床醫(yī)生接受機(jī)器建議和實(shí)施干預(yù)至關(guān)重要。在臨床診斷中,醫(yī)生主要關(guān)注QRS等波形特征以及RR間期是否出現(xiàn)異常。例如室性早搏會表現(xiàn)出QRS波群寬大,RR間期出現(xiàn)異常。也就是說,特定位置的異常特征會對心律失常分類有更強(qiáng)的影響,應(yīng)該分配更高的權(quán)重。然后,現(xiàn)有模型平等對待不同位置的特征,這可能會遺漏重要信息,從而限制心律失常的分類性能。
該文的主要貢獻(xiàn)可歸納如下:
(1)提出一種可解釋的基于注意力的混合CNN-LSTM模型IAHM(Interpretable Attention-based Hybrid CNN-LSTM Model)解決心律失常分類問題,提升分類性能;
(2)通過設(shè)計兩層注意力,不僅能強(qiáng)調(diào)心拍級別的關(guān)鍵波形特征,還能定位心律級別的異常RR間期特征;
(3)結(jié)合實(shí)際醫(yī)學(xué)知識和醫(yī)生診斷習(xí)慣,定位心電圖中與臨床知識相一致的不同層次特征,突出結(jié)果的可解釋性。
傳統(tǒng)ECG心律失常自動分類需要經(jīng)過四個步驟:信號去噪、信號分割、人工特征提取和分類[5]。特征提取是心律失常分類最重要的一步,文獻(xiàn)中常用的特征提取方案分成兩類:傳統(tǒng)手工提取特征和使用深度學(xué)習(xí)方法自動提取特征。
到目前為止,已有模型通過使用小波變換(WT)[6]提取頻率模式[7]、主成分分析(PCA)[8]捕捉心電圖中細(xì)微的形態(tài)變化、獨(dú)立成分分析(ICA)[9]等方法進(jìn)行特征選擇,支持向量機(jī)(SVM)[10]作為分類器,對心律失常的自動分類進(jìn)行了大量的研究。然而,傳統(tǒng)的手工提取特征有許多限制,包括手工設(shè)計特征提取器需要有專業(yè)知識支撐、心電信號不可避免會引入噪聲等,這些都將限制它們在計算機(jī)輔助診斷系統(tǒng)(Computer-Aided Diagnosis Systems,CADS)中的實(shí)際應(yīng)用。
近年來,深度學(xué)習(xí)模型在心電圖輔助診斷方面取得初步成功,很多特征提取處理任務(wù)都可以通過卷積計算來完成。該方法優(yōu)于形態(tài)學(xué)方法,不需要通過專家進(jìn)行顯示特征提取步驟,對分類中的信號質(zhì)量要求較低[11]。Acharya等人[12]構(gòu)建了一個9層的1D-CNN模型,自動識別出心電信號中5種宏觀類別的心跳。然而,這種方式通常會忽略心拍間的上下文關(guān)系。此后,Shu等人[13]結(jié)合CNN和LSTM來進(jìn)行心電圖心律失常分類,但該模型僅使用同類型不間斷的心拍段作為訓(xùn)練數(shù)據(jù)集,未考慮陣發(fā)性的心律失常類型,即同時包含異常和正常心拍的心律段。
隨著注意力機(jī)制在自然語言處理、圖像識別及語音識別等各種類型的機(jī)器學(xué)習(xí)任務(wù)中的優(yōu)秀表現(xiàn),心律失常分類領(lǐng)域也引入了注意力。Schwab等人[14]使用注意機(jī)制來提取可解釋的心律特征。Y. An等人[15]在電子病歷(Electronic Health Record,EHR)在心血管疾病預(yù)測方向加入注意力,集成時間有序、高維、異構(gòu)的EHR數(shù)據(jù),取得良好的效果。
基于以上考慮,該文結(jié)合引入注意力機(jī)制的CNN和LSTM來解決心律失常分類問題,提出了一種新的可解釋的心律失常分類模型IAHM。在提升分類準(zhǔn)確率的同時,整合醫(yī)學(xué)知識和醫(yī)生診斷習(xí)慣,強(qiáng)調(diào)結(jié)果的可解釋性。
本節(jié)將描述IAHM模型的體系結(jié)構(gòu),并且逐層介紹架構(gòu)中的神經(jīng)網(wǎng)絡(luò)模塊。圖1展示了IAHM模型結(jié)構(gòu),模型總共有13層,包括6個卷積層、3個最大池化層、1個Bi-LSTM層、2個注意力層和1個全連接層。
圖1 IAHM模型的架構(gòu)方塊圖
該文采用一維卷積神經(jīng)網(wǎng)絡(luò),相對二維卷積神經(jīng)網(wǎng)絡(luò),可以對數(shù)據(jù)量有限的一維心電信號進(jìn)行有效訓(xùn)練,并且計算復(fù)雜度更低。CNN模塊由若干卷積層和最大池化層組成,輸入250×1心拍片段經(jīng)過CNN之后輸出30×256的特征向量,其中30為卷積之后得到的特征數(shù),256為通道數(shù)。池化層使用最大池化運(yùn)算,將最具代表性最大特征代替卷積層的輸出特征,通過降低卷積層輸出數(shù)據(jù)的維數(shù)并降低了網(wǎng)絡(luò)復(fù)雜度。每個CNN層后面使用線性修正單元(Rectified Linear Unit,ReLU)作為激活函數(shù),并在每個卷積層之后增加批量歸一化層(Batch Normalization,BN),用以批處理規(guī)范化層的激活輸出。
長期短期記憶(LSTM)網(wǎng)絡(luò)能夠?qū)W習(xí)序列數(shù)據(jù)之間的長期相互關(guān)系。而雙向LSTM(Bi-LSTM),由前向和后向神經(jīng)網(wǎng)絡(luò)組成,可以同時利用當(dāng)前狀態(tài)的過去和未來信息。CNN部分提取數(shù)據(jù)的空間特征,Bi-LSTM學(xué)習(xí)數(shù)據(jù)的時間特征,二者結(jié)合能充分利用信號信息,提升分類效果。
注意力機(jī)制模擬人腦注意力的特點(diǎn),核心思想是把更多的注意力放在它認(rèn)為重要的部分,而把較少的注意力放在其他部分。原理是注意力層基于不同的目標(biāo)類別為不同的特征向量生成權(quán)重,并以它們的加權(quán)形式組合特征向量。首先,它可以幫助模型關(guān)注信號中的重要信息部分,從而提高檢測性能。其次,它有助于突出需要進(jìn)一步研究的異常信號模式的位置,并增加該模型的可解釋性。具體以心拍級別的注意力為例,對于輸入信號s經(jīng)過CNN模塊后的輸出特征:H=Conv(s),H∈RN*K,N為特征提取后的輸出長度即特征數(shù),K為卷積核個數(shù)也就是輸出的通道數(shù)。H可以表示為一個矩陣,行代表特征,列代表通道,即第i行對應(yīng)第i個特征,另一方面,卷積和池化操作不會改變特征圖的空間關(guān)系。因此,特征圖的行順序可以表示心電圖中特征的相對位置。利用注意力機(jī)制可以計算獲得一個加權(quán)注意力特征,根據(jù)權(quán)重模擬特征對應(yīng)位置的重要性影響,計算方法如下:
(1)
其中,hi是卷積層輸出特征H的第i行(列對應(yīng)通道輸出),H={h1,…,hn},ai代表單個特征向量的權(quán)重,通過公式(2)計算得出。
(2)
在公式(2)中,va∈RL*1和Wa∈RL*K是需要模型學(xué)習(xí)的參數(shù),對每個單獨(dú)特征向量hi應(yīng)用兩個完全連接層(矩陣運(yùn)算)以及一個tanh函數(shù),最后輸出N個序列,其中每個序列中每個元素都是單個實(shí)值。將Softmax應(yīng)用于N個序列中的每一個元素,使得每個序列中元素值的總和為1,得到權(quán)重向量a={a1,…,an},向量a中每個元素可以看成CNN中對應(yīng)特征在模型預(yù)測任務(wù)中的影響力或者說是權(quán)重。對于每個分類類別,會為輸入向量計算出唯一的一組加權(quán)平均值,然后用于計算輸入信號屬于該類別的概率。
在CNN模塊,平等對待不同位置的特征,無法突出關(guān)鍵特征所包含的重要信息,在CNN模塊末尾添加注意力層,能有效強(qiáng)調(diào)重視的形態(tài)特征。
在Bi-LSTM模塊,通常是將時間序列的最后一個輸出向量作為下一層的特征向量,然而這種方式只使用到最后一步的特征,丟棄了其他特征信息。因此該模型添加一層注意力到Bi-LSTM模塊后面,注意力機(jī)制首先計算每個時間序列特征的權(quán)重,然后對所有時間序列進(jìn)行加權(quán),最后將加權(quán)平均向量作為新的特征向量輸入到Softmax函數(shù)進(jìn)行分類。
將一維心電信號進(jìn)行分段預(yù)處理,得到長度為8×250的心律片段。首先在心拍級別上使用250×1的特征向量作為CNN模塊的輸入,將輸出的30×256特征向量經(jīng)過心拍級別的注意力層加權(quán)處理。然后將得到的1×256向量合并為8×1×256輸入到Bi-LSTM中提取特征,而后經(jīng)過心律級別的注意力層加權(quán)處理,最后使用全連接層擴(kuò)展所有特征的連接,Softmax層進(jìn)行邏輯回歸分類,實(shí)現(xiàn)基于心電信號的心律失常自動分類。表2總結(jié)了提出的IAHM模型架構(gòu)各項(xiàng)參數(shù)。
表2 提出的IAHM模型架構(gòu)
該研究中,使用的數(shù)據(jù)集來自MIT-BIH心律失常數(shù)據(jù)庫,該數(shù)據(jù)庫已被準(zhǔn)確而全面的注釋,在目前的ECG研究中得到了廣泛應(yīng)用[16]。它包括來自47位患者的48個0.5小時長的心電圖信號記錄。每個信號記錄以360赫茲采樣率進(jìn)行數(shù)字化,在R峰處呈現(xiàn)一組心拍標(biāo)記。
第一步是去噪,臨床環(huán)境中采集的心電信號通常混合有不同的干擾,如工頻干擾、基線漂移和肌電信號干擾[17]。原始數(shù)據(jù)需要去噪,以使分類更加準(zhǔn)確。該文采用0.5 Hz~50 Hz[18]的帶通濾波器對心電信號進(jìn)行去噪,只允許附帶信息的信號頻段通過,過濾掉噪聲和干擾。由于CNN具有從信號內(nèi)部自動提取特征的特點(diǎn),該文僅對信號進(jìn)行簡單的濾波,可以增強(qiáng)網(wǎng)絡(luò)的泛化能力,減少信號失真。圖2顯示了濾波前后的心電信號。
圖2 濾波前后的ECG信號
第二步是信號分段,將ECG記錄劃分成2 000個樣本點(diǎn)組成的心律段,之后再將心律段按照8×250劃分到心拍級別。
第三步是樣本選擇,每段心律大致包含6或7個心拍標(biāo)簽,將片段中所包含的異常類型作為整個片段的類型,全部都是正常心拍則標(biāo)記為正常。一個心律片段每包含一個異常心拍,就將片段復(fù)制一份,同時此異常心拍類型作為整段心律的類型。過濾掉只包含目標(biāo)類型之外的異常心律,之后總共得到32 395個心律片段。包括正常竇性心律(NOR)7 385個、左束支傳導(dǎo)阻滯(LBBB)8 075個、右束支傳導(dǎo)阻滯(RBBB)7 259個、房性早搏(APB)2 546個、室性早搏(PVC)7 130個。
該模型的工作環(huán)境由Intel(R) Core (TM) i5-7500 CPU、NVIDIA Geforce GTX 1060 gpu組成,RAM為16 GB。模型在帶有CUDA庫的Pytorch1.8平臺上運(yùn)行。實(shí)驗(yàn)數(shù)據(jù)按照8∶1∶1劃分用于訓(xùn)練集、驗(yàn)證集、測試集,采用Adam[19]優(yōu)化器函數(shù),初始學(xué)習(xí)率為0.003,總共訓(xùn)練50輪,在每輪中,數(shù)據(jù)集使用的批處理大小為64,單個片段輸入尺寸為8×250。
為了更準(zhǔn)確地評估和比較每種模型的分類性能,該文使用了準(zhǔn)確率(Acc)、靈敏度(Sen)、特異性(Spe)和陽性預(yù)測值(Ppv)。其中,準(zhǔn)確率代表了被正確識別的心拍比例,是對整個系統(tǒng)性能的度量;靈敏度代表識別目標(biāo)心律失常的能力;特異性代表識別非目標(biāo)心律失常的能力;陽性預(yù)測表示所有心律失常預(yù)測中實(shí)際正確的比例。對應(yīng)的定義如下:
(3)
(4)
(5)
(6)
其中,TP、TN、FP和FN分別為真陽性、真陰性、假陽性和假陰性。TP表示預(yù)測是目標(biāo)心拍且正確的數(shù)量;TN表示預(yù)測是非目標(biāo)心拍且正確的數(shù)量;FP表示預(yù)測是目標(biāo)心拍且錯誤的數(shù)量;而FN表示預(yù)測是非目標(biāo)心拍且錯誤的數(shù)量。
通過對統(tǒng)計變量的測試,進(jìn)一步對實(shí)驗(yàn)結(jié)果進(jìn)行說明,同時驗(yàn)證模型的泛化性。
CNN模型:僅使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類訓(xùn)練。
LSTM模型:僅使用長短期記憶神經(jīng)網(wǎng)絡(luò)對心電數(shù)據(jù)進(jìn)行分類訓(xùn)練。
CNN+LSTM模型:首先使用CNN提取心拍形態(tài)特征,然后通過LSTM學(xué)習(xí)心拍間的時間特征。
CNN+LSTM+ATT模型:基于上一個模型,分別在CNN和LSTM后面增加了心拍級注意力和心律級注意力,其他參數(shù)保持不變。
為了說明實(shí)驗(yàn)當(dāng)中引入LSTM和注意力機(jī)制對于分類結(jié)果的影響,使用對比實(shí)驗(yàn)的方式將四種模型的分類結(jié)果進(jìn)行對比,用以說明模型的優(yōu)勢,具體如表3所示。
表3 IAHM注意力層對分類效果的影響
表4橫向?qū)Ρ痊F(xiàn)有研究的性能,這些研究中使用的數(shù)據(jù)集并不相同,但是由于分類都是在相同的MIT-BIH數(shù)據(jù)庫中,比較具有一定參考性??梢钥闯觯c其他相關(guān)研究相比,該文提出的模型具有較高的性能。
Martis等人[7]通過非線性動態(tài)高階統(tǒng)計量HOS技術(shù)來捕捉心電信號中的細(xì)微變化,結(jié)合PCA,檢測五種微觀類型的心拍(NOR,LBBB,RBBB,APB,PVC),平均Sen和Ppv高于IAHM模型,但是Acc比較差。因?yàn)樵谒麄兊膶?shí)驗(yàn)中,每個類別都提取了豐富的特征,這些特征使得心拍更容易被預(yù)測為目標(biāo)類別。Acharya等人[12]構(gòu)建了一個9層的一維CNN模型,遵循AAMI標(biāo)準(zhǔn),從這篇文獻(xiàn)可以看出對5種宏觀類別進(jìn)行分類,實(shí)際上只是在對兩種異常心拍(VEB和SVEB)進(jìn)行檢測,臨床意義不大。Shu等人[13]使用變長信號段,將輸入樣本填充至1 000×1大小,將心電信號劃分為5種微觀類別。Pawiak等人[20]使用了一個深度遺傳分類器集合對長時程ECG信號進(jìn)行分類,MIT-BIH數(shù)據(jù)庫中17種心律失常分類的準(zhǔn)確率達(dá)到94.6%。Atal等人(2020)[21]提出了一種基于優(yōu)化的深度卷積神經(jīng)網(wǎng)絡(luò),在5個宏觀類別上實(shí)現(xiàn)了93.19%的準(zhǔn)確率。
IAHM模型結(jié)合注意力機(jī)制和混合CNN-LSTM,使用一維心電信號作為輸入,模型的準(zhǔn)確率為94.65%,特異性為98.69%,靈敏度為92.69%,陽性預(yù)測值為92.60%。從表4可以看出,IAHM模型除了準(zhǔn)確率之外,其他指標(biāo)也比較有競爭力。加之它的可解釋性,所提出的模型可以更好地應(yīng)用于臨床,以幫助臨床醫(yī)生客觀有據(jù)地診斷心電心跳信號,也可用于新的智能檢測設(shè)備。
表4 與其他文獻(xiàn)的性能對比 %
圖3給出了模型在測試集中分類結(jié)果的混淆矩陣。其中,行標(biāo)簽表示實(shí)際類別,列標(biāo)簽表示預(yù)測類別。每個網(wǎng)格中的數(shù)字表示,當(dāng)實(shí)際類別為相應(yīng)行標(biāo)簽時被預(yù)測列標(biāo)簽的心拍數(shù)量。顏色代表上述心拍數(shù)量占所有心拍的比率。
圖3 IAHM模型的混淆矩陣
可以看到,模型將右束支傳導(dǎo)阻滯RBBB誤判成房性早搏APB的數(shù)量最多,其次是將APB誤判成正常類型的數(shù)量。第一個問題的原因是232號病人同時患有RBBB和APB兩種心律失常,總共1 779個心拍,這里列舉前20個心拍類型:[2 3 3 2 3 3 2 3 2 3 2 3 2 3 3 2 3 3 3 3]。可以看出按照2 000個樣本點(diǎn)切分一段心律之后,心律的類型將難以定義和預(yù)測,所以這兩類在該模型中難以區(qū)分。第二個問題可能的原因是APB與正常心拍最為相似,所以兩者都很容易被劃分為對方。由于數(shù)據(jù)庫的限制,對IAHM模型的分類性能造成一定的限制。
在臨床診斷過程中,臨床醫(yī)生通常要綜合分析由多個連續(xù)心拍組成的心律片段,才對病人做出診斷,其中主要將QRS的波形以及不規(guī)則的RR間期作為診斷依據(jù)。IAHM模型通過心拍、心律兩層級別的注意力自動學(xué)習(xí)這些模式,心拍級別的關(guān)注點(diǎn)在于QRS復(fù)波,心律級別的注意力標(biāo)識出異常心拍或異常RR間期的位置,這與臨床診斷依據(jù)正好匹配。IAHM模型之所以能夠?qū)崿F(xiàn)這一功能,要?dú)w功于注意力機(jī)制,它模仿人腦處理信息的特性,選擇性地關(guān)注信息的重要部分,同時相對減少對其他部分的關(guān)注。
在圖4中,第一個子圖展示心律段的波形考,第二個子圖心律段對應(yīng)的心拍級別注意力分布,第三個子圖顯示心律級別的注意力分布。其中心拍級別的注意力分布到8個心拍段中,每個心拍對應(yīng)30個特征的權(quán)重,基本權(quán)重指向QRS復(fù)波位置。心律級別的注意力分布在8個特征上,用以強(qiáng)調(diào)整段心律中異常心拍或異常RR間期特征的位置。
圖4(a)顯示了室性早搏(PVC)的ECG波形和注意力分布。這段心律片段包含10個心拍,第二個心拍類型是PVC,其他心拍是正常心拍。心拍級別的注意力重點(diǎn)關(guān)注QRS復(fù)波部分,而心律級別的注意力則是成功定位到異常心拍所在的分段。
圖4 ECG波形和它們對應(yīng)的兩層注意力分布舉例
圖4(b)所示的左束支傳導(dǎo)阻滯(LBBB)類型心律片段,包含8個LBBB類型的心拍,對于這種類型的心律片段,心律級別的注意力對于每個片段的權(quán)重基本持平,均屬于評判此類別的重要依據(jù)。
圖4(c)展示右束支傳導(dǎo)阻滯(RBBB)類型心律片段,包含RBBB和APB兩種類型的心拍,分別為:[2, 3, 3, 2, 3, 3]。從心律級別的注意力分布不難看出,部分權(quán)重分配到了APB類型的心拍,這類混合心律片段很容易誤判成APB類型。這也解釋了圖3中RBBB容易被誤判成APB類型的原因。
圖4(d)是一段房性早搏(APB)類型的心律片段,包含9個心拍,其中1個APB心拍和8個正常心拍:[0, 0, 0, 0, 3, 0, 0, 0, 0]。從波形圖可以看出,兩種心拍的相似度極高,以至于對混合類型的心律片段來說,相對其他異常類型會更難區(qū)分和識別。
心律失常的自動分類有助于臨床醫(yī)生對心血管疾病進(jìn)行早期診斷和治療。該文提出了一種新的基于深度學(xué)習(xí)和注意機(jī)制的可解釋性心律失常分類模型IAHM,以一維心電信號作為模型的輸入數(shù)據(jù)。將從MIT-BIH心律失常數(shù)據(jù)庫獲得的一維信號轉(zhuǎn)換為2 000個樣本點(diǎn)的單個心律片段,共獲得32 395個心律片段。最后,該模型的平均準(zhǔn)確率為94.65%,特異性為98.69%,敏感性為92.69%,陽性預(yù)測值為92.60%。心律失常的分類結(jié)果表明,結(jié)合注意力機(jī)制與深度學(xué)習(xí)進(jìn)行心律失常分類的模型,可以幫助臨床醫(yī)生更好地診斷心血管疾病,大大減輕臨床醫(yī)生的工作量。