李茜,王星堯,高鴻祥,趙莉娜,李建清,劉澄玉
(東南大學 儀器科學與工程學院,數(shù)字醫(yī)學工程全國重點實驗室,南京 210096)
房顫(atrial fibrillation,AF)是一種常見的心律失常疾病,其全球患病率約為1%~2%,且逐年遞增[1]。在臨床診斷中,由于AF多呈現(xiàn)非特異性癥狀或無明顯癥狀,導致其常被誤診為其他疾病,如呼吸困難、頭暈、心悸等,僅有約33%的AF患者能及時入院接受規(guī)范治療[2]。AF本身雖無致命風險,但其可導致中風、認知障礙等影響患者生命安全的嚴重并發(fā)癥[3]。值得注意的是,超過一半的AF患者的實際患病類型為陣發(fā)性AF(paroxysmal AF,PAF),且25%以上的PAF患者可能進一步演變?yōu)槌掷m(xù)性或永久性AF[4-5]。因此,相比其他AF 類型,PAF的早期篩查,對AF手術選擇、藥物干預以及臨床并發(fā)癥的診斷和治療具有重要價值。然而,多數(shù)PAF患者發(fā)作時僅表現(xiàn)為間歇性心跳不規(guī)則,且持續(xù)時間較短,甚至有些患者在發(fā)作期間無明顯癥狀,使患者難以及時察覺,為有效監(jiān)測和診斷PAF帶來挑戰(zhàn)[7]。
心電圖(electrocardiogram,ECG)具有嚴格的形態(tài)分布和偽周期節(jié)律特性,是臨床用于診斷患者生理健康狀況的重要參考指標[8]。臨床PAF診斷往往依賴于對ECG形態(tài)特征(P波消失,以不規(guī)則的f波代之)和節(jié)律特征(RR間期絕對不齊)的分析[3]。針對形態(tài)特征,傳統(tǒng)AF分類方法采用P波缺失檢測[9]、f波檢測[10]等判別ECG形態(tài)的變化情況。而對于節(jié)律特征,傳統(tǒng)AF分類方法則運用了RR間期序列分析[11-12]、龐加萊圖[13]、距離熵[14]、心率變異性分析[15]、Normalized Fuzzy Entropy[16]等方法進行分析。這些方法巧妙地將P波的形態(tài)特征和RR間期的節(jié)律特征與AF分類結(jié)合,與已知的臨床知識高度契合。然而,上述方法多數(shù)僅對其中某一特征進行提取和分析,當其他心律失常疾病或噪聲導致ECG信號出現(xiàn)類似形態(tài)或節(jié)律特征時,會導致AF誤診。如心房撲動會導致ECG呈現(xiàn)類似RR間期絕對不齊的癥狀,當僅分析ECG節(jié)律特征時,會出現(xiàn)假陽性。
近年來,隨著穿戴式ECG監(jiān)測設備的普及,基于深度學習的卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)、長短期記憶遞歸神經(jīng)網(wǎng)絡(long short-term memory,LSTM)、殘差網(wǎng)絡(residual networks,ResNet)等方法已經(jīng)取代傳統(tǒng)AF分類方法[1,17-18],成為AF分類的首選。這些方法能自動提取ECG中的多分辨率特征,并將其用于AF分析,提高了分析效率。具體而言,ECG的低分辨率特征含有高級語義信息,常用于分析全局節(jié)律特征,如RR間期、QT間期;而ECG的高分辨率特征含有低級語義信息,常用于分析局部形態(tài)特征,如QRS波形、P波波形[19]。盡管上述方法在某些數(shù)據(jù)庫上被證明有效,但其通常采用漸進學習的方式,即從高分辨率逐步降采樣到低分辨率。雖然可以獲得更抽象高級的語義信息,但同時也伴隨著對部分高分辨率特征的損失,無法充分利用高、低分辨率特征,且在決策過程中缺乏對上下文和語義信息的整合和綜合分析。此外,其將AF分類看作粗粒度問題,即只關注AF與非AF分類,忽略了對PAF的檢測及定位。
雖然目前PAF定位取得了一些進展,但仍需通過將2導聯(lián)ECG輸入多個網(wǎng)絡組合(LSTM + U-Net、LSTM + Sequence Labeling)才能獲得較優(yōu)的定位結(jié)果。此外,當ECG包含的心拍少于5個時,其所含信息不足以用于臨床診斷,如心率計算和PAF分析[21]。基于此,有研究額外引入了QRS波定位模型,以去除小于5個AF心拍的假陽性PAF片段。然而,同時使用多個模型限制了其實用性。
針對以上問題,本研究提出了一種基于CNN的多分辨率ECG理解框架(multi resolution-ECG,MR-ECG),該框架由多分辨率編碼器、PAF定位解碼器和QRS波定位解碼器組成。編碼器在保留高分辨率特征的基礎上,不斷生成新的低分辨率特征分支,并通過在并行的多分辨率特征分支之間反復交換信息,實現(xiàn)高、低分辨率特征的融合,使高分辨率分支最終用于辨別ECG的P波形態(tài)特征,而低分辨率分支用于辨別RR間期的節(jié)律特征。兩個定位解碼器利用編碼器輸出的多分辨率特征,同步輸出PAF和QRS波的定位序列。此外,QRS波定位結(jié)果被用于消除小于5個心拍的假陽性PAF片段,經(jīng)過后處理的PAF定位結(jié)果被進一步用于AF分類。
深度學習在訓練時會固定網(wǎng)絡結(jié)構和參數(shù),輸入信號維度需要一致。為實現(xiàn)該目標,本研究使用滑動窗口遍歷ECG,將其切割為長度固定的一維ECG片段。為獲得包含有效信息的最小窗口尺寸,本研究對不同窗口大小(8、12、20、30 s)進行測試,并最終選擇12 s的窗口大小。同時,為保證ECG的連續(xù)性,本研究在切割ECG時保留了4 s的重疊時長,以捕捉相鄰片段中可能存在的連續(xù)特征變化。
由于數(shù)據(jù)庫各類型分布不均可能導致模型在訓練中偏向于常見類別,影響其對少數(shù)類別的學習,進而影響模型性能。因此,本研究對切割后的12 s ECG片段進行了數(shù)據(jù)增強處理,見圖1。通過將正常ECG中部分心拍替換為隨機長度(3~10 s)的AF片段,實現(xiàn)對PAF數(shù)據(jù)的補充。通過數(shù)據(jù)增強使用于訓練的ECG被擴充到總計37 235個12 s片段,且PAF、持續(xù)性AF和非AF信號分布均衡。
圖1 PAF數(shù)據(jù)增強示意圖
此外,考慮到運動偽影會對模型性能產(chǎn)生負面影響,而在使用模型進行定位任務時,此類干擾無法在預處理階段被傳統(tǒng)濾波器濾除,本研究通過在12 s ECG片段上疊加高斯噪聲、肌肉偽影和電極運動偽影,以模擬和構造接近真實的動態(tài)ECG,增強模型對穿戴式ECG的魯棒性[22]。
多分辨率處理技術在計算機視覺領域已得到廣泛研究。其中,U-Net[23]利用跳躍連接在不同分辨率特征層級間傳遞信息,可有效捕獲圖像的局部特征和全局特征;HRNet[24]通過保持高分辨率特征,在計算機視覺任務上表現(xiàn)出卓越性能。然而,這些模型主要是為圖像處理等多維度的方陣信號設計。相比之下,單導聯(lián)ECG信號在使用此類模型獲得多分辨率特征時,由于維度較少而存在極大挑戰(zhàn)。為了應對該挑戰(zhàn),本研究提出了一種基于CNN的多分辨率ECG理解框架(MR-ECG),見圖2。
圖2 多分辨率ECG理解框架
多分辨率編碼器經(jīng)過5個訓練階段,每個階段由模塊化構件組成。分支生成模塊將濾波器分成兩個分支,一半用于保持當前分辨率特征,另一半生成新的低分辨率特征。卷積模塊對中間特征進一步處理。分支融合模塊采用步進卷積和插值操作,整合不同分辨率的特征。QRS波定位解碼器將多分辨率特征按通道維度整合到高分辨率分支,并通過注意力機制增強通道間特征交互,進行QRS波定位。PAF定位解碼器將多分辨率特征按通道維度整合到低分辨率分支,并通過注意力機制增強通道間特征交互,進行PAF定位。
1.2.1多分辨率編碼器 由圖2可知,多分辨率編碼器包含1個預處理階段和4個相似的訓練階段,每個階段由多個關鍵模塊化組件構成。為保留高分辨率特征,同時捕獲低分辨率特征,除了第一個訓練階段,其他訓練階段通過分支生成模塊,生成新的低分辨率特征,并引入相應的低分辨率特征處理分支。分支融合模塊通過相互整合訓練分支,在所有分支中保持局部形態(tài)特征和全局節(jié)律特征。
本研究中,長度為12 s、采樣率為200 Hz的輸入ECG片段表示為x∈L×1。其中x表示輸入ECG片段,L為片段長度(初始為2 400),1為導聯(lián)數(shù)。為適應從各設備上采集的ECG,確保與不同類型ECG的兼容性,編碼器第一階段首先使用一個通道統(tǒng)一模塊。該模塊利用CNN將輸入ECG片段x∈2 400×1投影到16維的高維空間,獲得初步中間特征z′∈2 400×16。隨后該中間特征被輸入到一系列卷積模塊中進行特征變換處理。卷積模塊的維度與輸入特征相匹配,不改變輸入特征的維度。通道統(tǒng)一層和卷積模塊組成“階段1”,第一階段僅輸出一個中間特征z0∈2 400×16。
在第二階段中,網(wǎng)絡通過分支生成模塊分為兩個處理分支。第一分支維護原始的高分辨率中間特征z0∈2 400×16。第二分支通過跨步卷積對z0∈2 400×16進行抽樣,從而獲得高維特征。抽樣操作降低了各特征通道中的分辨率,并使通道數(shù)翻倍。具體而言,在第二階段中,新的低分辨率特征長度減少至原來的二分之一(1 200),而通道數(shù)翻倍,從16增加到32,得到z1∈1 200×32。隨后,應用與第一階段相同的一系列卷積模塊對各分辨率分支進行特征變換,卷積模塊維度分別與各輸入分支的特征維度相匹配。接著使用分支融合模塊整合各分支特征,實現(xiàn)不同分辨率特征的有效融合,以增強模型的語義理解能力。分支生成模塊、卷積模塊、分支融合模塊組成“階段2”。
“階段3”、“階段4”、“階段5”重復“階段2”中的操作流程,分別獲得新的分辨率特征z2∈600×64、z3∈300×128、z4∈150×256以及各自對應的處理分支。
通過5個訓練階段,并行處理模型在捕獲低分辨率高級語義的同時,以高分辨率保留了細粒度的特征細節(jié)。該方式使得模型能夠更細致地捕捉和理解ECG中不同層次的特征,適用于在高、低分辨率上均存在關鍵特征變化的PAF診斷。
1.2.2PAF定位解碼器 本研究中,PAF定位任務被看作幀級別的AF二進制分類任務,旨在從連續(xù)的ECG序列中識別和定位AF心拍。每一幀的長度被設定為長750 ms,因此,輸入12 s的ECG片段可以表示為T=150個的幀序列。真實和預測PAF二進制標簽序列分別表示為y∈150×1和圖2中,PAF定位解碼器利用注意力模塊增強對關鍵PAF事件語義信息的關注。該模塊通過動態(tài)調(diào)整特征圖的通道權重,突出對分類和定位任務更為關鍵的特征,從而提升模型性能和泛化能力。
PAF定位解碼器的數(shù)學表示為:
zPAF=[D(z0),D(z1),D(z2),D(z3),z4]
(1)
(2)
(3)
其中[·]表示通道維度拼接,D(·)表示降采樣,z0∈2 400×16,z1∈1 200×32,z2∈600×64,z3∈300×128,z4∈150×256。SE(·)表示注意力模塊,?表示按對位元素相乘。GAP(·)表示全局平均池化,ωPAF和bPAF為PAF定位解碼器中全連接層的參數(shù),Sigmoid(·)表示激活函數(shù)。
1.2.3QRS波定位解碼器 QRS波定位任務涉及從連續(xù)的ECG序列中識別QRS波的范圍和定位R波的坐標,類似于計算機視覺中的目標檢測任務。為實現(xiàn)高精度的分割,本研究將低分辨率特征插值到最高分辨率特征中。為平衡模型性能和計算資源之間的關系,提高模型的QRS波定位性能,本研究對QRS波定位任務使用知識蒸餾,基于現(xiàn)有的高精度QRS波定位方法[19]為模型提供QRS波范圍的先驗二進制標簽序列QRS∈2 400×1作為訓練時的真實標簽序列。
QRS波定位解碼器的數(shù)學表示為:
zQRS=[z0,U(z1),U(z2),U(z3),U(z4)]
(4)
(5)
(6)
1.2.4信號預處理和后處理 (1)預處理:輸入多分辨率編碼器的12 s ECG片段均被重采樣為200 Hz,以保證輸入片段包含相同的采樣點數(shù)(2 400)。中值濾波器和0.1~45 Hz帶通濾波器[25]被用于初步濾除基線漂移和工頻噪聲等干擾。
(2)后處理:兩個解碼器的最終輸出由Sigmoid激活函數(shù)決定,輸出值在范圍[0,1]內(nèi),近似為事件發(fā)生的概率。
對于QRS波定位任務,概率結(jié)果超過0.5的點被判定位于QRS波群中。R波坐標被定義為每段陽性標簽的中點。當兩個R波坐標的間隔小于25個采樣點時,本研究認為存在假陽性,并以這兩個坐標的中點代替原有的兩個坐標[21]。
對于PAF定位任務,當某一幀對應的概率結(jié)果超過閾值0.5時,該幀被判定存在AF。由于臨床AF的診斷依賴于對P 波狀態(tài)和 RR 間期序列的分析,需要從ECG中獲取足夠的信息[21],因此將預測PAF長度不足5個連續(xù)心拍的片段認為是假陽性并舍棄。模型同步得到的R波坐標被用于計算心拍。AF標簽陽性標記范圍的兩個端點被用作PAF事件的起始點和終止點。
MR-ECG的參數(shù)均通過二元交叉熵損失函數(shù)(binary cross-entropy,BCE)進行訓練。其損失函數(shù)表示為:
(7)
實驗采用五折交叉驗證法在CPSC 2021-Train數(shù)據(jù)庫[26]上進行訓練,劃分出來的驗證集用于超參數(shù)調(diào)優(yōu)和模型選擇,數(shù)據(jù)采樣率為200 Hz。為避免模型過擬合,兩個臨床含噪ECG數(shù)據(jù)庫TEST_I和TEST_II[26]僅用于模型性能評估和魯棒性測試,數(shù)據(jù)采樣率為200 Hz。數(shù)據(jù)屬性見表1。
表1 PAF數(shù)據(jù)庫概要
實驗使用TensorFlow框架,在NVIDIA RTX 3070Ti GPU上進行訓練和測試。通過驗證集驗證不同超參數(shù)組合的性能,得到最優(yōu)的超參數(shù)組合。實驗中各模型的超參數(shù)設置一致:輸入的批大小為100,優(yōu)化器學習率為0.001。為防止模型過擬合,采用早停策略,當模型連續(xù)20次驗證性能未提高時,停止訓練。
在實驗中,根據(jù)已有的AF分類、PAF定位和QRS波定位分別選擇了以下評價指標參數(shù):
(1)采用真陽性(true positive,TP)、假陽性(false positive,FP)、假陰性(false negative,FN)、準確度(accuracy,acc)、敏感性(sensitivity,Sen)、陽性預測值(positive predictive value,PPV)和F1分數(shù)用于評估分類任務性能。本研究中的AF分類和QRS定位任務可分別看作ECG全局和局部的二分類任務。AF分類使用Acc和F1分數(shù)進行評估,其中持續(xù)性AF和PAF被認為是陽性,而非AF被認為是陰性。QRS定位任務使用TP、FP、FN、PPV、Sen和F1分數(shù)進行評估。Acc越高表示模型分類越準確,F1越高表示模型分類越穩(wěn)健。
(8)
(9)
(10)
(11)
其中,TP為事件(QRS檢測、AF分類)正確預測數(shù);FP為假陽性數(shù);FN為事件漏檢數(shù)。
(2)交并比(intersection over union,IoU)。PAF定位任務在本研究中被看作幀級別的AF分類任務,不同于Acc和F1分數(shù),IoU被用于評估ECG信號中每一幀的分類準確度,進而評估模型的PAF定位性能。由于ECG為非AF類型時,根據(jù)傳統(tǒng)IoU定義計算會導致分母為0,本研究對IoU進行了特定類別的計算考慮,分別計算AF信號和Non-AF信號的IoU。IoU越高,表示模型正確定位的覆蓋范圍越多。
(12)
其中,TPF為被正確標記為AF的AF幀數(shù);TNF為被正確標記為非AF的非AF幀數(shù);FPF為被錯誤標記為AF的非AF幀數(shù);FNF為被錯誤標記為非AF的AF幀數(shù)。
(3)PAF定位分數(shù)(PAF-Score)[22]。Acc和F1未評估針對PAF、持續(xù)性AF和非AF的三分類任務性能,而IoU只考慮預測和真實PAF二進制標簽序列的一致性,當ECG信號中有多段不連續(xù)的AF片段時,IoU變化不大,無法體現(xiàn)PAF定位準確度。基于以上問題,本研究使用PAF-Score評估PAF定位性能。
圖3 Ue計算示例
第二部分Ur通過一個分數(shù)矩陣計算三分類任務的準確度,分類得分見圖4。例如,當一個PAF信號被分類為非AF信號時,Ur得分為-1。
圖4 Ur分數(shù)矩陣
PAF-Score計算如下:
(13)
其中,N為數(shù)據(jù)庫中的ECG信號數(shù)量。PAF-Score的分數(shù)與ECG數(shù)據(jù)庫中的PAF信號占比以及PAF信號中的PAF時間數(shù)量有關,所以,PAF-Score僅適用于在相同數(shù)據(jù)庫上比較不同的模型性能。根據(jù)計算規(guī)則,PAF-Score的下界閾值為-2,無明確的上界閾值。
表2為MR-ECG及現(xiàn)有的PAF定位模型在TEST_I和TEST_II臨床含噪ECG數(shù)據(jù)庫上的PAF定位和AF分類結(jié)果。PAF定位結(jié)果使用IoU和PAF-Score評估,AF分類結(jié)果使用Acc、Rec、Pre和F1分數(shù)評估??梢?MR-ECG在兩個數(shù)據(jù)庫上實現(xiàn)了最高的IoU和PAF-Score,PAF定位性能優(yōu)于傳統(tǒng)ResNet網(wǎng)絡和Wen等[20]提出的4個方法。相比傳統(tǒng)ResNet網(wǎng)絡,IoU分別增長了1.67%和3.96%,PAF-Score分別增長了0.031 1和0.237 2。這說明MR-ECG通過橫向連接并行處理分辨率的多個分支,能夠保留更多的PAF特征,使得方法在PAF定位任務上取得更好的效果。而MR-ECG僅通過一個模型定位就實現(xiàn)了優(yōu)于LSTM+U-Net和LSTM+SeqLab方法的PAF定位性能,證明了MR-ECG在模型結(jié)構上的優(yōu)越性,也進一步表明了提升對局部和全局信息的感知,可以提升PAF的定位性能。
表2 PAF定位、AF分類結(jié)果和QRS波定位結(jié)果對比表
此外,由表2可知,MR-ECG在AF分類任務上的性能也優(yōu)于其他幾種方法,在兩個數(shù)據(jù)庫上的F1分數(shù)分別達到了86.73%和89.98%,比傳統(tǒng)ResNet網(wǎng)絡提升了2.53%和0.52%;相比Wen等[20]所提方法中的最高F1分數(shù)分別提升了4.5%和1.98%,間接證實了MR-ECG可捕捉到更有效的PAF特征表征。
表2為MR-ECG與其他QRS波定位方法在TEST_I和TEST_II兩個數(shù)據(jù)庫上的結(jié)果??梢?MR-ECG的各項指標表現(xiàn)良好,Sen分別達到了99.66%和99.27%,PPV分別達到了99.65%和99.32%,超過傳統(tǒng)的QRS波定位方法,并與現(xiàn)有的領先方法持平。在兩個數(shù)據(jù)庫上,MR-ECG的F1分數(shù)僅比現(xiàn)有的領先方法低0.08%和0.05%,這表明本研究方法可實現(xiàn)較高精度的QRS波定位,進而為PAF定位序列后處理提供有效且準確的參考信息??傮w而言,本研究方法在PAF定位、AF分類和QRS波定位任務上具有較高的準確性和穩(wěn)定性。
本研究提出了基于CNN的多分辨率ECG理解框架,實現(xiàn)了PAF和QRS波的準確定位,以及AF的可靠分類。為防止模型過擬合,本研究僅在CPSC 2021-Train上訓練模型,并嚴格在TEST_I和TEST_II上進行測試和分析。實驗結(jié)果顯示,IoU、PAF-Score、F1在TEST_I數(shù)據(jù)庫上分別為93.68%、1.818 2、86.73%,在TEST_II數(shù)據(jù)庫上分別為79.28%、3.487 0和89.98%,表明該算法在PAF定位和AF分類方面具有較高的準確性和穩(wěn)定性。此外,針對QRS波定位性能的實驗結(jié)果顯示,兩個數(shù)據(jù)庫上的F1分數(shù)分別為99.65%和99.29%,超過多數(shù)QRS波定位方法,與現(xiàn)有的領先方法持平。然而,本項工作也存在一些局限性,實驗發(fā)現(xiàn)本研究方法仍存在被噪聲干擾導致的誤判現(xiàn)象,未來需要嘗試更多方法,以進一步提升算法對噪聲干擾的魯棒性。此外,本研究將進一步研究模型的可解釋性,以幫助用戶更清楚地了解人工智能如何作出決策。