劉 姝,邵 杰,張頤婷,張善章
(南京航空航天大學(xué) 電子信息工程學(xué)院,江蘇 南京 211106)
據(jù)世界衛(wèi)生組織(World Health Organization, WHO)統(tǒng)計,因心血管死亡的人數(shù)疾病占了全球死亡人數(shù)的1/3,且呈現(xiàn)逐年增加的趨勢。心血管疾病已逐漸成為危害人類生命的最常見疾病之一[1]。有效地診斷和預(yù)防心血管疾病已成為當(dāng)今醫(yī)學(xué)界面臨的重要問題。心電(Electrocardiogram,ECG)信號不僅可以用來分析和鑒別心律失常、心肌梗死等多種疾病,還可以反映心肌細(xì)胞損傷程度、發(fā)育過程、心房和心室功能結(jié)構(gòu)[2],是心血管疾病診斷中一種簡明有效的工具。
雙譜作為一種成熟的信號方法,能夠有效抑制高斯噪聲帶來的干擾,在許多領(lǐng)域得到了廣泛應(yīng)用[3]。然而,由于雙譜矩陣較為復(fù)雜,目前大多數(shù)算法是在得到雙譜矩陣的基礎(chǔ)上進(jìn)一步降維提取特征,例如圍線積分[4]、雙譜切片[5]、主成分分析(Principal Component Analysis,PCA)[6]、獨立成分分析(Independent Component Analysis,ICA)[7]、核鑒別分析方法如核主成分分析(Kernel Principal Component Analysis,KPCA)[8]等。
本文引入的算法在雙譜矩陣上直接提取二維譜特征對心電信號進(jìn)行分類識別,不僅實現(xiàn)了有效的特征提取,也提高了識別率,降低了計算量。
ECG信號的分類識別過程主要包括4個步驟:(1)對ECG信號進(jìn)行預(yù)處理;(2)計算ECG信號的雙譜;(3)通過雙譜矩陣提取二維譜平坦度、二維譜亮度以及二維譜滾降度3個特征,并組成特征向量;(4)針對特征向量使用基于徑向基函數(shù)(Radial Basis Function,RBF)核的支持向量機(jī)(Support Vector Machine,SVM)進(jìn)行分類識別。
通常需要對現(xiàn)有數(shù)據(jù)庫中的ECG信號進(jìn)行去噪和分段,即使用多種濾波器去除信號中的噪聲并分離出單個心拍。
理論上,雙譜可以完全抑制高斯有色噪聲的影響,具有高階譜的時移不變性、相位保持性和尺度變化性等特點。計算雙譜時,一般可以采用參數(shù)化和非參數(shù)化兩種方法。其中非參數(shù)法比較簡單,也可以保證較高的分辨率和較低的估計方差。非參數(shù)化的估計方法又包括了直接法和間接法。本文主要采用非參數(shù)化的直接雙譜估計方法,也就是在得到信號的離散傅里葉變換(Discrete Fourier Transfarm,DFT)系數(shù)之后,對該系數(shù)作三重相關(guān),得到信號的雙譜估計[3]。
假定一段長度為N的觀測數(shù)據(jù){x(1),x(2),…,x(N)},采樣頻率為fs,總的頻率采樣數(shù)即FFT點數(shù)是N0,雙譜區(qū)域內(nèi)沿水平和垂直方向上的頻率采樣間隔Δ0=fs/N0。本文中采用的算法步驟為:
步驟1將數(shù)據(jù)序列平均分成K段,此時每段中包含M個樣本,對每段數(shù)據(jù)去均值處理,生成樣本{x(k)(1),x(k)(2),…,x(k)(M)},其中k=1,…,K。相鄰的兩段數(shù)據(jù)之間重疊率為α(%);
步驟2計算DFT的系數(shù)
(1)
其中,{x(k)(n)}是第k段數(shù)據(jù),n=1,2,…,M。
步驟3計算DFT系數(shù)的三重相關(guān)函數(shù)
(2)
其中,k=1,…,K;0≤λ2≤λ1;λ1+λ2≤fs/2;N0和L應(yīng)滿足M=(2L1+1)N0;
步驟4得到K段數(shù)據(jù)雙譜估計后,用它們的平均值來表示初始序列的雙譜估計
(3)
式中,ω1=2πfsλ1/N0;ω2=2πfsλ2/N0。
普通雙譜矩陣是二維數(shù)組,包含很多冗余信息,直接用于識別分類會增加分類的難度和計算量。因此,許多研究者使用多種方法對雙譜特征進(jìn)行降維,將二維雙譜數(shù)據(jù)變換為一維譜來提高運算速度。這樣雖然后續(xù)運算簡單,但是降維本身就是一步計算的過程,并且步驟中容易忽略掉一些有用信息。本文直接在雙譜矩陣上提取特征,使用的譜特征包括譜平坦度、譜亮度和譜滾降度3種[9],并由一維擴(kuò)展到二維。
1.3.1 譜平坦度
譜平坦度測量的是信號譜與噪聲譜的接近程度,由譜的幾何平均值與算術(shù)平均值之比給出。由此可以得到二維歐式空間中譜平坦度的計算式為
(4)
式中,s(i,j)代表的是點(i,j)處的譜幅度值;N是雙譜矩陣的點數(shù)。由式(4)可得,當(dāng)譜平坦度接近0時,表示功率集中在少數(shù)頻段。當(dāng)所有譜帶中功率的分布相似,比如完全平坦譜,那么譜平坦度值為1,此時的信號即為白噪聲。
1.3.2 譜亮度
信號的譜亮度可以表示為給定邊界頻率F以上的譜強(qiáng)度之和與譜總強(qiáng)度之比。推廣到二維空間時,可得到式(5)。
(5)
由式(5)可知,譜亮度的值越大,說明在給定頻率范圍內(nèi)的能量越多也越集中。
1.3.3 譜滾降度
譜滾降度也是一個對應(yīng)于邊界頻率F的函數(shù),可用作測量信號不均勻性的傾斜度。根據(jù)信號的特性,在二維域定義如下
(6)
這里β是系數(shù),本實驗中經(jīng)過多次實驗,選擇為0.3。
本實驗中,數(shù)據(jù)來自美國麻省理工學(xué)院提供的MIT-BIH心律失常數(shù)據(jù)庫,這是國際公認(rèn)的標(biāo)準(zhǔn)數(shù)據(jù)庫之一。被記錄者具有不同性別,且來自不同年齡段,因此更具代表性。數(shù)據(jù)庫中一共48條記錄,本文采用其中通過修正肢體導(dǎo)聯(lián)II(Modified Limb Lead II ,MLII)的記錄,每條記錄時長約為30 min,采樣頻率為360 Hz。根據(jù)美國醫(yī)療儀器促進(jìn)協(xié)會(The Association for the Advancement of Medical Instrumentation,AAMI)標(biāo)準(zhǔn),將數(shù)據(jù)分為N類(正?;蛘呤鲗?dǎo)阻滯節(jié)拍)、S類(室上性異常節(jié)拍)、V類(心室異常節(jié)拍)、F類(融合節(jié)拍)和Q類(未能分類的節(jié)拍)等幾類。由于Q類數(shù)據(jù)量過少,此處只討論數(shù)據(jù)量比較多的4類[10]。
心電信號極易受到噪聲干擾,包括工頻干擾、基線漂移,低頻和高頻噪聲等[11]。因此,需要對信號進(jìn)行預(yù)處理。分別使用中值濾波器去除基線漂移,用低通濾波器去除工頻干擾和工頻噪聲,用高通濾波器去除低頻干擾,之后使用小波方法尋找信號QRS復(fù)合波中的峰值R波位置[12]。以峰值點為原點,該點和之前以及之后各取100個數(shù)值,形成長度為200點的單位心電信號片段,共75 604條數(shù)據(jù)。
直接雙譜估計算法受多個參數(shù)影響,包括每段數(shù)據(jù)包含的點數(shù)記作M,相鄰兩段數(shù)據(jù)之間的重復(fù)度α以及FFT運算的點數(shù)N0。其中點數(shù)M與N0存在一定的聯(lián)系,即M=(2L1+1)N0,L1為任意自然數(shù)。信號雙譜隨不同的M和α參數(shù)值而變化。本文選擇N0=128,α=50作為雙譜計算時的FFT點數(shù)和重復(fù)度。上文所述4種類型ECG信號的歸一化頻率的雙譜等高線圖如圖1所示。這4種類型ECG信號分別來自第100、232、208、213號數(shù)據(jù)。
(a)
從圖1中可以看出,4種類型ECG信號的雙譜等高線圖之間差異較為明顯。圖1(a)的N類和圖1(b)的S類即使在頻率歸一化之后依然在比較大的一個區(qū)域內(nèi)有取值。從內(nèi)部結(jié)構(gòu)看,圖1(c)的V類最為復(fù)雜,圖1(d)的F類最為簡單。由圖可知,4種類型ECG信號的雙譜圖之間的可區(qū)分度較高。
在雙譜矩陣的基礎(chǔ)上,直接提取二維譜特征。如圖2所示分別是3種譜特征分布的箱型圖。共75 604條數(shù)據(jù),其中N類67 994條,S類2 577條,V類4 249條,F(xiàn)類784條。
圖2中,矩形框外的兩條橫線分別代表最大值和最小值,框內(nèi)橫線表示中值,矩形框代表上下四分位數(shù)之間的區(qū)域,框外的加號代表系統(tǒng)判定的異常值。從圖2可以看出,對于4類信號,使用二維譜特征是有一定區(qū)分度的,尤其是F類信號。S類相對于N類信號,異常值比較多,方差比較大。對應(yīng)于V類信號的譜平坦度和譜亮度箱型圖上下四分位數(shù)之間的范圍最寬。在圖2(c)中,N類信號的譜滾降度大多分布在28和29,后3類信號的譜滾降度分別集中于29、30和31。
(a)
將包含4類ECG信號的樣本隨機(jī)等分成兩份,50%用于分類器訓(xùn)練,50%用于性能測試。將3種譜特征構(gòu)成特征向量,使用RBF-SVM[13]進(jìn)行分類識別。分類結(jié)果如表1所示。
從表1結(jié)果可見,4類ECG信號基本得到正確識別,準(zhǔn)確識別率約為90%。但是正常心電信號,也就是N類信號樣本量過大,對其余幾類信號分類效果產(chǎn)生了較大影響。所以,在去掉N類信號后,重復(fù)以上實驗步驟,得到的分類結(jié)果如表2所示。
表1 對N、S、V、F 4類信號分類矩陣
表2 對S、V、F 3類信號分類矩陣
表3是在表2條件下總識別率與其他文獻(xiàn)的對比。
表3 本文所提出算法與其他算法比較
從表2和表3可以看出,僅考慮S、V、F 3類信號時,此時ECG信號的識別率達(dá)到了93.4%,超過了文獻(xiàn)[14~17]中的分類識別效果,與文獻(xiàn)[18]相比,低了1.7%。但是在文獻(xiàn)[18]中,用于訓(xùn)練的樣本數(shù)占總樣本的80%,測試集僅為20%。這樣不僅增加了計算量和時間,也無法在足夠多的樣本上驗證算法的有效性。
表3的識別率結(jié)果表明,使用雙譜矩陣直接提取的二維譜特征對心率失常信號進(jìn)行分類識別是有效的。
本文介紹了一種在雙譜矩陣基礎(chǔ)上直接提取二維譜特征的信號處理方法,并將其結(jié)合RBF-SVM以實現(xiàn)心電信號分類識別。實驗結(jié)果表明,本文提出的雙譜和譜特征相結(jié)合的特征提取方法既能充分利用高階譜分析的優(yōu)良特性,又具有計算量較小、準(zhǔn)確度高的特點,是一種有效的ECG信號特征提取方法,為進(jìn)一步提高ECG信號分類效果和心血管疾病的診斷提供了參考探索。除了MIT-BIH心律失常數(shù)據(jù)庫,還可以通過更多的數(shù)據(jù)庫或臨床心電信號數(shù)據(jù)作進(jìn)一步的研究和驗證,以實現(xiàn)心電信號的自動分析與檢測。