李鴻強(qiáng),魏小清,王有璽,張振,宮正,吳非凡
(1.天津市光電檢測(cè)技術(shù)與系統(tǒng)重點(diǎn)實(shí)驗(yàn)室,天津300387;2.天津工業(yè)大學(xué)電子與信息工程學(xué)院,天津300387;3.天津工業(yè)大學(xué)計(jì)算機(jī)科學(xué)與軟件學(xué)院,天津300387)
心血管疾病是目前人類疾病中發(fā)病率和死亡率最高的疾病之一,已經(jīng)嚴(yán)重威脅了人們的生命健康。心電監(jiān)護(hù)系統(tǒng)能夠直觀的監(jiān)測(cè)心臟的電活動(dòng)并進(jìn)行疾病反饋,因而,心電監(jiān)護(hù)系統(tǒng)中心電類型的自動(dòng)檢測(cè)和分類成為了研究的重點(diǎn)。進(jìn)行心電信號(hào)的檢測(cè)時(shí)極易受到噪聲信號(hào)的干擾,因而需要對(duì)心電信號(hào)進(jìn)行預(yù)處理。Venkatesan[1]等通過(guò)自適應(yīng)濾波器對(duì)心電信號(hào)進(jìn)行去噪,Phukpattaranont[2]利用雙頻帶連續(xù)小波變換對(duì)心電信號(hào)進(jìn)行去噪,Rakshit[3]等利用經(jīng)驗(yàn)?zāi)J椒纸夂妥赃m應(yīng)切換均值濾波器對(duì)心電信號(hào)進(jìn)行濾波,從而有效地提高輸出心電信號(hào)的信噪比。
目前常用的心電信號(hào)特征提取方法主要包括非線性變換方法和線性變換方法[4]。Ye[5]等利用小波變換和獨(dú)立成分分析提取心電信號(hào)RR間期作為特征,并利用支持向量機(jī)將16類心電信號(hào)分為5大類,分類準(zhǔn)確度為86.4%。Kumar[6]等人利用離散小波變換對(duì)心電信號(hào)進(jìn)行去噪和提取,采用鄰域粗糙集對(duì)5類心電信號(hào)分類,準(zhǔn)確度為99.32%。Moon[7]等人提出高階統(tǒng)計(jì)特征的支持向量機(jī)分類模型,利用心電信號(hào)的方差、偏度和峰值作為特征,對(duì)4類心電信號(hào)進(jìn)行分類,準(zhǔn)確度為98.8%。
在心電信號(hào)的識(shí)別和分類上已經(jīng)有很多研究成果,但仍然有待提高的地方。在本研究中,先對(duì)心電信號(hào)進(jìn)行提升小波變換和改進(jìn)半軟閾值相結(jié)合的預(yù)處理,去除心電信號(hào)的噪聲。然后利用PCA對(duì)信號(hào)進(jìn)行降維處理,再利用核獨(dú)立成分分析(kernel independent component analysis,KICA)提取心電信號(hào)的非線性特征,利用離散小波變換(discrete wavelet transformation,DWT)提取心電信號(hào)的頻域特征,再利用LDA對(duì)頻域特征進(jìn)行降維,將降維后的特征組成多域特征空間。最后采用LIBSVM對(duì)多域特征分類,遺傳算法(genetic algorithm,GA)對(duì) LIBSVM 的參數(shù)進(jìn)行尋優(yōu)。在本研究中,所采用的心電數(shù)據(jù)均來(lái)源于MIT-BIH數(shù)據(jù)庫(kù),所分類的心電類型為正常心跳(N)、左束支阻滯搏動(dòng)(LBBB)、右束支阻滯搏動(dòng)(RBBB)、室性早搏(PVC)和房性早搏(PAC)。
PCA[8]是一種常用的數(shù)據(jù)分析方法,本研究利用PCA對(duì)心電信號(hào)進(jìn)行降維提取其主成分,具體過(guò)程為:
(1)設(shè)心電樣本為n維向量,總樣本數(shù)為m,全部樣本組成樣本矩陣為X=[x1,x2,…,xm],則總樣本平均值為:
由均值求得樣本矩陣的協(xié)方差矩陣為:
(2)求解樣本協(xié)方差矩陣的特征值λi和特征向量,根據(jù)特征值計(jì)算協(xié)方差矩陣的貢獻(xiàn)率。樣本協(xié)方差矩陣C第i列向量的貢獻(xiàn)率和前j列矩陣的累計(jì)貢獻(xiàn)率分別是:
(3)將特征向量按對(duì)應(yīng)特征值的大小從上到下按行排列成矩陣,設(shè)定降維的維數(shù)k,取前k行組成矩陣P。
(4)Y為降維后的數(shù)據(jù)組,求取公式為:
本研究提取5類心電信號(hào)的18個(gè)數(shù)據(jù)編號(hào),每個(gè)編號(hào)各選取100個(gè)樣本,每個(gè)樣本取R峰前后共250個(gè)數(shù)據(jù)點(diǎn)。將得到的1 800個(gè)樣本平均分為測(cè)試集和訓(xùn)練集,不同類型心電信號(hào)樣本的采樣來(lái)源及采樣數(shù)目見(jiàn)表1。
表1 不同類型的心電信號(hào)樣本的采樣來(lái)源及采樣數(shù)目Table 1 Sampling sources and number of different types′ECG signals
提取的心電數(shù)據(jù)樣本構(gòu)成1800×250的初始特征矩陣。采用PCA對(duì)特征矩陣進(jìn)行降維,根據(jù)貢獻(xiàn)率依次選取樣本協(xié)方差矩陣C前20個(gè)最大特征值,見(jiàn)表2,將特征值對(duì)應(yīng)的特征向量對(duì)矩陣C進(jìn)行白化處理,得到的白化矩陣投影到原始心電數(shù)據(jù)矩陣中,即得到降維后的20維心電數(shù)據(jù)矩陣。
表2 協(xié)方差矩陣C所對(duì)應(yīng)的特征值、貢獻(xiàn)率和累計(jì)貢獻(xiàn)率Table 2 Characteristic values,contribution rates and cumulative contribution rates corresponding to the covariance matrix C
心電信號(hào)非線性特征的求解過(guò)程為:給定已知的x(t)=[x1(t),x2(t),…,xn(t)]T,存在一組m維未知信號(hào)s(t)=[s1(t),s2(t),…,sm(t)]T,s(t)經(jīng)線性混合能夠構(gòu)成x(t),A是一個(gè)n×m維的未知混合矩陣,ICA簡(jiǎn)化線性數(shù)學(xué)模型可以表示為:
A為未知的混合矩陣,W為某種線性變換,以解混矩陣W為基礎(chǔ),利用已知觀測(cè)信號(hào)x(t)來(lái)求解未知源信號(hào)s(t),觀測(cè)矩陣x(t)經(jīng)過(guò)W變換求解得到源信號(hào)s(t)的估計(jì)值y(t)。通過(guò)學(xué)習(xí)使得WA=I,I為單位矩陣,實(shí)現(xiàn)y(t)=WAs(t)=s(t),從而恢復(fù)源信號(hào)。在噪聲不計(jì)的情況下,ICA實(shí)現(xiàn)的具體原理見(jiàn)圖1,ICA的解混模型為:
通過(guò)KICA非線性變換提取得到解混矩陣后,心電信號(hào)統(tǒng)計(jì)獨(dú)立的基信號(hào)為Si=Wxi,不同的基信號(hào)Si組成特征子空間S,由獨(dú)立的基信號(hào)通過(guò)不同線性組合的心電信號(hào)xi為:
圖1 獨(dú)立成分分析的原理結(jié)構(gòu)Fig 1 Principle structure of independent component analysis
將通過(guò)PCA降維的20個(gè)特征值對(duì)應(yīng)的主成分作為KICA算法的輸入矩陣,采用徑向基函數(shù)作為KICA核函數(shù),根據(jù)Francis經(jīng)驗(yàn)和實(shí)驗(yàn)測(cè)試令KICA模型的正則化因子Kap=0.02和徑向基函數(shù)的核寬度δ=1,KICA算法分離得到20個(gè)獨(dú)立的基信號(hào),圖2中為正常心電信號(hào)的20維非線性特征。
圖2 KICA提取的正常心電信號(hào)的20維特征Fig 2 20-Dimensional characteristics of normal ECG signals extracted by KICA
本研究采用DWT提取心電信號(hào)的頻域特征[9]。鑒于db2具有良好的平滑效果,因此選用db2小波作為基函數(shù),通過(guò)實(shí)驗(yàn)研究進(jìn)行4尺度的離散小波分解,得到的分解系數(shù)即為心電信號(hào)的頻域特征,選取4個(gè)尺度的細(xì)節(jié)小波系數(shù)cd1-cd4和第4尺度的近似系數(shù) ca4作為心電信號(hào)的頻域特征。圖3中為正常信號(hào)分解的頻域特征。
利用LDA能夠?qū)π碾娦盘?hào)特征空間進(jìn)行降維,本研究對(duì)心電信號(hào)頻域特征降維的具體步驟為:
圖3 正常心電信號(hào)的頻域特征Fig 3 Frequency domain characteristics of normal ECG signals
(1)令心電信號(hào)為X=[x1,x2,…,xn],其中包括共c類的心電類型,mi表示第i類訓(xùn)練樣本的個(gè)數(shù),總訓(xùn)練樣本為m,則第i類訓(xùn)練樣本的均值ui和總樣本的均值u分別為:
(2)各類心電信號(hào)樣本的類間散度矩陣Sb和樣本類內(nèi)散度矩陣Sw分別為:
(3)投影的直線為y=wTx,為了使數(shù)據(jù)能夠更好的分離,需要將樣本數(shù)據(jù)的類間投影點(diǎn)的距離盡可能增大,使類內(nèi)投影點(diǎn)的距離盡可能縮小,因此引入Fisher準(zhǔn)則函數(shù):
為了滿足類內(nèi)距離小、類間距離大,則要使J(w)取最大值,即必須滿足Sb w=λSw w,w作為投影方向,即為需要求解的特征向量矩陣。
采用統(tǒng)計(jì)學(xué)方法計(jì)算每類樣本每個(gè)小波系數(shù)的最大值、最小值、平均值和標(biāo)準(zhǔn)偏差,組成新的心電特征,得到20維的頻域特征向量,則5類心電信號(hào)的統(tǒng)計(jì)特征見(jiàn)表3。最后利用LDA將20維的頻域特征優(yōu)化成4維的特征向量。
表3 心電信號(hào)的頻域統(tǒng)計(jì)特征Table 3 Frequency domain statistical characteristics of ECG signals
遺傳算法能夠在模擬進(jìn)化過(guò)程中尋找全局最優(yōu)解,本研究采用遺傳算法對(duì)支持向量機(jī)的參數(shù)進(jìn)行搜索尋優(yōu),具體流程見(jiàn)圖4。支持向量機(jī)(support vector machine,SVM)是Corinna Cortes和Vapnik等人在1995年提出的一種二分類模型[10]。在實(shí)驗(yàn)中采用林智仁等[11]設(shè)計(jì)的 LIBSVM作為分類器[12],采用徑向基函數(shù)作為支持向量機(jī)的核函數(shù),通過(guò)遺傳算法對(duì)支持向量機(jī)尋優(yōu)后的懲罰因子C為2.61633,核寬度g為4.16832。
實(shí)驗(yàn)從MIT-BIH心電數(shù)據(jù)庫(kù)采集的心電信號(hào)共1 800組,將采集到的心電信號(hào)樣本平均分為900組訓(xùn)練集和測(cè)試集,將多域特征采用LIBSVM進(jìn)行訓(xùn)練和測(cè)試,測(cè)試分類結(jié)果見(jiàn)圖5。
圖4 遺傳算法參數(shù)尋優(yōu)的流程圖Fig 4 Flow chart of genetic algorithm parameter optimization
圖5 LIBSVM 的分類結(jié)果圖Fig 5 Classification results of LIBSVM
圖5中,○代表了實(shí)際測(cè)試集分類,*代表了預(yù)測(cè)測(cè)試集分類,具體分類結(jié)果見(jiàn)表4。橫坐標(biāo)表示測(cè)試集的樣本,縱坐標(biāo)表示了分類器的分類結(jié)果,由下到上依次為:N、LBBB、RBBB、PVC和 PAC。
表4 LIBSVM 的分類結(jié)果統(tǒng)計(jì)Table 4 Statistics of classification results of LIBSVM
對(duì)測(cè)試集中的900組樣本進(jìn)行分類測(cè)試,根據(jù)ECAR87的標(biāo)準(zhǔn)評(píng)估分類器的測(cè)試結(jié)果,利用真陽(yáng)性TP、假陰性FN、真陰性TN和假陽(yáng)性FP的統(tǒng)計(jì)結(jié)果計(jì)算分類器的性能指標(biāo),見(jiàn)表5。
表5 心律失常的四類分類結(jié)果統(tǒng)計(jì)及性能指標(biāo)Table 5 Statistics and performance indicators of four classification results of arrhythmia
本研究的分類結(jié)果與其他文獻(xiàn)分類結(jié)果的比較見(jiàn)表6。在表中,各文獻(xiàn)所使用的分類器均為支持向量機(jī),所分類的心電類型有所差異,但本研究所使用的分類算法的準(zhǔn)確度均高于其他文獻(xiàn)所使用的分類器,說(shuō)明本研究提出的方法具有更高的分類準(zhǔn)確度。
表6 LIBSVM 分類準(zhǔn)確度比較Table 6 Comparison of LIBSVM classification accuracy
本研究提出基于PCA和LDA降維的心電信號(hào)特征提取和分類診斷的方法,以降低特征空間計(jì)算的維數(shù),提高心電診斷的分類效率。所采用的PCA對(duì)去噪后的心電信號(hào)進(jìn)行降維,LDA對(duì)所提取的頻域特征進(jìn)行降維,共同組成降維后的多域特征空間。最后利用經(jīng)過(guò)遺傳算法優(yōu)化后的LIBSVM分類器,實(shí)現(xiàn)了對(duì)5類心電信號(hào)的分類,分類準(zhǔn)確率達(dá)99.11%,優(yōu)于現(xiàn)有研究的分類結(jié)果。實(shí)驗(yàn)結(jié)果表明,本研究提出的算法能夠?yàn)樾碾姳O(jiān)護(hù)系統(tǒng)自動(dòng)監(jiān)測(cè)和分類心電信號(hào)提供技術(shù)支持,為將來(lái)實(shí)現(xiàn)可穿戴心電監(jiān)護(hù)系統(tǒng)提供理論基礎(chǔ)和技術(shù)保障。