王凱,楊樞,2
1.蚌埠醫(yī)學(xué)院衛(wèi)生管理系,安徽蚌埠233030;2.合肥工業(yè)大學(xué)信息與計算機學(xué)院,安徽合肥233009
為降低心血管疾病引起的死亡率,心臟相關(guān)疾病的早期并發(fā)癥檢測與識別越來越受到醫(yī)學(xué)領(lǐng)域?qū)<业闹匾?。心律失常是由心臟電脈沖引起的傳導(dǎo)緩慢、阻滯或經(jīng)異常通道傳導(dǎo)的規(guī)律性心率異常[1]。在各種異常中,早期心室收縮(Premature Ventricular Contraction,PVC)是一種危害性較高的心律失常,通常是由心室的異位節(jié)律點發(fā)出激動波使心室提早收縮,即QRS綜合波在P波前出現(xiàn),是成人中廣泛存在的心律失常形式[2]。臨床上對PVC的評估和治療相對較復(fù)雜,針對心血管系統(tǒng)疾病的自動識別,領(lǐng)域?qū)<疫M(jìn)行了大量研究。PVC在心電圖(Electrocardiogram,ECG)上的生物特征主要表現(xiàn)為具有異常時序的心跳序列,通過使用已建立的疾病類別關(guān)聯(lián)關(guān)系,能夠在ECG記錄中標(biāo)記心拍序列,從所得序列中確定ECG信號的節(jié)拍屬性,達(dá)到相關(guān)疾病的診斷與識別目的。
基于ECG的PVC心律失常分類方法,研究多采用時頻分析技術(shù)、統(tǒng)計測量等混合方法。文獻(xiàn)[3]應(yīng)用動態(tài)貝葉斯網(wǎng)絡(luò)進(jìn)行PVC分類,分類過程中使用簡單的決策規(guī)則,適用于嵌入式分類監(jiān)測。文獻(xiàn)[4]使用基于神經(jīng)網(wǎng)絡(luò)的分類方案檢測PVC,比較了PVC聚類的學(xué)習(xí)和分類技能,提取了10個ECG結(jié)構(gòu)特征,設(shè)計了一種用于PVC識別的低復(fù)雜度數(shù)據(jù)自適應(yīng)方法。文獻(xiàn)[5]著重于PVC檢測的多層次學(xué)習(xí)模型,提出了一種使用多支路學(xué)習(xí)和支持向量機(Support Vector Machine,SVM)的PVC識別方法。文獻(xiàn)[6]提出了基于神經(jīng)網(wǎng)絡(luò)的ECG模式識別方法,通過Nearest Neighbo(NN)分類器對PVC進(jìn)行分類,并使用小波變換來提取心電圖數(shù)據(jù)的形態(tài)學(xué)特征。文獻(xiàn)[7]使用獨立分量分析(Independent Component Analysis,ICA)進(jìn)行特征提取,采用k-means和Fuzzy C-Means(FCM)分類器來識別PVC節(jié)拍。文獻(xiàn)[8]采用貝葉斯正則化反向傳播訓(xùn)練模型,通過優(yōu)化多特征最優(yōu)解模型,提高臨床ECG信號標(biāo)注的準(zhǔn)確性。ECG心拍分類算法能夠有效降低PVC心律失常的臨床檢測難度,簡化記錄和分析的工作量,逐漸成為領(lǐng)域?qū)<已芯康臒狳c方向。目前基于ECG的心拍自動分類算法主要分為3大類:基于ECG信號特征識別的方法、分類器模型方法以及自適應(yīng)模型分類過濾算法。
然而,上述方法在提取ECG信號特征時將信號波形的線性判別與聚類模型相結(jié)合,雖然在分類效果上有所提高,卻降低了分類器的樣本外點處理能力,無法有效處理變化的樣本數(shù)據(jù)特征識別。本文提出一種面向PVC心拍分類的心電信號分類算法,重點研究基于自適應(yīng)學(xué)習(xí)的PVC異常心拍分類特征提取模型,通過計算心拍關(guān)聯(lián)后驗概率,按估計置信度排序,獲取極大似然概率估計。自適應(yīng)分類器使用領(lǐng)域?qū)<业臉?biāo)注信息,提高心跳標(biāo)簽系統(tǒng)的分類性能。根據(jù)AAMI指南[8]處理心拍分類,使用MITBIH心律失常數(shù)據(jù)庫提供的心拍標(biāo)簽。訓(xùn)練分類器,動態(tài)調(diào)整分類器參數(shù),提高整體分類效果。
使用MIT-BIH心律失常數(shù)據(jù)庫的非起搏器記錄數(shù)據(jù),每個記錄包含兩組ECG導(dǎo)聯(lián)信號。采用0.1~100.0 Hz進(jìn)行帶通濾波,并以360 Hz進(jìn)行采樣。通過信號預(yù)處理,心拍分割獲取規(guī)范化的心拍采樣片段,通過特征提取以及概率權(quán)重排序,結(jié)合專家注釋標(biāo)注信息,構(gòu)建自適應(yīng)分類器,輸出相關(guān)類的分類結(jié)果。
ECG信號中的噪聲主要產(chǎn)生于以下幾個方面:EMG噪聲、電力線噪聲、基線漂移和復(fù)合噪聲[9]。不同患者的ECG信號顯示出顯著的差異,對計算出的信號振幅波動特征影響較大。執(zhí)行歸一化的預(yù)處理操作能夠顯著降低ECG信號的差異。本文將信號的均值設(shè)置為零,零均值信號計算如式(1)所示:
其中,y(t)是待計算的信號,是原始ECG,x是x(t)的算術(shù)平均值,L是信號長度。使用中值濾波器降低噪聲。中值濾波器是一種簡單的非線性平滑器,可以保持信號邊緣光滑的同時抑制噪聲。濾波信號計算如式(2)所示:
其中,Y(t)是濾波信號,y(t)是輸入信號。應(yīng)用級聯(lián)低通濾波器從信號中去除頻率分量低于0.5 Hz的信號數(shù)據(jù),消除基線漂移和電力線噪聲。基線漂移的頻率分量通常低于 0.5 Hz,將頻率限制調(diào)整為 2 Hz[10]。通過從適當(dāng)延遲的輸入信號中減去低通濾波器的輸出,實現(xiàn)信號從低通濾波器到高通濾波器的平穩(wěn)過渡。根據(jù)QRS復(fù)合波中R點的位置(根據(jù)濾波后的ECG信號建立每個心拍的R點,從R點右側(cè)的100點開始分割)。R點的相關(guān)位置組成了MIT-BIH數(shù)據(jù)庫的注釋文件,所選擇的心拍構(gòu)成了一個7 000×200矩陣。
使用獨立記錄數(shù)據(jù)對系統(tǒng)進(jìn)行測試,通過多個記錄中的心拍子類估計其分類性能[11]。分類系統(tǒng)示意圖如圖1所示。系統(tǒng)選取的信號特征集主要包括表1的信號數(shù)據(jù)[12]。首先使用初始分類器處理輸入ECG記錄,產(chǎn)生初始的心拍子標(biāo)簽集;然后將標(biāo)記的節(jié)拍提交給領(lǐng)域?qū)<遥鶕?jù)分類需要更正標(biāo)簽信息,使用校正的標(biāo)簽計算分類器參數(shù)集合;最后組合新分類器的參數(shù)集合,生成自適應(yīng)的分類器參數(shù)集合,系統(tǒng)使用已修改的參數(shù)處理剩余未注釋的心拍數(shù)據(jù)。
采用基于線性判別的分類系統(tǒng),輸出后驗條件概率,在單次迭代中訓(xùn)練分類器?;谧赃m應(yīng)學(xué)習(xí)的心拍分類算法(Adaptive Learning of the heart Beat Classification,ALHBC)通過后驗概率分析與計算、構(gòu)造特征矩陣,以分類器參數(shù)的加權(quán)平均值以基礎(chǔ),動態(tài)調(diào)整最佳分類器參數(shù)閾值,輸出具有異常時序的心跳分類集合。ALHBC算法的核心步驟描述如下。
圖1 基于自適應(yīng)學(xué)習(xí)的心拍分類系統(tǒng)原理圖Fig.1 Schematics of heartbeat classification system based on adaptive learning
表1 自適應(yīng)分類器特征集Tab.1 Adaptive classifier feature set
1.3.2 計算組合后驗概率 為減少提交給領(lǐng)域?qū)<业男呐臄?shù)量,選擇合適的自適應(yīng)分類器心拍。使用公式(5)計算每個類中心拍的后驗概率,并按降序排列,獲取置信度最高的后驗值Ri,計算公式見公式(6)。高置信度下的非自適應(yīng)分類器產(chǎn)生的心拍,具有相對較高的Ri。為獲取最佳自適應(yīng)訓(xùn)練心拍,將Ri按升序排列,將數(shù)值較低的心拍交專家重新評估,最終輸出組合后驗概率最高的類。
設(shè)X為隨機變量,ECG信號波形分布服從概率密度函數(shù)f(x,θ),利用公式(6)計算的最高后驗概率,構(gòu)造關(guān)于樣本觀測值的似然函數(shù),極大似然概率估計表示如公式(7)所示:
1.3.3 計算特征矩陣 ECG特征提取與分類是一種涉及基線降噪、心拍分割及特征抽取等的復(fù)雜相關(guān)性過程。通過構(gòu)建核心矩陣Z,定義并存儲表1中的特征集合,該矩陣會隨著輸入向量的增加而進(jìn)行動態(tài)更新。若X1,X2,…,XN∈RN與Y1,Y2,…,YM∈RN分別來自兩個不同的訓(xùn)練組,核心矩陣Z=X∪Y定義如公式(8)所示,對應(yīng)的協(xié)變矩陣CMZ定義如公式(9)所示:
針對核心矩陣,可進(jìn)一步求解其特征值λ和特征向量y,分別定義如公式(10)、(11)所示,上式中α、β分別表示Xi、Yi的特征向量。若Z的元素總數(shù)為k,為便于將數(shù)據(jù)映射到約簡的特征向量空間,分別將上式改寫成公式(12)、(13)所示:
1.3.4 計算分類器參數(shù)加權(quán)平均值 獲取自適應(yīng)分類器的最佳參數(shù)μk和協(xié)方差Σ,選擇合適的心拍,并將其提交給領(lǐng)域?qū)<疫M(jìn)行標(biāo)簽注釋。在訓(xùn)練初始數(shù)據(jù)參數(shù)記錄后,計算分類器參數(shù)加權(quán)平均值,使用公式(14)、(15)確定μ和∑k的加權(quán)平均值。
在獲取后驗概率估值后,使用交叉驗證過程估計分類器的綜合性能。為了獲得性能測量的無偏估計,測試數(shù)據(jù)中包括不屬于測試心拍分類信號的數(shù)據(jù)。將所有先驗概率設(shè)為1/11,分類條件加權(quán)值設(shè)置為0.5,由領(lǐng)域?qū)<覙?biāo)注的最佳分類自適應(yīng)參數(shù)在1到500次心拍之間隨機變動,以適應(yīng)不同的分類信號采樣。使用MIT-BIH心律失常數(shù)據(jù)庫驗證PVC心跳分類,不平衡比設(shè)置為1:100,其中選取200次正常心跳(NOR),200次右束支傳導(dǎo)阻滯(Right Bundle Branch Block,RBBB),200次左束支傳導(dǎo)阻滯(Left Bundle Branch Block,LBBB),200次心房早搏(Atrial Premature,AP)以及200次PVC作為信號的原始特征數(shù)據(jù)。
本實驗包含兩個子實驗,實驗一將所有心律失常心拍無區(qū)別地輸入未知類,重點測試ALHBC算法對異常心拍的分類能力;實驗二重點關(guān)注PVC的分類效果,在測試階段添加未知心跳類型,檢測算法對實驗一中PVC類數(shù)據(jù)的分類能力。
實驗一對樣本中的原始數(shù)據(jù)進(jìn)行特征分解,將特征集分別輸入 SVM[13]、Back Propagation Neural Network(BPNN)[14]以及 Learning Vector Quantization(LVQ)[15]分類模型,并將分類結(jié)果與ALHBC算法結(jié)果進(jìn)行橫向比較,實驗結(jié)果如圖2所示。在本實驗中,特征提取階段輸出60個特征集合,其中LVQ的準(zhǔn)確度為85.31%,SVM準(zhǔn)確度為87.44%,BPNN準(zhǔn)確度為91.72%,ALHBC算法準(zhǔn)確度為92.18%。結(jié)果表明通過集成特征提取階段的ALHBC算法能夠解決特征提取與分類數(shù)據(jù)的不一致問題。在非平衡數(shù)據(jù)條件下,對非線性流形結(jié)構(gòu)數(shù)據(jù)具有相對較高的分類準(zhǔn)確性。
圖2 心律失常心拍分類結(jié)果Fig.2 Arrhythmic heartbeat classification results
實驗二重點分析PVC的分類效果,在測試階段添加未知心跳類型,選取實驗一中分類效果較好的兩種分類模型(ALHBC和BPNN),構(gòu)建如表2所示的混淆矩陣,其中列數(shù)據(jù)表示實驗預(yù)測類,每列總數(shù)為預(yù)測該類數(shù)據(jù)總數(shù);每行表示數(shù)據(jù)的真實歸類,每行總數(shù)為該類別數(shù)據(jù)實例總數(shù)。結(jié)果表明ALHBC算法針對的PVC異常心拍分類特征提取較其他分類更加接近真實數(shù)據(jù)分類。
表2 特征分類混淆矩陣Tab.2 Confusion matrix of feature classification
本文提出一種自適應(yīng)心拍分類算法,研究解決ECG形態(tài)變異性的分類指證,構(gòu)建基于自適應(yīng)學(xué)習(xí)的PVC異常心拍分類特征提取模型,實現(xiàn)ECG的自動分類問題。通過計算心拍關(guān)聯(lián)后驗概率,結(jié)合領(lǐng)域?qū)<覙?biāo)注信息訓(xùn)練分類器,提高整體分類效果。研究結(jié)果表明,所提方法能夠處理非平衡類數(shù)據(jù)特征提取的分類問題,特別針對非線性流形結(jié)構(gòu)數(shù)據(jù),能夠有效提升小樣本心拍的自適應(yīng)分類器的準(zhǔn)確性。
結(jié)合臨床環(huán)境中的實際應(yīng)用,本文的后續(xù)研究將圍繞分類器參數(shù)的動態(tài)自適應(yīng)調(diào)整問題,改進(jìn)輸入?yún)?shù)的初始簇最優(yōu)解模型,減少所需領(lǐng)域?qū)<业臉?biāo)簽總數(shù),提升模型用于復(fù)雜條件下的自主學(xué)習(xí)能力。