陳濤 周升超 劉曉軍
摘 要:心音是可以反映人體心臟及血管瓣膜狀態(tài)的一種體征信號(hào),正常與異常心音分類在心臟類疾病的研究中具有重要作用。目前的深度學(xué)習(xí)心音分類研究大多采用無分割的方法,本研究通過PhysioNet心音數(shù)據(jù)庫獲取的心音信號(hào),進(jìn)行一系列預(yù)處理,基于HSMM(Hidden semi-Markov Model)分割心音結(jié)合CRNN(Convolutional Recurrent Neural Network)分類,與未進(jìn)行心音分割的分類方法對(duì)比,本研究采用的方法在F1分?jǐn)?shù)和非異常類的敏感度有所提高,能夠根據(jù)心音信號(hào)對(duì)正常、異常心音分類。
關(guān)鍵詞:CRNN;HSMM;心音分割;心音分類
中圖分類號(hào):R318.04 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-1064(2022)03-0-03
DOI:10.12310/j.issn.1674-1064.2022.03.004
心音信號(hào)中蘊(yùn)含了大量的心臟生理信息,其中包含心臟各心腔、瓣膜以及血管的運(yùn)行狀態(tài)[1],是診斷心血管疾病常用的醫(yī)學(xué)信號(hào)之一,可以揭示許多病理性心臟狀況,如心律失常、瓣膜疾病、心力衰竭等。
心音給心臟疾病的評(píng)估提供重要線索,可以作為初步診斷的依據(jù),在心血管疾病的早期檢測(cè)中發(fā)揮重要作用。通過心音聽診可以分析心臟狀態(tài),只有擁有豐富聽診經(jīng)驗(yàn)的醫(yī)生,才能得出較為準(zhǔn)確的診斷結(jié)果。據(jù)《2020年中國心血管健康與疾病報(bào)告概要》數(shù)據(jù)顯示,我國心血管患病率處于持續(xù)上升階段。據(jù)我國疾病死亡人數(shù)最新統(tǒng)計(jì)報(bào)告顯示,我國每年發(fā)生心源性猝死的人數(shù)約為54.4萬。隨著心臟疾病患者不斷增多,快速并準(zhǔn)確地診斷心臟疾病患者是相關(guān)醫(yī)療人員面臨的重大問題。因此,通過計(jì)算機(jī)輔助診斷有助于心臟類疾病患者的早期診斷與治療。
由于以往的研究在進(jìn)行心音分類時(shí)很少進(jìn)行分割預(yù)處理,會(huì)導(dǎo)致精確度不高、可靠性低等問題。因此,本研究采用HSMM分割心音結(jié)合CRNN對(duì)心音信號(hào)分類。
1 心音分割與特征提取
1.1 基于HSMM的心音分割
HMM是一個(gè)雙重隨機(jī)過程,一個(gè)隨機(jī)過程描述的是狀態(tài)之間的轉(zhuǎn)移,另一個(gè)隨機(jī)過程描述的是狀態(tài)與觀測(cè)值之間的統(tǒng)計(jì)對(duì)應(yīng)關(guān)系。在HMM中不能直接觀測(cè)到真實(shí)狀態(tài),只能通過觀測(cè)值推斷出隱藏狀態(tài)。隱馬爾可夫模型能夠很好地描述動(dòng)態(tài)短時(shí)平穩(wěn)信號(hào)的平穩(wěn)性和可變性,其動(dòng)態(tài)時(shí)間序列建模能力很強(qiáng),在訓(xùn)練和識(shí)別時(shí)計(jì)算量小。因此,HMM符合心音序列的統(tǒng)計(jì)模型,能夠較好地描述心音序列的短時(shí)平穩(wěn)性及整體的非平穩(wěn)性[2]。
一般來說,HMM可以簡化為公式(1):
(1)
其中,π為初始狀態(tài)概率分布,A為狀態(tài)轉(zhuǎn)移概率矩陣,B為觀察值概率矩陣。隱藏狀態(tài)序列由π和A決定,B決定了觀察序列。
在HMM中,模型在一個(gè)狀態(tài)停留的時(shí)間d的概率為:
(2)
其中,aii為轉(zhuǎn)移概率。由于上述公式是指數(shù)分布,概率P隨著時(shí)間的增長呈指數(shù)下降,這顯然不適用于心音分析。
當(dāng)利用HMM分割心音信號(hào)時(shí),給定一段心音信號(hào),則心音信號(hào)或者心音信號(hào)的特征值可作為觀測(cè)序列,隱藏狀態(tài)序列則是W={W1,W2,W3,W4}。W1是S1(第一心音),W2為收縮期,W3是S2(第二心音),W4為舒張期。
假設(shè)t時(shí)刻的狀態(tài)為St,觀測(cè)序列為O={O1,O2,O3,…,Ot},則狀態(tài)轉(zhuǎn)移矩陣A={aij},aij是Wi轉(zhuǎn)移到Wj的概率:
(3)
心音的狀態(tài)必定是按照S1→收縮期→S2→舒張期→S1轉(zhuǎn)移,所以,a12=a23=a34=a41=1。
觀察值概率矩陣B={βj(Ot)},βj(Ot)是j狀態(tài)在t時(shí)刻輸出Ot的概率,初始狀態(tài)概率π是模型在初始時(shí)刻某個(gè)狀態(tài)出現(xiàn)的概率,在心音采集上各狀態(tài)πi=0.25(1≤i≤4)。
通常來說,HMM會(huì)使用維特比算法求解心音信號(hào)的最優(yōu)狀態(tài)序列,δt(j)是t時(shí)刻隱藏狀態(tài)為j所有可能的狀態(tài)轉(zhuǎn)移路徑j(luò)1,j2,...jt中的概率最大值,通過公式(4)可以計(jì)算得到δt(j),通過公式(5)可以得到δt(j)的最大值。
(4)
(5)
計(jì)算出時(shí)刻T最大的δT(j),即最優(yōu)隱藏狀態(tài)序列出現(xiàn)的概率,時(shí)刻T最大的Ψt(j)即時(shí)刻T最優(yōu)的隱藏狀態(tài)。如公式(8)所示,利用局部狀態(tài)Ψ(i)回溯最終得到最優(yōu)隱藏狀態(tài)序列it*。
(6)
(7)
(8)
可以由HMM(隱馬爾可夫模型)擴(kuò)展而來的HSMM在Markov鏈中加入狀態(tài)駐留概率分布p={Pi(d)},p表示在持續(xù)時(shí)間d內(nèi)狀態(tài)為i的概率,可以把預(yù)測(cè)的狀態(tài)由某一時(shí)間點(diǎn)擴(kuò)展到一個(gè)時(shí)間段,有效解決用HMM來分割心音的局限性。因此,可以記HSMM為:
(9)
則適合HSMM的維特比解碼算法需要加入持續(xù)時(shí)間密度,表達(dá)式如公式(10)所示。
(10)
1.2 心音分割
MB Malarvili等人提出通過參考心電信號(hào)標(biāo)注[3]提高分割精度,然而,當(dāng)心電信號(hào)異常的時(shí)候[4],使得依靠ECG信號(hào)標(biāo)注分割心音的方法不可行。雖然通過人工標(biāo)注心音的方法,其精度會(huì)略低于參考ECG信號(hào)的方法,但是其操作簡單,標(biāo)記的誤差在容忍的范圍之中,所以成為本研究的首選標(biāo)注方法。
訓(xùn)練分割模型需要大量的心音數(shù)據(jù)。本研究選取心音數(shù)據(jù)庫中(PhysioNet)的1 000條正常心音數(shù)據(jù)與1 000條異常心音數(shù)據(jù)共2 000條心音信號(hào)。將原始數(shù)據(jù)集按照8∶1∶1的比例拆分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,分別用于訓(xùn)練和評(píng)估心音分割的模型。
從訓(xùn)練集中的PCG記錄中得到同態(tài)包絡(luò),希爾伯特包絡(luò),功率譜密度包絡(luò),離散小波變換包絡(luò)等特征值,并對(duì)訓(xùn)練集PCG記錄中的第一心音(S1)和第二心音(S2)位置進(jìn)行了人工標(biāo)注,經(jīng)過訓(xùn)練得到HSMM分割模型。CD542A59-97E9-4ADB-9841-AE76403D50F2
測(cè)試心音分割結(jié)果如圖1、圖2所示。
1.3 FBank特征提取
隨著卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)[5-6]逐漸應(yīng)用到音頻領(lǐng)域,研究表明,人耳對(duì)聲音頻率的感知是非線性的,具有對(duì)低頻音頻信號(hào)敏感度高、對(duì)于高頻信號(hào)敏感度低的特點(diǎn),Mel刻度更符合人耳的聽覺特性,將心音信號(hào)的頻域變換到人耳感知頻域中,可以更好地模擬出人耳的效果。
其中,頻率與Mel刻度的轉(zhuǎn)換如公式(11)所示:
(11)
FBank是模擬人耳聽覺特性提出的參數(shù),隨著深度學(xué)習(xí)的發(fā)展,作為二維特征的FBank頻譜特征逐漸成為能夠利用的音頻特征,與梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCCs)相比,F(xiàn)bank沒有進(jìn)行離散余弦變換(discrete cosine transform,DCT)。因?yàn)镈CT造成音頻信號(hào)的高度非線性成分丟失嚴(yán)重,所以FBank特征包含更多信息,并且提取的FBank特征更符合聲音信號(hào)的本質(zhì),可以作為心音分類的特征使用。實(shí)驗(yàn)已經(jīng)證明,MFCCs在對(duì)高度相關(guān)信息不敏感的神經(jīng)網(wǎng)絡(luò)中的效果不如FBank。
因此,本研究選用FBank特征替代傳統(tǒng)的MFCCs作為卷積神經(jīng)網(wǎng)絡(luò)的輸入特征。FBank特征的提取流程如圖3所示。
2 卷積循環(huán)神經(jīng)網(wǎng)絡(luò)架構(gòu)
2.1 CRNN
CNN是由多個(gè)卷積層、池化層以及全連接層組成的前饋神經(jīng)網(wǎng)絡(luò)。CNN模型網(wǎng)絡(luò)在處理圖像信息上具有很好的效果。近幾年,使用頻譜圖作為深度學(xué)習(xí)的輸入已經(jīng)得到了廣泛的應(yīng)用[7]。
由于心音信號(hào)本身是一種時(shí)間序列,F(xiàn)Bank頻譜圖含有時(shí)域的前后相關(guān)的一些特征,其橫軸為時(shí)間軸,縱軸表示該時(shí)間上不同的FBank特征值,CNN中的卷積層可視作對(duì)感受野區(qū)域的特征提取,采用n*1維的卷積核可對(duì)同一時(shí)間內(nèi)的特征進(jìn)行提取,隨后的池化層采用最大池化層,由于心音信號(hào)相鄰的兩層相差較小,采用最大池化層不僅可以減少網(wǎng)絡(luò)的參數(shù),增加訓(xùn)練速度。
由于使用CNN處理頻譜圖時(shí)不能完全挖掘出與時(shí)間相關(guān)的信息,在CNN之后加上RNN網(wǎng)絡(luò)結(jié)構(gòu)可以解決這個(gè)問題。RNN模型網(wǎng)絡(luò)結(jié)構(gòu)適合處理時(shí)序相關(guān)信息,當(dāng)前序列會(huì)受到之前序列的影響,考慮到了位置信息,因此,可以通過RNN網(wǎng)絡(luò)結(jié)構(gòu)分析CNN的輸出,充分利用FBank頻譜圖中的信息,完成CRNN分類模型建立。心音分類網(wǎng)絡(luò)結(jié)構(gòu)圖如圖4所示。
2.2 數(shù)據(jù)預(yù)處理
一個(gè)完整的心動(dòng)周期不會(huì)超過5 s。因?yàn)镻hysioNet數(shù)據(jù)庫中的心音長度不一,為了保證以固定維數(shù)的數(shù)據(jù)輸入網(wǎng)絡(luò),在分類前要切分心音。本研究對(duì)已經(jīng)分割的心音按照5 s間隔劃分,并提取FBank特征值。
正常與異常心音的FBank特征如圖5、圖6所示。
3 實(shí)驗(yàn)設(shè)計(jì)
3.1 實(shí)驗(yàn)評(píng)價(jià)指標(biāo)
本研究使用靈敏度(Sensitivity)、精確率(Precision)和F1分?jǐn)?shù)作為評(píng)價(jià)指標(biāo)。TP表示正常信號(hào)預(yù)測(cè)為正常的樣本數(shù)量。TN表示異常信號(hào)預(yù)測(cè)為異常的樣本數(shù)量。FP表示異常信號(hào)預(yù)測(cè)為正常的樣本數(shù)量。FN表示正常信號(hào)預(yù)測(cè)為異常的樣本數(shù)量。敏感度表示所有正常信號(hào)被正確分類的比例,其值等同于召回率(Recall),精確率表示所有被預(yù)測(cè)為正常信號(hào)的樣本中,被正確分類為正常信號(hào)的比例,F(xiàn)1分?jǐn)?shù)是用來衡量二分類模型精確度的指標(biāo)。
召回率、精確率和F1分?jǐn)?shù)計(jì)算如公式(12)、公式(13)、公式(14)所示。
(12)
(13)
(14)
3.2 分類算法對(duì)比
對(duì)經(jīng)過分割后數(shù)據(jù)集按照訓(xùn)練集、測(cè)試集4∶1的比例隨機(jī)分配并提取FBank特征,然后使用以下分類方法比較:第一,CNN分類;第二,CRNN分類;第三,基于HSMM心音分割的CRNN分類。分類方法的比較如表1所示。
4 結(jié)果與討論
心音分類在心臟疾病診斷方向有著重要的作用,是心臟疾病輔助診斷領(lǐng)域的研究熱點(diǎn)。針對(duì)現(xiàn)有的基于深度學(xué)習(xí)的心音分類算法很少使用分割預(yù)處理,本研究通過構(gòu)建HSMM心音分割模型,采用具有時(shí)頻域信息的FBank特征頻譜圖作為CNN的特征輸入,提出了一種結(jié)合HSMM分割心音與CRNN模型的心音分類方法。通過與單獨(dú)使用CNN或CRNN模型分類方法對(duì)比,該方法具有更高的F1分?jǐn)?shù)與敏感度,獲得了更好的分類效果,也為計(jì)算機(jī)輔助心音診斷研究提供了一個(gè)很有潛力的方向。
參考文獻(xiàn)
[1] 成謝鋒,李偉.基于心音窗函數(shù)的心音圖形化處理方法的研究[J].物理學(xué)報(bào),2015(5):393-403.
[2] 許春冬,周靜,應(yīng)冬文,等.基于DHMM的低心率變異性心音的分割方法[J].數(shù)據(jù)采集與處理,2019,34(4):605-614.
[3] MALARVILI M B,KAMARULAFIZAM I,HUSSAIN S,et al.Heart sound segmentation algorithm based on instantaneous energy of electrocardiogram[C].Computers in Cardiology.Thessaloniki Chalkidiki,2003:327-330.
[4] 孫樹平,吳越,黃婷婷,等.基于STMHT算法的心音分割研究[J].中國醫(yī)學(xué)物理學(xué)雜志,2020,37(12):1553-1559.
[5] Lecun Y ,Boser B ,Denker J , et al. Backpropagation Applied to Handwritten Zip Code Recognition[J].Neural Computation,2014,1(4):541-551.
[6] 林景棟,吳欣怡,柴毅,等.卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)優(yōu)化綜述[J].自動(dòng)化學(xué)報(bào),2020,46(1):24-37.
[7] Cummins N,Amiriparian S,Hagerer G,et al.An Image-based Deep Spectrum Feature Representation for the Recognition of Emotional Speech[C].ACM,2017:478-484.
基金項(xiàng)目:中南民族大學(xué)中央高校基本科研業(yè)務(wù)費(fèi)專項(xiàng)資金資助(CZY18028);中南民族大學(xué)教學(xué)研究項(xiàng)目(JYX19081)。
通訊作者:劉曉軍,博士后,副教授。CD542A59-97E9-4ADB-9841-AE76403D50F2