成謝鋒, 蔡華民
(南京郵電大學電子科學與工程學院,江蘇 南京 210003)
二維心音圖特征提取與識別方法的研究
成謝鋒, 蔡華民
(南京郵電大學電子科學與工程學院,江蘇 南京 210003)
針對心音的特征提取問題,將一維心音信號轉換成二維心音圖,采用圖像處理技術提取心音的圖像特征。本文首先對一維心音信號進行小波降噪和幅值歸一化,將處理后的心音信號轉換成具有統(tǒng)一性和可比性的二維心音圖,并進行預處理;然后結合心音生理意義和二維心音圖的圖像特征,對能表征二維心音圖生理信息的圖像特征進行分析研究,重點研究二維心音圖縱橫坐標比和拐點序列碼特征;最后,基于縱橫坐標比、拐點序列碼、小波分解系數(shù) 3個特征,探討利用歐氏距離和支持向量機(SVM)兩種識別方法進行二維心音圖分類和身份識別的可行性。實驗結果表明,3種特征都可以實現(xiàn)二維心音圖的分類識別,其中拐點序列碼識別率最高;這種基于圖像處理的二維心音圖分類和身份識別方法具有明顯的可行性和實用性,擁有廣闊的應用前景。
二維心音圖;圖像處理 ;特征提??;識別
心音信號是人體最重要的生理信號之一,應用于聽診輔助治療已經(jīng)有了相當悠久的歷史。心音信號含有心臟各個部分如心房、心室、大血管及各個瓣膜功能狀態(tài)的大量生理信息,是具備普遍性、獨特性和可采集性的生物特征。它又是來自于人體內部的信號,不容易被模仿或復制[1]。
目前對一維心音特征提取常見的方法包括以小波變換法為代表的時頻分析方法[1]和以FFT方法為代表的功率譜分析方法等[2],以及利用MP 的稀疏分解、最大熵譜方法分解提取出心音信號的特征,并且采用矢量量化(VQ)、高斯混合模型(Gaussian Mixture Model,GMM)和歐式距離等作為匹配算法完成心音身份識別,為了提高識別率,還采用了數(shù)據(jù)融合等技術手段。由于圖像分類識別技術已經(jīng)比較成熟,識別率可達到實際應用的水平,比如指紋安全認證,X線計算機斷層攝影(CT)等[3-4],因此,如果用圖像處理技術對二維心音圖進行處理和識別,這是從圖像領域對心音進行處理的一種新探索。
本文首先運用一維信號處理方法對心音信號進行小波降噪和幅值歸一化,將處理后的心音轉換成具有統(tǒng)一性和可比性的標準二維心音圖,并對二維心音圖進行灰度化、背景歸一化、二值化、細化等預處理。然后結合心音的生理特點,研究二維心音圖縱橫坐標比和拐點序列碼特征提取方法。最后,基于縱橫坐標比、拐點序列碼、小波分解系數(shù)3個特征,分別探討了利用歐式距離和支持向量機(Support Vector Machine,SVM)兩種識別方法進行二維心音圖分類和身份識別的可行性,并做了大量實驗分析。根據(jù)實驗結果數(shù)據(jù)顯示,3種特征都可以實現(xiàn)二維心音圖的分類,其中拐點序列碼識別率最高。身份識別中同樣是拐點序列碼識別率最高,說明拐點序列碼更能表征二維心音圖的本質特征。本文研究成果表明,基于圖像處理的二維心音圖分類和身份識別具有明顯的可行性和安全性,擁有一定的推廣應用前景。
二維心音圖是由一維心音信號轉換成二維圖像得到的,是聲音信號圖形化的結果,如圖1所示。在采集心音時會因為采樣率和采集環(huán)境、采集設備等條件的不同導致采集到的心音信號不具有統(tǒng)一性和可比性,所以必須統(tǒng)一采樣率、采集環(huán)境和采集設備?!耙环N雙聽診頭的心聲檢測裝置”(已獲中國發(fā)明專利, 授權日期 2009年10月21日,專利號:ZL2007 1 10015090.1),采樣率統(tǒng)一在22050,采樣環(huán)境無法具體統(tǒng)一,只能盡量避免不必要的外界噪聲干擾[5-6]。在將一維心音信號轉換成二維心音圖之前必須對心音信號進行降噪和幅值歸一化:前者是為了讓二維心音圖的波形更加光滑,減少圖像處理時的難度;后者將心音幅值統(tǒng)一在[-1, 1]之間,使二維心音圖在幅值上具有統(tǒng)一性和可比性。
圖1 二維心音圖
心音主要分為第一心音和第二心音,二維心音圖可以分為第一心音二維心音圖、第二心音二維心音圖、第一心音第二心音組合二維心音圖3種。第一心音的時長通常在0.1s到0.12s之間,第一心音二維心音圖取時長0.1s,如圖1中左半部分為第一心音二維心音圖;第二心音時長通常在0.08s到0.1s之間,第二心音二維心音圖取時長0.08s,如圖1右半部分為第二心音二維心音圖;組合二維心音圖取第一心音和第二心音時長的總和,也就是0.18s,它剪除了第一心音和第二心音之間的時間間隔,如圖1整體為組合二維心音圖。二維心音圖的寬度統(tǒng)一為1090,高度統(tǒng)一為400,這樣得到的是400×1090的二維心音圖。
二維心音圖的預處理包括灰度化、背景歸一化、二值化和細化。
二維心音圖是由心音聲音信號轉換得來,它的顏色信息無法達到本文研究要求,所以首先進行灰度化。
因為在轉化成二維心音圖時采用軟件的問題,導致生成的二維心音圖背景有網(wǎng)格噪聲,為了突出二維心音圖的波形信息,必須去除網(wǎng)格噪聲(圖2),或者背景歸一化。二維心音圖的灰度直方圖呈現(xiàn)雙峰型,可以通過全局閾值法統(tǒng)一背景灰度值,基本思想就是將二維心音圖像素灰度平均值作為閾值,對整個圖像掃描實現(xiàn)背景歸一化(圖3)。然后,用全局閾值法實現(xiàn)圖像二值化(圖4)。
圖2 灰度二維心音圖
圖3 背景歸一化二維心音圖
圖4 二值化二維心音圖
最后,本文采用基于數(shù)學形態(tài)學的細化方法,對二維心音圖進行細化,目的是減少波形寬度中的無用冗余信息,突出波形走向和形狀(圖5)。
圖5 細化二維心音圖
特征提取是為了實現(xiàn)心音的分類和身份識別,有效特征的提取可以實現(xiàn)高識別率的心音分類和身份識別。本文提出了縱橫坐標比和拐點序列碼兩種二維心音圖特征,可以反映心音的生理意義。其中前者的提出依據(jù)是根據(jù)一維心音中心音幅值時間比判斷心音是否正常;后者的依據(jù)是一維心音可以由雙峰子波、三峰子波、四峰子波組成。心音的雙峰子波、三峰子波、四峰子波如圖6所示。
圖6 心音的雙峰子波、三峰子波、四峰子波
3.1 縱橫坐標比
第一心音(S1)發(fā)生在心臟收縮期,標志著心室收縮期的開始。本文經(jīng)過分析不同測試者的心音信號幅值發(fā)現(xiàn),不同人的S1幅值大小存在很大差異,同一人在不同時段的S1幅值也會有所區(qū)別。外界影響心音幅值大小的因素有很多,本文將這些影響因素主要分為兩類:第一類是采集裝置因素,主要有外界環(huán)境噪聲、采集裝置傳感器放置位置、采集裝置的移位、采集裝置與接觸物的摩擦聲、對傳感器所施壓力的輕重等;第二類是受試者自身的因素,主要有受試者的性別、年齡、情緒的變化、胸腔壁的厚薄等[7-8]。在眾多外界因素的影響下,從心音信號的記錄到心音信號的分析都是一項非常復雜和困難的工作。通常的解決辦法是在采集時就排除這些外界因素的影響[9-11],這樣后續(xù)心音信號的分析就不需要考慮這些外界因素的影響。要排除這些外界因素必須對受檢者進行短期培訓,培訓的結果是統(tǒng)一測量和評估的標準。最后選擇相對安靜理想的環(huán)境,受檢者在心音采集時盡力配合,這樣可以得到比較理想的心音。本文只考慮運動和呼吸對心音幅值的影響,其他暫不做考慮,體現(xiàn)在二維心音圖也會有所區(qū)別。
S1的幅值大小標志著心臟收縮能力是否正常,S2的幅值大小標志著心臟舒張能力是否正常。正常心音幅值時間比應該在一個固定范圍內,那么心音幅值時間比可以作為正常心音和病態(tài)心音的一個簡單分類依據(jù)。前文已經(jīng)對心音信號做過幅值歸一化處理,使其具有統(tǒng)一可比性。第一心音時長在 0.1s到0.12s左右,本文取 S1固定時長0.1s,將心音幅值和時間的比值作為心臟收縮能力的度量。
從圖像處理角度來看,心音信號的幅值體現(xiàn)在二維心音圖上就是最高點坐標 ymax和最低點ymin坐標之間的縱向距離,時間體現(xiàn)在二維心音圖上就是圖像橫向距離 Width,定義縱橫坐標比Ratio為:
對二維心音圖進行橫向掃描,從縱向最高點開始橫向掃描,將第一個掃描到的灰度值為0的像素作為二維心音圖的幅值最高點;同樣地,從縱向最低點開始橫向掃描,將掃描到的第一個灰度值為0的像素作為二維心音圖的幅值最低點。如圖7所示,最高點坐標是(xmax, ymax)=(217,40),最低點坐標是(xmin, ymin)=(305, 375)。Width都是1090,那么縱橫坐標比就是 0.30734,這是受測試者的正常第一心音縱橫坐標比。
圖7 第一心音的二維心音圖縱橫坐標比示意圖
從圖7可以看出最高點和最低點并不一定是相鄰的兩個點,考慮到二維心音圖的時間很短暫,將其作為幅值大小是接近真實情況的。表1給出了5位不同測試者(3位男性,2位女性)在不同時刻第一心音二維心音圖縱橫坐標比,這5位測試者所得心音全部為正常心音。
表1 5位測試者在不同時刻第一心音二維心音圖縱橫坐標比
從表中可以看出:①這五位測試者縱橫坐標比總均值為 0.286534。其中最大縱橫坐標比是0.31927,最小縱橫坐標比為:0.22385??梢?,正常第一心音縱橫坐標比在一個比較固定的范圍內變化;②同一人的心音縱橫坐標比變化范圍較小,通常小于 0.02;③不同人的心音縱橫坐標比存在一定的差異,這種差異的變化范圍相對較大。
心臟雜音一般是比較尖銳的,幅值相對來說會比較大,體現(xiàn)在二維心音圖上也就是縱橫坐標比值較大。但是引起心臟疾病的病因過于繁雜,要完全區(qū)分較困難,所以縱橫坐標比只能作為正常心音和有雜音心音之間的一個簡單分類依據(jù)。
3.2 拐點序列碼
鏈碼是用曲線起始點的坐標和邊界點方向代碼來描述曲線或邊界的方法,常被用來在圖像處理、計算機圖形學、模式識別等領域中表示曲線和區(qū)域邊界[11]。它是一種邊界的編碼表示法,用邊界方向作為編碼依據(jù),為簡化邊界的描述,一般描述的是邊界點集。
受到鏈碼概念啟發(fā),本文提出適合二維心音圖細節(jié)的特征參數(shù)——拐點序列碼,即統(tǒng)計二維心音圖的拐點數(shù),并生成拐點序列。本文先取第一心音二維心音圖作為研究對象,我們規(guī)定以第一心音第一個上升過零點作為起始點,到下一個上升過零點為終點,將這一段距離稱為一個拐點周期。一幅二維心音圖中包涵多個拐點周期,一個拐點周期內有多個拐點,統(tǒng)計每個拐點周期內的拐點數(shù),組合起來就構成拐點序列碼。
圖8 拐點序列碼周期
拐點序列碼確定步驟如下:首先確定中心線位置,即圖中水平橫線,第一列像素第一個0點就是紅色橫線的起點;其次,找出所有拐點周期,并標記每個周期。如圖8上豎線,每兩條相鄰藍豎線標出了一個拐點周期,下方數(shù)字標識這是第幾個拐點周期。圖8中共有15個拐點周期,但真實有效的拐點周期是 14個,最后一個拐點周期并沒能到達下一個上升過零點,通常最后一個拐點周期不做有效周期的考慮。
正確找出了所有拐點周期后就可以分別對每個拐點周期計算它的拐點個數(shù),按照拐點周期的順序組合成拐點序列碼。統(tǒng)計拐點序列碼的基本思想是:在一個拐點周期內,根據(jù)二維心音圖波形上的像素點與像素點之間的坐標關系確定這兩個像素點所連成的直線的斜率,根據(jù)斜率的正負變化來確定是否存在拐點。掃描圖像的順序是從上到下,從左到右的,像素點與像素點之間斜率Slope的計算公式如下:
Slope只有3種數(shù)值情況,本文不考慮具體斜率值,只考慮斜率是大于0、小于0和等于0這三種情況。如果像素間的斜率Slope由正數(shù)逐漸變成負數(shù),記為一個上拐點;相反,如果出現(xiàn)像素間斜率由負數(shù)逐漸變成正數(shù),記為一個下拐點。這中間也會出現(xiàn)斜率為 0的情況,處理方法是忽略斜率為 0的情況,記住前一個不為 0斜率的正負,直到像素間斜率出現(xiàn)非0的變化。統(tǒng)計出每個拐點周期內的拐點數(shù),最后組合成拐點序列碼。
拐點序列碼算法實現(xiàn)的具體步驟如下:①去除水平方向連續(xù)像素;②去除垂直方向連續(xù)像素;③確定起始點和拐點周期;④根據(jù)拐點周期對圖像進行掃描,根據(jù)斜率計算方法找出上拐點和下拐點;⑤組合每個周期內拐點個數(shù)成為拐點序列碼。
圖9是同一段心音內的第一心音(圖9(a))和第二心音(圖9(b)),分析三圖可以發(fā)現(xiàn)組合二維心音圖(圖9(c))的拐點序列碼就是由第一心音拐點序列碼和第二心音拐點序列碼組合起來的,除了中間連接處會有所區(qū)別。
圖9 二維心音圖拐點序列碼
本文分類識別方法有兩種:歐氏距離法和LIBSVM。
歐式距離在二維平面上簡單地說就是兩點之間的最短距離,在n維空間里歐式距離數(shù)學表達式為
本文歐氏距離識別法的思想就是根據(jù)n維歐氏距離得出來的。在識別時提取得到n維的識別特征向量,將它與訓練時提取得到的n維訓練特征向量進行歐氏距離計算,取歐氏距離最小的作為該識別樣本最相似的結果。歐氏距離識別方法最大的優(yōu)點是概念簡單,實現(xiàn)容易,且識別率高[1,7]。
LIBSVM 方法利用有限的樣本信息在模型的復雜性和學習能力之間尋找最優(yōu)效果,即對特定訓練樣本的學習精度和無錯誤地識別任意樣本的能力之間尋求最佳折衷,以期獲得最好的推廣能力。該方法在解決小樣本、非線性及高維模式識別中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應用到函數(shù)擬合等其他機器學習問題中[12-13]。在本文中,LIBSVM方法尋找最優(yōu)化問題變?yōu)槿缦掠柧毾蛄康木€性組合:
只有很少的αi會大于0,相應的 Xi就是支持向量。
本文實驗組對象為10名測試者(6名正常,4名患者),每一名測試者取5個不同時間段的組合二維心音圖作為訓練識別數(shù)據(jù)。其中,縱橫坐標比是坐落在[0.20000 0.33000]范圍內的是正常心音,在這個范圍之外的是病態(tài)心音。也就是說用不到本文所說的訓練識別方法,在提取到縱橫坐標比后只需與這個范圍進行比較即可知道結果。取30個測試樣本得到的識別率為76.7%,識別率不高,主要原因是影響心音幅值大小的因素太多。
用歐式距離和 LIBSVM分別對樣本進行訓練識別結果如表2所列。
表2 實驗組心音分類識別率(%)
用于身份識別的10名正常測試者(正常組),每名測試者取 10個不同時間段組合二維心音圖作為訓練識別數(shù)據(jù)。用歐式距離和LIBSVM分別對樣本進行訓練識別結果表3所列。
表3 正常組心音身份識別率(%)
與課題組從一維信號對心音進行分類和身份識別的效果相比,本文的識別率相對較高。比如基于 BP神經(jīng)網(wǎng)絡的心音身份識別率達到90.06%[14],本文基于拐點序列碼的識別率達到了94.03%,較之一維心音提高不少,而且速度快3倍以上。
心音信號是人體重要的生理信號之一。鑒于人類更善于通過眼睛來接受外界的事物,本文將心音信號圖形化成二維心音圖,它具有直觀、易保存、易分析的特點。
本文通過自制的心音采集裝置采集心音信號,組成小型心音數(shù)據(jù)庫并用于本文的研究。相較于一維心音的處理,基于圖像處理的二維心音圖特征提取和識別不僅在速度上有所提升,而且識別率也得到較大提高。本方法的提出為心音身份識別技術提供了一種新的方案。
[1] 成謝鋒, 馬 勇, 劉 陳, 張學軍, 郭宇鋒. 心音身份識別技術的研究[J]. 中國科學: 信息科學, 2012, 42(2): 235-249.
[2] Cheng Xiefeng, Tao Yewei, Huang Zhengjiang. Heart Sound recognition-a prospective candidate for biometric identification [J]. Advanced Materials Research, 2011, 255(6): 433-436.
[3] 王建衛(wèi), 吳 寧, 羅德紅. 螺旋CT及其圖像處理技術對喉部腫瘤侵犯的診斷價值[J].中華放射學雜志, 2001, 35(12): 949-952.
[4] 計 算 機 斷 層 攝 影 (CT)[EB/OL]. http://baike. baidu.com/view/381367.htm, 2013.
[5] Cheng Xiefeng, Ma Yong, Liu Chen, Zhang Xuejun, Guo Yufeng. Research on heart sound identification technology [J]. Science China Information Scienres, 2012, 55(2): 281-292.
[6] 李天生. 心音采集與分析方法研究[D]. 江門: 五邑大學, 2009.
[7] 成謝鋒, 馬 勇, 張少白, 張 瑛, 郭宇鋒. 基于數(shù)據(jù)融合的三段式心音身份識別技術[J]. 儀器儀表學報, 2010, 31(8): 1712-1720.
[8] 于云之, 聶邦畿. 心音的臨床意義及研究現(xiàn)狀[J].現(xiàn)代醫(yī)學儀器與應用, 1997, 9(3): 9-12.
[9] Wu Wenzhu, Guo Xingming, Xiao Shouzhong. Research on first heart sound and second heart sound amplitude variability and reversal phenomenon-a new finding in athletic heart study [J]. Journal of Medical and Biological Engineering, 2009, 29(4): 202-205.
[10] 毛安定, 管一弘, 段 銳, 王艷華, 呂 梁, 季云海. 基于 Daubechies小波的圖像邊緣檢測技術[J].圖學學報, 2012, 33(1): 63-67.
[11] 劉勇奎, 魏 巍, 郭 禾. 壓縮鏈碼的研究[J]. 計算機學報, 2007, 30(2): 281-286.
[12] 曹 翼. 基于支持向量機理論的車輛監(jiān)控技術研究與應用[D]. 上海: 上海交通大學, 2010.
[13] 百度百科. 支持向量機(SVM)LIBSVM[EB/OL]. http://baike.baidu.com/view/598089.htm, 2013.
[14] 馬永華. 改進BP神經(jīng)網(wǎng)絡在心音身份識別中的應用研究[D]. 南京: 南京郵電大學, 2011.
Research on Methods of Feature Extraction and Recognition of Two-Dimensional Phonocardiogram
Cheng Xiefeng, Cai Huamin
(College of Electronic Science and Engineering, Nanjing University of Posts and Telecommunications, Nanjing Jiangsu 210003, China)
The one-dimensional heart sound signal is converted into a two-dimensional phonocardiogram, then image feature of heart sounds based on image processing technology in a two-dimensional phonocardiogram is extracted. Firstly the wavelet noise reduction and amplitude normalization of one-dimensional heart sound by one-dimensional signal processing method are realized, and then heart sounds after the treatment are converted into two-dimensional phonocardiogram with uniformity and comparability, and pretreatment. And the image characteristics of two-dimensional phonocardiogram are analyzed, which is characterization of heart sounds’ physiological information combining with heart sounds’ physiological significance and two-dimensional phonocardiogram’s image features, and the focus is on vertical and horizontal ratio of coordinate and sequence code of inflection point. At last, the feasibility of classification and identification is explored of 2D-PCG using Euclidean distance and Support Vector Machine (SVM) based on vertical and horizontal ratio of coordinate, sequence code of inflection point and wavelet coefficients. Experimental results show that the three features can achieve the classification and recognition of the two-dimensional phonocardiogram, and inflection point sequence code gets the highest recognition rate. The method of 2D-PCG classification and identification based on a two- image processing has the feasibility and practical applicability, and has broad application prospects.
two-dimensional phonocardiogram; image processing; feature extraction; recognition
TP 751
A
2095-302X (2014)02-0268-06
2013-07-15;定稿日期:2013-09-13
國家自然基金資助項目(61271334;61373065)
成謝鋒(1956-),男,四川資陽人,教授。主要研究方向為智能信息處理、心音識別、智能儀器等。E-mail:jnucxf@163.com