李 琳,徐文皓,洪青陽*,童 峰,吳謹準,顏衛(wèi)源
(1.廈門大學信息科學與技術學院,福建廈門361005;2.廈門大學海洋與地球學院,福建廈門361102;3.廈門大學附屬第一醫(yī)院,福建廈門361003)
基于最小分類誤差準則的呼吸音分類技術
李 琳1,徐文皓1,洪青陽1*,童 峰2,吳謹準3,顏衛(wèi)源3
(1.廈門大學信息科學與技術學院,福建廈門361005;2.廈門大學海洋與地球學院,福建廈門361102;3.廈門大學附屬第一醫(yī)院,福建廈門361003)
從大量呼吸音樣本中歸納綜合出肺部病理特征的科學表示,實現(xiàn)自動化、定量化的呼吸音分類,是現(xiàn)代醫(yī)療信息化技術的重要研究內容之一.提出了一種基于最小分類誤差(minimum classification error,MCE)準則的呼吸音分類方法,建立呼吸音類別的分類誤差損失函數,采用廣義概率下降法(generalized probabilistic decent,GPD)估計得到呼吸音的隱馬爾科夫模型(hidden Markov model,HMM)參數,以增強不同類型呼吸音模型的區(qū)分能力.實驗結果表明,與傳統(tǒng)的最大似然(maximum likelihood,ML)法相比,基于MCE準則求解的HMM模型,具有更好的分類效果,提高了識別準確率,客觀證明了基于MCE準則的呼吸音分類技術的有效性.
呼吸音分類;隱馬爾可夫模型;最小分類誤差;最大似然
呼吸音,又稱為肺音,是由肺部氣流湍動產生,宏觀上分為正常呼吸音和異常呼吸音,前者包含肺泡呼吸音、支氣管呼吸音和氣管呼吸音;后者可分為異常肺泡呼吸音、異常支氣管呼吸音、異常氣管呼吸音、爆裂音、哮鳴音和鼾音等[1].傳統(tǒng)診斷中,醫(yī)生使用聽診器在胸腔聽診肺部信號,以分析肺部疾病情況.但受到醫(yī)生客觀生理(如聽覺能力的好壞)和主觀經驗(如診斷能力的高低)的影響,傳統(tǒng)聽診的診斷模式無法客觀地發(fā)揮最大作用.另一方面,霧霾天氣所帶來的呼吸道疾病發(fā)病率高,增加了醫(yī)療壓力.因此,對肺部疾病快速而準確診斷的需求日益增加.
電子聽診器等數據采集硬件平臺的發(fā)展進一步促進了基于計算機信號處理的呼吸音信號分類與分析技術的發(fā)展.呼吸音分類通常采用“特征提取+分類模型”的系統(tǒng)框架[2],常用的呼吸音特征提取算法包括自回歸系數[3-4]、希爾伯特-黃變換[5]、梅爾頻率倒譜系數(Mel frequency cepstral coefficients,MFCC)[6]、基于小波變換技術的離散小波系數[7]和短時頻譜法[8]等;而幾種典型的分類方法,如矢量量化(vector quantization,VQ)技術[5]、k最近鄰(k-nearest neighbor,k NN)法[9]、支持向量機(support vector machine,SVM)[10]、人工神經網絡(artificial neural network,ANN)[3,7,10]、基于最大似然估計(maximum likelihood,ML)的高斯混合模型(gaussian mixture model,GMM)[11]和隱馬爾科夫模型(hidden Markov model,HMM)等[12-14]也得到了一定的應用.
其中,VQ技術、k NN方法和SVM方法實現(xiàn)了粗略的呼吸音分類,但分類準確率不高.基于ANN采用各種改進方法,如增加隱藏層數、使用增量監(jiān)督機制、采用徑向基函數等呼吸音識別方法,可以取得較高的分類準確度,但在樣本容量較小的情況下容易產生誤分類.基于ML的GMM分類性能易受到GMM階數和樣本時長的影響.
參考語音識別的模式,將不同類型呼吸音的呼吸周期信號建模為類似語音音節(jié)單元的HMM,使用ML法對HMM進行參數估計,由于考慮了呼吸音信號的時序關系,可提高正常呼吸音和異常呼吸音的分類精度.但由于ML法需要通過訓練使樣本的似然度都達到最大,對訓練數據的數量及分布要求較大,且在參數估計過程中強化同類數據類內特征,沒有評估不同類之間的相互影響,無法體現(xiàn)不同類的差異性.
受語音識別和說話人確認技術中判別學習方法——最小分類誤差(minimum classification error, MCE)法的啟發(fā)[15-16],本研究希望優(yōu)化正常呼吸音和異常呼吸音對應模型之間的相互區(qū)分性,為不同類的判別函數找出合適的參數集使得分類誤差最小.首先,根據呼吸音的頻率、時長、能量等特點,采用HMM對呼吸音信號進行時序建模;接著,構建MCE判別函數,對每個呼吸音類型(正常、異常)定義錯誤分類損失函數,以衡量被錯誤分類的可能性;最后,由錯誤分類損失函數最小化得到最佳的HMM參數.
本研究設計了一系列的實驗內容,考慮呼吸音的人耳聽覺感知性,采用MFCC作為呼吸音特征表示,再分別運用HMM-ML和HMM-MCE 2種呼吸音分類方法對呼吸音樣本進行正常/異常的識別能力測試.實驗結果驗證了HMM-MCE算法在呼吸音識別中的可行性和有效性,并對2種方法中正確識別、錯誤識別的情況進行了對比分析,發(fā)現(xiàn)HMMMCE方法可以獲得比HMM-ML方法更高的識別效果.
為了有效記錄實驗所需的呼吸音樣本,自制了一套呼吸音采集設備,主要由雙聲道聽診頭、音頻處理芯片WM8978、微控制器S3C2440、液晶顯示屏、耳機等部分組成.其中聽診頭內部的麥克為主通道,主要采集被測者的呼吸音,以及夾雜其中的心音和外界干擾噪聲,采集到的聲音信息儲存在音頻文件的左聲道部分;聽診頭的外部后方處有另一個麥克作為副通道,主要采集外界干擾噪聲,采集到的聲音信息儲存在音頻文件的右聲道部分.音頻文件類型等參數事先通過微處理器寫入設置,本實驗設置音頻文件類型為WAV文件,采樣率為16 k Hz,采樣精度為16 bits.
為了更好地模擬傳統(tǒng)聽診模式,選取人體身上8個部位,對其進行編號,其中前胸:右上為1,左上為2;后背:右上為3,左上為4,此4個采集點為主要采集點.其余采集點序號5~8分別對應前胸的右下和左下及后背的右下和左下.由于采集到的呼吸音較少,故并未用于下述的3.1實驗中.共采集到135位測試者共334條有效呼吸音,135個測試者全部采集了聽診點1,其中有58名測試者監(jiān)聽了4個部位.每個測試者至少采集25 s的呼吸音.
由于受到外界噪聲和儀器自身引入的熱噪聲等干擾,為了提高錄音質量,需要對其進行預處理,主要包括低通濾波和主動降噪(active noise canceling, ANC)處理[17]兩部分.由于正常和異常呼吸音的頻率范圍基本低于2 k Hz,所以將雙通道的音頻樣本通過一個上限頻率為2 k Hz的低通濾波器,以濾除音頻信號中的高頻噪聲和熱噪聲等干擾.之后采用基于最小均方的ANC技術,將左聲道錄制的有效呼吸音和環(huán)境噪聲的混合音與右聲道錄制到的環(huán)境噪聲相抑制,最終得到相對純凈的呼吸音.
2.1特征提取
對每一個呼吸音時域樣本采用hamming窗進行分幀,幀長為256個采樣點,幀移為128點,預加重系數為0.97.對每幀數據提取24維MFCC特征向量O.
2.2HMM參數
呼吸音的HMM采用三元組參數λ={A,B,π}表示,A={aij}(i,j=1,…,N)表示狀態(tài)轉移概率; B={bjk}(j,k=1,…,N)表示觀測概率,采用8個GMM表示;π表示初始分布矢量.N表示每個HMM的狀態(tài)總數,對于每個呼吸音周期均采用N=6個狀態(tài)表示:s1,s2,s3,s4,s5,s6.呼吸音的HMM建模如圖1所示,圖中O為觀測值,t表示呼吸音樣本的幀數.
圖1 呼吸音的HMM建模Fig.1 The H MM of respiratory sound
用λ表征可觀測O的概率P(O|λ),如下所示:
其中,si為當前狀態(tài),P(O,st=si|λ)為λ中處于第si個狀態(tài)觀測到呼吸音序列O的概率,st為t幀時對應的狀態(tài).αt(si)和βt(si)為t時刻在i狀態(tài)的前向變量和后向變量.
2.3ML方法
根據正常呼吸音或異常呼吸音的HMM觀測概率計算每個狀態(tài)生成該觀測值的概率,由概率最大化決定呼吸音樣本所屬的類型,即采用ML進行HMM模型λ的參數優(yōu)化,如下所示:
其中^λ為觀測呼吸音序列O的概率最大時參數λ的取值.
2.4MCE方法
MCE法是一種有監(jiān)督的區(qū)分性訓練算法,引入損失函數,將參數求解轉換為使分類錯誤最小的最優(yōu)化參數估計問題.
為加強對呼吸音類別的區(qū)分能力,需要構造呼吸音的損失函數,首先制定分類錯誤的度量di(O),
其中,gi(O;λ)是求取在λ參數下觀測到呼吸音序列O的最大似然函數;i,j=1,…,M(M表示輸入呼吸音類型數,設為2);η=0.999.之后將di(O)代入sigmoid函數φ(x)中進行歸一化處理,得到歸一化后的度量φi(O;λ),
最后,構造損失函數L(λ),
其中,P(O)為觀測呼吸音序列出現(xiàn)的概率.之后采用廣義概率下降算法(generalized probabilistic descent,GPD)反復迭代修正模型的轉移概率A、觀測概率B以及初始分布矢量π,使L(λ)損失值逐漸減小直至收斂.
為驗證HMM-MCE方法對呼吸音進行分類的有效性,參照Matsunaga等[13-14]的策略重現(xiàn)了HMMML方法,對比2種方法在單一聽診點和多個聽診點情況下的識別性能.實驗數據采用的是自制雙通道電子聽診器采集的呼吸音數據,由臨床醫(yī)生通過聽診經驗以及X光肺部拍片綜合判斷測試者對應的呼吸音是正常呼吸音還是異常呼吸音,具體數量見表1所示.
3.1單一聽診點呼吸音識別實驗
實驗1:訓練數據為聽診點1中的19個異常呼吸音和49個正常呼吸音,測試數據為聽診點1中除訓練數據之外的18個異常呼吸音和49個正常呼吸音.
表1 不同聽診點采集的呼吸音數量Tab.1 The numbers of respiratory sounds on different auscultation points
實驗2:訓練數據同實驗1,測試數據為除聽診點1之外的其他聽診點的所有54個異常呼吸音和142個正常呼吸音.
均采用HMM-ML和HMM-MCE 2種識別方法對上述實驗數據進行分類處理.實驗結果由表2顯示,來源相同聽診點的呼吸音,被正確識別的概率高于89%,而來源于不同聽診點的呼吸音被正確識別的概率均不高.可見,不同聽診點的呼吸音樣本對呼吸音HMM建模具有不容忽視的影響,同時也發(fā)現(xiàn)相同的實驗條件下,HMM-MCE方法能獲得更好的識別效果.
表2 單個聽診點呼吸音分類實驗對比Tab.2 The classification experiments of respiratory sounds on single auscultation point
3.2多聽診點呼吸音識別實驗
為了減小呼吸音聽診點的不同對HMM建模的影響,在HMM訓練階段采用不同聽診點呼吸音混合訓練的策略,所使用的實驗數據如表3所示.
同時為了觀察數據樣本時長對識別效果的影響,分別導入每個呼吸音文件的前500幀(約2~3個呼吸周期)、前1 000幀(約4~5個呼吸周期)、前1 500幀(約7~8個呼吸周期)、前2 000幀(約9~10個呼吸周期)和全部幀數(約2 500幀,10~12個呼吸周期)進行了5組實驗.均采用HMM-ML和HMM-MCE 2種識別方法進行分類實驗,實驗結果如圖2所示.
表3 多個聽診點呼吸音實驗數據Tab.3 The experimental data of respiratory sounds on many auscultation point
圖2 混合聽診點實驗在不同樣本時長情況下的性能對比Fig.2 The performance comparison of different length samples in mixed auscultation points′experiment
由圖2可知,當呼吸音樣本時長僅為2~3個呼吸周期時,2種分類策略的正確識別率均超過91%,其中,HMM-MCE方法取得更好的分類性能;當樣本時長不少于8個呼吸周期時,隨著樣本數據的增加,2種分類方法的正確識別率均提高,但HMM-MCE方法的分類性能提升幅度大,且一直表現(xiàn)出比HMM-ML方法更優(yōu)秀的類別區(qū)分能力.
上述5組實驗中對每種類型(正常/異常)正確識別的統(tǒng)計情況如圖3所示.當幀數目相同時,與HMM-ML方法相比,HMM-MCE方法在大多數情況下對正常肺音和異常肺音正確識別的準確性更高.當幀數目為500幀時,受到樣本時長過短的影響, HMM-ML方法和HMM-MCE方法均出現(xiàn)過擬合的情況.當幀數目大于1 000幀之后.隨著樣本數據量的增加,HMM-MCE具有更強的區(qū)分效果.
考慮到呼吸音的時序特點及不同類型呼吸音之間的差異性,本研究基于MCE準則對異常呼吸音和正常呼吸音進行HMM建模,提高了對呼吸音類別的區(qū)分.實驗結果表明,無論在單聽診點呼吸音識別還是混合聽診點呼吸音識別的實驗中,本研究所提出的HMM-MCE分類方法的識別性能均優(yōu)于HMM-ML方法,同時由于MCE算法對正常呼吸音HMM和異常呼吸音HMM的訓練使不同類型的模型差距拉大,加強了模型的區(qū)分性,使得MCE算法對正常呼吸音和異常呼吸音的正確分類能力明顯高于ML算法.本研究工作為異常呼吸音類型的細分類研究進行了可行性研究的技術鋪墊.
圖3 不同實驗條件下正確識別類型的統(tǒng)計Fig.3 The statistics of correct identification in different experimental conditions
[1] 王文淵,閆平凡.肺音研究綜述[J].北京生物醫(yī)學工程, 1992,11(2):106-112.
[2] 鄭明杰,宋余慶,劉毅.基于機器學習的肺音分類技術的研究進展[J].計算機科學,2015,42(12):8-12,31.
[3] CHEN M Y,CHOU C H.Applying cybernetic technology to diagnose human pulmonary sounds[J].Journal of Medicine System,2014,38(6):1-10.
[4] HADJILEONETIADIS L J,PANAS S M.Autoregressive modeling of lung sounds using higher-order statistics:estimation of source and transmission[C]∥1997 IEEE Signal Processing Workshop on Higher-Order Statistics. Los Alamitos:IEEE Computer Society,1997:4-8.
[5] HOMS-CORBERA A,FIZ J A,MORERA J,et al.Timefrequency detection and analysis of wheeze during forced exhalation[J].IEEE Transactionson Biomedical Engineering,2004,51:182-186.
[6] BAHOURA M,PELLETIER C.New parameters for respiratory sound classification[C]∥Electrical and Computer Engineering,2003.IEEE CCECE 2003.Canada:IEEE,2003:1457-1460.
[7] KANDASWAMY A,SATHISH KUMAR C,RAMANATHAN R P,et al.Neural classification of lung sounds using wavelet coefficients[J].Computers in Biology and Medicine,2004,34(6):523-537.
[8] JIN F,KRISHNAN S,SATTAR F.Adventitious sounds identification and extraction using temporal-spectral dominance-based features[J].IEEE Transactions on Biomedical Engineering,2011,58(11):3078-3087.
[9] DOKUR Z.Respiratory sound classification by using an incremental supervised neural network[J].Pattern Analysis and Applications,2009,12(4):309-319.
[10] ABBASI S,DERAKHSHANFAR R,ABBASI A,et al. Classification of normal and abnormal lung sounds using neural network and support vector machines[C]∥Proceedings of the 21st Iranian Conference on Electrical Engineering.Iran:IEEE,2013:14-16.
[11] MAYORGA P,DRUZGALSKI C,MORELOS R L,et al.Acoustics based assessment of respiratory diseases using GMM classification[C]∥2010 Annual International Conference of the IEEE Engineering in Medicine and Biology.Buenos Aires:IEEE,2010:6312-6316.
[12] MATSUNAGA S,YAMAUCHI K,YAMASHITA M, et al.Classification between normal and abnormal repiratory sounds based on maximum likelihood approach[C]∥2009 IEEE International Conference on Acoustics, Speech and Signal Processing.Taiwan:IEEE,2009: 517-520.
[13] MATSUTAKE S,YAMASHITA M,MATSUNAGA S. Discrimination between healthy subjects and patients using lung sounds from multiple auscultation points[C]∥2013 IEEE International Conference on Acoustics, Speech and Signal Processing.Vancouver:IEEE,2013: 1296-1300.
[14] YAMASHITA M,HIMESHIMA M,MATSUNAGA S. Robust classification between normal and abnormal lung sounds using adventitious-sound and heart-sounds models[C]∥2014 IEEE International Conference on A-coustics,Speech and Signal Processing(ICASSP).Florence:IEEE,2014:4418-4422.
[15] KITAOKA M,HASHIMOTO T,OCHIAI T,et al. Speech pattern classification using large geometric margin minimum classification error training[C]∥TENCON 2015-2015 IEEE Region 10 Conference. Macau:IEEE,2015:1-6.
[16] JUANG B H,HOU W,LEE C H.Minimum classification error rate methods for speech recognition [J].Speech and Audio Processing,1997,5(3):257-265.
[17] WU F Y,TONG F.Non-uniform norm constraint LMS algorithm forsparse system identification[J].Communications Letters,2013,17(2):385-388.
Respiratory Sound Classification Approach Based on Minimum Classification Error
LI Lin1,XU Wenhao1,HONG Qingyang1*,TONG Feng2,WU Jinzhun3,YAN Weiyuan3
(1.School of Information Science and Engineering,Xiamen University,Xiamen 361005,China; 2.College of Ocean&Earth Sciences,Xiamen University,Xiamen 361102,China; 3.The First Affiliated Hospital of Xiamen University,Xiamen 361003,China)
Unlike the traditional auscultation,automatic respiratory sound classification technology summarizes the scientific descriptions of pathological features from a large number of respiratory sound samples.And it serves as an automatic and quantitative auscultation tool to diagnose abnormalities and disorders in the lung.A classification procedure based on minimum classification error (MCE)approach using hidden Markov models(HMM)is proposed in this paper.The parameters of H MM are estimated by loss functions between different models of normal sounds and abnormal sounds,which aim to distinguished healthy subjects and patients. The experiment results show that the proposed HMM-MCE approach obtains higher classfication accuracy in comparison with the traditional HMM-ML method.
respiratory sound classification;hidden Markov model;minimum classification error;maximum likelihood
TN 912
A
0438-0479(2016)06-0901-05
10.6043/j.issn.0438-0479.201602021
2016-02-19 錄用日期:2016-04-27
國家自然科學基金(61105026,11274259)
qyhong@xmu.edu.cn
李琳,徐文皓,洪青陽,等.基于最小分類誤差準則的呼吸音分類技術[J].廈門大學學報(自然科學版),2016,55(6): 901-905.
LI L,XU W H,HONG Q Y,et al.Respiratory sound classification approach based on minimum classification error[J]. Journal of Xiamen University(Natural Science),2016,55(6):901-905.(in Chinese)