房春英
(黑龍江科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院,哈爾濱 150001)
?
基于聲診的煤礦工人健康狀態(tài)分析的關(guān)鍵技術(shù)研究
房春英
(黑龍江科技大學(xué)計(jì)算機(jī)與信息工程學(xué)院,哈爾濱 150001)
本文通過(guò)病理語(yǔ)音代表煤工塵肺等疾病狀態(tài)下的語(yǔ)音進(jìn)行聲學(xué)參數(shù)分析,提出梅爾S變換系數(shù)特征來(lái)描述變異語(yǔ)音信號(hào)的非平穩(wěn)特性。針對(duì)聲帶形狀變異造成的語(yǔ)音變異,提出非線性特征來(lái)描述,同時(shí)針對(duì)高維特征的冗余問(wèn)題,提出利用聽(tīng)覺(jué)加工模型對(duì)特征集進(jìn)行融合。
聲診;NCSC;特征融合;語(yǔ)音分析;健康狀態(tài);關(guān)鍵技術(shù)
本研究運(yùn)用語(yǔ)音信號(hào)分析和處理的技術(shù)來(lái)研究適合煤工塵肺聲音分析的關(guān)鍵技術(shù),最終目的是采用信號(hào)處理方法對(duì)語(yǔ)音進(jìn)行聲學(xué)分析,幫助疾病診斷。用來(lái)分析病理語(yǔ)音的特征,有的從聲帶角度分析,有的從聲門(mén)角度分析,但這些特征難以描述變異信號(hào)瞬間變化的頻譜特征,提出梅爾S變換系數(shù)特征和針對(duì)聲帶病變的非線性特征并借鑒聽(tīng)覺(jué)認(rèn)知模型,提出特征融合算法,研究框架如圖1所示。
圖1 語(yǔ)音變異程度分析框架Fig.1 Speech variation analysis framework
1.1 多角度語(yǔ)料庫(kù)構(gòu)建
1.1.1 荷蘭頸部腫瘤放化療語(yǔ)音語(yǔ)料庫(kù)
NCSC(NKI CCRT speech corpus,NCSC)語(yǔ)料庫(kù),由荷蘭頭頸腫瘤手術(shù)癌癥研究所錄制。語(yǔ)料包括55個(gè)(10名男性,45名女性)不可動(dòng)手術(shù)的頭頸癌患者在經(jīng)歷化療的3個(gè)階段(治療前和治療后10周和治療后12個(gè)月)的說(shuō)話錄音。錄音方式為念讀德語(yǔ)中性文本。13名畢業(yè)或即將畢業(yè)的語(yǔ)言病理學(xué)家(平均年齡23.7歲)對(duì)這些錄音進(jìn)行可懂度感知評(píng)價(jià),評(píng)價(jià)指標(biāo)打分從1~7。通過(guò)對(duì)每個(gè)語(yǔ)句進(jìn)行評(píng)價(jià),得到13名評(píng)價(jià)者對(duì)每個(gè)語(yǔ)句評(píng)價(jià)的統(tǒng)計(jì)值。INTERSPEECH 2012 話者特性病理比賽中按照統(tǒng)計(jì)值將數(shù)據(jù)分成兩類(lèi):清晰(I)和不清晰(NI),其中I的加權(quán)統(tǒng)計(jì)值從5.77~6.71,NI的從1.99~5.72。語(yǔ)料采樣率為16 kHZ,量化為16 bit。語(yǔ)料庫(kù)中用來(lái)訓(xùn)練和測(cè)試(開(kāi)發(fā)集)的數(shù)據(jù)以4∶3的比例按年齡、性別、本土化分層隨機(jī)分配,語(yǔ)料分布數(shù)量如表1所示。
表1 NCSC語(yǔ)料庫(kù)分布Tab.1 The distribution of NCSC corpus
1.1.2 幼兒病理變異音語(yǔ)料庫(kù)
為了全面描述變異情況,考慮幼兒發(fā)音器官病變產(chǎn)生的音頻變異情況,設(shè)計(jì)一個(gè)病理相關(guān)的幼兒變異音語(yǔ)料庫(kù)采集計(jì)劃,以病理原因?yàn)槌霭l(fā)點(diǎn),錄音地點(diǎn)設(shè)立在醫(yī)院,對(duì)幼兒病理變異音數(shù)據(jù)進(jìn)行采集,音頻在黑龍江中醫(yī)藥大學(xué)附屬第一醫(yī)院兒科門(mén)診和住院處采集。按照醫(yī)學(xué)科室分類(lèi),分別從內(nèi)科、外科、五官科等科室進(jìn)行錄音,主要包括呼吸聲、哭聲、咳嗽聲共7種病理音頻。語(yǔ)料錄制時(shí)間總計(jì)10多個(gè)小時(shí),各種變異音大約100條語(yǔ)音。所有樣本采樣率為16 kHZ,量化為16 bit。本語(yǔ)料庫(kù)面向?qū)ο鬄橛變?,而且采集的相關(guān)病癥較多,缺點(diǎn)是因?yàn)橛變翰杉щy及時(shí)間關(guān)系,每種病癥的語(yǔ)料目前數(shù)量不足百條,未來(lái)還需要進(jìn)一步擴(kuò)充。
1.2 基于聽(tīng)覺(jué)加工模型的病理語(yǔ)音特征融合方法
高維特征集中,某些參數(shù)之間也可能存在冗余。針對(duì)這個(gè)問(wèn)題,本節(jié)引入聽(tīng)覺(jué)變化檢測(cè)模型,設(shè)計(jì)特征融合過(guò)程。聽(tīng)覺(jué)變化檢測(cè)模型是由Naatanenn在1999年提出,將聽(tīng)覺(jué)加工模型分為3個(gè)階段: 第1個(gè)階段是感覺(jué)分析(特征提取),第2個(gè)階段是感覺(jué)記憶(感知階段),第3個(gè)階段是執(zhí)行過(guò)程(認(rèn)知階段)。模型假定大腦系統(tǒng)執(zhí)行聲音的初始分析也就是第一階段,對(duì)應(yīng)語(yǔ)音的特征提取部分構(gòu)建初始特征集。隨后注意控制下加工最重要或最相關(guān)的部分信息,對(duì)應(yīng)第2階段,對(duì)特征集進(jìn)行第一次融合,達(dá)到第一次優(yōu)選特征的目的。當(dāng)注意關(guān)注環(huán)境中的某些事件時(shí),進(jìn)入第3個(gè)階段認(rèn)知階段執(zhí)行過(guò)程,對(duì)特征再次融合優(yōu)選放入有限容量系統(tǒng),準(zhǔn)備深入加工。本研究采用特征融合的方法如圖2所示,方法首先對(duì)高維數(shù)據(jù)特征集通過(guò)特征排序、分層處理、特征降維,完成第一次特征優(yōu)選。并以此結(jié)果作為第三階段輸入,利用同樣方法執(zhí)行第三階段過(guò)程,得到最終特征集,輸入有限容量系統(tǒng),進(jìn)行深入加工。
圖2 特征融合過(guò)程Fig.2 Feature fusion process
在本節(jié)的實(shí)驗(yàn)驗(yàn)證中所采用的分類(lèi)器是支持向量機(jī),并在每次實(shí)驗(yàn)中都對(duì)其進(jìn)行參數(shù)優(yōu)化,因此,首先介紹支持向量機(jī)的參數(shù)優(yōu)化過(guò)程。SVM的關(guān)鍵在于核函數(shù)及其參數(shù)。一個(gè)RBF SVM模型通常有兩種可調(diào)參數(shù)g(γ高斯函數(shù))和C(懲罰參數(shù))。g和C的范圍是從[2 -10]到[2 10], 5交叉驗(yàn)證進(jìn)行參數(shù)選擇。圖3顯示了參數(shù)選擇結(jié)果的三維視圖。在較小的范圍內(nèi)觀察參數(shù)g和C變化具有較高的識(shí)別準(zhǔn)確率,可以縮小網(wǎng)格搜索范圍和搜索步長(zhǎng)。如果g和C對(duì)應(yīng)相同的識(shí)別準(zhǔn)確率,則選擇C小的。因?yàn)镃值高,會(huì)導(dǎo)致過(guò)度擬合的研究??梢钥吹?,隨著搜索范圍的減小,訓(xùn)練集的檢索步驟和識(shí)別準(zhǔn)確率在提高。
圖3 g和C參數(shù)選擇網(wǎng)格結(jié)果Fig.3 The grid results of g and C parameter selection
表2顯示了使用四個(gè)不同的核函數(shù)變異語(yǔ)音的識(shí)別率,對(duì)其他核函數(shù)選擇優(yōu)化參數(shù)的方法和RBF相通。可以看出,RBF核函數(shù)在測(cè)試集的識(shí)別精度性能最佳。所以采用C為4,g為0.0625的徑向基函數(shù)作為最后語(yǔ)音變異程度分析的SVM模型。
表2 不同核函數(shù)識(shí)別結(jié)果Tab.2 Recognition results of different kernel function
利用本文提出的基于認(rèn)知規(guī)律的特征融合方法對(duì)特征集(526維)進(jìn)行降維,降維后的特征集為Re_fea(96維),并用特征融合后的特征訓(xùn)練以支持向量機(jī)(SVM)為分類(lèi)器,通過(guò)以上的參數(shù)優(yōu)化方法選擇參數(shù),因?yàn)轶w現(xiàn)方法的普適性,本文在主流NCSC語(yǔ)料庫(kù)中進(jìn)行實(shí)驗(yàn),用測(cè)試集進(jìn)行分類(lèi)測(cè)試。實(shí)驗(yàn)結(jié)果如表3所示。
表3 NCSC上MSCC+BAFS+Nonlinear和VIS-Features的實(shí)驗(yàn)結(jié)果Tab.3 Results of MSCC+BAFS+Nonlinear and VIS-Features on NCSC
從結(jié)果可以看出,本文提出的方法對(duì)語(yǔ)音變異進(jìn)行分析時(shí)有一定的效果,在NCSC語(yǔ)料庫(kù)上與基線進(jìn)行對(duì)比,本文方法的UA為75.07%比基線UA 61.6%高出很多,證明本文提出方法是有效的,如圖4所示。
圖4 在NCSC語(yǔ)料庫(kù)中與基線結(jié)果對(duì)比圖Fig.4 Comparison of the results with the baseline in the NCSC corpus
由于發(fā)聲系統(tǒng)的復(fù)雜性,病理語(yǔ)音分析離臨床成規(guī)模應(yīng)用還有段距離,本文提出的方法為語(yǔ)音分析與診斷在臨床上應(yīng)用提供了技術(shù)支持。本研究運(yùn)用語(yǔ)音信號(hào)分析和處理技術(shù)來(lái)研究聲音,研究適合煤工塵肺聲音分析的關(guān)鍵技術(shù),通過(guò)診察患者聲音的變異來(lái)診斷疾病。希望本文提出的技術(shù)能夠?qū)崿F(xiàn)對(duì)煤礦工人的健康狀況進(jìn)行分析,達(dá)到預(yù)防煤礦工人身體疾病的目的。
[1] Tsanas,A. Novel Speech Signal Processing Algorithms for High-Accuracy Classification of Parkinson′s Disease[J]. IEEE transactions on bio-medical engineering,2012,59(05): 1264-1271.
[2] Middag,C. Automated Intelligibility Assessment of Pathological Speech Using Phonological Features[J]. EURASIP Journal on Advances in Signal Processing,2008, (01):1-9.
[3] Maier,A. Automatic Speech Recognition Systems for the Evaluation of Voice and Speech Disorders in Head and Neck Cancer[J]. EURASIP Journal on Audio,Speech and Music Processing,2009, (01):1.
Study on the key technology of coal mine workers′ health status analysis based on acoustic diagnosis
FANG Chun-ying
(School of Computer and Information Engineering, Heilongjiang University of Science and Technology, Harbin 150001, China)
In this paper, acoustic parameters are analyzed by phonological phonetic representation of coal worker′s pneumoconiosis, and the characteristics of Mel S transform coefficients are used to describe the non-stationary characteristics of mutated speech signals. In this paper, we propose a nonlinear feature to describe the speech variation caused by the variation of vocal cords. At the same time, aiming at the redundancy problem of high dimensional feature, the feature set is proposed to be fused with auditory processing model.
Voice diagnosis; NCSC; Feature fusion; Speech analysis; Health status; Key technology
2016-12-05
項(xiàng)目來(lái)源:黑龍江教育廳科學(xué)技術(shù)研究項(xiàng)目,項(xiàng)目名稱(chēng):基于聲診的煤礦工人健康狀態(tài)分析的關(guān)鍵技術(shù)研究(12533051)
房春英(1978-),女,碩士,副教授。
TP274
A
1674-8646(2017)04-0023-03