倪曼蒂
摘 要 為了解決連續(xù)語音識(shí)別在自然環(huán)境中噪聲估計(jì)高誤差、去除噪聲和語言失真不能良好平衡、導(dǎo)致關(guān)鍵詞識(shí)別率低下的問題,提出了一種全新的自動(dòng)語音識(shí)別系統(tǒng)(ASR).本系統(tǒng)將雙通道含噪語音信號(hào)通過空間增強(qiáng)模塊進(jìn)行噪聲提取,通過均衡考慮語音信號(hào)和參考噪聲輸入譜減法模塊進(jìn)行去噪與語音失真的噪聲去除和信號(hào)放大,最后進(jìn)入基于隱馬爾科夫模型(HMM)的自適應(yīng)語音信號(hào)識(shí)別模塊進(jìn)行識(shí)別處理.實(shí)驗(yàn)顯示,本系統(tǒng)可有效減少運(yùn)算負(fù)載、提高關(guān)鍵詞識(shí)別率.
關(guān)鍵詞 空間增強(qiáng);譜減法;連續(xù)語音識(shí)別;自適應(yīng);雙通道信號(hào)
中圖分類號(hào) TP393文獻(xiàn)標(biāo)識(shí)碼 A文章編號(hào) 10002537(2014)03006306
雖然自動(dòng)語音識(shí)別(ASR)系統(tǒng)的研究已投入了大量的人員和資金,但是它還不能夠像電話一樣,作為日常生活的一部分完整地融入到人們的生活當(dāng)中.其中一個(gè)最主要的問題就是自動(dòng)語音識(shí)別系統(tǒng)在噪聲和混響環(huán)境下,特別是二者混合環(huán)境下的識(shí)別性能過于低下[1].在大多數(shù)情況下,為獲得可接受的識(shí)別性能,只能依賴于麥克風(fēng)陣列的使用,即通過使用大量按照特定位置放置的麥克風(fēng)來獲取語音輸入和空間信息.大量的ASR研究,使用麥克風(fēng)陣列得到方向增益,以改善噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量;采用模式識(shí)別技術(shù)中的譜減法來消除噪聲和處理語音訓(xùn)練集與測試集不匹配問題[2].
在日常應(yīng)用中,普通用戶既不可能隨身攜帶麥克風(fēng)陣列也不可能精確地放置它們.目前,日常使用的麥克風(fēng)是與雙通道耳機(jī)相對(duì)應(yīng)的,它能得到雙通道語音信號(hào),卻不能得到復(fù)雜的空間信息.如果依然采用傳統(tǒng)的信號(hào)增強(qiáng)方法(例如廣義旁瓣抵消技術(shù))來處理雙通道信號(hào),以作為語音識(shí)別系統(tǒng)的預(yù)處理端,那么噪聲的消除反而會(huì)帶來無法接受的語音失真.
譜減法[3]作為另一種消除噪聲的技術(shù),可以不依賴麥克風(fēng)陣列獲取輸入信號(hào),但是卻存在三大缺點(diǎn):(1)噪聲估計(jì)誤差過大導(dǎo)致噪聲消除時(shí)語音失真;(2)增強(qiáng)后的語音中含有明顯的“音樂噪聲”;(3)混響未被處理.
為解決上述問題,本文基于雙聲道語音信號(hào)簡單的空間特性,綜合使用改進(jìn)的廣義旁瓣抵消空間增強(qiáng)技術(shù)和改進(jìn)的譜減法技術(shù)作為語音識(shí)別系統(tǒng)的噪聲消除和信號(hào)放大的預(yù)處理端,并基于HTK開發(fā)工具設(shè)計(jì)一個(gè)識(shí)別性能優(yōu)異的語音識(shí)別系統(tǒng).
1 系統(tǒng)描述
圖1 系統(tǒng)結(jié)構(gòu)
Fig.1 System structure
圖1為本系統(tǒng)的整體構(gòu)架.它由空間增強(qiáng)、譜減法模塊和自動(dòng)語音識(shí)別模塊3個(gè)主要部分構(gòu)成.
1.1 空間增強(qiáng)模塊
因?yàn)榭臻g線索是語音識(shí)別的主要部分和遠(yuǎn)場麥克風(fēng)語音識(shí)別的組織焦點(diǎn),在該ASR系統(tǒng)中,采用PASCAL “CHiME”[4]組織提供的雙通道含噪語音信號(hào),利用該信號(hào)簡單的空間特性可以得到表現(xiàn)優(yōu)異的噪聲估計(jì).
有許多經(jīng)典的使用麥克風(fēng)陣列的方法來放大目標(biāo)信號(hào),例如通過延遲求和方式的波束形成,自適應(yīng)噪聲消除(ANC)以及獨(dú)立成分分析(ICA).它們使用麥克風(fēng)陣列得到方向增益,以改善在噪聲與混響環(huán)境中獲取信號(hào)的質(zhì)量.
1.2 噪聲消除模塊
通常的ASR系統(tǒng)在處理含噪信號(hào)時(shí)性能大幅度下降,因此,噪音消除是該系統(tǒng)中常見且必須的組成部分.當(dāng)前主流的噪聲消除技術(shù)可以分為3大部分.(1)使用時(shí)域?yàn)V波技術(shù),例如維納濾波和自適應(yīng)濾波;(2)嘗試還原原始語音譜的譜還原技術(shù),例如譜減法[5]和參數(shù)減法;(3)為增強(qiáng)語音結(jié)構(gòu),有許多基于語音模型的噪聲消除技術(shù),例如基于諧波模型的噪聲消除.然而,使用這些技術(shù)來獲得噪聲衰減和信噪比的改善,往往會(huì)造成語音失真.通常,越干凈的噪聲消除會(huì)導(dǎo)致越嚴(yán)重的語音失真,因此,研究設(shè)計(jì)一個(gè)針對(duì)復(fù)雜聲學(xué)環(huán)境的ASR系統(tǒng),在語音失真和噪聲消除之間尋找一個(gè)平衡點(diǎn),是非常重要的工作.
1.3 識(shí)別系統(tǒng)自適應(yīng)
通過一些經(jīng)典的空間濾波和噪聲消除技術(shù)來處理麥克風(fēng)陣列在真實(shí)環(huán)境中獲取的聲音信號(hào),較直接采集含噪聲音,具有更好的聽感知質(zhì)量.但是無論系統(tǒng)設(shè)計(jì)多么完備,獲得的加強(qiáng)聲音中依然會(huì)有噪聲殘留和語音失真的問題存在,它們能被正常人輕易的接受和識(shí)別,但是目前的ASR系統(tǒng)卻不具備這樣的能力.當(dāng)前幾乎所有的ASR系統(tǒng)都采用模式識(shí)別技術(shù),當(dāng)測試數(shù)據(jù)集接近訓(xùn)練數(shù)據(jù)集時(shí),能夠得到非常高的識(shí)別精確度.但是噪聲殘留和語音失真會(huì)導(dǎo)致測試數(shù)據(jù)集完全不同于“干凈”的訓(xùn)練數(shù)據(jù)集,訓(xùn)練和測試不匹配的問題會(huì)直接導(dǎo)致ASR系統(tǒng)識(shí)別率的降低.
為解決這些問題,前人提出許多的方法,例如模型再訓(xùn)練和自適應(yīng),特征變換和歸一化[67],建立環(huán)境模型和模型特征一體化技術(shù)將之使用在自動(dòng)語音識(shí)別模塊上,能起到良好的效果.
綜合考慮到對(duì)上面所述三部分的分析,所有的模塊都應(yīng)該整合為一體,只有通過良好的語音信號(hào)預(yù)處理和完善的識(shí)別系統(tǒng)自適應(yīng),才能構(gòu)架一個(gè)更優(yōu)異性能的ASR系統(tǒng).
2 系統(tǒng)設(shè)計(jì)
本文提出一個(gè)簡潔而具有高魯棒性的針對(duì)CHiME問題的ASR系統(tǒng).首先,依據(jù)雙通道信號(hào)的空間信息增強(qiáng)它們,然后采用改進(jìn)的譜減法獲得增強(qiáng)信號(hào),作為ASR系統(tǒng)的輸入,最終得到識(shí)別結(jié)果和關(guān)鍵詞準(zhǔn)確率.
2.1 改進(jìn)的空間增強(qiáng)
由于存在混響問題,使用傳統(tǒng)方法得到雙通道信號(hào)的空間信息的有效內(nèi)容非常困難.另外,如果采用傳統(tǒng)的信號(hào)增強(qiáng)方法,例如基于廣義旁瓣相消(GSC) 的波束成型,作為ASR系統(tǒng)的前端,那么噪音消除會(huì)帶來語音失真[8],會(huì)極大地降低ASR系統(tǒng)的識(shí)別性能.語音失真是由GSC多路輸入抵消器(MC)的窄帶自適應(yīng)濾波器導(dǎo)致的,它既無法良好地消除噪聲,同時(shí)還消耗昂貴的計(jì)算資源.
圖2 空間增強(qiáng)
Fig.2 Spatial enhancement
本ASR系統(tǒng)的前端,利用雙通道語音信號(hào)的優(yōu)勢,移除了典型GSC里的MC模型,使得在空間濾波的同時(shí)盡量避免語音失真和降低計(jì)算負(fù)擔(dān)(圖2).該模塊的主要任務(wù)是提取參考噪聲,而不再進(jìn)行噪聲消除.
該模型的輸出信號(hào)為如下的形式.
2.2 改進(jìn)的自適應(yīng)譜減法
譜減法是從噪音環(huán)境中還原“干凈”語音信號(hào)的經(jīng)典算法.在簡單的聲學(xué)仿真環(huán)境中往往能取得較好的性能,但在真實(shí)和復(fù)雜的環(huán)境中卻常常失敗.主要原因是譜減法的噪聲估計(jì)方法是猜測語音輸入的靜音段,即沒有目標(biāo)語音只有噪聲的段,通過統(tǒng)計(jì)一個(gè)時(shí)段上的噪聲信號(hào),取其均值作為該段上的通用參考噪聲估計(jì).
通過該方法來估計(jì)噪聲信號(hào)或者得到其統(tǒng)計(jì)特性是一項(xiàng)非常困難的工作,特別是當(dāng)噪聲環(huán)境越發(fā)接近真實(shí)環(huán)境時(shí).目標(biāo)語音很小時(shí),會(huì)被誤估計(jì)為噪聲,噪聲過大時(shí),會(huì)被誤認(rèn)為目標(biāo)語音.另外的一個(gè)問題是混響的作用,它使得雙通道信號(hào)保留了一定的目標(biāo)語音.此外,由于采用均值,致使在相位上的噪聲消除時(shí),存在過大噪聲的語音會(huì)存在噪聲殘留,而存在較少噪聲的部分會(huì)存在目標(biāo)語音過度削減[9],且缺乏實(shí)時(shí)性.
把這些因素加入考慮之中,本系統(tǒng)將噪聲估計(jì)前置到空間增強(qiáng)模塊,開發(fā)了一個(gè)改進(jìn)的譜減法的模塊,如圖3所示.
k是增強(qiáng)后語音信號(hào)的幅度,利用含噪信號(hào)的相位信息,對(duì)之進(jìn)行傅立葉反變換,即可得到干凈的增強(qiáng)語音信號(hào).
式(4)中的α=1,γ=2就是基本的譜減法,而改進(jìn)譜減法一般是調(diào)整二者的值,本系統(tǒng)不但調(diào)整了取值,而且改進(jìn)了譜減法的構(gòu)架.為了在譜減法信號(hào)中消除噪聲而不導(dǎo)致巨大的目標(biāo)語音失真,本模塊主要做了兩方面的工作:一是噪聲估計(jì)被空間增強(qiáng)模塊的參考噪音輸出取代,二是使用離散余弦變化取代了傅立葉變換,降低了減法因素α 的最小值.
本系統(tǒng)的整體算法輸出結(jié)果如下:
2.3 自動(dòng)語音識(shí)別模塊
對(duì)文獻(xiàn)[10]所介紹的針對(duì)CHiME問題的ASR模塊做了兩個(gè)改動(dòng),以實(shí)現(xiàn)測試與最終數(shù)據(jù)集的匹配和自適應(yīng).本模塊基于HTK package (version 3.4.1).
采用倒譜均值歸一化 (CMN)實(shí)現(xiàn)標(biāo)準(zhǔn)39梅爾倒頻譜系數(shù)(MFCC),以單詞為建模單元建立從左到右的帶自跳轉(zhuǎn)不帶狀態(tài)間跨跳的7高斯混合隱馬爾科夫模型(HMMs).通過觀察發(fā)現(xiàn),這些靜音部分如果不單獨(dú)建模,那么在訓(xùn)練數(shù)據(jù)集的腳本和聲音信號(hào)之間將會(huì)產(chǎn)生巨大的不匹配.根據(jù)這一結(jié)果,對(duì)于這些靜音,建模非常必要.全盤考慮這一現(xiàn)象,這些靜音被單獨(dú)建模為4狀態(tài)的隱馬爾科夫模型(HMMs).此外,對(duì)于識(shí)別所采用的語法如下:
訓(xùn)練說話人相關(guān)HMM模型,需要面對(duì)數(shù)據(jù)稀疏的問題.首先在開始階段先訓(xùn)練出說話人無關(guān)的HMM模型[11],再使用說話人相關(guān)的語料額外執(zhí)行4次EM訓(xùn)練的迭代.經(jīng)過這些迭代策略,每個(gè)說話人的模型不再近似于說話人無關(guān)模型而是各自獨(dú)立的說話人相關(guān)的模型,換言之,在訓(xùn)練模型和識(shí)別模型之間存在不匹配.因此,為了盡量克服這樣的不匹配,當(dāng)每個(gè)說話人完成獨(dú)立訓(xùn)練后,使用基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練來取代額外的4次EM訓(xùn)練的迭代.
3 實(shí)驗(yàn)與結(jié)果
用于訓(xùn)練和評(píng)估本ASR系統(tǒng)的數(shù)據(jù),由CHiME組織提供,在其主頁上可以輕松獲取.
經(jīng)過空間增強(qiáng)和自適應(yīng)譜減法的34個(gè)說話人在混響環(huán)境中的語句(采樣率 16 kHz)被用為訓(xùn)練材料.34個(gè)說話人的獨(dú)立含噪語句(采樣率 16 kHz),經(jīng)過上述兩道工序處理,被送到ASR模塊進(jìn)行識(shí)別.
ASR系統(tǒng)的自由參數(shù)是減法因素α的最小值.使用開發(fā)集的數(shù)據(jù)進(jìn)行調(diào)節(jié),參數(shù)α的最小值設(shè)為0.8.
最終測試結(jié)果見圖4.分別使用開發(fā)數(shù)據(jù)集和測試數(shù)據(jù)集進(jìn)行HMM建模后,本系統(tǒng)的關(guān)鍵詞準(zhǔn)確率見表1和表2.
結(jié)果簡析:
視圖的數(shù)據(jù)來源于表格.
圖5中橫軸為不同信噪比的語音信號(hào),縱軸為該語音信號(hào)在本系統(tǒng)中所取得的關(guān)鍵詞識(shí)別率,即正確識(shí)別率.
BASELINE為傳統(tǒng)語音識(shí)別系統(tǒng)(采用基本譜減法和基本空間增強(qiáng)進(jìn)行語音預(yù)處理,使用標(biāo)準(zhǔn)配置進(jìn)行語音識(shí)別)的關(guān)鍵詞識(shí)別率;
SIL為傳統(tǒng)技術(shù)的基礎(chǔ)上,為空白語音單獨(dú)建模后的關(guān)鍵詞識(shí)別率;
SIL+MAP為在SIL基礎(chǔ)上,使用了MAP自反饋技術(shù)后的關(guān)鍵詞識(shí)別率;
SIL+MAP+PLUS為在SIL+MAP的基礎(chǔ)上,使用改進(jìn)的空間增強(qiáng)技術(shù)后的關(guān)鍵詞識(shí)別率;
SIL+MAP+PLUS+SUB為本系統(tǒng)完整構(gòu)架下,即為空白語音單獨(dú)建模、使用MAP自反饋技術(shù)、添加改進(jìn)的空間增強(qiáng)、添加改進(jìn)的譜減法后的關(guān)鍵詞識(shí)別率.
比較結(jié)果可以看出,本文對(duì)系統(tǒng)的三大改進(jìn),都提升了系統(tǒng)在SNR為-6dB到9dB的語言文件關(guān)鍵詞識(shí)別率.特別是在SNR為-6dB到0dB時(shí),提升非常顯著,每個(gè)模塊或技術(shù)加入系統(tǒng)后,對(duì)關(guān)鍵詞識(shí)別率的提升百分比如圖5.
圖4 各信噪比下不同系統(tǒng)構(gòu)建關(guān)鍵詞識(shí)別率
Fig.4 Keywords recognition accuracy on SNRs from different system structures
圖5 不同信噪比下不同方法對(duì)關(guān)鍵詞識(shí)別率的提升百分比
Fig.5 Percentages of keywords recognition accuracy on SNRs improved from different system structures
SIL對(duì)靜音部分的單獨(dú)建模,糾正了訓(xùn)練腳本未標(biāo)記這些部分的錯(cuò)誤,改變了信號(hào)與訓(xùn)練腳本的不匹配,SIL的加入對(duì)性能提升大有幫助.
MAP的加入使得模型在海量數(shù)據(jù)集的訓(xùn)練下,非常接近于說話人相關(guān)模型,因而對(duì)關(guān)鍵詞識(shí)別率的提升顯而易見.
PLUS層的作用,單獨(dú)看來,對(duì)系統(tǒng)關(guān)鍵詞識(shí)別率提升影響很小,因?yàn)榫饪紤]語音失真和計(jì)算復(fù)雜度,GSC的多路輸入抵消器被移除了,該部分具有去除噪聲的功能.但該層是本系統(tǒng)SUB的基礎(chǔ),在低SNR的情況下,參考噪聲中完全不存在目標(biāo)語言,提供了良好的去除噪聲的基礎(chǔ).但是在高SNR的情況下,混響的存在會(huì)超越背景噪音成為首要問題,它導(dǎo)致從空間增強(qiáng)模塊輸出的參考噪音依然殘留有目標(biāo)語音,譜減法模塊對(duì)整個(gè)ASR系統(tǒng)會(huì)造成傷害.盡管自適應(yīng)譜減法的最小值閾值被調(diào)低,但這依然不是一個(gè)解決該問題的最好方法.在圖5可以看出,高信噪比情況下,在PLUS的基礎(chǔ)上加入SUB層,對(duì)關(guān)鍵詞識(shí)別率的提升非常小,甚至反而降低了關(guān)鍵詞識(shí)別率.可以預(yù)見隨著SNR的增加,這個(gè)現(xiàn)象會(huì)越發(fā)明顯.
4 結(jié)論
本文針對(duì)語音識(shí)別這一交叉性強(qiáng)的學(xué)科,打破傳統(tǒng)的語音識(shí)別系統(tǒng)局限于利用有限的技術(shù),不斷挖掘技術(shù)潛力,來達(dá)到提高性能的研究模式,提出了一種全新的綜合性構(gòu)架,并取得了實(shí)質(zhì)性的成效;考慮到人類聽覺的生理情況,結(jié)合空間增強(qiáng)層得出的無目標(biāo)語言的參考噪聲,對(duì)譜減法模塊做了積極的改變.將去除噪聲操作從空間增強(qiáng)層移動(dòng)到了效率更高的譜減法層,將噪聲估計(jì)移動(dòng)到空間增強(qiáng)層,使得整個(gè)系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實(shí)現(xiàn)標(biāo)準(zhǔn)39維梅爾倒頻譜系數(shù),為語音識(shí)別模塊加入基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練,提高了訓(xùn)練效率和系統(tǒng)整體性能.
參考文獻(xiàn):
[1] 宋志章,馬 麗,劉省非,等.混合語音識(shí)別模型的設(shè)計(jì)與仿真研究[J].計(jì)算機(jī)仿真, 2012,29 (5):152155.
[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.
[3] 張 滿,陶 亮,周 健.基于實(shí)值離散Cabor變換的譜減法語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(29):109113.
[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.
[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.
[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.
[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.
[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.
[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.
[10] NAOYA W, NOBORU H, YOSHIKAZU M, et al. A noise robust speech detection system using MFCC analysis[R].電子情報(bào)通信學(xué)會(huì)技術(shù)研究報(bào)告. ディジタル信號(hào)処理, 2003,103(146):2530.
[11] 肖 勇,覃愛娜.改進(jìn)的HMM和小波神經(jīng)網(wǎng)絡(luò)的抗噪語音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用, 2010,46(22):162166.
(編輯 陳笑梅)
4 結(jié)論
本文針對(duì)語音識(shí)別這一交叉性強(qiáng)的學(xué)科,打破傳統(tǒng)的語音識(shí)別系統(tǒng)局限于利用有限的技術(shù),不斷挖掘技術(shù)潛力,來達(dá)到提高性能的研究模式,提出了一種全新的綜合性構(gòu)架,并取得了實(shí)質(zhì)性的成效;考慮到人類聽覺的生理情況,結(jié)合空間增強(qiáng)層得出的無目標(biāo)語言的參考噪聲,對(duì)譜減法模塊做了積極的改變.將去除噪聲操作從空間增強(qiáng)層移動(dòng)到了效率更高的譜減法層,將噪聲估計(jì)移動(dòng)到空間增強(qiáng)層,使得整個(gè)系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實(shí)現(xiàn)標(biāo)準(zhǔn)39維梅爾倒頻譜系數(shù),為語音識(shí)別模塊加入基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練,提高了訓(xùn)練效率和系統(tǒng)整體性能.
參考文獻(xiàn):
[1] 宋志章,馬 麗,劉省非,等.混合語音識(shí)別模型的設(shè)計(jì)與仿真研究[J].計(jì)算機(jī)仿真, 2012,29 (5):152155.
[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.
[3] 張 滿,陶 亮,周 健.基于實(shí)值離散Cabor變換的譜減法語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(29):109113.
[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.
[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.
[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.
[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.
[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.
[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.
[10] NAOYA W, NOBORU H, YOSHIKAZU M, et al. A noise robust speech detection system using MFCC analysis[R].電子情報(bào)通信學(xué)會(huì)技術(shù)研究報(bào)告. ディジタル信號(hào)処理, 2003,103(146):2530.
[11] 肖 勇,覃愛娜.改進(jìn)的HMM和小波神經(jīng)網(wǎng)絡(luò)的抗噪語音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用, 2010,46(22):162166.
(編輯 陳笑梅)
4 結(jié)論
本文針對(duì)語音識(shí)別這一交叉性強(qiáng)的學(xué)科,打破傳統(tǒng)的語音識(shí)別系統(tǒng)局限于利用有限的技術(shù),不斷挖掘技術(shù)潛力,來達(dá)到提高性能的研究模式,提出了一種全新的綜合性構(gòu)架,并取得了實(shí)質(zhì)性的成效;考慮到人類聽覺的生理情況,結(jié)合空間增強(qiáng)層得出的無目標(biāo)語言的參考噪聲,對(duì)譜減法模塊做了積極的改變.將去除噪聲操作從空間增強(qiáng)層移動(dòng)到了效率更高的譜減法層,將噪聲估計(jì)移動(dòng)到空間增強(qiáng)層,使得整個(gè)系統(tǒng)的分工更加明確,以降低耦合,提高魯棒性;使用了倒譜均值歸一化實(shí)現(xiàn)標(biāo)準(zhǔn)39維梅爾倒頻譜系數(shù),為語音識(shí)別模塊加入基于最大后驗(yàn)概率的自適應(yīng)訓(xùn)練,提高了訓(xùn)練效率和系統(tǒng)整體性能.
參考文獻(xiàn):
[1] 宋志章,馬 麗,劉省非,等.混合語音識(shí)別模型的設(shè)計(jì)與仿真研究[J].計(jì)算機(jī)仿真, 2012,29 (5):152155.
[2] HIRSCH H G, PEARCE D. The aurora experimental framework for the performance evaluation of speech recognition systems under noisy conditions[C]//ASR2000Automatic Speech Recognition: Challenges for the new Millenium ISCA Tutorial and Research Workshop (ITRW). Paris, France, 2000,9:1820.
[3] 張 滿,陶 亮,周 健.基于實(shí)值離散Cabor變換的譜減法語音增強(qiáng)[J].計(jì)算機(jī)工程與應(yīng)用, 2012,48(29):109113.
[4] BARKER J, VINCENT E, MA N, et al. The PASCAL CHiME speech separation and recognition challenge[J]. Computer Speech Language, 2013,27(3):621633.
[5] BOLL S. Suppression of acoustic noise in speech using spectral subtraction[J]. Speech and Signal Processing, IEEE Transactions, 1979,27(2):113120.
[6] HERMANSKY H, MORGAN N. RASTA processing of speech[J]. Speech and Audio Processing, IEEE Transactions, 1994,2(4):578589.
[7] CHEN C P, BILMES J, ELLIS D P W. Speech feature smoothing for robust ASR[C]//2005 IEEE International Conference on Acoustics, Speech, and Signal Processing: Proceedings: March 1823, 2005.
[8] BRANDSTEIN, MICHAEL, DARREN WARD. Microphone arrays: signal processing techniques and applications[M]. New York: Springer, 1996:2075.
[9] KAUPPINEN I, ROTH K. Improved noise reduction in audio signals using spectral resolution enhancement with timedomain signal extrapolation[J]. Speech and Audio Processing, IEEE Transactions, 2005,13(6):12101216.
[10] NAOYA W, NOBORU H, YOSHIKAZU M, et al. A noise robust speech detection system using MFCC analysis[R].電子情報(bào)通信學(xué)會(huì)技術(shù)研究報(bào)告. ディジタル信號(hào)処理, 2003,103(146):2530.
[11] 肖 勇,覃愛娜.改進(jìn)的HMM和小波神經(jīng)網(wǎng)絡(luò)的抗噪語音識(shí)別[J].計(jì)算機(jī)工程與應(yīng)用, 2010,46(22):162166.
(編輯 陳笑梅)