国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時(shí)/頻ICA的PMC模型卷積噪聲估計(jì)方法研究

2016-09-21 00:57:16張貝貝
關(guān)鍵詞:譜估計(jì)語音卷積

呂 釗,張貝貝,張 超

(1. 安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2. 安徽大學(xué) 信息保障技術(shù)協(xié)同創(chuàng)新中心,安徽 合肥 230601)

?

基于時(shí)/頻ICA的PMC模型卷積噪聲估計(jì)方法研究

呂釗1,2,張貝貝1,張超1,2

(1. 安徽大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 合肥 230601;2. 安徽大學(xué) 信息保障技術(shù)協(xié)同創(chuàng)新中心,安徽 合肥 230601)

為提高卷積環(huán)境下語音識(shí)別系統(tǒng)的魯棒性,提出了一種基于時(shí)/頻ICA(independent component analysis)的卷積噪聲模型估計(jì)方法.所提算法首先使用ICA方法從含噪語音信號(hào)中提取純凈語音信號(hào)的短時(shí)功率譜,然后在MEL濾波器組域內(nèi)將含噪語音的短時(shí)譜減去純凈語音的短時(shí)譜,并根據(jù)去噪后卷積噪聲的短時(shí)譜估算其HMM(hidden markov model)模型.在仿真和真實(shí)環(huán)境下進(jìn)行了語音識(shí)別實(shí)驗(yàn),其識(shí)別正確率相比較傳統(tǒng)的卷積噪聲估計(jì)方法分別提升了4.70%和4.75%.實(shí)驗(yàn)結(jié)果表明,論文所提算法能夠?qū)崿F(xiàn)對(duì)卷積噪聲的精確估計(jì),并有效提升卷積噪聲環(huán)境下語音識(shí)別系統(tǒng)的性能.

語音;獨(dú)立分量分析;PMC(parallel model combination)模型;卷積噪聲

眾所周知,對(duì)語音識(shí)別系統(tǒng)而言,在噪聲環(huán)境下,使用由純凈語音所訓(xùn)練的語音識(shí)別器進(jìn)行識(shí)別時(shí),其性能會(huì)顯著下降,甚至無法識(shí)別,這是因?yàn)榄h(huán)境的改變使訓(xùn)練模型與測(cè)試模型產(chǎn)生了失配.為了克服這種現(xiàn)象,研究者們最初曾嘗試手工錄制測(cè)試環(huán)境中的噪聲信號(hào),并將其與訓(xùn)練時(shí)所使用的純凈語音進(jìn)行疊加,然后對(duì)這種混合后的信號(hào)建立模型.可以看出,這種做法優(yōu)點(diǎn)是簡(jiǎn)單、易行,然而,缺點(diǎn)也是顯而易見的:1)識(shí)別時(shí)的噪聲環(huán)境與事先所錄制的噪聲環(huán)境不可能完全相同,這將限制系統(tǒng)的識(shí)別正確率;2)為了獲取不同噪聲環(huán)境下的識(shí)別模型,在所有的噪聲環(huán)境下都需要訓(xùn)練新的模型,其工作量非常大,故該方法不適用于大詞匯量的語音識(shí)別系統(tǒng).為了解決上述問題,一種直接采集環(huán)境噪聲數(shù)據(jù)并通過失配函數(shù)將所采集到的噪聲模型與純凈語音模型進(jìn)行合并的思路被提出.該方法實(shí)現(xiàn)了噪聲環(huán)境下純凈語音模型到含噪語音模型的自動(dòng)轉(zhuǎn)換,有效提高了語音識(shí)別系統(tǒng)的魯棒性.其中,并行模型合并PMC[1](parallel model combination)、模型組合[2]及模型分解[3]等算法都是該思路的典型應(yīng)用.

在上述模型補(bǔ)償方法中,PMC方法由于具有使用相對(duì)簡(jiǎn)單且能夠有效描述真實(shí)噪聲環(huán)境下噪聲對(duì)純凈語音模型的影響等優(yōu)點(diǎn),因此應(yīng)用更為廣泛[4-6].然而,到目前為止,人們對(duì)加性PMC模型補(bǔ)償進(jìn)行了較為深入的研究,但在真實(shí)錄音場(chǎng)景下,由于語音傳感器所采集到的信號(hào)不僅包含著說話人的直達(dá)波信號(hào),同時(shí)還包含著由房間內(nèi)的墻壁、桌椅等多種不同物體的反射、折射、散射而生成的二次信號(hào),所以接收端所接收到的信號(hào)不再是語音與噪聲的簡(jiǎn)單疊加,而用卷積來形容這一混合過程則更為恰當(dāng)些[7-8].因此,傳統(tǒng)的加性PMC補(bǔ)償方法將不再適用,同時(shí),對(duì)卷積噪聲的估計(jì)是否準(zhǔn)確也直接影響到模型補(bǔ)償?shù)男Ч?為了解決上述問題,筆者在推導(dǎo)卷積PMC模型的基礎(chǔ)上,提出了一種基于時(shí)/頻ICA(independent component analysis)的卷積噪聲估計(jì)算法,用以實(shí)現(xiàn)卷積環(huán)境下對(duì)純凈語音模型的補(bǔ)償.

1 卷積環(huán)境下PMC模型補(bǔ)償方法

PMC方法的基本工作原理是,首先采集背景環(huán)境下的噪聲數(shù)據(jù),對(duì)其訓(xùn)練以生成相應(yīng)的噪聲模型,通過失配函數(shù)將噪聲模型與純凈語音模型進(jìn)行合并,最終得到含噪語音模型[1].

在卷積噪聲環(huán)境下,含噪語音信號(hào)在第j個(gè)Mel濾波器的總輸出功率oj(t)可以表示為語音信號(hào)功率譜與噪聲信號(hào)功率譜相乘的形式,即

(1)

(2)

(3)

為了求取模型補(bǔ)償公式,對(duì)式(2)兩邊同時(shí)取均值,可得

(4)

如果令

(5)

則將式(5)代入式(4)中可得卷積噪聲環(huán)境下靜態(tài)對(duì)數(shù)譜的Log-Add補(bǔ)償公式,即

(6)

(7)

2 基于時(shí)/頻ICA的噪聲模型估計(jì)方法

在雙入雙出條件下,基于時(shí)/頻ICA的噪聲模型估計(jì)方法原理框圖如圖1所示.

圖1 基于時(shí)/頻ICA的噪聲模型估計(jì)方法原理框圖Fig.1 Block diagram of the convolutive noise estimator based on time/frequency ICA

從圖1中可以看出,算法主要由含噪語音功率譜估計(jì)單元、純凈語音功率譜估計(jì)單元以及卷積噪聲HMM模型獲取單元3部分組成.為了計(jì)算卷積DCT(discrete sine transform)的HMM參數(shù),算法首先由含噪語音功率譜估計(jì)單元估算出由麥克風(fēng)1所采集到的包含著語音與噪聲的混合輸入信號(hào)的功率譜;然后,由純凈語音功率譜估計(jì)單元對(duì)麥克風(fēng)1與麥克風(fēng)2所采集到的兩路語音信號(hào)通過時(shí)/頻ICA方法估算純凈語音的功率譜;最后,在卷積噪聲HMM模型獲取單元內(nèi)對(duì)所獲取的含噪語音功率譜與純凈語音功率譜進(jìn)行基于倒譜域的減法操作,并將所得結(jié)果通過DCT變換、HMM建模等步驟獲取卷積噪聲的HMM參數(shù).

2.1含噪語音功率譜估計(jì)

為了估計(jì)含噪語音信號(hào)的短時(shí)功率譜,對(duì)麥克風(fēng)1輸入的含噪語音信號(hào)x(t)進(jìn)行短時(shí)傅里葉變換,在雙入雙出條件下,輸入信號(hào)x(t)可以表示為

(8)

其中:sj(t-k)表示源信號(hào),P代表卷積混合濾波器的階數(shù),aij則表示第j(j=1,2)個(gè)聲源到第i(i=1,2)個(gè)麥克風(fēng)的沖激響應(yīng).對(duì)(9)式進(jìn)行頻點(diǎn)數(shù)為L(zhǎng)的短時(shí)傅里葉變換后其頻域表達(dá)式為

(9)

其中:l=0,…,L-1;fs為采樣率;fl=(l/L)fs表示傅里葉變換后所得到的L個(gè)頻點(diǎn);τ=τ0,τ1,…,τM-1,則表示時(shí)域上滑動(dòng)窗的起始位置;win(t)表示窗函數(shù),通常選用漢明窗.

2.2純凈語音功率譜估計(jì)

純凈語音功率譜估計(jì)是整個(gè)算法的核心,其估計(jì)的準(zhǔn)確性決定了PMC模型補(bǔ)償效果.為了實(shí)現(xiàn)在卷積環(huán)境下語音信號(hào)的分離,采用了時(shí)/頻ICA方法,其基本處理流程如圖2所示.

圖2 時(shí)/頻域ICA算法流程圖Fig.2 Block diagram of time/frequency ICA algorithm

實(shí)現(xiàn)過程與含噪語音功率譜估計(jì)單元一樣,這里不再贅述.需要說明的是,在對(duì)含噪語音進(jìn)行短時(shí)功率譜估計(jì)時(shí)使用的是麥克風(fēng)1所采集到的信號(hào),而在該步驟中,輸入的是麥克風(fēng)1與麥克風(fēng)2所采集到的兩路觀測(cè)信號(hào),因此,經(jīng)過短時(shí)傅里葉變換后,將會(huì)輸出一L*M點(diǎn)的頻域觀測(cè)信號(hào)矩陣Yrci(fl,τ),其中M為滑動(dòng)窗的個(gè)數(shù).

在基于峭度極大的ICA算法中,目標(biāo)函數(shù)定義為峭度的絕對(duì)值

(10)

在假設(shè)w和w*是相互獨(dú)立的條件下,梯度迭代算法可表示為

(11)

排序模糊與尺度不確定性是時(shí)/頻ICA算法固有缺點(diǎn),其處理的好壞直接決定了信號(hào)分離的質(zhì)量.

(1) 尺度不確定性的補(bǔ)償

時(shí)/頻ICA是對(duì)觀測(cè)信號(hào)各頻率點(diǎn)進(jìn)行操作,因此,在混合與解混過程中不同頻點(diǎn)的信號(hào)將會(huì)獲得不同的增益,這就造成了尺度不確定性[9-10].

假設(shè)W(fk)為某一頻點(diǎn)的分離矩陣,其對(duì)應(yīng)的混合矩陣則可以表示為

(12)

尺度補(bǔ)償?shù)幕舅悸肪褪抢盟没旌暇仃嘇(fk)乘以各頻點(diǎn)的獨(dú)立分量以消除增益誤差,即

(13)

其中:Yj(fk,τ)與Vij(fk,τ)分別表示經(jīng)時(shí)/頻ICA分離后未進(jìn)行尺度補(bǔ)償與尺度補(bǔ)償后的第j個(gè)通道的獨(dú)立分量.

(2) 排序解模糊

由于ICA算法的輸出排序不確定性,使得不同頻點(diǎn)的信號(hào)在輸出通道上存在著較大的隨機(jī)性,為了保證各頻點(diǎn)分離結(jié)果對(duì)應(yīng)于同一個(gè)信號(hào)源,因此必須進(jìn)行排序解模糊運(yùn)算.Smaragdis[11]為了解排序模糊提出對(duì)相鄰頻點(diǎn)的分離矩陣進(jìn)行平滑處理;Nikunen等[12]則提出使用源內(nèi)包絡(luò)相關(guān)最大化方法解排序解模糊;Kim等[13]還提出使用DOA方法進(jìn)行排序.

為了平衡運(yùn)算量與算法精度,筆者采用了K-L散度距離來進(jìn)行解排序模糊.基本思路是依據(jù)相鄰頻點(diǎn)信號(hào)間概率密度函數(shù)的相似度(即距離)來進(jìn)行排序,其值越小表明信號(hào)間相似度越高.定義如下

(13)

從式(13)可以看出,在求解K-L散度距離的過程中必須進(jìn)行較為復(fù)雜的概率密度與積分計(jì)算,為了降低計(jì)算量,使用有限和代替積分,并使用下式估計(jì)概率密度

(14)

2.3噪聲HMM參數(shù)的獲取

噪聲HMM參數(shù)的獲取是在倒譜域上將含噪語音功率譜減去純凈語音功率譜來實(shí)現(xiàn)的[14],即

(15)

其中:c(l,τ)表示噪聲信號(hào)的MEL濾波器組輸出,Ymc(f,τ)表示含噪語音信號(hào)短時(shí)功率譜,Yrc(f,τ)表示經(jīng)卷積ICA分離后的純凈語音信號(hào)短時(shí)功率譜,τ表示幀數(shù),f為傅里葉變換后的不同頻點(diǎn),Wmel(f;l)表示l維MEL濾波器組.為了動(dòng)態(tài)地調(diào)整噪聲MEL濾波器組的輸出并使之隨動(dòng)于輸入語音信號(hào)的變化,引入了過減因子β與調(diào)節(jié)因子α來控制譜減程度,分別定義如下

(16)

其中:SNRi表示分帶信噪比,定義為

(17)

其中:si與ti分別對(duì)應(yīng)第i個(gè)MEL濾波器組的起始頻率與終止頻率.

調(diào)節(jié)因子α獲取方法相對(duì)簡(jiǎn)單,即

(18)

其中:Fs為采樣率,fi表示第i個(gè)MEL濾波器組的上限頻率.需要說明的是,經(jīng)譜減后所得的噪聲功率短時(shí)譜如果是一個(gè)負(fù)數(shù),可以通過系數(shù)γ來對(duì)c(l,τ)實(shí)現(xiàn)下整.最后,為了建立噪聲的HMM模型,對(duì)譜減后的輸出結(jié)果進(jìn)行DCT變換并使用Baum-Welch算法進(jìn)行參數(shù)估計(jì).

3 實(shí)驗(yàn)及結(jié)果分析

實(shí)驗(yàn)語音來自40位講話者共計(jì)2 000個(gè)語音段,內(nèi)容為0~9阿拉伯?dāng)?shù)字,采樣率為8 000Hz,量化精度為16bit,訓(xùn)練語音使用28位講話者1 400個(gè)數(shù)據(jù),測(cè)試語音使用12位講話者600個(gè)數(shù)據(jù).實(shí)驗(yàn)采用狀態(tài)數(shù)為6,高斯混合數(shù)為3,由左至右的連續(xù)HMM模型,訓(xùn)練時(shí)的最大迭代次數(shù)為50,終止迭代概率門限為5×10-6.實(shí)驗(yàn)測(cè)試噪聲均來源于NOISE-92數(shù)據(jù)庫,噪聲hmm狀態(tài)數(shù)設(shè)置為1,高斯混合狀態(tài)數(shù)設(shè)為3,特征參數(shù)為12維的靜態(tài)倒譜系數(shù)及一階動(dòng)態(tài)倒譜系數(shù).實(shí)驗(yàn)首先對(duì)原始語音信號(hào)進(jìn)行預(yù)加重與漢明窗化處理,其中窗長(zhǎng)設(shè)置為32ms,窗移為16ms,每個(gè)窗內(nèi)提取12維的MFCC及其差分作為特征參數(shù)[15].噪聲依然使用NOISE-92數(shù)據(jù)庫,分別在白噪聲、說話人噪聲、飛機(jī)噪聲及汽車噪聲4種噪聲環(huán)境下進(jìn)行測(cè)試,通過式(19)所示的8階混合濾波器進(jìn)行仿真混合.

(19)

在噪聲模型獲取過程中,γ設(shè)為1.6,β與α分別參照式(16)與式(18)進(jìn)行設(shè)定.實(shí)驗(yàn)中與以下3種方法進(jìn)行了對(duì)比分析,具體為

(1) 方法1:將含噪語音信號(hào)直接送入純凈語音HMM模型進(jìn)行識(shí)別;

(2) 方法2:采用去信號(hào)均值偏移估計(jì)方法[16]進(jìn)行卷積噪聲功率譜估計(jì);

(3) 方法3:采用基于頻譜域及倒譜域的最大期望估計(jì)方法[17]進(jìn)行噪聲功率譜估計(jì).

實(shí)驗(yàn)結(jié)果如圖3所示.

圖3 仿真條件下語音識(shí)別結(jié)果Fig.3 Speech recognition results in simulation environment

從實(shí)驗(yàn)結(jié)果中可以看出,方法1的語音識(shí)別誤識(shí)率較高,其主要原因是所提特征參數(shù)受到卷積噪聲的污染而發(fā)生畸變,而進(jìn)行識(shí)別的HMM模型則是由純凈語音訓(xùn)練所得,從而訓(xùn)練模型與識(shí)別模型不相匹配,最終導(dǎo)致識(shí)別結(jié)果較差.方法2 與方法3則有效改善這一結(jié)果,其中方法2由于直接對(duì)觀察數(shù)據(jù)的特征參數(shù)迭代求平均,因此可以獲得較為精準(zhǔn)的噪聲參數(shù),其語音識(shí)別正確率有所上升,然而由于該方法需要手工標(biāo)注信息,這在實(shí)際中很難做到.方法3是利用觀察語料以及干凈語音的模型參數(shù)對(duì)噪聲參數(shù)進(jìn)行估計(jì),但是該方法由于是對(duì)加性與卷積噪聲的迭代估計(jì),在加性噪聲較強(qiáng)時(shí),可以獲得較為精確的噪聲估計(jì),然而當(dāng)加性噪聲較弱時(shí),由于其對(duì)卷積噪聲的過高估計(jì)反而會(huì)引起識(shí)別率的降低.而論文方法則采用基于倒譜域的譜減方式,即通過將含噪語音短時(shí)功率譜減去由時(shí)/頻域ICA方法所估計(jì)的純凈語音短時(shí)功率譜來實(shí)現(xiàn)對(duì)卷積噪聲HMM參數(shù)估計(jì).通過對(duì)比實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),對(duì)同一語音識(shí)別系統(tǒng)而言, 論文方法所獲得的平均識(shí)別正確率相比較方法1約提升了16.57%,相比較方法2約提升了4.66%,相比較方法3約提升了4.74%,這說明論文方法在仿真卷積環(huán)境下可以準(zhǔn)確估計(jì)噪聲模型,且可用論文所推導(dǎo)補(bǔ)償方法進(jìn)行PMC模型補(bǔ)償.

實(shí)驗(yàn)所使用的語音庫及各種參數(shù)設(shè)置與仿真環(huán)境下完全相同,錄制環(huán)境及各要素位置如圖4所示,其中:噪聲是由揚(yáng)聲器進(jìn)行播放;語音與噪聲聲源高度約為1.5m;麥克陣列高度為1.3m,間距為4.1cm;語音源在麥克陣列正前方約60cm處.

圖4 實(shí)驗(yàn)環(huán)境(噪聲源與麥克風(fēng)相對(duì)位置示意圖)Fig.4 Experimental environment (relative position between noise speaker and microphones)

不同噪聲環(huán)境下的語音識(shí)別結(jié)果見圖5.

圖5 真實(shí)環(huán)境下語音識(shí)別結(jié)果Fig.5 Speech recognition results in real environment

從圖5中可以看出,相比較仿真環(huán)境,在真實(shí)錄音環(huán)境下語音識(shí)別正確率均有所下降,其原因主要有兩點(diǎn):1)在真實(shí)環(huán)境下,麥克陣列所采集到的語音信號(hào)不僅包含著說話人的直達(dá)波信號(hào),同時(shí)還包含著由房間內(nèi)的墻壁、桌椅等多種不同物體的反射、散射而生成的二次信號(hào);2)由于傳輸通道的不穩(wěn)定性、外部電磁干擾以及麥克風(fēng)自身干擾等諸多因素的存在,使得實(shí)驗(yàn)中所使用的濾波器維階數(shù)遠(yuǎn)小于真實(shí)環(huán)境下的階數(shù),因此,在真實(shí)環(huán)境下時(shí)/頻ICA的分離效果必然會(huì)有所折扣.然而,對(duì)幾種算法的實(shí)驗(yàn)結(jié)果進(jìn)行橫向?qū)Ρ葧r(shí)發(fā)現(xiàn),論文方法在不同噪聲環(huán)境下所獲得的語音識(shí)別平均正確率相比較方法1約提高了14.51%,相比較方法2約提高了4.75%,相比較方法3約提高了4.76%,結(jié)果驗(yàn)證了卷積PMC模型補(bǔ)償方法及基于ICA的噪聲估計(jì)方法的有效性.

4 結(jié)束語

為解決在卷積噪聲環(huán)境下使用PMC方法進(jìn)行HMM模型補(bǔ)償,推導(dǎo)了卷積PMC模型的補(bǔ)償公式,并提出了基于獨(dú)立分量分析的卷積噪聲估計(jì)方法.該算法使用時(shí)/頻ICA算法提取純凈語音信號(hào)短時(shí)功率譜,然后在MEL濾波器組通過譜減實(shí)現(xiàn)噪聲信號(hào)短時(shí)功率譜的估計(jì),最后對(duì)其進(jìn)行HMM建模.為了驗(yàn)證PMC卷積模型與噪聲估計(jì)算法的可行性,在比較HMM模型均值實(shí)驗(yàn)的基礎(chǔ)上進(jìn)行了仿真與真實(shí)兩種環(huán)境下的語音識(shí)別實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果驗(yàn)證了所提算法的有效性.然而,論文的實(shí)驗(yàn)主要是以雙入雙出系統(tǒng)為例進(jìn)行的,當(dāng)輸入通道數(shù)大于兩路時(shí),時(shí)/頻ICA算法在排序解模糊問題上將會(huì)變得更為復(fù)雜,因此,筆者下一步將會(huì)結(jié)合聲源的時(shí)/頻/空域信息進(jìn)行多路時(shí)/頻ICA排序算法的研究.

[1]GALES M J F, YOUNG S J. Robust continuous speech recognition using parallel model combination[J]. Speech and Audio Processing, IEEE Transactions, 1996, 4 (5): 352-359.

[2]MINAMI Y, FRUUI S. A maximum likelihood procedure for a universal adaptation method based on HMM composition[C]//Acoustics, Speech, and Signal Processing, ICASSP-95, International Conference on IEEE, 1995, 1: 129-132.

[3]VARGA A P, MOORE R K. Hidden Markov model decomposition of speech and noise[C]// Acoustics, Speech, and Signal Processing, ICASSP-90, International Conference on IEEE, 1990: 845-848.

[4]SIM K C. Approximated Parallel Model Combination for efficient noise-robust speech recognition[C]//Acoustics, Speech and Signal Processing (ICASSP), IEEE International Conference on IEEE, 2013: 7383-7387.

[5]YU D, DENG L. Hidden markov models and the variants[C]//Automatic Speech Recognition, Springer London, 2015: 23-54.

[6]RAO K S, SARKAR S. Robust speaker verification: a review[C]//Robust Speaker Recognition in Noisy Environments, Springer International Publishing, 2014: 13-27.

[7]ALI U, YAHYA K M, JAN T, et al. Blind separation of convolutive speech mixtures with background interference employing a Hybrid approach With ICA & PCA[J]. Sindh University Research Journal-SURJ (Science Series), 2014, 46 (2):256-280.

[8]ASAEI A, BOURLARD H, TAGHIZADEH M J, et al. Computational methods for underdetermined convolutive speech localization and separation via model-based sparse component analysis[J]. Speech Communication, 2015: 201-217.

[9]HYVARINEN A, KARHUNEN J, OJA E. Independent component analysis[M]. Manhattan: John Wiley & Sons, 2004.

[10]張磊, 張道信, 吳小培. 基于獨(dú)立分量分析的心理作業(yè)誘發(fā)腦電特征增強(qiáng)[J]. 安徽大學(xué)學(xué)報(bào) (自然科學(xué)版), 2008, 32 (2): 39-43.

[11]SMARAGDIS P. Blind separation of convolved mixtures in the frequency domain[J]. Neurocomputing, 1998, 22 (1): 21-34.

[12]NIKUNEN J, VIRTANEN T, PERTILA P, et al. Permutation alignment of frequency-domain ICA by the maximization of intra-source envelope correlations[C]// Signal Processing Conference (EUSIPCO), Proceedings of the 20th European, IEEE, 2012: 1489-1493.

[13]KIM M, PARK H M. Efficient online target speech extraction using DOA-constrained independent component analysis of stereo data for robust speech recognition[J]. Signal Processing, 2015, 117: 126-137.

[14]YU T, TOMOYA T, KEIICHI O, et al. Blind spatial subtraction array for speech enhancement in noisy environment[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2009; 17 (4): 650-664.

[15]HUANG X D, ARIKI Y, JACK M A. Hidden Markov models for speech recognition[M]. Edinburgh: Edinburgh University Press, 1990.

[16]BENESTY J, MAKINO S. Speech enhancement[M]. Berlin: Springer Science & Business Media, 2005.

[17]HARRELL J F. Overview of maximum likelihood estimation[M]. Berlin: Springer International Publishing, 2015.

(責(zé)任編輯朱夜明)

A study on PMC convolutive noise estimation method based on time/frequency ICA

LYU Zhao1,2, ZHANG Beibei1, ZHANG Chao1,2

(1. College of Computer Science and Technology, Anhui University, Hefei 230601, China;2. Co-Innovation Center for Information Supply and Assurance Technology, Anhui University, Hefei 230601, China)

In order to improve robustness of speech recognition system in convolutive environment, a convolutive noise estimation method based on time/frequency ICA(independent component analysis) (TD-ICA) was proposed in the paper. The algorithm firstly separated the short-time spectrum of speech and noise by TD-ICA algorithm, and then the noise short-time spectrum was acquired by subtracting the estimated clean speech short-time spectrum from the noisy speech in the mel-scale filter bank domain. Finally, an HMM(hidden Markov model) of convolutive noise was established based on the noise short-time spectrum. Experiments have been carried out in simulation and real environment, experiential results revealed that the proposed algorithm obtained the relative increasing of 4.70% and 4.75% compared with conventional noise estimation method, which validated the accuracy of estimated noise signal and proved that the proposed algorithm could effectively improve recognition ratio in convolutive noise environment.

speech; ICA; PMC(parallel model combination) model; convolution noise

10.3969/j.issn.1000-2162.2016.05.005

2016-02-16

國(guó)家自然科學(xué)基金資助項(xiàng)目(61401002);安徽省自然科學(xué)基金資助項(xiàng)目(1408085QF125);安徽省高校省級(jí)自然科學(xué)研究重點(diǎn)項(xiàng)目(KJ2014A011);光電獲取與控制教育部重點(diǎn)實(shí)驗(yàn)室開放課題(OEIAM201401)

呂釗(1979-),男,安徽宿州人,安徽大學(xué)副教授,碩士生導(dǎo)師,博士.

TN912.34

A

1000-2162(2016)05-0024-08

猜你喜歡
譜估計(jì)語音卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
魔力語音
基于MATLAB的語音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于MQ3與MP3的價(jià)廉物美的酒駕語音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對(duì)方正在輸入……
小說界(2018年5期)2018-11-26 12:43:42
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于MATLAB實(shí)現(xiàn)的AR模型功率譜估計(jì)
經(jīng)典功率譜估計(jì)方法的研究
Welch譜估計(jì)的隨機(jī)誤差與置信度
怀宁县| 阳东县| 海安县| 从化市| 永新县| 平谷区| 仙桃市| 博客| 景洪市| 沛县| 蕉岭县| 聂拉木县| 牙克石市| 驻马店市| 蒙山县| 新晃| 松原市| 仙居县| 莱西市| 苍南县| 宁武县| 隆子县| 云浮市| 淮南市| 沁源县| 张家口市| 堆龙德庆县| 双江| 渑池县| 济南市| 西贡区| 广水市| 司法| 广昌县| 西乡县| 江山市| 德阳市| 洛川县| 剑川县| 曲麻莱县| 元朗区|