国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于特征參數(shù)歸一化的魯棒語音識別方法綜述

2010-06-05 02:43肖云鵬葉衛(wèi)平
中文信息學(xué)報 2010年5期
關(guān)鍵詞:均衡化特征參數(shù)直方圖

肖云鵬, 葉衛(wèi)平

(北京師范大學(xué) 信息科學(xué)與技術(shù)學(xué)院,北京 100875)

1 引言

目前,語音識別技術(shù)已經(jīng)取得了很大的成就,然而絕大多數(shù)識別系統(tǒng)仍然局限于在安靜的環(huán)境下使用。在實際環(huán)境中,往往會因為環(huán)境中復(fù)雜因素的影響,造成訓(xùn)練環(huán)境和測試環(huán)境存在不匹配現(xiàn)象,使得識別系統(tǒng)性能大幅度下降,極大地限制了語音識別技術(shù)的應(yīng)用范圍。正因如此,魯棒語音識別技術(shù)長久以來一直被視為重要的研究領(lǐng)域,并取得了初步性地進(jìn)展。其主要是對語音信號本身、語音特征參數(shù)或模型參數(shù)做適當(dāng)?shù)奶幚砼c調(diào)整,以減少噪聲干擾的影響,降低訓(xùn)練環(huán)境與測試環(huán)境不匹配的情形或提升語音信號特征參數(shù)本身的魯棒性,進(jìn)而提高系統(tǒng)的性能。

根據(jù)噪聲對語音頻譜的干擾方式不同可以把噪聲分為加性噪聲和乘性噪聲兩類:

(一) 加性噪聲(Additive Noise)

加性噪聲為錄制語音時,原始語音與背景噪聲以線性相加的方式同時被收錄進(jìn)去,即所采集到的語音信號為純凈的語音信號和噪聲的和。這種噪聲在日常生活中很容易接觸到,例如實際環(huán)境中的風(fēng)聲雨聲、辦公室里的打印機(jī)的工作聲、計算機(jī)中的磁盤驅(qū)動器和風(fēng)扇等設(shè)備的聲音以及周圍說話人的聲音等等。

(二) 卷積性噪聲(Convolution Noise)

卷極性噪聲通常是指語音信號在由不同通道傳輸時所產(chǎn)生的通道效應(yīng)(Channel Effect),例如電話線路效應(yīng)、麥克風(fēng)通道效應(yīng)等等。其與語音在頻譜是相乘的關(guān)系,在時域上是卷積關(guān)系,故稱卷積性噪聲。加性噪聲和卷極性噪聲對語音信號的干擾過程示意圖如圖1所示。

圖1 噪聲干擾示意圖

近年來,越來越多的學(xué)者致力于魯棒語音識別的研究,許多魯棒語音識別技術(shù)成功地被提出,這些技術(shù)的目標(biāo)都是相同的,主要是提高語音的魯棒性,進(jìn)而提高識別率,使語音識別技術(shù)能夠更廣泛地應(yīng)用到日常生活中的各個方面。依據(jù)方法本質(zhì)的不同大體可分為三類解決方法[1]:

(一) 語音增強(qiáng)技術(shù)(Speech Enhancement Techniques)

置于識別器前端,消除測試語音中噪聲的影響,提高語音信號本身的質(zhì)量。所有操作基本都是針對原始語音波形而進(jìn)行的,與后續(xù)的特征提取及模型匹配沒有直接關(guān)系。通常假設(shè)語音信號與噪聲信號二者在統(tǒng)計上是不相關(guān)的,力求能由帶噪語音信號中重建出干凈語音信號。常見的技術(shù)有譜減法(Spectral Substraction)[2]、卡爾曼濾波器(Kalman Filter)[3]、信號子空間方法(Signal Subspace Approach)[4-5]等。

(二) 魯棒性語音特征(Robust Speech Feature)

尋找穩(wěn)健的耐噪聲的語音特征參數(shù)和對從含噪語音中提取的特征進(jìn)行處理。其處理的基本思想就是去除由噪聲引起的帶噪語音特征與純凈語音特征之間的偏差,主要通過對語音特征的一些統(tǒng)計特性(如均值、方差)或分布?xì)w一化來實現(xiàn)。常見的技術(shù)有倒頻譜均值消去法(Cepstral Mean Subtraction, CMS)[6]、倒頻譜歸一化法(Cepstral Normalization,CN)[7]以及直方圖均衡化(Histogram Equalization,

HEQ)[8-9]等等。

(三) 聲學(xué)模型自適應(yīng)技術(shù)(Acoustic Model Adaption Techniques)

由少量的自適應(yīng)語料調(diào)整由干凈語音或不同環(huán)境下語料訓(xùn)練而成的聲學(xué)模型中的概率分布參數(shù),如均值向量和混合高斯模型的協(xié)方差矩陣,希望調(diào)整后的模型可以適用于測試語料的環(huán)境,以降低環(huán)境不匹配的影響。在實際應(yīng)用中,由于它直接調(diào)整語音模型參數(shù)來降低環(huán)境噪聲產(chǎn)生的不確定度,常常產(chǎn)生較好的效果。常見的技術(shù)有最大后驗概率法(Maximum a Posterior,MAP)[10],最大相似度線性回歸法(Maximum likelihood Liner Regression,MLLR)[11]等。

上述三類方法中,第一類和第二類方法屬于語音識別系統(tǒng)前端處理環(huán)節(jié)。其中,大多數(shù)語音增強(qiáng)算法是以提高輸入信號的信噪比為目的,使受到噪聲干擾的語音聽起來會比較接近無噪環(huán)境下的語音,往往在提高語音識別系統(tǒng)的識別率上效果并不顯著。第三類方法屬于后端處理環(huán)節(jié),目的是讓識別器中的隱馬爾科夫模型(Hidden Markov Model,HMM)更適用于實際環(huán)境。這類方法的優(yōu)點是需要少量的自適應(yīng)語料就能對聲學(xué)模型進(jìn)行調(diào)試;缺點就是在進(jìn)行自適應(yīng)調(diào)試時,計算量很大。本文將討論的基于特征參數(shù)歸一化的魯棒語音識別方法屬于第二類魯棒性語音特征,其簡單和實用性,是聲學(xué)模型自適應(yīng)技術(shù)和大部分語音增強(qiáng)技術(shù)無法比擬的,所以常常被作為魯棒語音識別的首選方法[12]。

2 語音歸一化的依據(jù)

2.1 噪聲對語音統(tǒng)計特性的影響

語音的統(tǒng)計特性(如均值,方差)能提供許多由噪聲引起的語音倒頻譜偏差的相關(guān)信息。理論上講,在數(shù)學(xué)研究中,只有前四階矩(Moment)具有明確的物理含義,分別為均值、方差、偏度(Skewness)和陡峭度(Kurtosis)。

均值μ定義如下:

(1)

其中,X(n)是倒頻譜系數(shù)序列,T是特征序列的長度。

方差是二階中心矩:

σ=E[(X-E[X])2]=E[X2]-E[X]2

(2)

高階矩可通過分布的均值來得到。N階中心距(Central Moments)定義如下:

MN=E[(x-μ)N]

(3)

偏度和陡峭度分別為三階中心矩M3和四階中心矩M4,它們分別描述了倒頻譜分布的對稱性和相對平坦度。

加性噪聲對語音統(tǒng)計特性的影響并非是純凈語音和噪聲語音統(tǒng)計量的簡單相加或變換, 但統(tǒng)計特性在一定程度上也能反映噪聲對倒頻譜分布的影響趨勢。

圖2為在幾種不同信噪比的背景噪聲污染下的第一維倒頻譜分布。統(tǒng)計語料內(nèi)容來自16名男女錄制的1 232句話??梢钥瓷希诡l譜特征的全局的均值和方差均有所偏移。其中,均值隨著信噪比的降低而提高,而方差隨著分布的坡度(Slope)的增加而降低。此外,偏度也有所移動,在高信噪比表現(xiàn)出來的雙峰(Bimodal)特性隨著信噪比的降低逐漸顯示出單峰特性。

圖2 加入不同信噪比的噪聲后第一維倒頻譜的分布

圖3為純凈語音、噪聲和帶噪語音(信噪比為10dB)的倒頻譜的前四個統(tǒng)計特性。第一行描述了除了0階倒頻譜以外的12階倒頻譜系數(shù)的均值;下面三行描述了全部13階倒頻譜系數(shù)的方差、偏度及陡峭度。可以看出,在加性噪聲的影響下,語音信號倒頻譜的方差和其他統(tǒng)計屬性均有所降低,這就導(dǎo)致了識別過程中的環(huán)境不匹配,從而造成識別率低下??梢约僭O(shè),如果對倒頻譜的這些特性進(jìn)行歸一化,那么環(huán)境不匹配程度就可以被降低或補償。

圖3 純凈語音、噪聲和帶噪語音的MFCC_0的統(tǒng)計屬性

2.2 標(biāo)準(zhǔn)的用于魯棒語音識別的語料庫AURORA

為了評價在噪聲環(huán)境下各種魯棒語音識別算法的性能,需要建立一個標(biāo)準(zhǔn)的帶噪語音數(shù)據(jù)庫。一是可以比較各種魯棒語音識別算法的相對有效性;二是可以驗證算法的合理性以及允許他人有條件評估你的算法。AURORA語料庫就是為此目的而發(fā)行的語料庫,其中最常用語料庫的是AURORA 2.0和3.0。AURORA 2.0是在TI-DIGIT語料庫基礎(chǔ)上,內(nèi)容為美國成年男女錄制的一系列連續(xù)的英文數(shù)字串,人工加上不同加性噪聲和通道噪聲的干擾。AURORA 3.0是歐洲語言車載語音數(shù)據(jù)庫(SpeechDataCar)的一個子集,是在實際車載環(huán)境下錄制的數(shù)字串語音數(shù)據(jù)文件,包含四種歐洲語言。此外,AURORA 工作組成員還為噪聲環(huán)境下語音識別系統(tǒng)的評估的實驗框架提供了標(biāo)準(zhǔn)設(shè)置,包括前端預(yù)處理、特征提取、訓(xùn)練和識別過程涉及到的主要參數(shù)都提供了參考數(shù)據(jù),并在此基礎(chǔ)上給出了未使用任何魯棒技術(shù)的參考性的識別結(jié)果,這為各種魯棒語音識別算法的評估和比較提供了必要條件[14]。本文所提到的算法都在AURORA數(shù)據(jù)庫上驗證了有效性。

3 歸一化方法介紹

語音特征的統(tǒng)計特性受噪聲環(huán)境的影響,歸一化方法應(yīng)用于語音識別系統(tǒng)當(dāng)中來補償環(huán)境噪聲不匹配的影響,進(jìn)而來提高系統(tǒng)的識別率。大多數(shù)歸一化方法都應(yīng)用在倒頻譜域,作為語音特征的后加工。其中,梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficients)為大家接受并認(rèn)同的一種特征,各種各樣的魯棒語音技術(shù)都是基于這種特征發(fā)展而來的。它的優(yōu)點是不需要任何噪聲環(huán)境的先驗知識和自適應(yīng)方法,實現(xiàn)方法簡單,而且效果比較理想。本節(jié)對各種歸一化算法進(jìn)行介紹。

3.1 倒頻譜矩歸一化(Cepstral Moment Normalization)

倒譜均值歸一化法(Cepstral Mean Normalization,CMN)[15],倒譜方差歸一化(Cepstral Variance Normalization,CVN)[16]以及高階倒譜矩歸一化(Higher Order Cepstral Moment Normalization,HOCMN)[13,17]都屬于對倒譜矩的歸正方法,目的是使帶噪語音特征參數(shù)的概率密度函數(shù)(Probability Density Function,PDF)更接近純凈語音的概率密度函數(shù),以減少測試語料和訓(xùn)練語料環(huán)境的不匹配度。其中,CMN是對一階矩做歸一化,CVN是對CMN的補充,在CMN的基礎(chǔ)上再對二階矩進(jìn)行歸一化。這兩種方法都是常用的方法,CMN在倒譜域去中除了直流分量,這些直流分量包含了大部分信道失真,而CVN對方差的進(jìn)一步歸一化進(jìn)一步減少了帶噪語音信號和純凈語音信號的概率密度函數(shù)的差異。而HOCMN是對高階矩(大于3)進(jìn)行歸一化,取得了更好的效果。下面采取統(tǒng)一的公式對上述方法進(jìn)行描述[15-17]。

倒譜序列X(n)的N階矩定義如下:

(4)

其中,X(n)是倒頻譜系數(shù)序列,T是特征序列的長度,該序列的N階距就是對XN(n)取期望值。

語音信號的倒譜系數(shù)的概率密度函數(shù)通常被看作準(zhǔn)高斯分布(Quasi-Gaussian Distribution)。在這個前提下,其倒譜特征的奇次階距(Odd Order Moments)應(yīng)為0,偶次階距(Even Order Moments)應(yīng)為某一特定的常數(shù)[17]。N階距歸一化的目的是:

(5)

有了上述的表示式,可以將上文提到的CMN和CVN的定義如下:

(6)

(7)

其中,X[L,N]是X(n)的L和N階距同時被歸一化后對應(yīng)的序列。所以,CVN總是和CMN結(jié)合一起使用,所以也稱為均值方差歸一化(Mean and Variance Normalization,MVN)。

偶次N的HOCMN總是和一階矩歸一化同時存在的,并滿足如下關(guān)系式:

X[1,N](n)?bX[1](n)=bXCMS(n)

(8)

其中,b為比例因子。

(9)

如果N的值比較大,b可以通過下式來近似

(10)

可以看出,只要給定不同的N就可以對序列X(n) 的第N階矩進(jìn)行歸一化,換句話說,對于不同的N,我們就能得到不同的比例因子b。

奇次的HOCMN是由三階矩倒譜矩歸一化[18]擴(kuò)展而來的,它也是在一階矩歸一化的基礎(chǔ)上進(jìn)行高階歸正的。其滿足下式:

(11)

上式中,

(12)

(13)

上式展開后,當(dāng)a很小時,我們可以把高次項去掉,僅保留最后兩項,這樣a就可以近似表示成為:

(14)

由于公式僅是一個近似計算,存在一定誤差,遞歸算法如圖4所示能得到更精確的結(jié)果。

圖4 奇次階HOCMN的流程

可以看出,在對高階矩進(jìn)行歸一化前均會先進(jìn)行CMN,也就是說,經(jīng)過HOCMN作用后的特征參數(shù)各維的均為都為0。對于奇次階距和偶次階距都進(jìn)行歸一化的HOMVN可以通過一個串聯(lián)系統(tǒng)來實現(xiàn),先對特征系數(shù)進(jìn)行奇次階距的歸正,再進(jìn)行偶次階距的歸正,如圖5所示。

圖5 奇次階和偶次階HOCMN的級聯(lián)系統(tǒng)

C.W.Hsu and L.S.Lee提出使用HOCMN能消除測試語料和訓(xùn)練語料之間殘余的不匹配,效果優(yōu)于CMN和CVN,并指出最優(yōu)的倒譜矩組合模式為HOCMN[1,5,100][17]。但也可以看出,隨著L和N的增長,算法復(fù)雜度越高,收斂速度越來越慢。

3.2 直方圖均衡化法(Histogram Equalization,HEQ)

CMN和CVN在一定程度上補償了信道失真和加性噪聲產(chǎn)生的負(fù)面影響,但是他們線性的本質(zhì)使其不能很好地解決各種環(huán)境噪聲產(chǎn)生的非線性失真。解決辦法除了上面所述的對高階矩進(jìn)行進(jìn)一步歸一化以外,直方圖均衡化[8,19]也是一種有效的方法。

直方圖均衡化作為一種特征補償技術(shù)起初是在數(shù)字圖像處理中被提出的[8], 是一種采用壓縮原始圖像中像素數(shù)較少的部分, 拉伸像素數(shù)較多的部分, 從而使整個圖像的對比度增強(qiáng)、圖像變清晰的方法,在圖像處理領(lǐng)域得以廣泛的應(yīng)用。近幾年來不少學(xué)者將其成功地應(yīng)用到語音處理上[20-24]。比如, Torre[8]等將其應(yīng)用到語音識別上以提高系統(tǒng)魯棒性。實際上, 直方圖均衡化就是一個樣本的非線性變換, 目的是使得變換后的樣本服從我們所需要的參考分布。直方圖均衡化方法是一種非線性的補償變換, 其不僅僅對特征分布的一階和二階矩進(jìn)行歸一化, 而是試圖匹配訓(xùn)練和測試語料特征參數(shù)的分布,即對概率分布的所有階矩都進(jìn)行所有歸一化, 使得訓(xùn)練和測試的語音特征之間的不匹配程度降低, 從而提高系統(tǒng)的識別性能。

3.2.1 直方圖均衡化的基本原理

HEQ的假設(shè)前提是訓(xùn)練語料的語音特征參數(shù)的統(tǒng)計分布和訓(xùn)練語料特征參數(shù)的統(tǒng)計分布(也可稱為參考分布)是一致的。由于語音特征矢量是多維的,為了簡化模型, 通常假定特征矢量各維分量相互獨立, 由此我們可以在特征的每一維分量上獨立進(jìn)行直方圖的非線性變換。假設(shè)x為測試語句語音特征向量的某一維特征參數(shù),其概率密度函數(shù)(Probability Density Function)為PTest(x),參考概率密度函數(shù)為PTrain(x),變換后的矢量為y,其服從參考概率密度函數(shù)PTrain(x),變換記為F(x)。直方圖變換可以看成將原變量的直方圖變換到參考的直方圖,以達(dá)到將原變量變換到目標(biāo)變量的過程。

HEQ原理圖見圖6。

圖6 HEQ的基本原理

根據(jù)直方圖的定義,經(jīng)變換后的小面積元對應(yīng)相等,即

Ptrain(y)dy=PTest(x)dx

(15)

設(shè)F-1(y)為F(x)的反函數(shù),若上述關(guān)系式以累積概率密度函數(shù)(Cumulative Probability Function)表示出來,可得到測試語句累積密度函數(shù)CTest(x)和訓(xùn)練語料密度函數(shù)CTrain(y)之間的關(guān)系為:

(16)

=CTrain(y)

從上式可得到將原樣本空間變換到參考分布空間的變換函數(shù)為:

(17)

值得注意的是,在實際應(yīng)用中語音特征參數(shù)為一有限集合,所以無法非常準(zhǔn)確估算實際的累積分布函數(shù),通常使用累積直方圖(Cumulative Histogram)去近似累積分布函數(shù)。

3.2.2 查表式直方圖均衡化法(Table-Based Histogram Equalization,THEQ)

THEQ[19]是一種直方圖均衡化的一種具體實現(xiàn)方法。其對于所有訓(xùn)練語料而言,將語音特征向量的每一維分量統(tǒng)計出一個累積直方圖。然后以表格方式將累積直方圖所有信息進(jìn)行存儲,用來當(dāng)做轉(zhuǎn)換的參考分布。對于測試語料語音特征向量的每一維也采用同樣的方法統(tǒng)計出累積直方圖,在進(jìn)行均衡化的過程中,進(jìn)行查表(Table-Lookup)轉(zhuǎn)換,每個區(qū)間內(nèi)特征值用先前建立好參考分布的特征值逐一取代。

不難看出,THEQ需要將龐大的表格信息加載到內(nèi)存中才能進(jìn)行轉(zhuǎn)換匹配動作,而且若要有良好的補償效果,表格所記錄的點數(shù)不能太少,但當(dāng)表格記錄點數(shù)增加時,需耗費更大量的內(nèi)存空間與進(jìn)行查表轉(zhuǎn)換的處理器運算時間。

3.2.3 分位數(shù)直方圖均衡化法(Quantile-based Histogram Equalization,QHEQ)

QHEQ是一種參數(shù)型的直方圖均衡化方法[25-26],其對于語音特征向量的每一維利用轉(zhuǎn)換函數(shù)H(x)進(jìn)行均衡化,欲使轉(zhuǎn)換后的語音特征參數(shù)的統(tǒng)計分布能夠和參考分布相似。數(shù)學(xué)關(guān)系式表示如下:

(18)

其中,x為待轉(zhuǎn)換的特征參數(shù);QK為整個語句中該維特征參數(shù)中的最大值;α和γ為轉(zhuǎn)換因子,可通過下式求得:

(19)

就是說在對于每一句話進(jìn)行均衡化前,需要進(jìn)行分位數(shù)校正,以求得最佳的參數(shù)α和γ,此校正是以最小均方誤差為準(zhǔn)則進(jìn)行的。

QHEQ雖然轉(zhuǎn)換過程不像THEQ需通過大量的查表動作, 只需使用少量的參數(shù)即可進(jìn)行等化動作, 但是對每一句待轉(zhuǎn)換的語句在進(jìn)行轉(zhuǎn)換動作前, 必須利用格式搜尋以在線實時運算求取參數(shù), 因此所需的處理器運算時間也是相當(dāng)可觀的。

傳統(tǒng)的兩種直方圖均衡化方法雖然能有效補償噪聲產(chǎn)生的非線性失真,但無論是傳統(tǒng)的查表直方圖均衡化法還是分位數(shù)直方圖均衡化法,在實現(xiàn)的過程中,需要耗費大量的存儲空間或是處理器運算時間。為了解決這個問題,Shih-Hsiang Lin等[9]提出了用數(shù)據(jù)擬合的概念求累積分布函數(shù)的反函數(shù),只需使用少量的多項式系數(shù)與多項式函數(shù),便能迅速地將測試語料語音特征向量每一維德統(tǒng)計分布轉(zhuǎn)換至先前已從訓(xùn)練語句中定義好的參考分布,不能擁有和直方圖均衡化相同的效果。

3.3 倒頻譜形狀歸一化法(Cesptral Shape Normalization)

前面介紹的歸一化方法使識別系統(tǒng)在各種噪聲環(huán)境下性能有所提升,但都存在各自的缺陷。比如直方圖均衡化HEQ需要大量的訓(xùn)練語料才能估計出比較精確的特征分布,而高階倒頻譜矩歸一化HOCMN的奇次階距很難準(zhǔn)確地估算出來。中國科技大學(xué)王仁華等提出了倒頻譜形狀歸一化法(Cesptral Shape Normalization,CSN)[28],其在一定程度上解決了這兩種方法存在的問題,同時能達(dá)到很好的魯棒效果。它僅需要估算出一個適當(dāng)?shù)男螤钜蜃?Shape Factor),而形狀因子能簡單而準(zhǔn)確地估算出來。此外,與傳統(tǒng)的歸一化方法相比,CSN有更明確的物理意義和更強(qiáng)的正對性。

CSN使用廣義高斯密度函數(shù)(Generalized Gaussian Density,GGD)[29-30]來描述噪聲環(huán)境下每一維語音特征分布,GGD的概率密度函數(shù)PDF定義如下:

(20)

其中

(21)

這里,Γ(·)為Gamma函數(shù)。

(22)

其中,參數(shù)v描述了指數(shù)衰減率。

CSN算法描述如下:

步驟1:首先

(23)

這里,x(n,k)為第n幀的第k維特征;μ(k)和σ(k)為當(dāng)前語料第k維特征序列的均值和方差。

步驟2:利用指數(shù)因子來實現(xiàn)倒頻譜形狀歸一化:

z(n,k)=[y(n,k)]α(k)

(24)

其中,α(k) 表示第k維特征對應(yīng)的形狀因子(Shape Factor)。上述公式的目的就是使處理過的特征滿足參考分布(Reference Distribution)。CSN采用了矩匹配估計(Moment Matching Estimator)方法[29]。

廣義高斯分布的r階中心距(Central Moment)定義如下:

(25)

其中,E[·]表示取均值操作。將公式(20)帶入公式(25)可得到:

(26)

廣義高斯比例函數(shù)(the Generalized Gaussian ratio Function)如下:

(27)

基于上述公式,定義如下方程:

=0

(28)

α(k),

(29)

其中,N為幀數(shù)。

顯然,α(k)是方程(25)的根。盡管方程沒有閉合解,但F(α(k))是α(k)的遞增函數(shù),可通過割線法求得。這里,有兩個參數(shù)需要設(shè)置:形狀參數(shù)v0和矩的階數(shù)r。實驗表明:v0=2和r=2就能得到比較好的實驗結(jié)果。

此外,文獻(xiàn)[28]給出了以上三種方法在Aurora2.0和3.0的識別率比較。其中,CSN的平均識別高于HEQ,HEQ高于HCOMN和CMVN。下面給出在純凈語料訓(xùn)練模型的各種歸一化方法的在語料庫Aurora2.0識別率比較,具體參數(shù)設(shè)置和其他識別結(jié)果參照文獻(xiàn)[28]。

表1 CSN和其他歸一化方法在不同測試集下的識別率比較

對特征參數(shù)概率分布的實驗表明,在有噪聲影響的情況下,特征參數(shù)通常呈現(xiàn)雙峰分布,鑒于此,中國科技大學(xué)王仁華等提出了一種新的基于雙高斯混合模型(Gaussian Mixture Model,GMM)的特征參數(shù)歸一化方法[31],以提高語音識別系統(tǒng)的魯棒性。該方法采用更為細(xì)致的雙高斯模型來表達(dá)特征參數(shù)的累積分布函數(shù)(CDF),并依據(jù)估計得到的CDF進(jìn)行參數(shù)變換將訓(xùn)練和識別時的特征參數(shù)的分布都?xì)w正為標(biāo)準(zhǔn)高斯分布,從而提高識別率。在Aurora 2和Aurora 3數(shù)據(jù)庫上的實驗結(jié)果表明,基于雙高斯的歸一化方法的性能明顯好于傳統(tǒng)的倒譜均值歸一化(CMN)和倒譜均值方差歸一化方法(CMVN),而與非參數(shù)化方法—直方圖均衡化的性能相當(dāng)。

3.4 調(diào)頻譜歸一化法(Modulation Spectrum Normalization)

上述介紹的方法是對語音特征的概率分布及統(tǒng)計特性進(jìn)行歸一化,除此以外,還可以修正語音特征的功率頻譜密度(Power Spectral Density,PSD)函數(shù)[33-34],將其歸一化至一參考的PSD,以得到新的語音特征參數(shù),來降低噪聲對語音的影響。

調(diào)頻譜(Modulation Spectrum)的概念首先是由Houtgast 和 Steeneken提出的[32],語音信號的調(diào)頻的含義和通信系統(tǒng)中的幅度調(diào)制類似。由于語音信號是寬帶信號,往往對其頻譜劃分為若干個頻帶再進(jìn)行后續(xù)處理。每個頻帶內(nèi)信號的能量包絡(luò)稱為該帶寬的調(diào)制信號,這個調(diào)制信號的功率頻譜密度函數(shù)(PSD)就是調(diào)頻譜。需要強(qiáng)調(diào)的是,調(diào)頻譜不僅適用于原始語音信號,同樣適用于倒頻譜系數(shù)。

3.5 時間序列結(jié)構(gòu)歸一化法(Temporal Structure Normalization,TSN)

新加坡大學(xué)李海洲等,提出了一套時間序列濾波器設(shè)計的新方法,稱為時間序列結(jié)構(gòu)歸一化法[33],是調(diào)頻譜正規(guī)化法的一種典型的實現(xiàn)方法。其此目的在于將語音特征序列的功率譜密度歸一化,使其輪廓逼近于一參考功率頻譜密度?;贏URORA-2數(shù)據(jù)庫,實驗結(jié)果表明:當(dāng)此方法所得的時間序列濾波器作用于CMVN與MVA處理后的梅爾倒譜特征參數(shù)時,在各種噪聲環(huán)境下所得的語音識別率都有大幅度改進(jìn)。

TSN具體實現(xiàn)方法如下,可參見圖7:

圖7 TSN原理圖

(1) 估計每一句訓(xùn)練語料和測試語料的第j維特征序列的功率頻譜密度(PSD),分別記作Ptest(k,j)和Ptrain(k,j)。然后,將訓(xùn)練語料所有句子同一維的PDS作平均,所得即為參考PDS。

Pref(k,j)=E{Ptrain(k,j)}

(30)

(2) TNS使用濾波器的幅度響應(yīng)定義如下:

(31)

(3) 進(jìn)一步求取該濾波器的脈沖響應(yīng)(Impulse Response),即對上式的|H(k,j)|進(jìn)行逆離散傅立葉變換(IDFT):

h(τ,j)=IDFT(|H(k,j)|)

(32)

(4) 對上述濾波器系數(shù)乘以漢寧窗(Hanning Window)以較少截斷效應(yīng):

(τ,j)=h(τ,j)·w(τ)

(33)

其中:

(34)

0≤m≤M-1

(5) 將濾波器系數(shù)總和歸一化為1,以達(dá)到直流增益歸一化的目的:

τ,

(35)

TSN法對語音特征具有較好的魯棒化效果,且執(zhí)行復(fù)雜度極低,但仍有待改進(jìn)之處,首先TSN所得的初始濾波器系數(shù)是參考頻率響應(yīng)的逆函數(shù)求得,然后將這些系數(shù)乘上一個漢寧窗以減緩不當(dāng)高頻成分產(chǎn)生,此求取濾波器的方法未必是最佳化的,所得濾波器系數(shù)的頻率響應(yīng)與參考頻率響應(yīng)之間誤差較大;其次,在TSN法中,濾波器系數(shù)和被歸一化為1,代表直流增益為一定值,此步驟使歸一化的特征參數(shù)的功率頻譜密度并不一定接近參考功率頻譜密度,只是輪廓上大致相同;最后,TSN是在MVA處理后的基礎(chǔ)上再對梅爾倒譜系數(shù)進(jìn)行處理,進(jìn)而得到良好的效果,但單獨使用改進(jìn)效果并不明顯。

鑒于TSN存在的一些問題,國立暨南國際大學(xué)電機(jī)工程學(xué)系王致程等進(jìn)而探討發(fā)展出了更精確更有效的調(diào)頻譜歸一化技術(shù),提出了三種新方法分別為等波紋時間序列濾波器設(shè)計法(Equi-Ripple Temporal Filtering,ERTF)、最小平方頻譜擬合法(Least-Squares Spectrum Fitting,LSSF)以及幅度頻譜內(nèi)插法(Magnitude Spectrum Interpolation,MSI)[35],實驗結(jié)果表明ERTF、LSSF以及MSI法與傳統(tǒng)的TSN相比在各種不同的噪聲環(huán)境下識別率均有明顯提升,且并不需要與MVN或MVA法結(jié)合,也能有效處理梅爾倒譜特征因噪聲干擾所造成的失真。然而當(dāng)它們與MVN或MVA法結(jié)合時,也可以得到更加的識別準(zhǔn)確度。

4 總結(jié)

本文介紹了目前基于語音特征歸一化來實現(xiàn)魯棒語音識別的主要技術(shù),主要是倒頻譜矩歸一化法、直方圖均衡化方法、調(diào)頻譜歸一化方法以及它們的改進(jìn)算法。這些算法都有各自的優(yōu)勢和待改進(jìn)的地方,但總體來講,它們都能在一定程度上消除或補償了噪聲帶來的環(huán)境不匹配,較大幅度地提高識別器的性能。在實際應(yīng)用中要根據(jù)具體需要,選用不同的歸一化方法。此外,特征歸一化技術(shù)還可以和一些后端處理技術(shù)相結(jié)合,如聲學(xué)模型自適應(yīng)技術(shù)(Model Adaptation)[36-37]和不確定譯碼(Uncertainty Decoding)[38-41]等,達(dá)到更好的補償效果,進(jìn)而更有效地提高識別系統(tǒng)的性能。

[1] Y. F. Gong. Speech recognition in noisy environments: A survey [J]. Speech Communication, 1995, 16: 261-291.

[2] S. Boll. Suppression of acoustic noise in speech using spectral subtraction [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1979, 27 (2): 113-120.In: Proceedings of IEEE International Conference on Acoustics, Acoustics and Signal Processing

[3] K. Paliwal and A. Basu. A speech enhancement method based on Kalman filtering [C]//Proceedings of 1987 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Dallas, Texas, USA,1987:177-180.

[4] Y. Ephraim and H. L. Van Trees. A signal subspace approach for speech enhancement [C]//Proceedings of 1993 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Minneapolis, MN, USA,1993:355-358.

[5] H. Lev-Ari, Y. Ephraim. Extension of the signal subspace speech enhancement approach to colored noise [J]. IEEE Signal Processing Letters, 2003, 10 (4): 104-106.

[6] S. Furui. Cepstral analysis technique for automatic speaker verification [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 1981,29(2): 254-272.

[7] O. Viikki and K. Laurila. Cepstral Domain Segmental Feature Vector Normalization for Noise Robust Speech Recognition [J]. Speech Communication, 1998,25:133-147.

[8] A. de la Torre, A. M. Peinado, J. C. Segura et al. Histogram equalization of speech representation for robust speech recognition [J]. IEEE Transactions on Acoustics, Speech and Signal Processing, 2005,13(3):355-366.

[9] S. H. Lin, Y. M. Yeh, and B. Chen. A Comparative Study of HEQ for Robust speech recognition [J]. International Journal of Computational Linguistics and Chinese Language Processing, 2007, 12 (2): 217-238.

[10] J. L. Gauvain and C. H. Lee. Maximum a posteriori estimation for multivariate Gaussian mixtureobservations of Markov chains [J]. IEEE Transactions on Speech and Audio Processing, 1994, 2 (2): 291-298.

[11] C. J. Leggetter and P. C. Woodland. Maximum Likelihood Linear Regression for Speaker Adaptation of Continuous Density Hidden Markov Models [J]. Computer Speech and Language, 1995, 9 (4): 806-814.

[12] J. Droppo. Noise Robust Automatic Speech Recognition[DB/OL].http://www.e eurasip.org/Proceedings//Eusipco/Eusipco2008/tutorials/tutorial_3_droppo.pdf, 2008-08-15.

[13] R. Togneri, A. M. Toh and S. Nordholm. Evaluation and Modification of Cepstral Moment Normalization for Speech Recognition in Additibe Babble Ensemble [C]//Proceedings of the 11th Australian International Conference on Speech Science & Technology. New Zealand,2006: 94-99.

[14] H.G. Hirsch and D. Pearce. The Aurora Experimental Framework for the Performance Evaluation of Speech recognition [C]//Proceedings of ISCA ITRW ASR2000. Paris, France,2000: 181-188.

[15] A. Acero and X. Huang. Augmented Cepstral Normalization for Robust Speech Recognition [C]//Proc. of IEEE Automatic Speech Recognition Workshop. Snowbird, Utah, USA: 1995.

[16] P. Jain and H. Hermansky. Improved mean and variance normalization for robust speech recognition [C]//Proceedings of 2001 IEEE International Conference on Acoustics, Acoustics and Signal Processing . Salt Lake City, Utah,USA: 2001.

[17] C. W. Hsu and L. S. Lee. Higher order cepstral moment normalization (HOCMN) for robust speech recognition [C]//Proceedings of 2004 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Montreal, Canada: 2004: 197-200.

[18] Y. H. Suk, S. H. Choi and H. S. Lee. Cepstrum third-order normalisation method for noisy speech recognition [J]. IEEE Electronics Letters, 35(7): 527-528.

[19] S. Dharanipragada and M. Padmanabhan. A nonlinear unsupervised adaptation technique for speech recognition [C]//Proceedings of The 6th International Conference on Spoken Language Processing. Beijing, China,2000: 556-559.

[20] A. de la Torre, J. C. Segura, C. Benitez et al. Non-linear transformations of the feature space for robust speech recognition [C]//Proceedings of 2002 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Orlando, FL, USA,2002: 401-404.

[21] S. Molau, D. Keysers and H. Ney. Matching training and test data distributions for robust speech recognition [J]. Speech Communication, 2003, 41(4): 579-601.

[22] C. Y. Wan and L. S. Lee. Joint Uncertainty Decoding (JUD) with Histogram-Based Quantization (HQ) for Robust and/or Distributed Speech Recognition [C]//Proceedings of 2006 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Toulouse, France,2006: 125-128.

[23] C. Y. Wan and L. S. Lee. Histogram-based quantization (HQ) for robust and scalable distributed speech recognition [C]//Proceeding of 9th European Conference on Speech Communication and Technology. Lisbon, Portugal,2005: 957-960.

[24] M. Skosan and D. Mashao. Matching feature distributions for robust speaker verification [C]//Proceedings of Annual Symposium of Pattern Recognition Association of South Africa. Grabouw, South Africa,2004: 93-97.

[25] F. Hilger and H. Ney. Quantile Based Histogram Equalization for Noise Robust Speech Recognition [C]//Proceedings of the 7th European Conference on Speech Communication and Technology. Aalborg, Denmark,2001: 1135-1138.

[26] F. Hilger, S. Molau and H. Ney. Quantile Based Histogram Equalization For Online Applications [C]//Proceedings of the 7th International Conference on Spoken Language Processing. Denver, Colorado, USA,2002: 237-240.

[27] F. Hilger and H. Ney. Quantile based histogram equalization for noise robust large vocabulary speech recognition [J]. IEEE Transactions on Acoustics, Speech and Signal Processing,2006,14(3):845-854.

[28] J. Du and R. H. Wang. Cepstral shape normalization (CSN) for robust speech recognition [C]//Proceedings of 2008 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Las Vegas, NV, USA,2008: 4389-4392.

[29] S. Gazor and W. Zhang. Speech probability distribution [J]. IEEE Signal Processing Letters, 2003, 10 (7): 204-207.

[30] K. Kokkinakis and A. K. Nandi. Speech Modelling Based On Generalized Gaussian Probability Density Functions [C]//Proceedings of 2005 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Philadelphia, USA,2005: 381-384.

[31] B. Liu, L. R. Dai et al. Double Gaussian based feature normalization for robust speech recognition [C]//Proceedings of 4th International Symposium on Chinese Spoken Language Processing. Hong Kong, China,2004: 253-256.

[32] T. Houtgast and H. J. M. Steeneken. A review of the MTF concept in room acoustics and its use for estimating speech intelligibility in auditoria [J]. The Journal of the Acoustical Society of America, 1985, 77 (3): 1069-1077.

[33] X. Xiao, E. S. Chng and H. Li. Temporal Structure Normalization of Speech Feature for Robust Speech Recognition [J]. IEEE Signal Processing Letters, 2007, 14 (7): 500-503.

[34] X. Xiao, E. S. Chng and H. Li. Normalizing the speech modulation spectrum for robust speech recognition [C]//Proceedings of 2007 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Honolulu, HI, USA,2007: 1520-6149.

[35] C. A. Pan, C. C. Wang and J. W. Hung. Improved modulation spectrum normalization techniques for robust speech recognition [C]//Proceedings of 2008 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Las Vegas, NV, USA,2008: 4089-4092.

[36] M. Matassoni, M. Omologoand and D. Giuliani. Hands-free speech recognition using a filtered clean corpus and incremental HMM adaptation [C]//Proceedings of 2000 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Istanbul, Turkey,2000: 1407-1410.

[37] M.G. Rahimand and B.H. Juang. Signal bias removal by maximum likelihood estimation for robust telephone speech recognition [J]. IEEE Transactions on Speech and Audio Processing, 1996,4(1):19-30.

[38] J. Droppo, A. Acero and L. Deng. Uncertainty decoding with SPLICE for noise robust speech recognition [C]//Proceedings of 2002 IEEE International Conference on Acoustics, Acoustics and Signal Processing. Orlando, Florida,2002: 57-60.

[39] H. Liao and M. J. F. Gales. Joint uncertainty decoding for noise robust speech recognition [C]//Proceedings of The 9th European Conference on Speech Communciation and Technology. Lisbon, Portugal,2005: 3129-3132.

[40] H. Liao and M.J.F. Gales. Issues with uncertainty decoding for noise robust automatic speech recognition [J]. Speech Communication, 2008, 50 (4): 265-277.

[41] V. Stouten, H. Van hammeand and P. Wambacq. Model-based feature enhancement with uncertainty decoding for noise robust ASR [J]. Speech Communication, 2006, 48 (11): 502-1514.

猜你喜歡
均衡化特征參數(shù)直方圖
符合差分隱私的流數(shù)據(jù)統(tǒng)計直方圖發(fā)布
冕洞特征參數(shù)與地磁暴強(qiáng)度及發(fā)生時間統(tǒng)計
基于FPGA的直方圖均衡圖像增強(qiáng)算法設(shè)計及實現(xiàn)
基于交通特征參數(shù)預(yù)測的高速公路新型車檢器布設(shè)方案研究
用直方圖控制畫面影調(diào)
基于數(shù)字圖像直方圖均衡化改進(jìn)算法的設(shè)計研究①
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
基于視頻的車輛特征參數(shù)算法研究
中考頻數(shù)分布直方圖題型展示
制度變遷是資源均衡化的關(guān)鍵
东港市| 大厂| 岫岩| 友谊县| 德兴市| 永修县| 孟州市| 潜山县| 乌兰察布市| 句容市| 图片| 乐平市| 绵阳市| 阿鲁科尔沁旗| 基隆市| 都昌县| 隆安县| 红原县| 达孜县| 鲁甸县| 白河县| 玉田县| 柞水县| 西吉县| 榆林市| 商洛市| 海原县| 巧家县| 松滋市| 宁化县| 北辰区| 息烽县| 云浮市| 马鞍山市| 讷河市| 耒阳市| 布尔津县| 明溪县| 伊宁县| 长丰县| 老河口市|