国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多窗頻譜估計(jì)的PLAR特征提取*

2014-11-22 02:03:54聰,白
關(guān)鍵詞:特征參數(shù)個(gè)數(shù)特征提取

尹 聰,白 靜

(太原理工大學(xué) 信息工程學(xué)院 山西 太原 030024)

0 引言

說(shuō)話(huà)人識(shí)別主要包含兩個(gè)階段,特征提取和模式識(shí)別.特征提取的過(guò)程,實(shí)際上是去除原來(lái)語(yǔ)音中的冗余信息,減小數(shù)據(jù)量的過(guò)程[1].因此,如何提取能夠充分表征說(shuō)話(huà)人個(gè)性信息的特征參數(shù)一直是說(shuō)話(huà)人識(shí)別面臨的最大問(wèn)題之一.

說(shuō)話(huà)人識(shí)別系統(tǒng)常用的特征參數(shù)有:LPC,LPCC及MFCC 等,但這些參數(shù)的應(yīng)用都受到各種因素的制約,如說(shuō)話(huà)人周?chē)h(huán)境中噪音的干擾,以及說(shuō)話(huà)人情緒、健康狀況等自身因素的影響.此外,隨著時(shí)間和年齡的變化,這些特征參數(shù)也會(huì)隨之發(fā)生變化,從而影響說(shuō)話(huà)人識(shí)別系統(tǒng)的穩(wěn)定性.近幾年,有學(xué)者提出將感知對(duì)數(shù)面積比系數(shù)(Perceptual Log Area Ratio,PLAR)[2-3]特征參數(shù)應(yīng)用于說(shuō)話(huà)人識(shí)別系統(tǒng),該特征從人類(lèi)聽(tīng)覺(jué)感知機(jī)理出發(fā),運(yùn)用聽(tīng)覺(jué)心理學(xué)概念表征說(shuō)話(huà)人的個(gè)性特征,具有維數(shù)低,運(yùn)算速率快,抗噪性能強(qiáng)等特點(diǎn),是一種穩(wěn)健的特征參數(shù).在噪音環(huán)境下,其說(shuō)話(huà)人辨認(rèn)系統(tǒng)的性能明顯優(yōu)于傳統(tǒng)特征參數(shù)MFCC的系統(tǒng);但在說(shuō)話(huà)人確認(rèn)系統(tǒng)中,其系統(tǒng)性能卻隨著信噪比的增大而急速下降.因?yàn)樵谠撎卣鞯奶崛≈?,采用固定窗的短時(shí)傅里葉變換(Discrete Fourier Transform,DFT)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,獲得信號(hào)的頻譜信息,這種短時(shí)加窗處理的頻譜估計(jì)方法導(dǎo)致了計(jì)算誤差的產(chǎn)生[4],雖然PLAR 參數(shù)在純凈語(yǔ)音環(huán)境下具有較好的識(shí)別性能,但在噪音的干擾下,說(shuō)話(huà)人確認(rèn)系統(tǒng)的性能卻急劇下降.T.Kinnunen[5]等人提出具有魯棒性的多窗頻譜估計(jì)(Multitaper Spectrum Estimate,MSE).多窗頻譜估計(jì)(Multitapering[6-8])通過(guò)采用多個(gè)窗函數(shù)對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜分析,將各個(gè)獨(dú)立的子頻譜估計(jì)進(jìn)行加權(quán)平均,作為該語(yǔ)音信號(hào)最終的頻譜估計(jì).

本文著眼于特征提取中的前端處理,提出一種基于Multitapering的PLAR 特征提取方法,改進(jìn)了PLAR 提取過(guò)程中對(duì)語(yǔ)音信號(hào)的預(yù)處理,通過(guò)Multitapering獲得語(yǔ)音信號(hào)的頻譜估計(jì).由于該方法對(duì)信號(hào)的頻譜估計(jì)方差更小,減小了噪音對(duì)信號(hào)頻譜的影響,因此通過(guò)該頻譜估計(jì)方法獲得的頻譜分析可以更好地反應(yīng)說(shuō)話(huà)人的聲道結(jié)構(gòu),繼而可以獲得更加穩(wěn)定的特征參數(shù),簡(jiǎn)稱(chēng)MTPLAR.實(shí)驗(yàn)結(jié)果表明:與傳統(tǒng)的DFT 相比,該頻譜估計(jì)法對(duì)信號(hào)的頻譜分析更加準(zhǔn)確,在噪音環(huán)境下,基于新特征參數(shù)的系統(tǒng)性能比PLAR的系統(tǒng)有明顯的提高.

圖1 Multitapering的實(shí)現(xiàn)框圖Fig.1 Flow diagram of Multitapering

1 多窗頻譜估計(jì)

多窗頻譜估計(jì)采用具有不同權(quán)值的多個(gè)窗函數(shù),用頻域的平均值來(lái)獲得信號(hào)的頻譜估計(jì),該方法是對(duì)傳統(tǒng)加權(quán)的DFT 的一種擴(kuò)展.多窗頻譜估計(jì)法曾被用在語(yǔ)音增強(qiáng)方面[9],最進(jìn)幾年才被引入說(shuō)話(huà)人識(shí)別領(lǐng)域[5-6,10],并在頻譜泄露及頻譜估計(jì)方差方面都體現(xiàn)出優(yōu)于DFT 的特性[11-12].

Multitapering 的定義如下:

式中:K為窗的個(gè)數(shù);wj(t)為窗函數(shù);λ(j)為第j個(gè)窗函數(shù)的對(duì)應(yīng)權(quán)值;N為語(yǔ)音幀的個(gè)數(shù).其中j=1,…,K;t=0,…,N-1.加權(quán)的DFT 是一種特殊情況,即K=1,λ=1.

Multitapering的具體實(shí)現(xiàn)如圖1 所示[5],多窗頻譜估計(jì)方法利用多個(gè)相互獨(dú)立的窗函數(shù)對(duì)信號(hào)進(jìn)行頻譜分析,并最終產(chǎn)生幅度上存在微小差別的多個(gè)子頻譜,這些子頻譜的加權(quán)平均值構(gòu)成了信號(hào)的最終頻譜.由于頻譜之間的平均減小了對(duì)整個(gè)信號(hào)頻譜估計(jì)的方差,因此與傳統(tǒng)的單一窗函數(shù)的估計(jì)方法相比,該方法獲得的信號(hào)頻譜對(duì)噪音的敏感性更弱.

由Multitapering 的定義式可以看出,有兩個(gè)因素需要確定,即窗函數(shù)及其對(duì)應(yīng)的權(quán)值.窗函數(shù)包括三種類(lèi)型:Thomson[7],Sine[8]和 Multipeak[12].在倒譜分析中,Sine 窗用于尋求最優(yōu)的權(quán)重值[13].不同類(lèi)型的窗函數(shù)適用于不同類(lèi)型的隨機(jī)過(guò)程(假設(shè)信號(hào)服從某種隨機(jī)過(guò)程).例如,Thomson窗函數(shù)適用于頻譜平坦的信號(hào)(白噪聲),而Multipeak 窗函數(shù)更適合于對(duì)帶峰值頻譜信號(hào)的分析(例如語(yǔ)音信號(hào)).總之,窗函數(shù)的選擇是為了使不同子頻譜的估計(jì)誤差之間近似不相關(guān),從而降低頻譜估計(jì)的方差值.

本文研究了對(duì)于不同窗個(gè)數(shù)的情況,SWCE(Sine-Weighted Cepstrum Estimator),Thomson以及Multipeak 三種多窗頻譜估計(jì)方法對(duì)一幀語(yǔ)音信號(hào)的頻譜估計(jì)性能,并與傳統(tǒng)漢明(Hamming)窗的DFT 進(jìn)行對(duì)比分析,結(jié)果如圖2所示.

圖2 不同類(lèi)型窗函數(shù)的頻譜估計(jì)圖Fig.2 Diagrams of spectrum estimation with different type of window functions

由圖2 可知,與Hamming窗的DFT 方法相比,三種多窗頻譜估計(jì)法獲得的頻譜結(jié)構(gòu)更加平滑,主要是因?yàn)镸ultitapering 減小了對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜估計(jì)的方差值.三種Mulitapering相比,Thomson產(chǎn)生類(lèi)階梯狀的頻譜結(jié)構(gòu),Multipeak獲得具有比較清晰的峰值的頻譜結(jié)構(gòu),而SWCE產(chǎn)生的頻譜結(jié)構(gòu)更加平滑,是以上兩種方法的一種折中.此外,頻譜估計(jì)的性能也會(huì)受到窗個(gè)數(shù)選擇的影響,當(dāng)窗個(gè)數(shù)比較少時(shí)(如K≤4),三種Multitapering都保留了諧波(由聲源產(chǎn)生)及譜包絡(luò)(由聲道結(jié)構(gòu)產(chǎn)生)的信息;但當(dāng)窗個(gè)數(shù)較多(如K≥12)時(shí),頻譜中的諧波成分便會(huì)消失,即反應(yīng)聲源的信息便會(huì)被忽略,因此窗個(gè)數(shù)的選擇很大程度上取決于具體的應(yīng)用環(huán)境.對(duì)于說(shuō)話(huà)人的識(shí)別,聲源和聲道的信息都不同程度地表征了說(shuō)話(huà)人的個(gè)性特征.因此,為了充分體現(xiàn)說(shuō)話(huà)人的個(gè)性信息,應(yīng)選擇相對(duì)較少的窗函數(shù)來(lái)估計(jì)語(yǔ)音信號(hào)的頻譜結(jié)構(gòu).

2 基于Multitapering 的PLAR 特征提取

假設(shè)x=[x(0)…x(N-1)]T表示一幀語(yǔ)音信號(hào),DFT 是信號(hào)處理中廣泛應(yīng)用的頻譜估計(jì)方法,其頻譜估計(jì)如式(2)所示.

式中:f∈{0,1,…,N-1}為離散頻域的序列;w=[w(0)…w(N-1)]T為Hamming 窗函數(shù).

從統(tǒng)計(jì)學(xué)角度看,Hamming窗雖然減小了頻譜估計(jì)的均值,但仍具有很大方差,說(shuō)明通過(guò)傳統(tǒng)單一窗函數(shù)的方法估計(jì)的頻譜波動(dòng)性較大,從而導(dǎo)致最終的特征參數(shù)穩(wěn)定性變差.因此,為了解決傳統(tǒng)方法中頻譜估計(jì)穩(wěn)定性差的問(wèn)題,本文將Multitapering方法應(yīng)用到PLAR的提取中,在語(yǔ)音信號(hào)預(yù)處理過(guò)程,采用Multitapering替代傳統(tǒng)的DFT,對(duì)信號(hào)進(jìn)行頻譜估計(jì);再對(duì)頻譜進(jìn)行PLAR特征參數(shù)的提取,從而獲得新的特征參數(shù)MTPLAR.其提取過(guò)程如圖3 所示.

圖3 MTPLAR的提取過(guò)程Fig.3 Extraction process of MTPLAR

MTPLAR參數(shù)的提取過(guò)程如下:

1)對(duì)語(yǔ)音信號(hào)進(jìn)行頻譜估計(jì),利用Multitapering方法得到其頻譜S(ω),進(jìn)而獲得其功率譜.

2)對(duì)功率譜進(jìn)行Bark域的轉(zhuǎn)換,其公式為

式中:ω為角頻率;Ω為Bark域角頻率.對(duì)變換后的功率譜進(jìn)行臨界帶譜分析,得到臨界帶的功率譜

式中:Ψ(Ω)為臨界帶曲線(xiàn)[14].

3)采樣后的Θ[Ω(ω)]用模擬的等響曲線(xiàn)進(jìn)行預(yù)加重,

函數(shù)E(ω)是對(duì)不同頻率不等的人類(lèi)聽(tīng)覺(jué)敏感度的一個(gè)近似估計(jì),模擬了聲強(qiáng)為40dB 的聽(tīng)覺(jué)敏感度.

4)對(duì)Ξ[Ω(ω)]的立方根的幅值進(jìn)行壓縮,其計(jì)算公式為

5)對(duì)Φ(Ω)進(jìn)行IDFT 變換,得到其自相關(guān)函數(shù),使用萊文遜-杜賓遞推算法求得PLP 系數(shù).若將聲道視為由多個(gè)不同剖面面積、相等長(zhǎng)度的聲管串聯(lián)而成的系統(tǒng),則MTPLAR系數(shù)為相鄰兩個(gè)聲管剖面面積比.MTPLAR系數(shù)與PLP系數(shù)之間的關(guān)系為

式中:Ai為第i個(gè)聲管的剖面面積;αi為第i階PLP 系數(shù);為第i階PLP 模型的第i個(gè)系數(shù).

3 實(shí)驗(yàn)與分析

實(shí)驗(yàn)數(shù)據(jù)來(lái)源于自錄語(yǔ)音庫(kù),該語(yǔ)音庫(kù)是在安靜的實(shí)驗(yàn)室環(huán)境下錄制的純凈語(yǔ)音,語(yǔ)音信號(hào)的采樣頻率為8kHz,采樣精度為16bit,單聲道錄音.語(yǔ)音庫(kù)包含80個(gè)說(shuō)話(huà)人,男、女各40人,訓(xùn)練語(yǔ)音長(zhǎng)度為30s,測(cè)試語(yǔ)音長(zhǎng)度為10s.

為了測(cè)試本文提出的MTPLAR特征參數(shù)的魯棒性,實(shí)驗(yàn)中采用三種Multitapering 方法,Thomson,Multipeak 以及SWCE,提取了20 維MTPLAR特征參數(shù).采用GMM 模型來(lái)建模,對(duì)基于MTPLAR特征的說(shuō)話(huà)人確認(rèn)系統(tǒng)進(jìn)行識(shí)別性能的測(cè)試,并與基于傳統(tǒng)DFT 方法提取的PLAR特征的基線(xiàn)系統(tǒng)進(jìn)行對(duì)比分析.首先,研究了在純凈語(yǔ)音下Multitapering方法中窗個(gè)數(shù)對(duì)系統(tǒng)性能的影響,對(duì)基于三種Multitapering方法的MTPLAR特征參數(shù)的說(shuō)話(huà)人確認(rèn)系統(tǒng)的識(shí)別性能進(jìn)行了對(duì)比分析,結(jié)果如圖4 所示.

由圖4 可以看出,當(dāng)窗個(gè)數(shù)4≤K≤8 時(shí),通過(guò)三種Multitapering 方法提取的特征系統(tǒng)的EER 均低于基線(xiàn)系統(tǒng).由此可以說(shuō)明,Multitapering方法對(duì)信號(hào)的頻譜分析優(yōu)于傳統(tǒng)的DFT,但其頻譜估計(jì)性能會(huì)受到窗個(gè)數(shù)的影響.實(shí)驗(yàn)證明:對(duì)于Thomson,當(dāng)K=4 時(shí),系統(tǒng)的性能最佳;SWCE 及Multipeak 最佳性能對(duì)應(yīng)的窗個(gè)數(shù)為8.

圖4 不同窗個(gè)數(shù)下,Multitapering的性能比較Fig.4 Comparison of Multitapering performance with different number of window functions

其次,研究了在噪音環(huán)境下,MTPLAR特征參數(shù)的魯棒性.實(shí)驗(yàn)選取噪音庫(kù)NOISEX-92[15]中的Factory 噪聲.噪聲按信噪比SNR為0dB,5dB,15dB,20dB 分別添加到干凈語(yǔ)音中.實(shí)驗(yàn)中,Thomson,SWCE 以及Multipeak 的窗個(gè)數(shù)分別為4,8,12,結(jié)果如表1所示.由表1可以看出,使用Multitapering改進(jìn)后的MTPLAR特征參數(shù)系統(tǒng)的EER均小于PLAR參數(shù),說(shuō)明此改進(jìn)方法可以有效提高說(shuō)話(huà)人確認(rèn)系統(tǒng)的識(shí)別性能.在純凈環(huán)境下,SWCE 表現(xiàn)最佳;在不同信噪比下,3種方法的識(shí)別性能不同.

表1 不同信噪比情況下新特征的識(shí)別性能Tab.1 Recognition performance of the new feature under different SNR

4 結(jié)束語(yǔ)

本文通過(guò)改進(jìn)前端處理的頻譜估計(jì)方法,提出了一種基于Multitapering 的PLAR 特征提取方法.由于該方法可以對(duì)信號(hào)進(jìn)行更加穩(wěn)定的頻譜分析,故由此獲得的特征參數(shù)也具有更加魯棒的特性.實(shí)驗(yàn)結(jié)果表明:窗個(gè)數(shù)的選擇對(duì)該頻譜估計(jì)方法的性能產(chǎn)生了很大的影響,不同類(lèi)型的窗函數(shù)對(duì)應(yīng)不同的最佳窗個(gè)數(shù).在噪音環(huán)境下,本文方法獲得的MTPLAR參數(shù)比傳統(tǒng)PLAR 方法在系統(tǒng)的識(shí)別性能方面得到了明顯的提高,同時(shí)也體現(xiàn)出了良好的抗噪性能.但本文并未對(duì)所有種類(lèi)的噪聲進(jìn)行實(shí)驗(yàn)分析,故該方法是否對(duì)噪聲類(lèi)型具有穩(wěn)定性仍需要進(jìn)一步研究.

[1]王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2000:265-266.

[2]Chow D,Abdulla W H.Robust speaker identification based on perceptual log area ratio and gaussian mixture models[C].Proceedings of the 2004-ICSLP,Jeju Island,South Korea.USA:IEEE,2004:1761-1764.

[3]李燕萍,唐振民,錢(qián)博,等.基于PLAR 特征補(bǔ)償?shù)聂敯粜哉f(shuō)話(huà)人識(shí)別仿真研究[J].系統(tǒng)仿真學(xué)報(bào),2009,21(2):409-412.Li Yanping,Tang Zhenmin,Qian Bo,et al.Robust speaker recognition based on PLAR features compensation transformation and its simulation study[J].Journal of System Simulation,2009,21(2):409-412.(in Chinese)

[4]Percival D B,Walden A T.Spectral Analysis for Physical Application [M].Cambridge University Press,1993.

[5]Kinnunen T,Saeidi R,Sandberg J,et al.What else is new than the Hamming window robust MFCCs for speaker recognition via multitapering[C].In Proc.Interspeech,2010:2734-2737.

[6]Sandberg J,Hansson-Sandsten M,Kinnunen T,et al.Multitaper estimation of frequency-warped cepstra with application to speaker verification[J].IEEE Signal Processing Letters,2010,17(4):343-346.

[7]Thomson D J.Spectrum estimation and harmonic analysis[J].Proc.of the IEEE,1982,70(9):1055-1096.

[8]Riedel K S,Sidorenko A.Minimum bias multipletaper spectral estimation[J].IEEE Trans.on Signal Proc.,1995,43(1):188-195.

[9]Hu Y,Loizou P.Speech enhancement based on wavelet thresholding the multitaper spectrum[J].IEEE Trans.On Speech and Audio Proc.,2004,12(1):59-67.

[10]Kinnunen T,Saeidi R,Sedlak F,et al.Low-variance multitaper MFCC features:A case study in robust speaker verification[J].IEEE Transactions on Audio,Speech and Language Processing,2012,20(7):1990-2001.

[11]Hansson M.Optimized weighted averaging of peak matched multiple window spectrum estimates[J].IEEE Trans.on Signal Processing,1999,47(4):1141-1146.

[12]Hansson M,Salomonsson G.A multiple window method for estimation of peaked spectra[J].IEEE Trans.on Signal Processing,1997,45(3):778-781.

[13]Hansson-Sandsten M,Sandberg J.Optimal cepstrum estimation using multiple windows[C].IEEE Intemational Conference on Acoustics,Speech and Signal Processing,2009:3077-3080.

[14]Hermansky H.Perceptual linear predictive(PLP)analysis of speech[J].Journal of Acoustical Society of America,1990,87:1738-1752.

[15]Varga A P,Steeneken H J M,Tomlinson M,et al.The noisex-92study on the effect of addictive noise on automatic speech recognition[R].Technical Report.Malvern UK:Speech Research Unit,Defense Research Agency,1992.

猜你喜歡
特征參數(shù)個(gè)數(shù)特征提取
故障診斷中信號(hào)特征參數(shù)擇取方法
怎樣數(shù)出小正方體的個(gè)數(shù)
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
等腰三角形個(gè)數(shù)探索
怎樣數(shù)出小木塊的個(gè)數(shù)
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
怎樣數(shù)出小正方體的個(gè)數(shù)
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
Bagging RCSP腦電特征提取算法
統(tǒng)計(jì)特征參數(shù)及多分類(lèi)SVM的局部放電類(lèi)型識(shí)別
吉林市| 云南省| 绥滨县| 宁武县| 洪雅县| 雅安市| 江源县| 黄石市| 宜兰县| 肥城市| 犍为县| 浦东新区| 炎陵县| 同德县| 连山| 油尖旺区| 克东县| 新野县| 江陵县| 大洼县| 阳原县| 商南县| 湘阴县| 锡林浩特市| 太原市| 革吉县| 枞阳县| 蒙自县| 逊克县| 桑植县| 泾阳县| 浙江省| 资中县| 萝北县| 郯城县| 岑溪市| 宜州市| 连城县| 延吉市| 平顺县| 邻水|