国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

說(shuō)話人識(shí)別中基于Fisher比的特征組合方法

2016-05-14 10:37:23謝小娟曾以成熊冰峰
計(jì)算機(jī)應(yīng)用 2016年5期

謝小娟 曾以成 熊冰峰

摘要:為了提高說(shuō)話人識(shí)別的準(zhǔn)確率,可以同時(shí)采用多個(gè)特征參數(shù),針對(duì)綜合特征參數(shù)中各維分量對(duì)識(shí)別結(jié)果的影響可能不一樣,同等對(duì)待并不一定是最優(yōu)的方案這個(gè)問(wèn)題,提出基于Fisher準(zhǔn)則的梅爾頻率倒譜系數(shù)(MFCC)、線性預(yù)測(cè)梅爾倒譜系數(shù)(LPMFCC)、Teager能量算子倒譜參數(shù)(TEOCC)相混合的特征參數(shù)提取方法。首先,提取語(yǔ)音信號(hào)的MFCC、LPMFCC和TEOCC三種參數(shù);然后,計(jì)算MFCC和LPMFCC參數(shù)中各維分量的Fisher比,分別選出六個(gè)Fisher比高的分量與TEOCC參數(shù)組合成混合特征參數(shù);最后,采用TIMIT語(yǔ)音庫(kù)和NOISEX92噪聲庫(kù)進(jìn)行說(shuō)話人識(shí)別實(shí)驗(yàn)。仿真實(shí)驗(yàn)表明,所提方法與MFCC、LPMFCC、MFCC+LPMFCC、基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法以及基于主成分分析(PCA)的特征抽取方法相比,在采用高斯混合模型(GMM)和BP神經(jīng)網(wǎng)絡(luò)的平均識(shí)別率在純凈語(yǔ)音環(huán)境下分別提高了21.65個(gè)百分點(diǎn)、18.39個(gè)百分點(diǎn)、15.61個(gè)百分點(diǎn)、15.01個(gè)百分點(diǎn)與22.70個(gè)百分點(diǎn);在30dB噪聲環(huán)境下,則分別提升了15.15個(gè)百分點(diǎn)、10.81個(gè)百分點(diǎn)、8.69個(gè)百分點(diǎn)、7.64個(gè)百分點(diǎn)與17.76個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,該混合特征參數(shù)能夠有效提高說(shuō)話人識(shí)別率,且具有更好的魯棒性。

關(guān)鍵詞:說(shuō)話人識(shí)別;Fisher準(zhǔn)則;梅爾頻率倒譜系數(shù);線性預(yù)測(cè)系數(shù);Teager能量算子

中圖分類號(hào):TN912 文獻(xiàn)標(biāo)志碼:A

Abstract: In order to improve the accuracy of speaker recognition, multiple feature parameters should be adopted simultaneously. For the problem that each dimension comprehensive feature parameter has the different influence on the identification result, and treating them equally may not be the optimal solution, a feature parameter extraction method based on Fisher criterion combined with Mel Frequency Cepstrum Coefficient (MFCC), Linear Prediction Mel Frequency Cepstrum Coefficient (LPMFCC) and Teager Energy Operators Cepstrum Coefficient (TEOCC) was proposed. Firstly, parameters of MFCC, LPMFCC and TEOCC from speech signals were extracted, and then the Fisher ratio of each dimension of MFCC and LPMFCC parameters was calculated, six components were selected respectively by using Fisher standard to combine with TEOCC parameter into a mixture feature which was used to realize speaker recognition on the TIMIT acousticphonetic continuous speech corpus and NOISEX92 noise library. The simulation results show that the average recognition rate of the proposed method by using Gauss Mixed Model (GMM) and Back Propagation (BP) neural network compared with MFCC, LPMFCC, MFCC+LPMFCC, parameter extraction method for MFCC based on Fisher criterion and the feature extraction method based on Principal Component Analysis (PCA) is increased by 21.65 percentage points, 18.39 percentage points, 15.61 percentage points, 15.01 percentage points, 22.70 percentage points in the pure voice database, and by 15.15 percentage points, 10.81 percentage points, 8.69 percentage points, 7.64 percentage points, 17.76 percentage points in 30dB noise environments. The results show that the mixture feature can improve the recognition rate effectively and has better robustness.

Key words:speaker recognition; Fisher criterion; Mel Frequency Cepstrum Coefficent (MFCC); Linear Prediction Coefficient (LPC); Teager Energy Operator (TEO)

0 引言

隨著語(yǔ)音信號(hào)處理技術(shù)的進(jìn)步,語(yǔ)音信息服務(wù)正走向智能化,說(shuō)話人識(shí)別(Speaker Recognition, SR)[1]已被廣泛地應(yīng)用于信息安全領(lǐng)域、通信領(lǐng)域、司法領(lǐng)域和軍事等領(lǐng)域[2]。而如何從說(shuō)話人的語(yǔ)音信號(hào)中提取出能表征說(shuō)話人個(gè)性、易分類且不隨時(shí)間空間變化的有效特征參數(shù)是說(shuō)話人識(shí)別的關(guān)鍵。

目前,常用的特征參數(shù)主要有線性預(yù)測(cè)倒譜系數(shù)(Linear Prediction Cepstral Coefficent, LPCC)和梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficent, MFCC)[3]。近幾年來(lái),針對(duì)這兩種特征參數(shù),人們提出了許多種改進(jìn)的方法。

文獻(xiàn)[4]利用語(yǔ)音信號(hào)的相關(guān)特性和人耳聽(tīng)覺(jué)感知特性,將LPCC和MFCC組合作為特征參數(shù)來(lái)提高說(shuō)話人識(shí)別系統(tǒng)性能;文獻(xiàn)[5]組合了LPCC、MFCC及其一階、二階差分參數(shù)來(lái)進(jìn)行說(shuō)話人識(shí)別,但識(shí)別率只有小幅度提高,并且識(shí)別速度慢,需要大量的時(shí)間,實(shí)時(shí)性不夠好;文獻(xiàn)[6]研究了在LPCC和MFCC中加入基于Bark子波濾波器組的特征參數(shù)來(lái)提高語(yǔ)音識(shí)別率的方法;文獻(xiàn)[7]利用主成分分析(Principal Component Analysis,PCA)方法組合LPCC、MFCC和一階微分參數(shù)來(lái)改善說(shuō)話人識(shí)別性能;文獻(xiàn)[8]提出了一種在MFCC基礎(chǔ)上增加歸一化短時(shí)能量參數(shù)和一階差分作為特征參數(shù)的改進(jìn)算法;文獻(xiàn)[9]采用非線性冪函數(shù)對(duì)人耳的聽(tīng)覺(jué)特性進(jìn)行模擬,得到新的MFCC及其差分和加權(quán)倒譜系數(shù)的組合特征參數(shù)來(lái)提高說(shuō)話人識(shí)別準(zhǔn)確率。由此可見(jiàn)將兩種或兩種以上的不同特征參數(shù)直接組合,雖然有利于提高說(shuō)話人識(shí)別系統(tǒng)的性能,但實(shí)際上,組合參數(shù)不僅會(huì)增加特征參數(shù)的維數(shù),而且有冗余信息。

為了解決直接組合參數(shù)不理想的問(wèn)題,可對(duì)特征參數(shù)中各維分量對(duì)識(shí)別貢獻(xiàn)進(jìn)行評(píng)價(jià)。目前常用的評(píng)價(jià)方法有兩種,利用Fisher準(zhǔn)則得到特征向量的最佳投影方向(分離度最大)[10]和通過(guò)增減特征分量的方法來(lái)判斷特征分量對(duì)識(shí)別的貢獻(xiàn)程度[11]。甄斌等[12]采用增減特征分量的方法研究了MFCC各維倒譜分量對(duì)說(shuō)話人識(shí)別和語(yǔ)音識(shí)別的貢獻(xiàn),但是該方法計(jì)算量較大,同時(shí)受環(huán)境影響較大;鮮曉東等[13]通過(guò)Fisher比有效地選擇MFCC、逆梅爾倒譜系數(shù)(Inverted Mel Frequency Cepstrum Coefficient, IMFCC)和中頻梅爾倒譜系數(shù)(Midfrequency Mel Frequency Cepstrum Coefficient, MidMFCC)三種參數(shù),組合成一種混合特征參數(shù)(以下記為XF特征參數(shù)),縮短了計(jì)算時(shí)間,提高了系統(tǒng)識(shí)別率, 因此利用Fisher準(zhǔn)則來(lái)分析特征向量,確定特征分量的可分離性是一種有效的方法。

本文將結(jié)合聲道特征、人耳的線性感知特性和非線性能量特性,通過(guò)計(jì)算MFCC和LPMFCC,然后利用Fisher準(zhǔn)則,選擇其中可分離程度較大的特征分量,與Teager能量算子倒譜參數(shù)(Teager Energy Operators Cepstrum Coefficient, TEOCC)組成一種混合特征參數(shù),進(jìn)行說(shuō)話人識(shí)別。

1 語(yǔ)音特征參數(shù)提取

1.1 MFCC參數(shù)提取

MFCC考慮了人耳的聽(tīng)覺(jué)特性,將頻譜轉(zhuǎn)化為基于Mel頻標(biāo)的非線性頻譜,然后轉(zhuǎn)換到倒譜域上;由于充分考慮了人的聽(tīng)覺(jué)特性,而且沒(méi)有任何提前假設(shè),MFCC參數(shù)具有良好的識(shí)別性能和抗噪能力[3]。

MFCC參數(shù)提取過(guò)程如圖1所示,其中預(yù)處理包括預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè),DFT(Discrete Fourier Transform)表示快速傅里葉變換,DCT(Discrete Cosine Transform)表示離散余弦變換。

1.2 LPMFCC參數(shù)提取

線性預(yù)測(cè)系數(shù)(Linear Prediction Coefficient, LPC)是表征聲道模型的線性時(shí)變系統(tǒng)的參數(shù),它反映了說(shuō)話人的聲道特性,在說(shuō)話人識(shí)別中具有廣泛的應(yīng)用。但LPC在所有頻率上都是線性逼近語(yǔ)音的,這與人耳的聽(tīng)覺(jué)特性不一致,并且它對(duì)噪聲的影響特別敏感,包含了語(yǔ)音高頻部分的大部分噪聲細(xì)節(jié),從而會(huì)影響系統(tǒng)的性能。由于語(yǔ)音信息主要集中在低頻部分,Mel濾波器組在低頻區(qū)域的分布比較集中,所以借鑒MFCC,將實(shí)際頻率的LPC系數(shù)轉(zhuǎn)化為Mel頻率的LPC系數(shù),得到線性預(yù)測(cè)梅爾參數(shù)(Linear Prediction Mel Frequency Cepstrum Coefficient, LPMFCC),這樣使聲道特征和人耳聽(tīng)覺(jué)特征結(jié)合了起來(lái),應(yīng)用于說(shuō)話人識(shí)別系統(tǒng)會(huì)有更好的識(shí)別效果。

LPMFCC參數(shù)提取算法如下:

1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè);

2)計(jì)算每幀語(yǔ)音信號(hào)的LPC系數(shù);

3)每幀信號(hào)的LPC系數(shù)經(jīng)過(guò)DFT得到離散頻譜,然后計(jì)算功率譜;

4)將上述功率譜通過(guò)Mel濾波器組進(jìn)行濾波處理,并計(jì)算對(duì)數(shù)功率譜;

5)將對(duì)數(shù)功率譜經(jīng)過(guò)離散余弦變換得到LPMFCC。

1.3 TEOCC參數(shù)提取

Teager能量算子(Teager Energy Operators, TEO)是由Kaiser[14]提出的一種非線性差分算子,不僅具有非線性能量跟蹤信號(hào)特性,能夠合理地呈現(xiàn)信號(hào)能量的變換,而且能夠消除信號(hào)的零均值噪聲影響,增強(qiáng)語(yǔ)音信號(hào),同時(shí)進(jìn)行信號(hào)特征提取。

由此可以看出,TEO能消除零均值噪聲的影響。而通常所用的能量估計(jì)方法沒(méi)有這種消除噪聲的能力,將非線性的TEO引入到語(yǔ)音信號(hào)的特征提取中,不僅能更好地反映信號(hào)的能量變化,而且能消除噪聲對(duì)語(yǔ)音信號(hào)的影響,從而達(dá)到更好的檢測(cè)效果。

Teager能量算子倒譜參數(shù)(TEOCC)提取算法如下:

1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè);

2)根據(jù)式(1)計(jì)算每幀語(yǔ)音信號(hào)的平均TEO;

3)計(jì)算對(duì)數(shù)TEO,并作離散余弦變換得到1維TEOCC。

1.4 混合特征參數(shù)提取

MFCC、LPMFCC和TEOCC三種特征參數(shù)分別表征了語(yǔ)音信號(hào)在人耳感知、聲道和非線性能量方面的特征,以及體現(xiàn)了三種特征參數(shù)對(duì)噪聲的敏感程度,可以結(jié)合這三種特征對(duì)語(yǔ)音信號(hào)進(jìn)行描述。但是,將它們直接疊加組合會(huì)產(chǎn)生一些問(wèn)題。如果MFCC和LPMFCC兩種參數(shù)各提取12維,TEOCC參數(shù)提取1維,那么將會(huì)得到25維參數(shù),增加了特征參數(shù)的維數(shù),不僅增大了計(jì)算量,而且增加了系統(tǒng)訓(xùn)練和識(shí)別時(shí)間。同時(shí)由于各維特征參數(shù)對(duì)識(shí)別的貢獻(xiàn)程度不一樣,有些參數(shù)可能包含大量的冗余信息甚至是干擾信息,如果將它們同等對(duì)待,最終會(huì)影響識(shí)別效果,所以必須對(duì)各維參數(shù)進(jìn)行特征選擇,選出那些可分離性最優(yōu)且能有效地表征語(yǔ)音信號(hào)的特征分量,從而達(dá)到降維的目的并得到最優(yōu)的識(shí)別性能。在模式識(shí)別中特征參數(shù)的類別可分離性可以用Fisher比來(lái)判別。

混合特征參數(shù)的提取算法如下:

1)對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)處理,包括預(yù)加重、分幀、加窗和端點(diǎn)檢測(cè);

2)分別對(duì)預(yù)處理后的語(yǔ)音信號(hào)提取12維MFCC參數(shù)、12維LPMFCC參數(shù)和1維TEOCC參數(shù);

3)從MFCC和LPMFCC兩種特征參數(shù)中各選擇Fisher比(即區(qū)分度)最大的6個(gè)維數(shù)分量進(jìn)行組合,記作MFCC+LPMFCC特征參數(shù),然后將其與TEOCC參數(shù)組合成13維混合特征參數(shù)。

2 實(shí)驗(yàn)結(jié)果及分析

為了驗(yàn)證本文提出的混合特征參數(shù)的有效性和實(shí)時(shí)性及其在噪聲環(huán)境下的識(shí)別性能,采用了TIMIT語(yǔ)音數(shù)據(jù)庫(kù)[16]和NOISEX92噪聲數(shù)據(jù)庫(kù)[17]進(jìn)行了仿真實(shí)驗(yàn)。設(shè)置TIMIT語(yǔ)音庫(kù)說(shuō)話人閉集70個(gè)人(男40個(gè),女30個(gè)),每個(gè)說(shuō)話人錄制10段語(yǔ)句、7段用于模型訓(xùn)練和3段用于測(cè)試。實(shí)驗(yàn)中對(duì)預(yù)處理后的語(yǔ)音分別提取12維MFCC、12維LPMFCC、12維MFCC+LPMFCC、18維XF特征參數(shù)和13維本文混合特征參數(shù),進(jìn)行說(shuō)話人識(shí)別實(shí)驗(yàn);為了進(jìn)一步論證基于Fisher比的特征抽取方法的有效性,提取了12維PCMLT參數(shù)與之進(jìn)行對(duì)比分析實(shí)驗(yàn),其中PCMLT參數(shù)是基于PCA的MFCC、LPMFCC和TEOCC的組合特征參數(shù),提取過(guò)程是對(duì)預(yù)處理后的語(yǔ)音信號(hào)提取12維MFCC和12維LPMFCC進(jìn)行PCA降維處理,分別得到6維特征參數(shù),然后與TEOCC組合成新的特征參數(shù)。所有實(shí)驗(yàn)都是在Windows 7操作平臺(tái)上運(yùn)行,所有的識(shí)別結(jié)果均是通過(guò)多次測(cè)試平均統(tǒng)計(jì)得到。

2.1 實(shí)驗(yàn)一

測(cè)試在純凈語(yǔ)音環(huán)境下特征參數(shù)的識(shí)別性能。實(shí)驗(yàn)采用高斯混合模型(Gaussian Mixture Model, GMM)和反向傳播(Back Propagation, BP)神經(jīng)網(wǎng)絡(luò)為分類器分別進(jìn)行測(cè)試,并記錄了在純凈語(yǔ)音下不同特征參數(shù)的識(shí)別結(jié)果。其中GMM的混合階數(shù)均為8階;分別設(shè)置12維、13維和18維特征參數(shù)的BP神經(jīng)網(wǎng)絡(luò)輸入層隱含層輸出層結(jié)構(gòu)的神經(jīng)元數(shù)為127570、137570和187570,并設(shè)置網(wǎng)絡(luò)參數(shù):學(xué)習(xí)率η=0.35,動(dòng)態(tài)參量a=0.85,訓(xùn)練精度E≤e-5。如表1所示,記錄了兩種模型在純凈語(yǔ)音環(huán)境下幾種特征參數(shù)的識(shí)別率。

從表1可以看出,在基于Fisher比提取的MFCC和LPMFCC特征中引入TEOCC特征,識(shí)別率有明顯提高。而基于PCA特征抽取方法,雖然能減小特征參數(shù)之間的相關(guān)性、突出差異性,保留特征參數(shù)中一些重要的“成分”,舍去一些冗余的、包含信息量很少的“成分”,但是不能完全地保留最有效和最重要的信息,其識(shí)別效果反而變差。在GMM下,本文特征參數(shù)與MFCC、LPMFCC、MFCC+LPMFCC、XF特征參數(shù)和PCMLT參數(shù)相比, 識(shí)別率有顯著的提升,分別提高了22.98個(gè)百分點(diǎn)、19.24個(gè)百分點(diǎn)、17.41個(gè)百分點(diǎn)、17.15個(gè)百分點(diǎn)和24.71個(gè)百分點(diǎn)。同樣在BP神經(jīng)網(wǎng)絡(luò)為分類器測(cè)試下,雖然6種特征參數(shù)識(shí)別率相比GMM下的識(shí)別率均有小幅度下降,但本文特征參數(shù)識(shí)別率與MFCC和LPMFCC、MFCC+LPMFCC、XF特征參數(shù)和PCMLT參數(shù)相比仍然有大幅提升,分別提升了20.32個(gè)百分點(diǎn)、17.53個(gè)百分點(diǎn)、13.81個(gè)百分點(diǎn)、12.87個(gè)百分點(diǎn)和20.68個(gè)百分點(diǎn)。這綜合說(shuō)明了在純凈語(yǔ)音環(huán)境下本文方法具有更好的識(shí)別效果。

2.2 實(shí)驗(yàn)二

測(cè)試在噪聲環(huán)境下特征參數(shù)的識(shí)別性能。為每個(gè)說(shuō)話人的測(cè)試語(yǔ)音加入NOISEX92噪聲數(shù)據(jù)庫(kù)中生活較常見(jiàn)的噪聲進(jìn)行實(shí)驗(yàn),并記錄了特征參數(shù)的識(shí)別性能,仿真結(jié)果如圖3所示。

從仿真結(jié)果可以看出,在不同的噪聲以及不同的信噪比下,本文提出的特征參數(shù)對(duì)說(shuō)話人識(shí)別性能改善明顯,與MFCC、LPMFCC、MFCC+LPMFCC、XF特征參數(shù)、PCMLT參數(shù)相比,平均識(shí)別率在30dB信噪比下分別提高了15.15個(gè)百分點(diǎn)、10.81個(gè)百分點(diǎn)、8.69個(gè)百分點(diǎn)、7.64個(gè)百分點(diǎn)與17.76個(gè)百分點(diǎn),在0dB信噪比下分別提升了7.82個(gè)百分點(diǎn)、7.72個(gè)百分點(diǎn)、2.88個(gè)百分點(diǎn)、2.73個(gè)百分點(diǎn)與9.13個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明本文特征參數(shù)魯棒性較MFCC參數(shù)、LPMFCC參數(shù)、MFCC+LPMFCC參數(shù)、XF特征參數(shù)以及PCMLT參數(shù)要強(qiáng),主要是由于MFCC參數(shù)考慮了人耳的聽(tīng)覺(jué)特性,LPCC能夠體現(xiàn)說(shuō)話人的聲道特征,對(duì)元音有較好的描述能力,且通過(guò)Fisher比選擇出了可分離性最優(yōu)且能有效地表征語(yǔ)音信號(hào)的特征分量,而TEOCC參數(shù)不僅反映了語(yǔ)音信號(hào)非線性能量特征,還能夠消除噪聲對(duì)語(yǔ)音信號(hào)的影響,所以本文特征參數(shù)結(jié)合了這幾種特征參數(shù)的優(yōu)點(diǎn),識(shí)別性能和噪聲魯棒性都得到了進(jìn)一步提高。

2.3 實(shí)驗(yàn)三

正確率的高低是檢驗(yàn)所用算法性能的一個(gè)指標(biāo),但在實(shí)際應(yīng)用中還要考慮其實(shí)時(shí)性問(wèn)題。實(shí)驗(yàn)采用了Matlab串行和并行計(jì)算兩種方法定量描述各個(gè)算法的運(yùn)行時(shí)間,其中串行計(jì)算是基于單線程串行處理數(shù)據(jù)和任務(wù),而并行計(jì)算是利用Matlab并行計(jì)算工具箱,在多核和多處理器計(jì)算機(jī)上執(zhí)行數(shù)據(jù)并行和任務(wù)并行的算法,將串行Matlab應(yīng)用程序轉(zhuǎn)換為并行Matlab應(yīng)用程序,從而提高計(jì)算機(jī)處理速率。具體的并行計(jì)算處理方法如下:

1)初始化Matlab并行計(jì)算環(huán)境;

2)利用Parallel Computing Toolbox(并行計(jì)算工具箱),使用parfor(并行for循環(huán))和spmd(單程序多數(shù)據(jù))注釋代碼段,幾乎不需要修改全部代碼,對(duì)串行Matlab代碼進(jìn)行并行轉(zhuǎn)換,縮短算法運(yùn)行時(shí)間;

3)終止Matlab并行計(jì)算環(huán)境。

表2是在采用串行計(jì)算下六種特征參數(shù)進(jìn)行說(shuō)話人識(shí)別的時(shí)間比較。表3是采用并行計(jì)算下本文特征參數(shù)在不同GMM混合度的識(shí)別時(shí)間。從表2可以看出,在串行計(jì)算下,無(wú)論哪個(gè)混合階數(shù),本文方法與MFCC、LPMFCC、MFCC+LPMFCC與XF特征方法相比,所用時(shí)間最長(zhǎng)。時(shí)間的增加是由于本文方法增加了1維TEOCC特征參數(shù),增大了計(jì)算的復(fù)雜度,使特征提取時(shí)間增多,增大了系統(tǒng)訓(xùn)練和識(shí)別時(shí)間。從表3可以看出,當(dāng)采用并行計(jì)算時(shí),本文方法的實(shí)時(shí)性得到了進(jìn)一步提高。與串行計(jì)算相比,其識(shí)別時(shí)間幾乎縮短了一半,具體處理時(shí)可采用該方法來(lái)獲得更好的實(shí)時(shí)性。

3 結(jié)語(yǔ)

通過(guò)綜合MFCC和LPMFCC以及TEO等特征,提出了基于Fisher線性判別準(zhǔn)則,將這三種特征有效地相結(jié)合的說(shuō)話人識(shí)別方法。Matlab軟件仿真,采用TIMIT語(yǔ)音庫(kù)和NOISEX92噪聲庫(kù)進(jìn)行說(shuō)話人識(shí)別實(shí)驗(yàn),結(jié)果表明,在純凈語(yǔ)音條件下本文提出的混合特征參數(shù)方法平均識(shí)別率比MFCC方法、LPMFCC方法、MFCC+LPMFCC方法、XF特征方法與PCMLT方法分別提高了21.65%、18.39%、15.61%、15.01%與22.30%;并且在噪聲條件下本文方法說(shuō)話人識(shí)別性能較MFCC、LPMFCC、MFCC+LPMFCC與XF特征方法以及PCMLT方法均更優(yōu),且具有更好的魯棒性。但是由于本文方法增加了1維TEOCC特征參數(shù),相比MFCC、LPMFCC與MFCC+LPMFCC方法稍微增大了系統(tǒng)訓(xùn)練和識(shí)別時(shí)間,所以還需要進(jìn)一步研究改進(jìn)。

參考文獻(xiàn):

[1]MEHLA R, AGGARWAL R K. Automatic speech recognition: a survey[J]. International Journal of Advanced Research in Computer Science and Electronics Engineering (IJARCSEE), 2014, 3(1): 45-53.

[2]趙力. 語(yǔ)音信號(hào)處理[M]. 北京: 機(jī)械工業(yè)出版社, 2003:1-4.(ZHAO L. Speech Signal Processing[M]. Beijing: China Machine Press, 2003: 1-4.)

[3]王炳錫,屈丹,彭煊.實(shí)用語(yǔ)音識(shí)別基礎(chǔ)[M].北京:國(guó)防工業(yè)出版社,2005:147-149. (WANG B X, QU D, PENG X. Practical Fundamentals of Speech Recognition[M]. Beijing: National Defense Industry Press, 2005: 147-149.)

[4]YUJIN Y, PEIHUA Z, QUN Z. Research of speaker recognition based on combination of LPCC and MFCC[C]// Proceedings of the 2010 IEEE International Conference on Intelligent Computing and Intelligent Systems. Piscataway, NJ: IEEE, 2010, 3: 765-767.

[5]余建潮,張瑞林.基于MFCC和LPCC的說(shuō)話人識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì), 2009, 30(5): 1189-1191.(YU J C, ZHANG R L. Speaker recognition method using MFCC and LPCC features [J]. Computer Engineering and Design, 2009, 30(5): 1189-1191.)

[6]張曉俊,陶智,吳迪,等.采用多特征組合優(yōu)化的語(yǔ)音特征參數(shù)研究[J].通信技術(shù),2013, 45(12): 98-100. (ZHANG X J, TAO Z, WU D, et al. Study of speech characteristic parameters by optimized multifeature combination[J]. Communications Technology, 2013, 45(12): 98-100.)

[7]JING X, MA J, ZHAO J, et al. Speaker recognition based on principal component analysis of LPCC and MFCC[C]// Proceedings of the 2014 IEEE International Conference on Signal Processing, Communications and Computing. Piscataway, NJ: IEEE, 2014: 403-408.

[8]宋樂(lè),白靜.說(shuō)話人識(shí)別中改進(jìn)特征提取算法的研究[J]. 計(jì)算機(jī)工程與設(shè)計(jì), 2014, 35(5): 1772-1775.(SONG L, BAI J. Study of improving feature extraction algorithm in speaker recognition[J]. Computer Engineering and Design, 2014, 35(5): 1772-1775.)

[9]岳倩倩,周萍,景新幸. 基于非線性冪函數(shù)的聽(tīng)覺(jué)特征提取算法研究[J]. 微電子學(xué)與計(jì)算機(jī),2015,32(6):163-166. (YU Q Q, ZHOU P, JING X X. The auditory feature extraction algorithm based on powerlaw nonlinearity function[J]. Microelectronics & Computer, 2015, 32(6): 163-166.)

[10]李夢(mèng)超.基于說(shuō)話人識(shí)別的特征參數(shù)提取改進(jìn)算法的研究[D].南京:南京師范大學(xué),2014:27-36. (LI M C. The modified extractionalgorithms of feature parameters based on speaker recognition[D]. Nanjing: Nanjing Normal University, 2014: 27-36.)

[11]KANEDERA N, ARAI T, HERMANSKY H, et al. On the importance of various modulation frequencies for speech recognition[C]// Proceedings of the 5th European Conference on Speech Communication and Technology. Rhodes:ISCA, 1997: 1079-1082.

[12]甄斌,吳璽宏,劉志敏,等.語(yǔ)音識(shí)別和說(shuō)話人識(shí)別中各倒譜分量的相對(duì)重要性[J].北京大學(xué)學(xué)報(bào)(自然科學(xué)版),2001,37(3):371-378.(ZHEN B, WU X H, LIU Z M, et al. On the importance of components of the MFCC in speech and speaker recognition[J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2001, 37(3): 371-378.)

[13]鮮曉東, 樊宇星. 基于Fisher比的梅爾倒譜系數(shù)混合特征提取方法[J]. 計(jì)算機(jī)應(yīng)用, 2014,34(2):558-561. (XIAN X D, FAN Y X. Parameter extraction method for Mel frequency cepstral coefficients based on Fisher criterion[J]. Journal of Computer Applications, 2014, 34(2): 558-561.)

[14]KAISER J F. On a simple algorithm to calculate the “energy” of a signal[C]// Proceedings of the 1988 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1990: 381-384.

[15]李晉徽,楊俊安,項(xiàng)要杰.基于高斯濾波器及費(fèi)舍爾準(zhǔn)則的特征提取方法[J].電路與系統(tǒng)學(xué)報(bào), 2013, 18(2): 400-404. (LI J H, YANG J A, XIANG Y J. The feature sets extracting method based on Gaussian filter and Fisher criterion[J]. Journal of Circuits and Systems, 2013, 18(2): 400-404.)

[16]LI Q, REYNOLDS D A. Corpora for the evaluation of speaker recognition systems[C]// Proceedings of the 1999 IEEE International Conference on Acoustics, Speech, and Signal Processing. Piscataway, NJ: IEEE, 1999, 2: 829-832.

[17]VARGA A, STEENEKEN H J M, TOMLINSON M, et al. The NOISEX92 study on the effect of additive noise on automatic speech recognition[R]. Malvern: DRA Speech Research Unit, 1992.

海口市| 镇江市| 雷波县| 双柏县| 江陵县| 保定市| 河南省| 永靖县| 南阳市| 连平县| 阿瓦提县| 南华县| 永吉县| 石景山区| 股票| 南溪县| 通渭县| 波密县| 盐池县| 苗栗县| 香格里拉县| 芦溪县| 葵青区| 波密县| 盐边县| 临朐县| 阿拉善右旗| 屯留县| 万山特区| 邹平县| 龙江县| 嵩明县| 延庆县| 团风县| 千阳县| 吉林省| 红安县| 寿宁县| 高邮市| 凭祥市| 钦州市|