国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于快速M(fèi)FCC計(jì)算的說話人識別系統(tǒng)的設(shè)計(jì)

2018-04-08 02:05畢灶榮童東兵陳巧玉
電子科技 2018年4期
關(guān)鍵詞:存儲器特征參數(shù)濾波器

畢灶榮,童東兵,陳巧玉

(1.上海工程技術(shù)大學(xué) 電子電氣工程學(xué)院,上海201620;2. 上海立信會(huì)計(jì)金融學(xué)院 統(tǒng)計(jì)與數(shù)學(xué)學(xué)院,上海 201620)

一般把基于人體固有生理特性和行為特征的識別技術(shù),統(tǒng)稱為生物認(rèn)證識別技術(shù)。生物識別的一個(gè)重要研究方向是語音識別,和其他生物識別相比,語音識別會(huì)有方便、自然、對設(shè)備沒有較高的要求等優(yōu)勢。語音作為人類溝通交流最常用的媒介,其包含了較多的信息內(nèi)容,例如:性別、大概的年齡段、以及說話人來自哪里,可以通過分析這些個(gè)人信息來推斷出說話者的身份,而在很多場景下說話人的身份往往比他要表達(dá)的意思更重要。因此,說話人識別是語音識別的一個(gè)重要分支,是為了解決說話人是誰的問題。

近年來,說話人識別引起了專家學(xué)者的廣泛關(guān)注。文獻(xiàn)[1]研究了深層神經(jīng)網(wǎng)絡(luò)框架和轉(zhuǎn)換MFCCs,并為說話者的年齡和性別分類,通過使用轉(zhuǎn)換的MFCC使總體分類精度提高約13%。文獻(xiàn)[2] 研究了信號削弱對說話人識別的影響,并提出了一個(gè)簡單而有效的削波檢測方法以及基于深度神經(jīng)網(wǎng)絡(luò)(DNN)的信號重建方法。文獻(xiàn)[3] 提出了說話人識別的新特征即嘴唇的形狀及運(yùn)動(dòng)變化,實(shí)驗(yàn)結(jié)果表明通過訓(xùn)練識別精度達(dá)到了99%。文獻(xiàn)[6]對幾種語音特征參數(shù)進(jìn)行了分析,實(shí)驗(yàn)結(jié)果表明MFCC與差分MFCC參數(shù)結(jié)合的識別率最高,線性預(yù)測倒譜系數(shù)(LPCC)的識別率最低。文獻(xiàn)[7]中作者在標(biāo)準(zhǔn)LPCC的基礎(chǔ)上通過對分幀語音信號進(jìn)行小波處理,提出了改進(jìn)的LPCC參數(shù),在識別的成功率上有了一定的提高。

本文在標(biāo)準(zhǔn)MFCC計(jì)算的基礎(chǔ)上提出了改進(jìn)的計(jì)算方法,實(shí)驗(yàn)結(jié)果表明本文所提出的方案在單幀內(nèi)存訪問時(shí)間上減少 83.6%,在保證識別準(zhǔn)確率不降低的情況下使識別速度大幅提高,降低了說話人識別計(jì)算的復(fù)雜性。

1 系統(tǒng)總體設(shè)計(jì)

本文是基于LabVIEW搭建的說話人識別系統(tǒng)。實(shí)現(xiàn)對聲音的預(yù)處理、特征參數(shù)的提取、建立參考模板、模板匹配和判決5個(gè)功能。系統(tǒng)包括入庫階段和識別階段。入庫階段完成對說話人的特征參數(shù)提取,對每一個(gè)測試者建立模板;識別階段將實(shí)時(shí)采集到的語音信號的特征參數(shù)值與模板中的特征參數(shù)值進(jìn)行匹配,根據(jù)動(dòng)態(tài)時(shí)間規(guī)整(DTW)算法計(jì)算出的結(jié)果給出判決。圖1描述的是說話人識別的系統(tǒng)框圖。

圖1 說話人識別系統(tǒng)框圖

2 系統(tǒng)設(shè)計(jì)方法

本文設(shè)計(jì)的說話人確認(rèn)系統(tǒng)有軟、硬件兩部分組成。硬件部分是聲卡完成對語音信號的采集,并將模擬信號轉(zhuǎn)換成數(shù)字信號之后輸入給計(jì)算機(jī)。軟件部分是實(shí)現(xiàn)對語音數(shù)字信號的預(yù)處理、特征參數(shù)提取、建立模板、匹配模板等功能。

2.1 系統(tǒng)硬件部分

近幾年來,隨著計(jì)算機(jī)等相關(guān)硬件的快速發(fā)展,集成聲卡的數(shù)據(jù)采集能力得到了很大的提升,已經(jīng)成為一款很出色的音頻采集系統(tǒng)。它能夠采集頻率在20~20 000 Hz范圍內(nèi)的語音信號,可以通過相關(guān)軟件如MATLAB、LabVIEW來建立語音采集系統(tǒng),在工程測量領(lǐng)域作為信號采集設(shè)備,具有普及的應(yīng)用遠(yuǎn)景。本文直接采用聲卡作為該系統(tǒng)的硬件部分。

2.2 系統(tǒng)軟件部分

本系統(tǒng)是基于LabVIEW編程軟件搭建的,眾所周知LabVIEW的優(yōu)勢就在于控制,但對于大量數(shù)據(jù)的計(jì)算,LabVIEW就會(huì)顯得有些力不從心,語音信號的MFCC特征參數(shù)提取需要用到大量的數(shù)學(xué)計(jì)算,而Matlab恰好在數(shù)值計(jì)算上具有較大的優(yōu)勢。所以本系統(tǒng)是在LabVIEW和Matlab結(jié)合下完成的。LabVIEW采用的版本為LabVIEW 2013,Mtalab采用的版本為Matlab 7.0。

仿真實(shí)現(xiàn)的內(nèi)容包括語音信號的預(yù)處理、入庫以及識別3個(gè)模塊。在仿真的界面中會(huì)展示實(shí)時(shí)采集的信號波形圖、當(dāng)前聲音強(qiáng)弱的特征圖、MFCC特征參數(shù)曲線圖、DTW識別主界面和DTW識別結(jié)果。系統(tǒng)的前面板如圖2所示。

圖2 系統(tǒng)前面板

實(shí)時(shí)采集過程如下:當(dāng)對著麥克風(fēng)發(fā)出一段語音,語音通過麥克風(fēng),傳送到聲卡形成一段經(jīng)過采樣、保持、轉(zhuǎn)換的數(shù)字信號,然后以wav文件格式儲存于計(jì)算機(jī)內(nèi)存中。

實(shí)時(shí)語音采集信號采集過程中,可根據(jù)實(shí)際需要更改采集的語音信號格式,如采樣頻率、通道數(shù)以及每采樣比特位數(shù)等,還可設(shè)置設(shè)備ID及采樣模式等。語音信號具有的“短時(shí)平穩(wěn)”狀態(tài)特性,在研究分析語音信號時(shí),經(jīng)常需要基于“短時(shí)平穩(wěn)”特性來開展。一般情況下,通過采集設(shè)備獲取的語音信號需要先經(jīng)過預(yù)處理,以便減小計(jì)算量,從而提取更有效的說話人的特征參數(shù)。預(yù)處理過程通常包括:預(yù)加重、分幀、加窗、端點(diǎn)檢測。

說話人識別的一個(gè)重要的步驟就是語音信號的特征參數(shù)提取,其對系統(tǒng)識別結(jié)果的真實(shí)性和有效性起到了重要的作用。語音特征參數(shù)提取的基本思想就是讓預(yù)處理過的語音信號通過設(shè)定好的函數(shù),經(jīng)過變換將冗余去除,提取出特征參數(shù)。

目前常見的語音特征參數(shù)有:MFCC、LPCC、譜熵、基因周期等。MFCC是模擬人的感知聽覺特性,而LPCC則是模擬人的聲道特征。

(1)標(biāo)準(zhǔn)MFCC。圖3描述的是標(biāo)準(zhǔn)MFCC求解過程。首先將預(yù)處理的語音信號進(jìn)行快速傅里葉變換,然后將求得離散功率譜通過Mel濾波器組并對其求對數(shù)得出系數(shù),最后將系數(shù)進(jìn)行離散余弦變換得出標(biāo)準(zhǔn)MFCC倒譜系數(shù)。圖4為標(biāo)準(zhǔn)MFCC特征曲線圖。

圖3 標(biāo)準(zhǔn)MFCC倒譜系數(shù)求解過程

圖4 標(biāo)準(zhǔn)MFCC特征曲線

(2)差分MFCC。在一定程度上,差分倒譜系數(shù)能夠描述人耳感知特性的動(dòng)態(tài)連續(xù)特性,其在用于語音處理中取得了較好的效果,差分MFCC的計(jì)算采用下式

(1)

其中,k為確定常數(shù)且k取2;d(n)表示一幀語音的差分Mel倒譜系數(shù)。

(3)改進(jìn)MFCC。Mel濾波器為三角形結(jié)構(gòu),其中一個(gè)濾波器峰值頻率的位置位于上一個(gè)濾波器端點(diǎn)頻率處,即Mel濾波器的峰值頻率為兩塊峰值頻率中任意一塊,濾波器左半部分與前一個(gè)濾波器右半部分一致,類似的右半部分與后一個(gè)濾波器的半部分一致。單一能量譜E(i)與兩個(gè)濾波器相關(guān),通過乘法器可以得到一個(gè)濾波器的能量,其他的能量可以通過減法器得到,所以濾波器模型只需一個(gè)乘法器和一個(gè)減法器即可。標(biāo)準(zhǔn)MFCC濾波器仿真如圖5所示。

圖5 標(biāo)準(zhǔn)MFCC濾波器仿真圖

設(shè)計(jì)Mel濾波器需了解濾波器塊的濾波系數(shù)。Mel濾波器在Mel域是等距,當(dāng)被映射到線性頻域,通過圖5可知Mel濾波器為三角形結(jié)構(gòu),但并不等距。假定濾波器系數(shù)的增量是恒定的,每一個(gè)濾波器塊可以通過存儲以下3個(gè)值來描述,從而減少內(nèi)存訪問的時(shí)間。

第一個(gè)系數(shù):每個(gè)塊的第一個(gè)系數(shù)的值。

增量:濾波器系數(shù)值的平均增量。

系數(shù)個(gè)數(shù):塊中系數(shù)的總數(shù)。

通過第一個(gè)系數(shù)的值和增量可以計(jì)算出其他所有系數(shù),在每個(gè)濾波器結(jié)束處需要標(biāo)記其所需要的系數(shù)的個(gè)數(shù)。這種配置需要3個(gè)存儲器,由于需要同時(shí)訪問這3個(gè)值,所以為3個(gè)存儲器賦予相同的地址。系數(shù)的個(gè)數(shù)反饋送到遞減計(jì)數(shù)器,遞減計(jì)數(shù)器在每個(gè)計(jì)算周期后遞減,并且當(dāng)其等于零時(shí),指示塊的結(jié)束。通過每次增加增量來計(jì)算濾波器塊的權(quán)重,然后將其乘以能量譜樣本E(j)。為了計(jì)算在相同塊中的相鄰濾波器中的能量,可以通過E(j)減去該值。該系統(tǒng)的具體實(shí)施如圖6所示,以及改進(jìn)MFCC特征曲線如圖7所示。

圖6 改進(jìn)Mel濾波器的設(shè)計(jì)

圖7 改進(jìn)MFCC特征曲線

動(dòng)態(tài)時(shí)間規(guī)整思想是將未知量伸長或縮短(壓擴(kuò)),直到與參考模板的長度一致。假設(shè)設(shè)定好的模板的特征矢量為x1,x2,…,xi,待測的特征矢量為y1,y2,…,yi,其中,i和j不相等。通過DTW算法找到最佳路徑j(luò)=w(i),將測試矢量的時(shí)間軸i非線性的映射到參考模板時(shí)間軸上,使得總失真到達(dá)最小,記距離測度為D,其表達(dá)式為

(2)

實(shí)現(xiàn)過程可以分成兩個(gè)步驟進(jìn)行:(1)通過計(jì)算兩個(gè)模板之間各個(gè)特征矢量間的距離來構(gòu)成一個(gè)距離矩陣;(2)運(yùn)用DTW思想在距離矩陣中找出最佳的路徑,使得累加距離最小。

3 結(jié)果分析

在基于資源要求的性能比較實(shí)驗(yàn)中,本文提出的方案與文獻(xiàn)[4]中實(shí)施的標(biāo)準(zhǔn)MFCC方案和文獻(xiàn)[5]中提出的改進(jìn)方案的性能比較總結(jié)在表1中。

表1 基于資源要求的性能比較

標(biāo)準(zhǔn)MFCC算法中,對于F(幀的大小)為 256和M(濾波器通道數(shù)) 為 20的幀,該算法將需要20個(gè)存儲器和20個(gè)乘法器并且存儲器具有128 Byte。對于較大的幀大小,如F為1 024,則需要20 kB的內(nèi)存。因此,在單幀計(jì)算中,處理存儲器的總時(shí)間將等于存儲器訪問時(shí)間的F/2倍,存儲器延遲將導(dǎo)致的計(jì)算速度降低。

文獻(xiàn)[5]提出的改進(jìn)方案中強(qiáng)調(diào)存儲濾波器系數(shù)中非零值,即需要482 Byte大小的存儲器存儲241個(gè)值。對于本文所提出的方案,第一系數(shù)值和增量可以是2 Byte大小,所需的存儲器大小為105 Byte。這是標(biāo)準(zhǔn)MFCC計(jì)算中所需的存儲器的2.05%也是改進(jìn)MFCC計(jì)算中所需的存儲器的21.78%,同時(shí)幀的大小保持1 024恒定。在單幀內(nèi)存訪個(gè)數(shù)上僅為21,這將使訪問時(shí)間減少83.6%。

說話人識別實(shí)驗(yàn)在實(shí)驗(yàn)室環(huán)境下進(jìn)行。錄制30個(gè)人的聲音,每人錄制一句:“上海工程大?!狈謩e采用標(biāo)準(zhǔn)MFCC特征參數(shù),以及本文提出的改進(jìn)MFCC計(jì)算對30個(gè)語音信號的特征參數(shù)進(jìn)行提取并入庫如圖9所示。識別階段采用同樣30個(gè)人錄制聲音,讓30個(gè)語音信號依次通過識別系統(tǒng),判斷準(zhǔn)確率并記錄系統(tǒng)識別所需時(shí)間,如圖10所示。

圖9 說話人識別系統(tǒng)入庫環(huán)節(jié)仿真圖

圖10 說話人識別系統(tǒng)識別環(huán)節(jié)仿真圖

實(shí)驗(yàn)結(jié)果表明,對于兩種算法系統(tǒng)都能夠較好的完成說話人識別,但在識別的速度上還是有較大的差距。

表2 基于說話人識別成功率與速度的比較

經(jīng)過30個(gè)樣本測試,采用標(biāo)準(zhǔn)MFCC特征參數(shù)的識別成功率為90%,而采用本文改進(jìn)MFCC識別的成功率為86.6%,降低了3.4%,但是在識別速度上帶來了75%的提升。

4 結(jié)束語

本文所提出的MFCC計(jì)算方案具有較高的計(jì)算效率。為MFCC語音識別系統(tǒng)的設(shè)計(jì)者提供了參考,在犧牲最小精度的條件下,更快地產(chǎn)生了結(jié)果,并降低了硬件要求和成本。

[1]Qawaqneh Z, Mallouh A A, Barkana B D.Deep neural network framework and transformed MFCCs for speaker’s age and gender classification[J]. Knowledge-Based Systems, 2017,115(3):5-14.

[2]Bie F, Wang D, Wang J, et al. Detection and reconstruction of clipped speech for speaker recognition[J]. Speech Communication, 2015, 72(2):218-231.

[3]Lai J Y, Wang S L, Liew W C, et al. Visual speaker identification and authentication by joint spatiotemporal sparse coding and hierarchical pooling[J]. Information Sciences, 2016, 373(1):219-232.

[4]Bahoura M, Ezzaidi H. Hardware implementation of MFCC feature extraction for respiratory sounds analysis[C].Zeralda:International Workshop on Systems, Signal Processing and Their Applications,IEEE, 2013.

[5]賀玲玲,周元. 基于改進(jìn)MFCC的異常聲音識別算法[J]. 重慶工商大學(xué)學(xué)報(bào):自然科學(xué)版, 2012,29(2):52-57.

[6]劉雅琴,智愛娟. 幾種語音識別特征參數(shù)的研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(12):67-70.

[7]王彪.一種改進(jìn)的LPCC參數(shù)提取方法研究[J]. 電子設(shè)計(jì)工程,2012,20(6):29-30.

[8]李澤,崔宣,馬雨廷,等. MFCC和LPCC特征參數(shù)在說話人識別中的研究[J].河南工程學(xué)院學(xué)報(bào):自然科學(xué)版, 2010, 22(2):51-55.

[9]朱少雄. 聲紋識別系統(tǒng)與模式匹配算法研究[D].大連:大連理工大學(xué), 2005.

[10] 范長青.小詞匯量非特定人連續(xù)語音識別系統(tǒng)的研究[D]. 沈陽:沈陽理工大學(xué), 2008.

[11] 張偉偉,楊鼎才.用于說話人識別的MFCC的改進(jìn)算法[J].電子測量技術(shù),2009,32(8):118-121.

[12] Xie C, Cao X, He L. Algorithm of abnormal audio recognition based on improved MFCC[J]. Procedia Engineering, 2012, 29(4):731-737.

[13] Chia Ai O, Hariharan M, Yaacob S, et al. Classification of speech dysfluencies with MFCC and LPCC features[J]. Expert Systems with Applications, 2012, 39(2):2157-2165.

[14] 郭春霞,裘雪紅. 基于MFCC的說話人識別系統(tǒng)[J].電子科技, 2005(11):53-56.

[15] 吳佳龍,李坤,劉中.孤立詞語音識別算法研究與設(shè)計(jì)[J].電子科技, 2015, 28(2):22-25.

猜你喜歡
存儲器特征參數(shù)濾波器
故障診斷中信號特征參數(shù)擇取方法
基于特征參數(shù)化的木工CAD/CAM系統(tǒng)
靜態(tài)隨機(jī)存儲器在軌自檢算法
從濾波器理解卷積
開關(guān)電源EMI濾波器的應(yīng)用方法探討
基于PSO-VMD的齒輪特征參數(shù)提取方法研究
基于Canny振蕩抑制準(zhǔn)則的改進(jìn)匹配濾波器
基于TMS320C6678的SAR方位向預(yù)濾波器的并行實(shí)現(xiàn)
統(tǒng)計(jì)特征參數(shù)及多分類SVM的局部放電類型識別
存儲器——安格爾(墨西哥)▲