国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自適應(yīng)Mel濾波器組的MFCC特征提取的SOC設(shè)計

2016-07-22 02:28陶佰睿苗鳳娟李青龍

陶佰睿,郭 琴,苗鳳娟,李青龍

(1.齊齊哈爾大學(xué) 通信與電子工程學(xué)院, 黑龍江 齊齊哈爾 161006; 2.中國科學(xué)院 上海技術(shù)物理研究所, 上海 200083)

?

基于自適應(yīng)Mel濾波器組的MFCC特征提取的SOC設(shè)計

陶佰睿1,2,郭琴1,苗鳳娟1,2,李青龍1

(1.齊齊哈爾大學(xué) 通信與電子工程學(xué)院, 黑龍江 齊齊哈爾 161006; 2.中國科學(xué)院 上海技術(shù)物理研究所, 上海 200083)

摘要:說話人聲紋身份認(rèn)證技術(shù)中的關(guān)鍵是特征參數(shù)的準(zhǔn)確性和模式識別的速率.為此,對識別對象的性別予以區(qū)分,并進(jìn)行參數(shù)可自適應(yīng)調(diào)整的Mel濾波器組設(shè)計,即通過Quartus II平臺在Altera的DE2系列型號為EP2C35F672C6的開發(fā)板上完成高效率說話人聲紋特征提取的SOC(片上系統(tǒng))設(shè)計.設(shè)計具體步驟如下:首先,設(shè)計截止頻率為400 Hz和200 Hz的低通濾波器以完成男女生基音頻率的檢測;然后,依據(jù)計算出的每一幀語音頻譜的頻率范圍確定Mel濾波器組的最高頻率并完成參數(shù)設(shè)計;最后,在Quartus II平臺上完成Verilog-HDL代碼設(shè)計,并封裝為IP核完成SOC設(shè)計以及編譯、仿真和下載驗證.結(jié)果表明,Mel濾波器組利用率的提高有利于提高特征參數(shù)的準(zhǔn)確性和識別速度.

關(guān)鍵詞:聲紋身份認(rèn)證;自適應(yīng)梅爾濾波器組;性別識別;片上系統(tǒng)

0引言

互聯(lián)網(wǎng)的普及促進(jìn)了我國信息產(chǎn)業(yè)的快速發(fā)展,人們通過互聯(lián)網(wǎng)進(jìn)行日常生活和生產(chǎn)變得越來越便利,但互聯(lián)網(wǎng)本身的安全問題也引起了人們對用戶個人信息安全的關(guān)注.聲紋識別相對其他生物識別技術(shù)具有語音獲取便捷、易于被人們接受和準(zhǔn)確度高等優(yōu)點,而聲紋特征提取的準(zhǔn)確度和提取速度是聲紋識別技術(shù)推廣應(yīng)用的關(guān)鍵[1-3].

文獻(xiàn)[4]針對說話人識別中梅爾頻率濾波器組結(jié)構(gòu)分布不均勻的問題,在低頻區(qū)域密集而在中、高頻率分布稀疏,提出適用于說話人識別的改進(jìn)Mel濾波器與MidMel濾波器組相結(jié)合得到兩種混合特征參數(shù).文獻(xiàn)[5]提出對傳統(tǒng)的提取Mel頻率倒譜系數(shù)(MFCC)過程中計算FFT這一步驟進(jìn)行頻譜重構(gòu),對頻譜進(jìn)行噪聲補償重建,使之具有很好的抗噪性.文獻(xiàn)[6]利用人類聽覺模型提出一種語音感知哈希算法,該算法對倒譜系數(shù)(MFCC)算法中每幀的濾波器數(shù)量進(jìn)行控制,得到每幀語音的自適應(yīng)梅爾頻率倒譜系數(shù)(MFCC).傳統(tǒng)提取語音特征參數(shù)中的Mel濾波器組的頻率范圍是不可變的,這樣就會導(dǎo)致Mel濾波器組的利用率降低[7-9].而筆者提出的自適應(yīng)Mel濾波器組能夠?qū)γ繋臑V波器組的頻率范圍進(jìn)行調(diào)整.

首先,依據(jù)男女生基音頻率的不同,設(shè)計2個截止頻率不同的低通濾波器對識別人的性別進(jìn)行區(qū)分.其次,考慮到每一幀的語音頻譜的頻率范圍的不同,為提高M(jìn)el濾波器組的利用率,加快識別速度,筆者設(shè)計的Mel濾波器組參數(shù)可自適應(yīng)調(diào)整,主要依據(jù)每一幀語音頻譜的頻率范圍確定Mel濾波器組的最高頻率來達(dá)到自適應(yīng)的目的.最后,在Quartus Ⅱ平臺上完成Verilog代碼編寫、Modelsim時序仿真以及板級的下載驗證,封裝IP核完成SOC設(shè)計.

1總體設(shè)計

男女生生理結(jié)構(gòu)的不同決定了聲音聽覺特性的不同,男生基音頻率在100~200 Hz之間,女生基音頻率在200~350 Hz之間.因此筆者設(shè)計截止頻率為400 Hz和200 Hz的低通濾波器來對男女生進(jìn)行區(qū)別.

同一個說話人的每一幀的語音頻譜是有所區(qū)別的,傳統(tǒng)的Mel濾波器組的頻帶范圍為0~4 000 Hz,并不是針對每一幀的語音頻譜設(shè)計的,這樣會造成傳統(tǒng)Mel濾波器組中的個別濾波器并沒有被使用.因此,筆者將依據(jù)每一幀語音頻譜的頻率范圍確定Mel濾波器組的最高頻率,不但可使Mel濾波器組的參數(shù)進(jìn)行自適應(yīng)調(diào)整,而且提高了Mel濾波器組的利用率,對聲紋識別率的提高有很大作用.總設(shè)計流程圖如圖1所示.

圖1 總體設(shè)計流程圖Fig.1  Flow chart of overall design

2低通濾波器設(shè)計

2.1參數(shù)設(shè)計

在Matlab R2014a的FDATool界面中設(shè)置響應(yīng)類型為低通濾波器,使用漢寧窗進(jìn)行設(shè)計,采樣頻率設(shè)置為8 000 Hz,截止頻率分別設(shè)置為400 Hz和200 Hz, 得到時域圖分別如圖2和圖3所示,分別得到2組濾波器系數(shù),都為12階,見表1所示.

圖2 截止頻率為400 HzFig.2 Cutoff frequency of 400 Hz

圖3 截止頻率為200 HzFig.3 Cutoff frequency of 200 Hz 表1 2組濾波器系數(shù) Tab.1 Filter coefficients of two sets

序號第1組第2組序號第1組第2組10.0050.00770.1650.15420.0250.03180.1410.13630.0590.06590.1020.10340.1020.103100.0590.06550.1410.141110.0250.03160.1650.154120.0050.007

2.2Verilog HDL代碼設(shè)計

由低通濾波器的傳遞函數(shù)可以得到當(dāng)濾波器的階數(shù)為12時的表達(dá)式,可通過式(1)得出:

y(n)=c0·x(n)+c1·x(n-1)+…+c11·x(n-11).

(1)

式中:c0等為濾波器的抽頭系數(shù);n為時刻;x為序列;y為濾波器輸出.

由表達(dá)式(1)可得出,濾波器的輸出是由序列x中的12個序列點分別與對應(yīng)的12個系數(shù)進(jìn)行相乘再累加的結(jié)果. 因此編寫Verilog代碼,包括乘法模塊、加法模塊、控制模塊.綜合后的RTL視圖如圖4所示.圖中端口A中存放的是序列x,端口B中存放的是12組系數(shù).

3 自適應(yīng)Mel濾波器組設(shè)計

3.1Mel濾波器組的頻帶設(shè)計

采樣率設(shè)置為8 kHz,量化位數(shù)設(shè)置為16 bit,由于語音的短時平穩(wěn)性,幀長設(shè)置為20 ms.對每一幀語音信號進(jìn)行FFT變換,可以得到每一幀語音序列的頻譜,不同幀的語音頻譜應(yīng)該是不相同的.因此,計算每一幀語音頻譜作為Mel濾波器組的最高頻率值.設(shè)計流程如圖5所示.

圖4 FIR的RTL視圖Fig.4 RTL view of FIR

圖5 自適應(yīng)Mel濾波器組的設(shè)計流程Fig.5 Design flow of adaptive Mel filter banks

3.2Verilog HDL代碼設(shè)計

MFCC是基于人耳的聽覺特性的一種參數(shù),可通過式(2)得出.根據(jù)Zwicker的研究可知,臨界頻率帶寬隨著頻率的變化而變化,并與Mel頻率的增長一致,在1 000 Hz以下大致呈線性分布,帶寬為100 Hz左右;在1 000 Hz以上呈對數(shù)增長.

Mel(f)=2 595log10(1+f/700).

(2)

式中:f為線性頻率,Hz;Mel(f)為Mel頻率,mel.

Mel濾波器組的頻率響應(yīng)函數(shù)表達(dá)式可通過式(3)得出:

(3)

式中:o(l)為第l個三角形濾波器的上限截止Mel頻率,mel;c(l)為第l個三角形濾波器的中心Mel頻率,mel;h(l)為第l個三角形濾波器的下限截止Mel頻率,mel;k為在o(l)和c(l)之間的整數(shù)值.

由表達(dá)式(3)可看出,每個三角形濾波器都是對稱的,選擇右半邊的表達(dá)式,繪制成圖形如圖6所示.

圖6 三角形濾波器組波形Fig.6 Waveforms of triangle filters

采樣率fs設(shè)置為8 000 Hz,濾波器個數(shù)p為18,F(xiàn)FT變換點數(shù)n為160,f為一幀語音頻譜的頻率范圍,f決定了Mel濾波器組的最高頻率,Mel濾波器組的輸出用W1、W2,…,Wl等表示,inc表示下限截止Mel頻率與中心Mel頻率的間隔.設(shè)計流程如圖7所示.

圖7 Mel濾波器組的設(shè)計流程圖Fig.7 Design flow of Mel filter banks

4編譯仿真與下載驗證

4.1Modelsim時序仿真

編寫testbench文件并輸入激勵源,調(diào)用Modelsim進(jìn)行時序仿真.當(dāng)每幀語音的頻譜范圍小于傳統(tǒng)Mel濾波器組的梅爾頻率2 146 mel時,在相同的時間間隔內(nèi)自適應(yīng)濾波器組中的最后一個濾波器實現(xiàn)輸出的時間會遠(yuǎn)小于傳統(tǒng)三角形濾波器組中的最后一個濾波器實現(xiàn)輸出的時間.隨機選取第10幀語音序列,得到自適應(yīng)Mel濾波器組和傳統(tǒng)Mel濾波器組輸出分別見圖8和圖9.時間間隔為2 μs內(nèi)的自適應(yīng)Mel濾波器組的最后一個濾波器在接近960 ns時輸出為0,而傳統(tǒng)Mel濾波器組在接近1.8 μs后才輸出為0.可以看出,傳統(tǒng)三角形濾波器組中的個別濾波器是不需要被使用的,而自適應(yīng)三角形濾波器組可以提高濾波器的利用率.

4.2MATLAB性能仿真

為驗證特征參數(shù)的準(zhǔn)確性,利用Matlab中自帶的神經(jīng)網(wǎng)絡(luò)工具箱,設(shè)計一個根據(jù)10個人的不同語音幀的特征參數(shù)來確定出其中的一個人的神經(jīng)網(wǎng)絡(luò)系統(tǒng).神經(jīng)網(wǎng)絡(luò)的輸入數(shù)據(jù)為特征參數(shù),本文中包括2類,傳統(tǒng)Mel濾波器組提取的特征參數(shù)和自適應(yīng)Mel濾波器組提取的特征參數(shù),目標(biāo)輸出為0或1,0代表不是該人,1代表是此人.最終得到的誤差率如圖10和11所示.圖中,誤差=預(yù)測值-實際值.

圖8 對應(yīng)第10幀語音的自適應(yīng)Mel 濾波器組的Modelsim仿真Fig.8 Modelsim simulation of adapted Mel filter banks corresponding to the first 10 frame voice

圖10 自適應(yīng)濾波器的誤差Fig.10 Error of adapted filters

圖9 對應(yīng)第10幀語音的傳統(tǒng)Mel 濾波器組的Modelsim仿真Fig.9 Modelsim simulation of traditional Mel filters corresponding to the first 10 frame voice

圖11 傳統(tǒng)濾波器的誤差Fig.11 Error of traditional filters

由圖10和圖11可知,利用自適應(yīng)Mel濾波器組提取出的特征參數(shù)相對傳統(tǒng)Mel濾波器組進(jìn)行識別時,誤差率更小,準(zhǔn)確性得到了提高.

4.3編譯

在QUARTUS II平臺中編寫Verilog代碼,在時序仿真、綜合之后進(jìn)行編譯,消耗的硬件資源如圖12所示.

圖12 編譯報告Fig.12 Compiled report

4.4生成IP核與下載驗證

利用SOPC Builder的自定義IP技術(shù),在QUARTUS II平臺添加VERILOG文件、CPU、時鐘、定時器等組件,生成IP核,如圖13所示.

圖13 SOPC Builder組件Fig.13 Component of SOPC Builder

5結(jié)束語

根據(jù)每一幀語音頻譜的頻率范圍來確定每一個Mel濾波器組的頻帶范圍,可以有效地提高M(jìn)el濾波器組的利用率,避免了有些頻段的濾波器未被使用情況的發(fā)生,有助于提高特征參數(shù)的準(zhǔn)確性以及識別率,最后通過了硬件驗證.因此,利用IP核技術(shù)完成SOC設(shè)計,可方便模塊調(diào)用,以及減少硬件資源的使用,提高設(shè)計的開發(fā)速度.

參考文獻(xiàn):

[1]HIRAYAMA N, YOSHINO K, ITOYAMA K, et al. Automatic speech recognition for mixed dialect utterances by mixing dialect language models[J]. IEEE ACM Transactions on audio speech and language processing, 2015, 23(2):373-382.

[2]陳晨, 胡貝貝.基于語音識別技術(shù)的機載短波應(yīng)急通信[J]. 電訊技術(shù), 2014(01):6-11.

[3]DUFOUR R, Estève Y, Deléglise P. Characterizing and detecting spontaneous speech: application to speaker role recognition[J]. Speech communication, 2014, 56(1):1-18.

[4]黃銳,陸安江,張正平. 一種改進(jìn)型的MEL濾波器混合特征參數(shù)提取方法研究[J]. 通信技術(shù),2014(12):1388-1391.

[5]胡政權(quán),曾毓敏,宗原,等. 說話人識別中MFCC參數(shù)提取的改進(jìn)[J]. 計算機工程與應(yīng)用,2014(7):217-220.

[6]黃羿博,張秋余,袁占亭,等. 融合MFCC和LPCC的語音感知哈希算法[J]. 華中科技大學(xué)學(xué)報(自然科學(xué)版),2015,43(2):124-128.

[7]SHARMA R P, FAROOQ O, KHAN I. Wavelet based sub-band parameters for classification of unaspirated hindi stop consonants in initial position of cv syllables[J]. International journal of speech technology, 2013,16(3):323-332.

[8]ZENG F Z, ZHOU H. Speaker recognition based on a novel hybrid algorithm[J]. Procedia engineering,2013, 61:220-226.

[9]MAHMOOD A, ALSULAIMAN M, MUHAMMAD G. Automatic speaker recognition using multi-directional local features (mdlf)[J]. Arabian journal for science and engineering, 2014, 39(5):3799-3811.

Design of MFCC Feature Extraction Based on Adaptive Mel Filter Banks for SOC Appliacation

TAO Bairui1,2, GUO Qin1, MIAO Fengjuan1,2, LI Qinglong1

(1. Computing Center, Qiqihar University, Qiqihar 161006, China; 2. National Laboratory for Infrared Physics, Shanghai Institute of Technical Physics, Shanghai 200083, China)

Abstract:The accuracy of characteristic parameter and pattern recognition rate among speaker voiceprint authentication technologies are important. In this paper, adaptive Mel filter banks are designed after the recognition of the gender, and the SOC (system-on-chip)design of high efficiency speaker voiceprint feature extraction is completed on the EP2C35F672C6 development board of Altera's DE2 series. First of all, two low-pass filters cutoff frequency of 200 Hz and 400 Hz are designed to complete the pitch frequency detection of male and female students. Then, the parameters of Mel filter banks are calculated by the highest frequency deduced from the frequency range of speech spectrum. Then, Verilog-HDL code encapsulated as IP core for SOC design, compilation, simulation, and download authentication are finished on the Quartus II platform. The results show that adaptive Mel filter banks can improve both the accuracy of characteristic parameters and the speed of recognition.

Key words:voiceprint authentication; adaptive mel filter banks; gender recognition; SOC

收稿日期:2015-10-04;

修訂日期:2015-12-01

基金項目:國家自然科學(xué)基金資助項目(61204127);黑龍江省自然科學(xué)基金資助項目(F201438);黑龍江省教育廳科學(xué)技術(shù)研究項目(12541899,12531774);黑龍江省教育科學(xué)“十二五”規(guī)劃2014年度課題(GBC1214089);黑龍江省高校科技成果產(chǎn)業(yè)化前期研發(fā)培育資助項目(1254CGZH04)

作者簡介:陶佰睿(1972—),男,吉林洮南人,齊齊哈爾大學(xué)教授,博士,主要從事集成電路設(shè)計和聲紋識別技術(shù)研究,E-mail:Tbr_sir@163.com.

文章編號:1671-6833(2016)03-0011-05

中圖分類號:TP391.42

文獻(xiàn)標(biāo)志碼:A

doi:10.13705/j.issn.1671-6833.2016.03.003

襄樊市| 新乐市| 贵港市| 开江县| 玉环县| 宁蒗| 天全县| 新民市| 富民县| 鄂托克前旗| 棋牌| 宿州市| 滨州市| 九龙坡区| 丽水市| 义马市| 临颍县| 康平县| 哈巴河县| 临西县| 玛曲县| 道真| 会理县| 常熟市| 梁河县| 青阳县| 商洛市| 故城县| 都昌县| 镇巴县| 浮山县| 滕州市| 嵩明县| 乾安县| 永登县| 乌鲁木齐县| 方城县| 长岛县| 香河县| 三原县| 涪陵区|