国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)C0復(fù)雜度和MFCC相似度的端點(diǎn)檢測(cè)

2015-05-29 12:19:32許昊張二華
現(xiàn)代電子技術(shù) 2015年10期

許昊 張二華

摘 要: 為了提高語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率,提出一種基于改進(jìn)C0復(fù)雜度和MFCC相似度相結(jié)合的端點(diǎn)檢測(cè)算法。首先,計(jì)算每一幀語(yǔ)音信號(hào)的C0復(fù)雜度以及MFCC相似度。然后,結(jié)合C0復(fù)雜度與MFCC相似度作為新的特征參數(shù),設(shè)置閾值進(jìn)行端點(diǎn)檢測(cè)。對(duì)信噪比在-15~15 dB范圍內(nèi)的含噪語(yǔ)音進(jìn)行端點(diǎn)檢測(cè),使用Matlab軟件進(jìn)行仿真實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,該方法相對(duì)于單獨(dú)的兩種方法提高了檢測(cè)率,且穩(wěn)定性更強(qiáng)。

關(guān)鍵詞: 音信號(hào)處理; C0復(fù)雜度; MFCC相似度; 端點(diǎn)檢測(cè)

中圖分類(lèi)號(hào): TN912?34 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2015)10?0007?03

0 引 言

端點(diǎn)檢測(cè)算法在語(yǔ)音信號(hào)處理領(lǐng)域有著十分重要的意義[1]。對(duì)語(yǔ)音信號(hào)進(jìn)行準(zhǔn)確的端點(diǎn)檢測(cè)既是提高語(yǔ)音識(shí)別準(zhǔn)確率的重要環(huán)節(jié),也是提升語(yǔ)音編碼效率的關(guān)鍵。傳統(tǒng)的端點(diǎn)檢測(cè)算法常采用短時(shí)能量、短時(shí)過(guò)零率和自相關(guān)最大值等方法,這些方法在低噪聲環(huán)境下均能取得比較好的結(jié)果,但在高噪聲環(huán)境下性能則下降明顯。后來(lái)又出現(xiàn)了許多新的方法,如基于譜熵的端點(diǎn)檢測(cè)[2]、基于LPCC(線性預(yù)測(cè)倒譜系數(shù))的端點(diǎn)檢測(cè)[3]、基于時(shí)頻方差的端點(diǎn)檢測(cè)[4]等方法。這些方法確實(shí)提高了在低信噪比環(huán)境下的語(yǔ)音檢測(cè)率,然而它們?nèi)杂胁恍〉母倪M(jìn)空間。由于MFCC(Mel頻率倒譜系數(shù))較好地反映了人耳的聽(tīng)覺(jué)特性,而C0復(fù)雜度[5]較好地體現(xiàn)了語(yǔ)音信號(hào)的非線性特性,且基于二者的端點(diǎn)檢測(cè)方法均被證明具有良好的檢測(cè)效果。本文提出一種新的特征MFCC_C0,并將兩種特征進(jìn)行綜合,該方法在不同信噪比環(huán)境下均取得良好的效果,較單獨(dú)使用其中一種特征更具優(yōu)勢(shì)。

1 算法描述

1.1 改進(jìn)的C0復(fù)雜度

復(fù)雜度是作用于時(shí)間序列的一種指標(biāo),主要是將信號(hào)分解成規(guī)則成分和不規(guī)則成分兩部分,通過(guò)計(jì)算其不規(guī)則部分所占的相對(duì)比例來(lái)反應(yīng)信號(hào)的復(fù)雜度特性,就是C0復(fù)雜度描述的基礎(chǔ)[6]。改進(jìn)的C0復(fù)雜度,引入了參數(shù)r,表征超過(guò)頻譜均方值r倍,它更好地反應(yīng)了時(shí)間序列的隨機(jī)性。語(yǔ)音信號(hào)的C0復(fù)雜度計(jì)算步驟如下:

(1) 對(duì)語(yǔ)音信號(hào)進(jìn)行預(yù)加重、分幀、加窗處理,得到[fx]。其中預(yù)加重系數(shù)α=0.937 5,幀移為幀長(zhǎng)的一半,使用Hamming窗。

(2) 計(jì)算語(yǔ)音信號(hào)的頻譜:

[Fk=x=0N-1fxexp-j2πkxN, x=0,1,2,…,N-1] (1)

式中:[Fk]是[fx]的離散傅里葉變換;[x]是時(shí)域變量;[k]是頻域變量;[j=-1]。

(3) 計(jì)算語(yǔ)音信號(hào)頻譜均方值:

[Fk=1Nk=0N-1Fk2] (2)

(4) 引入?yún)?shù)r(r為大于等于1的常數(shù)),保留大于頻譜均方值r倍的頻譜,將其余部分置零,大于閾值的部分認(rèn)為是語(yǔ)音信號(hào)中的規(guī)則成分,小于閾值的部分認(rèn)為是語(yǔ)音信號(hào)中的隨機(jī)成分,即:

[Fk=Fk,F(xiàn)k2≥rFk0,F(xiàn)k2

(5) 對(duì)[Fk]做傅里葉逆變換:

[fx=1Nk=0N-1Fkexpj2πkxN, x=0,1,2,…,N-1] (4)

(6) 語(yǔ)音信號(hào)的改進(jìn)C0復(fù)雜度定義如下:

[C0r=x=0N-1fx-fx2x=0N-1fx2] (5)

當(dāng)r=1時(shí),[C0r]就是原C0復(fù)雜度的定義。本文中取r=8。改進(jìn)后的C0復(fù)雜度比原來(lái)C0復(fù)雜度更可靠[7]。

1.2 MFCC相似度

MFCC(Mel頻率倒譜系數(shù))從人耳的聽(tīng)覺(jué)出發(fā),與基于實(shí)際頻率倒譜的分析不同。人耳感受到的聲音頻率與聲音的實(shí)際頻率成非線性關(guān)系,而Mel頻率尺度[8]則是根據(jù)人耳的聽(tīng)覺(jué)特性設(shè)計(jì)的。臨界頻率帶寬隨著頻率的變化而變化[9],并與Mel頻率的增長(zhǎng)相一致。當(dāng)頻率低于1 000 Hz時(shí),臨界頻率帶寬大約為100 Hz;當(dāng)中心頻率高于1 000 Hz時(shí),臨界頻率帶寬呈對(duì)數(shù)增長(zhǎng)。類(lèi)似于臨界頻帶的劃分,可以使用帶通濾波器組來(lái)模擬人耳對(duì)不同頻率語(yǔ)音信號(hào)的處理。MFCC相似度[2]的計(jì)算步驟如下:

(1) 計(jì)算語(yǔ)音信號(hào)的頻譜[Fk],由式(1)可得。

(2) 根據(jù)式(6)將實(shí)際頻率映射到Mel頻率上:

[Melf=2595lg1+f700] (6)

式中參數(shù)[f]表示實(shí)際頻率,單位為Hz。

(3) 設(shè)置L個(gè)三角濾波器,濾波器的個(gè)數(shù)由信號(hào)的截止頻率決定(本文取L=24)。在Mel頻率尺度上,每個(gè)濾波器的中心頻率間隔相等。設(shè)[ol]、[cl]、[hl]分別是第[l]個(gè)三角濾波器的下限、中心和上限頻率,由于相鄰濾波器組有重疊,它們的關(guān)系如下[9]:

[cl=hl-1=ol+1] (7)

(4) 計(jì)算每個(gè)濾波器的輸出:

[ml=k=olhlWlkFk, l=1,2,…,L] (8)

式中三角濾波器[Wlk]可表示為:

[Wlk=k-olcl-ol ,ol≤k≤clhl-khl-cl ,cl≤k≤hl] (9)

(5) 對(duì)濾波器輸出取對(duì)數(shù),并做離散余弦變換可得MFCC參數(shù):

[cMFCCi=2Nl=1Llgmlcosl-12iπL] (10)

(6) 假設(shè)當(dāng)前語(yǔ)音信號(hào)的前10幀為背景噪聲,取這幾幀信號(hào)的MFCC 參數(shù)均值作為背景噪聲MFCC參數(shù)的估計(jì)值。同時(shí)為了使背景噪聲估計(jì)值實(shí)時(shí)反映語(yǔ)音信號(hào)的實(shí)際背景噪聲情況,提出背景噪聲的MFCC參數(shù)更新公式[8]:

[Cnoise=pC+1-pCi] (11)

式中:[C]為語(yǔ)音信號(hào)前10幀MFCC參數(shù)的均值;p為加權(quán)因子;[Ci]表示當(dāng)前幀的MFCC參數(shù)。若當(dāng)前幀被判斷為噪聲幀,則使用當(dāng)前幀的MFCC參數(shù)[Ci]來(lái)更新背景噪聲參數(shù)[Cnoise。]

(7) 相似度是用來(lái)衡量?jī)蓚€(gè)對(duì)象之間相似程度的,求取相似度的方法有很多,如明氏距離、夾角余弦距離、相似性函數(shù)法等。本文選用相關(guān)系數(shù)距離法,來(lái)衡量?jī)蓚€(gè)特征向量(當(dāng)前語(yǔ)音幀的MFCC參數(shù)[Ci]與噪聲幀的MFCC參數(shù)[Cnoise])之間的相似度。[di=1-x-xy-yx-xx-x′12y-yy-y′12] (12)

式中:[x=j=1nxj];[y=j=1nyj]。

1.3 兩種特征聯(lián)合檢測(cè)

C0復(fù)雜度表示信號(hào)中隨機(jī)運(yùn)動(dòng)所占的份額,而噪聲的隨機(jī)運(yùn)動(dòng)程度遠(yuǎn)高于語(yǔ)音的隨機(jī)運(yùn)動(dòng)程度。MFCC特征參數(shù)模擬了人耳的聽(tīng)覺(jué)機(jī)制,具有較強(qiáng)的抗噪能力。這兩種特征相關(guān)性較低,本文通過(guò)對(duì)兩種特征分別歸一化后進(jìn)行綜合加權(quán)構(gòu)建一個(gè)新特征MFCC_C0,在此基礎(chǔ)上設(shè)置閾值進(jìn)行端點(diǎn)檢測(cè)。當(dāng)信噪比高于5 dB時(shí),C0復(fù)雜度檢測(cè)率高于MFCC 相似度算法,此時(shí)給予C0復(fù)雜度特征更高的權(quán)重,反之,則給予MFCC 相似度特征更高的權(quán)重。

新特征MFCC_C0定義如下[10]:

[MFCC_C0i=C0_normi+9d_normi,SNR<5 dB9+SNR-55C0_normi+d_normi,SNR≥5 dB] (13)

式中:SNR為信噪比;[C0_normi]為C0的歸一化表示,[d_normi]為[di]的歸一化表示。

2 實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)采用一段新聞聯(lián)播的語(yǔ)音信號(hào)作為純凈語(yǔ)音。并使用Cool Edit Pro軟件對(duì)其重新編輯,只保存單聲道,16 kHz采樣率和16 b量化處理。選用NOISEX?92噪聲庫(kù)中的白噪聲,合成不同信噪比的帶噪語(yǔ)音。為了驗(yàn)證本文提出方法較先前兩種方法有所改進(jìn),將三種端點(diǎn)檢測(cè)方法的檢測(cè)效果顯示在同一幅圖中,進(jìn)行直觀的比較。本文使用Matlab軟件進(jìn)行實(shí)驗(yàn),結(jié)果見(jiàn)圖1,圖2。

圖1 信噪比為-10 dB時(shí)的三種方法的檢測(cè)結(jié)果

圖2 信噪比為10 dB時(shí)的三種方法的檢測(cè)結(jié)果

圖1、圖2中,每張圖均由(a)~(e)五個(gè)子圖構(gòu)成[10],其中:(a)為純凈語(yǔ)音;(b)為帶噪語(yǔ)音;(c)為MFCC相似度的檢測(cè)結(jié)果;(d)為C0復(fù)雜度算法的檢測(cè)結(jié)果;(e)為C0復(fù)雜度與MFCC相似度相結(jié)合算法的檢測(cè)結(jié)果。每個(gè)子圖中的紅色線條表示一段語(yǔ)音的開(kāi)始和結(jié)束。其中,圖(a)、(b)是由人耳辨別,并在曲線上標(biāo)示出語(yǔ)音段的起始位置。圖(a)被劃分為10小段語(yǔ)音。圖(c)~圖(e)是由三種端點(diǎn)檢測(cè)算法自動(dòng)檢測(cè)出的結(jié)果。

圖1給出在信噪比-10 dB下,三種算法的檢測(cè)效果。從圖(c)可以看出,MFCC相似度算法檢測(cè)出大部分語(yǔ)音段,但未檢測(cè)出第6段語(yǔ)音,且未能將第7,8段語(yǔ)音分開(kāi),及未能檢測(cè)出第9段語(yǔ)音;而從圖(d)可以看出,C0復(fù)雜度僅檢測(cè)出4段語(yǔ)音,存在大量誤判,且語(yǔ)音段與非語(yǔ)音段區(qū)分度很低;從圖(e)可以看出,本文提出的方法檢測(cè)效果接近MFCC相似度,好于C0復(fù)雜度的檢測(cè)結(jié)果。

圖2給出了在信噪比為10 dB下,三種算法的檢測(cè)效果。從圖(c)可以看出,MFCC相似度檢測(cè)出了絕大多數(shù)的語(yǔ)音段,包括第6段語(yǔ)音,然而第7,8段語(yǔ)音仍然未能被很好地分離,且未能區(qū)分第9,10段語(yǔ)音;而從圖(d)可以看出,C0復(fù)雜度檢測(cè)出了所有的語(yǔ)音,且區(qū)分性非常明顯;從圖(e)可以看出,本文提出的方法檢測(cè)效果接近C0復(fù)雜度,好于MFCC相似度。

為進(jìn)一步檢驗(yàn)本文所提的算法的正確率,對(duì)三種端點(diǎn)檢測(cè)算法的正確率進(jìn)行計(jì)算并統(tǒng)計(jì)。表1是信噪比范圍在-15~15 dB下,三種端點(diǎn)的檢測(cè)效果。端點(diǎn)檢測(cè)的正確率可由式(14)得出:

[正確率=判斷正確的幀數(shù)語(yǔ)音的總幀數(shù)×100%] (14)

表1 MFCC相似度、C0復(fù)雜度及本文算法端點(diǎn)檢測(cè)正確率比照表

由表1可以看出,在-15~15 dB之間,與C0復(fù)雜度及MFCC相似度算法相比,改進(jìn)算法綜合了兩者的優(yōu)點(diǎn),取兩者的較高值,且表現(xiàn)穩(wěn)定。當(dāng)信噪比低于0 dB時(shí),C0復(fù)雜度的誤判逐漸增多,MFCC 相似度檢測(cè)的正確率較高,此時(shí)改進(jìn)算法更接近MFCC相似度的檢測(cè)效果。當(dāng)信噪比高于5 dB時(shí),改進(jìn)算法與C0復(fù)雜度算法性能接近,端點(diǎn)檢測(cè)的正確度要高于MFCC相似度算法。

3 結(jié) 語(yǔ)

本文提出了一種基于C0復(fù)雜度與MFCC 相似度的端點(diǎn)檢測(cè)算法。 MFCC參數(shù)很好地描述了人耳的聽(tīng)覺(jué)機(jī)制,能夠很好地區(qū)分語(yǔ)音和噪聲,其具有較強(qiáng)的穩(wěn)定性以及抗噪性。然而基于MFCC相似度的端點(diǎn)檢測(cè)算法準(zhǔn)確率并不高,特別是當(dāng)信噪比提高后未有顯著提升。而基于C0復(fù)雜度的端點(diǎn)檢測(cè)算法在高信噪比的情況下具有較高的檢驗(yàn)率。MFCC相似度與C0復(fù)雜度兩種特征的結(jié)合,彌補(bǔ)了它們單一使用時(shí)的不足,提高了語(yǔ)音的檢測(cè)率及算法的穩(wěn)定性。實(shí)驗(yàn)結(jié)果表明,該算法性能良好,在多種信噪比下均有良好的表現(xiàn)。

參考文獻(xiàn)

[1] 朱曉晶,侯旭初,崔慧娟,等.基于LPCC和能量熵的端點(diǎn)檢測(cè)[J].電訊技術(shù),2010,50(6):41?45.

[2] 劉榮,劉珩.低信噪比下基于功率譜上的語(yǔ)音端點(diǎn)檢測(cè)算法[J].計(jì)算機(jī)工程與應(yīng)用,2009,45(33):122?124.

[3] 李玉萍,樸春俊,韓永成.一種帶噪語(yǔ)音信號(hào)端點(diǎn)檢測(cè)方法研究[J].電子測(cè)試,2008(2):14?17.

[4] 馬靜霞.帶噪語(yǔ)音端點(diǎn)檢測(cè)方法的研究[D].秦皇島:燕山大學(xué),2007.

[5] 范影樂(lè),武傳燕,李軼,等.基于C0復(fù)雜度的語(yǔ)音端點(diǎn)檢測(cè)技術(shù)研究[J].傳感技術(shù)學(xué)報(bào),2006,19(3):750?753.

[6] 王綱金,趙歡,胡煉.基于小波變換C0復(fù)雜度的語(yǔ)音端點(diǎn)檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2010,46(29):134?136.

[7] 蔡志杰,孫潔.改進(jìn)的C0復(fù)雜度及其應(yīng)用[J].復(fù)旦學(xué)報(bào):自然科學(xué)版,2008,47(6):791?796.

[8] 王宏志,徐玉超,李美靜.基于Mel頻率倒譜參數(shù)相似度的語(yǔ)音端點(diǎn)檢測(cè)算法[J].吉林大學(xué)學(xué)報(bào):工學(xué)版,2012,42(5):1331?1335.

[9] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2009.

[10] 鄧瑞,肖純智,高勇.基于MFCC相似度和譜熵的端點(diǎn)檢測(cè)算法[J].現(xiàn)代電子技術(shù),2013,36(21):67?69.

孝义市| 阳山县| 钟山县| 宝兴县| 沅陵县| 缙云县| 金平| 汝南县| 太湖县| 临泽县| 信丰县| 虎林市| 武威市| 门源| 山阴县| 文成县| 万载县| 通山县| 嘉禾县| 太原市| 全椒县| 宿州市| 和平区| 新竹市| 屏边| 潼关县| 吉隆县| 博罗县| 沂水县| 石林| 东莞市| 松原市| 灵武市| 平原县| 都匀市| 左权县| 腾冲县| 高青县| 彝良县| 上思县| 长汀县|