国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Fisher線性判別分析的語音信號(hào)端點(diǎn)檢測方法

2015-07-12 14:11:32王明合張二華唐振民
電子與信息學(xué)報(bào) 2015年6期
關(guān)鍵詞:清音背景噪聲端點(diǎn)

王明合 張二華唐振民 許 昊

(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

基于Fisher線性判別分析的語音信號(hào)端點(diǎn)檢測方法

王明合 張二華*唐振民 許 昊

(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)

傳統(tǒng)的語音端點(diǎn)檢測方法對輔音,特別是受到噪聲污染的清音部分與背景噪聲之間分離能力不足。針對上述問題,該文提出一種基于Fisher線性判別分析的梅爾頻率倒譜系數(shù)(F-MFCC)端點(diǎn)檢測方法。將清音信號(hào)和背景噪聲視為兩類分類問題,采用Fisher準(zhǔn)則求解具有判別信息的最佳投影方向,使得投影后的特征參數(shù)具有最小類內(nèi)散度和最大類間散度,從而增大清音與背景噪聲的可分離性。在不同語音庫上的實(shí)驗(yàn)結(jié)果表明,F(xiàn)-MFCC能夠在不同信噪比和背景噪聲條件下提高語音端點(diǎn)檢測的準(zhǔn)確率。

語音處理;語音端點(diǎn)檢測;梅爾頻率倒譜系數(shù);Fisher線性判別分析

1 引言

語音端點(diǎn)檢測(Voice Activity Detection, VAD)是指用來檢測語音信號(hào)中語音起始點(diǎn)和結(jié)束點(diǎn)的技術(shù),目的是把有聲段和無聲段分開。該技術(shù)廣泛應(yīng)用于語音識(shí)別、說話人識(shí)別、語音編碼、信道傳輸及語音信號(hào)減噪等相關(guān)領(lǐng)域。研究表明,即使在安靜環(huán)境下,語音識(shí)別系統(tǒng)大部分的錯(cuò)誤是由端點(diǎn)檢測精度不足造成的[1]。VAD是語音信號(hào)處理中最基本的,但又極為關(guān)鍵的環(huán)節(jié),仍然是當(dāng)前研究的熱點(diǎn)之一。早期階段,其主要采用語音的短時(shí)能量和過零率相結(jié)合的雙門限法進(jìn)行檢測,在純凈語音狀況下具有良好的性能。然而,在真實(shí)環(huán)境下,采集的語音信號(hào)大多伴有各種各樣的噪聲,使得檢測性能大幅下降,進(jìn)而會(huì)降低語音自動(dòng)識(shí)別系統(tǒng)的準(zhǔn)確性以及語音通信系統(tǒng)重構(gòu)語音信號(hào)的質(zhì)量。

針對噪聲干擾,研究人員提出了大量的VAD方法,從不同的角度可以分為多種類型。從所提取的特征參數(shù)來看,有基于短時(shí)能量及過零率、子帶信噪比[2]、自相關(guān)函數(shù)、聲道共振峰[3,4]、譜熵[5]、小波分解系數(shù)[6]、線性預(yù)測倒譜系數(shù)殘差及高階統(tǒng)計(jì)量[7]、梅爾頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)[8]、ERB特征[9]、希爾伯特-黃變換特征[10]、稀疏表示[11]和多種特征相結(jié)合[12]等方法;從判決距離來分有基于歐式距離、明式距離、余弦夾角距離、相關(guān)系數(shù)距離[8]等方法;從機(jī)器學(xué)習(xí)的角度可分為有監(jiān)督學(xué)習(xí)、無監(jiān)督聚類和半監(jiān)督學(xué)習(xí)方法。近年來還有研究者提出了基于多麥克風(fēng)[13]和深度神經(jīng)網(wǎng)絡(luò)(deep neural networks)[14]等方法。上述方法通過噪聲特性估計(jì),雖然在一定程度上提高了VAD的魯棒性,但對于一些受到噪聲污染的輔音信號(hào),特別是和噪聲特征較為接近的清音部分,分離能力明顯不足。

Fisher線性判別分析(Fisher lineardiscri-minant analysis)[15]作為模式識(shí)別領(lǐng)域最具影響的算法之一,廣范應(yīng)用于人臉識(shí)別、醫(yī)學(xué)圖像分類、語音識(shí)別等系統(tǒng)。本文將VAD看作兩類分類問題,提出基于Fisher線性判別分析的F-MFCC 端點(diǎn)檢測方法。在語音庫上事先選取部分清音信號(hào)作為清音樣本集,把待檢測語音的前幾幀作為背景噪聲樣本集,通過Fisher準(zhǔn)則求解MFCC具有判別信息的最佳投影方向。特征參數(shù)經(jīng)投影后,增強(qiáng)了清音和背景噪聲之間的區(qū)分能力,使得清音分離能力大幅提高,從而F-MFCC端點(diǎn)檢測方法的整體準(zhǔn)確度得到提升。在增強(qiáng)清音分離能力的同時(shí),濁音分離能力依然保持良好,只有極少部分受到了一些影響,可以通過和短時(shí)能量參數(shù)相結(jié)合來彌補(bǔ)。求得投影向量后,對每幀MFCC特征參數(shù)直接投影降維至1維標(biāo)量,根據(jù)閾值判決該幀是否為有聲段。

本文結(jié)構(gòu)安排為:第2節(jié)介紹基于MFCC相似度方法;第3節(jié)提出F-MFCC算法并進(jìn)行理論分析;第4節(jié)在不同信噪比和背景噪聲條件下進(jìn)行實(shí)驗(yàn)仿真和性能評價(jià);第5節(jié)總結(jié)全文。

2 基于MFCC相似度方法

MFCC是最常用的聲學(xué)特征之一。由耳蝸的生理構(gòu)造決定,人耳對不同頻率的聲音信號(hào)具有不同的感知能力,在頻域上呈現(xiàn)非線性關(guān)系。MFCC就是根據(jù)這種現(xiàn)象提出的特征參數(shù)。首先對語音信號(hào)預(yù)加重、分幀、加窗處理,然后對每幀進(jìn)行離散傅里葉變換,得到在頻率域上的能量分布。根據(jù)人耳特性設(shè)置一組三角濾波器組,計(jì)算每個(gè)濾波器輸出的能量的對數(shù),再經(jīng)過離散余弦變換,得到一組系數(shù)c(i),即MFCC。在實(shí)際應(yīng)用中,通常保留前12維,1≤i≤12。將MFCC的向量形式記作cm,其中m為幀序列號(hào)。選取相關(guān)系數(shù)作為相似度測度,根據(jù)式(1)計(jì)算cm和b的MFCC相似度距離d(cm, b),并參照短時(shí)能量法,選取合適的閾值來判決該幀是有聲段,還是背景噪聲段。

3 基于Fisher線性判別分析的VAD

雖然傳統(tǒng)VAD能夠降低噪聲對端點(diǎn)檢測的影響,但是對受到噪聲污染的輔音以及和噪聲特征較為接近的清音部分分離能力明顯不足。VAD所采用的語音特征主要有能量、過零率、信噪比、MFCC等,下面分別從這幾個(gè)方面來分析清音信號(hào)分離能力弱的原因。圖1(a)為加入白色噪聲的含噪語音,信噪比為0 dB;圖1(b)為人工端點(diǎn)標(biāo)注,用0表示背景噪聲段,1表示清音段,2表示濁音段;圖1(c)為含噪語音的頻譜圖。相對于濁音,清音的能量本來就較低,且多數(shù)噪聲和清音的過零率同樣較高,顯然,在強(qiáng)噪聲背景下,很難從能量和過零率上把清音和噪聲區(qū)分開來。圖1(a)中含噪語音的平均信噪比為0 dB,在部分元音段,信噪比峰值高達(dá)27 dB,而在部分清音段,信噪比則低至 -9 dB。因此對背景噪聲的估計(jì)和自適應(yīng)更新中產(chǎn)生的誤差偏移很容易導(dǎo)致基于信噪比閾值的端點(diǎn)檢測產(chǎn)生錯(cuò)誤;從圖1(c)中可以看出,受噪聲污染的清音信號(hào)和背景噪聲的頻譜極為相似,這導(dǎo)致基于相似度距離的VAD很難實(shí)現(xiàn)清音和背景噪聲的有效分離。

圖1 加噪語音信號(hào)

從發(fā)聲原理角度分析,清音可以被認(rèn)為是通過聲門的氣流噪聲經(jīng)過聲道的濾波產(chǎn)生的,和自然生成的各類背景噪聲不盡相同。因此,可以把背景噪聲和清音看作兩類分類問題,通過將Fisher線性判別分析[15]引入VAD,增大清音與背景噪聲的類間散度和減小類內(nèi)散度,以此來提高兩者的判別能力。其基本思想是將高維的特征參數(shù)投影降維到最佳判別矢量空間,投影后保證模式樣本在新的子空間類內(nèi)緊湊和類間分離(即最小的類內(nèi)散度和最大的類間散度),模式在該空間中有最佳的可分離性。VAD屬于兩類分類,可以投影降維到1維空間,在此基礎(chǔ)上可選取合適的閾值區(qū)分有聲段和背景噪聲段。不同人之間,甚至男女之間清音的MFCC差別很小,因此,我們在已有純凈語音庫中隨機(jī)選取清音段組合成一個(gè)約3 s的清音樣本集,預(yù)加重、分幀、加窗后,提取出N1幀MFCC參數(shù),記作Qk, 1 ≤ k ≤N1。取待檢測語音信號(hào)的前N2幀,作為背景噪聲樣本集,同樣處理得到N2幀MFCC參數(shù),記作Gk, 1≤ k ≤ N2,通常N2取值10。清音樣本集、背景噪聲樣本集以及二者合并后樣本集的均值向量分別記作u1,u2,u0,根據(jù)式(2)計(jì)算。給定投影向量w,取維數(shù)12,則投影后的類間散度為

類內(nèi)散度為

Fisher鑒別準(zhǔn)則表達(dá)式為其中,SB,SW均為對稱半正定矩陣,(SW)1/2= ()1/2,且S=(S)1/2(S)1/2。 WWW

等價(jià)于求最大特征值λmax[()?1/2SB(SW)?1/2]= λmax[(SW)?1SB]對應(yīng)的特征向量,即

其中,λmax及(w?w)為標(biāo)量,w與(SW)?1?(u1?u2)同方向,若忽略系數(shù),則最佳投影方向w為

將待檢測的語音信號(hào)提取出每幀的梅爾倒譜系數(shù)cm,其中m為幀序列號(hào)。根據(jù)式(9),將投影降維到1維后的參數(shù)記作rm。

圖2(a)為在安靜環(huán)境下錄制的一段語音對應(yīng)的波形??紤]到在無聲段也有錄音設(shè)備的本底噪聲存在,絕對純凈的語音信號(hào)現(xiàn)實(shí)世界中是不存在的。不失一般性,本文將所有非語音信號(hào)視為噪聲,亦即將所有無聲段均視為背景噪聲段。圖2(b)為人工標(biāo)注,其中,0表示背景噪聲段,1表示清音段,2表示濁音段。通過觀察圖2(c)中MFCC的投影值曲線可知,清音段和背景噪聲段的可分離性顯著提高,濁音段和背景噪聲段的可分離性保持良好。將語音信號(hào)的短時(shí)能量值記作em,根據(jù)式(10)和rm進(jìn)行融合后,記作pm。

其中,R為背景噪聲r(shí)值的估計(jì)。將待檢測語音信號(hào)前N2幀rm的平均作為R的初始值,α為權(quán)重系數(shù)。設(shè)E為em前N2幀的平均值。若E小于τ,則令E=τ。設(shè)α=a/E,其中a和τ為常數(shù),分別取值0.1和0.05。當(dāng)背景噪聲較小時(shí),em在pm中權(quán)重較大,可有效避免將說話過程中和清音特征相近的換氣、呼吸等噪聲誤檢測為有聲段;當(dāng)背景噪聲較大時(shí),em在pm中權(quán)重變小,|rm?R|的權(quán)重變大,可減弱背景噪聲的能量對端點(diǎn)檢測的干擾。在檢測過程中,如果第j幀對應(yīng)的信號(hào)被判決為背景噪聲,

圖2 語音信號(hào)MFCC投影后的參數(shù)

則根據(jù)式(11)對R進(jìn)行更新,以自適應(yīng)地跟蹤背景噪聲的變化。

式中,β∈[0, 1]決定R自適應(yīng)背景噪聲的速度,本文取固定值0.01。

圖2(d)給出了參數(shù)pm對應(yīng)的曲線。對于背景噪聲段,|rm?R|和em均較小,故pm值較??;對清音段,|rm?R|較大,但em較小,故pm值中等;對濁音段,|rm?R|和em均較大,故pm值較大。因此,將參數(shù)pm作為最終VAD的判決依據(jù),在保證濁音有效檢出的情況下,清音的分離能力明顯增強(qiáng)。

4 性能分析與評價(jià)

4.1 實(shí)驗(yàn)環(huán)境

仿真實(shí)驗(yàn)所采用的語音信號(hào)選自NUST603_ 2014及TIMIT語音庫,混疊的噪聲選自NOISEX-92噪聲庫。NUST603_2014語音庫由南京理工大學(xué)“高維信息智能感知與系統(tǒng)”教育部重點(diǎn)實(shí)驗(yàn)室錄制完成,包含男210人,女213人,是在日常辦公室環(huán)境下,分別通過麥克風(fēng)、固定電話、手機(jī)3種傳輸信道錄制的,并混有真實(shí)自然的背景噪聲。TIMIT語音庫由Texas Instruments和Massa-chusetts Institute of Technology聯(lián)合錄制完成,包含男438人,女192人,是在安靜環(huán)境及高質(zhì)量麥克風(fēng)條件下錄制的連續(xù)語音。

實(shí)驗(yàn)在聯(lián)想PC機(jī)(CPU:E7500, 2.93 GHz)上進(jìn)行,操作系統(tǒng)采用Windows XP,在MATLAB R2011a 環(huán)境下執(zhí)行F-MFCC。在不同語種和噪聲條件下,以人工標(biāo)注為標(biāo)準(zhǔn),重點(diǎn)考察如下3方面的性能指標(biāo):

(1)清音分離能力:指將清音信號(hào)和背景噪聲進(jìn)行區(qū)分的能力。

(2)整體檢測準(zhǔn)確率:指端點(diǎn)檢測正確的幀數(shù)在被測試語音信號(hào)總幀數(shù)中所占據(jù)的比例。

(3)實(shí)時(shí)性能:統(tǒng)計(jì)F-MFCC的執(zhí)行時(shí)間,以此衡量實(shí)時(shí)性能。

在后續(xù)結(jié)果分析中,我們將(1)對比F-MFCC和MFCC相似度方法的清音分離能力;(2)對比AMR-1[2],基于MFCC相似度方法和F-MFCC的整體準(zhǔn)確率;(3)分析F-MFCC的實(shí)時(shí)檢測性能。

4.2 結(jié)果分析

在NUST603_2014語音庫麥克風(fēng)目錄下,隨機(jī)選取清音片段,組成約3 s的清音樣本集。將待檢測語音信號(hào)的前N2幀作為背景噪聲的樣本集。利用Fisher線性判別分析找到最佳投影向量,將語音信號(hào)提取出MFCC,逐幀投影降維,并和能量參數(shù)融合后,作為VAD的判決參數(shù)。

圖3~圖6對選自NUST603_2014語音庫中的麥克風(fēng)語音、固定電話語音、TIMIT語音庫純凈語音、NUST603_2014語音庫的麥克風(fēng)語音混入白色噪聲后(SNR=0 dB)的部分語音信號(hào)清音分離能力進(jìn)行了對比,分別用0和1表示背景噪聲段和有聲語音段(包括清音段和濁音段)。在人工標(biāo)注過程中,分別用0,1和2表示背景噪聲段、清音段和濁音段。由圖可知,在不同的語種和信噪比條件下,F(xiàn)-MFCC在清音分離能力方面都明顯超過了傳統(tǒng)方法中具有代表性的基于MFCC相似度距離檢測方法。圖3和圖5中語音信號(hào)的背景噪聲雖然較小,但噪聲類型主要是錄音設(shè)備的電路噪聲和說話人的呼吸、換氣噪聲。通過適當(dāng)擴(kuò)大參數(shù)α, F-MFCC可以有效降低此類噪聲對VAD的影響,所以清音分離性能明顯優(yōu)于MFCC相似度方法。圖4中語音信號(hào)采集自固定電話,并伴有隨時(shí)間波動(dòng)的周期性環(huán)境噪聲,該環(huán)境下F-MFCC的清音分離性能略優(yōu)于MFCC相似度方法。圖6中語音信號(hào)為NUST603_2014語音庫的麥克風(fēng)語音混入白色噪聲,背景噪聲幾乎將清音信號(hào)完全淹沒。通過適當(dāng)減小參數(shù)α,調(diào)節(jié)pm中 |rm?R|的權(quán)重,提高清音分離能力。

圖3 清音分離能力對比(麥克風(fēng)語音)

圖4 清音分離能力對比(帶噪電話語音)

圖5 清音分離能力對比(TIMIT語音庫語音)

圖6 清音分離能力對比(麥克風(fēng)語音混入白色噪聲)

下面對AMR-1,基于MFCC相似度方法和F-MFCC的準(zhǔn)確率進(jìn)行結(jié)果分析。受噪聲污染清音信號(hào)的誤判是導(dǎo)致傳統(tǒng)VAD錯(cuò)誤的重要原因之一。清音的分離能力改善了,VAD的整體準(zhǔn)確率自然會(huì)得到提高。在不同語音庫和信噪比條件下,F(xiàn)-MFCC, AMR-1和基于MFCC相似度方法的整體準(zhǔn)確率對比如表1所示。其中NUST603_2014語音庫的麥克風(fēng)語音、帶噪電話語音、TIMIT語音庫純凈語音的信噪比由NIST STNR Tools(V2.7)評估得出。

由表1可知, F-MFCC端點(diǎn)檢測方法在不同條件下的整體準(zhǔn)確率均明顯高于其它兩種方法。目前所廣泛使用的AMR并不精確[16],原因是該方法在檢測到有聲段時(shí),為保證經(jīng)編碼和傳輸后語音的可懂度,將有聲段分別向前、向后延展幾幀,降低了有聲段的漏檢率,但明顯增加了將無聲段誤檢測成有聲段的虛警率。高精度的VAD可進(jìn)一步提高多速率語音編碼的壓縮率,并降低對傳輸信道的帶寬要求。在對TIMIT語音庫純凈語音的試驗(yàn)中,基于MFCC相似度的方法準(zhǔn)確率只有75.2%。這是因?yàn)橄啾葷h語普通話,清音在英語中所占的比例明顯更多,所以清音分離能力對VAD整體準(zhǔn)確率的影響更大。為了提高實(shí)驗(yàn)結(jié)果的參考價(jià)值,這里考慮了兩種檢測方案,分別命名為F-MFCC(I)和FMFCC(II)。前者的清音樣本取自NUST603_2014語音庫麥克風(fēng)目錄下的漢語普通話語音信號(hào);后者的清音樣本取自TIMIT語音庫英語語音信號(hào)。根據(jù)表中的數(shù)據(jù)可知,在5種情況下的VAD準(zhǔn)確度,F(xiàn)-MFCC(II)均優(yōu)于F-MFCC(I),這是源于英語和漢語普通話的語言結(jié)構(gòu)、發(fā)音方式等存在差異。取自TIMIT語音庫英語語音信號(hào)的清音樣本集音素更豐富,代表性更強(qiáng)。實(shí)驗(yàn)結(jié)果表明:相對于基線方法AMR-1和基于MFCC相似度的VAD,在所有5種測試條件下,F(xiàn)-MFCC端點(diǎn)檢測方法獲得了相對更高的整體準(zhǔn)確率。

我們統(tǒng)計(jì)了NUST603_2014語音庫中語音端點(diǎn)檢測所需的時(shí)間,以此評價(jià)F-MFCC的實(shí)時(shí)檢測性能。為了提高實(shí)驗(yàn)結(jié)果的參考價(jià)值,我們從語音庫隨機(jī)選取400段(約6h)語音進(jìn)行以上的實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)統(tǒng)計(jì)數(shù)據(jù),每60 s語音信號(hào)的端點(diǎn)檢測平均執(zhí)行時(shí)間為1.211 s,表明F-MFCC可以滿足實(shí)時(shí)性要求。

5 結(jié)論

本文在Fisher線性判別分析的基礎(chǔ)上,提出了F-MFCC端點(diǎn)檢測方法。首先,用Fisher準(zhǔn)則求解具有判別信息的最佳投影方向,目的是增大噪聲和清音間的可分離性。然后,把MFCC作為語音信號(hào)的特征參數(shù),并將其投影值和短時(shí)能量相結(jié)合,增強(qiáng)了對易受噪聲污染的清音信號(hào)的分離能力,提高了端點(diǎn)檢測的整體準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該方法在不同語種、環(huán)境噪聲和信噪比條件下,端點(diǎn)檢測的清音分離能力、整體準(zhǔn)確率始終優(yōu)于目前具有代表性的AMR-1和MFCC相似度方法。

表1 檢測準(zhǔn)確率對比(%)

[1] Junqua J C. Robustness and cooperative multi-model man-machine communication applications[C]. The Structure of Multimodal Dialogue, Maratea, Italy, 1991: 101-112.

[2] ETSI. Universal Mobile Telecommunication Systems (UMTS); Mandatory Speech Codec speech processing functions, AMR speech codec; Voice Activity Detector VAD[S]. ETSI TS 126 094 v11.0.0(2012-10): 1-26.

[3] Wan Yu-long, Wang Xian-liang, Zhou Ruo-hua, et al.. Enhanced voice activity detection based on automatic segmentation and event classification[J]. Journal of Computational Information Systems, 2014, 10(10): 4169-4177.

[4] 宮朝輝, 刁麓弘. 改進(jìn)共振峰提取的語音端點(diǎn)檢測[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2013, 25(8): 1230-1236.

Gong Zhao-hui and Diao Lu-hong. Improved speech endpoint detection based on formant[J]. Journal of Computer Aided Design & Computer Graphics, 2013, 25(8): 1230-1236.

[5] 李曄, 張仁志, 崔慧娟, 等. 低信噪比下基于譜熵的語音端點(diǎn)檢測算法[J]. 清華大學(xué)學(xué)報(bào)(自然科學(xué)版), 2005, 45(10): 1397-1440.

Li Ye, Zhang Ren-zhi, Cui Hui-juan, et al.. Voice activity detection algorithm with low signal-to-noise ratios based on the spectrum entropy[J]. Journal of Tsinghua University (Science and Technology), 2005, 45(10): 1397-1440.

[6] Chen Shi-huang and Wang Jhing-fa. A wavelet-based voice activity detection algorithm in noisy environments[C]. Proceedings of the 9th IEEE International Conference on Electmnics, Circuits and Systems, Dubrovnik, Croatia, 2002: 995-998.

[7] Ghosh P K, Tsiartas A, and Narayanan S. Robust voice activity detection using long-term signal variability[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(3): 600-613.

[8] 王宏志, 徐玉超, 李美靜. 基于Mel頻率倒譜參數(shù)相似度的語音端點(diǎn)檢測算法[J]. 吉林大學(xué)學(xué)報(bào)(工學(xué)版), 2012, 42(5): 1331-1335. Wang Hong-zhi, Xu Yu-chao, and Li Mei-jing. Voice activity detection algorithm based on Mel-frequency cepstrum coefficient (MFCC) similarity[J]. Journal of Jilin University (Engineering and Technology Edition), 2012, 42(5): 1331-1335.

[9] Oh Sang-yeob and Chung Kyung-yong. Improvement of speech detection using ERB feature extraction[J]. Wireless Personal Communications, 2014, 79(4): 2439-2451.

[10] 盧志茂, 金輝, 張春祥, 等. 基于HHT和OSF的復(fù)雜環(huán)境語音端點(diǎn)檢測[J]. 電子與信息學(xué)報(bào), 2012, 34(1): 213-217.

Lu Zhi-mao, Jin Hui, Zhang Chun-xiang, et al.. Voice activity detection in complex environment based on Hilbert-Huang transform and order statistics filter[J]. Journal of Electronics & Information Technology, 2012, 34(1): 213-217.

[11] Deng Shi-wen and Han Ji-qing. Statistical voice activity detection based on sparse representation over learned dictionary[J]. Digital Signal Processing, 2013, 23(4): 1228-1232.

[12] Zhang Yan, Tang Zhen-min, Li Yan-ping, et al.. A hierarchical framework approach for voice activity detection and speech enhancement[J]. The Scientific World Journal, 2014, Vol. 2014: Article ID 723643, 8 pages.

[13] Choi Jae-hun and Chang Joon-hyuk. Dual-microphone voice activity detection technique based on two-step power level difference ratio[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2014, 22(6): 1069-1081.

[14] Ryant N, Liberman M, and Yuan Jia-hong. Speech activity detection on YouTube using deep neural networks[C]. Interspeech: 14th Annual Conference of the International Speech Communication Association, Lyon, France, 2013: 728-731.

[15] Fisher R A. The use of multiple measures in taxonomic problems[J]. Annals of Eugenics, 1936, 7(2): 179-188.

[16] Mak M W and Yu H B. A study of voice activity detection techniques for NIST speaker recognition evaluations[J]. Computer Speech & Language, 2014, 28(1): 295-313.

王明合: 男,1970年生,博士生,研究方向?yàn)樾盘?hào)處理、語音識(shí)別、說話人識(shí)別.

張二華: 男,1967年生,副教授,主要研究方向?yàn)樾盘?hào)處理、語音識(shí)別、3維數(shù)據(jù)可視化方面.

唐振民: 男,1961年生,博士生導(dǎo)師,教授,主要研究方向?yàn)檎Z音識(shí)別、圖像處理、智能機(jī)器人.

Voice Activity Detection Based on Fisher Linear Discriminant Analysis

Wang Ming-he Zhang Er-hua Tang Zhen-min Xu Hao
(School of Computer Science and Engineering, Nanjing University of Science and Technology, Nanjing 210094, China)

Traditional Voice Activity Detection (VAD) approaches can not effectively detect consonant as well as noisy unvoiced consonant. To address this problem, this paper proposes a VAD approach Mel Frequency Cepstrum Coefficient (F-MFCC) based on Fisher linear discriminant analysis, in consideration of two-class issue regarding to consonant and background noise. Fisher criterion rule is used to solve the optimal projection vector, building upon which we can minimize the within-class scatter can be minimized and the between-class scatter can be maximized, as a result to enhance separability between consonant and background noise. Extensive experiments are conducted to evaluate the F-MFCC performance. The results demonstrate that, under different SNR and noise conditions, the proposed approach achieves higher VAD accuracy.

Speech processing; Voice Activity Detection (VAD); Mel Frequency Cepstrum Coefficient (MFCC); Fisher linear discriminant analysis

TN912.34

: A

:1009-5896(2015)06-1343-07

10.11999/JEIT141122

2014-08-29收到,2014-12-19改回

*通信作者:張二華 speechstudio@163.com

猜你喜歡
清音背景噪聲端點(diǎn)
窄帶電力線通信信道背景噪聲抑制方法
《山水清音》
《園林清音》
人文天下(2022年5期)2022-08-11 14:49:26
非特征端點(diǎn)條件下PM函數(shù)的迭代根
不等式求解過程中端點(diǎn)的確定
應(yīng)用背景噪聲成像研究祁連山地區(qū)地殼S波速度結(jié)構(gòu)
地震研究(2017年3期)2017-11-06 23:38:05
參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
基丁能雖匹配延拓法LMD端點(diǎn)效應(yīng)處理
海上單道地震勘探中船舶等背景噪聲的影響分析及壓制
基于計(jì)算聽覺場景分析的改進(jìn)清音分離方法
黄冈市| 西昌市| 安福县| 嘉峪关市| 广宁县| 兴国县| 保定市| 扶风县| 鹤岗市| 南丹县| 瓦房店市| 安乡县| 重庆市| 阳原县| 文安县| 都安| 吕梁市| 凤阳县| 邳州市| 灵丘县| 淳化县| 布尔津县| 尚义县| 安宁市| 隆回县| 诸城市| 库车县| 玉林市| 通州市| 巫溪县| 东乌珠穆沁旗| 保德县| 虞城县| 锦屏县| 搜索| 绥芬河市| 亚东县| 同德县| 叙永县| 青神县| 长葛市|