国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于幅度壓縮濾波的清濁音分類(lèi)及基音估計(jì)

2016-10-13 19:00:21徐靜云趙曉群王締罡
電子與信息學(xué)報(bào) 2016年3期
關(guān)鍵詞:濁音基音高斯

徐靜云①② 趙曉群*① 王 嶠① 王締罡①

?

基于幅度壓縮濾波的清濁音分類(lèi)及基音估計(jì)

徐靜云①② 趙曉群*① 王 嶠① 王締罡①

①(同濟(jì)大學(xué)電子與信息工程學(xué)院 上海 201804)②(湖州師范學(xué)院工學(xué)院 湖州 313000)

該文針對(duì)傳統(tǒng)算法在實(shí)環(huán)境(不同噪聲類(lèi)型和信噪比)下容易發(fā)生清濁誤判和基音估計(jì)錯(cuò)誤問(wèn)題,提出一種基于幅度壓縮基音估計(jì)濾波(PEFAC)的清濁音分類(lèi)及基音估計(jì)方法。首先,通過(guò)PEFAC削弱語(yǔ)音的低頻噪聲,提取出基音諧波;然后,采用基于對(duì)稱(chēng)平均幅度和函數(shù)的脈沖序列加權(quán)算法(SIM)確定諧波數(shù)目;最后,利用動(dòng)態(tài)規(guī)劃估計(jì)出基音,用基于3元素特征矢量的高斯混合模型對(duì)清濁音進(jìn)行分類(lèi)。仿真結(jié)果表明,在實(shí)環(huán)境下,所提方法能有效抑制清濁誤判及基音估計(jì)錯(cuò)誤現(xiàn)象的發(fā)生,性能優(yōu)于傳統(tǒng)方法。

語(yǔ)音信號(hào)處理;基音;幅度壓縮基音估計(jì)濾波;對(duì)稱(chēng)平均幅度和函數(shù);高斯混合模型;噪聲語(yǔ)音

1 引言

基音作為語(yǔ)音信號(hào)處理的重要特征參數(shù),是指人在發(fā)濁音時(shí)氣流通過(guò)聲門(mén)使聲帶張弛振蕩的振動(dòng)頻率(或周期)。準(zhǔn)確可靠的基音估計(jì)對(duì)語(yǔ)音信號(hào)的合成、編碼和識(shí)別等都具有重要的意義。自20世紀(jì)60年代以來(lái),人們從時(shí)域和頻域出發(fā)提出了多種有效的基音估計(jì)方法[1,2]。時(shí)域方法利用連續(xù)基音的波形相似性來(lái)提取基音周期,主要有自相關(guān)函數(shù)法(AutoCorrelation Function, ACF)和平均幅度差函數(shù)法(Average Magnitude Difference Function, AMDF);頻域方法則通過(guò)識(shí)別并定位諧波峰值點(diǎn)位置來(lái)提取基音頻率,主要有頻率直方圖法和倒譜法。

由于通常人們得到的語(yǔ)音來(lái)源于實(shí)環(huán)境,在實(shí)環(huán)境下語(yǔ)音會(huì)受到不同噪聲類(lèi)型(高斯、汽車(chē)和多人說(shuō)話噪聲等)和信噪比(-20~20 dB)的噪聲污染,語(yǔ)音的時(shí)域周期和頻率諧波在不同程度上被扭曲了,從而常規(guī)的方法會(huì)變得不可靠甚至完全無(wú)效。在實(shí)環(huán)境下基音估計(jì)問(wèn)題逐漸成為了研究的熱點(diǎn),人們?yōu)榇颂岢隽舜罅康姆椒?。其中通過(guò)對(duì)語(yǔ)音多個(gè)聲學(xué)信號(hào)特征進(jìn)行整合來(lái)估計(jì)基音,是一個(gè)重要的研究思路。WAUTOC方法[8]利用語(yǔ)音幀的ACF與AMDF具有相同的周期特性,將ACF除以AMDF,使基音周期的峰值得到加強(qiáng)而噪聲相對(duì)被抑制,算法性能優(yōu)于單一的ACF和AMDF。文獻(xiàn)[9]通過(guò)時(shí)域提取候選值后進(jìn)行頻域加權(quán),再通過(guò)時(shí)間連續(xù)約束估計(jì)基音。HSAC-SIM方法[10]通過(guò)在DCT域進(jìn)行非線性平滑后直接選擇峰值最大點(diǎn)作為粗估基音諧波(粗估值),然后利用諧波正弦自相關(guān)(Harmonic Sinusoidal AutoCorrelation, HSAC)模型迭代修正得到精估基音諧波(精估值),在此基礎(chǔ)上采用基于對(duì)稱(chēng)平均幅度和函數(shù)(Symmetric Average Magnitude Sum Function, SAMSF)的脈沖序列加權(quán)算法確定諧波數(shù)目,最后利用動(dòng)態(tài)規(guī)劃估計(jì)基音。文獻(xiàn)[9,10]綜合利用了語(yǔ)音當(dāng)前幀和相鄰幀的時(shí)域、頻域或DCT域的聲學(xué)特征來(lái)提取基音,有較好的基音估計(jì)性能。尤其是HSAC-SIM方法在實(shí)環(huán)境下基音檢測(cè)性能優(yōu)異,但仍存在以下問(wèn)題:(1)在低信噪比或噪聲頻率區(qū)間包含幅值最大基音諧波的情況下,粗估值與真正的基音諧波(真實(shí)值)之間會(huì)存在很大偏差;(2)對(duì)于較純凈的語(yǔ)音,粗估值通過(guò)迭代能收斂到真實(shí)值。但是在低信噪比或噪聲頻率區(qū)間包含幅值最大基音諧波的情況下通常無(wú)法收斂到真實(shí)值,從而造成后繼基音估計(jì)的錯(cuò)誤;(3)濁音的SAMSF在基音諧波處峰值具有穩(wěn)定特性,但是對(duì)于-5 dB及以下的濁音(尤其是弱濁音)的SAMSF在基音諧波處峰值會(huì)產(chǎn)生明顯偏移,從而大大降低基音估計(jì)的準(zhǔn)確性,上述不足導(dǎo)致該方法基音估計(jì)正確率不高,限制了其在實(shí)環(huán)境下的使用。

文獻(xiàn)[11]利用相鄰幀基音諧波相關(guān)而噪聲不相關(guān)特點(diǎn),通過(guò)計(jì)算相鄰幀諧波累積和來(lái)降低噪聲對(duì)基音估計(jì)的影響。PEFAC方法[12]采用PEFAC增強(qiáng)語(yǔ)音后提取3個(gè)基音候選值,然后通過(guò)動(dòng)態(tài)規(guī)劃確定基音。文獻(xiàn)[11,12]利用語(yǔ)音基音和噪聲固有特性,對(duì)語(yǔ)音進(jìn)行增強(qiáng),提高了低信噪比下的基音估計(jì)性能。尤其是PEFAC方法通過(guò)歸一化能有效地去除窄帶的噪聲段(鼓掌噪聲等),針對(duì)語(yǔ)音特點(diǎn)設(shè)計(jì)的匹配濾波器使語(yǔ)音輸出信噪比最高,從而在有效削弱低頻噪聲的同時(shí)增強(qiáng)了基音諧波。但是PEFAC方法直接用經(jīng)PEFAC處理后的對(duì)數(shù)頻域幅值最大點(diǎn)作為概率最高的基音頻率,但最大點(diǎn)對(duì)應(yīng)頻率通常不是基音頻率,而是基頻的某個(gè)諧波,在此基礎(chǔ)上直接進(jìn)行動(dòng)態(tài)規(guī)劃平滑,過(guò)于簡(jiǎn)單粗糙。

綜合文獻(xiàn)[10,12]的優(yōu)點(diǎn)與不足,針對(duì)實(shí)環(huán)境本文提出一種清濁音分類(lèi)及基音估計(jì)(PEF-SIM)方法。首先通過(guò)引入PEFAC在對(duì)數(shù)頻域?qū)φZ(yǔ)音進(jìn)行增強(qiáng),提取出基音諧波;然后,在得到處理后的時(shí)域波形的基礎(chǔ)上,通過(guò)SIM方法確定諧波數(shù)目;最后利用動(dòng)態(tài)規(guī)劃估計(jì)出基音。實(shí)驗(yàn)結(jié)果表明,在實(shí)環(huán)境下,PEF-SIM方法基音估計(jì)性能優(yōu)于HSAC- SIM和PEFAC方法,清濁音判決性能優(yōu)于PEFAC和RAPT方法。

2 基于PEFAC的基音諧波提取

2.1 算法描述

對(duì)實(shí)環(huán)境下得到的帶噪語(yǔ)音信號(hào)去直流、歸一化和分幀處理后得到。設(shè)該噪聲語(yǔ)音幀由純凈語(yǔ)音幀及噪聲幀組成,表示為

匹配濾波器

(4)提取基音諧波: 在60~1250 Hz頻率范圍內(nèi),取按幅值從大到小排序,從前3個(gè)候選值中選擇頻率最大者作為基音諧波。

2.2 實(shí)驗(yàn)分析

實(shí)驗(yàn)用Keele基音檢測(cè)參考語(yǔ)音庫(kù)[15]。該語(yǔ)音庫(kù)包含10個(gè)說(shuō)話人,5男5女,分別頌讀同一段英文,每條語(yǔ)音長(zhǎng)度為30 s左右,所有語(yǔ)音為20 kHz采樣,16 bit量化,并提供以幀長(zhǎng)為512點(diǎn)、幀移為200點(diǎn)的所有濁音幀參考基音信息。文中的測(cè)試條件是針對(duì)8 kHz采樣的輸入語(yǔ)音,幀長(zhǎng)200點(diǎn)、幀移80點(diǎn)來(lái)提取基音周期。因而對(duì)Keele庫(kù)的語(yǔ)音文件降采樣到8 kHz,同時(shí)濁音幀參考基音周期乘上0.4來(lái)作為最終的參考值。實(shí)驗(yàn)用噪聲來(lái)源于RSG-10數(shù)據(jù)庫(kù)[16],純凈語(yǔ)音加入噪聲的計(jì)算標(biāo)準(zhǔn)使用ITU-TP.56[17]標(biāo)準(zhǔn),PC機(jī)為聯(lián)想E450C(CPU: i5-4210U,內(nèi)存4G),軟件平臺(tái)為matlab2009a。

圖1為基于HSAC-SIM的基音諧波提取。圖2為PEFAC的基音諧波提取,發(fā)音為/a/的任意一幀濁音幀,基音頻率為225 Hz,加入-19 dB汽車(chē)噪聲。圖2(a)為功率譜密度(單位:dB),可以看出汽車(chē)噪聲淹蓋了基音各次諧波;圖2 (b)為對(duì)數(shù)頻域功率譜密度(單位:dB);圖2(c)為歸一化后的功率譜密度(單位:dB),可以看出歸一化后低頻噪聲明顯被削弱;圖2(d)為匹配濾波后的功率譜密度(單位:dB),與圖2(b)和圖2(c)相比,噪聲基本被抑制,基音諧波峰值變得非常突出,可以準(zhǔn)確地提取出基音諧波;圖2(d)顯示的是中前3個(gè)最大峰

圖1 基于HSAC-SIM的基音諧波提取

由圖1,圖2可以看出:(1)在低信噪比下,HSAC-SIM方法粗估值與真實(shí)值有極大偏差,經(jīng)過(guò)修正可以一定程度上減小偏差,但無(wú)法收斂于真實(shí)值;(2)經(jīng)過(guò)PEFAC方法處理后低頻噪聲被有效抑制,基音諧波峰值非常突出,可以準(zhǔn)確地提取出基音諧波。

為了定量比較HSAC-SIM和PEF-SIM方法的基音諧波提取性能,本文隨機(jī)選取一組400幀濁音語(yǔ)音信號(hào),分別加入不同信噪比(-20 dB, -10 dB, 0 dB, 10 dB和20 dB)和噪聲類(lèi)型(高斯噪聲、多人說(shuō)話噪聲和汽車(chē)噪聲),合成出15組每組400幀,用2種算法分別進(jìn)行基音諧波提取,統(tǒng)計(jì)出2種方法的每組平均執(zhí)行時(shí)間和平均總基頻偏移度(Gross Pitch harmonic offset Degree, GPD)。

GPD定義為

圖2 基于PEFAC的基音諧波提取

(6)

表1 2種方法性能定量比較

測(cè)試內(nèi)容

PEF-SIM

HSAC-SIM

執(zhí)行時(shí)間(s)

1.6

8.5

GPD

3.3

8.4(粗估)

6.7(精估)

3 基于SIM的諧波數(shù)目提取

3.1 SAMSF的定義與性質(zhì)

語(yǔ)音信號(hào)的SAMSF定義為

此函數(shù)有如下性質(zhì)(為的周期):

3.2 SAMSF性能分析

圖3為,和語(yǔ)音幀的SAMSF性能比較,圖3 (a)為強(qiáng)濁音幀加入-5 dB, -10 dB和-20 dB高斯噪聲;(b)為強(qiáng)濁音幀加入-5 dB, -10 dB和-20 dB多人說(shuō)話噪聲;(c)為弱濁音幀加入-5 dB, -10 dB和-20 dB高斯噪聲;(d)為弱濁音幀加入-5 dB, -10 dB和-20 dB多人說(shuō)話噪聲。圖3可以看出,(1)在信噪比-5 dB下,,和在處具有明顯的峰值特性,隨著信噪比的下降,峰值特性開(kāi)始惡化,其中弱濁音和多人說(shuō)話噪聲惡化尤其嚴(yán)重;(2)在不同信噪比和噪聲類(lèi)型下,比具有更穩(wěn)定的峰值特性,尤其是對(duì)于弱濁音和多人說(shuō)話噪聲,與相比,明顯改善了峰值特性。這是因?yàn)镻EFAC算法通過(guò)歸一化和匹配濾波,歸一化能有效削弱窄帶噪聲(多人說(shuō)話噪聲頻譜主要集中分布于60~300 Hz),匹配濾波能實(shí)現(xiàn)信噪比最高。由于SAMSF在處峰值越穩(wěn)定,越有利于后繼諧波數(shù)目的提取。實(shí)驗(yàn)結(jié)果表明,經(jīng)過(guò)PEFAC增強(qiáng)后語(yǔ)音幀的在處峰值具有更優(yōu)的穩(wěn)定性。

3.3 提取諧波數(shù)目

4 清濁音判決

清濁音判決是基于語(yǔ)音幀的3元素特征矢量,該矢量包括3個(gè)參數(shù)[12]:

(1)歸一化后的對(duì)數(shù)平均功率譜:

其中

圖3 3種語(yǔ)音幀的 SAMSF性能比較

圖4 清濁音的矢量空間分布

5

基音輪廓應(yīng)該是連續(xù)較平滑的,由于噪聲的干擾,文中檢測(cè)到的基音仍然會(huì)產(chǎn)生一些波動(dòng),為了有效減少這些波動(dòng)錯(cuò)誤,本文使用動(dòng)態(tài)規(guī)劃算法從基音候選值中選擇最優(yōu)值,以實(shí)現(xiàn)在幀幀間具有最優(yōu)的基音路徑。在基音提取方案中,基音周期由提取的基音諧波和時(shí)域匹配方案選出一組候選基音,然后采用文獻(xiàn)[10]動(dòng)態(tài)規(guī)劃算法確定基音。

6 實(shí)驗(yàn)與分析

6.1 清濁音判決

建立清音和濁音共2個(gè)高斯混合模型(Gaussian Mixture Models , GMMs)分類(lèi)器,每個(gè)GMM均采用了6個(gè)單高斯模型(Single Gaussian Model, SGM)分量[12,19]。通過(guò)praat軟件和keele庫(kù)參考基音標(biāo)注基礎(chǔ)上進(jìn)行人工校正,從keele庫(kù)中選出清音和濁音各400幀純凈語(yǔ)音,每個(gè)SGM分量的訓(xùn)練語(yǔ)音為純凈語(yǔ)音加入指定信噪比(6個(gè)SGM分量對(duì)應(yīng)6種SNR=-10 dB, 0 dB, 5 dB, 10 dB, 15 dB和20 dB)的高斯、多人說(shuō)話和汽車(chē)噪聲各400幀,共1200幀。

對(duì)每個(gè)分量的訓(xùn)練語(yǔ)音分別提取出3元素特征值,從而計(jì)算出每個(gè)SGM分量的均值和協(xié)方差矩陣。

為了測(cè)試本文提出的PEF-SIM清濁音判決方法, 實(shí)驗(yàn)對(duì)RAPT[20], PEFAC和PEF-SIM 3種方法進(jìn)行清濁音判決性能測(cè)試。測(cè)試結(jié)果采用漏警率(濁音誤判為清音),虛警率(清音誤判為濁音)和總錯(cuò)誤率[12]指標(biāo)。表2列出了3,和。3種方法中,總錯(cuò)誤率最小者的方法被加粗顯示,表中最后一行顯示的給定信噪比下,3種不同噪聲類(lèi)型下的平均漏警率和平均虛警率。

從表1可以看出,在SNR=20 dB下,3種方法總錯(cuò)誤率都很小,數(shù)值也很接近。隨著信噪比的減小,3種方法性能產(chǎn)生了分化:(1)RAPT對(duì)噪聲類(lèi)型敏感,在SNR=20 dB的擁有最低的,對(duì)于高斯和汽車(chē)噪聲,總的也優(yōu)于PEFAC和PEF-SIM方法,這是因?yàn)镽APT引入了有效的動(dòng)態(tài)規(guī)劃算法來(lái)進(jìn)行清濁音判定,PEFAC和PEF- SIM方法則是通過(guò)閾值直接判定清濁音;隨著信噪

表2 清濁音判決性能比較(%)

SNR

20 dB

10 dB

0 dB

-10 dB

-20 dB

P

高斯

噪聲

PEF-SIM

4.38

4.21

5.12

4.21

9.52

4.20

24.45

1.91

51.24

4.87

PEFAC

5.95

4.78

7.68

5.50

11.94

4.47

26.45

1.84

51.40

4.89

RAPT

1.53

5.16

6.71

4.81

47.91

0.37

96.74

0

100

0

汽車(chē)

噪聲

PEF-SIM

4.47

4.59

4.02

3.25

7.88

4.96

10.79

8.48

22.73

8.68

PEFAC

5.87

4.18

7.10

4.07

8.63

5.19

13.12

9.76

23.17

9.30

RAPT

1.54

7.43

4.14

6.54

22.94

4.23

63.01

5.32

95.66

4.21

多人說(shuō)話噪聲

PEF-SIM

4.65

5.80

6.07

12.69

13.83

38.16

19.23

55.46

30.16

64.18

PEFAC

6.91

9.10

11.93

17.93

17.24

38.75

23.74

61.33

33.53

67.07

RAPT

1.43

44.71

2.47

59.28

1.75

79.11

1.01

94.82

0.12

96.71

平均

PEF-SIM

4.50

4.87

5.07

6.72

10.41

15.77

18.16

21.95

34.71

25.91

PEFAC

6.24

6.02

8.90

9.17

12.60

16.14

21.10

24.31

36.03

27.09

RAPT

1.50

19.10

4.44

23.54

24.20

27.90

53.59

33.38

65.26

33.64

比的下降,RAPT性能急劇下降,在0 dB及以下,方法已經(jīng)無(wú)效;(2)PEF-SIM和PEFAC方法對(duì)噪聲類(lèi)型不太敏感,總錯(cuò)誤率小于RAPT方法, 在0 dB及以下方法還有效;(3)PEF-SIM方法總錯(cuò)誤率最低,尤其在信噪比下0~-20 dB下總錯(cuò)誤率明顯小于PEFAC和RAPT方法。實(shí)驗(yàn)結(jié)果表明,方法在實(shí)環(huán)境下的清濁音判決性能優(yōu)于RAPT和PEFAC方法。

6.2 基音檢測(cè)

為了驗(yàn)證PEF-SIM方法的基音估計(jì)性能,實(shí)驗(yàn)用RAPT, PEFAC, HSAC-SIM和PEF-SIM 4種方法進(jìn)行基音估計(jì)。檢測(cè)結(jié)果與語(yǔ)音庫(kù)中參考基音相對(duì)誤差大于或等于1 ms(以基音周期計(jì)算)定義為基音粗差(Gross Pitch Error, GPE),以GPE作為指標(biāo)比較各方法[1]。圖5為4種方法在實(shí)環(huán)境下的檢測(cè)結(jié)果(GPE),圖5(a)高斯噪聲;圖5(b)汽車(chē)噪聲;圖5(c)多人說(shuō)話噪聲。從圖中可以看出:(1)在SNR= 20 dB時(shí),4種算法的GPE極小,性能均很好;(2)RAPT在SNR=0 dB及以下開(kāi)始無(wú)效,這是因?yàn)镽APT方法僅僅依據(jù)時(shí)域波形特征來(lái)提取基音,對(duì)于0 dB及以下波形特征不足以提取出基音;(3)對(duì)于汽車(chē)噪聲,PEF-SIM, HSAC-SIM和PEFAC方法GPE較接近,且優(yōu)于高斯和多人說(shuō)話噪聲,這是因?yàn)槠?chē)噪聲不含有背景基音且能量主要集中在0~300 Hz,越接近0 Hz能量越大,3種方法均經(jīng)過(guò)60 Hz去工頻處理,很大程度上去除了汽車(chē)噪聲干擾;對(duì)于高斯噪聲,PEF-SIM, HSAC-SIM和PEFAC方法的GPE較接近;對(duì)于多人說(shuō)話噪聲,PEF-SIM明顯優(yōu)于HSAC-SIM和PEFAC方法,這是因?yàn)閷?duì)于多人說(shuō)話噪聲的能量主要集中在0~ 300 Hz且含有背景基音諧波,HSAC-SIM在低頻時(shí)易將背景基音誤處理為真實(shí)基音(見(jiàn)圖3(b3)),而PEFAC在削弱背景基音影響的同時(shí),也一定程度上削弱了低頻的真實(shí)基音,導(dǎo)致將大量的背景基音諧波誤處理為真實(shí)基音。

實(shí)驗(yàn)結(jié)果表明,總體上,PEF-SIM在不同的噪聲和噪聲類(lèi)型下,性能優(yōu)于RAPT, HSAC-SIM和PEFAC方法。這與前面的理論分析是一致的,即PEF-SIM能有效削弱噪聲,使基音諧波提取更為準(zhǔn)確,同時(shí)能改善SAMSF在處峰值的穩(wěn)定性。

6.3 算法復(fù)雜度

實(shí)驗(yàn)中選取180 s語(yǔ)音信號(hào)分別用4種算法進(jìn)行基音估計(jì),統(tǒng)計(jì)每秒長(zhǎng)度語(yǔ)音的執(zhí)行時(shí)間見(jiàn)表3。由表3可以看出,PEF-SIM, PEFAC 和RAPT的方法處理時(shí)間均小于0.5 s, HSAC-SIM高達(dá)1 s。PEF-SIM執(zhí)行時(shí)間(算法復(fù)雜度)是HSAC-SIM的0.22(0.23/1.03),這是因?yàn)镠SAC-SIM方法提取基音諧波時(shí)需要反復(fù)迭代,計(jì)算復(fù)雜度高。

表3 4種算法執(zhí)行時(shí)間(s)

算法

PEF-SIM

PEFAC

RAPT

HSAC-SIM

時(shí)間(s)

0.23

0.20

0.46

1.03

7 結(jié)論

本文提出基于PEF-SIM的清濁音分類(lèi)和基音估計(jì)方法。實(shí)驗(yàn)結(jié)果表明:(1)PEF-SIM方法在低信噪比下,提取的基音諧波與真實(shí)值偏差小于HSAC-SIM方法,算法復(fù)雜度也是HSAC-SIM方法的0.19;通過(guò)PEFAC的增強(qiáng)可以有效提高SAMSF的峰值穩(wěn)定性,有利于諧波數(shù)目的提取。(2)在實(shí)環(huán)境下,從對(duì)數(shù)頻率和時(shí)域中提取3個(gè)特征值,基于該3個(gè)特征矢量的高斯混合模型分類(lèi)器能有效地區(qū)分清濁音,總錯(cuò)誤率小于PEFAC和RAPT方法;PEF-SIM方法的GPE小于RAPT, PEFAC和HSAC-SIM方法,PEF-SIM方法對(duì)多人說(shuō)話噪聲改善尤為明顯,算法復(fù)雜度與PEFAC和RAPT相近,是HSAC-SIM方法的0.22。

圖5 4種方法在不同信噪比和噪聲類(lèi)型下的GPE(%)

[1] RABINER L, CHENG M, ROSENBERG A E,. A comparative performance study of several pitch detection algorithms[J].,, 1976, 24(5): 399-418.

[2] VEPREK P and SCORDILIS M S. Analysis, enhancement and evaluation of five pitch determination techniques[J]., 2002, 37(3): 249-270.

[3] HAN Kun and Wang DeliangNeural network based pitch tracking in very noisy speech[J]./,,, 2014, 22(12): 2158-2168.

[4] MOLINA E, TARDON L J, BARBANCHO A M,. SiPTH: Singing transcription based on hysteresis defined on the pitch-time curve[J]./,,, 2015, 23(2): 252-263.

[5] DUAN Zhiyao, HAN Jinyu, and PARDO B. Multi-pitch streaming of harmonic sound mixtures[J]./,,, 2014, 22(1): 138-150.

[6] CHEN Yujui, WEI Chengwen, CHIANG Yifan,. Neuromorphic pitch based noise reduction for monosyllable hearing aid system application[J].,2014, 61(2): 463-475.

[7] 王玥, 錢(qián)志鴻, 張營(yíng). 基于擴(kuò)展譜相減的RCAF基音周期檢測(cè)算法[J]. 電子與信息學(xué)報(bào), 2009, 31(5): 1161-1165.

WANG Yue, QIAN Zhihong, and ZHANG Ying. RCAF pitch detection algorithm based on expanded spectral subtraction [J].&, 2009, 31(5): 1161-1165.

[8] SHIMAMURA T and KOBAYASHI H. Weighted autocorrelation for pitch extraction of noisy speech[J]., 2001, 9(7): 727-730.

[9] 徐敬德, 常亮, 崔慧娟, 等. 基于頻域和時(shí)域結(jié)合的基音周期提取算法[J]. 清華大學(xué)學(xué)報(bào), 2012, 52(3): 413-415.

XU Jingde, CHANG Liang, CUI Huijuan,. A pitch period detection algorithm using time and frequency analyses[J]., 2012, 52(3): 413-415.

[10] SHAHNAZ C, ZHU W P, and AHMAD M O. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme[J].,,, 2012, 20(1): 322-335.

[11] HUANG F and LEE T. Pitch estimation in noisy speech using accumulated peak spectrum and sparse estimation technique[J].,,, 2013, 21(1): 99-109.

[12] GONZALEZ S and BROOKES M. PEFACA pitch estimation algorithm robust to high levels of noise[J]., 2014, 22(2): 518-530.

[13] BYRNE D, DILLON H, TRAN K,. An international comparison of long term average speech spectra[J]., 1994, 96(4): 2108-2120.

[14] BROOKES M. VOICEBOX: A speech processing toolbox for MATLAB[OL]. http://www.ee.ic.ac.uk/hp/staff/dmb/ voicebox/voicebox.html. 2015.1.

[15] PLANTE F, MEYER G F, and AINSWORTH W A. A pitch extraction reference database[C]. 4th European Conference on Speech Communication and Technology, Madrid, 1995: 837-840.

[16] STEENEKEN H J and GEURTSEN F W. Description of the RSG-10 noise database[R]. Report IZF 1988-3 TNO, Soesterberg: Institute for Perception, 1988.

[17] International Telecommunication Union-TP.56. Objective measurement of active speech level[S]. Geneva, 1993.

[18] 張文耀, 許剛, 王裕國(guó). 循環(huán)AMDF及其語(yǔ)音基音周期估計(jì)算法[J]. 電子學(xué)報(bào), 2003, 31(6): 886-890.

ZHANG Wenyao, XU Gang, and WANG Yuguo. Circular AMDF and pitch estimation based on it[J]., 2003, 31(6): 886-890.

[19] 韓明, 劉教民, 孟軍英, 等. 一種自適應(yīng)調(diào)整的混合高斯背景建模和目標(biāo)檢測(cè)算法[J]. 電子與信息學(xué)報(bào), 2014, 36(8): 2023-2027. doi: 10.3724/SP.J.1146.2013.01438.

HAN Ming, LIU Jiaomin, MENG Junying,. A modeling and target detection algorithm based on adaptive adjustmentfor mixture Gaussian background[J].&, 2014, 36(8): 2023-2027. doi: 10.3724/SP.J.1146.2013.01438.

[20] TALKIN D. Speech Coding and Synthesis[M]. Elsevier Science, 1995, Chapter.14: 495-518.

徐靜云: 男,1980年生,博士生,研究方向?yàn)檎Z(yǔ)音信號(hào)處理與語(yǔ)音編碼.

趙曉群: 男,1962年生,博士生導(dǎo)師,研究方向?yàn)橥ㄐ排c信息理論.

王 嶠: 女,1990年生,碩士生,研究方向?yàn)檎Z(yǔ)音編碼.

王締罡: 男,1988年生,博士生,研究方向?yàn)橥ㄓ脡嚎s文件的容錯(cuò)譯碼.

Foundation Items: The National Natural Science Foundation of China (61271248),Huzhou City (2015YZ04)


Voiced Unvoiced Classification and Pitch Estimation Based on Amplitude Compression Filter

XU Jingyun①②ZHAO Xiaoqun①WANG Qiao①WANG Digang①

①(School of Electronics and Information, Tongji University, Shanghai 201804, China)②(School of Engineering, Huzhou University, Huzhou 313000, China)

A method of voiced/unvoiced classification and pitch estimation based on Pitch Estimation Filter with Amplitude Compression (PEFAC) is proposed in this paper. The method first attenuates strong noise components at the low frequencies based on PEFAC and extracts pitch harmonic from noisy speech in the log-frequency domain. Then, the harmonic number associated with the pitch harmonic is determined by Symmetric average magnitude sum function weighted Impulse-train Matching (SIM) scheme in time domain. A pitch tracking scheme using dynamic programming is applied to select the pitch candidates and a voiced speech probability is computed from the likelihood ratio of Gaussian Mixture Models (GMMs) classifiers based on 3-element feature vector. The simulated results show that the proposed method efficiently reduces voiced/unvoiced and pitch estimation error, and it is superior to some of the state-of-the–art method in the real environment.

Pitch Estimation Filter with Amplitude Compression (PEFAC); Symmetric average magnitude sum function; Gaussian Mixture Model (GMM); Noise speech

TN912.3

A

1009-5896(2016)03-0586-08

10.11999/JEIT150778

2015-06-29;改回日期:2015-12-02;網(wǎng)絡(luò)出版:2016-02-03

趙曉群 zhao_xiaoqun@#edu.cn

國(guó)家自然科學(xué)基金(61271248),湖州市自然科學(xué)基金(2015YZ04)

猜你喜歡
濁音基音高斯
小高斯的大發(fā)現(xiàn)
天才數(shù)學(xué)家——高斯
基于基音跟蹤的語(yǔ)音增強(qiáng)研究
日語(yǔ)半濁音的變化規(guī)律研究
清濁音分離抗噪的語(yǔ)音識(shí)別算法的研究
有關(guān)鼻濁音使用實(shí)態(tài)的研究
——以NHK新聞為中心
有限域上高斯正規(guī)基的一個(gè)注記
樂(lè)理小知識(shí)
小演奏家(2014年11期)2014-12-17 01:18:52
一種改進(jìn)的基音周期提取算法
日語(yǔ)與永州方言濁音相似點(diǎn)小議①
鸡东县| 三河市| 合肥市| 襄垣县| 镇远县| 文水县| 息烽县| 神池县| 芦溪县| 兴安县| 当雄县| 阿图什市| 江都市| 化德县| 枣强县| 同德县| 麟游县| 南充市| 茌平县| 永新县| 江西省| 喀喇沁旗| 东乌| 东兰县| 横峰县| 师宗县| 九江市| 南川市| 正定县| 宁化县| 安多县| 金湖县| 保康县| 克拉玛依市| 汽车| 黄浦区| 巨野县| 金沙县| 慈利县| 淮安市| 馆陶县|