包武杰 黃浩
摘 要: 語(yǔ)音端點(diǎn)檢測(cè)的檢測(cè)結(jié)果好壞對(duì)后續(xù)的語(yǔ)音處理起著決定性的作用。為了解決語(yǔ)音端點(diǎn)在低信噪比情況下檢測(cè)率不高的問(wèn)題,該文提出了基于深度置信網(wǎng)絡(luò)去噪的語(yǔ)音增強(qiáng)方法與傳統(tǒng)的端點(diǎn)檢測(cè)方法相結(jié)合的方法。該方法首先由大量的語(yǔ)音數(shù)據(jù)訓(xùn)練深度置信網(wǎng)絡(luò)模型,使其能夠很好地映射帶噪與無(wú)噪語(yǔ)音之間的非線性關(guān)系,進(jìn)而使其成為一個(gè)良好的降噪濾波器,再對(duì)比帶噪與去噪后語(yǔ)音對(duì)端點(diǎn)檢測(cè)準(zhǔn)確率的影響,以及不同信噪比的端點(diǎn)檢測(cè)的正確率。從該實(shí)驗(yàn)結(jié)果可以得到,該方法在平穩(wěn)噪聲和非平穩(wěn)噪聲的低信噪比情況下都可以提高語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率。
關(guān)鍵詞: 語(yǔ)音端點(diǎn)檢測(cè); 深層置信網(wǎng)絡(luò); 信噪比; 語(yǔ)音處理
中圖分類號(hào): TN911.23?34; TP391 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)22?0001?04
Abstract: The test results of voice activity detection (VAD) play a decisive role in the subsequent speech processing. To resolve the problem of low detection rate of speech endpoints at low signal?to?noise ratio (SNR), a method of combing speech enhancement method based on deep belief network denoising with the traditional endpoint detection method is proposed. The deep belief network model is trained by large volumes of speech data to effectively map the nonlinear relationship between noisy speech and noise?free speech, and is made to become a good noise reduction filter. The effects of noisy speech and denoised speech on endpoint detection accuracy, and the correctness of endpoint detection at different SNRs are compared. The experimental results show that the method can improve the accuracy of VAD in the case of both stationary noise and non?stationary noise with low SNR.
Keywords: voice activity detection; deep belief network; SNR; speech processing
0 引 言
語(yǔ)音端點(diǎn)檢測(cè)(Voice Activity Detection,VAD)作為語(yǔ)音處理中十分重要的一環(huán),其檢測(cè)效果的好壞直接決定著后續(xù)語(yǔ)音處理的結(jié)果的好壞,它是一種區(qū)分語(yǔ)音中的語(yǔ)音段和非語(yǔ)音段的技術(shù)。在語(yǔ)音處理等領(lǐng)域,語(yǔ)音端點(diǎn)檢測(cè)技術(shù)是最常用也是最重要的前端技術(shù)之一,它的檢測(cè)效果的好壞可以在很大程度上減少后續(xù)信號(hào)處理的運(yùn)算量以及提高后續(xù)處理的精度及其通信系統(tǒng)的質(zhì)量。本文著重研究了噪聲環(huán)境下的端點(diǎn)檢測(cè)的研究方法,通過(guò)將深度學(xué)習(xí)應(yīng)用于語(yǔ)音增強(qiáng)的方法來(lái)提高噪聲環(huán)境下的端點(diǎn)檢測(cè)正確率。
語(yǔ)音和噪聲往往有著復(fù)雜的關(guān)系,加性噪聲和乘性噪聲是通常所考慮的。然而在現(xiàn)實(shí)生活中,加性噪聲往往對(duì)語(yǔ)音的質(zhì)量影響比較大,假如用[y(t)]表示t時(shí)刻帶噪語(yǔ)音信號(hào),[n(t)]表示t時(shí)刻噪聲信號(hào),[x(t)]表示t時(shí)刻的無(wú)噪語(yǔ)音信號(hào),那么加性噪聲模型可以表示如下:
傳統(tǒng)的去噪方法有能量過(guò)零率、倒譜距離以及譜熵法等,但對(duì)于非平穩(wěn)噪聲,這些傳統(tǒng)的去噪方法對(duì)這些噪聲抑制效果很差,特別是非平穩(wěn)噪聲在低信噪比情況下的語(yǔ)音信號(hào),一般的傳統(tǒng)的方法無(wú)法正確區(qū)分無(wú)用和有用信息,經(jīng)常會(huì)出現(xiàn)誤判,從而造成有用語(yǔ)音信息的丟失。最近幾年的時(shí)間,由于深度學(xué)習(xí)的廣泛應(yīng)用,在機(jī)器學(xué)習(xí)領(lǐng)域有很好的應(yīng)用,尤其是一種無(wú)監(jiān)督的高效的逐層貪婪學(xué)習(xí)算法[1]在2006年被Hinton等人提出之后,構(gòu)造了深度置信網(wǎng)絡(luò)(Deep Belief Network),為以后的深度神經(jīng)網(wǎng)絡(luò)奠定了基礎(chǔ),而深度神經(jīng)網(wǎng)絡(luò)能很好地挖掘數(shù)據(jù)的非線性特征。因此該文將深度學(xué)習(xí)中的深度置信網(wǎng)絡(luò)應(yīng)用于語(yǔ)音增強(qiáng),并提出了一種基于語(yǔ)音增強(qiáng)的端點(diǎn)檢測(cè)方法。實(shí)驗(yàn)結(jié)果表明,無(wú)論是平穩(wěn)噪聲還是非平穩(wěn)噪聲下,該方法在不同噪聲環(huán)境及不同信噪比情況下,其檢測(cè)正確率都要高于傳統(tǒng)的倒譜距離端點(diǎn)檢測(cè)算法。
1 基于深度信念網(wǎng)絡(luò)的語(yǔ)音去噪
深度置信網(wǎng)絡(luò)由數(shù)個(gè)受限玻爾茲曼機(jī)[2](Restricted Boltzmann Machine,RMB)疊加構(gòu)成。RBM是一種特殊的玻爾茲曼機(jī),只有在顯層(Visible Layer)和隱層(Hidden Layer)之間有權(quán)重連接,顯層和顯層間以及隱層和隱層間都沒(méi)有連接。DBN的訓(xùn)練可以分成兩個(gè)階段進(jìn)行,分別為預(yù)訓(xùn)練和參數(shù)優(yōu)化,其訓(xùn)練過(guò)程如圖1所示。
1.1 預(yù)訓(xùn)練階段
采用逐層貪心算法,將整個(gè)DBN看成一個(gè)個(gè)RMB進(jìn)行訓(xùn)練,前一個(gè)隱層的輸出可以作為下一個(gè)顯層的輸入,見圖1(a)。由于初始化RBM模型時(shí)用帶噪語(yǔ)音去訓(xùn)練,第一個(gè)顯層的輸入為實(shí)數(shù),因此第一個(gè)顯層和隱層為高斯?伯努利RBM,其余RBM為伯努利?伯努利RBM。如果顯層節(jié)點(diǎn)用向量[v]表示,隱層節(jié)點(diǎn)用向量h表示,連接用矩陣W表示;對(duì)于已經(jīng)設(shè)定的一組狀態(tài)[v,h],高斯?伯努利RBM顯層服從高斯分布,隱層服從伯努利分布,即[v]∈R,h∈{0,1},由能量模型(Energy?Based Model,EBM)理論[3] 可得其能量函數(shù)定義:endprint
1.2 參數(shù)優(yōu)化階段
運(yùn)用后向傳播算法[5](Back Propagation,BP)基于最小均方誤差準(zhǔn)則來(lái)更新整個(gè)DBN的網(wǎng)絡(luò)參數(shù),使得無(wú)噪語(yǔ)音的對(duì)數(shù)功率譜特征和帶噪語(yǔ)音的對(duì)數(shù)功率譜特征之間誤差最小。采用隨機(jī)梯度下降算法來(lái)加快DBN的學(xué)習(xí)收斂速度,其平均平方誤差為:
通過(guò)不斷地更新調(diào)整,DBN能夠很好地?cái)M合帶噪和無(wú)噪語(yǔ)音數(shù)據(jù)之間的非線性映射。
2 基于倒譜距離的端點(diǎn)檢測(cè)方法
2.1 倒譜距離測(cè)量法
譜密度函數(shù)[S(ω)]和[S′(ω)]的倒譜系數(shù)分別是式(21)中的[cn]和[c′n]。對(duì)于檢測(cè)是否是語(yǔ)音幀還是噪聲幀,必須需要一個(gè)判決參數(shù),而均方距離就可以作為判別參數(shù),因?yàn)閮蓚€(gè)語(yǔ)音信號(hào)譜的差別通??梢杂脤?duì)數(shù)譜的均方距離表示。
2.2 倒譜距離測(cè)量法的檢測(cè)流程
(1) 首先在語(yǔ)音數(shù)據(jù)集中取一抽樣語(yǔ)音信號(hào),并取其前幾幀信號(hào)為背景噪聲。那么背景噪聲倒譜系數(shù)的估計(jì)值則能夠用這些已經(jīng)設(shè)定好的前幾幀信號(hào)的倒譜系數(shù)的平均值來(lái)表示,定義其為向量C。
(2) 計(jì)算每幀信號(hào)的倒譜系數(shù)與噪聲倒譜系數(shù)估計(jì)值的倒譜距離,可以對(duì)式(21)進(jìn)行化簡(jiǎn)處理,近似可表示為:
(3) 通過(guò)式(22)能夠計(jì)算得到各信號(hào)幀倒譜距離的倒譜距離軌跡,然后通過(guò)門限判決的方法來(lái)確定抽樣語(yǔ)音的語(yǔ)音幀和噪聲幀。
(4) 由于噪聲的種類是多種多樣并且不斷變化,因此要得到較準(zhǔn)確的檢測(cè),向量C必須與其變化相適應(yīng),本文所采用的自適應(yīng)處理過(guò)程能夠解決這個(gè)問(wèn)題,即將前一信號(hào)幀的倒譜向量作為向量C,并按照
3 實(shí)驗(yàn)過(guò)程與結(jié)果分析
為了檢驗(yàn)該文方法的效果,本實(shí)驗(yàn)仿真平臺(tái)采用Matlab軟件,實(shí)驗(yàn)采用的是微軟的MSRA語(yǔ)音庫(kù),利用深度信念網(wǎng)絡(luò)對(duì)語(yǔ)音進(jìn)行去噪[6]。訓(xùn)練數(shù)據(jù)加入-5 dB,0 dB,5 dB,10 dB,15 dB的噪聲。噪聲源選取Noisex 92 中的Babble,Leopard兩種噪聲,其中Babble噪聲是非平穩(wěn)噪聲,Leopard為平穩(wěn)噪聲,DBN采用的是只有一個(gè)隱層的三層神經(jīng)網(wǎng)絡(luò)進(jìn)行降噪,將不同信噪比的MFCC特征作為網(wǎng)絡(luò)的輸入,把干凈的MFCC特征作為目標(biāo)值進(jìn)行訓(xùn)練。之后將去噪后的語(yǔ)音信號(hào)的MFCC特征進(jìn)行提取系數(shù)等信息并用于倒譜距離的語(yǔ)音端點(diǎn)檢測(cè),在對(duì)比不同信噪比的MFCC直接用于倒譜距離的端點(diǎn)檢測(cè)結(jié)果。其實(shí)驗(yàn)結(jié)果如圖2~圖5所示。
圖2是從微軟語(yǔ)音庫(kù)抽取的一條原始語(yǔ)音信號(hào)波形;圖3是其加噪語(yǔ)音信號(hào)波形;圖4對(duì)加噪后的語(yǔ)音波形圖3通過(guò)基于傳統(tǒng)的倒譜距離檢測(cè)算法得到的結(jié)果;圖5是對(duì)圖3通過(guò)DBN去噪后再對(duì)其進(jìn)行倒譜距離的檢測(cè),其結(jié)果表示了本文方法在平穩(wěn)噪聲和非平穩(wěn)噪聲的低信噪比的情況下都有比傳統(tǒng)算法更高的檢測(cè)準(zhǔn)確率。通過(guò)實(shí)驗(yàn)可以得到在不同信噪比下端點(diǎn)檢測(cè)的準(zhǔn)確率如表1所示。
由表1可以看出,本文所提的基于語(yǔ)音增強(qiáng)算法的端點(diǎn)檢測(cè)在不平穩(wěn)噪聲Babble 和平穩(wěn)噪聲Leopard下都有比傳統(tǒng)的檢測(cè)算法更高的準(zhǔn)確率,同時(shí)在不同信噪比下,也有更高的檢測(cè)準(zhǔn)確率。本文算法在平穩(wěn)噪聲和不平穩(wěn)噪聲的檢測(cè)中,檢測(cè)準(zhǔn)確率更加接近,而傳統(tǒng)的檢測(cè)算法,在非平穩(wěn)噪聲下,檢測(cè)準(zhǔn)確率直線下降,在強(qiáng)噪聲環(huán)境下,檢測(cè)正確率更是與本文算法相差較大,達(dá)到16%左右。通過(guò)5種信噪比及不同的噪聲環(huán)境下的端點(diǎn)檢測(cè)實(shí)驗(yàn),可以得出,在不平穩(wěn)噪聲情況下,傳統(tǒng)的檢測(cè)算法在信噪比降低的情況下,檢測(cè)正確率下降較快,而本文算法,檢測(cè)正確率下降的幅度遠(yuǎn)遠(yuǎn)小于傳統(tǒng)的檢測(cè)算法。其結(jié)果如圖6所示。
4 結(jié) 語(yǔ)
本文主要是對(duì)噪聲條件下的語(yǔ)音端點(diǎn)檢測(cè)進(jìn)行研究,以往傳統(tǒng)的語(yǔ)音端點(diǎn)檢測(cè)算法在高信噪比下的檢測(cè)正確率都比較高,而在低信噪比下的效果則不明顯,尤其是對(duì)不同的噪聲情況都沒(méi)有一個(gè)統(tǒng)一的解決方法。本文采用的基于深度置信網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法,由于其能夠很好地映射帶噪與無(wú)噪語(yǔ)音之間的非線性關(guān)系,因此通過(guò)對(duì)噪聲特性的訓(xùn)練,能夠?qū)δ撤N特定的噪聲情況有較好的去噪效果,因而可以降低平穩(wěn)噪聲和非平穩(wěn)噪聲在語(yǔ)音端點(diǎn)檢測(cè)中的影響。然而本文的不足之處是只考慮了一種非平穩(wěn)噪聲Babble和一種平穩(wěn)噪聲Leopard的影響,沒(méi)有考慮其他噪聲,但在現(xiàn)實(shí)生活中,噪聲的種類是非常多的,而且是隨機(jī)的。
注:本文通訊作者為黃浩。
參考文獻(xiàn)
[1] HINTON G E, OSINDERO S, TEH Y W. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7):1527?1554.
[2] SALAKHUTDINOV R. Learning deep generative models [D]. Toronto: University of Toronto, 2009.
[3] LECUN Y, CHOPRA S, HADSELL R, et al. A tutorial on energy?based learning [C]// Predicting structured data.
Cambridge: MIT press, 2006:191?246.
[4] HINTON G. Training products of experts by minimizing contrastive divergence [J]. Neural computation, 2002,14(8): 1771?1800.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.endprint
[6] 徐勇.基于深層神經(jīng)網(wǎng)絡(luò)的語(yǔ)音增強(qiáng)方法研究[D].合肥:中國(guó)科學(xué)技術(shù)大學(xué),2015.
[7] KENNY P, OUELLET P, DEHAK N, et al. A study of interspeaker variability in speaker verification [J]. IEEE transactions on audio speech and language processing, 2008, 16(5): 980?988.
[8] MARKOVI? I, DOMITROVI? H, PETROVI? I. Comparison of statistical model?based voice activity detectors for mobile robot speech applications [J]. IFAC proceedings volumes, 2012, 45(22): 39?44.
[9] HUANG S H, CHANG J H. Optimally weighted maximum a posteriori probabilities based on minimum classification error for dual?microphone voice activity detection [J]. Applied acoustics, 2016,113: 221?229.
[10] MING M, WANG K, JI H. Novel DTD and VAD assisted voice detection algorithm for VoIP systems [J]. Journal of China Universities of Posts and Telecommunications, 2016, 23(4): 9?16.
[11] KANG S I, CHANG J H. Voice activity detection based on discriminative weight training incorporating a spectral flatness measure [J]. Circuits systems and signal processing, 2010, 29(2): 183?194.
[12] PARK Y S, LEE S M. Speech enhancement through voice activity detection using speech absence probability based on Teager energy [J]. Journal of Central South University, 2013, 20(2): 424?432.
[13] YOU D, HAN J, ZHENG G, et al. Sparse representation with optimized learned dictionary for robust voice activity detection [J]. Circuits systems, and signal processing, 2014, 33(7): 2267?2291.
[14] 張慧,馬建芬.基于語(yǔ)音端點(diǎn)檢測(cè)和子空間方法的語(yǔ)音增強(qiáng)算法[J].計(jì)算機(jī)應(yīng)用,2009(z1):340?341.
[15] 胡光銳,韋曉東.基于倒譜特征的帶噪語(yǔ)音端點(diǎn)檢測(cè)[J].電子學(xué)報(bào),2000(10):95?97.
[16] 陳振鋒,吳蔚瀾,劉加,等.基于Mel倒譜特征順序統(tǒng)計(jì)濾波的語(yǔ)音端點(diǎn)檢測(cè)算法[J].中國(guó)科學(xué)院大學(xué)學(xué)報(bào),2014(4):524?529.
[17] 田旺蘭,李加升.改進(jìn)運(yùn)用深度置信網(wǎng)絡(luò)的語(yǔ)音端點(diǎn)檢測(cè)方法[J].計(jì)算機(jī)工程與應(yīng)用,2014(20):207?210.
[18] 王家良.基于深度置信網(wǎng)絡(luò)的說(shuō)話人識(shí)別研究與實(shí)現(xiàn)[D].南京:南京郵電大學(xué),2015.endprint