周妙琪,方福海,李婷,李軍成
(湖南人文科技學(xué)院 數(shù)學(xué)與金融學(xué)院,湖南 婁底 417000)
在聲源定位研究中,為了提高聲源定位的準(zhǔn)確性,通常需要研究聲源的端點(diǎn)以幫助確定聲源的位置,因此語(yǔ)音端點(diǎn)檢測(cè)是聲源定位研究中一個(gè)很重要的課題,它在人工智能、語(yǔ)音處理、通信系統(tǒng)、公安偵查等方面都有重要應(yīng)用。
語(yǔ)音端點(diǎn)檢測(cè)又被稱(chēng)為語(yǔ)音活動(dòng)檢測(cè)(Voice Activity Detection,VAD),是一種通過(guò)判定語(yǔ)音的起止點(diǎn)區(qū)分語(yǔ)音和非語(yǔ)音信號(hào)的檢測(cè)技術(shù)。語(yǔ)音端點(diǎn)檢測(cè)的方法有很多,如能零比法、頻帶方差法、譜熵法、雙門(mén)限法、人工神經(jīng)網(wǎng)絡(luò)法等。在真實(shí)環(huán)境的聲源定位中,噪聲不可避免,為了提高目標(biāo)聲音采集與運(yùn)用的效率,可首先利用降噪算法對(duì)語(yǔ)音進(jìn)行降噪處理。目前,聲源定位中的語(yǔ)音降噪的方法有很多,較為典型的有譜減法、維納濾波法、子空間法等。
在語(yǔ)音端點(diǎn)檢測(cè)方法中,雙門(mén)限法較為常見(jiàn),該算法在語(yǔ)音不含噪聲時(shí)效果比較理想,但當(dāng)語(yǔ)音含有噪聲時(shí)容易失效。而在語(yǔ)音降噪算法中,子空間法是一種有效的方法,它能將噪聲部分減弱,凸顯語(yǔ)音部分,從而改進(jìn)語(yǔ)音質(zhì)量,使之更符合人耳的聽(tīng)覺(jué)感受。為了使雙門(mén)限法在噪聲環(huán)境中也能取得較好的端點(diǎn)檢測(cè)結(jié)果,本文首先利用子空間法對(duì)帶噪語(yǔ)音進(jìn)行降噪處理,然后再采用雙門(mén)限法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè),為聲源定位中的含噪語(yǔ)音端點(diǎn)檢測(cè)提供一種手段。
子空間法[11-12]首先將語(yǔ)音信號(hào)的向量空間分解為信號(hào)子空間和噪聲子空間,然后將帶噪語(yǔ)音進(jìn)行KLT(Karhunen-Loeve Transform)變換,消除其噪聲子空間并保留信號(hào)子空間,從而估計(jì)出干凈語(yǔ)音,最后通過(guò)逆KLT變換得到降噪后的語(yǔ)音。子空間法的步驟可描述為:
Step.1將語(yǔ)音信號(hào)的向量空間分解為信號(hào)子空間x和噪聲子空間v,語(yǔ)音信號(hào)可以表示為y=x+v。
Step.2對(duì)干凈語(yǔ)音x的線(xiàn)性估計(jì)為x=Hy,根據(jù)有約束的優(yōu)化問(wèn)題求得最優(yōu)線(xiàn)性濾波器Hopt。
Step.3將含噪的觀測(cè)語(yǔ)音變換到KLT域,得到KLT系數(shù)。
Step.4根據(jù)干凈語(yǔ)音在KLT域的稀疏性對(duì)KLT系數(shù)進(jìn)行加權(quán)處理,得到稀疏化的干凈語(yǔ)音的KLT系數(shù)估計(jì)值。
Step.5最后通過(guò)逆KLT變換得到降噪后的語(yǔ)音Hopty。
雙門(mén)限法[1-2]最初是基于短時(shí)平均能量和短時(shí)平均過(guò)零率這兩個(gè)參數(shù)提出的,其原理是漢語(yǔ)的韻母中元音的能量較大,所以可以由短時(shí)能量找到音節(jié)中的韻母,而聲母是輔音,頻率較高,相對(duì)應(yīng)的平均過(guò)零率較大,所以可以用平均過(guò)零率找到聲母,于是利用這兩個(gè)特征就能找出完整的漢字音節(jié)[3-7]。
雙門(mén)限法利用二級(jí)判決判定聲音的起止點(diǎn),第一級(jí)判決:在輸入語(yǔ)音信號(hào)的短時(shí)能量包絡(luò)線(xiàn)上選取一個(gè)較高的閾值(門(mén)限值)T2進(jìn)行一次粗判,能量高于T2的肯定是聲音信號(hào),語(yǔ)音的起止點(diǎn)位置應(yīng)在該門(mén)限值與短時(shí)能量包絡(luò)交點(diǎn)的時(shí)間點(diǎn)以外。再在短時(shí)平均能量上確定一個(gè)較低的閾值(門(mén)限值)T1,并從兩端往外搜索,分別找到短時(shí)能量包絡(luò)與T1相交的兩個(gè)點(diǎn),于是這兩個(gè)點(diǎn)就是用雙門(mén)限法根據(jù)短時(shí)能量所判定的語(yǔ)音段的起止點(diǎn);第二級(jí)判決:再以短時(shí)平均過(guò)零率為準(zhǔn),從一級(jí)判決的兩點(diǎn)的兩端往外搜索,找到短時(shí)平均過(guò)零率低于某個(gè)閾值(門(mén)限值)T3的兩個(gè)點(diǎn),這便是輸入語(yǔ)音段的起止點(diǎn)。
整個(gè)語(yǔ)音端點(diǎn)檢測(cè)可以分為4段:靜音、過(guò)渡段、語(yǔ)音段、結(jié)束。在靜音段,如果短時(shí)能量或過(guò)零率超越了低門(mén)限,就開(kāi)始標(biāo)記起點(diǎn),進(jìn)入過(guò)渡段。在過(guò)渡段中,由于參數(shù)的數(shù)值比較小,不能確信是否處于真正的語(yǔ)音段,因此只要兩個(gè)參數(shù)的數(shù)值回落到低門(mén)限以下,就將當(dāng)前狀態(tài)恢復(fù)到靜音狀態(tài),而如果過(guò)渡段中兩個(gè)參數(shù)都超過(guò)了高門(mén)限,則確定進(jìn)入了語(yǔ)音段,即檢測(cè)到語(yǔ)音起點(diǎn)。雙門(mén)限法端點(diǎn)檢測(cè)的步驟為:
Step.1 語(yǔ)音輸入,采集輸入語(yǔ)音信號(hào)序列x,得出語(yǔ)音信號(hào)時(shí)域波形,設(shè)n=0。
Step.2 設(shè)置合適的幀長(zhǎng)和幀移對(duì)語(yǔ)音信號(hào)進(jìn)行分幀處理,計(jì)算出幀數(shù)。根據(jù)時(shí)域波形圖估算前導(dǎo)無(wú)話(huà)段時(shí)長(zhǎng),計(jì)算出前導(dǎo)無(wú)語(yǔ)段幀數(shù)。
Step.3 求取短時(shí)平均能量和短時(shí)平均過(guò)零率,再計(jì)算前導(dǎo)無(wú)話(huà)段的短時(shí)能量和短時(shí)過(guò)零率的平均值。
Step.4 依據(jù)前導(dǎo)無(wú)話(huà)段的短時(shí)能量和短時(shí)過(guò)零率的倍數(shù)來(lái)設(shè)置短時(shí)能量和短時(shí)過(guò)零率的閾值(即門(mén)限值)T1、T2、T3進(jìn)行端點(diǎn)檢測(cè)。
Step.5 測(cè)量短時(shí)平均能量CN大于T1且短時(shí)平均過(guò)零率大于T3時(shí)則則標(biāo)記為有效語(yǔ)音,否則為無(wú)效語(yǔ)音。
Step.6 當(dāng)檢測(cè)為有效語(yǔ)音時(shí)n=n+1,判斷當(dāng)n≥3時(shí),則標(biāo)記為有效語(yǔ)音和無(wú)效語(yǔ)音的起點(diǎn)或者終點(diǎn)[8-10]。
當(dāng)語(yǔ)音不含噪聲時(shí),雙門(mén)限法能取得較好的端點(diǎn)檢測(cè)效果,但當(dāng)語(yǔ)音含有噪聲時(shí)其端點(diǎn)檢測(cè)效果較差。為了對(duì)含噪語(yǔ)音的端點(diǎn)進(jìn)行有效檢測(cè),本文首先利用子空間法對(duì)含噪語(yǔ)音進(jìn)行降噪處理,再利用雙門(mén)限法進(jìn)行端點(diǎn)檢測(cè),這樣使得雙門(mén)限法在語(yǔ)音含有噪聲的情形下仍能較好地使用。本文的算法步驟如圖1所示。
圖1 本文算法步驟
本文的仿真實(shí)驗(yàn)利用MATLAB進(jìn)行,首先分別在純凈語(yǔ)音中添加white噪聲、volvo噪聲、pink噪聲,然后分別利用雙門(mén)限法和本文算法對(duì)含噪語(yǔ)言進(jìn)行端點(diǎn)檢測(cè),并對(duì)結(jié)果進(jìn)行對(duì)比分析。
第1組實(shí)驗(yàn)將時(shí)長(zhǎng)為2s的純凈男聲語(yǔ)音“上海開(kāi)放港口”分別添加信噪比為0dB的white噪聲、volvo噪聲、pink噪聲,分別利用雙門(mén)限法和本文算法對(duì)含噪語(yǔ)言進(jìn)行端點(diǎn)檢測(cè)的結(jié)果如圖2所示,其中實(shí)線(xiàn)表示語(yǔ)音字節(jié)的起始點(diǎn),虛線(xiàn)表示語(yǔ)音字節(jié)的終止點(diǎn)[11-12]。
圖2 第1組實(shí)驗(yàn)的結(jié)果對(duì)比
由圖2可知,本文算法的語(yǔ)言端點(diǎn)檢測(cè)效果明顯要好于雙門(mén)限法。為了定量比較雙門(mén)限法與本文算法,本文利用準(zhǔn)確率或查準(zhǔn)率(PRC)、查全率(RCL)和綜合性能測(cè)度(F-measure)對(duì)兩種算法的語(yǔ)言端點(diǎn)檢測(cè)效果進(jìn)行評(píng)價(jià),三個(gè)參數(shù)的定義為[13]
其中,M表示檢測(cè)出的正確語(yǔ)音分割點(diǎn)數(shù),A表示檢測(cè)出的總分割點(diǎn)數(shù),N表示實(shí)際語(yǔ)音分割點(diǎn)數(shù)。一般地,PRC、RCL、F值越大,表明算法的效果越好。分別利用雙門(mén)限法和本文算法對(duì)含噪語(yǔ)言進(jìn)行端點(diǎn)檢測(cè)的效果評(píng)價(jià)結(jié)果如表1所示。
表1 第1組實(shí)驗(yàn)的檢測(cè)效果評(píng)估結(jié)果
由表1可知,在第1組實(shí)驗(yàn)中,對(duì)于添加三種不同噪聲的語(yǔ)音,本文算法的PRC、RCL、F值都要明顯大于雙門(mén)限法,這表明本文算法的語(yǔ)音端點(diǎn)檢測(cè)效果明顯優(yōu)于雙門(mén)限法。
第2組實(shí)驗(yàn)將時(shí)長(zhǎng)為4s的純凈男聲語(yǔ)音“我國(guó)的地勢(shì),西北高,東南低”分別添加信噪比為0dB的white噪聲、volvo噪聲、pink噪聲,分別利用雙門(mén)限法和本文算法對(duì)含噪語(yǔ)言進(jìn)行端點(diǎn)檢測(cè)的結(jié)果如圖3所示,其中實(shí)線(xiàn)表示語(yǔ)音字節(jié)的起始點(diǎn),虛線(xiàn)表示語(yǔ)音字節(jié)的終止點(diǎn)。
圖3 第2組實(shí)驗(yàn)的結(jié)果對(duì)比
由圖3可知,本文算法的語(yǔ)言端點(diǎn)檢測(cè)效果也要明顯好于雙門(mén)限法。為了定量比較雙門(mén)限法與本文算法,分別利用PRC、RCL和F值對(duì)兩種算法進(jìn)行效果評(píng)價(jià),結(jié)果如表2所示。
表2 第2組實(shí)驗(yàn)的檢測(cè)效果評(píng)估結(jié)果
由表2也可知,在第2組實(shí)驗(yàn)中,對(duì)于添加三種不同噪聲的語(yǔ)音,本文算法的語(yǔ)音端點(diǎn)檢測(cè)效果優(yōu)于雙門(mén)限法[13]。
本文將子空間降噪算法與雙門(mén)限法結(jié)合起來(lái),使得雙門(mén)限端點(diǎn)檢測(cè)算法在含有噪聲的環(huán)境下也能正常檢測(cè),該算法從語(yǔ)音降噪和特征提取兩方面很好的解決了不同環(huán)境噪聲的語(yǔ)音端點(diǎn)檢測(cè)問(wèn)題。實(shí)驗(yàn)結(jié)果表明,本文算法提高了聲源定位中語(yǔ)音端點(diǎn)檢測(cè)的準(zhǔn)確率和查全率,相較于雙門(mén)限端點(diǎn)檢測(cè)算法,其準(zhǔn)確性更高。