曾 光,薛豪杰,毛英磊,毛凱赟
(上海船舶設(shè)備研究所,上海 201108)
VOX(Voice-Operated Transmit)也叫VAS(Voice-Activated Switch)或 VOS(Voice-Operated Switch),廣泛運(yùn)用于對講機(jī)、潛水系統(tǒng)、戰(zhàn)斗機(jī)飛行員通信、坦克指揮通信等方面,以方便那些需要雙手完成任務(wù)的情況。傳統(tǒng)的對講機(jī)通信方式是PTT(Push to Talk),每次通信時(shí)都要進(jìn)行手動按鍵。這樣通信時(shí)勢必影響雙手的工作。而應(yīng)用VOX技術(shù)就可無需手動按鍵,釋放雙手進(jìn)行工作,帶來諸多方便。例如,潛水員水下作業(yè)時(shí),就不太方便在工作的同時(shí)操作PTT開關(guān)。在很多情況下他們的雙手已經(jīng)被其他任務(wù)占用。因此,發(fā)展性能可靠的“Hand-free”通信系統(tǒng)在很多情況下是極其需要的[1]。
在移動通信中,VOX和噪聲消除技術(shù)的組合能大大延長電池壽命,這提供了低功耗設(shè)計(jì)的一種可能途徑。
VOX的關(guān)鍵技術(shù)即為如何在包含噪聲的信號中對有聲/無聲(語音/噪聲)進(jìn)行判別。本文應(yīng)用語音信號數(shù)字處理技術(shù)上的語音信號端點(diǎn)識別技術(shù),提出一種穩(wěn)定簡單的方法實(shí)現(xiàn)VOX功能,并將其應(yīng)用于研發(fā)的水下通信系統(tǒng)中。
語音和噪聲的主要區(qū)別在它們的能量上。如果把一段語音通信過程,分為無話音的噪聲段和包含話音的語音段,則語音段的能量比噪聲段的大。語音段的能量是噪聲段能量疊加語音聲波能量的和。如果環(huán)境噪聲和系統(tǒng)輸入噪聲比較小,那么只要計(jì)算輸入信號的短時(shí)能量或短時(shí)平均幅度就能把語音段和噪聲背景區(qū)分開。而當(dāng)環(huán)境噪聲和系統(tǒng)輸入噪聲較大時(shí),則需對信號過零率進(jìn)行判斷處理。應(yīng)用語音信號的短時(shí)能量和短時(shí)過零率相結(jié)合的方法,使系統(tǒng)簡單、易于實(shí)現(xiàn)并保證有較高的精確度,穩(wěn)定性。
應(yīng)用短時(shí)分析技術(shù),將語音流分段進(jìn)行處理。每一段稱為1幀,其中幀長為10~30 ms,常見20 ms。幀移為0~1/2幀,幀與幀之間平滑過渡。如圖1所示。設(shè)定語音波形的時(shí)域信號為S(n),為了減小語音幀的截?cái)嘈?yīng),通常需加窗處理。經(jīng)過加窗分幀處理后得到第n幀語音信號如式(1)所示,其中N為1幀幀長,M為幀間重疊長度,即幀移。
圖1 語音流的幀圖形Fig.1 The frame map of voice stream
式中:n=0,T,2T…;N為幀長;T為幀移長度;W(n)為漢明窗表達(dá)式,即
因?yàn)闈h明窗的主瓣最寬,旁瓣高度最低,可以有效克服泄露現(xiàn)象,具有更平滑的低通特性。第n幀語音信號Sn(m)的短時(shí)能量用En表示,由下式計(jì)算:
En是1個(gè)度量語音信號幅度值變化的函數(shù),但有個(gè)缺陷,因其在計(jì)算時(shí)用的是信號的平方,所以對高電平非常敏感。因此本設(shè)計(jì)采用1個(gè)度量語音信號幅度值變化的函數(shù),即短時(shí)平均幅度Mn來代替。它與短時(shí)能量的區(qū)別在于信號的小取樣值和大取樣值不會因取平方而造成較大差異[4]。第n幀的語音信號的短時(shí)平均幅度為:
短時(shí)過零率表示1幀語音信號波形穿過橫軸(零電平)的次數(shù)。過零分析是語音時(shí)域分析中最常用的一種。對于連續(xù)語音信號,過零意味著時(shí)域波形通過時(shí)間軸;而對于離散信號,如果相鄰的取樣值的符號改變稱為過零。過零率就是樣本改變符號次數(shù)。
語音信號Sn(m)的短時(shí)過零率
一般情況下,采集語音信號的最初短時(shí)段為無語音段,僅有均勻分布的噪聲信號。因此可以用最初的幾幀信號(一般為10~20幀)來計(jì)算過零率閾值ZT及能量閾值ET。并以此為基礎(chǔ)判斷信號是否為有聲/無聲。本次設(shè)計(jì)使用最初10幀樣值計(jì)算短時(shí)幅度平均值作為閾值[2]。
因?yàn)檎Z音信號中的濁音短時(shí)平均能量的值要比清音短時(shí)平均能量值大很多,且能量集中于低頻段內(nèi)且過零率較低。而清音信號的頻段較高,能量較低類似于噪聲。若采集信號的計(jì)算值相比于初始噪聲采樣計(jì)算的閾值較大且過零率比閾值的低[5],可認(rèn)為該信號含有濁音,判斷其為語音信號。
圖2 系統(tǒng)原理圖Fig.2 System principle map
根據(jù)上述原理,錄取一段語音信號進(jìn)行仿真。語音信號為“船舶研究所”,采樣頻率為Fs=8 000 Hz。如圖3~圖5所示,對語音信號加入高斯白噪聲。在不同信噪仿真下,以20 ms為1幀數(shù)據(jù),1/2幀進(jìn)行平滑過渡處理[6]。
從圖3到圖5的仿真結(jié)果可以看出,在信噪比較大的情況(20 dB)下,短時(shí)過門限率和平均幅度能明顯檢測出語音信號的起始點(diǎn)。但隨著環(huán)境噪聲增大,傳輸距離加長,信噪比降低。短時(shí)平均幅度的檢測性能不如短時(shí)過門限率有效。仿真測試中的漏判概率和信噪比如圖6所示。在實(shí)際應(yīng)用中,結(jié)合不同的過門限系數(shù),使用短時(shí)過門限率結(jié)合短時(shí)平均幅度進(jìn)行語音識別檢測。
圖6 信噪比與漏判概率關(guān)系Fig.6 The relation between SNR and misdetection rate
本文介紹了傳統(tǒng)的語音信號檢測方法。結(jié)合實(shí)際應(yīng)用,提出一種檢測方法。在不同噪聲的情況下對檢測效果進(jìn)行分析比較。仿真表明短時(shí)過門限率有很好的語音識別效果。以此為基礎(chǔ),應(yīng)用短時(shí)過門限率配合短時(shí)平均幅度改進(jìn)語音檢測方法。
[1]張?zhí)扃鳎顐?,林孝康,劉?基于數(shù)字信號處理的嗓音控制開關(guān)(VOX)算法研究[J].應(yīng)用聲學(xué),2005,24(3):157-163.ZHANG Tian-qi,LI Wei,LIN Xiao-kang,LIU Lin.Study on a voice-operated transmit(VOX)algorithm based on digital signal processing[J].Applied Acoustics,2005,24(3):157-163.
[2]張志霞,韓慧蓮,薛宏偉.語音信號端點(diǎn)檢測方法研究[J].太原科技,2008,(10):58-59.ZHANG Zhi-xia,HAN Hui-lian,XUE Hong-wei.Research on the endpoint detection methods of speech signals[J].TAIYUAN SCI-TECH,2008,(10):58-59.
[3]沈宏余,李英.語音端點(diǎn)檢測方法的研究[J].科學(xué)技術(shù)與工程,2008,8(15):4396-4397.SHEN Hong-yu,LIYing.Studyon speech endpoint detection method[J].Science Technology and Engineering,2008,8(15):4396-4397.
[4]王炳錫,屈丹.實(shí)用語音識別[M].北京:國防工業(yè)出版社,2005.
[5]劉慶升,徐宵鵬,黃文浩.一種語音端點(diǎn)檢測的研究[J].計(jì)算機(jī)工程,2003,29(3):120-121.LIU Qing-sheng,XU Xiao-peng,HUANG Wen-hao.Research on a speech endpoint detection method[J].Computer Engineering,2003,29(3):120-121.
[6]趙紅怡,張常年.數(shù)字信號處理及其 MATLAB實(shí)現(xiàn)[M].北京:化學(xué)工業(yè)出版社,2002.