韓 慧,王繼祥
(1.國防科技大學,湖南長沙410073;2.中國人民解放軍63880部隊,河南洛陽471003)
在語音信號干擾效果評估的方法中,客觀評估以實時性強、節(jié)約人力物力等優(yōu)點而得到廣泛應用。由于語音信號的字符中間會出現(xiàn)短暫的停頓,每句話之間會有較長的停頓,語音停頓時的無效干擾能量對干擾效果評估會產生偏差,因此,評估干擾效果時需要將語音停頓時間段的干擾能量去除,評估結果才會更準確、有效。
為了實現(xiàn)語音信號干擾效果的客觀評估,需要檢測語音信號的端點并進行有音/無音的分段處理。目前采取的檢測方法主要利用了語音信號的4個特怔,即短時能量、能量譜方差、倒譜距離和熵。許多學者研究了低信噪比條件下語音信號的端點檢測方法[1-5]和語音分段的處理方法[6-8],這些方法適用于低信噪比條件下的語音信號干擾效果評估,如何實現(xiàn)高干信比條件下語音信號干擾效果的客觀評估,成為近年來電子對抗靶場試驗的主要研究內容之一。
語音信號的端點識別與分段處理是語音信號干擾效果評估的基礎,在進行干擾效果評估前,需要對語音信號進行處理,完成語音信號的端點識別和有音/無音的分段處理。下面介紹常用的處理方法。
在時域中,語音信號的幅度隨時間變化較大,特別是清音段的幅度一般比濁音段的幅度小得多,因此利用短時能量和短時平均幅度可以較好地反映這些變化。
一般情況下,對于信號x(n),定義短時能量為[9]:
令h(n)=ω2(n),則
式(2)表示可以用信號x2(n)通過一沖激響應為h(n)的線性濾波器代表信號短時能量,在語音信號處理中,一般取10~20 ms作為它的長度沖激響應h(n)的長短,這樣可以較好地反映語音信號的變化。短時能量的主要用途主要有:分離濁音和清音、區(qū)分聲母和韻母、無聲與有聲的分界等,可以有效地應用到語音識別中。
對于短時平均幅度可以表示為:
短時平均幅度和短時能量均可體現(xiàn)語音信號的變化特征,其區(qū)別在于短時平均幅度在取樣范圍內不因幅值取平方而造成很大的差距。在區(qū)別清音和濁音中,利用短時平均幅度時,其差別沒有短時能量那么顯著,清音的短時平均幅度相對來說比短時能量有所減少。
信號{x(n)}的短時平均過零率定義為:
過零率是指信號每秒通過零值的次數(shù),對于離散時間序列,過零率是指每個樣本改變符號的次數(shù)。當聲音處于濁音時,信號能量的分布集中在低于3 kHz頻率范圍內,而在清音時,信號的能量集中在低頻段,也就是具有較低的過零率,因此對于語音信號,短時平均過零率可以粗略地描述信號的頻譜特性,可用于判別清音濁音、有話無話等。
假設S(n)是一段語音信號,sw(n)是一段加窗語音信號,可表示為:
它的非零區(qū)間為n=0~(N-1)。則語音信號S(n)的短時自相關函數(shù)為:
sw(n)的離散時域傅里葉變換(DTFT)稱為S(n)的短時頻譜,
自相關函數(shù)具有許多優(yōu)良的性質,可用于語音信號的時域分析,也可用于識別語音信號的基音周期,從而可以將語音信號進行有音與無音的分段。
假設S(n)為一段語音信號,X(n)為加過強噪聲的語音信號,2個能量有限的信號S(n)和X(n)的互相關函數(shù)定義為:
而2個信號S(n)和X(n)的短時互相關函數(shù)定義為:
當二者均取N點長的矩形窗時,則原始語音信號與加噪語音信號的互相關表示為:
短時互相關的強度可以表示語音信號與加噪語音信號的相似性,通過相似性的大小,可以將加噪語音信號分為有音與無音信號,只要恰當?shù)剡x擇分段的長度,就可以判斷語音信號的分段。試驗時可以將窗的長度定義為音節(jié)的長度,由此得出的相關性最強的部分即為加噪語音信號的有音段,最終可將加噪語音信號準確地分成有音與無音段落。
上面介紹的語音分段方法,適用于語音信號很純凈時語音信號的分段,當語音信號含有噪聲時,分段效果不理想,不能滿足語音干擾效果評估的要求。
時間同步法獲得語音信號端點的原理是:在實驗中根據(jù)時間統(tǒng)一設備提供的標準時間對語音信號的端點進行劃分,然后將端點的時間信息傳送到干擾效果評估單元,以便干擾效果評估單元剔除語音信號的無音段,以提高干擾效果的準確度,其試驗組成框圖如圖1所示。
圖1 語音干擾效果評估試驗組成
試驗時,系統(tǒng)利用標準的時間統(tǒng)一設備,為試驗系統(tǒng)提供精確的標準時間,通過精確的時統(tǒng)設備,控制收發(fā)設備的時間可以準確的獲得接收語音信號的端點,這種方法簡單準確,試驗步驟如下:
①通過純語音發(fā)射與接收的時間,利用時間統(tǒng)一設備給出的統(tǒng)一時間,計算出整個評估系統(tǒng)的信號延遲時間,記為ts;
②根據(jù)通信發(fā)射的純語音信號計算出每個字符的時間間隔記為:t1,t2,t3,…,tN;
③由于語音信號經過發(fā)射和接收后,各字符的長度不變,即有音部分的長度也是相同的,因此利用精確的定位信號和純語音信號的時間間隔可以確定加干擾信號的t0和各字符的時間間隔t1,t2,t3,…,tN。
由此得到純語音信號與加噪語音信號有音部分,根據(jù)所得的有音信號進行語音信號的干擾效果評估,有效地剔除了由無音信號帶來的影響。
在語音干擾效果評估試驗時,選取了3個字組成的標準語音源作為發(fā)射信號,3個字符為“7”“3”“1”,并采取軍事語音的讀音,讀作“拐、叁、腰”,語音信號發(fā)射端純語音信號字符示意圖如圖2所示,能夠清晰分辨出語音信號的有/無音部分。
圖2 純語音信號的字符時間間隔
試驗的接收端收到的加噪語音信號如圖3所示,采用信號處理的方法分辨語音信號的有/無必然引入偏差。采用基于時間同步法檢測語音信號端點的方法,根據(jù)語音信號發(fā)射端純語音信號的時間間隔,能夠準確確定收端加噪語音信號的有/無音部分。干擾效果評估試驗表明,利用時間統(tǒng)一設備提供的標準時間可以將受干擾的語音信號精確的分段,將語音信號的無音段全部剔除,在進行干擾效果評估處理時,只需語音信號的有音段進行處理,有效地排除了無音信號引入的對干擾評估效果的影響,提高了語音干擾效果評估的準確度。
圖3 加噪語音信號的字符時間間隔
在通信對抗試驗領域,對語音信號干擾效果進行客觀評估是當前研究的重點。由于語音信號有其特殊的性質,很多因素影響到了客觀評估的準確度,對語音信號的分段處理結果不理想是一個主要的因素之一,也對客觀評估結果產生了一定的影響。利用時間統(tǒng)一設備有效地將語音信號進行了精確的分段,有效地提高干擾效果評估的準確度。
[1]沈亞強.低信噪比語音信號端點檢測和自適應濾波[J].電子測量與儀器學報,2001,15(3):27-32.
[2]HUANG L S,YANG C H.A Novel Approach to Robust Speech EndpointDetection in Car Environments[J].In:ICASSP'00,2000(3):1751-1754.
[3]NEMA T S.KADER A,REFA T A M.End Points Detection for Noisy Speech Using a Wavelet Based Algorithm[C].16th National Radio Science Conference,NRSC'99,1999:C18-1-5.
[4]SAVOJI M H.A Robust Algorithm for Accurate Endpointing of Speech[C].Speech Communication,1989:45-60.
[5]徐大為,吳 邊,趙建偉,等.一種噪聲環(huán)境下的實時語音端點檢測算法[J].計算機工程與應用,2003(1):115-117.
[6]ROUAT J,LIU Y C,MORISSETTE D.A Pitch Determination and Voiced/Unvoiced Dcision Algorithm for Noisy Speech[J].Speech Comm,1997,21(3):191-200.
[7]MAR TIN A,CHARLET D.RobustSpeech/non-speech Detection Using LDA Applied to MFCC[J].In:ICASSP'01,2000(1):237-240.
[8]SHIN W H.Speech/non-speech Classification Using Multiple Features for Robust Endpoint Detection[J].In:ICASSP'00,2000(3):1399-1402.
[9]易克初,田 斌,付 強.語音信號處理[M].北京:國防工業(yè)出版社,2000:51-58.