莊 培,李忠新
(南京理工大學(xué) 機(jī)械工程學(xué)院, 南京 210094)
當(dāng)前,語音識(shí)別在軍事領(lǐng)域的應(yīng)用愈加廣泛,語音識(shí)別技術(shù)使得軍事通信與戰(zhàn)爭決策更加迅捷、可靠,從而掌握戰(zhàn)爭的主動(dòng)權(quán)。但在以往的軍用語音識(shí)別系統(tǒng)中,都側(cè)重于無噪音或弱噪音環(huán)境下的語音分析識(shí)別,并未關(guān)注強(qiáng)噪音干擾下裝備的魯棒性[1-2]。在實(shí)際使用中,軍用語音識(shí)別系統(tǒng)應(yīng)用場景惡劣,戰(zhàn)場噪音會(huì)嚴(yán)重影響語音識(shí)別的準(zhǔn)確率,導(dǎo)致作戰(zhàn)任務(wù)的失敗。槍聲是戰(zhàn)場較為典型的強(qiáng)噪聲干擾,根據(jù)試驗(yàn)測試,槍械造成的噪聲可以達(dá)到100 dB,個(gè)別槍聲甚至可以達(dá)到150 dB,在這種環(huán)境下進(jìn)行偵查、作戰(zhàn)的裝備會(huì)受到極大干擾,需要具備強(qiáng)大的語音降噪能力,能準(zhǔn)確區(qū)分噪音與指令,完成對(duì)指令的精確識(shí)別。因此,有必要研究槍聲特性,并據(jù)此提出有效的降噪方法,以便語音識(shí)別系統(tǒng)能適應(yīng)戰(zhàn)場惡劣的語音環(huán)境。
槍聲背景下的語音系統(tǒng)運(yùn)行離不開語音降噪過程,語音降噪的主要目的是從帶噪語音中提取出盡可能純凈的原始語音,提高語音識(shí)別率。常見的語音降噪算法有自適應(yīng)濾波[3]、維納濾波[4]、深度神經(jīng)網(wǎng)絡(luò)[5]等,其中自適應(yīng)濾波算法是最經(jīng)典且成熟的降噪方法,適合處理局部平穩(wěn)的噪音信號(hào)。自適應(yīng)濾波器利用前一時(shí)刻的已知結(jié)果,自動(dòng)調(diào)節(jié)現(xiàn)在時(shí)刻的參數(shù),適用于噪聲未知的隨機(jī)特性。最小方均(Least Mean Square,LMS)自適應(yīng)算法就是最典型的自適應(yīng)濾波法,以最優(yōu)化的數(shù)學(xué)算法調(diào)節(jié)脈沖響應(yīng),得到最佳輸出信號(hào)[6]。LMS算法自1959年被提出以來,廣泛的應(yīng)用在語音降噪中,針對(duì)收斂速度和穩(wěn)態(tài)誤差的矛盾,人們還提出了歸一化LMS[7]、變步長LMS[8]等改良算法,現(xiàn)如今已經(jīng)極為完善。
本文探討戰(zhàn)場強(qiáng)噪音環(huán)境下的語音識(shí)別技術(shù),以槍聲為典型強(qiáng)噪音代表,通過對(duì)槍聲信號(hào)的特性分析,提出使用LMS算法濾除槍聲噪音,并在LMS算法前加入FIR低通濾波器。選取5種不同信噪比下槍聲背景干擾的語音信號(hào)進(jìn)行仿真和試驗(yàn)驗(yàn)證,分析算法的降噪效果和語音識(shí)別準(zhǔn)確性。結(jié)果表明,相比于其他降噪算法,該算法具有更優(yōu)的降噪效果,將其應(yīng)用于語音識(shí)別系統(tǒng),可大大提高識(shí)別準(zhǔn)確率。
目前,業(yè)界對(duì)槍聲特性的分析大多用于槍聲定位[9]、槍聲檢測識(shí)別[10-11]等,研究目的多是為了去除其他噪聲得到純凈槍聲,和上述的研究目標(biāo)不同,本文通過槍聲特性分析則是為了更好的濾除槍聲。槍械射擊時(shí)可以產(chǎn)生2種瞬態(tài)聲音信號(hào):第1種是子彈被擊發(fā)過程中子彈的火藥爆炸,高溫高壓氣體推彈出膛口的激波;第2種是彈丸在大氣中超音速飛行時(shí)產(chǎn)生的沖擊波[12]。用時(shí)域波形圖和語譜圖可以直觀分析槍聲的信號(hào)特性。語音信號(hào)的時(shí)域分析是應(yīng)用最廣泛的數(shù)字信號(hào)分析方法,將信號(hào)分解為簡單信號(hào)得出短時(shí)能量、短時(shí)過零率等特征量,而頻域分析則是分析信號(hào)頻率的成分大小,并用彩色語譜圖來表示,直觀明了。
語音信號(hào)的時(shí)域分析可以得到短時(shí)平均幅度、短時(shí)能量和短時(shí)過零率,這些短時(shí)參數(shù)在信號(hào)處理中都有重要的作用。
設(shè)槍聲信號(hào)為x(m),經(jīng)過分幀后第n幀的信號(hào)為xn(m),其短時(shí)能量為
(1)
En是度量幅度值變化的參數(shù),可以用來區(qū)分清音和濁音,清音的短時(shí)能量要比濁音小得多。由于用信號(hào)的平方來計(jì)算,短時(shí)能量對(duì)高電平很敏感。為更好的表征語音信號(hào)幅度變化,還可用短時(shí)平均幅度函數(shù):
(2)
Mn同樣能夠表示信號(hào)能量,它與短時(shí)能量的區(qū)別就在于不會(huì)因?yàn)橛?jì)算取樣值的平方造成小取樣值與大取樣值差異較大。
短時(shí)過零率定義為一幀語音中信號(hào)波形通過零電平的次數(shù)。連續(xù)語音信號(hào)的過零意味著波形穿過坐標(biāo)橫軸,而離散信號(hào)的過零率是計(jì)算樣本值改變符號(hào)的次數(shù)。第n幀的語音信號(hào)xn(m)的短時(shí)過零率Zn為
(3)
式中,sgn[·]是符號(hào)函數(shù),返回參數(shù)的正負(fù):
(4)
在實(shí)際使用過程中,還會(huì)用另外一個(gè)方法來計(jì)算短時(shí)過零率。根據(jù)定義,離散信號(hào)相鄰值改變符號(hào),則他們的乘積一定為負(fù)數(shù):
xi(m)*xi(m+1)<0
(5)
根據(jù)定義,對(duì)某槍聲信號(hào)進(jìn)行短時(shí)時(shí)域分析,得到槍聲波形圖如圖1所示。槍聲信號(hào)時(shí)長2 s,采樣率為44 100 Hz。槍聲波形信號(hào)在時(shí)域上具有強(qiáng)脈沖信號(hào)的特點(diǎn)[13],有很高的辨識(shí)度,幅值上升趨勢很陡,峰值持續(xù)時(shí)間極短,對(duì)應(yīng)槍聲的瞬時(shí)性。槍聲短時(shí)幅度在0~50之間波動(dòng),短時(shí)能量在0~25之間波動(dòng),峰值變化區(qū)間較大,而短時(shí)過零率在槍械擊發(fā)穩(wěn)定后大多維持在5~15之間??梢钥闯觯瑯屄曅盘?hào)是非平穩(wěn)的、非線性的。對(duì)圖1波形圖進(jìn)行局部放大得到圖2,可以看出,連發(fā)時(shí)每一次擊發(fā)產(chǎn)生的聲波形狀上大致相似,僅幅度值不同。
語音信號(hào)的頻域分析是以頻率為主分析不同頻率的成分大小,使用短時(shí)傅里葉變換可以很容易得到語音頻譜信息。短時(shí)傅里葉分析假設(shè)非平穩(wěn)信號(hào)在10~30 ms的短時(shí)間內(nèi)是平穩(wěn)的,用穩(wěn)態(tài)分析法來處理非平穩(wěn)信號(hào)。
圖1 連發(fā)槍聲短時(shí)時(shí)域分析
圖2 連發(fā)槍聲信號(hào)波形局部放大圖
設(shè)槍聲信號(hào)為x(m),經(jīng)過分幀后第n幀的信號(hào)為xn(m),那么xn(m)滿足以下關(guān)系式:
xn(m)=w(m)x(n+m),0≤m≤N-1
(6)
信號(hào)xn(m)的短時(shí)傅里葉變換為
(7)
式中,m為幀時(shí)間序號(hào);w為角頻率:w=2πk/N,則:
(8)
數(shù)字信號(hào)處理過程中常用離散傅里葉變換Xn(k)代替Xn(ejw),可以用來計(jì)算功率譜函數(shù)P(n,k):
P(n,k)=|Xn(k)|2
(9)
則P(n,k)是二維的非負(fù)實(shí)值函數(shù)。以時(shí)間為橫軸,頻率k作為縱軸,可以將P(n,k)的函數(shù)值表示為二維圖像,用來反映語音信號(hào)的頻譜特征,稱之為語譜圖,圖像精細(xì)化和色彩映射后就得到彩色的語譜圖。彩色的語譜圖可以直觀展現(xiàn)語音信號(hào)的共振峰與帶寬,由與橫軸平行的橫杠花紋對(duì)應(yīng)的頻率和帶寬確定,而平行于縱軸的豎直條的疏密對(duì)應(yīng)基音頻率的低高。
某典型槍械連發(fā)音頻的語譜圖如圖3所示,可以清晰的看出槍聲的語譜包絡(luò)。槍聲信號(hào)時(shí)長2 s,采樣率為 44 100 Hz。從槍聲聲波形成原理來看,彈丸被高溫高壓火藥氣體推出后,在槍管中產(chǎn)生摩擦并且擠壓空氣,產(chǎn)生彈道聲波,表現(xiàn)為譜圖中具有濃郁顏色的能量分布[14]。槍口射出的氣流對(duì)空氣分子造成非線性擾動(dòng),對(duì)應(yīng)語譜圖中的亂紋。連發(fā)槍聲存在明顯間隔,每次擊發(fā)造成的聲波能量條紋相似,共振峰帶寬大致相當(dāng)。
圖3 連發(fā)槍聲信號(hào)語譜圖
通過槍聲信號(hào)的時(shí)域和頻域分析,可以得出槍聲共性特征,是非平穩(wěn)、非線性的隨機(jī)信號(hào)。但同時(shí),連發(fā)時(shí)每一次擊發(fā)產(chǎn)生的聲波形狀上大致相似,只是幅度值不同,語譜形狀也大致相當(dāng),因此可以利用先前擊發(fā)的槍聲信號(hào)來推測后續(xù)信號(hào)。在信號(hào)處理中,將這種特性的噪聲信號(hào)看作是局部平穩(wěn)的。
在語音信號(hào)處理中,局部平穩(wěn)的噪聲信號(hào)意味著帶噪語音中的噪音和語音前導(dǎo)無話段噪音的統(tǒng)計(jì)特性相一致,且在后續(xù)語音段中保持不變,通常根據(jù)前導(dǎo)噪音來預(yù)測語音中疊加的噪音統(tǒng)計(jì)特性[15]。利用自適應(yīng)濾波器可以很好地濾除這種局部平穩(wěn)噪聲。
最小方均(Least Mean Square,LMS)自適應(yīng)算法就是典型的利用自適應(yīng)濾波器來處理信號(hào),它將已知期望響應(yīng)和濾波器輸出信號(hào)之間誤差的最小方均值作為標(biāo)準(zhǔn),根據(jù)輸入信號(hào)的迭代估計(jì)梯度矢量,并更新權(quán)系數(shù)以獲得最優(yōu)濾波器。LMS算法是梯度最速下降法,運(yùn)算簡單,無需先驗(yàn)知識(shí)。最簡單的LMS濾波器結(jié)構(gòu)如圖4所示。
圖4 LMS濾波器結(jié)構(gòu)示意圖
濾波器的輸出矢量y(n)為
(10)
其中,X(n)為輸入矢量;W(n)為權(quán)系數(shù)矢量;N為濾波器階數(shù)。得到誤差e(n)為:
e(n)=d(n)-y(n)
(11)
則方均誤差ε為
ε=E[e2(n)]=E[d(n)-y(n)]2
(12)
將y(n)代入均方誤差式中得到
ε=E[d2(n)]+WT(n)RW(n)-2PW(n)
(13)
式中,R(n)=E[X(n)+XT(n)]是N維的自相關(guān)矩陣,P=E[d(n)XT(n)]為互相關(guān)矢量。
LMS算法是梯度最速下降法為原則的迭代算法,即可用均方誤差性能平面法的斜率來調(diào)節(jié)增量大?。?/p>
[4]Myers-Scotton,C.A theoretical introduction to the markedness model.In Myers-Scotton.ed.Code and Consequence:Choosing Linguistic Varieties.New York,Oxford:OUP,1998:18-38.
W(n+1)=W(n)-μ▽(n)
(14)
μ是自適應(yīng)步長,和迭代收斂速度相關(guān)。▽(n)是梯度,用E[e2(n)]的斜率表示
(15)
在Widrow-Hoff的LMS算法中,用瞬時(shí)值來替代梯度估算,則最終迭代公式為
W(n+1)=W(n)+2μe(n)x(n)
(16)
那么,綜上所述,對(duì)于n=1,2,3,…,迭代執(zhí)行下述步驟1)~ 4)得到最佳濾波器系數(shù)W(n),就可以構(gòu)成濾波器完成對(duì)語音信號(hào)的處理:
1) 獲得信號(hào)序列x(n)和d(n);
2) 由式(10)計(jì)算y(n);
3) 由式(11)估計(jì)誤差e(n);
4) 由式(16)更新濾波器權(quán)系數(shù)W(n+1);
為了了解LMS自適應(yīng)濾波法的降噪能力,進(jìn)行語音降噪仿真實(shí)驗(yàn)。實(shí)驗(yàn)中,背景噪聲為某自動(dòng)步槍連發(fā)槍聲,降噪前語音信號(hào)通過了FIR低通濾波器,LMS濾波器的抽頭數(shù)設(shè)置為M=32,步長因子μ=0.001。LMS降噪算法仿真波形示例如圖6所示,帶噪語音信號(hào)在降噪后語音波形幾乎保持不變,語音無明顯失真,噪聲被大大削弱,且后半段效果明顯好于前半段。
圖5 濾波器的幅頻曲線和相頻曲線
圖6 信噪比為5 dB時(shí)的LMS算法仿真波形
為了考察FIR低通濾波器對(duì)降噪算法的改良作用,設(shè)置了對(duì)照試驗(yàn)。同時(shí),考慮到惡劣的戰(zhàn)場環(huán)境,更側(cè)重于噪聲嚴(yán)重場景的測試,添加槍聲噪音,根據(jù)一定比例將正常語音和噪音信號(hào)進(jìn)行線性相加,得到信噪比為-15 dB、-10 dB、-5 dB、0 dB、5 dB的含噪語音信號(hào),這五組語音信號(hào)疊加的槍聲分別來自五支不同槍械,在有無FIR低通濾波器的情況下,利用LMS算法對(duì)其降噪處理,結(jié)果如表1所示。表中可知,LMS算法對(duì)不同信噪比的槍械噪聲降噪效果不同,但都能起到很好的效果,信噪比增益都在8 dB以上;而FIR低通濾波器對(duì)信噪比的提升效果在1 dB以上,最大能達(dá)到3 dB,表明低通濾波器對(duì)槍聲高頻段和工頻噪聲起到了抑制作用。
表1 FIR低通濾波器對(duì)降噪效果的影響結(jié)果
為了橫向?qū)Ρ润w現(xiàn)LMS算法的優(yōu)越性,試驗(yàn)另外選取了5種經(jīng)典降噪算法,分別為基本譜減法、基于多窗譜估計(jì)的改進(jìn)譜減法、基于Boll的改進(jìn)譜減法3種譜減法以及基本維納濾波法、基于先驗(yàn)信噪比的維納濾波法兩種維納濾波法,試驗(yàn)結(jié)果如圖7所示。圖中可見,在這幾種算法中,先驗(yàn)維納濾波法降噪效果不佳,在5 dB時(shí)幾乎沒有效果,其他5種方法均能起到不同程度的降噪作用,LMS自適應(yīng)濾波法明顯優(yōu)于其他降噪算法,在各個(gè)信噪比段均對(duì)語音信噪比有較大提升,且在實(shí)際應(yīng)用中可以處理不同采樣頻率的噪聲。
圖7 降噪算法降噪效果對(duì)比
表2列舉了6種降噪算法在-5 dB槍聲環(huán)境下的平均運(yùn)行時(shí)間,6種算法的運(yùn)行環(huán)境均在同一電腦上運(yùn)行,系統(tǒng)為Windows7,cpu為i5-4590。由表2可知:基本譜減法運(yùn)行時(shí)間最短,但去噪效果不明顯,基于多窗譜估計(jì)的改進(jìn)譜減法運(yùn)行時(shí)間最長,超過1 s。LMS 濾波法運(yùn)行時(shí)間為0.574 s,考慮到降噪效果,LMS自適應(yīng)濾波器法在保證良好的去噪效果的同時(shí),運(yùn)行時(shí)間也控制在合理的范圍內(nèi)。
表2 -5 dB環(huán)境下運(yùn)行時(shí)間
單獨(dú)檢驗(yàn)了LMS降噪模塊的作用效果后,將其加入語音識(shí)別系統(tǒng)中,以識(shí)別準(zhǔn)確率驗(yàn)證該算法在整體識(shí)別系統(tǒng)中的降噪效果。語音識(shí)別系統(tǒng)選擇MFCC作為語音特征參數(shù),基于高斯混合模型的隱馬爾可夫模型GMM-HMM[16]作為模式匹配方法。試驗(yàn)利用Matlab的數(shù)據(jù)采集工具箱控制計(jì)算機(jī)接收麥克風(fēng)輸入的語音信號(hào)并傳入Matlab中,方便進(jìn)行語音的存儲(chǔ)、播放以及信號(hào)的分析。試驗(yàn)采集了5位試驗(yàn)者的語音數(shù)據(jù),參與人員沒有發(fā)音障礙,對(duì)口音不做要求。每位試驗(yàn)者分別朗讀8個(gè)二字指令,重復(fù)10次,記錄時(shí)長為2 s的語音數(shù)據(jù),采樣率為16 000 Hz,試驗(yàn)相關(guān)參數(shù)如表3所示。隨機(jī)抽取5組作為訓(xùn)練項(xiàng),另外5組作為測試項(xiàng)。整個(gè)試驗(yàn)在實(shí)驗(yàn)室安靜環(huán)境下進(jìn)行。同時(shí)為保證語音集的有效性,試驗(yàn)前每人熟悉詞匯表5 min。試驗(yàn)選擇槍聲噪音作為戰(zhàn)場環(huán)境模擬,分別以不同的信噪比將純凈語音和噪音進(jìn)行合成。
表3 試驗(yàn)參數(shù)
在0 dB信噪比下,識(shí)別系統(tǒng)對(duì)帶噪語音信號(hào)的識(shí)別效果如圖8所示。
圖8 信噪比為0 dB時(shí)語音識(shí)別效果
圖8中可知,LMS算法很好地濾除了語音信號(hào)中的槍聲,為后續(xù)準(zhǔn)確的語音識(shí)別打下良好基礎(chǔ)。相應(yīng)的語音識(shí)別結(jié)果如表4所示。表4中可見,該語音識(shí)別系統(tǒng)具有較高的識(shí)別準(zhǔn)確率,即使對(duì)槍聲污染嚴(yán)重的語音也有80%以上的識(shí)別準(zhǔn)確率,語音質(zhì)量得到了改善,系統(tǒng)識(shí)別率得到顯著提高。從主觀評(píng)價(jià)角度,降噪后的音頻主體指令清晰無失真,背景槍聲幾乎消失,語音可懂度較高。5種信噪比下,識(shí)別系統(tǒng)的運(yùn)行時(shí)間大致相同,單個(gè)指令的平均識(shí)別時(shí)間在0.8 s左右,系統(tǒng)降噪所需時(shí)間與背景信噪比并無關(guān)聯(lián)。
表4 仿真結(jié)果
1) 槍聲波形信號(hào)在時(shí)域上具有強(qiáng)脈沖信號(hào)的特點(diǎn),幅值上升趨勢很陡,峰值持續(xù)時(shí)間極短,連發(fā)槍聲存在明顯間隔,每次擊發(fā)造成的聲波波形大致相同,能量條紋相似,共振峰帶寬大致相當(dāng)。
2) 雖然槍聲是非平穩(wěn)、非線性的隨機(jī)信號(hào),但通過研究發(fā)現(xiàn)可以看作局部平穩(wěn),LMS自適應(yīng)濾波法可以用來削弱語音中的槍聲干擾。在LMS濾波器前先將帶噪語音信號(hào)通入FIR低通濾波器可以抑制槍聲高頻段和工頻噪聲,提升LMS濾波器降噪效果。
3) LMS自適應(yīng)濾波器法對(duì)含槍聲語音的降噪達(dá)到8 dB以上,比其他5種降噪算法效果更佳,運(yùn)行時(shí)間也在可接受范圍;應(yīng)用于語音識(shí)別系統(tǒng)中對(duì)孤立詞識(shí)別準(zhǔn)確率在80%以上,主觀評(píng)價(jià)也較好,語音可懂度令人滿意,且系統(tǒng)識(shí)別單個(gè)指令只需0.8 s左右,同時(shí)具有背景噪聲信噪比不影響系統(tǒng)降噪耗時(shí)的優(yōu)點(diǎn)。