, ,,
(上海交通大學(xué) a.航空航天學(xué)院; b.電子信息與電氣工程學(xué)院,上海 200240)
民用航空飛行安全是民用航空器有效運行的基礎(chǔ)[1]。當(dāng)前,航空人為因素已經(jīng)成為導(dǎo)致飛行事故最為主要的因素。飛機駕駛艙中的人為因素研究作為航空人為因素研究的重點,需要準(zhǔn)確地識別和測量出飛行員的行為或動作,例如通信、導(dǎo)航、執(zhí)行檢查單等,從而評價飛行員的工作負(fù)荷,對飛機駕駛艙的設(shè)計或飛行員操作流程進行改進,避免由于飛行員任務(wù)負(fù)荷過重導(dǎo)致的人為操作錯誤[2]。
飛行員語音信息是分析飛行員行為或動作的重要依據(jù),利用語音端點檢測(Speech Endpoint Detection,SED)技術(shù)可以提取語音記錄中的飛行員語音[3]。然而飛機駕駛艙中的噪聲環(huán)境十分復(fù)雜,包括發(fā)動機噪聲、飛機飛行時外部氣流紊流聲、機艙內(nèi)被操縱器件的活動聲、空調(diào)噪聲等,使得在低信噪比的情況下,基于線譜頻率、全帶寬信號能量、低頻帶信號能量或過零率的傳統(tǒng)語音端點檢測方法的檢測效果急劇下降[4]。
有研究表明,語音的共振峰頻率信息能更有效地體現(xiàn)語音信號的時變特性[5]?;诖私Y(jié)論,文獻[6]利用譜減法進行降噪,并將降噪后語音的子帶譜熵作為判決參數(shù)實現(xiàn)語音端點檢測。但是譜減法比較適用于噪聲平穩(wěn)的條件,其對于非平穩(wěn)的、復(fù)雜的航空背景噪聲抑制能力較弱,且在降噪過程中會產(chǎn)生音樂噪聲[7]。子帶譜熵能有效地區(qū)分語音和噪聲,但在有嘈雜人聲時性能較差,而此時語音與噪聲的能量仍是超過噪聲的,因此,文獻[8]引入一種結(jié)合熵與能量的判決參數(shù),但該文獻方法在低信噪情況下性能不穩(wěn)定。
針對飛機駕駛艙中的強噪聲環(huán)境,本文結(jié)合最優(yōu)改進對數(shù)譜幅度估計(Optimally Modified Log-Spectral Amplitude Estimator,OM-LSA)語音增強算法與Teager能量算子(Teager Energy Operator,TEO),提出一種魯棒語音端點檢測方法。首先通過OM-LSA算法對含噪語音數(shù)據(jù)進行初步降噪處理;然后利用TEO對噪聲的抑制作用進一步濾除殘留的噪聲,降低其對語音端點判決的干擾;最后整合降噪后語音的能量值與譜熵得到端點檢測的判決參數(shù),實現(xiàn)強航空背景噪聲環(huán)境下對飛行員語音端點的有效檢測。
OM-LSA算法作為一種單通道頻域語音增強算法,能夠適應(yīng)多種噪聲環(huán)境,在保護較弱語音信號分量的同時,可避免音樂噪聲的產(chǎn)生。該算法對于低輸入信噪比和非平穩(wěn)噪聲尤其有效[7]。假設(shè)語音信號為s(n),疊加一個不相關(guān)的噪聲信號u(n),構(gòu)成含噪語音信號y(n):
y(n)=s(n)+u(n)
(1)
其中,s(n)和u(n)是統(tǒng)計獨立的。
對含噪語音信號y(n)加窗分幀處理后,得到第i幀語音信號yi(m),通過短時傅里葉變換求yi(m)的傅里葉變換系數(shù),如式(2)所示。
Y(k,i)=S(k,i)+U(k,i)
(2)
其中:k為頻率分量;i為幀數(shù)。
OM-LSA算法是基于最小均方誤差的對數(shù)幅度譜估計器,對于符合高斯分布的語音和噪聲信號,可以通過式(3)估計語音信號的傅里葉變換系數(shù)。
(3)
語音存在時的增益函數(shù)GH1可以根據(jù)下式估計得到:
(4)
其中,υξγ/(1+ξ)。
(5)
TEO是一個強大的非線性算子,可以跟蹤調(diào)制能量并識別瞬時幅度和頻率[10-11]。TEO對噪聲具有抑制作用,可以進一步濾除含噪語音信號經(jīng)OM-LSA算法處理后殘留的噪聲[12]。
在離散時間條件下,s(n)的TEO定義如式(6)所示,含噪語音信號y(n)的TEO如式(7)所示。
Ψd[s(n)]=s(n)2-s(n+1)s(n-1)
(6)
Ψd[y(n)]=Ψd[s(n)]+Ψd[u(n)]+
(7)
從上述推導(dǎo)可以看出,TEO主要提取的是含噪語音信號中語音的能量。圖1顯示了含噪語音信號y(n)和Ψd[y(n)]的語譜圖,y(n)的信噪比為10 dB。
圖1 語譜圖對比
對比語譜圖可以看出,TEO不僅抑制了噪聲能量,并且在保留語音信號能量的同時,突出了語音的共振峰信息。
設(shè)各幀語音信號yi(m)的幀長為N,短時能量指各語音幀的能量,其定義如下:
(8)
圖2為y(n)和Ψd[y(n)]的短時能量曲線。可以看出,y(n)的能量值是噪聲能量與語音能量的疊加,而Ψd[y(n)]的能量值曲線能較好地跟蹤純凈語音信號能量的變化,且在噪聲段更平滑。
圖2 短時能量曲線對比
譜熵反映了離散信源在頻域內(nèi)幅值分布的無序性。將熵值作為特征參數(shù)進行端點檢測的實驗結(jié)果表明,語音的熵與噪聲的熵存在較大區(qū)別[13]。
子帶譜熵的提出是為了消除每一條譜線幅值受噪聲影響的問題,其將每幀語音信號的全頻帶均勻地分成Nb個子帶,語音信號第i幀的第w個子帶的能量譜為:
(9)
相應(yīng)地,每幀各子帶的歸一化概率密度pb(w,i)和每幀的子帶譜熵Hb(i)分別為:
(10)
(11)
圖3為y(n)和Ψd[y(n)]的子帶譜熵曲線。可以看出,當(dāng)語音信噪比下降時,子帶譜熵對語音和噪聲的區(qū)分性也相應(yīng)下降。
圖3 子帶譜熵曲線對比
本文結(jié)合OM-LSA語音增強算法和TEO對飛行員語音記錄中的航空背景噪聲進行抑制,然后計算降噪后語音信號的短時能量與子帶譜熵。從圖2和圖3可以看出,在語音中的有話區(qū)間,短時能量曲線是向上凸起的,而子帶譜熵曲線卻相反,其在有話區(qū)間向下凹陷。若將兩者的比值作為雙門限判決的參數(shù),則可以放大有話區(qū)間的判決參數(shù)值,從而實現(xiàn)強航空背景噪聲環(huán)境下的飛行員語音端點檢測?;谏鲜龇治?本文方法的檢測過程如圖4所示。
圖4 語音端點檢測過程
(12)
圖5為y(n)和Ψd[y(n)]的歸一化能熵比曲線。可以看出,基于TEO的能熵比曲線增強了語音與噪聲段的區(qū)分性,且在噪聲段更平滑。
圖5 能熵比曲線對比
利用能熵比檢測語音端點的主要步驟如下[14]:
1)選取一個較高的閾值(門限)T2對EERTEO(i)進行一次粗判,高于T2的肯定是語音。
2)選取一個較低的閾值(門限)T1,從1)中的交匯點向兩旁擴展搜索,分別找到EERTEO(i)與T1相交的2個點,將其判定為語音的起止點。
實驗中的飛行員語音記錄采集自如圖6所示的駕駛艙中。
圖6 實驗場景
在飛行過程中,通過頭戴式麥克風(fēng)采集飛行員語音,采樣率為8 kHz,采樣精度為16 bit,幀長選擇25 ms,幀移為10 ms。實驗對10段語音數(shù)據(jù)(總時長為48 min)進行檢測,計算檢測正確率與錯誤率的平均值。
首先利用OM-LSA語音增強算法對飛機駕駛艙中的語音記錄做增強處理,然后對基于短時能量與過零率比值的檢測算法(EZR)[15]、基于短時能量與譜熵比值的檢測方法(EER)以及本文方法進行比較,具體過程如圖7所示。
圖7 實驗過程
對飛機駕駛艙中的飛行員語音記錄進行人工標(biāo)定起止點,將算法檢測結(jié)果與手工標(biāo)定的起止點進行比較,通過以下3個客觀評價指標(biāo)來評價端點檢測方法的性能[5]:
1)語音幀檢測正確率,如式(13)所示。
PS=TS/frameS
(13)
其中:TS為語音信號中被正確判斷為語音幀的幀數(shù);frameS為手動標(biāo)定為語音幀的總數(shù)。
2)噪聲幀檢測正確率,如式(14)所示。
PN=TN/frameN
(14)
其中:TN為語音信號中被正確判斷為噪聲幀的幀數(shù);frameN為手動標(biāo)定為噪聲幀的總數(shù)。
3)檢測錯誤率,如式(15)所示。
PF=(FN+FS)/(frameS+frameN)
(15)
其中:FN為被錯誤判斷為語音幀的噪聲幀數(shù);FS為被錯誤判斷為噪聲幀的語音幀數(shù)。
圖8(a)和圖8(b)為一段原始飛行員語音數(shù)據(jù)及其語譜圖,在136 Hz~2 170 Hz的頻率范圍內(nèi),語音信號的頻譜被噪聲的頻譜遮掩,在2 170 Hz~4 000 Hz頻率范圍內(nèi),可見語音信號的頻譜。圖8(c)和圖8(d)為語音經(jīng)過OM-LSA算法初步降噪后的語音數(shù)據(jù)及其語譜圖,其中中低頻的噪聲能量被濾除,可見語音信號的頻譜,但在2 170 Hz~4 000 Hz頻率范圍內(nèi)仍有能量較小的噪聲殘留。利用TEO進一步降噪后的端點檢測結(jié)果標(biāo)記在圖8(c)中。
圖8 語音端點檢測結(jié)果
對飛行員語音數(shù)據(jù)集進行測試,得到的平均檢測正確率和錯誤率如表1所示??梢钥闯?本文方法在對語音幀和噪聲幀檢測的平均正確率上,均高于EZR和EER方法。
表1 3種方法的檢測性能對比 %
提取飛行員語音記錄中的飛行員語音信息,對于分析飛行員的行為或動作起到關(guān)鍵的作用,也是駕駛艙人為因素研究的重點。針對飛機駕駛艙中的強噪聲環(huán)境,以及基于能量參數(shù)和基于頻譜熵參數(shù)方法在低信噪比情況下的局限性,本文提出一種結(jié)合OM-LSA語音增強算法與TEO的語音端點檢測方法。首先利用OM-LSA算法對飛行員語音數(shù)據(jù)初步降噪;然后通過TEO做進一步的噪聲濾除,減少其對端點檢測的干擾;最后將降噪后語音的能量與頻譜熵比值作為端點檢測的判決參數(shù),實現(xiàn)強航空背景噪聲下的飛行員語音端點檢測。實驗結(jié)果表明,本文方法對語音幀和噪聲幀的平均檢測正確率可達95.6%和92%,能準(zhǔn)確獲取飛行員語音信息。后續(xù)工作將改進端點檢測過程中所使用的判決參數(shù),進一步提高檢測正確率。
[1] KRAUSE S.Aircraft Safety:Accident Investigations,Analyses,& Applications[M].[S.l.]:McGraw-Hill Professional,2003.
[2] SHAPPELL S A,WIEGMANN D A.A Human Error Approach to Aviation Accident Analysis:The Human Factors Analysis and Classification System[M].[S.l.]:Ashgate Publishing,Ltd.,2012.
[3] KOLA J,ESPY-WILSON C,PRUTHI T.Voice Activity Detection[EB/OL].[2016-10-10].http://ece.umd.edu/merit/archives/merit2011/merit_fair11_reports/report_Kola.pdf.
[4] BENYASSINE A,SHLOMOT E,SU H Y,et al.ITU-T Recommendation G.729 Annex B:A Silence Compression Scheme for Use with G.729 Optimized for V.70 Digital Simultaneous Voice and Data Applications[J].IEEE Communications Magazine,1997,35(9):64-73.
[5] WANG K C,TASI Y H.Voice Activity Detection Algorithm with Low Signal-to-Noise Ratios Based on Spectrum Entropy[C]//Proceedings of the 2nd Inter-national Symposium on Universal Communication.Washington D.C.,USA:IEEE Press,2008:423-428.
[6] JIN Li,CHENG Jiang.An Improved Speech Endpoint Detection Based on Spectral Subtraction and Adaptive Sub-band Spectral Entropy[C]//Proceedings of Inter-national Conference on Intelligent Computation Tech-nology and Automation.Washington D.C.,USA:IEEE Press,2010:591-594.
[7] COHEN I,BERDUGO B.Speech Enhancement for Non-stationary Noise Environments[J].Signal Processing,2001,81(11):2403-2418.
[8] HUANG L,YANG C.A Novel Approach to Robust Speech Endpoint Detection in Car Environments[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,2000:1751-1754.
[9] 劉鳳增,李國輝,李 博,等.OM-LSA和小波閾值去噪結(jié)合的語音增強[J].計算機科學(xué)與探索,2011,5(6):547-552.
[10] KAISER J F.On a Simple Algorithm to Calculate the Energy of a Signal[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1990:381-384.
[11] 霍鋮宇,黃曉林,寧新寶,等.基于Teager算子的短時HRV樣本熵算法[J].計算機工程,2012,38(23):281-283.
[12] 李 杰,周 萍,杜志然.短時TEO能量在帶噪語音端點檢測中的應(yīng)用[J].計算機工程與應(yīng)用,2013,49(12):144-147.
[13] SHEN J,HUNG J,LEE L.Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments[C]//Proceedings of ICSLP’98.Sydney,Australia:Australian Speech Science and Technology Association,1998:232-235.
[14] LI X,LI G,LI X.Improved Voice Activity Detection Based on Iterative Spectral Subtraction and Double Thresholds for CVR[C]//Proceedings of 2008 Workshop on Power Elec-tronics & Intelligent Transportation System.Washington D.C.,USA:IEEE Press,2008:153-156.
[15] 張徽強.帶噪語音信號的端點檢測和聲韻分離[D].長沙:國防科學(xué)技術(shù)大學(xué),2005.