張家揚(yáng),童峰,3,陳東升,3,黃惠祥
(1.廈門大學(xué) 水聲通信與海洋信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室,福建 廈門 361005;2.廈門大學(xué) 海洋與地球?qū)W院,福建 廈門 361005;3.廈門大學(xué)深圳研究院,廣東 深圳 518000)
隨著人與機(jī)器之間的語言交互逐漸頻繁,更需要考慮噪聲、混響和其他說話人的干擾等引起語音信號(hào)質(zhì)量下降的因素對語音識(shí)別造成的影響,語音增強(qiáng)技術(shù)[1]可以有效地從受干擾的信號(hào)中提取純凈的語音,而麥克風(fēng)陣列比起單個(gè)麥克風(fēng)可以獲取更多的語音信息和時(shí)空特征,因而麥克風(fēng)陣列語音增強(qiáng)技術(shù)被廣泛應(yīng)用在智能家居、車載系統(tǒng)和音(視)頻會(huì)議等領(lǐng)域。
麥克風(fēng)陣列對信號(hào)進(jìn)行空間濾波,可以增強(qiáng)期望方向上的信號(hào)并抑制方向性噪聲,實(shí)現(xiàn)語音增強(qiáng)。傳統(tǒng)麥陣語音增強(qiáng)算法;如形成固定波束的濾波累加波束形成算法(Filter-and-Sum Beamforming,F(xiàn)SB)[2],通過一定長度的濾波器系數(shù)對多通道信號(hào)進(jìn)行濾波累加,實(shí)現(xiàn)了頻率無關(guān)的空間響應(yīng)特性,具有低復(fù)雜度、硬件容易實(shí)現(xiàn)等優(yōu)點(diǎn),但是對于具有方向性的噪聲效果不佳。
將語音增強(qiáng)構(gòu)造為有監(jiān)督學(xué)習(xí)問題發(fā)展出了基于深度學(xué)習(xí)的語音增強(qiáng),使用如深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(RNN)和長短時(shí)記憶網(wǎng)絡(luò)(LSTM)等利用大數(shù)據(jù)量的訓(xùn)練使模型具有語音增強(qiáng)能力。Jiang 等[3]使用DNN模型將雙耳時(shí)間差、雙耳水平差和Gammatone 頻率倒譜系數(shù)特征輸入模型來訓(xùn)練理想二值掩蔽;Xiao 等[4]將多通道信號(hào)的廣義互相關(guān)(GCC)特征送入波束形成網(wǎng)絡(luò),得到濾波器權(quán)重后作用于信號(hào)上獲得增強(qiáng)特征,再經(jīng)過特征提取以及聲學(xué)模型網(wǎng)絡(luò),利用交叉熵函數(shù)對各個(gè)網(wǎng)絡(luò)做聯(lián)合優(yōu)化,提高自動(dòng)語音識(shí)別(ASR)效果;Ravanelli等[5]提出新的深度學(xué)習(xí)框架對標(biāo)準(zhǔn)的聯(lián)合優(yōu)化框架做出調(diào)整,深度學(xué)習(xí)框架內(nèi)的信息可以在語音增強(qiáng)和語音識(shí)別模塊之間做雙向傳輸,以解決模塊不匹配和缺乏溝通問題。
在多說話人分離場景下,目標(biāo)和干擾同為語音,具有相同的頻譜特性,此時(shí)可以提取出期望的目標(biāo)語音的主流方法有波束形成方法、計(jì)算聽覺場景分析(CASA)、盲源分離和深度學(xué)習(xí)的分離。其中采用深度學(xué)習(xí)的分離,如Huang 等[6]使用RNN 模型訓(xùn)練兩個(gè)說話人的分離,在網(wǎng)絡(luò)模型的輸出端連接了時(shí)頻掩蔽層用于聯(lián)合訓(xùn)練,同時(shí)探討了區(qū)分訓(xùn)練準(zhǔn)則,考慮預(yù)測信號(hào)與其他源信號(hào)之間的相似性,獲得比NMF 模型更好的說話人分離效果;Kolbk 等[7]使用RNN 將說話人跟蹤集成到置換不變性訓(xùn)練方法(PIT)中,進(jìn)一步完成說話人的跟蹤和分離,對說話人和語種具有更好的泛化能力。
考慮到麥克風(fēng)陣列信號(hào)具有的空間結(jié)構(gòu),本文提出了基于深度學(xué)習(xí)的波束形成器設(shè)計(jì)和網(wǎng)絡(luò)框架,通過深度學(xué)習(xí)實(shí)現(xiàn)波束形成,優(yōu)化期望方向的空間指向特性,減少說話人語音特征的影響,從而對不同方向說話人語音信號(hào)進(jìn)行分離。在多說話人場景下分別進(jìn)行仿真和實(shí)驗(yàn)對所提方法的有效性進(jìn)行驗(yàn)證。
基于深度學(xué)習(xí)波束形成器的網(wǎng)絡(luò)框架如圖1 所示,該框架可以分為訓(xùn)練階段和語音增強(qiáng)階段。在波束形成器的訓(xùn)練階段,首先將多通道的兩個(gè)說話人混合語音通過預(yù)處理模塊的時(shí)頻分解和特征提取獲取模型的特征輸入,將單通道目標(biāo)語音信號(hào)和單通道干擾信號(hào)分別做角度的權(quán)重控制后疊加,通過時(shí)頻分解和特征提取后獲取模型的訓(xùn)練目標(biāo),通過模型訓(xùn)練的方式學(xué)習(xí)輸入和目標(biāo)的映射函數(shù)?;谏疃葘W(xué)習(xí)的波束形成器訓(xùn)練結(jié)束后,在語音增強(qiáng)階段,對測試語音信號(hào)做同樣的預(yù)處理后輸入到訓(xùn)練好的模型中,獲得目標(biāo)方位上的語音幅度譜估計(jì),再經(jīng)過語音重構(gòu)模塊獲得最后的單通道語音增強(qiáng)信號(hào)。
圖1 深度學(xué)習(xí)波束形成器的網(wǎng)絡(luò)框架
模型中的預(yù)處理模塊包括時(shí)頻分解和特征提取,首先通過時(shí)頻分解將時(shí)域的多通道混合語音利用短時(shí)傅里葉變換(STFT)轉(zhuǎn)化為時(shí)頻域信號(hào),再轉(zhuǎn)化為傅里葉對數(shù)幅度譜(FFT-log-magnitude)以突出高頻分量,最后經(jīng)過Z-score 標(biāo)準(zhǔn)化保持特征均值為0,方差為1,輸入模型。
語音增強(qiáng)階段的語音重構(gòu)模塊的目的為將FFT-logmagnitude 特征重構(gòu)回時(shí)域信號(hào),即預(yù)處理的逆過程,其中由于人耳一般對語音相位不敏感[8],故可以選擇原始信號(hào)的相位作為增強(qiáng)信號(hào)的相位。
本文在TensorFlow 開源平臺(tái)上搭建基于深度學(xué)習(xí)波束形成器的模型結(jié)構(gòu)如圖2 所示,主要包括輸入層、隱藏層、Mask 層和模型輸出。多通道信號(hào)經(jīng)過輸入層轉(zhuǎn)化為特征送入模型,隱藏層由多層LSTM 構(gòu)成,對特征做非線性建模,LSTM 層后級(jí)聯(lián)全連接層,用以估計(jì)每個(gè)通道的Mask 函數(shù),全連接層包括多層隱藏層和一層輸出層,激活函數(shù)為ReLU 函數(shù),經(jīng)過全連接層后得到每個(gè)通道的Mask 估計(jì),在Mask 層將每個(gè)通道的Mask 函數(shù)與輸入特征相乘后加權(quán)平均得到最終模型的預(yù)測單通道輸出。
圖2 模型訓(xùn)練框圖
利用目標(biāo)信號(hào)與干擾信號(hào)的方位可以學(xué)習(xí)期望方向上的空間傳輸響應(yīng)。根據(jù)方位的不同,對語音信號(hào)做權(quán)重控制,構(gòu)建空間傳輸特性。假設(shè)模型對準(zhǔn)方向?yàn)棣萴odel,亦表示目標(biāo)語音方向,干擾語音方向?yàn)棣萯nterference,則干擾信號(hào)相對模型對準(zhǔn)方向的角度偏差為:
利用得到的角度偏差,依照表1進(jìn)行權(quán)重控制。
表1 期望的空間傳輸響應(yīng)
則期望方向上的語音信號(hào)sd(t)為:
再通過相同的預(yù)處理后得到Z-score 標(biāo)準(zhǔn)化后的特征作為訓(xùn)練目標(biāo)Ad。
其中,Sd(t,f)表示sd(t)經(jīng)過STFT 變換后得到的第t 個(gè)時(shí)間幀第f 個(gè)頻點(diǎn)的STFT 系數(shù),W(t-k)表示對信號(hào)的加窗處理,Pd為FFT-log-magnitude 特征,Ad由Pd經(jīng) 過Z-score標(biāo)準(zhǔn)化得到,σ 表示特征方差,eps 為一個(gè)極小常數(shù)(避免分母為0)。
模型估計(jì)出Mask 函數(shù)后與多通道混合語音特征做掩蔽再加權(quán)平均后得到單通道預(yù)測結(jié)果,通過該結(jié)果與訓(xùn)練目標(biāo)計(jì)算損失函數(shù)。本文針對幅度譜的估計(jì)任務(wù),采用歐氏距離計(jì)算輸出與目標(biāo)之間的損失,并利用Adam 優(yōu)化器進(jìn)行模型參數(shù)的更新。
1.4.1 數(shù)據(jù)庫描述
模型語料庫分為目標(biāo)語料庫和干擾語料庫兩部分:目標(biāo)語料庫采用文獻(xiàn)[9]原始語音數(shù)據(jù)庫數(shù)據(jù),含男女各55 人共110 人語音信號(hào),語句數(shù)目大約為42 000 句,總時(shí)長約為35 h,其中90 人語句28.7 h 作為訓(xùn)練集,20人語句6.3 h 作為測試集。為了提高模型對不同性別聲音的泛化能力,保持訓(xùn)練集和測試集中的男女比例為1:1,以減少因男女聲音基頻差異對模型學(xué)習(xí)能力的影響。干擾語料庫為TIMIT 語音信號(hào)庫,包含了630 人的英文錄音數(shù)據(jù),每人10 句共6 300 句英文語音數(shù)據(jù)。
1.4.2 仿真參數(shù)設(shè)置
仿真聲源個(gè)數(shù)為2,分別作為目標(biāo)聲源和干擾聲源。仿真麥克風(fēng)陣列為直徑為65 mm 的6 麥圓陣,麥克風(fēng)均勻分布在圓周上,將空間分為24 個(gè)方向,每15°一個(gè)方向?;祉憲l件下,利用IMAGE 模型[10]模擬11 m×11 m×3 m典型辦公室尺寸下不同反射強(qiáng)度(0.2、0.4、0.6、0.8)的房間沖激響應(yīng),與目標(biāo)語音和干擾語音分別卷積后得到不同混響強(qiáng)度的語音信號(hào)。
以訓(xùn)練對準(zhǔn)0°方向的波束形成器為例,目標(biāo)語料庫單通道信號(hào)由0°方向入射,干擾語料庫單通道信號(hào)則隨機(jī)仿真一個(gè)角度入射,采樣率均為16 kHz,根據(jù)麥克風(fēng)陣列的時(shí)延關(guān)系分別仿真出多通道目標(biāo)語音和多通道干擾語音,與不同房間反射強(qiáng)度的沖激響應(yīng)做卷積后再按照0 dB、3 dB、5 dB 的不同信干比疊加,構(gòu)成多通道混合語音信號(hào)。
1.4.3 模型參數(shù)設(shè)置
濾波累加波束形成器的濾波器階數(shù)設(shè)置為128 階,方向傳輸響應(yīng)設(shè)計(jì)與表1 一致。
深度學(xué)習(xí)波束形成器的STFT 幀移和幀長分別為256 個(gè)采樣點(diǎn)和512 個(gè)采樣點(diǎn),模型輸入257×6 維的傅里葉對數(shù)幅度譜特征。模型具有3 層LSTM 層,每層具有256 個(gè)細(xì)胞;2 層全連接層,每層512 個(gè)神經(jīng)元;輸出層的輸出維度為257×6。模型學(xué)習(xí)率為0.001,每經(jīng)過100 個(gè)epoch 時(shí)學(xué)習(xí)率衰減為0.95。
本節(jié)在多說話人訓(xùn)練集的仿真數(shù)據(jù)下,從濾波累加波束形成器(FS beamformer)和混合說話人混響條件深度學(xué)習(xí)波束形成器(DL beamformer)兩種不同算法的波束指向性圖和識(shí)別率結(jié)果進(jìn)行對比,分析算法性能。
基于TIMIT 仿真多通道信號(hào)得到FS beamformer 和DL beamformer 兩種算法的各頻點(diǎn)波束指向性圖如圖3所示。可以看出,F(xiàn)S beamformer 在非期望方向上依然保持較大的能量,不同頻段的抑制一致性不好,在2 000 Hz和3 000 Hz 高頻段呈現(xiàn)明顯的旁瓣;而DL beamformer在期望方向上能量最大,在非期望方向上有明顯的抑制,并且展現(xiàn)出更好的不同頻段的抑制一致性,也更接近于期望空間傳輸響應(yīng)。
圖3 不同算法波束指向性圖(仿真)
將模型輸出的分離語音送入語音識(shí)別軟件[11]進(jìn)行文本識(shí)別,對比算法處理后的識(shí)別文本與標(biāo)準(zhǔn)文本可以得到文本識(shí)別率結(jié)果,作為評估語音質(zhì)量的標(biāo)準(zhǔn),同時(shí)可以測試語音增強(qiáng)模型與后端識(shí)別系統(tǒng)的適配性。識(shí)別率(Recognition Rate,RR)與字錯(cuò)誤率(Word Error Rate,WER)的關(guān)系為:
在不同信干比條件下(房間反射強(qiáng)度0.8),兩種算法的識(shí)別率結(jié)果如表2 所示。
表2 不同信干比下不同算法的識(shí)別率結(jié)果(仿真)(%)
在不同房間反射強(qiáng)度下(信干比為0 dB),兩種算法的識(shí)別率結(jié)果如表3 所示。
表3 不同反射強(qiáng)度下不同算法的識(shí)別率結(jié)果(仿真)(%)
從表2 可以看出在同一混響條件下,原始信號(hào)識(shí)別率很低,低信干比下幾乎無法識(shí)別,F(xiàn)S beamformer 對比原始有較大的提升,而本文的DL beamformer 模型的識(shí)別率結(jié)果最好,且信干比越低提升越顯著。這是由于隨著信干比的降低,F(xiàn)S beamformer 對非期望方向的干擾抑制能力較弱,與具有更好的波束形成能力的DL beamformer拉開了差距,DL beamformer 模型學(xué)習(xí)到了多說話人的語音空間信息,能有效處理多說話人場景。從表3 可以看出同一信干比條件下,隨著房間反射強(qiáng)度的增強(qiáng),混響程度加大,語音識(shí)別率降低,DL beamformer 識(shí)別率結(jié)果最高,不同反射強(qiáng)度和不同信干比條件下均優(yōu)于FS beamformer 算法。
在某大廳采集實(shí)測語音數(shù)據(jù)作為測試集,以評估模型對實(shí)際信號(hào)的語音增強(qiáng)能力,大廳尺寸為30 m×20 m×6 m,早期混響時(shí)間約為30 ms。實(shí)際實(shí)驗(yàn)使用ReSpeaker Far field Mic Array 圓形6 麥麥克風(fēng)陣列采集信號(hào),直徑為65 mm,麥克風(fēng)型號(hào)為STMP34DT01-M。
為測試模型的實(shí)際波束形成能力,將目標(biāo)聲源放置在距離麥陣5 m 處,使用Marshall Kilburn 移動(dòng)音箱播放一段測試集信號(hào),旋轉(zhuǎn)麥克風(fēng)陣列使得每30°采集一次信號(hào),全空間采集到的12 個(gè)角度的信號(hào)分別經(jīng)過FS beamformer 和DL beamformer 進(jìn)行處理。以對準(zhǔn)0°方向?yàn)槔?,每種算法得到12 個(gè)角度增強(qiáng)信號(hào)后計(jì)算總能量和分頻點(diǎn)能量如圖4 所示??梢钥闯鲈趯?shí)際測試條件下,兩種算法都在期望方向上保持了最大,但DL beamformer 的波束最窄,體現(xiàn)出了更好的旁瓣抑制效果,相比FS beamformer 的頻率無關(guān)性更好。
圖4 不同算法波束圖(實(shí)驗(yàn))
將目標(biāo)聲源和干擾聲源分別放置在麥陣5 m 處的0°和180°方位,分別播放目標(biāo)語料庫的測試集和干擾語料庫的TIMIT 信號(hào),采用Marshall Kilburn 移動(dòng)音箱播放語音。采集不同信干比條件下的信號(hào),最后實(shí)際得 到8.52 dB、5.67 dB 和2.07 dB 3 種信干比信號(hào)。將采集到的信號(hào)分別經(jīng)過FS beamformer 和DL beamformer 處理后得到不同信干比下不同算法的識(shí)別率結(jié)果,如表4所示。在3 種信干比下,DL 波束形成算法相對原始語音識(shí)別率分別提升47.35%、53.43%、48.58%,相對FS 波束形成語音識(shí)別率分別提升0.6%、0.74%、3.42%??梢钥闯?,DL beamformer 結(jié)果略高于FS beamformer,體現(xiàn)了DL beamformer 算法在實(shí)際測試環(huán)境下的語音增強(qiáng)性能。
表4 不同信干比下不同算法的識(shí)別率結(jié)果(實(shí)驗(yàn))(%)
但是,與仿真數(shù)據(jù)結(jié)果比較,實(shí)際數(shù)據(jù)結(jié)果的提升并不明顯,原因可能在于模型訓(xùn)練采用的是仿真數(shù)據(jù),且本文訓(xùn)練量較小,對處理實(shí)際采集數(shù)據(jù)時(shí)LSTM 模型的泛化能力造成一定影響。
以實(shí)際采集到的信干比2.07 dB 的混合語音為例,分別通過FS beamformer 和DL beamformer 處理后得到的語音信號(hào)時(shí)域頻域如圖5 所示。由于干擾聲源的能量較大,時(shí)域和頻域上都基本無法識(shí)別目標(biāo)語音,F(xiàn)S beamformer處理后的信號(hào)仍存在干擾語音,而DL beamformer 對于非期望方向上的干擾語音抑制更加明顯,也因此識(shí)別率結(jié)果更好。
圖5 不同算法時(shí)域波形圖與時(shí)頻圖(實(shí)驗(yàn))
本文針對多說話人分離場景,以期望方向語音信號(hào)的FFT-log-magnitude 作為目標(biāo),用來訓(xùn)練出模型在期望方向上的空間傳輸特性。分別在仿真數(shù)據(jù)和實(shí)測數(shù)據(jù)測試下與傳統(tǒng)波束形成算法對比,本文所提深度學(xué)習(xí)波束形成器具有更好的波束形成能力,不同信干比和混響條件下語音識(shí)別率更高,在非期望方向上展現(xiàn)了更好的干擾抑制效果,驗(yàn)證了深度學(xué)習(xí)波束形成提高多說話人分離效果的有效性。
也需要指出,由于當(dāng)前尚缺乏具有一定代表性、數(shù)量較大的麥陣數(shù)據(jù)庫,本文模型訓(xùn)練數(shù)據(jù)較少,影響了所提方法性能改善的充分發(fā)揮及評估。下一步將以不同方式進(jìn)一步擴(kuò)充訓(xùn)練數(shù)據(jù),提高模型泛化性。