面向多說話人分離的深度學(xué)習(xí)麥克風(fēng)陣列語音增強(qiáng)*

2022-06-07 08:56張家揚(yáng)童峰陳東升黃惠祥

電子技術(shù)應(yīng)用 2022年5期

張家揚(yáng)，童峰，3，陳東升，3，黃惠祥

(1.廈門大學(xué) 水聲通信與海洋信息技術(shù)教育部重點(diǎn)實(shí)驗(yàn)室，福建廈門 361005；2.廈門大學(xué) 海洋與地球?qū)W院，福建廈門 361005；3.廈門大學(xué)深圳研究院，廣東深圳 518000)

0 引言

隨著人與機(jī)器之間的語言交互逐漸頻繁，更需要考慮噪聲、混響和其他說話人的干擾等引起語音信號(hào)質(zhì)量下降的因素對語音識(shí)別造成的影響，語音增強(qiáng)技術(shù)[1]可以有效地從受干擾的信號(hào)中提取純凈的語音，而麥克風(fēng)陣列比起單個(gè)麥克風(fēng)可以獲取更多的語音信息和時(shí)空特征，因而麥克風(fēng)陣列語音增強(qiáng)技術(shù)被廣泛應(yīng)用在智能家居、車載系統(tǒng)和音(視)頻會(huì)議等領(lǐng)域。

麥克風(fēng)陣列對信號(hào)進(jìn)行空間濾波，可以增強(qiáng)期望方向上的信號(hào)并抑制方向性噪聲，實(shí)現(xiàn)語音增強(qiáng)。傳統(tǒng)麥陣語音增強(qiáng)算法；如形成固定波束的濾波累加波束形成算法(Filter-and-Sum Beamforming，F(xiàn)SB)[2]，通過一定長度的濾波器系數(shù)對多通道信號(hào)進(jìn)行濾波累加，實(shí)現(xiàn)了頻率無關(guān)的空間響應(yīng)特性，具有低復(fù)雜度、硬件容易實(shí)現(xiàn)等優(yōu)點(diǎn)，但是對于具有方向性的噪聲效果不佳。

將語音增強(qiáng)構(gòu)造為有監(jiān)督學(xué)習(xí)問題發(fā)展出了基于深度學(xué)習(xí)的語音增強(qiáng)，使用如深度神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(RNN)和長短時(shí)記憶網(wǎng)絡(luò)(LSTM)等利用大數(shù)據(jù)量的訓(xùn)練使模型具有語音增強(qiáng)能力。Jiang 等[3]使用DNN模型將雙耳時(shí)間差、雙耳水平差和Gammatone 頻率倒譜系數(shù)特征輸入模型來訓(xùn)練理想二值掩蔽；Xiao 等[4]將多通道信號(hào)的廣義互相關(guān)(GCC)特征送入波束形成網(wǎng)絡(luò)，得到濾波器權(quán)重后作用于信號(hào)上獲得增強(qiáng)特征，再經(jīng)過特征提取以及聲學(xué)模型網(wǎng)絡(luò)，利用交叉熵函數(shù)對各個(gè)網(wǎng)絡(luò)做聯(lián)合優(yōu)化，提高自動(dòng)語音識(shí)別(ASR)效果；Ravanelli等[5]提出新的深度學(xué)習(xí)框架對標(biāo)準(zhǔn)的聯(lián)合優(yōu)化框架做出調(diào)整，深度學(xué)習(xí)框架內(nèi)的信息可以在語音增強(qiáng)和語音識(shí)別模塊之間做雙向傳輸，以解決模塊不匹配和缺乏溝通問題。

在多說話人分離場景下，目標(biāo)和干擾同為語音，具有相同的頻譜特性，此時(shí)可以提取出期望的目標(biāo)語音的主流方法有波束形成方法、計(jì)算聽覺場景分析(CASA)、盲源分離和深度學(xué)習(xí)的分離。其中采用深度學(xué)習(xí)的分離，如Huang 等[6]使用RNN 模型訓(xùn)練兩個(gè)說話人的分離，在網(wǎng)絡(luò)模型的輸出端連接了時(shí)頻掩蔽層用于聯(lián)合訓(xùn)練，同時(shí)探討了區(qū)分訓(xùn)練準(zhǔn)則，考慮預(yù)測信號(hào)與其他源信號(hào)之間的相似性，獲得比NMF 模型更好的說話人分離效果；Kolbk 等[7]使用RNN 將說話人跟蹤集成到置換不變性訓(xùn)練方法(PIT)中，進(jìn)一步完成說話人的跟蹤和分離，對說話人和語種具有更好的泛化能力。

考慮到麥克風(fēng)陣列信號(hào)具有的空間結(jié)構(gòu)，本文提出了基于深度學(xué)習(xí)的波束形成器設(shè)計(jì)和網(wǎng)絡(luò)框架，通過深度學(xué)習(xí)實(shí)現(xiàn)波束形成，優(yōu)化期望方向的空間指向特性，減少說話人語音特征的影響，從而對不同方向說話人語音信號(hào)進(jìn)行分離。在多說話人場景下分別進(jìn)行仿真和實(shí)驗(yàn)對所提方法的有效性進(jìn)行驗(yàn)證。

1 面向多說話人分離的深度學(xué)習(xí)波束形成器設(shè)計(jì)

1.1 網(wǎng)絡(luò)框架

基于深度學(xué)習(xí)波束形成器的網(wǎng)絡(luò)框架如圖1 所示，該框架可以分為訓(xùn)練階段和語音增強(qiáng)階段。在波束形成器的訓(xùn)練階段，首先將多通道的兩個(gè)說話人混合語音通過預(yù)處理模塊的時(shí)頻分解和特征提取獲取模型的特征輸入，將單通道目標(biāo)語音信號(hào)和單通道干擾信號(hào)分別做角度的權(quán)重控制后疊加，通過時(shí)頻分解和特征提取后獲取模型的訓(xùn)練目標(biāo)，通過模型訓(xùn)練的方式學(xué)習(xí)輸入和目標(biāo)的映射函數(shù)?；谏疃葘W(xué)習(xí)的波束形成器訓(xùn)練結(jié)束后，在語音增強(qiáng)階段，對測試語音信號(hào)做同樣的預(yù)處理后輸入到訓(xùn)練好的模型中，獲得目標(biāo)方位上的語音幅度譜估計(jì)，再經(jīng)過語音重構(gòu)模塊獲得最后的單通道語音增強(qiáng)信號(hào)。

圖1 深度學(xué)習(xí)波束形成器的網(wǎng)絡(luò)框架

模型中的預(yù)處理模塊包括時(shí)頻分解和特征提取，首先通過時(shí)頻分解將時(shí)域的多通道混合語音利用短時(shí)傅里葉變換(STFT)轉(zhuǎn)化為時(shí)頻域信號(hào)，再轉(zhuǎn)化為傅里葉對數(shù)幅度譜(FFT-log-magnitude)以突出高頻分量，最后經(jīng)過Z-score 標(biāo)準(zhǔn)化保持特征均值為0，方差為1，輸入模型。

語音增強(qiáng)階段的語音重構(gòu)模塊的目的為將FFT-logmagnitude 特征重構(gòu)回時(shí)域信號(hào)，即預(yù)處理的逆過程，其中由于人耳一般對語音相位不敏感[8]，故可以選擇原始信號(hào)的相位作為增強(qiáng)信號(hào)的相位。

1.2 模型結(jié)構(gòu)

本文在TensorFlow 開源平臺(tái)上搭建基于深度學(xué)習(xí)波束形成器的模型結(jié)構(gòu)如圖2 所示，主要包括輸入層、隱藏層、Mask 層和模型輸出。多通道信號(hào)經(jīng)過輸入層轉(zhuǎn)化為特征送入模型，隱藏層由多層LSTM 構(gòu)成，對特征做非線性建模，LSTM 層后級(jí)聯(lián)全連接層，用以估計(jì)每個(gè)通道的Mask 函數(shù)，全連接層包括多層隱藏層和一層輸出層，激活函數(shù)為ReLU 函數(shù)，經(jīng)過全連接層后得到每個(gè)通道的Mask 估計(jì)，在Mask 層將每個(gè)通道的Mask 函數(shù)與輸入特征相乘后加權(quán)平均得到最終模型的預(yù)測單通道輸出。

圖2 模型訓(xùn)練框圖

1.3 訓(xùn)練目標(biāo)和損失函數(shù)

利用目標(biāo)信號(hào)與干擾信號(hào)的方位可以學(xué)習(xí)期望方向上的空間傳輸響應(yīng)。根據(jù)方位的不同，對語音信號(hào)做權(quán)重控制，構(gòu)建空間傳輸特性。假設(shè)模型對準(zhǔn)方向?yàn)棣萴odel，亦表示目標(biāo)語音方向，干擾語音方向?yàn)棣萯nterference，則干擾信號(hào)相對模型對準(zhǔn)方向的角度偏差為：

利用得到的角度偏差，依照表1進(jìn)行權(quán)重控制。

表1 期望的空間傳輸響應(yīng)

則期望方向上的語音信號(hào)sd(t)為：

再通過相同的預(yù)處理后得到Z-score 標(biāo)準(zhǔn)化后的特征作為訓(xùn)練目標(biāo)Ad。

其中，Sd(t，f)表示sd(t)經(jīng)過STFT 變換后得到的第t 個(gè)時(shí)間幀第f 個(gè)頻點(diǎn)的STFT 系數(shù)，W(t-k)表示對信號(hào)的加窗處理，Pd為FFT-log-magnitude 特征，Ad由Pd經(jīng) 過Z-score標(biāo)準(zhǔn)化得到，σ 表示特征方差，eps 為一個(gè)極小常數(shù)(避免分母為0)。

模型估計(jì)出Mask 函數(shù)后與多通道混合語音特征做掩蔽再加權(quán)平均后得到單通道預(yù)測結(jié)果，通過該結(jié)果與訓(xùn)練目標(biāo)計(jì)算損失函數(shù)。本文針對幅度譜的估計(jì)任務(wù)，采用歐氏距離計(jì)算輸出與目標(biāo)之間的損失，并利用Adam 優(yōu)化器進(jìn)行模型參數(shù)的更新。

1.4 模型訓(xùn)練設(shè)置

1.4.1 數(shù)據(jù)庫描述

模型語料庫分為目標(biāo)語料庫和干擾語料庫兩部分：目標(biāo)語料庫采用文獻(xiàn)[9]原始語音數(shù)據(jù)庫數(shù)據(jù)，含男女各55 人共110 人語音信號(hào)，語句數(shù)目大約為42 000 句，總時(shí)長約為35 h，其中90 人語句28.7 h 作為訓(xùn)練集，20人語句6.3 h 作為測試集。為了提高模型對不同性別聲音的泛化能力，保持訓(xùn)練集和測試集中的男女比例為1：1，以減少因男女聲音基頻差異對模型學(xué)習(xí)能力的影響。干擾語料庫為TIMIT 語音信號(hào)庫，包含了630 人的英文錄音數(shù)據(jù)，每人10 句共6 300 句英文語音數(shù)據(jù)。

1.4.2 仿真參數(shù)設(shè)置

仿真聲源個(gè)數(shù)為2，分別作為目標(biāo)聲源和干擾聲源。仿真麥克風(fēng)陣列為直徑為65 mm 的6 麥圓陣，麥克風(fēng)均勻分布在圓周上，將空間分為24 個(gè)方向，每15°一個(gè)方向?；祉憲l件下，利用IMAGE 模型[10]模擬11 m×11 m×3 m典型辦公室尺寸下不同反射強(qiáng)度(0.2、0.4、0.6、0.8)的房間沖激響應(yīng)，與目標(biāo)語音和干擾語音分別卷積后得到不同混響強(qiáng)度的語音信號(hào)。

以訓(xùn)練對準(zhǔn)0°方向的波束形成器為例，目標(biāo)語料庫單通道信號(hào)由0°方向入射，干擾語料庫單通道信號(hào)則隨機(jī)仿真一個(gè)角度入射，采樣率均為16 kHz，根據(jù)麥克風(fēng)陣列的時(shí)延關(guān)系分別仿真出多通道目標(biāo)語音和多通道干擾語音，與不同房間反射強(qiáng)度的沖激響應(yīng)做卷積后再按照0 dB、3 dB、5 dB 的不同信干比疊加，構(gòu)成多通道混合語音信號(hào)。

1.4.3 模型參數(shù)設(shè)置

濾波累加波束形成器的濾波器階數(shù)設(shè)置為128 階，方向傳輸響應(yīng)設(shè)計(jì)與表1 一致。

深度學(xué)習(xí)波束形成器的STFT 幀移和幀長分別為256 個(gè)采樣點(diǎn)和512 個(gè)采樣點(diǎn)，模型輸入257×6 維的傅里葉對數(shù)幅度譜特征。模型具有3 層LSTM 層，每層具有256 個(gè)細(xì)胞；2 層全連接層，每層512 個(gè)神經(jīng)元；輸出層的輸出維度為257×6。模型學(xué)習(xí)率為0.001，每經(jīng)過100 個(gè)epoch 時(shí)學(xué)習(xí)率衰減為0.95。

2 深度學(xué)習(xí)波束形成器仿真結(jié)果與分析

本節(jié)在多說話人訓(xùn)練集的仿真數(shù)據(jù)下，從濾波累加波束形成器(FS beamformer)和混合說話人混響條件深度學(xué)習(xí)波束形成器(DL beamformer)兩種不同算法的波束指向性圖和識(shí)別率結(jié)果進(jìn)行對比，分析算法性能。

2.1 波束指向性

基于TIMIT 仿真多通道信號(hào)得到FS beamformer 和DL beamformer 兩種算法的各頻點(diǎn)波束指向性圖如圖3所示。可以看出，F(xiàn)S beamformer 在非期望方向上依然保持較大的能量，不同頻段的抑制一致性不好，在2 000 Hz和3 000 Hz 高頻段呈現(xiàn)明顯的旁瓣；而DL beamformer在期望方向上能量最大，在非期望方向上有明顯的抑制，并且展現(xiàn)出更好的不同頻段的抑制一致性，也更接近于期望空間傳輸響應(yīng)。

圖3 不同算法波束指向性圖(仿真)

2.2 識(shí)別率

將模型輸出的分離語音送入語音識(shí)別軟件[11]進(jìn)行文本識(shí)別，對比算法處理后的識(shí)別文本與標(biāo)準(zhǔn)文本可以得到文本識(shí)別率結(jié)果，作為評估語音質(zhì)量的標(biāo)準(zhǔn)，同時(shí)可以測試語音增強(qiáng)模型與后端識(shí)別系統(tǒng)的適配性。識(shí)別率(Recognition Rate，RR)與字錯(cuò)誤率(Word Error Rate，WER)的關(guān)系為：

在不同信干比條件下（房間反射強(qiáng)度0.8），兩種算法的識(shí)別率結(jié)果如表2 所示。

表2 不同信干比下不同算法的識(shí)別率結(jié)果(仿真)(%)

在不同房間反射強(qiáng)度下(信干比為0 dB），兩種算法的識(shí)別率結(jié)果如表3 所示。

表3 不同反射強(qiáng)度下不同算法的識(shí)別率結(jié)果(仿真)(%)

從表2 可以看出在同一混響條件下，原始信號(hào)識(shí)別率很低，低信干比下幾乎無法識(shí)別，F(xiàn)S beamformer 對比原始有較大的提升，而本文的DL beamformer 模型的識(shí)別率結(jié)果最好，且信干比越低提升越顯著。這是由于隨著信干比的降低，F(xiàn)S beamformer 對非期望方向的干擾抑制能力較弱，與具有更好的波束形成能力的DL beamformer拉開了差距，DL beamformer 模型學(xué)習(xí)到了多說話人的語音空間信息，能有效處理多說話人場景。從表3 可以看出同一信干比條件下，隨著房間反射強(qiáng)度的增強(qiáng)，混響程度加大，語音識(shí)別率降低，DL beamformer 識(shí)別率結(jié)果最高，不同反射強(qiáng)度和不同信干比條件下均優(yōu)于FS beamformer 算法。

3 實(shí)驗(yàn)與結(jié)果分析

在某大廳采集實(shí)測語音數(shù)據(jù)作為測試集，以評估模型對實(shí)際信號(hào)的語音增強(qiáng)能力，大廳尺寸為30 m×20 m×6 m，早期混響時(shí)間約為30 ms。實(shí)際實(shí)驗(yàn)使用ReSpeaker Far field Mic Array 圓形6 麥麥克風(fēng)陣列采集信號(hào)，直徑為65 mm，麥克風(fēng)型號(hào)為STMP34DT01-M。

3.1 波束指向性

為測試模型的實(shí)際波束形成能力，將目標(biāo)聲源放置在距離麥陣5 m 處，使用Marshall Kilburn 移動(dòng)音箱播放一段測試集信號(hào)，旋轉(zhuǎn)麥克風(fēng)陣列使得每30°采集一次信號(hào)，全空間采集到的12 個(gè)角度的信號(hào)分別經(jīng)過FS beamformer 和DL beamformer 進(jìn)行處理。以對準(zhǔn)0°方向?yàn)槔?，每種算法得到12 個(gè)角度增強(qiáng)信號(hào)后計(jì)算總能量和分頻點(diǎn)能量如圖4 所示?？梢钥闯鲈趯?shí)際測試條件下，兩種算法都在期望方向上保持了最大，但DL beamformer 的波束最窄，體現(xiàn)出了更好的旁瓣抑制效果，相比FS beamformer 的頻率無關(guān)性更好。

圖4 不同算法波束圖(實(shí)驗(yàn))

3.2 識(shí)別率

將目標(biāo)聲源和干擾聲源分別放置在麥陣5 m 處的0°和180°方位，分別播放目標(biāo)語料庫的測試集和干擾語料庫的TIMIT 信號(hào)，采用Marshall Kilburn 移動(dòng)音箱播放語音。采集不同信干比條件下的信號(hào)，最后實(shí)際得到8.52 dB、5.67 dB 和2.07 dB 3 種信干比信號(hào)。將采集到的信號(hào)分別經(jīng)過FS beamformer 和DL beamformer 處理后得到不同信干比下不同算法的識(shí)別率結(jié)果，如表4所示。在3 種信干比下，DL 波束形成算法相對原始語音識(shí)別率分別提升47.35%、53.43%、48.58%，相對FS 波束形成語音識(shí)別率分別提升0.6%、0.74%、3.42%?？梢钥闯?，DL beamformer 結(jié)果略高于FS beamformer，體現(xiàn)了DL beamformer 算法在實(shí)際測試環(huán)境下的語音增強(qiáng)性能。

表4 不同信干比下不同算法的識(shí)別率結(jié)果(實(shí)驗(yàn))(%)

但是，與仿真數(shù)據(jù)結(jié)果比較，實(shí)際數(shù)據(jù)結(jié)果的提升并不明顯，原因可能在于模型訓(xùn)練采用的是仿真數(shù)據(jù)，且本文訓(xùn)練量較小，對處理實(shí)際采集數(shù)據(jù)時(shí)LSTM 模型的泛化能力造成一定影響。

3.3 時(shí)域波形圖與時(shí)頻圖結(jié)果

以實(shí)際采集到的信干比2.07 dB 的混合語音為例，分別通過FS beamformer 和DL beamformer 處理后得到的語音信號(hào)時(shí)域頻域如圖5 所示。由于干擾聲源的能量較大，時(shí)域和頻域上都基本無法識(shí)別目標(biāo)語音，F(xiàn)S beamformer處理后的信號(hào)仍存在干擾語音，而DL beamformer 對于非期望方向上的干擾語音抑制更加明顯，也因此識(shí)別率結(jié)果更好。

圖5 不同算法時(shí)域波形圖與時(shí)頻圖(實(shí)驗(yàn))

4 結(jié)論

本文針對多說話人分離場景，以期望方向語音信號(hào)的FFT-log-magnitude 作為目標(biāo)，用來訓(xùn)練出模型在期望方向上的空間傳輸特性。分別在仿真數(shù)據(jù)和實(shí)測數(shù)據(jù)測試下與傳統(tǒng)波束形成算法對比，本文所提深度學(xué)習(xí)波束形成器具有更好的波束形成能力，不同信干比和混響條件下語音識(shí)別率更高，在非期望方向上展現(xiàn)了更好的干擾抑制效果，驗(yàn)證了深度學(xué)習(xí)波束形成提高多說話人分離效果的有效性。

也需要指出，由于當(dāng)前尚缺乏具有一定代表性、數(shù)量較大的麥陣數(shù)據(jù)庫，本文模型訓(xùn)練數(shù)據(jù)較少，影響了所提方法性能改善的充分發(fā)揮及評估。下一步將以不同方式進(jìn)一步擴(kuò)充訓(xùn)練數(shù)據(jù)，提高模型泛化性。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡