国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

可穿戴設備上的人聲分離研究

2021-12-13 07:31蔣非穎張佳敏
科學技術創(chuàng)新 2021年33期
關鍵詞:波束成形波形

蔣非穎 張佳敏

(1、北京儒博科技有限公司,北京 100000 2、成都大學肉類加工四川省重點實驗室,四川成都 610106)

在語音識別中的多人對話場景,需要把說話人各自的語音分開才能有效加以識別,混在一起的語音識別不了。目前一個比較常用的應用場景是用于智能多人會議識別轉(zhuǎn)寫系統(tǒng),一個麥陣設備放在參會者中間來拾取和分離、識別語音。其普遍使用的算法是基于麥陣多波束成形按說話人空間方向來分離[1],典型的如微軟Azure IoT Edge 使用的“黑塔”會議系統(tǒng),用12個波束,覆蓋360°的方位。或者訓練深度神經(jīng)網(wǎng)絡來做單通道盲分離[2-4]。將其結(jié)合的多通道神經(jīng)網(wǎng)絡語音分離架構(gòu)是目前熱點的研究方向[5,6]。這種主要用于多人會議場景的外置麥陣拾音設備使用場景固定,它需要有地方放置,不方便移動攜帶。相比而言可穿戴的小型設備更為靈活方便,廣泛適用于例如服務員和顧客,醫(yī)護和患者等之間的對話的拾音來分離識別。

基于設置較多固定波束的波束成形算法以及基于深度神經(jīng)網(wǎng)絡的分離算法往往需要比較大的算力和存儲空間,其本地設備主要用于拾音,計算一般放在云端進行,因此用于有無線信號覆蓋的在線場景。而可穿戴設備具有可移動性,有支持離線處理的需求,算法要能在本地嵌入式端進行。而且使用電池供電,也有省電、低功耗的需求。因此算力和存儲都有限,需要低復雜度的分離算法。

本文研究了在一種基于增強干擾語音抑制的人聲分離的算法,使用了最少一個麥陣波束和一個自適應噪聲對消模塊,以較小的算力消耗在一種可穿戴設備,智能胸牌上達到了較好的人聲分離的效果。

1 增強干擾抑制的波束成形分離算法

1.1 胸牌ID 結(jié)構(gòu)

本文研究的胸牌結(jié)構(gòu)如圖1 所示,胸牌使用4 個麥克風構(gòu)成麥克風陣列,麥克風放置在胸牌四個角上,橫向麥克間距6cm,縱向間距3cm。胸牌佩戴在說話人胸口,這種4 麥結(jié)構(gòu)可以認為構(gòu)成一個環(huán)形麥陣,認為4 個麥克風非均勻的分布在環(huán)麥的圓周上。

圖1 胸牌結(jié)構(gòu)示意圖

1.2 自適應波束成形結(jié)構(gòu)

胸牌佩戴在使用者身上后,可以使用麥陣型波束,一個固定指向佩戴者嘴的方向,另一個指向?qū)υ捳?,如圖2 所示。本算法采用MVDR[7]波束成形算法,它是廣泛使用的波束成形算法,能較好的抑制干擾噪聲。MVDR 可以使用基于廣義旁瓣對消的自適應波束成形架構(gòu)來方便迭代實現(xiàn)[8,9]。如圖3 所示,兩個波束其中一個按佩戴位置以固定的方位角和抬高角指向佩戴者,另外一個以抬高角90°垂直胸牌平面指向?qū)γ娴膶υ捳?。下文用服務員和顧客分別指代胸牌佩戴者和與其對話者。

圖2 胸牌使用場景

由于胸牌離服務員近很多,而且角度相對固定,而離顧客遠,因此,如圖3 所示,服務員這一路固定角度beamforming 輸出的信號A1 中服務員語音是主要信號分量,殘留的顧客語音分量小,如果能進一步抑制殘留的顧客語音就能得到比較純凈的服務員信號。本文研究了一種增強干擾語音分量抑制算法來進一步抑制顧客語音在信號A1 上的殘留,以此作為理想的參考信號。

相反的,由于顧客離胸牌相對較遠,指向顧客的一路beamforming 輸出信號A2 中有較強殘留的服務員語音,并且環(huán)境噪聲大。這里使用自適應噪聲消除算法[10,11],把服務員一路經(jīng)過干擾語音抑制后的輸出作為參考信號,抑制顧客信號A2 上服務員的語音分量,以得到分離度較高的顧客語音。

在算力限制或者佩戴者和顧客之間角度較大的情況下,可以如圖3 直接使用一個麥克的單麥輸入語音替代顧客方向波束成形,這種方案對噪聲的抑制效果小一些,但并不影響分離。兩路語音再各自經(jīng)過降噪/增益調(diào)整等后處理算法得到最終輸出語音。

圖3 增強干擾抑制波束成形算法框架

1.3 增強干擾語音抑制算法

傳統(tǒng)自適應波束成形雖然能一定程度上抑制非指向方向的語音分量,但還是會有一定殘余干擾語音成分,特別是兩個指向方向角度比較靠近的情況,殘留干擾語音分量會更多,需要進一步抑制才能提供較好的識別效果。具體到工牌設備,如圖3,如果佩戴者一路輸出信號A1 里面殘留有較多顧客語音分量,則其作為噪聲對消算法的參考信號就不純凈,會把顧客的語音成分給對消掉很多,影響語音分離效果。這里考慮利用廣義旁瓣對消中包含的空間信息,可以進一步抑制A1 信號里殘余的顧客語音分量。

如圖4 所示的廣義旁瓣對消原理框圖里,經(jīng)過block matrix之后經(jīng)過平滑和EQ 處理后,是估計出來的空間噪聲的頻譜Ns,其在空域后濾波里面作為參考進一步抑制空間干擾分量。這個空間噪聲代表波束成形算法里非beam 指向方向的空間干擾信號。包含了干擾的空間信息,越大表明干擾的能量越強,也就是干擾語音分量越強。根據(jù)它的強度,可以設定一個門限來判斷當前幀的主要成分是波束指向方向的期望信號,還是非指向方向的干擾語音信號,由此可以把語音分段成期望語音段和干擾語音段,對干擾語音段進行進一步的抑制。

圖4 空域自適應波束成型旁瓣對消原理

在廣義旁瓣對消的自適應beamforming 算法結(jié)構(gòu)中,麥克風輸入的信號Xn經(jīng)過傅里葉變換成子帶信號Xn(ejΩμ,k),其中n為麥克風序號,μ 為頻率點序號,Ω 為頻率支撐點,k 為時間幀號。經(jīng)過Blocking Matrix 去掉目標信號得到空間噪聲,再經(jīng)過平滑以及去偏移EQ 處理后得到用于空域后濾波的空間噪聲頻譜Ns(ejΩμ,k)。

空域后濾波根據(jù)估計出來的固定beamforming 處理后的語音功率譜A(ejΩμ,k),以及前述空間噪聲功率譜Ns(ejΩμ,k),利用迭代維納濾波降噪的方式計算出濾波器系數(shù)用于消除空間噪聲。降噪公式為:

從式(2)可以看出,維納濾波器系數(shù)H(ejΩμ,k)可以反映頻域子帶空間噪聲的強弱,越小說明空間噪聲越大,也就是從非beam 指向進入的干擾語音分量越大。將濾波器系數(shù)H 在頻域子帶上做歸一化得到全頻帶的平均濾波器系數(shù)H(k):

式中,Hextra(ejΩμ)為額外抑制系數(shù),用于降低去噪門限提供額外的抑制。通過設置它來基本消除干擾語音段。

2 算法實驗及結(jié)果分析

2.1 服務員-顧客先后說話分離算法效果

為了評估分離算法,佩戴胸牌錄音測試。兩個測試人員模擬辦事大廳的服務員和客戶對話,兩者相距兩米,1.5m 外音響與兩者成45°角,播放音樂作為噪聲干擾,音樂聲在工牌附近測得聲壓為70 dBSPL。錄取4 路mic in,其中某一路波形如圖6 第一行所示,其中加框部分波形為顧客說話,其余部分為服務員說話。

圖6 分離前后波形對比

基于錄音使用分離算法,錄制16k 采樣率16bit PCM,使用16ms 幀長,每幀做256 點FFT,使用參數(shù):平滑系數(shù)?=0.99,Hmin=10dB,Hextra=20dB。對服務員通路信號采用波束成形算法和干擾語音抑制算法,得到干擾語音檢測標志如圖5,其中藍線為干擾語音檢測標志C(k),由圖5 可見,干擾語音段的C(k)值明顯低于非干擾語音段,可以很好的分開。這里設門限CT 為0.05,就可以分離出干擾語音段,并使用干擾額外抑制算法。

圖5 干擾語音段檢測

對于顧客信號通路,如圖3 算法結(jié)構(gòu),對顧客信號分別使用波束成形處理后輸出,或某一個輸入麥克直接輸出來做自適應噪聲消除,處理后得到最終服務員波形和顧客波形如圖6。其中第一行為麥克輸入波形,第二行波形為服務員輸出,第三行為使用波束成形再做自適應噪聲消除的顧客輸出波形,第四行為直接使用一麥克輸入來做自適應噪聲消除的顧客處理后輸出波形。由波形可見無論顧客一路使用波束成形輸出還是使用單一麥克輸出來做噪聲消除,服務員和顧客的語音都被完全分離開來,都具有良好的分離能力。只是使用單麥克信號的話,不具備波束成形的降噪功能,噪聲抑制會差一點。但是這么節(jié)省了一個波束成形的計算,可用于算力緊張的情況。

2.2 同時說話分離效果

如2.1 所述增強干擾語音抑制算法主要針對非同時說話的場景,這是本文分離算法討論的主要場景,在典型的對話過程中,大部分時間是對話成員先后說話。同時說話是一種暫態(tài),但同時說話的分離能力也是重要的指標。胸牌采用由圖3 所示的旁瓣對消自適應波束成形加自適應噪聲消除的算法框架對同時說話也能提供較好分離能力。

由于胸牌的特點,服務員的語音能量相對顧客較大,且角度相對固定,因此圖3 所示服務員一路,經(jīng)波束成形輸出信號A1 比較純凈,包含的顧客語音少,用它作為參考信號使用自適應濾波的噪聲消除算法可以進一步消除顧客一路A2 里面的服務員語音分量,且對A2 中顧客語音成分的消除較少。在胸牌兩人2m 距離說話場景,分離仿真效果如圖7所示,第一,行為mic 輸入波形,其中紅色細線部分是顧客單講,藍色粗線是同時講話部分。第二,三行分別為分離出來的服務員和顧客。經(jīng)仿真計算,使用本文提出的如圖3 所示的分離算法框架,同時說話的干擾語音抑制能達到18dB,同時對各自自己的語音消除較小。

圖7 同時講話的分離

3 結(jié)論

本文基于麥陣自適應波束成形算法,實現(xiàn)了一種用于可穿戴設備的語音分離算法框架。研究了一種加強干擾語音抑制算法,能進一步消除波束成形后的殘余干擾語音分量。對于對話者的非同時說話以及同時說話的場景,本算法都可以較好的分離語音,同時節(jié)省計算量,適用于低功耗設備的需求。

猜你喜歡
波束成形波形
基于時域波形掩護的間歇采樣干擾對抗研究
毫米波通信中的波束管理標準化現(xiàn)狀和發(fā)展趨勢
鈑金V形折彎成形的回彈控制研究
金屬粉末注射成形用塑基喂料研制及應用
基于共形超表面的波束聚焦研究
強干擾背景下水中微弱信號的垂直陣波束形成研究
基于Halbach陣列磁鋼的PMSM氣隙磁密波形優(yōu)化
超波束技術在岸基光纖陣中的應用
用于SAR與通信一體化系統(tǒng)的濾波器組多載波波形
全新邁騰B7L車噴油器波形測試