利用ERB尺度劃分對補償相位譜語音增強算法的改進*

2022-05-10 07:27許清臣張再躍

計算機與數(shù)字工程 2022年4期

許清臣韋怡張再躍

（1.江蘇科技大學鎮(zhèn)江 212003）（2.中國石油化工股份有限公司金陵分公司南京 210033）

1 引言

語音增強是語音信號處理中的一項重要技術(shù)，其廣泛應(yīng)用于語音識別、語音編碼等領(lǐng)域［1］。由于人類生活的環(huán)境中存在著各種各樣的噪聲，使得語音通信系統(tǒng)性能嚴重惡化，導致信息傳輸不準確［2］。從而，在過去的幾十年中，人們?yōu)榇颂岢隽嗽S多語音增強算法，其增強的目的在于提高語音質(zhì)量，減輕聽力疲勞，從一定程度上來說，語音增強就是為了減少或者抑制背景噪聲［3］。本文主要研究的是單通道語音增強，即只使用一個麥克風錄制語音信號，并在多頻帶譜減法的基礎(chǔ)上對其進行改進得到提出的語音增強算法。

Boll于1979年最早提出了一種較為有效的語音增強算法，稱為譜減法［4］。隨著心理聲學應(yīng)用的發(fā)展，近些年Upadhyay和Karmakar提出了一種基于Bark尺度聽覺感知的多頻帶語音增強算法［5］。實驗結(jié)果表明，基于聽覺感知的多頻帶譜減法對于語音質(zhì)量會有較好的改善。本文把一種最新的心理聲學模型應(yīng)用于語音增強的補償相位譜中。

另外，在之前譜減法的語音合成過程中，有新的研究表明，相位譜對人耳的感知是有一定影響的［6］。文獻［7～8］中給出了基于相位譜補償?shù)恼Z音增強算法，該算法在語音合成過程中，是將帶噪語音幅度譜與改進的相位譜相結(jié)合來生成修正后的語音復(fù)頻譜，其保持了帶噪語音的幅度譜，改變了相位譜，雖然捕捉了語音的細節(jié)，但是帶噪語音幅度譜會影響到語音的整體結(jié)構(gòu)。因此，本文對補償相位譜進行了改進，將應(yīng)用ERB尺度劃分臨界頻帶進行多頻帶譜減后的語音幅度譜來得到修正后的相位譜補償函數(shù)，以此獲得增強的語音復(fù)頻譜。除此之外，其它文獻［9］中提出了一種基于短時傅立葉變換的相位重建算法。

近年來，更加符合人耳聽覺特性的ERB尺度頻帶劃分方式逐漸取代了用Bark尺度劃分臨界頻帶［10］，相較于Bark尺度其在低頻段處可以獲得更窄的聽覺濾波器。本文提出了一種改進的基于聽覺感知的語音增強算法，其利用ERB尺度來劃分臨界頻帶，并對傳統(tǒng)的補償相位譜進行了修正，將ERB尺度應(yīng)用于補償相位譜中。提出的該算法基于與人類感知密切相關(guān)的特征，在語音失真和噪聲抑制之間尋求最佳平衡。實驗結(jié)果表明，該算法在客觀評價和主觀評價兩方面都取得了較好的效果。

2 多頻帶譜減法的基本原理

本小節(jié)主要介紹多頻帶譜減法的基本原理，Singh和Kamath提出的多頻帶譜減法是基于噪聲頻譜對整個語音頻譜的影響是不同的這一事實，將整個語音頻譜分為M個互不重疊的頻帶［11～12］，然后在各個單獨的頻帶上進行各自譜減。

假設(shè)語音信號為s(t)會受到周圍加性環(huán)境噪聲d(t)的污染，生成帶噪語音信號x(t)：

語音信號為非平穩(wěn)信號，在進行語音信號處理時要對其先進行預(yù)處理，分幀加窗后兩邊做短時傅里葉變換（STFT），則上式可以轉(zhuǎn)換為頻域的形式：

其中，ωb和ωe是每個子帶中的起始頻點和終止頻點，αi和δi是各個頻帶中的譜減參數(shù)，分別為過減因子和譜下限參數(shù)，用于語音頻譜相減的程度控制噪聲的去除強度。是帶噪語音功率譜，是估計的噪聲功率譜。最終合成的增強語音信號由下式可得：

其中，ISTFT代表逆短時傅里葉變換， ||S^i(ω)是譜減后的幅度譜，帶噪語音相位譜用arg(Xˉi(ω))表示。

3 提出的相位補償方法

本文所提出的單通道語音增強算法是基于ERB尺度進行補償相位譜修正，對經(jīng)過初次增強后的語音信號進行噪聲估計用于相位譜補償函數(shù)中。本文所提算法的流程圖如圖1所示。

圖1 提出算法的流程框圖

在圖1中，x(n)是待處理的帶噪語音信號，s^(n)是由所提出的改進算法輸出的增強語音信號。∠X(n，k)為帶噪語音相位，|Q(n，k)|表示經(jīng)過基本譜減法的語音幅度譜，Z^(n，k)表示使用ERB尺度進行多帶譜減法后結(jié)合帶噪語音相位譜構(gòu)成的語音復(fù)頻譜，而∠XΓ(n，k)是經(jīng)過修正的補償相位譜。該算法主要包括以下步驟：

1）語音預(yù)處理；2）使用ERB尺度劃分臨界頻帶；3）獲得初次增強的語音復(fù)頻譜；4）修正補償相位譜；5）通過將多頻帶譜減后的語音幅度譜與修正的補償相位譜相結(jié)合進行逆傅立葉變換。

接下來，將對步驟中的第二步和第四步進行詳細描述。

3.1 ERB尺度劃分臨界頻帶

Upadhyay和Karmakar在多頻帶譜減法中使用Bark尺度對語音進行增強［5］，但現(xiàn)在有足夠的研究表明Bark尺度劃分的臨界帶寬高于人類聽覺掩蔽的實際臨界帶寬。因此，本文將ERB尺度應(yīng)用于臨界頻帶的劃分［10］。式（5）和（6）給出了ERB尺度和線性頻率之間的轉(zhuǎn)換關(guān)系。

式中，Erb和f分別是ERB尺度值和線性頻率值。

采用ERB尺度劃分臨界頻帶的步驟如下：先將線性頻率根據(jù)式（5）轉(zhuǎn)換到ERB尺度，再根據(jù)子帶數(shù)量M把ERB尺度劃分成M等份，最終再從ERB尺度轉(zhuǎn)換回線性頻率，這就是一個完整的ERB尺度劃分臨界頻帶的過程。接下來將把ERB尺度應(yīng)用于補償相位譜的修正中。

3.2 修正補償相位譜

在以往傳統(tǒng)的語音增強算法中，通常保留帶噪語音相位譜并將其與語音幅度譜相結(jié)合。但在本文中，將對相位譜進行修正補償相位譜用于語音增強算法中，主要的思想是通過改變一對共軛對稱復(fù)頻譜的角度關(guān)系來控制背景噪聲增強或消除的程度。因此，在對相位譜進行補償過程中需要使用反對稱函數(shù)來實現(xiàn)，相位譜補償?shù)某潭仁歉鶕?jù)噪聲估計幅值來確定的，以期更好地適應(yīng)噪聲環(huán)境的變化。

對于修正的補償相位譜，是由一個反對稱函數(shù)進行相位譜的補償：

式中，λ是通過實驗經(jīng)驗所獲得的一個實數(shù)，φ(k)是一個反對稱函數(shù)，|D′(n，k)|是通過使用ERB尺度進行多頻帶譜減法后計算初次增強的語音信號而獲得的噪聲估計幅值。對于初次增強后的語音信號，計算前三幀語音得到估計的噪聲幅值。式（7）中的反對稱函數(shù)由下式可得：

其中，對應(yīng)于離散短時傅立葉變換后的非共軛矢量值的加權(quán)值為零。式（7）中反對稱函數(shù)乘以對稱函數(shù)仍然是反對稱函數(shù)，這就構(gòu)成了噪聲消除的基本前提。

接著，將初次增強語音的復(fù)頻譜與相位譜補償函數(shù)進行加性計算：

公式中，Z(n，k)為圖1中經(jīng)過初次增強后的語音復(fù)頻譜，Ψ(n，k)表示相位譜補償函數(shù)。

最終修正的補償相位譜計算如下：

其中，Im和Re分別為計算復(fù)頻譜的虛部與實部。

采用修正補償相位譜來去除背景噪聲的思想可以通過一對共軛對稱矢量進行解釋。在本文中先對帶噪語音進行ERB尺度多頻帶譜減法得到初次增強的語音復(fù)頻譜，接著再對初次增強的語音復(fù)頻譜加上一個相位譜補償函數(shù)，由于在復(fù)頻譜上加上一反對稱函數(shù)可以看作是往相反方向（分別為0和π）推動一對共軛對稱矢量來消除背景噪聲。噪聲消除的強度是根據(jù)相位譜補償函數(shù)決定的。因此，將ERB尺度應(yīng)用于相位譜補償函數(shù)在噪聲消除中起著至關(guān)重要的作用。

4 實驗結(jié)果分析

本小節(jié)對四種語音增強算法進行性能評估，四種算法分別為本文提出的改進算法（記為PSEA），基于線性劃分的多頻帶譜減法（記為MBSS），基于ERB尺度劃分的多頻帶譜減法（記為Erb）以及Kamil提出的傳統(tǒng)補償相位譜增強算法［7］（記為MP）。

本實驗中使用的語音數(shù)據(jù)來自于NOIZEUS語料數(shù)據(jù)庫［13］，其中該語料數(shù)據(jù)庫包括30句語音和4種噪聲類型。分別對高斯白噪聲、汽車噪聲、飛機場噪聲以及babble噪聲加以不同的信噪比來產(chǎn)生不同的帶噪語音用于性能評估。在實驗性能評估中，語音的采樣頻率均為8kHz，采樣精度為16bit。本章節(jié)經(jīng)過客觀評價與主觀評價兩大方面來評估四種可比較的語音增強算法，為了便于直接進行算法之間的比較，短時傅里葉變換過程中涉及的基本參數(shù)在四種單通道語音增強算法中都設(shè)置一致。譜減參數(shù)中的過減因子α為2，譜下限設(shè)置為0.002。在接下來的部分，將從三個方面進行語音增強算法性能評估：信噪比提高，語音質(zhì)量感知評估測度（PESQ）和語譜圖對比。

4.1 信噪比提高

通常采用信噪比提高來評估語音信號的降噪量，信噪比提高即是輸出分段信噪比減去輸入分段信噪比。圖2顯示了不同輸入信噪比在不同噪聲類型下信噪比的提高。

從圖2中可以看出，本文提出的算法得到的信噪比提高值最優(yōu)，而分別采用兩種尺度劃分多帶譜減法的增強效果均差不多，都比提出的算法和采用傳統(tǒng)補償相位譜增強算法的效果要差，這可以看作是一個預(yù)期的效果。因為采用多帶譜減法只對語音幅度譜進行了變化，其相位譜仍然保持不變導致背景噪聲的去除效果并不佳，另外，傳統(tǒng)補償相位譜是將帶噪語音譜與補償相位譜相結(jié)合，其噪聲去除效果也并不優(yōu)異，而本文提出的改進算法是在補償相位譜中應(yīng)用了ERB多帶譜減法以此對語音進行增強，這就可以看出本文改進的補償相位譜對去除背景噪聲有一定的抑制作用。

圖2 不同噪聲類型下信噪比提高

4.2 PESQ

PESQ值是所有客觀評估參數(shù)中最為復(fù)雜的，但是其最能體現(xiàn)主觀感知的一種客觀評價方式，它的表現(xiàn)方式是采用評分制，即-0.5～4.5之間的數(shù)值表示增強語音信號的質(zhì)量，PESQ值越高則表示增強語音信號的質(zhì)量越好。在圖3中，使用ITU-T推薦的PESQ評估方式對增強算法進行客觀評估［14］。

根據(jù)圖3可以觀察到，在四種背景環(huán)境噪聲中，本文提出的算法結(jié)果在高斯白噪聲低信噪比環(huán)境下優(yōu)于另外三種對比算法，隨著信噪比提高，PSEA算法與MP算法結(jié)果一樣較優(yōu)，在另外三種噪聲環(huán)境下，本文提出算法的效果并不是最優(yōu)的，但與MP算法相差不大，這是因為高斯白噪聲為穩(wěn)態(tài)噪聲，其他的噪聲可以看作是非穩(wěn)態(tài)噪聲，本文提出的增強算法在穩(wěn)態(tài)噪聲下去噪效果較好。綜合來看，本文提出的算法在PESQ值變化不大的情況下，信噪比在四種噪聲下均有較大提升，有一定的進步意義。

圖3 不同噪聲類型下PESQ值

4.3 語譜圖

語譜圖可以反映語音的結(jié)構(gòu)并展示語音信號的動態(tài)頻譜特性［15］。接下來，圖4語譜圖將給出一個示例，在這里帶噪語音為加輸入信噪比為0 dB的babble噪聲，圖中為所提出的改進算法和其他可比較語音增強算法之間的性能比較。

根據(jù)圖4語譜圖之間的對比可以看到，另外四種對比算法中的殘余噪聲量明顯多于本文提出的改進算法，尤其可以看到（c）、（d）、（e）、（f）語譜圖上面的紅色殘余部分明顯較多于（g）中的殘余量，經(jīng)過PSEA算法增強后的語音信號從語譜圖上看只有少量的殘余噪聲，這說明時其殘余噪聲和語音失真程度是可以令人接受的，同時也驗證了4.1節(jié)中的結(jié)果，也能從另一個角度更好的補充了4.2節(jié)中的評估結(jié)果。

圖4 語音語譜圖

5 結(jié)語

本文提出了一種改進的單通道語音增強算法，將ERB尺度應(yīng)用于修正傳統(tǒng)的補償相位譜中，并且將修正的補償相位譜與譜減后語音幅度譜相結(jié)合以獲得增強的語音信號。這是由于ERB尺度更加符合人耳的聽覺特性，從而改進的補償相位譜可以消除更多的背景噪聲。從信噪比提高，PESQ值以及語譜圖評估實驗結(jié)果表明，本文提出的算法優(yōu)于其他可比較的語音增強算法。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡