馬玉潔,倪旭昇,鄒 孝,董 胡,2,趙新民,錢盛友
(1. 湖南師范大學(xué) 物理與電子科學(xué)學(xué)院,湖南 長沙 410081;2. 長沙師范學(xué)院 信息科學(xué)與工程學(xué)院,湖南 長沙 410100)
語音增強技術(shù)通常被用來處理語音的噪聲污染問題. 相比傳統(tǒng)的語音增強方法,一些新興的語音增強方法效果更好,如:結(jié)合聽覺掩蔽效應(yīng)、壓縮感知、深度學(xué)習(xí)的語音增強方法[1]. 隨著視聽交互研究的逐漸興起,利用跨模態(tài)技術(shù)對信號進行處理的方法也開始受到關(guān)注,研究人員將原本分開處理一維聲音信號和二維圖像信號的技術(shù)轉(zhuǎn)向創(chuàng)造性的跨模態(tài)處理[2]. 我們可以利用圖像處理技術(shù)來處理語譜圖,這種技術(shù)已應(yīng)用于音樂轉(zhuǎn)錄、樂器聲音分離、降噪等[3-5]. 相反,我們可以從視為語譜圖的圖像中產(chǎn)生聲音信號,這種技術(shù)稱為圖像到聲音的映射或模式回放[6-9].
Han等[10]將監(jiān)督學(xué)習(xí)的方法擴展到去噪中,在沒有受限玻爾茲曼機(Restricted Boltzmann Machine,RBM)預(yù)訓(xùn)練的情況下對深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)進行訓(xùn)練,DNN被訓(xùn)練直接學(xué)習(xí)從損壞語音的語譜圖到干凈語音的語譜圖的頻譜映射. 這種使用DNN進行語音增強的方法通常比較復(fù)雜,需要大量的實驗組,實時性不強. 王杰等[11]提出利用圖像處理技術(shù)中的雙邊濾波算法對非平穩(wěn)語音信號進行去噪,該方法可以從視覺上分析聲音的時頻特性. 但雙邊濾波通常效率偏低且在細(xì)節(jié)處理上有可能會產(chǎn)生梯度反轉(zhuǎn). 引導(dǎo)圖像濾波(Guided Image Filtering,GIF)是在雙邊濾波的基礎(chǔ)上提出的一種圖像濾波處理方法,同樣具有保持圖像邊界并對圖像進行去噪的的特性,同時,GIF在細(xì)節(jié)處理上優(yōu)于雙邊濾波且時間復(fù)雜度與窗口大小無關(guān).
到目前為止,利用跨模態(tài)技術(shù)處理語音信號的方法還甚少,多數(shù)利用語譜圖進行語音增強的方法也較為復(fù)雜[12,13]且參數(shù)多為人工設(shè)定. 粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法在工程上用于求解優(yōu)化問題,因其需要調(diào)整的參數(shù)較少,結(jié)構(gòu)簡單而被廣泛使用,而且相對于其他啟發(fā)式優(yōu)化算法來說,其能在最短的時間內(nèi)獲得更穩(wěn)定的高質(zhì)量最優(yōu)解. 本文將一維時域語音信號轉(zhuǎn)換為二維圖像信號,以語譜圖為媒介,利用二次引導(dǎo)圖像濾波(Secondary Guided Image Fltering,SGIF)進行語音增強處理,并利用PSO對SGIF中的參數(shù)進行優(yōu)化,最后通過重疊相加法和傅里葉反變換得到增強的語音信號.
語譜圖也稱語音頻譜圖,其中,橫坐標(biāo)表示時間,縱坐標(biāo)表示頻率,坐標(biāo)點的像素值代表語音信號的能量,能量值的大小由顏色來表示. 它能將語音的許多特征通過二維圖像呈現(xiàn)出來,采用二維平面表達(dá)三維信息. 我們可以以它為媒介完成跨模態(tài)處理.
語音通常是一種隨機的非平穩(wěn)信號,具有時變性,帶噪語音信號的數(shù)學(xué)表達(dá)式為
x(t)=f(t)+s(t),
(1)
式中:f(t)為純凈的語音信號;s(t)為噪聲信號;x(t)為帶噪語音信號. 對式(1)進行短時傅里葉變換(STFT)變換為
X(k,l)=F(k,l)+S(k,l),
(2)
其中,
(3)
式中:k和l分別為頻率點和時間點;K為幀長;R為幀移;ω(n)為實數(shù)窗序列. 帶噪語音信號語譜圖的數(shù)學(xué)表達(dá)式為
(4)
歸一化語譜圖為
(5)
1.2.1 引導(dǎo)圖像濾波
GIF最初在2010年由He等提出[14]. GIF的核心是引導(dǎo)圖像I與濾波輸出圖像q,兩者以像素k為中心存在一種局部線性關(guān)系,即
qi=akIi+bk, ?i∈ωk,
(6)
式中:ωk為半徑r的一個方形窗口;(ak,bk)為窗口ωk中的線性系數(shù).為了使輸入圖像p與輸出圖像q最接近,根據(jù)無約束圖像復(fù)原方法將其轉(zhuǎn)化為最優(yōu)問題
qi=pi-ni,
(7)
式中:ni為噪聲;pi為qi受到噪聲ni污染的退化圖像,其代價函數(shù)為
(8)
式中:ε為用來防止ak過大的正規(guī)化參數(shù).要保證輸出圖像和輸入圖像之間差異盡可能小,關(guān)鍵在于求出ak和bk的最優(yōu)解,通常利用最小二乘法求解出線性系數(shù)(ak,bk).求解式(8)得
(9)
(10)
(11)
(12)
1.2.2 二次引導(dǎo)圖像濾波
低信噪比情況下,語譜圖顯示噪聲主要集中分布在高頻段,利用一次GIF并不能有效估計高頻段信息,即帶有噪聲的輸入圖像p經(jīng)過一次GIF的圖像q在不同頻段上仍有殘余噪聲. 為克服一次GIF的缺陷,可用SGIF來進一步抑制噪聲[15]. 該模型是將第一次GIF后的輸出圖像q作為SGIF的引導(dǎo)圖像,經(jīng)過SGIF輸出后的圖像為最終增強后的語譜圖q′. 利用GIF進行去噪時,去噪效果是由引導(dǎo)濾波器的正規(guī)化參數(shù)和窗口半徑?jīng)Q定的. 為了使經(jīng)過初次估計輸入圖像的結(jié)構(gòu)信息后能夠更好地保留其細(xì)節(jié)信息,所提出的SGIF窗口的設(shè)置應(yīng)該比GIF的窗口小. 因此,兩個濾波器組中正規(guī)化參數(shù)和窗口半徑不同,為了準(zhǔn)確估計噪聲信號,本文利用PSO算法對濾波器組中參數(shù)進行優(yōu)化.
(13)
(14)
1.2.3 參數(shù)優(yōu)化
GIF平滑效果與正規(guī)化參數(shù)ε和窗口半徑r有關(guān),不同的待去噪圖像以及不同的濾波器需要設(shè)置不同的參數(shù)組,參數(shù)的設(shè)置直接影響著最終的去噪效果.
PSO算法是核心思想為群智能優(yōu)化的一種全局優(yōu)化算法,最優(yōu)問題具體包括3個特征:位置、速度、適度函數(shù). 通過對一群隨機粒子進行搜索,利用迭代找出相應(yīng)的最優(yōu)解. 假設(shè)搜索空間為D維,種群中有m個隨機粒子,其中第i個粒子的位置用向量Xi=[xi1,xi2,…,xiD]表示,速度用向量Vi=[vi1,vi2,…,viD],i=1,2,…,m表示.第i個粒子個體搜索到最優(yōu)位置為pBesti,全局最優(yōu)位置為gBest,其中pBesti=[pBesti1,pBesti2,…,pBestiD],gBest=[gBest1,gBest2,…,gBestD].通過pBesti和gBest可以更新粒子的速度及位置,具體公式為
vij(t+1)=
σ*vij(t)+c1*rand1j*(pBestij(t)-xij(t))+
c2*rand2j*(gBestj(t)-xij(t)),
(15)
xij(t+1)=xij(t)+vij(t+1),
(16)
式中:c1為控制個體經(jīng)驗的影響權(quán)重;c2為控制社會認(rèn)知的影響權(quán)重;rand1j,rand2j為范圍[0,1]的隨機實數(shù);σ為慣性因子.
本文利用PSO算法時優(yōu)化的是兩個參數(shù),所以搜索空間是二維的,文中直接利用結(jié)構(gòu)相似性(Structual Similarity,SSIM)作為適度函數(shù)[16],則此時t時刻第i個粒子的位置為
(17)
(18)
式中:k和l分別為頻率點和時間點;β為取值為0~1的遺忘因子. 本文方法得到的增強語譜圖為
y(k,l)=max{X(k,l)-αq′(k,l),0},
(19)
式中:α為0~αmax的常數(shù). 歸一化處理
(20)
應(yīng)用逆IFFT合成時域增強語音
f(t)=IFFT{G(k,l)X(k,l)}.
(21)
增益為
(22)
式中:Gmin∈[-30 dB,-10 dB],用于限制殘留噪聲的最小值,Gmax=1. 基于PSO優(yōu)化的二次引導(dǎo)圖像濾波(SGIF-PSO)語音增強方法框圖如圖 2 所示.
圖 2 基于SGIF-PSO語音增強方法框圖
本文利用Matlab2017b版本下進行的仿真實驗對本文算法的增強效果進行驗證. 選用的語音數(shù)據(jù)來源于NOIZEUS中純凈語音信號sp10文件,噪聲為高斯白噪聲,信噪比分別為0 dB、5 dB、10 dB. 信號采樣頻率設(shè)為8 kH,量化精度為 16 bit,幀長為25 ms,幀移為10 ms,窗函數(shù)為hamming窗. PSO算法種群大小為50,最大迭代次數(shù)為200,C1=2.8,C2=1.3,權(quán)重系數(shù)ωmax=0.9,ωmin=0.4. 將本文方法與傳統(tǒng)譜減法、文獻(xiàn)[11]雙邊濾波法、GIF、未進行粒子群優(yōu)化的SGIF方法進行比較,結(jié)果采用信噪比(SNR)及語音質(zhì)量感知評估(PESQ)作為評價指標(biāo).
首先使用本文的語音增強方法對含5 dB白噪聲的帶噪語音信號進行增強.
圖 3 對比了增強前后語音信號的波形圖和語譜圖,通過時域波形可以看出,本文算法能夠有效抑制帶噪信號中的噪聲,增強后的語音整體含噪幅度明顯降低,且波形圖基本保持完整,語譜圖中對高頻處的噪聲抑制作用更加明顯.
(a) 純凈語音
(b) 帶噪語音
(c) 增強語音
表1 對比了5種方法在含不同信噪比噪聲情況下語音增強后的SNR結(jié)果,可以看出5種算法均能夠降低噪聲. 低信噪比情況下,會導(dǎo)致語音信號與噪聲信號的邊緣模糊,利用圖像處理技術(shù)能夠在有效去噪的同時最大限度地保持圖像邊緣信息. 本文算法優(yōu)于譜減法、文獻(xiàn)[11]雙邊濾波法、一次GIF和未進行粒子群優(yōu)化的SGIF的方法,信噪比提升能力更強. 對比文獻(xiàn)[11]中的方法,本文所提方法不會產(chǎn)生梯度反轉(zhuǎn),在細(xì)節(jié)處理上更好,不同類型不同信噪比的背景噪聲均能被有效抑制. 實驗中雖然對于Babble噪聲的去噪效果略低于White噪聲和Factory噪聲,但是總體上本文算法具有良好的魯棒性.
表1 5種算法輸出SNR結(jié)果對比
表2 為5種語音增強算法在不同輸入噪聲的不同信噪比下的PESQ結(jié)果. 對比可得本文語音增強方法的PESQ值高于其他4種算法. 所提語音增強算法在White類噪聲下增強效果最好,相對于譜減法PESQ增加可達(dá)0.58;雖然其他3種圖像濾波方法具有保邊去噪效果,但本文所提語音增強方法的輸出語音整體感知質(zhì)量更高.
表2 5種算法PESQ結(jié)果對比
針對低信噪比情況下非平穩(wěn)帶噪信號中語音噪聲在一定程度上重合,導(dǎo)致語音信息的邊緣被噪聲覆蓋的問題,本文采用圖像處理技術(shù),將語譜圖作為媒介,實現(xiàn)圖像到聲音和聲音到圖像的創(chuàng)造性轉(zhuǎn)換,達(dá)到跨模態(tài)處理的目的. 文中提出的語音增強方法具有更好的保邊去噪性,可以直接從帶噪語音的歸一化語譜圖及其增強語譜圖中計算出增益函數(shù),無需進行噪聲估計. 當(dāng)噪聲強時,引導(dǎo)圖像邊緣遭到破壞無法提供準(zhǔn)確的引導(dǎo)信息,去噪效果遭到破壞. PSO優(yōu)化的SGIF克服了在低信噪比的情況下一次GIF不能有效估計圖像的高頻信息的缺點,能夠通過調(diào)整濾波器組中的參數(shù)減少不同頻段的噪聲殘留. 實驗表明,改進的引導(dǎo)濾波有更好的邊緣平滑度和濾波效果,在PESQ和SNR評價方面有較好的性能,為后續(xù)的語音信號研究提供了相對純凈的語音信號.