国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Takenaka-Malmquist系的語音信號壓縮與降噪方法

2020-03-23 09:54張立明
關(guān)鍵詞:字典閾值重構(gòu)

雷 婭, 方 勇, 張立明

(1.上海先進通信與數(shù)據(jù)科學研究院,上海200444;2.上海大學特種光纖與光接入網(wǎng)重點實驗室,上海200444;3.澳門大學科學技術(shù)學院,澳門999078)

語音信號是人與人之間進行交流的一種音頻信號,能夠有效而方便地實現(xiàn)信息的傳輸與獲取.目前,人們都采用數(shù)字信號處理技術(shù)對語音進行相關(guān)處理,使處理后的語音能夠滿足工業(yè)、軍事等不同領域的需求[1].在語音的傳輸和獲取中,如何更好地實現(xiàn)通信成為研究熱點.語音通信的一個改進點是傳輸壓縮后的語音數(shù)據(jù),減小傳輸功率.同時,由于通信過程非常復雜,信道中存在的噪聲會影響接收端對語音的處理.因此,對含噪語音進行壓縮處理時,首先要對語音進行降噪處理,再進行壓縮處理.

利用語音信號的稀疏表示來實現(xiàn)語音壓縮與降噪是一種重要方法.稀疏表示中的貪婪算法在語音壓縮與降噪處理中得到了廣泛的應用,如匹配追蹤(matching pursuit,MP)算法、正交匹配追蹤(orthogonal matching pursuit,OMP)算法等.這些算法均是基于過完備字典展開的,因此如何構(gòu)建出能更好地實現(xiàn)信號稀疏表示的過完備字典是稀疏表示的一個重要研究方向.目前,常用的字典有Gabor字典、Chirplet字典等,其中Gabor字典具有非常好的時頻聚集性,該特點可以使基于Gabor字典的貪婪算法收斂速度較快.因此,基于自適應Gabor子字典的匹配追蹤算法(matching pursuit algorithm based on the adaptive Gabor sub-dictionary,GMP)收斂速度較快,從而可以對信號進行稀疏表示,利用這一點可以實現(xiàn)對信號的壓縮以及對含噪信號降噪后壓縮的目的[2].但是,這類方法在處理較高頻率的信號諸如語音信號時,分解結(jié)果的稀疏性并不理想.

GMP收斂較慢的原因主要有兩點:一是GMP的完備字典中的原子是非正交的,使新得到的原子與前面所得原子張成的子空間并不正交,這樣就引入了不期望的分量,在后續(xù)的迭代中需要更多的原子才能將這些分量補償?shù)?因此該方法需要較大的計算量[2];二是GMP是基于Hilbert空間的貪婪算法,已有研究表明基于再生核Hilbert空間的貪婪算法對信號的稀疏性表示得更好[3-5].因此,本工作在澳門大學錢濤教授提出的自適應傅里葉分解(adaptive Fourier decomposition,AFD)算法的基礎上,對AFD的再生核Szeg¨o[6-7]進行正交化形成Takenaka-Malmquist系,即TM系統(tǒng)[8].該系統(tǒng)也被稱為單位圓內(nèi)的有理正交系,解決了GMP的第一個缺點.同時,利用TM系統(tǒng)構(gòu)建了一種基于再生核Hilbert空間的貪婪算法,即基于Takenaka-Malmquist系的貧婪權(quán)值算法(a greedy weight algorithm based on Takenaka-Malmquist system,TMGW).本算法對信號分解的每一步與MP算法類似,都是通過極大選擇原理(maximum selection principle,MSP)選擇使該步分解系數(shù)模值最大的基函數(shù),并找到其在TM系統(tǒng)中對應的列數(shù).本工作假設收發(fā)雙方使用一個已知的TM系統(tǒng),此時可以只傳遞這些分解系數(shù)及相應的基函數(shù)對應的列數(shù)便可得到重構(gòu)的語音信號.

本工作在Matlab仿真平臺上,使用GMP和TMGW分別對來自于TIMIT-Speech-Database的語音數(shù)據(jù)進行稀疏表示.利用TMGW更適合于對信號稀疏表示的特點,實現(xiàn)了對語音信號的壓縮.同時,本算法根據(jù)稀疏分解后信號與噪聲在時頻面上能量分布不同的特點實現(xiàn)了對含噪語音降噪的目的.實驗結(jié)果表明,如果對一個信號進行稀疏表示需要GMP的m個原子時,只需要TMGW的n個基函數(shù)(n?m)即可,即TMGW對信號的稀疏表示效果較好.因此,本算法可以顯著提高數(shù)據(jù)的壓縮率,同時可利用對含噪信號的稀疏表示來實現(xiàn)對語音信號的降噪壓縮處理.

1 基于TMGW的語音稀疏表示

目前,基于字典的各類貪婪算法如GMP是比較常用的對語音信號進行稀疏表示的方法,但由于GMP中存在原子不正交的缺點,對語音信號進行壓縮后的數(shù)據(jù)量仍然較大.因此,本工作提出了一種基于TMGW的信號稀疏表示方法,可解決GMP對語音信號處理時存在的缺點.

TMGW是一種基于再生核Hilbert空間上Takenaka-Malmquist系的算法,其中Takenaka-Malmquist系被記為其組成函數(shù)Bl的表達式如下:

式中:a∈D,D表示開單位圓

j是再生核Szeg¨o.

對于任一語音信號f(t),首先需要將其投影到Hardy空間轉(zhuǎn)換為f+(t).本工作使用Hilbert變換將實值語音信號轉(zhuǎn)化成解析信號f+(t).根據(jù)Plemelj定理可得,對于f∈Lp(R),1 6 p<∞,有

式中:H表示實數(shù)軸上的Hilbert變換[8].

使用TMGW對f+(t)進行處理.首先,在開單位圓內(nèi)均勻采樣,選取一系列a值,這里的采樣間隔設置為0.02[9].a值的分布如圖1所示.

圖1 序列a的分布Fig.1 Distribution of sequence a

式中:B1(eit)可以根據(jù)MSP選出,即B第一步分解后的標準誤差.可以證明r仍然屬于Hardy空間,以上述方式對r(t)按照式(2)進行分解,可以得到

在上述每一步分解過程中,根據(jù)MSP選擇基函數(shù)Bl(eit)及其系數(shù),并記下Bl(eit)在中對應的列數(shù).當分解的項數(shù)l達到設定的閾值n時,就停止對信號的分解,此時根據(jù)前l(fā)項來重構(gòu)信號.

當al全部取0時,TMGW就變成了Fourier分解.因此一般來說,凡是Fourier分解可以應用的領域,均可使用TMGW進行處理.根據(jù)文獻[12]可知,當把式(4)中余項丟棄,可以得到由TMGW重構(gòu)出的實值語音信號fTMGW,

依此類推,由逐步的余項正交性可以得出能量

由此可得,TMGW每一步分解的能量增益如圖2所示[13].

圖2 TMGW能量增益Fig.2 Energy gain of TMGW

由圖2可以看出,TMGW中每一步分解的能量增益非常大,即TMGW的收斂速度很快.因此,在對語音信號進行重構(gòu)時,只需要較少的分解項數(shù),壓縮率就可以顯著提高.

2 基于TMGW的稀疏表示的語音壓縮與降噪

2.1 語音壓縮與降噪分析

本工作在Matlab平臺上使用TMGW對TIMIT-Speech-Database語音數(shù)據(jù)庫中的語音信號進行處理.由上述分析可知,只需傳輸很少的分解系數(shù)及相應的基函數(shù)在有理正交矩陣對應的列數(shù)便可以實現(xiàn)在接收端重構(gòu)語音信號的目的,從而減少了傳輸信號所需的能量.

對于含有噪聲的語音信號

式中:fsignal代表原始信號;nnoise代表噪聲信號;fsignal的能量大于nnoise的能量.由于對大多數(shù)信號而言,能量主要集中在小的時頻面上,而隨機噪聲分散在整個時頻面上,因此只要選擇一個合適的分解閾值n,就可以由具有良好時頻分布的再生核Szeg¨o(eal(z))組成的基函數(shù)來逼近原始信號,從而實現(xiàn)降噪的目的.

為了確定合適的分解閾值,首先把經(jīng)過TMGW處理得到的重構(gòu)信號fTMGW看成是純凈的語音信號,丟棄的余項r看成是噪聲,接著定義重構(gòu)信號的信噪比SNR1,

最后通過設置SNR1的值便可以得出最佳分解閾值n[13].

本工作使用的語音降噪壓縮的TMGW流程圖如圖3所示.

圖3 TMGW流程圖Fig.3 Flowchart of TMGW

用于語音降噪的TMGW主要分為三步:第一步是把實值信號f投影為信號f+;第二步是在開單位圓內(nèi)進行等間隔采樣,獲取一系列a值,接著利用這些a值并結(jié)合式(1)得到離散化的有理正交基矩陣,這里采樣間隔設置為0.02;第三步在再生核Hilbert空間上,根據(jù)對信號f+進行展開分解,在每一步分解中根據(jù)MSP從{中選擇Bl(eit)并計算相應的系數(shù)cl,當SNR1達到預設值時就停止對信號的分解.此時,丟棄的余項中幾乎不包含原始的純凈信號,大部分由噪聲信號構(gòu)成,然后將重構(gòu)信號再投影回去,得到重構(gòu)的實值信號,至此便完成了對語音信號的降噪處理.

2.2 語音壓縮與去噪處理優(yōu)化

本工作采用TMGW對TIMIT-Speech-Database語音數(shù)據(jù)庫中的“She had your dark suit in greasy wash water all year”這句話按單詞長度進行分幀處理.將每一幀語音信號的分解閾值設置為50,可以得出不同幀信號的al分布,如圖4所示.

由圖4可以看出,al在單位圓上不是均勻分布的,在0.1

圖4 不同語音序列的al分布Fig.4 Distribution of sequence alof dif f erent speech

圖5 修正后序列a的分布Fig.5 Distribution of modified sequence a

3 算法仿真結(jié)果及分析

3.1 基于GMP和TMGW的語音壓縮處理對比

本工作采用GMP與TMGW這兩種算法分別對來自TIMIT-Speech-Database的語音數(shù)據(jù)進行處理,并比較處理效果.不失一般性,實驗中設置分解閾值n=50.圖6和7給出了處理“dark”單詞的仿真結(jié)果.

這里定義經(jīng)TMGW處理得到的重構(gòu)語音與原始語音的能量誤差同理,定義經(jīng)GMP處理得到的重構(gòu)語音與原始語音的能量誤差fGMP是經(jīng)過GMP處理得到的重構(gòu)語音.由圖6和7可以看出,當稀疏分解閾值n設置相同時,經(jīng)TMGW處理得到的fTMGW比經(jīng)GMP處理得到的fGMP更接近f,即TMGW比GMP更適合應用于語音信號的稀疏分解中,因此TMGW在重構(gòu)語音時只需要較少的分解項數(shù)就能實現(xiàn)語音壓縮的目的,從而減少了傳輸?shù)臄?shù)據(jù)量.

圖6 GMP處理結(jié)果Fig.6 Processing result of GMP

圖7 TMGW處理結(jié)果Fig.7 Processing result of TMGW

3.2 基于TMGW的含噪語音壓縮處理

下面對已處理的TIMIT-Speech-Database語音數(shù)據(jù)庫中的“dark”單詞添加信噪比SNR2=5 dB的高斯白噪聲,原始信號與被污染后的信號波形如圖8所示.然后采用TMGW對含噪信號進行處理,根據(jù)2.1節(jié)可知當停止分解的條件設置為SNR1>SNR2時,可以確定合適的分解閾值,實現(xiàn)對語音信號去噪的目的,去噪結(jié)果如圖9所示.

圖8 原始語音與被污染語音Fig.8 Original speech and the polluted speech

圖9 TMGW處理被污染語音Fig.9 Polluted speech handled by TMGW

通過仿真可以發(fā)現(xiàn),本工作提出的TMGW可以實現(xiàn)濾除語音噪聲的目的,而且需要傳輸?shù)臄?shù)據(jù)量與原始信號相比非常少,達到了去噪后再壓縮的目的.

3.3 基于TMGW的語音壓縮分幀處理

雖然TMGW可以很好地對語音進行壓縮,但是算法比較復雜,尤其是每一步分解都涉及內(nèi)積運算,程序耗時較長.而在內(nèi)積運算中,待處理的語音信號越長,內(nèi)積運算消耗的時間越長,而且時間的增長速度是斜率遠大于1的非線性增長.因此,采用TMGW對待處理語音信號分別進行分幀處理的優(yōu)化方法[15],這樣在保證壓縮語音的同時,實現(xiàn)了提高壓縮語音速度的目的.

以處理“She had your dark suit in greasy wash water all year”(長度為63 488)為例(此處向其中添加信噪比SNR2=20 dB的高頻噪聲),由于TMGW對高頻語音信號進行重構(gòu)時需要較多的分解項數(shù),即需要傳輸?shù)臄?shù)據(jù)量較大,而濾除語音信號的高頻部分并不影響聽力效果,因此首先使用低通濾波器將語音信號的高頻部分濾除,同時該高頻濾波器也可以濾除部分高頻噪聲.為了確定低通濾波器的通帶截止頻率wp,首先用快速傅里葉變換(fast Fourier transform,FFT)求取原始語音信號的單邊幅度頻譜(見圖10).

圖10 被污染語音的頻譜Fig.10 Spectrum of the polluted speech

本工作中的低通濾波器通帶截止頻率wp是根據(jù)能量原則選出的.首先,計算語音信號在整個頻帶內(nèi)的能量E,選取wp使得在[0,wp]頻帶內(nèi)的語音信號能量大于E的95%.通過計算,wp=4 630 Hz,同時設置阻帶截止頻率ws=4 830 Hz.Matlab仿真結(jié)果如圖11所示.

圖11 濾波后語音Fig.11 Speech after filtering

通過多種語音分幀方法處理的大量實驗結(jié)果可以發(fā)現(xiàn),當根據(jù)語音波形包絡對信號進行分幀時,可使重構(gòu)的語音與原始語音更加接近.本實驗根據(jù)包絡將該語音分解為14幀(見圖12),然后用TMGW對該語音進行處理.由圖12可以看出,該音頻包含很多靜音段,由于靜音段不包含任何信息,沒必要進行傳輸,而且根據(jù)仿真可知,語音信號的靜音段不適合用TMGW進行處理,這里仍然以“dark”單詞為例,給出仿真結(jié)果如圖13所示(不失一般性,設置分解閾值n=50).

圖12 語音分幀處理Fig.12 Frame processing of speech

圖13 帶靜音段單詞處理結(jié)果Fig.13 Result of the word with silent segment

由圖13可見,語音信號的靜音段不適合用TMGW進行處理,因此將靜音段去除,再使用TMGW對語音信號進行處理(見圖14),然后將每幀重構(gòu)出的語音信號及相應的靜音段組合起來便可以恢復出原始信號.

圖14 不帶靜音段單詞處理結(jié)果Fig.14 Result of the word without silent segment

表1給出了評價TMGW處理語音結(jié)果的客觀指標,如能量誤差err、每幀語音處理后的信噪比SNR、消耗時間、傳輸數(shù)據(jù)量、對數(shù)譜(log spectral distance,LSD)以及壓縮率(compression ratio,CR).利用這些指標對重構(gòu)語音質(zhì)量進行分析,其中

式中:F(ξ,λ)與FTMGW(ξ,λ)分別表示原始語音與重構(gòu)語音的短時傅里葉變換(short time Fourier transform,STFT);M表示每幀語音信號的長度;J表示語音的總幀數(shù).這里STFT使用的窗函數(shù)是幀長為25 ms,相鄰幀的重疊率為50%的漢寧窗.由式(11)可以看出,當LSD的值越小,F(ξ,λ)與FTMGW(ξ,λ)越接近,即重構(gòu)語音質(zhì)量越高.當原始語音與重構(gòu)語音完全一樣時,LSD=0[16].

在使用本工作提出的方法對語音數(shù)據(jù)進行分幀處理時,將每一幀停止分解的條件設置為CR>50%,其中CR≈2n,因此可以根據(jù)設置CR值來確定稀疏分解閾值n.這里CR設置較大的原因是為了使重構(gòu)能量誤差err較小,使重構(gòu)語音更接近原始語音.同時,為了對總的重構(gòu)語音數(shù)據(jù)質(zhì)量進行衡量,定義分段信噪比(segment signal to noise ratio,SSNR)及主觀語音質(zhì)量評估(perceptual evaluation of speech quality,PESQ)參數(shù)對語音數(shù)據(jù)進行評估.同時給出PESQ的評分等級(見表2).

式中:f(t)表示原始語音;fTMGW(t)表示重構(gòu)語音;M表示每幀語音信號的長度;J表示語音的總幀數(shù);Nm表示當前語音的幀數(shù)[17].

式中:D表示語音的平均對稱干擾度;DA表示語音的平均非對稱干擾度.

表1 使用改進方法的處理結(jié)果Table 1 Results of using the improved method

表2 PESQ的評分等級[16]Table 2 Rating level of PESQ[16]

由表1可知,每幀語音信號經(jīng)過稀疏分解后再重構(gòu)時,得到的重構(gòu)語音與原始語音的能量誤差err和LSD均較小,SNR較大,說明每幀的重構(gòu)語音均與原始語音接近.同時根據(jù)式(12)可得該重構(gòu)語音的分段信噪比為SSNR=24.38 dB,PESQ=2.999 7,屬于良好級別.因此,根據(jù)這5個數(shù)據(jù)可知重構(gòu)語音的質(zhì)量較好,接近原始語音.同時在圖15中給出了原始語音和經(jīng)分幀處理合并后得到的重構(gòu)語音的波形圖.

圖15 語音分幀處理結(jié)果Fig.15 Results of speech framing processing

由圖15可以看出,重構(gòu)出的語音信號與原始語音信號在波形上幾乎一樣,達到了語音重構(gòu)的目的.因此,從客觀數(shù)值評判和主觀語音波形觀察這兩個角度來看,本算法不僅可以實現(xiàn)對語音數(shù)據(jù)的壓縮,而且得到的重構(gòu)語音質(zhì)量良好,而如果使用TMGW直接對含噪語音信號進行處理,則需要花費非常長的時間.因此,基于TMGW的語音壓縮分幀處理方法在處理語音信號方面具有巨大的應用價值.

4 結(jié)束語

本工作針對語音信號的處理問題,利用新型函數(shù)變換方法——TMGW來實現(xiàn)對語音信號的壓縮和降噪處理.由Matlab仿真可得出,利用TMGW對信號進行表示時比GMP的稀疏度更高,因此更適合應用于語音壓縮和去噪領域.

本工作中使用的TMGW對語音的處理效果較好,但是算法比較復雜,尤其是每一步分解中的內(nèi)積運算會導致程序耗時較長.雖然基于TMGW的語音壓縮分幀處理可以減少程序運行時間,但是沒有從根本上解決內(nèi)積運算復雜的問題,因此今后將從這方面對TMGW進行深入研究.目前主要方法有兩種:一是利用FFT來簡化內(nèi)積語音運算,從而提高算法的運行速度[18-19];二是將FFT與樹形搜索策略、遺傳算法等方法結(jié)合使用,從而提高程序的運行速度[20-21].此外,對語音去噪建立更加完善的數(shù)學模型,使該模型能夠?qū)υ肼暰哂辛己玫淖赃m應性,提高重構(gòu)語音的信噪比[22].

猜你喜歡
字典閾值重構(gòu)
“雙減”能否重構(gòu)教育生態(tài)?
長城敘事的重構(gòu)
土石壩壩體失穩(wěn)破壞降水閾值的確定方法
基于小波變換閾值去噪算法的改進
采用紅細胞沉降率和C-反應蛋白作為假體周圍感染的閾值
高鹽肥胖心肌重構(gòu)防治有新策略
字典的由來
大頭熊的字典
用四維的理念重構(gòu)當代詩歌
正版字典
巨野县| 秦安县| 吴江市| 尤溪县| 桐城市| 黔东| 鲜城| 泾阳县| 微山县| 清水河县| 大英县| 平陆县| 修文县| 扎囊县| 西乌珠穆沁旗| 建宁县| 阳西县| 南丹县| 拉萨市| 昌宁县| 娄底市| 砀山县| 云霄县| 大同市| 鲜城| 松潘县| 偃师市| 朔州市| 攀枝花市| 宁南县| 宜黄县| 岳普湖县| 岢岚县| 武隆县| 绥滨县| 阳西县| 石河子市| 宜君县| 凉城县| 涞源县| 盘锦市|