国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)壓縮感知的說話人識別抗噪算法

2016-07-19 02:13茅正沖
計算機(jī)應(yīng)用與軟件 2016年6期
關(guān)鍵詞:濾波器重構(gòu)語音

茅正沖 龔 熙

(江南大學(xué)輕工過程先進(jìn)控制教育部重點(diǎn)實驗室 江蘇 無錫 214122)

?

基于改進(jìn)壓縮感知的說話人識別抗噪算法

茅正沖龔熙

(江南大學(xué)輕工過程先進(jìn)控制教育部重點(diǎn)實驗室江蘇 無錫 214122)

摘要壓縮感知CS(compressive sensing)是一種基于信號稀疏性,有效提取信號中有用信息的方法。根據(jù)語音信號和干擾噪聲在離散余弦變換域DCT(discrete cosine transform)稀疏性的不同,提出一種基于改進(jìn)壓縮感知的說話人識別抗噪算法。在用正交匹配追蹤OMP(orthogonal matching pursuit)算法重構(gòu)語音信號時設(shè)定相關(guān)度閾值和語音恢復(fù)閾值,不僅有效恢復(fù)了語音信號,而且實現(xiàn)了語音增強(qiáng)。然后通過Gammatone濾波器組,對恢復(fù)語音信號進(jìn)行處理,提取特征參數(shù)GFCC。仿真實驗在高斯混合模型識別系統(tǒng)中進(jìn)行,實驗結(jié)果表明,將這種方法應(yīng)用于說話人識別抗噪系統(tǒng),系統(tǒng)的識別率及魯棒性都有明顯提高。

關(guān)鍵詞壓縮感知正交匹配追蹤GFCC抗噪算法識別率

0引言

壓縮感知(CS)作為近些年新興的信號處理技術(shù),是一種在采樣過程中利用較少數(shù)據(jù)就能有效提取信號信息,然后通過重構(gòu)算法從采樣信息中恢復(fù)原信號的方法[1]。語音增強(qiáng)是指對帶噪語音信號進(jìn)行處理,降低噪聲的干擾,恢復(fù)出較純凈的語音。所以,壓縮感知與語音增強(qiáng)的本質(zhì)是類似的。CS理論由于其邊采樣邊壓縮的特性使其具有了巨大的吸引力和應(yīng)用前景,研究領(lǐng)域已經(jīng)涉及到了雷達(dá)、無線傳感、醫(yī)學(xué)等領(lǐng)域。文獻(xiàn)[2]將壓縮感知理論運(yùn)用到了隨機(jī)調(diào)制雷達(dá)信號處理中,為隨機(jī)調(diào)制雷達(dá)的低旁瓣信號處理提供了全新思路。文獻(xiàn)[3]將合成聚焦于CS理論結(jié)合,解決了B超成像過程中數(shù)據(jù)量大的問題。

信號的稀疏性是壓縮感知的前提和基礎(chǔ),但是正如語音和圖像等信號,它們本身并不是稀疏的,但可以通過某種變換在其變換域中得到一個稀疏的信號以此來適用壓縮感知。對于語音信號通??梢赞D(zhuǎn)換到DCT域、小波域等變換域來獲得稀疏信號。文獻(xiàn)[4]對語音信號在DCT域能顯示出的近似稀疏性提出語音信號DCT域壓縮感知。文獻(xiàn)[5]利用語音信號自身構(gòu)造了一種自相關(guān)觀測矩陣,在同等重構(gòu)性能下壓縮率比其他隨機(jī)矩陣更低。文獻(xiàn)[6]在壓縮感知的重構(gòu)階段設(shè)定相似度閾值來進(jìn)行語音增強(qiáng),該算法對非人聲噪聲有一定抗干擾作用。文獻(xiàn)[7]提出了離散余弦小波包變換的語音信號壓縮感知,構(gòu)造出了更加稀疏的變換基,提高了重構(gòu)的性能。

本文根據(jù)語音信號和干擾噪聲在DCT域稀疏性的不同,在通過OMP算法重構(gòu)帶噪語音信號中的有用信息時,設(shè)置相關(guān)度閾值來限制迭代的次數(shù),讓盡可能少的噪聲分量恢復(fù)出來。而當(dāng)背景噪聲類型于說話人信號時,僅設(shè)置相關(guān)度閾值不能有效恢復(fù)純凈語音信號,因為這時背景噪聲和純語音信號擁有相似的稀疏性。所以本文提出設(shè)置第二個門限閾值:語音恢復(fù)迭代閾值,以此來抑制人聲背景噪聲的回復(fù)。在重構(gòu)過程中,如果低于此閾值,則迭代停止。這種雙門限閾值的正交匹配追蹤算法能夠很好地應(yīng)對不同的噪聲環(huán)境場合,有效地實現(xiàn)語音增強(qiáng)。

1改進(jìn)壓縮感知說話人識別抗噪算法

1.1壓縮感知基本原理

1.2DCT域稀疏性

對信號作壓縮感知處理時,信號自身或者在變換域的稀疏性是對其進(jìn)一步分析的重要前提。由于語音信號具有類余弦信號的周期特性,因此可以在DCT域來對其進(jìn)行表示:

(1)

此時,Ψ為離散余弦基矩陣。經(jīng)過DCT變換后的稀疏系數(shù)為Θ=(θ1,θ2,…,θN)T,θi=X(i-1),i=1,2,…,N,本文對一段語音“發(fā)布”截取一幀(512點(diǎn))作DCT變換,并對DCT系數(shù)的絕對值進(jìn)行降序排列,結(jié)果如圖1所示??梢园l(fā)現(xiàn),在200~512之間的DCT系數(shù)都近似為0,說明信號在DCT域是稀疏的,可以采用壓縮感知方法處理。

圖1 DCT域系數(shù)分布及其降序排列

另外,本文對語音信號“發(fā)布”、高斯噪聲以及babble噪聲各取一幀作稀疏性對比,結(jié)果如圖2所示。通過DCT系數(shù)絕對值的直方圖發(fā)現(xiàn),語音信號小幅度系數(shù)占了絕大部分,具有良好的稀疏性;高斯DCT系數(shù)比較均勻,舍棄小系數(shù)后作重構(gòu)恢復(fù),失真會很大,因而高斯噪聲不具有稀疏性;babble噪聲為一段嘈雜的人聲背景噪音,觀察圖2(f)發(fā)現(xiàn),babble噪聲也具有較好的稀疏性。

圖2 語音信號和噪聲在DCT域稀疏性對比

根據(jù)CS理論,對帶噪語音信號進(jìn)行低維投影,當(dāng)觀測矩陣維數(shù)足夠包含語音信息時,投影后將丟失部分不具有稀疏性的噪聲信息,重建時無法恢復(fù)。因此利用稀疏性不同的特性可以對語音信號進(jìn)行去噪。然而,當(dāng)采集的語音信號被類似于babble這樣的人聲噪聲干擾時,僅根據(jù)稀疏性不同不能很好去噪,因為背景噪聲同樣具有較好的稀疏性。

1.3觀測矩陣

觀測矩陣Φ的選取對信號重構(gòu)的性能有著很大影響,合適的觀測矩陣應(yīng)該在盡可能低的觀測維數(shù)下,由一種重構(gòu)算法,恢復(fù)出盡可能純凈的語音信息,同時又能去掉了大量噪聲。即要在觀測值M盡可能小的情況下達(dá)到對原始信號x較好的去噪效果,以此來提高最后的識別率。

觀測矩陣Φ分為隨機(jī)觀測矩陣和確定性觀測矩陣。隨機(jī)觀測矩陣與大多數(shù)變換基矩陣不相關(guān),很大概率滿足RIP條件,比較容易構(gòu)造。但在實際應(yīng)用中,存在不確定性。確定性矩陣雖然不存在上述問題,但構(gòu)造比較困難。目前在壓縮感知中普遍采用隨機(jī)觀測矩陣對信號進(jìn)行低維投影,常用的有Gauss分布隨機(jī)矩陣,Bernoulli分布隨機(jī)矩陣,F(xiàn)ourier矩陣,Toeplitz矩陣和Hadamard矩陣,文獻(xiàn)[9]討論了這些隨機(jī)矩陣的性能,如圖3所示,從圖中可以看Hadamard矩陣性能最優(yōu)。

圖3 五種隨機(jī)矩陣性能比較

1.4改進(jìn)OMP重構(gòu)算法

(2)

式中ζ為重構(gòu)信號與帶噪語音信號x之間的殘差。當(dāng)重構(gòu)信號越接近x中的純語音信號時重構(gòu)性能越好,而不是讓重構(gòu)信號逼近x。

OMP算法依據(jù)殘余信號r與原子庫D=ΦΨ中原子內(nèi)積由大到小恢復(fù)信號的,其實也是根據(jù)信號分量的重要性程度來決定迭代恢復(fù)的次序??梢园褞г胝Z音信號分為三個部分:純凈部分、帶噪部分和噪聲部分,那么,語音信號的重構(gòu)就可以劃分為以下三個階段:(1) 純語音信息的迭代恢復(fù);(2) 帶噪語音信息的迭代恢復(fù);(3) 噪聲信息的迭代恢復(fù)。要實現(xiàn)語音增強(qiáng),需要控制迭代的次數(shù)。

圖4 改進(jìn)OMP算法流程圖

2Gammatone特征提取

Gammatone濾波器能很好地模擬人耳基底膜的分頻特性,本文通過該濾波器組提取特征參數(shù)GFCC。先對帶噪信號作預(yù)處理(預(yù)加重、分幀和加窗)和壓縮重構(gòu),然后將恢復(fù)的信號通過一組64通道的Gammatone濾波器組,其中心頻率在50~8000Hz之間[11],時域表達(dá)形式如式(3):

g(f,t)=kta-1e-2πbtcos(2πft+φ)t≥0

(3)

式中,k為濾波器增益,a為濾波器階數(shù),f為中心頻率,φ為相位,b為衰減因子,該因子決定相應(yīng)的濾波器的帶寬,它與中心頻率f的關(guān)系為:

b=24.7(4.37f/1000+1)

(4)

由于Gammatone濾波器的時域表達(dá)式為沖擊響應(yīng)函數(shù),所以將其進(jìn)行傅里葉變換就可以得到其頻率響應(yīng)特性。不同中心頻率的Gammatone濾波器幅頻響應(yīng)曲線如圖5所示。

圖5 一組不同中心頻率下Gammatone濾波器的幅頻響應(yīng)曲線

當(dāng)語音信號通過該濾波器時,輸出信號Gm(i)的響應(yīng)表達(dá)式為:

(5)

式中,N=64是濾波器的通道數(shù),M是采樣之后的幀數(shù)。

這樣Gm(i)就構(gòu)成了一個矩陣,它的每一列稱為Gammatone特征系(GF)[12],一個GF特征矢量由64個頻率成分組成。由于相鄰的濾波器通道有重疊的部分,GF特征矢量相互之間存在相關(guān)性。為了減小GF特征矢量的維度及相關(guān)性,這里對每一個GF特征矢量進(jìn)行離散余弦變換(DCT),具體表示為:

(6)

將系數(shù)Ci(j)稱為GFCC系數(shù)。圖6為語音段“發(fā)布”的GFCC特征系數(shù),其主要特征體現(xiàn)在低維(前30維)上。在實際的說話人識別系統(tǒng)中,由于計算量大,并非取全部維數(shù)的GFCC系數(shù)。文獻(xiàn)[13]證明,主成分分析PCA(principalcomponentsanalysis)技術(shù)可以把64維GFCC系數(shù),按累積貢獻(xiàn)率不小于85%的準(zhǔn)則,降到26維。降維后的GFCC特征參數(shù)表示為:

(7)

圖6 語音段“發(fā)布”的GFCC特征系數(shù)

3實驗結(jié)果與分析

實驗所用的語音庫是用麥克風(fēng)錄制的,語音采用的是單聲道,8KHz的采樣頻率,16bit量化。該語音庫由20人錄制,每個人錄制10段語音,時長分2~5s不等,將每個人的4段語音作為訓(xùn)練樣本集,用高斯混合模型對其訓(xùn)練,另外6段語音作為測試樣本集?;烊朐肼曔x自NOISEX-92標(biāo)準(zhǔn)噪聲庫中的white噪聲和babble噪聲,信噪比分別為-10、-5、0、5和10dB。采用的識別方法是高斯混合模型(GMM),GMM的混合數(shù)是16。仿真結(jié)果如圖7所示。

圖7 仿真實驗結(jié)果

為了獲得經(jīng)本文算法處理后語音的主觀聽覺感受,采用MOS評分法,接受10位聽眾的聽覺感受測試,聽眾根據(jù)處理后語音的清晰度、可懂度和噪聲情況綜合給出評分,然后記錄不同算法處理后的MOS均分,如表1所示。

表1 主觀MOS評分比較

從圖7和表1中可以看出,本文算法的識別率和MOS評分要高于文獻(xiàn)[6]的壓縮感知方法以及一般的語音去噪增強(qiáng)算法,尤其在人聲背景噪聲環(huán)境下,本文算法抗噪能力并未下降,凸顯出本文算法的優(yōu)越性。

4結(jié)語

語音信號作為一種典型的非平穩(wěn)性信號,容易受到噪聲的干擾。本文給出了一種基于改進(jìn)壓縮感知的說話人識別抗噪算法,先對帶噪語音信號作預(yù)處理,然后壓縮重構(gòu),將重構(gòu)恢復(fù)的語音信號通過Gammatone濾波器組提取特征參數(shù)GFCC,最后在GMM模型中識別。實驗結(jié)果表明,本文算法的識別率、魯棒性及主觀感受都優(yōu)于傳統(tǒng)的語音增強(qiáng)識別算法。GFCC特征參數(shù)能很好地模擬人耳基底膜特性,降低加性噪聲的影響;改進(jìn)的壓縮感知能降低人聲背景噪聲的干擾,增加了該算法在更多背景噪聲環(huán)境下的適應(yīng)性。然而,OMP重構(gòu)時每次迭代都要用最小二乘法估計殘差,隨著迭代次數(shù)的增加,原子集合矩陣不斷擴(kuò)大,矩陣求逆的運(yùn)算量和重建所需的時間也相應(yīng)增加。在短時間內(nèi)進(jìn)行說話人識別時,識別算法還需進(jìn)一步改進(jìn)。因此,如何優(yōu)化本文算法,減少計算量,實現(xiàn)短時識別將是下一步研究的重點(diǎn)。

參考文獻(xiàn)

[1]MarcoFDuarte,YoninaCEldar.StructuredCompressedSensing:FromTheorytoApplications[J].Transactiononsignalprocessing,2011, 59(9):4053-4085.

[2] 劉振.基于壓縮感知的隨機(jī)調(diào)制雷達(dá)信號處理方法與應(yīng)用研究[D].湖南:國防科技大學(xué)研究生院,2013.

[3] 杜衍震,孫豐榮,李凱一,等.一種合成聚焦的便攜式B型超聲成像方法[J].計算機(jī)工程,2014,40(1):246-249.

[4]MorenoRG,MauricioMG.DCT-Compressivesamplingappliedtospeechsignals[C]//21stInternationalConferenceonElectricalCommunicationsandComputers.SanAndresCholula,Puebla,Mexico,2011:55-59.

[5] 季云云,楊震.基于自相關(guān)觀測的語音信號壓縮感知[J].信號處理,2011,27(2):207-214.

[6] 周小星,王安娜,孫紅英,等.基于壓縮感知過程的語音增強(qiáng)[J].清華大學(xué)學(xué)報,2011,51(9):1234-1238.

[7] 張長青,陳硯圃.離散余弦小波包變換及語音信號壓縮感知[J].聲學(xué)技術(shù),2014,33(1):35-40.

[8]ThongTDo,LuGan,NamHNguyen,etal.FastandEfficientCompressiveSensingUsingStructurallyRandomMatrices[J].IEEETransactionsonSignalProcessing,2012,60(1):139-154.

[9] 李小波.基于壓縮感知的測量矩陣研究[D].北京:北京交通大學(xué),2010.

[10]LinghuaChang,JwoyuhWu.AnImprovedRIP-BasedPerformanceGuaranteeforSparseSignalRecoveryviaOrthogonalMatchingPursuit[J].IEEETransactionsonInformationTheory,2014,60(9):5702-5715.

[11] 王玥,錢志鴻,王雪,等.基于伽馬通濾波器組的聽覺特征提取算法研究[J].電子學(xué)報,2010,38(3):525-528.

[12]XavierValero,FrancescAlias.GammatoneCepstralCoefficients:BiologicallyinspiredFeaturesforNon-SpeechAudioClassification[J].IEEETransactionsonMultimedia,2012,14(6):1684-1689.

[13]HarunUguz.Atwo-stagefeatureselectionmethodfortextcategorizationbyusinginformationgain,principalcomponentanalysisandgeneticalgorithm[J].Knowledge-BasedSystems,2011,24(7):1024-1032.

[14] 茅正沖,王正創(chuàng),龔熙.一種低信噪比下的說話人識別算法研究[J].計算機(jī)應(yīng)用與軟件,2014,31(12):218-220,252.

A SPEAKER RECOGNITION ANTI-NOISE ALGORITHM BASEDONIMPROVEDCOMPRESSIVESENSING

Mao ZhengchongGong Xi

(Key Laboratory of Advanced Process Control for Light Industry,Ministry of Education,Jiangnan University,Wuxi 214122,Jiangsu,China)

AbstractCompressive sensing (CS) is a method based on signal sparseness, and can efficiently extract useful information from signals. In this paper we present a speaker recognition anti-noise algorithm, which is based on improved compressive sensing, according to the different sparseness between speech signal and interfering noises in discrete cosine transform (DCT) area. We set correlation threshold and speech recovery threshold when reconstructing speech signals with orthogonal matching pursuit algorithm, this can not only restore speech signal effectively, but also realises the speech enhancement. Then through Gammatone filter bank we process the restored speech signal and extract feature parameter GFCC. Simulation experiment is conducted in Gaussian mixture model recognition system, experimental result shows that this algorithm obviously improves the recognition rate and robustness when being applied to speaker recognition and anti-noise system.

KeywordsCompressive sensingOMPGFCCAnti-noise algorithmRecognition rate

收稿日期:2015-01-05。國家自然科學(xué)基金項目(60973095);江蘇省自然科學(xué)基金項目(BK20131107)。茅正沖,副教授,主研領(lǐng)域:機(jī)器人視聽覺識別。龔熙,碩士生。

中圖分類號TP391.4

文獻(xiàn)標(biāo)識碼A

DOI:10.3969/j.issn.1000-386x.2016.06.038

猜你喜歡
濾波器重構(gòu)語音
視頻壓縮感知采樣率自適應(yīng)的幀間片匹配重構(gòu)
長城敘事的重構(gòu)
魔力語音
基于MATLAB的語音信號處理
從濾波器理解卷積
基于MQ3與MP3的價廉物美的酒駕語音提醒器
北方大陸 重構(gòu)未來
對方正在輸入……
開關(guān)電源EMI濾波器的應(yīng)用方法探討
北京的重構(gòu)與再造