国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于CASA和譜減法的清音分離改進算法*

2016-11-30 05:25趙蓉蓉李鴻燕
電子技術(shù)應(yīng)用 2016年1期
關(guān)鍵詞:清音時頻信噪比

趙蓉蓉,李鴻燕,曹 猛

(太原理工大學 信息工程學院,山西 晉中 030600)

基于CASA和譜減法的清音分離改進算法*

趙蓉蓉,李鴻燕,曹猛

(太原理工大學 信息工程學院,山西 晉中 030600)

現(xiàn)有的基于計算聽覺場景分析(CASA)的單通道語音盲信號分離算法大多集中在對濁音分離的研究,對清音分離的研究甚少。針對清音分離的問題,對傳統(tǒng)的基于CASA和譜減法的清音分離算法進行改進,改進算法通過估計語音 onset/offset判別出可能存在清音的時頻塊,并利用相鄰時頻單元能量具有連續(xù)性的原理,對相應(yīng)的時頻塊中每一時頻單元分別進行噪聲能量估計,使噪聲能量估計更加精準。仿真實驗結(jié)果表明,改進算法比傳統(tǒng)算法運算量更小,對清音分離的有效性更高。

計算聽覺場景分析;清音分離;譜減法;噪聲能量估計

0 引言

實際環(huán)境中,語音信號往往會受到噪聲或者其他語音信號的干擾。計算聽覺場景分析(Computational Auditory Scene Analysis,CASA)利用計算機模擬人耳對聽覺場景進行構(gòu)建和分析,用于語音分離[1]。經(jīng)過三十多年的研究,CASA已經(jīng)在語音信號處理領(lǐng)域取得較大進展[2-3]。

語音可分為清音和濁音兩類。濁音具有準周期性和共振峰結(jié)構(gòu),能量集中在低頻段;清音則沒有明顯的時頻域特征,能量較小,容易受到強噪聲的干擾。但語音的部分信息儲存在清音中,一旦清音受損,語言的可懂度會明顯降低。

2008年,Hu Guoning和 Wang Deliang首次嘗試對清音進行分離[4]。2009年,Hu Ke和 Wang Deliang對算法進行了改進,提出了一種結(jié)合譜減法的清音分離算法[5]。 2011年,在此基礎(chǔ)上加入 Tandem算法用于濁音分離[6],效果有所改善。但此算法在全部時頻區(qū)域?qū)η逡粜盘栠M行估計,而且在估計清音信號的殘余噪聲時認為一個清音塊中的每個時頻單元所包含的噪聲能量是相同的,即將兩個相鄰濁音塊的噪聲能量平均值作為該清音塊的噪聲能量估計值。但如果干擾噪聲是時變信號,清音塊中的每個清音單元的噪聲能量就會存在差異,上述估計算法就會出現(xiàn)偏差。因此,上述算法存在復雜度高、運算量大、噪聲估計不準確的問題。針對此問題,本文提出一種改進的基于CASA和譜減法的清音分離算法。首先對onset/offset線索進行檢測,得到可能存在清音的時頻塊,然后利用相鄰時頻單元能量具有連續(xù)性的原理,對相應(yīng)時頻塊中每個時頻單元分別進行噪聲能量估計,減小運算量,提高算法的有效性。

1 算法結(jié)構(gòu)

基于CASA和譜減法的語音分離算法的系統(tǒng)結(jié)構(gòu)如圖1所示。系統(tǒng)主要由聽覺外圍處理、濁音分離和清音分離三個部分組成,輸入為帶噪語音,輸出為分離目標語音。

圖1 基于CASA和譜減法的語音分離算法框圖

1.1聽覺外圍處理和濁音分離

聽覺外圍處理主要模擬人耳聽覺特性,將輸入的帶噪語音信號分解為一系列時頻單元[7],這些時頻單元作為輸入信號分別輸入到濁音分離和清音分離部分,進行下一步處理。

在濁音分離前先進行特征提取,提取的特性包括自相關(guān)圖、包絡(luò)自相關(guān)、主導基音、相鄰信道互相關(guān)以及相鄰信道包絡(luò)互相關(guān)等。濁音分離主要用Tandem算法[8]。該算法利用基音估計和二值模估計兩個互相影響的環(huán)節(jié),迭代運算進行濁音的分離,提高基音估計和濁音分離性能。

1.2改進清音分離

原清音分離算法首先通過移除周期信號去除濁音和周期性噪聲,再利用分離出來的濁音段估計清音段的背景殘余噪聲能量,最后用譜減法去除噪聲得到目標清音。

本文提出的改進清音分離算法,在原算法的基礎(chǔ)上進行了兩點改進。第一,在估計噪聲能量之前先通過估計 onset/offset判別出可能存在清音的時頻塊;第二,在進行噪聲能量估計時利用相鄰時頻單元能量具有連續(xù)性的原理,對清音塊中的每個時頻單元分別進行噪聲能量估計。

1.2.1onset/offset估計

語音信號的onset/offset(起止時刻)會引起聽覺毛細胞的神經(jīng)沖動,不同聲源一般不可能存在相同的起止時刻[9]。onset/offset表現(xiàn)為信號能量的突然變化,也就是能量的極值點。

首先對聽覺外圍處理的輸出進行包絡(luò)提取,對應(yīng)得到語音信號的能量,然后將其對時間求導得到能量的極值點,即語音信號的onset/offset。定義E(c,t)為語音信號能量,O(c,t)為語音onset/offset檢測值,則O(c,t)計算式為:

通過估計onset/offset得到語音信號出現(xiàn)波動的時頻區(qū)域,認為清音可能存在于這些區(qū)域,再在這些時頻區(qū)域進行噪聲能量的估計。

1.2.2噪聲能量估計

根據(jù)語音信號的短時平穩(wěn)性可知相鄰時頻單元的能量具有連續(xù)性。利用這一原理,改進算法在估計某個時頻單元的噪聲能量時,用與其相鄰的兩個時頻單元噪聲能量的平均值作為其估計值,從而對清音塊中每個時頻單元分別進行噪聲能量估計。

其中,EdB(c,m-1)和 EdB(c,m+1)分別表示與時頻單元u(c,m)相鄰的前一個和后一個時頻單元的能量,y(c,m-1)和y(c,m+1)分別為其二值模。

對于該清音塊的第一個時頻單元,噪聲能量估計的計算式為:

定義 NdB(c,m)為清音塊中的時頻單元 u(c,i)的噪聲能量估計值,其計算式為:

其中,EdB(c,i)表示時頻單元 u(c,i)的能量,y(c,i)為其二值模,m1是當前清音信號的第一幀的幀數(shù),l1是該清音段之前的濁音段的長度。

對于該清音塊的最后一個時頻單元,噪聲能量估計的計算式為:

其中,m2是當前清音信號的最后一幀的幀數(shù),l2是該清音段之后的濁音段的長度。

與原算法類似[6],如果清音單元位于語音的起始時刻或者結(jié)束時刻,則相應(yīng)地取相鄰的后一個濁音塊或前一個濁音塊中二值模為0的時頻單元進行估計。如果與清音塊相鄰的鄰濁音塊間不存在二值模為0的時頻單元,則往前或者往后推至下一相鄰濁音塊搜尋,直至至少出現(xiàn)一個滿足條件的濁音塊。如果信道中都不存在二值模為0的時頻單元,則取信道中前5幀混合信號的能量平均值作為噪聲能量估計值。

1.2.3譜減法去除噪聲

假設(shè) X(c,m)和 N(c,m)分別表示時頻單元 u(c,i)中的混合語音能量和估計噪聲能量,則該時頻單元的信噪比(dB)為:

其中,[x]+為取正函數(shù),即當x>0時,[x]+=x;否則,[x]+=0。這里 N(c,m)=10NdB(c,m)/10。若 ζ(c,m)>0 dB,則語音能量大于噪聲能量,時頻單元由語音主導,被標記為1,否則標記為0。

可以看出,除了要根據(jù)ζ(c,m)的取值正負來進行時頻單元混合能量的取舍外,時頻單元的信噪比式(5)與譜減法的表達公式一致。所以此處理方法相當于傳統(tǒng)的譜減法。對于譜減產(chǎn)生的“音樂噪聲”,用 Berouti提出的過減法(over-subtraction)來削弱[10],即減去噪聲能量估計值的2倍來平衡“音樂噪聲”,得到了較好的效果。

2 仿真實驗

為了驗證提出的改進算法的性能,對其進行仿真實驗。實驗采用10段純凈語音和10種不同類型的非語音噪聲混合,組成一個100段混合語音的測試庫。實驗采用的10段純凈語音信號選自TIMIT語音庫。該10段純凈語音包括5段女聲、5段男聲,語音信號的采樣頻率均為16 kHz。此外,實驗采用的10種不同類型的非語音噪聲是從俄亥俄州立大學的計算機信息和感知科學實驗室 Guoning Hu搜集的 100個非語音噪聲(100 Nonspeech sounds)中抽取得到。

為了直觀地評價系統(tǒng)的性能,用純凈女聲語音“Pizzerias are convenient for a quick lunch.”與警車鳴笛聲混合得到帶噪語音信號,將這個混合信號作為輸入進行仿真實驗。圖2表示純凈語音和混合信號的時域波形和對應(yīng)的語譜圖以及改進算法得到的最終分離結(jié)果。

圖2 原始純凈語音和混合信號的時頻域圖以及二值模標記結(jié)果和分離語音波形

從圖中可以看出分離的清音的二值模集中在高頻段,這也驗證了清音能量集中在高頻區(qū)域這一理論。分離得到的濁音二值模和清音二值模結(jié)合,使目標二值模更加完整,也使分離得到的語音失真更小,分離語音的時域波形與純凈語音的時域波形更加一致。

3 性能評估

為定量評價改進算法的有效性,信噪比(Signal to Noise Ratio,SNR)是常用的性能衡量標準之一。其定義公式為:

表1給出了不同噪聲類型的混合語音的輸入信噪比、原算法的輸出信噪比以及改進算法的輸出信噪比??梢钥闯觯疚奶岢龅母倪M算法分離語音的信噪比增益在原算法的基礎(chǔ)上有了進一步提高,改進算法得到的分離語音SNR平均比混合語音SNR高14.10 dB,比原算法分離語音SNR提高0.66 dB。盡管改進算法得到的信噪比增益較原算法提高較少,但由于主要提高部分在清音,所以語音的完整度和可懂度還是會有所提高。分析結(jié)果表明,改進算法能夠更有效地去除噪聲干擾,提高分離語音的信噪比。

表1 不同噪聲類型下的SNR

除了信噪比增益外,相似系數(shù)e也是語音質(zhì)量性能評價的有效標準之一。相似系數(shù)用來度量分離語音信號和原始的純凈語音信號的近似程度,定義式為:

表2是不同噪聲類型的混合語音在原算法和改進算法下得出的相似系數(shù)e。由表2數(shù)據(jù)可知,改進算法得到的相似系數(shù)e比原算法得到的相似系數(shù)更接近于1,說明了改進算法更有效準確的清音分離。但改進算法的分離語音與原始純凈語音仍然存在差異,這是噪聲估計不準確導致清音損失所致。通過綜合分析表明,改進算法分離語音更接近于原始純凈語音,語音分離的效果更加顯著。

表2 不同噪聲類型下的相似系數(shù)

4 結(jié)論

本文提出的基于聽覺場景分析和譜減法的清音分離改進算法,在清音分離前先通過 onset/offset估計找出可能存在清音的時頻區(qū)域,再在這些區(qū)域進行清音分離,而不用在所有時頻區(qū)域進行清音分離,從而大大減少了算法的運算量,提高了算法的效率。在進行清音噪聲能量估計時利用相鄰時頻單元能量具有連續(xù)性的原理,對清音塊中的每個時頻單元分別進行噪聲能量估計。這一改進充分考慮了噪聲的不穩(wěn)定性和時變性,使噪聲估計更加精確,從而提高了清音分離的準確性。仿真實驗結(jié)果和分析表明,相比于原算法,改進算法更好地實現(xiàn)了語音的分離,得到的信噪比更高,分離語音與目標語音的相似度更高。

[1]BROWN G J,COOKE M.Computational auditory scene analysis[J].Computer Speech&Language,1994,8(4):297-336.

[2]HU K,WANG D L.An unsupervised approach to cochannel speech separation[J].IEEE Transactions on Audio,Speech and Language Processing,2013,21(1):120-129.

[3]JIANG Y,WANG D L,LIU R S,et al.Binaural classification for reverberant speech segregation using deep neural networks[J].IEEE Transactions on Audio,Speech and Language Processing,2014,22(12):2112-2121.

[4]HU G N,WANG D L.Segregation of unvoiced speech from nonspeech interference[J].Journal of the Acoustical Society of America,2008,124(2):1306-1319.

[5]HU K,WANG D L.Incorporating spectral subtraction and noise type for unvoiced speech segregation[C].Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing,2009:4425-4428.

[6]HU K,WANG D L.Unvoiced speech segregation from nonspeech interference via CASA and spectral subtraction[J]. IEEE Transactions on Audio,Speech and Language Processing,2011,19(6):1600-1609.

[7]屈俊玲,李鴻燕.基于計算聽覺場景分析的混合語音信號分離算法研究[J].計算機應(yīng)用研究,2014,31(12):3822-3824.

[8]HU G N,WANG D L.A tandem algorithm for pitch estimation and voiced speech segregation[J].IEEE Transactions on Audio,Speech and Language Processing,2010,18(8):2067-2079.

[9]HU K,WANG D L.Auditory segmentation based on onset and offset analysis[J].IEEE Transactions on Audio,Speech and Language Processing,2007,15(2):396-405.

[10]BEROUTI M,SCHWARTZ R,MAKHOUL J.Enhancement of speech corrupted by acoustic noise[C].Proceedings of IEEE International Conference on Acoustics,Speech,and Signal Processing.Washington:IEEE,1979:208-211.

An improved unvoiced speech segregation based on CASA and spectral subtraction

Zhao Rongrong,Li Hongyan,Cao Meng
(College of Information Engineering,Taiyuan University of Technology,Jinzhong 030600,China)

The existing monaural speech separation based on computational auditory scene analysis(CASA)was largely focused on voiced segregation,little attention has been paid on unvoiced speech segregation.The traditional unvoiced separation algorithm via CASA and spectral subtraction was improved to solve this problem in this paper.In the improved approach,the rough T-F intervals were measured by estimating onset/offset.Then the noise energy of each T-F unit in the corresponding T-F intervals was estimated respectively based on the principle that the energy of two neighboring T-F units has continuity,which made the noise energy estimation more accurate.The experimental results show that the improved approach has smaller computation and better performance of unvoiced speech segregation.

computational auditory scene analysis;spectral subtraction;unvoiced speech segregation;noise energy estimation

TN912.3

A

10.16157/j.issn.0258-7998.2016.01.018

山西省自然科學基金(2013011016-1);教育部博士點基金(2011081047)

2015-09-07)

趙蓉蓉(1990-),女,碩士研究生,主要研究方向:計算聽覺場景分析。

李鴻燕(1973-),女,通信作者,博士后,副教授,主要研究方向:盲信號處理,模式識別,E-mail:tylihy@163.com。

中文引用格式:趙蓉蓉,李鴻燕,曹猛.基于CASA和譜減法的清音分離改進算法[J].電子技術(shù)應(yīng)用,2016,42(1):68-71.

英文引用格式:Zhao Rongrong,Li Hongyan,Cao Meng.An improved unvoiced speech segregation based on CASA and spectral subtraction[J].Application of Electronic Technique,2016,42(1):68-71.

猜你喜歡
清音時頻信噪比
《山水清音》
《園林清音》
兩種64排GE CT冠脈成像信噪比與劑量對比分析研究
基于深度學習的無人機數(shù)據(jù)鏈信噪比估計算法
基于稀疏時頻分解的空中目標微動特征分析
低信噪比下基于Hough變換的前視陣列SAR稀疏三維成像
保持信噪比的相位分解反褶積方法研究
基于時頻分析的逆合成孔徑雷達成像技術(shù)
雙線性時頻分布交叉項提取及損傷識別應(yīng)用
滁州市| 息烽县| 乐亭县| 尉犁县| 会东县| 大同县| 都安| 赤壁市| 长阳| 乐安县| 临泽县| 海兴县| 宿迁市| 广州市| 德昌县| 清河县| 隆化县| 措美县| 武穴市| 商城县| 高要市| 涡阳县| 库尔勒市| 民乐县| 增城市| 南京市| 大竹县| 鞍山市| 古蔺县| 康平县| 江油市| 班玛县| 铅山县| 舟曲县| 交口县| 萍乡市| 邛崃市| 房山区| 沛县| 乐亭县| 连州市|