朱佰澤 卜慶凱
摘 要: 語音作為一種搭載著特定的信息模擬信號(hào),已成為人們社會(huì)生活中獲取信息和傳播信息的重要的手段。語音信號(hào)處理的目的就是在復(fù)雜的語音環(huán)境中提取有效的語音信息。環(huán)境干擾在語音傳播過程中對(duì)信號(hào)的影響不容小覷,因此語音信號(hào)處理的抗噪聲能力已經(jīng)成為一個(gè)重要的研究方向。Matlab的應(yīng)用有著廣泛的領(lǐng)域,在信息處理領(lǐng)域其強(qiáng)大的數(shù)據(jù)處理能力可以將非平穩(wěn)時(shí)變的語音數(shù)據(jù)轉(zhuǎn)換為離散的數(shù)據(jù),然后可對(duì)離散數(shù)據(jù)進(jìn)行分析或者做進(jìn)一步運(yùn)算處理。它的信號(hào)處理工具箱可以迅速、有效地實(shí)現(xiàn)語音信號(hào)的處理和分析,Matlab是適用于信號(hào)處理領(lǐng)域的強(qiáng)大的處理工具。在此運(yùn)用Matlab對(duì)一段包含有環(huán)境噪聲的語音進(jìn)行傅里葉變換、時(shí)域和頻域分析、提取部分語音信號(hào)及分析信號(hào)的處理。
關(guān)鍵詞: Matlab; 語音信號(hào); 傅里葉變換; 信號(hào)處理
中圖分類號(hào): TN911.74?34; TP311.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2016)04?0009?03
Abstract: Speech signal processing is to extract the effective speech information from the complex speech environment. The influence of environmental interference in speech communication process on the speech signal should not be underestimated, so the anti?noise ability of speech signal processing has become an important research direction. Matlab has a powerful data processing capacity in the information processing field and can convert the nonstationary time?varying audio data into discrete data, and then performs discrete data analysis or further processing. Its signal processing toolbox can quickly and effectively achieve the processing and analysis of speech signal. It is a powerful processing tool in the signal processing field. For a piece of speech containing environment noise, Matlab was used to do Fourier transform, time domain and frequency domain analysis, extraction of partial speech signal and analysis of signal characteristic.
Keywords: Matlab; voice signal; Fourier transform; signal processing
0 引 言
語言作為傳播信息的工具,其最主要的表現(xiàn)形式是語音,語音為交際和思維提供了比文字更為便捷的方式。人類的語言起源于語音,由語音開始逐漸演變?yōu)槲淖?,而不是先有文字后有語音。語音是由人類聲帶發(fā)出具有社會(huì)功能的特殊聲音,語音是語言符號(hào)的載體,對(duì)信息的傳遞起著重要的推動(dòng)作用。如果沒有了語言,人們也就失去了交換思想和實(shí)施社會(huì)活動(dòng)獨(dú)特的功能,幾千年的人類文明史將難以創(chuàng)造和繼承。伴隨著科技的發(fā)展,人們對(duì)信息的傳播速度及質(zhì)量要求越來越高,通過現(xiàn)代語音信號(hào)處理技術(shù)的研究和探索,可以讓人們語音信息的產(chǎn)生、傳輸、存儲(chǔ)、檢索更有效率。信號(hào)處理的發(fā)展讓計(jì)算機(jī)能聽到聲音,看到圖片,還能說話,其中語音在未來人機(jī)交互中更具優(yōu)勢(shì),也是最具發(fā)展?jié)摿Φ姆较騕1]。本文對(duì)數(shù)字信號(hào)處理中所用的原理進(jìn)行了詳細(xì)的介紹,運(yùn)用巴特沃斯型濾波器和切比雪夫?yàn)V波器實(shí)現(xiàn)了語音信號(hào)的提取和去噪濾波。運(yùn)用Matlab 7.0軟件編寫語音信號(hào)處理的程序?qū)崿F(xiàn)語音信號(hào)處理,包括信號(hào)的采集、傅里葉變換、倒譜、濾波等。
1 語音信號(hào)的處理設(shè)計(jì)
Matlab可以方便地實(shí)現(xiàn)模擬信號(hào)轉(zhuǎn)換為數(shù)字信號(hào),快捷地實(shí)現(xiàn)傅里葉、倒譜等計(jì)算,使設(shè)計(jì)處理語音的速度更為高效,提取語音的效果更明顯易懂。語音信號(hào)處理分為三個(gè)步驟來進(jìn)行:第一步是采集語音信號(hào),對(duì)其進(jìn)行傅里葉變換、倒譜;第二步是將采集到的語音通過設(shè)計(jì)好的巴特沃斯型濾波器和切比雪夫?yàn)V波器濾波。第三步根據(jù)經(jīng)過濾波處理后提取到語音信號(hào)的質(zhì)量對(duì)濾波器提取信息的有效性進(jìn)行分析。
1.1 語音信號(hào)的提取
首先需要采集到音頻信號(hào)“啊歐,你有新的消息請(qǐng)注意查收”,同時(shí)語音中也包含些許背景噪聲,這對(duì)信息的提取和傳遞性產(chǎn)生了一定的影響,獲取信號(hào)的采樣頻率為22 500 Hz。
采集數(shù)據(jù)并畫出波形圖,整段音頻的時(shí)域波形高低起伏與錄入的聲音信號(hào)基本一致,由該語音信號(hào)波形圖可以大致分析出振幅主要分布在0~1之間,聲調(diào)有高有低,含有高頻和低頻成分,時(shí)長(zhǎng)3 s,如圖1所示。
1.2 語音信號(hào)的倒譜
倒譜分析[2],其可以采集到頻譜包絡(luò)信息用來表現(xiàn)音韻的特征參數(shù),也可以采集到細(xì)微的結(jié)構(gòu)信息。聲道特性和聲門特征可以通過頻譜分析得到有效的參數(shù),這些參數(shù)的獲取可以通過語音來精確地分辨一個(gè)人。對(duì)語音信號(hào)進(jìn)行頻譜分析,可以提取到聲道和聲門參數(shù),以便通過聲音來區(qū)分不同的人。倒譜分析在各類信號(hào)分析中經(jīng)常使用,要獲取倒譜需要先取得信號(hào)的頻譜,再對(duì)頻譜的對(duì)數(shù)進(jìn)行快速傅里葉變換,然后可得信號(hào)倒譜。
頻譜圖展示了采集的語音信號(hào)在不同頻率上所攜帶的能量的狀況,而倒譜是檢測(cè)采樣信號(hào)頻譜周期性的工具。倒譜圖中存在多個(gè)峰值表示主要頻率成分,通過對(duì)語音倒譜的峰值提取得到的共振峰對(duì)人的聲音具有較高的辨識(shí)度。
1.3 語音信號(hào)的濾波
如圖2所示,使用Matlab采集到的語音信號(hào)中含有嘈雜的噪聲,這些背景噪聲頻率一般較高。為了進(jìn)一步提取到有效的語音信息,使用各種濾波器對(duì)采集的語音進(jìn)行濾波,分析利用各個(gè)濾波器提取到語音信息的質(zhì)量。
1.3.1 語音信號(hào)的低通濾波
切比雪夫?I型低通濾波器中,設(shè)計(jì)截止頻率為1 000 Hz,其性能指標(biāo)是: [ωp=0.075π,ωs=0.125π,][Rp=0.25 dB,As=50 dB。]然后采集到信號(hào)的圖,如圖3所示。
1.3.2 語音信號(hào)的高通濾波
為了使采集到的語音信號(hào)通過切比雪夫?Ⅱ型數(shù)字高通濾波器,設(shè)計(jì)其性能指標(biāo)為:[ωp=0.6π,][ωs=0.975π,Rp=0.25 dB,As=50 dB。]然后采集到的信號(hào)如圖4所示。
1.3.3 語音信號(hào)的帶通濾波
讓采集到的語音信號(hào)通過巴特沃斯帶通濾波器,帶通濾波性能指標(biāo)為:N=5;ωc=[0.1,0.3];信號(hào)通過此濾波器后仿真圖如圖5所示。
1.3.4 語音信號(hào)的帶阻濾波
對(duì)采集到的語音信號(hào)運(yùn)用巴特沃斯數(shù)字帶阻濾波器[2]進(jìn)行過濾提取,結(jié)果如圖6所示。
在頻譜圖中此次采集到的語音能量分布比較分散,其中語音也包括背景噪聲。由各種數(shù)字濾波器提取得到語音信號(hào)對(duì)比可知,通過低通濾波后,提取到的語音頻率更加集中分布在500~1 000 Hz范圍內(nèi)。由于低頻分量被低通濾波器保留,高頻分量被衰減,語音聽起來有些發(fā)悶、低沉;但由于背景噪聲被濾除,語音中包含的信息仍能被人耳分辨,提取到的語音辨識(shí)度較高。通過高通濾波后,人聲頻率無法達(dá)到足夠高的頻率,不能通過高通濾波器,所以提取到的語音信號(hào)聽不到人的聲音。帶通濾波后,大部分語音被濾除,只有部分語音頻率可被提取到,濾波后聲音有點(diǎn)像兒童發(fā)出的聲音,提取到的語音信息人耳辨別困難。帶阻濾波后,在語音中只有部分頻率被濾除,提取到的聲音聽上去比較混濁。
2 結(jié) 語
本文構(gòu)建了一個(gè)基本的語音信號(hào)處理系統(tǒng),經(jīng)過測(cè)試運(yùn)行,完成了對(duì)語音信號(hào)的采集,通過FFT變換得出了語音信號(hào)的頻譜圖和頻譜的分析,并運(yùn)用濾波、倒譜等數(shù)字語音處理技術(shù),最后再對(duì)提取到的語音信息進(jìn)行效果分析和比對(duì)。設(shè)計(jì)主要是從數(shù)字濾波器入手來設(shè)計(jì)濾波器,提取了自定義頻段內(nèi)的語音信號(hào),同時(shí)比較各種濾波器對(duì)語音信號(hào)的影響,為如何有效除噪提供了良好的方法。
注:本文通訊作者為卜慶凱。
參考文獻(xiàn)
[1] 張雄偉,陳量,吉斌,等.現(xiàn)代語音處理技術(shù)及應(yīng)用[M].北京:機(jī)械工業(yè)出版社,2003.
[2] 王京輝.語音信號(hào)處理技術(shù)研究論[D].濟(jì)南:山東大學(xué),2008.
[3] 任明溪.基于EMD與特征規(guī)整的含噪語音特征提取方法研究[D].哈爾濱:哈爾濱工程大學(xué),2012.
[4] 王彪.基于EMD法的語音信號(hào)特征提取方法研究[D].寶雞:寶雞文理學(xué)院,2012.
[5] 于俊鳳.語音信號(hào)的識(shí)別和轉(zhuǎn)換研究[D].成都:成都理工大學(xué),2004.
[6] 王彪.一種改進(jìn)的語音信號(hào)特征參數(shù)提取算法研究[D].寶雞:寶雞文理學(xué)院,2011.
[7] 俞翠華.含噪語音信號(hào)的基音提取算法的研究[D].南京:南京信息工程大學(xué),2011.
[8] 孫廣.基于優(yōu)化語音提取的聲紋識(shí)別系統(tǒng)[D].西安:西安建筑科技大學(xué),2013 .
[9] 肖宇鋒.基于ISOMAP語音特征提取的研究與DSP實(shí)現(xiàn)[D].長(zhǎng)沙:湖南大學(xué),2013.
[10] 胡航.語音信號(hào)處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2005.