陳理 楊雪梅 畢春艷 陳瑩瑩
摘 ?要: 為了提高語(yǔ)音識(shí)別的精確度,提出一種將子波方差分析手段應(yīng)用于基音檢測(cè)的改進(jìn)基音檢測(cè)算法。該算法選用Daubechies子波把信號(hào)分解到適當(dāng)尺度,然后再利用墨西哥帽子波進(jìn)行子波方差分析;結(jié)合子波尺度與波長(zhǎng)關(guān)系,能夠精確地定位基音周期的數(shù)值。將其應(yīng)用于漢語(yǔ)聲調(diào)的檢測(cè)中,仿真結(jié)果表明,該算法可以根據(jù)實(shí)際要求調(diào)整掃描尺度的精度和范圍,具有可調(diào)節(jié)性。
關(guān)鍵詞: 子波方差; 尺度波長(zhǎng); 子波能量; 基音檢測(cè); 聲調(diào)識(shí)別; 語(yǔ)音識(shí)別算法
中圖分類號(hào): TN912.34?34 ? ? ? ? ? ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2018)10?0169?03
Abstract: To improve the precision of speech recognition, an improved pitch detection algorithm for applying the wavelet variance analysis means to the pitch detection is proposed. In the algorithm, Daubechies wavelet is selected to an decompose signals to an appropriate scale, and Sombrero wavelet is then used to perform wavelet variance analysis. The numerical value of pitch period can be accurately located based on the relationship between wavelet scale and its wavelength. The algorithm was applied to the detection of Chinese tones. The simulation results show that the algorithm can adjust the precision and range of the scan scale according to actual demands, and has adjustability.
Keywords: wavelet variance; scale wavelength; wavelet energy; pitch detection; tone recognition; speech recognition algorithm
語(yǔ)音信號(hào)是非平穩(wěn)的隨機(jī)信號(hào),因此對(duì)其周期分析和特征提取是比較復(fù)雜的問(wèn)題。在語(yǔ)音學(xué)和語(yǔ)音信號(hào)處理領(lǐng)域中,將發(fā)音時(shí)由聲帶振動(dòng)而發(fā)出的音定義為濁音。濁音是一種近似的周期信號(hào), 其周期稱為語(yǔ)音的基音周期[1]?;糁芷谑钦Z(yǔ)音信號(hào)的重要參數(shù),在語(yǔ)音信號(hào)處理的許多應(yīng)用領(lǐng)域里(如語(yǔ)音壓縮編碼、語(yǔ)音合成、語(yǔ)音識(shí)別等),準(zhǔn)確可靠地檢測(cè)語(yǔ)音信號(hào)的基音周期都是至關(guān)重要的環(huán)節(jié),將直接影響到最終結(jié)果。
在基音周期分析算法研究這個(gè)領(lǐng)域,從20世紀(jì)中葉以來(lái)出現(xiàn)了很多種基音周期檢測(cè)方法,其中著名的傳統(tǒng)方法有平均幅度差函數(shù)法、自相關(guān)法等[1]。但由于語(yǔ)音信號(hào)本身的復(fù)雜性,導(dǎo)致還沒(méi)有一種能適用于不同說(shuō)話人和不同噪聲環(huán)境下的精確基音檢測(cè)方法。本文將在傳統(tǒng)子波基音檢測(cè)分析方法的基礎(chǔ)上,利用語(yǔ)音信號(hào)子波系數(shù)的子波方差系數(shù)精確定位語(yǔ)音的基音周期,并成功應(yīng)用于漢語(yǔ)語(yǔ)音聲調(diào)的識(shí)別中。
1.1 ?子波變換
設(shè)[ψ(t)]為一平方可積函數(shù)定義為母波, 若其傅里葉變換滿足子波函數(shù)的容許條件,則將連續(xù)子波變換的公式定義為:
比較式(3)和式(4),發(fā)現(xiàn)在單一尺度下子波方差和子波能量具有共同的量綱。而子波方差可以視為隨機(jī)信號(hào)在單一尺度下的平均能量。將子波方差隨尺度變化的趨勢(shì)圖定義為子波方差變化圖如圖1所示,該圖能反映時(shí)間序列中所包含的各種尺度(周期)的波動(dòng)及其能量強(qiáng)弱隨尺度變化的特性[2]。
1.3 ?基于尺度波長(zhǎng)關(guān)系的基音周期子波方差分析
由連續(xù)子波變換系數(shù)決定的子波方差值,反映了信號(hào)中所包含的各種尺度(周期)的波動(dòng)及其強(qiáng)弱隨尺度變化的特性。因此可以求出每幀語(yǔ)音信號(hào)子波變換系數(shù)的各尺度上的子波方差值。其中的最大值對(duì)應(yīng)起主要作用的周期值,即可以精確定位基音周期。
首先,需要選擇適當(dāng)?shù)淖硬ㄟM(jìn)行子波變換。由于墨西哥帽子波在時(shí)域和頻域均具有較好的局部性[6?7],因此選擇它進(jìn)行子波變換。然而,在實(shí)際分析中有一個(gè)關(guān)鍵問(wèn)題無(wú)法回避,就是求得子波方差最大值的尺度后,如何根據(jù)尺度的數(shù)值求出實(shí)際的周期值。
由圖1可知,子波方差能排除各倍頻分量的影響,精確地反映基音的基頻。當(dāng)?shù)玫組ax點(diǎn)對(duì)應(yīng)的尺度J最大值31時(shí),可以根據(jù)墨西哥帽子波變換尺度與波長(zhǎng)關(guān)系式[7]:[λ=(4×π×a)10],得到實(shí)際的波長(zhǎng)值(即周期)。以圖1為例,先通過(guò)a與J的關(guān)系求得尺度a=[2((J+9)/10)]≈16;再求[λ=(4×π×a)10]≈64。于是基音周期[T=λf=648 000]=8 ms,[f]為采樣頻率。
由于子波變換掃描尺度的精度可以在算法實(shí)現(xiàn)中任意調(diào)節(jié),因此子波方差法的精確性與復(fù)雜度都是可調(diào)節(jié)的。這需要根據(jù)實(shí)際需求進(jìn)行掌控,也是此方法比其他方法優(yōu)越的地方。更由于其高度的精確性,可以敏感地反映出基頻的變化趨勢(shì),故適用于漢語(yǔ)語(yǔ)音聲調(diào)判別等研究。
在漢語(yǔ)語(yǔ)音信號(hào)處理和識(shí)別領(lǐng)域,聲調(diào)識(shí)別具有至關(guān)重要的地位。漢語(yǔ)普通話把聲調(diào)分成四個(gè)聲調(diào):一聲(陰平)、二聲(陽(yáng)平)、三聲(上聲)、四聲(去聲)。不同的聲調(diào)對(duì)應(yīng)著不同的基音頻率變化曲線。
語(yǔ)音聲調(diào)和基音周期(頻率)之間有著明顯的聯(lián)系。說(shuō)話人的語(yǔ)音基音周期(頻率)都是時(shí)間序列,漢語(yǔ)言的四個(gè)聲調(diào)對(duì)應(yīng)于不同的基音頻率變化趨勢(shì)。研究出它們之間的聯(lián)系和變化規(guī)律有助于精確地進(jìn)行語(yǔ)音識(shí)別和說(shuō)話人聲音辨識(shí)。
為了使基音檢測(cè)結(jié)果更加精確,仍然可以在子波方差分析法之前做信號(hào)的預(yù)處理。即選用Daubechies子波把信號(hào)分解到適當(dāng)尺度,然后再利用墨西哥帽子波進(jìn)行子波方差分析。
為了驗(yàn)證以上思想,選用漢字“馬”的四個(gè)聲調(diào)即“mā,má,mǎ,mà”進(jìn)行仿真測(cè)試,采樣頻率為8 kHz。由圖2“ma”的四個(gè)聲調(diào)基音頻率圖可以看出:一聲的基音頻率基本保持不變;二聲的基音頻率呈逐漸遞增的變化;三聲是基頻先減小,然后遞增;而四聲則是基頻逐漸減少。這些趨勢(shì)與漢語(yǔ)聲調(diào)的理論曲線完全一致[8]。
在對(duì)連續(xù)語(yǔ)音信號(hào)進(jìn)行聲調(diào)判斷時(shí),可遵循以下步驟:首先對(duì)原始語(yǔ)音信號(hào)進(jìn)行分幀;其次對(duì)每幀信號(hào)進(jìn)行預(yù)處理。預(yù)處理的方法采用子波變換提取信號(hào)基頻,也可以為中心消波法;然后對(duì)預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行周期(頻率)細(xì)析。本文采用子波方差法:先計(jì)算信號(hào)的子波系數(shù);然后根據(jù)其子波方差值的最大值得出基音周期(頻率),求出的基音頻率在人發(fā)音頻率范圍內(nèi)的視為濁音;最后通過(guò)基音頻率圖判定聲調(diào)。
圖3顯示了對(duì)連續(xù)發(fā)音的三字詞“早上好”的基頻分析。每個(gè)字的聲調(diào)特點(diǎn)都比較明顯,“早”和“好”字是三聲,因此基頻先下降后遞增,“上”字是四聲,基頻趨勢(shì)一直下降。
本文采用的子波方差分析方法,可以根據(jù)實(shí)際要求調(diào)整掃描尺度的精度和范圍,具有可調(diào)節(jié)性。同時(shí)充分發(fā)揮了子波變換多分辨率優(yōu)勢(shì),利用尺度與波長(zhǎng)關(guān)系,精確地定位基音周期(頻率)的數(shù)值,因此又具有精確性。和傳統(tǒng)的基音檢測(cè)算法,如自相關(guān)法、平均幅度差法相比,由于該分析模型追求了高的精度,因此計(jì)算量稍大,實(shí)時(shí)性較弱。但是該模型對(duì)語(yǔ)音信號(hào)頻率微弱變化的敏感性,使其非常適合進(jìn)行漢語(yǔ)聲調(diào)檢測(cè)等要求準(zhǔn)確性較高的分析工作。
[1] 趙力.語(yǔ)音信號(hào)處理[M].北京:機(jī)械工業(yè)出版社,2003.
ZHAO Li. Voice signal processing [M]. Beijing: China Machine Press, 2003.
[2] 陳理,袁曉,湯韓杰,等.金融時(shí)間序列結(jié)構(gòu)波動(dòng)的子波變換分析[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版),2007,44(2):293?298.
CHEN Li, YUAN Xiao, TANG Hanjie, et al. Structural wave analysis of financial time series by wavelet transform [J]. Journal of Sichuan University (Natural science edition), 2007, 44(2): 293?298.
[3] 陳理,田巧玉.基于子波變換的時(shí)間序列波動(dòng)特征分析[J].技術(shù)與市場(chǎng),2009,16(7):49?50.
CHEN Li, TIAN Qiaoyu. Structural wave analysis of financial time series by wavelet transform [J]. Technology and market, 2009, 16(7): 49?50.
[4] 楊藝,李建勛,柯熙政.小波方差在信號(hào)特征提取中的應(yīng)用[J].傳感器世界,2006,12(1):33?35.
YANG Yi, LI Jianxun, KE Xizheng. Study on wavelet variance and its application in signal feature extraction [J]. Sensor world, 2006, 12(1): 33?35.
[5] Stephane Mallat.信號(hào)處理的小波導(dǎo)引[M].北京:機(jī)械工業(yè)出版社,2002.
MALLAT S. A wavelet tour of signal processing [M]. Beijing: China Machine Press, 2002.
[6] 崔錦泰.小波分析導(dǎo)論[M].西安:西安交通大學(xué)出版社,1995.
CUI Jingtai. An introduction to wavelets [M]. Xian: Xian Jiaotong University Press, 1995.
[7] Ingrid Daubechies.小波十講[M].北京:國(guó)防工業(yè)出版社,2004.
DAUBECHIES I. Ten lectures on wavelets [M]. Beijing: National Defense Industry Press, 2004.
[8] 湯韓杰,袁曉.子波分析中尺度與波長(zhǎng)的關(guān)系[J].電子科技大學(xué)學(xué)報(bào),2006,35(1):13?16.
TANG Hanjie, YUAN Xiao. Relationship between scale and wavelength in wavelet transform analysis [J]. Journal of University of Electronic Science and Technology of China, 2006, 35(1): 13?16.
[9] 黃昌寧,夏瑩.語(yǔ)言信息處理專論[M].北京:清華大學(xué)出版社,1996.
HUANG Changning, XIA Ying. The language information processing [M]. Beijing: Tsinghua University Press, 1996.
[10] 張梅.一種語(yǔ)音端點(diǎn)檢測(cè)算法及其在DSP上的實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2012,38(8):133?134.
ZHANG Mei. An algorithm for speech endpoint detection and its implementation on DSP [J]. Application of electronic technique, 2012, 38(8): 133?134.
[11] 陳理,徐晉,馮子芥,等.一種基于移動(dòng)終端的智能水杯墊設(shè)計(jì)及應(yīng)用[J].現(xiàn)代電子技術(shù),2017,40(18):83?84.
CHEN Li, XU Jin, FENG Zijie, et al. Design and application of a smart cup pad based on mobile terminal [J]. Modern electronics technique, 2017, 40(18): 83?84.