劉明+卓嘎+王澤年
摘要:目前,藏語語音參數(shù)提取相關(guān)研究相對較少,藏語語音處理過程中的重要環(huán)節(jié)是對藏語語音中的參數(shù)提取,其準(zhǔn)確性直接影響到系統(tǒng)的性能。語音信號的特征參數(shù)主要指的是語音信號的基音頻率和共振峰頻率?;贛ATLAB GUI創(chuàng)建一個平臺將語音信號提取、預(yù)處理、分窗加幀可提高系統(tǒng)辨認(rèn)度,讓其準(zhǔn)確性增加從而更好地提高系統(tǒng)的性能。
關(guān)鍵詞:藏語語音;基音頻率;MATLAN GUI
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2017)34-0212-03
Abstract:At present, there are relatively few researches on the extraction of Tibetan speech parameters, and the extraction of Tibetan speech parameters is an important part in the process of Tibetan speech processing, and its accuracy directly affects the performance of the system. The characteristic parameters of speech signal are the pitch frequency and formant frequency. Based on the MATLAB GUI to create a platform to voice signal extraction, pretreatment, window frame can increase the system identification, so that the accuracy of the system to improve the performance of the better.
Key words: Tibetan speech; base tone frequency; MATLAN GUI
語音特征參數(shù)是人說話識別系統(tǒng)的關(guān)鍵組成部分,直接影響了系統(tǒng)的性能。藏語語音信號是冗余度相對較高的不穩(wěn)定信號,將其特征參數(shù)提取并加以處理可以減少語音識別時所要處理的數(shù)據(jù)量,盡量能夠完整、準(zhǔn)確地表達(dá)語音信號。語音信號的特征參數(shù)主要指的是語音信號的基音頻率和共振峰頻率?;魴z測作為藏語語音處理的關(guān)鍵環(huán)節(jié)直接影響整個語音處理系統(tǒng)的性能,基音檢測是根據(jù)濁音語音的周期性進(jìn)行周期或頻率估算[1]。國內(nèi)的藏語語音方面一般都在MFCC參數(shù)提取的理論基礎(chǔ)上進(jìn)行運(yùn)算與提取[2],本文運(yùn)用MATLAB Guide藏語語音參數(shù)提取平臺的設(shè)計(jì)以及實(shí)現(xiàn)還是比較具有創(chuàng)新和實(shí)用的。
1 語音提取與函數(shù)處理
1.1 語音提取
藏語語音中濁音信號具有明顯的周期性,所以用Matlab wavread函數(shù)將語音中濁音部分提取出來。
1.2語音預(yù)處理[3-4]
語音信號的預(yù)處理中的預(yù)加重,主要是為了實(shí)現(xiàn)對語音的主要高頻部分進(jìn)行加重和減小口唇輻射的一些影響,可以提高語音高頻部分的分辨率。大部分通過傳遞函數(shù)為[H(Z)=1-az-1]一階FIR高通數(shù)字濾波器來完成預(yù)加重,其中a是預(yù)加重的系數(shù),0.9 1.3 分幀加窗[5] 進(jìn)行了預(yù)加重?cái)?shù)字濾波之后,信號就要進(jìn)行加窗分幀的處理,因語音信號具有短時平穩(wěn)性的特點(diǎn)(10-30ms內(nèi)可以認(rèn)為語音信號近乎不變),所以就可以把語音信號分為一個一個的短段來進(jìn)行處理,這就是分幀,語音信號的分幀可以采用對可移動的一定長度的窗口用加權(quán)的方法來實(shí)現(xiàn)的。大多數(shù)每秒的幀數(shù)約為33~100幀,因情況而定。一般的分幀方法是交疊分段,前一幀和后一幀的交疊部分稱作幀移,幀移與幀長的比值大致為0~0.5。 漢明窗的時域與頻域波形,窗長N=61,如圖2所示。 2 MATLAB GUIDE界面設(shè)計(jì)[6-9] Matlab Guide是使用者與計(jì)算機(jī)程序之間的交互方式,是使用者與計(jì)算機(jī)進(jìn)行信息交流的方式。通過GUIDE界面使用者不需要輸入命令,也不需要了解其內(nèi)部是如何運(yùn)行的。計(jì)算機(jī)在屏幕中顯示圖形和文本,而使用者可以通過輸入設(shè)備與計(jì)算機(jī)通信,用戶界面的功能是根據(jù)使用者來具體設(shè)定的。圖形用戶界面或GUI中包含多個圖形對象例如圖像窗口、圖軸、菜單、按鈕、文本框等組成的用戶界面,使用者點(diǎn)擊具體的對象,使其該功能被激活使用。Matlab guide既可以嵌入已有的仿真程序,又能把仿真之后的圖形化的結(jié)果以人機(jī)交互的動態(tài)形式直觀呈現(xiàn)出來,對于熟練使用MATLAB而又不想編寫大量VC代碼的人員來說,MATLAB GUI是一個最好的選擇。 MATLAB提供了兩種創(chuàng)建GUI的方法,一種是直接用編程的方法來開發(fā)創(chuàng)建整個GUI;另一種方法是通過MATLAB中GUI向?qū)黹_發(fā)創(chuàng)建GUIDE環(huán)境進(jìn)而形成相應(yīng)文件.GUIDE 給用戶提供了一個方便高效的集成運(yùn)行環(huán)境,主要可分為菜單欄和工具欄、向GUI中添加控件還有用戶界面函數(shù)編輯窗口三部分,在使用GUIDE創(chuàng)建GUI時,可以把設(shè)計(jì)好的GUI界面保存成為一個用戶界面窗口定義文件(FIG),同時又可以自動生成對應(yīng)的源程序文件(M).該M文件中包含了GUI的初始化代碼以及界面布局的控制代碼.因?yàn)檫@種GUI向?qū)黹_發(fā)創(chuàng)建GUIDE環(huán)境進(jìn)而形成相應(yīng)文件的方法比較簡單直觀,以及在M文件的管理和程序代碼的修改上相對比較方便,所以本文使用MATLAB中GUI向?qū)硗瓿山缑嬖O(shè)計(jì),設(shè)計(jì)過程主要包含兩大部分,分別為GUI界面設(shè)計(jì)和對象的響應(yīng)。
圖形用戶界面的具體設(shè)計(jì)制作步驟如下:
① 分析用戶界面的主要功能,明確設(shè)計(jì)的主要任務(wù);
② 繪出使用者想要的界面草圖,從使用者的角度來進(jìn)行審查;
③ 啟動GUIDE,選擇相應(yīng)的操作模版,按照之前設(shè)計(jì)好的草圖繪制靜態(tài)界面,并向GUI中添加相應(yīng)的控件,以及對相應(yīng)控件的屬性進(jìn)行設(shè)置;
④ 編寫和調(diào)試相應(yīng)對象的響應(yīng)函數(shù),從而實(shí)現(xiàn)用戶界面的動態(tài)功能;
⑤ 運(yùn)行圖形用戶界面,進(jìn)行功能的測試。在設(shè)計(jì)過程中,步驟之間一般都是交叉反復(fù)進(jìn)行的,設(shè)計(jì)和實(shí)現(xiàn)過程都不可能一步到位的,因此我們要不斷進(jìn)行調(diào)試,直到使我們滿意為止。
⑥ GUI藏語語音參數(shù)提取平臺包含了以上功能,實(shí)現(xiàn)了語音提取,預(yù)處理,分幀加窗等功能,使得語音信號辨認(rèn)度更高,準(zhǔn)確性增加。
3 結(jié)束語
藏語語音處理過程中的重要環(huán)節(jié)是對藏語語音中的參數(shù)提取,其準(zhǔn)確性直接影響到系統(tǒng)的性能。但是藏語語音參數(shù)提取相關(guān)研究相對較少,語音信號的特征參數(shù)主要指的是語音信號的基音頻率和共振峰頻率。語音信號提取、預(yù)處理、分窗加幀可提高系統(tǒng)辨認(rèn)度,讓其準(zhǔn)確性增加從而更好地提高系統(tǒng)的性能?;贛ATLAB GUI藏語語音參數(shù)提取平臺將滿足提高系統(tǒng)辨認(rèn)度,使得基因頻率和共振峰頻率的準(zhǔn)確性得到提高。藏語語音參數(shù)提取更容易。
參考文獻(xiàn):
[1] 卓嘎,邊巴旺堆.基于Matlab的藏語語音基音檢測算法研究[J].現(xiàn)代電子技術(shù),2015,38(10):20-22.
[2] 卓嘎,姜軍,邊巴旺堆.基于Matlab的藏語語音MFCC參數(shù)提取研究[J].西藏大學(xué)學(xué)報(bào):自然科學(xué)版,2017,32(1):58-62.
[3] 耿李廣.語音信號的短時頻域分析[D]. 安徽財(cái)經(jīng)大學(xué),2012.
[4] 王璐.基于模塊化的語音信號預(yù)處理實(shí)現(xiàn)[D].大連理工大學(xué),2009.
[5] 鄭中華.噪音環(huán)境下漢語連續(xù)數(shù)字識別與研究[D].合肥工業(yè)大學(xué),2013.
[6] 王光艷,趙曉群,王霞.基于MATLAB GUI的語音信號特征提取系統(tǒng)設(shè)計(jì)[J]. 河北工業(yè)大學(xué)學(xué)報(bào),2010,39(4):14-18.
[7] 楊超,聶仙娥,王鋒,等.基于GUI的聲信號采集系統(tǒng)界面設(shè)計(jì)[J].電聲技術(shù),2012,36(3):66-68.
[8] 李俊旺,孫傳堯.基于MATLAB/GUI的礦物浮選動力學(xué)研究平臺設(shè)計(jì)[J].化工礦物與加工,2012,41(2):4-8.
[9] 薛山.MATLAB基礎(chǔ)教程[M].2版.清華大學(xué)出版社,2013.endprint