国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于非特定發(fā)音人拉祜語孤立詞語音識別研究

2015-11-14 03:20:32王米利佘玉梅劉敬鳳潘文林
關(guān)鍵詞:拉祜識別率高斯

王米利,佘玉梅,2,蘇 潔,劉敬鳳,潘文林,2

(1.云南民族大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院,云南昆明650500)

(2.云南民族大學(xué)云南省高校物聯(lián)網(wǎng)應(yīng)用技術(shù)重點實驗室,云南昆明650500)

語音識別的研究起始于20世紀50年代,由最初對元音、輔音、數(shù)字以及孤立詞的識別,到大詞匯量、非特定人、連續(xù)語音的識別,語音識別技術(shù)取得了巨大的成就.線性預(yù)測分析算法、動態(tài)規(guī)劃的算法,動態(tài)時間規(guī)整技術(shù)[1]、矢量量化、隱馬爾可夫模型[2]、N元文法統(tǒng)計語言模型、深度神經(jīng)網(wǎng)絡(luò)模型等技術(shù)廣泛的應(yīng)用到語音識別中來,極大的推動了語音識別的發(fā)展[3].我國少數(shù)民族語音識別開始于20世紀90年代,起步較晚,藏語、維語、蒙語在語音識別和語音翻譯方面取得較多的研究成果,其他民族語言語音識別技術(shù)研究相對落后,甚至是空白[4].

拉祜族是云南省25個少數(shù)民族之一,拉祜語從語系、語族、語支來說,屬于漢藏語系藏緬語族彝語支的一個獨立語言[5].拉祜族原來沒有文字,20世紀初,美國傳教士用羅馬文字創(chuàng)制了一套拉祜文,新中國成立后,政府和拉祜族知識分子進行調(diào)查研究在此基礎(chǔ)上制定了統(tǒng)一的拉祜文[6].使用拉祜語為第一母語的人口有30多萬,但掌握拉祜文字的人很少.拉祜族大部分居住在云南省境內(nèi)的普洱、臨滄、西雙版納、玉溪、紅河5個州市內(nèi),他們的受教育程度較低,語言是他們獲取大量外界信息的主要障礙之一.因此,開展借助于計算機或軟件工具的拉祜語音識別、語音翻譯是有必要的.小詞匯量非特定人語音識別是語音識別領(lǐng)域重要的分支[7].

1 拉祜語語音

拉祜語分兩大方言:拉祜納和拉祜熙,平時說的拉祜語標準語是指拉祜納方言.拉祜語以前沒有文字,拉祜語的傳承是靠口口相傳,因此拉祜語的詞匯更加生活化,日常生活用語和勞作用語大量的傳承了下來.根據(jù)文獻[3]得知拉祜語的使用現(xiàn)狀,目前拉祜語的高頻詞匯包括從漢語、傣語借詞在內(nèi)有將近2 000個詞匯.拉祜語的基本詞匯即你(nawl)、我(ngal)、她(yawd)、太陽(mudni)、山(qhaw)、河(lawl)等,基本詞匯量在300~500之間,本次實驗使用200個基本詞匯的語音進行實驗.

拉祜語共有24個輔音音位,30個聲母,19個元音,7個調(diào)值,5個舒聲,2個促聲.

1)30個聲母:

P [p ]、ph[ph]、b[b]、m[m]、f[f]、v[v]、t[t]、th[th]、d[d]、n[n]、l[l]、z[ts]、zh[tsh]、dz[dz]、s[s]、r[z]、k[k]、kh[kh]、g[g]、w[w]、ng[η]、h[x]、x[γ]、q[q]、qh[qh]、c[t∫]、ch[t∫h]、j[dз]、sh[∫]、y[з].

2)19個韻母:9個單韻母,10個復(fù)韻母.

a[A]、i[i]、e[e]、ie[ε]、u[u]、o[?]、aw[?]、eo[γ]、eu[ω]ia[ia]、iao[iau]、iu[iu]、ei[ei]、ai[ai]、ao[au]、ou[ou]、ui[ui]、ua[ua]、uai[uai][?:].

3)音節(jié)結(jié)構(gòu)由元音+聲調(diào),或輔音+元音+聲調(diào)構(gòu)成,沒有帶輔音尾的音節(jié).

2 語音識別原理及過程

基于HMM模型的HTK工具箱是由英國劍橋大學(xué)工程系(CUED)研發(fā)的,用于語音識別研究.基于HTK工具箱的拉祜語音識別的過程,如圖1:

2.1 準備拉祜語音

針對拉祜語音的特點,在專業(yè)的語言教師幫助下,確定錄音內(nèi)容為拉祜語日常生活高頻詞匯.邀請云南民族大學(xué)拉祜語班2011級和2012級的男女同學(xué)各2位來錄音.他們來自瀾滄拉祜族聚集的村寨,母語為拉祜語,均能流利地用母語交流,且發(fā)音清晰.在實驗室安靜環(huán)境下,利用軟件Cool Edit pro2.1錄音.共錄200條拉祜語孤立詞的語音.每個孤立詞8遍錄音.部分拉祜語孤立詞列表如表1:

表1 部分拉祜語孤立詞列表

2.2 語音標注

HTK工具箱中的HSlab標注工具使用起來不方便,且易出錯,換用專業(yè)的語音學(xué)軟件Praat來對拉祜語孤立詞語音做標注,把Praat做好后的.txtgrid標注文件轉(zhuǎn)化為HTK工具可以識別的lab文件.

2.3 拉祜語孤立詞特征提取

特征提取是對原始的語音信號運用一定的數(shù)字信號處理技術(shù)進行適當(dāng)?shù)奶幚?,從而得到一個矢量序列,這個矢量序列可以代表原始的語音信號所攜帶的信息.語音信號特征參數(shù)為45維,選用14個MFCC系數(shù),加上F0能量,15個一階MFCC倒譜系數(shù),15個二階的MFCC倒譜系數(shù),具有較好的識別率[8].調(diào)用HTK中的Hcopy工具,對孤立詞語音信號進行特征提取.其中配置文件參數(shù)的設(shè)置:預(yù)加重系數(shù)0.97,濾波器組內(nèi)濾波器個數(shù)是22,Mel倒譜的頻道數(shù)是26,加窗函數(shù)為漢明窗.配置文件內(nèi)容如下:

#

#Example of an acoustical analysis configuration file

##聲學(xué)分析配置文件

#SOURCEFORMAT=HTK #定義聲音文件的形式

SOURCEFORMAT=WAV

TARGETKIND=MFCC_0_D_A #定義特征參數(shù)的類型

WINDOWSIZE=250000.0 #幀長為25 ms

TARGETRATE=100000.0 #移幀10 ms

NUMCEPS=14#MFCC系數(shù)為14(從c1到c14)

USEHAMMING=T #使用漢明窗

PREEMCOEF=0.97 #預(yù)加重系數(shù)為0.97

NUMCHANS=26 #濾波器通道數(shù)為26

CEPLIFTER=22 #倒譜liftering的長度

#The End

配置文件參數(shù)設(shè)置好,特征提取的命令:

Hcopy—A—D—C analysis.conf-S targetlist_train.txt.

其中analysis.conf就是上述的配置文件名,targetlist_train.txt文件指明了語音文件的路徑及對應(yīng)特征mfcc文件存儲的路徑.

特征參數(shù)MFCC的系數(shù)較大,又加上語音數(shù)目較大,特征提取這一過程在個人電腦上運行需要15 min.命令執(zhí)行完畢在對應(yīng)的目錄中生成語音特征mfcc文件.生成的mfcc文件是一組矢量序列,是數(shù)字化的表示而非波形或語音文件,不具有直觀可視性.提取的特征能否可靠的表示原始語音主要依靠配置文件中各項參數(shù)的選取,提取的特征是否有效的表示了原始語音可以從識別過程中匹配的結(jié)果看到.如果提取的特征有效的表示了原始語音,則語音的識別率就較高,反之,識別效果較差,需要調(diào)整參數(shù)重新實驗.

2.4 拉祜語孤立詞模型訓(xùn)練

HMM模型每個狀態(tài)輸出的是連續(xù)密度函數(shù);高斯混合HMM模型,在每個狀態(tài)輸出函數(shù)中增加高斯密度函數(shù)(即正態(tài)分布函數(shù)).高斯混合度N是指在該狀態(tài)的輸出函數(shù)中加入N個高斯密度函數(shù)[9].以高斯混合數(shù)為2的HMM模型狀態(tài)輸出函數(shù)為例,如圖2.

1)模型定義.使用了6狀態(tài)左右跳轉(zhuǎn)的HMM模型,使用39維的mfcc特征,第1和第6狀態(tài)為連接狀態(tài),不產(chǎn)生輸入和輸出,對狀態(tài)2至狀態(tài)5進行定義,每個狀態(tài)使用39維的均值和協(xié)方差;單高斯HMM模型(即在6狀態(tài)左右跳轉(zhuǎn)的HMM模型狀態(tài)2至狀態(tài)5,每個狀態(tài)增加1個高斯混合數(shù))、2mixtures HMM模型(即在6狀態(tài)左右跳轉(zhuǎn)的HMM模型狀態(tài)2至狀態(tài)5,每個狀態(tài)增加2個高斯混合數(shù))和4mixtures HMM模型(即在6狀態(tài)左右跳轉(zhuǎn)的HMM模型狀態(tài)2至狀態(tài)5,每個狀態(tài)增加4個高斯混合數(shù)).

2)模型初始化.調(diào)用初始化函數(shù) HInit和HCompv.HMM模型,只需調(diào)用HInit進行初始化即可;高斯混合的HMM模型要先調(diào)用HInit對模型進行初始化,再調(diào)用HCompv計算出全局的均值和協(xié)方差,并賦給每一個初始化模型,使每個初始模型有相同的均值和方差.

3)訓(xùn)練.初始化完成后,對每個詞的HMM模型用HRest重估函數(shù)迭代直至收斂,通過change量度標示收斂性,一旦這個量度值不再從一個HRest迭代到下個迭代減少(絕對值),過程就該停止了,一般迭代2~3次即可達到收斂,對每個詞的HMM模型都迭代3次,得到孤立詞收斂穩(wěn)定的HMM模型.

2.5 利用HTK工具箱對拉祜語孤立詞識別

準備好待識別的語音,和前面訓(xùn)練的語音一樣,做好標注,提取語音特征.在進行識別之前還需建立孤立詞詞典和語法,并調(diào)用Hparse函數(shù)生成語法網(wǎng)絡(luò).對訓(xùn)練過的HMM模型建立模型的主宏文件,并調(diào)用基于最大似然概率的HVite算法進行識別.最后利用HTK工具箱中統(tǒng)計工具HResults求出識別正確率.

其中,H為被識別正確的單詞數(shù),S為被錯誤識別的單詞數(shù),D為刪除的單詞數(shù),I為插入的單詞數(shù),N為識別的單詞總數(shù).本次識別只有孤立詞沒有句子,所以sent行的正確率為孤立詞的正確識別率.

3 實驗結(jié)果

3.1 特定發(fā)音人拉祜語孤立詞識別結(jié)果

特定發(fā)音人孤立詞識別是指同一孤立詞訓(xùn)練使用的語音和識別使用的語音均由同一位發(fā)音人發(fā)音.

實驗用200個孤立詞同一個人發(fā)音的6組語音,用5組語音來訓(xùn)練孤立詞模型,另1組語音來識別,識別結(jié)果如表2:

表2 特定人語音識別結(jié)果

對于特定發(fā)音人的拉祜語孤立詞識別,發(fā)音人的發(fā)音特征和發(fā)音習(xí)慣是穩(wěn)定的,識別率隨著孤立詞數(shù)目的增加平穩(wěn)變化,有所降低.但在實際應(yīng)用中都是面對非特定發(fā)音人的語音識別,具有較高識別率的特定發(fā)音人的識別在實際應(yīng)用中有一定的局限性.

3.2 非特定發(fā)音人拉祜語孤立詞識別結(jié)果

非特定發(fā)音人拉祜語孤立詞識別是指同一孤立詞的訓(xùn)練語音和識別語音由2位或2位以上發(fā)音人發(fā)音.

本次實驗使用3位發(fā)音人各2遍的發(fā)音作為訓(xùn)練語音,另外一位發(fā)音人的發(fā)音作為測試語音;MFCC選取13系數(shù)42維的特征參數(shù);HMM模型使用8狀態(tài)的HMM模型.200孤立詞的測試結(jié)果如下,識別正確率為98.50%.

HMM模型拉祜語孤立詞非特定發(fā)音人識別結(jié)果見表3.

表3 非特定發(fā)音人孤立詞測試結(jié)果

3.3 混合高斯度對非特定發(fā)音人孤立詞識別的影響

當(dāng)混合高斯數(shù)目增加到4時,如圖4識別正確率為100%,有效提高了識別正確率,保證了識別系統(tǒng)的質(zhì)量.

試驗發(fā)現(xiàn):對拉祜語孤立詞語音識別,增加HMM模型的高斯混合度有效提高了非特定發(fā)音人孤立詞的識別正確率.同實驗室其他語種(普米語)30個孤立詞非特定發(fā)音人語音識別中,加入高斯混合數(shù)后,識別率反而有所下降.文獻[10]試驗表明,隨著高斯混合數(shù)的增加,識別正確率也隨著增加;但高斯混合數(shù)增加到一定值(80)時,識別正確率達到最高;高斯混合數(shù)繼續(xù)增加,識別正確率反而下降.高斯混合度對拉祜語孤立詞識別正確率的影響是否也符合這一規(guī)律,需要增加拉祜語孤立詞的數(shù)目來進一步研究.

表4 增加混合高斯數(shù)目孤立詞的識別率

4 結(jié)語

本文基于HTK對拉祜語孤立詞的語音識別,通過對拉祜語語音進行特征的分析、提取MFCC特征參數(shù),建立每個拉祜語孤立詞的HMM模型,最后采用Viterbi算法進行模型的識別和匹配.本文通過對特定發(fā)音人和非特定發(fā)音人的拉祜語孤立詞進行識別,發(fā)現(xiàn)特定發(fā)音人發(fā)音較穩(wěn)定,識別率隨著拉祜語孤立詞數(shù)目的增加平穩(wěn)變化,孤立詞數(shù)目達到200時,識別正確率仍維持在75%.對于非特定發(fā)音人的拉祜語孤立詞語音識別,隨著拉祜孤立詞數(shù)目的增加,識別率有所下降,原因是由于孤立詞數(shù)目增加,數(shù)據(jù)稀疏,需要加大訓(xùn)練語音的數(shù)量,使得訓(xùn)練更加充分.非特定發(fā)音人的拉祜語孤立詞語音識別,隨著高斯混合數(shù)的增加,識別正確率也隨著提高.以后將進一步研究隨著高斯混合數(shù)的增加,拉祜孤立詞識別正確率是否不再提高.

[1]VINTSYUK T K.Speech recogniton by dynamic programming[Z].Kibernetika:1975.

[2]JELINEK F.Continuousspeech recognition by statistical methods[J].IEEE.1976:6.

[3]TAMAKI N,MATSUOKA S,HARADA K.Recent application and development in speech recognition technologies[J].NTTReview.1994,3(16):66-75.

[4]王昆侖,吐爾洪江·阿布都克力木.我國少數(shù)民族語音技術(shù)研究進展[Z].蘭州:2009.

[5]扎拉.拉祜語基礎(chǔ)教程[M].昆明:云南大學(xué)出版社,2008:1-360.

[6]劉勁榮.云南拉祜族文字使用的歷史與現(xiàn)狀[J].云南師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2008(06):53-59.

[7]周卓然.小詞匯量非特定人語音識別系統(tǒng)的研究[D].重慶:重慶大學(xué),2012.

[8]張令通.基于HTK的白族語音識別方法[J].大理學(xué)院學(xué)報,2013(10):27-32.

[9]胡航.現(xiàn)代語音信號處理[M].北京:電子工業(yè)出版社,2014:1-407.

[10]陳泉金.基于HTK的連續(xù)語音識別技術(shù)研究[D].南京:南京郵電大學(xué),2010.

猜你喜歡
拉祜識別率高斯
小高斯的大發(fā)現(xiàn)
《尋美瀾滄之拉祜老嫗》《美麗孟連之盛裝》
創(chuàng)造(2022年9期)2022-10-15 02:30:50
基于類圖像處理與向量化的大數(shù)據(jù)腳本攻擊智能檢測
計算機工程(2020年3期)2020-03-19 12:24:50
天才數(shù)學(xué)家——高斯
基于真耳分析的助聽器配戴者言語可懂度指數(shù)與言語識別率的關(guān)系
傈僳族、基諾族、拉祜族民間長詩中的洪水災(zāi)難與人類的再繁衍
文史雜志(2019年3期)2019-04-29 01:51:40
提升高速公路MTC二次抓拍車牌識別率方案研究
?? ??-??(拉祜)?
中國(韓文)(2016年9期)2016-10-09 01:09:57
高速公路機電日常維護中車牌識別率分析系統(tǒng)的應(yīng)用
有限域上高斯正規(guī)基的一個注記
贵溪市| 南郑县| 区。| 中阳县| 万全县| 永平县| 大石桥市| 永德县| 卢湾区| 兴山县| 疏勒县| 通州市| 佳木斯市| 昆山市| 叙永县| 波密县| 晋宁县| 师宗县| 婺源县| 牡丹江市| 襄垣县| 乳源| 大渡口区| 雷山县| 肥东县| 社会| 陆良县| 伊吾县| 安庆市| 宝鸡市| 石狮市| 宁强县| 上杭县| 通渭县| 郯城县| 榆林市| 扎鲁特旗| 湖南省| 临邑县| 若尔盖县| 盐亭县|