黃威,石佳影(四川大學(xué)軟件學(xué)院,成都610065)
基于深度神經(jīng)網(wǎng)絡(luò)的語(yǔ)音識(shí)別研究
黃威,石佳影
(四川大學(xué)軟件學(xué)院,成都610065)
現(xiàn)在普通話與漢語(yǔ)方言的語(yǔ)音識(shí)別,大部分仍使用隱馬爾可夫模型(Hidden Markov model,HMM)作為語(yǔ)音識(shí)別系統(tǒng)的基本模型來(lái)建模語(yǔ)音信號(hào)的時(shí)序性。但如果考慮了普通話及漢語(yǔ)方言的上下文發(fā)音的特點(diǎn)后,其模型參數(shù)無(wú)法得到充分的訓(xùn)練,語(yǔ)音識(shí)別率會(huì)受到較大影響[1]。而本文提到的深度神經(jīng)網(wǎng)絡(luò),是一種含有多個(gè)隱含層的前向神經(jīng)網(wǎng)絡(luò)即深度神經(jīng)網(wǎng)絡(luò)(Deep nerual network,DNN),每一層都單獨(dú)訓(xùn)練(包括最后一層的分類器),使得我們可以在有限的訓(xùn)練數(shù)據(jù)下可以使模型參數(shù)得到更加充分的訓(xùn)練。
盡管DNN在英文的語(yǔ)音識(shí)別任務(wù)上的優(yōu)勢(shì)得到了相關(guān)的證明,但是DNN在普通話尤其是漢語(yǔ)方言連續(xù)語(yǔ)音識(shí)別中的應(yīng)用尚未深入研究。本文運(yùn)用DNN模型的思想,研究將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用到普通話與四川話方言語(yǔ)音識(shí)別的聲學(xué)建模當(dāng)中,成功搭建了普通話與四川話方言的DNN模型語(yǔ)音識(shí)別系統(tǒng),整理了訓(xùn)練和測(cè)試相應(yīng)數(shù)據(jù),設(shè)計(jì)并實(shí)現(xiàn)了模型需要使用到的一些腳本,如訓(xùn)練腳本、解碼腳本等;以三音素HMM為基本模型,通過(guò)對(duì)普通話與四川話方言DNN模型訓(xùn)練和測(cè)試,以及一系列模型優(yōu)化措施,得到最終DNN訓(xùn)練模型。本研究針對(duì)不同語(yǔ)料庫(kù)進(jìn)行相應(yīng)的模型測(cè)試,并對(duì)結(jié)果進(jìn)行對(duì)比及分析。
深度神經(jīng)網(wǎng)絡(luò)是一個(gè)多隱含層感知器,對(duì)于相鄰的兩層節(jié)之點(diǎn)間采用全連通,整個(gè)網(wǎng)絡(luò)采用無(wú)監(jiān)督學(xué)習(xí)的預(yù)訓(xùn)練方來(lái)生成初始權(quán)重,最后一個(gè)隱含層和輸出層之間使用Softmax方法[1],再通過(guò)BP算法來(lái)調(diào)整整個(gè)網(wǎng)絡(luò)的參數(shù)。其結(jié)構(gòu)如圖1所示:
圖1 深度神經(jīng)網(wǎng)絡(luò)
深度神經(jīng)網(wǎng)絡(luò)屬于深度學(xué)習(xí)模型中的一種,而深度學(xué)習(xí)模型的優(yōu)點(diǎn)主要體現(xiàn)在:①著重強(qiáng)調(diào)了模型的深度結(jié)構(gòu);②突出了大數(shù)據(jù)對(duì)于完善復(fù)雜模型的重要性。當(dāng)訓(xùn)練數(shù)據(jù)具備足夠的多樣性和復(fù)雜性,深度模型能真正展現(xiàn)對(duì)海量數(shù)據(jù)強(qiáng)大的建模能力;③強(qiáng)調(diào)了特征學(xué)習(xí)的思想。數(shù)據(jù)在原始特征空間的表示,經(jīng)過(guò)網(wǎng)絡(luò)的多次非線性映射變換到新的特征空間,最終使得分類或預(yù)測(cè)變得更簡(jiǎn)單[2]。
而將DNN深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)音識(shí)別,其具體做法構(gòu)建基于DNN-HMM混合的聲學(xué)模型中。其中DNN的作用在于替換原先的GMM模型,估算HMM狀態(tài)的后驗(yàn)概率。對(duì)于給定時(shí)刻t的特征觀察矢量Ovt,在DNN中釆用Softmax函數(shù)計(jì)算HMM狀態(tài)出現(xiàn)的概率,狀態(tài)為:
其中,avt(s)為輸出層狀態(tài)s的激活概率(輸出值):
式(2)中,P(s)表示訓(xùn)練數(shù)據(jù)中狀態(tài)s出現(xiàn)的先驗(yàn)概率。
網(wǎng)絡(luò)釆用BP算法,通過(guò)最優(yōu)化給定的目標(biāo)函數(shù)來(lái)完成訓(xùn)練。
對(duì)于深度神經(jīng)網(wǎng)絡(luò),通常以交叉熵作為目標(biāo)函數(shù),優(yōu)化過(guò)程通過(guò)隨機(jī)梯度下降算法實(shí)現(xiàn)。具體而言,對(duì)于如語(yǔ)音識(shí)別這種多狀態(tài)分類問(wèn)題,以對(duì)數(shù)概率的負(fù)值作為目標(biāo)函數(shù),如式(3)所示:
式(3)中,sut是1時(shí)刻的狀態(tài)。FCE狀態(tài)標(biāo)簽與預(yù)測(cè)狀態(tài)分布y(s)之間的交叉熵。目標(biāo)函數(shù)與輸出層節(jié)點(diǎn)s輸入avt(s)之間的梯度記為:
式(4)δs;sut是克羅內(nèi)克函數(shù),滿足:
由式(5),根據(jù)BP反向傳播算法,調(diào)節(jié)網(wǎng)絡(luò)參數(shù)。
結(jié)合了深度神經(jīng)網(wǎng)絡(luò)的DNN-HMM聲學(xué)模型,相比于單單基于三音素的隱馬爾可夫模型構(gòu)造的聲學(xué)模型而言,其優(yōu)勢(shì)在于:①使用DNN估計(jì)HMM的狀態(tài)的后驗(yàn)概率分布不需要對(duì)語(yǔ)音數(shù)據(jù)分布進(jìn)行假設(shè);②DNN的輸入特征可以是多種特征的融合,包括離散或者連續(xù)的;③DNN可以利用相鄰的語(yǔ)音幀所包含的結(jié)構(gòu)信息。在文獻(xiàn)[3]中的研究表明,DNN的性能提升主要是歸功于第3點(diǎn)。
Kaldi語(yǔ)音識(shí)別系統(tǒng)開(kāi)發(fā)平臺(tái)是由Daniel Povey[4]等人開(kāi)發(fā)的語(yǔ)音識(shí)別系統(tǒng),主要由C++語(yǔ)言實(shí)現(xiàn),可以在Linux、Unix、Windows環(huán)境下編譯。Kaldi的官方網(wǎng)站是http://kaldi.sourceforge.net。
Kaldi主要依賴外部的兩個(gè)開(kāi)源庫(kù),OpenFst和BLAS/LAPACK。模塊的兩部分通過(guò)Decodable接口連接。Kaldi將各個(gè)模型的訓(xùn)練集成在腳本當(dāng)中,通過(guò)腳本來(lái)構(gòu)造語(yǔ)音識(shí)別系統(tǒng),其系統(tǒng)框架圖如圖2所示。
圖2 Kaldi語(yǔ)音識(shí)別系統(tǒng)開(kāi)發(fā)平臺(tái)
安裝好Kaldi之后,cd/home/kaldi/kaldi-trunk;ls顯示該目錄的文件內(nèi)容見(jiàn)表一,其中比較重要的文件夾是“src”、“tools”。
“tools”文件夾是Kaldi所依賴的一些外部庫(kù)函數(shù),有openfst和ATLAS。openfst是一個(gè)構(gòu)建,組合,優(yōu)化和搜索加權(quán)有限狀態(tài)器的庫(kù),加權(quán)有限狀態(tài)轉(zhuǎn)換器是自動(dòng)機(jī),其每個(gè)轉(zhuǎn)換都應(yīng)包含輸入標(biāo)簽,輸出標(biāo)簽和加權(quán),有限狀受體通常是一組字符串;有限狀態(tài)轉(zhuǎn)換器是用來(lái)表示對(duì)字符串之間的轉(zhuǎn)換關(guān)系;權(quán)重用來(lái)表示特定過(guò)渡的成本。
“src”文件夾中的“configure”腳本負(fù)責(zé)設(shè)置Kaldi使用的庫(kù),它在“src”目錄下創(chuàng)建“kaldi.mk”文件,通過(guò)此文件將合適的參數(shù)傳遞給編譯器。Kaldi.mk的內(nèi)容設(shè)計(jì)到Kaldi所調(diào)用到外部數(shù)據(jù)庫(kù)安裝路徑。
表1 Kaldi文件夾
表2 egs文件夾
3.1實(shí)驗(yàn)數(shù)據(jù)語(yǔ)料庫(kù)
實(shí)驗(yàn)普通話語(yǔ)料庫(kù)采用的是北京交通大學(xué)的泛在網(wǎng)絡(luò)與數(shù)字媒體實(shí)驗(yàn)室的語(yǔ)音庫(kù)。語(yǔ)音庫(kù)包含23000句左右的訓(xùn)練數(shù)據(jù)和500句測(cè)試數(shù)據(jù)。語(yǔ)音庫(kù)大約有40小時(shí)左右,每句話時(shí)長(zhǎng)為5~10秒,發(fā)音內(nèi)容覆蓋所有常用漢語(yǔ)音節(jié)。
實(shí)驗(yàn)四川話方言語(yǔ)料庫(kù)是由1500條四川方言語(yǔ)音(涵蓋四川方言中成渝片及灌赤片)構(gòu)成。其中80%數(shù)據(jù)來(lái)源為四川地區(qū)本土風(fēng)情影視作品,20%數(shù)據(jù)來(lái)源為10個(gè)說(shuō)話人(男性:5人,女性:5人)。需要注意的是四川方言聲母比普通話要少,還有韻母化現(xiàn)象,只有舌尖前音,沒(méi)有舌尖后音,普通話與四川方言在發(fā)音方式上還是存在較大的區(qū)別,所以在識(shí)別單元設(shè)置中采用不同的方法。
3.2識(shí)別單元設(shè)置
在語(yǔ)音學(xué)和音韻學(xué)中,普通話及漢語(yǔ)各個(gè)方言跟英文等其他語(yǔ)言存在著較大的差異,我們需要根據(jù)普通話及漢語(yǔ)方言的發(fā)音特點(diǎn)來(lái)設(shè)計(jì)聲學(xué)模型識(shí)別單元來(lái)使得實(shí)驗(yàn)結(jié)果有著更好的準(zhǔn)確性。在音韻學(xué)中,音節(jié)是最自然的語(yǔ)音單位,而音素是最小的語(yǔ)音單位,在普通話中對(duì)應(yīng)的是聲母和韻母,另外,為了能更好地表示普通話的發(fā)音特點(diǎn),普通話的識(shí)別單元中還添加包含了聲調(diào)的信息[5]。而在四川話方言中,僅僅是用聲韻母來(lái)構(gòu)造對(duì)應(yīng)的識(shí)別單元。其兩者的識(shí)別單元設(shè)置如表3所示。
表3 普通話與四川話方言識(shí)別單元設(shè)置
注:表中比如A(1-5)代表韻母A的5個(gè)帶音調(diào)單元A1,A2,A3,A4,A5,5為輕聲調(diào)
3.3數(shù)據(jù)準(zhǔn)備
在使用Kaldi進(jìn)行語(yǔ)音識(shí)別訓(xùn)練之前,需要準(zhǔn)備相應(yīng)的訓(xùn)練數(shù)據(jù)與語(yǔ)言數(shù)據(jù),本實(shí)驗(yàn)用到的普通話和四川話方言的語(yǔ)料庫(kù)原始音頻文件分別放在msr與scdsr對(duì)應(yīng)的data文件夾中。
準(zhǔn)備好原始音頻數(shù)據(jù)之后,我們需要建立相對(duì)應(yīng)的聲學(xué)模型和語(yǔ)言模型,在data/train下手動(dòng)創(chuàng)建text、utt2spk、wav.scp三個(gè)文件,其中text文本文件包含著每一位說(shuō)話者的語(yǔ)音內(nèi)容,wav.scp文件包含了提取原始wav格式音頻文件的命令,utt2spk文件用來(lái)指明某一段發(fā)音是哪由一個(gè)說(shuō)話人發(fā)出的。接著運(yùn)行run.sh腳本自動(dòng)生成剩余的訓(xùn)練數(shù)據(jù)文件,完成訓(xùn)練數(shù)據(jù)的準(zhǔn)備。
接著在data/lang下運(yùn)行run.sh腳本自動(dòng)生成的相應(yīng)的語(yǔ)言數(shù)據(jù)。其中,phones是一個(gè)文件夾,其目錄下
本文的主要工作是在egs目錄下新建的msr/s5和scdsr/s5中完成,其中主要的文件內(nèi)容為:包含許多關(guān)于音素集的信息,分別以.csl、.int和.txt三種格式保存同一類信息;phones.txt和words.txt是兩個(gè)符合OpenFst格式定義的符號(hào)表(symbol-table)文件,用于在音素符號(hào)的文本形式和數(shù)字形式之間的轉(zhuǎn)換;文件L.fst與Ldisambig.fst是發(fā)音字典;文件oov.text里面只包含一個(gè)詞sil,在訓(xùn)練過(guò)程中所有詞匯表以外的詞都會(huì)被映射為這個(gè)詞;文件topo指明了實(shí)驗(yàn)中所用的隱馬爾可夫模型拓?fù)浣Y(jié)構(gòu)信息。最后,運(yùn)行prepare-lang.sh腳本自動(dòng)生成剩余的語(yǔ)言數(shù)據(jù)文件,完成語(yǔ)言數(shù)據(jù)的準(zhǔn)備,具體流程如圖3所示。
圖3 數(shù)據(jù)準(zhǔn)備
3.4模型訓(xùn)練
Kaldi調(diào)用shell和perl腳本來(lái)實(shí)現(xiàn)所有的模型訓(xùn)練和解碼過(guò)程。Kaldi可以進(jìn)行基礎(chǔ)的隱馬爾可夫模型訓(xùn)練,以及在隱馬爾可夫模型為基礎(chǔ)模型上進(jìn)行深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練,還可以進(jìn)行許多優(yōu)化算法的訓(xùn)練。本文實(shí)驗(yàn)首先進(jìn)行了基本的GMM-HMM模型訓(xùn)練,然后用經(jīng)過(guò)線性區(qū)分分析后的訓(xùn)練結(jié)果作為DNN訓(xùn)練的基礎(chǔ),構(gòu)造DNN-HMM模型,最后將兩個(gè)模型分別對(duì)普通話與四川話方言語(yǔ)料庫(kù)進(jìn)行語(yǔ)音識(shí)別處理,對(duì)性能結(jié)果進(jìn)行比較分析從而得出結(jié)論。其中具體涉及到的主要腳本如表4所示:
(1)GMM-HMM模型訓(xùn)練
首先,對(duì)準(zhǔn)備好的輸入語(yǔ)音數(shù)據(jù)進(jìn)行特征提取,作為要訓(xùn)練的聲學(xué)模型的輸入,調(diào)用trainmono.sh腳本訓(xùn)練HMM的單音素模型。訓(xùn)練完單音素模型之后,我們考慮在單音素左右音素的影響,即采用ABC這種形式來(lái)表示三音素模型,中間為當(dāng)前狀態(tài),前后為上下文,調(diào)用traindeltas.sh腳本來(lái)訓(xùn)練基于三音素的隱馬爾可夫模型,聲學(xué)模型加入三音素后,使得模型可以更加細(xì)化,識(shí)別性能提升。
表4 訓(xùn)練腳本
三音素隱馬爾可夫模型訓(xùn)練完成之后,接著對(duì)其進(jìn)行優(yōu)化,例如線性判別特征分析(LDA)和最大相似度線性特征轉(zhuǎn)換(MLLT)。調(diào)用trainsat.sh腳本對(duì)三音素聲學(xué)模型進(jìn)行發(fā)音自適應(yīng)歸一化訓(xùn)練(SAT)。
實(shí)驗(yàn)中GMM-HMM訓(xùn)練過(guò)程如表5所示:
表5 基礎(chǔ)模型訓(xùn)練過(guò)程
(2)DNN-HMM模型訓(xùn)練
實(shí)驗(yàn)中,使用強(qiáng)制對(duì)齊后并經(jīng)過(guò)LDA+MLLT+SAT優(yōu)化后的三音素隱馬爾可夫模型作為DNN訓(xùn)練的基礎(chǔ)模型。Kaldi中提供了兩種深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練方法,一種是Karel Vesely版本,另一種為Daniel Povey版本,本實(shí)驗(yàn)采用的是前者,其構(gòu)造的深度神經(jīng)網(wǎng)絡(luò)共有6個(gè)隱藏層,1個(gè)輸入層和1個(gè)輸出層。6個(gè)隱藏層各為1024節(jié)點(diǎn)。然后我們需要選出普通話與四川話方言語(yǔ)料庫(kù)中的各500句話作為測(cè)試集。
DNN模型訓(xùn)練主要分為三個(gè)階段:
①基于基于RBMS(受限波爾滋蔓機(jī)),對(duì)每一層進(jìn)行預(yù)訓(xùn)練;
②每一幀進(jìn)行交叉熵訓(xùn)練;
③用格子框架通過(guò)sMBR準(zhǔn)則 (狀態(tài)的最小貝葉斯風(fēng)險(xiǎn)),對(duì)序列的區(qū)分性訓(xùn)練。
在預(yù)訓(xùn)練中,我們將句子級(jí)別和幀級(jí)別上分別置亂來(lái)模仿從訓(xùn)練數(shù)據(jù)分布里提取樣本,每一個(gè)Minibatch更新一次。在交叉熵訓(xùn)練中,用BP算法對(duì)DNN進(jìn)行訓(xùn)練,由DNN計(jì)算得到的預(yù)估概率分布之間的交叉熵作為目標(biāo)函數(shù),在通過(guò)Mini-batch隨機(jī)梯度下降算法來(lái)將每一幀分成三音素狀態(tài)來(lái)訓(xùn)練,默認(rèn)的學(xué)習(xí)率為0.008,,Mini-batch的大小為256。模型學(xué)習(xí)率在最初的幾次迭代中是保持不變的,當(dāng)訓(xùn)練的準(zhǔn)確率趨于穩(wěn)定時(shí)(這意味著繼續(xù)訓(xùn)練不會(huì)有性能的提升),我們將學(xué)習(xí)率減半,直到它再次停止提高。
每訓(xùn)練完一個(gè)模型之后都需要用mkgraph.sh腳本來(lái)建立模型相對(duì)應(yīng)的識(shí)別網(wǎng)絡(luò),以方便以后對(duì)解碼過(guò)程,調(diào)用decode.sh腳本進(jìn)行解碼之后,輸出的結(jié)果為詞錯(cuò)誤率(WER),也就是我們需要對(duì)其進(jìn)行分析的測(cè)試結(jié)果。
在scdsr/exp中包含了Mono,Monoali,Tri1,Tri1ali,Tri2b,Tri2bali,Tri3b,Tri3bali,dnn4pretraindbn等模型文件夾,其中各個(gè)模型目錄下包含了該模型的詳細(xì)信息,例如graph識(shí)別網(wǎng)絡(luò)文件夾,log日志文件夾,decode解碼部分文件夾等以及對(duì)應(yīng)的final.mdl模型。
3.5實(shí)驗(yàn)結(jié)果及分析
采用上述步驟訓(xùn)練出來(lái)的GMM-HMM與DNNHMM模型,對(duì)普通話與四川話方言語(yǔ)料庫(kù)分別進(jìn)行語(yǔ)音識(shí)別性能測(cè)試,實(shí)驗(yàn)結(jié)果用詞錯(cuò)率WER(Word Error Rate)作為指標(biāo)來(lái)統(tǒng)計(jì)結(jié)果,詞錯(cuò)率反映了語(yǔ)音識(shí)別性能的高低,詞錯(cuò)率越低說(shuō)明語(yǔ)音識(shí)別效果越好,模型越好。實(shí)驗(yàn)結(jié)果如表六和表7所示:
表6 普通話語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果
表7 四川話方言語(yǔ)料庫(kù)實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果表明:
(1)在普通話語(yǔ)料庫(kù)中,DNN-HMM的聲學(xué)建模方法相比于傳統(tǒng)GMM-HMM聲學(xué)建模方法,前者的詞錯(cuò)率比后者降低了11.12%,相對(duì)下降率為50.7%,甚至比優(yōu)化后的GMM-HMM聲學(xué)模型還要降低1.72%,相對(duì)下降率為13.72%,這說(shuō)明在普通話語(yǔ)料庫(kù)中,DNN模型比傳統(tǒng)的基于三音素的隱馬爾可夫模型性能更優(yōu),對(duì)語(yǔ)音數(shù)據(jù)有著更好的識(shí)別能力。
(2)在四川話方言語(yǔ)料庫(kù)中,DNN-HMM的聲學(xué)建模方法相比于傳統(tǒng)GMM-HMM聲學(xué)建模方法,前者的詞錯(cuò)率比后者略有降低,只降低了0.77%,相對(duì)下降率僅為5.07%,其識(shí)別性能比經(jīng)過(guò)優(yōu)化后的GMM-HMM聲學(xué)模型要差。
實(shí)驗(yàn)結(jié)果分析:
DNN-HMM在四川話方言語(yǔ)料庫(kù)中語(yǔ)音識(shí)別性能不佳的原因可能有:
(1)相比于普通話語(yǔ)料庫(kù)的23000條音頻文件,四川話方言語(yǔ)料庫(kù)總共1500條音頻文件,整體語(yǔ)音數(shù)據(jù)量太少。而數(shù)據(jù)量對(duì)于DNN訓(xùn)練而言,有著較為重要的影響,從而導(dǎo)致了DNN模型最后的識(shí)別效果較差。
(2)相比于普通話語(yǔ)料庫(kù)的標(biāo)準(zhǔn)音頻文件(這里的“標(biāo)準(zhǔn)”是指在較好的錄制條件下的錄音),四川話方言語(yǔ)料庫(kù)整體語(yǔ)音數(shù)據(jù)質(zhì)量并不高,由于其大多數(shù)音頻文件剪輯于影視作品,其背景噪音較為嚴(yán)重,對(duì)語(yǔ)音識(shí)別的訓(xùn)練造成了較為大的影響,也導(dǎo)致了DNN模型最后的識(shí)別結(jié)果不理想。
(3)相比于普通話的識(shí)別設(shè)置單元,四川話方言的識(shí)別設(shè)置單元并不完全涵蓋四川話方言發(fā)音,僅僅只是包含了韻母與聲母,沒(méi)有像在普通話的識(shí)別設(shè)置單元中加入聲調(diào),導(dǎo)致最后的DNN模型識(shí)別結(jié)果較差。
深度神經(jīng)網(wǎng)絡(luò)模型相對(duì)于傳統(tǒng)的基于三音素的隱馬科夫模型,對(duì)海量復(fù)雜數(shù)據(jù)有著較好的建模能力,在識(shí)別單元設(shè)置合理的情況下,能夠?qū)A繌?fù)雜的數(shù)據(jù)進(jìn)行充分的訓(xùn)練,可以獲得更好的語(yǔ)音識(shí)別效果。本文以Kaldi為識(shí)別平臺(tái),以隱馬爾可夫模型為基本模型,進(jìn)行模型優(yōu)化訓(xùn)練,最后成功搭建了漢語(yǔ)及四川話方言的深度神經(jīng)網(wǎng)絡(luò)模型,并對(duì)相關(guān)的普通話及四川話方言語(yǔ)料庫(kù)分別進(jìn)行模型測(cè)試。本實(shí)驗(yàn)測(cè)試中,深度神經(jīng)網(wǎng)絡(luò)在不同語(yǔ)料庫(kù)中的語(yǔ)音識(shí)別性能有所差異。對(duì)于普通話的語(yǔ)音識(shí)別,基于三音素的隱馬爾可夫模型的WER為21.93%,優(yōu)化后的三音素模型的WER為12.53%,最后得到的DNN模型的WER為10.81%。使用DNN模型后,相比基于三音素的隱馬爾可夫模型,其詞錯(cuò)率降低了11.12%,相對(duì)下降率為50.7%。而對(duì)四川話方言的語(yǔ)音識(shí)別,深度神經(jīng)網(wǎng)絡(luò)模型的語(yǔ)音識(shí)別效果近似于隱馬爾可夫模型,鑒于本文的四川話方言語(yǔ)料庫(kù)有限,數(shù)據(jù)質(zhì)量不高,識(shí)別單元設(shè)置不合理,后續(xù)可以更正識(shí)別單元,添加大量的高質(zhì)量數(shù)據(jù),進(jìn)行更好的深度神經(jīng)網(wǎng)絡(luò)的構(gòu)造與訓(xùn)練。
[1]其米克·巴特西,黃浩,王羨慧.基于深度神經(jīng)網(wǎng)絡(luò)的維吾爾語(yǔ)語(yǔ)音識(shí)別[J].計(jì)算機(jī)工程與設(shè)計(jì),2015(8):2239-2244.
[2]Li J,Yu D,Huang J T,et al.Improving Wideband Speech Recognition Using Mixed-Bandwidth Training Data in CD-DNN-HMM[J]. IEEE Workshop on Spoken Language Technology,2012,8537(11):131-136.
[3]余凱,賈磊,陳雨強(qiáng),等.深度學(xué)習(xí)的昨天、今天和明天[J].計(jì)算機(jī)研究與發(fā)展,2013,50(9):1799-1804.
[4]Pan J,Liu C,Wang Z,et al.Investigation of Deep Neural Networks(DNN)for Large Vocabulary Continuous Speech Recognition:Why DNN Surpasses GMMS in Acoustic Modeling[J].IEEE,2012,7196(8):301-305.
[5]Povey D,Burget L,Agarwal M,et al.The Subspace Gaussian Mixture Model—A Structured Model for Speech Recognition[J].Computer Speech&Language,2011,25(2):404–439.
[5]張德良.深度神經(jīng)網(wǎng)絡(luò)在中文語(yǔ)音識(shí)別系統(tǒng)中的實(shí)現(xiàn)[D].北京交通大學(xué),2015.
Deep Neural Network;Speech Recognition;Hidden Markov Model
Research on Speech Recognition Based on Deep Neural Network
HUANG Wei,SHI Jia-yin
(College of Software Engineering,Sichuan University,Chengdu 610065)
1007-1423(2016)07-0020-06
10.3969/j.issn.1007-1423.2016.07.005
黃威(1995-),男,浙江溫州人,本科,研究方向?yàn)闄C(jī)器智能
石佳影(1995-),女,河北唐山人,本科,研究方向?yàn)闄C(jī)器智能2016-01-15
2016-02-19
目前,普通話與漢語(yǔ)方言語(yǔ)音識(shí)別主要采用的是三音素的隱馬爾可夫模型,其語(yǔ)音識(shí)別率并不是很高。以Kaldi為測(cè)試平臺(tái),通過(guò)訓(xùn)練得到一個(gè)含有6個(gè)隱層的深度神經(jīng)網(wǎng)絡(luò)模型,利用該模型對(duì)普通話與四川話方言分別進(jìn)行語(yǔ)音識(shí)別。實(shí)驗(yàn)結(jié)果表明,深度神經(jīng)網(wǎng)絡(luò)在普通話語(yǔ)料庫(kù)中的語(yǔ)音識(shí)別性能要優(yōu)于三音素的隱馬爾可夫模型,詞錯(cuò)率降低11.2%。而在四川話方言語(yǔ)料庫(kù)訓(xùn)練集上的識(shí)別率與三音素的隱馬爾可夫模型相當(dāng)。
深度神經(jīng)網(wǎng)絡(luò);語(yǔ)音識(shí)別;隱馬爾可夫
Currently mandarin and Chinese dialect speech recognition are mainly achieved by using the triphone hidden Markov model,however,the speech recognition rate is not very well.Based on a neural network containing six hidden layers which is trained by the Kaldi platform,and uses the model for the mandarin and Sichuan dialect recognition.The experimental results show that the speech recognition performance is improved in the DNN model compared to that using the HMM triphone model in the mandarin corpus,which reduces the word error rate by 11.2%.But the performance based on DNN model is similar to that using the HMM triphone model in Sichuan Dialect corpus.