王 輝,趙 悅,劉曉鳳,徐曉娜,周 楠,許彥敏
(中央民族大學(xué)信息工程學(xué)院,北京100081)
基于深度特征學(xué)習(xí)的藏語語音識(shí)別
王 輝,趙 悅,劉曉鳳,徐曉娜,周 楠,許彥敏
(中央民族大學(xué)信息工程學(xué)院,北京100081)
根據(jù)聽覺語音學(xué)的知識(shí),提出使用稀疏自動(dòng)編碼器在MFCC特征基礎(chǔ)上進(jìn)行深度學(xué)習(xí),提取了深度特征模仿聽覺神經(jīng)的稀疏觸動(dòng)信號(hào),有利于HMM模型語音識(shí)別精度的提高.實(shí)驗(yàn)結(jié)果顯示,學(xué)習(xí)到的深度特征較MFCC特征在藏語語音識(shí)別正確率方面有明顯提高.
深度特征學(xué)習(xí);稀疏自動(dòng)編碼器;藏語語音識(shí)別;MFCC特征
圖1 聲音傳入聽覺中樞過程
根據(jù)聽覺語音學(xué)、心理語言學(xué)理論及人耳構(gòu)造知識(shí)可知,耳蝸實(shí)質(zhì)上相當(dāng)于一個(gè)濾波器組,耳蝸的濾波作用是在對(duì)數(shù)頻率尺度上進(jìn)行的;耳蝸中有一個(gè)重要的部分稱為基底膜,在基底膜之上是柯蒂氏器官,它相當(dāng)于一種傳感裝置,耳蝸內(nèi)的流體速度變化,可影響柯蒂氏器官上的毛細(xì)胞膜兩邊電位變化,在一定條件下造成聽覺神經(jīng)的發(fā)放和抑制,最后聲音經(jīng)聽神經(jīng)傳入大腦的聽覺中樞完成語音的感知功能.[1]其過程如圖1所示.
在語音識(shí)別研究中,由于美爾倒譜系數(shù)(Mel Frequency Cepstrum Coefficient,MFCC)模擬了人耳對(duì)聲音頻率的感知,反映了人耳的聽覺特性,因此被廣泛用來作為語音識(shí)別模型的輸入特征,而大多數(shù)的識(shí)別模型采用了HMM (Hidden Markov Model)模型.目前,在藏語語音識(shí)別研究中,多數(shù)的研究者也是采用了這種淺層學(xué)習(xí)的建模方法,例如文獻(xiàn)[2-4]采用了39維的MFCC特征,構(gòu)建了藏語拉薩話的音素和聲韻母HMM識(shí)別模型.淺層模型的一個(gè)共性是僅含單個(gè)將原始輸入信號(hào)轉(zhuǎn)換到特定問題空間特征的簡單結(jié)構(gòu)[5].考慮到人腦對(duì)語音識(shí)別的機(jī)理,這種淺層語音識(shí)別建模并不能模擬出人腦的語音識(shí)別機(jī)理,主要是未能反映出聲音的頻率如何轉(zhuǎn)變?yōu)槁犛X神經(jīng)的觸動(dòng)信號(hào),因此基于淺層學(xué)習(xí)的語音識(shí)別系統(tǒng)的識(shí)別率仍有待提高.
盡管人們利用了人工神經(jīng)網(wǎng)絡(luò)模擬人腦的語音識(shí)別過程[6-7],但是受限于后向傳播算法的梯度擴(kuò)散、學(xué)習(xí)的局部最優(yōu)和非稀疏性等問題,它不能夠很好地模擬人腦語音識(shí)別的過程.
近年來,深度學(xué)習(xí)方法克服了傳統(tǒng)人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的缺點(diǎn),采用無監(jiān)督的學(xué)習(xí)機(jī)制和隱層神經(jīng)元的稀疏性限制,建立了和模擬人腦進(jìn)行分析學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),更為合理地刻畫了人腦的機(jī)制來解釋數(shù)據(jù).[8-10]因此,本文提出使用稀疏自動(dòng)編碼器(sparse auto-encoder,SA)在MFCC特征上進(jìn)行深度學(xué)習(xí),提取深度特征,以模擬聲音頻率轉(zhuǎn)化為聽覺神經(jīng)稀疏觸動(dòng)信號(hào)的過程,即代表人耳聽覺特性的MFCC特征,經(jīng)過稀疏自動(dòng)編碼器轉(zhuǎn)化為稀疏聽覺神經(jīng)信號(hào),最后傳入代表聽覺中樞的HMM模型,實(shí)現(xiàn)語音識(shí)別.
本文描述了基于深度特征學(xué)習(xí)的語音識(shí)別系統(tǒng)框架,介紹了一種簡單而有效的深度學(xué)習(xí)方法——稀疏自動(dòng)編碼器,給出了基于深度特征學(xué)習(xí)的藏語語音識(shí)別聲學(xué)建模算法.
目前,已有的基于MFCC特征和HMM模型的語音識(shí)別系統(tǒng)采用了如圖2所示的框架.
圖2 基于MFCC特征和HMM模型的語音識(shí)別系統(tǒng)
該系統(tǒng)將語音的MFCC特征作為HMM模型的輸入觀測特征,建立各個(gè)語音類別模型,它屬于淺層學(xué)習(xí),并沒有模擬出人腦分析和解釋輸入數(shù)據(jù)的過程.
另一種語音識(shí)別方法采用了人工神經(jīng)網(wǎng)絡(luò)和HMM模型構(gòu)建聲學(xué)識(shí)別模型,如圖3所示.該系統(tǒng)中神經(jīng)網(wǎng)絡(luò)由包括輸入層、隱層、輸出層組成的多層網(wǎng)絡(luò),只有相鄰層節(jié)點(diǎn)之間有連接,同一層以及跨層節(jié)點(diǎn)之間相互無連接,這種分層結(jié)構(gòu)比較接近人類大腦的結(jié)構(gòu).但是傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)的訓(xùn)練采用反向傳播的方式進(jìn)行,其迭代訓(xùn)練于整個(gè)網(wǎng)絡(luò),隨機(jī)設(shè)定初值,計(jì)算當(dāng)前網(wǎng)絡(luò)的輸出,然后根據(jù)當(dāng)前輸出和真實(shí)類值的差去改變前面各層的參數(shù),直到收斂.這種訓(xùn)練方式的主要缺陷:受初值設(shè)定影響較大,容易陷入局部最優(yōu)和過擬合[11];殘差傳播到最前面的層會(huì)變得太小,出現(xiàn)梯度擴(kuò)散;隱層神經(jīng)元的觸發(fā)不受稀疏性制約,因?yàn)槿四X雖有大量的神經(jīng)元,但對(duì)于某些聲音只有很少的神經(jīng)元興奮,其他都處于抑制狀態(tài),因此每層神經(jīng)元的觸發(fā)信號(hào)應(yīng)該是稀疏的.
本文引入了深度學(xué)習(xí)機(jī)制,通過自下而上的逐層無監(jiān)督預(yù)訓(xùn)練(認(rèn)知過程)和自上而下的權(quán)重調(diào)優(yōu)(生成過程)獲取語音輸入數(shù)據(jù)的深度特征,學(xué)習(xí)避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)陷入局部最優(yōu)、梯度發(fā)散和非稀疏性等問題.深度學(xué)習(xí)方法讓認(rèn)知和生成達(dá)成一致,保證了生成的最頂層表示(高層特征),能夠盡可能正確地復(fù)原底層的結(jié)點(diǎn)(低層特征),也就是說高層的特征是低層特征的組合,從低層到高層的特征表示越來越抽象,越來越能表現(xiàn)數(shù)據(jù)的語義或者意圖.而抽象層面越高,存在的可能猜測就越少,就越有利于分類.比如頂層的一個(gè)結(jié)點(diǎn)表示某個(gè)字(詞),那么所有該字(詞)的語音應(yīng)該激活這個(gè)結(jié)點(diǎn),并且這個(gè)結(jié)果向下生成的語音應(yīng)該能夠表現(xiàn)為一個(gè)大概的字(詞)語音.本文使用了一種簡單而有效的深度學(xué)習(xí)方法(稀疏自動(dòng)編碼器)來學(xué)習(xí)深度特征,模擬人腦聽覺神經(jīng)對(duì)語音的感知信號(hào),進(jìn)而再將信息匯集到HMM模型進(jìn)行語音類別的區(qū)分.
基于深度學(xué)習(xí)的語音識(shí)別系統(tǒng)框架見圖4,其中深度特征提取器利用稀疏自動(dòng)編碼方法構(gòu)建,語音類別校驗(yàn)器是基于HMM的語音識(shí)別模型.
圖3 基于MFCC特征、人工神經(jīng)網(wǎng)絡(luò)和HMM的語音識(shí)別系統(tǒng)
圖4 基于深度特征學(xué)習(xí)的語音識(shí)別系統(tǒng)
稀疏自動(dòng)編碼器是一種無監(jiān)督的學(xué)習(xí)算法,它讓輸出值等于輸入值.首先介紹只含1個(gè)隱層的稀疏自動(dòng)編碼器(見圖5),然后再介紹棧式稀疏自動(dòng)編碼器(見圖6).
圖5 含1個(gè)隱層稀疏自動(dòng)編碼器
圖6 含2個(gè)隱層的棧式稀疏自動(dòng)編碼器
設(shè)輸入向量x∈RD,隱向量h∈RN代表深度特征,輸入層和隱層之間的映射關(guān)系為
h=σ(W(1)x+b(1)).
(1)
(2)
求得.其中W(2)∈RN×D是解碼矩陣,b(2)∈RD為解碼偏置向量.新的非線性特征可以通過最小化有稀疏約束網(wǎng)絡(luò)的損失函數(shù)
(3)
(4)
棧式稀疏自動(dòng)編碼器是由多個(gè)單層稀疏自動(dòng)編碼器組成的神經(jīng)網(wǎng)絡(luò),其前一層稀疏自編碼器的輸出作為后一層稀疏自編碼器的輸入.對(duì)于一個(gè)含有n層的棧式稀疏自動(dòng)編碼器,h(n)代表第n層的深度特征.
為了得到更好的實(shí)驗(yàn)結(jié)果,我們?cè)跅J较∈枳詣?dòng)編碼器的最頂層加上一個(gè)softmax分類節(jié)點(diǎn),作為語音類別層,將該層的類別后驗(yàn)概率作為學(xué)習(xí)得到的高層特征輸入HMM模型.
使用逐層貪心訓(xùn)練算法訓(xùn)練稀疏自動(dòng)編碼器的參數(shù),主要有預(yù)訓(xùn)練和微調(diào)兩步.預(yù)訓(xùn)練中使用無標(biāo)簽的數(shù)據(jù)樣本,采用無監(jiān)督的方法訓(xùn)練第1層網(wǎng)絡(luò),獲得參數(shù)W(1,1),W(1,2),b(1,1)和b(1,2),然后網(wǎng)絡(luò)第1層將原始輸入轉(zhuǎn)化成由隱藏單元激活值組成的向量.把上層輸出的向量作為第2層的輸入,繼續(xù)訓(xùn)練得到第2層的參數(shù)W(2,1),W(2,2),b(2,1)和b(2,2).對(duì)后面的各層采用同樣的策略,即將前層的輸出作為下一層輸入的方式依次訓(xùn)練.預(yù)訓(xùn)練后,利用帶標(biāo)簽的數(shù)據(jù),使用后向傳播算法對(duì)稀疏自動(dòng)編碼器的所有層參數(shù)同時(shí)進(jìn)行微調(diào).
利用含2個(gè)隱層的棧式稀疏自動(dòng)編碼器模型提取輸入語音數(shù)據(jù)特征的算法描述如下:
(1) 使用無監(jiān)督的方法,基于輸入語音數(shù)據(jù)U的MFCC特征訓(xùn)練稀疏自動(dòng)編碼器的第1隱層網(wǎng)絡(luò)參數(shù),并用訓(xùn)練好的參數(shù)計(jì)算出隱層的輸出,將其作為輸入語音數(shù)據(jù)的深度特征h(1);
(2) 把步驟(1)的輸出特征h(1)作為稀疏自動(dòng)編碼器第2層的輸入,采用步驟(1)同樣的方法得到第2層深度特征h(2);
(3) 把步驟(2)的輸出特征h(2)輸入到softmax分類層,訓(xùn)練softmax分類器,以便輸出語音類別的后驗(yàn)概率;
(4) 使用輸入數(shù)據(jù)U的類別標(biāo)簽微調(diào)具有兩層隱層加softmax分類層的稀疏自動(dòng)編碼器各層參數(shù);
(5) 輸出訓(xùn)練好的稀疏自動(dòng)編碼器;
(6) 把原始數(shù)據(jù)U輸入到訓(xùn)練好的稀疏自動(dòng)編碼器,獲得語音類別的后驗(yàn)概率輸出,然后把后驗(yàn)概率作為HMM模型的輸入觀測值,訓(xùn)練各語音類別的HMM模型.
評(píng)估了在MFCC特征基礎(chǔ)上使用稀疏自動(dòng)編碼器提取深度特征并用于藏語孤立詞語音的識(shí)別.在實(shí)驗(yàn)中比較了MFCC特征、單層稀疏自動(dòng)編碼器、兩層稀疏自動(dòng)編碼器和多層感知器神經(jīng)網(wǎng)絡(luò)(multi-layer perceptron neural networks,MLP neural netwoks)的輸出特征訓(xùn)練HMM模型的識(shí)別結(jié)果.
本文采用了2個(gè)數(shù)據(jù)集:第1個(gè)是34類藏語音素的音頻數(shù)據(jù)集,其中每類音素讀7遍,前5遍作為訓(xùn)練數(shù)據(jù)集,后2遍用于測試,該數(shù)據(jù)集為無噪音語音數(shù)據(jù);第2個(gè)是包含270句話的藏語連續(xù)語音數(shù)據(jù)集,從中提取了29類藏語單音素?cái)?shù)據(jù)進(jìn)行訓(xùn)練和測試.
所有語音數(shù)據(jù)的采樣頻率為8 000 Hz,提取以32 ms為幀長,10 ms為幀移的39維MFCC特征(12維濾波器輸出加上一維對(duì)數(shù)能量及其一階差分和二階差分).稀疏自動(dòng)編碼器和MLP輸入層含有39個(gè)節(jié)點(diǎn),隱層節(jié)點(diǎn)數(shù)都設(shè)為100個(gè),隱層節(jié)點(diǎn)為sigmoid型.稀疏自動(dòng)編碼器的稀疏值懲罰度權(quán)重β=3,稀疏性參數(shù)ρ=0.1,權(quán)重衰減系數(shù)λ=0.003.表1給出了藏語語音識(shí)別的實(shí)驗(yàn)結(jié)果.
表1 藏語語音識(shí)別的正確率 %
從表1的實(shí)驗(yàn)結(jié)果可以看出,使用MLP在MFCC特征基礎(chǔ)上提取的新特征和傳統(tǒng)的MFCC特征相比,在識(shí)別性能方面有明顯地提高.其中,在34個(gè)音素?cái)?shù)據(jù)集上識(shí)別率提高了25%;在29類藏語音素?cái)?shù)據(jù)集上的識(shí)別正確率提升了4.22%.然而,使用稀疏自動(dòng)編碼器在MFCC特征基礎(chǔ)上提取深度特征進(jìn)行語音識(shí)別的正確率,更高于使用MLP提取新特征識(shí)別的正確率.實(shí)驗(yàn)證明,與MFCC特征相比,雖然MLP神經(jīng)網(wǎng)絡(luò)模擬了人腦的語音識(shí)別過程,識(shí)別率有了明顯提高,但是考慮到其本身存在梯度擴(kuò)散、非稀疏性等缺點(diǎn),其識(shí)別效果不如深度學(xué)習(xí)方法.本文使用的稀疏自動(dòng)編碼器在MFCC特征基礎(chǔ)上進(jìn)行深度學(xué)習(xí),很好地模擬了人腦聽覺神經(jīng)對(duì)語音信號(hào)的稀疏觸發(fā)過程,學(xué)習(xí)得到的深度特征更能提高HMM模型的語音識(shí)別精度.
本文應(yīng)用稀疏自動(dòng)編碼器提取深度語音特征,在藏語孤立詞語音識(shí)別應(yīng)用的實(shí)驗(yàn)中,這種深度學(xué)習(xí)方法提取的語音特征比MFCC特征和MLP特征能更好地模擬聲音頻率信號(hào)轉(zhuǎn)化為聽覺神經(jīng)稀疏觸動(dòng)信號(hào),使語音識(shí)別模型的性能有了進(jìn)一步地提升.
以后我們將使用更大規(guī)模的數(shù)據(jù)集,測試藏語連續(xù)語音識(shí)別的準(zhǔn)確率,進(jìn)一步驗(yàn)證語音深度特征學(xué)習(xí)方法的有效性.
[1] 韓紀(jì)慶,張磊,鄭鐵然. 語音信號(hào)處理[M]. 北京:清華大學(xué)出版社,2013:11-12,24-25.
[2] 裴春寶. 基于標(biāo)準(zhǔn)拉薩語的藏語語音識(shí)別技術(shù)研究[D].拉薩:西藏大學(xué),2009.
[3] MENG MENG.藏語拉薩話大詞表連續(xù)語音識(shí)別聲學(xué)模型研究.[J].計(jì)算機(jī)工程,2012,38(5):189-191.
[4] 徐慧. 基于隱馬爾科夫模型的拉薩話語音撥號(hào)技術(shù)研究[D].西北民族大學(xué),2013.
[5] MORGAN N,BOURLARD H. Continuous speech recognition[J]. Signal Processing Magazine,1995,12(3):24-42.
[6] DEDE G,SAZLI M H. Speech recognition with artificial neural networks[J]. Digital Signal Processing,2010,20(3):763-768.
[7] FU G. A novel isolated speech recognition method based on neural network[C]//Proceedings of the International Conference on Information Engineering and Applications (IEA) 2012,Springer:London,2013:429-436.
[8] SIVARAM G S V S,NEMALA S K,ELHILALI M,et al. Sparse coding for speech recognition[C]//Acoustics Speech and Signal Processing (ICASSP),Texas:IEEE,2010:4346-4349.
[9] AHMADI S,AHADI S M,CRANEN B,et al. Sparse coding of the modulation spectrum for noise-robust automatic speech recognition[J]. EURASIP Journal on Audio,Speech,and Music Processing,2014(1):1-20.
[10] O’DONNELL F,TRIEFENBACH F,MARTENS J P,et al. Effects of architecture choices on sparse coding in speech recognition[M]//Artificial Neural Networks and Machine Learning-ICANN,Springer:Berlin Heidelberg,2012:629-636.
[11] SUN ZHI-JUN,XUE LEI,XU YANG-MING,et al. Overview of deep learning[J]. Application Research of Computers,2012(8):2806-2810.
(責(zé)任編輯:石紹慶)
Deep feature learning for tibetan speech recognition
WANG Hui,ZHAO Yue,LIU Xiao-feng,XU Xiao-na,ZHOU Nan,XU Yan-min
(School of Information Engineering,Minzu University of China,Beijing 100081,China)
HMM models based on MFCC features are widely used by researchers in Tibetan speech recognition. Although the shallow models of HMM are effective,they cannot reflect the speech perceptual mechanism in human beings’ brain. In this paper,It is proposed to apply sparse auto-encoder to learn deep features based on MFCC for speech data. The deep features not only simulate sparse touches signal of the auditory nerve,and are significant to improve speech recognition accuracy with HMM models. Experimental results show that the deep features learned by sparse auto-encoder perform better on Tibetan speech recognition than MFCC features and the features learned by MLP.
deep feature learning; sparse auto-encoder; Tibetan speech recognition; MFCC features
1000-1832(2015)04-0069-05
10.16163/j.cnki.22-1123/n.2015.04.015
2014-12-12
國家自然科學(xué)基金資助項(xiàng)目(61309012);教育部人文社科基金資助項(xiàng)目(12YJA630123);中央民族大學(xué)一流大學(xué)一級(jí)學(xué)科資助項(xiàng)目.
王輝(1961—),男,教授,主要從事機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、語音識(shí)別研究.
TP 391;TN 912.34 [學(xué)科代碼] 520·20
A