張瑞珍,韓躍平,張曉通
(中北大學(xué) 信息與通信工程學(xué)院,山西 太原 030051)
語音識(shí)別提出至今已經(jīng)有60多年,隨著新型架構(gòu)的提出以及計(jì)算機(jī)計(jì)算能力的提升,自動(dòng)語音識(shí)別的性能已經(jīng)基本滿足了日常使用的需求. 過去,最流行的語音識(shí)別系統(tǒng)通常采用梅爾倒譜系數(shù)[1]或者“相對頻譜變換-感知線性預(yù)測”[2]作為特征向量,使用混合高斯模型-隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model,GMM-HMM)作為聲學(xué)模型,它描述了兩個(gè)相互依賴的隨機(jī)過程. 混合高斯模型將聲學(xué)模型轉(zhuǎn)換為隱馬爾可夫狀態(tài),隱馬爾可夫模型被用來處理語音聲學(xué)序列的時(shí)間特征[3]. 近些年,隨著計(jì)算能力的不斷提升和大規(guī)模數(shù)據(jù)集的出現(xiàn),深度神經(jīng)網(wǎng)絡(luò)逐步興起[4]. DNN-HMM模型利用了DNN的表現(xiàn)學(xué)習(xí)能力和HMM的序列化建模能力,再次提升了語音識(shí)別系統(tǒng)的準(zhǔn)確性. 在這個(gè)框架中,HMM用來描述語音信號(hào)的動(dòng)態(tài)變化,而觀察特征的概率則通過DNN來估計(jì). 循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)是神經(jīng)網(wǎng)絡(luò)模型的一種,通過神經(jīng)元的一些鏈接組成了一個(gè)有向環(huán),正是因?yàn)檫@些有向環(huán),使得循環(huán)神經(jīng)網(wǎng)絡(luò)擁有了記憶結(jié)構(gòu),RNN擁有了之前網(wǎng)絡(luò)所沒有的構(gòu)建動(dòng)態(tài)時(shí)序模型的能力. 之后出現(xiàn)的長短時(shí)記憶(Long Short-Term Memory,LSTM)[5]神經(jīng)網(wǎng)絡(luò)進(jìn)一步提高了語音識(shí)別的準(zhǔn)確率,LSTM是一種特殊的RNN,解決了長句依賴的問題.
處理序列信號(hào)的標(biāo)簽問題,傳統(tǒng)的方法是采用隱馬爾可夫模型(HMM)或者條件隨機(jī)場模型(CRF),但是這些架構(gòu)在序列標(biāo)簽方面存在一定的缺陷,HMM狀態(tài)模型的設(shè)計(jì)和CRF輸入特征的選擇都需要大量特定的知識(shí),且這些模型的使用均需要獨(dú)立假設(shè)作為支撐[6]. 為了解決上述問題,Graves提出基于連接時(shí)序分類準(zhǔn)則(Connectionist Temporal Classification,CTC)[7],與之前的混合模型不同的是,CTC方法將輸入序列映射到標(biāo)簽空間,簡化了系統(tǒng)標(biāo)簽與語音幀對齊的步驟.
本文對長短時(shí)記憶網(wǎng)絡(luò)進(jìn)行了改良,在原有的標(biāo)準(zhǔn)LSTM的基礎(chǔ)上加入了深度控制,采用多層記憶元胞構(gòu)成網(wǎng)絡(luò)來進(jìn)行聲學(xué)建模,并用CTC訓(xùn)練準(zhǔn)則來訓(xùn)練神經(jīng)網(wǎng)絡(luò),提高了語音識(shí)別的準(zhǔn)確率.
RNN與DNN最大的不同在于RNN的輸入不僅僅只有語音特征,還包括內(nèi)部狀態(tài). 內(nèi)部狀態(tài)是將過去RNN處理過的時(shí)間序列中的信息進(jìn)行編碼,RNN中所使用的狀態(tài)空間使得它可以學(xué)習(xí)和表示長時(shí)間范圍內(nèi)序列間的相關(guān)性. 簡單的單隱層RNN可以表示為
ht=σ(Whht-1+Wxxt),
(1)
yt=f(Whyht).
(2)
Wx連接K個(gè)輸入單元到N個(gè)隱含層單元.Wh連接N個(gè)隱含層單元從時(shí)刻t-1到時(shí)刻t.Whv連接了N個(gè)隱含層單元到L個(gè)輸出層單元.σ是隱含層激活函數(shù),f是輸出層激活函數(shù).
因?yàn)镽NN中ht與ht-1之間的非線性關(guān)系,RNN會(huì)存在梯度消失和梯度爆炸的問題,使得模型在訓(xùn)練上存在一定的難度. Hochreiter和Schmidhuber最初提出LSTM[5],經(jīng)過改進(jìn)后,標(biāo)準(zhǔn)LSTM輸出表示為[8]
it=σ(Wxixt+Whiht-1+Wcict-1,
(3)
ft=σ(Wxfxt+Whfht-1+Wcfct-1,
(4)
ct=ft⊙ct-1+C′,
(5)
C′=it⊙tanh(Wxcxt+Whcht-1),
(6)
ot=σ(Wxoxt+Whoht-1+Wcoct,
(7)
ht=ot⊙tanh(ct),
(8)
式中:W為各個(gè)階段的權(quán)值矩陣;σ為激活函數(shù);it代表輸入門,表示舊狀態(tài)和預(yù)選信息;ft代表遺忘門,表示在語言模型中需要丟掉的舊話題特征;ct代表神經(jīng)元激活,表示本單元的輸出的話題;ot代表輸出門;ht代表隱層值[9-10]. 長短時(shí)記憶單元的基本思想是利用不同類型的門函數(shù)來控制網(wǎng)絡(luò)中的信息流,LSTM的神經(jīng)元可以長期保存數(shù)據(jù)信息,通過不同的門函數(shù),決定什么時(shí)候該記住輸入信息,什么時(shí)候忘記該信息,以及什么時(shí)候輸出該信息.
相比標(biāo)準(zhǔn)LSTM,深度LSTM加入了深度控制門,連接多層記憶單元,利用深度控制門來控制數(shù)據(jù)從低層的記憶單元流向高層記憶單元. 圖1 展示了深度LSTM的基本cell單元. 通過深度控制門連接上下兩層LSTM,每層cell單元均有各自的當(dāng)前狀態(tài)ct以及隱藏層狀態(tài)ht. 在t時(shí)刻的門控函數(shù)為
dt=σ(Wxdxt+Wcd⊙cL+1t-1+Wld⊙cLt).
(9)
圖1 深度LSTM的cell單元Fig.1 Cell unit of depth-gated LSTM
門控函數(shù)連接上下兩層長短時(shí)記憶的基本記憶單元,可以更深層次地利用信號(hào)的聲學(xué)特征. 其中Wxd是深度門與該層輸入的權(quán)值矩陣,Wcd是深度門與上一個(gè)記憶元胞關(guān)聯(lián)的權(quán)值矩陣,Wld是深度門與上一層的記憶元胞相關(guān)聯(lián)的權(quán)值矩陣.
CTC準(zhǔn)則最初是為了解決未分段數(shù)據(jù)自動(dòng)標(biāo)注問題而提出的,CTC是一種損失函數(shù),它用來衡量輸入的序列數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)之后,和真實(shí)的輸出相差有多少. 在深度LSTM的輸出層使用CTC訓(xùn)損失函數(shù),可以自動(dòng)完成輸入序列與輸出標(biāo)簽之間的對齊,從而在傳統(tǒng)的語音識(shí)別的聲學(xué)模型訓(xùn)練中,對于每一幀的數(shù)據(jù)需要知道對應(yīng)的label才能進(jìn)行有效訓(xùn)練的問題得以解決. 時(shí)序分類器的主要功能在于將神經(jīng)網(wǎng)絡(luò)的輸出轉(zhuǎn)化為對應(yīng)標(biāo)簽的條件概率,使得分類器可以按照得到的條件概率大小將輸出進(jìn)行分類[11-12].
在CTC模型訓(xùn)練時(shí),除了輸出音素對應(yīng)的L個(gè)標(biāo)簽外,還有一個(gè)blank標(biāo)簽,blank標(biāo)簽可以將輸入序列轉(zhuǎn)化成所有可能的標(biāo)簽序列. 同時(shí)CTC準(zhǔn)則定義了一個(gè)映射,將CTC網(wǎng)絡(luò)的輸入序列通過這個(gè)映射,轉(zhuǎn)化為可能的標(biāo)簽序列,這種輸出序列成為CTC的路徑[13]. CTC網(wǎng)絡(luò)輸出的每種路徑通過計(jì)算每幀標(biāo)簽的概率得到.
(10)
式中:x為輸入序列;T為輸入序列的長度;ytk為標(biāo)簽k在t時(shí)刻的輸出. 之后建立多對一的映射,從得到的路徑中去除掉空標(biāo)簽和重復(fù)的標(biāo)簽[7]. 因此,用可以映射到l的所有CTC路徑集合表示輸出序列l(wèi)為
p(l|x)=∑p(π|x).
(11)
為了防止在p(l|x)計(jì)算過程中,由于路徑中所有的可能性太多而引起指數(shù)爆炸,借鑒HMM中的思路,引入了前向后向算法[9,11]. 利用動(dòng)態(tài)規(guī)整算法得到每個(gè)獨(dú)立標(biāo)簽的條件概率,將標(biāo)簽對應(yīng)的路徑之和分解為相應(yīng)標(biāo)簽前綴路徑的迭代和. 在前向后向算法中,將給定長度的標(biāo)簽序列進(jìn)行預(yù)處理,在每個(gè)字符的前后加入空字符,變成序列l(wèi)′將序列長度變?yōu)?|l|+1,這樣做不僅可以方便計(jì)算,還可以實(shí)現(xiàn)空白標(biāo)簽和非空白標(biāo)簽之間的相互轉(zhuǎn)換. 定義在時(shí)刻t經(jīng)過節(jié)點(diǎn)s的全部前綴子路徑的概率總和為αt(s),在第s個(gè)字符為空或者第s個(gè)字符等于第s-2個(gè)字符時(shí),
αt(s)=(αt-1(s)+αt-1(s-1))ytl′s.
(12)
其他情況的αt(s)為
(αt-1(s)+αt-1(s-1)+αt-1(s-2))ytl′s.
(13)
通過前向概率來計(jì)算標(biāo)簽序列l(wèi)的輸出概率
p(l|x)=αT(|l′|)+αT(|l′|-1).
(14)
同理,可通過動(dòng)態(tài)規(guī)整算法求得后向算法的概率和βt(s),對于任意時(shí)刻t,可以通過αt(s)和βt(s)來求CTC損失函數(shù)[13-14]
(15)
為了使CTC損失函數(shù)最小化,在反向傳播算法過程中,需要對每個(gè)輸出預(yù)測求偏導(dǎo),得
(16)
所有該模型的所有參數(shù)都可以通過與傳統(tǒng)RNN類似的BPTT反向傳播算法學(xué)習(xí),為了最小化訓(xùn)練數(shù)據(jù)的損失函數(shù),可以由BPTT算出損失函數(shù)對參數(shù)的梯度來做隨機(jī)梯度下降. 在訓(xùn)練中,參數(shù)反向傳播到隱層梯度被記憶單元記住,并被傳送到各個(gè)門控函數(shù)中去,在解碼過程,采用基于加權(quán)有限狀態(tài)機(jī)(Weighted Finite-State Transducers,WFST)的綜合搜索圖來進(jìn)行解碼,將語言模型應(yīng)用至解碼過程,提高解碼效率[14-15].
本文在THCHS-30中文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn). 該數(shù)據(jù)集是在安靜的環(huán)境下通過單個(gè)碳粒麥克風(fēng)錄制的,總時(shí)長35 h,采樣頻率為16 kHz,采樣大小為16 bit. 其中前三組10 893句用作訓(xùn)練,最后一組2 496句用作測試. 本文將中文的聲母和韻母作為建模單元,用于對比不同模型的性能,在訓(xùn)練過程中,實(shí)驗(yàn)選擇隨機(jī)梯度下降法優(yōu)化目標(biāo)函數(shù),加快訓(xùn)練速度.
在GMM-HMM訓(xùn)練中,將39維的梅爾倒譜系數(shù)作為輸入特征參數(shù),HMM狀態(tài)通過高斯分裂和決策樹聚類處理.
在LSTM-CTC訓(xùn)練中,采用120維的梅爾頻率倒譜系數(shù)作為輸入?yún)?shù),采用3層隱層,輸入節(jié)點(diǎn)120個(gè),輸出節(jié)點(diǎn)240個(gè),采用CTC準(zhǔn)則作為目標(biāo)函數(shù),解碼方式采用 WFST[15],在加權(quán)情況下,具有相同輸入標(biāo)簽的轉(zhuǎn)換可以具有不同的權(quán)重. 深度LSTM-CTC訓(xùn)練與LSTM-CTC訓(xùn)練方法相同,只是將標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)換成本文的深度LSTM網(wǎng)絡(luò).
實(shí)驗(yàn)通過每種模型的錯(cuò)詞率(Word Error Rate,WER)和噪聲對模型的影響來對比和評價(jià)模型的性能.
不同模型的錯(cuò)詞率如表1 所示,傳統(tǒng)的GMM-HMM模型的錯(cuò)詞率為45.31%. LSTM-CTC模型的錯(cuò)詞率為25.34%,相較于傳統(tǒng)的語音識(shí)別模型,在引入深度學(xué)習(xí)之后,準(zhǔn)確率有很大的提升. 在CTC訓(xùn)練準(zhǔn)則不變的情況下,本文將聲學(xué)模型替換為深度LSTM之后,再次降低語音識(shí)別系統(tǒng)的錯(cuò)誤率. 通過表1 的數(shù)據(jù)表明,在該語音識(shí)別系統(tǒng)中,深度LSTM網(wǎng)絡(luò)比標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)的準(zhǔn)確率有所提高. 相較于傳統(tǒng)的長短時(shí)記憶網(wǎng)絡(luò),深度LSTM可以深度開發(fā)神經(jīng)網(wǎng)絡(luò)的建模能力,降低識(shí)別模型的錯(cuò)詞率.
表1 不同模型的WER對比
另外,在有噪聲干擾的情況下,對標(biāo)準(zhǔn)LSTM和深度LSTM模型的準(zhǔn)確率進(jìn)行實(shí)驗(yàn),探究兩種模型的抗噪聲性能. 噪聲環(huán)境下,在相同的測試集中加入噪聲進(jìn)行識(shí)別,對比兩種模型在噪聲條件下的準(zhǔn)確率,結(jié)果如圖2 所示. 從圖中可以看出: 標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)迭代50次左右時(shí),性能基本穩(wěn)定,深度LSTM網(wǎng)絡(luò)的收斂速度略慢,但是抗干擾能優(yōu)于標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò).
圖2 標(biāo)準(zhǔn)LSTM和深度LSTM模型的準(zhǔn)確率Fig.2 Accuracy of standard LSTM and depth-gated LSTM
本文深入研究了長短時(shí)記憶神經(jīng)網(wǎng)絡(luò),并以標(biāo)準(zhǔn)LSTM為基礎(chǔ),利用門控函數(shù)連接多層LSTM元胞,形成深度LSTM網(wǎng)絡(luò),使得系統(tǒng)可以調(diào)節(jié)上下層之間的線性關(guān)系. 并利用CTC訓(xùn)練準(zhǔn)則,實(shí)現(xiàn)端到端語音系統(tǒng),通過與傳統(tǒng)的GMM-HMM模型和LSTM-CTC模型作對比,驗(yàn)證了深度LSTM神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的有效性.