基于深度LSTM的端到端的語音識(shí)別

2020-04-29 12:43張瑞珍韓躍平張曉通

中北大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年3期

關(guān)鍵詞：標(biāo)簽語音神經(jīng)網(wǎng)絡(luò)

張瑞珍，韓躍平，張曉通

(中北大學(xué) 信息與通信工程學(xué)院，山西太原 030051)

0 引言

語音識(shí)別提出至今已經(jīng)有60多年，隨著新型架構(gòu)的提出以及計(jì)算機(jī)計(jì)算能力的提升，自動(dòng)語音識(shí)別的性能已經(jīng)基本滿足了日常使用的需求. 過去，最流行的語音識(shí)別系統(tǒng)通常采用梅爾倒譜系數(shù)[1]或者“相對頻譜變換-感知線性預(yù)測”[2]作為特征向量，使用混合高斯模型-隱馬爾可夫模型(Gaussian Mixture Model-Hidden Markov Model，GMM-HMM)作為聲學(xué)模型，它描述了兩個(gè)相互依賴的隨機(jī)過程. 混合高斯模型將聲學(xué)模型轉(zhuǎn)換為隱馬爾可夫狀態(tài)，隱馬爾可夫模型被用來處理語音聲學(xué)序列的時(shí)間特征[3]. 近些年，隨著計(jì)算能力的不斷提升和大規(guī)模數(shù)據(jù)集的出現(xiàn)，深度神經(jīng)網(wǎng)絡(luò)逐步興起[4]. DNN-HMM模型利用了DNN的表現(xiàn)學(xué)習(xí)能力和HMM的序列化建模能力，再次提升了語音識(shí)別系統(tǒng)的準(zhǔn)確性. 在這個(gè)框架中，HMM用來描述語音信號(hào)的動(dòng)態(tài)變化，而觀察特征的概率則通過DNN來估計(jì). 循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network，RNN)是神經(jīng)網(wǎng)絡(luò)模型的一種，通過神經(jīng)元的一些鏈接組成了一個(gè)有向環(huán)，正是因?yàn)檫@些有向環(huán)，使得循環(huán)神經(jīng)網(wǎng)絡(luò)擁有了記憶結(jié)構(gòu)，RNN擁有了之前網(wǎng)絡(luò)所沒有的構(gòu)建動(dòng)態(tài)時(shí)序模型的能力. 之后出現(xiàn)的長短時(shí)記憶(Long Short-Term Memory，LSTM)[5]神經(jīng)網(wǎng)絡(luò)進(jìn)一步提高了語音識(shí)別的準(zhǔn)確率，LSTM是一種特殊的RNN，解決了長句依賴的問題.

處理序列信號(hào)的標(biāo)簽問題，傳統(tǒng)的方法是采用隱馬爾可夫模型(HMM)或者條件隨機(jī)場模型(CRF)，但是這些架構(gòu)在序列標(biāo)簽方面存在一定的缺陷，HMM狀態(tài)模型的設(shè)計(jì)和CRF輸入特征的選擇都需要大量特定的知識(shí)，且這些模型的使用均需要獨(dú)立假設(shè)作為支撐[6]. 為了解決上述問題，Graves提出基于連接時(shí)序分類準(zhǔn)則(Connectionist Temporal Classification，CTC)[7]，與之前的混合模型不同的是，CTC方法將輸入序列映射到標(biāo)簽空間，簡化了系統(tǒng)標(biāo)簽與語音幀對齊的步驟.

本文對長短時(shí)記憶網(wǎng)絡(luò)進(jìn)行了改良，在原有的標(biāo)準(zhǔn)LSTM的基礎(chǔ)上加入了深度控制，采用多層記憶元胞構(gòu)成網(wǎng)絡(luò)來進(jìn)行聲學(xué)建模，并用CTC訓(xùn)練準(zhǔn)則來訓(xùn)練神經(jīng)網(wǎng)絡(luò)，提高了語音識(shí)別的準(zhǔn)確率.

1 基于深度LSTM的聲學(xué)模型

RNN與DNN最大的不同在于RNN的輸入不僅僅只有語音特征，還包括內(nèi)部狀態(tài). 內(nèi)部狀態(tài)是將過去RNN處理過的時(shí)間序列中的信息進(jìn)行編碼，RNN中所使用的狀態(tài)空間使得它可以學(xué)習(xí)和表示長時(shí)間范圍內(nèi)序列間的相關(guān)性. 簡單的單隱層RNN可以表示為

ht=σ(Whht-1+Wxxt),

(1)

yt=f(Whyht).

(2)

Wx連接K個(gè)輸入單元到N個(gè)隱含層單元.Wh連接N個(gè)隱含層單元從時(shí)刻t-1到時(shí)刻t.Whv連接了N個(gè)隱含層單元到L個(gè)輸出層單元.σ是隱含層激活函數(shù)，f是輸出層激活函數(shù).

因?yàn)镽NN中ht與ht-1之間的非線性關(guān)系，RNN會(huì)存在梯度消失和梯度爆炸的問題，使得模型在訓(xùn)練上存在一定的難度. Hochreiter和Schmidhuber最初提出LSTM[5]，經(jīng)過改進(jìn)后，標(biāo)準(zhǔn)LSTM輸出表示為[8]

it=σ(Wxixt+Whiht-1+Wcict-1,

(3)

ft=σ(Wxfxt+Whfht-1+Wcfct-1,

(4)

ct=ft⊙ct-1+C′,

(5)

C′=it⊙tanh(Wxcxt+Whcht-1),

(6)

ot=σ(Wxoxt+Whoht-1+Wcoct,

(7)

ht=ot⊙tanh(ct),

(8)

式中：W為各個(gè)階段的權(quán)值矩陣；σ為激活函數(shù)；it代表輸入門，表示舊狀態(tài)和預(yù)選信息；ft代表遺忘門，表示在語言模型中需要丟掉的舊話題特征；ct代表神經(jīng)元激活，表示本單元的輸出的話題；ot代表輸出門；ht代表隱層值[9-10]. 長短時(shí)記憶單元的基本思想是利用不同類型的門函數(shù)來控制網(wǎng)絡(luò)中的信息流，LSTM的神經(jīng)元可以長期保存數(shù)據(jù)信息，通過不同的門函數(shù)，決定什么時(shí)候該記住輸入信息，什么時(shí)候忘記該信息，以及什么時(shí)候輸出該信息.

相比標(biāo)準(zhǔn)LSTM，深度LSTM加入了深度控制門，連接多層記憶單元，利用深度控制門來控制數(shù)據(jù)從低層的記憶單元流向高層記憶單元. 圖1 展示了深度LSTM的基本cell單元. 通過深度控制門連接上下兩層LSTM，每層cell單元均有各自的當(dāng)前狀態(tài)ct以及隱藏層狀態(tài)ht. 在t時(shí)刻的門控函數(shù)為

dt=σ(Wxdxt+Wcd⊙cL+1t-1+Wld⊙cLt).

(9)

圖1 深度LSTM的cell單元Fig.1 Cell unit of depth-gated LSTM

門控函數(shù)連接上下兩層長短時(shí)記憶的基本記憶單元，可以更深層次地利用信號(hào)的聲學(xué)特征. 其中Wxd是深度門與該層輸入的權(quán)值矩陣，Wcd是深度門與上一個(gè)記憶元胞關(guān)聯(lián)的權(quán)值矩陣，Wld是深度門與上一層的記憶元胞相關(guān)聯(lián)的權(quán)值矩陣.

2 鏈接時(shí)序分類

CTC準(zhǔn)則最初是為了解決未分段數(shù)據(jù)自動(dòng)標(biāo)注問題而提出的，CTC是一種損失函數(shù)，它用來衡量輸入的序列數(shù)據(jù)經(jīng)過神經(jīng)網(wǎng)絡(luò)之后，和真實(shí)的輸出相差有多少. 在深度LSTM的輸出層使用CTC訓(xùn)損失函數(shù)，可以自動(dòng)完成輸入序列與輸出標(biāo)簽之間的對齊，從而在傳統(tǒng)的語音識(shí)別的聲學(xué)模型訓(xùn)練中，對于每一幀的數(shù)據(jù)需要知道對應(yīng)的label才能進(jìn)行有效訓(xùn)練的問題得以解決. 時(shí)序分類器的主要功能在于將神經(jīng)網(wǎng)絡(luò)的輸出轉(zhuǎn)化為對應(yīng)標(biāo)簽的條件概率，使得分類器可以按照得到的條件概率大小將輸出進(jìn)行分類[11-12].

在CTC模型訓(xùn)練時(shí)，除了輸出音素對應(yīng)的L個(gè)標(biāo)簽外，還有一個(gè)blank標(biāo)簽，blank標(biāo)簽可以將輸入序列轉(zhuǎn)化成所有可能的標(biāo)簽序列. 同時(shí)CTC準(zhǔn)則定義了一個(gè)映射，將CTC網(wǎng)絡(luò)的輸入序列通過這個(gè)映射，轉(zhuǎn)化為可能的標(biāo)簽序列，這種輸出序列成為CTC的路徑[13]. CTC網(wǎng)絡(luò)輸出的每種路徑通過計(jì)算每幀標(biāo)簽的概率得到.

(10)

式中：x為輸入序列；T為輸入序列的長度；ytk為標(biāo)簽k在t時(shí)刻的輸出. 之后建立多對一的映射，從得到的路徑中去除掉空標(biāo)簽和重復(fù)的標(biāo)簽[7]. 因此，用可以映射到l的所有CTC路徑集合表示輸出序列l(wèi)為

p(l|x)=∑p(π|x).

(11)

為了防止在p(l|x)計(jì)算過程中，由于路徑中所有的可能性太多而引起指數(shù)爆炸，借鑒HMM中的思路，引入了前向后向算法[9,11]. 利用動(dòng)態(tài)規(guī)整算法得到每個(gè)獨(dú)立標(biāo)簽的條件概率，將標(biāo)簽對應(yīng)的路徑之和分解為相應(yīng)標(biāo)簽前綴路徑的迭代和. 在前向后向算法中，將給定長度的標(biāo)簽序列進(jìn)行預(yù)處理，在每個(gè)字符的前后加入空字符，變成序列l(wèi)′將序列長度變?yōu)?|l|+1，這樣做不僅可以方便計(jì)算，還可以實(shí)現(xiàn)空白標(biāo)簽和非空白標(biāo)簽之間的相互轉(zhuǎn)換. 定義在時(shí)刻t經(jīng)過節(jié)點(diǎn)s的全部前綴子路徑的概率總和為αt(s)，在第s個(gè)字符為空或者第s個(gè)字符等于第s-2個(gè)字符時(shí)，

αt(s)=(αt-1(s)+αt-1(s-1))ytl′s.

(12)

其他情況的αt(s)為

(αt-1(s)+αt-1(s-1)+αt-1(s-2))ytl′s.

(13)

通過前向概率來計(jì)算標(biāo)簽序列l(wèi)的輸出概率

p(l|x)=αT(|l′|)+αT(|l′|-1).

(14)

同理，可通過動(dòng)態(tài)規(guī)整算法求得后向算法的概率和βt(s)，對于任意時(shí)刻t，可以通過αt(s)和βt(s)來求CTC損失函數(shù)[13-14]

(15)

為了使CTC損失函數(shù)最小化，在反向傳播算法過程中，需要對每個(gè)輸出預(yù)測求偏導(dǎo)，得

(16)

所有該模型的所有參數(shù)都可以通過與傳統(tǒng)RNN類似的BPTT反向傳播算法學(xué)習(xí)，為了最小化訓(xùn)練數(shù)據(jù)的損失函數(shù)，可以由BPTT算出損失函數(shù)對參數(shù)的梯度來做隨機(jī)梯度下降. 在訓(xùn)練中，參數(shù)反向傳播到隱層梯度被記憶單元記住，并被傳送到各個(gè)門控函數(shù)中去，在解碼過程，采用基于加權(quán)有限狀態(tài)機(jī)(Weighted Finite-State Transducers，WFST)的綜合搜索圖來進(jìn)行解碼，將語言模型應(yīng)用至解碼過程，提高解碼效率[14-15].

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文在THCHS-30中文數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn). 該數(shù)據(jù)集是在安靜的環(huán)境下通過單個(gè)碳粒麥克風(fēng)錄制的，總時(shí)長35 h，采樣頻率為16 kHz，采樣大小為16 bit. 其中前三組10 893句用作訓(xùn)練，最后一組2 496句用作測試. 本文將中文的聲母和韻母作為建模單元，用于對比不同模型的性能，在訓(xùn)練過程中，實(shí)驗(yàn)選擇隨機(jī)梯度下降法優(yōu)化目標(biāo)函數(shù)，加快訓(xùn)練速度.

3.2 對比模型

在GMM-HMM訓(xùn)練中，將39維的梅爾倒譜系數(shù)作為輸入特征參數(shù)，HMM狀態(tài)通過高斯分裂和決策樹聚類處理.

在LSTM-CTC訓(xùn)練中，采用120維的梅爾頻率倒譜系數(shù)作為輸入?yún)?shù)，采用3層隱層，輸入節(jié)點(diǎn)120個(gè)，輸出節(jié)點(diǎn)240個(gè)，采用CTC準(zhǔn)則作為目標(biāo)函數(shù)，解碼方式采用 WFST[15]，在加權(quán)情況下，具有相同輸入標(biāo)簽的轉(zhuǎn)換可以具有不同的權(quán)重. 深度LSTM-CTC訓(xùn)練與LSTM-CTC訓(xùn)練方法相同，只是將標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)換成本文的深度LSTM網(wǎng)絡(luò).

3.3 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)通過每種模型的錯(cuò)詞率(Word Error Rate，WER)和噪聲對模型的影響來對比和評價(jià)模型的性能.

不同模型的錯(cuò)詞率如表1 所示，傳統(tǒng)的GMM-HMM模型的錯(cuò)詞率為45.31%. LSTM-CTC模型的錯(cuò)詞率為25.34%，相較于傳統(tǒng)的語音識(shí)別模型，在引入深度學(xué)習(xí)之后，準(zhǔn)確率有很大的提升. 在CTC訓(xùn)練準(zhǔn)則不變的情況下，本文將聲學(xué)模型替換為深度LSTM之后，再次降低語音識(shí)別系統(tǒng)的錯(cuò)誤率. 通過表1 的數(shù)據(jù)表明，在該語音識(shí)別系統(tǒng)中，深度LSTM網(wǎng)絡(luò)比標(biāo)準(zhǔn)LSTM網(wǎng)絡(luò)的準(zhǔn)確率有所提高. 相較于傳統(tǒng)的長短時(shí)記憶網(wǎng)絡(luò)，深度LSTM可以深度開發(fā)神經(jīng)網(wǎng)絡(luò)的建模能力，降低識(shí)別模型的錯(cuò)詞率.

表1 不同模型的WER對比

另外，在有噪聲干擾的情況下，對標(biāo)準(zhǔn)LSTM和深度LSTM模型的準(zhǔn)確率進(jìn)行實(shí)驗(yàn)，探究兩種模型的抗噪聲性能. 噪聲環(huán)境下，在相同的測試集中加入噪聲進(jìn)行識(shí)別，對比兩種模型在噪聲條件下的準(zhǔn)確率，結(jié)果如圖2 所示. 從圖中可以看出：標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò)迭代50次左右時(shí)，性能基本穩(wěn)定，深度LSTM網(wǎng)絡(luò)的收斂速度略慢，但是抗干擾能優(yōu)于標(biāo)準(zhǔn)的LSTM網(wǎng)絡(luò).

圖2 標(biāo)準(zhǔn)LSTM和深度LSTM模型的準(zhǔn)確率Fig.2 Accuracy of standard LSTM and depth-gated LSTM

4 結(jié) 論

本文深入研究了長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)，并以標(biāo)準(zhǔn)LSTM為基礎(chǔ)，利用門控函數(shù)連接多層LSTM元胞，形成深度LSTM網(wǎng)絡(luò)，使得系統(tǒng)可以調(diào)節(jié)上下層之間的線性關(guān)系. 并利用CTC訓(xùn)練準(zhǔn)則，實(shí)現(xiàn)端到端語音系統(tǒng)，通過與傳統(tǒng)的GMM-HMM模型和LSTM-CTC模型作對比，驗(yàn)證了深度LSTM神經(jīng)網(wǎng)絡(luò)在語音識(shí)別中的有效性.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡