基于DL-T及遷移學習的語音識別研究

2021-03-29 03:12:06費鴻博俞經(jīng)虎

工程科學學報 2021年3期

張威，劉晨，費鴻博，李巍，俞經(jīng)虎，曹毅?

1) 江南大學機械工程學院，無錫 214122 2) 江蘇省食品先進制造裝備技術(shù)重點實驗室，無錫 214122 3) 蘇州工業(yè)職業(yè)技術(shù)學院，蘇州 215104

語音識別是人機交互的一項關(guān)鍵技術(shù)，近年來，基于深度學習的語音識別技術(shù)取得了跨越式的發(fā)展[1-2]，其在語音搜索、個人數(shù)碼助理及車載娛樂系統(tǒng)[3]等領(lǐng)域得到了廣泛應(yīng)用. 鑒于聲學建模是語音識別技術(shù)的關(guān)鍵，因此國內(nèi)外學者對其開展了廣泛研究[4-15]，主要可劃分為4類：（1）隱馬爾科夫模型[4-7]（Hidden Markov model, HMM）；（2）連接時序分類[8-11]（Connectionist temporal classification, CTC）；（3）序列到序列（Sequence to sequence,S2S）模型[12]；(4) 循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器[13-15]（Recurrent neural network-transducer, RNN-T）.

(1) 第1類基于HMM構(gòu)建聲學模型，用神經(jīng)網(wǎng)絡(luò)描述聲學特征的概率分布，有效彌補了高斯混合模型對于語音特征建模能力不足的缺點，從而提升聲學模型準確率[4]. 其中，Peddinti等[5]探索了神經(jīng)網(wǎng)絡(luò)-隱馬爾可夫模型（Neural networkhidden Markov model, NN-HMM）的聲學模型；Povey等[6]構(gòu)建了因式分解的時延神經(jīng)網(wǎng)絡(luò)模型；刑安昊等[7]提出了深度神經(jīng)網(wǎng)絡(luò)（Deep neural network, DNN）裁剪方法，使得DNN性能損失降低. （2）第2類方法基于CTC構(gòu)建端到端聲學模型，無需時間維度上幀級別對齊標簽，極大地簡化了聲學模型訓(xùn)練流程[8-11]. Graves[8]首次構(gòu)建了神經(jīng)網(wǎng)絡(luò)-連接時序分類（Neural network-CTC,NN-CTC）聲學模型并驗證了其對于聲學建模的有效性；Zhang等[9]探索了深度卷積神經(jīng)網(wǎng)絡(luò)-連接時序分類（DCNN-CTC）模型；Zhang等[10]構(gòu)建了多路卷積神經(jīng)網(wǎng)絡(luò)-連接時序分類聲學模型，使得音節(jié)錯誤率相對降低12.08%；Zhang等[11]提出了連接時序分類-交叉熵訓(xùn)練方法. （3）第3類方法旨在將聲學特征編碼成高維向量，再解碼成識別結(jié)果. 基于自注意力模型，Dong等[12]構(gòu)建了端到端語音識別聲學模型. （4）第4類方法則基于RNN-T構(gòu)建聲學模型，該方法對CTC輸出獨立性假設(shè)進行優(yōu)化，并聯(lián)合訓(xùn)練聲學模型與語言模型進一步提升聲學模型準確率[8]. Graves等[13]首次驗證了RNN-T對于構(gòu)建聲學建模的可行性；Rao等[14]提出了適用于RNN-T的預(yù)訓(xùn)練方法；Tian等[15]構(gòu)建了SA-T聲學建模方法并結(jié)合正則化方法提高聲學模型準確率.

值得指出的是：CTC是最早提出的端到端語音識別方法，由于其建模過程簡便且訓(xùn)練模型容易，因此得到了廣泛研究[8-11]，但CTC存在輸出獨立性假設(shè)且無法與語言模型聯(lián)合訓(xùn)練問題[15]. 為解決上述問題，RNN-T通過引入解碼網(wǎng)絡(luò)，不僅解決了CTC輸出獨立性假設(shè)問題且可聯(lián)合語言模型進行訓(xùn)練.

綜上所述，本文首先基于RNN-T模型探索不同編碼、解碼網(wǎng)絡(luò)層數(shù)對其預(yù)測錯誤率影響；其次，在上述模型的基礎(chǔ)上結(jié)合DenseNet與LSTM網(wǎng)絡(luò)提出了DL-T聲學模型；然后，為進一步提高其準確率，提出了適合DL-T的遷移學習方法；最后，基于Aishell-1[16]數(shù)據(jù)集開展語音識別研究，其結(jié)果驗證了DL-T兼具預(yù)測錯誤率低及收斂速度快的優(yōu)點.

1 聲學模型

1.1 循環(huán)神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換器 RNN-T

RNN-T是由Graves等[13]提出的一種語音識別聲學建模方法，該方法可分為編碼網(wǎng)絡(luò)（Encoder network）、解碼網(wǎng)絡(luò)（Decoder network）以及聯(lián)合網(wǎng)絡(luò)（Joint network）三部分[17]，其模型結(jié)構(gòu)如圖1所示.

圖1 RNN-T聲學模型結(jié)構(gòu)圖Fig.1 Acoustic model of RNN-T

設(shè)給定序列X=(x1,x2,···,xt,···,xT)表示輸入T(1≤t≤T)幀聲學特征序列，對應(yīng)標簽序列y=(y1,y2,···,yu,···，yU)，其中U(1≤u≤U)表示標簽長度. 如圖1所示，編碼網(wǎng)絡(luò)將輸入聲學特征映射為聲學特征向量ft，編碼結(jié)果如下式所示：

其中，fEnc(·)表示深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的函數(shù)，該文編碼層均采用BLSTM網(wǎng)絡(luò)，其具體計算如式（2）～（7）所示：

式（2）～（7）中，it、zt、st、ot、ht和ft分別代表t時刻輸入門、遺忘門、中間狀態(tài)、輸出門、隱藏值向量和輸出向量；Wix、Wih、Wis分別表示輸入到輸入門、輸入門到隱藏值向量權(quán)值以及輸入門到中間狀態(tài)的權(quán)值；Wzx、Wzh、Wzs分別表示輸入到遺忘門、遺忘門到隱藏值向量權(quán)值以及遺忘門到中間狀態(tài)的權(quán)值；Wox、Woh、Wos分別表示輸入到輸出門、輸出門到隱藏值向量權(quán)值以及輸出門到中間狀態(tài)的權(quán)值；Wsx、Wsh分別表示中間狀態(tài)到輸入門與隱藏值向量的權(quán)值；bi、bz、bs、bo分別代表輸入門、遺忘門、中間狀態(tài)和輸出門偏置矩陣；σ(·)、φ(·)分別表示 sigmoid 及 Tanh 激活函數(shù)；表示拼接前向隱藏向量與后向隱藏向量得到編碼網(wǎng)絡(luò)結(jié)果ft.

如圖1所示，RNN-T引入解碼網(wǎng)絡(luò)對CTC輸出獨立性假設(shè)進行優(yōu)化，該網(wǎng)絡(luò)對上一時刻非空預(yù)測結(jié)果進行再編碼，其結(jié)果如式(8)所示：

同理，fDec(·)表示深度神經(jīng)網(wǎng)絡(luò)構(gòu)建的函數(shù)，且該文解碼層均采用LSTM網(wǎng)絡(luò)，具體計算與式（2）～（6）一致，解碼網(wǎng)絡(luò)最終結(jié)果gu與ht相等.

聯(lián)合網(wǎng)絡(luò)將編碼網(wǎng)絡(luò)與解碼網(wǎng)絡(luò)組合（圖1），得到組合序列，再通過Softmax函數(shù)得到下一時刻概率分布，其計算如式（9）～（10）所示：

式（9）～（10）中，ft、gu分別表示編碼向量與解碼向量，并將上述二者組合成聯(lián)合向量wt,u，進而通過Softmax函數(shù)計算其后驗概率. 式（11）表示RNN-T損失函數(shù)，其值可通過前向-后向算法計算. 其中，y*表示給定序列的標簽，由于式（10）結(jié)果均可微. 因此，可通過隨時間反向傳播（Backpropagation through time, BPTT）算法[18]進行參數(shù)訓(xùn)練.

1.2 密集連接網(wǎng)絡(luò)轉(zhuǎn)換器 DL-T

DenseNet是由Huang等[19]提出的一種深度學習算法，其采用密集連接方式加強特征的信息重用，從而提升網(wǎng)絡(luò)的性能，其模型結(jié)構(gòu)如圖2所示. 曹毅等[20]結(jié)合DenseNet和N階馬爾可夫模型提出了N階DenseNet，該模型在避免梯度消失的前提下有針對性地減少了特征圖層之間的連接，極大地減少了特征冗余，使得模型的收斂速度更快. 式（12）可用于表示DenseNet計算結(jié)果：

圖2 DenseNet模型結(jié)構(gòu)圖Fig.2 Model structure of DenseNet

其中，l表示當前層數(shù)，[x0,x1,···,xl-1]表示拼接前l(fā)-1層的特征圖，Hl表示拼接前l(fā)-1層特征圖，xl表示第l層特征圖.

受上述算法啟發(fā)，首先使用DenseNet提取原始特征的高維信息，其不僅提升特征的信息重用[21]，而且可以減輕梯度問題[22]；然后利用LSTM網(wǎng)絡(luò)序列建模時的優(yōu)勢，對提取的高維信息進行序列建模；最終構(gòu)建DL-T聲學模型，其具體編碼網(wǎng)絡(luò)模型結(jié)構(gòu)如圖3所示.

圖3 DL-T編碼網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 Encoder network structure of a DL-T

2 基于遷移學習的聲學模型

遷移學習（Transfer learning, TL）是深度學習優(yōu)化算法中的研究熱點，其旨在基于源域在解決任務(wù)中獲得知識進而改善目標任務(wù)的算法. 近年來，國內(nèi)外已有不少學者在此領(lǐng)域進行深入研究[15,23-24].Tian等[15]將預(yù)訓(xùn)練模型作為RNN-T的初始模型，在此基礎(chǔ)上進行再訓(xùn)練，使得RNN-T訓(xùn)練難度降低；易江燕等[23]用遷移學習方法對帶噪語音進行聲學建模，該方法利用老師模型指導(dǎo)學生模型進行訓(xùn)練，提高帶噪語音的魯棒性；Xue等[24]基于多任務(wù)學習理論，對聲學模型進行再訓(xùn)練，從而降低模型的錯誤率.

有鑒于此，為進一步提高聲學模型準確率，本文擬用遷移學習方法對聲學模型進行優(yōu)化. 該方法在初始模型的基礎(chǔ)上融合優(yōu)化算法重訓(xùn)練得到最終模型，其訓(xùn)練方法如圖4所示.

圖4 遷移學習方法結(jié)構(gòu)圖Fig.4 Method of transfer learning

圖4中，虛線部分表示初始訓(xùn)練模型，其包含編碼網(wǎng)絡(luò)、解碼網(wǎng)絡(luò)及聯(lián)合網(wǎng)絡(luò)3部分，其具體工作原理如下：

（1）首先以聲學特征序列X為編碼網(wǎng)絡(luò)輸入；

（2）其次，用字序列y通過詞嵌入[25]變換作為解碼網(wǎng)絡(luò)輸入，該輸入序列將高維稀疏字序列映射低維密集的特征空間，從而減少輸入?yún)?shù)量便于模型訓(xùn)練；

（3）最后，聯(lián)合網(wǎng)絡(luò)將編碼網(wǎng)絡(luò)與解碼網(wǎng)絡(luò)相結(jié)合，通過softmax函數(shù)輸出結(jié)果.

實線為遷移學習部分，該部分RNN-T結(jié)構(gòu)與初始模型一致，將初始模型參數(shù)重訓(xùn)練得到遷移學習之后的模型，其計算結(jié)果如式（13）所示：

其中，Pi、Pf分別表示初始模型以及遷移學習模型的參數(shù)，其中Pi=P(ki|ti,ui),Pf=P(kf|tf,uf)；Dfi(·)為本文遷移學習的優(yōu)化目標，其用Pi通過參數(shù)優(yōu)化得到Pf，旨在最小化Dfi(·)目標函數(shù).

3 實驗

為驗證DL-T聲學模型相較于RNN-T訓(xùn)練時收斂速度更快且具有良好的準確率，本節(jié)基于Aishell-1數(shù)據(jù)集在實驗平臺上開展語音識別的研究.

3.1 實驗數(shù)據(jù)集

實驗采用Aishell-1[16]數(shù)據(jù)集進行實驗，該數(shù)據(jù)集是中文語音標準數(shù)據(jù)集，其采樣率為16000 Hz，其中訓(xùn)練集、驗證集以及測試集分別包含120098、14326以及7176條標準語料，數(shù)據(jù)總時長約為178 h，并且訓(xùn)練集、驗證集和測試集語料間均無交疊.

3.2 實驗設(shè)置

為驗證DL-T兼具預(yù)測錯誤率低與收斂速度快的優(yōu)點，基于Aishell-1數(shù)據(jù)集，論文將開展聲學模型研究，其具體參數(shù)配置如下：

（1）特征提取：基于kaldi[26]語音識別開發(fā)包提取80維FBank特征，其中窗長25 ms，幀移為10 ms，然后左拼接3 幀[15]，共320 維，用其作為聲學模型輸入. 訓(xùn)練階段，對所有語料按幀由短到長進行排序，共4335個字作為建模單元.

（2）聲學模型參數(shù)：本文基于Pytorch[27]構(gòu)建聲學模型. 初始訓(xùn)練階段，優(yōu)化準則采用隨機梯度下降，學習率初始設(shè)置為0.001；遷移學習階段，優(yōu)化準則不變，但學習率降為0.00001. 且所有訓(xùn)練階段，Linear和DenseNet網(wǎng)絡(luò)均采用反向傳播算法進行訓(xùn)練，LSTM模型采用BPTT算法進行優(yōu)化參數(shù). RNN-T基線模型中，編碼網(wǎng)絡(luò)設(shè)置DenseNet為4層，特征圖增長率[19-20]為4，初始輸入為單通道的語音特征；采用3層BLSTM模型進行序列建模，隱藏神經(jīng)元個數(shù)為320；解碼網(wǎng)絡(luò)設(shè)置為1層單向LSTM網(wǎng)絡(luò)，神經(jīng)元數(shù)目為320；聯(lián)合網(wǎng)絡(luò)采用2層全連接網(wǎng)絡(luò)，其神經(jīng)元數(shù)目依次為512和4335.

（3）解碼：本文采用束搜索對最后概率分布進行解碼[13]，解碼寬度為10. 并且，采用訓(xùn)練集數(shù)據(jù)構(gòu)建5-元語言模型對聲學模型結(jié)果進行修正，初始設(shè)置語言模型權(quán)重為0.3，式（14）表示RNN-T聲學模型與語言模型聯(lián)合解碼定義：

其中，PRNN-T(y*|X)與PLM(y*)分別表示RNN-T聲學模型以及LM生成y*的概率，α代表語言模型權(quán)重，最終通過Argmax(·)函數(shù)將上述計算結(jié)果映射為對應(yīng)的序列Yfinal.

3.3 實驗結(jié)果

3.3.1 基線模型

RNN-T基線模型可為DL-T提供對比模型并能驗證其聲學模型的有效性. 為得到RNN-T基線模型，基于3.2中設(shè)置的初始實驗參數(shù)，對基線模型中不同參數(shù)進行對比研究. 首先對編碼網(wǎng)絡(luò)中BLSTM網(wǎng)絡(luò)的層數(shù)進行實驗，得到編碼階段最優(yōu)模型；其次，再增加解碼網(wǎng)絡(luò)中單向LSTM層數(shù)；最終采用最低的錯誤率（CER）模型作為基線（Baseline）模型，具體實驗結(jié)果如表1所示.

表1 RNN-T基線模型實驗結(jié)果Table 1 Experimental results of RNN-T’s baseline %

表1中Dev CER、Test CER分別表示驗證集錯誤率和測試集錯誤率. 其中，“E3D1”表示編碼網(wǎng)絡(luò)中BLSTM層數(shù)為3，解碼網(wǎng)絡(luò)中LSTM網(wǎng)絡(luò)層數(shù)為 1；“E3D1(TL)”表示“E3D1”聲學模型經(jīng)過遷移學習(TL)訓(xùn)練得到的模型；遷移學習與語言模型共同優(yōu)化下，得到“E3D1(TL+LM)”聲學模型.

從表1不難看出：

（1）編碼網(wǎng)絡(luò)初始設(shè)為3層，隨其層數(shù)增加，模型預(yù)測錯誤率出現(xiàn)先增后減趨勢，當模型編碼層數(shù)為4，且解碼層數(shù)為2時，聲學結(jié)果達到最優(yōu)，其測試集錯誤率降至14.54%；

（2）RNN-T經(jīng)過重訓(xùn)練可使得聲學模型錯誤率降低1.80%～6.13%，驗證了遷移學習可進一步提高RNN-T聲學模型準確率的結(jié)論；

（3）語言模型和聲學模型聯(lián)合解碼使得RNN-T的效果得到極大提升，相較于文獻[15]，“E4D2(TL+LM)”聲學模型在驗證集與測試集的預(yù)測錯誤率分別相對降低9.87%和9.90%，模型的錯誤率降至10.65%.

綜上可得：（1）“E4D2(TL+LM)”為本文構(gòu)建的RNN-T聲學模型，其錯誤率最低，選其作為基線模型具有合理性；（2）遷移學習可進一步降低初始模型錯誤率，通過插入語言模型可使得模型達到最優(yōu).

3.3.2 DL-T實驗結(jié)果

為驗證DL-T聲學模型相較于RNN-T訓(xùn)練收斂速度快、預(yù)測錯誤率低. 基于3.2節(jié)設(shè)置DL-T初始參數(shù)訓(xùn)練聲學模型，并與3.3.1節(jié)中RNN-T的實驗結(jié)果進行對比，其實驗損失函數(shù)曲線與錯誤率曲線如圖5、圖6所示.

圖5 基線模型實驗曲線圖. （a）初始訓(xùn)練損失值曲線圖；（b）遷移學習損失值曲線圖；（c）初始訓(xùn)練錯誤率曲線圖；（d）遷移學習錯誤率曲線圖Fig.5 Curves of the baseline model:(a) loss curve on initial training stage; (b) loss curve on transfer learning stage; (c) prediction error rate curve on initial training stage; (d) prediction error rate curve on transfer learning stage

圖6 DL-T實驗曲線圖. （a）不同聲學模型初始訓(xùn)練損失值曲線圖；（b）不同聲學模型遷移學習損失值曲線圖；（c）不同聲學模型初始訓(xùn)練錯誤率曲線圖；（d）不同聲學模型遷移學習錯誤率曲線圖Fig.6 Curves of the DenseNet-LSTM-Transducer: (a) loss curve of different acoustic models on initial training stage; (b) loss curve of different acoustic models on transfer learning stage; (c) prediction error rate curve of different acoustic models on initial training stage; (d) prediction error rate curve of different acoustic models on transfer learning stage

圖5中，“DE3D1”表示編碼網(wǎng)絡(luò)為DenseNet-LSTM結(jié)構(gòu)（DenseNet結(jié)構(gòu)與3.2節(jié)參數(shù)一致），其LSTM層數(shù)為3，解碼網(wǎng)絡(luò)中LSTM網(wǎng)絡(luò)層數(shù)為1的DL-T聲學模型. RNN-T以及DL-T實驗結(jié)果分別用虛線、實線表示. 圖5（a）和 5（c）分別表示初始訓(xùn)練階段損失值曲線與錯誤率曲線，圖5（b）和5（d）分別表示遷移學習階段損失值曲線與錯誤率曲線.

從圖5（a）及 5（b）可看出：（1）隨著迭代次數(shù)的增加，聲學模型逐漸趨于收斂，損失值最終收斂到一個固定范圍內(nèi)；（2）在初始訓(xùn)練階段，DL-T收斂速度相較于RNN-T更快；在重訓(xùn)練階段，RNN-T聲學模型損失值減小至0.25左右，DL-T可減小至0.15以下，證明了DL-T相較于RNN-T訓(xùn)練收斂速度更快.

從圖5（c）與 5（d）可看出：（1）隨著迭代次數(shù)的增加，聲學模型預(yù)測錯誤率逐漸降低，最終降至12.0% ～ 15.0% 范圍內(nèi)；（2）初始訓(xùn)練階段，RNN-T 與DL-T預(yù)測錯誤率曲線均呈下降趨勢，但DL-T錯誤率相較于RNN-T低；重訓(xùn)練階段，RNN-T預(yù)測錯誤率降至13.5% ～ 15.0%范圍內(nèi)，DL-T預(yù)測錯誤率最低降至13.0%以下，該結(jié)果進一步驗證了DL-T可顯著降低聲學模型預(yù)測錯誤率. 其具體實驗結(jié)果如表2所示.

表2 DL-T實驗結(jié)果Table 2 Experimental results of DL-T %

表2為實驗具體結(jié)果，本文為得到最優(yōu)DL-T聲學模型. 首先，DenseNet與解碼網(wǎng)絡(luò)層數(shù)不變，分析編碼網(wǎng)絡(luò)中不同BLSTM層數(shù)對于DL-T的影響，從表2可得出，“DE4D2”為最優(yōu)的DL-T聲學模型. 然后固定編碼網(wǎng)絡(luò)不變，探索不同解碼網(wǎng)絡(luò)層數(shù)對模型的影響，從表2可得，當其層數(shù)為2時，模型達到最優(yōu)，即為“DE4D2”模型，最終在測試集錯誤率可達13.45%. 從表2可得以下結(jié)論：（1）遷移學習對于DL-T效果顯著，使得模型的錯誤率降低0.90%～3.08%，再次驗證了其對于模型訓(xùn)練的優(yōu)越性；（2）語言模型的線性插入可進一步降低聲學模型的錯誤率，最優(yōu)聲學模型錯誤率降低至10.34%；（3）必須指出的是：本文提出最優(yōu)的DL-T聲學模型相較于SA-T聲學模型[15]，在驗證集和測試集上的預(yù)測錯誤率分別降低4.45%、1.15%，其相較于LAS聲學模型[28]在測試集上，錯誤率相對降低2.08%，證明了DL-T擅長聲學建模.

為分析RNN-T與DL-T的訓(xùn)練與識別復(fù)雜度，分別選用“E4D2”與“DE4D2”兩種代表性聲學模型對其單輪訓(xùn)練時間與單句解碼耗時進行實驗分析. 實驗結(jié)果表明：（1）“E4D2”與“DE4D2”單輪訓(xùn)練時間分別約為150 s和155 s，“DE4D2”相較于前者單輪訓(xùn)練時間只增加約5 s，說明DL-T對 RNN-T訓(xùn)練時間影響較??；（2）“E4D2”與“DE4D2”單句解碼耗時分別約為910 ms與915 ms，“DE4D2”相較于前者單句解碼耗時僅相對增加0.55%，實驗結(jié)果進一步驗證了DL-T對于識別復(fù)雜度的影響較小.

為進一步驗證不同語言模型權(quán)重對于聲學模型結(jié)果的影響，表3給出了不同語言模型權(quán)重對于模型“DE4D2”的影響，語言模型的權(quán)重分別設(shè)置為0.2、0.3和0.4. 從表3實驗結(jié)果可得出，當權(quán)重值為0.3時，聲學模型的錯誤率最低，達到10.34%，聲學模型結(jié)果為最優(yōu).

表3 不同語言模型對聲學模型的影響Table 3 Effects of different language model weights on the acoustic model %

值得指出的是：綜合表1、表2與表3實驗結(jié)果可得出，DL-T相較于本文RNN-T基線模型，在驗證集、測試集錯誤率分別相對降低3.61%和2.94%，進一步驗證了DL-T相較于RNN-T可顯著降低其預(yù)測錯誤率，其最優(yōu)模型的具體訓(xùn)練過程曲線圖如圖6所示.

為進一步展示最優(yōu)聲學模型實驗過程，圖6（a）～6（d）展示了“E4D1”、“E4D2”、“DE4D2”三種不同聲學模型的不同實驗結(jié)果，其中模型“DE4D2”為本文最佳結(jié)果，模型的最終錯誤率降至10.34%.圖6（a）、6（c）表示初始訓(xùn)練結(jié)果，圖6（b）、6（d）表示遷移學習結(jié)果. 由圖6（a）與圖6（b）可以得出：（1）隨著迭代次數(shù)增加，模型趨于收斂，最終損失值收斂在 0.05～0.40范圍內(nèi)；（2）“DE4D2”模型在初始訓(xùn)練時相較于其他模型收斂速度最快，再次驗證了DL-T可有效解決RNN-T收斂速度較慢的問題.

從圖6（c）與圖6（d）可以得出：（1）三種聲學模型錯誤率總體呈下降趨勢，其錯誤率最終降到10.0%～14.0%區(qū)間；（2）結(jié)合表1與表2結(jié)果可知，“DE4D2”相較于“E4D1”、“E4D2”在測試集上錯誤率降低2.73%和0.31%，再次證明本文提出的DL-T模型可顯著降低模型錯誤率.

綜合表1～表2、圖5～圖6可得以下結(jié)論：

（1）從表1與圖5可得出：論文構(gòu)建的RNN-T基線模型相較于文獻[15]基線模型，其驗證集與測試集預(yù)測錯誤率分別降低9.87%、9.90%，證明了本文構(gòu)建的基線模型的有效性；

（2）基于圖5及圖6可得出，DL-T模型收斂速度相較于RNN-T模型更快，其值收斂于0.01～0.4范圍，驗證了DL-T可有效改善RNN-T收斂速度；

（3）從表1與表2可得出，DL-T相較于RNN-T基線模型在驗證集及測試集錯誤率分別相對降低3.61%、2.94%，其最終錯誤率降至10.34%，表明DL-T可降低聲學模型預(yù)測的錯誤率；

（4）值得指出的是：“DE4D2(TL+LM)”模型相較于SA-T模型[15]，在驗證集和測試集上分別相對降低4.45%、1.15%，且其相較于LAS模型[28]在測試集上預(yù)測錯誤率降低2.08%，進一步證明了DL-T可顯著降低聲學模型錯誤率及其對于聲學建模的優(yōu)越性.

4 結(jié)論

以 RNN-T 端到端語音識別聲學模型為研究對象，針對其在語音識別時存在預(yù)測錯誤率高、收斂速度慢的問題，提出了 DL-T 聲學模型及適用于 DL-T 的遷移學習方法.

（1）在研究RNN-T聲學模型的基礎(chǔ)上，搭建了該聲學模型系統(tǒng).

（2）提出了一種DL-T聲學建模方法，通過在編碼網(wǎng)絡(luò)中融入DenseNet網(wǎng)絡(luò)結(jié)構(gòu)，其不僅能提取語音高維特征便于序列建模，又可加快模型訓(xùn)練的收斂速度.

（3）提出了一種適用于DL-T的遷移學習方法，該方法主要在初始模型上重訓(xùn)練得到更優(yōu)聲學模型，其可顯著地提升聲學模型準確率.

（4）基于Aishell-1開展了語音識別的研究，結(jié)果表明，相較于文獻[15]基線模型RNN-T，DL-T在驗證集及測試集預(yù)測錯誤率分別相對降低13.13%、12.52%，且其相較于SA-T、LAS聲學模型測試集預(yù)測錯誤率分別相對降低1.15%、2.08%，進一步證明了DL-T可提升聲學模型訓(xùn)練收斂速度.

論文研究內(nèi)容對以 RNN-T 構(gòu)建的語音識別聲學模型在模型優(yōu)化、理論研究與工程應(yīng)用等方面均具有一定的指導(dǎo)意義.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡