国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于注意力機(jī)制語譜圖特征提取的語音識別

2024-05-15 19:23:13姜囡龐永恒高爽
關(guān)鍵詞:注意力機(jī)制語音識別

姜囡 龐永恒 高爽

摘要: 針對連接時序分類模型需具有輸出獨(dú)立性的假設(shè), 對語言模型的依賴性強(qiáng)且訓(xùn)練周期長的問題, 提出一種基于連接時序分類模型的語音識別方法. 首先, 基于傳統(tǒng)聲學(xué)模型的框架, 利用先驗(yàn)知識訓(xùn)練基于注意力機(jī)制的語譜圖特征提取網(wǎng)絡(luò), 有效提高了語音特征的區(qū)分性和魯棒性; 其次, 將語譜圖特征提取網(wǎng)絡(luò)拼接在連接時序分類模型的前端, 并減少模型中循環(huán)神經(jīng)網(wǎng)絡(luò)層數(shù)進(jìn)行重新訓(xùn)練. 測試分析結(jié)果表明, 該改進(jìn)模型縮短了訓(xùn)練時間, 有效提升了語音識別準(zhǔn)確率.

關(guān)鍵詞: 語音識別; CTC模型; 循環(huán)神經(jīng)網(wǎng)絡(luò); 注意力機(jī)制

中圖分類號: TP391文獻(xiàn)標(biāo)志碼: A文章編號: 1671-5489(2024)02-0320-11

Speech Recognition Based on Attention Mechanism and Spectrogram Feature Extraction

JIANG Nan1, PANG Yongheng1, GAO Shuang2

(1. School of Public Security Information Technology and Intelligence,Criminal Investigation Police University of China, Shenyang 110854, China;2. College of Information Science and Engineering, Northeastern University, Shenyang 110819, China)

Abstract: Aiming at the problem that the connected temporal classification model needed to have output independence assumption, and there was strong dependence on language model and long training period, we proposed? a speech recognition method based on connected temporal classification model. Firstly, based on the framework of traditional acoustic model, spectrogram feature extraction network based on attention mechanism was trained by using prior knowledge, which effectively improved the discrimination and robustness of speech features. Secondly, the spectrogram feature extraction network was spliced in the front of the connected temporal? classification model, and the number of layers of the recurrent neural network in the model was reduced for retraining. The test analysis results show that the improved model shortens the training time, and effectively improves the? accuracy of speech recognition.

Keywords: speech recognition; CTC model; recurrent neural network; attention mechanism

近年來, 在信息處理、 通信與電子系統(tǒng)、 自動控制等領(lǐng)域相繼出現(xiàn)了不同用途的語音識別系統(tǒng), 低信噪比下語音識別已顯露強(qiáng)大的技術(shù)優(yōu)勢和生命力, 但仍面臨諸多問題需要完善. 環(huán)境噪音和雜音對語音識別的效果影響不容忽視; 在多語言混合、 無限詞匯識別和自適應(yīng)方面需要進(jìn)一步改進(jìn), 以達(dá)到不受口音、 方言和特定人影響的要求[1-3].

傳統(tǒng)基于GMM-HMM(Gaussian mixture model-hidden Markov model)的語音識別框架得到廣泛使用和研究[4-5], 提出了語音識別聲學(xué)模型的區(qū)分性訓(xùn)練準(zhǔn)則, 有效提升了語音識別的準(zhǔn)確率和識別速率. 基于聲學(xué)模型的區(qū)分性訓(xùn)練(discriminative training, DT)準(zhǔn)則和最大似然估計訓(xùn)練GMM-HMM, 根據(jù)區(qū)分性準(zhǔn)則對模型參數(shù)進(jìn)行更新, 可以顯著提升模型的性能[6-8]. 文獻(xiàn)[9-10]將深層神經(jīng)網(wǎng)絡(luò)用于語音的聲學(xué)建模, 在音素識別TIMIT(聲學(xué)-音素連續(xù)語音語料庫, The DARPA TIMIT acoustic-phonetic continuous speech corpus)任務(wù)上獲得成功, 但由于TIMIT是一個小詞匯量的數(shù)據(jù)庫, 連續(xù)語音識別任務(wù)更關(guān)注的是詞組和句子的正確率, 識別效果并不理想. 文獻(xiàn)[11]提出了在CD-DNN-HMM框架下利用混合帶寬訓(xùn)練數(shù)據(jù), 提高寬帶語音識別精度的策略, DNN(deep neural network)提供了使用任意特性的靈活性.

隨著基于GMM-HMM的語音識別框架被打破, 文獻(xiàn)[12]考慮卷積提供了一種改進(jìn)的混響建模能力, 將CNN(convolutional neural network)與全連接的DNN相結(jié)合, 可以在參數(shù)小于DNN的特征向量中建立短時間相關(guān)性模型, 從而更好地泛化未發(fā)現(xiàn)的測試環(huán)境. 文獻(xiàn)[13]提出一種具有規(guī)則化自適應(yīng)性的基于長短時記憶(long and short term memory, LSTM)循環(huán)神經(jīng)網(wǎng)絡(luò)的聲學(xué)模型. 在混合模型中, DNN/CNN/RNN(recurrent neural network)與隱Markov模型(HMM)是分開優(yōu)化的, 又由于語音識別中存在序列識別問題, 因此聯(lián)合優(yōu)化模型中的所有組件會有效提升識別率, 因而端到端的處理方式被引入到語音識別系統(tǒng)中. 文獻(xiàn)[13]提出了一種基于Gammatone頻率倒譜系數(shù)(GFCC)的特征提取方法, 彌補(bǔ)了Mel頻率倒譜系數(shù)(MFCC)特征的局限性. 文獻(xiàn)[14-18]提出了混合式CTC(connected temporal classification)/注意端到端的語音識別技術(shù), 這是一種用于語音識別、 文本識別等任務(wù)的深度學(xué)習(xí)模型, 它可以直接從時序數(shù)據(jù)中學(xué)習(xí)并預(yù)測出整段序列的標(biāo)簽. CTC模型的基本架構(gòu)是一個由多個循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)單元組成的雙向網(wǎng)絡(luò), 該網(wǎng)絡(luò)在輸入時序數(shù)據(jù)后, 可以輸出整段序列的標(biāo)簽概率分布, 通過反向傳播算法進(jìn)行訓(xùn)練, 最終得到的模型可以對新的未知序列進(jìn)行標(biāo)簽預(yù)測, 有效利用了訓(xùn)練和譯碼的優(yōu)點(diǎn), 采用多任務(wù)學(xué)習(xí)框架提高魯棒性, 可以實(shí)現(xiàn)快速收斂.

本文提出一種基于連接時序分類模型的語音識別方法. 充分利用先驗(yàn)知識, 基于注意力機(jī)制訓(xùn)練語譜圖特征提取網(wǎng)絡(luò), 有效提升提取特征的區(qū)分性和魯棒性. 最終保證模型訓(xùn)練時間有效降低, 提升語音識別準(zhǔn)確率.

1 端到端模型的語音識別框架

1.1 語音識別系統(tǒng)流程

語音識別系統(tǒng)包括聲學(xué)特征提取、 語言和聲學(xué)模型、 發(fā)音詞典和解碼器5個模塊, 如圖1所示.

從語音信號中提取到的聲學(xué)特征經(jīng)過統(tǒng)計訓(xùn)練到聲學(xué)模型, 把該聲學(xué)模型作為識別單元的模板, 結(jié)合發(fā)音詞典和語言模型, 經(jīng)過解碼器處理得到識別結(jié)果.

1.2 基于CTC的端到端語音識別框架

CTC的連續(xù)語音識別系統(tǒng)主要包括循環(huán)神經(jīng)網(wǎng)絡(luò)和CTC函數(shù)計算層, 其中循環(huán)神經(jīng)網(wǎng)絡(luò)包含4層LSTM單元, 如圖2所示, 其作用主要是提取輸入特征中的有效時序信息, 提升特征的區(qū)分性能和表達(dá)能力. CTC函數(shù)計算層則可以直接計算輸出序列后驗(yàn)概率.

LSTM模型是RNN的一種變形. RNN存在梯度消失的問題, 即后面時間節(jié)點(diǎn)對前面時間節(jié)點(diǎn)的感知力下降, 網(wǎng)絡(luò)深度過大無法訓(xùn)練. 圖3為循環(huán)神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu). 由圖3可見, Xt是網(wǎng)絡(luò)在t時刻的輸入, 經(jīng)過網(wǎng)絡(luò)結(jié)構(gòu)處理得到ht, 它可以進(jìn)行輸出, 也可以傳遞給下一時刻. yt+1為t+1時刻網(wǎng)絡(luò)得到的輸出結(jié)果, 包含了當(dāng)前時刻和所有歷史時刻共同作用的結(jié)果, 以此可以對時間序列建模. 其中隱含層狀態(tài)計算公式為ht=f(Whxxt+Whhht-1);(1)輸出和隱含層狀態(tài)的關(guān)系為yt=g(Whyht),(2)其中f(·)是隱含層激活函數(shù), g(·)是輸出層激活函數(shù), Whx,Why和Whh是權(quán)重矩陣.

LSTM在RNN的基礎(chǔ)上, 增加了一個存儲單元、 一個輸入門、 一個輸出門和一個遺忘門, 如圖4所示.

在CTC算法中, 同一個實(shí)際音素序列可由基于幀的音素序列轉(zhuǎn)換, 多個基于幀的音素序列的后驗(yàn)概率相加可得到實(shí)際音素序列的后驗(yàn)概率. 通常CTC算法在進(jìn)行計算前, 都要在識別音素集合中加入空白符“—”和序列映射函數(shù)Γ, 其中空白符不但代表連續(xù)語音中的靜音區(qū)間, 也可作為兩個音素之間的分隔符. 加入空白符后新的音素集合A={c1,c2,…,cm,—}元素數(shù)量為m+1, 因此需要把模型中Softmax層單元數(shù)調(diào)整至m+1. 序列映射函數(shù)Γ定義為: AT→A≤T, 即把基于幀的音素序列映射成長度較短的實(shí)際音素序列.

基于CTC和文本對齊的音頻示例如圖5所示. 由圖5可見, 分幀式方法需要做每個音素的標(biāo)記, 而CTC只是預(yù)測一系列的峰值和緊接著一些可能的空白符用于區(qū)分字母, 分幀式的方法可能出現(xiàn)對齊錯誤, 因?yàn)橄噜弮蓭臉?biāo)簽概率分布圖太接近, 如在dh,ax有明顯的重疊, 而CTC卻沒有出現(xiàn)這種情況.

雖然基于CTC的端到端語音識別模型摒棄了傳統(tǒng)HMM框架, 輸出可以達(dá)到音素甚至更小的狀態(tài), 但其仍存在一些不足:

1) CTC損失函數(shù)訓(xùn)練時間較長, 優(yōu)化空間相對復(fù)雜, 損失函數(shù)的數(shù)值敏感較易出現(xiàn)波動, 越接近優(yōu)化目標(biāo), 優(yōu)化空間變得越小, 易導(dǎo)致反優(yōu)化;

2) 有輸出獨(dú)立性的假設(shè), 對于語言模型的依賴性較強(qiáng);

3) 循環(huán)神經(jīng)網(wǎng)絡(luò)在時域上呈遞歸結(jié)構(gòu), 不能同時處理多幀數(shù)據(jù).

2 基于注意力機(jī)制語譜圖特征提取模型

針對CTC的端到端語音識別模型的局限性, 研究者已提出在端到端模型的前端增加一個基于注意力機(jī)制的語譜圖特征提取模型. 基于語譜圖提取聲學(xué)特征相當(dāng)于對原始語音非線性特征進(jìn)行壓縮變換, 相比常規(guī)MFCC等特征維度更低, 同時對背景噪聲、 信道和說話人的魯棒性和區(qū)分度也更強(qiáng). 利用端到端可以實(shí)現(xiàn)直接建模, 將特征提取模型拼接到識別模型的前端, 對融合后的識別模型進(jìn)行聯(lián)合訓(xùn)練, 并微調(diào)參數(shù), 可有效提升識別準(zhǔn)確率.

2.1 利用語譜圖提取發(fā)音特征

語音幀長通常是20~50 ms, 為準(zhǔn)確獲取說話人音質(zhì)、 音色的信息, 選擇單個完整音節(jié)作為語譜圖的最小單位, 時間為50~200 ms. 考慮通常自然發(fā)音的頻率范圍在100~3 000 Hz, 設(shè)置縱坐標(biāo)的頻率標(biāo)尺范圍. 下面用一段語音的語譜圖進(jìn)行分析.

圖6為一個灰度窄帶語譜圖, 灰度值深淺漸變的像素值可精確反映不同時間點(diǎn)頻率分布的動態(tài)變化. 語音信號在低頻處分布較多, 高頻處分布較少, 且含有許多不同的花紋, 如橫杠、 豎直條和亂紋等, 其中橫杠與時間軸平行, 表示共振峰, 深色條紋呈周期性均勻分布, 從它對應(yīng)的縱軸頻率和寬度可確定相應(yīng)的共振峰頻率和帶寬. 共振峰的個數(shù)、 走向以及帶寬都是重要的特征參數(shù). 為更清晰直觀地說明語譜圖特征參數(shù)的優(yōu)越性. 將語音信號的各特征參數(shù)進(jìn)行對比, 結(jié)果列于表1.

現(xiàn)在大多數(shù)語音識別系統(tǒng)都采用MFCC參數(shù), 但它的抗噪性和穩(wěn)定性較差, 因此本文采用在語譜圖上提取特征, 具有較強(qiáng)的穩(wěn)定性和魯棒性, 能進(jìn)一步提升語音識別的準(zhǔn)確率.

2.2 注意力機(jī)制模型

注意力機(jī)制模擬人類視覺機(jī)制忽略無關(guān)特征, 將注意力分配在特征序列的部分相關(guān)區(qū)域, 從特征序列中提取有效特征. 在序列到序列模型中, 將特征序列(h1,h2,…,hT)映射成一個目標(biāo)向量cto, 計算輸出序列的元素yo. 為便于后端模式分類,? 將序列中壓縮后的重要信息變換為固定長度向量, 再將cto作為注意力子網(wǎng)絡(luò)后的解碼網(wǎng)絡(luò)輸入, 依次計算出循環(huán)神經(jīng)網(wǎng)絡(luò)隱含層狀態(tài)序列(s1,s2,…,sO)和輸出序列(y1,y2,…,yO). 注意力模型結(jié)構(gòu)如圖7所示.

輸出序列位置o∈{1,2,…,O}所對應(yīng)的目標(biāo)向量為cto, 根據(jù)注意力機(jī)制其計算過程如下. 輸出序列位置o-1的隱含層狀態(tài)為so-1, 首先計算其與t時刻的特征關(guān)聯(lián)度:eo,t=a(so-1,ht),(3)其中a(·)為只含一個隱含層的多層感知機(jī). 注意力子網(wǎng)絡(luò)表示為eo,t=ωTtanh(W[so-1,ht]+b),(4)其中W為輸入層到隱含層的權(quán)重矩陣, b為偏置向量, ω為隱含層到輸出層的權(quán)重矩陣.

將對所有時刻特征的關(guān)聯(lián)度進(jìn)行指數(shù)歸一化后的數(shù)值作為注意力系數(shù):αo,t=exp{eo,t}/∑T/t=1exp{eo,t},(5)其中αo,t為權(quán)重, 針對全部時刻的特征加權(quán)求和, 利用注意力機(jī)制, 得到輸出序列位置o對應(yīng)的目標(biāo)向量cto為cto=∑T/t=1αo,tht.(6)采用注意力機(jī)制計算目標(biāo)向量的過程可記為cto=attention((h1,h2,…,hT),so-1).(7)

2.3 基于語譜圖特征提取模型的訓(xùn)練

3 基于語譜圖特征提取模型的語音識別

3.1 匹配相似度定義

引入更靈活的方式比較兩個序列之間的相似度: 最長公共子串(longest common substring, LCS)和編輯距離匹配法(edit distance matching).

3.2 注意力機(jī)制端到端語音識別設(shè)計

在語譜圖利用注意力模型提取高維特征, 在基于CTC的端到端模型上進(jìn)行語音識別. 步驟如下:

1) 樣本輸入. 基于自適應(yīng)門限的分形維數(shù)算法對音頻進(jìn)行語音端點(diǎn)檢測, 然后轉(zhuǎn)化成灰度語譜圖Xi(i=1,2,…,n), 作為系統(tǒng)的輸入.

2) 訓(xùn)練基于注意力的模型. 首先引入不同的函數(shù)和計算機(jī)制, 根據(jù)輸入序列X和目標(biāo)序列P, 計算兩者的相似性或者相關(guān)性, 點(diǎn)積為Similarity(X,P)=X·P,(10)余弦相似性為Similarity(X,P)=X·P/‖X‖·‖P‖,(11)MLP網(wǎng)絡(luò)為MLP(X,P).(12)引入Softmax的計算方式對第一步的得分進(jìn)行值轉(zhuǎn)換, 采用如下公式計算:ai=Softmax(Simi)=eSimi/∑Lx/j=1eSimj.(13)計算特征Valuei對應(yīng)的權(quán)重系數(shù), 然后加權(quán)求和即可得到Attention數(shù)值:Attention(X,P)=∑LX/i=1ai·Valuei.(14)

3.3 注意力模型提取語譜圖特征

由于注意力輸出序列未知, 同時考慮注意力模型中解碼網(wǎng)絡(luò)位置輸出對計算結(jié)果的影響, 基于帶序列終止符的BeamSearch算法在注意力模型解碼網(wǎng)絡(luò)的輸出中, 將負(fù)概率最低的序列作為輸出. 按照序列的長度逐步枚舉解碼結(jié)果, 并將其存儲在一個容量為beam_size 序列集合中. 根據(jù)集合中元素, 在進(jìn)行每次搜索時序列輸入和解碼網(wǎng)絡(luò)將序列長度拓展1位, 能同時得到多個候選結(jié)果和對應(yīng)的得分. 從中可篩選出最好的beam_ size個序列保留在集合中, 根據(jù)此流程循環(huán)運(yùn)行.

3.4 基于CTC端到端模型的訓(xùn)練和識別

在注意力模型中從語譜圖上得到高維特征, 輸入到LSTM神經(jīng)網(wǎng)絡(luò), 繼續(xù)經(jīng)過一層全連接神經(jīng)網(wǎng)絡(luò), 將最后一個維度映射作為所有可能的類標(biāo). 同時數(shù)據(jù)會進(jìn)入 CTC模塊和計算損失函數(shù), 經(jīng)反向傳播神經(jīng)網(wǎng)絡(luò), 預(yù)測輸入數(shù)據(jù)所對應(yīng)的序列.

綜上, 基于注意力機(jī)制的端到端語音識別算法的系統(tǒng)框圖如圖8所示.

4 實(shí)驗(yàn)分析

4.1 實(shí)驗(yàn)配置

在PyCharm軟件TensorFlow框架下進(jìn)行語音識別實(shí)驗(yàn). 使用的語料庫是thchs-30語音庫, 該數(shù)據(jù)庫設(shè)計的目的是作為863數(shù)據(jù)庫的補(bǔ)充, 盡可能提高中文發(fā)音的涵蓋率.

thchs-30語音庫是使用單個碳粒麥克風(fēng)在安靜的辦公室環(huán)境下錄制的, 總時長約30 h, 參與錄音的人員為會說流利普通話的大學(xué)生, 設(shè)置采樣頻率為16 kHz, 其文本選取自大容量的新聞和文章, 全部為女聲. 表2列出了該數(shù)據(jù)集包含的全部內(nèi)容. 其中開發(fā)集的作用是調(diào)整參數(shù)、 選擇特征, 與訓(xùn)練集進(jìn)行交叉驗(yàn)證. 訓(xùn)練和測試的目標(biāo)數(shù)據(jù)可分為詞和音素兩類. 表3列出了訓(xùn)練thchs語料庫的一些基本信息.

在語音識別中, 常用的評價指標(biāo)除有識別的準(zhǔn)確率, 還有詞錯誤率(word error rate, WER).為保持識別的詞序列和目標(biāo)序列的一致性, 需要進(jìn)行替換、 刪除或插入等操作, 錯誤率用WER表示, 其計算公式為WER=S+D+I/N×100%,(15)其中S表示替換, D表示刪除, I表示插入, N為單詞數(shù)目.

語音識別結(jié)構(gòu)如圖9所示, 分別提取MFCC特征, 用CNN和Attention在語譜圖上提取特征, 再分別輸入到HMM,RNN和LSTM+CTC模型中進(jìn)行語音識別, 對比分析, 以驗(yàn)證改進(jìn)算法的有效性.

4.2 基于MFCC特征的語音識別模型分析

選取thchs語料庫中一段名為“A2_46.wav”的音頻文件, 該音頻內(nèi)容為“換句話說, 一個氯原子只能和一個鈉原子結(jié)合, 而兩個氯原子才能和一個鎂原子化合.” 音頻時長為8 s, 提取的時域波形如圖10所示.

對音頻進(jìn)行端點(diǎn)檢測, 由于音頻中含有多段短語音段, 用紅色豎線標(biāo)記過于雜亂. 因此對檢測出的短語音段, 用紅色覆蓋, 靜音部分用灰色標(biāo)記, 得到的語音波形如圖11所示.

提取特征維度為12維的語音MFCC特征, 并對其逐幀提取. 各語音的長度不同, 所得特征矩陣的大小也不同, 例如當(dāng)一段語音的幀數(shù)為n, 則對應(yīng)提取的特征是一個n×12的特征矩陣, 因此無法統(tǒng)一模型輸入的尺度. 因此, 計算全部幀的MFCC向量均值, 并將其作為整段語音的MFCC特征, 按列求取特征矩陣的平均值, 歸一化后可得到1×12的MFCC特征向量. 將MFCC特征分別輸入到DNN-HMM,RNN和LSTM+CTC三個模型中, 對比平均迭代周期和識別錯誤率, 以證明LSTM+CTC模型的優(yōu)越性.

采用三音素的狀態(tài)作為DNN網(wǎng)絡(luò)的標(biāo)簽信息. 整個網(wǎng)絡(luò)包括1個輸入層、 6個隱含層和1個輸出層. Tanh 函數(shù)作為隱含層的激活函數(shù), 輸出層分類用Softmax函數(shù), 以最小化交叉熵為目標(biāo)函數(shù), 權(quán)重學(xué)習(xí)率為0.001. 整個RNN網(wǎng)絡(luò)包括1層輸入層, 輸入層的節(jié)點(diǎn)數(shù)為300; 3個隱含層每層有2 048個節(jié)點(diǎn); 一個輸出層, 對應(yīng)36 016個節(jié)點(diǎn). Sigmoid函數(shù)作為隱含層的激活函數(shù), 輸出層分類用Softmax函數(shù). 采用最小化交叉熵作為目標(biāo)函數(shù), 學(xué)習(xí)率初始值為0.001.

針對LSTM單元訓(xùn)練神經(jīng)網(wǎng)絡(luò)的隱含層, 設(shè)置狀態(tài)維度為300, LSTM堆疊的層數(shù)為4, 隱藏節(jié)點(diǎn)為40個, 1個全連接層. CTC為目標(biāo)損失函數(shù), 學(xué)習(xí)率為0.001.

表4列出了基于MFCC特征的語音識別模型對比結(jié)果. 由表4可見, LSTM+CTC語音識別模型在訓(xùn)練時間和識別性能上都優(yōu)于其他模型, 平均迭代周期降低到37 min, 識別的錯誤率僅為7.5%.

4.3 基于語譜圖特征的語音識別模型分析

繼續(xù)采用“A2_46.wav”音頻, 轉(zhuǎn)化成語譜圖如圖12所示. 圖12為灰度窄帶語譜圖, 通過灰度值漸變的像素值可精確反應(yīng)不同時間點(diǎn)頻率分布的動態(tài)變化情況. 圖13為灰度統(tǒng)計直方圖的實(shí)例及原圖. 由圖13可得到各種像素所占的比例, 同時可對應(yīng)語譜圖中的頻率信息. 因?yàn)檎Z音信號頻率本身具有高頻部分不明顯、 低頻處明顯的特征, 并且圖中顯示低頻部分顏色較深, 且顏色的覆蓋率也相對較大, 這與人類的發(fā)音特點(diǎn)一致.

將語譜圖分別輸入到CNN網(wǎng)絡(luò)和注意力模型中, 再拼接在LSTM+CTC模型中, 對比并證明注意力機(jī)制的優(yōu)越性. 針對CNN網(wǎng)絡(luò)中的每個卷積層, 采用3×3的小卷積核, 并在多個卷積層后加上池化層, 增強(qiáng)了CNN的表達(dá)能力. 但它與注意力網(wǎng)絡(luò)相比, 不能很好地表達(dá)語音的長時相關(guān)性, 魯棒性也較差. 圖14為兩種網(wǎng)絡(luò)模型識別錯誤率的對比. 由圖14可見, 用CNN在語譜圖上提取特征得到識別錯誤率平均約為4.9%, 而基于注意力模型得到的識別錯誤率約維持在4.0%, 識別效果得到了有效提升.

4.4 實(shí)驗(yàn)結(jié)果對比分析

針對下面選取的9段中文音頻文件分別進(jìn)行識別分析驗(yàn)證. 進(jìn)行端點(diǎn)檢測后, 基于注意力機(jī)制的語音識別模型的識別結(jié)果列于表5. 由表5可見, 只有第4段和第7段語音識別結(jié)果出現(xiàn)明顯的局部錯誤. 基于注意力機(jī)制的端到端的語音識別模型識別的錯誤率可降低到約5%. 表6統(tǒng)計了不同特征在不同模型下語音識別的詞錯誤率.

由表6可見: 從特征的角度, 用注意力機(jī)制提取語譜圖得到的錯誤率要低于MFCC特征和利用CNN提取語譜圖特征的錯誤率; 從模型的角度, LSTM+CTC語音識別模型明顯要優(yōu)于DNN-HMM和RNN模型. 因此, 基于注意力機(jī)制的LSTM+CTC模型能有效降低識別錯誤率, 縮短了訓(xùn)練時間.

綜上所述, 本文以thchs語料庫為樣本集, 提取了MFCC特征, 用CNN和Attention在語譜圖上提取特征, 通過輸入到HMM,RNN和LSTM+CTC模型的識別分析對比, 基于注意力機(jī)制的LSTM+CTC模型能同時彌補(bǔ)其他兩種模型的缺陷, 縮短了訓(xùn)練周期, 并有效提高了語音識別的準(zhǔn)確率.

參考文獻(xiàn)

[1]王建榮, 張句, 路文煥. 機(jī)器人自身噪聲環(huán)境下的自動語音識別 [J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2017, 57(2): 153-157. (WANG J R, ZHANG J, LU W H. Automatic Speech Recognition with Robot Noise [J]. Journal of Tsinghua University (Science and Technology), 2017, 57(2): 153-157.)

[2]姚慶安, 張鑫, 劉力鳴, 等. 融合注意力機(jī)制和多尺度特征的圖像語義分割 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2022, 60(6): 1383-1390. (YAO Q A, ZHANG X, LIU L M, et al. Image Semantic Segmentation Based on Fusing Attention Mechanism and Multi-scale Features [J]. Journal of Jilin University (Science Edition), 2022, 60(6): 1383-1390.)

[3]茍鵬程, 宗群. 車載語音識別及控制系統(tǒng)的設(shè)計與實(shí)現(xiàn) [J]. 計算機(jī)應(yīng)用與軟件, 2017, 34(5): 129-134. (GOU P C, ZONG Q. Design and Realization of Vehicle Speech Recognition and Control System [J]. Computer Applications and Software, 2017, 34(5): 129-134.)

[4]HAN L H, WANG B, DUAN S F. Development of Voice Activity Detection Technology [J]. Application Research of Computers, 2010, 27(4): 1220-1226.

[5]金超, 龔鋮, 李輝. 語音識別中神經(jīng)網(wǎng)絡(luò)聲學(xué)模型的說話人自適應(yīng)研究 [J]. 計算機(jī)應(yīng)用與軟件, 2018, 35(2): 200-205. (JIN C, GONG C, LI H. Speaker Adaptation Research of Neural Network a Coustic Model in Speech Recognition [J]. Computer Applications and Software, 2018, 35(2): 200-205.)

[6]陶勇, 朱媛. 基于深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型及其改進(jìn)的語音識別研究 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2021, 59(4): 539-546. (TAO Y, ZHU Y. Research on Speech Recognition Based on Deep Neural Network Acoustic Model and Its Improvement [J]. Journal of Jilin University (Science Edition), 2021, 59(4): 539-546.)

[7]CAO D Y, GAO X, GAO L. An Improved Endpoint Detection Algorithm Based on MFCC Cosine Value [J]. Wireless Personal Communications, 2017, 95(3): 2073-2090.

[8]KHELIFA O M, ELHADJ Y M, YAHYA M. Constructing Accurate and Robust HMM/GMM Models for an Arabic Speech Recognition System [J]. International Journal of Speech Technology, 2017, 20: 937-949.

[9]陳愛月, 徐波, 申子健. 基于高斯混合模型及TIMIT語音庫的說話人身份識別 [J]. 信息通信, 2017, 7: 51-52.(CHEN A Y, XU B, SHEN Z J. Speaker Recognition Based on Gaussian Mixture Model and TIMIT Speech Database [J]. Information and Communication, 2017, 7: 51-52.)

[10]LANJEWAR R B, MATHURKAR S, PATEL N. Implementation and Comparison of Speech Emotion Recognition System Using Gaussian Mixture Model (GMM) and K-Nearest Neighbor (KNN) Techniques [J]. Procedia Computer Science, 2015, 49(1): 50-57.

[11]CUI X D, JING H, CHIEN J T. Multi-view and Multi-objective Semi-supervised Learning for HMM-Based Automatic Speech Recognition [J]. IEEE Transactions on Audio Speech & Language Processing, 2012, 20(7): 1923-1935.

[12]MAAS A L, QI P, XIE Z, et al. Building DNN Acoustic Models for Large Vocabulary Speech Recognition [J]. Computer Speech & Language, 2017, 41(7): 195-213.

[13]邵玉斌, 陳亮, 龍華, 等. 基于改進(jìn)GFCC特征參數(shù)的廣播音頻語種識別 [J]. 吉林大學(xué)學(xué)報(理學(xué)版), 2022, 60(2): 417-424. (SHAO Y B, CHEN L, LONG H, et al. Broadcast Audio Language Identification Based on Improved GFCC Feature Parameters [J]. Journal of Jilin University (Science Edition), 2022, 60(2): 417-424.)

[14]HINTON G, DENG L, DONG Y, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups [J]. IEEE Signal Processing Magazine, 2012, 29(6): 82-97.

[15]YI J Y, WEN Z Q, TAO J H, et al. CTC Regularized Model Adaptation for Improving LSTM RNN Based Multi-accent Mandarin Speech Recognition [J]. Journal of Signal Processing Systems, 2017, 90(2): 1-13.

[16]WATANABE S, HORI T, KIM S, et al. Hybrid CTC/Attention Architecture for End-to-End Speech Recognition [J]. IEEE Journal of Selected Topics in Signal Processing, 2017, 11(8): 1240-1253.

[17]張宇, 張鵬遠(yuǎn), 顏永紅. 基于注意力LSTM和多任務(wù)學(xué)習(xí)的遠(yuǎn)場語音識別 [J]. 清華大學(xué)學(xué)報(自然科學(xué)版), 2018, 58(3): 249-253. (ZHANG Y, ZHANG P Y, YAN Y H. Long Short-Term Memory with Attention and Multitask Learning for Distant Speech Recognition [J]. Journal of Tsinghua University (Science and Technology), 2018, 58(3): 249-253.)

[18]龍星延, 屈丹, 張文林. 結(jié)合瓶頸特征的注意力聲學(xué)模型 [J]. 計算機(jī)科學(xué), 2019, 46(1): 260-264. (LONG X Y, QU D, ZHANG W L. Attention-Based Acoustic Model with Bottleneck Features [J]. Journal of Computer Science, 2019, 46(1): 260-264.)

(責(zé)任編輯: 韓 嘯)

收稿日期: 2023-03-08.

第一作者簡介: 姜 囡(1979—), 女, 漢族, 博士, 教授, 從事智能識別的研究, E-mail: zgxj_jiangnan@126.com.

基金項(xiàng)目: 教育部重點(diǎn)研究項(xiàng)目(批準(zhǔn)號: E-AQGABQ20202710)、 遼寧省自然科學(xué)基金(批準(zhǔn)號: 2019-ZD-0168)、 遼寧省科技廳聯(lián)合開放基金機(jī)器人學(xué)國家重點(diǎn)實(shí)驗(yàn)室開放基金(批準(zhǔn)號: 2020-KF-12-11)、 中國刑事警察學(xué)院重大計劃培育項(xiàng)目(批準(zhǔn)號: 3242019010)、 公安學(xué)科基礎(chǔ)理論研究創(chuàng)新計劃項(xiàng)目(批準(zhǔn)號: 2022XKGJ0110)和證據(jù)科學(xué)教育部重點(diǎn)實(shí)驗(yàn)室(中國政法大學(xué))開放基金(批準(zhǔn)號: 2021KFKT09).

猜你喜歡
注意力機(jī)制語音識別
面向短文本的網(wǎng)絡(luò)輿情話題
基于自注意力與動態(tài)路由的文本建模方法
基于深度學(xué)習(xí)的問題回答技術(shù)研究
基于LSTM?Attention神經(jīng)網(wǎng)絡(luò)的文本特征提取方法
基于注意力機(jī)制的雙向LSTM模型在中文商品評論情感分類中的研究
軟件工程(2017年11期)2018-01-05 08:06:09
InsunKBQA:一個基于知識庫的問答系統(tǒng)
通話中的語音識別技術(shù)
面向移動終端的語音簽到系統(tǒng)
農(nóng)業(yè)物聯(lián)網(wǎng)平臺手機(jī)秘書功能分析與實(shí)現(xiàn)
基于LD3320的非特定人識別聲控?zé)粝到y(tǒng)設(shè)計
习水县| 化州市| 莎车县| 同心县| 巫溪县| 芦溪县| 朔州市| 卫辉市| 永善县| 哈尔滨市| 大姚县| 寻甸| 襄垣县| 苍南县| 平江县| 桑植县| 汝阳县| 龙海市| 郑州市| 喜德县| 纳雍县| 林周县| 白水县| 冷水江市| 电白县| 上饶市| 大田县| 新竹市| 广宁县| 长丰县| 容城县| 叙永县| 望城县| 昌吉市| 洪泽县| 东安县| 聂拉木县| 浦江县| 广饶县| 长兴县| 齐齐哈尔市|