国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于門控卷積網(wǎng)絡(luò)與CTC的端到端語(yǔ)音識(shí)別

2020-09-29 08:08:50楊德舉馬良荔譚琳珊裴晶晶
關(guān)鍵詞:標(biāo)簽語(yǔ)音卷積

楊德舉,馬良荔,譚琳珊,裴晶晶

(1.海軍工程大學(xué) 電子工程學(xué)院,湖北 武漢 430033;2.中國(guó)人民解放軍91001部隊(duì),北京 100841)

0 引 言

傳統(tǒng)的自動(dòng)語(yǔ)音識(shí)別(automatic speech recognition,ASR)系統(tǒng)使用混合高斯模型-隱馬爾科夫模型(GMM-HMM)[1]作為聲學(xué)模型進(jìn)行訓(xùn)練,然后利用外部語(yǔ)言模型對(duì)單詞序列進(jìn)行重核,生成合理的句子。系統(tǒng)一般包含聲學(xué)模型、發(fā)音詞典和語(yǔ)言模型等多個(gè)模塊,設(shè)計(jì)過(guò)程中需要運(yùn)用語(yǔ)音學(xué)、語(yǔ)言學(xué)等不同的領(lǐng)域知識(shí),訓(xùn)練過(guò)程中各模塊根據(jù)各自的優(yōu)化目標(biāo)單獨(dú)進(jìn)行訓(xùn)練,導(dǎo)致在推斷階段各模塊的誤差會(huì)不斷累積。更重要的是,這些模型需要高質(zhì)量的數(shù)據(jù)集來(lái)進(jìn)行訓(xùn)練,數(shù)據(jù)集中的訓(xùn)練數(shù)據(jù)必須強(qiáng)制預(yù)對(duì)齊,保證每個(gè)輸入幀必須有一個(gè)對(duì)應(yīng)的標(biāo)簽,構(gòu)建這樣一個(gè)數(shù)據(jù)集需要大量的時(shí)間、精力。因此,設(shè)計(jì)和訓(xùn)練一個(gè)性能良好的ASR系統(tǒng)是極其復(fù)雜和困難的。

端到端的ASR系統(tǒng)是一種序列到序列(seq2seq)模型,它直接將輸入的聲學(xué)信號(hào)映射到字符或單詞等輸出,而不需要任何預(yù)定義的標(biāo)簽對(duì)齊。它將大多數(shù)模塊包含到一個(gè)深度神經(jīng)網(wǎng)絡(luò)(deep neural network,DNN)中,使用一個(gè)整體的目標(biāo)函數(shù)來(lái)優(yōu)化模型[2-5]?;诖?,本文提出了一種融合門控線性單元(gated linear units, GLU)[6]的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)模型。該模型使用一維CNN(1D-CNN)[7,8]聯(lián)合上下文信息進(jìn)行特征抽象,提高特征表達(dá)能力,利用鏈接時(shí)序分類(connectionist temporal classification,CTC)[9]技術(shù)實(shí)現(xiàn)端到端的語(yǔ)音識(shí)別。

1 相關(guān)研究

端到端的語(yǔ)音識(shí)別系統(tǒng)直接將輸入的語(yǔ)音映射到字母或單詞序列,并在單個(gè)系統(tǒng)中聯(lián)合訓(xùn)練聲學(xué)和發(fā)音等建模組件,其實(shí)現(xiàn)方法主要分為兩類,分別為基于CTC的方法和基于注意力機(jī)制[10]的方法?;贑TC的方法通過(guò)引入CTC準(zhǔn)則,解決了輸入序列長(zhǎng)度大于輸出序列長(zhǎng)度的問(wèn)題,與DNN結(jié)合可直接用于端到端的模型建模?;谧⒁饬C(jī)制的方法通常包括一個(gè)編碼器網(wǎng)絡(luò)和一個(gè)解碼器網(wǎng)絡(luò),編碼器將輸入的語(yǔ)音映射到更高層次的特征表示,然后注意力機(jī)制決定應(yīng)該注意哪些編碼器特性,以便預(yù)測(cè)下一個(gè)輸出符號(hào),從而生成上下文向量,最后解碼器獲取注意力上下文向量和前一個(gè)預(yù)測(cè)的嵌入,以生成下一個(gè)輸出的預(yù)測(cè)。

1.1 基于CTC的方法

語(yǔ)音識(shí)別數(shù)據(jù)集是語(yǔ)音文件和對(duì)應(yīng)標(biāo)簽文本的集合,將數(shù)據(jù)集中的語(yǔ)音幀和文本字符進(jìn)行對(duì)齊是一項(xiàng)艱難的任務(wù)。CTC算法是專門用于解決seq2seq模型中數(shù)據(jù)對(duì)齊問(wèn)題的,它引入了一個(gè)blank標(biāo)簽代表靜音幀和字符間隔。在空白標(biāo)簽的基礎(chǔ)上,設(shè)計(jì)了路徑的中間結(jié)構(gòu),通過(guò)刪除路徑中所有重復(fù)的和空白的標(biāo)簽,可以將一些路徑包含到最終的標(biāo)簽序列中。因此,沒(méi)有分割和對(duì)齊,CTC仍然可以將輸入序列映射到輸出序列。Maas A等[9]在對(duì)話語(yǔ)音轉(zhuǎn)錄任務(wù)中利用CTC訓(xùn)練了一個(gè)深度雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(deep bidirectional recurrent neural network,DBRNN),通過(guò)結(jié)合字符級(jí)語(yǔ)言模型,達(dá)到了與GMM-HMM基線系統(tǒng)相當(dāng)?shù)淖R(shí)別率。姚煜等[11]提出了基于雙向長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(bidirectional long short-term memory,BLSTM)的聲學(xué)模型構(gòu)建方法,并將CTC應(yīng)用于聲學(xué)模型訓(xùn)練中,搭建出基于BLSTM-CTC的端到端中文語(yǔ)音識(shí)別系統(tǒng)。張立民等[12]將CTC作為目標(biāo)函數(shù),改進(jìn)深度雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)架構(gòu),以音素為基本建模單元,構(gòu)建了一種基于序列級(jí)轉(zhuǎn)錄的端到端語(yǔ)音識(shí)別系統(tǒng)。通過(guò)在解碼過(guò)程中引入詞典和語(yǔ)言模型,并利用序列區(qū)分度訓(xùn)練技術(shù)提升CTC模型的建模效果。Wang等[13]提出一個(gè)CNN+BLSTM+CTC端到端普通話語(yǔ)音識(shí)別模型,采用CNN學(xué)習(xí)局部語(yǔ)音特征,BLSTM學(xué)習(xí)上下文信息,使用CTC進(jìn)行解碼。

1.2 基于注意力機(jī)制的方法

Chan等[3]提出的LAS(listen, attend and spell)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)包含一個(gè)監(jiān)聽(tīng)器和一個(gè)拼寫器,監(jiān)聽(tīng)器是一個(gè)金字塔式的BLSTM網(wǎng)絡(luò),拼寫器是一種基于注意力的循環(huán)網(wǎng)絡(luò)解碼器,它根據(jù)所有之前的字符和整個(gè)聲音序列發(fā)出每個(gè)字符。與DNN-HMM、CTC等模型相比,LAS對(duì)給定的聲序列輸出字符序列的概率分布沒(méi)有獨(dú)立的假設(shè)。針對(duì)LAS在普通話語(yǔ)音識(shí)別中效果不佳的問(wèn)題,Shan等[5]對(duì)其進(jìn)行了改進(jìn),使用字符嵌入來(lái)處理大量的詞匯,采用L2正則化、高斯權(quán)值噪聲和跳幀等方法對(duì)模型進(jìn)行有效訓(xùn)練,并在注意力模型中使用注意力平滑方法來(lái)覆蓋更長(zhǎng)的上下文。Chiu等[14]使用多頭注意力機(jī)制對(duì)LAS模型進(jìn)行了結(jié)構(gòu)的優(yōu)化改進(jìn),顯著提高了性能。Zhou等[15]將Transformer擴(kuò)展到語(yǔ)音識(shí)別領(lǐng)域,提出了一個(gè)貪婪級(jí)聯(lián)解碼器Transformer模型,在普通話語(yǔ)音識(shí)別上效果良好。

2 模型結(jié)構(gòu)

本文設(shè)計(jì)的1D-CNN+GLU+CTC的深度神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)如圖1所示。首先對(duì)輸入的原始音頻序列x進(jìn)行預(yù)處理和特征提取。然后通過(guò)4類共10個(gè)卷積塊(CNN blocks),每個(gè)CNN block包含3個(gè)操作,分別為一維卷積、門控線性單元和Dropout,每類CNN block設(shè)置不同的參數(shù)。之后,經(jīng)過(guò)一個(gè)卷積核大小和步長(zhǎng)均為1的一維卷積層,將輸出映射為在每個(gè)時(shí)間步輸出不同漢字的概率,最后由CTC層進(jìn)行解碼,輸出標(biāo)簽序列y。

圖1 模型結(jié)構(gòu)

2.1 特征提取

在端到端的語(yǔ)音識(shí)別系統(tǒng)中,最常用的特征為梅爾頻率倒譜系數(shù)(Mel-frequency cepstral coefficient,MFCC)和基于濾波器組的特征Fbank(Filter bank)。MFCC基于人耳聽(tīng)覺(jué)特性進(jìn)行設(shè)計(jì),是在梅爾刻度頻率提取出來(lái)的倒譜參數(shù)。Fbank特征相當(dāng)于去掉MFCC提取過(guò)程最后一步的離散余弦變換操作,與MFCC相比,F(xiàn)bank特征保留了更多的原始語(yǔ)音信息。最近的研究中也出現(xiàn)了直接使用語(yǔ)譜圖(Spectrogram)和原始語(yǔ)音波形進(jìn)行建模的方法[4]。本文分別使用Spectrogram、Fbank、MFCC特征進(jìn)行了研究和實(shí)驗(yàn),特征提取的流程如圖2所示。

圖2 音頻特征提取流程

2.2 門控卷積神經(jīng)網(wǎng)絡(luò)

卷積神經(jīng)網(wǎng)絡(luò)最先在圖像識(shí)別領(lǐng)域得到廣泛的應(yīng)用,之后被引入到自然語(yǔ)言處理和語(yǔ)音識(shí)別領(lǐng)域。將CNN用于語(yǔ)音識(shí)別,不僅可以精確控制依賴項(xiàng)的長(zhǎng)度,通過(guò)堆疊CNN來(lái)標(biāo)識(shí)長(zhǎng)序列還可以使鄰近的輸入元素在較低的層進(jìn)行交互,而遠(yuǎn)處的元素在較高的層進(jìn)行交互,從而提取更高層、更抽象的特征。本文使用融合了GLU的一維門控卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練將一系列音頻特征映射到對(duì)應(yīng)的漢字。門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。

圖3 一維門控卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

設(shè)輸入層的輸入序列x=(x1,x2,…,xT), 其中xi∈Rdx, 即每一幀的輸入為dx維的特征向量。其與寬度為kw, 步長(zhǎng)為s, 深度為m的卷積核進(jìn)行卷積計(jì)算的公式如式(1)所示

(1)

式中:w∈Rm×dx×kw和b∈Rm為模型需要學(xué)習(xí)的參數(shù)。在圖3 中我們可以看到,當(dāng)T=6,dx=4,kw=2,s=1,m=3時(shí),經(jīng)計(jì)算輸出張量的大小為size=(3,5)。

對(duì)于門控線性單元,其計(jì)算公式如式(2)所示

h(x)=(x*W+b)?σ(x*V+c)

(2)

式中:*為卷積運(yùn)算,?為矩陣對(duì)應(yīng)元素相乘,σ是sigmoid函數(shù)。通過(guò)門控機(jī)制,網(wǎng)絡(luò)可以控制在層次結(jié)構(gòu)中傳遞的信息,使更有價(jià)值的信息通過(guò)網(wǎng)絡(luò),抑制無(wú)用的信息,提高網(wǎng)絡(luò)的學(xué)習(xí)能力。門控卷積在保持非線性能力的同時(shí)為梯度提供了線性路徑,可以減少梯度彌散問(wèn)題[6]。

2.3 鏈接時(shí)序分類

鏈接時(shí)序分類(CTC)是一種將輸入序列x轉(zhuǎn)換為輸出序列y的技術(shù),其中x的長(zhǎng)度大于y。它可以將音頻數(shù)據(jù)直接轉(zhuǎn)換為文本,而不需要中間語(yǔ)音表示。此外,不需要在輸入序列和目標(biāo)序列之間進(jìn)行任何預(yù)對(duì)齊。

y=F(x),F(xiàn)∶(Rdx)T→(RN+1)T

(3)

在每個(gè)時(shí)間步t取字典L′中的一個(gè)元素并按時(shí)序排列,則可得到一個(gè)輸出序列π, 我們稱之為一條路徑。在輸入為x的條件下,輸出路徑為π的概率如式(4)所示

(4)

即在每個(gè)時(shí)間步輸出路徑π的相應(yīng)標(biāo)簽字符的概率乘積。以上為路徑概率計(jì)算的過(guò)程,該過(guò)程中路徑與輸入序列的長(zhǎng)度T相同,而實(shí)際上標(biāo)簽文本的長(zhǎng)度通常比輸入序列要短得多。因此,我們應(yīng)該將一些相關(guān)的路徑合并到一個(gè)更短的標(biāo)簽序列中,路徑合并一般分為兩步:

(1)刪除重復(fù)的標(biāo)簽。如果在連續(xù)的時(shí)間步驟中有多個(gè)相同的輸出,則只保留其中的一個(gè)。例如:對(duì)于6個(gè)時(shí)間步的路徑“cc-aat”、“c-attt”,移除重復(fù)標(biāo)簽后的路徑均為“c-at”。

(2)從路徑中移除空白標(biāo)簽“-”?!?”表示這一幀沒(méi)有輸出,應(yīng)該刪除它以獲得最終的標(biāo)簽序列。第一步得到的標(biāo)簽“c-at”移除“-”之后得到最終輸出為“cat”。

通常,一個(gè)很短的輸出序列可以由多條路徑π合并得到。圖4的籬笆圖給出了當(dāng)路徑長(zhǎng)度為6時(shí),標(biāo)簽序列“cat”的全部合法路徑。

圖4 CTC籬笆網(wǎng)格

除了從路徑中獲取最終標(biāo)簽序列外,路徑合并過(guò)程還旨在計(jì)算最終標(biāo)簽序列的概率。定義變換B為從序列中刪除空白和重復(fù),則B(cc-aat)=B(c-attt)=cat。 對(duì)于給定輸入x的情況下,輸出為l的概率如式(5)所示

(5)

從上面描述的計(jì)算可以看出,標(biāo)簽序列的概率是可微的。因此,我們可以利用反向傳播算法訓(xùn)練模型,使真標(biāo)簽的概率最大化,并利用訓(xùn)練后的模型,將概率最大的標(biāo)簽序列作為最終結(jié)果來(lái)識(shí)別語(yǔ)音。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)在i7 CPU和NVIDIA TITAN Xp GPU構(gòu)建的硬件計(jì)算平臺(tái)上,使用PyTorch深度學(xué)習(xí)框架進(jìn)行。具體配置見(jiàn)表1。

表1 實(shí)驗(yàn)的軟硬件環(huán)境

3.2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文使用希爾貝殼開(kāi)源的AISHELL-1中文普通話語(yǔ)音數(shù)據(jù)集[16]進(jìn)行模型訓(xùn)練和實(shí)驗(yàn),數(shù)據(jù)集包含400個(gè)說(shuō)話人的141 600條錄音文件,錄音時(shí)長(zhǎng)共計(jì)165 h,涉及常用的4000多個(gè)漢字。數(shù)據(jù)集被劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集三部分,具體分布見(jiàn)表2。

表2 數(shù)據(jù)集劃分

英語(yǔ)語(yǔ)音識(shí)別任務(wù)中評(píng)價(jià)指標(biāo)通常為WER,中文普通話語(yǔ)音識(shí)別任務(wù)中通常為字錯(cuò)誤率(character error rate,CER)。本文使用CER作為評(píng)價(jià)指標(biāo),其計(jì)算公式如式(6)所示

(6)

式中:I為插入錯(cuò)誤字?jǐn)?shù),D為刪除錯(cuò)誤字?jǐn)?shù),R為替換錯(cuò)誤字?jǐn)?shù),L為真標(biāo)簽的總字?jǐn)?shù)。

3.3 不同輸入特征的比較

本文對(duì)Spectrogram、Fbank、MFCC這3類輸入特征進(jìn)行了實(shí)驗(yàn)比較,語(yǔ)音數(shù)據(jù)采用原始的16 KHz采樣率,設(shè)置時(shí)間窗寬度為20 ms,時(shí)移10 ms,使用漢明窗對(duì)原始語(yǔ)音進(jìn)行分幀、加窗,經(jīng)FFT和譜線能量計(jì)算得到161維的Spectrogram特征,經(jīng)Mel濾波得到40維的Fbank特征,MFCC使用常見(jiàn)的包含一階、二階差分的共39維特征。

不同輸入特征下的系統(tǒng)最佳CER性能見(jiàn)表3,可以看出Fbank特征的CER最低,為15.9%。Spectrogram特征次之,MFCC效果最差。這是因?yàn)镸FCC特征經(jīng)過(guò)了更多的人工特征提取操作,不可避免地會(huì)造成信息的丟失,從而降低系統(tǒng)性能。而Spectrogram雖然最大限度保留了語(yǔ)音的原始特征,但也使冗余的無(wú)用信息得以保留,受其影響,在數(shù)據(jù)集規(guī)模沒(méi)有足夠大時(shí),模型還不足以學(xué)習(xí)到真正有用的音頻信息。

表3 不同輸入特征的比較

3.4 與基線模型的性能比較

本文將文獻(xiàn)[12,13]的模型作為基線模型,使用Fbank作為輸入特征,在均不外接語(yǔ)言模型的情況下,將本文模型與基線模型在測(cè)試集上進(jìn)行了性能對(duì)比,結(jié)果見(jiàn)表4,本文提出的1D-CNN+GLU+CTC模型在AISHELL-1數(shù)據(jù)集上比BLSTM+CTC[12]模型和CNN+BLSTM+CTC[13]模型的CER分別降低了4.8%和3.3%,取得了更好的效果。

表4 與基線模型的比較

4 結(jié)束語(yǔ)

本文提出了一個(gè)基于一維門控卷積神經(jīng)網(wǎng)絡(luò)和CTC的中文普通話語(yǔ)音識(shí)別系統(tǒng),直接使用漢字作為輸出標(biāo)簽,簡(jiǎn)化了系統(tǒng)訓(xùn)練和解碼流程。嘗試了不同的系統(tǒng)輸入特征,驗(yàn)證了不同音頻特征對(duì)系統(tǒng)性能的影響。在AISHELL-1數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與基線系統(tǒng)相比,該系統(tǒng)明顯地降低了識(shí)別錯(cuò)誤率。在今后的工作中,擬嘗試進(jìn)一步改進(jìn)模型架構(gòu),并在現(xiàn)有數(shù)據(jù)集的基礎(chǔ)上通過(guò)數(shù)據(jù)增強(qiáng)的方式彌補(bǔ)數(shù)據(jù)不足的問(wèn)題,進(jìn)一步提高系統(tǒng)的識(shí)別率。

猜你喜歡
標(biāo)簽語(yǔ)音卷積
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
魔力語(yǔ)音
基于MATLAB的語(yǔ)音信號(hào)處理
電子制作(2019年14期)2019-08-20 05:43:38
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于MQ3與MP3的價(jià)廉物美的酒駕語(yǔ)音提醒器
電子制作(2019年9期)2019-05-30 09:42:10
對(duì)方正在輸入……
無(wú)懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
標(biāo)簽化傷害了誰(shuí)
运城市| 和田市| 武安市| 克东县| 勃利县| 且末县| 鲁山县| 阿勒泰市| 黎川县| 汾西县| 织金县| 杭州市| 老河口市| 离岛区| 垣曲县| 南安市| 渑池县| 奉节县| 南华县| 阿克陶县| 丹寨县| 中江县| 三明市| 怀来县| 同德县| 阳原县| 哈密市| 青田县| 昌图县| 岫岩| 淮阳县| 柯坪县| 广饶县| 长武县| 金华市| 永寿县| 右玉县| 宝丰县| 全南县| 大田县| 高平市|