王 瑤,龍 華,邵玉斌,杜慶治
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500)
語(yǔ)種識(shí)別是指計(jì)算機(jī)根據(jù)不同語(yǔ)種之間的差異來(lái)判別語(yǔ)音樣本中所用語(yǔ)言的種類.在語(yǔ)種識(shí)別中,短時(shí)語(yǔ)音片段被用于多種場(chǎng)景,例如軍事監(jiān)聽(tīng)、短語(yǔ)翻譯和緊急救援等,但短時(shí)語(yǔ)音存在一些不足:①隨著語(yǔ)音時(shí)長(zhǎng)的減少,語(yǔ)段特征中有效信息也隨之減少[1],無(wú)法充分表達(dá)語(yǔ)種信息;②由于訓(xùn)練語(yǔ)音的數(shù)量是有限的,無(wú)法覆蓋到任意時(shí)長(zhǎng),而當(dāng)待測(cè)語(yǔ)音與訓(xùn)練語(yǔ)音時(shí)長(zhǎng)不等時(shí),語(yǔ)種識(shí)別的準(zhǔn)確率會(huì)急速下降.文獻(xiàn)[2]針對(duì)短時(shí)語(yǔ)音的語(yǔ)種識(shí)別問(wèn)題提出了一種時(shí)長(zhǎng)擴(kuò)展方法,該方法通過(guò)對(duì)短時(shí)語(yǔ)音進(jìn)行語(yǔ)速變速和時(shí)長(zhǎng)拼接,將原有的短時(shí)語(yǔ)音片段轉(zhuǎn)換成時(shí)長(zhǎng)較長(zhǎng)的語(yǔ)音,有效提高了短時(shí)語(yǔ)音的語(yǔ)種識(shí)別準(zhǔn)確率.但在語(yǔ)段拼接過(guò)程中,語(yǔ)音的條數(shù)和語(yǔ)速的快慢對(duì)語(yǔ)種識(shí)別結(jié)果影響較大.為了解決訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)不等而導(dǎo)致語(yǔ)種識(shí)別率下降的問(wèn)題,文獻(xiàn)[3]采用語(yǔ)種特征補(bǔ)償方法對(duì)不同時(shí)長(zhǎng)語(yǔ)音的特征進(jìn)行補(bǔ)償,將不同長(zhǎng)度的語(yǔ)音特征映射到了固定長(zhǎng)度上,較好地解決了長(zhǎng)度失配和音素失配不平衡的問(wèn)題,但在短時(shí)語(yǔ)音的語(yǔ)種識(shí)別中,其準(zhǔn)確率還不夠理想.文獻(xiàn)[4]和文獻(xiàn)[5]通過(guò)在深度神經(jīng)網(wǎng)絡(luò)中引用時(shí)間平均池化層(Temporal Average Pooling layer,TAP layer),將不同時(shí)長(zhǎng)語(yǔ)音處理成相同維度的特征,雖然解決了訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音時(shí)長(zhǎng)不匹配的問(wèn)題,但也丟失了語(yǔ)音信號(hào)中的部分時(shí)域信息.近些年來(lái),長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-term Memory Network,LSTM)[6]在處理可變時(shí)長(zhǎng)語(yǔ)音的問(wèn)題上取得了一定的成果,但還是存在兩個(gè)缺點(diǎn):①當(dāng)輸入序列較長(zhǎng)時(shí),由于時(shí)間的迭代乘法,訓(xùn)練速度可能非常緩慢[7];②訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)梯度消失和梯度爆炸的問(wèn)題[7].就目前而言,在可變時(shí)長(zhǎng)的短時(shí)廣播語(yǔ)音信號(hào)語(yǔ)種識(shí)別實(shí)驗(yàn)中,采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[8]作為后端分類器是較為少見(jiàn)的.同時(shí),Abdel-Hamid 等[9]認(rèn)為CNN 用于語(yǔ)音識(shí)別有3 個(gè)重要的優(yōu)勢(shì):①局部感受野可增強(qiáng)對(duì)非白噪聲的魯棒性;②權(quán)值共享可以進(jìn)一步增強(qiáng)模型的魯棒性;③池化操作可以抵抗頻帶帶來(lái)的擾動(dòng).
針對(duì)上述可變時(shí)長(zhǎng)的短時(shí)語(yǔ)音在語(yǔ)種識(shí)別中存在的問(wèn)題,本文在訓(xùn)練階段,提取短時(shí)廣播語(yǔ)音對(duì)數(shù)功率譜包絡(luò)圖(Logarithmic Power Spectrum Envelope Map,LPSEM)作為特征輸入,并以CNN中的Resnet 網(wǎng)絡(luò)[10]作為分類模型.在測(cè)試階段,當(dāng)待測(cè)語(yǔ)音的時(shí)長(zhǎng)不等時(shí),本文基于文獻(xiàn)[10]中的深度殘差網(wǎng)絡(luò)Resnet34,在其前端引入時(shí)長(zhǎng)規(guī)整層(Regular Duration layer,RD layer)構(gòu)建出一個(gè)可以識(shí)別可變時(shí)長(zhǎng)語(yǔ)音的語(yǔ)種識(shí)別模型(Variable Duration-Language Identifi-cation,VD-LID).在時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音語(yǔ)種識(shí)別任務(wù)中,準(zhǔn)確率達(dá)到了82.4%;此外,相比于沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34網(wǎng)絡(luò),VD-LID 分別將測(cè)試語(yǔ)音時(shí)長(zhǎng)為5 s 和10 s的語(yǔ)種識(shí)別準(zhǔn)確率提升了27.9%和37.7%.
1.1 語(yǔ)種特征分析語(yǔ)譜圖[11]、對(duì)數(shù)Mel 尺度濾波器組能量(log Mel-scale filter bank energies,F(xiàn)bank)[12]、梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficients,MFCC)[13]是進(jìn)行語(yǔ)音識(shí)別的重要特征.這些特征在說(shuō)話人識(shí)別和語(yǔ)種識(shí)別中都取得了一定的成果,但在語(yǔ)種識(shí)別中還存在一些不足,語(yǔ)譜圖、Fbank、MFCC 包含了大量的說(shuō)話人信息,這些信息會(huì)對(duì)語(yǔ)種識(shí)別產(chǎn)生較大影響.并且對(duì)于Fbank 而言,由于在提取過(guò)程中經(jīng)過(guò)了梅爾濾波器組,使其具有了較高的相關(guān)性,這將會(huì)產(chǎn)生大量冗余信息.相比于Fbank,MFCC 在其基礎(chǔ)上進(jìn)行了離散余弦變換(Discrete Co-sine Transform,DCT),雖然降低了Fbank 的相關(guān)性,但在一定程度上減少了語(yǔ)音中的原始信息量.目前還沒(méi)有文獻(xiàn)明確何種特征會(huì)對(duì)語(yǔ)種識(shí)別起到關(guān)鍵作用,因此對(duì)特征提取的課題還有待研究.針對(duì)上述問(wèn)題,本文提出使用LPSEM 作為特征輸入.
語(yǔ)音信號(hào)可以看作是由聲門(mén)激勵(lì)信號(hào)與聲道沖激響應(yīng)共同作用的結(jié)果,其中聲門(mén)激勵(lì)信號(hào)主要反映語(yǔ)音的說(shuō)話人信息,將其濾除可以有效減少語(yǔ)音信號(hào)中的說(shuō)話人信息[14].本文中聲道沖激響應(yīng)就是對(duì)數(shù)功率譜包絡(luò)(Logarithmic Power Spectrum Envelope,LPSE).LPSE 不僅與語(yǔ)義有關(guān),還反映了語(yǔ)音信號(hào)的聲道特性[15],聲道特性是指人類發(fā)聲時(shí)舌體、牙齒等器官的形狀.而不同語(yǔ)種在發(fā)音時(shí),舌體、牙齒等器官的形狀具有一定差異.從語(yǔ)音的音素角度分析,不同的語(yǔ)種都有一套不同的音素來(lái)加以描述,并且不同音素的共振峰標(biāo)度有所不同,而共振峰標(biāo)度可以很好的在LPSE 中顯現(xiàn)出來(lái),故選擇LPSEM 作為語(yǔ)種識(shí)別的特征.
1.2 LPSE 提取提取LPSE 實(shí) 際上就是將語(yǔ)音中的聲門(mén)激勵(lì)信號(hào)與對(duì)數(shù)功率譜包絡(luò)分離的過(guò)程,具體流程如圖1 所示.
圖1 對(duì)數(shù)功率譜包絡(luò)特征提取流程圖Fig.1 The features extraction of logarithmic power spectrum envelope
一幀語(yǔ)音信號(hào)x(n) 可以表示為:
式中,x1(n) 和x2(n) 分別表示對(duì)數(shù)功率譜包絡(luò)和聲門(mén)激勵(lì)信號(hào),? 表示卷積運(yùn)算.
步驟 1分幀、加窗:對(duì)語(yǔ)音信號(hào)進(jìn)行分幀,然后加上窗函數(shù),取一幀語(yǔ)音信號(hào)x(n) 進(jìn)行分析.
步驟 2DFT:通過(guò)離散傅里葉變換(Discrete Fourier Transform,DFT),將時(shí)域信號(hào)變換成為頻域信號(hào).
式中,fdtc() 為離散傅里葉變換,N為序列長(zhǎng)度,n為時(shí)域上的第n個(gè)采樣點(diǎn),k為頻域上第k個(gè)采樣點(diǎn),j 為虛部單位,X(k) 為變換后的頻域信號(hào).
步驟 3取模、取對(duì)數(shù):對(duì)式(2)中X(k) 取模,再求其對(duì)數(shù):
步驟 4IDFT:對(duì)進(jìn)行逆離散傅里葉變換(Inverse Discrete Fourier Transform,IDFT)得到語(yǔ)音信號(hào)x(n) 的復(fù)倒譜:
式中,Y(k) 為語(yǔ)音信號(hào)x(n) 的對(duì)數(shù)功率譜包絡(luò).語(yǔ)音信號(hào)x(n) 的波形、對(duì)數(shù)功率譜和對(duì)數(shù)功率譜包絡(luò) 如圖2 所示.
圖2 同一幀語(yǔ)音信號(hào)的波形、對(duì)數(shù)功率譜和對(duì)數(shù)功率譜包絡(luò)Fig.2 The waveform,logarithmic power spectrum and logarithmic power spectrum envelope of the same frame speech signal
1.3 繪制LPSEM語(yǔ)音信號(hào)作為非平穩(wěn)信號(hào),其頻域隨時(shí)間變化而變化,為了較好地保留語(yǔ)音信號(hào)的時(shí)域特性和頻域特性,同時(shí)使得每一幀語(yǔ)音信號(hào)之間具有較強(qiáng)的關(guān)聯(lián)性,在提取完一幀語(yǔ)音信號(hào)的LPSE 之后,將同一段語(yǔ)音信號(hào)的每一幀LPSE按行拼接起來(lái),形成一個(gè)f×w的矩陣M,其中f代表幀數(shù),w代表幀長(zhǎng).其流程圖如圖3 所示.
圖3 生成對(duì)數(shù)功率譜包絡(luò)圖的流程圖Fig.3 Flowchart for generating a logarithmic power spectrum envelope diagram
在LPSEM 中,橫軸為頻率特性,縱軸為時(shí)域特性,每一個(gè)色塊由矩陣M中的一個(gè)數(shù)據(jù)點(diǎn)擴(kuò)展得到.同時(shí)矩陣M是由每一幀語(yǔ)音的LPSE 按行拼接而成,故M可以表示為:
式中,i代表第i幀,j代表每一幀的第j個(gè)點(diǎn).
將一個(gè)數(shù)據(jù)點(diǎn)擴(kuò)展形成一個(gè)色塊,即Yi(j) 擴(kuò)展得到色塊Zi(j),矩陣M擴(kuò)展為矩陣Z,因此,LPSEM 可以表示為:
對(duì)于一般的神經(jīng)網(wǎng)絡(luò),尤其是全連接神經(jīng)網(wǎng)絡(luò),其輸入需要固定長(zhǎng)度[16-17],然而在語(yǔ)種識(shí)別和說(shuō)話人識(shí)別中使用的語(yǔ)音時(shí)長(zhǎng)往往不是固定的.為了讓語(yǔ)種識(shí)別系統(tǒng)輸入語(yǔ)音時(shí)長(zhǎng)可變,并且不丟失語(yǔ)種信息,同時(shí)語(yǔ)種識(shí)別準(zhǔn)確率保持在較高水平,本文在Resnet34 網(wǎng)絡(luò)前端引入一個(gè)時(shí)長(zhǎng)規(guī)整層.如圖4所 示.
圖4 引入時(shí)長(zhǎng)規(guī)整層的VD-LID 模型Fig.4 VD-LID model with regular duration layer
2.1 時(shí)長(zhǎng)規(guī)整層本文根據(jù)語(yǔ)音的時(shí)長(zhǎng)不同,將長(zhǎng)語(yǔ)音分割為若干時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音,從而保證測(cè)試語(yǔ)音的特征能夠映射到訓(xùn)練語(yǔ)音的輸入特征上.已知時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音片段生成LPSEM特征矩陣M的維度是f×w.當(dāng)語(yǔ)音片段時(shí)長(zhǎng)大于1 s 時(shí),設(shè)其生成的LPSEM 特征矩陣為M′,其維度為F×w,此時(shí)F≥f,故需要引入時(shí)長(zhǎng)規(guī)整層對(duì)長(zhǎng)語(yǔ)音進(jìn)行時(shí)長(zhǎng)規(guī)整,具體操作如下:將長(zhǎng)語(yǔ)音切割成多條時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音,其結(jié)果表示如下:
式中,V1(n),V2(n),V3(n)···VH(n) 分別為時(shí)長(zhǎng)為1 s的短時(shí)語(yǔ)音,V(n) 為時(shí)長(zhǎng)大于1 s的語(yǔ)音,n代表第n個(gè)采樣點(diǎn).在進(jìn)行語(yǔ)音分割時(shí),首先要確定語(yǔ)音信號(hào)的時(shí)長(zhǎng)T,再確定所分時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音的個(gè)數(shù)H.L為長(zhǎng)語(yǔ)音分割時(shí)相鄰兩段短時(shí)語(yǔ)音的重疊時(shí)長(zhǎng)或間隔時(shí)長(zhǎng),其計(jì)算公式如下:
當(dāng)L大于0 時(shí),|L| 表示相鄰兩段短時(shí)語(yǔ)音的重疊時(shí)長(zhǎng),當(dāng)L小于0 時(shí),|L| 表示相鄰兩段短時(shí)語(yǔ)音的間隔時(shí)長(zhǎng).
2.2 CNN 網(wǎng)絡(luò)目前在語(yǔ)音識(shí)別領(lǐng)域比較流行的CNN 網(wǎng)絡(luò)主要是Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò).在VGG 網(wǎng)絡(luò)內(nèi)部使用多個(gè) 3×3 的卷積核代替其他大尺度的卷積核,其優(yōu)點(diǎn)在于,保證相同感知野的條件下,不僅可提升網(wǎng)絡(luò)的深度,在一定程度上也提升可神經(jīng)網(wǎng)絡(luò)的效果.然而VGG 網(wǎng)絡(luò)擁有3 個(gè)全連接層,這意味著會(huì)使用大量的參數(shù),因此它的計(jì)算會(huì)消耗大量的資源.同時(shí)隨著網(wǎng)絡(luò)層數(shù)的增加,梯度消失導(dǎo)致其后端網(wǎng)絡(luò)層無(wú)法對(duì)前端網(wǎng)絡(luò)層進(jìn)行調(diào)整,也會(huì)影響神經(jīng)網(wǎng)絡(luò)的性能.
相比于VGG 網(wǎng)絡(luò),Resnet 網(wǎng)絡(luò)引入殘差單元來(lái)解決網(wǎng)絡(luò)的退化問(wèn)題.殘差單元可以表示為:
式中,x和y分別表示所在網(wǎng)絡(luò)層的輸入和輸出結(jié)果,F(xiàn)(x,Wi) 表示要學(xué)習(xí)的殘差映射,F(xiàn)(x) 代表殘差函數(shù).W1和W2代表圖5 中第一個(gè)網(wǎng)絡(luò)層和第二個(gè)網(wǎng)絡(luò)層的權(quán)重向量,σ 代表ReLU 激活函數(shù).最后殘差單元的輸出為 σ(F(x)+x).
當(dāng)殘差函數(shù)F(x)=0 時(shí),此時(shí)堆積層做了恒等映射,網(wǎng)絡(luò)的性能不會(huì)隨著網(wǎng)絡(luò)層數(shù)的增加而下降,事實(shí)上殘差函數(shù)不會(huì)為0,因此堆積層在輸入特征基礎(chǔ)上還可以學(xué)習(xí)到新的特征,從而擁有更好的性能.圖5 為殘差單元結(jié)構(gòu)示意圖.
圖5 殘差單元結(jié)構(gòu)圖Fig.5 Unit structure diagram of the residual neural network
在VD-LID 后端我們采用softmax 函數(shù)來(lái)計(jì)算語(yǔ)音分屬每一語(yǔ)種的概率.
式中,pJ表示判別為第J類語(yǔ)種的概率,G代表語(yǔ)種個(gè)數(shù),cI、cg分別代表第I個(gè)節(jié)點(diǎn)和第g個(gè)節(jié)點(diǎn)的輸出值.
一段時(shí)長(zhǎng)為T(mén)的長(zhǎng)語(yǔ)音,經(jīng)過(guò)分割之后得到H段時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音,將H個(gè)短時(shí)語(yǔ)音的特征輸入CNN 網(wǎng)絡(luò)得到H×G個(gè)節(jié)點(diǎn)的輸出值,然后把這些節(jié)點(diǎn)的輸出值映射到softmax 函數(shù)中,得到各個(gè)短時(shí)語(yǔ)音識(shí)別為某種語(yǔ)種的概率pJ.
式中,QJ代表待測(cè)長(zhǎng)語(yǔ)音被判別為第J類語(yǔ)種的概率,eJ表示第J類語(yǔ)種片段的個(gè)數(shù),pJ,r代表被識(shí)別為第J類語(yǔ)種的第r條短語(yǔ)音的概率,pr表示當(dāng)識(shí)別為第J類語(yǔ)種時(shí),第r條短語(yǔ)音的概率.
因此,當(dāng)輸入一段長(zhǎng)語(yǔ)音時(shí),首先經(jīng)過(guò)時(shí)長(zhǎng)規(guī)整層分割為若干條時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音,通過(guò)公式(13)計(jì)算得出每條短時(shí)語(yǔ)音識(shí)別為某種語(yǔ)種的概率pJ,再將pJ帶入公式(14)計(jì)算這些短時(shí)語(yǔ)音的概率,最后計(jì)算得出長(zhǎng)語(yǔ)音識(shí)別為某種語(yǔ)種的概率QJ.
3.1 實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)數(shù)據(jù)集從國(guó)際廣播電臺(tái)中錄制,共8 種語(yǔ)言,分別是普通話、緬甸語(yǔ)、越南語(yǔ)、柬埔寨語(yǔ)、老撾語(yǔ)、韓語(yǔ)、藏語(yǔ)、維吾爾語(yǔ).采樣率為16 kHz,精度為16 bit,聲道為單聲道,每種語(yǔ)言4 800 段,其中3 000 段為時(shí)長(zhǎng)為1 s 的訓(xùn)練集,剩下的1 800 段為測(cè)試集.測(cè)試集包含3 種時(shí)長(zhǎng),分別為1、5 s 和10 s,每種時(shí)長(zhǎng)600 段.
本文中語(yǔ)種識(shí)別的測(cè)試標(biāo)準(zhǔn)采用識(shí)別準(zhǔn)確率(Recognition Accuracy,AR)來(lái)評(píng)價(jià).
式中,G代表語(yǔ)種個(gè)數(shù),ag是第g個(gè)語(yǔ)種識(shí)別正確的語(yǔ)音個(gè)數(shù),bg代表第g個(gè)語(yǔ)種總的語(yǔ)音數(shù),AR代表識(shí)別準(zhǔn)確率.
語(yǔ)種識(shí)別系統(tǒng)分為前端聲學(xué)特征和后端語(yǔ)種分類模型,前端聲學(xué)特征采用Fbank、MFCC、LPSEM 和語(yǔ)譜圖.其中LPSEM 作為實(shí)驗(yàn)特征,F(xiàn)bank、MFCC 和語(yǔ)譜圖作為對(duì)比特征.后端訓(xùn)練模型為Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò).網(wǎng)絡(luò)采用交叉熵準(zhǔn)則(cross entropy)進(jìn)行訓(xùn)練.
實(shí)驗(yàn)主要分為3 個(gè)部分:第1 部分分別將語(yǔ)音的Fbank、MFCC、LPSEM 和語(yǔ)譜圖特征擬合到Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò)中,研究各個(gè)特征在不同網(wǎng)絡(luò)中的語(yǔ)種識(shí)別情況;第2 部分分別對(duì)語(yǔ)音的Fbank、MFCC、LPSE 的特征向量和Fbank、MFCC、LPSEM 的特征圖譜進(jìn)行訓(xùn)練,研究特征數(shù)據(jù)擴(kuò)展對(duì)短時(shí)語(yǔ)種識(shí)別效果的影響;第3 部分在Resnet34網(wǎng)絡(luò)前端引入一個(gè)時(shí)長(zhǎng)規(guī)整層,同時(shí)與不加時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò)進(jìn)行對(duì)比,來(lái)研究時(shí)長(zhǎng)規(guī)整層對(duì)不同時(shí)長(zhǎng)語(yǔ)音輸入的影響.
3.2 實(shí)驗(yàn)結(jié)果
3.2.1 實(shí)驗(yàn)1 在實(shí)驗(yàn)1 中,語(yǔ)音時(shí)長(zhǎng)為1 s,輸入特征為Fbank、MFCC、LPSEM 和語(yǔ)譜圖,訓(xùn)練網(wǎng)絡(luò)根據(jù)種類和層數(shù)的不同分為Resnet18、Resnet34、Resnet50、VGG11 和VGG16.從 表1 中可以看出Resnet 網(wǎng)絡(luò)的語(yǔ)種識(shí)別效果普遍高于VGG 網(wǎng)絡(luò),這主要是由于VGG 網(wǎng)絡(luò)隨著卷積層數(shù)的增加,梯度消失導(dǎo)致后端的網(wǎng)絡(luò)層無(wú)法對(duì)前端的網(wǎng)絡(luò)層進(jìn)行調(diào)整.而Resnet 網(wǎng)絡(luò)提出了shortcut 捷徑連接,很好地解決了梯度消失的問(wèn)題.同時(shí)在Resnet34 中,當(dāng)輸入特征為L(zhǎng)PSEM 時(shí),語(yǔ)種識(shí)別率最高,達(dá)到了82.4%,同比輸入特征為語(yǔ)譜圖增加了6%,比輸入特征為Fbank 增加了7.2%,比輸入特征為MFCC 增加了7.9%.同樣當(dāng)輸入特征為L(zhǎng)PSEM 時(shí),各個(gè)網(wǎng)絡(luò)的識(shí)別率相比于其他特征也是最高的,但在Resnet 網(wǎng)絡(luò)中隨著網(wǎng)絡(luò)層數(shù)的增加,語(yǔ)種識(shí)別率并不是隨著層數(shù)增加而增加的,例如Resnet50 相比Resnet34 下降了2.3%,這可能是網(wǎng)絡(luò)層數(shù)過(guò)高,使得網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)了局部最優(yōu)而造成的.
表1 不同網(wǎng)絡(luò)及特征的語(yǔ)種識(shí)別率Tab.1 Language recognition rate of different networks and characteristics %
3.2.2 實(shí)驗(yàn)2 在實(shí)驗(yàn)2 中,輸入分別為1 s 短時(shí)語(yǔ)音的Fbank、MFCC、LPSE 的特征向量和Fbank、MFCC、LPSEM 的特征圖譜,從表2 可以看出各個(gè)特征的原始特征向量的短時(shí)語(yǔ)種識(shí)別效果普遍低于經(jīng)過(guò)特征數(shù)據(jù)擴(kuò)展后的特征圖譜,因此在本文中將短時(shí)語(yǔ)音的特征向量擴(kuò)展成為特征圖譜有利于短時(shí)語(yǔ)音的語(yǔ)種識(shí)別.
表2 特征數(shù)據(jù)擴(kuò)展對(duì)短時(shí)語(yǔ)音語(yǔ)種識(shí)別率的影響Tab.2 The impact of feature data expansion on short-term speech language recognition rate %
3.2.3 實(shí)驗(yàn)3 在實(shí)驗(yàn)3 中,輸入特征為L(zhǎng)PSEM,語(yǔ)音時(shí)長(zhǎng)為1、5 s 和10 s.訓(xùn)練模型為沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò)和引入時(shí)長(zhǎng)規(guī)整層的VD-LID 模型.實(shí)驗(yàn)結(jié)果如表3 所示.在沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò)中,輸入時(shí)長(zhǎng)為5 s和10 s 的廣播語(yǔ)音語(yǔ)種識(shí)別率分別只有58.7%和56.3%,在VD-LID 模型中,輸入時(shí)長(zhǎng)為5 s 和10 s的廣播語(yǔ)音的語(yǔ)種識(shí)別準(zhǔn)確率為86.6%和94.0%,相比于沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò),兩種輸入時(shí)長(zhǎng)的語(yǔ)音分別提高了27.9%和37.7%,并且輸入時(shí)長(zhǎng)為5 s 的廣播語(yǔ)音比輸入時(shí)長(zhǎng)為1 s 的廣播語(yǔ)音識(shí)別率提高了4.2%;輸入時(shí)長(zhǎng)為10 s 的廣播語(yǔ)音比輸入時(shí)長(zhǎng)為5 s的廣播語(yǔ)音語(yǔ)種識(shí)別率提高了7.4%.實(shí)驗(yàn)結(jié)果表明:當(dāng)沒(méi)有引入時(shí)長(zhǎng)規(guī)整層時(shí),由于訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)不匹配,會(huì)造成識(shí)別率大幅度下降;而在引入時(shí)長(zhǎng)規(guī)整層之后,時(shí)長(zhǎng)規(guī)整層將輸入長(zhǎng)語(yǔ)音分割為若干時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音,從而使得測(cè)試特征能夠與訓(xùn)練特征相映射,在識(shí)別過(guò)程中,VD-LID 模型后端又通過(guò)計(jì)算每段時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音語(yǔ)種識(shí)別情況來(lái)判別長(zhǎng)語(yǔ)音的語(yǔ)種,而時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音語(yǔ)種識(shí)別準(zhǔn)確率已經(jīng)達(dá)到了82.4%,因此隨著語(yǔ)音時(shí)長(zhǎng)的增加,長(zhǎng)語(yǔ)音的語(yǔ)種識(shí)別準(zhǔn)確率也會(huì)隨之提高.
表3 時(shí)長(zhǎng)規(guī)整層對(duì)語(yǔ)種識(shí)別準(zhǔn)確率的影響Tab.3 The impact of the time-length regulation layer on the ac-curacy of language recognition %
在語(yǔ)種識(shí)別中,針對(duì)短時(shí)語(yǔ)音信息量較少,語(yǔ)種識(shí)別率較低的問(wèn)題,本文使用了LPSEM 作為特征輸入,Resnet34 網(wǎng)絡(luò)作為分類模型,對(duì)時(shí)長(zhǎng)為1 s的短時(shí)語(yǔ)音進(jìn)行語(yǔ)種識(shí)別,其識(shí)別率達(dá)到了82.4%;針對(duì)訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)不匹配導(dǎo)致語(yǔ)種識(shí)別率急劇下降的問(wèn)題,本文采用Resnet34 網(wǎng)絡(luò)結(jié)合時(shí)長(zhǎng)規(guī)整層的方法,構(gòu)建了可以識(shí)別不同時(shí)長(zhǎng)語(yǔ)音語(yǔ)種的可變時(shí)長(zhǎng)語(yǔ)種模型VD-LID,對(duì)比沒(méi)有結(jié)合時(shí)長(zhǎng)規(guī)整層的 Resnet34 網(wǎng)絡(luò),VD-LID 將時(shí)長(zhǎng)為5 s 和10 s 的廣播語(yǔ)音的語(yǔ)種識(shí)別率分別提升了27.9%和37.7%.但考慮到短時(shí)語(yǔ)音的語(yǔ)種識(shí)別極易受到噪聲的影響,因此,在后續(xù)的工作中還需對(duì)語(yǔ)音的降噪展開(kāi)研究.