可變時(shí)長(zhǎng)的短時(shí)廣播語(yǔ)音多語(yǔ)種識(shí)別

2022-05-25 11:28邵玉斌杜慶治

云南大學(xué)學(xué)報(bào)（自然科學(xué)版） 2022年3期

王瑤，龍華，邵玉斌，杜慶治

(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院，云南昆明 650500)

語(yǔ)種識(shí)別是指計(jì)算機(jī)根據(jù)不同語(yǔ)種之間的差異來(lái)判別語(yǔ)音樣本中所用語(yǔ)言的種類.在語(yǔ)種識(shí)別中，短時(shí)語(yǔ)音片段被用于多種場(chǎng)景，例如軍事監(jiān)聽(tīng)、短語(yǔ)翻譯和緊急救援等，但短時(shí)語(yǔ)音存在一些不足：①隨著語(yǔ)音時(shí)長(zhǎng)的減少，語(yǔ)段特征中有效信息也隨之減少[1]，無(wú)法充分表達(dá)語(yǔ)種信息；②由于訓(xùn)練語(yǔ)音的數(shù)量是有限的，無(wú)法覆蓋到任意時(shí)長(zhǎng)，而當(dāng)待測(cè)語(yǔ)音與訓(xùn)練語(yǔ)音時(shí)長(zhǎng)不等時(shí)，語(yǔ)種識(shí)別的準(zhǔn)確率會(huì)急速下降.文獻(xiàn)[2]針對(duì)短時(shí)語(yǔ)音的語(yǔ)種識(shí)別問(wèn)題提出了一種時(shí)長(zhǎng)擴(kuò)展方法，該方法通過(guò)對(duì)短時(shí)語(yǔ)音進(jìn)行語(yǔ)速變速和時(shí)長(zhǎng)拼接，將原有的短時(shí)語(yǔ)音片段轉(zhuǎn)換成時(shí)長(zhǎng)較長(zhǎng)的語(yǔ)音，有效提高了短時(shí)語(yǔ)音的語(yǔ)種識(shí)別準(zhǔn)確率.但在語(yǔ)段拼接過(guò)程中，語(yǔ)音的條數(shù)和語(yǔ)速的快慢對(duì)語(yǔ)種識(shí)別結(jié)果影響較大.為了解決訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)不等而導(dǎo)致語(yǔ)種識(shí)別率下降的問(wèn)題，文獻(xiàn)[3]采用語(yǔ)種特征補(bǔ)償方法對(duì)不同時(shí)長(zhǎng)語(yǔ)音的特征進(jìn)行補(bǔ)償，將不同長(zhǎng)度的語(yǔ)音特征映射到了固定長(zhǎng)度上，較好地解決了長(zhǎng)度失配和音素失配不平衡的問(wèn)題，但在短時(shí)語(yǔ)音的語(yǔ)種識(shí)別中，其準(zhǔn)確率還不夠理想.文獻(xiàn)[4]和文獻(xiàn)[5]通過(guò)在深度神經(jīng)網(wǎng)絡(luò)中引用時(shí)間平均池化層（Temporal Average Pooling layer，TAP layer），將不同時(shí)長(zhǎng)語(yǔ)音處理成相同維度的特征，雖然解決了訓(xùn)練語(yǔ)音和測(cè)試語(yǔ)音時(shí)長(zhǎng)不匹配的問(wèn)題，但也丟失了語(yǔ)音信號(hào)中的部分時(shí)域信息.近些年來(lái)，長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（Long Short-term Memory Network，LSTM）[6]在處理可變時(shí)長(zhǎng)語(yǔ)音的問(wèn)題上取得了一定的成果，但還是存在兩個(gè)缺點(diǎn)：①當(dāng)輸入序列較長(zhǎng)時(shí)，由于時(shí)間的迭代乘法，訓(xùn)練速度可能非常緩慢[7]；②訓(xùn)練過(guò)程中可能會(huì)出現(xiàn)梯度消失和梯度爆炸的問(wèn)題[7].就目前而言，在可變時(shí)長(zhǎng)的短時(shí)廣播語(yǔ)音信號(hào)語(yǔ)種識(shí)別實(shí)驗(yàn)中，采用卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）[8]作為后端分類器是較為少見(jiàn)的.同時(shí)，Abdel-Hamid 等[9]認(rèn)為CNN 用于語(yǔ)音識(shí)別有3 個(gè)重要的優(yōu)勢(shì)：①局部感受野可增強(qiáng)對(duì)非白噪聲的魯棒性；②權(quán)值共享可以進(jìn)一步增強(qiáng)模型的魯棒性；③池化操作可以抵抗頻帶帶來(lái)的擾動(dòng).

針對(duì)上述可變時(shí)長(zhǎng)的短時(shí)語(yǔ)音在語(yǔ)種識(shí)別中存在的問(wèn)題，本文在訓(xùn)練階段，提取短時(shí)廣播語(yǔ)音對(duì)數(shù)功率譜包絡(luò)圖（Logarithmic Power Spectrum Envelope Map，LPSEM）作為特征輸入，并以CNN中的Resnet 網(wǎng)絡(luò)[10]作為分類模型.在測(cè)試階段，當(dāng)待測(cè)語(yǔ)音的時(shí)長(zhǎng)不等時(shí)，本文基于文獻(xiàn)[10]中的深度殘差網(wǎng)絡(luò)Resnet34，在其前端引入時(shí)長(zhǎng)規(guī)整層（Regular Duration layer，RD layer）構(gòu)建出一個(gè)可以識(shí)別可變時(shí)長(zhǎng)語(yǔ)音的語(yǔ)種識(shí)別模型（Variable Duration-Language Identifi-cation,VD-LID）.在時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音語(yǔ)種識(shí)別任務(wù)中，準(zhǔn)確率達(dá)到了82.4%；此外，相比于沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34網(wǎng)絡(luò)，VD-LID 分別將測(cè)試語(yǔ)音時(shí)長(zhǎng)為5 s 和10 s的語(yǔ)種識(shí)別準(zhǔn)確率提升了27.9%和37.7%.

1 特征提取

1.1 語(yǔ)種特征分析語(yǔ)譜圖[11]、對(duì)數(shù)Mel 尺度濾波器組能量（log Mel-scale filter bank energies，F(xiàn)bank）[12]、梅爾頻率倒譜系數(shù)（Mel-Frequency Cepstral Coefficients，MFCC）[13]是進(jìn)行語(yǔ)音識(shí)別的重要特征.這些特征在說(shuō)話人識(shí)別和語(yǔ)種識(shí)別中都取得了一定的成果，但在語(yǔ)種識(shí)別中還存在一些不足，語(yǔ)譜圖、Fbank、MFCC 包含了大量的說(shuō)話人信息，這些信息會(huì)對(duì)語(yǔ)種識(shí)別產(chǎn)生較大影響.并且對(duì)于Fbank 而言，由于在提取過(guò)程中經(jīng)過(guò)了梅爾濾波器組，使其具有了較高的相關(guān)性，這將會(huì)產(chǎn)生大量冗余信息.相比于Fbank，MFCC 在其基礎(chǔ)上進(jìn)行了離散余弦變換（Discrete Co-sine Transform，DCT），雖然降低了Fbank 的相關(guān)性，但在一定程度上減少了語(yǔ)音中的原始信息量.目前還沒(méi)有文獻(xiàn)明確何種特征會(huì)對(duì)語(yǔ)種識(shí)別起到關(guān)鍵作用，因此對(duì)特征提取的課題還有待研究.針對(duì)上述問(wèn)題，本文提出使用LPSEM 作為特征輸入.

語(yǔ)音信號(hào)可以看作是由聲門(mén)激勵(lì)信號(hào)與聲道沖激響應(yīng)共同作用的結(jié)果，其中聲門(mén)激勵(lì)信號(hào)主要反映語(yǔ)音的說(shuō)話人信息，將其濾除可以有效減少語(yǔ)音信號(hào)中的說(shuō)話人信息[14].本文中聲道沖激響應(yīng)就是對(duì)數(shù)功率譜包絡(luò)（Logarithmic Power Spectrum Envelope，LPSE）.LPSE 不僅與語(yǔ)義有關(guān)，還反映了語(yǔ)音信號(hào)的聲道特性[15]，聲道特性是指人類發(fā)聲時(shí)舌體、牙齒等器官的形狀.而不同語(yǔ)種在發(fā)音時(shí)，舌體、牙齒等器官的形狀具有一定差異.從語(yǔ)音的音素角度分析，不同的語(yǔ)種都有一套不同的音素來(lái)加以描述，并且不同音素的共振峰標(biāo)度有所不同，而共振峰標(biāo)度可以很好的在LPSE 中顯現(xiàn)出來(lái)，故選擇LPSEM 作為語(yǔ)種識(shí)別的特征.

1.2 LPSE 提取提取LPSE 實(shí) 際上就是將語(yǔ)音中的聲門(mén)激勵(lì)信號(hào)與對(duì)數(shù)功率譜包絡(luò)分離的過(guò)程，具體流程如圖1 所示.

圖1 對(duì)數(shù)功率譜包絡(luò)特征提取流程圖Fig.1 The features extraction of logarithmic power spectrum envelope

一幀語(yǔ)音信號(hào)x(n) 可以表示為：

式中，x1(n) 和x2(n) 分別表示對(duì)數(shù)功率譜包絡(luò)和聲門(mén)激勵(lì)信號(hào)，? 表示卷積運(yùn)算.

步驟 1分幀、加窗：對(duì)語(yǔ)音信號(hào)進(jìn)行分幀，然后加上窗函數(shù)，取一幀語(yǔ)音信號(hào)x(n) 進(jìn)行分析.

步驟 2DFT：通過(guò)離散傅里葉變換（Discrete Fourier Transform，DFT），將時(shí)域信號(hào)變換成為頻域信號(hào).

式中，fdtc() 為離散傅里葉變換，N為序列長(zhǎng)度，n為時(shí)域上的第n個(gè)采樣點(diǎn)，k為頻域上第k個(gè)采樣點(diǎn)，j 為虛部單位，X(k) 為變換后的頻域信號(hào).

步驟 3取模、取對(duì)數(shù)：對(duì)式（2）中X(k) 取模，再求其對(duì)數(shù)：

步驟 4IDFT：對(duì)進(jìn)行逆離散傅里葉變換（Inverse Discrete Fourier Transform，IDFT）得到語(yǔ)音信號(hào)x(n) 的復(fù)倒譜：

式中，Y(k) 為語(yǔ)音信號(hào)x(n) 的對(duì)數(shù)功率譜包絡(luò).語(yǔ)音信號(hào)x(n) 的波形、對(duì)數(shù)功率譜和對(duì)數(shù)功率譜包絡(luò) 如圖2 所示.

圖2 同一幀語(yǔ)音信號(hào)的波形、對(duì)數(shù)功率譜和對(duì)數(shù)功率譜包絡(luò)Fig.2 The waveform,logarithmic power spectrum and logarithmic power spectrum envelope of the same frame speech signal

1.3 繪制LPSEM語(yǔ)音信號(hào)作為非平穩(wěn)信號(hào)，其頻域隨時(shí)間變化而變化，為了較好地保留語(yǔ)音信號(hào)的時(shí)域特性和頻域特性，同時(shí)使得每一幀語(yǔ)音信號(hào)之間具有較強(qiáng)的關(guān)聯(lián)性，在提取完一幀語(yǔ)音信號(hào)的LPSE 之后，將同一段語(yǔ)音信號(hào)的每一幀LPSE按行拼接起來(lái)，形成一個(gè)f×w的矩陣M，其中f代表幀數(shù)，w代表幀長(zhǎng).其流程圖如圖3 所示.

圖3 生成對(duì)數(shù)功率譜包絡(luò)圖的流程圖Fig.3 Flowchart for generating a logarithmic power spectrum envelope diagram

在LPSEM 中，橫軸為頻率特性，縱軸為時(shí)域特性，每一個(gè)色塊由矩陣M中的一個(gè)數(shù)據(jù)點(diǎn)擴(kuò)展得到.同時(shí)矩陣M是由每一幀語(yǔ)音的LPSE 按行拼接而成，故M可以表示為：

式中，i代表第i幀，j代表每一幀的第j個(gè)點(diǎn).

將一個(gè)數(shù)據(jù)點(diǎn)擴(kuò)展形成一個(gè)色塊，即Yi(j) 擴(kuò)展得到色塊Zi(j)，矩陣M擴(kuò)展為矩陣Z，因此，LPSEM 可以表示為：

2 語(yǔ)種識(shí)別模型VD-LID

對(duì)于一般的神經(jīng)網(wǎng)絡(luò)，尤其是全連接神經(jīng)網(wǎng)絡(luò)，其輸入需要固定長(zhǎng)度[16-17]，然而在語(yǔ)種識(shí)別和說(shuō)話人識(shí)別中使用的語(yǔ)音時(shí)長(zhǎng)往往不是固定的.為了讓語(yǔ)種識(shí)別系統(tǒng)輸入語(yǔ)音時(shí)長(zhǎng)可變，并且不丟失語(yǔ)種信息，同時(shí)語(yǔ)種識(shí)別準(zhǔn)確率保持在較高水平，本文在Resnet34 網(wǎng)絡(luò)前端引入一個(gè)時(shí)長(zhǎng)規(guī)整層.如圖4所示.

圖4 引入時(shí)長(zhǎng)規(guī)整層的VD-LID 模型Fig.4 VD-LID model with regular duration layer

2.1 時(shí)長(zhǎng)規(guī)整層本文根據(jù)語(yǔ)音的時(shí)長(zhǎng)不同，將長(zhǎng)語(yǔ)音分割為若干時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音，從而保證測(cè)試語(yǔ)音的特征能夠映射到訓(xùn)練語(yǔ)音的輸入特征上.已知時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音片段生成LPSEM特征矩陣M的維度是f×w.當(dāng)語(yǔ)音片段時(shí)長(zhǎng)大于1 s 時(shí)，設(shè)其生成的LPSEM 特征矩陣為M′，其維度為F×w，此時(shí)F≥f，故需要引入時(shí)長(zhǎng)規(guī)整層對(duì)長(zhǎng)語(yǔ)音進(jìn)行時(shí)長(zhǎng)規(guī)整，具體操作如下：將長(zhǎng)語(yǔ)音切割成多條時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音，其結(jié)果表示如下：

式中，V1(n),V2(n),V3(n)···VH(n) 分別為時(shí)長(zhǎng)為1 s的短時(shí)語(yǔ)音，V(n) 為時(shí)長(zhǎng)大于1 s的語(yǔ)音，n代表第n個(gè)采樣點(diǎn).在進(jìn)行語(yǔ)音分割時(shí)，首先要確定語(yǔ)音信號(hào)的時(shí)長(zhǎng)T，再確定所分時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音的個(gè)數(shù)H.L為長(zhǎng)語(yǔ)音分割時(shí)相鄰兩段短時(shí)語(yǔ)音的重疊時(shí)長(zhǎng)或間隔時(shí)長(zhǎng)，其計(jì)算公式如下：

當(dāng)L大于0 時(shí)，|L| 表示相鄰兩段短時(shí)語(yǔ)音的重疊時(shí)長(zhǎng)，當(dāng)L小于0 時(shí)，|L| 表示相鄰兩段短時(shí)語(yǔ)音的間隔時(shí)長(zhǎng).

2.2 CNN 網(wǎng)絡(luò)目前在語(yǔ)音識(shí)別領(lǐng)域比較流行的CNN 網(wǎng)絡(luò)主要是Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò).在VGG 網(wǎng)絡(luò)內(nèi)部使用多個(gè) 3×3 的卷積核代替其他大尺度的卷積核，其優(yōu)點(diǎn)在于，保證相同感知野的條件下，不僅可提升網(wǎng)絡(luò)的深度，在一定程度上也提升可神經(jīng)網(wǎng)絡(luò)的效果.然而VGG 網(wǎng)絡(luò)擁有3 個(gè)全連接層，這意味著會(huì)使用大量的參數(shù)，因此它的計(jì)算會(huì)消耗大量的資源.同時(shí)隨著網(wǎng)絡(luò)層數(shù)的增加，梯度消失導(dǎo)致其后端網(wǎng)絡(luò)層無(wú)法對(duì)前端網(wǎng)絡(luò)層進(jìn)行調(diào)整，也會(huì)影響神經(jīng)網(wǎng)絡(luò)的性能.

相比于VGG 網(wǎng)絡(luò)，Resnet 網(wǎng)絡(luò)引入殘差單元來(lái)解決網(wǎng)絡(luò)的退化問(wèn)題.殘差單元可以表示為：

式中，x和y分別表示所在網(wǎng)絡(luò)層的輸入和輸出結(jié)果，F(xiàn)(x,Wi) 表示要學(xué)習(xí)的殘差映射，F(xiàn)(x) 代表殘差函數(shù).W1和W2代表圖5 中第一個(gè)網(wǎng)絡(luò)層和第二個(gè)網(wǎng)絡(luò)層的權(quán)重向量，σ 代表ReLU 激活函數(shù).最后殘差單元的輸出為 σ(F(x)+x).

當(dāng)殘差函數(shù)F(x)=0 時(shí)，此時(shí)堆積層做了恒等映射，網(wǎng)絡(luò)的性能不會(huì)隨著網(wǎng)絡(luò)層數(shù)的增加而下降，事實(shí)上殘差函數(shù)不會(huì)為0，因此堆積層在輸入特征基礎(chǔ)上還可以學(xué)習(xí)到新的特征，從而擁有更好的性能.圖5 為殘差單元結(jié)構(gòu)示意圖.

圖5 殘差單元結(jié)構(gòu)圖Fig.5 Unit structure diagram of the residual neural network

在VD-LID 后端我們采用softmax 函數(shù)來(lái)計(jì)算語(yǔ)音分屬每一語(yǔ)種的概率.

式中，pJ表示判別為第J類語(yǔ)種的概率，G代表語(yǔ)種個(gè)數(shù)，cI、cg分別代表第I個(gè)節(jié)點(diǎn)和第g個(gè)節(jié)點(diǎn)的輸出值.

一段時(shí)長(zhǎng)為T(mén)的長(zhǎng)語(yǔ)音，經(jīng)過(guò)分割之后得到H段時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音，將H個(gè)短時(shí)語(yǔ)音的特征輸入CNN 網(wǎng)絡(luò)得到H×G個(gè)節(jié)點(diǎn)的輸出值，然后把這些節(jié)點(diǎn)的輸出值映射到softmax 函數(shù)中，得到各個(gè)短時(shí)語(yǔ)音識(shí)別為某種語(yǔ)種的概率pJ.

式中，QJ代表待測(cè)長(zhǎng)語(yǔ)音被判別為第J類語(yǔ)種的概率，eJ表示第J類語(yǔ)種片段的個(gè)數(shù)，pJ,r代表被識(shí)別為第J類語(yǔ)種的第r條短語(yǔ)音的概率，pr表示當(dāng)識(shí)別為第J類語(yǔ)種時(shí)，第r條短語(yǔ)音的概率.

因此，當(dāng)輸入一段長(zhǎng)語(yǔ)音時(shí)，首先經(jīng)過(guò)時(shí)長(zhǎng)規(guī)整層分割為若干條時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音，通過(guò)公式(13)計(jì)算得出每條短時(shí)語(yǔ)音識(shí)別為某種語(yǔ)種的概率pJ，再將pJ帶入公式(14)計(jì)算這些短時(shí)語(yǔ)音的概率，最后計(jì)算得出長(zhǎng)語(yǔ)音識(shí)別為某種語(yǔ)種的概率QJ.

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)設(shè)置實(shí)驗(yàn)數(shù)據(jù)集從國(guó)際廣播電臺(tái)中錄制，共8 種語(yǔ)言，分別是普通話、緬甸語(yǔ)、越南語(yǔ)、柬埔寨語(yǔ)、老撾語(yǔ)、韓語(yǔ)、藏語(yǔ)、維吾爾語(yǔ).采樣率為16 kHz，精度為16 bit，聲道為單聲道，每種語(yǔ)言4 800 段，其中3 000 段為時(shí)長(zhǎng)為1 s 的訓(xùn)練集，剩下的1 800 段為測(cè)試集.測(cè)試集包含3 種時(shí)長(zhǎng)，分別為1、5 s 和10 s，每種時(shí)長(zhǎng)600 段.

本文中語(yǔ)種識(shí)別的測(cè)試標(biāo)準(zhǔn)采用識(shí)別準(zhǔn)確率(Recognition Accuracy，AR)來(lái)評(píng)價(jià).

式中，G代表語(yǔ)種個(gè)數(shù)，ag是第g個(gè)語(yǔ)種識(shí)別正確的語(yǔ)音個(gè)數(shù)，bg代表第g個(gè)語(yǔ)種總的語(yǔ)音數(shù)，AR代表識(shí)別準(zhǔn)確率.

語(yǔ)種識(shí)別系統(tǒng)分為前端聲學(xué)特征和后端語(yǔ)種分類模型，前端聲學(xué)特征采用Fbank、MFCC、LPSEM 和語(yǔ)譜圖.其中LPSEM 作為實(shí)驗(yàn)特征，F(xiàn)bank、MFCC 和語(yǔ)譜圖作為對(duì)比特征.后端訓(xùn)練模型為Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò).網(wǎng)絡(luò)采用交叉熵準(zhǔn)則（cross entropy）進(jìn)行訓(xùn)練.

實(shí)驗(yàn)主要分為3 個(gè)部分：第1 部分分別將語(yǔ)音的Fbank、MFCC、LPSEM 和語(yǔ)譜圖特征擬合到Resnet 網(wǎng)絡(luò)和VGG 網(wǎng)絡(luò)中，研究各個(gè)特征在不同網(wǎng)絡(luò)中的語(yǔ)種識(shí)別情況；第2 部分分別對(duì)語(yǔ)音的Fbank、MFCC、LPSE 的特征向量和Fbank、MFCC、LPSEM 的特征圖譜進(jìn)行訓(xùn)練，研究特征數(shù)據(jù)擴(kuò)展對(duì)短時(shí)語(yǔ)種識(shí)別效果的影響；第3 部分在Resnet34網(wǎng)絡(luò)前端引入一個(gè)時(shí)長(zhǎng)規(guī)整層，同時(shí)與不加時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò)進(jìn)行對(duì)比，來(lái)研究時(shí)長(zhǎng)規(guī)整層對(duì)不同時(shí)長(zhǎng)語(yǔ)音輸入的影響.

3.2 實(shí)驗(yàn)結(jié)果

3.2.1 實(shí)驗(yàn)1 在實(shí)驗(yàn)1 中，語(yǔ)音時(shí)長(zhǎng)為1 s，輸入特征為Fbank、MFCC、LPSEM 和語(yǔ)譜圖，訓(xùn)練網(wǎng)絡(luò)根據(jù)種類和層數(shù)的不同分為Resnet18、Resnet34、Resnet50、VGG11 和VGG16.從表1 中可以看出Resnet 網(wǎng)絡(luò)的語(yǔ)種識(shí)別效果普遍高于VGG 網(wǎng)絡(luò)，這主要是由于VGG 網(wǎng)絡(luò)隨著卷積層數(shù)的增加，梯度消失導(dǎo)致后端的網(wǎng)絡(luò)層無(wú)法對(duì)前端的網(wǎng)絡(luò)層進(jìn)行調(diào)整.而Resnet 網(wǎng)絡(luò)提出了shortcut 捷徑連接，很好地解決了梯度消失的問(wèn)題.同時(shí)在Resnet34 中，當(dāng)輸入特征為L(zhǎng)PSEM 時(shí)，語(yǔ)種識(shí)別率最高，達(dá)到了82.4%，同比輸入特征為語(yǔ)譜圖增加了6%，比輸入特征為Fbank 增加了7.2%，比輸入特征為MFCC 增加了7.9%.同樣當(dāng)輸入特征為L(zhǎng)PSEM 時(shí)，各個(gè)網(wǎng)絡(luò)的識(shí)別率相比于其他特征也是最高的，但在Resnet 網(wǎng)絡(luò)中隨著網(wǎng)絡(luò)層數(shù)的增加，語(yǔ)種識(shí)別率并不是隨著層數(shù)增加而增加的，例如Resnet50 相比Resnet34 下降了2.3%，這可能是網(wǎng)絡(luò)層數(shù)過(guò)高，使得網(wǎng)絡(luò)在訓(xùn)練時(shí)出現(xiàn)了局部最優(yōu)而造成的.

表1 不同網(wǎng)絡(luò)及特征的語(yǔ)種識(shí)別率Tab.1 Language recognition rate of different networks and characteristics %

3.2.2 實(shí)驗(yàn)2 在實(shí)驗(yàn)2 中，輸入分別為1 s 短時(shí)語(yǔ)音的Fbank、MFCC、LPSE 的特征向量和Fbank、MFCC、LPSEM 的特征圖譜，從表2 可以看出各個(gè)特征的原始特征向量的短時(shí)語(yǔ)種識(shí)別效果普遍低于經(jīng)過(guò)特征數(shù)據(jù)擴(kuò)展后的特征圖譜，因此在本文中將短時(shí)語(yǔ)音的特征向量擴(kuò)展成為特征圖譜有利于短時(shí)語(yǔ)音的語(yǔ)種識(shí)別.

表2 特征數(shù)據(jù)擴(kuò)展對(duì)短時(shí)語(yǔ)音語(yǔ)種識(shí)別率的影響Tab.2 The impact of feature data expansion on short-term speech language recognition rate %

3.2.3 實(shí)驗(yàn)3 在實(shí)驗(yàn)3 中，輸入特征為L(zhǎng)PSEM，語(yǔ)音時(shí)長(zhǎng)為1、5 s 和10 s.訓(xùn)練模型為沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò)和引入時(shí)長(zhǎng)規(guī)整層的VD-LID 模型.實(shí)驗(yàn)結(jié)果如表3 所示.在沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò)中，輸入時(shí)長(zhǎng)為5 s和10 s 的廣播語(yǔ)音語(yǔ)種識(shí)別率分別只有58.7%和56.3%，在VD-LID 模型中，輸入時(shí)長(zhǎng)為5 s 和10 s的廣播語(yǔ)音的語(yǔ)種識(shí)別準(zhǔn)確率為86.6%和94.0%，相比于沒(méi)有引入時(shí)長(zhǎng)規(guī)整層的Resnet34 網(wǎng)絡(luò)，兩種輸入時(shí)長(zhǎng)的語(yǔ)音分別提高了27.9%和37.7%，并且輸入時(shí)長(zhǎng)為5 s 的廣播語(yǔ)音比輸入時(shí)長(zhǎng)為1 s 的廣播語(yǔ)音識(shí)別率提高了4.2%；輸入時(shí)長(zhǎng)為10 s 的廣播語(yǔ)音比輸入時(shí)長(zhǎng)為5 s的廣播語(yǔ)音語(yǔ)種識(shí)別率提高了7.4%.實(shí)驗(yàn)結(jié)果表明：當(dāng)沒(méi)有引入時(shí)長(zhǎng)規(guī)整層時(shí)，由于訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)不匹配，會(huì)造成識(shí)別率大幅度下降；而在引入時(shí)長(zhǎng)規(guī)整層之后，時(shí)長(zhǎng)規(guī)整層將輸入長(zhǎng)語(yǔ)音分割為若干時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音，從而使得測(cè)試特征能夠與訓(xùn)練特征相映射，在識(shí)別過(guò)程中，VD-LID 模型后端又通過(guò)計(jì)算每段時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音語(yǔ)種識(shí)別情況來(lái)判別長(zhǎng)語(yǔ)音的語(yǔ)種，而時(shí)長(zhǎng)為1 s 的短時(shí)語(yǔ)音語(yǔ)種識(shí)別準(zhǔn)確率已經(jīng)達(dá)到了82.4%，因此隨著語(yǔ)音時(shí)長(zhǎng)的增加，長(zhǎng)語(yǔ)音的語(yǔ)種識(shí)別準(zhǔn)確率也會(huì)隨之提高.

表3 時(shí)長(zhǎng)規(guī)整層對(duì)語(yǔ)種識(shí)別準(zhǔn)確率的影響Tab.3 The impact of the time-length regulation layer on the ac-curacy of language recognition %

4 總結(jié)

在語(yǔ)種識(shí)別中，針對(duì)短時(shí)語(yǔ)音信息量較少，語(yǔ)種識(shí)別率較低的問(wèn)題，本文使用了LPSEM 作為特征輸入，Resnet34 網(wǎng)絡(luò)作為分類模型，對(duì)時(shí)長(zhǎng)為1 s的短時(shí)語(yǔ)音進(jìn)行語(yǔ)種識(shí)別，其識(shí)別率達(dá)到了82.4%；針對(duì)訓(xùn)練語(yǔ)音與測(cè)試語(yǔ)音時(shí)長(zhǎng)不匹配導(dǎo)致語(yǔ)種識(shí)別率急劇下降的問(wèn)題，本文采用Resnet34 網(wǎng)絡(luò)結(jié)合時(shí)長(zhǎng)規(guī)整層的方法，構(gòu)建了可以識(shí)別不同時(shí)長(zhǎng)語(yǔ)音語(yǔ)種的可變時(shí)長(zhǎng)語(yǔ)種模型VD-LID，對(duì)比沒(méi)有結(jié)合時(shí)長(zhǎng)規(guī)整層的 Resnet34 網(wǎng)絡(luò)，VD-LID 將時(shí)長(zhǎng)為5 s 和10 s 的廣播語(yǔ)音的語(yǔ)種識(shí)別率分別提升了27.9%和37.7%.但考慮到短時(shí)語(yǔ)音的語(yǔ)種識(shí)別極易受到噪聲的影響，因此，在后續(xù)的工作中還需對(duì)語(yǔ)音的降噪展開(kāi)研究.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

可變時(shí)長(zhǎng)的短時(shí)廣播語(yǔ)音多語(yǔ)種識(shí)別

1 特征提取

2 語(yǔ)種識(shí)別模型VD-LID

3 實(shí)驗(yàn)分析

4 總結(jié)