賈嘉敏,潘文林
(云南民族大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,云南昆明 650500)
語言是人類相互間傳遞信息最原始、便捷的工具,更是文化傳承的重要載體[1]。漢語和少數(shù)民族語言作為中華民族文化的瑰寶,更是一個(gè)民族重要的象征。然而,在當(dāng)今全球化發(fā)展的進(jìn)程中,伴隨著各民族文化的融合,少數(shù)民族語言文化遺產(chǎn)的傳承與保護(hù)迫在眉睫。其中,對(duì)于跨中緬邊境的少數(shù)民族——佤族而言,為維護(hù)邊境穩(wěn)定、增強(qiáng)國家認(rèn)同,對(duì)其語言的傳承與保護(hù)顯得更加重要[2-3]。相比于語言資源豐富的漢語、壯語等語種,佤語因使用人數(shù)較少,較難收集到大量語料用于語音識(shí)別研究[4]。在當(dāng)前參差不齊的語言環(huán)境下,很多少數(shù)民族語言正面臨消亡的危險(xiǎn)境地。故對(duì)于低資源的少數(shù)民族語言開展相應(yīng)的語音識(shí)別研究具有極為重要的文化保護(hù)價(jià)值。通過積極推動(dòng)少數(shù)民族語言文化研究,能更好地對(duì)其進(jìn)行保護(hù)與傳承,也是響應(yīng)我國推動(dòng)社會(huì)主義文化大發(fā)展、大繁榮的號(hào)召,推動(dòng)語言及文化的多元發(fā)展。
現(xiàn)階段對(duì)于少數(shù)民族的語音識(shí)別研究主要是從基于語音信號(hào)[5]和語譜圖[6]兩個(gè)角度切入。針對(duì)基于語音信號(hào)的語音識(shí)別研究,李余芳等[7]分別利用特定發(fā)音人和非特定發(fā)音人所錄的語音進(jìn)行隱馬爾可夫模型(Hidden Markov Model,HMM)訓(xùn)練,對(duì)普米語孤立詞進(jìn)行識(shí)別;趙爾平等[8]利用藏語語音學(xué)特征提出改進(jìn)的藏語孤立詞語音識(shí)別方法,識(shí)別精度可達(dá)92.83%;胡文君等[9]利用kaldi 分別訓(xùn)練5種不同的聲學(xué)模型,發(fā)現(xiàn)G-DNN 模型的普米語語音識(shí)別率明顯高于Monophone、Triphone1、Triphone2 及OSGMM 模型;穆凱代姆罕·伊敏江等[10]構(gòu)建CNN-HMM 聲學(xué)模型和遞歸神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)語言模型,提升了維吾爾語語音識(shí)別精度;黃曉輝等[11]通過探究循環(huán)神經(jīng)網(wǎng)絡(luò)模型對(duì)于藏語具有更好的識(shí)別性能,驗(yàn)證了Bi-LSTM-CTC 模型應(yīng)用于藏語語音聲學(xué)建模的可行性。針對(duì)基于語譜圖的語音識(shí)別研究,董華珍[12]引入基于卷積神經(jīng)網(wǎng)絡(luò)的語譜圖模型,通過卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)對(duì)普米語孤立詞語譜圖分類進(jìn)行探究,驗(yàn)證其算法的可行性;侯俊龍等[13]將剪枝的卷積神經(jīng)網(wǎng)絡(luò)AlexNet 模型用于普米語孤立詞識(shí)別,識(shí)別精度高達(dá)98.53%;楊建香[14]基于殘差網(wǎng)絡(luò)的佤語孤立詞語音識(shí)別精度可達(dá)96.3%,且連續(xù)語音語譜圖識(shí)別率為90.2%,驗(yàn)證了其模型具有良好的魯棒性。
上述工作都獲得了相當(dāng)不錯(cuò)的成果,但是其中針對(duì)語譜圖的研究中,數(shù)據(jù)集設(shè)計(jì)存在不足之處,即同一個(gè)說話人說的詞會(huì)同時(shí)出現(xiàn)在訓(xùn)練集和測(cè)試集中,在模型訓(xùn)練過程中會(huì)產(chǎn)生過擬合的可能。因此,在低資源的少數(shù)民族語音識(shí)別中應(yīng)更加合理地設(shè)計(jì)數(shù)據(jù)集劃分,以驗(yàn)證模型的有效性。
同時(shí),近年來隨著計(jì)算性能的不斷提升以及數(shù)據(jù)量的飛速增長,各種新型神經(jīng)網(wǎng)絡(luò)模型不斷涌現(xiàn),如Inception[15]、Resnet[16]、Transformer[17]、長短時(shí)記憶網(wǎng)絡(luò)(Long-Short Term Memory,LSTM)[18]等模型可從空間維度層面提升網(wǎng)絡(luò)性能,相關(guān)研究都取得了不錯(cuò)的成果。然而,受限于佤語語料采集難度較大及研究基礎(chǔ)薄弱等問題,Inception 模型在語音識(shí)別上的應(yīng)用研究未能進(jìn)一步深入。因此,本文嘗試將Inception 模型應(yīng)用于佤語的語音識(shí)別研究中,并在此基礎(chǔ)上結(jié)合擠壓—激勵(lì)模塊(Squeeze-and-Excitation Block,SE-Block)構(gòu)建一種更優(yōu)化的卷積神經(jīng)網(wǎng)絡(luò)模型,以驗(yàn)證該模型應(yīng)用于少數(shù)民族語音識(shí)別的可行性。
Inception-ResNet_v2 模型由Google 團(tuán)隊(duì)于2016 年提出,其是在Inception 模型中引入Resnet 結(jié)構(gòu)而生成的[19]。其中,Inception 結(jié)構(gòu)是通過嵌入可提取多尺度信息的過濾器,并聚合來自不同感受野上的特征,從而實(shí)現(xiàn)性能的增益,同時(shí)采用1x1 卷積核進(jìn)行降維處理以減少計(jì)算量。引入ResNet 結(jié)構(gòu)可減少因?qū)訑?shù)增多而造成的過擬合及梯度消失現(xiàn)象,從而有效地加速收斂。Inception-ResNet_v2 模型結(jié)構(gòu)如圖1所示。
Fig.1 Inception-ResNet_v2 model structure圖1 Inception-ResNet_v2模型結(jié)構(gòu)
該模型是基于原Inception 模型的進(jìn)一步改進(jìn)。對(duì)于輸入的299*299*3 語譜圖,先執(zhí)行初始操作集Stem 模塊,以獲得更深的網(wǎng)絡(luò)結(jié)構(gòu)。在進(jìn)入Inception-Resnet 模塊時(shí),Inception 模塊內(nèi)的原池化操作被替換為殘差連接,即在Inception 中加入ResNet 思想,并在add 之前使用線性的1x1卷積對(duì)齊維度。Inception-Resnet A、B、C 3 組模塊結(jié)構(gòu)相似,不同的是卷積核大小和尺度個(gè)數(shù),其中Inception-ResNet 結(jié)構(gòu)如圖2 所示。同時(shí)引入專門的Reduction 模塊用于改變特征圖大小,該模塊同樣采用多尺度信息提取的Inception 結(jié)構(gòu),以防止出現(xiàn)bottleneck 問題。
Fig.2 Inception-ResNet structure圖2 Inception-ResNet結(jié)構(gòu)
Squeeze-and-Excitation Block(簡稱SE-Block)是一種全新的特征重標(biāo)定模塊。通過學(xué)習(xí)的方式自動(dòng)獲取每個(gè)特征通道權(quán)重,然后依照其權(quán)重大小提高對(duì)當(dāng)前任務(wù)有用的特征信息權(quán)重,并抑制對(duì)當(dāng)前任務(wù)作用不大的特征信息權(quán)重,從而加快網(wǎng)絡(luò)訓(xùn)練速度[20]。SE-Block 并不是一個(gè)完整的網(wǎng)絡(luò)結(jié)構(gòu),而是一個(gè)子結(jié)構(gòu),可嵌入到其他主流的分類、檢測(cè)模型中。將其引入到各種網(wǎng)絡(luò)模型中,可提高該網(wǎng)絡(luò)對(duì)特征維度的信息通道選擇能力,從而達(dá)到優(yōu)化網(wǎng)絡(luò)性能的目的。故本文嘗試將SE-Block 插入Inception-ResNet_v2中并進(jìn)行微調(diào),訓(xùn)練出優(yōu)化后的模型。
SE-Block 示意圖如圖3 所示(彩圖掃OSID 碼可見,下同)。
Fig.3 SE-Block diagram圖3 SE-Block示意圖
對(duì)于一個(gè)給定的特征圖,SE-Block 將通過如下步驟進(jìn)行特征重標(biāo)定:
Step2:通過Squeeze 操作進(jìn)行特征壓縮,將每個(gè)二維平面的特征通道擠壓成一個(gè)實(shí)數(shù),如式(2)所示。每個(gè)實(shí)數(shù)等價(jià)于具有全局的感受野,并且輸出的維度個(gè)數(shù)與輸入的特征通道數(shù)相對(duì)應(yīng)。
Step3:為利用上一步操作中聚集的信息,通過Excitation操作進(jìn)行自適應(yīng)調(diào)整,如式(3)所示。
通過FC-ReLU-FC-Sigmoid 的過程得到一個(gè)維度為1 × 1 ×C的s,其作為特征通道的權(quán)重,以表征特征通道的重要程度。
Step4:最后進(jìn)行Reweight 操作,將對(duì)應(yīng)通道的每個(gè)元素與Excitation 的輸出權(quán)重分別相乘,如式(4)所示,從而實(shí)現(xiàn)了在通道維度上對(duì)原始特征的重標(biāo)定。
SE-Block 的嵌入增加了網(wǎng)絡(luò)中的特征權(quán)重,即增大有效權(quán)重所占比重。
SE-Block 具有高效性與靈活性,目前已廣泛應(yīng)用于圖像識(shí)別中。為提取到更精細(xì)的語譜圖特征,本文參考文獻(xiàn)[21]中的方法,嘗試將SE-Block 嵌入Inception-ResNet_v2模型中,探究SE-Block 對(duì)加強(qiáng)語譜圖信息提取的能力,并把激活函數(shù)由原本的ReLU 替換為Leaky ReLU,從而進(jìn)一步提高語音識(shí)別精度。具體方法為在每個(gè)Inception-ResNet 模塊后加入SE-Block 進(jìn)行特征重標(biāo)定,以提升模型對(duì)channel特征的敏感性。
改進(jìn)的Inception-ResNet_v2 網(wǎng)絡(luò)模型總體結(jié)構(gòu)如圖4所示。
Fig.4 Overall structure of the model in this paper圖4 本文模型總體結(jié)構(gòu)
本文的實(shí)驗(yàn)環(huán)境主要在Python 開發(fā)環(huán)境中,使用TensorFlow 深度學(xué)習(xí)框架進(jìn)行搭建,操作系統(tǒng)為Win10.0。
實(shí)驗(yàn)選用佤語作為研究對(duì)象,所用的佤語語料庫為300 個(gè)孤立詞,由2 男2 女分別重復(fù)讀5 遍生成,共得到6 000 條孤立詞語音。后期分別對(duì)語音語料進(jìn)行歸類整理,生成300類帶標(biāo)簽的佤語孤立詞語音語料庫。
為實(shí)現(xiàn)對(duì)語音信號(hào)的精確識(shí)別,實(shí)驗(yàn)前期首先對(duì)語料庫中的原始語音信號(hào)進(jìn)行傅里葉變換,生成對(duì)應(yīng)語譜圖(見圖5),然后通過reshape 將每張語譜圖固定為同樣大小,即生成大小均為299×299×3 的6 000 張佤語孤立詞語譜圖,最終組成本次實(shí)驗(yàn)所需的數(shù)據(jù)集。在圖5 中,如標(biāo)記13_1_2是指由第一個(gè)人讀的第13個(gè)孤立詞的第2遍。
Fig.5 Phonological spectrogram of isolated words in Wa language圖5 佤語孤立詞語音語譜圖
少數(shù)民族孤立詞語音識(shí)別訓(xùn)練流程如圖6 所示。首先通過對(duì)原始語音信號(hào)進(jìn)行數(shù)據(jù)預(yù)處理,得到各條語音對(duì)應(yīng)的語譜圖;然后將數(shù)據(jù)集中的所有數(shù)據(jù)劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,再將其輸入到改進(jìn)的Inception-ResNet_v2 模型中進(jìn)行訓(xùn)練,經(jīng)Softmax 輸出分類結(jié)果;通過觀察驗(yàn)證集精度是否達(dá)預(yù)期精度要求,不斷進(jìn)行調(diào)參優(yōu)化訓(xùn)練,直至超過預(yù)期精度值;最后在測(cè)試集上進(jìn)行測(cè)試,得到對(duì)應(yīng)的模型識(shí)別結(jié)果。
對(duì)于數(shù)據(jù)集劃分作如下設(shè)計(jì):對(duì)于佤語數(shù)據(jù)集,說話者共有4 人,選取其中3 位發(fā)音人的語音數(shù)據(jù)作為訓(xùn)練集和驗(yàn)證集(其中訓(xùn)練集占比90%,驗(yàn)證集占比10%),另外1位發(fā)音人的語音數(shù)據(jù)作為測(cè)試集進(jìn)行實(shí)驗(yàn),得出相應(yīng)的識(shí)別精度作為模型的識(shí)別精度值。
Fig.6 Training process of minority isolated word speech recognition圖6 少數(shù)民族孤立詞語音識(shí)別訓(xùn)練流程
2.3.1 不同學(xué)習(xí)率訓(xùn)練情況
為了觀察學(xué)習(xí)率對(duì)模型泛化性能的影響,分別對(duì)不同學(xué)習(xí)率進(jìn)行對(duì)比實(shí)驗(yàn)。同樣都訓(xùn)練300 輪,在改進(jìn)的Inception-ResNet_v2 模型中對(duì)佤語孤立詞語音分別進(jìn)行訓(xùn)練,并以驗(yàn)證集精度和損失變化曲線作為衡量指標(biāo)進(jìn)行性能評(píng)估。圖7 為取不同學(xué)習(xí)率α(0.000 5、0.001 5、0.005、0.007 5),在佤語數(shù)據(jù)集上的訓(xùn)練情況。可明顯看出,隨著學(xué)習(xí)率的不斷提高,模型收斂速度與精度都顯著提高。當(dāng)學(xué)習(xí)率達(dá)到0.005 時(shí),模型收斂速度明顯變快,精度也達(dá)到最高。但當(dāng)學(xué)習(xí)率繼續(xù)提高至0.0075 時(shí),模型精度則出現(xiàn)下降,實(shí)驗(yàn)效果變差。
2.3.2 不同動(dòng)量訓(xùn)練情況
在模型訓(xùn)練中,動(dòng)量可加速SDG 在某一方向上的搜索以及減少震蕩現(xiàn)象。當(dāng)前后梯度方向一致時(shí),動(dòng)量梯度下降可加速學(xué)習(xí)。而當(dāng)前后梯度方向不一致時(shí),動(dòng)量梯度下降可抑制震蕩。因此,本次實(shí)驗(yàn)在其他條件不變的情況下,選取學(xué)習(xí)率為0.005,訓(xùn)練300 輪次,對(duì)比不同動(dòng)量下梯度下降法的效果,如圖8所示。
實(shí)驗(yàn)將參數(shù)β設(shè)為0.5、0.9、0.98,分別表示最大速度2倍、10 倍、50 倍于SGD 的算法。通過對(duì)不同超參數(shù)β的對(duì)比研究,發(fā)現(xiàn)當(dāng)β為0.9 時(shí),在訓(xùn)練期間的震蕩明顯減弱,過程更加平穩(wěn),故此實(shí)驗(yàn)取動(dòng)量β=0.9。
Fig.7 Training in Wa language dataset with different learning rates圖7 不同學(xué)習(xí)率下佤語數(shù)據(jù)集訓(xùn)練情況
Fig.8 Training of Wa language dataset under different momentum圖8 不同動(dòng)量下佤語數(shù)據(jù)集訓(xùn)練情況
根據(jù)以上對(duì)比實(shí)驗(yàn)與反復(fù)調(diào)試,最終確定模型超參數(shù)如下:學(xué)習(xí)率α為0.005,動(dòng)量β為0.9,批大小為16。通過上述實(shí)驗(yàn)訓(xùn)練,實(shí)現(xiàn)了改進(jìn)的Inception-ResNet_v2 模型對(duì)佤語孤立詞語音的識(shí)別。
2.3.3 不同模型下語音識(shí)別精度
為驗(yàn)證本文方法的有效性,選擇Inception_v1、Inception_v4、Resnet_50 與Inception_resnet_v2 進(jìn)行對(duì)比實(shí)驗(yàn)。表1 為不同模型在佤語孤立詞語音識(shí)別中的精度比較,由表中數(shù)據(jù)可知,加入SE-Block 后的Inception_Resnet_v2 模型效果得到進(jìn)一步提升,相較于其他主流模型,改進(jìn)的Inception_Resnet_v2模型識(shí)別精度最高,達(dá)到80.02%。
Table 1 Comparison of the accuracy of different models in Wa isolated word speech recognition表1 不同模型在佤語孤立詞語音識(shí)別中的精度比較
本文提出基于改進(jìn)Inception-Resnet_v2 的少數(shù)民族孤立詞語音識(shí)別方法,通過引入SE-Block 模塊,增強(qiáng)了模型的特征提取能力,在對(duì)非特定人的佤語孤立詞識(shí)別中取得了較好效果。實(shí)驗(yàn)結(jié)果表明,該模型的識(shí)別性能最優(yōu),識(shí)別精度可達(dá)80.02%。證明本文方法可較好地應(yīng)用于低資源少數(shù)民族語音識(shí)別中,為低資源少數(shù)民族語音識(shí)別提供了新思路。在接下來的工作中,可繼續(xù)擴(kuò)充語料庫以解決說話人數(shù)較少的問題,在進(jìn)一步提升模型識(shí)別精度的同時(shí),為探究少數(shù)民族連續(xù)語音識(shí)別打下基礎(chǔ)。