基于CMN網(wǎng)絡(luò)的低資源柯?tīng)柨俗握Z(yǔ)識(shí)別研究

2018-12-14 09:05孫杰吾守爾·斯拉木熱依曼·吐?tīng)栠d

現(xiàn)代電子技術(shù) 2018年24期

孫杰吾守爾·斯拉木熱依曼·吐?tīng)栠d

關(guān)鍵詞：語(yǔ)音識(shí)別; 低資源; 柯?tīng)柨俗握Z(yǔ); 跨語(yǔ)種聲學(xué)模型; CMN; 音素映射

中圖分類(lèi)號(hào)： TN711?34; TP391 ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼： A ? ? ? ? ? ? ? ? ? ?文章編號(hào)： 1004?373X（2018）24?0132?05

Research on CMN?based recognition of Kirgiz with less resources

SUN Jie1，2， Wushour Silamu1， Reyiman Tursun1

（1. School of Information Science and Engineering， Xinjiang University， Urumqi 830046， China;

2. Department of Physics， Changji University， Changji 831100， China）

Abstract： As there exists low recognition rate caused by sparse training data during the speech recognition of minority languages， a cross?language acoustic model based on convolutional maxout networks （CMNs） is constructed in this paper for less?resource Kirgiz recognition. In the CMN model， the local sampling and weight sharing technologies of the convolutional neural network （CNN） are used to reduce network parameters. The convolutional kernel of the CNN is replaced by the maxout neuron to improve the extraction capability of network abstract features. The cross?language CMN is pre?trained by using the Uygur language with relatively?rich resources. The Dropout regularization training method is used to prevent over?fitting. The phoneme mapping set based on forced alignment of synonyms is created according to the similarities of the two languages. The to?be recognized Kirgiz data is marked. The CMN parameters are fine?tuned by using the limited corpus of the target language. The experimental results show that the word error rate of the proposed CMN acoustic model is 8.3% lower than that of the baseline CNN acoustic model.

Keywords： speech recognition; less resource; Kirgiz; cross?language acoustic model; CMN; phoneme mapping

0 ?引 ?言

“一帶一路”倡儀的提出使得我國(guó)與周邊國(guó)家的商貿(mào)往來(lái)和文化交流日趨頻繁。多語(yǔ)言特別是小語(yǔ)種的自動(dòng)語(yǔ)言翻譯機(jī)成為地區(qū)間互聯(lián)互通的迫切需求。

小語(yǔ)種語(yǔ)音識(shí)別面臨的困難是標(biāo)注數(shù)據(jù)匱乏難以建立魯棒的聲學(xué)模型。目前，低資源條件下構(gòu)建跨語(yǔ)種聲學(xué)模型是一個(gè)研究的熱點(diǎn)問(wèn)題。Schultz等人提出利用Bootstrap將多個(gè)單語(yǔ)種的聲學(xué)模型集成為跨語(yǔ)言的通用音素集，對(duì)瑞典語(yǔ)識(shí)別時(shí)獲得最低34.3%的音素錯(cuò)誤率，但該方法不能將富語(yǔ)料語(yǔ)種音素的上下文關(guān)系轉(zhuǎn)移到目標(biāo)語(yǔ)聲學(xué)模型[1]。為此，Imseng等人使用KL距離（Kullback?Leibler divergence）構(gòu)建了多語(yǔ)種三音素隱馬爾可夫模型HMM（Hidden Markov Model）。該模型的主要思想是用MLP（Multi?Layer Percetron）估計(jì)音素的后驗(yàn)概率，用多項(xiàng)式分布描述HMM狀態(tài)，利用相對(duì)熵作為損失函數(shù)度量?jī)烧咧g的距離[2]。實(shí)驗(yàn)結(jié)果表明，在較小數(shù)據(jù)集情況下，KL?HMM模型比GMM?HMM[3]模型識(shí)別效果好。但該方法假定模型中每個(gè)音子的狀態(tài)轉(zhuǎn)移概率固定，會(huì)降低解碼精度。Miao，Joy等人在SGMM（Subspace Gaussian Mixture Model）基礎(chǔ)上提出了共享SGMM模型，分別使用多語(yǔ)言語(yǔ)料訓(xùn)練模型的共享參數(shù)和有限資源語(yǔ)料訓(xùn)練狀態(tài)特殊的向量，較單語(yǔ)種SGMM在字識(shí)別準(zhǔn)確率有5%的提升[4?5]。由于深度神經(jīng)網(wǎng)絡(luò)[6]（Deep Neural Network，DNN）具有強(qiáng)大的抽象特征提取能力，Huang等人將經(jīng)過(guò)多語(yǔ)種訓(xùn)練的深度神經(jīng)網(wǎng)絡(luò)的隱藏層用于低資源語(yǔ)種的識(shí)別[7]，稱(chēng)為共享隱藏層技術(shù)（Shared Hidden Layers，SHL）。該方法取得很好的識(shí)別效果，但需要多個(gè)語(yǔ)種的大量數(shù)據(jù)對(duì)模型進(jìn)行充分訓(xùn)練。

為了更好利用dropout具有的近似模型平均的功能，Goodfellow提出一種新型前饋maxout網(wǎng)絡(luò)?；谶@種思想[8]，Miao提出了DMN[9]（Deep Maxout Networks）、Cai引入了SPMN[10]（Stochastic Pooling Maxout Networks）方法對(duì)有限數(shù)據(jù)的語(yǔ)言進(jìn)行語(yǔ)音識(shí)別，在Babel數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明該方法能有效降低對(duì)數(shù)據(jù)的需求。

受此啟發(fā)，本文在對(duì)語(yǔ)料資源匱乏的柯?tīng)柨俗握Z(yǔ)識(shí)別時(shí)，提出跨語(yǔ)種的CMN聲學(xué)建模方法，與文獻(xiàn)[9]和文獻(xiàn)[10]相比本文的主要不同點(diǎn)是：

1）借用同一個(gè)語(yǔ)系資源相對(duì)豐富的維吾爾語(yǔ)數(shù)據(jù)構(gòu)建交叉語(yǔ)種的CMN網(wǎng)絡(luò)，作為識(shí)別系統(tǒng)的底層特征提取器獲得柯?tīng)柨俗握Z(yǔ)音素的后驗(yàn)概率;

2）使用maxout激活函數(shù)替換CNN[11] （Convolutional Neural Networks）的卷積操作，增強(qiáng)模型的非線性表達(dá)能力;

3）通過(guò)maxout神經(jīng)元具有的仿射變換結(jié)構(gòu)，在CMN訓(xùn)練時(shí)引入dropout方法，增加模型平均的能力。

最后，根據(jù)語(yǔ)言的相似性，對(duì)維語(yǔ)和柯語(yǔ)表示相同意義的詞進(jìn)行強(qiáng)制對(duì)齊，用數(shù)據(jù)驅(qū)動(dòng)方法建立維語(yǔ)到柯語(yǔ)的音素映射集，并用映射結(jié)果標(biāo)注柯?tīng)柨俗握Z(yǔ)，利用有限標(biāo)注數(shù)據(jù)微調(diào)網(wǎng)絡(luò)參數(shù)，進(jìn)一步提高柯?tīng)柨俗握Z(yǔ)的識(shí)別精度。

1 ?跨語(yǔ)種的CMN聲學(xué)模型

跨語(yǔ)種的CMN（Convolutional Maxout Networks）模型是一種前饋型網(wǎng)絡(luò)，結(jié)構(gòu)類(lèi)似于卷積神經(jīng)網(wǎng)絡(luò)CNN，不同點(diǎn)是將CNN的卷積層和ReLU層替換為仿射變換層和maxout激活層，并在訓(xùn)練時(shí)引入dropout正則化方法。CMN網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

1.1 ?仿射變換層和maxout激活層

CMN網(wǎng)絡(luò)中仿射變換層采用了CNN網(wǎng)絡(luò)局部采樣技術(shù)的思想。首先通過(guò)一組大小不同的滑動(dòng)窗口（Window）沿語(yǔ)譜圖的頻域維度滑動(dòng)，并將窗口中的每一個(gè)神經(jīng)元與仿射變換層中的[k]個(gè)神經(jīng)元進(jìn)行全連接;然后對(duì)局部輸入特征做仿射變換。與CNN卷積層類(lèi)似，為減少網(wǎng)絡(luò)的待調(diào)節(jié)參數(shù)，在CMN中定義一個(gè)滑動(dòng)窗口對(duì)應(yīng)一個(gè)仿射變換矩陣[W]，并通過(guò)固定[W]實(shí)現(xiàn)不同輸入單元共享權(quán)值。第[l]層第[i]個(gè)窗口對(duì)應(yīng)的仿射變換定義為：

[zli=Wlixl-1+bli] ?（1）

式中：[Wli∈Rk×d]是仿射變換矩陣;[xl-1∈Rd]是[l]-1層局部輸入向量，[d]代表滑動(dòng)窗口的大小;[bli]為偏置量。

由式（1）可知仿射變換層中不同的滑動(dòng)窗口產(chǎn)生不同的仿射特征圖，而maxout激活層通過(guò)maxout函數(shù)對(duì)上一層仿射特征圖中的[k]個(gè)節(jié)點(diǎn)取最大值，生成多張?zhí)卣饔成鋱D。maxout激活層中特征映射圖節(jié)點(diǎn)的激活值為：

[hli（x）=maxj∈[1，k]zl-1ij] （2）

maxout神經(jīng)元具有非常強(qiáng)的擬合能力，可以擬合任意的凸函數(shù)。文獻(xiàn)[8]證明當(dāng)[k]足夠大時(shí)，只需2個(gè)maxout神經(jīng)元就可擬合任意凸函數(shù)?；舅枷胧侨我獾耐购瘮?shù)都可由分段線性函數(shù)以任意精度擬合，而maxout層神經(jīng)元是取前一層k個(gè)節(jié)點(diǎn)的最大值，同時(shí)這些節(jié)點(diǎn)都是線性的。因此在不同的取值范圍內(nèi)最大值也被看作是分段線性的，分段的個(gè)數(shù)與k值相關(guān)。圖2是用maxout神經(jīng)元分別擬合正線性函數(shù)、絕對(duì)值函數(shù)和二次函數(shù)的情況。

1.2 ?跨通道聚合層

在CMN結(jié)構(gòu)中，兩個(gè)maxout層后通常接一個(gè)跨通道聚合層?？缤ǖ谰酆蠈硬捎贸鼗╬ooling）技術(shù)將多個(gè)特征映射層相同位置的特征點(diǎn)整合為新的特征，其功能主要有兩個(gè)：一是壓縮maxout激活層的特征維度，減少網(wǎng)絡(luò)參數(shù)，從而減少對(duì)訓(xùn)練數(shù)據(jù)的需求;二是提升CMN網(wǎng)絡(luò)聲學(xué)模型的魯棒性，即對(duì)輸入特征的微小變化保持不變性（旋轉(zhuǎn)、平移和伸縮等）。常用池化技術(shù)有最大池化（max?pooling）和均值池化（mean?pooling）等。本文采用均值池化，聚合后的神經(jīng)元為：

[Pmi=averagej∈i?k…（i+1）?k（hmj）] ?（3）

式中：[Pmi]是第m層第i個(gè)神經(jīng)元;k是采樣因子。

1.3 ?全連接層和HMM

CMN網(wǎng)絡(luò)末端是一個(gè)全連接層和一個(gè)softmax層以及一個(gè)HMM（Hidden Markov Model）模型。最后一個(gè)softmax層輸出為音素的后驗(yàn)概率，其概率得分可以看作是隱馬爾科夫模型的發(fā)射概率，定義為：

[p（y（i）=jx（i）;θ）=eθTjx（i）l=1keθTlx（i）] （4）

式中：[θ]是權(quán)重矩陣;[l=1keθTlx（i）]是歸一化因子。

1.4 ?Dropout正則化訓(xùn)練

深度神經(jīng)網(wǎng)絡(luò)DNN參數(shù)通常達(dá)百萬(wàn)數(shù)量級(jí)，當(dāng)標(biāo)注數(shù)據(jù)不足時(shí)網(wǎng)絡(luò)會(huì)過(guò)度學(xué)習(xí)到訓(xùn)練集上的分類(lèi)權(quán)重，在測(cè)試集上泛化性能較差。在CMN網(wǎng)絡(luò)中，除使用共享權(quán)值矩陣防止過(guò)擬合外，還可利用maxout層的仿射變換結(jié)構(gòu)引入dropout正則化訓(xùn)練方法，在每次訓(xùn)練時(shí)以一定的概率對(duì)網(wǎng)絡(luò)的神經(jīng)元進(jìn)行舍取，減少網(wǎng)絡(luò)待調(diào)節(jié)參數(shù)防止過(guò)擬合。應(yīng)用dropout后第[l]層上神經(jīng)元的激活值為：

[hl=σ（WTlhl-1+bl）?ml] ?（5）

式中：“[?]”代表向量對(duì)應(yīng)元素相乘;[ml]為二進(jìn)制掩碼且服從[Bernoulli（1-p）]分布，[p]通常稱(chēng)為dropout的丟棄率。由于訓(xùn)練階段神經(jīng)元以[（1-p）]概率保持，測(cè)試時(shí)須還原出訓(xùn)練時(shí)的網(wǎng)絡(luò)行為，需要通過(guò)比例因子[（1-p）]縮放激活函數(shù)，導(dǎo)致訓(xùn)練后模型不固定。反轉(zhuǎn)dropout基本思想與dropout基本一致，只是在訓(xùn)練時(shí)對(duì)神經(jīng)元激活值進(jìn)行比例縮放，測(cè)試時(shí)保持不變，達(dá)到一次定義模型的目的。訓(xùn)練時(shí)反轉(zhuǎn)dropout應(yīng)用于第[l]層神經(jīng)元的激活為：

[hl=（1-p）-1σ（WTlhl-1+bl）?ml] ?（6）

2 ?發(fā)音詞典的轉(zhuǎn)換

在交叉語(yǔ)種識(shí)別時(shí)要建立源語(yǔ)言到目標(biāo)語(yǔ)發(fā)音詞典的轉(zhuǎn)換，實(shí)現(xiàn)目標(biāo)語(yǔ)料的轉(zhuǎn)寫(xiě)、發(fā)音詞典的構(gòu)建和識(shí)別結(jié)果的轉(zhuǎn)換。

2.1 ?維語(yǔ)與柯語(yǔ)的語(yǔ)言學(xué)關(guān)系

維語(yǔ)和柯語(yǔ)分別是維吾爾語(yǔ)與柯?tīng)柨俗握Z(yǔ)的簡(jiǎn)稱(chēng)，其文字均以阿拉伯字母書(shū)寫(xiě)，同時(shí)輔以拉丁文進(jìn)行補(bǔ)充和完善。按照譜系關(guān)系，二者被歸于阿爾泰語(yǔ)系突厥語(yǔ)族，屬于有親屬關(guān)系的兩種語(yǔ)言。從語(yǔ)言學(xué)角度看，維語(yǔ)和柯語(yǔ)在語(yǔ)音、詞匯和語(yǔ)法規(guī)則上存在一定的相似關(guān)系：

1）維語(yǔ)和柯語(yǔ)的元音和諧律部分相同。突厥語(yǔ)語(yǔ)音相近程度的主要衡量標(biāo)準(zhǔn)是元音和諧律類(lèi)型的異同[12]。在維語(yǔ)和柯語(yǔ)各自16種和諧模式中存在8種相同的規(guī)律：/a/?/a/，/a/?/u/，/a/??/o/，/u/?/u/，/u/??/a/，/y/??/y/，

/?/??/y/，/i/?/i/（使用IPA轉(zhuǎn)寫(xiě)）。

2）在維語(yǔ)和柯語(yǔ)中，有部分表達(dá)同一意思的詞音節(jié)構(gòu)成有具有對(duì)應(yīng)關(guān)系，表現(xiàn)為元音之間的替換、增音和減音等。例如：“媽媽”/ana/（維語(yǔ)）?/ene/（柯語(yǔ)），“鴨子”/?d?k/（維語(yǔ)）?/?rd?k /（柯語(yǔ)），“學(xué)生”/oqu?u? ?i/（維語(yǔ)）?/oqu? ?u/（柯語(yǔ)）。另外，語(yǔ)言接觸過(guò)程中產(chǎn)生了一些共同詞匯，如：“爸爸”/ata/，“教育”/marip/等。

3）維語(yǔ)和柯語(yǔ)表示不同語(yǔ)法意義是通過(guò)在詞根后線性添加不同詞綴實(shí)現(xiàn)，如 “畫(huà)家的”/syr?t?i?ni?/（維語(yǔ)）?/syr?t?y?nin/（柯語(yǔ)），“我喝”/ i??i?m?n /（維語(yǔ)）?/i??e?men/（柯語(yǔ)）等。

2.2 ?維語(yǔ)和柯語(yǔ)的發(fā)音單元

維吾爾語(yǔ)和柯?tīng)柨俗握Z(yǔ)都是拼音文字，音素和音節(jié)都有本質(zhì)發(fā)音的特點(diǎn)。突厥語(yǔ)的一個(gè)共性特征是都含有8個(gè)基本元音，且元音是構(gòu)成音節(jié)的基礎(chǔ)。維吾爾語(yǔ)保持了8個(gè)基本元音?？?tīng)柨俗握Z(yǔ)除8個(gè)元音外，還增加了6個(gè)長(zhǎng)元音。維吾爾語(yǔ)有24個(gè)輔音，柯?tīng)柨俗握Z(yǔ)有22輔音。另外，兩種語(yǔ)言大約各有5 000個(gè)音節(jié)[13]。目前，音素作為維吾爾語(yǔ)識(shí)別基元已經(jīng)成為一種共識(shí)[13?14]。

2.3 ?數(shù)據(jù)驅(qū)動(dòng)的音素映射集

在維吾爾語(yǔ)和柯?tīng)柨俗握Z(yǔ)之間建立音素映射，最簡(jiǎn)便的方法是利用國(guó)際音標(biāo)（International Phonetic Alphabet，IPA）分別轉(zhuǎn)寫(xiě)維語(yǔ)和柯語(yǔ)的元音和輔音，然后尋找具有共同發(fā)音的音素組成映射對(duì)，本文稱(chēng)為啟發(fā)式音素映射方法。對(duì)于一些不存在的音素使用發(fā)音最接近的音素進(jìn)行匹配，因此這種方法很大程度上受到主觀因素影響。

本文考慮到維語(yǔ)和柯語(yǔ)在語(yǔ)音、詞匯和語(yǔ)法方面具有一定的相似性，從語(yǔ)言學(xué)角度提出將維語(yǔ)和柯語(yǔ)中的同義詞進(jìn)行強(qiáng)制對(duì)齊，用概率統(tǒng)計(jì)的方法計(jì)算兩種語(yǔ)言之間音素映射頻率，本文稱(chēng)為數(shù)據(jù)驅(qū)動(dòng)音素映射方法。在給定兩個(gè)音素集W和K的情況下，基于詞強(qiáng)制對(duì)齊的數(shù)據(jù)驅(qū)動(dòng)的音素映射表示為：

[K→W=argmaxWPwi kj] （7）

式中，[Pwi kj]表示統(tǒng)計(jì)詞對(duì)中音素[kj]出現(xiàn)時(shí)[wi]出現(xiàn)的概率，計(jì)算方法如下：

[Pwi kj=o=1Nt=1MCwio，t，kjo，to=1Nt=1MCkjo，t] （8）

式中：N表示詞的總個(gè)數(shù);M表示詞的長(zhǎng)度;[Cwio，t，kjo，t]和[Ckjo，t]分別表示詞對(duì)o中第t個(gè)位置音素[wi，kj]同時(shí)出現(xiàn)的頻數(shù)和[kj]出現(xiàn)的總頻數(shù)。

圖3描述了漢語(yǔ)詞匯“牧民”使用IPA轉(zhuǎn)寫(xiě)為柯?tīng)柨俗握Z(yǔ)/?aban/和維吾爾語(yǔ)/mal?i/后進(jìn)行音素映射的過(guò)程。容易看出柯?tīng)柨俗握Z(yǔ)音素/a/出現(xiàn)的總頻數(shù)為2，與維吾爾語(yǔ)音素/?/在同一位置出現(xiàn)的頻數(shù)為1，用式（8）計(jì)算映射概率P（w=‘?|k=‘a(chǎn)）=0.5。

由于維語(yǔ)和柯語(yǔ)表示相同意義的語(yǔ)句長(zhǎng)度不同，在計(jì)算維語(yǔ)和柯語(yǔ)音素映射概率之前，音素序列使用動(dòng)態(tài)規(guī)劃（Dynamic Programming，DP）算法進(jìn)行對(duì)齊。

3 ?實(shí) ?驗(yàn)

3.1 ?實(shí)驗(yàn)數(shù)據(jù)

為使跨語(yǔ)種的CMN，CNN，DNN網(wǎng)絡(luò)聲學(xué)模型參數(shù)獲得較為充分的訓(xùn)練，本文使用兩個(gè)維吾爾語(yǔ)數(shù)據(jù)庫(kù)：THUYG?20[15]和《維吾爾語(yǔ)電話語(yǔ)音數(shù)據(jù)庫(kù)》。THUYG?20是清華大學(xué)公開(kāi)的一個(gè)免費(fèi)的20 h維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)，共有9 468句使用麥克風(fēng)連接電腦錄制的維吾爾語(yǔ)語(yǔ)音;《維吾爾語(yǔ)電話語(yǔ)音數(shù)據(jù)庫(kù)》是由新疆大學(xué)多語(yǔ)種信息技術(shù)實(shí)驗(yàn)室創(chuàng)建，目前提供給部分科研院所、公司和實(shí)驗(yàn)室內(nèi)部使用，處于半開(kāi)放狀態(tài)，未來(lái)逐步全面公開(kāi)。該數(shù)據(jù)庫(kù)通過(guò)手機(jī)收集了1 050對(duì)維吾爾族說(shuō)話人自由交談的語(yǔ)音數(shù)據(jù)，有效總時(shí)長(zhǎng)約為500 h?？?tīng)柨俗握Z(yǔ)語(yǔ)料由40個(gè)柯?tīng)柨俗巫逭f(shuō)話人（19男，21女）使用手機(jī)記錄的自然對(duì)話語(yǔ)音組成，有效總時(shí)長(zhǎng)約5 h，共計(jì)2 160句。

3.2 ?實(shí)驗(yàn)設(shè)計(jì)

實(shí)驗(yàn)使用Kaldi語(yǔ)音識(shí)別工具箱分別搭建CMN?HMM，CNN?HMM和DNN?HMM識(shí)別系統(tǒng)。CMN網(wǎng)絡(luò)結(jié)構(gòu)input+2maxout+pool+2maxout+pool+2FC;CNN網(wǎng)絡(luò)結(jié)構(gòu)為input+2conv+pool+2conv+pool+2FC;DNN網(wǎng)絡(luò)結(jié)構(gòu)為input+4hiddens+softmax，隱層節(jié)點(diǎn)為1 024個(gè);CMN，CNN和DNN的輸入層均為1 364維（由40維Fbank和其一階、二階差分，加上四維的韻律特征，進(jìn)行前后各5幀共計(jì)11幀拼接組成）;其中CMN滑動(dòng)窗口大小為3×3@64，每個(gè)窗口對(duì)應(yīng)仿射層神經(jīng)元為7個(gè)，池化窗口大小為2×2;CNN網(wǎng)絡(luò)的卷積層卷積核尺寸為3×3@64，池化窗口大小為2×2。實(shí)驗(yàn)中所有訓(xùn)練和測(cè)試語(yǔ)音數(shù)據(jù)采用G.723.1算法進(jìn)行語(yǔ)音端點(diǎn)檢測(cè)（Voice Activity Detection，VAD）和倒譜均值減（Cepstral Mean Substract，CMS）技術(shù)做降噪處理。使用誤差反向傳播算法（Back Propagation，BP）對(duì)CMN，CNN和DNN網(wǎng)絡(luò)訓(xùn)練，采用隨機(jī)梯度下降（Stochastic Gradient Descent，SGD）調(diào)整網(wǎng)絡(luò)參數(shù)。在訓(xùn)練過(guò)程中，對(duì)DNN和CNN在全連接層采用dropout方法，而CMN中的仿射變換和全連接層均采用dropout方法。在柯?tīng)柨俗握Z(yǔ)語(yǔ)音數(shù)據(jù)隨機(jī)挑選2 000句語(yǔ)音組成訓(xùn)練集，剩余160句語(yǔ)音作為測(cè)試集。

3.3 ?實(shí)驗(yàn)結(jié)果

1）實(shí)驗(yàn)1

單語(yǔ)種CMN，CNN和DNN混合系統(tǒng)識(shí)別實(shí)驗(yàn)。直接用柯?tīng)柨俗握Z(yǔ)數(shù)據(jù)訓(xùn)練DNN，CNN和CMN網(wǎng)絡(luò)，訓(xùn)練時(shí)將dropout的丟棄率[p]分別設(shè)置為0.2，0.3和0.4;然后用最大似然準(zhǔn)則訓(xùn)練單音子HMM模型，使用決策樹(shù)算法做狀態(tài)綁定后獲得920個(gè)三音子狀態(tài)。最后將3種網(wǎng)絡(luò)和HMM模型結(jié)合對(duì)柯?tīng)柨俗握Z(yǔ)進(jìn)行識(shí)別實(shí)驗(yàn)，并用WER（Word Error Rate）作為評(píng)價(jià)指標(biāo)，識(shí)別結(jié)果見(jiàn)表1。

從表1三種網(wǎng)絡(luò)混合模型的識(shí)別結(jié)果可以看出，CMN?HMM模型在不同的dropout丟棄率下的WER均低于CNN?HMM和DNN?HMM，說(shuō)明CMN網(wǎng)絡(luò)在單一語(yǔ)種且有限數(shù)據(jù)情況下的識(shí)別性能好于CNN和DNN。另外，由于DNN網(wǎng)絡(luò)參數(shù)數(shù)量巨大，識(shí)別準(zhǔn)確率隨dropout丟棄率增大有所提升，而CMN和CNN網(wǎng)絡(luò)模型在dropout為0.3時(shí)字錯(cuò)誤率最低，當(dāng)繼續(xù)增加到0.4時(shí)WER開(kāi)始變大，說(shuō)明[p]=0.3時(shí)，網(wǎng)絡(luò)識(shí)別準(zhǔn)確率最佳。

2）實(shí)驗(yàn)2

跨語(yǔ)種的CMN?HMM，CNN?HMM和DNN?HMM混合模型識(shí)別實(shí)驗(yàn)。首先使用維吾爾語(yǔ)數(shù)據(jù)對(duì)3種網(wǎng)絡(luò)做預(yù)訓(xùn)練，設(shè)置dropout丟棄率為0.3;分別用啟發(fā)式音素映射集和數(shù)據(jù)驅(qū)動(dòng)音素映射集標(biāo)注柯?tīng)柨俗握Z(yǔ)音;然后用柯?tīng)柨俗握Z(yǔ)調(diào)優(yōu)網(wǎng)絡(luò)（分為調(diào)優(yōu)整個(gè)網(wǎng)絡(luò)和僅調(diào)優(yōu)softmax層）;最后，使用EM算法訓(xùn)練單音子HMM模型，經(jīng)狀態(tài)綁定后獲得10 800三音子狀態(tài)。解碼時(shí)使用維語(yǔ)文本數(shù)據(jù)訓(xùn)練得到的3?gram語(yǔ)言模型。識(shí)別結(jié)果如表2所示。

表2是跨語(yǔ)種CMN?HMM，CNN?HMM和DNN?HMM混合系統(tǒng)識(shí)別柯?tīng)柨俗握Z(yǔ)的識(shí)別結(jié)果。對(duì)比表1可以看出跨語(yǔ)種的三類(lèi)網(wǎng)絡(luò)模型均比單語(yǔ)種的網(wǎng)絡(luò)模型識(shí)別率高，說(shuō)明深度神經(jīng)網(wǎng)絡(luò)經(jīng)過(guò)相似語(yǔ)種的預(yù)訓(xùn)練后可以獲得很好的初始化參數(shù)，網(wǎng)絡(luò)的多層結(jié)構(gòu)和神經(jīng)元之間的非線性連接可以提取到語(yǔ)言之間更加抽象的關(guān)系。從表2實(shí)驗(yàn)結(jié)果可以看出CMN網(wǎng)絡(luò)識(shí)別效果好于CNN網(wǎng)絡(luò)，在跨語(yǔ)種聲學(xué)建模時(shí)仿射變換層要比卷積層更有優(yōu)勢(shì)。對(duì)比使用不同音素映射集標(biāo)注語(yǔ)料的識(shí)別結(jié)果，可以看出數(shù)據(jù)驅(qū)動(dòng)音素集比啟發(fā)式音素集識(shí)別精度有1.8%～3.7%的提升。此外，單獨(dú)對(duì)softmax層調(diào)整權(quán)重的識(shí)別效果優(yōu)于對(duì)整個(gè)網(wǎng)絡(luò)參數(shù)調(diào)整的識(shí)別效果，識(shí)別字錯(cuò)誤率有0.8%～4.1%的降低?？傮w而言，CMN?HMM混合系統(tǒng)在使用數(shù)據(jù)驅(qū)動(dòng)音素集標(biāo)注低資源目標(biāo)語(yǔ)料且只對(duì)softmax層調(diào)參的情況下，識(shí)別準(zhǔn)確率最高，其WER為27.2%，相比CNN?HMM混合系統(tǒng)識(shí)別準(zhǔn)確率有8.3%的改進(jìn)。

4 ?結(jié) ?語(yǔ)

本文結(jié)合卷積神經(jīng)網(wǎng)絡(luò)的特點(diǎn)和maxout神經(jīng)單元的特殊結(jié)構(gòu)提出跨語(yǔ)種的CMN網(wǎng)絡(luò)模型，用于低資源的少數(shù)民族語(yǔ)言識(shí)別的聲學(xué)模型構(gòu)建，并將dropout正則化訓(xùn)練方法運(yùn)用到CMN網(wǎng)絡(luò)參數(shù)訓(xùn)練增強(qiáng)模型平均能量和防止過(guò)擬合。為進(jìn)一步提高系統(tǒng)的識(shí)別準(zhǔn)確率，采用概率統(tǒng)計(jì)方法獲得富語(yǔ)種和低資源語(yǔ)種音素映射集，標(biāo)注待識(shí)別語(yǔ)種數(shù)據(jù)。本文下一步的工作是在增加柯?tīng)柨俗握Z(yǔ)料的基礎(chǔ)上，進(jìn)一步完善CMN?HMM模型。

參考文獻(xiàn)

[1] SCHULTZ T， WAIBEL A. Experiments on cross?language acoustic modeling [C/OL]. [2011?09?14]. https：//wenku.baidu.com/view/b6ced1edf8c75fbfc77db2d3.html.

[2] IMSENG D， BOURLARD H， GARNER P N. Using KL?divergence and multilingual information to improve ASR for under?resourced languages [C]// Proceedings of IEEE International Conference on Acoustics， Speech and Signal Processing. Kyoto： IEEE， 2012： 4869?4872.

[3] RABINER L R. A tutorial on hidden Markov models and selected applications in speech recognition [J]. Proceedings of the IEEE， 1989， 77（2）： 257?286.

[4] MIAO Y， METZE F， WAIBEL A. Subspace mixture model for low?resource speech recognition in cross?lingual settings [C]// Proceedings of IEEE International Conference on Acoustics， Speech and Signal Processing. Vancouver： IEEE， 2013： 7339?7343.

[5] JOY N M， ABRAHAM B， NAVNEETH K， et al. Improved acoustic modeling of low?resource languages using shared SGMM parameters of high?resource languages [C]// Proceedings of 22nd National Conference on Communication. Guwahati： IEEE， 2016： 1?6.

[6] DAHL G E， DONG Y， LI D， et al. Context?dependent pre?trained deep neural networks for large?vocabulary speech recognition [J]. IEEE transactions on audio speech & language processing， 2012， 20（1）： 30?42.

[7] HUANG J T， LI J， YU D， et al. Cross?language knowledge transfer using multilingual deep neural network with shared hidden layers [C]// Proceedings of IEEE International Conference on Acoustics， Speech and Signal Processing. Vancouver： IEEE， 2013： 7304?7308.

[8] GOODFELLOW I J， WARDE?FARLEY D， MIRZA M， et al. Maxout networks [C]// Proceedings of the 30th International Conference on Machine Learning. [S.l.： s.n.]， 2013： 1319?1327.

[9] MIAO Y， METZE F， RAWAT S. Deep maxout networks for low?resource speech recognition [C]// Proceedings of IEEE Workshop on Automatic Speech Recognition and Understanding. Olomouc： IEEE， 2014： 398?403.

[10] CAI M， SHI Y， LIU J. Stochastic pooling maxout networks for low?resource speech recognition [C]// Proceedings of IEEE International Conference on Acoustics， Speech and Signal Processing. Florence： IEEE， 2014： 3266?3270.

[11] DAHL J V， KOCH K C， KLEINHANS E， et al. Convolutional networks and applications in vision [C]// Proceedings of IEEE International Symposium on Circuits and Systems. Paris： IEEE， 2010： 253?256.

[12] 吳宏偉.突厥語(yǔ)族語(yǔ)言的分類(lèi)[J].語(yǔ)言與翻譯，1992（1）：19?24.

WU Hongwei. The language classification of Turkic branch [J]. Language and translation， 1992（1）： 19?24.

[13] 那斯?fàn)柦ね聽(tīng)栠d，吾守爾·斯拉木.基于隱馬爾可夫模型的維吾爾語(yǔ)連續(xù)語(yǔ)音識(shí)別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用，2009，29（7）：2009?2011.

Nasirjan Tursun， Wushour Silamu. Uyghur continuous speech recognition system based on HMM [J]. Journal of computer applications， 2009， 29（7）： 2009?2011.

[14] 楊雅婷，馬博，王磊，等.維吾爾語(yǔ)語(yǔ)音識(shí)別中發(fā)音變異現(xiàn)象[J].清華大學(xué)學(xué)報(bào)（自然科學(xué)版），2011，51（9）：1230?1233.

YANG Yating， MA Bo， WANG Lei， et al. Uyghur pronunciation variations in automatic speech recognition systems [J]. Journal of Tsinghua University （Science & technology）， 2011， 51（9）： 1230?1233.

[15] 艾斯卡爾·肉孜，殷實(shí)，張之勇，等.THUYG?20：免費(fèi)的維吾爾語(yǔ)語(yǔ)音數(shù)據(jù)庫(kù)[J].清華大學(xué)學(xué)報(bào)（自然科學(xué)版），2017，57（2）：182?187.