自由表述口語語音評測后驗概率估計改進(jìn)方法

2017-06-01 11:29許蘇魁戴禮榮魏思劉慶峰高前勇

中文信息學(xué)報 2017年2期

關(guān)鍵詞：音素后驗聲學(xué)

許蘇魁，戴禮榮，魏思，劉慶峰,，高前勇

(1. 中國科學(xué)技術(shù)大學(xué) 語音及語言信息處理國家工程實驗室，安徽合肥230027;2. 科大訊飛信息股份有限公司，安徽合肥230088)

自由表述口語語音評測后驗概率估計改進(jìn)方法

許蘇魁1，戴禮榮1，魏思2，劉慶峰1,2，高前勇2

(1. 中國科學(xué)技術(shù)大學(xué) 語音及語言信息處理國家工程實驗室，安徽合肥230027;2. 科大訊飛信息股份有限公司，安徽合肥230088)

該文研究了兩種用于改善深度神經(jīng)網(wǎng)絡(luò)聲學(xué)建?？蚣芟伦杂杀硎隹谡Z語音評測任務(wù)后驗概率估計的方法： 1)使用RNN語言模型對一遍解碼N-best候選做語言模型得分重估計來獲得更準(zhǔn)確的識別結(jié)果以重新估計后驗概率；2)借鑒多語種神經(jīng)網(wǎng)絡(luò)訓(xùn)練框架，提出將方言數(shù)據(jù)聚類狀態(tài)加入解碼神經(jīng)網(wǎng)絡(luò)輸出節(jié)點，在后驗概率估計中引入方言似然度得分以評估方言程度的新方法。實驗表明，這兩種方法估計出的后驗概率與人工分相關(guān)度分別絕對提升了3.5%和1.0%，兩種方法融合后相關(guān)度絕對提升4.9%；對于一個真實的評測任務(wù)，結(jié)合該文改進(jìn)的后驗概率評分特征，總體評分相關(guān)度絕對提升2.2%。

自由表述口語；語音評測；后驗概率；深度神經(jīng)網(wǎng)絡(luò)；RNN語言模型

1 引言

傳統(tǒng)的口語評測情境主要是朗讀給定的參考文本，在此背景下，參考文本相對于發(fā)音矢量的后驗概率是公認(rèn)的最能反映發(fā)音質(zhì)量好壞的測度[1-3]。在前端搭建好識別器后，以參考文本對應(yīng)的HMM序列為標(biāo)注對測試語音進(jìn)行強(qiáng)制對齊(Force Alignment),再通過簡化的GOP(Goodness of Pronunciation)算法[4]估計給定HMM序列相對于競爭序列的幀規(guī)整對數(shù)后驗概率。大量實驗表明，該后驗概率與人工打分具有很高的相關(guān)度[5]。

然而，在自由表述的情境下，測試者往往是圍繞某一給定主題進(jìn)行一段限制時長的表述，這時是沒有參考文本的。一種直觀的做法是以識別器識別的最優(yōu)結(jié)果為參考文本，估計識別結(jié)果相對于發(fā)音矢量的后驗概率以進(jìn)行發(fā)音好壞的評估；這種情境下的后驗概率也是有一定效果的[6]，但它對于識別結(jié)果的依賴性非常高，因為錯誤識別結(jié)果的后驗概率是很難反映發(fā)音好壞性質(zhì)的，尤其是發(fā)音較好，但卻由于引入了語言模型而導(dǎo)致識別錯誤的情況。因此，提高識別系統(tǒng)的識別率，尤其是糾正因為語言模型導(dǎo)致的識別錯誤，對自由表述情境下后驗概率的估計就顯得非常重要。

目前，大多數(shù)針對大詞匯量連續(xù)語流識別任務(wù)(Large Vocabulary Continuous Speech Recognition, LVCSR)設(shè)計的識別器使用的語言模型都是基于統(tǒng)計的n-gram模型[7]，其中n一般為3～4，而且需要采用一些Backoff的平滑操作[8]來緩解語言模型詞條在訓(xùn)練集中的稀疏問題。但這樣的語言模型看到的歷史過于短暫，一個詞的語言模型得分僅由其前面2～3個詞決定，再遠(yuǎn)的歷史對該詞的得分是沒有影響的，這顯然會大大降低語言模型得分的可靠性。

最近，Mikolov提出了一種新的基于循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)的語言模型[9]，與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)(forward neural network)不同的是，這種網(wǎng)絡(luò)結(jié)構(gòu)將當(dāng)前時刻隱含層的輸出反饋至下一時刻，和下一時刻描述單詞信息的輸入一起拼成新的輸入再進(jìn)行網(wǎng)絡(luò)前向傳播。這里認(rèn)為每一時刻隱含層的輸出都一定程度上保留了該句話的歷史信息，從而在語言模型訓(xùn)練過程中引入了更長的句子歷史信息。但由于解碼效率問題，該語言模型不適合直接應(yīng)用在解碼器的一遍解碼中。我們嘗試?yán)肦NN語言模型對使用n-gram語言模型一遍解碼出的N-best候選結(jié)果[10]進(jìn)行得分的重估計(rescoring)，以rescoring后的第一得分句子作為新的識別結(jié)果。文獻(xiàn)[9]主要關(guān)注混淆度(perplexity)和識別率兩個指標(biāo)，本論文的關(guān)注點則是在識別率提升的基礎(chǔ)上，希望能更準(zhǔn)確的估計后驗概率以衡量發(fā)音的好壞。實驗表明，rescoring后句子識別率相對于一遍解碼的1-best有了顯著提高，依此估計出的新的后驗概率也更適合作為發(fā)音質(zhì)量好壞的度量。

對于第一語言學(xué)習(xí)者(L1 learner)的口語評測任務(wù)——如中國人說普通話，真正出現(xiàn)類似英文表述時發(fā)音錯誤的情形并不多，更多的是方言口音導(dǎo)致的發(fā)音質(zhì)量下降；尤其在自由表述情境下，即興表述導(dǎo)致難以提前準(zhǔn)備，加上考試氛圍使測試者感到緊張，日常表述中的方言口音現(xiàn)象可能會更加顯著。而傳統(tǒng)的后驗概率策略，其聲學(xué)模型一般是使用發(fā)音較好的語料訓(xùn)練，即所謂Golden模型[1]，這樣的模型是不能精確反映發(fā)音的方言程度的。為此，我們專門收集了一批真實的方言數(shù)據(jù)，借鑒多語種(multi-lingual)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural NetWork, DNN)訓(xùn)練的思想[11]，提出將方言數(shù)據(jù)經(jīng)過HTK[10]標(biāo)準(zhǔn)聲學(xué)模型訓(xùn)練流程聚類后的Tri-phone狀態(tài)加在解碼所需的DNN[12]的輸出層，并且用方言數(shù)據(jù)僅更新方言狀態(tài)節(jié)點和最后一個隱含層的權(quán)重以確保主網(wǎng)絡(luò)的解碼性能不受影響；通過引入方言數(shù)據(jù)似然度得分來衡量發(fā)音的方言程度。具體的，當(dāng)估計后驗概率時，如果發(fā)現(xiàn)某個音素對應(yīng)的方言節(jié)點似然度得分大于主網(wǎng)絡(luò)輸出節(jié)點似然度得分，則認(rèn)為該音素方言程度可能較嚴(yán)重，則將該方言似然度得分加入后驗概率估計公式的分母以評估方言口音程度。

2 DNN框架下后驗概率估計方法

在自由表述情境下，我們以識別器一遍解碼的結(jié)果作為參考文本。對于一遍解碼出的音素t,假設(shè)其對應(yīng)的聲學(xué)觀測矢量為O=[o1,o2,…,oN]，則t對應(yīng)的幀規(guī)整對數(shù)后驗概率pp(t|O)估計公式為式(1)。

這里假設(shè)所有音素出現(xiàn)的先驗概率p(q)相等[1]。一般后驗概率分母空間Qt可以選擇所有發(fā)音音素空間，但研究表明如果以音素t易誤發(fā)音成的音素來構(gòu)成集合Qt，放在分母進(jìn)行計算，則會更加有針對性[13]。

假設(shè)對于音素t，Viterbi解碼出的最優(yōu)路徑為Θ={s1,s2,…,sN}，則lnp(O|t)可近似累和為式(2)。

(2)

這里忽略了HMM的轉(zhuǎn)移概率aij,認(rèn)為只要aij>0便可完成從狀態(tài)i到狀態(tài)j的跳轉(zhuǎn)，但aij本身不參與似然得分的計算。傳統(tǒng)聲學(xué)模型框架下，p(oj|sj)是由高斯混合模型(Gaussian Mixture Model, GMM)來描述的；但對于DNN聲學(xué)模型，我們有[14]式(3)。

(3)

其中p(sj)是各HMM狀態(tài)出現(xiàn)的先驗概率，可從訓(xùn)練集合中統(tǒng)計得到；p(oj)對于解碼而言是常數(shù)，解碼中可以忽略。p(sj|oj)即為狀態(tài)sj對應(yīng)的神經(jīng)網(wǎng)絡(luò)輸出softmax操作后的得分。從而p(O|t)可由網(wǎng)絡(luò)輸出和狀態(tài)先驗表示為式(4)。

(4)

此即為DNN聲學(xué)模型框架下似然度得分的計算公式。

式(1)的分母，則是在分子解碼確定的時間邊界內(nèi)[15]，對每一個q∈Qt，根據(jù)q對應(yīng)的HMM結(jié)構(gòu)Tri-phone狀態(tài)節(jié)點，重復(fù)以上Viterbi解碼過程以獲得q對應(yīng)的最優(yōu)狀態(tài)路徑Θq，再根據(jù)式(4)把Θq對應(yīng)的神經(jīng)網(wǎng)絡(luò)輸出累加以計算所需的p(O|q)。引入DNN聲學(xué)模型，在訓(xùn)練時間上會有更大需求，一般采用GPU加速神經(jīng)網(wǎng)絡(luò)訓(xùn)練，目前實驗中對730h語料迭代十次，大約需要三天時間。

當(dāng)估計出解碼得到的每個音素的后驗概率后，對一句話內(nèi)所有音素的后驗概率取平均，再對一段語音的所有句子取平均，即可得到該段語音最終的后驗概率估計值。

3 RNN語言模型對一遍解碼結(jié)果的Rescoring

Mikolov提出基于RNN的語言模型[7]，其網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。

圖1 RNN語言模型結(jié)構(gòu)圖

其中w(t)是當(dāng)前輸入單詞的N維向量表示，N是詞典大小，w(t)向量中只有表示該詞的那一維是1，其余均為0；s(t)是t時刻隱含層的輸出，上一時刻隱含層的輸出s(t-1)在t時刻也會作為輸入，從而體現(xiàn)網(wǎng)絡(luò)的循環(huán)(recurrent)性。輸出y(t)也是N維的向量，其每一維表示詞典中的該詞在下一時刻出現(xiàn)的概率。具體的公式如下：

(5)

(6)

(7)

注意這里的輸出y(t)是做了softmax函數(shù)的，從而保證了所有預(yù)測詞出現(xiàn)的概率都在區(qū)間(0,1)內(nèi)，不會取到0，從而無n-gram模型中復(fù)雜的backoff平滑操作。c(t)是為了訓(xùn)練加速而引入的單詞聚類[16]，設(shè)c(t)維度為M，則預(yù)先在訓(xùn)練集中根據(jù)單詞的詞頻將單詞分到M個不同的類，使得每一類中單詞的詞頻之和大致相等；訓(xùn)練時只需要更新c(t)和y(t)中與輸入詞屬于同一類的單詞對應(yīng)的權(quán)重即可。網(wǎng)絡(luò)訓(xùn)練過程采用經(jīng)典的BPTT(back propagation through time)算法[9]，并且采用在線(on-line)更新方式，即每mini-batch個詞更新一次而不必一句話所有詞的梯度一起更新。

由于解碼效率問題，目前是先用n-gram語言模型一遍解碼獲得每句話的N-best候選集合，再用RNN語言模型對N-best候選做得分rescoring。研究發(fā)現(xiàn)RNN語言模型在與n-gram語言模型插值后可以獲得更好的性能[17]，因此這里rescoring后新的語言模型得分也是二者插值所得，每個候選句子新的得分score計算公式如式(8)所示。

(8)

這里AcScore是句子的聲學(xué)模型得分，在語言模型Rescoring過程中該部分保持不變；W是整個句子的詞個數(shù)，C是詞懲罰；lmngram和lmRNN分別是n-gram和RNN的語言模型得分，λ是插值系數(shù)，lmScale是解碼中需要的語言模型得分伸縮因子。這樣選取rescoring后得分最大的1-best候選作為新的參考文本，重新估計后驗概率；由于語言模型導(dǎo)致的識別錯誤會有所降低，因此rescoring后估計出的后驗概率會更合適。

4. 基于多語種-神經(jīng)網(wǎng)絡(luò)模型估計方言得分

多語種深度神經(jīng)網(wǎng)絡(luò)(multi-lingual DNN)模型已經(jīng)被證實在資源受限的小語種情形下是非常有效的[11]。該模型的主要思想是把神經(jīng)網(wǎng)絡(luò)的隱含層當(dāng)作一個通用的特征提取器，而最后一個隱含層和輸出層間的權(quán)重主要起到分類的作用；另外，認(rèn)為不同語言之間其特征提取具有較強(qiáng)的共享性，因此我們可以先用大語料的某種語言訓(xùn)練一個較好的DNN，然后對于資源受限的小語種，可以利用大語料訓(xùn)練的DNN隱含層進(jìn)行特征提取，僅用小語種的數(shù)據(jù)更新最外層作為分類器的權(quán)重，這種方式性能明顯優(yōu)于用小語種語料從網(wǎng)絡(luò)的隨機(jī)初始狀態(tài)開始更新整個網(wǎng)絡(luò)權(quán)重。

我們這里沿用這種思想，使用發(fā)音較好的數(shù)據(jù)訓(xùn)練解碼用的DNN，然后使用額外收集到的方言數(shù)據(jù)作為小語種，其聚類后的狀態(tài)作為網(wǎng)絡(luò)的添加節(jié)點，其結(jié)構(gòu)如圖2所示。

圖2 方言得分提取模型結(jié)構(gòu)

這里我們使用方言數(shù)據(jù)僅更新圖2中最外層右邊方言狀態(tài)節(jié)點與最后一個隱含層的權(quán)重(圖2中右邊部分權(quán)重)，其余權(quán)重保持不變，這樣既可以保證主網(wǎng)絡(luò)的解碼性能不受任何影響，又能保證方言狀態(tài)節(jié)點具有良好的狀態(tài)分類特性。注意這里softmax操作針對解碼節(jié)點和方言狀態(tài)節(jié)點是分開來算的。

另一種multi-lingual DNN使用方法是把大語料訓(xùn)練好的整個網(wǎng)絡(luò)作為一個更好的初始網(wǎng)絡(luò)，然后用小語料的數(shù)據(jù)在此基礎(chǔ)上更新全部網(wǎng)絡(luò)參數(shù)[18]；本文為了確保主網(wǎng)絡(luò)正常解碼性能不受影響，故不采用這種方法。

假設(shè)對于觀測矢量O，先使用主網(wǎng)絡(luò)viterbi解碼出O對應(yīng)音素t的狀態(tài)序列為Θt={s1,s2,…,sN}，其似然得分依式(4)計算出為p(O|t)，同樣得到t的競爭音素得分為p(O|q),q∈Qt；在音素t確定的時間邊界內(nèi)，使用方言狀態(tài)節(jié)點輸出同樣做Viterbi解碼，得到方言狀態(tài)得分的最優(yōu)序列為Θd={d1,d2,…,dN}，從而估計方言數(shù)據(jù)的似然度得分如式(9)所示。

(9)

其中p(dj)同樣是方言狀態(tài)在訓(xùn)練集中出現(xiàn)的先驗概率，從而得到修正后的后驗概率pp(t|O)得分估計如式(10)所示。

(10)

5. 實驗與分析

5.1 語料庫簡介

主要介紹實驗部分用到的三個數(shù)據(jù)集：聲學(xué)及語言模型訓(xùn)練集合、方言數(shù)據(jù)集合及發(fā)音評測集合。

1) 聲學(xué)及語言模型訓(xùn)練集合

這里主要使用的是收集到的一批國內(nèi)普通話水平測試[19]第四題考試的實錄語音數(shù)據(jù)，該題型要求考生在規(guī)定的三分鐘內(nèi)，依據(jù)給定的主題進(jìn)行一段自由表述，專家主要從表述的語音標(biāo)準(zhǔn)程度和方言口音程度等方面進(jìn)行評分，與本論文的研究背景很匹配。我們從中抽取了總得分在80分以上(滿分100分)的考生對應(yīng)的第四題的約730小時數(shù)據(jù)作為聲學(xué)模型訓(xùn)練集合，這部分?jǐn)?shù)據(jù)的發(fā)音水平良好。另外對于總得分在60～100之間的考生，又隨機(jī)抽取了15小時第四題的數(shù)據(jù)作為識別率驗證的測試集；該測試集與聲學(xué)模型訓(xùn)練集合沒有重合的數(shù)據(jù)。所有數(shù)據(jù)都是16kHz采樣，16bit量化、沒有降噪處理的真實考場數(shù)據(jù)。

對于語言模型，我們使用大量第四題人工轉(zhuǎn)寫的文本作為語料，約464千條句子，分詞后共有詞語(Token)3.53MB。下文n-gram和RNN語言模型都是使用這批語料訓(xùn)練的。

2) 方言數(shù)據(jù)集合

我們收集到一批包含合肥、南昌、南京、山東、山西、武漢等地共約250小時的方言數(shù)據(jù)，將其全部用來訓(xùn)練解碼DNN中輸出方言狀態(tài)節(jié)點與最后一個隱含層連接的權(quán)重。

3) 發(fā)音評測集合

我們收集到4 100份有精確人工分標(biāo)注的第四題真實語音數(shù)據(jù)，每份語音數(shù)據(jù)都有兩位專家獨立評分，分差在3分以內(nèi)，相關(guān)度約為0.8(認(rèn)為這樣的評分比較可靠)。取兩位專家的平均分作為實驗中最終使用的人工參考分。這里相關(guān)度的計算如式(11)所示。

(11)

5.2 后驗概率基線性能

由于漢語是帶調(diào)語言，因此聲學(xué)模型訓(xùn)練部分采用的是39維Mel頻率倒譜系數(shù)(Mel Frequency Cepstral Coefficients，MFCC)特征加上四維基頻特征[20]，幀長25ms，幀移10ms。HMM是tri-phone模型，聚類后狀態(tài)綁定到4 000，這也對應(yīng)解碼DNN的網(wǎng)絡(luò)輸出節(jié)點個數(shù)。

DNN采用的輸入是當(dāng)前幀的特征與前后擴(kuò)展5幀拼接，即43×11=473維輸入向量，共五個隱含層，每層2 048個節(jié)點，激活函數(shù)采用sigmoid函數(shù)；輸出層采用softmax變換，使得輸出可以表示為概率的形式且和為1。訓(xùn)練時使用隨機(jī)梯度下降(stochastic gradient descend, SGD)的方式，并采用mini-batch更新策略，即每次輸入1 024個樣本，取它們的梯度平均更新；所有數(shù)據(jù)迭代十次，前三次固定學(xué)習(xí)率0.2，后七次每次折半。

一遍解碼語言模型采用srilm工具[21]訓(xùn)練3-gram模型。在此基線配置下，15小時測試集上字識別率(accuracy, ACC)為84.71%；在發(fā)音評測集合上，依式(1)估計出每位考生的后驗概率特征，該特征與人工分的相關(guān)度為0.535，以此作為后續(xù)實驗的對比性能。

5.3 RNN語言模型Rescoring性能

RNN語言模型訓(xùn)練采用mikolov提供的開源代碼[22]，訓(xùn)練語料同n-gram模型。RNN網(wǎng)絡(luò)中沒有依詞頻對詞典裁剪，因此輸入w(t)即為詞典大?。浑[含層節(jié)點數(shù)500，輸出c(t)類別數(shù)100。采用BPTT方法訓(xùn)練，每次遞歸展開數(shù)為4，并且每四個詞更新一次；所有數(shù)據(jù)迭代十次，前七次固定學(xué)習(xí)率0.1，后三次每次都折半。

在rescoring時，一遍解碼保留的候選N-best數(shù)為50，利用RNN與n-gram插值后的語言模型得分對每個候選best得分重估計，插值系數(shù)λ為0.5，聲學(xué)得分保持不變。使用RNN模型做rescoring帶來運算量的增加主要是額外訓(xùn)練了一個RNN語言模型網(wǎng)絡(luò)，以及一遍解碼保留N-best候選造成解碼時間的增加。

表1給出在15小時測試集上rescoring之后字識別性能的改進(jìn)。

表1 RNN Rescoring字識別性能

可見，rescoring 后，字識別率絕對提升了5%以上，識別性能提升較為顯著；注意到這里我們沒有使用任何額外的資源，只是使用相同的n-gram語言模型訓(xùn)練語料重訓(xùn)了一個RNN網(wǎng)絡(luò)就獲得了這樣的提升。這里的增益主要來自于語言模型更好的算分，因此糾正的識別錯誤可能大多數(shù)都是語言模型歷史不夠長導(dǎo)致的。

接下來使用RNN語言模型對評測集合的4 100份數(shù)據(jù)每句話的N-best候選做rescoring，使用rescoring后的最大得分句子重新估計后驗概率，其與人工分相關(guān)度如表2所示。

可見，RNN rescoring后，后驗概率與人工分的相關(guān)度絕對提升3%以上。雖然這樣的提升已經(jīng)比較顯著，但和識別性能的提升——錯誤率下降了約34%來說，相關(guān)度提升還是略顯不足。這里分析可能有以下兩個原因。

表2 RNN rescoring后驗概率與人工分相關(guān)度

1) 特殊背景導(dǎo)致識別率提升較大

由于RNN語言模型看到的歷史更長，會使整體更有邏輯性的句子獲得更高的語言模型得分；而本文背景是中國人說普通話，因此即使存在發(fā)音不準(zhǔn)確的現(xiàn)象，但表述有邏輯錯誤的可能性還是較??；這導(dǎo)致N-best中被RNN rescoring后找出的得分最大候選，其邏輯性也可能最強(qiáng)，從而該候選確實是正確識別結(jié)果的可能性也較大，從而識別率會有較大提升。

2) 識別率的提升和最終后驗概率反映發(fā)音好壞并不完全等價

比如考生想說“是”，但其卻發(fā)音為“si4”，如果這時候識別為“似”則會被判識別正確(假定識別為“似”也完全符合上下文邏輯)，據(jù)此計算出的后驗概率也會較高，然而這卻掩蓋了考生發(fā)音錯誤的事實！只有將其識別為考生“打算”的發(fā)音“shi4”(這里“打算的發(fā)音”類似于給定文本語音評測情境下的參考文本)，據(jù)此“是”計算其后驗概率得到一個較低的值，才能正確反映考生“發(fā)音確實有誤”這個事實。因此，如何有效找出考生“打算”發(fā)音的內(nèi)容而非其真正發(fā)音的內(nèi)容，是后續(xù)非常重要的研究計劃。

5.4 引入方言得分性能

方言數(shù)據(jù)的前端處理同基線系統(tǒng)里的聲學(xué)模型訓(xùn)練特征提取配置。最后也聚類到4 000個狀態(tài)，加在解碼DNN輸出層。使用方言數(shù)據(jù)更新解碼DNN方言節(jié)點與最外隱含層的權(quán)重，SGD的配置與之前DNN也保持一致。這里網(wǎng)絡(luò)中方言節(jié)點權(quán)重的更新會增加一些額外的訓(xùn)練時間；解碼時網(wǎng)絡(luò)最外層的矩陣相乘規(guī)模也會擴(kuò)大一倍。依據(jù)式(10)調(diào)整后驗概率的估計方法，性能統(tǒng)計如表3所示。

可以看到，無論是對基線系統(tǒng)直接引入方言得分，還是對rescoring后的系統(tǒng)再引入方言得分(即兩種方法融合)，相關(guān)度都會有進(jìn)一步絕對1%的提升；特別的，注意到兩種方法融合后，相關(guān)度相比于最初的基線有絕對4.9%的提升。

表3 引入方言得分估計的后驗概率與人工分的相關(guān)度

5.5 總體評分預(yù)測性能

為了在普通話水平測試第四題上完成真實的最終預(yù)測評分，我們還需要一些針對該具體問題的輔助評分特征。

1) 靜音段時長比例

由于自由表述是一種即興表述，本身難度較大，再加上考場環(huán)境，很多考生都會在表述中出現(xiàn)一定的停頓，如果停頓時間過長，專家也會相應(yīng)扣分，因此把識別結(jié)果中的靜音段時長占總?cè)昼姷谋壤鳛橐痪S特征。

2) 流暢度

考生表述的流暢程度也是專家評分的關(guān)注點，因此我們用每句話包含的總幀數(shù)除以該句話內(nèi)的有效音素個數(shù)(去除sil和sp)，得到每個音素的平均發(fā)音幀數(shù)，再按句子取平均；因為音素的平均發(fā)音幀數(shù)越多，表述可能越不流暢。

3) 發(fā)音錯誤個數(shù)

在自由表述這種連續(xù)語流背景下，發(fā)音檢錯是一個比較難的任務(wù)[15]。這里只是利用一些先驗的統(tǒng)計信息，對每個音素按式(1)估計出的后驗概率設(shè)一個門限，如果后驗概率值低于該門限則認(rèn)為發(fā)音錯誤，統(tǒng)計所有發(fā)音錯誤音素個數(shù)N作為一維特征。

輔助特征與人工分相關(guān)度在評測集合上統(tǒng)計如表4所示。

表4 輔助特征與人工分相關(guān)度

我們在評測集合的4 100份數(shù)據(jù)集上進(jìn)行交叉驗證來評估總體的評分預(yù)測性能。即將數(shù)據(jù)平均分為十堆，每堆410份數(shù)據(jù)；每次取其中九堆提取后驗概率及上述三個輔助評分特征，并利用這些特征與人工分做線性回歸，利用最小二乘法得到回歸系數(shù)，在余下的一堆數(shù)據(jù)里利用回歸系數(shù)和評分特征預(yù)測機(jī)器分，計算機(jī)器分與人工分的相關(guān)度；十次交叉驗證的相關(guān)度取平均，作為最終的機(jī)器與人工總體評分相關(guān)度性能評估指標(biāo)，如表5所示。

表5 10折交叉驗證評分性能

上述四組對比中，三個輔助評分特征保持不變，僅有后驗概率特征的估計方式不同：基線采用的是4.2節(jié)中的估計方式；rescoring和方言得分分別采用4.3和4.4節(jié)中的估計方式。可以看到，對于使用rescoring和加入方言得分這兩種方式估計的后驗概率，最終交叉驗證的評分平均相關(guān)度相比于基線都有絕對1%的提升；特別的，若將二者融合，則有絕對2.2%的提升；這表明本文提出的關(guān)于后驗概率估計的改進(jìn)方法，對評分這樣一個具體任務(wù)最終性能的提升有一定的改善。

6 總結(jié)與展望

本文首先介紹了深度神經(jīng)網(wǎng)絡(luò)聲學(xué)模型框架下自由表述口語語音評測的幀規(guī)整對數(shù)后驗概率特征的一般估計方法，然后提出了兩種改進(jìn)的估計方法。(1)使用RNN語言模型對一遍解碼結(jié)果的N-best候選做rescoring后再重新估計后驗概率； (2)借用multi-lingual神經(jīng)網(wǎng)絡(luò)模型框架，提出在后驗概率估計中，有選擇的引入方言狀態(tài)節(jié)點的似然度得分。實驗表明，使用這兩種方法估計的后驗概率，相比于基線系統(tǒng)，在單一后驗概率特征相關(guān)度和總體評分相關(guān)度上都有一定的性能提升。改進(jìn)方法估計的后驗概率與人工分相關(guān)度達(dá)到0.584，絕對提升4.9%，總體評分相關(guān)度達(dá)到0.757，絕對提升2.2%。

后續(xù)工作為一是收集更多方言數(shù)據(jù)以達(dá)到更好的覆蓋率，因為對于真實情境而言，表述者來自全國各地，各種方言都有；二是對于RNN語言模型訓(xùn)練，將其利用GPU實現(xiàn)并行化，加速矩陣運算操作；三是可以嘗試直接用RNN對聲學(xué)模型建模，相關(guān)研究表明RNN聲學(xué)模型在識別率上相對于DNN又會有進(jìn)一步的提升[23]，而識別率的提升則是整個自由表述口語語音評測任務(wù)的基礎(chǔ)；最后是希望能結(jié)合自然語言處理相關(guān)的技術(shù)，有效的找出考生表述中“打算”說的內(nèi)容，以使估計出的后驗概率特征與發(fā)音好壞任務(wù)更好的匹配。

[1] Witt S M. Use of speech recognition in computer-assisted language learning[D]. University of Cambridge, 1999.

[2] 嚴(yán)可, 戴禮榮. 基于音素評分模型的發(fā)音標(biāo)準(zhǔn)度評測研究[J]. 中文信息學(xué)報, 2011, 25(5): 101-108.

[3] 嚴(yán)可, 魏思, 戴禮榮. 針對發(fā)音質(zhì)量評測的聲學(xué)模型優(yōu)化算法[J]. 中文信息學(xué)報, 2013 (1): 98-107.

[4] Witt S M, Young S J. Phone-level pronunciationscoring and assessment for interactive language learning[J]. Speech communication, 2000, 30(2): 95-108.

[5] 魏思, 劉慶升, 胡郁, 等. 普通話水平測試電子化系統(tǒng)[J]. 中文信息學(xué)報, 2006, 20(6): 89-96.

[6] 嚴(yán)可, 胡國平, 魏思, 等. 面向大規(guī)模英語口語機(jī)考的復(fù)述題自動評分技術(shù)[J]. 清華大學(xué)學(xué)報 (自然科學(xué)版), 2009, 1: 1356-1362.

[7] Manning C D. Foundations of statistical natural language processing[M]. MIT press, 1999:194-234.

[8] Goodman J T. A bit of progress in language modeling[J]. Computer Speech & Language, 2001, 15(4): 403-434.

[9] Mikolov T. Statistical language models based on neural networks[D]. Brno University of Technology, 2012.

[10] Young S,Evermann G, Gales M, et al. The HTK book (for HTK version 3.4)[J]. Cambridge University Engineering Department,2006,2(2): 2-3.

[11] Huang J T, Li J, Yu D, et al. Cross-language knowledge transfer using multilingual deep neural network with shared hidden layers[C]//Proceedings of the 2013 IEEE International Conference on. IEEE, 2013: 7304-7308.

[12] Dahl G E, Yu D, Deng L, et al.Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition[J]. Audio, Speech, and Language Processing, IEEE Transactions on, 2012, 20(1): 30-42.

[13] 劉慶升, 魏思, 胡郁, 等. 基于語言學(xué)知識的發(fā)音質(zhì)量評價算法改進(jìn)[J]. 中文信息學(xué)報, 2007, 21(4): 92-96.

[14] Bourlard H A, Morgan N. Connectionist speech recognition: a hybrid approach[M]. Springer Science & Business Media, 1994.

[15] 魏思. 基于統(tǒng)計模式識別的發(fā)音錯誤檢測研究[D].中國科學(xué)技術(shù)大學(xué)博士學(xué)位論文, 2008.

[16] Mikolov T, Kombrink S, Burget L, et al. Extensions of recurrent neural network language model[C]//Proceedings of Acoustics, Speech and Signal Processing (ICASSP), 2011 IEEE International Conference on. IEEE, 2011: 5528-5531.

[17] Mikolov T, Deoras A, Kombrink S, et al. Empirical Evaluation and Combination of Advanced Language Modeling Techniques [C]//Proceedings of the Interspeech. 2011 (s 1): 605-608.

[18] Thomas S, Seltzer M L, Church K, et al. Deep neural network features and semi-supervised training for low resource speech recognition[C]//Proceedings of Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 6704-6708.

[19] 國家語言文字工作委員會普通話培訓(xùn)測試中心.普通話水平測試實施綱要[M].北京：商務(wù)印書館,2004.

[20] Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound[C]//Proceedings of the institute of phonetic sciences. 1993, 17(1193): 97-110.

[21] Stolcke A. SRILM-an extensible language modeling toolkit[C]//Proceedings of the Interspeech. 2002; 901-904.

[22] Mikolov T, Kombrink S, Deoras A, et al. RNNLM-Recurrent neural network language modeling toolkit[C]//Proceedings of the 2011 ASRU Workshop. 2011: 196-201.

[23] Graves A, Mohamed A R, Hinton G. Speech recognition with deep recurrent neural networks[C]//Proceedings of the Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on. IEEE, 2013: 6645-6649.

Improved Posterior Probability Estimation Methods forthe Freely-Spoken Speech Evaluation

XU Sukui1， DAI Lirong1， WEI Si2， LIU Qingfeng1,2， GAO Qianyong2

(1. National Engineering Laboratory of Speech and Language Information Processing,University of Science and Technology of China, Hefei,Anhui 230027, China；2. Anhui USTC iFlytek Co., Ltd., Hefei,Anhui 230088, China)

Two methods under the deep neural network acoustic modeling framework are proposed to improve the estimation of posterior probability for evaluation of pronunciation of freely-spoken speech: 1) the posterior probability is re-estimated with more accurate recognition results by employing RNN language model to re-score the N-best candidates produced from the first decoding process; 2) the influence of dialect to posterior probability is taken into account by involving likelihood scores produced by dialect clustered nodes added to deep neural network acoustic model which is re-trained as a multi-lingual style. Experimental results show that these methods increase the correlation (between posterior probabilities and human scores) for 3.5% and 1.0% respectively, and the combination of these two methods achieves 4.9% increase. In a real evaluation task, a 2.2% absolute improvement is observed in correlation between machine scores and human scores.

freely spoken speech; pronunciation quality evaluation; posterior probability; deep neural network; RNN language model

許蘇魁(1991—)，碩士研究生，主要研究領(lǐng)域為計算機(jī)輔助語言學(xué)習(xí)。E?mail：xskui@mail．ustc．edu．cn戴禮榮(1962—)，教授，博士生導(dǎo)師，主要研究領(lǐng)域為語音識別、語音合成、基于內(nèi)容的音視頻檢索等。E?mail：lrdai@ustc．edu．cn魏思(1981—)，博士，高級工程師，主要研究領(lǐng)域為中英文語音評測，語種識別，語音識別，離線手寫識別，自然語言處理等。E?mail：siwei@iflytek．com

2015-06-23 定稿日期： 2015-11-06

國家自然科學(xué)基金(61273264)

1003-0077(2017)02-0212-08

TP391

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

自由表述口語語音評測后驗概率估計改進(jìn)方法

1 引言

2 DNN框架下后驗概率估計方法

3 RNN語言模型對一遍解碼結(jié)果的Rescoring

4. 基于多語種-神經(jīng)網(wǎng)絡(luò)模型估計方言得分

5. 實驗與分析

6 總結(jié)與展望