王朝松 韓紀慶 鄭鐵然
摘 要:關(guān)鍵詞檢測是從連續(xù)語音流中檢測預先定義的給定詞的技術(shù),是語音識別領(lǐng)域的一個重要應用。目前的關(guān)鍵詞檢測研究中,主流的方法是基于連續(xù)語音識別器的先識別后檢測的兩階段方法,語音識別器的準確率對關(guān)鍵詞檢測有很大影響。本文首先在識別階段引入深度學習技術(shù)來改善關(guān)鍵詞檢測算法的性能。進而針對識別階段和檢測階段缺乏緊密聯(lián)系,耦合度不夠的問題,研究了側(cè)重關(guān)鍵詞的深度神經(jīng)網(wǎng)絡聲學建模技術(shù),利用非均勻的最小分類錯誤準則來調(diào)整深度神經(jīng)網(wǎng)絡聲學建模中的參數(shù),并利用AdaBoost算法來動態(tài)調(diào)整聲學建模中的關(guān)鍵詞權(quán)重。結(jié)果表明,利用非均勻最小分類錯誤準則來調(diào)整深度神經(jīng)網(wǎng)絡參數(shù)進行優(yōu)化的聲學模型,可以提高關(guān)鍵詞檢測的性能。
關(guān)鍵詞:深度學習;關(guān)鍵詞檢測;AdaBoost;最小分類錯誤
中圖分類號:TP391.4 文獻標識碼: A 文章編號:2095-2163(2015)04-
Non-uniform MCE based Acoustic Model for Keyword Spotting based on Deep Neural Network
WANG Zhaosong, HAN Jiqing, ZHENG Tieran
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin 150001,China)
Abstract: Spoken term detection (STD) is a task to automatically detect a set of keywords in continuous speech, which is an important field of speech recognition. Current study is based on two-stage approach i.e. recognition and detection. The accuracy of speech recognition has a significant impact on keyword detection. Firstly, this paper uses deep leaning techniques to improve performance during the first stage. As the two stages lack of close contact, the paper studies using non-uniform misclassification error (MCE) criteria to adjust the parameters in deep neural network based acoustic modeling. Further the paper uses the adaptive boosting (AdaBoost) strategy to adjust keywords weight dynamically. It shows that non-uniform MCE can improve the performance of STD.
Keyword: Deep Learning; Spoken Term Detection; AdaBoost; Minimum Classification Error
0 引 言
自2006年以來,深度學習已經(jīng)成為機器學習的一個重點研究領(lǐng)域,而且現(xiàn)已在許多方面取得了卓越進展。而在語音識別領(lǐng)域,基于深度學習的方法也隨即應用而生,特別是在聲學建模上,深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)已經(jīng)能夠替代高斯混合模型(Gaussian Mixture Model, GMM),并和隱馬爾科夫模型(Hidden Markov Model, HMM)結(jié)合而推出了DNN-HMM混合模型,在實際應用中取得了很高的識別率[1]。當前的關(guān)鍵詞檢測(Spoken term detection, STD)系統(tǒng)通常是利用大詞匯量連續(xù)語音識別器(large vocabulary continuous speech recognition, LVCSR)來對搜索語音解碼產(chǎn)生關(guān)鍵詞假設,再通過將輸入語音轉(zhuǎn)換為文本形式;基于此,關(guān)鍵詞檢測系統(tǒng)就可以利用文本搜索的一些技術(shù),但其與文本搜索不同的則是關(guān)鍵詞檢測多會利用lattice來表示語音識別結(jié)果[2-3]。在語音識別中,常常都是采用不同的區(qū)分性訓練準則來減小語音識別的詞錯誤率(Word Error Rate, WER),著名的區(qū)分性訓練準則主要有MCE(Minimum Classification Error)[4]、MMI(Maximum Mutual Information)[5]、MPE(Minimum Phone Error)[6]和MWE(Minimum Word Error)[6]。
在關(guān)鍵詞檢測任務中,關(guān)注的重點只是預定義的關(guān)鍵詞是否被檢測到。至于與目標關(guān)鍵詞無關(guān)的詞,針對其所獲的檢測結(jié)果卻并不重要。Fu等人提出利用非均勻MCE準則,并開展了運用至語音識別中的嘗試[7-8]。Weng等人針對傳統(tǒng)GMM-HMM模型利用非均勻MCE準則來推進關(guān)鍵詞檢測的研究,也就是通過在聲學建模階段利用非均勻MCE準則來進行區(qū)分性訓練,提高了關(guān)鍵詞檢測系統(tǒng)的性能[9]。研究表明,區(qū)分性訓練可以改善DNN系統(tǒng)的性能[10]。Chen等人在非均勻準則的基礎上,利用基于keyword-boosted sMBR(state-level minimum Bayes risk)準則來訓練關(guān)鍵詞檢測中的DNN-HMM模型,同時再通過在聲學模型訓練階段對定義的關(guān)鍵詞進行加重來提高模型對關(guān)鍵詞的建模能力,結(jié)果即取得了ATWV(Actual Term Weighted Value)1.7%-6.1%的提升[11]。
在此,立基于對傳統(tǒng)GMM-HMM模型之上,相較于非均勻sMBR準則而言,非均勻MCE準則能夠利用AdaBoost來調(diào)整關(guān)鍵詞權(quán)重系數(shù),而非均勻sMBR準則的權(quán)重系數(shù)卻是固定的,因而非均勻MCE準則要比非均勻sMBR準則獲得更佳效果[12]。從這一結(jié)論出發(fā),本文即將文獻[9]中所提出的非均勻MCE準則引入到關(guān)鍵詞檢測的DNN聲學建模階段,在DNN的參數(shù)調(diào)整過程中,通過對關(guān)鍵詞進行一定程度的側(cè)重來提高DNN-HMM模型對關(guān)鍵詞的建模能力。
1 基于非均勻MCE準則的關(guān)鍵詞DNN聲學模型訓練
1.1 DNN-HMM聲學模型
DNN-HMM模型利用DNN替代GMM提供LVCSR中HMM狀態(tài)的后驗概率。特別的, 表示語句r時刻t的觀測變量,DNN對HMM狀態(tài)s的輸出 可以通過softmax激活函數(shù)來計算:
(1)
其中, 表示狀態(tài)s對應的輸出層的激活值,識別器通常利用偽對數(shù)似然來計算后驗概率:
(2)
式中, 表示從訓練數(shù)據(jù)中計算得到的狀態(tài)s的先驗概率。
網(wǎng)絡訓練可以通過利用反向傳播算法來優(yōu)化給定的目標函數(shù)而獲得實現(xiàn)。更經(jīng)常地,DNN-HMM聲學模型主要利用交叉熵(cross-entropy)作為目標函數(shù),優(yōu)化則主要利用隨機梯度下降方法來進行處理和操作展開。
1.2 基于MCE準則的區(qū)分性訓練
區(qū)分性訓練中,MCE訓練準則是常用的一種。該準則以最小化經(jīng)驗錯誤率為目標[4],在語音識別中,令Xr(r=1,…R)為訓練集中的R個句子,Wr為句子Xr所對應的標注,W是特定的假設空間,對某個假設W的判別函數(shù)可以定義為:
(3)
其中, 和 分別表示聲學模型和語言模型得分, 表示聲學模型因子,誤分類度量通常采用:
(4)
誤分類度量的符號反映了給定聲學模型參數(shù),句子 的分類正確或者錯誤程度。經(jīng)過對上式運用sigmoid函數(shù)進行平滑,目標損失函數(shù)可以表示為:
(5)
其中, 表示sigmoid函數(shù),目標函數(shù)表示針對訓練集的經(jīng)驗損失。
1.3 關(guān)鍵詞檢測的非均勻MCE準則
非均勻準則的區(qū)分性訓練是基于某些識別單元可能比其他單元攜帶更多重要信息的假設[9],其目標不是最小錯誤率而是最小錯誤損失,最小錯誤率不區(qū)分不同的錯誤。訓練過程中的關(guān)鍵詞識別錯誤比非關(guān)鍵詞識別錯誤代價更大。
在DNN系統(tǒng)中,對某一幀t,定義幀級判別函數(shù)為:
(6)
其中,i是狀態(tài)編號, 是給定Xr和假設標簽W的后驗概率,研究中只關(guān)注關(guān)鍵詞是否在標簽或假設中出現(xiàn),定義錯誤損失函數(shù) 為語句r在時刻t的損失,關(guān)鍵詞檢測的非均勻MCE準則的目標函數(shù)為:
(7)
為了對公式(7)進行優(yōu)化,同時與普通的MCE準則進行對比,并推導出非均勻MCE與普通MCE準則優(yōu)化的不同,進而采取有效的方法來優(yōu)化非均勻MCE準則的目標函數(shù),即對公式(7)進行求導:
(8)
其中, 分別表示標注和假設的幀后驗概率,將非均勻MCE準則的導數(shù)與原來的MCE準則進行對比,實際使用中,為了便于計算,通常令 并忽略 ,具體公式為:
(9)
可以看到,非均勻MCE與普通的MCE方法的一個區(qū)別是 ,普通MCE對單個句子是不變的。另一個區(qū)別是非均勻的錯誤損失函數(shù) ,錯誤損失函數(shù)是加在每一幀上的,為了便于計算非均勻MCE目標函數(shù)并有效優(yōu)化參數(shù),在此采用了普通MCE的固定值而不是變化值,目標函數(shù)近似為:
(10)
錯誤損失函數(shù)定義為:
(11)
其含義是,如果當前訓練實例的標注是關(guān)鍵詞,錯誤損失定義為K1;若對當前訓練實例,關(guān)鍵詞出現(xiàn)在假設中錯誤損失定義為K2;當關(guān)鍵詞既未出現(xiàn)在標注又未出現(xiàn)在假設空間時,錯誤損失定義為1。K1、K2應該都大于1,這樣在模型訓練階段才可以對關(guān)鍵詞進行側(cè)重。
公式(11)中的錯誤損失函數(shù)在不同的迭代中對同一幀賦予相同的錯誤損失,當使用較大的錯誤損失時可能會導致過訓練。與普通的MCE相比,非均勻的MCE相當于對每一幀根據(jù) 進行了重采樣,因此,可以考慮采用基于boosting的方法。AdaBoost方法在每次迭代時均會根據(jù)錯誤率調(diào)整錯誤損失[13],因此可以將AdaBoost方法運用到非均勻MCE準則中。訓練啟動時會使用較大的K1和K2來初始化錯誤損失函數(shù),這些值會根據(jù)識別器的性能進行調(diào)整[9]。具體算法總結(jié)如算法1所示。
2 實驗結(jié)果與分析
本文設計了一系列的實驗來研究前述的非均勻MCE準則的DNN聲學模型區(qū)分性訓練,主要研究不同的K1、K2值對關(guān)鍵詞檢測系統(tǒng)性能的影響。
本實驗所使用的語料庫來自于國家863朗讀語料庫,其中約100個小時的數(shù)據(jù)用來訓練DNN-HMM模型的識別器,約10個小時的數(shù)據(jù)用作關(guān)鍵詞檢測的搜索集。實驗的基線系統(tǒng)由開源的語音識別工具Kaldi建立[14],關(guān)鍵詞檢測系統(tǒng)的評測利用NIST OpenKWS15提供,關(guān)鍵詞檢測系統(tǒng)的評價主要通過ATWV來計算[15-16],其數(shù)學描述如下:
(12)
其中,K是關(guān)鍵詞數(shù)目,Nmiss(kw)是漏檢的關(guān)鍵詞數(shù),NFA(kw)是檢測到的虛警數(shù),T是測試集的時間長度(以秒計),β是為999.9的常數(shù)。
本文進行了非均勻MCE準則的訓練,迭代次數(shù)為4,不同的K1、K2和 下系統(tǒng)ATWV值如表1所示。分析可知,較大的K1和K2可以取得較高的性能,但衰減因子 會導致波動。
表1 基于非均勻MCE準則關(guān)鍵詞檢測實驗結(jié)果
Tab.1 Results of non-uniform criteria based STD
方案 K1 K2
ATWV
基線(MLE) - - - 0.615 3
AdaBoost非均勻MCE準則 5 5 0.3 0.726 5
5 5 0.5 0.723 7
5 5 0.7 0.721 3
7 7 0.3 0.727 6
7 7 0.5 0.726 8
7 7 0.7 0.727 3
3 結(jié)束語
本文在DNN聲學模型的參數(shù)訓練階段,通過利用非均勻的MCE準則對關(guān)鍵詞進行側(cè)重,由此提高了DNN-HMM模型對關(guān)鍵詞的建模能力。采用AdaBoost算法,可以解決過訓練的問題。研究結(jié)果表明,非均勻MCE方法相比基線系統(tǒng)可以提高關(guān)鍵詞檢測的性能。本文用不同的組合(K1,K2, β)來進行實驗,并測試不同配置下的性能。錯誤損失函數(shù)中K1、K2的取值越大,系統(tǒng)性能越好,而β取較大值時,系統(tǒng)會出現(xiàn)波動。此外,較小的β值則具有較好的效果。接下來的工作可以研究衰減系數(shù)β對關(guān)鍵詞檢測系統(tǒng)的作用,并且可以嘗試使β進行自適應調(diào)整而不再是使用固定值。
參考文獻:
[1] HINTON G, DENG L, YU D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups[J]. Signal Processing Magazine IEEE, 2012, 29(6):82 - 97.
[2] MILLER D, KLEBER M, KAO C, et al. Rapid and accurate spoken term detection[J]. Proc. Interspeech, 2007, 3:1965 - 1968.
[3] National Institute of Standards and Technology (NIST). The spoken term detection (STD) 2006 evaluation plan [J]. http://www.nist.gov/speech/tests/std,2006. 10 edition
[4] JUANG B, HOU W, LEE C. Minimum classification error rate methods for speech recognition[J]. IEEE Trans on Speech & Audio Proc, 1997, 5(3):257 - 265.
[5] BAHL L, BROWN P F, De SOUZA P V, et al. Maximum mutual information estimation of hidden Markov model parameters for speech recognition[J]. Acoustics Speech & Signal Processing IEEE International Conference on Icassp, 1986, 11:49 - 52.
[6] DANIEL P. Discriminative training for large vocabulary speech recognition [D]. Cambridge:University of Cambridge, 2003.
[7] FU Q, MANSJUR D S, JUANG B H. Non-Uniform error criteria for automatic pattern and speech recognition[C]// Acoustics, Speech and Signal Processing, 2008. ICASSP 2008, IEEE International Conference on. Las Vegas: IEEE, 2008:1853 - 1856.
[8] FU Q, MANSJUR D S, JUANG B. Empirical System Learning for Statistical Pattern Recognition With Non-Uniform Error Criteria[J]. Signal Processing IEEE Transactions on, 2010, 58(9):4621 - 4633.
[9] WENG C, JUANG B, WENG C, et al. Adaptive boosted non-uniform mce for keyword spotting on spontaneous speech[C] //IEEE International Conference on Acoustics, Speech & Signal Processing, Vancouver:IEEE, 2013:6960 - 6964.
[10] GHOSHAL A, POVEY D. Sequence discriminative training of deep neural networks[J]. ProcInterspeech, 2013, (8):2345 - 2349.
[11] CHEN I, CHEN N, LEE C. A keyword-boosted sMBR Criterion to enhance keyword search performance in deep neural network based acoustic modeling[J]. Interspeech,2014, (9):2779-2783.
[12] WENG C, JUANG B H F. Discriminative training using non-uniform criteria for keyword spotting on spontaneous speech[J]. Audio Speech & Language Processing IEEE/ACM Transactions on, 2015, 23(2):300 - 312.
[13] FREUND Y, SCHAPIRE R E. Experiments with a New Boosting Algorithm[J]. Proceedings of the Thirteenth International Conference on Machine Learning, 1996, 96:148 - 156.
[14] POVEY D, GHOSHAL A, BOULIANNE G, et al. The Kaldi speech recognition toolkit[C]// Automatic Speech Recognition and Understanding(ASRU), IEEE Workshop on. Hawaii: IEEE, 2011:174 – 178.
[15] NIST Open Keyword Search 2015 Evaluation (OpenKWS15)[EB/OL].http://www.nist.gov/itl/iad/mig/openkws15.cfm.
[16] WEGMANN S, FARIA A, JANIN A, et al. The TAO of ATWV: Probing the mysteries of keyword search performance[C]// Automatic Speech Recognition and Understanding (ASRU), IEEE Workshop on. Olomouc:IEEE, 2013:192 – 197.