王 龍,楊俊安,劉 輝,陳 雷,林 偉
(1.電子工程學(xué)院,合肥 230037;2.安徽省電子制約技術(shù)重點實驗室,合肥 230037;3.安徽科大訊飛公司,合肥 230037)
?
基于RNN漢語語言模型自適應(yīng)算法研究*
王龍1,2,楊俊安1,2,劉輝1,2,陳雷1,2,林偉3
(1.電子工程學(xué)院,合肥230037;2.安徽省電子制約技術(shù)重點實驗室,合肥230037;3.安徽科大訊飛公司,合肥230037)
摘要:深度學(xué)習(xí)在自然語言處理中的應(yīng)用越來越廣泛。相比于傳統(tǒng)的n-gram統(tǒng)計語言模型,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)建模技術(shù)在語言模型建模方面表現(xiàn)出了極大的優(yōu)越性,逐漸在語音識別、機器翻譯等領(lǐng)域中得到應(yīng)用。然而,目前RNN語言模型的訓(xùn)練大多是離線的,對于不同的語音識別任務(wù),訓(xùn)練語料與識別任務(wù)之間存在著語言差異,使語音識別系統(tǒng)的識別率受到影響。在采用RNN建模技術(shù)訓(xùn)練漢語語言模型的同時,提出一種在線RNN模型自適應(yīng)(self-adaption)算法,將語音信號初步識別結(jié)果作為語料繼續(xù)訓(xùn)練模型,使自適應(yīng)后的RNN模型與識別任務(wù)之間獲得最大程度的匹配。實驗結(jié)果表明:自適應(yīng)模型有效地減少了語言模型與識別任務(wù)之間的語言差異,對漢語詞混淆網(wǎng)絡(luò)進行重打分后,系統(tǒng)識別率得到進一步提升,并在實際漢語語音識別系統(tǒng)中得到了驗證。
關(guān)鍵詞:語音識別,循環(huán)神經(jīng)網(wǎng)絡(luò),語言模型,在線自適應(yīng)
語音識別(Speech Recognition)是指機器通過識別和理解把人類的語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)文本或命令的技術(shù)。在語音識別中,連續(xù)的語音包含了豐富的語法和句法信息,在識別器中加入語言模型的根本目的就是對這些語法和句法信息進行歸類以及建模,找出最佳的詞序列來減少語音特征矢量序列與詞序列的匹配搜索范圍。此時,語言模型以先驗概率的形式發(fā)揮著重要的作用,將各種高層次的非聲學(xué)知識結(jié)合到語音識別系統(tǒng)中。
語音識別系統(tǒng)的性能很大程度上依賴于語言模型與識別任務(wù)的匹配程度,對環(huán)境的依賴性強,當(dāng)語言模型同識別任務(wù)主題相匹配時,??色@得好的識別結(jié)果,反之則導(dǎo)致識別性能惡化[1]。在實際應(yīng)用中,識別任務(wù)往往混雜著多個并且是事先無法預(yù)知的主題,特別是對于電話語音識別而言,這一特點尤為明顯。電話語音大都為口語,在內(nèi)容上往往會涉及多個主題,不同的說話人說話風(fēng)格也不相同。如果有充分的口語語料,那么訓(xùn)練出來的語言模型與識別任務(wù)的匹配問題就可能部分得到解決,然而大量的口語語料卻不容易收集。因此,如何快速、準確地實現(xiàn)語言模型自適應(yīng)并與識別任務(wù)主題相匹配便成為一個關(guān)鍵問題。
傳統(tǒng)的語言模型自適應(yīng)技術(shù)[2]是將一個通用的、訓(xùn)練充分的語言模型和一個特定領(lǐng)域的、訓(xùn)練不充分的模型通過某種方式組合成一個新的模型。因此,這種自適應(yīng)技術(shù)通常也叫話題自適應(yīng)或者領(lǐng)域自適應(yīng)技術(shù)。組合的方法一般有兩種:插值法和最大熵法。插值方法比較常用,它最大的優(yōu)點是易于實現(xiàn),計算效率高,其缺點是難以保證模型的完整性,并且很難達到最佳的插值效果;最大熵法的優(yōu)點是能夠達到更優(yōu)化的插值效果,其缺點是計算量大、計算效率低。這些方法有一個共同點,即都是在該領(lǐng)域已知的情況下,預(yù)先搜集好該領(lǐng)域的適應(yīng)語料,然后以離線的方式訓(xùn)練[3],如果領(lǐng)域發(fā)生了變化,則需重新進行模型訓(xùn)練確定自適應(yīng)系數(shù)。但有時預(yù)先獲得的語料非常少,只有在應(yīng)用時才能確定使用領(lǐng)域,特別是對于電話語音識別而言,事先無法預(yù)知說話人的主題,傳統(tǒng)的語言模型自適應(yīng)技術(shù)將不再適合。
近年來,深度學(xué)習(xí)逐漸在自然語言理解中得到應(yīng)用。相比于傳統(tǒng)的n-gram統(tǒng)計語言模型,循環(huán)神經(jīng)網(wǎng)絡(luò)建模技術(shù)[4]在語言模型建模方面表現(xiàn)出了極大的優(yōu)越性,逐漸在語音識別、機器翻譯等領(lǐng)域中得到應(yīng)用。本文首先將RNN建模技術(shù)應(yīng)用到漢語語言模型的建模,在此基礎(chǔ)上提出一種基于RNN漢語語言模型在線自適應(yīng)算法,對語音信號初步識別結(jié)果進行模型自適應(yīng),即將語音的一遍識別結(jié)果作為訓(xùn)練語料經(jīng)過分詞等處理后在原RNN模型的基礎(chǔ)上繼續(xù)訓(xùn)練。通過學(xué)習(xí)更新模型的權(quán)值矩陣,使模型自適應(yīng)后能夠更好地反映出識別任務(wù)的語言分布情況,然后再次對識別任務(wù)重新進行解碼。
1.1識別系統(tǒng)概述
一個完整的語音識別系統(tǒng)基本原理框圖如圖1所示,語言模型是語音識別系統(tǒng)重要組成部分,較高層次的語言知識的利用可以在聲學(xué)識別的基礎(chǔ)上減少模式匹配的模糊性,從而提高系統(tǒng)識別的精確度。
圖1 漢語語音識別系統(tǒng)結(jié)構(gòu)
對語音信號進行預(yù)處理及特征提取后,可以得到這個語音信號所包含的聲學(xué)特征矢量,記為O。自然語言可以被看作一個隨機序列,文本中的每個句子或每個詞都是一個具有一定分布的隨機變量。假設(shè)詞(漢語中包含單字)是一個句子最小的結(jié)構(gòu)單位,一個合理的有意義語句S由詞序列w=w1,w2,…,wN組成。從貝葉斯(Bayes)原理出發(fā),語音識別的過程就是根據(jù)式(1)[5],找出當(dāng)前聲學(xué)特征下條件概率最大的詞序列作為識別結(jié)果。
其中,信號波形的先驗概率p(o)與詞序列w選擇無關(guān),可以不計算;p(o|w)代表在給定某個詞序列的基礎(chǔ)上,輸出特征序列的可能性,在語音識別中用聲學(xué)模型對其建模;而p(w)表示了詞序列w出現(xiàn)的可能性,在語音識別中用語言模型進行建模。目前應(yīng)用廣泛的n-gram語言模型認為每一個預(yù)測變量出現(xiàn)的可能性只與長度為n-1的上下文有關(guān),即:
通常n值取2或3,只考慮到了當(dāng)前詞的局部上下文的語言信息,其訓(xùn)練往往需要大量真實的訓(xùn)練語料。相比于傳統(tǒng)的基于統(tǒng)計規(guī)則的n-gram語言模型,RNN語言模型在預(yù)測一個詞時考慮到了較多的歷史信息,因此,能夠?qū)φZ句中長距離的信息進行較好地描述。
1.2漢語語料的處理
在對漢語文本語料進行訓(xùn)練之前,必須要對語料進行一系列處理,漢語訓(xùn)練語料處理流程圖如圖2所示。在得到一份文本語料后首先要進行清洗,將粗語料中的字母、標點符號等噪聲信息刪除,去除冗余信息;語料中往往會存在大量的數(shù)字,正規(guī)化過程主要完成語數(shù)字正規(guī)化,將語料中的阿拉伯?dāng)?shù)字轉(zhuǎn)換成相應(yīng)的漢字;經(jīng)過前兩步后,語料中只存在著漢字信息,分詞是根據(jù)分詞模型將語句中詞與詞之間用空格分開,將句子劃分成一個個詞(或字)單元;詞典過濾用來刪除英文邊界符,刪除語料中的非詞典詞句子。對語料進行一系列處理后就可以得到能夠用來訓(xùn)練的較為干凈的語料,然后進行模型訓(xùn)練。
圖2 漢語語料的處理流程
一個典型的循環(huán)神經(jīng)網(wǎng)絡(luò)如圖3所示,由3個網(wǎng)絡(luò)層構(gòu)成,分別是輸入層、隱含層、輸出層。本文中使用的是標準循環(huán)神經(jīng)網(wǎng)絡(luò),也稱為Elman網(wǎng)絡(luò)[6],易于實現(xiàn)和訓(xùn)練。經(jīng)過此RNN架構(gòu)訓(xùn)練后,當(dāng)前詞wi的概率表示為:
其中hi代表語句中當(dāng)前詞的所有上下文信息,以向量形式保存在網(wǎng)絡(luò)存儲層,作上為下一個樣本訓(xùn)練時網(wǎng)絡(luò)輸入的一部分。
圖3 循環(huán)神經(jīng)網(wǎng)絡(luò)基本框架
假設(shè)在t時刻網(wǎng)絡(luò)輸入詞樣本為w(t),即當(dāng)前詞的詞向量,維數(shù)大小為語料中詞樣本數(shù)決定;隱含層的狀態(tài)h(t)由輸入當(dāng)前詞向量w(t)和上一時刻隱含層的狀態(tài)也即歷史信息h(t-1)共同決定,通過隱含層到輸入層的連接,將t-1時刻的隱含層狀態(tài)作為t時刻輸入的一部分;輸出層y(t)表示當(dāng)前歷史下后接詞的概率分布信息,輸出層節(jié)點數(shù)與輸入層節(jié)點數(shù)相同也是。各個層之間計算關(guān)系用下列式子進行表示[7]:
隱含層的輸入:x(t)=w(t)+h(t-1)
其中,softmax函數(shù)保證了當(dāng)前詞下后接詞的概率分布是合理的,即對于任意一個詞m的ym(t)>0,且∑kyk(t)=1。在模型參數(shù)的初始化設(shè)置上,隱含層初始狀態(tài)h(0)一般設(shè)為零,或隨機初始化為很小的值。輸入詞向量w(t)用one-hot-vector進行表示。隱含層節(jié)點數(shù)通常取100到1 000,根據(jù)具體訓(xùn)練數(shù)據(jù)的大小進行調(diào)節(jié)。U、W、V為各層之間權(quán)值矩陣,隨機初始化為較小的值。在模型訓(xùn)練的過程中,通過標準的反向傳播算法(back propagation,BP)結(jié)合隨機梯度下降法(stochastic gradient descend,SGD)學(xué)習(xí)更新[8]:
其中e(t)表示每處理一個樣本時的輸出端的誤差向量,desired(t)表示特定上下文中期望輸出的概率值,y(t)則是網(wǎng)絡(luò)的實際輸出。θ={u、w、v},▽SGD表示相應(yīng)的梯度下降值,網(wǎng)絡(luò)的初始學(xué)習(xí)速率α為0.1,經(jīng)過不斷地迭代學(xué)習(xí)直到模型收斂。
語言模型對于提高語音識別系統(tǒng)的性能起著重要作用。語言模型自適應(yīng)就是把自適應(yīng)模型中蘊含的、原模型中缺少的信息,補償?shù)皆P椭械玫礁鼮榫_的模型,從而使自適應(yīng)后的語言模型與應(yīng)用環(huán)境獲得最大程度的匹配。在少量電話標注語料的情況下,通過采用語言模型自適應(yīng)技術(shù)減小模型與識別任務(wù)之間的語言差異是一種較好的選擇,以適應(yīng)不同應(yīng)用環(huán)境各自的特征,為語音識別的解碼提供更為精確的語言模型。
圖4 基于RNN語言模型在線自適應(yīng)語音識別系統(tǒng)結(jié)構(gòu)
基于RNN語言模型在線自適應(yīng)語音識別系統(tǒng)結(jié)構(gòu)如圖4所示,在原有系統(tǒng)的末端增加了語言模型自適應(yīng)處理模塊。將RNN模型用于識別系統(tǒng)中時,通過RNN語言模型對每一條語音解碼后的詞混淆網(wǎng)絡(luò)即n-best列表進行重新打分能夠得到RNN模型下系統(tǒng)的一遍識別結(jié)果(one-best)。盡管系統(tǒng)一遍識別結(jié)果不一定是完全正確的,但卻在一定程度上能夠反映出識別任務(wù)的主題以及語言分布情況。因此,可以將一遍識別結(jié)果作為模型自適應(yīng)語料,經(jīng)過分詞等一系列處理后,在原RNN語言模型的基礎(chǔ)上繼續(xù)訓(xùn)練,進一步更新RNN模型參數(shù)。此時,模型就能夠?qū)W習(xí)到與識別任務(wù)相關(guān)的新的知識,不斷調(diào)整語言模型中各種語言現(xiàn)象出現(xiàn)的概率,更好地預(yù)測識別任務(wù)的語言真實分布情況,實現(xiàn)模型自適應(yīng)。將自適應(yīng)后的RNN模型再次對語音n-best列表重打分,得到每一個列表新的語言模型得分。然后根據(jù)式(7)再結(jié)合聲學(xué)模型得分、懲罰分等信息計算出每一個列表總的得分情況。
其中,n是句子中詞的個數(shù),wp是詞的懲罰分,asci為詞wi聲學(xué)模型得分,lms為模型規(guī)模,prnn(wi|hi)代表每個詞的RNN語言模型得分。計算出每一列表的得分結(jié)果后,從中選出得分最高的一個作n-best列表的最優(yōu)解。將新得到的one-best列表與識別任務(wù)標注數(shù)據(jù)進行比對計算出系統(tǒng)識別率。
4.1數(shù)據(jù)集及實驗設(shè)置
在實驗中選用詞錯誤率(Word Error Rate,WER)作為評測標準,系統(tǒng)詞錯誤率越低,則認為語言模型性能越好。訓(xùn)練數(shù)據(jù)來源于科大訊飛語音公司提供的實際漢語電話信道語音標注數(shù)據(jù),共16.5 M,包含550 k個句子文本,包含4 342 k個詞,驗證集為282 kb,測試集為對電話語音解碼結(jié)果343 300句(100-best)列表,大小為87 k。
采用RNN訓(xùn)練模型時,隱含層節(jié)點數(shù)(Hidden)和語料分類數(shù)(Class)分別設(shè)為100H-500C、200H-100C、500H-400C、500H-500C、600H-500C并完成各個模型的訓(xùn)練。然后用訓(xùn)練出的RNN模型對343 300句列表的語言模型得分進行重打分,從中選出3 433句得分最高的作為一遍識別結(jié)果,利用上述的RNN自適應(yīng)方法對各個RNN模型進行再訓(xùn)練。并測試模型自適應(yīng)后的系統(tǒng)識別率。本試驗中n-gram語言模型訓(xùn)練采用3-gram (Tri-gram)模型結(jié)合性能較好的Kneser-Ney back-off平滑算法進行訓(xùn)練,由SRILM工具箱構(gòu)建。
4.2實驗結(jié)果與分析
表1中以3-gram模型為基線模型,分別給出了RNN語言模型以及RNN自適應(yīng)后的實驗結(jié)果,同時給出了RNN自適應(yīng)后與3-gram模型插值融合后的實驗結(jié)果。
表1 RNN模型自適應(yīng)后系統(tǒng)詞錯誤率(WER)比較
實驗結(jié)果如表1中所示,相比于n-gram語言模型而言,采用RNN建模技術(shù)訓(xùn)練漢語語言模型,系統(tǒng)WER得到了有效地降低,說明了RNN建模技術(shù)的優(yōu)越性,并適用于漢語語言模型訓(xùn)練。當(dāng)對RNN模型自適應(yīng)訓(xùn)練后系統(tǒng)WER相比于RNN模型系統(tǒng)的WER絕對下降達到1個百分點,而將自適應(yīng)后的RNN模型與3-gram進行線性插值以后系統(tǒng)的WER絕對下降達到1.5個百分點,說明了文中所提出的自適應(yīng)算法的有效性。對RNN模型再訓(xùn)練后確實學(xué)習(xí)到了與識別任務(wù)相關(guān)的新的知識,使模型與識別任務(wù)之間獲得了一定程度的匹配。然而,也可以看出由于語料有限,原RNN模型的系統(tǒng)識別率并不高,所以系統(tǒng)的一遍識別結(jié)果中存在著一些識別錯誤,進行RNN自適應(yīng)后模型也會學(xué)習(xí)到一些錯誤的知識,影響系統(tǒng)識別率。盡管如此,由于自適應(yīng)算法時間開銷上并不大,并且在一定程度上能夠提高模型的性能,因此,自適應(yīng)算法在實際應(yīng)用中仍然不失為一種有效的算法。
本文針對RNN生成模型與識別任務(wù)存在著差異問題,提出了一種RNN模型自適應(yīng)算法,該算法不是傳統(tǒng)的針對領(lǐng)域訓(xùn)練語言模型再與通用模型進行插值等融合,而是將語音的初步識別結(jié)果作為訓(xùn)練語料,進行重新處理后繼續(xù)訓(xùn)練RNN模型。由于初步識別結(jié)果文本不大,因此,能夠較快地更新模型權(quán)值參數(shù),不斷調(diào)整語言模型中各種語言現(xiàn)象出現(xiàn)的概率,使自適應(yīng)后的RNN模型與識別任務(wù)之間能夠獲得最大程度的匹配。實驗表明,本文提出的RNN語言模型在線自適應(yīng)算法能夠有效地降低系統(tǒng)識別錯誤率。另外從實驗結(jié)果中可以看出,系統(tǒng)的一遍識別結(jié)果對自適應(yīng)模型的性能有較大影響,因此,如何調(diào)整RNN訓(xùn)練算法提高系統(tǒng)的一遍識別率是下一步的研究重點。需要說明的是,試驗中采用了若干經(jīng)驗參數(shù),如果模型的訓(xùn)練條件變化了,則要對要對這些參數(shù)進行相應(yīng)調(diào)整。
參考文獻:
[1]紀生,王作英.一種新的基于主題的語言模型自適應(yīng)方法
[J].中文信息學(xué)報,2006,20(4):82-87.
[2]梁奇,鄭方,徐明星.基于trigram語體特征分類的語言模型自適應(yīng)方法[J].中文信息學(xué)報,2006,20(4),68-74.
[3]吳根清,鄭方,金陵.一種在線遞增式語言模型自適應(yīng)方法[J].中文信息學(xué)報,2002,16(1):60-65.
[4]MIKOLOV T,KARAFI'AT M,BURGET L,et al. Recurrent neural network based language model[C]// Proceedings of Interspeech,2010:1045-1048.
[5]張強.大詞匯量連續(xù)語音識別系統(tǒng)的統(tǒng)計語言模型應(yīng)用研究[D].成都:西南交通大學(xué),2009.
[6]KOMBRINK S,MIKOLOV T,ARAFI'AT M,et al. Recurrent Neural Network based Language Modeling in Meeting Recognition[C]// Proceedings of Interspeech,2011:2877-2880.
[7]MIKOLOV T,KOMBRINK S,BURGET L,et al .Extensions of recurrent neural network language model[C]// Proceedings of ICASSP,2011:5528-5531.
[8]MIKOLOV T,ARAFI'AT M,BURGET L,et al. Recurrent neural network based language model[C]// Proceedings of Interspeech,2010:1045-1048.
Research on a Self- Adaption Algorithm of Recurrent Neural Network Based Chinese Language Model
WANG Long1,2,YANG Jun-an1,2,LIU Hui1,2,CHEN Lei1,2,LIN Wei3
(1.Electronic Engineering Institute,Hefei 230037,China;2.Key Laboratory of Electronic Restriction,Anhui Province,Hefei 230037,China;3.Anhui USTC IFlytek Corporation,Hefei 230037,China)
Abstract:Deep learning is used more and more widely in natural language processing. Compared with the conventional n -gram statistical language model,recurrent neural network(RNN)modeling technology shows great superiority in the aspect of language model modeling,which is gradually applied in speech recognition,machine translation and other fields. However,most RNN language models are trained off-line at present,for different speech recognition tasks,there exist many language differences between training corpus and recognition tasks that affects the recognition rate of speech recognition system deeply. The authors adopt RNN model technical in training the Chinese language model and put forward a online self-adaption model training algorithm at the same time,with this algorithm,we treat the voice signal preliminary recognition results as the additional training corpus to retrain the model to ensure that the adaptive RNN model can match with different tasks mostly. The experiment results show that the self-adaption model can reduce the differences against recognition tasks effectively and further improve the system recognition rate after rescoring the lattice,it is proved in the actual Chinese speech recognition system at the same time.
Key words:speech recognition,recurrent neural network,language model,online adaptation
中圖分類號:TP391
文獻標識碼:A
文章編號:1002-0640(2016)05-0031-04
收稿日期:2015-03-05修回日期:2015-05-18
*基金項目:國家自然科學(xué)基金(60872113);安徽省自然科學(xué)基金資助項目(1208085MF94)
作者簡介:王龍(1989-),男,安徽阜陽人,碩士研究生。研究方向:聲信號分析與識別技術(shù)等。