王鵬,胡郁,戴禮榮,劉慶峰
(中國科技大學電子工程與信息科學系科大訊飛語音實驗室,安徽合肥230027)
眾所周知,漢語是一種有調(diào)語言,漢語中的每一個字都是以一個音節(jié)作為基本的發(fā)音單位,音節(jié)和調(diào)決定了這個字的發(fā)音。正確的調(diào)型對區(qū)別不同字或詞起到了很關(guān)鍵的作用[1-4]。因此,調(diào)的信息在漢語語音識別中起著很重要的作用。尤其在同字不同調(diào)的情況下,調(diào)的正確識別顯得就更為重要。
調(diào)的信息如何更好的與現(xiàn)有的隱馬爾可夫模型(H idden M arkov M odel)進行結(jié)合,還沒有得到很好的解決。主要有以下困難:第一,調(diào)的類型實際上由基頻曲線的形狀所決定,而基頻的一個特點是非連續(xù)性,基頻僅存于語音的濁音段,在靜音段以及清音段的基頻是不存在的,因此不便直接將調(diào)型信息融入于傳統(tǒng)的連續(xù)HMM;第二,調(diào)型特征相比較于聲學段的特征,是一種超音段特征(supra-segmental feature)。這使得在進行上下文相關(guān)的聲學建模時,將調(diào)的上下文信息加入到原有的Tri-phone建模單元中需要特殊考慮。原因在于,加入調(diào)的上下文信息后,模型的復雜度將極大地增加,以 Tritone為例,模型單元中韻母(調(diào)的載體單元)為150個,經(jīng)過擴展后將比原來增大25倍,而在現(xiàn)有的系統(tǒng)中很難采用這么大的phone集合來建立可靠模型。
為了解決以上兩個困難,近些年來研究者進行了一系列的嘗試[1-2]。針對第一個問題,目前有兩種解決方案,第一種是采用對非濁音段進行內(nèi)插的方法來保證基頻連續(xù)性[3],再將基頻特征與原來的頻譜特征拼接起來,重新組成一個增大的特征向量來訓練模型,這就是Em bedded Tone M odel[4]。第二種是Tokuda提出的基于多空間概率分布的HMM模型(MSD-HMM)[5-7],也就是對于基頻和聲學譜特征,建立兩個概率分布空間,離散的和連續(xù)的,分別對應(yīng)于清音段和濁音段,此方法可以避免由于人工內(nèi)插基頻所帶來的對模型參數(shù)估計的影響。而對于第二個問題,可采用Exp licit Tone M odel的建模方式。也就是對調(diào)單獨建模。由于將調(diào)分離出來建模,我們可以采用更為復雜的建模方式,如上下文相關(guān)的建模方案以及考慮超音段特性等[8,12-13]。再利用此模型,對已有的解碼網(wǎng)絡(luò)進行重新打分,從而獲得識別率的上升。
這兩個問題處于調(diào)的信息在自動語音識別中運用的兩個不同層面:第一個問題在于如何在傳統(tǒng)的連續(xù)HMM模型框架下使用基頻特征;第二個問題在于如何挖掘調(diào)的更為精細,更為深層的信息。本文從這兩個層面出發(fā),提出了一套在二遍解碼的框架下將 Embedded Tone M odel和Explicit Tone M odel的優(yōu)勢相結(jié)合的方法,充分利用了調(diào)的有效信息,從而使識別性能較大幅度提升。
本文的組織結(jié)構(gòu)如下,第2節(jié)給出整個系統(tǒng)構(gòu)成并分別介紹調(diào)型特征,雙流建模[6]方法和Explicit Tone M odel的建模方法,以及二遍解碼的兩模型得分融合方法及原理;第3節(jié)給出實驗結(jié)果及分析;第4節(jié)給出結(jié)論并展望今后工作的趨勢和方向。
本文的系統(tǒng)是以 Embedded Tone M odel和Explicit Tone M odel結(jié)合為基礎(chǔ),目的在于將兩者的優(yōu)勢充分結(jié)合,從而實現(xiàn)對調(diào)的信息的充分利用,以達到提高識別率的目的。此系統(tǒng)是在漢語孤立詞識別任務(wù)上進行試驗。
系統(tǒng)結(jié)構(gòu)為圖1所示,在第一遍解碼中我們將不考慮調(diào)的上下文相關(guān)的信息,將頻譜特征和調(diào)型特征分流建模,在決策樹綁定的時候根據(jù)不同流來分別進行聚類,兩個流都是通過連續(xù)HMM進行建模。在第二遍解碼過程中,Explicit Tone M odel可以通過第一遍解碼所得到的結(jié)果確定音節(jié)邊界,從而確定濁音段的時間邊界信息,再利用此信息訓練出一個精細的上下文相關(guān)的調(diào)的模型。最后利用該模型對第一遍解碼后得到的Nbest保留備選結(jié)果重新打分、排序,從而得到最終識別結(jié)果。
圖1 系統(tǒng)構(gòu)成圖
在Embedded Tone Model中對于第一個流選取的特征是廣泛運用的M FCC(梅爾倒譜參數(shù))特征,第二個流采用的是利用諧波求和法算出的F0特征及其一階二階差分,以及通過自相關(guān)法算出的濁音置信度。F0特征利用動態(tài)規(guī)劃算法進行了后處理,一方面使特征具有連續(xù)性,另一方面在一定程度上減少半頻,倍頻誤差。同時為了降低不同說話人的調(diào)域影響,我們還利用前后各1秒的窗對F0特征進行規(guī)整,也就是長時基音周期規(guī)整(LPN)[10-11]。
在Exp licit Tone M odel中我們采用了與第二個流相同的特征,只是對特征的使用有所區(qū)別,其具體方法如下:利用模型對原訓練數(shù)據(jù)進行硬切分,用以確定作為帶調(diào)載體的韻母所在的時間位置,從而能夠消除為連接基頻而加入的虛假基頻的影響,以達到對調(diào)精確建模的目的。
傳統(tǒng)的Embedded Tone M odel是單流建模,即將頻譜特征和調(diào)型特征綁定成一個流進行建模。我們知道頻譜特征和調(diào)型特征是兩種具有一定獨立性的特征,因此在決策樹綁定的時候?qū)煞N特征參數(shù)綁定在一起有兩個缺陷:一是不夠靈活,兩種特征應(yīng)該根據(jù)其不同特點進行分類,因此,單流建模很難將調(diào)的特點發(fā)揮出來,也就得不到更為充分的訓練。另一是模型的復雜度過大,對于漢語來說,phone的模型單元數(shù)共69個,擴展為T ri-phone的時候大約2000狀態(tài)數(shù)即可描述其特性。而調(diào)的模型單元數(shù)只有5個,只需要約500狀態(tài)即可描述。如果采用單流建模,由于將兩個建模單元綁定在一起,因此,調(diào)型模型的狀態(tài)數(shù)必須與音的模型狀態(tài)數(shù)保持一致,這樣就造成模型的復雜度提高。而雙流建模恰好可以解決這樣的問題。在雙流建模中,每一個HMM的狀態(tài)單元包含兩個分布,一個用以描述頻譜參數(shù),另一個用于描述調(diào)型參數(shù)。在訓練過程中,輸入特征向量Ot(包含頻譜特征和調(diào)型特征)被當作兩個獨立的流,獨立估計每個流的混合高斯參數(shù)。比如,給定輸入特征向量Ot,在t時間j狀態(tài)下的輸出概率變?yōu)楣?1):
其中bc和bp分別對應(yīng)著頻譜和調(diào)型的分布,特征向量Ot也是由頻譜特征和調(diào)型特征組成。而連續(xù)HMM的高斯混合模型也分別由獨立參數(shù)描述,其表示如公式(2)和公式(3)所示:
對于每一個狀態(tài),頻譜分布和調(diào)型特征分布是用不同的高斯數(shù)來描述的,這樣就可以通過不同復雜度的模型實現(xiàn)最優(yōu)建模。
當作為調(diào)載體的韻母模型單元進行T ri-phone綁定的時候,我們假設(shè)頻譜和調(diào)的特征是獨立分布的。因此,對于處在同一狀態(tài)相同中心phone單元,我們可以將其第一個流綁定在一起,同理,對于同一狀態(tài)的相同調(diào)單元,我們可以將其第二個流綁定在一起。具體原理如圖2所示。
圖2 韻母雙流綁定訓練的示意圖
在Embedded Tone Model中,我們已經(jīng)在一定程度上使用了調(diào)的相關(guān)信息。但是由于調(diào)的特性和HMM建模自身的限制,并未能夠?qū)φ{(diào)進行精細建模,比如并未考慮上下文相關(guān)信息以及消除在非發(fā)音段中的人為添加的基頻所造成的影響。因此,在Explicit Tone M odel中我們必須考慮到這些因素,從而在二遍解碼中增加有用的信息量以進一步提高識別率。具體建模過程如下:第一步,通過訓練好的模型對原訓練數(shù)據(jù)進行硬切分,從而獲得帶調(diào)韻母的特征邊界;第二步,進行上下文相關(guān)的調(diào)的模型訓練。在本文的實驗中,我們采用的是左相關(guān)調(diào)的建模,因為有實驗表明,在連續(xù)語流中,左相關(guān)調(diào)的建模比右相關(guān)的性能要好。
建立 Em plicit Tone M odel后,便可對用Embedded Tone Model解碼出來的Nbest備選結(jié)果進行重新打分,并根據(jù)得分對識別備選條目重新排序,最終得到識別結(jié)果。在這里,我們可以將最終后驗概率計算公式寫為(4),因為是孤立詞識別任務(wù),所以不考慮語言模型:
其中P(TS|XTS)為第一遍解碼中利用Embedded Tone M odel所計算出的后驗概率,α為其所占的權(quán)重。而P(T|XT)為Explicit M odel中的利用了左相關(guān)調(diào)信息的后驗概率得分,β為其所占的權(quán)重。其中為了得到最優(yōu)結(jié)果,α和β將在開發(fā)集上進行調(diào)整。由于識別任務(wù)是孤立詞識別任務(wù),因此其解碼網(wǎng)絡(luò)也是受限網(wǎng)絡(luò),所以我們可以認為在Lattice上進行重新打分與在Nbest出來的每一個備選條目上進行重新打分是效果一致的。在實驗中,我們發(fā)現(xiàn)對于命令詞識別任務(wù)來說,一般3Best的覆蓋率已經(jīng)很高,足以作為識別上界。因此我們的試驗都是保留3Best作為備選結(jié)果,整個融合過程以及重新打分的具體方案如下:
第一步利用Embedded Tone M odel進行一遍解碼,解碼后保留3Best結(jié)果,并且對每一個備選條目進行Phone一級的硬切分,從而得到其帶調(diào)韻母的邊界,為利用Explicit Tone M odel進行重新打分作準備。
第二步利用Exp licit Tone M odel和上一步中一遍解碼得到的切分結(jié)果對每一個3Best中的備選條目中的每一個帶調(diào)韻母單元重新計算得分。在此處,需要注意的是,每一個調(diào)的得分計算的不再是似然值,而是當前調(diào)的后驗概率。具體公式如(5):
其中(5)式的X表示基頻的特征向量,Ti表示當前的調(diào)的類型,如Tone1_2(當前調(diào)型為陽平,前調(diào)為陰平),Nt為調(diào)的總的模型數(shù)目,由于是左相關(guān)的調(diào)的模型,因此 Nt的值為20。T表示當前韻母的時間段長度,用以進行幀級別的歸一化。進行幀級別歸一化的原因在于與原來一遍解碼的結(jié)果相比,我們所計算的后驗概率只利用韻母段的特征進行計算,這樣就造成了一遍解碼和二遍解碼所采用的特征段不一致,所以必須進行幀一級別的歸一化。當完成此步驟后,即可計算每一個備選的調(diào)后驗概率得分,公式如(6):
(6)式是由于Nbest中每一個備選的調(diào)的數(shù)目不同而進行的歸一化,NHt為當前備選中韻母的總數(shù)目。
第三步,融合由Embedded Tone M odel得到的每一個備選的后驗概率和由 Exp licit Tone Model得到的每一個備選的后驗概率,并計算出最終的得分,公式如(7),(8),(9)所示。
其中(7)式為Em bedded Tone M odel的每一個備選在Nbest備選中的后驗概率的得分,(8)式為Explicit Tone M odel中的每一個備選在Nbest中的后驗概率的得分,(9)式為最后重新進行得分計算的公式。
注:(9)式中的 α,β分別為 Embedded Tone M odel和Exp licit Tone M odel中的后驗概率所占的權(quán)重。
第四步,對備選得分按從大到小排序,輸出識別結(jié)果。
為了驗證本文中的方法的有效性,我們采用的訓練數(shù)據(jù)庫是一個電話數(shù)據(jù)庫,該數(shù)據(jù)庫為電話信道采集的真實語音數(shù)據(jù),內(nèi)容包括短語、數(shù)字串、字母或短句等,覆蓋全國大部分省份,男女各半,總時長為360小時。其中我們使用的是該數(shù)據(jù)集的一個子集,共 17萬句。此子集用來訓練 Em bedded Tone M odel。Explicit Tone M odel的訓練數(shù)據(jù)是從該訓練庫中另抽取的5萬句組成。
測試庫共有6個,是在不同環(huán)境下錄制的真實數(shù)據(jù),分別是:
(1)干凈環(huán)境下錄制的電話數(shù)據(jù)庫,共有1 300個條目,后面的報告中統(tǒng)稱為測試集一。
(2)一定噪聲環(huán)境下錄制的電話數(shù)據(jù)庫,并從中挑選信噪比低于20dB的語音數(shù)據(jù)組成測試集,共1 600個條目,后面的報告稱為測試集二。
(3)在會場嘈雜環(huán)境下錄制的數(shù)據(jù)庫,共1 600個條目,后面的總結(jié)報告中對整理后的數(shù)據(jù)定義為測試集三。
(4)車載環(huán)境下錄制的數(shù)據(jù)庫,存在開窗或開空調(diào)等背景噪聲,共4 800個條目,但信噪比較高,后面的總結(jié)報告中定義為測試集四。
對于語音信號先去直流,預加重(因子為0.97),漢明窗加窗,幀長 25m s,幀移 10m s的。在抽取MFCC特征參數(shù)的同時,采用一種基于能量的VAD算法,對每一段語音濾除掉大約25%~30%的無聲段。抽取0~12維MFCCs,總計為13維。特征參數(shù)通過倒譜均值相減(CMS)去除信道卷積噪聲;計算一階差分、二階差分總計構(gòu)成39維;對于調(diào)型相關(guān)特征,采用利用諧波加權(quán)法和長時基音周期規(guī)整算法所得到的經(jīng)過歸一化的基頻(F0)特征和其一階,二階差分以及一維濁音置信度。
兩個模型的訓練都是基于HTK工具,Embedded Tone M odel中采用的是聲韻母建模單元,并進行T ri-phone擴展。該模型采用雙流建模,第一個流狀態(tài)數(shù)控制為2000狀態(tài),第二個流為500狀態(tài),每狀態(tài)高斯數(shù)為12;此外,一個3狀態(tài)的silence模型及一個單狀態(tài)的shortPause(sp)模型也被引人系統(tǒng)中以吸收靜寂段及各數(shù)字之間的短停頓。在Triphone擴展的過程中對于兩個流設(shè)計了不同問題集以及不同決策樹進行聚類。Exp licit Tone M odel我們采用的是左相關(guān)的調(diào)型建模單元,每個模型單元為5狀態(tài),高斯數(shù)為8高斯。
實驗一,調(diào)識別率實驗。為了驗證 Explicit Tone M odel中的左相關(guān)調(diào)建模的有效性,我們進行了下列實驗。利用M onoTone作為基線系統(tǒng),分別進行左相關(guān)以及右相關(guān)的調(diào)的建模進行對照,實驗結(jié)果如表1所示:
表1 M onoTone,左相關(guān),右相關(guān)建模調(diào)的識別率
如表1所示,左相關(guān)(Left_BiTone)或右相關(guān)(Right_BiTone)的建模相比于原M onoTone建模,其識別率能大大提高,并且左調(diào)相關(guān)的識別率高于右調(diào)相關(guān)的識別率。這是在于對于M onoTone而言,沒有考慮到調(diào)的左右相關(guān)信息,因此不能更好的突出漢語連續(xù)語流中左右調(diào)對于當前調(diào)的的影響,所以識別性能不如采用考慮左右相關(guān)性的調(diào)的建模方式。并且由于漢語自身的發(fā)聲特點,左相關(guān)的建模能夠更好的描述在連續(xù)語流中變調(diào)現(xiàn)象。因此,我們相信采用左相關(guān)的Exp licit Tone Model將會帶來更為準確的信息。
實驗二,覆蓋率實驗。為了驗證 Em bedded Tone Model中得到的3best備選結(jié)果是否能達到充分覆蓋正確結(jié)果的目的,我們分別測定了10best,5best,3best和1best下的識別結(jié)果,以確定其有效性,其結(jié)果如表2所示:
表2 覆蓋率實驗
如表2所示,隨著備選的增多,正確詞的覆蓋率可以得到極大的提高。其原因在于對于漢語孤立詞識別任務(wù),由于解碼空間是受限空間,因此解碼后的得到的NBest備選將會覆蓋絕大部份正確答案,從而具有很高的正確詞覆蓋率。Explicit Tone Model的作用就在于如何將這些在備選中混淆的詞利用更加準確的調(diào)信息加以區(qū)別以獲得更高的識別率。由實驗結(jié)果可得,3best的準確詞覆蓋率已遠高于1best,因此,從效率因素考慮本文中進行兩遍解碼所保留Nbest的備選數(shù)目為3個。
實驗三,利用Explicit Tone M odel對 Embedded Tone Model所得到的識別結(jié)果進行兩遍解碼,從而得到最終的識別結(jié)果。其中我們從電話數(shù)據(jù)庫中找出一部分作為開發(fā)集,以確定了α,β權(quán)重的參數(shù)范圍。α,β的參數(shù)設(shè)置為(1,0.05)。實驗的基線系統(tǒng)為不帶調(diào)特征的單流模型,其他配置與Embedded Tone Model系統(tǒng)保持一致。實驗結(jié)果如表3所示。
表3 二遍解碼的識別結(jié)果
表3中,可以看到Embedded Tone M odel中的雙流建模(DS_1best)對識別率提高非常明顯,平均能提高3%左右,在測試集三上能提高5.36%。其原因在于雙流建模能更好的將音的特性和調(diào)的特性分流去進行綁定、建模,從而極大程度上提高了調(diào)的信息的在漢語語音識別中的作用。結(jié)合Explicit Tone M odel的二遍解碼(BT)方法,也看到了其對識別性能的提升所起到的作用,由于Explicit Tone Model在建模過程中避免了基頻內(nèi)插所帶來的影響和在Embedded Tone M odel中由于超音段限制而無法考慮的調(diào)的上下文相關(guān)性的影響。因此,在更為精細的Explicit Tone M odel的幫助下,還能在一定程度上提高識別率。
在本文中,主要討論了如何在漢語孤立詞識別任務(wù)上更好的利用調(diào)的信息,采用的方法是在兩遍解碼的框架下,將 Embedded Tone M odel和 Exp licit Tone M odel相結(jié)合的方式。在 Embedded Tone M odel中我們用的M onoTone進行建模,并且利用雙流建模兩方面的優(yōu)勢:一方面在 Triphone綁定的時候,將頻譜信息和調(diào)型信息分開,從而能夠利用兩者不同的特點進行綁定;另一方面,降低了模型復雜度。但是由于Embedded Tone Model沒有充分利用調(diào)的上下文相關(guān)信息,因此我們利用Explicit Tone M odel中進行更為精細的建模。在融合過程中,由于不同備選的時間切分信息不一致,造成兩者的得分范圍不一致。為解決此問題,我們進行了幀一級的歸一化,然后再進行后驗概率的得分融合。本文中的兩種方法的結(jié)合較大幅度提高了識別率,并且在一定程度上降低了模型復雜度。本文工作主要運用于漢語孤立詞識別,但是沒有充分利用語流中詞調(diào)和句調(diào)信息,因此如何將這些高層次信息運用到孤立詞識別任務(wù)中,以及將相關(guān)方法推廣到漢語大詞匯量連續(xù)語流識別中將是下一步工作中所要考慮的問題。
[1] Y.W.Wong and E.Chang.The effect of pitch and tone on different Mandarin speech recognition tasks[C]//Proc.Eurospeech,2001:1517-1521.
[2] C.J.Chen,R.A.Gopinath,M.D.M onkow ski,M.A.Picheny,and K.Shen.New methods in continuous Mandarin speech recognition[C]//Proc.Eurospeech,1997:1543-1546.
[3] M odeling of fundamental frequency using a quad ratic sp line function[C]//'IYavaux de I'Institut-de Phonetique d'Aix 15,1993:71-85.
[4] Qian Y.Use of Tone information in cantonese LVCSR based on generalized character posterior p robability decoding[D].PhD.Thesis,CUHK,2005.
[5] Tokuda K,Masuko T,M iyazaki N,Kobayashi T.M ultispace p robability distribution HMM[C]//IEICE Trans.Inf.&Syst.,2002;E85-D(3):455-464.
[6] Frank Seide and N.Wang,Two-Stream Modeling of Mandarin Tones[C]//Proc.ICSLP 2000,October,2000.
[7] Wang H L,Q ian Y,Soong F K,Zhou JL,H an JQ.A Multi-Space Distribution(M SD)approach to speech recognition of tonal languages[C]//Proc.of ICSLP,2006:1047-1050.
[8] Jin-song Zhang and Keikichi H irose,Anchoring H ypothesis and its App lication to Tone Recognition of Chinese Continuous Speech[C]//Proc.ICASSP 2000,2000.
[9] C.H.H uang and F.Seide.Pitch tracking and tone features for mandarin speech recognition[C]// Proceedings of ICASSP,2000:1523-1526.
[10] 朱小燕,王昱,劉俊,漢語聲調(diào)識別中的基音平滑新方法[J].中文信息學報,2001,20(2):45-50.
[11] 潘逸倩,魏思,王仁華,基于韻律信息的連續(xù)語流調(diào)型評測研究[J].中文信息學報,2008,20(4):88-93.
[12] 林茂燦.普通話語句的韻律結(jié)構(gòu)和基頻(F0)高低線構(gòu)建[J].當代語言學,2002,(4):254-265.
[13] 勇強,初敏,賀琳,呂士海.漢語話音節(jié)時長統(tǒng)計分析[C]//第五屆全國現(xiàn)代語音學學術(shù)會議論文集,2001:66-69.