達(dá)瓦伊德木草,木合亞提尼亞孜別克,吾守爾斯拉木
(1.新疆維吾爾自治區(qū)多語種技術(shù)重點實驗室,新疆烏魯木齊830046;2.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆烏魯木齊830046)
據(jù)科學(xué)家分析,人類說話的聲音能夠反映一個人的生理、情緒、感情、健康程度、受教育程度、居住以及所處的社會環(huán)境等諸多相關(guān)聯(lián)的特征,并且人類說話的聲音還跟遺傳因子(DNA)有關(guān).因此,科學(xué)上不僅常常用有聲語言的聲學(xué)參數(shù)來觀察、辨別一個人的身份,而且還可以利用聲音或者話語方式操作計算機(jī),實現(xiàn)高效率地通信.目前,利用聲音的應(yīng)用系統(tǒng)開發(fā)很廣泛,比如:聲紋判別、口語翻譯手機(jī)、手寫或者印刷物自動發(fā)音的語音合成、利用聲源震動信息的醫(yī)療診斷、自然災(zāi)害預(yù)測及公共安全電話-網(wǎng)絡(luò)語音監(jiān)控等新技術(shù)[1~3].
新疆不僅是多語種地區(qū),而且面向中亞、歐洲,還是重點開發(fā)的貿(mào)易口岸地區(qū),由此基于多語言信息處理的通信應(yīng)用研究顯得迫在眉睫,并貫穿到許多領(lǐng)域.本文在近年來語音工程技術(shù)研究成果基礎(chǔ)上進(jìn)行擴(kuò)展性應(yīng)用研究.例如:在醫(yī)院門診室安置一個血壓計般大小的民-漢語言會話翻譯裝置可方便各民族百姓看病,省事、省時又省錢;在電話-網(wǎng)絡(luò)通話終端設(shè)置語音監(jiān)控裝置保障地區(qū)的穩(wěn)定安全;通過多語言語音查詢導(dǎo)向系統(tǒng)提高旅游業(yè)服務(wù)質(zhì)量等.
自然言語交際及話語傳遞和接收過程中,存在巨大可變性,但是人類卻能非常魯棒性地理解言語交際.研究如何將言語聲學(xué)特性的可變性與言語知覺的不變性融合,是當(dāng)前人機(jī)接口技術(shù)走向應(yīng)用被關(guān)注的問題.這在語音接口技術(shù)研究中,如何高效地抽取有聲語言的聲學(xué)特征建模是一個高難度研究任務(wù).先行相關(guān)研究靠海量級的語音語料探索建模規(guī)律,而且側(cè)重于英語、漢語等大語言[4,5].近年來,新疆維吾爾自治區(qū)多語種技術(shù)重點實驗室以維吾爾語、哈薩克語、柯爾克孜語及蒙古語等少數(shù)民族語言為研究對象,在語料缺乏、多復(fù)雜環(huán)境的情況下,更好的融合先行技術(shù),挑戰(zhàn)語音技術(shù)的應(yīng)用研究.
說話人識別實際上是模式匹配問題.其基本原理是將待識別目標(biāo)說話人模型特征與預(yù)先訓(xùn)練好的模板進(jìn)行匹配,根據(jù)匹配距離或最大概率似然度判斷目標(biāo)說話人是庫中哪一位或者判斷是否為被申明的說話人[6].
本文構(gòu)造的基于概率統(tǒng)計GMM模型文本無關(guān)(Open set)說話人識別系統(tǒng)如圖1所示,其工作原理如下:1.首先對錄制的n個連續(xù)聲源進(jìn)行切分、端點檢測、分類、(Seg/ADC/VAD)等預(yù)處理,然后對有聲話語按發(fā)話人編碼,排序生成語音文件.wav(i=1,2···,U;k=1,2,···,M),作訓(xùn)練數(shù)據(jù)[7,8].其中k為發(fā)話人數(shù),i為第k個人話語U(Utterance).2.對話語Si.wav,每隔20~40ms(毫秒)間隔乘短時間Hamming幀系數(shù),進(jìn)行聲譜到頻譜分析,生成10~50維特征向量.然后,把分析幀左移8~20ms,繼續(xù)上述分析,直到全話語分析完畢.最后獲得每人話語時間序列特征向量X=(x1,x2,···,xT)(簡稱特征量).3.對于各目標(biāo)人特征量,通過EM Training(Expectation maximization)學(xué)習(xí),生成N個目標(biāo)人GMMs模型(λ1,λ2,···,λk,···,λN),即說話人聲學(xué)樣本(稱為目標(biāo)人聲紋登錄).建模方法除了高斯混合GMMs(Gaussian Mixture Model)方法之外,還有量化距離碼本(codebook)法、SVM(Support vector machine)方法、i?vector方法等[9].可以根據(jù)需求及規(guī)模選用.4.在識別階段,如圖1所示GMMs方法中,利用待測話語特征量與說話人樣本λk進(jìn)行最大似然度(maximum likelihood rate ML)匹配,計算得分,選取最接近樣本λi作為識別結(jié)果.
圖1 基于GMM說話人識別系統(tǒng)訓(xùn)練和測試構(gòu)造原理
GMM模型利用多維概率密度函數(shù)對語音信號進(jìn)行建模.由一個密度為M的高斯分量密度的和給出,即
其中為第j個話者話語,在t幀抽取出的特征量,為高斯混合參數(shù),即每個話者GMM模型,gi表示每個高斯分量的權(quán)重系數(shù),為均值向量,而Σi是對角協(xié)方差矩陣.利用EM算法可以估計式(1)中高斯混合模型參數(shù)λj.由最大后驗概率給出的最終識別結(jié)果簡化為:
為便于計算,將上式(3)用對數(shù)似然度表示,即:
SVM(即支持向量機(jī))算法用于解決二分類問題,然而對于有N個目標(biāo)人的說話人識別系統(tǒng),就要利用SVM方法解決多類分類問題.一般先對N個目標(biāo)人話語進(jìn)行訓(xùn)練并分類,目標(biāo)識別人數(shù)越多,在求解過程中的變量就越多,計算量就越大,而系統(tǒng)的實時實用性較低.目前,多數(shù)說話人識別的研究將一個多類分類問題轉(zhuǎn)換為多個二分類問題討論,通過組合多個二分類支持向量機(jī)實現(xiàn)多類分類[10].這種方法主要有兩種:一對一(one-against-one)組合算法和一對多OAA(one-against-all)組合算法,其中OAA SVM算法易于實現(xiàn).下面用圖2和圖3介紹OAA SVM算法基本思路.
圖2 SVM法訓(xùn)練OAA SVM模型
圖3 SVM法未知話者的識別過程
①訓(xùn)練階段(見圖2):將訓(xùn)練集中每個話者話語作為一類,例如:將話者j(j=1,2···,N)的語音信號特征量X作為class 0輸入,而剩余N-1話者話語全作為class 1輸入,經(jīng)過SVM二分類器訓(xùn)練生成說話者j的OAA SVM模型Sj().最終訓(xùn)練出N個OAA SVM模型.
②測試階段(見圖3):對待測未知的話語,提取語音信號特征向量,依次輸入到N個OAA SVM模型中做二類分類.最后統(tǒng)計待測語音各幀特征量被分配到最多的類,則將此類作為最后識別結(jié)果.
語音識別技術(shù)可以把話筒輸入的話語轉(zhuǎn)換為文本輸出(speech-to-text),如果具備高精度語音識別器,那么將來操作手機(jī)或計算機(jī)直接用話筒即可,不再用鍵盤不用文字知識.連續(xù)語音識別器CSR(Continuous speech recognition)由:上述第2章介紹的預(yù)處理階段,此外還包括聲學(xué)模型AM(Acoustic model),語言模型P(W)以及識別單元(Decoding)組成(見圖4).各單元的工作原理如下:
①訓(xùn)練階段:
從N個話者錄制的語音數(shù)據(jù)中,提取話語特征量;再利用這些語音特征量參數(shù),訓(xùn)練音素或詞單元的聲學(xué)模型AM(Acoustic Model),保存到模板庫中.
針對識別語言收集整理大量的文本數(shù)據(jù),利用統(tǒng)計學(xué)習(xí)訓(xùn)練詞與詞的連接關(guān)系得到N-gram語言模型P(W),保存到模板庫中.
②識別階段:
對待識別語音信號進(jìn)行聲學(xué)分析得到語音特征量生成測試數(shù)據(jù),再與參考模板AM和P(W)匹配計算,利用Bayes判別準(zhǔn)則,將匹配分?jǐn)?shù)最高的參考模板,作為Decoding識別結(jié)果W?[11~13](見式5).其中,W=(w1,w2,···,wN)為長度為N的詞序列,F(xiàn)=(x1,x2,···,xT)為聲學(xué)特征量,而P(W|F)是后驗概率.
圖4 連續(xù)語音識別原
不同民族的人用自己的語言交談,不通過第三個人翻譯,而直接利用計算機(jī)翻譯的過程叫做語音翻譯S2S(speech to speech).目前不少研究機(jī)構(gòu)研發(fā)了多語種-多功能語音翻譯應(yīng)用軟件,并投入市場試用.如:日本國際電氣通信基礎(chǔ)技術(shù)研究所ATR(Advanced Technology Research)及NICT(National Institute of Information and Communication Technology)研發(fā)的手提式旅游-商務(wù)多語言(日-中,中-英或其他語言)雙向翻譯終端機(jī);通過網(wǎng)絡(luò)交換方式,實現(xiàn)遠(yuǎn)距離會話翻譯的手機(jī);東芝中國研發(fā)中心開發(fā)的中-英雙向語音翻譯系統(tǒng);Google開發(fā)的網(wǎng)上語音翻譯系統(tǒng)等[14].圖5及圖6分別顯示本文作者在日本NICT參與并研發(fā)的多語言雙向口語翻譯終端機(jī)及演示圖.本系統(tǒng)對旅游(特定任務(wù))會話的實時翻譯正確率可達(dá)86%左右,已滿足一般應(yīng)用需求.
本文探討醫(yī)療衛(wèi)生會話翻譯系統(tǒng)的基本原理如圖7所示.系統(tǒng)除了通過上述的語音信號的預(yù)處理,聲學(xué)分析特征提取之外,還包含連續(xù)語音識別CSR,機(jī)器翻譯(Machine Translation)及語音合成(Synthesize)等技術(shù)環(huán)節(jié).該系統(tǒng)綜合應(yīng)用了上述多領(lǐng)域相關(guān)技術(shù).系統(tǒng)工作原理敘述如下:
(1)語音識別過程:假如,一名民族患者(一位維吾爾族大叔),對著翻譯器話筒說一段“/doctor,kozambir narsini yahxi kornayd/”,這段語音經(jīng)過系統(tǒng)自動分析后,輸入到連續(xù)語音識別單元(Speech Recognition),經(jīng)識別器識別輸出為維吾爾語文字串“doctor,kozam bir narsini yahxi kornayd”.
(2)機(jī)器翻譯過程:機(jī)器翻譯單元(Translation)對語音識別器的輸出結(jié)果進(jìn)行維-漢文的自動翻譯,將輸出一段“醫(yī)生,我的眼睛看不見”的漢語文本.
(3)語音合成過程:對于機(jī)器翻譯輸出的文本“醫(yī)生,我的眼睛看不見”,語音合成單元將實施文本轉(zhuǎn)換語音的任務(wù),使得醫(yī)生將聽到“/醫(yī)生我的眼睛看不見/”一段語音.由此系統(tǒng)實現(xiàn)了語音對語音的翻譯.由于本系統(tǒng)能夠?qū)崿F(xiàn)雙向翻譯,即醫(yī)生說的話反過來患者也能用自己的語言收聽,從而完成醫(yī)-患者會話翻譯.
圖5 NICT開發(fā)的語音翻譯終端
圖6 漢-英語音翻譯終端演示(NICT)
圖7 本研究提案醫(yī)院門診用語音翻譯系統(tǒng)結(jié)構(gòu)圖
考慮到待識別人數(shù)多,系統(tǒng)實用環(huán)境噪音復(fù)雜等因素,本課題致力于提高開集說話人性能研究,提出(如圖8所示)一種新的開集說話人識別方法,即基于GMM-UBM-SVM混合模型識別方法.本系統(tǒng)充分發(fā)揮兩種分類方法GMM和SVM各自優(yōu)勢,即GMM模型能較好地描述類別內(nèi)部的相似性,而SVM模型有優(yōu)秀的分類能力.系統(tǒng)工作原理如下:首先對待測話語進(jìn)行確認(rèn)測試,系統(tǒng)自動確認(rèn)待測話語是否來自內(nèi)集話者.系統(tǒng)預(yù)先計算待測話語特征向量與GMM-UBM分類模型相似度并計算得分.若相似度得分大于預(yù)先閾值δ,則接受待測話語為內(nèi)集話語(否則作為外集話語拒絕判別),并進(jìn)一步計算GMM模型λi的最大似然度?j,計算得分,若得分大于預(yù)先閾值η,則判斷待測話語就是內(nèi)集話者中第j個話者.否則,若得分小于η,系統(tǒng)將實施SVM分類法,即選出小于η所對應(yīng)GMM模型若干均值向量(一般選取1~3個),輸入到SVM進(jìn)行OAA SVM模型訓(xùn)練,并繼續(xù)對當(dāng)前測試話語進(jìn)行再次分類,選取待測話語特征向量中被分去最多向量的類作為最后判別結(jié)果輸出.
實驗數(shù)據(jù):本文使用PC機(jī),在普通實驗室錄制了100個說話人語音數(shù)據(jù),每個話者任意說1~2 min話,話語的錄制頻率設(shè)置為44.1KHz.對于錄制的數(shù)據(jù)設(shè)置16KHz采樣頻率,16bit位進(jìn)行量化處理.對長時間錄制語音流實施基于基頻F0的自動切分,端點檢測,提取有聲語音段,并通過人工編輯加工生成實驗語音數(shù)據(jù).每個切分話語長設(shè)為10~30 s,并用waveform格式保存到語音訓(xùn)練集中.本次說話人識別實驗中選用共60名話者,將其中50名話者話語作為訓(xùn)練集,剩余的10名話者話語作為集外話者.
圖8 GMM-UBM-SVM混合模型說話人識別系統(tǒng)結(jié)構(gòu)圖
本實驗提取的特征參數(shù)采用12維mel-到譜系數(shù)的MFCC和其一階差分和一維能量參數(shù)共25維特征向量.GMM混合數(shù)設(shè)定128,SVM內(nèi)核參數(shù)為RBF.為了便于比較,本次試驗中也給出了GMM,GMMUBM常用測試結(jié)果.實驗結(jié)果如圖9和表1所示.
圖9 3個話語訓(xùn)練數(shù)據(jù)在不同混合參數(shù)的說話人識別率
表1 5名話者說10個不同長度話語時的說話人識別結(jié)果
實驗結(jié)果分析:圖9顯示用不同混合參數(shù)訓(xùn)練數(shù)據(jù)時獲得的識別結(jié)果,可以看出隨著混合參數(shù)的增加GMM方法識別率下降.GMM方法在混合參數(shù)為32時得到最好識別結(jié)果99.31%.這表明混合數(shù)的急劇增加會引起GMM識別結(jié)果大幅度衰退.GMM-UBM及GMM-SVM方法雖然在混合參數(shù)較小時識別率較低,但隨著混合參數(shù)增大識別率會快速上升.而GMM-SVM方法在混合參數(shù)趨于256時可達(dá)100%的識別率.表1給出了5名話者訓(xùn)練模型的實驗結(jié)果,時長不同的10段話語,且話語長控制在約10 s.從表中顯示結(jié)果看到,GMM-UBM和GMM-SVM均用UBM方法適應(yīng)學(xué)習(xí)建模,識別結(jié)果幾乎接近,但與GMM-UBM方法相比,GMM-SVM方法的識別結(jié)果高于GMM-UBM約3%左右.GMM-SVM方法顯示,即使語音信號時長較短,仍具備良好分類性能,明顯優(yōu)于其它方法.
語音翻譯系統(tǒng)結(jié)構(gòu)及工作原理在前面已介紹.下面以維-漢語音翻譯實驗介紹系統(tǒng)各單元實驗過程及測試結(jié)果.
實驗數(shù)據(jù):本次試驗中使用由64名(男性32人,女性32人)維吾爾族說話人自由會話的短語作為語音語料.語料在PC機(jī)上采用單聲道錄制并保存為.wav文件,語料總時長約為4.0 h(小時).采樣率為16 kHz,16 bit,幀寬為10 ms.語音特征量為12維的Mel-倒譜系數(shù)(MFCC)及?MFCC加1維對數(shù)能量,共25維向量.話語文件.wav用表2所示33個聲學(xué)單元轉(zhuǎn)寫標(biāo)注并生成拉丁字母.txt文本文件.其中sil為語音起止符.
表2 維吾爾語語音標(biāo)注聲學(xué)單元(共33)
建聲學(xué)模型:考慮到語料大小以及話語區(qū)間標(biāo)注的精確度,本研究采用種子(seed)模型引導(dǎo)大語料,構(gòu)建聲學(xué)模型方法.具體做法如下:
從語音語料中選擇10個話者500個話語(男性5人,女性5人),用表2中聲學(xué)單元進(jìn)行人工準(zhǔn)確地標(biāo)注音素生成.lab文件;
利用HTK toolkit對以上語料(包括.wav文件和標(biāo)注的.lab文件)進(jìn)行聲學(xué)模型訓(xùn)練,產(chǎn)生高精度的種子模型;
對剩余的語音語料(共54個話者語音.wav和.txt文本),利用viterbi alignment算法參照種子模型進(jìn)行自動切分,并對每個切出音素,按前后2個音素的組合產(chǎn)生學(xué)習(xí)用數(shù)據(jù),再利用學(xué)習(xí)用數(shù)據(jù)在HTK toolkit上訓(xùn)練新的聲學(xué)模型.實現(xiàn)過程如下:學(xué)習(xí)數(shù)據(jù)的生成→topology學(xué)習(xí)→label學(xué)習(xí)→連接學(xué)習(xí).如此,得到的聲學(xué)模型為三音子(triphone)HMMnet格式聲學(xué)模型;
用新的聲學(xué)模型替換第1次樣本seed模型,重復(fù)上述訓(xùn)練過程,生成最終的33個HMMnet格式聲模(AM).
建語言模型:一般對容量為V的文本訓(xùn)練集訓(xùn)練N-gram語言模型時,要產(chǎn)生VN個N-gram參量,參量總數(shù)隨著N的增大急劇增大.為此,本文研討基于詞類(class N-gram)的語言模型.對于長度為V的詞串W=w1,w2,···,wi,具體做法如下:
將每個詞作為一個類初始化;
對每個詞或類指定能反映詞與詞之間連接關(guān)系的向量ν(x);
把向量ν(x)分別記作后行向量νt(x)和先行向量νf(x),如下所示:
其中,pt(wi|x)和pf(wi|x)分別表示從某個詞或者類到后行一個詞和前行一個詞2-gram概率值.
通過式(8)把合并損失最小的2個類合并為一個:
其中,cnew為合并后的類;cold為合并前的類;D(νc,νw)為向量νc和νw的歐氏距離平方.在本次試驗中利用表3數(shù)據(jù),以及選用詞頻為200以上的詞構(gòu)建6萬詞詞典,并用palmkit工具生成2-gram及3-gram統(tǒng)計語言模型.
利用上述方法生成的聲學(xué)模型和語言模型,引用Julius[15]識別器實現(xiàn)語音識別.為便于比較實驗結(jié)果,本文給出了語音數(shù)據(jù)在不經(jīng)過人工標(biāo)注切分和經(jīng)過人工標(biāo)注切分兩種情況下的實驗結(jié)果.對于200個上下文無關(guān),一般話筒輸入話語和公用電話輸入話語通過3-gram語言模型進(jìn)行識別的結(jié)果如圖10所示.
實驗結(jié)果表明,在同等數(shù)據(jù)的3-gram語言模型條件下,通過少量語料的人工切分標(biāo)注來生成種子聲學(xué)模型再引導(dǎo)大語音建模方法的識別率為72.5%,明顯優(yōu)于無人工標(biāo)注(識別率為68.3%),識別率提高了4.2個百分點.同時也發(fā)現(xiàn)實時電話輸入語音識別的結(jié)果低于一般話筒輸入的識別結(jié)果.這可能因為電話語音噪音大,信號特性復(fù)雜難以獲得高精度特征參數(shù)而引起.
表3 用于統(tǒng)計模型的維吾爾語文文本集
圖10 3-gram模型連續(xù)語音識別結(jié)果
本次實驗采用了統(tǒng)計機(jī)器翻譯SMT(Statistical machine translation)技術(shù).從本研究設(shè)計制造的民-漢醫(yī)療衛(wèi)生用語多文本對齊語料[16]中選用維-漢,蒙-漢各30K短語對齊文本語料,統(tǒng)計生成雙語翻譯模型,對目標(biāo)語言(漢語),單獨訓(xùn)練N-gram統(tǒng)計語言模型.本次實驗引用了Moses v 0.91版本翻譯軟件[17].表4中給出了用BLEU(Bilingual Evaluation Understudy)[18]值自動評測的翻譯實驗結(jié)果.在測試階段,另外生成510對測試文本,并對每個短語又設(shè)定14個參考翻譯短句.由于實驗數(shù)據(jù)處于初建階段,本文只報告維-漢和蒙-漢單向翻譯結(jié)果.
表4 機(jī)器翻譯自動測試實驗結(jié)果
本文討論基于隱馬爾可夫模型(HMMs)的語音合成方法.首先利用一名漢語普通話者朗讀時長約為1 h的醫(yī)療衛(wèi)生用語短句文本.
其次,對于錄制話語采用16kHz采樣頻率,25-ms Hamming窗口進(jìn)行預(yù)處理,每隔5-ms幀長,抽取出語音基音F0和到譜參數(shù).抽出基音參數(shù)logF0值和變化率參數(shù)構(gòu)成基音F0特征向量.由25維倒譜系數(shù),過零系數(shù),變化率參數(shù)組成倒譜特征向量.然后用自然語言處理工具對錄制話語進(jìn)行聲學(xué)單元標(biāo)注,確立話語中詞和句子的發(fā)音位置信息.聲學(xué)單元的訓(xùn)練用5-狀態(tài)left-to-right HMMs進(jìn)行,每個HMM對應(yīng)話語中的各聲學(xué)單元.最后,合并標(biāo)注文本,基音及到譜特征向量,訓(xùn)練HMMs模型.
本次合成實驗引用HTS(HMM-based speech synthesis system)工具中的合成聲碼器,實現(xiàn)mel-對數(shù)譜近似(Mel Log Spectrum Approximation,MLSA)合成聲碼器.
通過人工聽力評估語音合成試驗結(jié)果.在本次試驗中系統(tǒng)對測試輸入話語,經(jīng)機(jī)器翻譯及語音合成輸出其結(jié)果.通過觀察發(fā)現(xiàn),合成實驗結(jié)果較接近原始錄音語音.但是對于不同話語的輸入,系統(tǒng)輸出語音的精確度有明顯差距.這主要可能是:連續(xù)語音識別單元識別精度不高,誤識別字符串得不到準(zhǔn)確的翻譯,從而影響了語音合成效果;并且用于語音合成訓(xùn)練的語料有限,使HMMs模型及合成參數(shù)特征提取精度不夠高,也可能是原因之一.
本文介紹了語音工程技術(shù)在民族語言文字處理方面的應(yīng)用研究情況.對于說話人識別問題提出了GMMUBM-SVM混合技術(shù)的識別方案.試圖充分發(fā)揮GMM及SVM兩種算法各自強(qiáng)項提高系統(tǒng)魯棒性.從本次實驗可確認(rèn),GMM-SVM組合識別方法對于短暫語音信號有較好魯棒性,識別率好于常用GMM-UBM方法(約高3%).針對語音翻譯技術(shù)的工程應(yīng)用,本文提出在醫(yī)療衛(wèi)生領(lǐng)域使用民-漢語言會話翻譯系統(tǒng).對于缺乏語料的民族語言,本文提取高精度聲學(xué)模型,采取了少語料人工標(biāo)注生成語音環(huán)境精密的seed聲摸,再用之引導(dǎo)大語音語料訓(xùn)練聲模.實驗結(jié)果得出結(jié)論,與無人工標(biāo)注語音-文本對齊語料直接訓(xùn)練聲摸情況相比,有人工標(biāo)注的方式性能要好.該實驗證明語音環(huán)境的準(zhǔn)確掌握對于缺乏語料的民語實現(xiàn)連續(xù)語音識別確有較大幫助.最后還嘗試了語音翻譯技術(shù)實用系統(tǒng)的構(gòu)造及測試,并達(dá)到預(yù)期目的.
由于語音技術(shù)在少數(shù)民族地區(qū)的研究開發(fā)工作剛剛起步,收集準(zhǔn)備的試驗數(shù)據(jù)及技術(shù)方法有限,本文僅僅討論了一些簡單的應(yīng)用結(jié)果.今后將加大建立能夠全面覆蓋民語自然語音、語言知識網(wǎng)絡(luò)的語料庫系統(tǒng),并結(jié)合具體語言結(jié)構(gòu)建立多語言語音學(xué)知識系統(tǒng),從而進(jìn)一步提高應(yīng)用系統(tǒng)的性能.