俄語(yǔ)語(yǔ)音識(shí)別技術(shù)的研究現(xiàn)狀和發(fā)展趨勢(shì)

2015-12-21 11:58:58馬延周

電腦知識(shí)與技術(shù) 2015年27期

馬延周

摘要：語(yǔ)音識(shí)別技術(shù)的發(fā)展，推動(dòng)了人機(jī)交互的智能化，語(yǔ)音識(shí)別實(shí)用化技術(shù)使得人們之間的交流更加方便順暢。本文從語(yǔ)音識(shí)別的發(fā)展歷程及俄語(yǔ)語(yǔ)音識(shí)別的現(xiàn)狀入手，對(duì)語(yǔ)音識(shí)別的基本原理、基于HMM模型的語(yǔ)音識(shí)別技術(shù)和大詞匯量連續(xù)語(yǔ)音識(shí)別的理論基礎(chǔ)進(jìn)行了詳細(xì)分析，并介紹了俄語(yǔ)語(yǔ)音聲學(xué)模型和語(yǔ)言模型的創(chuàng)建辦法。針對(duì)語(yǔ)音識(shí)別技術(shù)面臨的難點(diǎn)問(wèn)題，探討了應(yīng)對(duì)的策略，最后對(duì)俄語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展方向和應(yīng)用前景作了展望。

關(guān)鍵詞：語(yǔ)音識(shí)別；HMM；俄語(yǔ)聲學(xué)模型；俄語(yǔ)語(yǔ)言模型

中圖分類號(hào)：TP18 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2015）29-0155-04

Research Status and Development Trend of Russian Speech Recognition Technology

MA Yan-zhou

（PLA University of Foreign Languages， Luoyang 471003， China）

Abstract： Abstract： Technological advance of speech recognition facilitates intelligent human-computer interactions. And applications of speech recognition technology have made human communications easier and more instantaneous. Starting with a look at the past and the present of Russian speech recognition， this paper attempts to conduct a detailed analysis on fundamental principles of speech recognition， speech recognition technology based on Hammond theoretical groundwork for consecutive vast-vocabulary speech recognition. The paper also demonstrates steps for establishing models in Russian acoustics and speeches. As to technological barriers in speech recognition， it probes into possible way out strategies. Finally， it predicts future development direction and application prospects for Russian speech recognition technology.

Key words： speech recognition； hmm；russian acoustic models； russian language models

俄語(yǔ)（Русскийязык）[1]是俄羅斯和聯(lián)合國(guó)的官方語(yǔ)言，也是我國(guó)少數(shù)民族正式語(yǔ)言。在前蘇聯(lián)和俄羅斯使用，俄語(yǔ)在蘇聯(lián)時(shí)期具有很重要的地位，直到現(xiàn)在仍然有些獨(dú)聯(lián)體國(guó)家在廣泛使用，雖然這些國(guó)家已經(jīng)開(kāi)始強(qiáng)調(diào)本地語(yǔ)言的重要性，但在這些國(guó)家之間依然使用俄語(yǔ)進(jìn)行交流。全球有超過(guò)一億四千萬(wàn)把俄語(yǔ)作為母語(yǔ)使用，有近四千五百萬(wàn)人以第二語(yǔ)言使用，使用俄語(yǔ)媒體的有3億多人。我國(guó)俄羅斯族使用俄語(yǔ)進(jìn)行交流，聚集地分布在新疆地區(qū)的阿勒泰、伊犁、塔城及內(nèi)蒙古呼倫貝爾市的額爾古納、滿洲里等地，

語(yǔ)音識(shí)別（Speech Recognition）[2]是指在各種情況下，識(shí)別出語(yǔ)音的內(nèi)容，讓機(jī)器聽(tīng)懂人說(shuō)的話，根據(jù)其信息而執(zhí)行人的不同意圖。它是一門(mén)交叉學(xué)科，涉及與計(jì)算機(jī)、語(yǔ)音語(yǔ)言學(xué)、通信、信號(hào)處理、數(shù)理統(tǒng)計(jì)、神經(jīng)心理學(xué)人工智能、和神經(jīng)生理學(xué)等學(xué)科。能夠能滿足不同需要的語(yǔ)音識(shí)別系統(tǒng)的實(shí)現(xiàn)已經(jīng)成為可能，它的前提是模式識(shí)別、信號(hào)處理技術(shù)、計(jì)算機(jī)技術(shù)和聲學(xué)技術(shù)等的發(fā)展。近年來(lái)，軍事、交通等領(lǐng)域，尤其在計(jì)算機(jī)、人工智能等領(lǐng)域得到廣泛應(yīng)用。

俄語(yǔ)語(yǔ)音識(shí)別是一個(gè)有巨大潛力的研究方向，不僅能夠?yàn)槿藗兊纳a(chǎn)生活、日常交往提供極大的便捷性和高效性，而且在政治、軍事、經(jīng)濟(jì)等各個(gè)領(lǐng)域都有著重要的研究?jī)r(jià)值和應(yīng)用前景。本文著重介紹語(yǔ)音識(shí)別發(fā)展歷程、闡述俄語(yǔ)語(yǔ)音識(shí)別關(guān)鍵技術(shù)、分析俄語(yǔ)語(yǔ)音識(shí)別未來(lái)的發(fā)展趨勢(shì)。

1 俄語(yǔ)語(yǔ)音識(shí)別的現(xiàn)狀

俄語(yǔ)連續(xù)語(yǔ)音識(shí)別取得快速發(fā)展，利益于技術(shù)的進(jìn)步。隨著語(yǔ)音識(shí)別在技術(shù)層面的不斷突破與創(chuàng)新，對(duì)英語(yǔ)的識(shí)別慢慢成熟，然后逐漸擴(kuò)展到其他語(yǔ)種如漢語(yǔ)、俄語(yǔ)等。

1.1語(yǔ)音識(shí)別技術(shù)的發(fā)展

20世紀(jì)50年代，語(yǔ)音識(shí)別的研究開(kāi)始借助機(jī)器來(lái)實(shí)現(xiàn)。1952年，一個(gè)特定人獨(dú)立數(shù)字識(shí)別系統(tǒng)[3]由貝爾（Bell）實(shí)驗(yàn)室的Davis、Diddulph和Balashelk首次研制，該系統(tǒng)成功識(shí)別10個(gè)英語(yǔ)數(shù)字。1959年，英格蘭的Fry和Denes利用譜分析技術(shù)和模板匹配技術(shù)，提高了音素的識(shí)別精度，建立了一個(gè)能夠識(shí)別9個(gè)輔音和4個(gè)元音的識(shí)別系統(tǒng)。20世紀(jì)60年代，經(jīng)過(guò)Faut和Stevens的努力，語(yǔ)音生成理論初步形成。動(dòng)態(tài)規(guī)劃方法[4]由蘇聯(lián)的Vintsyuk提出，并實(shí)現(xiàn)了對(duì)兩段語(yǔ)音進(jìn)行對(duì)齊。70年代取得一系列重大突破，基本實(shí)現(xiàn)孤立詞識(shí)別。俄羅斯推進(jìn)了模板匹配思想在語(yǔ)音識(shí)別中的應(yīng)用；利用動(dòng)態(tài)規(guī)劃方法實(shí)現(xiàn)語(yǔ)音識(shí)別也由日本的科學(xué)家實(shí)驗(yàn)成功。20世紀(jì)80年代，語(yǔ)音識(shí)別研究的一個(gè)主要特點(diǎn)是由模板匹配方法向統(tǒng)計(jì)建模方法的轉(zhuǎn)變，特別是隱馬爾可夫模型[5-6]。盡管HMM眾所周知，但是直到20世紀(jì)80年代中期HMM模型才廣泛被世界各地的語(yǔ)音識(shí)別實(shí)驗(yàn)室熟悉和采納。另一個(gè)新方向是利用神經(jīng)網(wǎng)絡(luò)解決語(yǔ)音識(shí)別問(wèn)題，促進(jìn)了該技術(shù)在語(yǔ)音識(shí)別領(lǐng)域的應(yīng)用[7-9]。20世紀(jì)80年代后期，在DAPRA的支持下，對(duì)大詞匯連續(xù)語(yǔ)音識(shí)別系統(tǒng)的研制也取得了顯著的成果，研究機(jī)構(gòu)主要有CMU、BBN、林肯實(shí)驗(yàn)室、MIT、AT&T貝爾實(shí)驗(yàn)室。

20世紀(jì)90年代以來(lái)，語(yǔ)音識(shí)別開(kāi)始實(shí)用化研究，并取得了突破性的進(jìn)展。其中算法的研究取得了非常明顯的效果，并提升了系統(tǒng)的性能，如最大似然線性回歸（Maximum Likelihood Linear Regression， MLLR），最大后驗(yàn)概率準(zhǔn)則估計(jì)（MaximumA-Posteriori Estimation， MAP），以及用于模型參數(shù)綁定的決策樹(shù)狀態(tài)聚類等算法，這些算法的不斷優(yōu)化，也使得應(yīng)用于實(shí)際的語(yǔ)音識(shí)別不斷出現(xiàn)。最具有有代表性的系統(tǒng)有：Dragon System公司的NaturallySpeaking，Nuance公司的Nuance Voice Platform語(yǔ)音平臺(tái)，IBM公司推出的ViaVoice， Sun的VoiceTone，Microsoft的Whisper，等。在美國(guó)國(guó)家標(biāo)準(zhǔn)和技術(shù)研究所（Nationa lInstitute of standardsand Technology，NIST）和DARPA的不斷推動(dòng)下，各個(gè)研究機(jī)構(gòu)不斷嘗試語(yǔ)音識(shí)別任務(wù)，目的是不斷提高識(shí)別的性能。進(jìn)入21世紀(jì)，在向廣度和深度兩方面，自動(dòng)語(yǔ)音識(shí)別得到了更為廣泛的研究。魯棒性語(yǔ)音識(shí)別，進(jìn)行了了細(xì)致的調(diào)研，特別是在置信度和句子確認(rèn)方面非常有效，尤其對(duì)處理病句。在21世紀(jì)的前10年，信息技術(shù)領(lǐng)域最重要的十大科技發(fā)展技術(shù)之一就有語(yǔ)音識(shí)別技術(shù)的一席之地，人機(jī)接口關(guān)鍵的語(yǔ)音識(shí)別技術(shù)，已經(jīng)成為一個(gè)具有競(jìng)爭(zhēng)性的新興高技術(shù)產(chǎn)業(yè)，它的實(shí)用化研究將成為未來(lái)的方向。

1.2俄語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展

語(yǔ)音技術(shù)的研究主要集中在幾個(gè)主要的語(yǔ)言，如英語(yǔ)，法語(yǔ)，西班牙語(yǔ)，漢語(yǔ)和西班牙語(yǔ)，一些其他語(yǔ)言尤其是東歐語(yǔ)言很少受到注意。但是近幾年在俄羅斯，捷克，波蘭，塞爾維亞，克羅地亞等俄語(yǔ)區(qū)對(duì)俄語(yǔ)語(yǔ)音技術(shù)的研究活動(dòng)正在穩(wěn)步上升。

俄羅斯科學(xué)院緊跟世界語(yǔ)音識(shí)別技術(shù)的發(fā)展，結(jié)合俄語(yǔ)自身的獨(dú)有發(fā)音特點(diǎn)進(jìn)行了卓有成效的研究并取得了一系列的成果。在開(kāi)發(fā)聲學(xué)，詞匯和語(yǔ)言模型時(shí)采取特別重視俄語(yǔ)的細(xì)節(jié)，對(duì)于聲學(xué)模型，采用知識(shí)和基于統(tǒng)計(jì)的方法來(lái)創(chuàng)建幾個(gè)不同的音素集10。對(duì)于語(yǔ)言模型（LM），從不同網(wǎng)站自動(dòng)收集新聞文本語(yǔ)料，用統(tǒng)計(jì)分析的方法將訓(xùn)練文本數(shù)據(jù)和語(yǔ)法相結(jié)合，計(jì)算不同情況下n-gram中單詞的頻率，優(yōu)化n-gram模型，以建立更好的n-gram模型[11]。在基本語(yǔ)音識(shí)別單元的問(wèn)題上采用距離最小信息不匹配的原則，建立語(yǔ)素級(jí)單元，顯著減少誤差概率[12]。

語(yǔ)料庫(kù)是語(yǔ)音識(shí)別最基本的支撐，文本語(yǔ)料和口語(yǔ)語(yǔ)料都是一個(gè)語(yǔ)料庫(kù)不可或缺的組成部分，任缺其一則語(yǔ)料庫(kù)就不能反映該語(yǔ)言的完整信息，也沒(méi)有辦法在此基礎(chǔ)上進(jìn)行大詞匯、非特定人連續(xù)俄語(yǔ)語(yǔ)音識(shí)別的研究[13]。俄羅斯對(duì)語(yǔ)料庫(kù)的研究起步比較晚，在20世紀(jì)一直落后于世界語(yǔ)料庫(kù)的發(fā)展，缺乏系統(tǒng)的理論研究和先進(jìn)的實(shí)踐成果。但近十年來(lái)，隨著俄羅斯國(guó)家語(yǔ)料庫(kù)建立和不斷完善，俄語(yǔ)語(yǔ)音技術(shù)的研究正在慢慢興起并取得了一些矚目的成就。

國(guó)內(nèi)對(duì)俄語(yǔ)語(yǔ)音的研究主要集中在教學(xué)方面。使用統(tǒng)計(jì)的方法，基于HMM對(duì)俄語(yǔ)語(yǔ)音進(jìn)行建模和識(shí)別研究，目前還沒(méi)有發(fā)現(xiàn)相關(guān)的文獻(xiàn)記錄。

2 語(yǔ)音識(shí)別技術(shù)

語(yǔ)音識(shí)別系統(tǒng)根據(jù)角度、范圍、性能等差別，有以下的分類。

根據(jù)詞匯量的大小分可為小詞匯量（10至100）、中詞匯量（100至500）和大詞匯量（大于500）。根據(jù)發(fā)音方式可分為孤立詞（isolated word）識(shí)別、連接詞（connected word）識(shí)別、連續(xù)語(yǔ)音（continuous word）識(shí)別等。根據(jù)說(shuō)話人特征可分為特定（speaker-dependent）說(shuō)話人和非特定（speaker-independent）說(shuō)話人。根據(jù)語(yǔ)音識(shí)別的方法不同進(jìn)行了模板匹配、隨機(jī)模型和概率語(yǔ)法分析等分類方法。

2.1 語(yǔ)音識(shí)別基本原理

通過(guò)計(jì)算機(jī)的輔助功能把輸入的語(yǔ)音信號(hào)變換為對(duì)應(yīng)的文本和命令，并且能夠接受人類的語(yǔ)音、理解人類的意圖，是語(yǔ)音識(shí)別技術(shù)研究的根本目的。語(yǔ)音識(shí)別系統(tǒng)核心是一套語(yǔ)音取樣、識(shí)別、匹配的模式匹配系統(tǒng)[2]，基本原理如圖1所示。

語(yǔ)音識(shí)別系統(tǒng)由三個(gè)基本單元組成，它包含特征提取、模式匹配和參考模式庫(kù)，雖然它是模式識(shí)別系統(tǒng)，但它的結(jié)構(gòu)要比普通的模式識(shí)別系統(tǒng)要復(fù)雜，因?yàn)檎Z(yǔ)音所包含的信息是復(fù)雜多樣的語(yǔ)言信息，結(jié)構(gòu)也是多變的。首先對(duì)輸入的語(yǔ)音信號(hào)進(jìn)行預(yù)處理，預(yù)處理包括適當(dāng)放大信號(hào)功率并對(duì)增益進(jìn)行有效控制，之后進(jìn)行反混疊濾波以消除信號(hào)的干擾；然后將模擬信號(hào)轉(zhuǎn)化為數(shù)字信號(hào)即數(shù)字化處理，便于存儲(chǔ)和處理；然后進(jìn)行特征提取，并使用一些參數(shù)來(lái)表示的語(yǔ)音信號(hào)的特性；最后對(duì)其進(jìn)行識(shí)別。語(yǔ)音識(shí)別又分為兩階段：訓(xùn)練和識(shí)別。在訓(xùn)練階段，利用特征參數(shù)表示語(yǔ)音信號(hào)的相應(yīng)特征，得到標(biāo)準(zhǔn)數(shù)據(jù)即模板，將模板構(gòu)建成一個(gè)數(shù)據(jù)庫(kù)即模板庫(kù)；在識(shí)別階段，將語(yǔ)音特征與模板庫(kù)中的每一個(gè)模板進(jìn)行比較，找到了最相似的參考模板，這就是識(shí)別的結(jié)果。

2.2 HMM模型技術(shù)

語(yǔ)音識(shí)別早期采用的有矢量量化（Vector quantization， VQ）技術(shù)、動(dòng)態(tài)時(shí)間規(guī)整（dynamic time warping， DTW）技術(shù)等，從處理難度上看，最簡(jiǎn)單的是小詞匯量、特定人、孤立詞的語(yǔ)音識(shí)別，最難解決的是大詞匯量、非特定人、連續(xù)語(yǔ)音識(shí)別。當(dāng)今語(yǔ)音識(shí)別系統(tǒng)采用的主流算法是HMM模型技術(shù)。

HMM模型的狀態(tài)不能被直接觀察到，但可以通過(guò)觀測(cè)向量序列來(lái)觀察到，這些向量都是通過(guò)某些特定的概率密度分布來(lái)表現(xiàn)為各種狀態(tài)的，每個(gè)觀測(cè)向量都是由一個(gè)狀態(tài)序列產(chǎn)生的，這些狀態(tài)序列具有相應(yīng)的概率密度分布。HMM是一個(gè)雙重隨機(jī)過(guò)程：具有一定狀態(tài)數(shù)量的隱馬爾可夫鏈和顯示隨機(jī)函數(shù)集。HMM的基本問(wèn)題及解決算法6-9

1）評(píng)估問(wèn)題（前向算法）。

現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=（π，A，B），如何計(jì)算觀測(cè)序列的概率，進(jìn)一步可對(duì)該HMM做出相關(guān)評(píng)估。利用forward算法分別以每個(gè)HMM產(chǎn)生給定觀測(cè)序列O的概率進(jìn)行計(jì)算，然后從其中選出最優(yōu)秀的HMM模型。

經(jīng)典應(yīng)用例子就是語(yǔ)音識(shí)別。在HMM的語(yǔ)音識(shí)別描述中，每個(gè)單詞對(duì)應(yīng)一個(gè)HMM，每個(gè)觀測(cè)序列全部由一個(gè)單詞的語(yǔ)音來(lái)構(gòu)成，單詞的識(shí)別可以通過(guò)評(píng)估而選出最可能的HMM，此HMM由產(chǎn)生觀測(cè)序列所代表的讀音實(shí)現(xiàn)。

2）解碼問(wèn)題（Viterbi算法）

現(xiàn)有觀測(cè)序列O=O1O2O3…Ot以及模型參數(shù)λ=（π，A，B），如何尋找最優(yōu)的隱含狀態(tài)序列。此類問(wèn)題比較關(guān)注馬爾科夫模型中的隱含狀態(tài)，在這些狀態(tài)中雖然不能直接觀測(cè)，但價(jià)值更大，可以利用Viterbi算法來(lái)解決。

實(shí)際例子是進(jìn)行分詞，分詞問(wèn)題可以用HMM來(lái)解決。這句話的分割方法可以看做是一個(gè)隱式的狀態(tài)，而這句話可以被視為一個(gè)給定的條件，從而找出基于HMM的可能正確的分割方法。

3）訓(xùn)練問(wèn)題（Baum-Welch算法即前向后向算法）

此時(shí)HMM的模型參數(shù)λ=（π，A，B）未知，對(duì)這些參數(shù)進(jìn)行調(diào)整，使得觀測(cè)序列O=O1O2O3…Ot的概率最大，使用Reversed Viterbi算法以及Baum-Welch算法可以解決。

2.3 大詞匯量連續(xù)語(yǔ)言識(shí)別

在語(yǔ)音識(shí)別研究中難度和挑戰(zhàn)性最大為課題應(yīng)該是基于大詞匯量的、非特定人的連續(xù)語(yǔ)音識(shí)別[13]。在詞匯量大于1000詞的時(shí)候，比較容易混淆的詞數(shù)量增加，誤識(shí)率約為基于小詞匯量的、特定人的孤立詞識(shí)別系統(tǒng)的50倍左右。而且還帶來(lái)兩個(gè)重要的、不易解決的問(wèn)題：語(yǔ)流的切分和連續(xù)語(yǔ)音的發(fā)音變化。此時(shí)采用統(tǒng)一框架可以有效解決這個(gè)問(wèn)題。大詞匯量連續(xù)語(yǔ)音識(shí)別總體框架[14]如圖2所示。

俄語(yǔ)語(yǔ)音信號(hào)分析后，形成特征向量，并通過(guò)字典識(shí)別模型，然后，根據(jù)語(yǔ)言模型的語(yǔ)法，將輸入的語(yǔ)音與模板匹配，在句子層面進(jìn)行組合。從俄語(yǔ)聲學(xué)模型、俄語(yǔ)語(yǔ)言模型敘述大詞匯量連續(xù)語(yǔ)音識(shí)別的過(guò)程。

2.3.1聲學(xué)模型

設(shè)計(jì)俄語(yǔ)語(yǔ)音識(shí)別系統(tǒng)底層相應(yīng)的HMM子詞單元模型，需要充分考慮俄語(yǔ)聲學(xué)和語(yǔ)音學(xué)的特征。俄語(yǔ)基本聲學(xué)單元的選擇是聲學(xué)建模過(guò)程中一個(gè)基本而重要的問(wèn)題。在俄語(yǔ)連續(xù)語(yǔ)音識(shí)別中，可供選擇的基本單元包括詞、音節(jié)、元輔音等。識(shí)別基本單元的選擇一般基于語(yǔ)音學(xué)知識(shí)。

俄語(yǔ)字母是語(yǔ)音的書(shū)面形式，每個(gè)俄語(yǔ)字母都有自己的字母名稱。元音字母的名稱和讀音相同，輔音字母的名稱是在該輔音后加一個(gè)元音[15-16]。如字母с的名稱為эс，字母б的名稱為бэ等。字母名稱通常用于讀某些縮寫(xiě)詞。俄語(yǔ)字母共有33個(gè)字母如表1所示。

根據(jù)俄語(yǔ)詞的發(fā)音特征、音節(jié)的發(fā)音特征和字母的發(fā)音特征，選擇音素作為子詞單元，然后就可以進(jìn)行HMM訓(xùn)練，首先用一種很粗糙的方法進(jìn)行初始分段，然后向前向后算法或K-均值算法用于多次迭代，自動(dòng)收斂到一個(gè)最佳的模型，并實(shí)現(xiàn)了一個(gè)合理的子詞分割。這樣就可以初步完成俄語(yǔ)的聲學(xué)建模，建設(shè)一個(gè)俄語(yǔ)語(yǔ)音參考模式庫(kù)。

2.3.2 統(tǒng)計(jì)語(yǔ)言模型

自然語(yǔ)言處理問(wèn)題必然要乃至統(tǒng)計(jì)語(yǔ)言模型[17]，如語(yǔ)音識(shí)別、機(jī)器翻譯、分詞、詞性標(biāo)注等等。統(tǒng)計(jì)語(yǔ)言模型是計(jì)算概率的模型，即。使用語(yǔ)言模型，可以確定一個(gè)單詞序列的概率，或給定一個(gè)單詞的數(shù)目，它可以預(yù)測(cè)下一個(gè)最有可能的單詞。

那么如何計(jì)算一個(gè)句子的概率呢？給定句子（詞語(yǔ)序列），它的概率可以表示為：

由于上式中的參數(shù)過(guò)多，因此需要近似的計(jì)算方法。下面介紹適用于俄語(yǔ)的n-gram統(tǒng)計(jì)語(yǔ)言模型。

n-gram模型即n-1階馬爾科夫模型，首先假設(shè)：當(dāng)前詞的出現(xiàn)概率僅僅與前面n-1個(gè)詞相關(guān)。因此（1）式可以近似為：

當(dāng)n值為1、2、3時(shí)，n-gram模型分別稱為unigram、bigram和trigram語(yǔ)言模型。n-gram模型的參數(shù)就是條件概率。N取值越大，模型越準(zhǔn)確但計(jì)算越復(fù)雜計(jì)算量越大。在俄語(yǔ)語(yǔ)言模型的建立過(guò)程中，采用最多是二元模型和三元模型。

2.3.3 連續(xù)語(yǔ)音識(shí)別系統(tǒng)的性能評(píng)測(cè)

評(píng)定連續(xù)語(yǔ)音識(shí)別系統(tǒng)的優(yōu)劣，觀測(cè)系統(tǒng)的性能，一般都是針對(duì)不同的識(shí)別任務(wù)，不同的任務(wù)單詞庫(kù)和任務(wù)語(yǔ)句庫(kù)，需要不同的評(píng)價(jià)標(biāo)準(zhǔn)。如果要想粗略地評(píng)估某個(gè)系統(tǒng)，可以從兩個(gè)方面去考慮，一是系統(tǒng)識(shí)別任務(wù)的難易程度即復(fù)雜性；另一個(gè)是采用該系統(tǒng)的識(shí)別系統(tǒng)的識(shí)別方法對(duì)該難度的識(shí)別任務(wù)的識(shí)別效果即識(shí)別率。在連續(xù)語(yǔ)音識(shí)別系統(tǒng)中，通過(guò)對(duì)音素、音節(jié)或詞的識(shí)別率進(jìn)行識(shí)別性能評(píng)價(jià)，常用的系統(tǒng)參數(shù)是正確率（正確率），錯(cuò)誤率和識(shí)別準(zhǔn)確率。

其中的正確數(shù)、轉(zhuǎn)換數(shù)、插入數(shù)和脫落數(shù)，采用主觀的方法來(lái)目測(cè)，馬可以通過(guò)統(tǒng)計(jì)的方法來(lái)得到。

2.4 HTK工具

語(yǔ)音識(shí)別過(guò)程涉及的算法復(fù)雜，其中最為著名的HTK由劍橋大學(xué)研發(fā)，主要用來(lái)建立基于HMM的大規(guī)模連續(xù)語(yǔ)音識(shí)別系統(tǒng)。該軟件集為開(kāi)放源代碼，可以在UNIX/Linux和Windows環(huán)境下運(yùn)行。HTK提供了一系列命令函數(shù)用于語(yǔ)音識(shí)別，包括一系列的運(yùn)行庫(kù)和工具，使用基于ASNIC模塊化設(shè)計(jì)，可以實(shí)現(xiàn)語(yǔ)音錄制、分析、標(biāo)示、HMM的訓(xùn)練、測(cè)試和結(jié)果分析。整個(gè)HTK的工作過(guò)程包括數(shù)據(jù)準(zhǔn)備、模型訓(xùn)練和識(shí)別過(guò)程。

3 語(yǔ)音識(shí)別的應(yīng)用

隨著計(jì)算機(jī)技術(shù)的進(jìn)步、算法的不斷優(yōu)化、信息處理技術(shù)的智能化，俄語(yǔ)語(yǔ)音識(shí)別技術(shù)的發(fā)展會(huì)越來(lái)越光明。應(yīng)用的范圍也會(huì)越來(lái)越廣，可能會(huì)出現(xiàn)一些新的應(yīng)用。

1）俄語(yǔ)語(yǔ)音信息檢索

網(wǎng)絡(luò)技術(shù)和多媒體技術(shù)的迅速發(fā)展，數(shù)據(jù)量急劇增多，如何在海量數(shù)據(jù)中挑選出有用的信息，并進(jìn)行相應(yīng)的分類和檢索，對(duì)合理地利用信息資源具有重要的意義。多媒體檢索技術(shù)應(yīng)運(yùn)而生。

2）俄語(yǔ)發(fā)音自學(xué)技術(shù)

非母語(yǔ)語(yǔ)言學(xué)習(xí)成為目前教育領(lǐng)域的一個(gè)熱點(diǎn)，而自學(xué)是語(yǔ)言學(xué)習(xí)的一個(gè)有效途徑，它具有不受時(shí)間和空間限制、靈活方便的特點(diǎn)，一種稱為計(jì)算機(jī)輔助語(yǔ)言學(xué)習(xí)的技術(shù)誕生了。有幾個(gè)普通問(wèn)題和關(guān)鍵技術(shù)是必須要考慮和解決的：標(biāo)準(zhǔn)發(fā)音語(yǔ)料庫(kù)和非標(biāo)準(zhǔn)發(fā)音語(yǔ)料庫(kù)、學(xué)習(xí)者發(fā)音的分級(jí)標(biāo)準(zhǔn)、語(yǔ)音對(duì)齊、衡量發(fā)音質(zhì)量的評(píng)判標(biāo)準(zhǔn)和發(fā)音矯正。

3）基于俄語(yǔ)語(yǔ)音情感處理

人與人的交流，除了語(yǔ)言信息外，非語(yǔ)言信息也起著非常重要的作用，包含在語(yǔ)音信號(hào)中的情感因素[18]，也反映了信息的一個(gè)方面。情感的分析和識(shí)別也是一個(gè)非常困難的研究方向。

4）嵌入式俄語(yǔ)語(yǔ)音識(shí)別技術(shù)

后PC時(shí)代智能終端的飛速發(fā)展，為人機(jī)之間的自然、快捷交互提供了可能。當(dāng)前嵌入式語(yǔ)音識(shí)別的應(yīng)用領(lǐng)域還比較有限，未來(lái)應(yīng)用可能會(huì)更加廣泛。

4 總結(jié)

語(yǔ)音識(shí)別技術(shù)的實(shí)用研究是一項(xiàng)極具挑戰(zhàn)性的工作，雖然經(jīng)歷了近半個(gè)世紀(jì)的發(fā)展，取得了一些突破性的進(jìn)展。語(yǔ)音識(shí)別技術(shù)在俄語(yǔ)方面的應(yīng)用更是如此，不僅要解決語(yǔ)音識(shí)別技術(shù)本身的問(wèn)題，還要解決高質(zhì)量的俄語(yǔ)語(yǔ)音語(yǔ)料庫(kù)和文本語(yǔ)料庫(kù)的問(wèn)題，同時(shí)還要解決各種算法與俄語(yǔ)適應(yīng)和匹配等其他問(wèn)題，如俄語(yǔ)自然語(yǔ)言的識(shí)別與理解、俄語(yǔ)語(yǔ)音信息的變化范圍與幅度、俄語(yǔ)語(yǔ)音的清晰度、俄語(yǔ)語(yǔ)音發(fā)音與環(huán)境噪聲及上下文的影響等等。雖然面臨諸多困難，但是隨著人類文明的不斷發(fā)展與科技的不斷進(jìn)步，相信這些問(wèn)題會(huì)在不久的將來(lái)逐一得到解決，展現(xiàn)在人們面前的是更加流暢、更加智能的人機(jī)交互界面。

參考文獻(xiàn)

[1] 趙力.語(yǔ)音信號(hào)處理 [M].北京：機(jī)械工業(yè)出版社，2011：191-215.

[2] 韓紀(jì)慶，張磊，鄭鐵然.語(yǔ)音信號(hào)處理[M].北京：清華大學(xué)出版社，2013：241-255.

[3] Karpov，K. Markov，I. Kipyatkova， et al.Large Vocabulary Russian Speech Recognition Using Syntactico-statistical Language Modeling[J].Speech Communication，2014，56（1）：213-228.

[4] Alex Waibel，ToshiyukiHanazawa，Geoffrey Hinton， et al.Phoneme Recognition Using Time-delay Neural Networks[J].Acoustics， Speech and Signal Processing， IEEE Transactions on，1989，37（3）：328-339.

[5] KH Davis，RBiddulph，SBalashek.Automatic Recognition of Spoken Digits[J].The Journal of the Acoustical Society of America，1952，24（6）：637-642.

[6] Lawrence Rabiner.A Tutorial on Hidden Markov Models and Selected Applications in Speech Recognition [J].Proceedings of the IEEE， 1989， 77（2）：257-286.

[7] Leonard E Baum，JAEagon.An Inequality with Applications to Statistical Estimation for Probabilistic Functions of Markov Processes and to a Model for Ecology[J].Bull. Amer. Math. Soc， 1967， 73（3）：360-363.

[8] Leonard E Baum，TedPetrie，GeorgeSoules， et al.A Maximization Technique Occurring in the Statistical Analysis of Probabilistic Functions of Markov Chains[J].The Annals of Mathematical Statistics，1970（1）：164-171.

[9] Leonard E Baum.An Equality and Associated Maximization Technique in Statistical Estimation for Probabilistic Functions of Markov Processes [J].Inequalities， 1972， 3（1）：1-8.

[10] ВВ Пилипенко.Распознавание дискретной и слитной речи из сверхбольших словарей на основе выборки информации из баз данных[J].Искусственный интеллект，2006（3）：548-557.

[11] ВВ Савченко，ДЮ Акатьев，НВ Карпов.Автоматическое распознавание элементарных речевых единиц методом обеляющего фильтра[J].Изв. вузов России. Радиоэлектр оника，2007（4）：35-42.

[12] ВВ Савченко.Автоматическое распознавание речи на основе кластерной модели минимальных речевых единиц в метрике Кульбака-Лейблера[J].Известия ВУЗов России.–Радиоэлектроника，2011（3）：9-19.

[13] ВВ Савченко.Фонема как элемент информационной тео рии восприятия речи[J].Известия ВУЗов России.–Радиоэ лектроника，2008（4）：3-11.

[14] ВЛ Розалиев.Построение модели эмоций по речи человека[J].Г л а в н ы й р е д а к т о р с б о р н и к а" Известия ВолгГТУ" д-р хим. наук проф. член-корр. РАН ИА Новаков， 2007（1）：65.

[15] ВЯ Чучупал，КА Маковкин，АВ Чичагов.К вопросу об оптимальном выборе алфавита моделей звуков русской речи для распознавания речи[J].Искусственный интеллект，2002，4（1）：575-579.

[16] ДН Бабин，ИЛ Мазуренко，АБ Холоденко.О перспектив ах создания системы автоматического распознавания сли тной устной русской речи[J].Интеллектуальные системы，2004，8（1）：45-70.

[17] Ирина Сергеевна Кипяткова，Алексей Анатольевич Карп ов.Автоматическая обработка и статистический анализ новостного текстового корпуса для модели языка систем ы распознавания русской речи[J].Информационно-управл яющие системы，2010（4）：1-7.

[18] Ирина Сергеевна Кипяткова，Алексей Анатольевич Карп ов.Эксперименты по распознаванию слитной русской реч и с использованием сверхбольшого словаря[J].Труды СП ИИРАН，2010，12（0）：63-74.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

俄語(yǔ)語(yǔ)音識(shí)別技術(shù)的研究現(xiàn)狀和發(fā)展趨勢(shì)