基于語(yǔ)言模型的一種音字轉(zhuǎn)換高效解碼算法

2016-11-19 06:10:36張志強(qiáng)張?zhí)t刁琦董巒

智能計(jì)算機(jī)與應(yīng)用 2016年5期

關(guān)鍵詞：模型

張志強(qiáng) 張?zhí)t 刁琦董巒

摘要：音字轉(zhuǎn)換是漢語(yǔ)言信息處理的一個(gè)重要方面，在語(yǔ)音識(shí)別、漢語(yǔ)拼音輸入等方面都有廣泛的的應(yīng)用。本文首先回顧了詞樹(shù)的理論知識(shí)，然后對(duì)詞樹(shù)進(jìn)行求解，最后對(duì)詞樹(shù)進(jìn)行剪枝，隨之，對(duì)產(chǎn)生的多音字進(jìn)行處理。基于上面的理論，提出了一種基于語(yǔ)言模型實(shí)現(xiàn)音字轉(zhuǎn)換的高效解碼算法，這種算法涉及到零概率重估、路徑剪枝和多音字處理等多項(xiàng)技術(shù)，實(shí)驗(yàn)結(jié)果表明這種算法可以達(dá)到97.78 %的準(zhǔn)確率，與以往的算法相比，效果比較顯著。

關(guān)鍵詞：語(yǔ)言模型；n-gram 模型；音字轉(zhuǎn)換

中文分類(lèi)號(hào)：TP391.1 文獻(xiàn)標(biāo)識(shí)碼A

引言

語(yǔ)言模型（Language model）[1]是語(yǔ)音識(shí)別系統(tǒng)（speech recognition system）[2]的一個(gè)重要組成部分。語(yǔ)言模型，通?？煞譃榛诮y(tǒng)計(jì)的語(yǔ)言模型（Statistical language model）和基于規(guī)則的語(yǔ)言模型（Rule based language model）兩大類(lèi)。在現(xiàn)在的技術(shù)條件下，基于統(tǒng)計(jì)的語(yǔ)言模型（Statistical language model）處于主流地位，具體是通過(guò)對(duì)大量的語(yǔ)料進(jìn)行統(tǒng)計(jì)[3]，獲得詞與詞之間相互連接信息，為評(píng)價(jià)一個(gè)詞串是否有意義提供基礎(chǔ)依據(jù)。

統(tǒng)計(jì)語(yǔ)言模型中，n-gram語(yǔ)言模型是公認(rèn)的研發(fā)設(shè)計(jì)代表[4]，因其結(jié)構(gòu)相對(duì)簡(jiǎn)單，而且易于構(gòu)建與應(yīng)用。但是，在實(shí)際運(yùn)用n-gram語(yǔ)言模型時(shí)，卻會(huì)不斷發(fā)現(xiàn)，由于訓(xùn)練語(yǔ)料稀疏而引起了一定的零概率問(wèn)題[5]。而采用本文提出的算法，仿真實(shí)驗(yàn)結(jié)果表明對(duì)解決這一問(wèn)題則呈現(xiàn)出優(yōu)質(zhì)有效的運(yùn)行效果。本文即針對(duì)這一課題內(nèi)容展開(kāi)分析論述。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于語(yǔ)言模型的一種音字轉(zhuǎn)換高效解碼算法