張志強(qiáng) 張?zhí)t 刁琦 董巒
摘要:音字轉(zhuǎn)換是漢語(yǔ)言信息處理的一個(gè)重要方面,在語(yǔ)音識(shí)別、漢語(yǔ)拼音輸入等方面都有廣泛的的應(yīng)用。本文首先回顧了詞樹(shù)的理論知識(shí),然后對(duì)詞樹(shù)進(jìn)行求解,最后對(duì)詞樹(shù)進(jìn)行剪枝,隨之,對(duì)產(chǎn)生的多音字進(jìn)行處理。基于上面的理論,提出了一種基于語(yǔ)言模型實(shí)現(xiàn)音字轉(zhuǎn)換的高效解碼算法,這種算法涉及到零概率重估、路徑剪枝和多音字處理等多項(xiàng)技術(shù),實(shí)驗(yàn)結(jié)果表明這種算法可以達(dá)到97.78 %的準(zhǔn)確率,與以往的算法相比,效果比較顯著。
關(guān)鍵詞:語(yǔ)言模型;n-gram 模型;音字轉(zhuǎn)換
中文分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼A
引 言
語(yǔ)言模型(Language model)[1]是語(yǔ)音識(shí)別系統(tǒng)(speech recognition system)[2]的一個(gè)重要組成部分。語(yǔ)言模型,通??煞譃榛诮y(tǒng)計(jì)的語(yǔ)言模型(Statistical language model)和基于規(guī)則的語(yǔ)言模型(Rule based language model)兩大類(lèi)。在現(xiàn)在的技術(shù)條件下,基于統(tǒng)計(jì)的語(yǔ)言模型(Statistical language model)處于主流地位,具體是通過(guò)對(duì)大量的語(yǔ)料進(jìn)行統(tǒng)計(jì)[3],獲得詞與詞之間相互連接信息,為評(píng)價(jià)一個(gè)詞串是否有意義提供基礎(chǔ)依據(jù)。
統(tǒng)計(jì)語(yǔ)言模型中,n-gram語(yǔ)言模型是公認(rèn)的研發(fā)設(shè)計(jì)代表[4],因其結(jié)構(gòu)相對(duì)簡(jiǎn)單,而且易于構(gòu)建與應(yīng)用。但是,在實(shí)際運(yùn)用n-gram語(yǔ)言模型時(shí),卻會(huì)不斷發(fā)現(xiàn),由于訓(xùn)練語(yǔ)料稀疏而引起了一定的零概率問(wèn)題[5]。而采用本文提出的算法,仿真實(shí)驗(yàn)結(jié)果表明對(duì)解決這一問(wèn)題則呈現(xiàn)出優(yōu)質(zhì)有效的運(yùn)行效果。本文即針對(duì)這一課題內(nèi)容展開(kāi)分析論述。