国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于語(yǔ)言模型的一種音字轉(zhuǎn)換高效解碼算法

2016-11-19 06:10:36張志強(qiáng)張?zhí)t刁琦董巒
關(guān)鍵詞:模型

張志強(qiáng) 張?zhí)t 刁琦 董巒

摘要:音字轉(zhuǎn)換是漢語(yǔ)言信息處理的一個(gè)重要方面,在語(yǔ)音識(shí)別、漢語(yǔ)拼音輸入等方面都有廣泛的的應(yīng)用。本文首先回顧了詞樹(shù)的理論知識(shí),然后對(duì)詞樹(shù)進(jìn)行求解,最后對(duì)詞樹(shù)進(jìn)行剪枝,隨之,對(duì)產(chǎn)生的多音字進(jìn)行處理。基于上面的理論,提出了一種基于語(yǔ)言模型實(shí)現(xiàn)音字轉(zhuǎn)換的高效解碼算法,這種算法涉及到零概率重估、路徑剪枝和多音字處理等多項(xiàng)技術(shù),實(shí)驗(yàn)結(jié)果表明這種算法可以達(dá)到97.78 %的準(zhǔn)確率,與以往的算法相比,效果比較顯著。

關(guān)鍵詞:語(yǔ)言模型;n-gram 模型;音字轉(zhuǎn)換

中文分類(lèi)號(hào):TP391.1 文獻(xiàn)標(biāo)識(shí)碼A

引 言

語(yǔ)言模型(Language model)[1]是語(yǔ)音識(shí)別系統(tǒng)(speech recognition system)[2]的一個(gè)重要組成部分。語(yǔ)言模型,通??煞譃榛诮y(tǒng)計(jì)的語(yǔ)言模型(Statistical language model)和基于規(guī)則的語(yǔ)言模型(Rule based language model)兩大類(lèi)。在現(xiàn)在的技術(shù)條件下,基于統(tǒng)計(jì)的語(yǔ)言模型(Statistical language model)處于主流地位,具體是通過(guò)對(duì)大量的語(yǔ)料進(jìn)行統(tǒng)計(jì)[3],獲得詞與詞之間相互連接信息,為評(píng)價(jià)一個(gè)詞串是否有意義提供基礎(chǔ)依據(jù)。

統(tǒng)計(jì)語(yǔ)言模型中,n-gram語(yǔ)言模型是公認(rèn)的研發(fā)設(shè)計(jì)代表[4],因其結(jié)構(gòu)相對(duì)簡(jiǎn)單,而且易于構(gòu)建與應(yīng)用。但是,在實(shí)際運(yùn)用n-gram語(yǔ)言模型時(shí),卻會(huì)不斷發(fā)現(xiàn),由于訓(xùn)練語(yǔ)料稀疏而引起了一定的零概率問(wèn)題[5]。而采用本文提出的算法,仿真實(shí)驗(yàn)結(jié)果表明對(duì)解決這一問(wèn)題則呈現(xiàn)出優(yōu)質(zhì)有效的運(yùn)行效果。本文即針對(duì)這一課題內(nèi)容展開(kāi)分析論述。

猜你喜歡
模型
一半模型
一種去中心化的域名服務(wù)本地化模型
適用于BDS-3 PPP的隨機(jī)模型
提煉模型 突破難點(diǎn)
函數(shù)模型及應(yīng)用
p150Glued在帕金森病模型中的表達(dá)及分布
函數(shù)模型及應(yīng)用
重要模型『一線(xiàn)三等角』
重尾非線(xiàn)性自回歸模型自加權(quán)M-估計(jì)的漸近分布
3D打印中的模型分割與打包
巴南区| 白山市| 徐闻县| 东方市| 依安县| 威远县| 容城县| 云霄县| 永善县| 阿巴嘎旗| 大悟县| 凌云县| 信宜市| 武胜县| 东兰县| 志丹县| 南木林县| 克拉玛依市| 松桃| 离岛区| 普定县| 星子县| 四子王旗| 枣强县| 灌阳县| 吉林省| 远安县| 涞水县| 福清市| 什邡市| 长海县| 枣阳市| 德江县| 南陵县| 康定县| 彩票| 铁岭市| 九台市| 留坝县| 沅陵县| 桐庐县|