国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中文全文索引的中文分詞策略

2012-01-01 00:00:00席朝瓊
電腦知識(shí)與技術(shù) 2012年3期


  摘要:中文分詞是中文信息化處理的基礎(chǔ)環(huán)節(jié)。在中文全文索引中,中文分詞更起著舉足輕重的作用。該文首先比較了常見的中文分詞算法,最后選用了綜合性能較優(yōu)的分詞算法—基于詞頻統(tǒng)計(jì)的匹配分詞,引入全文索引的開源項(xiàng)目Lucene中。通過與傳統(tǒng)的機(jī)械分詞對(duì)比,發(fā)現(xiàn)使用基于詞頻統(tǒng)計(jì)的匹配分詞的全文索引,不但大大節(jié)省索引空間,而且顯著地提高了檢索的質(zhì)量。
  關(guān)鍵詞:中文全文索引;中文分詞;Lucene
  中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012) 03-0722-05
  Chinese Full-text Index for the Chinese Word Segmentation Strategy
  XI Chao-qiong
  (Guangdong Food and Drug Sch

永城市| 邵阳市| 云阳县| 贵州省| 海丰县| 遵化市| 南阳市| 于田县| 江山市| 福贡县| 七台河市| 独山县| 桦甸市| 永新县| 江陵县| 韶关市| 石城县| 武城县| 桐庐县| 潜山县| 连城县| 牡丹江市| 达州市| 德清县| 曲麻莱县| 东莞市| 理塘县| 舞阳县| 大余县| 拜城县| 南丹县| 高邮市| 秦安县| 神农架林区| 夏津县| 淳化县| 大安市| 余江县| 新建县| 阿拉善左旗| 绩溪县|