摘要:中文分詞是中文信息化處理的基礎(chǔ)環(huán)節(jié)。在中文全文索引中,中文分詞更起著舉足輕重的作用。該文首先比較了常見的中文分詞算法,最后選用了綜合性能較優(yōu)的分詞算法—基于詞頻統(tǒng)計(jì)的匹配分詞,引入全文索引的開源項(xiàng)目Lucene中。通過與傳統(tǒng)的機(jī)械分詞對(duì)比,發(fā)現(xiàn)使用基于詞頻統(tǒng)計(jì)的匹配分詞的全文索引,不但大大節(jié)省索引空間,而且顯著地提高了檢索的質(zhì)量。
關(guān)鍵詞:中文全文索引;中文分詞;Lucene
中圖分類號(hào):TP391文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012) 03-0722-05
Chinese Full-text Index for the Chinese Word Segmentation Strategy
XI Chao-qiong
(Guangdong Food and Drug Sch