趙 煜 蔡皖東 樊 娜
摘要:針對(duì)現(xiàn)有中文詞匯語義傾向性計(jì)算方法存在較少考慮深層語義影響因素的問題,提出了一種利用詞匯分布相似度的中文語義傾向性計(jì)算方法,該方法分2個(gè)步驟完成:①利用依存句法分析和統(tǒng)計(jì)工具獲取詞匯在語料庫中的分布相似度,并綜合知網(wǎng)(HowNet)和漢語連詞特征信息優(yōu)化語料庫統(tǒng)計(jì)結(jié)果,計(jì)算中文詞匯問的語義相似度;②采用無向帶權(quán)圖劃分的聚類方法來實(shí)現(xiàn)中文詞匯語義傾向推斷,由于獲取最優(yōu)聚類結(jié)果是一個(gè)NP難問題,所以采用貪心算法求解近似最優(yōu)值,通過在自建的語料庫上進(jìn)行測試,并與利用語料庫統(tǒng)計(jì)信息、利用HowNet等2個(gè)詞匯語義傾向性計(jì)算系統(tǒng)進(jìn)行比較,結(jié)果是所提方法的準(zhǔn)確率達(dá)到了80%,表明在提高中文詞匯語義傾向性計(jì)算的準(zhǔn)確性方面是可行、有效的,
關(guān)鍵詞:中文信息處理;詞匯分布相似度;語義傾向;依存句法分析;知網(wǎng)
中圖分類號(hào):TP39文獻(xiàn)標(biāo)志碼:A文章編號(hào):0253-987X(2009)06-0033-05