賀 佳 杜建強(qiáng) 聶 斌 熊旺平 雷銀香 羅計(jì)根 曾青霞
1(江西中醫(yī)藥大學(xué)計(jì)算機(jī)學(xué)院 江西 南昌 330004)2(江西中醫(yī)藥大學(xué)岐黃國(guó)醫(yī)書(shū)院 江西 南昌 330004)
一詞多義或多詞同義是自然語(yǔ)言中普遍存在的現(xiàn)象。詞義消歧的目的是使系統(tǒng)根據(jù)某個(gè)歧義詞所處的上下文語(yǔ)境識(shí)別出該歧義詞的正確義項(xiàng)[1]。詞義消歧不僅在機(jī)器翻譯中有重要應(yīng)用,也在信息檢索、語(yǔ)義分析和話題關(guān)聯(lián)檢測(cè)[2]中有重要意義。詞義消歧方法一般包括基于知識(shí)庫(kù)的方法和基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法[3]。
基于知識(shí)庫(kù)的方法通常借助WordNet[4]、Hownet[5]、《同義詞詞林》、機(jī)讀詞典等輔助目標(biāo)歧義詞的消歧特征。張春祥等[6]借助《同義詞詞林》,將窗口大小內(nèi)的左右詞單元對(duì)應(yīng)的語(yǔ)義代碼作為消歧特征,采用貝葉斯模型完成詞義消歧。此方法雖能提升消歧效果,但知識(shí)資源包含的知識(shí)比較受限,僅能完成知識(shí)資源中出現(xiàn)歧義詞的消歧任務(wù)。
基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法一般包括抽取特征和建立消歧模型兩個(gè)流程[7]。通常采用有監(jiān)督或無(wú)監(jiān)督的方法建立消歧模型。張春祥等[8]將歧義詞左右鄰接詞單元的多種語(yǔ)言學(xué)知識(shí)作為消歧特征,并使用Co-Training算法優(yōu)化貝葉斯和最大熵模型,實(shí)現(xiàn)詞義消歧。有監(jiān)督的消歧模型在詞義消歧性能上表現(xiàn)突出,但由于缺乏大規(guī)模標(biāo)注語(yǔ)料,此類(lèi)方法受到了很大限制[9]。無(wú)監(jiān)督的消歧模型不需要大規(guī)模標(biāo)注語(yǔ)料,具有較強(qiáng)的可移植性[10]。
為提高消歧質(zhì)量,許多學(xué)者開(kāi)始用更多更全面的語(yǔ)言學(xué)知識(shí)進(jìn)行特征抽取。史兆鵬等[11]通過(guò)依存句法分析提取依存詞、依存結(jié)構(gòu)和歧義詞的詞性等作為消歧特征,細(xì)化特征粒度進(jìn)行消歧。張春祥等[12]通過(guò)句法知識(shí)建立對(duì)應(yīng)的句法樹(shù),抽取目標(biāo)歧義詞的父節(jié)點(diǎn)、左右兄弟節(jié)點(diǎn)的句法知識(shí)以及詞性知識(shí)作為消歧特征,該方法不考慮詞形信息。Han等[13]利用依存句法樹(shù)中路徑信息,抽取距離目標(biāo)歧義詞一定路徑長(zhǎng)度的詞作為消歧特征。這種方法雖提高了消歧效果,但路徑之外距離目標(biāo)歧義詞較近的單元詞沒(méi)有被考慮。王少楠等[14]抽取專(zhuān)有名詞、量詞等具有詞性標(biāo)簽的詞,以及與歧義詞具有并列關(guān)系的詞、緊鄰歧義詞的動(dòng)詞、非歧義單詞的語(yǔ)義類(lèi)別等作為L(zhǎng)DA主題模型的輸入,實(shí)現(xiàn)詞義消歧??梢钥闯觯浅XS富的語(yǔ)言學(xué)知識(shí)能夠提取出更多更有效的消歧特征,對(duì)提高消歧質(zhì)量有很大幫助,但一定程度上會(huì)增加特征維度,提高計(jì)算復(fù)雜度。
基于上述問(wèn)題和已有方法的不足,本文依據(jù)依存語(yǔ)法理論,建立依存結(jié)構(gòu)樹(shù),選擇目標(biāo)歧義詞的祖父+父親+孩子節(jié)點(diǎn)組合作為消歧特征,采用TF-IDF計(jì)算特征權(quán)重,形成特征向量矩陣,利用模糊C均值(fuzzy C-means,F(xiàn)CM)聚類(lèi)算法的軟劃分優(yōu)勢(shì)[15],將特征向量矩陣作為FCM聚類(lèi)算法的輸入,實(shí)現(xiàn)詞義消歧。通過(guò)分析與目標(biāo)歧義詞相關(guān)程度較大的所有節(jié)點(diǎn)的不同組合方式,驗(yàn)證了祖父+父親+孩子節(jié)點(diǎn)組合的有效性。與現(xiàn)有的詞義消歧工作相比,本文方法主要有三種優(yōu)勢(shì):(1) 特征抽取時(shí)不需要借助知識(shí)庫(kù);(2) 充分利用了依存語(yǔ)法理論,采用三個(gè)節(jié)點(diǎn)組合作為消歧特征,特征維度相對(duì)較少;(3) 采用無(wú)監(jiān)督的、基于軟劃分的FCM聚類(lèi)算法,可將樣本劃分到多個(gè)類(lèi)別,更加符合客觀世界的數(shù)據(jù)分析。
基于多節(jié)點(diǎn)組合特征的詞義消歧方法可分為兩個(gè)部分,如圖1所示。第一部分為特征抽?。翰捎靡来婢浞ǚ治龅玫矫總€(gè)預(yù)處理語(yǔ)料的依存結(jié)構(gòu)樹(shù),在依存結(jié)構(gòu)樹(shù)中選取多個(gè)節(jié)點(diǎn)進(jìn)行組合形成消歧特征;第二部分為消歧模型的建立:采用經(jīng)典的TF-IDF計(jì)算特征權(quán)重,將文字形式的消歧特征轉(zhuǎn)為數(shù)值化的特征權(quán)重向量,采用FCM聚類(lèi)算法計(jì)算目標(biāo)歧義詞的義項(xiàng)類(lèi)別。
圖1 多節(jié)點(diǎn)組合特征的消歧方法流程
依存語(yǔ)法通過(guò)分析單元詞間的依存關(guān)系揭示句子中的句法結(jié)構(gòu)。直觀而言,句子的“主謂賓、定狀補(bǔ)”等語(yǔ)法成分由依存句法分析識(shí)別并對(duì)各成分間的關(guān)系進(jìn)行分析[16]。依存結(jié)構(gòu)樹(shù)基于依存句法分析,形象化地展示了詞之間的關(guān)系。
本文采用哈工大信息檢索研究中心語(yǔ)言技術(shù)平臺(tái)中的依存句法分析工具[17]。為了使本文思路簡(jiǎn)潔清晰,提出定義如下:
定義1依存結(jié)構(gòu)樹(shù)中節(jié)點(diǎn)命名:根據(jù)樹(shù)的特點(diǎn),將每個(gè)節(jié)點(diǎn)以目標(biāo)歧義詞為核心,命名為目標(biāo)歧義詞的祖父節(jié)點(diǎn)、父節(jié)點(diǎn)、孩子節(jié)點(diǎn)、兄弟節(jié)點(diǎn)和孫子節(jié)點(diǎn)等。
定義2家族結(jié)構(gòu)樹(shù):指在依存結(jié)構(gòu)樹(shù)中,只包含目標(biāo)歧義詞的祖父節(jié)點(diǎn)、父節(jié)點(diǎn)、孩子節(jié)點(diǎn)、兄弟節(jié)點(diǎn)、孫子節(jié)點(diǎn)的樹(shù)。
以包含目標(biāo)歧義詞“提高”的句子為例,具體特征抽取過(guò)程如下:
1) 例句:“這/r/Ed61 幾/m/Dn05 年/q/Ca18,/wp/-1 隨著/p/Kb07 我國(guó)/n/Di02 農(nóng)村/n/Cb25 居民/n/Ad01 生活/n/Hj01 水平/n/Dd12 不斷/d/Ka11 提高/v/Ie12,/wp/-1 消費(fèi)/n/He03 需求/n/Df07 的/u/Kd01 結(jié)構(gòu)/n/Dd06 變化/n/Ih01 明顯/a/Ed46 。/wp/-1”該例句來(lái)自哈工大信息檢索研究中心語(yǔ)言技術(shù)平臺(tái)中的詞義標(biāo)注語(yǔ)料[17]。每個(gè)詞后面分別用斜線隔開(kāi)了兩個(gè)標(biāo)記,第一個(gè)是詞性標(biāo)記,第二個(gè)是詞義標(biāo)記。
2) 采用正則表達(dá)式去除句中的語(yǔ)義代碼、斜線等,轉(zhuǎn)成依存句法分析需要的格式。
3) 對(duì)句子進(jìn)行依存句法分析,建立依存結(jié)構(gòu)樹(shù),如圖2所示。
圖2 例句的依存結(jié)構(gòu)樹(shù)
4) 從依存結(jié)構(gòu)樹(shù)中抽取消歧特征。依存結(jié)構(gòu)樹(shù)很清晰地展示了句子中詞語(yǔ)間的關(guān)系,也非常直觀地展示了每個(gè)單元詞與目標(biāo)歧義詞關(guān)系遠(yuǎn)近的程度。一般認(rèn)為與目標(biāo)歧義詞關(guān)系較近的單元詞對(duì)歧義詞的詞義有較大影響。從依存結(jié)構(gòu)樹(shù)中抽取目標(biāo)歧義詞的特征,能夠避免抽取特征的任意性。以左右窗口大小為2抽取特征(不包含標(biāo)點(diǎn)符號(hào)),則歧義詞“提高”的消歧特征為“水平”“不斷”“消費(fèi)”和“需求”,對(duì)照依存結(jié)構(gòu)樹(shù),明顯可見(jiàn)“需求”屬于歧義詞“提高”的兄弟節(jié)點(diǎn),“消費(fèi)”為“需求”的孩子節(jié)點(diǎn)。兄弟節(jié)點(diǎn)以及兄弟的孩子節(jié)點(diǎn)距離歧義詞“提高”的關(guān)系都比較遠(yuǎn),對(duì)歧義詞的詞義支持度相對(duì)較低。
本文充分考慮依存結(jié)構(gòu)樹(shù)中詞語(yǔ)間關(guān)系以及關(guān)系遠(yuǎn)近問(wèn)題,衡量家族結(jié)構(gòu)樹(shù)中所有節(jié)點(diǎn)的不同組合作為消歧特征對(duì)歧義詞詞義的影響,從依存結(jié)構(gòu)樹(shù)中抽取目標(biāo)歧義詞“提高”的祖父、父親、孩子節(jié)點(diǎn)組合,將其作為消歧特征。則目標(biāo)歧義詞的消歧特征為“變化”“隨著”“水平”和“不斷”。
TF-IDF、詞嵌入可以完成消歧特征向量化。TF-IDF是比較經(jīng)典的計(jì)算特征權(quán)值的方法。核心思想:若某個(gè)詞或短語(yǔ)在一篇文檔中出現(xiàn)頻率較高,且在其他文檔中很少出現(xiàn),則認(rèn)為這個(gè)詞或短語(yǔ)具有很好的類(lèi)別區(qū)分能力[18]。詞嵌入可以將詞語(yǔ)映射成低維稠密的向量,在大量自然語(yǔ)言處理中,具有較好的效果[19]。但詞嵌入技術(shù)需要海量語(yǔ)料庫(kù)進(jìn)行預(yù)訓(xùn)練才能較準(zhǔn)確地識(shí)別詞之間相似度。FCM聚類(lèi)算法屬于一種軟劃分的聚類(lèi)算法,它是對(duì)硬聚類(lèi)算法的改進(jìn)。硬聚類(lèi)算法對(duì)每個(gè)樣本只能劃分到一個(gè)類(lèi)別中,而FCM聚類(lèi)算法可以將每個(gè)樣本按照一定的隸屬度從屬于多個(gè)類(lèi)別[20],相對(duì)于硬聚類(lèi)算法,F(xiàn)CM聚類(lèi)算法更符合實(shí)際的無(wú)監(jiān)督聚類(lèi)應(yīng)用。FCM聚類(lèi)算法思想:使得被劃分到同一個(gè)簇中的樣本之間相似度最大,不同簇之間的相似度最小。
由于本文采用的語(yǔ)料庫(kù)規(guī)模相對(duì)較小,且通過(guò)1.1節(jié)選取的消歧特征,維數(shù)較少。因此選用TF-IDF將1.1節(jié)的消歧特征轉(zhuǎn)為特征向量矩陣,并作為FCM聚類(lèi)算法的輸入,實(shí)現(xiàn)詞義消歧。其消歧模型建立流程如下:
1) TF-IDF形成特征向量矩陣。消歧特征i在樣本j中的TF-IDF值wi,j為:
(1)
式中:TF表示詞頻,指消歧特征i在樣本j中出現(xiàn)的頻率;IDF為逆文檔頻率,是對(duì)某個(gè)特征普遍重要性的度量;|D|為樣本總數(shù);|Di|為包含特征i的樣本數(shù)。
2) FCM聚類(lèi)算法實(shí)現(xiàn)。將TF-IDF得到的特征向量矩陣X=[x1,x2,…,xN]T(xj代表第j個(gè)樣本的特征向量,j=1,2,…,N;矩陣中的每一個(gè)值為T(mén)F-IDF值wi,j)作為FCM聚類(lèi)算法的輸入,通過(guò)調(diào)整最大迭代次數(shù)[21]等相關(guān)參數(shù),在滿足式(2)的條件下,求式(3)取最小值時(shí)的聚類(lèi)結(jié)果:
(2)
(3)
求解最小化目標(biāo)函數(shù)時(shí),可得出聚類(lèi)中心和隸屬度:
(4)
(5)
FCM聚類(lèi)算法實(shí)現(xiàn)詞義消歧的步驟如下:
輸入:模糊參數(shù)m,聚類(lèi)數(shù)目k,最大迭代次數(shù)MAX_ITER,特征向量矩陣X=[x1,x2,…,xN]T
輸出:聚類(lèi)結(jié)果
(1) 滿足式(2)的條件下,采用[0,1]區(qū)間的隨機(jī)數(shù)值初始化隸屬度矩陣U。
(2) 用式(4)計(jì)算聚類(lèi)中心ci,i=1,2,…,k。
(3) 通過(guò)式(5)更新隸屬度矩陣。
(4) 重復(fù)步驟(2)和步驟(3)。當(dāng)達(dá)到最大迭代次數(shù)時(shí),循環(huán)停止,返回聚類(lèi)結(jié)果;否則,返回步驟(2)。
本文選用哈工大信息檢索研究中心語(yǔ)言技術(shù)平臺(tái)中的詞義標(biāo)注語(yǔ)料[17],該語(yǔ)料來(lái)源于《人民日?qǐng)?bào)》1998年上半年的電子版。從該語(yǔ)料中選取“材料”“代表”“地方”“隊(duì)伍”“發(fā)表”“根本”“領(lǐng)導(dǎo)”“提高”“突出”“中心”“組織”和“左右”共12個(gè)歧義詞進(jìn)行實(shí)驗(yàn),包含381個(gè)實(shí)例。選取的歧義詞體現(xiàn)三個(gè)特點(diǎn):(1) 歧義詞義項(xiàng)與詞性無(wú)直接關(guān)系,即一個(gè)義項(xiàng)可能對(duì)應(yīng)多個(gè)不同詞性,多個(gè)義項(xiàng)可能對(duì)應(yīng)相同詞性;(2) 歧義詞義項(xiàng)數(shù)分布隨機(jī),為2~5個(gè)不等;(3) 每個(gè)歧義詞義項(xiàng)對(duì)應(yīng)的實(shí)例數(shù)隨機(jī)分布,未刻意保持平衡。部分語(yǔ)料展示如表1所示。每個(gè)歧義詞的義項(xiàng)由《同義詞詞林》的語(yǔ)義類(lèi)別表示。
表1 部分語(yǔ)料展示
續(xù)表1
實(shí)驗(yàn)采用CIPS-SIGHAN-2010提供的B-Cubed評(píng)價(jià)指標(biāo),其計(jì)算公式如下:
(6)
(7)
(8)
式中:S={S1,S2,…}是聚類(lèi)算法聚類(lèi)的結(jié)果;R={R1,R2,…}是人工標(biāo)注的結(jié)果。
為了驗(yàn)證本文方法的整體性能,基于上述計(jì)算公式,取12個(gè)歧義詞的平均值作為詞義消歧評(píng)價(jià)指標(biāo):
(9)
(10)
(11)
本文從三方面進(jìn)行了實(shí)驗(yàn):1) 分析依存結(jié)構(gòu)樹(shù)中與目標(biāo)歧義詞相關(guān)程度較大的所有節(jié)點(diǎn),探尋具有普遍適用性的節(jié)點(diǎn)組合;2) 為了驗(yàn)證本文方法的消歧性能,基于FCM聚類(lèi)算法,分別用文獻(xiàn)[11]和文獻(xiàn)[13]的特征抽取方法進(jìn)行對(duì)比;3) 選用凝聚層次聚類(lèi)、K-means聚類(lèi)兩個(gè)經(jīng)典的聚類(lèi)算法做對(duì)比,驗(yàn)證FCM聚類(lèi)算法的性能。
2.2.1多節(jié)點(diǎn)組合提取消歧特征
假設(shè)在依存結(jié)構(gòu)樹(shù)中:(1) 距離目標(biāo)歧義詞越近的節(jié)點(diǎn)對(duì)判斷歧義詞語(yǔ)義的貢獻(xiàn)越大;(2) 并非將距離較近的所有節(jié)點(diǎn)作為消歧特征,消歧效果就最好;(3) 不同的節(jié)點(diǎn)組合方式對(duì)消歧結(jié)果有不同影響。本節(jié)基于這三種假設(shè)進(jìn)行實(shí)驗(yàn)。表2為8種節(jié)點(diǎn)組合方式及所得實(shí)驗(yàn)結(jié)果。
表2 八種節(jié)點(diǎn)組合方式及實(shí)驗(yàn)結(jié)果 %
可以看出,不同的節(jié)點(diǎn)組合對(duì)中文詞義消歧有著重要的影響。下面將對(duì)實(shí)驗(yàn)結(jié)果重點(diǎn)分析:
(1) 不同節(jié)點(diǎn)組合對(duì)消歧效果有不同影響,使用依存結(jié)構(gòu)樹(shù)抽取特征時(shí),要考慮選用的節(jié)點(diǎn)以及節(jié)點(diǎn)組合方式。
(2) 總體來(lái)看,在依存詞(父子節(jié)點(diǎn)組合)基礎(chǔ)上添加其他節(jié)點(diǎn),比單純地將依存詞作為消歧特征效果好。其中,“祖父+父親+孩子”節(jié)點(diǎn)組合作為消歧特征,雖平均準(zhǔn)確率比“兄弟+父親+孩子”節(jié)點(diǎn)組合少1.02個(gè)百分點(diǎn),但平均召回率提高了6.11個(gè)百分點(diǎn),平均F1值也提高了 1.41個(gè)百分點(diǎn)。實(shí)驗(yàn)表明,“祖父+父親+孩子”節(jié)點(diǎn)組合,效果最好。
(3) 從依存結(jié)構(gòu)樹(shù)中,分析各個(gè)節(jié)點(diǎn)與目標(biāo)歧義詞的距離,發(fā)現(xiàn)祖父節(jié)點(diǎn)、孫子節(jié)點(diǎn)分別與目標(biāo)歧義詞路徑一致,但祖父節(jié)點(diǎn)與依存詞組合的消歧特征平均召回率與平均F1值均比孫子節(jié)點(diǎn)與依存詞組合的消歧特征效果好,說(shuō)明除路徑長(zhǎng)度外,單個(gè)節(jié)點(diǎn)對(duì)歧義詞的消歧貢獻(xiàn)也很重要。
(4) 由于實(shí)驗(yàn)采用多個(gè)不同歧義詞,且每個(gè)歧義詞的樣本個(gè)數(shù)、義項(xiàng)分布均有不同。采用“祖父+父親+孩子”節(jié)點(diǎn)組合抽取特征,具有一定的普遍適用價(jià)值。
2.2.2詞義消歧性能比較
為了驗(yàn)證本文方法的消歧性能,分別用文獻(xiàn)[11]和文獻(xiàn)[13]的特征抽取方法進(jìn)行對(duì)比。文獻(xiàn)[11]選用歧義詞的依存詞、依存結(jié)構(gòu)、歧義詞詞性作為消歧特征;借鑒文獻(xiàn)[13]的思想,取依存結(jié)構(gòu)樹(shù)中路徑長(zhǎng)度為4的詞作為消歧特征。FCM聚類(lèi)算法需要設(shè)置兩個(gè)參數(shù),分別為模糊參數(shù)m和最大迭代次數(shù)。文獻(xiàn)[22]認(rèn)為1.5≤m≤3.0時(shí)效果較好[22]。本文選取模糊參數(shù)為1.5,最大迭代次數(shù)為100。
本文從特征向量矩陣的維度(簡(jiǎn)稱(chēng)特征維度)和平均F1值兩方面分析三種方法的詞義消歧性能。平均F1值的實(shí)驗(yàn)結(jié)果見(jiàn)表3和圖3,其中每個(gè)歧義詞的F1值通過(guò)運(yùn)行10次求和平均得到。特征維度的實(shí)驗(yàn)結(jié)果見(jiàn)圖4和圖5,特征維度的平均值指12個(gè)歧義詞特征維度之和的平均值。
表3 三種方法F1值對(duì)比 %
圖3 三種方法的平均F1值
圖4 三種方法的特征向量矩陣維度
圖5 三種方法的特征維度平均值
特征抽取不僅需要考慮消歧特征的區(qū)分性,還要考慮特征維度。較低的特征維度有利于降低計(jì)算復(fù)雜度[23]。圖4中,本文采用的特征抽取方法所得特征維度總體上比其他兩種方法的特征維度少,尤其當(dāng)特征維度超過(guò)80時(shí),本文方法在特征維度上相比于其他兩種方法,相差幅度較大,優(yōu)勢(shì)顯著。圖5中,本文方法的特征維度平均值比文獻(xiàn)[11]方法降低了5維,比文獻(xiàn)[13]方法降低了25維。
表3和圖3反映了三種詞義消歧方法所得平均F1值。整體來(lái)看,本文方法優(yōu)于其他兩種方法。文獻(xiàn)[11]采用依存詞、依存結(jié)構(gòu)和歧義詞詞性作為消歧特征。由于本文中歧義詞的每個(gè)義項(xiàng)會(huì)包含不止一個(gè)詞性,如歧義詞“突出”的一個(gè)義項(xiàng)代碼為Ed04,但會(huì)有三種不同的詞性a、v、d,這些詞性會(huì)影響對(duì)該義項(xiàng)的區(qū)分。因此這可能是影響該特征抽取方法效果的一個(gè)原因。
綜上所述,本文方法不僅降低了特征維度,在平均F1值上也突顯一定優(yōu)勢(shì),對(duì)中文詞義消歧具有一定的價(jià)值。
2.2.3實(shí)例聚類(lèi)效果比較
為驗(yàn)證FCM聚類(lèi)算法的可行性,選用凝聚層次聚類(lèi)和K-means聚類(lèi)兩個(gè)經(jīng)典算法作為對(duì)比實(shí)驗(yàn)。三個(gè)聚類(lèi)算法的輸入均以實(shí)驗(yàn)1中的“祖父+父親+孩子”節(jié)點(diǎn)組合作為消歧特征。FCM聚類(lèi)算法的相關(guān)參數(shù)與2.2.2節(jié)中參數(shù)相同。實(shí)驗(yàn)結(jié)果如圖6所示。
圖6 實(shí)例聚類(lèi)效果圖
可以看出,對(duì)平均F1值分析,F(xiàn)CM聚類(lèi)算法比其他兩種算法提高了近8個(gè)百分點(diǎn),這說(shuō)明FCM聚類(lèi)算法的消歧性能最佳。FCM聚類(lèi)算法相比其他兩種算法,雖準(zhǔn)確率稍有降低,但召回率提高幅度很大,表明采用FCM聚類(lèi)算法,能夠更全面地找到消歧信息。整體來(lái)看,F(xiàn)CM聚類(lèi)算法優(yōu)勢(shì)突出。另外,F(xiàn)CM聚類(lèi)算法憑借其軟劃分優(yōu)勢(shì),使得每個(gè)樣本不受限于一個(gè)類(lèi)別中。軟劃分的聚類(lèi)算法比硬劃分的聚類(lèi)算法更加符合客觀世界的數(shù)據(jù)分析。
為了提高中文詞義消歧質(zhì)量,本文提出了一種基于多節(jié)點(diǎn)組合特征和FCM聚類(lèi)算法的詞義消歧方法。在特征提取部分,基于依存語(yǔ)法理論,分析不同節(jié)點(diǎn)組合方式,實(shí)驗(yàn)表明將“祖父”“兄弟”和“孫子”三個(gè)節(jié)點(diǎn)組合作為消歧特征具有普遍適用性,且降低了特征維度,對(duì)歧義詞的識(shí)別有較大的區(qū)分度。采用TF-IDF構(gòu)造特征向量,最終利用FCM聚類(lèi)算法得到歧義詞詞義類(lèi)別。大量的對(duì)比實(shí)驗(yàn)表明本文提出的方法在F1值上相較于其他算法提高顯著,從而驗(yàn)證了該模型具有一定的優(yōu)勢(shì)。由于FCM聚類(lèi)方法需要提前設(shè)定聚類(lèi)的類(lèi)別數(shù)目,未來(lái)工作將研究在保證消歧效果的條件下自動(dòng)生成聚類(lèi)數(shù)目。