唐共波,于 東,荀恩東
(1.北京語(yǔ)言大學(xué)大數(shù)據(jù)與語(yǔ)言教育研究所,北京100083;2.北京語(yǔ)言大學(xué)信息科學(xué)學(xué)院,北京100083)
自然語(yǔ)言中存在著大量多義詞,詞義消歧對(duì)于具有認(rèn)知能力的人類來(lái)說(shuō)并不是一件困難的事情,但是對(duì)計(jì)算機(jī)自動(dòng)識(shí)別構(gòu)成了困難。詞義消歧(word sense disambiguation,WSD)就是指計(jì)算機(jī)根據(jù)多義詞上下文及其他信息進(jìn)行詞義確定的過(guò)程。詞義消歧在自然語(yǔ)言處理中是一個(gè)較為基礎(chǔ)且困難的問(wèn)題,而且會(huì)直接影響到信息檢索、機(jī)器翻譯、文本分類、語(yǔ)音識(shí)別等上層任務(wù)。
目前主流詞義消歧的方法有基于知識(shí)庫(kù)的方法和基于語(yǔ)料庫(kù)的方法?;谥R(shí)庫(kù)的方法覆蓋面較大,可以對(duì)知識(shí)庫(kù)中所有詞進(jìn)行消歧,而基于語(yǔ)料庫(kù)的方法則只能針對(duì)部分選擇的詞進(jìn)行消歧?;谥R(shí)庫(kù)的方法大多借助相關(guān)語(yǔ)言的語(yǔ)義知識(shí)庫(kù)進(jìn)行消歧,比如中文的《知網(wǎng)》[1]、英文的WordNet等。基于語(yǔ)料庫(kù)的方法又分為有監(jiān)督的方法和無(wú)監(jiān)督的方法。有監(jiān)督的方法將詞義消歧視作一種分類問(wèn)題,使用包括決策樹(shù)、決策表、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)、基于實(shí)例、支持向量機(jī)、自舉、集成等在內(nèi)的方法。而無(wú)監(jiān)督的方法本質(zhì)上則是聚類問(wèn)題,可以根據(jù)多義詞或者多義詞的上下文聚類,也可以基于詞語(yǔ)的共現(xiàn)來(lái)進(jìn)行消歧。有監(jiān)督的方法可以獲得比較高的準(zhǔn)確率,但是需要費(fèi)時(shí)的人工標(biāo)記,無(wú)監(jiān)督的方法雖然不需要人工標(biāo)記語(yǔ)料,但是消歧的準(zhǔn)確率卻明顯不如有監(jiān)督的方法高。
自從2000年《知網(wǎng)》發(fā)布以來(lái),面向中文的詞義消歧任務(wù)中就出現(xiàn)了大量基于《知網(wǎng)》知識(shí)的工作。劉群[2]提出了基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算方法,余曉峰等[3]在劉群的語(yǔ)義相似度計(jì)算的基礎(chǔ)上,利用多義詞的上下文特征進(jìn)行消歧。車超等[4]借助《知網(wǎng)》中定義的義原(將會(huì)在第二節(jié)中進(jìn)行介紹)之間的關(guān)系進(jìn)行消歧。楊爾弘[5]等提出了基于義原同現(xiàn)頻率的詞義排歧方法。張明寶等[6]借助義原之間的關(guān)系,定義語(yǔ)義聯(lián)系強(qiáng)度,同時(shí)定義四條消歧規(guī)則進(jìn)行詞義消歧。以上方法克服了訓(xùn)練語(yǔ)料缺乏、數(shù)據(jù)稀疏的情況,但是在計(jì)算語(yǔ)義相似度時(shí)會(huì)考慮義原之間的關(guān)系等情況,計(jì)算起來(lái)比較復(fù)雜。于東等[7]提出了基于word embedding語(yǔ)義相似度的字母縮略術(shù)語(yǔ)消歧方法,將詞嵌入的思想應(yīng)用到消歧工作中。
本文將《知網(wǎng)》中可以表示詞語(yǔ)語(yǔ)義的義原信息融入到語(yǔ)言模型的訓(xùn)練中,通過(guò)義原向量對(duì)多義詞進(jìn)行向量化表示。同時(shí),將多義詞的上下文作為特征,形成特征向量,并通過(guò)計(jì)算多義詞詞向量與特征向量之間相似度進(jìn)行詞語(yǔ)消歧。經(jīng)過(guò)實(shí)驗(yàn)對(duì)比,準(zhǔn)確率略高于其他無(wú)監(jiān)督方法。本文的工作流程如圖1所示。
圖1 工作流程圖
本文將在第二節(jié)中介紹基于知網(wǎng)義原詞向量表示的詞義消歧方法,第三節(jié)是實(shí)驗(yàn)內(nèi)容,最后的第四節(jié)是對(duì)實(shí)驗(yàn)的總結(jié)與展望。
《知網(wǎng)》是董振東先生提出的以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)?!吨W(wǎng)》中包含非常豐富的詞語(yǔ)語(yǔ)義信息以及世界知識(shí),為自然語(yǔ)言的各項(xiàng)研究提供了寶貴的資源。本文主要利用了《知網(wǎng)》提供的語(yǔ)義信息,暫未使用世界知識(shí)以及概念之間的各種關(guān)系。接下來(lái)將對(duì)知網(wǎng)進(jìn)行簡(jiǎn)單的介紹(本文用到的《知網(wǎng)》為2011版)。
《知網(wǎng)》的結(jié)構(gòu)中最重要的兩個(gè)概念是“概念”和“義原”。“概念”可以理解為詞語(yǔ)的一個(gè)義項(xiàng),一個(gè)多義詞有多個(gè)義項(xiàng),那么也就對(duì)應(yīng)多個(gè)“概念”?!傲x原”是用來(lái)描述“概念”的最小意義單元,所有的“概念”都可以用“義原”進(jìn)行表示。例如,概念“跑酷”的描述語(yǔ)言為:“DEF={fact|事情:CoEvent={exercise|鍛煉},domain={sport|體育}}”,其中“事情”、“鍛煉”、“體育”均為“跑酷”的描述義原。《知網(wǎng)》并沒(méi)有《同義詞詞林》和WordNet那樣的樹(shù)狀結(jié)構(gòu),而是通過(guò)義原之間的關(guān)系將所有的概念進(jìn)行關(guān)聯(lián),組成一個(gè)網(wǎng)狀的知識(shí)庫(kù)?!吨W(wǎng)》中的義原包含實(shí)體、事件、屬性、屬性值、動(dòng)態(tài)角色與屬性、次要特征以及專有名詞七大類義原,共計(jì)2 448個(gè)。本文主要利用的就是這些義原信息。
《知網(wǎng)》中以概念為單位進(jìn)行描述,每一條描述作為一個(gè)記錄。具體形式如表1所示。其中NO.表示在《知網(wǎng)》中記錄的序號(hào),W_C、G_C、S_C、E_C分別表示中文詞語(yǔ)、詞性、情感極性、例子,W_E、G_E、S_E、E_E分別表示英文詞語(yǔ)、詞性、情感極性、例子,DEF是知網(wǎng)的知識(shí)描述語(yǔ)言,是《知網(wǎng)》的核心內(nèi)容。
表1 《知網(wǎng)》中的記錄
由于本文面向中文進(jìn)行詞義消歧,暫時(shí)只是使用《知網(wǎng)》中的中文部分?!吨W(wǎng)》中,我們將只有一個(gè)中文概念,而且概念只用一個(gè)義原進(jìn)行描述的詞定義為單義原詞,反之則定義為多義原詞。經(jīng)統(tǒng)計(jì),單義原詞有35 347個(gè),構(gòu)成單義原詞的義原個(gè)數(shù)為1 492,占義原總數(shù)的60.95%;多義原詞69 382個(gè),構(gòu)成多義原詞的義原個(gè)數(shù)為2 041,占義原總數(shù)的83.37%。其中多義原詞中71.88%(1 467/2 041)的義原也出現(xiàn)在單義原詞中的義原(圖2),這就說(shuō)明大部分的詞語(yǔ)是可以通過(guò)單義原詞中的義原來(lái)進(jìn)行語(yǔ)義的表示。平均每個(gè)單義原詞中的義原可以表示23.7個(gè)單義原詞,而且大部分的單義原詞由少量義原構(gòu)成(圖2),說(shuō)明利用義原來(lái)表示單義原詞可以明顯減少特征的訓(xùn)練。絕大多數(shù)的多義原詞由少于七個(gè)義原構(gòu)成(圖2),說(shuō)明利用義原向量來(lái)表示多義詞也是簡(jiǎn)單可行的。
圖2 義原統(tǒng)計(jì)信息
要將自然語(yǔ)言交給機(jī)器學(xué)習(xí)模型處理,通常首先需要將語(yǔ)言形式化,我們選擇詞向量來(lái)實(shí)現(xiàn)這一過(guò)程。一種最簡(jiǎn)單的詞向量方式是用維度為詞表大小的向量來(lái)表示一個(gè)詞,而且只有一個(gè)維度的值為1,這個(gè)維度表示當(dāng)前的詞語(yǔ),其他維度全是0。這種詞的表示有兩個(gè)缺點(diǎn):一是容易受維數(shù)災(zāi)難的困擾;二是不能很好地刻畫詞與詞之間的相似性,這種情況下,詞向量之間的距離都是相同的。另外一種是分布式表征方法,通過(guò)訓(xùn)練將某種語(yǔ)言中的每一個(gè)詞映射成一個(gè)固定維度的向量,將所有這些向量放在一起形成一個(gè)詞向量空間,而每一向量則為該空間中的一個(gè)點(diǎn),在這個(gè)空間上引入“距離”,就可以計(jì)算詞語(yǔ)之間在語(yǔ)義語(yǔ)法之間的相似度。
Word2vec[8]是Google公司開(kāi)源的一個(gè)用于將詞語(yǔ)進(jìn)行向量化表示的工具,是神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型的簡(jiǎn)化,有CBOW和Skip-gram兩種模型[9-10]。只需要輸入要訓(xùn)練的語(yǔ)料,便可以輸出語(yǔ)料中的詞語(yǔ)對(duì)應(yīng)的詞向量。得到的向量可以在自然語(yǔ)言處理和機(jī)器學(xué)習(xí)的任務(wù)中用來(lái)表示特征。Mikolov等[11]發(fā)現(xiàn)通過(guò)word2vec訓(xùn)練出來(lái)的詞向量具有一定的表示詞匯語(yǔ)法和語(yǔ)義關(guān)系的能力,因此可以通過(guò)計(jì)算詞語(yǔ)對(duì)應(yīng)的向量之間的相似度來(lái)得到詞匯之間的語(yǔ)義相似度。
在普通的詞向量訓(xùn)練模型中,一個(gè)詞語(yǔ)只有一個(gè)詞向量,對(duì)于多義詞來(lái)說(shuō),一個(gè)詞向量顯然是不夠的,Huang等[12]為多義詞訓(xùn)練多個(gè)詞向量,Chen等[13]為多義詞的每個(gè)義項(xiàng)訓(xùn)練相應(yīng)的詞向量。因此我們用不同的詞向量來(lái)表示多義詞的每一個(gè)概念。為了增強(qiáng)詞向量的語(yǔ)義表達(dá)能力,我們將《知網(wǎng)》中的具有語(yǔ)義表征能力的義原信息融入到詞向量的訓(xùn)練過(guò)程中,既可以得到普通詞語(yǔ)的詞向量,又可以得到義原的表示向量,為下一步多義詞詞向量的表示以及詞義消歧提供支持。詞向量的訓(xùn)練步驟為:
a)將原始語(yǔ)料進(jìn)行分詞,其中語(yǔ)料選取自1.6G的現(xiàn)代漢語(yǔ)語(yǔ)料;
b)在保留原始語(yǔ)料的基礎(chǔ)上,將語(yǔ)料中出現(xiàn)的單義原詞替換為對(duì)應(yīng)的義原,同時(shí)加上標(biāo)簽,例如,“參觀”被替換為“【看】”。通過(guò)訓(xùn)練我們就可以得到表示詞語(yǔ)“參觀”和義原“看”的向量。由于單義原詞中義原數(shù)量遠(yuǎn)遠(yuǎn)小于單義原詞本身(4%),因而這一過(guò)程可以大大減少數(shù)據(jù)稀疏對(duì)訓(xùn)練造成的困擾;
c)將處理后的語(yǔ)料作為word2vec模型的輸入,詞向量的維度設(shè)為100,上下文窗口為5,選擇CBOW方法進(jìn)行訓(xùn)練。
本文主要通過(guò)計(jì)算多義詞與上下文的特征向量之間的語(yǔ)義相似度來(lái)進(jìn)行詞義消歧,相似度最高的義項(xiàng)作為多義詞在該語(yǔ)境下的語(yǔ)義。
2.3.1 多義詞與特征向量的相似度
多義詞與特征向量之間的相似度計(jì)算主要通過(guò)計(jì)算多義詞的概念與多義詞的特征向量之間的相似度來(lái)實(shí)現(xiàn)。選取相似度最大的概念作為該多義詞在當(dāng)前上下文的解釋。假設(shè)多義詞有N個(gè)概念,那么概念向量集合為{c1,c2,…,cn}。特征向量設(shè)為F。則有式(1)。
C′即為多義詞在當(dāng)前上下文的最佳的候選概念(義項(xiàng))。而sim(ci,F(xiàn))表示概念與特征向量的相似度。
2.3.2 概念與特征向量的相似度
概念一般是由多個(gè)義原進(jìn)行表示,概念的向量表示有以下三種方法:
a)sumVec:將表示概念的義原的向量進(jìn)行累加,累加結(jié)果用來(lái)表示概念。
b)averVec:求表示概念的義原的向量平均值,平均值用來(lái)表示概念。
c)allVec:表示概念的所有義原的向量均用來(lái)表示概念。
概念與特征向量的相似度計(jì)算方法:
a)當(dāng)使用sumVec和averVec方法表示向量時(shí),相似度為兩個(gè)向量的余弦距離。
b)當(dāng)使用allVec表示向量時(shí),采用Mihalcea
[14]的向量對(duì)齊的方法計(jì)算相似度。
向量對(duì)齊方法:假設(shè)有J個(gè)向量表示特征,特征向量集合為F:{f1,f2,…,fj},有K個(gè)向量表示概念,概念向量集合為C:{c1,c2,…,ck},F(xiàn)和C中的向量?jī)蓛芍g計(jì)算余弦相似度,取相似度最大的一對(duì)作為已對(duì)齊的向量,插入到集合P中。
P:{{(fl,cm)…}(fl∈F,cm∈C)。然后從F和C中將已選擇的向量刪除,循環(huán)執(zhí)行此步驟,直至F或者C變成空。最后計(jì)算所有對(duì)齊向量的平均余弦相似度,如式(2)所示。
其中
本文選取多義詞的上下文信息作為特征。Zheng-Yu Niu[15]認(rèn)為詞語(yǔ)的上下文窗口為10以內(nèi)的時(shí)候作特征最好。Ke Cai[16]的實(shí)驗(yàn)結(jié)果表明上下文特征窗口為5(-5,+5)的時(shí)候結(jié)果最好。Huang Heyan[17]的實(shí)驗(yàn)結(jié)果則表明上下文窗口為1的時(shí)候效果最好。本文分別選取上下文窗口為1的實(shí)詞和整句話中除多義詞以外的所有實(shí)詞作為特征進(jìn)行了兩組實(shí)驗(yàn)。
由于選取的上下文特征詞一般都不止有一個(gè),所以如何表示特征向量又是一個(gè)問(wèn)題。針對(duì)這個(gè)問(wèn)題,我們同樣采用了三種方法:
a)sumVec:將上下文窗口內(nèi)實(shí)詞的向量進(jìn)行累加,累加結(jié)果作為特征向量;
b)averVec:求上下文窗口內(nèi)實(shí)詞的向量平均值,平均值作為特征向量;
c)allVec:上下文窗口內(nèi)所有實(shí)詞的向量均作為特征向量。
本實(shí)驗(yàn)訓(xùn)練語(yǔ)料來(lái)自北京語(yǔ)言大學(xué)現(xiàn)代漢語(yǔ)語(yǔ)料庫(kù)(BCC)[18]的文學(xué)綜合語(yǔ)料,包括文學(xué)、報(bào)刊類,共計(jì)13億字左右??偣灿?xùn)練了182 398個(gè)義原實(shí)例,測(cè)試數(shù)據(jù)來(lái)自SENSEVAL-3的中文詞義消歧評(píng)測(cè)任務(wù),有20個(gè)漢語(yǔ)詞的379個(gè)實(shí)例。如“材料”這個(gè)多義詞的消歧示例如圖3所示。
圖3 “材料”的消歧示例
由于未參加當(dāng)年評(píng)測(cè),故無(wú)法獲取官方的測(cè)試集標(biāo)注結(jié)果,本實(shí)驗(yàn)的測(cè)試集標(biāo)注方法為在《知網(wǎng)》2011版的基礎(chǔ)上進(jìn)行的手工標(biāo)注。
正確率的計(jì)算公式如式(4)所示。
其中nc表示標(biāo)注正確的實(shí)例數(shù),na表示所有的實(shí)例數(shù)。
本文做了六個(gè)對(duì)比實(shí)驗(yàn),如表2所示。
表2 對(duì)比實(shí)驗(yàn)
實(shí)驗(yàn)發(fā)現(xiàn),實(shí)驗(yàn)四的準(zhǔn)確率最高,達(dá)到了37.7%,最差的是實(shí)驗(yàn)六,準(zhǔn)確率只有25.6%。三種向量的表示方法效果相比:
同時(shí),選取上下文所有的實(shí)詞作為特征的實(shí)驗(yàn)結(jié)果普遍好于使用最近鄰實(shí)詞作為特征的方法。
表3是實(shí)驗(yàn)四中多義詞“錢”的部分實(shí)驗(yàn)結(jié)果,其中“錢”共有“單位”、“貨幣”、“錢財(cái)”、“姓”、“資金”五個(gè)義項(xiàng)。
具體的實(shí)驗(yàn)結(jié)果如表4所示。
SENSEVAL-3中對(duì)應(yīng)的中文評(píng)測(cè)最優(yōu)的系統(tǒng)準(zhǔn)確率可以達(dá)到66.5%,但是該系統(tǒng)采用的是有監(jiān)督的學(xué)習(xí)方法,我們的實(shí)驗(yàn)是采用完全無(wú)監(jiān)督的。同時(shí)經(jīng)過(guò)仔細(xì)觀察SENSEVAL-3的訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)發(fā)現(xiàn),測(cè)試語(yǔ)料與訓(xùn)練語(yǔ)料的相似度比較高,在某種程度上降低了有監(jiān)督學(xué)習(xí)的難度,而且20個(gè)多義詞只有79個(gè)義項(xiàng)需要消歧,而我們使用的是《知網(wǎng)》2011版,共有115個(gè)義項(xiàng),義項(xiàng)數(shù)量是評(píng)測(cè)任務(wù)的146%,消歧難度較之前工作大大增加。另外,Wanyin Li[19]也使用了SENSEVAL-3的數(shù)據(jù)進(jìn)行實(shí)驗(yàn),將詞語(yǔ)的搭配信息和主題信息作為特征,利用貝葉斯分類器實(shí)現(xiàn)詞義的消歧,準(zhǔn)確率為37.6%。雖然實(shí)驗(yàn)設(shè)計(jì)不同,但是同樣作為無(wú)監(jiān)督的方法,本文提出的方法能夠得到更高的準(zhǔn)確率,說(shuō)明該方法是有效的。由于沒(méi)有2002版《知網(wǎng)》數(shù)據(jù),所以沒(méi)有再進(jìn)行進(jìn)一步的實(shí)驗(yàn),但是理論上正確率應(yīng)該會(huì)更高。
表3 “錢”的部分消歧結(jié)果與分析
表4 實(shí)驗(yàn)結(jié)果
續(xù)表
詞義消歧是自然語(yǔ)言處理中的基礎(chǔ)與難點(diǎn),我們將《知網(wǎng)》中可以表示詞語(yǔ)語(yǔ)義的義原信息融入到詞向量的訓(xùn)練中,利用義原向量對(duì)多義詞進(jìn)行向量化表示,并將其應(yīng)用到詞語(yǔ)消歧。實(shí)驗(yàn)結(jié)果表明:使用averVec這種方法來(lái)表示向量,以及選取整句的實(shí)詞作為特征是可行的。
本實(shí)驗(yàn)只是初步的對(duì)此方法進(jìn)行了探索,后續(xù)需要完善和優(yōu)化的地方還有很多。由于詞向量的訓(xùn)練本身準(zhǔn)確率并不能達(dá)到100%,而且《知網(wǎng)》中表示單義原詞的義原也只能表示81.4%的詞語(yǔ),這就決定了實(shí)驗(yàn)最后的準(zhǔn)確率肯定達(dá)不到100%,鑒于詞義消歧的困難性,這些環(huán)節(jié)有待進(jìn)一步的優(yōu)化。今后將會(huì)在注入本體知識(shí)的詞向量的訓(xùn)練、特征的選取與表示、《知網(wǎng)》的常識(shí)信息的利用等方面進(jìn)行更深入的研究。
[1] 董振東,董強(qiáng).《知網(wǎng)》.[DB]http://www.keenage.com
[2] 劉群,李素建.基于《知網(wǎng)》的詞匯語(yǔ)義相似度的計(jì)算[C].第三屆漢語(yǔ)詞匯語(yǔ)義學(xué)研討會(huì).臺(tái)北,2002:59-76.
[3] 余曉峰,劉鵬遠(yuǎn),趙鐵軍.一種基于《知網(wǎng)》的漢語(yǔ)詞語(yǔ)詞義消歧方法[C].第二屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì),北京:中國(guó)中文信息學(xué)會(huì),2004.
[4] 車超,金博,滕弘飛,等.基于義原關(guān)系的多策略漢語(yǔ)詞義消歧方法[J].大連理工大學(xué)學(xué)報(bào),2010,50(4):603-608.
[5] 楊爾弘,張國(guó)清,張永奎.基于義原同現(xiàn)頻率的漢語(yǔ)詞義排歧方法[J].計(jì)算機(jī)研究與發(fā)展,2001,38(7):833-838.
[6] 張明寶,馬靜.一種基于知網(wǎng)的中文詞義消歧算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,19(2):9-11,15.
[7] 于東,荀恩東.基于Word Embedding語(yǔ)義相似度的字母縮略術(shù)語(yǔ)消歧[J].中文信息學(xué)報(bào),2014,28(5):51-59.
[8] Mikolov T.Word2vec Project[DB/OL].http://code.google.com/p/word2vec/.
[9] Mikolov T,Kai Chen,Greg Corrado,et al.Efficient estimation of word representations in vector space[C]//Proceedings of the ICLR Workshop,2013.
[10] Mikolov T,Yih W,Zweig G.Linguistic regularities in continuous space word representations[C]//Proceedings of the HLT-NAACL.2013.
[11] Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their com-positionality[C]//Proceedings of the Advances in Neural Information Processing Systems.2013:3111-3119.
[12] Huang E H,Socher R,Manning C D,et al.Improving word representations via global context and multiple word prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics:Volume 1.Association for Computational Linguistics,2012:873-882.
[13] Chen X,Liu Z,Sun M.A unified model for word sense representation and disambiguation[C]//Proceedings of the 2014Conference on Empirical Methods in Natural Language Processing.2014:1025-1035.
[14] Mihalcea R,Corley C,Strapparava C.Corpus-based and knowledge-based measures of text semantic similarity[C]//Proceedings of the American Association for Artificial Intelligence MA,2006.
[15] Niu Z Y,Ji D H,Tan C L.Optimizing feature set for Chinese word sense disambiguation[C]//Proceedings of Senseval-3,Third International Workshop on Evaluating Word Sense Disambiguation Systems.2004.
[16] Ke Cai,Xiaodong Shi,Yidong Chen,et al.Chinese Word Sense Induction based on Hierarchical Clustering Algorithm[C]//Proceedings of the CLP,2010.
[17] Huang Heyan,Yang Zhizhuo,Jian Ping.Unsupervised Word Sense Disambiguation Using Neighborhood Knowledge[C]//Proceedings of the 25th Pacific Asia Conference on Language,Information and Computation,2011:333-342
[18] 北京語(yǔ)言大學(xué)漢語(yǔ)語(yǔ)料庫(kù)[DB].http://www.bcc.blcu.edu.cn/
[19] Li W,Lu Q,Li W.Integrating Collocation Features in Chinese Word Sense Disambiguation[C]//Proceedings of the Fourth Sighan Workshop on Chinese Language Processing.2005:87-94.