自然語言處理中的語義消歧研究

2013-08-15 05:53賈媛媛

淮南師范學(xué)院學(xué)報(bào) 2013年5期

賈媛媛

（淮南師范學(xué)院數(shù)學(xué)與計(jì)算科學(xué)系,安徽淮南 232038）

1 簡(jiǎn)介

自然語言處理（又叫自然語言理解，計(jì)算語言學(xué)）是當(dāng)前IT領(lǐng)域的重要技術(shù)之一。隨著互聯(lián)網(wǎng)信息的急劇增長(zhǎng)，搜索引擎成為人們獲取信息不可缺少的工具。但是基于關(guān)鍵字索引的工具已經(jīng)越來越無法滿足用戶的需求，相反用戶更希望計(jì)算機(jī)能理解句子的意思以幫助我們更好地處理信息和組織信息，這就需要自然語言處理技術(shù)來解決，例如中文分詞、詞性標(biāo)注、句法分析、依存關(guān)系分析、語義消歧等等。要真正理解句子的含義，這些最基本的處理是必須的。

語義消歧是比分詞、詞性標(biāo)注、句法分析更高級(jí)的自然語言處理技術(shù)，但面臨的困難也更大。例如，“我是她的粉絲”，要理解這句話，首先必須對(duì)句子進(jìn)行分詞和詞性標(biāo)注，得到這樣的結(jié)果“我/代詞是/動(dòng)詞她/代詞的/助詞粉絲/名詞。 /句號(hào)”。其次需要對(duì)這句話做句法分析，也就是說必須讓計(jì)算機(jī)知道，這句話的主要成分是“我是粉絲”，“她的”是用來修飾和限定“粉絲”的。然后從語義的角度上分析，“我”是人，人不能是“粉絲”，因此這里“粉絲”應(yīng)該指的是網(wǎng)絡(luò)用語中的“粉絲”，意思是“fans”。這樣這句話所要表達(dá)的意思就比較清楚了。

語義消歧通常指根據(jù)一個(gè)詞所處的上下文來判斷這個(gè)詞在這個(gè)上下文中的意思。語義消歧是自然語言處理的重要方面，很多現(xiàn)實(shí)的應(yīng)用都必須以語義消歧為基礎(chǔ)。

語義消歧的方法大致分為四個(gè)類別，即基于背景知識(shí)的語義消歧、監(jiān)督的語義消歧方法、半監(jiān)督的學(xué)習(xí)方法和無監(jiān)督的學(xué)習(xí)方法。

2 基于背景知識(shí)的語義消歧

基于背景知識(shí)的語義消歧方法，就是建立在一個(gè)已有的背景知識(shí)庫上的方法。這種背景知識(shí)庫通常是一種人工建立的可被計(jì)算機(jī)讀取的字典，這個(gè)字典通常具有一個(gè)有向圖結(jié)構(gòu)，其中每個(gè)節(jié)點(diǎn)代表一個(gè)概念，每個(gè)概念包含了能夠表示此概念的所有的詞（同義詞集），因此，詞與概念之間的關(guān)系是多對(duì)多的關(guān)系，即一個(gè)詞可以對(duì)應(yīng)多個(gè)概念，一個(gè)概念又可以對(duì)應(yīng)多個(gè)詞。每個(gè)概念的父節(jié)點(diǎn)是比此概念更一般的一個(gè)概念，它的子節(jié)點(diǎn)則是比它更特殊的概念。

2.1 概念之間的相似度

在MRD的基礎(chǔ)上，很多工作都是考慮如何衡量?jī)蓚€(gè)概念之間的相似度。例如下面是一個(gè)常用的衡量標(biāo)準(zhǔn)①Claudia Leacock and Martin Chodorow.Filling in a sparse training space for word sense identification.ms.,March 1994.，其中Path(C1,C2)是概念C1和C2在一個(gè)語義網(wǎng)中的路徑，D為這個(gè)語義網(wǎng)絡(luò)的最大深度?？梢钥闯?，兩個(gè)概念在語義網(wǎng)中距離越近，那么它們相似度越高。

除此之外，還有很多其它的相似度量法，如[Resnik 1995]中，作者用信息容量（Information Content）來定義兩個(gè)概念相似度，即：

其中，LCS(C1,C2)為能夠包含這兩個(gè)概念的上意概念（Least Common Subsumer），也即這兩個(gè)概念在語義網(wǎng)中對(duì)應(yīng)節(jié)點(diǎn)最接近它們的共同父親節(jié)點(diǎn)；IC(C)即概念C的信息容量，直觀講，一個(gè)概念越頻繁，那么它的信息量越少。

2.2 選擇傾向（Selectional Preference）

選擇傾向是定義詞用法的一種簡(jiǎn)化方式，例如：我們常說“喝可樂，喝中藥，喝酒，喝水”，其實(shí)我們有一種對(duì)“喝”這個(gè)詞用法的定義，即喝后面通常跟可食用的液體，這樣我們就知道“可樂”這里指的是一種飲料。也就是說如果使用選擇傾向來幫助我們做語義消歧可以很大程度提高消歧的準(zhǔn)確率。那么如何得到這些選擇傾向呢？直接從人標(biāo)注的語料庫中得到這樣的知識(shí)，像“可樂”這樣的詞已經(jīng)被人工標(biāo)注了它的正確義項(xiàng)，通過語料庫，我們把“可樂”，“水”，“酒”都?xì)w屬于“飲料”這個(gè)概念，而“中藥”，“口服液”等則歸屬于“藥水”，這樣可以得到兩個(gè)選擇傾向：喝[飲料]，喝[藥水]。當(dāng)然，也可將“飲料”，“藥水”上升到“液體”，從而得到：喝[液體]。選擇傾向?qū)嶋H上是一種詞和概念（Word-to-Class）的搭配，所以可以設(shè)定一個(gè)閾值，當(dāng)一個(gè)詞和概念對(duì)的度量達(dá)到這個(gè)閾值時(shí)，就可以認(rèn)為是一個(gè)選擇傾向配。

2.3 雙語對(duì)齊語料的利用

另外，利用雙語對(duì)齊的語料庫也可以建立一個(gè)標(biāo)注語料庫。有時(shí)一個(gè)有歧義的詞，當(dāng)知道了它對(duì)另外一種語言的翻譯時(shí)，就知道它的義項(xiàng)。如“可樂”一詞在某個(gè)句子中如果它的英文翻譯是Cola，而Cola本身是沒有歧義的，那么我們就可以用Cola的義項(xiàng)來標(biāo)注“可樂”，這樣就得到一個(gè)標(biāo)注的語料庫②William A.Gale,Kenneth W.Church and David Yarowsky.A Method for Disambiguating Word Senses in a Large Corpus.Computers and the Humanities.pp.1-30.1992.。

3 有監(jiān)督的語義消歧

一般來說，監(jiān)督學(xué)習(xí)（Supervised Learning）的方法也就是數(shù)據(jù)的類別在學(xué)習(xí)之前已經(jīng)知道。在語義消歧的問題上，就是說每個(gè)詞所有可能的義項(xiàng)都是已知的。有監(jiān)督的語義消歧方法通過一個(gè)已標(biāo)注的語料庫學(xué)習(xí)得到一個(gè)分類模型。

在此框架下，剩下的主要問題就是如何選擇能夠比較好地區(qū)分詞的不同語義的特征。人們理解一個(gè)詞的真正意義，通常是根據(jù)這個(gè)詞所處的上下文來判斷。而在現(xiàn)有技術(shù)中，提取特征的方法也是根據(jù)這個(gè)原則進(jìn)行的。例如，目前語義消歧常用的特征包括：Co-occurrence，詞語搭配（Collocation），NGram，詞性（Part-Of-Speech），predicate-argument，動(dòng)賓結(jié)構(gòu)，主謂結(jié)構(gòu)等。同時(shí)，為了避免大量跟當(dāng)前詞沒有關(guān)系（如距離較遠(yuǎn)）的詞影響消歧結(jié)果，提取特征通常被限定在一個(gè)固定的窗口大小內(nèi)。

4 無監(jiān)督的語義消歧

無監(jiān)督的語義消歧主要是通過對(duì)每個(gè)詞所處的上下文環(huán)境來將相同意義的詞聚類到一起。也就是說這種方法假設(shè)具有相同上下文的詞將具有相同或者類似的意義③David Yarowsky.Unsupervised word sense disambiguation rivaling supervised methods.Proceedings of the 33rd annual meeting on Association for Computational Linguistics(ACL'95).pp.189-196.1995.。無監(jiān)督方法不借助任何背景知識(shí)，即這種方法事先并不知道每個(gè)詞可能具有哪些不同的意思，因此，這種無監(jiān)督的方法也并不給同一個(gè)聚類一個(gè)語義標(biāo)簽。這種方法仍然采用監(jiān)督學(xué)習(xí)方法里面表示每個(gè)詞的方法，即向量空間模型。因此，只要是基于VSM的所有聚類算法也都適用于無監(jiān)督的語義消歧。另外，聚類方法對(duì)于建立選擇傾向也有幫助作用。

5 半監(jiān)督的語義消歧

半監(jiān)督的方法介于監(jiān)督和無監(jiān)督方法之間，它不需要人工標(biāo)注大量的語料庫，而是通過一些標(biāo)注的樣例作為種子集合，通過一種迭代的方式來不斷地?cái)U(kuò)展這個(gè)集合，如Self-Training，Co-Training以及Bootstrapping的方法都屬于此類①Rada Mihalcea,Paul Tarau and Elizabeth Figa.PageRank on Semantic Networks,with Application to Word Sense Disambiguation.Proceedings of the 20th International Conference on Computational Linguistics(COLING'04).2004.。

半監(jiān)督方法可以很好地緩解數(shù)據(jù)稀疏的問題，但這種迭代的方法很容易引入一些錯(cuò)誤的樣例（噪聲），錯(cuò)誤的積累最終導(dǎo)致此方法的性能也無法達(dá)到令人滿意的程度。關(guān)于如何建設(shè)大規(guī)模標(biāo)注語料庫，可參考②Jin Peng,Wu Yunfang,Yu Shiwen.Survey of Word Sense Annotated Corpus Construction.Journal of Chinese Information Processing.22(3):16-23.May,2008.。

6 討論與展望

我們可以看到現(xiàn)有的工作使用了各種機(jī)器學(xué)習(xí)方法以及各種有用的特征，然而究竟哪些方法和那些特征具有較好的效果呢？在③Yoong Keok Lee and Hwee Tou Ng.An Empirical Evaluation of Knowledge Sources and Learning Algorithms for Word Sense Disambiguation.Proceedings of the ACL-02 conference on Empirical methods in natural language processing(EMNLP'02).pp.41-48.2002.中，作者比較了幾種較流行的機(jī)器學(xué)習(xí)方法，包括SVM,樸素貝葉斯,AdaBoost和決策樹。實(shí)驗(yàn)結(jié)果表明SVM方法得到了最好的效果，其次是樸素貝葉斯。其中WSD問題本身存在嚴(yán)重的數(shù)據(jù)稀疏問題，而在很多稀疏問題上，SVM和樸素貝葉斯都有比較好的表現(xiàn)。

要更好地解決WSD問題，有兩個(gè)方法可以做，一是標(biāo)注大量的數(shù)據(jù)集，二是建立一套完善的背景知識(shí)。對(duì)于“完善的背景知識(shí)”主要是指能夠反映每個(gè)詞在不同場(chǎng)合的用法的定義，這個(gè)思想類似于選擇傾向，但比選擇傾向更加具體。例如，對(duì)于喝，可以定義喝[可飲用的液體]，而同時(shí)，如果其他的概念（concept），具有[可飲用的液體]屬性的，就可以與喝搭配。那么對(duì)于一個(gè)詞，如“可樂”，如果具有兩個(gè)不同的義項(xiàng)，其中一個(gè)具有[可飲用的液體]的屬性，另一個(gè)不具有，則當(dāng)“喝”在“可樂”之前出現(xiàn)時(shí)，就可以很容易判斷“可樂”的義項(xiàng)。但是當(dāng)前的選擇傾向都是通過統(tǒng)計(jì)的方式獲得，這就導(dǎo)致了這種用法的過于一般性和不完善性。一個(gè)更好的關(guān)于詞的“用法”的詞典應(yīng)該由人工來完成，然后將這樣的詞典作為有用的背景知識(shí)庫。

另外一方面，在進(jìn)行WSD之前，必須很清楚地知道句子的組成方式，也就是說必須知道哪個(gè)詞修飾哪個(gè)詞，而區(qū)分一次詞的義項(xiàng)通常只由修飾它的詞或者它修飾的詞決定。例如，句子“他在喝可樂”，判斷“可樂”義項(xiàng)時(shí)，應(yīng)該通過“喝”判斷，而不應(yīng)該通過“他”來判斷，否則會(huì)得到完全不同的結(jié)果。因此，WSD需要更精確地劃分句子成分（Syntactic Parsing）。

最后，很多詞的用法比較相似，尤其是一些可以互相替換的同義詞，如果能夠找到這樣一些用法相似的詞，一方面在缺乏背景知識(shí)情況下，這些詞可以緩解數(shù)據(jù)稀疏的問題。例如④Dekang Lin.Using Syntactic Dependency as Local Context to Resolve Word Sense Ambiguity.Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics.pp.64-71.1997.中，作者利用所有相似詞，而不是單一詞作為訓(xùn)練集，來訓(xùn)練監(jiān)督的語義消歧方法。在⑤Peng Jin,Xu Sun,Yunfang Wu and Shiwen Yu.Word Clustering for Collocation-Based Word Sense Disambiguation,Proceedings ofthe InternationalConference on IntelligentTextProcessing and Computational Linguistics(CICLing'07),LNCS4394.2007.pp.267-274.中，作者通過聚類方式得到相似的詞。另一方面，這種處理方式也可以輔助人工進(jìn)行背景知識(shí)庫的建立。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡