崔韜世 麥范金
桂林理工大學(xué) 廣西 541004
詞語相似度計算研究的是用什么樣的方法來計算或比較兩個詞語的相似性。詞語相似度計算在自然語言處理、智能檢索、文本聚類、文本分類、自動應(yīng)答、詞義排歧和機器翻譯等領(lǐng)域都有廣泛的應(yīng)用,它是一個基礎(chǔ)研究課題,正在為越來越多的研究人員所關(guān)注。筆者對詞語相似度計算的應(yīng)用背景、研究成果進行了歸納和總結(jié),包括每種策略的基本思想、依賴的工具和主要的方法等,以供自然語言處理、智能檢索、文本聚類、文本分類、數(shù)據(jù)挖掘、信息提取、自動應(yīng)答、詞義排歧和機器翻譯等領(lǐng)域的研究人員參考和應(yīng)用。詞語相似度計算的應(yīng)用主要有以下幾點:
(1) 在基于實例的機器翻譯中,詞語相似度主要用于衡量文本中詞語的可替換程度。
(2) 在信息檢索中,相似度更多的是反映文本與用戶查詢在意義上的符合程度。
(3) 在多文檔文摘系統(tǒng)中,相似度可以反映出局部主題信息的擬合程度。
(4) 在自動應(yīng)答系統(tǒng)領(lǐng)域,相似度的計算主要體現(xiàn)在計算用戶問句和領(lǐng)域文本內(nèi)容的相似度上。
(5) 在文本分類研究中,相似度可以反映文本與給定的分類體系中某類別的相關(guān)程度。
(6) 相似度計算是文本聚類的基礎(chǔ),通過相似度計算,把文檔集合按照文檔間的相似度大小分成更小的文本簇。
基于統(tǒng)計方法計算詞語相似度通常是利用詞語的相關(guān)性來計算詞語的相似度。其理論假設(shè)凡是語義相近的詞,它們的上下文也應(yīng)該相似。因此統(tǒng)計的方法對于兩個詞的相似度算建立在計算它們的相關(guān)詞向量相似度基礎(chǔ)上。首先要選擇一組特征詞,然后計算這一組特征詞與每一個詞的相關(guān)性(一般用這組詞在實際的大規(guī)模語料中在該詞的上下文中出現(xiàn)的頻率來度量),于是,對于每一個詞都可以得到一個相關(guān)性的特征詞向量,然后計算這些向量之間的相似度,一般用向量夾角余弦的計算結(jié)果作為這兩個詞的相似度。
Lee利用相關(guān)熵,Brown采用平均互信息來計算詞語之間的相似度。李涓子(1999)利用這種思想來實現(xiàn)語義的自動排歧;魯松(2001)研究了如何利用詞語的相關(guān)性來計算詞語的相似度。PBrownetc采用平均互信息來計算詞語之間的相似度?;诮y(tǒng)計的定量分析方法能夠?qū)υ~匯間的語義相似性進行比較精確和有效的度量?;诖笠?guī)模語料庫進行的獲取受制于所采用的語料庫,難以避免數(shù)據(jù)稀疏問題,由于漢語的一詞多義現(xiàn)象,統(tǒng)計的方法得到的結(jié)果中含有的噪聲是相當大的,常常會出現(xiàn)明顯的錯誤。
關(guān)于 Ontology的定義有許多,目前獲得較多認同的是R.Studer的解釋:“Ontology是對概念體系的明確的、形式化的、可共享的規(guī)范說明”。在最簡單的情況下,本體只描述概念的分類層次結(jié)構(gòu);在復(fù)雜的情況下,本體可以在概念分類層次的基礎(chǔ)上,加入一組合適的關(guān)系、公理、規(guī)則來表示概念間的其它關(guān)系,約束概念的內(nèi)涵解釋。
WordNet是一個聯(lián)機英語詞匯檢索系統(tǒng),由 Prince-ton大學(xué)研制。它作為語言學(xué)本體庫同時又是一部語義詞典,在自然語言處理研究方面應(yīng)用很廣。它采用語義網(wǎng)絡(luò)作為其詞匯本體的基本表示形式。在 WordNet中,網(wǎng)絡(luò)節(jié)點由字形(Wordform)標識,分為名詞、動詞、形容詞、副詞和功能詞等5種。節(jié)點之間的關(guān)系分為同義關(guān)系(Synonymy)、反義關(guān)系(Antonymy)、繼承關(guān)系(Hypony-my)、部分/整體關(guān)系(Meronymy)、形態(tài)關(guān)系(Morpholog-icalrelation)等。WordNet提供了很好的概念層次結(jié)構(gòu)。
知網(wǎng)是一個以漢語和英語詞語所代表的概念為描述對象、以揭示概念與概念之間以及概念所具有屬性之間的關(guān)系為基本內(nèi)容的常識庫和知識庫。其中包含豐富的詞匯語義知識和本體知識,這些關(guān)系都隱含在知網(wǎng)的知識詞典和義原的特征文件中。知網(wǎng)中有以下兩個主要的概念:
(1) 義項。它是對詞匯語義的一種描述,每一個詞可以表達為幾個義項。義項是用一種知識表示語言來描述的,這種知識表示語言所用的詞匯叫做義原。
(2) 義原。它是用于描述一個概念的最小意義單位,從所有詞匯中提煉出的可以用來描述其他詞匯的不可再分的基本元素。
與一般的語義詞典(如同義詞、詞林或 WordNet)不同,知網(wǎng)并不是簡單地將所有的概念歸結(jié)到一個樹狀的概念層次體系中,而是試圖用一系列的義原來對每一個概念進行描述。
知網(wǎng)的漢語知識庫中每個詞匯由一個四元組表示:
DEF部分是表示詞與義原的關(guān)系,也是詞匯描述中最重要的部分,可以簡單地認為詞是由義原通過某種關(guān)系構(gòu)成的。
根據(jù)本體知識來計算。主要是基于按照概念間結(jié)構(gòu)層次關(guān)系組織的語義詞典方法,根據(jù)概念之間的關(guān)系來計算詞語的相似度。這類方法通常依賴于比較完備的大型語義詞典,一般詞典都是將所有的詞組織在一棵或幾棵樹狀的層次結(jié)構(gòu)中,在一棵樹型圖中,任何兩個節(jié)點之間有且只有一條路徑,這條路徑的長度就可以作為這兩個概念的語義距離的一種度量。
傳統(tǒng)基于本體的概念之間相似度計算模型主要有基于距離的語義相似度計算模型、基內(nèi)容的語義相似度計算模型和基于屬性的語義相似度計算模型3種。
劉群等人利用知網(wǎng)作為語義詞典計算漢語詞匯的相似度;Rada等人和Lee等人通過計算在WordNet中詞節(jié)點之間上下位關(guān)系構(gòu)成的最短路徑來計算詞語之間的相似度。許多學(xué)者考慮到其他因素對語義距離的影響,如Resnik根據(jù)兩個詞的公共祖先節(jié)點的最大信息量來衡量兩個詞的語義相似度;Agirre等人在計算詞語的語義相似度時,除了節(jié)點間的路徑長度外,還考慮到概念層次樹的深度和區(qū)域密度的影響。張瑞霞等人提出了一種基于知識圖的漢語詞匯相似度計算方法,該方法以知識圖為知識表示方法,在構(gòu)造詞圖的基礎(chǔ)上對詞匯概念中的義原進行分類,通過計算不同類型義的相似度得到概念的相似度。
這兩種方法各有特點?;谑澜缰R的方法簡單有效,無需用語料庫進行訓(xùn)練,也比較直觀,易于理解,但這種方法得到的結(jié)果受人的主觀意識影響較大,有時并不能準確反映客觀事實。另外,這種方法比較準確地反映了詞語之間語義方面的相似性和差異,而對于詞語之間的句法和語用特點考慮得比較少。基于語料庫的方法比較客觀,綜合反映了詞語在句法、語義、語用等方面的相似性和差異。但是,這種方法比較依賴于訓(xùn)練所用的語料庫,計算量大,計算方法復(fù)雜,另外,受資料稀疏和資料噪聲的干擾較大。
[1]秦春秀,趙捧未,劉懷亮.詞語相似度計算研究[J].信息系統(tǒng).2007.
[2]余超.基于知網(wǎng)的詞匯語義計算研究及應(yīng)用[D].遼寧:沈陽航空工業(yè)學(xué)院.2007.
[3]劉紫玉,黃磊.基于領(lǐng)域本體模型的概念語義相似度計算研究[J].計算機技術(shù)與發(fā)展.2010.
[4]http://wordnet.princeton.edu/.
[5]http://www.keenage.com/.
[6]孫海霞,錢慶,成穎.基于本體的語義相似度計算方法研究綜述[J].知識組織與知識管理.2010.
[7]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計算[J].計算語言學(xué)及中文信息處理.2002.
[8]Resnik O.Semantic Similarity in a Taxonomy:An Information-Based Measure and Its Application to Problems of Ambiguity and Natural Language[J].Journal of A rtificial Intelligence Research.1999.