摘 要:詞語相似度研究作為人工智能領(lǐng)域中一項(xiàng)重要研究,被廣泛應(yīng)用于信息檢索,詞義消歧,機(jī)器翻譯,語音自動(dòng)摘要,分類和聚類等方面?,F(xiàn)有的詞語相似度算法主要分為基于語義資源和基于統(tǒng)計(jì)兩類方法,第一種也被稱為基于本體的詞語相似度算法,主要根據(jù)詞語所處的語境來反應(yīng)詞語的詞義,即根據(jù)不同的層次結(jié)構(gòu)組織中詞所處的上下位與同位關(guān)系來計(jì)算詞語的相似度。另一種也被稱為基于大規(guī)模語料庫的算法,研究上下文環(huán)境中各個(gè)詞語之間出現(xiàn)的某種規(guī)律,利用統(tǒng)計(jì)技術(shù)計(jì)算的一種無監(jiān)督機(jī)器學(xué)習(xí)的方法。本文重點(diǎn)介紹基于不同的語義資源的詞語相似度算法,對詞語相似度算法的未來做了展望。
關(guān)鍵詞:詞語相似度;語義資源;維基百科
DOI:10.16640/j.cnki.37-1222/t.2016.05.211
1 引言
隨著云時(shí)代的來臨,大數(shù)據(jù)越來越受人們關(guān)注。伴隨著辦公室無紙化推行,人們逐漸習(xí)慣于利用計(jì)算機(jī)進(jìn)行數(shù)字化處理數(shù)據(jù),自然語言處理的研究也飛速發(fā)展。詞語是自然語言處理的最小單位,詞語相似度的計(jì)算在自然語言處理的各個(gè)領(lǐng)域占有很重要的地位。詞語相似度計(jì)算研究的是計(jì)算兩個(gè)詞語相似度的方法,詞語之間有著非常復(fù)雜的關(guān)系,應(yīng)用中常常將這種復(fù)雜的關(guān)系用簡單的數(shù)量來度量??梢娫~語相似度研究有廣闊的應(yīng)用前景和重大研究價(jià)值。本文綜合介紹了近年來基于幾種常見語義資源的詞語相似度算法和最新研究成果,對該領(lǐng)域的發(fā)展前景做出了展望。
2 基于Wordnet的方法
Wordnet是由普林斯頓大學(xué)的心理學(xué)家,語言學(xué)家和計(jì)算機(jī)工程師聯(lián)合設(shè)計(jì)的一個(gè)在線詞典參考系統(tǒng),在認(rèn)知語言學(xué)理論下推動(dòng)形成的覆蓋范圍非常廣闊的詞匯語義網(wǎng)。Wordnet不像傳統(tǒng)的在線詞典按照字母排序構(gòu)造而成,這個(gè)系統(tǒng)中的詞語根據(jù)同義關(guān)系,反義關(guān)系,部分關(guān)系聚類分為代表某一類詞匯概念的相關(guān)集合。并在這些聚類后形成的集合之間建立起不同關(guān)系。
Wordnet主要代表算法是通過計(jì)算兩個(gè)詞語在本體結(jié)構(gòu)分類的路徑長度,本體庫的統(tǒng)計(jì)特征,概念層次樹上下位關(guān)系和同位關(guān)系或?qū)υ~語涉及的邊進(jìn)行處理。例吳思穎等[1]利用語義網(wǎng)同義詞集上下位關(guān)系圖中,引入了距離,密度,深度3個(gè)因素來估計(jì)同義詞集之間的相似度,采用一個(gè)自適應(yīng)的方案來解決候選同義詞集組合的權(quán)重和取舍問題。實(shí)現(xiàn)了一個(gè)可以計(jì)算英-英,漢-英,漢-漢詞語之間相似度的算法。基于wordNet算法的主要優(yōu)點(diǎn)是覆蓋范圍寬廣,數(shù)據(jù)足夠密集,減少數(shù)據(jù)中無法解釋的數(shù)據(jù)變動(dòng)的干擾。主要缺點(diǎn)受個(gè)人偏見或局限性影響較大,對客觀現(xiàn)實(shí)的反應(yīng)不夠準(zhǔn)確。
3 基于知網(wǎng)的方法
<知網(wǎng)>(英文名稱HowNet)是著名機(jī)器翻譯專家董振東[2]先生創(chuàng)建的相對豐富的語義知識(shí)詞典,它所所描述的對象是以詞語為代表的概念,概念之間的關(guān)系用關(guān)系義原或者關(guān)系符號(hào)來表示,并且描述了多種概念的屬性與屬性之間的關(guān)系,具有種類多,數(shù)量廣并且多樣化的關(guān)系層次詞匯語義知識(shí)。
“概念“和”義原“是《知網(wǎng)》結(jié)構(gòu)中有兩個(gè)最主要的概念,”義原“是用來描述”概念“的”知識(shí)表示語言“,”義原“還是描述”概念”不可分割的基本單位。一個(gè)概念可以描述一個(gè)詞,或者多個(gè)概念組合描述一個(gè)詞,利用基本義原,語法義原和關(guān)系義原來描述概念,也是詞語的某一部分特性,計(jì)算出義原的相似度就可以求出詞語的相似度。例王斌[3],劉群等[4],Li等[5]根據(jù)《知網(wǎng)》中樹形圖由義原上下位關(guān)系構(gòu)成,分別計(jì)算出其中節(jié)點(diǎn)之間路徑的方法,或者利用集合,特征結(jié)構(gòu)整體計(jì)算得到語義距離并進(jìn)行轉(zhuǎn)換的方法,提出各種基于《知網(wǎng)》義原關(guān)系計(jì)算的詞語相似度算法?!吨W(wǎng)》提供了更加直觀,結(jié)構(gòu)化的詞匯語義信息,但是隨著知識(shí)語言發(fā)展,未登錄詞語越來越多,暴露了覆蓋的詞匯有限的局限性。
4 基于同義詞詞林的方法
1983年梅家駒等[6]人為了加速創(chuàng)作和翻譯工作,對同義詞語進(jìn)行收集匯編分類,由此編纂了 《同義詞詞林》。這本詞典最主要的是包括大部分詞的同義詞,當(dāng)然也包含了一定數(shù)量的廣義相關(guān)詞。依照樹狀層次結(jié)構(gòu)把所有收錄的詞條組織到一起,把詞匯分成大中小三類,采用層級(jí)體系,具有五層結(jié)構(gòu)。
基于《同義詞詞林》的詞語相似度算法主要采用概念切分法,節(jié)點(diǎn)路徑計(jì)算法,或者綜合算法。例天久樂等[7]從詞語的語義出發(fā),根據(jù)兩個(gè)詞語的義項(xiàng)在同義詞詞林中的位置,算出相對距離,用具體的實(shí)數(shù)值表示,并且結(jié)合兩個(gè)詞語在相類似語境中相互替換或者共現(xiàn)的可能性計(jì)算出相關(guān)性,具有高相關(guān)性的詞語具有相似性的程度也相應(yīng)較高,導(dǎo)入一定的測試函數(shù)計(jì)算出詞語的合理相似度。呂立輝等[[]]通過兩個(gè)單詞在詞林書中相距的路徑長,以及所在分支詞義密度來計(jì)算兩個(gè)中文單詞間的相似度,利用皮爾遜線性相關(guān)系數(shù)來評價(jià)該方法。基于同義詞詞林詞語相似度算法的優(yōu)缺點(diǎn)與基于Wordnet,并且同義詞詞林?jǐn)?shù)據(jù)更新緩慢。
5 基于維基百科的方法
維基百科是一個(gè)基于Web2.0技術(shù)的全球性多語言合作型語料庫,同時(shí)也是作為詞語相似度計(jì)算的網(wǎng)絡(luò)百科全書,其目標(biāo)及宗旨是由全人類提供的自由的百科全書,維基百科中使用語義解釋豐富的詞條來表示主題,每篇文章都可以歸類于某一類主題。詞條之間具有上下位關(guān)系,這種獨(dú)特的結(jié)構(gòu)方式使維基百科成為最新詞匯語義信息的重要來源。
基于維基百科的詞語相似度算法主要利用維基百科中詞條豐富的語義解釋,層次的上下位關(guān)系,文章之間借助內(nèi)容的超鏈接相互關(guān)聯(lián)反映的詞匯間詞義關(guān)系進(jìn)行相似度計(jì)算。例Strube等[9]最早提出Wikerelate!算法,比較不同詞性的詞語之間的語義相似度,隨后 Gabrilovich等[10]提出了基于維基百科文章內(nèi)容的顯性語義分析法.把文本內(nèi)容的詞語含義通過機(jī)器學(xué)習(xí)技術(shù)表達(dá)為維基百科概念的加權(quán)向量。MiLine[11]提出了利用維基百科文章集合中內(nèi)容的超鏈接信息計(jì)算詞語相似度的方法WLVM,該方法只利用了文章中內(nèi)容超鏈接結(jié)構(gòu)和文章維基類別等信息來計(jì)算相似度,而沒有利用維基百科中所有的文本內(nèi)容,計(jì)算方式簡便,速度也提高了,但卻已犧牲了準(zhǔn)確性高為代價(jià)。基于維基百科的詞語相似度算法主要的優(yōu)點(diǎn)是維基百科提供了最新的語義信息和獨(dú)特的信息結(jié)構(gòu)。主要缺點(diǎn)是維基百科是并不像前面提到的三種語義資源由專業(yè)的人士或者團(tuán)隊(duì)收集而來,缺乏專業(yè)性質(zhì)
6 總結(jié)
詞語相似度的計(jì)算在自然語言處理領(lǐng)域有著非常重要的意義,是信息檢索,文本分類等相關(guān)領(lǐng)域的基礎(chǔ)。綜上對基于四種不同語義資源的算法,前三種均存在更新緩慢的缺點(diǎn),維基百科的出現(xiàn)彌補(bǔ)了這一點(diǎn)。與傳統(tǒng)的語義詞典相比,維基百科含有豐富的語義信息,涉及的知識(shí)面廣闊,獨(dú)特的信息組織方式的優(yōu)點(diǎn),同時(shí)其語義資源更新頻率高,有效地提高了詞語相似度計(jì)算的準(zhǔn)確率。有機(jī)地融合維基百科和其他背景信息,能夠在多種不同類別的詞匯語義信息來源中取長補(bǔ)短,提高計(jì)算的準(zhǔn)確性。所以,針對維基百科和通過融合方法的詞語相似度算法將成為詞語相似度研究今后的發(fā)展趨勢。
參考文獻(xiàn):
[1]吳思穎,吳揚(yáng)揚(yáng).基于中文WordNet的中英文詞語相似度計(jì)算[J].鄭州大學(xué)學(xué)報(bào),2010(06):42-2.
[2]董振東,董強(qiáng).知網(wǎng)[EB/OL].[2012-03-20].www.keenage.com
[3]王斌.漢英雙語語料庫自動(dòng)對齊研究[D].北京:中國科學(xué)院計(jì)算技術(shù)研究所,1999.
[4]劉群,趙捧未,劉懷亮.詞語相似度計(jì)算研究[J].情報(bào)理論與實(shí)踐,2007,30(01):105-108
[5]Li S J,Huang X,et al.Semantic Computation in Chinese Quertion-Answering Systm[J]. Journal of Computer science and Technology,2002,17(6):933-939.
[6]梅家駒,竺一鳴,高蘊(yùn)琦等.同義詞詞林[M].上海:上海辭書出版社,1983.
[7]田久樂,趙蔚 基于同義詞詞林的詞語相似度計(jì)算方法[J].吉林大學(xué)學(xué)報(bào),2010(11):28-6.
[8]呂立輝,梁維薇,冉蜀陽.基于詞林的詞語相似度的度量[J].研究與開發(fā),2013(01).
[9]Strube M,Ponzetto S P。WikiRelate! Computing Semantic Related Using Wikipedia [C].In: Proceedings of the 21st National Conference on Artificial Intelligence (AAAI06).AAAI Press,2006:1419-1424.
[10]David MiLne.Computing semantic relatedness using Wikipedia link structure[C].In Proceedings of the New Zealand Computer Science Research Student Conference(NZCSRSC07),2007.
作者簡介:蔡輝虎(1988-),男,福建泉州人,碩士研究生,研究方向:數(shù)據(jù)挖掘。