張李義 崔恒
(武漢大學(xué)信息管理學(xué)院,湖北武漢430072)
·理論探索·
基于谷歌距離的漢英詞表概念映射研究
張李義 崔恒
(武漢大學(xué)信息管理學(xué)院,湖北武漢430072)
本文對《漢語主題詞表》(工程技術(shù)版)概念與英文超級科技詞表概念的映射進行研究,建立優(yōu)化的漢對英有序映射模式,并采用基于谷歌距離的語義相似度算法進行實驗,計算英文詞之間的語義距離,導(dǎo)入原有漢英映射信息。通過實驗分析,獲得了按相似度排序的漢英映射模式,實現(xiàn)了多個英文詞匯與漢詞的對應(yīng)并由高到低排列出來。該方法獲得的排序結(jié)果基本滿足要求,部分詞語需要人工修正。
語義相似度;漢語主題詞表;谷歌距離;概念映射
詞表映射研究是研究和建設(shè)跨語言信息檢索(Cross Language Information Retrieval,CLIR)的基礎(chǔ),本文的目標(biāo)是通過計算映射詞語的相同程度來解決跨語言搜索結(jié)果的有序排列問題,其關(guān)鍵在于獲取語義距離和改進現(xiàn)在的映射規(guī)則。研究雙語言或多語言的CLIR是一個熱門的話題,《漢語主題詞表》(工程技術(shù)版)(以下簡稱《漢表》)與英文超級科技詞表分別用于進行中外文科技文獻的知識組織,而兩者的相互映射正是為了實現(xiàn)對中外文文獻資源的跨語言檢索;考慮到兩個詞表知識體系的差異和語義映射的復(fù)雜性,本文不進行知識概念體系、詞間關(guān)系和范疇體系等方面的語義映射,主要研究基于概念的映射模型和方法。
本文以《漢表》的概念作為源(Source)概念,英文超級科技詞表的概念作為目標(biāo)(Target)概念,參考并修訂W3C的詞表映射規(guī)則,建立映射模型?!稘h表》概念具有上下位、多層次關(guān)系,英文超級科技詞表概念也是網(wǎng)狀關(guān)系,在建立概念間映射關(guān)系時,只在距離最短、關(guān)系最近的概念間建立關(guān)系,沒有必要將等同的概念重復(fù)給定向上或向下匹配的關(guān)系,按照需要,將詞表的原詞間關(guān)系導(dǎo)入映射信息即可確定新的映射關(guān)系。本文以標(biāo)準(zhǔn)谷歌距離[1](Normalized Google Distance)作為語義距離的基本計算方法,并設(shè)計了映射流程,在已有漢英詞表的基礎(chǔ)上,對映射進行排序,能有效地解決檢索時漢英詞語的匹配問題。在檢索過程中,可以做到按相似度的高低呈現(xiàn)有序的檢索結(jié)果,從而給用戶更優(yōu)的檢索體驗。本文通過程序進行演算獲取實驗結(jié)果,根據(jù)語義相似度進行排序,建立新的有序映射。
自然語言的詞語之間有著復(fù)雜的關(guān)系。在實際的應(yīng)用中,語義相似度能把這種復(fù)雜的關(guān)系用一種簡單的數(shù)量來度量。為了使映射關(guān)系更加有序,本文以語義相似度為依據(jù),整理相關(guān)詞語與核心詞語的語義距離。國外的DekangLin[2],Batet M[3],Rudi Cilibrasi[1]等都給出了比較合理的語義相似度計算公式和方法;國內(nèi)這方面起步較晚,但發(fā)展很快,詹志建[4]、楊美榮[5]、王磊[6]、楊春龍[7]等做了很多補充性和改進性的工作。其中基于詞形的字面相似度計算[8]、基于語義詞典的語義相似度算[9]、基于結(jié)構(gòu)的相關(guān)度計算[10]和基于語料共現(xiàn)的相關(guān)度[11]等方法最為常用。發(fā)展到現(xiàn)在,語義距離主要有兩類常見的計算方法,一種是根據(jù)某種本體知識(ontology)或分類體系(Taxonomy)來計算;另一種利用大規(guī)模的語料庫進行統(tǒng)計。前一種主要基于客觀計算,采用樹論、圖論的方法能有效計算出字面上不相似的詞語之前的相似度,但局限性是受人的主觀影響比較大;第二種則是依賴大規(guī)模語料庫的經(jīng)驗計算方法,能夠客觀地反映詞語的形態(tài)、句法、語義、標(biāo)簽等多重屬性,計算機自然語言處理專家Rudi Cilibrasi、Paul[1]提出了語義相似度計算方法NGD是該類計算方法的典范。語義網(wǎng)(Semantic Web)是當(dāng)前互聯(lián)網(wǎng)的延伸,并且可以作為基于語料共現(xiàn)方法的資料庫。語義網(wǎng)的實現(xiàn)需要三大關(guān)鍵技術(shù)的支持:XML、RDF和Ontology。目前語義網(wǎng)關(guān)鍵技術(shù)的討論大多集中在RDF和Ontology上,本文屬于RDF的研究范疇。
要建立詞表映射模型,敘詞表的形式化研究及其如何發(fā)揮敘詞表中語義網(wǎng)的作用成為當(dāng)前敘詞表研究的關(guān)鍵問題。常春[12]建立農(nóng)業(yè)的跨語言檢索模型便是基于W3C于2005年發(fā)布的簡單知識組織系統(tǒng)(Simple Knowledge Organization System,SKOS)。SKOS支持RDF框架,并強調(diào)為知識組織系統(tǒng)的表達提供強有力且簡單的機器理解方式。SKOS映射的來源是來自源敘詞表中的單一概念,目標(biāo)是來自目標(biāo)敘詞表中單一概念或者概念組合。映射用以解釋源概念與目標(biāo)概念的術(shù)語集合之間的關(guān)系,該模式由一系列映射屬性集合構(gòu)成,其中近義匹配包括MajorMatch(主近義詞)或者MinorMatch(次近義詞)。由于相近程度量化的難度較大,具體操作中不對MajorMatch和MinorMatch兩條規(guī)則進行區(qū)分,只定義為一種近義匹配。在當(dāng)前的W3C的映射規(guī)則中,對近似程度沒有進行有效的區(qū)分。本文希望用語義距離來描述這種近似程度。本文采用文獻[1]和文獻[16]中的NGD及mNGD算法進行計算排序。語義距離和語義相似度是一對詞語的相同關(guān)系的不同表現(xiàn)形式,語義距離越短代表相似度越大。如今,Internet飛速發(fā)展,語料庫不斷完善,也部分解決了由于語料庫規(guī)模問題引起的數(shù)據(jù)稀疏問題。Google作為實踐語義網(wǎng)的先驅(qū),在其搜索引擎中已經(jīng)實現(xiàn)了部分語義網(wǎng),如在搜索過程中通過高級搜索和打標(biāo)簽的方式獲得垂直搜索的結(jié)果。國內(nèi)的艾冬梅[13]、楊慧榮[14]等人已經(jīng)在語義距離及相關(guān)的研究中使用NGD算法。
2.1 中英詞表映射流程設(shè)計
以漢語詞語進行跨語言的信息檢索,需要對該詞語進行匹配轉(zhuǎn)化,在數(shù)字化和預(yù)處理之后的排序面臨多種情況。流程的核心為映射過程中的排序問題:
(1)當(dāng)一對一的詞表映射,檢索時中文詞語直接轉(zhuǎn)化為英語詞;
(2)存在一對多的詞表映射情況時,可以首先依據(jù)專家判定,給出與中文詞表中某詞語語義最相關(guān)的一個英語詞匯,然后將剩下的待匹配詞匯同該詞匯進行語義相似度計算,并依據(jù)與其語義相似度的高低進行排序。例如中文詞表中“安全標(biāo)準(zhǔn)”,依據(jù)專家判定與其語義最相關(guān)的英文詞匯為“safety standard”,對于剩下的帶匹配英文詞匯,依次與“safety standard”進行語義相似度計算,并按相似度的高低進行排序。語義相似度的計算采用基于谷歌距離的語義相似度算法。如圖1所示,建立漢英詞表的映射流程用來完成映射選取與結(jié)果輸出。
圖1 漢英詞表映射流程
為了驗證映射流程的效果,作者使用JAVA語言編寫了簡易的系統(tǒng)程序用來進行實驗。該系統(tǒng)功能為:由領(lǐng)域?qū)<以O(shè)定與中文某詞匯語義最相關(guān)的英文詞匯后,獲取并自動導(dǎo)入詞表信息;采用谷歌語義距離進行英語語義相似度的算法,自動計算剩下詞匯與該詞匯的語義相似度并將信息導(dǎo)入進漢英詞表,生成新的映射詞表;將詞表中的詞語按相似度高低依次排序,最終輸出映射結(jié)果。
2.2 中英詞表映射流程算法選擇
萬維網(wǎng)存在著數(shù)以百萬計的用戶和海量的文本語料,谷歌2009年公布的數(shù)據(jù)顯示其索引頁面已經(jīng)超過80億,經(jīng)常出現(xiàn)一個常用詞的搜索詞會出現(xiàn)在數(shù)以百萬計的網(wǎng)頁中,因此Rudi以實際語言學(xué)的研究為依據(jù),提出Google Similarity Distance概念,計算語義相似度[1]。該方法理論基礎(chǔ)涉及信息論、壓縮原理、柯爾莫哥洛夫復(fù)雜性、語義WEB、語義學(xué)等,基本思想是把Internet作為一個大型的語料庫,以Google(對其它的搜索引擎如百度同樣適用)作為搜索引擎,搜索返回的結(jié)果數(shù)作為計算的數(shù)值依據(jù),其計算公式[1]如(1)所示。
其中,NGD表示標(biāo)準(zhǔn)谷歌距離,以此衡量語義相似性大小f(x),f(y)分別表示包含詞語x,y的網(wǎng)頁數(shù),f(x,y)表示同時含有概念的網(wǎng)頁數(shù),其中M可以是任何有理論依據(jù)的參數(shù),一般用M表示Google引用的互聯(lián)網(wǎng)上的網(wǎng)頁總數(shù)。在本文中x有一定的特殊性,表示領(lǐng)域?qū)<疫x定的最適映射詞primary word,而y則表示需要與y相比較的其他可映射詞。當(dāng)兩個詞語的NGD為0時,一般是同一詞語與自身比較;當(dāng)兩個詞語的NGD接近0時,表示兩個詞語幾乎完全相同,語義相似性極高;當(dāng)兩個詞語的NGD為infinity時,表示兩個詞語從未同時出現(xiàn)過,幾乎沒有什么相似性;NGD越靠近0,表示兩個詞語的語義相似性越高。
可以以一次實驗來說明,假設(shè)用Google搜索詞語“horse”返回46 700 000(記為f(x))條結(jié)果,搜索詞語“rider”返回結(jié)果數(shù)為12 200 000(記為f(y)),搜索同時含“horse,rider”的網(wǎng)頁數(shù)量是2 630 000(記為f(x,y)),當(dāng)時Google共引用的網(wǎng)頁數(shù)SM=8 058 044 651,代入上述公式求得:NGD(horse,rider)≈0.443。
隨著M的變化,得到的語義距離也會發(fā)生小范圍的變化。Risto Gligorov與Zharko Aleksovski[15]利用谷歌相似度研究近似本體的匹配問題時,根據(jù)相關(guān)詞語的從屬特性簡化了公式,使得M這個不斷變化的參數(shù)不再影響結(jié)果,在漢英詞表中也能實現(xiàn)部分適合條件詞匯的簡化計算,采用文獻[16]研究本體匹配的公式(4)、(6)、(7)等。得到mNGD[16]公式:
mNGD[16]即為簡化標(biāo)準(zhǔn)谷歌距離。這個計算方法的優(yōu)點是相對于原始的NGD不再依賴于不斷變化的谷歌搜索頁面總數(shù)的大小M。此方法可作為部分符合要求的詞語之間進行映射的優(yōu)化方法,并不適合英文超級科技詞表中所有的詞組,因此本文的中英詞表映射采用文獻[1]的NGD(標(biāo)準(zhǔn)谷歌距離)算法。
3.1 實驗數(shù)據(jù)及實驗過程
選取了中文詞表中前10個詞語,以及與其對應(yīng)的英語詞表中的172個英語詞語。首先對10個漢語詞語進行匹配,由領(lǐng)域?qū)<医o出與其語義最相關(guān)的一個英語詞匯。選定的10個漢語詞匯如表1所示。與漢語詞匯匹配的172個英語詞匯如表2所示。
表1 漢語詞表
按照映射流程設(shè)計的程序?qū)⑹O碌拇ヅ湓~匯同該英語詞匯進行語義相似度計算,即NGD的計算,并把得出的值由低到高排序。相似度的判斷規(guī)則如下:
(1)NGD的取值范圍為[0,∞]。由Google距離可知,詞語與其本身的距離為0;語義距離為0時,相似度為1;語義距離為無窮大時,相似度為0。
如果x=y(tǒng)或x≠y,而f(x)=f(y)=f(x,y)>0,那么NGD(x,y)=0。這說明詞匯x和y在Google中的語義是相同的。如果f(x)=0,那么對于任何搜索詞條y都有f(x,y)=0,即NGD(x,y)=∞/∞。
(2)通常情況,NGD為非負(fù)數(shù)且對任意x有NGD(x,x)=0,即primary word的語義距離為0。對任意x,y有NGD(x,y)=NGD(y,x),它們是相互對稱的。
(3)概念間的語義距離越大,則相似度越小,表明這兩個概念的相關(guān)度越小。
表2 英語詞表
在獲得計算結(jié)果后,按照語義相似度的順序插入新建數(shù)據(jù)表中,如表3所示。英英詞匯間的語義距離導(dǎo)入漢英映射詞表后轉(zhuǎn)化為漢英詞表間的相似度,完整有序的顯示了漢英詞表間的映射關(guān)系。在整個實驗過程中,NGD算法簡單可靠,接入Google api的搜索安全、快速且不需要人工干預(yù)。
表3 經(jīng)過NGD 計算后的映射詞表
3.2 實驗結(jié)果分析
我們對這幾組數(shù)據(jù)進行了映射信息進行分析,獲得映射模式如圖2所示。
圖2 映射信息模式圖
左側(cè)為漢表映射詞匯,右側(cè)為英文科技詞表與漢表匹配的概念。水平映射為領(lǐng)域?qū)<医o定的最優(yōu)映射,右側(cè)數(shù)據(jù)代表其他相似詞匯與最匹配詞匯語義距離。將英英詞匯間的相似距離導(dǎo)入映射信息中,獲得漢英詞匯之間的映射關(guān)系,最終英語詞表中與某一中文詞語相對應(yīng)的多個詞匯按語義相似性由高到低排列出來;這樣,在后續(xù)的檢索過程中,就可以直接調(diào)用此映射結(jié)果,將與漢語詞語最相關(guān)的英文檢索結(jié)果優(yōu)先呈現(xiàn),按語義相關(guān)性依次呈現(xiàn)后續(xù)檢索結(jié)果,從而達到更好的檢索體驗。
由于本項目所要達到的目標(biāo)是更優(yōu)的檢索結(jié)果體驗,因此對于某一中文檢索詞語,我們只需用文獻[1]中的NGD方法對其所映射的多個英語詞語按語義相關(guān)性進行一個排序,然后導(dǎo)入原有無序的漢對英映射表即可。Google距離計算時不需要提供領(lǐng)域本體,而是以Google的海量詞匯為語義推理基礎(chǔ)詞庫。雖然語義網(wǎng)會無限擴充,具體的數(shù)值是動態(tài)的,但詞語之間的相關(guān)程度基本保持不變,為了更優(yōu)的處理映射,對于部分滿足優(yōu)化算法條件的詞語,可以采用文獻[16]中優(yōu)化的mNGD公式進行更準(zhǔn)確快捷的計算。當(dāng)前的計算已經(jīng)基本滿足我們的排序目標(biāo),在后續(xù)的工作中,可以對此映射模式進行優(yōu)化改進,比如加入信息熵作為衡量相似度的指標(biāo)。
在未來,由于NGD可以拓展成為NWD(標(biāo)準(zhǔn)網(wǎng)絡(luò)距離),利用中文搜索引擎實現(xiàn)英語詞匯對漢語詞匯一對多的映射也是可以實現(xiàn)的。但是此方法也存在一些問題:在一個漢語詞匯對應(yīng)少量語義距離無限大即相似性太小的英語詞匯時,只能依靠專家來修訂,這也是大量映射模型研究的缺陷;過于依賴萬維網(wǎng)和Google搜索引擎,當(dāng)某些事件引起了個別詞匯熱度的上漲,會引起噪聲干擾問題,需要消除歧義。在將來的研究中可以加入信息熵的計算,進行降噪,提高準(zhǔn)確率。
[1]Rudi Cilibrasi,Paul M.B.Vitányi.The Google Similarity Distance[J].IEEE Trans.Knowl.Data Eng.,2007,19:1.
[2]Lin D.An information-theoretic definition of similarity[C]∥ICML,1998,98:296-304.
[3]Batet M,Sánchez D,Valls A,et al.Semantic similarity estimation from multiple ontologies[J].Applied intelligence,2013,38(1):29-44.
[4]詹志建,楊小平.基于語言網(wǎng)絡(luò)和語義信息的文本相似度計算[J].計算機工程與應(yīng)用,2014,(5):33-38.
[5]楊美榮,邵洪雨,史建鋒,等.改進的領(lǐng)域本體概念相似度計算模型研究[J].情報科學(xué),2014,(5):72-77.
[6]王桐,王磊,吳吉義,等.WordNet中的綜合概念語義相似度計算方法[J].北京郵電大學(xué)學(xué)報,2013,(2):98-101,106.
[7]楊春龍.基于概念語義相似度計算模型的信息檢索研究與實現(xiàn)[D].上海:華東理工大學(xué),2013.
[8]Ristad E S,Yianilos P N.Learning string-edit distance[J].Pattern Analysis and Machine Intelligence,IEEE Transactions on,1998,20(5):522-532.
[9]Richardson R,Smeaton A,Murphy J.Using WordNet as a knowledge base for measuring semantic similarity between words[R].Technical Report Working Paper CA-1294,School of Computer Applications,Dublin City University,1994.
[10]Vizine-Goetz D,Hickey C,Houghton A,et al.Vocabulary mapping for terminology services[J].Journal of digital information,2006,4(4).
[11]Chan L M,Vizine-Goetz D.Toward a computer-generated subject validation file:feasibility and usefulness[J].Library resources&technical services,1998,42(1):45-60.
[12]常春,盧文林.基于敘詞表映射的農(nóng)業(yè)跨語言檢索系統(tǒng)設(shè)計[J].情報學(xué)報,2008:294-296.
[13]張玉芳,艾東梅,黃濤,等.結(jié)合編輯距離和Google距離的語義標(biāo)注方法[J].計算機應(yīng)用研究,2010,(2):555-557,562.
[14]楊惠榮,尹寶才,付鵬斌,等.基于Google距離的語義Web服務(wù)發(fā)現(xiàn)[J].北京工業(yè)大學(xué)學(xué)報,2012,(11):1670-1675.
[15]Gligorov R,ten Kate W,Aleksovski Z,et al.Using Google distance to weight approximate ontology matches[C]∥Proceedings of the 16th international conference on World Wide Web.ACM,2007:767-776.
(本文責(zé)任編輯:馬卓)
Concept Mapping Research Between Chinese and English Vocabularies Based on NGD
Zhang LiyiCui Heng
(School of Information Management,Wuhan University,Wuhan 430072,China)
This article mainly researched on concepts mapping between“Chinese Thesaurus”and“Science&Technology English Super-thesaurus”,then established an optimized and ordered mapping mode.It conducted experiments by using Semantic similarity algorithm based on the Google distance to calculate the semantic distance between English and primary word.Through experimental analysis,it got the sort of English words by similarity mapping mode to achieve a corresponding number of English words and Chinese words and arrange them in descending.The results obtained by sorting meet the basic requirements,some words require manual correction.
semantic similarity;Chinese Thesaurus;google distance;concept mapping
10.3969/j.issn.1008-0821.2015.03.001
TP391;G25
A
1008-0821(2015)03-0003-05
2015-01-03
本文系國家科技支撐計劃項目“中英文雙語檢索模型研究”(項目編號:2011BAH10B00)的研究成果之一。
張李義(1965-),男,教授,博士生導(dǎo)師,研究方向:電子商務(wù)理論與技術(shù),發(fā)表論文90余篇,出版專著1部。