石 杰,周蘭江,線(xiàn)巖團(tuán),余正濤
(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
基于WordNet的中泰文跨語(yǔ)言文本相似度計(jì)算
石 杰1,2,周蘭江1,2,線(xiàn)巖團(tuán)1,2,余正濤1,2
(1. 昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650500;2. 昆明理工大學(xué) 智能信息處理重點(diǎn)實(shí)驗(yàn)室,云南 昆明 650500)
文本相似度在信息檢索、文本挖掘、抄襲檢測(cè)等領(lǐng)域有著廣泛的應(yīng)用。目前,大多數(shù)研究都只是針對(duì)同一種語(yǔ)言的文本相似度計(jì)算,關(guān)于跨語(yǔ)言文本相似度計(jì)算的研究則很少,不同語(yǔ)言之間的差異使得跨語(yǔ)言文本相似度計(jì)算很困難,針對(duì)這種情況,該文提出一種基于WordNet的中泰文跨語(yǔ)言文本相似度的計(jì)算方法。首先對(duì)中泰文本進(jìn)行預(yù)處理和特征選擇,然后利用語(yǔ)義詞典WordNet將中泰文本轉(zhuǎn)換成中間層語(yǔ)言,最后在中間層上計(jì)算中泰文本的相似度。實(shí)驗(yàn)結(jié)果表明,該方法準(zhǔn)確率達(dá)到82%。
WordNet;中間層語(yǔ)言;跨語(yǔ)言文本相似度
文本相似度在語(yǔ)言學(xué)、心理學(xué)和信息理論等領(lǐng)域被廣泛的討論,文本相似度計(jì)算旨在比較兩個(gè)文本之間的相關(guān)程度。近年來(lái),基于同一種語(yǔ)言的文本相似度計(jì)算方法[1-3]日趨成熟,代表算法模型有布爾模型、向量空間模型、概率模型等。但是,對(duì)于跨語(yǔ)言文本相似度的研究則很少,跨語(yǔ)言文本相似度是指量化兩個(gè)不同語(yǔ)言文本之間的相似性,并使量化的結(jié)果盡可能符合人工判斷的結(jié)果。由于漢語(yǔ)和泰語(yǔ)在語(yǔ)法上存在差異,我們無(wú)法用現(xiàn)有的計(jì)算同一語(yǔ)言文本相似度的方法來(lái)計(jì)算漢泰雙語(yǔ)文本的相似度。目前,關(guān)于跨語(yǔ)言文本相似度計(jì)算主要有以下幾種方法: 1)基于機(jī)器翻譯的方法[4]。該方法將源語(yǔ)言文本翻譯成目標(biāo)語(yǔ)言文本,在目標(biāo)語(yǔ)言空間計(jì)算相似度,該方法依賴(lài)機(jī)器翻譯的質(zhì)量,并很難擴(kuò)展到多種語(yǔ)言;2)基于統(tǒng)計(jì)翻譯模型的方法[5]。該方法需要兩種語(yǔ)言之間的翻譯概念詞典,但是翻譯概念詞典需要建立大規(guī)模對(duì)齊語(yǔ)料庫(kù),代價(jià)很大,并很難擴(kuò)展到多種語(yǔ)言;3)基于平行語(yǔ)料的方法[6],該方法以?xún)煞N語(yǔ)言的平行語(yǔ)料庫(kù)為基礎(chǔ)來(lái)計(jì)算相似度,該方法的準(zhǔn)確性依賴(lài)于平行語(yǔ)料庫(kù)的規(guī)模和質(zhì)量。雖然上述方法取得了不錯(cuò)的效果,但是存在擴(kuò)展性不足、工作量大等缺點(diǎn)。
Steinberger R[7]等提出一種中間層語(yǔ)言思想,用獨(dú)立于語(yǔ)言的方式來(lái)表示不同語(yǔ)言的文本內(nèi)容,在多語(yǔ)種詞庫(kù)EUROVOC上計(jì)算英文文本和西班牙文文本之間的相似度,該種方法不依賴(lài)于機(jī)器翻譯,且有較高的擴(kuò)展性和準(zhǔn)確性,但Steinberger并沒(méi)有把某一種具體的自然語(yǔ)言作為中間層語(yǔ)言,由此受到啟發(fā): 將中間層語(yǔ)言具體化,將不同語(yǔ)言空間轉(zhuǎn)換成這一具體語(yǔ)言空間來(lái)計(jì)算文本相似度, WordNet的多語(yǔ)言版本特性使得語(yǔ)言空間的轉(zhuǎn)換成為可能。WordNet[8]是一個(gè)使用同義詞集表示概念的英文語(yǔ)義詞典,有多語(yǔ)言版本,包括中文版、泰文版,中文WordNet的構(gòu)建原則基本遵守英文WordNet的結(jié)構(gòu)特點(diǎn),將WordNet中的概念(同義詞集合)映射為本國(guó)語(yǔ)言同義詞集合,保留概念間的關(guān)系[9-10],本文使用的中文WordNet是由東南大學(xué)開(kāi)發(fā)的中文版WordNet,泰文版WordNet由AsianWordNet提供。不同語(yǔ)言版本之間的WordNet的同義詞集合的synset_id是對(duì)應(yīng)的,通過(guò)synset_id將中泰文WordNet與英文WordNet對(duì)應(yīng)起來(lái)。因此,本文利用多語(yǔ)言版本W(wǎng)ordNet的synset_id相對(duì)應(yīng)這一特性,提出了一種基于WordNet的中泰文跨語(yǔ)言文本相似度計(jì)算的方法,利用WordNet將中文文本和泰文文本轉(zhuǎn)換成統(tǒng)一的中間層語(yǔ)言,并在中間層上計(jì)算相似度。
本文第二節(jié)主要介紹中泰文本相似度計(jì)算的過(guò)程,第三節(jié)對(duì)本文的算法進(jìn)行測(cè)試與評(píng)估。
2.1 文本預(yù)處理
盡管原始文本包含所有的文本信息,但是目前的自然語(yǔ)言處理技術(shù)無(wú)法完全處理這些文本信息,因此,需要對(duì)文本進(jìn)行預(yù)處理。傳統(tǒng)的文本預(yù)處理主要是去掉停用詞,如“的”“地”等。由于本文的方法需要對(duì)詞的語(yǔ)義進(jìn)行分析,因此需要對(duì)一些地名、人名等特殊詞進(jìn)行處理,將這些特殊詞統(tǒng)一轉(zhuǎn)換成特定的字符串,在進(jìn)行特征選擇時(shí),將這些特殊詞項(xiàng)忽略,避免噪聲干擾。
2.2 文本特征選擇
經(jīng)過(guò)文本預(yù)處理后,需要進(jìn)行文本特征選擇。特征選擇的目的是選擇對(duì)相似度計(jì)算真正有貢獻(xiàn)的特征項(xiàng),被選中的特征項(xiàng)應(yīng)能表征原始文本的主題。本文提取詞作為文本的特征,將每個(gè)文檔看成一個(gè)詞袋,對(duì)于中文文檔和泰文文檔,通過(guò)分詞,去掉停用詞后,都可以形成一個(gè)特征詞集。然后通過(guò)文本頻度的選擇方法去掉干擾原始文本主題的無(wú)用詞。文檔頻度(Document Frequency, DF)是指整個(gè)文本集合中包含特征詞t的文本個(gè)數(shù),DF大于某一閾值則去掉,DF越高,說(shuō)明t在越多的文本出現(xiàn);DF小于某一閾值也去掉,要么是稀有詞或噪聲。
2.3 中、泰語(yǔ)言空間的轉(zhuǎn)換
考慮到不同語(yǔ)言之間存在很大的差異性,無(wú)法在不同語(yǔ)言層完成相似度計(jì)算,本文提出一種中間層語(yǔ)言的思想,即將不同語(yǔ)言轉(zhuǎn)換成統(tǒng)一的中間層語(yǔ)言,在中間層上實(shí)現(xiàn)中泰文跨語(yǔ)言文本相似度計(jì)算。轉(zhuǎn)換模型如圖1所示。
圖1 中、泰語(yǔ)言空間轉(zhuǎn)換
通過(guò)圖1的方式將中文和泰文轉(zhuǎn)換成統(tǒng)一的中間層英語(yǔ)語(yǔ)言空間,我們只需在英語(yǔ)空間上計(jì)算中泰文文本的相似度即可。
2.4 語(yǔ)義消歧
1) 任意x1≠x2,有φ(x1)≠φ(x2);
圖2 WordNet語(yǔ)義哈希編碼示意圖
有了語(yǔ)義距離和語(yǔ)義哈希,我們就可以定義語(yǔ)義密度來(lái)量化一組詞之間的語(yǔ)義相關(guān)性。對(duì)于一組同義詞集w1,w2,…,wn,它們的語(yǔ)義密度density(w1,w2,…,wn)可以由n3與包含所有w1,w2,…,wn的最小子樹(shù)的“體積”Vmin(w1,w2,…,wn)的商,如式(1)所示。
(1)
2.5 中、泰文本相似度計(jì)算
計(jì)算兩個(gè)文檔相似度一般用它們對(duì)應(yīng)向量的夾角余弦值來(lái)表示,如式(2)所示。
(2)
其中Wik和Wjk分別表示文本Di和Dj第K個(gè)特征詞的權(quán)值,權(quán)值計(jì)算采用IDF-TF算法。這種計(jì)算相似度的方法的假設(shè)前提是: 詞與詞之間是沒(méi)有語(yǔ)義關(guān)系的。但是現(xiàn)實(shí)文本中的詞往往都是有關(guān)聯(lián)的,比如同義關(guān)系、上下位關(guān)系等。因此,本文使用語(yǔ)義詞典WordNet來(lái)計(jì)算中、泰文本特征詞之間的相似度。
基于WordNet的詞語(yǔ)語(yǔ)義相似度計(jì)算,目前有兩大類(lèi)算法: 基于路徑、基于信息內(nèi)容(Information Content,IC)。本文采用基于IC的相似度算法。
基于信息內(nèi)容的相似度算法是以WordNet中每個(gè)概念的IC值作為參數(shù),由Resnik[11]首次提出。IC表示為-lgp(c)(在信息論中,稱(chēng)為自信息)。Resnik認(rèn)為,兩概念的相似度由包含兩概念的最深層的公共父節(jié)點(diǎn)來(lái)決定,只需求出該公共父節(jié)點(diǎn)的特征值,就可以得到兩概念的相似度值。Resnik的算法模型如式(3)所示。
(3)
lso(c1,c2)表示概念c1,c2在is_a樹(shù)中最深層的公共父節(jié)點(diǎn),p(c)表示遇到概念c的實(shí)例的概率。該類(lèi)代表算法為L(zhǎng)in算法[12]。Lin的語(yǔ)義相似度算法考慮定義一個(gè)通用的計(jì)算相似度的方法,算法模型如式(4)所示。
(4)
基于IC的相似度算法的性能優(yōu)越性主要是由概念I(lǐng)C值的精確性和將IC參數(shù)引入算法的合理性來(lái)決定。因此,對(duì)IC參數(shù)模型進(jìn)行改進(jìn),可以提高算法的性能。Nuno[13]對(duì)IC模型的改進(jìn)算法如式(5)所示。
(5)
hypo(c)表示概念c的所有子節(jié)點(diǎn),maxWN表示分類(lèi)樹(shù)中所有概念的數(shù)目。Nuno的模型只是考慮概念的子節(jié)點(diǎn)數(shù)是有局限性的,本文給出一種改進(jìn)過(guò)的IC求解模型,將概念在分類(lèi)樹(shù)中的深度考慮在內(nèi),算法模型如式(6)所示。
(6)
k介于0到1之間,本文取k=0.5。
考慮到Lin算法的通用性,將式(6)帶入式(4),得出新的求解相似度模型如式(7)所示。
(7)
式(7)是對(duì)WordNet中兩個(gè)概念求相似度,求解詞相似度算法如式(8)所示。
(8)
其中,c1i,c2j為w1,w2的若干概念。
假設(shè)中文文本CH的特征詞{CW1,CW2,…,CWn},轉(zhuǎn)換成中間層語(yǔ)言,進(jìn)行語(yǔ)義消歧后得到對(duì)應(yīng)的英語(yǔ)義項(xiàng){CE_W1,CE_W2, …,CE_Wn};泰文文本T的特征詞為{TW1,TW2,…,TWk},用同樣的方式得到英語(yǔ)義項(xiàng){TE_W1,TE_W2,…,TE_Wk},結(jié)合式(8),則求解CH和T的相似度的公式如式(9)所示。
(9)
計(jì)算結(jié)果介于0到1之間,0表示不相似,1表示完全相似,數(shù)值越大表示兩個(gè)文本越相似。
圖3 WordNet is_a樹(shù)
首先對(duì)本文提出的語(yǔ)義消歧算法進(jìn)行實(shí)驗(yàn)測(cè)試,為后文計(jì)算中泰文本相似度實(shí)驗(yàn)提供更準(zhǔn)確的特征詞義項(xiàng)。實(shí)驗(yàn)選用一個(gè)公開(kāi)的語(yǔ)義標(biāo)注語(yǔ)料庫(kù)SemCor,SemCor的單詞語(yǔ)義是基于WordNet標(biāo)注的,用詞性標(biāo)注工具TreeTagger進(jìn)行POS標(biāo)注,將標(biāo)注結(jié)果作為消歧算法的輸入,將算法的消歧結(jié)果與SemCor中人工標(biāo)注的結(jié)果進(jìn)行對(duì)比,得到本文消歧算法的準(zhǔn)確率。表1列出了SemCor中前10篇文檔的消歧準(zhǔn)確率。作為對(duì)照,表中基準(zhǔn)列表示隨機(jī)猜測(cè)時(shí)的消歧準(zhǔn)確率。例如,一個(gè)詞有五個(gè)同義詞集(即義項(xiàng)),那么隨機(jī)猜測(cè)的準(zhǔn)確率為20%,即基準(zhǔn)為20%。
表1 消歧實(shí)驗(yàn)結(jié)果
消歧算法在SemCor上的平均準(zhǔn)確率達(dá)到51.8%。
接下來(lái)對(duì)本文計(jì)算中泰文本相似度進(jìn)行試驗(yàn)。本文實(shí)驗(yàn)的文本數(shù)為1 000篇文本,中文文本900篇,泰文文本100篇。其中,600篇中文文本為噪音文本,構(gòu)成噪聲集;另外,300篇中文文本和100篇泰文文本構(gòu)成標(biāo)準(zhǔn)集,并按中文文本和泰文文本兩兩間的相似度可分為20類(lèi),每個(gè)類(lèi)中有13到17篇中文文本不等,也可以這樣理解,在標(biāo)準(zhǔn)集中,每篇泰文文本都有13到17篇人為覺(jué)得相似的中文文本。將噪聲集和標(biāo)準(zhǔn)集混合構(gòu)成測(cè)試集進(jìn)行試驗(yàn),如下:
從標(biāo)準(zhǔn)集100篇泰文文本中順序抽出一篇文本,然后計(jì)算這篇泰文文本與測(cè)試集中文文本之間的相似度,按照相似度大小排序,輸出相似度最大的前17個(gè),然后人為觀察輸出結(jié)果,如果與該篇泰文文本屬于同一類(lèi)的中文文本都被輸出,則認(rèn)為本次計(jì)算相似度成功。本文使用空間余弦的相似度算法與本文的算法作比較。
實(shí)驗(yàn)結(jié)果計(jì)算公式如式(10)所示。
(10)
實(shí)驗(yàn)數(shù)據(jù)如表2所示。
表2 實(shí)驗(yàn)結(jié)果對(duì)比表
實(shí)驗(yàn)結(jié)果表明: 本文所采用計(jì)算中泰文跨語(yǔ)言文本相似度的方法更接近人工評(píng)斷的結(jié)果。
本文提出了一種基于WordNet的中泰文跨語(yǔ)言文本相似度計(jì)算方法,通過(guò)將中泰文本轉(zhuǎn)換成中間層語(yǔ)言空間,并在中間層計(jì)算中泰文本的相似度。實(shí)驗(yàn)結(jié)果表明本文提出的方法取得了較好的結(jié)果。在以后的工作中,考慮進(jìn)一步改進(jìn)IC模型,將WordNet中概念的子節(jié)點(diǎn)的空間結(jié)構(gòu)加入模型中,這樣做的目的是獲得一個(gè)更加精確的IC值,提高本文算法的精確度。
[1] 李紅蓮,何偉,袁保宗. 一種文本相似度及其在語(yǔ)音識(shí)別中的應(yīng)用[J]. 中文信息學(xué)報(bào),2003,17(01):60-64.
[2] 宋玲,馬軍,連莉,張志軍. 文檔相似度綜合計(jì)算研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2006,30:160-163.
[3] 金博,史彥軍,滕弘飛. 基于語(yǔ)義理解的文本相似度算法[J]. 大連理工大學(xué)學(xué)報(bào),2005,02:291-297.
[4] Maike Erdmann, Andrew Finch, et al. Calculating Wikipedia Article Similarity Using Machine Translation Evaluation Metrics[C]//Proceedings of the 2011 IEEE Workshops of International Conference on Advanced Information Networking and Applications (WAINA ′11). IEEE Computer Society, Washington, DC, USA, 2011: 620-625.
[5] Barrón-Cedeno A, Rosso P, Pinto D, et al. On Cross-lingual Plagiarism Analysis using a Statistical Model[C]//Proceedings of the PAN. 2008.
[6] Potthast M, Stein B, Anderka M. A Wikipedia-based multilingual retrieval model[M].Advances in Information Retrieval. Springer Berlin Heidelberg, 2008: 522-530.
[7] Steinberger R, Pouliquen B, Hagman J. Cross-lingual document similarity calculation using the multilingual thesaurus eurovoc[M].Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg, 2002: 415-424.
[8] Miller G A. WordNet: a lexical database for English[J]. Communications of the ACM, 1995, 38(11): 39-41.
[9] 王石,曹存根. WNCT:一種WordNet概念自動(dòng)翻譯方法[J].中文信息學(xué)報(bào),2009,23(4):63-70.
[10] 張俐,李晶皎,胡明涵,姚天順. 中文WordNet的研究及實(shí)現(xiàn)[J]. 東北大學(xué)學(xué)報(bào),2003,04:327-329.
[11] Resnik P. Using information content to evaluate semantic similarity in a taxonomy[J]. arXiv preprint cmp-lg/9511007, 1995.
[12] Lin D. An information-theoretic definition of similarity[C]//Proceedings of the ICML. 1998, 98: 296-304.
[13] Seco N, Veale T, Hayes J. An intrinsic information content metric for semantic similarity in WordNet[C]//Proceedings of the ECAI. 2004, 16: 1089.
Chinese-Thai Cross-language Text Similarity Computing Based on WordNet
SHI Jie1,2, ZHOU Lanjiang1,2, XIAN Yantuan1,2, YU Zhengtao1,2
(1. School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming, Yunnan 650500, China;2. Key Laboratory of Intelligent Information Processing,Kunming University of Science and Technology,Kunming, Yunnan 650500, China)
Text similarity calculation is widely used by information retrieval, question answering system, plagiarism detection and so on. At present, most research just aim at text similarity of the same language, and research on cross-language text similarity calculation remains an open issue. This paper propose a WordNet-based method of Chinese-Thai cross-language text similarity calculation. We apply the semantic dictionary WordNet to convert the Chinese text and Thai text into a middle layer language, and compute the text similarity between Chinese and Thai in the middle layer. Experimental results show that, this paper’s method of computing the similarity between Chinese text and Thai text has 82%’s accuracy.
WordNet; middle layer language; cross-language text similarity
石杰(1989—),碩士研究生,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與嵌入式系統(tǒng)研究。E-mail:254089809@qq.com周蘭江(1964—),通信作者,碩士生導(dǎo)師,副教授,主要研究領(lǐng)域?yàn)樽匀徽Z(yǔ)言處理與嵌入式系統(tǒng)研究。E-mail:915090822@qq.com線(xiàn)巖團(tuán)(1981—),講師,主要研究領(lǐng)域?yàn)樾畔z索、自然語(yǔ)言處理。E-mail:195426286@qq.com
1003-0077(2016)04-0065-06
2014-01-04 定稿日期: 2015-05-04
國(guó)家自然科學(xué)基金(61363044)
TP391
A