張錫忠,徐建民
(1.保定市教育考試院 信息處,河北 保定 071000; 2.河北大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,河北 保定 071002)
?
基于術(shù)語同義關(guān)系的文檔相似度研究
張錫忠1,徐建民2
(1.保定市教育考試院 信息處,河北 保定 071000; 2.河北大學(xué) 計算機科學(xué)與技術(shù)學(xué)院,河北 保定 071002)
基于向量空間的文檔相似度算法假設(shè)特征元素間關(guān)系為正交,當2篇文檔采用了具有相近語義的不同術(shù)語描述時,該方法不能準確反映二者的相似性.針對這種情況,文章利用詞語的同義關(guān)系,在給出術(shù)語與術(shù)語組相似度、術(shù)語組和術(shù)語組間相似度的概念及算法的基礎(chǔ)上,給出一種基于詞語相似關(guān)系的文檔相似度計算方法.實驗采用科技文獻類文檔和新聞報道類文檔作為測試集合,比較新方法和向量空間算法的分類性能,結(jié)果顯示新方法可提高文檔分類的準確性.
同義詞;詞語相似度;文檔相似度
文本相似度作為數(shù)據(jù)挖掘的一個熱點,在互聯(lián)網(wǎng)搜索引擎、智能問答、機器翻譯、信息檢索和社區(qū)發(fā)現(xiàn)等方面有著廣泛的應(yīng)用[1-2],主要包括文檔之間相似度,短語和篇章之間相似度,短語和文章段落之間相似度等.傳統(tǒng)的文檔之間相似度的計算方法主要包括基于向量空間模型方法[3],基于集合運算模型方法[4],基于文檔結(jié)構(gòu)方法[5]和基于引文圖方法[6]等.基于空間向量的方法和基于集合運算的方法都假設(shè)特征元素之間的關(guān)系是正交的,過分依賴于文檔特征之間交集的大小[6].基于文檔結(jié)構(gòu)的方法和基于引文圖方法主要用于結(jié)構(gòu)化文檔、科研論文等特殊文本,偏重研究文檔之間結(jié)構(gòu)的相似程度,沒有合理考慮文檔之間的語義聯(lián)系.
在自然語言文檔中,人們往往用不同的詞來表達同樣的意思,造成2篇含義相近的文檔其特征詞并不相同.文本文檔的特征項主要是術(shù)語,術(shù)語之間的同義關(guān)系實際上隱含了文檔之間的語義聯(lián)系.合理利用術(shù)語之間的這些關(guān)系可以提高信息系統(tǒng)的性能[7].本文給出了一個文檔語義相似度的定義,提出一種利用詞語間的同義關(guān)系計算文本文檔語義相似度的方法,并實驗驗證了該方法的有效性.
1.1 文檔標引
文本文檔一般可以用一組術(shù)語來標引,最常用的文本標引方法為TF-IDF方法[8],其中TF (term frequency)是對一個詞語局部重要性的度量,用該詞語在某一文本中出現(xiàn)的頻率表示,頻率越大,則該詞語對于這篇文本的表示貢獻越大;為防止TF偏向長的文本,一般地采用歸一化的方法.
(1)
其中,nij是詞語ti在文本dj中的出現(xiàn)次數(shù),而分母則是在文本dj中所有詞的出現(xiàn)次數(shù)之和.
IDF(inverse document frequency)為倒排文本頻率,其理論依據(jù)為包含詞語ti的文檔數(shù)越少,則該詞的辨別力越強,即權(quán)重越大.IDF的計算公式為
(2)
其中,N表示文本集的大小,ni表示含有詞語ti的文本數(shù).
一種常用的TF-IDF公式為
(3)
T表示文本dj包含的詞語總數(shù),T=∑knkj.
1.2 同義詞及其度量
同義詞概念屬于語言學(xué)的范疇,在語言學(xué)領(lǐng)域,多數(shù)學(xué)者認為同義詞包括2類[9-10]:1)2個詞表達的意思完全相同;2)2個詞表達的意思有所類似,但又不完全相同.依據(jù)辭海提供的書面解釋,同義詞可定義為:意義相同或者相近的詞,其中意義相同地詞為等義詞,意義相近的詞定義為近義詞.
信息檢索領(lǐng)域的同義詞并不完全等同于上述語言學(xué)中的同義詞.信息檢索中的同義詞是指在檢索過程中能夠相互替換的表達相同或者相近概念的詞語,并不考慮這些詞語攜帶的感情色彩.檢索中,2個同義詞的同義程度經(jīng)常采用二者的相似程度衡量.
詞語相似度是一個主觀性較強的概念,脫離具體應(yīng)用談詞語相似度存在弊端,只有在具體的應(yīng)用環(huán)境中詞語相似度的概念才比較明確.本文采用文獻[11]給出的詞語相似度定義.
定義1 詞語相似度:詞語相似度是用來衡量2個詞語在查詢中或文檔中意義相符程度的度量.詞語相似度是一個數(shù)值,取值范圍為[0,1],詞語t1和t2的相似度記為Sim(t1,t2).
詞語相似度指標用于度量2個詞語相似的程度.理論上,如果t1和t2是同一個詞語,則二者的相似度為1,如果t1和t2是2個意義完全不同的詞語,則二者的相似度為0,故詞語相似度的取值范圍為[0,1].
詞語相似度的計算方法主要有2類,其一是使用同義詞詞典或詞匯分類體系,利用詞語之間的概念距離來計算詞語相似度,其二是利用大規(guī)模的語料庫進行統(tǒng)計的方法.目前常用的同義詞詞典主要有英語的《wordnet》,中文的《同義詞詞林》和《Hownet》(知網(wǎng))[12].
類似于詞語相似度的定義,可以定義一個詞語和一組詞語之間的相似度.
定義2 術(shù)語t和術(shù)語組T=(t1,t2,…,tk)之間的相似度定義為術(shù)語t和T中每一個術(shù)語之間的相似度之和的平均值,記為
(4)
一個詞語和一組術(shù)語之間的相似度表示了該術(shù)語和一組術(shù)語之間整體的語義同義關(guān)系.
利用術(shù)語t和術(shù)語組T=(t1,t2,…,tk)相似度的概念,進一步可以定義2組術(shù)語之間的相似度.
定義3 2組術(shù)語之間的相似度定義為2個集合包含術(shù)語兩兩之間術(shù)語相似度之和的平均值,記為
(5)
文本文檔是由一組特征詞來標引的,這組標引詞不僅表示了文檔的特征,也表示了文檔的語義,因此可以用這組標引詞之間的語義相似程度來計算2個文檔之間的語義相似程度,但是,一篇文檔的不同標引詞具有不同的權(quán)重,也就是說它們對一篇文檔語義表示的貢獻度是不同的,文檔的語義相似度計算應(yīng)考慮其標引詞的權(quán)重.
本文將不考慮文檔標引詞權(quán)重,僅僅使用2組標引詞之間相似度表示的文檔相似度稱作文檔的簡單語義相似度.
定義4 文檔di和dj的簡單語義相似度,假定2個文檔di和dj的標引詞集合分別為di=(ti1,ti2,tim)和dj=(tj1,tj2,…,tjm),則文檔di和dj的簡單語義相似度定義為
(6)
由文檔標示知識可知,若術(shù)語tij和術(shù)語tik(j≠k)在文檔di中的權(quán)重不同,其對di標引所起到的貢獻也不同,于是在計算文本相似度時的貢獻也不同.
定義5 文檔di和dj的語義相似度,設(shè)2個文檔di=(ti1,ti2,…,tim)和dj=(tj1,tj2,…,tjm)的權(quán)重分別為wi=(wi1,wi2,…,wim)和wj=(wj1,wj2,…,wjm),則文檔di和dj的語義相似度定義為
(7)
其中α為調(diào)節(jié)系數(shù).
3.1 測試集合
測試集包括2大類文檔,分別是科技文獻類(A類)和新聞報道類(B類),其中科技文獻類包括2個子類:信息檢索類和軟件工程類,共30篇科技文獻.新聞報道類包括3個子類:治安類、母嬰類和航天類,共36篇新聞報道.實驗分別采用傳統(tǒng)向量空間模型和文章提出的基于術(shù)語同義關(guān)系的文檔語義相似度計算任意2篇文檔的相似度,對二者計算的準確率進行比較.
3.2 詞語同義度的獲得
實驗首先對測試集中所有文檔向量化,每個文檔取權(quán)重最大的前50個特征詞表示,然后將所有特征詞兩兩組成術(shù)語對,用劉群提出的算法計算術(shù)語對的相似度,并人工去除不合語義的結(jié)果,最終獲得術(shù)語的相似度.
3.3 實驗結(jié)果
圖1為采用A類文檔作為測試集合時,依據(jù)傳統(tǒng)向量空間方法和文章提出的方法對435對文檔在不同閾值下計算分類的準確性,繪制出分類準確性曲線圖.從圖1可以看出,在科技文獻類文檔的應(yīng)用環(huán)境中,新方法的性能明顯優(yōu)于舊方法,準確率最大可以提高9.518%.
圖1 科技文獻類性能比較
圖2 新聞報道類性能比較
圖3 完整測試集性能比較
圖2為在新聞報道類測試集中,新方法和舊方法分類準確性的對比曲線,新方法的性能優(yōu)于舊方法,但提高幅度低于科技文獻類文檔,其原因是新聞報道類文檔一般比較短,出現(xiàn)同義詞的可能性低于較長的科技文獻類文檔.在整個測試集合中,分別運用舊方法和新方法在不同閾值下對2 145對文檔進行分類,依據(jù)分類的準確性繪制出如圖3所示的性能比較圖.
綜上,不管在科技文獻類文檔的應(yīng)用環(huán)境中,還是在新聞報道類文檔的應(yīng)用環(huán)境中,或者是混合類文檔的應(yīng)用環(huán)境中,新方法均可在一定程度上提高文檔分類的準確性.表1為3種應(yīng)用環(huán)境下,新方法分類準確性的最大提高值.
表1 不同類文檔下的最大性能提高值
文章將同義關(guān)系應(yīng)用于文檔的相似度計算,提出融合同義關(guān)系的文檔語義相似度計算方法,實驗驗證了該方法對文檔分類的有效性.在未來的研究中,將尋找更為規(guī)范的測試集合,進一步對新方法進行驗證.語義信息是提高文檔分類準確性的重要途徑,除同義信息外,將針對特定類型文本,挖掘其他語義信息,進一步提高現(xiàn)有文本分類系統(tǒng)的分類性能.
[1] 孫潤志.基于語義理解的文本相似度計算研究與實現(xiàn) [D].沈陽:中國科學(xué)院沈陽計算技術(shù)研究所,2015. SUN R Z.Research and implementation of text similarity computing based on semantic understanding [D].Shenyang :Shenyang Institute of Computing Technology,Chinese Academy of Sciences,2015.
[2] 楊長春,徐小松,葉施仁,等.基于文本相似度的微博網(wǎng)絡(luò)水軍發(fā)現(xiàn)算法[J].微電子學(xué)與計算機,2014,31(3):82-85. YANG C C,XU X S,YE S R,et al.A method to find water armies in weibo based on text similarity[J].MICROELECTRONICS & COMPUTER,2014,31(3):82-85.
[3] 譚靜.基于向量空間模型的文本相似度算法研究 [D].成都:西南石油大學(xué),2015.
[4] RICARDO BAEZA-YATES,BARTHIER RIBEIRO-NETO.Mordern informtion retrieval[M].北京:機械工業(yè)出版社,2004:24-38.
[5] 趙寧寧,梁意文.綜合結(jié)構(gòu)和內(nèi)容的XML文檔相似度計算方法 [J].微電子學(xué)與計算機,2016,33(4):69-72.DOI:10.19304/j.cnki.issn1000-7180.2016.04.015. ZHAO N N, LIANG Y W. Combining structure and content similaritiesmeasure for XML document[J].Microelectronics & Computer,2016,33(4):69-72.DOI:10.19304/j.cnki.issn1000-7180.2016.04.015.
[6] 萬昊,譚宗穎,魯晶晶,等.2001~2014年引文分析領(lǐng)域發(fā)展演化綜述 [J].圖書情報工作,2015,59 (6) :120-136.DOI:10.13266/j.issn.0252-3116.2015.06.018.DOI:10. 13266 / j. issn. 0252 - 3116. 2015. 06. 018.
[7] CAMPOS L M de,FERNáNDEZ-LUNA J M,HUET J F.Clustering terms in the Bayesian network retrieval model:a new approach with two term-layers[J].Applied Soft Computing,2004,4(2):149-158.DOI:http://dx.doi.org/10.1016/j.asoc.2003.11.003.
[8] 牛萍,黃德根.TF-IDF與規(guī)則相結(jié)合的中文關(guān)鍵詞自動抽取研究 [J].小型微型計算機系統(tǒng),2016,37(4):711-715. NIU P,HUANG D G.TF-IDF and rules based automatic extraction of chinese keywords [J].Journal of Chinese Computer Systems,2016,37(4):711-715.
[9] 張為泰.基于詞向量模型特征空間優(yōu)化的同義詞擴展研究與應(yīng)用 [D].北京:北京郵電大學(xué),2015.
[10] 劉懷亮,杜坤,秦春秀.基于知網(wǎng)語義相似度的中文文本分類研究 [J].現(xiàn)代圖書情報技術(shù),2015,2:39-45.
[11] 徐建民.基于術(shù)語關(guān)系的貝葉斯網(wǎng)絡(luò)信息檢索模型擴展研究[D].天津:天津大學(xué),2007. XU J M.Research of Using term-relationships to extend Bayesian network retrieval models[D].Tianjin:Tianjin University,2007.
[12] 陳宏朝,李飛,朱新華,等.基于路徑與深度的同義詞詞林詞語相似度計算 [J].中文信息學(xué)報, 2016,30(5):80-88. CHEN H C,LI F,ZHU X H,et al.A path and depth-based approach to word semantic similarity calcalation in CiLin[J].Journal of Chinese Information Processing,2016,30(5):80-88.
(責(zé)任編輯:孟素蘭)
Research on document similarity based on terms synonymous relationship
ZHANG Xizhong1,XU Jianmin2
(1.Institute of Information Technology,Baoding Education Examinations Authority,Baoding 071000,China;2.School of Computer Science and Technology,Hebei University,Baoding 071002,China)
Because vector space model (VSM) assumes that terms in different documents is orthogonal,when different documents are described by different terms,VSM can’t accurately reflect the similarity between them.For this problem,based on giving definition and computing method of similarity between two terms set,this paper gives a quantification method to calculate similarity between two documents.Our experiments adopt science and technology literature documents and news stories to test the classification accuracy of VSM and the new method,results indicate that the new method can improve classification accuracy.
synonymous;similarity between two terms;similarity between two documents
10.3969/j.issn.1000-1565.2017.01.016
2016-10-10
河北省自然科學(xué)基金資助項目(F2015201142);河北省社會科學(xué)基金資助項目(HB15SH064)
張錫忠(1966—),男,河北衡水人,保定市教育考試院高級工程師,主要從事信息管理、管理信息系統(tǒng)研究. E-mail:13903223288@139.com
徐建民(1966—),男,河北館陶人,河北大學(xué)教授,博士,主要從事為信息檢索、不確定信息處理. E-mail:hbuxjm@hbu.edu.cn
G353;TP393
A
1000-1565(2017)01-0108-05