馮高磊 高嵩峰
摘 要: 針對(duì)向量空間模型方法忽略詞語(yǔ)語(yǔ)義以及詞語(yǔ)相互間結(jié)構(gòu)關(guān)系,沒(méi)有考慮詞語(yǔ)表達(dá)的實(shí)際意義的缺點(diǎn),提出一種新的文本相似度計(jì)算方法,該方法把語(yǔ)義相似度的計(jì)算融入到基于向量空間模型的文本相似度算法中,最終通過(guò)語(yǔ)義相似度和向量空間模型相似度加權(quán)得到文本相似度的結(jié)果。實(shí)驗(yàn)結(jié)果證明,所提出的相似度算法得到的召回率相比于向量空間模型方法以及現(xiàn)有的語(yǔ)義相似度算法都有不同程度的提高,從而證明了該算法的有效性。
關(guān)鍵詞: 文本相似度; 向量空間模型; 語(yǔ)義; 詞頻; 召回率; 特征項(xiàng)
中圖分類(lèi)號(hào): TN911.1?34; TP391.1 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2018)11?0157?05
Text similarity algorithm combining semantics based on vector space model
FENG Gaolei, GAO Songfeng
(School of Mechanical?Electronic and Vehicular Engineering, Beijing University of Civil Engineering and Architecture, Beijing 100044, China)
Abstract: The semantics and structural relation of words are ignored in the vector space model method, and the practical meaning of word expression isn′t considered. Therefore, a new test similarity calculation method is proposed, which can integrate the calculation of semantic similarity into the text similarity algorithm based on vector space model. The similarity of semantics and vector space model is weighted to obtain the result of text similarity. The experimental results show that, in comparison with the vector space model method and available semantic similarity algorithm, the recall rate obtained by the proposed similarity algorithm is improved to different extents, which can prove the effectiveness of the algorithm.
Keywords: text similarity; vector space model; semantics; word frequency; recall rate; characteristic item
文本相似度的計(jì)算在很多信息處理的具體應(yīng)用中起著重要的作用。在文本過(guò)濾、知識(shí)挖掘以及網(wǎng)頁(yè)去重等領(lǐng)域中進(jìn)行信息處理的關(guān)鍵是準(zhǔn)確計(jì)算出文本的相似度[1];在信息檢索中,為了提高文檔檢索的召回率和查準(zhǔn)率,也需要對(duì)儲(chǔ)存信息的文檔進(jìn)行有效的相似度計(jì)算[2?3];在文本聚類(lèi)、機(jī)器翻譯等領(lǐng)域,文本相似度同樣有著非常重要的應(yīng)用[4]。
目前文本相似度計(jì)算方法主要有如下兩類(lèi):
1) 基于統(tǒng)計(jì)的方法。通過(guò)統(tǒng)計(jì)詞語(yǔ)在文中出現(xiàn)的次數(shù),以詞頻信息為基礎(chǔ)進(jìn)行文本相似度的計(jì)算。該方法大多基于向量空間模型,將文本建模作為空間向量并利用向量間的關(guān)系計(jì)算文本間的相似度。文獻(xiàn)[5]通過(guò)向量空間模型的方法構(gòu)建文本的特征向量,并使用向量間夾角余弦值計(jì)算文本間的相似度;文獻(xiàn)[6]通過(guò)計(jì)算兩文本特征向量之間最長(zhǎng)公共子序列的方式反映文本的相似度?;谙蛄靠臻g模型的方法忽略了詞語(yǔ)在文本中的組織結(jié)構(gòu)和出現(xiàn)的順序以及詞語(yǔ)的關(guān)系,沒(méi)有考慮詞語(yǔ)表達(dá)的實(shí)際意義。
2) 基于語(yǔ)義的方法。利用WordNet,HowNet等知識(shí)完備的語(yǔ)義詞典中對(duì)詞語(yǔ)及其層次結(jié)構(gòu)關(guān)系的解釋進(jìn)行文本間相似度的計(jì)算[7?8]。文獻(xiàn)[9]通過(guò)《知網(wǎng)》的義原層次體系計(jì)算詞語(yǔ)間的相似度,提出一種基于語(yǔ)義的文本相似度算法;文獻(xiàn)[10]通過(guò)將不同類(lèi)型義原個(gè)數(shù)所占比例作為權(quán)重代入概念計(jì)算中,提出基于《知網(wǎng)》的變系數(shù)權(quán)重的詞語(yǔ)相似度算法?;谡Z(yǔ)義詞典的方法更加注重詞語(yǔ)本身的實(shí)際意義,計(jì)算得到的相似度更為準(zhǔn)確,但對(duì)詞典的要求高,整體相似度通常由部分相似度合成而來(lái),其中出現(xiàn)較多的加權(quán)值和參數(shù)容易導(dǎo)致計(jì)算結(jié)果產(chǎn)生偏差。
本文在深入研究和分析向量空間模型方法以及現(xiàn)有語(yǔ)義相似度計(jì)算方法的基礎(chǔ)上,針對(duì)現(xiàn)有文本相似度算法存在的缺陷,把基于《知網(wǎng)》的語(yǔ)義相似度計(jì)算與向量空間模型的方法相結(jié)合,提出一種詞頻信息與詞語(yǔ)語(yǔ)義相結(jié)合的文本相似度計(jì)算方法。首先對(duì)于內(nèi)容規(guī)模較大的文本,在特征項(xiàng)選取過(guò)程中對(duì)文本向量模型進(jìn)行降維處理;其次通過(guò)向量空間模型方法對(duì)文本進(jìn)行相似度計(jì)算,提高計(jì)算效率;再利用基于《知網(wǎng)》的語(yǔ)義相似度計(jì)算方法對(duì)文本進(jìn)行語(yǔ)義相似度的計(jì)算;最后設(shè)置合理的權(quán)重系數(shù),通過(guò)加權(quán)得出兩個(gè)文本之間的整體相似度,使得文本間的相似度計(jì)算更具合理性。
向量空間模型VSM(Vector Space Model)是Gerard Salton等人于1969年提出的,是一種簡(jiǎn)單、高效的文本表示模型。 VSM基本思想是:假設(shè)文本表達(dá)的中心思想與詞語(yǔ)出現(xiàn)順序、位置無(wú)關(guān),而依賴(lài)詞語(yǔ)在文本中出現(xiàn)的頻率,將詞語(yǔ)作為文本特征項(xiàng),將文本用一特征項(xiàng)的權(quán)重為分量的空間向量來(lái)表示,一個(gè)文本就對(duì)應(yīng)多維空間中的一個(gè)向量,通過(guò)將文本映射為向量的方式將文本間相似度的問(wèn)題轉(zhuǎn)換為在多維空間中不同向量之間的相似問(wèn)題,使得對(duì)文本的處理變得更簡(jiǎn)單。
在利用向量空間模型法進(jìn)行文本相似度計(jì)算時(shí),最重要的是計(jì)算特征項(xiàng)的權(quán)重,某個(gè)特征項(xiàng)在文本中出現(xiàn)的頻率越高,認(rèn)為該特征項(xiàng)越能代表文本的中心思想。TF?IDF權(quán)重計(jì)算法是應(yīng)用最多的一種計(jì)算權(quán)重的方法,每個(gè)特征項(xiàng)的權(quán)重由詞頻(TF)值和反文本頻率(IDF)值兩個(gè)部分構(gòu)成。詞頻(TF)是指某個(gè)特征項(xiàng)在一個(gè)文本中出現(xiàn)的頻率,即特征項(xiàng)在文本中出現(xiàn)的頻次與文本的總長(zhǎng)度的比值。反文本頻率(IDF)是特征項(xiàng)在全局文本集合中出現(xiàn)的頻率,它表示特征項(xiàng)在全局文本集合中的重要性程度,出現(xiàn)一個(gè)特征項(xiàng)的文本數(shù)越多,說(shuō)明該特征項(xiàng)的區(qū)分度越差,其在文本集合中的重要性就越低。對(duì)于文本Ti中的第 k個(gè)特征項(xiàng)對(duì)應(yīng)權(quán)重的計(jì)算方法為:
[ωik=TFik*IDFik] (1)
假設(shè)全局文本集中共有[M]篇文本, 特征項(xiàng)在[m]篇文章中出現(xiàn)過(guò),則反文檔頻率IDFik值為:
[IDFik=logMm+α] (2)
其中α 為經(jīng)驗(yàn)系數(shù),一般取0.01。
式(1)表明,一個(gè)特征項(xiàng)在文本中出現(xiàn)的次數(shù)越多,相應(yīng)的TF值也會(huì)越高,但是該特征項(xiàng)的權(quán)值ω不一定越高,這是因?yàn)槲谋局幸恍┱Z(yǔ)氣詞、副詞出現(xiàn)的次數(shù)很多,比如“的”,但是它們?cè)诿總€(gè)文本中幾乎都出現(xiàn),沒(méi)有很好的辨識(shí)度,所以IDF值就會(huì)很低,整體的權(quán)重也就會(huì)降低。
通過(guò)TF?IDF權(quán)重計(jì)算法計(jì)算出特征項(xiàng)的權(quán)重之后,就可以得到文本的特征向量,假設(shè)兩文本Ti和Tj的特征向量分別為Vti=(ωi1,ωi2,…,ωin),Vtj=(ωj1,ωj2,…,ωjn),且兩特征向量在空間中的夾角為θ,則文本Ti和Tj之間的相似度VSM_Sim(Ti,Tj)可以通過(guò)它們的特征向量之間的余弦值衡量,即:
[VSM_SimTi,Tj=cosθ=k=1nωik*ωjkk=1nω2ikk=1nω2jk] (3)
《知網(wǎng)》是以漢語(yǔ)和英語(yǔ)的詞語(yǔ)所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫(kù)[11]。《知網(wǎng)》中每一個(gè)詞可以表達(dá)為幾個(gè)“概念”,“概念”以“義原”為單位,通過(guò)知識(shí)表示語(yǔ)言對(duì)詞匯進(jìn)行描述。目前,基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算可以分為三個(gè)過(guò)程:義原相似度計(jì)算、概念相似度計(jì)算和詞語(yǔ)語(yǔ)義相似度計(jì)算。
《知網(wǎng)》知識(shí)體系中所有的義原根據(jù)上下文關(guān)系構(gòu)成了一個(gè)樹(shù)狀的義原層次體系,因此可以通過(guò)樹(shù)中各個(gè)義原之間的相互關(guān)系來(lái)計(jì)算義原相似度。許多學(xué)者在這方面進(jìn)行了大量的研究,本文選取當(dāng)前計(jì)算方法中兩種比較有代表性的方法進(jìn)行討論。
文獻(xiàn)[12]提出的公式:
[Sim(S1,S2)=αdistanceS1,S2+α] (4)
式中:[S1,S2]表示兩個(gè)義原;distance[(S1,S2)]是[S1,S2]在義原層次體系中的路徑長(zhǎng)度;α是調(diào)節(jié)參數(shù),一般取1.6。
文獻(xiàn)[13?14]提出的公式:
[Sim(S1,S2)=α*mindepthS1,depthS2α*mindepthS1,depthS2+distanceS1,S2] (5)
其中:[S1,S2]表示兩個(gè)義原;[depthS1],[depthS2]分別為[S1,S2]所在層次樹(shù)中的深度;distance[(S1,S2)]為義原在層次樹(shù)中的路徑長(zhǎng)度;[mindepthS1,depthS2]代表[S1]和[S2]在義原樹(shù)中層次深度較小的值;α為可調(diào)節(jié)參數(shù),一般取0.5。
可以看出,式(4)只考慮了義原層次體系中義原之間的距離因素對(duì)義原相似度的影響,它忽略了義原本身因素的影響,計(jì)算得到的結(jié)果過(guò)于粗糙;式(5)在式(4)的基礎(chǔ)上加入了義原在義原層次樹(shù)中的深度因素對(duì)義原相似度的影響,計(jì)算結(jié)果更為合理。
虛詞概念的相似度計(jì)算比較簡(jiǎn)單,只需要計(jì)算其對(duì)應(yīng)的義原之間的相似度即可。實(shí)詞概念的語(yǔ)義表達(dá)式分為四個(gè)部分[15?16]:
1) 第一獨(dú)立義原描述式:相似度記為Sim1(S1,S2);
2) 其他獨(dú)立義原描述式:語(yǔ)義表達(dá)式中除第一獨(dú)立義原以外的所有其他獨(dú)立義原,相似度記為Sim2(S1,S2);
3) 關(guān)系義原描述式:語(yǔ)義表達(dá)式中所有的關(guān)系義原描述式,相似度記為Sim3(S1,S2);
4) 符號(hào)義原描述式:語(yǔ)義表達(dá)式中所有的符號(hào)義原描述式,相似度記為Sim4(S1,S2)。
則兩個(gè)實(shí)詞概念的整體相似度記為:
[Sim(C1,C2)=i=14βij=1isimjS1,S2] (6)
式中:C1,C2表示兩個(gè)概念;βi,1≤i≤4是可調(diào)節(jié)的參數(shù),一般根據(jù)經(jīng)驗(yàn)指定,且有β1+β2+β3+β4=1且β1≥β2≥β3≥β4,由于第一獨(dú)立義原描述式反映了概念的主要特征,所以其權(quán)值一般在0.5以上。加入[j=1i的]原因是主要部分的相似度值對(duì)于次要部分起到制約作用,如果主要部分相似度比較低,那么次要部分的相似度對(duì)于整體相似度所起到的作用也要降低。
《知網(wǎng)》知識(shí)體系中一個(gè)詞語(yǔ)可以由一個(gè)或者多個(gè)概念表示,則詞語(yǔ)相似度可以直接轉(zhuǎn)化為概念相似度的計(jì)算[17]。對(duì)于兩個(gè)漢語(yǔ)詞語(yǔ)W1和W2,如果W1有m個(gè)概念:C11,C12,…,C1m;W2有n個(gè)概念:C21,C22,…,C2n。則詞語(yǔ)W1和W2的相似度是概念C1i和C2j所有組合中相似度的最大值,即:
[Sim(W1,W2)=Max(Sim(C1i,C2j))] (7)
式中: i =1,2,…,n; j = 1,2,…,m;Sim(W1,W2)為詞匯W1與W2之間的相似度值;Sim(C1i,C2j)為概念C1i與C2j間的概念相似度值。
在進(jìn)行文本內(nèi)容分析之前,首先要對(duì)文本進(jìn)行預(yù)處理。分詞是文本預(yù)處理的重要內(nèi)容,分詞就是對(duì)文本進(jìn)行詞的切分,將文本切分為單個(gè)詞語(yǔ),并對(duì)詞語(yǔ)進(jìn)行詞性標(biāo)注,分詞正確率的高低對(duì)相似度的計(jì)算有著直接的影響。本文使用中國(guó)科學(xué)院的NLPIR中文分詞系統(tǒng)對(duì)文本進(jìn)行分詞處理。通過(guò)NLPIR中文分詞系統(tǒng)將文本進(jìn)行分詞處理后,文本會(huì)被分解成獨(dú)立的詞語(yǔ),詞語(yǔ)和詞語(yǔ)之間用空格隔開(kāi),并且每個(gè)詞語(yǔ)后面還有每個(gè)詞語(yǔ)的相關(guān)詞性標(biāo)注。文本預(yù)處理還需要對(duì)分詞過(guò)后的文本進(jìn)行去除停用詞的處理,一些對(duì)文本內(nèi)容識(shí)別意義不大但出現(xiàn)頻率很高的詞稱(chēng)為停用詞。由于停用詞在計(jì)算相似度的過(guò)程中會(huì)引入很大的誤差,可以看作是一種噪音。因此,為了提高效率和準(zhǔn)確性,需要在進(jìn)行相似度計(jì)算之前將停用詞刪除。去停用詞一般根據(jù)停用詞詞典來(lái)處理。停用詞詞典一般是人們根據(jù)經(jīng)驗(yàn)以及主觀意識(shí)收集整理出來(lái)的一個(gè)詞語(yǔ)的集合。如果某一個(gè)詞處于停用詞詞典中,那么就將它從文本中刪除。
特征項(xiàng)的選擇是建立向量空間模型的重要環(huán)節(jié),對(duì)于內(nèi)容規(guī)模較小的文本可以將文本進(jìn)行預(yù)處理后的所有詞項(xiàng)作為特征項(xiàng)。而對(duì)于內(nèi)容規(guī)模較大的文本,如果將文本預(yù)處理后的每個(gè)詞項(xiàng)都作為特征項(xiàng),進(jìn)行TF?IDF值計(jì)算,建立文本的向量模型,這樣得到的文本向量模型維度非常高,降低了計(jì)算的效率。因此,在計(jì)算內(nèi)容規(guī)模較大的文本相似度時(shí)就需要對(duì)文本向量模型進(jìn)行有效的降維處理,去除意義不大、區(qū)別能力不強(qiáng)的詞項(xiàng)。由于某個(gè)詞項(xiàng)在文本中出現(xiàn)的頻率越高,TF?IDF值就越大,認(rèn)為該特征項(xiàng)越能代表文本的主要意義。因此,可以將每一篇文本中詞項(xiàng)的TF?IDF值從大到小進(jìn)行排序,然后從中選取前60%的詞項(xiàng)作為文本的特征項(xiàng),這樣選取的特征項(xiàng)既能代表文本的主要內(nèi)容,又能達(dá)到對(duì)文本向量模型的降維要求。
在經(jīng)過(guò)文本預(yù)處理得到兩文本的特征項(xiàng)之后,首先通過(guò)向量空間模型的方法計(jì)算出兩文本的相似度;其次利用《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度算法對(duì)文本中的特征項(xiàng)進(jìn)行語(yǔ)義相似度計(jì)算;最后設(shè)置加權(quán)系數(shù),通過(guò)加權(quán)的方法得出兩個(gè)文本之間的整體相似度。
假設(shè)Ti,Tj為兩個(gè)文本,定義它們的相似度為:
[Text_Sim(Ti,Tj)=γ*Hownet_Sim(Ti,Tj)+(1-γ)*VSM_Sim(Ti,Tj)] (8)
式中:VSM_Sim(Ti,Tj)是兩文本向量空間模型相似度,可利用式(1)~式(3)得出;Hownet_Sim(Ti,Tj)是兩文本的語(yǔ)義相似度;[γ]是語(yǔ)義相似度所占的比重系數(shù)。
語(yǔ)義相似度Hownet_Sim(Ti,Tj)的計(jì)算方法如下:
1) 首先構(gòu)造兩文本T1,T2的特征項(xiàng)相似度矩陣,設(shè)文本T1和文本T2的特征項(xiàng)集合分別為:
T1={t11,t12,…,t1m}, m為文本1的特征項(xiàng)數(shù)
T2={t21,t22,…,t2n}, n為文本2的特征項(xiàng)數(shù)
設(shè)N12為文本T1,T2特征項(xiàng)相似度矩陣,則有:
[N12=Sim(t11,t21)…Sim(t11,t2n)???Sim(t1m,t21)…Sim(t1m,t2n)]
式中Sim(t1m,t2n)為文本T1中第m個(gè)特征項(xiàng)與文本T2中第n個(gè)特征項(xiàng)之間的相似度值。
2) 采用《知網(wǎng)》中的詞語(yǔ)語(yǔ)義相似度算法通過(guò)式(5)~式(7)得出相似度矩陣中兩兩特征項(xiàng)之間的相似度。
3) 取矩陣中相似度值最大的一個(gè)記作Max(l),并設(shè)立相似度閾值μ,將Max(l)與μ進(jìn)行比較,如果大于相似度閾值μ,記錄下與這個(gè)相似度值相關(guān)的兩個(gè)特征項(xiàng)在各自文本中的權(quán)重值,最后將Max(l)所屬行和列從相似度矩陣中刪除。
4) 繼續(xù)重復(fù)步驟3)直到矩陣中元素為零,得到的所有與Max(l)相關(guān)的文本T1中的特征項(xiàng)的權(quán)重為[ω′11],[ω′12],…,[ω′1l],文本T2中的權(quán)重為[ω′21],[ω′22],…,[ω′2l]。
5) 最后可得到特征項(xiàng)之間相似度最大匹配組合的集合:
[MaxL={Max(1),Max2,…,Max(l)}]
6) 根據(jù)特征項(xiàng)相似度最大匹配組合的序列得到兩文本的語(yǔ)義相似度為:
[Hownet_Sim(Ti,Tj)=i=1lMax(i)l] (9)
根據(jù)向量空間模型的方法可知,權(quán)重越大的特征項(xiàng)越能代表文本的中心思想,也越能比較出文本間的相似度。如果兩篇文本中彼此語(yǔ)義相似度較高的特征項(xiàng)在各自文本中所占的權(quán)重越大,說(shuō)明這些特征項(xiàng)的語(yǔ)義相似度越能反映文本的相似情況,此時(shí)語(yǔ)義相似度的權(quán)重系數(shù)[γ]應(yīng)該越大;反之,如果兩篇文本中彼此語(yǔ)義相似度較高的特征項(xiàng)在各自文本中所占的權(quán)重較低,說(shuō)明這些特征項(xiàng)不能體現(xiàn)出文本的主要內(nèi)容,相應(yīng)地,其語(yǔ)義相似度也就不能反映文本的相似情況,語(yǔ)義相似度的權(quán)重系數(shù)[γ]就應(yīng)該較小。因此,可以通過(guò)特征項(xiàng)語(yǔ)義相似度的大小結(jié)合其在文本中的權(quán)重分布情況得出語(yǔ)義相似度的權(quán)重系數(shù)。根據(jù)語(yǔ)義相似度計(jì)算步驟4)中得到的滿足語(yǔ)義相似度閾值[μ]的特征項(xiàng)權(quán)重,可以得到語(yǔ)義相似度的權(quán)重系數(shù)[γ,]具體計(jì)算公式如下:
[γ=12(k=1lω′1k+k=1lω′2k)] (10)
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于知網(wǎng)的期刊論文,人工收集具有相似研究?jī)?nèi)容的期刊論文192篇,范圍包括計(jì)算機(jī)、機(jī)械、電子、航空、化工、物理等6個(gè)領(lǐng)域,每個(gè)領(lǐng)域32篇,將各個(gè)領(lǐng)域論文的中文摘要提取出來(lái)組成一個(gè)文本集作為實(shí)驗(yàn)測(cè)試對(duì)象,用摘要作為測(cè)試對(duì)象是因?yàn)檎慕Y(jié)構(gòu)清晰、長(zhǎng)度適中且摘要文本規(guī)模不大,不需要對(duì)文本向量空間模型進(jìn)行降維。按照不同領(lǐng)域的摘要內(nèi)容為每個(gè)領(lǐng)域的摘要文本創(chuàng)建一個(gè)基準(zhǔn)文本,基準(zhǔn)文本是一個(gè)與摘要文本規(guī)模相似并且與該領(lǐng)域的摘要文本有著不同相似度的文本,用人工識(shí)別的方法將不同領(lǐng)域的摘要文本與其基準(zhǔn)文本進(jìn)行相似度比較,將得到的相似度比較結(jié)果從大到小進(jìn)行排序,將每個(gè)領(lǐng)域內(nèi)的32個(gè)摘要文本按不同相似度值范圍分為4組,每組包括8個(gè)摘要文本。
實(shí)驗(yàn)中首先采用NLPIR中文分詞系統(tǒng)對(duì)文本集中的摘要文本和基準(zhǔn)文本進(jìn)行文本分詞、去停用詞,然后用TF?IDF方法對(duì)文本中的特征項(xiàng)進(jìn)行權(quán)值計(jì)算,為了驗(yàn)證上述方法的有效性,便于比較結(jié)果的優(yōu)劣,分別采用向量空間模型方法以及文獻(xiàn)[10]中提出的方法與本文提出的方法計(jì)算各領(lǐng)域中的摘要文本與其基準(zhǔn)文本的相似度,并將實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析。實(shí)驗(yàn)結(jié)果的評(píng)價(jià)方法借鑒信息檢索和統(tǒng)計(jì)學(xué)分類(lèi)領(lǐng)域的評(píng)價(jià)方法,主要的評(píng)價(jià)指標(biāo)為召回率(Recall),召回率即檢索出的相關(guān)文本數(shù)和文本集中所有相關(guān)文本數(shù)的比率。將各組摘要文本與基準(zhǔn)文本相似度計(jì)算結(jié)果處于該組相似度值范圍的摘要文本的個(gè)數(shù)記為c,那么召回率[Recall=c8] 。實(shí)驗(yàn)結(jié)果如表1所示。
由表1可知,本文提出的文本相似度算法相比于向量空間模型方法以及文獻(xiàn)[10]中基于詞語(yǔ)語(yǔ)義的文本相似度算法在召回率上有明顯程度的提高。究其原因,向量空間模型的方法沒(méi)有考慮詞語(yǔ)在文本中出現(xiàn)的位置,忽略了詞語(yǔ)本身語(yǔ)義以及詞語(yǔ)相互之間的結(jié)構(gòu)關(guān)系,相似度計(jì)算偏差較大;文獻(xiàn)[10]中的方法雖然考慮到詞語(yǔ)的語(yǔ)義,但忽略了詞語(yǔ)在文本中所占的權(quán)重大小,所以計(jì)算得到的召回率也較低;本文提出的方法在向量空間模型的方法中加入語(yǔ)義相似度的計(jì)算,把文本表達(dá)的實(shí)際意義考慮在內(nèi),降低因?yàn)檎Z(yǔ)義而產(chǎn)生的計(jì)算偏差,計(jì)算得到的文本相似度能夠更準(zhǔn)確地反映文本間的實(shí)際相似度。綜上所述,本文提出的算法對(duì)于文本的相似度計(jì)算更加合理,計(jì)算結(jié)果更加準(zhǔn)確。
本文針對(duì)現(xiàn)有文本相似度算法存在的缺陷,在向量空間模型方法的基礎(chǔ)上加入詞語(yǔ)語(yǔ)義相似度的計(jì)算,從而解決了向量空間模型方法忽略詞語(yǔ)語(yǔ)義以及基于詞語(yǔ)語(yǔ)義的文本相似度算法沒(méi)有考慮詞語(yǔ)權(quán)重的問(wèn)題。與現(xiàn)有的文本相似度算法相比,本文提出的算法對(duì)文本在語(yǔ)義和詞頻方面的相似度進(jìn)行綜合衡量,計(jì)算結(jié)果更加符合實(shí)際。
參考文獻(xiàn)
[1] LI Hang, XU Jun. Semantic matching in search [R]. Boston: NOW, 2014.
[2] 程志強(qiáng),閔華松.一種基于向量詞序的句子相似度算法研究[J].計(jì)算機(jī)仿真,2014,31(7):419?424.
CHENG Zhiqiang, MIN Huasong. A sentences similarity algorithm based on word order of vectors distance [J]. Computer simulation, 2014, 31(7): 419?424.
[3] TATIANA A S C, PEREIRA C. Image retrieval using multiple evidence ranking [J]. IEEE transactions on knowledge & data engineering, 2004, 16(4): 408?417.
[4] 姜亞莉,關(guān)澤群.用于Web 文檔聚類(lèi)的基于相似度的軟聚類(lèi)算法[J].計(jì)算機(jī)工程,2006,32(2):59?61.
JIANG Yali, GUAN Zequn. A similarity?based soft clustering algorithm for Web documents [J]. Computer engineering, 2006, 32(2): 59?61.
[5] 郭慶琳,李艷梅,唐琦.基于VSM的文本相似度計(jì)算的研究[J].計(jì)算機(jī)應(yīng)用研究,2008(11):3256?3258.
GUO Qinglin, LI Yanmei, TANG Qi. Similarity computing of documents based on VSM [J]. Application research of computers, 2008(11): 3256?3258.
[6] 金希茜.基于語(yǔ)義相似度的中文文本相似度算法研究[D].杭州:浙江工業(yè)大學(xué),2009.
JIN Xixi. Similarity algorithm of Chinese text based on semantic similarity [D]. Hangzhou: Zhejiang University of Technology, 2009.
[7] LI Y, BANDAR Z A, MCLEAN D, et al. An approach for measuring semantic similarity between words using multiple information sources [J]. IEEE transactions on knowledge and data engineering, 2003, 15(4): 871?882.
[8] 劉青磊,顧小豐.基于《知網(wǎng)》的詞語(yǔ)相似度算法研究[J].中文信息學(xué)報(bào),2010,24(6):31?36.
LIU Qinglei, GU Xiaofeng. Study on HowNet?based word similarity algorithm [J]. Journal of Chinese information processing, 2010, 24(6): 31?36.
[9] 王小林,王東,楊思春,等.基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度算法[J].計(jì)算機(jī)工程,2014,40(12):177?181.
WANG Xiaolin, WANG Dong, YANG Sichun, et al. Word semantic similarity algorithm based on HowNet [J]. Computer engineering, 2014, 40(12): 177?181.
[10] 金博,史彥軍,滕弘飛.基于語(yǔ)義理解的文本相似度算法[J].大連理工大學(xué)學(xué)報(bào),2005,45(2):291?297.
JIN Bo, SHI Yanjun, TENG Hongfei. Text similarity algorithm based on semantic understanding [J]. Journal of Dalian University of Technology, 2005, 45(2): 291?297.
[11] 董強(qiáng),董振東.知網(wǎng)簡(jiǎn)介[EB/OL].[2017?05?29].http: / /www. keenage.com/.
DONG Qiang, DONG Zhendong. Introduction to HowNet [EB/OL]. [2017? 05?29]. http://www.keenage.com/.
[12] 劉群,李素建.基于知網(wǎng)的詞匯語(yǔ)義相似度的計(jì)算[EB/OL].[2002?08?19].http://www.doc88.com/p?3714298265602.html.
LIU Qun, LI Sujian. Word′s semantic similarity computation based on Hownet [EB/OL]. [2002?08?19]. http://www.doc88.com/p?3714298265602.html.
[13] 李峰,李芳.中文詞語(yǔ)語(yǔ)義相似度計(jì)算:基于《知網(wǎng)》2000[J].中文信息學(xué)報(bào),2007,21(3):99?105.
LI Feng, LI Fang. A new approach measuring semantic similarity in HowNet 2000 [J]. Journal of Chinese information processing, 2007, 21(3): 99?105.
[14] AGIRRE E, RIGAU G. A proposal for word sense disambiguation using conceptual distance [C]// 1995 International Conference on Recent Advances in Natural Language Processing. [S.l.]: IEEE, 1995: 1?7.
[15] 張敏,王振輝,王艷麗.一種基于《知網(wǎng)》知識(shí)描述語(yǔ)言結(jié)構(gòu)的詞語(yǔ)相似度計(jì)算方法[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(7):265?267.
ZHANG Min, WANG Zhenhui, WANG Yanli. A word similarity computation method based on knowledge description language structure in HowNet [J]. Computer applications and software, 2013, 30(7): 265?267.
[16] 江敏,肖詩(shī)斌,王弘蔚,等.一種改進(jìn)的基于《知網(wǎng)》的詞語(yǔ)語(yǔ)義相似度計(jì)算[J].中文信息學(xué)報(bào),2008(5):84?89.
JIANG Min, XIAO Shibin, WANG Hongwei, et al. An improved word similarity computing method based on HowNet [J]. Journal of Chinese information processing, 2008(5): 84?89.
[17] 朱征宇,孫俊華.改進(jìn)的基于《知網(wǎng)》的詞匯語(yǔ)義相似度計(jì)算[J].計(jì)算機(jī)應(yīng)用,2013,33(8):2276?2279.
ZHU Zhengyu, SUN Junhua. Improved vocabulary semantic similarity calculation based on HowNet [J]. Journal of computer applications, 2013, 33(8): 2276?2279.