王 格 吳 釗 李 向
(1.湖北文理學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院 襄陽(yáng) 441053)(2.中國(guó)地質(zhì)大學(xué)(武漢)計(jì)算機(jī)學(xué)院 武漢 430074)
?
基于全文檢索的文本相似度算法應(yīng)用研究*
王格1,2吳釗1李向2
(1.湖北文理學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院襄陽(yáng)441053)(2.中國(guó)地質(zhì)大學(xué)(武漢)計(jì)算機(jī)學(xué)院武漢430074)
摘要在大量的文本數(shù)據(jù)中,針對(duì)不能快速有效地提取或查找有用信息及知識(shí)這個(gè)問題,以文本相似度計(jì)算為基礎(chǔ)的文本數(shù)據(jù)挖掘成為數(shù)據(jù)挖掘研究領(lǐng)域里的一個(gè)重要的課題。論文主要研究?jī)煞N不同的方法VSM余弦算法和Simhash來(lái)實(shí)現(xiàn)文本相似度的計(jì)算,首先采用傳統(tǒng)的VSM余弦算法和Simhash算法,按照余弦公式通過內(nèi)積最終計(jì)算出文本間的相似度大小n(0 關(guān)鍵詞文本相似度; 余弦VSM; Simhash Class NumberTP301.6 文本相似度計(jì)算[1]是自然語(yǔ)言處理的一部分,可以計(jì)算一個(gè)文本中不同詞條的相似度,可以計(jì)算兩個(gè)文本間的相似度,也可以進(jìn)行批處理,對(duì)多個(gè)文本之間進(jìn)行兩兩計(jì)算,并輸出文本相似度的最后結(jié)果。在機(jī)器翻譯中,相似度可看作是用于衡量文本中詞語(yǔ)的可替換程度的參數(shù);在信息檢索中,又可理解為文本內(nèi)容與用戶想要搜索的資料的符合程度[2]等。 隨著科技的進(jìn)步,計(jì)算機(jī)的普及以及Internet的飛速發(fā)展,文本信息的大量增長(zhǎng),文本相似度計(jì)算在信息檢索的效率提高方面,對(duì)于發(fā)表的文章中抄襲的檢測(cè),對(duì)于文章相似信息進(jìn)行壓縮存儲(chǔ)以便節(jié)省存儲(chǔ)空間的方面都起到了很大的作用。然而對(duì)于英文的文本相似度計(jì)算的時(shí)候,英文單詞本身是有空格分開的,這樣以單詞來(lái)處理一個(gè)英文文本進(jìn)行比較就很簡(jiǎn)單。 但是中文是沒有分隔的,需要加入很多詞義,中文是使用多個(gè)連續(xù)的字如雙字、四字成語(yǔ)來(lái)表達(dá)一個(gè)意思,并且在中文的前后語(yǔ)境的不同,一個(gè)詞語(yǔ)的意思也是不同的,并且有時(shí)候中文還會(huì)產(chǎn)生歧義,目前對(duì)文本的處理方式如圖1所示。 圖1 文本分詞處理方法 長(zhǎng)久以來(lái),國(guó)內(nèi)外的很多學(xué)者一直在研究文本相似度的計(jì)算問題,對(duì)于文本相似度計(jì)算提出了一些解決的方案。著名的VSM向量空間模型(Vector Space Model)是由Gerard Salton等[3]在1969年首先提出的,文本映射成為N維空間向量,通過向量降維處理,詞頻統(tǒng)計(jì)和比較向量間的關(guān)系來(lái)計(jì)算相似度。在傳統(tǒng)的空間向量模型中,所使用的詞語(yǔ)向量之間是沒有任何語(yǔ)義聯(lián)系的,僅僅只是不同的詞語(yǔ)代表的向量就是不同。為此廣義向量空間模型(Generalized Vector Space Model,GVSM)[4]則使用了語(yǔ)義之間的聯(lián)系,使用文本代替詞語(yǔ)來(lái)表達(dá)文本之間的關(guān)系。Deerwester[5]等提出的隱性語(yǔ)義索引(Latent Semantic Indexing)也是文本相似度計(jì)算的有效方法,Oleshchuk等[6]在文本相似度計(jì)算中引入了本體論,提出了基于Ontology out的文本相似度比較方法,這個(gè)方法可以通過語(yǔ)義計(jì)算文本詞語(yǔ)的相似度。2002年由Google的Charikar[7]提出一種Simhash算法,將一篇文檔轉(zhuǎn)化為n位的簽名,通過比較簽名的相似度來(lái)計(jì)算原文檔的相似度。 國(guó)內(nèi)學(xué)者中2001年,張煥炯、王國(guó)勝等提出了漢明碼的概念[8],利用漢明距離來(lái)計(jì)算文本相似度,較好地提高了相似度計(jì)算速度。2004年晉耀紅[9]提出了語(yǔ)境框架的新語(yǔ)義模型,實(shí)現(xiàn)了文本間語(yǔ)義相似度的量化,取得了較好的計(jì)算效果。2008年,曹恬、周麗、張國(guó)煊[10]等提出了基于詞共現(xiàn)的文本相似度計(jì)算方法。2013王振振[11]等提出了一種基于LDA主題模型的文本相似度計(jì)算方法,挖掘隱藏在文本內(nèi)的不同主題與詞之間的關(guān)系,能夠明顯提高文本相似度計(jì)算的準(zhǔn)確率。 本文對(duì)現(xiàn)有的兩種文本相似度計(jì)算方法VSM和Simhash進(jìn)行研究,目的是為了對(duì)這兩種方法的優(yōu)劣進(jìn)行更深入的了解,以提高文本相似度計(jì)算的精度和有效性,用以對(duì)相關(guān)的應(yīng)用起到引導(dǎo)以及參考作用。 文本在向量空間模型中代表的是各種電腦可以識(shí)別的數(shù)據(jù),該數(shù)據(jù)使用Document表示,文本的關(guān)鍵字Key是指在該數(shù)據(jù)中出現(xiàn)而且可以代表該文章不同于其他文章或者代表文章中觀點(diǎn)的基本單位,關(guān)鍵字可以用文章之中特定的詞語(yǔ)表示,可以用關(guān)鍵字集表示文本為D(K1,K2,…,Kn),其中Ki是關(guān)鍵字,1≤i≤n。 文本之中有a,b,c,d這幾個(gè)關(guān)鍵字,那么這篇文本就可以用D(a,b,c,d)表示。對(duì)含有n個(gè)關(guān)鍵字的文本而言,通常會(huì)給每個(gè)關(guān)鍵字K的出現(xiàn)次數(shù)作為其代表的權(quán)重W來(lái)表示該關(guān)鍵字對(duì)文本的重要程度。D=D(K1,W1,K2,W2,…,Kn,Wn),簡(jiǎn)記為D=D(W1,W2,…,Wn),這種方式叫做該文本D的向量代表方法。 其中Wi是Ki的權(quán)重,1≤i≤n。該文本之中,其關(guān)鍵字a,b,c,d的權(quán)重分別設(shè)置為30,20,20,10,就可以將該文本表示為D(30,20,20,10)。在VSM的向量空間之中,要計(jì)算的文本D1和D2的文本相似程度Sim(D1,D2)就可以使用文本之間的計(jì)算所得的文本向量余弦值大小表示: (1) 式中,W1i,W2i表示文本D1和D2第i個(gè)關(guān)鍵字的權(quán)值,1≤i≤n。 在搜索文本的時(shí)候就可以計(jì)算待搜索文本和數(shù)據(jù)庫(kù)中文本的相似度進(jìn)行余弦計(jì)算,其算法的流程圖如圖2所示。 例如待搜索文本Di的關(guān)鍵字為a,b,c,d,關(guān)鍵字權(quán)值分別為30,20,20,10,數(shù)據(jù)庫(kù)待核實(shí)文本C1的關(guān)鍵字為a,c,d,e,關(guān)鍵字權(quán)值分別為40,30,20,10,則D1的向量代表方法為D1(30,20,20,10,0),C1的向量代表方法為C1(40,0,30,20,10),根據(jù)式(1)計(jì)算待搜索文本D1與數(shù)據(jù)庫(kù)中待核實(shí)文本C1文本相似度是0.86。 圖2 VSM算法流程 文本相似度0.86的計(jì)算方法如下。 它的模: (2) 兩個(gè)向量的點(diǎn)積: (3) (4) (5) 物理意義就是兩個(gè)向量的空間夾角的余弦數(shù)值,下面是代入公式的過程: =2000 (6) (7) (8) (9) 圖3 Simhash算法流程圖 Simhash算法是由Charikar[6]于2002年提出新的算法,這個(gè)算法也是目前被認(rèn)同為最好、最有效的網(wǎng)頁(yè)相似內(nèi)容去重算法,Simhash算法實(shí)質(zhì)上是一種可傳統(tǒng)的Hash算法只負(fù)責(zé)將原始內(nèi)容盡量均勻隨機(jī)地映射為一個(gè)簽名值,原理上相當(dāng)于偽隨機(jī)數(shù)產(chǎn)生算法。而Simhash算法則是基于概率的文本相似度計(jì)算方法,對(duì)于一篇文章,提取出其中關(guān)鍵詞,然后將這些關(guān)鍵詞Hash一次,得到n位長(zhǎng)度的Hash值,Hash值為1的,特征向量就為1,當(dāng)Hash值為0,特征向量就為-1,如果要考慮權(quán)重,就在特征向量基礎(chǔ)上乘以權(quán)重,就是這個(gè)詞的向量值,一篇文檔的所有詞的向量累加,這個(gè)向量為全文主向量,大于或等于零的分量,映射為1,小于0的,映射為0,這相關(guān)得出全文的Simhash值,這個(gè)叫文本的簽名。通過比較不同文本之間簽名則可直接得到文本相似度,該算法的流程圖如圖3所示。 Simhash算法的步驟: 1) 先將文本定義為一個(gè)n維的向量D,將D的所有維度均置為0;再定義一個(gè)n位的二進(jìn)制數(shù)x作為該文本的特征數(shù)并將其初始化為0; 2) 對(duì)文本之中每一個(gè)關(guān)鍵字:對(duì)該關(guān)鍵字使用傳統(tǒng)的Hash算法計(jì)算得到一個(gè)n位的二進(jìn)制數(shù)y; 3) 對(duì)于i∈(0,n)進(jìn)行循環(huán)操作: 如果二進(jìn)制數(shù)y的第i位為1,則D的第i個(gè)維度的元素值加上該關(guān)鍵字的權(quán)重; 如果其為0,D的第i個(gè)維度的元素值減去該關(guān)鍵字的權(quán)重。 4) 再觀察D中的元素值,如果D的第i個(gè)元素值大于0,則二進(jìn)制x的第i位設(shè)置為1,否則設(shè)置為0,并輸出文本的特征數(shù)x。 首先將所需要進(jìn)行文本相似度計(jì)算的多個(gè)文章進(jìn)行一個(gè)映射,不管這個(gè)映射是怎樣進(jìn)行的,只需要得到該文本與其它文本完全不相似的映射,因?yàn)镠ash算法就是對(duì)于不同的數(shù)據(jù)得到的Hash值是完全不相同的,于是對(duì)于每個(gè)關(guān)鍵字進(jìn)行Hash處理,所得到的Hash值是均勻的隨機(jī)分布,且唯一的。如果一個(gè)關(guān)鍵字的Hash結(jié)果對(duì)應(yīng)的二進(jìn)制x的值為101010…0001,則其在算法中對(duì)應(yīng)的向量大小為(k,-k,k,-k,k,-k,…,-k,-k,-k,k)T,其中k為當(dāng)前關(guān)鍵字的權(quán)重,也就是說(shuō)當(dāng)其二進(jìn)制數(shù)值為0是當(dāng)前向量位置就為負(fù)值的權(quán)重,為1則為權(quán)重值大小。然后,將該文本所有的關(guān)鍵字的n維向量進(jìn)行求和計(jì)算,此時(shí)會(huì)得到一個(gè)n位的1,0串,該串就表示該文檔的特征數(shù)。 為了得到這個(gè)n位的1,0串,進(jìn)行求和計(jì)算的時(shí)候,如果第i位的數(shù)字大于等于1則將x該位的數(shù)據(jù)置為1,如果小于等于0,則將x該位的數(shù)據(jù)置為0。 3.1隨機(jī)超平面Hash算法 Simhash在數(shù)學(xué)運(yùn)算中的方法具有可行性,但是,在2個(gè)文本相似較高的時(shí)候它們的特征數(shù)x是否會(huì)比較相似,在Google發(fā)布的Simhash的方法之中并沒有給出Google所使用的具體的Simhash算法和證明,本來(lái)在對(duì)其進(jìn)行了試驗(yàn)之后得到了下面的這些想法。 Simhash的算法思路是使用了Sandom hyperplane hash算法,其算法思路為對(duì)于一個(gè)n維的向量D: 1) 先定義k個(gè)n維的向量r1,r2,…,rk; 2) 對(duì)每一個(gè)向量ri(0 算法之中將每一維的向量都視做一個(gè)特定的hyperplane,在D在該hyperplane的投影值大于1則修改x在當(dāng)前的元素值為1,否則就置其為0。對(duì)于2個(gè)不同的n維向量A,B來(lái)說(shuō),它們之間有一個(gè)夾角θ,對(duì)于任意一個(gè)hyperplane來(lái)說(shuō),能將2個(gè)向量分開的概率為θ/π,所以它們的特征數(shù)x在某一位的元素值不同的概率也是θ/π。所以可以使用hamming distance來(lái)計(jì)算2個(gè)n維向量之間的特征數(shù)所有元素值不同的數(shù)值總和來(lái)表示不同向量之間的差異程度。 3.2Simhash算法與隨機(jī)超平面Hash算法的比較 Simhash的算法之中使用Random Hyperplane Hash算法,Simhash并未使用Hyperplane的向量,而是使用關(guān)鍵字在某一位的數(shù)值如果為1則不變,為0則置其值為-1,這樣便有n位的特征值x得到了n維的空間隨機(jī)向量。對(duì)應(yīng)了n維的Hyperplane。 下面是一個(gè)特殊的例子,首先使用5個(gè)關(guān)鍵字來(lái)代表某個(gè)特定的文本,并且得到一個(gè)4位的特征數(shù),所以假設(shè)5個(gè)關(guān)鍵字的4位特征數(shù)分別為x1=1010,x2=1100,x3=1110,x4=1000,x5=0001;則對(duì)應(yīng)的向量為(1,-1,1,-1),(1,1,-1,-1),(1,1,1,-1)(1,-1,-1,-1),(-1,-1,-1,1);再由算法中的第三步可以進(jìn)行相同位數(shù)間的求和運(yùn)算,得到的結(jié)果為(3,-1,-1,-3),由算法中的第四步可以得到文本的特征數(shù)x為1001。而對(duì)于Random Hyperplane Hash算法來(lái)說(shuō)進(jìn)行4個(gè)5維的向量(1,1,1,1,-1),(-1,1,1,-1,-1),(1,-1,1,-1,-1),(-1,-1,-1,-1,1)按照Random Hyperplane Hash算法可以得到向量D與4個(gè)5維向量的乘積結(jié)果為(3,-1,-1,3),所求得的文本的特征數(shù)也是1001。由兩種不同的算法所求得的文本特征數(shù)的結(jié)果都是1001,可以看出Simhash算法和Random Hyperplane Hash算法的思路是相同的,通過計(jì)算Simhash所得的特征數(shù)的Hamming distance,可以計(jì)算出兩個(gè)文本之間的相似程度。 由于本文使用的是C++的來(lái)進(jìn)行Simhash的算法設(shè)計(jì),由于C++中最大的數(shù)據(jù)只能使用long long類型來(lái)定義的2進(jìn)制數(shù)只有最大2的63次方,在進(jìn)行Simhash算法的時(shí)候還需進(jìn)行乘法運(yùn)算,經(jīng)過測(cè)試使用50位的2進(jìn)制串是比較合適的,但是由于2進(jìn)制串的位數(shù)較少,算法精度不夠精準(zhǔn),本文又使用了Python進(jìn)行編碼,再使用C++進(jìn)行Python的調(diào)用,這樣就使2進(jìn)制數(shù)的特征數(shù)達(dá)到了128位,對(duì)比2個(gè)Simhash的計(jì)算數(shù)值,也可以看出精度不同的區(qū)別。 4.1實(shí)驗(yàn)數(shù)據(jù) 本文處理的文本是由網(wǎng)上找尋的一篇論文之中的幾段話,作為實(shí)驗(yàn)中的原數(shù)據(jù),來(lái)進(jìn)行它們之間的文本相似度計(jì)算。 文本a.txt和文本b.txt中的文本數(shù)據(jù)是比較相似的如圖4和圖5中所示,用來(lái)做一組對(duì)照。而c.txt和d.txt中數(shù)據(jù)之間沒有任何的相似度,和a.txt與b.txt也沒有任何的相似程度如圖6和7中所示。 4.2實(shí)驗(yàn)結(jié)果與對(duì)比分析 系統(tǒng)采用C++MFC界面并在Visual Studio 2010中實(shí)現(xiàn),分別為瀏覽需要進(jìn)行比較的文本并顯示其訪問路徑,然后對(duì)文本進(jìn)行Simhash1(C++),Simhash2(Python),余弦算法的計(jì)算。 圖4 實(shí)驗(yàn)數(shù)據(jù)a.txt 圖5 實(shí)驗(yàn)數(shù)據(jù)b.txt 圖6 實(shí)驗(yàn)數(shù)據(jù)c.txt 圖7 實(shí)驗(yàn)數(shù)據(jù)d.txt 4.2.1實(shí)驗(yàn)結(jié)果 將實(shí)驗(yàn)數(shù)據(jù)a.txt,b.txt,c.txt,d.txt,進(jìn)行比較,其中b.txt和a.txt的正反比較以及a.txt和a.txt的比較為對(duì)照比較。 表1 實(shí)驗(yàn)結(jié)果 將實(shí)驗(yàn)結(jié)果對(duì)照的結(jié)果用表1和圖8表示出來(lái)。 圖8 實(shí)驗(yàn)結(jié)果折線圖 4.2.2實(shí)驗(yàn)結(jié)果分析 Simhash算法,對(duì)于一篇文章,用分詞的方式將它分出詞來(lái),然后將這些詞Hash一次,得到n位長(zhǎng)度的Hash值,Hash值為1的,特征向量就為1,當(dāng)Hash值為0,特征向量就為-1,如果要考慮權(quán)重,就在特征向量基礎(chǔ)上乘以權(quán)重,就是這個(gè)詞的向量值,一篇文檔的所有詞的向量累加,這個(gè)向量為全文主向量,大于或等于零的分量,映射為1,小于0的,映射為0,這相關(guān)得出全文的Hash值,這個(gè)叫全文的簽名。 對(duì)于文本a.txt和b.txt,它們本身只有幾個(gè)單詞的細(xì)微差別,對(duì)于整個(gè)文本而言是很少的Simhash1計(jì)算結(jié)果為0.971627,該結(jié)果準(zhǔn)確度較低;Simhash2的計(jì)算結(jié)果為0.999939,該結(jié)果的準(zhǔn)確度相當(dāng)高;余弦算法VSM的計(jì)算結(jié)果為0.993358,該結(jié)果的精確度也是比較高的。對(duì)于文本a.txt和c.txt因?yàn)樗鼈冎g的聯(lián)系度非常之低,可以進(jìn)行結(jié)果比較三種算法的準(zhǔn)確度。Simhash1的計(jì)算結(jié)果為0.027991,雖然由于精度的原因該結(jié)果還是比較準(zhǔn)確度;Simhash2的計(jì)算結(jié)果為0.000486,該結(jié)果是非常準(zhǔn)確的;余弦算法VSM的結(jié)果為0.405043,該結(jié)果就非常不準(zhǔn)確了。如數(shù)據(jù)所示,Simhash1與Simhash2相比較而言,由于C++中l(wèi)ong long的數(shù)據(jù)限制使2進(jìn)制10串的長(zhǎng)度低于Python中128位的2進(jìn)制10串,所以導(dǎo)致計(jì)算結(jié)果的不穩(wěn)定,而余弦算 法,因?yàn)槠渌惴ū旧淼脑?其算法的準(zhǔn)確度和Simhash1與Simhash2就相差很遠(yuǎn)。 因此可以得出結(jié)論,余弦算法VSM由于其局限性已經(jīng)不適合進(jìn)行文本的相似度計(jì)算。而Simhash算法不管是因?yàn)镃++的精度問題還是直接Python進(jìn)行的128高精度計(jì)算都可以看出該基于概率的算法的高準(zhǔn)確度具備可行性。 本文對(duì)現(xiàn)有的兩種文本相似度計(jì)算方法VSM和Simhash進(jìn)行研究,通過對(duì)文本進(jìn)行Simhash1(C++),Simhash2(Python),余弦算法的計(jì)算,得出這兩種方法的優(yōu)劣性,余弦算法VSM不適合進(jìn)行文本的相似度計(jì)算,而Simhash算法基于概率的高準(zhǔn)確度具有可行性,可以借此來(lái)給相關(guān)的應(yīng)用提供參考,提高文本相似度計(jì)算的精度和有效性。 參 考 文 獻(xiàn) [1] 宋玲,馬軍,連莉,等.文檔相似度綜合計(jì)算研究[J].計(jì)算機(jī)工程與應(yīng)用,2006,30:160-163. SONG Ling, MA Jun, LIAN Li, et al. The comprehensive computing research on document similarity[J]. Computer Engineering and Applications,2006,30:160-163. [2] 劉麗珍,宋瀚濤.文本分類中的特征選取[J].計(jì)算機(jī)工程,2004,30(4):14-15. LIU Lizhen, SONG Hantao. The feature selection oftext classification[J]. Computer Engineering,2004,30(4):14-15. [3] Salton G, Wong A, Yang C S. A vector space model for automatic indexing[J]. Communications of the ACM,1975,18(11):613-620. [4] Wong S K M, Ziarko W, Wong P C N. Generalized vector spaces model in information retrieval[C]//Proceedings of the 8th annual international ACM SIGIR conference on Research and development in information retrieval. ACM,1985:18-25. [5] Deerwester S C, Dumais S T, Landauer T K, et al. Indexing by latent semantic analysis[J]. JAsIs,1990,41(6):391-407. [6] Oleshchuk V, Pedersen A. Ontology based semantic similarity comparison ofdocuments[C]//Proceedings of the 14th International Workshop on Database and Expert Systems Applications. IEEE,2003:735-738. [7] Charikar M S. Similarity estimation techniques from rounding algorithms[C]//Proceedings of the thiry-fourth annual ACM symposium on Theory of Computing. ACM,2002:380-388. [8] 張煥炯,王國(guó)勝,鐘義信.基于漢明距離的文本相度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2001,21(2):21-22. ZHANG Huanjiong, WANG Guosheng, ZHONG Yixin. The text similarity calculation based on hamming distance[J]. Computer Engineering and Applications,2001,21(2):21-22. [9] 晉耀紅.基于語(yǔ)境框架的文本相似度計(jì)算[J].計(jì)算機(jī)工程與應(yīng)用,2004,16:36-39. JIN Yaohong. The text similarity calculation based on thecontext framework[J]. Computer Engineering and Applications,2004,16:36-39. [10] 曹恬,周麗,張國(guó)煊.一種基于詞共現(xiàn)的文本似度計(jì)算[J].計(jì)算機(jī)工程與科學(xué),2008,29(3):52-53. CAO Tian, ZHOU Li, ZHANG Guoxuan. A kind of textsimilarity computing based on wordco-occurrence[J]. Computer Engineering and Applications,2008,29(3):52-53. [11] 王振振,何明,杜永萍.基于LDA主題模型的文本相似度計(jì)算[J].計(jì)算機(jī)科學(xué),2013,12:229-232. WANG Zhenzhen, HE Ming, DU Yongping. The text similarity calculation based on the LDA theme model[J]. Computer Science,2013,12:229-232. 收稿日期:2015年10月7日,修回日期:2015年11月23日 基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目“高可靠服務(wù)組合快速優(yōu)化方法研究”(編號(hào):61172084)資助。 作者簡(jiǎn)介:王格,女,碩士研究生,研究方向:智能計(jì)算及應(yīng)用。吳釗,男,博士研究生,教授,碩士生導(dǎo)師,研究方向:云計(jì)算、物聯(lián)網(wǎng)、大數(shù)據(jù)處理。李向,男,博士研究生,副教授,碩士生導(dǎo)師,研究方向:智能計(jì)算及應(yīng)用。 中圖分類號(hào)TP301.6 DOI:10.3969/j.issn.1672-9722.2016.04.001 Application of Text Similar Algorithm Based on Full-text Retrieval WANG Ge1,2WU Zhao1LI Xiang2 (1. School of Mathematics and Computer Science, Hubei University of Arts and Science, Xiangyang441053)(2. School of Computer Science and Technology, China University of Geosciences, Wuhan430074) AbstractIn a large number of text data, due to the problem that it can’t quickly and efficiently find useful information and knowledge, text data mining on the basis of the text similarity calculation becomes an important research topic in the field of data mining. In this paper, Simhash and VSM cosine algorithm are used to realize the text similarity calculation. First, the traditional VSM cosine algorithm and Simhash algorithm are adopted to calculate the degree of similarity between the text size n(0 Key Wordstext similarity, cosine VSM, Simhash1 引言
2 VSM算法
3 Simhash算法
4 實(shí)驗(yàn)結(jié)果以及結(jié)果分析
5 結(jié)語(yǔ)