国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向協(xié)調(diào)搜索的文本相似度計(jì)算方法

2014-08-14 00:13孫程程李愛平黃九鳴
電腦知識與技術(shù) 2014年19期
關(guān)鍵詞:相似度

孫程程+李愛平+黃九鳴

摘要:近年來文本相似度計(jì)算在文本聚類、智能檢索、網(wǎng)頁問答、結(jié)果去重等其他許多自然語言處理領(lǐng)域具有舉足輕重的地位,尤其是在搜索引擎中。該文簡單論述了文本相似度計(jì)算的常用方法,以及本系統(tǒng)如何利用文本相似度計(jì)算判斷多文本的同一性。更重要的是提出了迭代搜索的概念,進(jìn)一步細(xì)化信息檢索工作,盡可能確保信息檢索的正確性,提高效率,解放人工。

關(guān)鍵詞:空間向量;相似度;迭代搜索

中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)19-4460-03

Text Similarity Calculation Based on Search System

SUN Cheng-cheng, LI Ai-ping, HUANG Jiu-ming

(National University of Defense Technology, Changsha 410000, China)

Abstract: In recent years, text similarity calculation has played a decisive role in text clustering, Web intelligent information retrieval, question answering system, Webpage duplicate removal, Natural Language Processing and many other files, especially in the search engine. This article briefly discusses the commonly used methods of text similarity computing, as well as the system of how to use text similarity calculation to determine the same multiple text. More important thing is proposing the concept of the iterative search, which made further refining information retrieval, as far as possible to ensure correctness, information retrieval to improve the efficiency, the liberation of artificial.

Key words: space vector; similarity; iterative search

1 概述

經(jīng)濟(jì)的發(fā)展使得計(jì)算機(jī)走進(jìn)了千家萬戶,成為了人們?nèi)粘9ぷ?、生活中獲取信息,了解新聞資訊,甚至是購物等的重要幫手。網(wǎng)絡(luò)的發(fā)展給人們的生活帶來了極大的便利,從網(wǎng)上查找信息與看報(bào)紙、聽新聞相比更加快捷和全面,越來越多的網(wǎng)民習(xí)慣于一鍵上網(wǎng),獲取所需的資訊。然而,我們都曾經(jīng)或正在遭受著TB級數(shù)據(jù)的困擾,如何快速在這浩如煙海的信息中,快速準(zhǔn)確的獲取相關(guān)信息不僅僅能夠節(jié)省大量的時間,提高工作效率,也是測評搜索系統(tǒng)性能的關(guān)鍵。又由于漢語具有的不同于英文的獨(dú)特的特點(diǎn),使得針對于漢語言的具有針對性的搜索更加富有挑戰(zhàn)性。為了提升系統(tǒng)性能,滿足用戶從互聯(lián)網(wǎng)上得到對于特定問題更精確的答案,本系統(tǒng)應(yīng)用余弦向量計(jì)算出依據(jù)用戶搜索條件返回的文本之間的相似度,去除無關(guān)重要的噪音信息,確保系統(tǒng)的可靠性能。通常情況來說,由于搜索條件單一或者不準(zhǔn)確等問題會影響初次搜索結(jié)果的準(zhǔn)確性和深度,為了得到更多更全面的信息,我們往往要進(jìn)行多次迭代搜索。傳統(tǒng)做法中,一般都是利用人工在搜索返回的結(jié)果中反復(fù)比對,判斷是否是相同信息,或者說是否是搜索的目標(biāo)信息,為了保證結(jié)果的準(zhǔn)確性,必然要耗費(fèi)大量的人力和時間。

本系統(tǒng)應(yīng)用文本相似度計(jì)算就是要將人工從大量繁瑣的信息檢索和比對過程中釋放出來,同時保證結(jié)果準(zhǔn)確。雖然人工干預(yù)仍然是不可避免的,但是能夠大大減少成本開銷就是不容忽視的進(jìn)步。我們用文本相似度來表示兩個或者多個文本之間的匹配程度,相似度值是由0~1之間的數(shù)字來表示,相似度值越接近1,我們就認(rèn)為待比較的文本之間的相似度就越高,反之,如果相似度值越接近0,我們則認(rèn)為待比較文本之間的相似度就越低。文本相似度計(jì)算不僅僅應(yīng)用在文本聚類、智能搜索等方面,更是在網(wǎng)頁去重等很多自然語言處理領(lǐng)域中被廣泛使用。能否有效的計(jì)算文本相似度是問題是否能解決的關(guān)鍵。本系統(tǒng)中文本相似度計(jì)算應(yīng)用于判斷搜索到的網(wǎng)頁信息之間的相關(guān)程度,以提升智能化程度。

2 傳統(tǒng)的基于向量空間的文本相似度計(jì)算

伴隨著計(jì)算機(jī)技術(shù)的發(fā)展,人們越來越重視文本相似度的計(jì)算,到目前為止,已經(jīng)完成了很多的算法研究,也有不同的側(cè)重點(diǎn),如Saton等研究的信息索引方法,用來計(jì)算短語與篇章之間的相似度[1];Willett研究的文檔分類算法,用來計(jì)算篇章與篇章之間的相似度[2];Callan研究的文章段落檢索等[3]。用到的文本相似度計(jì)算方法均是基于統(tǒng)計(jì)學(xué)的計(jì)算方法:向量空間模型、廣義向量空間模型、隱性語義索引模型、基于屬性論的方法、基于海明距離的計(jì)算方法、基于數(shù)字正文的重構(gòu)方法等。這些方法均是基于大規(guī)模語料庫和長時間的訓(xùn)練得到實(shí)驗(yàn)數(shù)據(jù),具有很大的局限性。本系統(tǒng)中使用的是基于TF-IDF算法的空間向量模型,最大的不同之處在于,其他方法無論是研究篇章與篇章還是其他應(yīng)用,都是判斷較少文本之間的相似度,本系統(tǒng)立足于信息檢索需求,圍繞共同的事件或是其他搜索條件,進(jìn)行信息搜索。相似度計(jì)算的目的是從返回的搜索返回的大量的文本中判斷相似度,便于用戶快速定位目的信息,給用戶更好的使用體驗(yàn)。endprint

在比較個兩個文本相似度時,常用的基于向量空間的計(jì)算公式是根據(jù)歐幾里得點(diǎn)積和量級公式推導(dǎo):

[a?b=a?b?cosθ]

得到相似度計(jì)算公式:

[Similarity=cosθ=A?BA?B=ni=1Ai+Bini=1Ai2ni=1Bi2]

通過測量兩個向量內(nèi)機(jī)的夾角的余弦值來度量他們之間的相似性,如圖1:

圖1 余弦向量相似度模型

一般情況下來說,對于兩篇給定的文檔,如果經(jīng)過文本預(yù)處理后得到的所有特征詞都相同,那么我們就可以說,這兩個文檔相似度值為1;反之,如果所有特征值都不相同,我們就說,這兩個文檔相似度為0。通常來說,這種方法就可以判斷出兩篇或者少量文本之間的相似度。但是由于這種計(jì)算方法,忽略了同一特征詞在不同文檔中的詞頻,權(quán)重計(jì)算的策略過于簡單,計(jì)算出來的結(jié)果往往不夠準(zhǔn)確。

例如,A和B是兩篇待計(jì)算的文檔,表1中的兩篇文檔有三個詞匯是相同的,根據(jù)以上算法,則兩篇文檔的相似度是極高的。但是從表中我們可以看到,文檔A中詞頻數(shù)最高的是E,其次是D,在文檔B中詞頻數(shù)都為0,文檔B中詞頻數(shù)最高的是G,在文檔A中的詞頻數(shù)同樣為0,如果簡單按照相同特征詞數(shù)量進(jìn)行比對必然會不恰當(dāng)。

表1 兩篇文檔詞匯詞頻對照

[文檔 詞匯\&D\&E\&F\&G\&H\&I\&A\&3\&5\&1\&0\&1\&1\&B\&0\&0\&1\&5\&1\&1\&]

在現(xiàn)有系統(tǒng)中,如果只考慮詞頻數(shù)后的搜索結(jié)果如圖1所示。

3 基于TF-IDF算法的空間向量模型

TF-IDF(term frequency—inverse document frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)。它是一種基于統(tǒng)計(jì)的,評估某個字詞對于特定的文件集或者語料集中某個文檔的重要程度的方法。

TF-IDF實(shí)際上是:TF * IDF,算法的主要思想是利用詞頻來進(jìn)行分了,經(jīng)常與Cosine算法一起來計(jì)算文本相似度。最常用的TF-IDF算法為:

[TF-IDF= 某個詞在文章中的出現(xiàn)次數(shù)文章的總次數(shù) ×log文檔總數(shù)包含該詞的文檔總數(shù)+1]

將改進(jìn)后的算法應(yīng)用到系統(tǒng)中后,明顯感覺到計(jì)算結(jié)果的改變。

圖2

雖然引入TF-IDF后的結(jié)果,還有一定的不足,精確度還有待提升,但是我們可以很清楚的看到,在同一事件分類上,已經(jīng)能夠更大程度的減少人工干預(yù),雖有不足,但依然可取。

4 迭代查詢中的文本相似度計(jì)算

為了使檢索結(jié)果更加精確化,我們在系統(tǒng)中引入了迭代搜索的概念。為了查找我們想要的信息,啟動搜索系統(tǒng)后我們鍵入預(yù)先設(shè)定的搜索條件,由于搜索語言表述的不精確等原因,通常無法一次就能完成信息檢索。我們在系統(tǒng)中提出了迭代搜索的功能,當(dāng)用戶再次搜索時,系統(tǒng)將根據(jù)初次檢索的結(jié)果計(jì)算后得到的查詢條件提供給用戶,用戶可以挑選這些查詢條件進(jìn)行迭代搜索,搜索結(jié)束后,系統(tǒng)將自動比對當(dāng)次返回結(jié)果與最初返回結(jié)果的相似度,根據(jù)返回結(jié)果判斷是否是同一事件。

在保證準(zhǔn)確性和提高效率的基礎(chǔ)上,這一過程最大程度上節(jié)省了人力和時間開銷,當(dāng)然關(guān)鍵信息不可避免的要摻雜人工干預(yù),雖然不能徹底將人工從信息檢索過程中解放出來,但是對于搜索系統(tǒng)性能提升具有重大意義。這一信息檢索提示功能類似于百度搜索引擎中的相關(guān)信息提示,不同的是,百度中的提示關(guān)鍵詞是根據(jù)海量用戶搜索整理出的詞頻算計(jì)的出,需要龐大的知識庫做后盾,本系統(tǒng)中的搜索條件推薦,是根據(jù)用戶的搜索意愿計(jì)算得出,具有鮮明的用戶傾向。

為了測試系統(tǒng)中條件生成策略是否正確,我們組織人力進(jìn)行大量的實(shí)驗(yàn)。首先,從網(wǎng)絡(luò)新聞中篩選出200個事件集,作為搜索的輸入條件,經(jīng)過大量反復(fù)的試驗(yàn)后,最終確定了推薦條件生成的最優(yōu)策略。

因此文本相似度計(jì)算的精確度是整個過程的關(guān)鍵點(diǎn),是整個系統(tǒng)性能和效率的保證,在日后的工作中,將致力于文本相似度計(jì)算,尤其是在同一事件研判方面,以求極大程度將人工從浩瀚的數(shù)據(jù)中解放出來。

(下轉(zhuǎn)第4485頁)

(上接第4462頁)

5 結(jié)束語

本文通過實(shí)驗(yàn)驗(yàn)證了不同算法下文本相似度計(jì)算的結(jié)果,證明了用這種方法判斷同一事件的可行性,并指出了缺點(diǎn)。提出了多次搜索基礎(chǔ)上的信息獲取,當(dāng)然有很多的不足之處,還亟待解決。后續(xù)工作將致力于解決實(shí)際應(yīng)用過程中出現(xiàn)的各種問題,不斷完善算法,期望得到更好的識別效果,提高效率和精確度,逐步將人工從信息搜索中解放出來。

參考文獻(xiàn):

[1] SALTONG, BUCKLEYC. Term-Weightingapproaches in automatic text retrieval[J]. Inf Processand Manage,1988,24(5):513-523.

[2] WILLETTP.Recent trends in hierarchicaldocument clustering, a criticalrevieW [J]. Inf Processand Manage,1988,24(5):577-597.

[3] CALLAN JP.Passage-levelevidenceindocumentretrieval [C]//Proceedings of the SeventeenthAnnualInternational ACM SIGIR Conference on Researchand Developmentin Information Retrieval.Dublin,1994:302-310.

[4] 李星毅,曾路平,施化吉.基于單詞相似度的文本聚類[J].計(jì)算機(jī)工程與設(shè)計(jì),2009(8):1966-1968.

[5] 茍恩東,顏偉.基于語義網(wǎng)計(jì)算英語詞語相似度[J].情報(bào)學(xué)報(bào),2006(1):43-48.

[6] 涂新輝,張紅春.中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計(jì)算方法[J].中文信息學(xué)報(bào),2012(5):109-115.

[7] Clement Farabet,Camille Couprie,Laurent Najman,et al.Learning Hierarchical Features for Scene Labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013.

[8] 馬帥,王騰蛟,唐世渭,等.一種基于參考點(diǎn)和密度的快速聚類算法[J].軟件學(xué)報(bào),2003,14(6):1089-1095.

[9] 王玲,薄列峰,焦李成.密度敏感的半監(jiān)督譜聚類[J].軟件學(xué)報(bào),2007,18(10):2412-2422.

[10] 趙鵬,蔡慶生.一種基于《知網(wǎng)》的中文文本聚類算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(12):162-163.

在比較個兩個文本相似度時,常用的基于向量空間的計(jì)算公式是根據(jù)歐幾里得點(diǎn)積和量級公式推導(dǎo):

[a?b=a?b?cosθ]

得到相似度計(jì)算公式:

[Similarity=cosθ=A?BA?B=ni=1Ai+Bini=1Ai2ni=1Bi2]

通過測量兩個向量內(nèi)機(jī)的夾角的余弦值來度量他們之間的相似性,如圖1:

圖1 余弦向量相似度模型

一般情況下來說,對于兩篇給定的文檔,如果經(jīng)過文本預(yù)處理后得到的所有特征詞都相同,那么我們就可以說,這兩個文檔相似度值為1;反之,如果所有特征值都不相同,我們就說,這兩個文檔相似度為0。通常來說,這種方法就可以判斷出兩篇或者少量文本之間的相似度。但是由于這種計(jì)算方法,忽略了同一特征詞在不同文檔中的詞頻,權(quán)重計(jì)算的策略過于簡單,計(jì)算出來的結(jié)果往往不夠準(zhǔn)確。

例如,A和B是兩篇待計(jì)算的文檔,表1中的兩篇文檔有三個詞匯是相同的,根據(jù)以上算法,則兩篇文檔的相似度是極高的。但是從表中我們可以看到,文檔A中詞頻數(shù)最高的是E,其次是D,在文檔B中詞頻數(shù)都為0,文檔B中詞頻數(shù)最高的是G,在文檔A中的詞頻數(shù)同樣為0,如果簡單按照相同特征詞數(shù)量進(jìn)行比對必然會不恰當(dāng)。

表1 兩篇文檔詞匯詞頻對照

[文檔 詞匯\&D\&E\&F\&G\&H\&I\&A\&3\&5\&1\&0\&1\&1\&B\&0\&0\&1\&5\&1\&1\&]

在現(xiàn)有系統(tǒng)中,如果只考慮詞頻數(shù)后的搜索結(jié)果如圖1所示。

3 基于TF-IDF算法的空間向量模型

TF-IDF(term frequency—inverse document frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)。它是一種基于統(tǒng)計(jì)的,評估某個字詞對于特定的文件集或者語料集中某個文檔的重要程度的方法。

TF-IDF實(shí)際上是:TF * IDF,算法的主要思想是利用詞頻來進(jìn)行分了,經(jīng)常與Cosine算法一起來計(jì)算文本相似度。最常用的TF-IDF算法為:

[TF-IDF= 某個詞在文章中的出現(xiàn)次數(shù)文章的總次數(shù) ×log文檔總數(shù)包含該詞的文檔總數(shù)+1]

將改進(jìn)后的算法應(yīng)用到系統(tǒng)中后,明顯感覺到計(jì)算結(jié)果的改變。

圖2

雖然引入TF-IDF后的結(jié)果,還有一定的不足,精確度還有待提升,但是我們可以很清楚的看到,在同一事件分類上,已經(jīng)能夠更大程度的減少人工干預(yù),雖有不足,但依然可取。

4 迭代查詢中的文本相似度計(jì)算

為了使檢索結(jié)果更加精確化,我們在系統(tǒng)中引入了迭代搜索的概念。為了查找我們想要的信息,啟動搜索系統(tǒng)后我們鍵入預(yù)先設(shè)定的搜索條件,由于搜索語言表述的不精確等原因,通常無法一次就能完成信息檢索。我們在系統(tǒng)中提出了迭代搜索的功能,當(dāng)用戶再次搜索時,系統(tǒng)將根據(jù)初次檢索的結(jié)果計(jì)算后得到的查詢條件提供給用戶,用戶可以挑選這些查詢條件進(jìn)行迭代搜索,搜索結(jié)束后,系統(tǒng)將自動比對當(dāng)次返回結(jié)果與最初返回結(jié)果的相似度,根據(jù)返回結(jié)果判斷是否是同一事件。

在保證準(zhǔn)確性和提高效率的基礎(chǔ)上,這一過程最大程度上節(jié)省了人力和時間開銷,當(dāng)然關(guān)鍵信息不可避免的要摻雜人工干預(yù),雖然不能徹底將人工從信息檢索過程中解放出來,但是對于搜索系統(tǒng)性能提升具有重大意義。這一信息檢索提示功能類似于百度搜索引擎中的相關(guān)信息提示,不同的是,百度中的提示關(guān)鍵詞是根據(jù)海量用戶搜索整理出的詞頻算計(jì)的出,需要龐大的知識庫做后盾,本系統(tǒng)中的搜索條件推薦,是根據(jù)用戶的搜索意愿計(jì)算得出,具有鮮明的用戶傾向。

為了測試系統(tǒng)中條件生成策略是否正確,我們組織人力進(jìn)行大量的實(shí)驗(yàn)。首先,從網(wǎng)絡(luò)新聞中篩選出200個事件集,作為搜索的輸入條件,經(jīng)過大量反復(fù)的試驗(yàn)后,最終確定了推薦條件生成的最優(yōu)策略。

因此文本相似度計(jì)算的精確度是整個過程的關(guān)鍵點(diǎn),是整個系統(tǒng)性能和效率的保證,在日后的工作中,將致力于文本相似度計(jì)算,尤其是在同一事件研判方面,以求極大程度將人工從浩瀚的數(shù)據(jù)中解放出來。

(下轉(zhuǎn)第4485頁)

(上接第4462頁)

5 結(jié)束語

本文通過實(shí)驗(yàn)驗(yàn)證了不同算法下文本相似度計(jì)算的結(jié)果,證明了用這種方法判斷同一事件的可行性,并指出了缺點(diǎn)。提出了多次搜索基礎(chǔ)上的信息獲取,當(dāng)然有很多的不足之處,還亟待解決。后續(xù)工作將致力于解決實(shí)際應(yīng)用過程中出現(xiàn)的各種問題,不斷完善算法,期望得到更好的識別效果,提高效率和精確度,逐步將人工從信息搜索中解放出來。

參考文獻(xiàn):

[1] SALTONG, BUCKLEYC. Term-Weightingapproaches in automatic text retrieval[J]. Inf Processand Manage,1988,24(5):513-523.

[2] WILLETTP.Recent trends in hierarchicaldocument clustering, a criticalrevieW [J]. Inf Processand Manage,1988,24(5):577-597.

[3] CALLAN JP.Passage-levelevidenceindocumentretrieval [C]//Proceedings of the SeventeenthAnnualInternational ACM SIGIR Conference on Researchand Developmentin Information Retrieval.Dublin,1994:302-310.

[4] 李星毅,曾路平,施化吉.基于單詞相似度的文本聚類[J].計(jì)算機(jī)工程與設(shè)計(jì),2009(8):1966-1968.

[5] 茍恩東,顏偉.基于語義網(wǎng)計(jì)算英語詞語相似度[J].情報(bào)學(xué)報(bào),2006(1):43-48.

[6] 涂新輝,張紅春.中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計(jì)算方法[J].中文信息學(xué)報(bào),2012(5):109-115.

[7] Clement Farabet,Camille Couprie,Laurent Najman,et al.Learning Hierarchical Features for Scene Labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013.

[8] 馬帥,王騰蛟,唐世渭,等.一種基于參考點(diǎn)和密度的快速聚類算法[J].軟件學(xué)報(bào),2003,14(6):1089-1095.

[9] 王玲,薄列峰,焦李成.密度敏感的半監(jiān)督譜聚類[J].軟件學(xué)報(bào),2007,18(10):2412-2422.

[10] 趙鵬,蔡慶生.一種基于《知網(wǎng)》的中文文本聚類算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(12):162-163.

在比較個兩個文本相似度時,常用的基于向量空間的計(jì)算公式是根據(jù)歐幾里得點(diǎn)積和量級公式推導(dǎo):

[a?b=a?b?cosθ]

得到相似度計(jì)算公式:

[Similarity=cosθ=A?BA?B=ni=1Ai+Bini=1Ai2ni=1Bi2]

通過測量兩個向量內(nèi)機(jī)的夾角的余弦值來度量他們之間的相似性,如圖1:

圖1 余弦向量相似度模型

一般情況下來說,對于兩篇給定的文檔,如果經(jīng)過文本預(yù)處理后得到的所有特征詞都相同,那么我們就可以說,這兩個文檔相似度值為1;反之,如果所有特征值都不相同,我們就說,這兩個文檔相似度為0。通常來說,這種方法就可以判斷出兩篇或者少量文本之間的相似度。但是由于這種計(jì)算方法,忽略了同一特征詞在不同文檔中的詞頻,權(quán)重計(jì)算的策略過于簡單,計(jì)算出來的結(jié)果往往不夠準(zhǔn)確。

例如,A和B是兩篇待計(jì)算的文檔,表1中的兩篇文檔有三個詞匯是相同的,根據(jù)以上算法,則兩篇文檔的相似度是極高的。但是從表中我們可以看到,文檔A中詞頻數(shù)最高的是E,其次是D,在文檔B中詞頻數(shù)都為0,文檔B中詞頻數(shù)最高的是G,在文檔A中的詞頻數(shù)同樣為0,如果簡單按照相同特征詞數(shù)量進(jìn)行比對必然會不恰當(dāng)。

表1 兩篇文檔詞匯詞頻對照

[文檔 詞匯\&D\&E\&F\&G\&H\&I\&A\&3\&5\&1\&0\&1\&1\&B\&0\&0\&1\&5\&1\&1\&]

在現(xiàn)有系統(tǒng)中,如果只考慮詞頻數(shù)后的搜索結(jié)果如圖1所示。

3 基于TF-IDF算法的空間向量模型

TF-IDF(term frequency—inverse document frequency)是一種用于資訊檢索與文本挖掘的常用加權(quán)技術(shù)。它是一種基于統(tǒng)計(jì)的,評估某個字詞對于特定的文件集或者語料集中某個文檔的重要程度的方法。

TF-IDF實(shí)際上是:TF * IDF,算法的主要思想是利用詞頻來進(jìn)行分了,經(jīng)常與Cosine算法一起來計(jì)算文本相似度。最常用的TF-IDF算法為:

[TF-IDF= 某個詞在文章中的出現(xiàn)次數(shù)文章的總次數(shù) ×log文檔總數(shù)包含該詞的文檔總數(shù)+1]

將改進(jìn)后的算法應(yīng)用到系統(tǒng)中后,明顯感覺到計(jì)算結(jié)果的改變。

圖2

雖然引入TF-IDF后的結(jié)果,還有一定的不足,精確度還有待提升,但是我們可以很清楚的看到,在同一事件分類上,已經(jīng)能夠更大程度的減少人工干預(yù),雖有不足,但依然可取。

4 迭代查詢中的文本相似度計(jì)算

為了使檢索結(jié)果更加精確化,我們在系統(tǒng)中引入了迭代搜索的概念。為了查找我們想要的信息,啟動搜索系統(tǒng)后我們鍵入預(yù)先設(shè)定的搜索條件,由于搜索語言表述的不精確等原因,通常無法一次就能完成信息檢索。我們在系統(tǒng)中提出了迭代搜索的功能,當(dāng)用戶再次搜索時,系統(tǒng)將根據(jù)初次檢索的結(jié)果計(jì)算后得到的查詢條件提供給用戶,用戶可以挑選這些查詢條件進(jìn)行迭代搜索,搜索結(jié)束后,系統(tǒng)將自動比對當(dāng)次返回結(jié)果與最初返回結(jié)果的相似度,根據(jù)返回結(jié)果判斷是否是同一事件。

在保證準(zhǔn)確性和提高效率的基礎(chǔ)上,這一過程最大程度上節(jié)省了人力和時間開銷,當(dāng)然關(guān)鍵信息不可避免的要摻雜人工干預(yù),雖然不能徹底將人工從信息檢索過程中解放出來,但是對于搜索系統(tǒng)性能提升具有重大意義。這一信息檢索提示功能類似于百度搜索引擎中的相關(guān)信息提示,不同的是,百度中的提示關(guān)鍵詞是根據(jù)海量用戶搜索整理出的詞頻算計(jì)的出,需要龐大的知識庫做后盾,本系統(tǒng)中的搜索條件推薦,是根據(jù)用戶的搜索意愿計(jì)算得出,具有鮮明的用戶傾向。

為了測試系統(tǒng)中條件生成策略是否正確,我們組織人力進(jìn)行大量的實(shí)驗(yàn)。首先,從網(wǎng)絡(luò)新聞中篩選出200個事件集,作為搜索的輸入條件,經(jīng)過大量反復(fù)的試驗(yàn)后,最終確定了推薦條件生成的最優(yōu)策略。

因此文本相似度計(jì)算的精確度是整個過程的關(guān)鍵點(diǎn),是整個系統(tǒng)性能和效率的保證,在日后的工作中,將致力于文本相似度計(jì)算,尤其是在同一事件研判方面,以求極大程度將人工從浩瀚的數(shù)據(jù)中解放出來。

(下轉(zhuǎn)第4485頁)

(上接第4462頁)

5 結(jié)束語

本文通過實(shí)驗(yàn)驗(yàn)證了不同算法下文本相似度計(jì)算的結(jié)果,證明了用這種方法判斷同一事件的可行性,并指出了缺點(diǎn)。提出了多次搜索基礎(chǔ)上的信息獲取,當(dāng)然有很多的不足之處,還亟待解決。后續(xù)工作將致力于解決實(shí)際應(yīng)用過程中出現(xiàn)的各種問題,不斷完善算法,期望得到更好的識別效果,提高效率和精確度,逐步將人工從信息搜索中解放出來。

參考文獻(xiàn):

[1] SALTONG, BUCKLEYC. Term-Weightingapproaches in automatic text retrieval[J]. Inf Processand Manage,1988,24(5):513-523.

[2] WILLETTP.Recent trends in hierarchicaldocument clustering, a criticalrevieW [J]. Inf Processand Manage,1988,24(5):577-597.

[3] CALLAN JP.Passage-levelevidenceindocumentretrieval [C]//Proceedings of the SeventeenthAnnualInternational ACM SIGIR Conference on Researchand Developmentin Information Retrieval.Dublin,1994:302-310.

[4] 李星毅,曾路平,施化吉.基于單詞相似度的文本聚類[J].計(jì)算機(jī)工程與設(shè)計(jì),2009(8):1966-1968.

[5] 茍恩東,顏偉.基于語義網(wǎng)計(jì)算英語詞語相似度[J].情報(bào)學(xué)報(bào),2006(1):43-48.

[6] 涂新輝,張紅春.中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計(jì)算方法[J].中文信息學(xué)報(bào),2012(5):109-115.

[7] Clement Farabet,Camille Couprie,Laurent Najman,et al.Learning Hierarchical Features for Scene Labeling[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2013.

[8] 馬帥,王騰蛟,唐世渭,等.一種基于參考點(diǎn)和密度的快速聚類算法[J].軟件學(xué)報(bào),2003,14(6):1089-1095.

[9] 王玲,薄列峰,焦李成.密度敏感的半監(jiān)督譜聚類[J].軟件學(xué)報(bào),2007,18(10):2412-2422.

[10] 趙鵬,蔡慶生.一種基于《知網(wǎng)》的中文文本聚類算法的研究[J].計(jì)算機(jī)工程與應(yīng)用,2007,43(12):162-163.

猜你喜歡
相似度
改進(jìn)的協(xié)同過濾推薦算法
模糊Petri網(wǎng)在油田開發(fā)設(shè)計(jì)領(lǐng)域的應(yīng)用研究
相似度算法在源程序比較中的應(yīng)用
基于混合信任模型的協(xié)同過濾推薦算法
基于灰度的圖像邊緣檢測與匹配算法的研究
句子比較相似度的算法實(shí)現(xiàn)?
影響母線負(fù)荷預(yù)測的因素及改進(jìn)措施
基于粗糙集的麗江房價(jià)研究
一種基于深網(wǎng)的個性化信息爬取方法
咳喘顆粒HPLC指紋圖譜研究
新龙县| 内丘县| 新干县| 祁东县| 合肥市| 通渭县| 武陟县| 武强县| 龙里县| 乐亭县| 吉安市| 盐津县| 黔南| 广昌县| 东莞市| 河池市| 曲松县| 镇康县| 盐亭县| 武穴市| 永安市| 泊头市| 永登县| 渝北区| 宣恩县| 永顺县| 霍州市| 龙陵县| 宾阳县| 万荣县| 连江县| 商南县| 缙云县| 三穗县| 铁力市| 公安县| 玉龙| 巨鹿县| 宣化县| 霍州市| 三河市|