一種融合相關(guān)因素和時間因素的信息檢索算法研究

2018-01-30 07:15:22作者余泓賢湖南長沙市第一中學

電子制作 2017年16期

作者/余泓賢，湖南長沙市第一中學

引言

隨著信息技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及，大量的信息充斥在互聯(lián)網(wǎng)上，“信息過載”現(xiàn)象越來越嚴重。如何快速找到用戶需要的信息，如何充分有效利用互聯(lián)網(wǎng)上的信息成為目前亟待解決的問題。為此，如百度、Google等信息檢索工具以其科學性和實用性受到了人們的高度重視[1–3]。

信息檢索的提出在一定程度上緩解了“信息過載”帶來的挑戰(zhàn)，被認為是克服此問題的重要技術(shù)。先前對信息檢索的研究主要分為兩類，一類是對結(jié)構(gòu)化信息的檢索，即針對于存儲在例如Oracle、SQL Server和My SQL等關(guān)系型數(shù)據(jù)庫中，并按一定組織結(jié)構(gòu)存儲的數(shù)據(jù)進行檢索，此類研究已經(jīng)較為成熟，主要是利用結(jié)構(gòu)化查詢語言SQL（Structured Query Language）來對數(shù)據(jù)庫中存儲的數(shù)據(jù)進行檢索。另一種是針對于非結(jié)構(gòu)化信息數(shù)據(jù)的獲取，即為某信息需求檢索出最為匹配的信息條目，即有一個文檔集合D，對于由關(guān)鍵詞w[1]、w[2]….w[K]組成的字符串q，返回多個與查詢q相匹配的文檔。

傳統(tǒng)關(guān)于信息檢索的研究主要集中在計算信息需求與檢索條目的相關(guān)性上，而忽略了時間對于檢索效果的影響。因此，本研究認為人們在信息檢索的過程中，更傾向于獲取時間較新的文檔數(shù)據(jù)。本研究中，首先計算信息需求與數(shù)據(jù)條目的相關(guān)性，并以此為依據(jù)對數(shù)據(jù)條目進行排序，然后，用數(shù)據(jù)條目的發(fā)布時間去影響基于相關(guān)性的排序結(jié)果，最后，獲取排序位置在前信息作為檢索結(jié)果。

1.相關(guān)研究

目前廣泛應(yīng)用于信息檢索的技術(shù)有：結(jié)構(gòu)化查詢語言SQL、IF–IDF算法、布爾檢索模型、向量空間模型和主題模型。

1.1 結(jié)構(gòu)化查詢語言SQL

SQL[4]語言是目前廣泛應(yīng)用的，針對于關(guān)系型數(shù)據(jù)庫的檢索語言，主要有查詢、操縱和控制。數(shù)據(jù)查詢語言指對關(guān)系型數(shù)據(jù)庫中的數(shù)據(jù)進行檢索以及信息的讀??；數(shù)據(jù)操縱語言主要是對數(shù)據(jù)庫中的數(shù)據(jù)進行增加、刪除和更新；數(shù)據(jù)控制語言主要是指對訪問數(shù)據(jù)對象的用戶權(quán)限進行控制。

1.2 IF-IDF算法

TF–IDF[5,6](Term Frequency–Inverse Document Frequency)算法是信息檢索中常用詞匯加權(quán)技術(shù)。其主要思想是：如果某個詞或者短語在一個文檔中頻繁出現(xiàn)，而在其它文檔中很少出現(xiàn)，那么可以認為這個詞在該文檔中的權(quán)重很高，這個詞很具有區(qū)分能力，適合用來做為檢索的關(guān)鍵詞。TF–IDF實際為 TF＊IDF，TF(Term Frequency)為詞頻，指一個詞在目標文檔中出現(xiàn)的頻率；IDF(Inverse Document Frequency)表示逆向文件頻率，由語料庫總數(shù)除以包含該詞語的文件數(shù)目，再取對數(shù)得到該數(shù)值。

1.3 布爾檢索模型

布爾檢索模型[7]是借助于例如與、或和非等運算符找出相關(guān)信息條目的一種方法。假設(shè)有一文檔，標記為 Di(w1,w2,w3,w4,….wm），其中 w1,w2,w3,w4,….wm為能夠反映文檔Di的關(guān)鍵詞。設(shè)一用戶的檢索表達式為Q=(w1∧w2)∨( w1∧w2)，那么檢索出來的文檔應(yīng)該同時含有關(guān)鍵詞w1與關(guān)鍵詞w2，或者同時含有關(guān)鍵詞w3與關(guān)鍵詞w4。

1.4 向量空間模型

向量空間模型[8]把文本內(nèi)容映射到向量空間中，并且利用向量之間的余弦夾角來推斷文本之間的相似度，實現(xiàn)信息檢索。在向量空間模型中，我們首先依據(jù)布爾模型將查詢條件Q與檢索文檔集合D中的每一個文檔進行向量化，然后，計算兩者的余弦夾角，得分最高的為與查詢條件最相關(guān)的文檔。

1.5 主題模型

主題模型[9](Topic Model)是從一語料庫中挖掘出隱含的T主題，即一篇文章中所表達的中心意思。該模型認為一篇文檔的生成規(guī)則首先是從多個主題中抽取一個主題，然后從選中主題中抽取主題下面的一個詞，然后重復(fù)此過程，得到整個文檔集合。

2.研究方法

2.1 研究思路

本研究主要包括三個步驟：數(shù)據(jù)預(yù)處理、計算用戶信息需求與檢索項目的匹配度、按時間進行排序、獲取檢索結(jié)果。

（1）數(shù)據(jù)預(yù)處理：本研究首先利用IK Analyzer對用戶的信息需求和候選檢索條目進行分詞，然后利用停用詞表去掉常用詞和沒有實際指代意義的詞，最后利用TF－IDF計算每一個詞在特定文檔中的代表性。

（2）獲取被檢文檔的特征：本研究首先利用向量空間模型計算信息需求和候選檢索條目的相關(guān)性；然后，獲取被檢索文檔的發(fā)文時間。

（3）獲取檢索結(jié)果：本研究線性組合信息需求和被檢索文檔的相關(guān)性和時間來計算用戶信息需求與被檢索文檔的匹配度，并以此為依據(jù)獲取排序位置在前的信息作為檢索結(jié)果。

2.2 數(shù)據(jù)預(yù)處理

本研究首先利用IK Analyzer對用戶輸入的檢索需要和候檢文檔進行分詞，然后利用停用詞表去掉常用詞和沒有實際指代意義的詞，最后利用TF－IDF計算每一個詞在特定文檔中的代表性。其中，用戶輸入的信息需求表示為：Q=(q1,q2,q3….qn)其中，qn表示第n個字符的TF–IDF，同理，第i個侯檢文檔表示為Di(w1,w2,w3….wn)，其中，wi表示第i個單詞的TF–IDF值。

2.3 特征整合與檢索

本研究以用戶輸入的信息需求和被檢索文檔的相關(guān)性和時間因素來計算用戶信息需求與被檢索文檔的匹配度，并以此為依據(jù)獲取排序位置在前的信息作為檢索結(jié)果。因此，本研究首先引入向量空間模型來計算兩者信息需求Q與第i個被檢文檔的相關(guān)性，可標記為：

通常，檢索出來的文檔應(yīng)與信息需求相關(guān)性盡可能的高，并且檢索出來的文檔應(yīng)盡可能的新。因此，本研究提出RTUFIR(Relevance and Time Uniベcation Framework for Information Retrieve) 以融合信息需求和被檢文檔的相關(guān)性和時間兩個因素：

其中，λ控制最終遴選結(jié)果的偏向。TDi表示文檔Di的產(chǎn)生的時間，表示信息需求Q與被檢文檔D的主題相關(guān)性；當λ=1時，該檢索系統(tǒng)僅考慮時間因素；而當λ=0時，該檢索系統(tǒng)僅考慮兩者的相關(guān)性。

2.4 主要代碼

informationRe = readData(ベlePath);//獲取用戶輸入的信息

3.實驗結(jié)果分析

本研究從各大新聞網(wǎng)站上搜索到近五年的新聞條目作為候選檢索信息集合。同時，請四組被試分別對本研究提出的信息檢索算法與傳統(tǒng)基于VSM的檢索算法進行比較。其中，每組被試為10人，選擇前10條信息作為最終檢索結(jié)果。信息條目的評價分為三個等級，分別為滿意，基本滿意，不滿意，對應(yīng)的分值為5，2，1。用戶對算法的滿意程度如圖1所示，橫坐標表示四組被試，縱左邊表示檢索結(jié)果的平均滿意度。從圖1中可以看出，除第三組之外，其余各組的檢索滿意度均高于傳統(tǒng)模型。因此，可以看出，融入時間因素后，用戶的滿意程度有一定的提高。

圖1 準確率對比圖

4.總結(jié)與展望

隨著信息技術(shù)的發(fā)展以及互聯(lián)網(wǎng)的普及，大量的信息充斥在互聯(lián)網(wǎng)上，“信息過載”現(xiàn)象越來越嚴重。信息檢索的提出在一定程度上緩解了“信息過載”帶來的挑戰(zhàn)，被認為是克服此問題的重要技術(shù)。本研究認為人們在信息檢索的過程中，更傾向于獲取時間較新的文檔數(shù)據(jù)。本研究中，首先計算信息需求與數(shù)據(jù)條目的相關(guān)性，并以此為依據(jù)對數(shù)據(jù)條目進行排序，然后，用數(shù)據(jù)條目的發(fā)布時間去影響基于相關(guān)性的排序結(jié)果，最后，獲取排序位置在前信息作為檢索結(jié)果。

但是，仍有一些問題需要進一步探討。例如，如何使檢索結(jié)果的重復(fù)率達到最低，如何保證檢索結(jié)果是正確的、質(zhì)量高的文檔。因此，在后續(xù)的研究中，筆者將更關(guān)注檢索結(jié)果的質(zhì)量和滿足用戶需要的程度。

* [1]顧犇. 信息過載問題及其研究[J]. 中國圖書館學報 ,2000,(05)∶40—43+74.

* [2]邱均平,樓雯. 基于共現(xiàn)分析的語義信息檢索研究[J]. 中國圖書館學報 ,2012,(06)∶89—99.

* [3]王燦輝,張敏,馬少平. 自然語言處理在信息檢索中的應(yīng)用綜述 [J]. 中文信息學報 ,2007,(02)∶35—45.

* [4] Date C J, Darwen H. A Guide to the SQL Standard[M]. New York∶ Addison—Wesley, 1987.

* [5]Ramos J. Using tf—idf to determine word relevance in docu ment queries[C]//Proceedings of the first instructional confere nce on machine learning. 2003.

* [6]Aizawa A. An information—theoretic perspective of tf—idf measures[J]. Information Processing & Management, 2003,39(1)∶ 45—65.

* [7]Salton G, Fox E A, Wu H. Extended Boolean information retri eval[J]. Communications of the ACM, 1983, 26(11)∶ 1022—1036.

* [8]Salton G, Wong A, Yang C S. A vector space model for auto matic indexing[J]. Communications of the ACM, 1975, 18(11)∶613—620.

* [9]Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].Journal of machine Learning research, 2003, 3(Jan)∶ 993—1022.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡