国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Lucene的倒排索引性能的研究

2014-08-30 20:21:07朱鵬
無線互聯(lián)科技 2014年8期
關(guān)鍵詞:搜索引擎性能

朱鵬

摘 要:倒排索引技術(shù)是現(xiàn)代搜索引擎的核心技術(shù)之一,索引技術(shù)的好壞直接影響搜索引擎的性能。Lucene是一個優(yōu)秀的全文檢索引擎架構(gòu),采用高度優(yōu)化的倒排索引結(jié)構(gòu),可以方便的嵌入到各種應(yīng)用程序中。在深入分析和研究Lucene索引機制的基礎(chǔ)上,通過實驗發(fā)現(xiàn),與傳統(tǒng)的字符串匹配查找的性能相比,使用倒排索引的Lucene更快捷、更準(zhǔn)確的實現(xiàn)全文檢索。

關(guān)鍵詞:倒排索引;搜索引擎;Lucene;性能

Abstract:Inverted index technology is one of core technologies of search engine,the quality of index technology has a direct influence to the performance of search engine.Lucene, with highly optimized inverted index structure,is an excellent full-text search engine framework, can be easily embedded in various applications.Based on deeply analysis and research of the index mechanism of Lucene, the experiment discovers, compared with the performance of the traditional string matching search, Lucene with inverted index can implement full-text retrieval more quickly and more accurately.

Key words:Inverted Index;Search Engine;Lucene;Performance

隨著互聯(lián)網(wǎng)的普及以及數(shù)字信息的爆炸式增長,網(wǎng)絡(luò)信息資源數(shù)量以幾何級數(shù)倍增,面對日益產(chǎn)生的海量數(shù)據(jù),其異構(gòu)性、分布性和動態(tài)性,對信息檢索的研究不斷提出新的挑戰(zhàn)。為了在海量的數(shù)據(jù)中迅速而全面地找到所需要的信息,搜索引擎由此產(chǎn)生了。

1 Lucene及相關(guān)分析

1.1 Lucene概述

Lucene是Apache軟件基金會jakarta項目組的一個子項目,是一個優(yōu)秀的開源全文搜索引擎工具包。它提供了豐富的API函數(shù),可以方便地創(chuàng)建索引,嵌入到各種應(yīng)用中實現(xiàn)全文檢索。

1.2 建立索引的過程

基于Lucene的索引文件格式獨立于應(yīng)用平臺。Lucene定義了一套以8位字節(jié)為基礎(chǔ)的索引文件格式,使得兼容系統(tǒng)或者不同平臺的應(yīng)用能夠共享建立的索引文件。建立索引有三個步驟:

⑴提取文本。為了使用Lucene對文檔數(shù)據(jù)建立索引,首先要將該文檔轉(zhuǎn)換為Lucene可以處理的類型。

⑵構(gòu)建Document。Document類是用來描述文檔的。

⑶分析。在文檔被索引之前,首先要對文檔內(nèi)容進行分詞處理,由Analyzer類處理。

在完成上述步驟后,就可以對索引文件進行全文檢索了。

2 實驗設(shè)計

為了測試倒排索引的搜索性能,將基于Lucene建立倒排索引的全文檢索和傳統(tǒng)的基于順序掃描的字符串匹配查找作對比。首先把欲處理的文檔分割成若干小的文檔,字符串查找是直接將要搜索的文件加載到內(nèi)存的String中,利用String提供的API查找關(guān)鍵詞,而Lucene則先將小文檔預(yù)處理成索引文件,然后對索引文件進行查找。

3 實驗分析

實驗分為兩部分。第一部分,使用TXT電子書作為測試數(shù)據(jù),文檔集含有50個文件共5MB。在這個數(shù)據(jù)集上,對上述兩種檢索方式分別進行不少于20次的隨機檢索,從中抽取若干關(guān)鍵詞進行測試,測試后的數(shù)據(jù)如下表1所示。第二部分,同樣使用TXT電子書作為測試數(shù)據(jù),逐步擴大測試文檔的規(guī)模,使用相同的關(guān)鍵字進行若干次隨機檢索,測試數(shù)據(jù)如下表2所示。

從表1中可以看出,基于Lucene倒排索引的全文檢索的在檢索時間上遠遠優(yōu)于基于字符串查找的順序查找法。而對于查準(zhǔn)率和查全率,兩種檢索方式性能接近。從表2中可以看出,當(dāng)檢索的文件不大時,兩種檢索方式的檢索時間相當(dāng),隨著數(shù)據(jù)的增長,順序查找法檢索時間的增長幅度遠大于基于Lucene檢索時間的增長。

4 結(jié)論

本文探討了基于Lucene的倒排索引模式,通過實驗分析了倒排索引的優(yōu)良性能。倒排索引技術(shù)能加快檢索的速度,基于現(xiàn)代檢索系統(tǒng)對檢索時間效率要求較高,要對大數(shù)據(jù)進行檢索,建立倒排索引的全文檢索,則無疑成為最好的選擇。

[參考文獻]

[1]李曉明,閏宏飛,王繼民.搜索引擎----原理、技術(shù)和系統(tǒng)[M].北京:科學(xué)出版社,2006.

[2]高斯帕那,哈特赫(著),牛長流,肖(譯).Lucene IN ACTION中文版[M].2版,北京:電子工業(yè)出版社,2011.6.

[3]邱哲,符滔滔,王學(xué)松.開發(fā)自己的搜索引擎Lucene+Heritrix.[M].2版,北京:人民郵電出版社,2010.

猜你喜歡
搜索引擎性能
提供將近80 Gbps的帶寬性能 DisplayPort 2.0正式發(fā)布
PP—g—GMA的制備及其增容PP/PA6共混物的性能
中國塑料(2016年5期)2016-04-16 05:25:39
Al-Se雙元置換的基于LGPS的thio-LISICON的制備與性能表征
580 MPa 級熱軋高擴孔鋼的組織與性能
上海金屬(2015年1期)2015-11-28 06:01:09
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
強韌化PBT/PC共混物的制備與性能
中國塑料(2015年4期)2015-10-14 01:09:28
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
RDX/POLY(BAMO-AMMO)基發(fā)射藥的熱分解與燃燒性能
廣告主與搜索引擎的雙向博弈分析
江都市| 德昌县| 弥勒县| 敦煌市| 阳春市| 芜湖市| 错那县| 宾阳县| 庄河市| 望谟县| 五大连池市| 探索| 伊川县| 卓尼县| 固镇县| 武鸣县| 江油市| 略阳县| 姜堰市| 连城县| 安陆市| 鱼台县| 会同县| 寿宁县| 睢宁县| 运城市| 精河县| 麻江县| 胶南市| 安图县| 宜川县| 榕江县| 天台县| 平利县| 南宫市| 东山县| 德庆县| 贵南县| 交城县| 正定县| 日喀则市|