国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Nutch的校園網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)*

2010-10-18 08:10:42宋光慧郭建康
中國(guó)教育信息化 2010年15期
關(guān)鍵詞:信息檢索分詞搜索引擎

宋光慧,聶 琰,郭建康

(1.浙江大學(xué)寧波理工學(xué)院 信息與教育技術(shù)中心,浙江 寧波315100;

2.寧波大學(xué)科技學(xué)院理工學(xué)院計(jì)算機(jī)系,浙江寧波 315212)

基于Nutch的校園網(wǎng)信息檢索系統(tǒng)的研究與實(shí)現(xiàn)*

宋光慧1,聶 琰2,郭建康1

(1.浙江大學(xué)寧波理工學(xué)院 信息與教育技術(shù)中心,浙江 寧波315100;

2.寧波大學(xué)科技學(xué)院理工學(xué)院計(jì)算機(jī)系,浙江寧波 315212)

本文通過(guò)分析校園網(wǎng)內(nèi)信息資源的特點(diǎn),在Nutch搜索引擎的基礎(chǔ)上,構(gòu)建了基于校園網(wǎng)各Web網(wǎng)站站內(nèi)檢索和統(tǒng)一檢索平臺(tái)兩層體系結(jié)構(gòu)的校園網(wǎng)信息檢索系統(tǒng),有效地提高了檢索效果。

Nutch;信息檢索;搜索引擎;索引優(yōu)化;漢語(yǔ)分詞;排序算法

目前校園網(wǎng)信息檢索主要采用兩種方式。一種方式是Web網(wǎng)站構(gòu)筑站內(nèi)搜索功能,采用數(shù)據(jù)庫(kù)查詢的方式進(jìn)行。通常是通過(guò)匹配標(biāo)題、作者、摘要等字段的關(guān)鍵字信息來(lái)實(shí)現(xiàn)信息檢索,由于受到數(shù)據(jù)庫(kù)性能、檢索效率等因素的影響不能實(shí)現(xiàn)基于匹配正文內(nèi)容的檢索,從而導(dǎo)致搜索效果下降。該方式也無(wú)法實(shí)現(xiàn)校園網(wǎng)信息資源的整合和共享。另一種方式是將基于互聯(lián)網(wǎng)的搜索引擎技術(shù)應(yīng)用于校園網(wǎng),構(gòu)建校園網(wǎng)搜索引擎,但校園網(wǎng)在應(yīng)用環(huán)境、網(wǎng)站構(gòu)建、鏈接結(jié)構(gòu)等方面與互聯(lián)網(wǎng)有所不同,主要表現(xiàn)為各網(wǎng)站獨(dú)立性較強(qiáng),網(wǎng)頁(yè)間鏈接稀疏;檢索目標(biāo)與內(nèi)容相關(guān)度、時(shí)間的關(guān)聯(lián)性較強(qiáng),而與網(wǎng)頁(yè)被鏈接的數(shù)量關(guān)聯(lián)性較弱;文檔關(guān)鍵字重復(fù)度高,周期性出現(xiàn)。因此采用互聯(lián)網(wǎng)搜索引擎基于網(wǎng)頁(yè)鏈接分析技術(shù)的頁(yè)面評(píng)分與排序算法往往不能達(dá)到令用戶滿意的檢索效果。針對(duì)上述問(wèn)題,本系統(tǒng)采用基于Nutch的開(kāi)源搜索引擎技術(shù),構(gòu)建校園網(wǎng)信息檢索系統(tǒng),從而提高檢索的廣度、速度和精度。

一、系統(tǒng)體系結(jié)構(gòu)

Nutch是一個(gè)開(kāi)源的、Java實(shí)現(xiàn)的Web搜索引擎,提供了構(gòu)建搜索引擎所需的基本工具模塊,包括網(wǎng)絡(luò)爬蟲(chóng)、文本分析、分詞工具、建立索引、搜索功能和結(jié)果過(guò)濾等,具有透明性高、易于理解和擴(kuò)展性好等特點(diǎn)。本系統(tǒng)以MyEclipse8.0作為開(kāi)發(fā)平臺(tái),在Nutch搜索引擎的基礎(chǔ)上對(duì)其分詞模塊、索引模塊、搜索和排序模塊進(jìn)行了二次開(kāi)發(fā),以適應(yīng)校園網(wǎng)的具體應(yīng)用環(huán)境。

校園網(wǎng)信息檢索系統(tǒng)體系結(jié)構(gòu)分為兩層。下層面向各Web網(wǎng)站,基于Nutch構(gòu)建站內(nèi)文檔搜索引擎,建立各自網(wǎng)站的文檔索引并提供搜索功能,替代基于數(shù)據(jù)庫(kù)的檢索方式,從而提高檢索效果和效率;上層為面向校園網(wǎng)范圍的信息檢索平臺(tái),通過(guò)對(duì)各個(gè)Web網(wǎng)站的索引進(jìn)行合并和優(yōu)化,來(lái)構(gòu)建統(tǒng)一共享的檢索平臺(tái),系統(tǒng)體系結(jié)構(gòu)如圖1所示。

圖1系統(tǒng)體系結(jié)構(gòu)

通過(guò)該體系結(jié)構(gòu)在下層可以為各個(gè)Web網(wǎng)站提供全文信息檢索功能,既可以有效緩解各Web網(wǎng)站服務(wù)器的壓力,又可以提高網(wǎng)站的檢索性能?;贜utch的搜索引擎對(duì)各Web網(wǎng)站的網(wǎng)頁(yè)進(jìn)行抓取,經(jīng)過(guò)文本分析與分詞處理后建立索引,校園網(wǎng)內(nèi)每個(gè)Web網(wǎng)站都建立各自的索引文件,并為各自的Web網(wǎng)站用戶提供獨(dú)立的信息檢索功能。在上層系統(tǒng)通過(guò)對(duì)校園網(wǎng)內(nèi)各Web網(wǎng)站索引文件的整合,經(jīng)過(guò)索引優(yōu)化后,實(shí)現(xiàn)對(duì)多索引的搜索功能,從而為校園網(wǎng)用戶提供統(tǒng)一的信息檢索平臺(tái),并利用各Web網(wǎng)站用戶的檢索關(guān)鍵詞記錄建立智能輔助檢索關(guān)鍵詞庫(kù),方便校園網(wǎng)用戶的使用。

二、系統(tǒng)主要功能模塊

1.漢語(yǔ)分詞模塊

信息檢索的基礎(chǔ)是文本分析,而文本分析在很大程度上依賴于分詞模塊對(duì)語(yǔ)言的處理。Nutch自帶的CJK分詞模塊對(duì)中文分詞的效率和準(zhǔn)確度上不能滿足實(shí)際需要。為此,在對(duì)比了JE分詞、Paoding分詞和ICTCLAS分詞等多款中文分詞模塊后,Paoding分詞由于其開(kāi)源性和良好的分詞效果被本系統(tǒng)采用,并通過(guò)Nutch的插件機(jī)制集成到系統(tǒng)當(dāng)中。其原理是Nutch中的抽象類Analyzer類實(shí)現(xiàn)了配置和插入中文分詞模塊的接口,該抽象類中定義了一個(gè)公有的抽象方法tokenStream(String fieldName,Reader reader),返回的類型是TokenStream。Paoding分詞的分詞類返回類型也是 TokenStream,故只需將參數(shù)fieldName和reader作為Paoding分詞的輸入?yún)?shù)并將其結(jié)果返回給Analyzer類即可。

2.索引優(yōu)化與多索引搜索

為了有效整合多個(gè)Web網(wǎng)站的索引文件,并作為整體提供給統(tǒng)一的信息檢索平臺(tái),需要進(jìn)行索引優(yōu)化,使每個(gè)網(wǎng)站只生成一個(gè)索引文件。優(yōu)化索引其實(shí)就是將多個(gè)索引文件合并成單個(gè)文件的過(guò)程,目的是減少索引文件的數(shù)量,并且能在搜索時(shí)減少讀取索引文件的時(shí)間。Nutch中的IndexWrite類提供了 optimize方法實(shí)現(xiàn)該優(yōu)化操作。要使校園網(wǎng)用戶在輸入一個(gè)關(guān)鍵詞后,能夠得到全部Web網(wǎng)站的查找結(jié)果,就要對(duì)不同Web網(wǎng)站優(yōu)化之后的索引文件進(jìn)行檢索。利用Nutch中的MultiSearcher類可實(shí)現(xiàn)該功能,檢索結(jié)果會(huì)以一種指定的順序合并起來(lái)。

3.自定義文檔排序方法

根據(jù)Nutch自身的關(guān)鍵字相關(guān)度排序、索引順序排序和基于互聯(lián)網(wǎng)的PageRank引用機(jī)制排序都不能在校園網(wǎng)中取得很好的效果。在綜合考慮了網(wǎng)頁(yè)的時(shí)效性、訪問(wèn)量和相關(guān)度等因素后,系統(tǒng)采用了自定義的排序機(jī)制,文檔內(nèi)容相關(guān)度作為主要的排序依據(jù),并通過(guò)激勵(lì)因子boost值來(lái)改變文檔的得分,從而調(diào)整文檔的出現(xiàn)順序。激勵(lì)因子boost=1+max(0,距本學(xué)年開(kāi)始的發(fā)布時(shí)間)+頁(yè)面訪問(wèn)量/平均訪問(wèn)量。對(duì)于在頁(yè)面中無(wú)法抓取到發(fā)布時(shí)間和訪問(wèn)量的情況,上述兩值別分按照0和平均值處理。由于boost值必須在建立文檔索引階段進(jìn)行設(shè)置,所以目前系統(tǒng)每天進(jìn)行一次校園網(wǎng)內(nèi)網(wǎng)頁(yè)抓取并建立索引。

4.多文檔結(jié)構(gòu)的支持

在校園網(wǎng)內(nèi),師生大量使用Word、Excel、PDF等文檔格式,因此檢索系統(tǒng)提供了對(duì)上述文檔的全文檢索功能。由于上述文檔并不是純文本格式,在處理時(shí)需要根據(jù)他們的特殊格式提取內(nèi)容后再進(jìn)行分析處理。在Java對(duì)Word、Excel的開(kāi)源解決方案中,本系統(tǒng)采用了POI插件的方式;用PDFBox插件來(lái)實(shí)現(xiàn)對(duì)PDF文檔的讀取。

5.智能輔助搜索

系統(tǒng)的兩層體系結(jié)構(gòu)能夠使位于上層的統(tǒng)一信息檢索平臺(tái)充分利用下層各Web網(wǎng)站的用戶檢索信息。對(duì)于使用Web網(wǎng)站站內(nèi)檢索的用戶來(lái)說(shuō),通常都是熟悉該網(wǎng)站或與該網(wǎng)站內(nèi)容相關(guān)性較大的用戶,他們的檢索記錄在經(jīng)過(guò)一定的分析處理后,可作為知識(shí)庫(kù)來(lái)為統(tǒng)一信息檢索平臺(tái)提供智能的輔助檢索功能。

三、系統(tǒng)運(yùn)行環(huán)境

系統(tǒng)整體采用Java語(yǔ)言實(shí)現(xiàn),采用Windows平臺(tái)運(yùn)行。但由于運(yùn)行Nutch自帶的腳本命令需要Linux環(huán)境,所以必須首先安裝 Cygwin來(lái)模擬這種環(huán)境。為了確保Nutch1.0版本能夠正確運(yùn)行,Java虛擬機(jī)需采用JDK 1.6以上的版本。系統(tǒng)采用Tomcat 6.0作為各級(jí)Web檢索平臺(tái)的容器。運(yùn)行環(huán)境示意如圖2所示。

圖2 運(yùn)行環(huán)境示意

四、結(jié)束語(yǔ)

基于Nutch的校園網(wǎng)信息檢索系統(tǒng)建設(shè)有效地解決了各Web網(wǎng)站全文信息檢索功能不足的問(wèn)題,同時(shí)統(tǒng)一檢索平臺(tái)的搭建為校園網(wǎng)用戶提供了方便快捷的信息檢索通道,對(duì)校園信息化建設(shè)起了很好的推進(jìn)作用。目前系統(tǒng)已經(jīng)在站內(nèi)搜索和統(tǒng)一檢索平臺(tái)兩個(gè)層面實(shí)現(xiàn)了基于關(guān)鍵字的檢索功能,排序算法也達(dá)到了預(yù)期的設(shè)計(jì)要求。今后工作的重點(diǎn)是在此系統(tǒng)基礎(chǔ)上對(duì)各種校園網(wǎng)資源進(jìn)行整合、共享,提供對(duì)多種異構(gòu)數(shù)據(jù)源的支持,使之成為一個(gè)綜合性應(yīng)用平臺(tái);同時(shí)在信息檢索技術(shù)的基礎(chǔ)上對(duì)校園網(wǎng)輿情監(jiān)控技術(shù)進(jìn)行深一步的研究。

[1]Otis Gospodneti,Erik Hatcher.Lucene in Action中文版[M].北京:電子工業(yè)出版社,2007.

[2]邱哲,符滔滔.發(fā)自己的搜索引擎[M].北京:人民郵電出版社,2007.

[3]馬志強(qiáng)等.校園網(wǎng)搜索引擎的研究與實(shí)現(xiàn)[J].北京機(jī)械工業(yè)學(xué)院學(xué)報(bào),2007(22):12-15.

[4]李粵,安捷,李星.排序融合算法在校園網(wǎng)搜索引擎中的應(yīng)用[J].大連理工大學(xué)學(xué)報(bào),2005(45):257-260.

[5]蔡建超,郭一平,王亮.基于Lucene.Net校園網(wǎng)搜索引擎的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)技術(shù)與發(fā)展,2006(11):73-80.

(編輯:金冉)

TP393.08

B

1673-8454(2010)15-0065-02

寧波市教育科學(xué)規(guī)劃研究課題(2010-YGH057)。

猜你喜歡
信息檢索分詞搜索引擎
結(jié)巴分詞在詞云中的應(yīng)用
值得重視的分詞的特殊用法
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
新聞傳播(2016年18期)2016-07-19 10:12:06
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
廣告主與搜索引擎的雙向博弈分析
教學(xué)型大學(xué)《信息檢索》公選課的設(shè)計(jì)與實(shí)施
河南科技(2014年11期)2014-02-27 14:10:19
高考分詞作狀語(yǔ)考點(diǎn)歸納與疑難解析
公共圖書(shū)館信息檢索服務(wù)的實(shí)踐探索——以上海浦東圖書(shū)館為例
环江| 宜川县| 普陀区| 江津市| 霍林郭勒市| 乐平市| 探索| 内黄县| 舟曲县| 德安县| 揭阳市| 泸州市| 平塘县| 扬州市| 临沭县| 宁都县| 怀远县| 滨州市| 通山县| 梧州市| 内乡县| 龙海市| 常熟市| 威宁| 墨竹工卡县| 于田县| 昌宁县| 五河县| 佛教| 宜宾市| 巨野县| 肥乡县| 广东省| 阿瓦提县| 醴陵市| 都匀市| 通河县| 新泰市| 安阳县| 伊春市| 镇远县|