国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

搜索引擎中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)

2011-08-15 00:52
科技傳播 2011年20期
關(guān)鍵詞:爬蟲信息檢索搜索引擎

劉 偉

南京鐵道職業(yè)技術(shù)學(xué)院,江蘇南京 210015

搜索引擎中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)

劉 偉

南京鐵道職業(yè)技術(shù)學(xué)院,江蘇南京 210015

隨著信息時(shí)代的來臨,互聯(lián)網(wǎng)逐漸滲透到我們生活中的每個(gè)角落,其中搜索引擎的應(yīng)用,更是為我們的生活和學(xué)習(xí)帶來了很大的便利。研究搜索引擎中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn),對(duì)于優(yōu)化搜索引擎性能,提升搜索引擎效率有著重要的意義。本文主要分析了基于主題搜索引擎中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn),并提出了相應(yīng)的方法和手段。

主題搜索引擎;網(wǎng)絡(luò)爬蟲;設(shè)計(jì);實(shí)現(xiàn)

搜索引擎的使用,使人們能夠更加方便快捷地從網(wǎng)絡(luò)上獲取想要的信息。隨著互聯(lián)網(wǎng)和計(jì)算機(jī)技術(shù)的不斷發(fā)展,傳統(tǒng)的通用搜索引擎已經(jīng)很難滿足人們的信息檢索要求,而主題搜索引擎的產(chǎn)生為信息檢索服務(wù)水平的提高帶來了福音。而作為搜索引擎的基礎(chǔ)部分,網(wǎng)絡(luò)爬蟲對(duì)于信息檢索服務(wù)的實(shí)現(xiàn)起著舉足輕重的作用。因而只有根據(jù)搜索引擎的發(fā)展和創(chuàng)新不斷優(yōu)化網(wǎng)絡(luò)爬蟲的設(shè)計(jì),才能提高網(wǎng)絡(luò)爬蟲的性能以及主題搜索引擎的應(yīng)能。

1 主題搜索引擎和網(wǎng)絡(luò)爬蟲

將互聯(lián)網(wǎng)中大量的進(jìn)行信息選取、整理存儲(chǔ)并建立索引,再提供友好接口,使用戶在這些信息中及時(shí)、準(zhǔn)確、快速獲取需求的信息的查詢系統(tǒng)就是搜索引擎。

主題搜索引擎,是以構(gòu)建某一專題領(lǐng)域或者某一學(xué)科領(lǐng)域的因特網(wǎng)信息資源庫(kù)為目的,在互聯(lián)網(wǎng)上智能的搜集符合設(shè)定專題要求或者符合該學(xué)科需要的信息和資源。主題搜索引擎的產(chǎn)生,克服了傳統(tǒng)搜索引擎在信息檢索服務(wù)中的諸多困難,不但使信息檢索變得更加細(xì)致、精確,使搜索到的數(shù)據(jù)更加精確和全面,搜索到的信息更加深入,同時(shí)也使相關(guān)專題信息資源和學(xué)科信息資源的更新更加及時(shí),總之,大大提高了信息檢索服務(wù)質(zhì)量,提高了搜索引擎的性能。

網(wǎng)絡(luò)爬蟲是搜索引擎中,探索與下載網(wǎng)頁(yè)資源的程序,在搜索的過程中,程序自己判斷下一步抓取的對(duì)象,具有相應(yīng)的智能性,因此又叫網(wǎng)絡(luò)機(jī)器人。網(wǎng)頁(yè)之間的鏈接,使互聯(lián)網(wǎng)形成了網(wǎng)狀的結(jié)構(gòu),爬蟲程序類似這張網(wǎng)上的蜘蛛,所以叫網(wǎng)絡(luò)蜘蛛。

網(wǎng)絡(luò)爬蟲作為搜索引擎的基礎(chǔ)組成部分,起著重要的作用。隨著應(yīng)用的不斷深化,技術(shù)的快速進(jìn)步,網(wǎng)絡(luò)爬蟲更加普遍地運(yùn)用于站點(diǎn)結(jié)構(gòu)分析、頁(yè)面有效性分析、內(nèi)容安全檢測(cè)、用戶興趣挖掘以及個(gè)性化信息獲取等多種服務(wù)中。

通用網(wǎng)絡(luò)爬蟲要能盡量收集頁(yè)面,進(jìn)行的過程中,不考慮處理頁(yè)面的前后順序、獲取的頁(yè)面與主題是否相關(guān)。在傳統(tǒng)爬蟲基礎(chǔ)上,加入了Web數(shù)據(jù)、挖掘等相關(guān)技術(shù),使爬蟲在工作的過程中,沿著能夠找到目標(biāo)頁(yè)面的路徑進(jìn)行有效的爬行。提高現(xiàn)有搜索引擎查找的精度、更新的周期是主題爬蟲的功能,主題網(wǎng)絡(luò)爬蟲的基本思想就是按著預(yù)先指定的主題,對(duì)下載的頁(yè)面內(nèi)容及鏈接進(jìn)行分析,并計(jì)算當(dāng)前頁(yè)面與主題相關(guān)率,并預(yù)測(cè)下一個(gè)要處理的鏈接,確保在爬行的過程中,獲取與主題關(guān)系較多的頁(yè)面,對(duì)不能找到目標(biāo)頁(yè)面的路徑減少爬取,其中,主題網(wǎng)絡(luò)爬蟲要盡可能地過濾掉頁(yè)面中,關(guān)系不大的鏈接,保留可能與主題相對(duì)密切的鏈接,放入相應(yīng)隊(duì)列中;再運(yùn)用一定的方法,從隊(duì)列中選出要處理的頁(yè)面的鏈接。

2 主題網(wǎng)絡(luò)爬蟲的設(shè)計(jì)和實(shí)現(xiàn)策略

面向主題搜索引擎的網(wǎng)路爬蟲以普通網(wǎng)絡(luò)爬蟲為基礎(chǔ),并在此基礎(chǔ)上進(jìn)行擴(kuò)展和調(diào)整,使其具備主題網(wǎng)絡(luò)爬蟲獨(dú)有的功能,進(jìn)而實(shí)現(xiàn)面向主題的網(wǎng)頁(yè)信息提取。近年來,隨著人們對(duì)主題搜索引擎渴望成都的日益增加,面向主題的網(wǎng)絡(luò)爬蟲研究已經(jīng)成為學(xué)界重點(diǎn)研究的問題之一。面向主題的信息自動(dòng)采集系統(tǒng)可分為4個(gè)部分,即主題的選擇、Web信息的提取、頁(yè)面過濾、鏈接過濾。以下進(jìn)行一一闡述。

2.1 主題的選擇

主題可以是一個(gè)含義和概念,也可以是一個(gè)詞語(yǔ)、短語(yǔ)、一個(gè)段落甚至一篇文章,總之,從語(yǔ)義上看,主題的概念是十分廣泛的。從概念上看,主題的范圍可大可小,當(dāng)主題的范圍較為抽象和模糊使,其含義也相應(yīng)模糊,相反地,如果主題的界限相對(duì)明確,其含義也就相對(duì)明確清晰。主題的選擇是面向主題的Wed信息提取的重要基礎(chǔ)。

2.2 面向主題的Web信息提取

網(wǎng)絡(luò)爬蟲系統(tǒng)中,Web信息提取部分通過各種Web協(xié)議自動(dòng)提取Web站點(diǎn)中的有效信息,這些有效信息包括圖像、文本、聲音、影響等等,所涉及到相關(guān)協(xié)議包括FTP、HTTP、BBS等等。除此之外,Web信息搜索還可以根據(jù)用戶的具體實(shí)際需要,搜索和采集Web Chat等特殊形式的Web信息。

2.3 頁(yè)面過濾

在本系統(tǒng)中,主題網(wǎng)絡(luò)蜘蛛主要處理的是HTML頁(yè)面。因此,在頁(yè)面分析與過濾過程中,我們所做的工作主要包括對(duì)HTML頁(yè)面進(jìn)行語(yǔ)法分析,以提取出網(wǎng)頁(yè)正文、鏈接、鏈接相關(guān)標(biāo)簽屬性數(shù)據(jù)及其它相關(guān)內(nèi)容,然后對(duì)網(wǎng)頁(yè)進(jìn)行主題相關(guān)性判別,從而過濾掉與主題無關(guān)頁(yè)面,提高主題網(wǎng)絡(luò)蜘蛛的主題信息提取的準(zhǔn)確性。

2.3.1 HTML語(yǔ)法分析

HTML語(yǔ)法分析過程可分為SGML標(biāo)記文法層和HTML標(biāo)記層:

SGML文法層的功能是將頁(yè)面分解成正文、轉(zhuǎn)義字符、注釋、標(biāo)記等等,標(biāo)記文法分析器的主工作原理是:從標(biāo)記文法創(chuàng)建狀態(tài)轉(zhuǎn)換表,根據(jù)輸入流中的字符切換狀態(tài),在特定狀態(tài)到達(dá)時(shí)執(zhí)行相應(yīng)語(yǔ)義操作。HTML表基層的任務(wù)是維護(hù)當(dāng)前解析正文的各種狀態(tài)。

2.3.2 頁(yè)面相關(guān)性判斷

在進(jìn)行Web主題信息提取中,提取的URL通過了主題相關(guān)性判別。即使這樣,提取的頁(yè)面內(nèi)容,與設(shè)定的主題可能相差很遠(yuǎn)。這將影響主題頁(yè)面信息的提取準(zhǔn)確率。所以,在頁(yè)面提取之后,要對(duì)頁(yè)面進(jìn)行與主題有關(guān)性的判別,以淘汰掉與主題無關(guān)頁(yè)面。

2.4 鏈接過濾

面向主題的網(wǎng)絡(luò)蜘蛛,在選取Web信息時(shí)面向選定的主題。要提高主題Web信息提取速度和準(zhǔn)確率,系統(tǒng)需要對(duì)采集UI,進(jìn)行URl和主題的關(guān)系的判定,這也叫做鏈接過濾,或者鏈接預(yù)測(cè)。根據(jù)高預(yù)測(cè)值優(yōu)先采集、低預(yù)測(cè)值要舍棄的原則,對(duì)發(fā)現(xiàn)的URL進(jìn)行剪枝處理,能大幅度減少采集頁(yè)面的數(shù)量,提高主題信息搜索時(shí)效性,對(duì)于主題搜索網(wǎng)絡(luò)蜘蛛來說,搜索策略中的關(guān)鍵所在是如何評(píng)價(jià)鏈接對(duì)于主題的價(jià)值,即鏈接價(jià)值的計(jì)算方法,

面向主題的網(wǎng)絡(luò)爬蟲系統(tǒng)中鏈接過濾常見的算法是EPR算法。盡管PageRank方法,能獲得Web上的重要頁(yè)面,其確定的重要頁(yè)面卻是針對(duì)廣泛主題的,不能面向具體主題的。作為另一個(gè)被廣泛接受的超鏈分析算法HITS,基于權(quán)威頁(yè)面和中心頁(yè)面相互加強(qiáng)的設(shè)計(jì)模型,提供了發(fā)現(xiàn)權(quán)威頁(yè)面的有效辦法。處理不好主題偏離問題,也就是緊密鏈接,也是HITS算法存在的一個(gè)最大的弱點(diǎn),就是TKC(Tightly-Knit Community Effect,簡(jiǎn)稱TKC)現(xiàn)象口51。為此,我們對(duì)PageRank方法做了如下改進(jìn):在鏈接關(guān)系的基礎(chǔ)上,加入針對(duì)鏈接的相關(guān)主題權(quán)重,再引入鏈接網(wǎng)頁(yè)之間主題度,相互反饋加強(qiáng)的考慮,使其所產(chǎn)生的重要頁(yè)面是針對(duì)某一個(gè)主題的,這就是EPR算法。

3 結(jié)論

隨著計(jì)算機(jī)的普及和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,人們對(duì)搜索引擎的使用變得越來越主動(dòng),越來越頻繁,信息檢索服務(wù)也在向著個(gè)性化、精細(xì)化等方向發(fā)展。傳統(tǒng)的搜索引擎雖然在過去一定程度上滿足了人們對(duì)信息檢索的渴求,但是在科技發(fā)展日新月異、生活和工作節(jié)奏逐漸加快的今天,已經(jīng)無法適應(yīng)人們?cè)絹碓礁叩男畔z索需求,而面向主題的搜索引擎的產(chǎn)生極大地提高了信息檢索服務(wù)質(zhì)量和效率。

網(wǎng)絡(luò)爬蟲作為面向主題的搜索引擎的重要基礎(chǔ)和組成部分,其設(shè)計(jì)質(zhì)量的提升對(duì)于面向主題的搜索引擎功能的提升有著重要的意義。近年來,網(wǎng)絡(luò)爬蟲以哪種訪問策略對(duì)Web進(jìn)行訪問,能提高面向主題的搜索引擎的搜索速度,以及設(shè)計(jì)網(wǎng)絡(luò)爬蟲系統(tǒng)的各種算法的設(shè)計(jì)和改進(jìn)已經(jīng)成為學(xué)界研究的熱點(diǎn)問題。筆者在文中闡述了面向主題搜索引擎的網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)策略,闡述了爬蟲系統(tǒng)的構(gòu)成,即主題的選擇、Web信息的提取、頁(yè)面過濾、鏈接過濾四部分,并進(jìn)行了一一的分析和總結(jié),最終提出了對(duì)PageRank算法的改進(jìn)策略,以期為面向主題搜索引擎中網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)的研究作出應(yīng)有的理論貢獻(xiàn)和實(shí)踐參考。

[1]盧亮,張博文.搜索引擎原理、實(shí)踐與應(yīng)用[M].北京:電子工業(yè)出版社,2007.

[2]謝新洲.網(wǎng)絡(luò)信息檢索技術(shù)與案例[M].北京:北京圖書館出版社,2005:29-30.

[3]周立柱,林玲.聚焦爬蟲技術(shù)研究綜述[J].計(jì)算機(jī)應(yīng)用,2005,25(9):1965-1989.

[4]劉金紅,陸余良.主題網(wǎng)絡(luò)爬蟲研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2007,24(10):26-29,47.

[5]劉瑋瑋.搜索引擎中主題爬蟲的研究與實(shí)現(xiàn)田[D].南京:南京理工大學(xué),2006.

[6]楊溥.搜索引擎中爬蟲的若干問題研究[D].北京:北京郵電大學(xué),2009,1.

TP393

A

1674-6708(2011)53-0178-02

猜你喜歡
爬蟲信息檢索搜索引擎
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
醫(yī)學(xué)期刊編輯中文獻(xiàn)信息檢索的應(yīng)用
基于神經(jīng)網(wǎng)絡(luò)的個(gè)性化信息檢索模型研究
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
Nutch搜索引擎在網(wǎng)絡(luò)輿情管控中的應(yīng)用
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
赣榆县| 塔城市| 田林县| 建始县| 翁牛特旗| 三江| 文成县| 思茅市| 陈巴尔虎旗| 蓬莱市| 罗平县| 出国| 繁峙县| 新乡市| 宜丰县| 社旗县| 理塘县| 百色市| 汕头市| 青神县| 武穴市| 浦东新区| 杭锦后旗| 保亭| 博爱县| 康平县| 晋宁县| 界首市| 迭部县| 象山县| 盐津县| 同江市| 宁南县| 清徐县| 阜阳市| 潜江市| 重庆市| 和政县| 太白县| 南丹县| 栖霞市|