国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向高校教育新聞的聚焦爬蟲設(shè)計

2015-05-30 16:45:49汪龍飛
中國新通信 2015年23期
關(guān)鍵詞:萬維網(wǎng)爬蟲搜索引擎

汪龍飛

【摘要】 介紹利用聚焦爬蟲獲取高校教育新聞的方法。首先介紹聚焦爬蟲的工作原理和相關(guān)技術(shù),然后介紹如何利用這些原理和技術(shù)獲取高校教育新聞。

【關(guān)鍵詞】 聚焦爬蟲 移動互聯(lián)網(wǎng)

一、引言

聚焦爬蟲(又稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人)是一種按照一定的規(guī)則、自動地抓取萬維網(wǎng)信息的程序或者腳本。隨著網(wǎng)絡(luò)的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(Search Engine),作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:(1) 不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。(2) 通用搜索引擎的目標是盡可能大的網(wǎng)絡(luò)覆蓋率,有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進一步加深。(3) 萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。(4) 通用搜索引擎大多提供基于關(guān)鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。

為了解決上述問題,定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接,獲取所需要的信息。與通用爬蟲(general purpose web crawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。CollegeNews系統(tǒng)是一套包含高校教育類新聞獲取、相應(yīng)數(shù)據(jù)庫建立以及移動端軟件應(yīng)用的系統(tǒng)。在整套系統(tǒng)中,如何獲取與主題相關(guān)的新聞網(wǎng)頁數(shù)據(jù)是至關(guān)重要的一個部分,該部分由聚焦爬蟲程序予以實現(xiàn)。

二、 聚焦爬蟲簡介

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當(dāng)前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復(fù)上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

相對于通用網(wǎng)絡(luò)爬蟲,聚焦爬蟲還需要解決三個主要問題:(1) 對抓取目標的描述或定義;(2) 對網(wǎng)頁或數(shù)據(jù)的分析與過濾;(3) 對URL的搜索策略。

抓取目標的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。

三、聚焦爬蟲在獲取高校教育新聞中的應(yīng)用

在CollegeNews系統(tǒng)中,所有的數(shù)據(jù)來源均為高校教育類新聞,因此聚焦爬蟲的功能即為從互聯(lián)網(wǎng)上獲取與高校相關(guān)的新聞,并將相關(guān)內(nèi)容存入系統(tǒng)的數(shù)據(jù)庫中。用戶在使用高校新聞應(yīng)用時,客戶端向系統(tǒng)的服務(wù)器發(fā)送相關(guān)的請求,系統(tǒng)服務(wù)器返回所請求新聞的URL,由客戶端對相應(yīng)的URL進行解析,從而獲取相關(guān)的新聞資訊。通過使用聚焦爬蟲獲取高校新聞的原始數(shù)據(jù),可以避免傳統(tǒng)爬蟲爬取網(wǎng)頁所帶來的獲取內(nèi)容不符合所需主題、獲取到的無用處的內(nèi)容量過大的問題,對于處理能力較弱的系統(tǒng)來說很有益處。

3.1 需要解決的問題

若想讓聚焦爬蟲完成其功能,首先需要確定合適的種子URL集合,爬蟲自種子URL開始按照一定的搜索策略進行網(wǎng)頁爬取,在網(wǎng)頁爬取的過程中,需要提前確定待爬取頁面與所需主題的相關(guān)程度與重要性,依據(jù)相關(guān)度和重要性決定是否爬取該網(wǎng)頁。最后,還需要解決數(shù)據(jù)的更新周期問題,保證數(shù)據(jù)源的新鮮程度。在解決了上述問題之后,用戶即可獲取合適的新聞數(shù)據(jù)。

3.2 確定合適的種子URL集合

在聚焦爬蟲的算法設(shè)計中,種子URL集合的選取是十分重要的一環(huán)。如果選取的種子URL集合不合適,可能會導(dǎo)致程序爬取大量與主題無關(guān)的數(shù)據(jù),造成系統(tǒng)資源的浪費。

在CollegeNews系統(tǒng)中,為了充分保證系統(tǒng)的運行效率,即盡量避免爬取非高校教育新聞的網(wǎng)頁,在構(gòu)建種子URL集合時,采用使用指定起始網(wǎng)頁的方式,選擇了各類高校及相關(guān)新聞的入口地址作為起始網(wǎng)頁,從而確保了初始網(wǎng)頁的

在爬蟲運行的過程中,另一個重要的問題是如何去除已經(jīng)獲取過的重復(fù)頁面。該問題又可以分解為兩個部分:一是在某次爬蟲程序運行的過程中,如何去除本次運行已經(jīng)獲取過的頁面;二是在某次爬蟲程序運行的過程中,如何去除過往運行后已經(jīng)獲取過的頁面。針對第一個問題,本系統(tǒng)在每次爬蟲程序運行時,都會將已經(jīng)爬取過的網(wǎng)頁和尚未爬取的網(wǎng)頁分別存在兩個哈希表中,聚焦爬蟲每爬取一個網(wǎng)頁,會先比較該網(wǎng)頁是否存在于已經(jīng)爬取網(wǎng)頁的哈希表中,若不存在,則進行爬取操作。操作完成后,將該網(wǎng)頁從尚未爬取網(wǎng)頁的哈希表中刪除,同時添加到已經(jīng)爬取網(wǎng)頁的哈希表中。針對第二個問題,本系統(tǒng)在每次運行爬蟲程序時會預(yù)先設(shè)定一個閾值,同時爬蟲程序中也會設(shè)定一個初始的計數(shù)值為0。每當(dāng)爬蟲程序向數(shù)據(jù)庫中添加一條新數(shù)據(jù),若數(shù)據(jù)庫返回重復(fù)信息,則將計數(shù)值加一。若下一個網(wǎng)頁不是重復(fù)網(wǎng)頁,則將計數(shù)值清零。直到計數(shù)值大于閾值后,認定所有新網(wǎng)頁已經(jīng)獲取完畢,結(jié)束本次爬取。

3.3 網(wǎng)頁搜索策略

一般而言,爬蟲程序的網(wǎng)頁搜索策略可以分為以下三種:深度優(yōu)先搜索、廣度優(yōu)先搜索和最佳優(yōu)先搜索。本系統(tǒng)的搜索策略充分考慮了新聞類網(wǎng)站的結(jié)構(gòu)特點,使用了深度優(yōu)先與最佳優(yōu)先相結(jié)合的搜索方法。

如前所述,本系統(tǒng)爬蟲程序的起始地址為各類高校及相關(guān)新聞的入口地址,以此實現(xiàn)局部最優(yōu)效果。由于絕大部分新聞類網(wǎng)站的結(jié)構(gòu)為目錄式結(jié)構(gòu),即網(wǎng)站由若干頁面(目錄)組成,每個頁面含有若干條新聞的超鏈接(項)。因此,本系統(tǒng)的爬蟲程序首先由起始地址獲取到該網(wǎng)站的目錄,此后再依次對每個目錄進行解析,獲取該目錄的所有項。按此流程進行網(wǎng)頁爬取后,即可獲得所需的新聞數(shù)據(jù)。

3.4 數(shù)據(jù)庫更新頻率

由于新聞具有一定的時效性,因此爬蟲程序需要不斷對網(wǎng)站進行掃描,將新增的網(wǎng)頁加入數(shù)據(jù)庫中。因為教育類新聞的時效性并沒有要點新聞或天氣預(yù)報那么強,因此CollegeNews系統(tǒng)在對數(shù)據(jù)庫進行數(shù)據(jù)更新時,充分考慮了教育新聞的這一特點,并未將更新頻率設(shè)計得過快,避免給服務(wù)器和網(wǎng)絡(luò)帶寬帶來太大的壓力。本系統(tǒng)以一定的頻率對種子URL集合中的網(wǎng)站起始地址進行檢查,若掃描到新發(fā)布的新聞,則繼續(xù)聚焦爬蟲程序,將新增的網(wǎng)頁添加到數(shù)據(jù)庫中;否則,中斷本次掃描,等待下一次檢查。

四、總結(jié)

CollegeNews系統(tǒng)將聚焦爬蟲技術(shù)與高校教育類新聞應(yīng)用將結(jié)合,實現(xiàn)了獲取相關(guān)主題新聞時,將系統(tǒng)運行效率與數(shù)據(jù)獲取準確性相結(jié)合的目的,具有較高的實用價值。

猜你喜歡
萬維網(wǎng)爬蟲搜索引擎
利用網(wǎng)絡(luò)爬蟲技術(shù)驗證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
5 Fast Facts About the World Wide Web on Its 30th Birthday萬維網(wǎng)30年:小知識一覽
英語世界(2019年7期)2019-09-10 07:22:44
萬維網(wǎng)30歲,創(chuàng)始人發(fā)公開信表達“不滿意”
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
廣告主與搜索引擎的雙向博弈分析
搜索,也要“深搜熟濾”
越西县| 洪江市| 丽水市| 桦南县| 合川市| 遂昌县| 富川| 卢氏县| 昌邑市| 绥中县| 怀远县| 巴里| 商河县| 高青县| 施甸县| 乌鲁木齐县| 曲水县| 沙坪坝区| 通道| 勃利县| 右玉县| 抚远县| 吉林省| 吴旗县| 同心县| 武威市| 屯门区| 都昌县| 博乐市| 驻马店市| 宜阳县| 晋州市| 咸宁市| 宁陕县| 安远县| 阿合奇县| 秭归县| 广安市| 富民县| 巴青县| 凤庆县|