面向高校教育新聞的聚焦爬蟲設(shè)計

2015-05-30 16:45:49汪龍飛

中國新通信 2015年23期

汪龍飛

【摘要】介紹利用聚焦爬蟲獲取高校教育新聞的方法。首先介紹聚焦爬蟲的工作原理和相關(guān)技術(shù)，然后介紹如何利用這些原理和技術(shù)獲取高校教育新聞。

【關(guān)鍵詞】聚焦爬蟲移動互聯(lián)網(wǎng)

一、引言

聚焦爬蟲（又稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機器人）是一種按照一定的規(guī)則、自動地抓取萬維網(wǎng)信息的程序或者腳本。隨著網(wǎng)絡(luò)的迅速發(fā)展，萬維網(wǎng)成為大量信息的載體，如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎（Search Engine），作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是，這些通用性搜索引擎也存在著一定的局限性，如：（1）不同領(lǐng)域、不同背景的用戶往往具有不同的檢索目的和需求，通用搜索引擎所返回的結(jié)果包含大量用戶不關(guān)心的網(wǎng)頁。（2）通用搜索引擎的目標是盡可能大的網(wǎng)絡(luò)覆蓋率，有限的搜索引擎服務(wù)器資源與無限的網(wǎng)絡(luò)數(shù)據(jù)資源之間的矛盾將進一步加深。（3）萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡(luò)技術(shù)的不斷發(fā)展，圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn)，通用搜索引擎往往對這些信息含量密集且具有一定結(jié)構(gòu)的數(shù)據(jù)無能為力，不能很好地發(fā)現(xiàn)和獲取。（4）通用搜索引擎大多提供基于關(guān)鍵字的檢索，難以支持根據(jù)語義信息提出的查詢。

為了解決上述問題，定向抓取相關(guān)網(wǎng)頁資源的聚焦爬蟲應(yīng)運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序，它根據(jù)既定的抓取目標，有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關(guān)的鏈接，獲取所需要的信息。與通用爬蟲（general purpose web crawler）不同，聚焦爬蟲并不追求大的覆蓋，而將目標定為抓取與某一特定主題內(nèi)容相關(guān)的網(wǎng)頁，為面向主題的用戶查詢準備數(shù)據(jù)資源。CollegeNews系統(tǒng)是一套包含高校教育類新聞獲取、相應(yīng)數(shù)據(jù)庫建立以及移動端軟件應(yīng)用的系統(tǒng)。在整套系統(tǒng)中，如何獲取與主題相關(guān)的新聞網(wǎng)頁數(shù)據(jù)是至關(guān)重要的一個部分，該部分由聚焦爬蟲程序予以實現(xiàn)。

二、聚焦爬蟲簡介

網(wǎng)絡(luò)爬蟲是一個自動提取網(wǎng)頁的程序，它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁，是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始，獲得初始網(wǎng)頁上的URL，在抓取網(wǎng)頁的過程中，不斷從當(dāng)前頁面上抽取新的URL放入隊列，直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復(fù)雜，需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關(guān)的鏈接，保留有用的鏈接并將其放入等待抓取的URL隊列。然后，它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL，并重復(fù)上述過程，直到達到系統(tǒng)的某一條件時停止。另外，所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯，進行一定的分析、過濾，并建立索引，以便之后的查詢和檢索；對于聚焦爬蟲來說，這一過程所得到的分析結(jié)果還可能對以后的抓取過程給出反饋和指導(dǎo)。

相對于通用網(wǎng)絡(luò)爬蟲，聚焦爬蟲還需要解決三個主要問題：（1）對抓取目標的描述或定義；（2）對網(wǎng)頁或數(shù)據(jù)的分析與過濾；（3）對URL的搜索策略。

抓取目標的描述和定義是決定網(wǎng)頁分析算法與URL搜索策略如何制訂的基礎(chǔ)。而網(wǎng)頁分析算法和候選URL排序算法是決定搜索引擎所提供的服務(wù)形式和爬蟲網(wǎng)頁抓取行為的關(guān)鍵所在。這兩個部分的算法又是緊密相關(guān)的。

三、聚焦爬蟲在獲取高校教育新聞中的應(yīng)用

在CollegeNews系統(tǒng)中，所有的數(shù)據(jù)來源均為高校教育類新聞，因此聚焦爬蟲的功能即為從互聯(lián)網(wǎng)上獲取與高校相關(guān)的新聞，并將相關(guān)內(nèi)容存入系統(tǒng)的數(shù)據(jù)庫中。用戶在使用高校新聞應(yīng)用時，客戶端向系統(tǒng)的服務(wù)器發(fā)送相關(guān)的請求，系統(tǒng)服務(wù)器返回所請求新聞的URL，由客戶端對相應(yīng)的URL進行解析，從而獲取相關(guān)的新聞資訊。通過使用聚焦爬蟲獲取高校新聞的原始數(shù)據(jù)，可以避免傳統(tǒng)爬蟲爬取網(wǎng)頁所帶來的獲取內(nèi)容不符合所需主題、獲取到的無用處的內(nèi)容量過大的問題，對于處理能力較弱的系統(tǒng)來說很有益處。

3.1 需要解決的問題

若想讓聚焦爬蟲完成其功能，首先需要確定合適的種子URL集合，爬蟲自種子URL開始按照一定的搜索策略進行網(wǎng)頁爬取，在網(wǎng)頁爬取的過程中，需要提前確定待爬取頁面與所需主題的相關(guān)程度與重要性，依據(jù)相關(guān)度和重要性決定是否爬取該網(wǎng)頁。最后，還需要解決數(shù)據(jù)的更新周期問題，保證數(shù)據(jù)源的新鮮程度。在解決了上述問題之后，用戶即可獲取合適的新聞數(shù)據(jù)。

3.2 確定合適的種子URL集合

在聚焦爬蟲的算法設(shè)計中，種子URL集合的選取是十分重要的一環(huán)。如果選取的種子URL集合不合適，可能會導(dǎo)致程序爬取大量與主題無關(guān)的數(shù)據(jù)，造成系統(tǒng)資源的浪費。

在CollegeNews系統(tǒng)中，為了充分保證系統(tǒng)的運行效率，即盡量避免爬取非高校教育新聞的網(wǎng)頁，在構(gòu)建種子URL集合時，采用使用指定起始網(wǎng)頁的方式，選擇了各類高校及相關(guān)新聞的入口地址作為起始網(wǎng)頁，從而確保了初始網(wǎng)頁的

在爬蟲運行的過程中，另一個重要的問題是如何去除已經(jīng)獲取過的重復(fù)頁面。該問題又可以分解為兩個部分：一是在某次爬蟲程序運行的過程中，如何去除本次運行已經(jīng)獲取過的頁面；二是在某次爬蟲程序運行的過程中，如何去除過往運行后已經(jīng)獲取過的頁面。針對第一個問題，本系統(tǒng)在每次爬蟲程序運行時，都會將已經(jīng)爬取過的網(wǎng)頁和尚未爬取的網(wǎng)頁分別存在兩個哈希表中，聚焦爬蟲每爬取一個網(wǎng)頁，會先比較該網(wǎng)頁是否存在于已經(jīng)爬取網(wǎng)頁的哈希表中，若不存在，則進行爬取操作。操作完成后，將該網(wǎng)頁從尚未爬取網(wǎng)頁的哈希表中刪除，同時添加到已經(jīng)爬取網(wǎng)頁的哈希表中。針對第二個問題，本系統(tǒng)在每次運行爬蟲程序時會預(yù)先設(shè)定一個閾值，同時爬蟲程序中也會設(shè)定一個初始的計數(shù)值為0。每當(dāng)爬蟲程序向數(shù)據(jù)庫中添加一條新數(shù)據(jù)，若數(shù)據(jù)庫返回重復(fù)信息，則將計數(shù)值加一。若下一個網(wǎng)頁不是重復(fù)網(wǎng)頁，則將計數(shù)值清零。直到計數(shù)值大于閾值后，認定所有新網(wǎng)頁已經(jīng)獲取完畢，結(jié)束本次爬取。

3.3 網(wǎng)頁搜索策略

一般而言，爬蟲程序的網(wǎng)頁搜索策略可以分為以下三種：深度優(yōu)先搜索、廣度優(yōu)先搜索和最佳優(yōu)先搜索。本系統(tǒng)的搜索策略充分考慮了新聞類網(wǎng)站的結(jié)構(gòu)特點，使用了深度優(yōu)先與最佳優(yōu)先相結(jié)合的搜索方法。

如前所述，本系統(tǒng)爬蟲程序的起始地址為各類高校及相關(guān)新聞的入口地址，以此實現(xiàn)局部最優(yōu)效果。由于絕大部分新聞類網(wǎng)站的結(jié)構(gòu)為目錄式結(jié)構(gòu)，即網(wǎng)站由若干頁面（目錄）組成，每個頁面含有若干條新聞的超鏈接（項）。因此，本系統(tǒng)的爬蟲程序首先由起始地址獲取到該網(wǎng)站的目錄，此后再依次對每個目錄進行解析，獲取該目錄的所有項。按此流程進行網(wǎng)頁爬取后，即可獲得所需的新聞數(shù)據(jù)。

3.4 數(shù)據(jù)庫更新頻率

由于新聞具有一定的時效性，因此爬蟲程序需要不斷對網(wǎng)站進行掃描，將新增的網(wǎng)頁加入數(shù)據(jù)庫中。因為教育類新聞的時效性并沒有要點新聞或天氣預(yù)報那么強，因此CollegeNews系統(tǒng)在對數(shù)據(jù)庫進行數(shù)據(jù)更新時，充分考慮了教育新聞的這一特點，并未將更新頻率設(shè)計得過快，避免給服務(wù)器和網(wǎng)絡(luò)帶寬帶來太大的壓力。本系統(tǒng)以一定的頻率對種子URL集合中的網(wǎng)站起始地址進行檢查，若掃描到新發(fā)布的新聞，則繼續(xù)聚焦爬蟲程序，將新增的網(wǎng)頁添加到數(shù)據(jù)庫中；否則，中斷本次掃描，等待下一次檢查。

四、總結(jié)

CollegeNews系統(tǒng)將聚焦爬蟲技術(shù)與高校教育類新聞應(yīng)用將結(jié)合，實現(xiàn)了獲取相關(guān)主題新聞時，將系統(tǒng)運行效率與數(shù)據(jù)獲取準確性相結(jié)合的目的，具有較高的實用價值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

面向高校教育新聞的聚焦爬蟲設(shè)計