国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向地震宏觀異常的主題爬蟲研究1

2013-11-26 06:47:38張曉東
震災防御技術 2013年4期
關鍵詞:異?,F(xiàn)象爬蟲宏觀

方 帥 李 林 張曉東

(中國農業(yè)大學信息與電氣工程學院,北京 100083)

引言

隨著現(xiàn)代社會信息技術的發(fā)展,互聯(lián)網已經超過報紙和電視等傳統(tǒng)媒體,成為公眾傳播和獲取信息最迅速的傳播平臺。地震信息作為公眾十分關注的熱點信息,在網絡上也有著極高的傳播量,并且在地震發(fā)生的前后一段時間內具有爆炸性的增長。在這些地震信息中,有一類信息是描述地震宏觀異?,F(xiàn)象的,這類信息與地震的發(fā)生之間存在相關性,因此許多科學家致力于研究如何獲取網絡上的宏觀異常信息,并篩選和評價網絡上的這些地震宏觀異常信息,以期對地震的預測預報服務。網絡宏觀異常信息和其他網絡信息一樣日益龐大,采用傳統(tǒng)的人工檢索的方式采集這類信息無疑費時費力,這就要求我們采用一種新的自動采集方式來獲取這類信息。

傳統(tǒng)的網絡信息自動獲取技術,主要指網絡爬蟲技術。通過網絡爬蟲,可以盡可能多地爬取網絡信息頁面,在搜索引擎等信息檢索領域有著重大應用。但這種技術在獲取特定的網絡信息,例如地震宏觀異?,F(xiàn)象時,依然會采取原有的信息采集方式,消耗大量系統(tǒng)資源、網絡帶寬和時間,如何提高信息采集效率是本文的研究內容。本文旨在使用主題爬蟲技術,改進原有的網絡爬蟲信息獲取方式,提高特定事件信息的獲取效率。

1 主題爬蟲技術簡介

網絡爬蟲是一種根據既定規(guī)則自動抓取網頁信息的程序或者腳本。它從一個初始的URL鏈接或者URL集開始訪問,將訪問到的網頁或者網絡文檔中所包含的URL放入待訪問的URL隊列中,之后從隊列中取出URL繼續(xù)訪問,然后重復以上活動,直至滿足結束條件為止。

主題爬蟲是在網絡爬蟲技術上發(fā)展而來的,主要通過對頁面內主題內容的鑒別,確定爬蟲URL訪問順序,并且根據對主題的判定,確定頁面的取舍。因此主題爬蟲的核心內容是爬取策略的選取。主要的爬取策略分為三大類:基于文本啟發(fā)式的策略;基于Web連接分析的策略;基于分類器的策略。

基于文本的啟發(fā)式的策略是最早出現(xiàn)的主題爬蟲采用的策略。1994年,Debra等(1994)提出了一種主題爬蟲的雛形,名為Fish Search。1998年,Hersovicim等(1998)在Fish Search基礎上改進提出了Shark Search算法。同年,Cho等(1998)也提出了Best First Search算法,他利用了已爬取的網頁進行待訪問網頁主題相關性的預測,從而確定URL的訪問順序。

基于Web連接分析的策略,起源于Brin等(1998)的Page Rank算法,這個算法用于Google搜索引擎的搜索結果排序。利用PR值可以方便地調整URL訪問序列,但問題是網絡重要度更大的網頁不一定與主題相關。

基于分類器的策略,主要基于幾種常用的分類數(shù)學模型,如:SVM分類器、貝葉斯分類器、BP神經網絡分類器等。例如:1999年Chakrabarti提出了基于樸素貝葉斯分類法,這個分類器在只有一個主題的爬蟲系統(tǒng)中效果很好,對于爬取的網頁可以進行準確的分類。

上述幾類爬取策略在實現(xiàn)難度,適用領域,算法效率方面都有不同的優(yōu)缺點。對于不同主題,應當充分考慮目標主題及目標信息的特點,選取合適的爬取策略,設計有針對性的主題爬蟲。對于地震宏觀異?,F(xiàn)象這個主題而言,可能發(fā)生異常的事物主體在以往的資料中多有記錄,因此可以采取文本啟發(fā)式的策略,將與地震宏觀異?,F(xiàn)象有關的詞語作為主題描述詞,挖掘頁面內容與主題描述詞組的相關性,利用Best First Search的方式預測待訪問網頁鏈接的主題相關性,從而形成符合地震宏觀異常現(xiàn)象主題的主題爬蟲爬取策略,并獲取網絡中的地震宏觀異常信息。

2 主題爬蟲方案設計

2.1 主題爬蟲框架

本文設計的主題爬蟲是在Heritrix的基礎上進行的二次開發(fā)。Heritrix是Source Forge上的開源產品,是一個JAVA語言下的爬蟲框架。它是由一系列組件構成的,開發(fā)者可以根據自己的需要方便地修改和擴展各個組件,來定制一個屬于自己的爬蟲。Heritrix主要包括:范圍部件、邊界部件、處理器鏈。范圍部件主要根據規(guī)則決定進入訪問隊列的 URL;邊界部件跟蹤將被訪問的URL和已訪問的URL,選擇下一個待訪問的 URL鏈接,去除已處理的URL;處理器鏈包含幾個處理器獲取URL,分析結果并將其傳給邊界部件(孫庚等,2010)。Heritrix的框架構圖如圖1所示。

圖1 Heritrix框架圖Fig. 1 Framework of Heritrix

從圖1可以看到Heritrix的主要組件:CrawlOrder、CrawlController、Frontier、Processor Chains。Heritrix的工作流程為:CrawlController是Heritrix的控制器,由它開始一次任務;CrawlOrder決定這次抓取工作的起點,從Frontier取出URL,傳遞給ProcessorChains中的線程池;ProcessorChains控制爬取線程,訪問并返回網頁信息,從中獲取發(fā)現(xiàn)新的URL交由Frontier;Frontier通過對ProcessorChains下載的網頁分析并獲取新的URL,根據訪問策略提供新的URL給CrawlOrder,繼續(xù)爬取工作。當滿足任務結束條件時,由CrawlController結束整個任務。

初始 URL集應當選擇與地震宏觀異常信息相關的網站,通過對網絡上地震相關網站的查詢與搜集,共選擇198個地震專業(yè)網站,24個新聞門戶網站作為初始的URL集。對于定制的主題爬蟲,根據爬取策略和主題內容重寫Frontier組件即可。在Frontier組件中,有三個接口是實現(xiàn)地震宏觀異常主題判別與爬取策略的關鍵,它們分別是:Finished、Schedule、Next。Finished接口負責分析ProcessorChains下載的頁面,從中取出URL,而計算主題相關性正需要進行頁面分析,因此需要在這里重寫該接口,添加相關度計算模塊,利用地震宏觀異常主題描述詞組與相關度計算算法,計算該頁面的主題相關度與頁面內URL鏈接的相關度。之后,根據計算出的相關度,利用Schedule接口調度 URL隊列,最后利用Next取出需要爬取的URL交予CrawlOrder,實現(xiàn)爬蟲的主題判別與爬取策略。

2.2 地震宏觀異常主題的表示

所謂地震的宏觀異?,F(xiàn)象,就是人的感官可以直接察覺到的,或者利用一些簡單的工具可以觀測到的與地震的發(fā)生具有一定聯(lián)系的自然現(xiàn)象。地震的宏觀異常現(xiàn)象表現(xiàn)形式復雜多樣,根據國內外有關資料,異常的種類多達幾百種,異常的現(xiàn)象多達幾千種,大體上可分為動植物異常、地下水異常、地形變異常、電磁異常、氣象異常等。通過對一些國內權威機構出版的地震宏觀異常資料查閱分析,共得出10大類,216小類異常現(xiàn)象(中國地震局監(jiān)測預報司,2010)。

由于網絡上的地震宏觀異常信息主要以文本信息為主,所以已確定的異?,F(xiàn)象類別選取一定數(shù)量的關鍵詞用于描述地震宏觀異?,F(xiàn)象這個主題。一條完整且有價值的地震宏觀異?,F(xiàn)象應當具備時間、地點、事物主體、經過、結果五大組成部分。其中與地震異常相關的主要是事物主體、經過、結果三個部分。由于地震宏觀異常的具體現(xiàn)象種類繁多,對單一事物某類行為是否屬于地震宏觀異常需要特別分析,在此主要選擇可能發(fā)生地震宏觀異常現(xiàn)象的事物主體作為主題相關詞。同時,為了確保異常信息與地震相關,最好采集到的信息已經包含對該現(xiàn)象是否是地震宏觀異常現(xiàn)象的判斷。關鍵詞的選取如表1所示。

表1 地震宏觀異?,F(xiàn)象主題關鍵詞Table 1 Keywords of earthquake macro-anomaly

2.3 主題相關度計算

主題相關度的計算應當達到兩個方面的目的:判別當前頁面的相關性;預測待訪問URL的相關性。

2.3.1 當前頁面相關性

由于主題關鍵詞已經確定,因此計算主題相關性采取向量空間模型的方法較好,可以將關鍵詞中的詞語視為該向量空間的特征。因此對于關鍵詞組有特征向量:

式中,MainKeyWords為異常的事物主體關鍵詞組特征向量;ExtreKeyWords為異常判別的關鍵詞組特征向量。

對于一個頁面而言,由于其結構化的特性,包含了不同的內容塊,如:導航塊、廣告塊、主體塊等,因此可以利用頁面標簽及內容對頁面進行分塊??梢缘玫巾撁鎯热輭K的特征向量:

通過以上步驟,可以將當前待處理的頁面文本特征化,使用向量表示當前頁面。之后使用向量夾角余弦來計算主題相關度:

式中,w代表權值,對于不同向量的權值,其計算公式也不同。

同時,由于頁面文本分為不同的文本塊,因此對于異常的事物主體關鍵詞組特征向量MainKeyWords,其第i個特征權值有:

式中,,ijtf為關鍵詞i在j內容塊中的詞頻;itl為第i個關鍵詞的詞長;jcbL為j內容塊的文本長度;jcbi為j內容塊的重要度。計算方法為該部分頁面代碼占頁面內總代碼的百分比。

對于異常判別的關鍵詞組特征向量ExtreKeyWords,其第i個特征權值有:

由于異常判別這類關鍵詞并不是必需的,因此為防止頁面中未出現(xiàn)該類關鍵詞時,該權值為0,故設其權值+1。

對于頁面內容塊的特征向量ContentBlock,其第i個特征權值有:

通過上述算法可以計算得出當前頁面的相關度Topic。設閾值M,當Topic>M時,則認為當前頁面符合地震宏觀異常現(xiàn)象這個主題,保存它的頁面內容,URL鏈接,主題相關度值、標題、時間等信息,以便進一步爬取和進行下一步信息處理。這里的M值將由試驗確定。

2.3.2 URL相關性

得到頁面的相關度后,需要對頁面內的URL進行預測及排序。URL相關度的計算一般考慮URL地址、錨文本、上下文相關度,在這里考慮錨文本和上下文相關度,使用頁面相關度作為上下文相關度(劉朋等,2009)。其計算公式為:

式中,itnf、itmf分別為事物主體關鍵詞和異常判別關鍵詞的詞頻;itnl、itml為事物主體關鍵詞和異常判別關鍵詞的詞長;urlL為錨文本長度。

通過計算Topicurl并與URL隊列中非初始URL比較排序,然后插入URL隊列相應的位置中。至此,完成URL訪問策略的制定與主題相關度的計算,進入常規(guī)的爬蟲工作流程。對于Heritrix,其URL隊列的控制主要由Frontier組件完成,因此重寫Frontier組件中相應接口即可,主要是負責ProcessorChains中完成URL的下載后進行鏈接抽取和頁面相關度計算的Finished,以及負責處理URL隊列的Schedule和負責提供下一個Next。

3 實驗分析

實驗的目的主要是為了確定頁面相關度的閾值R以及比較添加主題相關性預測的爬蟲,和為具備此項功能的爬蟲采集結果,共設計了兩項實驗。實驗環(huán)境為臺式PC機,中央處理器為core2雙核2.7GHz,2G內存,32位WIN7操作系統(tǒng)。所使用的Heritrix爬蟲為1.14.4版本,在Eclipse環(huán)境下,采用的JRE1.7版本。

第一項實驗為確定頁面相關度的閾值R,設定爬取線程為10,爬取深度為3,時間為900s,分別設定R值為0.1、0.3、0.5、0.7、0.9時進行爬取,結果如表2所示。

表2 閾值R實驗結果Table 2 Experimental results of threshold value R

由該實驗結果可以看出,當R值超過0.5后,符合主題的網頁急速減少,說明主題爬蟲的針對性更強。因此若想獲取更加準確的網頁,應當將R值設置超過0.5。

第二項實驗為測試主題爬蟲與傳統(tǒng)爬蟲的效果比較。設定主題爬蟲R為0.5,利用相關度計算模塊計算傳統(tǒng)爬蟲的爬取結果,實驗時間為900s,結果如表3所示。

表3 主題爬蟲效果實驗結果Table 3 Experimental results of the topic crawler

由表3可以看出,雖然主題爬蟲在單位時間內爬取數(shù)量不及傳統(tǒng)爬蟲,但獲取符合要求的信息的效率大大強于傳統(tǒng)爬蟲,這說明主題爬蟲在面向地震宏觀異常現(xiàn)象這個主題的網絡信息獲取方面具有優(yōu)勢。

4 結束語

主題爬蟲是較好的地震宏觀異?,F(xiàn)象信息的自動采集方式,但是其爬取策略的制定和主題相關性的判別依然是問題的難點。由于地震宏觀異?,F(xiàn)象本身的復雜多樣,目前的主題表述仍然是不足的,因此需要進一步的研究,豐富主題關鍵詞組,在主題相關性上進行進一步優(yōu)化,這樣的主題爬蟲將能夠更好地解決地震信息采集問題。

劉朋,林泓,高德威,2009. 基于內容和鏈接分析的主題爬蟲策略. 計算機與數(shù)字工程,37(1):22—26.

孫庚,馮艷紅,于紅等,2010. 一種基于Heritrix的網絡主題爬蟲算法——以漁業(yè)信息網絡為例. 軟件導刊,(5):47—49.

中國地震局監(jiān)測預報司,2010. 地震宏觀異常摘編. 北京:地震出版社.

Brin S., Page L., 1998. The anatomy of a large-scale hypertexual Web search engine. See: B. Furht. Proc. of the 7th World Web Conference, Brisbane [sn]. 30 (1): 107—117.

Cho J., Garciam H., Page L., 1998. Efficient crawling through URL ordering. See: Computer Networks and ISDN Systems. 30 (17): 161—172.

Debra P., HouBen G., Kornatzky Y. et al., 1994. Information retrieval in distributed hypertexts. See: M. Diligenti.Proc. of the 4th Riao Conference, NewYork. 23 (25): 481—491.

Hersovicim, Jacovim, Maarekys, 1998. The Shark-Search algorithm: an application tailored Web sitemapping. See:H. Philip. Proc. of the 7th International World Wide Web Conference, Brisbane [sn]. 2 (10): 65—74.

猜你喜歡
異?,F(xiàn)象爬蟲宏觀
利用網絡爬蟲技術驗證房地產灰犀牛之說
基于Python的網絡爬蟲和反爬蟲技術研究
利用爬蟲技術的Geo-Gnutel la VANET流量采集
電子測試(2018年1期)2018-04-18 11:53:04
變壓器運行中的異常現(xiàn)象與故障處理
電子制作(2017年7期)2017-06-05 09:36:14
大數(shù)據環(huán)境下基于python的網絡爬蟲技術
電子制作(2017年9期)2017-04-17 03:00:46
宏觀與政策
前向散射能見度儀的常見異常現(xiàn)象處理及日常維護
宏觀
河南電力(2016年5期)2016-02-06 02:11:23
DYF387S1基因座分型異常現(xiàn)象
食管疾病(2015年3期)2015-12-05 01:45:11
RFCCU泵組水聯(lián)運異常現(xiàn)象原因分析及處理
庆云县| 许昌市| 敦化市| 乌鲁木齐市| 陇西县| 沅江市| 沈阳市| 鹿邑县| 陇南市| 和顺县| 方城县| 临桂县| 三原县| 涟水县| 南川市| 通渭县| 东乡族自治县| 桐庐县| 顺昌县| 翁牛特旗| 厦门市| 灵丘县| 阆中市| 南陵县| 雷山县| 利川市| 辽源市| 赤城县| 兰考县| 永靖县| 濉溪县| 泽普县| 阳新县| 保德县| 民权县| 江门市| 新兴县| 宜川县| 临湘市| 蒙城县| 察哈|