繆治 任敏敏
摘要:在網(wǎng)絡(luò)爬蟲的地理空間信息的采集方法上,也就是說(shuō)在網(wǎng)絡(luò)的環(huán)境下對(duì)地理空間信息進(jìn)行獲取和相關(guān)資料的搜集工作,對(duì)于地理空間信息的研究具有十分重要的作用,是地理空間研究領(lǐng)域獲取信息最為重要的途徑之一。在網(wǎng)絡(luò)空間下對(duì)數(shù)據(jù)的主題信息的采集工作是進(jìn)行地理空間信息采集的重要工作內(nèi)容,是地理空間信息進(jìn)行研究最基本的根據(jù)之一。數(shù)據(jù)網(wǎng)絡(luò)中,對(duì)于地理空間信息的采集具有以下幾個(gè)特點(diǎn):一是數(shù)據(jù)采集主題的門類比較多,采集的方法各種各樣,數(shù)據(jù)的格式也是千差萬(wàn)別,對(duì)于如何快速、準(zhǔn)確、高效地獲取地理空間信息來(lái)說(shuō)是一個(gè)復(fù)雜的問(wèn)題。
關(guān)鍵詞:信息采集;網(wǎng)絡(luò)爬蟲;地理空間;采集方法
中圖分類號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)18-0009-02
Abstract: In terms of the collection method of Geospatial information of web spiders, that is to say, the acquisition of Geospatial Information and the collection of relevant data in the network environment play a very important role in the research of Geospatial information, and is one of the most important ways to obtain information in the field of Geospatial Information. The collection of the subject information of the data in the network space is an important work of Geospatial information collection and is one of the most basic bases of Geospatial information research. In the data network, the collection of Geospatial information has the following characteristics: first, the subject of data collection is more categories, collection methods are various, the format of data is also varied, for how to quickly, accurately and efficiently obtain Geospatial information is a complex problem.
Key words: information collection; web spider; geographic space; collection method
隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,信息化的社會(huì)發(fā)展已經(jīng)進(jìn)入了大數(shù)據(jù)的發(fā)展時(shí)代,人們可以通過(guò)信息的采集發(fā)現(xiàn)用戶的喜好,進(jìn)而進(jìn)行精準(zhǔn)化的營(yíng)銷活動(dòng)。而在網(wǎng)絡(luò)空間上,地理信息的相關(guān)主題變得越來(lái)越多,除了谷歌以及百度地圖、高德地圖等符合標(biāo)準(zhǔn)之外,還有一些網(wǎng)絡(luò)服務(wù),例如:開放大學(xué)的圖書館也包含了地理空間的信息。在開放大學(xué)的地理空間信息的獲取上需要從半結(jié)構(gòu)化或者結(jié)構(gòu)化的網(wǎng)頁(yè)中抽取數(shù)據(jù),然后對(duì)數(shù)據(jù)進(jìn)行信息上的采集和轉(zhuǎn)化才可以對(duì)數(shù)據(jù)進(jìn)行使用和挖掘,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的利用。相對(duì)于開放大學(xué)的這種數(shù)據(jù)收集方式特性,網(wǎng)絡(luò)爬蟲可以很好地解決這一類問(wèn)題,對(duì)數(shù)據(jù)實(shí)現(xiàn)精準(zhǔn)的信息采集,然后根據(jù)數(shù)據(jù)有關(guān)需要和要求,將數(shù)據(jù)存入到相應(yīng)的數(shù)據(jù)庫(kù)中去,為日后的采集工作提供便利,同時(shí)也為構(gòu)建地理信息的主題信息檢索提供了另一種路徑,提供數(shù)據(jù)更為深層次的數(shù)據(jù)檢索。
1 網(wǎng)絡(luò)爬蟲的基本概念
網(wǎng)絡(luò)爬蟲就是一個(gè)可以自動(dòng)對(duì)網(wǎng)頁(yè)內(nèi)容進(jìn)行提取的程序,它主要是根據(jù)搜索引擎的指示從網(wǎng)站上下載網(wǎng)頁(yè)數(shù)據(jù),從這個(gè)角度來(lái)看,網(wǎng)絡(luò)爬蟲也是搜索引擎的關(guān)鍵組成部分,網(wǎng)絡(luò)爬蟲的基本工作原理是從一個(gè)目標(biāo)站點(diǎn)出發(fā),舉例來(lái)說(shuō)就是在一個(gè)固定的門戶網(wǎng)站上對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)的搜集。然后通過(guò)網(wǎng)絡(luò)的協(xié)議獲取網(wǎng)頁(yè)的資源,分析頁(yè)面的內(nèi)容和及時(shí)的提取出相關(guān)數(shù)據(jù)的鏈接,以循環(huán)迭代的方式對(duì)整個(gè)數(shù)據(jù)網(wǎng)絡(luò)進(jìn)行目標(biāo)的訪問(wèn)。網(wǎng)絡(luò)爬蟲對(duì)于數(shù)據(jù)的采集以及訪問(wèn)是具有一定目標(biāo)的,可以精準(zhǔn)地找到內(nèi)容,同時(shí)將有關(guān)的內(nèi)容及時(shí)存入數(shù)據(jù)庫(kù)中,為地理信息空間的采集提供了一定便利,同時(shí)可以按照數(shù)據(jù)規(guī)定的格式對(duì)采取到的數(shù)據(jù)進(jìn)行分類儲(chǔ)存。
網(wǎng)絡(luò)爬蟲工作最為基本的步驟,如圖1所示。網(wǎng)絡(luò)爬蟲最開始是通過(guò)最基本的搜索引擎找到預(yù)定目標(biāo)的網(wǎng)絡(luò),然后通過(guò)網(wǎng)絡(luò)加入目標(biāo)的網(wǎng)頁(yè)中去,之后網(wǎng)絡(luò)爬蟲就開始按照既定的流程去進(jìn)行工作了。首先對(duì)網(wǎng)站的網(wǎng)址進(jìn)行讀取,然后根據(jù)對(duì)網(wǎng)站網(wǎng)頁(yè)數(shù)據(jù)的訪問(wèn)讀取網(wǎng)頁(yè)的內(nèi)容,對(duì)于系統(tǒng)化、結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行采集以及搜集,抽取目標(biāo)化的數(shù)據(jù)內(nèi)容。之后是解析網(wǎng)頁(yè)內(nèi)容里面包含的其他的網(wǎng)址,通過(guò)一定的算法對(duì)有關(guān)的數(shù)據(jù)進(jìn)行判斷,是否已經(jīng)對(duì)數(shù)據(jù)進(jìn)行有關(guān)解讀工作。如果網(wǎng)絡(luò)中的網(wǎng)址沒(méi)有對(duì)數(shù)據(jù)進(jìn)行抓取,就將其放入這個(gè)未抓入隊(duì)列中去,如果已經(jīng)對(duì)數(shù)據(jù)進(jìn)行搜集和抓取就要計(jì)入已經(jīng)抓取的范圍中去,然后對(duì)數(shù)據(jù)的搜集以及抓取工作進(jìn)行循環(huán)的工作,直到網(wǎng)絡(luò)的隊(duì)列為空。網(wǎng)絡(luò)爬蟲的優(yōu)點(diǎn)就是可以精準(zhǔn)的搜集網(wǎng)絡(luò)的相關(guān)的網(wǎng)頁(yè),排除很多沒(méi)有必要或者不相關(guān)的網(wǎng)頁(yè),實(shí)現(xiàn)滿足人們對(duì)于信息搜素的精確性的要求與精準(zhǔn)化搜索的目的。
2 利用網(wǎng)絡(luò)爬蟲進(jìn)行地理空間信息采集的工作流程
利用網(wǎng)絡(luò)爬蟲對(duì)地理空間信息進(jìn)行采集已經(jīng)成為網(wǎng)絡(luò)工作中的重要的途徑之一,對(duì)于采集空間信息具有重要的作用,具體的工作的流程參考圖2。
對(duì)獲取的地理空間信息進(jìn)行引擎搜索與有關(guān)的網(wǎng)頁(yè)的匹配度。
第一,通過(guò)人工的查看以及有關(guān)技術(shù)干預(yù)的方式,對(duì)網(wǎng)絡(luò)爬蟲搜集出來(lái)的相關(guān)的網(wǎng)頁(yè)進(jìn)行提前的預(yù)判斷,進(jìn)一步提供網(wǎng)絡(luò)爬蟲查找數(shù)據(jù)與網(wǎng)頁(yè)相關(guān)度檢索,提高與關(guān)鍵詞的相關(guān)度,最后確立需要進(jìn)行地理空間信息的采集的目標(biāo)的網(wǎng)站。
第二,利用網(wǎng)絡(luò)爬蟲對(duì)整個(gè)目標(biāo)地理空間信息有關(guān)的文本信息,形成一個(gè)信息搜索的信息庫(kù),進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘和處理,為數(shù)據(jù)提供最為基本的支撐。要賦予搜集的目標(biāo)網(wǎng)站較高的價(jià)值,就需要進(jìn)行持續(xù)的跟蹤,可以利用網(wǎng)絡(luò)爬蟲定期地對(duì)搜集到的網(wǎng)站進(jìn)行信息的爬取,檢測(cè)網(wǎng)站上需要關(guān)注的地理信息,實(shí)現(xiàn)地理空間信息的價(jià)值需要對(duì)信息進(jìn)行自動(dòng)化搜索。
第三,利用網(wǎng)絡(luò)爬蟲對(duì)整個(gè)目標(biāo)地理空間信息有關(guān)的文本信息,形成一個(gè)信息搜索的信息庫(kù),進(jìn)一步對(duì)數(shù)據(jù)進(jìn)行挖掘處理,為數(shù)據(jù)提供最為基本的支撐。
第四,要賦予搜集的目標(biāo)網(wǎng)站較高的價(jià)值,就需要進(jìn)行持續(xù)的跟蹤,可以利用網(wǎng)絡(luò)爬蟲定期對(duì)搜集到的網(wǎng)站進(jìn)行信息的爬取,檢測(cè)網(wǎng)站上需要關(guān)注的地理信息,實(shí)現(xiàn)地理空間信息的價(jià)值需要對(duì)信息進(jìn)行自動(dòng)化搜索。
3 利用scrapy網(wǎng)絡(luò)爬蟲進(jìn)行地理空間信息的采集
把大學(xué)開放網(wǎng)站收錄的地圖網(wǎng)頁(yè)作為目標(biāo)網(wǎng)站進(jìn)行地理信息空間的采集,通過(guò)利用網(wǎng)絡(luò)爬蟲可以構(gòu)建網(wǎng)絡(luò)爬蟲的框架,從相關(guān)的數(shù)據(jù)網(wǎng)站對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)的抓取工作。在爬蟲進(jìn)行數(shù)據(jù)采集工作的時(shí)候,首先,需要建立一個(gè)信息采集項(xiàng)目,在scrapy網(wǎng)絡(luò)爬蟲下進(jìn)行運(yùn)行工作,這項(xiàng)工作會(huì)包括網(wǎng)絡(luò)爬蟲的目錄,對(duì)地圖的信息進(jìn)行掃描。scrapy網(wǎng)絡(luò)爬蟲定義了如何對(duì)網(wǎng)站進(jìn)行數(shù)據(jù)的爬取以及如何對(duì)數(shù)據(jù)進(jìn)行搜集,包括對(duì)數(shù)據(jù)的提取以及對(duì)網(wǎng)絡(luò)的結(jié)構(gòu)化提取的步驟。利用scrapy網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)的提取工作可以對(duì)目標(biāo)網(wǎng)頁(yè)進(jìn)行信息的精準(zhǔn)采集,后續(xù)如果需要對(duì)工作進(jìn)行持續(xù)的跟蹤,可以將該網(wǎng)站加入目標(biāo)的網(wǎng)址,定期對(duì)scrapy網(wǎng)絡(luò)爬蟲的數(shù)據(jù)進(jìn)行搜集與持續(xù)的跟進(jìn)。舉例來(lái)說(shuō):如表1。通過(guò)對(duì)數(shù)據(jù)的關(guān)鍵字的提取,然后網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)搜索,查詢所需要的地址以及對(duì)信息進(jìn)行分類編碼。
4 結(jié)束語(yǔ)
網(wǎng)絡(luò)空間下對(duì)數(shù)據(jù)的主題信息的采集工作是進(jìn)行地理空間信息采集工作的重要的工作的內(nèi)容,是地理空間信息進(jìn)行研究的最為基本的根據(jù)之一,為此,本文對(duì)目前網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)采集的作業(yè)的流程以及對(duì)網(wǎng)絡(luò)爬蟲的數(shù)據(jù)網(wǎng)站的信息的采集的工作流程進(jìn)行了詳細(xì)的探討,提出了網(wǎng)絡(luò)爬蟲進(jìn)行信息采集以及搜集的方法,對(duì)網(wǎng)頁(yè)的數(shù)據(jù)進(jìn)行精準(zhǔn)化的提取,使用這種方法可以對(duì)數(shù)據(jù)進(jìn)行精準(zhǔn)化的提取,提高數(shù)據(jù)的自動(dòng)化的采集程度,為我國(guó)的后續(xù)的地理空間信息的采集工作中的 主題數(shù)據(jù)庫(kù)的信息提供了一定的基礎(chǔ),為數(shù)據(jù)的繼續(xù)對(duì)挖掘提供了支撐。據(jù)采集的主題的門類比較多,對(duì)于如何快速、準(zhǔn)確、高效的獲取地理空間信息來(lái)說(shuō)是一個(gè)問(wèn)題,基于網(wǎng)絡(luò)爬蟲的地理空間信息的采集辦法對(duì)這類問(wèn)題進(jìn)行解決,這種方法在網(wǎng)絡(luò)信息的采集方面具有省時(shí)間、高效以及便捷的優(yōu)點(diǎn),大大地提高了地理空間信息采集的效率,促進(jìn)網(wǎng)絡(luò)數(shù)據(jù)信息采集的精準(zhǔn)化。
參考文獻(xiàn):
[1] 鞏保勝, 魏春苗. 基于網(wǎng)絡(luò)爬蟲的地理空間信息采集方法[J]. 甘肅科技, 2016, 32(7):17-18.
[2] 曾李陽(yáng). 基于分布式網(wǎng)絡(luò)爬蟲的Web空間數(shù)據(jù)獲取與管理方法研究[D]. 西南交通大學(xué), 2016.
[3] 易曉峰.基于WebGIS系統(tǒng)的分布式空間數(shù)據(jù)庫(kù)的集成技術(shù)研究與應(yīng)用[D].武漢理工大學(xué), 2005.
[4] 鐘凱.基于網(wǎng)格的地理空間數(shù)據(jù)庫(kù)訪問(wèn)和操作中間件研究[D].國(guó)防科學(xué)技術(shù)大學(xué),2009.
[5] 馬聯(lián)帥.基于Scrapy的分布式網(wǎng)絡(luò)新聞抓取系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D]. 西安電子科技大學(xué), 2015.
[6] 陶興海.基于Scrapy框架的分布式網(wǎng)絡(luò)爬蟲實(shí)現(xiàn)[J]. 電子技術(shù)與軟件工程, 2017(11):23-23.
[7] 孫歆,戴樺,孔曉昀,等.基于Scrapy的工業(yè)漏洞爬蟲設(shè)計(jì)[J]. 網(wǎng)絡(luò)空間安全, 2017,8(1):66-71.
【通聯(lián)編輯:代影】