基于Python的Web數(shù)據(jù)獲取及實現(xiàn)

2022-01-17 06:20徐亮亮

電子元器件與信息技術(shù) 2021年9期

徐亮亮

（常州鐵道高等職業(yè)技術(shù)學校，江蘇常州 213011）

0 引言

隨著網(wǎng)絡(luò)科學技術(shù)的不斷發(fā)展，我們的生活被各種媒介包圍著，也在各個方面得到數(shù)據(jù)網(wǎng)絡(luò)的支持。而經(jīng)過網(wǎng)絡(luò)采集的系統(tǒng)數(shù)據(jù)，人們對于容量極其龐大的互聯(lián)網(wǎng)世界，也越來越追求其所帶來的時效性的應(yīng)用價值。

采集是進行大數(shù)據(jù)處理的最基礎(chǔ)的一個環(huán)節(jié)，但也同樣是所有后續(xù)信息進行分析挖掘的基礎(chǔ)前提。所以做好數(shù)據(jù)信息的采集可以為數(shù)據(jù)的深入價值提供優(yōu)質(zhì)的條件。對數(shù)據(jù)信息的采集的方法和過程由于信息種類的不同，也會有所區(qū)別。有些是直接對網(wǎng)絡(luò)信息進行直接收集，有些則是在特定設(shè)置的傳感器的作用基礎(chǔ)上，得到數(shù)據(jù)信息。諸如一些交通攝像頭中，就會裝置特定的GPS或者是交通規(guī)則智能感應(yīng)捕捉系統(tǒng)，又或者是停車是否在規(guī)定位置的感應(yīng)識別系統(tǒng)，都會對相應(yīng)的交通情況做出信號數(shù)據(jù)信息的采集，再進行相應(yīng)的系統(tǒng)識別處理。本文的研究設(shè)計是針對各種網(wǎng)絡(luò)中的網(wǎng)站、論壇、博客等進行的網(wǎng)絡(luò)搜索界面的信息智能捕捉，清洗過濾掉無價值信息，將包括用戶訪問網(wǎng)頁時的瀏覽歷史圖片文字信息以及瀏覽時長日期等數(shù)據(jù)，然后再結(jié)合個人身份信息進行分類歸納存儲。

本文的設(shè)計主要是利用Pvthon編程語言為基礎(chǔ)，全球廣域網(wǎng)Web為信息收集對象，分析了該網(wǎng)站在HTTP網(wǎng)絡(luò)協(xié)議下的網(wǎng)頁界面的信息抓取原理，并將scrapy框架實驗應(yīng)用于淘寶軟件中，證實web進行matplotlib可視化抓取顯示于頁面上的數(shù)據(jù)操作效率有所提高

1 Web大數(shù)據(jù)采集技術(shù)

1.1 web數(shù)據(jù)抓取

Web數(shù)據(jù)抓取技術(shù)是利用某種編程方法對網(wǎng)絡(luò)頁面信息收集并加以智能篩選提取的一種方法。該技術(shù)是一種模擬瀏覽網(wǎng)站后臺管理人員的操作，獲取網(wǎng)頁中經(jīng)過特定編程呈現(xiàn)的格式化瀏覽信息，包括JSON、access結(jié)構(gòu)格式化的信息，然后再通過相關(guān)技術(shù)軟件的分析提取處理，去除除了文字信息外的框架，提煉純粹的非結(jié)構(gòu)化信息數(shù)據(jù)，并統(tǒng)一格式保存在文件當中[1-2]。

1.2 web數(shù)據(jù)抓取的方法

隨著人們對網(wǎng)絡(luò)信息需求的增大，網(wǎng)絡(luò)信息的種類趨向于復(fù)雜化，更多的信息在網(wǎng)站頁面的嵌入呈現(xiàn)方式也更豐富多元。網(wǎng)絡(luò)信息的呈現(xiàn)不只是網(wǎng)頁表面的本體圖文數(shù)據(jù)信息，還包括網(wǎng)頁瀏覽操作對象的之外的個人信息，這些個人信息可以顯示操作者此時的地理位置、登錄賬號信息、瀏覽時長等等[3]。此外，還有一些對網(wǎng)站搜索查詢時的信息。對于這些信息的獲取，需要的不僅僅是行之有效對應(yīng)的操作手法，對于一些不規(guī)則隱藏的數(shù)據(jù)信息，也要有相應(yīng)的對策方式才能夠?qū)撛谏钊氲男畔⒂行Ь_提出來，發(fā)揮其重要價值。

1.3 webscraping的作用

傳統(tǒng)人工對網(wǎng)頁信息的抓取方式可能就是普通常見的復(fù)制方式，很容易出現(xiàn)文字遺漏現(xiàn)象，又或者是復(fù)制信息不到位不準確錯誤的現(xiàn)象。所以相對于這種現(xiàn)象，webscraping技術(shù)相對來說是利用計算機軟件程序進行信息的獲取，排除人工干預(yù)情況的發(fā)生，提高效率。傳統(tǒng)人工信息抓取需要滿足瀏覽器頁面對相關(guān)結(jié)構(gòu)化HTML數(shù)據(jù)協(xié)議，在復(fù)制相對應(yīng)的格式文字過程中，要下載經(jīng)渲染排布的網(wǎng)絡(luò)結(jié)構(gòu)，局限性相對很大，有的甚至設(shè)置不可抓取的格式，就難以完成基礎(chǔ)的信息采集操作[4]。而針對這種情況，webscraping技術(shù)通過本身的設(shè)置代碼操作，一系列的程序呈現(xiàn)都會自動生成，只需進行HTML數(shù)據(jù)抓取即可，提高精確度，在出現(xiàn)信息抓取錯誤時，軟件機制還能夠自我修改糾正。

2 基于Python的web數(shù)據(jù)采集的實現(xiàn)原理

2.1 機理

Python的計算機語言程序在編程中是對各種操作對象進行直接運行的方式，數(shù)據(jù)庫容量大、功能強大。相對于其他設(shè)計語言，Python的計算機語言對于使用編寫者來說更加的清晰易懂，所以對其修改維護也就越方便，這對于web scrapin技術(shù)的開發(fā)應(yīng)用就帶來了的未來可操作性[5]。所以使用該計算機語言進行編程，可以為web scraping開發(fā)提供極大的便利性?；赑ython的web數(shù)據(jù)采集的實現(xiàn)過程，是通過HTTP模塊、re模塊、cookielib模塊、XPath技術(shù)完成的。主要流程是在web scraping軟件技術(shù)的支持下，利用HTTP的網(wǎng)絡(luò)協(xié)議，進行網(wǎng)頁界面信息結(jié)構(gòu)化解析，web形成操作應(yīng)答處理，re模塊對相對應(yīng)的結(jié)構(gòu)化信息進行數(shù)據(jù)提取實現(xiàn)圖文內(nèi)容的讀取。接下來就要對讀取內(nèi)容進行下載存儲。主要由URL參數(shù)負責下載路徑和文件位置的處理提示。根據(jù)信息量的實體情況，就會在data對象窗口進行Timeout參數(shù)請求操作的實現(xiàn)，如果數(shù)據(jù)信息是空的，系統(tǒng)就會自動處理出現(xiàn)GET的請求，反之如果是實體量時，就會發(fā)出實體請求表示其未排空并超出規(guī)定時間[6]。在進行urllib2、URLopen修改調(diào)解時，通常會對對應(yīng)的所要提取的參數(shù)信息有以下兩種處理結(jié)果和情況：

一是如果HITTP出現(xiàn)錯誤。出現(xiàn)頁面上有此請求超時錯誤顯示的原因如果是web網(wǎng)站的服務(wù)器本身出現(xiàn)某種故障，就會導(dǎo)致整個系統(tǒng)在運行時的代碼編程出現(xiàn)錯誤，所以這兩種對象的異常會被捕捉并識別判定。

二是HITTP未出現(xiàn)錯誤。urllib2、URLopen修改調(diào)解就會能夠正常運行并返回文件對象。以read方法抓取信息內(nèi)容。信息內(nèi)容的結(jié)構(gòu)格式如果是正常HTTP格式，就只需要下載到對應(yīng)指示文件存儲位置當中，如果是壓縮包形式，還需要先進行解壓包處理。

2.2 HTML解析模塊

上文提到HTML模塊主要實現(xiàn)網(wǎng)頁信息頁面與抓取技術(shù)程序之間的交互關(guān)系和操作，在得到的初步網(wǎng)絡(luò)數(shù)據(jù)由于屬于結(jié)構(gòu)化格式，所以重新下載到新的文件中就需要保證其適應(yīng)性，所以對初步信息的重新編碼是有必要的。在Python標準庫中，具體的操作流程就是把這些字符對象用re模塊進行讀取之后，對字符對象的content-type得到獲取，然后再重新進行程序語言規(guī)劃成統(tǒng)一的Unicode類型，保證存儲時能夠統(tǒng)一編輯可操作[7]。

XPath可以對字符信息進行文檔格式屬性進行指示，有效解決字符的空白字、標記等格式不規(guī)劃情況。

3 基于Python的Web數(shù)據(jù)分析與應(yīng)用

3.1 Scrapy爬蟲設(shè)計

進行網(wǎng)站數(shù)據(jù)的爬取，就需要對網(wǎng)站初始爬取內(nèi)容進行分析歸納。利用抓包工具獲得該信息網(wǎng)站所來源的初始數(shù)據(jù)地址，然后找到正確的地址之后，進行數(shù)據(jù)信息的篩選，如果是有效的，系統(tǒng)就會確定并保留，否則接著下一個URL爬取隊列進行循環(huán)的工作，直至滿足系統(tǒng)設(shè)置的抓取條件，完成整個操作流程。具體操作如圖1所示。

圖1 爬蟲設(shè)計操作流程

3.2 數(shù)據(jù)的清洗

由于數(shù)據(jù)里有許多“臟數(shù)據(jù)”，所以在抓取到數(shù)據(jù)后的第一個步驟就是做清洗處理，以排除缺失值和數(shù)據(jù)異常的情況。具體的計算機編程是借助于numpy語言函數(shù)里的describe()進行數(shù)據(jù)的篩選，然后對這些數(shù)據(jù)符號的數(shù)值進行分類歸納，算出它們的極大值，平均值，中位值，極小值，方差等來進行區(qū)分辨別。最后將異常值缺失值進行轉(zhuǎn)換、規(guī)劃的可視化分布操作，就可以得到相應(yīng)的數(shù)據(jù)圖，方便之后的數(shù)據(jù)分析。

4 結(jié)語

隨著大數(shù)據(jù)應(yīng)用被人們廣泛應(yīng)用于各個領(lǐng)域，計算機研究開發(fā)者應(yīng)該致力于利用更智能優(yōu)化的系統(tǒng)程序，讓客戶以更快的方式精準獲取有價值的信息，這也是未來大數(shù)據(jù)網(wǎng)絡(luò)技術(shù)研究的重點。通過本文研究發(fā)現(xiàn)，web抓取技術(shù)的程序化操作避免了人工操作的失誤率，提高了工作效率和信息獲取率，能最大限度地發(fā)揮信息采集的作用，所以該技術(shù)值得推廣和應(yīng)用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡