国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Python的Web數(shù)據(jù)獲取及實現(xiàn)

2022-01-17 06:20徐亮亮
電子元器件與信息技術(shù) 2021年9期
關(guān)鍵詞:網(wǎng)頁編程模塊

徐亮亮

(常州鐵道高等職業(yè)技術(shù)學校,江蘇 常州 213011)

0 引言

隨著網(wǎng)絡(luò)科學技術(shù)的不斷發(fā)展,我們的生活被各種媒介包圍著,也在各個方面得到數(shù)據(jù)網(wǎng)絡(luò)的支持。而經(jīng)過網(wǎng)絡(luò)采集的系統(tǒng)數(shù)據(jù),人們對于容量極其龐大的互聯(lián)網(wǎng)世界,也越來越追求其所帶來的時效性的應(yīng)用價值。

采集是進行大數(shù)據(jù)處理的最基礎(chǔ)的一個環(huán)節(jié),但也同樣是所有后續(xù)信息進行分析挖掘的基礎(chǔ)前提。所以做好數(shù)據(jù)信息的采集可以為數(shù)據(jù)的深入價值提供優(yōu)質(zhì)的條件。對數(shù)據(jù)信息的采集的方法和過程由于信息種類的不同,也會有所區(qū)別。有些是直接對網(wǎng)絡(luò)信息進行直接收集,有些則是在特定設(shè)置的傳感器的作用基礎(chǔ)上,得到數(shù)據(jù)信息。諸如一些交通攝像頭中,就會裝置特定的GPS或者是交通規(guī)則智能感應(yīng)捕捉系統(tǒng),又或者是停車是否在規(guī)定位置的感應(yīng)識別系統(tǒng),都會對相應(yīng)的交通情況做出信號數(shù)據(jù)信息的采集,再進行相應(yīng)的系統(tǒng)識別處理。本文的研究設(shè)計是針對各種網(wǎng)絡(luò)中的網(wǎng)站、論壇、博客等進行的網(wǎng)絡(luò)搜索界面的信息智能捕捉,清洗過濾掉無價值信息,將包括用戶訪問網(wǎng)頁時的瀏覽歷史圖片文字信息以及瀏覽時長日期等數(shù)據(jù),然后再結(jié)合個人身份信息進行分類歸納存儲。

本文的設(shè)計主要是利用Pvthon編程語言為基礎(chǔ),全球廣域網(wǎng)Web為信息收集對象,分析了該網(wǎng)站在HTTP網(wǎng)絡(luò)協(xié)議下的網(wǎng)頁界面的信息抓取原理,并將scrapy框架實驗應(yīng)用于淘寶軟件中,證實web進行matplotlib可視化抓取顯示于頁面上的數(shù)據(jù)操作效率有所提高

1 Web大數(shù)據(jù)采集技術(shù)

1.1 web數(shù)據(jù)抓取

Web數(shù)據(jù)抓取技術(shù)是利用某種編程方法對網(wǎng)絡(luò)頁面信息收集并加以智能篩選提取的一種方法。該技術(shù)是一種模擬瀏覽網(wǎng)站后臺管理人員的操作,獲取網(wǎng)頁中經(jīng)過特定編程呈現(xiàn)的格式化瀏覽信息,包括JSON、access結(jié)構(gòu)格式化的信息,然后再通過相關(guān)技術(shù)軟件的分析提取處理,去除除了文字信息外的框架,提煉純粹的非結(jié)構(gòu)化信息數(shù)據(jù),并統(tǒng)一格式保存在文件當中[1-2]。

1.2 web數(shù)據(jù)抓取的方法

隨著人們對網(wǎng)絡(luò)信息需求的增大,網(wǎng)絡(luò)信息的種類趨向于復(fù)雜化,更多的信息在網(wǎng)站頁面的嵌入呈現(xiàn)方式也更豐富多元。網(wǎng)絡(luò)信息的呈現(xiàn)不只是網(wǎng)頁表面的本體圖文數(shù)據(jù)信息,還包括網(wǎng)頁瀏覽操作對象的之外的個人信息,這些個人信息可以顯示操作者此時的地理位置、登錄賬號信息、瀏覽時長等等[3]。此外,還有一些對網(wǎng)站搜索查詢時的信息。對于這些信息的獲取,需要的不僅僅是行之有效對應(yīng)的操作手法,對于一些不規(guī)則隱藏的數(shù)據(jù)信息,也要有相應(yīng)的對策方式才能夠?qū)撛谏钊氲男畔⒂行Ь_提出來,發(fā)揮其重要價值。

1.3 webscraping的作用

傳統(tǒng)人工對網(wǎng)頁信息的抓取方式可能就是普通常見的復(fù)制方式,很容易出現(xiàn)文字遺漏現(xiàn)象,又或者是復(fù)制信息不到位不準確錯誤的現(xiàn)象。所以相對于這種現(xiàn)象,webscraping技術(shù)相對來說是利用計算機軟件程序進行信息的獲取,排除人工干預(yù)情況的發(fā)生,提高效率。傳統(tǒng)人工信息抓取需要滿足瀏覽器頁面對相關(guān)結(jié)構(gòu)化HTML數(shù)據(jù)協(xié)議,在復(fù)制相對應(yīng)的格式文字過程中,要下載經(jīng)渲染排布的網(wǎng)絡(luò)結(jié)構(gòu),局限性相對很大,有的甚至設(shè)置不可抓取的格式,就難以完成基礎(chǔ)的信息采集操作[4]。而針對這種情況,webscraping技術(shù)通過本身的設(shè)置代碼操作,一系列的程序呈現(xiàn)都會自動生成,只需進行HTML數(shù)據(jù)抓取即可,提高精確度,在出現(xiàn)信息抓取錯誤時,軟件機制還能夠自我修改糾正。

2 基于Python的web數(shù)據(jù)采集的實現(xiàn)原理

2.1 機理

Python的計算機語言程序在編程中是對各種操作對象進行直接運行的方式,數(shù)據(jù)庫容量大、功能強大。相對于其他設(shè)計語言,Python的計算機語言對于使用編寫者來說更加的清晰易懂,所以對其修改維護也就越方便,這對于web scrapin技術(shù)的開發(fā)應(yīng)用就帶來了的未來可操作性[5]。所以使用該計算機語言進行編程,可以為web scraping開發(fā)提供極大的便利性?;赑ython的web數(shù)據(jù)采集的實現(xiàn)過程,是通過HTTP模塊、re模塊、cookielib模塊、XPath技術(shù)完成的。主要流程是在web scraping軟件技術(shù)的支持下,利用HTTP的網(wǎng)絡(luò)協(xié)議,進行網(wǎng)頁界面信息結(jié)構(gòu)化解析,web形成操作應(yīng)答處理,re模塊對相對應(yīng)的結(jié)構(gòu)化信息進行數(shù)據(jù)提取實現(xiàn)圖文內(nèi)容的讀取。接下來就要對讀取內(nèi)容進行下載存儲。主要由URL參數(shù)負責下載路徑和文件位置的處理提示。根據(jù)信息量的實體情況,就會在data對象窗口進行Timeout參數(shù)請求操作的實現(xiàn),如果數(shù)據(jù)信息是空的,系統(tǒng)就會自動處理出現(xiàn)GET的請求,反之如果是實體量時,就會發(fā)出實體請求表示其未排空并超出規(guī)定時間[6]。在進行urllib2、URLopen修改調(diào)解時,通常會對對應(yīng)的所要提取的參數(shù)信息有以下兩種處理結(jié)果和情況:

一是如果HITTP出現(xiàn)錯誤。出現(xiàn)頁面上有此請求超時錯誤顯示的原因如果是web網(wǎng)站的服務(wù)器本身出現(xiàn)某種故障,就會導(dǎo)致整個系統(tǒng)在運行時的代碼編程出現(xiàn)錯誤,所以這兩種對象的異常會被捕捉并識別判定。

二是HITTP未出現(xiàn)錯誤。urllib2、URLopen修改調(diào)解就會能夠正常運行并返回文件對象。以read方法抓取信息內(nèi)容。信息內(nèi)容的結(jié)構(gòu)格式如果是正常HTTP格式,就只需要下載到對應(yīng)指示文件存儲位置當中,如果是壓縮包形式,還需要先進行解壓包處理。

2.2 HTML解析模塊

上文提到HTML模塊主要實現(xiàn)網(wǎng)頁信息頁面與抓取技術(shù)程序之間的交互關(guān)系和操作,在得到的初步網(wǎng)絡(luò)數(shù)據(jù)由于屬于結(jié)構(gòu)化格式,所以重新下載到新的文件中就需要保證其適應(yīng)性,所以對初步信息的重新編碼是有必要的。在Python標準庫中,具體的操作流程就是把這些字符對象用re模塊進行讀取之后,對字符對象的content-type得到獲取,然后再重新進行程序語言規(guī)劃成統(tǒng)一的Unicode類型,保證存儲時能夠統(tǒng)一編輯可操作[7]。

XPath可以對字符信息進行文檔格式屬性進行指示,有效解決字符的空白字、標記等格式不規(guī)劃情況。

3 基于Python的Web數(shù)據(jù)分析與應(yīng)用

3.1 Scrapy爬蟲設(shè)計

進行網(wǎng)站數(shù)據(jù)的爬取,就需要對網(wǎng)站初始爬取內(nèi)容進行分析歸納。利用抓包工具獲得該信息網(wǎng)站所來源的初始數(shù)據(jù)地址,然后找到正確的地址之后,進行數(shù)據(jù)信息的篩選,如果是有效的,系統(tǒng)就會確定并保留,否則接著下一個URL爬取隊列進行循環(huán)的工作,直至滿足系統(tǒng)設(shè)置的抓取條件,完成整個操作流程。具體操作如圖1所示。

圖1 爬蟲設(shè)計操作流程

3.2 數(shù)據(jù)的清洗

由于數(shù)據(jù)里有許多“臟數(shù)據(jù)”,所以在抓取到數(shù)據(jù)后的第一個步驟就是做清洗處理,以排除缺失值和數(shù)據(jù)異常的情況。具體的計算機編程是借助于numpy語言函數(shù)里的describe()進行數(shù)據(jù)的篩選,然后對這些數(shù)據(jù)符號的數(shù)值進行分類歸納,算出它們的極大值,平均值,中位值,極小值,方差等來進行區(qū)分辨別。最后將異常值缺失值進行轉(zhuǎn)換、規(guī)劃的可視化分布操作,就可以得到相應(yīng)的數(shù)據(jù)圖,方便之后的數(shù)據(jù)分析。

4 結(jié)語

隨著大數(shù)據(jù)應(yīng)用被人們廣泛應(yīng)用于各個領(lǐng)域,計算機研究開發(fā)者應(yīng)該致力于利用更智能優(yōu)化的系統(tǒng)程序,讓客戶以更快的方式精準獲取有價值的信息,這也是未來大數(shù)據(jù)網(wǎng)絡(luò)技術(shù)研究的重點。通過本文研究發(fā)現(xiàn),web抓取技術(shù)的程序化操作避免了人工操作的失誤率,提高了工作效率和信息獲取率,能最大限度地發(fā)揮信息采集的作用,所以該技術(shù)值得推廣和應(yīng)用。

猜你喜歡
網(wǎng)頁編程模塊
28通道收發(fā)處理模塊設(shè)計
“選修3—3”模塊的復(fù)習備考
編程,是一種態(tài)度
元征X-431實測:奔馳發(fā)動機編程
編程小能手
紡織機上誕生的編程
基于CSS的網(wǎng)頁導(dǎo)航欄的設(shè)計
基于HTML5靜態(tài)網(wǎng)頁設(shè)計
基于URL和網(wǎng)頁類型的網(wǎng)頁信息采集研究
網(wǎng)頁制作在英語教學中的應(yīng)用
扎兰屯市| 永州市| 二手房| 三原县| 泾阳县| 隆回县| 富锦市| 淳化县| 乌海市| 东莞市| 松原市| 电白县| 洛川县| 商南县| 甘德县| 广平县| 饶河县| 钦州市| 通许县| 南康市| 武穴市| 许昌市| 温州市| 灌南县| 玉树县| 饶平县| 盐城市| 禄丰县| 龙井市| 友谊县| 临洮县| 上高县| 安多县| 沁阳市| 图木舒克市| 托里县| 徐州市| 上蔡县| 尉氏县| 平远县| 天峨县|