基于Python的多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

2018-04-10 01:40:00◆孫冰

網(wǎng)絡(luò)安全技術(shù)與應(yīng)用 2018年4期

◆孫冰

◆孫冰

（中國石油大學(xué)計算機(jī)與通信工程學(xué)院山東 266580）

本文主要詳細(xì)介紹如何應(yīng)用Python語言實現(xiàn)一個多線程的網(wǎng)絡(luò)爬蟲程序，并在此基礎(chǔ)上搭建特定的測試網(wǎng)站將串行爬蟲程序和多線程爬蟲程序的運行效率進(jìn)行對比，進(jìn)而給出提高網(wǎng)絡(luò)爬蟲性能的具體方法。

Python；網(wǎng)絡(luò)爬蟲；多線程

0 引言

隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展，互聯(lián)網(wǎng)中的信息呈現(xiàn)爆炸式的增長，互聯(lián)網(wǎng)的信息容量也達(dá)到了一個前所未有的高度。為了方便人們獲取互聯(lián)網(wǎng)中的信息，國內(nèi)外出現(xiàn)了一批搜索引擎，如Google、百度、Yahoo等等。這些搜索引擎的特點是能盡量多地抓取網(wǎng)頁中的信息，因而容易忽略抓取到的頁面的語義和抓取到的順序等。檢索人需要投入大量時間和精力來完成一次檢索，必要時還需要反復(fù)組織自己的檢索語言，以達(dá)到檢索的效果。傳統(tǒng)的搜索引擎在返回的結(jié)果方面有局限性，網(wǎng)絡(luò)爬蟲因此而誕生。網(wǎng)絡(luò)爬蟲又名叫網(wǎng)絡(luò)機(jī)器人，它是一種按照特定規(guī)則爬取網(wǎng)頁信息的程序。與傳統(tǒng)搜索引擎不同，網(wǎng)絡(luò)爬蟲只爬取想要獲得的特定類型的信息，進(jìn)而提高搜索引擎的效率。

傳統(tǒng)的搜索引擎通常由網(wǎng)頁搜集、預(yù)處理和查詢這三個模塊組成，而網(wǎng)絡(luò)爬蟲就存在于網(wǎng)頁搜集這個模塊之中，網(wǎng)絡(luò)爬蟲作為搜索引擎[1]的重要組件，它的主要功能就是爬取互聯(lián)網(wǎng)上各類信息。網(wǎng)絡(luò)爬蟲通常是一個應(yīng)用程序或者腳本，一般先給定一個入口URL地址，從入口URL開始根據(jù)一定的規(guī)則獲得這個初始網(wǎng)頁上的所有URL，再通過這些新的URL如此循環(huán)往復(fù)獲得更多的URL。在這些獲取到的URL中，按照我們需要信息的規(guī)則解析該網(wǎng)頁，最后再根據(jù)不同的需求對獲取到的數(shù)據(jù)進(jìn)行處理。網(wǎng)絡(luò)爬蟲與傳統(tǒng)檢索方式對比如圖1所示。

圖1 網(wǎng)絡(luò)爬蟲與傳統(tǒng)檢索方式對比圖

理論上任何一種支持網(wǎng)絡(luò)通信的語言都可以用來編寫爬蟲程序，目前大多數(shù)網(wǎng)絡(luò)爬蟲程序是用后臺腳本語言來編寫，其中Python是最為廣泛使用的一種語言，其具有豐富和強(qiáng)大的標(biāo)準(zhǔn)庫供用戶選擇使用[2]。

1 網(wǎng)絡(luò)爬蟲的設(shè)計實現(xiàn)

本文采用簡單的框架結(jié)構(gòu)來編寫爬蟲程序，分別有以下四個模塊[3]：URL管理器、網(wǎng)頁下載器、網(wǎng)頁解析器、網(wǎng)頁輸出器，這四個模塊共同完成抓取網(wǎng)頁的整個過程。

（1）URL管理器

URL管理器模塊的作用是管理待爬取的URL集合和已爬取過的URL集合。每個網(wǎng)頁爬取的信息，均包括一些指向其他網(wǎng)頁的URL，同樣其他網(wǎng)頁的信息中也包含指向本網(wǎng)頁的URL，因此不同的URL之間存在著一種循環(huán)指向的問題。如若對它置之不理，網(wǎng)絡(luò)爬蟲程序就會在這些URL之間循環(huán)抓取，比較嚴(yán)重的情況是兩個URL相互指向?qū)Ψ?，如果爬蟲程序一直在這兩個URL之間抓取信息，就會形成死循環(huán)。因此URL管理器有一個很重要的作用就是防止重復(fù)抓取和循環(huán)抓取網(wǎng)頁。

（2）網(wǎng)頁下載器

網(wǎng)頁下載器的主要功能把網(wǎng)頁對應(yīng)的URL下載到本地，它是整個爬蟲程序的核心組件。網(wǎng)頁下載器和瀏覽器相似，它從互聯(lián)網(wǎng)上下載URL對應(yīng)的網(wǎng)頁，將其內(nèi)容按照HTML的格式下載，然后按照本地文件或者本地字符串的形式來存儲，然后再進(jìn)行后續(xù)的分析處理。

（3）網(wǎng)頁解析器

將互聯(lián)網(wǎng)上的URL下載到本地后，需要通過網(wǎng)頁解析器對該URL進(jìn)行解析才能夠提取出所需要的內(nèi)容。簡而言之，網(wǎng)頁解析器是從網(wǎng)頁中提取人們需要的數(shù)據(jù)的工具。從一個搜索引擎來看，網(wǎng)頁解析器首先會將網(wǎng)頁中所有的URL提取出來，以便后續(xù)進(jìn)行訪問。本文所做的是一個定向爬蟲，除了將網(wǎng)頁中的待爬取的URL提取出來之外，還要將所需要和感興趣的數(shù)據(jù)提取出來。即是說網(wǎng)頁解析器會把網(wǎng)頁下載器下載的HTML網(wǎng)頁文檔字符串作為輸入來提取出需要的內(nèi)容和未訪問過的待爬取的URL列表。

（4）網(wǎng)頁輸出器

網(wǎng)頁輸出器實際是網(wǎng)頁處理的一部分，抓取到網(wǎng)頁的數(shù)據(jù)后，利用網(wǎng)頁解析器提取出該網(wǎng)頁中需要的數(shù)據(jù)，然后將這些數(shù)據(jù)寫入本地的一個HTML文件中。如果想要對抓取到的數(shù)據(jù)進(jìn)行其他的處理，就需要修改相應(yīng)的代碼，增加新的功能模塊。在本課題研究中，主要是將爬取到的網(wǎng)頁內(nèi)容存儲到本地的HTML文件中，網(wǎng)頁輸出器需要對外提供兩個方法，其主要的方法是實現(xiàn)寫入文件這個功能。

網(wǎng)絡(luò)爬蟲運行流程如圖2所示，由爬蟲的總調(diào)度程序來啟動或停止爬蟲，查看爬蟲的運行情況。在爬蟲程序中，URL管理器用來管理待爬取的URL列表和已經(jīng)爬取過的URL列表，從URL管理器中取出一個URL，判斷該URL是否被爬取過，如果是未被爬取的URL，則將這個鏈接發(fā)送到網(wǎng)頁下載器。下載器下載由URL鏈接指向的網(wǎng)頁，并將下載下來的內(nèi)容以字符串的形式存儲下來，然后會把這個字符串提交到網(wǎng)頁解析器，由網(wǎng)頁解析器進(jìn)行解析，會解析出我們所需要的數(shù)據(jù)。同時每個頁面中都有指向其他頁面的鏈接，通過網(wǎng)頁解析器把它們都解析出來后，增添到URL管理器中。這三個部分共同構(gòu)成了一個循環(huán)，只要有滿足條件的URL，程序就一直持續(xù)運行。

2 并行爬蟲程序的實現(xiàn)

在串行網(wǎng)絡(luò)爬蟲的基礎(chǔ)上，可以實現(xiàn)多線程的網(wǎng)絡(luò)爬蟲程序，當(dāng)爬蟲開始執(zhí)行后，程序向網(wǎng)頁發(fā)送訪問網(wǎng)頁的請求，然后程序等待網(wǎng)頁作出響應(yīng)。等待時間越長，效率也就越低。當(dāng)程序采用多線程時，交互消息期間的平均等待時間有所降低，可以提高數(shù)據(jù)抓取的效率。同樣給定一個入口URL，從這個入口URL的網(wǎng)頁頁面內(nèi)容之中解析出所有的URL鏈接。如果這些鏈接沒有被訪問過，增添到待爬取URL的隊列中，然后再從待爬取的URL列表中取出一條進(jìn)行訪問和解析。程序中需要增加一段創(chuàng)建線程池的代碼，一開始給定一個最大線程數(shù)，每在待爬取的URL列表中取出一個URL時就添加一項任務(wù)入隊列，執(zhí)行任務(wù)時，就從隊列中出取出一項任務(wù)并執(zhí)行。

圖2 網(wǎng)絡(luò)爬蟲運行流程圖

3 實驗設(shè)計與分析

將網(wǎng)絡(luò)爬蟲程序的入口地設(shè)定為http://stackoverflow.com/questions網(wǎng)頁，設(shè)定程序爬取1000個網(wǎng)頁就停止運行，打印程序運行的時間，將串行爬蟲程序和多線程爬蟲程序的運行時間進(jìn)行對比。以爬取網(wǎng)頁的數(shù)量100、300、500、800、1000作為橫坐標(biāo)，以爬蟲程序的運行時間（單位為s）作為縱坐標(biāo)，分別畫出不同的網(wǎng)頁規(guī)模下，線程個數(shù)分別為1、3、5、8、10、15的時候運行時間的變化。折線圖如圖3所示。

從圖3中可以得出下面幾點結(jié)論：

當(dāng)爬取的網(wǎng)頁數(shù)量為100的時候，串行爬蟲程序的運行時間和在不同線程個數(shù)下爬蟲的運行時間相差不大。當(dāng)爬取的網(wǎng)頁數(shù)量為300和500時，線程數(shù)量的增加也并沒有讓運行時間有顯著性的提高。因此使用多線程的爬蟲程序一般也只是在網(wǎng)站規(guī)模大，爬取的網(wǎng)頁數(shù)量很多時才會有顯著的提升效率的作用。

選定某一個網(wǎng)頁規(guī)模觀察數(shù)據(jù)，會發(fā)現(xiàn)線程數(shù)增加的時候運行的時間沒有降低反而增加，是因為線程之間進(jìn)行切換也需要耗費時間。因此增加線程數(shù)量并不是絕對的提高線程，根據(jù)程序運行的環(huán)境的不同，能夠提高爬蟲程序運行效率的最大線程的個數(shù)也不相同。

圖3 特定網(wǎng)頁規(guī)模下線程數(shù)—爬蟲運行時間折線圖

4 總結(jié)與展望

通過本文的實驗可以得出，在特定的條件下，通過增加爬蟲程序的線程數(shù)能夠提高網(wǎng)絡(luò)爬蟲的效率，但是在設(shè)置網(wǎng)絡(luò)爬蟲線程的時候也要考慮多種因素，比如說過多線程之間的切換所耗費的系統(tǒng)資源以及程序運行時所在網(wǎng)絡(luò)情況[4]，而且有的網(wǎng)站會限制下載的速度，線程的數(shù)量太多時，大量線程訪問網(wǎng)頁，某些線程會被掛起。后期可以考慮在多臺服務(wù)器上分布式[5]部署網(wǎng)絡(luò)爬蟲，實現(xiàn)分布式爬蟲之間的通信模式，進(jìn)而提高網(wǎng)絡(luò)爬蟲的效率。

[1]薛建春.垂直搜索引擎中網(wǎng)絡(luò)蜘蛛的設(shè)計與實現(xiàn)[D].北京:中國地質(zhì)大學(xué)檢測技術(shù)與自動化裝置自動檢測及應(yīng)用, 2007.

[2]姜彬彪, 黃凱林, 盧昱江等.基于Python的專業(yè)網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)[J].企業(yè)科技與發(fā)展(企業(yè)科技創(chuàng)新版), 2016.

[3][澳] Richard Lawson著，李斌譯.用Python編寫網(wǎng)絡(luò)爬蟲[M].人民郵電出版社, 2016.

[4]陽國貴, 姜波.線程切換開銷分析工具的設(shè)計與實現(xiàn)[J]. 計算機(jī)應(yīng)用, 2010.

[5]王毅桐.分布式網(wǎng)絡(luò)爬蟲技術(shù)研究與實現(xiàn)[D].成都:電子科技大學(xué)信息安全, 2012.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Python的多線程網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

0 引言

1 網(wǎng)絡(luò)爬蟲的設(shè)計實現(xiàn)

（1）URL管理器

（2）網(wǎng)頁下載器

（3）網(wǎng)頁解析器

（4）網(wǎng)頁輸出器

2 并行爬蟲程序的實現(xiàn)

3 實驗設(shè)計與分析

4 總結(jié)與展望