基于Selenium的網(wǎng)絡(luò)爬蟲的設(shè)計與實現(xiàn)

2021-11-02 06:03忽愛平范伊紅

無線互聯(lián)科技 2021年17期

忽愛平，范伊紅，李陽，李坤

（河南科技大學(xué) 軟件學(xué)院，河南洛陽 471000）

0 引言

隨著爬蟲技術(shù)的不斷發(fā)展，許多網(wǎng)站運用了反爬蟲技術(shù)對數(shù)據(jù)進行加密，致使爬取數(shù)據(jù)時遇到的問題越來越多。例如，某著名文檔網(wǎng)站，經(jīng)過解析后發(fā)現(xiàn)，其文檔是由圖片組成，而圖片代碼并不是直接寫在平時開發(fā)人員使用的標簽中，而是通過HTML5的canvas元素使用JavaScript在網(wǎng)頁上繪制圖像[1]。這大大阻礙了圖片的爬取。本文運用Python爬蟲技術(shù)加Selenium技術(shù)爬取該網(wǎng)站的文檔圖片，將canvas畫布中的圖像進行解析，成功將該網(wǎng)站中的文檔圖片爬取了出來。

1 項目有關(guān)介紹

1.1 Selenium技術(shù)簡介

Selenium是一個Web應(yīng)用程序測試的工具，起初是為了網(wǎng)站自動化測試而開發(fā)的，作用是模擬用戶在瀏覽器上的操作。Selenium可以直接運行在瀏覽器上，它支持所有主流的瀏覽器，包括PhantomJS這些無界面的瀏覽器，可謂作用之廣泛。Selenium可以根據(jù)用戶的指令，指導(dǎo)瀏覽器自動加載頁面，獲取需要的數(shù)據(jù)，甚至于網(wǎng)頁截屏、監(jiān)聽網(wǎng)站動作等等。Selenium自己不帶瀏覽器，不支持瀏覽器的功能，它需要與第三方瀏覽器結(jié)合在一起才能使用。

1.2

HTML5中的新標簽

2 案例實現(xiàn)

本文以某文檔網(wǎng)站為案例，用自動化測試Selenium體驗一下爬取流程。

2.1 抓包分析，明確爬取思路

首先，打開某文檔網(wǎng)站的頁面進行抓包分析。其次，通過分析發(fā)現(xiàn)，頁面中的數(shù)據(jù)帶有加密混淆，所以傳統(tǒng)的爬蟲思路在此站點行不通。遇到這種情況，一般有兩種解決方案：第一種是通過使用JavaScript逆向技術(shù)找到站點的加密邏輯，并用Python代碼將其加密邏輯模擬構(gòu)造出來。第二種是通過Selenium自動化測試工具來模擬瀏覽器，直接獲取頁面源碼。此處采用的是第二種方案。當獲取源碼之后，就會發(fā)現(xiàn)頁面源碼中并沒有想要的圖片鏈接信息，而想要的圖片信息就蘊藏在

2.2 程序的基本配置

使用logging對日志輸出進行相關(guān)配置，方便觀察程序的執(zhí)行狀況。變量TIME_OUT表示超時時間，options中是對瀏覽器的相關(guān)配置，例如：下載圖片是默認不顯示彈框，圖片下載后的默認保存路徑，設(shè)置瀏覽器的無頭模式等；browser用來接收一個Chrome對象，并將options作為參數(shù)設(shè)置給該瀏覽器對象。瀏覽器打開頁面后，頁面要進行加載，wait定義了瀏覽器的顯示等待時間。代碼如下：

2.3 頁面加載

通過觀察發(fā)現(xiàn)，每個文檔頁面并不是一開始就全部加載出來，而是通過用戶滾動右側(cè)的滾動條來加載后續(xù)的頁面信息。所以圖片進行下載之前要用Selenium來模擬用戶的滾動效果，以確保將頁面的所有信息都加載出來。此處，可以使用JavaScript代碼來控制瀏覽器的滑動操作，這段代碼描述的含義是通過js中的間隔器，每隔一秒將滾動條下滑整個文檔高度的10%，直至頁面全部加載完畢。最后，使用browser對象的execute_script方法將JavaScript代碼執(zhí)行即可。代碼如下：