摘要:本研究基于Scrapy爬蟲框架從懂車帝網(wǎng)站上爬取新能源汽車評論數(shù)據(jù),并進行了數(shù)據(jù)分析和情感分類。研究發(fā)現(xiàn),用戶對新能源汽車主要關(guān)注性能、續(xù)航能力、外觀設(shè)計、購車體驗和售后服務(wù)等方面。情感分析顯示用戶普遍持積極態(tài)度,但亦存在對價格和購車過程中的問題的不滿。本研究為新能源汽車行業(yè)發(fā)展和市場需求提供了數(shù)據(jù)支持,為互聯(lián)網(wǎng)時代大數(shù)據(jù)分析提供了一個實踐案例。
關(guān)鍵詞:新能源汽車;短評論;網(wǎng)絡(luò)爬蟲;數(shù)據(jù)分析;情感分類;可視化
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2024)19-0033-03
0 引言
在互聯(lián)網(wǎng)時代,網(wǎng)絡(luò)數(shù)據(jù)量呈現(xiàn)爆炸性增長的趨勢。截至2023年12月,我國網(wǎng)民規(guī)模達10.92億人,較2022年12月新增網(wǎng)民2 480萬人,互聯(lián)網(wǎng)普及率達77.5%[1]。在這個背景下,伴隨著國內(nèi)汽車行業(yè)的蓬勃發(fā)展,新能源汽車作為其中的主力軍之一,吸引了大量消費者的關(guān)注。懂車帝網(wǎng)站作為汽車領(lǐng)域的重要信息交流平臺,匯集了眾多用戶對不同新能源汽車的評論與觀點。
然而,面對互聯(lián)網(wǎng)上海量的文本數(shù)據(jù),僅依靠人工篩選數(shù)據(jù)已不再現(xiàn)實。高效地從海量數(shù)據(jù)中提取有價值信息成了研究人員和企業(yè)關(guān)注的焦點。自動化網(wǎng)絡(luò)爬蟲技術(shù)因其在不同領(lǐng)域的廣泛應(yīng)用而備受矚目。本文基于Python編寫程序,采用Scrapy作為爬蟲框架,從懂車帝網(wǎng)站上爬取當下新能源汽車的評論數(shù)據(jù)。通過對爬取的數(shù)據(jù)進行清洗與整理,提取其中的有價值信息,并運用可視化技術(shù)進行展示。同時,還對評論進行了情感分析,以探索用戶對新能源汽車的態(tài)度與情感傾向。
本文旨在利用網(wǎng)絡(luò)爬蟲技術(shù),探索并挖掘新能源汽車領(lǐng)域的用戶評論數(shù)據(jù),為汽車行業(yè)的發(fā)展和市場需求提供數(shù)據(jù)支持,同時為互聯(lián)網(wǎng)時代大數(shù)據(jù)分析提供一個實踐案例。
1 主要技術(shù)
1.1 爬蟲原理
網(wǎng)絡(luò)爬蟲是一種基于獲取不同URL的核心支撐,用于搜索和抓取該URL下的各種文章、鏈接和圖片等內(nèi)容的技術(shù)。在給定的URL中,網(wǎng)絡(luò)爬蟲會持續(xù)從中提取URL,并對當前URL的內(nèi)容進行篩選和獲取。當一個URL的內(nèi)容被完全檢索后,網(wǎng)絡(luò)爬蟲會自動轉(zhuǎn)到下一個URL,重復這一過程,直到所有URL都被檢索一次。在技術(shù)層面上,網(wǎng)絡(luò)爬蟲通過程序模擬瀏覽器請求站點的行為,將站點返回的數(shù)據(jù)(如HTML代碼、JSON 數(shù)據(jù)或二進制數(shù)據(jù))存儲在本地,以供后續(xù)使用。根據(jù)不同的需求,網(wǎng)絡(luò)爬蟲可以針對性地進行爬取,并增加目標定義和過濾機制。
本文采用Scrapy爬蟲框架進行數(shù)據(jù)采集。Scrapy 是一個基于Python開發(fā)的高層次、快速的網(wǎng)頁抓取框架,用于抓取網(wǎng)站信息并從頁面中提取結(jié)構(gòu)化數(shù)據(jù)[2]。在數(shù)據(jù)挖掘、監(jiān)測和自動化測試等不同場景下,Scrapy 具有廣泛應(yīng)用。
1.2 數(shù)據(jù)分析流程
數(shù)據(jù)分析是應(yīng)用統(tǒng)計、計算機科學、機器學習和領(lǐng)域?qū)I(yè)知識等技術(shù)和方法,對大量數(shù)據(jù)進行收集、清洗、處理和分析,以發(fā)現(xiàn)有意義的信息、趨勢和模式,并從中獲得見解,從而支持決策制定、問題解決和創(chuàng)新的過程。
本文使用numpy、pandas、jieba分詞、gensim、pyL? DAvis、matplotlib 和wordcloud 等技術(shù)工具,對懂車帝比亞迪海豹新能源車的評論信息進行數(shù)據(jù)分析、情感分類及可視化。具體流程如圖1所示。
2 功能實現(xiàn)
2.1 爬蟲模塊
我們根據(jù)懂車帝網(wǎng)站評論頁面的URL結(jié)構(gòu),定義了URL規(guī)則。在URL中發(fā)現(xiàn),每一個車型的汽車在 `/ community` 評論頁URL之后的數(shù)字對應(yīng)了每一個車型的汽車,每個車型汽車數(shù)字后面則為評論頁頁碼。評論首頁URL如下所示。
https://www.dongchedi.com/community/5579/1
通過構(gòu)造相應(yīng)的URL,循環(huán)生成并遍歷每個URL來模擬瀏覽器翻頁過程。本文設(shè)定爬取的目標頁數(shù)為前400頁,具體代碼如下所示: