基于Scrapy 的新能源汽車評論數(shù)據(jù)采集與情感分析

2024-09-03 00:00:00于波馮文雯于曉雨周維燕

電腦知識與技術(shù) 2024年19期

摘要：本研究基于Scrapy爬蟲框架從懂車帝網(wǎng)站上爬取新能源汽車評論數(shù)據(jù)，并進行了數(shù)據(jù)分析和情感分類。研究發(fā)現(xiàn)，用戶對新能源汽車主要關(guān)注性能、續(xù)航能力、外觀設(shè)計、購車體驗和售后服務(wù)等方面。情感分析顯示用戶普遍持積極態(tài)度，但亦存在對價格和購車過程中的問題的不滿。本研究為新能源汽車行業(yè)發(fā)展和市場需求提供了數(shù)據(jù)支持，為互聯(lián)網(wǎng)時代大數(shù)據(jù)分析提供了一個實踐案例。

關(guān)鍵詞：新能源汽車；短評論；網(wǎng)絡(luò)爬蟲；數(shù)據(jù)分析；情感分類；可視化

中圖分類號：TP311 文獻標識碼：A

文章編號：1009-3044（2024）19-0033-03

0 引言

在互聯(lián)網(wǎng)時代，網(wǎng)絡(luò)數(shù)據(jù)量呈現(xiàn)爆炸性增長的趨勢。截至2023年12月，我國網(wǎng)民規(guī)模達10.92億人，較2022年12月新增網(wǎng)民2 480萬人，互聯(lián)網(wǎng)普及率達77.5%[1]。在這個背景下，伴隨著國內(nèi)汽車行業(yè)的蓬勃發(fā)展，新能源汽車作為其中的主力軍之一，吸引了大量消費者的關(guān)注。懂車帝網(wǎng)站作為汽車領(lǐng)域的重要信息交流平臺，匯集了眾多用戶對不同新能源汽車的評論與觀點。

然而，面對互聯(lián)網(wǎng)上海量的文本數(shù)據(jù)，僅依靠人工篩選數(shù)據(jù)已不再現(xiàn)實。高效地從海量數(shù)據(jù)中提取有價值信息成了研究人員和企業(yè)關(guān)注的焦點。自動化網(wǎng)絡(luò)爬蟲技術(shù)因其在不同領(lǐng)域的廣泛應(yīng)用而備受矚目。本文基于Python編寫程序，采用Scrapy作為爬蟲框架，從懂車帝網(wǎng)站上爬取當下新能源汽車的評論數(shù)據(jù)。通過對爬取的數(shù)據(jù)進行清洗與整理，提取其中的有價值信息，并運用可視化技術(shù)進行展示。同時，還對評論進行了情感分析，以探索用戶對新能源汽車的態(tài)度與情感傾向。

本文旨在利用網(wǎng)絡(luò)爬蟲技術(shù)，探索并挖掘新能源汽車領(lǐng)域的用戶評論數(shù)據(jù)，為汽車行業(yè)的發(fā)展和市場需求提供數(shù)據(jù)支持，同時為互聯(lián)網(wǎng)時代大數(shù)據(jù)分析提供一個實踐案例。

1 主要技術(shù)

1.1 爬蟲原理

網(wǎng)絡(luò)爬蟲是一種基于獲取不同URL的核心支撐，用于搜索和抓取該URL下的各種文章、鏈接和圖片等內(nèi)容的技術(shù)。在給定的URL中，網(wǎng)絡(luò)爬蟲會持續(xù)從中提取URL，并對當前URL的內(nèi)容進行篩選和獲取。當一個URL的內(nèi)容被完全檢索后，網(wǎng)絡(luò)爬蟲會自動轉(zhuǎn)到下一個URL，重復這一過程，直到所有URL都被檢索一次。在技術(shù)層面上，網(wǎng)絡(luò)爬蟲通過程序模擬瀏覽器請求站點的行為，將站點返回的數(shù)據(jù)（如HTML代碼、JSON 數(shù)據(jù)或二進制數(shù)據(jù)）存儲在本地，以供后續(xù)使用。根據(jù)不同的需求，網(wǎng)絡(luò)爬蟲可以針對性地進行爬取，并增加目標定義和過濾機制。

本文采用Scrapy爬蟲框架進行數(shù)據(jù)采集。Scrapy 是一個基于Python開發(fā)的高層次、快速的網(wǎng)頁抓取框架，用于抓取網(wǎng)站信息并從頁面中提取結(jié)構(gòu)化數(shù)據(jù)[2]。在數(shù)據(jù)挖掘、監(jiān)測和自動化測試等不同場景下，Scrapy 具有廣泛應(yīng)用。

1.2 數(shù)據(jù)分析流程

數(shù)據(jù)分析是應(yīng)用統(tǒng)計、計算機科學、機器學習和領(lǐng)域?qū)I(yè)知識等技術(shù)和方法，對大量數(shù)據(jù)進行收集、清洗、處理和分析，以發(fā)現(xiàn)有意義的信息、趨勢和模式，并從中獲得見解，從而支持決策制定、問題解決和創(chuàng)新的過程。

本文使用numpy、pandas、jieba分詞、gensim、pyL? DAvis、matplotlib 和wordcloud 等技術(shù)工具，對懂車帝比亞迪海豹新能源車的評論信息進行數(shù)據(jù)分析、情感分類及可視化。具體流程如圖1所示。

2 功能實現(xiàn)

2.1 爬蟲模塊

我們根據(jù)懂車帝網(wǎng)站評論頁面的URL結(jié)構(gòu)，定義了URL規(guī)則。在URL中發(fā)現(xiàn)，每一個車型的汽車在 `/ community` 評論頁URL之后的數(shù)字對應(yīng)了每一個車型的汽車，每個車型汽車數(shù)字后面則為評論頁頁碼。評論首頁URL如下所示。

https：//www.dongchedi.com/community/5579/1

通過構(gòu)造相應(yīng)的URL，循環(huán)生成并遍歷每個URL來模擬瀏覽器翻頁過程。本文設(shè)定爬取的目標頁數(shù)為前400頁，具體代碼如下所示：

電腦知識與技術(shù)2024年19期

電腦知識與技術(shù)的其它文章: 基于OBE 理念的網(wǎng)絡(luò)工程專業(yè)產(chǎn)教融合人才培養(yǎng)模式探究; 理實一體化教學模式在計算機應(yīng)用基礎(chǔ)課程中的應(yīng)用; 基于“崗課賽證”融通的人才培養(yǎng)模式研究; 5E 教學模式在Python 程序設(shè)計中的應(yīng)用研究; “新工科”背景下嵌入式系統(tǒng)課程教學模式探索; 基于工程教育專業(yè)認證的“通信原理”形成性評價研究與實踐

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Scrapy 的新能源汽車評論數(shù)據(jù)采集與情感分析