趙芬 雷珍臻 楊曉云 蘇鵬舉 王順曄
摘要:網(wǎng)絡輿情是社會輿情在互聯(lián)網(wǎng)空間的映射,是社會輿情的直接反映,可通過大量的數(shù)據(jù)集合,進行輿情分析,大學生作為高等教育的主體,如何更好地了解學生的所思所想,成為高校教育不可或缺的一部分。本文通過爬蟲技術,在百度貼吧這個大學生聚集的社交平臺爬取交流數(shù)據(jù),通過對京津冀20所不同類型的高校的論壇內(nèi)容進行網(wǎng)絡輿情的情感分析,以方便高校管理部門更好地指導學生工作。
關鍵詞:網(wǎng)絡輿情;百度貼吧;網(wǎng)絡爬蟲
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2018)28-0227-03
Analysis on the Network Public Opinion of University students Based on Baidu Tieba
ZHAO Fen, LEI Zhen-zhen, YANG Xiao-yun, SU Peng-ju, WANG Shun-ye
(Langfang Normal University, Computer Technology Department, Langfang 065000, China)
Abstract: Network public opinion is the mapping of social public opinion in Internet. It relect the social public opinion directly. How to better understand what students think, becomes an indispensable part of higher education. Through crawler technology, this paper crawls the data from Baidu Tieba, a social platform gathered by university students. It makes an sentiment analysis of the network public opinion in Baidu Tieba which is from 20 different types of colleges and universities in Beijing, Tianjin and Hebei. It can facilitate the better management of colleges and universities students.
Key words: Network public opinion; Baidu Tieba; web crawler
1 概述
輿情是社會公眾對各類現(xiàn)象問題事件所表達的態(tài)度意見言論和情緒的綜合。隨著信息技術的發(fā)展,網(wǎng)絡輿情作為輿情領域的新問題備受關注。新時代大學生思想活躍,網(wǎng)民所占比例重,是各大社交平臺的主流群體。掌握學生網(wǎng)絡輿情對回應高校學生訴求、化解高校矛盾、維護高校秩序和穩(wěn)定等發(fā)揮著巨大作用。在大數(shù)據(jù)環(huán)境下問卷調查已不具普適性,信息處理、定量分析無疑是最佳方法。因此探討高校網(wǎng)絡輿情的監(jiān)測和引導問題是必要的和科學的。
本文通過爬蟲技術,在百度貼吧這個大學生聚集的社交平臺爬取交流數(shù)據(jù),通過對京津冀20所不同類型的高校的論壇內(nèi)容進行網(wǎng)絡輿情的情感分析,以方便高校管理部門更好地指導學生工作。
2 大學生網(wǎng)絡輿情
2.1網(wǎng)絡輿情
隨著時代的慢慢推移,科學技術水平的飛速發(fā)展,網(wǎng)絡通信日漸發(fā)達,互聯(lián)網(wǎng)已經(jīng)變成了日常生活中不可或缺的一部分,人們對于網(wǎng)絡信息的需求也越來越高,信息的過濾以及熱點話題的分析也變得越來越急需,其中網(wǎng)絡輿情分析也是其重要的一部分。網(wǎng)絡輿情是現(xiàn)今社會中網(wǎng)友對待熱點事件根據(jù)自身的感受以及社會現(xiàn)象等所顯示和展現(xiàn)出來的狀態(tài)以及意見。通過對網(wǎng)絡輿情的研究分析可以隨時了解到社會的各種現(xiàn)象,通過網(wǎng)絡爬蟲技術提取的數(shù)據(jù)信息,通過收集整理,可以實現(xiàn)對網(wǎng)絡輿情研究的精準、準時的獲取和判斷。網(wǎng)絡輿情現(xiàn)已成為各種公司、單位及社會部門預測以及監(jiān)控的重要部分。
2.2大學生網(wǎng)絡輿情
近年來,互聯(lián)網(wǎng)已經(jīng)在高校中隨處可見,但受其網(wǎng)絡的沖擊,校園文化、風氣也得到了很大的打擊。百度貼吧作為網(wǎng)絡交流平臺中最受歡迎的一個,因為其方便、快捷、及時的特點,以及用戶的隱匿性和交互性,受到了廣大大學生的喜愛,成為大學生最常用的網(wǎng)絡交流平臺之一,許多大學生都通過百度貼吧獲取信息或尋求幫助來解決問題。高校網(wǎng)絡輿情是老師、學生通過各種網(wǎng)絡平臺對學校的管理制度、意見觀點,學校熱點話題,學校發(fā)展建議等做出的評價以及態(tài)度和情緒的集合。
3 網(wǎng)絡爬蟲
3.1網(wǎng)絡爬蟲定義
網(wǎng)絡爬蟲[1],最簡單地來講:將網(wǎng)頁中的數(shù)據(jù)放到本地計算機上,是一種自動化瀏覽網(wǎng)頁的程序,可以將其看成一個隱形的沒有界面的簡陋瀏覽器,爬蟲為搜索引擎工作,作為搜索引擎的主要內(nèi)核程序,通過搜索引擎將網(wǎng)頁中的內(nèi)容下載到本地。首先獲取爬取信息的種子URL,通過分析網(wǎng)頁結構,實現(xiàn)網(wǎng)頁中數(shù)據(jù)的讀取,并將其內(nèi)容放置到本地計算機中,通過抓取網(wǎng)頁中的URL,源源不斷的將當前網(wǎng)頁中的URL存儲到循環(huán)隊列中,實現(xiàn)一層層的抓取,當把網(wǎng)站中的所有網(wǎng)頁抓取完成后,爬蟲才算結束,如同在網(wǎng)絡上爬行的大蜘蛛,通過以上的原理可以將整個網(wǎng)絡上的所有網(wǎng)頁爬取下來。
爬蟲技術[2]被很快用于搜索引擎或者其他相關網(wǎng)站,以便及時獲取數(shù)據(jù)網(wǎng)站的內(nèi)容以及其他數(shù)據(jù)。網(wǎng)絡爬蟲可以通過設定自動收集所有可訪問網(wǎng)頁和其中的內(nèi)容,收集到的數(shù)據(jù)以供搜索引擎做進一步處理,進而使用戶可以在第一時間準確獲得需要信息。
3.2網(wǎng)絡爬蟲原理
網(wǎng)絡爬蟲等同于瀏覽器,爬蟲工作抓取網(wǎng)頁的過程也是在于對 Request 和 Response 的處理。以瀏覽器渲染網(wǎng)頁的過程為例,當用戶打開某個網(wǎng)頁時,瀏覽器將發(fā)起對目標網(wǎng)址所在服務器的請求 Request,服務器則應答請求,將網(wǎng)頁以特定格式 Response 返回給瀏覽器,響應該請求后的瀏覽器會將網(wǎng)頁Response 反饋給瀏覽器,最終,在通過瀏覽器解析 Response中的格式把內(nèi)容顯示到屏幕上。
網(wǎng)絡爬蟲流程分為下幾步[3]:
(1)首先根據(jù)自身信息需要選擇一部分種子URL。
(2)將以上種子URL放入URL隊列中,等待抓取。
(3)從URL的帶抓取隊列中取出帶抓取的URL,解析DNS,從而得到主機的ip,將對應的URL網(wǎng)頁下載下來,存儲進已下載網(wǎng)頁庫中。然后,把已經(jīng)抓取過的URL放入已抓取隊列中。
(4)分析URL已抓取隊列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊列。
(5)以上工作完成之后,繼續(xù)循環(huán)此流程。
4實例分析
4.1數(shù)據(jù)準備
百度貼吧的內(nèi)容需要爬蟲自動抓取,所以初始的URL要由人為定義,也就是根據(jù)用戶輸入的關鍵字來進行提取相關URL,并且對于抓取到的內(nèi)容要進行過濾,獲得自己需要的內(nèi)容,本論文利用html技術做了Web前端版爬蟲界面,增加了爬蟲的完整性,根據(jù)用戶輸入的關鍵字,爬取相關的數(shù)據(jù),并保存進入數(shù)據(jù)庫。
本文借鑒相關問題的研究方法[4],根據(jù)所做爬蟲進行數(shù)據(jù)采集,選取京津冀地區(qū)20 所高校,醫(yī)藥類大學 2所、理工類7 所、綜合類5所、經(jīng)管類1所、師范類 5所,并且其中985、211類院校6所、一本院校11所,二本院校3所。本論文在數(shù)據(jù)搜索方面,爬取20所高校的貼吧論壇的帖子共計10萬的帖子,并將排名前50的帖子的帖子名稱進行排序,把每個帖子中的內(nèi)容爬取,進行數(shù)據(jù)分析,并對發(fā)帖類型和發(fā)帖數(shù)量進行數(shù)據(jù)統(tǒng)計。
4.2數(shù)據(jù)分析
SinglePass[5]算法屬于聚類算法,有著簡單的工作原理,所有的文本數(shù)據(jù)都會進行一次樣本分析,并一一對比,如果某文本數(shù)據(jù)和樣本數(shù)據(jù)匹配相似,便可歸為樣本數(shù)據(jù)的一類,如果某文本數(shù)據(jù)和樣本數(shù)據(jù)不匹配,就將該文本數(shù)據(jù)單獨劃分為一類。
根據(jù)Single-pass算法,與文本相似度進行重復匹配。在進行數(shù)據(jù)重復率匹配之前,借用IKAnalyzer分詞工具包對所有評論內(nèi)容進行分詞。
本文用分詞后的文本數(shù)據(jù)與文章進行遍歷,計算出數(shù)據(jù)與評論報道的相似度,如果若相似度大于已知的相似度閾值,將此文本數(shù)據(jù)視為該話題,如果相似度小于已知相似度閾值,則不將此文數(shù)據(jù)視為該話題,通過對所有文本數(shù)據(jù)的遍歷,得到最終的文本話題集合。
根據(jù)表 2可以看出,20所大學前 50名的帖子主要集中在情感交流和信息分享,問題求助的帖子緊隨其后。有關情緒發(fā)泄和評論意見的帖子在前 50名的帖子中占比很小,不到平均比例的10%??梢娋┙蚣降貐^(qū)的20所高校,其中主要的貼吧帖子占情感以及信息分享額比例很大。大學生在百度貼吧中,通過發(fā)帖及互評,發(fā)現(xiàn)和自己有共同理想和目標的人,來進行交友和情感拓展,在其中還有一部分帖子是尋找伴侶的帖子。信息分享在其中的占比很大,通過百度貼吧,尋找考研、雅思等學習資料以及經(jīng)驗,可見各高校對于學習還是有很大的動力,考研、考雅已經(jīng)成為一種社會趨勢。
京津冀各高校分別隸屬京、津、冀,有“雙一流”“一本”“二本”高校,有理工類高校、綜合類高校、偏重師范的高校,在大學生論壇中反映出來的網(wǎng)絡輿情也不相同。
(1)情感交流貼中二本院校占的比例是所有高校中比例最高的,但從總體來看,除了極個別高校情感交流貼比例很小,和其他帖子相比還是偏高,情感交流帖子的數(shù)量明顯較多。其中情感交流貼較少的幾個高校,主要分布為理工科大學(女生少)、一本類師范大學(男生),各個高校的男女學生,相比幾十年前的大學生,從思想上和生活方式上已經(jīng)開放了很多,同學們通過百度貼吧,從中結交、認識興趣愛好相同的人,男生也在此表達對女生的愛慕之情,現(xiàn)在已經(jīng)成為一種常態(tài)化的事情。
(2)信息分享帖相比所有高校中在一本和211、985院校中的比重是最大的,其中北京交通大學高達52%,可以看出現(xiàn)在高校學生對于信息的分享中百度貼吧是一個重要的載體,百度貼吧成為大學生主要交流、互動、分享的平臺,可以及時了解學校的公告動態(tài),從信息分享的內(nèi)容中可以看出,20所高校的信息分享帖,其中60%以上都是關于研究生考試、資料以及經(jīng)驗有關,從這一點也可以看出,現(xiàn)在考研是現(xiàn)在高校中的主流趨勢。
5 總結
通過本次研究、分析,整理了京津冀地區(qū)20所高校的網(wǎng)絡輿情,希望各高??梢愿鶕?jù)輿情分析的結果,加強對學校的管理以及制度的改善,并且在輿情分析的過程中,讓我對網(wǎng)絡爬蟲有了更好的理解,以及更大的好奇,也知道了網(wǎng)絡爬蟲的重要性。
此論文雖然完成高校網(wǎng)絡輿情分析的功能,但是面對許多問題還有待解決,可以在以下幾個方面進行適當?shù)母倪M:
(1)可以將網(wǎng)絡爬蟲的加入更多的功能,將所有的功能細化,可以根據(jù)用戶的需要,自行設置。
(2)可以加入其他大型的網(wǎng)絡交流論壇,如知乎,豆瓣等,做成一個Web前端式整合版的網(wǎng)絡爬蟲。
(3)做成高校網(wǎng)絡輿情分析的軟件,將極大提高各個高校對于學生、學校的管理和改革。
參考文獻:
[1] 韋瑋.精通Python網(wǎng)絡爬蟲[M],北京:機械工業(yè)出版社,2017年4月 .
[2] 周中華,等.基于 Python新浪微博數(shù)據(jù)爬蟲[J],計算機應用,34(2014) : 3131-3134.
[3] Ryan Mitchell.Python網(wǎng)絡數(shù)據(jù)采集[M],北京:人民郵電出版社出版,2016.
[4] 陽曉艷,等.大連高校維穩(wěn)工作與網(wǎng)絡輿情現(xiàn)狀分析——以微信、微博、百度貼吧平臺為例[J].才智,2017.6.
[5] 張志林.基于云計算的網(wǎng)絡輿情監(jiān)控關鍵技術研究[D].內(nèi)蒙古工業(yè)大學,2017.
【通聯(lián)編輯:王力】