仇 明
(江蘇旅游職業(yè)學(xué)院,江蘇 揚(yáng)州225009)
中國互聯(lián)網(wǎng)絡(luò)信息中心2020 年4 月發(fā)布的第45 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2020 年3 月,我國網(wǎng)民規(guī)模達(dá)9.04 億,手機(jī)網(wǎng)絡(luò)用戶規(guī)模達(dá)8.97 億。[1]網(wǎng)絡(luò)深刻地影響和改變著人們的生活,越來越多的人通過網(wǎng)絡(luò)獲取信息并發(fā)表自己的觀點(diǎn)和意見。公眾開始依賴網(wǎng)絡(luò),對(duì)與自身利益相關(guān)的社會(huì)公共事件發(fā)表意見、留言,表明態(tài)度(即網(wǎng)絡(luò)輿情)。[2]
隨著我國經(jīng)濟(jì)的發(fā)展和人民生活水平的提高,人們對(duì)教育也提出了更高的要求。在網(wǎng)絡(luò)輿情中,教育類問題往往成為大家關(guān)注的對(duì)象。近年來,“小升初”“培訓(xùn)機(jī)構(gòu)”“公民統(tǒng)招”等教育措施的出臺(tái)受到了廣泛關(guān)注,一些地方政府開通了網(wǎng)上政務(wù),方便群眾進(jìn)行問題反饋。本文嘗試使用爬蟲程序獲取某市寄語市長網(wǎng)站中近三年的教育類留言,統(tǒng)計(jì)出一些高頻的關(guān)鍵詞并繪制詞云,獲得社會(huì)關(guān)注的熱點(diǎn)教育問題,從而為教育教學(xué)改革和教育質(zhì)量的提高提供依據(jù)和參考。
本程序開發(fā)采用Python 作為開發(fā)語言,Python的版本為3.7.0,相應(yīng)的開發(fā)工具為Pycharm,數(shù)據(jù)庫則采用了SQLite。
Python 是一種既面向過程又支持面向?qū)ο蟮慕忉屝跃幊陶Z言,它是動(dòng)態(tài)類型化的,無需聲明變量類型。Python 便于對(duì)大規(guī)模數(shù)據(jù)進(jìn)行操作與分析,對(duì)掌握其他語言的程序員及初學(xué)者比較友好。[3-4]
由于Python 語言容易學(xué)習(xí),且第三方庫豐富,本文采用Python 語言設(shè)計(jì)爬蟲。本次程序獲取的是文字?jǐn)?shù)據(jù)且數(shù)據(jù)量較小,所以用SQLite 數(shù)據(jù)庫存儲(chǔ)相關(guān)數(shù)據(jù)。SQLite 是一款完全開源且免費(fèi)的輕量級(jí)的關(guān)系型嵌入式數(shù)據(jù)庫,具有便攜性、易用性、高效性及可靠性多種優(yōu)點(diǎn)。[5]使用Jieba 庫進(jìn)行中文分詞和詞頻統(tǒng)計(jì),使用Wordcloud 繪制相關(guān)的詞云,實(shí)現(xiàn)數(shù)據(jù)的可視化。教育的輿情數(shù)據(jù)較多,有網(wǎng)絡(luò)論壇、網(wǎng)站留言、QQ 群、微信群等,本文所采用的數(shù)據(jù)為某市寄語市長網(wǎng)站的教育類留言。該網(wǎng)站為政府所辦,對(duì)于留言都有答復(fù)和回訪,其信息能夠較為真實(shí)地反映當(dāng)下人們關(guān)心的教育熱點(diǎn)問題。該網(wǎng)站界面如圖1 所示。
由于數(shù)據(jù)量不大,本程序使用Python 中的requests 庫爬取網(wǎng)頁中的留言,使用Xpath 的方式進(jìn)行網(wǎng)頁解析,最后將數(shù)據(jù)存放在SQLite 數(shù)據(jù)庫中。
圖1 寄語市長網(wǎng)站
通過上述操作,共爬取了近三年的教育類留言2079 條,相關(guān)數(shù)據(jù)信息如圖2 所示。
圖2 近三年的教育類留言信息表
首先,從數(shù)據(jù)庫中讀取各個(gè)留言,將所有留言拼接成一個(gè)字符文件;然后,使用Jieba 庫進(jìn)行分詞,去除一些無意義的詞語,統(tǒng)計(jì)出現(xiàn)頻率較高的詞語,這些詞就是廣大群眾關(guān)注的教育熱點(diǎn)問題;最后,將這些高頻詞語繪制詞云,使得數(shù)據(jù)形象化。
相應(yīng)的詞云如圖3 所示。從圖3 中可以看出,人們對(duì)于義務(wù)教育的入學(xué)問題、補(bǔ)課、機(jī)構(gòu)培訓(xùn)、招生、考試以及一些熱點(diǎn)學(xué)校的教學(xué)情況等較為關(guān)注。
圖3 根據(jù)出現(xiàn)頻率較高的關(guān)鍵詞生成的詞云
本次實(shí)驗(yàn)通過Python 爬蟲來獲取教育類的留言,并進(jìn)行詞頻統(tǒng)計(jì),繪制詞云圖,從中可以發(fā)現(xiàn)社會(huì)所關(guān)注的一些教育類熱點(diǎn)問題,從而為教育教學(xué)的改革和教育質(zhì)量的提高提供一些有益的參考。該程序較為簡單實(shí)用,能夠達(dá)到解決實(shí)際問題的效果,但還有很多不足,比如還沒有實(shí)現(xiàn)圖形用戶界面,用戶的體驗(yàn)效果不佳,程序的容錯(cuò)性也較差等,需要進(jìn)一步研究改進(jìn)。