白 健,洪小娟
(南京郵電大學(xué)管理學(xué)院,江蘇 南京 210003)
1535179246@qq.com;1291823970@qq.com
隨著新媒體技術(shù)的不斷蓬勃發(fā)展,人們獲取信息和表達(dá)情緒的方式更加多元化。以Bilibili為代表的新媒體傳播平臺在傳統(tǒng)評論的基礎(chǔ)上引入彈幕評論,為網(wǎng)民提供全新表達(dá)途徑的同時,也構(gòu)建了全新的網(wǎng)絡(luò)輿情空間,逐漸成為新的“網(wǎng)絡(luò)輿情傳播載體”。
傳統(tǒng)評論是網(wǎng)民基于整體感知做出的“滯后”評論,因而更加偏于“理性”表達(dá)。而彈幕作為一種新媒體時代下的短信息表達(dá)方式,以實時評論的方式表達(dá)了用戶對于當(dāng)前視頻的即刻認(rèn)知與行為傾向,相比于傳統(tǒng)評論方式具有更強(qiáng)的情感色彩和時效性,這對于網(wǎng)絡(luò)輿情情感分析研究具有獨(dú)特的研究價值。通過對彈幕內(nèi)容進(jìn)行數(shù)據(jù)可視化、情感分析以及主題分類,有助于動態(tài)把握網(wǎng)絡(luò)輿情態(tài)勢走向,追蹤網(wǎng)民關(guān)注熱點(diǎn),尋找彈幕背后所蘊(yùn)含的情感傾向和輿情熱點(diǎn),為防范化解網(wǎng)絡(luò)輿情風(fēng)險,完善輿情分析機(jī)制,構(gòu)建和諧穩(wěn)定網(wǎng)絡(luò)空間做出貢獻(xiàn)。
本文研究設(shè)計思路:首先,使用Python編寫網(wǎng)絡(luò)爬蟲技術(shù)代碼進(jìn)行網(wǎng)絡(luò)輿情彈幕文本數(shù)據(jù)采集和數(shù)據(jù)清洗;其次,使用中文分詞組件Jieba進(jìn)行彈幕數(shù)據(jù)的分詞、去停用詞以及高頻詞統(tǒng)計,得到網(wǎng)絡(luò)輿情的高頻關(guān)鍵詞及權(quán)重;再次,調(diào)用WordCloud庫設(shè)置詞云圖樣式并將經(jīng)過Jieba分詞器處理的彈幕數(shù)據(jù)進(jìn)行詞云圖呈現(xiàn);最后,基于SnowNLP進(jìn)行情感分析,判斷彈幕數(shù)據(jù)中積極、消極、中性的情感比例并進(jìn)行分析,得出情感分析占比圖、直方圖和波動圖,并基于LDA主題模型得到焦點(diǎn)主題。具體研究流程如圖1所示。
圖1 基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析流程Fig.1 Text mining and sentiment analysis process of network public opinion based on bullet screen
Bilibili作為一個快速崛起的新媒體平臺,具有超過3億的用戶數(shù)量,其活躍用戶群體大,彈幕數(shù)量豐富且具有較好的包容性,因而本文選擇Bilibili作為數(shù)據(jù)源,進(jìn)行數(shù)據(jù)采集操作。
首先使用開發(fā)者工具獲取視頻彈幕的異步請求包,觀察和分析網(wǎng)頁變化規(guī)律,找到網(wǎng)絡(luò)數(shù)據(jù)來源。通過對目標(biāo)網(wǎng)頁數(shù)據(jù)來源地解析,從Headers中獲取爬蟲所需的URL、Cookie及User-agent。其次,使用Python的Requests第三方庫,使用解析獲得的Cookie以及User-agent構(gòu)建headers{}請求頭,結(jié)合URL地址調(diào)用request.get()方法獲取原始彈幕數(shù)據(jù);最后,使用Python內(nèi)置Re庫的正則表達(dá)式re.findall()函數(shù)精確匹配要爬取的內(nèi)容,剔除無關(guān)數(shù)據(jù),并將彈幕數(shù)據(jù)進(jìn)行存儲。
數(shù)據(jù)清洗是網(wǎng)絡(luò)爬蟲的重要一環(huán),通過剔除原始彈幕文本中的表情符號、數(shù)字、空白值等無效信息,可以有效提升數(shù)據(jù)質(zhì)量。
在完成數(shù)據(jù)采集以及數(shù)據(jù)清洗后,調(diào)用第三方Jieba、WordCloud庫實現(xiàn)高頻詞統(tǒng)計與數(shù)據(jù)可視化。
Jieba分詞器是目前Python中最好的中文分詞組件,主要利用中文詞庫確定漢字間的相關(guān)概率,進(jìn)而產(chǎn)生正確分詞結(jié)果,此分詞方式的準(zhǔn)確率超過了97%,能夠很好地協(xié)助使用者完成主題詞抽取、潛在主題發(fā)現(xiàn)等工作,尤其適用于中文文本分類。Jieba支持用戶詞典和停用詞字典功能,這能夠在較大程度上提升分詞結(jié)果的準(zhǔn)確度,對分詞結(jié)果不太理想的詞組,也能夠采取引入用戶自定義字典的方法加以處理。因而本文選擇使用Jieba分詞器進(jìn)行彈幕文本數(shù)據(jù)的分詞、去停用詞及高頻詞統(tǒng)計。
首先,使用Pandas庫的read_csv()方法導(dǎo)入經(jīng)過簡單數(shù)據(jù)清洗的彈幕文本數(shù)據(jù),并通過Jieba庫的jieba.lcut()方法實現(xiàn)對彈幕文本的分詞操作;其次,使用stopwords=[line.strip()for line in open().readlines()]導(dǎo)入停用詞詞典,并通過遍歷循環(huán)將“增加熱度、增熱專用、1、2”之類無效彈幕進(jìn)行剔除;最后,使用jieba.analyse.extract_tags()方法提取彈幕文本“Top10關(guān)鍵詞及權(quán)重”并通過遍歷操作實現(xiàn)存儲。
WordCloud庫以WordCloud對象為基礎(chǔ),以詞語為基本單位進(jìn)行詞云圖繪制。首先,通過wordcloud.WordCloud()函數(shù)進(jìn)行詞云圖參數(shù)設(shè)置,本文設(shè)置width=1200,height=900,font_path='msyh.ttc',background_color="white",max_words=1500,stopwords=stopwords,確定詞云圖的形狀、尺寸、背景色、字體等;其次,使用wordcloud.generate_from_text()方法將Jieba分詞處理后的彈幕文本數(shù)據(jù)傳入詞云圖中;最后通過wordcloud.to_file()方法輸出詞云圖。
傳統(tǒng)的Python自然語言處理庫大多都面向英文,對于中文文本處理兼容性較差,而SnowNLP庫的出現(xiàn)很好地彌補(bǔ)了這一點(diǎn)。SnowNLP庫自帶中文正負(fù)情感訓(xùn)練集,可以通過樸素貝葉斯原理實現(xiàn)情感分析、詞性標(biāo)注、文本分類等操作,很好地適用于中文文本數(shù)據(jù)的處理,故本文選取SnowNLP進(jìn)行網(wǎng)絡(luò)輿情的情感分析。通過SnowNLP情感分析可以獲得情感分析占比圖、直方圖、波動圖以及情感得分表等可視化結(jié)果。SnowNLP情感預(yù)測基本原理如下。
式(2)即為SnowNLP情感預(yù)測過程使用的基本式,該式還可以進(jìn)一步簡化為式(3)。
LDA是潛在語義分析和概率語義分析的擴(kuò)展,在文本數(shù)據(jù)挖掘等領(lǐng)域廣泛使用。LDA模型可以自動將文本自動編碼為一定數(shù)量具有實質(zhì)性意義的主題,可極大減少人為干預(yù)負(fù)擔(dān)。運(yùn)行LDA模型,可以獲得每個主題下的詞語分布概率,以及文檔對應(yīng)的主題概率,其模型結(jié)構(gòu)如圖2所示。
圖2 LDA模型結(jié)構(gòu)示意圖Fig.2 Structure diagram of LDA model
LDA模型分為文檔、主題和詞語三層,是典型的生成式主題模型,具體文檔生成過程如下。
為了驗證基于彈幕的網(wǎng)絡(luò)輿情文本挖掘與情感分析的可行性以及可靠性,以“鴻星爾克捐款”為主題構(gòu)建實驗數(shù)據(jù),進(jìn)行效果檢驗。
首先,爬取相關(guān)彈幕并對數(shù)據(jù)進(jìn)行清洗,獲得視頻地址、彈幕地址、彈幕時間以及彈幕內(nèi)容等數(shù)據(jù),如圖3所示。
圖3 爬蟲結(jié)果展示(部分)Fig.3 Crawler results show (partial)
其次,經(jīng)過Jieba分詞、去停用詞、高頻詞統(tǒng)計,獲得“Top10關(guān)鍵詞及權(quán)重”表,詳見表1。其中,“國貨、格局、鴻星爾克、支持”等網(wǎng)絡(luò)輿情關(guān)鍵詞赫然在列,其權(quán)重分別為1.426044、1.144364、0.934489、0.518985。同時,通過WordCloud繪制詞云圖,可以得到以“鴻星爾克捐款”為主題的彈幕詞云圖,如圖4所示。圖中“支持國貨、格局、鴻星爾克”等關(guān)鍵詞詞頻較高。
圖4 詞云圖Fig.4 Word cloud
表1 Top10關(guān)鍵詞及權(quán)重Tab.1 Top10 keywords and their weights
最后,調(diào)用SnowNLP和LDA進(jìn)行最為重要的彈幕情感傾向分析和主題提取。通過SnowNLP情感分析,可以得到與“鴻星爾克捐款”相關(guān)的網(wǎng)絡(luò)輿情彈幕情感分析占比圖、直方圖和波動圖,如圖5—圖7所示。圖5從情感得分占比的角度給出了情感分析數(shù)據(jù),可以直觀看出積極、消極及中性情感分別占比為87.93%、10.66%和1.41%。圖6以直方圖的形式呈現(xiàn)了情感得分的區(qū)間分布,從圖中可以看出整體情感分布靠右,說明網(wǎng)民對于該網(wǎng)絡(luò)輿情事件呈現(xiàn)較為積極的態(tài)度。圖7以波動圖的形式呈現(xiàn)了彈幕時間與情感得分的關(guān)系。圖中,橫軸為彈幕時間,縱軸為彈幕情感得分,波動曲線整體分布靠上,且隨著時間推移越發(fā)穩(wěn)定于上側(cè)區(qū)間,一方面說明情感得分均值高于0.5,網(wǎng)民對該事件大多持積極觀點(diǎn),另一方面說明隨著時間推移持有積極觀點(diǎn)的網(wǎng)民逐漸占據(jù)多數(shù)。
圖5 鴻星爾克情感分析占比圖Fig.5 Proportion chart of sentiment analysis for Hongxing Erke
圖6 情感分析直方圖Fig.6 Histogram sentiment analysis
圖7 情感分析波動圖Fig.7 Fluctuation graph of sentiment analysis
通過實驗分析不難發(fā)現(xiàn),情感分析占比圖、直方圖和波動圖三者分別從情感得分占比、分布和時間三個角度呈現(xiàn)了彈幕背后蘊(yùn)含的輿情信息,說明以“鴻星爾克捐贈”為主題的相關(guān)網(wǎng)絡(luò)輿情,整體情感傾向較為積極,網(wǎng)絡(luò)輿情態(tài)勢穩(wěn)步向好。
通過LDA進(jìn)行主題詞提取可以獲得彈幕數(shù)據(jù)主題聚類表,詳見表2。從表2可以看出“格局、國貨、鴻星爾克、吳榮照老板”四個主題是彈幕背后隱藏的核心主題詞,是網(wǎng)民真正的關(guān)注焦點(diǎn)。
表2 主題聚類表Tab.2 Theme clustering table
不難發(fā)現(xiàn),利用LDA進(jìn)行主題詞提取獲得的主題聚類表與Jieba分詞獲得的“Top10關(guān)鍵詞及權(quán)重”表及WordCloud繪制的詞云圖所示結(jié)果一致,三者相互印證,說明無論是詞頻角度還是聚類角度,“格局、國貨、鴻星爾克、吳榮照老板”均為該網(wǎng)絡(luò)輿情的核心焦點(diǎn),進(jìn)一步呈現(xiàn)了彈幕與網(wǎng)絡(luò)輿情之間的潛在聯(lián)系,這對于切實把握網(wǎng)民關(guān)注焦點(diǎn),防范化解衍生輿情具有重要意義。
彈幕相較于傳統(tǒng)評論具有更強(qiáng)烈的情感色彩以及更強(qiáng)的時效性,本文通過對彈幕數(shù)據(jù)的文本挖掘和情感分析探索隱藏在彈幕背后的網(wǎng)絡(luò)輿情信息。實驗結(jié)果顯示,歷經(jīng)網(wǎng)絡(luò)爬蟲、數(shù)據(jù)清洗、數(shù)據(jù)可視化、SnowNLP情感分析和LDA主題詞分類等步驟后,獲得的網(wǎng)絡(luò)輿情彈幕詞云圖、情感分析占比圖、直方圖、波動圖及LDA主題聚類表等結(jié)果較好地呈現(xiàn)了網(wǎng)民的情感傾向與關(guān)注焦點(diǎn),這對于把握網(wǎng)絡(luò)輿情動態(tài)走向、防范化解網(wǎng)絡(luò)輿情風(fēng)險具有一定的現(xiàn)實意義。新媒體時代下,網(wǎng)民群體意見表達(dá)渠道更加多元化,彈幕這一新興情感表達(dá)方式的出現(xiàn),是對現(xiàn)有輿情研究的良好補(bǔ)充,通過深入對網(wǎng)絡(luò)輿情彈幕的研究可以更好地響應(yīng)網(wǎng)民合理關(guān)切,完善輿情分析機(jī)制,進(jìn)而為構(gòu)建更加和諧清明的網(wǎng)絡(luò)空間做出貢獻(xiàn)。