趙洪凱,宋 越,肖玉芝*,冶忠林
(1.青海師范大學(xué)計(jì)算機(jī)學(xué)院,青海西寧 810016;2.青海省藏文信息處理與機(jī)器翻譯重點(diǎn)實(shí)驗(yàn)室,青海西寧 810008;3.藏文信息處理教育部重點(diǎn)實(shí)驗(yàn)室,青海西寧 810008)
應(yīng)對(duì)公共危機(jī)的能力是衡量教育治理能力現(xiàn)代化水平的重要維度.在面對(duì)新冠重大疫情危機(jī)過(guò)程中,教育的保證需要家庭、學(xué)校和社會(huì)共同建立.如何快速做出應(yīng)對(duì)措施,更需要依賴新媒體力量.通過(guò)大數(shù)據(jù)挖掘技術(shù),分析互聯(lián)網(wǎng)用戶對(duì)突發(fā)事件的情感態(tài)度,研究情感演變趨勢(shì),有助于決策者精準(zhǔn)制定政策以及快速引導(dǎo)輿論.在各類(lèi)新媒體中,微博憑借其便捷的信息發(fā)布方式和龐大的用戶基數(shù)成為了網(wǎng)絡(luò)輿情傳播的主要媒介[1].2020年1月29日,為防控新型冠狀病毒肺炎在學(xué)校蔓延,降低疫情對(duì)高校正常教學(xué)的影響,教育部提出“停課不停教、停課不停學(xué)”的新舉措[2].這一舉措引發(fā)了廣泛的社會(huì)關(guān)注,“停課不停學(xué)”相關(guān)內(nèi)容成為微博熱議話題,輿論熱度居高不下,教師、家長(zhǎng)和學(xué)生對(duì)其關(guān)注持續(xù)增長(zhǎng).從“停課不停學(xué)”期間產(chǎn)生的大量微博短文本數(shù)據(jù)中挖掘有價(jià)值的信息,可視化展現(xiàn)微博用戶的情感演變規(guī)律,有助于在公共危機(jī)下教育管理者迅速響應(yīng),同時(shí)為網(wǎng)絡(luò)輿情研究提供了一種基于數(shù)據(jù)挖掘融合情感分析的研究路線和理論方法.
伴隨著自然語(yǔ)言處理的蓬勃發(fā)展,情感分析成為了網(wǎng)絡(luò)輿情研究中不可或缺的一部分.現(xiàn)有的微博情感分析方法可以分為兩大類(lèi):基于情感詞典的分析方法和基于機(jī)器學(xué)習(xí)的方法[3].如姜金貴[4]等通過(guò)構(gòu)建情感詞、程度副詞和否定詞詞典,根據(jù)微博文本中出現(xiàn)三類(lèi)詞語(yǔ)的次數(shù)給出計(jì)算情緒值的模型.為了進(jìn)一步細(xì)化情感分析結(jié)果,安璐[5]等對(duì)微博表情進(jìn)行情緒量化從而得到表情符號(hào)詞典,并結(jié)合情感詞典判別微博文本的情感傾向.在情感分析的研究領(lǐng)域中機(jī)器學(xué)習(xí)的方法往往更能取得較好的研究結(jié)果,基于機(jī)器學(xué)習(xí)的方法分為有監(jiān)督的機(jī)器學(xué)習(xí)和弱監(jiān)督的深度學(xué)習(xí),前者如任中杰[6]等人使用樸素貝葉斯算法對(duì)微博文本進(jìn)行情感分析,并構(gòu)建輿情情感生態(tài)演變模型,以輿情發(fā)展過(guò)程中消極情緒出現(xiàn)的時(shí)間段進(jìn)行劃分和分析.鄧君[7]等使用Word2vec+SVM的模型判別微博文本的情感傾向,有效預(yù)測(cè)出網(wǎng)民的情感態(tài)勢(shì).后者如王義[8]等通過(guò)Word2vec將本文數(shù)據(jù)分為三類(lèi)級(jí)別的向量表示,分別輸入卷積神經(jīng)網(wǎng)絡(luò)后得到更加精確的文本特征向量,在此基礎(chǔ)上獲得了更好的情感分類(lèi)效果.Zhang[9]等提出一種基于RNN情感分類(lèi)方法,將短句中的詞語(yǔ)轉(zhuǎn)為向量表示,在輸出層使用softmax回歸分類(lèi)器預(yù)測(cè)每個(gè)句子的情感傾向.
本文在現(xiàn)有的研究基礎(chǔ)上將參與討論的主體對(duì)象(教師、家長(zhǎng)和學(xué)生)考慮在內(nèi),構(gòu)建了面向微博文本的共詞網(wǎng)絡(luò),利用社團(tuán)挖掘技術(shù)劃分出包含三類(lèi)主體對(duì)象的社團(tuán),結(jié)合基于貝葉斯定理的情感分類(lèi)模型和Word2vec+K-means的主題檢測(cè)模型,對(duì)主體對(duì)象情感極性進(jìn)行計(jì)算和話題關(guān)鍵字抽取.此外,通過(guò)數(shù)據(jù)可視化方法多維度展示公眾情感態(tài)度和關(guān)注的主題內(nèi)容.
數(shù)據(jù)來(lái)源于微博公眾平臺(tái),時(shí)間跨度為2020年2月1日至2020年4月30日(共計(jì)90天).為了使采集的數(shù)據(jù)更加全面,設(shè)置策略為按天和話題熱度的高低排名進(jìn)行采集.最終獲得博文數(shù)據(jù)60872條,評(píng)論數(shù)據(jù)14405條.為了提高分析的準(zhǔn)確性,深層次獲取數(shù)據(jù)信息,對(duì)每條博文和評(píng)論發(fā)布者個(gè)人信息進(jìn)行二次采集,采集的信息字段包括用戶編號(hào)、用戶名稱(chēng)、用戶性別、用戶地址、微博文本、評(píng)論文本和發(fā)布時(shí)間等.
對(duì)初始數(shù)據(jù)中包含重復(fù)、無(wú)關(guān)、無(wú)效以及缺失嚴(yán)重的數(shù)據(jù)進(jìn)行清洗.由于一條博文被多個(gè)用戶轉(zhuǎn)發(fā),對(duì)于博文內(nèi)容相同的數(shù)據(jù)只保留一條.例如在某位明星轉(zhuǎn)發(fā)的有關(guān)“停課不停學(xué)”的博文評(píng)論中,有不少評(píng)論是表示對(duì)明星個(gè)人的崇拜,與本文研究的內(nèi)容無(wú)關(guān),對(duì)這些評(píng)論進(jìn)行刪除.又如含有大量表情、鏈接和教育機(jī)構(gòu)廣告類(lèi)博文均視為異常數(shù)據(jù),將這些數(shù)據(jù)對(duì)應(yīng)的記錄進(jìn)行刪除.處理后的博文數(shù)據(jù)為21 683條,評(píng)論數(shù)據(jù)為9 604條.
采用Jieba分詞[10]對(duì)清洗后的文本內(nèi)容進(jìn)行分詞處理,同時(shí)使用哈工大停用詞表[11]過(guò)濾出現(xiàn)頻率極高和無(wú)實(shí)際意義的詞語(yǔ),并對(duì)分詞后的語(yǔ)料進(jìn)行二次存儲(chǔ).
文本聚類(lèi)是一種常用的文本處理方法,如何從海量的數(shù)據(jù)中快速獲取有價(jià)值的主題信息,對(duì)于互聯(lián)網(wǎng)輿情監(jiān)管、信息過(guò)濾等信息內(nèi)容安全領(lǐng)域的研究具有重要意義[12].Word2vec作為計(jì)算詞向量的工具由Mikolov[13]等人在2013年提出.其本質(zhì)為一個(gè)雙層的神經(jīng)網(wǎng)絡(luò),通過(guò)訓(xùn)練給定的語(yǔ)料庫(kù)得到一個(gè)詞向量模型,并考慮詞語(yǔ)的上下文含義將詞語(yǔ)轉(zhuǎn)化為向量表示.由此,詞語(yǔ)語(yǔ)義之間的相似性可以轉(zhuǎn)變?yōu)橄蛄靠臻g上的相似性,進(jìn)而可以做聚類(lèi)分析、詞性分析等.Word2vec核心架構(gòu)包括Skip-gram模型和CBOW模型.本文采用Skip-gram模型做聚類(lèi)分析,以Gensim庫(kù)下的Word2vec模塊為訓(xùn)練工具,采用Skip-gram+HuffamSoftmax模型結(jié)構(gòu),將已處理好的語(yǔ)料庫(kù)輸入到模型中進(jìn)行訓(xùn)練,其中模型參數(shù)設(shè)置窗口大小為5、詞頻閾值為5、詞向量維數(shù)為256.最后將語(yǔ)料中的每個(gè)詞語(yǔ)表示成包含上下文語(yǔ)義關(guān)系的詞向量,在此基礎(chǔ)上使用K-means方法按階段對(duì)詞向量進(jìn)行聚類(lèi),得到每個(gè)階段討論熱點(diǎn)話題的關(guān)鍵詞組,聚類(lèi)流程如圖1所示.
1.4.1 樸素貝葉斯分類(lèi)器
樸素貝葉斯模型具有堅(jiān)實(shí)的數(shù)學(xué)基礎(chǔ)和穩(wěn)定的分類(lèi)效果,常用于文本分類(lèi),對(duì)于大規(guī)模的訓(xùn)練具有較快的速度,對(duì)結(jié)果的解釋容易理解且算法較為簡(jiǎn)單.樸素貝葉斯分類(lèi)器在詐騙檢測(cè)[14]、人臉識(shí)別[15]和垃圾郵件攔截等應(yīng)用領(lǐng)域具有良好的效果.因此,本文采用貝葉斯分類(lèi)器對(duì)微博文本數(shù)據(jù)進(jìn)行情感傾向性判定.
假設(shè)研究的問(wèn)題中,分為2個(gè)類(lèi)別(正向/負(fù)向)的文本,即C={C1,C2},訓(xùn)練樣本屬性特征為(W1,W2,…,Wn),其分別代表樣本中出現(xiàn)的n個(gè)詞語(yǔ),且每個(gè)詞語(yǔ)是相互獨(dú)立的,則屬于C1類(lèi)別的貝葉斯模型為:
(1)
其中:
P(W1,W2,…,Wn)=P(W1,W2,…,Wn|C1)P(C1)+P(W1,W2,…,Wn|C2)·P(C2)
(2)
(3)
如果P(C1|W1,W2,…,Wn)>P(C2|W1,W2,…,Wn),那么就判定為C1;如果P(C1|W1,W2,…,Wn)>P(C2|W1,W2,…,Wn),那么就判定為C2.
1.4.2 情感預(yù)測(cè)
采用SnowNLP庫(kù)下sentiment模塊來(lái)訓(xùn)練情感模型,SnowNLP常用于文本分類(lèi)、文本分詞和情感分析等[16].首先將訓(xùn)練樣本分為正負(fù)文本數(shù)據(jù),并對(duì)其進(jìn)行詞頻統(tǒng)計(jì);然后使用貝葉斯定理分別計(jì)算正向和負(fù)向的先驗(yàn)概率P(s)和P(n),對(duì)要預(yù)測(cè)的文本進(jìn)行分詞并分別計(jì)算出每個(gè)詞語(yǔ)的后驗(yàn)概率P(word|s)和P(word|n);最后根據(jù)計(jì)算出概率較大的類(lèi)別來(lái)判斷該文本屬于正向還是負(fù)向.以評(píng)論“在家也可以提高成績(jī)”為例,則有:
(4)
(5)
由貝葉斯定理的條件獨(dú)立假設(shè),兩兩詞語(yǔ)之間是相互獨(dú)立的,則有:
P(“在家”“可以”“提高”“成績(jī)”|s)=P(“在家”|s)×P(“可以”|s)×P(“提高”|s)×P(“成績(jī)”|s)
(6)
由于SnowNLP本身自帶的語(yǔ)料庫(kù)具有滯后性,因此使用部分微博語(yǔ)料對(duì)自帶的語(yǔ)料庫(kù)進(jìn)行擴(kuò)充,在此基礎(chǔ)上對(duì)其進(jìn)行二次訓(xùn)練重新得到sentiment.marshal模型.由此,計(jì)算出每條微博文本的情感值,表1為部分文本數(shù)據(jù)的情感值.
表1 微博文本數(shù)據(jù)情感分析結(jié)果
1.5.1 共詞網(wǎng)絡(luò)
共詞網(wǎng)絡(luò)是以語(yǔ)料集中的關(guān)鍵字為節(jié)點(diǎn),以不同語(yǔ)料中的共現(xiàn)關(guān)系為連邊而構(gòu)建的網(wǎng)絡(luò)模型.以表1中的前四條微博文本數(shù)據(jù)為例構(gòu)建共詞網(wǎng)絡(luò).首先從原始文本中提取出表現(xiàn)微博語(yǔ)義的關(guān)鍵字,如表2所示,然后根據(jù)每條文本的關(guān)鍵字構(gòu)建共詞網(wǎng)絡(luò),如圖2所示.A、B和C三條博文的關(guān)鍵字分別構(gòu)成了圖2中的三個(gè)完全子圖,而D博文對(duì)應(yīng)的關(guān)鍵字將三個(gè)子圖關(guān)聯(lián)到一起.兩條博文中出現(xiàn)相同的關(guān)鍵字越多,則說(shuō)明這兩條博文之間的聯(lián)系越緊密,語(yǔ)料集中的高頻詞則是連接孤立完全子圖的樞紐,一般語(yǔ)料集的大小決定了共詞網(wǎng)絡(luò)的復(fù)雜程度.
表2 微博文本關(guān)鍵詞數(shù)據(jù)表
圖2 微博文本共詞網(wǎng)絡(luò)圖
1.5.2 基于共詞網(wǎng)絡(luò)的社團(tuán)挖掘
利用社團(tuán)挖掘技術(shù)對(duì)網(wǎng)絡(luò)中的節(jié)點(diǎn)進(jìn)行聚類(lèi),基于微博共詞網(wǎng)絡(luò),采用Louvain算法[17],快速檢測(cè)出與主體對(duì)象有潛在關(guān)聯(lián)的關(guān)鍵字.Louvain算法是非重疊社團(tuán)劃分算法中運(yùn)行結(jié)果穩(wěn)定且劃分效果較好的算法之一,通過(guò)優(yōu)化網(wǎng)絡(luò)中的模塊度Q函數(shù)來(lái)實(shí)現(xiàn)社團(tuán)劃分.模塊度Q函數(shù)[18]作為衡量社團(tuán)劃分質(zhì)量的評(píng)價(jià)指標(biāo),其表達(dá)式為:
(7)
其中,m為網(wǎng)絡(luò)中所有連邊的數(shù)量,didj/2m為節(jié)點(diǎn)和之間連邊的平均值,Ai,j-didj/2m為社區(qū)效應(yīng)強(qiáng)度.為了清晰展現(xiàn)社團(tuán)挖掘的過(guò)程,采用幾條包含主體對(duì)象的語(yǔ)料對(duì)其實(shí)現(xiàn)步驟進(jìn)行說(shuō)明,表3為分詞之后構(gòu)建的語(yǔ)料集.
Step1:對(duì)原始數(shù)據(jù)進(jìn)行分詞,并過(guò)濾停用詞.
Step2:構(gòu)建語(yǔ)料集.其數(shù)據(jù)格式為包含語(yǔ)料編號(hào)和語(yǔ)料內(nèi)容關(guān)鍵字的二元組.
Step3:構(gòu)建關(guān)鍵詞字典.包含語(yǔ)料集中出現(xiàn)的所有詞語(yǔ)并對(duì)其進(jìn)行編號(hào)且不重復(fù).
Step4:網(wǎng)絡(luò)構(gòu)建.以關(guān)鍵詞字典中的詞語(yǔ)為網(wǎng)絡(luò)節(jié)點(diǎn),以語(yǔ)料集中的共現(xiàn)關(guān)系為連邊.
Step5:通過(guò)Louvain算法進(jìn)行社團(tuán)發(fā)現(xiàn).
表3 包含主體對(duì)象的部分微博語(yǔ)料集
續(xù)表
通過(guò)表3給出的語(yǔ)料集,構(gòu)建的共詞網(wǎng)絡(luò)中含有64個(gè)節(jié)點(diǎn)和268條連邊,使用Louvain算法對(duì)共詞網(wǎng)絡(luò)進(jìn)行社團(tuán)挖掘,其模塊度大小為0.63,社團(tuán)劃分結(jié)果如圖3所示.圖中節(jié)點(diǎn)的度數(shù)由節(jié)點(diǎn)的大小來(lái)體現(xiàn),在劃分出的5個(gè)社團(tuán)中,0號(hào)社團(tuán)為描述老師的社團(tuán),其中和老師最為相關(guān)的是“網(wǎng)課”其度數(shù)為15;1號(hào)社團(tuán)為描述疫情的社團(tuán),其中和疫情最為相關(guān)的是“學(xué)”其度數(shù)為16;3號(hào)社團(tuán)為描述學(xué)生的社團(tuán),其中和學(xué)生最為相關(guān)的是“筆記”和“自律”其度數(shù)都為7.通過(guò)社團(tuán)劃分可以挖掘出與主體對(duì)象有潛在關(guān)聯(lián)的關(guān)鍵詞,結(jié)合相關(guān)微博文本對(duì)主體對(duì)象的情感態(tài)度進(jìn)行分析.
圖3 基于微博共詞網(wǎng)絡(luò)的社團(tuán)劃分結(jié)果
利用1.4中提出的情感分析方法,對(duì)微博文本情緒進(jìn)行評(píng)分,評(píng)分值介于0到1之間.接近1說(shuō)明正向情感越強(qiáng)烈,反之說(shuō)明負(fù)向情感越強(qiáng)烈.圖4給出了三個(gè)月內(nèi)日情感均值隨時(shí)間的變化曲線.顯然,網(wǎng)民對(duì)于“停課不停學(xué)”的總體態(tài)勢(shì)趨于正向,曲線大致呈先降低后升高的趨勢(shì),其中9天的情感值小于0.5,81天的情感值大于0.5.根據(jù)疫情期間網(wǎng)民發(fā)布的微博數(shù)據(jù)量和圖4的情感曲線圖將網(wǎng)民對(duì)于“停課不停學(xué)”的情感態(tài)度劃分為4個(gè)階段進(jìn)行分析.
圖4 每日情感均值分布圖
第一階段,即圖中0~8天,受到新冠疫情的影響,為確保全國(guó)師生身體健康,2020年01月29日教育部發(fā)布延期開(kāi)學(xué)的通知,并提出從實(shí)際出發(fā),科學(xué)安排,合理選擇學(xué)習(xí)資源,利用網(wǎng)絡(luò)平臺(tái)實(shí)施“停課不停學(xué)”.由此引發(fā)公眾熱議,網(wǎng)民對(duì)教育部發(fā)布的“停課不停學(xué)”通知響應(yīng)較為積極,有不少網(wǎng)民在微博上發(fā)布了個(gè)人學(xué)習(xí)動(dòng)態(tài)并打上“停課不停學(xué)”的標(biāo)語(yǔ),部分地區(qū)陸續(xù)開(kāi)始了網(wǎng)上教學(xué).在此期間,微博內(nèi)容大多偏向正向,情緒值在0.47~0.61之間波動(dòng),只有2月4號(hào)情緒值小于0.5,第一階段網(wǎng)民情緒狀態(tài)較為緩和,正向情緒顯著.
第二階段,即圖中9~28天,經(jīng)過(guò)幾天的發(fā)展,網(wǎng)民對(duì)于“停課不停學(xué)”的討論熱度逐漸升高.2月11號(hào)人民日?qǐng)?bào)在微博發(fā)布“教育部回應(yīng)停課不停學(xué):不得強(qiáng)行要求學(xué)生每天上網(wǎng)打卡”的博文,在短短的幾天內(nèi)對(duì)于該條微博網(wǎng)民點(diǎn)贊數(shù)達(dá)到70多萬(wàn),之后的閱讀量更是超過(guò)1.4億次.隨著先前負(fù)面情緒的積累,11號(hào)和12號(hào)兩天的情緒值跌入谷底,負(fù)面情緒顯著.經(jīng)過(guò)短暫的情緒低落期后,情緒值開(kāi)始慢慢攀升,最后穩(wěn)定在0.5到0.55之間.
第三階段,即圖中29~60天,隨著部分教育機(jī)構(gòu)推出大量線上課程倡導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)以及學(xué)生們對(duì)網(wǎng)課的適應(yīng),情緒值出現(xiàn)小幅上升趨勢(shì),主要在0.5到0.65之間波動(dòng).
第四階段,即圖中61~90天,伴隨部分學(xué)校的開(kāi)學(xué)和老師的積極引導(dǎo),網(wǎng)民情緒值進(jìn)一步提升,正向情緒較為顯著,平均情緒值達(dá)到了0.63.
總體而言,網(wǎng)民對(duì)于“停課不停學(xué)”的態(tài)度呈現(xiàn)出“積極—消極—積極”的轉(zhuǎn)變.從第二階段開(kāi)始情緒值緩慢上升“停課不停學(xué)”的教學(xué)模式也被網(wǎng)民逐漸接受.
微博文本內(nèi)容主要圍繞老師、學(xué)生和家長(zhǎng)展開(kāi),因此將參與“停課不停學(xué)”話題討論的主體對(duì)象歸為3個(gè)類(lèi)別,分別為老師、學(xué)生和家長(zhǎng).在微博共詞網(wǎng)絡(luò)的基礎(chǔ)上使用Louvain算法挖掘出與三類(lèi)主體對(duì)象有潛在關(guān)系的關(guān)鍵詞,通過(guò)整理微博語(yǔ)料庫(kù)得到20455條微博文本,對(duì)每條文本進(jìn)行編號(hào),并對(duì)其內(nèi)容進(jìn)行關(guān)鍵字抽取,最終得到預(yù)處理的語(yǔ)料集.每條博文構(gòu)成一個(gè)獨(dú)立完全子圖,不同博文中出現(xiàn)的同一個(gè)關(guān)鍵詞將兩個(gè)完全子圖連接起來(lái).構(gòu)建的共詞網(wǎng)絡(luò)含有20047個(gè)節(jié)點(diǎn),通過(guò)Louvain算法將其劃分為50個(gè)社團(tuán),其模塊度大小為0.27.
從劃分好的社團(tuán)中篩選出包含老師、家長(zhǎng)和學(xué)生的社團(tuán),老師、家長(zhǎng)和學(xué)生所在的社團(tuán)中其社團(tuán)成員個(gè)數(shù)分別為5890、2779和4567,三個(gè)社團(tuán)的成員節(jié)點(diǎn)總和占比達(dá)到整個(gè)網(wǎng)絡(luò)節(jié)點(diǎn)的66%,按共詞網(wǎng)絡(luò)中節(jié)點(diǎn)度數(shù)的大小給出三個(gè)社團(tuán)中部分成員節(jié)點(diǎn),如表4所示.最后,結(jié)合社團(tuán)成員統(tǒng)計(jì)出和老師、學(xué)生、家長(zhǎng)相關(guān)的微博文本并計(jì)算情感值,分析這三類(lèi)主體對(duì)象的情感態(tài)度,圖5給出主體對(duì)象的正向情感占比柱狀圖.
表4 包含主體對(duì)象的社團(tuán)劃分結(jié)果
圖5 主體對(duì)象階段性正向情感占比圖
老師的情感態(tài)度:老師所在的社團(tuán)有不少成員為正向的情感詞如“抗疫”“可愛(ài)”“陽(yáng)光”“擔(dān)當(dāng)”“齊心協(xié)力”和“共渡難關(guān)”等,可見(jiàn)對(duì)于老師正面情緒大于負(fù)面情緒.像“耽擱”“尷尬”“太難”等負(fù)向情感詞主要出現(xiàn)在第二階段,由于老師不熟悉網(wǎng)絡(luò)直播授課,初次嘗試遇到各種問(wèn)題應(yīng)對(duì)不足,還有網(wǎng)絡(luò)延遲和直播軟件發(fā)生故障是引發(fā)線上授課負(fù)面情緒的另一個(gè)原因.
學(xué)生的情感態(tài)度:學(xué)生所在的社團(tuán)包含“疫情”“線上”“武漢”“宅家”“空中課堂”“災(zāi)難”“急躁”等.網(wǎng)絡(luò)教學(xué)初期,學(xué)生討論的重點(diǎn)在于線上授課是否能夠真正掌握知識(shí),每天長(zhǎng)時(shí)間的線上學(xué)習(xí),造成眼睛不適等.隨著時(shí)間的推移,學(xué)生對(duì)網(wǎng)絡(luò)教學(xué)逐步適應(yīng),感情值較為正向.面臨著高考、中考等各種考試,后期學(xué)生期待疫情早日結(jié)束回到學(xué)校.
家長(zhǎng)的情感態(tài)度:家長(zhǎng)所在的社團(tuán),成員有“網(wǎng)課”“孩子”“作業(yè)”“知識(shí)”“輔導(dǎo)”“教學(xué)方式”等,正向文本內(nèi)容主要集中于對(duì)老師線上授課的討論、教學(xué)方式的思考和輔助孩子線上學(xué)習(xí)等.從整體來(lái)看正向情緒顯著,家長(zhǎng)希望孩子在老師的指導(dǎo)下跟進(jìn)學(xué)習(xí),后期家長(zhǎng)也期待學(xué)校早日開(kāi)學(xué).
為了迅速獲取用戶關(guān)注的主要話題,對(duì)微博文本進(jìn)行詞頻統(tǒng)計(jì),并使用WordColud庫(kù)繪制出“停課不停學(xué)”整個(gè)階段的詞云圖,如圖6所示,其中過(guò)濾“不?!焙汀巴Un”兩個(gè)超高頻詞.在圖中話題討論的熱度是由關(guān)鍵詞字體的大小來(lái)體現(xiàn).詞頻數(shù)最高的兩個(gè)關(guān)鍵詞是“視頻”和“學(xué)習(xí)”,說(shuō)明關(guān)于“停課不停學(xué)”討論的話題是以線上學(xué)習(xí)為核心.其次,“老師”“網(wǎng)課”“孩子”“打卡”“直播”“網(wǎng)?!钡汝P(guān)鍵詞也在詞云圖中清晰的展現(xiàn)出來(lái),這些詞語(yǔ)是對(duì)核心話題的進(jìn)一步擴(kuò)展,指明了學(xué)習(xí)的方式和參與討論的主體對(duì)象.再次,“眼睛”等詞語(yǔ)也出現(xiàn)在了熱議話題中,網(wǎng)課學(xué)習(xí)導(dǎo)致用眼疲勞,“生活費(fèi)”的出現(xiàn)是學(xué)生們?cè)诩疑暇W(wǎng)課為失去生活費(fèi)而感到失望,“幼兒園”的出現(xiàn)是網(wǎng)民對(duì)幼兒園的開(kāi)學(xué)時(shí)間比較關(guān)注,還有討論較為熱烈的是幼兒園是否有必要上網(wǎng)課.此外,“武漢”等地名也出現(xiàn)在詞云中,武漢作為此次疫情的發(fā)生地,一直受到全國(guó)各地網(wǎng)民的高度關(guān)注.
圖6 詞云圖
除了分析“停課不停學(xué)”的詞云特征,在微博語(yǔ)料向量化的基礎(chǔ)上,采用K-means方法對(duì)詞向量做聚類(lèi)分析,得到每個(gè)階段熱點(diǎn)話題的關(guān)鍵詞組如表5所示.根據(jù)關(guān)鍵字概括出每個(gè)階段的熱點(diǎn)話題,如第一階段的Topic3對(duì)應(yīng)的關(guān)鍵字為“電腦”“遠(yuǎn)程”“宅”“上學(xué)”“雅思”“考研”“考蟲(chóng)”“詞匯”“平臺(tái)”等,概括討論的熱點(diǎn)話題為“疫情背景下如何準(zhǔn)備各類(lèi)考試”;第二階段的Topic1可以概括為“網(wǎng)絡(luò)教學(xué)的適應(yīng)度”;第三階段的Topic3意味著網(wǎng)絡(luò)教學(xué)的逐漸適應(yīng);第四階段的Topic2反應(yīng)了家長(zhǎng)、教師和學(xué)生期待學(xué)校開(kāi)學(xué).
表5 各階段聚類(lèi)簇中篩選的部分話題分布
為了更加直觀地表現(xiàn)出“停課不停學(xué)”區(qū)域性的討論熱度,對(duì)全國(guó)各行政區(qū)參與討論的用戶數(shù)量進(jìn)行統(tǒng)計(jì),以各行政區(qū)用戶發(fā)布博文和評(píng)論的頻次作為該地區(qū)討論的熱度.如圖7給出全國(guó)各行政區(qū)參與討論的用戶分布柱狀圖.參與討論的微博用戶遍布全國(guó)各個(gè)地區(qū),從圖中明顯看出西北地區(qū)的討論熱度低于中部地區(qū)和沿海地區(qū),其中北京和廣東用戶討論最為激烈,其次討論較為熱烈的地區(qū)分別是湖北、山東、四川、河南、浙江和江蘇等地區(qū),以上地區(qū)作為教育強(qiáng)省對(duì)“停課不停學(xué)”表現(xiàn)出極高的關(guān)注度.
圖7 微博參與討論用戶人數(shù)分布圖
除此之外,本文進(jìn)一步對(duì)不同時(shí)間段和不同行政區(qū)之間的微博用戶情緒時(shí)空演變規(guī)律進(jìn)行統(tǒng)計(jì)分析,如圖8所示.其中不同顏色分別代表了第一階段到第四階段不同地區(qū)微博用戶的情感演變過(guò)程,從圖中可以看出,全國(guó)部分行政區(qū)情感變化同樣呈現(xiàn)先降低后升高的趨勢(shì).第一階段,中部地區(qū)參與討論人數(shù)較多且用戶情緒值大于0.5;第二階段,參與討論人數(shù)增多,用戶區(qū)域逐漸擴(kuò)大且熱度較高,情緒值普遍偏低;第三階段,伴隨著部分省市陸續(xù)開(kāi)學(xué),討論熱度逐漸下降,用戶情緒值開(kāi)始慢慢上升;第四階段,隨著疫情的控制和學(xué)校開(kāi)課以及教育部及時(shí)出臺(tái)的政策引導(dǎo),正向情緒顯著,全國(guó)平均情緒值更是超過(guò)0.62.
圖8 四個(gè)階段全國(guó)各行政區(qū)情緒值分布圖
重大公共事件通過(guò)社交媒體的傳播和蔓延致使網(wǎng)民產(chǎn)生極強(qiáng)的情感傾向.本文通過(guò)研究“停課不停學(xué)”微博用戶的情感變化規(guī)律和熱議話題,得出四條網(wǎng)絡(luò)輿情治理方法:
(1)階段性引導(dǎo):輿情傳播演化具有潛在規(guī)律,負(fù)向情緒集中在輿論高潮期間.重點(diǎn)監(jiān)測(cè)輿情初期,了解輿情的最新?tīng)顩r,對(duì)可能出現(xiàn)的輿論高峰進(jìn)行預(yù)測(cè),同時(shí)做好輿情衰退期的引導(dǎo)工作,防止輿論高峰的再次出現(xiàn).
(2)關(guān)注熱點(diǎn)話題:網(wǎng)絡(luò)輿情傳播過(guò)程中,伴隨著多個(gè)熱點(diǎn)話題的出現(xiàn),不同話題的情感傾向?qū)?huì)影響整個(gè)事件的發(fā)展方向.如第一階段“疫情背景下如何準(zhǔn)備各類(lèi)考試”的話題,此時(shí),相關(guān)教育部門(mén)和高校對(duì)國(guó)考、考研、高考、四六級(jí)等考試信息進(jìn)行及時(shí)公示,解除學(xué)生的疑慮.
(3)關(guān)注輿情主體:輿情主體對(duì)象是整個(gè)輿論事件發(fā)展的基礎(chǔ),不同主體對(duì)象在輿情傳播中處于不同的地位,他們的情感態(tài)度將會(huì)影響整個(gè)事件的傳播速度.針對(duì)家長(zhǎng)、學(xué)生和老師,相關(guān)領(lǐng)導(dǎo)及時(shí)主動(dòng)走進(jìn)網(wǎng)絡(luò),“面對(duì)面”地與他們交心,“鍵對(duì)鍵”地傾聽(tīng)他們的聲音,切實(shí)將他們的關(guān)切與訴求及時(shí)有效的轉(zhuǎn)化為施政之源.
(4)區(qū)域性引導(dǎo):輿情在全面爆發(fā)期具有普遍性,后續(xù)時(shí)間段大部分地區(qū)表現(xiàn)較為緩和,高考大省表現(xiàn)較為熱烈,對(duì)云課堂的聲音較為強(qiáng)烈,此時(shí)需要決策者做出精準(zhǔn)措施,對(duì)這些重點(diǎn)地區(qū)進(jìn)行積極引導(dǎo).
本文利用數(shù)據(jù)挖掘關(guān)鍵技術(shù)對(duì)微博文本數(shù)據(jù)進(jìn)行分析.文中采用中文分詞技術(shù)和樸素貝葉斯分類(lèi)器,訓(xùn)練情感分類(lèi)模型,計(jì)算每條文本的情緒值.在情感分析的基礎(chǔ)上,分析不同階段的微博用戶情感變化趨勢(shì).此外,引入社團(tuán)挖掘方法獲得與三類(lèi)主體對(duì)象(老師、學(xué)生和家長(zhǎng))有潛在關(guān)系的關(guān)鍵詞并挖掘與之相關(guān)的文本,得出主體對(duì)象的情感變化趨勢(shì).針對(duì)輿情過(guò)程中討論的熱點(diǎn)話題,進(jìn)行詞頻分析和詞云特征分析,并在微博語(yǔ)料向量化的基礎(chǔ)上,對(duì)詞向量進(jìn)行聚類(lèi)分析,概括出不同階段的熱點(diǎn)話題.最后,通過(guò)地理統(tǒng)計(jì)分析方法進(jìn)行數(shù)據(jù)的時(shí)空規(guī)律挖掘,展現(xiàn)出全國(guó)參與討論的用戶分布規(guī)律和不同時(shí)間段不同行政區(qū)之間的情感變化差異.本文的研究結(jié)果對(duì)于在突發(fā)事件下,線上教育方法的管控策略提供了一定的理論支撐.