梁翊濤, 王長(zhǎng)波
(華東師范大學(xué) 計(jì)算機(jī)科學(xué)與軟件工程學(xué)院,上海 200062)
輿情是社會(huì)民眾作為主體,發(fā)表對(duì)于時(shí)事、新聞、政策等社會(huì)態(tài)度的總和,在社會(huì)生活中具有重要意義.隨著網(wǎng)絡(luò)的發(fā)展,截至2016年12月,我國(guó)網(wǎng)民數(shù)量已經(jīng)達(dá)到7.13億[1].因此,網(wǎng)絡(luò)輿情已經(jīng)成為輿情研究的主要陣地.研究網(wǎng)絡(luò)教育輿情有助于引導(dǎo)公眾輿論[2],危機(jī)公關(guān),并可以輔助政府、企業(yè)進(jìn)行決策[3].民眾態(tài)度是輿情研究的核心領(lǐng)域,情緒作為民眾態(tài)度傾向的直觀反映,研究它能夠?yàn)榉治鼍W(wǎng)絡(luò)用戶、研判教育形勢(shì)[4]提供切實(shí)依據(jù).然而,大量的網(wǎng)絡(luò)輿情數(shù)據(jù)源,包括門(mén)戶網(wǎng)站、論壇、博客、自媒體等,讓人們難以選擇合適的媒體平臺(tái)獲取信息、發(fā)表觀點(diǎn),或者進(jìn)行危機(jī)公關(guān)等輿情管理活動(dòng).
因此,筆者設(shè)計(jì)開(kāi)發(fā)了一個(gè)可視化交互系統(tǒng),幫助用戶進(jìn)行教育輿情情緒的網(wǎng)絡(luò)媒體對(duì)比研究.系統(tǒng)允許用戶從兩個(gè)層面對(duì)教育輿情進(jìn)行比較研究.在宏觀層面,系統(tǒng)揭示了教育輿情事件主題和輿情事件的情緒傾向;在微觀層面,對(duì)輿情事件情緒進(jìn)行多平臺(tái)的對(duì)比分析.
為了充分研究網(wǎng)絡(luò)教育輿情,我們?cè)c教育領(lǐng)域的專家合作進(jìn)行了網(wǎng)絡(luò)教育輿情項(xiàng)目的研究[5].相比普通網(wǎng)絡(luò)輿情,教育領(lǐng)域的網(wǎng)絡(luò)輿情具有下列特點(diǎn)[6]:①意見(jiàn)主體的隱匿性,即民眾可以通過(guò)匿名的方式在網(wǎng)上表達(dá)自己的觀點(diǎn);②教育客體的特殊性,即教育對(duì)于個(gè)體和社會(huì)的發(fā)展具有重要意義;③輿情傳播的即時(shí)性與互動(dòng)性.由于輿情參與者可以自由交互,因此教育事件更容易表現(xiàn)出“一邊倒”的輿情傾向,更易產(chǎn)生群體性事件.
首先,通過(guò)分布式爬蟲(chóng)技術(shù),從騰訊網(wǎng)、搜狐網(wǎng)、鳳凰網(wǎng)和新浪網(wǎng)4個(gè)門(mén)戶網(wǎng)站上爬取了自2015年1月到2015年12月共計(jì)2 744篇文章和與之對(duì)應(yīng)的34 730條評(píng)論.
為了深入分析需求,我們選擇了兩類用戶:教育領(lǐng)域?qū)<液蜔o(wú)專業(yè)知識(shí)但關(guān)心教育輿情的普通用戶,如教師、家長(zhǎng)、網(wǎng)絡(luò)意見(jiàn)領(lǐng)袖等.我們將領(lǐng)域?qū)<遗c普通用戶組織成為一個(gè)志愿者小組,并與小組完成了3次線上訪談.
首先,由用戶描述他們感興趣的問(wèn)題,為第一次訪談定義了在當(dāng)前教育輿情分析中現(xiàn)存的問(wèn)題和挑戰(zhàn),然后,為其提供基礎(chǔ)的可視化形式,如條形圖、折線圖等,輔助用戶進(jìn)行問(wèn)題的初步研究,并記錄反饋.第二次訪談,展示根據(jù)用戶需求所設(shè)計(jì)的可視化系統(tǒng)原型,測(cè)試是否符合用戶需求,并收集反饋以改進(jìn)系統(tǒng).第三次訪談?wù)故鞠到y(tǒng)的最終版本,并指導(dǎo)用戶使用.
對(duì)于整體教育輿情情緒以及輿情事件的研究,不同類型的用戶需求不同.如教師、家長(zhǎng)希望分析他們關(guān)注的單個(gè)輿情事件,幫助他們決定哪種媒體平臺(tái)更適合獲取信息;意見(jiàn)領(lǐng)袖希望了解情緒從文章到評(píng)論的傳播形式,從而幫助他們更有效吸引讀者關(guān)注;領(lǐng)域?qū)<遗c教育從業(yè)者(如輔導(dǎo)機(jī)構(gòu)創(chuàng)業(yè)者等)則想要全面了解教育輿情,從而幫助他們制定決策或商業(yè)計(jì)劃.
我們將用戶系統(tǒng)需求總結(jié)為以下幾點(diǎn):①?gòu)牟煌瑢哟窝芯烤W(wǎng)絡(luò)媒體數(shù)據(jù),例如從所有事件到單個(gè)事件;②對(duì)比不同媒體平臺(tái)上文章到評(píng)論的情緒傳播模式;③針對(duì)不同用戶,總結(jié)最適于其發(fā)布、獲取教育信息的平臺(tái)類型.
為了分析輿情文本情緒傾向,筆者采用累計(jì)情緒詞在文本中出現(xiàn)次數(shù)的方法,為文檔進(jìn)行打分.根據(jù)情緒詞典[7]將情緒分為7個(gè)類別,并在領(lǐng)域?qū)<业闹笇?dǎo)下,將7類情緒按照從正面到負(fù)面的順序進(jìn)行排布:樂(lè)、好、驚、哀、懼、惡、怒.此外,為了提高情緒得分的準(zhǔn)確度,引入副詞的權(quán)重計(jì)算.文檔的7維情緒如公式(1)所示:
i∈N+|}.
(1)
式中:d為一篇文檔(文章或者評(píng)論)的7維情緒得分向量;D1與Dmax為要計(jì)算的情緒類別索引,D1=1,Dmax=7,表示要計(jì)算所有7種情緒類別;ei為某一特定情緒類別的得分,并被標(biāo)準(zhǔn)化;j為文檔中某一類情緒詞的數(shù)量;score為一個(gè)情緒詞在情緒詞典中的分值,根據(jù)副詞的類型和情感激烈程度,將副詞分為adv={most,very,more,insufficiently,ish,inverse},并在多次試驗(yàn)后將其權(quán)重設(shè)定為weight={2.0,1.75,1.5,1.2,0.5,-1.0}.無(wú)副詞時(shí)weight默認(rèn)為1.0.
文章表示為A={da,dc}.da為文章A的情緒向量,dc為與A對(duì)應(yīng)評(píng)論的情緒向量.一個(gè)輿情事件E={A1,A2,…,An}.在公式(2)中,E1、E2為兩個(gè)事件,D為應(yīng)用歐幾里得距離公式計(jì)算兩個(gè)輿情事件之間的情緒距離,用D衡量事件之間的情緒相似度,
(2)
目前,輿情情緒傳播模型主要關(guān)注群體情緒對(duì)于群體性事件發(fā)展的影響力[8],研究包括基于群際情緒理論的情緒層級(jí)模型[9];基于系統(tǒng)動(dòng)力學(xué)的負(fù)面情緒研究[10]等.筆者集中關(guān)注不同網(wǎng)絡(luò)媒體平臺(tái)上文章到評(píng)論的情緒傳播,根據(jù)與領(lǐng)域?qū)<业挠懻摚鲜鰝鞑ゾ哂忻黠@的鏈?zhǔn)浇Y(jié)構(gòu).因此,基于信息系統(tǒng)生態(tài)鏈模型[11],筆者將網(wǎng)絡(luò)媒體平臺(tái)上的情緒傳播定義為:情緒從媒體所發(fā)表的文章向讀者傳播,最后以評(píng)論的方式展示.研究單個(gè)事件中的情緒傳播,需要定義情緒傳播的類型和衡量情緒傳播的效率P,
(3)
筆者將情緒傳播定義為兩類:①同類情緒傳播:文章與其評(píng)論的主情緒類型一致;②異類情緒傳播:文章與其評(píng)論的主情緒類型不一致.若文章的主情緒得分小于評(píng)論的主情緒得分,則為增量傳播,反之為減量傳播.
同類情緒傳播的效率μ計(jì)算公式如下:
μ同=|Pa[main_a]-Pc[main_c]|.
(4)
異類情緒傳播的效率計(jì)算公式如下:
μ異= [(|Pa[main_a]-Pc[main_a]|)+
(|Pa[main_c]-Pc[main_c]|)]/2,
(5)
式中:Pa為文章情緒百分比向量;Pc為評(píng)論情緒百分比向量;main_a、main_c分別為文章和其評(píng)論的主情緒類型索引值.
可視化系統(tǒng)包含了3個(gè)模塊:數(shù)據(jù)處理模塊、情緒分析模塊、可視化模塊.系統(tǒng)結(jié)構(gòu)如圖1所示.數(shù)據(jù)預(yù)處理模塊:從網(wǎng)頁(yè)上爬取文本數(shù)據(jù),使用LDA算法[12]識(shí)別輿情事件.情緒分析模塊:識(shí)別文本情緒,對(duì)情緒進(jìn)行相關(guān)性分析,并應(yīng)用MDS算法[13]進(jìn)行降維顯示,分析文章到評(píng)論的情緒傳播.可視化模塊:通過(guò)情緒花朵圖、情緒傳播圖等視圖對(duì)教育輿情情緒進(jìn)行交互對(duì)比分析.
圖1 系統(tǒng)結(jié)構(gòu)圖Fig.1 The structure of system
筆者應(yīng)用LDA算法從文檔中識(shí)別出91個(gè)教育輿情事件,并根據(jù)與領(lǐng)域?qū)<业挠懻?,總結(jié)出6個(gè)輿情事件主題:校園暴力、高考腐敗、禁止中小學(xué)生補(bǔ)課、學(xué)生創(chuàng)業(yè)、鄉(xiāng)村教育與留守兒童.
可視化系統(tǒng)如圖2所示,系統(tǒng)包含5個(gè)可交互視圖,允許用戶在多個(gè)層次上對(duì)網(wǎng)絡(luò)教育輿情進(jìn)行探索研究.
圖2 可視化系統(tǒng)圖Fig.2 The overview of system
3.2.1 情緒花朵圖
如圖2中(1)所示,情緒花朵圖展示了所有輿情事件的情緒傾向.一朵花表示一個(gè)輿情主題,花朵的大小表示主題中輿情事件的數(shù)量.花瓣的數(shù)量表示每個(gè)主題中不同情緒類型百分比,因?yàn)榍榫w分為7種類型,所以每朵花有7片花瓣.花瓣分為內(nèi)外兩個(gè)部分,內(nèi)側(cè)表示文章情緒,外側(cè)表示評(píng)論情緒,內(nèi)外對(duì)比展示出輿情主題文章和評(píng)論情緒的差異.為了表示7種情緒類型,筆者應(yīng)用了Plutchik情緒輪模型[14],如圖2中(1)左上角的圖例所示,黃、青、藍(lán)、紫、綠、粉紅、紅分別代表樂(lè)、好、驚、哀、懼、惡、怒7種情緒.
以導(dǎo)向布局作為花心,展示輿情主題中事件的情緒相似度聚類.每個(gè)節(jié)點(diǎn)表示一個(gè)輿情事件,節(jié)點(diǎn)的顏色表示其主情緒類型.同時(shí),我們使用2.1節(jié)描述的方法度量事件之間的情緒相似度,如果相似度大于閾值,就在兩個(gè)事件節(jié)點(diǎn)之間添加一條邊,由此形成主題中的事件情緒子聚類.通過(guò)多次試驗(yàn),筆者將閾值設(shè)置為0.1.
3.2.2 事件維諾圖
為了對(duì)比同一事件在不同媒體平臺(tái)上文檔數(shù)量、情緒得分的差異,筆者應(yīng)用了事件維諾圖[15].如圖2中(3)所示,從媒體平臺(tái)、文章、評(píng)論3個(gè)層次展示.第一層通過(guò)顏色劃分不同的媒體平臺(tái),鳳凰網(wǎng)、搜狐網(wǎng)、騰訊網(wǎng)、新浪網(wǎng)分別用紅、綠、藍(lán)、黃表示,以顏色亮度表示情緒得分的大小;第二層表示在相應(yīng)平臺(tái)上發(fā)表的文章;第三層表示文章對(duì)應(yīng)的評(píng)論.
3.2.3 情緒傳播圖
如圖2中(4)所示,情緒傳播圖展示同一事件在不同媒體平臺(tái)上,從文章到評(píng)論的情緒傳播情況.第一行7個(gè)圓展示文章的情緒得分,第二行展示評(píng)論的情緒得分.情緒傳播的效率通過(guò)兩行圓之間的連線表示.用戶可以通過(guò)按鈕切換不同的媒體平臺(tái),對(duì)比其情緒傳播情況的差異.此外,圓中卡通標(biāo)記能讓用戶直觀理解不同情緒類型,強(qiáng)化顏色和情緒類型的對(duì)應(yīng)關(guān)系.
3.2.4 矩陣散點(diǎn)圖
用戶可以通過(guò)矩陣散點(diǎn)圖從所有事件文章與單個(gè)事件文章兩種層次來(lái)分析情緒相關(guān)性,如圖2中(2)所示.在矩陣散點(diǎn)圖中,每一個(gè)點(diǎn)都代表一篇文章,點(diǎn)擊文章點(diǎn)可以在文本視圖中查看具體文章與評(píng)論.用戶可以通過(guò)設(shè)置矩陣散點(diǎn)圖的維度選擇想要觀察的情緒類型,媒體平臺(tái)的顏色編碼與事件維諾圖相同.
3.2.5 文本視圖
系統(tǒng)中設(shè)計(jì)了文本視圖,用以展示文章與評(píng)論的原始數(shù)據(jù),如圖2中(5)所示.花朵圖、事件維諾圖、矩陣散點(diǎn)圖均可與文本視圖進(jìn)行交互.
筆者采用案例分析法[16]對(duì)2015年全年輿情數(shù)據(jù)進(jìn)行分析.首先,向用戶展示如何使用系統(tǒng).然后,根據(jù)用戶提出的感興趣的研究問(wèn)題,選擇合適案例進(jìn)行分析.最后,記錄用戶的反饋并討論用戶的分析結(jié)果.
2015年教育輿情花朵圖如圖3所示,其中校園暴力主題在2015年相關(guān)的輿情事件最多,總體情緒偏向惡.但文章和評(píng)論情緒仍然有不同,文章里面有28.57%好的情緒,哀占14.28%;但評(píng)論中惡占85.71%,好占14.28%,沒(méi)有哀傷情緒.對(duì)于上述情況,領(lǐng)域?qū)<艺J(rèn)為出現(xiàn)這種情況的原因是:“媒體平臺(tái)的表達(dá)必須客觀中立,因此情緒表達(dá)較為克制,但用戶能夠自由評(píng)論,對(duì)于校園暴力這樣的負(fù)面話題就體現(xiàn)出惡評(píng).”此外,圖中有一個(gè)顯著傾向于好的話題,即“學(xué)生創(chuàng)業(yè)”,因?yàn)?015年,國(guó)家出臺(tái)一系列政策鼓勵(lì)學(xué)生創(chuàng)業(yè),社會(huì)各界對(duì)于創(chuàng)業(yè)都持積極態(tài)度.
圖3 輿情花朵圖Fig.3 The flower view of public opinion
圖4為分平臺(tái)展示的輿情文本矩陣散點(diǎn)圖.騰訊網(wǎng)的文章(散點(diǎn))數(shù)量最多,且分布較其他3個(gè)平臺(tái)平均,并無(wú)明顯的高情緒得分文章.從情緒來(lái)說(shuō),騰訊網(wǎng)上的“噴子”(不關(guān)心事實(shí),只發(fā)泄情緒的網(wǎng)民)較多,情緒傾向于負(fù)面.
鳳凰網(wǎng)的某些點(diǎn)評(píng)論(惡)的情緒得分顯著較高,其他點(diǎn)都集中在左下角,即除了個(gè)別文章受大眾廣泛關(guān)注外,其他文章情緒傾向并不突出.新浪網(wǎng)的分布與騰訊網(wǎng)類似,但相比騰訊網(wǎng),新浪網(wǎng)的文章(好)、文章(惡)的情緒得分均偏低,即新浪網(wǎng)不傾向于發(fā)表情緒傾向強(qiáng)烈的文章.最后,搜狐網(wǎng)的文章情緒得分平均,但評(píng)論的得分多為0,表示在搜狐網(wǎng)上網(wǎng)民的參與度相比其他3個(gè)平臺(tái)低.“雖然新浪網(wǎng)上的報(bào)道文章較少,但其文章態(tài)度明顯中立,對(duì)我來(lái)說(shuō)是更好的獲取信息的平臺(tái).”一位用戶表示,“搜狐網(wǎng)的參與度太低,即使在上面發(fā)表評(píng)論也不會(huì)得到什么反饋.”
江西高考替考案是2015年關(guān)注熱度最高的輿情事件,搜狐網(wǎng)、新浪網(wǎng)、騰訊網(wǎng)、鳳凰網(wǎng)共計(jì)有40篇文章對(duì)此進(jìn)行了報(bào)道.
2015年6月7日中午,江西省教育廳接到有人組織替考的舉報(bào).經(jīng)查,外省替考組織在網(wǎng)上招攬高校學(xué)生,串通招考辦及醫(yī)院有關(guān)工作人員為外省籍考生在江西違規(guī)報(bào)名、體檢,從而實(shí)施替考的有組織、有預(yù)謀的高考舞弊案件.
通過(guò)文本視圖對(duì)高情緒得分的文章進(jìn)行分析,發(fā)現(xiàn)用戶評(píng)論共計(jì)529條,且大部分都是對(duì)高考替考行為的批判.然而,雖然評(píng)論的情緒惡得分很高,評(píng)論的正面得分也較高.其原因首先是存在一些反諷的評(píng)論,如“記者裝著一副大義凜然的感覺(jué),覺(jué)得自己真的很偉大嗎?”;其次,也有對(duì)于替考臥底記者勇于揭露行為的贊揚(yáng),如“這是正能量崛起,有更多這種利國(guó)利民的揭發(fā),說(shuō)明了正義之花處處開(kāi)放.”其中,“大義凜然”“偉大”“利國(guó)利民”,均為正面詞匯.因此,評(píng)論的正面情緒較高可以總結(jié)為以下兩個(gè)原因:①雖然高考替考案為負(fù)面事件,勇于揭發(fā)的行為亦值得贊揚(yáng);②部分民眾評(píng)論時(shí)慣于使用反諷,其正面詞匯在情緒詞典方法中會(huì)造成誤判.
如圖5所示,情緒傳播圖展示了不同媒體平臺(tái)從文章到評(píng)論的情緒傳播情況.除搜狐網(wǎng)的文章、評(píng)論太少,無(wú)法體現(xiàn)特征以外,鳳凰網(wǎng)、騰訊網(wǎng)、新浪網(wǎng)的文章情緒情況相似:雖然惡的情緒占比較高,但也有一定比例的樂(lè)與好.文章到評(píng)論的情緒傳播卻體現(xiàn)出了一定的差異性,鳳凰網(wǎng)的評(píng)論情緒比文章情緒更加激烈,同時(shí)一部分文章(樂(lè))的情緒向評(píng)論(哀)傳播;騰訊網(wǎng)和新浪網(wǎng)的文章情緒得分均高于評(píng)論情緒,顯示在這兩個(gè)平臺(tái)上用戶評(píng)論的情緒并不高.
總體而言,2015年教育輿情呈現(xiàn)出負(fù)面傾向.除負(fù)面事件頻發(fā)的原因外,無(wú)論是從文章發(fā)布還是網(wǎng)民評(píng)論來(lái)看,民眾對(duì)于負(fù)面事件的參與度都比正面事件更高.對(duì)媒體平臺(tái)而言,觀點(diǎn)多樣化和意見(jiàn)參與度高的網(wǎng)絡(luò)媒體是更理想的信息發(fā)表、獲取平臺(tái).意見(jiàn)領(lǐng)袖等輿論引導(dǎo)者如果希望獲得更多關(guān)注,他們會(huì)選擇鳳凰網(wǎng).想獲取信息的用戶則偏愛(ài)民眾參與度更高,情緒傾向分布也更平均的騰訊網(wǎng).
筆者首先通過(guò)以用戶為中心的設(shè)計(jì)流程,總結(jié)了教育輿情情緒分析領(lǐng)域特定的目標(biāo)和設(shè)計(jì)原則.
圖4 鳳凰網(wǎng)、搜狐網(wǎng)、騰訊網(wǎng)、新浪網(wǎng)情緒矩陣散點(diǎn)圖Fig.4 The emotion matrix views of Ifeng, Sohu, Tencent, and Sina
圖5 事件情緒傳播圖Fig.5 The emotion propagation view.
其次,對(duì)網(wǎng)絡(luò)輿情文本進(jìn)行情緒分析,定義了文章到評(píng)論的情緒傳播類型.再次,設(shè)計(jì)開(kāi)發(fā)了基于教育輿情情緒的可視化平臺(tái),展示教育輿情情緒傾向及不同媒體平臺(tái)的情緒傳播模式,幫助用戶選擇合適的媒體平臺(tái)發(fā)表、獲取信息.最后,案例分析證明了系統(tǒng)的可用性,給輿情情緒分析,媒體比較分析和可視化三者的交叉領(lǐng)域提出了一種新的可能.后續(xù)研究將考慮提升文本情緒識(shí)別的算法精度,并實(shí)時(shí)分析顯示輿情情緒.