邢云菲,李玉海,2
(1.華中師范大學信息管理學院,武漢 430079;2.湖北省數(shù)據(jù)治理與智能決策研究中心,武漢 430079)
微博是基于用戶關系的輿情傳播、信息共享的社交媒體平臺。微博憑借其終端移動性、內(nèi)容精簡性、用戶交互便捷性以及動態(tài)內(nèi)容聚類方式,成為中國最受歡迎的社交媒體平臺之一[1]。微博輿情是指公眾在某些社會熱點事件發(fā)生后通過微博平臺表達其態(tài)度、觀點和意見,具有動態(tài)性、復雜性和群體極化性等特征[2]。2019 年12 月湖北省武漢市發(fā)現(xiàn)多起病毒性肺炎病例,診斷為新型冠狀病毒。在該事件的信息傳播與交流過程中,微博成為公眾獲得相關報道和討論的主要平臺之一。由于新冠狀病毒事件的突發(fā)性和高影響力,使微博平臺日均發(fā)布微博和評論數(shù)量達到百萬級,為政府和微博輿情監(jiān)管部門的管理工作帶來巨大挑戰(zhàn)。如何針對海量微博用戶評論信息快速挖掘用戶關注內(nèi)容,分析用戶評論信息中的隱性關聯(lián),幫助政府和輿情管理者掌握輿情走勢,及時定位發(fā)布網(wǎng)絡謠言的用戶群體并進行監(jiān)管是本文的主要研究意義。目前學術界對微博輿情的研究主要關注輿情傳播主題挖掘、意見領袖識別、用戶關系挖掘等方面[3-6],較少學者針對微博用戶評論文本進行文本聚類研究并構建主題圖譜通過可視化的形式挖掘微博用戶關注主題。
本文基于文本挖掘中的聚類技術,結合主題圖譜理論和構建方法,以新浪微博平臺為例,構建微博用戶評論文本的主題圖譜,通過聚類分析和剖析圖譜結構特征,為微博輿情文本挖掘研究提供了新的研究視角。在實踐層面,本研究能夠指導微博輿情管理部門進行輿情管控、防止不良輿論擴散、維護微博平臺和諧健康發(fā)展。同時,本研究也對幫助政府及時了解民情、維護社會秩序、避免引發(fā)恐慌具有重要作用。
微博輿情將網(wǎng)絡輿情賦予一個特定的平臺,公眾對與其自身利益密切相關的熱點話題在微博平臺發(fā)表主觀性意見和觀點,并互相討論形成傳播力場[7]。根據(jù)微博輿情用戶發(fā)布文本內(nèi)容挖掘輿情傳播特征具有重要研究價值,國內(nèi)學者紛紛開展對微博輿情文本挖掘的研究。吳青林[8]通過話題聚類及情感強度分析中文微博輿情對輿情演進趨勢進行預測;周鵬[9]提出基于特征詞抽取技術的微博事件內(nèi)容聚合方法;廖海涵[10]基于生命周期理論結合文檔主題生成模型(LDA)方法進行輿情主題觀點發(fā)現(xiàn)以及語義分析等。
文本聚類分析是指利用集合中文本之間的相似性對文本進行團簇識別。目前在社交媒體分析中,文本聚類的分析技術應用十分廣泛。黃微[11]以文本聚類結果和文本聚類有效性為依據(jù),提出網(wǎng)絡輿情衍進的判別標準和輿情衍進指數(shù)的構建過程;張穎怡[12]分析聚類集成在學術文本聚類中的有效性的基礎上,展開了基于特征詞的學術文本聚類研究。如何基于微博輿情的用戶評論內(nèi)容進行文本聚類的研究則較少;朱曉峰[13]使用K-Means 算法通過計算文本平均相似度進行微博聚類中心簇研究;陳雪剛[14]同樣使用改進的文本相似度計算模型,使文本能夠自主聚類,為微博輿情監(jiān)測提供指導。然而當前較少有研究將微博輿情傳播的用戶評論文本聚類結果以可視化的形式展現(xiàn)出來。
針對主題圖譜的研究,國外學者GOLD 等[15]采用點匹配和圖匹配距離度量聚類的方法學習二維點聚合圖,通過圖譜顯示知識的優(yōu)化聚類結果。CHUNG 等[16]在2005 年提出一個網(wǎng)絡知識發(fā)現(xiàn)視覺架構,集成了Web 挖掘、集群和可視化技術以進行知識管理。國內(nèi)學者潘東華[17]基于專利文獻分類碼,結合領域本體中的語義相似度構建主題圖譜;尚小溥[18]對自然語言處理技術在超聲文本環(huán)境下的應用進行改進,建立其結構化知識網(wǎng)絡。當前學者從微博用戶關系角度以及話題演進角度構建微博輿情用戶關系圖譜和話題圖譜。王丹[19]從微博主體(用戶)、客體(信息)以及主體客體相結合形成的全景3 個維度,進行微博輿情圖譜的構建;劉雅姝[20]利用LDA 方法,以多維特征融合分析視角構建輿情話題圖譜。主題圖譜已經(jīng)成為知識管理過程中揭示知識關聯(lián)的重要手段,是情報領域的一大研究熱點。然而,基于文本聚類方法,構建微博輿情傳播過程中用戶評論文本的聚類主題圖譜的相關研究則較少。本文選擇重大突發(fā)公共衛(wèi)生事件輿情話題傳播具有較強代表性,通過對微博輿情用戶評論文本進行文本聚類的圖譜可視化研究能夠揭示如何快速識別海量文本主題內(nèi)容,為微博輿情文本主題圖譜構建研究提供了新的挑戰(zhàn)。
本文提出的微博輿情主題圖譜構建流程如圖1 所示。①數(shù)據(jù)采集及處理。使用Python 采集人民日報發(fā)布的“武漢加油”話題下微博用戶評論內(nèi)容,形成文本數(shù)據(jù)庫。②實體抽取。通過數(shù)據(jù)清洗和分詞構建特征詞實體數(shù)據(jù)庫。③實體關系抽取。以特征詞的關聯(lián)關系為實體間關系繪制圖譜并進行對比分析。通過使用不同文本相似度計算方法、網(wǎng)絡優(yōu)化算法以及聚類標簽生成方法獲得實體關系。④聚類可視化分析。對圖譜進行聚類簇分析、實體中心度分析并挖掘輿情演化機制。
圖1 微博輿情用戶評論文本的主題圖譜構建方法Fig.1 Construction method of topic graph for Weibo public opinion
2020 年初,新型冠狀病毒肺炎疫情發(fā)生,微博迅速成為民眾了解疫情動態(tài)和走向的重要平臺。面對疫情,微博用戶為疫情防治積極貢獻力量,其規(guī)模大幅增長。據(jù)Questmobile 報道[21],微博日活躍用戶規(guī)模于1 月27 日達到2.39 億,相比疫情前平日上漲37.5%。自疫情發(fā)生以來,超過5 000 萬用戶已累計發(fā)布3.5 億條與疫情相關的微博;平均每天超過2 億網(wǎng)友通過微博關注最新疫情、獲取防治服務、參與公益捐助。數(shù)據(jù)的持續(xù)增長,印證了微博在重大突發(fā)事件網(wǎng)絡輿情傳播過程中的獨特價值。
本文選取“新冠病毒”話題作為數(shù)據(jù)源,該突發(fā)事件網(wǎng)絡輿情是互聯(lián)網(wǎng)信息流的集中體現(xiàn),一方面反映著大眾的關注所在,另一方面也發(fā)揮著輿情的導向發(fā)酵作用。本文以“新冠病毒”為關鍵詞,分析疫情在該階段發(fā)展過程中國內(nèi)輿論焦點的變化,關注度的高低,以及各時間點的標志性事件。本文最終選取“武漢加油”話題,其相關話題圖譜如下圖2 所示,涉及重要關鍵詞包括“抗擊疫情”“中國加油”“白衣天使”“公關軟文”等。本文使用Python 采集人民日報于1 月23 日7:17 發(fā)布的“【轉發(fā)為# 武漢加油#!讓武漢人民知道,全國人民和你們在一起!】 ...打贏這場防疫戰(zhàn)!”。獲取的字段包括用戶昵稱、ID、評論內(nèi)容、時間和工具端等。本文共采集到37 845 條微博用戶評論信息,存入文本數(shù)據(jù)庫。
圖2 “武漢加油”事件相關話題圖譜Fig.2 Related topic graph of“Wuhan refueling”event
在實體關鍵詞抽取階段,首先檢查文本數(shù)據(jù)庫中的數(shù)據(jù)一致性,處理無效值和缺失值,以進行數(shù)據(jù)清洗。包括刪除停用詞、缺失值、空字符串和亂碼數(shù)據(jù)、異常數(shù)據(jù)等,最終得到32 688 條有效數(shù)據(jù)。然后基于清華大學開發(fā)的THUOCL 詞庫,使用ROST CM6 進行分詞,人工添加網(wǎng)絡熱門詞語和話題相關詞語,如大數(shù)據(jù)、淘寶、熱干面、封城等。然后啟動歸并詞群表、保留詞表和過濾詞表,比對帶分詞數(shù)據(jù)庫中和分詞詞庫進行分詞,抽取到實體保存在數(shù)據(jù)庫中。最后過濾停用詞,計算特征詞的詞頻并轉換為詞向量。
實體關系抽取為計算實體間關聯(lián)度的過程。通過CiteSpace 軟件計算實體的文本相似度,使用不同網(wǎng)絡優(yōu)化算法以及文本聚類標簽得到實體間關聯(lián)關系。本文使用的文本相似度算法包括Cosine 相似度算法、Dice 相似度算法以及Jaccard 相似度算法;在網(wǎng)絡優(yōu)化方面,本文使用兩種網(wǎng)絡優(yōu)化算法分別為路徑搜索網(wǎng)絡(PFNETs)算法和最小生成樹(MSTs)算法;在文本聚類方面,分別基于TF-IDF 算法、LLR 算法和MI 算法標注聚類標簽。
通過對數(shù)據(jù)進行處理,分別基于3 種文本相似度計算方法和兩種網(wǎng)絡優(yōu)化處理方法構建微博輿情文本的主題圖譜如圖3 所示。在處理該話題下微博用戶評論文本可視化上,使用Cosine 函數(shù)和Dice 函數(shù)(圖3(a)~(d))進行文本相似度處理比Jaccard 函數(shù)效果更好。使用Jaccard 函數(shù)處理得到的圖譜(圖3(e)、(f))具有相對較高的分散程度和延展性。使用Cosine函數(shù)處理得到的圖譜有多個中心或星形節(jié)點,而Dice函數(shù)處理得到的圖譜聚類簇更明顯。
圖3 微博輿情用戶評論文本的主題圖譜Fig.3 Topic graph of Weibo users'comments
在網(wǎng)絡優(yōu)化處理算法上,路徑搜索網(wǎng)絡(PFNETs)顯示出比最小生成樹(MSTs)更優(yōu)越的優(yōu)化特征。盡管中心度較高的節(jié)點主導了MSTs 模型的結構,但由于MSTs 從高中心度節(jié)點的最短路徑中刪除了潛在的重要連接,因此MSTs 結構不能很好地描述網(wǎng)絡分布的特征。相比之下,PFNET 模型能夠清楚地展示高中心度節(jié)點在保持一些最關鍵路徑的內(nèi)聚性方面的優(yōu)勢,這反過來又使特征詞聚類更加具有可預測和可解釋性。在本文采集的關于“武漢加油”話題的文本數(shù)據(jù)中,使用PENETs 算法得到的網(wǎng)絡優(yōu)化效果更好。
使用Jaccard 函數(shù)進行文本相似度計算、PFNETs進行網(wǎng)絡優(yōu)化以及Jaccard 算法和MSTs 算法組合得到的圖譜能夠得到最多聚類簇,均為21 個。說明相比較Cosine 和Dice 函數(shù),Jaccard 函數(shù)處理得到的圖譜能夠得到最多聚類簇。使用Cosine 函數(shù)進行文本相似度計算得到的聚類簇數(shù)量最少。從數(shù)據(jù)結果來看,使用Dice 函數(shù)進行文本相似度計算,PFNETs 進行網(wǎng)絡優(yōu)化得到的聚類效果更好。該算法聚類中得到的“捐助”“醫(yī)學”“感冒”均為該話題下正確聚類集合。
依據(jù)網(wǎng)絡結構和聚類的清晰度,圖譜的密度、模塊化系數(shù)和平均輪廓值結果如表1 所示。模塊值(Q值)大于0.3 說明社團結構顯著,Q 值大于0.5 聚類平均輪廓值平均輪廓值(S 值)能夠衡量圖譜緊密性和分離性。S 值大于0.5 則聚類結果合理;S 值大于0.7則聚類結果較標準。數(shù)據(jù)結構顯示,使用不同文本相似度和網(wǎng)絡優(yōu)化算法得到的圖譜密度較接近,使用PFNETs算法比MSTs 算法得到的圖譜密度、模塊值以及平均輪廓值都稍高,基于Jaccard 相似度算法得到的圖譜模塊值高于Cosine 和Dice 相似度處理得到的圖譜模塊值,而圖譜的平均輪廓值則相反。說明使用Jaccard 相似度算法的圖譜模塊化程度更高,社團結構更顯著,但聚類效果不如使用Cosine 和Dice 相似度算法得到的圖譜。
表1 基于不同文本相似度和網(wǎng)絡優(yōu)化算法的圖譜指標統(tǒng)計Table 1 Index statistics based on different text similarity and network optimization algorithms
3 種相似度計算方法下和兩種網(wǎng)絡優(yōu)化算法下的聚類表如表2 所示。表中統(tǒng)計了每種組合下得到聚類結果中節(jié)點數(shù)量排在前7 的聚類簇,節(jié)點數(shù)量、聚類平均輪廓值(Silhouette)、以及在3 種聚類方法(TFIDF、LLR 和MI)下的標簽內(nèi)容。使用Dice 相似度計算、MSTs 進行網(wǎng)絡優(yōu)化得到的聚類簇中節(jié)點數(shù)量最多,cluster#0 包含66 個特征詞。Jaccard 算法和PFNETs 算法組合、Cosine 算法和MSTs 算法組合以及Jaccard 算法和MSTs 組合得到的聚類簇中節(jié)點數(shù)量相對較少,最多的簇僅包含52 個節(jié)點。從聚類簇的S 值結果來看,使用Jaccard 算法得到的結果相對更標準,其中和PFNETs 算法組合的圖譜聚類效果最好,S 值均達到0.73 以上。Dice 算法和PFNETs 算法組合的圖譜聚類結果準確率較低,S 值均低于0.7,但聚類結果較接近輿情現(xiàn)實情況。3 種(TFIDF、LLR 和MI)標簽顯示結果來看,TFIDF 產(chǎn)生的聚類標簽更符合“武漢加油”話題下的實際評論情況,LLR 和MI 算法僅在單一情況下能夠產(chǎn)生比TFIDF 更準確的聚類標簽。
表2 基于不同文本相似度和網(wǎng)絡優(yōu)化算法的文本聚類表Table 2 Text clustering based on different text similarity and network optimization algorithms
表2 (續(xù))Table 2 (continued)
相關輿情管理部門在使用本文構建的主題圖譜分析微博用戶評論內(nèi)容時,使用Cosine 或Dice 算法進行文本相似度計算,PFNETs 算法進行網(wǎng)絡優(yōu)化,TFIDF繪制聚類標簽,能夠快速了解用戶關注主題,在保證聚類準確度的基礎上提高工作效率。
本文對微博輿情文本聚類特征詞的中心度進行分析,分別分析該6 個圖譜中中心度值排在前10 的特征詞,如表3 所示。結果顯示,不論使用哪種文本相似度計算方法,使用MSTs 算法進行網(wǎng)絡優(yōu)化處理得到的圖譜中特征詞的中心度都比PENETs 算法高。而使用Jaccard 算法進行文本相似度計算得到的特征詞中心度比Dice 算法高,Cosine 算法處理得到的特征詞中心度最低。因此,使用Jaccard 算法和MSTs 算法組合得到的特征詞點度中心度是6 個圖譜中最高的。
表3 基于不同文本相似度和網(wǎng)絡優(yōu)化算法的特征詞中心度統(tǒng)計表Table 3 Statistics of word centrality based on different text similarity and network optimization algorithms
在Cosine 算法和PENETs 算法組合的圖譜中,特征詞“防范”“保障”和“支援”均屬于第6 聚類簇;在Jaccard 算法和PENETs 算法組合的圖譜中,特征詞“控制”“治療”和“第一”均屬于第3 聚類簇;在Jaccard 算法和MSTs 算法組合的圖譜中著3 個特征詞均屬于第4 聚類簇。在中心度排名前10 的節(jié)點中,有3 個節(jié)點來自一個聚類簇,說明該簇是圖譜中的核心聚類簇,在圖譜中具有重要位置。微博輿情管控主體通過本文提出的文本聚類可視化方法能夠快速定位圖譜中具有較多高中心度特征詞的聚類簇,這些高中心度值得特征詞能夠代表該話題下微博用戶的最主要觀點。同樣,單一中心度高的特征詞所在簇也需要引起管理者的重視,因為即使該簇中僅有一個特征詞具有高中心度,這個特征詞也能極大代表該簇中用戶評論內(nèi)容的核心觀點。
將微博輿情用戶評論內(nèi)容按照事件發(fā)展時序劃分為突發(fā)期、蔓延期和消散期。網(wǎng)絡輿情話題熱度與信息數(shù)量呈正相關。假設網(wǎng)絡輿情信息傳播數(shù)量是關于時間的連續(xù)可微函數(shù),N=N(t)。N 表示輿情信息傳播數(shù)量。設t=0 時N 的初始值為N0。N 的上限為T,r 為固有增長率[22,23],則:
則將輿情傳播過程劃分為突發(fā)期、蔓延期和消散期的兩個關鍵時間點為:
經(jīng)計算兩個關鍵時間點分別在1 月23 日11:23 和1 月26 日14:40。將文本數(shù)據(jù)使用CiteSpace 時間演化序列圖按照不同時期進行布局得到微博輿情演化圖譜如圖4 所示。圖譜中的實體為用戶評論特征詞,實體間關系為用戶評論特征詞關聯(lián)關系,實體間連線數(shù)字代表這兩個實體的關聯(lián)強度值。如上文論述,使用Dice 算法計算文本相似度,Pathfinder 算法進行網(wǎng)絡布局得到的圖譜的模塊化值和平均輪廓值最高,各聚類簇的平均輪廓值也最高,并且經(jīng)過TF-IDF 計算得到的聚類結果相對更合理,因此基于該算法組合計算實體間關聯(lián)強度值。關聯(lián)強度值主要在0.2~0.5 之間,值越高代表這兩個特征詞關聯(lián)次數(shù)較多。數(shù)據(jù)結果顯示,在該事件的爆發(fā)期,用戶評論主要集中在對武漢疫情的關注和對武漢人民的鼓勵,希望武漢人民能夠平安度過困難;在蔓延期主要為武漢人民的回應,包括感謝來自各地的網(wǎng)民的支持,以及對感染群眾的安慰和祝福;在消散期主要為網(wǎng)民對疫情發(fā)展嚴重程度的討論以及戰(zhàn)勝疫情的決心。
圖4 微博輿情用戶評論的主題演化圖譜Fig.4 Thematic evolution graph of Weibo users'comments
當出現(xiàn)其他爆發(fā)力強的衍生輿情時,往往在輿情傳播末期則會相應顯示。輿情管理者即可從輿情演化分析中提前得到預警,及時對輿情傳播進行合理引導和管控。輿情管理者可以通過輿情演化分析方法了解輿情傳播中用戶評論信息隨時間和事件發(fā)展趨勢的變化過程,對輿情走勢預測、網(wǎng)民情緒波動分析、輿情預警都具有重要的實踐意義。
本文基于主題圖譜理論與構建方法,將微博輿情用戶評論文本中特征詞作為實體,結合文本聚類技術將特征詞的關聯(lián)關系作為實體間關系,以新浪微博熱點話題“武漢加油”為例構建微博輿情用戶評論文本的主題圖譜。使用CiteSpace 進行可視化分析,通過應用不同文本相似度算法、網(wǎng)絡優(yōu)化算法和文本聚類算法分析圖譜結構特征。研究發(fā)現(xiàn),在該輿情話題下,使用Jaccard 相似度算法的圖譜模塊化程度更高,社團結構更顯著,但聚類效果不如Cosine 和Dice 相似度算法;TFIDF 產(chǎn)生的聚類標簽比LLR 和MI 的準確度更高;PFNETs 在網(wǎng)絡優(yōu)化處理算法上顯示出比MSTs 更優(yōu)越的優(yōu)化特征;使用Jaccard 算法進行文本相似度計算、MSTs 算法進行網(wǎng)絡優(yōu)化得到圖譜中特征詞中心度較高。本文基于對比分析結果總結出構建微博輿情用戶評論文本主題圖譜的最優(yōu)算法組合能夠幫助輿情管理者快速準確識別用戶關注內(nèi)容。通過對微博輿情用戶發(fā)布文本進行監(jiān)控,預測輿情演化趨勢,防止不良輿情滋生和擴散具有重要作用。在該事件下,部分網(wǎng)民在微博大V 下夸大實情、散布謠言、甚至引發(fā)社會動蕩。針對這些用戶,輿情管理者應對用戶發(fā)布文本聚類,定位特征詞為負向的聚類簇并進行集中管理,找到發(fā)布該簇下負面文本的用戶進行警告或封號,提高輿情管理效率。
本研究也存在一定局限性,僅以微博平臺為例選擇“武漢加油”這一話題作為數(shù)據(jù)源對該話題下的輿情用戶評論內(nèi)容進行文本聚類分析,得到結果在處理相關話題時具有一定優(yōu)越性,在分析其他話題下的文本時可能產(chǎn)生偏差。在未來研究中,本文將選取不同社交媒體平臺針對更廣泛的話題對社交網(wǎng)絡輿情傳播展開更深入的分析。