郭培倫
摘要:微博由于其特殊的傳播方式成為當前社交網(wǎng)絡(luò)信息傳播和輿情產(chǎn)生的重要平臺,因此針對微博信息傳播的分析對輿情控制、廣告宣傳等眾多社會媒體應用領(lǐng)域越來越顯示出其指導意義。該文通過對微博社交網(wǎng)絡(luò)和微博轉(zhuǎn)發(fā)網(wǎng)絡(luò)的重構(gòu),分析了不同類別的微博其不同的傳播特性,并根據(jù)微博傳播不同模式的特點,提出了傳播力指標以評價微博的傳播效果;另外,該文通過研究微博傳播過程中的爆發(fā)現(xiàn)象,分析了輿情的傳播特性,這對輿情的預測有一定的指導意義。
關(guān)鍵詞:輿情;微博;監(jiān)控
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2018)04-0040-03
1 概述
微博是近幾年剛剛興起的一種信息交流媒體,相比于傳統(tǒng)社會媒體,其發(fā)展態(tài)勢相當強勁,已表現(xiàn)出后來居上的趨勢。微博作為一種新型媒體,是一個基于草根用戶的關(guān)系構(gòu)建及個性化用戶信息的即時傳播、共享和獲取的平臺,具有信息實時性、內(nèi)容簡潔性、用戶交互性強等特點。
基于微博以上特點,越來越多的針對微博的研究層出不窮。最新的研究成果是基于層次分析的短文本特征計算方法,針對用戶行為的微博轉(zhuǎn)發(fā)預測研究。由于微博逐漸成為人們生活中不可缺少的信息傳播平臺,其信息的真實性就有待考證,在2016年,林向義等人對微博的可靠性進行了評測研究。更多的學者利用微博的社交關(guān)系網(wǎng)絡(luò)對社交甚至是上市公司的媒體信息進行研究。而文坤梅、閆幸等人早在前幾年就對微博的基礎(chǔ)性研究、溝通研究和價值進行了相關(guān)的總結(jié)。近幾年,隨著計算機的迅猛發(fā)展,硬件的高速升級,微博平臺服務(wù)器的不斷升級,給我們提供了信息愈加快速傳播的平臺,這在一定程度上促進了基于微博進行輿論監(jiān)控的研究,使微博進一步成為輿情監(jiān)控的重點研究對象。
傳統(tǒng)的研究只是給出了微博傳播的過程特征以及利弊分析,并沒有給出一個衡量微博傳播力度的評價指標。而對微博輿情的監(jiān)控研究,也只是基于傳統(tǒng)的微博傳播特點,并沒有一個具體的判定標準,這個給相關(guān)部門的輿情監(jiān)控工作帶來了很大的困難。
本文著重提出一套包括微博傳播特征和規(guī)模,分析評估各類微博傳播特點的評價體系,為以后的微博輿情監(jiān)控提供良好的評價指標,使得輿情監(jiān)控相關(guān)工作人員,可以對微博信息更方便的監(jiān)控管理。
隨后將介紹本文用到的數(shù)據(jù)信息,以及數(shù)據(jù)的預處理工作;然后從微博社交網(wǎng)絡(luò)、微博傳播網(wǎng)絡(luò)、微博傳播模式等詳細介紹本文中的研究方法和關(guān)鍵技術(shù),最后是本文的實驗結(jié)果分析和總結(jié)。
2 數(shù)據(jù)描述及預處理
本文使用數(shù)據(jù)城堡大數(shù)據(jù)競賽平臺中的微博熱度預測競賽數(shù)據(jù)作為實驗數(shù)據(jù),文中用到了其訓練數(shù)據(jù)中的源微博轉(zhuǎn)發(fā)數(shù)據(jù),包括被轉(zhuǎn)發(fā)的用戶,產(chǎn)生轉(zhuǎn)發(fā)行為的用戶,微博的內(nèi)容、發(fā)布時間;用戶與用戶之間的關(guān)注關(guān)系。具體數(shù)據(jù)字段見表1、2、3。
表1 微博原文數(shù)據(jù)字段
[微博id 微博內(nèi)容 ]
表2 微博轉(zhuǎn)發(fā)數(shù)據(jù)字段
[微博id 被轉(zhuǎn)發(fā)用戶id 轉(zhuǎn)發(fā)用戶id 轉(zhuǎn)發(fā)時間與源微博發(fā)表時間的間隔 微博內(nèi)容 ]
表3 微博用戶關(guān)注關(guān)系數(shù)據(jù)字段
[用戶id1 用戶id1關(guān)注的用戶列表 ]
先對微博內(nèi)容進行分詞、去停用詞。同時,去除了沒有轉(zhuǎn)發(fā)的微博以及只轉(zhuǎn)發(fā)了一次的微博。因為,本文認為只有一次轉(zhuǎn)發(fā)的微博相對來說,對輿情監(jiān)控研究的價值較小。最后,對得到的微博數(shù)據(jù)進行統(tǒng)計建模分析。
3 研究方法與關(guān)鍵技術(shù)
3.1 社交網(wǎng)絡(luò)重構(gòu)
基于表3所描述的數(shù)據(jù),本文首先對數(shù)據(jù)中涉及的微博用戶之間的社交網(wǎng)絡(luò)進行了重構(gòu)。社交網(wǎng)絡(luò)G(V,E)刻畫用戶及用戶之間的關(guān)注關(guān)系,其中V為用戶節(jié)點集合,每個用戶在圖G中表現(xiàn)為一個獨一無二的節(jié)點。有向邊集合E表示用戶之間的關(guān)注關(guān)系。如果用戶A被另外一個用戶B關(guān)注了,那么就存在一條從A用戶指向B用戶的有向邊。邊的方向也表明了可能的信息傳播的方向。
3.2 傳播網(wǎng)絡(luò)建模
基于表2所描述的微博轉(zhuǎn)發(fā)數(shù)據(jù),本文對每一條微博的傳播網(wǎng)絡(luò)進行了建模。傳播網(wǎng)絡(luò)圖G(V,E)為3.1生成的微博社交網(wǎng)絡(luò)圖的子圖,其中V表示參與該微博傳播的用戶集合,即圖中的節(jié)點為微博傳播源用戶或者轉(zhuǎn)發(fā)了該微博的用戶,有向邊集合E表示微博的傳播走向,如果用戶A的微博被用戶B轉(zhuǎn)發(fā)了,就存在一條從用戶A指向用戶B的邊。如果用戶A的微博同時被用戶B和用戶C轉(zhuǎn)發(fā),那就存在從A分別指向B和C的邊。
3.3 微博傳播力
每個微博在傳播過程中體現(xiàn)出不同的傳播效果,本文從傳播過程所覆蓋的用戶數(shù)量的角度定義微博的傳播效果,把微博傳播的效果從兩個維度進行刻畫—傳播廣度和深度。有些微博會短時間內(nèi)在發(fā)起者的粉絲中大規(guī)模傳播,但傳播的深度不夠,這種微博的傳播網(wǎng)絡(luò)呈星型;而有些微博會在縱深方向傳播,在傳播網(wǎng)絡(luò)中體現(xiàn)為其傳播過程更傾向于帶狀,其輿論的持續(xù)時間也更久。針對以上兩種傳播模式,本文定義了一個綜合衡量微博傳播有效性的指標:傳播力,其計算方法由公式(1)描述
(1)
其中p為微博傳播力,N為轉(zhuǎn)發(fā)深度,是第i層的轉(zhuǎn)發(fā)數(shù)。式中為第i層的轉(zhuǎn)發(fā)設(shè)置權(quán)重i,表明在離源點越遠的節(jié)點傳播,說明該微博的傳播能力越好。最終計算得到的傳播力P的值則總體刻畫出一條微博在社交網(wǎng)絡(luò)的傳播效果。
3.4 研究步驟
步驟一:社交網(wǎng)絡(luò)與傳播網(wǎng)絡(luò)重構(gòu)
根據(jù)用戶關(guān)注數(shù)據(jù)和微博轉(zhuǎn)發(fā)數(shù)據(jù),將基于用戶關(guān)注的社交網(wǎng)絡(luò)和基于傳播行為的傳播網(wǎng)絡(luò)進行重構(gòu),最終獲得一個基于現(xiàn)有數(shù)據(jù)的微博社交網(wǎng)絡(luò)和針對每個微博的轉(zhuǎn)發(fā)過程的大量微博傳播網(wǎng)絡(luò)。
步驟二:微博信息分類
本文利用搜狗的類別關(guān)鍵詞詞庫,對微博短文本進行分類。該詞庫共有12類,根據(jù)輿情分析的需要,本文將詞庫整合為6大類:運動、社會科學、自然科學、生活百科、娛樂、其他。通過使用jieba分詞后的微博與相應的詞庫進行匹配,匹配度最大的那個類別作為該微博的類別標簽。
步驟三:微博傳播分析
本文以深度、傳播力、傳播源點度與傳播力的相關(guān)性以及輿論爆發(fā)情況等多個指標分析了微博傳播的特征。并比較了不同類別的微博其傳播過程的差異性。
4 實驗結(jié)果分析
4.1 微博社交網(wǎng)絡(luò)分析
從圖1中,可以看出,娛樂的傳播力度最大,說明其具有更大的傳播力度。而自然科學,相對娛樂來說傳播力較小,但是它的頻次在全部中排名第二,說明大部分人對自然科學的興趣還是比較高的。相對自然科學來說,人們更關(guān)注娛樂的動向,這個也符合人群的興趣分布。
本文隨后計算了用戶粉絲數(shù)與傳播力的皮爾遜相關(guān)系數(shù),結(jié)果只有1.8%。說明微博傳播的規(guī)模與粉絲數(shù)相關(guān)性不大,說明有的用戶粉絲很多,但是關(guān)于某些微博他的粉絲們只是看看,并沒有進行轉(zhuǎn)發(fā),這個就給有關(guān)輿情監(jiān)控部門以及絕大多數(shù)人的慣性思維產(chǎn)生了巨大差異,更加體現(xiàn)出本文對不同類別微博傳播影響的研究價值。
4.2 微博傳播網(wǎng)絡(luò)分析
4.2.1 傳播網(wǎng)絡(luò)深度分析
從圖2可以看出,運動這個類別的傳播相對其他來說,傳播深度要大,可能因為絕大部分微博用戶中喜歡運動的人愛好相對來說比較一致。而娛樂傳播的深度越大,比例越小,可能因為青少年比例較多,而青少年相對來說關(guān)注娛樂只是一時興起。而圖3中的方差分布反映出娛樂相關(guān)的波動非常大,因為娛樂的更新速度非???,而人們對娛樂的關(guān)注基本局限于那些當紅娛樂明星。其中,生活百科和社會科學的方差相對來說較小,這個說明人們一般只會關(guān)注那些自己感興趣的有關(guān)生活方面的微博,進而進行轉(zhuǎn)發(fā),而那些被轉(zhuǎn)發(fā)的微博也與大部分人的生活息息相關(guān)。
4.2.2 傳播網(wǎng)絡(luò)轉(zhuǎn)發(fā)量分析
圖4中的各個類別的趨勢基本一致,轉(zhuǎn)發(fā)量越多,微博中所占的比例越少,說明微博傳播符合長尾分布特點。而生活百科在轉(zhuǎn)發(fā)量等于300左右的地方出現(xiàn)一個峰值,說明人們對于有關(guān)生活部分的微博的轉(zhuǎn)發(fā),會引起某個或某些圈子中部分人認可,進而進行轉(zhuǎn)發(fā)。從圖5中,可以發(fā)現(xiàn),娛樂與運動的轉(zhuǎn)發(fā)量的波動性很大,因為對于某些比較熱的運動信息或者是娛樂事件會得到廣大微博用戶的瘋狂關(guān)注并轉(zhuǎn)發(fā),而那些不太熱的事件或消息可以說幾乎是沒有傳播的生命力。
4.3 微博傳播爆發(fā)點分析
除了上述的實驗,隨后,我們對微博傳播的規(guī)模進行了分析,結(jié)果如下表所示:
從表4,可以看出,微博傳播的兩種爆發(fā)模式。一種是從大到小再變大,另外一種是一直小,隨后變大。輿情監(jiān)控可以針對不同微博的傳播特點,給予不同的監(jiān)控手段。針對第一種,可以應該盡量在3度被轉(zhuǎn)發(fā)前進行控制。而針對后者,更不能小覷其前期的小規(guī)模傳播,對于某些敏感的小規(guī)模傳播的微博,應該盡早制止。
5 結(jié)論
從本文的實驗結(jié)果可以看出,人們關(guān)注的焦點集中在娛樂和運動兩個方面,而這兩個方面的波動性也較大,更有可能出現(xiàn)輿情事件信息傳播的發(fā)生。因此,有關(guān)部門應該重點監(jiān)控這兩個方面。其次,應該根據(jù)不同的微博傳播模式,制定相應的監(jiān)控策略,盡量在輿情爆發(fā)前進行有效制止。尤其關(guān)注那些起初不起眼的不良信息,因為它們更可能在接下來的傳播過程中突然爆發(fā)。
參考文獻:
[1] 鄒學強, 包秀國, 黃曉軍等. 基于層次分析的微博短文本特征計算方法[J]. 通信學報, 2017, 37(12):50-55.
[2] 劉瑋, 賀敏, 王麗宏等. 基于用戶行為特征的微博轉(zhuǎn)發(fā)預測研究[J]. 計算機學報, 2016, 39(10):1992-2006.
[3] 盧興. 體育熱點事件微傳播特質(zhì)研究——基于微博傳播關(guān)鍵節(jié)點的實證分析[J]. 上海體育學院學報, 2016, 40(4):37-41.
[4] 李洋, 陳毅恒, 劉挺. 微博信息傳播預測研究綜述[J]. Journal of Software, 2016, 27(2).
[5] 林向義, 李秀成, 羅洪云. 社交媒體中信息可靠性測評研究——以微博為例[J]. 現(xiàn)代情報, 2016, 36(7):24-29.
[6] 何賢杰, 王孝鈺, 趙海龍, 等. 上市公司網(wǎng)絡(luò)新媒體信息披露研究: 基于微博的實證分析[J]. 財經(jīng)研究, 2016, 3: 16-27.
[7] 王連喜, 蔣盛益, 龐觀松等. 微博用戶關(guān)系挖掘研究綜述[J]. 情報雜志, 2012, 31(12):91-97.
[8] 文坤梅, 徐帥, 李瑞軒等. 微博及中文微博信息處理研究綜述[J]. 中文信息學報, 2012, 26(6):27-38.
[9] 閆幸, 常亞平. 微博研究綜述[J]. 情報雜志, 2011, 30(9):61-65.
[10] 陳勁松, 楊均. 微博輿論的社會監(jiān)督[J]. 新聞前哨, 2016 (3):50-52.