国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于聚類定量分析的微博輿情監(jiān)測與預警

2017-04-25 06:28李立煊
傳媒 2017年7期
關鍵詞:領袖輿情消息

文/李立煊

基于聚類定量分析的微博輿情監(jiān)測與預警

文/李立煊

隨著網(wǎng)絡技術的發(fā)展和時代的進步,微博輿情逐漸進入大眾的視野,微博輿情在一定程度反映了民情民意,因此,如何更好地對網(wǎng)絡輿情進行引導和控制,并進行輿情的風險預警成為目前亟待解決的問題。本文以微博消息為研究對象,基于K-means算法完成對微博消息的聚類定量分析,找到所要分析的某類微博內(nèi)容,進而在這類微博中找出微博消息意見領袖,提出微博意見領袖影響力評估算法,完成微博消息預警模塊的實現(xiàn),對微博輿情監(jiān)測分析系統(tǒng)進行研究。

微博輿情 監(jiān)測分析 K-means算法 聚類定量分析

網(wǎng)絡輿情的重要性已經(jīng)毋庸置疑,有關網(wǎng)絡輿情管理與檢測的研究也日趨成熟,有關網(wǎng)絡輿情管理與監(jiān)測的系統(tǒng)越來越多,微博輿情的分析平臺也隨之出現(xiàn),不過多數(shù)是為政府和企業(yè)服務,其僅對有可能爆發(fā)的負面信息和重大事件進行監(jiān)控,不對普通用戶開放,而有關微博消息的分析軟件不但費用昂貴而且只是對信息的已傳播軌跡進行呈現(xiàn)和分析,既缺乏對微博消息未來走向的一個分析預測,也沒有對微博消息傳播范圍廣度的分級。

對于微博輿情的監(jiān)測是要對微博內(nèi)容進行聚類分析,所謂聚類,就是一個集群的集合。聚類的目的是找到對象組,進而通過數(shù)據(jù)分析確定對數(shù)據(jù)分析有用的群體。國內(nèi)學者對微博聚類方法進行的研究,主要采用劃分法、層次法、基于密度方法、網(wǎng)格方法、模型方法等,其中劃分法作為一種主流的聚類分析方法進行初步分類,并采用不斷迭代的方法優(yōu)化分組方案,目前劃分法大都采用定性分析方法,諸如Vlan等方法,對定量分析的方法尚未有文獻提及。

一、微博消息的傳播類型

1.微博消息傳播的特點。微博消息的傳播具有直接性、互動性以及突發(fā)性等特點,微博網(wǎng)絡輿情的這三個典型特點,可以看出它與其他輿情傳播存在著顯著差別,而想要對微博輿情進行管理,必須很好的利用這三種特點。

2.微博用戶狀態(tài)。在調(diào)研文獻時,病毒在傳播的時候會出現(xiàn)三種用戶狀態(tài):感染態(tài)、免疫態(tài)、易感染態(tài)。由于病毒傳播與微博消息的傳播相似性,假設一個用戶發(fā)布一條消息后,他的粉絲用戶都一定會看到這條消息,類比病毒傳播的三種狀態(tài),將微博用戶也分為三種狀態(tài):未知狀態(tài)、轉發(fā)狀態(tài)、已知不傳播狀態(tài)(見圖1)。

圖1 微博用戶狀態(tài)圖

3.微博意見領袖。微博意見領袖的粉絲數(shù)量通常為上萬甚至幾十萬乃至上百萬,成為微博平臺上的明星,他們常通過與粉絲互動引導輿情導向。不過轉發(fā)量并不是判斷意見領袖影響力的唯一標準,粉絲數(shù)、轉發(fā)率以及活躍程度均是評估意見領袖影響力的重要參考標準,通過對實驗數(shù)據(jù)結果的總結,可以得出評估用戶影響力的標準:粉絲數(shù)、轉發(fā)率、歷史轉發(fā)率(該用戶的活躍程度)。

4.微博傳播模型。微博的傳播模型具有很強的單向性,類似病毒的傳播,病毒感染一臺主機則這臺主機進入感染態(tài),而感染一臺服務器,則訪問這臺服務器的所有主機都會了解這個病毒,或感染或免疫。微博中消息傳播也是如此,普通用戶相當于終端,而微博意見領袖則相當于服務器,區(qū)別在于,消息的接受是被動的,只要登錄微博就能看到關注者的消息,而不像用戶一樣需要登錄服務器。

對微博數(shù)據(jù)的抓取分析可以看到,微博中大V領袖的意見引導著大多數(shù)用戶的意見。在微博信息傳播初期,微博大V的加入會使消息傳播呈現(xiàn)出爆炸式增長的趨勢,隨著傳播時間的不斷增長,微博大V的影響力逐漸衰弱,慢慢趨向于消失。

通過對數(shù)據(jù)分析可以發(fā)現(xiàn),消息的傳播廣度與初始微博意見領袖加入的多少有一定關系,當單位時間內(nèi)意見領袖的影響力達到了一個閾值M后,可以認為在之后的一段時間內(nèi),此消息的傳播范圍會有一個明顯的增長。通過研究發(fā)現(xiàn),消息成為熱點有以下三種規(guī)律,每一種都會在熱點的成長曲線中出現(xiàn)。對一個范圍內(nèi)的微博意見領袖進行監(jiān)控,發(fā)現(xiàn)意見領袖對一條微博消息的轉發(fā)比例達到10%時,可以認為此消息會有一個廣泛的傳播,會成為一個熱點話題;通過對已知此消息但未轉發(fā)的意見領袖的比例與已知此消息并轉發(fā)的意見領袖所占比例的對比,可實現(xiàn)對未來的微博消息傳播范圍的判斷;在單位時間內(nèi)(設為1個小時)的消息傳播量達到一個閾值M后,可以認為此消息傳播進入爆發(fā)期,會出現(xiàn)較大增長,通過設置不同M值,可對未來的消息傳播范圍有一個大致的分級,不同級別表示預測此消息傳播的最大廣度。從趨勢分析角度來說,以上三種規(guī)律無論應用哪一種均可以對消息傳播趨勢做一個分析,采用多種規(guī)律對趨勢分析精度的提升也是有限的,而對一種規(guī)律分析的足夠透徹已經(jīng)可以達到一個接受的趨勢分析的準確度了。

二、基于K-means算法的微博輿情監(jiān)測分析系統(tǒng)

1.K-means算法概述。K-means在分群方法中視為一個最為簡單并且有效率的方法,K-means表示依K個質(zhì)心(means)做分群。K-means分群算法能在大量數(shù)據(jù)中找尋出最具代表的數(shù)據(jù)點并將其視為質(zhì)心,也就是分群的中心點,而后以這些中心點為根據(jù),計算其他數(shù)據(jù)點與其中心點之距離,例如在大量的資料中,找尋最具代表的K個數(shù)據(jù)點作為中心點(也就是質(zhì)心),將其他數(shù)據(jù)點與K的中心點分別做距離運算,運算后可得知各個數(shù)據(jù)點與K個中心點的距離,將數(shù)據(jù)點與其計算出距離最近的中心點分為同一群,而這些距離較近的數(shù)據(jù)點,代表與中心點的相似度高,反之,距離較遠的為較不相似的數(shù)據(jù)點,則不會被分為同一群。K-means還有另一個優(yōu)勢,可利用少數(shù)的數(shù)據(jù)點(大量數(shù)據(jù)中選出最具代表性的數(shù)據(jù)點)來代表大量資料,借此達到數(shù)據(jù)壓縮效果。本研究主要探討K-means分群的效果,以少數(shù)的數(shù)據(jù)點來代表特定類別之數(shù)據(jù),降低數(shù)據(jù)的計算量以及避免噪聲或是其他不良的影響(如圖2)。

圖2 K-means算法流程圖

2.微博輿情監(jiān)測分析系統(tǒng)設計流程。如圖3所示,獲得關鍵詞或核心微博后,從數(shù)據(jù)庫中獲取微博相關數(shù)據(jù)。將微博內(nèi)容與微博ID掛鉤,用中文分詞系統(tǒng)將微博內(nèi)容進行分詞,首先在數(shù)據(jù)庫中新建一表項,用于存儲分詞后的文本內(nèi)容;其次繼續(xù)以微博ID為區(qū)分,將分詞后的文本放入K-means算法中進行迭代聚類,選出關鍵詞或核心微博所在類為相關微博類,刪除數(shù)據(jù)庫中其他無關微博;最后可篩選出符合微博意見領袖定義的用戶,進入微博意見領袖影響力評估算法,分析出每個意見領袖的重要程度。以小時為單位,計算單位時間內(nèi)的微博內(nèi)容傳播廣度,設定不同等級閾值M,存在超過M值的時間段即可分析預測出消息未來走勢,進而將意見領袖重要性在前10名的用戶數(shù)據(jù)反饋數(shù)據(jù)庫,將用戶按時間順序進行排序存儲到數(shù)據(jù)庫交給管理平臺進行結果反饋,這就是整個數(shù)據(jù)分析系統(tǒng)的主要流程。

圖3 微博輿情管理平臺數(shù)據(jù)分析系統(tǒng)主要流程

三、微博輿情監(jiān)測分析系統(tǒng)實現(xiàn)步驟

1.微博數(shù)據(jù)轉化。向量空間模型廣泛應用在信息檢索的相關領域,例如在文件分類與文件分群。其方法是轉換文件(或是查詢語句,在本論文中為試題的關鍵詞)到向量空間后,在此空間中比對查詢條件與文件的相似度。字詞頻率的公式最早是由Rocchio于1971年所提出,他經(jīng)過大量的統(tǒng)計分析后發(fā)現(xiàn),文件中出現(xiàn)次數(shù)為中頻率的字詞,往往是整篇文件中的每一個不同的詞項,在向量中只記錄一個分量。重要的字詞,或稱為關鍵詞(Keywords),其中包含以下關鍵內(nèi)容。一是字詞頻率(Term Frequency,TF):表示在一篇文件中,某個字詞出現(xiàn)的次數(shù),目的是對一篇文件中出現(xiàn)次數(shù)為高頻率的字詞加權。二是文件頻率(Document Frequency,DF):表示某個字詞有在那幾篇文件出現(xiàn)。三是反文件頻率(Inverse Document Frequency,IDF):將上述的文件頻率取倒數(shù)后乘上所有的文件總數(shù),之后再取自然對數(shù),目的是為了對一篇文件中出現(xiàn)次數(shù)為低頻率的字詞作加權。經(jīng)過VSM分類的文本文檔,可以看做粗略的分類,不過不夠精確,所以需要后續(xù)的文本聚類的精確分類來確定所需要的微博消息。

2.K-means聚類分析算法流程。輸入:聚類個數(shù) k以及包含n個數(shù)據(jù)對象的數(shù)據(jù)集。輸出:滿足目標函數(shù)值最小的k個聚類算法流程:第一步從n個數(shù)據(jù)對象中任意選擇k個對象作為初始聚類中心;第二步循環(huán)下述流程第三步到第四步,直到目標函數(shù)J取值不再變化;第三步根據(jù)每個聚類對象的均值(中心對象),計算每個對象與這些中心對象的距離,并且根據(jù)最小距離重新對相應對象進行劃分;第四步重新計算每個聚類的均值(中心對象)。

3.微博意見領袖重要性評估。從前文中可以知道,微博意見領袖在微博消息傳播中具有重要作用,但對于影響力大小的衡量需要通過PageRank算法來進行評估。

對于意見領袖的影響力評估,通常采用兩個指標進行評估。一是被轉發(fā)量,被轉發(fā)量通常指用戶信息被他人轉發(fā)的次數(shù)。二是粉絲數(shù)量,粉絲數(shù)量就是該用戶吸收粉絲的數(shù)量。

圖4 意見領袖用戶傳播率

為了評價微博大V對用戶的影響力,以及覆蓋的人群數(shù)量,本文通過以上的算法,對意見領袖累計覆蓋率進行了統(tǒng)計,如圖4所示,從圖中可以看到,意見領袖的信息覆蓋能力超過一般人群,本文的算法從定量角度上準確衡量微博大V對用戶的影響力。

4.微博輿情預警模塊。微博消息有兩種傳播模式,一種是常見媒體在用戶中的傳播,一種是微博大V的信息傳播模式,圖5就是兩種方式的轉發(fā)量時間曲線圖,例子選擇則是媒體模式選擇的是南方周末“一名中國公民在波士頓爆炸案中遇難”的消息傳播。微博達人模式選擇的是“國學大師劉文典說過的一句話”,圖6和圖7選擇的是傳播量時間曲線圖。其中南方周末微博消息在一天時間內(nèi)的轉發(fā)量為997,傳播用戶量接近500萬,《南方周末》的粉絲數(shù)量就占了近450萬,轉發(fā)率非常低,但是傳播范圍廣,依然是熱點;而微博達人模式則不一樣,轉發(fā)量為724,最終傳播用戶量接近10萬,在一定范圍內(nèi)也成為了熱點,而它的傳播時間圖就和起點很高的《南方周末》圖形很不一樣,有著較高的轉發(fā)率,雖然廣度不及《南方周末》,但也形成熱點話題。從兩種模式的傳播圖形中可以看出,傳統(tǒng)的媒體傳播模式在開始的時候信息傳播數(shù)量猛增,隨后時間的增長很快趨近與穩(wěn)定,而微博大V的傳播模式中,信息剛開始傳播數(shù)量緩慢增長,隨著微博大V的加入,傳播消息數(shù)量出現(xiàn)猛增,隨著傳播時間的繼續(xù)增長,逐漸趨近于穩(wěn)定。這兩個圖形很好的描述了兩種模式的傳播過程特性。

圖5 轉發(fā)量時間曲線圖

圖6 微博達人模式圖

圖7 媒體模式傳播圖

四、小結

本文以微博消息為研究對象,基于K-means算法完成對微博消息的聚類定量分析,找到所要分析的某類微博內(nèi)容,進而在這類微博中找出微博消息意見領袖,提出微博意見領袖影響力評估算法,完成微博消息預警模塊的實現(xiàn),對微博輿情監(jiān)測分析系統(tǒng)進行研究。

作者系華中科技大學公共管理學院博士、韶關學院新聞與傳播學講師

[1]張洋,何楚杰,段俊文,楊春程.微博輿情熱點分析系統(tǒng)設計研究[J].信息網(wǎng)絡安全,2012(09).

[2]H Wang,P Yin,J Yao,JNK Liu.Text feature selection for sentiment classification of Chinese online reviews[J].Journal of Experimental & Theoretical Artificial Intelligence,2013(04).

[3]唐曉波,宋承偉.基于復雜網(wǎng)絡的微博輿情分析[J].情報學報,2012(11).

[4]CS Park.Does Twitter motivate involvement in politics?Tweeting, opinion leadership,and political engagement[J].Computers in Human Behavior,2013(04).

[5]莫溢,劉盛華,劉悅,程學旗.一種相關話題微博信息的篩選規(guī)則學習算法[J].中文信息學報,2012(05).

[6]D Pelleg,AW Moore.X-means:Extending k-means with efficient estimation of the number of clusters[M].Seventeenth International Conference on Machine Learning,2000.

[7]李清,沈彤,關毅.面向大規(guī)模日志數(shù)據(jù)的聚類算法研究[J].智能計算機與應用,2012(05).

[8]肖宇,許煒,商召璽.微博用戶區(qū)域影響力識別算法及分析[J].計算機科學,2012(09).

[9]楊春霞,胡丹婷,胡森.微博病毒傳播模型研究[J].計算機工程,2012(15).

[10]李雯靜,許鑫,陳正權.網(wǎng)絡輿情指標體系設計與分析[J].情報科學,2009(07).

[11]高承實,榮星,陳越.微博輿情監(jiān)測指標體系研究[J].情報雜志,2011(09).

[12]何黎,何躍,霍葉青.微博用戶特征分析和核心用戶挖掘[J].情報理論與實踐,2011(11).

猜你喜歡
領袖輿情消息
領袖風范
一張圖看5G消息
意見領袖們的“不老圣經(jīng)”
追尋領袖足跡 奮力追趕超越——學習《梁家河》
數(shù)字輿情
數(shù)字輿情
消費輿情
平民領袖
消息
消息