羅泰曄
〔摘要〕本文提出了一種基于泊松分布和伽馬分布的網(wǎng)絡(luò)輿情熱點(diǎn)實(shí)時(shí)識(shí)別方法。該方法使用話題的人氣和時(shí)間間隔特征兩方面來(lái)識(shí)別輿情熱點(diǎn),發(fā)現(xiàn)單位時(shí)間內(nèi)(如1小時(shí))參與話題討論的人數(shù)成泊松分布,回帖的時(shí)間間隔服從伽馬分布。本研究用歷史數(shù)據(jù)證明了該方法具有良好的識(shí)別效果。
〔關(guān)鍵詞〕網(wǎng)絡(luò)熱點(diǎn);網(wǎng)絡(luò)輿情;伽馬分布;泊松分布;熱點(diǎn)發(fā)現(xiàn);話題熱度
DOI:10.3969/j.issn.1008-0821.2017.01.014
〔中圖分類號(hào)〕G203〔文獻(xiàn)標(biāo)識(shí)碼〕A〔文章編號(hào)〕1008-0821(2017)01-0077-04
〔Abstract〕A method was proposed in the paper to identify online hot topics based on Poisson distribution and Gamma distribution,which combined the popularity and time interval characteristics of hot topics.It was found that the number of people participating in a topic discussion per unit time(e.g.one hour)follows a Poisson distribution,and the time interval between two replies follows a Gamma distribution.Historical data was used to test the effectiveness of the method.
〔Key words〕online hot topics;online public opinion;gamma distribution;Poisson distribution;hot topic identification;topic hotness
中國(guó)互聯(lián)網(wǎng)信息中心第38次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2016年6月,中國(guó)網(wǎng)民規(guī)模達(dá)7.10億[1]?;ヂ?lián)網(wǎng)已成為民眾接收和發(fā)布消息的主要渠道,網(wǎng)絡(luò)輿情已具備較大規(guī)模。網(wǎng)絡(luò)輿情傳播由于具有傳播速度快、覆蓋范圍廣、互動(dòng)性強(qiáng)等特點(diǎn),已引起政府管理的高度重視,也成為學(xué)術(shù)界研究的流行內(nèi)容。其中,對(duì)于網(wǎng)絡(luò)輿情的實(shí)時(shí)監(jiān)測(cè)和分析是輿情研究的重點(diǎn)內(nèi)容之一。
當(dāng)前國(guó)內(nèi)關(guān)于網(wǎng)絡(luò)輿情的監(jiān)測(cè)主要可以分為兩大技術(shù)路線。一種是基于內(nèi)容的分析,即對(duì)網(wǎng)絡(luò)信息文本進(jìn)行關(guān)鍵內(nèi)容的提取,再通過(guò)關(guān)鍵詞識(shí)別、支持向量機(jī)、K均值等分類或聚類的方法發(fā)現(xiàn)輿情熱點(diǎn)[2]。這方面的研究已經(jīng)較多。另一種是基于輿情發(fā)展模式的分析,這條路線主要是從數(shù)量關(guān)系和時(shí)間特征上發(fā)現(xiàn)輿情熱點(diǎn)與普通網(wǎng)絡(luò)話題的區(qū)別[3-5],從而進(jìn)行熱點(diǎn)的發(fā)現(xiàn)。目前這條路線的研究還相對(duì)較少。已有的研究主要存在兩種思路:一種是將單位時(shí)間內(nèi)的回帖量與回帖人數(shù)是作為識(shí)別網(wǎng)絡(luò)輿情熱點(diǎn)的主要指標(biāo)。另一種是利用回帖的時(shí)間間隔特征來(lái)反映話題帖的活躍度。從已有的文獻(xiàn)看,兩種思路都存在需要進(jìn)一步解決的問(wèn)題。對(duì)于第一種思路,以單位時(shí)間進(jìn)行統(tǒng)計(jì)(比如1小時(shí)統(tǒng)計(jì)1次)可能出現(xiàn)遺漏潛在輿情熱點(diǎn)的情況,即在統(tǒng)計(jì)時(shí)段中后期才啟動(dòng)的輿情話題,由于在數(shù)量上可能還達(dá)不到設(shè)定的閾值而在統(tǒng)計(jì)時(shí)未被識(shí)別出來(lái)。而輿情熱點(diǎn)的識(shí)別越早越好,能越早識(shí)別出潛在的熱點(diǎn),就能夠進(jìn)行很好的控制和引導(dǎo)。因此,需要對(duì)話題的發(fā)展趨勢(shì)做一個(gè)概率的判斷。此外,回帖量和回帖人數(shù)可能不在同一個(gè)數(shù)量級(jí),如果簡(jiǎn)單地將兩者結(jié)合起來(lái)使用,可能會(huì)弱化數(shù)量級(jí)相對(duì)較低的回帖人數(shù)的作用。為避免出現(xiàn)這種情況,需要對(duì)回帖量或者回帖人數(shù)進(jìn)行一定的數(shù)學(xué)轉(zhuǎn)換,使二者處于同一數(shù)量級(jí)。對(duì)于第二種思路,回帖的時(shí)間間隔到底具備什么樣的特征,已有的研究也只是提出了一個(gè)抽象的函數(shù)f(t),而對(duì)于f(t)的具體內(nèi)容沒(méi)有進(jìn)一步分析。針對(duì)以上問(wèn)題,本文提出一種將回帖人數(shù)和回帖時(shí)間間隔結(jié)合起來(lái)的網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)的方法。該方法基于兩個(gè)重要的統(tǒng)計(jì)分布:泊松分布和伽馬分布。
1網(wǎng)絡(luò)輿情熱點(diǎn)特征
網(wǎng)絡(luò)輿情熱點(diǎn)與普通網(wǎng)絡(luò)話題的區(qū)別主要體現(xiàn)在兩個(gè)方面。一是單位時(shí)間內(nèi)參與熱點(diǎn)話題討論的人數(shù)眾多;二是回帖的時(shí)間間隔短。討論人數(shù)多,回帖的時(shí)間間隔短,則使得單位時(shí)間內(nèi)回帖的數(shù)量大,從而形成輿情熱點(diǎn)。因此,人氣(回帖人數(shù))和時(shí)間間隔這兩個(gè)變量可以用作發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)的指標(biāo)。筆者以一個(gè)高校網(wǎng)絡(luò)論壇2008年4月和5月的歷史數(shù)據(jù)為例,探索運(yùn)用這兩個(gè)指標(biāo)實(shí)時(shí)發(fā)現(xiàn)網(wǎng)絡(luò)輿情熱點(diǎn)的方法。首先從2008年4月的數(shù)據(jù)中找出30個(gè)熱點(diǎn)話題帖作為素材,分析熱點(diǎn)話題在人氣和時(shí)間間隔上的特征。
1.1輿情熱點(diǎn)的人氣特征
其中A表示由每小時(shí)討論人數(shù)組成的向量,alpha為置信率。如果運(yùn)行結(jié)果H=0,則表示A服從泊松分布。對(duì)熱點(diǎn)話題樣本運(yùn)行的結(jié)果顯示H=0,因此每小時(shí)參與討論的人數(shù)服從泊松分布。
1.2輿情熱點(diǎn)的時(shí)間間隔特征
在單位時(shí)間內(nèi),輿情熱點(diǎn)的熱度與回帖的時(shí)間間隔是緊密相關(guān)的,回帖的時(shí)間間隔短,則回帖數(shù)量多,相應(yīng)的輿情規(guī)模就大。伽馬分布是一種重要的統(tǒng)計(jì)分布,經(jīng)常用于描述時(shí)間間隔的特征[8]。如果連續(xù)型隨機(jī)變量X的概率密度函數(shù)如公式(2)所示,則稱X服從伽瑪分布。
回帖時(shí)間間隔指的是相鄰的兩個(gè)回帖之間的時(shí)間間隔,用秒作為單位。計(jì)算公式為:ΔTi=Ti-Ti-1,i≥1。其中T0表示話題帖,Ti表示第i個(gè)回帖的發(fā)表時(shí)間。為檢驗(yàn)回帖時(shí)間間隔是否服從伽馬分布,筆者計(jì)算出每個(gè)樣本帖的所有回帖之間的時(shí)間間隔,并使用matlab軟件進(jìn)行K-S檢驗(yàn)。經(jīng)過(guò)運(yùn)行檢測(cè)程序,發(fā)現(xiàn)H值為0,所以回帖時(shí)間間隔服從伽馬分布。
2輿情熱點(diǎn)識(shí)別方法設(shè)計(jì)
2.1輿情熱點(diǎn)人氣值
從上一節(jié)的分析得到每小時(shí)的回帖人數(shù)服從泊松分布。從公式(1)中可以看出,λ是一個(gè)重要參數(shù),它決定了泊松分布的圖像形狀。熱點(diǎn)話題和普通話題在每小時(shí)參與討論的人數(shù)是不一樣的。熱點(diǎn)話題的回復(fù)人數(shù)要遠(yuǎn)大于普通話題帖,這造成了每小時(shí)回帖人數(shù)的平均值的不同。而這一區(qū)別可以通過(guò)λ反映出來(lái)。因此,可以利用λ來(lái)計(jì)算一個(gè)話題帖的人氣值。
λ的值一般是通過(guò)歷史數(shù)據(jù)獲得的。對(duì)于每一個(gè)熱點(diǎn)樣本帖計(jì)算出其每小時(shí)討論人數(shù)的平均值,由此可以獲得30個(gè)平均值。再對(duì)這30個(gè)平均值求平均數(shù),進(jìn)而獲得λ的值。通過(guò)計(jì)算,λ約為25.36,取整數(shù),將λ的初始值λ(0)設(shè)定為25,即對(duì)于熱點(diǎn)帖來(lái)講,平均每小時(shí)約有25個(gè)人參與討論。而對(duì)該論壇4月的所有話題帖平均每小時(shí)參與討論人數(shù)進(jìn)行計(jì)算得到的值約為4.42,即不超過(guò)5個(gè)人,遠(yuǎn)小于熱點(diǎn)帖。
對(duì)于一個(gè)待識(shí)別的新話題帖,以小時(shí)為單位進(jìn)行統(tǒng)計(jì),計(jì)算出該小時(shí)內(nèi)參與討論的人數(shù)n(t),t=1,2,3…,并用n(t)對(duì)λ(t)進(jìn)行修正:λ(t)=(n(t)+λ(t-1))/2,t=1,2,3…。進(jìn)行修正的過(guò)程也就是判斷話題發(fā)展趨勢(shì)的過(guò)程。如圖1和圖2所示,圖1和圖2分別是一個(gè)熱點(diǎn)帖和一個(gè)普通帖前4個(gè)小時(shí)的泊松分布的圖像。兩個(gè)圖中“+”顯示的圖像是初始時(shí)刻(即λ=25)時(shí)的圖像。可以從圖1中看出,一個(gè)熱點(diǎn)帖每小時(shí)討論人數(shù)的泊松分布圖像始終在初始圖像的附近移動(dòng),說(shuō)明在一個(gè)小時(shí)內(nèi)出現(xiàn)回帖人數(shù)超過(guò)25人的概率仍然很大;而一個(gè)普通帖的圖像(圖2)則是完全往左移動(dòng),在1個(gè)小時(shí)內(nèi)出現(xiàn)回帖人數(shù)超過(guò)25人的概率變得越來(lái)越小。因此,可以用這個(gè)帖在1小時(shí)內(nèi)獲得大于25人回帖的概率來(lái)衡量這個(gè)帖的人氣值。
2.2輿情熱點(diǎn)規(guī)模
在單位時(shí)間內(nèi)(如1小時(shí)),回帖的時(shí)間間隔分布的情況決定了輿情的規(guī)模。圖3是2個(gè)熱點(diǎn)帖和1個(gè)普通帖回帖時(shí)間間隔伽馬分布的圖像。從圖3中可以看到,兩個(gè)熱點(diǎn)帖(a=0.42和a=0.37)的圖像大致相同,而普通帖(a=1.71)的圖像在形態(tài)上與另兩個(gè)圖像有明顯區(qū)別。這種區(qū)別主要是由形狀參數(shù)a和尺度參數(shù)b決定的,所以可以利用這兩個(gè)參數(shù)來(lái)代表輿情規(guī)模。
以30個(gè)熱點(diǎn)帖第1小時(shí)的數(shù)據(jù)為例,首先計(jì)算出第一小時(shí)內(nèi)所有回帖的時(shí)間間隔。利用最大似然估計(jì)法(MLE)對(duì)伽馬分布的兩個(gè)參數(shù)a和b進(jìn)行估計(jì),從而得到a和b的一個(gè)樣本數(shù)據(jù)。這樣總共可以獲得30個(gè)樣本數(shù)據(jù)。隨后,用這30個(gè)樣本數(shù)據(jù)與第1小時(shí)的回帖量(n)進(jìn)行相關(guān)分析,結(jié)果如表1所示。
從表1中可以看出,第1小時(shí)的回帖量與伽馬分布兩個(gè)的兩個(gè)參數(shù)a和b呈顯著的負(fù)相關(guān)關(guān)系,即a和b的值越小,n越大。因此,可以用a和b來(lái)代表回帖的規(guī)模。
2.3輿情話題熱度計(jì)算
這種方法對(duì)于在統(tǒng)計(jì)時(shí)段中后期才啟動(dòng)的話題也能起到識(shí)別作用。一個(gè)話題帖即便是在中后期啟動(dòng),在獲得回帖人數(shù)或回帖量上還達(dá)不到設(shè)定的閾值。一方面,由于回帖的時(shí)間間隔短,使得用最大似然法估計(jì)得到的a或b的值比較小,從而使其倒數(shù)的值比較大;另一方面,話題討論雖未形成較大規(guī)模,但已有一定數(shù)量的人參加,對(duì)λ(t)沒(méi)有進(jìn)行過(guò)度的負(fù)修正(即沒(méi)有使λ(t)變得很?。瑥亩沟肦的值不至于過(guò)低,甚至可能存在正修正的情況,從而獲得一個(gè)較大的R值。根據(jù)公式(4),兩部分求和之后得到的H值也可能較大,從而識(shí)別出可能在下一個(gè)小時(shí)爆發(fā)的輿情熱點(diǎn)。
3熱點(diǎn)識(shí)別方法的效果檢驗(yàn)
從表2中可以看出,熱點(diǎn)帖的實(shí)時(shí)熱度都在1以上,而普通帖的熱度除第1小時(shí)外,基本都小于1。這說(shuō)明熱點(diǎn)帖被持續(xù)討論的時(shí)間和熱度都強(qiáng)于普通帖。普通帖一般只有在第1小時(shí)可能引起較多的關(guān)注和討論,隨著時(shí)間的推移,討論熱度逐漸減弱,整個(gè)討論持續(xù)的時(shí)間不超過(guò)5小時(shí)。因此,公式(4)能夠有效地實(shí)時(shí)識(shí)別熱點(diǎn)帖和普通帖。
4結(jié)語(yǔ)
本文發(fā)現(xiàn)單位時(shí)間內(nèi)的回帖人數(shù)服從泊松分布,回帖時(shí)間間隔服從伽馬分布,并在此基礎(chǔ)上提出了一種網(wǎng)絡(luò)輿情熱點(diǎn)實(shí)時(shí)識(shí)別的方法,并用歷史數(shù)據(jù)證明了該方法的有效性。在實(shí)際使用時(shí),可首先進(jìn)行初步篩選,去除無(wú)回帖或只有幾個(gè)回帖的話題帖,對(duì)剩余的話題帖再使用本方法進(jìn)行識(shí)別,從而提高效率。
本文使用的數(shù)據(jù)是一個(gè)高校網(wǎng)絡(luò)論壇2008年的歷史數(shù)據(jù)。鑒于當(dāng)時(shí)的通信技術(shù)條件(如尚無(wú)移動(dòng)互聯(lián)網(wǎng)),加之高校網(wǎng)絡(luò)論壇具有封閉性,即便是版面中最熱門的話題的規(guī)模從現(xiàn)在看來(lái)在絕對(duì)數(shù)量上仍顯得不是很大。但從相對(duì)值來(lái)看,文中所選的話題帖的規(guī)模已是普通話題的幾十倍,已經(jīng)具備了輿情熱點(diǎn)的特征。未來(lái)的研究可以利用開(kāi)放的網(wǎng)絡(luò)論壇或者微博中的素材來(lái)進(jìn)一步檢驗(yàn)文中所提方法的健壯性。
參考文獻(xiàn)
[1]中國(guó)互聯(lián)網(wǎng)信息中心.第38次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[EB/OL].http:∥www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/,2016.8.
[2]王玉珍.網(wǎng)絡(luò)輿情熱點(diǎn)發(fā)現(xiàn)綜述[J].內(nèi)蒙古科技與經(jīng)濟(jì),2015,(8):66-67.
[3]王麗英.高校BBS教育輿情的時(shí)空特征模型構(gòu)建和熱點(diǎn)發(fā)現(xiàn)[J].現(xiàn)代情報(bào),2016,(1):84-89.
[4]李文杰,化存才,何偉全.網(wǎng)絡(luò)輿情熱點(diǎn)事件的可控性和篩選數(shù)學(xué)模型分析[J].情報(bào)科學(xué),2016,(6):37-42.
[5]曹樹(shù)金,鄭凌,陳憶金.網(wǎng)絡(luò)輿情突發(fā)異常識(shí)別及關(guān)鍵算法研究[J].圖書(shū)情報(bào)知識(shí),2012,(1):43-51.
[6]徐國(guó)祥.統(tǒng)計(jì)學(xué)[M].上海:上海人民出版社,2007.
[7]劉超.Matlab基礎(chǔ)與實(shí)踐教程[M].北京:機(jī)械工業(yè)出版社,2011.
[8]Walid F.Nasrallah,M.ASCE and Rana Bou-Matar.Exponential,Gamma,and Power Law Distributions in Information Flow on a Construction Site[J].Journal of construction engineering and management,2008,(6):442-450.
(本文責(zé)任編輯:馬卓)