劉冰月++夏一雪++李增++高揚(yáng)++屈健++王俊迪
摘 要:該文通過定性分析大數(shù)據(jù)環(huán)境下微博輿情熱度分析,構(gòu)建微博輿情傳播的logistic模型,根據(jù)差分回歸法構(gòu)建微博輿情熱度預(yù)測模型,并根據(jù)3種差分格式針對(duì)“霧霾”微博輿情開展實(shí)證研究,以期為微博輿情傳播理論提供模型參考。
關(guān)鍵詞:大數(shù)據(jù) 微博輿情 logistic 預(yù)測 仿真
中圖分類號(hào):C912.6 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)03(c)-0149-03
1 現(xiàn)狀分析
據(jù)中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)第39次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》,截至2016年12月,我國網(wǎng)民規(guī)模達(dá)7.31億,互聯(lián)網(wǎng)普及率為53.2%。其中社交應(yīng)用是我國網(wǎng)民個(gè)人互聯(lián)網(wǎng)應(yīng)用的主要類型,微博作為主流的網(wǎng)絡(luò)社交媒體,得益于名人明星、網(wǎng)紅及媒體內(nèi)容生態(tài)的建立與不斷強(qiáng)化,以及在短視頻和移動(dòng)直播上的深入布局,不僅用戶使用率高,并且由于其“井噴”式外向型傳播的信息傳播模式,是目前網(wǎng)絡(luò)輿情首發(fā)和擴(kuò)散的主要載體,相應(yīng)的,微博輿情熱度成為網(wǎng)絡(luò)輿情監(jiān)測和治理的重要指標(biāo)。
目前,學(xué)術(shù)界針對(duì)微博輿情熱度的研究主要集中于兩個(gè)方面。一是微博輿情熱度評(píng)價(jià)體系研究,主要以用戶數(shù)最多、首曝網(wǎng)絡(luò)輿情事件最頻繁的新浪微博為研究對(duì)象,從網(wǎng)絡(luò)輿情主體、客體、傳播、受眾等維度,構(gòu)建評(píng)價(jià)體系,進(jìn)行微博輿情熱度監(jiān)測和預(yù)警,為網(wǎng)絡(luò)輿情分析、引導(dǎo)和管理研究提供理論依據(jù)[1-2]。二是微博輿情熱度趨勢研究,主要是基于馬爾科夫鏈等通過構(gòu)建熱度趨勢模型,通過采集輿情指標(biāo)數(shù)據(jù)得到熱度的時(shí)間序列值、劃分輿情熱度趨勢的狀態(tài)空間、構(gòu)建狀態(tài)轉(zhuǎn)移矩陣、預(yù)測熱度的趨勢變化區(qū)間等研究步驟,進(jìn)行預(yù)測微博輿情走勢等研究[3,4]。但是,已有研究在定量研究方法上相對(duì)單一,采用更具適合度的研究方法來優(yōu)化修正評(píng)價(jià)體系和預(yù)測模型,是該領(lǐng)域未來研究的重點(diǎn)。
2 大數(shù)據(jù)背景下微博輿情熱度分析
2.1 微博輿情輿情趨勢
通過新浪微博數(shù)據(jù)中心的微指數(shù)功能統(tǒng)計(jì)近6個(gè)月(2016年8月3日至2017年2月3日)的熱詞“樸槿惠”涉及的新浪微博數(shù)據(jù)(按天進(jìn)行統(tǒng)計(jì)),詳細(xì)數(shù)據(jù)見圖1(數(shù)據(jù)網(wǎng)址:http://data.weibo.com/index/hotword?wid=1091324457063&wname=樸槿惠)。
通過圖1不難發(fā)現(xiàn),微博輿情傳播可以定性地分為潛伏期、擴(kuò)散期、消退期。輿情潛伏期,微博發(fā)文量少,且信息量增長緩慢;輿情擴(kuò)散期,微博發(fā)文量短時(shí)間快速增長,且呈現(xiàn)出強(qiáng)烈的震蕩趨勢;輿情消退期,微博發(fā)表量迅速降低,輿情熱度趨于平緩。
2.2 微博輿情熱度分析
通過定性觀察圖1容易發(fā)現(xiàn),這一點(diǎn)和生態(tài)學(xué)中生物生長有相似之處,所以輿情的傳播和生物的生長過程具有相似機(jī)理。目前,大部分微博數(shù)據(jù)都是按小時(shí)、天等統(tǒng)計(jì)的,它們只能描述微博輿情發(fā)生的頻率而不是變化規(guī)律,需要對(duì)微博輿情統(tǒng)計(jì)數(shù)據(jù)進(jìn)行累加才能作為微博輿情建模變量使用。所以,累加后的微博數(shù)據(jù)曲線呈“S”形增長趨勢?;诖耍恼逻x取生長曲線中的logistic模型來研究微博輿情熱度,進(jìn)而研究預(yù)測模型。
3 大數(shù)據(jù)背景下微博輿情熱度預(yù)測模型
3.1 基本模型與假設(shè)
假設(shè)為微博輿情傳播規(guī)律的函數(shù),初值為且≤K,因微博發(fā)文量受空間、網(wǎng)民情緒等影響,故有上限。假設(shè)時(shí)間內(nèi),微博發(fā)文量增量,則增長率為。隨著的增加,微博發(fā)文量趨于“飽和”狀態(tài),則增長率與“剩余空間”成正比。
其中為內(nèi)稟增長率(定值)。當(dāng)時(shí),微博輿情傳播模型為:
求解微分方程得:
3.2 微博輿情熱度預(yù)測模型
袁志發(fā)、孫耀東、殷祚云、朱珉仁、代濤、魏冠軍等人在文獻(xiàn)[5-10]中先后研究了logistic模型確定參數(shù)的方法。文章先將logistic微分方程按照3種差分格式變成其對(duì)應(yīng)差分方程,再通過二元線性回歸分析確定參數(shù)和。
Logistic模型:
對(duì)應(yīng)的差分方程為:
其中。不難看出,是關(guān)于和的二元線性關(guān)系。應(yīng)用Excel或者M(jìn)atlab進(jìn)行回歸分析,即可得出回歸系數(shù)和,從而得到參數(shù)K和。但是差分分為向前差分、向后差分、中心差分3種。所以,基于logistic模型的微博輿情熱度預(yù)測模型可以分為3種情況。
(1)向后差分情況。向后差分的格式為,其中。
(2)向前差分情況。向前差分的格式為
,其中。
(3)中心差分情況中心差分的格式為
,其中。
(4)3種情況的對(duì)比分析。
通過3種差分的公式不難發(fā)現(xiàn),向前差分和中心差分只能預(yù)測期,而向后差分能夠預(yù)測期。所以在微博輿情高潮來臨前比較適合使用向后差分預(yù)測輿情趨勢,而經(jīng)過高潮值之后,應(yīng)該綜合使用3種差分格式。
4 實(shí)證分析
4.1 數(shù)據(jù)來源
通過新浪微博數(shù)據(jù)中心的微指數(shù)功能統(tǒng)計(jì)2個(gè)星期(2016年12月31日至2017年1月13日)的熱詞“霧霾”涉及的新浪微博數(shù)據(jù)(按天進(jìn)行統(tǒng)計(jì)),詳細(xì)數(shù)據(jù)見圖2(數(shù)據(jù)網(wǎng)址:http://data.weibo.com/index/hotword?wid=293178324457063&wname=霧霾)。
4.2 微博輿情靜態(tài)預(yù)測
分別應(yīng)用向前差分、向后差分、中心差分替代統(tǒng)計(jì)數(shù)據(jù),應(yīng)用logistic模型開展差分回歸預(yù)測,得到3種差分對(duì)應(yīng)的預(yù)測模型為:
向后差分情況:
向前差分情況:
中心差分情況:
預(yù)測精度(可決系數(shù))分別為0.9742、0.9152、0.9695,預(yù)測曲線和原始數(shù)據(jù)曲線對(duì)比見圖3。容易看出,向前差分更接近于原始曲線,中心差分預(yù)測曲線介于向后差分和向前差分之間。
4.3 微博輿情動(dòng)態(tài)預(yù)測
在已知前4天的數(shù)據(jù)基礎(chǔ)上,以此加入新數(shù)據(jù),推斷微博輿情傳播曲線。
(1)向后差分情況(見圖4)。
(2)向前差分情況(見圖5)。
(3)中心差分情況(見圖6)。
通過上述3種差分情況分析,可以看出向后差分和向前差分預(yù)測相對(duì)滯后,且吻合度較差,而中心差分則能夠以較高吻合度進(jìn)行動(dòng)態(tài)預(yù)測,是微博輿情發(fā)展趨勢預(yù)測中更具適用性的預(yù)測模型,能夠較好地實(shí)現(xiàn)微博輿情熱度預(yù)測的研究目標(biāo)。
5 結(jié)語
隨著大數(shù)據(jù)時(shí)代的到來,網(wǎng)絡(luò)輿情在數(shù)據(jù)體量、復(fù)雜性和產(chǎn)生速度等方面發(fā)生巨大變化。網(wǎng)絡(luò)輿論引導(dǎo)方法已超出了現(xiàn)常用的框架。習(xí)近平總書記在全國宣傳思想工作會(huì)議上提出,宣傳思想工作創(chuàng)新,重點(diǎn)要抓好理念創(chuàng)新、手段創(chuàng)新。網(wǎng)絡(luò)輿情是網(wǎng)絡(luò)輿論引導(dǎo)工作的基礎(chǔ)和晴雨表,以大數(shù)據(jù)觀念變革傳統(tǒng)網(wǎng)絡(luò)輿論引導(dǎo)思維,準(zhǔn)確把握網(wǎng)絡(luò)輿情的內(nèi)在特征及其在演化過程中的潛在規(guī)律,對(duì)于新形勢下做好網(wǎng)絡(luò)輿論引導(dǎo)工作,維護(hù)網(wǎng)絡(luò)社會(huì)安全,具有重要的理論意義和實(shí)踐價(jià)值。
文章基于logistic模型,研究了3種差分格式的微博輿情預(yù)測模型,并通過具體的微博輿情案例開展了實(shí)證研究,但仍有很多問題需要深入研究。例如,人民網(wǎng)針對(duì)輿情預(yù)警提出“黃金4小時(shí)”的概念,所以開展輿情預(yù)測的原始數(shù)據(jù)需要按小時(shí)進(jìn)行統(tǒng)計(jì)和建模,才能提前感知風(fēng)險(xiǎn),做到主動(dòng)預(yù)測預(yù)警預(yù)防。
參考文獻(xiàn)
[1] 王長寧,陳維勤,許浩.對(duì)微博輿情熱度監(jiān)測及預(yù)警的指標(biāo)體系的研究[J].計(jì)算機(jī)與現(xiàn)代化,2013(1):126-129.
[2] 孫飛顯,程世輝,靳曉婷,等.政府負(fù)面網(wǎng)絡(luò)輿情熱度定量評(píng)價(jià)方法——以新浪微博為例[J].情報(bào)雜志,2015(8):137-141.
[3] 王新猛.基于馬爾可夫鏈的政府負(fù)面網(wǎng)絡(luò)輿情熱度趨勢分析——以新浪微博為例[J].情報(bào)雜志,2015(7):161-164.
[4] 徐旖旎.基于微博的媒體奇觀網(wǎng)絡(luò)輿情熱度趨勢分析[J].情報(bào)科學(xué),2017(2):92-97.
[5] 袁志發(fā),劉光祖,肖俊璋.0.618法在兩種常用生長曲線擬合中的應(yīng)用[J].西北農(nóng)學(xué)院學(xué)報(bào),1984(3):59-63.
[6] 孫耀東,王太源,陶俊.S型曲線的掃描回歸方法[J].揚(yáng)州大學(xué)學(xué)報(bào):自然科學(xué)版,1999(8):10-12.
[7] 殷祚云.Logistic曲線擬合方法研究[J].數(shù)理統(tǒng)計(jì)與管理,2002(1):41-46.
[8] 朱珉仁.Gompertz模型和Logistic模型的擬合[J].數(shù)學(xué)的實(shí)踐與認(rèn)識(shí),2002(9):705-709.
[9] 代濤,徐學(xué)軍,黃顯峰.離散Logistic人口增長預(yù)測模型研究[J].三峽大學(xué)學(xué)報(bào):自然科學(xué)版,2010(10):102-105.
[10] 魏冠軍,黨亞民.基于Bayes理論的Logistic增長曲線模型參數(shù)估計(jì)方法研究[J].工程勘察,2012(5):64-67.