曹春萍,李 麗
(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)
在信息爆炸的時(shí)代,社交網(wǎng)絡(luò)成為信息傳播的主要渠道,微博因其具有便捷性、互動(dòng)性和快速性等特點(diǎn),吸引了眾多網(wǎng)民的參與微博在容納公眾觀點(diǎn)的同時(shí),也激發(fā)了公眾傳播信息的欲望,但同時(shí)容易造成一系列負(fù)面情緒的傳播,形成社會(huì)不穩(wěn)定情緒的蔓延,危及著社會(huì)的安全與穩(wěn)定.因此,如何建立微博網(wǎng)絡(luò)的信息傳播模型,成為非常值得關(guān)注的問題.
基于微博的信息傳播模型主要有兩類:一類是影響力傳播模型[1],另一類是傳染病傳播模型[2].影響力傳播模型認(rèn)為網(wǎng)絡(luò)中的節(jié)點(diǎn)只存在激活和非激活兩種狀態(tài),這不能夠完整地體現(xiàn)出微博網(wǎng)絡(luò)中用戶的狀態(tài);在傳染病模型中,SI模型(Susceptible-Infected model)和SIS模型(Susceptible-Infected-Susceptible model)將網(wǎng)絡(luò)節(jié)點(diǎn)分為未知情者(Susceptible)和傳播者(Infected)兩種狀態(tài),SI模型假設(shè)傳播者始終處于傳播狀態(tài),SIS 模型認(rèn)為傳播者可以重新轉(zhuǎn)變?yōu)槲粗闋顟B(tài).相較于SI模型和SIS模型,SIR模型[3](Susceptible-Infected-Recovered model)引入免疫者(Recovered)狀態(tài),認(rèn)為信息傳播過程中傳播者最終轉(zhuǎn)變?yōu)槊庖郀顟B(tài),這更加符合社交網(wǎng)絡(luò)傳播規(guī)律.因此,本文采用傳染病SIR模型研究微博網(wǎng)絡(luò)信息的傳播.
經(jīng)典SIR傳播模型是基于微博網(wǎng)絡(luò)結(jié)構(gòu)并且根據(jù)傳播規(guī)則而得到信息的傳播過程.在SIR傳播模型中,使用G=(V,E)表示微博網(wǎng)絡(luò),其中V={V1,V2,…,Vn}是微博用戶的集合,邊(u,v)∈E表示用戶u和v的關(guān)注關(guān)系,并且通過3類節(jié)點(diǎn)來表示微博網(wǎng)絡(luò)中不同類型的用戶:1)未知情者(Susceptible,S)為沒有接受過消息的節(jié)點(diǎn),表示不知道消息的用戶;2)傳播者(Infected,I)為消息傳播節(jié)點(diǎn),表示知道消息并且具有傳播能力的用戶;3)免疫者(Recovered,R)為接受消息但不再傳播的節(jié)點(diǎn),對(duì)應(yīng)知道消息但已失去傳播能力的用戶.假設(shè)社交網(wǎng)絡(luò)有M個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)就代表一個(gè)可以傳播信息的用戶,S(t)、I(t)和R(t)分別代表t時(shí)刻內(nèi)未知情者、傳播者和免疫者的數(shù)量,即S(t)+I(t)+R(t)=M.因此在SIR傳播模型中,假設(shè)初始t0時(shí)刻,未知情者、傳播者和免疫者的數(shù)量分別為S(0)、I(0)和R(0),隨后在t時(shí)刻內(nèi),未知情者S通過接觸傳播者I后以固定的概率α成為傳播者I,傳播者I在傳播信息后以固定的概率β轉(zhuǎn)變?yōu)槊庖哒逺,直至S(t)、I(t)和R(t)數(shù)量不再變化,最后結(jié)束整個(gè)傳播過程.根據(jù)上述傳播規(guī)則,構(gòu)建SIR傳播模型如式(1)所示:
(1)
SIR傳播模型節(jié)點(diǎn)之間傳播信息的過程如圖1所示.
圖1 SIR模型節(jié)點(diǎn)狀態(tài)變化
微博網(wǎng)絡(luò)中復(fù)雜的因素影響著信息傳播,不僅包括社會(huì)加強(qiáng)效應(yīng)、興趣衰減效應(yīng)和遺忘機(jī)制等社會(huì)因素,同時(shí)還有用戶間親密度、用戶影響力等個(gè)體因素,考慮到簡(jiǎn)單的SIR模型不能完整地體現(xiàn)出微博網(wǎng)絡(luò)中信息傳播過程和微博用戶的各種狀態(tài),因此眾多學(xué)者考慮不同的傳播影響因素,在SIR模型的基礎(chǔ)上建立符合微博網(wǎng)絡(luò)的信息傳播模型[4].
Zhao等人[5]考慮節(jié)點(diǎn)度和社交網(wǎng)絡(luò)傳播規(guī)律,提出了一種基于SEIR的社交網(wǎng)絡(luò)輿情傳播模型.王超等人[6]認(rèn)為用戶由于接受到各式各樣的信息導(dǎo)致對(duì)某些信息遺忘和失去興趣,因此將遺忘機(jī)制引入SIR模型之中.Ma等人[7]在傳SIR模型的基礎(chǔ)上,通過增加正向和負(fù)向的“雙向社會(huì)加強(qiáng)效應(yīng)”的影響改進(jìn)其中的傳染率,動(dòng)態(tài)的研究了處于不同條件下的未知者對(duì)于輿論傳播的影響.Sun等人[8]結(jié)合用戶和行為因素,建立了新的社交網(wǎng)絡(luò)輿情傳播模型.張永等人[9]通過定義3個(gè)概率函數(shù),并且設(shè)置部分微博用戶為假免疫狀態(tài),得到了更加符合社交網(wǎng)絡(luò)信息傳播特點(diǎn)的SDIR模型.這些研究考慮用戶屬性及社交效應(yīng)影響來構(gòu)建信息傳播模型,但卻忽略了情感在社交網(wǎng)絡(luò)中上的傳播分析.情感作為信息的另一種表達(dá),往往是與實(shí)體信息相關(guān)聯(lián)的,同樣隨著時(shí)間的推移發(fā)生演化,把握信息情感傾向?qū)刂戚浨槠鹬匾饔?現(xiàn)有的一些研究中,如Zhao等人[10]使用SIR模型對(duì)情感傳播進(jìn)行建模;Wang等人[11]引入了某一情緒在用戶中轉(zhuǎn)發(fā)比例作為傳播概率的權(quán)重,建立了ESIS模型,利用人工網(wǎng)絡(luò)和社交網(wǎng)絡(luò)模擬了信息傳播的過程.徐沛東等人[12]基于SIR輿情傳播模型并且結(jié)合情感網(wǎng)絡(luò)圖論,提出了情感網(wǎng)絡(luò)傳播模型.但是這些對(duì)于節(jié)點(diǎn)間情感演化的研究均未考慮到社交網(wǎng)絡(luò)節(jié)點(diǎn)之間的差異性,因而與實(shí)際的信息情感傳播過程存在較大偏差.
針對(duì)上述問題,本文在SIR信息傳播模型的基礎(chǔ)上,將微博用戶劃分為未知情狀態(tài)、負(fù)面情緒傳播狀態(tài)、正面情緒傳播狀態(tài)和免疫狀態(tài)這4種狀態(tài),基于未知情用戶鄰居節(jié)點(diǎn)中不同影響力的負(fù)面情緒傳播用戶、正面情緒傳播用戶和當(dāng)前輿情信息流行度的權(quán)重影響,重現(xiàn)定義未知情用戶的傳播概率;再根據(jù)傳播用戶的影響力和傳播時(shí)間,重新定義傳播用戶的遺忘概率,從而建立了SNPR(Susceptible-Negative-Positive-Recovered)情感傳播模型,模型中用戶傳播概率和遺忘概率的非一致性體現(xiàn)了社交網(wǎng)絡(luò)節(jié)點(diǎn)之間的差異性,更好地描述了信息情感在微博網(wǎng)絡(luò)中的傳播過程.
本文的結(jié)構(gòu)安排如下,第2節(jié)介紹了近幾年研究人員所提出信息傳播模型的優(yōu)缺點(diǎn),并結(jié)合用戶屬性以及遺忘機(jī)制提出SNPR情感傳播模型;第3節(jié)詳細(xì)介紹了提出的SNPR情感傳播 模型;第4節(jié)進(jìn)行實(shí)驗(yàn),對(duì)研究結(jié)果進(jìn)行分析;第5節(jié)總結(jié)了本文的主要工作和不足之處.
為研究信息情感在微博上的演化過程,本文在微博信息傳播特征以及網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ)上,建立SNPR情感傳播模型,分析微博用戶在多種影響因素作用下參與信息討論和表達(dá)情緒的概率.
該模型過程如下:
1)依據(jù)微博用戶之間的關(guān)注關(guān)系構(gòu)建微博網(wǎng)絡(luò),定義用戶狀態(tài).
2)依據(jù)信息傳播機(jī)制定義傳播規(guī)則.
3)結(jié)合傳播規(guī)則和微博網(wǎng)絡(luò),改進(jìn)傳播概率和遺忘概率進(jìn)行信息情感傳播.
4)整個(gè)傳播過程持續(xù)至微博網(wǎng)絡(luò)用戶狀態(tài)不再變化.
微博網(wǎng)絡(luò)是由“關(guān)注者”和“被關(guān)注者”以及他們之間關(guān)系構(gòu)成的,如果將每一個(gè)微博用戶視作節(jié)點(diǎn),則網(wǎng)絡(luò)中的邊表示用戶之間的關(guān)注關(guān)系.本文使用G=(V,E)表示微博網(wǎng)絡(luò),其中V={V1,V2,…,Vn}是微博用戶的集合,邊(u,v)∈E表示微博用戶u和v的關(guān)注關(guān)系,依據(jù)關(guān)注關(guān)系建立鄰接矩陣,如式(2)所示.
(2)
其中矩陣元素滿足:
(3)
本文把微博用戶劃分為4種狀態(tài),分別為:未知情狀態(tài)用戶(Susceptible,S),指不知道輿情信息的用戶;負(fù)面情緒傳播狀態(tài)用戶(Negative,N),指在微博上發(fā)布辱罵、恐怖等具有負(fù)面傾向信息的用戶;正面情緒傳播狀態(tài)用戶(Positive,P),指在微博上發(fā)布中性或積極傾向信息的用戶;免疫狀態(tài)用戶(Recovered,R),R是指發(fā)布輿情信息后不再具有傳播能力的用戶.
在微博網(wǎng)絡(luò)的信息傳播中,如果某一用戶沒有接觸過相關(guān)輿情信息,那么受到鄰居節(jié)點(diǎn)發(fā)表言論以及當(dāng)前輿情信息受關(guān)注程度的影響,該用戶就有可能變?yōu)閭鞑バ畔⒌娜?,其中信息情感可能是?fù)面,可能是正面,這種概率往往與未知情用戶鄰居節(jié)點(diǎn)中傳播用戶的個(gè)體影響力、傳播者發(fā)布言論的情感以及輿情流行度是有直接關(guān)系的.此外,如果某一用戶發(fā)布言論后,基于用戶影響力和遺忘機(jī)制,該用戶能否繼續(xù)維持負(fù)面情緒傳播狀態(tài)或者正面情緒傳播狀態(tài)的概率也因人而異.本文定義如下傳播規(guī)則:
a)未知情用戶S受到鄰居節(jié)點(diǎn)中負(fù)面情緒傳播狀態(tài)用戶N和輿情信息流行度的影響,未知情S將以α1的概率轉(zhuǎn)換成負(fù)面情緒傳播狀態(tài)用戶N;
b)未知情用戶S受到鄰居節(jié)點(diǎn)中正面情緒傳播狀態(tài)用戶P和輿情信息流行度的影響,未知情S將以α2的概率轉(zhuǎn)換成正面情緒傳播狀態(tài)用戶P;
c)傳播用戶在海量的信息轟炸下,可能會(huì)遺忘或?qū)υ撦浨樾畔⑹ヅd趣,因此,本文假定微博用戶在對(duì)輿情信息傳播一段時(shí)間后,由于遺忘效應(yīng)及興趣衰減效應(yīng),負(fù)面情緒傳播狀態(tài)用戶和正面情緒傳播狀態(tài)用戶將轉(zhuǎn)換為免疫狀態(tài),即負(fù)面情緒傳播狀態(tài)用戶和正面情緒傳播狀態(tài)用戶將以遺忘概率β轉(zhuǎn)換為免疫狀態(tài)用戶R.根據(jù)上述規(guī)則,傳播過程如圖 2所示.
圖2 SNPR傳播模型節(jié)點(diǎn)狀態(tài)變化
SNPR情感傳播模型中存在兩個(gè)重要概率,即傳播概率和遺忘概率,傳播概率大于傳播概率閾值λa時(shí),未知情狀態(tài)用戶S將會(huì)轉(zhuǎn)換為負(fù)面情緒傳播狀態(tài)用戶N或者正面情緒傳播狀態(tài)用戶P,當(dāng)遺忘概率大于遺忘概率閾值λb時(shí),傳播用戶N或者P轉(zhuǎn)化為免疫狀態(tài)用戶R.下文將說明如何計(jì)算傳播概率和遺忘概率.
3.3.1 傳播概率
考慮到微博輿情的熱度和微博網(wǎng)絡(luò)的社交性,未知情用戶受到鄰居節(jié)點(diǎn)與權(quán)威用戶的影響,然后以一定的概率成為負(fù)面情緒傳播狀態(tài)N或者是正面情緒傳播狀態(tài)用戶P.然而不同的傳播者因?yàn)橛绊懥Σ煌?,所以發(fā)表的言論往往對(duì)未知情的用戶產(chǎn)生不同的作用[13].因此,本文在基礎(chǔ)傳播概率的基礎(chǔ)上,考慮傳播用戶影響力、信息情感值以及輿情流行度3個(gè)影響因素,將鄰居傳播節(jié)點(diǎn)的影響力和發(fā)表言論的情感相結(jié)合作為傳播用戶情感影響力,綜合傳播用戶情感影響力和輿情流行度作為傳播概率的權(quán)重,重新定義未知情用戶的傳播概率.
用戶影響力In(i):本文中采用PageRank算法[14]計(jì)算微博用戶的影響力.PageRank 算法基于網(wǎng)頁間相互關(guān)聯(lián)的復(fù)雜程度來實(shí)現(xiàn)網(wǎng)頁重要性的排序.在微博中,微博用戶可以認(rèn)為是網(wǎng)頁中的鏈接,其關(guān)注的用戶類似網(wǎng)頁被鏈接.PageRank算法計(jì)算過程如下:首先為所有用戶設(shè)置相同的影響力值,即In(i)=1;然后按照每個(gè)用戶關(guān)注的人數(shù)將影響力值平均分配;最終依據(jù)式(4)重新計(jì)算用戶新的影響力值In(i).為避免指標(biāo)之間的量綱影響,需對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,記微博用戶所擁有粉絲數(shù)為Fans(i),根據(jù)式(5)對(duì)In(i)重新計(jì)算,主要算法如圖3所示.
(4)
(5)
其中d為0~1之間的一個(gè)阻尼系數(shù),實(shí)驗(yàn)驗(yàn)證d取值為0.85,算法效果是最好的.Follower(i)是用戶粉絲信息集合,F(xiàn)ollowee(i)是用戶關(guān)注者數(shù)量.
圖3 計(jì)算用戶影響力
用戶情感狀態(tài)emotion(i):微博用戶發(fā)布相關(guān)言論,文本信息就會(huì)產(chǎn)生相應(yīng)情感,因而需要對(duì)文本信息進(jìn)行處理.本文基于情感詞典對(duì)微博內(nèi)容計(jì)算情感分值[15].一條微博中往往由多個(gè)詞組成,首先檢測(cè)情感詞、程度副詞和否定詞否定詞,再對(duì)比情感詞典、程度副詞詞典和否定詞詞典,最后計(jì)算出微博文本的情感值.在該算法中,每條微博用Item1、Item2、…、Itemn表示,首先對(duì)文本內(nèi)容分句和分詞,得到以下集合:
Itemi=[[Word11,…,Word1n1],…,[Wordk1,…,Wordknk]]
其中k為Itemi分句后的總句數(shù),nk為每一句的分詞個(gè)數(shù);接著遍歷分詞后的語句,對(duì)比詞典,找出情感詞前相應(yīng)的程度副詞和否定詞,計(jì)算出每個(gè)情感詞的權(quán)值集合{w1,w2,…,wn},其中n為情感詞的個(gè)數(shù);最后對(duì)比情感詞典,得到每個(gè)情感詞的分值{e1,e2,…,en},根據(jù)式(6)計(jì)算出每一條微博的情感值Ei,主要算法如圖4所示.
本文最終依據(jù)式(7)得到微博用戶情感狀態(tài)emotion(i),1代表正面情感用戶,-1代表負(fù)面情感用戶,0表示用戶未發(fā)布任何信息.
(6)
(7)
算法:計(jì)算博文信息情感值
圖4 計(jì)算信息情感值
輿情信息流行度Popularity(t):即當(dāng)前用戶對(duì)該輿情事件的重視程度.參與輿情信息傳播的用戶越多,說明輿情越受歡迎,未知情用戶進(jìn)行輿情傳播的概率也會(huì)增大.越受到用戶關(guān)注.避免輿情參與人數(shù)數(shù)量過多,本文依據(jù)式(8)對(duì)輿情參與人數(shù)Peo(t)進(jìn)行處理,其中Peo(t)表示t時(shí)刻參與輿情討論的人數(shù),用P(t)+N(t)+R(t)表示.
(8)
本文采用信息熵加權(quán)法來規(guī)避傳統(tǒng)加權(quán)方法的缺陷[16].信息熵加權(quán)法的計(jì)算過程如式(9)-式(10)所示.首先根據(jù)式(9)計(jì)算每個(gè)屬性的熵值,接著依據(jù)式(10)分別計(jì)算影響因素的權(quán)重,使用 ωi來表示.
(9)
(10)
其中,Hi代表第i個(gè)屬性的熵,rij代表第j個(gè)節(jié)點(diǎn)的第i個(gè)屬性的值.因?yàn)楸痉椒ㄓ杏脩粲绊懥傩院洼浨樾畔⒘餍卸刃?,所?i 取值為 1 和 2,因此ω1是用戶影響力屬性的權(quán)重,ω2是信息流行度的權(quán)重.
根據(jù)PageRank算法和情感分析算法得到傳播用戶情感影響力,再結(jié)合輿情信息流行度,分別作為未知情用戶轉(zhuǎn)換為N和P概率的權(quán)重,因此未知情S轉(zhuǎn)換為N和P的概率分別如式(11)和式(12)所示,其中Spreader(i)為微博用戶i關(guān)注人中是傳播用戶的集合.
(11)
(12)
3.3.2 遺忘概率
當(dāng)N和P用戶參與輿情信息傳播具有傳播能力,由于遺忘機(jī)制及興趣衰減效應(yīng)[17],用戶逐漸不再具有傳播作用,進(jìn)而轉(zhuǎn)換為免疫用戶.因此本文根據(jù)Ebbinghaus遺忘曲線,采用指數(shù)形式的遺忘函數(shù)作為傳播者轉(zhuǎn)換為免疫者的遺忘概率,具體如下:
(13)
3.3.3 SNPR模型動(dòng)力學(xué)方程
根據(jù)上述改進(jìn)后的SIR模型以及傳播概率、遺忘概率,將SNPR模型構(gòu)建如式(14)所示.
(14)
其中,S(t)、P(t)、N(t)和R(t)分別代表用戶在未知情狀態(tài)、負(fù)面情緒傳播狀態(tài)、正面情緒傳播狀態(tài)和免疫狀態(tài)下t時(shí)刻的數(shù)量,α1(i)、α2(i)和δi(t)分別表示未知情用戶轉(zhuǎn)換為負(fù)面情緒傳播用戶的概率、未知情用戶成為為正面情緒傳播用戶的概率、傳播用戶成為免疫用戶的概率.假設(shè)微博網(wǎng)絡(luò)中的全部用戶數(shù)量為M,那么在任意時(shí)刻,S(t)+P(t)+N(t)+R(t)=M.
根據(jù)上述社交網(wǎng)絡(luò)信息情感傳播的基本特征,使用Python運(yùn)行環(huán)境,基于新浪微博網(wǎng)絡(luò)對(duì)SNPR情感傳播模型進(jìn)行了仿真實(shí)驗(yàn).首先利用微博網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn)首先探討模型參數(shù)對(duì)模型準(zhǔn)確率的影響,在微博網(wǎng)絡(luò)中,模型目標(biāo)是預(yù)測(cè)輿情發(fā)展趨勢(shì)(即參與輿情的用戶數(shù)).其次,為驗(yàn)證模型各個(gè)模塊對(duì)信息情感傳播過程的影響,本文從以情感與實(shí)體信息間的關(guān)聯(lián)性以及社交網(wǎng)絡(luò)節(jié)點(diǎn)間的差異性兩個(gè)方面設(shè)置消去實(shí)驗(yàn)驗(yàn)證本文所提模型的有效性.最后通過本文提出的模型模擬輿情情感演化趨勢(shì),并且與ESIS和EIC模型[18]進(jìn)行比較,驗(yàn)證本模型的準(zhǔn)確性和精確性.
新浪微博實(shí)驗(yàn)數(shù)據(jù)集來源于傳播數(shù)據(jù)挖掘競(jìng)賽中的“昆山反殺案”,在此案件中,事件當(dāng)事人劉海龍因交通事故與行人于海明產(chǎn)生爭(zhēng)論,之后劉海龍用砍刀攻擊于海明時(shí)脫手,被于海明反擊砍殺致死,事件發(fā)生后,引起了大眾的熱議.首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理和清洗,經(jīng)過數(shù)據(jù)清洗后,有效數(shù)據(jù)為308055條博文記錄,共252273名微博用戶,最后利用了微博平臺(tái)的API來獲取這些用戶之間的關(guān)注關(guān)系,生成微博網(wǎng)絡(luò).
實(shí)驗(yàn)第1步是根據(jù)情感分析算法將用戶發(fā)布的博文內(nèi)容轉(zhuǎn)化為用戶對(duì)此輿情事件的情感值,其中1表示用戶發(fā)布的內(nèi)容是中性或積極的,-1表示用戶發(fā)表的內(nèi)容是具有負(fù)面傾向的.第2步根據(jù)微博用戶之間的關(guān)注關(guān)系,構(gòu)建有向圖G,即根據(jù)關(guān)注關(guān)系構(gòu)建鄰接矩陣.第3步依據(jù)PageRank算法計(jì)算每個(gè)微博用戶的影響力值.第4步選取輿情事件發(fā)生5小時(shí)內(nèi)用戶數(shù)量以及用戶對(duì)應(yīng)的情感狀態(tài)作為模型初始數(shù)據(jù),并根據(jù)式(14)進(jìn)行傳播模擬演化.
為了驗(yàn)證實(shí)驗(yàn)?zāi)P驮谖⒉┬畔⑶楦醒莼男Ч?,本文設(shè)置了多個(gè)對(duì)比實(shí)驗(yàn),從多個(gè)角度驗(yàn)證模型的有效性.
1)使用不同實(shí)驗(yàn)參數(shù)進(jìn)行對(duì)比
實(shí)驗(yàn)過程中設(shè)置α=0.5,同時(shí)存在兩個(gè)實(shí)驗(yàn)參數(shù):傳播概率閾值λa和遺忘概率閾值λb.傳播概率閾值λa表示未知情用戶傳播概率α1(i)或者α2(i)大于λa,即未知情S轉(zhuǎn)變?yōu)樨?fù)面情緒N或者正面情緒P,遺忘概率閾值λb表示微博用戶遺忘概率大于λb,即傳播用戶狀態(tài)用戶N或者P轉(zhuǎn)化為免疫狀態(tài)用戶R.本實(shí)驗(yàn)采用控制參數(shù)法,首先固定其中一個(gè)參數(shù),再調(diào)試另外一個(gè)參數(shù),設(shè)置λa在區(qū)間[0.01,0.03]之間,設(shè)置λb在區(qū)間[0.2,0.3]之間,最后計(jì)算模型的準(zhǔn)確率Accuracy,如公式(15)所示.
(15)
同時(shí),為了減小實(shí)驗(yàn)誤差,本文將每次實(shí)驗(yàn)重復(fù)實(shí)現(xiàn)50次,并將50次計(jì)算得到的準(zhǔn)確率求和取平均,得到圖5 所示結(jié)果.其中,選取不同λa值和λb值,對(duì)比實(shí)驗(yàn)結(jié)果如圖6(a-d)所示.
圖5 傳播概率閾值、遺忘概率閾值和準(zhǔn)確率的關(guān)系圖
從圖5中可知,當(dāng)λa為0.02,λb為0.25時(shí),SNPR模型達(dá)到最高的準(zhǔn)確率91.5%,即該參數(shù)下的模型性能是最佳的.圖6展示了不同實(shí)驗(yàn)參數(shù)下本模型與真實(shí)數(shù)據(jù)擬合結(jié)果,當(dāng)傳播概率閾值增大時(shí),傳播用戶人數(shù)減少,進(jìn)而導(dǎo)致傳播趨勢(shì)與真實(shí)數(shù)據(jù)相比,有明顯下降;當(dāng)遺忘概率閾值增大時(shí),傳播用戶起到傳播作用的時(shí)間更久,因而導(dǎo)致模型傳播趨勢(shì)比真實(shí)數(shù)據(jù)更快,早于真實(shí)數(shù)據(jù)到達(dá)峰值,模型曲線與真實(shí)結(jié)果相差增大.
圖6 不同參數(shù)實(shí)驗(yàn)結(jié)果圖
2)驗(yàn)證不同模塊對(duì)模型的影響
社交網(wǎng)絡(luò)中不同影響力節(jié)點(diǎn)的不同情緒對(duì)信息傳播產(chǎn)生不同的作用,為研究情感與實(shí)體信息間的關(guān)聯(lián)以及微博用戶影響力對(duì)信息情感傳播過程的影響,本文從以情感與實(shí)體信息間的關(guān)聯(lián)性以及社交網(wǎng)絡(luò)節(jié)點(diǎn)間的差異性兩個(gè)方面設(shè)置消去實(shí)驗(yàn)驗(yàn)證本文所提模型的有效性.
(1)情感與實(shí)體信息間的關(guān)聯(lián)性
為驗(yàn)證實(shí)體信息情感對(duì)信息情感傳播的影響,計(jì)算傳播概率α(i)不考慮用戶情感狀態(tài),僅考慮用戶影響力,實(shí)驗(yàn)設(shè)置S以α(i)的概率轉(zhuǎn)變?yōu)閭鞑ビ脩鬒,傳播用戶I以δi(t)的概率轉(zhuǎn)變?yōu)镽.實(shí)驗(yàn)結(jié)果與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比,如圖7所示.
(2)社交網(wǎng)絡(luò)節(jié)點(diǎn)間的差異性
為驗(yàn)證微博用戶自身影響力對(duì)輿情信息情感演化的作用,傳播概率α1(i)和α2(i)計(jì)算時(shí)不考慮用戶自身影響力,僅考慮用戶情感狀態(tài),實(shí)驗(yàn)設(shè)置未知用情狀態(tài)用戶S以概率α1(i)和α2(i)轉(zhuǎn)換為N或者P,傳播狀態(tài)用戶N或者P以固定的概率λb轉(zhuǎn)換為R.實(shí)驗(yàn)結(jié)果與真實(shí)數(shù)據(jù)進(jìn)行對(duì)比,如圖8所示.
從圖7和圖8可以看出,實(shí)驗(yàn)過程中不考慮情感與實(shí)體信息間的關(guān)聯(lián),無法依據(jù)文本情感體現(xiàn)輿情信息情感的演化趨勢(shì),模型實(shí)驗(yàn)擬合效果在精準(zhǔn)性上有了一定的降低;實(shí)驗(yàn)過程中不考慮社交網(wǎng)絡(luò)節(jié)點(diǎn)間的差異性,模型為理想狀態(tài)下的傳播模型,負(fù)面和正面情緒傳播用戶在初始階段用戶數(shù)量大,增長(zhǎng)趨勢(shì)相較于真實(shí)數(shù)據(jù)更快,與真實(shí)數(shù)據(jù)差異較大.由圖7和圖8可以看出,融合信息情感和社交網(wǎng)絡(luò)節(jié)點(diǎn)影響力這兩個(gè)特征的模型精準(zhǔn)性有了一定的提高,從而使情感演化趨勢(shì)擬合效果更優(yōu).
圖7 消除信息情感實(shí)驗(yàn)結(jié)果對(duì)比
圖8 消除用戶差異性實(shí)驗(yàn)結(jié)果對(duì)比
3)本文模型與其他模型的對(duì)比
為客觀的衡量模型性能,選取ESIS模型、EIC模型與SNPR模型進(jìn)行對(duì)比實(shí)驗(yàn).由于這些模型有不同的基礎(chǔ)條件,因此需要將它們調(diào)整到相同的基準(zhǔn):
(1)ESIS模型將情感分類為細(xì)粒度的類,將某一情緒在用戶中的轉(zhuǎn)發(fā)比例作為權(quán)重.在此基礎(chǔ)上,我們將情感在ESIS模型分為兩種類型,其中無情感和快樂被認(rèn)為是正面的,憤怒、悲傷、恐懼和厭惡都被認(rèn)為是負(fù)面的.
(2)EIC模型中,邊的權(quán)值表示用戶之間的影響程度,其中情感值中立和積極認(rèn)為是正面的,消極認(rèn)為是負(fù)面的.
模型參數(shù)分別設(shè)置為α=0.5,λa=0.2,λb=0.25,本文所提出的模型與ESIS、EIC模型及實(shí)際負(fù)面情緒和正面情緒演化的擬合實(shí)驗(yàn)結(jié)果如圖9和圖10所示.
圖9 負(fù)面情緒演化結(jié)果
圖10 正面情緒演化結(jié)果
從圖9和圖10可以看出,“昆山反殺案”事件在初始階段的負(fù)面情緒用戶和正面情緒用戶緩慢增長(zhǎng),隨著該事件受到關(guān)注后,傳播趨勢(shì)增長(zhǎng)開始加快,但是初始階段負(fù)面情緒用戶數(shù)量少于正面情緒用戶數(shù)量,因此輿情事件整體以正面情緒傳播為主導(dǎo),隨著時(shí)間的不斷增長(zhǎng),正面情緒傳播和負(fù)面情緒傳播趨勢(shì)以較為緩慢的速度逐漸下降,說明微博用戶逐漸對(duì)該輿情事件失去興趣,慢慢對(duì)其他未知情者不起傳播作用.本文所提模型較好地模擬了輿情事件的情感演化趨勢(shì),ESIS和EIC模型初始階段與和真實(shí)數(shù)據(jù)雖具有一致的發(fā)展趨勢(shì),但EIC模型傳播趨勢(shì)高于實(shí)際數(shù)據(jù),ESIS模型傳播趨勢(shì)明顯低于實(shí)際數(shù)據(jù),后期與真實(shí)數(shù)據(jù)的差距越來越大.
此外,為客觀衡量模型的準(zhǔn)確性,選擇均方根誤差(RMSE)、平均絕對(duì)百分誤差(SSE)和決定系數(shù)(R2)作為評(píng)價(jià)指標(biāo),計(jì)算公式分別如式(16)-式(18)所示.當(dāng)RMSE和SSE越小時(shí),表明模型擬合數(shù)據(jù)與真實(shí)數(shù)據(jù)的誤差越小,模型精確性越高,同樣的R2值越接近于1,表示偏離真實(shí)值的程度越小,精度越高,模型也越有效.
(16)
(17)
(18)
其中,T是整個(gè)傳播過程所需總時(shí)間,〈y〉是變量y的平均值,yo(t)是t時(shí)刻y的真實(shí)值,yp(t)是t時(shí)刻變量y的預(yù)測(cè)值.
根據(jù)公式(16)-式(18),分別計(jì)算不同模型的RMSE、SSE和R2,如表1和表2所示.
表1 負(fù)面情緒演化不同模型比較
表2 正面情緒演化不同模型比較
本文所提出的模型相較于EIC和ESIS模型,與微博網(wǎng)絡(luò)中的情感演化趨勢(shì)更為擬合.相較于ESIS和EIC模型并未考慮遺忘機(jī)制和用戶情感傳播影響力對(duì)微博信息情感傳播的作用,本模型綜合考慮了微博信息情感演化的影響因素,使得模型準(zhǔn)確率和精確度均有相應(yīng)提高,驗(yàn)證了本文模型在微博信息情感演化具有較好效果
針對(duì)微博信息傳播中情感演化的問題,本文基于信息傳播機(jī)制,綜合考慮信息傳播的多個(gè)影響因素,在已有的SIR 信息傳播模型進(jìn)行改進(jìn),融合情感影響力和遺忘機(jī)制建立SNPR情感傳播模型,說明信息情感在微博的演化過程.本文選取“昆山反殺案”微博輿情事件進(jìn)行實(shí)驗(yàn)驗(yàn)證,確定本模型在真實(shí)網(wǎng)絡(luò)上預(yù)測(cè)的準(zhǔn)確性,結(jié)果表明,本文所提模型與ESIS和EIC模型相比,準(zhǔn)確性有了明顯的提高.但是,本文研究并未考慮其他非關(guān)注用戶是否對(duì)用戶產(chǎn)生影響,同時(shí)用于情感分類的算法質(zhì)量還有待提高,故如何進(jìn)一步提高模型的準(zhǔn)確性是本文未來研究的主要方向.