邱秀連,田小虎,2,廖聞劍
(1.南京烽火軟件科技有限公司,江蘇 南京 210019; 2.武漢郵電科學(xué)研究院,湖北 武漢 430074)
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,催生了社交網(wǎng)站的迅猛擴(kuò)張,然而網(wǎng)絡(luò)輿情相較傳統(tǒng)輿情呈現(xiàn)出更迅速、更復(fù)雜、更多元,影響也更大的傳播特性。
針對社交網(wǎng)絡(luò)中的網(wǎng)絡(luò)話題傳播問題,網(wǎng)絡(luò)輿情的傳播方式與醫(yī)學(xué)病毒的傳播方式有許多相似之處,如文獻(xiàn)[1]引入的SIS模型,文獻(xiàn)[2]擴(kuò)展的SIR模型,文獻(xiàn)[3]基于SIR模型及群組動(dòng)力學(xué)構(gòu)建的熱點(diǎn)話題傳播模型。文獻(xiàn)[4]將傳染病動(dòng)力學(xué)與復(fù)雜網(wǎng)絡(luò)結(jié)合提出了一個(gè)基于SNS網(wǎng)絡(luò)的信息傳播模型,文獻(xiàn)[5]將潛伏期引入網(wǎng)絡(luò)輿情傳播的帶直接免疫的SEIR模型,文獻(xiàn)[6]針對輿情話題免疫人員個(gè)體記憶的免疫時(shí)效性問題的SEIRS模型。
以上模型研究雖然提出了類似傳染病動(dòng)力學(xué)模型,但是社交網(wǎng)絡(luò)中網(wǎng)絡(luò)水軍及僵尸粉這2大特征不容忽視,只有文獻(xiàn)微博網(wǎng)絡(luò)水軍識別技術(shù)[7]綜合了微博水軍和最原始的SIR模型,提出了G-SIR模型,但是也未綜合針對輿情免疫及僵尸粉這2個(gè)特征。
為了解決上述問題,將微博話題傳播者中的水軍和僵尸粉對話題傳播的影響分別作為正反饋和負(fù)反饋,再結(jié)合傳統(tǒng)的輿情傳播的傳染病動(dòng)力學(xué)模型,更能切合現(xiàn)實(shí)網(wǎng)絡(luò)輿情話題傳播的真實(shí)熱度趨勢。
在社交網(wǎng)絡(luò)中,輿情信息是以用戶為節(jié)點(diǎn),以好友關(guān)系為邊來傳播,類似于傳染病從一個(gè)節(jié)點(diǎn)向另一個(gè)節(jié)點(diǎn)傳播,而用戶之間通過關(guān)注和粉絲的關(guān)系依次擴(kuò)展,構(gòu)成一個(gè)WS小世界模型,映射真實(shí)世界的輿情傳播。
在SEIR中,系統(tǒng)中的網(wǎng)名處于4種狀態(tài)(易感態(tài)(S)、潛伏態(tài)(E)、感染態(tài)(I)和免疫態(tài)(R)),同時(shí)對易感態(tài)及潛伏態(tài)輿情陣營加入僵尸粉,作為整個(gè)模型的負(fù)反饋j,對感染態(tài)輿情陣營加入水軍,作為整個(gè)模型的正反饋w。對應(yīng)到輿情傳播系統(tǒng)中,S代表未知者,即未接收到相關(guān)輿情信息的網(wǎng)民;E代表已知該輿情信息但猶豫不決,尚未傳播該輿情的網(wǎng)民;I代表已得知該輿情信息并已傳播該輿情信息的網(wǎng)民;R代表接收到輿情信息,但不感興趣不會(huì)傳播的網(wǎng)民。j代表處于潛伏態(tài)(E)陣營的網(wǎng)民中的僵尸粉對輿情傳播的弱化系數(shù);w代表處于感染態(tài)(I)陣營的網(wǎng)民中的水軍對輿情傳播的增強(qiáng)系數(shù)。S(t),E(t),I(t),R(t)分別表示t時(shí)刻4類網(wǎng)民占全體網(wǎng)民的數(shù)量,模型中S(t),E(t),I(t),R(t)是關(guān)于t的連續(xù)且可微函數(shù)。圖1為4類網(wǎng)民之間的狀態(tài)轉(zhuǎn)移過程。系統(tǒng)中的參數(shù)定義及意義如表1所示。
圖1 未知者、潛伏者、傳播者和免疫者4者轉(zhuǎn)換關(guān)系
表1 參數(shù)定義及其意義
參數(shù)參數(shù)說明參數(shù)意義δ傳染率未知者向潛伏者轉(zhuǎn)變的系數(shù)β患病率潛伏者染病的概率γ治愈率傳播者治愈的概率ε免疫率潛伏者免疫的概率j負(fù)反饋潛伏者中僵尸粉對傳播的弱化系數(shù)w正反饋傳播者中水軍對傳播的增強(qiáng)系數(shù)A輸入率網(wǎng)民隨時(shí)間的輸入率
顯然這些系數(shù)都是[0,1]之間的數(shù),且有:
S(t)+E(t)+I(t)+R(t)=1
(1)
根據(jù)系統(tǒng)動(dòng)力學(xué)建模思想,建立如下具有正負(fù)反饋的SEIR網(wǎng)絡(luò)輿情傳播模型:
(2)
由于方程(2)前3個(gè)方程中均不含有變量R,所以僅考慮由前3個(gè)方程所構(gòu)成的模型即可:
(3)
對方程(3)求積分可得:
(4)
其中C1,C2,C3是常量,做輿情預(yù)測時(shí)只需要最開始的2個(gè)點(diǎn)的參數(shù)就可以確定。
輿情熱度的增強(qiáng)和減弱可以由傳播者陣營的人員流動(dòng)來直觀反映,即:?I/?t>0時(shí)輿情熱度增強(qiáng),?I/?t<0時(shí)輿情熱度減弱。令方程(3)左邊等于零,結(jié)合方程(1)可得:
(5)
I*即是系統(tǒng)中的傳播轉(zhuǎn)折點(diǎn),當(dāng)I>I*時(shí),輿情話題仍將持續(xù)增強(qiáng),當(dāng)I
輿情傳播的熱度與各陣營人員流動(dòng)占比有直接關(guān)系,當(dāng)潛伏者和傳播者占比高時(shí)輿情熱度高,輿情的走向則與未知者和免疫者有關(guān),最初未知者人員占比高時(shí),輿情呈擴(kuò)大傳播態(tài)勢,當(dāng)最終免疫者人員占比高時(shí),輿情呈熱度衰減態(tài)勢。此外,網(wǎng)絡(luò)輿情傳播過程中,各個(gè)陣營都有可能存在僵尸粉或水軍,但是只有該輿情話題相關(guān)的潛伏者中的僵尸粉,一定比例上直接弱化傳播熱度,構(gòu)成負(fù)反饋;也只有該輿情話題相關(guān)的傳播者中的水軍,對輿情話題的推波助瀾,一定比例上直接強(qiáng)化話題傳播,構(gòu)成正反饋。當(dāng)兩者在其他陣營時(shí)并未直接影響話題熱度。
本文采用新浪微博數(shù)據(jù)集,為避開新浪反爬蟲機(jī)制,采用模擬手機(jī)端登錄進(jìn)行數(shù)據(jù)采集,數(shù)據(jù)從某一微博用戶出發(fā),抓取該用戶的個(gè)人信息、關(guān)注列表、歷史微博,然后根據(jù)關(guān)注列表依次循環(huán)抓取以上信息,最后構(gòu)成的網(wǎng)絡(luò)符合WS小世界模型。此處需說明新浪微博關(guān)注只能查看前200人,根據(jù)抓取到的結(jié)果,具體分析2016年底某喬姓明星抑郁自殺事件,抓取到的微博中涉及該事件的博文5026條,話題傳播者1163人,擴(kuò)展出這1163人的粉絲7873人、關(guān)注9751人。分析該網(wǎng)絡(luò)的拓?fù)涮卣骺芍摼W(wǎng)絡(luò)的平均出度為8.38,說明每個(gè)節(jié)點(diǎn)大約有8個(gè)關(guān)注對象,最大出度為430,說明某些節(jié)點(diǎn)多達(dá)430個(gè)關(guān)注對象;最大入度為65,說明某些節(jié)點(diǎn)最大有65個(gè)粉絲。
試驗(yàn)中的水軍,對相應(yīng)文本切詞后,與已訓(xùn)練好的樣本利用綜合指數(shù)和熵值法實(shí)現(xiàn)水軍的自動(dòng)判別;試驗(yàn)中的僵尸粉,根據(jù)用戶的個(gè)人信息、博文信息實(shí)現(xiàn)基于貝葉斯模型的僵尸粉自動(dòng)判別。
2.2.1 不同節(jié)點(diǎn)的密度隨時(shí)間的變化關(guān)系
1163人的原始博文信息中提及喬姓明星最早的時(shí)間是2010-08-05 12:20:12,但相關(guān)話題急劇增長是在2016-09-16日,因此從該急劇增長點(diǎn)前5天2016-09-11 00:00:00日開始統(tǒng)計(jì)相關(guān)信息。最早時(shí)間為2016-09-14 17:12:42由微博ID為2047549550的博主發(fā)布的一條信息,設(shè)初始網(wǎng)絡(luò)僅有一個(gè)傳播者,其他全部為未知者,將方程(2)中的各參數(shù)設(shè)置如下:傳染率δ=0.3,患病率β=0.2,治愈率γ=0.4,免疫率ε=0.3,正反饋w=0.2,負(fù)反饋j=0.1。網(wǎng)絡(luò)輿情傳播過程中各輿論陣營及總體輿情衍化態(tài)勢如圖2所示。每日網(wǎng)民輸入率A已知時(shí),模型預(yù)測熱度及實(shí)際網(wǎng)絡(luò)傳播熱度(以計(jì)算傳播者I直觀反映)如圖3所示。
圖2 輿情傳播總體衍化
圖3 每日輿情熱度與預(yù)測熱度
2.2.2 微博水軍及僵尸粉對輿情衍化的影響
對輿論個(gè)體中的每個(gè)對象,利用綜合指數(shù)和熵值法水軍自動(dòng)判別模型和貝葉斯僵尸粉自動(dòng)判別模型,判別輿情衍生過程中潛伏者陣營中的僵尸粉和傳播者陣營中的水軍。判別情況如圖4所示,數(shù)量參考右邊次坐標(biāo)軸。將僵尸粉和水軍加入輿情衍生模型中,僵尸粉和水軍對輿情熱度的影響如圖4所示,數(shù)量參考左邊主坐標(biāo)軸。
圖4 加入水軍和僵尸粉的輿論個(gè)各陣營衍化態(tài)勢
表2 感染者、傳播者與每日輿情的相關(guān)性
日期EHIH2016/09/150.2186690.2186692016/09/160.004060.0076992016/09/170.0005710.0019742016/09/180.0029470.0061072016/09/190.0048270.009132016/09/200.0278250.0474422016/09/210.0040790.028132016/09/220.0012170.0051042016/09/230.0032020.0077072016/09/240.0068790.0193362016/09/250.0124210.0237872016/09/260.024830.0410732016/09/270.0124970.0245932016/09/280.0173010.0291892016/09/290.0227130.0474422016/09/300.0296650.0938412016/10/010.0125520.070592016/10/020.0020690.0758642016/10/030.052710.619362016/10/040.1206240.1206242016/10/050.0414990.0820072016/10/060.0268130.195022016/10/070.0400680.0938412016/10/080.0290090.0446992016/10/090.2186690.2186692016/10/100.1566020.1566022016/10/110.2186690.218669
輿情傳播中感染者陣營中的僵尸粉對輿情演化起負(fù)反饋,傳播者陣營中的水軍對輿情演化起正反饋,因此有僵尸粉和水軍存在的情況下,感染者和傳播者對每日輿情熱度都有不同的影響。表2分別計(jì)算了感染者和傳播者與每日輿情熱度的余弦相似度作為相關(guān)性。EH是感染者陣營與每日輿情熱度的相關(guān)性,IH是傳播者陣營與每日輿情的相關(guān)性。
根據(jù)表2中的相關(guān)性系數(shù),結(jié)合圖中的實(shí)際情況,9月15號、9月20、10月4號、10月9號EH和IH基本是最大的幾個(gè)值,是影響曲線的極大值點(diǎn)。結(jié)合圖4實(shí)際輿情衍化態(tài)勢9月16號、9月19號感染者或傳播者中有水軍和僵尸粉,10月3號、10月8號感染者中有僵尸粉,因?yàn)楹笠惶斐霈F(xiàn)較大變化因此余弦相似度即相關(guān)性才會(huì)變大。另外,雖然9月17號、9月18號、9月22號有僵尸粉或水軍的出現(xiàn),但是本身感染者或傳播者陣營的人員都很大,因此僵尸粉或水軍的影響系數(shù)并不大,這樣成功地過濾了因?yàn)楦腥菊呋騻鞑フ呷后w數(shù)過大造成僵尸粉或水軍增加的影響,真實(shí)地反映了負(fù)反饋系數(shù)j和正反饋系數(shù)w的影響。
本文分析了真實(shí)輿情網(wǎng)絡(luò)中僵尸粉和水軍對輿情傳播的影響因素。輿情傳播中遇到僵尸粉時(shí),雖然輿情感染者基數(shù)增加但是輿情熱度并未增加;另一方面,當(dāng)輿情傳播中遇到水軍時(shí),雖然感染者基數(shù)并未增加,但是輿情熱度大大增加。以上2種情況在以往的傳染病分析模型中,都沒有考慮到是直接以固定傳染率和患病率來計(jì)算,因此結(jié)果有較大出入。
本文以傳染病動(dòng)力學(xué)模型中的SEIR為基礎(chǔ),通過引入新的群體:僵尸粉和水軍,構(gòu)建了微博輿情話題傳播模型。分析加入正負(fù)反饋的SEIR模型中宏觀輿情演化態(tài)勢和正負(fù)反饋的影響。仿真結(jié)果表明:1)網(wǎng)絡(luò)輿情突發(fā)事件中從衍化熱點(diǎn)到冷淡的整個(gè)周期中,僵尸粉和網(wǎng)絡(luò)水軍的參與已經(jīng)成為影響輿情熱度的常態(tài)化現(xiàn)象和不容忽視的重要因素;2)僵尸粉對傳統(tǒng)輿情的分析模型帶來極大誤判,而水軍對真實(shí)的輿情熱度炒作更是重中之重;3)僵尸粉對輿情熱度產(chǎn)生抑制作用,水軍則會(huì)對輿情熱度產(chǎn)生推動(dòng)作用;4)本文的構(gòu)建模型只是簡單的開始。更加精確的僵尸粉和水軍的判定、更加精準(zhǔn)的相關(guān)性和熱度分析、更加多維的網(wǎng)絡(luò)輿情陣地的模型校正將是今后研究的重要內(nèi)容。
[1] Migram S. The small-world problem[J]. Psychology Today, 1967(2):60-67.
[2] Leskovec J, Mcglohon M, Faloutsos C, et al. Patterns of cascading behavior in large blog graphs[C]// Proceedings of the 7th SIAM International Conference on Data Mining. 2007,7:551-556.
[3] Gruhl D, Guha R, Liben-No well D, et al. Information diffusion through blog space[C]// Proceedings of the 13th International Conference on World Wide Web. 2004:491-501.
[4] 張彥超,劉云,張海峰,等. 基于在線社交網(wǎng)絡(luò)的信息傳播模型[J]. 物理學(xué)報(bào), 201160(5):60-66.
[5] 陳波,于泠,劉君亭,等. 泛在媒體環(huán)境下的網(wǎng)絡(luò)輿情傳播控制模型[J]. 系統(tǒng)工程理論與實(shí)踐, 2011,31(11):2140-2150.
[6] 陳福集,陳婷. 基于SEIRS傳播模型的網(wǎng)絡(luò)輿情衍生效應(yīng)研究[J]. 情報(bào)雜志, 2014(2):108-113.
[7] 程曉濤. 微博網(wǎng)絡(luò)水軍識別技術(shù)研究[D]. 鄭州:中國人民解放軍信息工程大學(xué), 2015.
[8] 丁學(xué)君. 基于SCIR的微博輿情話題傳播模型研究[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015,51(8):20-26.
[9] 林曉靜,莊亞明,孫莉玲. 具有飽和接觸率的SEIR網(wǎng)絡(luò)輿情傳播模型研究[J]. 情報(bào)雜志, 2015(3):150-155.
[10] 譚娟. 基于傳染病模型的社交網(wǎng)絡(luò)輿情話題傳播[J]. 計(jì)算機(jī)工程與應(yīng)用, 2015,51(12):118-122.
[11] 陳福集,陳婷,鄭小雪. 一類新SEIRS模型上的網(wǎng)絡(luò)輿情傳播行為研究[J]. 情報(bào)資料工作, 2014(4):35-36.
[12] 張艷梅,黃瑩瑩,甘世杰,等. 基于貝葉斯模型的微博網(wǎng)絡(luò)水軍識別算法研究[J]. 通信學(xué)報(bào), 2017,38(1):44-53.
[13] 袁旭萍,王仁武,翟伯蔭. 基于綜合指數(shù)和熵值法的微博水軍自動(dòng)識別[J]. 情報(bào)雜志, 2014(7):176-179.
[14] 王越,張劍金,劉芳芳. 一種多特征微博僵尸粉檢測方法與實(shí)現(xiàn)[J]. 中國科技論文, 2014(1):81-86.
[15] 王越,張劍金. 一種應(yīng)用SAVBP神經(jīng)網(wǎng)絡(luò)的僵尸粉判別方法[J]. 重慶理工大學(xué)學(xué)報(bào), 2014,28(4):72-76.
[16] Fan Meng, Li M Y, Wang Ke. Global stability of an SEIS epidemic model with recruitment and a varying total population size[J]. Mathematical Biosciences, 2011,170(2):199-208.
[17] Zhang Beibei, Guan Xiaohong, Khan M J, et al. A time-varying propagation model of hot topic on BBS sites and Blog networks[J]. Information Sciences, 2012,187(1):15-32.