于運(yùn)鐸,徐銘達(dá),許小可
(大連民族大學(xué)信息與通信工程學(xué)院 遼寧 大連 116600)
虛假信息[1]在互聯(lián)網(wǎng)場(chǎng)域中呈現(xiàn)出數(shù)量多、傳播速度快、傳播范圍廣等特點(diǎn),帶來諸多負(fù)面影響[2-3],因此研究網(wǎng)絡(luò)中的虛假信息傳播機(jī)制具有重要意義。
基于網(wǎng)絡(luò)結(jié)構(gòu)的虛假信息傳播分析是其中一種研究視角。文獻(xiàn)[4]最早提出了謠言源的網(wǎng)絡(luò)結(jié)構(gòu)定義;文獻(xiàn)[5]在該定義上根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行網(wǎng)絡(luò)劃分,使算法更具普適性;文獻(xiàn)[6]采用了基于聯(lián)合謠言中心性的統(tǒng)一推理框架,解決了以往算法中存在節(jié)點(diǎn)沒有被表達(dá)的問題;文獻(xiàn)[7]提出了利用部分節(jié)點(diǎn)信息結(jié)合節(jié)點(diǎn)被感染的概率來推測(cè)謠言源的方法;文獻(xiàn)[8]提出了局部謠言中心性概念,使新方法更符合實(shí)際情況;文獻(xiàn)[9]引入了時(shí)間積分窗口,將動(dòng)態(tài)網(wǎng)絡(luò)轉(zhuǎn)化為一系列靜態(tài)網(wǎng)絡(luò),解決了以往研究沒有考慮時(shí)間屬性特征的問題,但該研究并沒利用時(shí)效網(wǎng)絡(luò)的結(jié)構(gòu)特性來檢測(cè)虛假信息。
時(shí)效網(wǎng)絡(luò)為深度研究虛假信息傳播機(jī)制提供了更多的可能性。文獻(xiàn)[10]對(duì)時(shí)效網(wǎng)絡(luò)進(jìn)行了定義,即加入時(shí)間維度且連邊隨著時(shí)間會(huì)間斷性地出現(xiàn)和消失的網(wǎng)絡(luò);文獻(xiàn)[11]提出了時(shí)效網(wǎng)絡(luò)作為靜態(tài)網(wǎng)絡(luò)的延伸可以涵蓋時(shí)間信息,可以對(duì)隨時(shí)間推移連邊發(fā)生變化的網(wǎng)絡(luò)建模;文獻(xiàn)[12]指出時(shí)效網(wǎng)絡(luò)中的指標(biāo)更有利于抑制流行病的傳播。
本文基于時(shí)效網(wǎng)絡(luò)的結(jié)構(gòu)特征,提出了時(shí)效模體度探究虛假信息傳播機(jī)制的方法。該方法將時(shí)間信息添加到傳播網(wǎng)絡(luò)的結(jié)構(gòu)中,相對(duì)于僅使用基于模體度等網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)計(jì)量的方法更能刻畫虛假信息的傳播機(jī)制。通過多個(gè)實(shí)證數(shù)據(jù)集證明了該方法的魯棒性。本研究豐富了信息傳播的刻畫方法,進(jìn)一步提高了人們對(duì)于虛假信息傳播機(jī)制的理解,為虛假信息的早期治理、降低其負(fù)面影響等方面提供更有效的參考。
用G={A,E}表 示社交網(wǎng)絡(luò),其中A是所有用戶的集合,E是用戶之間關(guān)系的集合。在時(shí)效網(wǎng)絡(luò)中E可 用 (i,j,t,?t)四 元組表示[10],即節(jié)點(diǎn)i從t時(shí)刻發(fā)送消息至節(jié)點(diǎn)j,并持續(xù) ?t的時(shí)長(zhǎng)的信息傳播過程,如圖1 所示。將 ?T定義為時(shí)間尺度,通過分析不同時(shí)間尺度下傳播網(wǎng)絡(luò)中時(shí)效模體數(shù)的變化情況,來探究虛假信息的傳播機(jī)制。
圖1 信息傳播過程
定義時(shí)效廣度模體度和時(shí)效深度模體度兩個(gè)時(shí)效網(wǎng)絡(luò)結(jié)構(gòu)性指標(biāo),如圖2 所示。圖2a 中節(jié)點(diǎn)S在t0時(shí) 刻將信息轉(zhuǎn)發(fā)至節(jié)點(diǎn)V1和V2, 節(jié)點(diǎn)V1和V2分別在t1和t2時(shí)刻將信息轉(zhuǎn)發(fā)至其他節(jié)點(diǎn),兩節(jié)點(diǎn)分別用時(shí) ?t1和 ?t2, 其中 ?t1=t1?t0, ?t2=t2?t0。圖2b中節(jié)點(diǎn)S在t0時(shí) 刻將信息轉(zhuǎn)發(fā)至節(jié)點(diǎn)V1, 節(jié)點(diǎn)V1在t1時(shí) 刻將信息轉(zhuǎn)發(fā)至節(jié)點(diǎn)V2, 用時(shí) ?t1, 節(jié)點(diǎn)V2在t2時(shí) 刻將信息轉(zhuǎn)發(fā)至其他節(jié)點(diǎn),用時(shí) ?t2,其中?t1=t1?t0, ?t2=t2?t1。
定義 1 時(shí)效廣度模體度(the degree of temporal breadth motif, TBM)。時(shí)效網(wǎng)絡(luò)中節(jié)點(diǎn)符合圖2a 時(shí)效廣度模體結(jié)構(gòu),且持續(xù)時(shí)長(zhǎng) ?t1、 ?t2均小于規(guī)定的時(shí)間尺度 ?T,由單個(gè)節(jié)點(diǎn)產(chǎn)生的時(shí)效廣度模體數(shù)量即為該節(jié)點(diǎn)的時(shí)效廣度模體度,網(wǎng)絡(luò)中所有節(jié)點(diǎn)的時(shí)效廣度模體度之和為該信息傳播網(wǎng)絡(luò)的時(shí)效廣度模體度。
圖2 時(shí)效廣度傳播模體結(jié)構(gòu)與時(shí)效深度傳播模體結(jié)構(gòu)
定義 2 時(shí)效深度模體度(the degree of temporal depth motif, TDM)。時(shí)效網(wǎng)絡(luò)中節(jié)點(diǎn)符合圖2b 時(shí)效深度模體結(jié)構(gòu),且持續(xù)時(shí)長(zhǎng) ?t1、 ?t2均小于規(guī)定的時(shí)間尺度 ?T,此時(shí)時(shí)效網(wǎng)絡(luò)中由單個(gè)節(jié)點(diǎn)所能產(chǎn)生的時(shí)效深度模體數(shù)量即為節(jié)點(diǎn)的時(shí)效深度模體度,網(wǎng)絡(luò)中所有節(jié)點(diǎn)的時(shí)效深度模體度之和為該信息傳播網(wǎng)絡(luò)的時(shí)效深度模體度。
在利用靜態(tài)模體度研究整個(gè)傳播網(wǎng)絡(luò)的宏觀特征時(shí),忽略了傳播網(wǎng)絡(luò)的時(shí)效性[13]。時(shí)效模體度則充分考慮到傳播網(wǎng)絡(luò)中的時(shí)間屬性,以多個(gè)不同的時(shí)間尺度為考察指標(biāo),能夠更深入和準(zhǔn)確地探析網(wǎng)絡(luò)特征,有效彌補(bǔ)靜態(tài)模體度的不足。
本文采用兩類數(shù)據(jù)集:1) 四分類數(shù)據(jù)集:twitter15和twitter16 數(shù)據(jù)集[14]。數(shù)據(jù)集分為非謠言、虛假謠言、真實(shí)謠言(被確定為謠言)、未經(jīng)證實(shí)的謠言4 類,參數(shù)如表1 所示。2) 二分類數(shù)據(jù)集:微博數(shù)據(jù)集[15]、gossipcop 數(shù)據(jù)集[16]和politifact 數(shù)據(jù)集[17],數(shù)據(jù)集分為虛假信息和真實(shí)信息兩類,參數(shù)如表2所示。這兩類數(shù)據(jù)集具有大量的用戶節(jié)點(diǎn)和信息,使得到的結(jié)果更具魯棒性。
表1 四分類數(shù)據(jù)集基本參數(shù)
表2 二分類數(shù)據(jù)集基本參數(shù)
為了研究時(shí)效模體度與虛假信息傳播的關(guān)系,本文從群體和個(gè)體兩個(gè)層面來進(jìn)行分析,并采用多個(gè)時(shí)間尺度,即50、100、200、450、900、1 800、3 600、7 200、10 800 s。
在群體分析中,將微博數(shù)據(jù)集中所有信息的時(shí)效模體度繪制成散點(diǎn)圖,進(jìn)而分析時(shí)效模體度對(duì)于虛假信息的傳播是否具有明顯的影響,如圖3 和圖4 所示。在個(gè)體分析中,將50~900 s 定義為小時(shí)間尺度,900~3 600 s 定義為中時(shí)間尺度,3 600~10 800 s 定義為大時(shí)間尺度,并從微博數(shù)據(jù)集中選取一條真實(shí)信息和一條虛假信息,將真假信息不同時(shí)間尺度下的時(shí)效模體度進(jìn)行對(duì)比。
圖3 時(shí)效廣度模體度在不同時(shí)間尺度下的真假信息分布情況
從圖3 和圖4 可以看出,隨著時(shí)間尺度的取值逐漸增大,時(shí)效模體度的數(shù)量也不斷增長(zhǎng);同時(shí),真假信息的時(shí)效模體度分布情況也隨之變化,且真假信息的區(qū)分度越來越明顯。此外,虛假信息的廣度時(shí)效模體度始終小于真實(shí)信息,虛假信息的時(shí)效深度模體度比真實(shí)信息更趨近于理論最大值。綜上所述,在群體層面上,時(shí)效模體度對(duì)于虛假信息的傳播具有較為明顯的影響。
圖4 時(shí)效深度模體度在不同時(shí)間尺度下的真假信息分布情況
真假信息在不同時(shí)間尺度下時(shí)效模體度的變化如圖5 所示。可以看出與時(shí)效模體度相比,靜態(tài)模體度沒有考慮到時(shí)效性,只能根據(jù)整個(gè)事件的時(shí)間跨度來進(jìn)行分析,無法考慮虛假信息在不同時(shí)間尺度上的傳播特性。因此,基于模體度分析虛假信息的傳播方法較為局限,而基于時(shí)效模體度的方法可以得到真實(shí)信息與虛假信息之間的多時(shí)間尺度上的差異,得到的結(jié)論更具有魯棒性。
圖5 真假信息在不同時(shí)間尺度下時(shí)效模體度的變化
根據(jù)圖5a,在小時(shí)間尺度上(50~90 s),真實(shí)信息的時(shí)效廣度模體度增長(zhǎng)幅度大于虛假信息,且比虛假信息更快地趨于穩(wěn)定;但在大時(shí)間尺度上(3 600~10 800 s),虛假信息的時(shí)效廣度模體度增長(zhǎng)幅度大于真實(shí)信息。從圖5b 可以看出,在小時(shí)間尺度上(50~90 s),真假信息的時(shí)效深度模體度不具有明顯的區(qū)分性,但是真實(shí)信息的時(shí)效深度模體度也更快地趨于穩(wěn)定,在中時(shí)間尺度(900~3 600 s)和大時(shí)間尺度上(3 600~10 800 s),虛假信息的時(shí)效深度模體度值的增長(zhǎng)幅度大于真實(shí)信息。
由此可以得出,真實(shí)信息在小時(shí)間尺度上的廣度傳播速度大于虛假信息,而虛假信息在大時(shí)間尺度上的廣度和深度傳播速度都大于真實(shí)信息。真實(shí)信息傳播結(jié)構(gòu)趨于平穩(wěn)時(shí),虛假信息仍呈現(xiàn)蔓延趨勢(shì),進(jìn)而證實(shí)了虛假信息比真實(shí)信息傳播范圍更廣,持續(xù)時(shí)間更久。
本文將微博數(shù)據(jù)集中的真實(shí)信息和虛假信息,在不同時(shí)間尺度下的時(shí)效模體度均值進(jìn)行對(duì)比,如圖6 所示。將twitter16 數(shù)據(jù)集中的非謠言信息、虛假謠言信息、真實(shí)謠言信息及未經(jīng)證實(shí)的謠言信息,在不同時(shí)間尺度下的時(shí)效模體度均值進(jìn)行對(duì)比,如圖7 所示。
圖6 二分類數(shù)據(jù)集下時(shí)效模體度對(duì)虛假信息傳播的影響
根據(jù)圖6 可以看出,在小時(shí)間尺度上,真假信息的時(shí)效廣度模體度的區(qū)分度大于二者的時(shí)效深度模體度。且真假信息隨著時(shí)間尺度的取值逐漸增大,真假信息的時(shí)效深度模體度的區(qū)分逐漸明顯。根據(jù)圖7 可以看出,在不同時(shí)間尺度上,4 種信息的時(shí)效模體度均存在差異性。虛假謠言和真實(shí)謠言在小時(shí)間尺度上的時(shí)效廣度模體度十分相近,但二者的時(shí)效深度模體度相差較大。非謠言和未經(jīng)證實(shí)謠言的時(shí)效廣度模體度在任何時(shí)間尺度上都有較為明顯的差異,但二者的時(shí)效深度模體度幾乎相同。
圖7 四分類數(shù)據(jù)集下時(shí)效模體度對(duì)虛假信息傳播的影響
綜上所述,利用基于時(shí)效模體度的方法不僅適用于二分類數(shù)據(jù)集,也可將四分類數(shù)據(jù)集中的信息在不同時(shí)間尺度上區(qū)分開,證實(shí)了該方法具有較廣泛的適用性,刻畫了真實(shí)信息與虛假信息在傳播機(jī)制上的本質(zhì)差別。
針對(duì)微博數(shù)據(jù)集,本文將時(shí)間尺度為50、100、200、450、900、1 800、3 600、7 200、10 800 s 時(shí)的時(shí)效模體度,結(jié)合XGBoost 模型[18]對(duì)真假信息進(jìn)行分類,分類準(zhǔn)確性結(jié)果如表3 所示。
表3 微博虛假信息檢測(cè)準(zhǔn)確率
可見,相比于模體度檢測(cè)方法,融合了所有時(shí)間尺度的網(wǎng)絡(luò)結(jié)構(gòu)特征的多尺度時(shí)效模體度,具有更高的準(zhǔn)確率。因此,運(yùn)用時(shí)效模體度方法能夠在微博等在線社交網(wǎng)絡(luò)平臺(tái)中更準(zhǔn)確地識(shí)別出虛假信息。
進(jìn)一步,計(jì)算twitter15、twitter16、gossipcop、politifact 這4 個(gè)數(shù)據(jù)集的檢測(cè)準(zhǔn)確率,來驗(yàn)證基于時(shí)效模體度方法在其他社交網(wǎng)絡(luò)平臺(tái)上的分類準(zhǔn)確性。為了確保檢測(cè)結(jié)果盡可能客觀和全面,將多尺度時(shí)效模體度的檢測(cè)性能與結(jié)構(gòu)異質(zhì)性特征、結(jié)構(gòu)病毒性特征、靜態(tài)模體度特征進(jìn)行比較。其中結(jié)構(gòu)異質(zhì)性特征(structural heterogeneity)指標(biāo)反映了傳播網(wǎng)絡(luò)與其大小相同的星型網(wǎng)絡(luò)之間的差異[9],結(jié)構(gòu)性病毒特征(structural virality)指標(biāo)是基于所有節(jié)點(diǎn)間的最短平均距離[19]。檢測(cè)準(zhǔn)確率結(jié)果如表4 所示??梢钥闯?,時(shí)效模體度方法的準(zhǔn)確率均高于其他網(wǎng)絡(luò)結(jié)構(gòu)特性方法。
表4 虛假信息檢測(cè)準(zhǔn)確率
此外,使用2.2 節(jié)中選取的真假兩條信息,計(jì)算二者發(fā)布后經(jīng)過不同時(shí)間下廣度模體度和深度模體度的數(shù)量,如圖8 所示??梢钥闯鲭S著信息發(fā)布時(shí)間的推移,真假信息的區(qū)分度逐漸提高,且廣度模體度比深度模體度出現(xiàn)差異的時(shí)間更早。
圖8 不同信息發(fā)布時(shí)間下的模體度
為了進(jìn)一步探究在信息傳播早期虛假信息的檢測(cè)能力,本文計(jì)算出微博數(shù)據(jù)集中真假信息自發(fā)布后,經(jīng)過10、20、30、40、50、100、200、450、900、1 800、3 600、7 200、10 800 s 時(shí)的廣度模體度和深度模體度數(shù)量。將廣度模體度、深度模體度及兩種模體度作為特征進(jìn)行虛假信息檢測(cè)。隨機(jī)選取數(shù)據(jù)中的90%作為訓(xùn)練集,10%作為測(cè)試集。重復(fù)隨機(jī)選取100 次訓(xùn)練集和測(cè)試集,所得結(jié)果的平均值以及標(biāo)準(zhǔn)差如圖9 所示。
圖9 不同信息發(fā)布時(shí)間下的檢測(cè)準(zhǔn)確率
可以看出,在信息發(fā)布后短時(shí)間內(nèi),廣度模體度可以很快達(dá)到較高的檢測(cè)準(zhǔn)確率,然而深度模體度并不能有效檢測(cè)出虛假信息。綜合使用兩種模體度特征的方式,不僅可以在信息傳播早期具有較高的檢測(cè)準(zhǔn)確率,而且隨著信息發(fā)布時(shí)間的增長(zhǎng)虛假信息識(shí)別能力不斷增強(qiáng)。
本文提出了一種基于時(shí)效模體度的虛假信息傳播機(jī)制研究方法,以微博數(shù)據(jù)集中典型信息為例,結(jié)合二分類和四分類數(shù)據(jù)集的檢驗(yàn),對(duì)時(shí)效廣度模體度與時(shí)效深度模體度進(jìn)行詳細(xì)分析,發(fā)現(xiàn)了基于時(shí)效模體度的方法能夠在時(shí)效網(wǎng)絡(luò)方面更深入地探析虛假信息的傳播機(jī)制,從而在虛假信息檢測(cè)上體現(xiàn)出更高的準(zhǔn)確性。根據(jù)5 個(gè)廣泛使用的真實(shí)數(shù)據(jù)集得到的虛假信息檢測(cè)評(píng)分來看,基于時(shí)效模體度的虛假信息檢測(cè)方法均比使用其他結(jié)構(gòu)性特征的方法更準(zhǔn)確,尤其與基于模體度特征相比,所有數(shù)據(jù)集的檢測(cè)準(zhǔn)確性均有所提高?;跁r(shí)效模體度的虛假信息檢測(cè)方法能夠有效識(shí)別虛假信息,及時(shí)干預(yù)虛假信息的傳播,最大限度地降低虛假信息的危害。