基于多尺度時(shí)效模體度的虛假信息傳播機(jī)制

2023-02-15 08:40:30于運(yùn)鐸徐銘達(dá)許小可

電子科技大學(xué)學(xué)報(bào) 2023年1期

于運(yùn)鐸，徐銘達(dá)，許小可

(大連民族大學(xué)信息與通信工程學(xué)院遼寧大連 116600)

虛假信息[1]在互聯(lián)網(wǎng)場(chǎng)域中呈現(xiàn)出數(shù)量多、傳播速度快、傳播范圍廣等特點(diǎn)，帶來諸多負(fù)面影響[2-3]，因此研究網(wǎng)絡(luò)中的虛假信息傳播機(jī)制具有重要意義。

基于網(wǎng)絡(luò)結(jié)構(gòu)的虛假信息傳播分析是其中一種研究視角。文獻(xiàn)[4]最早提出了謠言源的網(wǎng)絡(luò)結(jié)構(gòu)定義；文獻(xiàn)[5]在該定義上根據(jù)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行網(wǎng)絡(luò)劃分，使算法更具普適性；文獻(xiàn)[6]采用了基于聯(lián)合謠言中心性的統(tǒng)一推理框架，解決了以往算法中存在節(jié)點(diǎn)沒有被表達(dá)的問題；文獻(xiàn)[7]提出了利用部分節(jié)點(diǎn)信息結(jié)合節(jié)點(diǎn)被感染的概率來推測(cè)謠言源的方法；文獻(xiàn)[8]提出了局部謠言中心性概念，使新方法更符合實(shí)際情況；文獻(xiàn)[9]引入了時(shí)間積分窗口，將動(dòng)態(tài)網(wǎng)絡(luò)轉(zhuǎn)化為一系列靜態(tài)網(wǎng)絡(luò)，解決了以往研究沒有考慮時(shí)間屬性特征的問題，但該研究并沒利用時(shí)效網(wǎng)絡(luò)的結(jié)構(gòu)特性來檢測(cè)虛假信息。

時(shí)效網(wǎng)絡(luò)為深度研究虛假信息傳播機(jī)制提供了更多的可能性。文獻(xiàn)[10]對(duì)時(shí)效網(wǎng)絡(luò)進(jìn)行了定義，即加入時(shí)間維度且連邊隨著時(shí)間會(huì)間斷性地出現(xiàn)和消失的網(wǎng)絡(luò)；文獻(xiàn)[11]提出了時(shí)效網(wǎng)絡(luò)作為靜態(tài)網(wǎng)絡(luò)的延伸可以涵蓋時(shí)間信息，可以對(duì)隨時(shí)間推移連邊發(fā)生變化的網(wǎng)絡(luò)建模；文獻(xiàn)[12]指出時(shí)效網(wǎng)絡(luò)中的指標(biāo)更有利于抑制流行病的傳播。

本文基于時(shí)效網(wǎng)絡(luò)的結(jié)構(gòu)特征，提出了時(shí)效模體度探究虛假信息傳播機(jī)制的方法。該方法將時(shí)間信息添加到傳播網(wǎng)絡(luò)的結(jié)構(gòu)中，相對(duì)于僅使用基于模體度等網(wǎng)絡(luò)結(jié)構(gòu)統(tǒng)計(jì)量的方法更能刻畫虛假信息的傳播機(jī)制。通過多個(gè)實(shí)證數(shù)據(jù)集證明了該方法的魯棒性。本研究豐富了信息傳播的刻畫方法，進(jìn)一步提高了人們對(duì)于虛假信息傳播機(jī)制的理解，為虛假信息的早期治理、降低其負(fù)面影響等方面提供更有效的參考。

1 時(shí)效模體度結(jié)構(gòu)特征定義

用G={A,E}表示社交網(wǎng)絡(luò)，其中A是所有用戶的集合，E是用戶之間關(guān)系的集合。在時(shí)效網(wǎng)絡(luò)中E可用 (i,j,t,?t)四元組表示[10]，即節(jié)點(diǎn)i從t時(shí)刻發(fā)送消息至節(jié)點(diǎn)j，并持續(xù) ?t的時(shí)長(zhǎng)的信息傳播過程，如圖1 所示。將 ?T定義為時(shí)間尺度，通過分析不同時(shí)間尺度下傳播網(wǎng)絡(luò)中時(shí)效模體數(shù)的變化情況，來探究虛假信息的傳播機(jī)制。

圖1 信息傳播過程

定義時(shí)效廣度模體度和時(shí)效深度模體度兩個(gè)時(shí)效網(wǎng)絡(luò)結(jié)構(gòu)性指標(biāo)，如圖2 所示。圖2a 中節(jié)點(diǎn)S在t0時(shí) 刻將信息轉(zhuǎn)發(fā)至節(jié)點(diǎn)V1和V2，節(jié)點(diǎn)V1和V2分別在t1和t2時(shí)刻將信息轉(zhuǎn)發(fā)至其他節(jié)點(diǎn)，兩節(jié)點(diǎn)分別用時(shí) ?t1和 ?t2，其中 ?t1=t1?t0， ?t2=t2?t0。圖2b中節(jié)點(diǎn)S在t0時(shí) 刻將信息轉(zhuǎn)發(fā)至節(jié)點(diǎn)V1，節(jié)點(diǎn)V1在t1時(shí) 刻將信息轉(zhuǎn)發(fā)至節(jié)點(diǎn)V2，用時(shí) ?t1，節(jié)點(diǎn)V2在t2時(shí) 刻將信息轉(zhuǎn)發(fā)至其他節(jié)點(diǎn)，用時(shí) ?t2，其中?t1=t1?t0， ?t2=t2?t1。

定義 1 時(shí)效廣度模體度(the degree of temporal breadth motif, TBM)。時(shí)效網(wǎng)絡(luò)中節(jié)點(diǎn)符合圖2a 時(shí)效廣度模體結(jié)構(gòu)，且持續(xù)時(shí)長(zhǎng) ?t1、 ?t2均小于規(guī)定的時(shí)間尺度 ?T，由單個(gè)節(jié)點(diǎn)產(chǎn)生的時(shí)效廣度模體數(shù)量即為該節(jié)點(diǎn)的時(shí)效廣度模體度，網(wǎng)絡(luò)中所有節(jié)點(diǎn)的時(shí)效廣度模體度之和為該信息傳播網(wǎng)絡(luò)的時(shí)效廣度模體度。

圖2 時(shí)效廣度傳播模體結(jié)構(gòu)與時(shí)效深度傳播模體結(jié)構(gòu)

定義 2 時(shí)效深度模體度(the degree of temporal depth motif, TDM)。時(shí)效網(wǎng)絡(luò)中節(jié)點(diǎn)符合圖2b 時(shí)效深度模體結(jié)構(gòu)，且持續(xù)時(shí)長(zhǎng) ?t1、 ?t2均小于規(guī)定的時(shí)間尺度 ?T，此時(shí)時(shí)效網(wǎng)絡(luò)中由單個(gè)節(jié)點(diǎn)所能產(chǎn)生的時(shí)效深度模體數(shù)量即為節(jié)點(diǎn)的時(shí)效深度模體度，網(wǎng)絡(luò)中所有節(jié)點(diǎn)的時(shí)效深度模體度之和為該信息傳播網(wǎng)絡(luò)的時(shí)效深度模體度。

在利用靜態(tài)模體度研究整個(gè)傳播網(wǎng)絡(luò)的宏觀特征時(shí)，忽略了傳播網(wǎng)絡(luò)的時(shí)效性[13]。時(shí)效模體度則充分考慮到傳播網(wǎng)絡(luò)中的時(shí)間屬性，以多個(gè)不同的時(shí)間尺度為考察指標(biāo)，能夠更深入和準(zhǔn)確地探析網(wǎng)絡(luò)特征，有效彌補(bǔ)靜態(tài)模體度的不足。

2 基于時(shí)效模體度的虛假信息分析與檢測(cè)

2.1 數(shù)據(jù)說明

本文采用兩類數(shù)據(jù)集：1) 四分類數(shù)據(jù)集：twitter15和twitter16 數(shù)據(jù)集[14]。數(shù)據(jù)集分為非謠言、虛假謠言、真實(shí)謠言(被確定為謠言)、未經(jīng)證實(shí)的謠言4 類，參數(shù)如表1 所示。2) 二分類數(shù)據(jù)集：微博數(shù)據(jù)集[15]、gossipcop 數(shù)據(jù)集[16]和politifact 數(shù)據(jù)集[17]，數(shù)據(jù)集分為虛假信息和真實(shí)信息兩類，參數(shù)如表2所示。這兩類數(shù)據(jù)集具有大量的用戶節(jié)點(diǎn)和信息，使得到的結(jié)果更具魯棒性。

表1 四分類數(shù)據(jù)集基本參數(shù)

表2 二分類數(shù)據(jù)集基本參數(shù)

2.2 時(shí)效模體度對(duì)虛假信息傳播的影響

為了研究時(shí)效模體度與虛假信息傳播的關(guān)系，本文從群體和個(gè)體兩個(gè)層面來進(jìn)行分析，并采用多個(gè)時(shí)間尺度，即50、100、200、450、900、1 800、3 600、7 200、10 800 s。

在群體分析中，將微博數(shù)據(jù)集中所有信息的時(shí)效模體度繪制成散點(diǎn)圖，進(jìn)而分析時(shí)效模體度對(duì)于虛假信息的傳播是否具有明顯的影響，如圖3 和圖4 所示。在個(gè)體分析中，將50～900 s 定義為小時(shí)間尺度，900～3 600 s 定義為中時(shí)間尺度，3 600～10 800 s 定義為大時(shí)間尺度，并從微博數(shù)據(jù)集中選取一條真實(shí)信息和一條虛假信息，將真假信息不同時(shí)間尺度下的時(shí)效模體度進(jìn)行對(duì)比。

圖3 時(shí)效廣度模體度在不同時(shí)間尺度下的真假信息分布情況

從圖3 和圖4 可以看出，隨著時(shí)間尺度的取值逐漸增大，時(shí)效模體度的數(shù)量也不斷增長(zhǎng)；同時(shí)，真假信息的時(shí)效模體度分布情況也隨之變化，且真假信息的區(qū)分度越來越明顯。此外，虛假信息的廣度時(shí)效模體度始終小于真實(shí)信息，虛假信息的時(shí)效深度模體度比真實(shí)信息更趨近于理論最大值。綜上所述，在群體層面上，時(shí)效模體度對(duì)于虛假信息的傳播具有較為明顯的影響。

圖4 時(shí)效深度模體度在不同時(shí)間尺度下的真假信息分布情況

真假信息在不同時(shí)間尺度下時(shí)效模體度的變化如圖5 所示。可以看出與時(shí)效模體度相比，靜態(tài)模體度沒有考慮到時(shí)效性，只能根據(jù)整個(gè)事件的時(shí)間跨度來進(jìn)行分析，無法考慮虛假信息在不同時(shí)間尺度上的傳播特性。因此，基于模體度分析虛假信息的傳播方法較為局限，而基于時(shí)效模體度的方法可以得到真實(shí)信息與虛假信息之間的多時(shí)間尺度上的差異，得到的結(jié)論更具有魯棒性。

圖5 真假信息在不同時(shí)間尺度下時(shí)效模體度的變化

根據(jù)圖5a，在小時(shí)間尺度上(50～90 s)，真實(shí)信息的時(shí)效廣度模體度增長(zhǎng)幅度大于虛假信息，且比虛假信息更快地趨于穩(wěn)定；但在大時(shí)間尺度上(3 600～10 800 s)，虛假信息的時(shí)效廣度模體度增長(zhǎng)幅度大于真實(shí)信息。從圖5b 可以看出，在小時(shí)間尺度上(50～90 s)，真假信息的時(shí)效深度模體度不具有明顯的區(qū)分性，但是真實(shí)信息的時(shí)效深度模體度也更快地趨于穩(wěn)定，在中時(shí)間尺度(900～3 600 s)和大時(shí)間尺度上(3 600～10 800 s)，虛假信息的時(shí)效深度模體度值的增長(zhǎng)幅度大于真實(shí)信息。

由此可以得出，真實(shí)信息在小時(shí)間尺度上的廣度傳播速度大于虛假信息，而虛假信息在大時(shí)間尺度上的廣度和深度傳播速度都大于真實(shí)信息。真實(shí)信息傳播結(jié)構(gòu)趨于平穩(wěn)時(shí)，虛假信息仍呈現(xiàn)蔓延趨勢(shì)，進(jìn)而證實(shí)了虛假信息比真實(shí)信息傳播范圍更廣，持續(xù)時(shí)間更久。

2.3 基于時(shí)效模體度方法對(duì)虛假信息分類的作用效果

本文將微博數(shù)據(jù)集中的真實(shí)信息和虛假信息，在不同時(shí)間尺度下的時(shí)效模體度均值進(jìn)行對(duì)比，如圖6 所示。將twitter16 數(shù)據(jù)集中的非謠言信息、虛假謠言信息、真實(shí)謠言信息及未經(jīng)證實(shí)的謠言信息，在不同時(shí)間尺度下的時(shí)效模體度均值進(jìn)行對(duì)比，如圖7 所示。

圖6 二分類數(shù)據(jù)集下時(shí)效模體度對(duì)虛假信息傳播的影響

根據(jù)圖6 可以看出，在小時(shí)間尺度上，真假信息的時(shí)效廣度模體度的區(qū)分度大于二者的時(shí)效深度模體度。且真假信息隨著時(shí)間尺度的取值逐漸增大，真假信息的時(shí)效深度模體度的區(qū)分逐漸明顯。根據(jù)圖7 可以看出，在不同時(shí)間尺度上，4 種信息的時(shí)效模體度均存在差異性。虛假謠言和真實(shí)謠言在小時(shí)間尺度上的時(shí)效廣度模體度十分相近，但二者的時(shí)效深度模體度相差較大。非謠言和未經(jīng)證實(shí)謠言的時(shí)效廣度模體度在任何時(shí)間尺度上都有較為明顯的差異，但二者的時(shí)效深度模體度幾乎相同。

圖7 四分類數(shù)據(jù)集下時(shí)效模體度對(duì)虛假信息傳播的影響

綜上所述，利用基于時(shí)效模體度的方法不僅適用于二分類數(shù)據(jù)集，也可將四分類數(shù)據(jù)集中的信息在不同時(shí)間尺度上區(qū)分開，證實(shí)了該方法具有較廣泛的適用性，刻畫了真實(shí)信息與虛假信息在傳播機(jī)制上的本質(zhì)差別。

2.4 基于時(shí)效模體度的虛假信息檢測(cè)

針對(duì)微博數(shù)據(jù)集，本文將時(shí)間尺度為50、100、200、450、900、1 800、3 600、7 200、10 800 s 時(shí)的時(shí)效模體度，結(jié)合XGBoost 模型[18]對(duì)真假信息進(jìn)行分類，分類準(zhǔn)確性結(jié)果如表3 所示。

表3 微博虛假信息檢測(cè)準(zhǔn)確率

可見，相比于模體度檢測(cè)方法，融合了所有時(shí)間尺度的網(wǎng)絡(luò)結(jié)構(gòu)特征的多尺度時(shí)效模體度，具有更高的準(zhǔn)確率。因此，運(yùn)用時(shí)效模體度方法能夠在微博等在線社交網(wǎng)絡(luò)平臺(tái)中更準(zhǔn)確地識(shí)別出虛假信息。

進(jìn)一步，計(jì)算twitter15、twitter16、gossipcop、politifact 這4 個(gè)數(shù)據(jù)集的檢測(cè)準(zhǔn)確率，來驗(yàn)證基于時(shí)效模體度方法在其他社交網(wǎng)絡(luò)平臺(tái)上的分類準(zhǔn)確性。為了確保檢測(cè)結(jié)果盡可能客觀和全面，將多尺度時(shí)效模體度的檢測(cè)性能與結(jié)構(gòu)異質(zhì)性特征、結(jié)構(gòu)病毒性特征、靜態(tài)模體度特征進(jìn)行比較。其中結(jié)構(gòu)異質(zhì)性特征(structural heterogeneity)指標(biāo)反映了傳播網(wǎng)絡(luò)與其大小相同的星型網(wǎng)絡(luò)之間的差異[9]，結(jié)構(gòu)性病毒特征(structural virality)指標(biāo)是基于所有節(jié)點(diǎn)間的最短平均距離[19]。檢測(cè)準(zhǔn)確率結(jié)果如表4 所示?？梢钥闯?，時(shí)效模體度方法的準(zhǔn)確率均高于其他網(wǎng)絡(luò)結(jié)構(gòu)特性方法。

表4 虛假信息檢測(cè)準(zhǔn)確率

此外，使用2.2 節(jié)中選取的真假兩條信息，計(jì)算二者發(fā)布后經(jīng)過不同時(shí)間下廣度模體度和深度模體度的數(shù)量，如圖8 所示?？梢钥闯鲭S著信息發(fā)布時(shí)間的推移，真假信息的區(qū)分度逐漸提高，且廣度模體度比深度模體度出現(xiàn)差異的時(shí)間更早。

圖8 不同信息發(fā)布時(shí)間下的模體度

為了進(jìn)一步探究在信息傳播早期虛假信息的檢測(cè)能力，本文計(jì)算出微博數(shù)據(jù)集中真假信息自發(fā)布后，經(jīng)過10、20、30、40、50、100、200、450、900、1 800、3 600、7 200、10 800 s 時(shí)的廣度模體度和深度模體度數(shù)量。將廣度模體度、深度模體度及兩種模體度作為特征進(jìn)行虛假信息檢測(cè)。隨機(jī)選取數(shù)據(jù)中的90%作為訓(xùn)練集，10%作為測(cè)試集。重復(fù)隨機(jī)選取100 次訓(xùn)練集和測(cè)試集，所得結(jié)果的平均值以及標(biāo)準(zhǔn)差如圖9 所示。

圖9 不同信息發(fā)布時(shí)間下的檢測(cè)準(zhǔn)確率

可以看出，在信息發(fā)布后短時(shí)間內(nèi)，廣度模體度可以很快達(dá)到較高的檢測(cè)準(zhǔn)確率，然而深度模體度并不能有效檢測(cè)出虛假信息。綜合使用兩種模體度特征的方式，不僅可以在信息傳播早期具有較高的檢測(cè)準(zhǔn)確率，而且隨著信息發(fā)布時(shí)間的增長(zhǎng)虛假信息識(shí)別能力不斷增強(qiáng)。

3 結(jié) 束語

本文提出了一種基于時(shí)效模體度的虛假信息傳播機(jī)制研究方法，以微博數(shù)據(jù)集中典型信息為例，結(jié)合二分類和四分類數(shù)據(jù)集的檢驗(yàn)，對(duì)時(shí)效廣度模體度與時(shí)效深度模體度進(jìn)行詳細(xì)分析，發(fā)現(xiàn)了基于時(shí)效模體度的方法能夠在時(shí)效網(wǎng)絡(luò)方面更深入地探析虛假信息的傳播機(jī)制，從而在虛假信息檢測(cè)上體現(xiàn)出更高的準(zhǔn)確性。根據(jù)5 個(gè)廣泛使用的真實(shí)數(shù)據(jù)集得到的虛假信息檢測(cè)評(píng)分來看，基于時(shí)效模體度的虛假信息檢測(cè)方法均比使用其他結(jié)構(gòu)性特征的方法更準(zhǔn)確，尤其與基于模體度特征相比，所有數(shù)據(jù)集的檢測(cè)準(zhǔn)確性均有所提高?；跁r(shí)效模體度的虛假信息檢測(cè)方法能夠有效識(shí)別虛假信息，及時(shí)干預(yù)虛假信息的傳播，最大限度地降低虛假信息的危害。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡