(四川大學(xué)網(wǎng)絡(luò)空間安全學(xué)院 四川 610065)
虛假新聞不是一個(gè)剛剛新出現(xiàn)的問題,虛假新聞現(xiàn)象已經(jīng)存在了很長(zhǎng)一段時(shí)間。早在1835 年,《紐約太陽(yáng)報(bào)》發(fā)表了一系列文章,描述了在月球上發(fā)現(xiàn)生命,被稱為“月球大騙局”[1]。然而,“虛假新聞”一詞時(shí)至今日都沒有公認(rèn)的定義。因此,綜合比較了現(xiàn)有一些被廣泛使用的假新聞定義,從中選擇如下定義:虛假新聞是指有意圖的并且被證實(shí)是假的新聞文章[2]。但由于人們天生就不擅長(zhǎng)區(qū)分真新聞和假新聞,傳統(tǒng)的虛假新聞主要是利用人們心理的弱點(diǎn)來攻擊他們,有兩個(gè)心理學(xué)概念可以解釋這一現(xiàn)象。
(1)樸素實(shí)在論(Naive Realism):人們認(rèn)為他們對(duì)現(xiàn)實(shí)的感知是正確的,而不同意其感知的人則被認(rèn)為是不理性的或有偏見的[3];
(2)確認(rèn)偏差(Confirmation Bias):人們更愿意接受符合他們世界觀價(jià)值觀的事[4]。
據(jù)《2019 年虛假新聞研究報(bào)告》[5]顯示:隨著傳媒環(huán)境的急劇變遷,社交媒體平臺(tái)成為人們獲取新聞信息最主要的渠道。從報(bào)紙到廣播、電視,現(xiàn)在是網(wǎng)絡(luò)新聞和社交媒體,虛假新聞的媒體生態(tài)環(huán)境已經(jīng)發(fā)生了變化,并且面臨著更加復(fù)雜的情況。社交媒體對(duì)于新聞傳播來說是一把雙刃劍。一方面,社交媒體以其易獲取、信息傳播迅速、廉價(jià)等特點(diǎn),使得人們可以通過社交媒體快速獲得并傳播新聞。另一方面,社交媒體摒棄了傳統(tǒng)的新聞標(biāo)準(zhǔn),沒有固定格式和寫作風(fēng)格,海量無規(guī)則的信息數(shù)據(jù)都增加了虛假新聞監(jiān)管難度。此外,由于社交媒體中的回壁音效應(yīng)和惡意賬號(hào)(比如社交機(jī)器人)泛濫,缺乏可靠的第三方對(duì)新聞進(jìn)行篩選和核查,使得虛假新聞在社交媒體中的傳播速度明顯快于傳統(tǒng)媒體,這些都為“虛假新聞”的廣泛傳播創(chuàng)造了“有利”條件。毫無疑問的是,假新聞的廣泛傳播會(huì)對(duì)個(gè)人和社會(huì)產(chǎn)生極其負(fù)面的影響。因此,現(xiàn)階段社交媒體上的虛假新聞檢測(cè)成了一項(xiàng)備受關(guān)注的新興研究。
傳統(tǒng)虛假新聞檢測(cè)主要依靠新聞內(nèi)容特征,而在社交媒體中,因?yàn)槠渑c之前不同的新聞產(chǎn)生、分享、傳播的方式,所以在虛假新聞檢測(cè)階段,需要增加額外的社會(huì)語(yǔ)境信息作為輔助信息,來幫助檢測(cè)虛假新聞?,F(xiàn)階段根據(jù)虛假新聞檢測(cè)所需要的不同特征,將虛假新聞檢測(cè)技術(shù)主要分為三個(gè)類:基于內(nèi)容特征的虛假新聞檢測(cè)技術(shù)、基于社會(huì)語(yǔ)境特征的虛假新聞檢測(cè)技術(shù)和基于內(nèi)容和社會(huì)語(yǔ)境特征的虛假新聞檢測(cè)技術(shù)。
基于內(nèi)容特征的虛假新聞檢測(cè)技術(shù)研究的特征包括新聞來源、新聞標(biāo)題、新聞?wù)?、新聞中包含的圖像或視頻等新聞的元信息?;谏鐣?huì)語(yǔ)境特征的虛假新聞檢測(cè)技術(shù)研究的特征主要分為2 個(gè)方向:基于語(yǔ)言特征和基于視覺特征。通過對(duì)元信息的屬性分析,提取其中新聞?wù)膶懽黠L(fēng)格、新聞中圖像信息、新聞中視頻信息等特征進(jìn)行虛假新聞檢測(cè)。
基于社會(huì)語(yǔ)境特征的虛假新聞檢測(cè)技術(shù)研究的特征主要分為三個(gè)方向:用戶、帖子和網(wǎng)絡(luò)。基于用戶的虛假新聞檢測(cè)技術(shù)主要利用基于用戶檔案信息(用戶檔案信息包括注冊(cè)年齡、關(guān)注者/粉絲數(shù)量、用戶發(fā)表的推文數(shù)量等信息)來捕獲用戶的個(gè)人信息和特征,用于虛假新聞檢測(cè);基于帖子的虛假新聞檢測(cè)技術(shù)主要利用人們發(fā)表的帖子來判斷用戶對(duì)虛假新聞的觀點(diǎn)或立場(chǎng),來推斷新聞文章的真實(shí)性;基于網(wǎng)絡(luò)的虛假新聞檢測(cè)技術(shù)主要根據(jù)相關(guān)帖子在社交網(wǎng)絡(luò)中的關(guān)聯(lián)關(guān)系,提取其中的網(wǎng)絡(luò)特征來檢測(cè)虛假新聞,預(yù)測(cè)新聞可信度(基本假設(shè)是新聞的可信度與相關(guān)社交媒體帖子的可信度高度相關(guān))
基于內(nèi)容和社會(huì)語(yǔ)境特征的虛假新聞檢測(cè)技術(shù)綜合了基于內(nèi)容特征的虛假新聞檢測(cè)技術(shù)和基于社會(huì)語(yǔ)境特征的虛假新聞檢測(cè)技術(shù)兩類方法,將新聞的元信息和社交網(wǎng)絡(luò)中的上下文社會(huì)語(yǔ)境信息等多種特征進(jìn)行提取與融合,來檢測(cè)虛假新聞。
虛假新聞檢測(cè)作為一個(gè)分類問題,數(shù)據(jù)標(biāo)注質(zhì)量對(duì)分類器的訓(xùn)練起著很重要的作用,但數(shù)據(jù)標(biāo)注工作往往需要耗費(fèi)大量的時(shí)間和金錢。因此,現(xiàn)有研究基本上都是基于已有的數(shù)據(jù)集進(jìn)行展開的,下面對(duì)現(xiàn)有的代表性數(shù)據(jù)集及其使用場(chǎng)景進(jìn)行簡(jiǎn)單介紹。
BuzzFeedNews 數(shù)據(jù)集包含了2016 年美國(guó)大選前一周(9 月19日至23 日、9 月26 日至27 日)9 家新聞機(jī)構(gòu)在Facebook 上發(fā)布的完整新聞文章。每一篇文章和相關(guān)文章都經(jīng)過了5 名BuzzFeed 記者逐條核實(shí)。數(shù)據(jù)集內(nèi)包含作者、標(biāo)題、正文等屬性信息,適用于基于內(nèi)容特征的虛假新聞檢測(cè)算法。
LIAR[6]數(shù)據(jù)集通過API 從事實(shí)核查網(wǎng)站PolitiFact 收集并整理,它包括了12836 個(gè)帶有真假標(biāo)記的新聞信息,這些信息來自不同的語(yǔ)境場(chǎng)景,其中包括新聞發(fā)布、電視或電臺(tái)采訪、競(jìng)選演講等。新聞標(biāo)簽包含6 個(gè)類別:pants-fire、false、barely-true、half-true、mostly true 和true。數(shù)據(jù)集內(nèi)包含文本內(nèi)容、陳述人、語(yǔ)境、標(biāo)簽等信息,適用基于內(nèi)容特征的虛假新聞檢測(cè)算法。
FakeNewsNet 數(shù)據(jù)集[7]通過從GossipCop 和PolitiFact 收集在Twitter 上分享的文章的新聞內(nèi)容(來源、標(biāo)題、正文等元信息)和背景信息(用戶檔案、關(guān)注者、粉絲等信息)。數(shù)據(jù)集內(nèi)包含標(biāo)注真假新聞標(biāo)簽的新聞內(nèi)容和相關(guān)的社會(huì)語(yǔ)境特征,適用基于內(nèi)容特征和社會(huì)語(yǔ)境特征結(jié)合的虛假新聞檢測(cè)算法。
CREDBANK 這是一個(gè)大規(guī)模的眾包數(shù)據(jù)集,從2015 年10 月開始,覆蓋96 天,大約有6000 萬(wàn)條推文。所有的推文都由30 個(gè)評(píng)論員進(jìn)行可信度評(píng)估。該數(shù)據(jù)集包含新聞內(nèi)容和人工標(biāo)注的真假新聞標(biāo)簽,適用基于內(nèi)容特征的虛假新聞檢測(cè)算法。
虛假新聞檢測(cè)問題視為一個(gè)分類問題,用來預(yù)測(cè)一篇新聞文章是否為假新聞。使用的分類方法,包括傳統(tǒng)的機(jī)器學(xué)習(xí)算法(比如邏輯回歸算法、支持向量機(jī)和隨機(jī)森林等算法)、深度學(xué)習(xí)(包括卷積和遞歸神經(jīng)網(wǎng)絡(luò))和其他模型(矩陣分解和貝葉斯推理等模型)。為了評(píng)估假新聞檢測(cè)算法的性能,介紹了4 個(gè)基本概念(真陽(yáng)性、真陰性、假陰性、假陽(yáng)性)和4 個(gè)評(píng)價(jià)指標(biāo)(精確率、召回率、F1、準(zhǔn)確率如公式(1)、(2)、(3)、(4)所示),這些指標(biāo)可以幫助從不同的角度評(píng)估算法分類器的性能。
(1)真陽(yáng)性(True Positive,TP):當(dāng)被預(yù)測(cè)的假新聞實(shí)際上被標(biāo)注為假新聞時(shí);
(2)真陰性(True Negative,TN):當(dāng)被預(yù)測(cè)的真新聞實(shí)際上被標(biāo)注為真新聞時(shí);
(3)假陰性(False Negative,F(xiàn)N):當(dāng)被預(yù)測(cè)的真新聞實(shí)際上被標(biāo)注為假新聞時(shí);
(4)假陽(yáng)性(False Positive,F(xiàn)P):當(dāng)被預(yù)測(cè)的假新聞實(shí)際上被標(biāo)注為真新聞時(shí)。
在虛假新聞檢測(cè)具體問題中,準(zhǔn)確率衡量的是預(yù)測(cè)假新聞和真實(shí)假新聞之間的相似度;召回率衡量的是虛假新聞檢測(cè)分類器的敏感性;F1 衡量的是虛假新聞檢測(cè)分類器的預(yù)測(cè)性能;精確率衡量的是所有檢測(cè)到的被標(biāo)注為假新聞的假新聞的比例。
隨著社交媒體平臺(tái)的快速發(fā)展,越來越多的人從社交媒體中獲得新聞,社交媒體也被用來傳播假新聞,這對(duì)個(gè)人用戶和社會(huì)產(chǎn)生了的負(fù)面影響。在本文中,通過虛假新聞定義、虛假新聞檢測(cè)算法分類、代表性數(shù)據(jù)集和評(píng)價(jià)指標(biāo)概述虛假新聞相關(guān)技術(shù)研究,面對(duì)現(xiàn)實(shí)生活中更加復(fù)雜的挑戰(zhàn),虛假新聞檢測(cè)技術(shù)研究還值得繼續(xù)探索。