国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)虛假信息檢測(cè)技術(shù)研究與展望

2023-01-03 12:54:49
關(guān)鍵詞:模態(tài)特征文本

王 莉

(太原理工大學(xué) 大數(shù)據(jù)學(xué)院,山西 晉中 030600)

隨著網(wǎng)絡(luò)技術(shù)的快速發(fā)展及自媒體的廣泛應(yīng)用,微博、知乎、快手、騰訊新聞等媒體平臺(tái)成為用戶發(fā)布、獲取和分享信息的重要來源和主要場(chǎng)所,但同時(shí)也為網(wǎng)絡(luò)虛假信息的滋生和泛濫提供了溫床。網(wǎng)絡(luò)虛假信息是通過媒體發(fā)布、傳播帶有虛假內(nèi)容的新聞或消息[1],其迷惑性強(qiáng)、傳播速度快。2018年《科學(xué)》雜志刊登文章指出,社交媒體平臺(tái)中,虛假信息比真實(shí)信息傳播得更快,更廣泛,真實(shí)信息需要比虛假信息多花5倍時(shí)間,才能達(dá)到同樣的傳播量[2]。因此,虛假信息傳播在政治、經(jīng)濟(jì)、社會(huì)等各個(gè)方面造成了極為惡劣的影響。例如,2016年美國(guó)大選期間社交媒體上產(chǎn)生的虛假信息,誤導(dǎo)選民對(duì)政治候選人的看法,甚至左右了選舉結(jié)果[3];2013年,巴拉克·奧巴馬在一次爆炸中受傷的虛假信息引發(fā)了美股巨震,兩分鐘內(nèi)蒸發(fā)了1 360億美元股值[4]。世界經(jīng)濟(jì)論壇將虛假信息列為全球最大風(fēng)險(xiǎn)之一,根據(jù)2019年的一項(xiàng)經(jīng)濟(jì)研究表明,網(wǎng)絡(luò)虛假信息每年給全球經(jīng)濟(jì)造成780億美元的損失,且還在不斷增長(zhǎng)。2020年Facebook公司刪除了700萬條關(guān)于新型冠狀病毒虛假信息的帖子[5];在國(guó)內(nèi),近幾年類似“鐘南山院士建議鹽水漱口防病毒”,“飲高度酒可消滅病毒活性”,“小孩做核酸被捅死”等虛假信息的傳播,讓不明真相的民眾更加焦慮和恐慌,極大地干擾了疫情防控工作。世界衛(wèi)生組織提出了“信疫”概念,指出人類不僅要打贏現(xiàn)實(shí)世界大流行的新冠病毒之戰(zhàn),也必須打贏網(wǎng)絡(luò)空間大流行的信疫之戰(zhàn)。由此可見,網(wǎng)絡(luò)虛假信息問題已經(jīng)十分嚴(yán)峻,亟需探索高效的虛假信息檢測(cè)方法,阻斷虛假信息傳播,保障網(wǎng)絡(luò)空間信息可信、安全。

1 虛假信息檢測(cè)的研究現(xiàn)狀

近年來,虛假信息檢測(cè)已成為國(guó)內(nèi)外研究熱點(diǎn),相關(guān)研究通常是把它建模為一個(gè)分類問題。存在兩種問題建模:一種是將其定義為二分類問題,即虛假信息(T)和真實(shí)信息(F)。另一種是將其定義為四分類問題,即分為非謠言(N)、經(jīng)過驗(yàn)證的非謠言(F)、真謠言(T)、未經(jīng)驗(yàn)證的謠言(U)。大多數(shù)研究采用二分類模型,任務(wù)目標(biāo)為訓(xùn)練學(xué)習(xí)函數(shù)f:p→y,其中p為信息,y為標(biāo)簽值y∈{0,1}.

根據(jù)所使用的數(shù)據(jù)對(duì)象不同,網(wǎng)絡(luò)虛假信息檢測(cè)的研究工作可以分為三類:基于信息內(nèi)容的方法[6-33],基于用戶的方法[34-40]和基于傳播的方法[41-53]。其中,基于信息內(nèi)容的方法主要利用信息內(nèi)容進(jìn)行檢測(cè);基于用戶的方法主要利用信息發(fā)布者或轉(zhuǎn)發(fā)者的個(gè)人描述、性別、粉絲量、關(guān)注量等用戶屬性進(jìn)行虛假信息識(shí)別;基于傳播的方法主要利用信息傳播過程中的評(píng)論、轉(zhuǎn)發(fā)等特征進(jìn)行虛假信息識(shí)別。

1.1 基于信息內(nèi)容的虛假信息檢測(cè)

信息內(nèi)容是指從一條網(wǎng)絡(luò)信息中可以直接獲取到的數(shù)據(jù),采集難度小,且和信息同步,有助于實(shí)現(xiàn)虛假信息的早期檢測(cè)?;谛畔?nèi)容的虛假信息檢測(cè)方法主要分為三類:基于文本的方法、基于圖像的方法、基于文本和圖像多模態(tài)融合的方法。

1.1.1基于文本的虛假信息檢測(cè)

文本是對(duì)信息的文字描述,其中帶有作者的思想和寫作意圖,呈現(xiàn)出多樣的語言習(xí)慣和風(fēng)格。根據(jù)所使用的特征不同,基于文本的虛假信息檢測(cè)研究主要分為基于文本語言特征的方法和基于文本結(jié)構(gòu)特征的方法兩種類型。

1) 基于文本語言特征的虛假信息檢測(cè)?;谖谋菊Z言特征的虛假信息檢測(cè)方法通常以字、詞、句及其他文本特征為建模對(duì)象,依賴機(jī)器學(xué)習(xí)或深度學(xué)習(xí)方法得到豐富的語言知識(shí)以檢測(cè)虛假信息。HORNE et al[6]在單詞級(jí)別構(gòu)建了文本風(fēng)格特征、復(fù)雜性特征和心理特征,提出了一種基于支持向量機(jī)(SVM)的虛假信息檢測(cè)模型。PéREZ-ROSAS et al[7]手工構(gòu)建了文本的N-grams特征、標(biāo)點(diǎn)符號(hào)、心理語言學(xué)等單詞級(jí)別的組合特征集,訓(xùn)練支持向量機(jī)模型實(shí)現(xiàn)虛假信息檢測(cè)。這類機(jī)器學(xué)習(xí)方法在一定程度上取得了不錯(cuò)的效果,但普遍受限于復(fù)雜的預(yù)處理工作和繁瑣耗時(shí)的特征工程,并且無法用于不斷出現(xiàn)的新型造假信息,所以難以在實(shí)際應(yīng)用中發(fā)揮作用。

基于深度學(xué)習(xí)的虛假信息檢測(cè)方法可以自動(dòng)提取特征,避免了復(fù)雜特征工程,提升了檢測(cè)效率。相關(guān)研究主要利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)等方法學(xué)習(xí)信息內(nèi)容基于詞、句子、文本級(jí)別的語義表示,進(jìn)而完成虛假信息檢測(cè)。在詞級(jí)別,WANG[8]提出了一種基于深度學(xué)習(xí)的檢測(cè)方法,利用CNN和雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(BiLSTM)整合詞嵌入以檢測(cè)虛假信息。VOLKOVA et al[9]結(jié)合CNN和LSTM網(wǎng)絡(luò)融合文本語言線索和詞嵌入以評(píng)估信息真實(shí)性。DHAMANI et al[10]基于CNN與LSTM的耦合網(wǎng)絡(luò)處理表情符號(hào)、俚語、拼寫錯(cuò)誤等特征,進(jìn)而檢測(cè)虛假信息。CHAWDA et al[11]將遞歸卷積神經(jīng)網(wǎng)絡(luò)(RCNN)和LSTM應(yīng)用在虛假信息檢測(cè)中,捕獲了相鄰單詞之間的上下文依賴關(guān)系。此外,許多研究提出基于句級(jí)別和段落級(jí)別的虛假信息檢測(cè)方法。YU et al[12]基于CNN模型學(xué)習(xí)段落嵌入表征以提取信息的高級(jí)文本特征。AHN et al[13]使用預(yù)訓(xùn)練語言模型BERT,在句子級(jí)別檢測(cè)虛假信息。張恒[14]構(gòu)造了LSTM和CNN的混合模型,引入前饋式注意力機(jī)制和基于上下文的注意力機(jī)制檢測(cè)虛假信息。LIU et al[15]以N-gram為計(jì)算單元,提出一種基于分層注意力機(jī)制的CNN和Bi-LSTM結(jié)合的虛假信息檢測(cè)方法。

2) 基于文本結(jié)構(gòu)特征的虛假信息檢測(cè)。文本是由詞、短語、句子、段落、篇章等不同粒度的文本單元按照一定關(guān)系搭建起來的有序結(jié)構(gòu),不同結(jié)構(gòu)反映了內(nèi)容主體的因果、順承、轉(zhuǎn)折、強(qiáng)調(diào)、限制等邏輯信息,表達(dá)出不同的語義。因此,將文本結(jié)構(gòu)關(guān)系引入將有助于提升虛假信息檢測(cè)效果。

基于文本結(jié)構(gòu)特征的虛假信息檢測(cè)研究主要分為基于樹結(jié)構(gòu)的方法和基于圖結(jié)構(gòu)的方法兩類。a.基于樹結(jié)構(gòu)的方法。ZHOU et al[16]從詞匯、句法、語義和語篇層面捕獲虛假信息的寫作風(fēng)格,使用了文本修辭結(jié)構(gòu)樹提取語篇特征,采用機(jī)器學(xué)習(xí)模型進(jìn)行檢測(cè)。UPPAL et al[17]采用深度學(xué)習(xí)技術(shù),首先利用雙向門控遞歸單元(GRU)網(wǎng)絡(luò)學(xué)習(xí)句子表征,然后基于樹形結(jié)構(gòu)整合句子表示以檢測(cè)虛假信息。b.基于圖結(jié)構(gòu)的方法。和樹結(jié)構(gòu)相比,圖結(jié)構(gòu)具有更強(qiáng)的結(jié)構(gòu)化信息表達(dá)能力。圖卷積神經(jīng)網(wǎng)絡(luò)(GCN)[18]將深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在圖結(jié)構(gòu)數(shù)據(jù)上,在自然語言處理任務(wù)中取得了許多優(yōu)異的效果[19-21]。TextGCN[19]依據(jù)整個(gè)語料庫(kù)中文本和單詞之間的關(guān)系構(gòu)建圖進(jìn)行文本節(jié)點(diǎn)分類,但該模型不適用于歸納式學(xué)習(xí),即面對(duì)訓(xùn)練數(shù)據(jù)集中沒有的新文章時(shí)需要重新構(gòu)建圖和重新訓(xùn)練。ZHANG et al[20]提出了面向歸納式學(xué)習(xí)的TextING模型,對(duì)每篇文本利用單詞之間的局部共現(xiàn)關(guān)系來構(gòu)建文本圖結(jié)構(gòu),取得了很好的文本分類效果。虛假信息檢測(cè)方面,VAIBHAV et al[21]提出,虛假信息與真實(shí)信息的全文句子間關(guān)系結(jié)構(gòu)不同,因此,以全文句子為節(jié)點(diǎn)建立完全圖,引入GCN,通過最大池化層整合句子嵌入,生成文本表示,檢測(cè)虛假信息。進(jìn)一步,考慮到全文句子之間不僅存在全局依賴關(guān)系,而且存在相鄰順序關(guān)系,WANG et al[22]提出一種基于句子間的全局語義交互關(guān)系結(jié)構(gòu)、局部相鄰順序結(jié)構(gòu)和全局順序結(jié)構(gòu)特征的虛假信息早期檢測(cè)模型SemSeq4FD.該模型構(gòu)建了句子全連接完全圖,采用GCN和自注意力機(jī)制獲得了全局句子表示;采用文本卷積神經(jīng)網(wǎng)絡(luò)針對(duì)句子順序關(guān)系處理,得到局部句子表示;兩者拼接后形成增強(qiáng)型表示,再按照全文句子順序建立LSTM網(wǎng)絡(luò),生成最終文本表示,用于虛假信息檢測(cè)。在中、英文兩種語言的數(shù)據(jù)集上進(jìn)行跨來源、跨領(lǐng)域?qū)嶒?yàn),該模型均表現(xiàn)優(yōu)秀。

1.1.2基于圖像的虛假信息檢測(cè)

虛假圖像主要表現(xiàn)為兩種形式:偽造和誤用。

Photoshop等圖像編輯軟件功能的不斷完善以及生成式對(duì)抗網(wǎng)絡(luò)在圖像合成領(lǐng)域取得的巨大成功正在降低圖像偽造的技術(shù)門檻,偽造圖像的檢測(cè)技術(shù)正在引起越來越多的關(guān)注?,F(xiàn)有的虛假圖片檢測(cè)方法主要包括基于手工特征的方法和基于深度學(xué)習(xí)的方法?;谑止ぬ卣鞯姆椒ù蠖嗷谔摷賵D像底層特征進(jìn)行分析,效率高,但通常只能檢測(cè)特定類型的篡改?;谏疃葘W(xué)習(xí)的方法不受限于篡改手段類型,具有廣闊的發(fā)展空間。ZHOU et al[23]提出了一種基于Faster R-CNN的方法,從RGB流和噪聲流中提取篡改特征,用于虛假信息檢測(cè)。QI et al[24]提出了多域視覺神經(jīng)網(wǎng)絡(luò),設(shè)計(jì)了一個(gè)包括頻域模塊、像素域模塊和融合模塊的框架,用于學(xué)習(xí)視覺表征來檢測(cè)偽造圖像。實(shí)際應(yīng)用中通常將基于特征的方法和基于深度學(xué)習(xí)的方法結(jié)合以提升檢測(cè)效果。

另一類基于圖像的虛假信息是誤用圖像,即圖像和文本不匹配,將不是同一事件的文本和圖像放在一起,混肴視聽。這類檢測(cè)一般通過對(duì)文本和圖像中的時(shí)間、地點(diǎn)、人物等關(guān)鍵信息進(jìn)行提取,評(píng)估信息匹配程度以識(shí)別虛假信息。

1.1.3基于文本和圖像多模態(tài)融合的虛假信息檢測(cè)

為了增強(qiáng)信息可讀性,越來越多的網(wǎng)絡(luò)信息包含有文本和圖像,這些不同模態(tài)之間具有互補(bǔ)性、信息增強(qiáng)作用等特性,對(duì)于更好地理解原始數(shù)據(jù)的語義有著非常重要的作用。因此,近年來,基于多模態(tài)特征融合的虛假信息檢測(cè)越來越受到關(guān)注[25]。

信息表達(dá)越充分,越有利于信息檢測(cè)效果。為了得到豐富的全文信息表達(dá),研究者們通常首先針對(duì)文本和圖像這兩種不同模態(tài)分別進(jìn)行特征表達(dá),然后采用拼接方式將兩種學(xué)習(xí)后的模態(tài)表征進(jìn)行集成。SINGHAL et al[26]利用BERT提取文本向量表征,利用VGG19提取圖像向量表征,然后將其拼接作為聯(lián)合表征。YANG et al[27]不僅從文本和圖像中提取顯式特征,而且利用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)其潛在特征,然后將文本和圖像的顯式特征和潛在特征映射到同一特征空間中進(jìn)行拼接,最后使用學(xué)習(xí)到的特征來檢測(cè)虛假信息。基于拼接的融合方式簡(jiǎn)單,但沒有挖掘和區(qū)分不同特征對(duì)虛假信息檢測(cè)的不同重要性,也沒有考慮不同模式之間的隱含關(guān)系,對(duì)虛假信息檢測(cè)性能支持有限。因此,JIN et al[28]提出了一種具有注意力機(jī)制的循環(huán)神經(jīng)網(wǎng)絡(luò)att-RNN,以融合帖子的圖像和文本特征進(jìn)行虛假信息檢測(cè)。SONG et al[29]提出了一種基于跨模態(tài)注意殘差和多通道卷積神經(jīng)網(wǎng)絡(luò)的多模態(tài)假信息檢測(cè)框架,可以根據(jù)注意力權(quán)重從另一個(gè)源模態(tài)中選擇性地提取與目標(biāo)模態(tài)相關(guān)的信息。為了進(jìn)一步學(xué)習(xí)文本和圖像之間的共享表征,WANG et al[30]提出了事件對(duì)抗神經(jīng)網(wǎng)絡(luò)EANN,其中多模態(tài)特征提取器負(fù)責(zé)從帖子中提取文本和視覺特征,它與虛假信息檢測(cè)器合作,可以學(xué)習(xí)可判別的表征來檢測(cè)虛假信息,而事件判別器的作用是去除事件的特定特征并保留事件之間的共享特征,由此來學(xué)習(xí)代表各種主題和領(lǐng)域的事件不變特征,從而有利于對(duì)新事件進(jìn)行檢測(cè)。KHATTAR et al[31]提出了一種多模態(tài)變分自動(dòng)編碼器(MVAE),該編碼器能夠?qū)W習(xí)文本和圖像共享表征,經(jīng)過訓(xùn)練可以發(fā)現(xiàn)推文中各種模態(tài)之間的相關(guān)性,然后將變分自動(dòng)編碼器與分類器耦合以檢測(cè)虛假信息。ZHOU et al[32]提出了相似度感知模型來研究文本和圖像信息之間的相似性在檢測(cè)虛假信息中的作用。孟杰等[33]提出了一種基于雙重注意力機(jī)制的多模態(tài)深度融合虛假信息檢測(cè)模型MMDF,采用雙向門控循環(huán)單元GRU結(jié)構(gòu)提取文本語義特征,通過多分支卷積-循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)提取圖像的多層次語義特征以及不同層次特征之間的順序依賴關(guān)系;然后利用模間注意力機(jī)制融合文本特征和圖像的不同層次語義特征,利用模內(nèi)注意力機(jī)制分別聚合增強(qiáng)型文本內(nèi)部表征和增強(qiáng)型圖像內(nèi)部表征,最后利用注意力機(jī)制將文本和圖像的原始信息注入到多模態(tài)聯(lián)合表征中,加強(qiáng)原信息的作用,進(jìn)行虛假信息預(yù)測(cè)。

總之,基于文本圖像融合的虛假信息檢測(cè)研究主要集中在各模態(tài)表征學(xué)習(xí)、多模態(tài)融合機(jī)制的設(shè)計(jì)等環(huán)節(jié),以期形成多模態(tài)數(shù)據(jù)協(xié)同,提升檢測(cè)性能。

1.2 基于用戶畫像的虛假信息檢測(cè)

在社交媒體網(wǎng)絡(luò)上,用戶是消息傳播的主體,用戶的身份信息在一定程度上代表了其發(fā)布內(nèi)容的可信度。用戶信息,一般指可從社交媒體網(wǎng)絡(luò)上獲取的個(gè)人描述、性別、粉絲量、關(guān)注量、居住城市和愛好等屬性信息,一定程度上隱含了用戶權(quán)威程度和可信度。比如,一些大V用戶,具有賬號(hào)等級(jí)高、地理位置可見、發(fā)布頻率具有規(guī)律等特點(diǎn),其發(fā)布的消息可信度也較高;而一些未經(jīng)驗(yàn)證的普通用戶賬號(hào),賬號(hào)信息少,發(fā)布信息無規(guī)律,網(wǎng)絡(luò)社交關(guān)系異于通常情況,其發(fā)布或轉(zhuǎn)發(fā)的消息則很有可能是虛假信息。因此,引入用戶社交屬性信息,將從另一方面輔助提升虛假信息檢測(cè)的性能,具有重大的應(yīng)用價(jià)值。

研究者們對(duì)于用戶屬性與虛假信息檢測(cè)間的關(guān)系進(jìn)行了多方面的積極探索。GHENAI et al[34]分析了在Twitter上發(fā)布健康類虛假信息的一類用戶,將這類用戶同正常用戶進(jìn)行了多方面的對(duì)比,構(gòu)建了用戶屬性集合,然后將這些屬性特征輸入到Logistic分類器中進(jìn)行分類,實(shí)驗(yàn)結(jié)果證明基于用戶屬性建模的有效性。YANG et al[35]提取基于用戶的特征取得了不錯(cuò)的分類效果,其中用戶特征包括性別、居住地和粉絲量等。CASTILLO et al[36]利用Twitter上的一組用戶特征來檢測(cè)虛假信息,這些特征包括粉絲量、朋友數(shù)、注冊(cè)年月等。SHU et al[37]為了揭示用戶特征和虛假信息之間的聯(lián)系,對(duì)用戶顯式特征和隱式特征進(jìn)行了比較分析,揭示了有些用戶特征有助于檢測(cè)虛假信息。他們的工作為深入探索社交媒體的用戶特征提供了寶貴經(jīng)驗(yàn)。LIU和WU[38]結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)RNN和卷積神經(jīng)網(wǎng)絡(luò)CNN來基于用戶特征學(xué)習(xí)高級(jí)表示。該方法被證明有非常好的虛假信息早期檢測(cè)性能,同時(shí)該工作也是第一次將深度學(xué)習(xí)作用于用戶特征進(jìn)行虛假信息檢測(cè)的工作。LU和LI[39]將參與社交的所有用戶構(gòu)建為一個(gè)完全連通圖以輔助檢測(cè)虛假信息,大大提升了虛假信息檢測(cè)的結(jié)果。薛海清等[40]提出一種基于用戶傳播網(wǎng)絡(luò)與消息內(nèi)容融合的虛假信息檢測(cè)模型,利用多模態(tài)門控單元對(duì)用戶社交屬性表征、結(jié)構(gòu)表征和帖子內(nèi)容表征進(jìn)行融合,增強(qiáng)了信息表征,提高了虛假信息檢測(cè)效果。

1.3 基于傳播的虛假信息檢測(cè)

社交媒體網(wǎng)絡(luò)上,消息被發(fā)布后,每個(gè)用戶都可以對(duì)其進(jìn)行點(diǎn)贊、評(píng)論、轉(zhuǎn)發(fā)及分享,這些社交活動(dòng)構(gòu)成了信息的傳播網(wǎng)絡(luò),其中包含了許多對(duì)消息真實(shí)性判斷有幫助的潛在信息。例如:評(píng)論,通常是公眾對(duì)原文的真實(shí)反映和觀點(diǎn),而且評(píng)論數(shù)據(jù)通常和原文在同一頁上,數(shù)據(jù)獲取簡(jiǎn)單;轉(zhuǎn)發(fā),與評(píng)論一樣包含了公眾的觀點(diǎn),且體量更大,但數(shù)據(jù)質(zhì)量參差不齊。這些信息傳播中的各種行為從另一個(gè)角度為虛假信息檢測(cè)提供了新的線索。當(dāng)前基于傳播的虛假信息檢測(cè)研究主要集中在對(duì)評(píng)論和轉(zhuǎn)發(fā)行為的利用上,所以本文從基于評(píng)論的方法和轉(zhuǎn)發(fā)的方法兩方面展開闡述分析。

1.3.1基于評(píng)論的虛假信息檢測(cè)

基于評(píng)論的方法一般是通過挖掘評(píng)論和原文的關(guān)系以提升檢測(cè)效果。張仰森等[41]提出通過計(jì)算評(píng)論的異常度來實(shí)現(xiàn)對(duì)虛假信息的檢測(cè)。MA et al[42]基于評(píng)論順序建立了樹結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)RvNN,從評(píng)論和文本內(nèi)容中捕捉各節(jié)點(diǎn)的隱藏表示,用于分類。SHU et al[43]意識(shí)到評(píng)論與原文關(guān)聯(lián)關(guān)系的重要性,提出dEFEND模型來學(xué)習(xí)貼子和評(píng)論之間的語義關(guān)聯(lián),并使用互注意力機(jī)制提供可解釋性,取得了較好的虛假信息檢測(cè)結(jié)果。WU et al[44]提出了自適應(yīng)交互融合網(wǎng)絡(luò)AIFN來實(shí)現(xiàn)帖子和評(píng)論的融合并將其用于虛假信息檢測(cè)任務(wù)。YANAGI et al[45]認(rèn)為評(píng)論對(duì)于虛假信息檢測(cè)任務(wù)非常重要,但是有些消息可能存在評(píng)論不足的問題,他們通過訓(xùn)練生成器模型來為消息生成評(píng)論進(jìn)而提高檢測(cè)性能。LIN et al[46]在評(píng)論轉(zhuǎn)發(fā)圖的基礎(chǔ)上增強(qiáng)了用戶交互,提出了層次圖注意力模型,取得了較好的虛假信息檢測(cè)結(jié)果。YANG et al[47]從原文和評(píng)論的回復(fù)結(jié)構(gòu)、原文和評(píng)論的相互選擇、評(píng)論內(nèi)部的主題漂移三方面進(jìn)行建模,提出一種基于原文和評(píng)論的虛假信息檢測(cè)模型PostCom2DR,在中文和英文虛假信息檢測(cè)中均提升了檢測(cè)準(zhǔn)確率。

1.3.2基于轉(zhuǎn)發(fā)的虛假信息檢測(cè)

現(xiàn)有的研究根據(jù)建模類型的不同,主要可以分為3種:基于轉(zhuǎn)發(fā)鏈的方法、基于轉(zhuǎn)發(fā)樹的方法和基于轉(zhuǎn)發(fā)圖的方法。

基于轉(zhuǎn)發(fā)鏈的方法主要將消息的所有轉(zhuǎn)發(fā)按照時(shí)間順序看成一個(gè)時(shí)間鏈來處理。KWON et al[48]研究虛假信息和真實(shí)信息在轉(zhuǎn)發(fā)上的差異,并從時(shí)間和內(nèi)容兩個(gè)方面分析得出一系列轉(zhuǎn)發(fā)特征,然后利用機(jī)器學(xué)習(xí)方法來判斷一個(gè)貼子是否是虛假信息?;谵D(zhuǎn)發(fā)樹的方法則主要將信息的轉(zhuǎn)發(fā)建模為一棵消息樹,通過對(duì)消息轉(zhuǎn)發(fā)樹中根節(jié)點(diǎn)到葉子節(jié)點(diǎn)的路徑進(jìn)行一系列操作來檢測(cè)虛假信息。LAO et al[49]通過結(jié)合虛假信息轉(zhuǎn)發(fā)鏈與轉(zhuǎn)發(fā)樹的方式提出了RDLNP模型,該模型分別對(duì)虛假信息的擴(kuò)散和時(shí)序信息進(jìn)行建模,被證明有較好的結(jié)果。但上述做法通常僅關(guān)注學(xué)習(xí)轉(zhuǎn)發(fā)過程中的時(shí)間序列信息,而忽略了消息之間相互轉(zhuǎn)發(fā)的全局關(guān)系。最近的一些研究開始將消息轉(zhuǎn)發(fā)建模為一個(gè)轉(zhuǎn)發(fā)圖,然后利用圖網(wǎng)絡(luò)技術(shù)來解決虛假信息檢測(cè)問題。WEI et al[50]針對(duì)虛假信息檢測(cè)問題,提出了一種多深度M-GCN模型,該模型能夠捕獲多尺度的鄰居信息。WU et al[51]對(duì)消息轉(zhuǎn)發(fā)時(shí)形成的消息轉(zhuǎn)發(fā)圖迭代的使用圖神經(jīng)網(wǎng)絡(luò)直到收斂,將收斂之后的節(jié)點(diǎn)表示用于分類。BIAN et al[52]將轉(zhuǎn)發(fā)結(jié)構(gòu)建模為轉(zhuǎn)發(fā)圖,建立雙向圖卷積網(wǎng)絡(luò)biGCN學(xué)習(xí)轉(zhuǎn)發(fā)中的結(jié)構(gòu)特征,然后結(jié)合原文進(jìn)行虛假信息檢測(cè)。楊延杰等[53]引入融合門控的圖卷積神經(jīng)網(wǎng)絡(luò),提出了一種基于原文和轉(zhuǎn)發(fā)網(wǎng)絡(luò)的虛假信息檢測(cè)模型GUCNH,在中英文虛假信息檢測(cè)以及早檢測(cè)方面均具有明顯優(yōu)勢(shì)。

1.4 虛假信息檢測(cè)系統(tǒng)

當(dāng)前,國(guó)內(nèi)外各政府及相關(guān)機(jī)構(gòu)紛紛出臺(tái)相關(guān)法律、法規(guī)對(duì)發(fā)布和傳播虛假信息的行為進(jìn)行打擊,各互聯(lián)網(wǎng)企業(yè)、網(wǎng)站平臺(tái)等紛紛設(shè)立檢測(cè)機(jī)制進(jìn)行虛假信息鑒別。在美國(guó),臉書公司鼓勵(lì)用戶舉報(bào)虛假帖子,并雇用專業(yè)的事實(shí)檢查人員來檢測(cè)虛假信息。國(guó)外Snopes、 FactCheck、PolitiFact等網(wǎng)站利用人工及多技術(shù)結(jié)合查驗(yàn)信息真假。在國(guó)內(nèi),國(guó)家網(wǎng)信辦、各省市互聯(lián)網(wǎng)信息辦公室等機(jī)構(gòu)設(shè)立了中國(guó)互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái)、各地市辟謠平臺(tái)等,進(jìn)行權(quán)威發(fā)布、媒體求證、謠言舉報(bào)、信息核實(shí)和辟謠課堂學(xué)習(xí)及宣傳等。這些平臺(tái)主要采用人工審核及多技術(shù)手段結(jié)合方式識(shí)別不實(shí)信息,同時(shí)承擔(dān)了宣傳和網(wǎng)民新媒體素養(yǎng)的教育職能。

除了運(yùn)營(yíng)或商用平臺(tái)外,研究者們也在開發(fā)各種自動(dòng)化虛假信息檢測(cè)系統(tǒng),以期減少當(dāng)前平臺(tái)上主要依賴人工核實(shí)信息的勞動(dòng)強(qiáng)度和難度,實(shí)現(xiàn)自動(dòng)信息檢測(cè)。SHU et al[54]提出了一個(gè)端到端的虛假信息檢測(cè)工具FakeNewsTracker,對(duì)信息進(jìn)行真假檢測(cè)和特征可視化。蔣昊[55]針對(duì)虛假信息傳播過程,建模實(shí)現(xiàn)了一個(gè)基于傳播結(jié)構(gòu)的虛假信息檢測(cè)系統(tǒng)。常超舜[56]開發(fā)了一個(gè)在線虛假信息檢測(cè)和分析的系統(tǒng),通過網(wǎng)絡(luò)爬蟲匹配一些官方辟謠數(shù)據(jù),對(duì)未匹配到的信息應(yīng)用深度學(xué)習(xí)算法模型進(jìn)行識(shí)別。在可解釋的虛假信息檢測(cè)系統(tǒng)研究方面,YANG et al[57]提出了XFake模型,利用決策樹、自注意力機(jī)制和XGBoost分類器從多個(gè)角度分析和檢測(cè)虛假信息,并提供可視化解釋作為證據(jù)。PRZYBYA et al[58]從文本風(fēng)格特征、句子相似度等方面,構(gòu)建了可解釋的虛假信息檢測(cè)工具Credibilator。該系統(tǒng)基于Chrome擴(kuò)展程序,具有方便檢測(cè)的優(yōu)點(diǎn),但是僅支持全頁面檢測(cè)、英文檢測(cè)。太原理工大學(xué)大數(shù)據(jù)智能理論與工程研究中心王莉教授團(tuán)隊(duì)開發(fā)了一套在線虛假信息實(shí)時(shí)檢測(cè)與交互式擴(kuò)展系統(tǒng),該系統(tǒng)作為瀏覽器端插件直接擴(kuò)展,無需專門安裝;后端嵌入自有產(chǎn)權(quán)的算法模型,可同時(shí)實(shí)現(xiàn)中文、英文信息的虛假性檢測(cè);具有虛假信息實(shí)時(shí)檢測(cè)、用戶交互反饋和模型因果解釋三大功能,支持模型持續(xù)學(xué)習(xí)、自修正及解釋等能力。

2 挑戰(zhàn)及未來研究方向

網(wǎng)絡(luò)信息爆炸的今天,各種虛假信息給國(guó)家、社會(huì)、企業(yè)和個(gè)人造成了極大的負(fù)面影響和危害。網(wǎng)絡(luò)虛假信息檢測(cè)已經(jīng)成為維護(hù)網(wǎng)絡(luò)空間秩序、保障人民生命財(cái)產(chǎn)安全、社會(huì)穩(wěn)定、國(guó)家安全的一項(xiàng)重要措施。國(guó)內(nèi)外企業(yè)界和學(xué)術(shù)界紛紛展開研究和探索,近年來出現(xiàn)了許多研究成果。但是由于虛假信息跨領(lǐng)域、跨語言、跨平臺(tái)以及虛假信息制造者手段的不斷更新,虛假信息的自動(dòng)檢測(cè)仍然任重而道遠(yuǎn)。通過對(duì)國(guó)內(nèi)外相關(guān)領(lǐng)域研究工作的調(diào)研和分析,本文認(rèn)為網(wǎng)絡(luò)虛假信息檢測(cè)仍然存在數(shù)據(jù)、模型以及跨模態(tài)檢測(cè)等方面的挑戰(zhàn)。

1) 數(shù)據(jù)問題。主要表現(xiàn)為標(biāo)注數(shù)據(jù)的缺乏、不同領(lǐng)域虛假信息數(shù)據(jù)分布的不均衡以及與真實(shí)信息數(shù)據(jù)相比的數(shù)據(jù)不平衡問題,這些都在一定程度上制約了以深度學(xué)習(xí)為核心數(shù)據(jù)驅(qū)動(dòng)的虛假信息檢測(cè)技術(shù)的發(fā)展。所以,在未來,一方面需要相關(guān)機(jī)構(gòu)或研究者聯(lián)合起來,積極進(jìn)行公開共享數(shù)據(jù)集建設(shè);另一方面,需要研究小樣本等對(duì)數(shù)據(jù)依賴小的新興檢測(cè)技術(shù)。

2) 模型適配與遷移問題。一些數(shù)據(jù)分析的工作表明,不同領(lǐng)域的信息數(shù)量、信息可得性、虛假信息占比分布等具有差異,如何利用容易采集的民生、娛樂等領(lǐng)域數(shù)據(jù)訓(xùn)練出具有一定普適性的檢測(cè)模型或易于遷移的模型,用以跨領(lǐng)域、跨平臺(tái)、跨來源的信息檢測(cè),是虛假信息檢測(cè)技術(shù)落地應(yīng)用所無法避開的一個(gè)問題。

3) 跨模態(tài)檢測(cè)。當(dāng)前網(wǎng)絡(luò)的信息載體主要有文本、圖片、視頻與語音等,不同模態(tài)的造假技術(shù)也各有不同;虛假信息的表現(xiàn)呈現(xiàn)出多樣化,文本造假、文本關(guān)鍵信息缺失、圖片造假、圖片誤用、語音拼接等,如何利用多種模態(tài)的信息,跨模態(tài)檢測(cè)、融合多模態(tài)檢測(cè)是未來虛假信息檢測(cè)的一個(gè)重要研究方向。

3 總結(jié)和展望

網(wǎng)絡(luò)空間中,虛假信息的制造和檢測(cè)將構(gòu)成貫穿網(wǎng)絡(luò)全生命周期的永遠(yuǎn)的博弈。虛假信息檢測(cè)問題的研究,不僅是技術(shù)問題,也是法律、宣傳、教育、認(rèn)知等各方面的問題,需要國(guó)家、企業(yè)、教育、民眾等各級(jí)機(jī)構(gòu)和所有大眾的深度參與和認(rèn)真覺悟。深度學(xué)習(xí)、知識(shí)圖譜、認(rèn)知心理等科學(xué)技術(shù)將會(huì)深度融合,在技術(shù)方面發(fā)揮出重要的支撐作用。

猜你喜歡
模態(tài)特征文本
如何表達(dá)“特征”
在808DA上文本顯示的改善
不忠誠(chéng)的四個(gè)特征
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
抓住特征巧觀察
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
國(guó)內(nèi)多模態(tài)教學(xué)研究回顧與展望
基于HHT和Prony算法的電力系統(tǒng)低頻振蕩模態(tài)識(shí)別
由單個(gè)模態(tài)構(gòu)造對(duì)稱簡(jiǎn)支梁的抗彎剛度
如何快速走進(jìn)文本
南陵县| 咸宁市| 屯留县| 灌云县| 奇台县| 达孜县| 星子县| 米脂县| 尚志市| 抚州市| 临高县| 白银市| 青冈县| 日照市| 宣汉县| 开远市| 玉门市| 仪征市| 漳浦县| 河津市| 巴林左旗| 前郭尔| 黔南| 蒙山县| 禹州市| 永新县| 托里县| 博兴县| 邮箱| 固原市| 新绛县| 福清市| 洛隆县| 临潭县| 玉龙| 屏东县| 安泽县| 手机| 镇原县| 奉节县| 贵定县|