王浩,高玉君,劉孫俊
(1. 成都信息工程大學軟件工程學院,成都610225;2.四川大學網(wǎng)絡空間安全學院,成都610065)
隨著Web2.0 時代的到來,Twitter、Facebook、微博、貼吧等新的社交媒體平臺得以快速發(fā)展。由于微博具有言論自由、信息及時,內(nèi)容多樣等特點,且微博的傳播方式在不斷更新,不僅拓寬了社交的厚度與廣度而且極大地豐富了我們的日常生活。微博已逐漸成為人們獲取信息的重要來源。然而在享受微博為我們帶來的便利的同時,也促進了微博謠言的傳播。微博中的謠言信息在傳播過程中會被不斷地歪曲以及放大。不僅危害網(wǎng)絡健康,嚴重的還引起社會的恐慌,影響社會安定有序。因此,及時而準確地識別微博謠言對凈化社交網(wǎng)絡具有重要的意義,也利于政府部門對輿情進行有效的監(jiān)控,引導正確的輿論導向。所以微博謠言檢測勢在必行。
正是因為近年來微博謠言的泛濫表現(xiàn)出嚴重的危害,所以對于微博謠言的檢測的研究備受學術(shù)界和政府的重視。雖然許多研究工作正積極解決這個問題,但微博謠言檢測仍面臨著許多挑戰(zhàn):
首先,由于微博擁有巨大且穩(wěn)定的活躍用戶數(shù)而產(chǎn)生大量如商業(yè)廣告、個人情感、日志記錄等大量無用的信息,而現(xiàn)有的謠言檢測方法無法對這些所有信息進行謠言檢測。如果對每天產(chǎn)生所有信息進行謠言檢測,這不但沒有必要而且不可行。不僅會導致謠言檢測存在滯后性,而且還會出現(xiàn)謠言檢測冷啟動等問題。
其次,文本特征對謠言檢測非常重要。但現(xiàn)在研究對微博文本特征的處理一般使用詞袋的方式處理[1]。這種數(shù)據(jù)處理的方式只是將詞符號化,并沒有將詞融入到語義中去,該方法不僅忽略了上下文間的聯(lián)系、詞語間的語義關(guān)系,而且文本的向量表示十分稀疏,極大地增加了模型訓練的難度[2]。
第三,謠言的早期檢測即是在謠言生命周期中的潛伏期發(fā)現(xiàn)謠言,因為謠言在潛伏期產(chǎn)生的危害性弱,可控性強,所以謠言的早期檢測會大大降低謠言帶來的危害。但是由于潛伏期的謠言暴露的特征十分有限,所以使得謠言的早期檢測非常困難。盡管有許多早期的謠言檢測算法,但實驗得到的結(jié)果往往不盡人意。
針對上面這些挑戰(zhàn),本文的貢獻如下:
(1)為了解決對海量數(shù)據(jù)進行謠言檢測的問題,本文提出一種基于熱量模型的潛在話題檢測模型,該模型通過使用熱量模型建模,收集信息的監(jiān)控時序關(guān)系,挖掘微博中短時間內(nèi)具有大量熱度的數(shù)據(jù),僅對這部分可能產(chǎn)生輿情的信息進行判別,從而過濾掉大部分噪音數(shù)據(jù),同時克服初發(fā)微博的真實性檢測線索不足存在的檢測冷啟動問題。
(2)為了解決對微博語義的理解問題,本文提出了一種將LDA 主題模型與Transformer 模型融合的LTransformer 模型,該模型首先使用LDA 主題模型提取出詞義相近具有相同主題特征的微博,將其歸為一類,然后使用Transformer 模型用來提取對微博的上下文環(huán)境以及文本語法等因素,即是能較好地利用謠言的語境信息等特征,獲取更為豐富的語義表示,能極大地提升后續(xù)分類的準確率。
(3)為了解決早期謠言檢測的問題,與其他現(xiàn)有先進的謠言檢測算法相比較,本文提出的方法的表現(xiàn)也超越了其他基線方法的性能。
謠言由于其傳播速度快,影響范圍廣,危害性大等性質(zhì),所以在微博謠言的檢測方面,對學術(shù)界都提出了不小的挑戰(zhàn)。學術(shù)界對該問題展開了積極的研究。微博謠言的識別從之前傳統(tǒng)的人工檢測向機器學習發(fā)展,由簡單常用的機器學習向結(jié)構(gòu)復雜的深度學習發(fā)展,挖掘的特征由淺層特征向隱藏且深層的特征轉(zhuǎn)變??偨Y(jié)主要有以下三類方法:
現(xiàn)目前微博使用的謠言檢測大多為人工檢測。但由于人工檢測無法處理海量數(shù)據(jù),且人工檢測存在極大的時延等問題,使其越來越不適應當今的真實微博平臺。研究出能自動進行微博謠言檢測的方法迫在眉睫。
常用的機器學習算法的微博謠言檢測模型中,如何選擇與提取出較好的特征對謠言判別的準確度有重要的影響。Castillo 等人使用消息內(nèi)容、主題、用戶、傳播結(jié)構(gòu)等四類特征來判斷Twitter 上微博主題信息的可信度[3]。Yang 在注冊信息和傳播信息的基礎(chǔ)上,新引入了微博發(fā)布的地理位置和客戶端類型[4]。Xiong 等人使用GTB 算法識別重要特征并刪除其他特征來對特征進行選擇[5]。Yu 等人考慮謠言傳播的邊界效應,提出一種廣義謠言中心性的方法來解決準確識別謠言傳播的初始來源[6]。方法[6]考慮了謠言用戶節(jié)點之間的關(guān)系,但“開小號”,現(xiàn)象在用戶節(jié)點分析中不存在意義。而Ma 等人提出了一種基于時序序列的社會網(wǎng)絡不實信息檢測算法,該算法根據(jù)構(gòu)建了一組時序檢測特征對算法進行驗證[7]。Ghenai 等人采用基于LDA 的自動主題發(fā)現(xiàn)以及專家引導的信息檢索方法來識別相關(guān)tweet,并利用眾包,區(qū)分謠言與澄清推文[8]。而在后面這些方法[7-8]里面,試圖挖掘文本和時序特征,試圖解決深層次的文本特征與加入時間序列等隱式特征對謠言檢測影響。淺層的機器學習算法十分依賴于人們對特征的選取,雖然都一定程度的減輕了人工檢測的負擔,但使用淺層機器學習仍然沒法解決還是沒辦法解決數(shù)據(jù)量巨大,無法實現(xiàn)早期檢測,難以獲取高維度的特征數(shù)據(jù)等問題。
由于微博謠言的檢測使用淺度機器算法需要進行特征提取與數(shù)據(jù)標注等操作,此過程需要耗費大量的人力物力,且在識別精度較差。而深度學習具有更強的特征學習能力,能學習到更復雜、本質(zhì)的特征,所以學者們逐漸將注意力轉(zhuǎn)移到深度學習。例如Ma 等人首次利用遞歸神經(jīng)網(wǎng)絡來捕捉相關(guān)帖子的內(nèi)容隨序列變化的隱藏表示[9],用來獲取更多的語義特征,但隨著遞歸神經(jīng)網(wǎng)絡層數(shù)加深出現(xiàn)梯度爆炸與消失等問題。為了解決上述方法的問題,Chen 提出了一個基于循環(huán)神經(jīng)網(wǎng)絡的深度注意力模型,該模型能選擇地學習帖子的時間隱藏表示而且能同時能捕捉上下文的隱藏表示,挖掘更深層次的文本特征[10]。為了能實現(xiàn)微博謠言的早期檢測,Nguyen 提出了一種早期謠言檢測算法,該模型能同時利用CNN 捕捉短語的局部特征以及使用LSTM 來理解全局和時態(tài)的tweet 語義,并建立了動態(tài)序列的時間結(jié)構(gòu)[11],但該方法只是在單一推特級別建模來解決這個問題,忽略了謠言之間的關(guān)系。Lukasik 提出了一種基于Hawkes 的連續(xù)時間序列過程的Twitter姿態(tài)序列分類模型,考慮了時態(tài)文本序列的文本信息與連續(xù)信息[12]。上面三個方法[10-12]加入了時間特征,在擁有極高的準確度的同時更好的觀察謠言隨時間變化而出現(xiàn)的變化。Roy 建立了基于卷積神經(jīng)網(wǎng)絡(CNN)和雙向長短時記憶的模型(雙LSTM)網(wǎng)絡,從這兩個模型學到的向量表示又輸入到多層感知器模型(MLP)中進行謠言識別[13]。為了能解決方法[11]對單一文本級別建模,Li 捕捉微博事件群體對包括情感和語義在內(nèi)的響應信息的演變[14]。方法[10,11,14]分別通過注意力機制、LSTM 或者門控單元來對不同特征施加不同的權(quán)重,控制了隱藏層的信息流動。選擇關(guān)注較高微博進行檢測,一定程度的解決了梯度爆炸等問題。
雖然深度學習較淺度機器學習擁有更高的準確率與特征學習能力,能捕獲更為深層且本質(zhì)特征。但現(xiàn)有的深度學習仍然存在訓練周期較長,面對海量數(shù)據(jù)難以實現(xiàn)全面檢測,謠言檢測的冷啟動問題仍未得到解決等。但我們提出的基于熱量模型能很好地解決如何對海量數(shù)據(jù)進行檢測的問題,且LTransformer 模型能很好地挖掘深層語義特征。
首先對數(shù)據(jù)集進行基于熱量的潛在話題模型的檢測。由點贊數(shù),關(guān)注數(shù)與轉(zhuǎn)發(fā)數(shù)形成的該條微博的關(guān)注度,和構(gòu)成該條微博的重要性一起輸入到熱量模型進行建模,篩選出那些在一個時間窗口內(nèi)熱量較多的微博,即可能為謠言的微博。其次將篩選出來的微博先通過LDA 算法提取出微博的主題特征。通過LDA算法得出每個微博包含的特征詞,然后將具有相同主題的特征即詞義相似的微博歸為一類,而不當成單一的文本來處理。最后將具有有相同主題特征的微博輸入Transformer 模型中進行語義分析。先將微博文本詞向量化后,再加上位置編碼關(guān)注詞語的上下文關(guān)系,最后輸入Transformer 模型后再用sigmod 激活函數(shù)進而將微博數(shù)據(jù)分類為正常微博與謠言微博,從而實現(xiàn)謠言檢測,本文提出的基于潛在話題微博謠言檢測模型如圖1 所示。
圖1 LTransformer模型整體框架圖
為了捕獲微博中潛在話題的特征,及時的發(fā)現(xiàn)微博中的謠言的傳播,解決謠言檢測冷啟動問題。本文采用基于熱量模型的微博潛在話題檢測。這是由于謠言形成與傳播所經(jīng)歷的生命周期與熱力學模型中的熱量傳導過程類似,在熱量模型中的溫度差ΔT 表示在單位時間內(nèi)溫度的變化,而比熱容c 和介質(zhì)質(zhì)量m 反映出介質(zhì)的性質(zhì)。而對應于謠言形成與傳播過程而言,溫度差ΔT 可以表示在單位時間內(nèi)對該微博受關(guān)注的程度,而比熱容c 則表示為是微博在網(wǎng)絡中的傳播速度,而質(zhì)量m 可以認為該微博的重要程度。單位時間微博增長的熱度Q 可以看作是熱量模型中傳播的熱量。以此可以篩選一些熱度較低的微博而不進行檢測。所以本文提出的基于改進熱量模型的潛在話題檢測如下:
其中ΔT 為是微博的關(guān)注度,該值由微博的點贊數(shù),評論轉(zhuǎn)發(fā)數(shù)與評論數(shù)共同決定。這三個值越大,則ΔT 值越大,表示該微博越受關(guān)注;m 為微博的重要程度,由公式(2)的TF-IDF 所決定,表示該條微博在該語料中的重要性。m 值越大,表示該條微博越重要;
c 為微博的傳播速度,本文假定每條微博在網(wǎng)絡中傳播速度一樣;Q 為一個時間窗口微博熱度值,Q 值越大,表示該條微博熱度越大,當計算得到的Q 值大過我們設置的熱度閾值,即可篩選出該條微博作為模型輸入,從而實現(xiàn)了微博潛在話題的檢測。
本文為了關(guān)注謠言之間的關(guān)系,將文本中詞義相似的微博歸類處理。所以采用基于LDA 模型的主題詞提取。LDA 主題模型是一種運用于語義挖掘領(lǐng)域的文檔主題生成模型,是基于貝葉斯網(wǎng)絡話題模型對潛在語義分析的擴展,它能給出文檔中主題詞的概率分布。其模型核心是每篇文檔都會產(chǎn)生一個主題分布θ,并且每個主題都會產(chǎn)生一個詞分布φ。具體的LDA 概率圖模型如圖2 所示。
圖2 LDA概率圖模型
對于上圖中LDA 概率圖而言,對于文檔d,其文檔主題的狄利克雷分布為θd,對于主題詞k 的狄利克雷分布為φk可由下式求得:其中α,β為分布的超參數(shù)。
而根據(jù)主題分布生成m 個主題概率Zd,n可由下面式子計算得到:
最后得到的單詞概率Wd,m是根據(jù)主題概率分布Zd,n,與主題詞分布φk聯(lián)合計算可得:
對于所有微博數(shù)據(jù),我們通過使用LDA 模型從模型參數(shù)α中生成與文檔d 對應的主題分布為θd,其中主題分布θd∈{θ1,θ2,θ3,…,θn},然后根據(jù)主題分布生成對應的主題z,另一邊從模型參數(shù)β生成與主題詞分布φk,然后根據(jù)主題詞分布φ和主題取樣生成相應的主題詞w,直到所有微博都訓練完成。最后,所有微博都生成對應的主題詞。然后對相同時間內(nèi)的所有微博的主題分布進行平均,即得到n 個基于LDA 的主題分布特征,以此獲得LDA 的主題分布特征。
本文需要對微博深層語義進行分析從而進行謠言檢測。而CNN、RNN 由于在語義特征的提取能力方面,長距離特征的捕獲能力方面,并行計算力方面都不如Transformer 模型,所以本文提出了基于Transformer模型語義挖掘的微博謠言模型。將語料通過LDA 處理得到的n 個主題分布特征輸入進Transformer 模型,進行謠言檢測。Transformer 是谷歌的機器翻譯團隊在一篇論文中提出的模型,該模型摒棄了深度學習常用的RNN 與CNN,Transformer 模型采用的是自編碼的encoder-decoder 架構(gòu),并且是由6 個encoder 和decod?er 層分別堆疊在一起形成的,相較于attention 模型的結(jié)構(gòu)更為復雜。一個子圖層的Transformer 結(jié)構(gòu)圖如圖3 左側(cè)框圖為Encoder 層,右邊為decode 層。
圖3 Transformer結(jié)構(gòu)子圖
(1)位置編碼
在encoder 層前添加了一個位置編碼來解釋輸入序列中單詞的順序,或是不同詞之間的距離。該位置向量的計算方式如:
其中i 是指詞在向量中位置,如果是偶數(shù),則使用式(7),如果是奇數(shù),則用式(8),pos 表示在句子中詞的位置,最后把之前處理得到的主題分布特征的經(jīng)過詞向量后得到的文本表示和位置編碼計算得到的值PE求和,作為模型輸入。
(2)多頭自注意力
每一個encoder 層里由多頭自注意層和前饋神經(jīng)網(wǎng)絡組成。多頭注意層是通過對多對Q,K,V 進行不同的線性變換,最后將不同的attention 綜合起來:
而如果對于自注意,則是Q,K,V 值相同。
(3)掩碼
這兒的掩碼的目的是在訓練時會對一些值進行掩蓋,讓其不會接觸到預測的值。
基于Transformer 模型的謠言處理流程:將LDA 處理完成后的n 個主題特征作為數(shù)據(jù)集,然后將所有詞輸入的Transformer 模型進行attention 計算,能捕獲詞的依賴關(guān)系和內(nèi)部結(jié)構(gòu)。對微博數(shù)據(jù)進行謠言和正常微博分類。
本文所使用的數(shù)據(jù)集來自馬靜公開的數(shù)據(jù)集。該數(shù)據(jù)集時馬靜從微博官方辟謠平臺新浪社區(qū)管理中心爬取得到,該數(shù)據(jù)集有2315 條非謠言,2313 條謠言。該數(shù)據(jù)集詳細情況如表1。
表1 數(shù)據(jù)集
3.2.1 基線
為了驗證本文提出的方法的有效性,將本文方法和其他幾種謠言檢測的基線方法在相同的數(shù)據(jù)集上進行實驗對比分析。本文測試的基線方法如下:
(1)2-GRU-DTS 模型[22]。是一種基于動態(tài)時間序列(DTS)算法和兩層門控遞歸單元(GRU)模型謠言事件檢測新方法,并引入模糊時間序列模型的區(qū)域劃分。
(2)CNN 模型[24]。構(gòu)建了一個卷積神經(jīng)網(wǎng)絡,利用多個濾波器的大小對短文本進行分類。
(3)Hawkes 模型[19]。在四個推特數(shù)據(jù)集建立了時間敏感序列分類,并建立了最新的謠言立場分類方法,增加一個新的標簽評論。
(4)DTC 模型[25]。提取了六個特征來進行謠言檢測,并用J48 決策樹來進行分類。
(5)LSTM-DSTS 模型[18]。首先利用神經(jīng)網(wǎng)絡來提取特征,使用LSTM 獲得文本表示,并與時間序列DSTS 的謠言分類模型結(jié)合。
3.2.2 分析結(jié)果如表2 所示,由于DTC 模型只是用淺度機器學習算法對于六個特征進行分類,故在精度,準度以及f1 得分都比不上其他方法。其次,基于CNN 模型和基于Hawkes 模型的表現(xiàn)稍好,是因為CNN 使用了128個濾波器能對整條微博文本進行處理,而Hawkes 算法是因為對特征新增了一個時間序列。給特征增加了一個維度。2-GRU-DTS 和LSTM-DSTS 表現(xiàn)不錯,2-GRU-DTS 利用兩層GRU 模型能學習隱藏事件表示自然地擬合時間間隔,并且能更好的捕捉隱藏的特征表示。LSTM-DSTS 使用群體預測綜合,所以性能較好。由實驗數(shù)據(jù)表明。我們的方法在任何一項得分都高于其他基線方法,所以通過對比實驗得出,本文能在微博謠言檢測上具有出更好的效果。
表2 不同謠言檢測方法對比實驗
3.2.3 模塊分析
表3 模塊測試表
為了測試我們的模型的模塊的必要性,通過設置模型單獨移除基于熱量模塊、LDA 模塊和Transformer模塊,得到的數(shù)據(jù)和上圖所示,沒有基于熱量模塊,該模型檢測時間增加4 倍,因為缺少了對潛在話題的檢測,是對所有數(shù)據(jù)進行檢測,所需的檢測時間增加,同時準確度也在由于較多語料的噪聲導致下降。缺少LDA 模塊,精確度下降8%,時間增加了20s,是因為沒有將具有相同特征的數(shù)據(jù)進行處理,對單獨數(shù)據(jù)進行處理。缺少了Transformer 模型,精度下降17%,因為缺少對文本的語義特征進行深層次挖掘。3.2.4 早期謠言檢測
早期的謠言檢測可使謠言在爆發(fā)遭成惡劣影響前被檢測到,可以通過設置不同的時延來比較本文提出的方法與基線方法的謠言檢測的準確度,以此來評估早期檢測的性能。幾個對比實驗的結(jié)果如圖4 所示,隨著時間的推移,所有方法的檢測精度都在逐漸上升。而在最初的0~4 小時內(nèi),LSTM-DSTS 在和其他基線方法相比,準確率較高,達到了89%,而我們提出的方法準確率達到了91%,表明了我們模型在早期謠言檢測上擁有巨大的優(yōu)勢,在4~12 小時內(nèi),我們模型準確率上升趨勢放緩,但仍高于其他模型,在12 小時以后,隨著語義特征和結(jié)構(gòu)信息逐漸增多,所有的方法的謠言檢測精度都趨于穩(wěn)定。實驗結(jié)果表明,我們提出的模型在早期謠言檢測是非常有效的。
圖4 早期謠言檢測結(jié)果
本文提出的基于Transformer 的潛在話題的微博在線檢測模型,篩選并丟棄了大量在一段時間窗口內(nèi)沒有大量熱度增加的微博,大大降低了檢測的時間。同時從深層挖掘微博語義來判斷謠言與否,并且在模型評估中,所有模塊的組成完整模型的檢測精度很高,且在和其他先進謠言檢測算法對比,無論在檢測時間上還是檢測精度上都具有不錯的表現(xiàn)。所以綜上所述,本文提出的模型給謠言檢測提供了一種有價值的參考。在以后的研究中,將計劃加上對微博傳播結(jié)構(gòu)的研究,更進一步準確且有效地提升謠言檢測的效果。