国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT模型的增強(qiáng)混合神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)

2021-03-16 13:29梁兆君但志平羅衍潮
關(guān)鍵詞:謠言卷積向量

梁兆君 但志平* 羅衍潮 李 奧

1(三峽大學(xué)計(jì)算機(jī)與信息學(xué)院 湖北 宜昌 443002)

2(三峽大學(xué)水電工程智能視覺(jué)監(jiān)測(cè)湖北省重點(diǎn)實(shí)驗(yàn)室 湖北 宜昌 443002)

3(西北大學(xué)信息科學(xué)與技術(shù)學(xué)院 陜西 西安 710127)

0 引 言

互聯(lián)網(wǎng)時(shí)代網(wǎng)絡(luò)社交平臺(tái)發(fā)展迅速,網(wǎng)絡(luò)信息數(shù)量龐大、資源共享、傳播快,同時(shí)也滋生了大量虛假信息以及謠言。

網(wǎng)絡(luò)謠言檢測(cè)過(guò)程分為語(yǔ)言預(yù)訓(xùn)練模型和分類模型兩個(gè)部分。目前,國(guó)內(nèi)外網(wǎng)絡(luò)謠言檢測(cè)研究[4]的語(yǔ)言預(yù)訓(xùn)練模型多采用Word2vec[5]訓(xùn)練的詞向量,相比簡(jiǎn)單的One-hot向量化方式,解決了數(shù)據(jù)稀疏的問(wèn)題,但是Word2vec模型的缺點(diǎn)在于無(wú)法解決文本一詞多義的問(wèn)題。Devlin等[6]提出一種新的語(yǔ)言表示模型BERT,在訓(xùn)練某個(gè)單詞詞向量的過(guò)程中,根據(jù)上下文單詞的語(yǔ)義動(dòng)態(tài)地調(diào)整該單詞的詞向量表示,調(diào)整后的詞向量能更好地表達(dá)在具體語(yǔ)境下的含義,可以解決文本中多義詞的問(wèn)題,成為目前自然語(yǔ)言處理領(lǐng)域最優(yōu)的語(yǔ)言預(yù)訓(xùn)練模型。另一方面,分類模型方法對(duì)網(wǎng)絡(luò)謠言檢測(cè)影響非常大,目前網(wǎng)絡(luò)謠言檢測(cè)研究的分類檢測(cè)方法主要包括傳統(tǒng)機(jī)器學(xué)習(xí)方法和深度學(xué)習(xí)方法。其中,傳統(tǒng)機(jī)器學(xué)習(xí)方法有樸素貝葉斯[7](Naive Bayesian Model,NBM)、決策樹(shù)[8]、支持向量機(jī)[9](Support Vector Machine,SVM)、隨機(jī)森林[10]等。近年來(lái),深度學(xué)習(xí)方法逐漸被用于自然語(yǔ)言處理領(lǐng)域,Kim[11]提出以CNN解決句子分類問(wèn)題,首次將CNN應(yīng)用到文本分類領(lǐng)域,實(shí)驗(yàn)表明其強(qiáng)大的特征學(xué)習(xí)和分類能力同樣適用于謠言檢測(cè)研究,但基礎(chǔ)CNN模型的缺點(diǎn)在于單卷積層無(wú)法捕獲遠(yuǎn)距離特征。Ma等[12]提出利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)檢測(cè)微博中的謠言,對(duì)于捕獲遠(yuǎn)距離特征非常有效,在一定程度上提高了謠言檢測(cè)準(zhǔn)確率,但由于RNN網(wǎng)絡(luò)的序列依賴結(jié)構(gòu)使得其很難具備高效的并行運(yùn)算能力,運(yùn)行時(shí)間長(zhǎng),不利于網(wǎng)絡(luò)謠言的早期檢測(cè)。Zhou等[13]提出一種基于C-LSTM的混合神經(jīng)網(wǎng)絡(luò),結(jié)合CNN和RNN兩大網(wǎng)絡(luò)的優(yōu)點(diǎn),利用CNN提取短語(yǔ)的局部特征,利用LSTM提取句子的全局語(yǔ)義和時(shí)態(tài)語(yǔ)義,實(shí)驗(yàn)表明該模型在情感分類和問(wèn)題分類上取得了很好的效果,但無(wú)法突出關(guān)鍵特征對(duì)輸出信息的影響。以上算法都無(wú)法體現(xiàn)關(guān)鍵詞在文本中的重要程度,而對(duì)于謠言檢測(cè)任務(wù),由于不同的詞在文本中的重要程度不同,因此需要計(jì)算權(quán)重,以達(dá)到將注意力[14-15]集中在重要詞上的目的。

基于上述研究存在的問(wèn)題,本文提出一種基于BERT模型[16-17]的增強(qiáng)混合神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)方法(BERT+CNN-3-BiLSTM-Attention,BC3BLA)。該方法不僅可以提取局部短語(yǔ)特征和全局上下文特征,還可以提取出文本關(guān)鍵詞,減少無(wú)關(guān)信息對(duì)檢測(cè)結(jié)果的不合理影響,實(shí)驗(yàn)表明融合多網(wǎng)絡(luò)結(jié)構(gòu)的模型可以有效提高謠言檢測(cè)的準(zhǔn)確率。同時(shí),使用BERT模型預(yù)訓(xùn)練相比Word2vec模型的收斂時(shí)間短,有助于在網(wǎng)絡(luò)謠言傳播早期識(shí)別并抑制謠言傳播。

1 網(wǎng)絡(luò)謠言檢測(cè)模型

本文提出的BC3BLA謠言檢測(cè)方法在Twitter數(shù)據(jù)上進(jìn)行實(shí)驗(yàn),圖1為BC3BLA模型結(jié)構(gòu)。

圖1 BC3BLA模型結(jié)構(gòu)

該模型網(wǎng)絡(luò)層次結(jié)構(gòu)包含以下5部分:

(1) 輸入層:使用BERT模型將推文映射為低維向量;

(2) CNN-3層:使用3種不同尺寸的卷積核對(duì)輸入矩陣進(jìn)行卷積池化操作,并將推文特征橫向拼接成特征序列;

(3) BiLSTM層:將特征序列輸入到BiLSTM層,利用雙向LSTM從前后兩個(gè)方向全面捕捉推文更深層次的語(yǔ)義特征;

(4) 注意力層:計(jì)算注意力分布概率,生成含有注意力概率分布的語(yǔ)義編碼,優(yōu)化特征向量;

(5) 輸出層:將最終提取到的特征向量通過(guò)Softmax激活函數(shù)完成分類檢測(cè)。

2 語(yǔ)言預(yù)訓(xùn)練模型

傳統(tǒng)的語(yǔ)言預(yù)訓(xùn)練模型無(wú)法解決文本中多義詞的問(wèn)題。多義詞在文本中經(jīng)常出現(xiàn),同一個(gè)詞在不同的語(yǔ)境中的含義往往不同,如單詞“bill”在一些語(yǔ)境中的含義是“賬單”,在另一些語(yǔ)境中的含義是“鈔票”。語(yǔ)義不同,詞的向量表示應(yīng)不同,Word2vec模型對(duì)一個(gè)詞語(yǔ)只有一個(gè)向量表示,而B(niǎo)ERT會(huì)根據(jù)語(yǔ)料中的上下文語(yǔ)境,動(dòng)態(tài)調(diào)整詞語(yǔ)對(duì)應(yīng)的詞向量表示。

本文采用BERT模型對(duì)推文進(jìn)行預(yù)訓(xùn)練,圖2為BERT模型的結(jié)構(gòu)圖。該模型包含以下兩個(gè)階段:1) 編碼階段,首先通過(guò)查詢?cè)~典將推文中的每個(gè)詞進(jìn)行編碼,轉(zhuǎn)化成編碼向量,由于文本中的詞所在的位置不同表達(dá)的語(yǔ)義信息也有所差異,因此該模型針對(duì)不同位置的詞分別附加一個(gè)不同的位置向量作為區(qū)分。2) 生成向量階段,將以上編碼向量和位置向量送入BERT模型進(jìn)行訓(xùn)練學(xué)習(xí),輸出融合了全文語(yǔ)義信息后的向量表示,并將其送入下一層CNN-3神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

圖2 BERT模型結(jié)構(gòu)

3 分類模型

3.1 CNN-3層

本文方法中CNN-3層使用了尺寸為3、4、5的卷積核和一個(gè)最大池化層進(jìn)行特征提取。設(shè)置卷積核的寬度等于詞向量的維度有助于更好地提取Twitter句子中單詞的語(yǔ)義和語(yǔ)序信息。圖3是CNN-3模型進(jìn)行卷積、最大池化以及對(duì)生成的特征圖列向量拼接的過(guò)程。

圖3 CNN-3模型圖

將每一條推文作為卷積層的一個(gè)輸入矩陣,設(shè)ti∈Rh表示一條推文中第i個(gè)詞的h維向量,長(zhǎng)度為p的推文表示為:

t1:p=t1⊕t2⊕…⊕tp

(1)

式中:⊕表示串聯(lián)操作,令ti:i+j表示詞ti,ti+1,…,ti+j的串聯(lián)。設(shè)卷積核的長(zhǎng)度為l,卷積核的寬度等于輸入矩陣的寬度,則向量f∈Rl×h表示卷積操作的卷積核。卷積核f對(duì)每條推文不同位置的單詞窗口向量進(jìn)行卷積操作,產(chǎn)生新的特征,例如某條推文中第i個(gè)單詞ti到第i+l-1個(gè)單詞ti-l+1的窗口向量所產(chǎn)生的特征mi的計(jì)算公式如下:

mi=f(w·ti:i+l-1+b)

(2)

式中:b∈R為偏置項(xiàng);f為非線性函數(shù),如雙曲正切函數(shù)。此卷積核應(yīng)用于推文{t1:l,t2:l+1,…,tp-l+1:p}中每個(gè)可能的單詞窗口,生成一個(gè)特征映射:

m=[m1,m2,…,mp-l+1]

(3)

(4)

3.2 BiLSTM層

本文方法的BiLSTM層使用了雙向長(zhǎng)短期記憶網(wǎng)絡(luò)捕獲雙向的語(yǔ)義特征。單向LSTM網(wǎng)絡(luò)將信息通過(guò)隱層狀態(tài)從前向后傳播,無(wú)法編碼從后向前的信息,但推文的上文影響力和下文同樣重要,因此使用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)能更好地捕獲雙向的語(yǔ)義特征。圖4是BiLSTM網(wǎng)絡(luò)的模型圖,其輸入w0,w1,w2,…,wv是CNN-3層的輸出特征向量,v為卷積核的個(gè)數(shù)。

圖4 BiLSTM模型圖

BiLSTM模型使用兩個(gè)門來(lái)控制單元狀態(tài)c的內(nèi)容:遺忘門ft和輸入門it。遺忘門決定了上一時(shí)刻的單元狀態(tài)ct-1有多少保存到當(dāng)前時(shí)刻ct:

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf)

(5)

輸入門決定了當(dāng)前時(shí)刻網(wǎng)絡(luò)的輸入xt有多少保存到單元狀態(tài)ct:

it=σ(Wxixt+Whiht-1+Wcict-1+bi)

(6)

(7)

(8)

BiLSTM的輸出門ot控制了長(zhǎng)期記憶對(duì)當(dāng)前輸出的影響:

ot=σ(Wxoxt+Whoht-1+Wcoct+bo)

(9)

輸出ht由輸出門和單元狀態(tài)共同決定:

ht=ot° tanh(ct)

(10)

BiLSTM在原有的正向LSTM網(wǎng)絡(luò)層上增加一層反向的LSTM層,所以第i個(gè)單詞向量的輸出可以表示為:

(11)

式(5)-式(11)中:Wxf、Whf、Wcf、bf表示遺忘門ft相應(yīng)的權(quán)重矩陣;Wxi、Whi、Wci、bi表示輸入門it相應(yīng)的權(quán)重矩陣;Wxo、Who、Wco、bo表示輸出門ot相應(yīng)的權(quán)重矩陣。

3.3 注意力層

本文引入注意力機(jī)制,解決了BiLSTM層的輸出信息無(wú)法突出重要關(guān)鍵詞的問(wèn)題。單詞在Twitter文本中所占的權(quán)重越大,該詞受到的注意力值越大,說(shuō)明該詞在謠言檢測(cè)任務(wù)中發(fā)揮的作用越大。注意力機(jī)制模型圖如圖5所示,其中輸入的h0,h1,h2,…,hv是BiLSTM層的輸出特征向量。

圖5 注意力模型圖

首先計(jì)算BiLSTM不同時(shí)刻隱層的輸出h0,h1,h2,…,hv在整個(gè)文本中對(duì)應(yīng)分配的注意力概率分布值α0,α1,α2,…,αv,該值越大,在Twitter文本中的注意力越大,然后用Softmax[18]進(jìn)行歸一化,最后得到的聚焦化的向量si是所有向量的加權(quán)和,計(jì)算式為:

ui=wTtanh(Whi+bh)

(12)

(13)

(14)

3.4 輸出層

本文方法的最后部分是輸出層,首先使用全連接網(wǎng)絡(luò),計(jì)算式如下:

yi=wzsi+bz

(15)

式中:wz為權(quán)重矩陣;bz為偏置項(xiàng);si是經(jīng)過(guò)注意力層得到的特征向量。然后使用Softmax激活函數(shù)輸出分類的概率,計(jì)算公式為:

(16)

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)集

為了驗(yàn)證本文方法的有效性,實(shí)驗(yàn)采用Ma等[19]2017年公開(kāi)的用于謠言檢測(cè)研究的數(shù)據(jù)集Twitter15和Twitter16,它們均來(lái)自謠言揭穿網(wǎng)站(例如snopes.com,Emergent.info等)。兩個(gè)數(shù)據(jù)集中每個(gè)事件的標(biāo)簽被分為四類:非謠言類(non-rumors,NR)、假謠言類(false rumors,F(xiàn)R)、真謠言類(true rumors,TR)和未經(jīng)證實(shí)謠言類(unverified rumors,UR)。為了便于本文方法與文獻(xiàn)[20]方法進(jìn)行比較,本文采用與之相同的兩個(gè)數(shù)據(jù)集和樣本分類進(jìn)行實(shí)驗(yàn)。表1為數(shù)據(jù)集Twitter15和Twitter16的統(tǒng)計(jì)信息。

表1 實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)表

續(xù)表1

4.2 實(shí)驗(yàn)設(shè)置

將本文方法與文獻(xiàn)[20]方法進(jìn)行比較:

1) 文獻(xiàn)[20]方法:基于樹(shù)結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)的Twitter謠言檢測(cè),在Twitter15、Twitter16數(shù)據(jù)集上實(shí)現(xiàn)了自底向上的樹(shù)結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(Bottom-up Recursive Neural Network,BU-RvNN)和自頂向下的樹(shù)結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(Top-down Recursive Neural Network,TD-RvNN)等模型,并取得了良好的效果。

2) 本文方法:基于BERT模型的增強(qiáng)混合神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)方法(BC3BLA),并提出以下3個(gè)方法用于對(duì)比:

(1) Word2vec+CNN-3-BiLSTM(WC3BL):使用Word2vec訓(xùn)練詞向量,利用CNN-3層提取高級(jí)短語(yǔ)特征,利用雙向LSTM捕捉兩個(gè)維度的推文語(yǔ)義特征。

(2) Word2vec+CNN-3-BiLSTM-Attention(WC3BLA):在WC3BL的基礎(chǔ)上,引入注意力機(jī)制,計(jì)算輸出信息的注意力分值。

(3) BERT+CNN-3-BiLSTM(BC3BL):采用與WC3BL相同的分類模型,在語(yǔ)言預(yù)處理階段采用BERT模型訓(xùn)練詞向量。

BC3BLA方法對(duì)每一條推文進(jìn)行預(yù)處理后,送入BERT模型訓(xùn)練,將單詞轉(zhuǎn)化為詞向量。BERT的向量維度為768;Word2vec的維度設(shè)置為256;CNN-3層卷積核的窗口高度分別采用3、4、5,每個(gè)尺寸的卷積核數(shù)目設(shè)置為100個(gè);BiLSTM層隱藏層大小為100;Dropout設(shè)置為0.3,學(xué)習(xí)率為0.001,優(yōu)化函數(shù)采用Adam,訓(xùn)練輪數(shù)為50輪,損失函數(shù)采用多分類交叉熵。為了便于與文獻(xiàn)[20]方法進(jìn)行比較,本文同樣對(duì)數(shù)據(jù)集進(jìn)行五折交叉驗(yàn)證,對(duì)四個(gè)類別分別使用準(zhǔn)確率和F1值作為評(píng)價(jià)指標(biāo),以評(píng)估模型性能。

4.3 實(shí)驗(yàn)結(jié)果分析

表2、表3為各方法實(shí)驗(yàn)結(jié)果對(duì)比。可以看出,本文提出的BC3BLA方法,在兩個(gè)數(shù)據(jù)集上的表現(xiàn)均優(yōu)于其他方法。

表2 Twitter15數(shù)據(jù)集上謠言檢測(cè)結(jié)果

表3 Twitter16數(shù)據(jù)集上謠言檢測(cè)結(jié)果

BC3BLA與文獻(xiàn)[20]方法中表現(xiàn)最好的TD-RvNN相比,在Twitter15數(shù)據(jù)集上的準(zhǔn)確率提高了5.2個(gè)百分點(diǎn),類別NR、FR、TR和UR的F1值分別提高了1.5、0.3、5.7和13.9個(gè)百分點(diǎn);在Twitter16上準(zhǔn)確率提高了4.9個(gè)百分點(diǎn),TR的F1值與TD-RvNN模型相同,NR、FR和UR的F1值分別提高了10.6個(gè)百分點(diǎn)、0.8個(gè)百分點(diǎn)和10.3個(gè)百分點(diǎn)。

BC3BLA與WC3BLA相比,在Twitter15、Twitter16兩個(gè)數(shù)據(jù)集上準(zhǔn)確率分別提高了6.1個(gè)百分點(diǎn)和5.4個(gè)百分點(diǎn),NR、FR、TR和UR的F1值均有相應(yīng)的提高。由實(shí)驗(yàn)結(jié)果分析可知,采用BERT進(jìn)行預(yù)訓(xùn)練后,模型準(zhǔn)確率得到了大幅度提升,證明使用BERT模型訓(xùn)練的詞向量的表現(xiàn)優(yōu)于Word2vec模型。這是因?yàn)樵谥{言檢測(cè)任務(wù)中,無(wú)論詞語(yǔ)在什么語(yǔ)境下具有什么含義,采用Word2vec模型訓(xùn)練后都只有一個(gè)靜態(tài)的詞向量表示,而B(niǎo)ERT模型則會(huì)根據(jù)語(yǔ)料中上下文語(yǔ)境的不同,動(dòng)態(tài)地改變?cè)~語(yǔ)對(duì)應(yīng)的詞向量。通過(guò)上述實(shí)驗(yàn),發(fā)現(xiàn)在謠言檢測(cè)任務(wù)中,BERT模型優(yōu)于Word2vec模型。

BC3BLA與BC3BL相比,在數(shù)據(jù)集Twitter15上準(zhǔn)確率提高了3.3個(gè)百分點(diǎn),類別FR、TR和UR的F1值分別提高了12.9、1.9和2.5個(gè)百分點(diǎn);在Twitter16上準(zhǔn)確率提高了3.2個(gè)百分點(diǎn),NR、FR和TR的F1值分別提高了3.5、9.5和1.6個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果分析可知,引入注意力機(jī)制后,四個(gè)類別的F1值均有較大提升。這是因?yàn)橥ㄟ^(guò)計(jì)算輸出數(shù)據(jù)的注意力概率分布值,可以提取出對(duì)謠言檢測(cè)任務(wù)影響更大的關(guān)鍵詞,從而優(yōu)化了特征提取過(guò)程。實(shí)驗(yàn)表明注意力機(jī)制消除了輸入數(shù)據(jù)對(duì)輸出數(shù)據(jù)的不合理影響,有效提高了謠言檢測(cè)的準(zhǔn)確率。

BC3BLA與WC3BL相比,在Twitter15、Twitter16兩個(gè)數(shù)據(jù)集上準(zhǔn)確率分別提高了7.7和6.1個(gè)百分點(diǎn),Twitter15上UR的F1值提升了21.8個(gè)百分點(diǎn)。實(shí)驗(yàn)數(shù)據(jù)分析可知,使用BERT模型預(yù)訓(xùn)練并在分類模型中引入Attention機(jī)制后,實(shí)驗(yàn)效果大幅度提升,表明了BERT與Attention機(jī)制結(jié)合的優(yōu)越性。

圖6所示為本文和三種對(duì)比方法分別在兩個(gè)數(shù)據(jù)集訓(xùn)練過(guò)程中的收斂情況??梢钥闯觯诶门刻荻认陆捣ㄟM(jìn)行訓(xùn)練過(guò)程中,函數(shù)損失值逐漸下降,最終趨于穩(wěn)定收斂狀態(tài),相較于其他三種方法收斂時(shí)間最短、收斂速度最快,本文提出的BC3BLA方法有利于謠言的早期檢測(cè)。

(a) Twitter15

綜上所述,本文提出的基于BERT模型的增強(qiáng)混合神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)方法解決了文本多義詞的向量表示問(wèn)題,且綜合考慮到推文的詞語(yǔ)局部特征、全局上下文語(yǔ)義特征以及關(guān)鍵詞對(duì)謠言檢測(cè)結(jié)果的影響程度,模型結(jié)構(gòu)更加全面,能高效準(zhǔn)確地檢測(cè)網(wǎng)絡(luò)中的謠言。

5 結(jié) 語(yǔ)

本文提出了一種基于BERT模型的增強(qiáng)混合神經(jīng)網(wǎng)絡(luò)的謠言檢測(cè)方法。該方法通過(guò)使用BERT模型訓(xùn)練詞向量,結(jié)合CNN-3、BiLSTM和注意力機(jī)制對(duì)謠言進(jìn)行識(shí)別檢測(cè),充分發(fā)揮各網(wǎng)絡(luò)模型的優(yōu)勢(shì)。實(shí)驗(yàn)結(jié)果表明,使用BERT模型訓(xùn)練的詞向量解決了自然語(yǔ)言處理領(lǐng)域多義詞的識(shí)別問(wèn)題,從而大幅度提高了謠言檢測(cè)準(zhǔn)確率;引入的注意力機(jī)制可以捕獲輸入數(shù)據(jù)對(duì)輸出數(shù)據(jù)的影響力度,減少不合理影響以及特征提取過(guò)程中的信息丟失問(wèn)題,豐富了關(guān)鍵詞對(duì)文本的語(yǔ)義表達(dá)。目前網(wǎng)絡(luò)謠言不僅限于文本信息,還包含大量音頻、圖片和視頻等多媒體信息,如何將多媒體信息應(yīng)用到謠言檢測(cè)中是今后研究的重點(diǎn)。

猜你喜歡
謠言卷積向量
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
向量的分解
中國(guó)使館駁斥荒謬謠言
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱空洞卷積模塊①
聚焦“向量與三角”創(chuàng)新題
不信謠言 科學(xué)防“疫”
你被養(yǎng)生謠言忽悠過(guò)嗎?
謠言π=4!