国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于深度學(xué)習(xí)模型的常識類謠言自動檢測方法

2021-05-28 12:37:36李郭鈺葉奕李金玲
現(xiàn)代計(jì)算機(jī) 2021年10期
關(guān)鍵詞:常識謠言語料

李郭鈺,葉奕,李金玲

(南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽421000)

0 引言

隨著互聯(lián)網(wǎng)的出現(xiàn)和迅速發(fā)展,Web網(wǎng)絡(luò)為我們提供了信息傳播與共享,個(gè)人對新聞意見表達(dá)的平臺,在國家安全、經(jīng)濟(jì)、現(xiàn)代信息服務(wù)等領(lǐng)域中的作用日益凸現(xiàn)。近幾年我國乃至國際通過網(wǎng)絡(luò)爆發(fā)的重大輿情事件激增,如三鹿奶粉事件、突尼斯的茉莉花事件等,都不同程度地掀起了網(wǎng)絡(luò)輿情浪潮,對事件發(fā)展、政府公信力、社會輿論安全以及國家安全造成了巨大的壓力[1]。借助互聯(lián)網(wǎng)這一當(dāng)前規(guī)模最宏大、尺度最開放、參與門檻最低的公共輿論空間,不僅有尋求利益訴求的普通民眾,也有不懷好意散播謠言的不良分子。例如非典時(shí)期民眾對于板藍(lán)根、抗病毒口服液、醋等商品的搶購行為,就是因?yàn)槁犘帕诉@類犯了常識性錯誤的網(wǎng)絡(luò)謠言。隨著越來越多的“憑空捏造式”曝光事件不斷浮出水面,網(wǎng)絡(luò)中的常識性謠言已嚴(yán)重影響了民眾的正常生活。為了避免網(wǎng)絡(luò)輿論空間被人利用,人為制造偽謠言引發(fā)群體性事件,如何檢測和監(jiān)控謠言成為目前凈化網(wǎng)絡(luò)環(huán)境迫切需要考慮的問題。

傳統(tǒng)的謠言檢測方法通常是從謠言的特征分析入手,然后利用機(jī)器學(xué)習(xí)算法根據(jù)建立的特征空間,把網(wǎng)絡(luò)輿情分為謠言和非謠言兩類。Castillo等人[2]從文本、用戶、話題、傳播等四個(gè)維度總結(jié)了15項(xiàng)關(guān)鍵特征,并采用J48算法實(shí)現(xiàn)了謠言的自動檢測。此后,學(xué)者們發(fā)掘了多種網(wǎng)絡(luò)謠言的特征[3-4],如位置特征、時(shí)間序列特征、語言結(jié)構(gòu)特征、網(wǎng)絡(luò)轉(zhuǎn)發(fā)度等多種特征,然后再利用SVM、決策樹、隨機(jī)森林等多種傳統(tǒng)機(jī)器學(xué)習(xí)算法進(jìn)行謠言的自動識別[5]。上述基于特征的機(jī)器學(xué)習(xí)方法雖然在謠言檢測性能上取得了較好的成果,但是特征分析所耗費(fèi)人力、物力和時(shí)間以及魯棒性不足等問題仍無法較好地解決。

隨著深度學(xué)習(xí)技術(shù)在圖像領(lǐng)域獲得的成功,不少學(xué)者開始在謠言檢測領(lǐng)域使用深度學(xué)習(xí)算法,旨在提升謠言檢測的自動化程度。Ma等人[6]首次將深度學(xué)習(xí)模型應(yīng)用在社交媒體謠言檢測問題上,利用TF-IDF計(jì)算得到各個(gè)時(shí)間段的微博文本向量,并輸入雙層的門控循環(huán)單元GRU網(wǎng)絡(luò)學(xué)習(xí)事件的特征表示。廖祥文等人[7]考慮到微博問的時(shí)序特征,融合注意力機(jī)制和雙向GRU網(wǎng)絡(luò)模型,時(shí)間段序列的隱層表示,進(jìn)而對微博事件進(jìn)行分類。深度學(xué)習(xí)算法的不斷改進(jìn),謠言自動化監(jiān)測性能也在逐步提升,但是在已有的研究中,謠言的內(nèi)容特點(diǎn)并未被考慮。劉勘等人[8]首次提出了利用Multi-BiLSTM模型解決不同領(lǐng)域的謠言檢測問題,研究結(jié)果表明分領(lǐng)域進(jìn)行謠言檢測性能較已有方法有較大提升。不過,該方法在應(yīng)用過程中,必須對數(shù)據(jù)集進(jìn)行細(xì)分,而現(xiàn)實(shí)生活中把數(shù)據(jù)集分為較多的子類別,既不現(xiàn)實(shí)也耗費(fèi)時(shí)間。因此,本文把網(wǎng)絡(luò)上的謠言進(jìn)行分類,重點(diǎn)針對常識類的謠言,根據(jù)其特征提出一種基于深度學(xué)習(xí)模型的常識類謠言自動檢測方法。

1 深度學(xué)習(xí)模型概述

1.1 LSTM模型結(jié)構(gòu)

長短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[14]是一種時(shí)間循環(huán)神經(jīng)網(wǎng)絡(luò),要是為了解決普通循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)模型中訓(xùn)練長序列數(shù)據(jù)的梯度消失或梯度爆炸問題。從圖1所示的LSTM內(nèi)部結(jié)構(gòu)圖中可以看出LSTM與RNN的區(qū)別在于,LSTM模型中設(shè)立了三個(gè)門(gate)來決定上一層的input值是否重要到能被記住及能不能被輸出output。每個(gè)門(gate)都是由一個(gè)Sigmoid函數(shù)單元控制,其中輸入門(input gate)如果產(chǎn)生的值近似于零,則將把這里的值擋住,不會進(jìn)到下一層;遺忘門(forget gate)產(chǎn)生值近似于零,將把區(qū)塊里記住的值忘掉;輸出門(output gate)可以決定在區(qū)塊記憶中的input是否能輸出。

圖1 LSTM模型結(jié)構(gòu)圖

1.2 Attention機(jī)制

近年來,注意力(Attention)機(jī)制在自然語言處理領(lǐng)域許多問題的解決上得到了廣泛的應(yīng)用。2017年,Google機(jī)器翻譯團(tuán)隊(duì)發(fā)表的Attention is all you need中大量使用了自注意力(self-attention)機(jī)制來學(xué)習(xí)文本表示。自注意力機(jī)制也成為了近幾年深度學(xué)習(xí)的焦點(diǎn)之一,并在各種NLP任務(wù)上進(jìn)行探索。Attention函數(shù)其本質(zhì)可以被描述為一個(gè)查詢(query)到一系列(鍵key-值value)對的映射。在計(jì)算Attention時(shí)主要分為三步,首先是將query與每個(gè)key進(jìn)行相似度計(jì)算得到權(quán)重,常用的相似度函數(shù)有點(diǎn)積、拼接、感知機(jī)等;接下來一般是使用一個(gè)Softmax函數(shù)對這些權(quán)重進(jìn)行歸一化;最后將權(quán)重和相應(yīng)的鍵值value進(jìn)行加權(quán)求和得到最后的Attention。目前在NLP研究中,key和value常常都是同一個(gè),即key=value。具體計(jì)算過程如圖2所示。

圖2 Attention機(jī)制計(jì)算原理圖

2 基于深度學(xué)習(xí)模型的常識類謠言檢測

2.1 常識類謠言檢測技術(shù)框架

本文主要是針對常識類謠言檢測方法的研究,目標(biāo)是得到一個(gè)對常識類謠言識別準(zhǔn)確率高,且各方面表現(xiàn)優(yōu)異的模型。主要過程有數(shù)據(jù)獲取,語料預(yù)處理、模型訓(xùn)練、數(shù)據(jù)可視化四個(gè)步驟。數(shù)據(jù)獲取主要通過網(wǎng)絡(luò)爬蟲爬取中國互聯(lián)網(wǎng)聯(lián)合辟謠平臺等多個(gè)網(wǎng)站上經(jīng)過官方權(quán)威辟謠過的謠言信息,以及使用復(fù)旦大學(xué)文本分類數(shù)據(jù)集中的相關(guān)數(shù)據(jù)。對已有語料的預(yù)處理包括語料清洗、分詞、標(biāo)注、去停用詞這四個(gè)步驟,處理后的數(shù)據(jù)集被分為謠言類,非謠言類。然后使用SVM、KNN、樸素貝葉斯這三種機(jī)器學(xué)習(xí)模型以及CNN、LSTM、MLP這三種深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,并且在此基礎(chǔ)上衍生出了四種模型,進(jìn)行對比實(shí)驗(yàn),最后利用Python中的plot將數(shù)據(jù)可視化處理。技術(shù)路線如圖3所示。

圖3 常識類謠言檢測技術(shù)路線圖

2.2 基于LSTM+Attention的常識類謠言檢測模型

由于LSTM的特征提取能力不夠理想,因此我們使用嵌入Attention機(jī)制的LSTM模型實(shí)現(xiàn)對常識類謠言的檢測,如圖4所示,具體步驟如下:

步驟一:首先使用Word2Vec模型,并加入Adam優(yōu)化器,實(shí)現(xiàn)輸入文本的向量化。本文的語料庫p由n個(gè)句子組成,每個(gè)句子又由m個(gè)單詞組成,即,p={p1,p2,...,pn},pi={si1,si2,...,sin},si={wi1,wi2,...,wim}。使用經(jīng)過預(yù)訓(xùn)練的向量集替換后的embedding矩陣形狀為365076×300,最后,設(shè)定embedding層的參數(shù)固定,不參加訓(xùn)練,把預(yù)訓(xùn)練的Word2Vec嵌入LSTM模型之中,接著利用LSTM_Layer進(jìn)行詞語特征信息提取。

步驟二:由于LSTM的特征提取能力不夠理想,我們在此嵌入注意力機(jī)制,在文本信息向量化的前提下,提取文本的局部特征,然后將這些特征導(dǎo)入LSTM模型,通過注意力機(jī)制對LSTM模型的輸入與輸出之間的相關(guān)性進(jìn)行重要度計(jì)算,根據(jù)重要度獲取文本整體特征。在此模型中,注意力層的效果可以看作是一個(gè)自動加權(quán),它鏈接了兩個(gè)不同的模塊,這兩個(gè)模塊通過加權(quán)來鏈接。以獲得更好的特征提取效果。

步驟三:最后,融合局部特征和整體特征,通過分類器輸出分類結(jié)果。

圖4 基于LSTM+Attention的常識類謠言檢測模型圖

3 實(shí)驗(yàn)

本文在各個(gè)模型對比實(shí)驗(yàn)中用到的指標(biāo)有四個(gè),分別是準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、F1值。首先,語料被分為四類:

TP:樣本為正,預(yù)測結(jié)果為正,即樣本為謠言,實(shí)際被檢測為謠言;

FP:樣本為負(fù),預(yù)測結(jié)果為正,即樣本為非謠言,實(shí)際被檢測為謠言;

TN:樣本為負(fù),預(yù)測結(jié)果為負(fù),即樣本為非謠言,實(shí)際被檢測為非謠言;

FN:樣本為正,預(yù)測結(jié)果為負(fù),即樣本為謠言,實(shí)際被檢測為非謠言。

為了驗(yàn)證本文所提出模型的有效性,把提出的LSTM+Attention模型與傳統(tǒng)的機(jī)器學(xué)習(xí)模型和主流的深度學(xué)習(xí)模型進(jìn)行對比,實(shí)驗(yàn)結(jié)果如表1所示。

表1 深度學(xué)習(xí)與機(jī)器學(xué)習(xí)模型對比分析

從表1我們可以看到LSTM_Word2Vec_Attention神經(jīng)網(wǎng)絡(luò)模型的檢測準(zhǔn)確率達(dá)到了92.2%,并且召回率也達(dá)到了93.5%,說明該模型在處理常識類謠言檢測問題上有著非常優(yōu)異的表現(xiàn)。加入Attention機(jī)制以及Adam優(yōu)化器使得LSTM模型進(jìn)行了再一次的提升,這是由于Attention層更好地獲取語料中的特征,實(shí)現(xiàn)了對貢獻(xiàn)度不同的詞語進(jìn)行提取,并且抓住樣本中本身存在的關(guān)系,同樣也體現(xiàn)出了Adam優(yōu)化器的一些優(yōu)點(diǎn):①參數(shù)的更新沒有受梯度的伸縮變換的影響;②超參數(shù)的解釋性較好,一般情況下無需調(diào)整;③很適合應(yīng)用于大規(guī)模的數(shù)據(jù)及參數(shù)的場景。

同時(shí)從表1中我們也能直觀地發(fā)現(xiàn),實(shí)驗(yàn)中所用到的深度學(xué)習(xí)模型對于常識類謠言檢測的表現(xiàn),普遍優(yōu)于機(jī)器學(xué)習(xí)模型。雖然深度學(xué)習(xí)模型對于數(shù)據(jù)的依賴性較大,執(zhí)行時(shí)間普遍長于機(jī)器學(xué)習(xí)模型,但是大多數(shù)機(jī)器學(xué)習(xí)算法的性能依賴于所提取的特征的準(zhǔn)確度,然而深度學(xué)習(xí)會嘗試從大量數(shù)據(jù)中直接獲取高等級的特征,這也是深度學(xué)習(xí)模型在處理常識類謠言識別這類問題上普遍強(qiáng)于傳統(tǒng)機(jī)器學(xué)習(xí)模型的一個(gè)重要因素。通過實(shí)驗(yàn)數(shù)據(jù)的對比,我們也可以發(fā)現(xiàn)無論是對于機(jī)器學(xué)習(xí)模型還是深度學(xué)習(xí)模型,引入預(yù)訓(xùn)練的Word2Vec模型會給訓(xùn)練和測試結(jié)果帶來明顯的提升,所以文本向量化在處理這類問題上起著至關(guān)重要的作用。

4 結(jié)語

本文以準(zhǔn)確、高效地識別常識類網(wǎng)絡(luò)謠言為目的,利用網(wǎng)絡(luò)爬蟲獲取了大量謠言信息,對語料進(jìn)行了預(yù)處理之后,在LSTM_Word2Vec模型基礎(chǔ)上進(jìn)行優(yōu)化,并嵌入注意力機(jī)制,提出了一種LSTM_Word2Vec_At-tention神經(jīng)網(wǎng)絡(luò)模型用于常識類的謠言檢測。

通過實(shí)驗(yàn)數(shù)據(jù)的對比,本文得到了以下結(jié)論:首先相較于傳統(tǒng)機(jī)器學(xué)習(xí)模型,深度學(xué)習(xí)模型在常識類謠言檢測的任務(wù)中有著很好的表現(xiàn);其次,加入預(yù)訓(xùn)練的Word2Vec模型給模型準(zhǔn)確率帶來了3-7.6%的提升,這說明文本向量化在處理這類問題上起著至關(guān)重要的作用;最后,在LSTM模型基礎(chǔ)上進(jìn)行優(yōu)化,并嵌入注意力機(jī)制和Word2Vec詞向量得到的LSTM_Word2Vec_Attention神經(jīng)網(wǎng)絡(luò)模型達(dá)到了92.2%的準(zhǔn)確率,這證明該模型對于常識類謠言任務(wù)有著比傳統(tǒng)深度學(xué)習(xí)模型更好的表現(xiàn)。

猜你喜歡
常識謠言語料
中國使館駁斥荒謬謠言
靠不住的常識
文苑(2020年11期)2020-11-19 11:45:11
當(dāng)謠言不攻自破之時(shí)
近視600度以上,這5條常識務(wù)必知道
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
謠言
謠言大揭秘
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
回歸常識
河南電力(2015年5期)2015-06-08 06:01:56
《苗防備覽》中的湘西語料
连山| 曲阜市| 顺昌县| 什邡市| 松桃| 留坝县| 潮安县| 虎林市| 江达县| 白河县| 巴中市| 迁安市| 霞浦县| 来凤县| 壤塘县| 礼泉县| 牙克石市| 绥宁县| 茂名市| 合阳县| 玛沁县| 沧州市| 金塔县| 三台县| 潍坊市| 杨浦区| 轮台县| 东安县| 来安县| 盘锦市| 江孜县| 东阿县| 福清市| 岫岩| 大冶市| 连南| 江阴市| 田阳县| 临沂市| 诏安县| 淮南市|