国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于時間序列網(wǎng)絡(luò)的謠言檢測研究

2019-07-01 02:35任文靜秦兵劉挺
智能計算機(jī)與應(yīng)用 2019年3期
關(guān)鍵詞:新浪微博深度學(xué)習(xí)分類

任文靜 秦兵 劉挺

摘 要:本文主要研究了GRU,LSTM等深度學(xué)習(xí)模型在謠言檢測上的應(yīng)用,判斷微博文本是否為謠言類信息??紤]到新浪微博平臺的圖結(jié)構(gòu),一條微博文本對應(yīng)著多條評論信息,評論中可能包含對該條文本的態(tài)度,例如贊成、反對、懷疑等。因此,本文在判斷微博文本是否為謠言時,融合了評論信息,將評論看作一條時間線上的各個時刻,按照時間節(jié)點(diǎn)展開,作為時間序列模型每個時刻的輸入,并且利用注意力機(jī)制衡量每個時間節(jié)點(diǎn)對最終語義表示的重要程度。實驗結(jié)果表明,在加入評論信息及attention機(jī)制后,實驗結(jié)果具有明顯提升,最后達(dá)到92.66%的識別準(zhǔn)確率。

關(guān)鍵詞: 謠言檢測;深度學(xué)習(xí);新浪微博;分類

文章編號: 2095-2163(2019)03-0300-04 中圖分類號: TP391.41 文獻(xiàn)標(biāo)志碼: A

0 引 言

目前,國內(nèi)外研究者基于twitter、新浪微博平臺中的謠言信息已經(jīng)展開了豐富的研究工作,從不同的角度著手構(gòu)建謠言檢測模型。大多數(shù)的研究都是將其看作分類任務(wù),利用帶標(biāo)簽的數(shù)據(jù)集進(jìn)行有監(jiān)督的學(xué)習(xí)。但構(gòu)造特征工程費(fèi)時費(fèi)力,并且需要一定的專業(yè)背景知識。

相比于傳統(tǒng)的機(jī)器學(xué)習(xí)方法,深度學(xué)習(xí)模型可以自動學(xué)習(xí)數(shù)據(jù)集中蘊(yùn)含的特征,摒棄了繁瑣的特征構(gòu)造過程,無需掌握過多的領(lǐng)域背景知識,在一定程度上簡化了設(shè)計開發(fā)步驟[1]。在本次研究中,主要利用GRU、LSTM模型對微博文本進(jìn)行建模,考慮到評論信息對謠言檢測具有重要的影響,評論文本中包含著否定、懷疑、肯定等態(tài)度。因此研究中將利用注意力模型對評論進(jìn)行建模。評論數(shù)眾多,采用分塊的方式對評論進(jìn)行劃分,作為時間序列模型每個時刻的輸入,并引入attention機(jī)制,衡量每個時間塊對最終語義表示的影響程度。對此,將給出設(shè)計論述如下。

1 深度學(xué)習(xí)模型研究

1.1 LSTM和GRU 網(wǎng)絡(luò)探析

長短期記憶網(wǎng)絡(luò)(LSTM)[2]是一種特殊的RNN,通過內(nèi)部的結(jié)構(gòu)設(shè)計可以避免RNN的梯度消失問題,并且相比于RNN模型,能夠記住更長遠(yuǎn)的信息。包含3個門結(jié)構(gòu),分別為輸入門、輸出門、遺忘門,可以去除或者增加長期信息,刻畫長遠(yuǎn)信息對當(dāng)前細(xì)胞狀態(tài)的影響程度,衡量當(dāng)前輸入及長遠(yuǎn)信息對當(dāng)前細(xì)胞狀態(tài)的影響程度的差異性。每個門的計算公式可表示如下:

其中,輸入門it表示當(dāng)前新的輸入對細(xì)胞狀態(tài)的影響程度,決定利用多少新信息對細(xì)胞狀態(tài)進(jìn)行修改,代替舊的信息;遺忘門ft表示從先前的細(xì)胞狀態(tài)中丟棄多少信息,0表示舍棄,1表示保留;輸出門ot確定更新后的細(xì)胞狀態(tài)將有多少信息輸出。

GRU[3](Gated Recurrent Unit)由Cho等人于2014年提出,是LSTM模型的一個變體。LSTM 包含3個門以及當(dāng)前細(xì)胞狀態(tài)的計算,參數(shù)較多,收斂較慢,訓(xùn)練時間較長。GRU對LSTM進(jìn)行了簡化,將遺忘門和輸入門合并為更新門,又引入了重置門,一定程度上加快了訓(xùn)練速度,減少了模型參數(shù),并且不會降低模型效果。GRU內(nèi)部計算公式的數(shù)學(xué)表述如下:

其中,重置門rt 決定前一個時刻隱含層狀態(tài)ht-1對當(dāng)前細(xì)胞狀態(tài)h^t的影響程度,如果先前的狀態(tài)對當(dāng)前狀態(tài)毫無影響,那么理論上,重置門rt會完全屏蔽先前的信息。更新門zt決定是否將先前的記憶進(jìn)行后傳,衡量先前記憶對未來信息的影響程度。如果zt 取值為1時,表示先前記憶完全不進(jìn)行刪減地后傳;如果zt等于0,則表示只傳遞當(dāng)前細(xì)胞狀態(tài),認(rèn)為未來信息只與當(dāng)前時刻相關(guān),與先前的記憶都沒有關(guān)系。

1.2 注意力模型探析

注意力模型起初用于編碼解碼模型中。編碼解碼模型的基本思想可描述如下:編碼的過程是將輸入序列x轉(zhuǎn)化為固定長度的向量,解碼的過程根據(jù)固定長度的向量以及之前預(yù)測出的詞語生成輸出序列,是一種端到端的學(xué)習(xí)過程。編碼器、解碼器選擇自由,可以利用RNN、 LSTM、GRU、CNN等深度學(xué)習(xí)模型的任意自由組合。

編碼解碼[4-5]模型雖然在多種任務(wù)上已取得了較為可觀的研究效果,但依然存在一定的局限性。在模型編碼的過程中,將輸入信息壓縮到固定長度的實數(shù)向量中,可能無法獲得完整的文本表示語義。而且,在解碼某個詞時,只利用到了編碼過程的最終表示,即固定長度的向量表示,而并未考慮到特定輸入對當(dāng)前解碼的影響。這種局限性對于機(jī)器翻譯、序列標(biāo)注等任務(wù)來說,將顯著降低模型的設(shè)計處理性能。

注意力模型[6]可以解決上述局限與不足。通過引入注意力,在解碼時,不單單利用固定長度的向量表示,還將關(guān)注到每一個輸入對當(dāng)前預(yù)測值的影響。每一步預(yù)測時計算輸入的影響程度,可以充分利用輸入序列攜帶的信息,進(jìn)而在解碼過程中,輸入序列的每個詞都將對待預(yù)測詞的選擇產(chǎn)生影響。

注意力模型應(yīng)用到分類任務(wù)中,對輸入序列學(xué)習(xí)語義表示時,不再使用最后一個隱含層的輸出作為特征表示,而是將每個詞的重要程度融合進(jìn)整個輸入序列的語義表示中,更加直觀清楚地解釋了輸入序列中的每個詞對分類任務(wù)的影響程度,及對該任務(wù)的重要程度。

2 基于時間序列網(wǎng)絡(luò)的謠言檢測

2.1 基于LSTM、GRU的微博文本表示

GRU模型在謠言檢測中的應(yīng)用如圖1所示。在圖1中,w1,…,wn是微博文本中的每個詞,通過查詢詞向量表,可以得到該詞的分布式詞向量表示。而經(jīng)由神經(jīng)單元的計算,則可以得到一系列隱含層的輸出,并將前一時刻隱含層的輸出和當(dāng)前輸入wi作為當(dāng)前時刻神經(jīng)單元的輸入。h1,…,hn是GRU、LSTM模型隱含層的輸出。接下來,研究將對所有隱含層的輸出按維度進(jìn)行均值計算或是取每一維的最大值(MAX pooling),作為句子的語義表示。最后,研究即將該語義表示作為最終分類的特征,送入Softmax分類器,判斷是否為謠言。

本節(jié)將LSTM、GRU模型應(yīng)用到微博文本上,研究目的旨在判斷當(dāng)不引入其它資源的前提下,且僅是使用微博文本,深度學(xué)習(xí)模型能否利用深層語義分析識別謠言,能否學(xué)習(xí)到一些類似于主題、情感分布等特征,或者挖掘語言習(xí)慣判斷是否為謠言,能否與基于手工抽取特征的傳統(tǒng)機(jī)器學(xué)習(xí)方法進(jìn)行抗衡。實驗結(jié)果可見后文3.2節(jié)內(nèi)容。

2.2 基于注意力模型的評論表示

在時下研究中,探討可知只靠微博文本是遠(yuǎn)遠(yuǎn)不夠的,語義信息并不充足,同時僅憑一條文本,人類也很難判別真假。 通常,微博的評論者會對信息的真實度進(jìn)行肯定或否定,對于謠言檢測任務(wù)來說,評論內(nèi)容也具有至關(guān)重要的作用。在微博文本的傳播周期中,不同的評論者會發(fā)表不同的意見或看法,這些信息可以幫助研究者甄別內(nèi)容的真假。針對一條微博文本的所有評論,研究也可以將其看作是與時間序列相關(guān)的。在該條微博的傳播周期中,每一時刻對應(yīng)不同的用戶,每個用戶產(chǎn)生了不同的評論。當(dāng)研究將所有的評論平鋪到一條線上時,每條評論就對應(yīng)于每個時間節(jié)點(diǎn)的輸入信息,所有評論構(gòu)成了整個輸入空間。因此,研究中就可以利用時間序列模型對所有評論進(jìn)行建模,將每條評論視作LSTM每一時刻的輸入,學(xué)習(xí)評論間的相互影響及整個評論的語義表示,此時,模型待處理的時間序列長度是評論數(shù)量大小。

通過觀察語料還將發(fā)現(xiàn),針對一條微博文本,最大評論數(shù)可達(dá)5萬條。雖然LSTM具有長依賴關(guān)系,但也不能學(xué)習(xí)到如此范圍規(guī)模的知識,而且在后期的學(xué)習(xí)過程中會逐漸忘記先前的東西。因此,研究中將考慮對評論進(jìn)行劃分。劃分后得到的塊作為LSTM、GRU模型每一時刻的輸入,減少時間序列的長度,降低模型復(fù)雜度。塊與塊之間依然存在時間上的順序關(guān)系,前后互相影響,而且也依然可以利用時間序列模型對其實現(xiàn)建模。

與此同時,研究后又得知評論也具有爆發(fā)期,即在不同的時間段,評論的增加或衰減程度是不同的,故而在對評論進(jìn)行劃分時若能捕捉到這種評論的爆發(fā)期及衰減期,將使得劃分更趨精準(zhǔn),如此劃分后每個塊內(nèi)的內(nèi)容表意可能更加相近,持有相同的觀點(diǎn),對爆發(fā)期的評論也能進(jìn)行更細(xì)致的劃分。Ma等人[7]提出一種動態(tài)劃分方式。與均等劃分不同的是,在動態(tài)劃分過程中,時間間隔將隨著樣本密度不斷變化的,樣本劃分后的塊數(shù)并不固定。

在本次研究中,則將微博文本作為第一個塊的內(nèi)容,即時間序列模型初始時刻的輸入。考慮到每個塊對謠言檢測的影響程度都各不相同,設(shè)計時在模型中引入注意力機(jī)制,獲取那些對文本分類有重要影響的塊,并且增大這些塊的權(quán)重,從而改善樣本的表示。基于GRU的注意力模型如圖2所示。

輸入是劃分成塊的評論樣本,每個時間節(jié)點(diǎn)對應(yīng)一個評論塊,利用GRU模型,結(jié)合當(dāng)前輸入及前一個時刻隱含層的輸出學(xué)習(xí)當(dāng)前時刻隱含層的輸出hit。輸入序列的樣本表示不再是最后一個隱含層的輸出表示,而是利用數(shù)學(xué)公式計算得到每個隱含層的輸出權(quán)重it,整個評論樣本的語義表示為所有隱含層輸出值的加權(quán)和。研究推得各數(shù)學(xué)運(yùn)算公式具體如下:

其中,uw是網(wǎng)絡(luò)中的一個參數(shù),可以被視為問句“輸入序列中哪部分是最重要的”的語義表示,隨機(jī)初始化,然后在不斷的訓(xùn)練過程中學(xué)習(xí)得到。

這種計算形式,充分利用了每個輸入的信息,衡量了每個時間節(jié)點(diǎn)的貢獻(xiàn),最終整個評論的語義表示將更傾向于評論中蘊(yùn)含的大多數(shù)的重要信息。

在本次研究中,在學(xué)習(xí)評論的樣本表示時,按照評論的先后時間,結(jié)合注意力機(jī)制,構(gòu)建時間序列模型。聯(lián)合微博文本語義表示,送入Softmax分類器進(jìn)行分類,判斷文本是否是謠言。實驗結(jié)果可參見后文3.2節(jié)內(nèi)容。

3 實驗與分析

3.1 語料庫建設(shè)

新浪微博社區(qū)管理中心是新浪微博官方成立的,用來協(xié)助管理微博的委員會。如若發(fā)布淫穢、違法、謠言、辱罵、騷擾等違反社區(qū)規(guī)定的言論,并經(jīng)他人舉報時,信息就會出現(xiàn)在社區(qū)管理中心,等待中心人員的手工審核。

利用新浪微博官方發(fā)布的API,研究時可以獲取新浪微博社區(qū)管理中心的不實消息版塊中的謠言信息。同樣地,也可以隨機(jī)選取一些用戶,爬取由其發(fā)布的微博,過濾后作為真實信息集。迄至當(dāng)下,已有Ma等人[7]整理公布了一系列的基于微博平臺上的數(shù)據(jù),且采樣方法相同,所以在本次研究中就選擇采用了公開的微博數(shù)據(jù)集。

研究將基于任務(wù)相關(guān)的語料庫按照層次采樣的方式對數(shù)據(jù)集進(jìn)行劃分,10%為開發(fā)集,用作模型調(diào)參,剩余的數(shù)據(jù)就按照3∶1的比例,分別用作模型的訓(xùn)練集及測試集,從而得到數(shù)據(jù)集的分布統(tǒng)計參數(shù)詳見表1。

3.2 實驗結(jié)果與分析

在謠言檢測任務(wù)中,文中使用了精確率、準(zhǔn)確率、召回率以及F1值作為每個類別的評價指標(biāo)。研究收集了2千萬的大規(guī)模微博數(shù)據(jù)集,并利用word2vec[8]模型,訓(xùn)練得出了針對特定任務(wù)的50維分布式詞向量。

針對微博文本,研究利用LSTM模型、GRU模型學(xué)習(xí)語義表示,構(gòu)建分類器,實驗結(jié)果詳見表2。

實驗結(jié)果表明,簡單的深度學(xué)習(xí)模型在謠言檢測任務(wù)上已經(jīng)可以取得84%左右的準(zhǔn)確率,同時也說明,深度學(xué)習(xí)模型的優(yōu)越性與普適性。如果只利用微博文本,GRU結(jié)果略微優(yōu)于LSTM模型結(jié)果。

GRU_R模型對評論內(nèi)容進(jìn)行建模,將評論劃分成塊,各塊將作為GRU每個時刻的輸入,時間序列的長度為塊的個數(shù)。GRU_Att模型將注意力機(jī)制與GRU模型結(jié)合起來,并將其應(yīng)用到微博文本及評論內(nèi)容的表示學(xué)習(xí)上,衡量每塊評論對微博文本的影響。實驗結(jié)果詳見表3。

考慮到在謠言檢測任務(wù)中,GRU模型在文本語義表示方面略優(yōu)于LSTM,且具有速度快,參數(shù)少的優(yōu)點(diǎn),因此在注意力模型中,研究只在GRU模型上進(jìn)行了嘗試。分析了評論對于謠言檢測的重要性,通過對評論劃分成塊,利用時間序列模型學(xué)習(xí)語義表示,并引入attention機(jī)制,衡量不同時間節(jié)點(diǎn)影響程度,最終可達(dá)到92.66%,相比只利用微博文本的GRU模型,提升7個百分點(diǎn)。實驗結(jié)果證明,Attention機(jī)制及評論內(nèi)容的引入,可以大幅度提升模型的準(zhǔn)確率。注意力模型在建模的過程中,著重考慮每個塊內(nèi)評論對謠言檢測的影響程度,利用這種不同的影響度,刻畫整體評論的語義表示,使得語義表示更趨豐富,更加貼合評論中重要信息,例如懷疑、肯定等態(tài)度。

4 結(jié)束語

本文主要利用深度學(xué)習(xí)模型進(jìn)行謠言的自動識別。實驗中,首先嘗試了利用GRU、LSTM序列模型對微博文本進(jìn)行建模,并獲得了85.2%的準(zhǔn)確率。接著,引入了評論信息,由于評論數(shù)過多,對評論按照時間密度劃分成塊,每塊作為時間序列模型每個時刻的輸入,同時,引入attention機(jī)制,重點(diǎn)關(guān)注有影響力的評論塊。最終,本文提出的模型可以獲得92.66%的準(zhǔn)確率,相比只用微博文本,提升了近8個百分點(diǎn)。

參考文獻(xiàn)

[1]LECUN Y, BENGIO Y, HINTON G. Deep learning[J]. Nature, 2015, 521(7553):436-444.

[2]HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural computation, 1997,9(8):1735-1780.

[3]CHUNG J, GULCEHRE C, CHO K H, et al. Empirical evaluation of gated Recurrent Neural Networks on sequence modeling[J]. arXiv preprint arXiv:1412.3555, 2014.

[4]CHO K, MERRIENBOER B V, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. arXiv preprint arXiv:1406.1078, 2014.

[5]VINYALS O, KAISER ,KOO T, et al. Grammar as a foreign language[J].? arXiv preprint arXiv:1412.7449,2014.

[6]BAHDANAU D, CHO K, BENGIO Y. Neural machine translation by jointly learning to align and translate[J].? arXiv preprint arXiv:1409.0473, 2014.

[7]MA Jing, GAO Wei, MITRA P, et al. Detecting rumors from Microblogs with Recurrent Neural Networks[C]// The 25th International Joint Conference on Artificial Intelligence (IJCAI 2016). New York, USA:IJCAI/AAAI Press,2016:3818-3824.

[8]MIKOLOV T, SUTSKEVER I, CHEN Kai, et al. Distributed representations of words and phrases and their compositionality[J]. arXiv preprint arXiv:1310.4546,2013.

猜你喜歡
新浪微博深度學(xué)習(xí)分類
按需分類
教你一招:數(shù)的分類
說說分類那些事
新浪微博熱點(diǎn)事件的輿論傳播與群體心理
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場域建構(gòu)
新浪微博娛樂明星的社會網(wǎng)絡(luò)分析
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實現(xiàn)
社交媒體平臺醫(yī)患關(guān)系報道特點(diǎn)研究