国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多特征融合的可移植謠言早期檢測(cè)模型

2020-10-09 11:17孫王斌
計(jì)算機(jī)時(shí)代 2020年9期

摘要:針對(duì)當(dāng)前諸多網(wǎng)絡(luò)平臺(tái)的謠言泛濫現(xiàn)象,提出結(jié)合長(zhǎng)短期記憶(Long-short Term Memory,LSTM)網(wǎng)絡(luò)與支持向量機(jī)(Support Vector Machine,SVM)的可移植謠言早期檢測(cè)模型。將謠言文本轉(zhuǎn)換為向量序列,通過(guò)LSTM網(wǎng)絡(luò)挖掘謠言文本的深層特征,并引入有效度、敏感度與熱度特征.通過(guò)SVM融合訓(xùn)練擬合表明,該模型在多平臺(tái)數(shù)據(jù)集上表現(xiàn)出良好的預(yù)測(cè)結(jié)果。

關(guān)鍵詞:謠言檢測(cè);可移植;LSTM; SVM

中圖分類號(hào):TP391.1

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1006-8228(2020)09-11-06

Rumor early detection model with multi-feature merged and portability

Sun Wanebin

(Central South University, School of Cornputer Science and Engineering, Changsha, Hunan 410012. China)

Abstract: In view of the phenomenon of rumor overspreading among many platforms, a portable rumor early detection model withthe combination of Long-short Term Memory (LSTM) network and Support Vector Machine (SVM) is proposed. Vector sequencesconverted from rumor corpus are fed into LSTM network to mine the hidden text feature. Effectiveness, sensitivity and heatfeatures of rumor corpus are introduced and merged by SVM training. The experimental results show that the model performs wellin multi-platform dataset.

Key words: rumor detection; portable; LSTM; SVM

0引言

隨著社會(huì)經(jīng)濟(jì)、文化的快速發(fā)展,截止到2018年底,我國(guó)互聯(lián)網(wǎng)普及率達(dá)59.6%,網(wǎng)民規(guī)模達(dá)到8.29億。互聯(lián)網(wǎng)技術(shù)的進(jìn)步,極大增強(qiáng)了網(wǎng)絡(luò)信息的流動(dòng)性和擴(kuò)散性[1]。網(wǎng)絡(luò)信息質(zhì)量參差不齊及監(jiān)管機(jī)制的缺乏,導(dǎo)致網(wǎng)絡(luò)謠言肆意傳播。謠言泛濫致使人們難以甄別信息可信程度,對(duì)人們的正常生活秩序造成影響,甚至引起經(jīng)濟(jì)損失及社會(huì)動(dòng)蕩。近年來(lái),各大新聞網(wǎng)站及社交平臺(tái)積極推出官方辟謠平臺(tái),如新浪微博辟謠平臺(tái)或中國(guó)互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái)(以下簡(jiǎn)稱聯(lián)合辟謠平臺(tái))。然而,上述平臺(tái)需要大量專業(yè)人士花費(fèi)大量時(shí)間驗(yàn)證,并且平臺(tái)資源差異大、謠言重復(fù)率高,更加重了驗(yàn)證負(fù)擔(dān)。因此如何在各平臺(tái)謠言傳播初期進(jìn)行通用有效的自動(dòng)檢測(cè),對(duì)于輔助人工驗(yàn)證、降低謠言危害和維護(hù)社會(huì)穩(wěn)定具有重要意義。

1相關(guān)研究

目前謠言檢測(cè)主要為二分類問(wèn)題,即1代表謠言,0代表非謠言。該問(wèn)題最先由Yahoo實(shí)驗(yàn)室研究員Castillo[2]通過(guò)對(duì)Twitter上的tweet進(jìn)行整理后于2011年提出,并提出基于用戶特征、傳播特征和用戶特征的決策樹(shù)分類模型,以此判斷事件的真實(shí)性。2012年,Yang等人[3]首次基于新浪微博平臺(tái)進(jìn)行謠言檢測(cè),引入了用戶終端類型和用戶位置兩個(gè)新的統(tǒng)計(jì)特征,并通過(guò)對(duì)真實(shí)微博數(shù)據(jù)集的測(cè)試證明了上述新特征的有效性。2016年,毛二松等人[4]提出了一種基于深層特征和繼承分類器的微博謠言檢測(cè)方法,利用微博情感傾向、微博傳播過(guò)程及微博用戶歷史信息等深層分類特征對(duì)集成分類器進(jìn)行訓(xùn)練,有效提高了微博辟謠性能。2019年,王志宏[5]、過(guò)戈提出將事件流行度、模糊度和流傳度作為微博謠言事件檢測(cè)分類器的三項(xiàng)新特征,使謠言事件自動(dòng)檢測(cè)效果得到了可觀提升。

近年來(lái),深度神經(jīng)網(wǎng)絡(luò)在文本分類、圖像處理等方面表現(xiàn)優(yōu)異,自然語(yǔ)言處理(Natural LanguageProcessing,NLP)領(lǐng)域也越趨成熟。2016年,Ma等人[6]首次提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent NeuralNetwork,RNN)學(xué)習(xí)微博謠言中的深層特征,捕獲相關(guān)微博的上下文信息隨時(shí)間的變化,在真實(shí)微博數(shù)據(jù)集上的測(cè)試表明,該方法的準(zhǔn)確率較傳統(tǒng)檢測(cè)方法而言取得進(jìn)一步提高。李力釗[7]等人提出基于C-GRU模型的微博謠言事件檢測(cè)方法,充分考慮了微博語(yǔ)句的句義特征與微博事件中的微博序列相關(guān)特征,有效提高了檢測(cè)準(zhǔn)確率。

雖然現(xiàn)有研究已取得一定成果,但仍存在以下幾點(diǎn)問(wèn)題。

(1)純傳統(tǒng)機(jī)器學(xué)習(xí)方法需要人為構(gòu)造大量特征,增強(qiáng)了主觀性。

(2)研究平臺(tái)單一,影響模型泛化能力與可移植性。

(3)所依賴的傳播模式、評(píng)論轉(zhuǎn)發(fā)等特征具有時(shí)延性,在謠言高速傳播窗口期后才能發(fā)揮作用,無(wú)法完成早期檢測(cè)。

針對(duì)上述問(wèn)題,本文提出多特征融合的可移植謠言早期檢測(cè)模型。該模型結(jié)合LSTM神經(jīng)網(wǎng)絡(luò)挖掘謠言文本特征以提高特征工程質(zhì)量與模型性能,在剔除時(shí)延特征同時(shí)引入有效度、敏感度、熱度三大通用淺層特征保證早期檢測(cè)能力,利用SVM進(jìn)行融合訓(xùn)練,最終在多平臺(tái)驗(yàn)證集上得到88%預(yù)測(cè)準(zhǔn)確率。

2多特征融合的可移植謠言早期檢測(cè)模型

謠言早期檢測(cè)模型流程如圖l所示,記謠言事件語(yǔ)料集合為T(mén)={t1,t2,…,tm},其中ti(1≤i≤m)代表某一主題的謠言語(yǔ)料。本文首先結(jié)合預(yù)處理過(guò)程提取出有效度、敏感度等淺層特征,再將已處理語(yǔ)料通過(guò)NLP技術(shù)轉(zhuǎn)換為向量序列輸入LSTM網(wǎng)絡(luò)中學(xué)習(xí)謠言文本特征,同時(shí)利用網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取熱度特征,最后融合所有特征,構(gòu)建SVM模型進(jìn)行訓(xùn)練,實(shí)現(xiàn)謠言自動(dòng)檢測(cè)。

2.1淺層特征構(gòu)建

本節(jié)將對(duì)除文本特征外的淺層特征計(jì)算方式進(jìn)行介紹,包括普通特征與引入特征。

2.1.1符號(hào)特征

該特征是對(duì)語(yǔ)料中符號(hào)出現(xiàn)次數(shù)與占比的綜合,符號(hào)包括超鏈接、感嘆號(hào)等。謠言語(yǔ)料中常重復(fù)加入符號(hào)用于加重語(yǔ)氣、博人眼球,如聯(lián)合辟謠平臺(tái)發(fā)布的十大熱點(diǎn)謠言中便出現(xiàn)以“《郵政編碼要取消了?……》”為題的謠言。利用式(1)對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析得到結(jié)果如表1所示,結(jié)果表明謠言語(yǔ)料符號(hào)平均占比約為非謠言語(yǔ)料的2.5倍,存在明顯差距。

f(t)=len(t)-len(t')/c+len(t)-len(t')/len(t) (1)其中t表示輸入語(yǔ)料,t'表示刪除符號(hào)后的語(yǔ)料,len表示語(yǔ)料長(zhǎng)度,C為自定義參數(shù)。

2.1.2情感特征

該特征指語(yǔ)料的情感正向程度。首歡容等人[8]在2017年提出一種基于情感詞典的網(wǎng)絡(luò)謠言識(shí)別方法,在假設(shè)高質(zhì)量信息源信息更可靠的情況下,對(duì)特定類型謠言識(shí)別取得了較好成果。而情感詞典缺乏可移植性,因此本文采用NLP科學(xué)工具SnowNLP計(jì)算情感值,其輸出范圍為[0,1】,輸出值越大表示情感越趨于正向。隨機(jī)選取謠言、非謠言樣本各50條利用SnowNLP計(jì)算情感值發(fā)現(xiàn)謠言與非謠言語(yǔ)料平均情感值分別為0.59和0.75,表明非謠言語(yǔ)料較謠言語(yǔ)料而言情感更為積極。

2.1.3有效度特征

該特征指語(yǔ)料信息的有效程度,本文采用語(yǔ)料中的停用詞數(shù)量進(jìn)行表示。停用詞處理是許多文本處理應(yīng)用(如信息檢索)中最重要的任務(wù)之一[9],可以節(jié)省存儲(chǔ)空間和提高搜索效率。停用詞通常不代表具體含義[10],因此語(yǔ)料中停用詞數(shù)量在一定程度上體現(xiàn)了有效信息的占比,而以往研究沒(méi)有進(jìn)行利用。本文以哈工大停用詞為主體構(gòu)建了1677個(gè)停用詞,對(duì)語(yǔ)料集進(jìn)行統(tǒng)計(jì)得到結(jié)果如表2所示,證明該特征可以有效區(qū)分謠言與非謠言。

2.1.4敏感度特征

該特征指語(yǔ)料信息的敏感程度,以語(yǔ)料中敏感詞含量定量表示。敏感詞是在謠言中高頻出現(xiàn)的詞語(yǔ),如“震驚”、“驚呆”以及帶有性暗示的詞語(yǔ)等。而網(wǎng)絡(luò)文化的發(fā)展與輿論監(jiān)管機(jī)制的完善更讓這一特征顯得復(fù)雜,縮寫(xiě)、變換字體、改用諧音等逃脫檢測(cè)的手法層出不窮。本文對(duì)健康、政治及兩性等領(lǐng)域的敏感詞及變體進(jìn)行搜集并構(gòu)建敏感詞庫(kù),利用詞庫(kù)對(duì)語(yǔ)料庫(kù)統(tǒng)計(jì)分析發(fā)現(xiàn),謠言中敏感詞的數(shù)量遠(yuǎn)高于非謠言,詳細(xì)結(jié)果如表3所示。

其特征計(jì)算公式如下:

f(t)=1/k∑k i=1 ∪Swi t (2)其中t為輸入文本,K為敏感詞總數(shù),∪Swi t為敏感詞Swi在語(yǔ)料中的出現(xiàn)次數(shù)。

2.1.5熱度特征

該特征指語(yǔ)料在網(wǎng)絡(luò)環(huán)境中的熱度值。為保證各平臺(tái)衡量標(biāo)準(zhǔn)一致,本文以語(yǔ)料于百度搜索引擎中的搜索次數(shù)表示。本文在數(shù)據(jù)收集過(guò)程中發(fā)現(xiàn)謠言語(yǔ)料多由個(gè)體發(fā)布,往往通過(guò)更改人物、地點(diǎn)等進(jìn)行重復(fù)傳播以提升熱度,因此具有一定熱度基礎(chǔ)。非謠言語(yǔ)料則主要由個(gè)體或官方發(fā)布,而官方平臺(tái)的存在會(huì)造成較大的熱度差異。隨機(jī)選取謠言、非謠言語(yǔ)料各5000條,得到熱度分布如圖2所示。圖中結(jié)果證明了特征的有效性,當(dāng)熱度值較低時(shí),謠言語(yǔ)料頻數(shù)遠(yuǎn)高于非謠言語(yǔ)料;而隨著熱度值增加,非謠言語(yǔ)料頻數(shù)則普遍高于謠言語(yǔ)料。

2.2基于LSTM的謠言深層文本特征構(gòu)建

文本是謠言信息的主要載體與直觀體現(xiàn)。喻國(guó)明[11]基于騰訊大數(shù)據(jù)篩選鑒定的6000+謠言語(yǔ)料,對(duì)謠言語(yǔ)料的敘事結(jié)構(gòu)、議題場(chǎng)景構(gòu)筑及標(biāo)題特征進(jìn)行了詳細(xì)分析,反映出謠言文本特征的復(fù)雜性與重要性,體現(xiàn)了廣泛的分析意義與應(yīng)用價(jià)值??紤]到人為構(gòu)造特征的不完備性,本文采用LSTM神經(jīng)網(wǎng)絡(luò)[12]對(duì)謠言深層文本特征進(jìn)行學(xué)習(xí)。

LSTM模型構(gòu)建過(guò)程如圖3所示,本文將其劃分為四大模塊:輸入模塊、LSTMl模塊、LSTM2模塊和分類模塊。輸入模塊負(fù)責(zé)接收輸入語(yǔ)料以及進(jìn)行向量化操作;LSTM1模塊負(fù)責(zé)對(duì)來(lái)自輸入模塊的向量矩陣進(jìn)行語(yǔ)義適應(yīng);LSTM2模塊利用LSTM1模塊輸出矩陣進(jìn)行強(qiáng)化學(xué)習(xí),深層次挖掘謠言文本特征;分類模塊根據(jù)LSTM2模塊的輸出進(jìn)行分類總結(jié),得出分類結(jié)果,詳細(xì)步驟如下。 (1)輸入模塊將預(yù)處理后的謠言語(yǔ)料序列作為輸入,經(jīng)分詞得到詞序列集合Ws={W1,W2,…,Wm}。設(shè)置詞數(shù)閾值Th,對(duì)于詞序列Wi(1≤i≤m)采用截?cái)嘌a(bǔ)齊策略保證數(shù)據(jù)規(guī)整性。利用預(yù)訓(xùn)練Word2Vec詞向量模型,將詞語(yǔ)轉(zhuǎn)化為低維稠密向量,詞序列Wi則對(duì)應(yīng)轉(zhuǎn)換為矩陣Mebd∈RTh*D,其中D為詞向量模型中的向量維度,則文本集合可轉(zhuǎn)換為Ws∈Rm*Th*D。圖4以m=4,Th=5,D=4為例kk直觀展現(xiàn)了上述過(guò)程。

(2)LSTMl模塊將Ws作為輸入序列,通過(guò)LSTM單元進(jìn)行語(yǔ)境自適應(yīng),將詞向量維度更新為D,得到新的語(yǔ)料集合表示:

Ws=Ω(f(Ws·U1+b)

(3)其中f為Relu函數(shù),U1為網(wǎng)絡(luò)權(quán)重,b為偏置項(xiàng),Ω為防止模型過(guò)擬合的Dropout操作。

(3)LSTM2模塊利用LSTMl模塊的輸出進(jìn)行擬合訓(xùn)練。對(duì)于謠言文本Ti,LSTM單元綜合其詞向量序列Wsi,提取句意、句式等隱藏特征,并將結(jié)果融合為窗口大小為D。的一維向量,最后通過(guò)Dropout層得到特征序列為

(4)其中Ω為Dropout操作,g為Softsign函數(shù),U2為網(wǎng)絡(luò)權(quán)重,b為偏置項(xiàng)。

(4)分類模塊使用Sigmoid函數(shù)將LSTM2模塊最后時(shí)間步的輸出轉(zhuǎn)換為對(duì)應(yīng)謠言與非謠言的分類概率p,其即為文本特征值,p值越大表示語(yǔ)料為謠言的概率越高。

2.3SVM模型構(gòu)建

在保證學(xué)習(xí)性能的同時(shí),本文融合深、淺層特征構(gòu)建特征向量,采用傳統(tǒng)機(jī)器學(xué)習(xí)模型SVM進(jìn)行擬合以提高物理性能。作為機(jī)器學(xué)習(xí)中流行且功能強(qiáng)大的監(jiān)督分類器,SVM已經(jīng)成功應(yīng)用于模式挖掘、計(jì)算機(jī)視覺(jué)和信息檢索等領(lǐng)域[13]。

SVM可以應(yīng)用于可分離和不可分離的數(shù)據(jù)集[14]。令向量xi為文本Ti的特征向量,yi為謠言標(biāo)簽,則數(shù)據(jù)集Xtrain可表示為

Xtrain=(5)

考慮到數(shù)據(jù)來(lái)自多個(gè)平臺(tái),相互之間容易造成噪音干擾導(dǎo)致線性不可分,本文采用高斯徑向基函數(shù)(Radial Basis Function,RBF)作為核函數(shù)K,該函數(shù)可將樣本從原始空間映射到高維空間,使得樣本在高維空間中線性可分。

3實(shí)驗(yàn)過(guò)程與結(jié)果分析

3.1實(shí)驗(yàn)數(shù)據(jù)

微博與微信作為目前國(guó)內(nèi)頂級(jí)流量平臺(tái),其數(shù)億級(jí)的用戶群體使得其中流動(dòng)著海量信息,其中不乏網(wǎng)絡(luò)謠言。2018年聯(lián)合辟謠平臺(tái)正式上線,至今已精確辟謠數(shù)千條網(wǎng)絡(luò)謠言。此外,各大論壇及直播平臺(tái)均有謠言滋生。因此,本文將從上述平臺(tái)采集實(shí)驗(yàn)所需謠言數(shù)據(jù)。同時(shí),為保證數(shù)據(jù)合理性,本文從網(wǎng)絡(luò)開(kāi)源新聞數(shù)據(jù)集中抽取部分語(yǔ)料作為非謠言數(shù)據(jù)。結(jié)合網(wǎng)絡(luò)爬蟲(chóng)與正則表達(dá)式技術(shù),最終,經(jīng)聚類去重處理,為謠言識(shí)別任務(wù)構(gòu)建的數(shù)據(jù)集分布情況如表4。

3.2超參數(shù)優(yōu)化與實(shí)驗(yàn)結(jié)果

本文需要訓(xùn)練兩個(gè)模型:計(jì)算文本特征的LSTM模型和融合多特征的SVM模型。隨機(jī)選取12000條數(shù)據(jù)作為訓(xùn)練集,2000條數(shù)據(jù)作為交叉集,3000條數(shù)據(jù)作為驗(yàn)證集。

3.2.1LSTM模型實(shí)驗(yàn)結(jié)果

該模型用于學(xué)習(xí)謠言深層文本特征。設(shè)置詞向量維度D為180,文本分詞后的詞數(shù)閾值Th為100,LSTM1模塊輸出維度為100×64,LSTM2模塊輸出維度為1×64。模型損失函數(shù)采用Binary_crossentropy函數(shù),并使用自適應(yīng)矩估計(jì)優(yōu)化器(Adam)對(duì)模型進(jìn)行優(yōu)化。設(shè)兩層Dropout值為Dr1與Dr2,篩選范圍均為0.2-0.5,以0.1為調(diào)整步長(zhǎng)。設(shè)置洲練一交叉集迭代次數(shù)為10,圖5呈現(xiàn)的Dropout參數(shù)調(diào)優(yōu)過(guò)程表明Dr1=0.5、Dr2=0.4時(shí)達(dá)到最優(yōu)性能,其對(duì)應(yīng)洲練過(guò)程如圖6所示。

圖6表明第8次迭代時(shí),交叉集損失值達(dá)到最低隨后開(kāi)始增加造成過(guò)擬合,說(shuō)明模型達(dá)到最優(yōu),最終在驗(yàn)證集中取得80%預(yù)測(cè)準(zhǔn)確率,詳細(xì)評(píng)測(cè)結(jié)果見(jiàn)表5。

3.2.2SVM模型實(shí)驗(yàn)結(jié)果

為進(jìn)一步提高模型性能,利用SVM融合上述特征進(jìn)行訓(xùn)練。基于RBF核函數(shù)的SVM中參數(shù)C與σ的搭配很大程度上決定了模型性能,因此本文將C與σ范圍縮小為[1,100]后,采用網(wǎng)格搜索確定其最佳組合為C=30,σ=40,結(jié)果如圖7所示。

以迭代步數(shù)為自變量繪制模型對(duì)應(yīng)準(zhǔn)確率曲線如圖8所示,當(dāng)?shù)綌?shù)達(dá)到5000步時(shí),模型逐漸收斂達(dá)到最佳性能,最終取得88%準(zhǔn)確率,相對(duì)僅使用文本特征的LSTM模型提高了8%。

3.2.3對(duì)比分析

令R表示謠言,NR表示非謠言,使用如下方法與本文提出方法進(jìn)行對(duì)比。

(1)王志宏[5]等提出的動(dòng)態(tài)時(shí)序特征表示方法和三項(xiàng)新特征的檢測(cè)方法SVMDTSall。

(2) Ma等人[6]使用的tanh-RNN、LSTM、GRU檢測(cè)方法。

結(jié)果如表6所示,如第1章所述,本研究主要采用微博或Twitter數(shù)據(jù)進(jìn)行檢測(cè),而人們?cè)诓煌脚_(tái)針對(duì)某一事件的表現(xiàn)形式存在一定差異,對(duì)模型可移植性造成影響。本文在平臺(tái)差異性增強(qiáng)了數(shù)據(jù)集噪音的情況下,進(jìn)一步將準(zhǔn)確率提高到了88%,證明了模型的謠言早期檢測(cè)能力以多平臺(tái)間的可移植性。

4結(jié)束語(yǔ)

作為互聯(lián)網(wǎng)時(shí)代的消極產(chǎn)物,網(wǎng)絡(luò)謠言對(duì)個(gè)人、社會(huì)和國(guó)家?guī)?lái)了巨大影響。本文提出多特征融合的可移植謠言早期檢測(cè)模型摒棄傳統(tǒng)的時(shí)延特征,引入常被以往研究忽略的有效度、敏感度、熱度特征;結(jié)合深度神經(jīng)網(wǎng)絡(luò)挖掘謠言深層文本特征,進(jìn)一步增強(qiáng)了對(duì)謠言語(yǔ)料的表征能力。在對(duì)多平臺(tái)數(shù)據(jù)集的測(cè)試表明,本文所提出的模型展現(xiàn)了可觀的謠言早期檢測(cè)能力,并表現(xiàn)出更為優(yōu)秀的可移植性。下一步工作中我們將獲取更大數(shù)據(jù)集,對(duì)數(shù)據(jù)進(jìn)行深度分析,發(fā)現(xiàn)網(wǎng)絡(luò)謠言更有效的特性以提高模型準(zhǔn)確率。除此之外,謠言傳播方式繁多,如圖片、視頻等,因此僅考慮文本形式的謠言存在一定局限性,需要進(jìn)一步地思考如何將其進(jìn)行融合以達(dá)到更好的檢測(cè)效果。

參考文獻(xiàn)(References):

[1]張鵬,蘭月新,李昊青等,基于認(rèn)知過(guò)程的網(wǎng)絡(luò)謠言綜合分類方法研究[J],圖書(shū)與情報(bào),2016.4:8-15

[2]Castillo C,Mendoza M,Poblete B.Information credibilityon twitter [C]// Proceedings of the 20th internationalconference on world wide web. ACM,2011:675-684.

[3]Yang F,Liu Y, Yu X, et al. Automatic detection of rumoron Sina Weibo[C]//Proceedings of the ACM SIGKDDWorkShop on Mining Data Semantics. ACM,2012:13

[4]毛二松,陳剛,劉欣等,基于深層特征和集成分類器的微博謠言檢測(cè)研究[J].計(jì)算機(jī)應(yīng)用研究,2016.33(11):3369-3373

[5]王志宏,過(guò)弋.微博謠言事件自動(dòng)檢測(cè)研究[J].中文信息學(xué)報(bào),2019.33(6):132-140

[6] Ma J,Gao W, Wong K, et a/ Detecting rumors frommicroblogs with recurrent neural networks[C]// InProceedings of the Twenty-Fifth International JointConference on Artificial Intelligence. New York: AAAIPress,2016:3818-3824

[7]李力釗,蔡國(guó)永,潘角,基于C-GRU的微博謠言事件檢測(cè)方法[J].山東大學(xué)學(xué)報(bào):工學(xué)版,2019.49(2):102-106,115

[8]首歡容,鄧淑卿,徐健,基于情感分析的網(wǎng)絡(luò)謠言識(shí)別方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2017.1(7):44-51

[9] Mohammad S,Jesus V. Automatic identification of lightstop words for Persian information retrieval systems.Journal of Information Science,40(4):476-487

[10] Kaur J,R. Saini J.Punjabi Stop Words:A Gurmukhi,Shahmukhi and Roman Scripted Chronicle. InProceedings of the ACM Symposium on Women inResearch 2016. ACM,2016:32-37

[11]喻國(guó)明,網(wǎng)絡(luò)謠言的文本結(jié)構(gòu)與表達(dá)特征——基于騰訊大數(shù)據(jù)篩選鑒定的6000+謠言文本的分析[J],新聞與寫(xiě)作,2018.2:53-59

[12]Hochreiter S, Schmidhuber J. Long Short-TermMemoW. Neural Comput,1997.46:1735-1780

[13] Cheng Fan, Chen Jiabin, Qiu Jianfen. et a/.A subregiondivision based multi-objective evolutionary algorithm forSVM training set selection[J].Neurocomputing,2020.

[14]Mary Francis L Sreenath N. TEDLESS-Text detectionusing least-square SVM from natural scene[J].Journal of King Saud University-Computer andInformation Sciences,2020.32(3).

收稿日期:2020-04-26

作者簡(jiǎn)介:孫王斌(1998-),男,江西宜春人,本科生,主要研究方向:自然語(yǔ)言處理。

巴彦县| 彩票| 阳信县| 北京市| 玉门市| 靖州| 澄城县| 廉江市| 太湖县| 六枝特区| 耒阳市| 文化| 吴川市| 庆城县| 榆树市| 加查县| 甘孜| 临漳县| 南昌县| 日照市| 舞阳县| 烟台市| 遂昌县| 法库县| 广宗县| 米脂县| 富源县| 长春市| 阿勒泰市| 色达县| 济阳县| 岳普湖县| 广元市| 万荣县| 芒康县| 大庆市| 怀化市| 荔波县| 习水县| 台东市| 建平县|