国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

網(wǎng)絡(luò)謠言識(shí)別方法及展望

2017-02-13 15:56何湘東朱亦寧
網(wǎng)絡(luò)空間安全 2016年11期
關(guān)鍵詞:網(wǎng)絡(luò)謠言特征提取

何湘東 朱亦寧

【 摘 要 】 隨著網(wǎng)絡(luò)的普及,越來(lái)越多的人能夠在網(wǎng)上自由地發(fā)布信息,但這些信息并非總是真實(shí)的。網(wǎng)絡(luò)謠言傳播速度快,范圍廣,如果不加以控制,負(fù)面影響巨大。然而,謠言往往難以識(shí)別,特別是完全依靠人力,不僅費(fèi)時(shí)且費(fèi)力。論文旨在總結(jié)謠言識(shí)別方面已有的文獻(xiàn)成果,從特征提取、識(shí)別方法構(gòu)建兩個(gè)角度,總結(jié)分析了當(dāng)前的主流識(shí)別方法,進(jìn)而對(duì)網(wǎng)絡(luò)謠言進(jìn)行防范。最后,論文給出了未來(lái)的研究方向。

【 關(guān)鍵詞 】 網(wǎng)絡(luò)謠言;特征提??;識(shí)別算法

【 中圖分類號(hào) 】 TP391

【 文獻(xiàn)標(biāo)識(shí)碼 】 A

Internet Rumors Identification Methods and Its Future

He Xiang-dong 1 Zhu Yi-ning 2

(1.Network and Information Center, Nanjing University JiangsuNanjing 210023;

2.Office of Informatization, Nanjing University JiangsuNanjing 210023)

【 Abstract 】 With the popularity of Internet, an increasing number of people post online information freely. But not all these information is necessarily true. With the rapidity and width of internet rumor circulation, if not being controlled properly, the negative impact is enormous. It is time-consuming and laborious if the rumor identification depends solely on mens efforts. The paper summarizes the results in rumor identification from previous studies. Further, to safeguard against online rumors, both feature extraction and identification method construction are adopted by analyzing the mainstream identification methods. In conclusion, the paper presents possibilities for future studies.

【 Keywords 】 internet rumors;feature extraction;identification algorithm

1 引言

隨著微博等社交網(wǎng)絡(luò)媒體的興起,網(wǎng)絡(luò)謠言帶來(lái)的負(fù)面影響越來(lái)越受到大家的關(guān)注。相較于傳統(tǒng)模式,網(wǎng)絡(luò)謠言在傳播范圍與影響程度方面有著質(zhì)的區(qū)別。網(wǎng)絡(luò)謠言既有針對(duì)個(gè)人的誹謗,也有針對(duì)重大事件的捏造,前者對(duì)公民的日常生活帶來(lái)不利影響或者改變,后者則可能動(dòng)搖社會(huì)的穩(wěn)定和諧。為了應(yīng)對(duì)謠言的威脅,世界各國(guó)相繼出臺(tái)各種措施。韓國(guó)謠言制造者最高可判刑5年,印度傳播謠言最高可判刑3年,美國(guó)則有近130項(xiàng)法律法規(guī)與規(guī)范網(wǎng)絡(luò)言論有關(guān)。法國(guó)政府一方面在法律上予以制裁,另一方面也鼓勵(lì)公眾建立辟謠網(wǎng)站,提高人們對(duì)謠言的識(shí)別能力。我國(guó)政府同樣在降低謠言對(duì)社會(huì)影響方面,在不斷地做出努力。

然而由于網(wǎng)絡(luò)謠言的隱蔽性,眾多防范與警示措施依舊無(wú)法杜絕網(wǎng)絡(luò)謠言的產(chǎn)生,針對(duì)網(wǎng)絡(luò)謠言的學(xué)術(shù)研究也沒有停止過。為了識(shí)別謠言,學(xué)者們從多個(gè)角度試圖找出謠言共性,構(gòu)建高精度識(shí)別模型,努力將謠言的危害程度降至最低。本文將在第二部分總結(jié)謠言識(shí)別的主要文獻(xiàn),第三部分歸納謠言識(shí)別的核心問題,第四部分給出當(dāng)前的研究空白與不足之處,最后對(duì)本文進(jìn)行總結(jié)。

2 謠言識(shí)別中的文本屬性提取

研究對(duì)象的特征提取是謠言識(shí)別的關(guān)鍵問題之一,其反映了網(wǎng)絡(luò)信息的可信程度,是識(shí)別謠言的基礎(chǔ)。通常關(guān)鍵屬性可以歸納為四種,即文本屬性、網(wǎng)絡(luò)用戶屬性、網(wǎng)絡(luò)屬性、構(gòu)造屬性等。其中前三種屬性可以從網(wǎng)絡(luò)中直接提取,第四種屬性需要對(duì)原始數(shù)據(jù)進(jìn)行計(jì)算分析,構(gòu)造出適合識(shí)別算法的屬性,這種屬性往往包含在前三種之中。

文本屬性:文本屬性是識(shí)別謠言類文章普遍考慮的屬性。任何謠言,在文本內(nèi)容上,都有別于事實(shí)。文本屬性一般包括謠言發(fā)布時(shí)間、是否包含URL、文本長(zhǎng)度、關(guān)鍵詞提取和簡(jiǎn)單語(yǔ)義分析等。Benevenuto等人[1]發(fā)現(xiàn),URL包含與否是識(shí)別謠言的重要特征。除此之外,文本發(fā)布時(shí)間和地點(diǎn)能有助于快速判斷描述內(nèi)容的真實(shí)性,需找信息相關(guān)事件的發(fā)生源頭,有助于算法或其他方法識(shí)別結(jié)果的準(zhǔn)確性。

網(wǎng)絡(luò)用戶屬性:網(wǎng)絡(luò)用戶屬性包括人口統(tǒng)計(jì)數(shù)據(jù)、網(wǎng)絡(luò)特征數(shù)據(jù)和個(gè)人情感、信仰等主觀因素。人口統(tǒng)計(jì)數(shù)據(jù)包含用戶的年齡、性別、住址等;網(wǎng)絡(luò)特征數(shù)據(jù)包括用戶注冊(cè)時(shí)間、個(gè)人網(wǎng)站描述、好友數(shù)、粉絲數(shù)等;個(gè)人情感包括喜怒哀怨、信仰等。Aditi Gupta[2]、Manish Gupta等[3]使用了好友數(shù)、粉絲數(shù)、是否被網(wǎng)站認(rèn)證、注冊(cè)時(shí)間作為用戶特征。但是,這些屬性只能反映用戶的靜態(tài)特征,Victoria[4]則選取了個(gè)人信仰、微博觀點(diǎn)傾向等作為用戶的動(dòng)態(tài)特征。

信息傳播特征:信息傳播特征是識(shí)別謠言的重要特征。對(duì)于SNS和微博等不同的網(wǎng)絡(luò)形式,謠言傳播的拓?fù)浣Y(jié)構(gòu)存在差異,SNS是雙向關(guān)注類型,而微博允許單向關(guān)注。任一奇等[5]認(rèn)為謠言在微博中具有“由點(diǎn)到面的核裂變傳播”特征。一般的信息傳播特征包括發(fā)布者與轉(zhuǎn)發(fā)者之間的關(guān)系、被轉(zhuǎn)發(fā)微博再加工屬性、轉(zhuǎn)發(fā)數(shù)、轉(zhuǎn)發(fā)率等因素。然而,該特征由于僅僅考慮了一些結(jié)構(gòu)上的變化,不包括從評(píng)論內(nèi)容包含的信息有用性或轉(zhuǎn)發(fā)者類型上的分析。因此研究中需要對(duì)這兩方面進(jìn)行進(jìn)一步具體的分析,找出其中有效用戶與有效評(píng)論,再使用信息傳播特征,以提高識(shí)別算法或其他評(píng)估方法有效性的可信度。

3 謠言識(shí)別相關(guān)方法

近年來(lái),國(guó)內(nèi)外學(xué)者從不同角度進(jìn)一步去研究如何識(shí)別謠言,特別是在網(wǎng)絡(luò)謠言識(shí)別與分析方面。國(guó)外研究者在這方面起步較早,在該研究領(lǐng)域較為成熟。

謠言的識(shí)別離不開語(yǔ)義分析,與傳統(tǒng)的自然語(yǔ)言處理(NLP)中情緒分析任務(wù)非常相似。Hassan[6]使用監(jiān)督馬爾可夫模型、詞性、依賴關(guān)系模式來(lái)識(shí)別Usenet討論區(qū)帖子主題的態(tài)度極性。Godbole[7]則基于算法自動(dòng)生成的正面與負(fù)面單詞辭典來(lái)指定新聞故事的情緒分?jǐn)?shù)。盡管謠言的識(shí)別與情緒分析非常接近,但兩者之間存在著一些不同。在謠言識(shí)別中,信息接收者關(guān)注的不僅僅是個(gè)人推文的觀點(diǎn),也關(guān)注推文中的陳述是否引發(fā)爭(zhēng)論,因此謠言識(shí)別過程是在NLP分析方法的基礎(chǔ)上進(jìn)一步深入探究,識(shí)別謠言與非謠言語(yǔ)義上的差異。

謠言識(shí)別與分析的相關(guān)研究使用了一系列不同的方法來(lái)識(shí)別網(wǎng)絡(luò)謠言。Mendoza[8]使用Twitter數(shù)據(jù)來(lái)分析用戶在2010年智利地震緊急事件中的行為。該研究分析了轉(zhuǎn)發(fā)網(wǎng)絡(luò)拓補(bǔ)結(jié)構(gòu)并發(fā)現(xiàn)謠言的傳播模式不同于新聞,謠言受到Twitter社區(qū)更多的質(zhì)疑。Castillo[9]聚焦在如何自動(dòng)評(píng)價(jià)一組給定推文的可信程度,他們使用決策樹將所收集熱門話題的微博分為可信與不可信兩類。除了語(yǔ)義分析外,Seo等人[10]提出4種方法選擇SNS中相關(guān)話題或事件傳播過程中的節(jié)點(diǎn),然后在節(jié)點(diǎn)處使用logistic分類算法,用以監(jiān)視謠言是否產(chǎn)生。不同于數(shù)據(jù)挖掘相關(guān)算法的謠言識(shí)別,另一類研究試圖通過可信度排序找出網(wǎng)絡(luò)謠言。Takahashi等人[11]通過對(duì)特定危機(jī)背景下的關(guān)鍵詞設(shè)定,依據(jù)每條twitter可信度的排序,再挑選被轉(zhuǎn)發(fā)較多傳播范圍較廣的微博,尋找潛在的謠言候選集,從而為進(jìn)一步確定謠言做準(zhǔn)備Morris等[12]發(fā)現(xiàn),信息接收者僅通過內(nèi)容很難識(shí)別謠言,而信息發(fā)布者屬性和網(wǎng)絡(luò)傳播屬性能顯著提高信息接收者的識(shí)別率。

盡管國(guó)內(nèi)微博、SNS起步晚于國(guó)外,但是國(guó)內(nèi)這方面研究近幾年進(jìn)展較快。Yang等[13]根據(jù)新浪微博的特點(diǎn),在使用傳統(tǒng)識(shí)別屬性的基礎(chǔ)上,新加入了事件發(fā)生地點(diǎn)、客戶端類型屬性,同時(shí)先通過人工標(biāo)碼識(shí)別,獲得事件相關(guān)的謠言與非謠言數(shù)據(jù)訓(xùn)練集,而后運(yùn)用分類算法對(duì)測(cè)試集進(jìn)行分析,其識(shí)別精度達(dá)70%以上。程亮[14]等人使用經(jīng)過改進(jìn)的R-BP神經(jīng)網(wǎng)絡(luò),對(duì)新浪微博特定事件相關(guān)謠言進(jìn)行檢測(cè),算法在運(yùn)行效率與精度上相對(duì)于KNN、傳統(tǒng)BP、SVM等都有顯著提高。Sun等[15]在以往文獻(xiàn)對(duì)新浪微博研究的基礎(chǔ)上,除了提取標(biāo)簽屬性、文本屬性、網(wǎng)絡(luò)用戶屬性外,新加入了與事件相關(guān)的關(guān)鍵詞匹配程度、是否包含負(fù)面詞語(yǔ)、是否包含多媒體等屬性,同時(shí)使用4種機(jī)器學(xué)習(xí)算法進(jìn)行分類,新加入的屬性顯著提高了算法精度。相比于國(guó)外研究,國(guó)內(nèi)網(wǎng)絡(luò)謠言相關(guān)研究主要不同點(diǎn)在于微博結(jié)構(gòu)導(dǎo)致的特征選取、中文特點(diǎn)帶來(lái)的語(yǔ)義分析上的區(qū)別等方面。

4 未來(lái)研究方向

目前謠言識(shí)別與分析領(lǐng)域的研究已經(jīng)進(jìn)入高速發(fā)展期。本節(jié)將根據(jù)上述內(nèi)容,對(duì)未來(lái)研究方向進(jìn)行總結(jié)。

自然語(yǔ)言處理:謠言識(shí)別的一大軟肋就是自然語(yǔ)言處理方面沒有大的進(jìn)展。學(xué)者們大多通過文本中的靜態(tài)特征對(duì)文本描述內(nèi)容進(jìn)行分析,判斷其準(zhǔn)確性,或者建立關(guān)鍵詞詞庫(kù),將真實(shí)信息與研究對(duì)象進(jìn)行比對(duì)。然而由于網(wǎng)絡(luò)信息量十分龐大,同時(shí)微博具有字?jǐn)?shù)少、特征分散的特點(diǎn),使得學(xué)者很難發(fā)現(xiàn)與真實(shí)信息差別很小的謠言或不包含詞庫(kù)關(guān)鍵詞的謠言。那么,未來(lái)學(xué)者可以將研究重點(diǎn)從現(xiàn)有基礎(chǔ)上,拓展至微型文本語(yǔ)義分析。

機(jī)器學(xué)習(xí)算法:機(jī)器學(xué)習(xí)算法領(lǐng)域的發(fā)展已經(jīng)非常成熟,而且當(dāng)下深度學(xué)習(xí)和人工智能領(lǐng)域又有了新的突破。在處理網(wǎng)絡(luò)謠言方面,由于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)龐大、信息量大,語(yǔ)言結(jié)構(gòu)復(fù)雜等原因,學(xué)者們應(yīng)該從僅使用常用的算法轉(zhuǎn)向使用新的算法,進(jìn)入大數(shù)據(jù)處理領(lǐng)域。跟進(jìn)算法領(lǐng)域的最新研究成果,如果能夠?qū)崿F(xiàn)算法的自我學(xué)習(xí)與自我辨別,結(jié)合網(wǎng)絡(luò)信息傳播特征,自動(dòng)識(shí)別網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)中易于發(fā)生信息變化的節(jié)點(diǎn),降低人工因素,將會(huì)是謠言識(shí)別領(lǐng)域的一大飛躍。

從個(gè)別事件謠言識(shí)別到全網(wǎng)絡(luò)謠言監(jiān)控,從個(gè)別網(wǎng)站監(jiān)控到多途徑監(jiān)控:謠言識(shí)別領(lǐng)域的文章基本都聚焦于選擇是某些重要事件相關(guān)的微博或網(wǎng)絡(luò)傳聞。然而,網(wǎng)絡(luò)上的謠言種類繁多,范圍廣泛,信息來(lái)源路徑多樣,僅僅研究個(gè)體或個(gè)別網(wǎng)站不能滿足日益蓬勃的網(wǎng)絡(luò)世界,學(xué)者們應(yīng)該將研究重點(diǎn)從個(gè)體謠言識(shí)別轉(zhuǎn)為構(gòu)建個(gè)體與整體相結(jié)合的識(shí)別框架上,以及從個(gè)別網(wǎng)站監(jiān)控?cái)U(kuò)展至多途徑監(jiān)控。

謠言實(shí)時(shí)識(shí)別:學(xué)者文獻(xiàn)中的謠言樣本都是事后收集而來(lái)。然而,只有在謠言產(chǎn)生于傳播初期就能夠?qū)⑵渥R(shí)別,才能將謠言的危害降至最低。目前,由于謠言初期具有隱蔽性特征,對(duì)謠言的實(shí)時(shí)監(jiān)控仍然是具有挑戰(zhàn)性的課題。

5 結(jié)束語(yǔ)

到目前為止,越來(lái)越多的學(xué)者已經(jīng)意識(shí)到快速識(shí)別網(wǎng)絡(luò)謠言的理論意義和現(xiàn)實(shí)意義。本文從網(wǎng)絡(luò)謠言領(lǐng)域入手,闡述了網(wǎng)絡(luò)謠言識(shí)別的背景和意義,針對(duì)網(wǎng)絡(luò)謠言識(shí)別,回顧總結(jié)當(dāng)前謠言識(shí)別領(lǐng)域的主要任務(wù)和相關(guān)研究成果,同時(shí)指出當(dāng)前研究的不足之處和未來(lái)可能的研究方向。然而網(wǎng)絡(luò)謠言識(shí)別是一個(gè)非常困難的任務(wù),需要以后學(xué)者不斷的探索,在自然語(yǔ)言處理和算法創(chuàng)新上做出努力,跳出局限于某個(gè)話題或者某件事的謠言識(shí)別,以順應(yīng)大數(shù)據(jù)時(shí)代的到來(lái)。

參考文獻(xiàn)

[1] Benevenuto F,Magno G,Rodrigues T,et al.Detecting spammers on twitter[C]//Collaboration, electronic messaging, anti-abuse and spam conference (CEAS). 2010,6: 12.

[2] Gupta A,Kumaraguru P.Credibility ranking of tweets during high impact events[C]// Proceedings of the 1st Workshop on Privacy and Security in Online Social Media. ACM,2012:2-8.

[3] Gupta M, Zhao P, Han J. Evaluating Event Credibility on Twitter[C]// Sustainable Design and Manufacturing. 2012: 153-164.

[4] Rubin V L,Liddy E D. Assessing Credibility of Weblogs[C]//AAAI Spring Symposium: Computational Approaches to Analyzing Weblogs. 2006: 187-190.

[5] 任一奇,王雅蕾,王國(guó)華,等. 微博謠言的演化機(jī)理研究[J].情報(bào)雜志, 2012, 31(5).

[6] Hassan A, Qazvinian V, Radev D. What's with the attitude?: identifying sentences with attitude in online discussions[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2010: 1245-1255.

[7] Godbole N, Srinivasaiah M, Skiena S. Large-Scale Sentiment Analysis for News and Blogs[C]// International Conference on Weblogs and Social Media. 2007:219-222.

[8] Mendoza M, Poblete B, Castillo C. Twitter Under Crisis: Can we trust what we RT?[C]// Social Media Analytics, SOMA, KDD workshop. 2010:71-79.

[9] Castillo C, Mendoza M,Poblete B. Information credibility on twitter[C]//Proceedings of the 20th international conference on World wide web. ACM, 2011: 675-684.

[10] Seo E, Mohapatra P,Abdelzaher T. Identifying rumors and their sources in social networks[C]// SPIE Defense, Security,and Sensing. International Society for Optics and Photonics,2012:83891I-83891I-13.

[11] Takahashi T, Igata N. Rumor detection on twitter[C]// Joint, International Conference on Soft Computing and Intelligent Systems. 2012:452-457.

[12] Morris M R,Counts S, Roseway A,et al. Tweeting is believing?:understanding microblog credibility perceptions[C]// Proceedings of the ACM 2012 conference on Computer Supported Cooperative Work. ACM,2012:441-450.

[13] Yang F, Liu Y, Yu X, et al. Automatic detection of rumor on Sina Weibo[C]// ACM SIGKDD Workshop on Mining Data Semantics. ACM, 2012:1-7.

[14] 程亮,邱云飛,孫魯. 微博謠言檢測(cè)方法研究[J].計(jì)算機(jī)應(yīng)用與軟件,2013,30(2):226-228.

[15] Sun S, Liu H, He J, et al. Detecting event rumors on sina weibo automatically[C]//Asia-Pacific Web Conference. Springer Berlin Heidelberg, 2013: 120-131.

作者簡(jiǎn)介:

何湘東(1975-),男,滿族,吉林人,畢業(yè)于吉林大學(xué),碩士,南京大學(xué)網(wǎng)絡(luò)信息中心信息系統(tǒng)部主任,工程師;主要研究方向和關(guān)注領(lǐng)域:高校信息化建設(shè)、網(wǎng)絡(luò)安全。

朱亦寧(1959-),男,漢族,江蘇人,畢業(yè)于東南大學(xué),學(xué)士,南京大學(xué)信息化建設(shè)與管理辦公室主任,副研究員;主要研究方向和關(guān)注領(lǐng)域:智慧校園、網(wǎng)絡(luò)安全與優(yōu)化。

猜你喜歡
網(wǎng)絡(luò)謠言特征提取
基于MED—MOMEDA的風(fēng)電齒輪箱復(fù)合故障特征提取研究
基于曲率局部二值模式的深度圖像手勢(shì)特征提取
一種針對(duì)特定無(wú)線電信號(hào)的識(shí)別方法
基于模糊K近鄰的語(yǔ)音情感識(shí)別
微信公眾平臺(tái)傳謠的民事侵權(quán)責(zé)任探析
危機(jī)事件中網(wǎng)絡(luò)謠言的理性追責(zé)問題
自媒體時(shí)代網(wǎng)絡(luò)謠言界定與產(chǎn)生的概述
網(wǎng)絡(luò)謠言的產(chǎn)生、傳播與對(duì)策