關菁華 劉鑫 刁建華
摘 要:近年來,隨著智能移動設備的普及,人們可以隨時隨地通過網絡社交媒體獲取與分享信息。然而,便捷的上網方式以及自由的網絡空間,也為網絡謠言的產生與傳播提供了條件,廣泛傳播的謠言可能具有極大的破壞性。因此,及時識別謠言對于保障社會穩(wěn)定具有重要意義。使用詞嵌入對微博短文本進行向量化處理,然后使用樸素貝葉斯、K最近鄰和支持向量機對文本向量進行主題分類,以期及時發(fā)現(xiàn)具有周期性出現(xiàn)特點的謠言。將該模型在中文謠言真實數(shù)據集上進行有效性驗證,使用5 487條數(shù)據作為訓練集,2 703條數(shù)據作為測試集進行分類實驗。實驗結果表明,K最近鄰模型相比于樸素貝葉斯模型及支持向量機模型,在謠言主題分類任務中表現(xiàn)最佳,其F1值和分類準確率都達到0.93,表明基于詞嵌入的謠言主題分類方法可及時發(fā)現(xiàn)周期性謠言。
關鍵詞:微博謠言;詞嵌入;主題分類;文本向量
DOI:10. 11907/rjdk. 191169
中圖分類號:TP301文獻標識碼:A文章編號:1672-7800(2019)004-0001-03
0 引言
謠言是一種自發(fā)性、擴張性的社會心理現(xiàn)象,至今尚沒有一個公認的定義[1]。本文采用我國《現(xiàn)代漢語詞典》對謠言的定義,謠言即沒有事實根據的消息。
根據中國互聯(lián)網絡信息中心(CNNIC)2018年8月發(fā)布的《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》顯示,截至2018年6月,中國網民規(guī)模達8.02億,互聯(lián)網普及率達到57.7%。網民中使用手機上網人群占比達到98.3%,且網民上網設備進一步向移動端集中。迅速增長的網民規(guī)模、方便快捷的上網方式,為網絡謠言的產生與傳播提供了條件。廣泛傳播的謠言可能具有極大的破壞性,如:2011年郭美美事件爆發(fā)后,謠言四起,在網絡上不斷發(fā)酵,自事件發(fā)生后,社會捐款數(shù)額以及慈善組織捐贈數(shù)額均出現(xiàn)銳減。根據民政部統(tǒng)計數(shù)據顯示,全國2011年7月社會捐款數(shù)額為5億元,與6月相比降幅超過50%。慈善組織6~8月接收的捐贈數(shù)額降幅更是達到86.6%;2015年,有關“娃哈哈爽歪歪、AD鈣奶等飲料中含有肉毒桿菌”的謠言在微博、微信中熱傳。娃哈哈方面表示,相關謠言使娃哈哈部分產品當年第一季度損失高達20億元。以上案例都說明了網絡謠言的巨大危害。由此可見,研究如何從每天產生的大量社交媒體數(shù)據中,及時發(fā)現(xiàn)并識別謠言,從而將謠言傳播扼殺在初期,降低謠言對社會的危害具有重大意義。微博作為目前最大的廣播式社交媒體,是最常用的謠言傳播平臺。如何從微博文本中提取有效語義特征并進行謠言主題分類成為目前短文本分類研究中的熱點之一。因此,進行基于內容的謠言主題分類研究,從而自動識別謠言主題,及時發(fā)現(xiàn)一些具有周期性特點的謠言,具有重要的研究意義。
目前,國內謠言研究主要集中在謠言傳播模型構建與仿真實驗上。如任寧等[2]在經典SIR謠言傳播模型基礎上,引入反對者角色,運用概率生成函數(shù)方法解決了謠言傳播過程中任意時刻的傳播規(guī)模等問題;王飛雪等[3]基于經典SIR傳播模型,引入謠言在不同節(jié)點之間的傳播概率,并分析了不同節(jié)點對傳播概率的影響,建立社交網絡中考慮網絡節(jié)點自身影響的謠言傳播模型;王雨嘉等[4]也基于經典SIR謠言傳播模型,引入觀望者與辟謠者角色,并將移出者分為中立者、相信謠言者與得知真相者3類,構建一個改進的WT-SIR*謠言傳播模型;劉雅輝等[5]指出謠言內容、發(fā)布用戶及其傳播過程是識別謠言與非謠言的關鍵要素;張仰森等[6]利用SVM構建一個基于評論異常度的謠言識別模型。以上文獻多從經典SIR謠言傳播模型出發(fā)進行模型改進與仿真實驗,而從網絡謠言自動主題分類角度進行的研究較少,但謠言的自動主題分類對周期性謠言的自動識別具有重要意義。
謠言主題分類問題可看作文本的多分類問題加以解決?;跈C器學習的文本主題分類方法包括樸素貝葉斯(NB)、K最近鄰(KNN)、決策樹、支持向量機(SVM)等。丁晟春等[7]借助本體將領域知識及領域文本特征融入分類過程,使用加權樸素貝葉斯模型對網絡信息進行主題分類;賈隆嘉等[8]提出將特征由基于詞的表示轉換為基于類別的表示,然后采用支持向量機進行高校新浪微博主題分類;程元堃[9]提出基于詞向量的網頁分類模型與基于URL+關鍵詞的網頁分類模型,并使用樸素貝葉斯算法模型解決對未知網頁的分類問題;黎巎等[10]使用LDA(Latent Dirichlet Allocation)主題發(fā)現(xiàn)模型對游客評論進行主題分析與情感傾向分析;胡朝舉等[11]利用LDA模型得到文檔主題分布,然后使用主題詞對原始文本進行特征擴充,最后利用SVM分類模型進行分類;宗乾進等[12]通過隱含狄利克雷分布對生成與舉報的謠言內容進行主題分類;姜贏等[13]采用文本句式特征分析方法進行謠言識別。近年來,隨著深度學習技術的不斷發(fā)展,已成功應用于圖像識別[14]、語音識別[15]等領域,目前越來越多研究者開始嘗試利用深度學習技術解決自然語言處理領域的各類問題,也取得了一定效果。如卷積神經網絡、循環(huán)神經網絡與長短時記憶網絡等深度模型即被應用于句子分類[16]、情感分類[17]與文本分類[18]等問題中。
以上方法中,基于機器學習的文本分類方法需要研究人員根據經驗,事先篩選好用于分類的特征,即分類效果與特征選擇緊密相關,但該方法前期需要大量人工參與,不適用于目前多變、海量的數(shù)據?;谏疃葘W習技術構建的模型具有不可解釋性,且在模型訓練過程中對運行系統(tǒng)硬件要求較高,訓練時間也很長,在自然語言處理領域,分類效果與傳統(tǒng)方法相近。
因此,本文從微博內容本身特點出發(fā),綜合考慮方法的時效性,使用具有語義信息的詞嵌入表示微博文本向量,且選擇經典的NB、KNN和SVM作為分類模型,進行微博謠言主題分類研究,并提出一種基于詞嵌入的謠言主題分類模型。實驗結果表明,該方法能有效地對微博謠言進行主題分類,且準確率和 F1 值較高,都達到了0.93。
1 主題分類模型
1.1 基于詞嵌入的微博文本表示
傳統(tǒng)文本表示方法是對一段文本信息先進行分詞,使用一個與詞典維度相當?shù)南蛄勘硎疽粭l文本信息,用1表示在文檔中有該詞出現(xiàn),0表示不出現(xiàn)。但該表示方法丟失了詞語間的語義關系,且文本的向量表示很稀疏,增加了訓練難度。本文使用壓縮的詞嵌入存儲方式,每一個詞語、段落或篇章都可以使用一個比較低維、具有語義信息的向量進行表示,從而有利于機器對人類語言的語義表達與理解,且有利于算法實現(xiàn)。
文本常見的向量化表示方法包括對一段文本包含的所有詞向量求平均值、對詞向量聚類以及doc2vec模型[19]。本文從微博屬于短文本的特點出發(fā),選擇簡單求和、求平均的方法,采用公式(1)進行文本向量計算。
1.2 基于詞嵌入的微博謠言主題分類模型
本文以中文Wiki百科作為背景語料庫,首先使用MIKOLOV等[20]提出的word2vec工具進行中文詞向量學習,為微博短文本向量生成作準備;然后對微博謠言文本進行分詞、去停用詞等預處理操作;接著使用公式(1)構建每條微博的文本向量;最后分別使用NB、KNN和SVM作為分類模型,進行謠言的主題分類研究,具體模型如圖1所示。
2 實驗結果
2.1 數(shù)據
實驗數(shù)據為劉知遠等[1]給出的微博謠言數(shù)據,其將謠言主題分為5個類別:政治、經濟、欺詐、社會生活與常識類,總共8 190條微博,數(shù)據詳細信息如表1所示。為便于進行分類模型的實驗比較,本文隨機抽取原始數(shù)據中的?? 2/3作為訓練集,構建分類模型,其余1/3數(shù)據作為測試集,測試模型的分類性能。
2.2 數(shù)據預處理
由于微博中存在繁體文字,因此首先使用OpenCC工具將微博中的中文繁體轉為中文簡體,然后采用中科院分詞工具NLPIR對微博進行分詞,并結合哈工大停用詞表和百度停用詞表,將部分詞從中移除,以提高主題分類性能。
2.3 微博文本向量計算
由于微博屬于短文本,大部分微博長度都不會超過140詞限制,且本文使用的數(shù)據均屬于短文本范疇,因此采用文本詞向量加權平均方法計算微博文本向量。詞向量維度根據經驗選擇200維,經過計算后微博文本向量維度也是200維。詞向量使用Wiki中國作為語料庫,計算結果作為詞向量。
2.4 實驗結果
使用NB、KNN與SVM進行分類建模,比較3種模型在微博文本向量作為特征的情況下,微博謠言主題分類的準確率,如表2所示。從表中可見,KNN模型在該謠言數(shù)據集上獲得了最好的分類準確率0.93,遠高于NB模型的0.79,比SVM也高了3個百分點,因此KNN與SVM模型在該謠言數(shù)據集主題分類方面是比較有效的。
不同主題下各分類模型的F1分數(shù)如圖2所示,在經濟與欺詐類主題下,KNN和SVM都取得了相同的F1-score,在常識、政治與社會生活類主題下,3種分類模型的F1-score都低于經濟與欺詐類主題下的F1-score,即常識、政治與社會生活類主題比較容易混淆。
KNN模型混淆矩陣如表3所示,從表中可以發(fā)現(xiàn),該模型將社會生活類謠言錯分成政治類的有43個,占實際社會生活類謠言總數(shù)的4.99%,將政治類錯分為社會生活類的有33個,占實際政治類謠言總數(shù)的4.60%。以上兩種類別不太容易區(qū)分,以后可考慮進一步提取特征,以提高模型在該類別上的分類準確率,進而提高模型的整體主題分類性能。
4 結語
本文以新浪微博謠言數(shù)據作為分析對象,使用詞嵌入方式表示微博文本特征,進行微博謠言數(shù)據的主題分類。謠言主題可分為經濟類、常識類、政治類、社會生活類與欺詐類。本文選擇NB模型、KNN模型及SVM模型作為分類模型,對微博謠言數(shù)據集進行主題分類。由實驗結果可以發(fā)現(xiàn),KNN模型在謠言主題分類中表現(xiàn)出最好的分類性能,其F1值和分類準確率都達到0.93。通過對KNN模型的混淆矩陣進行分析,發(fā)現(xiàn)社會生活類與政治類謠言最不易區(qū)分,因此未來工作需要進一步尋找特征,以提高模型在以上兩個主題類別上的分類準確率,進而提高模型整體的主題分類性能。
參考文獻:
[1] 劉知遠,張樂,涂存超,等. 中文社交媒體謠言統(tǒng)計語義分析[J].中國科學: 信息科學,2015, 45(12):1536-1546.
[2] 任寧,李金仙. 帶有反對機制的謠言傳播模型[J]. 云南民族大學學報:自然科學版,2019(1):67-71.
[3] 王飛雪,李芳. 社交網絡中考慮不同傳播概率上的謠言傳播模型[J]. 計算機應用研究,2019(11):1-4.
[4] 王雨嘉,侯合銀. 小世界網絡中基于一種改進模型的謠言傳播研究[J/OL]. 情報雜志:1-11[2019-02-26]. http://kns.cnki.net/kcms/detail/61.1167.g3.20190222.1319.012.html.
[5] 劉雅輝,靳小龍,沈華偉,等. 社交媒體中的謠言識別研究綜述[J]. 計算機學報,2018,41(7):1536-1558.
[6] 張仰森,彭媛媛,段宇翔,等. 基于評論異常度的新浪微博謠言識別方法[J/OL]. 自動化學報:1-14[2019-02-26]. https://doi.org/10.16383/j.aas.c180444.
[7] 丁晟春,王小英,劉夢露. 基于本體和加權樸素貝葉斯的網絡輿情主題分類[J]. 現(xiàn)代情報,2018,38(8):12-17.
[8] 賈隆嘉,張邦佐. 高校網絡輿情安全中主題分類方法研究——以新浪微博數(shù)據為例[J]. 數(shù)據分析與知識發(fā)現(xiàn),2018(7):55-62.
[9] 程元堃. 基于URL+文本的網頁主題分類模型研究[D]. 武漢:武漢郵電科學研究院,2018.
[10] 黎巎,謝宗彥,張公鵬,等. 基于LDA的游客網絡評論主題分類:以故宮為例[J]. 情報工程,2017,3(3):55-63.
[11] 胡朝舉,徐永峰. 基于LDA特征擴展的短文本分類方法研究[J]. 軟件導刊,2018,17(3):63-66.
[12] 宗乾進,黃子風,沈洪洲. 基于性別視角的社交媒體用戶造謠傳謠和舉報謠言行為研究[J]. 現(xiàn)代情報,2017,37(7):25-29,34.
[13] 姜贏,張婧,朱玲萱,等. 網絡謠言文本句式特征分析與監(jiān)測系統(tǒng)[J]. 電子設計工程,2017,25(23):7-10,15.
[14] HINTON G E, SRIVASTAVA N, KRIZHEVSKY A, et al. Improving neural networks by preventing co-adaptation of feature detectors[J]. Comput Science, 2012,3: 212-223.
[15] GRAVES A, MOHAMED A, HINTON G. Speech recognition with deep recurrent neural networks[C]. Proceedings of the International Conference on Acoustics, Speech and Signal Processing, Vancouver, 2013:6645-6649.
[16] KIM Y. Convolutional neural networks for sentence classification[C]. Proceedings of the Conference on Empirical Methods in Natural Language Processing, Doha, 2014:1746-1751.
[17] CHEN H M, SUN M S, TU C C, et al. Neural sentiment classification with user and product attention[C]. In: Proceedings of Conference on Empirical Methods in Natural Language Processing, Austin, 2016:1650-1659.
[18] 高成亮,徐華,高凱. 結合詞性信息的基于注意力機制的雙向LSTM的中文文本分類[J]. 河北科技大學學報,2018,39(5):447-454.
[19] LE Q V, MIKOLOV T. Distributed representations of sentences and documents[C]. In Proceedings of the 31st International Conference on International Conference on Machine Learning,2014.
[20] MIKOLOV T, CHEN K, CORRADO G, et al. Efficient estimation of word representations in vector space[J].? Computer Science,2013.
(責任編輯:黃 健)