王丹丹 楊艷妮 張瑞
摘?要:[目的/意義]突發(fā)公共衛(wèi)生事件情境下,研究謠言傳播中的用戶立場識別,可為謠言真實性檢測開辟新視角,為謠言治理與輿論引導提供新思路。[方法/過程]以COVID-19疫情期間微博上虛假謠言為研究對象,以提高謠言下評論帖子的立場分類準確性為研究目標,構(gòu)建規(guī)范化用戶立場檢測分析建模框架,基于系統(tǒng)功能語言學(SFL)理論實現(xiàn)用戶評論中特征的全面多維提取,通過統(tǒng)計和可視化分析篩選最優(yōu)特征,比較分析不同模型組合實驗結(jié)果,剖析影響分類準確性的樣本因素。[結(jié)果/結(jié)論]研究提出的基于概念元功能、語篇元功能、人際元功能的特征組合對以往特征進行了有效梳理和補充;使用最優(yōu)特征而非全體特征作為樹形結(jié)構(gòu)分類器輸入,采用集成學習方法,可保證總體分類效果、縮短訓練時間;數(shù)據(jù)分布不平衡性顯著影響不同立場的評論識別準確性,“其他”立場識別效果更優(yōu),特征選取有力彌補了“詢問”立場數(shù)據(jù)量上的分類劣勢。
關(guān)鍵詞:突發(fā)公共衛(wèi)生事件;立場識別;系統(tǒng)功能語言學;分類器;集成學習;COVID-19疫情;微博;謠言
DOI:10.3969/j.issn.1008-0821.2021.02.003
〔中圖分類號〕G206.2?〔文獻標識碼〕A?〔文章編號〕1008-0821(2021)02-0019-11
Abstract:[Purpose/Significance]In the context of public health emergencies,the research on user standpoint identification in rumor spreading can open up a new perspective for rumor authenticity detection,and provide new ideas for rumor governance and public opinion guidance.[Method/Process]This paper took the false rumors on the microblog during the COVID-19 pandemic as the research object,aimed at improving the accuracy of the standpoint classification of comments under rumors,constructed the standardized rumor standpoint detection and analysis modeling framework.Based on the theory of Systemic Functional Linguistics(SFL),the comprehensive multidimensional feature extraction of user comments was realized and the optimal features were screened out by statistical and visual analysis.The experimental results of different model combinations were compared and analyzed and the sample factors influencing the accuracy of classification were analyzed.[Result/Conclusion]The feature combination based on ideational meta function,textual meta function and interpersonal meta function effectively combed and complemented the previous features;the optimal features rather than all features being used as the input of tree structure classifier and adopting the ensemble learning method could ensure the overall classification effect and shorten the training time;and the imbalance of data distribution significantly affected the accuracy of the comment recognition of different standpoints.The result of“other”standpoint recognition was better,and feature selection was powerful,which maked up for the disadvantage of classification of“standpoint”position data.
Key words:public health emergency;standpoints recognition;SFL;classifier;ensemble learning;COVID-19 epidemic;microblog;rumor
突發(fā)公共衛(wèi)生事件情境下,網(wǎng)絡謠言甚囂塵上,在線社交媒體憑借參與、公開、交流、對話、社區(qū)化特性,增加了謠言傳播速度、廣度與深度[1]。如COVID-19疫情期間“中部戰(zhàn)區(qū)空軍在武漢上空播撒消毒粉液”“武漢市民使用高濃度酒精室內(nèi)消毒引發(fā)火災”“新型冠狀病毒可能誕生于人為設計的基因改造”等不實信息大肆傳播,不僅加劇了恐慌情緒蔓延,也影響公眾對科學防疫的正確認識,各種陰謀論更成為大國之間抗疫聯(lián)盟形成的絆腳石。謠言指在信息不確定或危險情境下個體為緩解恐懼與焦慮情緒產(chǎn)生的內(nèi)容真?zhèn)挝唇?jīng)證實卻廣泛流傳的信息[2-3],研究表明,相比事后被證實為真實信息的謠言,虛假信息謠言往往更容易擾亂社會,沖擊社會穩(wěn)定發(fā)展[4]。
2.2?SFL理論視角下數(shù)據(jù)特征提取
為研究用戶如何在社交媒體平臺表達自身立場,引入系統(tǒng)功能語言學(SFL)理論,結(jié)合源微博數(shù)據(jù)對評論數(shù)據(jù)提取初步特征,具體步驟如圖2所示。SFL理論認為語言是一個選擇系統(tǒng),創(chuàng)造者使用一系列相互關(guān)聯(lián)的表達意義的選擇實現(xiàn)特定目標[21]。該系統(tǒng)包含3方面功能:概念元功能(Ideational Meta Function)表明語言是用來解釋觀點思想的;人際元功能(Interpersonal Meta Function)指語言作為交往的媒介,是創(chuàng)造和維持人際關(guān)系的手段;上述兩種功能借助語篇元功能(Textual Meta Function)相互關(guān)聯(lián),它決定信息的組織和呈現(xiàn),以創(chuàng)建連貫的語篇流。換言之,概念元功能和語篇元功能側(cè)重信息內(nèi)容,而人際元功能則涉及交互結(jié)構(gòu)[22]。
概念元功能體現(xiàn)在觀點情感上,一方面表現(xiàn)為評論中包含的情感詞數(shù)量以及不同類型情緒的分布情況,另外,考慮到與源微博情緒分布相似度可能從側(cè)面反映評論中用戶對源微博謠言的立場,因此,研究采用基于情感詞典的情感分析方法,以大連理工情感詞典為依據(jù)[23],統(tǒng)計評論中總情感詞數(shù)量及21種情緒下對應的情感詞數(shù)量(快樂、安心、尊敬、贊揚、相信、喜愛、祝愿、憤怒、悲傷、失望、疚、思、慌、恐懼、羞、煩悶、憎惡、貶責、妒忌、懷疑、驚奇),得到21維情緒分布向量;對源微博作相同處理,計算評論與其對應源微博兩者情緒分布向量的相似度。歐氏距離和余弦相似度常用來衡量文檔間的偏差程度[24],由于評論文本較短,單條評論涉及的情感詞類型及數(shù)量較少,通過前述情感分析方法得到的情緒分布向量多為稀疏向量(向量多個維度上取值為0),而余弦相似度是通過向量空間中兩向量夾角余弦值來衡量,若計算兩稀疏向量的夾角余弦值,由于涉及向量內(nèi)積的計算,很可能忽略向量某維度的絕對數(shù)值,加之余弦相似度本身對絕對數(shù)值的不敏感性[25],因此采用歐氏距離來間接衡量相似度更能反映評論中每種情緒數(shù)值強度上的差異,向量Si=(ti1,ti2,…,tik,Sj=(tj1,tj2,…,tjk,兩向量相似度計算方法如下:
similarity介于(0,1]之間,越接近1,表示評論與源微博情緒分布越相似,反之,越不相似。
認知理論表明認知評價是情感的組成部分[26],謠言用戶立場研究背景下,個體對謠言真實性的認知評價體現(xiàn)在:第一,對造謠行為的總體描述;第二,對造謠行為的動機分析,包括利他、自我提升、社會交往和情緒釋放4個維度[27];第三,對造謠行為后果的法律制裁聲明。根據(jù)詞頻統(tǒng)計表,對應認知評價的3方面開發(fā)謠言近義詞列表(共130個,如“假新聞”“不實消息”“斷章取義”等)、造謠動機詞語列表(共50個,如“掩蓋真相”“謀私利”“博眼球”“賺眼淚”等)、法律判決詞語列表(共82個,如“誹謗罪”“罰款”等)。
語篇元功能可概化為寫作風格、體裁類型和方言俚語3類信息[28-29]。研究從文本組成成分、文本長度、文本語義3個維度描述語篇元功能,文本語義考慮評論與其源微博的語義相似度。研究采用Word2vec模型[30]實現(xiàn)詞語的分布式表示,再通過詞向量平均實現(xiàn)評論的語義向量表示,高維度的詞向量可提高語義表達準確性,但訓練時間過長,為優(yōu)化模型,最終維度設置為100,考慮到維基百科與微博文本內(nèi)容存在出入,將所有源微博及評論作為語料庫[31]。文本間語義向量相似度的計算如式(1)(2)。
結(jié)合源微博與評論間的評論與被評論、評論與評論間的回復與被回復關(guān)系,利用社會網(wǎng)絡分析工具構(gòu)建的評論樹結(jié)構(gòu)在一定程度上體現(xiàn)了人際元功能[32]。基于SFL理論從評論中提取的初步特征如表1所示。
利用箱型圖和折線圖對初步提取的特征在不同立場評論中的分布情況進行可視化,篩選出分布差異最顯著的特征作為分類器的最優(yōu)特征輸入。
2.3?分類器訓練和效果評估
引入Python的Sklearn工具包采用五折交叉驗證技術(shù)訓練4種分類算法:提升樹(Boosting Tree)[33]、極端梯度提升(XGBoost)[34]、隨機森林(Random Forest)[35]以及支持向量機(SVM)[36];最后用Macro-F1評估分類器分類效果[37],此四分類問題的Macro-F1計算方式如下:對于類別i,將其視為正例時,其他類別為負例,為每個類別計算其F1-scorei,則:
Precisioni為類別i的精確率,Recalli為類別i的召回率,m為類別數(shù),F(xiàn)1-scorei越高表示分類模型對于類別i的預測效果更好,Macro-F1越高表示分類模型對m個類別總體預測效果更好。
3?實證研究
3.1?數(shù)據(jù)來源和分析
2020年1月23日凌晨,武漢官方宣布,自當日10時起,全市城市公交、地鐵、輪渡、長途客運暫停運營,武漢封城開始;4月8日0時,武漢解封。研究選用此時段內(nèi)與COVID-19疫情相關(guān)且已判定為謠言的233條源微博及其對應的14 685位用戶發(fā)表的17 481條評論數(shù)據(jù),從中選取10%的評論樣本,邀請兩位經(jīng)過訓練的專業(yè)人員對其逐條檢查并獨立標注立場,計算Krippendorff's Alpha[38]值為0.809,表明編碼一致性較高。通過討論消除分歧后,再對剩下的樣本數(shù)據(jù)進行標注并復核。統(tǒng)計發(fā)現(xiàn),約7%、2%、1%的用戶在同一條源微博下分別發(fā)表2次、3次、4次評論,剩下90%的用戶均為單次發(fā)帖。同一用戶在不同時間發(fā)表的不同評論反映了用戶對謠言真實性認知的立場態(tài)度演變,如由用戶首次發(fā)帖到二次發(fā)帖,原先持“贊同”立場的10.4%的用戶、持“詢問”立場的24.7%的用戶、持“其他”立場的14.8%的用戶紛紛轉(zhuǎn)變?yōu)椤胺裾J”立場,因此,僅刪除同一用戶發(fā)表的重復評論,而保留內(nèi)容存在差異的評論不僅能夠排除重復數(shù)據(jù)對算法的干擾,也有利于管理者在謠言傳播的整個生命周期實現(xiàn)微觀上的用戶立場轉(zhuǎn)變實時監(jiān)測,宏觀上的輿論走向精確引導。排除用戶惡意重復發(fā)帖行為后構(gòu)建的評論樹結(jié)構(gòu),如圖3所示,根節(jié)點代表源微博(深綠色),紅色、深藍色、藍綠色、橙色分別對應持“贊同”“否認”“詢問”“其他”立場的評論,節(jié)點大小與其度數(shù)成正比,節(jié)點越大,意味著該節(jié)點越重要,在分類任務中具有更大影響[16]。由圖可得,每條謠言微博下包含數(shù)量不等的評論信息,評論中各立場分布并不均等,且不同謠言微博下,這種分布不均等情況略有不同。總的來說被標記為“其他”的評論占評論總數(shù)的46.32%,而“詢問”評論僅占8.69%,“贊同”與“否認”評論分別占20.21%、24.78%,占比較為接近。Castillo C等[39]發(fā)現(xiàn)在2010年地震事件中贊同和否定謠言的Tweet比例接近1∶1,Procter R等[40]分析英國恐怖襲擊事件的謠言也得出相同結(jié)論,可見,公眾對謠言真實性的判別存在一定隨機性,不同類型的突發(fā)社會安全事件之間存在共性。謠言下用戶立場的不平衡分布增加了對立場分類任務的挑戰(zhàn),但它更接近現(xiàn)實情境,因此更具實用意義。
3.2?特征分布可視化分析
圖4箱型圖反映特征在4種立場評論中的分布差異,未出現(xiàn)的特征,其數(shù)據(jù)分布差異不顯著;圖5對所有特征的平均值進行統(tǒng)計(“Length”和“NO_Like”特征由于取值數(shù)量級原因單獨列出),以彌補單一可視化方法的偏差。
由圖4、圖5(a)得,“NO_Mention”在“其他”立場的評論中平均值最大,其次是“否認”立場,用戶在對謠言真實性展開討論時,通常會“@”其他用戶,另外“@”官方媒體,如“@央視網(wǎng)”“@工信部”“@中央電視局”等以請求辟謠是表達質(zhì)疑的常用手法;“NO_Mention_Original_Blogger”在“否認”立場的評論中平均值最大,用戶以此方式警告威懾博主;“?”表示疑問,其與“詢問”立場有密切關(guān)聯(lián);“!”或表達對謠言內(nèi)容的驚嘆感慨,或表達對荒謬的謠言內(nèi)容的極度憤怒,其較多出現(xiàn)在“贊同”“否認”立場;圖4(e)表明持“其他”立場的用戶較多地使用第一人稱“我”“我們”來敘述故事或表達自身見解;“Length”在4種立場中的平均值分別是19.721、23.025、18.473、20.282,用戶使用較長篇幅闡述事實證據(jù)進行辟謠表明“否認”立場;不同于Ma J等[16]的研究中Twitter平臺上源微博與其轉(zhuǎn)發(fā)微博之間的語義相似度在分類任務中起到了顯著積極作用,此研究中“Lexicon_Similarity”在4種立場的評論中分布差異并不顯著,原因可能在于源微博長度(平均值為121.163)與評論長度(平均值為20.693)差別較大,語義相似度的計算和解釋能力受到影響。
圖4(g)、(h)、(i)表明持“否認”立場的用戶通常在評論中描述造謠行為、推測傳謠動機、闡明法律后果以威懾眾人;“NO_Emotion”在“贊同”和“否認”立場中取值范圍較廣且平均值較高,或與博文作者產(chǎn)生情感共鳴,或諷刺貶責博主行為;這也導致“贊同”立場的評論與源微博的情緒分布相似度較大,而“否認”立場恰恰相反;圖4(l)顯示“否認”立場的評論普遍獲得更多點贊,而“其他”立場所獲點贊量較少,說明對謠言真實性的評論更能引起社交媒體用戶的關(guān)注;4種立場的評論在樹結(jié)構(gòu)中所處深度的平均值由大到小分別是:“其他”“否認”“詢問”“贊同”,社交媒體上有關(guān)某一謠言話題的討論具有一定聚集性和深入性,用戶初次接觸謠言缺乏對已有事實的考證盲目贊同,而后不斷發(fā)問、收集證據(jù)以發(fā)現(xiàn)真相。圖5(b)顯示“快樂”“安心”“贊揚”“相信”“喜愛”“悲傷”“恐懼”“憎惡”“貶責”“懷疑”10種情緒在4種立場中平均值差異較大。由此,確定這10種情緒類別加上圖4所述共23個最優(yōu)特征。
3.3?分類效果比較分析
Boosting是一種基于串行策略的可將弱學習器提升為強學習器的集成算法,提升樹(Boosting Tree)[33]和極端梯度提升(XGBoost)[34]是基于Boosting算法產(chǎn)生的;而隨機森林[35]采用并行算法,隨機性、泛化能力更強,擅長處理高維特征,且在處理特征遺失數(shù)據(jù)、不平衡數(shù)據(jù)上占據(jù)優(yōu)勢?;谠u論間的樹結(jié)構(gòu)特征,基學習器都采用二叉分類決策樹。SVM[36]借助二次規(guī)劃求解支持向量,對大規(guī)模訓練樣本難以實施,且對異常數(shù)據(jù)十分敏感,對于數(shù)據(jù)分布不平衡的樣本,宜選用“ovo”方法處理多分類問題。
實驗對比結(jié)果如圖6所示,評估指標取五折交叉驗證結(jié)果平均值。輸入特征分3種:“Ma's Features”指Ma J等[16]研究中使用的特征(由Word2vec模型訓練得到的文本向量“Word_Embedding”、消極詞語數(shù)量、“NO_Question_Marks”“NO_Exclamation_Marks”“NO_Pic”“NO_Url”、與源微博的語義余弦相似度、與其所回復評論的語義余弦相似度、“Degree”)、“All Features”指基于SFL理論提取的所有特征,如表1所示、“Best Features”是基于“All Features”篩選出的最優(yōu)特征,見3.2節(jié)。
除圖6(a)外,圖6(b)~(d)均表明4種分類算法與本研究提取的特征的組合模型預測效果均優(yōu)于其與Ma J等[16]的特征的組合模型,說明同一特征在不同語種、不同情境下適用性存在差異,基于SFL理論挖掘的特征及其量化方法更適用于中文微博語境。Ma J等[16]雖然也考慮了文本組成成分、文本相似度、情感傾向、社會網(wǎng)絡結(jié)構(gòu)等方面的特征,但由于其缺乏規(guī)范化的理論框架,導致其對每種類型的特征挖掘不夠深入和細化,而SFL理論的引入,從語篇、概念、人際元功能3個維度為特征選擇提供了基本依據(jù),有力地補充并拓展了Ma J等[16]的研究在中文語料中的應用。
Boosting Tree和SVM算法中,輸入最優(yōu)特征代替所有特征時,總體分類效果有所提高(Average Macro-F1增大);對于Boosting Tree算法,“贊同”立場識別效果變差(Average F1-score1減?。?,但其他3種立場識別效果改善(Average F1-score2、Average F1-score3、Average F1-score4均增大);相反對于SVM算法,“贊同”立場識別效果改善,其他3種立場變差。這表明基于SFL提取的全面特征與Boosting Tree和SVM算法結(jié)合使用時,可結(jié)合統(tǒng)計和可視化分析在此基礎(chǔ)上篩選最優(yōu)特征,優(yōu)中選優(yōu)提高效率的同時可保證總體分類效果,但在Boosting Tree算法中要以犧牲“贊同”立場識別效果為代價,在SVM算法中以犧牲另外3種立場為代價。輸入特征無論是所有特征還是最優(yōu)特征,SVM的總體分類效果、且在識別除“贊同”以外的立場的評論時效果都優(yōu)于Boosting Tree算法,因此,若分類目標側(cè)重于準確找出助長謠言傳播的“贊同”立場評論以對其進行目標免疫,針對性推送辟謠信息以糾正其錯誤認知,則宜選用Boosting Tree算法;若分類目標要保證4種立場評論的整體分類效果,則宜選用SVM算法。
XGBoost和Random算法中,輸入最優(yōu)特征代替所有特征時,總體分類效果降低(Average Macro-F1減?。⒉伙@著;值得注意的是,“贊同”立場的識別效果都得到改善,其他立場的識別效果都變差。這表明全面的特征提取與XGBoost和Random算法的結(jié)合更有利于立場的整體識別,采用XGBoost算法和Random算法時,若分類目標側(cè)重于找出“贊同”立場的評論,可以選擇最優(yōu)特征作為輸入,適當犧牲總體分類準確性,以提高“贊同”立場的評論識別準確性的同時縮短訓練時間。
縱觀所有算法與輸入特征的組合,總體分類效果排名前兩位的是Random Forest算法與“All Features”的組合以及XGBoost算法與“All Features”的組合;“贊同”立場的識別效果排名前兩位的是Random Forest算法與“All Features”的組合以及其與“Best Features”的組合,這進一步證實樹形結(jié)構(gòu)分類器以及集成學習方法總體上具有一定優(yōu)勢[16],它能夠更大程度地發(fā)揮研究中基于SFL理論挖掘的多維特征的優(yōu)勢;SVM算法在識別“贊同”立場時效果極差,但在識別其他3種立場的評論上表現(xiàn)較好。
基于圖6,表2(a)~(d)列出了4種分類算法與特征的最優(yōu)組合實驗設置下最優(yōu)交叉驗證結(jié)果的困惑矩陣??v向代表實際立場,橫向代表預測立場,如表2(a)中的“0.113”代表有11.3%的實際為“否認”立場的評論被預測為“贊同”。表中粗體字代表被正確分類的評論占各類別評論的比例(即召回率),最高召回率出現(xiàn)在SVM算法與最優(yōu)特征的組合模型的“其他”立場(0.885)。4種算法中,大量其他立場的評論被誤分類入“其他”立場,極少其他立場的評論被誤分類入“詢問”立場,這是由數(shù)據(jù)集分布不平衡性導致(“其他”立場的評論占總數(shù)的46.32%,“詢問”立場的評論僅占8.69%)。即便如此,“詢問”立場的召回率最高達到0.58,最低為0.41,仍高于“贊同”立場的最高召回率0.406(“贊同”立場的評論占比20.21%,約為“詢問”立場占比的2.33倍),這說明研究基于SFL理論從語篇元功能出發(fā)選取的文本中“?”數(shù)量、文本長度“Length”,從概念元功能出發(fā)選取的表達“懷疑”情緒的詞語數(shù)量,從人際元功能出發(fā)選取的“Depth”等特征有力彌補了“詢問”立場類別數(shù)量上的分類劣勢,并進一步佐證了細粒度情感分析的有效性。平衡數(shù)據(jù)集有3種方法:欠采樣和過采樣以及混合采樣[41],但這些方法可能破壞評論樹結(jié)構(gòu),因此,優(yōu)化分類效果可行性策略應該從完善實驗模型設置出發(fā),如:選擇更具顯著區(qū)分能力的特征、分類器參數(shù)調(diào)優(yōu)、采用集成學習方法等等。
4?結(jié)?語
本文針對突發(fā)公共衛(wèi)生事件中,微博謠言傳播的用戶立場分類任務提出了一套分析建模框架,首先基于系統(tǒng)功能語言學理論,聚焦于語篇元功能、概念元功能、人際元功能3個維度,從評論中實現(xiàn)特征全面提取,然后通過可視化分析挖掘分布存在顯著差異的最優(yōu)特征,最后通過實驗比較分析不同算法與特征組合的分類效果指標,剖析原因并給出適合不同分類目標的模型組合。該研究在一定程度上彌補了國內(nèi)有關(guān)謠言傳播下用戶立場檢測研究的欠缺,SFL理論的引入實現(xiàn)了對已有研究中提出的用于用戶立場分類任務的各類特征的歸納和擴充,并為未來研究提供了一定理論借鑒。
本研究仍存在一定優(yōu)化空間。未來研究應基于該理論框架進一步發(fā)現(xiàn)新特征,提高分類準確性,尤其要找到影響“贊同”立場評論識別的有用特征,同時應致力于消除或減輕樣本類別分布不平衡對分類結(jié)果的消極影響;另外,未來研究可將本研究提出的框架推廣到除謠言以外的信息傳播領(lǐng)域,如:研究官方辟謠信息傳播下的用戶立場分類任務、觀察謠言與辟謠這兩種競爭信息博弈下用戶立場演化的特征和規(guī)律等。
參考文獻
[1]Zubiaga A,Hoi G W S,Liakata M,et al.Analysing How People Orient to and Spread Rumours in Social Media By Looking at Conversational Threads[J].Plos One,2016,11(3).
[2]Difonzo N,Bordia P.Rumor Psychology:Social and Organizational Approaches[M].Washington,USA:American Psychological Asociation,2007.
[3]Jung C G.Contribution to the Psychology of Rumour[J].Indiana Association for Health Physical Education Recreation & Dance journal,1909,18(1):1-26.
[4]Vosoughi S,Roy D,Aral S.The Spread of True and False News Online[J].Science,2018,359:1146-1151.
[5]Katz E,Shibutani T.Improvised News:A Sociological Study of Rumor[J].American Sociological Review,1969,34(5):781.
[6]Peterson W A,Gist N P.Rumor and Public Opinion[J].American Journal of Sociology,1951,57(2):159-167.
[7]Bordia P,Difonzo N.Problem Solving in Social Interactions on the Internet:Rumor As Social Cognition[J].Social Psychology Quarterly,2004,67(1):33-49.
[8]Mendoza M,Poblete B,Castillo C.Twitter Under Crisis:Can We Trust What We RT?[C]//Proceedings of the First Workshop on Social Media Analytics.ACM,2010:71-79.
[9]Liu X,Nourbakhsh A,Li Q,et al.Real-time Rumor Debunking on Twitter[C]//Proceedings of the 24th ACM International Conference on Information and Knowledge Management.ACM,2015:1867-1870.
[10]Zubiaga A,Aker A,Bontcheva K,et al.Detection and Resolution of Rumours in Social Media:A Survey[J].ACM Computing Surveys(CSUR),2018.
[11]馬寧,劉怡君.微博中謠言信息與辟謠信息綜合影響力對比研究[J].情報資料工作,2020,41(3):41-48.
[12]Qazvinian V,Rosengren E,Radev D R,et al.Rumor Has It:Identifying Misinformation in Microblogs[C]//Proceedings of?the Conference on Empirical Methods in Natural Language Processing.Association for Computational Linguistics,2011:1589-1599.
[13]Hamidian S,Diab M.Rumor Detection and Classification for Twitter Data[C]//The Fifth International Conference on Social Media Technologies,Communication,and Informatics,SOTICS,IARIA,2015:71-77.
[14]Zeng L,Starbird K,Spiro E S.#Unconfirmed:Classifying Rumor Stance in Crisis-Related Social Media Messages[C]//Tenth International AAAI Conference on Web and Social Media,2016.
[15]Tausczik Y R,Pennebaker J W.The Psychological Meaning of Words:LIWC and Computerized Text Analysis Methods[J].Journal of Language & Social Psychology,2010,29(1):24-54.
[16]Ma J,Luo Y.The Classification of Rumour Standpoints in Online Social Network Based on Combinatorial Classifiers[J].Journal of Information Science,2019.
[17]Wang F,Lan M,Wu Y.ECNU at SemEval-2017 Task 8:Rumour Evaluation Using Effective Features and Supervised Ensemble Models[C]//Proceedings of the 11th International Workshop on Semantic Evaluation(SemEval-2017),2017:491-496.
[18]郭棟.建構(gòu)法律習性:新媒介的自治想象——以微博社區(qū)管理中心為研究對象[J].編輯之友,2015,(1):79-83.
[19]劉新亮,嚴姍姍.基于Python的中文分詞的實現(xiàn)及應用[J].計算機與信息技術(shù),2008,(11:85-88.
[20]張鵬,崔彥琛,蘭月新,等.基于扎根理論與詞典構(gòu)建的微博突發(fā)事件情感分析與輿情引導策略[J].現(xiàn)代情報,2019,(3):122-131.
[21]Teo,Peter.Racism in the News:A Critical Discourse Analysis of News Reporting in Two Australian Newspapers.[J].Discourse & Society,2000.
[22]Halliday M A K,胡壯麟.An Introduction to Functional Grammar[M].Edward Arnold,2000.
[23]徐琳宏,林鴻飛,潘宇,等.情感詞匯本體的構(gòu)造[J].情報學報,2008,27(2):180-185.
[24]韓家煒,Kamber M.數(shù)據(jù)挖掘:概念與技術(shù)(原書第3版)[M].范明等,譯.北京:機械工業(yè)出版社,2012.
[25]王立印,張輝,陳勇.一種基于Dice-Euclidean相似度計算的協(xié)同過濾算法[J].計算機應用研究,2015,(10):2891-2895.
[26]Lazarus,Richard S.Thoughts on the Relations Between Emotion and Cognition[J].American Psychologist,1982,37(9):1019-1024.
[27]孫靜.人格特質(zhì)、傳播動機與網(wǎng)絡謠言傳播行為的關(guān)系研究[D].南京:南京師范大學,2016.
[28]Abbasi A,Chen H.CyberGate:A Design Framework and System for Text Analysis of Computer-Mediated Communication[J].Mis Quarterly,2008,32(4):811-837.
[29]Argamon S,Whitelaw C,Chase P,et al.Stylistic Text Classification Using Functional Lexical Features[J].Journal of the Association for Information Ence and Technology,2007,58(6):802-822.
[30]Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space[J].Computer Ence,2013.
[31]馬鳴.微博上謠言的特征提取及識別算法的研究[D].北京:北京交通大學,2019.
[32]Fu T,Abbasi A,Chen H.A Hybrid Approach to Web Forum Interactional Coherence Analysis[J].Journal of the American Society for Information Science & Technology,2008,59(8):1195-1209.
[33]Freund Y,Schapire R E.A Decision-Theoretic Generalization of On-Line Learning and an Application to Boosting[J].Journal of Computer and System Sciences,1999,55:119-139.
[34]Chen T,Guestrin C.XGBoost:A Scalable Tree Boosting System[J].2016.
[35]Fernandez-Delgado M,Cernadas E,Barro S,et al.Do We Need Hundreds of Classifiers to Solve Real World Classification Problems?[J].Journal of Machine Learning Research,2014,15:3133-3181.
[36]沈洋,戴月明.支持向量機多分類技術(shù)研究[J].數(shù)字通信世界,2019,(6).
[37]Yang Y M.An Evaluation of Statistical Approaches to Text Categorization[J].Information Retrieval,1999.
[38]Krippendorff K.Computing Krippendorff's Alpha-Reliability[J].2011.
[39]Castillo C,Mendoza M,Poblete B.Predicting Information Credibility in Time-sensitive Social Media[J].Internet Research,2013,23(5):560-588.
[40]Procter R,Vis F,Voss A.Reading the Riots on Twitter:Methodological Innovation for the Analysis of Big Data[J].International Journal of Social Research Methodology,2013,16(3):197-214.
[41]郝曉紅.不平衡數(shù)據(jù)的研究及應用[D].武漢:華中科技大學,2019.
(責任編輯:孫國雷)