安 璐 惠秋悅
(1.武漢大學(xué)信息資源研究中心,武漢,430072; 2.武漢大學(xué)信息管理學(xué)院,武漢,430072)
隨著互聯(lián)網(wǎng)和新媒體的飛速發(fā)展,信息的發(fā)布和傳播門檻以及信息發(fā)布者和信息受眾的溝通門檻大大降低,各大社交媒體平臺(tái)成為輿論產(chǎn)生和發(fā)酵的主要場(chǎng)所。 網(wǎng)民從傳統(tǒng)媒體時(shí)代被動(dòng)的信息接受者轉(zhuǎn)變?yōu)閾碛凶陨碓捳Z權(quán)的信息發(fā)布者和信息傳播者,形成了“全民記者”局面[1]。 此外,部分主流媒體為搶占新聞先機(jī),將未經(jīng)證實(shí)或未能還原事件全貌的消息報(bào)道傳播?!叭裼浾摺钡姆菍I(yè)性和部分主流媒體的急功近利導(dǎo)致突發(fā)事件發(fā)生時(shí),缺乏深度、片面且單一的具有明顯輿論傾向性的信息在網(wǎng)絡(luò)中迅速擴(kuò)散,事件被錯(cuò)誤或者片面解讀,造成網(wǎng)民觀點(diǎn)一邊倒的局面。 隨著事件信息不斷補(bǔ)充,事件真相被還原,又導(dǎo)致輿論倒向相反方向,形成輿情反轉(zhuǎn)。 網(wǎng)絡(luò)輿情頻繁發(fā)生反轉(zhuǎn)降低了媒體公信力,也造成了對(duì)當(dāng)事人的傷害,更危害了網(wǎng)絡(luò)生態(tài)環(huán)境和諧發(fā)展。
2021 年3 月12 日, 新浪微博發(fā)布《2020新浪微博用戶發(fā)展報(bào)告》[2],報(bào)告顯示,截至2020 年9 月,微博月活躍用戶達(dá)5.11億,日活躍用戶達(dá)2.24 億,現(xiàn)已成為重要的輿論產(chǎn)生和發(fā)酵場(chǎng)所。 本研究利用新浪微博上熱點(diǎn)事件微博數(shù)據(jù),采用定性和定量相結(jié)合的方式構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)特征體系,基于多種機(jī)器學(xué)習(xí)算法對(duì)熱點(diǎn)事件是否會(huì)發(fā)生輿情反轉(zhuǎn)進(jìn)行預(yù)測(cè),并通過特征重要性排序分析影響熱點(diǎn)事件輿情反轉(zhuǎn)的因素。對(duì)輿情是否發(fā)生反轉(zhuǎn)進(jìn)行預(yù)測(cè),一方面可以揭示信息平衡性、事件類型、事件曝光者類型等因素與輿情反轉(zhuǎn)之間的關(guān)聯(lián),豐富輿情反轉(zhuǎn)預(yù)測(cè)的理論與方法,另一方面有助于突發(fā)事件管理部門、社交媒體平臺(tái)以及公眾根據(jù)輿情反轉(zhuǎn)影響因素對(duì)熱點(diǎn)事件輿情走向作出預(yù)判,并為輿情引導(dǎo)和危機(jī)治理提供方法與數(shù)據(jù)支持。
議程設(shè)置理論、刻板印象理論和社會(huì)燃燒理論,是研究者分析公眾輿論以及社會(huì)事件時(shí)常用的理論,多用于網(wǎng)絡(luò)輿情的成因、傳播、演化、應(yīng)對(duì)等方面的研究。 本文選擇上述三個(gè)理論從網(wǎng)絡(luò)輿情的事件、用戶、信息、傳播四個(gè)維度作為本文特征構(gòu)建和結(jié)果分析的理論依據(jù)來研究熱點(diǎn)事件情境下微博輿情反轉(zhuǎn)預(yù)測(cè)。
(1)議程設(shè)置理論
議程設(shè)置理論是1972 年美國(guó)傳播學(xué)家McCombs和Shaw[3]在《大眾傳媒的議程設(shè)置功能》一文中提出的,指媒體可以通過設(shè)置“議事日程”影響公眾對(duì)事件的關(guān)注點(diǎn)。
佛羅里達(dá)大學(xué)新聞系Wayne Wanta教授認(rèn)為,在某些問題上,社交媒體平臺(tái)的帖子強(qiáng)化了新聞媒體的議程設(shè)置功能[4];張敏等[5]從議程設(shè)置視角出發(fā),剖析了議程設(shè)置與媒體行為失范之間的相關(guān)關(guān)系,并以“手術(shù)臺(tái)自拍照片”這一反轉(zhuǎn)事件為例,分析了媒體行為失范對(duì)于醫(yī)療突發(fā)事件網(wǎng)絡(luò)輿情演化的影響;王國(guó)華等[6]的研究顯示,網(wǎng)絡(luò)媒體微博議程與網(wǎng)民議程之間的相關(guān)性達(dá)到顯著水平,說明網(wǎng)絡(luò)媒體通過議程設(shè)置對(duì)微博網(wǎng)民的態(tài)度產(chǎn)生了較大影響。
(2)刻板印象理論
1922年,美國(guó)著名政治家Walter[7]提出刻板印象理論,指出刻板印象是“以高度簡(jiǎn)單化和概括化的符號(hào),對(duì)特殊群體所做的社會(huì)分類,它或隱或現(xiàn)地體現(xiàn)著一系列關(guān)乎其行為、個(gè)性及歷史的價(jià)值、判斷與假定”。王楠等[8]將網(wǎng)絡(luò)輿情事件中“是否存在刻板印象”作為輿情反轉(zhuǎn)預(yù)測(cè)的特征之一,其實(shí)驗(yàn)結(jié)果顯示,刻板印象與輿情事件反轉(zhuǎn)的相關(guān)性較大,存在刻板印象的事件更可能發(fā)生反轉(zhuǎn)。 根據(jù)刻板印象理論,本文將事件類型、事件主體階層標(biāo)簽、事件結(jié)果等加入輿情反轉(zhuǎn)預(yù)測(cè)特征體系。
(3)社會(huì)燃燒理論
社會(huì)燃燒理論[9]是牛文元教授根據(jù)自然界燃燒現(xiàn)象提出的社會(huì)物理學(xué)理論。 該理論將人與人或人與環(huán)境之間的矛盾類比為燃燒所必需的燃燒物質(zhì),將媒體誤導(dǎo)、群眾的非理性等類比為助燃劑,將具有一定規(guī)模和影響的事件類比為點(diǎn)火溫度。 黃遠(yuǎn)等[10]從社會(huì)物理學(xué)角度,依據(jù)社會(huì)燃燒理論分析網(wǎng)絡(luò)輿論反轉(zhuǎn)的原因認(rèn)為,外在信息(社會(huì)燃燒物質(zhì))刺激網(wǎng)民內(nèi)在情緒(社會(huì)助燃劑)導(dǎo)致了突發(fā)事件(社會(huì)點(diǎn)火溫度)發(fā)生之后網(wǎng)絡(luò)輿論反轉(zhuǎn)現(xiàn)象的出現(xiàn)。 在本研究中,各類型的熱點(diǎn)事件包含了不同方面的矛盾,如醫(yī)患矛盾、貧富差距矛盾等,這些矛盾即為社會(huì)燃燒物質(zhì);媒體片面、偏離事實(shí)或虛構(gòu)的報(bào)道、受眾的非理性“站隊(duì)”、輿論攻擊等即為社會(huì)助燃劑;各大熱點(diǎn)事件即為社會(huì)點(diǎn)火溫度。
目前,學(xué)界對(duì)于輿情反轉(zhuǎn)的概念還沒有統(tǒng)一的界定,夏一雪等[11]認(rèn)為輿情反轉(zhuǎn)即網(wǎng)絡(luò)輿情在傳播過程中,網(wǎng)民通過互聯(lián)網(wǎng)表達(dá)和傳播意見、態(tài)度和情緒的反向轉(zhuǎn)化的現(xiàn)象和趨勢(shì);Proietti[12]認(rèn)為輿情反轉(zhuǎn)是在輿情演變過程中,反轉(zhuǎn)或沖突信息介入后,不同群體的觀點(diǎn)傾向于在相反方向上發(fā)展的過程。本文認(rèn)為,輿情反轉(zhuǎn)是指由于信源報(bào)道片面化、偏離事實(shí)或虛構(gòu)等原因,使帶有明顯輿論傾向性的消息在網(wǎng)絡(luò)迅速擴(kuò)散,網(wǎng)民在失真信息引導(dǎo)下對(duì)某事件持集中傾向的觀點(diǎn),而在事件真相曝光或得到?jīng)_突性補(bǔ)充信息之后網(wǎng)民觀點(diǎn)傾向至與之前相反的方向。 關(guān)于輿情反轉(zhuǎn)的研究主要有以下幾個(gè)方面。
首先,許多學(xué)者用案例分析的方法對(duì)輿情反轉(zhuǎn)的成因、影響與應(yīng)對(duì)[6,13]等方面進(jìn)行了定性研究。 輿情反轉(zhuǎn)的成因主要有媒體和網(wǎng)民兩方面。 一方面是因?yàn)槊襟w的無意識(shí)議程設(shè)置,如媒體以往對(duì)某類事件的頻繁報(bào)道導(dǎo)致網(wǎng)民形成刻板印象,媒體跟進(jìn)報(bào)道實(shí)時(shí)糾偏,倒逼真相;另一方面是因?yàn)槊襟w的有意識(shí)議程設(shè)置,如媒體為爭(zhēng)奪話語權(quán)而發(fā)布未核實(shí)信息、使用帶有主觀傾向性的報(bào)道框架引導(dǎo)輿論、大量類似信息連續(xù)重復(fù)傳播等。 媒體的議程設(shè)置會(huì)引導(dǎo)輿論風(fēng)向偏離事實(shí),最后形成輿情反轉(zhuǎn)。 網(wǎng)民的碎片化閱讀方式、趨同心理、刻板印象等造成其對(duì)事件片面、錯(cuò)誤地解讀,也是引發(fā)輿情反轉(zhuǎn)的關(guān)鍵因素。 輿情反轉(zhuǎn)會(huì)降低媒體公信力、削弱公眾熱情、激化社會(huì)矛盾。 王國(guó)華等[6]認(rèn)為,應(yīng)加大媒體審核力度和網(wǎng)絡(luò)環(huán)境監(jiān)督力度,提高公眾素養(yǎng),正確引導(dǎo)輿論;鄧春林等[14]從情緒和歸因兩個(gè)維度,對(duì)事件各生命周期的微博用戶評(píng)論進(jìn)行分類及演化分析,發(fā)現(xiàn)影響微博用戶情緒變化的關(guān)鍵因素。
其次,有學(xué)者利用仿真實(shí)驗(yàn)?zāi)M各影響因素對(duì)輿情反轉(zhuǎn)演化過程的影響。 陳一新等[15]對(duì)Hegselmann-Krause 模型進(jìn)行改進(jìn),研究了意見領(lǐng)袖數(shù)量和觀點(diǎn)變化強(qiáng)度對(duì)輿情反轉(zhuǎn)中群體觀點(diǎn)穩(wěn)定的影響;夏一雪等[11]以信息量代表輿情演化程度,構(gòu)建函數(shù)模型預(yù)測(cè)常態(tài)輿情演化趨勢(shì),通過監(jiān)測(cè)實(shí)時(shí)數(shù)據(jù)與預(yù)測(cè)數(shù)據(jù)的差值進(jìn)行輿情反轉(zhuǎn)預(yù)警,并構(gòu)建了反轉(zhuǎn)后輿情演化預(yù)測(cè)函數(shù)模型;Zhu等[16]利用有界置信模型,研究了四種信息對(duì)抗模式對(duì)最終輿論方向的影響;Chen等[17]研究了外部信息干預(yù)強(qiáng)度、個(gè)體注意力和個(gè)體保守性對(duì)反轉(zhuǎn)事件輿情逆轉(zhuǎn)強(qiáng)度和方向的影響;Jiang 等[18]提出了一個(gè)新的二階段SPNR 模型,證明反轉(zhuǎn)事件中失真信息傳播率、失真信息傳播者轉(zhuǎn)變?yōu)檎孑浾搨鞑フ叩母怕屎凸俜綄?duì)事實(shí)真相的通報(bào)時(shí)間都不同程度地影響失真信息的傳播;Wu等[19]研究了新沖突性消息的傳播率、可信度和新消息源在網(wǎng)絡(luò)中的節(jié)點(diǎn)中心度對(duì)輿情反轉(zhuǎn)速率和幅度的影響。
此外,有學(xué)者對(duì)識(shí)別輿情反轉(zhuǎn)事件所屬類別進(jìn)行了研究。 袁野等[20]識(shí)別出事件性質(zhì)、報(bào)道傾向、報(bào)道形式、首發(fā)平臺(tái)和網(wǎng)民相關(guān)度五個(gè)維度的輿情反轉(zhuǎn)風(fēng)險(xiǎn)要素,采用Q 型聚類和Fisher判別式將輿情事件自動(dòng)分為各抒己見、嚴(yán)肅慎對(duì)、戾氣擴(kuò)散和督錯(cuò)維權(quán)四類。 田俊靜等[21]以事件持續(xù)時(shí)長(zhǎng)、事件類型、反轉(zhuǎn)時(shí)段、反轉(zhuǎn)次數(shù)、事件規(guī)模、反轉(zhuǎn)渠道、是否引起線下事件為分類屬性,對(duì)屬性進(jìn)行人工賦值,構(gòu)建了基于決策樹的輿情反轉(zhuǎn)事件類型識(shí)別模型,將輿情反轉(zhuǎn)事件自動(dòng)分類為情感與教育、社會(huì)公德與倫理、行政執(zhí)法事件、影響重大事件等四類。
輿情反轉(zhuǎn)預(yù)測(cè)的研究目標(biāo)是對(duì)輿情是否發(fā)生反轉(zhuǎn)進(jìn)行預(yù)測(cè),通常使用的方法是從不同研究角度構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)特征體系,使用不同模型進(jìn)行輿情反轉(zhuǎn)預(yù)測(cè)。 田世海等[22]從平臺(tái)控制性、信息準(zhǔn)確性、主體批判性、傳播突變性四方面識(shí)別輿情反轉(zhuǎn)影響因素,將其作為輿情反轉(zhuǎn)預(yù)測(cè)的特征并進(jìn)行人工賦值,使用貝葉斯算法構(gòu)建了輿情反轉(zhuǎn)預(yù)測(cè)模型。 王楠等[8]從事件本身、當(dāng)事人、網(wǎng)民、第三方平臺(tái)、政府以及其他因素等六個(gè)方面來識(shí)別輿情反轉(zhuǎn)影響因素并作為輿情反轉(zhuǎn)預(yù)測(cè)的特征進(jìn)行人工賦值,選擇Adam 優(yōu)化的前饋神經(jīng)網(wǎng)絡(luò)模型進(jìn)行輿情反轉(zhuǎn)預(yù)測(cè);江長(zhǎng)斌等[23]以輿情事件性質(zhì)、輿情熱度、輿情首發(fā)主體權(quán)威性、輿情傳播形式、網(wǎng)民情感傾向等七個(gè)特征構(gòu)建輿情反轉(zhuǎn)特征體系,采用人工賦值和定量計(jì)算相結(jié)合的方法獲得特征值,構(gòu)建了基于SVM 的輿情反轉(zhuǎn)預(yù)測(cè)模型。
綜上所述,現(xiàn)有輿情反轉(zhuǎn)方面的研究主要是對(duì)輿情反轉(zhuǎn)的成因、治理、影響等方面的定性研究、利用仿真模型分析各因素對(duì)輿情反轉(zhuǎn)過程的影響、構(gòu)建模型實(shí)現(xiàn)輿情反轉(zhuǎn)事件類型自動(dòng)分類和少量基于機(jī)器學(xué)習(xí)算法的輿情反轉(zhuǎn)預(yù)測(cè)研究。 而現(xiàn)有輿情反轉(zhuǎn)預(yù)測(cè)研究中,在特征構(gòu)建方面,雖有些研究對(duì)于輿情反轉(zhuǎn)預(yù)測(cè)特征體系的構(gòu)建較為全面,但特征粒度較粗且均需人工賦值的二分類特征,其他研究中所構(gòu)建的特征大多局限于媒體報(bào)道的情感傾向、信息結(jié)構(gòu)、首發(fā)媒體的權(quán)威性、事件性質(zhì)、輿情熱度等方面,特征體系較單薄,缺少針對(duì)信息的影響力、全面性、可信度以及傳播過程中受眾等方面的特征。 在特征值計(jì)算方面,學(xué)者們大多采用人工賦值的方法對(duì)特征進(jìn)行賦值,如“是/否存在刻板印象”“是/否進(jìn)行了議程設(shè)置”,具有一定的主觀性,且成本較高,較少利用社交媒體數(shù)據(jù)對(duì)特征進(jìn)行定量化計(jì)算。
因此,本文從事件、用戶、信息、傳播四個(gè)方面,在現(xiàn)有研究的基礎(chǔ)上對(duì)已有特征進(jìn)行更細(xì)粒度的劃分,提出新的輿情反轉(zhuǎn)預(yù)測(cè)特征,定義特征的定量化計(jì)算方法,構(gòu)建適用于社交媒體數(shù)據(jù)的輿情反轉(zhuǎn)預(yù)測(cè)特征體系,計(jì)算特征重要性得分,對(duì)特征重要性進(jìn)行排序,找出影響輿情反轉(zhuǎn)預(yù)測(cè)的重要特征。 采用機(jī)器學(xué)習(xí)的方法構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)模型,在事件發(fā)生之初對(duì)輿情是否會(huì)發(fā)生反轉(zhuǎn)進(jìn)行預(yù)測(cè)。
微博輿情反轉(zhuǎn)預(yù)測(cè)的方法共分為五步:①使用爬蟲軟件采集相關(guān)微博數(shù)據(jù)和用戶數(shù)據(jù);②微博數(shù)據(jù)預(yù)處理;③構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)特征體系,使用人工賦值、描述統(tǒng)計(jì)、情感分類、文本相似度測(cè)量等方法計(jì)算特征值;④基于多種機(jī)器學(xué)習(xí)算法構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)模型,采用五折交叉驗(yàn)證的方法評(píng)估模型預(yù)測(cè)效果;⑤使用XGBoost(eXtreme Gradient Boosting)算法計(jì)算各特征重要性并進(jìn)行排序。 本文研究方法流程圖如圖1所示。
本文中的熱點(diǎn)事件選取自人民網(wǎng)[24]、搜狐網(wǎng)[25]、觀察者網(wǎng)[26]、蟻坊軟件輿情監(jiān)測(cè)系統(tǒng)平臺(tái)[27]等以及輿情反轉(zhuǎn)相關(guān)學(xué)術(shù)論文。 將2.2 節(jié)中本文給出的輿情反轉(zhuǎn)定義作為判定標(biāo)準(zhǔn),結(jié)合各大網(wǎng)站每年末的“反轉(zhuǎn)事件”盤點(diǎn)以及核心期刊中輿情反轉(zhuǎn)相關(guān)論文所選取的事件,對(duì)本研究中的反轉(zhuǎn)事件樣本進(jìn)行選??;根據(jù)定義以及輿情分析平臺(tái)上的分析報(bào)告,選取未出現(xiàn)公眾觀點(diǎn)反轉(zhuǎn)現(xiàn)象的熱點(diǎn)事件,作為未反轉(zhuǎn)事件研究樣本。 在事件選取過程中,某些熱點(diǎn)事件因其事件規(guī)模過大或事件數(shù)據(jù)難以獲取而未被選取,如新冠疫情爆發(fā)事件延續(xù)時(shí)間長(zhǎng)、數(shù)據(jù)量大,可能導(dǎo)致其在整個(gè)數(shù)據(jù)集中占據(jù)主導(dǎo)地位;個(gè)別事件的相關(guān)話題詞條被屏蔽,無法獲取相關(guān)微博數(shù)據(jù)等。 新浪微博話題下的微博被劃分為“綜合”“實(shí)時(shí)”“熱門”“圖片”“視頻”五類,本文選定上述事件微博話題下的“熱門”微博,使用爬蟲軟件爬取微博數(shù)據(jù)和用戶數(shù)據(jù)。 爬取的熱門微博字段包括博文、發(fā)布時(shí)間、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)、評(píng)論內(nèi)容及評(píng)論時(shí)間、轉(zhuǎn)發(fā)內(nèi)容及轉(zhuǎn)發(fā)時(shí)間;爬取的用戶資料字段包括博主昵稱、博主id、博主主頁鏈接、性別、認(rèn)證、簡(jiǎn)介、認(rèn)證類型、行業(yè)、關(guān)注數(shù)、粉絲數(shù)、微博數(shù)、所在地。 刪除原始數(shù)據(jù)中的無關(guān)、冗余數(shù)據(jù)以及反轉(zhuǎn)事件中微博發(fā)布于事件反轉(zhuǎn)之后的數(shù)據(jù)。
本文依據(jù)議程設(shè)置、刻板印象、社會(huì)燃燒三個(gè)理論,從熱點(diǎn)事件本身、信息發(fā)布者、信息發(fā)布者發(fā)布內(nèi)容、信息傳播四個(gè)方面構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)的特征體系,即①事件特征,②用戶特征,③信息特征,④傳播特征,并定義了特征的定量化計(jì)算方法。 各特征賦值如表1所示。
表1 熱點(diǎn)事件情境下微博輿情反轉(zhuǎn)預(yù)測(cè)模型的特征賦值
3.2.1 事件特征
有關(guān)社會(huì)熱點(diǎn)或具有爭(zhēng)議性的事件往往更能吸引媒體爭(zhēng)先報(bào)道,社會(huì)廣泛關(guān)注的敏感群體更能引起人們熱議,具有更高的討論熱度。 本文認(rèn)為,輿情是否可能發(fā)生反轉(zhuǎn)與事件本身特征有關(guān)。 根據(jù)刻板印象理論,若公眾對(duì)某類人或者某類事形成了固定、籠統(tǒng)、概括的看法,如性別歧視等,多數(shù)情況下,事件發(fā)生之后,公眾在未了解事實(shí)之前會(huì)將自己對(duì)群體的慣性認(rèn)知施加于個(gè)體,造成對(duì)事件的錯(cuò)誤判斷。 因此,本文將事件相關(guān)因素,如事件的類型、涉事群體、事件結(jié)果等因素納入輿情反轉(zhuǎn)預(yù)測(cè)模型的特征體系。 根據(jù)社會(huì)燃燒理論,本研究認(rèn)為各類型的熱點(diǎn)事件代表了不同方面的矛盾,如醫(yī)患矛盾、貧富差距矛盾等,這些矛盾構(gòu)成社會(huì)燃燒物質(zhì),因此,本文將事件類型作為輿情反轉(zhuǎn)預(yù)測(cè)模型的特征。 綜上,本文將事件特征劃分為事件類型、事件曝光者類型、事件主體階層標(biāo)簽、事件結(jié)果和事件信息平衡性五個(gè)特征。 結(jié)合田俊靜等[21]對(duì)輿情反轉(zhuǎn)事件類型的劃分,本研究將事件類型劃分為自然災(zāi)害、事故災(zāi)害、公共衛(wèi)生、社會(huì)道德、行政執(zhí)法、醫(yī)患關(guān)系和文化教育七類。 瀏覽事件相關(guān)微博、輿情分析報(bào)告等查找事件最初的曝光者,并將曝光者劃分為當(dāng)事人、自媒體、主流媒體、政府部門和普通群眾五類。 根據(jù)廖夏夢(mèng)[28]對(duì)輿情反轉(zhuǎn)事件中的人群敏感性的劃分,將事件主體劃分為四類:①弱勢(shì)群體,包括老人、兒童、女性等自然性弱勢(shì)群體和下崗失業(yè)人員、農(nóng)民工等社會(huì)性弱勢(shì)群體;②職業(yè)群體,包括醫(yī)生、大學(xué)生、教師等;③特殊人群,包括名人、患者、外國(guó)人、知名企業(yè)高層人員等;④不特別針對(duì)某類人群。 事件結(jié)果特征包含財(cái)產(chǎn)損失、生命健康損失、名譽(yù)損失、權(quán)利損失、精神損失五類。 事件信息平衡性是指已發(fā)布的事件相關(guān)信息中,包含了幾方說法,傳統(tǒng)媒體中僅包含一方說法的報(bào)道不被允許發(fā)布,而當(dāng)事雙方的說法往往尖銳對(duì)立,要采納三方及以上的說法才能形成新聞的平衡面,將事件全面地呈現(xiàn)出來,本研究中該特征劃分為僅包含一方說法,包含雙方說法,包含三方及以上說法。
3.2.2 用戶特征
熱門微博是新浪微博上提供最新最熱優(yōu)質(zhì)內(nèi)容閱讀服務(wù)的一項(xiàng)產(chǎn)品,熱門微博的轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊數(shù)和閱讀量均較大,相對(duì)于普通微博具有更大的影響力。 本文用戶特征中的用戶是指采集到的各個(gè)事件微博話題下熱門微博的博主。 根據(jù)議程設(shè)置理論,具有一定影響力的媒體可以對(duì)公眾進(jìn)行議程設(shè)置,對(duì)公眾的觀點(diǎn)造成影響,因此本文把媒體影響力等因素納入輿情反轉(zhuǎn)預(yù)測(cè)模型的特征體系。根據(jù)社會(huì)燃燒理論,媒體片面、偏離事實(shí)或虛構(gòu)的報(bào)道等構(gòu)成了社會(huì)助燃劑的一部分,本文考慮了輿情反轉(zhuǎn)中媒體可信度和權(quán)威性等因素,將其作為輿情反轉(zhuǎn)預(yù)測(cè)模型的特征。 綜上,本文將用戶特征劃分為用戶性別、關(guān)注數(shù)、粉絲數(shù)、微博總數(shù)、相對(duì)影響力、賬號(hào)類型、認(rèn)證類型、首發(fā)熱門微博認(rèn)證類型、與事發(fā)地距離、可信度。 用戶相對(duì)影響力是考慮到避免用戶通過“互粉行為”來增加粉絲數(shù),以粉絲數(shù)和關(guān)注數(shù)的比值作為用戶相對(duì)影響力指標(biāo)。 新浪微博的賬號(hào)認(rèn)證類型分為個(gè)人認(rèn)證和機(jī)構(gòu)認(rèn)證,機(jī)構(gòu)認(rèn)證包含企業(yè)、機(jī)構(gòu)團(tuán)體、政府、媒體、校園、公益認(rèn)證。 本文按照新浪微博的賬號(hào)認(rèn)證類型,通過識(shí)別用戶基本資料中的“認(rèn)證”信息和“行業(yè)”信息對(duì)用戶的賬號(hào)類型進(jìn)行劃分,劃分的賬號(hào)類型與其對(duì)應(yīng)的關(guān)鍵詞如表2所示,若用戶“認(rèn)證”信息或 “行業(yè)”信息中含有對(duì)應(yīng)的關(guān)鍵詞,則劃分為相應(yīng)的類。 若用戶無“認(rèn)證”信息和“行業(yè)”信息,或“認(rèn)證”信息和“行業(yè)”信息中均不含表2中的任一類別下的關(guān)鍵詞,則將用戶劃分為“普通群眾”。
表2 微博用戶賬號(hào)類型的關(guān)鍵詞
用戶認(rèn)證類型即根據(jù)用戶的認(rèn)證劃分為無認(rèn)證、黃V和藍(lán)V,其中,黃V為新浪微博中的個(gè)人認(rèn)證,藍(lán)V 為新浪微博中的機(jī)構(gòu)認(rèn)證。 首發(fā)熱門微博認(rèn)證類型即每個(gè)事件的熱門微博中最先發(fā)布微博的博主的認(rèn)證類型。用戶與事發(fā)地距離特征根據(jù)用戶基本資料中的位置信息與各熱點(diǎn)事件的發(fā)生地點(diǎn)信息進(jìn)行標(biāo)注,若用戶與事發(fā)地點(diǎn)處于同一城市或同一省份或同一國(guó)家,則分別標(biāo)注為“同城市”或“同省份”或“同國(guó)家”,若用戶位置信息與事發(fā)地點(diǎn)分別位于不同國(guó)家,則標(biāo)注為“海外”,若用戶地理位置信息為“其他”或空白,則標(biāo)注為“其他”。 本文采取曾子明等[29]的用戶可信度計(jì)算方法計(jì)算用戶可信度,使用z-score 規(guī)范化后的粉絲數(shù)、關(guān)注數(shù)、微博總數(shù)和是否認(rèn)證作為用戶可信度評(píng)估指標(biāo),如等式(1)所示:
其中user_reliability(u)表示用戶u的可信度,z_follower、z_following和z_weibo_sum 分別表示經(jīng)z-score標(biāo)準(zhǔn)化后的粉絲數(shù)、關(guān)注數(shù)和微博總數(shù),verify表示用戶是否認(rèn)證,若認(rèn)證則取值為1,若未認(rèn)證則取值為0。
3.2.3 信息特征
根據(jù)議程設(shè)置理論,具有一定影響力的媒體對(duì)各類信息的報(bào)道頻率、篇幅等潛移默化地影響公眾對(duì)事件重要性的判斷,媒體報(bào)道的雷同性和統(tǒng)一側(cè)重點(diǎn)可以使公眾聚焦于經(jīng)過選擇的信息而忽略其他信息,關(guān)注媒體想要公眾關(guān)注的,忽略媒體想要公眾忽略的,能夠影響公眾“想什么”以及“怎么想”。 因此,本文在構(gòu)建特征體系時(shí)考慮了熱門微博之間的文本相似性、報(bào)道篇幅、報(bào)道頻率等方面的信息因素,并將信息特征劃分為熱門微博長(zhǎng)度、信源數(shù)量、熱門微博影響力、熱門微博時(shí)效性、首發(fā)熱門微博時(shí)效性、首發(fā)熱門微博信息結(jié)構(gòu)、熱門微博議程設(shè)置度、熱門微博情感傾向八個(gè)特征。 熱門微博長(zhǎng)度即為熱門微博文本的字?jǐn)?shù)。 信源數(shù)量是指以各個(gè)事件的首發(fā)熱門微博的發(fā)布時(shí)間為起始時(shí)間,設(shè)置時(shí)間窗口為10分鐘,將從起始時(shí)間開始10分鐘內(nèi)發(fā)布的熱門微博定義為信源,則10分鐘內(nèi)發(fā)布的熱門微博條目數(shù)量為信源數(shù)量,有研究表明,信源對(duì)于網(wǎng)絡(luò)輿情擴(kuò)散具有顯著影響[30]。 本文采用曾子明等[29]的微博影響力計(jì)算方法,將z-score規(guī)范化后的粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和點(diǎn)贊數(shù)作為熱門微博影響力的評(píng)估指標(biāo),如等式(2)所示:
其中,weibo_influence(w)表示熱門微博w 的影響力,z_follower、z_repost、z_comment和z_like分別表示經(jīng)z-score標(biāo)準(zhǔn)化后的粉絲數(shù)、轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和點(diǎn)贊數(shù)。
首發(fā)熱門微博時(shí)效性即各個(gè)事件中首發(fā)熱門微博發(fā)布時(shí)間與事件發(fā)生時(shí)間相差的小時(shí)數(shù)。 不少網(wǎng)絡(luò)輿情反轉(zhuǎn)事件的報(bào)道都“空口無憑”,僅有文字描述,或利用了公眾“眼見為實(shí)”的心理,通過片面、篡改或虛構(gòu)的圖文誤導(dǎo)公眾輿論走向[15],因此,本文將首發(fā)熱門微博的信息結(jié)構(gòu)特征納入信息特征當(dāng)中,將信息結(jié)構(gòu)分為僅文本、文本和圖片、文本和視頻、僅圖片和僅視頻五類。 輿情反轉(zhuǎn)事件中,眾多媒體口徑一致,大量發(fā)布片面、有誤導(dǎo)性的信息,對(duì)公眾形成議程設(shè)置,導(dǎo)致輿論一邊倒。 本文用各事件下的熱門微博博文的相似度來表示議程設(shè)置度,使用Python中的自然語言處理包——genism 進(jìn)行文本相似度計(jì)算。 首先對(duì)原始微博數(shù)據(jù)進(jìn)行分詞、去停用詞、獲得詞袋模型等操作,調(diào)用gensim 提供的API 建立語料特征的索引詞典, 使用doc2bow 將文本轉(zhuǎn)化成稀疏向量,并將稀疏向量轉(zhuǎn)換成TF-IDF向量,文本向量化完成后,將各事件下的所有熱門微博兩兩配對(duì)進(jìn)行余弦相似度計(jì)算,將計(jì)算得到的所有相似度值相加并取均值,作為各事件下熱門微博的議程設(shè)置度,如等式(3)所示。 對(duì)于同一事件下的熱門微博,其議程設(shè)置度特征值相同。
其中,E_sim(e)表示事件e的議程設(shè)置度,T i和T j分別表示事件下第i條和第j條微博,sim(T i,T j)表示T i和T j之間的文本相似度,m表示事件下包含的熱門微博數(shù)。
對(duì)于熱門微博情感傾向特征,本文使用Python中的snownlp進(jìn)行計(jì)算,snownlp 中的sentiment模塊可以對(duì)微博文本進(jìn)行情感分析,其將情感分析當(dāng)作二分類任務(wù),即將微博文本分類為正向情感和負(fù)向情感,輸出值為微博文本為正向情感的概率,本文將此概率作為微博文本的情感值。 但原始的sentiment模塊是由電商評(píng)論數(shù)據(jù)進(jìn)行訓(xùn)練的,對(duì)微博文本數(shù)據(jù)的適用性較差,因此,本文使用weibo_senti_100k數(shù)據(jù)集[31]對(duì)sentiment模塊進(jìn)行重新訓(xùn)練,weibo_senti_100k 數(shù)據(jù)集實(shí)際包含近12萬條帶情感標(biāo)注的微博數(shù)據(jù),其中分別包含正向情感和負(fù)向情感微博各近6萬條。 在實(shí)驗(yàn)過程中發(fā)現(xiàn),snownlp在評(píng)論內(nèi)容和轉(zhuǎn)發(fā)內(nèi)容這種短文本數(shù)據(jù)集上的情感分析表現(xiàn)較好,但在微博文本這種相對(duì)較長(zhǎng)的文本數(shù)據(jù)集上表現(xiàn)很差,因此,本文根據(jù)微博文本中的“。”“;”“?”“!”“~”和空格符號(hào),將每條微博文本劃分成若干短句,使用sentiment模塊計(jì)算每個(gè)短句的情感值,將每條微博文本中的若干短句的情感值求和后取均值,作為微博文本的情感值,如等式(4)所示:
其中,w i表示微博i的情感傾向,senti(t ij)表示微博i中的第j個(gè)分句的情感值,m表示微博i中的分句個(gè)數(shù)。
3.2.4 傳播特征
根據(jù)社會(huì)燃燒理論,社會(huì)助燃劑包括受眾的非理性“站隊(duì)”、輿論攻擊等,因此,本文將受眾表達(dá)是否理性的因素納入輿情反轉(zhuǎn)預(yù)測(cè)模型的特征體系。 將傳播特征劃分為熱門微博轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)、點(diǎn)贊數(shù)、評(píng)論和轉(zhuǎn)發(fā)時(shí)效性、評(píng)論和轉(zhuǎn)發(fā)內(nèi)容情感傾向。 本文將熱門微博評(píng)論和轉(zhuǎn)發(fā)時(shí)效性定義為每條微博自發(fā)布起1小時(shí)內(nèi)獲得的評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)。 使用weibo_senti_100k 數(shù)據(jù)集重新訓(xùn)練過的snownlp中的sentiment模塊,對(duì)微博評(píng)論和轉(zhuǎn)發(fā)內(nèi)容進(jìn)行情感分析,將每條微博的所有評(píng)論情感值和轉(zhuǎn)發(fā)情感值分別求和并取均值,作為微博的評(píng)論情感傾向和轉(zhuǎn)發(fā)情感傾向特征值,如等式(5)和等式(6)所示:
其中,com_senti(i)和repo_senti(i)分別表示熱門微博i的評(píng)論情感傾向和轉(zhuǎn)發(fā)情感傾向,senti(comij)和senti(repoik)分別表示熱門微博i中第j條評(píng)論和第k條轉(zhuǎn)發(fā)的情感值,p和q分別表示熱門微博的評(píng)論數(shù)和轉(zhuǎn)發(fā)數(shù)。
輿情反轉(zhuǎn)預(yù)測(cè)本質(zhì)上屬于分類問題,即把樣本分為反轉(zhuǎn)和未反轉(zhuǎn)兩類。 邏輯回歸(Logistic Regression,LR)[32]、決策樹(Decision Tree,DT)[33]、隨機(jī)森林(Random Forest,RF)[25]、XGBoost[34]、 高斯樸素貝葉斯(Gaussian Naive Bayes,GNB)[35]是目前常用的且性能較好的分類預(yù)測(cè)方法。 因此,本文分別基于以上五種機(jī)器學(xué)習(xí)方法構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)模型。 模型的輸入為X i(x1,x2,x3,x4,…,x n),其中X i表示樣本微博i,x1,x2,x3,x4,…,x n表示樣本微博i的特征值。因?yàn)槟P偷妮斎氡仨殲閿?shù)值型變量,所以需要對(duì)特征值中的文本型變量進(jìn)行編碼。 其中,使用pandas的.get_dummies函數(shù)對(duì)分類變量進(jìn)行獨(dú)熱編碼,編碼之后返回一個(gè)稀疏矩陣,每一列是一個(gè)特征中的一個(gè)類別,含有該類別的樣本表示為1,不含有的表示為0;對(duì)于有序變量,本文采用人工編碼的方式,將每個(gè)特征中的類別依次轉(zhuǎn)換為[0,1,2,3…]。 模型的輸出Y∈(0,1),其中0表示輿情不發(fā)生反轉(zhuǎn),1表示輿情發(fā)生反轉(zhuǎn)。 采用五折交叉驗(yàn)證的方法對(duì)輿情反轉(zhuǎn)預(yù)測(cè)模型進(jìn)行訓(xùn)練和評(píng)估,五折交叉驗(yàn)證是指將原始數(shù)據(jù)集隨機(jī)劃分為5份,每次選擇其中4份作為訓(xùn)練集,剩余1份作為測(cè)試集,交叉驗(yàn)證重復(fù)5次,可以有效避免過擬合和欠擬合發(fā)生。 用準(zhǔn)確率(accuracy)、精確率(precision)、召回率(recall)、F1值、AUC 值作為評(píng)估指標(biāo)。 其中,準(zhǔn)確率是指所有預(yù)測(cè)正確的樣本占總樣本的比例,如等式(7)所示;精確率是指所有正確預(yù)測(cè)為正的樣本占全部預(yù)測(cè)為正的樣本的比例,如等式(8)所示;召回率是指正確預(yù)測(cè)為正的樣本占實(shí)際為正的樣本的比例,如等式(9)所示;F1是用來衡量精確率和召回率的值,是兩個(gè)值的調(diào)和均值,如等式(10)所示;AUC是ROC 曲線下的面積,ROC 曲線是以假正率為橫軸和真正率為縱軸的曲線。
特征重要性是指每個(gè)特征對(duì)于最終的預(yù)測(cè)性能提高的貢獻(xiàn)大小,特征的貢獻(xiàn)越大則越重要。 XGBoost是常用的特征重要性分析方法[36],是在GBDT(Gradient Boosting D ecision Tree)算法基礎(chǔ)上進(jìn)行改進(jìn)的算法,其核心思想是不斷地添加樹,每添加一棵樹就是學(xué)習(xí)一個(gè)新函數(shù),去擬合上次預(yù)測(cè)的殘差。 當(dāng)訓(xùn)練完成得到k棵樹,預(yù)測(cè)一個(gè)樣本的分?jǐn)?shù)時(shí),就是根據(jù)樣本的特征,將每棵樹中特征所落到的葉子節(jié)點(diǎn)的分?jǐn)?shù)相加即為該樣本的預(yù)測(cè)值。本文選擇XGBoost計(jì)算特征重要性,根據(jù)樹分裂前后目標(biāo)函數(shù)的減少情況,即增益(gain)來衡量每個(gè)特征的優(yōu)劣。 增益計(jì)算公式如等式(11)所示:
本文對(duì)反轉(zhuǎn)事件和非反轉(zhuǎn)事件的選取遵循以下標(biāo)準(zhǔn):第一,根據(jù)人民網(wǎng)、央視網(wǎng)新聞、觀察者網(wǎng)等各大權(quán)威網(wǎng)站的“反轉(zhuǎn)事件盤點(diǎn)”中認(rèn)證的反轉(zhuǎn)事件,以及專業(yè)領(lǐng)域核心期刊中輿情反轉(zhuǎn)相關(guān)學(xué)術(shù)論文所選取的反轉(zhuǎn)事件和非反轉(zhuǎn)事件,對(duì)本研究中的事件樣本進(jìn)行初步選取。 第二,根據(jù)本文2.2節(jié)中給出的輿情反轉(zhuǎn)定義并借助輿情分析平臺(tái)上的分析報(bào)告,對(duì)事件屬于反轉(zhuǎn)或非反轉(zhuǎn)事件進(jìn)行進(jìn)一步判定。 最終,本文選取了2017—2020年間的38 個(gè)熱點(diǎn)事件,其中19 個(gè)為反轉(zhuǎn)事件,19個(gè)為未反轉(zhuǎn)事件。 本研究以新浪微博熱點(diǎn)事件話題下的熱門微博為研究對(duì)象,以各事件閱讀量最大的微博話題詞條進(jìn)行搜索,若話題詞條被刪除但關(guān)鍵詞搜索結(jié)果較準(zhǔn)確,則以被刪除的話題詞條為關(guān)鍵詞進(jìn)行搜索。 38個(gè)事件及其話題詞條或關(guān)鍵詞如表3所示。 選擇微博話題內(nèi)的“熱門”微博,使用集搜客爬蟲軟件(https://www.gooseeker.com/)爬取熱門微博數(shù)據(jù)和用戶數(shù)據(jù),經(jīng)刪除無關(guān)、冗余微博后,共獲得346745條數(shù)據(jù)。 其中反轉(zhuǎn)事件微博、用戶、評(píng)論和轉(zhuǎn)發(fā)數(shù)據(jù)共174701條,未反轉(zhuǎn)事件微博、用戶、評(píng)論和轉(zhuǎn)發(fā)數(shù)據(jù)共172044條。
表3 2017—2020年38個(gè)熱點(diǎn)事件
為判斷各個(gè)特征對(duì)輿情反轉(zhuǎn)預(yù)測(cè)的影響,本研究采用XGBoost算法計(jì)算特征重要性得分,并對(duì)特征進(jìn)行重要性排序,去除重要性為0的特征后,特征重要性排序的結(jié)果如圖2所示。 實(shí)驗(yàn)結(jié)果顯示,信息平衡性、事件曝光者類型和事件類型對(duì)輿情反轉(zhuǎn)預(yù)測(cè)的影響最為顯著。
事件特征方面,本研究發(fā)現(xiàn),事件類型(重要性0.1089)特征對(duì)輿情反轉(zhuǎn)預(yù)測(cè)較為重要,這與江長(zhǎng)斌等[23]的研究有相似之處。 而本研究提出的信息平衡性(重要性0.5902)、事件曝光者類型(重要性0.1107)特征對(duì)輿情反轉(zhuǎn)預(yù)測(cè)的影響最為顯著,以往研究都忽略了這兩點(diǎn)。 信息平衡性方面,實(shí)驗(yàn)結(jié)果顯示,19個(gè)反轉(zhuǎn)事件中,僅包含1方說法的有7個(gè),包含2方說法的有12個(gè),無包含3方及以上說法的反轉(zhuǎn)事件;19 個(gè)未反轉(zhuǎn)事件中,僅包含1方說法的有1個(gè),包含2方說法的有6個(gè),包含3方及以上說法的有12個(gè)。 結(jié)果表明,報(bào)道所包含的發(fā)聲方越少,輿情越容易發(fā)生反轉(zhuǎn),媒體在發(fā)布事件報(bào)道時(shí)應(yīng)采納事件相關(guān)的多方說法,構(gòu)成新聞事實(shí)的基本面,達(dá)到信息平衡,客觀全面地傳達(dá)事件概況。事件曝光者類型特征中,事件當(dāng)事人(重要性0.1058)重要性最高,其次為主流媒體(重要性0.0034)和普通群眾(重要性0.0015),由事件當(dāng)事人主動(dòng)曝光或者由普通群眾曝光的熱點(diǎn)事件需嚴(yán)格審查所曝光信息的真實(shí)性,而主流媒體曝光的事件發(fā)生反轉(zhuǎn)的概率相對(duì)較低。 王楠等[8]研究發(fā)現(xiàn),刻板印象特征與輿情反轉(zhuǎn)相關(guān)性較大,本研究從事件類型、事件主體階層標(biāo)簽和事件結(jié)果三個(gè)方面進(jìn)一步揭示了刻板印象對(duì)輿情反轉(zhuǎn)的影響。 在所有熱點(diǎn)事件類型中,社會(huì)道德(重要性0.0614)和事故災(zāi)害(重要性0.0005)重要性相對(duì)較高。社會(huì)道德類事件發(fā)生反轉(zhuǎn)的概率最高,而事故災(zāi)害類事件不易發(fā)生反轉(zhuǎn)。 事件主體階層標(biāo)簽(重要性0.0043)和事件結(jié)果(重要性0.0029)特征均低于上述三個(gè)事件特征,其中事件主體階層標(biāo)簽中職業(yè)群體(重要性0.0029)、不特別針對(duì)某類人群(重要性0.0011)和自然弱勢(shì)群體(重要性0.0003)較重要,女性、兒童等自然弱勢(shì)群體和醫(yī)生、教師等職業(yè)群體是公眾較關(guān)注的敏感群體,當(dāng)涉及到此類敏感群體的時(shí)間發(fā)生時(shí),公眾易憑借自己的刻板印象在未全面了解事件之前先行作判斷,隨著后續(xù)補(bǔ)充信息的加入極有可能發(fā)生輿情反轉(zhuǎn)。 事件結(jié)果特征中,生命健康損失(重要性0.0029)較重要,涉及到生命健康損失的輿情事件發(fā)生反轉(zhuǎn)的概率低。
用戶特征方面,研究發(fā)現(xiàn),用戶關(guān)注數(shù)(重要性0.0028)特征相對(duì)重要,現(xiàn)有研究中未提及這一點(diǎn)。 本研究反轉(zhuǎn)事件中的用戶平均關(guān)注數(shù)為1397,而未反轉(zhuǎn)事件中的用戶平均關(guān)注數(shù)相對(duì)略高,為1490。
信息特征方面,本研究提出的信源數(shù)量(重要性0.0908)特征對(duì)輿情反轉(zhuǎn)預(yù)測(cè)最為重要,此外,使用本文提出的定量化計(jì)算方法得出的首發(fā)熱門微博時(shí)效性(重要性0.0714)、 熱門微博時(shí)效性(重要性0.0415)、議程設(shè)置度(重要性0.0211)均為重要特征,表明熱點(diǎn)事件發(fā)生后,媒體為爭(zhēng)奪話語權(quán),盲目追求時(shí)效性,可能在未全面了解事件之前就向公眾發(fā)布大量的、雷同的、不準(zhǔn)確甚至有誤導(dǎo)性的信息,導(dǎo)致事件發(fā)生之初輿論一邊倒,事件真相還原之后發(fā)生輿論反轉(zhuǎn)。 首發(fā)熱門微博信息結(jié)構(gòu)特征中,文本+視頻(重要性0.0007)特征較重要,這與江長(zhǎng)斌等[23]的研究結(jié)果有相似之處。 熱點(diǎn)事件微博中,純圖片和純視頻這兩種信息結(jié)構(gòu)較少,而純文本易偽造且沒有其他模態(tài)的信息佐證,可信度較低,圖片信息相比于視頻信息較片面,容易導(dǎo)致公眾斷章取義,視頻信息能相對(duì)全面地向公眾展示事件的過程,還原事件真相。 熱門微博情感傾向(重要性0.0009)、 熱門微博影響力(重要性0.0002)、熱門微博長(zhǎng)度(重要性0.0001)特征也具有一定重要性,但重要程度較低。
傳播特征方面,以往研究大多忽略了轉(zhuǎn)發(fā)評(píng)論區(qū)的相關(guān)特征,本研究發(fā)現(xiàn),熱門微博轉(zhuǎn)發(fā)數(shù)(重要性0.0002)、評(píng)論數(shù)(重要性0.0002)以及本文提出的熱門微博轉(zhuǎn)發(fā)內(nèi)容情感傾向(重要性0.0002)和評(píng)論時(shí)效性(重要性0.0001)特征對(duì)輿情反轉(zhuǎn)預(yù)測(cè)較為重要。 輿情反轉(zhuǎn)事件與未反轉(zhuǎn)事件相比,其傳播規(guī)模往往更大,公眾在面對(duì)突發(fā)事件時(shí),不應(yīng)急于發(fā)表自己的言論,而應(yīng)盡量全面地了解事件,客觀地評(píng)價(jià)事件,維護(hù)良好的網(wǎng)絡(luò)生態(tài)環(huán)境。
根據(jù)3.2 節(jié)提出的輿情反轉(zhuǎn)特征體系和3.3節(jié)的輿情反轉(zhuǎn)預(yù)測(cè)模型構(gòu)建方法,基于邏輯回歸、決策樹、隨機(jī)森林、高斯樸素貝葉斯和XGBoost構(gòu)建熱點(diǎn)事件情境下微博輿情反轉(zhuǎn)預(yù)測(cè)模型。 根據(jù)3.2節(jié)中的特征值計(jì)算方法計(jì)算每條微博的特征值,通過輿情反轉(zhuǎn)預(yù)測(cè)模型對(duì)每條微博中所報(bào)道的熱點(diǎn)事件是否會(huì)發(fā)生輿情反轉(zhuǎn)進(jìn)行預(yù)測(cè),采用五折交叉驗(yàn)證的方法對(duì)模型性能進(jìn)行評(píng)估。 各預(yù)測(cè)模型的評(píng)估結(jié)果如表4 所示,加粗的數(shù)值表示該列的最大值。 實(shí)驗(yàn)結(jié)果顯示,基于XGBoost和隨機(jī)森林的輿情反轉(zhuǎn)預(yù)測(cè)模型表現(xiàn)較好,XGBoost在精確率上表現(xiàn)最好,即擅長(zhǎng)準(zhǔn)確地發(fā)現(xiàn)輿情反轉(zhuǎn)事件;隨機(jī)森林在召回率上表現(xiàn)最好,即擅長(zhǎng)找出大部分輿情反轉(zhuǎn)事件。因此,可將XGBoost和隨機(jī)森林作為本文構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)模型的主要算法。 基于決策樹的預(yù)測(cè)模型的準(zhǔn)確率和精確率僅次于基于XGBoost的預(yù)測(cè)模型,分別達(dá)到0.9103 和0.8889,其召回率、F1值和AUC 值次于基于隨機(jī)森林的預(yù)測(cè)模型和基于XGBoost的預(yù)測(cè)模型,分別達(dá)到0.9095、0.8979和0.9103。此外,基于邏輯回歸的預(yù)測(cè)模型效果次于上述三個(gè)模型,基于高斯樸素貝葉斯的預(yù)測(cè)模型表現(xiàn)最差。
表4 輿情反轉(zhuǎn)預(yù)測(cè)模型評(píng)估結(jié)果
本文針對(duì)熱點(diǎn)事件情境下微博輿情反轉(zhuǎn)預(yù)測(cè)問題,從事件特征、用戶特征、信息特征、傳播特征四個(gè)方面構(gòu)建了包含30個(gè)特征的特征體系,分別基于邏輯回歸、決策樹、隨機(jī)森林、XGBoost和高斯樸素貝葉斯五種機(jī)器學(xué)習(xí)方法構(gòu)建了輿情反轉(zhuǎn)預(yù)測(cè)模型,采用五折交叉驗(yàn)證方法對(duì)模型效果進(jìn)行評(píng)估。 實(shí)驗(yàn)結(jié)果顯示,基于XGBoost和隨機(jī)森林的預(yù)測(cè)模型綜合表現(xiàn)最好,分別在精確率和召回率上取得最高值。 使用XGBoost計(jì)算特征預(yù)測(cè)模型的重要性并進(jìn)行排序,結(jié)果顯示,信息平衡性、事件曝光者類型、事件類型、信源數(shù)量、首發(fā)熱門微博時(shí)效性、熱門微博時(shí)效性、熱門微博議程設(shè)置度、事件主體階層標(biāo)簽、事件結(jié)果等特征均對(duì)輿情反轉(zhuǎn)預(yù)測(cè)有較重要的作用。 本文在已有輿情反轉(zhuǎn)特征的基礎(chǔ)上,提出了議程設(shè)置度、信息平衡性、熱門微博時(shí)效性、評(píng)論時(shí)效性、事件曝光者類型等特征,并證明了這些特征對(duì)于輿情反轉(zhuǎn)預(yù)測(cè)的有效性,補(bǔ)充了現(xiàn)有的輿情反轉(zhuǎn)預(yù)測(cè)特征體系;同時(shí)也為應(yīng)急管理部門及時(shí)發(fā)現(xiàn)可能會(huì)反轉(zhuǎn)的熱點(diǎn)事件提前進(jìn)行輿論引導(dǎo),為維護(hù)健康的網(wǎng)絡(luò)生態(tài)環(huán)境提供方法支持。
通過分析對(duì)輿情反轉(zhuǎn)預(yù)測(cè)有重要影響的特征,本文根據(jù)研究結(jié)果從媒體、公眾和平臺(tái)三個(gè)方面提出以下建議:
(1)媒體方面。 第一,媒體應(yīng)保證報(bào)道內(nèi)容的信息平衡,從事件相關(guān)的多方收集信息,構(gòu)成事實(shí)的基本面,避免信息偏倚,客觀、全面地向公眾傳達(dá)事實(shí)概況。 第二,在事件發(fā)生之初,固定時(shí)間窗口內(nèi),信源數(shù)量多,首發(fā)熱門微博時(shí)效性和熱門微博時(shí)效性強(qiáng),均表明媒體在事件發(fā)生之后的短時(shí)間內(nèi)便對(duì)事件進(jìn)行快速報(bào)道,爭(zhēng)奪話語權(quán)和閱讀量,忽視報(bào)道內(nèi)容的質(zhì)量。 媒體報(bào)道應(yīng)先盡量了解事件全貌,將現(xiàn)有的信息準(zhǔn)確、全面地傳達(dá)給受眾,以內(nèi)容質(zhì)量為導(dǎo)向而非話語權(quán)和閱讀量,將質(zhì)量置于流量之上,提高自身公信力。 第三,媒體應(yīng)合理減弱有意識(shí)的議程設(shè)置,媒體報(bào)道的內(nèi)容應(yīng)該符合了解到的實(shí)際情況,而非相互復(fù)制粘貼,導(dǎo)致輿論場(chǎng)被高頻率更新的海量雷同信息淹沒。 第四,媒體報(bào)道應(yīng)該客觀公正,尤其在事實(shí)模糊時(shí)應(yīng)向公眾傳達(dá)客觀的信息,引導(dǎo)公眾理性思考,避免帶有明顯輿論傾向的觀點(diǎn)煽動(dòng)公眾情緒。
(2)公眾方面。 第一,面對(duì)突發(fā)事件,公眾應(yīng)理性、客觀地思考,盡量從主流媒體處獲取事件信息,對(duì)非官方來源的消息需謹(jǐn)慎對(duì)待。 造成生命健康損失的事件輿情反轉(zhuǎn)傾向較低,但由事件當(dāng)事人或普通群眾曝光的涉及到教師、醫(yī)生等職業(yè)或弱勢(shì)群體的社會(huì)道德類事件的輿情反轉(zhuǎn)傾向較高,公眾應(yīng)提高識(shí)別能力,避免因刻板印象而在事實(shí)未明之前草率作出判斷。 第二,有圖不一定有真相,主觀且易造假的文字描述和片面的圖片均具有很強(qiáng)的誤導(dǎo)性,公眾應(yīng)提高辨別能力,對(duì)于沒有證據(jù)的文字以及模糊不清、無前因后果或有明顯編輯痕跡的圖片乃至視頻均需提高警惕。 第三,理性分析事件緣由,耐心觀察事件進(jìn)展,了解事件全貌,不急于“站隊(duì)”發(fā)表評(píng)論甚至實(shí)施網(wǎng)絡(luò)暴力,不輕易轉(zhuǎn)發(fā)擴(kuò)散真假不明的信息,在輿情傳播階段減少包括對(duì)事件主體的污名化和對(duì)社會(huì)秩序的破壞等在內(nèi)的負(fù)面影響。
(3)平臺(tái)方面。 各類社交媒體平臺(tái)成為當(dāng)今主要的輿論發(fā)酵場(chǎng)所,平臺(tái)應(yīng)該主動(dòng)承擔(dān)維護(hù)網(wǎng)絡(luò)輿論環(huán)境和諧文明健康發(fā)展的責(zé)任。 第一,謹(jǐn)慎推廣非官方來源的具有較強(qiáng)爭(zhēng)議性的信息,提高熱點(diǎn)事件中官方信息的曝光度和覆蓋量。 第二,對(duì)于平臺(tái)賬號(hào)管理適當(dāng)引入獎(jiǎng)懲機(jī)制,引導(dǎo)平臺(tái)上各類型媒體和普通用戶加強(qiáng)對(duì)自身發(fā)表內(nèi)容的質(zhì)量把控,一定程度上彌補(bǔ)新媒體中“新聞把關(guān)人”的缺失,提升平臺(tái)上發(fā)布內(nèi)容的規(guī)范性。 第三,社交媒體平臺(tái)可實(shí)行用戶實(shí)名制措施,責(zé)任明確到個(gè)人,減少網(wǎng)絡(luò)匿名化給予用戶的保護(hù)傘和僥幸心理。
本研究的不足之處在于,將輿情反轉(zhuǎn)事件默認(rèn)為全部由信源失真所導(dǎo)致,并從這一角度構(gòu)建輿情反轉(zhuǎn)預(yù)測(cè)特征體系,但實(shí)際中仍存在部分如“格斗孤兒”這類不存在信源失真,而是因?yàn)樽h題事件本身存在極大爭(zhēng)議,輿論傾向在爭(zhēng)議過程當(dāng)中發(fā)生移動(dòng)最后趨于穩(wěn)定的輿情反轉(zhuǎn)事件。 未來工作中將考慮到輿情的動(dòng)態(tài)演化性,納入時(shí)間因素,提高輿情反轉(zhuǎn)預(yù)測(cè)的準(zhǔn)確性。
致謝: 感謝圖書情報(bào)國(guó)家級(jí)實(shí)驗(yàn)教學(xué)示范中心為本研究提供的實(shí)驗(yàn)支持!