陳璟浩 王有峰 聶卉梓
(1.廣西大學(xué)區(qū)域社會(huì)治理創(chuàng)新研究中心,南寧,530004; 2.廣西大學(xué)公共管理學(xué)院,南寧,530004;3.武漢大學(xué)信息資源研究中心,武漢,430072)
短視頻是指在各種新媒體平臺(tái)上播放的、長(zhǎng)度由幾秒鐘至幾分鐘不等的視頻。 由于其制作簡(jiǎn)單、代入感強(qiáng)、時(shí)效性高、信息量大、交互性好、易于分享,已成為當(dāng)前最具熱度和代表性的傳播形態(tài),備受廣大網(wǎng)民青睞。 據(jù)第48次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2021年6月,我國(guó)短視頻用戶規(guī)模達(dá)8.88億,占網(wǎng)民整體的87.8%[1]。
相較于傳統(tǒng)微博、論壇中發(fā)布的文字和圖片,短視頻可同時(shí)向受眾傳遞文字、音頻、影像等多模態(tài)信息,更便于表達(dá)、更具有沖擊力、更易于對(duì)輿論產(chǎn)生直觀影響,因此已成為輿情傳遞過(guò)程中的重要一環(huán)。
近年來(lái),隨著短視頻的普及,在突發(fā)事件中,公眾已習(xí)慣利用短視頻平臺(tái)發(fā)布危機(jī)信息、跟蹤事態(tài)進(jìn)展、發(fā)表評(píng)論、表達(dá)情感。這為危機(jī)預(yù)警、危機(jī)響應(yīng)、危機(jī)溝通、公眾互助和災(zāi)難評(píng)估等提供了有效支持。 不少政府部門和學(xué)者開始使用定性分析[2]、敘事分析[3]、內(nèi)容分析[4]等方法對(duì)突發(fā)事件短視頻進(jìn)行加工、處理,然后對(duì)視頻中表達(dá)的輿情信息進(jìn)行總結(jié)、歸納,進(jìn)而對(duì)其發(fā)展態(tài)勢(shì)進(jìn)行研判和把握。
但是,值得注意的是,突發(fā)事件短視頻輿情具有大數(shù)據(jù)特征,如數(shù)據(jù)容量大、增長(zhǎng)速度快、信息片段長(zhǎng)、模態(tài)形式多等,僅僅依靠人力和傳統(tǒng)方法來(lái)收集、加工、整理、分析海量短視頻信息,往往會(huì)出現(xiàn)人力時(shí)間耗費(fèi)大、樣本覆蓋不全、分析結(jié)果粒度粗等問(wèn)題,不利于快速反應(yīng)和精細(xì)化管理。 為此,如何對(duì)大量突發(fā)事件短視頻輿情進(jìn)行自動(dòng)化、智能化分析,全面而準(zhǔn)確地把握輿情演化規(guī)律,從中發(fā)現(xiàn)輿情引導(dǎo)中的短板,對(duì)政府在新興輿論環(huán)境下有效引導(dǎo)突發(fā)事件輿情,提升危機(jī)管理能力,完善部門服務(wù)水平具有重要現(xiàn)實(shí)意義。
鑒于此,本文擬構(gòu)建一套突發(fā)事件短視頻輿情演化計(jì)算分析框架,利用統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、自然語(yǔ)言處理等多種方法,對(duì)短視頻進(jìn)行淺層(如數(shù)量、類型、時(shí)長(zhǎng)等統(tǒng)計(jì))和深層(如影像識(shí)別、音頻識(shí)別、主題識(shí)別等)分析,進(jìn)而提出一套切實(shí)可行的智能化分析方法,揭示突發(fā)事件短視頻輿情演化規(guī)律。
突發(fā)事件發(fā)生后,用戶會(huì)在傳統(tǒng)社交媒體上發(fā)布大量的危機(jī)信息,許多學(xué)者都發(fā)現(xiàn)了這些數(shù)據(jù)的價(jià)值,嘗試對(duì)其進(jìn)行挖掘和分析,以輔助相關(guān)部門開展應(yīng)急響應(yīng)和危機(jī)溝通工作,已有成果非常豐富[5]。 Yang等[6]構(gòu)建了一個(gè)階段模型,用于分析新冠疫情期間公眾恐慌情緒的時(shí)空分布。 Pourebrahim等[7]對(duì)颶風(fēng)桑迪侵襲美國(guó)東海岸期間公眾發(fā)布在Twitter上的信息進(jìn)行了挖掘,并依據(jù)分析結(jié)果制定了相應(yīng)的救援計(jì)劃、災(zāi)害損失評(píng)估方案及災(zāi)害發(fā)展階段的識(shí)別方法。 Zhao等[8]構(gòu)建了SIR 輿情演化仿真模型,并利用新冠疫情期間網(wǎng)民發(fā)布的微博數(shù)據(jù)對(duì)模型的可靠性進(jìn)行了驗(yàn)證。 Li等[9]采用復(fù)雜系統(tǒng)仿真模型推導(dǎo)突發(fā)事件發(fā)生時(shí)政府、媒體、網(wǎng)民在輿情傳播中的作用。 Fang等[10]提出了一個(gè)采用社交媒體數(shù)據(jù)評(píng)估災(zāi)害影響的框架,如:將降雨量變化與社交媒體活動(dòng)變化進(jìn)行連續(xù)時(shí)間段比較,分析社交話題與災(zāi)害變化的關(guān)系,并用2016年武漢暴雨洪澇災(zāi)害數(shù)據(jù)驗(yàn)證了該框架的有效性。 McGregor[11]分析了突發(fā)事件中公眾情緒的演化過(guò)程及公眾情緒對(duì)政府決策的影響。 Han等[12]對(duì)山東壽光洪災(zāi)期間社交媒體中的輿情進(jìn)行分析發(fā)現(xiàn),輿情主題和情感隨著災(zāi)情的演變而演變。 Gu等[13]提出了突發(fā)事件社交媒體行為情感演化的分析框架,并利用2019年無(wú)錫高架橋垮塌數(shù)據(jù)對(duì)框架進(jìn)行了驗(yàn)證。 安璐等[14]提出了融合主題及情感特征的突發(fā)事件微博輿情演化分析方法,以塞卡事件為例,揭示了輿情主題與情感的協(xié)同演化規(guī)律。 李綱等[15]對(duì)自然災(zāi)害事件情境下,社交媒體中的時(shí)空數(shù)據(jù)進(jìn)行了分析,對(duì)災(zāi)區(qū)和非災(zāi)區(qū)用戶的話題演化特點(diǎn)進(jìn)行了比較。 王晰巍等[16]利用LDA 主題模型、情感分析和社會(huì)網(wǎng)絡(luò)分析方法,構(gòu)建了公民隱私泄露的情感演化圖譜分析模型,該模型能有效揭示突發(fā)公共衛(wèi)生事件期間網(wǎng)民的情感演化特征。
Southwick等[17]對(duì)新冠疫情早期發(fā)布在TikTok短視頻平臺(tái)中的視頻信息進(jìn)行了內(nèi)容分析,包括公眾觀點(diǎn)、信息類型和誤導(dǎo)信息等,并提出了相應(yīng)的公共衛(wèi)生信息傳播及引導(dǎo)策略。 Li等[18]對(duì)TikTok短視頻平臺(tái)上發(fā)布的有關(guān)新冠疫情視頻的屬性,如類型、內(nèi)容及用戶參與度指標(biāo),還有瀏覽量、點(diǎn)贊數(shù)、評(píng)論量等展開了分析,并依此結(jié)果給出了健康信息傳播的相關(guān)策略。 Chen等[19]分析驗(yàn)證了新冠疫情期間影響公民參與公共衛(wèi)生視頻傳播的因素,包括視頻長(zhǎng)度、標(biāo)題、對(duì)話內(nèi)容及視頻類型等。 Unni等[20]分析了美國(guó)新冠疫情大流行期間,公眾在TikTok短視頻平臺(tái)上的信息行為特點(diǎn),發(fā)現(xiàn)相較于后期,在疫情爆發(fā)的前兩個(gè)月,人們?cè)谄脚_(tái)上的交流更為活躍。 Ostrovsky 等[21]呼吁Tik-Tok短視頻平臺(tái)在新冠病毒流行期間要發(fā)揮更大的正面作用,要引導(dǎo)青少年形成對(duì)公共衛(wèi)生的正確認(rèn)識(shí)。 高存玲等[2]指出,短視頻平臺(tái)的個(gè)性化推薦功能,可能會(huì)造成災(zāi)害信息的“馬太效應(yīng)”,影響公眾對(duì)災(zāi)害的認(rèn)知程度。 劉瓊等[22]運(yùn)用文本分析方法,對(duì)BiliBili網(wǎng)站新冠疫情視頻彈幕進(jìn)行分析發(fā)現(xiàn),“視頻+彈幕”形式會(huì)加劇個(gè)體情緒向集體情緒轉(zhuǎn)化。 呂文寶[23]對(duì)新冠疫情期間主流媒體高贊抖音短視頻進(jìn)行分析發(fā)現(xiàn),政府對(duì)疫情的反應(yīng)、正面信息報(bào)道、回應(yīng)社會(huì)關(guān)切等內(nèi)容易獲點(diǎn)贊,并提出了相關(guān)短視頻輿論引導(dǎo)策略。 李小軍等[24]對(duì)抖音短視頻平臺(tái)中有關(guān)新冠疫情的視頻進(jìn)行了多維度分析,包括賬號(hào)類型、視頻內(nèi)容、評(píng)論情感等,揭示了新冠疫情相關(guān)短視頻的傳播特點(diǎn)。 王英杰等[25]構(gòu)建了一套短視頻平臺(tái)網(wǎng)絡(luò)輿情預(yù)警指標(biāo),并應(yīng)用安徽六安新冠疫情短視頻數(shù)據(jù)驗(yàn)證了指標(biāo)的有效性。
綜上可見,無(wú)論是研究方法還是分析技術(shù),突發(fā)事件情境下傳統(tǒng)社交媒體輿情演化研究成果已相當(dāng)豐富。 話題發(fā)現(xiàn)和情感分析技術(shù)幾乎成為了此類研究的標(biāo)配,數(shù)據(jù)維度也從單一的文本維度,拓展到時(shí)間、空間維度。
相較于傳統(tǒng)社交媒體輿情演化分析,突發(fā)事件短視頻輿情分析則剛剛起步。 現(xiàn)有研究主要圍繞新冠疫情展開,對(duì)短視頻輿情進(jìn)行內(nèi)容分析、影響因素分析、預(yù)警指標(biāo)設(shè)計(jì)等。 研究對(duì)象多聚焦于短視頻評(píng)論、短視頻標(biāo)題、用戶行為,對(duì)視頻內(nèi)容信息挖掘不足,尚未形成系統(tǒng)的短視頻內(nèi)容分析模型。
針對(duì)現(xiàn)有不足,本研究將構(gòu)建突發(fā)事件短視頻輿情演化分析模型,該模型將集成視頻分類、主題分析和情感分析等功能,形成一套可操作化的短視頻輿情內(nèi)容分析方法,用于刻畫和描述突發(fā)事件短視頻輿情演化過(guò)程。
本研究的總體分析框架主要包含三個(gè)部分:第一部分,數(shù)據(jù)采集與處理,主要功能包括短視頻數(shù)據(jù)采集、數(shù)據(jù)清洗和數(shù)據(jù)壓縮;第二部分,淺層數(shù)據(jù)分析,主要功能包括對(duì)短視頻輿情演化階段進(jìn)行劃分,對(duì)基礎(chǔ)數(shù)據(jù)進(jìn)行描述性統(tǒng)計(jì),對(duì)短視頻輿情進(jìn)行傳播趨勢(shì)分析和賬號(hào)類型分析等;第三部分,深層數(shù)據(jù)分析,主要功能包括對(duì)短視頻數(shù)據(jù)進(jìn)行語(yǔ)音識(shí)別、視頻分類、情感分析、主題識(shí)別。 具體研究框架如圖1所示。
圖1 突發(fā)事件短視頻輿情演化分析框架
依據(jù)研究框架,本文分三個(gè)部分對(duì)研究所采用的主要技術(shù)方法進(jìn)行介紹。
3.2.1 數(shù)據(jù)采集與處理
首先,采用Python編寫爬蟲代碼,調(diào)用抖音、快手、西瓜視頻等API,對(duì)預(yù)設(shè)時(shí)間段內(nèi)包含檢索關(guān)鍵詞的短視頻進(jìn)行爬取,生成數(shù)據(jù)列表,并存儲(chǔ)視頻文件。 其次,依據(jù)生成的數(shù)據(jù)列表,編寫爬蟲,繼續(xù)獲取短視頻屬性信息和用戶行為信息,包括博主粉絲數(shù)、視頻點(diǎn)贊量、回復(fù)數(shù)等。 最后,對(duì)數(shù)據(jù)列表和短視頻進(jìn)行核查,對(duì)其中的空值、重復(fù)值進(jìn)行處理,并確保列表數(shù)據(jù)與短視頻數(shù)據(jù)一一對(duì)應(yīng)。
對(duì)下載的短視頻數(shù)據(jù)集,利用開源軟件FFmpeg(http://ffmpeg.org/)進(jìn)行批量壓縮,以減少視頻數(shù)據(jù)占用的計(jì)算機(jī)存儲(chǔ)空間,便于后續(xù)智能化分析(視頻占用存儲(chǔ)空間越大,分析速度越慢)。
3.2.2 淺層數(shù)據(jù)分析
在淺層數(shù)據(jù)分析過(guò)程中,關(guān)鍵步驟是對(duì)短視頻輿情演化階段的劃分。 依據(jù)相關(guān)文獻(xiàn)[25],本文將突發(fā)事件劃分為四個(gè)階段,分別是起始階段、爆發(fā)階段、衰退階段和平息階段。 同時(shí),為了保證對(duì)不同樣本劃分的一致性,本文采用Fisher最優(yōu)分割算法[26]對(duì)短視頻輿情演化階段進(jìn)行劃分。 Fisher最優(yōu)分割算法是一種常用的有序數(shù)據(jù)樣本分割方法,通過(guò)分析有序數(shù)組內(nèi)的離差分布,獲得對(duì)有序數(shù)組的自適應(yīng)分割,是一種不破壞樣品順序的聚類方法。
3.2.3 深層數(shù)據(jù)分析
深層數(shù)據(jù)分析主要實(shí)現(xiàn)對(duì)視頻進(jìn)行分類、對(duì)視頻進(jìn)行情感分析、對(duì)視頻進(jìn)行主題分析。 主要技術(shù)方法介紹如下:
(1)視頻分類
首先,本文采用百度飛漿發(fā)布的大規(guī)模視頻分類預(yù)訓(xùn)練模型videotag_tsn_lstm 對(duì)短視頻數(shù)據(jù)集打標(biāo)簽。 該模型是一個(gè)基于千萬(wàn)短視頻預(yù)訓(xùn)練的視頻分類模型,可直接預(yù)測(cè)短視頻的中文標(biāo)簽。 主要步驟:一是數(shù)據(jù)處理,對(duì)需要分類的短視頻數(shù)據(jù)進(jìn)行解碼,然后將輸出的圖像幀序列輸入到videotag中進(jìn)行訓(xùn)練和預(yù)測(cè);二是圖像建模,先從訓(xùn)練數(shù)據(jù)中,對(duì)每個(gè)類別均勻采集少量樣本數(shù)據(jù),構(gòu)成訓(xùn)練樣本,然后使用TSN 網(wǎng)絡(luò)進(jìn)行訓(xùn)練[27],提取所有視頻幀的TSN模型分類層前一層的特征數(shù)據(jù)。 在這個(gè)過(guò)程中,每一幀都被轉(zhuǎn)化成相應(yīng)的特征向量,視頻被轉(zhuǎn)化成特征序列;三是序列學(xué)習(xí),采用Attclusters、LSTM 和Nextvlad對(duì)特征序列進(jìn)行建模,學(xué)習(xí)各特征之間的組合方式,進(jìn)一步提高模型的準(zhǔn)確率[28];四是預(yù)測(cè)結(jié)果,融合多個(gè)模型結(jié)果實(shí)現(xiàn)視頻分類。 模型基于短視頻場(chǎng)景中的大規(guī)模數(shù)據(jù)訓(xùn)練得到,分類準(zhǔn)確率達(dá)89.9%,具有良好的泛化能力,適用于多種短視頻中文標(biāo)簽分類場(chǎng)景[29]。 通過(guò)視頻分類,每條短視頻都將得到一組滿足預(yù)設(shè)閾值的視頻場(chǎng)景標(biāo)簽。
其次,獲得短視頻場(chǎng)景標(biāo)簽后,本文還借鑒TF-IDF算法的思想,將每條短視頻的標(biāo)簽集轉(zhuǎn)化為TF-IDF值,為后續(xù)標(biāo)簽聚類提供支持。 具體轉(zhuǎn)化方法如下:
其中(1)式為標(biāo)簽概率的計(jì)算方法,n i,j是場(chǎng)景標(biāo)簽在視頻文件dj中出現(xiàn)的概率值(由飛漿視頻分類模型得到),而分母則是所有視頻場(chǎng)景標(biāo)簽在視頻文件dj中出現(xiàn)的概率和(該概率和不為1,因?yàn)樵陲w漿視頻分類過(guò)程中,本文設(shè)置了概率值大于一定閾值的標(biāo)簽才會(huì)保留)。
完成短視頻TF-IDF值計(jì)算后,便可將處理好的數(shù)據(jù)集輸入K-Means聚類模型,將文檔標(biāo)簽集聚合為指定的簇?cái)?shù)。
由于短視頻自動(dòng)分類過(guò)程中只產(chǎn)生了標(biāo)簽集,對(duì)標(biāo)簽集聚類也只是將相似場(chǎng)景的視頻聚在一起,既不能判斷場(chǎng)景中人物的具體行為,也不能判斷場(chǎng)景所表達(dá)的內(nèi)容。 因此,在短視頻分類的最后階段,仍然需要人工介入,對(duì)每一類場(chǎng)景視頻進(jìn)行瀏覽,并對(duì)視頻具體類別進(jìn)行標(biāo)注,直至最終完成所有視頻分類工作。 具體標(biāo)注過(guò)程是由專家首先大致確定短視頻的類型,列出類型列表;然后,招募6名標(biāo)注員分2組對(duì)短視頻進(jìn)行標(biāo)注,每組由2名標(biāo)注員對(duì)短視頻內(nèi)容進(jìn)行瀏覽,判斷短視頻類型,并標(biāo)注類型標(biāo)簽;第3名標(biāo)注員負(fù)責(zé)校對(duì)前2 名標(biāo)注員的標(biāo)注結(jié)果,若出現(xiàn)不一致情況,則對(duì)結(jié)果進(jìn)行仲裁,以保證數(shù)據(jù)的一致性和準(zhǔn)確性,若出現(xiàn)3 人判斷均不一致的現(xiàn)象,就將短視頻發(fā)送專家,由專家研判是否需要?jiǎng)澐中碌念悺?短視頻分類流程如圖2所示。
圖2 短視頻分類流程圖
(2)視頻情感分析
短視頻情感包括標(biāo)題表達(dá)的情感、語(yǔ)音表達(dá)的情感和影像表達(dá)的情感三種類型,因此,在分析過(guò)程中,本文采用先分別測(cè)算各類情感,而后再匯總的方式進(jìn)行。 ①標(biāo)題表達(dá)的情感,本文采用棧式雙向LSTM 模型進(jìn)行情感分析,該模型可自動(dòng)判斷文本的情感極性類別并給出相應(yīng)的置信度,在百度數(shù)據(jù)集上測(cè)試分類準(zhǔn)確率為90%[30]。 ②語(yǔ)音表達(dá)的情感,本文采用科大訊飛API來(lái)實(shí)現(xiàn),該API基于深度全序列卷積神經(jīng)網(wǎng)絡(luò),可將音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),通用語(yǔ)音識(shí)別率達(dá)98%[31]。 通過(guò)語(yǔ)音轉(zhuǎn)文字后,本文再利用情感分析模型對(duì)語(yǔ)音文本進(jìn)行情感分析。 ③影像表達(dá)的情感,這是短視頻情感分析的重點(diǎn)也是難點(diǎn),由于技術(shù)的限制,本文采用人工標(biāo)注的方式進(jìn)行,該過(guò)程與視頻分類工作同步。由6名標(biāo)注員分別對(duì)短視頻進(jìn)行標(biāo)注,每組由2名標(biāo)注員對(duì)短視頻內(nèi)容進(jìn)行瀏覽,判斷情感傾向,并對(duì)短視頻標(biāo)注正面、負(fù)面、中立三類情感標(biāo)簽(值分別為1、0、0.5);第3名標(biāo)注員負(fù)責(zé)校對(duì)前2 名標(biāo)注員的標(biāo)注結(jié)果,若出現(xiàn)不一致情況,則對(duì)結(jié)果進(jìn)行仲裁,以保證數(shù)據(jù)的一致性和準(zhǔn)確性。
在獲得短視頻的標(biāo)題情感、語(yǔ)音情感和影像情感數(shù)據(jù)后,需要對(duì)情感值進(jìn)行融合。 考慮到會(huì)出現(xiàn)標(biāo)題情感與語(yǔ)音情感不一致、語(yǔ)音情感和影像情感不一致等現(xiàn)象,需要對(duì)各類情感賦權(quán),以保證短視頻所傳達(dá)的重要情感能夠準(zhǔn)確捕捉。 為此,本文選擇層次分析法來(lái)計(jì)算標(biāo)題情感、語(yǔ)音情感和影像情感的權(quán)重,最終各類情感權(quán)重分別為0.10、0.45、0.45。短視頻融合情感計(jì)算公式如下:
其中S i為融合情感得分,取值為0 到1區(qū)間,該值越接近于1情感越正面,越接近于0情感越負(fù)面。T i為標(biāo)題情感概率值得分,V i為語(yǔ)音情感概率值得分,P i為影像情感概率值得分。 最后,依據(jù)S i融合情感得分,對(duì)短視頻情感進(jìn)行分類,其中得分大于0.6 的判定為正面輿情、0.4—0.6 的判定為中立輿情、小于0.4 的判定為負(fù)面輿情。 另外,為了對(duì)情感進(jìn)行更細(xì)粒度劃分,本文還采用大連理工大學(xué)的情感詞匯本體庫(kù)[32](樂(lè)、好、怒、哀、懼、惡、驚),對(duì)短視頻標(biāo)題和音頻文本進(jìn)行了情緒類別分析。 視頻情感分析流程如圖3所示。
圖3 短視頻情感分析流程圖
(3)視頻主題分析
對(duì)短視頻輿情主題演化趨勢(shì)進(jìn)行分析,有助于刻畫突發(fā)事件輿情主題的演變過(guò)程,揭示危機(jī)發(fā)展的不同階段公眾的主要利益訴求及關(guān)注點(diǎn)。 本文采用LDA(Latent Dirichlet Allocation)模型對(duì)短視頻標(biāo)題和音頻文本主題進(jìn)行挖掘[33]。 LDA 模型采用了詞袋的方法,將每一篇文檔視為詞頻向量,從而將文本信息轉(zhuǎn)化為數(shù)字信息,最終構(gòu)成“文檔-主題分布”和“主題-詞分布”數(shù)據(jù)。一篇文檔隸屬于一個(gè)或多個(gè)主題,且文檔中的每個(gè)詞都有一定概率屬于某個(gè)主題,因此,LDA模型有助于挖掘大規(guī)模文檔中的潛在主題信息。
本文采用困惑度(perplexity)來(lái)確定最優(yōu)主題數(shù)量[34],困惑度常用來(lái)度量一個(gè)概率分布或概率模型預(yù)測(cè)樣本的優(yōu)劣程度。 理論上,困惑度值越小,主題模型的準(zhǔn)確度越高,但也存在主題數(shù)量越多值越小的情況,一般來(lái)說(shuō),困惑度值的拐點(diǎn)對(duì)應(yīng)的主題數(shù)為最佳主題數(shù)。 困惑度計(jì)算公式為:
其中,D表示文檔中所有詞的集合,M表示文檔的數(shù)量;W d表示文檔d中的詞;N d表示每個(gè)文檔中d的詞數(shù);P(w d)表示文檔中詞出現(xiàn)的概率。
另外,為了獲得主題的演化規(guī)律,本文在得到主題數(shù)后,還會(huì)將文檔-主題分布數(shù)據(jù)按分析時(shí)間段進(jìn)行計(jì)算,獲得每個(gè)主題在連續(xù)的時(shí)間窗口內(nèi)的分布強(qiáng)度,依據(jù)不同時(shí)間窗口內(nèi)主題強(qiáng)度的變化情況,分析視頻主題的演化過(guò)程。
2021年7月鄭州遭遇罕見特大暴雨,共造成292人遇難,47 人失蹤,據(jù)中央氣象臺(tái)監(jiān)測(cè)數(shù)據(jù)顯示,7 月19 日鄭州單日降雨量突破歷史極值(氣象站建站以來(lái))[35]。 2021年7月19日21時(shí)59分,鄭州氣象局發(fā)布暴雨紅色預(yù)警信號(hào),次日上午又連續(xù)簽發(fā)三次暴雨紅色預(yù)警信號(hào),20日,“河南大雨”“鄭州地鐵4號(hào)線成水簾洞”等多個(gè)鄭州暴雨話題登上各大短視頻平臺(tái)熱搜榜,引發(fā)3032.33萬(wàn)次網(wǎng)絡(luò)討論[36]。 因此,本文選取鄭州特大暴雨事件作為典型案例進(jìn)行研究。
本研究的短視頻數(shù)據(jù)集,來(lái)自抖音、快手、西瓜、今日頭條等短視頻平臺(tái)。 采集關(guān)鍵字為“鄭州暴雨”,采集時(shí)間為2021 年7月19日至2021年8月3日。 通過(guò)對(duì)采集數(shù)據(jù)進(jìn)行排重、空值處理后,共保留有效短視頻數(shù)據(jù)1102條,經(jīng)壓縮后視頻文件共5G。 數(shù)據(jù)內(nèi)容包含短視頻文件、短視頻大小、短視頻時(shí)長(zhǎng)、短視頻點(diǎn)贊量、短視頻評(píng)論量、發(fā)布時(shí)間、博主類型、標(biāo)題、作者等。 另外,為了考察災(zāi)害程度與短視頻發(fā)布量的關(guān)系,本文還收集了同期鄭州市每日降雨量數(shù)據(jù)。
對(duì)2021 年7 月19 日至2021 年8 月3日,短視頻平臺(tái)發(fā)布的視頻數(shù)量、正面視頻數(shù)量、負(fù)面視頻數(shù)量、中立視頻數(shù)量、點(diǎn)贊量、評(píng)論量、降雨量進(jìn)行時(shí)序分析,如圖4所示??紤]到該案例持續(xù)時(shí)間相對(duì)較短,為了更細(xì)致展示短視頻輿情傳播的趨勢(shì),本文將時(shí)間軸進(jìn)一步劃分為上午(0 點(diǎn)—12 點(diǎn))、下午(13點(diǎn)—24點(diǎn))。
由圖4 可見,短視頻輿情發(fā)布具有很強(qiáng)的時(shí)間特征,即下午發(fā)布的視頻數(shù)量明顯比上午發(fā)布的視頻數(shù)量要多。 輿情數(shù)據(jù)在上下午之間呈現(xiàn)波浪起伏狀。 同時(shí),短視頻輿情發(fā)布數(shù)量也與災(zāi)害嚴(yán)重程度相關(guān),災(zāi)害最嚴(yán)重時(shí)(降雨量最大的時(shí)間段),也即是短視頻發(fā)布的最高峰,相應(yīng)地,此時(shí)負(fù)面輿情數(shù)量、視頻點(diǎn)贊、回復(fù)數(shù)量也最多,甚至,短視頻發(fā)布量的上下午起伏波動(dòng)幅度在此時(shí)也最小,側(cè)面說(shuō)明災(zāi)情相對(duì)嚴(yán)重,影響到了公眾正常的生活,促使其向平臺(tái)發(fā)布更多的信息,以獲取更大關(guān)注。 隨著救援工作的展開和災(zāi)害的緩解,正面輿情迅速上升,并成為主流。
圖4 鄭州特大暴雨短視頻輿情總體傳播趨勢(shì)圖
(1)賬號(hào)類型分布特征
依據(jù)短視頻博主賬號(hào)所屬機(jī)構(gòu)的不同,本文將博主賬號(hào)分為中央媒體、地方媒體、政務(wù)媒體、自媒體(企業(yè))、自媒體(個(gè)人)五類賬號(hào)。 同時(shí),考慮到不同賬號(hào)的影響力,本文還按照賬號(hào)粉絲數(shù)將其劃分為有少許影響力的賬號(hào)、有一定影響力的賬號(hào)、有較大影響力的賬號(hào)和有重要影響力的賬號(hào)四類,劃分方法為對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),取所有賬號(hào)粉絲數(shù)4分位數(shù),即104、1210、11000,將其劃分為4個(gè)數(shù)據(jù)段,每一數(shù)據(jù)段對(duì)應(yīng)一類賬號(hào),如0—104粉絲量的賬號(hào)為有少許影響力的賬號(hào),105—1210粉絲量的賬號(hào)為有一定影響力的賬號(hào),依此類推,得到各類賬號(hào)影響力分類。
從數(shù)量上看,中央媒體占總數(shù)7%、地方媒體占總數(shù)13%、政務(wù)媒體占總數(shù)7%、自媒體(含企業(yè)和個(gè)人)占總數(shù)73%;從影響力分布看,占比并不高的中央媒體、地方媒體和政務(wù)媒體(共占總數(shù)27%)卻有很強(qiáng)的影響力,三類賬號(hào)中屬于“有重要影響力”的賬號(hào)占比達(dá)95.20%,自媒體賬號(hào)(含企業(yè)和個(gè)人)雖數(shù)量眾多,但“有重要影響力”的賬號(hào)只占4.80%(“賬號(hào)類型分布特征圖”見:https://docs.qq.com/doc/DY2ZVSFBYaXNZ Q3BW)。
(2)賬號(hào)類型變化趨勢(shì)分析
依據(jù)3.2 節(jié)輿情演化階段劃分方法,采用Fisher最優(yōu)分割算法對(duì)每日短視頻輿情數(shù)據(jù)進(jìn)行聚類,將其劃分為四個(gè)階段,分別為起始階段(7月19日下午至20日下午)、爆發(fā)階段(21 日上午至22 日上午)、衰退階段(22日下午至26日上午)、平息階段(26日下午至8月3日下午)。 各類型賬號(hào)在各演化階段分布見圖5。
由圖5 可見,在鄭州特大暴雨事件的起始階段,參與視頻發(fā)布的賬號(hào)主要為自媒體(個(gè)人),及地方媒體,他們發(fā)布了該階段83.62%的視頻。 這一方面,是因?yàn)檫@類賬號(hào)距離災(zāi)害發(fā)生地近,對(duì)災(zāi)害天然敏感;另一方面,相對(duì)于其他類型賬號(hào),他們視頻的制作及發(fā)布流程相對(duì)簡(jiǎn)單。 在爆發(fā)階段,中央媒體、地方媒體和政務(wù)媒體顯著發(fā)力,他們發(fā)布視頻的比重明顯增多,起到了重要的輿論監(jiān)督和引導(dǎo)作用。 在衰退和平息階段,災(zāi)害基本得到緩解,中央媒體的職能已在前期階段發(fā)揮,快速退場(chǎng),視頻發(fā)布主要由自媒體(個(gè)人)和地方媒體主導(dǎo)。
圖5 賬號(hào)類型變化趨勢(shì)分析圖
(1)視頻時(shí)長(zhǎng)分布及變化趨勢(shì)分析
對(duì)短視頻播放時(shí)長(zhǎng)進(jìn)行統(tǒng)計(jì),將其劃分為四類,分別為小于30秒(911條)、大于30秒小于1分鐘(116 條)、大于1 分鐘小于2分鐘(54 條)、大于2 分鐘(21 條)。 四類不同播放時(shí)長(zhǎng)的短視頻,在不同演化階段的分布具有如下特征,即在災(zāi)害的起始階段,由于事態(tài)的緊急性和突發(fā)性,為了快速向外界傳遞危機(jī)信息,視頻以30秒以下的小微視頻為主。 在爆發(fā)階段和衰退階段,隨著災(zāi)害的不斷發(fā)展,一些先進(jìn)事跡、典型案例開始涌現(xiàn),一些以記敘為主的短視頻開始增多,短視頻的時(shí)長(zhǎng)也相對(duì)增長(zhǎng),在平息階段,災(zāi)害得到妥善處置,各類短視頻迅速減少(“短視頻時(shí)長(zhǎng)分布及變化趨勢(shì)圖”見:https://docs.qq.com/doc/DY2ZVSFBYaXNZQ3BW)。
(2)視頻畫面分布及變化趨勢(shì)分析
依據(jù)3.2 節(jié)自動(dòng)分類方法,設(shè)置分類閾值為0.1,對(duì)各條短視頻中出現(xiàn)的場(chǎng)景打標(biāo)簽,形成短視頻標(biāo)簽集。 對(duì)集合中的場(chǎng)景標(biāo)簽進(jìn)行分階段統(tǒng)計(jì),將各階段排名前10的標(biāo)簽列表展示,如表1所示。
由表1可見,在起始階段(該階段視頻總量為232條),短視頻輿情發(fā)布了大量的洪災(zāi)場(chǎng)景,如雨、內(nèi)澇、洪水等,并且標(biāo)簽集中度非常高,大量視頻都被標(biāo)注在少部分標(biāo)簽,從側(cè)面說(shuō)明了,災(zāi)害嚴(yán)重程度較大。 在爆發(fā)階段(該階段視頻總量為422條),標(biāo)簽有了顯著的變化,集中度變低,視頻內(nèi)容開始分化。但是從標(biāo)簽名稱來(lái)看,主要反映的還是災(zāi)害場(chǎng)景。 在衰退階段(該階段視頻總量為327條),標(biāo)簽集中度進(jìn)一步降低,內(nèi)容開始多元。 在平息階段(該階段視頻總量為121條),災(zāi)害場(chǎng)景標(biāo)簽稀少,娛樂(lè)化場(chǎng)景增多。
表1 視頻畫面標(biāo)簽分布及變化趨勢(shì)表
(3)視頻類型分布及變化趨勢(shì)分析
依據(jù)3.2 節(jié)短視頻內(nèi)容分類方法,對(duì)短視頻數(shù)據(jù)進(jìn)行分類,各類視頻各演化階段分布情況及變化趨勢(shì)如圖6所示。
由圖6可見,與標(biāo)簽分類一致,在起始階段,大量賬號(hào)發(fā)布了受災(zāi)情況的視頻,如城市內(nèi)澇、洪水淹沒(méi)房屋、車輛、行人被困街道、地鐵等。 在爆發(fā)階段,除了受災(zāi)情況視頻,應(yīng)急救援和贊揚(yáng)祈福的視頻也占了相當(dāng)比重,如部隊(duì)、警察、消防員對(duì)受災(zāi)群眾的救援、受災(zāi)者互助自救、對(duì)救援人員及公民勇于擔(dān)當(dāng)、不懼艱險(xiǎn)行為的贊許,以及為災(zāi)區(qū)人民祈福、保佑平安等。 在衰退階段,災(zāi)后重建和個(gè)人感悟類視頻明顯增多,如大雨過(guò)后人們?cè)诔鞘兄写┬?、社?huì)秩序恢復(fù),以及個(gè)人對(duì)災(zāi)難的感悟、思考等。 該階段視頻內(nèi)容開始分化,其他類視頻明顯增多。 在平息階段,災(zāi)后重建和對(duì)逝者的哀悼成為主旋律,如新聞報(bào)道遇難者信息等。 總的來(lái)看,隨著突發(fā)事件的不斷演進(jìn),短視頻輿情類型也逐漸從單一轉(zhuǎn)向多元。
圖6 視頻類型分布及變化趨勢(shì)分析
短視頻輿情類型分布及變化趨勢(shì)分析,在一定程度上揭示了輿情內(nèi)容的變化特點(diǎn),但若要探尋突發(fā)事件中公眾關(guān)注的焦點(diǎn)及情緒變化狀態(tài),以便有針對(duì)性地開展輿情處置和引導(dǎo)工作,仍需要從更細(xì)粒度層面對(duì)數(shù)據(jù)進(jìn)行挖掘。 為此,本節(jié)運(yùn)用3.2節(jié)介紹的短視頻主題分析方法,對(duì)各類情感傾向的短視頻文本進(jìn)行挖掘,從而刻畫不同類別輿情情感主題演化過(guò)程。
(1)正面情感主題演化分析
利用LDA模型對(duì)短視頻正面情感輿情進(jìn)行主題挖掘,得到四個(gè)主題,各主題意義及演化趨勢(shì)如圖7和表2所示。 其中參與正面輿情主題挖掘的視頻數(shù)為506篇,表2中視頻數(shù)代表該主題分布概率大于0.5的數(shù)據(jù)數(shù)量。
由圖7和表2可見,正面情感主題主要集中于爆發(fā)階段,討論內(nèi)容與視頻分類結(jié)果有一定的重疊,如對(duì)互助行為的贊許和給災(zāi)區(qū)人民加油,而LDA 還挖掘出了一些典型話題,這在視頻分類中是很難單獨(dú)描述的,如消防人員救援困在鄭州地鐵中的群眾。 正面主題發(fā)布時(shí)間主要集中于輿情爆發(fā)階段,該階段災(zāi)害已有所緩解(降雨量數(shù)據(jù)呈下降趨勢(shì)),情緒表達(dá)以“好”“樂(lè)”為主,相關(guān)主題輿論場(chǎng)正能量充盈。
表2 正面情感輿情主題
圖7 正面情感各主題演化趨勢(shì)
(2)負(fù)面情感主題演化分析
與正面情感主題分析方法一樣,對(duì)負(fù)面情感主題進(jìn)行挖掘,得到六個(gè)主題,各主題意義及演化趨勢(shì)如圖8和表3所示,其中,參與負(fù)面輿情主題挖掘的視頻數(shù)為456個(gè)。
由圖8和表3可見,負(fù)面情感主題大部分集中爆發(fā)于起始階段,后續(xù)階段隨著一些災(zāi)害衍生事件的發(fā)生也會(huì)出現(xiàn)小幅波峰,如受大雨影響居民的正常生活被打亂,對(duì)災(zāi)后城市一片狼藉的感慨等。 總的來(lái)看,在鄭州暴雨事件中,公眾關(guān)注的焦點(diǎn)主要集中在災(zāi)害嚴(yán)重程度(如城市內(nèi)澇程度)及災(zāi)害造成的衍生焦點(diǎn)事件上(如群眾被困地鐵)。 同時(shí),負(fù)面輿情爆發(fā)的時(shí)間點(diǎn)相對(duì)集中,即降雨量最大時(shí)段,該階段災(zāi)害造成的影響呈并發(fā)態(tài)勢(shì),是救援的真空期,此時(shí),危機(jī)信息尚未匯總,災(zāi)害情況不斷發(fā)生,相關(guān)災(zāi)情態(tài)勢(shì)尚不明朗,情感相對(duì)負(fù)面,視頻中表達(dá)“怒”“懼”“惡”等情緒占有一定比重。
圖8 負(fù)面情感各主題演化趨勢(shì)
表3 負(fù)面情感輿情主題
(3)中立情感主題演化分析
與上述分析方法一樣,對(duì)中立情感主題視頻數(shù)據(jù)共140條進(jìn)行挖掘,得到兩個(gè)主題,各主題意義及演化趨勢(shì)如圖9和表4所示。
由圖9和表4可見,中立主題主要集中在災(zāi)情爆發(fā)階段和衰退階段,主要為自救知識(shí)宣傳和衛(wèi)生知識(shí)宣傳。 從主題情緒分布來(lái)看,短視頻情緒表達(dá)比較正面,以“好”“樂(lè)”兩類為主。
表4 中立情感輿情主題
圖9 中立情感各主題演化趨勢(shì)
從“鄭州特大暴雨事件”短視頻輿情演化分析中發(fā)現(xiàn),隨著時(shí)間的推移,短視頻內(nèi)容具有明顯的變化。 在危機(jī)初期,短視頻主要反應(yīng)的是現(xiàn)場(chǎng)災(zāi)害實(shí)況,內(nèi)容相對(duì)聚焦,視頻的點(diǎn)贊量、回復(fù)數(shù)也最多,集聚了大量網(wǎng)民關(guān)注;隨著危機(jī)發(fā)展,內(nèi)容開始分化,實(shí)況視頻開始減少,救災(zāi)事跡、加油鼓勁的視頻開始涌現(xiàn);最后危機(jī)消退,內(nèi)容進(jìn)一步分化,娛樂(lè)化、反思式的內(nèi)容開始增多。 同時(shí),從視頻發(fā)布的數(shù)量來(lái)看,上午發(fā)布的視頻數(shù)明顯比下午發(fā)布的視頻數(shù)要少。
針對(duì)以上情況,本研究認(rèn)為,依據(jù)突發(fā)事件短視頻輿情內(nèi)容演化特征,管理部門可根據(jù)不同類型短視頻的發(fā)布數(shù)量,來(lái)評(píng)估災(zāi)情所處的階段、受災(zāi)范圍及嚴(yán)重程度,并且還可通過(guò)短視頻內(nèi)容的集中度來(lái)間接測(cè)度災(zāi)后恢復(fù)水平。 另外,短視頻發(fā)布數(shù)量的時(shí)間趨勢(shì)也可作為預(yù)判危機(jī)的一個(gè)重要參考,如短期內(nèi)相關(guān)信息迅速爆發(fā)、違反發(fā)布時(shí)間規(guī)律等,出現(xiàn)上述情況則需要警惕事故的嚴(yán)重性。
從“鄭州特大暴雨事件”短視頻信息來(lái)源看,大量短視頻來(lái)自于自媒體創(chuàng)作,在危機(jī)事件中,自媒體賬號(hào)占到賬號(hào)總數(shù)的73%,且在演化的不同階段,賬號(hào)分布比例具有顯著差異。 在危機(jī)初期,短視頻信息主要來(lái)自自媒體,在危機(jī)全面爆發(fā)階段,主流媒體賬號(hào)開始大量介入報(bào)道,賬號(hào)占比顯著增多,待事態(tài)平息后,自媒體賬號(hào)再次成為主要信息來(lái)源。
自媒體賬號(hào)具有主觀性、業(yè)余性、片面化等特點(diǎn),危機(jī)初期大量自媒體賬號(hào)在網(wǎng)絡(luò)中發(fā)布短視頻,易產(chǎn)生信息迷霧,進(jìn)而為謠言和虛假信息提供溫床。 因此,危機(jī)爆發(fā)后,一方面,主流媒體應(yīng)第一時(shí)間跟進(jìn)事態(tài),發(fā)布權(quán)威信息;另一方面,管理部門還應(yīng)積極與短視頻平臺(tái)合作,在特殊時(shí)段,降低自媒體賬號(hào)信息推送權(quán)重,減緩非權(quán)威信息的擴(kuò)散速度和擴(kuò)散范圍,保障輿論場(chǎng)整體信息質(zhì)量。
對(duì)“鄭州特大暴雨事件”短視頻輿情情感特征演化過(guò)程進(jìn)行分析發(fā)現(xiàn),在危機(jī)初期,夾帶負(fù)面情緒的短視頻較多,這些視頻主題以播報(bào)災(zāi)害情況為主,情緒中包含較多的“懼”“惡”“怒”等特征詞。 危機(jī)全面爆發(fā)后,應(yīng)急部門和主流媒體大量介入,短視頻中的正能量明顯增多,“好”“樂(lè)”兩類情緒表達(dá)更頻繁。 總體來(lái)看,在整個(gè)突發(fā)事件短視頻輿情演化過(guò)程中,正面情感一直都是輿論場(chǎng)中的主流基調(diào)。
突發(fā)自然災(zāi)害事件發(fā)生后,由于事態(tài)的突發(fā)性、緊急性、不可控性等原因,易導(dǎo)致群體認(rèn)知失調(diào),造成社會(huì)情緒的應(yīng)急反應(yīng),即出現(xiàn)普遍的恐慌、焦慮、緊張等情緒。 此時(shí),若短視頻中表達(dá)的情緒相對(duì)負(fù)面,便會(huì)進(jìn)一步強(qiáng)化這類負(fù)面情緒,引起情緒極化,造成社會(huì)恐慌。 為此,在突發(fā)事件發(fā)生后,管理部門應(yīng)密切關(guān)注短視頻輿情情緒波動(dòng)情況,及時(shí)干預(yù),減緩不良情緒帶來(lái)的負(fù)面影響。
在理論層面,本研究提出了一個(gè)包含數(shù)據(jù)采集與處理、淺層數(shù)據(jù)分析、深層數(shù)據(jù)分析的突發(fā)事件短視頻輿情演化的分析模型,該模型融合了多種信息處理技術(shù),如視頻壓縮、視頻分類、音頻分析、情感分析、主題發(fā)現(xiàn)等,能有效刻畫短視頻情境下突發(fā)事件輿情的演化過(guò)程,把握輿情發(fā)展態(tài)勢(shì)。 同時(shí),本研究還揭示了一些短視頻情境下輿情的獨(dú)有特征,如不同類型賬號(hào)在不同危機(jī)階段發(fā)布內(nèi)容的頻次、主題差異,以及不同時(shí)間段短視頻數(shù)量的變化趨勢(shì)等。
在實(shí)踐層面,本文提出的演化分析模型為相關(guān)部門提供了一套可操作的短視頻輿情分析方法,為研判危機(jī)發(fā)展態(tài)勢(shì),了解公眾訴求,開展救援工作提供了方法論上的支持。同時(shí),通過(guò)對(duì)危機(jī)發(fā)展不同階段,短視頻輿情賬號(hào)類型、主題內(nèi)容和情緒變化的分析,有助于管理部門復(fù)盤突發(fā)事件輿情演化的過(guò)程,評(píng)估引導(dǎo)效果,為發(fā)現(xiàn)管理癥結(jié)、優(yōu)化引導(dǎo)策略提供支持。
研究過(guò)程中,本研究仍有一些局限,首先,在視頻分類上,機(jī)器分類尚不能完全取代人工,一些場(chǎng)景、歌曲、行為給人帶來(lái)的氛圍感目前機(jī)器分類還難以識(shí)別;其次,由于短視頻由標(biāo)題、音頻和影像組成,因此,情感判斷就需要融合三種模態(tài)的信息,而本文采用的融合方式相對(duì)簡(jiǎn)單,對(duì)于一些特異性情感表達(dá)把握不準(zhǔn),如語(yǔ)音表達(dá)的是正面情緒,背景影像卻是負(fù)面的,這對(duì)于自動(dòng)化情緒識(shí)別就會(huì)造成干擾。 如何采取更高效、準(zhǔn)確的方法來(lái)對(duì)短視頻情緒進(jìn)行分析,是未來(lái)的重要方向。