■ 劉麗群 劉麗華
近年來,伴隨著信息通信技術(shù)、數(shù)據(jù)存儲技術(shù)、計算技術(shù)的發(fā)展,“大數(shù)據(jù)”的相關(guān)話題逐漸進入人們的視野,并成為流行詞匯在社會上激發(fā)了廣泛的討論。通俗地看,大數(shù)據(jù)就是把人們在日常生活中創(chuàng)造出來的各種各樣的數(shù)據(jù)收集起來,根據(jù)一定的應(yīng)用目的通過科學(xué)的算法進行分析。目前,大數(shù)據(jù)在底層技術(shù)、基礎(chǔ)設(shè)施和應(yīng)用形式三個層面已經(jīng)形成了較為成熟的體系,各行各業(yè)都積累了海量的數(shù)據(jù),數(shù)據(jù)也成為當(dāng)前社會重要的生產(chǎn)資料。不過與此同時,人們也開始意識到,大數(shù)據(jù)發(fā)展的關(guān)鍵不在于擁有多少數(shù)據(jù),而在于如何發(fā)展出相應(yīng)的科學(xué)模型分析應(yīng)用這些數(shù)據(jù)。在對全社會進行大數(shù)據(jù)理念科普之后,實踐中對于大數(shù)據(jù)愿景的落實卻不盡如人意,如何結(jié)合實際問題推進大數(shù)據(jù)應(yīng)用能力和分析水平成為當(dāng)前亟須解決的重要問題。
自然災(zāi)害微博輿情分析是建立在自然災(zāi)害危機應(yīng)對具體情境下的大數(shù)據(jù)方法應(yīng)用問題。當(dāng)前自然災(zāi)害中,來自各個方面的輿情信息流匯聚在以微博為主的社交媒體平臺,使得這些平臺成為獲取和評估輿情的重要渠道。隨著社交媒體的持續(xù)發(fā)展,利用大數(shù)據(jù)分析社會輿情、社會態(tài)勢與社會生態(tài)系統(tǒng)成為共識①,大數(shù)據(jù)成為輿情研究關(guān)鍵技術(shù)的支撐和核心概念②。當(dāng)前網(wǎng)絡(luò)輿情研究的創(chuàng)新來自于社交媒體的發(fā)展和大數(shù)據(jù)的推動,在海量數(shù)據(jù)面前,傳統(tǒng)的輿情研究方法顯然已經(jīng)無能為力,這就需要繼續(xù)解決如何高效準(zhǔn)確地對網(wǎng)絡(luò)輿情進行分析的問題。
大數(shù)據(jù)紛繁雜亂,對于自然災(zāi)害微博輿情內(nèi)容的分析多種多樣,然而網(wǎng)絡(luò)輿情分析是應(yīng)用導(dǎo)向的研究,其目的最終指向都是促進相關(guān)機構(gòu)的科學(xué)決策和有效溝通,缺乏統(tǒng)一規(guī)范的可操作方案將不利于大數(shù)據(jù)應(yīng)用能力和分析水平的提升。
因此,本文在社會計算視角的指導(dǎo)下,以自然語言處理技術(shù)為基礎(chǔ),將情感分析和主題建模兩個維度結(jié)合起來,建構(gòu)自然災(zāi)害微博輿情分析的社會計算模型,并選取“江蘇鹽城623龍卷風(fēng)災(zāi)害”為案例對該模型進行了應(yīng)用,為大數(shù)據(jù)背景下自然災(zāi)害微博輿情分析的標(biāo)準(zhǔn)化、操作化提供借鑒。
輿情研究最初采納的方法就是民意調(diào)查,調(diào)查者針對特定事件或議題設(shè)計相關(guān)的調(diào)查問卷,根據(jù)人口統(tǒng)計學(xué)特征對受訪者進行抽樣,通過郵寄、面談、電話、網(wǎng)絡(luò)等方式收集數(shù)據(jù),較為著名的有蓋洛普民意測驗(Gallup Poll)。這類調(diào)查主要有三方面缺陷,一是調(diào)查者的問題,問卷設(shè)計不夠科學(xué),問項可能隱含某種導(dǎo)向性;二是受訪者的問題,受訪者出于自身主觀原因在隱瞞想法,未如實填寫問卷;三是大規(guī)模民意調(diào)查耗資不菲。隨著互聯(lián)網(wǎng)的興起,人們漸漸習(xí)慣于在網(wǎng)絡(luò)媒體上發(fā)表自己的情緒、態(tài)度和意見等,特別是在論壇、博客、微博等社交媒體上聚集了大量的輿情信息。傳統(tǒng)的網(wǎng)絡(luò)輿情研究以提供決策支持為目標(biāo),遵循確定選題、輿情抽樣、統(tǒng)計分析、寫作報告等步驟進行運作,在分析方法上以內(nèi)容分析法為主,這種以人工分析為主的分析模式呈現(xiàn)出片面和靜態(tài)的特點,難以及時應(yīng)對變幻莫測、快速發(fā)展的網(wǎng)絡(luò)輿情,而大數(shù)據(jù)的發(fā)展帶來的社會計算理念則為解決此類問題提供了一個新的思路。
國內(nèi)最早關(guān)注到社會計算的學(xué)者王飛躍認為,社會計算是面向社會活動、社會過程、社會結(jié)構(gòu)、社會組織和社會功能的計算理論和方法③。而孟小峰等則認為,社會計算蘊含著理論和方法論兩層,是指使用系統(tǒng)科學(xué)、人工智能、數(shù)據(jù)挖掘等科學(xué)計算理論作為研究方法,結(jié)合社會科學(xué)理論和計算理論,來解決復(fù)雜性社會問題④。
社會計算研究視角被引入到網(wǎng)絡(luò)輿情研究中,最初幫助研究者認識到了新的網(wǎng)絡(luò)傳播現(xiàn)象(如新媒體社會群體特征研究、突發(fā)時間的階段研究、群體復(fù)雜互動關(guān)系研究⑤),隨著研究的深入,研究者深入現(xiàn)象背后的輿情產(chǎn)生及擴散機制,對相關(guān)因素關(guān)系進行論證,也可以利用大數(shù)據(jù)進行更為準(zhǔn)確和更具普遍性的研究,社會計算方法推動了輿情研究的系統(tǒng)化與科學(xué)化。
社會計算對于網(wǎng)絡(luò)輿情研究的貢獻在于,前者為后者提供了新的研究視角,并創(chuàng)新了新的輿情信息搜集和分析方法,社會計算指導(dǎo)下的網(wǎng)絡(luò)輿情研究模型也更易于在實踐中被接受。
不同種類的社交媒體,有著不同的運營邏輯,在具體的研究中籠統(tǒng)地使用社交媒體的概念并不可取,需要根據(jù)研究目標(biāo)個別地篩選特定的社交媒體來研究。就中國自然災(zāi)害的實踐來看,一方面,微博對于自然災(zāi)害中的信息傳播有著不可替代的作用,微博已經(jīng)成為自然災(zāi)害事件中的信息匯集地;另一方面,在眾多社交媒體的激烈競爭中,微博的媒體屬性一直是其最突出的特點。微博在兩方面滿足了用戶對媒體內(nèi)容的需求,一方面是作為剛需的新聞資訊,另一方面則是提供了比較多元的看待資訊的視角⑥。
突發(fā)的自然災(zāi)害事件往往因其影響重大而短時間內(nèi)集聚了全社會的注意力,在微博平臺上會呈現(xiàn)出相關(guān)內(nèi)容的大爆發(fā),形成體量龐大、復(fù)雜多樣的大數(shù)據(jù),由此構(gòu)成了豐富的輿情分析語料,在社會計算研究視角下,就需要通過數(shù)據(jù)驅(qū)動的內(nèi)容分析技術(shù)來發(fā)現(xiàn)語料中的情感及主題。以微博為代表的社交平臺為用戶提供了豐富的表達,特別是在自然災(zāi)害這一特殊的情景下,人們發(fā)布的微博往往包含了情感和觀點,這些是構(gòu)成微博輿情的主要方面,在文獻中的微博輿情分析中主要體現(xiàn)為傾向性分析和聚類分析。
在傾向性分析的研究中,主要研究取向分為兩類,一類是從語義即自然語言的意義角度進行研究,另一類則是是從機器學(xué)習(xí)的角度進行研究。如O’Connor 等采用情感分析技術(shù),從海量微博文本中獲取了網(wǎng)民對重大事件的立場,這就是遵循語義方法的研究⑦。機器學(xué)習(xí)研究實例則會基于情感記號的情感詞典構(gòu)造與情感分析方法來應(yīng)對微博文本長度短、內(nèi)容多樣性強、表達形式自由、語言較不規(guī)范等分析難點⑧。
聚類分析方法可以對微博輿情進行話題識別。利用話題檢測技術(shù)將微博文本信息按照話題進行歸類組織,便于在動態(tài)變化的信息環(huán)境下高效獲取個性信息或熱點話題。謝思發(fā)等借助Hadoop平臺在大數(shù)據(jù)挖掘方面的優(yōu)勢,挖掘微博中熱點詞的分布式算法,以提取熱點詞組織熱點事件并以Twitter和新浪微博上的數(shù)據(jù)集作為測試樣本進行試驗⑨。馬彬等則針對微博文本短、半結(jié)構(gòu)、上下文信息豐富等特點,嘗試用基于線索樹的雙層聚類的話題檢測方法,對垃圾微博進行過濾,他們的實驗結(jié)果表明該方法有助于解決數(shù)據(jù)稀疏的問題⑩。
結(jié)合自然語言處理技術(shù),用于探索微博輿情情感及主題的傾向性分析和聚類分析的主要技術(shù)有情感分析和主題建模的方法。
1.微博輿情情感分析
情感分析(Sentiment analysis)是自然語言處理范圍下逐漸發(fā)展出的一個細分區(qū)域,最初產(chǎn)生于20世紀(jì)90年代,是在文檔分類、語言極性測量的基礎(chǔ)上進一步進行內(nèi)容情緒表達的解析。隨著網(wǎng)絡(luò)尤其是Twitter、微博等社交媒體的出現(xiàn)和日益普及,豐富的交流在線平臺為內(nèi)涵更豐富的語言表達提供了可能,網(wǎng)絡(luò)上的信息文本包含了大量觀點和情感,繼續(xù)使用傳統(tǒng)的針對主題等分析方法是對這類情緒性、傾向性信息的浪費,情感分析的相關(guān)研究順應(yīng)而生并漸成熱門。
情感分析試圖對文本中的意見和情緒文本進行識別,主要是完成意見情緒等主觀性內(nèi)容的挖掘、分析,是一個情感計算的過程。理想的情緒分析工具應(yīng)當(dāng)能夠“為給定項目處理一組搜索結(jié)果,生成產(chǎn)品屬性(質(zhì)量、特性等)列表并聚合意見”。通過對文本內(nèi)容的情感分析,能夠確定內(nèi)容的積極、消極屬性以及識別其中有關(guān)情緒和評價表達。目前大部分研究對情感分析采取二元(正向和負向)或三元(正面、負面、中性)進行分類。
情感分析的方法依照采取的常用分析手段可以分為兩類,一種是基于機器的學(xué)習(xí)算法,另一種是基于情感辭典的分析方法。
基于機器的學(xué)習(xí)算法,是涉及到整個文檔情感的系統(tǒng)研究?;舅悸钒ǚ治鰧ο笪谋緝?nèi)容,并以此選擇合適的情感傾向特征標(biāo)注集進行訓(xùn)練和測試,是一種自動化情感分析方法,同時可以通過自動收集合適的訓(xùn)練數(shù)據(jù)進行數(shù)據(jù)集擴充。隨著在線表達形式的多樣化,新形式的數(shù)據(jù)集也開始出現(xiàn),一些研究員開始收集分析表情符號、標(biāo)簽等來定義相應(yīng)的訓(xùn)練數(shù)據(jù)。
基于情感辭典的分析方法則是一種通過語義分析提取關(guān)鍵詞的方法,通過對上下文語義傾向性進行分析,對已有標(biāo)記的文本、句子內(nèi)容構(gòu)建分類器,手動創(chuàng)建對應(yīng)單詞帶有語義方向、極性、強度注釋的情感詞典。根據(jù)詞典選取對象的不同可以將分為不同詞典。如Taboada等在研究中提取名詞、動詞、副詞、形容詞進行詞典構(gòu)建,進行內(nèi)容文本的極性二元分類,分析電影評論中的對該電影公司的情感傾向性。
2.微博輿情主題建模
主題建模(Topic model)是概率模型的一種,可用于在大規(guī)模文本或語料庫中抽取抽象主題信息,其本質(zhì)是一種快速的非監(jiān)督機器學(xué)習(xí)算法,通過對文本或語料庫中詞的分布規(guī)律的觀察實現(xiàn)對相似分布規(guī)律詞集的聚類,發(fā)現(xiàn)文本內(nèi)隱含的主題及主題間的關(guān)聯(lián)變化等。這一方法最早可追溯至潛在語義索引方法,該方法通過奇異值分解得到文本主題,但是由于存在計算耗時、不能解決文本一詞多義等問題,之后Thomas Hofmann對其進行了改進并提出了PLSA概率模型,Blei等人則在PLSA的基礎(chǔ)上加入Dirichlet先驗分布提出了基于“文本-主題-單詞”3層貝葉斯模型的LDA模型,這也是“主題建?!边@一概念第一次被正式的提出。
曾嘉等人對國內(nèi)外主題建模的方法進行了綜述并指出當(dāng)前主題建模的方法包括LDA(latent Dirichlet allocation,即隱含狄利克雷分布)主題模型、動態(tài)主題模型、二階和高階關(guān)系主題模型、多通路主題模型、分布式主題模型等多種方法。其中,LDA是主題建模中最為基礎(chǔ)的主題模型,且具有較好的模型擴展能力,是主題建模中最為常用的方法之一,被學(xué)者用于微博話題特征抽取、網(wǎng)絡(luò)輿情觀點提取。
然而,在微博輿情分析這一主題下,不能將情感分析和主題建模兩個維度割裂開來,實際應(yīng)用中應(yīng)該綜合這兩個維度來考察輿情內(nèi)容,我們不僅希望得到微博輿情中的情感分布,還希望研究出不同情感中的主題分布。因此,本文建構(gòu)自然災(zāi)害微博輿情分析的社會計算模型時,除了分別對微博輿情數(shù)據(jù)進行情感分析和主題建模之外,還會以情感分類為基礎(chǔ)進行主題建模。進一步的,大數(shù)據(jù)背景下的研究現(xiàn)在更強調(diào)操作化,本文建構(gòu)的模型也將分步驟闡述如何科學(xué)有效地對自然災(zāi)害微博輿情進行分析。
大數(shù)據(jù)背景下微博輿情分析都是從數(shù)據(jù)收集開始,綜合情感分析和主題建模兩個維度,對自然災(zāi)害微博輿情進行分析的步驟又可以分為對所有微博輿情數(shù)據(jù)的情感分析、對所有微博輿情數(shù)據(jù)的主題建模、以情感分類為基礎(chǔ)的主題建模,總結(jié)得到的便是圖1中呈現(xiàn)的自然災(zāi)害微博輿情分析的社會計算模型,其實施步驟如下。
1.第一步:收集自然災(zāi)害微博輿情數(shù)據(jù)
微博用戶公開在微博平臺上發(fā)布的內(nèi)容可以通過網(wǎng)絡(luò)爬蟲工具來收集,模型主要借助了Python語言提供的Beautiful Soup庫編寫網(wǎng)絡(luò)爬蟲程序,在收集微博數(shù)據(jù)時,首先通過微博搜索功能獲得關(guān)鍵詞相關(guān)的微博數(shù)量,搜索結(jié)果中選取用戶原創(chuàng)微博,在此基礎(chǔ)上進行人工抽檢,確定相關(guān)自然災(zāi)害事件的搜索關(guān)鍵詞(組),再使用網(wǎng)絡(luò)爬蟲程序爬取數(shù)據(jù)。
2.第二步:對所有微博輿情數(shù)據(jù)的情感分析
以收集到的自然災(zāi)害微博輿情數(shù)據(jù)作為完整的語料庫,模型以SnowNLP提供的樸素貝葉斯文本傾向性算法為基礎(chǔ),編寫程序先對足夠的positive和negative文本數(shù)據(jù)做訓(xùn)練,提取出合適的分類模型,再利用分類模型對文本數(shù)據(jù)分類,計算出最后的傾向性概率。模型對每一條微博進行處理之后,會得到一個取值為[0,1]的情感值,其中情感值越接近0表示情感越負面,情感值越接近1表示情感越正面,進一步的,模型會將情感值小于0.5的微博歸類為負面情緒微博,情感值為0.5的微博歸類為中立情緒微博,情感值大于0.5的微博歸類為正面情緒微博。
3.第三步:對所有微博輿情數(shù)據(jù)的主題建模
模型的主題建模使用LDA(latent Dirichlet allocation,即隱含狄利克雷分布)這一非監(jiān)督式學(xué)習(xí)算法,使用Python程序設(shè)計語言的LDA包,通過吉布斯采樣來實現(xiàn)隱含狄利克雷分布,在進行計算訓(xùn)練時不需要耗費人工手段對訓(xùn)練集進行標(biāo)注,只需要研究者提供文本構(gòu)成的語料庫及指定要得出的主題數(shù)量,LDA便可以找出一些詞語來描述每一個主題。
4.第四步:以情感分類為基礎(chǔ)的主題建模
模型中情感分析的基本工作是從用戶生成的帶有情感色彩的文本中提取觀點和意見并加以分析其情感傾向。在情感分析之后,模型將特定自然災(zāi)害事件的微博按照情感的正負關(guān)系被分為兩組,情感值大于或等于0.5的微博歸類至“正面情感組”,情感值小于0.5的微博歸類至“負面情感組”,進而按照主題建模方法分別發(fā)現(xiàn)“正面情感組”微博和“負面情感組”微博的主題,從而實現(xiàn)對自然災(zāi)害微博輿情進行以情感分類為基礎(chǔ)的主題建模。在比較思維指導(dǎo)下,進行更為深入的輿情分析。
圖1 自然災(zāi)害微博輿情的社會計算模型
江蘇鹽城623龍卷風(fēng)災(zāi)害名列2016年全國十大自然災(zāi)害事件,是當(dāng)年特別重大的自然災(zāi)害,其強度接近于最高級,風(fēng)力已經(jīng)“爆表”,超過了最強的17級。江蘇鹽城623龍卷風(fēng)災(zāi)害也是幾十年來同類災(zāi)害中造成的傷亡最嚴(yán)重的。在微博平臺進行數(shù)據(jù)收集時,本文根據(jù)案例實際,以“2016年6月23日至2016年6月30日”為搜索時間段,以“鹽城 龍卷風(fēng)”“鹽城 風(fēng)災(zāi)”“鹽城 大風(fēng)”“鹽城 冰雹”為搜索關(guān)鍵詞組,共收集到微博11050條。
1.情感分析結(jié)果
對微博輿情數(shù)據(jù)進行預(yù)處理后,共剩余7043條微博進入情感分析。具體的統(tǒng)計結(jié)果呈現(xiàn)在表1和圖2中,圖表顯示:江蘇鹽城623龍卷風(fēng)災(zāi)害中呈現(xiàn)極端正面情感的微博超過80%,處于絕大多數(shù),呈現(xiàn)極端負面情感的微博雖然也有980條,約占總數(shù)的14%,但整體上江蘇鹽城623龍卷風(fēng)災(zāi)害中的微博輿情是相當(dāng)正面的。
江蘇鹽城623龍卷風(fēng)災(zāi)害每日微博情感平均值(表2)也佐證了該次自然災(zāi)害事件中微博輿情情感是相當(dāng)正面的,每日微博情感平均值自始至終都保持在0.7以上,在收集數(shù)據(jù)的最后一天2016年6月30日的微博情感平均值甚至逼近于極端正面。因此,從圖表可以看出政府對于江蘇鹽城623龍卷風(fēng)災(zāi)害的治理較為得當(dāng),在微博上正面情感始終占了主流。
圖2 江蘇鹽城623龍卷風(fēng)災(zāi)害微博情感值分析統(tǒng)計圖
表2江蘇鹽城623龍卷風(fēng)災(zāi)害每日微博情感平均值統(tǒng)計表
日期情感平均值(保留10位小數(shù))2016-06-230.79794879282016-06-240.75779582802016-06-250.77725898012016-06-260.86798132902016-06-270.88348486322016-06-280.82790028112016-06-290.85591596732016-06-300.9760358280
圖3 江蘇鹽城623龍卷風(fēng)災(zāi)害每日微博情感平均值變化折線圖
2.主題建模結(jié)果
通過對江蘇鹽城623龍卷風(fēng)災(zāi)害微博輿情數(shù)據(jù)的主題建模,語料庫中最為核心的12個主題呈現(xiàn)出來,每個主題有7個關(guān)鍵詞:
主題1:工作 救災(zāi) 人員 受災(zāi) 災(zāi)害 群眾 江蘇
主題2:龍卷風(fēng) 強 級 大風(fēng) 阜寧 房屋 鹽城
主題3:天氣 事件 氣候 發(fā)生 時 強 江蘇
主題4:鹽城 醫(yī)院 龍卷風(fēng) 江蘇 冰雹 救援 醫(yī)生
主題5:龍卷風(fēng) 鹽城 江蘇 冰雹 災(zāi)害 阜寧 強
主題6:龍卷風(fēng) 名 中 說 時 孩子 住
主題7:龍卷風(fēng) 強 預(yù)警 人員 中 天氣 發(fā)生
主題8:龍卷風(fēng) 級 鹽城 天氣 強 江蘇 氣象
主題9:災(zāi)區(qū) 救援 鹽城 救災(zāi) 受災(zāi) 阜寧 物資
主題10:龍卷風(fēng) 強 發(fā)生 天氣 卷 龍 時
主題11:理賠 車 險 服務(wù) 元 客戶 公司
主題12:說 鹽城 天 中 請 新聞 想
以這12大主題為線索,進一步檢索微博語料庫可以發(fā)現(xiàn)這些主題大致可以再組合為5類,這5類主題即是“江蘇鹽城623龍卷風(fēng)災(zāi)害”微博輿情中民眾的主要關(guān)切:
其一是介紹此次重大自然災(zāi)害的基本情況,還包括此次災(zāi)情對于城市正常運轉(zhuǎn)和因為天氣災(zāi)害導(dǎo)致的次生危害等影響。這一類包括了主題7、主題8和主題12。微博輿情主要關(guān)注的是造成的人員傷亡情況和經(jīng)濟社會危害兩大指標(biāo),國家媒體和當(dāng)?shù)孛襟w通過實時更新受災(zāi)人數(shù)和極端天氣的變化情況,讓公眾從數(shù)字上直觀感受到此次自然災(zāi)害災(zāi)情的嚴(yán)重程度。@央視新聞在這次災(zāi)害發(fā)生后,于6月23日20點18分先發(fā)布關(guān)于災(zāi)情描述的微博“央視快訊:JHJ江蘇鹽城龍卷風(fēng)冰雹JHJ已造成51人死亡”10分鐘后又再次更新微博,發(fā)布預(yù)計到來的惡劣天氣,提醒市民不要外出,“擴散!鹽城未來6小時可能出現(xiàn)雷雨大風(fēng)!盡量不要外出!”
其二是從公眾的角度表達此次重大自然災(zāi)害對日常工作和生產(chǎn)的影響,這一類包括了主題2和主題5。如@京華時報在6月23日發(fā)布的微博則報道了此次自然災(zāi)害對普通人民生命健康、正常生活的重大毀損,“重災(zāi)區(qū)救援現(xiàn)場:房屋夷為平地,轎車被刮飛”。
其三是展現(xiàn)政府對此次特大災(zāi)害的應(yīng)對情況和救援措施,這一類包括了主題1和主題9。其中,具有官方背景的媒體微博多發(fā)布黨和國家領(lǐng)導(dǎo)人及地方救援指揮機構(gòu)對此次災(zāi)害的關(guān)注指示和搶險救災(zāi)舉措。如@人民日報在6月23日發(fā)布的微博體現(xiàn)了國家領(lǐng)導(dǎo)人層面對此事的關(guān)注。普通微博用戶也會將親身所見發(fā)布到微博平臺,如@圣戈戈轉(zhuǎn)發(fā)@新浪江蘇講述救災(zāi)官兵累倒在廢墟角落休息的微博,并評論“辛苦了”,從側(cè)面表達了人民子弟兵應(yīng)對災(zāi)情時的奮力拼搏與不易。
其四是普通社會公眾和組織對這次災(zāi)情的應(yīng)對,既有對災(zāi)區(qū)人民的祈禱和祝福,又包含災(zāi)害中發(fā)生的具體感人細節(jié)和故事的傳達。這一類包括了主題4、主題6和主題11。“志愿者排隊獻血并送來救災(zāi)物品”“幼兒園老師拼死堵門護住120名兒童”這些災(zāi)害中的動人細節(jié)通過微博得到了更廣泛的傳播。
其五是部分微博用戶對此次災(zāi)害成因和破壞力的分析,特別是一些機構(gòu)微博(如@云南消防)以此次自然災(zāi)害為契機在微博平臺對龍卷風(fēng)災(zāi)害的相關(guān)知識進行了科普。
3.以情感分類為基礎(chǔ)的主題建模結(jié)果
情感分析中以正負面情感為基礎(chǔ)對“江蘇鹽城623龍卷風(fēng)災(zāi)害”的所有微博進行了分類,形成“正面情感組”和“負面情感組”兩個子語料庫,分別進行主題建模,各得出了10組包含7個關(guān)鍵詞的主題。
其中,“正面情感組”主題建模包括:
主題1:萬萬 心寒 救治 情緒 佩服 癥狀 挽救
主題2:生命 睡著 加油 生病 鹽城 官兵 好好
主題3:龍卷風(fēng) 鹽城 江蘇 武警 愛心 咨詢 國家
主題4:鹽城 眾多 轉(zhuǎn)交 補助 武警 匯集 螢
主題5:鹽城 龍卷風(fēng) 江蘇 冰雹 猝死 生命 救
主題6:龍卷風(fēng) 鹽城 江蘇 冰雹 縫 成熟 愛心
主題7:大風(fēng) 龍卷風(fēng) 鹽城 趕緊 專家組 謠言 趕赴
主題8:鹽城 龍卷風(fēng) 冰雹 生命 愛心 江蘇 市
主題9:關(guān)心 魏 號召 生命 鹽城 網(wǎng) 江蘇
主題10:愛心 鹽城 龍卷風(fēng) 祈福 生命 值得 明白
從中可以總結(jié)出此次自然災(zāi)害正面情感組所包括主題的主要有3類。
其一是面對突如其來的龍卷風(fēng)和冰雹災(zāi)害,部分公眾感慨人類在災(zāi)害面前的無能無力,在微博祈禱親朋好友或是一線救災(zāi)人員的生命安全,體現(xiàn)自然災(zāi)害面前人類的渺小和感情的真摯。這一類包括主題2和主題10。如@LING-正品美瞳在感慨人類在災(zāi)害面前的無能無力,呼吁大家對大自然的保護“什么時候開始,人們對環(huán)境的不愛護,各種糟蹋,造成了今天這個局面。幾十年前的天災(zāi)又重演,熱到人死、洪水、龍卷風(fēng),在大自然面前人類是渺小的,生命也很脆弱,盡可能的維護地球吧,不然只會越來越糟糕”。
其二是報道政府的救災(zāi)行動,特別是災(zāi)難中的救援和搶險工作,政府的有效作為和消防人民子弟兵的辛苦在微博中得到了正面評價。這一類包括主題3、主題4、主題5和主題7。如@那時便是最好的我發(fā)布微博“昨天1500個消防員入住我們學(xué)校,我們學(xué)校有兩棟宿舍樓,然后,我們高二的已經(jīng)放假了,他們有的人就睡在我們的教室還有水房,昨晚他們還冒雨卸下物資,一大早他們離開了我們的學(xué)校,也沒有早飯吃,就直接走了,剛剛聽說有好多好多的消防員的腳都磨破了,他們才是真正的英雄。”這則微博以自身經(jīng)歷講述了消防官兵在這次救災(zāi)行動中的具體作為,不僅給予了極高的評價,還飽含了博主的感恩之情。
其三是在此次龍卷風(fēng)和冰雹特別重大災(zāi)害面前,普通社會民眾和機構(gòu)自發(fā)行動起來,奉獻愛心,參與到救災(zāi)工作中,展現(xiàn)了大災(zāi)面前形成搶險救災(zāi)共同體的巨大力量。這一類包括主題1、主題6、主題8和主題9。如@靜雅520的微博“阜寧的信息 新溝南灣現(xiàn)場!需要一批手電筒,請好心人聯(lián)系我?。?!朱〇東1323****000 再次向社會求助,阜寧吳灘街道急需要:救護車、吊車、救護人員、專業(yè)搶救人員!麻煩大家?guī)兔D(zhuǎn)發(fā),請求多方救助?。?本人微信174****98”,還有@hey我就是這個姑娘的微博中說“災(zāi)區(qū)需要:清障機械、帳篷、蠟燭、電筒,心理疏導(dǎo)等,吃喝暫不缺,有資源的跟我聯(lián)系。另由于災(zāi)區(qū)樹木房屋倒塌嚴(yán)重加上道路狹窄,請志愿者不要開車前往造成擁堵!”展現(xiàn)了部分民眾主動參與到救災(zāi)中的溫暖力量。
而“負面情感組”主題建模包括:
主題1:鹽城 救 財產(chǎn) 網(wǎng)民 地理 情況 龍卷風(fēng)
主題2:龍卷風(fēng) 鹽城 無人機 志哀 救 間 傷員
主題3:鹽城 網(wǎng)民 龍卷風(fēng) 救 氣溫 條 通道
主題4:鹽城 地理 氣象局 大風(fēng) 外出 龍卷風(fēng) 雷雨
主題5:存有 視頻 廠房 危 現(xiàn)場 救 受
主題6:龍卷風(fēng) 廠房 平方米 地理 命 突發(fā) 救
主題7:慈善 全省 鹽城 龍卷風(fēng) 風(fēng)災(zāi) 男子 接
主題8:龍卷風(fēng) 鹽城 救 地理 華南 蛀蟲 平安
主題9:龍卷風(fēng) 保護 與會 地理 志哀 石泰峰 網(wǎng)民
主題10:組 集 前來 鹽城 救 地理 龍卷風(fēng)
這些主題也可以被歸納為3類,但是內(nèi)容顯然與正面情感組有所區(qū)別。
其中出現(xiàn)最多的還是普通民眾面對突如其來的自然災(zāi)害所感受到的無可奈何和無能為力,微博中呈現(xiàn)了此次龍卷風(fēng)與冰雹特大災(zāi)害所導(dǎo)致的重大人員傷亡的數(shù)據(jù),并對在此次災(zāi)害中不幸遇難的社會公眾表示哀悼。這一類包括主題1、主題2、主題5、主題6和主題10,相關(guān)微博中多次出現(xiàn)蠟燭表情。
其二是部分微博用戶對氣象部門的不信任、失望甚至質(zhì)問,這一類包括主題3、主題4和主題9。如@假扮領(lǐng)導(dǎo)說“我一直懷疑:我們是不是有全世界最多的國家財政供養(yǎng)的氣象從業(yè)人員?”但也有部分用戶直接為氣象臺發(fā)聲,強調(diào)天災(zāi)的不可抗性。如@南海姑娘吖稱“大家不要再噴氣象單位了,有本事自己去研究,不是氣象局天氣預(yù)報誰報的?你們這些人嘛?預(yù)報準(zhǔn)確不是你們說說就能做到的,理論上最精確也只能預(yù)計達到80%,更何況科學(xué)水平現(xiàn)在還不夠。人類永遠也不可能完全了解自然。有些人上了這么多年學(xué)只學(xué)會了當(dāng)鍵盤俠。光在這噴了,也沒見去一線救援。讓人心寒?!?/p>
其三是對關(guān)于此次重大災(zāi)害中民眾捐款去向的質(zhì)疑,和對紅十字會的不信任,這一類包括主題7和主題8。如@全民情敵天蝎審判者在2016年6月30日發(fā)布的微博“外面廣場,紅十字會又在招搖過市,熱死這幫蛀蟲。鹽城龍卷風(fēng)才撥款1.6億好像。世博會,奧運會幾千億,有個屁用!”直接表達了對紅十字會的不信任和對本次災(zāi)難捐款的不滿意,這也是紅十字會遭遇“郭美美”等輿情事件沖擊之后慈善形象崩塌的具體體現(xiàn)。
通過上述研究,本文綜合情感分析和主題建模兩個維度完成了模型的建構(gòu)及應(yīng)用,在自然災(zāi)害微博輿情的社會計算模型中所有的步驟均可以通過Python程序語言實現(xiàn),可以根據(jù)不同需求爬取不同的數(shù)據(jù)進行分析。從中總結(jié)出自然災(zāi)害微博輿情分析的社會計算模型所具有的4個特點:
其一,該模型具有可操作性,適合于進行微博大數(shù)據(jù)分析。在應(yīng)用中,原始微博研究數(shù)據(jù)超過了一萬條,利用這些數(shù)據(jù)進行情感分析和主題建模之后,得出了體現(xiàn)江蘇鹽城623龍卷風(fēng)災(zāi)害微博輿情特征的微博情感值分析統(tǒng)計表(圖)、每日微博情感平均值統(tǒng)計表(圖)、基于事件全體微博的主題建模和區(qū)分正負面情感的主題建模,實現(xiàn)了情感分析和主題建模的基本目標(biāo),且可以根據(jù)不同的研究問題篩選各類語料庫進行分別處理。
其二,該模型從微博數(shù)據(jù)出發(fā),能夠得到自然災(zāi)害微博輿情的個性化結(jié)果?;趥鹘y(tǒng)內(nèi)容分析法的輿情研究往往先要根據(jù)相關(guān)主題的文獻得出輿情研究的類目建構(gòu),再回歸到輿情內(nèi)容進行具體分析,因而這種研究思路是從文獻出發(fā)而不是從輿情內(nèi)容出發(fā),所以得到的輿情分析結(jié)果常常缺少特定事件的個性化特征,就自然災(zāi)害而言,所有的輿情分析都固定在災(zāi)情基本情況及影響、政府災(zāi)害應(yīng)對、公眾災(zāi)害應(yīng)對、災(zāi)民感受、對災(zāi)害的評論與思考等方面范疇內(nèi)。而該模型并不預(yù)先對輿情內(nèi)容進行假設(shè),通過算法直接得出輿情內(nèi)容的情感分析和主題建模,從結(jié)果上看更加貼近輿情本身。
其三,該模型節(jié)約成本。傳統(tǒng)輿情分析中采用的內(nèi)容分析法,在數(shù)據(jù)搜集、內(nèi)容編碼等過程中都需要人工去識別和分類,為了保證信度往往還需要多名研究人員進行重復(fù)操作,極為耗時耗力,成本相對較高。而該模型中,數(shù)據(jù)采集、分析均由相應(yīng)的程序直接完成,只需要研究人員對相關(guān)數(shù)值進行配置,減輕了人工負擔(dān),也節(jié)約了整個研究的成本。
其四,基于社會計算的輿情分析是今后發(fā)展的趨勢?;ヂ?lián)網(wǎng)各色應(yīng)用的發(fā)展給人們帶來了各式各樣的言論平臺,網(wǎng)絡(luò)輿情信息的大數(shù)據(jù)特征已經(jīng)成為其基本特征,人工方法面對大型輿情分析項目時已經(jīng)無能為力。此外,在媒體形式上,網(wǎng)絡(luò)輿情已經(jīng)不限于文本,而呈現(xiàn)廣泛應(yīng)用表情、圖片、視頻等多媒體表現(xiàn)方式的趨勢,使得網(wǎng)絡(luò)輿情日趨復(fù)雜,給網(wǎng)絡(luò)輿情分析工作帶來了巨大的挑戰(zhàn),必須發(fā)展基于社會計算的輿情分析方法,通過提升算法技術(shù)來提升對網(wǎng)絡(luò)輿情新形態(tài)的分析能力。
然而,我們也必須認識到,自然災(zāi)害微博輿情的社會計算模型也有一定的缺陷。首先,在進行主題建模基礎(chǔ)上的內(nèi)容歸納時,自然災(zāi)害微博輿情的社會計算模型還是依賴于研究人員的主觀因素,不同研究人員對微博內(nèi)容的理解不同,可能會得出不同的結(jié)果;其次,通過網(wǎng)絡(luò)爬蟲技術(shù)得到了許多個人微博,用于研究時并未征得個人同意,可能涉及侵犯隱私的問題,需要創(chuàng)新相應(yīng)的法律法規(guī)進行規(guī)范。
注釋:
① 王飛躍:《從社會計算到社會制造:一場即將來臨的產(chǎn)業(yè)革命》,《中國科學(xué)院院刊》,2012年第6期。
② 謝耘耕、劉銳、喬睿、張旭陽、袁會:《大數(shù)據(jù)與社會輿情研究綜述》,《新媒體與社會》,2014年第4期。
③ 王飛躍:《從社會計算到社會制造:一場即將來臨的產(chǎn)業(yè)革命》,《中國科學(xué)院院刊》,2012年第6期。
④ 孟小峰、李勇、祝建華:《社會計算:大數(shù)據(jù)時代的機遇與挑戰(zhàn)》,《計算機研究與發(fā)展》,2013年第12期。
⑤ 徐明華、馮亞凡:《社會計算視域下傳播學(xué)研究的嬗變與反思》,《現(xiàn)代傳播》,2017年第12期。
⑥ 企鵝智酷:《2016微博用戶研究:新歡、舊愛、核心價值與迫切之疾》,騰訊科技,http://tech.qq.com/a/20160907/010154.htm,2016年。
⑦ O’Connor B,Balasubramanyan R,Routledge B R,et al.FromTweetstoPolls:LinkingTextSentimenttoPublicOpinionTimeSeries.InternationalConferenceonWeblogsandSocialMedia,ICWSM2010,Washington,DC,USA,2010 May.pp.122-129.
⑧ 崔安頎:《微博熱點事件的公眾情感分析研究》,清華大學(xué)博士學(xué)位論文,2013年,第73-79頁。
⑨ 謝思發(fā)、林琛、蘇旋、江弋:《Hadoop平臺的微博熱點事件挖掘》,《小型微型計算機系統(tǒng)》,2014年第4期。
⑩ 馬彬、洪宇、陸劍江、姚建民、朱巧明:《基于線索樹雙層聚類的微博話題檢測》,《中文信息學(xué)報》,2012年第6期。