王囝囝 , 王 健 , 唐明山 , 黃 艇 , 鄔曉冬
1. 大連市氣象服務(wù)中心, 遼寧 大連 116001 2. 大連市氣象臺, 遼寧 大連 116001
利用機器學(xué)習(xí)和自然語言處理技術(shù)分析公眾對某一社會熱點問題的評論情感,作為研判社會輿情和優(yōu)化應(yīng)對策略越來越受到相關(guān)部門的關(guān)注。對突發(fā)公共事件的政務(wù)微博回應(yīng)方式研究發(fā)現(xiàn)回應(yīng)議題對公眾評論情感值影響顯著(紀(jì)雪梅等,2020)。趙曉航(2016)對“天津爆炸”事件的新浪微博全量數(shù)據(jù)進(jìn)行主題提取和情感分析,探求了突發(fā)事件下政府如何利用微博平臺收集、研判、應(yīng)對網(wǎng)絡(luò)輿情。氣象微博服務(wù)采用大數(shù)據(jù)、情感分析法研究識別情感傾向,成為氣象服務(wù)效益評估方式的新依據(jù)(任芳等,2016;喻迎春等,2018;張曉美等,2019)。
注重公眾情感評價的研究對于政府或氣象部門做好輿情引導(dǎo)和社會服務(wù)有重要的現(xiàn)實意義。目前情感分析方法主要包括情感詞典、機器學(xué)習(xí)和深度學(xué)習(xí)等方法。情感詞典法基于標(biāo)注好的情感詞典、語法規(guī)則,利用情感詞典對評論進(jìn)行分類;機器學(xué)習(xí)的情感分析法主要通過統(tǒng)計文本中的特征,使用 SVM、隨機森林和梯度提升決策樹對特征進(jìn)行立場檢測,最后結(jié)合各類分類器進(jìn)行融合;深度學(xué)習(xí)法主要是將各類文本分詞轉(zhuǎn)化為詞向量的形式,利用LSTM(Long Short-Term Memory)模型改進(jìn)的Bi-LSTM實現(xiàn)雙向注意力機制(湯世松等,2021)進(jìn)行文本情感分析。文中基于2017年1月1日—2020年7月3日大連市氣象實況數(shù)據(jù)和與氣象預(yù)警信息相關(guān)的熱門微博數(shù)據(jù),進(jìn)行數(shù)據(jù)抓取,建立分詞系統(tǒng),提取熱點,利用Bi-LSTM模型建模分析,創(chuàng)建了氣象行業(yè)專業(yè)分詞庫,客觀分析了近3 a大連市氣象微博評論情感,為大連市氣象災(zāi)害預(yù)警信息發(fā)布策略的制定提供參考。
文中數(shù)據(jù)包括2017年1月1日—2020年7月3日大連市氣象實況數(shù)據(jù)、大連氣象微博轉(zhuǎn)發(fā)、點贊、評論(簡稱轉(zhuǎn)贊評)數(shù)據(jù)及預(yù)警信息(包括氣象災(zāi)害預(yù)警信號、實況、預(yù)報等)發(fā)布數(shù)據(jù)。典型重大天氣事件選取對社會經(jīng)濟(jì)影響程度較大、社會關(guān)注度較高的3次天氣過程(臺風(fēng)暴雨、大風(fēng)、降雪)。公眾評價媒體選取大連地區(qū)氣象傳播影響力較大的“大連氣象”、“大連天氣飯”、“大連氣象愛好者”等。
具體的分析步驟為利用Python語言開發(fā)的全中文情感分析模塊SnowNLP實時提取與天氣過程預(yù)警、預(yù)報和對天氣過程評述相關(guān)的微博正文、轉(zhuǎn)發(fā)內(nèi)容及評論內(nèi)容,對非文字符號進(jìn)行過濾,對文字部分進(jìn)行分詞處理、統(tǒng)計、排序,按照氣象災(zāi)害種類進(jìn)行分類,形成文本信息,并對熱詞進(jìn)行相關(guān)性分析,針對單條氣象預(yù)警信息話題評論進(jìn)行情感詞分析,計算文本信息的情感值,得到公眾對氣象預(yù)警信息的態(tài)度和情感狀態(tài)。
計算大連市降水量、氣象預(yù)警信號時空特征與氣象微博轉(zhuǎn)贊評數(shù)的相關(guān)系數(shù)(周艷平和朱小虎,2021),計算式為
(1)
其中,Cov(X,Y)為X與Y的協(xié)方差,D(X)為X的方差,D(Y)為Y的方差。
用雙向長短時記憶網(wǎng)絡(luò)Bi-LSTM(Bi-directional Long Short-Term Memory)(周艷平和朱小虎,2021)自然語言處理、文本挖掘以及計算機語言學(xué)方法來識別和提取微博評論中的主觀信息(包括觀點、情感、態(tài)度、評價、情緒等)進(jìn)行提取、分析、處理、歸納和推理。文中采用樸素貝葉斯原理訓(xùn)練計算微博評論的情感值,計算式為
(2)
其中,評論樣本數(shù)據(jù)集為X={x1,x2,...xd},xi為評論中的具體某條評論;情感類變量Y={y1,y2,...yd}為情感類別的集合,yi為某條評論所屬的某種情感類別,取值0—1,0表示負(fù)面情感,1代表正面情感;P(xi|Y)為某條評論屬于某種情感類別的概率值;P(Y|X)為評論屬于各情感類別的概率值,即情感值;P(X)、P(Y)分別為評論樣本和情感類別的先驗概率。
圖1為2017年1月1日—2020年7月3日“大連氣象”、“大連天氣飯”、“大連天氣飯”、“大連氣象愛好者”微博轉(zhuǎn)贊評總數(shù)日變化、同期大連市實況降水、預(yù)警信號發(fā)布數(shù)日變化。分析可見,氣象微博轉(zhuǎn)贊評總數(shù)與降水量、預(yù)警發(fā)布數(shù)隨時間變化趨勢一致。大連日降水量與“大連氣象”微博轉(zhuǎn)贊評總數(shù)綜合相關(guān)性較大,相關(guān)系數(shù)為0.71以上,與“大連天氣飯”為0.59,與“大連氣象愛好者”為0.43(表1)?!按筮B氣象愛好者”因發(fā)布了一些非氣象預(yù)警信息引發(fā)轉(zhuǎn)贊評,導(dǎo)致其與降水相關(guān)系數(shù)偏小。
圖1 2017年1月1日—2020年5月21日大連市氣象微博轉(zhuǎn)贊評(a,b,c)、日降水量(d)、預(yù)警信號日發(fā)布數(shù)(e)Fig. 1 The number of comments (a,b,c), daily precipitation (d) and the number of warning signals released by micro-blog (e) from January 1, 2017 to May 21, 2020
表1 2017年1月1日—2020年5月21日大連市逐日降水量、預(yù)警信號數(shù)與氣象微博轉(zhuǎn)贊評數(shù)的相關(guān)系數(shù)
氣象災(zāi)害預(yù)警信號是反應(yīng)大連市氣象災(zāi)害發(fā)生的重要預(yù)警指標(biāo),對氣象災(zāi)害預(yù)警信號評論進(jìn)行情感分析,可作為輿情監(jiān)控、信息預(yù)測和氣象工作認(rèn)可度的參考指標(biāo)。2017年1月1日—2020年5月21日大連市發(fā)布的氣象災(zāi)害預(yù)警信號中,大風(fēng)、大霧、暴雨預(yù)警信號的數(shù)量排在前三,大風(fēng)預(yù)警信號明顯多于其他預(yù)警信號總和,其中大風(fēng)藍(lán)色預(yù)警信號為1 793次,平均每天發(fā)布2次大風(fēng)藍(lán)色預(yù)警信號。
分別對大連氣象微博中關(guān)于大風(fēng)、大霧、暴雨預(yù)警信號的評論進(jìn)行提取分析,計算微博評論的情感值分布(圖2)。分析發(fā)現(xiàn),大風(fēng)預(yù)警信號的評論中負(fù)面情感多于正面,大霧預(yù)警信號基本相當(dāng),暴雨預(yù)警信號正面評論多于負(fù)面。這可能與公眾對預(yù)警信號影響公眾生產(chǎn)、生活和對氣象預(yù)報水平期望值高有關(guān)。
圖2 2017年1月1日—2020年5月21日大連市大風(fēng)(a)、大霧(b)、暴雨預(yù)警信號(c)和總體(d)微博評論情感值分布Fig. 2 Dalian meteorological microblog emotional value distribution for gale (a), fog (b) , rainstorm (c) and the whole comments (d) from January 1, 2017 to May 21, 2020
進(jìn)一步對評論中的正、負(fù)面情感成因進(jìn)行分析,分別對2017年1月1日—2020年7月3日暴雨天氣情感指標(biāo)大于0.5和小于0.5的3 000余條評論詞,采用Python的Jieba、Gensim庫進(jìn)行中文分詞、聚類相似度分析,通過剔除停用詞、低頻詞,發(fā)現(xiàn)“天氣過程本身對生產(chǎn)生活的影響”、“預(yù)報準(zhǔn)確率”及“氣象預(yù)警信息發(fā)布及時性”是影響評論正、負(fù)情感的主要因素,通過TF-IDF建立算法模型,得出上述三個方面的正、負(fù)評論相似度(表2)。
表2 2017年1月1日—2020年5月21日大連市氣象微博中與大風(fēng)、大霧、暴雨預(yù)警信號相關(guān)的正、負(fù)面評論相似度
可見,正面評論中,社會公眾對天氣過程帶來的正面評價較高,主要是降雨過程帶來的利于農(nóng)業(yè)、櫻桃產(chǎn)業(yè)、凈化空氣等方面的正面需求;對于預(yù)警信息發(fā)布及時性也給予了較好的評價。相反,負(fù)面評價中對氣象預(yù)報準(zhǔn)確率的反應(yīng)最大,即社會公眾對天氣預(yù)報的準(zhǔn)確率期待更高要求,天氣過程的影響和預(yù)警發(fā)布及時性相對次之。說明公眾對天氣預(yù)報準(zhǔn)確率、天氣過程對于生活的影響和信息發(fā)布的及時性關(guān)注較多。
選取2017—2020年3次重大天氣過程中的大連氣象微博評論進(jìn)行情感分析,2019年8月11—15日受9號臺風(fēng)“利奇馬”影響,大連市區(qū)降雨量為235.6 mm,“大連氣象”加密發(fā)布降雨實況和預(yù)報預(yù)警信息共計55條,轉(zhuǎn)發(fā)數(shù)192次,評論數(shù)669條,“大連天氣飯”評論數(shù)4 426條,“大連氣象氣愛好者”評論163條。2018年1月21日夜間到22日上午大連地區(qū)出現(xiàn)區(qū)域性降雪,降雪主要時段在22日00—12時,“大連氣象”加密發(fā)布的降雪及預(yù)警信息共計18條,轉(zhuǎn)發(fā)數(shù)123次,評論數(shù)43條,“大連天氣飯”評論數(shù)288條,“大連氣象愛好者”評論數(shù)48條。2019年1月14—15日大連地區(qū)出現(xiàn)了一次大風(fēng)降溫過程。極大風(fēng)極值主要出現(xiàn)在15日凌晨,出現(xiàn)陣風(fēng)10級以上的站點為13個。“大連氣象”發(fā)布大風(fēng)預(yù)警信息共計25條,轉(zhuǎn)發(fā)數(shù)14次,評論數(shù)5條,“大連天氣飯”評論數(shù)50條,“大連氣象愛好者”16條。
對3次天氣過程發(fā)生前后72 h內(nèi)的預(yù)警發(fā)布數(shù)及微博轉(zhuǎn)贊評數(shù)(圖3)和評論情感進(jìn)行分析,發(fā)現(xiàn)臺風(fēng)、降雪比大風(fēng)天氣過程更受到大眾關(guān)注。臺風(fēng)天氣過程中,3個微博賬號的轉(zhuǎn)贊評數(shù)隨著預(yù)警發(fā)布次數(shù)發(fā)生變化,說明公眾關(guān)注度同步于預(yù)警信息發(fā)布數(shù)量,變化較為一致且關(guān)注度較高。通過對評論詞頻分析發(fā)現(xiàn),臺風(fēng)天氣過程負(fù)面評價主要集中在關(guān)注降雨時間和臺風(fēng)給生活帶來的影響擔(dān)憂,是否停課及帶來的其他影響,降雨開始后評價較多的是帶來的交通影響網(wǎng)絡(luò)傳播的關(guān)于“雙臺風(fēng)”影響的謠言。降雨過程中隨著實況信息和預(yù)警信息的不斷更新發(fā)布,公眾確認(rèn)預(yù)報結(jié)論的準(zhǔn)確性從而擔(dān)憂帶來的生活和工作的影響。隨著降雨結(jié)束后,公眾關(guān)注的是降雨情況、災(zāi)情情況和準(zhǔn)確率的評價。對暴雪天氣過程的關(guān)注度在預(yù)警當(dāng)日和結(jié)束后仍在持續(xù),由于降雪出現(xiàn)在周一凌晨,評論多數(shù)擔(dān)心周一上班的影響,同時前期一直未降雪,大家對降雪帶來的感覺給予正面評價較多。對大風(fēng)天氣過程的關(guān)注度明顯低于其他天氣過程,且發(fā)布大風(fēng)預(yù)警信號前后變化較小,評論數(shù)明顯較少。因是常見的氣象災(zāi)害,負(fù)面評價多為對空氣質(zhì)量等的評價,這是由于頻繁的大風(fēng)預(yù)警信號無法引起公眾的足夠關(guān)注。
圖3 2019年8月11—15日9號臺風(fēng)“利奇馬”天氣過程(a)、2018年1月22日大連市降雪天氣過程(b)、2019年1月14—15日大連市大風(fēng)天氣過程(c)期間各氣象微博轉(zhuǎn)贊評數(shù)和預(yù)警發(fā)布數(shù)日分布
綜上,對于重大天氣過程,預(yù)警信息應(yīng)及時發(fā)布,應(yīng)跟進(jìn)天氣事件的后續(xù)影響,發(fā)布重點應(yīng)偏向天氣災(zāi)害對社會及公眾生產(chǎn)生活的影響,同時需及時發(fā)布次生災(zāi)害預(yù)警信息。
文中基于2017年1月1日—2020年7月3日大連市重大氣象災(zāi)害過程,運用自然語言處理、情感分析等方法對大連氣象微博中與氣象預(yù)警相關(guān)的評論內(nèi)容進(jìn)行情感分析,并給出發(fā)布策略建議:
1) 3次典型天氣過程的微博評論社會公眾表現(xiàn)出不同的評價結(jié)果,負(fù)面評價多于正面評價,通過分析評價詞頻,天氣過程長時間持續(xù)就會引起社會公眾的高度關(guān)注,負(fù)面評價中對氣象預(yù)報準(zhǔn)確率反應(yīng)最高,可見社會公眾期望天氣預(yù)報準(zhǔn)確率更為迫切,氣象部門要切實提高天氣預(yù)報準(zhǔn)確率。
2) 大風(fēng)預(yù)警微博評論情感分析顯示消極評價多于積極評價。建議考慮針對大連市大風(fēng)天氣特點,針對如海上交通行業(yè)、石油行業(yè)、農(nóng)業(yè)大風(fēng)預(yù)警等級的劃分原則,修訂大風(fēng)預(yù)警等級,提升業(yè)務(wù)流程的高效性和社會認(rèn)同感。
3) 氣象預(yù)警信號的時效性決定了氣象微博評論受季節(jié)和日變化影響,由于技術(shù)原因暫時無法對微博評論者的職業(yè)、身份、年齡等分類,但可以確定不同季節(jié)、不同氣象預(yù)警信號對不同人群和行業(yè)的影響不同,比如秋季果農(nóng)關(guān)注冰雹災(zāi)害性天氣、旅游業(yè)關(guān)注海上大風(fēng)、鹽業(yè)關(guān)注晴雨等等,因此不同人群對同一類或不同類氣象災(zāi)害預(yù)警信號會出現(xiàn)不同的情感評價。
情感分析本身僅僅從微博評論相關(guān)數(shù)據(jù)進(jìn)行分析,無法全面客觀評價一次天氣過程的真實服務(wù)情況。下一步可對專業(yè)氣象服務(wù)特別是對與氣象關(guān)系密切的大中型企業(yè)、農(nóng)業(yè)、交通等行業(yè)的影響綜合評價進(jìn)行研究探討。