国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

挖掘社交媒體數(shù)據(jù)探究自然災(zāi)害時公眾注意力的變化

2022-10-11 12:33:00張曉涵呂金鑫
北京測繪 2022年9期
關(guān)鍵詞:詞頻暴雨災(zāi)害

張曉涵 呂金鑫

(山東科技大學(xué) 測繪與空間信息學(xué)院, 山東 青島 266590)

0 引言

對一般災(zāi)害來說,遙感技術(shù)已成為當下應(yīng)急減災(zāi)的重要手段,當災(zāi)害發(fā)生的第一時間,遙感能夠提供受災(zāi)區(qū)域宏觀、連續(xù)的災(zāi)情快照,從而為減災(zāi)提供有效的數(shù)據(jù)支持。盡管遙感技術(shù)在災(zāi)害領(lǐng)域應(yīng)用中仍存在局限性,但隨著科學(xué)的進步,高質(zhì)量遙感數(shù)據(jù)的不斷涌現(xiàn),可更大程度上對災(zāi)情信息進行反饋。而隨著新媒體時代的來臨,正如過去十年所見證的那樣,社交媒體使用量的激增為災(zāi)難情況下的多向交流提供了巨大的潛力。個人越來越多地使用社交媒體來表達他們對當前情況的需求、意見、描述和緊迫性。因此,大多學(xué)者認為社交媒體數(shù)據(jù)可以作為災(zāi)害情況下態(tài)勢感知和救援需求的指標[1-3]。近幾年,許多人研究了社交媒體社區(qū)的信息流在自然災(zāi)害事件階段的演變模式[4-6],還有部分人專注于災(zāi)害期間社交媒體文本情感趨勢,例如,有相關(guān)研究提出了一種基于情感詞語義規(guī)則[7]的情感傾向計算方法[8],以及基于詞向量的話題聚類方法用于對災(zāi)難發(fā)生時的社交媒體數(shù)據(jù)進行輔助分析[9-12],也有研究在災(zāi)害主題下通過使用情感詞典對微博短文本進行情緒分析,并在災(zāi)害應(yīng)對方面給出指導(dǎo)性建議[13-15]。

語義分析是指綜合運用各類方法,學(xué)習(xí)或理解一段文本中所表達的語義內(nèi)容,因此有助于對語言理解的方法基本都可算為語義分析的范疇[16]。本研究以微博文本數(shù)據(jù)源為主著重討論了一個利用社交媒體數(shù)據(jù)評估災(zāi)害影響的框架,綜合運用了語義分析中的批量分詞、元詞頻統(tǒng)計、實體識別以及情感分析等方法,并以2021年10月山西暴雨災(zāi)害為例,考察了利用微博平臺社交媒體信息提取以告知山西省災(zāi)害響應(yīng)和恢復(fù)的潛力。

1 研究區(qū)域及數(shù)據(jù)

1.1 研究案例

自2021年10月2日起,山西降雨顯著增強。監(jiān)測顯示,2日20時至6日20時,忻州南部、呂梁、太原、陽泉、晉中、臨汾、長治累計雨量突破100 mm。其中,太原、陽泉、臨汾、長治、呂梁、晉中等大部分地區(qū)創(chuàng)下了10月上旬累計降雨量紀錄。并受持續(xù)強降雨影響,多地出現(xiàn)內(nèi)澇、地質(zhì)災(zāi)害、洪水等災(zāi)情,造成人員傷亡。借此,本研究選取山西省為研究區(qū)域,并對一些受暴雨影響較大的城市進行重點分析。

1.2 研究數(shù)據(jù)

通過網(wǎng)絡(luò)爬蟲技術(shù)獲取2021年10月1日至2021年10月20日包含山西各城市名稱的且與暴雨相關(guān)的微博數(shù)據(jù),爬取內(nèi)容包含每條推文的用戶ID、用戶名、鏈接、發(fā)布日期、位置以及文本內(nèi)容等信息。由于社交媒體數(shù)據(jù)龐大且嘈雜,他們需要被挖掘和整合才能用于研究抗災(zāi)能力。挖掘社交媒體數(shù)據(jù)包括數(shù)據(jù)清理、文本分析和數(shù)據(jù)可視化,由于其巨大的數(shù)量、不平衡的用戶構(gòu)成,并且還有一些因為網(wǎng)絡(luò)延遲問題導(dǎo)致用戶重復(fù)發(fā)表的推文,所以對于所獲取的數(shù)據(jù)我們進行了數(shù)據(jù)去重、語料清洗和停用詞過濾等數(shù)據(jù)預(yù)處理工作。經(jīng)初步清洗后的涉災(zāi)社交媒體數(shù)據(jù)共10 815條。示例數(shù)據(jù)如表1所示。

表1 山西暴雨社交媒體示例數(shù)據(jù)

其中各城市社交媒體數(shù)據(jù)量占比如圖1所示。

圖1 各城市社交媒體數(shù)據(jù)量占比

2 研究方法

2.1 關(guān)鍵詞抽取

詞頻-逆文檔頻率法(term frequency-inverse document frequency,TF-IDF)是用于數(shù)據(jù)挖掘的一種加權(quán)技術(shù),其中TF是詞頻(term frequency, TF),式中用F表示,詞頻指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù),這個數(shù)字通常會被歸一化。IDF是逆文本頻率指數(shù)(inverse document frequency,IDF),式中用FID表示,這是一個詞語普遍重要性的度量。某一特定詞語的IDF,可以由總文件數(shù)目除以包含該詞語之文件的數(shù)目,再將得到的商取對數(shù)。因此,TF-IDF是一種統(tǒng)計方法,用以評估一字詞對于一個文件集或一個語料庫中的其中一份文件的重要程度。字詞的重要性隨著它在文件中出現(xiàn)的次數(shù)成正比增加,但同時會隨著它在語料庫中出現(xiàn)的頻率成反比下降。

TF的計算如式(1)所示。

(1)

式中,Nw是在某一文本中詞條w出現(xiàn)的次數(shù);N是該文本總詞條數(shù)。

IDF的計算公式如式(2)所示。

(2)

式中,Y是語料庫的文檔總數(shù);Yw是包含詞條w的文檔數(shù),分母加一是為了避免w未出現(xiàn)在任何文檔中從而導(dǎo)致分母為0的情況。

TF-IDF就是將TF和IDF相乘,如式(3)所示。

(3)

從以上計算公式便可以看出,某一特定文件內(nèi)的高詞語頻率,以及該詞語在整個文件集合中的低文件頻率,可以產(chǎn)生出高權(quán)重的TF-IDF。因此,TF-IDF傾向于過濾掉常見的詞語,保留重要的詞語。

2.2 命名實體識別

關(guān)于社交媒體文本的地理命名實體抽取,本文選用中文詞法分析(lexical analysis of Chinese,LAC)模型,LAC是一種聯(lián)合的詞法分析模型,輸入采用獨熱編碼(one-hot)方式表示,每一個字有相應(yīng)的id對應(yīng),one-hot序列通過字表轉(zhuǎn)換為實向量表示的字向量序列,字向量再作為循環(huán)單元(gated recurrent units,GRU)的輸入,學(xué)習(xí)輸入序列的特征表示得到新的特性表示序列,這里還使用一個堆疊的雙向GRU結(jié)構(gòu)來增強學(xué)習(xí)能力,條件隨機場(conditional random field,CRF)以GRU學(xué)習(xí)到的特征為輸入,從而可以實現(xiàn)中文分詞、詞性標注、專名識別等功能。在長文本上準確復(fù)刻了百度AI開放平臺上的詞法分析算法。效果方面,分詞、詞性、專名識別的整體準確率95.5%;單獨評估專名識別任務(wù),F值87.1%,準確率90.3%,召回率85.4%。

2.3 基于百度的情感分析

百度AI開放平臺提供全球領(lǐng)先的語音、圖像、自然語言處理等多項人工智能技術(shù),我們將預(yù)處理后的社交媒體文本數(shù)據(jù)通過百度的AI接口進行的情感傾向性分析。首先對社交媒體文本數(shù)據(jù)進行情感語料標注,其中積極、消極語料各標注一千條。然后采用百度AI內(nèi)置神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型進行訓(xùn)練,本次研究所訓(xùn)練模型相對于百度AI平臺提供模型準確度提升20%左右。情感結(jié)果為[-1,1]之間的情感值,當數(shù)值越接近-1代表有強烈的消極情感,當數(shù)值越接近1代表有強烈的積極情感。

3 結(jié)果分析

3.1 公眾區(qū)域注意力分析

社交媒體中的位置信息是實現(xiàn)一系列分析的基本參數(shù),但一般公眾發(fā)布社交媒體時只有少部分人選擇發(fā)送位置,借此本研究考慮利用社交媒體文本中的位置信息來彌補社交媒體位置信息不足的缺點。當災(zāi)害發(fā)生時,處在災(zāi)害影響范圍的人可能會發(fā)布社交媒體以告知災(zāi)害嚴重性,但不在災(zāi)害影響范圍的公眾會通過新聞等途徑對災(zāi)害進行了解,并發(fā)布社交媒體對受災(zāi)嚴重的地區(qū)進行討論,所以受公眾談?wù)撟疃嗟某鞘泻蛥^(qū)域可能是最應(yīng)收到關(guān)注的地方。

借此本研究使用中文詞法分析LAC模型對暴雨中階段社交媒體文本中的位置信息進行抽取,通過地理編碼賦予其坐標值,其中經(jīng)LAC模型得到的公眾關(guān)注區(qū)域的前十五,如表2所示。

表2 暴雨期間公眾重點關(guān)注區(qū)域

根據(jù)關(guān)注權(quán)重將公眾關(guān)注高的區(qū)域以核密度分析方法進行可視化,從圖2可知,公眾關(guān)注的重點區(qū)域都在山西省南部,其中太原市受到的關(guān)注最多,這是因為太原作為山西省會人口基數(shù)相對于其他城市較多,當暴雨對城市道路通行造成影響時自然有較多的人進行關(guān)注,值得注意的是位于太原西南方向的平遙古城也受到了較多的關(guān)注,這是因為公眾十分擔心強降雨是否會對該世界文化遺產(chǎn)造成實質(zhì)影響。

圖2 文本位置核密度圖審圖號:晉S(2022)005號

3.2 公眾情感時空分析

本研究依托于EasyDL平臺,選擇高精度且同時兼顧準確率(Precision)和召回率(Recall)的情感分析模型。根據(jù)本研究所標注的情感語料,其模型訓(xùn)練效果如表3所示。

表3 情感分析模型效果 單位:%

從結(jié)果精度來看,整體情感預(yù)測的準確率達到94.6%,且正向和負向樣本的F值、精確率以及召回率都有著較好的精度結(jié)果。這也為我們后續(xù)災(zāi)害背景下的公眾情感值預(yù)測提供了科學(xué)支持。

3.2.1公眾情感時間演變

我們從時間尺度上對社交媒體文本情感值進行分析,由圖3可看出在災(zāi)害發(fā)生的各個階段積極情感占比始終高于消極情感和中性情感,且積極情感呈現(xiàn)先下降再上升的趨勢,在暴雨中階段達到最低值50%,隨后在暴雨后階段上升至70%。而消極情感的走勢與積極情感呈現(xiàn)相反的趨勢,在暴雨階段達到峰值40%后大幅降落,中性情感占比則是一直維持在10%左右。

圖3 情感趨勢變化

由此可以看得,大部分公眾對這次災(zāi)害始終抱有積極的態(tài)度,就算是暴雨發(fā)生最密集的階段積極情感也占據(jù)著較高的占比。而在暴雨后更是達到了積極情感占比的峰值,說明盡管暴雨災(zāi)害對公眾過生活帶來了較大的影響,尤其是暴雨后帶來了滑坡、墻體開裂等所導(dǎo)致的次生災(zāi)害,但是隨著救援工作和后續(xù)修繕工作的展開,公眾始終保持著較為積極的態(tài)度。

3.2.2公眾情感空間分布

對于公眾情感分布的空間特征來說,本研究將自身帶有地理位置的微博進行地理展布,并借助漁網(wǎng)圖進行空間分析,以此分析暴雨中和暴雨后階段的公眾情感變化趨勢。借助漁網(wǎng)圖可以高效地統(tǒng)計出格網(wǎng)中所占要素的多少,有助于分析不同區(qū)域間的情感狀態(tài)。

由圖4的社交媒體文本情感值空間分析可看出,在暴雨中階段山西省南部還是存在大量的消極情感,這也是因為該階段持續(xù)的高強度降雨使得公眾的生活受到了影響,但隨著暴雨停止以及全國各地前來支援工作的展開,在暴雨后階段山西省各城市的公眾情感值也基本被積極情感所占據(jù),這也體現(xiàn)了災(zāi)害各階段情感值的異步性和差異性。社交媒體數(shù)據(jù)與路網(wǎng)數(shù)據(jù)相結(jié)合可看得在暴雨期間山西省南部道路主干道上存在大量的消極情感,這也證實了交通可達性高的區(qū)域受暴雨影響較大。

圖4 公眾情感分布圖

3.3 公眾文本關(guān)注熱點分析

對于社交媒體文本關(guān)注內(nèi)容的挖掘,我們首先使用jieba這一成熟的中文分詞python庫完成社交媒體的分詞,隨后通過sklearn中實現(xiàn)的TfidfVectorizer類方法來完成TF-IDF關(guān)鍵詞信息抽取,同時在處理過程中設(shè)置哈工大停用詞表(stopword)來去掉復(fù)雜符號以及無效字詞等數(shù)據(jù)噪聲,最后根據(jù)所得詞頻的權(quán)重制作詞云圖,如圖5所示。

(a)暴雨前 (b)暴雨中 (c)暴雨后

通過詞云圖對高詞頻關(guān)鍵詞進行可視化展示,過濾了大量的低質(zhì)文本信息,有助于快速了解災(zāi)害主題。從圖5可看出災(zāi)害不同階段的公眾注意力變化,在暴雨前的公眾發(fā)布微博中大多是對氣象局做的預(yù)警進行討論,所以高詞頻被“天氣”“預(yù)計”和“降雨”等所占據(jù),而在暴雨發(fā)生階段公眾除了發(fā)布一些有關(guān)暴雨的實時變化和受損程度外,關(guān)注更多的是如何進行災(zāi)情處理和救援工作,所以該階段的詞頻被“暴雨”“救援”“高速”“滑坡”和“坍塌”等詞所占據(jù),而在暴雨后階段我們可以看出詞云中出現(xiàn)了“文物”“古建筑”“嚴重”等對詞,這是因為山西為中國地上文物最多的省份,據(jù)山西省文化廳在《山西省文化資源概況》中公布的文物資源統(tǒng)計數(shù)據(jù)為:古建筑及歷史建筑約2萬處,其中木構(gòu)建筑9 000余處,宋、金以前的木構(gòu)建筑106處,占全國同期木結(jié)構(gòu)建筑物的70%以上;元代以來的古戲臺2 000多座,均居全國之冠。所以當公眾解決暴雨對自身帶來的不利影響后,注意力焦點自然放到了易受暴雨次生災(zāi)害影響的古建筑上,而相關(guān)減災(zāi)部門在災(zāi)后也需要仔細排查古建筑的受損情況并進行修繕。

4 結(jié)束語

自然災(zāi)害事件會在很大程度上影響人類的生活,而這一過程也會不可避免地在社交媒體上留下痕跡,社交媒體數(shù)據(jù)似乎是對傳統(tǒng)數(shù)據(jù)的有益補充,每個數(shù)據(jù)都闡述自己的情感和觀念。當通過社交媒體數(shù)據(jù)對災(zāi)害發(fā)生過程有一個準確理解的時候,可以更有效地降低災(zāi)害風險。借此我們將社交媒體數(shù)據(jù)作為災(zāi)害影響評估的重要數(shù)據(jù)源。在本研究中我們以2021年10月山西暴雨為例,借助于語義分析的多種文本探測方法對微博涉災(zāi)社交媒體文本進行深度挖掘,探究了災(zāi)害期間公眾注意力焦點和情感變化,主要解決在災(zāi)害發(fā)生期間減災(zāi)人員無法獲取災(zāi)害發(fā)生地的實時狀況的情況。但仍然存在一些不足,本研究采用的數(shù)據(jù)相對來說較為單一,因此,如何將災(zāi)害發(fā)生過程中所采集到的多源數(shù)據(jù)進行深度融合將是我們下一步研究的重點。接下來可考慮將社交媒體數(shù)據(jù)和災(zāi)害傳統(tǒng)檢測數(shù)據(jù)進行深度融合,使社交媒體數(shù)據(jù)和權(quán)威數(shù)據(jù)在災(zāi)害研究中相互補充。

猜你喜歡
詞頻暴雨災(zāi)害
河南鄭州“7·20”特大暴雨災(zāi)害的警示及應(yīng)對
“80年未遇暴雨”襲首爾
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
暴雨
當暴雨突臨
我省汛期常見氣象災(zāi)害及防御
推動災(zāi)害防治工作實現(xiàn)新跨越
暴雨襲擊
支點(2017年8期)2017-08-22 17:18:27
詞頻,一部隱秘的歷史
云存儲中支持詞頻和用戶喜好的密文模糊檢索
山丹县| 五莲县| 榆社县| 台东县| 乐平市| 江都市| 常山县| 淮南市| 同德县| 淅川县| 磐石市| 合阳县| 安龙县| 南漳县| 新和县| 大英县| 观塘区| 青冈县| 筠连县| 巴马| 容城县| 江阴市| 汪清县| 沈阳市| 姜堰市| 罗甸县| 八宿县| 绥化市| 大城县| 英吉沙县| 于田县| 阿瓦提县| 浪卡子县| 海南省| 闽清县| 太仆寺旗| 于田县| 股票| 阜宁县| 河曲县| 嵊泗县|