国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

微博“路面塌陷”事件的時空分布特征研究

2022-10-31 11:59王海起徐建波孔浩然李留珂王志海
地理空間信息 2022年10期
關(guān)鍵詞:分異關(guān)注度主觀

王海起,徐建波*,孔浩然,李留珂,王 瓊,王志海

(1.中國石油大學(xué)(華東)海洋與空間信息學(xué)院,山東 青島 266580)

目前,BTM主題模型受到國內(nèi)外學(xué)者的廣泛關(guān)注[1-2],如孫晶晶[3]基于BTM提出一種微博群體用戶畫像模型(group user profile model based topic model),即將用戶的背景信息、社交信息、主題興趣緊密聯(lián)系在一起,從而構(gòu)建出更為精確、全面的社交平臺微博群體的用戶畫像;于衛(wèi)紅[4]使用BTM算法對船舶自沉事故原因文本進行主題建模,對隸屬于同一事故原因的詞語進行聚類,并根據(jù)主題在文檔中的分布情況初步量化出各種事故原因的發(fā)生概率;Bhat[5]等使用BTM主題模型從潛在主題了解Twitter標(biāo)簽;Song[6]等將BTM主題模型與向量空間模型(VSM)結(jié)合用于探測微博熱點以及其演化過程。但目前利用BTM模型挖掘微博本文來分析“路面塌陷”事件時空分布特征的研究幾不可見。本文通過挖掘微博文本數(shù)據(jù),借助情感分析方法獲取微博文本的主觀情緒強度,并通過BTM模型獲得每篇微博的主題類別?;谥黝}模型對“塌陷事件”的數(shù)量、關(guān)注度(關(guān)于同一路面塌陷事件的微博數(shù)量)、主觀情緒強度的時空分布特征進行詳細分析。并使用地理探測器方法從文本角度研究關(guān)注度因子與主題因子兩者對主觀情緒強度的影響機制。

1 數(shù)據(jù)概況及預(yù)處理

1.1 數(shù)據(jù)概況

本文利用網(wǎng)絡(luò)爬蟲技術(shù)[7]獲取新浪微博的話題微博,將搜索關(guān)鍵詞設(shè)置為“路面塌陷”,將時間范圍設(shè)置為2013-01-01~2018-01-01,總計獲取82 645條微博數(shù)據(jù)。每條數(shù)據(jù)包含發(fā)布時間、文字內(nèi)容、發(fā)布者微博名等字段。

1.2 文本預(yù)處理

采用正則表達式去除數(shù)據(jù)中的大量的圖片、鏈接、視頻等內(nèi)容,處理后的微博正文內(nèi)容只包含中文字符和數(shù)字[8]。

我們發(fā)現(xiàn),絕大多數(shù)微博都未標(biāo)注地理位置,因此需要從文本中獲取地名信息。從文本中獲取地名信息利用的是命名實體識別技術(shù),即從給定文本中抽取人名、位置、機構(gòu)名稱、專業(yè)領(lǐng)域術(shù)語等專有名詞[9]。目前國內(nèi)較成熟的命名實體識別工具多種多樣。本文選取其中應(yīng)用較成熟的BosonNLP工具獲取路面塌陷數(shù)據(jù)的地名,并經(jīng)人工判斷修正錯誤的地名以及存在的多地名問題。

1.3 路面塌陷事件位置可視化

利用百度地圖API將微博內(nèi)容中的文本地址轉(zhuǎn)為百度坐標(biāo),再通過坐標(biāo)轉(zhuǎn)換公式將其轉(zhuǎn)為World Geodetic System-1984 Coordinate System,文本地址采集率為62%,包含地點5 455個,其地理分布情況如圖1所示。

從圖1中可以看出,“路面塌陷”事件多發(fā)于中國中部地區(qū)、東部地區(qū),在新疆地區(qū)也有零散發(fā)生。疏密分界線與胡煥庸線、400 mm等降水量線基本符合,側(cè)面說明了人類活動以及降水量對路面塌陷起到了重要的作用[10-11]。路面塌陷事件發(fā)生密集區(qū)多為鄭州、北京、西安、蘭州、杭州、深圳等人口更為稠密的大城市,剩下的除西部地區(qū)以外的城市也存在路面塌陷,但是發(fā)生次數(shù)相對較少。

2 情感值計算與數(shù)據(jù)可視化

2.1 基于詞典的情感計算方法

通過圖2所示的情感計算方法得到了每條微博的情感值,用情感值來描述主觀情緒強度,情感值越低說明微博內(nèi)容越消極,即主觀情緒強度越高。

2.2 主觀情緒強度與關(guān)注度空間分布可視化

為了探究每個路面塌陷事件的主觀情緒強度,我們先統(tǒng)計每個路面塌陷事件的微博數(shù)量以及其對應(yīng)的情感值,并對屬于同一塌陷事件的所有微博的情感值求平均作為此事件的情感值,考慮到少數(shù)情感極值會對數(shù)據(jù)造成負面影響,剔除微博數(shù)量小于3的路面塌陷事件,最終得到46 972條微博數(shù)據(jù)(包含:1 760個路面塌陷事件)。圖3a展示了全國范圍內(nèi)路面塌陷事件的主觀情緒強度分布的核密度分布圖。根據(jù)圖3a可以發(fā)現(xiàn),主觀情緒強度較高的主要是以鄭州市、西安市、無錫市、北京市、深圳市為中心地區(qū),除此之外,以蘭州市、長春市、南寧市、泉州市為中心的地區(qū)的主觀情緒強度也相對較高。從結(jié)果中來看,主觀情緒強度空間分布不均勻,呈現(xiàn)出明顯的空間聚集特征。

本文將關(guān)注度定義為涉及該路面塌陷事件的微博數(shù)量,即人們對某一路面塌陷事件的發(fā)博數(shù)量越多,表示該事件的關(guān)注度越高。圖3b顯示了路面塌陷事件的關(guān)注度在全國范圍內(nèi)的分布情況。從圖3b中可以看出,路面塌陷事件關(guān)注度較高的多集中于以北京市、鄭州市和杭州市為中心的區(qū)域,除此之外,在深圳市、蘭州市、西安市、杭州市、成都市、南寧市長沙市等區(qū)域的路面塌陷事件也有著相對較高的關(guān)注度。

為了探究路面塌陷事件關(guān)注度與主觀情緒強度之間的關(guān)系以及各自的數(shù)據(jù)特性,利用1 760個塌陷事件的關(guān)注度與主觀情感強度繪制了散點圖(圖4a)、數(shù)據(jù)統(tǒng)計餅圖(圖4b)。

結(jié)果表明,94.38%的路面塌陷事件表現(xiàn)為消極情緒,89.4%的路面塌陷事件的關(guān)注度都在50以下,關(guān)注度最高是2 509。人們對于路面塌陷事件的情緒基本表現(xiàn)為消極,極少部分表現(xiàn)為積極情緒的事件大都與路面塌陷后的維修進展、恢復(fù)通車情況、慶幸避開塌陷事件相關(guān)。關(guān)注度最高的事件對應(yīng)微博內(nèi)容與主觀情緒強度分別為“德勝快速路西向東航海路不到200 m路面塌陷!”、-0.699,此事件雖然關(guān)注度最高,但主觀情緒強度并不強烈。再結(jié)合散點圖來看,隨著關(guān)注度的升高,人們的主觀情緒強度逐漸趨于穩(wěn)定,路面塌陷事件的關(guān)注度與主觀情緒強度之間沒有線性關(guān)系。在本文所使用的數(shù)據(jù)基礎(chǔ)上,關(guān)注度越大的事件,其主觀情緒強度不一定越高。

3 BTM主題模型構(gòu)建

3.1 BTM模型基本原理

BTM模型基于文檔-詞共現(xiàn)模式來學(xué)習(xí)主題,圖5展示了BTM模型的生成過程。

其中α和β是Dirichlet先驗參數(shù),語料庫級別的主題概率分布以符號θ表示,某個主題下主題詞的概率分布以符號φ表示,詞對(wi,wj)表示主題詞,z是該詞對所對應(yīng)的主題標(biāo)號,整個語料庫中詞對的數(shù)目以符號|B|表示。語料庫的生成過程如以下步驟所示:

1)生成主題z的詞分布φz~Dir()

β;

2)生成語料庫的主題分布θ~Dir(α)。

對詞對集B中每個biterm進行如下處理:

1)從整個語料庫的主題分布θ中選取一個主題z;

2)從主題z的詞分布中選取兩個詞,構(gòu)成一組詞對。

3.2 主題一致性指標(biāo)

一般研究中采用主題一致性指標(biāo)確定最合適的主題數(shù)目,即對主題下的高得分詞之間的語義相似度進行度量進而評估主題質(zhì)量[12-13]。D(v)表示包含單詞v的文檔數(shù)目,D(v,v’)表示同時包含單詞v和單詞v’的文檔數(shù)目,定義主題一致性如公式(1)所示:

大的單詞列表;?為用于避免分子為0的平滑系數(shù),一般取1。

本文利用主題一致性指標(biāo)對“路面塌陷”選取合適的主題數(shù)目。根據(jù)多次實驗結(jié)果,當(dāng)主題數(shù)目K=8時,主題一致性得分取得最大值。

3.3 發(fā)現(xiàn)主題

利用BosonNLP對中文文本預(yù)處理后,使用BTM模型來獲得微博文本的主題,設(shè)置K=8,α=50/K,β=0.01,迭代2 000次。最終獲得文檔-主題概率分布和主題-詞概率分布兩個概率分布文件。主題-詞概率分布文件包含各個主題下概率最高的前20個詞,然后以詞云的方式對8個主題進行顯示(8個主題按概率值大小順序排列,圖中字體大小表示該詞在此主題中出現(xiàn)的概率大小),如圖6所示。

圖6 主題1~8詞云圖展示

根據(jù)圖6可發(fā)現(xiàn),前4個主題分布最廣,其概率值之和達到81.4%,而后4個主題概率值之和只有18.6%。前4個主題主要描述路面塌陷事故發(fā)生以及人員傷亡情況,后4個主題主要表示路面塌陷事故的原因與事故造成的基礎(chǔ)設(shè)施損壞。

4 基于主題的時空分布特征分析

4.1 時間特征分析

分別統(tǒng)計各個時間段下的各個主題的微博數(shù)量分布與事件數(shù)量分布,結(jié)果如圖7a、b所示。

圖7 時序變化圖

根據(jù)圖7a可發(fā)現(xiàn),涉及路面塌陷事件的微博數(shù)量持續(xù)減少。2013年、2014年、2015年這3 a各個主題都有明顯分布,且主題1的分布占據(jù)最大比重。2016年、2017年這兩年,主題2占據(jù)最大比重,微博數(shù)量集中在前4個主題,后4個主題分布極少。根據(jù)圖7b可發(fā)現(xiàn),路面塌陷事件的總數(shù)量先上升后降低,在2016年達到區(qū)間峰值,這與我國2013—2017年的年均降水量走勢圖基本相似,2016年為2013—2017年之間降水量最多的年份,大量的降水引發(fā)了大量的塌陷事件[11]。從事件數(shù)量的主題分布來看,不同年份的分布情況基本一致。路面塌陷事件中,主題1、2占有最大比重,遠超其余主題所占比重之和。對比圖7a和圖7b可以發(fā)現(xiàn),路面塌陷事件數(shù)量整體逐年遞增,但是人們對路面塌陷事件的發(fā)博數(shù)卻迅速降低,兩者呈現(xiàn)出一種負相關(guān)關(guān)系,說明關(guān)注重心偏離路面塌陷事件。

圖8展示了路面塌陷事件各主題整體的主觀情緒強度。數(shù)據(jù)表明,不同的主題的主觀情緒強度差異性較大,主觀情緒強度最高的是主題4,主觀情緒強度最低的是主題5,綜合主題的內(nèi)容可發(fā)現(xiàn),人們對涉及生命安全的事件的主觀情緒最為敏感,對事故導(dǎo)致的水管爆裂路面積水等災(zāi)后影像反應(yīng)較輕。

圖8 “路面塌陷”事件各主題整體主觀情緒強度

4.2 空間特征分析

地理探測器[14]是檢驗單變量的空間分異性或者探尋2個變量空間分布的耦合性的一種方法,其中分異及因子探測模塊用于檢驗?zāi)骋蜃訉δ繕?biāo)因子空間分異的影響力,交互探測模塊用于識別不同影響因子對目標(biāo)的空間分異是獨立影響還是交互影響。這種技術(shù)不需要考慮復(fù)雜的前提條件,也不受傳統(tǒng)統(tǒng)計方法中的變量選擇的限制,在地理信息領(lǐng)域的研究中逐漸受到青睞[15-16]。本研究主要應(yīng)用這2個模塊,從文本角度探測地面塌陷事件關(guān)注度,以及主題類別2個因子各自對主觀情緒強度空間分異的影響以及兩因子交互對主觀情緒強度空間分異的影響。

1)分異及因子探測模型。主觀情緒強度空間分異受到多種因素制約,分異及因子探測模型能夠辨別不同的影響因子對主觀情緒強度空間分異的影響程度。模型原理為檢驗屬性空間分異與因子空間分異的兩空間分布的一致性,公式如下[14]:

式中,qF,S為影響因子F對主觀情緒強度S的影響力指標(biāo);為整個區(qū)域主觀情緒強度的方差;n為研究區(qū)域的樣本數(shù)量;m為子區(qū)域的個數(shù);為子區(qū)域主觀情緒強度的方差。當(dāng)時,模型成立。越大,說明因子對主觀情緒強度的解釋能力越大。

2)交叉探測模型。不同影響因子對主觀情緒強度空間分異情況可能會存在交互作用,可以利用地理探測器中的交叉探測模型分析不同影響因子間的交互作用如何影響主觀情緒強度空間分異,公式如下:

式中,qF,S(Fi∩Fj)為兩影響因子Fi,F(xiàn)j(i≠j)交互對主觀情緒強度S的影響力指標(biāo);qF,S(Fi)、qF,S(Fj)分別為影響因子Fi、Fj對主觀情緒強度S的影響力指標(biāo)。

此外,地理探測器對類別數(shù)據(jù)的解算能力明顯優(yōu)于對連續(xù)數(shù)據(jù)的解算能力,主題類別已經(jīng)是類別數(shù)據(jù),無需重新離散化。根據(jù)事件關(guān)注度數(shù)據(jù)特點及多次實驗結(jié)果,將事件關(guān)注度數(shù)據(jù)劃分為12個級別(1、2、3、4、5、6、7、8、9、10、11、12級),比較主觀情緒強度空間分異情況;1代表3≤關(guān)注度<4,2代表4≤關(guān)注度<5,3代表5≤關(guān)注度<6,4代 表6≤關(guān)注度<7,5代 表7≤關(guān)注度<8,6代表8≤關(guān)注度<9,7代 表9≤關(guān)注度<10,8代 表10≤關(guān)注度<11,9代 表11≤關(guān)注度<12,10代表12≤關(guān)注度<14,11代表14≤關(guān)注度<21,12代表21≤關(guān)注度。結(jié)果表明,當(dāng)關(guān)注度按照以上數(shù)值進行分級時,主觀情緒強度顯著差異性結(jié)果為最佳,地理探測器探測結(jié)果如表1、2所示。

表1 關(guān)注度因子、主題因子的影響力

表2 關(guān)注度因子與主題因子之間的交互作用

分異及因子探測主要是用來研究各個因子對“路面塌陷”事件的主觀情緒強度空間分布差異的影像程度。從人文角度來看,相對微博數(shù)量,微博內(nèi)容跟主觀情緒強度更具關(guān)聯(lián)性。

交互探測主要分析關(guān)注度因子與主題因子對主觀情緒強度空間分異情況是否存在交互作用。結(jié)果表明,主題因子與關(guān)注度因子明顯具有交互增強作用,且表現(xiàn)為非線性增強,主題因子與關(guān)注度因子交互后表現(xiàn)為0.127的解釋力,與關(guān)注度因子的影響力(0.015)與主題因子的影響力(0.089)之和相比更具解釋力,也就是說主觀情緒強度空間分異情況受到關(guān)注度因子與主題因子的共同制約,也印證了從文本角度來看,主觀情緒強度是微博數(shù)量與微博內(nèi)容綜合作用的結(jié)果。

5 結(jié)語

本文基于“路面塌陷”事件的相關(guān)微博數(shù)據(jù),借助主題模型提取出8類主題,然后結(jié)合時空分布與地理情感進行分析,發(fā)現(xiàn)路面塌陷事件的關(guān)注度正在逐年下降,且主觀情緒強烈的主要為造成傷亡類的主題事件。利用地理探測器發(fā)現(xiàn)關(guān)注度因子、主題因子對于主觀情緒強度空間分異具有協(xié)同作用。本文挖掘了“路面塌陷”事件微博的地理情感的時間演變與空間分布的差異性,所用方法與傳統(tǒng)的問卷調(diào)查、數(shù)據(jù)采集等方法相比,具有獲取快捷、成本低廉、方法簡單等優(yōu)勢,為深入研究情感地理學(xué)提供了新的思路。然而,本文未對“路面塌陷”事件背后的影響機制進行探究,綜合考慮相關(guān)的自然條件、社會發(fā)展、人文風(fēng)俗等因素是接下來的研究重點。

猜你喜歡
分異關(guān)注度主觀
陜西關(guān)中農(nóng)業(yè)現(xiàn)代化時空分異特征
閬中市撂荒耕地的空間格局分異特征探析
成都黃龍溪景區(qū)旅游環(huán)境舒適度評價及其時空分異
黃埔:全新舊改大盤來襲 富力南馳富頤華庭:第二CBD舊改大盤,關(guān)注度極高
加一點兒主觀感受的調(diào)料
后印象
掙多少錢,才可以買到快樂
中國星級酒店的旅游經(jīng)濟效應(yīng)分異研究
雄安新區(qū)媒體關(guān)注度
全國兩會媒體關(guān)注度
张家界市| 隆化县| 喀喇| 娄烦县| 富民县| 崇左市| 青浦区| 兴仁县| 丹东市| 中牟县| 科技| 吉安县| 新竹县| 东海县| 永修县| 浦城县| 孝昌县| 江陵县| 抚远县| 平顺县| 陆川县| 浏阳市| 哈尔滨市| 太原市| 玉屏| 平原县| 孟村| 湘潭县| 三原县| 分宜县| 佛冈县| 巍山| 鄂伦春自治旗| 宽城| 土默特右旗| 双柏县| 松溪县| 巩义市| 鄂尔多斯市| 磴口县| 昌吉市|