李軍利,李 瑩,何宗宜 ,何撼東
(1.安徽省智慧城市與地理國(guó)情監(jiān)測(cè)重點(diǎn)實(shí)驗(yàn)室,安徽合肥230061;2.安徽農(nóng)業(yè)大學(xué)資源與環(huán)境學(xué)院,安徽合肥230036;3.河南省商丘市氣象局,河南商丘476000;4.武漢大學(xué)資源與環(huán)境科學(xué)學(xué)院,湖北武漢430079)①
傳統(tǒng)氣象災(zāi)害等觀測(cè)數(shù)據(jù)存在數(shù)據(jù)稀疏性、滯后性以及高成本特性,在社會(huì)感知中,每個(gè)居民個(gè)體都扮演著傳感器的角色,利用帶有GeoTag標(biāo)記微博等社會(huì)感知數(shù)據(jù)的高分辨特性、泛在性等特性,開(kāi)展災(zāi)害性天氣條件下的群體時(shí)空行為特征感知、公共行為模式與地理位置的相關(guān)性研究,有助于減輕災(zāi)害[1-2]。GeoTag數(shù)據(jù)是指互聯(lián)網(wǎng)上帶有地理位置信息的文本、圖片、聲音與視頻等信息,微博是一種迅速快捷、低成本的GeoTag數(shù)據(jù)源。近年來(lái)已有不少學(xué)者,借助GeoTag數(shù)據(jù)開(kāi)展相關(guān)研究。Kryvasheyeu等通過(guò)Sandy颶風(fēng)的軌跡與Twitter活動(dòng)有很高的相關(guān)性,認(rèn)為社交媒體有助于大尺度的災(zāi)害評(píng)估提供研究[3]。Chae等以颶風(fēng)為例,開(kāi)展災(zāi)害事件演化趨勢(shì)研究,抽取颶風(fēng)災(zāi)前、災(zāi)中與災(zāi)后的群體公共行為,為危機(jī)管理、災(zāi)害響應(yīng)、評(píng)估規(guī)劃提供服務(wù)[4]。Slavkovikj等以社交媒體偵察林火事件,發(fā)現(xiàn)社交媒體作為以人為中心的傳感器,在大尺度自然災(zāi)害偵察與管理中發(fā)揮著重要作用[5]。Landwehr等利用Twitter開(kāi)發(fā)了一個(gè)印尼巴東海嘯預(yù)警系統(tǒng),輔助災(zāi)害的應(yīng)急響應(yīng)[6]。Yusuke研究了日本東京大地震中,居民回家的交通行為模式[7]。王艷東等利用社交媒體研究了北京特大暴雨事件,認(rèn)為社交媒體有助于災(zāi)害的應(yīng)急響應(yīng)[8]。廖一蘭對(duì)山東疫苗事件做了時(shí)空可視化分析[9]。何宗宜等利用微博數(shù)據(jù)挖掘的用戶(hù)行為,依據(jù)微博識(shí)別事件發(fā)生所在地理位置[10]。上述研究從不同角度闡述了社交媒體有助于災(zāi)害應(yīng)急或熱點(diǎn)事件識(shí)別,而與突發(fā)寒潮氣象事件相關(guān)的研究并不多見(jiàn)。
在全球氣候變暖大背景影響下,各種災(zāi)害性天氣開(kāi)始頻繁出現(xiàn),氣象災(zāi)害和次生災(zāi)害成為城市健康和諧發(fā)展的制約因素。寒潮是合肥市下半年主要災(zāi)害性天氣[11],寒潮帶來(lái)的大風(fēng)強(qiáng)降溫、暴風(fēng)雪以及凍雨等天氣,給城市交通安全及生活帶來(lái)不便,給農(nóng)業(yè)經(jīng)濟(jì)也造成嚴(yán)重的損失[14-15]。本課題嘗試在此背景下,研究寒潮天氣下合肥市主城區(qū)微博GeoTag時(shí)空特征并進(jìn)行語(yǔ)義演化分析。
通過(guò)新浪平臺(tái)位置服務(wù)開(kāi)發(fā)接口,本研究設(shè)計(jì)開(kāi)發(fā)了一個(gè)定時(shí)自動(dòng)獲取用戶(hù)微博數(shù)據(jù)采集系統(tǒng),獲取的數(shù)據(jù)覆蓋范圍包括合肥市主要城區(qū),時(shí)間選取為2016年1月19日6點(diǎn)至1月27日24日,時(shí)間覆蓋了合肥市當(dāng)次整個(gè)寒潮天氣發(fā)生的全過(guò)程。篩選微博文本當(dāng)中的“用戶(hù)ID”“用戶(hù)名”“微博消息 ID”“微博內(nèi)容”“發(fā)表時(shí)間”和“用戶(hù)坐標(biāo)”等信息建立地理空間數(shù)據(jù)庫(kù)。經(jīng)過(guò)數(shù)據(jù)清洗等預(yù)處理,本次獲取帶有地理位置標(biāo)志的微博信息27 007條。
基于上述獲取的寒潮天氣下新浪微博數(shù)據(jù),利用GIS空間分析等方法探索寒潮發(fā)生前、中、后的微博用戶(hù)時(shí)空聚集特征。
核密度分析方法,是通過(guò)核函數(shù)將離散分類(lèi)變量經(jīng)過(guò)核密度轉(zhuǎn)換并轉(zhuǎn)變?yōu)檫B續(xù)性數(shù)值變量的一種方法,主要是識(shí)別與分析熱點(diǎn)和冷區(qū)的探索性工具[12]。Kernel密度分析方法主要是計(jì)算表面密度的方法,比傳統(tǒng)的方法生成的表面更平滑。Kernel方法的原理是在每個(gè)樣本點(diǎn)周?chē)?huà)一圓形區(qū)域,應(yīng)用從中心到邊界為由1至0變化的數(shù)學(xué)函數(shù),形成一個(gè)適合每個(gè)樣本點(diǎn)的平滑、彎曲的表面。每個(gè)單元的密度值是把覆蓋在該單元上所有的Kernel值相加的結(jié)果除以該半徑下的搜索面積。搜索半徑直接決定Kernel的大小,半徑越大Kernel越平滑[12-13]。
核密度分析是假設(shè)Y1,Y2,…,Yn是從一維總體Y中抽出的樣本,Y具有未知的密度函數(shù)f(y),則f(y)的密度核估計(jì)為[12-13]:
(1)式中K()稱(chēng)為可測(cè)函數(shù)的窗或核函數(shù),h為閾值,n為閾值范圍內(nèi)的點(diǎn)數(shù)[12-13]。
熱點(diǎn)分析可借助Getis-Ord Gi*工具計(jì)算。應(yīng)用工具可得到Z和p值,p值表示概率,Z得分表示標(biāo)準(zhǔn)差的倍數(shù)。如果要素的Z得分高且p值小,則表示有一個(gè)高值的空間聚類(lèi)。如果Z得分低并為負(fù)數(shù)且p值小,則表示有一個(gè)低值的空間聚類(lèi)。Z得分越高(或越低),聚類(lèi)程度就越大。如果Z得分接近于零,則表示不存在明顯的空間聚類(lèi)。熱點(diǎn)分析工具的工作原理是查看鄰近要素環(huán)境中的每一個(gè)要素。高值要素往往比低值要素更容易引起注意,但高值要素可能不是最具有顯著統(tǒng)計(jì)學(xué)意義的熱點(diǎn),其計(jì)算公式如下[14]:
借助Anselin Local Moran’s方法對(duì)微博數(shù)據(jù)進(jìn)行識(shí)別,如下式[15]:
Anselin Local Moran’s I方法根據(jù) Anselin Local Moran’s指數(shù)、Z得分和p值對(duì)微博位置數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)識(shí)。Z得分按下式計(jì)算[14]:
若Z>1.96,則表示鄰近微博格網(wǎng)數(shù)據(jù)具有相似值,將具有統(tǒng)計(jì)顯著性高值聚類(lèi)表示為HH,低值聚類(lèi)表示為L(zhǎng)L;若Z<-1.96,則表示其為空間異常值;其他情況表示不具有統(tǒng)計(jì)顯著性。對(duì)于第一種情況,若區(qū)域內(nèi)及其各方向鄰域,在正常狀態(tài)下均為非熱點(diǎn),如計(jì)算結(jié)果成立,則表示該區(qū)域成為了熱點(diǎn),可認(rèn)為該處發(fā)生了事件,在熱點(diǎn)分布圖上可直觀顯示。地理區(qū)域通常被劃分成多個(gè)格網(wǎng),若某區(qū)域?yàn)闊狳c(diǎn)區(qū)域,則其上的連續(xù)多個(gè)格網(wǎng)均為熱點(diǎn)格網(wǎng),這種情況下,如果該區(qū)域熱點(diǎn)格網(wǎng)的范圍擴(kuò)大可看作是正常波動(dòng),不認(rèn)定為發(fā)生熱點(diǎn)事件。第二種情況,則通過(guò):
計(jì)算熱點(diǎn)區(qū)域微博數(shù)量的增長(zhǎng)率η,η≥100%,則認(rèn)定發(fā)生了事件。(5)式中,ni為第i號(hào)格網(wǎng)內(nèi)的當(dāng)天微博數(shù),為正常狀態(tài)下第i號(hào)格網(wǎng)內(nèi)的平均微博數(shù)。
對(duì)合肥市區(qū)主城區(qū)每天的微博數(shù)據(jù)分時(shí)段進(jìn)行統(tǒng)計(jì),把24小時(shí)分為4個(gè)階段進(jìn)行統(tǒng)計(jì),時(shí)間段分別為:時(shí)段1(0點(diǎn)0分0秒至5點(diǎn)59分59秒)、時(shí)段2(6點(diǎn)0分0秒至11點(diǎn)59分59秒)、時(shí)段3(12點(diǎn)0分0秒至17點(diǎn)59分59秒)、時(shí)段4(18點(diǎn)0分0秒至23時(shí)59分59秒)。制作從1月20日到1月27日的分時(shí)段微博數(shù)量統(tǒng)計(jì)圖,如圖1所示。圖1為按每天每小時(shí)統(tǒng)計(jì)的微博數(shù),微博發(fā)布量隨時(shí)間段的變化越來(lái)越大,微博發(fā)布量在整體上呈上升趨勢(shì)。時(shí)段1為微博發(fā)布量較少的時(shí)間段,時(shí)段2微博發(fā)布量略有增加,在此基礎(chǔ)上時(shí)段3微博量略有增加,時(shí)段4為微博發(fā)布量高峰時(shí)間段。由圖1可看出,0點(diǎn)至6點(diǎn)處于人夜間睡眠的主要時(shí)間段,微博發(fā)布量少表明居民活動(dòng)少;6點(diǎn)至12點(diǎn)微博發(fā)布量逐漸增加,表明居民活動(dòng)開(kāi)始增加,該時(shí)段處于城市居民的上班工作時(shí)間;18點(diǎn)至24點(diǎn),居民進(jìn)入夜間消費(fèi)階段,微博發(fā)布量持續(xù)上升并達(dá)到微博數(shù)量分時(shí)間段的高峰,在目前普遍采用的“朝九晚五”作息規(guī)律的前提下,由于該時(shí)段是居民下班后餐飲、購(gòu)物、休閑娛樂(lè)和居家等活動(dòng)的主要參與時(shí)段,因此微博數(shù)量值最大。
圖1 微博發(fā)布數(shù)量時(shí)間段統(tǒng)計(jì)圖
對(duì)合肥市主城區(qū)發(fā)布的微博數(shù)據(jù),按每天發(fā)布總量進(jìn)行統(tǒng)計(jì),分析表明微博發(fā)布量在1月20日達(dá)到頂峰,隨后逐漸下降,與現(xiàn)實(shí)中的天氣狀況相吻合。在20日這天,氣溫急劇下降并伴隨大雪,微博量達(dá)到峰值,表明人們對(duì)寒潮所帶來(lái)的降溫、雪具有更大的敏感性并對(duì)其給予更大的關(guān)注。伴隨著降雪過(guò)程的結(jié)束、寒潮的退去,人們對(duì)降雪的關(guān)注度也開(kāi)始降低,微博量隨后逐漸下降,在整體上呈下降趨勢(shì)。
圖2為通過(guò)蜂窩密度圖分析得出寒潮期間合肥市微博的主要集中地。從圖2可看出,寒潮主要集中在一環(huán)二環(huán)內(nèi),政務(wù)文化新區(qū)、天鵝湖附近區(qū)域、大學(xué)城翡翠湖附近等區(qū)域。一環(huán)二環(huán)是市區(qū)經(jīng)濟(jì)中心、商業(yè)中心,人口相對(duì)集中;天鵝湖附近區(qū)域是政治文化中心,人口也比較集中;而大學(xué)城翡翠湖附近集中了部分高校,高校師生分布相對(duì)集中,該區(qū)域也是微博用戶(hù)集中地。
圖2 蜂窩密度圖
將核密度圖與合肥市主城區(qū)路網(wǎng)疊加進(jìn)行分析,微博發(fā)布地主要集中在一環(huán)、二環(huán)內(nèi)及政務(wù)文化新區(qū)翡翠湖附近。圖3所示,顏色越深代表密度越大,活動(dòng)越密集;顏色越淺代表密度越低,活動(dòng)頻率越小。由核密度圖可看出,微博發(fā)布地主要集中在一環(huán)和二環(huán)內(nèi),且一環(huán)內(nèi)密度更集中。一環(huán)內(nèi)是經(jīng)濟(jì)政治文化中心,該區(qū)域人口密度較高,相對(duì)微博發(fā)布量也大。還有一部分集中在徽?qǐng)@、歡樂(lè)島、明珠廣場(chǎng)和翡翠湖附近,這部分區(qū)域是旅游觀光中心與教育集中區(qū),如在翡翠湖附近集中了部分高校,一般高校學(xué)生相對(duì)普通民眾使用微博的頻率更高一些。
借助熱點(diǎn)分析,制作寒潮期間合肥市微博數(shù)據(jù)的熱點(diǎn)圖,如圖4所示,顏色深的紅色區(qū)域表示發(fā)布微博的熱點(diǎn)區(qū)域。通過(guò)與城市地理位置興趣點(diǎn)比對(duì),發(fā)現(xiàn)熱點(diǎn)區(qū)域主要集中在合肥火車(chē)站、合肥南站、一環(huán)內(nèi)的高校集中區(qū)、政務(wù)文化新區(qū)的天鵝湖附近、淮河路步行街。具體體現(xiàn)在南一環(huán)路、站前東路、徽州路、環(huán)城路、天鵝湖路、潛山路、翡翠路以及沿河路。合肥市是華東地區(qū)綜合交通和通信樞紐之一,火車(chē)站和高鐵南站是人流聚集地,而且寒潮期間趕上農(nóng)民工返鄉(xiāng)及高校放寒假的高潮,車(chē)站人流量較大,有關(guān)寒潮災(zāi)害的微博也相應(yīng)增加,使車(chē)站成為熱點(diǎn)區(qū)域之一;在一環(huán)附近集中了安徽農(nóng)業(yè)大學(xué)、安徽大學(xué)(老校區(qū))、安徽醫(yī)科大學(xué)、安徽中醫(yī)學(xué)院、中國(guó)科技大學(xué)等高校,師生群體相對(duì)集中,從熱點(diǎn)圖來(lái)看該區(qū)域微博發(fā)布量較大;政務(wù)文化新區(qū)的天鵝湖是合肥市民旅游休閑的新去處,不但環(huán)境優(yōu)美,還是目前合肥市內(nèi)最大的開(kāi)放式公園之一,旁邊新建了體育場(chǎng)、大劇院、市政辦公中心等多處建筑,成為合肥的政治文化休閑中心地,該區(qū)域微博發(fā)布量也較大;而淮河路步行街是集購(gòu)物、旅游、文化、休閑、餐飲等功能為一體的現(xiàn)代文化商業(yè)步行街,人流相對(duì)集中,也是微博發(fā)布集中地。
對(duì)合肥主城區(qū)創(chuàng)建400 m×400 m格網(wǎng),統(tǒng)計(jì)出每個(gè)格網(wǎng)面數(shù)據(jù)中微博點(diǎn)的數(shù)量,對(duì)每個(gè)格網(wǎng)中的微博點(diǎn)進(jìn)行聚類(lèi)與異常值分析,將不顯著的格網(wǎng)面刪除,得到聚類(lèi)與異常值分析圖,如圖5所示。圖中顯示了熱點(diǎn)高區(qū)域,發(fā)現(xiàn)除一環(huán)與二環(huán)內(nèi)熱點(diǎn)相對(duì)比較集中外,唯獨(dú)南部區(qū)域相對(duì)獨(dú)立集中,該區(qū)域?yàn)楹戏适袨I湖新區(qū),有萬(wàn)達(dá)樂(lè)園、濱湖西河公園、輪滑場(chǎng)、美術(shù)館等娛樂(lè)場(chǎng)所,寒潮期間微博發(fā)布量較平常發(fā)布相對(duì)多,實(shí)地調(diào)查發(fā)現(xiàn)該地區(qū)游玩的人數(shù)較平時(shí)增長(zhǎng)較多,參觀及欣賞雪景的同時(shí),用戶(hù)發(fā)布相應(yīng)主題的微博。
圖3 微博發(fā)布用戶(hù)空間分布核密度圖
表1 寒潮主題詞庫(kù)
針對(duì)寒潮期間微博相關(guān)主題,構(gòu)建寒潮災(zāi)害主題特征詞庫(kù)表,如表1所示。按從寒潮的名稱(chēng)、形成、結(jié)構(gòu)、路徑、災(zāi)害等級(jí)、警報(bào)級(jí)別、災(zāi)害鏈以及災(zāi)害等相關(guān)概念進(jìn)行總結(jié)歸納。
圖4 微博發(fā)布用戶(hù)空間分布熱點(diǎn)圖
圖5 聚類(lèi)與異常值分析圖
利用寒潮主題詞庫(kù),進(jìn)行自然語(yǔ)言處理,借助詞頻-逆文件頻率方法[16-17],統(tǒng)計(jì)出寒潮相關(guān)主題詞在微博文檔中出現(xiàn)的頻率,該方法強(qiáng)調(diào)字詞重要性與其在微博文本中出現(xiàn)的次數(shù)成正比。圖6為頻率統(tǒng)計(jì)制作詞云圖,詞語(yǔ)字體的大小直接反映了詞語(yǔ)出現(xiàn)頻率的高低,從圖中可看出,詞語(yǔ)主要與人們的日常生活相關(guān),但同時(shí)觀察到在寒潮期間人們對(duì)寒潮的關(guān)注度上升,出現(xiàn)了“雪”“寒”“冷”和“凍”等一系列和寒潮相關(guān)的熱詞。對(duì)比日常生活出現(xiàn)的熱詞,發(fā)現(xiàn)此次微博熱點(diǎn)除了集中在日常生活方面,還重點(diǎn)體現(xiàn)在寒潮的發(fā)生方面,表示這一時(shí)間段出現(xiàn)了特殊的天氣狀況。如在此次熱詞當(dāng)中“雪”出現(xiàn)了218次,對(duì)比其他分詞出現(xiàn)的頻率,表明在1月19日至1月27日這個(gè)時(shí)間段里雪受到的關(guān)注度比較大。結(jié)合高頻寒潮詞匯發(fā)生的時(shí)空分布特征,有助于開(kāi)展災(zāi)害性天氣條件下的群體公共行為模式與地理位置的相關(guān)性研究。
圖6 熱詞統(tǒng)計(jì)詞云圖
借助合肥市寒潮期間新浪微博數(shù)據(jù),分別從時(shí)間、空間與語(yǔ)義方面探討寒潮發(fā)生前、中、后的GeoTag微博用戶(hù)時(shí)空聚集特征。在時(shí)間上,微博發(fā)布量的變化與寒潮發(fā)生存在一定的相關(guān)性,一天當(dāng)中18時(shí)至24時(shí)是微博高發(fā)時(shí)段,且1月20日總發(fā)布量達(dá)最大。在空間上,微博發(fā)布高密度區(qū)域地主要集中在三大類(lèi)區(qū)域:第一類(lèi)是購(gòu)物商圈,如淮河路步行街商圈;第二類(lèi)是高校區(qū)域,如翡翠湖附近的高等院校;第三類(lèi)是合肥市區(qū)的觀光游玩之地,如徽?qǐng)@、歡樂(lè)島、萬(wàn)達(dá)樂(lè)園等。這與城市的人口空間結(jié)構(gòu)基本穩(wěn)合,且與其旅游行為與生活習(xí)慣相關(guān)。在語(yǔ)義詞頻統(tǒng)計(jì)方面,“雪”“寒”“冷”和“凍”等一系列和寒潮相關(guān)的熱詞,在寒潮期間出現(xiàn)頻率有突升的趨勢(shì)。本研究暫未結(jié)合定位導(dǎo)航大數(shù)據(jù)、交通智能卡大數(shù)據(jù)與移動(dòng)通信大數(shù)據(jù)探討突發(fā)寒潮天氣下公共群體行為模式等問(wèn)題,后續(xù)研究中將進(jìn)一步完善。