国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于大數(shù)據(jù)的災(zāi)害期間用戶提及行為分析

2019-06-10 09:35:31李雪塵
關(guān)鍵詞:社交網(wǎng)絡(luò)災(zāi)害大數(shù)據(jù)

李雪塵

摘 ? 要:當(dāng)今大數(shù)據(jù)發(fā)展迅速,社交網(wǎng)絡(luò)也成為人們?nèi)粘J褂玫拿浇?,用戶在虛擬網(wǎng)絡(luò)中產(chǎn)生的大量數(shù)據(jù)有助于研究災(zāi)害問題,提升相關(guān)部門控制災(zāi)害的效率。本文基于暴雨期間的微博數(shù)據(jù),對(duì)用戶提及行為規(guī)律性進(jìn)行研究,并分析社交平臺(tái)內(nèi)用戶的提及行為對(duì)解決暴雨演變過程中并發(fā)問題的有效性。

關(guān)鍵詞:提及行為 ?災(zāi)害 ?社交網(wǎng)絡(luò) ?大數(shù)據(jù)

中圖分類號(hào):P208 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1674-098X(2019)02(a)-0151-03

社交媒體數(shù)據(jù)規(guī)模和差異的不斷擴(kuò)大,可為預(yù)測(cè)事件發(fā)生前的未來結(jié)果提供新思路[1-2]。Andrew Crooks基于從Twitter挖掘的大量數(shù)據(jù),克服了社交媒體不能像地震儀一樣提供地震級(jí)別的衡量標(biāo)準(zhǔn)這一缺陷,并確定了地震的波及范圍[3],充分展現(xiàn)了社交媒體對(duì)災(zāi)害研究的幫助。

在用戶行為分析方面,Linna Li等基于Twitter中用戶創(chuàng)建的地理數(shù)據(jù)與發(fā)布的照片,揭示了這些人的社會(huì)特征[4]。2015年Minh-Duc Luu等人比較了轉(zhuǎn)發(fā)與提及兩種行為與用戶使用標(biāo)簽的相關(guān)性,發(fā)現(xiàn)提及行為更占優(yōu)勢(shì),因此能更高效地反映用戶交互與行為[5]。

在突發(fā)事件中,以相關(guān)性強(qiáng)的用戶為對(duì)象研究其行為會(huì)更有意義。本文以新浪微博為數(shù)據(jù)挖掘?qū)ο?,通過構(gòu)建網(wǎng)絡(luò)分析組件屬性,發(fā)現(xiàn)用戶提及關(guān)系在暴雨研究中的有效性。

1 ?實(shí)驗(yàn)方法

本文以2012年7月北京特大暴雨為研究對(duì)象,通過微博提供的API搜集暴雨期間的微博數(shù)據(jù),從中篩選出帶有“@”的信息并據(jù)此構(gòu)建提及網(wǎng)絡(luò)與組件,分析暴雨中用戶的行為規(guī)律。

1.1 數(shù)據(jù)搜集與處理

以“暴雨”為關(guān)鍵詞通過網(wǎng)絡(luò)爬蟲和新浪微博API爬取暴雨相關(guān)信息,并經(jīng)過去重等預(yù)處理得到24855條有效數(shù)據(jù)。據(jù)此篩選出興趣時(shí)間段2012-07-21-06到2012-07-24-04的16759條數(shù)據(jù)。之后去除這些數(shù)據(jù)中含有轉(zhuǎn)發(fā)標(biāo)志“//@”的文本,從所有數(shù)據(jù)中識(shí)別出6529個(gè)被@的用戶名,作為構(gòu)建網(wǎng)絡(luò)的基礎(chǔ)。另外,從處理后的數(shù)據(jù)中抽取500條進(jìn)行采樣分析,經(jīng)過人工分類發(fā)現(xiàn)詢問朋友情況與描述暴雨相關(guān)經(jīng)歷的微博占比超過60%,表明處于提及關(guān)系中的用戶多數(shù)與暴雨有直接或間接聯(lián)系。

1.2 網(wǎng)絡(luò)構(gòu)建

本文通過對(duì)社交網(wǎng)絡(luò)中帶有“@”的信息進(jìn)行提取與分析,以有向圖的方式創(chuàng)建了一個(gè)以用戶為節(jié)點(diǎn),以用戶間提及關(guān)系為邊,且具有連接關(guān)系的提及網(wǎng)絡(luò)。此網(wǎng)絡(luò)中包含6530個(gè)節(jié)點(diǎn),4811條邊,2108條含提及關(guān)系的微博,1825個(gè)組件。在處理組件時(shí)主要分析節(jié)點(diǎn)分布、微博數(shù)、平均度、聚集系數(shù)、網(wǎng)絡(luò)直徑這五種屬性,通過組件內(nèi)部特征反映災(zāi)害趨勢(shì)。由此形成的具有分析價(jià)值的兩大組件將在第2節(jié)詳細(xì)闡述。

發(fā)布者與提及關(guān)系通過有序?qū)Γ╒,E)表示,可構(gòu)建有向圖G(V,E),V的出度表示為d+(V),是E中具有原點(diǎn)V的鏈接數(shù);V的入度表示為d-(V),表示與被提及用戶的鏈接數(shù)。同時(shí),網(wǎng)絡(luò)中包含多個(gè)組件,一個(gè)組件由節(jié)點(diǎn)V與邊E構(gòu)成,任意2個(gè)節(jié)點(diǎn)間有通過邊連接的可能性。當(dāng)一群節(jié)點(diǎn)互相連接且不與其它節(jié)點(diǎn)關(guān)聯(lián)時(shí),這群節(jié)點(diǎn)形成組件。

2 ?結(jié)果與分析

2.1 網(wǎng)絡(luò)與組件

可從網(wǎng)絡(luò)和組件的角度宏觀分析暴雨中用戶所發(fā)微博的規(guī)律、網(wǎng)絡(luò)空間中提及行為的誘因。并判斷信息傳播的方向以及在網(wǎng)絡(luò)空間和地理空間中的形式。

根據(jù)1.1所述方法從網(wǎng)絡(luò)中隨機(jī)抽取微博并進(jìn)行人工分類,數(shù)量較多的類別為:詢問朋友情況(36%),描述暴雨相關(guān)經(jīng)歷(31%),提醒朋友注意安全(7%),祈禱朋友安好(3%)。分析四種類別可知,暴雨發(fā)生時(shí)被提及用戶的位置基本都在暴雨發(fā)生地;同處于暴雨中的用戶可能在事件發(fā)生時(shí)或確認(rèn)自身安全后使用微博來提及對(duì)方;同在北京的用戶會(huì)因共同經(jīng)歷暴雨互相提及,北京以外地區(qū)的用戶會(huì)發(fā)布微博@自己擔(dān)心的朋友。可看出用戶提及關(guān)系有助于信息在暴雨發(fā)生地、暴雨以外地區(qū)雙向傳播的。

按1.2過程形成的1852個(gè)組件中節(jié)點(diǎn)數(shù)與微博數(shù)差異較大(圖1),其中多數(shù)組件內(nèi)用戶數(shù)為2~12人,節(jié)點(diǎn)數(shù)為2的組件有1015個(gè),與正常情況下用戶一條微博只提及一人的情況相符??偨Y(jié)發(fā)現(xiàn),除去提及自身的用戶,組件內(nèi)節(jié)點(diǎn)符合冪律分布。另外,含不同微博數(shù)的組件數(shù)量也存在差別,幾乎所有組件(1777個(gè))只含1條微博,表明用戶很少使用微博交流討論,即暴雨發(fā)生時(shí)微博中用戶交流較少。組件基本情況如表1所示,兩大組件將在2.3中詳細(xì)分析。

2.2 組件屬性

此小節(jié)計(jì)算的組件平均度、平均聚集系數(shù)、網(wǎng)絡(luò)直徑是2.3中分析組件的基礎(chǔ)。

(1)在計(jì)算平均度時(shí),以節(jié)點(diǎn)數(shù)為縱坐標(biāo),以組件內(nèi)平均度為橫坐標(biāo)。發(fā)現(xiàn)當(dāng)樣本數(shù)量足夠大時(shí)兩者與平均度開始出現(xiàn)正相關(guān)性。且當(dāng)平均度超過2之后,即使微博與用戶明顯增多,平均度依然處于區(qū)間(2,3)中(圖2)。首先取出14個(gè)平均度大于2的組件,去除只有兩個(gè)節(jié)點(diǎn)但度異常多的噪聲組件,剩余組件的平均度都介于(2,3),可推測(cè)出當(dāng)用戶與所發(fā)微博趨于無窮多時(shí),平均每位用戶涉及2-3段提及關(guān)系,說明用戶間提及數(shù)量有穩(wěn)定趨向。

(2)通過計(jì)算聚集系數(shù)反映用戶相關(guān)性與交互行為(圖3),去除度與節(jié)點(diǎn)數(shù)差距很大導(dǎo)致聚集系數(shù)異常高的噪聲數(shù)據(jù),剩余1個(gè)聚集系數(shù)較大(0.093355)的組件以及聚集系數(shù)為0的其它組件(1850個(gè))。較多組件的聚集系數(shù)為0,說明用戶很少通過微博互動(dòng),且可看出微博是用戶發(fā)布動(dòng)態(tài)、傳播信息的空間,和微信等社交軟件具有不同側(cè)重點(diǎn)。

(3)通過網(wǎng)絡(luò)直徑(平均最短路徑長度)反映組件內(nèi)用戶間關(guān)系遠(yuǎn)近。聚集系數(shù)從2開始與節(jié)點(diǎn)數(shù)、微博數(shù)有正相關(guān)趨勢(shì),最大的網(wǎng)絡(luò)直徑(7.90)對(duì)應(yīng)2.4中最大組件,網(wǎng)絡(luò)直徑2.00對(duì)應(yīng)以“請(qǐng)輸入用戶名”為中心的第二大組件。剩余具有較大網(wǎng)絡(luò)直徑的組件具有相似的規(guī)律,即多名用戶發(fā)布多條微博且互相提及,且微博內(nèi)容多為描述暴雨情況、關(guān)心問候,說明這些組件基本由現(xiàn)實(shí)中具有親近社交關(guān)系的朋友組成。與平均度不同,隨著節(jié)點(diǎn)與微博數(shù)量的增大,網(wǎng)絡(luò)直徑并沒有停滯于特定區(qū)間,而是持續(xù)增大,說明在一個(gè)社交群體內(nèi)用戶數(shù)量越多,用戶間具有親近關(guān)系的可能性越小。

2.3 兩大組件

找出微博與用戶數(shù)量最多的兩大組件(簡(jiǎn)稱),以政府媒體等4個(gè)用戶為中心,由其產(chǎn)生的提及或被提及行為形成組件內(nèi)節(jié)點(diǎn)出入度,信息傳播方向與現(xiàn)實(shí)空間類似的中心節(jié)點(diǎn)只有一個(gè)微博幽默博主,大量用戶通過提及這位名人傳遞信息,體現(xiàn)了網(wǎng)絡(luò)空間中的名人效應(yīng)。

最大組件(圖5)有四個(gè)出入度較多的聚集中心,都屬于媒體、政府這類現(xiàn)實(shí)生活中的主要信息源。通過分析出度最多的節(jié)點(diǎn)(一位現(xiàn)場(chǎng)報(bào)道的記者)、入度最多的兩個(gè)節(jié)點(diǎn)(“平安北京”與“北京發(fā)布”),發(fā)現(xiàn)在暴雨期間微博是用戶反映交通電路等日常問題的有效途徑,且可看出記者具有客觀展現(xiàn)暴雨情況的功能,同時(shí)北京市公安局起主要救援作用,而同樣入度較多的“頭條新聞”卻不能反映災(zāi)害內(nèi)容。據(jù)此引出通過建模來分析用戶角色的思路,以識(shí)別在災(zāi)害中具有特定功能的用戶從而提高信息搜集效率。除建模識(shí)別用戶特征外,可看出事件突發(fā)時(shí)利用微博實(shí)時(shí)搜集民眾生活問題并傳播信息的作用。

第二大組件由多位用戶提及一位名為“請(qǐng)輸入用戶名”的幽默博主組成,其余節(jié)點(diǎn)入度幾乎全為0,此博主入度高達(dá)51,接近平安北京入度(19)的3倍,說明不能簡(jiǎn)單地通過分析對(duì)比入度情況識(shí)別災(zāi)害中起重要作用的用戶。但提及此博主的微博與暴雨發(fā)展趨勢(shì)密切相關(guān),可作為信息收集的主要來源。據(jù)此可知在突發(fā)事件中用戶會(huì)通過提及現(xiàn)實(shí)中關(guān)系疏遠(yuǎn)的名人傳遞信息,即名人加入組件會(huì)加快組件擴(kuò)張速率,因此具有影響力的用戶是形成大組件的基礎(chǔ)之一。以網(wǎng)絡(luò)直徑的角度可解釋為,正是由于除普通用戶相互提及外,還有涉及名人的提及與被提及行為,所以隨著組件擴(kuò)大,組件內(nèi)用戶關(guān)系趨向疏遠(yuǎn)。

3 ?結(jié)語

災(zāi)害發(fā)生時(shí)社交媒體產(chǎn)生大量數(shù)據(jù),可作為研究用戶行為的基礎(chǔ),并為災(zāi)害趨勢(shì)的反映提供源頭。已有很多從時(shí)空角度分析災(zāi)害發(fā)生期間用戶行為的研究。社科類研究多聚焦于用戶提及轉(zhuǎn)發(fā)等行為的對(duì)比[2],少有針對(duì)災(zāi)害中用戶行為的分析。

本文的成果可總結(jié)為兩方面:一是分析了暴雨發(fā)生時(shí)虛擬網(wǎng)絡(luò)空間內(nèi)用戶提及行為的規(guī)律性;二是基于用戶提及行為,通過微博反應(yīng)災(zāi)害現(xiàn)實(shí)情況并幫助解決民眾生活問題。

之后的研究將基于本文進(jìn)行擴(kuò)充,本文在識(shí)別出災(zāi)害中發(fā)揮特殊功能的用戶后,只粗略分析災(zāi)害發(fā)展趨勢(shì)以及暴雨對(duì)用戶的影響,之后將考慮對(duì)災(zāi)害中用戶角色建立個(gè)體模型,從而精確搜集處理災(zāi)害信息。

參考文獻(xiàn)

[1] 吳志峰,柴彥威,黨安榮,等.地理學(xué)碰上“大數(shù)據(jù)”:熱反應(yīng)與冷思考[J].地理研究,2015,34(12):2207-2221.

[2] Andrew Crooks, Arie Croitoru, Anthony Stefanidis and Jacek Radzikowski. #Earthquake: Twitter as a Distributed Sensor System[J]. Transactions in GIS, 2013, 17(1): 124–147.

[3] Tsou M H , Yang J A , Lusher D , et al. Mapping social activities and concepts with social media (Twitter) and web search engines (Yahoo and Bing): a case study in 2012 US Presidential Election[J]. Cartography and Geographic Information Science, 2013, 40(4):337-348.

[4] 陳梓, 高濤, 羅年學(xué), 等. 反映自然災(zāi)害時(shí)空分布的社交媒體有效性探討[J]. 測(cè)繪科學(xué), 2017(8):48-52,133.

[5] Yu L , Zhengwei S , Chaogui K , et al. Uncovering Patterns of Inter-Urban Trip and Spatial Interaction from Social Media Check-In Data[J]. PLoS ONE, 2014, 9(1):e86026.

猜你喜歡
社交網(wǎng)絡(luò)災(zāi)害大數(shù)據(jù)
河南鄭州“7·20”特大暴雨災(zāi)害的警示及應(yīng)對(duì)
我省汛期常見氣象災(zāi)害及防御
推動(dòng)災(zāi)害防治工作實(shí)現(xiàn)新跨越
基于圖片分享為核心的社交網(wǎng)絡(luò)應(yīng)用分析
戲劇之家(2016年19期)2016-10-31 19:44:28
社交網(wǎng)絡(luò)自拍文化的心理解讀
新聞前哨(2016年10期)2016-10-31 17:46:44
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
《災(zāi)害來臨怎么辦?》
无锡市| 迭部县| 南汇区| 保靖县| 泸州市| 峨眉山市| 尼玛县| 平昌县| 凌海市| 襄城县| 阜南县| 济宁市| 满城县| 龙川县| 电白县| 永川市| 盈江县| 根河市| 勃利县| 铁力市| 沁源县| 冀州市| 平阳县| 定结县| 乐陵市| 岢岚县| 洛扎县| 平度市| 甘孜| 新泰市| 桂林市| 天气| 贵阳市| 临洮县| 浮山县| 乐平市| 荆门市| 富蕴县| 黑山县| 沁源县| 弥渡县|