吳秀蕓,王海江,梁寒冬
(1.寧波市測繪和遙感技術研究院,浙江 寧波 315042)
當前,地理信息產(chǎn)業(yè)正面臨著以互聯(lián)網(wǎng)、大數(shù)據(jù)為依托的信息化多業(yè)共生、融合發(fā)展模式,GIS技術擁抱大數(shù)據(jù)已成為熱潮[1],正在重構地理信息的產(chǎn)業(yè)鏈條。寧波市作為全國首批系統(tǒng)開展智慧城市建設的城市,發(fā)展大數(shù)據(jù)基礎扎實、前景廣闊。近年來,寧波市政府頻頻出招,積極推動大數(shù)據(jù)落地。2016年10月寧波市人民政府發(fā)布的《關于推進大數(shù)據(jù)發(fā)展的實施意見》提出,到2020年將寧波打造成為國家級城市大數(shù)據(jù)產(chǎn)業(yè)基地。2016年12月寧波市政府與百度公司簽訂戰(zhàn)略合作備忘錄,決定以“全國首個試點示范”的高標準共建百度云智·寧波大數(shù)據(jù)產(chǎn)業(yè)基地。2020年5月寧波與阿里巴巴(中國)有限公司簽署全面合作框架協(xié)議,建立寧波阿里中心,將圍繞五大領域開展一系列合作,推進智慧城市、智能經(jīng)濟和大數(shù)據(jù)產(chǎn)業(yè)融合發(fā)展。
互聯(lián)網(wǎng)大數(shù)據(jù)作為用戶覆蓋最廣、信息最豐富的大數(shù)據(jù),包含了人類群體的時空活動特征,能有效展現(xiàn)城市人口流動的軌跡和時空聚集狀態(tài);通過一定的空間可視化表達處理,可直觀描述城市中人群的分布狀況,較好地彌補傳統(tǒng)靜態(tài)地理數(shù)據(jù)的局限性,具有重要的研究意義和應用價值。
互聯(lián)網(wǎng)位置大數(shù)據(jù)的樣本量大、數(shù)據(jù)客觀全面、采樣不會有很明顯的傾向性,且具有較強的時空連續(xù)性,可觀測到用戶出行的整個過程,是任何其他數(shù)據(jù)源無法實現(xiàn)的。阿里巴巴作為目前國內最大的互聯(lián)網(wǎng)公司,占據(jù)了80%的智能手機用戶,每日定位和路徑規(guī)劃請求達到了千億級,通過在不同環(huán)境場景下對GPS定位、IP定位、基站定位、WiFi定位4種定位數(shù)據(jù)的選擇與組合,實現(xiàn)用戶位置信息的記錄和跟蹤,形成用戶定位軌跡數(shù)據(jù);依托阿里系產(chǎn)品(如高德地圖、天貓、淘寶、餓了嗎等)和高德地圖獨有的人地關系數(shù)據(jù),按照不同維度對用戶線上行為數(shù)據(jù)進行標記、排序、提取,并與用戶手機ID進行關聯(lián),形成用戶畫像信息。本文利用從阿里云特定接口解析處理并濾除用戶屬性后的加密手機信號數(shù)據(jù),不會涉及個人隱私信息。在進行研究工作之前,需對這些數(shù)據(jù)進行格式轉換、清洗降噪等預處理,并將手機定位數(shù)據(jù)映射到地理空間位置,從而完整、客觀地還原手機用戶的出行鏈軌跡,最終挖掘得到人口空間分布與活動特征信息。
由于原始的互聯(lián)網(wǎng)位置大數(shù)據(jù)是以JSON格式存儲的,時間、位置均沒有單位的存儲,數(shù)據(jù)冗余度高,因此首先需按照數(shù)據(jù)內容分別建立數(shù)據(jù)字典,將其統(tǒng)一轉換至Postgre SQL數(shù)據(jù)庫中。此外,由于受到傳輸干擾、信號彈跳、漂移等原因,基于互聯(lián)網(wǎng)采集的定位軌跡大數(shù)據(jù)會產(chǎn)生大量無效且錯誤的數(shù)據(jù),導致原始數(shù)據(jù)不能真實反映用戶的出行軌跡[2],因此需對原始數(shù)據(jù)進行清洗,識別并清除錯誤無效的數(shù)據(jù)。對于用戶ID數(shù)據(jù)缺失的情況,可通過上下文信息進行補全,濾除時間連續(xù)、坐標偏移卻很大的數(shù)據(jù),抽稀同一個空間位置出現(xiàn)的一系列密集點,完成互聯(lián)網(wǎng)位置大數(shù)據(jù)的標準化、格式化清洗入庫。
互聯(lián)網(wǎng)大數(shù)據(jù)原始數(shù)據(jù)除時間屬性有序外,其空間位置和空間語義均高度無序,無法直接進行出行統(tǒng)計分析,需進行地理空間關聯(lián),以實現(xiàn)大數(shù)據(jù)地圖的可視化展示。本文結合已有的電子地圖、地名地址等要素矢量數(shù)據(jù),將互聯(lián)網(wǎng)大數(shù)據(jù)的位置信息與地理網(wǎng)格(包括區(qū)縣、鄉(xiāng)鎮(zhèn)街道、社區(qū)村、基層網(wǎng)格等各級行政區(qū)劃信息)進行多級綁定關聯(lián),建立語義信息與地理空間的索引字典,并基于時間戳對其進行時間聚類,得到具備空間屬性的用戶出行大數(shù)據(jù)時間序列;再以月、周、天、小時、分等不同時間段為單位,根據(jù)各類數(shù)據(jù)的時間戳分別進行時間聚類,并以公安、政法等人口調查數(shù)據(jù)為母體,根據(jù)樣本與母體的數(shù)量差異計算擴樣系數(shù),從手機用戶群體有效擴樣至總體人口(包括持手機人群與無手機人群);最終構建出具有空間屬性的以時段為單位的位置大數(shù)據(jù)集合。
在地理空間關聯(lián)的基礎上,提取出行特征,構建完整的出行鏈。出行鏈是指用戶從起點出發(fā)至目的地的位移過程中所經(jīng)過的空間位置序列[3]。判斷同一用戶相鄰兩次出行記錄是否為單次出行行為,需要最小間隔距離和最短間隔時間兩個閾值。函數(shù)模型為:
其具體思路為:首先將用戶出行軌跡按照時間序列進行排序;然后判斷相鄰點之間的距離,若大于給定閾值,則初步判定為一個有效出行點,加入停留點預選序列;再判斷預選序列中相鄰點之間的時間間隔,若大于時間間隔閾值,則標記為停留點,以此類推直至遍歷完整個數(shù)據(jù)集,如圖1所示。
圖1 出行鏈示意圖
通過大量數(shù)據(jù)反復驗證得出,相鄰點之間的時間閾值約為5 min,相鄰間隔距離為10 m,即認為這是一次有效的出行鏈,反之則認為是該用戶兩次不同的出行行為。在出行鏈集的基礎上,以一段較長時期(1年)的人口活動情況訓練識別夜間居住地(home)和白天工作地(work),具體策略為:連續(xù)1年對定位設備進行跟蹤,當在某個位置反復出現(xiàn),且時間集中在9:00-19:00時,判定該位置為工作地;反之,若時間集中在20:00之后,且周末時間大多出現(xiàn)在該位置,則判定為居住地,最終得到完整的出行鏈信息。出行鏈集的每條數(shù)據(jù)均具備地理坐標、起始網(wǎng)絡編號、終點網(wǎng)絡編號、耗時、距離、時間分區(qū)、是否為居住地、是否為工作地等屬性。
大數(shù)據(jù)地理空間可視化是用地圖結合統(tǒng)計圖表的方式對大數(shù)據(jù)進行可視化表達,不僅很好地解決了大數(shù)據(jù)的空間位置表達問題,而且初步實現(xiàn)了大數(shù)據(jù)的分析利用,直觀展示出大數(shù)據(jù)的內在含義。目前的海量空間數(shù)據(jù)可視化應用大多數(shù)是通過專業(yè)GIS軟件平臺構建、可視化函數(shù)庫開發(fā)工具搭建以及基于地圖組件的二次定制開發(fā)。這些方式在一定程度上加快了可視化應用的搭建效率,但仍具有較高的操作入口門檻,且缺少復用性,很難再次移植使用,對于海量多維大數(shù)據(jù)也缺少動態(tài)關聯(lián)表達[4]。
本文以HTML+CSS+Javascript語言為主體,以PostgreSQL為互聯(lián)網(wǎng)大數(shù)據(jù)存儲數(shù)據(jù)庫,以Vue為整個模塊化組件工具與界面框架,以GeoServer為空間數(shù)據(jù)分析的后臺服務器,采用開源WebGIS框架Leaflet作為地圖的展示容器[5],集成DataV和ECharts,利用Node.js實現(xiàn)前后端分離,最終構建了面向互聯(lián)網(wǎng)大數(shù)據(jù)的地圖可視化開發(fā)與應用框架。整個框架設計如圖2所示。
圖2 大數(shù)據(jù)可視化框架圖
1)數(shù)據(jù)層。該層利用PostgreSQL的拓展插件PostGIS存儲JSON格式的互聯(lián)網(wǎng)大數(shù)據(jù),將互聯(lián)網(wǎng)大數(shù)據(jù)進行標準化清洗后,導入PostGIS中完成數(shù)據(jù)的存儲和地理關聯(lián)。
2)邏輯服務層。該層利用Tomcat服務器安裝GeoServer.war包實現(xiàn)GeoServer的部署。GeoServer可添加數(shù)據(jù)鏈接到PostGIS,將PostGIS作為數(shù)據(jù)源進行服務發(fā)布。該層負責數(shù)據(jù)的發(fā)布與分析工作,在Web服務器部分,Tomcat服務器負責接收用戶在網(wǎng)頁端的單擊或其他類型的操作事件,并將其得到的請求事件與其內部進行特定主機的地址匹配,匹配完成后將請求轉發(fā)給GIS服務器GeoServer;在邏輯服務層部分,GeoServer服務器接收到Tomcat服務器發(fā)來的請求后,對其需求的服務類型進行解析,從中得到請求者需要的GIS服務內容,并將其回傳給Tomcat服務器,完成整個服務的請求過程。整個過程通過Node.js完成前后端的分離。
3)前端表現(xiàn)層。該層主要由界面框架Vue、UI框架Element UI、Leaflet、DataV、ECharts組成,在Leaflet框架下實現(xiàn)基本地圖操作,利用Leaflet開發(fā)框架 中 的Map類、Maker類、Tile Layer類、Popup類、Control類 以 及Heat Laye類 的Leaflet.markercluster插件、Leaflet-meaure插 件,并 集成DataV和ECharts圖表可視化功能,對需要重復利用的代碼進行模塊化組織,即將常用的地圖瀏覽(放大、縮小、平移)、地圖標記、地圖瓦片加載、圖層控制、彈窗等功能分為不同的組件模塊,封裝形成一系列通用的大數(shù)據(jù)個性化標準套件。
4)展示應用層。該層為地圖展示界面,主要載體為Web瀏覽器,支持IE、Chrome、Firefox等主流瀏覽器。通過以地圖為核心的圖表可視化要素的聯(lián)動,以氣泡圖、熱力圖、燈光圖、動圖、散點圖、流場圖、柱狀圖、餅圖、樹圖等可視化形式展示大量的點、線、面數(shù)據(jù),形成面向大數(shù)據(jù)展示與開發(fā)應用的新型可視化地圖引擎,能兼容當前絕大多數(shù)已有的可視化框架,支持跨平臺跨終端顯示,支持自定義個性化配置組件、多維數(shù)據(jù)綁定關聯(lián)和秒級動態(tài)渲染,滿足海量數(shù)據(jù)的動態(tài)接入和實時展示,可幫助各行業(yè)用戶快速搭建個性化的空間可視化系統(tǒng)。
目前,該框架已先后在城市空間規(guī)劃、智慧港區(qū)管理、森林火險預警、新冠疫情防控等領域進行了初步應用,為政府提供了基于大數(shù)據(jù)視角的決策依據(jù),促進了城市的精細化、智慧化管理。
基于可視化框架,利用互聯(lián)網(wǎng)大數(shù)據(jù)有效分析了寧波市人口時空分布情況,研究了各板塊職住通勤狀態(tài),為城市發(fā)展策略的制定和城市規(guī)劃的編制、評估提供了更合理、科學的方法體系[6]。工作日一天中全市人口活動變化情況如圖3所示,直觀展示了城市人口熱力分布隨時間推移變化的情況,對比了不同時段的人口熱力活躍度;再結合周邊POI公共設施信息,可為寧波空間規(guī)劃設計與活力提升提供參考。寧波市各區(qū)縣通勤聯(lián)系情況如圖4所示,通過統(tǒng)計各區(qū)域職住比、通勤空間、通勤距離等數(shù)據(jù),對各區(qū)縣之間的通勤關系進行了客觀評價,直觀反映了各分區(qū)之間的相互聯(lián)系,可為區(qū)域協(xié)調規(guī)劃發(fā)展提供可靠依據(jù)[7]。
圖3 城市活力分析研究(工作日)
圖4 全市通勤統(tǒng)計
基于可視化框架,利用動態(tài)位置大數(shù)據(jù)監(jiān)測港區(qū)客流情況,統(tǒng)計工作日、節(jié)假日分小時和時段的客流量、歷史客流人數(shù)(圖5),為港區(qū)管理決策、戰(zhàn)略發(fā)展、公共服務、應急指揮、旅游統(tǒng)計提供大數(shù)據(jù)支撐,推動港區(qū)智慧化管理。
圖5 月均客流統(tǒng)計
基于可視化框架,利用動態(tài)位置大數(shù)據(jù)實時監(jiān)控森林火災高發(fā)期、高發(fā)區(qū)附近的人口分布情況和區(qū)域密度,對寧波市歷史火災多發(fā)區(qū)、旅游風景區(qū)、墓區(qū)、游步道等重要區(qū)域或地段人流進行實時監(jiān)控,重點監(jiān)控周末、十一、元旦、清明等法定節(jié)假日的人流情況,實現(xiàn)對森林火災更有針對性的預防,為森林防火工作部署和領導決策提供有效依據(jù)。
在新冠疫情發(fā)生后,利用人口流動遷徙大數(shù)據(jù)分析展示全國其他主要城市,尤其是高風險地區(qū)人口遷入寧波市的情況,連續(xù)跟蹤每日各地入甬人口規(guī)模變化趨勢,幫助預判疫情傳播趨勢,為疫情防控、復工復產(chǎn)、精準施策提供輔助支撐[8],推動衛(wèi)生安全等公共領域的常態(tài)化數(shù)據(jù)監(jiān)測,提升城市對大型公共安全突發(fā)事件的響應能力。
本文詳細介紹了動態(tài)位置大數(shù)據(jù)清洗擴樣、地理關聯(lián)、特征提取等關鍵技術,設計并開發(fā)了以地圖為核心要素的大數(shù)據(jù)空間可視化框架,闡述了該框架在城市規(guī)劃、森林防火、疫情防控等多個領域的應用示范。作為一次運用互聯(lián)網(wǎng)大數(shù)據(jù)進行地理信息應用的嘗試和探索,在研究方法和對大數(shù)據(jù)的處理上尚有諸多不成熟之處,在后續(xù)工作中將繼續(xù)深化研究,以期為其他同類大數(shù)據(jù)研究和應用提供參考。