袁存忠,鄧淑丹
(福建省基礎(chǔ)地理信息中心,福建 福州 350003)
地理信息大數(shù)據(jù)探討
袁存忠,鄧淑丹
(福建省基礎(chǔ)地理信息中心,福建 福州 350003)
隨著信息化程度的不斷提高及云計算與物聯(lián)網(wǎng)技術(shù)的興起,數(shù)據(jù)量飛速增長,全球進入大數(shù)據(jù)時代。本文從大數(shù)據(jù)發(fā)展與特征入手,闡述了地理信息大數(shù)據(jù)的特征,介紹了地理信息大數(shù)據(jù)環(huán)境下的地理信息云平臺建設(shè)思路,探索了地理信息大數(shù)據(jù)的挖掘應(yīng)用。
地理信息;大數(shù)據(jù);云平臺
隨著計算機技術(shù)全面融入社會生活,信息爆炸已經(jīng)積累到了引發(fā)變革的程度[1]。它不僅使世界充斥著比以往更多的信息,其增長速度也在加快。
20世紀(jì)90年代,數(shù)據(jù)倉庫之父Bill Inmon對信息數(shù)據(jù)賦予了新的特性,即Big Data,隨后大數(shù)據(jù)名詞在全球蔓延。2008年,Science??赋龃髷?shù)據(jù)時代已到來[2],EMC與美國工程院院士Eric也拋出了Big Data概念;政府層面上,2012年3月29日,美國奧巴馬宣布每年投資兩億美元進行大數(shù)據(jù)研究[3-4],同日我國科技部發(fā)布的《十二五國家科技計劃信息技術(shù)領(lǐng)域2013年度備選項目征集指南》把大數(shù)據(jù)研究列在先進技術(shù)研究首位,2014年,“大數(shù)據(jù)”首次進入我國政府工作報告,2015年我國政府工作報告明確提出推動大數(shù)據(jù)發(fā)展,設(shè)立400億元新興產(chǎn)業(yè)創(chuàng)業(yè)投資引導(dǎo)基金,為產(chǎn)業(yè)創(chuàng)新加油助力。從百姓搜索熱點看,依據(jù)百度與google的檢索數(shù)據(jù),大數(shù)據(jù)的名稱從2008年在全球傳播,2013年在我國的檢索熱度陡然增加。
借用百度百科、維基百科等搜索引擎網(wǎng)站的定義:大數(shù)據(jù)或稱巨量資料,指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具,在合理時間內(nèi)獲取、處理成幫助政府決策、企業(yè)經(jīng)營決策的資訊。
大數(shù)據(jù)具有大量化(volume)、多樣化(variety)、快速化(velocity)、價值化(value)4個特征[5],只有具備這些特點的數(shù)據(jù),才能稱之為大數(shù)據(jù)。大量化,數(shù)據(jù)量達(dá)PB、ZB,據(jù)統(tǒng)計,將2013年全球一年產(chǎn)生的數(shù)據(jù)印刷成書,可覆蓋美國52次,刻錄成光盤,堆成五堆,每堆均能延伸至月球[6];數(shù)據(jù)結(jié)構(gòu)多樣,包括文本、機器數(shù)據(jù)、視頻等多樣化的數(shù)據(jù);速度化方面,人類產(chǎn)生的數(shù)據(jù)量正呈指數(shù)級增長,大約每兩年翻一番[7],意味著人類在最近兩年產(chǎn)生的數(shù)據(jù)量相當(dāng)于之前產(chǎn)生的全部數(shù)據(jù)量,該增速將保持持續(xù)至2020年,這也要求數(shù)據(jù)處理分析效率極高;價值化方面,通過對大量相關(guān)數(shù)據(jù)的分析,可預(yù)測未來的發(fā)展趨勢。
隨著地理信息資源的獲取手段越來越多,且獲取效率高,數(shù)據(jù)產(chǎn)生速度快,地理信息資源也進入大數(shù)據(jù)時代,并具備多樣化、體量大、快速化、價值高等特性。
1. 數(shù)據(jù)多樣化
隨著測繪技術(shù)、移動互聯(lián)網(wǎng)絡(luò)、傳感網(wǎng)、物聯(lián)網(wǎng)和智能移動終端的飛速發(fā)展,地理信息數(shù)據(jù)來源越來越多,包括通過人工、機器、人機交互等手段獲取的多樣化地理信息數(shù)據(jù),如全外業(yè)測繪生產(chǎn)的DLG、DEM,天繪、天鏈、天拓、遙感等系列衛(wèi)星獲取的遙感影像數(shù)據(jù),數(shù)字?jǐn)z影測量形成的DOM、DEM數(shù)據(jù),傾斜攝影獲得的點云數(shù)據(jù)及處理形成的城市三維模型數(shù)據(jù),車載移動激光掃描獲取的點云數(shù)據(jù)、街景數(shù)據(jù)、DLG、DEM、城市三維模型數(shù)據(jù),無人機、風(fēng)箏、氣球拍攝的影像數(shù)據(jù),定位車、手機、手表、鞋等各類移動設(shè)備實時產(chǎn)生的位置信息,能見度、溫度、濕度等傳感器獲取的傳感數(shù)據(jù),攝像頭獲取的實時視頻數(shù)據(jù)等。
2. 數(shù)據(jù)體量大
多樣化的數(shù)據(jù)獲取手段帶來了地理信息資源數(shù)據(jù)量的爆炸。負(fù)責(zé)我省地理信息數(shù)據(jù)資料管理的福建省基礎(chǔ)地理信息中心2014年地理信息數(shù)據(jù)的數(shù)據(jù)量達(dá)24 TB,是2013年的2~3倍。在全國范圍內(nèi),覆蓋全國的1∶5萬DLG達(dá)250 GB、1∶5萬DOM達(dá)10 TB,覆蓋全國的1∶1萬DLG約5.3 TB、1∶1萬DOM約350 TB,覆蓋全國一次的0.5 m分辨率影像數(shù)據(jù)量約65 TB,加上多波段、多時相、多產(chǎn)品、歷史數(shù)據(jù)、中間數(shù)據(jù)、重疊區(qū)等數(shù)據(jù)量更大,GNSS一個基準(zhǔn)站1 s采樣率1 d的數(shù)據(jù)大約是50~80 MB,以全國3000個基準(zhǔn)站計算,則總數(shù)據(jù)規(guī)模為180~240 GB[8]。在全球范圍內(nèi),聯(lián)合國全球地理信息管理(UN-GGIM)估計,全球每天會產(chǎn)生2503萬字節(jié)的數(shù)據(jù),其中顯著的部分是位置感知[9]。
3. 數(shù)據(jù)快速化
獲取速度上,我國中高分辨率的影像數(shù)據(jù)獲取接近實時,高分二號同一地區(qū)重復(fù)采集周期為4 d,資源三號同一地區(qū)重復(fù)采集周期為5 d,傳感器與移動設(shè)備獲取數(shù)據(jù)的周期為實時;處理速度上,需響應(yīng)“以秒甚至毫秒計的流數(shù)據(jù)”;時效性方面,數(shù)據(jù)的時效性可按分鐘計,如實時路況數(shù)據(jù)的時效性達(dá)10 min。
4. 數(shù)據(jù)價值高
地理信息數(shù)據(jù)蘊藏著豐富的價值,據(jù)《大數(shù)據(jù)市場:2012~2018年全球形勢、發(fā)展趨勢預(yù)測》預(yù)測,在個人地理信息方面,大數(shù)據(jù)將為服務(wù)商帶來超過1000億美元的收入,為用戶帶來超過7000億美元的價值。
5. 與傳統(tǒng)地理信息的比較
結(jié)合以上特征分析,地理信息大數(shù)據(jù)與傳統(tǒng)的地理信息數(shù)據(jù)相比,發(fā)生了很大的變化,見表1。定位不同,從主要服務(wù)政府部門轉(zhuǎn)變?yōu)榉?wù)大眾;驅(qū)動性上,除完成政府下達(dá)的地理信息數(shù)據(jù)采集任務(wù)外,還增加了自發(fā)地理信息(volunteer geographical information,VGI)采集,一種新型的基于網(wǎng)絡(luò)的大眾協(xié)同地理位置測量和地理信息采集[10];地理信息數(shù)據(jù)的生產(chǎn)者從政府部門、企事業(yè)單位、具有測繪資質(zhì)的公司,轉(zhuǎn)變?yōu)槊總€人都是地理信息數(shù)據(jù)的采集者;數(shù)據(jù)量從MB、GB到TB、PB的轉(zhuǎn)變;部分?jǐn)?shù)據(jù)更新頻率達(dá)到了實時;質(zhì)量方面,之前地理信息數(shù)據(jù)成果需通過具有資質(zhì)的單位質(zhì)檢,才能投入使用,質(zhì)量要求非常高,但在大數(shù)據(jù)環(huán)境里,面對如此快速化、體量大的數(shù)據(jù),傳統(tǒng)的質(zhì)檢方法已不能滿足要求,必須通過計算機系統(tǒng)對地理信息數(shù)據(jù)進行質(zhì)量控制,質(zhì)量控制也沒有之前嚴(yán)格;地理信息大數(shù)據(jù)大多沒有元數(shù)據(jù)信息,而傳統(tǒng)地理信息數(shù)據(jù)擁有非常完整的元數(shù)據(jù)信息。
表1 地理信息大數(shù)據(jù)與傳統(tǒng)地理信息數(shù)據(jù)比較
地理信息大數(shù)據(jù)已為實現(xiàn)價值奠定了基礎(chǔ),而數(shù)據(jù)處理分析能力是達(dá)到智慧的關(guān)鍵,因此,數(shù)據(jù)處理分析能力至關(guān)重要。針對地理信息大數(shù)據(jù)的特性,要實現(xiàn)大數(shù)據(jù)到智慧的轉(zhuǎn)變,需采用云存儲技術(shù)、關(guān)系與非關(guān)系型數(shù)據(jù)庫存儲巨量數(shù)據(jù),通過人工智能與云計算技術(shù),按照一定的規(guī)則對可信度低、未質(zhì)檢的數(shù)據(jù)進行抽取,清洗、轉(zhuǎn)換形成可用的地理信息數(shù)據(jù),利用統(tǒng)計分析、數(shù)據(jù)挖掘技術(shù)來預(yù)測、洞察未來發(fā)展情況,而這一切可通過地理信息云平臺實現(xiàn)。
地理信息云平臺的定位不僅是支持桌面端與Web端應(yīng)用,為企業(yè)內(nèi)部與政府內(nèi)部服務(wù)的平臺,還是服務(wù)型的、跨部門的、服務(wù)大眾的云平臺。
地理信息云平臺需集成各類趨勢化的技術(shù)與數(shù)據(jù)。數(shù)據(jù)管理方面支持3D數(shù)據(jù)、公共地理框架數(shù)據(jù)、點云、街景、實時位置及感知數(shù)據(jù),支持的數(shù)據(jù)格式包括非關(guān)系型數(shù)據(jù)庫格式,關(guān)系型數(shù)據(jù)庫格式,表格、圖片等文件格式,互聯(lián)網(wǎng)社會媒體信息,傳感網(wǎng)絡(luò)設(shè)備傳輸?shù)牧鲾?shù)據(jù),支持地理信息數(shù)據(jù)服務(wù)的接入。在功能方面,除具備傳統(tǒng)支持可視化查詢、編輯、分析、共享交換、應(yīng)用開發(fā)功能外,還具備在線的地理信息關(guān)聯(lián)觸發(fā)與地理信息圍欄篩選的能力,其處理結(jié)果可為系列消息、通信信息、郵件、地圖成果,預(yù)測結(jié)果等;在使用上,用戶可基于各類終端訪問地理信息云平臺,并基于云平臺訂閱相關(guān)數(shù)據(jù)與功能,便可得到滿意的結(jié)果,無需關(guān)心數(shù)據(jù)在哪,如何處理,真正開啟全新的用戶體驗。
百度大數(shù)據(jù)產(chǎn)品使地理信息大數(shù)據(jù)應(yīng)用廣為人知,百度遷徙圖是通過統(tǒng)計分析數(shù)億百度手機用戶遷徙軌跡數(shù)據(jù)形成的,其直觀地反映了人口遷徙情況,為交通部門進行春運交通調(diào)度提供指導(dǎo),“百度天眼”可實時“嗅探”飛機運行狀態(tài),為百姓出行規(guī)劃提供指導(dǎo)。
地理信息云平臺實現(xiàn)各類資源的共享交換,使地理信息應(yīng)用從推動應(yīng)用轉(zhuǎn)變?yōu)槔孟嚓P(guān)信息挖掘應(yīng)用,為政府、企業(yè)、社會公眾的決策提供服務(wù)。地理信息大數(shù)據(jù)還可應(yīng)用于地理信息數(shù)據(jù)更新、城市信息挖掘、公共安全管理、交通出行、環(huán)保監(jiān)測、衛(wèi)生防疫等領(lǐng)域。
1) 地理信息數(shù)據(jù)更新應(yīng)用。對用戶在微博、微信中分享的海量位置信息進行聚合、篩選后,更新地名地址、興趣點數(shù)據(jù),借助人口與車輛的流動數(shù)據(jù)更新道路,確保地理信息數(shù)據(jù)資料的鮮活性。
2) 城市人文信息挖掘應(yīng)用。燈光直接反映著城市工業(yè)化水平、城鎮(zhèn)化水平、人口集中分布情況[11],利用遙感衛(wèi)星夜間影像可以獲取各城市的經(jīng)濟要素。如利用夜光的減少情況,可評估居民大規(guī)模遷徙與戰(zhàn)爭情況;通過經(jīng)濟統(tǒng)計數(shù)據(jù)、夜光影像、人口分布圖、土地覆蓋類型數(shù)據(jù)等,獲得格網(wǎng)化的GDP數(shù)據(jù),可使政府精準(zhǔn)掌握經(jīng)濟區(qū)域發(fā)展情況。
3) 公安應(yīng)急應(yīng)用。對于開放式的廣場,公安部門很難掌控人口聚集程度,難以給出科學(xué)的人口流量控制措施,極易出現(xiàn)踩踏事件。因此可借助手機熱點大數(shù)據(jù)計算出每平方米聚集的人口數(shù)量,結(jié)合手機熱點的流動趨勢,判斷每平方米人口聚集量的變化趨勢,從而及時做出相應(yīng)的應(yīng)急措施,避免因人口超負(fù)荷聚集帶來的傷亡。
4) 交通出行規(guī)劃應(yīng)用。百姓出行大多會根據(jù)實時路況數(shù)據(jù),避開擁堵路段,選擇寬松路段行駛,而寬松路段則因車流量快速聚集變成新的擁堵路段,因此導(dǎo)航系統(tǒng)可結(jié)合大量歷史擁堵的變化情況,基于當(dāng)前車輛行駛的趨勢性,如路口車輛左轉(zhuǎn)、前行等趨勢性數(shù)據(jù),分析出合理的路線告知用戶,避免從一個擁堵路段進入另一個擁堵路段。
5) 環(huán)保領(lǐng)域的霧霾監(jiān)測應(yīng)用。對污染企業(yè)分布信息、風(fēng)向走勢、道路分布、交通流量、人群軌跡等大量的數(shù)據(jù)信息進行匯集、處理分析,可制作可視化的霧霾分布圖及霧霾變化趨勢圖,從而為政府部門提前應(yīng)對霧霾天氣、開展環(huán)境整治等方面提供指導(dǎo)。
6) 衛(wèi)生領(lǐng)域,可判斷流感蔓延情況。對用戶在百度、搜搜等搜索引擎網(wǎng)站輸入的咳嗽、發(fā)燒等熱點檢索信息,可分析流感疫情的蔓延情況,為政府部門應(yīng)對快速蔓延的流感病提供第一手資料。
隨著地理信息數(shù)據(jù)的獲取手段越來越多,地理信息數(shù)據(jù)逐步進入大數(shù)據(jù)時代。在地理信息大數(shù)據(jù)環(huán)境里,用戶無需發(fā)愁地理信息數(shù)據(jù)資源的覆蓋性與現(xiàn)勢性,而更關(guān)注于數(shù)據(jù)如何組織管理,如何獲取可靠的數(shù)據(jù),也不再擔(dān)心地理信息數(shù)據(jù)資源無處可用,更專注于通過相關(guān)信息挖掘應(yīng)用,更好地服務(wù)于政府、企事業(yè)單位、社會公眾。然而,大數(shù)據(jù)時代個人隱私面臨嚴(yán)峻挑戰(zhàn)[12],如何防止私人信息泄密是值得研究的問題。我們將積極擁抱地理信息大數(shù)據(jù),開發(fā)地理信息云平臺,深入挖掘數(shù)據(jù)寶藏,促進地理信息產(chǎn)業(yè)跨越發(fā)展。
[1] 朱金莉.大數(shù)據(jù)時代對傳統(tǒng)新聞媒體的顛覆與嬗變[J].學(xué)術(shù)論壇,2015,38(1):152-155.
[2] GRAHAM-ROWE D,GOLDSTON D,DOCTOROW C,et al.Big Data:Science in the Petabyte Era[J].Nature,2008(455):7209.
[3] 喬朝飛.大數(shù)據(jù)及其對測繪地理信息工作的啟示[J].測繪通報,2013(1):107-108.
[4] 王元卓,靳小龍,程學(xué)旗.網(wǎng)絡(luò)大數(shù)據(jù):現(xiàn)狀與展望[J].計算機學(xué)報,2013,36(6):1125-1138.
[5] 曹磊,陳薇娜,繆其浩,等.大數(shù)據(jù):數(shù)字世界的智慧基因[N].文匯報,2011-11-08(11).
[6] 維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
[7] IDC預(yù)測:全球數(shù)據(jù)每兩年翻一番[N].計算機世界,2011-07-04(35).
[8] 劉經(jīng)南.大數(shù)據(jù)時代的泛在測繪與位置服務(wù)[EB/OL].2013-09-24[2015-09-30].http:∥news.3snews.net/2013/0924/27016.html.
[9] 3S新聞周刊.大數(shù)據(jù)未來在于空間關(guān)聯(lián)分析[EB/OL].2013-07-16[2016-01-08].http:∥news.3snews.net/2013/exclusive_0716/25600.html.
[10] GOODCHILD M F.Citizens as Sensors:The World of Volunteered Geography[J].GeoJournal,2007,69(4):211-221.
[11] 曹麗琴,李平湘,張良培.基于DMSP/OLS夜間燈光數(shù)據(jù)的城市人口估算——以湖北省各縣市為例[J].遙感信息,2009(1):83-87.
[12] 劉雅輝,張鐵贏,靳小龍,等.大數(shù)據(jù)時代的個人隱私保護[J].計算機研究與發(fā)展,2015,52(1):229-247.
Discussion of Geographic Information Big Data
YUAN Cunzhong,DENG Shudan
2016-01-29
袁存忠(1969—),男,碩士,教授級高級工程師,主要從事空間數(shù)據(jù)庫、地理信息工程應(yīng)用研究工作。E-mail:437309477@163.com
鄧淑丹。E-mail:dengshu917@163.com
袁存忠,鄧淑丹.地理信息大數(shù)據(jù)探討[J].測繪通報,2016(12):105-107.
10.13474/j.cnki.11-2246.2016.0412.
P208
B
0494-0911(2016)12-0105-03