張 立
(深圳職業(yè)技術(shù)學(xué)院 人工智能學(xué)院,廣東 深圳 518055)
地理空間數(shù)據(jù)交換中心(以下簡(jiǎn)稱“數(shù)據(jù)交換中心”)面臨最直接的挑戰(zhàn)是時(shí)空數(shù)據(jù)采集方式的變化,特別是互聯(lián)網(wǎng)技術(shù)的成熟以及智能手機(jī)的普及有力地促成了時(shí)空大數(shù)據(jù)服務(wù)體系的功能角色專業(yè)劃分態(tài)勢(shì),時(shí)空數(shù)據(jù)的采集者可以不再是時(shí)空數(shù)據(jù)的保存者和運(yùn)營(yíng)服務(wù)者;時(shí)空數(shù)據(jù)的采集也不再需要全程的專業(yè)設(shè)備,對(duì)一些實(shí)景照片的分析也能實(shí)現(xiàn)對(duì)地理景物的識(shí)別,再結(jié)合眾多來(lái)源的新型時(shí)空大數(shù)據(jù)(如個(gè)體時(shí)空定位數(shù)據(jù)、網(wǎng)絡(luò)消費(fèi)數(shù)據(jù)、社交應(yīng)用網(wǎng)絡(luò)數(shù)據(jù))并進(jìn)行融合分析與深入挖掘即可滿足時(shí)空大數(shù)據(jù)服務(wù)的要求[1-2].
數(shù)據(jù)交換中心現(xiàn)有處理數(shù)據(jù)的方式難以應(yīng)對(duì)時(shí)空數(shù)據(jù)多元化趨勢(shì).傳統(tǒng)的時(shí)空數(shù)據(jù)主要包括基礎(chǔ)地理數(shù)據(jù)、臺(tái)站觀測(cè)數(shù)據(jù)、人文統(tǒng)計(jì)數(shù)據(jù),多呈更新周期長(zhǎng)、采集成本高、數(shù)據(jù)結(jié)構(gòu)化程度高等特征.其中基礎(chǔ)地理數(shù)據(jù)通常是由專業(yè)的測(cè)繪部門來(lái)測(cè)量與采集,臺(tái)站觀測(cè)數(shù)據(jù)主要來(lái)自各部門和機(jī)構(gòu)建立的觀測(cè)臺(tái)站,人文統(tǒng)計(jì)數(shù)據(jù)則主要包括土地普查、經(jīng)濟(jì)統(tǒng)計(jì)、地質(zhì)水文、城市交通等調(diào)查數(shù)據(jù)[3].這些數(shù)據(jù)的特點(diǎn)主要體現(xiàn)在專業(yè)化程度比較高,存儲(chǔ)形式也多為結(jié)構(gòu)化數(shù)據(jù),應(yīng)用范圍主要集中在專業(yè)化的地理信息系統(tǒng)(GIS).與傳統(tǒng)的空間數(shù)據(jù)相比,時(shí)空大數(shù)據(jù)作為現(xiàn)實(shí)世界中的地理實(shí)體在信息世界中的多維度映射,其數(shù)量級(jí)已經(jīng)逐步達(dá)到TB、PB級(jí),例如個(gè)人位置信息的數(shù)據(jù)在2009年就已經(jīng)達(dá)到了PB級(jí)[4].而這些海量時(shí)空數(shù)據(jù)產(chǎn)生方式也發(fā)生了很大變化,涵蓋了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、全球定位系統(tǒng)、智能移動(dòng)設(shè)備、各類傳感器與攝像頭等眾多數(shù)據(jù)采集途徑.換句話說(shuō),其數(shù)據(jù)來(lái)源不再僅僅限于專業(yè)測(cè)繪設(shè)備,而且非專業(yè)測(cè)繪設(shè)備采集的數(shù)據(jù)量的占比也正在逐漸擴(kuò)大.新型時(shí)空大數(shù)據(jù)的類別見(jiàn)表1.
表1 常用新型時(shí)空大數(shù)據(jù)的類別
時(shí)空大數(shù)據(jù)不僅在數(shù)量上增加,而且其外延也在擴(kuò)大.人類生活中所產(chǎn)生的數(shù)據(jù)有80%和空間位置有關(guān),目前我國(guó)衛(wèi)星遙感數(shù)據(jù)已超過(guò)美國(guó)已達(dá)600PB,每個(gè)大城市的城市視頻數(shù)據(jù)量大約為3000~4000PB,超過(guò)600個(gè)城市擁有城市實(shí)景地圖[5],這些涉及現(xiàn)實(shí)地物或?qū)ο蟮恼掌鸵曨l都可被納入時(shí)空大數(shù)據(jù)的范疇,這些多源異構(gòu)的數(shù)據(jù)沒(méi)有特定的結(jié)構(gòu)形式,數(shù)據(jù)語(yǔ)義豐富,蘊(yùn)含了大量可挖掘信息和巨大潛在價(jià)值.從感知對(duì)象角度,時(shí)空大數(shù)據(jù)可以劃分為感知地理環(huán)境的時(shí)空大數(shù)據(jù)與感知人類社會(huì)活動(dòng)的時(shí)空大數(shù)據(jù),前者依托于遙感云平臺(tái)發(fā)布的各類遙感數(shù)據(jù)服務(wù)與處理服務(wù),而后者則依托于互聯(lián)網(wǎng)與物聯(lián)網(wǎng)技術(shù)、社交媒體平臺(tái)的發(fā)展,并正以驚人的速度快速增長(zhǎng)[6].在數(shù)據(jù)體量上呈現(xiàn)出海量性、采集時(shí)間呈現(xiàn)出連續(xù)性、數(shù)據(jù)關(guān)系呈現(xiàn)出內(nèi)在關(guān)聯(lián)性,這正是新型時(shí)空大數(shù)據(jù)的特征.
從應(yīng)用前景來(lái)看,個(gè)體時(shí)空定位數(shù)據(jù)、網(wǎng)絡(luò)消費(fèi)數(shù)據(jù)、社交應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)通過(guò)與遙感數(shù)據(jù)產(chǎn)品、電子地圖數(shù)據(jù)、智能交通數(shù)據(jù)、物聯(lián)網(wǎng)傳感數(shù)據(jù)等新型時(shí)空數(shù)據(jù)的組合疊加、融合分析、深入挖掘正為人們生產(chǎn)生活的方方面面提供高效的智慧服務(wù),從而實(shí)現(xiàn)真正意義上的地理信息社會(huì)化應(yīng)用.?dāng)?shù)據(jù)交換中心只有引入大數(shù)據(jù)技術(shù),更新自身的處理思維模式才能應(yīng)對(duì)時(shí)空數(shù)據(jù)多元化的變革.
大數(shù)據(jù)環(huán)境下的時(shí)空數(shù)據(jù)外延不斷擴(kuò)大,單個(gè)部門或機(jī)構(gòu)的數(shù)據(jù)或單個(gè)來(lái)源的數(shù)據(jù)也無(wú)法滿足時(shí)空大數(shù)據(jù)分析的需要,換言之,數(shù)據(jù)交換中心需要整合多源時(shí)空大數(shù)據(jù)才能提供時(shí)空大數(shù)據(jù)分析服務(wù).例如,滿足一體化出行的智慧交通可能涉及到的時(shí)空大數(shù)據(jù)包括手機(jī)信令數(shù)據(jù)及其衍生的出行出發(fā)地點(diǎn)-目的地(OD)數(shù)據(jù)、興趣點(diǎn)(POI)數(shù)據(jù)、公交 IC卡/自動(dòng)售檢票系統(tǒng)(AFC)數(shù)據(jù)、浮動(dòng)車GPS數(shù)據(jù)、網(wǎng)約車訂單數(shù)據(jù),這些數(shù)據(jù)來(lái)源不同,獲取方式也存在差異.其中手機(jī)信令數(shù)據(jù)主要用于合理推算城市人口分布情況、城市空間布局,興趣點(diǎn)(POI)數(shù)據(jù)可以用于分析得出目標(biāo)區(qū)域的職業(yè)分布、出行分布等信息,實(shí)現(xiàn)更為精確的交通需求預(yù)測(cè).公交IC卡/AFC數(shù)據(jù)、浮動(dòng)車GPS數(shù)據(jù)、網(wǎng)約車訂單數(shù)據(jù)可通過(guò)分類計(jì)算與融合分析用于推算各交通方式的需求量以及運(yùn)行現(xiàn)狀.為了提升城市智慧化程度,數(shù)據(jù)交換中心需要充分整合這些多源時(shí)空大數(shù)據(jù),對(duì)居民出行需求的差異性、隨機(jī)性進(jìn)行精細(xì)化剖析,在增加交通設(shè)施滿足交通流運(yùn)行的基礎(chǔ)上實(shí)現(xiàn)通過(guò)動(dòng)態(tài)調(diào)控交通網(wǎng)絡(luò)滿足一體化出行的需求[7].
數(shù)據(jù)交換中心面對(duì)的數(shù)據(jù)用戶也正在發(fā)生改變,時(shí)空數(shù)據(jù)的需求者不僅僅局限在測(cè)繪專業(yè)相關(guān)企業(yè)和部門,普通大眾都可以成為時(shí)空大數(shù)據(jù)服務(wù)的對(duì)象,最典型的時(shí)空數(shù)據(jù)應(yīng)用案例是用于居民出行的車輛智能導(dǎo)航,出行者只要利用安裝在智能手機(jī)上的導(dǎo)航APP即可實(shí)現(xiàn)傻瓜式的實(shí)時(shí)道路導(dǎo)航服務(wù).
隨著時(shí)空大數(shù)據(jù)正逐步取代傳統(tǒng)的靜態(tài)空間數(shù)據(jù)成為地理信息社會(huì)化應(yīng)用的主要數(shù)據(jù)載體,時(shí)空數(shù)據(jù)服務(wù)模式正經(jīng)歷著重組和變異.以車輛的運(yùn)動(dòng)軌跡分析為例,在過(guò)去往往是由應(yīng)用開(kāi)發(fā)商自行購(gòu)買電子地圖(靜態(tài)地理空間數(shù)據(jù)),并自行編寫(xiě)程序來(lái)根據(jù)車輛與地物的拓?fù)潢P(guān)系來(lái)解析車輛運(yùn)動(dòng)軌跡;而現(xiàn)在則可以直接向時(shí)空數(shù)據(jù)分析服務(wù)提供者購(gòu)買車輛運(yùn)動(dòng)軌跡的數(shù)據(jù)分析服務(wù),購(gòu)買方得到的是一系列的API接口程序或軟件開(kāi)發(fā)包,只要在自行開(kāi)發(fā)的程序中調(diào)用這些API或解析時(shí)空大數(shù)據(jù)服務(wù)網(wǎng)站上下載得到的數(shù)據(jù)流即可實(shí)現(xiàn)特定的時(shí)空數(shù)據(jù)分析功能.換句話說(shuō)傳統(tǒng)的數(shù)據(jù)服務(wù)主要是指提供時(shí)空數(shù)據(jù)本身,而大數(shù)據(jù)環(huán)境下的數(shù)據(jù)服務(wù)演變?yōu)樘峁?shù)據(jù)分析服務(wù)的途徑或結(jié)果,形式可以是Web服務(wù)、API接口程序等等.
在傳統(tǒng)的數(shù)據(jù)服務(wù)體系中,數(shù)據(jù)交換中心主要有兩大職能,其一是地理空間元數(shù)據(jù)標(biāo)準(zhǔn)的制定,其二是構(gòu)建空間數(shù)據(jù)的生產(chǎn)者、管理者及數(shù)據(jù)用戶之間溝通的網(wǎng)絡(luò)發(fā)布平臺(tái).目前大數(shù)據(jù)環(huán)境下的時(shí)空數(shù)據(jù)服務(wù)需求與模式均發(fā)生了很大變化,時(shí)空數(shù)據(jù)的應(yīng)用范圍也在不斷拓展,時(shí)空數(shù)據(jù)的潛在價(jià)值也有待于被不同領(lǐng)域不同行業(yè)進(jìn)行更多的深入挖掘,這就要求作為時(shí)空大數(shù)據(jù)服務(wù)體系中核心成員的數(shù)據(jù)交換中心通過(guò)轉(zhuǎn)型與升級(jí)來(lái)適應(yīng)這種新變化[8].
作為溝通載體的地理空間元數(shù)據(jù),其收集、維護(hù)和發(fā)布在數(shù)據(jù)交換中心傳統(tǒng)意義上的職能中占有相當(dāng)大的比重,這是因?yàn)槠涮峁┑臄?shù)據(jù)服務(wù)模式主要是以地理空間元數(shù)據(jù)作為載體、為數(shù)據(jù)用戶提供方便查找適用于其應(yīng)用的時(shí)空數(shù)據(jù)產(chǎn)品的途徑;而大數(shù)據(jù)環(huán)境下,數(shù)據(jù)交換中心的數(shù)據(jù)服務(wù)需要調(diào)整為一系列時(shí)空大數(shù)據(jù)分析服務(wù)或提供數(shù)據(jù)清洗后的時(shí)空大數(shù)據(jù)資源.
要實(shí)現(xiàn)這種時(shí)空數(shù)據(jù)服務(wù)新模式,數(shù)據(jù)交換中心需要自行建設(shè)以時(shí)空大數(shù)據(jù)分析資源池(以下簡(jiǎn)稱“大數(shù)據(jù)資源池”)為核心的新體系架構(gòu),有針對(duì)性地購(gòu)買、下載、提取多源時(shí)空大數(shù)據(jù),并進(jìn)行融合分析與深入挖掘以便對(duì)外提供通用時(shí)空大數(shù)據(jù)分析服務(wù).當(dāng)然數(shù)據(jù)交換中心還可以對(duì)已有的時(shí)空數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,同時(shí)對(duì)外提供訪問(wèn)這些時(shí)空大數(shù)據(jù)的接口.大數(shù)據(jù)時(shí)代的到來(lái)還意味著思維方式的變革,大數(shù)據(jù)時(shí)代的特征之一就是——不再是帶著問(wèn)題找數(shù)據(jù),而是根據(jù)數(shù)據(jù)來(lái)尋找和定義問(wèn)題和需求.大數(shù)據(jù)資源池中保存的時(shí)空大數(shù)據(jù)可以催生各種新的數(shù)據(jù)分析需求,從而進(jìn)一步提升基于時(shí)空大數(shù)據(jù)分析的智能服務(wù)質(zhì)量.
如前所述,大數(shù)據(jù)環(huán)境下單個(gè)部門或機(jī)構(gòu)的數(shù)據(jù)也無(wú)法滿足時(shí)空大數(shù)據(jù)分析的需要,分散在不同機(jī)構(gòu)的數(shù)據(jù)都可能被作為時(shí)空大數(shù)據(jù)分析的素材.這也就促成了數(shù)據(jù)交換中心內(nèi)數(shù)據(jù)存儲(chǔ)方案的變革.具體來(lái)說(shuō),地理空間元數(shù)據(jù)由于其數(shù)量以及特殊性仍然可以被集中地保存在數(shù)據(jù)交換中心的關(guān)系型數(shù)據(jù)庫(kù)中,這對(duì)于提供時(shí)空元數(shù)據(jù)查詢至關(guān)重要;而其他的時(shí)空大數(shù)據(jù)則由數(shù)據(jù)交換中心通過(guò)購(gòu)買、商業(yè)合作等方式獲得,這些數(shù)據(jù)原本保存在云端(即分屬于不同機(jī)構(gòu)的分布式存儲(chǔ)系統(tǒng)中),不可能也沒(méi)有必要全部歸屬于數(shù)據(jù)交換中心存儲(chǔ)與維護(hù)的范圍內(nèi).特別是新型時(shí)空大數(shù)據(jù),例如網(wǎng)絡(luò)消費(fèi)數(shù)據(jù)產(chǎn)生于諸如淘寶、京東、拼多多等網(wǎng)購(gòu)平臺(tái),智能交通數(shù)據(jù)則來(lái)源于智能公交、交通視頻監(jiān)控等等,社交應(yīng)用網(wǎng)絡(luò)數(shù)據(jù)存在于微信、微博、QQ等社交網(wǎng)絡(luò)平臺(tái).這些新型時(shí)空大數(shù)據(jù)的獲取只能通過(guò)購(gòu)買和合作兩種途徑,數(shù)據(jù)交換中心本身無(wú)法生成這些數(shù)據(jù).
盡管時(shí)空大數(shù)據(jù)的來(lái)源、類型、獲取方法存在差異,但為了提供某些通用時(shí)空數(shù)據(jù)分析服務(wù),提高時(shí)空數(shù)據(jù)分析的效率,數(shù)據(jù)交換中心需要通過(guò)構(gòu)建大數(shù)據(jù)資源池來(lái)保存從云端時(shí)空大數(shù)據(jù)清洗后的結(jié)果,這些數(shù)據(jù)主要被用來(lái)作為數(shù)據(jù)交換中心進(jìn)行時(shí)空數(shù)據(jù)分析與挖掘的素材,其中保存的時(shí)空數(shù)據(jù)格式和存儲(chǔ)方式都可以根據(jù)需要重新規(guī)劃和設(shè)計(jì).這是因?yàn)樵贫朔植际綌?shù)據(jù)存儲(chǔ)方案通常不是針對(duì)某種時(shí)空數(shù)據(jù)分析需要的,它的目標(biāo)旨在解決數(shù)據(jù)存儲(chǔ)的形式多樣化要求、數(shù)據(jù)存儲(chǔ)體量擴(kuò)展要求、數(shù)據(jù)存儲(chǔ)速度與性能的要求.這種數(shù)據(jù)存儲(chǔ)方式并不一定適用于旨在實(shí)現(xiàn)各種通用時(shí)空大數(shù)據(jù)分析功能的大數(shù)據(jù)資源池.
大數(shù)據(jù)環(huán)境下,數(shù)據(jù)交換中心的轉(zhuǎn)型與升級(jí)的工作重點(diǎn)就是構(gòu)建大數(shù)據(jù)資源池,其功能是以大數(shù)據(jù)資源池保存的數(shù)據(jù)為基礎(chǔ)對(duì)外提供一系列時(shí)空大數(shù)據(jù)分析服務(wù),或提供數(shù)據(jù)分析二次開(kāi)發(fā)組件和接口以便用戶自行定制面向個(gè)性化需求的時(shí)空大數(shù)據(jù)分析.大數(shù)據(jù)資源池的邏輯框架結(jié)構(gòu)圖如圖1所示.
圖1 時(shí)空大數(shù)據(jù)分析資源池邏輯框架結(jié)構(gòu)圖
根據(jù)數(shù)據(jù)交換中心服務(wù)目標(biāo)的定位,構(gòu)建大數(shù)據(jù)資源池的初衷是針對(duì)預(yù)測(cè)與規(guī)劃需求提供高效的時(shí)空大數(shù)據(jù)分析服務(wù),其數(shù)據(jù)來(lái)源主要是外部數(shù)據(jù),即第三方云端存儲(chǔ)的時(shí)空數(shù)據(jù)及其元數(shù)據(jù),這些數(shù)據(jù)需要根據(jù)數(shù)據(jù)分析的需要來(lái)確定是否要載入大數(shù)據(jù)資源池.當(dāng)然大數(shù)據(jù)資源池中也可以包含數(shù)據(jù)交換中心的內(nèi)部數(shù)據(jù),內(nèi)部數(shù)據(jù)主要是指數(shù)據(jù)交換中心自行采集、下載、購(gòu)買、加工的時(shí)空數(shù)據(jù)及其元數(shù)據(jù).
在理想情況下由既定的時(shí)空大數(shù)據(jù)分析任務(wù)來(lái)確定需要哪些時(shí)空數(shù)據(jù)作為數(shù)據(jù)分析的素材和對(duì)象,但現(xiàn)實(shí)中數(shù)據(jù)交換中心因?yàn)閿?shù)據(jù)歸屬、隱私限制、購(gòu)買價(jià)格等因素并不能獲取所有想要的時(shí)空大數(shù)據(jù).因此,在大數(shù)據(jù)資源池建設(shè)初期通常需要以現(xiàn)有能得到的時(shí)空數(shù)據(jù)為出發(fā)點(diǎn),面向大數(shù)據(jù)資源池潛在的應(yīng)用有針對(duì)性地進(jìn)行時(shí)空數(shù)據(jù)合理的篩選,并通過(guò)數(shù)據(jù)清洗和挖掘逐步構(gòu)建大數(shù)據(jù)資源池.
數(shù)據(jù)清洗對(duì)于有效縮減大數(shù)據(jù)資源池中臟數(shù)據(jù)規(guī)模、提高數(shù)據(jù)分析效率而言尤為重要,數(shù)據(jù)清洗的對(duì)象主要包括缺失值、重復(fù)值、異常值等.其中,重復(fù)值的處理主要包括去重(刪除數(shù)據(jù)值完全相同的多條數(shù)據(jù)記錄)、去除(刪除數(shù)據(jù)主體相同但匹配到的唯一屬性值不同的數(shù)據(jù)記錄).異常值的設(shè)置標(biāo)準(zhǔn)不同得出的判定結(jié)論也會(huì)大相徑庭,因此需要結(jié)合潛在大數(shù)據(jù)分析應(yīng)用的特點(diǎn)來(lái)制定異常閾值.缺失值就是數(shù)據(jù)中由于缺少信息導(dǎo)致某個(gè)或者某些數(shù)據(jù)不是完整的,這對(duì)數(shù)據(jù)分析有一定的影響,但由于大數(shù)據(jù)資源池中時(shí)空數(shù)據(jù)樣本數(shù)量較大,所以缺失值可以被直接刪除或通過(guò)估算進(jìn)行清理.
從數(shù)據(jù)存儲(chǔ)特性上劃分,大數(shù)據(jù)資源池的數(shù)據(jù)可以分為存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中的結(jié)構(gòu)化數(shù)據(jù)以及形式相對(duì)不固定的非結(jié)構(gòu)化數(shù)據(jù)兩大類.從體量上來(lái)說(shuō),非結(jié)構(gòu)化數(shù)據(jù)的體量更為龐大,它主要是城市視頻、實(shí)景地圖、地物圖片等數(shù)據(jù).大數(shù)據(jù)資源池的數(shù)據(jù)除了從相關(guān)機(jī)構(gòu)或部門獲取之外還可以通過(guò)軟感知的方式獲得,即通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、事件追蹤(俗稱“埋點(diǎn)”)等方式來(lái)生成相關(guān)數(shù)據(jù),其數(shù)據(jù)生成方式以離線方式為主,其數(shù)據(jù)可用于對(duì)時(shí)效性要求不高的規(guī)劃類時(shí)空大數(shù)據(jù)分析與挖掘.
從數(shù)據(jù)生成方式來(lái)劃分,大數(shù)據(jù)資源池的數(shù)據(jù)可分為兩類:一類是經(jīng)過(guò)數(shù)據(jù)清洗后的時(shí)空大數(shù)據(jù),這一部分的數(shù)據(jù)是原始時(shí)空大數(shù)據(jù)的子集,另一類則是以前者為基礎(chǔ)經(jīng)過(guò)數(shù)據(jù)篩選與分析處理后生成的新的時(shí)空大數(shù)據(jù),這些數(shù)據(jù)都可以直接對(duì)外提供給數(shù)據(jù)用戶作為時(shí)空大數(shù)據(jù)分析挖掘的素材.大數(shù)據(jù)資源池的數(shù)據(jù)生成還需要對(duì)數(shù)據(jù)源進(jìn)行認(rèn)證,明確時(shí)空數(shù)據(jù)的歸屬,確定時(shí)空數(shù)據(jù)密級(jí)標(biāo)準(zhǔn)(通常包括對(duì)外公開(kāi)、內(nèi)部公開(kāi)、秘密、機(jī)密、絕密等信息密級(jí)維度),制定數(shù)據(jù)質(zhì)量方案,并在數(shù)據(jù)入庫(kù)后注冊(cè)完成元數(shù)據(jù).
其中,對(duì)于數(shù)據(jù)質(zhì)量的考量涉及以下幾個(gè)方面:數(shù)據(jù)完整性是數(shù)據(jù)質(zhì)量最基礎(chǔ)的一項(xiàng),例如地物編號(hào)不可為空,否則在數(shù)據(jù)入庫(kù)時(shí)在數(shù)據(jù)清理階段該數(shù)據(jù)記錄將被清除;數(shù)據(jù)的準(zhǔn)確有效性是指真實(shí)、準(zhǔn)確地記錄原始數(shù)據(jù),減少非法值數(shù)據(jù)的存在;數(shù)據(jù)一致性主要體現(xiàn)在數(shù)據(jù)記錄是否反映現(xiàn)實(shí)事物或符合邏輯,例如同一編號(hào)對(duì)應(yīng)的不同系統(tǒng)中的地物應(yīng)該是同一個(gè)實(shí)體,哪怕在不同系統(tǒng)中地物表達(dá)的類型可能不同,這種情況是允許存在的,主要緣于分析任務(wù)的不同以及對(duì)地物或?qū)ο罄斫馍系牟町悾硗猓瑪?shù)據(jù)交付滯后的時(shí)間過(guò)長(zhǎng)可能導(dǎo)致分析結(jié)論失去參考意義,這就對(duì)數(shù)據(jù)的及時(shí)性提出了要求,即只有滿足業(yè)務(wù)對(duì)信息獲取的時(shí)間要求的數(shù)據(jù)記錄和傳遞才是有意義的.
在時(shí)空大數(shù)據(jù)分析中,某些規(guī)劃或預(yù)測(cè)的分析推斷對(duì)數(shù)據(jù)精度要求不高,其需要的可能只是時(shí)空數(shù)據(jù)分析判斷的結(jié)論作為統(tǒng)計(jì)分析素材.例如對(duì)某路段的車輛擁堵的分析判定時(shí),只要車輛位置在馬路中軸線擴(kuò)展一定范圍內(nèi)即可判定這輛車在該路段上,“車輛是否在該路段上”這個(gè)結(jié)論才是大數(shù)據(jù)分析所關(guān)心的內(nèi)容.當(dāng)然判定是否成為擁堵或標(biāo)識(shí)擁堵程度還需要結(jié)合車輛在該路段的數(shù)量以及車輛移動(dòng)速度的閾值等因素進(jìn)行判斷.但無(wú)論如何設(shè)計(jì)判定規(guī)則,最終保存的判定結(jié)果可以變得很簡(jiǎn)單(甚至可以是一個(gè)布爾量),這樣有利于提高大體量的時(shí)空數(shù)據(jù)分析和挖掘效率,畢竟基于時(shí)空大數(shù)據(jù)分析的規(guī)劃或預(yù)測(cè)需要考量的更多是統(tǒng)計(jì)意義上的族群分布或變化趨勢(shì).
時(shí)空大數(shù)據(jù)分析過(guò)程中很大程度上需要對(duì)分析對(duì)象之間的拓?fù)潢P(guān)系進(jìn)行分析和處理,大數(shù)據(jù)資源池的建設(shè)有相當(dāng)一部分工作就是建立便于快速準(zhǔn)確查詢的拓?fù)潢P(guān)系數(shù)據(jù),這種拓?fù)潢P(guān)系的表達(dá)可以是對(duì)原始時(shí)空大數(shù)據(jù)的分析處理結(jié)果,它們將作為用于對(duì)其他時(shí)空大數(shù)據(jù)分析挖掘的素材.鑒于結(jié)構(gòu)化數(shù)據(jù)查詢遍歷的效率,時(shí)空對(duì)象的拓?fù)潢P(guān)系在大數(shù)據(jù)資源池中可被保存在關(guān)系型數(shù)據(jù)庫(kù)中.
為了提高時(shí)空數(shù)據(jù)分析效率,對(duì)于時(shí)空數(shù)據(jù)中精確的坐標(biāo)位置、對(duì)象間的拓?fù)潢P(guān)系也會(huì)做一些近似處理.例如公交車是否到站的判定主要依托表達(dá)公交車(點(diǎn)對(duì)象)與車站(可以是點(diǎn)對(duì)象也可以是面對(duì)象)的拓?fù)潢P(guān)系.具體來(lái)說(shuō),如果把車站作為點(diǎn)對(duì)象來(lái)考量,當(dāng)作為點(diǎn)對(duì)象的公交車與同為點(diǎn)對(duì)象的車站的距離小于某個(gè)閾值即可判定公交車已經(jīng)到站;而如果把車站作為面對(duì)象來(lái)考量,公交車需要進(jìn)入面對(duì)象內(nèi)部才能判定為公交車已經(jīng)到站,此時(shí)可以把車站近似為其外切矩形的地物對(duì)象,并通過(guò)判別公交車坐標(biāo)值是否進(jìn)入這個(gè)近似的矩形范圍內(nèi)來(lái)判定公交車是否到站.顯然這種近似往往是不精確的,但這種近似減少了精確計(jì)算所帶來(lái)的計(jì)算強(qiáng)度,同時(shí)因?yàn)闀r(shí)空數(shù)據(jù)分析往往依托拓?fù)潢P(guān)系聚類分析的結(jié)果(而不是研究對(duì)象之間的精確拓?fù)潢P(guān)系),所以個(gè)別的拓?fù)浔磉_(dá)錯(cuò)誤不會(huì)影響最終的數(shù)據(jù)分析和統(tǒng)計(jì)結(jié)論,特別在大體量的時(shí)空數(shù)據(jù)分析和挖掘中這種近似處理不會(huì)影響其分析結(jié)論和判斷.
另外,在大數(shù)據(jù)資源池的拓?fù)鋽?shù)據(jù)表中為了某種數(shù)據(jù)分析任務(wù)的需要往往會(huì)增加時(shí)間特征的字段.例如為商業(yè)區(qū)域(如購(gòu)物城等)店鋪的合理規(guī)劃提供改進(jìn)決策支持需要對(duì)客戶分析進(jìn)行人群畫(huà)像,此時(shí)根據(jù)客戶(個(gè)人)的手機(jī)信令數(shù)據(jù)把客戶作為點(diǎn)對(duì)象被記錄下其移動(dòng)的軌跡,商鋪?zhàn)鳛殪o態(tài)地物被視為面對(duì)象,除了判斷客戶是否進(jìn)入某商鋪還要記錄客戶在其中停留的時(shí)長(zhǎng),因此在點(diǎn)與面對(duì)象拓?fù)潢P(guān)系表達(dá)與判斷的同時(shí)需要增加時(shí)間字段以便記錄客戶在該商鋪停留的時(shí)間長(zhǎng)短.
大數(shù)據(jù)資源池保存的數(shù)據(jù)一般不會(huì)讓外部用戶直接訪問(wèn),外部用戶實(shí)際上是通過(guò)數(shù)據(jù)交換中心的時(shí)空大數(shù)據(jù)云服務(wù)平臺(tái)來(lái)間接訪問(wèn)其數(shù)據(jù)的.時(shí)空大數(shù)據(jù)云服務(wù)平臺(tái)的建設(shè)目標(biāo)是針對(duì)不同類型的用戶需求提供時(shí)空大數(shù)據(jù)的規(guī)范化訪問(wèn)途徑,將各類數(shù)據(jù)分析或訪問(wèn)服務(wù)整合成服務(wù)庫(kù)的形式,為客戶提供通用時(shí)空大數(shù)據(jù)服務(wù)的同時(shí)還提供大數(shù)據(jù)資源池的二次開(kāi)發(fā)組件和接口.
具體來(lái)說(shuō),時(shí)空大數(shù)據(jù)云服務(wù)平臺(tái)依托云計(jì)算技術(shù),根據(jù)用戶不同的需求提供不同種類的時(shí)空信息服務(wù),由此構(gòu)建服務(wù)庫(kù)以便基于大數(shù)據(jù)資源池中各類數(shù)據(jù)實(shí)現(xiàn)不同層次的時(shí)空數(shù)據(jù)分析服務(wù)與能力支持.云計(jì)算技術(shù)實(shí)現(xiàn)的基礎(chǔ)是將大量的服務(wù)器按統(tǒng)一邏輯架構(gòu)組合在一起,由此才能提供針對(duì)大數(shù)據(jù)資源池中海量數(shù)據(jù)的計(jì)算與存儲(chǔ)[9-11].
時(shí)空大數(shù)據(jù)云服務(wù)平臺(tái)的構(gòu)建旨在提供通用時(shí)空大數(shù)據(jù)服務(wù),主要包括地名匹配服務(wù)、影像推送服務(wù)、通用空間分析服務(wù)等.其中,地名匹配服務(wù)主要是利用時(shí)空數(shù)據(jù)之間的關(guān)聯(lián)性實(shí)現(xiàn)空間定位與地物屬性的智能匹配與查找;影像推送服務(wù)則通過(guò)對(duì)衛(wèi)星影像數(shù)據(jù)自動(dòng)解析并按場(chǎng)景與區(qū)域范圍的變化推送分發(fā)到相應(yīng)的程序或設(shè)備上;通用空間分析服務(wù)主要是利用高性能空間分析引擎實(shí)現(xiàn)空間對(duì)象坐標(biāo)位置的計(jì)算、多源信息的疊加、聚類分析處理[12].
為了讓外部用戶更好地利用大數(shù)據(jù)資源池的時(shí)空大數(shù)據(jù),數(shù)據(jù)交換中心還需要提供了多層次的二次開(kāi)發(fā)組件和接口,以便用戶使用這些組件或接口完成個(gè)性化的時(shí)空大數(shù)據(jù)分析功能拓展,在形式上可以是利用軟件開(kāi)發(fā)工具包(SDK)在現(xiàn)有的業(yè)務(wù)應(yīng)用系統(tǒng)中開(kāi)發(fā)訪問(wèn)大數(shù)據(jù)資源池?cái)?shù)據(jù)服務(wù)庫(kù)的功能模塊,也可以編寫(xiě)個(gè)性化的時(shí)空大數(shù)據(jù)分析應(yīng)用,即直接通過(guò)訪問(wèn)接口 API讀取大數(shù)據(jù)資源池的時(shí)空大數(shù)據(jù).大數(shù)據(jù)資源池相關(guān)的開(kāi)發(fā)組件和接口通常包括基于瀏覽器的二次開(kāi)發(fā)包與基于移動(dòng)設(shè)備的二次開(kāi)發(fā)包兩種類型,以滿足不同途徑、不同形式的訪問(wèn)需要[12].
為進(jìn)一步深入整合現(xiàn)有數(shù)據(jù)資源,國(guó)務(wù)院相繼印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要(2015年8月)》、《政務(wù)資源共享管理暫行辦法(2016年9月)》,其目標(biāo)就是解決“數(shù)據(jù)孤島”問(wèn)題實(shí)現(xiàn)信息化資源大融合大共享,從而實(shí)現(xiàn)時(shí)空大數(shù)據(jù)的社會(huì)化應(yīng)用.大數(shù)據(jù)環(huán)境下數(shù)據(jù)交換中心的轉(zhuǎn)型與升級(jí)就是順應(yīng)實(shí)施大數(shù)據(jù)戰(zhàn)略、推進(jìn)數(shù)據(jù)資源開(kāi)放共享這一重大國(guó)家戰(zhàn)略方向.
數(shù)據(jù)交換中心在轉(zhuǎn)型升級(jí)過(guò)程中需要著眼于如何應(yīng)對(duì)大數(shù)據(jù)環(huán)境下時(shí)空大數(shù)據(jù)的特點(diǎn)以及數(shù)據(jù)服務(wù)模式的變化,其核心內(nèi)容是融合多源時(shí)空數(shù)據(jù)構(gòu)建大數(shù)據(jù)資源池,并以此為基礎(chǔ)搭建時(shí)空大數(shù)據(jù)云服務(wù)平臺(tái),對(duì)外提供個(gè)性化時(shí)空大數(shù)據(jù)分析與服務(wù).在時(shí)空大數(shù)據(jù)服務(wù)體系中,數(shù)據(jù)交換中心只有運(yùn)用大數(shù)據(jù)的解決方案和技術(shù)手段才能實(shí)現(xiàn)對(duì)大量的時(shí)空數(shù)據(jù)進(jìn)行有效的利用、挖掘其內(nèi)在的潛在信息和價(jià)值,以便提供適合大數(shù)據(jù)時(shí)代的時(shí)空數(shù)據(jù)服務(wù)支持,在社會(huì)管理與日常應(yīng)用諸多領(lǐng)域中實(shí)現(xiàn)時(shí)空大數(shù)據(jù)本來(lái)應(yīng)有的價(jià)值.