孫 麗 (合肥市測繪設(shè)計(jì)研究院,安徽 合肥 230061)
智慧城市時(shí)空大數(shù)據(jù)建設(shè)已經(jīng)在智慧城市建設(shè)和城市運(yùn)行管理中得到了廣泛深入應(yīng)用,極大地提高了城市管理能力和水平。智慧園區(qū)時(shí)空大數(shù)據(jù)庫作為智慧園區(qū)建設(shè)的重要組成部分,實(shí)現(xiàn)園區(qū)各業(yè)務(wù)部門業(yè)務(wù)數(shù)據(jù)庫中多源異構(gòu)數(shù)據(jù)的匯聚和融合是智慧園區(qū)建設(shè)的首要任務(wù),然而現(xiàn)有各業(yè)務(wù)系統(tǒng)的數(shù)據(jù)庫分布廣泛、結(jié)構(gòu)不同,需要建設(shè)數(shù)據(jù)融合治理平臺來接入、融合各業(yè)務(wù)系統(tǒng)數(shù)據(jù)源(包括結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)),完成各種數(shù)據(jù)的接入、融合、治理并裝載到時(shí)空大數(shù)據(jù)庫,進(jìn)而推動各行業(yè)委辦局聯(lián)動和智慧示范應(yīng)用落地,為園區(qū)新型智慧城市建設(shè)奠定基礎(chǔ)。
本文結(jié)合智慧園區(qū)時(shí)空大數(shù)據(jù)庫的科學(xué)管理、業(yè)務(wù)應(yīng)用建設(shè)需求出發(fā),開展時(shí)空大數(shù)據(jù)庫存儲設(shè)計(jì)、數(shù)據(jù)融合治理模式探索,構(gòu)建了智慧園區(qū)時(shí)空大數(shù)據(jù)融合治理平臺。時(shí)空大數(shù)據(jù)庫基于關(guān)系型數(shù)據(jù)與非關(guān)系型數(shù)據(jù)庫方式進(jìn)行大數(shù)據(jù)管理與數(shù)據(jù)存儲,結(jié)合Spark分布式架構(gòu)設(shè)計(jì),實(shí)現(xiàn)對基礎(chǔ)地理數(shù)據(jù)、專題數(shù)據(jù)以及實(shí)時(shí)動態(tài)數(shù)據(jù)統(tǒng)一編目管理,完成對數(shù)據(jù)的抽取、融合、治理。
平臺建立了多技術(shù)類型、多業(yè)務(wù)類型的數(shù)據(jù)倉儲,滿足多源數(shù)據(jù)的持久化需求。時(shí)空大數(shù)據(jù)融合治理平臺中數(shù)據(jù)倉儲主要是由關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫構(gòu)成。不同類型的數(shù)據(jù),采用不同的數(shù)據(jù)存儲技術(shù)。其中,按照數(shù)據(jù)存儲方式分為結(jié)構(gòu)化非空間數(shù)據(jù)存儲、結(jié)構(gòu)化空間數(shù)據(jù)存儲和非結(jié)構(gòu)化空間數(shù)據(jù)存儲。按照數(shù)據(jù)庫類型分為時(shí)空數(shù)據(jù)倉庫和元數(shù)據(jù)庫。在數(shù)據(jù)存儲內(nèi)容方面,各類數(shù)據(jù)根據(jù)數(shù)據(jù)內(nèi)容的不同采取不同的存儲方案。
①靜態(tài)時(shí)空數(shù)據(jù):既有結(jié)構(gòu)化數(shù)據(jù)也有非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)包括矢量數(shù)據(jù)、影像數(shù)據(jù)、格網(wǎng)數(shù)據(jù)、建(構(gòu))筑物數(shù)據(jù)、地名地址類數(shù)據(jù)(地理編碼)以及業(yè)務(wù)表格等,主要以“ArcSDE+關(guān)系型數(shù)據(jù)庫(Oracle)”存儲;非結(jié)構(gòu)化數(shù)據(jù)包括切片數(shù)據(jù)、影像數(shù)據(jù)、三維模型等,主要以FTP進(jìn)行儲存。
②動態(tài)時(shí)空數(shù)據(jù):既有結(jié)構(gòu)化數(shù)據(jù),如轉(zhuǎn)換解析后的動態(tài)運(yùn)行數(shù)據(jù)、傳感數(shù)據(jù)、媒體數(shù)據(jù),該類數(shù)據(jù)與傳統(tǒng)地理空間數(shù)據(jù)完全不同,為實(shí)時(shí)變化的傳感器數(shù)據(jù)、文本數(shù)據(jù)、圖片、視頻等數(shù)據(jù),這些數(shù)據(jù)可采用HDFS、MongoDB進(jìn)行存儲。
各子庫的數(shù)據(jù)錄入時(shí)都要錄入元數(shù)據(jù)信息,以提高查詢檢索效率,元數(shù)據(jù)統(tǒng)一存儲在關(guān)系型數(shù)據(jù)庫中。存儲設(shè)計(jì)如圖1所示。
圖1 數(shù)據(jù)存儲設(shè)計(jì)
時(shí)空信息融合匯聚是所有數(shù)據(jù)進(jìn)入時(shí)空大數(shù)據(jù)庫的入口,也是各類數(shù)據(jù)更新的入口,提供在線接入和離線拷貝兩種方式。其中,在線接入主要針對的是實(shí)時(shí)動態(tài)信息和各類行業(yè)專題數(shù)據(jù),對于靜態(tài)地理信息數(shù)據(jù)、歷史地理信息數(shù)據(jù)、遠(yuǎn)景規(guī)劃數(shù)據(jù)等數(shù)據(jù)采用定期離線拷貝的方式進(jìn)行匯入,經(jīng)整理后轉(zhuǎn)換為可提供的時(shí)空信息成果數(shù)據(jù)或服務(wù)。數(shù)據(jù)融合治理區(qū)提供靈活可配的數(shù)據(jù)清洗轉(zhuǎn)換能力,實(shí)現(xiàn)跨業(yè)務(wù)系統(tǒng),跨異構(gòu)數(shù)據(jù)源的數(shù)據(jù)匯集及轉(zhuǎn)換,對離線拷貝、在線接入的各類數(shù)據(jù)經(jīng)過抽取、清洗后形成中間成果數(shù)據(jù),根據(jù)時(shí)空大數(shù)據(jù)模型進(jìn)行分層處理、空間化處理,然后經(jīng)過數(shù)據(jù)處理治理、數(shù)據(jù)質(zhì)檢、數(shù)據(jù)入庫,進(jìn)入最后的時(shí)空大數(shù)據(jù)庫中。
以解決實(shí)際的業(yè)務(wù)問題為平臺建設(shè)的出發(fā)點(diǎn)和歸宿,旨在從園區(qū)各業(yè)務(wù)部門提取分布廣泛、結(jié)構(gòu)不同的業(yè)務(wù)數(shù)據(jù)并裝載到時(shí)空大數(shù)據(jù)庫。本文基于ETL數(shù)據(jù)抽取融合技術(shù)和Quartz分布式自動化任務(wù)調(diào)度框架構(gòu)建了時(shí)空大數(shù)據(jù)融合治理平臺,基于流程的可視化任務(wù)定制并行計(jì)算框架技術(shù)實(shí)現(xiàn)圖形化數(shù)據(jù)匯聚流程定制功能,通過作業(yè)設(shè)計(jì)器,規(guī)劃作業(yè)步驟,定制步驟間的依賴關(guān)系,保證了時(shí)空大數(shù)據(jù)的自動、高效、可持續(xù)的融合匯聚。平臺主要由數(shù)據(jù)融合治理工具、數(shù)據(jù)融合任務(wù)調(diào)度工具、數(shù)據(jù)融合執(zhí)行工具、數(shù)據(jù)融合監(jiān)控管理中心等功能模塊組成。其功能架構(gòu)如圖2所示。
圖2 系統(tǒng)總體功能架構(gòu)圖
數(shù)據(jù)融合治理工具作為平臺的功能主體,具有轉(zhuǎn)換流程設(shè)計(jì)器、作業(yè)設(shè)計(jì)器,用于定義數(shù)據(jù)清洗及轉(zhuǎn)換,作業(yè)的執(zhí)行流程配置,針對多源異構(gòu)數(shù)據(jù)自定義數(shù)據(jù)融合流程,以拖拽的方式進(jìn)行數(shù)據(jù)融合治理設(shè)計(jì),并將設(shè)計(jì)好的方案保存在計(jì)算模型集中,提供數(shù)據(jù)處理插件,供數(shù)據(jù)融合服務(wù)使用。其主要負(fù)責(zé)將分散的、異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)按照統(tǒng)一的規(guī)則集,完成數(shù)據(jù)從數(shù)據(jù)源向目標(biāo)數(shù)據(jù)倉庫轉(zhuǎn)化的過程,為數(shù)據(jù)分析處理、挖掘提供基礎(chǔ)。
圖3 自定義數(shù)據(jù)融合治理流程
圖4 數(shù)據(jù)融合管理中心
數(shù)據(jù)融合管理中心作為數(shù)據(jù)處理任務(wù)的調(diào)度監(jiān)控管理中心,主要負(fù)責(zé)執(zhí)行設(shè)計(jì)工具形成的轉(zhuǎn)換作業(yè)進(jìn)行服務(wù)化調(diào)度和執(zhí)行,并監(jiān)控任務(wù)執(zhí)行時(shí)的硬件資源、任務(wù)運(yùn)行狀態(tài),以及異常情況的跟蹤、記錄與警告處理。
任務(wù)調(diào)度執(zhí)行模塊可以執(zhí)行持續(xù)的分布式作業(yè)任務(wù),并為任務(wù)調(diào)度及任務(wù)執(zhí)行狀態(tài)展示提供支撐。任務(wù)調(diào)度工具以任務(wù)調(diào)度為主體,對數(shù)據(jù)融合治理工具完成的轉(zhuǎn)換作業(yè)進(jìn)行服務(wù)化調(diào)度和執(zhí)行。任務(wù)執(zhí)行工具主要在節(jié)點(diǎn)上運(yùn)行方案,完成數(shù)據(jù)匯聚融合工作。
智慧園區(qū)時(shí)空大數(shù)據(jù)融合治理平臺在輔助智慧園區(qū)示范應(yīng)用建設(shè)中,初步構(gòu)建了“以數(shù)據(jù)為基礎(chǔ)、以融合為核心、以應(yīng)用為導(dǎo)向”的應(yīng)用管理模式,對于匯入的錯(cuò)誤、冗余的多源異構(gòu)數(shù)據(jù)進(jìn)行冗余清除,按照空間位置屬性或時(shí)間屬性對數(shù)據(jù)進(jìn)行聚類抽取計(jì)算,對不同類型的時(shí)空數(shù)據(jù)根據(jù)靈活配置規(guī)則,進(jìn)行合法性判定,利用平臺提供的多類數(shù)據(jù)融合治理工具,實(shí)現(xiàn)了多源異構(gòu)時(shí)空數(shù)據(jù)的處理和融合,規(guī)范了時(shí)空數(shù)據(jù)管理和處理流程,并在智慧規(guī)劃、智慧環(huán)保等示范應(yīng)用中取得實(shí)際應(yīng)用,如融合治理規(guī)劃用地?cái)?shù)據(jù)、水質(zhì)實(shí)時(shí)動態(tài)監(jiān)測數(shù)據(jù)等,推動了各業(yè)務(wù)部門數(shù)據(jù)的共享協(xié)同和智慧示范應(yīng)用落地,有效地提升了園區(qū)智慧城市建設(shè)應(yīng)用管理的水平。
為了持續(xù)、實(shí)時(shí)、高效地進(jìn)行園區(qū)各業(yè)務(wù)專題數(shù)據(jù)的抽取和匯聚融合,本文基于ETL數(shù)據(jù)抽取融合技術(shù)及分布式自動化任務(wù)調(diào)度框架構(gòu)建了融合計(jì)算平臺,接入了園區(qū)環(huán)保、城市管理、建設(shè)發(fā)展、測繪、自然資源和規(guī)劃等多個(gè)業(yè)務(wù)部門的專題數(shù)據(jù),其業(yè)務(wù)數(shù)據(jù)具有多源性、異構(gòu)性和實(shí)時(shí)性等特點(diǎn)。通過可視化業(yè)務(wù)建模,構(gòu)建了集融合治理任務(wù)設(shè)計(jì)、任務(wù)調(diào)度、計(jì)算執(zhí)行于一體的作業(yè)組件與實(shí)時(shí)計(jì)算,提高了數(shù)據(jù)融合效率、錯(cuò)誤處理效率和數(shù)據(jù)融合準(zhǔn)確度,實(shí)現(xiàn)了眾源數(shù)據(jù)的自動融合,并在園區(qū)示范應(yīng)用建設(shè)中取得了一定的應(yīng)用效果,為后續(xù)融合更廣范圍的專題數(shù)據(jù)、實(shí)時(shí)動態(tài)數(shù)據(jù)提供技術(shù)依據(jù)和基礎(chǔ)。
圖5 規(guī)劃用地?cái)?shù)據(jù)融合治理展示
圖6 水質(zhì)實(shí)時(shí)動態(tài)監(jiān)測數(shù)據(jù)融合治理