石松
面向業(yè)務(wù)創(chuàng)新的分析決策是國土資源大數(shù)據(jù)的應(yīng)用核心,也是國土資源大數(shù)據(jù)平臺首要構(gòu)建目標。國土資源大數(shù)據(jù)不僅具有海量、多源、異構(gòu)、時序性的顯著特點,而且還由于其作為基礎(chǔ)數(shù)據(jù)的特殊性地位,面臨著多樣化的決策分析需求,因此對大數(shù)據(jù)平臺架構(gòu)的定制性、敏捷性、可擴展性與服務(wù)能力提出了更高要求。
本文分析了主流的架構(gòu)設(shè)計方法論,以國土資源大數(shù)據(jù)應(yīng)用決策需求為出發(fā)點,對面向分析決策的國土資源大平臺架構(gòu)進行系統(tǒng)研究。
云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、人工智能等新一代信息技術(shù)的迅猛發(fā)展及其在國土資源領(lǐng)域的逐步推廣應(yīng)用,為開展業(yè)務(wù)創(chuàng)新、實現(xiàn)智能決策提供了技術(shù)保障,通過實現(xiàn)國土資源大數(shù)據(jù)的匯聚,促進國土資源決策科學化、監(jiān)管精準化、服務(wù)便利化,有效提升國土資源大數(shù)據(jù)利用水平,是智能決策的主要目標。國土資源數(shù)據(jù)可以劃分為空間數(shù)據(jù)與非空間數(shù)據(jù)兩大類型,空間數(shù)據(jù)主要是描述國土資源實體位置關(guān)系的數(shù)據(jù),非空間數(shù)據(jù)包括業(yè)務(wù)數(shù)據(jù)與知識數(shù)據(jù),這些數(shù)據(jù)具有海量、異構(gòu)、多源多時相的顯著特點。因此,采集、存儲、管理、分析與挖掘都面臨比較大的技術(shù)挑戰(zhàn)。
架構(gòu)的本質(zhì)是對信息系統(tǒng)進行建模,從而實現(xiàn)將業(yè)務(wù)功能和需求以合理的方式映射到 IT系統(tǒng)。為了實現(xiàn)智能決策,需要將大數(shù)據(jù)技術(shù)與人工智能技術(shù)融合,實現(xiàn)國土資源數(shù)據(jù)的統(tǒng)一采集、存儲、管理、分析與挖掘?;诖?,本文在分析主流的架構(gòu)設(shè)計方法論的基礎(chǔ)上,面向國土資源大數(shù)據(jù)的特點,設(shè)計并驗證了新型的國土資源大數(shù)據(jù)平臺架構(gòu),為解決國土資源大數(shù)據(jù)采集、融合、分析、挖掘與智能決策應(yīng)用的重點難點問題奠定了技術(shù)基礎(chǔ),為國土資源大數(shù)據(jù)平臺應(yīng)用提供了新的范式。
架構(gòu)(Architecture)是系統(tǒng)的基本組織,包括其組成部分、相互關(guān)系和環(huán)境,以及指導其設(shè)計和演化的原則。架構(gòu)設(shè)計需要有科學方法作為指導。信息系統(tǒng)的架構(gòu)設(shè)計主要遵循 Zachman企業(yè)架構(gòu)框架、FEA聯(lián)邦企業(yè)架構(gòu)和TOGAF開放群組架構(gòu)框架,架構(gòu)設(shè)計的本質(zhì)是從系統(tǒng)的需求和定位出發(fā),從業(yè)務(wù)、數(shù)據(jù)、應(yīng)用、技術(shù)等多個角度對系統(tǒng)進行建模,從而在需求和系統(tǒng)間搭建橋梁,因此在架構(gòu)設(shè)計中需要貫徹技術(shù)與業(yè)務(wù)分離、設(shè)計與實現(xiàn)分離這一核心原則。
對于行業(yè)性大數(shù)據(jù)平臺技術(shù)架構(gòu)的研究已有很多,包括電力企業(yè)大數(shù)據(jù)基礎(chǔ)平臺的功能架構(gòu)研究、農(nóng)業(yè)大數(shù)據(jù)平臺的架構(gòu)研究、電信大數(shù)據(jù)平臺的架構(gòu)研究、公共交通大數(shù)據(jù)平臺研究,這些研究都針對各自的業(yè)務(wù)領(lǐng)域提出了合理的設(shè)計,但是這些行業(yè)應(yīng)用大數(shù)據(jù)類型都相對比較單一,多以海量的結(jié)構(gòu)化管理數(shù)據(jù)為主,缺少數(shù)據(jù)融合,更多的是面向傳統(tǒng)BI的決策,而國土資源數(shù)據(jù)類型極端多樣,既有遙感影像、矢量圖形,又有管理數(shù)據(jù)、知識數(shù)據(jù),“4V”特征非常明顯,同時又由于國土資源數(shù)據(jù)是關(guān)乎國計民生的基礎(chǔ)數(shù)據(jù),應(yīng)用場景豐富,采用包括遙感影像信息自動提取、多源數(shù)據(jù)融合等技術(shù)方法是國土資源大數(shù)據(jù)利用的全新方向,因此,對國土資源大數(shù)據(jù)平臺的架構(gòu)設(shè)計必然提出更高的要求。
國土資源大數(shù)據(jù)分析決策的核心需求
核心需求包括核心的業(yè)務(wù)需求和技術(shù)需求。基于國土資源大數(shù)據(jù)智能決策的核心業(yè)務(wù)需求圍繞國土資源發(fā)展態(tài)勢提供監(jiān)管、預警、分析與評價服務(wù),從而更深刻地揭示人地關(guān)系,服務(wù)于國家生態(tài)文明建設(shè)。
由于業(yè)務(wù)需求的多樣性,通過對業(yè)務(wù)需求的分析,進一步抽取出共性的技術(shù)需求,劃分為三類:
(1)數(shù)據(jù)服務(wù)的技術(shù)需求。構(gòu)建并管理國土資源數(shù)據(jù)資源體系,實現(xiàn)國土資源數(shù)據(jù)的采集、管理、處理和分析應(yīng)用。
(2)計算服務(wù)的技術(shù)需求。融合數(shù)據(jù)、知識、指標、模型、算法等決策要素,圍繞監(jiān)管、預警、決策、評價四大類型需求,提供大數(shù)據(jù)計算服務(wù),需要支持實時、準實時及離線計算等不同應(yīng)用場景。
(3)集成服務(wù)的技術(shù)需求。根據(jù)服務(wù)協(xié)議或服務(wù)標準,將數(shù)據(jù)服務(wù)和計算服務(wù)以接口的形式提供給平臺服務(wù)消費者。
國土資源大數(shù)據(jù)平臺架構(gòu)的設(shè)計路線
基于上述需求理解,基于對國土資源大數(shù)據(jù)平臺核心需求的分析,本文采用Zachman企業(yè)架構(gòu)設(shè)計方法論來進行國土資源大數(shù)據(jù)平臺的架構(gòu)設(shè)計,即分別從業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)以及技術(shù)架構(gòu)四個不同的視角對國土資源大數(shù)據(jù)平臺進行建模。其中業(yè)務(wù)架構(gòu)是對國土資源大數(shù)據(jù)平臺業(yè)務(wù)能力的分解和細化,描述業(yè)務(wù)目標、業(yè)務(wù)場景及業(yè)務(wù)流程。應(yīng)用架構(gòu)解決國土資源大數(shù)據(jù)平臺的應(yīng)用劃分。數(shù)據(jù)架構(gòu)定義數(shù)據(jù)模型、數(shù)據(jù)標準、服務(wù)于數(shù)據(jù)融合。技術(shù)架構(gòu)定義國土資源大數(shù)據(jù)平臺的系統(tǒng)框架、組件框架、集成框架與部署框架。
國土資源大數(shù)據(jù)平臺業(yè)務(wù)架構(gòu)設(shè)計
業(yè)務(wù)架構(gòu)來自對國土資源大數(shù)據(jù)平臺核心需求的導入與分析,從中提煉出平臺的業(yè)務(wù)和技術(shù)能力。
國土資源大數(shù)據(jù)平臺作為服務(wù)于業(yè)務(wù)的技術(shù)平臺,業(yè)務(wù)能力不應(yīng)僅僅體現(xiàn)業(yè)務(wù)功能,也需要體現(xiàn)技術(shù)功能,從而才能實現(xiàn)業(yè)務(wù)元素和技術(shù)的有機整合,業(yè)務(wù)架構(gòu)為應(yīng)用架構(gòu)和數(shù)據(jù)架構(gòu)提供關(guān)鍵輸入。
平臺的業(yè)務(wù)功能至下而上,依次是:
(1)數(shù)據(jù)采集:數(shù)據(jù)采集包括外網(wǎng)數(shù)據(jù)采集(如衛(wèi)星傳感器、耕地紅線視頻監(jiān)控等),內(nèi)網(wǎng)數(shù)據(jù)采集,包括綜合研究數(shù)據(jù)、調(diào)查評價數(shù)據(jù)、土地規(guī)劃數(shù)據(jù)、災(zāi)害監(jiān)測數(shù)據(jù)以及基礎(chǔ)地理數(shù)據(jù)等。
(2)數(shù)據(jù)清洗與入庫:即采用ETL工具,將采集的數(shù)據(jù)清洗入庫,國土資源大數(shù)據(jù)平臺構(gòu)建七大庫,即業(yè)務(wù)數(shù)據(jù)庫、知識庫、關(guān)系圖數(shù)據(jù)庫、空間數(shù)據(jù)庫、決策指標庫、決策模型庫、業(yè)務(wù)規(guī)則庫。
(3)三大基礎(chǔ)服務(wù):分別是數(shù)據(jù)管理服務(wù),主要致力于數(shù)據(jù)目錄構(gòu)建,以及空間數(shù)據(jù)的管理和分析;影像分析服務(wù),對遙感影像以及視頻圖像進行分析,通過影像來分析地物變化、自動提取地物實體進行矢量化后進行統(tǒng)一管理。決策支持服務(wù),即通過數(shù)據(jù)分析融合,流程定制、模型組合來實現(xiàn)智能決策與分析。這三個服務(wù)本質(zhì)上都是數(shù)據(jù)服務(wù)和計算服務(wù)的統(tǒng)一,需要用到大數(shù)據(jù)平臺的實時計算與離線計算能力。
(4)四大決策分析:將國土資源智能決策分析能力進一步細分為監(jiān)管分析、預警分析、決策分析與評價分析,特別說明分析能力的提供是通過服務(wù)能力的組合來提供的。
(5)五大應(yīng)用專題:包括智慧執(zhí)法、智慧地災(zāi)、智慧土地、智慧礦產(chǎn)以及生態(tài)保護專題應(yīng)用。
(6)四大集成方式:國土資源大數(shù)據(jù)平臺提供數(shù)據(jù)沙箱、頁面集成、接口調(diào)用以及智能推送能力。
國土資源大數(shù)據(jù)平臺應(yīng)用架構(gòu)設(shè)計
應(yīng)用架構(gòu)來自于業(yè)務(wù)架構(gòu)的導入。應(yīng)用架構(gòu)的設(shè)計工作包括識別應(yīng)用功能、定義應(yīng)用劃分、確定應(yīng)用系統(tǒng)邊界、界定應(yīng)用風格、明確應(yīng)用分布,形成應(yīng)用架構(gòu)藍圖。應(yīng)用架構(gòu)需要依據(jù)業(yè)務(wù)需求,抽取關(guān)鍵用例,通過系統(tǒng)分析,建立應(yīng)用與業(yè)務(wù)能力之間的映射關(guān)系。
應(yīng)用架構(gòu)需要綜合考慮業(yè)務(wù)流程的連續(xù)性,業(yè)務(wù)數(shù)據(jù)的完整性與流動性,對應(yīng)用功能進行邏輯組合與劃分根據(jù)應(yīng)用合并與重組的原則,將國土資源大數(shù)據(jù)平臺進一步劃分為四大應(yīng)用平臺:
(1)大數(shù)據(jù)管理平臺:下設(shè)數(shù)據(jù)采集與匯聚子系統(tǒng),用以實現(xiàn)國土資源各類數(shù)據(jù)的采集與匯聚,平臺分析子系統(tǒng)、平臺查詢子系統(tǒng)、平臺管理子系統(tǒng)與平臺運維子系統(tǒng)。
(2)影像基礎(chǔ)服務(wù)平臺,用以開展基于各類不同傳感器、不同分辨率、不同光譜遙感影像通過深度學習提取地物信息服務(wù)
(3)數(shù)據(jù)共享開放平臺,實現(xiàn)數(shù)據(jù)的共享與交換,包括數(shù)據(jù)質(zhì)檢、數(shù)據(jù)目錄、共享交換與日志管理等。
(4)門戶平臺:開發(fā)建設(shè)綜合門戶、實現(xiàn)資源匯聚和權(quán)限管理。
國土資源大數(shù)據(jù)平臺數(shù)據(jù)架構(gòu)設(shè)計
數(shù)據(jù)架構(gòu)來自于業(yè)務(wù)和應(yīng)用需求,在設(shè)計中重點考慮了兩個關(guān)鍵點:一是基于統(tǒng)一的數(shù)據(jù)管理視角,以應(yīng)用對國土資源數(shù)據(jù)進行組織和規(guī)劃,提高跨系統(tǒng)間數(shù)據(jù)存貯和共享的效率;二是從數(shù)據(jù)資產(chǎn)管理的角度,對整個數(shù)據(jù)生命周期中數(shù)據(jù)的處理、存貯、轉(zhuǎn)換、整合制定策略、模型、流程以及支持這些策略、模型、流程的技術(shù)架構(gòu)方案。
為了有效地管理多源化的國土資源數(shù)據(jù),在數(shù)據(jù)架構(gòu)設(shè)計中引入了元數(shù)據(jù)管理平臺,實現(xiàn)對數(shù)據(jù)的統(tǒng)一管理。通過元數(shù)據(jù)管理平臺對大數(shù)據(jù)平臺中各類業(yè)務(wù)數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、影像數(shù)據(jù)進行管理,從而實現(xiàn)對應(yīng)用的全面支撐。
在數(shù)據(jù)應(yīng)用落地的具體過程中,將國土資源大數(shù)據(jù)最重要的綜合研究、調(diào)查評價、土地規(guī)劃、變更數(shù)據(jù)、遙感影像、基礎(chǔ)地理、國民經(jīng)濟、社會發(fā)展、地質(zhì)調(diào)查、災(zāi)害監(jiān)測等數(shù)據(jù)通過采集至貼源數(shù)據(jù)區(qū),并使用ESB總線對以上數(shù)據(jù)提供實時的訂閱、發(fā)布、管理服務(wù)。在貼源數(shù)據(jù)區(qū)中,使用ETL組件及工作流將數(shù)據(jù)進行整合,通過數(shù)據(jù)清洗規(guī)則對數(shù)據(jù)進行清洗,最終將部分具有實時計算需求屬性的數(shù)據(jù)導入預加載預計算區(qū)域,支撐快速數(shù)據(jù)查詢及展示。
另一方面,通過數(shù)據(jù)目錄將業(yè)務(wù)數(shù)據(jù)組成各類體系、模型、規(guī)則,通過業(yè)務(wù)、時間、詳細程度將基礎(chǔ)數(shù)據(jù)進行分類,兩類數(shù)據(jù)集合成為主題數(shù)據(jù),采用面向主題、時間、主題模型等方式進行存儲,最終形成面向不同專題應(yīng)用的國土資源數(shù)據(jù)集市。
國土資源大數(shù)據(jù)平臺技術(shù)架構(gòu)設(shè)計
平臺技術(shù)架構(gòu)則重點關(guān)注支撐國土資源大數(shù)據(jù)智能決策應(yīng)用所需的信息化技術(shù)和基礎(chǔ)設(shè)施平臺,識別關(guān)鍵技術(shù)組件、定義技術(shù)標準體系,為應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)提供技術(shù)支撐。為了確保技術(shù)先進、成熟、開放與成長性,國土資源大數(shù)據(jù)平臺中的主要技術(shù)組件均基于業(yè)內(nèi)成熟的開源框架進行搭建,集成和擴展實現(xiàn)了數(shù)據(jù)接入、數(shù)據(jù)處理、數(shù)據(jù)共享與開放、數(shù)據(jù)挖掘等一體化的技術(shù)支撐。
技術(shù)架構(gòu)說明如下:
1.數(shù)據(jù)接入層:解決本平臺所需的各類數(shù)據(jù)接入問題。包括采用外網(wǎng)爬蟲服務(wù)以獲得外網(wǎng)數(shù)據(jù),通過空間數(shù)據(jù)訪問服務(wù)以獲得空間數(shù)據(jù),通過ETL/SQOOP獲得業(yè)務(wù)數(shù)據(jù)以及視頻數(shù)據(jù)。通過FLUME獲得日志數(shù)據(jù)。
還有指標和模型數(shù)據(jù)需要采集入庫,考慮到數(shù)據(jù)采集與入庫可能存在性能上的差異,采用kafka消息中間件進行處理。同時還提供各種數(shù)據(jù)轉(zhuǎn)換入庫的規(guī)則配置,各種采集策略及模板配置等。
2.數(shù)據(jù)存儲層:通過接口方式解決各類數(shù)據(jù)的存儲問題。關(guān)系型數(shù)據(jù)庫寫入Postgrel,地圖數(shù)據(jù)庫寫入HDFS/HBASE,索引數(shù)據(jù)寫入Elastic Search,圖關(guān)系數(shù)據(jù)庫寫入Neo4j,交互式分析采用Pig/Hive/Impla。
3.數(shù)據(jù)訪問層:提供數(shù)據(jù)訪問接口,以實現(xiàn)對各類數(shù)據(jù)的訪問。
4.計算能力層:提供流式計算組件、批處理計算組件、并行計算組件、SmartBI建模、資源調(diào)度與管理組件、性能監(jiān)控等。
5.機器學習層:提供傳統(tǒng)機器學習與深度學習能力,實現(xiàn)數(shù)據(jù)標注、模型訓練、特征提取、模型預測、模型評估、參數(shù)調(diào)優(yōu)的能力。
6.技術(shù)組件層:提供公共技術(shù)支撐組件,包括流程與表單管理、決策支持管理、可視化分析管理、多源數(shù)據(jù)融合、視頻分析、空間分析、特征識別與提取、圖譜計算、高性能渲染等。
7.綜合應(yīng)用層:在上述數(shù)據(jù)與服務(wù)的基礎(chǔ)上,進一步構(gòu)建智慧執(zhí)法監(jiān)察系統(tǒng)、智慧地災(zāi)管理監(jiān)察系統(tǒng)以及數(shù)據(jù)共享與開放業(yè)務(wù)系統(tǒng)。
本文基于傳統(tǒng)的企業(yè)架構(gòu)設(shè)計方法論,針對國土資源大數(shù)據(jù)的自身特點,對面向智能決策的國土資源大數(shù)據(jù)平臺的架構(gòu)進行了多維度、多視角的建模,論述了國土資源大數(shù)據(jù)平臺的業(yè)務(wù)架構(gòu)、應(yīng)用架構(gòu)、數(shù)據(jù)架構(gòu)以及技術(shù)架構(gòu),為國土資源大數(shù)據(jù)價值挖掘提供了技術(shù)基礎(chǔ)。