黃家凱, 熊保成, 劉勁松, 王 冕, 趙逸君, 秦麗娟, 吳恩政
(1.湖北省地質(zhì)調(diào)查院,湖北 武漢 430034; 2.湖北省地質(zhì)局,湖北 武漢 430022)
地質(zhì)科學(xué)是一個(gè)空間上涵蓋大氣圈、水圈、生物圈、巖石圈,時(shí)間上覆蓋4.6 Ga以前及其以后至現(xiàn)在并要對(duì)未來作出預(yù)測的超復(fù)雜體系。這決定了地質(zhì)大數(shù)據(jù)除了大數(shù)據(jù)的“5V”(Volume、Variety、Value、Velocity、Veracity)特性以外,還與空間、時(shí)間緊密關(guān)聯(lián),是一個(gè)超復(fù)雜的集合體(1)熊保成,關(guān)于科技創(chuàng)新與數(shù)字地質(zhì)建設(shè)的思考,湖北省地質(zhì)局學(xué)習(xí)貫徹黨的十九屆五中全會(huì)精神處級(jí)干部培訓(xùn)班,2021。。從地球科學(xué)的任何一個(gè)專業(yè)方向開展的數(shù)據(jù)建模都只是地質(zhì)大數(shù)據(jù)的某一視圖,難免陷入“盲人摸象”的困境。近十幾年來,地質(zhì)調(diào)查領(lǐng)域開展了多個(gè)專業(yè)的數(shù)據(jù)庫建設(shè),湖北省已建成的數(shù)據(jù)庫多達(dá)50余個(gè),形成了豐富的地質(zhì)數(shù)據(jù)資源體系。與此同時(shí),這些數(shù)據(jù)庫在數(shù)據(jù)融合、更新維護(hù)、挖掘應(yīng)用等領(lǐng)域面臨挑戰(zhàn)。從大數(shù)據(jù)的角度重新審視時(shí)空地質(zhì)大數(shù)據(jù)的數(shù)據(jù)模式(schema)、物理模式與數(shù)據(jù)服務(wù)能力,對(duì)于數(shù)字地質(zhì)建設(shè)具有十分重要的意義。
地質(zhì)數(shù)據(jù)是地質(zhì)工作的真實(shí)記錄和成果的最終表達(dá)載體[1]。國內(nèi)地質(zhì)大數(shù)據(jù)建設(shè)的過程中,多采取按照信息產(chǎn)品分類來組織地質(zhì)大數(shù)據(jù)的體系(表1),主要方法是按產(chǎn)品類型劃分一級(jí)類,按專業(yè)劃分二級(jí)類,本質(zhì)是一種可生長的“樹”結(jié)構(gòu)。數(shù)據(jù)內(nèi)容以成果地質(zhì)資料、文獻(xiàn)、數(shù)據(jù)集及其衍生品為主,通過分布式框架實(shí)現(xiàn)元數(shù)據(jù)注冊(cè)與發(fā)布,按照非結(jié)構(gòu)化數(shù)據(jù)、數(shù)據(jù)庫和OGC地圖三種類型提供在線服務(wù)[2]。這種方法被其他省級(jí)地質(zhì)大數(shù)據(jù)建設(shè)廣泛參考[3],有效推動(dòng)了地質(zhì)大數(shù)據(jù)的匯集與共享服務(wù)。
表1 國內(nèi)地質(zhì)大數(shù)據(jù)的數(shù)據(jù)分類體系簡表Table 1 Summary of data classification system of domestic geological big data
表1中,地質(zhì)數(shù)據(jù)是指以經(jīng)緯度坐標(biāo)為基礎(chǔ)的某一特定專業(yè)范圍的相關(guān)空間數(shù)據(jù)的集合;地質(zhì)資料是指以項(xiàng)目為單位匯交的地質(zhì)資料檔案;地質(zhì)圖是指以投影平面直角坐標(biāo)為基礎(chǔ)的含圖框、圖例、比例尺等整飾要素的電子地圖;地學(xué)科普是指面向大眾的科普讀物產(chǎn)品;文獻(xiàn)與出版物是指面向?qū)I(yè)技術(shù)人員的數(shù)據(jù)產(chǎn)品;技術(shù)方法與標(biāo)準(zhǔn)是指國家、行業(yè)、地方及企業(yè)的方法、標(biāo)準(zhǔn)及專利;地學(xué)軟件是指軟件產(chǎn)品;儀器設(shè)備是指地質(zhì)工作中所需要使用的各類裝備。
基于信息產(chǎn)品分類的地質(zhì)大數(shù)據(jù)具有擴(kuò)充方便、兼容性強(qiáng)的特點(diǎn),在數(shù)據(jù)檢索、知識(shí)管理與推送、專題組合應(yīng)用等方面具有強(qiáng)大生命力。同時(shí)因?yàn)檫@種體系不關(guān)注分類樹葉節(jié)點(diǎn)上具體數(shù)據(jù)的定義與模式結(jié)構(gòu),也就決定了該體系中不可避免地存在數(shù)據(jù)模式?jīng)_突和語義沖突的問題,對(duì)于同一維度的客觀地質(zhì)現(xiàn)象存在多種來源的數(shù)據(jù),并較難判斷數(shù)據(jù)的關(guān)聯(lián)關(guān)系。
根據(jù)湖北省地質(zhì)局地質(zhì)大數(shù)據(jù)平臺(tái)建設(shè)的實(shí)踐,本文提出以下觀點(diǎn):多維時(shí)空地質(zhì)大數(shù)據(jù)可以看作是以時(shí)空坐標(biāo)為基礎(chǔ)的不同維度屬性的地質(zhì)數(shù)據(jù)矩陣。按照這個(gè)總體思路,本文對(duì)其內(nèi)涵作如下闡釋:空間三維坐標(biāo)定位是時(shí)空地質(zhì)大數(shù)據(jù)體系的基礎(chǔ),時(shí)間是每個(gè)專業(yè)維度屬性的一個(gè)復(fù)合數(shù)據(jù)項(xiàng)。時(shí)空地質(zhì)大數(shù)據(jù)體系的屬性維度數(shù)量可動(dòng)態(tài)擴(kuò)展,同一維度的屬性項(xiàng)可以是結(jié)構(gòu)化數(shù)據(jù)、對(duì)象或其它任意結(jié)構(gòu)體(圖1)。從上述定義可知,該結(jié)構(gòu)的時(shí)空地質(zhì)大數(shù)據(jù)體系不僅具有能動(dòng)態(tài)擴(kuò)容、兼容性強(qiáng)的特點(diǎn),同時(shí)還具有專題屬性鮮明、易于大數(shù)據(jù)查詢檢索挖掘的優(yōu)點(diǎn)。
圖1 多維時(shí)空地質(zhì)大數(shù)據(jù)體系概念圖Fig.1 Concept map of multi-dimensional spatio-temporal geological big data system
多維時(shí)空地質(zhì)大數(shù)據(jù)的空間數(shù)據(jù)屬于三維模型,三維模型的數(shù)據(jù)模式(也可叫模式)較多,主要分為基于面元的數(shù)據(jù)模型和基于體元的數(shù)據(jù)模型[4]。地質(zhì)大數(shù)據(jù)的覆蓋范圍包括大氣圈、水圈、生物圈、巖石圈,三維空間基礎(chǔ)模型是關(guān)聯(lián)其它維度屬性的核心。從前述的定義可知,本文所定義的多維時(shí)空地質(zhì)大數(shù)據(jù)要求采用基于體元的三維空間數(shù)據(jù)模型。體元的剖分類型又可分為規(guī)則體元和不規(guī)則體元。《地球空間網(wǎng)格編碼規(guī)則》(GB/T 40087—2021)基于GeoSOT(Geographical coordinate global Subdivision on One-dimension-integer and Two to nthpower)地球剖分模型,將地球空間按照經(jīng)度、維度、高程(覆蓋-6 302.106 722 602 182~528 680.171 125 243 7 km)三要素統(tǒng)一剖分為32級(jí)網(wǎng)格單元,并按統(tǒng)一編碼規(guī)則進(jìn)行標(biāo)識(shí)和表達(dá),構(gòu)建了網(wǎng)格化的地球空間數(shù)據(jù)組織參考框架,有效解決了海量空間信息在標(biāo)識(shí)和表達(dá)上的唯一性、可讀性、尺度性和關(guān)聯(lián)性瓶頸,實(shí)現(xiàn)了多源、多尺度數(shù)據(jù)網(wǎng)格化高效組織、處理和應(yīng)用。多維時(shí)空地質(zhì)大數(shù)據(jù)模型采用此方案作為三維空間數(shù)據(jù)模式。
從該模型的剖分粒度來看,第32級(jí)網(wǎng)格最大邊長為1.5 cm,地球表面共分為344 413 427 466 240萬個(gè)網(wǎng)格單元,已遠(yuǎn)超地質(zhì)工作應(yīng)用需求,也遠(yuǎn)遠(yuǎn)超過了當(dāng)前計(jì)算機(jī)處理的能力。本文認(rèn)為常規(guī)應(yīng)用中最高級(jí)別選擇27級(jí)(0.5 m網(wǎng)格邊長,地球表面336 341 237 760萬個(gè)網(wǎng)格單元)即可,同時(shí)還要與具體的數(shù)據(jù)集三維空間范圍相交集。
時(shí)間是地質(zhì)現(xiàn)象的基本維度,也是地質(zhì)大數(shù)據(jù)的本質(zhì)屬性和主要內(nèi)容,地質(zhì)數(shù)據(jù)的元數(shù)據(jù)、數(shù)據(jù)集、數(shù)據(jù)項(xiàng)等都包含了豐富的時(shí)間信息[5]。地質(zhì)數(shù)據(jù)的時(shí)間可分為三類:一是事件時(shí)間,指地質(zhì)現(xiàn)象或事件在現(xiàn)實(shí)中發(fā)生或存在的時(shí)間;二是事務(wù)時(shí)間,指地質(zhì)現(xiàn)象或事件在數(shù)據(jù)庫中被記錄、更新、刪除的時(shí)間;三是數(shù)據(jù)時(shí)間,指地質(zhì)現(xiàn)象或事件被觀測、采集形成數(shù)據(jù)記錄的時(shí)間或事件范圍。從地質(zhì)現(xiàn)象時(shí)間的性質(zhì)出發(fā),又可分為時(shí)間點(diǎn)和時(shí)間段[5]。
對(duì)時(shí)空地質(zhì)大數(shù)據(jù)體系來說,最重要的是事件時(shí)間和數(shù)據(jù)時(shí)間。事件時(shí)間具有尺度不均衡性,大尺度的地質(zhì)數(shù)據(jù)采用地質(zhì)年代來表達(dá),其余的采用年、月、日等尺度的時(shí)間單位表達(dá),并作為維度的普通屬性項(xiàng)以時(shí)間點(diǎn)或時(shí)間段來記錄,如:地質(zhì)體的地質(zhì)年代、采礦權(quán)的有效期限等等。數(shù)據(jù)時(shí)間通常以元數(shù)據(jù)的形式采集并記錄。
時(shí)空地質(zhì)大數(shù)據(jù)體系中,某一維度的屬性可用GIS的“圖層”概念來描述,但同時(shí)又具有顯著的區(qū)別。圖層的空間數(shù)據(jù)既可以是矢量的,也可以是柵格的。本文討論的多維時(shí)空地質(zhì)大數(shù)據(jù)模型的空間數(shù)據(jù)通過多級(jí)格網(wǎng)定義,與維度數(shù)據(jù)通過格網(wǎng)編碼相關(guān)聯(lián)。因此,某一維度的屬性可類比為柵格圖層每一個(gè)像素的屬性值的集合。作為時(shí)空地質(zhì)大數(shù)據(jù),維度屬性的模式定義要符合彈性可擴(kuò)容原則,即:維度的屬性可以擴(kuò)充、維護(hù),同一屬性的內(nèi)容既可以是普通的數(shù)字、字符等,也可以是嵌套的結(jié)構(gòu)體。此外,本文討論的多維時(shí)空地質(zhì)大數(shù)據(jù)模型還具有多尺度的特點(diǎn),即不同剖分級(jí)別對(duì)應(yīng)不同的空間分辨率,相比柵格圖層具有更廣的適用范圍。
雖然從時(shí)空地質(zhì)大數(shù)據(jù)體系的設(shè)計(jì)角度來說不需要定義嚴(yán)格的維度數(shù)據(jù)模式,但是從地質(zhì)領(lǐng)域的業(yè)務(wù)應(yīng)用角度來看,規(guī)范的數(shù)據(jù)模式是保證其上層OLTP(聯(lián)機(jī)事務(wù)處理系統(tǒng))系統(tǒng)和OLAP(聯(lián)機(jī)分析系統(tǒng))系統(tǒng)穩(wěn)定運(yùn)行的前提[6]。因此,有必要按業(yè)務(wù)領(lǐng)域定義數(shù)據(jù)模型,亦即數(shù)據(jù)集標(biāo)準(zhǔn)。這個(gè)過程中,要充分使用國家標(biāo)準(zhǔn)、行業(yè)標(biāo)準(zhǔn)和地方標(biāo)準(zhǔn),要充分考慮不同領(lǐng)域之間數(shù)據(jù)模型的交集,消除數(shù)據(jù)模式和數(shù)據(jù)語義的沖突與矛盾。
由于地球科學(xué)的系統(tǒng)性和復(fù)雜性,某些領(lǐng)域的數(shù)據(jù)難以直接通過空間位置表達(dá),這類數(shù)據(jù)在維度建模過程中,需要進(jìn)行適當(dāng)?shù)霓D(zhuǎn)換處理和關(guān)聯(lián)應(yīng)用。如文本、表格、音頻視頻等數(shù)據(jù),需要跟某一相關(guān)的空間實(shí)體相關(guān)聯(lián)進(jìn)行表達(dá)。通過關(guān)聯(lián)關(guān)系實(shí)現(xiàn)上述非結(jié)構(gòu)化數(shù)據(jù)基于位置的推送和服務(wù)。
從前述各維度的數(shù)據(jù)模式定義可知,本文定義的時(shí)空地質(zhì)大數(shù)據(jù)是一種可彈性擴(kuò)展的半結(jié)構(gòu)化數(shù)據(jù),適合采用可擴(kuò)展標(biāo)記語言(extensible markup language,XML)作為其存儲(chǔ)模式。XML是由W3C組織提出的一種用于數(shù)據(jù)存儲(chǔ)與交換的標(biāo)準(zhǔn),具有簡單靈活的格式、可擴(kuò)展性和強(qiáng)大的網(wǎng)絡(luò)交換功能,采用開放的、自描述的方式描述數(shù)據(jù)的內(nèi)容和結(jié)構(gòu)[7]。
與關(guān)系型數(shù)據(jù)庫相比,采用XML文件作為數(shù)據(jù)的存儲(chǔ)模式具有更高的靈活性和可擴(kuò)展性。因?yàn)殛P(guān)系型數(shù)據(jù)庫是“寫模式”(Schema On Write),一旦數(shù)據(jù)結(jié)構(gòu)確定并寫入后,調(diào)整或擴(kuò)展數(shù)據(jù)結(jié)構(gòu)的代價(jià)往往較大[8]。此外關(guān)系型數(shù)據(jù)庫系統(tǒng)不支持Hadoop生態(tài)系統(tǒng)的計(jì)算框架,這制約了基于大數(shù)據(jù)的數(shù)據(jù)挖掘與分析。與NOSQL(MongoDB等)相比,XML具有的顯示數(shù)據(jù)定義更適合大數(shù)據(jù)分析過程中的數(shù)據(jù)序列化和反序列化,因此XML這種半結(jié)構(gòu)化的數(shù)據(jù)存儲(chǔ)方案更適合本文所研究的多維時(shí)空地質(zhì)大數(shù)據(jù)模型。
本文采用XML的元素(element)來表達(dá)時(shí)空地質(zhì)大數(shù)據(jù)的屬性,采用標(biāo)記(tag)來描述屬性。以湖北省武漢市某地(坐標(biāo):114°13′27.2″,30°35′42.8″,假定高程采用參考橢球表面)為例,描述其地層信息的數(shù)據(jù)存儲(chǔ)模式如表2所示,其XML編碼如下。
表2 時(shí)空地質(zhì)大數(shù)據(jù)的地層維度屬性描述表Table 2 Stratum dimension attribute description table of spatio-temporal geological big data
以XML文件作為基本單元設(shè)計(jì)存儲(chǔ)的物理模式還要考慮文件數(shù)量瓶頸。因?yàn)槿S空間多級(jí)剖分的格網(wǎng)數(shù)量極其龐大,若XML文件劃分的粒度過細(xì),將會(huì)形成海量的XML小文件。大量的XML小文件將對(duì)大數(shù)據(jù)存儲(chǔ)系統(tǒng)造成壓力[9],不利于大數(shù)據(jù)的挖掘。因此XML文件應(yīng)以合適數(shù)量的格網(wǎng)作為集合來組織。根據(jù)經(jīng)驗(yàn),本文建議以百萬量級(jí)格網(wǎng)作為上限區(qū)間,可將格網(wǎng)等級(jí)12級(jí)以內(nèi)(含12級(jí))的網(wǎng)格組織到一個(gè)XML文件中;高于12級(jí)的按照四分的原則分別組織并以格網(wǎng)編碼區(qū)間規(guī)則命名,方便計(jì)算機(jī)空間檢索。對(duì)一個(gè)較小的覆蓋區(qū)域來說,可根據(jù)其面積占全球的比例相應(yīng)提高XML文件的格網(wǎng)級(jí)別。
多維時(shí)空地質(zhì)大數(shù)據(jù)的物理模式為一系列的XML文件,這些文件在應(yīng)用過程中將被頻繁的查詢、讀取和更新。傳統(tǒng)的文件系統(tǒng)無法滿足需求,需要一種分布式的大數(shù)據(jù)管理系統(tǒng)來支撐,Hadoop HDFS是較為適合的選擇,并可通過其MapReduce或Spark分布式計(jì)算框架實(shí)現(xiàn)數(shù)據(jù)的分布式計(jì)算服務(wù)。
Hadoop HDFS主要由NameNode和一系列DataNode組成,其中NameNode管理HDFS的目錄樹和相關(guān)的元數(shù)據(jù)文件,DataNode存儲(chǔ)數(shù)據(jù)塊[10-11]。同一份數(shù)據(jù)塊通常分為多個(gè)副本,存儲(chǔ)在不同的DataNode上,以確保數(shù)據(jù)的高可用性(圖2)。
圖2 多維時(shí)空地質(zhì)大數(shù)據(jù)Hadoop HDFS結(jié)構(gòu)簡圖Fig.2 Structure diagram of multi-dimensional spatio-temporal geological big data Hadoop HDFS
基于HDFS分布式文件系統(tǒng),多維時(shí)空地質(zhì)大數(shù)據(jù)的查詢、讀取和更新等操作,可以抽象成對(duì)XML文檔數(shù)據(jù)的MapReduce處理過程。MapReduce分布式計(jì)算框架將用戶請(qǐng)求分解(Map)成分布式任務(wù),由各節(jié)點(diǎn)并行執(zhí)行得到中間結(jié)果,然后再執(zhí)行匯總合并任務(wù)(Reduce),向用戶輸出最終結(jié)果(圖3)。MapReduce框架是基于批處理的非實(shí)時(shí)模式,如果用戶對(duì)計(jì)算任務(wù)有較高的實(shí)時(shí)性要求,可采用近實(shí)時(shí)的Spark計(jì)算框架[12]。
圖3 多維時(shí)空地質(zhì)大數(shù)據(jù)分布式計(jì)算過程圖Fig.3 Distributed computing process chart of multi-dimensional spatio-temporal geological big data
建立多維時(shí)空地質(zhì)大數(shù)據(jù)模型的最終目的是提供數(shù)據(jù)服務(wù)。本文的多維時(shí)空地質(zhì)大數(shù)據(jù)模型與GIS平臺(tái)實(shí)現(xiàn)了解耦,XML格式的數(shù)據(jù)模型非常適合計(jì)算機(jī)自動(dòng)化處理,在分布式計(jì)算框架的支持下可提供廣泛的數(shù)據(jù)服務(wù),包括基于位置的專題地質(zhì)屬性數(shù)據(jù)服務(wù)和數(shù)據(jù)挖掘服務(wù)等。
多維時(shí)空地質(zhì)大數(shù)據(jù)剖分格網(wǎng)隱含表達(dá)了地理空間位置,因此非常容易提供基于地理空間位置的多尺度的專題地質(zhì)屬性數(shù)據(jù)服務(wù)。地理空間位置的查詢不依賴于GIS平臺(tái),可方便地通過格網(wǎng)編碼雙向解析,其服務(wù)的流程如圖4所示。
圖4 基于地理空間位置的專題地質(zhì)屬性數(shù)據(jù)服務(wù)流程圖Fig.4 Flow chart of geological attribute data service based on geological location
專題地質(zhì)屬性數(shù)據(jù)服務(wù)通過Web API提供,客戶端將地理空間位置(經(jīng)度、維度、高程)和請(qǐng)求的圖層名稱、屬性名稱作為參數(shù)傳遞給應(yīng)用服務(wù)網(wǎng)關(guān),后者將地理空間位置轉(zhuǎn)換為格網(wǎng)編碼,連同其它參數(shù)傳遞給分布式計(jì)算程序,然后由分布式計(jì)算框架在HDFS的支持下完成任務(wù)分解調(diào)度(Map過程)。各節(jié)點(diǎn)的查詢結(jié)果經(jīng)合并(Reduce)后,由分布式計(jì)算程序?qū)Y(jié)果按照XML或JSON進(jìn)行編碼,最后由應(yīng)用服務(wù)網(wǎng)關(guān)返回給客戶端。
基于多維度的時(shí)空地質(zhì)大數(shù)據(jù)模型,可以有效地支撐深度學(xué)習(xí)所需要的數(shù)據(jù)集輸入需求。地質(zhì)體屬性與空間位置緊密關(guān)聯(lián),因此采用深度學(xué)習(xí)方法來研究解決地質(zhì)問題的過程中大多需要將輸入數(shù)據(jù)網(wǎng)格化,并通過緩沖區(qū)運(yùn)算分析空間相關(guān)性[13]。本文將地質(zhì)大數(shù)據(jù)的空間位置及其拓?fù)潢P(guān)系通過格網(wǎng)編碼實(shí)現(xiàn)了有規(guī)律的量化隱含表達(dá),有效解決了空間數(shù)據(jù)的輸入問題,并降低了空間運(yùn)算的復(fù)雜程度。此外,基于HDFS分布式文件系統(tǒng)的XML格式專題屬性數(shù)據(jù)可為深度學(xué)習(xí)提供快速、便捷的數(shù)據(jù)輸入源,實(shí)現(xiàn)數(shù)據(jù)的高效解析,從而有效地提高地質(zhì)大數(shù)據(jù)挖掘服務(wù)能力。
本文提出的基于多級(jí)剖分模型的多維時(shí)空地質(zhì)大數(shù)據(jù)具有結(jié)構(gòu)清晰、易于彈性擴(kuò)充、兼容性強(qiáng)的特點(diǎn),剖分網(wǎng)格從空間上覆蓋全球尺度到厘米尺度,維度屬性模型兼容結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),基于XML和Hadoop HDFS的物理模式可滿足海量數(shù)據(jù)存儲(chǔ)以及大數(shù)據(jù)分析挖掘。該模型在分布式計(jì)算框架的支持下可方便地應(yīng)用于基于地理空間位置的多維度地質(zhì)屬性數(shù)據(jù)服務(wù)和數(shù)據(jù)挖掘服務(wù),作為地質(zhì)大數(shù)據(jù)體系在數(shù)據(jù)匯聚、標(biāo)準(zhǔn)化和數(shù)據(jù)服務(wù)過程中的參考。
因研究時(shí)間所限,本文尚未對(duì)多維時(shí)空地質(zhì)大數(shù)據(jù)模型進(jìn)行實(shí)驗(yàn)驗(yàn)證。后續(xù)研究過程中,將進(jìn)一步采用大數(shù)據(jù)技術(shù)驗(yàn)證三維空間剖分技術(shù),開展維度屬性模型的離散化處理的技術(shù)驗(yàn)證,試點(diǎn)開展屬性數(shù)據(jù)服務(wù)和數(shù)據(jù)挖掘服務(wù),進(jìn)一步證明該模型的高效性與實(shí)用性。