伍錦程, 王占昌, 張 濤
(中國地質(zhì)調(diào)查局西安地質(zhì)調(diào)查中心, 西安 710054)
?
探討基于CitusDB的地質(zhì)資料集群和大數(shù)據(jù)架構(gòu)
伍錦程, 王占昌, 張 濤
(中國地質(zhì)調(diào)查局西安地質(zhì)調(diào)查中心, 西安 710054)
地質(zhì)資料是地質(zhì)工作形成的重要成果資料,具有可被重復(fù)開發(fā)利用、能夠長期提供服務(wù)的功能。然而,因地質(zhì)資料的分散式管理,使得地質(zhì)資料信息存儲(chǔ)分散,“孤島”式服務(wù)的現(xiàn)象普遍存在,缺乏資料信息共享、綜合利用的機(jī)制和手段,制約著地質(zhì)資料信息潛在價(jià)值的有效發(fā)揮。地質(zhì)資料信息服務(wù)集群化旨在通過信息領(lǐng)域前沿技術(shù),對(duì)地質(zhì)資料進(jìn)行集成集群和深度開發(fā),將分散、孤立的地質(zhì)資料進(jìn)行分布式匯集,全方位多角度解讀、展現(xiàn)、挖掘地質(zhì)資料信息,充分發(fā)揮地質(zhì)資料服務(wù)于經(jīng)濟(jì)社會(huì)發(fā)展的作用。長期的地質(zhì)調(diào)查工作,已經(jīng)形成了多專業(yè)、數(shù)據(jù)格式多樣的海量地質(zhì)資料,信息服務(wù)的集群化必將面臨地質(zhì)大數(shù)據(jù)相關(guān)的技術(shù)問題。介紹了地質(zhì)資料信息服務(wù)集群化模式,分析了CitusDB軟件的分布式大數(shù)據(jù)運(yùn)行機(jī)理,探討了基于CitusDB軟件的地質(zhì)資料集群和大數(shù)據(jù)服務(wù)架構(gòu),可為地質(zhì)大數(shù)據(jù)與信息服務(wù)提供一定的參考。
地質(zhì)資料; CitusDB; 集群化; 大數(shù)據(jù)
地質(zhì)資料是地質(zhì)工作形成的重要基礎(chǔ)信息資源,具有可被重復(fù)開發(fā)利用、能夠長期提供服務(wù)的重要功能。新中國成立60多年來,我國形成了海量的地質(zhì)資料,這些數(shù)據(jù)存儲(chǔ)在全國地質(zhì)資料館、各省級(jí)地質(zhì)資料館以及各類地質(zhì)工作單位和礦山企業(yè)。地質(zhì)資料的分散式管理,使得資料信息共享、綜合利用的機(jī)制和手段相對(duì)缺乏,在線服務(wù)能力相對(duì)薄弱,制約著地質(zhì)資料信息潛在價(jià)值的有效發(fā)揮。因此,近年來中國地質(zhì)調(diào)查局開展了地質(zhì)大數(shù)據(jù)與信息服務(wù)工程,隸屬于該工程的西北地區(qū)地質(zhì)資料信息服務(wù)集群化示范項(xiàng)目,旨在通過對(duì)地質(zhì)資料的集成集群和深度開發(fā),采用信息領(lǐng)域前沿技術(shù),疏通地質(zhì)資料信息管理與服務(wù)渠道,建立地質(zhì)資料信息共享機(jī)制,構(gòu)建行業(yè)級(jí)地質(zhì)資料信息服務(wù)集群化系統(tǒng),逐步消除或連通地質(zhì)資料的信息孤島。然而,隨著地質(zhì)資料信息集群匯聚,存儲(chǔ)規(guī)模不斷增大,檢索效率急劇下降,如何將存儲(chǔ)于數(shù)據(jù)庫中的單個(gè)大表(big table)合理拆分,將分塊數(shù)據(jù)分發(fā)給多臺(tái)計(jì)算機(jī),實(shí)現(xiàn)協(xié)同作業(yè)并提升效率,需要當(dāng)今前沿的分布式大數(shù)據(jù)技術(shù)為地質(zhì)資料信息服務(wù)集群化提供支撐[1-2]。從而為地質(zhì)專業(yè)領(lǐng)域乃至社會(huì)各行各業(yè),提供地質(zhì)資料大數(shù)據(jù)服務(wù)的新模式。
本文介紹了地質(zhì)資料信息集群化服務(wù)模式,詳細(xì)分析了CitusDB軟件的分布式大數(shù)據(jù)運(yùn)行機(jī)理,探討了基于CitusDB軟件的地質(zhì)資料集群化和大數(shù)據(jù)服務(wù)架構(gòu),可為地質(zhì)大數(shù)據(jù)與信息服務(wù)提供一定的參考。
地質(zhì)資料信息服務(wù)集群化是一項(xiàng)復(fù)雜而綜合的系統(tǒng)工程,旨在解決地質(zhì)資料信息分散、綜合研究力度不夠、數(shù)字化信息化程度不高、服務(wù)渠道不暢及服務(wù)能力不強(qiáng)等諸多問題,使地質(zhì)資料信息的潛在價(jià)值得以充分發(fā)揮。從集群技術(shù)實(shí)現(xiàn)的角度出發(fā),分析地質(zhì)資料信息節(jié)點(diǎn)群的概念及其構(gòu)建要素[3]。
1.1 地質(zhì)資料信息節(jié)點(diǎn)群的概念
針對(duì)全國地質(zhì)資料分布式館藏的特點(diǎn),每個(gè)館藏機(jī)構(gòu)均能構(gòu)成可獨(dú)立運(yùn)行的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)單元的各個(gè)組成要素(含數(shù)據(jù)集、運(yùn)維模塊等)均需具備松散耦合(彈性)特征,每個(gè)節(jié)點(diǎn)圍繞地質(zhì)資料集群、運(yùn)行環(huán)境集群和業(yè)務(wù)方法集群3方面開展常態(tài)化管理工作; 從架構(gòu)體系的視角來看,若干個(gè)節(jié)點(diǎn)可橫向組成“群”或縱向延伸成具有隸屬(或嵌套)關(guān)系的“子群”,每個(gè)“群”具備地質(zhì)資料信息發(fā)現(xiàn)、獲取、轉(zhuǎn)換、存儲(chǔ)、同步、對(duì)等、聚合、重構(gòu)和分頁推送等機(jī)制。每個(gè)“節(jié)點(diǎn)群”由門戶聚合器和服務(wù)接口2部分組成,通過數(shù)據(jù)互聯(lián)互通和功能對(duì)等協(xié)同等技術(shù),可呈現(xiàn)分布式運(yùn)維、協(xié)調(diào)式聚合、集群式共享(瀏覽器(B)-服務(wù)器(S)-節(jié)點(diǎn)群(N))網(wǎng)狀或樹狀組網(wǎng)形態(tài)。
地質(zhì)資料信息節(jié)點(diǎn)群建設(shè)需解決管理機(jī)制、信息集成和業(yè)務(wù)方法等方面的有效融合問題。地質(zhì)資料信息“集群”應(yīng)在各項(xiàng)管理職能全面到位的前提下,由地質(zhì)資料匯交、管理和服務(wù)制度護(hù)航,遵循統(tǒng)一的標(biāo)準(zhǔn)規(guī)范,圍繞地質(zhì)資料分布式和集中式館藏現(xiàn)狀,針對(duì)地質(zhì)資料信息多元異構(gòu)數(shù)據(jù)聚合,以“節(jié)點(diǎn)群”為集結(jié)單元,通過網(wǎng)絡(luò)共享平臺(tái)面向不同的用戶群體開展跨區(qū)域協(xié)同服務(wù),可逐步形成服務(wù)邊界模糊、訪問狀態(tài)漂移和信息流轉(zhuǎn)有序的地質(zhì)資料“信息云”聯(lián)合體[4]。
1.2 地質(zhì)資料信息節(jié)點(diǎn)群的構(gòu)建要素
大區(qū)與省級(jí)地質(zhì)資料信息協(xié)同共享與服務(wù)機(jī)制的構(gòu)成要素概括如下:
(1)制度保障。從地質(zhì)資料的催交、接收、驗(yàn)收、保管和匯交等環(huán)節(jié)入手,履行地質(zhì)資料管理制度,完善內(nèi)部操作規(guī)程,確保匯交質(zhì)量,為信息共享提供詳實(shí)、權(quán)威的數(shù)據(jù)源。
(2)搭平臺(tái)、建通道。依托信息和網(wǎng)絡(luò)技術(shù),搭建分級(jí)、對(duì)等、實(shí)時(shí)、高效和智能的共享服務(wù)通道,在保護(hù)地方權(quán)益的同時(shí),消除信息孤島,擴(kuò)大地質(zhì)資料信息服務(wù)的領(lǐng)域和范圍。
(3)服務(wù)模式。在切實(shí)履行地質(zhì)資料匯交制度的基礎(chǔ)上,通過構(gòu)建集群節(jié)點(diǎn)體系等技術(shù)手段,建立大區(qū)與省級(jí)之間的高效服務(wù)和對(duì)等通道,實(shí)現(xiàn)地質(zhì)資料信息共享發(fā)布與聯(lián)動(dòng)服務(wù),向外界呈現(xiàn)無縫服務(wù)窗口(圖1)。
(4)運(yùn)行模式。為使大區(qū)與省級(jí)聯(lián)動(dòng)服務(wù)機(jī)制邁入常態(tài)化,通過密切的業(yè)務(wù)溝通理順各種關(guān)系,并及時(shí)了解省級(jí)地勘工作動(dòng)態(tài)和需求; 通過項(xiàng)目協(xié)作建立紐帶關(guān)系,加強(qiáng)團(tuán)隊(duì)技術(shù)力量聚集和人才培養(yǎng)。
(5)集群體系。針對(duì)館藏地質(zhì)資料集中式和分布式現(xiàn)狀,在面向數(shù)據(jù)資源、面向功能服務(wù)和面向業(yè)務(wù)流程的并行架構(gòu)體系下,探索地質(zhì)資料信息節(jié)點(diǎn)集群服務(wù)模式,實(shí)現(xiàn)傳統(tǒng)的集成模式向現(xiàn)代的集群模式轉(zhuǎn)變。
隨著“大數(shù)據(jù)時(shí)代”的到來,在高并發(fā)、大數(shù)據(jù)量、分布式以及實(shí)時(shí)性的要求之下,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,因其數(shù)據(jù)模型及預(yù)定義的操作模式,在很多情況下不能很好地滿足上述需求。CitusDB是基于PostgreSQL數(shù)據(jù)庫的“一主多從”分布式大數(shù)據(jù)服務(wù)架構(gòu),現(xiàn)已應(yīng)用于廣告技術(shù)、電子商務(wù)、零售、安全和移動(dòng)分析等領(lǐng)域,它的優(yōu)勢(shì)是將查詢分布到集群中的每個(gè)節(jié)點(diǎn),快速地進(jìn)行并行計(jì)算,可以實(shí)時(shí)從數(shù)千臺(tái)服務(wù)器的PB級(jí)數(shù)據(jù)中完成查詢,并支持地學(xué)空間數(shù)據(jù)的運(yùn)算,適合應(yīng)用于地質(zhì)大數(shù)據(jù)信息服務(wù)。CitusDB軟件的運(yùn)行架構(gòu)如圖2所示。CitusDB分布式大數(shù)據(jù)運(yùn)行機(jī)理[5]詳述如下。
2.1 主從節(jié)點(diǎn)
主節(jié)點(diǎn)(管家)角色服務(wù)器用于存儲(chǔ)大約幾兆字節(jié)的節(jié)點(diǎn)群調(diào)度控制元數(shù)據(jù)信息,同時(shí)從外部接口獲取SQL查詢指令,將其重新規(guī)劃形成指令片段,并分派到各個(gè)分布式從節(jié)點(diǎn)上,將各從節(jié)點(diǎn)執(zhí)行的結(jié)果進(jìn)行收割并回發(fā)至調(diào)用方,這與大數(shù)據(jù)核心技術(shù)MapReduce過程極為類似。因此,對(duì)該主節(jié)點(diǎn)服務(wù)器的性能要求不高,存儲(chǔ)空間也可不大,但CPU內(nèi)核數(shù)量越多越好,這將有利于并行操作。其他服務(wù)器將用于存儲(chǔ)實(shí)際數(shù)據(jù)并執(zhí)行SQL運(yùn)算任務(wù),充當(dāng)從節(jié)點(diǎn)(工人)角色,因此,存儲(chǔ)空間越大越好,性能越高越好。
2.2 邏輯碎塊
CitusDB采用的模塊化碎塊存儲(chǔ)結(jié)構(gòu)類似于Hadoop分布式系統(tǒng)的文件塊,區(qū)別是在從節(jié)點(diǎn)使用了PostgreSQL的表單,而并非以文件的形式。這些表單就是所謂的水平分區(qū)或邏輯碎塊。
2.3 查詢過程
當(dāng)獲得1條查詢指令后,主節(jié)點(diǎn)將該指令劃分成更小的SQL語句片段,將其分派到各個(gè)從節(jié)點(diǎn),以便每個(gè)片段可以在1個(gè)碎塊上獨(dú)立運(yùn)行,這種方式有效發(fā)揮了各節(jié)點(diǎn)的運(yùn)算處理能力; 主節(jié)點(diǎn)把查詢片段分派到從節(jié)點(diǎn)后,監(jiān)督其執(zhí)行并將結(jié)果進(jìn)行歸并,然后向調(diào)用方返回最終結(jié)果; 為確保所有查詢都以1種可伸縮的方式執(zhí)行,主節(jié)點(diǎn)實(shí)施了優(yōu)化策略,以最大限度地減少網(wǎng)絡(luò)傳輸數(shù)據(jù)量。
2.4 分布字段
在CitusDB中,被用于分布的任何表單必須具有1個(gè)可充當(dāng)分布字段的“特殊列”或者“數(shù)據(jù)項(xiàng)”,依據(jù)這個(gè)特殊列值,按確定的方式將表單進(jìn)行拆解后可形成若干個(gè)數(shù)據(jù)碎塊,同時(shí)也將相應(yīng)的統(tǒng)計(jì)信息形成元數(shù)據(jù)。CitusDB的分布式查詢優(yōu)化器按列的值域,確定如何以最優(yōu)的方式執(zhí)行查詢指令。數(shù)據(jù)庫開發(fā)人員選擇分布字段的原則,通常取決于該字段是否適合作“關(guān)聯(lián)”的紐帶或者充當(dāng)“篩選”的依據(jù)。針對(duì)篩選意圖而言,CitusDB 采用分布字段的值域區(qū)間區(qū)分出無關(guān)的碎塊,確保利用where條件子句采用字段區(qū)間值進(jìn)行約束的時(shí)候,能夠觸及定位到與之對(duì)應(yīng)的有效碎塊; 針對(duì)關(guān)聯(lián)意圖來說,若關(guān)聯(lián)鍵與分布列一致,將在這些碎塊之間按分布列的值域區(qū)間值進(jìn)行疊加匹配,這將有助于減少多個(gè)節(jié)點(diǎn)碎塊之間的計(jì)算工作量以及網(wǎng)絡(luò)I/O吞吐量。
2.5 分布方法
CitusDB 主要支持“追加”和“哈?!?種方法,另外還提供了基于“區(qū)間”分布的方式。其中,追加式僅適用于往分布式環(huán)境按批處理方式推送數(shù)據(jù)表的場(chǎng)景,如推送按時(shí)間間隔記錄的序列化觀測(cè)數(shù)據(jù)實(shí)例,若按某個(gè)區(qū)間范圍進(jìn)行查詢時(shí),基于追加式分布方法的執(zhí)行效率會(huì)更高; 而基于哈希式分布方法更適合按單個(gè)記錄往分布式數(shù)據(jù)庫中進(jìn)行實(shí)時(shí)插入和分析的場(chǎng)景,被插入的記錄包含與次序無關(guān)的分布列(如用戶id碼),當(dāng)插入事件發(fā)生時(shí),CitusDB 將記錄所有碎塊哈希編碼的最小和最大范圍值。
地質(zhì)資料信息為地學(xué)空間信息,使得地質(zhì)資料大數(shù)據(jù)架構(gòu)有其特定的空間運(yùn)算需求,即地質(zhì)大數(shù)據(jù)架構(gòu)需支持鍵值對(duì)(json)數(shù)據(jù)類型、分布式并行查詢技術(shù)、節(jié)點(diǎn)添加、刪除和數(shù)據(jù)再均衡,同時(shí)還需具備空間運(yùn)算函數(shù)[6]。
CitusDB是在對(duì)PostgreSQL進(jìn)行改寫和擴(kuò)充的基礎(chǔ)上,免費(fèi)開源的分布式大數(shù)據(jù)平臺(tái),支持鍵值對(duì)數(shù)據(jù)類型,支持分布式并行查詢技術(shù),通過碎片化分區(qū)、碎塊復(fù)制和并行查詢等技術(shù),可在多臺(tái)物理機(jī)或虛擬服務(wù)器間創(chuàng)建具有彈性伸縮和實(shí)時(shí)響應(yīng)能力強(qiáng)的集群服務(wù)框架。PostgreSQL是唯一一款免費(fèi)開源且十分成熟的地學(xué)空間數(shù)據(jù)庫管理系統(tǒng),其PostGIS擴(kuò)展模塊自帶1 000余個(gè)空間信息處理函數(shù),能為PostgreSQL提供了強(qiáng)大的空間數(shù)據(jù)庫引擎,特別適合GIS大數(shù)據(jù)的分析和挖掘。由此可見,基于CitusDB、PostgreSQL和PostGIS的大數(shù)據(jù)架構(gòu)適合于地質(zhì)資料大數(shù)據(jù),可為目前分散式服務(wù)的地質(zhì)資料館藏機(jī)構(gòu),創(chuàng)建具有高可靠、高擴(kuò)展、高效性、高容錯(cuò)性和低成本的地質(zhì)資料信息服務(wù)大數(shù)據(jù)平臺(tái)?;贑itusDB的地質(zhì)資料“一主多從”大數(shù)據(jù)架構(gòu)如圖3所示。
地質(zhì)資料按地質(zhì)專業(yè)可劃分為區(qū)域地質(zhì)調(diào)查資料、礦產(chǎn)勘查資料、海洋地質(zhì)資料、工程地質(zhì)資料、環(huán)境地質(zhì)、災(zāi)害地質(zhì)資料、物探、化探地質(zhì)資料、石油、天然氣、煤層地質(zhì)資料和其他地質(zhì)資料等。不同類別的原始地質(zhì)資料因在數(shù)字化過程中所使用的軟件不同,會(huì)造成數(shù)據(jù)格式的多樣性,具有典型的多元異構(gòu)特點(diǎn)[7]。構(gòu)建地質(zhì)資料信息大數(shù)據(jù)系統(tǒng),首先應(yīng)解決多元異構(gòu)數(shù)據(jù)的統(tǒng)一化描述,其次是數(shù)據(jù)的分布式存儲(chǔ),以及數(shù)據(jù)共享與服務(wù)。
多元異構(gòu)數(shù)據(jù)的統(tǒng)一化描述,可依據(jù)中國地質(zhì)調(diào)查局發(fā)布的各類地學(xué)空間數(shù)據(jù)庫建設(shè)指南,并參照開放式地理信息系統(tǒng)協(xié)會(huì)(Open GIS Consortium,OGC)標(biāo)準(zhǔn),采用輕量型結(jié)構(gòu)化文本語言(xml),對(duì)地質(zhì)資料數(shù)據(jù)進(jìn)行統(tǒng)一化描述,形成具有通用性和兼容性的數(shù)據(jù)格式。如地質(zhì)資料矢量數(shù)據(jù)(地質(zhì)資料目錄數(shù)據(jù)庫、地質(zhì)工作程度數(shù)據(jù)庫等),可從空間信息中抽取共性描述特征,將地質(zhì)資料劃分為“點(diǎn)、線、面”3類要素進(jìn)行xml格式的統(tǒng)一化描述,并按照“數(shù)據(jù)倉-數(shù)據(jù)集-數(shù)據(jù)庫-數(shù)據(jù)層”4級(jí)分類體系進(jìn)行有限劃分和映射,其中1個(gè)數(shù)據(jù)倉可對(duì)應(yīng)多個(gè)數(shù)據(jù)集(如地質(zhì)資料按地域劃分),1個(gè)數(shù)據(jù)集可對(duì)應(yīng)多個(gè)數(shù)據(jù)庫(如地質(zhì)資料按專業(yè)分類),1個(gè)數(shù)據(jù)庫可對(duì)應(yīng)多個(gè)圖層(如地質(zhì)資料按比例尺分級(jí)),每個(gè)圖層可同時(shí)容納任意多個(gè)點(diǎn)、線、面要素,從而形成統(tǒng)一的金字塔狀目錄結(jié)構(gòu)樹,充分體現(xiàn)多元異構(gòu)的思想。
數(shù)據(jù)的分布式存儲(chǔ),在CitusDB的PostgreSQL數(shù)據(jù)庫中,創(chuàng)建用于分布的數(shù)據(jù)表,并指定1個(gè)可充當(dāng)分布字段的“特殊列”或“數(shù)據(jù)項(xiàng)”(如id)。依據(jù)這個(gè)特殊列的值,按“追加”或“哈希”的方式將表單拆解,形成若干個(gè)數(shù)據(jù)碎塊,數(shù)據(jù)碎塊分布式存入不同的數(shù)據(jù)節(jié)點(diǎn)。如將統(tǒng)一化描述后的數(shù)據(jù)(xml),以二進(jìn)制編碼形式推入PostgreSQL數(shù)據(jù)庫并形成分布式大數(shù)據(jù)資源池; 柵格類數(shù)據(jù),如衛(wèi)星影像、地球物理、地球化學(xué)、水文及環(huán)境地質(zhì)等值線渲染模型數(shù)據(jù),需進(jìn)行四叉樹切片,然后將四叉樹切片影像數(shù)據(jù),以WKB編碼形式推入PostgreSQL 數(shù)據(jù)庫并形成分布式大數(shù)據(jù)資源池。
數(shù)據(jù)的共享與服務(wù)[8],首先地質(zhì)資料的共享與服務(wù)需按照國家的相關(guān)保密法律,進(jìn)行嚴(yán)格審批,禁止發(fā)布涉密數(shù)據(jù),現(xiàn)階段可面向互聯(lián)網(wǎng)服務(wù)的地質(zhì)資料有地質(zhì)資料目錄數(shù)據(jù)庫、工作程度數(shù)據(jù)庫和公開發(fā)行的地質(zhì)圖等; 其次各館藏機(jī)構(gòu)節(jié)點(diǎn)應(yīng)按照《推進(jìn)地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化工作方案的通知》(國土資發(fā)[2010]113號(hào))精神,遵循“堅(jiān)持公共服務(wù)、全面覆蓋、互聯(lián)互通、維護(hù)權(quán)益、逐步推進(jìn)、共同參與”6項(xiàng)原則,對(duì)各節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行權(quán)益維護(hù); 最后在節(jié)點(diǎn)間的數(shù)據(jù)同步對(duì)等方面,各館藏機(jī)構(gòu)的數(shù)據(jù)節(jié)點(diǎn)需建立對(duì)等鏈路,僅允許共享數(shù)據(jù)進(jìn)入對(duì)等鏈路,私有數(shù)據(jù)存放在本地節(jié)點(diǎn),禁止其他節(jié)點(diǎn)同步對(duì)等,數(shù)據(jù)池通過對(duì)等鏈路的刷新機(jī)制實(shí)現(xiàn)同步對(duì)等。
地質(zhì)資料信息服務(wù)集群化后,當(dāng)數(shù)據(jù)量大到一臺(tái)計(jì)算機(jī)無法進(jìn)行存儲(chǔ)、無法在預(yù)定時(shí)間內(nèi)完成處理任務(wù)的時(shí)候,傳統(tǒng)的地質(zhì)資料信息系統(tǒng)需要在數(shù)據(jù)結(jié)構(gòu)(如鍵值對(duì)異構(gòu)映射、哈希分區(qū))、通訊機(jī)理(如池化連接、序列化并行沖突)和查詢語句等進(jìn)行較大程度的改造,按分布式大數(shù)據(jù)約束條件(如必須按哈希鍵進(jìn)行分區(qū)),厘定字段類型,精心編寫SQL查詢語句,以便滿足分布式大數(shù)據(jù)架構(gòu)對(duì)數(shù)據(jù)處理語言的限制和要求。西安地質(zhì)調(diào)查中心采用基于PostgreSQL的CitusDB “一主多從”分布式大數(shù)據(jù)架構(gòu),并嵌入了PostGIS空間數(shù)據(jù)庫引擎,成功搭建了具備5個(gè)節(jié)點(diǎn)的大數(shù)據(jù)級(jí)地學(xué)空間信息檢索系統(tǒng),并通過該系統(tǒng)測(cè)試了1∶3 500萬世界地質(zhì)圖數(shù)據(jù)庫和境內(nèi)非涉密1∶250萬地質(zhì)圖數(shù)據(jù)庫的地質(zhì)體屬性,以及全球SRTM數(shù)據(jù)超過269億個(gè)像素細(xì)粒度內(nèi)容的高速解析服務(wù),解析時(shí)間大約0.04 s,而用單臺(tái)PostgreSQL處理這些數(shù)據(jù)需要10 s以上,解析速度低。綜上所述,基于CitusDB的地質(zhì)資料“一主多從”分布式大數(shù)據(jù)架構(gòu)適用于地質(zhì)大數(shù)據(jù)與信息服務(wù),建議進(jìn)一步研發(fā)適合地質(zhì)專業(yè)領(lǐng)域的大數(shù)據(jù)分布式并行計(jì)算方法,以便對(duì)地質(zhì)大數(shù)據(jù)進(jìn)行深度分析和挖掘。
[1] 譚永杰.地質(zhì)大數(shù)據(jù)體系建設(shè)的總體框架研究[J].中國地質(zhì)調(diào)查,2016,3(3):1-6.
[2] 王黔駒,吳小平,連健,等.地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化標(biāo)準(zhǔn)體系框架的構(gòu)建[J].中國礦業(yè),2013,22(9):50-52.
[3] 顏世強(qiáng),張惠,王黔駒,等.地質(zhì)資料服務(wù)產(chǎn)品基本模式構(gòu)建[J].中國礦業(yè),2015,24(10):165-167.
[4] 韓媛,張紅英,粱楠.大數(shù)據(jù)在地質(zhì)資料管理與服務(wù)中“落地”問題分析[J].中國地質(zhì)調(diào)查,2016,3(3):67-70.
[5] 美國初創(chuàng)公司.CitusDB軟件在線使用指南[EB/OL].https://docs.citusdata.com/en/v5.2/.2016.
[6] 王翔,李景朝,陳輝.大數(shù)據(jù)與地質(zhì)資料信息服務(wù):需求、產(chǎn)品、技術(shù)、共享[J].地質(zhì)通報(bào),2015,34(7):1311-1315.
[7] 王珊,王會(huì)舉,覃雄派,等.架構(gòu)大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計(jì)算機(jī)學(xué)報(bào),2011,34(10):1742-1749.
[8] 王黔駒,顏世強(qiáng),丁克永,等.推進(jìn)地質(zhì)資料信息服務(wù)集群化產(chǎn)業(yè)化的初步思路與構(gòu)想[J].中國礦業(yè),2011,20(12):21-23.
(責(zé)任編輯: 劉永權(quán))
Discussion on the clustering and large data architecture of geological data based on CitusDB
WU Jincheng, WANG Zhanchang, ZHANG Tao
(Xi’anGeologicalSurveyCenter,ChinaGeologicalSurvey,Xi’an710054,China)
Geological data as important information of geological work, can be repeatedly utilized and provide long-term service. But the storage of geological data is decentralized because of decentralized management of geological data, which brings about widespread islanded service. And a lack of mechanisms and methods of information sharing and comprehensive utilization restricts better utilization of geological data. Geological data are clustered and deeply developed by the cutting-edge technologies in information field. And decentralized and isolated geological data are collected spreadly, and the information are explained, revealed and excavated from different aspects. So geological data clustering information service would better serve economic and social development. However, the multi-professional, multi-formatted and massive geological data have formed in long-term geological survey work. Related technical problems of large data would occur during geological data clustering. The authors introduced the geological data clustering information service mode and analyzed the distributed data operation mechanism of CitusDB software. Geological data clustering and large data service framework based on CitusDB software were discussed. This paper would provide some reference for the large geological data and information services.
geological data; CitusDB; clustering; large data
10.19388/j.zgdzdc.2017.02.11
2016-06-12;
2016-11-04。
中國地質(zhì)調(diào)查局地質(zhì)礦產(chǎn)調(diào)查評(píng)價(jià)專項(xiàng)“大區(qū)地質(zhì)資料信息服務(wù)集群化示范(編號(hào): 12120113025500)”項(xiàng)目資助。
伍錦程(1981—),男,工程師,主要從事地質(zhì)信息服務(wù)研究。Email: 46078184@qq.com。
伍錦程,王占昌,張濤.探討基于CitusDB的地質(zhì)資料集群和大數(shù)據(jù)架構(gòu)[J].中國地質(zhì)調(diào)查,2017,4(2): 84-89.
G25; N289
A
2095-8706(2017)02-0084-06