王意
(山東省國(guó)土測(cè)繪院,山東 濟(jì)南 250013)
隨著大數(shù)據(jù)應(yīng)用的普及,各行業(yè)已積累了海量的專題數(shù)據(jù)。其中,地理信息時(shí)空大數(shù)據(jù)提供了對(duì)各類專題數(shù)據(jù)的時(shí)空基準(zhǔn),并呈現(xiàn)出 體量大、增速快、樣式多、價(jià)值高 的特點(diǎn),實(shí)現(xiàn)了非空間數(shù)據(jù)的“落地”,成為地理信息社會(huì)化應(yīng)用的主要形式。基礎(chǔ)設(shè)施是地理信息時(shí)空大數(shù)據(jù)的基本要素,主要包含面向時(shí)空大數(shù)據(jù)資源體系建設(shè)及管理應(yīng)用所需要的硬件設(shè)備、網(wǎng)絡(luò)存儲(chǔ)及軟件支撐系統(tǒng)。其目標(biāo)是建立、使用和維護(hù)一個(gè)時(shí)空數(shù)據(jù)框架,包含兩方面內(nèi)容:一是時(shí)空數(shù)據(jù),即框架基礎(chǔ)數(shù)據(jù)和專題數(shù)據(jù),二是時(shí)空信息服務(wù),即提供對(duì)時(shí)空大數(shù)據(jù)的共享、集成、互操作的功能和接口[1-2]。
傳統(tǒng)的地理信息基礎(chǔ)設(shè)施應(yīng)用模式下,數(shù)據(jù)以項(xiàng)目為單位進(jìn)行生產(chǎn)和組織,以離線和準(zhǔn)在線的方式集中存儲(chǔ)在單一的存儲(chǔ)系統(tǒng)中,可以看作是孤立的數(shù)據(jù)集。在使用時(shí),應(yīng)用系統(tǒng)首先對(duì)元數(shù)據(jù)進(jìn)行查詢,在已有的數(shù)據(jù)中找到合適的數(shù)據(jù)集并篩選出需要的數(shù)據(jù)實(shí)體,再按照一定格式將打包的空間數(shù)據(jù)下載到本地,供下一步使用。這種按專項(xiàng)業(yè)務(wù)維度構(gòu)建的體系結(jié)構(gòu)雖然在基礎(chǔ)設(shè)施部署上易于實(shí)現(xiàn),但存在著煙囪式管理、各自獨(dú)立、服務(wù)類型單一等問(wèn)題,難以完成大數(shù)據(jù)背景下的海量數(shù)據(jù)處理,無(wú)法滿足當(dāng)下按需定制的多樣化產(chǎn)品的需求[3-5]。以山東省為例,“十一五”到“十三五”期間,測(cè)繪地理信息領(lǐng)域積累了豐富的數(shù)據(jù)資源,總量在1.5PB左右,且有非常明顯的異構(gòu)特性(獲取渠道、數(shù)據(jù)格式、存檔結(jié)構(gòu)等)。而現(xiàn)有的基礎(chǔ)設(shè)施依然沿用傳統(tǒng)的體系架構(gòu),不能滿足日益?zhèn)€性化、多場(chǎng)景的應(yīng)用需求。由于軟硬件緊耦合、管理接口不統(tǒng)一等限制因素,現(xiàn)有存儲(chǔ)系統(tǒng)無(wú)法做到資源的統(tǒng)一管理和彈性調(diào)度,帶來(lái)存儲(chǔ)利用效率較低的現(xiàn)象。以單機(jī)為主的服務(wù)器應(yīng)用模式易造成計(jì)算資源使用不充分、整合度不高的情況。網(wǎng)絡(luò)環(huán)境在并發(fā)訪問(wèn)量多的時(shí)候會(huì)造成網(wǎng)絡(luò)堵塞,導(dǎo)致數(shù)據(jù)訪問(wèn)的效率難以提升,在連通性、容災(zāi)備份、網(wǎng)絡(luò)吞吐量、擴(kuò)展性等方面也存在性能瓶頸[6-12]。
針對(duì)大數(shù)據(jù)背景下基礎(chǔ)設(shè)施面臨的巨大挑戰(zhàn),本文提出一種基于云架構(gòu)的基礎(chǔ)設(shè)施構(gòu)建方法,構(gòu)建分布式、可擴(kuò)展、動(dòng)態(tài)按需的統(tǒng)一資源池。引進(jìn)時(shí)空大數(shù)據(jù)基礎(chǔ)框架,完成對(duì)地理信息時(shí)空大數(shù)據(jù)分布式存儲(chǔ)與計(jì)算的底層技術(shù)支撐,實(shí)現(xiàn)基礎(chǔ)設(shè)施即服務(wù),有效支撐地理信息時(shí)空大數(shù)據(jù)與各類業(yè)務(wù)應(yīng)用的密切銜接[13-15]。
山東省省級(jí)地理信息資源大數(shù)據(jù)中心(以下簡(jiǎn)稱大數(shù)據(jù)中心)建設(shè)是山東省“十三五”基礎(chǔ)測(cè)繪規(guī)劃的重點(diǎn)工程,目的是通過(guò)全面梳理、整合省級(jí)數(shù)據(jù)資源,建成標(biāo)準(zhǔn)統(tǒng)一的地理信息時(shí)空大數(shù)據(jù)庫(kù)[16-19]。大數(shù)據(jù)中心以基礎(chǔ)設(shè)施為支撐,采用云計(jì)算技術(shù)將硬件資源抽象成邏輯資源,形成跨虛擬化技術(shù)的統(tǒng)一資源池,提供信息共享、互聯(lián)互通、安全保密、實(shí)用便捷的計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源等基礎(chǔ)設(shè)施環(huán)境,對(duì)外提供統(tǒng)一的資源調(diào)度接口,按需和動(dòng)態(tài)分配各類資源。在云平臺(tái)之上搭建時(shí)空大數(shù)據(jù)基礎(chǔ)框架,對(duì)傳統(tǒng)業(yè)務(wù)進(jìn)行分布式、并行化改造升級(jí),提供規(guī)范化的數(shù)據(jù)存取和計(jì)算接口,實(shí)現(xiàn)支持關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)、文件數(shù)據(jù)庫(kù)的混合存儲(chǔ)框架能力以及支持高性能計(jì)算、并行計(jì)算和分布式計(jì)算的混合計(jì)算框架能力(圖1)。
圖1 基礎(chǔ)設(shè)施總體架構(gòu)
地理信息時(shí)空大數(shù)據(jù)是國(guó)家基礎(chǔ)性戰(zhàn)略資源,現(xiàn)有數(shù)據(jù)資源存在標(biāo)準(zhǔn)多樣,內(nèi)容和現(xiàn)勢(shì)性各有側(cè)重等特征。山東省通過(guò) “十一五”到“十三五”基礎(chǔ)測(cè)繪規(guī)劃的實(shí)施,形成了豐富的數(shù)據(jù)資源,涵蓋測(cè)繪基準(zhǔn)數(shù)據(jù)、省級(jí)基礎(chǔ)地理信息數(shù)據(jù)、地理國(guó)(省)情普查(監(jiān)測(cè))數(shù)據(jù)、三維數(shù)據(jù)、行業(yè)專題數(shù)據(jù)、檔案資料數(shù)據(jù)等。但是豐富的數(shù)據(jù)資源在管理與應(yīng)用上面臨諸多問(wèn)題,如數(shù)據(jù)存儲(chǔ)較為分散,冗余存儲(chǔ)現(xiàn)象突出;數(shù)據(jù)表達(dá)不一致,關(guān)聯(lián)性差,難以支撐大數(shù)據(jù)分析挖掘。實(shí)現(xiàn)基礎(chǔ)設(shè)施的高效利用必須首先解決數(shù)據(jù)模型問(wèn)題,因此需通過(guò)引入大數(shù)據(jù)思維,對(duì)時(shí)空大數(shù)據(jù)進(jìn)行模型重構(gòu)和數(shù)據(jù)資源整合,形成以匯集庫(kù)、資源庫(kù)、服務(wù)庫(kù)以及目錄與元數(shù)據(jù)庫(kù)為主體的省級(jí)時(shí)空大數(shù)據(jù)資源體系。通過(guò)動(dòng)態(tài)匯集各類信息資源,形成大數(shù)據(jù)匯集庫(kù);對(duì)時(shí)空大數(shù)據(jù)資源進(jìn)行對(duì)比、整合,建設(shè)包含6大類數(shù)據(jù)的資源數(shù)據(jù)庫(kù);標(biāo)準(zhǔn)服務(wù)化處理形成的電子地圖、專題圖、地形圖和新型測(cè)繪產(chǎn)品等構(gòu)成數(shù)據(jù)服務(wù)庫(kù);對(duì)數(shù)據(jù)資源建立統(tǒng)一分類編碼和統(tǒng)一資源分類目錄,采用元數(shù)據(jù)對(duì)大數(shù)據(jù)資源進(jìn)行描述,形成目錄與元數(shù)據(jù)庫(kù)。通過(guò)資源整合,形成省級(jí)基礎(chǔ)地理時(shí)空數(shù)據(jù)的統(tǒng)一歸口與出口(圖2)。
圖2 數(shù)據(jù)庫(kù)總體架構(gòu)
基礎(chǔ)設(shè)施私有云環(huán)境的搭建,是在分析現(xiàn)有存儲(chǔ)、計(jì)算及網(wǎng)絡(luò)設(shè)備的基礎(chǔ)上,將現(xiàn)有硬件資源進(jìn)行整合,抽象成邏輯資源,形成跨虛擬化技術(shù)的統(tǒng)一資源池。目的是通過(guò)云管理系統(tǒng)實(shí)現(xiàn)計(jì)算資源、存儲(chǔ)資源及網(wǎng)絡(luò)資源動(dòng)態(tài)分配,完成基礎(chǔ)設(shè)施資源池化,實(shí)現(xiàn)基礎(chǔ)設(shè)施即服務(wù)(圖3)。
圖3 基礎(chǔ)設(shè)施私有云環(huán)境
(1)網(wǎng)絡(luò)資源
網(wǎng)絡(luò)設(shè)施是實(shí)現(xiàn)大數(shù)據(jù)中心業(yè)務(wù)最底層的基礎(chǔ)設(shè)施。為保證數(shù)據(jù)的傳輸速率,采用萬(wàn)兆網(wǎng)絡(luò)環(huán)境,同時(shí)各節(jié)點(diǎn)啟用雙機(jī)熱備模式,服務(wù)器采用雙萬(wàn)兆光口連接,實(shí)現(xiàn)各設(shè)備間高效的數(shù)據(jù)傳輸,提高網(wǎng)絡(luò)容災(zāi)性。通過(guò)云管理軟件,將多臺(tái)網(wǎng)絡(luò)設(shè)備虛擬化為一臺(tái)邏輯設(shè)備,將核心和接入設(shè)備通過(guò)異構(gòu)虛擬化技術(shù)形成一臺(tái)縱向邏輯虛擬設(shè)備,形成網(wǎng)絡(luò)智能彈性架構(gòu)。
(2)計(jì)算資源
計(jì)算資源是各類業(yè)務(wù)進(jìn)行分析應(yīng)用的關(guān)鍵資源。通過(guò)云管理系統(tǒng)搭建虛擬化服務(wù)器集群,實(shí)現(xiàn)計(jì)算資源虛擬化。為匹配大數(shù)據(jù)中心的并發(fā)服務(wù)和并行計(jì)算的需求,結(jié)合設(shè)備性能參數(shù),部署30臺(tái)物理服務(wù)器用于搭建云平臺(tái)。采用最新型的英特爾至強(qiáng)第 14 代 CPU,提供不少于四個(gè)10Gbps 高速以太網(wǎng)端口,實(shí)現(xiàn)高數(shù)據(jù)吞吐量和低延遲工作負(fù)載。
(3)存儲(chǔ)資源
存儲(chǔ)資源是數(shù)據(jù)存放的物理位置,由云管理系統(tǒng)進(jìn)行統(tǒng)一納管,根據(jù)數(shù)據(jù)存儲(chǔ)需求和設(shè)備性能進(jìn)行空間劃分和磁盤(pán)調(diào)度。當(dāng)有高性能讀寫(xiě)數(shù)據(jù)需求時(shí)可以將數(shù)據(jù)存放到高速硬盤(pán),當(dāng)存放沉睡數(shù)據(jù)時(shí),則使用低速盤(pán)。保留原有的網(wǎng)絡(luò)附屬存儲(chǔ)和存儲(chǔ)區(qū)域網(wǎng)絡(luò),集成二者的優(yōu)勢(shì),支持多種網(wǎng)絡(luò)協(xié)議方式。
(4)云管理系統(tǒng)
云管理系統(tǒng)是實(shí)現(xiàn)基礎(chǔ)設(shè)施資源池化和動(dòng)態(tài)分配的核心基礎(chǔ)。云管系統(tǒng)將服務(wù)器、網(wǎng)絡(luò)存儲(chǔ)資源進(jìn)行統(tǒng)一接入和管理,對(duì)硬件資源進(jìn)行虛擬化適配、彈性擴(kuò)充和負(fù)載均衡,提供統(tǒng)一虛擬化管理接口,供業(yè)務(wù)系統(tǒng)集成。云管系統(tǒng)還提供統(tǒng)一的維護(hù)管理功能,如性能監(jiān)控及預(yù)警等(圖4)。
圖4 私有云管理系統(tǒng)資源監(jiān)控功能
時(shí)空大數(shù)據(jù)基礎(chǔ)框架在云平臺(tái)基礎(chǔ)上,面向大數(shù)據(jù)中心提供數(shù)據(jù)統(tǒng)一管理、分布式存儲(chǔ)、高性能處理分析的基礎(chǔ)能力。主要包括時(shí)空大數(shù)據(jù)算法模型庫(kù)、大數(shù)據(jù)存儲(chǔ)框架、時(shí)空大數(shù)據(jù)計(jì)算框架、分布式調(diào)度管理系統(tǒng)四大部分(圖5)。
圖5 時(shí)空大數(shù)據(jù)基礎(chǔ)框架
(1)大數(shù)據(jù)算法模型庫(kù)
應(yīng)用系統(tǒng)的各功能模塊,如數(shù)據(jù)轉(zhuǎn)化、柵格圖片切片等,它們包含的算子或者模型都存放在大數(shù)據(jù)算法模型庫(kù)中,利用業(yè)務(wù)邏輯或工作流將對(duì)應(yīng)的算法或模型貫穿起來(lái),形成支撐該業(yè)務(wù)的實(shí)際功能模塊,并將此信息存儲(chǔ)在業(yè)務(wù)流程管理系統(tǒng)中。
實(shí)際業(yè)務(wù)運(yùn)行中,通過(guò)功能模塊指令來(lái)激活任務(wù)調(diào)度,將該功能模塊產(chǎn)生的任務(wù)進(jìn)行列隊(duì),同時(shí)獲取資源調(diào)度管理系統(tǒng)關(guān)于存儲(chǔ)資源和計(jì)算資源的信息。若資源足夠,則分配足夠的計(jì)算資源和存儲(chǔ)資源,反之則在任務(wù)列隊(duì)中等待,直到其他任務(wù)執(zhí)行結(jié)束以釋放足夠的資源,執(zhí)行任務(wù)時(shí)利用該功能指令在業(yè)務(wù)執(zhí)行系統(tǒng)中對(duì)應(yīng)的信息(該功能算法模型集)。在時(shí)空大數(shù)據(jù)算法模型庫(kù)的對(duì)應(yīng)算法模型集中,按照業(yè)務(wù)邏輯調(diào)用存儲(chǔ)資源與計(jì)算資源的接口,執(zhí)行數(shù)據(jù)獲取、計(jì)算、存儲(chǔ)等命令。
(2)存儲(chǔ)框架
時(shí)空大數(shù)據(jù)存儲(chǔ)采用混合存儲(chǔ)和分布式存儲(chǔ)策略,以支撐上層分布式、并行計(jì)算的應(yīng)用。在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)、共享文件系統(tǒng)基礎(chǔ)上,擴(kuò)展并利用非關(guān)系型的數(shù)據(jù)庫(kù)、分布式文件系統(tǒng),形成面向時(shí)空大數(shù)據(jù)的關(guān)系數(shù)據(jù)庫(kù)集群、非關(guān)系型的數(shù)據(jù)庫(kù)集群、分布式文件系統(tǒng)集群(HDFS)的存儲(chǔ)框架,并提供規(guī)范化的數(shù)據(jù)存取接口,實(shí)現(xiàn)多種存儲(chǔ)模式數(shù)據(jù)的訪問(wèn)與管理。
存儲(chǔ)框架通過(guò)對(duì)數(shù)據(jù)組織結(jié)構(gòu)的建模以及數(shù)據(jù)模型管理,擴(kuò)展數(shù)據(jù)庫(kù)邏輯結(jié)構(gòu),配合入庫(kù)插件工具,實(shí)現(xiàn)對(duì)更為廣泛數(shù)據(jù)資源的接入與管理。對(duì)數(shù)據(jù)資源進(jìn)行層次化組織,從分類、應(yīng)用等多個(gè)角度對(duì)數(shù)據(jù)資源進(jìn)行識(shí)別和存儲(chǔ),例如矢量數(shù)據(jù)采用具備幾何特征的關(guān)系表進(jìn)行存儲(chǔ);柵格數(shù)據(jù)采用鑲嵌數(shù)據(jù)集進(jìn)行管理;文件實(shí)體存儲(chǔ)于文件系統(tǒng),通過(guò)統(tǒng)一數(shù)據(jù)目錄實(shí)現(xiàn)對(duì)數(shù)據(jù)管理。
(3)計(jì)算框架
現(xiàn)有的分布式并行計(jì)算系統(tǒng)大致可以分為面向高性能計(jì)算的超級(jí)計(jì)算框架和面向海量數(shù)據(jù)處理的基于分布式內(nèi)存計(jì)算框架兩大類,二者在系統(tǒng)結(jié)構(gòu)、編程模型及運(yùn)行環(huán)境方面都有很大不同[20]。 針對(duì)不同場(chǎng)景下的時(shí)空大數(shù)據(jù)計(jì)算處理需求,應(yīng)構(gòu)建一個(gè)綜合性的、包含多種處理模式的大數(shù)據(jù)計(jì)算框架,對(duì)不同處理模式進(jìn)行融合設(shè)計(jì),實(shí)現(xiàn)綜合計(jì)算效率的均衡,完成時(shí)空大數(shù)據(jù)計(jì)算插件的管理、任務(wù)的管理與監(jiān)控、分布式計(jì)算結(jié)果的匯總。
在時(shí)空大數(shù)據(jù)中心的計(jì)算框架中,超級(jí)計(jì)算框架通過(guò)對(duì)傳統(tǒng)應(yīng)用改造升級(jí),實(shí)現(xiàn)任務(wù)級(jí)并行計(jì)算,利用更多的計(jì)算資源提升傳統(tǒng)業(yè)務(wù)處理效率,能很好的應(yīng)用于計(jì)算量較小、并發(fā)高的場(chǎng)景?;诜植际絻?nèi)存計(jì)算框架主要是面向創(chuàng)新型時(shí)空大數(shù)據(jù)分析挖掘,應(yīng)用于海量數(shù)據(jù)高效計(jì)算的場(chǎng)景。各計(jì)算模式通過(guò)提供統(tǒng)一的 應(yīng)用程序接口,實(shí)現(xiàn)時(shí)空大數(shù)據(jù)的高效分析處理。時(shí)空大數(shù)據(jù)計(jì)算根據(jù)其業(yè)務(wù)特點(diǎn),將時(shí)空大數(shù)據(jù)處理模式分為批處理模式和流處理模式。批處理模式的特點(diǎn)是空間數(shù)據(jù)先存儲(chǔ)后處理,而流處理模式的特點(diǎn)是直接處理獲取的空間數(shù)據(jù)。批處理模式采用超級(jí)計(jì)算框架的并行計(jì)算框架,實(shí)現(xiàn)對(duì)影像的處理、統(tǒng)計(jì)分析等功能。流處理模式適用于一些需要對(duì)實(shí)時(shí)時(shí)空大數(shù)據(jù)分析處理的場(chǎng)景,采用基于分布式內(nèi)存計(jì)算框架。
(4)管理框架
管理框架主要為了實(shí)現(xiàn)對(duì)大數(shù)據(jù)計(jì)算與存儲(chǔ)過(guò)程中資源的動(dòng)態(tài)調(diào)度與分配。資源管理通過(guò)監(jiān)控應(yīng)用系統(tǒng)的各組成子系統(tǒng)(含服務(wù))的平臺(tái)及設(shè)備工作狀態(tài),并結(jié)合圖形、列表等多種手段進(jìn)行展示,實(shí)時(shí)采集存儲(chǔ)節(jié)點(diǎn)、計(jì)算節(jié)點(diǎn)的運(yùn)行狀態(tài)信息。任務(wù)調(diào)度對(duì)任務(wù)進(jìn)行全程的控制,包括任務(wù)接收、拆分和執(zhí)行等,同時(shí)對(duì)任務(wù)進(jìn)行分類顯示,開(kāi)展任務(wù)檢索定義任務(wù)接口(圖6)。
圖6 存儲(chǔ)資源配置
時(shí)空大數(shù)據(jù)基礎(chǔ)框架重點(diǎn)是解決云環(huán)境下的計(jì)算和存儲(chǔ)資源與地理信息應(yīng)用服務(wù)平臺(tái)內(nèi)核的深度融合,涉及時(shí)空大數(shù)據(jù)高效存儲(chǔ)和時(shí)空大數(shù)據(jù)高性能計(jì)算分析。本研究采取數(shù)據(jù)建庫(kù)、圖斑橢球面積計(jì)算和圖斑疊加計(jì)算等應(yīng)用場(chǎng)景,通過(guò)與傳統(tǒng)模式下的相同操作進(jìn)行對(duì)比測(cè)試,驗(yàn)證時(shí)空大數(shù)據(jù)基礎(chǔ)框架下的基礎(chǔ)設(shè)施建設(shè)是否達(dá)到預(yù)期效果,提升地理信息應(yīng)用服務(wù)的效率和系統(tǒng)資源的利用率。
(1)實(shí)驗(yàn)數(shù)據(jù)
驗(yàn)證基于時(shí)空大數(shù)據(jù)基礎(chǔ)框架下的分布式存儲(chǔ)技術(shù)的有效性,選取山東省省級(jí)基礎(chǔ)測(cè)繪“十二五”地形要素?cái)?shù)據(jù)(不含青島市和潮間帶)共5977個(gè)MDB格式的文件,51.7GB,“十三五”數(shù)字正射影像6578幅、2.73TB。
(2)實(shí)驗(yàn)方法
對(duì)比在時(shí)空大數(shù)據(jù)基礎(chǔ)框架下的混合存儲(chǔ)策略與傳統(tǒng)的集中式存儲(chǔ)兩種模式下,實(shí)驗(yàn)數(shù)據(jù)入庫(kù)的時(shí)效。在時(shí)空大數(shù)據(jù)基礎(chǔ)框架下,基于云環(huán)境搭建數(shù)據(jù)庫(kù)存儲(chǔ)與文件存儲(chǔ)環(huán)境,將實(shí)驗(yàn)數(shù)據(jù)中的地形要素?cái)?shù)據(jù)存儲(chǔ)于空間數(shù)據(jù)庫(kù),數(shù)字正射影像存儲(chǔ)于文件系統(tǒng),采用PostgreSQL-XL作為分布式數(shù)據(jù)庫(kù)解決方案,對(duì)分布式存儲(chǔ)的數(shù)據(jù)進(jìn)行入庫(kù)操作。
(3)對(duì)比結(jié)果
通過(guò)實(shí)驗(yàn)對(duì)比,證明時(shí)空大數(shù)據(jù)基礎(chǔ)框架下的入庫(kù)時(shí)效和數(shù)據(jù)瀏覽數(shù)據(jù)速度均大幅度優(yōu)于傳統(tǒng)模式,入庫(kù)效率大大提升。在入庫(kù)過(guò)程中的數(shù)據(jù)庫(kù)穩(wěn)定性及應(yīng)用響應(yīng)程度都有所優(yōu)化,同時(shí)混合存儲(chǔ)和分布式存儲(chǔ)策略給予了用戶業(yè)務(wù)定制最大的靈活性,切實(shí)提高了整體的并發(fā)訪問(wèn)能力。
(1)驗(yàn)證環(huán)境
1臺(tái)服務(wù)器作為主節(jié)點(diǎn),3臺(tái)服務(wù)器作為計(jì)算節(jié)點(diǎn),通過(guò)主節(jié)點(diǎn)動(dòng)態(tài)調(diào)度計(jì)算資源、內(nèi)存資源和存儲(chǔ)資源。各節(jié)點(diǎn)的硬件環(huán)境中,2個(gè)CPU,12核24線程,128GB內(nèi)存;軟件環(huán)境中,操作系統(tǒng)為L(zhǎng)inux,Spark版本為2.1.1,Hadoop版本為2.7。其中,主節(jié)點(diǎn)服務(wù)器:1臺(tái),2個(gè)CPU,12核24線程,128GB內(nèi)存;子節(jié)點(diǎn)服務(wù)器:3臺(tái),2個(gè)CPU,12核24線程,128GB內(nèi)存。網(wǎng)絡(luò)環(huán)境:千兆交換機(jī),局域網(wǎng)。
(2)圖斑橢球面積計(jì)算
對(duì)山東省地理省情監(jiān)測(cè)成果中地表覆蓋圖斑進(jìn)行橢球面積計(jì)算,并根據(jù)屬性信息進(jìn)行匯總統(tǒng)計(jì),需要達(dá)到準(zhǔn)實(shí)時(shí)計(jì)算的效果。在單機(jī)模式下,其他商業(yè)軟件完成該項(xiàng)任務(wù)需要1周,而采用時(shí)空大數(shù)據(jù)計(jì)算框架中的分布式內(nèi)存計(jì)算引擎,完成 “面積計(jì)算 + 匯總統(tǒng)計(jì) + 可視化”耗時(shí)穩(wěn)定在5min左右,效率同比提升2~3個(gè)數(shù)量級(jí)(表1、表2)。
表1 不同模式下的數(shù)據(jù)入庫(kù)效率對(duì)比表
表2 不同計(jì)算方式的計(jì)算效率對(duì)比表
(3)地表覆蓋變化流量統(tǒng)計(jì)
選取2018年、2019年兩個(gè)年度的山東省地理省情監(jiān)測(cè)數(shù)據(jù)成果,對(duì)兩個(gè)年度的地表覆蓋監(jiān)測(cè)數(shù)據(jù)進(jìn)行空間疊加計(jì)算,并在疊加結(jié)果中統(tǒng)計(jì)地表覆蓋變化信息,按照測(cè)區(qū)進(jìn)行統(tǒng)計(jì)。在單機(jī)模式下,在數(shù)據(jù)已經(jīng)準(zhǔn)備好的情況下,其他商業(yè)軟件完成該項(xiàng)任務(wù)需要8~10h,而采用空間并行計(jì)算引擎,完成各疊加統(tǒng)計(jì)僅需30min左右,效率同比提升10倍以上(表3)。
表3 不同計(jì)算方式的計(jì)算耗時(shí)對(duì)比表
基礎(chǔ)設(shè)施是各類大數(shù)據(jù)中心運(yùn)行的基礎(chǔ)支撐,對(duì)大數(shù)據(jù)中心管理與服務(wù)效率起著至關(guān)重要的基礎(chǔ)作用。該文在實(shí)踐的基礎(chǔ)上,討論了通過(guò)云管理平臺(tái),將各種物理資源虛擬化,形成跨虛擬化技術(shù)的統(tǒng)一資源池,整合計(jì)算資源、存儲(chǔ)資源、網(wǎng)絡(luò)資源等基礎(chǔ)設(shè)施資源,完成云基礎(chǔ)設(shè)施環(huán)境搭建。通過(guò)集群并行的工作模式去解決存儲(chǔ)和計(jì)算兩個(gè)最為核心的技術(shù)需求,將并行計(jì)算、GIS 內(nèi)核技術(shù)深度融合在分布式架構(gòu)中,形成時(shí)空大數(shù)據(jù)基礎(chǔ)框架以解決時(shí)空大數(shù)據(jù)的存儲(chǔ)和計(jì)算問(wèn)題。通過(guò)實(shí)驗(yàn)對(duì)比,在相同的數(shù)據(jù)操作下,采用時(shí)空大數(shù)據(jù)基礎(chǔ)框架能夠加快數(shù)據(jù)入庫(kù)速度,縮短數(shù)據(jù)瀏覽時(shí)間,提高數(shù)據(jù)計(jì)算效率,切實(shí)提升時(shí)空大數(shù)據(jù)的服務(wù)和管理能力。通過(guò)構(gòu)筑技術(shù)先進(jìn)、高可靠、高擴(kuò)展的基礎(chǔ)設(shè)施架構(gòu),不僅能滿足當(dāng)前大數(shù)據(jù)中心各系統(tǒng)運(yùn)行需求和各類數(shù)據(jù)存儲(chǔ)需求,同時(shí)可提供統(tǒng)一的、標(biāo)準(zhǔn)的數(shù)據(jù)接口,保證未來(lái)的可擴(kuò)展,可實(shí)現(xiàn)與其他行業(yè)數(shù)據(jù)的有效銜接,為社會(huì)經(jīng)濟(jì)發(fā)展提供了有效支撐。