劉天貽
關(guān)鍵詞:遙感數(shù)據(jù);深度學(xué)習(xí)云平臺(tái);分布式存儲(chǔ);分布式檢索;微服務(wù)
本文使用以并行計(jì)算為基礎(chǔ)的云計(jì)算技術(shù)解決遙感影像數(shù)據(jù)存儲(chǔ)管理過(guò)程中由于數(shù)據(jù)量大、更新頻繁而帶來(lái)的數(shù)據(jù)存儲(chǔ)和數(shù)據(jù)檢索的問(wèn)題。以分布式計(jì)算和分布式存儲(chǔ)為基礎(chǔ),結(jié)合遙感數(shù)據(jù)目標(biāo)識(shí)別與變化檢測(cè)應(yīng)用的需求,本平臺(tái)通過(guò)自研在線樣本采集和定制的深度學(xué)習(xí)算法,實(shí)現(xiàn)遙感影像的自動(dòng)解譯。同時(shí),本平臺(tái)還提供對(duì)模型預(yù)測(cè)結(jié)果人工修正的人口,將人工反饋結(jié)果作為反饋數(shù)據(jù)集交給模型訓(xùn)練模塊進(jìn)行迭代訓(xùn)練,形成模型自迭代學(xué)習(xí)的機(jī)制。相較于傳統(tǒng)離線影像數(shù)據(jù)處理方法,本平臺(tái)基于分布式存算模型的遙感數(shù)據(jù)管理與訓(xùn)練框架降低了生產(chǎn)過(guò)程中數(shù)據(jù)管理分發(fā)難度,簡(jiǎn)化了遙感深度學(xué)習(xí)模型訓(xùn)練流程,提高了遙感深度學(xué)習(xí)模型訓(xùn)練效率和遙感影像利用效率,為海量衛(wèi)星遙感數(shù)據(jù)管理與應(yīng)用平臺(tái)的研發(fā)提供一種新的思路。
1系統(tǒng)框架
一站式遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺(tái)由基礎(chǔ)設(shè)施層、分布式計(jì)算層、分布式混合存儲(chǔ)層、微服務(wù)層、應(yīng)用層和運(yùn)維系統(tǒng)組成。
(l)基礎(chǔ)設(shè)施層為其他各層提供通用的技術(shù)能力,包括為服務(wù)層提供持久化機(jī)制,為應(yīng)用層傳遞消息等。虛擬化層在原始硬件級(jí)通過(guò)VMware虛擬CPU、內(nèi)存和I/O設(shè)備以多個(gè)并行用戶來(lái)改進(jìn)硬件資源的利用率[3].基于Docker容器的操作系統(tǒng)級(jí)虛擬化方案保證了物理機(jī)器和虛擬機(jī)實(shí)例數(shù)可以彈性伸縮,以很小的資源開銷實(shí)現(xiàn)文件系統(tǒng)、網(wǎng)絡(luò)、進(jìn)程和資源的隔離。
(2)分布式存儲(chǔ)計(jì)算模塊負(fù)責(zé)多元異構(gòu)影像數(shù)據(jù)及影像相關(guān)數(shù)據(jù)的存儲(chǔ)與檢索,為服務(wù)層提供數(shù)據(jù)讀寫與檢索接口[4]。存儲(chǔ)層針對(duì)遙感影像數(shù)據(jù)、影像標(biāo)簽數(shù)據(jù)、矢量數(shù)據(jù)以及瓦片數(shù)據(jù)和系統(tǒng)業(yè)務(wù)數(shù)據(jù)分別設(shè)計(jì)基于HDFS,Ceph,HBase,Accumulo和PostgreSQL數(shù)據(jù)庫(kù)的存儲(chǔ)與操作接口,實(shí)現(xiàn)遙感數(shù)據(jù)的混合存儲(chǔ)與管理。ElasticSearch和Geomesa的引入優(yōu)化了數(shù)據(jù)檢索的效率。
(3)微服務(wù)層以彈性分布式計(jì)算為基礎(chǔ),以低耦合高內(nèi)聚為原則將系統(tǒng)中不同場(chǎng)景的業(yè)務(wù)和功能拆分成一組微服務(wù)分別提供服務(wù)。所有的微服務(wù)共同構(gòu)建起整個(gè)系統(tǒng)的微服務(wù)層。微服務(wù)架構(gòu)降低了單體應(yīng)用部署、配置、維護(hù)的復(fù)雜性。
(4)應(yīng)用層在整合底層模塊的基礎(chǔ)上為用戶提供數(shù)據(jù)管理與服務(wù)操作接口。通過(guò)遙感影像入庫(kù)系統(tǒng)、遙感影像分布式管理系統(tǒng)、樣本工程系統(tǒng)、樣本管理系統(tǒng)、模型訓(xùn)練系統(tǒng)和應(yīng)用系統(tǒng)六個(gè)子系統(tǒng)的數(shù)據(jù)流通與協(xié)同運(yùn)轉(zhuǎn)為用戶提供遙感數(shù)據(jù)“入庫(kù)-管理-訓(xùn)練,預(yù)測(cè)”的一站式服務(wù)。
2關(guān)鍵技術(shù)
2.1分布式混合存儲(chǔ)模型
本平臺(tái)根據(jù)不同數(shù)據(jù)類型的結(jié)構(gòu)設(shè)計(jì)了不同的存儲(chǔ)模型。主要涉及影像數(shù)據(jù)模型、矢量信息、標(biāo)簽數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)的存儲(chǔ)。
影像數(shù)據(jù)模型包含影像元數(shù)據(jù)、影像像元數(shù)據(jù)和影像瓦片數(shù)據(jù)。經(jīng)過(guò)歸一化處理之后的遙感元數(shù)據(jù)數(shù)據(jù)量較小,適合存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)PostgreSQL中。最終選用分布式鍵值NoSQL數(shù)據(jù)庫(kù)Accumulo存儲(chǔ)影像瓦片數(shù)據(jù)。
矢量空間要素之間存在復(fù)雜的拓?fù)潢P(guān)系,同時(shí)在模型迭代過(guò)程中需要高效處理批量矢量圖斑數(shù)據(jù)的更新問(wèn)題。本平臺(tái)選用面向列存儲(chǔ)的HBase數(shù)據(jù)庫(kù)存儲(chǔ)矢量要素。HBase在矢量空間數(shù)據(jù)存儲(chǔ)和管理過(guò)程中的優(yōu)勢(shì)主要體現(xiàn)在列存儲(chǔ)的高效性和高擴(kuò)展性。
標(biāo)簽數(shù)據(jù)由存儲(chǔ)地物分類信息的空間矢量數(shù)據(jù)通過(guò)矢量轉(zhuǎn)柵格的算法處理得到,本文選用分布式對(duì)象存儲(chǔ)系統(tǒng)Ceph存儲(chǔ)和管理標(biāo)簽數(shù)據(jù)。Ceph對(duì)象存儲(chǔ)采用RADOS(Reliable Autonomic Distributed ObjectStore),保障標(biāo)簽數(shù)據(jù)的讀寫效率,采用CRUSH數(shù)據(jù)放置采取算法,保障了標(biāo)簽數(shù)據(jù)負(fù)載能夠得到有效均衡。
2.2時(shí)空大數(shù)據(jù)索引
為了保證存儲(chǔ)于HBase中的時(shí)空矢量數(shù)據(jù)的快速存敢,本文使用Ceomesa構(gòu)建了矢量數(shù)據(jù)構(gòu)索引。利用G eomesa提供的X23時(shí)空索引,將包含經(jīng)度、緯度和時(shí)間三個(gè)維度的數(shù)據(jù)按照基于Z-Order填充曲線(見(jiàn)圖1)的CeoHash時(shí)空編碼技術(shù)進(jìn)行降維,得到一維數(shù)據(jù)作為Key,方便在HBase數(shù)據(jù)庫(kù)中進(jìn)行查詢。這種時(shí)空索引技術(shù)能高效地達(dá)到降維效果,同時(shí)可以保持?jǐn)?shù)據(jù)的locality特性,提高基于經(jīng)緯度和時(shí)間的檢索效率。
2.3微服務(wù)架構(gòu)
為了滿足系統(tǒng)穩(wěn)定性和可擴(kuò)展性方面的要求,本平臺(tái)選用基于服務(wù)網(wǎng)格的微服務(wù)架構(gòu)。相對(duì)于Dubbo框架和Spring Cloud框架,該模式降低了服務(wù)治理與服務(wù)之間的耦合度。同時(shí),服務(wù)網(wǎng)格框架強(qiáng)調(diào)了各個(gè)代理之間形成的有機(jī)網(wǎng)絡(luò)。以通用組件的形式管控系統(tǒng)中所有服務(wù)通信流量,同時(shí)下沉了微服務(wù)開發(fā)的技術(shù)棧,可以做到跨語(yǔ)言的服務(wù)調(diào)用、功能可擴(kuò)展。
通過(guò)對(duì)平臺(tái)業(yè)務(wù)進(jìn)行合理拆分,降低不同服務(wù)之間的關(guān)聯(lián)影響,本文設(shè)計(jì)了具備高可用性、高擴(kuò)展性、可伸縮性和運(yùn)維智能化的遙感大數(shù)據(jù)管理與訓(xùn)練微服務(wù)架構(gòu)。
3系統(tǒng)實(shí)現(xiàn)
3.1業(yè)務(wù)流程
一站式遙感大數(shù)據(jù)管理與訓(xùn)練云平臺(tái)包括以下6個(gè)子系統(tǒng),并且它們相互依賴。
(1)遙感影像入庫(kù)系統(tǒng):負(fù)責(zé)對(duì)多源異構(gòu)的遙感影像數(shù)據(jù)進(jìn)行數(shù)據(jù)預(yù)處理、清洗、入庫(kù)等ETL工作,并將其存儲(chǔ)到平臺(tái)中。
(2)遙感影像管理系統(tǒng):對(duì)混合存儲(chǔ)模型中的多源異構(gòu)遙感數(shù)據(jù)進(jìn)行數(shù)據(jù)管理,并提供數(shù)據(jù)的多維度統(tǒng)計(jì)指標(biāo)實(shí)現(xiàn)數(shù)據(jù)監(jiān)控。
(3)樣本工程系統(tǒng):負(fù)責(zé)樣本勾畫任務(wù)的創(chuàng)建和分配以及樣本勾畫過(guò)程跟蹤等。以樣本分類體系為基礎(chǔ),體系化管理和維護(hù)采集中使用的地物解譯類別以及外業(yè)采集的實(shí)地圖片,為樣本管理系統(tǒng)提供數(shù)據(jù)支撐。
(4)樣本管理系統(tǒng):通過(guò)對(duì)檢索結(jié)果中的影像數(shù)據(jù)和矢量數(shù)據(jù)進(jìn)行整理和重構(gòu)生成訓(xùn)練樣本集。訓(xùn)練樣本集中包括影像切片數(shù)據(jù)和標(biāo)簽數(shù)據(jù),是模型訓(xùn)練系統(tǒng)的數(shù)據(jù)來(lái)源。
(5)模型訓(xùn)練系統(tǒng):根據(jù)用戶選擇的模型訓(xùn)練算法對(duì)訓(xùn)練樣本集進(jìn)行樣本類別轉(zhuǎn)換、訓(xùn)練集劃分、驗(yàn)證集劃分等操作。模型訓(xùn)練完成之后,可參照系統(tǒng)提供模型精度評(píng)價(jià)調(diào)整模型參數(shù)進(jìn)一步優(yōu)化模型。
(6)應(yīng)用系統(tǒng):應(yīng)用系統(tǒng)基于模型訓(xùn)練系統(tǒng)提供的模型對(duì)影像數(shù)據(jù)進(jìn)行地物提取或者變化監(jiān)測(cè)?;陬A(yù)測(cè)的結(jié)果進(jìn)行人工解譯可進(jìn)一步生成反饋數(shù)據(jù)集。
3.2系統(tǒng)配置
本文基于上述技術(shù)設(shè)計(jì)搭建了服務(wù)于遙感影像處理和解譯模型訓(xùn)練的一站式遙感大數(shù)據(jù)管理與訓(xùn)練云平臺(tái)。該平臺(tái)的軟硬件配置如表1所列。
3.3性能測(cè)試
本文選取影像金字塔切分過(guò)程的耗時(shí)作為觀測(cè)指標(biāo)來(lái)驗(yàn)證分布式遙感云平臺(tái)的性能。在CPU頻率與內(nèi)存容量等硬件水平相當(dāng)?shù)沫h(huán)境下對(duì)分布式遙感云平臺(tái)和Arc CIS Server處理系統(tǒng)影像金字塔切分耗時(shí)進(jìn)行對(duì)比測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)分別選取數(shù)據(jù)量大小在0.5GB.1CB,2CB,3GB左右的影像。從圖2可以看出,在硬件配置和影像大小相同的情況下,分布式遙感云平臺(tái)的金字塔分層切分耗時(shí)小于Arc CIS Server系統(tǒng),其相對(duì)加速比大于2。上述實(shí)驗(yàn)數(shù)據(jù)證明了分布式遙感云平臺(tái)在遙感影像金字塔建模處理的效率上具有明顯優(yōu)勢(shì)。
4結(jié)束語(yǔ)
本文設(shè)計(jì)了一種基于計(jì)算機(jī)技術(shù)的一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺(tái)。平臺(tái)構(gòu)建了以異構(gòu)的遙感數(shù)據(jù)為基礎(chǔ)的混合存儲(chǔ)模型,以Spark為載體的分布式計(jì)算模型,以服務(wù)注冊(cè)與發(fā)現(xiàn)、服務(wù)交互為基礎(chǔ)的微服務(wù)架構(gòu)。結(jié)合深度學(xué)習(xí)在遙感影像數(shù)據(jù)處理的應(yīng)用完成了一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺(tái)的整體建設(shè),為構(gòu)建高可用、易擴(kuò)展的遙感數(shù)據(jù)存儲(chǔ)共享與處理平臺(tái)提供了一種解決方案。