陳霞
(亳州工業(yè)學(xué)校,安徽 亳州 236000)
針對當(dāng)前遙感圖像數(shù)據(jù)海量、更新頻繁等特點(diǎn),本項(xiàng)目擬采用基于云計(jì)算的并行計(jì)算技術(shù),研究基于云計(jì)算的遙感圖像數(shù)據(jù)存儲與管理方法?;诜植际接?jì)算、分布式存儲等技術(shù),面向遙感數(shù)據(jù)對象識別、變化檢測等實(shí)際應(yīng)用需求,利用自主開發(fā)的在線樣本收集技術(shù)和深度學(xué)習(xí)技術(shù),實(shí)現(xiàn)多源遙感圖像的自動判讀。
同時,該平臺也為模型預(yù)測結(jié)果的人為修正提供了依據(jù),并將這些人為的反饋信息傳遞給模型訓(xùn)練模塊,使其能夠自我迭代學(xué)習(xí)。相比傳統(tǒng)的離線圖像數(shù)據(jù)處理方式,該系統(tǒng)采用分布式存儲計(jì)算模式,可有效地減少圖像數(shù)據(jù)在生產(chǎn)中的存儲分配問題,并可有效地簡化深度遙感模型的訓(xùn)練過程,從而提高深度遙感模型的訓(xùn)練效率,從而為大規(guī)模遙感數(shù)據(jù)的管理和應(yīng)用研究提供新的思路。
遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺是基于遙感大數(shù)據(jù)的資源池,支持多任務(wù)并行處理和海量數(shù)據(jù)的并行存儲與計(jì)算,將海量遙感數(shù)據(jù)從集中式管理模式轉(zhuǎn)變?yōu)榉植际焦芾砟J?。該平臺可以滿足用戶在不同層次的需求,例如:
(1)系統(tǒng)用戶可以根據(jù)自身的需求,對遙感大數(shù)據(jù)進(jìn)行不同的計(jì)算任務(wù)分配和存儲任務(wù)分配。
(2)用戶可以根據(jù)自己的工作需要,在平臺上自定義遙感大數(shù)據(jù)計(jì)算任務(wù)。
(3)用戶可以根據(jù)自己的需要,將已有的遙感大數(shù)據(jù)資源以不同方式組合在一起,構(gòu)建一個新的計(jì)算模型。
(4)用戶可以通過對已有資源的配置,對遙感大數(shù)據(jù)進(jìn)行動態(tài)調(diào)整、升級和擴(kuò)容。
(5)用戶可以對自己在平臺上構(gòu)建出來的計(jì)算模型進(jìn)行分析與評估。
遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺系統(tǒng)具有以下特點(diǎn):
(1)基于資源池機(jī)制,支持多任務(wù)并行計(jì)算和海量數(shù)據(jù)處理。
(2)基于Hadoop 大數(shù)據(jù)技術(shù),支持分布式存儲和分布式計(jì)算。
(3)基于MapReduce 分布式并行計(jì)算框架,支持對遙感大數(shù)據(jù)進(jìn)行實(shí)時分析、挖掘和建模。
(4)支持云存儲、云備份和云監(jiān)控。
遙感大數(shù)據(jù)訓(xùn)練云平臺的總體架構(gòu)包含云管理系統(tǒng)、遙感數(shù)據(jù)存儲系統(tǒng)和遙感數(shù)據(jù)處理系統(tǒng)。其中,云管理系統(tǒng)主要用于對遙感數(shù)據(jù)進(jìn)行統(tǒng)一的管理和監(jiān)控,其功能主要包括對存儲空間、文件資源的統(tǒng)一分配以及對計(jì)算任務(wù)進(jìn)行動態(tài)調(diào)度等。遙感數(shù)據(jù)存儲系統(tǒng)是將所有的遙感數(shù)據(jù)以文件的形式存儲在一個數(shù)據(jù)庫中,便于管理和使用。遙感數(shù)據(jù)處理系統(tǒng)是對遙感數(shù)據(jù)進(jìn)行初步的計(jì)算和分析,然后通過計(jì)算結(jié)果將分析結(jié)果保存到數(shù)據(jù)庫中,并生成可視化的圖表。同時,將分析結(jié)果進(jìn)行存儲,以便于進(jìn)一步的挖掘和使用。遙感數(shù)據(jù)管理與訓(xùn)練云平臺構(gòu)成了一個完整的體系結(jié)構(gòu),該體系結(jié)構(gòu)主要由云管理、云存儲、云應(yīng)用和云訓(xùn)練四個部分組成。
其中,云管理是整個體系結(jié)構(gòu)的核心,其功能是將所有與之相關(guān)的資源進(jìn)行統(tǒng)一管理。云管理主要包含用戶管理、權(quán)限管理、設(shè)備管理等功能,以實(shí)現(xiàn)對整個云計(jì)算平臺的統(tǒng)一管理。
云存儲則主要用于實(shí)現(xiàn)數(shù)據(jù)存儲服務(wù)和資源共享服務(wù)。
云應(yīng)用則是對云應(yīng)用進(jìn)行開發(fā)的平臺,其主要功能是通過對用戶提交的遙感數(shù)據(jù)進(jìn)行分析,來挖掘數(shù)據(jù)中的特征信息,以便于進(jìn)一步的數(shù)據(jù)挖掘和分析。
云訓(xùn)練則是對云計(jì)算平臺提供服務(wù)的能力進(jìn)行訓(xùn)練,其主要功能是對云計(jì)算平臺提供的服務(wù)能力進(jìn)行訓(xùn)練。
該體系結(jié)構(gòu)中,用戶可以根據(jù)自己的需求將不同種類、不同用途的資源統(tǒng)一管理起來,從而達(dá)到充分利用資源、提高效率的目的。
在遙感大數(shù)據(jù)的處理中,通過對大數(shù)據(jù)應(yīng)用框架進(jìn)行訓(xùn)練,從而達(dá)到提高訓(xùn)練效率的目的。而在分布式訓(xùn)練框架設(shè)計(jì)中,主要包括數(shù)據(jù)傳輸模塊、數(shù)據(jù)存儲模塊和算法調(diào)用模塊。在數(shù)據(jù)傳輸模塊中,主要是將訓(xùn)練數(shù)據(jù)從服務(wù)器端傳輸?shù)娇蛻舳?,使客戶端能夠直接從服?wù)器端下載訓(xùn)練數(shù)據(jù);在數(shù)據(jù)存儲模塊中,將分布式訓(xùn)練框架中的模型文件和參數(shù)文件存放于云存儲平臺中,并利用緩存機(jī)制,將客戶端下載的模型文件和參數(shù)文件緩存起來;在算法調(diào)用模塊中,利用機(jī)器學(xué)習(xí)算法來訓(xùn)練深度學(xué)習(xí)模型。
從遙感大數(shù)據(jù)的訓(xùn)練框架設(shè)計(jì)上來看,主要包括以下幾個模塊:
(1)分布式訓(xùn)練框架?;?Hadoop 集群的分布式訓(xùn)練框架。
(2)數(shù)據(jù)傳輸模塊。將遙感大數(shù)據(jù)的存儲格式與傳輸格式相結(jié)合,實(shí)現(xiàn)對遙感大數(shù)據(jù)的存儲與傳輸。
(3)數(shù)據(jù)存儲模塊。對訓(xùn)練所需的遙感大數(shù)據(jù)進(jìn)行存儲與管理。
(4)算法調(diào)用模塊。根據(jù)分布式訓(xùn)練框架中的算法模型,使用深度學(xué)習(xí)算法來實(shí)現(xiàn)對遙感大數(shù)據(jù)的處理。
(5)數(shù)據(jù)庫查詢模塊。通過MapReduce 計(jì)算引擎來實(shí)現(xiàn)對遙感大數(shù)據(jù)的計(jì)算。
在整個分布式訓(xùn)練框架設(shè)計(jì)中,主要是利用Hadoop集群對遙感大數(shù)據(jù)進(jìn)行存儲、計(jì)算和資源調(diào)度等工作。其中,數(shù)據(jù)傳輸模塊是實(shí)現(xiàn)分布式訓(xùn)練框架中各子功能模塊之間相互通信與交互的關(guān)鍵環(huán)節(jié);數(shù)據(jù)存儲模塊實(shí)現(xiàn)了海量遙感大數(shù)據(jù)的存儲與管理;算法調(diào)用模塊是分布式訓(xùn)練框架中各子功能模塊之間相互協(xié)作的橋梁。
該平臺針對不同的數(shù)據(jù)類型,對其進(jìn)行了結(jié)構(gòu)化設(shè)計(jì)。重點(diǎn)介紹了圖像數(shù)據(jù)模型的建立、向量信息的建立、標(biāo)簽數(shù)據(jù)的建立、服務(wù)數(shù)據(jù)的建立等。影像資料模式包括影像資料、影像影像資料及影像資料。本文提出了一種基于數(shù)據(jù)集的遙感元數(shù)據(jù)標(biāo)準(zhǔn)化方法。最后,選擇了一個分布式的Key-Value NoSQL 數(shù)據(jù)庫 Accumulo 來存儲圖像塊數(shù)據(jù)。
由于矢量空間元素間具有復(fù)雜的拓?fù)潢P(guān)系,且在迭代時需對批矢量點(diǎn)數(shù)據(jù)進(jìn)行有效的更新。該平臺選擇了HBase 數(shù)據(jù)庫作為向量元素的存儲對象。利用 HBase 進(jìn)行向量空間數(shù)據(jù)的存儲與管理具有高效、高擴(kuò)展性等優(yōu)點(diǎn)。
標(biāo)記數(shù)據(jù)是利用空間矢量數(shù)據(jù),經(jīng)過向量轉(zhuǎn)柵的算法處理而獲得的。Ceph 對象存儲使用 RADOS (Reliable Autonomic Distributed ObjectStore)來保證標(biāo)簽數(shù)據(jù)的讀寫效率,使用 CRUSH 數(shù)據(jù)放置采取算法來保證標(biāo)簽數(shù)據(jù)負(fù)載可以得到有效均衡。
在此基礎(chǔ)上,利用 Geomesa 語言建立了空間-時間-空間-空間-時間的向量表,以實(shí)現(xiàn)對空間-時間和空間-時間向量表的快速訪問。使用 Geomesa 提供的XZ3 時空索引,將包含經(jīng)度、緯度和時間三個維度的數(shù)據(jù),按照基于Z-Order 填充曲線的GeoHash 時空編碼技術(shù),對數(shù)據(jù)進(jìn)行降維,得到一維數(shù)據(jù)作為Key,便于在HBase 數(shù)據(jù)庫中進(jìn)行查詢。本項(xiàng)目提出的時空索引方法,在保證空間分布特征的前提下,能夠有效實(shí)現(xiàn)空間分布特征的前提下,有效提升空間分布特征,提升空間分布特征。
在此基礎(chǔ)上,提出了一種基于服務(wù)網(wǎng)格的微服務(wù)體系結(jié)構(gòu)。這種模式減少了與Dubbo 和SpringCloud 的耦合。在此基礎(chǔ)上,提出了一種以多智能體為主體的有機(jī)體為中心的網(wǎng)狀結(jié)構(gòu)。以通用組件的形式,對系統(tǒng)中的所有服務(wù)通信流量進(jìn)行管控,并且下沉了微服務(wù)開發(fā)的技術(shù)棧,從而可以實(shí)現(xiàn)跨語言的服務(wù)調(diào)用、功能可擴(kuò)展。
在此基礎(chǔ)上,提出一種高可用性、高擴(kuò)展性、可擴(kuò)展性、可維護(hù)性、智能運(yùn)維的遙感大數(shù)據(jù)管理和培訓(xùn)微服務(wù)體系結(jié)構(gòu),并將其應(yīng)用于遙感大數(shù)據(jù)處理中。
遙感數(shù)據(jù)在進(jìn)行處理時,往往會涉及海量的遙感數(shù)據(jù),在管理這些龐大的數(shù)據(jù)時,傳統(tǒng)的基于單機(jī)或者文件系統(tǒng)的管理方式已經(jīng)不能滿足需求,所以需要對遙感大數(shù)據(jù)進(jìn)行分布式管理。在遙感大數(shù)據(jù)的管理中,往往需要將遙感大數(shù)據(jù)分解成若干個小任務(wù),每個小任務(wù)都有自己獨(dú)立的存儲和處理信息,這樣才能進(jìn)行統(tǒng)一的管理。但是由于每個小任務(wù)都是獨(dú)立操作,其操作結(jié)果會存在差異。在這種情況下,如果直接將遙感大數(shù)據(jù)全部交給集群管理系統(tǒng)處理,就會造成大量數(shù)據(jù)丟失以及不必要的重復(fù)勞動。
為了解決這個問題,可以采用一種“云計(jì)算”概念來進(jìn)行遙感大數(shù)據(jù)的分布式管理。在“云計(jì)算”環(huán)境下,各個計(jì)算節(jié)點(diǎn)所擁有的計(jì)算資源都是共享的。在實(shí)現(xiàn)對遙感大數(shù)據(jù)分布式管理時,將計(jì)算任務(wù)進(jìn)行分解,分配到各個節(jié)點(diǎn)上進(jìn)行處理。同時,通過在“云計(jì)算”平臺中引入分布式存儲技術(shù)來解決數(shù)據(jù)量大而導(dǎo)致存儲空間不足的問題。此外,“云計(jì)算”環(huán)境下的大數(shù)據(jù)應(yīng)用框架也是基于分布式計(jì)算技術(shù)構(gòu)建起來的,并且通過引入機(jī)器學(xué)習(xí)算法來提高數(shù)據(jù)分析處理效率。
在遙感訓(xùn)練過程中,云平臺主要是根據(jù)機(jī)器學(xué)習(xí)算法對海量遙感數(shù)據(jù)進(jìn)行處理。對于海量遙感數(shù)據(jù),一般有多個訓(xùn)練節(jié)點(diǎn)。在訓(xùn)練過程中,通過調(diào)度算法,將訓(xùn)練任務(wù)合理地分配到各個節(jié)點(diǎn)上,使訓(xùn)練任務(wù)能夠順利地執(zhí)行。在實(shí)際訓(xùn)練過程中,往往有多個訓(xùn)練任務(wù)同時進(jìn)行,例如,對多個圖像數(shù)據(jù)進(jìn)行分類、特征提取、模型構(gòu)建等。同時,由于訓(xùn)練數(shù)據(jù)量龐大,單個節(jié)點(diǎn)的資源難以滿足多個訓(xùn)練任務(wù)的要求。因此,需要將訓(xùn)練任務(wù)分散到各個節(jié)點(diǎn)上去執(zhí)行。
由于遙感數(shù)據(jù)的特征提取通常是在多個節(jié)點(diǎn)上同時進(jìn)行的,因此需要對遙感數(shù)據(jù)進(jìn)行分類處理。在分類過程中,一般會涉及圖像特征提取、模型構(gòu)建以及分類結(jié)※果驗(yàn)證等步驟。在分類過程中,需要對各個節(jié)點(diǎn)的數(shù)據(jù)進(jìn)行分類處理。由于遙感數(shù)據(jù)具有不規(guī)則性以及離散性,因此,采用傳統(tǒng)的機(jī)器學(xué)習(xí)算法往往難以取得理想的效果。在實(shí)際應(yīng)用中,往往采用深度學(xué)習(xí)算法對遙感圖像進(jìn)行分類處理。
本文所設(shè)計(jì)的基于計(jì)算機(jī)技術(shù)的遙感大數(shù)據(jù)分布式管理與訓(xùn)練云平臺是基于云計(jì)算技術(shù)設(shè)計(jì)實(shí)現(xiàn)的。該平臺可以滿足多個訓(xùn)練節(jié)點(diǎn)之間協(xié)同工作的要求。通過分布式計(jì)算技術(shù),將不同節(jié)點(diǎn)上的任務(wù)合理地分配到各個節(jié)點(diǎn)上去執(zhí)行。同時,利用云計(jì)算平臺提供的分布式計(jì)算、資源共享等功能為遙感圖像訓(xùn)練提供支持。在任務(wù)調(diào)度和管理過程中,通過對各個節(jié)點(diǎn)進(jìn)行任務(wù)分配以及調(diào)度管理來保證任務(wù)能夠按照規(guī)定的時間節(jié)點(diǎn)完成任務(wù)。
本節(jié)對云計(jì)算環(huán)境下的遙感數(shù)據(jù)訓(xùn)練云平臺進(jìn)行了實(shí)驗(yàn)測試,將采用支持向量機(jī)(SVM)的機(jī)器學(xué)習(xí)算法,以及隨機(jī)森林(RF)的遙感數(shù)據(jù)分類算法作為測試算法。在實(shí)驗(yàn)環(huán)境中,將一個500kB 大小的遙感數(shù)據(jù)集作為測試數(shù)據(jù),計(jì)算其在云計(jì)算平臺上訓(xùn)練一個分類模型所需要的時間,并將訓(xùn)練好的模型與采用傳統(tǒng)訓(xùn)練方法得到的模型進(jìn)行比較。
采用云計(jì)算平臺進(jìn)行遙感數(shù)據(jù)訓(xùn)練,所需時間明顯縮短,但是,在相同的計(jì)算時間內(nèi)所得到的遙感數(shù)據(jù)分類準(zhǔn)確率并不高。這是由于傳統(tǒng)機(jī)器學(xué)習(xí)方法訓(xùn)練得到的模型在面對大規(guī)模數(shù)據(jù)時,準(zhǔn)確率不高,而云計(jì)算環(huán)境下得到的遙感數(shù)據(jù)分類模型在面對大規(guī)模數(shù)據(jù)時準(zhǔn)確率較高。因此,通過云計(jì)算平臺進(jìn)行遙感數(shù)據(jù)訓(xùn)練具有一定優(yōu)勢,但是在訓(xùn)練速度和準(zhǔn)確率方面還需要進(jìn)一步完善。
在未來的研究中,將針對云計(jì)算環(huán)境下遙感數(shù)據(jù)訓(xùn)練過程中出現(xiàn)的問題進(jìn)行進(jìn)一步探討,例如,如何提高遙感數(shù)據(jù)的訓(xùn)練效率,以及如何對遙感數(shù)據(jù)進(jìn)行清洗和預(yù)處理,以達(dá)到提高訓(xùn)練效率的目的。
本文設(shè)計(jì)了一種基于計(jì)算機(jī)技術(shù)的一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺。平臺構(gòu)建了以異構(gòu)的遙感數(shù)據(jù)為基礎(chǔ)的混合存儲模型,以Spark 為載體的分布式計(jì)算模型,以服務(wù)注冊與發(fā)現(xiàn)、服務(wù)交互為基礎(chǔ)的微服務(wù)架構(gòu)。結(jié)合深度學(xué)習(xí)在遙感影像數(shù)據(jù)處理的應(yīng)用,完成了一站式遙感大數(shù)據(jù)分布式管理與模型訓(xùn)練云平臺的整體建設(shè),為構(gòu)建高可用、易擴(kuò)展的遙感數(shù)據(jù)存儲共享與處理平臺提供了解決方案。