王志寶 趙 亮 馬 軒 劉坤嶧
(東北石油大學(xué)計算機與信息技術(shù)學(xué)院 大慶 163318)
隨著遙感航天技術(shù)的高速發(fā)展,影像數(shù)據(jù)因其本身攜帶的空間及時間屬性信息特點,成為了解決可持續(xù)發(fā)展、全球變化和減災(zāi)防災(zāi)的重要數(shù)據(jù)資源[1~2]。目前爆炸增長的遙感影像數(shù)量級已達PB級[3]。且流行的遙感影像共享分發(fā)平臺所支持的數(shù)據(jù)檢索較復(fù)雜,不夠簡約,并且很難達到用戶的期望[4-5]。數(shù)據(jù)湖作為近幾年來主流的大數(shù)據(jù)管理技術(shù),是存儲處理各種數(shù)據(jù)和極大程度的關(guān)聯(lián)數(shù)據(jù)創(chuàng)新相關(guān)的領(lǐng)域。包括文本、圖片、語音、視頻和文檔等非結(jié)構(gòu)化的多源異構(gòu)數(shù)據(jù)資源。目的是為在大數(shù)據(jù)存儲和共享時提供一個穩(wěn)定的數(shù)據(jù)底座。實現(xiàn)基于“讀時模式”的數(shù)據(jù)引接、存儲和處理等過程,更有效實現(xiàn)數(shù)據(jù)的共享和數(shù)據(jù)模型定義的靈活性,提升原本資源的利用價值和效率[6]。遙感數(shù)據(jù)資源目錄系統(tǒng)是構(gòu)建遙感數(shù)據(jù)湖的基礎(chǔ),為不同領(lǐng)域的遙感數(shù)據(jù)用戶提供快速、準確、方便的數(shù)據(jù)檢索、瀏覽下載和推送。
遙感數(shù)據(jù)資源目錄系統(tǒng)依據(jù)NASA 的統(tǒng)一元數(shù)據(jù)模型UMM 的數(shù)據(jù)映射標準,按照分類方法進行排序、組織與整理后編輯成目錄。用于遙感數(shù)據(jù)資源的外部形式與內(nèi)部特征的詳細描述,便于遙感數(shù)據(jù)資源的組織、檢索與共享獲?。?]。本文從多源異構(gòu)的遙感元數(shù)據(jù)接入處理、存儲檢索、可視化和共享等實際需求出發(fā),提出了一套大規(guī)模遙感數(shù)據(jù)資源目錄系統(tǒng)的技術(shù)框架,從元數(shù)據(jù)集成模型、元數(shù)據(jù)獲取和遙感數(shù)據(jù)混合檢索進行完整的描述與分析。確定遙感數(shù)據(jù)資源目錄的定位與架構(gòu),其次依據(jù)遙感元數(shù)據(jù)標準構(gòu)建具有較強擴展性的遙感元數(shù)據(jù)模型。并最終通過用例建模與服務(wù)建模驗證遙感數(shù)據(jù)資源目錄的可行性。
大規(guī)模遙感數(shù)據(jù)資源目錄系統(tǒng)框架是面向全球范圍內(nèi)的遙感數(shù)據(jù)源網(wǎng)站進行科學(xué)的管理與數(shù)據(jù)共享應(yīng)用所形成的一系列數(shù)據(jù)模型、數(shù)據(jù)規(guī)范、方法和策略等。為系統(tǒng)內(nèi)部不同數(shù)據(jù)庫進行分類,組合與更新。為系統(tǒng)外部的資源提供分類的標準,統(tǒng)一的規(guī)范。實現(xiàn)不同需求方對數(shù)據(jù)資源目錄的動態(tài)組織。在數(shù)據(jù)共享領(lǐng)域?qū)崿F(xiàn)對數(shù)據(jù)資源的按需發(fā)布,提供標準化目錄服務(wù)訪問接口。
系統(tǒng)在集成服務(wù)的基礎(chǔ)上統(tǒng)一開放的服務(wù)器接口,在數(shù)據(jù)獲取過程中不僅限于對數(shù)據(jù)源進行拉取,并允許第三方應(yīng)用程序調(diào)用目錄數(shù)據(jù)服務(wù)進行數(shù)據(jù)推送服務(wù)。將多源遙感元數(shù)據(jù)進行校驗、過濾和更新等操作。集成流程如圖1所示。
圖1 系統(tǒng)管理流程示意圖
首先數(shù)據(jù)提供方發(fā)布遙感數(shù)據(jù)資源成果,確定資源目錄集成方式。包括主動推送數(shù)據(jù)或是對外提供統(tǒng)一數(shù)據(jù)接口的被動拉取方式。數(shù)據(jù)在共享區(qū)進行篩選過濾,對比數(shù)據(jù)存儲中的文件目錄進行數(shù)據(jù)質(zhì)量檢查,檢查通過會統(tǒng)一多源異構(gòu)的元數(shù)據(jù)模型,否則反饋給數(shù)據(jù)提供方對其推送的數(shù)據(jù)進行自檢。根據(jù)不同定義的處理規(guī)則增量抓取待處理的數(shù)據(jù)。最后對資源數(shù)據(jù)目錄進行更新、可視化發(fā)布展示遙感數(shù)據(jù)反演產(chǎn)品的元數(shù)據(jù)信息在管理平臺上。同時,面向數(shù)據(jù)需求方,提供數(shù)據(jù)目錄資源信息的檢索,一體化的查詢檢索入口,資源獲取申請和成果資源推薦等工作。檢索平臺包括遙感數(shù)據(jù)集、遙感元數(shù)據(jù)、遙感數(shù)據(jù)源和遙感產(chǎn)品等。
大規(guī)模遙感數(shù)據(jù)資源目錄構(gòu)建技術(shù)框架面向全球范圍的商業(yè)數(shù)據(jù)源、公開數(shù)據(jù)源和第三方數(shù)據(jù)提供者。各層級數(shù)據(jù)源所產(chǎn)生的各類遙感數(shù)據(jù)資源進行科學(xué)管理與共享應(yīng)用所形成的一系列模型、規(guī)范、方法、策略和系統(tǒng)等[7],可促進遙感數(shù)據(jù)資源的有效管理、發(fā)現(xiàn)與共享服務(wù)。
平臺采用面向服務(wù)的SOA架構(gòu)技術(shù),技術(shù)框架由數(shù)據(jù)層、采集層、存儲層、服務(wù)層和應(yīng)用層五部分組成,如圖2 所示。平臺在設(shè)計和實現(xiàn)的過程中始終貫穿統(tǒng)一的標準規(guī)范,以下自底向上對各層進行說明。
圖2 大規(guī)模遙感數(shù)據(jù)資源目錄系統(tǒng)技術(shù)框架
1)數(shù)據(jù)層,由不同的數(shù)據(jù)源提供方組成,包括國內(nèi)外的免費公開遙感數(shù)據(jù)源,國內(nèi)外的商業(yè)付費遙感數(shù)據(jù)源以及第三方接入的志愿遙感數(shù)據(jù)源等共同構(gòu)成。不僅提供主動方式去拉取數(shù)據(jù),還可以被動接收第三方數(shù)據(jù)源以推送的方式向平臺提交遙感元數(shù)據(jù)。
2)采集層,基于平臺的遙感元數(shù)據(jù)標準將其進行解析、適配、集成、存儲、發(fā)布,最終確保平臺中數(shù)據(jù)資源的一致性。構(gòu)造分布式集群爬行器,對遙感元數(shù)據(jù)進行拉取或被動接收。通過統(tǒng)一的元數(shù)據(jù)模型,對其提取及格式轉(zhuǎn)換、快視圖提取等。為上層提供預(yù)處理后的遙感影像像元數(shù)據(jù)、波段數(shù)據(jù)和元數(shù)據(jù)。
3)存儲層,基于統(tǒng)一元數(shù)據(jù)標準,將遙感元數(shù)據(jù)以標準元數(shù)據(jù)格式進行統(tǒng)一的模型轉(zhuǎn)換與適配,包括原始數(shù)據(jù)庫、遙感產(chǎn)品數(shù)據(jù)庫、目錄數(shù)據(jù)庫和索引數(shù)據(jù)庫等。最終將其批量導(dǎo)入與管理。數(shù)據(jù)管理員定期對存儲層所存儲的信息進行檢查與數(shù)據(jù)備份。
4)服務(wù)層,服務(wù)層管理著多維數(shù)據(jù)資源目錄,包括遙感產(chǎn)品目錄、遙感數(shù)據(jù)集目錄、遙感元數(shù)據(jù)目錄、遙感數(shù)據(jù)源目錄和遙感數(shù)據(jù)主題目錄。并對外提供數(shù)據(jù)接口服務(wù),可為不同用戶提供數(shù)據(jù)服務(wù)、數(shù)據(jù)更新與數(shù)據(jù)維護。
5)應(yīng)用層,應(yīng)用層主要為大規(guī)模遙感數(shù)據(jù)管理平臺提供遙感元數(shù)據(jù)的檢索服務(wù),需要實現(xiàn)影像數(shù)據(jù)全文檢索、數(shù)據(jù)目錄發(fā)布、數(shù)據(jù)目錄維護、元數(shù)據(jù)統(tǒng)計并且平臺提供影像資源數(shù)據(jù)的綜合統(tǒng)計與資源推薦等。
對多個數(shù)據(jù)源中存儲的遙感數(shù)據(jù)進行元數(shù)據(jù)的獲取、存儲、檢索和發(fā)布等,包括統(tǒng)一多源異構(gòu)元數(shù)據(jù)集成模型、元數(shù)據(jù)拉取與推送、遙感數(shù)據(jù)混合檢索與分析三部分。
為實現(xiàn)數(shù)據(jù)目錄的聚合,首先開放數(shù)據(jù)的元數(shù)據(jù)標準及目錄清單的描述規(guī)范[8]。目前國內(nèi)外的常用元數(shù)據(jù)制定標準尚未統(tǒng)一,這些不同來源的遙感元數(shù)據(jù)對于實現(xiàn)目錄聚合造成了極大的困難。因此本文目的是設(shè)計一個廣泛接受的元數(shù)據(jù)統(tǒng)一集成模型[9],提升元數(shù)據(jù)集成的可用性,可保證在目錄集成時采用最低程度的工作程度,并確保數(shù)據(jù)目錄信息的可用性和安全性[10]。
NASA 所設(shè)計的UMM[11]提供了較權(quán)威的映射標準。UMM 是一個可擴展的元數(shù)據(jù)模型,將遙感元數(shù)據(jù)分為六類,分別是顆粒元數(shù)據(jù)、服務(wù)元數(shù)據(jù)、集合元數(shù)據(jù)、可視化元數(shù)據(jù)、未來元數(shù)據(jù)概念、可變元數(shù)據(jù),為CMR(Common Metadata Repository)支持的元數(shù)據(jù)標準之間的映射提供了交叉的途徑,無需創(chuàng)建每個CMR 支持的元數(shù)據(jù)標準之間的映射,而是將每個標準集中地映射到UMM。本研究基于UMM 中的顆粒元數(shù)據(jù)UMM-G(Granule Metadata)統(tǒng)一元數(shù)據(jù)模型的理念與ISO 19115-2:2009 地理元數(shù)據(jù)標準,針對遙感元數(shù)據(jù)的特點,建立一個統(tǒng)一的遙感元數(shù)據(jù)標準格式,從需求方使用的角度出發(fā),包括數(shù)據(jù)主題、數(shù)據(jù)集、遙感衛(wèi)星、傳感器和數(shù)據(jù)文件等。具體遙感元數(shù)據(jù)集成模型類圖如圖3所示。
圖3 元數(shù)據(jù)集成模型類圖
遙感數(shù)據(jù)資源目錄管理平臺在進行主動拉取或被動接收數(shù)據(jù)時會周期性地啟動守護采集進程。并且能夠運用不同的網(wǎng)絡(luò)協(xié)議適應(yīng)不同的數(shù)據(jù)來源網(wǎng)站。遙感元數(shù)據(jù)獲取的架構(gòu)包括了主節(jié)點和多個工作節(jié)點。資源管理平臺與主節(jié)點進行交互,主節(jié)點與其他模塊進行通信。主節(jié)點和工作節(jié)點通過gRPC(一種RPC框架)進行通信。任務(wù)通過主節(jié)點上的任務(wù)調(diào)度器進行調(diào)度分發(fā),并被工作節(jié)點上的任務(wù)處理模塊接收,分配到任務(wù)執(zhí)行器中。任務(wù)執(zhí)行器實際上是執(zhí)行元數(shù)據(jù)獲取程序的進程,通過gRPC 從不同數(shù)據(jù)源獲取元數(shù)據(jù)到主節(jié)點上。
元數(shù)據(jù)獲取主動方式是主節(jié)點內(nèi)的定時器會主動啟動對數(shù)據(jù)源網(wǎng)站就行采集。被動方式是各數(shù)據(jù)源在中心完成注冊,包括權(quán)限信息、元數(shù)據(jù)的正則約定等。在“推拉”的過程會進行預(yù)校驗,通過預(yù)設(shè)的文件類型集合對新增元數(shù)據(jù)進行類型檢查和完整性檢查,失敗的數(shù)據(jù)文件會重新進入隊列等待重試,最后根據(jù)全局數(shù)據(jù)模型和面向異構(gòu)遙感元數(shù)據(jù)的轉(zhuǎn)換規(guī)則進行數(shù)據(jù)攝取。此外,在保證數(shù)據(jù)集成增量的同時防止對己經(jīng)歸檔的數(shù)據(jù)重復(fù)攝取,工作節(jié)點需要通過與主節(jié)點確認是否己經(jīng)歸檔,若未歸檔則將遙感元數(shù)據(jù)歸檔進容器中。并由Elasticsearch 對海量的遙感元數(shù)據(jù)進行實時的分布式存儲、搜索和分析。完成元數(shù)據(jù)的分布式檢索,達到數(shù)據(jù)服務(wù)的高質(zhì)量和高效率的目的。遙感元數(shù)據(jù)獲取架構(gòu)如圖4所示。
圖4 遙感元數(shù)據(jù)獲取架構(gòu)
隨著對遙感影像數(shù)據(jù)的不斷獲取,數(shù)據(jù)中心將存儲海量的遙感元數(shù)據(jù)資源。如中國遙感衛(wèi)星地面站貯存的數(shù)據(jù)總量超400 萬條[12],地球觀測系統(tǒng)EOS 日采集的數(shù)據(jù)量以4TB 的增速增長[13]。中科院地理空間數(shù)據(jù)云存儲了超過300TB 的數(shù)據(jù)[14]。面對如此龐大的數(shù)據(jù)量對多源異構(gòu)的遙感元數(shù)據(jù)進行統(tǒng)一存儲勢必會帶來檢索、管理、處理和分析上的難題。目前傳統(tǒng)的遙感影像元數(shù)據(jù)使用的管理數(shù)據(jù)庫為關(guān)系型或非關(guān)系型進行存儲和查詢。
使用較廣泛的搜索引擎中間件和關(guān)系型數(shù)據(jù)庫主要以空間索引Geohash[15]和PostgreSQL 使用的R 樹[16]空間索引。傳統(tǒng)的單服務(wù)器具有無法滿足海量影像數(shù)據(jù)的存儲和高效的使用混合索引等缺陷。隨著非關(guān)系型數(shù)據(jù)庫技術(shù)的高速發(fā)展,基于其的分布式存儲與檢索是解決海量數(shù)據(jù)存儲分析較好的一種方式。Elasticsearch分布式搜索引擎作為其中的佼佼者,目前業(yè)界通常都會使用其處理數(shù)據(jù)的檢索、存儲和展示[17]。
3.3.1 實驗內(nèi)容
本文為驗證不同空間檢索平臺的查詢效率,同時解決單機并發(fā)處理能力有限、容錯率低、計算能力低等缺點。搭建基于Citus 的PostgreSQL 集群和Elasticsearch 集群[18~19],使用包括Landsat、Modis 和Sentinel 等遙感元數(shù)據(jù)作為實驗數(shù)據(jù)。將城市級100 萬條數(shù)據(jù)、區(qū)域級600 萬條數(shù)據(jù)、全球級1000萬條的數(shù)據(jù)進行數(shù)據(jù)抽取、清洗、空間數(shù)據(jù)轉(zhuǎn)換最終添加到混合索引庫中,進行intersects 空間操作,查詢數(shù)據(jù)是否與特定索引形狀相交。
3.3.2 實驗環(huán)境
1)Elasticsearch 集群:4 臺配置相同的操作系統(tǒng):Centos7.6;CPU:3.20GHz;內(nèi)存:4GB。
2)PostgreSQL 集群:4 臺配置相同的操作系統(tǒng):Centos7.6;CPU:3.20GHz;內(nèi)存:4GB。
3)運行環(huán)境:Node:v16.10.0。
3.3.3 實驗結(jié)果
本文在選取實驗數(shù)據(jù)后,提取影像元數(shù)據(jù)并選擇了不同空間尺度參數(shù),以此為變量設(shè)計了多組實驗,進行不同條件下的檢索效率實驗,并對實驗結(jié)果進行對比分析。效率對比如圖5、6、7。
圖5 城市級查詢效率對比圖
圖6 區(qū)域級查詢效率對比圖
綜合三組實驗結(jié)果顯示Elasticsearch集群檢索速度在不同文本-空間維度的數(shù)量級的擴大帶來的影響不大,檢索效率均優(yōu)于傳統(tǒng)遙感領(lǐng)域常用的PostgreSQL 數(shù)據(jù)庫集群,其本質(zhì)在于Elasticsearch的倒排索引檢索效率遠高于B樹[20]索引。
大規(guī)模遙感數(shù)據(jù)資源目錄技術(shù)已經(jīng)實際應(yīng)用到項目遙感數(shù)據(jù)采集與管理平臺。平臺的主界面包括目錄服務(wù)、目錄發(fā)布、專題目錄和數(shù)據(jù)統(tǒng)計。遙感數(shù)據(jù)源包括(美國國家航空航天局大氣數(shù)據(jù)中心、歐洲航天局哨兵站點、美國地質(zhì)勘探局等來自許多國家不同組織機構(gòu)),數(shù)據(jù)主題包括災(zāi)害、大氣、生態(tài)、水體、氣象等24個主題。如圖8所示??墒褂脭?shù)據(jù)集、空間范圍、時間范圍和定位服務(wù)等分類對檢索的數(shù)據(jù)進一步的排序或過濾。
圖8 數(shù)據(jù)資源目錄檢索頁面
本文提出了一套大規(guī)模遙感數(shù)據(jù)資源目錄系統(tǒng)的研究方法,充分考慮如何對國內(nèi)外公開免費的遙感數(shù)據(jù)源、合作數(shù)據(jù)源等多源異構(gòu)遙感數(shù)據(jù)源所提供的元數(shù)據(jù)進行共享方法研究。首先為元數(shù)據(jù)提供獲取方法和工具,進而將多源元數(shù)據(jù)建立統(tǒng)一模型并匯總到平臺。借助分布式搜索引擎框架ELK優(yōu)勢,提高元數(shù)據(jù)檢索的效率。最后利用成熟的WEBGIS 技術(shù)對獲取到的遙感元數(shù)據(jù)進行發(fā)布和應(yīng)用。兼顧實用性和擴展性,其效果已在實際系統(tǒng)中得到驗證與改進。未來將在遙感影像數(shù)據(jù)檢索技術(shù)優(yōu)化的研究基礎(chǔ)上,通過引入自然語言處理方法,考慮基于語義的數(shù)據(jù)檢索方法,在面對遙感影像數(shù)據(jù)的存儲、管理、檢索和發(fā)布等問題時能夠滿足遙感影像數(shù)據(jù)的快速檢索和更加人性化的WEB服務(wù)。