国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop分布式系統(tǒng)的地質(zhì)環(huán)境大數(shù)據(jù)框架探討

2018-08-02 06:20任曉霞喻孟良張鳴之陳一超韓明偉曾青石
關(guān)鍵詞:結(jié)構(gòu)化環(huán)境

任曉霞,喻孟良,張鳴之,陳一超,韓明偉,曾青石

(中國地質(zhì)環(huán)境監(jiān)測院,北京 100081)

0 引言

地質(zhì)環(huán)境數(shù)據(jù)包括地質(zhì)災(zāi)害、地下水、礦山地質(zhì)環(huán)境、地質(zhì)遺跡、水土地質(zhì)環(huán)境等業(yè)務(wù)的調(diào)查與監(jiān)測數(shù)據(jù),可為國家重大戰(zhàn)略、資源合理開發(fā)、環(huán)境保護和生態(tài)文明建設(shè)等提供有力數(shù)據(jù)支撐。近年來,國土資源部和中國地質(zhì)調(diào)查局等在國土資源信息化方面的工作不斷深入,“數(shù)字國土工程”、“金土工程”、“地質(zhì)調(diào)查項目”、“國家地下水監(jiān)測工程”等的實施,積累了海量地質(zhì)環(huán)境數(shù)據(jù)資料[1-2]。如已經(jīng)完成的1∶10萬縣市地質(zhì)災(zāi)害調(diào)查數(shù)據(jù)、全國1∶20萬區(qū)域水文地質(zhì)調(diào)查數(shù)據(jù)和正在進行的國家地下水監(jiān)測數(shù)據(jù)、1∶5萬地質(zhì)災(zāi)害詳查數(shù)據(jù)、1∶5萬水文地質(zhì)調(diào)查數(shù)據(jù)以及1∶5萬環(huán)境地質(zhì)調(diào)查數(shù)據(jù)等。這些地質(zhì)環(huán)境數(shù)據(jù)具有涉及領(lǐng)域多、數(shù)據(jù)格式多樣、數(shù)據(jù)量大、數(shù)據(jù)更新快等特點,數(shù)據(jù)本身主要包含結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)[3]。

但同時,隨著業(yè)務(wù)管理和新技術(shù)的不斷發(fā)展,原有的地質(zhì)環(huán)境數(shù)據(jù)管理和應(yīng)用模式面臨新的需求,主要表現(xiàn)在:

(1)多源異構(gòu)數(shù)據(jù)的集成管理需求。各類地質(zhì)環(huán)境數(shù)據(jù)的生產(chǎn)來源不同,相應(yīng)的數(shù)據(jù)格式多樣。如何滿足多源、異構(gòu)數(shù)據(jù)的統(tǒng)一高效管理成為亟需解決的問題。

(2)地質(zhì)環(huán)境數(shù)據(jù)高效率存儲管理需求。隨著業(yè)務(wù)的不斷發(fā)展,傳統(tǒng)的單服務(wù)器存儲已經(jīng)不能滿足快速增長的業(yè)務(wù)需求。如何將多源、量大、應(yīng)用復(fù)雜的數(shù)據(jù)進行高效存儲管理迫在眉睫。

(3)海量數(shù)據(jù)的數(shù)據(jù)挖掘與展示需求。地質(zhì)環(huán)境數(shù)據(jù)通過不斷的積累,產(chǎn)生了海量數(shù)據(jù),如何從海量數(shù)據(jù)中進行挖掘并提取有價值的數(shù)據(jù)以及進行可視化展示也是亟需解決的問題。

(4)數(shù)據(jù)快速識別與組裝要求。根據(jù)用戶要求進行用戶數(shù)據(jù)定制,對數(shù)據(jù)進行組裝與分發(fā),滿足地質(zhì)環(huán)境多專題數(shù)據(jù)的個性化定制要求。

(5)地質(zhì)環(huán)境信息服務(wù)的新需求。地質(zhì)環(huán)境數(shù)據(jù)種類繁多、數(shù)據(jù)產(chǎn)生量飛速增長、應(yīng)用復(fù)雜等特點,給地質(zhì)環(huán)境信息服務(wù)提出新挑戰(zhàn)。同時,經(jīng)濟社會發(fā)展對地質(zhì)環(huán)境信息服務(wù)提出了全方位需求[4]。

近年來,隨著虛擬化、云計算等信息技術(shù)的飛速發(fā)展,全球數(shù)據(jù)量飛速增長,人類已經(jīng)進入了大數(shù)據(jù)時代。大數(shù)據(jù)技術(shù)吸引了企業(yè)、政府、學(xué)術(shù)界等高度重視。Google公司設(shè)計開發(fā)了GFS(Google file system)分布式文件系統(tǒng)和BigTable非關(guān)系數(shù)據(jù)庫[5]。2012年3月美國政府公布的“大數(shù)據(jù)研究和發(fā)展倡議”[6]使“大數(shù)據(jù)研發(fā)計劃”成為國家層面的指導(dǎo)文件。2005年,Apache受Google GFS的啟發(fā),提出了Hadoop大數(shù)據(jù)框架,并在各個行業(yè)得到廣泛應(yīng)用[4]。馬友忠等[7]提出了云數(shù)據(jù)管理索引技術(shù),李超嶺等[8]提出了智能地質(zhì)調(diào)查體系。但是,目前所形成的大數(shù)據(jù)技術(shù)主要應(yīng)用于互聯(lián)網(wǎng)文本搜索、商品推薦、Hadoop算法改進、地質(zhì)調(diào)查應(yīng)用體系等領(lǐng)域,在地質(zhì)環(huán)境領(lǐng)域大數(shù)據(jù)技術(shù)應(yīng)用相對較少。

隨著新技術(shù)的不斷發(fā)展,如何借鑒大數(shù)據(jù)技術(shù),加快地質(zhì)環(huán)境數(shù)據(jù)的集成管理與信息挖掘,以滿足社會各界對地質(zhì)環(huán)境信息日益增長的需求是接受大數(shù)據(jù)時代對地質(zhì)環(huán)境信息服務(wù)提出的機遇與挑戰(zhàn)。為此,本文基于大數(shù)據(jù)技術(shù),分析了地質(zhì)環(huán)境大數(shù)據(jù)特點,討論了地質(zhì)環(huán)境數(shù)據(jù)集成大數(shù)據(jù)框架和關(guān)鍵問題,為今后大數(shù)據(jù)技術(shù)在地質(zhì)環(huán)境領(lǐng)域應(yīng)用提供參考。

1 地質(zhì)環(huán)境大數(shù)據(jù)特征分析

大數(shù)據(jù)(Big Data)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn),具有4V特點[9-10]。

(1)數(shù)據(jù)量大(Volume)。第一個特征是數(shù)據(jù)量大,包括采集、存儲和計算的量都非常大。

(2)類型繁多(Variety)。第二個特征是種類和來源多樣化。大數(shù)據(jù)包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),具體表現(xiàn)為網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等等。

(3)價值密度低(Value)。第三個特征是數(shù)據(jù)價值密度相對較低,或者說是浪里淘沙卻又彌足珍貴。隨著互聯(lián)網(wǎng)以及物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,信息海量,但價值密度較低。如何結(jié)合業(yè)務(wù)邏輯并通過強大的機器算法來挖掘數(shù)據(jù)價值,是大數(shù)據(jù)時代最需要解決的問題。

(4)速度快時效高(Velocity)。第四個特征數(shù)據(jù)增長速度快,處理速度也快,時效性要求高。比如搜索引擎要求幾分鐘前的新聞能夠被用戶查詢到,個性化推薦算法盡可能要求實時完成推薦。這是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)挖掘的顯著特征。

地質(zhì)環(huán)境數(shù)據(jù)主要產(chǎn)生于基礎(chǔ)地質(zhì)、水文地質(zhì)、環(huán)境地質(zhì)、工程地質(zhì)、地質(zhì)災(zāi)害等相應(yīng)的調(diào)查、監(jiān)測以及科研過程中,包括地質(zhì)災(zāi)害、地下水、礦山地質(zhì)環(huán)境、地質(zhì)遺跡、水土地質(zhì)環(huán)境等業(yè)務(wù)的各類數(shù)據(jù)資源。地質(zhì)環(huán)境主要數(shù)據(jù)情況見表1。

由表1可知,地質(zhì)環(huán)境數(shù)據(jù)類型各異、數(shù)據(jù)格式不同,總體可分為結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化。隨著地質(zhì)環(huán)境信息化的不斷深入,地質(zhì)環(huán)境數(shù)據(jù)的數(shù)據(jù)量飛速增長,數(shù)據(jù)量大,數(shù)據(jù)種類繁多,除了傳統(tǒng)的MapGIS和ArcGIS矢量數(shù)據(jù)、關(guān)系型數(shù)據(jù)庫、空間數(shù)據(jù)庫、地質(zhì)報告、圖件、表格外,也出現(xiàn)了大量圖片和視頻等格式的數(shù)據(jù)。數(shù)據(jù)本身價值大但提取難度大,監(jiān)測數(shù)據(jù)時效高更新速度快。地質(zhì)環(huán)境數(shù)據(jù)這些特點符合大數(shù)據(jù)的4V特點,是時空大數(shù)據(jù)[9]。

地質(zhì)環(huán)境大數(shù)據(jù)的上述特征,決定了其存儲管理、挖掘處理和服務(wù)應(yīng)用方式的特殊性和挑戰(zhàn)性。為充分發(fā)揮地質(zhì)環(huán)境大數(shù)據(jù)的作用,解決當(dāng)前地質(zhì)環(huán)境面臨的困難和問題,應(yīng)充分利用大數(shù)據(jù)技術(shù),采用大數(shù)據(jù)的存儲管理體系架構(gòu)對數(shù)據(jù)進行存儲管理和分析處理,分析地質(zhì)環(huán)境哪些方面的應(yīng)用或者算法適合改造為大數(shù)據(jù)環(huán)境下的算法,以提高系統(tǒng)的效率和可靠性,進一步提升用戶體驗度和滿意度。

2 地質(zhì)環(huán)境大數(shù)據(jù)總體框架

2.1 設(shè)計目標

針對地質(zhì)環(huán)境大數(shù)據(jù)特點和面臨的需求挑戰(zhàn),地質(zhì)環(huán)境大數(shù)據(jù)框架應(yīng)具能達到以下目標。

(1)支持多源異構(gòu)數(shù)據(jù)的數(shù)據(jù)集成處理

地質(zhì)環(huán)境數(shù)據(jù)來源于不同生產(chǎn)源,大部分數(shù)據(jù)通過調(diào)查與監(jiān)測獲取。其中通過地質(zhì)調(diào)查手段獲得的數(shù)據(jù)主要包括地質(zhì)災(zāi)害縣市調(diào)查數(shù)據(jù)、地質(zhì)災(zāi)害詳查數(shù)據(jù)、水文地質(zhì)調(diào)查數(shù)據(jù)、礦山地質(zhì)環(huán)境摸底調(diào)查數(shù)據(jù)、環(huán)境地質(zhì)調(diào)查數(shù)據(jù)(地質(zhì)遺跡、礦山地質(zhì)環(huán)境、地面沉降等數(shù)據(jù))等,其格式一般為MapGIS和ArcGIS數(shù)據(jù)格式。通過監(jiān)測獲得的數(shù)據(jù)主要包括地下水?dāng)?shù)據(jù)、地質(zhì)災(zāi)害示范區(qū)監(jiān)測數(shù)據(jù)、地面沉降監(jiān)測數(shù)據(jù)等。多源、異構(gòu)、動態(tài)高速增長的數(shù)據(jù)采集與處理,需利用目前主流大數(shù)據(jù)處理技術(shù),完成對數(shù)據(jù)的采集與處理。對于傳統(tǒng)數(shù)據(jù)庫結(jié)構(gòu)數(shù)據(jù),可利用Sqoop開源工具完成從傳統(tǒng)數(shù)據(jù)庫中的地質(zhì)環(huán)境數(shù)據(jù)到Hadoop(如HBase、Hive和HDFS)的數(shù)據(jù)傳遞。Sqoop其架構(gòu)參見圖1。對于非結(jié)構(gòu)化或者半結(jié)構(gòu)化數(shù)據(jù),可利用Avro開源工具完成到Hadoop的存儲和交換。Avro是一個基于二進制數(shù)據(jù)傳輸高性能的中間件,是數(shù)據(jù)序列化的系統(tǒng),適合遠程或者本地大規(guī)模數(shù)據(jù)傳輸。

表1 地質(zhì)環(huán)境主要數(shù)據(jù)情況列表

圖1 Sqoop架構(gòu)示意圖Fig.1 Schematic diagram of sqoop architecture

(2)可擴展的動態(tài)存儲管理方式

大數(shù)據(jù)體量大、速度快、種類多等特征帶來了存儲管理上的質(zhì)變。相對于靜態(tài)、有限的數(shù)據(jù)集,地質(zhì)環(huán)境大數(shù)據(jù)存儲管理系統(tǒng)需要具有可擴展性,以處理動態(tài)增長數(shù)據(jù)的存儲、更新和查詢等問題。云計算技術(shù)通過互聯(lián)網(wǎng)按需進行動態(tài)部署(provision)、配置(configuration)、重新配置(reconfigure)以及取消服務(wù)(deprovision),能夠提供動態(tài)資源池、虛擬化和高可用性的下一代計算平臺[11]。Hadoop是大數(shù)據(jù)處理中常用的軟件框架,它實現(xiàn)了MapReduce 編程模型,能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理,將應(yīng)用程序分割成許多小的工作單元,并把這些單元放到任何集群節(jié)點上執(zhí)行,是具有高可靠性和良好擴展性的分布式系統(tǒng)[12]。HDFS(Hadoop Distributed File System)分布式文件系統(tǒng)、Hadoop MapReduce分布式計算模型和HBase分布式數(shù)據(jù)庫是Hadoop的三大核心技術(shù)。

為此,可充分利用云計算技術(shù)和Hadoop軟件框架,搭建云計算Hadoop平臺,為地質(zhì)環(huán)境行業(yè)提供“私有云”或者“公有云”服務(wù)。

(3)海量數(shù)據(jù)的數(shù)據(jù)挖掘與分析

大數(shù)據(jù)必然要依靠數(shù)據(jù)挖掘,從地質(zhì)環(huán)境數(shù)據(jù)庫或者數(shù)據(jù)倉庫中挖掘出隱含的、非顯見的知識和規(guī)律,以滿足地質(zhì)災(zāi)害防治、環(huán)境保護等領(lǐng)域的應(yīng)用。數(shù)據(jù)挖掘可采用Hive工具完成數(shù)據(jù)分析。Hive是基于Hadoop的一個數(shù)據(jù)倉庫工具,可以將結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,存儲為Hadoop兼容的文件系統(tǒng)(如Amazon S3,HDFS),并提供簡單的SQL查詢功能,可以將SQL語句轉(zhuǎn)換為MapReduce任務(wù)運行。

對于空間數(shù)據(jù),利用ArcGIS 的GIS Tools for Hadoop完成對地質(zhì)環(huán)境空間大數(shù)據(jù)的Hadoop的GIS應(yīng)用等。ArcGIS 提供了一套關(guān)于JAVA的Geometry API,通過這些API,可對存儲在Hadoop的HDFS中數(shù)據(jù)進行處理。

(4)傳統(tǒng)算法的并行處理算法改造

充分利用Hadoop的高效性、高可靠性和高容錯性等優(yōu)點,研究哪些傳統(tǒng)算法適合在Hadoop系統(tǒng)上運行,將其改造為基于Hadoop平臺的并行處理算法。比如,影像數(shù)據(jù)金字塔處理可改進為并行處理算法,查詢某地區(qū)地質(zhì)災(zāi)害受災(zāi)情況排名或者地下水水位下降情況排名等均可使用并行處理算法。

(5)高效的地質(zhì)環(huán)境信息服務(wù)

傳統(tǒng)系統(tǒng)的服務(wù)方式可作為大數(shù)據(jù)平臺下的服務(wù)方式,如數(shù)據(jù)服務(wù)、地圖服務(wù)等。對于數(shù)據(jù)快速識別與組裝需要考慮,以滿足數(shù)據(jù)定制等要求。同時,需考慮數(shù)據(jù)的全文檢索,如使用Lucene或者Nutch等開源搜索引擎包,建立數(shù)據(jù)的全文檢索,以從海量數(shù)據(jù)中快速定位到數(shù)據(jù)。通過數(shù)據(jù)挖掘分析得到的結(jié)果,可利用大數(shù)據(jù)的可視化工具Hue等工具來完成展示。或者將挖掘分析結(jié)果與傳統(tǒng)方式相結(jié)合,如ArcGIS或者MapGIS或者已有地圖平臺等進行地圖展示、地圖瀏覽查詢、三維可視化等。

2.2 總體框架

根據(jù)設(shè)計目標,地質(zhì)環(huán)境大數(shù)據(jù)框架主要采用目前主流大數(shù)據(jù)技術(shù),包括數(shù)據(jù)清洗工具、數(shù)據(jù)序列化工具、分布式數(shù)據(jù)庫、分布式數(shù)據(jù)倉庫、大數(shù)據(jù)文本搜索框架等技術(shù)。利用上述多種技術(shù),對地質(zhì)環(huán)境數(shù)據(jù)、資料文檔、圖件等數(shù)據(jù)進行存儲、組織,經(jīng)過一系列的數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)存儲、分析和挖掘,實現(xiàn)對海量數(shù)據(jù)的大數(shù)據(jù)采集、存儲、分析、管理與服務(wù)應(yīng)用。同時,對于傳統(tǒng)地質(zhì)環(huán)境信息服務(wù)方式進行保留,進行并服務(wù)。其框架設(shè)計見圖2。

圖2 基于Hadoop的地質(zhì)環(huán)境大數(shù)據(jù)框架示意圖Fig.2 Schematic diagram of geological environment big data framework based on Hadoop

(1)基礎(chǔ)設(shè)施層

基于云計算平臺的基礎(chǔ)設(shè)施層可以更方便快捷地管理計算、存儲等資源。基礎(chǔ)設(shè)施層主要用于存放和處理地質(zhì)環(huán)境大數(shù)據(jù)的物理設(shè)施,包括主機、存儲、網(wǎng)絡(luò)設(shè)備等。在云計算環(huán)境下,使用云一體機提供基礎(chǔ)設(shè)施資源池,并且基礎(chǔ)設(shè)施池的計算資源和存儲資源可以動態(tài)伸縮地提供給地質(zhì)環(huán)境內(nèi)部業(yè)務(wù)人員和科研人員使用,以實現(xiàn)資源的整合,大大提高資源利用率。

(2)源數(shù)據(jù)層

主要包含地質(zhì)環(huán)境的結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),如地質(zhì)災(zāi)害、地下水、礦山地質(zhì)環(huán)境等業(yè)務(wù)的調(diào)查與監(jiān)測數(shù)據(jù)以及報告、文檔、圖件等數(shù)據(jù)。

(3)大數(shù)據(jù)資源層

海量地質(zhì)環(huán)境數(shù)據(jù)從原始采集階段到形成地質(zhì)環(huán)境大數(shù)據(jù),需要進行清洗、集成等綜合處理,包括對傳統(tǒng)數(shù)據(jù)庫的清洗與裝載、非結(jié)構(gòu)數(shù)據(jù)的序列化與裝載傳輸?shù)取G逑春蟮臄?shù)據(jù)在進行海量數(shù)據(jù)存儲時,將地質(zhì)環(huán)境數(shù)據(jù)存放到分布式文件系統(tǒng)HDFS/HBase/Hive/Druid中。大數(shù)據(jù)資源層主要負責(zé)對數(shù)據(jù)文件進行并行提取、加載、轉(zhuǎn)換以及存儲。

(4)數(shù)據(jù)分析處理層

數(shù)據(jù)分析處理層對地質(zhì)環(huán)境數(shù)據(jù)建立列索引,進行數(shù)據(jù)識別、全文檢索、GIS空間分析等操作,然后再利用可視化工具將分析挖掘的結(jié)果進行顯示。數(shù)據(jù)識別可借助HBase列索引也可借助全文檢索引擎Lucene或者Nutch。GIS空間分析可使用ArcGIS Tool for Hadoop工具包進行分析處理。數(shù)據(jù)識別、全文檢索等技術(shù)能從海量數(shù)據(jù)中提取蘊含的地質(zhì)環(huán)境信息知識,可視化工具如Hue將結(jié)果進行展示分析。

(5)應(yīng)用服務(wù)層

通過大數(shù)據(jù)分析技術(shù)獲取的結(jié)構(gòu)可進行可視化、地圖服務(wù)、統(tǒng)計分析結(jié)果展示、數(shù)據(jù)定制等服務(wù)。對于獲取的大數(shù)據(jù)結(jié)果也可結(jié)合傳統(tǒng)地質(zhì)環(huán)境信息服務(wù)模式,利用Sqoop、Avro等工具將大數(shù)據(jù)分析結(jié)果導(dǎo)出與傳統(tǒng)服務(wù)平臺進行對接,從而豐富服務(wù)方式。

3 應(yīng)用場景展現(xiàn)

結(jié)合地質(zhì)環(huán)境實際數(shù)據(jù)情況(表1),考慮目前地質(zhì)環(huán)境各方面的需求和實際應(yīng)用情況,利用地質(zhì)環(huán)境大數(shù)據(jù)框架,可有如下幾個方面應(yīng)用。

3.1 查詢統(tǒng)計分析類應(yīng)用場景

場景1描述:

對某地下水水位監(jiān)測點一定時間段內(nèi)的水位數(shù)據(jù)情況查詢統(tǒng)計,也可對某地區(qū)內(nèi)一定時間段內(nèi)的水位數(shù)據(jù)情況查詢統(tǒng)計,從而獲取特定地區(qū)特定時間段內(nèi)水位變化特征。

大數(shù)據(jù)處理流程:

地下水動態(tài)調(diào)查和動態(tài)監(jiān)測數(shù)據(jù),目前格式均為結(jié)構(gòu)化數(shù)據(jù)??衫肧qoop工具對原始數(shù)據(jù)進行清洗裝載到Hadoop的Hive中或者HBase中,然后進行數(shù)據(jù)查詢統(tǒng)計。

其他應(yīng)用場景跟場景1類似的,均可采用以上處理過程,例如地質(zhì)災(zāi)害縣市調(diào)查屬性數(shù)據(jù)(MS Access結(jié)構(gòu)化數(shù)據(jù))涉及到的查詢統(tǒng)計分析類。

3.2 基于地理位置查詢數(shù)據(jù)類應(yīng)用場景

場景2描述:

地質(zhì)災(zāi)害數(shù)據(jù)可根據(jù)位置信息或者地理位置名稱或者區(qū)域查詢發(fā)生的地質(zhì)災(zāi)害數(shù)據(jù)。

大數(shù)據(jù)處理流程:

已有地質(zhì)災(zāi)害縣市調(diào)查數(shù)據(jù)格式均為結(jié)構(gòu)化數(shù)據(jù)??衫肧qoop工具對原始數(shù)據(jù)清洗裝載到Hadoop的Hive中或者HBase中,基于地理位置名稱或者經(jīng)緯度進行數(shù)據(jù)查詢或者數(shù)據(jù)定位。

若利用已有報告類數(shù)據(jù),如地質(zhì)災(zāi)害通報數(shù)據(jù),則需要利用Avro工具對原始數(shù)據(jù)進行序列化后提取有效信息存入HBase中,利用Lucene建立全文索引,基于文本進行數(shù)據(jù)查詢。

3.3 并行處理類應(yīng)用場景

場景3描述:

影像數(shù)據(jù)的金字塔并行處理。

大數(shù)據(jù)處理流程:

影像數(shù)據(jù)格式為非結(jié)構(gòu)化數(shù)據(jù)??衫肁vro工具對原始小的數(shù)據(jù)進行合并序列化后,存儲到HDFS中,再利用MapReduce改進金字塔處理算法以便進行并行處理。

場景4描述:

大數(shù)據(jù)分析驗證采集數(shù)據(jù)正確性或者各項數(shù)據(jù)指標關(guān)聯(lián)性或者預(yù)測數(shù)據(jù)分布趨勢。

4 結(jié)語

地質(zhì)環(huán)境數(shù)據(jù)資料為國家的寶貴財富,符合地質(zhì)環(huán)境大數(shù)據(jù)特點。本文以地質(zhì)環(huán)境數(shù)據(jù)為例,提出了地質(zhì)環(huán)境大數(shù)據(jù)設(shè)計目標,并基于當(dāng)前主流大數(shù)據(jù)技術(shù),設(shè)計了地質(zhì)環(huán)境大數(shù)據(jù)框架,該框架為后續(xù)地質(zhì)環(huán)境大數(shù)據(jù)平臺建設(shè)實施提供了技術(shù)參考和思路。今后,通過建立地質(zhì)環(huán)境大數(shù)據(jù)平臺,地質(zhì)環(huán)境大數(shù)據(jù)應(yīng)用主要表現(xiàn)以下幾個方面。

(1)地圖瓦片等數(shù)據(jù)并行處理。地圖瓦片、遙感影像等數(shù)據(jù)預(yù)處理可改造為大數(shù)據(jù)并行處理算法,以充分減少處理時間,提高數(shù)據(jù)發(fā)布效率。

(2)多區(qū)域、多維度數(shù)據(jù)綜合分析。數(shù)據(jù)識別使用列索引,將數(shù)據(jù)作多種數(shù)據(jù)標簽,從而加快數(shù)據(jù)跨區(qū)域、跨時間等分析,如進行多維數(shù)據(jù)的關(guān)聯(lián)分析等。

(3)全文檢索的高效數(shù)據(jù)定位。利用全文檢索的大數(shù)據(jù)工具,提高數(shù)據(jù)查詢效率,做到數(shù)據(jù)快速定位。

參考文獻:

[1] 劉曉慧, 吳信才, 羅顯剛. 面向?qū)ο蟮牡刭|(zhì)災(zāi)害數(shù)據(jù)模型與時空過程表達[J]. 武漢大學(xué)學(xué)報(信息科學(xué)版), 2013,38(8): 958-962.

LIU Xiaohui, WU Xincai, LUO Xiangang. Object-oriented geological disaster data model and spatio-temporal process expression[J].Geomatics and Information Science of Wuhan University, 2013,38(8): 958-962.

[2] 任曉霞, 曾青石, 喻孟良, 等. 地質(zhì)環(huán)境數(shù)據(jù)交換與共享思路探討[J]. 國土資源信息化, 2015, (4):17-22.

REN Xiaoxia, ZENG Qingshi, YU Mengliang, et al. Discussion of geological environment data exchange and sharing schema idea[J]. Land and Resources Informatization, 2015, (4): 17-22.

[3] 喻孟良, 任曉霞, 曾青石, 等. 地質(zhì)環(huán)境數(shù)據(jù)集成方法探討及實例應(yīng)用[J]. 中國地質(zhì)災(zāi)害與防治學(xué)報, 2016, 27(4):103-108.

YU Mengliang, REN Xiaoxia, ZENG Qingshi, et al. Discussion and application of data integration method for geological environment data [J].The Chinese Journal of Geological Hazard and Control, 2016,27(4):103-108.

[4] 鄭嘯, 李景超, 王翔, 等. 大數(shù)據(jù)背景下的國家地質(zhì)信息服務(wù)系統(tǒng)建設(shè)[J]. 地質(zhì)通報, 2015, 34(7):1316-1322.

ZHENG Xiao, LI Jingchao, WANG Xiang, et al. Construction of the national geological information service system in the age of big data[J].Geological Bulletin of China, 2015, 34(7):1316-1322.

[5] Ghemawat S, Gobioff H, Leung S T. The Google file system[C]//ACM SIGOPS Operating Systems Review. ACM, 2003, 37(5): 29-43.

[6] Office of Science and Technology Policy.Fact Sheet:Big Data Across the Federal Government lEB/OLj(2012—03—29)[2014—09—09]http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_fact_sheet_final. Pdf.2012.

[7] 馬友忠, 孟小峰. 云數(shù)據(jù)管理索引技術(shù)研究[J]. 軟件學(xué)報, 2015, 26(1):145-166.

MA Youzhong, MENG Xiaofeng. Research on indexing for cloud data management[J]. Journal of Software, 2015, 26(1):145-166.

[8] 李超嶺, 李豐丹, 李健強, 等. 智能地質(zhì)調(diào)查體系與架構(gòu)[J]. 中國地質(zhì), 2015, 42(4): 828-838.

LI Chaoling, LI Fengdan, LI Jianqiang, et al. Smart geological survey architecture [J].Geology in China, 2015, 42(4):828-838.

[9] 吳沖龍, 劉剛, 張夏林, 等. 地質(zhì)科學(xué)大數(shù)據(jù)及其利用的若干問題探討[J]. 科學(xué)通報, 2016, 61(16):1797-1807.

WU Chonglong, LIU Gang, ZHANG Xialin, et al. Discussion on geological science big data and its applications[J]. Chin Sci Bull, 2016, 61: 1797-1807.

[10] 李清泉, 李德仁. 大數(shù)據(jù)GIS[J].武漢大學(xué)學(xué)報(信息科學(xué)版), 2014, 39(6):641-644+666.

LI Qingquan, LI Deren. Big data GIS[J]. Geomatics and Information Science of Wuhan University, 2014, 39(6):641-644+666.

[11] 陳康, 鄭緯民. 云計算:系統(tǒng)實例與研究現(xiàn)狀[J]. 軟件學(xué)報, 2009, 20(5):1337-1348.

CHEN Kang, ZHENG Weimin. Cloud computing: system instances and current research[J]. Journal of Software, 2009, 20(5):1337-1348.

[12] 李敏, 倪少權(quán), 邱小平, 等. 物聯(lián)網(wǎng)環(huán)境下基于上下文的Hadoop大數(shù)據(jù)處理系統(tǒng)模型[J]. 計算機應(yīng)用, 2015, 35(5): 1267-1272.

LI Min, NI Shaoquan, QIU Xiaoping, et al. Hadoop big data processing system model based on context-queue under Internet of things[J]. Journal of Computer Applications, 2015, 35(5): 1267-1272.

猜你喜歡
結(jié)構(gòu)化環(huán)境
長期鍛煉創(chuàng)造體內(nèi)抑癌環(huán)境
一種用于自主學(xué)習(xí)的虛擬仿真環(huán)境
促進知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
改進的非結(jié)構(gòu)化對等網(wǎng)絡(luò)動態(tài)搜索算法
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
孕期遠離容易致畸的環(huán)境
環(huán)境
察隅县| 金溪县| 仙桃市| 黄浦区| 赣州市| 黑河市| 剑河县| 平舆县| 武隆县| 徐水县| 炉霍县| 石台县| 阳新县| 冷水江市| 合作市| 玉山县| 沐川县| 龙里县| 张家界市| 钟山县| 广水市| 沙洋县| 沂南县| 哈尔滨市| 化隆| 灵武市| 安远县| 博客| 阿图什市| 合阳县| 龙游县| 麻栗坡县| 梨树县| 东平县| 南充市| 涞水县| 昌乐县| 临沭县| 桃源县| 安远县| 永泰县|