解鵬飛,劉玉安,趙 輝,朱容娟
(國(guó)家海洋環(huán)境監(jiān)測(cè)中心,遼寧 大連 116023)
基于大數(shù)據(jù)的海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)集成與應(yīng)用
解鵬飛,劉玉安,趙 輝,朱容娟
(國(guó)家海洋環(huán)境監(jiān)測(cè)中心,遼寧大連116023)
面對(duì)多源異構(gòu)的海量數(shù)據(jù)的集成,傳統(tǒng)的集成方法和技術(shù)無法實(shí)現(xiàn),直到大數(shù)據(jù)技術(shù)的出現(xiàn)才有了可能。應(yīng)用大數(shù)據(jù)技術(shù)實(shí)現(xiàn)多源異構(gòu)的海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)集成,有利于海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的共享,避免信息孤島的出現(xiàn),同時(shí)為數(shù)據(jù)的分析、挖掘等提供了所需的數(shù)據(jù)。文中重點(diǎn)討論了基于大數(shù)據(jù)和數(shù)據(jù)虛擬化平臺(tái)技術(shù),參照ODM2信息模型和MMI ORR本體語義框架來實(shí)現(xiàn)多源異構(gòu)的海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的集成問題,并在數(shù)據(jù)集成的基礎(chǔ)上,探討了多源異構(gòu)數(shù)據(jù)查詢、綜合展示應(yīng)用的實(shí)現(xiàn)方法。此研究有利于解決海量海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)管理難題、滿足海洋環(huán)境科研工作者的大數(shù)據(jù)需求、實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策、提升海洋環(huán)境管理水平。
大數(shù)據(jù);數(shù)據(jù)虛擬化;元數(shù)據(jù);ODM2模型;本體語義框架
自20世紀(jì)70年代至今,我國(guó)的海洋環(huán)境監(jiān)測(cè)體系已基本形成,建成了國(guó)家(海區(qū))、?。ㄖ陛犑小⒆灾螀^(qū))、市、縣四級(jí)海洋環(huán)境監(jiān)測(cè)網(wǎng)絡(luò),開展約8 000多個(gè)監(jiān)測(cè)站位的現(xiàn)場(chǎng)監(jiān)測(cè),在我國(guó)管轄的300萬km2海域開展岸基站、船舶、飛機(jī)、衛(wèi)星、浮標(biāo)、雷達(dá)、智能終端等多種手段監(jiān)測(cè)工作,每年獲得各類監(jiān)測(cè)數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù))約200余萬條,此外還包括:遙感數(shù)據(jù)(僅國(guó)家海洋環(huán)境監(jiān)測(cè)中心近幾年遙感影像加工產(chǎn)品就接近70 TB),其它業(yè)務(wù)化系統(tǒng)、實(shí)驗(yàn)室、數(shù)值模型、檔案系統(tǒng)的長(zhǎng)尾科學(xué)數(shù)據(jù),雖然每個(gè)數(shù)據(jù)集合在規(guī)模上并不大(一般不會(huì)超過1 TB),但這種小數(shù)據(jù)集合數(shù)眾多且異構(gòu)性強(qiáng),它們匯聚后的規(guī)模和復(fù)雜性都不容小覷。
海量的海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)(以下簡(jiǎn)稱:監(jiān)測(cè)數(shù)據(jù)),加上其多源性、多態(tài)性、多時(shí)相的特性,使監(jiān)測(cè)數(shù)據(jù)成為了大數(shù)據(jù)。大數(shù)據(jù)時(shí)代的一個(gè)重要任務(wù)是監(jiān)測(cè)數(shù)據(jù)集成,其意義如下:
(1)從數(shù)據(jù)分析及管理角度來看,這些分散的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的監(jiān)測(cè)數(shù)據(jù),蘊(yùn)藏著大量的信息和知識(shí),但是,目前的海洋監(jiān)測(cè)系統(tǒng)集成一般只是系統(tǒng)的集成,針對(duì)數(shù)據(jù)集成的很少,即使有也只是用傳統(tǒng)的關(guān)系型數(shù)據(jù)為主導(dǎo)的集成方案,這種方式不能滿足多源異構(gòu)數(shù)據(jù)集成和共享的需求,容易導(dǎo)致分析結(jié)果缺乏權(quán)威性、科學(xué)性,最終使管理者的決策缺乏可靠性。
網(wǎng)格技術(shù)在實(shí)現(xiàn)更深層次、更大范圍的資源共享,以及消除數(shù)據(jù)孤島方面發(fā)揮了重要作用,但對(duì)組織成一體的資源如何共享使用上著力不多,在易用性上存在不足[1],云計(jì)算和大數(shù)據(jù)技術(shù)采用分布式計(jì)算模式,克服了網(wǎng)絡(luò)計(jì)算的缺陷,為海量多源異構(gòu)數(shù)據(jù)收集、存儲(chǔ)、集成、共享、分析、決策提供了技術(shù)保障。
(2)從科研者的角度來看,大數(shù)據(jù)時(shí)代科研工作者已經(jīng)不再滿足利用單一的數(shù)據(jù)源和分析方法進(jìn)行研究,而是希望整合來自不同渠道的數(shù)據(jù),從而得到一個(gè)更加全面與宏觀的認(rèn)識(shí),這意味著數(shù)據(jù)集成對(duì)科學(xué)研究至關(guān)重要的需求。
(3)從大數(shù)據(jù)的價(jià)值鏈—大數(shù)據(jù)的發(fā)現(xiàn)(采集、準(zhǔn)備、組織)、集成(數(shù)據(jù)源管理、通用數(shù)據(jù)表示)、數(shù)據(jù)探索(數(shù)據(jù)分析、可視化、決策)[2]來看,大數(shù)據(jù)集成(Big Data Integration,BDI)起著承上啟下的作用,具有非常重要的作用,是目前研究熱點(diǎn)之一。著名信息技術(shù)研究咨詢公司Gartner在其發(fā)布的《2013年數(shù)據(jù)集成工具魔力象限報(bào)告》中表示,對(duì)集成選項(xiàng)功能完整性的需求在快速上漲[3]。
(4)從科學(xué)研究方法論來看,大數(shù)據(jù)時(shí)代,科學(xué)研究更多的是“數(shù)據(jù)驅(qū)動(dòng)的”協(xié)作和跨學(xué)科的,這就是微軟發(fā)布的基于數(shù)據(jù)密集型計(jì)算的科學(xué)研究第四范式[3]。監(jiān)測(cè)數(shù)據(jù)的大數(shù)據(jù)特性和海洋科學(xué)研究工作的跨學(xué)科性需要大數(shù)據(jù)技術(shù)去解決上述場(chǎng)景中遇到的問題,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)透明訪問,統(tǒng)一展示并利用起來。
基于大數(shù)據(jù)技術(shù)對(duì)海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)集成相對(duì)于傳統(tǒng)的數(shù)據(jù)集成有如下優(yōu)勢(shì):
(1)能夠集成多源異構(gòu)的海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)(包括歷史數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù)),并實(shí)現(xiàn)數(shù)據(jù)共享。
(2)大數(shù)據(jù)環(huán)境下,基于數(shù)據(jù)虛擬化技術(shù),利用雙層元數(shù)據(jù)技術(shù)和本體語義框架(海洋相關(guān)的本體語義框架有MMI ORR:Marine Metadata Interoperability project Ontology Registry and Repository[8,13],POKM:PlatformforOceanKnowledgeManagement[31],MarineTLO:Top Level Ontology等)來實(shí)現(xiàn)對(duì)多源異構(gòu)數(shù)據(jù)的快速統(tǒng)一的檢索。
(3)解決海量數(shù)據(jù)管理難題,滿足海洋環(huán)境科研工作者的大數(shù)據(jù)需求,實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)決策,提升海洋環(huán)境管理水平。
本文的組織結(jié)構(gòu)如下:首先,對(duì)大數(shù)據(jù)集成的4個(gè)特性問題與數(shù)據(jù)虛擬化國(guó)內(nèi)外研究現(xiàn)狀展開了研究,提出針對(duì)海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)集成的關(guān)鍵問題;針對(duì)這些關(guān)鍵問題提出大數(shù)據(jù)計(jì)算模式、數(shù)據(jù)虛擬化平臺(tái)、雙層元數(shù)據(jù)、本體主義框架等在海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)集成中的實(shí)現(xiàn)思路和方法;最后給出集成大數(shù)據(jù)集成實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)共享、檢索、綜合展示等應(yīng)用架構(gòu)模式。
面對(duì)海量數(shù)據(jù)的挑戰(zhàn),基于大數(shù)據(jù)的海量數(shù)據(jù)集成與應(yīng)用研究也提到日程上來,從國(guó)內(nèi)外研究成果來看,目前研究主要集中在三方面。
1.1大數(shù)據(jù)集成的4個(gè)特性問題
大數(shù)據(jù)集成與傳統(tǒng)數(shù)據(jù)集成的區(qū)別恰巧體現(xiàn)在大數(shù)據(jù)的4個(gè)特性上[4]。
1.1.1大數(shù)據(jù)維度—量盡管現(xiàn)有關(guān)系型數(shù)據(jù)庫管理工具能處理超量數(shù)據(jù)所需的突發(fā)性需求,但它們并不是大數(shù)據(jù)背景下各類新使用案例的最佳管理者[5]。處理海量的密集型數(shù)據(jù)集成問題,一般的解決方法是采用分布式計(jì)算模型。
Google提出了云計(jì)算的Map/Reduce模型[6],同時(shí),開源的Hadoop[7]為該模型提供了Java實(shí)現(xiàn)。由于MapReduce具有可擴(kuò)展性強(qiáng)、容錯(cuò)性高、編程模型簡(jiǎn)單、成本低,Hadoop已被廣泛應(yīng)用,成為云計(jì)算和大數(shù)據(jù)領(lǐng)域事實(shí)上的標(biāo)準(zhǔn)。
在海洋監(jiān)測(cè)領(lǐng)域,歐洲海洋信息系統(tǒng)(European Marine Information System,EUMIS)實(shí)現(xiàn)了海洋和衛(wèi)星觀測(cè)、現(xiàn)場(chǎng)觀測(cè)、模擬數(shù)據(jù)的搜索、下載,并集成了這些數(shù)據(jù)[8];美國(guó)國(guó)家海洋和大氣管理局(National Oceanic and Atmospheric Administration,NOAA)綜合海洋觀測(cè)系統(tǒng)(The U.S.Integrated Ocean Observing System,IOOS)也實(shí)現(xiàn)了數(shù)據(jù)整合框架(Data integration Framework,DIF)[9],但此框架只是一個(gè)試點(diǎn)項(xiàng)目,集成的數(shù)據(jù)和適用的用戶均有限,2014年2月24日,NOAA宣布了利用RFI(Request for Information)系統(tǒng)實(shí)施大數(shù)據(jù)領(lǐng)域放權(quán)[10],此系統(tǒng)得到信息技術(shù)產(chǎn)業(yè)理事會(huì)同意[11],這標(biāo)志著NOAA也走向了大數(shù)據(jù)管理的道路;我國(guó)的海洋環(huán)境監(jiān)測(cè)體系已基本形成,出現(xiàn)了一些海洋集成應(yīng)用系統(tǒng),比如“863船載海洋生態(tài)環(huán)境現(xiàn)場(chǎng)監(jiān)測(cè)集成示范系統(tǒng)(2001AA635010)”、“航空遙感多傳感器集成與應(yīng)用技術(shù)系統(tǒng)(2001AA633080)”等。這些系統(tǒng)主要是完成了監(jiān)測(cè)手段的系統(tǒng)集成,而對(duì)于綜合的海洋環(huán)境監(jiān)測(cè)系統(tǒng)和數(shù)據(jù)的集成考慮較少,特別是針對(duì)海量監(jiān)測(cè)數(shù)據(jù)的集成的技術(shù)方法并未考慮。
1.1.2大數(shù)據(jù)維度—多樣性在大數(shù)據(jù)技術(shù)支撐下,數(shù)據(jù)分析者除可以分析數(shù)據(jù)庫數(shù)據(jù)外,還可以分析文檔、電子郵件、音頻和視頻等多種類型數(shù)據(jù)。而集成不同類型數(shù)據(jù)的關(guān)鍵是使用元數(shù)據(jù)“標(biāo)簽”,對(duì)非結(jié)構(gòu)化數(shù)據(jù)那些可以被鏈接的屬性進(jìn)行“標(biāo)簽”,然后鏈接到數(shù)據(jù)庫中的主鍵和索引,從而將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)融合[5]。
除了在大數(shù)據(jù)中的作用外,元數(shù)據(jù)可以促進(jìn)數(shù)據(jù)集的高效利用,幫助數(shù)據(jù)管理者有效維護(hù)和管理數(shù)據(jù),經(jīng)常用于應(yīng)用系統(tǒng)之間的交互。國(guó)際上已有海洋元數(shù)據(jù),如國(guó)際海洋資料和信息交換(International Ocean Data Exchange,IODE)的海洋環(huán)境數(shù)據(jù)目錄(Marine Environment Data Directory,MEDD),歐洲海洋觀測(cè)系統(tǒng)數(shù)據(jù)目錄(European Directory of the Initial Ocean-observing System,EDIOS)以及海洋數(shù)據(jù)獲取系統(tǒng)(Ocean Data Acquisition System,ODAS)元數(shù)據(jù)等[12]。國(guó)內(nèi),國(guó)家海洋局發(fā)布了《海洋信息元數(shù)據(jù)》行業(yè)標(biāo)準(zhǔn),宋坤、周雪等人依據(jù)此標(biāo)準(zhǔn)提出了一種精簡(jiǎn)的海洋元數(shù)據(jù)模型。
此外,元數(shù)據(jù)交互管理及知識(shí)管理方面也有一些研究和實(shí)際應(yīng)用,比如歐洲海洋信息系統(tǒng)(European Marine Information System,EUMIS)使用基于ontology注冊(cè)和存儲(chǔ)的元數(shù)據(jù)交互項(xiàng)目MMI ORR來識(shí)別和訪問諸如近實(shí)時(shí)、預(yù)測(cè)和歷史海洋觀測(cè)等分布式數(shù)據(jù),此外MMI還采用了觀測(cè)數(shù)據(jù)模型(Observations Data Model version 2,ODM2)。國(guó)內(nèi),Xiong等[14]作了本體技術(shù)在海洋生態(tài)知識(shí)管理方面的應(yīng)用和研究。
1.1.3大數(shù)據(jù)維度—速度隨著海洋環(huán)境監(jiān)測(cè)規(guī)模擴(kuò)大,物聯(lián)網(wǎng)技術(shù)的應(yīng)用,浮標(biāo)、在線傳感設(shè)備等實(shí)時(shí)傳感數(shù)據(jù)處理要求將與日俱增。
數(shù)據(jù)實(shí)時(shí)或近實(shí)時(shí)處理,是大數(shù)據(jù)區(qū)別于傳統(tǒng)海量數(shù)據(jù)處理的重要特性之一,數(shù)據(jù)實(shí)時(shí)處理包括數(shù)據(jù)的實(shí)時(shí)采集、計(jì)算、查詢。
目前,關(guān)于大數(shù)據(jù)研究,主要集中在大數(shù)據(jù)的存儲(chǔ)及分析技術(shù)上,實(shí)時(shí)處理研究很少。Facebook發(fā)表一篇利用HBase/Hadoop進(jìn)行實(shí)時(shí)數(shù)據(jù)處理的論文(Apache Hadoop Goes Real time at Facebook)[15]。沈來信、王偉[16]探討了基于Infobright列式數(shù)據(jù)倉庫和Mysql Cluster分布式集群技術(shù)實(shí)現(xiàn)大數(shù)據(jù)的實(shí)時(shí)并發(fā)分析、管理,但是不足之處是Infobright是分析型數(shù)據(jù)倉庫,而對(duì)操作性數(shù)據(jù)不太適合。
傳統(tǒng)的數(shù)據(jù)倉庫及Hadoop技術(shù)適合大數(shù)據(jù)的批處理,不太適合流數(shù)據(jù)的實(shí)時(shí)處理(如上所述,需和其它技術(shù)結(jié)合)。對(duì)于實(shí)時(shí)數(shù)據(jù)的處理,目前可用的解決方案有Yahoo的“S4”,Twitter的“Storm”,F(xiàn)acebook的“Puma”,其中Storm被廣泛應(yīng)用,有“實(shí)時(shí)的Hadoop”之稱。
此外,隨著云計(jì)算和大數(shù)據(jù)技術(shù)的發(fā)展,新的數(shù)據(jù)虛擬化技術(shù)讓實(shí)時(shí)數(shù)據(jù)集成變得可行,特別是在和數(shù)據(jù)倉庫技術(shù)結(jié)合的情況下,新興的內(nèi)存數(shù)據(jù)存儲(chǔ)技術(shù)以及其他虛擬化方法使快速數(shù)據(jù)集成成為可能,并且不再依賴于數(shù)據(jù)倉庫和數(shù)據(jù)集市等中間形式的中間形式的數(shù)據(jù)存儲(chǔ)。
在這一新領(lǐng)域內(nèi),Hadoop的MapReduce將成為關(guān)鍵的(但并不是唯一的)開發(fā)框架[17]。目前可用的數(shù)據(jù)虛擬化產(chǎn)品有開源的JBoss Data Virtualization 6[18]和Teiid等數(shù)據(jù)虛擬化系統(tǒng)[19]。
1.1.4大數(shù)據(jù)維度—真實(shí)性結(jié)構(gòu)化數(shù)據(jù)在數(shù)據(jù)真實(shí)性(數(shù)據(jù)質(zhì)量)方面可以通過策略管理、數(shù)據(jù)提取轉(zhuǎn)換加載(Extract-Transform-Load,ETL)工具去實(shí)現(xiàn)。
雖然也可以利用結(jié)構(gòu)化數(shù)據(jù)質(zhì)量控制方法去實(shí)現(xiàn)大數(shù)據(jù)質(zhì)量的控制,比如基于元數(shù)據(jù)的質(zhì)量控制方法,ETL等方法。但是大數(shù)據(jù)的多維特性增加了數(shù)據(jù)質(zhì)量控制的難度,傳統(tǒng)的方法無法實(shí)現(xiàn)海量數(shù)據(jù)的質(zhì)量控制,大數(shù)據(jù)質(zhì)量的控制應(yīng)從技術(shù)、管理、數(shù)據(jù)流向控制等多個(gè)方面考慮,大數(shù)據(jù)分析的結(jié)果才更加精準(zhǔn)、可信、可用,才能更好地發(fā)揮大數(shù)據(jù)在科學(xué)研究、管理決策中的作用。目前,關(guān)于大數(shù)據(jù)數(shù)據(jù)質(zhì)量方面的研究相對(duì)較少,成熟的數(shù)據(jù)質(zhì)量控制方法相對(duì)較少。
國(guó)外,Benjamin T.Hazen,ChristopherA.Boone等人提出了在數(shù)據(jù)科學(xué)、數(shù)據(jù)分析和大數(shù)據(jù)的供應(yīng)鏈管理(Supply Chain Management,SCM)中監(jiān)測(cè)和控制數(shù)據(jù)質(zhì)量的方法,提出了基于統(tǒng)計(jì)的過程控制(Statistical Process Control,SPC)的多維度數(shù)據(jù)質(zhì)量控制方法,此外還從交叉學(xué)科的角度探討了大數(shù)據(jù)環(huán)境下,數(shù)據(jù)質(zhì)量的控制的焦點(diǎn)[20]。國(guó)內(nèi),宗威等[21]從流程、管理、技術(shù)等角度探討了大數(shù)據(jù)的質(zhì)量管理,黃冬梅、陳括等人[22]提出“基于塊嵌套循環(huán)的海洋大數(shù)據(jù)質(zhì)量檢驗(yàn)方案選擇算法”。
1.2數(shù)據(jù)虛擬化與大數(shù)據(jù)集成
數(shù)據(jù)集成技術(shù)經(jīng)過幾十年的發(fā)展,如今發(fā)展到第四階段,如圖1所示[23]:
圖1 數(shù)據(jù)集成技術(shù)發(fā)展曲線
傳統(tǒng)的數(shù)據(jù)集成以關(guān)系型數(shù)據(jù)為主,數(shù)據(jù)集成主要技術(shù)依靠于數(shù)據(jù)抽取轉(zhuǎn)換工具(Extract-Transform-Load,ETL)和數(shù)據(jù)倉庫。大數(shù)據(jù)時(shí)代,集成的對(duì)象包括可擴(kuò)展標(biāo)記語言(Extensible Markup Language,XML)、非關(guān)系型數(shù)據(jù)庫(Not Only SQL,NoSql)、文檔、視頻等多源異構(gòu)數(shù)據(jù),集成技術(shù)因此發(fā)生了很大的變化。
數(shù)據(jù)虛擬化是大數(shù)據(jù)集成的解決方案,雖然van derlans等人認(rèn)為數(shù)據(jù)虛擬化與數(shù)據(jù)集成有區(qū)別,但也確認(rèn)了多數(shù)情況下,數(shù)據(jù)虛擬化是為了數(shù)據(jù)集成[24]—數(shù)據(jù)虛擬化方案可以向數(shù)據(jù)使用者提供一個(gè)實(shí)時(shí)集成的數(shù)據(jù)視圖,這個(gè)視圖將來自不同的數(shù)據(jù)整合在一起并轉(zhuǎn)換成所需要的格式。
可以獲取的虛擬化平臺(tái)及方案,開源方面有Pentaho、JBoss、Altamira等多家供應(yīng)商,商業(yè)領(lǐng)域有Informatica、IBM、Oracle、Terracotta等供應(yīng)商[25]。以這些平臺(tái)為基礎(chǔ),有不少應(yīng)用平臺(tái),比如:Oracle的大數(shù)據(jù)平臺(tái)能夠完成多源異構(gòu)數(shù)據(jù)的采集、集成、分析、決策等功能[26];Informatica Big Data Edition專門針對(duì)大數(shù)據(jù)平臺(tái)提供了無需編程整合各種數(shù)據(jù)的功能[27];Altamira公司的Lumify是一個(gè)開源的大數(shù)據(jù)整合、分析和可視化平臺(tái),可以以2D、3D和GIS方式顯示分析結(jié)果[28];SnapLogic Elastic Integration Platform是一個(gè)可以集成各種類型的大數(shù)據(jù)平臺(tái),包括:物聯(lián)網(wǎng)、應(yīng)用app、企業(yè)系統(tǒng)、移動(dòng)等多種數(shù)據(jù)類型[29]。
這些大數(shù)據(jù)集成平臺(tái)基本都基于Hadoop大數(shù)據(jù)技術(shù),采用數(shù)據(jù)虛擬化技術(shù)對(duì)多源異構(gòu)的海量數(shù)據(jù)進(jìn)行整合,且側(cè)重點(diǎn)有所不同。此外集成的大數(shù)據(jù)模式較少,大多數(shù)只有MapReduce和Hive,沒有流式、迭代等其它計(jì)算模式?!按髷?shù)據(jù)集成的4個(gè)特性”一節(jié)提到的相關(guān)學(xué)術(shù)研究,主要集中在數(shù)據(jù)集成技術(shù)或集成模型方面,針對(duì)大數(shù)據(jù)平臺(tái)的集成研究也相對(duì)較少。
1.3大數(shù)據(jù)集成的相關(guān)應(yīng)用
目前業(yè)界已成功搭建了很多基于云環(huán)境的大數(shù)據(jù)計(jì)算平臺(tái),主要專注于大數(shù)據(jù)技術(shù)采集、存儲(chǔ)、集成、分析與挖掘、可視化、大數(shù)據(jù)與云計(jì)算深度融合、人工智能等多個(gè)方向。
大數(shù)據(jù)可以應(yīng)用于互聯(lián)網(wǎng)、金融、環(huán)保、健康、生物等多個(gè)行業(yè)。Vizzuality與GBIF和EOL合作的“Heatmapping Biodiversity”項(xiàng)目整合了超過2億條以上的生物多樣性數(shù)據(jù),且能實(shí)現(xiàn)在全球地圖上自由瀏覽;百度、新浪、淘寶等知名公司應(yīng)用大數(shù)據(jù)技術(shù)于客戶行為分析、應(yīng)用推薦、商業(yè)決策等,這都離不開數(shù)據(jù)集成。這些都表明,大數(shù)據(jù)技術(shù)已經(jīng)相對(duì)成熟,在國(guó)內(nèi)外得到大規(guī)模的應(yīng)用。但是,在海洋環(huán)境保護(hù)領(lǐng)域,大數(shù)據(jù)集成應(yīng)用還是相對(duì)較少。
2.1大數(shù)據(jù)集成關(guān)鍵問題
通過對(duì)大數(shù)據(jù)集成國(guó)內(nèi)外現(xiàn)狀的深入分析,可以得出以下幾個(gè)需要解決的關(guān)鍵問題。
2.1.1大數(shù)據(jù)計(jì)算模式大多數(shù)據(jù)虛擬化平臺(tái)只使用了MapReduce等計(jì)算模式,此模式不適合數(shù)據(jù)寫入頻率高、實(shí)時(shí)性要求高的應(yīng)用。為此需研究如何在數(shù)據(jù)虛擬化平臺(tái)上集成更多的計(jì)算模式(Storm等流式計(jì)算模型,適應(yīng)于實(shí)時(shí)數(shù)據(jù)處理,比如傳感器數(shù)據(jù)的實(shí)時(shí)處理;Spark適合迭代運(yùn)算頻率高的科學(xué)計(jì)算和應(yīng)用)以適應(yīng)不同的應(yīng)用情況。
2.1.2元數(shù)據(jù)相關(guān)技術(shù)國(guó)內(nèi),海洋監(jiān)測(cè)相關(guān)的業(yè)務(wù)系統(tǒng)很少用到數(shù)據(jù)集成技術(shù),而歐美一些國(guó)家在海洋監(jiān)測(cè)方面有較成熟的數(shù)據(jù)集成框架,在某些領(lǐng)域還應(yīng)用到本體語義框架。如何擴(kuò)展并應(yīng)用這些元數(shù)據(jù)技術(shù)到數(shù)據(jù)虛擬化平臺(tái)中去,以解決多源異構(gòu)數(shù)據(jù)的集成及集成中遇到的數(shù)據(jù)質(zhì)量、系統(tǒng)間交互問題,是一個(gè)研究重點(diǎn)。
2.1.3數(shù)據(jù)模型構(gòu)建數(shù)據(jù)虛擬化平臺(tái)主要是通過數(shù)據(jù)模型和配置信息構(gòu)建虛擬數(shù)據(jù)庫,從而實(shí)現(xiàn)訪問層對(duì)多源異構(gòu)數(shù)據(jù)的訪問。所以構(gòu)建一套適用于海洋觀測(cè)的統(tǒng)一數(shù)據(jù)模型,顯得尤為重要,這是一個(gè)需要解決的關(guān)鍵問題。
2.2海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)集成現(xiàn)狀
從1.1.1節(jié)可知,目前海洋環(huán)境監(jiān)測(cè)系統(tǒng)的集成,主要是完成前端監(jiān)測(cè)手段的系統(tǒng)集成,而對(duì)于綜合生綜合的海洋環(huán)境監(jiān)測(cè)系統(tǒng)和數(shù)據(jù)的集成考慮較少,特別是針對(duì)海量監(jiān)測(cè)數(shù)據(jù)的集成的技術(shù)方法并未考慮。
國(guó)外在海洋數(shù)據(jù)集成方面相對(duì)國(guó)內(nèi)來說要成熟些,EUMIS,IOOS均有自己的數(shù)據(jù)整合框架和數(shù)據(jù)模型。比如EUMIS開發(fā)了MMI ORR本體語義框架和ODM2信息模型。IOOS也有自己的DIF數(shù)據(jù)整合框架。
但是基于大數(shù)據(jù)技術(shù)對(duì)多源異構(gòu)的海量海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的集成框架,目前未曾報(bào)道過。
從1.2節(jié)可知,Informatica、Pentaho等眾多的數(shù)據(jù)虛擬化平臺(tái)使用了大數(shù)據(jù)技術(shù),用于大數(shù)據(jù)的集成、分析、可視化展示等應(yīng)用。
可見,借簽國(guó)外海洋環(huán)境數(shù)據(jù)集成框架和相關(guān)數(shù)據(jù)模型,把這些框架和模型集成到數(shù)據(jù)虛擬化平臺(tái),并借助于數(shù)據(jù)虛擬化平臺(tái)對(duì)海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的集成是可行的。
3.1集成相關(guān)的框架和模型
海洋環(huán)境監(jiān)測(cè)系統(tǒng)主要有海洋生態(tài)環(huán)境監(jiān)督管理系統(tǒng)、航空遙感監(jiān)測(cè)系統(tǒng)、衛(wèi)星遙感監(jiān)測(cè)系統(tǒng)、水下無人自動(dòng)監(jiān)測(cè)站監(jiān)測(cè)系統(tǒng)、生態(tài)浮標(biāo)監(jiān)測(cè)系統(tǒng)、海洋環(huán)境常規(guī)監(jiān)測(cè)業(yè)務(wù)系統(tǒng)、海洋常規(guī)水文氣象觀測(cè)業(yè)務(wù)系統(tǒng)等。由于這些數(shù)據(jù)的時(shí)空分布、監(jiān)測(cè)頻率、數(shù)據(jù)格式、空間觀測(cè)尺度及、數(shù)據(jù)復(fù)雜程度等都不一樣,讓海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)集成變得難以實(shí)現(xiàn)。這也是目前海洋監(jiān)測(cè)系統(tǒng)的集成大多數(shù)是前端系統(tǒng)的集成,而在綜合性的海洋觀測(cè)數(shù)據(jù)上的集成很少的原因。
但是大數(shù)據(jù)技術(shù)(Hadoop、Spark、…)、數(shù)據(jù)虛擬化平臺(tái)技術(shù)(Pentaho、Informatica、…)、海洋元數(shù)據(jù)交換標(biāo)準(zhǔn)(EDIOS、ODAS、IOC、…)、海洋觀測(cè)數(shù)據(jù)集成相關(guān)框架(DIF、MMI ORR,POKM、MarineTLO、…),使得海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的集成成為可能。
本體語義框架,可以解決海洋監(jiān)測(cè)領(lǐng)域內(nèi)的概念和術(shù)語上的分歧,使不同的用戶之間可以順暢的溝通和交流并保持語義等效性,同時(shí)讓不同的工具軟件和應(yīng)用系統(tǒng)之間實(shí)現(xiàn)互操作,有助于集成系統(tǒng)的構(gòu)建。MMI ORR框架如圖2所示,MMI ORR和IOOS的DIF可以作為海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)集成的參考框架。
圖2 語義框架主要組件的協(xié)作圖
MMI ORR是面向海洋觀測(cè)的本體主義框架,其使用的ODM2信息模型(如圖3所示)在許多觀測(cè)系統(tǒng)中用到,比如:CUAHSI/HIS,EarthChem,CZOData,IEDA,IOOS(Integrated Ocean Observing System)等,ODM2包含了現(xiàn)場(chǎng)觀測(cè)數(shù)據(jù)、采樣數(shù)據(jù)、傳感數(shù)據(jù)、地理空間數(shù)據(jù)等常見觀測(cè)系統(tǒng)的數(shù)據(jù)模型,這正好滿足了目前海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)常見觀測(cè)數(shù)據(jù)類型。此外,ODM2還有良好的可擴(kuò)展性,可適應(yīng)于具體的觀測(cè)系統(tǒng)數(shù)據(jù)集成應(yīng)用。
圖3 ODM2觀測(cè)信息模型簡(jiǎn)圖
本研究將根據(jù)國(guó)內(nèi)海洋觀測(cè)數(shù)據(jù)的特征,參照一些開源數(shù)據(jù)集成框架和數(shù)據(jù)模型,對(duì)選用的MMI ORR框架和ODM2模型進(jìn)行擴(kuò)展,并集成到選用的大數(shù)據(jù)虛擬化平臺(tái)中去,最終實(shí)現(xiàn)大數(shù)據(jù)技術(shù)背景下,海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的集成。
3.2海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的選擇
根據(jù)ODM2信息模型的分類,從目前國(guó)家海洋環(huán)境監(jiān)測(cè)中心的數(shù)據(jù)庫中選擇有代表性的數(shù)據(jù)進(jìn)行數(shù)據(jù)集成研究。
這些數(shù)據(jù)將包括觀測(cè)數(shù)據(jù)(ODM2中的采樣等數(shù)據(jù))、浮標(biāo)數(shù)據(jù)(ODM2中傳感數(shù)據(jù))、遙感數(shù)據(jù)和地理信息系統(tǒng)數(shù)據(jù)(ODM2的地理空間數(shù)據(jù))及其它數(shù)據(jù)(ODM2其它類型數(shù)據(jù))。
由于數(shù)據(jù)量大、類型復(fù)雜,研究將從海洋環(huán)境監(jiān)測(cè)相關(guān)數(shù)據(jù)庫中的生態(tài)環(huán)境、污染源、海洋災(zāi)害與風(fēng)險(xiǎn)、社會(huì)調(diào)查、監(jiān)測(cè)資料(監(jiān)測(cè)報(bào)告、遙感影像、圖像、視頻、專題圖件等)、浮標(biāo)監(jiān)測(cè)數(shù)據(jù)中選擇現(xiàn)場(chǎng)觀測(cè)數(shù)據(jù)、實(shí)時(shí)觀測(cè)數(shù)據(jù)、地理觀測(cè)數(shù)據(jù)作為數(shù)據(jù)集成對(duì)象(包括半結(jié)構(gòu)化、非結(jié)構(gòu)數(shù)數(shù)據(jù),比如圖片、影像、檔案資料)。
4.1大數(shù)據(jù)計(jì)算模式集成
Hadoop的MapReduce計(jì)算模式只適合離線歷史數(shù)據(jù)的批處理情形,在監(jiān)測(cè)數(shù)據(jù)集成時(shí),經(jīng)常需要對(duì)表1中的計(jì)算模式進(jìn)行選擇。
表1 典型大數(shù)據(jù)計(jì)算模式與系統(tǒng)
需根據(jù)現(xiàn)場(chǎng)觀測(cè)、實(shí)時(shí)傳感和遙感數(shù)據(jù)中不同的數(shù)據(jù)處理需求,選擇需要的大數(shù)據(jù)計(jì)算模式,然后利用Mesos、Yarn等資源管理框架把這些模式集成到數(shù)據(jù)虛擬化平臺(tái)中去。
4.2元數(shù)據(jù)研究
元數(shù)據(jù)的“標(biāo)簽”功能可以很好地把多源異構(gòu)的監(jiān)測(cè)數(shù)據(jù)有效地聯(lián)系起來,從而實(shí)現(xiàn)大數(shù)據(jù)集成,元數(shù)據(jù)包含4個(gè)層次,用戶數(shù)據(jù)→元數(shù)據(jù)(模型)→元模型→本體(元—元模型),因此研究?jī)?nèi)容主要如下。
4.2.1元數(shù)據(jù)標(biāo)準(zhǔn)由于數(shù)據(jù)虛擬化平臺(tái)自帶元數(shù)據(jù)組件,可以實(shí)現(xiàn)數(shù)據(jù)源的元數(shù)據(jù)自動(dòng)導(dǎo)入、存儲(chǔ)和管理等功能,所以元數(shù)據(jù)研究的一個(gè)重要內(nèi)容是元數(shù)據(jù)的標(biāo)準(zhǔn)。
需要研究?jī)?nèi)容包括:國(guó)家海洋局及歐美等國(guó)家的海洋監(jiān)測(cè)相關(guān)的元數(shù)據(jù)標(biāo)準(zhǔn),ISO/IEC JTC1 SC32、ITU等國(guó)際和國(guó)內(nèi)大數(shù)據(jù)標(biāo)準(zhǔn)化工作組的元數(shù)據(jù)標(biāo)準(zhǔn)(主要是內(nèi)容標(biāo)準(zhǔn)和格式標(biāo)準(zhǔn));研究EUMIS和IOOS等應(yīng)用系統(tǒng)中的海洋現(xiàn)場(chǎng)觀測(cè)、傳感、地理影像數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)。最終確定切實(shí)可行的元數(shù)據(jù)標(biāo)準(zhǔn),并在數(shù)據(jù)虛擬化平臺(tái)構(gòu)建元數(shù)據(jù)時(shí),按照選擇的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范進(jìn)行,以便生成高質(zhì)量的元數(shù)據(jù)文檔(庫)。
4.2.2數(shù)據(jù)虛擬化平臺(tái)上的數(shù)據(jù)建模(元模型)數(shù)據(jù)虛擬化平臺(tái)在導(dǎo)入數(shù)據(jù)時(shí)自動(dòng)導(dǎo)入數(shù)據(jù)源的元數(shù)據(jù),但在構(gòu)建虛擬數(shù)據(jù)庫時(shí),還需要對(duì)這些元數(shù)據(jù)進(jìn)行建模,形成元模型,這個(gè)過程在數(shù)據(jù)虛擬化平臺(tái)上叫“數(shù)據(jù)建?!保ㄔ斠妶D4“第二階段:數(shù)據(jù)的組織”一節(jié)),數(shù)據(jù)建模是數(shù)據(jù)集成中的關(guān)鍵一步。
ODM2是一個(gè)先進(jìn)且通用的信息模型,可以根據(jù)需要擴(kuò)展。要實(shí)現(xiàn)數(shù)據(jù)虛擬化平臺(tái)上的數(shù)據(jù)建模,方法是以其為核心并擴(kuò)展ODM2模型,利用PowerDesigner等數(shù)據(jù)建模工具構(gòu)建適合于國(guó)內(nèi)海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的數(shù)據(jù)模型,最后應(yīng)用到數(shù)據(jù)虛擬化系統(tǒng)中虛擬數(shù)據(jù)庫的構(gòu)建中去。
4.2.3本體語義框架借鑒數(shù)據(jù)管理框架OODT的元數(shù)據(jù)實(shí)現(xiàn)原理、架構(gòu)思想,參照MMI語義框架,需研究的內(nèi)容有:對(duì)現(xiàn)有開源語義框架或MMI語義框架擴(kuò)展并集成到數(shù)據(jù)虛擬化平臺(tái)中去;實(shí)現(xiàn)海洋環(huán)境監(jiān)測(cè)專業(yè)詞匯庫構(gòu)建、注冊(cè)(產(chǎn)生符合OWL標(biāo)準(zhǔn)的語義內(nèi)容,一般采用RDF/XML格式);實(shí)現(xiàn)語義映射(詞匯和詞匯之間的映射)。
4.3開源數(shù)據(jù)虛擬化平臺(tái)上的應(yīng)用構(gòu)建
目前,大數(shù)據(jù)集成主要通過數(shù)據(jù)虛擬化平臺(tái)來實(shí)現(xiàn),數(shù)據(jù)虛擬化平臺(tái)對(duì)數(shù)據(jù)的集成主要包括數(shù)據(jù)源的連接→組織→訪問3個(gè)重要階段。
第一階段:數(shù)據(jù)的獲取。此階段主要是通過元數(shù)據(jù)和主數(shù)據(jù)管理完成多源異構(gòu)數(shù)據(jù)的連接。
通過轉(zhuǎn)換組件、適配器、查詢引擎來實(shí)現(xiàn)數(shù)據(jù)的連接。查詢引擎借助元數(shù)據(jù)找到數(shù)據(jù)源,轉(zhuǎn)換組件將查詢命令轉(zhuǎn)換成數(shù)據(jù)源特定命令,然后通過源和虛擬化數(shù)據(jù)庫之間的視圖模型,提供一個(gè)優(yōu)化的標(biāo)準(zhǔn)查詢計(jì)劃,其中適配器提供交互功能。
第二階段:數(shù)據(jù)的組織。組合并轉(zhuǎn)換數(shù)據(jù)到一個(gè)通用、可復(fù)用的虛擬數(shù)據(jù)模型和視圖層。
主要是建立虛擬數(shù)據(jù)庫來提供多個(gè)物理數(shù)據(jù)源統(tǒng)一視圖。虛擬數(shù)據(jù)庫由數(shù)據(jù)模型和配置信息組成。配置信息描述了哪些數(shù)據(jù)源需要集成以及如何集成的。
第三階段:數(shù)據(jù)的消費(fèi)。通過標(biāo)準(zhǔn)的開放接口,使數(shù)據(jù)的訪問更容易。可以通過JDBC、ODBC、Web Service訪問虛擬數(shù)據(jù)庫。
根據(jù)以上三階段內(nèi)容,數(shù)據(jù)虛擬化平臺(tái)架構(gòu)如圖4所示。
圖4 數(shù)據(jù)虛擬化平臺(tái)架構(gòu)
前文已討論了與數(shù)據(jù)虛擬化平臺(tái)密切相關(guān)的大數(shù)據(jù)計(jì)算模式、元數(shù)據(jù)等研究?jī)?nèi)容。在完成以上研究?jī)?nèi)容后,構(gòu)建主數(shù)據(jù)庫后(相對(duì)容易,這里不多做敘述),即可構(gòu)建多源異構(gòu)的大數(shù)據(jù)集成應(yīng)用了,主要包括以下3方面內(nèi)容:
(1)數(shù)據(jù)的查詢應(yīng)用:數(shù)據(jù)查詢是數(shù)據(jù)共享中最重要的功能,基于數(shù)據(jù)虛擬化平臺(tái)提供的功能統(tǒng)一訪問接口,實(shí)現(xiàn)大數(shù)據(jù)的查詢,特別是半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)查詢是一個(gè)重要的應(yīng)用方向。
(2)綜合展示:參照開源Lumify、Pentaho等平臺(tái)的實(shí)現(xiàn)方式,實(shí)現(xiàn)GIS應(yīng)用中多源異構(gòu)數(shù)據(jù)的可視化展示(含半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù))。
(3)Rest服務(wù):基于數(shù)據(jù)虛擬化平臺(tái)的接口,構(gòu)建Rest風(fēng)格的數(shù)據(jù)服務(wù),以方便應(yīng)用之間數(shù)據(jù)交互。
根據(jù)前述內(nèi)容,繪制的技術(shù)路線如圖5所示。
本文針對(duì)多源異構(gòu)的海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)面臨的大數(shù)據(jù)問題,提出了在構(gòu)建數(shù)據(jù)虛擬化平臺(tái)和大數(shù)據(jù)計(jì)算模式集成的基礎(chǔ)上,通過雙層元數(shù)據(jù)(數(shù)據(jù)虛擬化平臺(tái)中,數(shù)據(jù)連接層的元數(shù)據(jù)生成,數(shù)據(jù)消費(fèi)層的元數(shù)據(jù)建模)和本體語義框架,來實(shí)現(xiàn)海量海洋環(huán)境監(jiān)測(cè)數(shù)據(jù)的集成,并提出了基于這些技術(shù)的應(yīng)用架構(gòu)。這些思想基于國(guó)外大數(shù)據(jù)集成先進(jìn)思想,對(duì)解決海量的多源異構(gòu)數(shù)據(jù)集成有指導(dǎo)性意義。
本研究目前正處于起步階段,將會(huì)面臨諸多問題,有待于在實(shí)踐中不斷地發(fā)現(xiàn)和解決新問題。
圖5 研究技術(shù)路線示意圖
[1]SzalayS,GrayJ.Science in an Exponential Word[J].Nature,2006,440:23-24.
[2]H Gilbert Miller Peter Mork,Noblis.FromData toDecisions:AValue Chain for BigData[J].ITProfessional,2013,15(1):57-58.
[3]Andrew Brust.Gartner Releases 2013 Data Warehouse Magic Quadrant[EB/OL].2013-05 http://www.zdnet.com/article/gartnerreleases-2013-data-warehouse-magic-quadrant/.
[4]Xin Luna Dong,Divesh Srivastava.BigData Integration[C]//IEEE 29th International Conference on Data Engineering(ICDE),2013: 1245-1248.
[5]April Reeve.Managing Data in Motion Data Integration Best Practice Techniques and Technologies[M].San Francisco:Morgan Kaufmann Publishers,2013:142-156.
[6]J Dean,SGhemawat.Mapreduce:Simplified Data Processingon Large Clusters[C]//OSDI,2004.
[7]CuttingD.Scalable Computingwith MapReduce[C]//Proc ofO’ReillyOpen Source Convention,Poland.2005.
[8]Overview.The Open Service Network for Marine Environmental Data(NETMAR)[EB/OL].2009-06 http://netmar.nersc.no/.
[9]Jeffde La Beaujardière.The NOAAIOOSData Integration Framework:Initial Implementation Report[R].IEEE Publishers,2008:1-8.
[10]NOAA Announces RFI to Unleash Power of'Big Data'[EB/OL].[2014-02-24]http://www.noaanews.noaa.gov/stories 2014/20140224 _bigdata.html,.
[11]Comments ofthe Information Technology Industry Council.Response to the Big Data Request for Information[EB/OL].2014-03-27 http://www.itic.org/dotAsset/bcae1b74-eb8e-4f01-a02d-7e8aa8bdaf0f.pdf.
[12]Miaomiao,Bin Zhou,Zhun Zhou.The Interoperation Framework ofOcean Observation Data UsingSpatial Information Service[C]//2nd International Conference on Computer Science and Network Technology,Changchun,2012.
[13]John Graybeal,Anthony W Isenor,Carlos Rueda.Semantic Mediation of Vocabularies for Ocean Observing Systems[J].Computers& Geosciences.2012:120-131.
[14]Jing Xiong,Jipeng Wang,F(xiàn)eng Gao.Research and Application of Ontology-Based Marine Ecology Knowledge Management[J].Informatics and Management Science II,2013,205:465-471.
[15]Dhruba Borthakur,Jonathan Gray,et al.Apache Hadoop Goes Realtime at Facebook[C]//Proceedings of the 2011 ACM SIGMOD International Conference on Management ofData.NewYork:ACMPublishers,2011:1071-1080.
[16]沈來信,王偉.基于Tree-lib的大數(shù)據(jù)實(shí)時(shí)分析研究[J].計(jì)算機(jī)科學(xué),2013,40(6):192-196.
[17]Robert eve.BigData Meets Virtualization[EB/OL].2011-05-17 http://roberteve1.sys-con.com/node/1835758.
[18]Overview.JBoss Data Virtualization[EB/OL].2014 http://www.jboss.org/products/datavirt/overview/.
[19]About Teiid[EB/OL].2014 http://teiid.jboss.org/about/.
[20]Benjamin T Hazen,Christopher A Boone,et al.Data Quality for Data Science,Predictive Analytics,and Big Data in Supply Chain Management:An Introduction to the Problem and Suggestions for Research and Applications[J].International Journal of Production Economics Editorial Board,2014,154:72-80.
[21]宗威,吳鋒.大數(shù)據(jù)時(shí)代下數(shù)據(jù)質(zhì)量的挑戰(zhàn)[J].西安交通大學(xué)學(xué)報(bào):社會(huì)科學(xué)版.2013,33(5):38-43.
[22]黃冬梅,陳括,等.基于塊嵌套循環(huán)的海洋大數(shù)據(jù)質(zhì)量檢驗(yàn)方案選擇算法[J].計(jì)算機(jī)工程與科學(xué),2013.10,35(10):51-57.
[23]Vision For The Future of the Data Integration Market-Impact of Data Virtualization[EB/OL].https://www.youtube.com/watch?v=yziU4YV_BUE.2011-06-23.
[24]van der Lans R F.Data Virtualization for Business Intelligence Systems[M].Waltham,MA:Morgan Kaufmann Publishers,2012:8-9
[25]Noel Yuhanna,Mike GilpinThe.Forrester Wave:Data Virtualization,Q1 2012[EB/OL].2012-01-05 http://72.41.218.229/admin/uploads/15723400631342780586.pdf.
[26]Tomplunkett,Brian macdonald,et al.Oracle BigData Handbook[M].Osborne/McGraw-Hill,2013:1-12.
[27]Informatica Powercenter Big Data Edition[EB/OL].2014-12/2015-11-09 http://www.predictiveanalyticstoday.com/informaticapowercenter-big-data-edition/.
[28]Lumifyfeatures in action[EB/OL].2013-112-13 https://www.youtube.com/watchv=CAR8mon7EZs.
[29]The death oftraditional data integration[EB/OL].2015-01-28 http://campaigns.snaplogic.com/death-of-traditional-integration.html.
[30]Samina R Abidi,Syed SR Abidi,Mei Kwan,et al.An Ontology Framework for Modeling Ocean Data and E-Science Semantic Web Services[J].International Journal ofAdvanced Computer Science,2012,2(8):280-286.
[31]Yannis Tzitzikas,Carlo Allocca,Chryssoula Bekiari,et al.Integrating Heterogeneous and Distributed Information about Marine Species through a Top Level Ontology[C]//5th Information Retrieval FacilityConference,IRF 2012,Vienna,2012:1-12.
Integration and Application of Marine Environmental Monitoring Data Based on Big Data Technology
XIE Peng-fei,LIU Yu-an,ZHAO Hui,ZHU Rong-juan
National Marine Environment Monitoring Center,Dalian 10063,Liaoning Province,China
The integration of massive multi-source heterogeneous data for marine environmental monitoring is beyond the capability of traditional integration methods and technologies,which can only be realized by the application of big data technology which is beneficial for sharing of marine environmental monitoring data,avoiding the emergence of information island,and providing necessary data for data analysis and mining.This paper focuses on the integration of multi-source heterogeneous marine environmental monitoring data based on the technologies of big data and data virtualization platform refering to the ODM2 information model and MMI ORR ontology semantic framework.In addition,it probes into the realization method of multi-source heterogeneous data inquiry as well as their integrated display and application on the basis of Big Data Integration(BDI).This research helps to solve the problem of massive marine environmental monitoring data management,meets the demands of marine environmental big data for researchers,implements the data-driven decisionmaking method,and improves the management level for the marine environment.
big data;data virtualization;metadata;ODM2 model;ontology semantic framework
P76;TP39
A
1003-2029(2016)01-0093-09
10.3969/j.issn.1003-2029.2016.01.015
2015-03-01
解鵬飛(1975-),男,碩士,工程師,主要研究方向?yàn)榇髷?shù)據(jù),數(shù)據(jù)挖掘與分析。E-mail:pfxie@nmemc.org.cn