張耀南,艾鳴浩,康建芳,3,敏玉芳
1.中國科學(xué)院西北生態(tài)環(huán)境資源研究院,甘肅 蘭州 730000
2.國家冰川凍土沙漠科學(xué)數(shù)據(jù)中心,甘肅 蘭州 730000
3.甘肅資源環(huán)境科學(xué)數(shù)據(jù)工程技術(shù)研究中心,甘肅 蘭州 730000
更好地傳感技術(shù)、更強大的計算平臺和更敏捷的云服務(wù),使我們以前所未有的速度獲得了海量數(shù)據(jù)的收集、存儲、分析和應(yīng)用的能力,大數(shù)據(jù)時代對我們感知、認(rèn)知、預(yù)知和決策方式已經(jīng)產(chǎn)生了深遠(yuǎn)影響。數(shù)據(jù)量的激增,數(shù)據(jù)存儲管理、數(shù)據(jù)處理分析、領(lǐng)域知識鏈接、人工智能及可視化等方面研究已發(fā)生了顛覆性變革,數(shù)據(jù)科學(xué)應(yīng)運而生[1-3]。除改變互聯(lián)網(wǎng)、零售、廣告等商業(yè)行業(yè)外,大數(shù)據(jù)提供了一個在虛擬信息世界中了解和掌握現(xiàn)實世界前所未有的機會,在推動科學(xué)發(fā)現(xiàn)方面發(fā)揮越來越重要的作用[4]。從科學(xué)史上來看,科學(xué)的發(fā)展首先生成假設(shè)或理論,然后收集數(shù)據(jù)以確認(rèn)或反駁這些假設(shè)。但在大數(shù)據(jù)時代,在不考慮特定理論或假設(shè)的情況下,通過對不斷收集的大量數(shù)據(jù)進行挖掘分析,引入人工智能方法技術(shù),為發(fā)現(xiàn)新知識新現(xiàn)象提供了一個嶄新的機遇。特別是當(dāng)數(shù)據(jù)集的維數(shù)很高或過于復(fù)雜以至于很難用傳統(tǒng)的統(tǒng)計方法處理時,以人工智能和機器學(xué)習(xí)為代表的數(shù)據(jù)科學(xué)處理法尤為具有吸引力[5]。事實上,大數(shù)據(jù)技術(shù)在科學(xué)學(xué)科發(fā)展中的作用已經(jīng)開始從提供簡單的分析工具逐漸轉(zhuǎn)變?yōu)樘峁┏墒斓闹R發(fā)現(xiàn)框架[6]。
地學(xué)是通過對自然現(xiàn)象的觀察,發(fā)現(xiàn)蘊含在觀測數(shù)據(jù)之中的自然規(guī)律,從而研究地球系統(tǒng)多尺度下的各種過程、變化及相互作用規(guī)律。從地學(xué)經(jīng)驗范式到數(shù)據(jù)密集型研究范式,所需的數(shù)據(jù)數(shù)量、復(fù)雜性和多樣性方面都急劇增加[7]。在全球氣候變化背景下,單一學(xué)科、單一尺度、單一區(qū)域的研究已越來越不適應(yīng)地學(xué)研究發(fā)展的需要,地球科學(xué)研究態(tài)勢已出現(xiàn)綜合性、跨學(xué)科性、跨區(qū)域性和協(xié)同性等顯著特點。數(shù)據(jù)科學(xué)基于將不同來源、不同區(qū)域、多尺度數(shù)據(jù)匯集融合和集成分析,使得地學(xué)研究中開展大尺度、廣視角、多系統(tǒng)聯(lián)合和多過程耦合研究成為可能。深化地學(xué)大數(shù)據(jù)與地球系統(tǒng)知識發(fā)現(xiàn)研究,也將成為地球關(guān)鍵帶過程與功能、全球環(huán)境變化與地球圈層相互作用、人類活動對環(huán)境影響、重大災(zāi)害形成機理研究等研究的重要支撐[8]。
近年來,國際上先后部署一系列地學(xué)大數(shù)據(jù)相關(guān)重大計劃和研究項目,美國的“地球立方體”項目,歐盟的“地球模擬器”項目,我國的“地球大數(shù)據(jù)科學(xué)工程”都是旨在以整體視角審視地球系統(tǒng),利用地球大數(shù)據(jù)驅(qū)動跨學(xué)科、跨尺度宏觀科學(xué)發(fā)現(xiàn)[9]?!叭驓夂蚍?wù)框架(GFCS)”將實施優(yōu)先領(lǐng)域定在構(gòu)建氣候服務(wù)信息系統(tǒng),定期收集、存儲及處理各類地學(xué)數(shù)據(jù),開發(fā)并分發(fā)一系列數(shù)據(jù)產(chǎn)品和服務(wù),為農(nóng)業(yè)、健康、災(zāi)害等各種決策提供支持[10]。長期生態(tài)學(xué)研究網(wǎng)絡(luò)(LTER)、英國環(huán)境變化監(jiān)測網(wǎng)絡(luò)(ECN)及中國生態(tài)系統(tǒng)研究網(wǎng)絡(luò)(CERN)等提供多尺度生態(tài)信息,使得獲取海量、大尺度、多源生態(tài)數(shù)據(jù)成為可能[11-13];NASA 地球交換平臺(NASA Earth Exchange Platform)將超級計算、數(shù)據(jù)可視化、海量在線數(shù)據(jù)、模型和算法、社交網(wǎng)絡(luò)和協(xié)同技術(shù)集成在一起,形成用于地學(xué)研究和知識發(fā)現(xiàn)的大數(shù)據(jù)平臺[14]。NOAA的大數(shù)據(jù)項目(NOAA-BDP)遍及68000個數(shù)據(jù)集管理與共享,引入多種云平臺增強數(shù)據(jù)集的可發(fā)現(xiàn)性和可訪問性[15]。
地球科學(xué)在數(shù)據(jù)量、速度和多樣性方面已成為數(shù)據(jù)最豐富的領(lǐng)域之一,但與生物學(xué)、天文學(xué)、管理學(xué)等其他科研領(lǐng)域的成功相比,大數(shù)據(jù)在地學(xué)領(lǐng)域的應(yīng)用進展較為緩慢。當(dāng)前地學(xué)大數(shù)據(jù)研究主要涵蓋在地學(xué)數(shù)據(jù)管理方法、匯集與共享方式以及機器學(xué)習(xí)方法在地球科學(xué)的深度運用,為數(shù)不多的地學(xué)數(shù)據(jù)處理研究多集中在遙感影像和特定模型的數(shù)據(jù)前處理。本文針對地學(xué)領(lǐng)域多源異質(zhì)數(shù)據(jù)綜合集成展開研究,在分析地學(xué)大數(shù)據(jù)特點基礎(chǔ)上提出一種地學(xué)大數(shù)據(jù)處理框架,打通研究要素聚合時空壁壘,疏通海量地學(xué)數(shù)據(jù)與地學(xué)知識發(fā)現(xiàn)之間的數(shù)據(jù)通道,為生態(tài)、環(huán)境、資源領(lǐng)域的長期監(jiān)測、機理認(rèn)識和精準(zhǔn)預(yù)測提供方法技術(shù)支撐。
地學(xué)數(shù)據(jù)是一種與地球參考空間(二維或三維)位置有關(guān)的、表達與地理客觀世界中各種實體和過程狀態(tài)屬性的數(shù)據(jù)[16]。地學(xué)數(shù)據(jù)來源于野外調(diào)查、衛(wèi)星遙感、定位觀測、儀器測試分析、模擬計算結(jié)果、調(diào)查統(tǒng)計普查及地圖文獻資料,涵蓋地球從內(nèi)到外的各個圈層,涉及地球系統(tǒng)多種地學(xué)因子,涉及大氣、生態(tài)、水文、土壤、海洋、地質(zhì)等諸多學(xué)科,還與物理學(xué)、化學(xué)和信息科學(xué)息息相關(guān)。地學(xué)大數(shù)據(jù)具備數(shù)據(jù)量大(volume)、類型繁多(variety)、速度快實效高(velocity)及價值密度低(value)等傳統(tǒng)大數(shù)據(jù)所具備的“4V”共性[17]。同時地學(xué)研究對象發(fā)展演化時空范圍龐大,相互作用影響因素眾多,以及數(shù)據(jù)獲取手段和數(shù)據(jù)處理方式的差異,使得地學(xué)數(shù)據(jù)在內(nèi)容上具有“參數(shù)信息不完全、結(jié)構(gòu)信息不完全、關(guān)系信息不完全和演化信息不完全”的特征,在形態(tài)上具有顯著的多類、多維、多標(biāo)簽、多尺度和多主題特征[18]。這與其他領(lǐng)域?qū)W科所產(chǎn)生的大數(shù)據(jù)存在很大差別,可歸納為四方面。
地學(xué)數(shù)據(jù)是以地理特征和地學(xué)過程為對象,基于統(tǒng)一時空基準(zhǔn),與位置相關(guān)聯(lián)的地學(xué)要素的定量體現(xiàn)。地學(xué)數(shù)據(jù)高度時空相關(guān)特性體現(xiàn)在三方面:(1)地學(xué)數(shù)據(jù)具有時間、空間和屬性三種基本特征,其屬性值緊密依賴于時間與空間,這導(dǎo)致地學(xué)數(shù)據(jù)存在抽象意義的時空相關(guān)。(2)數(shù)據(jù)之間的關(guān)系與數(shù)據(jù)的空間位置、空間拓?fù)潢P(guān)系和時間關(guān)系相關(guān)聯(lián)。由于地學(xué)過程的時空連續(xù)性,在時間或空間上接近的數(shù)據(jù)呈現(xiàn)高度相關(guān)。(3)時空基準(zhǔn)不統(tǒng)一。地學(xué)數(shù)據(jù)根據(jù)其研究需要和觀測實際,時間粒度可從分秒橫跨至數(shù)十萬年,加之描述其空間位置的坐標(biāo)系、投影參數(shù)不同,造成不同數(shù)據(jù)之間時空基準(zhǔn)存在差異。
地學(xué)數(shù)據(jù)來自于氣象、水利、國土、高校、科研院所等諸多部門。這些數(shù)據(jù)的獲取與制備往往面向特定研究或業(yè)務(wù)背景,針對不同的地學(xué)單元,產(chǎn)生于不同的采集方式,再加之?dāng)?shù)據(jù)生產(chǎn)者專業(yè)背景和數(shù)據(jù)理解各異,致使不同來源數(shù)據(jù)具有不同的數(shù)據(jù)管理形式。除常規(guī)氣象數(shù)據(jù)、遙感數(shù)據(jù)、基礎(chǔ)地理數(shù)據(jù)等少數(shù)幾種以外,多數(shù)地學(xué)數(shù)據(jù)組織呈現(xiàn)多源異構(gòu)特點。一是結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)并存,關(guān)系與非關(guān)系數(shù)據(jù)庫并存,文本、表格、圖像等多種格式數(shù)據(jù)無序堆疊,數(shù)據(jù)間關(guān)聯(lián)關(guān)系混亂,數(shù)據(jù)組織方式隨意。二是由于缺乏統(tǒng)一標(biāo)準(zhǔn),對同一地學(xué)本體的命名方式、描述方式、采集標(biāo)準(zhǔn)、數(shù)據(jù)單位多種多樣。
地球作為一個復(fù)雜的巨系統(tǒng),由多種復(fù)雜的子系統(tǒng)構(gòu)成。子系統(tǒng)間相互作用從微米級顆粒和氣溶膠到陸表面大規(guī)模變化,作用過程從持續(xù)數(shù)小時或數(shù)天到持續(xù)數(shù)年數(shù)十年。由此可見,地學(xué)數(shù)據(jù)具有明顯的尺度依賴性和多重表達性,其對同一種地學(xué)要素,同一種地學(xué)過程,在不同時空尺度描述下取值和呈現(xiàn)的趨勢不盡相同。尺度的變化也會影響地學(xué)數(shù)據(jù)處理、分析及表達的方式,在不了解尺度意義下改變數(shù)據(jù)尺度會使研究對象的過程和形態(tài)得不到預(yù)想的結(jié)果。地學(xué)基礎(chǔ)研究趨勢是實現(xiàn)綜合尺度下的地學(xué)過程相互耦合,從整體上解決地學(xué)問題復(fù)雜性。地學(xué)數(shù)據(jù)的多尺度互動和聯(lián)結(jié)既蘊含巨大機遇,其跨尺度所帶來的數(shù)據(jù)矛盾也成為重大挑戰(zhàn)。
野外自動觀測數(shù)據(jù)受限于儀器本身質(zhì)量和人工維護質(zhì)量,數(shù)據(jù)錯誤、數(shù)據(jù)缺失時有發(fā)生,勘探調(diào)查數(shù)據(jù)多帶有人的主觀因素,復(fù)雜的數(shù)據(jù)測試分析鏈條也會不可避免引入人為誤差和系統(tǒng)誤差,同時由于地學(xué)過程本身具有高度的復(fù)雜性,人類對許多地學(xué)規(guī)律的認(rèn)識尚存爭議,對各種計算模擬和定位觀測數(shù)據(jù)的一致性理解也不相同,故而地學(xué)數(shù)據(jù)體現(xiàn)不確定性特征。此外,地學(xué)數(shù)據(jù)對描述復(fù)雜對象的定量化程度有限,采集形成全球樣本標(biāo)準(zhǔn)數(shù)據(jù)集到現(xiàn)階段還無法實現(xiàn),基于地學(xué)數(shù)據(jù)的分析結(jié)果也多帶有模糊和不確定性。
地學(xué)大數(shù)據(jù)處理框架旨在搭建數(shù)據(jù)來源與數(shù)據(jù)應(yīng)用之間的橋梁。流程由數(shù)據(jù)來源開始,多重來源數(shù)據(jù)通過基礎(chǔ)硬件環(huán)境進入處理框架中,首先經(jīng)過匯集融合,按照不同數(shù)據(jù)特點進入不同異構(gòu)自治的數(shù)據(jù)源中,并以元數(shù)據(jù)集描述數(shù)據(jù),以數(shù)據(jù)字典描述數(shù)據(jù)源。當(dāng)應(yīng)用層發(fā)起獲取數(shù)據(jù)請求時,各數(shù)據(jù)經(jīng)過統(tǒng)一集成后響應(yīng)數(shù)據(jù)請求,實現(xiàn)包括過程研究、知識發(fā)現(xiàn)、數(shù)據(jù)挖掘等方面的應(yīng)用。地學(xué)大數(shù)據(jù)處理架構(gòu)核心是解決不同來源的多源數(shù)據(jù)匯集融合處理,解決跨地域、跨時空、跨學(xué)科數(shù)據(jù)抽取的異構(gòu)數(shù)據(jù)綜合集成處理,以及解決基于地學(xué)專業(yè)的“數(shù)據(jù)-模型”一體化應(yīng)用處理。整體架構(gòu)如圖1所示。
圖1 地學(xué)大數(shù)據(jù)處理框架示意圖Fig.1 Schematic diagram of geoscience big data processing framework
多源數(shù)據(jù)匯集融合處理,主要應(yīng)對不同來源地學(xué)數(shù)據(jù)在采集和管理過程中出現(xiàn)的體系松散、結(jié)構(gòu)混亂、缺乏組織的現(xiàn)狀,主要解決海量地學(xué)數(shù)據(jù)規(guī)律挖掘和地學(xué)多過程機理研究中相關(guān)數(shù)據(jù)難以有效匯集的問題。地學(xué)數(shù)據(jù)融合不只是多源數(shù)據(jù)抽取、數(shù)據(jù)格式轉(zhuǎn)換、結(jié)構(gòu)化/非結(jié)構(gòu)化存儲等信息技術(shù)問題,更多需要專業(yè)視角下構(gòu)建的數(shù)據(jù)關(guān)聯(lián)方法、數(shù)據(jù)標(biāo)準(zhǔn)化方法及數(shù)據(jù)質(zhì)量控制方法。
2.1.1 元數(shù)據(jù)體系
針對地學(xué)大數(shù)據(jù)特點,梳理地學(xué)研究對象包括氣候、水資源、資源災(zāi)害、人地相互作用及重大工程建設(shè)等研究領(lǐng)域中各類數(shù)據(jù)觀測過程、數(shù)據(jù)生產(chǎn)方式和數(shù)據(jù)應(yīng)用需求,厘清各地學(xué)過程研究所需環(huán)境要素的種類、精度、尺度和制備方式。從數(shù)據(jù)內(nèi)容和時空特征兩方面入手,建立柵格數(shù)據(jù)、矢量數(shù)據(jù)、時間序列野外觀測數(shù)據(jù)、儀器分析模擬數(shù)據(jù)、模型模擬數(shù)據(jù)等多源地學(xué)數(shù)據(jù)關(guān)聯(lián)模型。數(shù)據(jù)內(nèi)容方面以科研需求、學(xué)科分類和研究主題三種維度構(gòu)建數(shù)據(jù)之間語義化鏈接,如圖2所示。時空特征方面,將地學(xué)元數(shù)據(jù)中表達時間、空間特征的名詞映射到數(shù)據(jù)實體建立時空語義關(guān)聯(lián),以數(shù)據(jù)間空間位置距離關(guān)系為規(guī)則建立空間結(jié)構(gòu)關(guān)聯(lián)。所有概念屬性、關(guān)聯(lián)關(guān)系和關(guān)聯(lián)規(guī)則都在元數(shù)據(jù)中進行描述。
圖2 地學(xué)大數(shù)據(jù)內(nèi)容關(guān)聯(lián)示意圖Fig.2 Schematic diagram of geoscience big data content correlation
2.1.2 數(shù)據(jù)標(biāo)準(zhǔn)
針對地學(xué)科研數(shù)據(jù)一般規(guī)律,分析野外定位持續(xù)觀測數(shù)據(jù)、重大項目產(chǎn)出數(shù)據(jù)、國際相關(guān)數(shù)據(jù)源及歷史數(shù)據(jù)等四大類數(shù)據(jù)特點,構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)的設(shè)計可以劃分為基礎(chǔ)性標(biāo)準(zhǔn)與應(yīng)用性標(biāo)準(zhǔn)兩類?;A(chǔ)性標(biāo)準(zhǔn)主要用于在不同系統(tǒng)間,形成信息的一致理解和統(tǒng)一的坐標(biāo)參照系統(tǒng),是信息匯集、交換以及應(yīng)用的基礎(chǔ),包括數(shù)據(jù)分類與編碼、數(shù)據(jù)字典、數(shù)字地圖標(biāo)準(zhǔn);應(yīng)用型標(biāo)準(zhǔn)則是為數(shù)據(jù)平臺功能發(fā)揮所涉及的各個環(huán)節(jié),提供一定的標(biāo)準(zhǔn)規(guī)范,以保證信息的高效匯集和交換,包括元數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)交換技術(shù)規(guī)范、數(shù)據(jù)傳輸協(xié)議、數(shù)據(jù)質(zhì)量標(biāo)準(zhǔn)等。
2.1.3 數(shù)據(jù)字典
針對多數(shù)據(jù)源內(nèi)容、命名、數(shù)據(jù)單位等異構(gòu)問題構(gòu)建數(shù)據(jù)字典,對數(shù)據(jù)源進行描述。記錄每一個數(shù)據(jù)源的變量命名、變量描述、類型、數(shù)據(jù)類型及綱量等信息,為每一個數(shù)據(jù)源建立“異構(gòu)混亂-標(biāo)準(zhǔn)統(tǒng)一”的映射關(guān)系,使整體處理框架對每一種異構(gòu)數(shù)據(jù)源的存儲、組織和命名方式“了如指掌”。
2.1.4 數(shù)據(jù)質(zhì)量控制
針對數(shù)據(jù)存在異常值、結(jié)構(gòu)性錯誤、記錄重復(fù)和數(shù)據(jù)缺失等問題,設(shè)計循環(huán)質(zhì)量評估流程,如圖3所示,并依據(jù)數(shù)據(jù)應(yīng)用方式和使用尺度制定數(shù)據(jù)處理方法。對長時間序列觀測數(shù)據(jù)建立數(shù)據(jù)插值、異常點監(jiān)測及時空濾波等方法;對遙感數(shù)據(jù),建立不同監(jiān)測要素數(shù)據(jù)的時間序列重建方法、空間插值重建方法,實現(xiàn)異構(gòu)數(shù)據(jù)的自動-半自動化質(zhì)量控制過程。
異構(gòu)數(shù)據(jù)綜合集成主要解決兩類問題:一類是內(nèi)容相同但時空屬性不同的地學(xué)數(shù)據(jù)集成;另一類是數(shù)據(jù)資源在存儲管理上互異自治,存儲在不同操作系統(tǒng)及不同的數(shù)據(jù)庫管理系統(tǒng)和文件系統(tǒng)中。中間件系統(tǒng)(middleware)因其能夠屏蔽底層數(shù)據(jù)源的平臺、環(huán)境、數(shù)據(jù)模型和語義異構(gòu)性,另有快速部署、管理方便、利于復(fù)用的優(yōu)勢,成為大數(shù)據(jù)領(lǐng)域常用的解決異構(gòu)數(shù)據(jù)綜合集成的方案之一,其“分而治之”的異構(gòu)數(shù)據(jù)融合策略能夠應(yīng)對地學(xué)數(shù)據(jù)多源異構(gòu)的現(xiàn)狀。中間件通過全局?jǐn)?shù)據(jù)模型隱藏底層數(shù)據(jù)細(xì)節(jié),保持?jǐn)?shù)據(jù)依舊存放于異構(gòu)自治的數(shù)據(jù)源中,通過各數(shù)據(jù)源適配“包裝器(Wrapper)”將數(shù)據(jù)通過映射到全局?jǐn)?shù)據(jù)模型上;對于應(yīng)用層的數(shù)據(jù)服務(wù)請求,則采用“中介器(Mediator)”將其解析、分析和拆分為一個或多個針對相應(yīng)數(shù)據(jù)源的子查詢,然后將查詢結(jié)果按照相應(yīng)邏輯和業(yè)務(wù)規(guī)則綜合集成反饋。為適應(yīng)地學(xué)大數(shù)據(jù)處理需求,打通“異構(gòu)數(shù)據(jù)—分析應(yīng)用”之間技術(shù)屏障,一方面中間件全局?jǐn)?shù)據(jù)模型需與多源地學(xué)數(shù)據(jù)模型融合,另一方面具備數(shù)據(jù)聯(lián)合引擎和中介器邏輯規(guī)則擴展集成兩種專門面向地學(xué)數(shù)據(jù)處理的能力,異構(gòu)數(shù)據(jù)綜合集成架構(gòu)如圖3所示。
圖3 異構(gòu)數(shù)據(jù)綜合集成架構(gòu)圖Fig.3 Heterogeneous data integration structure diagram
2.2.1 異構(gòu)數(shù)據(jù)聯(lián)合引擎
異構(gòu)融合將相互關(guān)聯(lián)的數(shù)據(jù)集成到一起供應(yīng)用層服務(wù)訪問,然而不同的數(shù)據(jù)源有不同的時空基準(zhǔn)和命名規(guī)范,例如應(yīng)用層需要集成兩個地理位置的近地表2米氣溫逐小時數(shù)據(jù)做分析,這些數(shù)據(jù)在兩個數(shù)據(jù)源中保存,每個數(shù)據(jù)源都具有自己的自治標(biāo)準(zhǔn)。一個命名為“2 米氣溫”,以地理經(jīng)緯度坐標(biāo)表示地理位置,采集間隔為小時,單位攝氏度;一個命名為“temperature_2m”,以墨卡托投影表示地理位置,采集間隔為分鐘,單位開爾文溫度,需要在中間件中提供由異構(gòu)數(shù)據(jù)聯(lián)合引擎采用數(shù)據(jù)字典將字段相互關(guān)聯(lián)命名統(tǒng)一,利用各種對應(yīng)轉(zhuǎn)換關(guān)系統(tǒng)一時間維、空間維和數(shù)據(jù)單位。
2.2.2 可擴展業(yè)務(wù)邏輯規(guī)則集
地學(xué)數(shù)據(jù)具有空間性、時間性、尺度性等多種獨特性質(zhì),而研究人員由于專業(yè)背景不同、研究領(lǐng)域不同、研究尺度不同,即便面對同樣的一條地學(xué)數(shù)據(jù),理解和分析的角度也不盡相同,因此很難有一套通用固定的方法進行數(shù)據(jù)的異構(gòu)融合。構(gòu)建中介器內(nèi)數(shù)據(jù)業(yè)務(wù)邏輯規(guī)則集開放框架,包括架構(gòu)組件和交互通道,支持不同語言、不同環(huán)境的邏輯規(guī)則和處理方法集成與組合,使規(guī)則邏輯集能夠根據(jù)需求改變而靈活擴展,每一種規(guī)則算法能夠即插即用,即刪即無。
當(dāng)前數(shù)據(jù)處理中常用方法難以迎合地學(xué)前沿所需長時間序列、高時空分辨率、大空間范圍數(shù)據(jù)處理需求。大數(shù)據(jù)領(lǐng)域數(shù)據(jù)清洗、數(shù)據(jù)插補等方法多是基于數(shù)值方法、統(tǒng)計方法或機器學(xué)習(xí),地學(xué)數(shù)據(jù)在這樣的數(shù)據(jù)處理鏈條中容易發(fā)生地學(xué)意義和地學(xué)規(guī)律上的誤差,且誤差會隨數(shù)據(jù)生命周期進行演化,最終使地學(xué)數(shù)據(jù)驅(qū)動的研究分析和知識發(fā)現(xiàn)結(jié)果發(fā)生畸變。因此地學(xué)數(shù)據(jù)處理框架除集成一般數(shù)據(jù)處理方法外,還需集成具備地學(xué)背景的地學(xué)模型。與一般處理方法不同,地學(xué)模型處理中存在模型異構(gòu)性和復(fù)雜性等問題,且尺度精細(xì)化的地學(xué)數(shù)據(jù)處理常伴隨超大規(guī)模計算。需要對模型進行封裝和管理,構(gòu)建“數(shù)據(jù)-模型”間的數(shù)據(jù)互通接口,令地學(xué)數(shù)據(jù)與模型耦合起來形成數(shù)據(jù)處理鏈;通過組件技術(shù)和容器技術(shù),解決地學(xué)模型與超級計算關(guān)鍵集成問題。關(guān)鍵技術(shù)包括模型元數(shù)據(jù)設(shè)計、模型集成及“數(shù)據(jù)-模型”耦合有效性檢驗。
2.3.1 模型元數(shù)據(jù)設(shè)計
模型元數(shù)據(jù)描述模型物理意義、適用范圍和模型輸入輸出數(shù)據(jù),從而支持模型與數(shù)據(jù)的耦合,異構(gòu)地學(xué)數(shù)據(jù)的傳遞是數(shù)據(jù)提取、模型裝配和模型耦合的重點。模型元數(shù)據(jù)包括三方面:(1)模型標(biāo)識信息,包括模型的用途描述、時空尺度、建模原理和適用范圍;(2)模型運行信息,包括模型的操作系統(tǒng)、運行環(huán)境、所需庫文件和編程語言;(3)模型數(shù)據(jù)信息,包括輸入輸出數(shù)據(jù)的數(shù)據(jù)名稱、變量名稱、數(shù)據(jù)時空尺度、數(shù)據(jù)存儲格式及數(shù)據(jù)類型等。
2.3.2 模型封裝集成
模塊融入地學(xué)數(shù)據(jù)處理框架需要三個步驟:組件化封裝、微服務(wù)化集成和容器化部署。首先,根據(jù)模型元數(shù)據(jù)定義接口,將構(gòu)建在不同平臺上、用不同編程語言編碼的地學(xué)模型封裝成即插即用的組件。其次使用微服務(wù)框架將每個模型組件作為輕量級Web 服務(wù)發(fā)布,并通過服務(wù)鏈接實現(xiàn)模型集成服務(wù)。這些服務(wù)既可以作為一個整體模型獨立運行,也可以通過服務(wù)鏈接組成一個模型鏈運行。最后將微服務(wù)以容易形式打包,不僅打包模型和微服務(wù)本身,還將模型所有依賴、附著操作系統(tǒng)一同打包,部署于并行化運行環(huán)境中。
2.3.3 數(shù)據(jù)-模型耦合校驗
復(fù)雜數(shù)據(jù)和模型的集成可能會在整個模型鏈中傳播不確定性,需要對數(shù)據(jù)-計算耦合有效性進行數(shù)據(jù)兼容性校驗。以模型元數(shù)據(jù)為依據(jù),校驗內(nèi)容包括模型接口、輸入輸出變量名稱、時空分辨率、時空一致性及語義相似度。
本文以“高寒環(huán)境聯(lián)合觀測研究云”中巴走廊凍土分布的地學(xué)處理為例,介紹地學(xué)大數(shù)據(jù)處理框架的實際應(yīng)用?!案吆h(huán)境聯(lián)合觀測研究云”(簡稱“高寒云”)是中國科學(xué)院部署,橫跨“十二五”、“十三五”的綜合性信息化項目,旨在通過高寒環(huán)境下模型研究資源的虛擬集成,構(gòu)建地學(xué)大數(shù)據(jù)處理平臺,整體提升高寒區(qū)研究水平。中巴經(jīng)濟走廊是我國“一帶一路”的重要組成部分,其成功建設(shè)和安全運營具有重要戰(zhàn)略意義。以中巴經(jīng)濟走廊沿線高寒區(qū)災(zāi)害為專題,基于地學(xué)處理框架開展冰川、凍土、洪水、滑坡及泥石流等災(zāi)害數(shù)據(jù)產(chǎn)品、計算模型和決策工具的研究支撐是“高寒云”的重要示范之一。
“高寒云”中采用TTOP模型計算中巴走廊凍土分布,需要高時空分辨率地表溫度數(shù)據(jù)、土地覆被數(shù)據(jù)和土壤類型數(shù)據(jù)為輸入,其中高時空分辨率地表溫度數(shù)據(jù)則源于對Landsat 遙感影像的反演和野外定位觀測數(shù)據(jù)驗證,上述兩種方法模型為不同科研人員提供。“高寒云”建設(shè)了包括存放算法模型的模型資源池,存放多源數(shù)據(jù)的數(shù)據(jù)資源池,以及由計算集群構(gòu)成的計算資源池;基于資源池,構(gòu)建了記錄異構(gòu)數(shù)據(jù)與全局?jǐn)?shù)據(jù)模型映射關(guān)系的數(shù)據(jù)字典,描述“數(shù)據(jù)-模型”業(yè)務(wù)流程的規(guī)則集,以及包含多種格式數(shù)據(jù)空間變換、時序插值、字段重組等常見地學(xué)數(shù)據(jù)處理工具集。所有資源以服務(wù)形式供“高寒云”中間件系統(tǒng)訪問使用。
以凍土分布計算數(shù)據(jù)為例,地學(xué)大數(shù)據(jù)處理過程如下所述。
(1)封裝。“高寒云”將地表溫度反演方法和凍土分布模型輸入輸出數(shù)據(jù)的數(shù)據(jù)名稱、數(shù)據(jù)格式、時間尺度、空間分辨率以及模型的初始化狀態(tài)、預(yù)處理方法和運行環(huán)境等在模型元數(shù)據(jù)記錄和描述,再將模型元數(shù)據(jù)、模型運行環(huán)境和模型預(yù)處理方法標(biāo)準(zhǔn)化封裝,存放于模型資源池并“暴露”接口。
圖4 以凍土分布計算為例的數(shù)據(jù)處理流圖Fig.4 Data processing workflow diagram based on frozen soil distribution calculation
(2)模型抽取與檢查。中間件系統(tǒng)接受應(yīng)用層處理請求后,從模型資源池內(nèi)抽取模型并對地表反演方法和凍土分布模型的輸入輸出進行一致性檢查,主要利用業(yè)務(wù)邏輯規(guī)則集檢查地表反演方法的輸出數(shù)據(jù)與凍土分布模型輸入是否匹配。
(3)數(shù)據(jù)抽取與檢查。根據(jù)應(yīng)用層請求的時空范圍從數(shù)據(jù)資源池中抽取數(shù)據(jù)及其元數(shù)據(jù),通過數(shù)據(jù)元數(shù)據(jù)和數(shù)據(jù)字典檢查數(shù)據(jù)的字段名稱、字段類型、單位綱量及存儲格式是否與模型輸入匹配。
(4)“數(shù)據(jù)-模型”一體化計算。將數(shù)據(jù)、方法模型以及數(shù)據(jù)鑲嵌、裁剪及時空插值等常用地學(xué)處理工具組合形成工作流進入超算集群計算,向應(yīng)用層返回計算結(jié)果。
處理流程如圖4所示。
目前“高寒云”已實現(xiàn)包括凍土、積雪、冰湖、荒漠化、滑坡、泥石流和洪水等多種高寒環(huán)境自然災(zāi)害相關(guān)環(huán)境因子的提取、分析和數(shù)據(jù)再生產(chǎn)。形成1套在線平臺、9篇數(shù)據(jù)文章和14 套中巴走廊災(zāi)害數(shù)據(jù)集,如圖5所示。利用地學(xué)大數(shù)據(jù)框架有效地解決當(dāng)前中巴走廊自然災(zāi)害綜合研究地學(xué)數(shù)據(jù)處理時間成本高、重復(fù)工作多、方法不能共用、結(jié)果難以集成等問題,為多維度綜合研究中巴經(jīng)濟走廊自然環(huán)境的時空演變特征及規(guī)律提供高效數(shù)據(jù)處理支撐。
圖5 “高寒云”基于地學(xué)大數(shù)據(jù)處理框架應(yīng)用成果:(a)數(shù)據(jù)處理云平臺;(b)中巴走廊災(zāi)害研究成果論文集Fig.5 “Alpine & Cold Region Research Cloud” application achievements of geoscience big data processing framework:(a) data processing cloud platform;(b) the study collection of China-Pakistan economic corridor disaster
目前地學(xué)領(lǐng)域數(shù)據(jù)挖掘和知識發(fā)現(xiàn)的能力遠(yuǎn)遠(yuǎn)落后于數(shù)據(jù)的獲取能力,地學(xué)數(shù)據(jù)處理的復(fù)雜性和專業(yè)性成為重要原因之一。本文在分析地學(xué)大數(shù)據(jù)特點基礎(chǔ)上給出一種地學(xué)大數(shù)據(jù)處理框架。針對地學(xué)大數(shù)據(jù)多源異構(gòu)、時空相關(guān)、多尺度和不確定性四個特征提出多源數(shù)據(jù)匯集融合、異構(gòu)數(shù)據(jù)綜合集成和“數(shù)據(jù)-模型”一體化三種處理方法,并介紹框架關(guān)鍵技術(shù)高寒環(huán)境聯(lián)合觀測研究云在中巴走廊災(zāi)害研究中的應(yīng)用。地學(xué)處理框架以異構(gòu)數(shù)據(jù)聯(lián)合引擎和可擴展邏輯規(guī)則集,適用于來自應(yīng)用層多尺度、多視角的數(shù)據(jù)抽取聚集需求;將地學(xué)大數(shù)據(jù)與地學(xué)模型組裝在一起,拓展了地學(xué)數(shù)據(jù)處理的廣度和深度,支撐更為復(fù)雜和專業(yè)的地學(xué)大數(shù)據(jù)分析與應(yīng)用。
將大數(shù)據(jù)技術(shù)與地學(xué)研究深度融合是一個值得繼續(xù)探索的問題。本文在地學(xué)數(shù)據(jù)關(guān)聯(lián)的研究和應(yīng)用還十分淺薄,僅將其作為檢查數(shù)據(jù)與模型一致性的規(guī)則,下一步應(yīng)深入研究地學(xué)數(shù)據(jù)關(guān)聯(lián)特征,構(gòu)建適用于地學(xué)“數(shù)據(jù)-計算”一體化的關(guān)聯(lián)模型。本文所提大數(shù)據(jù)包含在互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)及平面媒體中帶有時空屬性的數(shù)據(jù)當(dāng)前也已進入地學(xué)大數(shù)據(jù)的范疇。本文所提出的地學(xué)數(shù)據(jù)處理框架僅面向野外觀測、儀器分析、衛(wèi)星遙感等傳統(tǒng)意義上的地學(xué)數(shù)據(jù),未來會探索針對上述“新興”地學(xué)大數(shù)據(jù)的處理問題。此外,地學(xué)大數(shù)據(jù)處理框架將會進一步加深與人工智能的融合,提供更智能更迅捷的地學(xué)數(shù)據(jù)處理結(jié)果。
利益沖突聲明
所有作者聲明不存在利益關(guān)系。