許義江,李成龍,談昊林,盛雪芬
表生地球化學(xué)教育部重點實驗室,南京大學(xué) 地球科學(xué)與工程學(xué)院,南京210023
隨著科學(xué)技術(shù)的發(fā)展,科研數(shù)據(jù)量飛速增長,傳統(tǒng)的計算分析手段和依賴經(jīng)驗的研究范式已經(jīng)越來越顯示出其局限性。大數(shù)據(jù)可以全方位地、動態(tài)地呈現(xiàn)事物的發(fā)展過程,探明各種因素間的相關(guān)關(guān)系,從碎片化的海量數(shù)據(jù)中恢復(fù)事物的全貌,這將促成并推動科學(xué)家思維方式從邏輯思維向由數(shù)據(jù)驅(qū)動的關(guān)聯(lián)思維轉(zhuǎn)變(Lynch, 2008; 周永章等,2016; 翟明國等,2018)。大數(shù)據(jù)正在掀起一場科研革命。
地學(xué)大數(shù)據(jù)是一種時空信息大數(shù)據(jù)。時空信息是地學(xué)數(shù)據(jù)的一個基本屬性,廣泛產(chǎn)生于地球物理、地球化學(xué)、遙感傳感以及原始數(shù)據(jù)的解析、模擬等地學(xué)相關(guān)的研究活動中。世界各國的地質(zhì)調(diào)查數(shù)據(jù)庫和專題性的地學(xué)數(shù)據(jù)庫以及相應(yīng)科研工作均提供了海量數(shù)據(jù),并且這一數(shù)據(jù)量仍在與日俱增,但其共享性整體上相對較為薄弱(張穎慧等,2020; 李秋立等,2020; 齊浩等,2020),該現(xiàn)狀為開展相應(yīng)的大數(shù)據(jù)研究提供了機(jī)遇與挑戰(zhàn)。
大數(shù)據(jù)分析技術(shù)及其觀念在地球科學(xué)領(lǐng)域的深入應(yīng)用越來越得到重視,地學(xué)研究與大數(shù)據(jù)技術(shù)的結(jié)合已取得了重要的成果。例如Slessarev等(2016)對60291份土壤pH數(shù)據(jù)進(jìn)行隨機(jī)抽樣,證實土壤pH存在從酸性向堿性突變的閾值,且該閾值與年降水量和年潛在蒸發(fā)量的差值有關(guān),降水和蒸發(fā)通過影響成巖礦物(以碳酸鈣和三水鋁石為主)的溶解、搬運(yùn)過程進(jìn)而影響土壤pH; McKenzie等(2016)以碎屑鋯石作為島弧火山活動的指標(biāo),發(fā)現(xiàn)百萬年時間尺度上島弧火山作用活躍性與冰室—溫室氣候變化有直接相關(guān)性,揭示了地球內(nèi)部作用與氣候的關(guān)聯(lián)性。除了數(shù)據(jù)量的增加,大數(shù)據(jù)分析技術(shù)、可視化手段也逐漸引入地學(xué)研究中,例如和弦圖、熱圖、網(wǎng)狀分析等技術(shù)應(yīng)用于礦物共生、共同演化關(guān)系的分析(Hazen et al.,2019);Fan等(2020)采用約束優(yōu)化算法(constrained optimization,CONOP)重建了古生代海洋無脊椎動物物種演化史,將時間精度提高至26±14.9 ka,進(jìn)一步的相關(guān)性分析顯示海洋無脊椎動物物種多樣性演化與大氣CO2分壓變化具有一致的長期趨勢。
表生地球化學(xué)是研究地球表層系統(tǒng)物質(zhì)的化學(xué)組成、化學(xué)作用和化學(xué)演化的地球化學(xué)分支學(xué)科。狹義的表生地球化學(xué)(Supergene Geochemistry)指表生成礦地球化學(xué),主要研究常溫富水環(huán)境下巖石的改造和次生礦物的形成、富集;廣義的表生地球化學(xué)的研究范疇十分廣泛,包括從表生地球化學(xué)動力學(xué)、大陸風(fēng)化、微生物作用、有機(jī)質(zhì)的演化和早期成巖到氣候演變、農(nóng)業(yè)生產(chǎn)、礦床表生演化模式等,涉及自然地理學(xué)、土壤學(xué)、微生物學(xué)、植物學(xué)、地質(zhì)學(xué)、環(huán)境科學(xué)和氣象科學(xué)等多學(xué)科的深度交叉融合(馬民濤等,1994; 王瑞廷等,2002)。本文所提的表生地球化學(xué)為后者,即將地球作為一個完整的系統(tǒng),集各個學(xué)科之所長,是進(jìn)一步深入理解地球物質(zhì)演化、全球氣候變化等前沿問題的必要研究領(lǐng)域。表生地球化學(xué)所研究的對象及內(nèi)容可為深時地球科學(xué)研究提供“將今論古”的地球化學(xué)領(lǐng)域的各類指標(biāo)以及其理論模型的現(xiàn)代檢驗,因此也與地層學(xué)、古生物學(xué)、沉積學(xué)等學(xué)科有著密切關(guān)系,是聯(lián)結(jié)過去—現(xiàn)在—未來的紐帶。因此,表生地質(zhì)作用是地球系統(tǒng)中最復(fù)雜、活躍的地質(zhì)作用過程。其研究范圍遠(yuǎn)超內(nèi)生地質(zhì)作用所局限的巖石圈,涉及水圈、大氣圈、生物圈和巖石圈之間的相互作用。區(qū)別于內(nèi)生地質(zhì)作用體系,表生環(huán)境具有低壓和低而速變的溫度、富氧和充足的二氧化碳、開放的過量水、生物和有機(jī)質(zhì)參與、膠體體系發(fā)育五大特征(王瑞廷等,2002)。不同因素作用的相互耦合、拮抗構(gòu)成了表生作用過程復(fù)雜的“暗箱”,而地球化學(xué)指標(biāo)則是開啟這一“暗箱”的“鑰匙”。因此,近年來越來越多的學(xué)者開始關(guān)注碳循環(huán)、氮循環(huán)等的深地過程與表生環(huán)境變化的關(guān)聯(lián)(Hartmann et al., 2017; Liu et al., 2019; Cannaòa et al., 2020)。
表生地球化學(xué)數(shù)據(jù)大體可劃分為兩大類,一是對各種地質(zhì)樣品進(jìn)行直接測量得到的原始數(shù)據(jù),主要包括巖石、土壤、水體、生物體和化石等地質(zhì)載體中的元素、同位素、化合物含量及其它地球化學(xué)指標(biāo)的分布特征;二是與原始數(shù)據(jù)相對應(yīng)的解釋數(shù)據(jù),例如地質(zhì)體的產(chǎn)狀、環(huán)境溫度、濕度、壓力、大氣CO2分壓、pH值、Eh值及水動力學(xué)條件等,以及其相應(yīng)擬合關(guān)系、模擬結(jié)果等。地質(zhì)樣品的地球化學(xué)特征往往是多要素綜合作用的結(jié)果,而諸如大氣CO2分壓、水體氧化—還原條件、溫度等環(huán)境因素也具有多種基于不同理論假設(shè)的地球化學(xué)指標(biāo)體系,這種雙向的一對多的映射關(guān)系使得地球化學(xué)數(shù)據(jù)呈冗余的結(jié)構(gòu)。此外數(shù)據(jù)格式上有文本、圖像、視頻、表格等多種表現(xiàn)形式,而且絕大多數(shù)數(shù)據(jù)目前并不具有統(tǒng)一的質(zhì)量控制標(biāo)準(zhǔn),如何組織數(shù)據(jù)結(jié)構(gòu)、確立怎樣的標(biāo)準(zhǔn)將成為表生地化數(shù)據(jù)庫建設(shè)的一大難點。
表生地球化學(xué)由其研究問題的多樣性決定了數(shù)據(jù)的多元性。豐富的數(shù)據(jù)來源和龐大的數(shù)據(jù)量十分適于使用大數(shù)據(jù)技術(shù)進(jìn)行分析,而其多學(xué)科融合的特征在某種意義上也決定了相應(yīng)學(xué)科的大數(shù)據(jù)研究現(xiàn)狀(數(shù)據(jù)量、質(zhì)量等)將成為應(yīng)用大數(shù)據(jù)解決具體科學(xué)問題時的短板。此外,隨著新的地球化學(xué)技術(shù)手段不斷發(fā)展成熟,例如非傳統(tǒng)穩(wěn)定同位素的測試技術(shù)、校正方法的更迭,也給表生地球化學(xué)數(shù)據(jù)的整合研究提出了如何評估數(shù)據(jù)質(zhì)量、統(tǒng)一新舊數(shù)據(jù)等問題。
根據(jù)數(shù)據(jù)結(jié)構(gòu)性特征,表生地球化學(xué)數(shù)據(jù)可分為兩大類。一是結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)大多來自國際性或國家地區(qū)研究機(jī)構(gòu)(如各國地調(diào)局)的相應(yīng)科研計劃成果,具有高度統(tǒng)一的結(jié)構(gòu)化特征,往往以圖層或表格形式呈現(xiàn),并遵循便于使用、追索、引用的開放策略,數(shù)據(jù)質(zhì)量高而被多數(shù)研究者引用,是相對成熟的、具有權(quán)威性的數(shù)據(jù)來源;另一部分為長尾數(shù)據(jù),主要指分散在海量文獻(xiàn)中的半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)獨立性高。雖然部分?jǐn)?shù)據(jù)庫對已發(fā)表文獻(xiàn)數(shù)據(jù)進(jìn)行收錄、匯總,但不同文獻(xiàn)的數(shù)據(jù)格式不一致,需要進(jìn)一步的整合、標(biāo)準(zhǔn)化才可應(yīng)用于大數(shù)據(jù)分析與信息挖掘中。同時表生地化數(shù)據(jù)庫呈多元化特征,按研究對象可進(jìn)一步分為海洋地化、環(huán)境地化、考古學(xué)、全球變化科學(xué)等專題(表1),不同的數(shù)據(jù)庫存在不同的研究目的,基于這些目的數(shù)據(jù)的元數(shù)據(jù)、數(shù)據(jù)標(biāo)準(zhǔn)等也存在很大差異,需要進(jìn)一步識別。
GeoReM 數(shù)據(jù)庫(Max Planck Institute for Chemistry Mainz, Germany, 2020-11)是由馬克斯·普朗克研究所(Max Planck Institute)開發(fā)和維護(hù),用于存儲具有一定地質(zhì)和環(huán)境意義的標(biāo)準(zhǔn)物質(zhì)的測試值,例如USGS和NIST等機(jī)構(gòu)的巖石粉末、礦物、同位素標(biāo)準(zhǔn)溶液、生物樣品、河水和海水等標(biāo)準(zhǔn)樣品測試數(shù)據(jù),是EarthChem數(shù)據(jù)庫的有機(jī)組 成(Jochum et al., 2005;Jochum et al., 2009)。 GeoReM包含來自約11340篇論文3500種標(biāo)準(zhǔn)物質(zhì)的50410種分析(截至2020年11月;包括主量元素和痕量元素濃度和質(zhì)量分?jǐn)?shù),放射性同位素和穩(wěn)定同位素比等地球化學(xué)組成數(shù)據(jù)),以及有關(guān)分析值的重要元數(shù)據(jù),例如不確定性、分析方法和測試實驗室等,同時還提供標(biāo)準(zhǔn)物質(zhì)的信息和優(yōu)選整合的參考值(如圖1),是地球化學(xué)指標(biāo)測試和分析的重要參考源。
GeoReM的數(shù)據(jù)主要來源于已發(fā)表文獻(xiàn),由作者錄入相關(guān)信息并經(jīng)過審查后收錄于數(shù)據(jù)庫中。雖然其數(shù)據(jù)結(jié)構(gòu)簡單,但卻抓住了地球化學(xué)數(shù)據(jù)的核心—數(shù)據(jù)可靠性,圍繞這一點設(shè)計出簡明扼要的數(shù)據(jù)登錄表(http://georem.mpch-mainz.gwdg.de/GeoReM-Example.xls),對測試項目、測試儀器、測試值及不確定性等信息進(jìn)行收集歸納。除了標(biāo)準(zhǔn)物質(zhì)測試數(shù)據(jù)的實際整合需求外,數(shù)據(jù)庫使用、錄入的便捷性也是該數(shù)據(jù)庫數(shù)據(jù)量不斷增加的保證。GeoReM的數(shù)據(jù)結(jié)構(gòu)在地球化學(xué)測試的數(shù)據(jù)庫建設(shè)中具有一定的實用性。
以PANGAEA為代表的綜合性地學(xué)數(shù)據(jù)庫的發(fā)展,多經(jīng)歷從單一專題數(shù)據(jù)庫逐漸壯大的歷程,其一般起步早,發(fā)展力量較為雄厚,涵蓋的數(shù)據(jù)量豐富,數(shù)據(jù)庫擴(kuò)展功能完善,在數(shù)據(jù)標(biāo)準(zhǔn)、運(yùn)行模式等方面有著豐富的建設(shè)經(jīng)驗。
表1 部分表生地化數(shù)據(jù)庫簡要信息表(#指代結(jié)構(gòu)化)Table 1 Brief information of several Surficial Geochemistry database (# represents owing structured identity here)
續(xù)表1
PANGAEA(Alfred Wagener Institute and Centre for Marine Environmental Sciences,University of Bremen,2020-11)信息系統(tǒng)是一個對任何組織和個人開放并保證長期運(yùn)行的地球科學(xué)數(shù)據(jù)庫,旨在歸檔、發(fā)布和分發(fā)地球系統(tǒng)研究的相關(guān)數(shù)據(jù)(Grobe et al, 2006)。只要遵守數(shù)據(jù)集中的許可條款,就可以在登錄后免費(fèi)下載并使用數(shù)據(jù)集,每個數(shù)據(jù)集的描述始終可見,并支持以數(shù)字對象標(biāo)識符(DOI)來標(biāo)識、共享、發(fā)布和引用所需數(shù)據(jù)。PANGAEA還允許將數(shù)據(jù)作為科學(xué)文章的附件(示例),或者與ESSD、Geoscience Data Journal、Scientific Data等數(shù)據(jù)期刊相結(jié)合,作為可引用的數(shù)據(jù)集進(jìn)行發(fā)布。
圖1 GeoReM數(shù)據(jù)庫中BHVO-2標(biāo)樣數(shù)據(jù)展示(以Fe為例)示例圖(Klaus,2006)Fig. 1 Search result for analytical data (specifically Fe) in the USGS reference sample BHVO-2
目前PANGAEA收錄有來自477個研究計劃、399283個數(shù)據(jù)集、超過170億條測試數(shù)據(jù)(https://www.pangaea.de/about/, 截至2020年11月),涵蓋化學(xué)、海洋、巖石圈、生物分類、大氣、古生物、生態(tài)學(xué)、生物圈、地表環(huán)境、地球物理、冰凍圈、湖泊與河水、人類活動等專題,并支持根據(jù)作者、發(fā)布時間、具體項目、測試方法、地理位置等參數(shù)對數(shù)據(jù)進(jìn)行篩選。為了對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,PANGAEA設(shè)計了一個基于采樣流程的關(guān)系型數(shù)據(jù)結(jié)構(gòu),通過將原始數(shù)據(jù)劃分為項目信息、采樣行動信息、實地測量數(shù)據(jù)以及樣品分析數(shù)據(jù)四個層次分別錄入相關(guān)信息,以便于數(shù)據(jù)的管理、更新和使用(Grobe et al., 2006)。但由于該數(shù)據(jù)庫注重于數(shù)據(jù)共享,并沒有進(jìn)一步整合,數(shù)據(jù)內(nèi)容相對較為分散和多樣。
PANGAEA數(shù)據(jù)庫可確保數(shù)據(jù)的完整性和真實性以及高可用性。歸檔的數(shù)據(jù)可供機(jī)器讀取,并鏡像到其數(shù)據(jù)倉庫(data warehouse)中,從而提高數(shù)據(jù)編譯速度。PANGAEA提供了多種數(shù)據(jù)處理工具,其中數(shù)據(jù)倉庫可用于高級檢索,實現(xiàn)對整個數(shù)據(jù)連續(xù)體中任何測量參數(shù)上的時間片或表面數(shù)據(jù)矩陣進(jìn)行高效的檢索和編譯,并開放相應(yīng)API;提供了基于Python 3和R語言的數(shù)據(jù)、元數(shù)據(jù)檢索和分析工具pangaeapy(https://github.com/pangaea-data-publisher/pangaeapy) 和pangaear(https://github.com/ropensci/pangaear)作為開源庫和插件,以實現(xiàn)PANGAEA無法直接滿足的數(shù)據(jù)處理需求;以及與PANGAEA信息系統(tǒng)相結(jié)合的數(shù)據(jù)可視化工 具BSRN toolbox(Baseline Surface Radiation Project;Holger et al., 2019)。
海洋科學(xué)研究領(lǐng)域是科研全球化的一個典型代表,圍繞國際聯(lián)合科學(xué)考察計劃產(chǎn)生了一系列優(yōu)質(zhì)的海洋地球化學(xué)數(shù)據(jù)及其數(shù)據(jù)庫,如國際大洋鉆探(魯錚博等,2020)、GEOTRACES、Biochemical Argo等,這些數(shù)據(jù)庫通過長期的觀測以及樣品資料,不斷推進(jìn)對海洋物質(zhì)循環(huán)的認(rèn)識。
GEOTRACES(Scientific Committee on Ocean Research, The International GEOTRACES Programme, 2020-12)是一個專攻海洋生物地球化學(xué)的國際性研究計劃,旨在揭示關(guān)鍵痕量元素及其同位素在海洋的分布、循環(huán)過程,主要指標(biāo)參數(shù)包括Fe、Zn、Cd、Cu等營養(yǎng)元素,Al、Mn、δ15N等指示現(xiàn)代過程的指標(biāo),易受人類活動影響的污染物元素如Pb,以及231Pa、230Th、Nd同位素等古環(huán)境重建指標(biāo),極大地填補(bǔ)了海洋生物地球化學(xué)循環(huán)領(lǐng)域的數(shù)據(jù)空白。約有來自35個國家的科學(xué)家加入了這一計劃,他們計劃將在未來十年初步探明全球所有大洋盆地,并在大洋水氣及水巖界面反應(yīng)及通量、大洋內(nèi)循環(huán)、全球變化指標(biāo)三大領(lǐng)域研究中取得突破。除了相應(yīng)科研成果的展示,GEOTRACES團(tuán)隊在社交平臺twitter上也保持著頻繁的更新,利于科學(xué)影響力傳播。
圖2 GEOTRACES數(shù)據(jù)截面分布: 紅色代表計劃中,黃色代表已完成,黑色代表GEOTRACES對IPY(International Polar Year)的貢獻(xiàn)(https://www.geotraces.org/about-geotraces/)Fig. 2 GEOTRACES sections: red-planned sections, yellow-completed sections, black-completed as GEOTRACES contribution to the IPY (International Polar Year)
GEOTRACES數(shù)據(jù)主要來自遍布全球的航測(圖2)以及對水樣的多種指標(biāo)測試,最終以四年更新一次的intermediate data product(IDP)形式產(chǎn)出。IDP主要包含兩大部分,一是原始電子數(shù)據(jù)(https://webodv.awi.de/geotraces),包含來自超過39次航測、1800個站臺的測試結(jié)果,基本覆蓋全球大洋,其中大西洋數(shù)據(jù)點密度最高,并提 供ASCII、Excel、NetCDF和ODV(Ocean Data View software)4種格式進(jìn)行下載,同時提供數(shù)據(jù)來源、測試方法、發(fā)布文獻(xiàn)等相關(guān)信息的查詢;二是數(shù)據(jù)可視化工具eGEOTRACES Electronic Atlas(http://www.egeotraces.org/)可提供基于相關(guān)數(shù)據(jù)制作的各項化學(xué)指標(biāo)分布圖、3D動畫。目前GEOTRACES已公布IDP2014(Mawji et al., 2015)、 IDP2017(Schlitzer et al.,2018)兩款數(shù)據(jù)產(chǎn)品,并計劃于2020年12月15日發(fā)布IDP2021。其中第二版數(shù)據(jù)產(chǎn)品IDP2017內(nèi)容上囊括了2014版原有數(shù)據(jù),并添加了太平洋和南大洋的相關(guān)元素、同位素數(shù)據(jù),并首次提供相應(yīng)的生物數(shù)據(jù)。此外GEOTRACES還鼓勵上傳共享數(shù)據(jù)(DOoR Portal),并規(guī)范了相應(yīng)的數(shù)據(jù)標(biāo)準(zhǔn)、測試方法等內(nèi)容(https://geotracesold.sedoo.fr/Cookbook.pdf)。
全球變化是研究地球系統(tǒng)整體行為的一門科學(xué),通過探索地球系統(tǒng)的過去、現(xiàn)在和將來的變化規(guī)律及其控制因素,從而建立全球變化預(yù)測的科學(xué)基礎(chǔ),并為地球系統(tǒng)的管理提供科學(xué)依據(jù),與人類文明發(fā)展息息相關(guān)。近年來全球變化科學(xué)數(shù)據(jù)量與日俱增,僅“全球變化科學(xué)研究數(shù)據(jù)出版系統(tǒng)”2019年出版數(shù)據(jù)文件就達(dá)71.72 GB,下載量達(dá)553.43 GB(石瑞香等,2020),但同時這種大規(guī)模數(shù)據(jù)錄入也帶來了數(shù)據(jù)質(zhì)量控制、知識產(chǎn)權(quán)、數(shù)據(jù)共享積極性等問題。
而PAGES(University of Bern, Switzerland, 2020-11)數(shù)據(jù)庫在解決這些數(shù)據(jù)問題、推進(jìn)全球變化研究上,邁出了關(guān)鍵一步。PAGES是由瑞士科學(xué)院和中國科學(xué)院聯(lián)合資助的國際合作項目,旨在協(xié)調(diào)和促進(jìn)全球變化研究,深入了解地球過去環(huán)境變化,以更好地對未來氣候和環(huán)境進(jìn)行預(yù)測,為可持續(xù)性發(fā)展提供戰(zhàn)略科學(xué)依據(jù),其研究范圍包括從上新世到近千年的不同時間尺度上的氣候系統(tǒng)、生物地球化學(xué)循環(huán)、生態(tài)系統(tǒng)過程、生物多樣性和人類活動影響等諸多方面。PAGES的科學(xué)結(jié)構(gòu)將地球系統(tǒng)的關(guān)鍵帶中的科學(xué)問題劃分為氣候,環(huán)境和人類活動三大主題,而三者之間又存在4個主要聯(lián)合內(nèi)容:數(shù)據(jù)管理、全球變暖、閾值與極端事件(http://pastglobalchanges.org/science/intro)。這一科學(xué)結(jié)構(gòu)主要依賴工作組機(jī)制維持。工作組為具有共同研究方向的科學(xué)家提供了跨領(lǐng)域交流合作的平臺,并以解決單一力量難以解決的具體科學(xué)問題為目標(biāo),制定和執(zhí)行以3年為周期的研究方案。PAGES歡迎并鼓勵更多專家學(xué)者加入,并組建相應(yīng)工作組(圖3)。
圖3 PAGES的科學(xué)結(jié)構(gòu):由氣候—環(huán)境—人類三大主題組成,及各主題交叉融合背景下的各個工作組(表2)(http://pastglobalchanges.org/science/intro)Fig. 3 Science structure of PAGES, which is composed of climate-environment-human, and the interactive working groups (Table 2)
作為一個活躍的科研團(tuán)體,PAGES成果卓著,在全球變化科學(xué)領(lǐng)域積累了大量數(shù)據(jù),數(shù)據(jù)主要來自所屬工作組發(fā)表的文獻(xiàn)、會議報告和宣傳材料等成果,更新頻率很高(University of Bern, Switzerland, 2020-11)。其中還有一些專題工作組致力于整合構(gòu)建大型數(shù)據(jù)庫,其中包括不同時期全球及地區(qū)氣候參數(shù)如溫度、降水,不同地質(zhì)載體的元素、同位素組成等(表2)。其中SISAL工作組實現(xiàn)了洞穴次生碳酸鹽碳氧同位素數(shù)據(jù)從非結(jié)構(gòu)化向結(jié)構(gòu)化的轉(zhuǎn)變,具體將在后文介紹。
表2 PAGES所屬工作組大型數(shù)據(jù)庫成果(http://www.pages.unibe.ch/data/databases)Table 2 List of larger data-compilation of PAGES working groups(http://www.pages.unibe.ch/data/databases)
表生地化結(jié)構(gòu)化數(shù)據(jù)庫以GEOTRACES為代表,所涵蓋的數(shù)據(jù)一般是大型科研項目的成果,來源集中,數(shù)據(jù)標(biāo)準(zhǔn)統(tǒng)一,元數(shù)據(jù)完整,并有較為豐富的擴(kuò)展功能,但一般更新較慢。而更新迅速的、相對小型、獨立的科研成果占有很大比重。即使有一些數(shù)據(jù)庫如PANGAEA、USGS、東亞古環(huán)境科學(xué)數(shù)據(jù)庫等進(jìn)行了收錄,但由于不同數(shù)據(jù)來自不同儀器分析、不同模型擬合,缺乏統(tǒng)一的比對標(biāo)準(zhǔn)或者缺少相應(yīng)標(biāo)準(zhǔn)所需的元數(shù)據(jù),數(shù)據(jù)之間的不相容性、獨立性,阻礙了數(shù)據(jù)資源的再利用。因此將這些長尾數(shù)據(jù)統(tǒng)一整合為結(jié)構(gòu)化專題數(shù)據(jù)庫將是表生地球化學(xué)大數(shù)據(jù)建設(shè)的重點。以下重點介紹全球變化領(lǐng)域數(shù)據(jù)庫建設(shè)比較完善的洞穴次生碳酸鹽結(jié)構(gòu)化數(shù)據(jù)庫的建設(shè)經(jīng)驗。
洞穴次生碳酸鹽主要包括石筍和鐘乳石等,是由自然界水體中的碳酸鹽在地下洞穴系統(tǒng)遷移過程中飽和而不斷沉積堆積形成的碳酸鈣沉積物,常見于喀斯特地貌區(qū)。由于其形成往往具有成層性并且適宜U系定年,是研究古氣候變化、重建古降水、古大氣循環(huán)尤其是高精度、短周期氣候事件的天然優(yōu)質(zhì)地質(zhì)載體。在洞穴次生碳酸鹽各項地球化學(xué)指標(biāo)中,碳氧穩(wěn)定同位素的應(yīng)用最為常見,其中石筍氧同位素組成往往與降水量、降水氧同位素或者溫度相關(guān)(McDermott, 2004; 汪永進(jìn)等, 2016; 程海等, 2019)。
洞穴次生碳酸鹽分布廣泛,研究工作開展較早,尤其是近年來高精度U-Th定年技術(shù)以及高分辨率采樣手段的發(fā)展,研究工作日益細(xì)致,積累了超過700多篇文獻(xiàn)的相關(guān)數(shù)據(jù),使得在不同地域、不同時間尺度上探究洞穴次生碳酸鹽的形成機(jī)制及其反演的氣候變化信息成為可能(Wong et al., 2015)。但由于已發(fā)表的文獻(xiàn)數(shù)據(jù)并不具有相同的、標(biāo)準(zhǔn)化的表述形式以及完整準(zhǔn)確的元數(shù)據(jù),即不具有結(jié)構(gòu)化特征,因而無法直接從更大時空尺度上進(jìn)一步發(fā)掘這些數(shù)據(jù)中的信息。NOAA(National Oceanic and Atmospheric Administration)世界數(shù)據(jù)中心的古氣候計劃曾對196份洞穴同位素數(shù)據(jù)進(jìn)行整合統(tǒng)計,并在較長一段時間內(nèi)作為相關(guān)研究的數(shù)據(jù)源,但由于缺少判斷數(shù)據(jù)不確定度的元數(shù)據(jù)或關(guān)鍵數(shù)據(jù),難以保證數(shù)據(jù)質(zhì)量,阻礙了進(jìn)一步的數(shù)據(jù)篩選、分析研究(Comas-Bru et al.,2019)。
SISAL(Speleothem Isotope Systhesis and Analysis)成立于2017年,是PAGES所資助的國際性工作組(University of Reading, University College Dublin, 2020-11),負(fù)責(zé)整合已發(fā)表的洞穴次生碳酸鹽的碳氧穩(wěn)定同位素組成記錄、年代學(xué)記錄等相關(guān)數(shù)據(jù),為氣候重建和模型評估提供準(zhǔn)確可靠的數(shù)據(jù)。在經(jīng)過版權(quán)所有者授權(quán)或者加盟后,SISAL工作組對已發(fā)表數(shù)據(jù)進(jìn)行整合標(biāo)準(zhǔn)化,補(bǔ)足了缺失的關(guān)鍵數(shù)據(jù)以及元數(shù)據(jù),并分別于2018年和2020年發(fā)布了兩版數(shù)據(jù)庫(Atsawawaranunt et al., 2018;Comas-Bru et al., 2020)。2020版(SISALv2)數(shù)據(jù)庫相比于2018版(SISALv1),除了增加數(shù)據(jù)實體的量,糾正之前存在的一些數(shù)據(jù)錯誤,還為現(xiàn)有數(shù)據(jù)實體補(bǔ)充了如洞穴海拔等有助于深入研究的信息,并且新增、補(bǔ)充了503個記錄中原先缺失的年齡—深度模型,使得不同的洞穴次生碳酸鹽可在同一年代學(xué)體系下進(jìn)行對比。SISALv2包含了來自673份獨立的洞穴次生碳酸鹽記錄以及18份來自293個洞穴拼合的樣品數(shù)據(jù),具有不同時間分辨率,共計35396條氧同位素數(shù)據(jù)、200613條碳同位素數(shù)據(jù),基本覆蓋了除南極洲外各大洲,但地區(qū)分布差異較大,具體表現(xiàn)為亞洲、中東地區(qū)的數(shù)據(jù)分別僅涵蓋64.8%和42.3%的已發(fā)表數(shù)據(jù);而時間跨度上包含了末次冰期、冰消期、全新世、近2000年等不同時間段,且普遍定年精度在100至1000年之間。
SISAL對數(shù)據(jù)質(zhì)量控制由構(gòu)建嚴(yán)格完善的數(shù)據(jù)錄入流程以及全面完整、可追溯的數(shù)據(jù)庫結(jié)構(gòu)雙重機(jī)制共同保證。數(shù)據(jù)由原作者或相關(guān)方面的專家經(jīng)原作者確認(rèn)后整合錄入,錄入人會登記在實體表中以便日后追索更正;每條數(shù)據(jù)都有專人審查是否符合統(tǒng)一規(guī)范,并在入庫前由Python小程序檢查每一項是否符合錄入格式要求;SISAL通過預(yù)先設(shè)定錄入格式和相關(guān)名詞列表以消除數(shù)據(jù)的歧義性;審查階段同時會核實空值數(shù)據(jù)是否為原數(shù)據(jù)缺失導(dǎo)致。錄入流程保證了數(shù)據(jù)結(jié)構(gòu)的統(tǒng)一以及內(nèi)容的可溯源性。
SISAL數(shù)據(jù)庫按不同的洞穴系統(tǒng)進(jìn)行劃分(Atsawawaranunt et al., 2018; Comas-Bru et al., 2020),以15張數(shù)據(jù)表為基本組成單位,不同數(shù)據(jù)表通過相應(yīng)的ID進(jìn)行鏈接,并以主體表為核心分別對地點、樣品信息、定年信息、紋層定年信息、沉積間斷、不同石筍的拼合信息、原始年代學(xué)數(shù)據(jù)、標(biāo)準(zhǔn)化年代學(xué)數(shù)據(jù)、δ13C、δ18O、數(shù)據(jù)來源、聯(lián)結(jié)關(guān)系、附注等進(jìn)行準(zhǔn)確地描述(數(shù)據(jù)結(jié)構(gòu)如圖4所示),表格的每一項內(nèi)容都有嚴(yán)格的描述、格式要求。諸如洞穴形狀、樣品距入口距離等反應(yīng)周圍環(huán)境信息也得到歸類記錄,這些信息在衡量洞穴溫度是受空氣對流還是基巖熱擴(kuò)散控制有著重要參考價值;同樣洞穴次生碳酸鹽樣品的地球化學(xué)、礦物相等指標(biāo)也是判斷U-Th數(shù)據(jù)可靠性的重要參數(shù),因而得到準(zhǔn)確核實記錄。正是這些數(shù)據(jù)的追加使得相應(yīng)數(shù)據(jù)的篩選和分析更加精確可靠,避免在應(yīng)用過程中由于數(shù)據(jù)選擇的偏差而得出錯誤結(jié)論。數(shù)據(jù)格式有兩種,分別為關(guān)系型MySQL數(shù)據(jù)庫格式文件以及包含15個CSV數(shù)據(jù)表格的壓縮包文件,兩者都可以實現(xiàn)基于R或Python語言的程序?qū)?shù)據(jù)進(jìn)行進(jìn)一步刷選、加工、分析,保障數(shù)據(jù)關(guān)系及其可擴(kuò)展性。由于定年手段、年齡模型的差異以及原始文獻(xiàn)年代學(xué)數(shù)據(jù)不確定度的數(shù)據(jù)缺失,大大減小了SISAL數(shù)據(jù)庫的可靠性和應(yīng)用價值。為了解決這一問題,SISAL工作組在補(bǔ)充原始數(shù)據(jù)元數(shù)據(jù)的基礎(chǔ)上開發(fā)和評估了linear interpolation、linear regression、Bchron、Bacon、OxCal、COPRA、StalAge這7種基于不同假設(shè)前提的時間—深度模型(Comas-Bru et al., 2020),為數(shù)據(jù)整合提供了統(tǒng)一的年代學(xué)標(biāo)尺。
圖4 SISALv2數(shù)據(jù)庫結(jié)構(gòu)(Comas-Bru et al, 2020)Fig. 4 The structure of the SISAL database version 2
SISAL數(shù)據(jù)庫的建成和完善離不開工作組有關(guān)專家的研究熱情和努力。SISAL工作組由負(fù)責(zé)統(tǒng)籌規(guī)劃的核心領(lǐng)導(dǎo)小組和負(fù)責(zé)不同地區(qū)工作的區(qū)域聯(lián)系人兩部分組成,并向任何對相關(guān)研究感興趣的學(xué)者開放。來自20多個國家的超過100名成員通過定期(線上和線下)會議參與數(shù)據(jù)庫建設(shè),交流并推進(jìn)洞穴次生碳酸鹽同位素研究藍(lán)圖式發(fā)展。在階段I(2017~2019年)完成了對洞穴次生碳酸鹽同位素數(shù)據(jù)的初步整合及年代學(xué)數(shù)據(jù)的標(biāo)準(zhǔn)化,并利用相關(guān)數(shù)據(jù)取得了豐碩的研究成果(http://www.pages.unibe.ch/science/wg/sisal/products)。而在階段II(2020~2023年)除了對數(shù)據(jù)庫的補(bǔ)充完善,SISAL工作組還將針對洞穴環(huán)境監(jiān)控長期數(shù)據(jù)(cavemonitoring.org)、痕量元素等指標(biāo)的潛在應(yīng)用以及基于洞穴次生碳酸鹽數(shù)據(jù)的氣候重建模型三個方面開展下一步工作,深入了解洞穴小環(huán)境與地球系統(tǒng)的耦合關(guān)系。以此來看,正是研究需求推動著SISAL數(shù)據(jù)庫的發(fā)展完善。
圖5 SISALv2包含數(shù)據(jù)點(五邊形)、已識別數(shù)據(jù)點(正方形)及cavemonitoring.org數(shù)據(jù)庫洞穴監(jiān)測點(圓形)分布圖(http://www.pages.unibe.ch/science/wg/sisal/intro)Fig. 5 Speleothem records available (pentagon) and which are identified (square) by SISAL working group and cave monitoring sites (circle) from cavemonitoring.org database
SISAL直接展示了洞穴次生碳酸鹽記錄的時空分布,這種時空分布差異能夠揭示洞穴次生碳酸鹽的形成背景及環(huán)境信息,可用于古氣候變化歷史的重建以及氣候模型的驗證(圖5)。數(shù)據(jù)點的存在與否還可用于評估樣本量、樣本分布對結(jié)論的影響,推測潛在的研究區(qū)域。例如歐洲西部是洞穴次生碳酸鹽同位素數(shù)據(jù)分布最為密集的區(qū)域,基于SISALv1(2018)數(shù)據(jù)庫的統(tǒng)計分析顯示,該地區(qū)洞穴次生碳酸鹽氧同位素隨地區(qū)分布的變化與當(dāng)?shù)亟邓跬凰亟M成(Global Network of Isotopes in Precipitation, GNIP站點數(shù)據(jù))有很好的映射關(guān)系(Lechleitner et al.,2018),并且在末次冰期中呈現(xiàn)一致的小冰期—小間冰期旋回信號,這種信號在高緯山地地區(qū)尤為顯著;而全新世的數(shù)據(jù)由于較低的信噪比,這種趨勢并不那么明顯,研究認(rèn)為這種差異受控于溫度的變化。而在中東地區(qū),更新世以來的洞穴次生碳酸鹽氧同位素組成據(jù)則顯示百年尺度變化指示降水量的變化(Burstyn et al.,2019),但受限于數(shù)據(jù)點有限,并不能分離水汽源區(qū)的影響。南美洲的相關(guān)數(shù)據(jù)的分布呈杠鈴形,巴西中部地區(qū)氧同位素值偏負(fù),這種特征被解釋為熱帶輻合帶上升流加強(qiáng)導(dǎo)致輸送過來的水汽偏負(fù),而非降水量效應(yīng)的影響(Deininger et al., 2019)。Comas-Bru等(2019)結(jié)合ECHAM5-wiso大氣循環(huán)模型模擬降水氧同位素比值和現(xiàn)代觀測值,與SISAL數(shù)據(jù)相比較,結(jié)果均呈良好的一致性,進(jìn)一步證實SISAL數(shù)據(jù)可用于檢驗氣候模型的模擬數(shù)據(jù),作者同時也指出洞穴次生碳酸鹽數(shù)據(jù)的篩選,如礦物相、時間尺度、年代學(xué)特征、沉積連續(xù)性等差異,都可能影響模型檢驗的結(jié)果。
SISAL的實踐建立了一套合理的、國際公認(rèn)的洞穴次生碳酸鹽碳氧同位素數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)(http://www.mdpi.com/2571-550X/2/1/7/s1), 符合大數(shù)據(jù)可查詢、可獲取、可交互、可重復(fù)使用(FAIR)準(zhǔn)則,使得新老數(shù)據(jù)得以在統(tǒng)一平臺共享共通,數(shù)據(jù)更具有生命力。進(jìn)一步結(jié)合GNIP數(shù)據(jù)庫、洞穴監(jiān)測數(shù)據(jù)庫以及大數(shù)據(jù)分析技術(shù),SISAL數(shù)據(jù)庫將在揭示洞穴次生碳酸鹽氧同位素組成變化機(jī)制、重建區(qū)域氣候變化歷史上有很大發(fā)揮空間。
以上調(diào)研結(jié)果表明,盡管表生地球化學(xué)領(lǐng)域并不缺相關(guān)數(shù)據(jù)庫,但由于研究對象復(fù)雜,研究范圍廣,而數(shù)據(jù)整體呈現(xiàn)多元化、跨學(xué)科的特征,不同專題數(shù)據(jù)內(nèi)容差異大,數(shù)據(jù)庫發(fā)展不平衡,數(shù)據(jù)標(biāo)準(zhǔn)不完善,同時還缺乏部分具有針對性和專業(yè)性的數(shù)據(jù)庫。深時數(shù)字地球(DDE)國際大科學(xué)計劃將建設(shè)開放共享的大數(shù)據(jù)平臺,從大數(shù)據(jù)的角度、用大數(shù)據(jù)方法解決地學(xué)問題,推動地球科學(xué)研究向數(shù)據(jù)密集型科學(xué)轉(zhuǎn)變(Cheng et al., 2020)。已有數(shù)據(jù)庫基本滿足其建立的原始目的,并遵循數(shù)據(jù)FAIR原則,但可能仍需進(jìn)一步整合、標(biāo)準(zhǔn)化,這些數(shù)據(jù)庫的成功實踐也可以為DDE未來工作提供具體經(jīng)驗和參考(表3)。在DDE的推進(jìn)和發(fā)展引領(lǐng)下,表生地球化學(xué)領(lǐng)域的數(shù)據(jù)庫建設(shè)應(yīng)從傳統(tǒng)學(xué)科導(dǎo)向調(diào)整為重大問題導(dǎo)向,強(qiáng)化學(xué)科融合與領(lǐng)域整合。
表3 本文介紹的主要數(shù)據(jù)庫的優(yōu)缺點及數(shù)據(jù)庫建設(shè)啟示Table 3 Advantages, disadvantages and related inspiration of 5 databases mentioned here
表生地球化學(xué)領(lǐng)域現(xiàn)階段數(shù)據(jù)庫建設(shè)主要存在兩大難題—已有數(shù)據(jù)、數(shù)據(jù)庫的數(shù)據(jù)標(biāo)準(zhǔn)化以及大量非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化。為解決這些問題,表生地球化學(xué)工作組需要借鑒和學(xué)習(xí)已經(jīng)成熟的中大型數(shù)據(jù)庫,如USGS、GEOTRACSES、PAGES等的建設(shè)和管理經(jīng)驗,并以此為基石,組建針對性的專題科研團(tuán)體,以科研問題和實際需求為導(dǎo)向,制定元數(shù)據(jù)標(biāo)準(zhǔn),有效整合已有數(shù)據(jù)庫和長尾數(shù)據(jù),建成互聯(lián)互通的表生地球化學(xué)數(shù)據(jù)共享平臺。
數(shù)據(jù)結(jié)構(gòu)上可以借鑒SISAL數(shù)據(jù)庫和GeoReM數(shù)據(jù)庫,將數(shù)據(jù)內(nèi)容按不同測試項目、樣品描述、解釋數(shù)據(jù)等劃分為若干個相關(guān)聯(lián)的數(shù)據(jù)集,以減少數(shù)據(jù)冗余度,后期對數(shù)據(jù)的修正、更新則可以通過對相應(yīng)數(shù)據(jù)集的增刪實現(xiàn),保證了數(shù)據(jù)的可溯源性和新老數(shù)據(jù)可對比性。對于數(shù)據(jù)量足以支撐大數(shù)據(jù)分析研究的研究專題,如黃土第四季研究及其大量非結(jié)構(gòu)化數(shù)據(jù),則理應(yīng)建立對應(yīng)的專題數(shù)據(jù)庫,以期進(jìn)一步擴(kuò)展開發(fā)對應(yīng)的分析工具,深入發(fā)掘數(shù)據(jù)背后的知識;而對于數(shù)據(jù)量稍小的研究專題或者說數(shù)據(jù)庫建設(shè)處于早期階段,表生地球化學(xué)大數(shù)據(jù)平臺應(yīng)該履行綜合性數(shù)據(jù)庫的職能,在收集、整合數(shù)據(jù)的基礎(chǔ)上,確立數(shù)據(jù)的標(biāo)準(zhǔn)和共享原則以及便于操作的錄入和引用流程,繼而隨著數(shù)據(jù)量增大,從中蛻變出更具有指向性的專題數(shù)據(jù)庫。
一枝獨秀不是春,百花齊放春滿園,表生地球化學(xué)作為地質(zhì)學(xué)與其它科學(xué)的高度交叉與交融的綜合性研究學(xué)科,必能在百花齊放的大數(shù)據(jù)時代迎來又一輪春天!
致謝:本文系“深時數(shù)字地球”(Deep-time Diyital Earth)大科學(xué)計劃系列成果之一。