国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

地球科學數(shù)據(jù)倉儲通用框架設計

2022-04-18 08:04王卷樂袁月蕾
中國科技資源導刊 2022年2期
關鍵詞:管理

蔣 涵 王卷樂 袁月蕾

(1. 江蘇海洋大學海洋技術與測繪學院,江蘇連云港 222005;2. 中國科學院地理科學與資源研究所資源與環(huán)境信息系統(tǒng)國家重點實驗室,北京 100101;3. 江蘇省地理信息資源開發(fā)與利用協(xié)同創(chuàng)新中心,江蘇南京 210023)

0 引言

隨著數(shù)據(jù)密集型科學研究迅速發(fā)展,科學研究第四范式的到來,大數(shù)據(jù)已經(jīng)成為新時代戰(zhàn)略型數(shù)字化資源。第四范式是繼第一范式的經(jīng)驗科學、第二范式的理論科學、第三范式的計算科學之后,以數(shù)據(jù)密集型科學研究為特征的新的研究范式??茖W數(shù)據(jù)已成為驅(qū)動創(chuàng)新發(fā)現(xiàn)的重要因素,也是科學研究數(shù)字化基礎設施的核心內(nèi)容[1]。學術界一直非常重視科研數(shù)據(jù)對于科學研究的支撐作用[2]。2016年3月提出的FAIR(可發(fā)現(xiàn)、可訪問、可互操作和可重用)原則被稱為“科學數(shù)據(jù)管理的指導原則”[3],其對科學數(shù)據(jù)的有序管理與共享具有廣泛的科學意義與價值。

海量地球科學數(shù)據(jù)的匯聚和共享離不開數(shù)據(jù)倉儲。數(shù)據(jù)倉儲(Date Repository),即數(shù)據(jù)存儲庫,是為研究人員、學術期刊、機構(gòu)提供數(shù)據(jù)存儲、數(shù)據(jù)管理、數(shù)據(jù)保存、數(shù)據(jù)共享和數(shù)據(jù)出版及數(shù)據(jù)在線獲取服務的基礎設施。確保數(shù)據(jù)的真實、可靠、完整和可用是科學數(shù)據(jù)倉儲的核心目標。國際上將數(shù)據(jù)倉儲具備的這4種特性稱之為“TRUST”(可信任數(shù)據(jù)倉儲)[4]。數(shù)據(jù)倉儲不僅有利于用戶便捷準確地獲取免費的學術信息,而且可以長期保存、有效管理學術成果,向他人展示自己科學研究內(nèi)容,加速學術傳播與交流,提升科研成果的引用率,促進學術的良性競爭等。數(shù)據(jù)倉儲的研究重點不僅僅是信息系統(tǒng)建設, 還涉及數(shù)據(jù)政策、數(shù)據(jù)標準、數(shù)據(jù)的權益保護等問題。數(shù)據(jù)倉儲在數(shù)據(jù)全生命周期管理中扮演著關鍵角色,為研究成果提供了一個穩(wěn)定的平臺。清楚地了解如何處理數(shù)據(jù)倉儲存儲的數(shù)據(jù),可以促進數(shù)據(jù)的有效治理,從而使數(shù)據(jù)倉儲管理人員、數(shù)據(jù)作者、數(shù)據(jù)用戶以及更廣泛的學術團體能夠從數(shù)據(jù)倉儲中獲得最大的收益[5-7]。

值得說明的是,科學數(shù)據(jù)倉儲與用于數(shù)據(jù)存儲和計算的云平臺是有區(qū)別的。云概念是基于“云計算”技術,實現(xiàn)各種終端設備之間的相互聯(lián)通。云存儲技術是基于傳統(tǒng)媒體系統(tǒng)發(fā)展的一種全新的信息存儲管理方式。這種方式將計算機系統(tǒng)的軟硬件優(yōu)勢進行整合應用,即將計算、存儲、網(wǎng)絡資源封裝成服務的形式提供給用戶,用戶以自己所需的方式通過互聯(lián)網(wǎng)獲取所需的服務[8]。而數(shù)據(jù)倉儲則是一個與期刊論文數(shù)據(jù)關聯(lián)的共享應用系統(tǒng),它既可以借助于現(xiàn)有的云存儲平臺,也可以獨立建立自身的存儲系統(tǒng)。

然而,如何科學有效地建立本領域的科學數(shù)據(jù)倉儲?本文首先調(diào)研對比國內(nèi)外已建的典型數(shù)據(jù)倉儲在功能結(jié)構(gòu)、服務內(nèi)容、服務形式等方面的情況,再以地球科學數(shù)據(jù)倉儲為實例,結(jié)合地球科學數(shù)據(jù)的特點,對地球科學數(shù)據(jù)倉儲的架構(gòu)和功能進行總體設計,最后提出地球科學數(shù)據(jù)倉儲通用框架設計,以期對地球我國科學數(shù)據(jù)倉儲的建設起到參考和借鑒的作用。

1 國內(nèi)外數(shù)據(jù)倉儲的發(fā)展情況

本節(jié)以國內(nèi)外通用型科學倉儲和地球科學領域的學科型倉儲在使用流程、服務內(nèi)容和特點等方面進行概述,以期找到數(shù)據(jù)倉儲構(gòu)建的服務切入點,探索地球科學領域的數(shù)據(jù)服務模式。

1.1 Figshare

Figshare是英國Digital Science公司旗下的一個數(shù)據(jù)倉儲,為科研人員提供發(fā)布各類研究成果的平臺,使研究成果可以更好地被引用、共享和發(fā)現(xiàn)。Figshare允許用戶上傳包括文本、圖片、多媒體等多種數(shù)據(jù)類型的數(shù)據(jù),使各種形式的研究成果都能被更好地存儲、使用和分享。它為所有數(shù)據(jù)分配了數(shù)字對象唯一標識DOI(Digital Object Identifier),以便于數(shù)據(jù)的引用。該平臺對所有用戶開放,并可以對上傳數(shù)據(jù)進行統(tǒng)計,了解每個文件被瀏覽、共享和下載的次數(shù)。Figshare是一個基于云計算技術的數(shù)據(jù)倉儲,采用Creative Commons(CC)許可協(xié)議共享數(shù)據(jù),以云平臺和云數(shù)據(jù)為基礎,來保證數(shù)據(jù)存儲的可靠性和安全性,同時也滿足了出版商的出版結(jié)構(gòu)[9-11]。

Figshare平臺涉及地學、社會學、生物學、化學、工程學等近30個學科的數(shù)據(jù)。用戶首先需要注冊一個賬戶,然后登錄到系統(tǒng)中,根據(jù)自己的需求上傳存儲自己的研究成果。在用戶空間內(nèi)可對數(shù)據(jù)進行編輯,并根據(jù)自身需要設置訪問權限,選擇可公開或者可不公開方式。如果選擇公開方式則可以在此平臺上發(fā)表出版,如果選擇不公開方式則數(shù)據(jù)僅為用戶本人可見,但用戶在后期仍可以根據(jù)自身情況決定是否公開出版[12-13]。

Figshare平臺為科研人員、科研機構(gòu)和出版商三類用戶提供多種服務。

(1)為個人提供服務。個人是Figshare平臺的主要服務對象,為其提供了許多免費的服務。平臺接收上傳最大5 GB的文件,給個人提供20 GB的免費私人空間。不僅可以上傳包括圖片、表格等任何文件格式的數(shù)據(jù),而且可以與同事一起建立私人文件夾并進行訪問。數(shù)據(jù)上傳后可以擁有DOI,用戶個人選擇是否公開數(shù)據(jù)。

(2)為機構(gòu)提供服務。Figshare平臺為機構(gòu)提供科研數(shù)據(jù)管理、科研數(shù)據(jù)傳播和可定制的門戶展示服務。Figshare還為機構(gòu)提供統(tǒng)計和報告的服務,管理人員可以查看機構(gòu)人員或者數(shù)據(jù)下載量、引用量等統(tǒng)計數(shù)據(jù)。

(3)為出版商提供服務。Figshare與PLOS One、Wiley等出版商合作,涉及學科類型眾多。期刊文獻的每一個附帶數(shù)據(jù)都有一個唯一的DOI與之匹配。平臺會創(chuàng)建一個包含數(shù)字媒體和數(shù)據(jù)文件的庫,促進數(shù)據(jù)的開放使用從而增加文章的流量。

1.2 ScienceDB

Science Data Bank(ScienceDB)由 中 國科學院計算機網(wǎng)絡信息中心建設維護,致力于打造中國的數(shù)據(jù)長期共享和數(shù)據(jù)發(fā)布資源庫。ScienceDB是一個公共的通用型科學數(shù)據(jù)倉儲,主要面向科研人員、科研項目/團隊、科研期刊、科研機構(gòu)及高校等利益相關者,提供科學數(shù)據(jù)匯交、保存、出版、共享和獲取等服務,支持多種數(shù)據(jù)獲取與使用許可,在充分保障數(shù)據(jù)擁有者權益的基礎上,促進數(shù)據(jù)的共享與使用。ScienceDB確保出版數(shù)據(jù)的持續(xù)訪問、長期管理,并面向國際學術界、學術期刊和出版商以及其他利益相關者提供配套的數(shù)據(jù)發(fā)布和獲取服務。ScienceDB致力于出版數(shù)據(jù)符合主流數(shù)據(jù)標準或慣例的科學數(shù)據(jù),旨在促進科學數(shù)據(jù)的可發(fā)現(xiàn)性、可訪問性、互操作性和可重用性(FAIR原則),并推動數(shù)據(jù)共享文化氛圍在中國的培育及良性發(fā)展[14]。在ScienceDB上發(fā)表一個數(shù)據(jù)集需要4個步驟,即注冊與登錄、數(shù)據(jù)提交、數(shù)據(jù)評審和數(shù)據(jù)發(fā)布。ScienceDB的服務具有以下特性。

(1)開放與共享性。①永久可訪問:保障上傳數(shù)據(jù)與出版資源的永久可訪問。②出版數(shù)據(jù)可發(fā)現(xiàn):ScienceDB對所有發(fā)布數(shù)據(jù)資源進行了搜索引擎發(fā)現(xiàn)優(yōu)化。③開放共享:在尊重數(shù)據(jù)作者知識產(chǎn)權的前提下,ScienceDB上的數(shù)據(jù)提倡并支持開放共享,并推薦選擇CC0協(xié)議出版用戶數(shù)據(jù)成果。④OPEN API:出版數(shù)據(jù)集及ScienceDB的公開服務提供OPEN API為程序或第三方服務使用。⑤數(shù)據(jù)資源可獲?。河脩艨稍诰€獲取在ScienceDB上發(fā)布的數(shù)據(jù)集元數(shù)據(jù)和數(shù)據(jù)文件。

(2)數(shù)據(jù)管理方式和模式可信任性。①通用兼容:ScienceDB不限制數(shù)據(jù)所涉及的學科領域,并支持所有格式的數(shù)據(jù)文件上傳。②數(shù)據(jù)資源可引用:提供標準化的元數(shù)據(jù)采集過程和自動化的數(shù)據(jù)資源唯一標識注冊,推薦每個發(fā)表數(shù)據(jù)資源的引用格式,確保發(fā)表的數(shù)據(jù)成果可規(guī)范引用。③出版資源唯一標識:配套唯一標識自動注冊及管理服務,確保所有出版數(shù)據(jù)集可唯一認證標識,且支持DOI和CSTR(Chinese Science and Technology Resource)標識體系注冊及認證。④數(shù)據(jù)更新可追溯:ScienceDB跟蹤數(shù)據(jù)資源的每一次更新,記錄、發(fā)布并標識注冊發(fā)布數(shù)據(jù)集的歷史版本信息。⑤數(shù)據(jù)可管理:提供數(shù)據(jù)質(zhì)量審核、訪問權限控制、數(shù)據(jù)版本控制等管理服務。⑥資源互聯(lián)與國際化推廣:提供自動化的中英雙語服務,助力數(shù)據(jù)成果傳播;與第三方數(shù)據(jù)服務資源對接,達成數(shù)據(jù)資源的全網(wǎng)互聯(lián)與數(shù)據(jù)流通。

1.3 PANGAEA

PANGAEA數(shù)據(jù)倉儲是由德國阿爾弗雷德韋格納研究所、赫爾姆霍茲極地和海洋研究中心及不來梅大學海洋環(huán)境科學中心主辦的對任何組織和個人開放并保證長期運行的地球科學數(shù)據(jù)庫,旨在歸檔、發(fā)布和分發(fā)地球系統(tǒng)研究的相關數(shù)據(jù)。它是國際科學理事會世界數(shù)據(jù)系統(tǒng)(WDS)的成員,是經(jīng)CoreTrustSeal認證的公共倉儲。PANGAEA發(fā)展起步早,在數(shù)據(jù)標準和政策、運行方式和模式等方面經(jīng)驗豐富[15-16]。

(1)PANGAEA中的數(shù)據(jù)具有良好的可發(fā)現(xiàn)性。大多數(shù)數(shù)據(jù)是免費提供的,可以根據(jù)數(shù)據(jù)集描述中提到的許可條款進行使用,可以使用數(shù)字對象標識符DOI來識別、共享、發(fā)布和引用該數(shù)據(jù)庫中的數(shù)據(jù)集。

(2)PANGAEA允許將數(shù)據(jù)作為論文的附件進行發(fā)布,或者與Scientific Data、ESSD、Geoscience Data Journal以及其他數(shù)據(jù)期刊相結(jié)合進行數(shù)據(jù)集的發(fā)布。數(shù)據(jù)領域涵蓋地球化學、海洋、巖石圈、生物分類、大氣、古生物、生態(tài)學、生物圈、地表環(huán)境、地球物理、冰凍圈、湖泊與河流、人類活動等專題,并支持根據(jù)作者、發(fā)布時間、具體項目、測試方法、地理位置等參數(shù)對數(shù)據(jù)進行篩選。

(3)PANGAEA有一個完善的互操作性框架,從而能夠向數(shù)據(jù)注冊、數(shù)據(jù)門戶和其他服務提供者傳播元數(shù)據(jù)和數(shù)據(jù)。PANGAEA提供了廣泛的Web服務(SOAP/REST),包括用于元數(shù)據(jù)獲取的OAI-PMH,對于選定的應用程序還可提供數(shù)據(jù)倉庫Web服務,API允許檢索任何一組數(shù)字和文本數(shù)據(jù)。所有PANGAEA數(shù)據(jù)集也遵從Schema.org/DataSet元數(shù)據(jù),以便于數(shù)據(jù)的管理、更新和使用。

(4)PANGAEA的數(shù)據(jù)政策有明確的表述。數(shù)據(jù)庫內(nèi)容定義為地球系統(tǒng)研究數(shù)據(jù)。數(shù)據(jù)可以在時間和空間上進行地理參照??梢栽O置數(shù)據(jù)保護期對數(shù)據(jù)進行保護。數(shù)據(jù)由來源項目或機構(gòu)負責。數(shù)據(jù)(元數(shù)據(jù))的格式和描述必須確保其最廣泛和最容易使用。此外,在使用來自PANGAEA的數(shù)據(jù)時,需要用戶正確引用這些數(shù)據(jù)。

1.4 Dryad

Dryad由美國國家進化分析中心等機構(gòu)在美國自然科學基金會的資助下建立,其最初由進化生物學和生態(tài)學的主要期刊和科學團體提出,鼓勵與數(shù)據(jù)一同提交手稿,進行存儲。目前已有451種期刊與之合作進行存儲數(shù)據(jù)。Dryad具有以下特性。

(1)Dryad接收大多數(shù)類型的提交文件。如文本、電子表格、視頻、照片、代碼等,也接收多個文件的壓縮文件。

(2)每個通過Web接口上傳的數(shù)據(jù)發(fā)布都有300 GB的限制。Dyrad可以接受更大數(shù)據(jù)的提交,但提交者需要先與管理員聯(lián)系。建議單個文件不應超過10 GB,這樣可以確保Dryad用戶輕松訪問和下載文件。

(3)Dryad中的所有數(shù)據(jù)都遵循知識共享協(xié)議CC0。CC0(又名CC Zero)專門用于減少對數(shù)據(jù)重用的法律和技術障礙,但是CC0并不能免除研究人員在某種程度上重復使用這些數(shù)據(jù)的局限性,以及要求引用原始數(shù)據(jù)作者的權利。CC0有助于發(fā)現(xiàn)、重用和引用該數(shù)據(jù)。

(4)提交數(shù)據(jù)會獲得一個唯一的DOI,并以https://doi.org/10.5061/dryad.XXXX.this格式進行保存,這樣就可以方便數(shù)據(jù)的查找與引用[17-20]。

1.5 數(shù)據(jù)倉儲總結(jié)與對比

表1是對以上幾類典型數(shù)據(jù)倉儲情況的對比結(jié)果。

表1 數(shù)據(jù)倉儲對比

近年來,除了ScienceDB,國內(nèi)科學數(shù)據(jù)倉儲呈現(xiàn)快速發(fā)展態(tài)勢。2019年,國家地球系統(tǒng)科學數(shù)據(jù)中心的WDS可再生資源與環(huán)境數(shù)據(jù)中心入選美國地球物理學會(AGU)發(fā)布的“領域-學科倉儲庫推薦名單”。2020年,國家青藏高原科學數(shù)據(jù)中心通過《自然》(Nature)數(shù)據(jù)期刊Scientific Data認證,成為Nature及其子刊文章投稿時可選的數(shù)據(jù)倉儲中心。2021年,國家空間科學數(shù)據(jù)中心(NSSDC)成為AGU旗下期刊當年推薦的21個倉儲庫之一。

對上述國內(nèi)外數(shù)據(jù)倉儲的梳理發(fā)現(xiàn),當前國內(nèi)外數(shù)據(jù)倉儲在功能、服務等方面有以下共同的特點:一是數(shù)據(jù)都擁有可唯一識別的DOI,使數(shù)據(jù)易于發(fā)現(xiàn)和引用;二是數(shù)據(jù)都遵循一定的協(xié)議許可,使數(shù)據(jù)權益問題得到保障等;三是用戶可以根據(jù)自己的需求決定數(shù)據(jù)是否出版發(fā)布。這些功能對于地球科學數(shù)據(jù)倉儲的框架設計具有非常重要的借鑒意義,但還不能直接滿足地球科學數(shù)據(jù)倉儲的需求。如有的地球科學數(shù)據(jù)年代久遠,數(shù)據(jù)的時間范圍難以直觀掌握;數(shù)據(jù)的經(jīng)緯度信息不明確,不便于在一定空間范圍內(nèi)數(shù)據(jù)的獲取。因此,在借鑒以上國內(nèi)外成果數(shù)據(jù)倉儲經(jīng)驗基礎上,本文提出地球科學數(shù)據(jù)倉儲的總體設計框架。

2 地球科學數(shù)據(jù)倉儲的總體設計

2.1 需求和背景

地球科學涵蓋學科種類繁多,領域廣泛,涉及包括空間科學、地質(zhì)學、海洋科學等領域在內(nèi)的多學科及其交叉融合。地球科學數(shù)據(jù)指的是在地球科學研究過程中,研究人員通過實地勘測、空間探測、實驗測試、計算機模擬等手段采集的各類地球科學數(shù)據(jù)的總稱。地球科學數(shù)據(jù)形式各異、種類繁多、來源廣泛,具有大數(shù)據(jù)的體積大(volume)、速度快(velocity)、模態(tài)多(variety)、真?zhèn)坞y辨(veracity) 和價值高密度低(value)的5V特性,還具有高時空性、高可視化、高相關性和高(多)維度的“四高”特征[21]。以固體地球科學為例,如表2所示。

表2 固體地球?qū)W科分類

隨著大數(shù)據(jù)的快速發(fā)展,地球科學數(shù)據(jù)在研究陸地、海洋和大氣等圈層在內(nèi)的地球形成、生命演化、地球物質(zhì)組成等重大課題中越來越重要[22]。地球科學數(shù)據(jù)大多是反映一定時間和空間范圍內(nèi)物質(zhì)狀態(tài)和物質(zhì)性質(zhì)的數(shù)據(jù),因此地球科學數(shù)據(jù)具有高時空性的特點。這正是地球科學數(shù)據(jù)倉儲構(gòu)建中的關鍵特點。

2.2 總體架構(gòu)

地球科學數(shù)據(jù)倉儲的基本使用流程如圖1所示。首先,用戶需要注冊賬戶登錄系統(tǒng),然后根據(jù)需求填寫數(shù)據(jù)的注冊信息,包括是否有DOI、是否需要上傳數(shù)據(jù)等,再提交給管理員進行數(shù)據(jù)注冊信息的審核。如果需要上傳數(shù)據(jù),數(shù)據(jù)可設置為僅對本人可見,不進行公開發(fā)布,也可以選擇發(fā)布數(shù)據(jù),但對數(shù)據(jù)有一定的保護期限制,限制期過后自動出版。數(shù)據(jù)上傳完成后,對于需要出版的數(shù)據(jù)提交數(shù)據(jù)注冊,系統(tǒng)會生成一個唯一的DOI號,然后由系統(tǒng)根據(jù)關鍵詞自動分配或管理員指定數(shù)據(jù)審核專家對數(shù)據(jù)進行審核,直至數(shù)據(jù)注冊信息和數(shù)據(jù)集審核通過后,注冊成功,數(shù)據(jù)才可以公開出版。

圖1 地球科學數(shù)據(jù)倉儲總體流程

2.3 功能設計

地球科學數(shù)據(jù)倉儲是一個針對地球科學數(shù)據(jù)的集注冊、存儲、管理以及應用于一體的系統(tǒng)。在計算機架構(gòu)的基礎上,結(jié)合地球科學數(shù)據(jù)特點,形成包括數(shù)據(jù)注冊分系統(tǒng)、倉儲前端應用分系統(tǒng)、數(shù)據(jù)管理分系統(tǒng)和用戶管理分系統(tǒng)在內(nèi)的4個分系統(tǒng)。

2.3.1 數(shù)據(jù)注冊分系統(tǒng)

(1)用戶中心。用戶中心主要包括用戶的個人賬戶注冊登錄以及個人信息維護。①注冊:注冊信息支持輸入郵箱獲取驗證碼、設置密碼、確認密碼進行個人賬戶的注冊。②登錄:支持輸入用戶名或者郵箱、密碼、驗證碼進行登錄認證;支持退出登錄。③找回密碼:用戶如果忘記了密碼,可以通過郵箱或找回密碼。④用戶信息:用戶可以查看自己的基本信息,內(nèi)容包括用戶名、用戶真實姓名、郵箱、研究領域、所屬國家等信息;支持修改用戶個人信息。

(2)數(shù)據(jù)注冊。數(shù)據(jù)注冊主要是填寫相關元數(shù)據(jù)信息,將數(shù)據(jù)作者及對數(shù)據(jù)自身的描述信息進行登記。數(shù)據(jù)注冊主要包括三大部分:數(shù)據(jù)集標識信息、數(shù)據(jù)時空信息、數(shù)據(jù)的權利責任信息。數(shù)據(jù)集標識信息是要求用戶將數(shù)據(jù)集的名稱、作者、關鍵詞、摘要、學科分類等信息的填寫。數(shù)據(jù)時空信息是對數(shù)據(jù)集的時間分辨率、高度和深度、數(shù)據(jù)集的坐標信息等時空信息的描述,以便于對數(shù)據(jù)的時間空間信息進行準確定位。數(shù)據(jù)的權利責任信息是責任方姓名、國家、電子郵件等信息。

(3)數(shù)據(jù)存儲。安全可靠的存儲環(huán)境是科學數(shù)據(jù)倉儲穩(wěn)定持續(xù)為用戶服務的前提。數(shù)據(jù)生產(chǎn)者針對自己所要提交的數(shù)據(jù),填寫科學數(shù)據(jù)的描述信息和分類等注冊信息,以便后期使該數(shù)據(jù)的檢索、使用、發(fā)布、引用以及分析提供支撐。數(shù)據(jù)注冊成功后,如果需要對數(shù)據(jù)進行發(fā)布,則需要上傳數(shù)據(jù)。數(shù)據(jù)上傳成功后,會自動生成內(nèi)部標識符和DOI。對于首次發(fā)表的數(shù)據(jù),還需要選擇數(shù)據(jù)的許可協(xié)議,以便明確數(shù)據(jù)的權利責任。

2.3.2 倉儲前端應用分系統(tǒng)

(1)個人數(shù)據(jù)中心。個人數(shù)據(jù)中心是一個包括我的數(shù)據(jù)、項目、收藏夾、購物車等對數(shù)據(jù)進行管理的模塊。①我的數(shù)據(jù):支持數(shù)據(jù)的列表展示,包括數(shù)據(jù)名、注冊信息審核狀態(tài)、數(shù)據(jù)集審核狀態(tài)、狀態(tài)更新日期、數(shù)據(jù)量大小、操作;支持將數(shù)據(jù)移入到項目數(shù)據(jù)中;支持將數(shù)據(jù)移入到收藏夾中;支持未提交注冊的數(shù)據(jù)保存草稿,且支持編輯修改。②項目:支持項目的管理,包括創(chuàng)建、查看、編輯、刪除;支持在項目中移出、移入數(shù)據(jù)集;支持項目成員管理(創(chuàng)建項目的人可管理項目成員,普通用戶不可以);支持項目中所有成員共享項目。③收藏夾:支持收藏夾的管理,包括創(chuàng)建、查看、編輯、刪除;支持在收藏夾中移入移出平臺數(shù)據(jù)集和個人數(shù)據(jù)集;支持按數(shù)據(jù)量、添加日期、修改日期進行排序;支持按數(shù)據(jù)集狀態(tài)查看;支持按關鍵字進行搜索。④購物車:支持購物車的管理,包括查看、刪除;支持購物車中的數(shù)據(jù)移入收藏夾,并可進行下載;支持按數(shù)據(jù)量、添加日期、修改日期進行排序;支持按數(shù)據(jù)集狀態(tài)查看;支持按關鍵字進行搜索。

(2)數(shù)據(jù)檢索。數(shù)據(jù)檢索是對數(shù)據(jù)的查詢與檢索:支持全文檢索;支持篩選條件檢索,包括關鍵詞、作者、DOI號等;支持分類篩選檢索,包括地質(zhì)時代(如以10-50 Ma為形式的數(shù)字時間)、空間范圍(輸入四角經(jīng)緯度)、學科類型、發(fā)布時間;檢索結(jié)果支持列表及縮略圖展示;地圖檢索(二維世界地圖)支持輸入四角坐標和地圖框選進行數(shù)據(jù)搜索。

2.3.3 數(shù)據(jù)管理分系統(tǒng)

(1)元數(shù)據(jù)管理。支持多種類型字段的添加、修改、刪除,支持對學科類別的管理,支持對關鍵詞管理,支持對協(xié)議許可的管理,支持數(shù)據(jù)格式管理等。

(2)數(shù)據(jù)內(nèi)容管理。數(shù)據(jù)狀態(tài)包括未審核、審核中、無需審核、審核不通過、審核通過、已發(fā)布;專家系統(tǒng)審核包括數(shù)據(jù)提交學科數(shù)據(jù)專家審查,支持隨機推送專家、指定專家,專家填寫意見;管理員審核包括支持管理員對用戶提交的注冊信息進行審核,支持管理員對用戶提交的數(shù)據(jù)內(nèi)容進行審核、回訪跟蹤、回退、發(fā)布等操作。

2.3.4 用戶管理分系統(tǒng)

用戶管理分系統(tǒng)包括普通用戶、管理員、數(shù)據(jù)審核專家三類用戶。普通用戶支持搜索下載數(shù)據(jù)集。管理員可對普通用戶和數(shù)據(jù)審核專家進行管理和授權,支持顯示用戶列表;支持根據(jù)用戶名稱、郵箱進行查找,按照用戶狀態(tài)進行過濾;支持按照用戶最近登錄時間進行排序;支持查看普通用戶和數(shù)據(jù)審核專家的角色全選;支持增加、修改、刪除數(shù)據(jù)審核專家角色的功能。數(shù)據(jù)審核專家由管理員進行管理,對所接收到的數(shù)據(jù)進行審核。

3 數(shù)據(jù)倉儲中的權益保護策略

科學數(shù)據(jù)是數(shù)字化內(nèi)容的重要組成部分,為了保護數(shù)據(jù)作者的合法權益,且使數(shù)據(jù)能夠得到充分的共享,Creative Commons能夠為構(gòu)建靈活合理的版權制度,解決著作權限制規(guī)則過度提供幫助[23]。CC協(xié)議是一個全球性的非營利組織,它通過提供免費的法律工具來實現(xiàn)創(chuàng)造力和知識的共享和再利用。知識共享協(xié)議是一個相對寬松的版權協(xié)議。它是通過作者對4種權利(署名、非商業(yè)用途、禁止演繹、相同方式共享)的選擇和組合,同時讓使用者可以明確知道所有者的權利,從而達到不容易侵犯對方版權以及作品可以得到有效傳播的目的[24]。

知識共享協(xié)議實質(zhì)上是一系列許可協(xié)議的總稱,其核心理念是讓協(xié)議許可人(通常為作品的著作權人)自愿保留一定的權利而放棄一些權利。CC0是一個完全開放給公眾的許可(public dedication tool),它允許創(chuàng)作者放棄他們的版權并將他們的作品放入全球公共領域。CC0無條件地允許重用者以任何媒介或格式分發(fā)(distribute)、混合(remix)、改編(adapt)和重建(build upon)相應內(nèi)容。該理念在實踐中則通過四大授權要素來實現(xiàn),即署名(Attribution by)、非商業(yè)性使用(Non-commercial)、禁止演繹(No Derivative Works)、相同方式共享(Share Alike),見表3。在具體的使用過程中,著作權人可以根據(jù)自身實際需求對這4種要素進行組合,即署名(CC BY)、署名—非商業(yè)性使用 (CC BY-NC)、署名—相同方式共享(CC BY-SA)、署名—禁止演繹(CC BY-ND)、署名—非商業(yè)性使用—相同方式共享(CC BY-NC-SA) 與署名—非商業(yè)性使用—禁止演繹(CC BY-NC-ND),最終得到一個相對訂制化的知識共享許可協(xié)議[25]。

表3 CC協(xié)議的授權萬式

CC協(xié)議在倉儲系統(tǒng)對于數(shù)據(jù)共享所起到的作用是提交者必須做出聲明并保證。其本人是內(nèi)容的創(chuàng)建者和擁有者,或擁有足夠的權利使內(nèi)容被公開。在CC協(xié)議下,他人可以在任何媒介以任何形式復制、發(fā)布本協(xié)議下的數(shù)據(jù)集,也可以在任何用途下,甚至出于商業(yè)目的對數(shù)據(jù)進行修改、轉(zhuǎn)換或以本數(shù)據(jù)集為基礎進行創(chuàng)作。這對于數(shù)據(jù)的共享使用是極其重要的。

4 結(jié)語

在大數(shù)據(jù)時代,數(shù)據(jù)成為科學研究的重要資本,科學數(shù)據(jù)的價值越來越大。針對國內(nèi)數(shù)據(jù)倉儲建設的緊迫需求,本文總結(jié)了國內(nèi)外數(shù)據(jù)倉儲的建設經(jīng)驗,以及它們在開放共享方面的功能結(jié)構(gòu)和特性特點,發(fā)現(xiàn)目前全球科學數(shù)據(jù)倉儲建設發(fā)展迅速,數(shù)據(jù)的存儲、管理、維護、共享、引用等遵從全生命周期的數(shù)據(jù)管理要求,為數(shù)據(jù)分配DOI可以使數(shù)據(jù)得以快速檢索和復用,使用CC協(xié)議等可以保護著作人的合法權益。結(jié)合地球科學數(shù)據(jù)高時空性的需求和特點,設計了地球科學數(shù)據(jù)倉儲的總體框架和功能,形成了地球科學數(shù)據(jù)倉儲的基本架構(gòu),包括數(shù)據(jù)注冊分系統(tǒng)、倉儲前端應用分系統(tǒng)、數(shù)據(jù)管理分系統(tǒng)、用戶管理分系統(tǒng)四大分系統(tǒng)。整體架構(gòu)的設計解決了地學數(shù)據(jù)在特定時間和空間范圍內(nèi)獲取問題,通過對CC協(xié)議的描述與解讀,分析了數(shù)據(jù)倉儲對于CC協(xié)議的現(xiàn)實需求,為地球科學數(shù)據(jù)的獲取與共享提供了知識產(chǎn)權方面的支撐。本文在地球科學數(shù)據(jù)通用倉儲建設框架方面的設計,及其CC協(xié)議方面的考慮,預期能夠為不同學科數(shù)據(jù)倉儲提供借鑒參考。

致謝:感謝深時數(shù)字地球大科學計劃(DDE)、國家地球系統(tǒng)科學數(shù)據(jù)中心為本文研究提供了科研條件。

猜你喜歡
管理
棗前期管理再好,后期管不好,前功盡棄
進度管理在建筑工程管理中的應用分析
造價超預算預防管理研究
協(xié)調(diào)管理在建筑施工管理中的作用
協(xié)調(diào)管理在建筑施工管理中的作用
聆聽兩會
——關注自然資源管理
2020年《水利建設與管理》征稿函
加強土木工程造價的控制與管理
如何加強土木工程造價的控制與管理
“這下管理創(chuàng)新了!等7則
和政县| 巨野县| 南木林县| 屯门区| 云南省| 崇州市| 开封县| 宽甸| 阜阳市| 望都县| 洛阳市| 洛川县| 峨边| 抚宁县| 嘉善县| 九江市| 衡东县| 长白| 东乡族自治县| 娄烦县| 乾安县| 克拉玛依市| 喀喇沁旗| 锡林郭勒盟| 黄浦区| 陈巴尔虎旗| 凯里市| 兰西县| 左云县| 个旧市| 苏尼特右旗| 盐池县| 于都县| 城步| 绥中县| 汉源县| 山丹县| 高淳县| 长乐市| 鄂州市| 福建省|