国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于FAIR原則的中國(guó)科學(xué)數(shù)據(jù)資源現(xiàn)狀分析及啟示

2023-03-28 03:47:28李騏安孟憲飛張書華張璐張蓓竇天芳
數(shù)字圖書館論壇 2023年1期
關(guān)鍵詞:標(biāo)識(shí)符數(shù)據(jù)中心原則

李騏安 孟憲飛 張書華 張璐 張蓓 竇天芳

(1. 清華大學(xué)圖書館,北京 100084;2. 清華大學(xué)科研院,北京 100084)

隨著當(dāng)今科學(xué)技術(shù)全球化的不斷深入,開放、共享正成為科學(xué)研究的核心內(nèi)涵與鮮明特征,開放科學(xué)(Open Science)的實(shí)踐得到越來越多人的認(rèn)可和采用[1]??茖W(xué)數(shù)據(jù)是開放科學(xué)的重要物質(zhì)基礎(chǔ),科學(xué)數(shù)據(jù)資源的管理與共享水平是衡量一個(gè)國(guó)家整體科技水平和綜合國(guó)力的一項(xiàng)重要標(biāo)志[2]。

我國(guó)非常重視科學(xué)數(shù)據(jù)的管理與共享。自1984年正式加入國(guó)際數(shù)據(jù)委員會(huì)(CODATA)并成立中國(guó)委員會(huì)以來,我國(guó)陸續(xù)啟動(dòng)氣象、林業(yè)、農(nóng)業(yè)等科學(xué)數(shù)據(jù)共享中心的建設(shè)與服務(wù)試點(diǎn)。隨著全球科技創(chuàng)新能力和投入的不斷增強(qiáng),科學(xué)數(shù)據(jù)采集能力持續(xù)提升,但同時(shí)也給科學(xué)數(shù)據(jù)的存儲(chǔ)、管理和共享帶來了挑戰(zhàn)。在此背景下,科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)(Scientific Data Repository,SDR)迅速發(fā)展,成為促進(jìn)科學(xué)數(shù)據(jù)開放共享的重要載體,例如,新冠疫情暴發(fā)以來匯聚疫情數(shù)據(jù)的權(quán)威平臺(tái)GISAID、美國(guó)政府的數(shù)據(jù)門戶以及我國(guó)的20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心[3]。

為提高科學(xué)數(shù)據(jù)資源的顯示度和使用率,克服數(shù)據(jù)發(fā)現(xiàn)與重用的障礙,國(guó)際學(xué)術(shù)界提出面向科學(xué)數(shù)據(jù)管理的FAIR原則[4],從可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可交互(Interoperable)、可重用(Reusable)四方面指導(dǎo)和評(píng)估科學(xué)數(shù)據(jù)管理實(shí)踐?;谶@一原則,國(guó)內(nèi)外學(xué)者對(duì)科學(xué)數(shù)據(jù)資源管理的現(xiàn)狀、趨勢(shì)及存在問題進(jìn)行了研究。王輝等[5]基于re3data探討了全球范圍內(nèi)SDR在數(shù)據(jù)訪問權(quán)限、數(shù)據(jù)標(biāo)識(shí)符使用等方面的建設(shè)特點(diǎn)。Cho[6]對(duì)亞洲地區(qū)SDR的數(shù)據(jù)使用許可、數(shù)據(jù)標(biāo)識(shí)符等進(jìn)行了調(diào)研。Zhang等[7]發(fā)現(xiàn)越來越多的開放科學(xué)數(shù)據(jù)研究者開始關(guān)注數(shù)據(jù)的所有權(quán)、使用許可等相關(guān)問題。李春秋等[8]基于FAIR原則調(diào)研了我國(guó)醫(yī)學(xué)領(lǐng)域的SDR,指出在數(shù)據(jù)標(biāo)識(shí)符使用和數(shù)據(jù)溯源描述方面的不足。翟軍等[9]對(duì)我國(guó)政府?dāng)?shù)據(jù)的開放情況進(jìn)行調(diào)研,發(fā)現(xiàn)各地政府?dāng)?shù)據(jù)存在元數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一、數(shù)據(jù)標(biāo)識(shí)符缺失、交互性差、使用許可不清晰等問題。邢文明等[10]從政策制定視角分析了我國(guó)《科學(xué)數(shù)據(jù)管理辦法》對(duì)FAIR原則的支持度,結(jié)果表明只有少部分FAIR原則關(guān)注的要素得到了完全支持。雖然已有研究中探討的數(shù)據(jù)訪問權(quán)限、數(shù)據(jù)使用許可和標(biāo)識(shí)符是評(píng)估科學(xué)數(shù)據(jù)管理水平的重要因素,但SDR的顯示度、數(shù)據(jù)標(biāo)識(shí)符的可解析性、數(shù)據(jù)的引用方式及使用說明等要素對(duì)于促進(jìn)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)與重用具有同樣的重要性。

1 研究方法

本文首先將我國(guó)的科學(xué)數(shù)據(jù)資源現(xiàn)狀從SDR層面和科學(xué)數(shù)據(jù)集層面與國(guó)外進(jìn)行比較,選取re3data、FAIRsharing、Data Citation Index(DCI)等3個(gè)國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)作為數(shù)據(jù)統(tǒng)計(jì)和分析的來源。本文進(jìn)一步從FAIR原則的四個(gè)方面對(duì)我國(guó)典型SDR面臨的挑戰(zhàn)進(jìn)行分析,選取我國(guó)的20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心[3]作為數(shù)據(jù)統(tǒng)計(jì)和分析的來源。本文中的SDR指一類用于長(zhǎng)期存儲(chǔ)和訪問科學(xué)數(shù)據(jù)的信息基礎(chǔ)設(shè)施[11],是與知識(shí)庫(kù)類似的一類數(shù)據(jù)庫(kù)[12];而科學(xué)數(shù)據(jù)中心則可以包含一個(gè)或多個(gè)數(shù)據(jù)庫(kù)。為便于理解并與國(guó)際表述一致,本文采用SDR泛指數(shù)據(jù)倉(cāng)儲(chǔ)、數(shù)據(jù)平臺(tái)、知識(shí)庫(kù)、數(shù)據(jù)庫(kù)、科學(xué)數(shù)據(jù)中心這一類信息基礎(chǔ)設(shè)施。此外,本文中的科學(xué)數(shù)據(jù)集指科學(xué)數(shù)據(jù)文件的集合。re3data是由德國(guó)研究基金會(huì)提供資助,于2012年啟用的涵蓋全球范圍內(nèi)不同研究學(xué)科SDR的注冊(cè)平臺(tái)。本文基于re3data采集了2 803個(gè)SDR樣本數(shù)據(jù),數(shù)據(jù)采集截至2022年2月。FAIRsharing由英國(guó)牛津大學(xué)創(chuàng)辦于2011年,是一個(gè)社區(qū)驅(qū)動(dòng)的資源服務(wù)機(jī)構(gòu),包含科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)、SDR以及科學(xué)數(shù)據(jù)政策3類相互關(guān)聯(lián)的資源目錄。本文基于FAIRsharing共采集了1 851個(gè)SDR樣本數(shù)據(jù),數(shù)據(jù)采集截至2022年2月。DCI數(shù)據(jù)庫(kù)提供了對(duì)來自跨學(xué)科全球知識(shí)庫(kù)的高質(zhì)量研究數(shù)據(jù)的單點(diǎn)訪問功能。本文基于DCI數(shù)據(jù)庫(kù)采集了398個(gè)SDR樣本數(shù)據(jù),數(shù)據(jù)采集截至2022年2月,數(shù)據(jù)時(shí)間段為1990—2022年。此外,基于DCI數(shù)據(jù)庫(kù)采集了10 038 370個(gè)科學(xué)數(shù)據(jù)集樣本數(shù)據(jù),數(shù)據(jù)采集截至2022年2月,數(shù)據(jù)時(shí)間段為2010—2021年。我國(guó)的20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心是在原有國(guó)家平臺(tái)的基礎(chǔ)上于2019年優(yōu)化調(diào)整形成的,旨在完善我國(guó)科技資源共享服務(wù)體系,推動(dòng)科技資源的開放共享。對(duì)國(guó)家科學(xué)數(shù)據(jù)中心的數(shù)據(jù)采集截至2023年1月。

2 中國(guó)科學(xué)數(shù)據(jù)資源現(xiàn)狀與國(guó)外的比較

SDR是管理和傳播科學(xué)數(shù)據(jù)資源的重要載體與平臺(tái)?;趓e3data、FAIRsharing、DCI國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái),從SDR層面將中國(guó)的科學(xué)數(shù)據(jù)資源現(xiàn)狀與國(guó)外進(jìn)行對(duì)比分析。美國(guó)的SDR數(shù)量處在絕對(duì)領(lǐng)先位置,在re3data平臺(tái)登記了1 141個(gè),占該平臺(tái)SDR總量的40.7%。德國(guó)、英國(guó)、歐盟等國(guó)家或國(guó)際組織的SDR數(shù)量也較多,與美國(guó)類似主要在re3data平臺(tái)上登記。相比之下,中國(guó)的SDR數(shù)量較少,主要在FAIRsharing平臺(tái)上登記(102個(gè)),但僅占到該平臺(tái)SDR總量的5.5%;在re3data和DCI平臺(tái)中則分別占各平臺(tái)SDR總量的1.7%和2.5%。中國(guó)在上述3個(gè)國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)登記的SDR有119個(gè),按規(guī)則在世界范圍內(nèi)進(jìn)行SDR元數(shù)據(jù)等信息的共享。

基于DCI從科學(xué)數(shù)據(jù)集層面對(duì)中國(guó)與其他國(guó)家的科學(xué)數(shù)據(jù)資源體量及存儲(chǔ)現(xiàn)狀進(jìn)行分析可以發(fā)現(xiàn),中國(guó)科學(xué)數(shù)據(jù)集的數(shù)量以較為明顯的優(yōu)勢(shì)超過除美國(guó)以外的其他國(guó)家而位居第二,達(dá)到158 243個(gè)。這與我國(guó)在國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)登記的SDR數(shù)量所處的排名形成鮮明對(duì)比。對(duì)這些科學(xué)數(shù)據(jù)集的主要分布SDR進(jìn)行分析發(fā)現(xiàn),科學(xué)數(shù)據(jù)集數(shù)量排名前20的SDR大部分來自美國(guó),占總量的55%,其他主要來自英國(guó)、德國(guó)等歐洲國(guó)家以及歐盟等國(guó)際組織。結(jié)果表明,我國(guó)豐富的科學(xué)數(shù)據(jù)集與有國(guó)際影響力的SDR數(shù)量不匹配,包括我國(guó)在內(nèi)的各國(guó)科學(xué)數(shù)據(jù)資源主要依靠歐美國(guó)家的SDR實(shí)現(xiàn)全球的共享傳播。

3 基于FAIR原則的中國(guó)典型科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)分析

本文從FAIR原則的可發(fā)現(xiàn)、可訪問、可交互、可重用四方面(見圖1)出發(fā),對(duì)我國(guó)科學(xué)數(shù)據(jù)資源的管理與共享現(xiàn)狀進(jìn)行分析。保障科學(xué)數(shù)據(jù)的可發(fā)現(xiàn)性是落實(shí)FAIR原則其他方面的重要前提。而科學(xué)數(shù)據(jù)一經(jīng)潛在的數(shù)據(jù)使用者和計(jì)算機(jī)發(fā)現(xiàn),就會(huì)通過可信的SDR提供的服務(wù)被訪問及獲取。科學(xué)數(shù)據(jù)通常需要與其他數(shù)據(jù)集成整合,通過使用標(biāo)準(zhǔn)定義和通用的語言與應(yīng)用程序或工作流進(jìn)行交互操作,以開展數(shù)據(jù)的分析、存儲(chǔ)和處理等工作。實(shí)現(xiàn)科學(xué)數(shù)據(jù)的廣泛重用是實(shí)踐FAIR原則的目標(biāo)。通過對(duì)數(shù)據(jù)(元數(shù)據(jù))進(jìn)行準(zhǔn)確、充分的描述和說明,以便潛在數(shù)據(jù)使用者正確使用數(shù)據(jù)。

圖1 面向科學(xué)數(shù)據(jù)使用和傳播的FAIR原則及主要內(nèi)容

3.1 可發(fā)現(xiàn)性

保障數(shù)據(jù)可發(fā)現(xiàn)性有兩個(gè)重要技術(shù)手段。其中一個(gè)是為數(shù)據(jù)(元數(shù)據(jù))分配全球唯一且永久的標(biāo)識(shí)符,這被認(rèn)為是FAIR原則中最重要的方面[13]。表1列出了我國(guó)20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心在數(shù)據(jù)使用和傳播方面的現(xiàn)狀及面臨的問題。在20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心中,有10個(gè)為數(shù)據(jù)分配了DOI,但其中有6個(gè)只為部分?jǐn)?shù)據(jù)分配了DOI,占比60%;有4個(gè)國(guó)家科學(xué)數(shù)據(jù)中心的SDR為全部數(shù)據(jù)分配了DOI,其中在國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)上登記的只有國(guó)家天文科學(xué)數(shù)據(jù)中心和國(guó)家青藏高原科學(xué)數(shù)據(jù)中心兩個(gè)。此外,基于我國(guó)自主制定的科技資源標(biāo)識(shí)體系,有14個(gè)國(guó)家科學(xué)數(shù)據(jù)中心為數(shù)據(jù)分配了中國(guó)科技資源標(biāo)識(shí)符(China Science and Technology Resource,CSTR),占比達(dá)70%;但其中有3個(gè)只為部分?jǐn)?shù)據(jù)分配了CSTR。相比之下,有5個(gè)國(guó)家科學(xué)數(shù)據(jù)中心沒有為數(shù)據(jù)分配DOI和CSTR這兩類國(guó)內(nèi)廣泛使用的標(biāo)識(shí)符,其中包括在國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)上登記的國(guó)家基因組科學(xué)數(shù)據(jù)中心和國(guó)家氣象科學(xué)數(shù)據(jù)中心。有4個(gè)國(guó)家科學(xué)數(shù)據(jù)中心為所有數(shù)據(jù)分配了DOI和CSTR兩類標(biāo)識(shí)符,分別是國(guó)家天文科學(xué)數(shù)據(jù)中心、國(guó)家青藏高原科學(xué)數(shù)據(jù)中心、國(guó)家生態(tài)科學(xué)數(shù)據(jù)中心、國(guó)家冰川凍土沙漠科學(xué)數(shù)據(jù)中心。

表1 國(guó)家科學(xué)數(shù)據(jù)中心數(shù)據(jù)使用和傳播現(xiàn)狀

保障數(shù)據(jù)可發(fā)現(xiàn)性的另一個(gè)技術(shù)手段是為數(shù)據(jù)提供豐富的元數(shù)據(jù)。以國(guó)家青藏高原科學(xué)數(shù)據(jù)中心為例,該SDR提供了描述性、技術(shù)性、管理性、權(quán)限管理等元數(shù)據(jù),從關(guān)鍵詞、時(shí)空范圍、引用方式、項(xiàng)目信息、數(shù)據(jù)貢獻(xiàn)者等多個(gè)方面對(duì)數(shù)據(jù)進(jìn)行了詳細(xì)描述,進(jìn)一步提高了數(shù)據(jù)的可發(fā)現(xiàn)性。類似的,國(guó)家生態(tài)科學(xué)數(shù)據(jù)中心提供了從DOI、CSTR、數(shù)據(jù)格式等基本信息,到數(shù)據(jù)描述信息、生產(chǎn)者信息、共享服務(wù)信息、關(guān)聯(lián)出版論文信息等豐富的元數(shù)據(jù),保障了數(shù)據(jù)的可發(fā)現(xiàn)性。

3.2 可訪問性

科學(xué)數(shù)據(jù)的可訪問性體現(xiàn)在數(shù)據(jù)(元數(shù)據(jù))可以通過DOI等標(biāo)識(shí)符的解析機(jī)制,或使用某種鏈接規(guī)范實(shí)現(xiàn)從數(shù)據(jù)(元數(shù)據(jù))發(fā)現(xiàn)到數(shù)據(jù)獲取的能力。這樣即使科學(xué)數(shù)據(jù)不再可用,元數(shù)據(jù)仍可被人和計(jì)算機(jī)無障礙訪問。這就需要一方面確保數(shù)據(jù)標(biāo)識(shí)符可以被任何能夠連接到互聯(lián)網(wǎng)的潛在數(shù)據(jù)使用者正常解析,進(jìn)而訪問科學(xué)數(shù)據(jù);另一方面保障數(shù)據(jù)存儲(chǔ)在可信的、穩(wěn)定可訪問的SDR中。截至2023年1月,20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心官網(wǎng)均可以正常訪問。在數(shù)據(jù)標(biāo)識(shí)符的可解析性方面,獲取的數(shù)據(jù)中除國(guó)家極地科學(xué)數(shù)據(jù)中心外,其他SDR的DOI均可被正常解析;為數(shù)據(jù)分配CSTR標(biāo)識(shí)符的14個(gè)國(guó)家科學(xué)數(shù)據(jù)中心中,存在無法被正常解析情況的有6個(gè),約占43%,其中包括4個(gè)沒有DOI的SDR。CSTR標(biāo)識(shí)符無法正常解析的SDR包括在國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)上登記的國(guó)家人口健康科學(xué)數(shù)據(jù)中心和國(guó)家地震科學(xué)數(shù)據(jù)中心。雖然這兩個(gè)國(guó)家科學(xué)數(shù)據(jù)中心通過在re3data、FAIRsharing等國(guó)際平臺(tái)上登記提高了其全球顯示度,但數(shù)據(jù)標(biāo)識(shí)符的解析問題阻礙了潛在使用者對(duì)數(shù)據(jù)(元數(shù)據(jù))的正常訪問。

在為所有數(shù)據(jù)分配了DOI和CSTR兩類標(biāo)識(shí)符的4個(gè)國(guó)家科學(xué)數(shù)據(jù)中心中,兩類標(biāo)識(shí)符均可正常解析,同時(shí)還明確定義了數(shù)據(jù)訪問的條件和權(quán)限。以國(guó)家天文科學(xué)數(shù)據(jù)中心為例,其數(shù)據(jù)簡(jiǎn)介中明確列出了數(shù)據(jù)的共享途徑、共享范圍以及獲取數(shù)據(jù)的申請(qǐng)流程。類似的,國(guó)家青藏高原科學(xué)數(shù)據(jù)中心、國(guó)家生態(tài)科學(xué)數(shù)據(jù)中心、國(guó)家冰川凍土沙漠科學(xué)數(shù)據(jù)中心在元數(shù)據(jù)中明確描述了數(shù)據(jù)的存在狀態(tài)和獲取方式,促進(jìn)了數(shù)據(jù)的共享與訪問。

3.3 可交互性

數(shù)據(jù)的可交互性原則旨在保障潛在的數(shù)據(jù)使用者之間能夠方便、可靠地交換和整合數(shù)據(jù)資源。這就需要采用正式的、廣泛適用的語言和詳細(xì)的數(shù)據(jù)資源描述框架對(duì)數(shù)據(jù)(元數(shù)據(jù))進(jìn)行描述。數(shù)據(jù)引用是國(guó)內(nèi)外數(shù)據(jù)共享界提出的新概念,旨在建立數(shù)據(jù)與數(shù)據(jù)之間以及數(shù)據(jù)與文獻(xiàn)之間的關(guān)聯(lián),進(jìn)而促進(jìn)數(shù)據(jù)的廣泛交互。我國(guó)于2017年發(fā)布了《信息技術(shù) 科學(xué)數(shù)據(jù)引用》(GB/T 35294—2017)國(guó)家標(biāo)準(zhǔn),旨在規(guī)范科學(xué)數(shù)據(jù)引用元素的描述方法以及引用格式。分析國(guó)家科學(xué)數(shù)據(jù)中心的數(shù)據(jù)可交互性,結(jié)果表明有4個(gè)國(guó)家科學(xué)數(shù)據(jù)中心沒有提供明確的數(shù)據(jù)引用方式,其中包括在國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)上登記的國(guó)家氣象科學(xué)數(shù)據(jù)中心。相比之下,國(guó)家高能物理科學(xué)數(shù)據(jù)中心、國(guó)家基因組科學(xué)數(shù)據(jù)中心、國(guó)家空間科學(xué)數(shù)據(jù)中心、國(guó)家青藏高原科學(xué)數(shù)據(jù)中心、國(guó)家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心等大多數(shù)SDR提供了較為完整的數(shù)據(jù)引用信息,包含數(shù)據(jù)貢獻(xiàn)者、名稱、版本信息、創(chuàng)建和傳播機(jī)構(gòu)以及數(shù)據(jù)唯一標(biāo)識(shí)符等豐富的元數(shù)據(jù)信息。

國(guó)家科學(xué)數(shù)據(jù)中心提供的數(shù)據(jù)引用方式形式多樣。以國(guó)家青藏高原科學(xué)數(shù)據(jù)中心為例,除了對(duì)數(shù)據(jù)或數(shù)據(jù)出版文獻(xiàn)的直接引用外,還包括對(duì)與數(shù)據(jù)研究背景、產(chǎn)生過程、處理方法和質(zhì)量評(píng)價(jià)等相關(guān)關(guān)聯(lián)文獻(xiàn)的引用,同時(shí)提供數(shù)據(jù)使用者基于數(shù)據(jù)所發(fā)表文獻(xiàn)的引用信息。類似的,國(guó)家基因組科學(xué)數(shù)據(jù)中心主要通過提供數(shù)據(jù)關(guān)聯(lián)文獻(xiàn)的方式規(guī)范數(shù)據(jù)引用。國(guó)家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心在提供數(shù)據(jù)引用信息的同時(shí),通過制定《農(nóng)業(yè)科學(xué)數(shù)據(jù)交換格式規(guī)范》來提高數(shù)據(jù)的可交互性。相比之下,雖然國(guó)家微生物科學(xué)數(shù)據(jù)中心的數(shù)據(jù)具有DOI和CSTR標(biāo)識(shí)符,但在數(shù)據(jù)引用信息中并未提供上述兩類標(biāo)識(shí)符,而提供了數(shù)據(jù)的創(chuàng)建和傳播機(jī)構(gòu)以及URL信息;國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)中心和國(guó)家海洋科學(xué)數(shù)據(jù)中心則在數(shù)據(jù)引用信息中提供了數(shù)據(jù)的創(chuàng)建和傳播機(jī)構(gòu)信息。

3.4 可重用性

保障科學(xué)數(shù)據(jù)可重用性的重要技術(shù)手段是通過采用標(biāo)準(zhǔn)化的數(shù)據(jù)組織方式對(duì)數(shù)據(jù)(元數(shù)據(jù))進(jìn)行準(zhǔn)確、充分的描述和說明。在數(shù)據(jù)使用說明中提供法律層面的數(shù)據(jù)使用許可協(xié)議能夠確保數(shù)據(jù)重用過程中知識(shí)產(chǎn)權(quán)的清晰明確[13]。同時(shí),數(shù)據(jù)的來源、產(chǎn)生過程及涉及的相關(guān)貢獻(xiàn)者等信息的提供也有利于潛在數(shù)據(jù)使用者對(duì)數(shù)據(jù)的重用,降低數(shù)據(jù)復(fù)用的復(fù)雜度。分析國(guó)家科學(xué)數(shù)據(jù)中心的數(shù)據(jù)可重用性,結(jié)果表明有5個(gè)沒有提供清晰的數(shù)據(jù)使用文檔或指南,其中包括在國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)上登記的國(guó)家基因組科學(xué)數(shù)據(jù)中心,這阻礙了潛在使用者對(duì)數(shù)據(jù)的再利用。

各個(gè)國(guó)家科學(xué)數(shù)據(jù)中心提供的數(shù)據(jù)使用說明沒有一個(gè)相對(duì)統(tǒng)一的形式。國(guó)家青藏高原科學(xué)數(shù)據(jù)中心和國(guó)家冰川凍土沙漠科學(xué)數(shù)據(jù)中心提供了明確的知識(shí)共享許可協(xié)議(Creative Commons license,CC協(xié)議)。Kindling等[11]的研究顯示,CC協(xié)議是全球范圍內(nèi)的SDR最常用的數(shù)據(jù)使用許可協(xié)議。雖然國(guó)家生態(tài)科學(xué)數(shù)據(jù)中心沒有提供CC協(xié)議這類較為清晰的數(shù)據(jù)使用協(xié)議,但以數(shù)據(jù)出版的形式提供了數(shù)據(jù)使用指南,從數(shù)據(jù)產(chǎn)生背景、數(shù)據(jù)采集和處理方法、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)使用方法等方面著手,幫助潛在數(shù)據(jù)使用者了解和正確使用數(shù)據(jù)。國(guó)家地震科學(xué)數(shù)據(jù)中心制定了《地震科學(xué)數(shù)據(jù)共享管理辦法》,并針對(duì)特定類型數(shù)據(jù)提供了包括數(shù)據(jù)來源、數(shù)據(jù)產(chǎn)生或加工辦法、數(shù)據(jù)質(zhì)量說明等內(nèi)容在內(nèi)的元數(shù)據(jù)信息。類似的,國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)中心、國(guó)家微生物科學(xué)數(shù)據(jù)中心、國(guó)家空間科學(xué)數(shù)據(jù)中心等大多數(shù)SDR提供了從數(shù)據(jù)使用聲明到數(shù)據(jù)來源、數(shù)據(jù)產(chǎn)生或加工方法、數(shù)據(jù)質(zhì)量說明等豐富且清晰的元數(shù)據(jù),引導(dǎo)潛在數(shù)據(jù)使用者正確使用數(shù)據(jù)。受學(xué)科特點(diǎn)和數(shù)據(jù)敏感性等因素影響,雖然國(guó)家高能物理科學(xué)數(shù)據(jù)中心、國(guó)家對(duì)地觀測(cè)科學(xué)數(shù)據(jù)中心、國(guó)家人口健康科學(xué)數(shù)據(jù)中心在數(shù)據(jù)使用方面有較多的限制和約束條件,但仍通過提供數(shù)據(jù)來源、數(shù)據(jù)校準(zhǔn)方法、數(shù)據(jù)分析軟件等元數(shù)據(jù)盡可能地讓潛在使用者了解和正確使用數(shù)據(jù)。相比之下,國(guó)家天文科學(xué)數(shù)據(jù)中心、國(guó)家海洋科學(xué)數(shù)據(jù)中心除了提供數(shù)據(jù)作者或所有者信息外,并未提供清晰的有關(guān)數(shù)據(jù)來源、數(shù)據(jù)加工處理方法、數(shù)據(jù)質(zhì)量說明等方面的元數(shù)據(jù)。

4 國(guó)內(nèi)外科學(xué)數(shù)據(jù)管理實(shí)踐現(xiàn)狀及對(duì)我國(guó)的啟示

4.1 國(guó)內(nèi)外SDR建設(shè)實(shí)踐

我國(guó)注重加強(qiáng)和規(guī)范科學(xué)數(shù)據(jù)管理,但相比于歐美國(guó)家起步較晚,在國(guó)際主要SDR注冊(cè)和發(fā)現(xiàn)平臺(tái)上登記的SDR數(shù)量有限,與我國(guó)科學(xué)數(shù)據(jù)集的體量不匹配,科學(xué)數(shù)據(jù)資源基本依靠歐美國(guó)家中具有國(guó)際影響力的SDR進(jìn)行傳播共享。實(shí)際上,美國(guó)、英國(guó)等歐美國(guó)家長(zhǎng)期支持SDR的發(fā)展。英國(guó)于2000年啟動(dòng)了e-Science計(jì)劃[14],推進(jìn)在信息化基礎(chǔ)設(shè)施支持下的科學(xué)研究活動(dòng),并為全球的學(xué)術(shù)合作提供支撐。美國(guó)國(guó)家科學(xué)基金委(NSF)于2003年提出通過網(wǎng)絡(luò)基礎(chǔ)設(shè)施(cyberinfrastructure)促進(jìn)科學(xué)和工程學(xué)科的革新[15]。2008年,歐洲開放獲取基礎(chǔ)設(shè)施研究項(xiàng)目(OpenAIRE)在歐盟第七框架計(jì)劃(FP7)資助下展開[16],并于2012年開始支持科學(xué)數(shù)據(jù)的開放共享。此后的歐盟第九框架計(jì)劃(FP9),即“歐洲地平線”項(xiàng)目要求2021年及之后由歐洲研究理事會(huì)(ERC)資助的項(xiàng)目在形成科學(xué)數(shù)據(jù)前必須提交數(shù)據(jù)管理計(jì)劃,然后將數(shù)據(jù)存入可信的SDR,并按照“盡可能開放,必要時(shí)封閉”的原則提供數(shù)據(jù)訪問服務(wù)[17]。類似的,我國(guó)在2018年發(fā)布的《科學(xué)數(shù)據(jù)管理辦法》中,對(duì)政府預(yù)算資金資助形成的科學(xué)數(shù)據(jù)提出了“開放為常態(tài)、不開放為例外”的共享原則。2021年出臺(tái)的國(guó)家標(biāo)準(zhǔn)《科技計(jì)劃形成的科學(xué)數(shù)據(jù)匯交 技術(shù)與管理規(guī)范》(GB/T 39912—2021),推動(dòng)政府預(yù)算資金資助的各級(jí)科技計(jì)劃(專項(xiàng)、基金等)項(xiàng)目將科學(xué)數(shù)據(jù)匯交至我國(guó)的20個(gè)國(guó)家科學(xué)數(shù)據(jù)中心,規(guī)范數(shù)據(jù)匯交管理,促進(jìn)科學(xué)數(shù)據(jù)的共享和重用。

4.2 國(guó)內(nèi)外FAIR生態(tài)建設(shè)現(xiàn)狀

我國(guó)已有部分國(guó)家科學(xué)數(shù)據(jù)中心在國(guó)際上亮相,但在科學(xué)數(shù)據(jù)資源的可發(fā)現(xiàn)性、可訪問性、可交互性、可重用性方面仍有較大的發(fā)展空間。實(shí)現(xiàn)科學(xué)數(shù)據(jù)可持續(xù)傳播與共享的重要前提是為數(shù)據(jù)分配全球唯一且永久的數(shù)據(jù)標(biāo)識(shí)符。我國(guó)部分國(guó)家科學(xué)數(shù)據(jù)中心為數(shù)據(jù)分配了DOI和CSTR兩種標(biāo)識(shí)符,提高了科學(xué)數(shù)據(jù)的顯示度,同時(shí)也保障了數(shù)據(jù)貢獻(xiàn)者的知識(shí)產(chǎn)權(quán)[18]。此外,國(guó)家科學(xué)數(shù)據(jù)中心也通過提供豐富的元數(shù)據(jù)保障了數(shù)據(jù)的可發(fā)現(xiàn)性。在科學(xué)數(shù)據(jù)的可訪問性方面,部分國(guó)家科學(xué)數(shù)據(jù)中心曾出現(xiàn)過不能訪問或數(shù)據(jù)標(biāo)識(shí)符無法正常解析的情況。在這種情況下,即使明確了數(shù)據(jù)訪問的條件和權(quán)限,仍會(huì)阻礙科學(xué)數(shù)據(jù)被潛在使用者訪問和獲取。實(shí)際上,王輝等[5]、Kindling等[11]對(duì)全球SDR的研究均顯示有超過90%的SDR可正常訪問,僅有不足0.5%的SDR處在無法訪問的狀態(tài)。在科學(xué)數(shù)據(jù)的可交互性方面,部分國(guó)家科學(xué)數(shù)據(jù)中心缺乏數(shù)據(jù)引用信息,而提供引用信息的SDR也沒有較為統(tǒng)一的引用規(guī)則或標(biāo)準(zhǔn),阻礙了數(shù)據(jù)的交互操作,甚至數(shù)據(jù)的追蹤計(jì)量[18]。在科學(xué)數(shù)據(jù)的可重用性方面,部分國(guó)家科學(xué)數(shù)據(jù)中心沒有對(duì)數(shù)據(jù)(元數(shù)據(jù))進(jìn)行準(zhǔn)確、充分的描述和說明,存在使用說明缺失、數(shù)據(jù)使用協(xié)議不清晰的問題,限制了潛在使用者對(duì)科學(xué)數(shù)據(jù)的了解和正確使用。這些在一定程度上反映出我國(guó)在FAIR原則的政策支持和規(guī)范實(shí)施中存在的不足。

歐美國(guó)家的組織、科研機(jī)構(gòu)已在政策制定和實(shí)施過程中積極落實(shí)FAIR原則。歐盟是最早實(shí)踐FAIR原則的國(guó)際組織[19-20],其將FAIR原則貫穿數(shù)據(jù)管理的政策和法規(guī)之中[21];而歐洲開放科學(xué)云(EOSC)則為落實(shí)FAIR原則提供了重要的基礎(chǔ)設(shè)施保障[9]。歐盟委員會(huì)在“歐洲地平線2020”中啟動(dòng)了一項(xiàng)“開放研究數(shù)據(jù)試點(diǎn)”項(xiàng)目,通過制定《FAIR數(shù)據(jù)管理指南(2020)》(Guidelines on FAIR Data Management in Horizon 2020)幫助研究人員更好地管理其數(shù)據(jù)[22];同時(shí),歐盟委員會(huì)還在2016年成立了FAIR數(shù)據(jù)專家組[23],從技術(shù)和政策角度更好地推進(jìn)數(shù)據(jù)的FAIR管理。歐洲研究圖書館協(xié)會(huì)(LIBER)也在積極推動(dòng)由“歐洲地平線2020”委員會(huì)制定的FAIR數(shù)據(jù)行動(dòng)計(jì)劃[24]。此外,國(guó)際數(shù)據(jù)委員會(huì)、研究數(shù)據(jù)聯(lián)盟(RDA)等國(guó)際組織也在積極倡導(dǎo)科學(xué)數(shù)據(jù)的FAIR生態(tài)建設(shè)[25-26],以提高數(shù)據(jù)的可交互性和可重用性。2016年,澳大利亞在FAIR指導(dǎo)工作組的推動(dòng)下提出了關(guān)于《FAIR獲取澳大利亞研究成果》的聲明[27]。2017年,德國(guó)、荷蘭和法國(guó)聯(lián)合成立GO FAIR國(guó)際支持與協(xié)調(diào)辦公室[28],推動(dòng)FAIR倡議的落地。國(guó)外高校也積極實(shí)踐FAIR原則。2020年,包括美國(guó)大學(xué)協(xié)會(huì)、歐洲研究型大學(xué)聯(lián)盟、加拿大研究型大學(xué)U15集團(tuán)在內(nèi)的9個(gè)大學(xué)組織共同制定了《索邦大學(xué)研究數(shù)據(jù)權(quán)益宣言》,其中做出了大學(xué)支持?jǐn)?shù)據(jù)FAIR的承諾[29]。

4.3 科學(xué)數(shù)據(jù)管理實(shí)踐現(xiàn)狀對(duì)我國(guó)的啟示

本文從SDR層面和科學(xué)數(shù)據(jù)集層面將我國(guó)的科學(xué)數(shù)據(jù)資源現(xiàn)狀與國(guó)外進(jìn)行比較,并從數(shù)據(jù)(元數(shù)據(jù))的標(biāo)識(shí)符及其可解析性、數(shù)據(jù)(元數(shù)據(jù))的規(guī)范引用、數(shù)據(jù)(元數(shù)據(jù))的使用協(xié)議及使用說明等方面分析我國(guó)典型SDR在落實(shí)FAIR原則中存在的挑戰(zhàn)。當(dāng)前,我國(guó)面臨的挑戰(zhàn)主要有:不重視SDR的國(guó)際傳播工作,即使建設(shè)了國(guó)家層面的SDR,也未在國(guó)際上亮相;在SDR的可訪問性、數(shù)據(jù)標(biāo)識(shí)符的分配及可解析性方面存在不足,一定程度上使得我國(guó)部分科學(xué)數(shù)據(jù)資源只能通過國(guó)外SDR進(jìn)行傳播和共享;科學(xué)數(shù)據(jù)的引用和使用說明存在不完整、不清晰的問題,阻礙了科學(xué)數(shù)據(jù)的共享和重用。

本文雖然沒有涉及FAIR原則中的所有技術(shù)細(xì)則,但上述問題的存在是建立科學(xué)數(shù)據(jù)傳播與共享生態(tài)的主要障礙,不利于對(duì)數(shù)據(jù)貢獻(xiàn)者知識(shí)產(chǎn)權(quán)的保護(hù)以及數(shù)據(jù)使用者對(duì)科學(xué)數(shù)據(jù)的正確使用。我國(guó)在科學(xué)數(shù)據(jù)管理中需要針對(duì)FAIR原則提供政策支持和規(guī)范標(biāo)準(zhǔn)。為此,我國(guó)可以借鑒國(guó)際組織和機(jī)構(gòu)在SDR建設(shè)、數(shù)據(jù)標(biāo)識(shí)符應(yīng)用、數(shù)據(jù)引用原則和數(shù)據(jù)使用協(xié)議規(guī)范等方面的舉措和經(jīng)驗(yàn),推動(dòng)和激勵(lì)數(shù)據(jù)生產(chǎn)者和使用者參與到數(shù)據(jù)的開放共享生態(tài)中,加強(qiáng)我國(guó)科學(xué)數(shù)據(jù)資源的管理水平和國(guó)際傳播能力。

5 結(jié)語

科學(xué)數(shù)據(jù)的開放共享是推動(dòng)科技創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展的重要前提。FAIR原則的提出旨在進(jìn)一步指導(dǎo)和促進(jìn)科學(xué)數(shù)據(jù)資源的可發(fā)現(xiàn)、可訪問、可交互和可重用,已被國(guó)際科研機(jī)構(gòu)和組織廣泛采納。雖然我國(guó)在科學(xué)數(shù)據(jù)管理的FAIR生態(tài)建設(shè)方面較歐美國(guó)家起步晚且存在諸多挑戰(zhàn),但借鑒國(guó)際上科學(xué)數(shù)據(jù)FAIR文化和生態(tài)建設(shè)中的經(jīng)驗(yàn)做法,開展對(duì)FAIR原則的政策支持,并形成實(shí)施FAIR原則的標(biāo)準(zhǔn)規(guī)范,增加科學(xué)數(shù)據(jù)發(fā)現(xiàn)、訪問、交互和重用的可能性,推進(jìn)科學(xué)數(shù)據(jù)資源的可持續(xù)開放共享,能為我國(guó)成熟的開放科學(xué)生態(tài)的形成和國(guó)家科技創(chuàng)新和經(jīng)濟(jì)社會(huì)發(fā)展提供重要保障。

猜你喜歡
標(biāo)識(shí)符數(shù)據(jù)中心原則
淺析5G V2X 通信應(yīng)用現(xiàn)狀及其側(cè)鏈路標(biāo)識(shí)符更新技術(shù)
酒泉云計(jì)算大數(shù)據(jù)中心
基于底層虛擬機(jī)的標(biāo)識(shí)符混淆方法
基于區(qū)塊鏈的持久標(biāo)識(shí)符系統(tǒng)①
民航綠色云數(shù)據(jù)中心PUE控制
堅(jiān)守原則,逐浪前行
數(shù)字美術(shù)館“數(shù)字對(duì)象唯一標(biāo)識(shí)符系統(tǒng)”建設(shè)需求淺議
無罪推定原則的理解與完善
基于云計(jì)算的交通運(yùn)輸數(shù)據(jù)中心實(shí)現(xiàn)與應(yīng)用
Overlay Network技術(shù)在云計(jì)算數(shù)據(jù)中心中的應(yīng)用
河南科技(2014年11期)2014-02-27 14:16:49
夏河县| 蒲江县| 甘肃省| 蒙自县| 崇义县| 鄂州市| 密云县| 仪陇县| 新河县| 兴安盟| 闻喜县| 泊头市| 怀安县| 博乐市| 海兴县| 富平县| 商洛市| 东安县| 太仓市| 吐鲁番市| 垦利县| 岳阳县| 东丰县| 灵寿县| 冀州市| 巴塘县| 巴彦县| 乌兰县| 定远县| 行唐县| 明星| 盐城市| 新晃| 武川县| 平舆县| 合川市| 措美县| 古浪县| 璧山县| 江山市| 长宁区|