国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

我國國家科學(xué)數(shù)據(jù)中心FAIR原則的實踐現(xiàn)狀調(diào)查與分析

2023-06-23 13:17李楠楠劉筱敏
圖書與情報 2023年2期
關(guān)鍵詞:元數(shù)據(jù)

李楠楠 劉筱敏

摘? ?要:FAIR原則是規(guī)范科學(xué)數(shù)據(jù)管理和促進(jìn)數(shù)據(jù)共享的指導(dǎo)原則,調(diào)查分析我國國家科學(xué)數(shù)據(jù)中心FAIR原則的實踐現(xiàn)狀,對推動科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、訪問、獲取和重用具有重要意義。文章通過分析FAIR原則的主要內(nèi)容,把握國際科學(xué)數(shù)據(jù)開放共享原則;調(diào)研20個國家科學(xué)數(shù)據(jù)中心對FAIR原則的實踐現(xiàn)狀,從元數(shù)據(jù)標(biāo)準(zhǔn)和用戶授權(quán)兩個層面分析結(jié)果并提出改進(jìn)建議。研究發(fā)現(xiàn):我國國家科學(xué)數(shù)據(jù)中心對FAIR原則的應(yīng)用還有待提升,需要在持久性標(biāo)識符的采用、元數(shù)據(jù)標(biāo)準(zhǔn)的公開訪問、數(shù)據(jù)許可聲明的明確等方面加強(qiáng)規(guī)范化、標(biāo)準(zhǔn)化管理。

關(guān)鍵詞:FAIR原則;國家科學(xué)數(shù)據(jù)中心;科學(xué)數(shù)據(jù)管理;元數(shù)據(jù)

中圖分類號:G255? ?文獻(xiàn)標(biāo)識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023032

Abstract FAIR principle is the guiding principle for regulating scientific data management and promoting data sharing. Investigating and analyzing the current practice status of FAIR principle in China's National Science Data Center is of great significance to facilitate the discovery, exchange, acquisition and reuse of scientific data. This article grasps the international principle of sharing scientific data by analyzing the main contents of FAIR principle; investigates the current practice status of FAIR principle in 20 National Science Data Centers, analyzes the results from two levels of metadata standards and user authorization and proposes improvement suggestions. It is found that the application of FAIR principle in China's National Science Data Centers still needs to be improved, and standardization management should be strengthened in terms of the adoption of persistent identifiers, the open access of metadata standards and the clarification of data permission statements.

Key words FAIR principle;National Scientific Data Center;scientific data management;metadata

隨著科學(xué)數(shù)據(jù)資源的爆炸式增長和科學(xué)研究步入數(shù)據(jù)密集型科研范式階段,科學(xué)數(shù)據(jù)在科技發(fā)展和社會進(jìn)步中的重要作用日益凸顯??茖W(xué)數(shù)據(jù)已成為創(chuàng)新發(fā)展的基礎(chǔ)性、戰(zhàn)略性資源,世界各國逐漸重視科學(xué)數(shù)據(jù)的開放共享和有效利用,圍繞科學(xué)數(shù)據(jù)制定了一系列相關(guān)管理政策、法規(guī)和指南,科研機(jī)構(gòu)、高等院校、出版機(jī)構(gòu)建設(shè)的科學(xué)數(shù)據(jù)中心逐漸成為科學(xué)研究的基礎(chǔ)設(shè)施。

為推進(jìn)科學(xué)數(shù)據(jù)的規(guī)范管理與開放共享,發(fā)揮科學(xué)數(shù)據(jù)的價值,國際社會于2014年在荷蘭萊頓舉辦的學(xué)術(shù)研討會上提出了FAIR原則的草案[1]。2016年,《科學(xué)數(shù)據(jù)管理和監(jiān)督的FAIR指導(dǎo)原則》一文的發(fā)表標(biāo)志著可發(fā)現(xiàn)(Findable)、可訪問(Accessible)、可互操作(Interoperable)和可重用(Reusable)的FAIR原則正式確定為科學(xué)數(shù)據(jù)管理原則[2]。為了推進(jìn)科學(xué)數(shù)據(jù)的開放共享,降低科學(xué)研究的重復(fù)性成本,需要在實踐中不斷深化FAIR原則的應(yīng)用。

我國自2002年以來出臺了眾多相關(guān)政策文件,并通過建設(shè)國家科學(xué)數(shù)據(jù)中心開展科學(xué)數(shù)據(jù)的采集、匯交、管理、存儲、發(fā)布與利用工作,目前已在不同領(lǐng)域形成20個國家科學(xué)數(shù)據(jù)中心。但在具體實踐中,我國科學(xué)數(shù)據(jù)開放共享工作還存在制度機(jī)制不健全、標(biāo)準(zhǔn)規(guī)范不完善[3]、“數(shù)據(jù)孤島”現(xiàn)象普遍存在、數(shù)據(jù)標(biāo)準(zhǔn)化程度不足[4]等問題。本文擬通過分析FAIR原則的主要內(nèi)容,把握國際科學(xué)數(shù)據(jù)開放共享原則;調(diào)研20個國家科學(xué)數(shù)據(jù)中心對FAIR原則的實踐現(xiàn)狀,提出進(jìn)一步應(yīng)用FAIR原則的建議,對加強(qiáng)和規(guī)范我國科學(xué)數(shù)據(jù)管理,提高開放共享水平具有重要意義。

1? ?研究對象

FAIR原則是國際社會廣泛認(rèn)可的科學(xué)數(shù)據(jù)管理原則,自2014年提出后,全球許多國家和組織將其運用于開放科學(xué)數(shù)據(jù)領(lǐng)域。FAIR原則由可發(fā)現(xiàn)性、可訪問性、可操作性、可重用性4項主要原則和15項具體細(xì)則組成??砂l(fā)現(xiàn)性要求數(shù)據(jù)或元數(shù)據(jù)應(yīng)以清晰明確的方式進(jìn)行識別、描述、登記或索引;可訪問性要求數(shù)據(jù)應(yīng)通過明確界定的訪問程序訪問,即建立訪問的認(rèn)證和授權(quán)程序;可互操作性要求數(shù)據(jù)使用公共的、已發(fā)布的標(biāo)準(zhǔn)進(jìn)行結(jié)構(gòu)化和規(guī)范化組織,從而可在不同的應(yīng)用程序或工作流之間交換和使用;可重用性進(jìn)一步明確了其他原則的要點:數(shù)據(jù)被很好地記錄和整理,數(shù)據(jù)描述符合相關(guān)領(lǐng)域標(biāo)準(zhǔn),數(shù)據(jù)具有清晰明確的訪問和使用條款等[5]。

我國一直十分重視和支持科學(xué)數(shù)據(jù)的管理和共享。2019年6月,為落實《科學(xué)數(shù)據(jù)管理辦法》和《國家科技資源共享服務(wù)平臺管理辦法》的要求,規(guī)范管理國家科技資源共享服務(wù)平臺(簡稱國家平臺),完善科技資源共享服務(wù)體系,推動科技資源向社會開放共享,我國在生物學(xué)、天文學(xué)、地球科學(xué)、物理學(xué)等多個學(xué)科領(lǐng)域已有數(shù)據(jù)中心的基礎(chǔ)上,優(yōu)化調(diào)整形成了20個國家科學(xué)數(shù)據(jù)中心。各國家科學(xué)數(shù)據(jù)中心由我國科技主管部門布局、認(rèn)證和考核,在政策支持、經(jīng)費保障、組織管理水平等方面極具代表性,能夠反映我國科學(xué)數(shù)據(jù)管理與共享的發(fā)展進(jìn)程。自批準(zhǔn)成立至今,我國國家科學(xué)數(shù)據(jù)中心已走過了三年多的光景,調(diào)研國家科學(xué)數(shù)據(jù)中心對FAIR原則的實踐情況,能夠呈現(xiàn)我國國家科學(xué)數(shù)據(jù)中心建設(shè)與服務(wù)現(xiàn)狀。

從FAIR原則的具體內(nèi)容來看,主要強(qiáng)調(diào)兩點:(1)元數(shù)據(jù)標(biāo)準(zhǔn):標(biāo)識符、元數(shù)據(jù)內(nèi)容、元數(shù)據(jù)標(biāo)準(zhǔn)等;(2)用戶授權(quán):用戶注冊與授權(quán)、許可聲明、使用條款等。因此,研究主要從這兩個層面調(diào)研分析國家科學(xué)數(shù)據(jù)中心對FAIR原則的實踐現(xiàn)狀。因國家極地科學(xué)數(shù)據(jù)中心網(wǎng)站一直無法正常訪問,故最終的調(diào)研樣本為19個國家科學(xué)數(shù)據(jù)中心(見表1)。

2? ?我國國家科學(xué)數(shù)據(jù)中心FAIR原則實踐現(xiàn)狀分析

基于FAIR4項主要原則,采用網(wǎng)絡(luò)調(diào)研、文獻(xiàn)調(diào)研等方式梳理分析國家科學(xué)數(shù)據(jù)中心對FAIR原則的實踐現(xiàn)狀。通過國家科學(xué)數(shù)據(jù)中心網(wǎng)站中“數(shù)據(jù)資源”“元數(shù)據(jù)”“數(shù)據(jù)目錄”“標(biāo)準(zhǔn)規(guī)范”“數(shù)據(jù)匯交”“用戶幫助”“用戶指南”“平臺介紹”等欄目、綜合性的全球研究數(shù)據(jù)倉儲注冊目錄Re3data[6](the Registry of Research Data Repositories)以及FAlRsharing[7]網(wǎng)站中查找檢索國家科學(xué)數(shù)據(jù)中心有關(guān)元數(shù)據(jù)和用戶授權(quán)建設(shè)內(nèi)容,并通過有關(guān)國家科學(xué)數(shù)據(jù)中心建設(shè)、服務(wù)、實踐等方面研究論文,補(bǔ)充網(wǎng)絡(luò)調(diào)研不足的相關(guān)建設(shè)內(nèi)容。

2.1? ? 元數(shù)據(jù)內(nèi)容與標(biāo)準(zhǔn)

研究通過逐一調(diào)研19個數(shù)據(jù)中心的網(wǎng)站,并查閱相關(guān)文獻(xiàn),梳理國家科學(xué)數(shù)據(jù)中心的元數(shù)據(jù)標(biāo)準(zhǔn)(見表2)。

2.1.1? ?標(biāo)識符

數(shù)字資源唯一標(biāo)識符是元數(shù)據(jù)的必備元素,是數(shù)據(jù)唯一識別并數(shù)據(jù)關(guān)聯(lián)的重要元素,通常采用 “全球唯一且持久”的標(biāo)識體系。目前通用的數(shù)據(jù)標(biāo)識符有數(shù)字對象標(biāo)識符(DOI)、科技資源標(biāo)志體系(CSTR)、檔案資源鍵(ARK)、持久統(tǒng)一資源定位器(URL)等。調(diào)研發(fā)現(xiàn):19個數(shù)據(jù)中心有16個使用通用型永久性標(biāo)識符,5個使用本地或?qū)W科標(biāo)識符,NMCPDC和NMDC-Metrology沒有說明數(shù)據(jù)標(biāo)識符。通用型永久性標(biāo)識符中以DOI與CSTR的使用為主,兩者都具有唯一性、持久性、兼容性、互操作性和動態(tài)更新的特點,12個中心同時使用DOI與CSTR。

除通用型標(biāo)識符外,部分學(xué)科領(lǐng)域在實踐中形成了專用標(biāo)識符——學(xué)科性標(biāo)識符,凸顯了學(xué)科特征,以滿足針對性需求。如NGDC的PRJC、SRP、SAMC、SUB、SDA、CRA、Taxonomy ID、CRX、SRA標(biāo)識符、NMIC的MOID標(biāo)識符與NADC的IVOA標(biāo)識符是符合相應(yīng)學(xué)科領(lǐng)域的規(guī)范,能夠唯一標(biāo)識數(shù)據(jù)資源。學(xué)科性標(biāo)識符的使用大多基于國家或國際性組織,為了促進(jìn)學(xué)科領(lǐng)域的研究與交流,通過制定一系列數(shù)據(jù)描述、管理標(biāo)準(zhǔn)推動數(shù)據(jù)的開放共享。如氣象數(shù)字對象標(biāo)識符(Meteorological Digital Object Identifier, MOID)是由中國氣象局負(fù)責(zé)建設(shè)的氣象領(lǐng)域標(biāo)識數(shù)字對象唯一身份的標(biāo)識符,為實現(xiàn)氣象數(shù)據(jù)安全審查、產(chǎn)權(quán)保護(hù)、流通追溯和成效評估提供了實踐依據(jù)[8]。

本地標(biāo)識符在其所屬系統(tǒng)范圍內(nèi)是唯一的,可用于本地索引,提供多種檢索途徑,但無法解析,不利于數(shù)據(jù)關(guān)聯(lián),我國國家科學(xué)數(shù)據(jù)中心對通用型永久性標(biāo)識符的使用并未做到全覆蓋,標(biāo)識符的建設(shè)還需進(jìn)一步完善。

2.1.2? ?元數(shù)據(jù)標(biāo)準(zhǔn)

元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)定了描述某種特定資源對象的一系列元數(shù)據(jù)集合,是平臺數(shù)據(jù)服務(wù)形成的基礎(chǔ)。數(shù)據(jù)中心可根據(jù)國際國內(nèi)通用的元數(shù)據(jù)標(biāo)準(zhǔn),復(fù)用元數(shù)據(jù)元素,也可結(jié)合自身需求建立針對性的元數(shù)據(jù)標(biāo)準(zhǔn)以實現(xiàn)數(shù)據(jù)的規(guī)范組織,保證用戶和機(jī)器可讀。調(diào)研發(fā)現(xiàn),19個數(shù)據(jù)中心中僅有7個明確說明所遵循的元數(shù)據(jù)標(biāo)準(zhǔn),包括國際通用的DataCite、Schema.org、Dublin Core、DCC等標(biāo)準(zhǔn)。NGDC使用自行開發(fā)的元數(shù)據(jù)標(biāo)準(zhǔn),并在網(wǎng)站公開了具體內(nèi)容,便于其他平臺參考和復(fù)用。NCDC和NMDC-Metrology以《GB/T 30523-2014 科技平臺資源核心元數(shù)據(jù)》[9]為基準(zhǔn),其核心元數(shù)據(jù)包括7個元數(shù)據(jù)元素和2個元數(shù)據(jù)實體。NSSDC借鑒空間科學(xué)數(shù)據(jù)領(lǐng)域通用的國際標(biāo)準(zhǔn)SPASE數(shù)據(jù)模型優(yōu)勢,實現(xiàn)空間科學(xué)數(shù)據(jù)的描述與組織。SPASE模型本質(zhì)上是描述太陽物理學(xué)數(shù)據(jù)環(huán)境要素的元數(shù)據(jù)規(guī)范,采用受控詞匯表,可用于描述數(shù)據(jù)及其科學(xué)背景、來源、內(nèi)容和位置等信息[10],并能在所描述的資源之間形成關(guān)聯(lián)[11]。

由調(diào)研結(jié)果可知,我國國家科學(xué)數(shù)據(jù)中心對復(fù)用或自建的元數(shù)據(jù)標(biāo)準(zhǔn)說明不夠,公開元數(shù)據(jù)標(biāo)準(zhǔn)的意識薄弱,不利于同類數(shù)據(jù)平臺的建設(shè)。

2.1.3? ?元數(shù)據(jù)內(nèi)容

元數(shù)據(jù)是關(guān)于數(shù)據(jù)對象的描述性信息,包括數(shù)據(jù)質(zhì)量、條件、特征等信息。為實現(xiàn)和提高數(shù)據(jù)的可發(fā)現(xiàn)性,F(xiàn)AIR原則建議使用豐富的元數(shù)據(jù)描述數(shù)據(jù),幫助用戶快速找到目標(biāo)資源[12]。通過統(tǒng)計發(fā)現(xiàn),19個數(shù)據(jù)中心的元數(shù)據(jù)描述基本都達(dá)到了FAIR原則的要求,提供數(shù)據(jù)標(biāo)題、關(guān)鍵詞、摘要、標(biāo)識符、發(fā)布日期、發(fā)布機(jī)構(gòu)等描述性元數(shù)據(jù),注重數(shù)據(jù)基本信息的描述和詳細(xì)內(nèi)容的展示,保證用戶更好地理解和獲取數(shù)據(jù)。此外,NSSDC、NADC等7個平臺提供了數(shù)據(jù)的版本信息以支持歷史數(shù)據(jù)查考和引用,注重數(shù)據(jù)的及時更新(見表3)。

元數(shù)據(jù)除支持查詢和定位科學(xué)數(shù)據(jù)的功能外,還要關(guān)注數(shù)據(jù)質(zhì)量評價和數(shù)據(jù)重用信息的描述。FAIR原則建議數(shù)據(jù)包含詳細(xì)的出處信息,如數(shù)據(jù)產(chǎn)生原因、產(chǎn)生方式、創(chuàng)建者、創(chuàng)建時間、使用的原始數(shù)據(jù)或源資源、數(shù)據(jù)處理過程等,可以幫助用戶評估數(shù)據(jù)是否滿足預(yù)期的重用標(biāo)準(zhǔn)[13]。調(diào)研結(jié)果顯示,NCDC、NESSDC等5個平臺提供數(shù)據(jù)質(zhì)量描述信息,NESSDC、NCDC、NEDC提供數(shù)據(jù)加工方法信息等,使得數(shù)據(jù)質(zhì)量保障有據(jù)可循。15個數(shù)據(jù)平臺提供數(shù)據(jù)聯(lián)系信息、數(shù)據(jù)來源等內(nèi)容,為數(shù)據(jù)重用提供了便利。

其中,NCDC的元數(shù)據(jù)在數(shù)據(jù)的版本信息、數(shù)據(jù)質(zhì)量描述信息、數(shù)據(jù)加工方法信息、數(shù)據(jù)聯(lián)系信息等方面均表現(xiàn)較好,從不同角度較全面地描述了數(shù)據(jù)內(nèi)容。從數(shù)據(jù)中心網(wǎng)站平臺上公布的標(biāo)準(zhǔn)規(guī)范來看,我國在2006年就針對地震科學(xué)數(shù)據(jù)的開放共享發(fā)布了一系列標(biāo)準(zhǔn)規(guī)范,如《地震科學(xué)數(shù)據(jù) 元數(shù)據(jù)編寫指南》《數(shù)據(jù)科學(xué)數(shù)據(jù) 數(shù)據(jù)元目錄》《地震科學(xué)數(shù)據(jù) 數(shù)據(jù)分類與編碼》《地震科學(xué)數(shù)據(jù) 數(shù)據(jù)交換格式》等,對地震科學(xué)數(shù)據(jù)的元數(shù)據(jù)模式、數(shù)據(jù)字典、編寫要求、分類原則與方法等做出了詳細(xì)說明,有效指導(dǎo)了地震科學(xué)數(shù)據(jù)的管理實踐。

2.2? ? 用戶授權(quán)與訪問協(xié)議

FAIR并不意味著沒有限制的開放或免費,對于涉及個人隱私、商業(yè)秘密、國家安全等的數(shù)據(jù)資源,需要有限訪問[14]。數(shù)據(jù)平臺需要明確使用條款和訪問協(xié)議,規(guī)定使用權(quán)限,對申請者進(jìn)行授權(quán)和身份驗證,確保訪問請求、數(shù)據(jù)用途與授權(quán)條件相匹配(詳細(xì)情況見表4)。

2.2.1? ?用戶注冊與授權(quán)

19個數(shù)據(jù)中心均無需注冊即可訪問網(wǎng)站平臺,支持元數(shù)據(jù)使用,但很多數(shù)據(jù)和服務(wù)需要用戶注冊登錄后才能使用。針對數(shù)據(jù)的實際情況,平臺設(shè)置不同層級的訪問和獲取門檻,有的用戶登錄后可直接下載,有的需要用戶填寫數(shù)據(jù)使用需求表格提交后臺審核,有的還需要用戶驗證所屬機(jī)構(gòu)信息。如高能物理實驗管理采用合作組模式,所有簽訂協(xié)議并參與合作組的國內(nèi)外單位才有實驗數(shù)據(jù)的訪問權(quán)[15],因此NHEPSDC的高能物理實驗數(shù)據(jù)需要用戶成為相應(yīng)合作組成員才能獲取和使用。NGDC規(guī)定只有注冊為PI的用戶才能申請下載數(shù)據(jù),以保證數(shù)據(jù)訪問安全。而NESSDC設(shè)置了“數(shù)據(jù)直接下載”欄目,用戶無需登錄,可直接下載90個數(shù)據(jù)集內(nèi)容。

出于對數(shù)據(jù)安全的考慮,數(shù)據(jù)平臺需要劃分用戶層級并分配不同權(quán)限,以規(guī)范用戶使用行為。13個數(shù)據(jù)中心將用戶簡單劃分為訪客和注冊用戶兩類進(jìn)行權(quán)限控制。NHEPSDC區(qū)分用戶為所內(nèi)所外,并采用基于tokens的用戶認(rèn)證和資源訪問權(quán)限控制。NGDC采取雙重認(rèn)證方式,以確保數(shù)據(jù)的可溯源性[16]。高能物理實驗數(shù)據(jù)與基因組學(xué)相關(guān)數(shù)據(jù)或依托于大型國家或國際專業(yè)觀測儀器設(shè)備,或涉及國家安全、隱私相關(guān)內(nèi)容,更注重對用戶權(quán)限的管理,限制要求更高。NMDC-Marine注冊用戶分為普通用戶、個人認(rèn)證用戶和單位認(rèn)證用戶,三者的區(qū)別在于可瀏覽、檢索和收藏下載科學(xué)數(shù)據(jù)的范圍和每日可下載數(shù)據(jù)量不同。由此可見,不同層級的用戶權(quán)限和身份不同,層級越高的用戶身份可以獲取和使用的數(shù)據(jù)范圍越廣,體現(xiàn)了數(shù)據(jù)有限使用的原則。

2.2.2? ?許可聲明與使用條款

為了便于重用,數(shù)據(jù)及其元數(shù)據(jù)必須包含許可證以說明數(shù)據(jù)資源的使用條件,并且選擇的許可證應(yīng)盡可能開放[17]。由表4可見,10個數(shù)據(jù)中心未明確許可聲明,可能會產(chǎn)生法律上的不確定性,阻礙數(shù)據(jù)資源的重用。9個數(shù)據(jù)中心明確說明遵循標(biāo)準(zhǔn)的機(jī)器可讀許可協(xié)議——CC協(xié)議,其中以知識共享署名4.0(CC-BY 4.0)許可證的應(yīng)運最為廣泛。NPHDC還采用英國國家檔案館發(fā)布的可適用于開放數(shù)據(jù)的共用許可協(xié)議——(OGL UK)Open Government Licence 3.0,與CC BY 4.0兼容,兩者都許可版權(quán)和數(shù)據(jù)庫權(quán)利[18]。

除遵循標(biāo)準(zhǔn)的許可協(xié)議外,數(shù)據(jù)平臺也可通過自制政策條款說明數(shù)據(jù)使用協(xié)議與注意事項。通過統(tǒng)計發(fā)現(xiàn),11個數(shù)據(jù)中心使用“服務(wù)條款”“免責(zé)聲明”“數(shù)據(jù)使用聲明”“隱私保護(hù)”等欄目說明使用條款的相關(guān)內(nèi)容,明確平臺上的數(shù)據(jù)資源版權(quán)歸數(shù)據(jù)和資料原生產(chǎn)單位所有或平臺所有。為尊重知識產(chǎn)權(quán)、保障數(shù)據(jù)作者和數(shù)據(jù)服務(wù)提供者的權(quán)益,平臺要求用戶遵守知識產(chǎn)權(quán)的有關(guān)規(guī)定,在研究成果中注明和引用科學(xué)數(shù)據(jù);要求用戶不得將數(shù)據(jù)轉(zhuǎn)讓給第三方,由此引起的一切后果由數(shù)據(jù)用戶承擔(dān)。雖然自制政策也能對用戶的數(shù)據(jù)使用行為做出細(xì)致規(guī)定,但是標(biāo)準(zhǔn)化不足,不利于科學(xué)數(shù)據(jù)與數(shù)據(jù)平臺的數(shù)字化推廣使用。

2.3? ? 我國國家科學(xué)數(shù)據(jù)中心FAIR原則實踐現(xiàn)狀總結(jié)

綜上所述,國家科學(xué)數(shù)據(jù)中心的元數(shù)據(jù)內(nèi)容較為豐富。元數(shù)據(jù)結(jié)構(gòu)越是發(fā)展成熟、在國際上有一定影響力的科學(xué)數(shù)據(jù)中心,其元數(shù)據(jù)內(nèi)容更為詳實,既有對數(shù)據(jù)本身的詳細(xì)描述,也體現(xiàn)了對知識產(chǎn)權(quán)的充分尊重,詳細(xì)標(biāo)注了數(shù)據(jù)的生成者,并對數(shù)據(jù)的更新版本做了描述,不同版本進(jìn)行了保留,凸顯了科學(xué)數(shù)據(jù)的動態(tài)變化特征,更有助于科學(xué)數(shù)據(jù)的廣泛利用。國家青藏高原科學(xué)數(shù)據(jù)中心是我國第一個與國際出版商(Springer-Nature)合作的科學(xué)數(shù)據(jù)倉儲平臺,被Nature指定為其系列期刊的科學(xué)數(shù)據(jù)存儲平臺之一,可以看出其元數(shù)據(jù)標(biāo)準(zhǔn)與國際相關(guān)標(biāo)準(zhǔn)接軌。正是基于豐富的元數(shù)據(jù)內(nèi)容,國家青藏高原科學(xué)數(shù)據(jù)中心才與CSCD數(shù)據(jù)庫開展合作,實現(xiàn)科學(xué)數(shù)據(jù)與科學(xué)文獻(xiàn)的關(guān)聯(lián)。雖然國家科學(xué)數(shù)據(jù)中心的元數(shù)據(jù)內(nèi)容大多比較豐富,但是在描述內(nèi)容的標(biāo)準(zhǔn)化、規(guī)范化方面還有待進(jìn)一步發(fā)展,另外少數(shù)科學(xué)數(shù)據(jù)中心的元數(shù)據(jù)內(nèi)容尚待進(jìn)一步完善。

在用戶使用方面,國家科學(xué)數(shù)據(jù)中心都設(shè)置了用戶注冊要求、限定了用戶使用權(quán)限和許可聲明。由于科學(xué)數(shù)據(jù)平臺是近幾年才逐漸從匯交數(shù)據(jù)、存儲數(shù)據(jù)發(fā)展到提供數(shù)據(jù)服務(wù)與利用,并根據(jù)用戶需求與數(shù)字環(huán)境的變化,以及開放數(shù)據(jù)的進(jìn)一步普及不斷完善平臺功能建設(shè)與服務(wù)內(nèi)容,相信在科學(xué)數(shù)據(jù)應(yīng)用方面還會有更為詳細(xì)的規(guī)定,特別是有關(guān)科研誠信和科學(xué)倫理的規(guī)定。

同時,調(diào)研發(fā)現(xiàn)我國國家科學(xué)數(shù)據(jù)中心對FAIR原則的實踐中還存在三方面不足:(1)目前我國國家科學(xué)數(shù)據(jù)中心對通用型永久性標(biāo)識符的使用并未做到全覆蓋,有兩個數(shù)據(jù)中心未提供唯一性的可解析的數(shù)據(jù)標(biāo)識符,影響第三方平臺的鏈接和關(guān)聯(lián);本地標(biāo)識符需要進(jìn)一步優(yōu)化,以滿足數(shù)據(jù)解析與關(guān)聯(lián)需求;(2)數(shù)據(jù)中心所使用的元數(shù)據(jù)標(biāo)準(zhǔn)開放共享程度較低,僅有7個中心說明所遵循的元數(shù)據(jù)標(biāo)準(zhǔn),公開元數(shù)據(jù)標(biāo)準(zhǔn)的意識薄弱,不利于元數(shù)據(jù)標(biāo)準(zhǔn)的復(fù)用和同類數(shù)據(jù)平臺的建設(shè);(3)數(shù)據(jù)使用許可的明確與標(biāo)準(zhǔn)化程度有待提升,以幫助用戶明確使用要求與義務(wù),促進(jìn)科學(xué)數(shù)據(jù)與數(shù)據(jù)平臺的數(shù)字化推廣使用。

3? ?FAIR原則實施建議

FAIR原則是科學(xué)數(shù)據(jù)管理的指導(dǎo)性原則,通過分析我國國家科學(xué)數(shù)據(jù)中心對該原則的實施現(xiàn)狀可以發(fā)現(xiàn),我國科學(xué)數(shù)據(jù)管理與共享工作取得了一定成效,但還存在一些不足。為促進(jìn)我國科學(xué)數(shù)據(jù)的規(guī)范管理與開放共享,對我國國家科學(xué)數(shù)據(jù)中心實施FAIR原則提出如下建議。

3.1? ? 采用持久性標(biāo)識符

數(shù)據(jù)或元數(shù)據(jù)擁有一個全球唯一且持久的標(biāo)識符,以便計算機(jī)發(fā)現(xiàn)和解析,這是FAIR原則實現(xiàn)數(shù)據(jù)共享與重用的基礎(chǔ)[19]??茖W(xué)數(shù)據(jù)中心需要為匯交采集的結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等各類科學(xué)數(shù)據(jù)配備唯一且永久性的標(biāo)識符,并與一系列描述性元數(shù)據(jù)相關(guān)聯(lián),解決數(shù)據(jù)的身份問題。從國際學(xué)術(shù)交流的角度,科學(xué)數(shù)據(jù)中心通過采用國際通用的永久唯一識別符,建立學(xué)術(shù)交流的渠道,從科學(xué)數(shù)據(jù)自主管理的角度,應(yīng)廣泛應(yīng)用根據(jù)GB/T 32843《科技資源標(biāo)識》國家標(biāo)準(zhǔn)構(gòu)建的科技資源標(biāo)識符CSTR,有助于我國保持科學(xué)數(shù)據(jù)的有效性、解析權(quán)和獨立自主分配科技資源唯一性標(biāo)識符的權(quán)利。

3.2? ? 提供元數(shù)據(jù)標(biāo)準(zhǔn)的公開訪問

數(shù)據(jù)平臺公開共享其元數(shù)據(jù)標(biāo)準(zhǔn)能夠幫助人們更好地理解數(shù)據(jù),為數(shù)據(jù)的接口與傳輸、關(guān)聯(lián)與使用提供便利。而我國國家科學(xué)數(shù)據(jù)中心所使用的元數(shù)據(jù)標(biāo)準(zhǔn)開放共享程度較低,僅有7個說明所遵循的元數(shù)據(jù)標(biāo)準(zhǔn)。國家科學(xué)數(shù)據(jù)中心作為我國數(shù)據(jù)管理領(lǐng)域的佼佼者,建立的元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)該普惠于同學(xué)科領(lǐng)域其他數(shù)據(jù)平臺的建設(shè)與組織管理,并在實踐中不斷優(yōu)化,以共識、標(biāo)準(zhǔn)、規(guī)范為我國科學(xué)數(shù)據(jù)平臺的建設(shè)做出貢獻(xiàn)。

3.3? ? 明確數(shù)據(jù)許可聲明

數(shù)據(jù)許可聲明包含對數(shù)據(jù)能否重用、數(shù)據(jù)重用范圍、方式、注意事項等的說明,是用戶使用數(shù)據(jù)的依據(jù)。開放科學(xué)數(shù)據(jù)應(yīng)在必要時設(shè)置保護(hù)期限、內(nèi)容分級控制等明確科學(xué)數(shù)據(jù)開放共享的范圍邊界,以更好地保護(hù)科學(xué)數(shù)據(jù)的知識產(chǎn)權(quán)和鼓勵科學(xué)數(shù)據(jù)的共享。歐洲開放科學(xué)云發(fā)布的《2020計劃框架下的FAIR數(shù)據(jù)管理指南》[20](Guidelines on FAIR data management in Horizon 2020)中要求說明數(shù)據(jù)是否可重用、可重用的條件、數(shù)據(jù)有限訪問的原因和期限等內(nèi)容。Mendeley Data平臺針對各種類型數(shù)據(jù),提供了15種許可協(xié)議、使用聲明供數(shù)據(jù)提供者選擇,包括CC授權(quán)協(xié)議、軟件許可聲明(MIT、Apache、BSD、GPL)以及硬件許可聲明[21],方便研究人員上傳和共享數(shù)據(jù)。

數(shù)據(jù)平臺須重視參考標(biāo)準(zhǔn)的、機(jī)器可讀的重用許可聲明,在元數(shù)據(jù)中包含使用適當(dāng)元數(shù)據(jù)元素表示的許可信息;明確不同數(shù)據(jù)的使用權(quán)限,并做出詳細(xì)說明;參考國際標(biāo)準(zhǔn),考慮以機(jī)器可讀格式如HTML文檔、RDF等形式提供。數(shù)據(jù)平臺明確許可聲明的內(nèi)容和標(biāo)準(zhǔn),能夠幫助用戶更好地理解科學(xué)數(shù)據(jù)的使用權(quán)利與義務(wù),減少因數(shù)據(jù)權(quán)屬不確定性導(dǎo)致的數(shù)據(jù)重用糾紛,推動科學(xué)數(shù)據(jù)的公開共享。

4? ?結(jié)語

FAIR原則旨在促進(jìn)科學(xué)數(shù)據(jù)的規(guī)范組織和共享重用。通過調(diào)研我國20個國家科學(xué)數(shù)據(jù)中心對FAIR原則的實踐情況可知,我國科學(xué)數(shù)據(jù)中心建設(shè)在國家政策的推動下不斷發(fā)展,匯聚了各領(lǐng)域的科學(xué)數(shù)據(jù),形成一定的規(guī)模,在科學(xué)數(shù)據(jù)發(fā)現(xiàn)、利用、互操作、重用方面提供較為有力的支撐。但科學(xué)數(shù)據(jù)中心的發(fā)展任重道遠(yuǎn),在科學(xué)數(shù)據(jù)數(shù)量、質(zhì)量的提升方面有待進(jìn)一步發(fā)展,在科學(xué)數(shù)據(jù)的利用方面有待于提供更為完善的系統(tǒng)之間的數(shù)據(jù)交互途徑,在數(shù)據(jù)服務(wù)方面有待于政策與使用聲明的進(jìn)一步明確。只有多維度協(xié)同共進(jìn),才能建設(shè)成數(shù)據(jù)“存得下、流得動、用得好”的平臺。

參考文獻(xiàn):

[1]? Data FAlRport.Find, Access, Interoperate & Re-use Data[EB/OL].[2023-02-23].https://www.datafairport.org/.

[2]? WILKINSON M D,DUMON'TIER M,AALBERSBERG I J,et al.The FAIR Guiding Principles for scientific data management and stewardship[J].Scientific data,2016,3(1):1-9.

[3]? 高孟緒,王瑞丹,王超,等.關(guān)于國家科學(xué)數(shù)據(jù)中心建設(shè)與發(fā)展的思考[J].農(nóng)業(yè)大數(shù)據(jù)學(xué)報,2019,1(3):21-27.

[4]? 楊雅萍,姜侯,孫九林.科學(xué)數(shù)據(jù)共享實踐:以國家地球系統(tǒng)科學(xué)數(shù)據(jù)中心為例[J].地球信息科學(xué)學(xué)報,2020,22(6):1358-1369.

[5]? Boeckhout M,Zielhuis G A,Bredenoord A L.The FAIR guiding principles for data stewardship: fair enough?[J].European journal of human genetics,2018,26(7):931-936.

[6]? Registry of research data repositories[EB/OL].[2023-02-25].https://www.re3data.org/.

[7]? FAIRsharing.org[EB/OL].[2023-02-25].https:///fairsharing.org/.

[8]? 氣象數(shù)字對象標(biāo)識符[EB/OL].[2023-03-28].http://moid-node.cma.cn/.

[9]? 中華人民共和國國家質(zhì)量監(jiān)督檢驗檢疫總局、中國國家標(biāo)準(zhǔn)化管理委員會.GB/T 30523-2014 科技平臺資源核心元數(shù)據(jù)[S].北京:中國標(biāo)準(zhǔn)出版社,2014.

[10]? DCC.SPASE Data Model[EB/OL].[2023-02-25].https://www.dcc.ac.uk/resources/metadata-standards/spase-data-model.

[11]? King T,Thieman J,Roberts DA.SPASE 2.0:A standard data model for space physics[J].Earth Science Informatics,2010,3(1-2):67-73.

[12]? GO FAIR.FAIR Principles[EB/OL].[2023-02-25].https://www.go-fair.org/fair-principles/.

[13]? Weigel T,Schwardmann U,Klump J,et al.Making data and workflows findable for machines[J].Data Intelligence,2021,2(2):40-46.

[14]? Mons B.FAlR science for social machines: let's share metadata Knowlets in the Internet of FAlR data and services[J].Data lntelligence,2019,1(2):22-42.

[15]? 齊法制,陳剛,程耀東.建立權(quán)責(zé)明晰且能力健全的科學(xué)數(shù)據(jù)開放共享機(jī)制——以高能物理領(lǐng)域為例[J].中國科學(xué)基金,2019,33(3):229-236.

[16]? 李茹姣,張欣,宋述慧,等.基因組科學(xué)數(shù)據(jù)的安全管理與應(yīng)用[J].大數(shù)據(jù),2022,8(1):37-45.

[17]? Labastida l,Margoni T.Licensing FAlR data for reuse[J].Data lntelligence,2019,1(1):199-207.

[18]? The National Archives.Open Government Licence for public sector information[EB/OL].[2023-02-25].https://nmdc.cn/submit/guide.

[19]? Jacobsen A,Azevedo RD,Juty N,et al.FAIR Principles:Interpretations and Implementation Considerations[J].Data Intelligence,2020,2(1-2):10-29.

[20]? European Union.Guidelines on Data Management in Horizon 2020[EB/OL].[2023-03-26].http://ec.europa.eu/research/participants/data/ref/h2020/grants_manual/hi/oa.

[21]? 盧垚,王鸑飛,劉洪冰,等.Mendeley Data平臺開放科學(xué)數(shù)據(jù)實踐及啟示[J].數(shù)字圖書館論壇,2021,(9):19-26.

作者簡介:李楠楠,女,中國科學(xué)院文獻(xiàn)情報中心、中國科學(xué)院大學(xué)經(jīng)濟(jì)與管理學(xué)院圖書情報與檔案管理系碩士研究生;劉筱敏,女,中國科學(xué)院文獻(xiàn)情報中心研究館員。

猜你喜歡
元數(shù)據(jù)
元數(shù)據(jù)國際交換共享的客家古民居數(shù)字記憶工程建設(shè)
基于來源的組織機(jī)構(gòu)元數(shù)據(jù)構(gòu)建研究
元數(shù)據(jù)與社會化標(biāo)簽在微視頻搜索中的應(yīng)用
高等院校智慧校園建設(shè)規(guī)劃與實現(xiàn)
利用VB讀取中國知網(wǎng)過刊數(shù)據(jù)提取元數(shù)據(jù)的研究
財會信息資源元數(shù)據(jù)標(biāo)準(zhǔn)的研究
基于隱語義模型和用戶信任的個性化推薦模型
基于關(guān)聯(lián)數(shù)據(jù)的語義數(shù)字檔案館框架設(shè)計研究
基于角色控制的異構(gòu)數(shù)據(jù)展示在企業(yè)門戶中的應(yīng)用
基于元數(shù)據(jù)映射機(jī)制的異構(gòu)數(shù)據(jù)操作
从江县| 敦化市| 开鲁县| 全南县| 赤峰市| 天峨县| 大悟县| 宁河县| 丹江口市| 深水埗区| 竹溪县| 克山县| 福建省| 乐安县| 舞钢市| 丘北县| 米林县| 广宗县| 霸州市| 卓尼县| 松滋市| 巴彦淖尔市| 政和县| 沛县| 基隆市| 双流县| 烟台市| 泽库县| 郯城县| 晋城| 招远市| 积石山| 长宁区| 锡林郭勒盟| 吴旗县| 青龙| 尼勒克县| 文昌市| 乐安县| 巍山| 淳化县|