胡皓,齊法制,孫曉康,羅齊
1. 中國科學(xué)院高能物理研究所,北京 100049;2. 國家高能物理科學(xué)數(shù)據(jù)中心,北京 100049;3. 中國科學(xué)技術(shù)大學(xué),安徽 合肥 230026
高能同步輻射光源(high energy photon source,HEPS)是國家“十三五”規(guī)劃優(yōu)先建設(shè)的國家重大科技基礎(chǔ)設(shè)施。它是我國第一臺高能量同步輻射光源,也是世界上亮度較高的第四代同步輻射光源之一,將服務(wù)于超高空間分辨、時(shí)間分辨、能量分辨的高通量同步輻射實(shí)驗(yàn),為國家重大戰(zhàn)略需求和前沿基礎(chǔ)科學(xué)研究提供技術(shù)支撐平臺。
高能同步輻射光源是面向多學(xué)科交叉前沿研究的同步輻射公共實(shí)驗(yàn)平臺類裝置,依托該裝置開展的實(shí)驗(yàn)向高通量、多模態(tài)、超高頻率、原位及動(dòng)態(tài)加載的形式轉(zhuǎn)變,以實(shí)現(xiàn)樣品的跨尺度、多功能原位表征的目標(biāo)。高能同步輻射光源每年產(chǎn)生PB級甚至數(shù)百PB級的海量科學(xué)數(shù)據(jù),具有不可重復(fù)性、高維性、高度計(jì)算復(fù)雜性和高度不確定性等特征。這些數(shù)據(jù)屬于公共實(shí)驗(yàn)類科學(xué)數(shù)據(jù),數(shù)據(jù)構(gòu)成基本一致,包括原始數(shù)據(jù)、元數(shù)據(jù)、處理數(shù)據(jù)與結(jié)果數(shù)據(jù)。科學(xué)數(shù)據(jù)是高能同步輻射光源裝置的核心資產(chǎn),更是國家的寶貴財(cái)富和戰(zhàn)略資源,關(guān)系到國家的科技進(jìn)步與創(chuàng)新能力,因此建立權(quán)責(zé)明晰且能力健全的科學(xué)數(shù)據(jù)管理規(guī)范與開放共享機(jī)制尤為重要。
隨著科學(xué)數(shù)據(jù)的不斷積累,基于大數(shù)據(jù)的科學(xué)發(fā)現(xiàn)已經(jīng)成為繼實(shí)驗(yàn)歸納、模型推演、仿真模擬之后的科學(xué)研究第四范式,并引起了相關(guān)國家和科技領(lǐng)域的高度重視[1]。為了進(jìn)一步加強(qiáng)和規(guī)范科學(xué)數(shù)據(jù)管理,保障科學(xué)數(shù)據(jù)安全,提高開放共享水平,我國出臺了一系列與數(shù)據(jù)管理相關(guān)的政策和法規(guī)。2018年3月,國務(wù)院辦公廳印發(fā)《科學(xué)數(shù)據(jù)管理辦法》[2],該辦法明確了中國科學(xué)數(shù)據(jù)管理的總體原則、主要職責(zé)、數(shù)據(jù)采集匯交與保存、共享利用、保密與安全等方面的內(nèi)容,首次站在國家高度面向多領(lǐng)域科學(xué)數(shù)據(jù)提出以開放為主的指導(dǎo)原則,具有劃時(shí)代意義。2019年2月,中國科學(xué)院印發(fā)了《中國科學(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法(試行)》[3],該辦法規(guī)定科學(xué)院屬法人單位是科學(xué)數(shù)據(jù)管理與開放的責(zé)任主體,提出科學(xué)數(shù)據(jù)應(yīng)按照分等級、可發(fā)現(xiàn)、可訪問、可重用的原則,適時(shí)向院內(nèi)外用戶提供數(shù)據(jù)開放共享,為《科學(xué)數(shù)據(jù)管理辦法》在中國科學(xué)院的落地提供了具體指導(dǎo)意見。
上述綱領(lǐng)性文件為我國建立科學(xué)數(shù)據(jù)的管理規(guī)范和開放共享機(jī)制提供了指導(dǎo)性意見,但是對于同步輻射公共實(shí)驗(yàn)平臺類裝置的科學(xué)數(shù)據(jù)管理,仍有許多需要細(xì)化和落實(shí)的地方:科學(xué)數(shù)據(jù)的所有權(quán)和使用權(quán)界定不清晰;科學(xué)數(shù)據(jù)管理與開放的責(zé)任主體及職責(zé)范圍不明確;未對用戶使用國家大裝置資源的行為進(jìn)行約束和要求等。這些問題嚴(yán)重阻礙了高能同步輻射光源在數(shù)據(jù)管理工作上的推進(jìn)。
針對科學(xué)數(shù)據(jù)管理和開放共享中面臨的具體問題,高能同步輻射光源亟須研究和建立數(shù)據(jù)管理策略及實(shí)施細(xì)節(jié),明確科學(xué)數(shù)據(jù)的所有權(quán)和使用權(quán);加強(qiáng)對用戶知識產(chǎn)權(quán)的保護(hù),規(guī)范科學(xué)數(shù)據(jù)使用者的行為;保證科學(xué)數(shù)據(jù)安全,并圍繞科學(xué)數(shù)據(jù)的全生命周期,為科學(xué)數(shù)據(jù)的采集、長期保存、處理分析、開放共享等各個(gè)環(huán)節(jié)的工作提供政策依據(jù)。
本文的科學(xué)數(shù)據(jù)策略指大科學(xué)裝置產(chǎn)生的科學(xué)數(shù)據(jù)全生命周期管理過程的制度和規(guī)范,裝置的科學(xué)數(shù)據(jù)管理必須遵從該數(shù)據(jù)策略的各項(xiàng)規(guī)定??茖W(xué)數(shù)據(jù)策略需要對科學(xué)數(shù)據(jù)的所有權(quán)、管理和訪問3個(gè)方面進(jìn)行約束和說明。
● 科學(xué)數(shù)據(jù)的所有權(quán):回答了“數(shù)據(jù)是誰的”這一問題,是數(shù)據(jù)權(quán)利保護(hù)的核心問題[4]。數(shù)據(jù)所有權(quán)的界定能真正實(shí)現(xiàn)對數(shù)據(jù)權(quán)利的保護(hù)、對數(shù)據(jù)的有效利用,并激勵(lì)數(shù)據(jù)開發(fā)、技術(shù)應(yīng)用的研究。對于同步輻射光源類大科學(xué)裝置,科學(xué)數(shù)據(jù)的來源比較復(fù)雜,科學(xué)數(shù)據(jù)可能由公共研究或非公共研究的實(shí)驗(yàn)產(chǎn)生,數(shù)據(jù)的種類包括原始數(shù)據(jù)、處理數(shù)據(jù)、結(jié)果數(shù)據(jù)、標(biāo)定數(shù)據(jù)等,需要根據(jù)不同的數(shù)據(jù)來源分別界定科學(xué)數(shù)據(jù)的所有權(quán)。
● 科學(xué)數(shù)據(jù)管理:圍繞科學(xué)數(shù)據(jù)全生命周期過程,明確科學(xué)數(shù)據(jù)的數(shù)據(jù)獲取方式、數(shù)據(jù)格式和唯一永久標(biāo)識、數(shù)據(jù)短期和長期存儲策略、數(shù)據(jù)處理軟件或數(shù)據(jù)讀取軟件提供方式等。
● 科學(xué)數(shù)據(jù)訪問:為了遵循科學(xué)數(shù)據(jù)的FAIR原則,保證數(shù)據(jù)的可發(fā)現(xiàn)(findable)、可訪問(accessible)、可互操作(interoperable)和可重用(reusable),同時(shí)保護(hù)用戶的知識產(chǎn)權(quán),需要針對不同的數(shù)據(jù)類型,從數(shù)據(jù)訪問對象和數(shù)據(jù)保護(hù)期等角度對數(shù)據(jù)訪問進(jìn)行相關(guān)約束和規(guī)定。
目前國際上有多個(gè)光源類大科學(xué)裝置制定了相應(yīng)的科學(xué)數(shù)據(jù)管理策略,如歐洲同步輻射裝置(ESRF)[5]、瑞典MAX IV[6]、瑞士保羅謝爾研究所(PSI)[7]和歐洲X射線自由電子激光裝置(European XFEL)[8]。這些裝置的科學(xué)數(shù)據(jù)策略均對科學(xué)數(shù)據(jù)的所有權(quán)、管理和使用進(jìn)行了詳細(xì)規(guī)定。例如,ESRF和PSI將提供不少于5年的長期存儲,MAX IV將提供最多3個(gè)月的短期存儲,各裝置的長期存儲期限可根據(jù)資金、存儲硬件設(shè)施配置情況以及實(shí)驗(yàn)數(shù)據(jù)量調(diào)整。為了在保護(hù)用戶知識產(chǎn)權(quán)的前提下對數(shù)據(jù)進(jìn)行開放共享,國外光源類裝置都提出了數(shù)據(jù)保護(hù)期的概念,自實(shí)驗(yàn)結(jié)束開始的一段時(shí)間內(nèi),只有實(shí)驗(yàn)的提案組擁有該數(shù)據(jù)的使用權(quán),僅對實(shí)驗(yàn)組成員開放數(shù)據(jù)讀取權(quán)限。大部分裝置將數(shù)據(jù)保護(hù)期定為2~3年,并在數(shù)據(jù)保護(hù)期過后對系統(tǒng)注冊用戶提供免費(fèi)的公開訪問。
國際上多個(gè)先進(jìn)的光源類大科學(xué)裝置發(fā)布的數(shù)據(jù)策略已經(jīng)得到多年應(yīng)用和改進(jìn),為科學(xué)數(shù)據(jù)管理規(guī)范和數(shù)據(jù)開放共享提供了有效的政策指引。雖然國內(nèi)外在國家法律和管理制度上存在巨大差異[9],但這些經(jīng)驗(yàn)總結(jié)仍對制定國內(nèi)同類大科學(xué)裝置的數(shù)據(jù)策略有很高的參考價(jià)值。
國內(nèi)目前運(yùn)行的光源類大科學(xué)裝置主要有北京同步輻射裝置(BSRF)、合肥同步輻射裝置(HLS)、上海光源(SSRF)、中國散裂中子源(CSNS)、X射線自由電子激光試驗(yàn)裝置(SXFEL)和大連相干光源(DCLS),高能同步輻射光源(HEPS)、上海硬X射線自由電子激光裝置(SHINE)和軟X射線自由電子激光用戶裝置(SXFEL)等裝置正在建設(shè)中。在過去一段時(shí)間內(nèi),國內(nèi)光源類大科學(xué)裝置在科學(xué)數(shù)據(jù)的管理和共享中缺乏相應(yīng)的技術(shù)手段和驅(qū)動(dòng)力,科學(xué)數(shù)據(jù)的協(xié)同處理和分析難度較大,更沒有形成統(tǒng)一的科學(xué)數(shù)據(jù)標(biāo)準(zhǔn)及管理與開放共享的策略。當(dāng)前,國內(nèi)光源類大科學(xué)裝置在數(shù)量和規(guī)模上都達(dá)到了國際水平,相關(guān)機(jī)構(gòu)也逐漸意識到數(shù)據(jù)策略的重要性,逐步規(guī)劃和建立專業(yè)的數(shù)據(jù)管理團(tuán)隊(duì)開展相關(guān)研究。但總體來說,國內(nèi)光源類大科學(xué)裝置的數(shù)據(jù)管理策略研究還處于起步階段。
數(shù)據(jù)策略總體架構(gòu)如圖1所示,為了形成數(shù)據(jù)管理和開放共享的政策依據(jù),數(shù)據(jù)策略圍繞高能同步輻射光源科學(xué)數(shù)據(jù)全生命周期,制定從數(shù)據(jù)獲取、數(shù)據(jù)存儲、數(shù)據(jù)分析、數(shù)據(jù)發(fā)布到數(shù)據(jù)共享整個(gè)流程相應(yīng)的規(guī)范和制度。科學(xué)數(shù)據(jù)管理內(nèi)容包括數(shù)據(jù)架構(gòu)管理、元數(shù)據(jù)管理、數(shù)據(jù)格式管理、數(shù)據(jù)服務(wù)、數(shù)據(jù)共享服務(wù)、數(shù)據(jù)標(biāo)識管理、分析軟件管理和數(shù)據(jù)安全管理。針對這些具體的數(shù)據(jù)管理內(nèi)容,制定相應(yīng)的存儲策略、訪問策略、數(shù)據(jù)質(zhì)量、數(shù)據(jù)服務(wù)保證、數(shù)據(jù)權(quán)屬、共享策略、匯交策略、數(shù)據(jù)引用策略等。存儲策略指對不同類型數(shù)據(jù)采用不同存儲介質(zhì)進(jìn)行長期或者短期的保存;訪問策略主要針對不同時(shí)間段的用戶數(shù)據(jù)訪問進(jìn)行權(quán)限限制,實(shí)現(xiàn)用戶對實(shí)驗(yàn)數(shù)據(jù)的知識產(chǎn)權(quán)保護(hù),同時(shí)保證開放共享時(shí)數(shù)據(jù)能被訪問和充分利用;數(shù)據(jù)質(zhì)量指對數(shù)據(jù)格式規(guī)范和元數(shù)據(jù)完整性、真實(shí)性的要求;數(shù)據(jù)服務(wù)保證指對提供持續(xù)不間斷的數(shù)據(jù)服務(wù)和用戶信息安全提出相應(yīng)的要求;數(shù)據(jù)權(quán)屬是對不同類型實(shí)驗(yàn)產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)歸屬權(quán)的界定;共享策略指在數(shù)據(jù)保護(hù)期內(nèi)和數(shù)據(jù)保護(hù)期外數(shù)據(jù)可以共享的范圍,包括實(shí)驗(yàn)組、提案組、所有用戶等權(quán)限界定;匯交策略指所有實(shí)驗(yàn)數(shù)據(jù)向國家數(shù)據(jù)中心匯交的要求;數(shù)據(jù)引用策略指數(shù)據(jù)發(fā)布、數(shù)據(jù)發(fā)表、數(shù)據(jù)相關(guān)出版物對數(shù)據(jù)引用的規(guī)范要求。
圖1 數(shù)據(jù)策略總體架構(gòu)
在決策流程方面,數(shù)據(jù)管理團(tuán)隊(duì)提出數(shù)據(jù)策略發(fā)布和變更要求時(shí),需要經(jīng)過數(shù)據(jù)管理專家評審和用戶委員會的同意,最后數(shù)據(jù)管理委員會成員一致通過后才能發(fā)布或更新版本。
基于根據(jù)數(shù)據(jù)策略總體架構(gòu),高能同步輻射光源數(shù)據(jù)策略根據(jù)不同的數(shù)據(jù)類型來組織數(shù)據(jù)策略內(nèi)容,包含總則、術(shù)語定義、原始數(shù)據(jù)和元數(shù)據(jù)相關(guān)策略、處理數(shù)據(jù)與結(jié)果數(shù)據(jù)相關(guān)策略、科學(xué)數(shù)據(jù)的保證和責(zé)任、數(shù)據(jù)相關(guān)出版信息六部分內(nèi)容。總則部分從整體上制定了數(shù)據(jù)的所有權(quán)、管理和使用的相關(guān)政策和規(guī)定,并從大科學(xué)裝置角度和用戶角度分別明確了各自的責(zé)任和義務(wù);術(shù)語定義部分對數(shù)據(jù)和實(shí)驗(yàn)的專業(yè)術(shù)語進(jìn)行解釋和定義;原始數(shù)據(jù)和元數(shù)據(jù)相關(guān)策略、處理數(shù)據(jù)與結(jié)果數(shù)據(jù)相關(guān)策略兩部分分別針對不同類型的科學(xué)數(shù)據(jù),從數(shù)據(jù)所有權(quán)、數(shù)據(jù)管理和訪問3個(gè)方面,明確了裝置以及用戶的權(quán)利和義務(wù);科學(xué)數(shù)據(jù)的保證和責(zé)任明確了作為數(shù)據(jù)管理和開放共享的責(zé)任主體對準(zhǔn)確、長期、安全地保管數(shù)據(jù)做出的保證;數(shù)據(jù)相關(guān)出版信息明確了對數(shù)據(jù)進(jìn)行發(fā)布、發(fā)表、出版時(shí)應(yīng)正確地對數(shù)據(jù)進(jìn)行引用。
2.2.1 總則
● 本數(shù)據(jù)策略是大科學(xué)裝置科學(xué)數(shù)據(jù)的所有權(quán)、管理和使用的相關(guān)政策和規(guī)定,任何與大科學(xué)裝置科學(xué)數(shù)據(jù)相關(guān)的管理和操作必須遵循本數(shù)據(jù)策略。
● 接受此數(shù)據(jù)策略是用戶獲得實(shí)驗(yàn)機(jī)的前提條件。
● 遵守此數(shù)據(jù)策略并經(jīng)過大科學(xué)裝置授權(quán)的用戶才能訪問、利用、分發(fā)或共享科學(xué)數(shù)據(jù)。
● 如果用戶出現(xiàn)故意違反此數(shù)據(jù)策略的行為,相關(guān)大科學(xué)裝置有權(quán)拒絕用戶對科學(xué)數(shù)據(jù)的訪問,并有權(quán)拒絕該用戶以后對該裝置的任何實(shí)驗(yàn)機(jī)的申請。
● 大科學(xué)裝置用戶必須在裝置的用戶管理系統(tǒng)或其他被裝置官方認(rèn)可的系統(tǒng)上進(jìn)行注冊,大科學(xué)裝置有義務(wù)保證用戶信息的安全性。
● 根據(jù)科學(xué)數(shù)據(jù)匯交制度,公共實(shí)驗(yàn)產(chǎn)生的科學(xué)數(shù)據(jù)可以匯交到國家的相關(guān)科學(xué)數(shù)據(jù)中心。
2.2.2 術(shù)語定義
● 科學(xué)數(shù)據(jù):所有從大科學(xué)裝置產(chǎn)生的數(shù)據(jù),包括但不限于由實(shí)驗(yàn)分析軟件自動(dòng)產(chǎn)生或由實(shí)驗(yàn)站科學(xué)家及用戶模擬或分析產(chǎn)生的數(shù)據(jù)。
● 原始數(shù)據(jù):所有從大科學(xué)裝置直接獲取的科學(xué)數(shù)據(jù)。
● 元數(shù)據(jù):所有收集到的與科學(xué)數(shù)據(jù)相關(guān)的信息,包括但不限于與實(shí)驗(yàn)相關(guān)的信息,如實(shí)驗(yàn)用戶、實(shí)驗(yàn)條件和環(huán)境等信息。
● 元數(shù)據(jù)目錄:指元數(shù)據(jù)數(shù)據(jù)庫,使用該數(shù)據(jù)庫可以通過不同的檢索方式查找和訪問科學(xué)數(shù)據(jù)文件。
● 處理數(shù)據(jù):所有由原始數(shù)據(jù)處理和加工得到的數(shù)據(jù)。
● 結(jié)果數(shù)據(jù):由原始數(shù)據(jù)和元數(shù)據(jù)處理、加工以及分析得到的數(shù)據(jù),屬于處理數(shù)據(jù)的子集,不包括基于此結(jié)果發(fā)表的論文、專利等知識產(chǎn)權(quán)成果。
● 標(biāo)樣數(shù)據(jù):也被稱為標(biāo)定數(shù)據(jù),是處理數(shù)據(jù)中用來描述探測器校正因子的一個(gè)子類。
● 準(zhǔn)直數(shù)據(jù):是從專門的校準(zhǔn)測量中獲得的處理數(shù)據(jù)的一個(gè)子類,它提供了各種探測器的位置、角度及其他相關(guān)信息。
● 課題負(fù)責(zé)人:指用戶管理系統(tǒng)中申請課題的負(fù)責(zé)人。
● 課題組:包括課題負(fù)責(zé)人和由課題負(fù)責(zé)人授權(quán)的所有能訪問該實(shí)驗(yàn)原始數(shù)據(jù)和元數(shù)據(jù)的注冊用戶。
● 公共實(shí)驗(yàn):政府預(yù)算資金資助的科學(xué)實(shí)驗(yàn)。
● 非公共實(shí)驗(yàn):非政府預(yù)算資金資助的科學(xué)實(shí)驗(yàn)。
● 永久標(biāo)識符:用于標(biāo)識實(shí)驗(yàn)數(shù)據(jù)集的唯一永久符號。
● 長期存儲:不少于一年的科學(xué)數(shù)據(jù)存儲服務(wù)。
● 數(shù)據(jù)保護(hù)期:指實(shí)驗(yàn)結(jié)束后僅對課題組成員開放數(shù)據(jù)讀取權(quán)限的期限,一般不超過兩年。
● 開放訪問:指數(shù)據(jù)保護(hù)期過后,對數(shù)據(jù)提供無限制的(但非匿名)、免費(fèi)的公開訪問。
2.2.3 原始數(shù)據(jù)和元數(shù)據(jù)相關(guān)策略
(1)原始數(shù)據(jù)和元數(shù)據(jù)的管理
● 所有原始數(shù)據(jù)和元數(shù)據(jù)都以預(yù)先明確定義的格式進(jìn)行處理并保存,實(shí)驗(yàn)結(jié)束后提供不少于3個(gè)月的即時(shí)訪問存儲及長期存儲。長期存儲期限可根據(jù)資金、存儲硬件設(shè)施配置情況以及實(shí)驗(yàn)數(shù)據(jù)量調(diào)整。
● 原始數(shù)據(jù)和元數(shù)據(jù)在其存儲期間是只讀的,大科學(xué)裝置提供讀取數(shù)據(jù)的方法。
● 大科學(xué)裝置產(chǎn)生的每個(gè)實(shí)驗(yàn)數(shù)據(jù)集必須具有唯一的永久標(biāo)識符,任何人發(fā)布可以開放讀取的數(shù)據(jù)時(shí)都必須引用相應(yīng)數(shù)據(jù)集的永久標(biāo)識符。永久標(biāo)識符建議采用中國科技資源(China science and technology resource,CSTR)標(biāo)識。
(2)原始數(shù)據(jù)和元數(shù)據(jù)的訪問
● 只有經(jīng)過大科學(xué)裝置授權(quán)后的注冊用戶才有數(shù)據(jù)訪問權(quán)限。
● 可通過元數(shù)據(jù)目錄搜索并訪問原始數(shù)據(jù)和元數(shù)據(jù)。
● 公共實(shí)驗(yàn)產(chǎn)生的所有原始數(shù)據(jù)和相關(guān)元數(shù)據(jù)只能在數(shù)據(jù)保護(hù)期之后才能提供開放式訪問,而在保護(hù)期內(nèi)這些數(shù)據(jù)的訪問和獲取權(quán)限僅屬于由課題負(fù)責(zé)人指定的課題組成員。
● 非公共實(shí)驗(yàn)獲得的所有原始數(shù)據(jù)和相關(guān)元數(shù)據(jù)的所有權(quán)由非公共實(shí)驗(yàn)用戶獨(dú)家擁有,這些數(shù)據(jù)不包含在本數(shù)據(jù)策略的應(yīng)用范圍內(nèi)。大科學(xué)裝置不負(fù)責(zé)管理和保存非公共實(shí)驗(yàn)產(chǎn)生的所有數(shù)據(jù),除非在實(shí)驗(yàn)開始前非公共實(shí)驗(yàn)用戶與大科學(xué)裝置相關(guān)管理機(jī)構(gòu)另有約定。
● 任何希望延長數(shù)據(jù)保護(hù)期的課題負(fù)責(zé)人可以向大科學(xué)裝置相關(guān)管理機(jī)構(gòu)提交書面請求,說明申請延長期限的原因,該機(jī)構(gòu)討論決定是否接受申請。
● 課題負(fù)責(zé)人有責(zé)任確保實(shí)驗(yàn)過程中輸入的實(shí)驗(yàn)相關(guān)信息的正確性和完整性,包括但不限于實(shí)驗(yàn)課題編號和樣品描述信息。
● 大科學(xué)裝置工作人員(如實(shí)驗(yàn)站科學(xué)家)因工作需要可以訪問相關(guān)原始數(shù)據(jù)或元數(shù)據(jù)。大科學(xué)裝置承諾在數(shù)據(jù)保護(hù)期內(nèi)保證數(shù)據(jù)的安全性。
● 元數(shù)據(jù)目錄將科學(xué)數(shù)據(jù)與實(shí)驗(yàn)課題相關(guān)聯(lián)。除非獲得課題負(fù)責(zé)人的特殊授權(quán),否則只有課題組和相應(yīng)的大科學(xué)裝置工作人員具有對實(shí)驗(yàn)課題信息的訪問權(quán)限。
● 在數(shù)據(jù)保護(hù)期內(nèi),課題負(fù)責(zé)人可以將其數(shù)據(jù)相關(guān)權(quán)利和責(zé)任全部轉(zhuǎn)交給經(jīng)過大科學(xué)裝置授權(quán)的其他注冊用戶。此轉(zhuǎn)讓必須以可追溯的形式記錄。
2.2.4 處理數(shù)據(jù)與結(jié)果數(shù)據(jù)相關(guān)策略
(1)處理數(shù)據(jù)與結(jié)果數(shù)據(jù)的管理
● 除非本科學(xué)數(shù)據(jù)策略另有說明,否則大科學(xué)裝置不會長期保存實(shí)驗(yàn)中分析步驟的處理數(shù)據(jù)及其相關(guān)元數(shù)據(jù)。臨時(shí)存儲空間和臨時(shí)存儲時(shí)間將根據(jù)存儲能力確定并靈活調(diào)整。
● 所有標(biāo)樣數(shù)據(jù)和準(zhǔn)直數(shù)據(jù)以及相關(guān)元數(shù)據(jù)將會被長期保存。
● 大科學(xué)裝置可提供一定期限內(nèi)的結(jié)果數(shù)據(jù)以及相關(guān)元數(shù)據(jù)的保存。
(2)結(jié)果數(shù)據(jù)的訪問
● 標(biāo)樣數(shù)據(jù)和準(zhǔn)直數(shù)據(jù)及相關(guān)元數(shù)據(jù)將提供開放式訪問,不受數(shù)據(jù)保護(hù)期限制。
● 對于由原始數(shù)據(jù)和元數(shù)據(jù)分析得出的結(jié)果數(shù)據(jù),僅課題組成員具有訪問權(quán)限。
2.2.5 科學(xué)數(shù)據(jù)的保證和責(zé)任
● 大科學(xué)裝置將采取合理的措施,對數(shù)據(jù)進(jìn)行準(zhǔn)確、長期的保存和管理,以及提供不間斷的數(shù)據(jù)訪問服務(wù)。相關(guān)裝置會在最大程度上保證數(shù)據(jù)的完整性和安全性。
● 若由不可抗拒或不可預(yù)見的因素導(dǎo)致科學(xué)數(shù)據(jù)丟失、不完整、不可用或數(shù)據(jù)分析軟件不可用,大科學(xué)裝置將不對此承擔(dān)任何責(zé)任。
2.2.6 數(shù)據(jù)相關(guān)出版信息
任何基于大科學(xué)裝置數(shù)據(jù)集的發(fā)布、發(fā)表、出版物都應(yīng)該引用該數(shù)據(jù)集的永久標(biāo)識符。
高能同步輻射光源按照大科學(xué)裝置的實(shí)際情況和需求進(jìn)行數(shù)據(jù)策略的編制,在符合國家數(shù)據(jù)管理法律法規(guī)的前提下,同時(shí)參考了部分國外同步輻射光源設(shè)施的數(shù)據(jù)策略的內(nèi)容。在數(shù)據(jù)策略研究過程中,大科學(xué)裝置組織數(shù)據(jù)管理專家、信息科學(xué)專家和光源線站科學(xué)家對策略條款進(jìn)行多次充分討論,總結(jié)出存在的問題和研究過程中的一些思考,具體如下。
(1)數(shù)據(jù)所有權(quán)
高能同步輻射光源屬于公共實(shí)驗(yàn)平臺類大裝置,實(shí)驗(yàn)數(shù)據(jù)的所有權(quán)需要從實(shí)驗(yàn)研究類型、數(shù)據(jù)來源和分類方面進(jìn)行分析。對于政府預(yù)算資金資助的公共實(shí)驗(yàn),科研用戶使用自己的創(chuàng)新研究方法和樣品到裝置做實(shí)驗(yàn),得到實(shí)驗(yàn)原始數(shù)據(jù),有些數(shù)據(jù)可以直接用于科學(xué)研究,有些數(shù)據(jù)需要經(jīng)過裝置公共平臺提供計(jì)算資源進(jìn)行處理后才能供用戶使用,這兩類數(shù)據(jù)的所有權(quán)應(yīng)該由裝置和用戶共同擁有。對于非公共實(shí)驗(yàn),原始數(shù)據(jù)和元數(shù)據(jù)的所有權(quán)由實(shí)驗(yàn)用戶獨(dú)家擁有。裝置產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)分為原始數(shù)據(jù)和元數(shù)據(jù)、處理數(shù)據(jù)、結(jié)果數(shù)據(jù)、標(biāo)樣數(shù)據(jù)、準(zhǔn)直數(shù)據(jù)等。原始數(shù)據(jù)和元數(shù)據(jù)具有不可重復(fù)的特性,所有權(quán)可以依據(jù)實(shí)驗(yàn)研究類型區(qū)分;處理數(shù)據(jù)是由原始數(shù)據(jù)通過軟件加工處理得到的數(shù)據(jù),數(shù)據(jù)可由原始數(shù)據(jù)和軟件重復(fù)生成,因此裝置不提供對處理數(shù)據(jù)的長期保存;結(jié)果數(shù)據(jù)是處理數(shù)據(jù)的子集,涉及后續(xù)產(chǎn)生的知識產(chǎn)權(quán)問題,結(jié)果數(shù)據(jù)的所有權(quán)歸執(zhí)行數(shù)據(jù)分析的人員所有;標(biāo)樣數(shù)據(jù)和準(zhǔn)直數(shù)據(jù)作為裝置探測器校準(zhǔn)和校正的公共數(shù)據(jù),所有權(quán)歸裝置所有,但會對所有用戶提供開放訪問權(quán)限。
(2)模擬數(shù)據(jù)
策略中對原始數(shù)據(jù)、處理數(shù)據(jù)、已校準(zhǔn)數(shù)據(jù)、標(biāo)樣數(shù)據(jù)、準(zhǔn)直數(shù)據(jù)、結(jié)果數(shù)據(jù)都有詳細(xì)的定義,同時(shí)對各類數(shù)據(jù)的存儲時(shí)間和訪問權(quán)限做了明確說明,但是缺少模擬數(shù)據(jù)。模擬數(shù)據(jù)是不由真實(shí)實(shí)驗(yàn)產(chǎn)生,由模擬算法產(chǎn)生,可以反映樣品和儀器特征的數(shù)據(jù),在線站設(shè)計(jì)、機(jī)器研究和用戶數(shù)據(jù)分析等方面體現(xiàn)了重要的價(jià)值。由于很多數(shù)據(jù)分析依賴于模擬數(shù)據(jù),線站科學(xué)家認(rèn)為模擬數(shù)據(jù)有必要被長期保存。但考慮到用戶的模擬數(shù)據(jù)是由用戶自行開發(fā)的軟件生成的數(shù)據(jù),屬于用戶個(gè)人數(shù)據(jù),并且能由軟件重新生成,其是否屬于裝置數(shù)據(jù)管理的范疇還需要討論。
暫時(shí)解決辦法:數(shù)據(jù)管理系統(tǒng)保留對模擬數(shù)據(jù)進(jìn)行保存和記錄的功能,但在數(shù)據(jù)策略中暫不明確給出定義、存儲和訪問策略。
(3)數(shù)據(jù)管理委員會
在策略的執(zhí)行過程中,需要設(shè)立數(shù)據(jù)管理委員會,其主要職能是對數(shù)據(jù)管理活動(dòng)中的關(guān)鍵過程進(jìn)行評審和批準(zhǔn),如非公共實(shí)驗(yàn)產(chǎn)生的數(shù)據(jù)策略的特殊約定、數(shù)據(jù)保護(hù)期延長申請等。實(shí)際上,高能同步輻射光源在工程規(guī)劃和建設(shè)中并未設(shè)立這一組織。數(shù)據(jù)管理委員會的成員組織方式、職能范圍、運(yùn)行機(jī)制目前還未明確,需要進(jìn)一步細(xì)致討論。
(4)數(shù)據(jù)策略法律效力定位
制定本數(shù)據(jù)策略的初衷是希望其成為高能同步輻射光源科學(xué)數(shù)據(jù)管理規(guī)范和開放共享的政策依據(jù),同時(shí)推動(dòng)制定國內(nèi)光源類大科學(xué)裝置數(shù)據(jù)策略,形成行業(yè)標(biāo)準(zhǔn)。但與普通的管理規(guī)定不同的是,由于高能同步輻射光源是面向用戶服務(wù)的實(shí)驗(yàn)平臺,數(shù)據(jù)策略內(nèi)容在行業(yè)標(biāo)準(zhǔn)的框架約束下,在操作層面上需要包含用戶服務(wù)協(xié)議部分的內(nèi)容。數(shù)據(jù)策略對科學(xué)大裝置和用戶雙方在數(shù)據(jù)管理和數(shù)據(jù)使用方面都具有規(guī)范性和約束力。
(5)裝置免責(zé)說明
對于裝置免責(zé)說明部分的內(nèi)容,各領(lǐng)域?qū)<艺驹诓煌嵌忍岢隽藛栴}和擔(dān)憂。高能同步輻射光源是科學(xué)數(shù)據(jù)管理和開放共享的責(zé)任主體,但也可能存在由惡意人為破壞、不可抗力或不可預(yù)見因素導(dǎo)致的科學(xué)數(shù)據(jù)丟失、不完整、不可用等風(fēng)險(xiǎn)。信息科學(xué)專家認(rèn)為作為數(shù)據(jù)保存和數(shù)據(jù)管理(數(shù)據(jù)保管)及數(shù)據(jù)服務(wù)的提供者,數(shù)據(jù)策略中應(yīng)該體現(xiàn)對不可預(yù)測的風(fēng)險(xiǎn)進(jìn)行免責(zé)說明的內(nèi)容。但是線站科學(xué)家認(rèn)為裝置免責(zé)說明會讓用戶對裝置在數(shù)據(jù)保管的可靠性和安全性方面產(chǎn)生不信任,難以吸引優(yōu)質(zhì)用戶到裝置做實(shí)驗(yàn)。數(shù)據(jù)管理專家則認(rèn)為裝置免責(zé)說明必不可少,但可以從文字上再仔細(xì)斟酌,打消用戶的疑慮,確保為用戶提供準(zhǔn)確、安全的數(shù)據(jù)保存和管理,以及不間斷的數(shù)據(jù)訪問服務(wù)。
為了規(guī)范和加強(qiáng)高能同步輻射光源的科學(xué)數(shù)據(jù)管理,保障科學(xué)數(shù)據(jù)安全,提高科學(xué)數(shù)據(jù)開放共享水平,依據(jù)國家《科學(xué)數(shù)據(jù)管理辦法》和《中國科學(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法(試行)》,結(jié)合公共實(shí)驗(yàn)類大科學(xué)裝置的領(lǐng)域特點(diǎn),筆者在2020年9月起草了《高能同步輻射光源數(shù)據(jù)策略》草案,形成了高能同步輻射光源的科學(xué)數(shù)據(jù)的所有權(quán)、管理、使用和開放共享的相關(guān)政策和規(guī)定。此策略草案經(jīng)過光源線站科學(xué)家和數(shù)據(jù)管理專家的多輪討論,同時(shí)邀請合肥同步輻射裝置、上海硬X射線自由電子激光裝置的相關(guān)專家參與策略意見咨詢會議,聽取各方意見和建議,草案大部分內(nèi)容已達(dá)成共識,形成初步版本。此數(shù)據(jù)策略計(jì)劃繼續(xù)通過用戶委員會征求用戶意見,并在高能同步輻射光源正式提供用戶服務(wù)之前進(jìn)行官方發(fā)布。
由于高能同步輻射光源目前處于建設(shè)階段,數(shù)據(jù)策略還無法正式應(yīng)用于光源。但是為了驗(yàn)證科學(xué)數(shù)據(jù)管理的設(shè)計(jì)和技術(shù)路線的合理性,筆者已經(jīng)在北京同步輻射裝置的線站搭建了測試床。數(shù)據(jù)的存儲和訪問策略已通過相應(yīng)的IT手段部分應(yīng)用于測試床:為原始數(shù)據(jù)提供3個(gè)月的磁盤存儲,之后數(shù)據(jù)會自動(dòng)歸檔到磁帶進(jìn)行長期保存;所有的原始數(shù)據(jù)和元數(shù)據(jù)自動(dòng)匯交到國家高能物理科學(xué)數(shù)據(jù)中心;在數(shù)據(jù)保護(hù)期(暫定兩年)內(nèi),用戶實(shí)驗(yàn)組獨(dú)占對數(shù)據(jù)的使用權(quán),保護(hù)期過后,數(shù)據(jù)將對所有系統(tǒng)用戶開放和共享;采用CSTR為所有實(shí)驗(yàn)數(shù)據(jù)分配唯一永久標(biāo)識符,方便用戶進(jìn)行實(shí)驗(yàn)數(shù)據(jù)檢索、訪問和引用。
高能同步輻射光源的科學(xué)數(shù)據(jù)管理策略研究目前已取得階段性進(jìn)展,但是還有很多細(xì)節(jié)需要優(yōu)化和完善。根據(jù)數(shù)據(jù)策略在高能同步輻射光源的應(yīng)用情況,可以探討數(shù)據(jù)管理規(guī)范和開放共享具體措施的合理性,同時(shí)為同一類型的同步輻射公共實(shí)驗(yàn)大科學(xué)裝置數(shù)據(jù)策略的制定積累經(jīng)驗(yàn),對提高科學(xué)數(shù)據(jù)效能和科研產(chǎn)出效率具有重要意義。