□姚翔宇 黃晨 葛杭
開放科學(xué)數(shù)據(jù)是開放科學(xué)運(yùn)動向縱深發(fā)展的重要領(lǐng)域,其重點(diǎn)在于對既有數(shù)據(jù)進(jìn)行發(fā)布和共享,以發(fā)掘數(shù)據(jù)的新價(jià)值或驗(yàn)證既往研究。由數(shù)據(jù)公平港灣倡議組織(Data FAIRport Initiative)提出的FAIR原則已經(jīng)成為開放科學(xué)數(shù)據(jù)活動的宏觀目標(biāo)和重要共識,該原則包括可發(fā)現(xiàn)、可訪問、可互操作、可重用4個(gè)方面[1-2]。以專注于科學(xué)數(shù)據(jù)管理和傳播標(biāo)準(zhǔn)研究的數(shù)據(jù)文檔倡議組織(Data Documentation Initiative,DDI)提出的數(shù)據(jù)生命周期模型為參照[3],開放數(shù)據(jù)活動主要涉及數(shù)據(jù)生命周期中的存儲、發(fā)布、發(fā)現(xiàn)、重用環(huán)節(jié)。
圍繞科學(xué)數(shù)據(jù)的開放共享,各國先后提出了相關(guān)倡議和政策要求。2012年歐洲研究型大學(xué)聯(lián)盟(League of European Research Universities)發(fā)表《關(guān)于開放研究數(shù)據(jù)的聲明》支持科學(xué)數(shù)據(jù)開放[4]。2013年美國白宮科技政策辦公室(Office of Science and Technology Policy)發(fā)布《聯(lián)邦資助科研成果開放獲取政策》,要求促進(jìn)對聯(lián)邦資助研究中的科學(xué)數(shù)據(jù)提供開放獲取[5]。2016年英國國家科研與創(chuàng)新署(UK Research and Innovation)發(fā)布《開放研究數(shù)據(jù)協(xié)議》,制定了10項(xiàng)利用開放研究數(shù)據(jù)的原則[6]。2018年中國國務(wù)院印發(fā)《科學(xué)數(shù)據(jù)管理辦法》[7],2019年國際科學(xué)理事會數(shù)據(jù)委員會(Committee on Data of the International Science Council)發(fā)表《科研數(shù)據(jù)北京宣言》[8],顯示出開放科學(xué)數(shù)據(jù)相關(guān)工作在國內(nèi)關(guān)注度和重要性的提升。同時(shí),近年來隨著數(shù)據(jù)驅(qū)動的人工智能技術(shù)快速發(fā)展,各細(xì)分科學(xué)領(lǐng)域的研究范式也在快速演化,其中基于高質(zhì)量的科學(xué)數(shù)據(jù)建立大數(shù)據(jù)模型、以人工智能輔助研究發(fā)現(xiàn)和科技創(chuàng)新已成為各國尋求科技突破的重點(diǎn)競爭領(lǐng)域,這一趨勢對科學(xué)數(shù)據(jù)的快速積累、有效組織和開放獲取提出了更迫切的要求。
開放科學(xué)數(shù)據(jù)活動涉及諸多要素,包括數(shù)據(jù)政策、數(shù)據(jù)平臺、數(shù)據(jù)服務(wù)、數(shù)據(jù)素養(yǎng)等。其中數(shù)據(jù)平臺是數(shù)據(jù)活動的主要載體,是開放科學(xué)數(shù)據(jù)活動實(shí)踐不可或缺的信息基礎(chǔ)設(shè)施,承擔(dān)著將數(shù)據(jù)本體與數(shù)據(jù)生產(chǎn)者、使用者、管理者等利益相關(guān)方聯(lián)結(jié)起來的作用。現(xiàn)有相關(guān)平臺可歸納為存儲型、索引型、導(dǎo)航型3類,它們自下而上共同構(gòu)成了開放科學(xué)數(shù)據(jù)平臺體系。存儲型平臺直接保存科學(xué)數(shù)據(jù),能夠涵蓋數(shù)據(jù)的存儲、發(fā)布、發(fā)現(xiàn)、重用等全過程,例如哈佛大學(xué)的Harvard Dataverse,密西根大學(xué)主導(dǎo)的ICPSR等。索引型平臺收割、整合與揭示多個(gè)平臺中科學(xué)數(shù)據(jù)的元數(shù)據(jù),一般不直接存儲科學(xué)數(shù)據(jù),例如作為澳大利亞國家科研基礎(chǔ)設(shè)施的Research Data Australia等。導(dǎo)航型平臺通過自主提交或主動采集的方式登記其他平臺的信息,并進(jìn)行標(biāo)引、揭示甚至評價(jià),以協(xié)助用戶發(fā)現(xiàn)潛在的數(shù)據(jù)來源或存儲設(shè)施,例如德國研究基金資助的數(shù)據(jù)存儲庫注冊平臺Re3data等。
高校是從事科研活動的重要主體,具備科學(xué)數(shù)據(jù)產(chǎn)出的能力,面臨數(shù)據(jù)保存、管理和發(fā)布的綜合需求,高校開放科學(xué)數(shù)據(jù)平臺(以下簡稱高校平臺)的需求和能力特征主要對應(yīng)存儲型平臺。從現(xiàn)有的情況看,存儲型平臺也主要由直接從事數(shù)據(jù)生產(chǎn)和發(fā)布活動的機(jī)構(gòu)建設(shè),包括科研院所、高等院校、科技成果出版機(jī)構(gòu)等。但是從實(shí)踐的總體情況看,一方面相對于國外,我國的平臺建設(shè)與應(yīng)用仍相對滯后,處于“平臺數(shù)量少,尚未形成規(guī)?!钡碾A段[9],Re3data上登記的存儲型平臺有3136個(gè),其中美國1170個(gè)、德國501個(gè)、英國319個(gè),而中國大陸僅有81個(gè)[10]。另一方面在國內(nèi)現(xiàn)有平臺中,占主體的是科研院所建設(shè)的平臺,例如國家高能物理科學(xué)數(shù)據(jù)中心等20個(gè)國家科學(xué)數(shù)據(jù)中心[11];而高校方面僅有北京大學(xué)、復(fù)旦大學(xué)等數(shù)個(gè)高校進(jìn)行了平臺建設(shè)。結(jié)合我國高校不斷提升的科研產(chǎn)出占比,這兩個(gè)方面顯示出在國際相關(guān)平臺建設(shè)已經(jīng)達(dá)到相當(dāng)規(guī)模的情況下,國內(nèi)高校平臺建設(shè)仍處在十分初級的階段,需要加大力度開展開放科學(xué)數(shù)據(jù)平臺的實(shí)踐探索、研究總結(jié)和應(yīng)用推廣,以匯聚散落在高??蒲袌F(tuán)隊(duì)中的科學(xué)數(shù)據(jù),更好支撐我國數(shù)據(jù)驅(qū)動的科學(xué)研究轉(zhuǎn)型發(fā)展。
在高校主導(dǎo)的開放科學(xué)數(shù)據(jù)平臺建設(shè)方面,國外特別是歐美地區(qū)起步較早、數(shù)量較多,平臺建設(shè)路徑、服務(wù)功能等方面都形成了較為豐富的實(shí)踐。國內(nèi)高校相關(guān)實(shí)踐主要開始于2011年武漢大學(xué)高??茖W(xué)數(shù)據(jù)共享平臺的建設(shè),此后復(fù)旦大學(xué)、北京大學(xué)、華東師范大學(xué)等先后建設(shè)了各自的開放科學(xué)數(shù)據(jù)平臺。通過調(diào)查國外高校平臺及國內(nèi)前述4個(gè)高校平臺,本文對國內(nèi)外實(shí)踐現(xiàn)狀進(jìn)行了比較和總結(jié)。
(1)建設(shè)路徑和技術(shù)方案。國外高校體現(xiàn)出較強(qiáng)技術(shù)實(shí)力,許多平臺采用自主研發(fā)形式建設(shè),例如ICPSR、UKDA、Harvard Dataverse等均結(jié)合自身需求進(jìn)行平臺研發(fā)和迭代,其中哈佛大學(xué)從2007年開始搭建的Dataverse系統(tǒng),作為開源社區(qū)項(xiàng)目已經(jīng)開發(fā)至5.13版本,也被許多其他高校采用。歐洲部分高校采用了商業(yè)化的平臺解決方案,如牛津大學(xué)、倫敦大學(xué)學(xué)院、荷蘭四校聯(lián)盟的4TU.ResearchData等均基于商業(yè)化云端數(shù)據(jù)系統(tǒng)Figshare開展服務(wù)。另外開源的通用機(jī)構(gòu)文檔存儲系統(tǒng)DSpace、Fedora也有應(yīng)用。國內(nèi)平臺主要是在國外開源系統(tǒng)基礎(chǔ)上進(jìn)行部署和二次開發(fā),如武漢大學(xué)平臺基于DSpace部署,復(fù)旦大學(xué)和北京大學(xué)平臺基于Dataverse定制開發(fā)。華東師范大學(xué)則選擇了自主建設(shè)路徑搭建平臺。
(2)主要功能。國內(nèi)外高校平臺在基本功能上均涵蓋了開放數(shù)據(jù)活動周期的主要環(huán)節(jié),主要以數(shù)據(jù)存儲為基礎(chǔ),提供數(shù)據(jù)發(fā)布、發(fā)現(xiàn)、訪問等功能。部分平臺如Dataverse還集成了數(shù)據(jù)的在線預(yù)覽和分析功能,但是相關(guān)功能一般比較簡單。除ICPSR通過接入在線數(shù)據(jù)分析平臺SDA進(jìn)行高級數(shù)據(jù)分析外,較為復(fù)雜和專業(yè)的數(shù)據(jù)分析一般未在開放科學(xué)數(shù)據(jù)平臺中提供。
(3)用戶參與和數(shù)據(jù)組織。國外平臺存在兩種不同的取向,ICPSR、UKDA等側(cè)重于數(shù)據(jù)匯交和發(fā)布服務(wù),它儲存用戶在線或離線提交的數(shù)據(jù),在按照一定標(biāo)準(zhǔn)審查處理后以數(shù)據(jù)集為單元發(fā)布。用戶對平臺功能的參與度低,側(cè)重在平臺之外完成數(shù)據(jù)組織。新興應(yīng)用Dataverse、Figshare等系統(tǒng)的平臺則側(cè)重用戶參與數(shù)據(jù)組織,例如Dataverse提出數(shù)據(jù)空間概念,用層層嵌套的空間將數(shù)據(jù)集和用戶權(quán)限按照層次關(guān)系組織起來,提供了團(tuán)隊(duì)用戶共同管理數(shù)據(jù)集的條件。Figshare更強(qiáng)調(diào)用戶空間,用戶的賬戶與數(shù)據(jù)集建立關(guān)聯(lián),可以如社交平臺一樣運(yùn)營自己的數(shù)據(jù)集。相應(yīng)地Figshare更貼合用戶的研究過程,數(shù)據(jù)集版本通常有較高的更新頻次。國內(nèi)平臺主要偏向于對數(shù)據(jù)進(jìn)行多層次組織,并允許用戶自主管理權(quán)限范圍內(nèi)的數(shù)據(jù)。除了應(yīng)用Dataverse系統(tǒng)的平臺外,華東師范大學(xué)平臺具有數(shù)據(jù)集、課題、文件3個(gè)層次的數(shù)據(jù)包含關(guān)系并對應(yīng)分配用戶權(quán)限,在通常作為基本單元的數(shù)據(jù)集層次之下進(jìn)行了課題子集劃分;武漢大學(xué)平臺在繼承DSpace組織模型的基礎(chǔ)上開放了課題、數(shù)據(jù)集兩個(gè)組織層次,用于歸集和分級管理數(shù)據(jù)。
(4)平臺合作和數(shù)據(jù)融合。國外平臺體現(xiàn)出較高的合作與融合程度,體現(xiàn)為合作聯(lián)盟、系統(tǒng)通用性和數(shù)據(jù)標(biāo)準(zhǔn)等多種形式。ICPSR、UKDA、4TU.ResearchData等通過多機(jī)構(gòu)聯(lián)盟形式建設(shè),形成統(tǒng)一的數(shù)據(jù)存儲和服務(wù),是最直接的合作形式。Figshare作為商業(yè)化云系統(tǒng),在為不同高校提供定制化服務(wù)的同時(shí),通過主平臺入口提供了各機(jī)構(gòu)數(shù)據(jù)的統(tǒng)一揭示。數(shù)據(jù)標(biāo)準(zhǔn)包括技術(shù)層面及關(guān)涉語義的數(shù)據(jù)描述層面,技術(shù)層面體現(xiàn)為廣泛應(yīng)用OAI-PMH、RESTful API等建立數(shù)據(jù)接口,通過DOI對數(shù)據(jù)進(jìn)行統(tǒng)一標(biāo)識和索引。數(shù)據(jù)描述包括使用兼容性的元數(shù)據(jù)元素等。兼顧自然科學(xué)和社會科學(xué)的平臺通常以都柏林核心元數(shù)據(jù)集DC元素為基礎(chǔ);起步于社會科學(xué)數(shù)據(jù)管理的平臺多以DDI元素為基礎(chǔ),其中Harvard Dataverse也通過元數(shù)據(jù)導(dǎo)出形式對DC元素進(jìn)行了完整映射;不過也有ICPSR、UKDA等平臺主要根據(jù)自身需要設(shè)計(jì)元數(shù)據(jù)元素。國內(nèi)平臺目前在這方面還比較薄弱,主要的融合特征體現(xiàn)在技術(shù)層面,例如復(fù)旦大學(xué)、北京大學(xué)、華東師范大學(xué)的平臺均采用OAI-PMH作為數(shù)據(jù)接口,北京大學(xué)成熟應(yīng)用DOI標(biāo)識符并向科學(xué)數(shù)據(jù)注冊平臺DataCite提交數(shù)據(jù)。在數(shù)據(jù)描述上,除武漢大學(xué)采用自定義的元數(shù)據(jù)元素外,其他平臺主要選用部分DDI元素構(gòu)建元數(shù)據(jù)、但相互之間選用的基本元素存在差異,其中北京大學(xué)也支持元數(shù)據(jù)導(dǎo)出為DC格式、但并未實(shí)現(xiàn)元素的完整映射。同時(shí),國內(nèi)平臺主要由各高校獨(dú)立建設(shè)和運(yùn)營、缺少數(shù)據(jù)合作,復(fù)旦大學(xué)和北京大學(xué)盡管都應(yīng)用了Dataverse系統(tǒng),但是尚未在數(shù)據(jù)互通方面進(jìn)行嘗試。
結(jié)合國內(nèi)外高校平臺實(shí)踐特點(diǎn),特別是國內(nèi)平臺建設(shè)現(xiàn)狀,本文將重點(diǎn)關(guān)注和探索以下問題:
(1)探索自主研發(fā)路徑下平臺建構(gòu)的思路和邏輯。國外自主研發(fā)及市場化開發(fā)的建設(shè)路徑,形成了圍繞需求定位的正向邏輯構(gòu)建,具備平臺不斷迭代進(jìn)化的主動性,而國內(nèi)以選型應(yīng)用、二次開發(fā)為主,有一定被動性。本文將通過探索自主研發(fā)的建設(shè)思路,構(gòu)建平臺整體功能框架,豐富國內(nèi)平臺建設(shè)路徑和思考。
(2)探索能夠更好支持研究過程中數(shù)據(jù)組織和用戶協(xié)作的平臺功能。高校平臺主要吸納機(jī)構(gòu)內(nèi)的科學(xué)數(shù)據(jù),提升數(shù)據(jù)數(shù)量和質(zhì)量需要政策、咨詢服務(wù)等多方面的支持,而在平臺層面則需要結(jié)合用戶特點(diǎn)做好功能建設(shè)、增強(qiáng)用戶黏性。高校平臺建設(shè)已經(jīng)體現(xiàn)出以數(shù)據(jù)存儲為基礎(chǔ),覆蓋數(shù)據(jù)發(fā)布、發(fā)現(xiàn)、重用的共性,而同時(shí)高校平臺與校內(nèi)研究團(tuán)隊(duì)具有服務(wù)共生關(guān)系,在數(shù)據(jù)管理方面需要考慮團(tuán)隊(duì)內(nèi)部數(shù)據(jù)使用與存儲的動態(tài)性、團(tuán)隊(duì)內(nèi)跨項(xiàng)目的成員組成和項(xiàng)目數(shù)據(jù)之間的關(guān)聯(lián)性,向數(shù)據(jù)的團(tuán)隊(duì)協(xié)作、過程管理和自助管理方面傾斜。這方面國內(nèi)平臺已經(jīng)關(guān)注到團(tuán)隊(duì)數(shù)據(jù)管理并嘗試了不同的數(shù)據(jù)組織形式,但是對協(xié)作的理解主要還停留在數(shù)據(jù)歸集和層次管理上,功能易用性也有待商榷,本文將通過對相關(guān)功能的進(jìn)一步探索,強(qiáng)化平臺在用戶數(shù)據(jù)過程服務(wù)方面的作用。
(3)探索面向數(shù)據(jù)融合的數(shù)據(jù)描述方法。單一高校平臺面臨數(shù)據(jù)來源有限的局限性,最終需要通過平臺間合作建立數(shù)據(jù)互通和統(tǒng)一揭示體系、擴(kuò)展數(shù)據(jù)范圍。為了實(shí)現(xiàn)這一點(diǎn),除了政策、機(jī)制、資金等方面的保障,在單一平臺建設(shè)中還重點(diǎn)需要關(guān)注面向數(shù)據(jù)融合的數(shù)據(jù)標(biāo)準(zhǔn)。其中技術(shù)方面OAI-PMH接口、DOI標(biāo)識符等的應(yīng)用已經(jīng)比較成熟,而數(shù)據(jù)描述方面國內(nèi)各平臺主要基于自身需要進(jìn)行元數(shù)據(jù)自定義或者DDI衍生應(yīng)用,還未形成面向數(shù)據(jù)融合的建設(shè)導(dǎo)向和統(tǒng)一規(guī)范。在國內(nèi)高校尚未形成緊密合作機(jī)制的背景下,本文將從具有兼容性潛力的數(shù)據(jù)描述方法切入,進(jìn)行數(shù)據(jù)融合的前期探索。
浙江大學(xué)開放數(shù)據(jù)平臺(以下簡稱浙大平臺)建設(shè)由依托浙江大學(xué)圖書館成立的浙江大學(xué)信息資源分析與應(yīng)用研究中心實(shí)施,通過自主設(shè)計(jì)平臺架構(gòu)和具體需求、委托軟件開發(fā)企業(yè)進(jìn)行系統(tǒng)開發(fā)的路徑落地實(shí)施。在學(xué)校推進(jìn)“雙一流”建設(shè)的背景下,浙大平臺以推動浙江大學(xué)科學(xué)數(shù)據(jù)的開放、交流與共享為總目標(biāo),以服務(wù)3類對象為具體目標(biāo):面向數(shù)據(jù)生產(chǎn)者提供科學(xué)數(shù)據(jù)的存儲、管理和發(fā)布服務(wù),創(chuàng)建面向研究過程、易于協(xié)作的數(shù)據(jù)共享環(huán)境;面向數(shù)據(jù)使用者提供科學(xué)數(shù)據(jù)的發(fā)現(xiàn)、瀏覽和訪問服務(wù),創(chuàng)建信息揭示清晰、訪問通道順暢、倡導(dǎo)學(xué)術(shù)規(guī)范的數(shù)據(jù)使用環(huán)境;面向管理者提供與數(shù)據(jù)開放過程相適應(yīng)的合規(guī)審核和系統(tǒng)管理功能,支持平臺的持續(xù)有序運(yùn)行。
在現(xiàn)狀調(diào)研和問題分析的基礎(chǔ)上,平臺設(shè)計(jì)明確了“以數(shù)據(jù)存儲為基礎(chǔ)、服務(wù)開放科學(xué)數(shù)據(jù)周期,重視研究過程動態(tài)性和團(tuán)隊(duì)協(xié)作性,重視學(xué)科通用性和跨平臺互操作性”的特征定位,形成如圖1所示架構(gòu)。其中功能應(yīng)用層(以下簡稱功能層)是指直接面向用戶和數(shù)據(jù)活動的功能實(shí)體,數(shù)據(jù)生命周期和過程服務(wù)主要在這一層次體現(xiàn);協(xié)議規(guī)范層(以下簡稱協(xié)議層)是指功能背后的標(biāo)準(zhǔn)規(guī)范,數(shù)據(jù)服務(wù)在跨學(xué)科、跨平臺方面的通用性和互操作性主要在這一層次體現(xiàn)?;A(chǔ)要素是指平臺應(yīng)該具備的基本特性,對應(yīng)于開放科學(xué)數(shù)據(jù)活動中存儲、發(fā)布、發(fā)現(xiàn)、重用各環(huán)節(jié)的基礎(chǔ)性需求及定義平臺架構(gòu)邏輯的核心層次,完成基礎(chǔ)層建設(shè)即可實(shí)現(xiàn)平臺的可用;拓展要素是指能夠進(jìn)一步提升用戶體驗(yàn)、平臺質(zhì)量的需求,可以在平臺建設(shè)迭代中逐步加強(qiáng)和優(yōu)化。
圖1 浙江大學(xué)開放數(shù)據(jù)平臺架構(gòu)
同時(shí),浙大平臺采用分期建設(shè)策略,以逐步擴(kuò)大服務(wù)范圍為原則,劃分館內(nèi)、校內(nèi)、校際3個(gè)建設(shè)階段。第一階段主要是結(jié)合館內(nèi)科學(xué)數(shù)據(jù)活動相關(guān)的實(shí)際場景,進(jìn)行系統(tǒng)設(shè)計(jì)、基礎(chǔ)層開發(fā)和平臺試用,積累具體經(jīng)驗(yàn);同時(shí)以小范圍社會科學(xué)學(xué)科用戶為試運(yùn)行目標(biāo)對象,對涉及多學(xué)科的功能在設(shè)計(jì)方面保持框架完整、在落地實(shí)施方面參照試運(yùn)行學(xué)科的具體需要進(jìn)行原型驗(yàn)證性開發(fā)。第二階段進(jìn)行平臺優(yōu)化和拓展層開發(fā),并將平臺在校內(nèi)全面推廣使用。第三階段是逐步開展校外服務(wù),同時(shí)通過校際合作探索不同高校平臺間的互通對接和數(shù)據(jù)統(tǒng)一揭示。
(1)數(shù)據(jù)組織結(jié)構(gòu)
將數(shù)據(jù)存儲和發(fā)布過程與數(shù)據(jù)生產(chǎn)者在研究過程中的協(xié)作活動結(jié)合起來,并提供與之相適應(yīng)的數(shù)據(jù)組織結(jié)構(gòu),是浙大平臺選擇自主開發(fā)模式的重要?jiǎng)右颉>唧w地,浙大平臺在數(shù)據(jù)基本單元的定義上延續(xù)了現(xiàn)有通常做法,即將數(shù)據(jù)集作為檢索、訪問、管理的基本單元,據(jù)此組織數(shù)據(jù)文件和元數(shù)據(jù)。但同時(shí)重點(diǎn)設(shè)計(jì)了數(shù)據(jù)集的父層級,以承擔(dān)多人協(xié)作和共同管理的高級功能(見圖2):父層級包含實(shí)體層(空間和項(xiàng)目)和虛擬層(文件夾)。
圖2 浙江大學(xué)開放數(shù)據(jù)平臺數(shù)據(jù)組織結(jié)構(gòu)
實(shí)體層的“空間”反映了一組數(shù)據(jù)集的成果歸屬屬性,它不同于Dataverse中層層嵌套的空間概念,而是僅劃分兩種類別,以對應(yīng)現(xiàn)實(shí)中的數(shù)據(jù)生產(chǎn)者實(shí)體,即研究者個(gè)人或研究團(tuán)隊(duì)。對于研究者個(gè)人,他能夠直接創(chuàng)建和管理自己所擁有的研究數(shù)據(jù),而個(gè)人空間是展示和匯聚這些數(shù)據(jù)集的權(quán)屬集合。對于研究團(tuán)隊(duì),能夠基于個(gè)人用戶組成關(guān)系穩(wěn)定的群組,通過內(nèi)部角色分工創(chuàng)建和維護(hù)團(tuán)隊(duì)共有的數(shù)據(jù)集;并且在數(shù)據(jù)集發(fā)布前,團(tuán)隊(duì)空間可作為研究過程數(shù)據(jù)的管理集合供團(tuán)隊(duì)內(nèi)部查看和編輯,實(shí)現(xiàn)高校數(shù)據(jù)平臺將存儲功能由長期保存到過程性存儲的延伸。實(shí)體層的“項(xiàng)目”反映了一組數(shù)據(jù)集的內(nèi)容關(guān)聯(lián)屬性,便于規(guī)模相對較大的研究團(tuán)隊(duì)既能將有關(guān)聯(lián)的數(shù)據(jù)集分別組織起來,也能將不同分工的成員進(jìn)一步組織起來。
虛擬層的“文件夾”,是為研究者管理大量數(shù)據(jù)集而設(shè)置的靈活分類組織層次。文件夾介于項(xiàng)目和數(shù)據(jù)集之間,最多允許創(chuàng)建兩層子文件夾,它本身不附加權(quán)限和用戶管理屬性,僅作為可選形式對成員展示,以便利團(tuán)隊(duì)內(nèi)部管理和使用中對不同數(shù)據(jù)集的標(biāo)記、區(qū)分和整理。在面向數(shù)據(jù)使用者時(shí),文件夾的結(jié)構(gòu)則不會呈現(xiàn)出來,以保持?jǐn)?shù)據(jù)集作為基本單元的層次清晰性、降低用戶認(rèn)知成本。
(2)權(quán)限控制
開放數(shù)據(jù)不等同于無條件開放獲取。已發(fā)布的數(shù)據(jù)應(yīng)是始終公開、可訪問的,但它可能要求支付費(fèi)用、接受法律協(xié)議,或者得到數(shù)據(jù)生產(chǎn)者的允許[12]。相應(yīng)地,需要對數(shù)據(jù)訪問進(jìn)行權(quán)限設(shè)置。同時(shí),當(dāng)引入團(tuán)隊(duì)協(xié)作功能之后,基于團(tuán)隊(duì)分工和管理的需要,也需要對數(shù)據(jù)權(quán)限進(jìn)行控制。
為了實(shí)現(xiàn)多場景權(quán)限控制的靈活性和細(xì)粒度,浙大平臺從兩個(gè)維度定義了權(quán)限體系。其一是依附于空間的權(quán)限控制(見表1)。這一維度主要面向團(tuán)隊(duì)協(xié)作活動,空間內(nèi)部賦予用戶高度自主的管理權(quán),可以通過空間中的角色分組實(shí)現(xiàn)日常數(shù)據(jù)活動的批量授權(quán)管理。其二是依附于數(shù)據(jù)集的權(quán)限控制(見表2)。由于數(shù)據(jù)集被定義為數(shù)據(jù)管理的基本單元,所以基于數(shù)據(jù)集設(shè)定的權(quán)限具有最高的優(yōu)先級和最小的粒度。其中,已發(fā)布的數(shù)據(jù)集意味著可被發(fā)現(xiàn)和查看,對它的權(quán)限控制主要在于數(shù)據(jù)文件的可訪問性,即根據(jù)用戶為數(shù)據(jù)集設(shè)置的公開程度,控制相應(yīng)數(shù)據(jù)文件可供下載的用戶分組。未發(fā)布的數(shù)據(jù)集則不對外公開,需要通過邀請用戶加入?yún)f(xié)作組的形式賦予有限的合作編輯功能。協(xié)作組的形式也為跨團(tuán)隊(duì)數(shù)據(jù)合作提供了靈活性。
表1 浙江大學(xué)開放數(shù)據(jù)平臺依附于空間的權(quán)限設(shè)計(jì)
表2 浙江大學(xué)開放數(shù)據(jù)平臺依附于數(shù)據(jù)集的權(quán)限設(shè)計(jì)
在平臺與用戶的權(quán)限關(guān)系方面,則降低系統(tǒng)干預(yù)度、增加用戶自主權(quán)。例如平臺管理員僅對團(tuán)隊(duì)創(chuàng)建和數(shù)據(jù)集發(fā)布環(huán)節(jié)進(jìn)行合規(guī)審核,不直接干涉用戶的數(shù)據(jù)權(quán)限;平臺為團(tuán)隊(duì)空間設(shè)定默認(rèn)角色權(quán)限模板,但是允許用戶自主調(diào)整角色權(quán)限定義。
(3)計(jì)劃任務(wù)和數(shù)據(jù)統(tǒng)計(jì)
團(tuán)隊(duì)協(xié)作中對數(shù)據(jù)的管理最終要落實(shí)到對數(shù)據(jù)活動的管理,這種管理不僅是對成員分工的管理,也包括對數(shù)據(jù)工作計(jì)劃任務(wù)的分配和對數(shù)據(jù)工作狀態(tài)及成效的統(tǒng)計(jì)。其中計(jì)劃任務(wù)功能主要是以待辦提醒的形式實(shí)現(xiàn),允許團(tuán)隊(duì)管理者添加任務(wù)和發(fā)送提醒,并且可以設(shè)置周期任務(wù)定時(shí)發(fā)送提醒消息,以方便團(tuán)隊(duì)開展長期的、周期性的數(shù)據(jù)采集工作。數(shù)據(jù)統(tǒng)計(jì)功能主要是以用戶行為為基礎(chǔ),以人員、時(shí)間、學(xué)科、標(biāo)簽等為維度,客觀描繪數(shù)據(jù)工作、數(shù)據(jù)使用相關(guān)的指標(biāo)。除了常見的訪問量、下載量、數(shù)據(jù)集容量等指標(biāo)外,還著重納入了與數(shù)據(jù)活動過程相關(guān)的數(shù)據(jù)工作量、成員參與度等指標(biāo),以方便用戶追蹤數(shù)據(jù)工作軌跡、評估數(shù)據(jù)影響力。
(1)元數(shù)據(jù)
元數(shù)據(jù)是用于描述數(shù)據(jù)的數(shù)據(jù),浙大平臺以數(shù)據(jù)集作為數(shù)據(jù)管理和發(fā)現(xiàn)的基本單元,相應(yīng)的元數(shù)據(jù)建設(shè)主要圍繞數(shù)據(jù)集層次展開,并將元數(shù)據(jù)的兼容性作為主要出發(fā)點(diǎn),設(shè)計(jì)了元數(shù)據(jù)層次和元素。
元數(shù)據(jù)層次與跨學(xué)科維度有關(guān),高校平臺具有學(xué)科綜合性,需要兼顧不同學(xué)科在數(shù)據(jù)特征方面的差異。從數(shù)據(jù)融合的視角看,關(guān)系到數(shù)據(jù)可發(fā)現(xiàn)和可訪問的部分處于相對底層,容易在跨學(xué)科大范圍內(nèi)實(shí)現(xiàn)統(tǒng)一,關(guān)系到數(shù)據(jù)可互操作和可重用的部分處于相對頂層,只能在特定學(xué)科小范圍內(nèi)統(tǒng)一[13]。因此,浙大平臺規(guī)劃了“基本元數(shù)據(jù)+專業(yè)元數(shù)據(jù)”的二級元數(shù)據(jù)層次。其中,基本元數(shù)據(jù)學(xué)科特征不顯著,是描述數(shù)據(jù)集的基礎(chǔ),而專業(yè)元數(shù)據(jù)用于增強(qiáng)不同學(xué)科數(shù)據(jù)集專業(yè)性、差異化的元數(shù)據(jù)表示能力。
元數(shù)據(jù)元素與跨平臺維度有關(guān),單一高校平臺的數(shù)據(jù)主要來自本機(jī)構(gòu)的數(shù)據(jù)生產(chǎn)者,因此高校平臺有融入廣泛的數(shù)據(jù)集成體系的內(nèi)在要求,需要考慮基本元數(shù)據(jù)跨平臺交換的語義對應(yīng)關(guān)系。浙大平臺將基本元數(shù)據(jù)的元素劃分為3個(gè)部分,其中基本信息部分主要包含數(shù)據(jù)集的通用描述信息,服務(wù)于數(shù)據(jù)集的發(fā)現(xiàn)和訪問;方法部分主要包含數(shù)據(jù)集的采集、處理信息,服務(wù)于數(shù)據(jù)集的重用;權(quán)利部分主要約定數(shù)據(jù)所有權(quán)和使用限制方面的條款。具體元素綜合考慮了DC元素、DDI元素和平臺調(diào)研中記錄的常用元素,并明確了相互間的映射關(guān)系。其中對DC元素能夠完全覆蓋,而DDI元素非常豐富,這里主要參考了ICPSR、UKDA選取的常用元素和DDI精簡集提示的重要元素[14]。對于各個(gè)元素分別給出英文名稱、中文名稱、元素說明并定義了必填項(xiàng)和錄入格式(見表3)。
表3 浙江大學(xué)開放數(shù)據(jù)平臺基礎(chǔ)元數(shù)據(jù)設(shè)計(jì)及與DC、DDI元數(shù)據(jù)的映射關(guān)系
(2)引用格式
引用格式是數(shù)據(jù)描述的另一維度。恰當(dāng)引用科學(xué)數(shù)據(jù)是加強(qiáng)學(xué)術(shù)規(guī)范、擴(kuò)大傳播影響力、提高重用價(jià)值的重要環(huán)節(jié),也是促進(jìn)數(shù)據(jù)在不同學(xué)術(shù)成果形式間關(guān)聯(lián)融合的媒介。開放數(shù)據(jù)平臺自動生成和展示信息明確的數(shù)據(jù)引用格式,有助于引導(dǎo)用戶進(jìn)行合理引用和跨平臺傳播。盡管目前開放數(shù)據(jù)活動中還沒有就引用方式形成統(tǒng)一的規(guī)范,但是國內(nèi)外關(guān)于數(shù)據(jù)引用格式已經(jīng)形成了一些標(biāo)準(zhǔn)和實(shí)踐方面的探索,浙大平臺對國內(nèi)《GB/T 7714-2015信息與文獻(xiàn) 參考文獻(xiàn)著錄規(guī)則》《GB/T 35294-2017信息技術(shù) 科學(xué)數(shù)據(jù)引用》,國外Dataverse引用格式[15]、ICPSR引用格式[16]進(jìn)行了比較,最終基于《GB/T 7714-2015信息與文獻(xiàn) 參考文獻(xiàn)著錄規(guī)則》中規(guī)定的“電子資源”引用格式,選取主要元素、并增加版本元素形成了引用格式(見圖3),在數(shù)據(jù)集頁面進(jìn)行生成和展示。
圖3 浙江大學(xué)開放數(shù)據(jù)平臺的引用格式
在格式選型設(shè)計(jì)中主要考慮了兩方面因素。一是相關(guān)格式涵蓋的信息量。劉小宇等通過調(diào)查我國科學(xué)數(shù)據(jù)平臺的被引狀況,發(fā)現(xiàn)平臺提供的引用聲明不夠具體是造成引用不規(guī)范的重要原因,只包含平臺名稱和平臺網(wǎng)址,不包含數(shù)據(jù)創(chuàng)建者、數(shù)據(jù)名稱和數(shù)據(jù)解析地址的引用格式,很難回溯獲取相應(yīng)科學(xué)數(shù)據(jù)[17]。通過對比引用格式中包含的元素信息(見表4),可見4種引用格式都包含了訪問科學(xué)數(shù)據(jù)的必要元素,其中《GB/T 7714-2015信息與文獻(xiàn) 參考文獻(xiàn)著錄規(guī)則》提供的元素最豐富,其他3種格式都包含了額外的版本元素。二是相關(guān)格式的應(yīng)用潛力。Dataverse格式在部署該系統(tǒng)的平臺中集成,有一定的平臺傳播效應(yīng),例如北京大學(xué)、復(fù)旦大學(xué)平臺采用了該格式;ICPSR格式主要是該平臺自定義的標(biāo)準(zhǔn);《GB/T 35294-2017信息技術(shù) 科學(xué)數(shù)據(jù)引用》是專門針對科學(xué)數(shù)據(jù)制定的國內(nèi)標(biāo)準(zhǔn),但是尚未出現(xiàn)有影響力的應(yīng)用;而《GB/T 7714-2015信息與文獻(xiàn) 參考文獻(xiàn)著錄規(guī)則》中“電子資源”引用格式是國內(nèi)廣泛應(yīng)用的文獻(xiàn)著錄規(guī)則的一個(gè)子集,易于與現(xiàn)有的參考文獻(xiàn)應(yīng)用場景相融合,同時(shí)國內(nèi)開展數(shù)據(jù)論文出版的學(xué)術(shù)刊物《中國科學(xué)數(shù)據(jù)》和《圖書館雜志》給出的數(shù)據(jù)引用格式也復(fù)用了該標(biāo)準(zhǔn),在影響力和易用性方面相對具有較大潛力。
表4 科學(xué)數(shù)據(jù)引用格式元素對照
浙大平臺在2022年初完成一期建設(shè)并開展了試運(yùn)行(網(wǎng)址:ciraa.zju.edu.cn/opendata),實(shí)現(xiàn)了基礎(chǔ)層的功能、協(xié)議方面主要設(shè)計(jì)構(gòu)想,具備以下應(yīng)用特點(diǎn):(1)覆蓋開放數(shù)據(jù)活動周期,提供豐富的權(quán)限控制體系;(2)面向研究過程,適應(yīng)個(gè)人工作與團(tuán)隊(duì)協(xié)作,可通過建立團(tuán)隊(duì)賦予成員多樣的權(quán)限,將平臺作為團(tuán)隊(duì)數(shù)據(jù)協(xié)作工具,編輯和維護(hù)研究團(tuán)隊(duì)共有的數(shù)據(jù)集;(3)具備通用性的元數(shù)據(jù)元素、自動生成引用格式;(4)提供多樣的檢索發(fā)現(xiàn)路徑,支持關(guān)鍵詞檢索和垂直學(xué)科導(dǎo)航;(5)支持高寬容度數(shù)據(jù)文件上傳和數(shù)據(jù)安全保護(hù)。
試運(yùn)行期間,平臺主要面向受邀用戶開放注冊,截至2023年10月已收錄9個(gè)團(tuán)隊(duì)空間、295個(gè)數(shù)據(jù)集。通過試用,建設(shè)團(tuán)隊(duì)也同步收集了用戶反饋的功能建議,并結(jié)合分期規(guī)劃確定了后續(xù)建設(shè)要點(diǎn)。
國內(nèi)外平臺建設(shè)實(shí)踐呈現(xiàn)出了多種技術(shù)應(yīng)用路徑,浙大平臺選擇自主研發(fā)路徑,主要基于對商業(yè)方案、開源方案和國內(nèi)開發(fā)生態(tài)的適用性分析。購買商業(yè)化平臺的系統(tǒng)服務(wù)能夠?qū)崿F(xiàn)平臺的快速落地、減輕后續(xù)運(yùn)維負(fù)擔(dān),國外以Figshare為代表的商業(yè)方案經(jīng)過長期迭代在功能上日臻完善,但是其在本地化、定制化上的不確定性以及云服務(wù)的數(shù)據(jù)安全風(fēng)險(xiǎn)仍然是主要障礙。以Dataverse為代表的開源產(chǎn)品專門面向開放科學(xué)數(shù)據(jù)活動,覆蓋了主要的需求場景,但是其功能集成耦合程度高,存在二次開發(fā)難以觸及核心功能的問題,不利于實(shí)現(xiàn)在架構(gòu)層面強(qiáng)化數(shù)據(jù)協(xié)作功能的開發(fā)設(shè)想;同時(shí)存在版本升級與定制功能兼容適配困難的問題,為平臺后續(xù)迭代升級工作帶來不確定性。與此同時(shí),近年來國內(nèi)信息產(chǎn)業(yè)發(fā)展快速,頭部企業(yè)技術(shù)實(shí)力增強(qiáng)也帶動了相關(guān)企業(yè)的數(shù)量增加和質(zhì)量提升。在前期調(diào)研中,有來自圖書館技術(shù)服務(wù)、高等教育信息化、綜合性信息服務(wù)等不同領(lǐng)域的多家企業(yè)展現(xiàn)了合作意愿,為推進(jìn)自主方案的落地提供了成本可控、技術(shù)可行的市場條件。
在平臺建設(shè)中,定義產(chǎn)品經(jīng)理和數(shù)據(jù)用戶的館員角色,有助于避免創(chuàng)新型功能開發(fā)可能產(chǎn)生的預(yù)期偏差。一方面,不同于通常采取的需求方提出意向和框架、由承建單位負(fù)責(zé)需求細(xì)化和實(shí)施的開發(fā)模式,浙大平臺實(shí)踐通過設(shè)置產(chǎn)品經(jīng)理角色,預(yù)先開展詳細(xì)的系統(tǒng)設(shè)計(jì),對業(yè)務(wù)流程、功能節(jié)點(diǎn)、頁面交互、術(shù)語規(guī)范等方案進(jìn)行完整構(gòu)建,并對項(xiàng)目全流程進(jìn)行跟蹤把控,為落實(shí)平臺自主開發(fā)路徑創(chuàng)造了過程可控的條件。另一方面,圖書館從事學(xué)術(shù)情報(bào)數(shù)據(jù)工作的團(tuán)隊(duì)是平臺的直接用戶群體,將相關(guān)館員作為數(shù)據(jù)用戶納入團(tuán)隊(duì),全程參與需求調(diào)整和數(shù)據(jù)工作流程測試,以直面用戶的方式完善平臺設(shè)計(jì),為平臺的用戶體驗(yàn)和細(xì)節(jié)控制提供了保障。
實(shí)現(xiàn)未來高校平臺數(shù)據(jù)融合和體系構(gòu)建,需要在數(shù)據(jù)描述方法、技術(shù)方法和合作機(jī)制方面結(jié)合現(xiàn)實(shí)條件因地制宜、多點(diǎn)發(fā)力。在數(shù)據(jù)描述層面,面對國內(nèi)目前缺乏統(tǒng)一標(biāo)準(zhǔn)的局面,浙大平臺研究應(yīng)用了注重兼容性的元數(shù)據(jù)和基于“參考文獻(xiàn)著錄規(guī)則”的引用格式,以期提出有參考性的解決方案。在技術(shù)層面,結(jié)合國內(nèi)平臺將DOI用于數(shù)據(jù)集標(biāo)引和永久訪問、將OAI-PMH用于元數(shù)據(jù)收割等的應(yīng)用經(jīng)驗(yàn)[18-20],浙大平臺傾向于沿用成熟技術(shù)方案,降低對接成本。在合作機(jī)制層面,浙大平臺通過中國高校研究數(shù)據(jù)管理推進(jìn)工作組(1)2014年成立,由復(fù)旦大學(xué)圖書館、北京大學(xué)圖書館、浙江大學(xué)圖書館等9家單位組成。網(wǎng)址:http://society.library.sh.cn/node/2611.的工作會議分享了平臺建設(shè)的方案和思考。目前這一機(jī)制仍有較大的潛力等待挖掘,通過開展更緊密的合作研究,特別是在元數(shù)據(jù)元素選用、學(xué)科主題詞表建設(shè)方面推進(jìn)相關(guān)國內(nèi)共識的建立,將有助于為更高層次的開放數(shù)據(jù)合作創(chuàng)造條件。
對高校及高校圖書館來說,建設(shè)作為開放數(shù)據(jù)活動基礎(chǔ)設(shè)施的系統(tǒng)平臺是應(yīng)對科學(xué)數(shù)據(jù)開放趨勢和支持?jǐn)?shù)據(jù)驅(qū)動研究的重要步驟。本文通過闡釋浙大平臺的建設(shè)重點(diǎn)和實(shí)施過程,論述其中的探索和思考,或許能為相關(guān)實(shí)踐提供一些參考。
同時(shí)要注意到,一方面盡管開放科學(xué)數(shù)據(jù)平臺的建設(shè)有許多功能和標(biāo)準(zhǔn)方面的共性需求,但是各建設(shè)主體仍要結(jié)合自身?xiàng)l件確定建設(shè)路徑、提出特定思考、明確建設(shè)重點(diǎn),這不僅是更好服務(wù)核心用戶的需要,也是現(xiàn)階段豐富國內(nèi)平臺建設(shè)實(shí)踐的需要。另一方面,從科學(xué)數(shù)據(jù)開放活動的長期發(fā)展來看,高校平臺中的數(shù)據(jù)需要依賴于更高層級的統(tǒng)一發(fā)現(xiàn)和揭示服務(wù)來促進(jìn)存量數(shù)據(jù)的利用和融合。為達(dá)成這一目標(biāo),在建設(shè)運(yùn)營好各自平臺的基礎(chǔ)上,還需要各建設(shè)主體通力合作,建立科學(xué)數(shù)據(jù)開放生態(tài),逐步搭建起存儲型、索引型、導(dǎo)航型平臺相互協(xié)同的開放數(shù)據(jù)平臺體系。