進(jìn)入21世紀(jì),數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-Intensive Scientific Discovery)研究范式產(chǎn)生,反映了科學(xué)研究的驅(qū)動因素已由研究假設(shè)轉(zhuǎn)變?yōu)閿?shù)據(jù)探索,科研數(shù)據(jù)由此成為科學(xué)研究的基礎(chǔ)資源與有力工具。伴隨著數(shù)據(jù)密集型科研活動的蓬勃發(fā)展,數(shù)據(jù)管理與共享成為重要議題,國際上一些科研機(jī)構(gòu)、基金資助機(jī)構(gòu)、期刊紛紛制定政策,要求研究人員將科研數(shù)據(jù)提交至特定的數(shù)據(jù)基礎(chǔ)設(shè)施(Data Infrastructure)。在這一發(fā)展態(tài)勢下,科研數(shù)據(jù)知識庫(Research Data Repository,RDR)的價值和重要性不言而喻。目前科研數(shù)據(jù)知識庫可劃分為四類[1]:(1)機(jī)構(gòu)科研數(shù)據(jù)知識庫,如愛丁堡大學(xué)的Edinburgh DataShare、利茲大學(xué)的Research Data Leeds Repository、布里斯托大學(xué)的data.bris Research Data Repository;(2)學(xué)科數(shù)據(jù)知識庫,如基因序列數(shù)據(jù)庫GenBank、地球科學(xué)數(shù)據(jù)庫PANGAEA;(3)多學(xué)科數(shù)據(jù)知識庫,比如Figshare、LabArchives;(4)特定項目數(shù)據(jù)知識庫,如科學(xué)鉆探數(shù)據(jù)庫SDDB。其中,機(jī)構(gòu)科研數(shù)據(jù)知識庫(Institutional Research Data Repository,IRDR)由高?;蜓芯繖C(jī)構(gòu)建立和運行,專門用于收集、存儲、組織、管理和共享本機(jī)構(gòu)研究人員產(chǎn)出的科研數(shù)據(jù)。截至2018年3月20日,在科研數(shù)據(jù)知識庫注冊系統(tǒng)re3data.org注冊的IRDR數(shù)量達(dá)512個,分布于47個國家和地區(qū)[2]。
IRDR的目標(biāo)是促進(jìn)科研數(shù)據(jù)的共享和再利用。然而大部分IRDR處于“機(jī)構(gòu)庫孤島”或“科研數(shù)據(jù)孤島”階段,數(shù)據(jù)收錄及共享的范圍有限。近年來,學(xué)術(shù)交流范式不斷演化,協(xié)同科研環(huán)境擴(kuò)大了學(xué)術(shù)交流圈,拓展了國際和跨學(xué)科交流合作,跨機(jī)構(gòu)、跨系統(tǒng)、跨學(xué)科合作研究成為科學(xué)研究的重要形式。在這一背景下,現(xiàn)有的IRDR在服務(wù)范圍、服務(wù)能力、運行模式等方面均將受到挑戰(zhàn)。因此,由個體獨立逐漸走向聯(lián)盟是科研數(shù)據(jù)共享的內(nèi)在要求,也是IRDR發(fā)展的必然趨勢。IRDR聯(lián)盟是由兩個以上的研究機(jī)構(gòu)為了更好地共享共用科研數(shù)據(jù)資源,以簽訂合作協(xié)議為方式,以其原有科研數(shù)據(jù)知識庫為基礎(chǔ),以集中存繳、元數(shù)據(jù)收割等為手段,實現(xiàn)對科研數(shù)據(jù)的統(tǒng)一監(jiān)管和統(tǒng)一服務(wù)而構(gòu)建的一種共享機(jī)制聯(lián)合體[3]。作為一種創(chuàng)新的機(jī)構(gòu)聯(lián)合和數(shù)據(jù)共享模式,IRDR聯(lián)盟將在更大范圍實現(xiàn)數(shù)據(jù)共享和利用,增加科研數(shù)據(jù)長期研究的價值,有利于促進(jìn)學(xué)術(shù)交流和科學(xué)發(fā)現(xiàn)。目前在國際范圍內(nèi)已有一些具有聯(lián)盟性質(zhì)的IRDR,如荷蘭的4TU科研數(shù)據(jù)中心(4TU.Centre for Research Data)、澳大利亞的數(shù)據(jù)檔案中心(Australian Data Archive)、美國社會科學(xué)數(shù)據(jù)保存聯(lián)盟(Data-PASS)。值得一提的是,加拿大于2018年春季發(fā)布聯(lián)合科研數(shù)據(jù)知識庫(Federated Research Data Repository,F(xiàn)RDR)[4],由加拿大研究圖書館協(xié)會(Canadian Association of Research Libraries,CARL)、加拿大計算機(jī)協(xié)會(Compute Canada)、Portage Network及其Globus項目、不列顛哥倫比亞大學(xué)(University of British Columbia)和薩斯喀徹溫大學(xué)(University of Saskatchewan)合作運行,致力于將多個科研數(shù)據(jù)知識庫集成在一個聯(lián)合系統(tǒng)中,為加拿大科研人員提供科研數(shù)據(jù)傳輸、獲取、管理、保存、發(fā)現(xiàn)和共享的統(tǒng)一平臺。我國雖已建成一些科研數(shù)據(jù)管理和共享平臺,如復(fù)旦大學(xué)社會科學(xué)數(shù)據(jù)平臺和北京大學(xué)開放研究數(shù)據(jù)平臺,但在IRDR聯(lián)盟建設(shè)上尚付闕如。因此,本文將厘清推動機(jī)構(gòu)科研數(shù)據(jù)知識庫聯(lián)盟創(chuàng)建和發(fā)展的關(guān)鍵因素以及保障條件,為我國開展IRDR聯(lián)盟建設(shè)工作提供理論依據(jù)和實踐指導(dǎo)。
數(shù)據(jù)管理和共享政策是IRDR聯(lián)盟創(chuàng)建和發(fā)展的基本保障和行動指南,是一種自上而下的推動力量。從國際范圍看,一些國際組織、行業(yè)協(xié)會和研究機(jī)構(gòu)發(fā)布和實施的政策中都突出數(shù)據(jù)基礎(chǔ)設(shè)施聯(lián)盟的必要性。2007年聯(lián)合國信息通訊技術(shù)與發(fā)展全球聯(lián)盟(Global Alliance for ICT and Development)啟動的“促進(jìn)發(fā)展中國家科研數(shù)據(jù)共享與應(yīng)用全球聯(lián)盟”計劃(Global Alliance for Enhancing Access to and Application of Scientific Data in Developing Countries)堅持開放共享的數(shù)據(jù)政策,共建非中心化的科研數(shù)據(jù)網(wǎng)群網(wǎng)[5]。2010年歐盟委員會在《駕馭趨勢:歐洲如何從科學(xué)數(shù)據(jù)的迅速漲潮中獲益》(Riding the wave:How Europe can gain from the rising tide of scientific data)報告中指出,大多數(shù)科研數(shù)據(jù)基礎(chǔ)設(shè)施是分散的,不利于可持續(xù)發(fā)展,呼吁創(chuàng)建一個全球性的聯(lián)合數(shù)據(jù)基礎(chǔ)設(shè)施并構(gòu)建了框架[6]。2011年歐盟第七框架計劃資助的《GRDI2020:全球研究數(shù)據(jù)基礎(chǔ)設(shè)施10年愿景》(GRDI2020-Towards a 10-Year Vision for Global Research Data Infrastructures)項目發(fā)布《全球科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施:重大數(shù)據(jù)挑戰(zhàn)》,認(rèn)為特定學(xué)科的數(shù)字?jǐn)?shù)據(jù)中心、數(shù)字?jǐn)?shù)據(jù)檔案館和數(shù)字研究中心等系統(tǒng)必須能夠相互作用,組成有效的多學(xué)科或跨學(xué)科的科學(xué)生態(tài)系統(tǒng)[7]。一系列政策的支持和指導(dǎo)推動了不少新的科研數(shù)據(jù)聯(lián)盟項目的實施。2013年,在美國、歐盟、澳大利亞共同倡議下,科研數(shù)據(jù)聯(lián)盟(Research Data Alliance,RDA)建立,致力于創(chuàng)建數(shù)據(jù)交換與共享的技術(shù)基礎(chǔ)設(shè)施和支持團(tuán)體合作的社會基礎(chǔ);在芬蘭,開放科學(xué)和研究計劃(Open Science and Research Initiative)推動國家科研數(shù)據(jù)計劃(National Research Data Initiative)的實施,通過廣泛合作開發(fā)科研數(shù)據(jù)服務(wù)并促進(jìn)知識開放和互操作性,最終結(jié)合科研數(shù)據(jù)架構(gòu)和元數(shù)據(jù)模型建成了一個集中式科研數(shù)據(jù)基礎(chǔ)架構(gòu)[8]。
近年我國國家數(shù)據(jù)戰(zhàn)略中頻繁強(qiáng)調(diào)數(shù)據(jù)共享和聯(lián)盟的重要性。2015年頒布的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》要求構(gòu)建科學(xué)大數(shù)據(jù)國家重大基礎(chǔ)設(shè)施,實現(xiàn)對國家重要科技數(shù)據(jù)的權(quán)威匯集、長期保存、集成管理和全面共享。2016年出臺的《“十三五”國家科技創(chuàng)新規(guī)劃》提出加強(qiáng)各類科學(xué)數(shù)據(jù)的整合和質(zhì)量控制,完善科學(xué)數(shù)據(jù)匯交機(jī)制,推動科學(xué)數(shù)據(jù)的匯聚和更新,加工形成專題數(shù)據(jù)產(chǎn)品,面向國家重大戰(zhàn)略需求提供科學(xué)數(shù)據(jù)支撐。2017年習(xí)近平總書記在中共中央政治局第二次集體學(xué)習(xí)時強(qiáng)調(diào):“以數(shù)據(jù)集中和共享為途徑,推動技術(shù)融合、業(yè)務(wù)融合、數(shù)據(jù)融合,打通信息壁壘,形成覆蓋全國、統(tǒng)籌利用、統(tǒng)一接入的數(shù)據(jù)共享大平臺,構(gòu)建全國信息資源共享體系,實現(xiàn)跨層級、跨地域、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的協(xié)同管理和服務(wù)?!盵9]2018年3月國務(wù)院辦公廳發(fā)布的《科學(xué)數(shù)據(jù)管理辦法》提出建立科學(xué)數(shù)據(jù)匯交制度,在國家統(tǒng)一政務(wù)網(wǎng)絡(luò)和數(shù)據(jù)共享交換平臺的基礎(chǔ)上開展本部門(本地區(qū))的科學(xué)數(shù)據(jù)匯交工作。IRDR聯(lián)盟作為科研數(shù)據(jù)管理與共享的新型合作機(jī)制和數(shù)據(jù)資源整合的創(chuàng)新模式,符合當(dāng)前國家政策需求,而上述政策也為IRDR聯(lián)盟的創(chuàng)建提供了依據(jù)和契機(jī)。
科研人員的現(xiàn)實需求和潛在需求是IRDR聯(lián)盟創(chuàng)建的源動力,具有自下而上的推動作用。調(diào)查顯示,73%的高??蒲腥藛T對建立高??蒲袛?shù)據(jù)知識庫聯(lián)盟持支持態(tài)度[10],建立IRDR聯(lián)盟對學(xué)術(shù)生態(tài)發(fā)展十分必要。IRDR聯(lián)盟主要在兩方面反映和滿足科研人員的需求。
(1)實現(xiàn)跨學(xué)科和跨機(jī)構(gòu)合作研究與交流。首先,學(xué)科融合交匯是當(dāng)前高等教育和科學(xué)研究的突出特點。例如,衛(wèi)星收集的高分辨率遙感圖像同時屬于生態(tài)系統(tǒng)科學(xué)數(shù)據(jù)和環(huán)境科學(xué)數(shù)據(jù),一個遺傳生物學(xué)家需要分子生物學(xué)、生物化學(xué)、藥學(xué)等不同學(xué)科的科學(xué)數(shù)據(jù)以支持項目研究[11]。科研工作者需要獲取跨學(xué)科的數(shù)據(jù)以鏈接不同學(xué)科領(lǐng)域內(nèi)的知識點[12]。從長期看,小科學(xué)的研究者跨越多個學(xué)科領(lǐng)域,產(chǎn)生不同形式的高價值數(shù)據(jù),預(yù)計比大科學(xué)領(lǐng)域產(chǎn)生的數(shù)據(jù)還要多[13]。其次,科學(xué)研究跨機(jī)構(gòu)合作趨勢明顯,對科研數(shù)據(jù)跨機(jī)構(gòu)共享提出了新的要求。以高校為例,傳統(tǒng)的科學(xué)研究是按學(xué)科進(jìn)行的,科研人員需要參考本學(xué)科其他學(xué)??蒲袌F(tuán)隊的研究數(shù)據(jù)。華南理工大學(xué)的調(diào)查顯示,90%科研人員認(rèn)為科研數(shù)據(jù)在單個學(xué)校進(jìn)行共享的用處不大,需將合作范圍擴(kuò)展至全國乃至全球[14]。截至2018年3月,RDA已匯集136個國家的6700多名成員,共同開發(fā)和采用基礎(chǔ)設(shè)施,促進(jìn)數(shù)據(jù)共享和數(shù)據(jù)驅(qū)動的研究[15];而美國校際政治及社會研究聯(lián)盟ICPSR的成員已發(fā)展至776個,包括高校、政府機(jī)構(gòu)和其他機(jī)構(gòu),成員可直接獲取ICPSR的數(shù)據(jù)資源和其他服務(wù)[16]。
(2)提高科研數(shù)據(jù)的影響力。從科學(xué)發(fā)展角度看,科研數(shù)據(jù)共享是為了實現(xiàn)研究再現(xiàn)或驗證、使公共資助研究的結(jié)果為公眾所用、使其他人利用現(xiàn)有數(shù)據(jù)提出新的科學(xué)問題、提升研究和創(chuàng)新水平,而對科研人員個人而言更多地意味著能夠提高科研數(shù)據(jù)的影響力。北京大學(xué)科研團(tuán)隊數(shù)據(jù)管理需求問卷調(diào)查結(jié)果表明,87.5%受訪者愿意在一定條件下共享部分?jǐn)?shù)據(jù),最大動機(jī)是數(shù)據(jù)曝光度和使用率提升帶來的成果引用率提升和數(shù)據(jù)增值[17]。從學(xué)術(shù)成果發(fā)表和傳播的角度看,學(xué)術(shù)期刊通過一定的標(biāo)識技術(shù)和機(jī)制,強(qiáng)制要求論文作者對所使用的科學(xué)數(shù)據(jù)資源進(jìn)行描述,標(biāo)識數(shù)據(jù)的來源,不僅體現(xiàn)了對科研數(shù)據(jù)知識產(chǎn)權(quán)的保護(hù),也能提高科研數(shù)據(jù)的影響力和重用率。美國全國民意調(diào)查研究中心(National opinion Research Center)創(chuàng)立的綜合社會調(diào)查(General Social Survey,GSS)是美國除人口普查局以外,在社會科學(xué)領(lǐng)域被分析利用最頻繁的數(shù)據(jù),截至2015年有超過2.5萬個研究項目使用GSS的數(shù)據(jù)[18]。IRDR聯(lián)盟為科研人員提供了跨學(xué)科和跨機(jī)構(gòu)學(xué)術(shù)交流的平臺,無疑能夠在更大范圍內(nèi)幫助科研人員提高科研數(shù)據(jù)影響力。
(1)通過資源共享與互補(bǔ)來提升機(jī)構(gòu)服務(wù)水平。IRDR的服務(wù)水平最直觀地體現(xiàn)在知識庫所收錄的數(shù)據(jù)資源數(shù)量和學(xué)科范圍兩個方面。在re3data.org平臺注冊的211個高校科研數(shù)據(jù)知識庫中,只有7%的數(shù)據(jù)類型涵蓋生命科學(xué)、自然科學(xué)、人文科學(xué)和工程科學(xué)四個學(xué)科內(nèi)容,其他數(shù)據(jù)知識庫所涉學(xué)科不夠完整;各高??蒲袛?shù)據(jù)知識庫的存儲規(guī)模普遍較小,且以標(biāo)準(zhǔn)文檔、文本和圖片等為主,可重用的元數(shù)據(jù)和數(shù)據(jù)集資源較少[19]。由此可見,單個IRDR的服務(wù)能力普遍較弱,難以滿足科研人員的多元需求,不利于可持續(xù)發(fā)展。相反,IRDR聯(lián)盟能夠通過數(shù)據(jù)合作和共享,幫助各個成員機(jī)構(gòu)擴(kuò)展數(shù)據(jù)資源體系,實現(xiàn)機(jī)構(gòu)之間數(shù)據(jù)資源互補(bǔ),避免科研數(shù)據(jù)的分散,彌補(bǔ)個體不足,最大程度地增強(qiáng)聯(lián)盟成員的科研支持和服務(wù)能力。以美國國家生物技術(shù)信息中心(NCBI)建立的基因序列數(shù)據(jù)庫GenBank為例,是國際核苷酸序列數(shù)據(jù)庫協(xié)作組織的重要成員,為保證數(shù)據(jù)覆蓋面,GenBank與該組織其他兩個成員——日本DNA數(shù)據(jù)銀行(DDBJ)和歐洲分子生物實驗室(EMBL)建立了相互交換數(shù)據(jù)的合作關(guān)系[20],增強(qiáng)了服務(wù)能力。
(2)減小單個機(jī)構(gòu)運行下的人力負(fù)擔(dān)和管理成本。單個IRDR相對獨立,設(shè)有自己的一套運行模式,包括組織機(jī)構(gòu)、人員設(shè)置、數(shù)據(jù)管理方法和流程。而一些國家級資助項目或重大攻關(guān)項目,往往是由多個高?;蜓芯繖C(jī)構(gòu)合作完成的,其數(shù)據(jù)資源屬于共有資源,如果各個高?;蜓芯繖C(jī)構(gòu)單獨建設(shè),不僅會出現(xiàn)數(shù)據(jù)資源重復(fù)建設(shè)的情況,也會增加數(shù)據(jù)管理人員的負(fù)擔(dān)。IRDR聯(lián)盟打破了各個機(jī)構(gòu)獨立運行的局面,通過部門重組、權(quán)責(zé)分工或協(xié)調(diào)等形式,解決了單個機(jī)構(gòu)運行下的人力負(fù)擔(dān)和管理成本問題。比如,Data-PASS的成員各有關(guān)注的領(lǐng)域,這種差異性成為成員間分工協(xié)作的基礎(chǔ),成員在數(shù)據(jù)管理過程中分工推薦特定領(lǐng)域的社會科學(xué)數(shù)據(jù),運營委員會集中審核后,各成員再根據(jù)審核結(jié)果進(jìn)行數(shù)據(jù)采集與加工,保障了數(shù)據(jù)鑒定、采集和加工的高效性,也避免了數(shù)據(jù)重復(fù)采集和保存帶來的資金浪費[21]。
21世紀(jì)以來,信息技術(shù)發(fā)展為IRDR聯(lián)盟提供了技術(shù)條件。IRDR聯(lián)盟的關(guān)鍵工作就是建設(shè)一個實現(xiàn)多機(jī)構(gòu)數(shù)據(jù)融合和協(xié)同工作的平臺,滿足聯(lián)盟成員和科研人員一站式瀏覽、檢索、管理和利用科研數(shù)據(jù)的需求。從現(xiàn)實情況看,現(xiàn)代信息技術(shù)能夠幫助IRDR聯(lián)盟解決一系列的技術(shù)問題:DSpace、Dataverse、Fedora等數(shù)據(jù)倉儲開源軟件為IRDR聯(lián)盟平臺的基礎(chǔ)設(shè)施建設(shè)提供了技術(shù)基礎(chǔ);都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)(Dublin Core Metadata)和OAI協(xié)議為IRDR聯(lián)盟基礎(chǔ)元數(shù)據(jù)記錄管理提供了標(biāo)準(zhǔn),使用OAI-PMH協(xié)議并在其記錄中嵌入特定領(lǐng)域的元數(shù)據(jù)為收割元數(shù)據(jù)和開發(fā)聯(lián)合目錄提供最佳途徑;DataCite和DOI為數(shù)據(jù)引用提供了全球唯一標(biāo)識符;數(shù)據(jù)知識庫在實踐探索和發(fā)展過程運用的技術(shù)和標(biāo)準(zhǔn)能夠為IRDR聯(lián)盟提供有益的參考,4TU、Data-PASS、Australian Data archive等已積累了開發(fā)和實踐經(jīng)驗,可作為機(jī)構(gòu)科研數(shù)據(jù)知識庫合作的最佳實踐,為IRDR聯(lián)盟的創(chuàng)建提供參考。綜上所述,目前在數(shù)據(jù)管理平臺開發(fā)和資源整合領(lǐng)域已有各種成熟的技術(shù),為IRDR聯(lián)盟數(shù)據(jù)平臺建設(shè)提供了技術(shù)支持,IRDR聯(lián)盟需要根據(jù)實際情況和需求,選擇最佳方案,實現(xiàn)平臺的易用性、便捷性、關(guān)聯(lián)性。
任何組織的生存和發(fā)展都要以利益相關(guān)者的廣泛、平等參與作為組織治理的前提和基礎(chǔ)[22]。所謂“利益相關(guān)者”就是“能夠影響組織目標(biāo)實現(xiàn),或者能夠被組織實現(xiàn)目標(biāo)的過程影響的任何個人和群體”[23]。IRDR聯(lián)盟的創(chuàng)建和發(fā)展涉及多方利益相關(guān)者,包括科研機(jī)構(gòu)、科研人員、數(shù)據(jù)管理與服務(wù)提供者、資助者等。各利益相關(guān)者根據(jù)資源優(yōu)勢、技術(shù)優(yōu)勢、管理優(yōu)勢和利益差異而扮演不同的角色,享有相應(yīng)的責(zé)任和權(quán)利。首先,IRDR聯(lián)盟應(yīng)該設(shè)置科學(xué)合理的組織架構(gòu),包括聯(lián)盟協(xié)調(diào)組織、理事會、監(jiān)管委員會、秘書處和工作組等。其次,IRDR聯(lián)盟需要分配和協(xié)調(diào)各主體的角色與權(quán)責(zé)。對科研機(jī)構(gòu)而言,他們是聯(lián)盟的核心主體,將在決策、管理與執(zhí)行層面扮演關(guān)鍵角色。re3data.org將IRDR聯(lián)盟成員所承擔(dān)的角色和責(zé)任主要劃分為綜合管理、技術(shù)支持和資金資助三大類。4TU科研數(shù)據(jù)中心(4TU.Centre for Research Data)由荷蘭埃因霍芬理工大學(xué)、代爾伏特理工大學(xué)、特文特大學(xué)和瓦格寧根大學(xué)組成,代爾伏特理工大學(xué)圖書館負(fù)責(zé)聯(lián)盟的整體運作,承擔(dān)綜合管理、技術(shù)支持和資助責(zé)任;埃因霍芬理工大學(xué)承擔(dān)資助工作;特文特大學(xué)負(fù)責(zé)綜合管理;瓦格寧根大學(xué)負(fù)責(zé)綜合管理和資助[24]。IRDR聯(lián)盟各利益相關(guān)者之間的的角色和權(quán)責(zé)不是單一的,具有交叉性和復(fù)雜性,IRDR聯(lián)盟在創(chuàng)建之前就應(yīng)該合理統(tǒng)籌,具有同一職責(zé)的成員在執(zhí)行中需相互協(xié)調(diào),加強(qiáng)溝通。
由于數(shù)據(jù)的復(fù)雜性和標(biāo)準(zhǔn)差異性明顯,要有效集成各機(jī)構(gòu)的科研數(shù)據(jù),IRDR聯(lián)盟需要在若干技術(shù)問題上達(dá)成一致。
(1)選擇合適的數(shù)據(jù)管理系統(tǒng)。目前科研數(shù)據(jù)管理主流系統(tǒng)包括Dataverse、CKAN、Dryad、Figshare和Nesstar等,北京大學(xué)在建設(shè)開放研究數(shù)據(jù)平臺前期比較了多種系統(tǒng),強(qiáng)調(diào)標(biāo)準(zhǔn)的元數(shù)據(jù)和良好的互操作性、管理權(quán)限劃分和靈活的訪問控制、基于DOI和版本的發(fā)布、在線分析和可視化等功能,認(rèn)為Dataverse更符合要求[17]。
(2)搭建合理的數(shù)據(jù)架構(gòu)。數(shù)據(jù)架構(gòu)是指數(shù)據(jù)系統(tǒng)和應(yīng)用的技術(shù)實現(xiàn)、技術(shù)部署和技術(shù)環(huán)境,合理的數(shù)據(jù)架構(gòu)包括數(shù)據(jù)存儲、編程、數(shù)據(jù)分析和數(shù)據(jù)應(yīng)用等模塊,要重點關(guān)注數(shù)據(jù)表示和描述、數(shù)據(jù)存儲、數(shù)據(jù)分析的方式和過程,以及數(shù)據(jù)交換機(jī)制、數(shù)據(jù)接口等,為結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的應(yīng)用提供技術(shù)支撐,確保數(shù)據(jù)的可用性。
(3)確定統(tǒng)一的數(shù)據(jù)資源整合方式。資源整合有多種模式,IRDR聯(lián)盟以異構(gòu)數(shù)據(jù)庫資源整合模式為主,主要技術(shù)有三種:Z39.50,支持不同數(shù)據(jù)結(jié)構(gòu)、內(nèi)容、格式的系統(tǒng)間數(shù)據(jù)傳輸,實現(xiàn)異構(gòu)平臺、異構(gòu)系統(tǒng)之間的互聯(lián)與查詢;公共對象請求代理體系結(jié)構(gòu)(Common Object Request Broker Architecture),結(jié)合面向?qū)ο蠹夹g(shù)和分布式處理技術(shù)實現(xiàn)應(yīng)用層交互;中間件(Middleware),是獨立的系統(tǒng)軟件或服務(wù)程序,能實現(xiàn)分布式軟件模塊之間的交互[25]。
(4)實現(xiàn)元數(shù)據(jù)互操作。IRDR聯(lián)盟平臺匯集的數(shù)據(jù)來源和學(xué)科廣泛、格式多樣、結(jié)構(gòu)各異,不僅要構(gòu)建多維的數(shù)據(jù)分類體系,還要致力于元數(shù)據(jù)的互操作。元數(shù)據(jù)互操作可分為語法互操作和語義互操作,應(yīng)用廣泛的語法互操作方法有元數(shù)據(jù)映射、復(fù)用、集成、互操作協(xié)議與應(yīng)用程序接口等,而語義互操作則有本體技術(shù)和關(guān)聯(lián)數(shù)據(jù)等[26]。只有在上述問題上制定統(tǒng)一標(biāo)準(zhǔn),IRDR聯(lián)盟才能在各個環(huán)節(jié)實現(xiàn)無縫鏈接和高效運作。
在大數(shù)據(jù)時代,科學(xué)研究的價值很大程度上取決于數(shù)據(jù)質(zhì)量。IRDR聯(lián)盟平臺匯集了不同機(jī)構(gòu)的科研數(shù)據(jù),其質(zhì)量往往是參差不齊的,需要制定科學(xué)的數(shù)據(jù)監(jiān)護(hù)流程,形成系統(tǒng)的數(shù)據(jù)審查標(biāo)準(zhǔn),保障數(shù)據(jù)的質(zhì)量。
首先,根據(jù)英國聯(lián)合信息系統(tǒng)委員會(JISC)的定義,數(shù)據(jù)監(jiān)管是指為確保數(shù)據(jù)當(dāng)前使用目的,并能用于未來再發(fā)現(xiàn)及再利用,從數(shù)據(jù)產(chǎn)生伊始即對其進(jìn)行管理和完善的活動[27]。一些研究機(jī)構(gòu)和學(xué)者提出了不同的數(shù)據(jù)監(jiān)護(hù)流程,比較有代表性的是英國數(shù)據(jù)監(jiān)管中心(Digital Curation Center)提出的數(shù)據(jù)監(jiān)管生命周期模型(Curation Lifecycle Model),它結(jié)合了數(shù)據(jù)生命周期理論將數(shù)據(jù)監(jiān)管流程劃分為八個階段:概念化—創(chuàng)造或接收—評估與選擇—吸收—保存行為—儲存—訪問、使用與重用—轉(zhuǎn)換[28]。IRDR聯(lián)盟可根據(jù)具體情況將數(shù)據(jù)監(jiān)護(hù)流程嵌入到集成平臺管理系統(tǒng)中,加強(qiáng)數(shù)據(jù)質(zhì)量管理。
其次,IRDR聯(lián)盟需要制定科學(xué)的數(shù)據(jù)質(zhì)量審查標(biāo)準(zhǔn),對數(shù)據(jù)文件、數(shù)據(jù)文檔說明、科研數(shù)據(jù)本身以及源代碼等內(nèi)容進(jìn)行核檢??蓞⒄誛ang和Strong提出的四維度數(shù)據(jù)質(zhì)量判定標(biāo)準(zhǔn):內(nèi)在數(shù)據(jù)質(zhì)量(可信度、準(zhǔn)確性、客觀性、聲譽(yù));語境數(shù)據(jù)質(zhì)量(增值性、相關(guān)性、時效性、完整性、適量性);可表現(xiàn)型數(shù)據(jù)質(zhì)量(可解釋、易于理解、一致性、表達(dá)簡潔);可訪問性數(shù)據(jù)質(zhì)量(可訪問性、安全性)[29]。也可參照數(shù)據(jù)認(rèn)可印章(Data Seal of Approval)制定的數(shù)據(jù)知識庫可信賴認(rèn)證16條核心要求[30]。
課題組前期調(diào)查發(fā)現(xiàn)創(chuàng)建IRDR聯(lián)盟還面臨一些障礙,其中“部分科研人員不愿意共享科研數(shù)據(jù)”占最大比重(約76.5%)。盡管科研人員普遍認(rèn)同為科學(xué)進(jìn)步實施數(shù)據(jù)共享有其共同潛在利益,然而多數(shù)人在執(zhí)行時有所顧忌,主要擔(dān)憂涉及科研數(shù)據(jù)知識產(chǎn)權(quán)問題、不正當(dāng)使用、隱私問題、數(shù)據(jù)損毀或篡改等。要消除這些顧慮,IRDR聯(lián)盟需要從兩進(jìn)行完善。
(1)制定科研人員激勵機(jī)制,設(shè)置激勵措施來鼓勵科研人員提交數(shù)據(jù)。例如,明確數(shù)據(jù)提交者享有免費存儲定量數(shù)據(jù)、更新元數(shù)據(jù)、設(shè)置開放時滯期等權(quán)益;根據(jù)科研人員的研究領(lǐng)域推薦相關(guān)科研項目和數(shù)據(jù)以便進(jìn)行研究合作;對數(shù)據(jù)提交貢獻(xiàn)較大者提供一定的研究支持基金。
(2)制定科研數(shù)據(jù)使用規(guī)范和政策。IRDR聯(lián)盟應(yīng)根據(jù)內(nèi)容、產(chǎn)權(quán)為不同數(shù)據(jù)設(shè)置不同等級的訪問權(quán)限,強(qiáng)化數(shù)據(jù)安全防護(hù)力度,并制定相應(yīng)的使用標(biāo)準(zhǔn)或強(qiáng)制性政策。對科研人員而言,他們既是數(shù)據(jù)的提交者,也是數(shù)據(jù)的利用者,應(yīng)該遵守聯(lián)盟的政策、規(guī)定、授權(quán)和許可協(xié)議,積極且合法地分享科研數(shù)據(jù),同時在使用中規(guī)范引用,保護(hù)其他科研人員的知識產(chǎn)權(quán)和隱私。加拿大的聯(lián)合科研數(shù)據(jù)知識庫(FRDR)在開發(fā)階段就設(shè)計了全面的用戶條款和隱私保護(hù)(Terms of Use and Privacy Policy),其中用戶協(xié)議包括:遵守領(lǐng)域或?qū)W科的學(xué)術(shù)誠信規(guī)范,提供數(shù)據(jù)來用和標(biāo)注引用;遵守知識共享許可協(xié)議(Creative Commons Public Domain Dedication CC0 1.0),下載和使用不會將內(nèi)容中的任何知識產(chǎn)權(quán)轉(zhuǎn)讓給用戶;用戶對內(nèi)容的使用負(fù)全部責(zé)任,而該聯(lián)盟的主要運行組織—加拿大研究圖書館協(xié)會和加拿大計算機(jī)協(xié)會對用戶的下載和/或使用行為不負(fù)責(zé)任[31]。
數(shù)據(jù)管理者是連接IRDR聯(lián)盟平臺和科研人員的樞紐,其綜合能力和素養(yǎng)直接反映IRDR聯(lián)盟的管理和服務(wù)水平,影響科研人員的數(shù)據(jù)使用效果和持續(xù)使用意愿?;贗RDR聯(lián)盟的跨機(jī)構(gòu)、跨學(xué)科和跨系統(tǒng)特性,IRDR聯(lián)盟的數(shù)據(jù)管理和服務(wù)提供者至少需要具備三種能力。
(1)數(shù)據(jù)監(jiān)護(hù)和分析能力。高效和持續(xù)地收集數(shù)據(jù),利用集成系統(tǒng)進(jìn)行數(shù)據(jù)監(jiān)護(hù),保證數(shù)據(jù)質(zhì)量、安全和長期保存,在此基礎(chǔ)上進(jìn)行合理的評估和分析并形成分析報告。
(2)溝通協(xié)調(diào)能力。了解科研人員的數(shù)據(jù)需求和使用效果,做好資源調(diào)度,處理數(shù)據(jù)提交與使用中的利益問題,規(guī)避潛在風(fēng)險。
(3)宣傳推廣能力。制定宣傳策略,開發(fā)多種形式的宣傳方法,擴(kuò)大IRDR聯(lián)盟的知名度和影響力,從而吸納更多的合作伙伴,為IRDR聯(lián)盟提供技術(shù)、資金和數(shù)據(jù)支持。
當(dāng)前IRDR成員類型以高校圖書館為主,這就對高校數(shù)據(jù)館員提出較高的要求。高校圖書館或研究機(jī)構(gòu)應(yīng)該招聘數(shù)據(jù)管理專業(yè)人才,或?qū)ΜF(xiàn)有數(shù)據(jù)館員進(jìn)行全方面的培訓(xùn),在強(qiáng)調(diào)信息素養(yǎng)、數(shù)字素養(yǎng)和數(shù)據(jù)素養(yǎng)的同時,強(qiáng)化宣傳、管理、溝通和協(xié)調(diào)等方面的能力,提升IDRD聯(lián)盟的服務(wù)效果。
數(shù)據(jù)密集化和協(xié)作化是科學(xué)研究的重要發(fā)展方向。IRDR聯(lián)盟作為一種創(chuàng)新的科研機(jī)構(gòu)合作模式,將從更大范圍促進(jìn)科研人員的數(shù)據(jù)共享,從更高層次滿足科研人員的數(shù)據(jù)利用和學(xué)術(shù)交流需求。本文對IRDR聯(lián)盟創(chuàng)建的動因與條件進(jìn)行分析,發(fā)現(xiàn)IRDR聯(lián)盟的創(chuàng)建不是單一因素作用的結(jié)果,而是政策驅(qū)動、科研人員需求驅(qū)動、機(jī)構(gòu)管理驅(qū)動以及技術(shù)驅(qū)動等綜合作用的產(chǎn)物。而在實踐中,聯(lián)盟成員權(quán)責(zé)聲明、聯(lián)盟平臺的技術(shù)標(biāo)準(zhǔn)、聯(lián)盟平臺數(shù)據(jù)監(jiān)護(hù)流程、科研人員激勵機(jī)制和使用規(guī)范、數(shù)據(jù)管理人員的能力與素養(yǎng)等條件則保障了IRDR聯(lián)盟科學(xué)高效和可持續(xù)的發(fā)展。驅(qū)動因素和保障條件相互作用,共同為我國IRDR聯(lián)盟的創(chuàng)建和發(fā)展提供了科學(xué)的實踐指導(dǎo),有利于進(jìn)一步推動科學(xué)創(chuàng)新和知識發(fā)現(xiàn)。