摘要:[目的/意義]數(shù)據(jù)管護(hù)是信息化科研環(huán)境下研究數(shù)據(jù)管理的重要部分,梳理國際已有相關(guān)研究成果,以期全面認(rèn)識(shí)數(shù)據(jù)管護(hù),為國內(nèi)數(shù)據(jù)管理研究提供參考。[方法/過程]以Web of Science為數(shù)據(jù)源,檢索時(shí)間截至2016年10月,檢索詞為數(shù)據(jù)管護(hù),將檢索到的文獻(xiàn)作為研究對(duì)象,基于文獻(xiàn)共現(xiàn)和共被引分析方法,利用CiteSpaceⅢ軟件工具,繪制國際數(shù)據(jù)管護(hù)的知識(shí)圖譜,采用內(nèi)容分析法,基于研究的學(xué)科分布、研究機(jī)構(gòu)、研究人員以及知識(shí)基礎(chǔ)的4個(gè)維度,對(duì)國際數(shù)據(jù)管護(hù)研究進(jìn)行解讀、分析與總結(jié)。[結(jié)果/結(jié)論]國際數(shù)據(jù)管護(hù)研究始于2000年,已經(jīng)步入成熟期,并形成特定的研究學(xué)科、機(jī)構(gòu)和群體,研究的知識(shí)基礎(chǔ)主要為數(shù)據(jù)描述、集成與關(guān)聯(lián)、科研過程的數(shù)據(jù)維護(hù)和增值活動(dòng)、數(shù)據(jù)管護(hù)利益相關(guān)者以及圖書館服務(wù)新模式。
關(guān)鍵詞:數(shù)據(jù)管護(hù) 數(shù)據(jù)管理 研究數(shù)據(jù) 知識(shí)圖譜
分類號(hào):G250
引用格式:虞晨琳. 國際數(shù)據(jù)管護(hù)的科學(xué)知識(shí)圖譜研究[J/OL]. 知識(shí)管理論壇, 2017, 2(3): 201-213[引用日期]. http://www.kmf.ac.cn/p/1/137/.
1 引言
隨著E-Science的發(fā)展,科研行為的主要特征是基于數(shù)據(jù)的科學(xué)探索,研究數(shù)據(jù)是科研活動(dòng)的驅(qū)動(dòng)力,科學(xué)研究已步入以數(shù)據(jù)密集型為特征的大數(shù)據(jù)科研范式[1]。大數(shù)據(jù)時(shí)代,研究數(shù)據(jù)的內(nèi)涵與特點(diǎn)發(fā)生改變,其來源范圍廣、類型多樣、數(shù)據(jù)體量巨大以及數(shù)據(jù)流實(shí)時(shí)變化,被稱之為科學(xué)大數(shù)據(jù)[2]。因此,以往的數(shù)據(jù)管理模式因不能適應(yīng)研究數(shù)據(jù)的管理,而使得研究數(shù)據(jù)易遭到損壞與污染,數(shù)據(jù)不能得到有效利用和長久保存,影響現(xiàn)階段的科學(xué)研究行為的進(jìn)行。各領(lǐng)域?qū)W者基于自身學(xué)術(shù)背景對(duì)研究數(shù)據(jù)管護(hù)(data curtain, DC)進(jìn)行了理論研究與實(shí)踐探索。筆者將對(duì)國際學(xué)術(shù)界的數(shù)據(jù)管護(hù)研究進(jìn)行梳理,以期整體、全面地認(rèn)識(shí)與把握數(shù)據(jù)管護(hù)研究的整體面貌。
2 數(shù)據(jù)管護(hù)定義
英國數(shù)據(jù)管護(hù)中心(Digital Curation Centre, DCC)對(duì)數(shù)據(jù)管護(hù)進(jìn)行明確定義:數(shù)據(jù)管護(hù)是指貫穿數(shù)字化研究數(shù)據(jù)整個(gè)生命周期的維護(hù)、保存和增值的動(dòng)態(tài)主動(dòng)的管理活動(dòng);對(duì)研究數(shù)據(jù)進(jìn)行主動(dòng)的管理,其目的是為了確保數(shù)據(jù)在未來研究價(jià)值的威脅、降低數(shù)字老化的風(fēng)險(xiǎn);置于可信的數(shù)字化存儲(chǔ)庫中的管護(hù)數(shù)據(jù),可促進(jìn)英國研究領(lǐng)域的數(shù)據(jù)共享;數(shù)據(jù)管護(hù)可減少數(shù)據(jù)創(chuàng)建的重復(fù)工作,并通過增強(qiáng)高質(zhì)量研究的可用性來提高數(shù)據(jù)的長期價(jià)值[3]。聯(lián)合信息系統(tǒng)委員會(huì)(Joint Information Systems Committee, JISC)指出, 數(shù)據(jù)管護(hù)是在數(shù)字?jǐn)?shù)據(jù)和研究成果的整個(gè)生命周期內(nèi), 維護(hù)和利用它們以服務(wù)當(dāng)前和未來的用戶的一系列活動(dòng)[4]。
從檔案視角解讀,認(rèn)為數(shù)據(jù)管護(hù)是將數(shù)字保存、數(shù)字圖書館管理、數(shù)字歸檔和數(shù)據(jù)管理階段性介入活動(dòng)進(jìn)行融合成一個(gè)整體;數(shù)據(jù)管護(hù)實(shí)質(zhì)是貫穿整個(gè)數(shù)據(jù)生命周期的管護(hù)活動(dòng),數(shù)據(jù)管護(hù)術(shù)語的產(chǎn)生,由于數(shù)字歸檔的含義在信息資源保存領(lǐng)域的濫用,使得數(shù)字歸檔的含義遭到曲解,使得數(shù)字資源的長期、全過程管理的研究需要?jiǎng)?chuàng)建新的術(shù)語來準(zhǔn)確描述數(shù)字資源的生命周期管理的研究[5]。
美國伊利諾伊大學(xué)圖書館與信息科學(xué)學(xué)院提出數(shù)據(jù)管護(hù)是在學(xué)術(shù)研究、科學(xué)和教育活動(dòng)中主動(dòng)、持續(xù)地貫穿數(shù)據(jù)生命周期的數(shù)據(jù)管理活動(dòng),通過數(shù)據(jù)認(rèn)證、歸檔、管理、保存和描述來促進(jìn)數(shù)據(jù)的檢索發(fā)現(xiàn)、長期保存和增值重用[6]。
綜上所述,數(shù)據(jù)管護(hù)具有以下特點(diǎn): ①數(shù)據(jù)管護(hù)是一種主動(dòng)、持續(xù)和不間斷的數(shù)據(jù)管理,貫穿整個(gè)研究數(shù)據(jù)的生命周期,確保研究數(shù)據(jù)管理過程是一條可追溯的連續(xù)鏈條; ②數(shù)據(jù)管護(hù)目的是維護(hù)和增值研究數(shù)據(jù)的價(jià)值,確保數(shù)據(jù)的真實(shí)可靠和長期可用,滿足現(xiàn)在和未來的使用需求;③數(shù)據(jù)管護(hù)促進(jìn)研究數(shù)據(jù)資源的檢索與發(fā)現(xiàn)、共享與利用、減少科研資源的重復(fù)建設(shè)。
3 研究結(jié)果分析
3.1 數(shù)據(jù)與方法
為全面把握國際數(shù)據(jù)管護(hù)研究情況,避免遺漏重要文獻(xiàn),本文所選取的統(tǒng)計(jì)數(shù)據(jù)來源于Web of Science (WOS)核心合集數(shù)據(jù)庫,以 “digital curation” “data curation” 為主題或標(biāo)題進(jìn)行檢索,時(shí)間跨度:1900-2016年,文獻(xiàn)類型:包括“article,editorial,letter,proceeding paper,review”5類,檢索時(shí)間為2016年10月31日,并對(duì)檢索結(jié)果進(jìn)行去重、清洗,最終得到319條文獻(xiàn)記錄。
國外數(shù)據(jù)管護(hù)研究的文獻(xiàn)增長趨勢符合普賴斯提出的科學(xué)文獻(xiàn)指數(shù)增長的普遍規(guī)律,擬合優(yōu)度R2為0.974(見圖1)。國外數(shù)據(jù)管護(hù)研究始于2000年,2000-2005年間的發(fā)文量少,發(fā)展極為緩慢,研究處于起步階段;2006-2013年間的年發(fā)文量呈現(xiàn)增長態(tài)勢,實(shí)際發(fā)文量都超過理論值,研究處于快速增長期;2013年之后,實(shí)際發(fā)文量小于理論值,且兩者之間的差距逐年拉大,研究步入成熟期。數(shù)據(jù)管護(hù)的年發(fā)文量呈絕對(duì)值持續(xù)增長趨勢,自2013年起,每年發(fā)文量均在40篇以上,2015年達(dá)到62篇。
本文所選取的研究方法是科學(xué)知識(shí)圖譜,科學(xué)知識(shí)圖譜是將信息可視化技術(shù)、應(yīng)用數(shù)學(xué)、圖形學(xué)、計(jì)算機(jī)科學(xué)等與科學(xué)計(jì)量學(xué)結(jié)合起來的交叉科學(xué)研究方法,可將科學(xué)前沿領(lǐng)域的海量文獻(xiàn)數(shù)據(jù)信息轉(zhuǎn)換為可視化圖像,展示單憑個(gè)人經(jīng)驗(yàn)難以直觀獲得的學(xué)科前沿領(lǐng)域的總體圖景、發(fā)展態(tài)勢與結(jié)構(gòu)特征。具體分析方法是基于共現(xiàn)分析法來明確國外數(shù)據(jù)管護(hù)的研究主體;利用共被引分析展現(xiàn)國外數(shù)據(jù)管護(hù)的知識(shí)基礎(chǔ)。
3.2 數(shù)據(jù)管護(hù)的研究主體
利用CiteSpace軟件共現(xiàn)圖譜分析法,從學(xué)科分布、研究機(jī)構(gòu)、作者分析3個(gè)維度對(duì)施引文獻(xiàn)進(jìn)行分析,以探求數(shù)據(jù)管護(hù)的研究主體。
3.2.1 學(xué)科分布分析科學(xué)知識(shí)圖譜
如圖2所示,計(jì)算機(jī)科學(xué)與圖書情報(bào)學(xué)的節(jié)點(diǎn)年輪較大,表明學(xué)科的發(fā)文數(shù)量多;節(jié)點(diǎn)年輪顏色由藍(lán)、綠、黃組成,暗示研究跨3個(gè)時(shí)間段,長期時(shí)間關(guān)注且持續(xù)性研究。生物化學(xué)研究方法、天文與天體物理、計(jì)算機(jī)科學(xué)、成像科學(xué)與照相技術(shù)、統(tǒng)計(jì)與概率、地理學(xué)、生物化學(xué)與分子生物、遙感、基因與遺傳學(xué)等學(xué)科的節(jié)點(diǎn)被紫圈標(biāo)注出來,代表節(jié)點(diǎn)具有較大的中心度(不小于0.1),處于在網(wǎng)絡(luò)結(jié)構(gòu)中重要的中心位置,在研究中具有重要影響力。
從學(xué)科分布來看,數(shù)據(jù)管護(hù)研究具有多學(xué)科性,應(yīng)用學(xué)科和基礎(chǔ)學(xué)科均關(guān)注數(shù)據(jù)管護(hù)方面問題,積極開展相應(yīng)的研究工作,產(chǎn)生這種現(xiàn)象的原因主要為:①研究數(shù)據(jù)主要由具體的基礎(chǔ)學(xué)科產(chǎn)生。研究數(shù)據(jù)來源于科學(xué)研究的觀測、探測、調(diào)查和綜合分析所獲得的數(shù)值型的事實(shí)記錄,隨著21世紀(jì)的信息技術(shù)革命,新一代科學(xué)研究的手段與方式的應(yīng)用,促使研究數(shù)據(jù)的生產(chǎn)方式步入自動(dòng)式化感知式系統(tǒng)階段。研究數(shù)據(jù)具有學(xué)科背景屬性,基礎(chǔ)學(xué)科多圍繞學(xué)科的特定項(xiàng)目開展數(shù)據(jù)管護(hù)研究,以滿足自身學(xué)科知識(shí)體系對(duì)研究數(shù)據(jù)的管護(hù)的特定需要。②不同學(xué)科的研究數(shù)據(jù)在管理與服務(wù)具有共同屬性。應(yīng)用學(xué)科夯實(shí)了數(shù)字化科研的基礎(chǔ)以及統(tǒng)一了研究數(shù)據(jù)的技術(shù)標(biāo)準(zhǔn),這些稱為了數(shù)據(jù)管護(hù)中的網(wǎng)絡(luò)基礎(chǔ)設(shè)施的依托、信息技術(shù)的支撐、政策指導(dǎo)與管護(hù)理論的提供了強(qiáng)有力的支持。
計(jì)算機(jī)科學(xué)在數(shù)據(jù)管護(hù)的研究方向主要是人工智能、信息系統(tǒng)、跨學(xué)科應(yīng)用、軟件工程與理論方法,從全方面對(duì)數(shù)據(jù)管護(hù)研究進(jìn)行技術(shù)支持,其研究始于2001年。生命科學(xué)與生物醫(yī)學(xué)對(duì)數(shù)據(jù)管護(hù)研究力度與重視程度不亞于計(jì)算機(jī)科學(xué),隨著新一代測序工具與技術(shù)出現(xiàn),基因研究產(chǎn)生海量的基因數(shù)據(jù),因此,生命科學(xué)與生物醫(yī)學(xué)對(duì)于基因數(shù)據(jù)管理需求增大,需要確?;驍?shù)據(jù)的及時(shí)更新、實(shí)時(shí)維護(hù)、關(guān)聯(lián)和集成資源、長期保存與有效獲取等,驅(qū)動(dòng)科學(xué)研究的新發(fā)現(xiàn)。圖書情報(bào)學(xué)的發(fā)文數(shù)高達(dá)84篇,科學(xué)體量較大,學(xué)術(shù)影響力較強(qiáng),是推動(dòng)數(shù)據(jù)管護(hù)研究進(jìn)展的主力軍之一。
3.2.2 研究機(jī)構(gòu)分析
由圖3可見,北卡羅來納大學(xué)教堂山分校、愛丁堡大學(xué)、普渡大學(xué)、格拉斯哥大學(xué)、約翰·霍普金斯大學(xué)、南佛羅里達(dá)大學(xué)以及圣迭戈加利福尼亞大學(xué)在數(shù)據(jù)管護(hù)研究上比較活躍。
突現(xiàn)是指變量值在短時(shí)間內(nèi)發(fā)生很大變化,突現(xiàn)信息是一種可用來度量更深層變化的手段,對(duì)機(jī)構(gòu)突現(xiàn)的研究,能夠把握機(jī)構(gòu)在數(shù)據(jù)管護(hù)研究上的關(guān)鍵轉(zhuǎn)變節(jié)點(diǎn)。北卡羅來納大學(xué)教堂山分校2007年共有4篇關(guān)于數(shù)據(jù)管護(hù)的文獻(xiàn),主要為數(shù)據(jù)管護(hù)的人才培養(yǎng)和軟件工具研發(fā)的研究。其圖書館與信息科學(xué)學(xué)院承擔(dān)的數(shù)據(jù)管護(hù)課程(Digital Curation Curriculum,DigCCurr )項(xiàng)目,包括培育數(shù)據(jù)管護(hù)的研究生層次專業(yè)人才,探索數(shù)據(jù)管護(hù)課程設(shè)置[7];界定數(shù)據(jù)管護(hù)人才以及數(shù)據(jù)管護(hù)應(yīng)具備技能與知識(shí)[8]。The Vidarch Project1項(xiàng)目捕獲數(shù)據(jù)資源的相關(guān)信息,基于數(shù)據(jù)資源的元數(shù)據(jù)和上下文本信息關(guān)系,實(shí)現(xiàn)數(shù)據(jù)資源的全面注釋[9];研發(fā)ContextMiner 2工具,幫助數(shù)據(jù)管護(hù)人在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)查詢、編譯及存儲(chǔ)[10]。愛丁堡大學(xué)2004-2007年共有4篇關(guān)于數(shù)據(jù)管護(hù)的文獻(xiàn)。面對(duì)生物數(shù)據(jù)爆發(fā)式增長,P. Buneman倡議對(duì)數(shù)據(jù)庫進(jìn)行管護(hù),確保數(shù)據(jù)的安全可靠[11];P. Buneman同時(shí)闡釋數(shù)據(jù)管護(hù)的兩種不同的文化,檔案專家、管護(hù)者側(cè)重對(duì)數(shù)據(jù)資源的長期保存與可靠訪問,研究者側(cè)重?cái)?shù)據(jù)資源的可視化、注釋與關(guān)聯(lián)[12];C. Rusbridge等認(rèn)為DCC成立將更好地指導(dǎo)數(shù)據(jù)管護(hù)活動(dòng)的開展[13];M. McGinley呼吁將數(shù)據(jù)管護(hù)納入法律層面,以此將有效地指導(dǎo)研究數(shù)據(jù)的開放或保密[14]。普渡大學(xué)在2008年發(fā)表2篇關(guān)于數(shù)據(jù)管護(hù)文獻(xiàn)。普渡大學(xué)圖書館在圖書館學(xué)和檔案學(xué)原理的指導(dǎo)下,利用分布式機(jī)構(gòu)知識(shí)庫設(shè)施基礎(chǔ),開展具體學(xué)科的研究數(shù)據(jù)管理的探索,為數(shù)據(jù)管護(hù)研究提供實(shí)踐案例[15];M. Y. Eltabakh研發(fā)生物數(shù)據(jù)庫的可擴(kuò)展數(shù)據(jù)庫引擎,支持研究者對(duì)生物數(shù)據(jù)庫系統(tǒng)進(jìn)行統(tǒng)一的數(shù)據(jù)管理,如數(shù)據(jù)及派生信息的注釋、存儲(chǔ)、數(shù)據(jù)查詢和跟蹤等,促進(jìn)普渡大學(xué)的研究數(shù)據(jù)管理[16]。
3.2.3 作者分析
如圖4所示, 節(jié)點(diǎn)年輪的顏色變化反映了研究者的活躍時(shí)段,筆者依據(jù)圖譜的時(shí)間分區(qū)的顏色變化,將數(shù)據(jù)管護(hù)研究領(lǐng)域的主要研究者分為三代研究者,以2006年和2012年作為時(shí)間分區(qū)的分界點(diǎn)。
第一代研究者的節(jié)點(diǎn)以藍(lán)色為主,隨著科研信息化的展開,研究者對(duì)研究數(shù)據(jù)管護(hù)的需求不斷增加。P. Buneman團(tuán)隊(duì)倡議及闡述數(shù)據(jù)管護(hù)以及數(shù)據(jù)管護(hù)中心成立的意義;P. Martin團(tuán)隊(duì)研發(fā)基因數(shù)據(jù)庫的集成分析工具,支持?jǐn)?shù)據(jù)集成化研究。第二代研究者的節(jié)點(diǎn)以綠色為主,主要是圖情及計(jì)算機(jī)領(lǐng)域圍繞研究數(shù)據(jù)管護(hù)展開的研究活動(dòng)。C. Prom團(tuán)隊(duì)從數(shù)據(jù)管護(hù)教育角度,主持開展數(shù)據(jù)管護(hù)課程(DigCCurr)和數(shù)據(jù)管護(hù)差距彌補(bǔ)課程(Closingthe Digital Curation Gap)以儲(chǔ)備數(shù)據(jù)管護(hù)的專業(yè)人才; L. Martinez-Uribe團(tuán)隊(duì)研究圖書館在數(shù)據(jù)管護(hù)的角色定位、服務(wù)創(chuàng)新;S. Ross團(tuán)隊(duì)研發(fā)文本流派分類方法自動(dòng)獲取元數(shù)據(jù)。第三代研究者的節(jié)點(diǎn)以黃色為主,研究主要是針對(duì)特定學(xué)科開展的細(xì)粒度的數(shù)據(jù)管護(hù)活動(dòng),?. Sánchez-Ferrer團(tuán)隊(duì)基于生物基因需求,提出數(shù)據(jù)管護(hù)的具體要求;W. Los團(tuán)隊(duì)建立數(shù)據(jù)管護(hù)以此來推進(jìn)數(shù)據(jù)資源共享開放;C. Jandrasits團(tuán)隊(duì)從納米領(lǐng)域提出數(shù)據(jù)管護(hù)的重要性;B. Stvilia團(tuán)隊(duì)從基因領(lǐng)域出發(fā),研究數(shù)據(jù)管護(hù)以及數(shù)據(jù)質(zhì)量要求;J. Bhate團(tuán)隊(duì)介紹國際分子交換聯(lián)盟中心(IMEx Central)實(shí)施交互質(zhì)量控制、交叉管護(hù)等數(shù)據(jù)管護(hù)措施。
3.3 數(shù)據(jù)管護(hù)研究的知識(shí)基礎(chǔ)
由圖5可知,文獻(xiàn)共被引網(wǎng)絡(luò)主要為8個(gè)聚類?;诒灰墨I(xiàn)和施引文獻(xiàn)、聚類標(biāo)簽對(duì)各類的研究內(nèi)容和核心觀點(diǎn)進(jìn)行解讀,發(fā)現(xiàn)研究內(nèi)容大致可分為數(shù)據(jù)管護(hù)對(duì)科研活動(dòng)的新價(jià)值、數(shù)據(jù)管護(hù)的軟硬件設(shè)施的建設(shè)、數(shù)據(jù)管護(hù)在具體學(xué)科的應(yīng)用、數(shù)據(jù)管護(hù)的利益相關(guān)者以及圖書館的服務(wù)模式幾方面。
3.3.1 數(shù)據(jù)管護(hù)對(duì)科研活動(dòng)的新價(jià)值
表1列出聚類3#scientific data的被引文獻(xiàn)和施引文獻(xiàn),闡釋科學(xué)數(shù)據(jù)對(duì)科研活動(dòng)的新價(jià)值,這些文獻(xiàn)主要研究了如何使用數(shù)據(jù)管護(hù)實(shí)現(xiàn)對(duì)數(shù)據(jù)的維護(hù)和增值,涉及到科研工作流程、數(shù)據(jù)共享及出版的管理??茖W(xué)研究具有數(shù)據(jù)驅(qū)動(dòng)性和開放協(xié)作性,數(shù)據(jù)共享可以支持科學(xué)研究的再現(xiàn)或驗(yàn)證,確保研究結(jié)果為公眾所用,方便其他人利用現(xiàn)有數(shù)據(jù)開展新研究,提升研究創(chuàng)新水平[17]。
科學(xué)界對(duì)小研究數(shù)據(jù)潛在價(jià)值的認(rèn)識(shí)加 深[18],P. Borgman以棲息地生態(tài)學(xué)為例,介紹了數(shù)字圖書館利用嵌入式網(wǎng)絡(luò)感知中心,來支持“小科學(xué)”學(xué)科的數(shù)據(jù)管理,以便解決小研究數(shù)據(jù)趨向于異質(zhì)、個(gè)人管理的狀態(tài)或是未被保存、未被管理的狀態(tài)[47]。盡管海量研究數(shù)據(jù)產(chǎn)生,使得數(shù)據(jù)洪流現(xiàn)象出現(xiàn),但只有少數(shù)領(lǐng)域出現(xiàn)數(shù)據(jù)共享,C. Tenopir等2011年對(duì)1 329名科學(xué)家進(jìn)行數(shù)據(jù)共享實(shí)踐與理論調(diào)研,發(fā)現(xiàn)阻礙科學(xué)家進(jìn)行數(shù)據(jù)共享首要原因是時(shí)間不足和資金缺乏,其次是開放平臺(tái)、標(biāo)準(zhǔn)規(guī)范、政策制定等[19]。M. H. Cragin等承擔(dān)的Data Curation Profiles項(xiàng)目是基于研究者角度對(duì)數(shù)據(jù)共享問題進(jìn)行研究,從分享什么數(shù)據(jù)、何時(shí)和與誰分享的3個(gè)維度分析研究者數(shù)據(jù)共享行為[20];P. Borgman分析什么數(shù)據(jù)應(yīng)該被共享、被誰共享、在什么條件下共享、為什么共享以及要做什么努力等方面,能幫助認(rèn)識(shí)數(shù)據(jù)共享;以上研究為數(shù)據(jù)政策制定和數(shù)據(jù)實(shí)踐開展提供了指導(dǎo)[17]。
M.J. Costello提出以數(shù)據(jù)出版代替數(shù)據(jù)共享,構(gòu)建數(shù)據(jù)的引用與訪問系統(tǒng),激勵(lì)環(huán)境、生物學(xué)科學(xué)家發(fā)布研究數(shù)據(jù),解決數(shù)據(jù)可用性問題[21]。R. R. Downs和R. S. Chen.設(shè)計(jì)跨學(xué)科數(shù)據(jù)提交的工作流,便于滿足跨領(lǐng)域研究的科研人員提交數(shù)據(jù)的需求[22]。
3.3.2 數(shù)據(jù)管護(hù)的軟硬件設(shè)施建設(shè)
數(shù)據(jù)管護(hù)的軟硬件設(shè)施建設(shè)包括支撐數(shù)據(jù)管護(hù)的平臺(tái)的基礎(chǔ)設(shè)施,支持?jǐn)?shù)據(jù)集成和關(guān)聯(lián)的軟件技術(shù)。表2列出聚類2#biologist-centricsoftware的被引文獻(xiàn)和施引文獻(xiàn)是面向數(shù)據(jù)管護(hù)的基礎(chǔ)設(shè)施的建設(shè)研究,這些文獻(xiàn)主要是探討支撐管護(hù)軟件研發(fā)和平臺(tái)構(gòu)建、服務(wù)體系建設(shè)以及最佳實(shí)踐探索。
開源數(shù)字倉儲(chǔ)軟件(Fedora)描述數(shù)字對(duì)象及之間的復(fù)雜關(guān)系,為組織機(jī)構(gòu)在管理及保存數(shù)字資源方面提供基礎(chǔ)[23]。iRODS(integrated Rule-Oriented Data System)的數(shù)據(jù)網(wǎng)格幫助用戶高效、簡易管理各類數(shù)據(jù)資源[24]。英國圖書館與信息網(wǎng)絡(luò)辦公室總結(jié)數(shù)據(jù)管護(hù)的服務(wù)框架,鑒定關(guān)鍵利益主體,分析其責(zé)任、權(quán)利與協(xié)作方式,確定數(shù)據(jù)管理的目標(biāo)(數(shù)據(jù)的保存、訪問和重用),確定實(shí)現(xiàn)目標(biāo)的機(jī)制、流程和實(shí)踐[25]。普渡大學(xué)圖書館在e-Science環(huán)境下,構(gòu)建面向科研的嵌入式服務(wù)的協(xié)同結(jié)構(gòu),開展研究數(shù)據(jù)管理服務(wù),包括數(shù)據(jù)描述、類型和格式的標(biāo)準(zhǔn)、收集、組織、歸檔與保存[26];科羅拉多大學(xué)博爾德分校圖書館參與領(lǐng)域科學(xué)的數(shù)據(jù)管護(hù)的過程,表明圖書館在專業(yè)人才、基礎(chǔ)設(shè)施與信息服務(wù)的優(yōu)勢將有助于開展數(shù)據(jù)管護(hù)活動(dòng)[27]。以上圖書館的探索成為數(shù)據(jù)管護(hù)的最佳實(shí)踐。
表3列出聚類6#annotation的被引文獻(xiàn)和施引文獻(xiàn)是基于數(shù)據(jù)集成和關(guān)聯(lián)的數(shù)據(jù)管護(hù),通過構(gòu)建大規(guī)模知識(shí)化的科學(xué)數(shù)據(jù)網(wǎng)絡(luò),便于研究者深入挖掘和有效解釋科研數(shù)據(jù)中各類資源對(duì)象的內(nèi)涵和關(guān)系。
基因芯片數(shù)據(jù)協(xié)會(huì)組織開發(fā)了微陣列數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范了微陣列實(shí)驗(yàn)解釋的最小信息描述[28],促進(jìn)國際上基因組學(xué)的實(shí)驗(yàn)室及公共數(shù)據(jù)庫的數(shù)據(jù)交流。C. A. Ball評(píng)述微陣列數(shù)據(jù)標(biāo)準(zhǔn),規(guī)范了微陣列實(shí)驗(yàn)數(shù)據(jù)的注釋描述和交換標(biāo)準(zhǔn),輔助微陣列數(shù)據(jù)庫的建設(shè)和數(shù)據(jù)分析工具的開發(fā),促使高質(zhì)量的基因表達(dá)數(shù)據(jù)的共享,為基因研究的標(biāo)準(zhǔn)化鋪平道路[29]。S. A. Sansone提出以技術(shù)手段和獎(jiǎng)勵(lì)機(jī)制促進(jìn)生物數(shù)據(jù)的互操作性,以提高科學(xué)社群對(duì)研究數(shù)據(jù)的充分利用和開放共享[30]。D. Howe認(rèn)為生物研究數(shù)據(jù)管理和生物學(xué)數(shù)據(jù)管理的出現(xiàn),解決不斷增長的高質(zhì)量數(shù)據(jù)需求與有限、落后的數(shù)據(jù)管理之間的矛盾[31]。B. M. Good等通過語義維基構(gòu)建生物醫(yī)學(xué)的語義網(wǎng)鏈接,直接嵌入維基百科編輯器來計(jì)算文章上下文的語義關(guān)系,增強(qiáng)維基百科文章的語義呈現(xiàn),便于用戶查詢與發(fā)現(xiàn)[32]。
3.3.3 數(shù)據(jù)管護(hù)在具體學(xué)科的應(yīng)用
數(shù)據(jù)管護(hù)在生物學(xué)科、化學(xué)信息學(xué)與生物信息學(xué)方面得到充分運(yùn)用。表4列出聚類0#database的被引文獻(xiàn)和施引文獻(xiàn)是數(shù)據(jù)管護(hù)在生物學(xué)科的具體應(yīng)用,這些文獻(xiàn)主要是基于領(lǐng)域本體與元數(shù)據(jù)的數(shù)據(jù)描述的管護(hù)活動(dòng),為生物數(shù)據(jù)的描述和分類實(shí)現(xiàn)格式化,為計(jì)算機(jī)處理創(chuàng)造可能。
隨著新一代基因測序技術(shù)的快速發(fā)展,使得基因組和轉(zhuǎn)錄組開始進(jìn)入高通量測序,實(shí)驗(yàn)室和基因數(shù)據(jù)庫得到海量核序列數(shù),但是對(duì)核序列數(shù)的描述和保存格式不統(tǒng)一,嚴(yán)重阻礙了學(xué)術(shù)交流與資源共享?;虮倔w的出現(xiàn),統(tǒng)一了規(guī)范基因功能注釋和描述[33];生命研究數(shù)據(jù)庫采用基因本體來對(duì)研究數(shù)據(jù)進(jìn)行標(biāo)注,通用蛋白質(zhì)資源數(shù)據(jù)庫(UniProt)為科學(xué)社群提供集成、高質(zhì)量、可獲取的蛋白質(zhì)資源數(shù)據(jù)[34],PlasmoDB數(shù)據(jù)庫通過瘧原蟲基因注釋標(biāo)準(zhǔn)化,關(guān)聯(lián)基因組定位、轉(zhuǎn)錄本信息等各種信息,方便瘧疾研究者查詢[35]。數(shù)據(jù)的描述、注釋以及保存格式的規(guī)范,有助于研究的新發(fā)現(xiàn),通過統(tǒng)一基因本體術(shù)語,便于集成高質(zhì)量的數(shù)據(jù)資源,便于發(fā)現(xiàn)基因之間的相互作用的證據(jù)[36]。
表5列出聚類1#QSARmodeling的被引文獻(xiàn)和施引文獻(xiàn)是數(shù)據(jù)管護(hù)在化學(xué)信息學(xué)的具體應(yīng)用,這些文獻(xiàn)主要是圍繞研究數(shù)據(jù)建模過程的管護(hù)活動(dòng),依據(jù)數(shù)學(xué)原理,探索數(shù)據(jù)之間的關(guān)系,提取信息及發(fā)現(xiàn)知識(shí)等。定量構(gòu)效關(guān)系(quantitative structure activity relationship,QSAR)作為化學(xué)信息學(xué)的主要研究方法,是對(duì)化合物結(jié)構(gòu)與其活性之間關(guān)系的定量描述研究[37]。
建立研究數(shù)據(jù)的匯聚機(jī)制與模型,如集成計(jì)算毒理學(xué)資源(Aggregated Computational Toxicology Resource, ACToR)、京都基因和基因組學(xué)百科全書(Kyoto Encyclopedia of Genesand Genomes, KEGG)和基因型—表現(xiàn)型數(shù)據(jù)庫(Genotype-phenotype databases),以解決數(shù)據(jù)的多源、異構(gòu)帶來的數(shù)據(jù)使用效率低的難題??蒲行畔⒒耐七M(jìn),數(shù)據(jù)驅(qū)動(dòng)科學(xué)研究的發(fā)展,數(shù)據(jù)質(zhì)量直接決定研究的成敗?;瘜W(xué)數(shù)據(jù)建模分析過程采用標(biāo)準(zhǔn)規(guī)范[38],劃定分析階段,來確保QSAR模型分析結(jié)果的有效性[39]。面對(duì)預(yù)測毒理學(xué)的數(shù)據(jù)的來源涉及學(xué)科廣、數(shù)據(jù)的表示靈活多樣,F(xiàn). Xin認(rèn)為數(shù)據(jù)管護(hù)能確保預(yù)測毒理學(xué)的計(jì)算基礎(chǔ)的數(shù)據(jù)高質(zhì)量,推進(jìn)學(xué)科發(fā)展[40]。A. J. Williams和S.EKINS倡議化學(xué)數(shù)據(jù)庫采用數(shù)據(jù)管護(hù),來保障數(shù)據(jù)質(zhì)量,推動(dòng)科研進(jìn)展[41]。
表6列出聚類5#bioinformatics的被引文獻(xiàn)和施引文獻(xiàn)是數(shù)據(jù)管護(hù)在生物信息學(xué)的具體應(yīng)用,這些文獻(xiàn)論證了數(shù)據(jù)管護(hù)是如何支持生物信息學(xué)的研究新模式。J. Bellenson指出,微陣列芯片技術(shù)在鑒定致癌物質(zhì)與環(huán)境危害的應(yīng)用,促使毒理學(xué)研究的范式由假設(shè)驅(qū)動(dòng)的研究轉(zhuǎn)向數(shù)據(jù)驅(qū)動(dòng)的實(shí)驗(yàn)[42],數(shù)據(jù)對(duì)科研的重要性日益顯著。W. Tong等指出arraytrack具有集合毒理學(xué)的數(shù)據(jù)存儲(chǔ)、分析和可視化的功能,支持毒物學(xué)研究的進(jìn)展與新發(fā)現(xiàn)[43]。
3.3.4 數(shù)據(jù)管護(hù)的利益相關(guān)者以及圖書館的服務(wù)模式
表7列出聚類4#digitalcuration的被引文獻(xiàn)和施引文獻(xiàn)確定了數(shù)據(jù)管護(hù)的利益相關(guān)者,這些文獻(xiàn)主是圍繞數(shù)據(jù)管護(hù)利益相關(guān)者展開的角色定位、職責(zé)劃定和相互協(xié)作研究。
美國國家科學(xué)委員會(huì)(National Science Board,NSB)發(fā)布《21世界長期數(shù)字?jǐn)?shù)據(jù)集合研究與教育》,明確了管理層面對(duì)長期數(shù)字?jǐn)?shù)據(jù)集合管理的重視,開展數(shù)據(jù)管理研究以及教育培訓(xùn),以支撐2000年以后的科學(xué)研究?;跀?shù)據(jù)在不同階段的管理要求,提出不同機(jī)構(gòu)、部門的數(shù)據(jù)服務(wù)角色定位,以實(shí)現(xiàn)數(shù)據(jù)管理服務(wù)角色的協(xié)作,實(shí)現(xiàn)數(shù)據(jù)管理服務(wù)的目標(biāo)[44]。圖書館作為信息資源管理的參與者,拓展和延伸數(shù)據(jù)服務(wù),定位管理角色與職責(zé),研究技術(shù)標(biāo)準(zhǔn)和數(shù)據(jù)生命周期理論等,以期在研究數(shù)據(jù)管理乃至科學(xué)研究中發(fā)揮重要作用。H. R. Tibbo從社會(huì)科學(xué)角度度審視數(shù)據(jù)管護(hù),盡管數(shù)據(jù)管護(hù)的發(fā)展離不開計(jì)算機(jī)技術(shù)的支撐,但社會(huì)科學(xué)對(duì)數(shù)據(jù)資產(chǎn)的長期管護(hù)更具有指導(dǎo)[45]。
表8列出聚類7#science的被引文獻(xiàn)和施引文獻(xiàn)描述了科研新模式下圖書館的探索,這些文獻(xiàn)主要是描述了圖書館的數(shù)據(jù)管護(hù)服務(wù)模式。L.Lyon指出,隨著“信息轉(zhuǎn)變”,圖書館需要審視在數(shù)據(jù)驅(qū)動(dòng)科研環(huán)境下的機(jī)構(gòu)目標(biāo)和服務(wù)范圍[46]。P. Hswe和P Hswe從學(xué)術(shù)圖書館在人員配置、基礎(chǔ)設(shè)施及服務(wù)定位角度,論述圖書館參與數(shù)據(jù)管理的必要性和參與模式,指出圖書館將出現(xiàn)新的職業(yè)角色來滿足數(shù)據(jù)管理的需要[47]。G. S. Choudhury針對(duì)約翰霍普金斯大學(xué)已有的機(jī)構(gòu)庫等基礎(chǔ)設(shè)施開展數(shù)據(jù)管護(hù)服務(wù),強(qiáng)調(diào)數(shù)據(jù)科學(xué)家和數(shù)據(jù)人文專家等新角色在數(shù)據(jù)管護(hù)中發(fā)揮的作用,能全面支持高校研究數(shù)據(jù)管理[48]。L. M.Delserone論述了明尼蘇達(dá)大學(xué)圖書館與機(jī)構(gòu)庫、信息部門等協(xié)同合作,共同規(guī)劃建設(shè)學(xué)校的數(shù)據(jù)管護(hù)的基礎(chǔ)設(shè)施;同時(shí)圖書館配置專業(yè)人才隊(duì)伍,滿足圖書館開展數(shù)據(jù)管理與服務(wù)的要求,建設(shè)“科學(xué)館員隊(duì)伍”[49]。L. Lyon基于Research360的機(jī)構(gòu)研究生命周期模型,總結(jié)圖書館開展數(shù)據(jù)管護(hù)服務(wù)的10個(gè)階段,包括數(shù)據(jù)管理要求、計(jì)劃、信息學(xué)基礎(chǔ)、引用、培訓(xùn)、許可、鑒定、存儲(chǔ)、獲取、影響[46]。
4 結(jié)語
隨著21世紀(jì)的信息技術(shù)革命,科學(xué)研究范式向數(shù)據(jù)密集型轉(zhuǎn)變,共同推動(dòng)數(shù)據(jù)管護(hù)研究的興起。對(duì)國際的數(shù)據(jù)管護(hù)研究的分析和解讀表明,研究主體具有多學(xué)科性,其中,生命科學(xué)與生物醫(yī)學(xué)基于自身學(xué)科知識(shí)體系,圍繞特定項(xiàng)目進(jìn)行數(shù)據(jù)管護(hù)的研究;計(jì)算機(jī)與圖情等應(yīng)用學(xué)科則基于研究數(shù)據(jù)的通性,研究通用的研究數(shù)據(jù)的基礎(chǔ)設(shè)施與技術(shù)標(biāo)準(zhǔn)規(guī)范。研究主體的機(jī)構(gòu)主要集中在歐美,其中北卡羅來納大學(xué)教堂山分校、愛丁堡大學(xué)和普渡大學(xué)在數(shù)據(jù)管護(hù)領(lǐng)域比較活躍,具有很大影響力。相較國外,中國對(duì)數(shù)據(jù)管護(hù)的研究相對(duì)薄弱,武漢大學(xué)信息管理學(xué)院在國際數(shù)據(jù)管護(hù)的專業(yè)人才培養(yǎng)上開展深入調(diào)研與分析,具有較強(qiáng)的影響力。研究主體的學(xué)者合作不夠緊密,缺少穩(wěn)定的、高質(zhì)量的研究團(tuán)隊(duì)。數(shù)據(jù)管護(hù)的知識(shí)基礎(chǔ)集中于數(shù)據(jù)管護(hù)對(duì)科研活動(dòng)的新價(jià)值、數(shù)據(jù)管護(hù)的軟硬件設(shè)施的建設(shè)、數(shù)據(jù)管護(hù)在具體學(xué)科的應(yīng)用、數(shù)據(jù)管護(hù)的利益相關(guān)者以及圖書館的服務(wù)模式?;谏鲜鰧?duì)國際數(shù)據(jù)管護(hù)研究的英文文獻(xiàn)的梳理,望能為國內(nèi)開展數(shù)據(jù)管護(hù)研究帶來啟示與借鑒。
參考文獻(xiàn):
[1] 吳金紅, 陳勇躍, 胡慕海. e-Science 環(huán)境下科學(xué)數(shù)據(jù)監(jiān)管中的質(zhì)量控制模型研究 [J]. 情報(bào)學(xué)報(bào), 2016, 35(3): 237-45.
[2] 郭華東, 王力哲, 陳方, 等. 科學(xué)大數(shù)據(jù)與數(shù)字地球 [J]. 科學(xué)通報(bào), 2014 (12): 1047-1054.
[3] What is digital curation [EB/OL]. [2017-04-10]. http://www.dcc.ac.uk/digital-curation/what-digital-curation.
[4] BEAGRIE N, POTHEN P. Digital curation: digital archives, libraries and e-Science seminar [EB/OL]. [2017-04-10].http://www.ariadne.ac.uk/issue30/digital-curation/.
[5] CUNNINGHAM A. Digital curation/digital archiving: a view from the National Archives of Australia [J]. The American archivist, 2008, 71(2): 530-573.
[6] MURAKAMI Y. Metal fatigue: effects of small defects and nonmetallic inclusions [M]. Amsterdam: Elsevier, 2002.
[7] LEE C A, TIBBO H R, SCHAEFER J C. DigCCurr: Building an International Digital Curation Curriculum & the Carolina Digital Curation Fellowship Program[EB/OL]. [2017-04-10]. http://chinesesites.library.ingentaconnect.com/content/ist/ac/2007/00002007/00000001/art00025.
[8] LEE C A, TIBBO H R, SCHAEFER J C. Defining what digital curators do and what they need to know: the DigCCurr project[EB/OL]. [2017-04-10]. http://dl.acm.org/citation.cfm?id=1255183.
[9] Shah C, Marchionini G. Capturing relevant information for digital curation[EB/OL]. [2017-04-10]. https://ils.unc.edu/vidarch/Shah-JCDL2007poster.pdf.
[10] SHAH C, MARCHIONINI G. ContextMiner: A tool for digital library curators[EB/OL]. [2017-04-10]. https://ils.unc.edu/vidarch/Shah-JCDL2007demo.pdf.
[11] BUNEMAN P, CHENEY J, TAN W C, et al. Curated databases[EB/OL]. [2017-04-10]. http://dl.acm.org/citation.cfm?id=1376918.
[12] BUNEMAN P. The Two Cultures of Digital Curation[EB/OL]. [2017-04-10]. http://www.inf.ed.ac.uk/teaching/courses/ad/lectures04/buneman.pdf.
[13] RUSBRIDGE C, BURNHILL P, ROSS S, et al. The digital curation centre: a vision for digital curation[EB/OL]. [2017-04-10]. http://ieeexplore.ieee.org/abstract/document/1612461/.
[14] MCGINLEY M. The legal environment of digital curation–a question of balance for the digital librarian[EB/OL]. [2017-04-10]. https://link.springer.com/chapter/ 10.1007%2F978-3-540-74851-9_62?LI=true.
[15] WITT M. Institutional repositories and research data curation in a distributed environment [J]. Library trends, 2008, 57(2): 191-201.
[16] ELTABAKH M Y, OUZZANI M, AREF W G, et al. Managing biological data using bdbms[EB/OL]. [2017-04-10]. http://ieeexplore.ieee.org/abstract/document/ 4497631/.
[17] BORGMAN C L. The conundrum of sharing research data[J]. Journal of the American Society for Information Science and Technology, 2012, 63(6): 1059-1078.
[18] BORGMAN C L, WALLIS J C, ENYEDY N. Little science confronts the data deluge: habitat ecology, embedded sensor networks, and digital libraries [J]. International journal on digital dibraries, 2007, 7(1/2): 17-30.
[19] TENOPIR C, ALLARD S, DOUGLASS K, et al. Data sharing by scientists: practices and perceptions [J]. PloS one, 2011, 6(6): e21101.
[20] CRAGIN M H, PALMER C L, CARLSON J R, et al. Data sharing, small science and institutional repositories[J]. Philosophical transactions of the Royal Society of London A: mathematical, physical and engineering sciences, 2010, 368(1926): 4023-4038.
[21] COSTELLO M J. Motivating online publication of data [J]. BioScience, 2009, 59(5): 418-427.
[22] DOWNS R R, CHEN R S. Designing submission and workflow services for preserving interdisciplinary scientific data[J]. Earth science informatics, 2010, 3(1/2): 101-110.
[23] LAGOZE C, PAYETTE S, SHIN E, et al. Fedora: an architecture for complex objects and their relationships[J]. International journal on digital libraries, 2006, 6(2): 124-138.
[24] HEDGES M, HASAN A, BLANKE T. Curation and preservation of research data in an iRODS data grid [EB/OL]. [2017-04-10]. http://ieeexplore.ieee.org/abstract/document/4426919/.
[25] LYON L. Dealing with data: roles, rights, responsibilities and relationships. consultancy report[EB/OL]. [2017-04-10]. http://opus.bath.ac.uk/412/.
[26] BRANDT D S. Librarians as partners in e-research Purdue University Libraries promote collaboration[J]. College & research libraries news, 2007, 68(6): 365-396.
[27] LAGE K, LOSOFF B, MANESS J. Receptivity to library involvement in scientific data curation: a case study at the University of Colorado Boulder[J]. portal: libraries and the academy, 2011, 11(4): 915-937.
[28] BRAZMA A, HINGAMP P, QUACKENBUSH J, et al. Minimum information about a microarray experiment (MIAME)—toward standards for microarray data[J]. Nature genetics, 2001, 29(4): 365-371.
[29] BALL C A, SHERLOCK G, PARKINSON H, et al. Standards for microarray data[J]. Science, 2002, 298(5593): 539-539.
[30] SANSONE S-A, ROCCA-SERRA P, FIELD D, et al. Toward interoperable bioscience data[J]. Nature genetics, 2012, 44(2): 121-126.
[31] HOWE D, COSTANZO M, FEY P, et al. Big data: the future of biocuration [J]. Nature, 2008, 455(7209): 47-50.
[32] GOOD B M, CLARKE E L, LOGUERCIO S, et al. Building a biomedical semantic network in Wikipedia with Semantic Wiki Links[J]. Database, 2012, 2012: bar060.
[33] ASHBURNER M, BALL C A, BLAKE J A, et al. Gene Ontology: tool for the unification of biology [J]. Nature genetics, 2000, 25(1): 25-34.
[34] APWEILER R, BAIROCH A, WU C H, et al. UniProt: the universal protein knowledgebase [J]. Nucleic acids research, 2004, 32(S1): D115-D119.
[35] BAHL A, BRUNK B, CRABTREE J, et al. PlasmoDB: the Plasmodium genome resource. a database integrating experimental and computational data [J]. Nucleic acids research, 2003, 31(1): 212-215.
[36] GOERTSCHES R H, HECKER M, KOCZAN D, et al. Long-term genome-wide blood RNA expression profiles yield novel molecular response candidates for IFN-β-1b treatment in relapsing remitting MS [J]. Pharmacogenomics, 2010, 11(2): 147-161.
[37] 周喜斌, 韓文靜, 陳晶,等. 幾種 QSAR 建模方法在化學(xué)中的應(yīng)用與研究進(jìn)展 [J]. 計(jì)算機(jī)與應(yīng)用化學(xué), 2011, 28(6): 761-765.
[38] FOURCHES D, MURATOV E, TROPSHA A. Trust, but verify: on the importance of chemical structure curation in cheminformatics and QSAR modeling research [J]. Journal of chemical information and modeling, 2010, 50(7): 1189-1204.
[39] TROPSHA A. Best practices for QSAR model development, validation, and exploitation [J]. Molecular informatics, 2010, 29(6/7): 476-488.
[40] FU X, WOJAK A, NEAGU D, et al. Data governance in predictive toxicology: a review[J]. Journal of cheminformatics, 2011, 3(1): 24.
[41] WILLIAMS A J, EKINS S. A quality alert and call for improved curation of public chemistry databases [J]. Drug discovery today, 2011, 16(17): 747-750.
[42] SCHENA M. DNA microarrays: a practical approach[M]. Oxford:Oxford University Press, 1999.
[43] TONG W, CAO X, HARRIS S, et al. ArrayTrack--supporting toxicogenomic research at the US Food and Drug Administration National Center for Toxicological Research [J]. Environmental health perspectives, 2003, 111(15): 1819.
[44] PRYOR G, DONNELLY M. Skilling up to do data: whose role, whose responsibility, whose career? [J]. International journal of digital curation, 2009, 4(2): 158-170.
[45] TIBBO H R. Placing the horse before the cart: conceptual and technical dimensions of digital curation [J]. Historical social research, 2012,37(3):187-200.
[46] LYON L. The informatics transform: re-engineering libraries for the data decade [J]. International journal of digital curation, 2012, 7(1): 126-138.
[47] HSWE P. Data management services in libraries [EB/OL]. [2017-04-10]. http://pubs.acs.org/doi/pdf/10.1021/bk-2012-1110.ch007.
[48] CHOUDHURY G S. Case study in data curation at Johns Hopkins University [J]. Library trends, 2008, 57(2): 211-220.
[49] DELSERONE L M. At the watershed: preparing for research data management and stewardship at the University of Minnesota Libraries [J]. Library trends, 2008, 57(2): 202-210.
Research on Mapping the Knowledge Domain of Digital Curation
——A Bibliometric Study of Web of Science (1990-2016)
Yu Chenlin1,2
1National Science Library, Chinese Academy of Sciences, Beijing 100190
2University of Chinese Academy of Sciences, Beijing 100049
Abstract: [Purpose/significance] Digital Curation (DC) is an important part of research data management in e-Science environment. By systematically combing the research progress and proposing some issues worthy of further studying, this paper aims to provide a basis and reference for national research data management research. [Method/process] Documents relevant to data curation were retrieved from Web of Science database. With CiteSpaceⅢ software based on the document co-citation analysis method, this paper drew the knowledge map of international digital curation. In terms of research-based subject distribution, research institutions, researchers and knowledge of the four dimensions, the related contents were analyzed and summarized with the content analysis method. [Result/conclusion] International digital curation research began in 2000. Now it has entered a mature period, with a specific research disciplines, institutions and groups. The researchs knowledge base is data description, integration and association, data maintenance in the scientific research process and value-added activities, data management stakeholders and service innovation models of library services.
Keywords: digital curation data management research data knowledge mapping