国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字資源保存的研究進(jìn)展、熱點(diǎn)與前沿*

2013-03-02 03:56胡澤文南京大學(xué)信息管理系南京210093中國(guó)科學(xué)技術(shù)信息研究所北京100038武夷山中國(guó)科學(xué)技術(shù)信息研究所北京100038孫建軍南京大學(xué)信息管理學(xué)院南京210093
數(shù)字圖書館論壇 2013年2期
關(guān)鍵詞:術(shù)語(yǔ)聚類文獻(xiàn)

□ 胡澤文 / 南京大學(xué)信息管理系 南京 210093 / 中國(guó)科學(xué)技術(shù)信息研究所 北京100038武夷山 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038孫建軍 / 南京大學(xué)信息管理學(xué)院 南京 210093

資源建設(shè)

數(shù)字資源保存的研究進(jìn)展、熱點(diǎn)與前沿*

□ 胡澤文 / 南京大學(xué)信息管理系 南京 210093 / 中國(guó)科學(xué)技術(shù)信息研究所 北京100038武夷山 / 中國(guó)科學(xué)技術(shù)信息研究所 北京 100038孫建軍 / 南京大學(xué)信息管理學(xué)院 南京 210093

文章首先辨析了數(shù)字資源保存的概念,介紹了數(shù)字資源保存的發(fā)展史和國(guó)內(nèi)外研究現(xiàn)狀。然后利用CitespaceII可視化分析工具和方法構(gòu)建領(lǐng)域知識(shí)基礎(chǔ)(指引文)的時(shí)間序列演化圖譜和時(shí)區(qū)演化圖譜,并結(jié)合繪制的領(lǐng)域發(fā)展趨勢(shì)圖,分析了數(shù)字資源保存的研究進(jìn)展。同時(shí)利用CitespaceII可視化分析工具和方法繪制術(shù)語(yǔ)與關(guān)鍵詞的混合共現(xiàn)網(wǎng)絡(luò)和引文共被引聚類知識(shí)圖譜,識(shí)別出數(shù)字資源保存的研究熱點(diǎn)①研究前沿是近幾年剛興起的,具有前瞻性、先導(dǎo)性和探索性的研究領(lǐng)域或主題,而研究熱點(diǎn)是指一定時(shí)期內(nèi)大家關(guān)注比較多的,穩(wěn)定集中的研究領(lǐng)域或主題,兩者有交叉。,并利用爆發(fā)詞或突變?cè)~探測(cè)方法探測(cè)數(shù)字資源保存的研究前沿。最后針對(duì)圖書情報(bào)與檔案管理學(xué)科關(guān)注最多的研究熱點(diǎn)——數(shù)字資源長(zhǎng)期保存,從研究主題、最佳實(shí)踐、保存周期、保存技術(shù)和方法、保存策略等幾個(gè)重要方面解讀數(shù)字資源長(zhǎng)期保存的研究進(jìn)展。

數(shù)字資源保存,研究進(jìn)展,研究熱點(diǎn),研究前沿,知識(shí)圖譜,數(shù)字資源長(zhǎng)期保存

1 引言

數(shù)字資源保存是圖書情報(bào)檔案學(xué)、哲學(xué)、法學(xué)、經(jīng)濟(jì)學(xué)和計(jì)算機(jī)科學(xué)交叉的一個(gè)研究領(lǐng)域,是當(dāng)代情報(bào)學(xué)發(fā)展的重要方向之一,聯(lián)合國(guó)教科文組織《全民信息計(jì)劃2008—2013 年戰(zhàn)略規(guī)劃》②http://portal.unesco.org/ci/en/files/26352/12114609343ifap_draf_strategic_plan.pdf/ifap_draf_strategic_plan.pdf.將其列為五大優(yōu)先發(fā)展領(lǐng)域之一。

隨著互聯(lián)網(wǎng)應(yīng)用的不斷深入和信息技術(shù)的快速發(fā)展,海量的數(shù)字化內(nèi)容正不斷被創(chuàng)造出來(lái),其中很多內(nèi)容非常有價(jià)值,是我們文化和知識(shí)遺產(chǎn)的一部分。然而互聯(lián)網(wǎng)應(yīng)用和信息技術(shù)的更新?lián)Q代周期越來(lái)越短,之前被創(chuàng)造的數(shù)字內(nèi)容會(huì)隨著一些過(guò)時(shí)的互聯(lián)網(wǎng)應(yīng)用和數(shù)字化技術(shù)、軟硬件環(huán)境變化或載體故障而面臨退化、荒廢和流失的風(fēng)險(xiǎn)。因此,我們需要制定數(shù)字保存計(jì)劃和政策,根據(jù)數(shù)字資源的生命周期長(zhǎng)短、類型和價(jià)值大小等,開發(fā)出一些數(shù)字資源保存技術(shù),對(duì)一些有價(jià)值的數(shù)字資源進(jìn)行保存,以備用戶將來(lái)需要時(shí)能夠方便獲取。

目前國(guó)內(nèi)外已經(jīng)出現(xiàn)一些數(shù)字資源保存方面的綜述文章。美國(guó)學(xué)者Lopez-Fitzsimmons B和英國(guó)學(xué)者Day M在2003年分別撰文闡述了數(shù)字保存和元數(shù)據(jù)的歷史、理論和實(shí)踐(2002年,4位學(xué)者:Law DG、Sill LA、Gilliland-Swetland A和Chad B也分別發(fā)表了4篇相同篇名的文章)[1,2];西班牙學(xué)者Termens, M在2009年對(duì)國(guó)際數(shù)字保存研究和發(fā)展進(jìn)行一個(gè)調(diào)查研究,文章概述了機(jī)構(gòu)知識(shí)庫(kù)、政務(wù)信息、個(gè)人檔案、航空航天工業(yè)和博物館檔案等領(lǐng)域中的數(shù)字保存應(yīng)用,重點(diǎn)論述了圖書館和檔案館中的數(shù)字保存應(yīng)用,最后總結(jié)出國(guó)際研究的主線包括集成化保存系統(tǒng)構(gòu)建工具的集成[3]。武漢大學(xué)信息管理學(xué)院學(xué)者劉家真于2006在《中國(guó)圖書館學(xué)報(bào)》上發(fā)表一篇文章對(duì)我國(guó)數(shù)字資源保存的現(xiàn)狀進(jìn)行一個(gè)調(diào)查研究[4]。中國(guó)科學(xué)院國(guó)家科學(xué)圖書館的吳振新、劉建華、李丹和向菁等學(xué)者在2007年和2009年分別對(duì)2007年和2008舉辦的數(shù)字資源長(zhǎng)期保存國(guó)際會(huì)議(iPRES)進(jìn)行綜述,介紹了數(shù)字資源長(zhǎng)期保存的當(dāng)前進(jìn)展、最佳實(shí)踐、保存工具及方法[5,6]。不過(guò)目前筆者還未發(fā)現(xiàn)有人利用可視化知識(shí)圖譜分析方法對(duì)數(shù)字資源保存相關(guān)文獻(xiàn)進(jìn)行全面系統(tǒng)性分析。

2 數(shù)字資源保存的概念及不同觀點(diǎn)

數(shù)字資源是以電子數(shù)據(jù)的形式將文字、圖像、圖形、聲音、動(dòng)畫等多種形式的信息存儲(chǔ)在光磁等載體的數(shù)字編碼信息,是人們通過(guò)計(jì)算機(jī)可以利用的信息的總和[7]。數(shù)字資源包括數(shù)字化資源和原生數(shù)字資源:數(shù)字化資源是指?jìng)鹘y(tǒng)非數(shù)字化信息源如印刷型信息源、縮微型信息源和聲像型信息源等通過(guò)掃描或其他數(shù)字化手段轉(zhuǎn)化成相似等價(jià)物的數(shù)字對(duì)象;原生數(shù)字資源指原本不存在,用戶直接創(chuàng)造出來(lái)的數(shù)字資源,如直接的數(shù)字文本、數(shù)字?jǐn)z像或數(shù)字錄音文件等,這些資源通常沒有相似等價(jià)物,與那些原物經(jīng)數(shù)字化轉(zhuǎn)換形成的相似等價(jià)物完全不同[8,9]。常見的電子圖書、電子期刊、網(wǎng)頁(yè)、博客、科學(xué)數(shù)據(jù)、數(shù)據(jù)集、在線數(shù)據(jù)庫(kù)、數(shù)字教育資源如教學(xué)課件和教學(xué)視聽資料、數(shù)字圖片、醫(yī)學(xué)圖像、數(shù)字遺產(chǎn)、數(shù)字全息圖像、數(shù)字化X射線或放射線圖像、數(shù)字證據(jù)、數(shù)字音頻和視頻、數(shù)字動(dòng)畫、數(shù)字媒體、數(shù)字圖表、數(shù)字檔案和數(shù)字化出版物(如數(shù)字化圖書、期刊和報(bào)紙)等都屬于數(shù)字資源。

數(shù)字資源保存是為了將來(lái)能夠使用已創(chuàng)造或正創(chuàng)造的一些重要且富有價(jià)值的數(shù)字資源,而通過(guò)數(shù)字保存策略、措施、技術(shù)、方法和設(shè)備將其存儲(chǔ)起來(lái),以備將來(lái)之需。數(shù)字保存聯(lián)盟(Digital Preservation Coalition)認(rèn)為數(shù)字資源保存是為了保證數(shù)字資源在需要時(shí)能夠被持續(xù)獲取而進(jìn)行的一系列管理活動(dòng)如資源規(guī)劃、資源配置和技術(shù)使用等。這些數(shù)字資源可能是一個(gè)組織日常商業(yè)運(yùn)營(yíng)中所創(chuàng)造的記錄,為特殊目的而創(chuàng)造的原生數(shù)字資源如教學(xué)資源,或數(shù)字化工程的產(chǎn)品等。數(shù)字保存聯(lián)盟將數(shù)字資源保存分為長(zhǎng)期保存、中期保存和短期保存。長(zhǎng)期保存是指人們能夠永久而持續(xù)地獲取所需數(shù)字資源或至少數(shù)字資源中所包含的信息。中期保存是指人們?cè)诩夹g(shù)更新?lián)Q代之后的一段時(shí)期內(nèi)仍能繼續(xù)獲取所需的數(shù)字資源。短期保存是指在數(shù)字資源是否使用能夠被預(yù)測(cè)的時(shí)期周期內(nèi),保證人們獲取到數(shù)字資源,該周期不會(huì)延伸到可預(yù)測(cè)的使用周期之后太久和數(shù)字資源因技術(shù)變化而變得不可獲取之后。美國(guó)圖書館聯(lián)盟(ALA,American Library Association)將數(shù)字資源保存定義為:隨著時(shí)間的流逝,為確保人們獲取原生的或數(shù)字化的數(shù)字內(nèi)容而采取的保存政策、策略和行動(dòng)方案,其目標(biāo)是隨著時(shí)間的流逝,能確保已認(rèn)證數(shù)字內(nèi)容得到最真實(shí)和最精確的翻譯和展現(xiàn)。其中數(shù)字保存政策指一個(gè)組織為未來(lái)使用而保存數(shù)字內(nèi)容的承諾,詳細(xì)說(shuō)明將被保存內(nèi)容的文件格式和保存級(jí)別,確保保存的數(shù)字信息能與數(shù)字信息標(biāo)準(zhǔn)一致;數(shù)字保存策略和行動(dòng)方案主要指數(shù)字內(nèi)容創(chuàng)造、整合和維護(hù)的策略和方案,如數(shù)字內(nèi)容創(chuàng)造包括保存技術(shù)規(guī)范的清晰而完整的說(shuō)明、元數(shù)據(jù)的結(jié)構(gòu)化描述和管理、主文件的創(chuàng)造和過(guò)程的詳細(xì)質(zhì)量控制等;數(shù)字內(nèi)容整合包括所有政策、策略和程序的文檔化,所有數(shù)字對(duì)象起源和變化歷史的記錄,認(rèn)證機(jī)制等;內(nèi)容維護(hù)包括強(qiáng)健的計(jì)算和網(wǎng)絡(luò)基礎(chǔ)設(shè)施、多個(gè)站點(diǎn)文件的存儲(chǔ)和同步、文件的持續(xù)監(jiān)測(cè)和管理、災(zāi)難阻止和恢復(fù)計(jì)劃的創(chuàng)造和測(cè)試、政策和程序的定期評(píng)估和更新等[10]。歐洲數(shù)字保存機(jī)構(gòu)(DPE,Digital Preservation Europe)認(rèn)為數(shù)字資源保存是為確保數(shù)字對(duì)象在將來(lái)能夠被查找、翻譯、使用和理解而采取的一系列行動(dòng),包括管理對(duì)象名稱和地址、更新存儲(chǔ)媒介、數(shù)字內(nèi)容存檔和跟蹤硬件和軟件變化,以確保數(shù)字對(duì)象在名稱和地址、存儲(chǔ)媒介及軟硬件發(fā)生改變時(shí)仍能被打開和理解[11]。國(guó)際空間數(shù)據(jù)咨詢委員會(huì)(CCSDS,Consultative Committee for Space Data Systems)認(rèn)為數(shù)字保存是在很長(zhǎng)的時(shí)期內(nèi),以一個(gè)正確的和獨(dú)立可理解的格式保存和維護(hù)信息的行為[12]。英國(guó)研究委員會(huì)(Research Councils UK)認(rèn)為數(shù)字保存是關(guān)于數(shù)字或電子對(duì)象維護(hù)和策劃(包括選擇、保存、維護(hù)、收集和存檔)的所有活動(dòng)[11]。從數(shù)字保存國(guó)際組織對(duì)數(shù)字資源保存概念的定義可以看出,數(shù)字資源保存概念具有以下特征:①可讀性,即可以查找、翻譯、使用和理解等;②持久性,即保存時(shí)間的永久性;③真實(shí)性,內(nèi)容完整與可靠;④動(dòng)態(tài)性,保存策略隨信息技術(shù)更新而發(fā)展變化;④準(zhǔn)確性,已認(rèn)證的數(shù)字內(nèi)容能夠得到最精確的翻譯和展示;⑤功能性,保存的數(shù)字內(nèi)容應(yīng)不失其功能性,能夠滿足用戶的功能性需求;⑥集成性,數(shù)字資源保存需要綜合考慮保存的政策、策略、技術(shù)、設(shè)備、方法、措施、手段和一系列保存管理活動(dòng)和行動(dòng)。我們認(rèn)為數(shù)字資源保存是保存人類原生或數(shù)字化知識(shí)和文化遺產(chǎn)的活動(dòng),主要包括制定保存計(jì)劃、政策、策略和方案;選擇保存內(nèi)容和元數(shù)據(jù)標(biāo)準(zhǔn);建立保存的信息基礎(chǔ)設(shè)施;提出保存方法、措施和手段;開發(fā)保存設(shè)備和技術(shù);設(shè)定保存周期;執(zhí)行保存計(jì)劃和方案;實(shí)施保存項(xiàng)目;評(píng)估保存成本和效益;等等。

3 數(shù)字資源保存的發(fā)展史,研究現(xiàn)狀

國(guó)外數(shù)字資源保存研究最早起源于英國(guó)學(xué)者羅德?唐納德遜(Lord Donaldson)在1977年發(fā)表的一篇名為“信息傳播和保存(The dissemination and preservation of information)”的文章[13]。不過(guò)美國(guó)康奈爾大學(xué)圖書館副館長(zhǎng)安妮?R?肯尼雅(Anne R. Kenney)和林尼?K?皮爾遜尤尼(Lynne K. Personius)在1991年“美國(guó)情報(bào)學(xué)協(xié)會(huì)中期會(huì)議:多媒體研究”上發(fā)表一篇名為“數(shù)字保存――一項(xiàng)聯(lián)合研究(Digital Preservation—Joint Study)”的文章[14],才正式拉開了國(guó)外數(shù)字保存研究的序幕。至今(1992-2011),國(guó)外學(xué)者已經(jīng)發(fā)表了1,500多篇數(shù)字保存方面的論文③數(shù)據(jù)庫(kù):SCI Web of Science; 檢索式: TI=(digital OR information) AND TI=( preservation OR conservation OR storage)。研究主題涉及:數(shù)字保存的策略、模型、實(shí)現(xiàn)框架、機(jī)制、方法、實(shí)踐和應(yīng)用研究,數(shù)字保存項(xiàng)目成本效益的測(cè)度和評(píng)估,各國(guó)的數(shù)字保存項(xiàng)目研究,長(zhǎng)期或大規(guī)模數(shù)字保存研究,數(shù)字保存的協(xié)同研究環(huán)境,分布式數(shù)字保存的協(xié)作途徑,科學(xué)數(shù)據(jù)的數(shù)字保存,科學(xué)社團(tuán)的數(shù)字保存需要研究等。論文中的大部分發(fā)表在計(jì)算機(jī)和圖書情報(bào)檔案方面的國(guó)際期刊如“Lecture Notes in Computer Science(LNCS)”、“Library Trends”、“Library Collections, Acquisitions, and Technical Services”、“Journal of Documentation”、“American Society for Information Science and Technology”和“International Journal of Digital Curation”等,不過(guò)專注于數(shù)字保存主題的專業(yè)期刊較少,目前僅見“International Journal of Digital Curation”一種。除了發(fā)表大量論文外,國(guó)外學(xué)者還出版了大量相關(guān)論著,如澳大利亞學(xué)者羅斯?哈維(Ross Harvey)在2010年出版的《數(shù)字館藏管理:如何做的手冊(cè)》(Digital Curation: A How-To-Do-It Manual),英國(guó)學(xué)者瑪里琳?迪安(Marilyn Deegan)和西蒙?蒂安(Simon Tanner)在2006年出版的《數(shù)字保存》(Digital Preservation),巴里?瑪虹(Barry Mahon)在2003年出版的《數(shù)字保存》(Digital Preservation)等,夯實(shí)了數(shù)字保存研究的基礎(chǔ)。另外,國(guó)外有很多國(guó)際性組織,如數(shù)字保存聯(lián)盟(DPC)、歐洲數(shù)字保存機(jī)構(gòu)(DPE)、數(shù)字保存中心(PrestoCentre)、國(guó)際互聯(lián)網(wǎng)保存聯(lián)盟(IIPC,International Internet Preservation Consortium)、歐洲保存與獲取委員會(huì)(ECPA,European Commission on Preservation and Access)、圖書館聯(lián)盟和機(jī)構(gòu)的國(guó)際同盟(IFLA,International Federation of Library Associations and Institutions)、聯(lián)合國(guó)教科文組織、國(guó)際空間數(shù)據(jù)咨詢委員會(huì)、美國(guó)國(guó)會(huì)圖書館、各國(guó)圖書館和檔案館及它們之間的聯(lián)盟等經(jīng)常關(guān)注、支持和開展數(shù)字保存方面的研究。這些國(guó)際性組織舉辦了很多數(shù)字保存方面的會(huì)議,如美國(guó)國(guó)會(huì)圖書館在2007-2011年舉辦的系列數(shù)字保存方面的會(huì)議,如2009年舉辦的“Designing Storage Architectures for Digital Preservation”和2011年舉辦的“Designing Storage Architectures for Preservation Collections”;聯(lián)合國(guó)教科文組織發(fā)起的數(shù)字保存方面的系列會(huì)議,如2011舉辦的“International conference on preservation of digital information”和2012年將舉辦的“The Memory of the World in the Digital age: Digitization and Preservation”;2011年在德國(guó)舉辦的“數(shù)字保存峰會(huì)(Digital Preservation Summit)”;自2004年已舉辦8屆的“數(shù)字對(duì)象保存國(guó)際會(huì)議(International Conference on Preservation of Digital Objects)”等。極大地推動(dòng)了國(guó)外數(shù)字保存的發(fā)展。

國(guó)內(nèi)數(shù)字保存研究起源于1997年南京大學(xué)信息管理學(xué)院呂斌發(fā)表的“數(shù)字信息如何保存?——電子信息時(shí)代的新挑戰(zhàn)”文章。武漢大學(xué)信息管理學(xué)院劉家真和司莉在1999分別發(fā)表的“保護(hù)數(shù)字信息的長(zhǎng)期存取策略”和“數(shù)字資源保存面臨的挑戰(zhàn)與對(duì)策”兩篇文章,正式拉開了數(shù)字保存研究的序幕。至今(1997-2011),國(guó)內(nèi)學(xué)者發(fā)表了390多篇中文論文,其中大部分論文發(fā)表在圖書情報(bào)檔案方面的期刊和一些大學(xué)學(xué)報(bào)。論文中的大部研究主題與國(guó)外類似。在書籍出版方面,國(guó)內(nèi)數(shù)字保存方面的書籍相對(duì)較少,主要有兩本:河北大學(xué)管理學(xué)院宛玲在2006年出版的《數(shù)字資源長(zhǎng)期保存的管理機(jī)制》和北京聯(lián)合大學(xué)謝永憲在2011年出版的《數(shù)字資源長(zhǎng)期保存研究》。另外,國(guó)內(nèi)舉辦的數(shù)字保存方面的會(huì)議相對(duì)較少,主要有2004和2007年在北京舉辦的“數(shù)字對(duì)象保存國(guó)際會(huì)議”和2004年在北京舉辦的“中歐數(shù)字資源長(zhǎng)期保存國(guó)際研討會(huì)”。

4 數(shù)字資源保存的研究進(jìn)展分析與研究熱點(diǎn)探測(cè)

主要利用陳超美開發(fā)的CitespaceII可視化軟件及其提出的知識(shí)圖譜繪制方法[16-18]來(lái)分析數(shù)字資源保存的研究進(jìn)展和探測(cè)它的研究熱點(diǎn)與前沿。

4.1 數(shù)字資源保存的研究進(jìn)展分析

通過(guò)構(gòu)建學(xué)科知識(shí)基礎(chǔ)(指引文)隨時(shí)間推移不斷突變和演化的知識(shí)圖譜和繪制學(xué)科發(fā)展趨勢(shì)圖,來(lái)分析數(shù)字資源保存的研究進(jìn)展。

知識(shí)圖譜的生成方法:首先用檢索式“TI=(digital OR information) AND TI=( preservation OR conservation OR storage)”于2012年5月24日檢索Web of Science(包括SCIEXPANDED、SSCI、A&HCI、CPCI-S和CPCI-SSH索引數(shù)據(jù)庫(kù)),得到1992年至2011年間的1,562篇文獻(xiàn),共52,632條引文數(shù)據(jù)(其中1,556篇文獻(xiàn),共52,558條引文數(shù)據(jù)是有效的)。然后設(shè)置軟件的運(yùn)行參數(shù),如表1所示。

表1 軟件運(yùn)行的參數(shù)名稱及參數(shù)值

最后運(yùn)行程序,執(zhí)行尋找聚類(Find Cluster)和施引文獻(xiàn)標(biāo)題術(shù)語(yǔ)標(biāo)識(shí)聚類主題兩大功能,獲得引文的共被引聚類知識(shí)圖譜,分別采用時(shí)間序列(Time line)和時(shí)區(qū)(Time zone)的視圖布局,繪制出引文共被引聚類的時(shí)間演化圖譜和時(shí)區(qū)演化圖譜,如圖1和圖2所示。知識(shí)圖譜的模塊化(Modularity)系數(shù)接近0.88,說(shuō)明圖譜的網(wǎng)絡(luò)結(jié)構(gòu)非常好,形成了相互獨(dú)立、邊界清晰的聚類,聚類內(nèi)部連接比較緊密。圖譜的Mean Silhouette系數(shù)約為0.93,說(shuō)明聚類視圖比較可靠、清晰和直觀,易于解讀[19,20]。圖譜中紅色圓圈表示爆發(fā)文獻(xiàn)(指被引突增的文獻(xiàn)),圓圈大小表示被引頻次的高低,文獻(xiàn)節(jié)點(diǎn)之間的連線表示兩個(gè)文獻(xiàn)之間的共被引關(guān)系,線的粗細(xì)表示兩個(gè)文獻(xiàn)之間的共被引頻次或強(qiáng)度,線的長(zhǎng)度表示兩個(gè)文獻(xiàn)共被引的時(shí)間跨度。藍(lán)色字體是基于TF*IDF算法從聚類成員的施引文獻(xiàn)標(biāo)題術(shù)語(yǔ)中獲得的聚類標(biāo)簽。

從圖1和圖2,我們發(fā)現(xiàn):①數(shù)字資源保存領(lǐng)域平均每篇文獻(xiàn)約有21篇引文,說(shuō)明國(guó)際上該領(lǐng)域的研究已經(jīng)非常深入,有足夠多的文獻(xiàn)可供引用。②知識(shí)圖譜中出現(xiàn)549個(gè)被引頻次高于1的引文(平均被引頻次約為3次),1,045個(gè)共被引鏈接,形成了90個(gè)相互獨(dú)立、邊界清晰的共被引聚類(成員5個(gè)以上的聚類有42個(gè)),其中316篇引文和45個(gè)共被引聚類集中于1992-2005年間,2006到2010年間,也出現(xiàn)了一些被引頻次大于1的引文(42篇)和共被引聚類(4個(gè)),說(shuō)明1992年至2010年間,數(shù)字資源保存研究領(lǐng)域已經(jīng)形成一些穩(wěn)定集中的研究熱點(diǎn)。③隨著時(shí)間的推移,數(shù)字資源保存研究領(lǐng)域的一些研究主題得到更大程度的關(guān)注,如分別在1994、1997和2002年出現(xiàn)3篇被引突增(圖中紅色圓圈所示)的文獻(xiàn)。被引突增的文獻(xiàn)信息如表2所示。

圖1 引文共被引聚類的時(shí)間演化圖譜(在表1所設(shè)置的參數(shù)條件下,有1,194篇有效施引文獻(xiàn),共24,763條有效引文,無(wú)效引文有74條,融合網(wǎng)絡(luò)的節(jié)點(diǎn)有549個(gè),鏈接1,045個(gè))

圖2 引文共被引聚類的時(shí)區(qū)(Time Zone)演化圖譜

表2 引文的篇名、最初被引年代、突增強(qiáng)度(Strength)、被引突增的起始和結(jié)束年代、時(shí)間條

其中前2篇文獻(xiàn)的主題是全息存儲(chǔ)[21,22],它們?cè)?995至2003年期間被引突增,被此期間發(fā)表的31篇數(shù)字資源保存文獻(xiàn)引用了31次,施引文獻(xiàn)的主題也是全息存儲(chǔ),研究者大部分屬于物理學(xué)、電子學(xué)、材料科學(xué)、信息科學(xué)和光學(xué)學(xué)科。第3篇文獻(xiàn)的主題是“開放文檔信息系統(tǒng)參考模型”[12],被2008至2011年間發(fā)表的12篇數(shù)字資源保存文獻(xiàn)引用了12次,施引文獻(xiàn)的主題大部分是數(shù)字長(zhǎng)期保存方面的,涉及數(shù)字長(zhǎng)期保存模型[23]、數(shù)字保存對(duì)象的描述語(yǔ)言(如XML)[24]、數(shù)字長(zhǎng)期保存實(shí)踐[25](相同篇名文章有6篇)和新興保存標(biāo)準(zhǔn)[26]、數(shù)字長(zhǎng)期保存工具和服務(wù)[27]等。研究者大部分屬于圖書情報(bào)檔案管理學(xué)科。從爆發(fā)文獻(xiàn)主題及其時(shí)間演化來(lái)看,全息存儲(chǔ)和數(shù)字資源長(zhǎng)期保存是數(shù)字資源保存的研究熱點(diǎn),其中數(shù)字資源長(zhǎng)期保存是自2002年開始,剛興起的研究前沿。

為從數(shù)量和質(zhì)量上反映數(shù)字資源保存領(lǐng)域的發(fā)展趨勢(shì),我們繪制了數(shù)字資源保存研究文獻(xiàn)在1992-2011年間的數(shù)量分布圖,并將圖1或圖2所示中心度較高的關(guān)鍵節(jié)點(diǎn)文獻(xiàn)和爆發(fā)文獻(xiàn)按時(shí)間標(biāo)示在數(shù)量分布圖中,從而獲得質(zhì)與量相結(jié)合的學(xué)科發(fā)展趨勢(shì)圖,如圖3所示。這些關(guān)鍵節(jié)點(diǎn)文獻(xiàn)或爆發(fā)文獻(xiàn)能夠作為發(fā)展階段劃分的重要標(biāo)識(shí),可視為一個(gè)階段內(nèi)學(xué)科知識(shí)發(fā)展的小突破[28]。

圖3 質(zhì)與量相結(jié)合的數(shù)字資源保存發(fā)展趨勢(shì)圖

從圖3可以看出,在1993年、1994年、1997年、2000年和2002年分別出現(xiàn)一篇中心度較高或被引突增的文獻(xiàn)。1993年、1994年、1997年和2000年出現(xiàn)的4篇文獻(xiàn)主要關(guān)于全息存儲(chǔ)研究,在這4篇文獻(xiàn)的刺激和推動(dòng)下,數(shù)字資源保存研究不斷向前發(fā)展,分別在1994年、1997年和2001年出現(xiàn)三次發(fā)展高峰。2001年之后,經(jīng)過(guò)一個(gè)小幅度下滑之后,在2002年,空間數(shù)據(jù)系統(tǒng)咨詢委員會(huì)發(fā)布了名為“開放文檔信息系統(tǒng)參考模型”的藍(lán)皮書[12],奠定了數(shù)字資源長(zhǎng)期保存研究的基礎(chǔ),促使“數(shù)字資源長(zhǎng)期保存”成為2002年以來(lái)新興的研究前沿和熱點(diǎn)(比如,2002年至2011年期間,國(guó)外學(xué)者發(fā)表了63篇數(shù)字資源長(zhǎng)期保存方面的文獻(xiàn),約占1992年至2011年期間所有數(shù)字資源長(zhǎng)期保存文獻(xiàn)數(shù)量[91篇]的69%⑥數(shù)據(jù)庫(kù)=SCI-EXPANDED, SSCI, A&HCI, CPCI-S, CPCI-SSH, BKCI-S, BKCI-SSH, CCR-EXPANDED;檢索式:TI=(digital OR information) AND TI=(“l(fā)ong term” OR "long-term" OR "long time" OR "long periods" ) AND TI=( preservation OR conservation OR storage OR Memory))。在數(shù)字資源長(zhǎng)期保存研究主題的加入和推動(dòng)下,數(shù)字資源保存在2005年達(dá)到發(fā)展高峰后,然后一直保持高速平衡的發(fā)展趨勢(shì)。另外,通過(guò)查看數(shù)字資源保存研究文獻(xiàn)的標(biāo)題和摘要,我們發(fā)現(xiàn)數(shù)字資源保存研究正從2003年之前注重保存材料、設(shè)備、工藝和技術(shù)的理工科研究范疇(研究重點(diǎn)是全息存儲(chǔ)和光存儲(chǔ))向同時(shí)注重理工科研究范疇和數(shù)字長(zhǎng)期保存規(guī)劃、策略、實(shí)踐、方法和模型的人文學(xué)科研究范疇方向發(fā)展。

4.2 數(shù)字資源保存的研究熱點(diǎn)與前沿探測(cè)

首先繪制術(shù)語(yǔ)與關(guān)鍵詞的共現(xiàn)網(wǎng)絡(luò)和引文共被引聚類知識(shí)圖譜,然后通過(guò)人工考察共現(xiàn)網(wǎng)絡(luò)中出現(xiàn)頻次或中心度較高的術(shù)語(yǔ)或關(guān)鍵詞,以及共被引聚類網(wǎng)絡(luò)中各個(gè)聚類的成員和施引文獻(xiàn)數(shù)量、Top主題術(shù)語(yǔ)及主要施引文獻(xiàn)信息,概括出數(shù)字資源保存領(lǐng)域的研究熱點(diǎn)及各熱點(diǎn)中的經(jīng)典文獻(xiàn),并利用爆發(fā)詞或突變?cè)~探測(cè)方法探測(cè)該領(lǐng)域的研究前沿。

4.2.1 基于術(shù)語(yǔ)和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)的研究熱點(diǎn)探測(cè)

術(shù)語(yǔ)與關(guān)鍵詞共現(xiàn)的知識(shí)圖譜如圖4所示。圖中所示的術(shù)語(yǔ)來(lái)自施引文獻(xiàn)標(biāo)題和摘要分詞所得的名詞短語(yǔ),而關(guān)鍵詞來(lái)自施引文獻(xiàn)的主題詞和標(biāo)引詞。圖中的正方形節(jié)點(diǎn)表示術(shù)語(yǔ),而圓形節(jié)點(diǎn)表示關(guān)鍵詞,節(jié)點(diǎn)的大小表示術(shù)語(yǔ)或關(guān)鍵詞在網(wǎng)絡(luò)中的中心度大?。ü?jié)點(diǎn)越大,表明節(jié)點(diǎn)是網(wǎng)絡(luò)中的關(guān)鍵節(jié)點(diǎn)或核心樞紐,極有可能是學(xué)科的研究熱點(diǎn)),節(jié)點(diǎn)之間的連線表示節(jié)點(diǎn)之間的共現(xiàn)關(guān)系,連線的粗細(xì)表示節(jié)點(diǎn)之間共現(xiàn)頻次⑦共現(xiàn)頻次是指一個(gè)節(jié)點(diǎn)與其他所有節(jié)點(diǎn)共現(xiàn)的總頻次。的高低。

從圖4可以看出,數(shù)字保存系統(tǒng)(Systems)、數(shù)字圖書館(Digital Libraries)、數(shù)字保存模型(Model)和數(shù)字長(zhǎng)期保存(Longterm preservation)4個(gè)術(shù)語(yǔ)的中介中心度⑧中介中心度(Between centrality)是指一個(gè)節(jié)點(diǎn)在連接網(wǎng)絡(luò)中其他節(jié)點(diǎn)的路徑中,處于路徑中間的程度,中介中心度越高,表明節(jié)點(diǎn)越處于網(wǎng)絡(luò)的核心樞紐位置,是網(wǎng)絡(luò)中的掌門人、關(guān)鍵文獻(xiàn)或核心主題。具體參見文獻(xiàn)[29,30]。比較高,是數(shù)字資源保存研究領(lǐng)域的研究熱點(diǎn)。

通過(guò)對(duì)圖4及運(yùn)行結(jié)果數(shù)據(jù)進(jìn)行歸納總結(jié)和統(tǒng)計(jì)分析,總結(jié)出數(shù)字資源保存領(lǐng)域的幾個(gè)熱點(diǎn)研究主題及其名稱、出現(xiàn)年代的區(qū)間、共現(xiàn)頻次和中介中心度的總和(同主題術(shù)語(yǔ)共現(xiàn)頻次或中心度的一個(gè)匯總),如表3所示。

圖4 術(shù)語(yǔ)和關(guān)鍵詞融合的共現(xiàn)網(wǎng)絡(luò)(Top N設(shè)置為50,術(shù)語(yǔ)類型設(shè)置為名詞短語(yǔ)(Noun Phrases),網(wǎng)絡(luò)節(jié)點(diǎn)類型設(shè)置為術(shù)語(yǔ)(Term)和關(guān)鍵詞(Keyword),其他設(shè)置與表1一樣;在所設(shè)置的參數(shù)條件下,有1,555篇有效施引文獻(xiàn)參與實(shí)驗(yàn),融合網(wǎng)絡(luò)有722個(gè)節(jié)點(diǎn),1,096條連線)

表3 熱點(diǎn)研究主題的名稱、出現(xiàn)年代區(qū)間、共現(xiàn)頻次和中介中心度的總和

從表3研究主題的共現(xiàn)頻次或中介中心度總和來(lái)看,數(shù)字全息存儲(chǔ)、長(zhǎng)期保存、系統(tǒng)、光存儲(chǔ)、數(shù)字圖書館、數(shù)字圖像存儲(chǔ)、數(shù)字存儲(chǔ)技術(shù)、模型、地理信息系統(tǒng)、數(shù)字存儲(chǔ)熒光體和數(shù)字存儲(chǔ)示波器是數(shù)字資源保存研究領(lǐng)域的研究熱點(diǎn)。不過(guò)從主題出現(xiàn)的年代區(qū)間來(lái)看,國(guó)家數(shù)字信息基礎(chǔ)設(shè)施、數(shù)字保存策略、數(shù)字保存計(jì)劃、數(shù)字保存行動(dòng)、數(shù)字保存項(xiàng)目、數(shù)字保存安全、數(shù)字保存方案和閃速存儲(chǔ)是數(shù)字資源保存研究領(lǐng)域中新興的研究前沿。

上述方法雖然能夠反映數(shù)字資源保存的研究熱點(diǎn),并且在一定程度上能夠看出數(shù)字資源保存的近期研究主題,不過(guò)如果不列出那些共現(xiàn)頻次或中心度總和較少的主題,就無(wú)法明確看出數(shù)字資源保存近期的研究前沿。因此我們利用J. Kleinberg和陳超美提出的爆發(fā)詞探測(cè)算法和技術(shù)[15,31]從施引文獻(xiàn)標(biāo)題和摘要分詞所得的名詞術(shù)語(yǔ)集中獲得能夠反映研究前沿的爆發(fā)詞或突變?cè)~,如表4所示。

從表4爆發(fā)詞開始爆發(fā)的時(shí)間和爆發(fā)結(jié)束的時(shí)間可以看出:① 數(shù)字存儲(chǔ)(digital-storage)術(shù)語(yǔ)在2007之前使用較多,而數(shù)字保存(digital-preservation)術(shù)語(yǔ)在2007年之后使用較多,從“數(shù)字存儲(chǔ)”術(shù)語(yǔ)到“數(shù)字保存”術(shù)語(yǔ)的轉(zhuǎn)變,反映出數(shù)字資源保存研究方向和理念的轉(zhuǎn)變;storage的對(duì)象只是普通的物體,而preservation的對(duì)象可能是人類文明遺產(chǎn)。確實(shí),聯(lián)合國(guó)教科文組織非常強(qiáng)調(diào)“數(shù)字遺產(chǎn)”概念。② 國(guó)家數(shù)字信息基礎(chǔ)設(shè)施、保存規(guī)劃、數(shù)字對(duì)象、數(shù)字圖書館和數(shù)字?jǐn)?shù)據(jù)是數(shù)字資源保存研究領(lǐng)域近幾年新興的研究前沿。

4.2.2 基于引文共被引聚類知識(shí)圖譜的研究熱點(diǎn)探測(cè)

引文共被引聚類知識(shí)圖譜的生成方法和參數(shù)配置與圖1一樣,不過(guò)在結(jié)果視圖的布局(Layout)上,我們采用聚類視圖(Cluster View),然后分別使用TF*IDF、Log似然率(LLR,Log-likelihood Ratio)和互信息(MI,Mutual Information)三種術(shù)語(yǔ)權(quán)重方法分別從各個(gè)聚類引文對(duì)應(yīng)施引文獻(xiàn)的標(biāo)題、標(biāo)引或摘要術(shù)語(yǔ)集中選擇權(quán)重最高的術(shù)語(yǔ)標(biāo)引各個(gè)聚類的主題,共得到9種聚類主題術(shù)語(yǔ)不一樣的聚類視圖。其中TF*IDF權(quán)重方法+施引文獻(xiàn)標(biāo)題術(shù)語(yǔ)組合的共被引聚類知識(shí)圖譜,如圖5所示。

從圖5可以看出,數(shù)字長(zhǎng)期保存(digital long-term preservation)、多位信息存儲(chǔ)(multibit information storage)、信息率(information rate)、數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)系統(tǒng)(digital data storage system)、數(shù)據(jù)保存對(duì)象(object)、數(shù)字保存實(shí)踐(practice)、存儲(chǔ)熒光體系統(tǒng)(storage-phoshpor system)、光學(xué)信息存儲(chǔ)(optical information storage)、空間信息保存方法(spatial information preservation method)和信息保存方法(information preservation method)是數(shù)字資源保存領(lǐng)域的研究熱點(diǎn)。

通過(guò)不同的標(biāo)引方法(三種權(quán)重方法*三種標(biāo)引術(shù)語(yǔ)來(lái)源,共9種標(biāo)引方法)標(biāo)引的聚類視圖,反映聚類主題的術(shù)語(yǔ)是不一樣的。因此,為了統(tǒng)一和綜合性地揭示數(shù)字資源保存領(lǐng)域的研究熱點(diǎn),我們首先從共被引聚類圖譜的90個(gè)聚類中選擇聚類成員和施引文獻(xiàn)數(shù)量較多、年代較新的9個(gè)聚類,然后對(duì)反映聚類主題的9種不同術(shù)語(yǔ)集進(jìn)行歸納總結(jié)和融合,得出9個(gè)聚類的編號(hào)、成員和施引文獻(xiàn)數(shù)量,聚類成員的平均年份,反映聚類主題的Top主題術(shù)語(yǔ),以及聚類的主要施引文獻(xiàn),如表5所示。

表4 爆發(fā)詞的名稱、爆發(fā)權(quán)重(weight)、爆發(fā)開始和結(jié)束的時(shí)間

圖5 TF*IDF權(quán)重方法+施引文獻(xiàn)標(biāo)題術(shù)語(yǔ)組合的共被引聚類知識(shí)圖譜(圖譜的Modularity值約0.9,Mean Silhouette值接近0.95,說(shuō)明聚類的效果非常好)

聚類編號(hào)/成員數(shù)量/施引文獻(xiàn)數(shù)量1992平均年份Top主題術(shù)語(yǔ)主要施引文獻(xiàn)41/66/87圖書情報(bào)檔案管理領(lǐng)域?qū)W者對(duì)該主題研究較多(具體參見腳注⑨)14/19/82000數(shù)字保存歷史(history)、理論(theory)、機(jī)制(mechanism)、服務(wù)(service)、未來(lái)(Future)、穩(wěn)定性(stabilization)和可持續(xù)性(Sustainability)多位信息存儲(chǔ)(multibit information storage)和基于分子的信息存儲(chǔ)(molecular-based information storage)35/18/52000存儲(chǔ)熒光體系統(tǒng)(storage-phosphor system)和放射線數(shù)字影像(radiography)48/13/91999全息數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)(holographic digital data storage)、設(shè)計(jì)(design)、誤比特率(bit-error rate)和相聯(lián)存儲(chǔ)器的全息數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)(contentaddressable holographic digital data storage)37/12/31998化學(xué)領(lǐng)域?qū)W者對(duì)該主題研究較多(Gryko DT (2000) synthesis of "porphyrin-linker-thiol" molecules with diverse linkers for studies of molecular-based information storage; Gryko DT (2000) synthesis of thiol-derivatized ferrocene-porphyrins for studies of multibit information storage)放射醫(yī)學(xué)領(lǐng)域?qū)W者對(duì)該主題研究較多(Goo JM (2000) digital chest radiography with a selenium-based flat-panel detector versus a storage phosphor system: comparison of soft-copy images)物理學(xué)和光學(xué)領(lǐng)域?qū)W者對(duì)該主題研究較多(Fengcheng Ma (2010) the construction of digital resources storage platform based on holographic technology; John R (2005) an input-data page modulation scheme for content- addressable holographic digital data storage; Heanue JF (1994) Volume Holographic Storage and Retrieval of Digital Data)Dembski William A. (2009) conservation of information in search: measuring the cost of success; Li Xin (2010) maximum-information storage system: concept, implementation and application 50/12/121992物理學(xué)、光學(xué)和材料科學(xué)領(lǐng)域?qū)W者對(duì)該主題關(guān)注較多(Orlov SS (2000) ultra-high transfer rate high capacity holographic disk digital data storage system;Ma JA (2000) ruggedized digital holographic data storage with fast access; John R (2005) holographic digital data storage using phasemodulated pixels)7/8/52005成功(success)、成本(cost)、動(dòng)態(tài)信息(active information)、內(nèi)生信息(endogenous information)、特定問(wèn)題信息(problem-specific information)和信息強(qiáng)度(information density)數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)系統(tǒng)( digital data storage system)、全息光盤(holographic disk)、超高轉(zhuǎn)移率(ultrahigh transfer rate)、大容量(high capacity)、快速獲取(fast access memory)、固態(tài)硬盤(solidslate memory)、全息數(shù)據(jù)存儲(chǔ)(holographic data storage)。數(shù)字保存對(duì)象(object)、保存模型(model)、遷移(migration)、保存計(jì)劃(preservation planning)、XML語(yǔ)言(xml languages)、長(zhǎng)壽(longevity)、評(píng)估(evaluation)和實(shí)施(execution)64/7/72003數(shù)字長(zhǎng)期保存(digital long-term preservation)、數(shù)字圖書館(digital library)、數(shù)字保存研究(digital preservation research)、真實(shí)性(authenticity)、完整性(integrity)、用戶研究(user studies)、安全模型(security model)、安全方面(security aspect)和長(zhǎng)期存儲(chǔ)(long-term storage)87/5/41996數(shù)字保存的技術(shù)與實(shí)踐(art and practice)信息科學(xué)和圖書情報(bào)檔案管理領(lǐng)域?qū)W者對(duì)該主題關(guān)注較多(Becker Christoph (2008) systematic characterisation of objects in digital preservation: the extensible characterisation languages; Luan Feng (2010) quality requirements of migration metadata in long-term digital preservation systems; Caplan Priscilla (2010) the florida digital archive and daitss: a model for digital preservation)圖書情報(bào)檔案管理領(lǐng)域?qū)W者對(duì)該主題關(guān)注較多(Chowdhury Gobinda (2010) from digital libraries to digital preservation research: the importance of users and context; Schott Maik (2010) ensuring integrity and authenticity for images in digital long-term preservation; Schott Maik (2010) extending the clark-wilson security model for digital long-term preservation use-cases; Voges Christoph (2011) long-term storage of digital data on cinematographic film)信息科學(xué)和圖書情報(bào)檔案管理領(lǐng)域?qū)W者對(duì)該主題關(guān)注較多(Lee KH (2002) the state of the art and practice in digital preservation; Muir A (2001) legal deposit and preservation of digital publications: a review of research and development activity)

表5 9個(gè)聚類的編號(hào)、成員和施引文獻(xiàn)數(shù)量、平均年份、Top主題術(shù)語(yǔ)及主要施引文獻(xiàn)

從表5可以看出,近年來(lái),國(guó)外學(xué)者除了從技術(shù)視角繼續(xù)圍繞數(shù)字資源保存的傳統(tǒng)話題(如多位信息存儲(chǔ)、分子信息存儲(chǔ)、存儲(chǔ)熒光體系統(tǒng)、放射線數(shù)字影像存儲(chǔ)、全息數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)、數(shù)字?jǐn)?shù)據(jù)存儲(chǔ)系統(tǒng)、全息光盤、超高轉(zhuǎn)移率、固態(tài)硬盤和數(shù)字存儲(chǔ)技術(shù)等)進(jìn)行研究之外,越來(lái)越多的學(xué)者開始從社會(huì)科學(xué)和人文學(xué)科視角圍繞數(shù)字資源保存開展研究,涉及數(shù)字資源保存的歷史、理論、機(jī)制、服務(wù)、未來(lái)、穩(wěn)定性和可持續(xù)發(fā)展;保存的成本、對(duì)象、模型、計(jì)劃、真實(shí)性、完整性、評(píng)估和實(shí)施;數(shù)字資源壽命、長(zhǎng)期保存和數(shù)字圖書館;用戶研究、保存實(shí)踐和安全等。

5 數(shù)字資源長(zhǎng)期保存研究進(jìn)展綜述

數(shù)字資源長(zhǎng)期保存是數(shù)字資源保存研究的重點(diǎn),也是亟待解決的難點(diǎn)。目前國(guó)內(nèi)外圖書情報(bào)和信息科學(xué)學(xué)科的學(xué)者和機(jī)構(gòu)對(duì)數(shù)字資源長(zhǎng)期保存關(guān)注較多,很多數(shù)字資源保存方面的實(shí)踐項(xiàng)目主要是為了解決數(shù)字資源長(zhǎng)期保存的難題而提出的。因此筆者主要聚焦于數(shù)字資源的長(zhǎng)期保存,從研究主題、最佳實(shí)踐、保存周期、保存技術(shù)和方法、保存策略等幾個(gè)重要方面解讀數(shù)字資源長(zhǎng)期保存的研究進(jìn)展[32-35]。這些方面也是目前國(guó)內(nèi)外學(xué)者研究的前沿與熱點(diǎn)。

5.1 數(shù)字資源長(zhǎng)期保存的研究主題

北京師范大學(xué)田碩和黃國(guó)彬通過(guò)對(duì)近10年(2000-2009)國(guó)外數(shù)字資源長(zhǎng)期保存的期刊論文進(jìn)行歸納總結(jié),發(fā)現(xiàn):國(guó)外數(shù)字資源長(zhǎng)期保存研究表現(xiàn)出理論研究和實(shí)踐研究相結(jié)合、技術(shù)研究和非技術(shù)研究并重的特點(diǎn),其研究主題以長(zhǎng)期保存的相關(guān)技術(shù)和保存策略及保存項(xiàng)目為主,并注重對(duì)具體問(wèn)題、具體保存對(duì)象的研究,其研究領(lǐng)域已經(jīng)逐漸滲透到社會(huì)生活的各個(gè)層面。此外,國(guó)外數(shù)字資源的長(zhǎng)期保存研究還涉及保存的戰(zhàn)略與基礎(chǔ)設(shè)施建設(shè)、保存成本管理、元數(shù)據(jù)研究、相關(guān)認(rèn)證與評(píng)估、教育與培訓(xùn)以及知識(shí)產(chǎn)權(quán)管理等。

5.2 數(shù)字資源長(zhǎng)期保存的最佳實(shí)踐

數(shù)字保存研究的發(fā)展離不開實(shí)踐,也離不開數(shù)字保存理論研究的指導(dǎo)。兩者是辯證統(tǒng)一的關(guān)系,相輔相成,缺一不可。因此各國(guó)相關(guān)機(jī)構(gòu)和組織在數(shù)字資源長(zhǎng)期保存理論探索成果的指導(dǎo)下,紛紛開展數(shù)字資源長(zhǎng)期保存方面的實(shí)踐活動(dòng),發(fā)展了很多具體成熟、規(guī)模較大、應(yīng)用廣泛、影響較廣、經(jīng)濟(jì)和社會(huì)效益突出的數(shù)字資源長(zhǎng)期保存項(xiàng)目。如美國(guó)斯坦福大學(xué)圖書館在1999年發(fā)起的,用于實(shí)時(shí)收集和保存在線數(shù)字資源如在線圖書和期刊等的LOCKSS項(xiàng)目;美國(guó)國(guó)會(huì)圖書館在2002年通過(guò)立法確立的,用于收集和保存各類數(shù)字資源如Web信息、視頻、音頻、數(shù)字期刊、電子圖書、數(shù)字電視等的國(guó)家數(shù)字信息基礎(chǔ)設(shè)施和保存項(xiàng)目:NDIIPP(National Digital Information Infra structure Preservation Program);英國(guó)高等及繼續(xù)教育基金會(huì)聯(lián)合信息系統(tǒng)委員會(huì)JISC在1998資助的,致力于研究數(shù)字資源長(zhǎng)期保存的策略、方法和實(shí)際問(wèn)題,為圖書館最佳數(shù)字保存實(shí)踐提供指導(dǎo)的高校研究型圖書館聯(lián)盟的數(shù)字樣書保存項(xiàng)目:CEDARS(CURL Exemplars in Digital Archives);由荷蘭國(guó)家圖書館牽頭,歐洲7個(gè)國(guó)家圖書館和3個(gè)主要出版社共同參與,于1998年啟動(dòng)的網(wǎng)絡(luò)化歐洲存儲(chǔ)圖書館項(xiàng)目:NEDLIB(Networked European Deposit Library),該項(xiàng)目主要致力于研究長(zhǎng)期保存基礎(chǔ)結(jié)構(gòu)和歐洲存儲(chǔ)圖書館機(jī)制,以保證電子出版物的長(zhǎng)期獲??;德國(guó)教育和研究委員會(huì)(German Federal Ministry of Education and Research)在2003年資助的數(shù)字資源長(zhǎng)期保存專家網(wǎng)絡(luò)項(xiàng)目:NESTOR(the Network of Expertise in Long-term Storage of Digital Resources);澳大利亞國(guó)家圖書館在1995年發(fā)起的澳大利亞網(wǎng)絡(luò)文檔資源的保存和獲取項(xiàng)目:PANDORA(Preservingand Accessing Networked Documentary Resources of Australia);中國(guó)國(guó)家圖書館在1995年啟動(dòng)的網(wǎng)絡(luò)信息資源采集與保存項(xiàng)目:WICP (Web Information Collection and Preservation);北京大學(xué)在國(guó)家“973”和“985”項(xiàng)目支持下,于2002年啟動(dòng)的中國(guó)Web信息博物館項(xiàng)目,并開發(fā)了一款用于歷史網(wǎng)頁(yè)存盤和回放的中國(guó)歷史網(wǎng)頁(yè)信息存儲(chǔ)與展示系統(tǒng)。

5.3 數(shù)字資源長(zhǎng)期保存周期

數(shù)字資源保存周期長(zhǎng)短的確定是數(shù)字資源保存研究領(lǐng)域中一個(gè)非常重要但又難以解決的問(wèn)題,如果保存周期過(guò)長(zhǎng),會(huì)導(dǎo)致保存成本過(guò)高,如果保存周期過(guò)短,可能會(huì)因技術(shù)更新?lián)Q代、文件損壞和載體發(fā)生故障而損失一些重要而有價(jià)值的資源,給用戶帶來(lái)巨大損失。因此保存周期應(yīng)綜合考慮數(shù)字資源的類型、生命周期、質(zhì)量和價(jià)值、重要程度及未來(lái)使用的概率等因素來(lái)確定,以使保存成本最小化,保存利益最大化。目前國(guó)內(nèi)外相關(guān)機(jī)構(gòu)和學(xué)者關(guān)注比較多的是數(shù)字資源長(zhǎng)期保存的周期,對(duì)該周期的確定,不同學(xué)者和機(jī)構(gòu)的認(rèn)識(shí)不盡相同。國(guó)際圖聯(lián)外聯(lián)與服務(wù)部主任伯格?沃赫爾( Ingeborg Verheul)認(rèn)為這個(gè)周期可能是5年或更長(zhǎng)[36]。國(guó)際空間數(shù)據(jù)咨詢委員會(huì)認(rèn)為保存周期應(yīng)該長(zhǎng)到無(wú)需考慮因技術(shù)和軟硬件環(huán)境變化、載體故障、文件損壞、數(shù)據(jù)格式變化及用戶社區(qū)變化而導(dǎo)致的數(shù)字資源獲取困難或失敗問(wèn)題,并且這個(gè)期限可以拓展到無(wú)限期的將來(lái)[11]。英國(guó)研究委員會(huì)(Research Councils UK)認(rèn)為任何項(xiàng)目的數(shù)據(jù)保存和獲取周期應(yīng)該不少于10年,其中臨床或主要社會(huì)、環(huán)境和重要遺產(chǎn)項(xiàng)目的數(shù)據(jù),應(yīng)該保留20年,當(dāng)然能夠永久保存或按資助者的數(shù)據(jù)政策中要求的保存周期保存更好[37]。上田修一(1999)認(rèn)為:目前電子媒體壽命短,一般只有10年左右,因此電子信息的長(zhǎng)期保存必須考慮這一因素,在技術(shù)上應(yīng)開發(fā)出壽命達(dá)到100年以上的媒體[38]。

5.4 數(shù)字資源長(zhǎng)期保存的相關(guān)技術(shù)和方法

數(shù)字資源長(zhǎng)期保存技術(shù)是數(shù)字資源長(zhǎng)期保存的重要支撐,是國(guó)內(nèi)外學(xué)者研究的重點(diǎn)和熱點(diǎn)。綜觀國(guó)內(nèi)外學(xué)者在數(shù)字資源長(zhǎng)期保存技術(shù)方面的研究發(fā)現(xiàn):國(guó)內(nèi)外學(xué)者除了對(duì)數(shù)字資源標(biāo)準(zhǔn)化技術(shù)、遷移和仿真技術(shù)、封裝技術(shù)、更新技術(shù)、數(shù)據(jù)恢復(fù)和再造技術(shù)、比特流拷貝即數(shù)據(jù)備份技術(shù)、復(fù)制技術(shù)等傳統(tǒng)保存技術(shù)感興趣之外,更對(duì)新興的基于云計(jì)算的動(dòng)態(tài)存儲(chǔ)和獲取技術(shù)、元數(shù)據(jù)保存技術(shù)、網(wǎng)格存儲(chǔ)與獲取技術(shù)、分布式數(shù)字保存網(wǎng)絡(luò)或系統(tǒng)技術(shù)、海量數(shù)字資源保存技術(shù)、機(jī)構(gòu)倉(cāng)儲(chǔ)技術(shù)、數(shù)字資源長(zhǎng)期保存技術(shù)、虛擬存儲(chǔ)技術(shù)、文化遺產(chǎn)的數(shù)字保存技術(shù)如數(shù)字博物館、網(wǎng)絡(luò)信息資源如Web2.0內(nèi)容及博客內(nèi)容的采集與保存技術(shù)、網(wǎng)絡(luò)關(guān)聯(lián)數(shù)據(jù)的格式保存以及保存系統(tǒng)、共享技術(shù)和互操作技術(shù)等感興趣。

5.5 數(shù)字資源長(zhǎng)期保存的策略

通過(guò)梳理國(guó)內(nèi)外相關(guān)研究文獻(xiàn),發(fā)現(xiàn)目前數(shù)字資源長(zhǎng)期保存的策略主要有:⑴ 合作保存策略。數(shù)字資源長(zhǎng)期保存項(xiàng)目是一個(gè)非常巨大的工程,單憑個(gè)別機(jī)構(gòu)或圖書館無(wú)法完成,需要眾多機(jī)構(gòu)或圖書館的參與。上述的數(shù)字資源保存聯(lián)盟、國(guó)際性組織和很多大型數(shù)字資源長(zhǎng)期保存項(xiàng)目基本上都是采取合作策略;⑵ 技術(shù)保存策略。技術(shù)是數(shù)字資源保存項(xiàng)目得以實(shí)現(xiàn)的基本保障,好的技術(shù)可以使數(shù)字資源長(zhǎng)期保存項(xiàng)目的效果成倍地放大。不同的數(shù)字資源適用的保存技術(shù)不盡相同,因此針對(duì)不同類型的數(shù)字資源和保存要求,科學(xué)合理選擇相應(yīng)的技術(shù)方案非常重要。目前常用的技術(shù)保存策略主要有:基于對(duì)等網(wǎng)的分布式保存和開放源代碼的保存策略、為避免軟硬件變化導(dǎo)致數(shù)字資源獲取失敗的仿真、封裝和遷移技術(shù)保存策略、可以保證海量數(shù)字資源實(shí)時(shí)保存和獲取的云存儲(chǔ)策略等。⑶ 風(fēng)險(xiǎn)管理策略。數(shù)字資源長(zhǎng)期保存是一個(gè)耗時(shí)很長(zhǎng)、動(dòng)態(tài)變化的工程,中間難免出現(xiàn)一些風(fēng)險(xiǎn),因此需要考慮數(shù)字資源長(zhǎng)期保存過(guò)程中可能出現(xiàn)的風(fēng)險(xiǎn),制定相應(yīng)的風(fēng)險(xiǎn)策略。目前國(guó)外數(shù)字保存實(shí)踐采取的風(fēng)險(xiǎn)策略主要有:通過(guò)合作開發(fā)和建立聯(lián)盟的方式,以降低保存成本,提高保存效果;通過(guò)建立保存網(wǎng)絡(luò)和構(gòu)建責(zé)任體系的方式,以建立風(fēng)險(xiǎn)發(fā)生時(shí)的快速反應(yīng)和處理機(jī)制;通過(guò)建立數(shù)據(jù)定期備份機(jī)制,以避免數(shù)字資源丟失的風(fēng)險(xiǎn);通過(guò)應(yīng)用仿真、封裝和遷移技術(shù),以避免技術(shù)更新導(dǎo)致的數(shù)字資源獲取失敗的風(fēng)險(xiǎn);通過(guò)資金預(yù)算風(fēng)險(xiǎn)管理,以避免資金斷鏈或不足。⑷ 經(jīng)濟(jì)策略。數(shù)字資源長(zhǎng)期保存是一個(gè)復(fù)雜的系統(tǒng)性工程,需要持續(xù)的高成本的技術(shù)與管理投入,所以經(jīng)費(fèi)問(wèn)題是數(shù)字資源長(zhǎng)期保存需要重點(diǎn)考慮的問(wèn)題。國(guó)外數(shù)字資源長(zhǎng)期保存的經(jīng)濟(jì)策略主要有:獲取國(guó)家和地方政府的研究與開發(fā)經(jīng)費(fèi)支持、各參與方共同分擔(dān)、建立專門的數(shù)字資源保存研發(fā)基金、數(shù)字保存資金預(yù)算管理和周期成本計(jì)算、國(guó)家或政府機(jī)構(gòu)專項(xiàng)投資、尋找贊助商等。

圖6 國(guó)家共現(xiàn)網(wǎng)絡(luò)知識(shí)圖譜分析

6 結(jié)語(yǔ)

通過(guò)對(duì)數(shù)字資源保存方面的1,562篇文獻(xiàn)及52,632條引文數(shù)據(jù)進(jìn)行時(shí)間序列分析、術(shù)語(yǔ)與關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò)和引文共被引聚類網(wǎng)絡(luò)的知識(shí)圖譜分析,我們發(fā)現(xiàn):

⑴國(guó)際上數(shù)字資源保存相關(guān)研究已經(jīng)非常深入,有足夠多的文獻(xiàn)可供引用(按總引文數(shù)與總文獻(xiàn)數(shù)之比來(lái)測(cè)算,平均每篇文獻(xiàn)接近31篇引文)。

⑵1992年至2010年間,數(shù)字資源保存已經(jīng)形成夯實(shí)的知識(shí)基礎(chǔ)(5萬(wàn)多條引文)和一些穩(wěn)定集中的研究熱點(diǎn)(形成了90個(gè)聚類),有一定的學(xué)術(shù)影響力(平均每篇文獻(xiàn)被引6.88次),正穩(wěn)步向前發(fā)展。

⑶數(shù)字資源保存有兩條研究主線:一是物理學(xué)、光學(xué)、電子學(xué)、放射醫(yī)學(xué)、材料科學(xué)和信息科學(xué)等理工科學(xué)者從技術(shù)視角研究數(shù)字全息存儲(chǔ)、光存儲(chǔ)、數(shù)字圖像存儲(chǔ)、數(shù)字存儲(chǔ)熒光體、數(shù)字存儲(chǔ)示波器和閃速存儲(chǔ)等。二是圖書情報(bào)檔案管理學(xué)科學(xué)者從信息技術(shù)和人文相結(jié)合的視角研究數(shù)字圖書館,數(shù)字資源長(zhǎng)期保存及相關(guān)的系統(tǒng)、模型、技術(shù)、方法、策略、計(jì)劃、實(shí)踐、行動(dòng)、項(xiàng)目、安全、方案和國(guó)家數(shù)字信息基礎(chǔ)設(shè)施等,這些主題也是近年來(lái)剛興起的研究前沿與熱點(diǎn)。

⑷數(shù)字全息存儲(chǔ)和光存儲(chǔ)是1992年至2011年期間的持續(xù)研究熱點(diǎn),如1993-2011年期間,共發(fā)表557篇“數(shù)字全息存儲(chǔ)”主題的文章(平均被引頻次8.37次和平均每年發(fā)表28篇論文)⑩數(shù)據(jù)庫(kù)=SCI-EXPANDED, SSCI, A&HCI, CPCI-S, CPCI-SSH, BKCI-S, BKCI-SSH, CCR-EXPANDED;檢索式:TI=(digital OR information OR data OR image) AND TI=(holographic OR holography ) AND TI=( preservation OR conservation OR storage OR Memory)和788篇“光存儲(chǔ)”主題的文章(平均被引頻次13.69次和平均每年發(fā)表39篇論文)??數(shù)據(jù)庫(kù)=SCI-EXPANDED, SSCI, A&HCI, CPCI-S, CPCI-SSH, BKCI-S, BKCI-SSH, CCR-EXPANDED;檢索式:TI=(digital OR information OR data OR image) AND TI=(optical) AND TI=( preservation OR conservation OR storage OR Memory)。而“數(shù)字長(zhǎng)期保存”是自2002年開始興起的研究熱點(diǎn)與前沿主題。

⑸通過(guò)國(guó)家共現(xiàn)網(wǎng)絡(luò)圖譜分析(如附圖6所示),我們發(fā)現(xiàn),數(shù)字資源保存研究實(shí)力比較強(qiáng)的國(guó)家有:美國(guó)(出現(xiàn)頻次為460次)、中國(guó)(124次)、德國(guó)(88次)、英國(guó)(76次)和日本(61次),不過(guò)美國(guó)和中國(guó)的中介中心度較低,都為0,說(shuō)明盡管美國(guó)和中國(guó)的研究實(shí)力比較強(qiáng),但與其他國(guó)家之間交流非常少,其中美國(guó)與加拿大交流得比較多,而中國(guó)與比利時(shí)(Belgium)交流得比較多。研究實(shí)力比較強(qiáng),且與其他國(guó)家交流比較多的國(guó)家有:德國(guó)(中心度為0.22)、日本(0.08)和英國(guó)(0.06)。西班牙(頻次為28)和瑞士(頻次為13)的研究實(shí)力雖然不是太強(qiáng),不過(guò)他們與其它國(guó)家之間的交流也比較多(中心度分別是0.16和0.1)。

⑹通過(guò)機(jī)構(gòu)共現(xiàn)網(wǎng)絡(luò)圖譜分析,我們發(fā)現(xiàn)美國(guó)北卡羅來(lái)納州立大學(xué)(出現(xiàn)頻次為25次)、加州大學(xué)河濱分校(21次)、斯坦福大學(xué)(11次)和IBM公司(11次),以及中國(guó)科學(xué)院(18次)的研究實(shí)力比較強(qiáng)。

⑺在標(biāo)引共被引聚類主題時(shí),我們發(fā)現(xiàn):在標(biāo)引效果上,標(biāo)題術(shù)語(yǔ)+TF*IDF組合方法的標(biāo)引效果最好,選擇的術(shù)語(yǔ)能夠全面、準(zhǔn)確地反映聚類主題;在聚類主題術(shù)語(yǔ)來(lái)源上,標(biāo)題術(shù)語(yǔ)集和標(biāo)引術(shù)語(yǔ)集的主題相關(guān)性最高;術(shù)語(yǔ)選擇方法上,TF*IDF權(quán)重方法最好,其次是Log似然率,互信息方法經(jīng)常會(huì)選出很多大而空,不相關(guān)的術(shù)語(yǔ),不能解讀具體的研究熱點(diǎn)與前沿主題。

⑻我們?nèi)诤闲g(shù)語(yǔ)和關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),以及引文共被引聚類網(wǎng)絡(luò)來(lái)識(shí)別數(shù)字資源保存研究領(lǐng)域的熱點(diǎn)與前沿,可以有效克服單獨(dú)使用引文共被引聚類網(wǎng)絡(luò)識(shí)別熱點(diǎn)與前沿的時(shí)滯性問(wèn)題(網(wǎng)絡(luò)選擇的引文需要達(dá)到一定頻次,而達(dá)到一定頻次需要一定時(shí)間)。

[1]LOPEZ-FITZSIMMONS B. Digital preservation and metadata: history, theory, practice [J]. Library Resources & Technical Services, 2003, 47(3): 135-136.

[2]DAY M. Digital preservation and metadata: history, theory, practice [J]. Journal of the Society of Archivists, 2003, 24(2): 243-244.

[3]TERMENS M. Research and development in digital preservation: an international review [J]. Profesional De La Información, 2009, 18(6): 613-624.

[4]劉家真.我國(guó)數(shù)字資源保存狀況調(diào)查[J].中國(guó)圖書館學(xué)報(bào),2006(5):71-75.

[5]吳振新,劉建華,張玫,等.數(shù)字資源長(zhǎng)期保存:當(dāng)前進(jìn)展和最佳實(shí)踐 -- --2007年數(shù)字資源長(zhǎng)期保存國(guó)際會(huì)議(iPRES2007)綜述[J].現(xiàn)代圖書情報(bào)技術(shù),2007,157(11):1-6.

[6]李丹,向菁.協(xié)作與實(shí)踐:數(shù)字資源長(zhǎng)期保存工具及方法 -- --2008年數(shù)字資源長(zhǎng)期保存國(guó)際會(huì)議(iPRES2008)綜述[J].圖書館理論與實(shí)踐,2009(11):70-72.

[7]梁戰(zhàn)平.中國(guó)情報(bào)學(xué)百科全書[M].中國(guó)大百科全書出版社,2010:257.

[8]鄒志仁.信息學(xué)概論[M].南京:南京大學(xué)出版社,2011:60-79.

[9]DPC-Digital Preservation Coalition. Introduction - Definitions and Concepts [EB/OL]. [2012-07-20]. http://www.dpconline.org/advice/preservationhandbook/ introduction/definitions-and-concepts.

[10]ALA - American Library Association. Definitions of digital preservation[EB/OL]. [2012-07-20]. http://www.ala.org/ala/mgrps/divs/alcts/resources/preserv/ defdigpres0408.pdf.

[11]DPE - Digital Preservation Europe. What is Digital Preservation? [EB/OL]. [2012-07-20]. http://www.digitalpreservationeurope.eu/what-is-digital-preservation/.

[12]CCSDS (Consultative Committee for Space Data Systems). Reference Model for an Open Archival Information System (OAIS) [M]. Blue Book, Issue 1. Washington, DC (US): CCSDS Secretariat, PP.1-11. http://public.ccsds.org/publications/archive/650x0b1.PDF.

[13]DONALDSON L. The dissemination and preservation of information [J]. Aslib Proceedings, 1977, 29(8): 272-278.

[14]KENNEY A R, PERSONIUS L K. Digital Preservation -- Joint Study [J]. Studies in Multimedia: State-Of-The-Art Solutions in Multimedia and Hypertext, 1992: 47-52.

[15]CHEN C. CiteSpace II: Detecting and Visualizing Emerging Trends and Transient Patterns in Scientific Literature [J]. Journal of the American Society for Information Science and Technology, 2006, 57(3): 359-377.

[16]CHEN C M, IBEKWE-SANJUAN F, HOU J H. The Structure and Dynamics of Co-Citation Clusters: A Multiple-Perspective Co-Citation Analysis [J]. Journal of the American Society for Information Science and Technology, 2010, 61(7): 1386-1409.

[17]CHEN C. Searching for intellectual turning points: Progressive knowledge domain visualization [J]. Proceedings of the National Academy of Sciences of the United States of America (PNAS), 2004, 101(1): 5303-5310.

[18]陳超美,陳悅,侯劍華.Cite Space Ⅱ,科學(xué)文獻(xiàn)中新趨勢(shì)與新動(dòng)態(tài)的識(shí)別與可視化[J].情報(bào)學(xué)報(bào),2009,28(3):401-421.

[19]NEWMAN M E J. Modularity and community structure in networks [J]. PNAS, 2006, 103(23): 8577-8582.

[20]ROUSSEEUW P J. Silhouettes: A graphical aid to the interpretation and validation of cluster analysis [J]. Journal of Computational and Applied Mathematics, 1987 (20): 53-65.

[21]HEANUE J F, BASHAW M C, HESSELINK L. Volume Holographic Storage and Retrieval of Digital Data [J]. Science, 1994, 265(5173): 749-752.

[22]SHELBY R M, HOFFNAGLE J A, BURR G W. Pixel-matched holographic data storage with megabit pages [J], Optics Letters, 1997, 22(19): 1509-1511.

[23]PRISCILLA C. The Florida Digital Archive and DAITSS: a model for digital preservation [J]. Library Hi Tech, 2010, 28(2): 224-234.

[24]BECKER C, RAUBER A. Systematic Characterisation of Objects in Digital Preservation: The eXtensible Characterisation Languages [J]. Journal of Universal Computer Science, 2008, 14(18): 2936-2952.

[25]HOWARD R I. Networking for Digital Preservation: Current Practice in 15 National Libraries [J]. Library Resources & Technical Services, 2008, 52(4): 275-276.

[26]THOMAS H, JANET E, CORDIAL M A, et al. Developments in Digital Preservation at the University of Illinois: The Hub and Spoke Architecture for Supporting Repository Interoperability and Emerging Preservation Standards [J]. Library Trends, 2009, 57(3): 556-579.

[27]JOSEPH J, SANGCHUL S. Robust Tools and Services for Long-Term Preservation of Digital Information [J]. Library Trends, 2009, 57(3): 580-594.

[28]欒蘭,王續(xù)琨.信息經(jīng)濟(jì)學(xué)研究主題遷移的可視化分析[J].情報(bào)科學(xué),2011,29(5):757-762.

[29]BRANDES U. A faster algorithm for betweenness centrality [J]. Journal of Mathematical Sociology, 2001, 25(2): 163-177.

[30]CHEN C. The centrality of pivotal points in the evolution of scientific networks [C]// Proceedings of the International Conference on Intelligent User Interfaces (IUI 2005), ACM Press, 2005: 98-105.

[31]KLEINBERG J. Bursty and hierarchical structure in streams [C]// Proceedings of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, ACM Press, 2002: 91-101.

[32]田碩,黃國(guó)彬.近十年國(guó)外數(shù)字資源長(zhǎng)期保存研究綜述[J].圖書館雜志,2011,30(7):8-13.

[33]黃旭,畢強(qiáng).國(guó)內(nèi)外數(shù)字資源長(zhǎng)期保存研究現(xiàn)狀與進(jìn)展[J].圖書館學(xué)研究,2009(1):25-28.

[34]賀姝祎.國(guó)外數(shù)字資源長(zhǎng)期保存發(fā)展歷程[J].圖書館理論與實(shí)踐,2011(6):72-76.

[35]張艷敏,馬秀峰.中外數(shù)字資源長(zhǎng)期保存策略比較研究[J].圖書館學(xué)研究,2009(6):29-32.

[36]INGEBORG V. Networking for Digital Preservation: Current Practice in 15 National Libraries [M]. Munchen: K.G. Saur, 2006.

[37]Public Consultation Document. Research Councils UK. Integrity, Clarity & Good Management - Code of Conduct and Policy on the Governance of Good Research Conduct [EB/OL]. [2012-06-08]. http://www.rcuk.ac.uk/documents/reviews/grc/consultation.pdf.

[38]董光彩.數(shù)字資源保存研究的發(fā)展歷程及趨勢(shì)[J].數(shù)字圖書館論壇,2006,31(12):36-39.

Research Developments, Hotspots and Fronts for Digital Resources Preservation

Hu Zewen / Department of Information Management, Nanjing University, Nanjing, 210093
Wu Yishan / Institute of Scientific & Technical Information of China, Beijing, 100038
Sun Jianjun / Department of Information Management, Nanjing University, Nanjing, 210093

Firstly, we discussed the concepts of digital resources preservation, and introduced its developmental history and current status of research at home and abroad. Then a visualizing analysis tool named “CitespaceII” and some visualizing analysis methods were applied to construct time-series evolution mapping and timezone evolution mapping for domain knowledge basis (references), and drew domain’s development trend chart, with them analyzing research developments of digital resources preservation. Besides, a mixed co-occurrence network between terms and keywords, and some co-cited cluster mappings for quotations were also constructed to identify research hotspots in digital resources preservation, as well as a detection method for burst terms was utilized to detect research fronts in digital resources preservation. Finally, research developments for long-term preservation of digital resources as a research hotspot often focused by scholars in Library, information science and archives administration discipline was reviewed from several important aspects: research topics, best practices, preservation period, preservation technology and methods, as well as preservation strategies.

Digital resources preservation, Research developments, Research hotspots, Research fronts, Knowledge mapping, Long-term preservation for digital resources

10.3772/j.issn.1673—2286.2013.02.003

胡澤文(1985- ),男,南京大學(xué)信息管理系博士研究生,研究方向:科技信息的深層次挖掘、計(jì)量、評(píng)價(jià)與可視化分析。

武夷山(1958- ),男,研究員,副所長(zhǎng),研究方向:科學(xué)計(jì)量學(xué)與科技評(píng)價(jià)。

2012-07-31)

國(guó)家自然科學(xué)基金項(xiàng)目(編號(hào):70973118)和江蘇省普通高校研究生科研創(chuàng)新計(jì)劃項(xiàng)目(編號(hào):CXZZ12_0075)。

猜你喜歡
術(shù)語(yǔ)聚類文獻(xiàn)
Hostile takeovers in China and Japan
Cultural and Religious Context of the Two Ancient Egyptian Stelae An Opening Paragraph
基于K-means聚類的車-地?zé)o線通信場(chǎng)強(qiáng)研究
The Application of the Situational Teaching Method in English Classroom Teaching at Vocational Colleges
基于高斯混合聚類的陣列干涉SAR三維成像
The Role and Significant of Professional Ethics in Accounting and Auditing
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
有感于幾個(gè)術(shù)語(yǔ)的定名與應(yīng)用
從術(shù)語(yǔ)學(xué)基本模型的演變看術(shù)語(yǔ)學(xué)的發(fā)展趨勢(shì)