紀(jì)元霞
[摘要] 介紹當(dāng)前國際國內(nèi)機(jī)構(gòu)庫建設(shè)概況以及機(jī)構(gòu)庫軟件平臺的選用情況。在調(diào)研的基礎(chǔ)上重點介紹國際流
行的機(jī)構(gòu)庫建設(shè)軟件平臺Dspace和Eprints以及國內(nèi)建設(shè)較完善的機(jī)構(gòu)庫所使用的軟件平臺,并簡單分析各種
機(jī)構(gòu)庫軟件平臺。
[關(guān)鍵詞] 機(jī)構(gòu)庫機(jī)構(gòu)庫軟件平臺DspaceEprints國內(nèi)機(jī)構(gòu)庫軟件平臺
1 機(jī)構(gòu)庫建設(shè)概況
隨著開放存取運(yùn)動的開展,機(jī)構(gòu)庫應(yīng)運(yùn)而生,并在信息社會到來的促進(jìn)下蓬勃發(fā)展。2002年Dspace的誕生預(yù)示著機(jī)構(gòu)庫的大規(guī)模建設(shè)的開始。截止到2011年4月,ROAR(Registry of Open Access Repositories,開放獲取性知識庫注冊)共收錄機(jī)構(gòu)知識庫2 076個[1]。機(jī)構(gòu)庫在學(xué)術(shù)以及科研的發(fā)展中占有越來越重要的地位。ROAR收錄的機(jī)構(gòu)庫分布在80多個國家和地區(qū),說明機(jī)構(gòu)庫的建設(shè)在世界范圍內(nèi)已經(jīng)較為普遍而且日益廣泛。但機(jī)構(gòu)庫在世界范圍內(nèi)的分布是很不均衡的,目前擁有機(jī)構(gòu)庫數(shù)量最多的是美國(335個),美國、澳大利亞、德國和日本等科技和經(jīng)濟(jì)最為發(fā)達(dá)的國家所擁有的機(jī)構(gòu)知識庫資源占全世界的大部分,其他國家擁有的機(jī)構(gòu)庫只是很少一部分。我國發(fā)展的比較完善的機(jī)構(gòu)庫的分布情況是:香港地區(qū)4個,臺灣地區(qū)40個,大陸地區(qū)15個。
2 機(jī)構(gòu)庫建設(shè)使用軟件平臺概況
2.1全球機(jī)構(gòu)庫建設(shè)使用軟件平臺概況
機(jī)構(gòu)庫的創(chuàng)建軟件多種多樣,ROAR的統(tǒng)計比較全面地反映了當(dāng)前機(jī)構(gòu)庫軟件的應(yīng)用情況。具體注冊情況為:有6個機(jī)構(gòu)庫使用ARNO,有96個機(jī)構(gòu)庫使用該軟件,有15個機(jī)構(gòu)庫使用CDS lnvenio,有3個機(jī)構(gòu)庫使用ContentDM by OCLC,有8個機(jī)構(gòu)庫使用DigiTool,有25個機(jī)構(gòu)庫使用DiVA,有5個機(jī)構(gòu)庫使用DoKS,有572個機(jī)構(gòu)庫使用Dspace,有2個機(jī)構(gòu)庫使用EDOC,有327個機(jī)構(gòu)庫使用Eprints,有2個機(jī)構(gòu)庫使用Equella,有29個機(jī)構(gòu)庫使用ETD_db,有27個機(jī)構(gòu)庫使用Fedora,有9個機(jī)構(gòu)庫使用Fez,有11個機(jī)構(gòu)庫使用Greenstone,有11個機(jī)構(gòu)庫使用HAL,有1個機(jī)構(gòu)庫使用i_Tor,有1個機(jī)構(gòu)庫使用intraLibrary,有4個機(jī)構(gòu)庫使用MiTOS,有5個機(jī)構(gòu)庫使用MyCoRe,有7個機(jī)構(gòu)庫使用Open Journal System,有15個機(jī)構(gòu)庫使用Open Repository,有40個機(jī)構(gòu)庫使用OPUS(Open Publications System),有1個機(jī)構(gòu)庫使用SBCAT,有3個機(jī)構(gòu)庫使用Scix,其他軟件有436個機(jī)構(gòu)庫使用,如圖1所示:
2.2 國內(nèi)(大陸地區(qū))機(jī)構(gòu)庫建設(shè)使用軟件平臺概況
3 機(jī)構(gòu)庫軟件平臺初探
通過對機(jī)構(gòu)庫的調(diào)研可見全球范圍內(nèi)機(jī)構(gòu)庫構(gòu)建使用最多的平臺是Dspace,其次是Eprint。就我國大陸地區(qū)的情況看,使用Dspace的機(jī)構(gòu)庫有3個,使用Ojs的機(jī)構(gòu)庫有一個,使用其他軟件平臺的機(jī)構(gòu)庫有11個。
機(jī)構(gòu)知識庫系統(tǒng)的發(fā)展始于2000年英國的南安普敦大學(xué)開發(fā)的Eprints軟件,同年, 惠普公司斥資1 800萬美元與麻省理工學(xué)院合作開發(fā)Dspace,2002年11月Dspace正式面世。目前,機(jī)構(gòu)庫的軟件平臺主要有4類:①專用系統(tǒng),如eScholarship、JISC IE 、Knowledge Bank等;②開放源代碼軟件,如Dspace、Fedora、Eprints、Archimede、CDSware等;③商業(yè)資料庫軟件,如Documentum、Bepress、UMI/ProQuest研制的DigitalCommons、DiMeMa公司研制的CONTENT;④混合型系統(tǒng),如VTLS公司的Vital等。
3.1 Dspace
在我國大陸地區(qū)使用Dspace的機(jī)構(gòu)庫有:福建師范大學(xué)圖書館學(xué)系機(jī)構(gòu)庫、圖書館情報學(xué)開放文庫、廈門大學(xué)學(xué)術(shù)典藏庫、浙江大學(xué)DSPACE知識庫。其中浙江大學(xué)的Dspace知識庫一直都沒有很好運(yùn)行,所以本文未將其計入其中。
Dspace是一個專門的數(shù)字資產(chǎn)(digital assets)管理系統(tǒng),它管理和發(fā)布由數(shù)字文件或“數(shù)字流”(bitstreams)組成的數(shù)字條目(item),并且允許創(chuàng)建、索引和搜索相關(guān)的元數(shù)據(jù)以便定位和存取該條目。它是一個免費(fèi)的開放源碼軟件,基于伯克利源代碼發(fā)布許可協(xié)議(BSD)。作為開放源代碼,它允許被下載、修改,而且其所使用的第三方軟件也都是開放源代碼系統(tǒng),如PostgreSQL(開放源碼關(guān)系數(shù)據(jù)庫系統(tǒng))Jakarta Tomcat,Java服務(wù)器組件,Apache HTTP服務(wù)器發(fā)布系統(tǒng)等。Dspace支持基于團(tuán)體的內(nèi)容政策和提交過程,提供支持對提交數(shù)據(jù)長期保存的工具。它把各用戶群體整合為系統(tǒng)結(jié)構(gòu),這種設(shè)計促進(jìn)了各學(xué)院、系所、研究中心和其它單位尤其是大型研究機(jī)構(gòu)的廣泛參與。由于社區(qū)需求各有不同,Dspace允許各社區(qū)定制不同的工作流程和相關(guān)政策以解決資料內(nèi)容、權(quán)利許可及知識產(chǎn)權(quán)等問題。Dspace對這種分散內(nèi)容管理的支持加上支持?jǐn)?shù)字存儲計劃的整合工具,使它能在一個大的機(jī)構(gòu)環(huán)境下很好地管理機(jī)構(gòu)庫。此外,Dspace還強(qiáng)調(diào)對資料進(jìn)行長期保存[2]。
3.1.1 Dspace的功能Dspace能夠?qū)Ω鞣N文獻(xiàn)進(jìn)行存儲,為不同文獻(xiàn)資料建立虛擬館藏,這些文獻(xiàn)資料可以在各個館藏中傳送,各個館藏聯(lián)結(jié)為有機(jī)的整體。對于已有的獨立資料庫,Dspace可以與之建立鏈接,實現(xiàn)資源共享。Dspace可以保存所有格式的數(shù)字化資料,包括文本、圖片、視頻以及聲音資料等。Dspace系統(tǒng)本身提供一些常見格式數(shù)據(jù),用戶可以自定義增加Dspace中的數(shù)據(jù)格式。Dspace會為這些資料進(jìn)行統(tǒng)一的索引以方便用戶檢索[3]。
3.1.2 Dspace的特點Dspace是一個數(shù)字資產(chǎn)管理系統(tǒng),本身不是為數(shù)字圖書館開發(fā)的,但其圍繞存儲管理,利用分級認(rèn)證的工作流機(jī)制,使它具有構(gòu)建新一代數(shù)字圖書館模型的優(yōu)勢。Dspace主要有三個特征:①基于存儲的資產(chǎn)管理。Dspace是基于存儲管理的,它提供對所有數(shù)字格式的支持,對于印刷型文獻(xiàn)Dspace則通過元數(shù)據(jù)進(jìn)行存儲管理,利用URL和館藏地點來區(qū)分文獻(xiàn)服務(wù)的方式。Dspace支持“位”存儲和功能存儲。位存儲保證提交的數(shù)字材料沒有任何改變,即每一位都保持不變。功能存儲則是通過隨著時間的變化改變存儲內(nèi)容的格式,以保證舊格式淘汰后數(shù)字材料還能夠被瀏覽、運(yùn)行、檢索。顯然功能存儲是一種理想的存儲方式,但是它需要更多的資源。Dspace為了盡可能完善地存儲資源定義了三個層次的格式,從而確定資源的存儲方式。其一,支持格式——支持格式將利用格式遷移技術(shù)進(jìn)行功能存儲。其二,知道格式——將不被承諾進(jìn)行功能存儲,它作為一種流格式可以嘗試通過第三方提供的轉(zhuǎn)換工具完成格式遷移從而實現(xiàn)功能存儲。其三,不支持格式——對于不支持格式的資源,Dspace將沒有足夠的信息保證功能存儲。當(dāng)然存儲問題同時存在于元數(shù)據(jù),因此劍橋大學(xué)為了完成元數(shù)據(jù)格式的周期性遷移,也在開發(fā)新的提交轉(zhuǎn)換系統(tǒng),以將用戶提交的材料從“知道格式”和“不支持格式”轉(zhuǎn)化為“支持格式”。②利用數(shù)字提交的工作流模型來捕獲和描述數(shù)字化條目。Dspace中有許多的數(shù)字空間群,對于每個群通常都設(shè)有提交者,審核者。任何一個對系統(tǒng)的請求(檢索、瀏覽、材料提交等)都會觸發(fā)不同的工作流,從而進(jìn)入相應(yīng)的任務(wù)池。經(jīng)過審核、元數(shù)據(jù)編輯和終審等環(huán)節(jié)最終進(jìn)入Dspace。③分級權(quán)限認(rèn)證。Dspace以分級權(quán)限控制管理體系。
Dspace的優(yōu)點:①源代碼開放。這是Dspace一個很重要的優(yōu)點。也正是基于這一特點,任何人、任何組織均可以下載該程序,或是根據(jù)需要修改后加以應(yīng)用。Dspace主要代碼都是用Java編寫的,可以運(yùn)行于所有的UNIX系統(tǒng)包括Linux或HP_UX等。由于Java虛擬機(jī)是由HTML和部分嵌入的Java代碼組成,基本上不需要更改其核心代碼就可以方便地修改它。數(shù)字圖書館的5個技術(shù)環(huán)節(jié)(資源采集、對象存儲管理、搜索技術(shù)、信息傳遞和權(quán)限認(rèn)證)可以根據(jù)各個館的實際情況來修改和擴(kuò)展其功能。②方便移植。Dspace采用B/S(瀏覽器/服務(wù)器)結(jié)構(gòu),在此結(jié)構(gòu)下用戶工作界面通過瀏覽器來實現(xiàn),極少部分事務(wù)邏輯在前端(browser)實現(xiàn),但是主要事務(wù)邏輯在服務(wù)器端(server)實現(xiàn)。同時Dspace基于Java環(huán)境開發(fā)和使用,并且統(tǒng)一使用UTF-8編碼。這些特點使Dspace具有了較強(qiáng)的移植性。③具有較好的集成度。Dspace具有數(shù)字資源采集、數(shù)字對象存儲與管理、搜索技術(shù)、信息傳遞技術(shù)和權(quán)限認(rèn)證等功能。它高度集成了數(shù)字圖書館的5個技術(shù)環(huán)節(jié),是一個高度集成的擁有諸多功能的系統(tǒng)。④提供全球唯一標(biāo)識符。Dspace使用Handle System提供全球唯一的、穩(wěn)定的標(biāo)識[4]。⑤使用小程序接口。Dspace提供了幾個支持API接口的內(nèi)置程序,通過它可以簡化和加速數(shù)字館藏的開發(fā),在一定程度上為系統(tǒng)提供了擴(kuò)展和修改的能力[9]。
3.1.3 Dspace的體系結(jié)構(gòu)[6]Dspace的體系結(jié)構(gòu)分為三層,分別是存儲層、業(yè)務(wù)邏輯層和應(yīng)用層,每層都
由一系列的組件構(gòu)成[7](見圖2)。每一層只能調(diào)用該層之下的組件而不能跨層調(diào)用。
·存儲層。存儲層主要是對資源的存儲,包括元數(shù)據(jù)和內(nèi)容對象(位流數(shù)據(jù))。Dspace通過關(guān)系數(shù)據(jù)庫 PostgreSQL(或其他關(guān)系數(shù)據(jù)庫,如ORACLE)借助JDBC(Java數(shù)據(jù)庫連接)來存儲元數(shù)據(jù),同時也保存系統(tǒng)狀態(tài)、用戶信息、權(quán)限信息、工作流等內(nèi)容。在Dspace中,關(guān)系數(shù)據(jù)庫還擔(dān)任著維護(hù)內(nèi)容索引,便于用戶網(wǎng)上瀏覽的任務(wù)。另一方面Dspace,使用本地文件系統(tǒng)和SRB實現(xiàn)了位流數(shù)據(jù)的存儲。
·業(yè)務(wù)邏輯層。業(yè)務(wù)邏輯層主要負(fù)責(zé)對存檔文件、電子用戶、授權(quán)及工作流等方面的管理,包括核心工具(配置管理、日志管理等)、搜索引擎、電子用戶/群組管理、Handle管理、授權(quán)管理等。通過一系列的類文件對Dspace中的各類對象進(jìn)行抽象,然后用來實現(xiàn)內(nèi)容檢索、瀏覽、認(rèn)證管理、內(nèi)容管理、句柄管理、工作流管理、用戶管理和歷史信息管理等功能。以下分幾個部分來闡述:①資源的標(biāo)識。Dspace采用句柄來創(chuàng)建URL,故此它可以永久地標(biāo)識資源。在Dspace中存儲在倉儲中的資源是通過瀏覽器用戶界面被訪問的,由于網(wǎng)頁不具有穩(wěn)定性從而影響了資源的獲取。所以Dspace采用句柄來標(biāo)識數(shù)據(jù),從而確保資源長久可靠地被獲取。②工作流管理。Dspace將每一次資源的收集發(fā)布視為一個工作流。每個工作流可以包含提交、審核、元數(shù)據(jù)編輯和終審等步驟,每個步驟都需要相應(yīng)的權(quán)限。在完成終審前,未完成的發(fā)布任務(wù)被加入到相關(guān)的用戶組的“任務(wù)池”中,之后相關(guān)任務(wù)組從“任務(wù)池”中取出任務(wù)并完成相應(yīng)任務(wù),直到完成發(fā)布。③授權(quán)與認(rèn)證。Dspace中文獻(xiàn)發(fā)現(xiàn)、檢索不需要權(quán)限,但是資料的提交、定制瀏覽、管理等則需要授權(quán)來執(zhí)行。Dspace采用分組資源控制策略。Dspace可以對用戶或用戶組授權(quán),在缺省情況下Dspace采用“否定”授權(quán)策略,而且權(quán)限不能隨便擴(kuò)展。④檢索、瀏覽工具,內(nèi)容管理。Dspace通過API(Java搜索引擎Lucene)進(jìn)行索引和檢索,允許對新內(nèi)容索引,重建索引以及在制定范圍內(nèi)檢索。在瀏覽時系統(tǒng)提供一個簡單的API來指定一個索引(該索引包括項目題名、項目數(shù)據(jù)、作者)。瀏覽范圍則可以從數(shù)額到館藏集合。
·應(yīng)用層。應(yīng)用層主要負(fù)責(zé)Dspace與外界的交流、溝通。它包括統(tǒng)計工具、Web用戶接口、OAI-PMH數(shù)據(jù)提供、導(dǎo)入導(dǎo)出工具、媒體過濾、元數(shù)據(jù)獲取標(biāo)準(zhǔn)OAI-PMH的數(shù)據(jù)收割,批量導(dǎo)入工具等。應(yīng)用層各個組件的功能都是通過Java編寫Dspace的Sverlet和Jsp來調(diào)用實現(xiàn)的[8]。①統(tǒng)計工具。Dspace系統(tǒng)自動生成統(tǒng)計數(shù)據(jù),每月自動清理一次。統(tǒng)計項目包括:文檔的搜集情況、用戶登錄次數(shù)、搜索詞出現(xiàn)頻率、OAI請求次數(shù)等。②用戶界面是用Java servlet和JSP技術(shù)開發(fā)的,所用的體系結(jié)構(gòu)是視圖控制模型。③Dspace中的DC元數(shù)據(jù)存放XML。系統(tǒng)的入口只是一個中間站。輸入的文件通過主動文檔開放協(xié)議轉(zhuǎn)化成一樣的格式進(jìn)入到系統(tǒng)中,與其他的系統(tǒng)共享元數(shù)據(jù)。導(dǎo)出是METS編碼格式的數(shù)據(jù)。④OAI-PMH。OAI-PMH協(xié)議是提高和促進(jìn)互操作性的標(biāo)準(zhǔn),有利于有效地傳播內(nèi)容。Dspace實現(xiàn)了OAI-PMH協(xié)議,從而可以公開訪問DC元數(shù)據(jù)。通過元數(shù)據(jù)就可以共享機(jī)構(gòu)倉儲里的資源,建立統(tǒng)一的檢索平臺。⑤OpenURL。Dspace支持SFX的OpenURL協(xié)議,所以如果有SFX服務(wù)器,就可以通過自動使用DC元數(shù)據(jù)在每一個項目頁面上顯示一個OpenURL的鏈接。一旦有檢索條件提交,就會返回基本的鏈接且SFX服務(wù)器解析后會提供更多的擴(kuò)展資源給用戶。
Dspace的數(shù)據(jù)模型。Dspace的數(shù)據(jù)空間自頂向下為:社區(qū)、集合、條目、數(shù)據(jù)包、數(shù)據(jù)流和數(shù)據(jù)流格式。通過社區(qū)之下擴(kuò)展子社區(qū)來增加系統(tǒng)的層數(shù),從而方便地構(gòu)建分級式應(yīng)用系統(tǒng)。
3.2 Eprints
Eprints軟件是由英國南安普敦大學(xué)開發(fā)的。它是開源軟件,允許任何組織、大學(xué)、院系、團(tuán)體和項目組使用該軟件創(chuàng)建遵循OAI協(xié)議的知識庫。自從Eprints服務(wù)成功啟動后,它正在提供面向知識庫的所有需求的解決方案,其中有免費(fèi)的也有付費(fèi)的。目前,此軟件的最新版本為3.2.6。有327個機(jī)構(gòu)庫使用該軟件。Eprints是構(gòu)建高質(zhì)量機(jī)構(gòu)庫最靈活的平臺,是創(chuàng)建機(jī)構(gòu)庫最容易、最快、成本最節(jié)省的方式,能夠適應(yīng)存儲開放獲取文獻(xiàn)、科學(xué)數(shù)據(jù)、學(xué)位論文、報告和多媒體的知識庫的未來需求[9]。同時,軟件的普遍運(yùn)用增大了系統(tǒng)的高級檢索整合、元數(shù)據(jù)擴(kuò)展等的能力。Eprints中一個Eprint軟件的注冊安裝可以運(yùn)行幾個獨立的知識庫,共享源代碼但各自構(gòu)造不同。
3.2.1 Eprints的特點Eprints的主要特點是:允許通過配置文件定制系統(tǒng)功能,允許增加新的工具和程序段,所以它具有個性化、可擴(kuò)展性強(qiáng)的特點。可存儲任何格式的文件,允許同一文件有不同的格式 可以采用任何元數(shù)據(jù)標(biāo)準(zhǔn),可以由管理員選擇元數(shù)據(jù)字段;提供可定制、可擴(kuò)展的主題詞表、主題樹 ;提交的數(shù)字資源可以是壓縮文件也可以是在其他位置存在的文件URL;可自動完成完整性檢驗,備有緩存區(qū),可以使數(shù)字資源在正式進(jìn)入系統(tǒng)前得到編輯的檢驗和修改。該過程也可以在用戶界面上完成[10]。此外,有基于網(wǎng)絡(luò)的系統(tǒng)維護(hù)。
3.2.2Eprints的軟硬件配置包括:Unix操作系統(tǒng)(包括Linux)及計算機(jī)平臺,Apache服務(wù)器,Perl程序語言,Apache的mod_perl模塊(可增加Perl源代碼的性能),MySQL數(shù)據(jù)庫,Eprints軟件。EPrints是一個嚴(yán)格的國際化的軟件包,所有的元數(shù)據(jù)按統(tǒng)一的字符編碼標(biāo)準(zhǔn)(Unicode)存貯,設(shè)計的編碼系統(tǒng)支持世界范圍的互換、處理及顯示用不同語種書寫的文本[11]。Eprints是在GNU一般公共許可(General Public License,GNL)下開發(fā)的,凡屬于GPL規(guī)定范圍的都能免費(fèi)獲取。
3.2.3Eprints的系統(tǒng)結(jié)構(gòu)如圖3所示:
3.3 國內(nèi)的機(jī)構(gòu)庫軟件平臺
在國內(nèi)的機(jī)構(gòu)庫中:北京科技大學(xué)包括兩個機(jī)構(gòu)庫,北京科技大學(xué)機(jī)構(gòu)庫和奇跡文庫。其中北京科技大學(xué)機(jī)構(gòu)庫使用軟件平臺的是由超星提供的軟件平臺。中國科學(xué)院科學(xué)數(shù)據(jù)庫使用的是自主研發(fā)的軟件平臺。中國科技論文在線使用的是PkuSpace(協(xié)作式科技論文網(wǎng)絡(luò)共享)。中國預(yù)印本服務(wù)系統(tǒng)使用的軟件平臺是科技信息資源與服務(wù)集成揭示系統(tǒng),數(shù)據(jù)庫使用的是ORACLE。國家圖書館使用的是科技信息資源與服務(wù)集成揭示系統(tǒng)。中國農(nóng)業(yè)大學(xué)知識庫使用的是Drupal配合CDICM系統(tǒng)。中國人民大學(xué)教師成果庫使用的是CDICM。北京郵電大學(xué)機(jī)構(gòu)倉儲使用的是由杭州麥達(dá)提供的特色庫系統(tǒng)。以下分別對中國科學(xué)院科學(xué)數(shù)據(jù)庫使用的自主研發(fā)的軟件平臺、中國科技論文在線使用的PkuSpace、國家圖書館使用的科技信息資源與服務(wù)集成揭示系統(tǒng)以及中國人民大學(xué)教師成果庫使用的CDICM加以介紹。
3.3.1 中國科學(xué)院科學(xué)數(shù)據(jù)庫使用的自主研發(fā)的軟件平臺[12]系統(tǒng)主要分為以下幾部分來建設(shè):主題數(shù)據(jù)庫建設(shè),專題數(shù)據(jù)庫建設(shè),參考型數(shù)據(jù)庫建設(shè),專業(yè)數(shù)據(jù)庫建設(shè),科學(xué)數(shù)據(jù)庫核心元數(shù)據(jù),元數(shù)據(jù)訪問服務(wù)接口,數(shù)據(jù)服務(wù)。該系統(tǒng)分為以下模塊:資源與服務(wù)注冊系統(tǒng)1.0版,可視化關(guān)系數(shù)據(jù)庫管理與發(fā)布工具VisualDB1.3公測版,可定制移動數(shù)據(jù)采集系統(tǒng)MobileSDA1.0,日志自動上傳工具,科學(xué)數(shù)據(jù)庫服務(wù)監(jiān)控與統(tǒng)計系統(tǒng),基于規(guī)則的集成數(shù)據(jù)系統(tǒng)iRODS2.0,數(shù)據(jù)訪問服務(wù)系統(tǒng)2.0版(DAS),科學(xué)數(shù)據(jù)庫CA系統(tǒng)用戶接口,數(shù)據(jù)量統(tǒng)計工具包,通用元數(shù)據(jù)管理工具2.0,CSDB應(yīng)用服務(wù)器1.1版,生態(tài)元數(shù)據(jù)管理工具1.2,證書申請與使用工具,網(wǎng)站訪問量統(tǒng)計分析工具1.0,存儲服務(wù)工具集,圖像處理工具包安裝和使用說明,訪問控制工具包,科學(xué)數(shù)據(jù)庫CA系統(tǒng)工具,軟件集成測試平臺,數(shù)據(jù)共享聲明注錄系統(tǒng),Weblog日志分析和管理系統(tǒng),科學(xué)數(shù)據(jù)庫服務(wù)日志統(tǒng)計系統(tǒng),網(wǎng)絡(luò)服務(wù)監(jiān)控系統(tǒng),元數(shù)據(jù)管理工具。
3.3.2中國科技論文在線使用的PkuSpace[① 王位春2008年1月16日在北京大學(xué)所做的報告: PKUSpace中基于概念相似度的個性化推薦服務(wù)的設(shè)計與實現(xiàn).]①PkuSpace是國家自然科學(xué)基金支持的“網(wǎng)絡(luò)計算資源服務(wù)中間件”,教育部博士點基金支持的“協(xié)作式科技論文網(wǎng)絡(luò)共享平臺”,它是一個與惠普中國實驗室的合作項目。
PKUSpace致力于建立一個科研服務(wù)與交流平臺,提供科技文獻(xiàn)的存儲、共享、檢索、導(dǎo)航等基本功能,并融入了Web2.0的因素,提供協(xié)同標(biāo)簽、閱讀筆記以及個人文獻(xiàn)視圖等功能。在此基礎(chǔ)上,還提供了標(biāo)簽挖掘及文獻(xiàn)的個性化推薦等服務(wù)。該系統(tǒng)的特色就在于其推薦技術(shù)系統(tǒng)把作為Web2.0重要特征的協(xié)同標(biāo)簽引用到推薦算法中來,使用協(xié)同標(biāo)簽構(gòu)建語義概念及用戶偏好。常用的個性化推薦技術(shù)有基于規(guī)則的技術(shù)、協(xié)同過濾技術(shù)、基于內(nèi)容的過濾而PkuSpace系統(tǒng)使用的是基于內(nèi)容與協(xié)同過濾方法相結(jié)合的技術(shù)?;谝?guī)則的技術(shù)是通過用戶行為的歷史數(shù)據(jù)來進(jìn)行推薦,其缺點在于當(dāng)推薦的規(guī)則增加時,系統(tǒng)的效率會明顯降低。協(xié)同過濾技術(shù)是通過評級矩陣來進(jìn)行推薦的?;趦?nèi)容的過濾則是通過用戶對項的喜好或評級以及項的特征通過相似度計算來進(jìn)行推薦。它的缺點在于不能發(fā)現(xiàn)新的用戶感興趣的資源。PkuSpace所使用的基于內(nèi)容與協(xié)同過濾相結(jié)合的方法可以提高推薦算法的推薦完全性與準(zhǔn)確性,增加用戶對系統(tǒng)的信任度。同時,能發(fā)現(xiàn)用戶感興趣的新資源,拓展用戶的視野。
3.3.3 國家圖書館使用的科技信息資源與服務(wù)集成揭示系統(tǒng)集成揭示系統(tǒng)是國家科技基礎(chǔ)條件平臺建設(shè)綱要中提出的“科技圖書文獻(xiàn)信息保障系統(tǒng)”的重要組成部分,即:“科技圖書文獻(xiàn)信息保障系統(tǒng)”=“NSTL網(wǎng)絡(luò)服務(wù)系統(tǒng)”+“集成揭示系統(tǒng)”,是國家科技基礎(chǔ)條件平臺項目支持的科技文獻(xiàn)平臺重點項目之一,由國家科技圖書文獻(xiàn)中心(NSTL)負(fù)責(zé)建設(shè)、運(yùn)行、管理。集成揭示系統(tǒng)采用分布式體系架構(gòu)、 Web services 技術(shù),可實現(xiàn)對多種分布式信息資源系統(tǒng)的整合與揭示,同時通過規(guī)范的注冊管理機(jī)制,實現(xiàn)了對資源和服務(wù)的動態(tài)發(fā)現(xiàn)、獲取和管理,從而形成一個開放式的、可以不斷擴(kuò)充的共享服務(wù)平臺。 集成揭示系統(tǒng)已集成了中國科學(xué)院國家科學(xué)圖書館、中國國家圖書館、中國科學(xué)院國家科學(xué)圖書館蘭州分館、中國高等教育文獻(xiàn)保障系統(tǒng)、冶金工業(yè)信息標(biāo)準(zhǔn)研究院、浙江省科技信息研究院、高等教育出版社的相關(guān)資源與服務(wù)。
3.3.4 中國農(nóng)業(yè)大學(xué)知識庫使用的是Drupal配合下的CDICM(中國人民大學(xué)教師成果庫也使用CDICM)
中國農(nóng)業(yè)大學(xué)機(jī)構(gòu)知識庫建設(shè)使用的是CDICM內(nèi)容管理系統(tǒng)。該系統(tǒng)打開一個教師的詳細(xì)信息頁面,不但顯示該教師的個人信息,而且公式顯示該教師發(fā)表的學(xué)術(shù)論文、著作、培養(yǎng)的研究生和博士碩士學(xué)位論文、講授的課程、承擔(dān)的科研項目、取得的科研成果、專利等機(jī)構(gòu)知識庫中收錄的相關(guān)資源信息。系統(tǒng)的各個數(shù)據(jù)庫只能由圖書館員維護(hù)。教師不能對自己的相關(guān)內(nèi)容進(jìn)行提交和修改。CDICM是由北京中數(shù)創(chuàng)新技術(shù)有限公司開發(fā)的內(nèi)容管理軟件,可以收集有價值的文本、圖片、音頻、視頻等信息,進(jìn)行元數(shù)據(jù)加工,提供高質(zhì)量內(nèi)容發(fā)布、瀏覽、檢索、保存、管理及在線查詢服務(wù),比如支持各種規(guī)模多用戶的聯(lián)機(jī)事務(wù)處理系統(tǒng),提供可共享的數(shù)據(jù)格式和元數(shù)據(jù)標(biāo)準(zhǔn),采用RDF封裝的XML文件數(shù)據(jù)格式,是集數(shù)字資源加工、發(fā)布與調(diào)度功能于一體的館藏資源管理與應(yīng)用軟件。它于2002年12月1日推出試用版,2004年11月被選為數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范著錄工具,可以廣泛運(yùn)用于數(shù)字資源庫的建設(shè)和更新,適用于政府機(jī)關(guān)、科研院所、高等院校、圖書館、博物館、檔案館、出版社、圖書網(wǎng)站、電子商務(wù)、金融機(jī)構(gòu)、公司企業(yè)等單位進(jìn)行文獻(xiàn)、檔案、內(nèi)部資料的數(shù)字化,信息庫的建設(shè)、管理及網(wǎng)絡(luò)服務(wù)。
4小結(jié)
通過調(diào)查可以看出,國際上流行的軟件平臺如Dspace、Eprints、Bpress等在國內(nèi)并不受歡迎,Dspace在國內(nèi)只有4個機(jī)構(gòu)庫使用,有的原來使用Dspace的機(jī)構(gòu)庫也在運(yùn)行過程中慢慢更換了軟件平臺比如中國科學(xué)院國家科學(xué)圖書館(NSL_IR),中國西部環(huán)境與生態(tài)科學(xué)知識積累平臺。而Eprints、Bpress等在國內(nèi)并沒有應(yīng)用。那么是什么原因?qū)е聡H流行的軟件在國內(nèi)應(yīng)用并不廣泛?筆者認(rèn)為,Dspace是一個功能強(qiáng)大的開源軟件,但是使用Dspace的機(jī)構(gòu)庫界面都很相似,結(jié)構(gòu)也是基本一樣的,這樣就很難突出各個機(jī)構(gòu)庫的特色。至于Eprints、Bpress等軟件的應(yīng)用,很大程度上受到語言、開發(fā)能力、人員配置上的限制。而選用一個本土的軟件則顯得方便得多,尤其在系統(tǒng)的維護(hù)上則能得到開發(fā)方的大力支持。
參考文獻(xiàn):
[1][EB/OL].[2010-04-01].http://roar.eprints.org/view/software/.訪問日期:2010年4月
[2] 姜瑞其.國外機(jī)構(gòu)庫發(fā)展概況[J].Library and Information Sevice,2005,49(11):145-149.
[3] 李大玲. 學(xué)術(shù)機(jī)構(gòu)知識庫構(gòu)建模式研究[M].上海:上海交通大學(xué)出版社,2009.
[4] 蔣韻,傅俏,袁潤. 基于DSpace機(jī)構(gòu)知識庫系統(tǒng)的應(yīng)用研究[J]現(xiàn)代情報.2009,29(5):175-177,196.
[5] 傅俏.淺談Dspace在高校館構(gòu)建機(jī)構(gòu)知識庫中的應(yīng)用[J].圖書情報研究,2009,2(1):175-196.
[6] 邱遠(yuǎn)棋,孫王江,任紅平.Dspace體系結(jié)構(gòu)探析[J].情報探索,2009(4):85-87.
[7] DSpaee[EB/OL].[2010-04-01].http://www.dspace.org/index.php?opllon=com content&ta~ =view&id=145.
[8] 馬國棟,朱濂.基于Dspace的數(shù)字資源管理方案在圖書館建設(shè)中的應(yīng)用[J]. 現(xiàn)代情報,2006(3):116-118
[9] [2010-04-01].http://www.eprints.org/.
[10] 王軍.數(shù)字倉儲[J].數(shù)字圖書館論壇,2007(9):1-6.
[11] [EB/OL].[2010-04-01].http://www.unicode.org/standard/standard.html.
[12] [EB/OL].[2010-04-01].http://www1.csdb.cn/prohtml/0.projects.download/list-1.html.