張晉輝
(中國地震臺網(wǎng)中心,北京 100045)
(作者電子信箱,張晉輝:zhangjh@seis.a(chǎn)c.cn)
機構知識庫(英文為Institutional Repository,簡稱IR)又稱為機構倉儲[1]、機構典藏庫等,是機構對本單位員工所創(chuàng)造的各種類型有價
值的知識產(chǎn)出進行統(tǒng)一收集、集中管理、長期保存和提供檢索利用等增殖服務的知識資產(chǎn)管理系統(tǒng)[2]。
機構知識庫起源于“草根”,最初由學者將成果發(fā)表在個人或專業(yè)的網(wǎng)站上,以加快學術交流和增加學術影響力。
機構知識庫產(chǎn)生的由來:
(1)紙質(zhì)資源價格上漲及商業(yè)出版的版權限制和時效性差引起學術交流不暢。
(2)研究人員對科研資源需求迫切,開放獲取運動興起,要求免費共享學術資源。
(3)計算機、網(wǎng)絡、數(shù)字化技術發(fā)展,數(shù)字化學術資源的集中保存、有效管理、便于檢索和傳播使用成為重要問題。
以上這些因素導致了機構知識庫的產(chǎn)生并使其得到迅速發(fā)展。
構建機構知識庫對于臺網(wǎng)中心的意義在于:
(1)對臺網(wǎng)中心的科研產(chǎn)品進行統(tǒng)一分類、標引、加工、存儲、檢索和利用,進行全面長期的集中管理和保存。
(2)促進科研活動的溝通與交流,提高科研效率及科研成果的應用效率[3]。
(3)有助于評價機構的研究方向與研究趨勢,及評價科研人員的科研績效。
(4)提升臺網(wǎng)中心的地位和價值,吸引更多的科研基金和科研人員。
機構知識庫對于單位員工的意義在于:
(1)增加個人研究成果可見性,提高學術影響和論文被引用率??焖賯鬟f研究成果,進行學術交流和知識共享。
(2)知識資源集中管理,永久保存提交的研究成果。通過固定的URL避免對工作的無效鏈接。
(3)便于個人成果的積累、評價、申報獎項。
國外對于IR的研究和建設始于20世紀末,近年來一直處于線性增長趨勢(圖1)。
根據(jù)OPENDOAR的統(tǒng)計結果(截止2012年11月9日),世界范圍內(nèi)在此網(wǎng)站上注冊的知識庫數(shù)量已達2 224個,其中機構知識庫1 840個,占82.7%。從國別(地區(qū))角度來看,擁有機構知識庫數(shù)量前8位的國家和地區(qū)分別是美國 (280)、英國 (156)、德國(150)、日本(132)、西班牙(73)、意大利(61)、波蘭(60)和臺灣地區(qū)(57)。
圖1 2005—2012年世界機構知識庫的動態(tài)增長趨勢[4]
圖2 世界機構知識庫的國家(地區(qū))分布
OPENDOAR網(wǎng)站收錄1 840個機構知識庫,涉及到29個學科。其中多學科機構知識庫有1 376個,占機構知識庫總數(shù)的61%,地球科學機構知識庫27個,僅占機構知識庫總數(shù)的1%。
目前,我國大陸及港澳臺地區(qū)在該網(wǎng)站上注冊的機構知識庫數(shù)量有90個(其中臺灣有57個)。北京大學、清華大學、廈門大學等高校和中國科學院等部分科研機構都已經(jīng)建立了機構知識庫,將研究者的智力成果進行集中保存,供分享、交流、參考利用。但是,我國機構知識庫的數(shù)量與西方發(fā)達國家之間存在很大差距,比例不到世界機構知識庫總量的5%,而中國地震局這一具有很強研究性質(zhì)的機構尚未建立自己的機構知識庫。
作為我國防震減災工作的重要業(yè)務樞紐、核心技術平臺和基礎信息國際交流的重要窗口,中國地震臺網(wǎng)中心各類科研成果斐然,除了正式發(fā)表和出版的論著外,還有大量的科技報告、工作報告、科學數(shù)據(jù)、多媒體資料、科研項目申報材料、學生畢業(yè)論文等各種極具學術科研價值的灰色文獻,但這些科研成果大多分散在科研人員個人手中,沒有得到廣泛的利用和共享,科研人員大都是在自己的圈子中埋頭苦干,并不了解其他同事的工作內(nèi)容,沒有形成充分有效的合作機制。所以,我們完全有必要建立一個統(tǒng)一的共享和交流平臺,長期保存并共享利用這些寶貴的知識財富。
中國地震臺網(wǎng)中心數(shù)字圖書館經(jīng)過幾年的建設,已經(jīng)取得了豐碩的成果。目前擁有40余種外文原版期刊的全文電子版;480余種中文地學類期刊的全文檢索服務及8萬多種中文圖書;5萬多篇天文學、地球科學類的博碩論文。維普、超星、萬方等中文電子資源數(shù)據(jù)庫鏡像站點等。在網(wǎng)絡環(huán)境下,70多家用戶(包括許多臺站)可隨時隨地快捷地訪問數(shù)字圖書館資源。還可免費瀏覽由地震臺網(wǎng)中心、京區(qū)有關研究所與超星公司聯(lián)合制作的數(shù)字全文圖書7萬多冊,其中地球科學類書刊2萬余冊。這些都為臺網(wǎng)中心機構知識庫的建設提供了豐富的資源、技術和經(jīng)驗支持。
圖3 世界機構知識庫的學科分布
4.1.1 進行需求調(diào)研
在制定臺網(wǎng)中心機構知識庫的構建計劃前,必須首先在臺網(wǎng)中心內(nèi)部進行需求調(diào)研。需求調(diào)研就是通過訪談、設計并發(fā)放調(diào)查問卷等方式,了解目前臺網(wǎng)中心地震科研成果的發(fā)表和存儲方式,計算機、網(wǎng)絡和存儲設備等硬件資源的狀況,中心領導、部門、組和科研人員對機構知識庫的認知程度,并摸清參與機構知識庫建設的主要力量等等。
4.1.2 定義服務功能[5]
定義服務功能就是在明確需求的前提下,確定臺網(wǎng)中心機構知識庫的服務內(nèi)容與服務范圍,包括機構知識庫將提供哪些服務、資源如何組織、有哪些關鍵用戶、是否有充足的經(jīng)費來源、是否收費等。
4.1.3 制定時間計劃
為構建機構知識庫所需的所有工作編制一個時間表,按照這個時間表執(zhí)行相關任務以保證機構知識庫構建工作按時完成。
編制政策文件是指根據(jù)前期的需求調(diào)研結果,明確機構知識庫的建設目標,并圍繞該目標制定相應的政策、工作流程、技術標準與維護方法等。政策文件主要包括[5]:
4.2.1 概述
概述是對構建機構知識庫的目的、功能和意義的簡要介紹。由于科研人員的學科背景主要是地球物理專業(yè),他們對機構知識庫一些專業(yè)術語和概念并不了解,所以在機構知識庫的構建前期,有必要向這些科研人員進行解釋和說明。
4.2.2 制定資源收集政策
資源收集政策規(guī)定機構知識庫收錄的資源類型和這些資源的組織方式。資源收集政策必須明確規(guī)定機構知識庫將收錄哪些類型的資料以及提交這些資料的格式。格式(包括 TXT、WORD、EXCEL、PDF、HTML等)的選擇對資源的提交和存儲都有直接的影響。值得注意的是,地震科研資源涉及到大量圖表資料,而圖表資料格式非常復雜多樣,因此有必要專門針對圖表資料制定相關政策。
4.2.3 規(guī)定資源提交和存儲政策
這部分既要規(guī)定資源存儲的步驟,又要明確資源提交的流程。
此外,在政策文件中還應包括機構知識庫的經(jīng)費模式、隱私問題等方面的內(nèi)容。
在建設機構知識庫前,必須對機構知識庫的建設費用進行預算,創(chuàng)建一個成本模型。成本模型應根據(jù)機構知識庫的建設策略進行選擇。機構知識庫建設策略主要有使用開放源代碼單獨建設、加入機構知識庫聯(lián)盟、使用商業(yè)系統(tǒng)或混合使用上述方式等幾種方式[5]。因此,成本模型需要結合機構知識庫的構建策略進行選擇。
根據(jù)臺網(wǎng)中心機構知識庫的構建計劃,確定所需的工作人員及其職責,組建臺網(wǎng)中心機構知識庫建設團隊。
在計劃階段,需要物色人員組成一個包括中心領導在內(nèi)的機構知識庫實施計劃小組,實施計劃小組主要負責需求調(diào)研、服務模型構建、成本分析與計劃制定;在實施階段,需要組建用戶服務與技術協(xié)調(diào)兩支專業(yè)隊伍,分別負責與用戶的溝通和技術支持。
5.1.1 資源類型界定
資源類型是CENC-IR存儲資源的內(nèi)容類型,主要包括:
單位員工正式出版的期刊論文和圖書、學術會議論文、博碩士學位論文、地震觀測和科研數(shù)據(jù)、工作簡報、開發(fā)的程序和軟件、專利和科技成果等等。這些知識產(chǎn)品可以通過檢索或瀏覽的方式在CENC-IR中獲取。
5.1.2 資源欄目設置
根據(jù)上述資源類型劃分,將臺網(wǎng)中心機構知識庫的資源內(nèi)容設置如下:
(1)研究成果類:期刊論文、會議論文、學位論文、圖書著作、專利文獻等;
(2)工作數(shù)據(jù)類:公文文檔、工作簡報、觀測數(shù)據(jù)、前兆數(shù)據(jù)、開發(fā)的程序及軟件等;
(3)教育培訓類:碩士研究生、博士研究生、教學課件、教學課程等;
(4)科研項目類:國家級項目、省部級項目、其他項目;
(5)歷史數(shù)據(jù)類:圖片資源、視頻資源、新聞報道等
(6)其他:無法歸類卻有保存必要。
5.1.3 資源采集
資源采集是指CENC-IR存儲資源的采集方式,主要包括:
按照業(yè)務部門/組為單位進行分類收集和管理;
單位員工的科研成果;
來訪交流人員的科研成果;
單位員工與外單位合作的科研成果;單位培養(yǎng)的碩博士的研究報告和學位論文等。
5.1.4 數(shù)據(jù)處理
數(shù)據(jù)處理分為對單位內(nèi)部科研資源的處理和對從其他開放資源中所收集到的科研資源的處理兩種[6]。
對臺網(wǎng)中心內(nèi)部科研資源的處理需經(jīng)過身份驗證、規(guī)范控制和建立索引3個步驟。首先對提交者身份進行驗證,拒絕接收未注冊的用戶所提交的內(nèi)容。規(guī)范控制是對所提交內(nèi)容的文件類型、文件格式、元數(shù)據(jù)質(zhì)量進行規(guī)范。對通過驗證和規(guī)范控制的內(nèi)容,要按照一定的順序建立索引,以供用戶檢索。
對于從其他開放資源中收集到的科研資源的處理,要經(jīng)過元數(shù)據(jù)過濾、格式轉換、標準化、建立索引的處理過程。對經(jīng)過上述處理的元數(shù)據(jù)按照一定的檢索點進行索引并形成相應的倒排檔,以供用戶檢索。
通過數(shù)據(jù)處理過程的元數(shù)據(jù)和資料將被添加到臺網(wǎng)中心IR的存儲區(qū)進行保存,并提供給臺網(wǎng)中心內(nèi)外的科研人員使用。
(1)管理機制:建立臺網(wǎng)中心部門/組/科研人員的層級式管理體系,集成單位辦公系統(tǒng)的認證系統(tǒng),控制用戶使用權限??刹捎觅~戶身份識別技術,將用戶分為5類:中心領導和部門主任、小組負責人、業(yè)務人員和管理人員;研究生;聘雇人員及臨時工作人員。中心領導和部門主任具有上傳資料和管理研究成果的權限;小組負責人、業(yè)務人員和管理人員僅具有上傳和下載資料的權限;研究生和聘雇人員及臨時工作人員無自行上傳資料權限,若欲上傳個人研究成果至系統(tǒng),則可請導師或工作人員代為上傳[7]。
同時,對文章資料設立保密登記制度。對于涉及到國家利益、國防安全等方面的資料設定最高保密等級,而對于其他資料設置一定的保密期(一般為半年到一年不等),過了保密期,就可以對臺網(wǎng)中心的所有人員開放,以便保護文章作者的著作權。
(2)政策機制:由臺網(wǎng)中心相關業(yè)務部門制定臺網(wǎng)中心機構知識庫成果提交政策;專利和軟件著作權登記制度、CENC-IR存繳和保存政策、CENC-IR傳播保護政策、知識產(chǎn)權政策等。
(3)激勵機制:采用一定的獎勵制度鼓勵科研人員貢獻和分享成果。為了使CENC-IR能夠成功地運營起來,可制定以下一些激勵機制:一是對于提交自己作品持消極態(tài)度的作者,盡量減少提交資料時的工作量,作者的作品可由情報信息部代為存儲;二是對作者進行有針對性的培訓,使他們能夠了解機構知識庫提供的服務,如知識資產(chǎn)統(tǒng)計等[8]。
(4)宣傳機制:由情報信息部負責聯(lián)系部分科研人員做試點推廣,幫助他們將研究成果通過臺網(wǎng)中心機構知識庫發(fā)布;主動向單位員工宣傳單位機構知識庫,例如編制宣傳小冊子、定期發(fā)送電子郵件等,宣傳機構知識庫的意義與作用。
(5)版權政策:對期刊、圖書根據(jù)出版商政策提供不同版本的全文或鏈接服務;對未出版物等灰色文獻,簽訂著作權聲明和版權許可協(xié)議,推進創(chuàng)作共用協(xié)議的使用,鼓勵科研人員在最大范圍內(nèi)公開學術成果的全文或詳細內(nèi)容。
5.3.1 開發(fā)軟件
機構知識庫軟件平臺的選擇在機構知識庫建設過程中十分關鍵,可供選擇的機構知識庫軟件多種多樣,選用哪種軟件取決于多種因素,軟件既要功能強大而又物美價廉,既能服務到位又要有后續(xù)保障。
據(jù)統(tǒng)計,目前IR軟件已有數(shù)十種之多[9],但使用范圍最廣的主要有兩種,DSpace和EPrints。其中EPrints是全球第一款IR軟件,在2004年以前的應用范圍最為廣泛。DSpace是由麻省理工大學圖書館和惠普公司在EPrints的經(jīng)驗基礎之上合作開發(fā)的,在功能設計上作了大量優(yōu)化,支持多種認證方式,支持被Google及其他搜索引擎索引,采用著名開源全文檢索引擎Lucene,使其直接具有強大的全文檢索功能等。DSpace是目前使用最多的機構知識庫軟件[10]。DSpace聯(lián)盟的許多成員使用該軟件構建了本機構的機構知識庫,如MIT、Cambridge和Columbia大學等。
DSpace的優(yōu)勢在于:
(1)系統(tǒng)結構合理,支持OAIS(開放檔案信息系統(tǒng)),是開源軟件可以運行于所有UNIX/Linux系統(tǒng),支持第三方開源系統(tǒng)。
(2)支持任意類型的內(nèi)容存儲。
(3)修改和擴展功能容易。
(4)能接受幾乎所有的文件類型。
(5)檢索功能強大,內(nèi)置Lucence,以便實現(xiàn)全文檢索。
(6)通過DSpace聯(lián)盟可以建立強大的虛擬館藏。
鑒于上述優(yōu)勢,筆者建議選取DSpace作為臺網(wǎng)中心機構知識庫的開發(fā)軟件。
5.3.2 系統(tǒng)架構
通過分析北京大學、浙江大學等單位機構知識庫的系統(tǒng)架構[11],并結合臺網(wǎng)中心自身的實際特點,筆者將臺網(wǎng)中心機構知識庫的系統(tǒng)架構設計如下(圖4):
它共分為用戶服務層、技術服務層、業(yè)務邏輯層、存儲層和硬件等5個層次,其中用戶服務層直接面向終端用戶提供服務,通過用戶服務層,用戶可以實現(xiàn)包括存儲、管理和檢索學術成果,監(jiān)測、分析和評估服務以及與圖書館的服務集成;技術服務層;業(yè)務邏輯層分為內(nèi)容管理、存取和用戶管理3個子系統(tǒng),它們分別實現(xiàn)對內(nèi)容的收集、管理內(nèi)容的存儲和檢索,以及對用戶的管理,是整個系統(tǒng)的核心部分;存儲層實現(xiàn)對數(shù)據(jù)流(日常數(shù)據(jù)條目)和數(shù)據(jù)對象(主要是數(shù)據(jù)庫和XML文件)的存儲,最底層就是支持上述服務的硬件設備,包括服務器、掃描儀等。5個層次是一個互相聯(lián)系、由下向上的垂直體系結構,它們自底向上逐級提供服務。
機構知識庫的建設是一項由眾多部門和人員參與的、涉及若干問題的綜合性項目,這需要相關部門和人員的密切配合和長期努力。機構知識庫構建方案的實施過程難免會遇到各種各樣的問題,中國地震臺網(wǎng)中心機構知識庫的構建過程中預期所面臨的問題主要包括:
制約機構知識庫建設和發(fā)展的最大障礙是版權問題,諸如出版機構的版權限制、學術期刊已授權其他單位、著作權不明等問題[12]。由于機構知識庫涉及到的資源來源廣泛、類型復雜,版權歸屬非常復雜。
為此,臺網(wǎng)中心必須要制定相應的版權政策,來維護內(nèi)容提交者、產(chǎn)權所有者、出版商等相關責任人的權利,避免不必要的法律糾紛。在制定政策之前,首先了解本國與機構知識庫相關的法律政策,包括與知識產(chǎn)權問題有關的版權、內(nèi)容許可等,使制定的政策符合國家法律規(guī)定和機構政策,同時借鑒國外機構知識庫版權問題的解決方法,以促進臺網(wǎng)中心機構知識庫版權問題的合理解決[13]。
圖4 CENC-IR的系統(tǒng)架構圖
建立和運行機構庫需要較高的成本,包括系統(tǒng)的軟硬件設施、升級和維護費用、培訓和推廣費用、人力資本等費用。項目建設團隊和日常維護團隊需要和發(fā)展財務處密切溝通,結合成本模型和財政預算,制定合理的項目經(jīng)費預算,工作團隊也要嚴格執(zhí)行各項預算,節(jié)約成本,使有限的資源發(fā)揮最大的效用。
(作者電子信箱,張晉輝:zhangjh@seis.a(chǎn)c.cn)
[1]馮占雙,金玉玲.機構倉儲的前景預測.圖書情報工作,2009,53(12):113-116
[2]楊宏.國內(nèi)機構知識庫研究綜述.上海高校圖書情報工作研究,2007(3):1-6
[3]程爽,周寧麗,張曙.機構知識庫建設實踐與探討——以中國人民大學教師成果數(shù)據(jù)庫建設為例.圖書情報工作,2012(S1):143-145
[4]University of Nottingham,UK.Growth of the OpenDOAR Database-Worldwide,Institutional Repositories[EB/OL].[2012-11-9].http:∥www.opendoar.org/onechart.php?cID=&ctID=&rtID=2&clID=&lID=&potID=&rSoftWareName=&search=&groupby=r.rDateAdded&orderby=&charttype=growth&width=600&height=350&caption=Growth%20of%20the%20OpenDOAR%20Database%20-%20Worldwide,%20Institutional%20Repositories
[5]何琳.機構知識庫建立的方法.新世紀圖書館,2008(3):67-70
[6]程爽,周寧麗,張曙.中科院合肥研究院機構知識庫(IR)及其機制建設研究.科技情報開發(fā)與經(jīng)濟,2010,20(20):120-124
[7]何艷寧.臺灣地區(qū)機構庫運行機制分析.圖書館學研究,2009(10):29-33
[8]李大玲.學術機構知識庫構建模式研究.上海:上海交通大學出版社,2009
[9]夏明春.機構知識庫發(fā)展現(xiàn)狀、問題及對策研究.圖書情報工作,2008,52(4):108-110
[10]李新,孫利芳.內(nèi)蒙古農(nóng)業(yè)大學機構知識庫構建初探.內(nèi)蒙古農(nóng)業(yè)大學學報(自然科學版),2011,32(2):311-315
[11]王穎潔.我國機構知識庫模式構建與流程設計.圖書情報工作,2008,52(4):104-107
[12]何艷寧.臺灣地區(qū)機構庫運行機制分析——以臺灣大學學術機構典藏(NTUR)為例.圖書館學研究,2009(10):29-33
[13]畢瑩.機構知識庫建設中的版權問題和對策.科技情報開發(fā)與經(jīng)濟,2011,21(24):124-126