,,
傳統(tǒng)學術出版作為學術交流和傳播的途徑,在數(shù)字時代日益呈現(xiàn)出與其初衷相悖的態(tài)勢。各數(shù)據(jù)庫廠商日趨壟斷并不斷商業(yè)化的趨勢形成了高昂的價格壁壘,成為學術成果生產(chǎn)者和使用者獲取與使用學術資源的阻礙。高校的教學和科研成果是彰顯高校辦學質量和核心競爭力的重要指標之一,是圖書館館藏建設的重要內(nèi)容,但是在傳統(tǒng)學術交流體系中,這些資源卻分散于各種期刊、數(shù)據(jù)庫和網(wǎng)站中,限制了圖書館和教研人員對本校研究成果的存取,不利于本校原生資源的共享和長期保存。因此,高校迫切需要一種自由開放、便捷可靠的學術資源交流共享方式。很多高校圖書館已經(jīng)意識到這個問題并開始著手構建本校原生資源庫,旨在將本校的教學科研成果集中保存、有效管理,以便于檢索和傳播使用[1-3]。
第二軍醫(yī)大學自建校以來已產(chǎn)生了海量的學術信息資源,包括已發(fā)表或未發(fā)表的期刊論文、會議論文、學術論文、科技報告、圖書、教學課件、成果專利、圖片等。第二軍醫(yī)大學圖書館(以下簡稱“我館”)通過自建原生資源數(shù)據(jù)庫平臺實現(xiàn)了對本校產(chǎn)生的學術資源的有效獲取、存檔、管理和利用,從而進一步促進了學術傳播和學術繁榮。
與傳統(tǒng)的紙質文獻和電子期刊數(shù)據(jù)庫相比,原生資源數(shù)據(jù)庫所涵蓋的數(shù)字資源在載體形式和文檔格式上更豐富,在時效性上也更具優(yōu)勢,能夠很好地促進圖書館的館藏資源建設和館藏結構優(yōu)化。為了完成第二軍醫(yī)大學自建校以來產(chǎn)生的全部原生文獻資源建設數(shù)字化任務,我館根據(jù)學校實際需求,構建原生文獻資源數(shù)字化加工、存儲、管理、服務于一體的集成環(huán)境,制定配套的建設管理使用規(guī)范,建設特色鮮明、種類齊全、內(nèi)容完整、布局合理的原生文獻信息資源庫,并搭建一個可以實現(xiàn)長期保存和動態(tài)更新的數(shù)字原生資源庫平臺。
該原生資源庫平臺需達到以下要求:一是數(shù)字文獻資源的集中存儲、集中管理、統(tǒng)一發(fā)布,數(shù)據(jù)制作與發(fā)布簡便、高效,審核發(fā)布后的數(shù)據(jù)前臺實時響應;二是方便高效地建立各種類型專題文獻庫,適應圖書、期刊論文、會議論文、學位論文以及教案、課件、報告、手稿等資料的管理和發(fā)布,并能適應百萬級以上規(guī)模資源文獻的管理和發(fā)布;三是支持單字段檢索,多字段聯(lián)合高級檢索,支持單庫瀏覽檢索以及跨庫聯(lián)合檢索,支持在線閱讀全文和全文下載功能,支持外部著錄數(shù)據(jù)(如Marc等)的批量導入和自動關聯(lián)標引,減少人工標引工作量。
原生資源庫平臺系統(tǒng)架構如圖1所示。
圖1 原生資源庫平臺設計架構
原生資源庫平臺共有存儲層、業(yè)務層、應用層3層邏輯結構。存儲層的主要功能是對數(shù)字資源內(nèi)容及相關的元數(shù)據(jù)進行儲存和修改等操作,其操作對象包括數(shù)據(jù)流(即數(shù)字資源本身和數(shù)據(jù)條目)和元數(shù)據(jù)(對數(shù)字資源屬性和相關關系進行描述與揭示的數(shù)據(jù));業(yè)務層負責對整個系統(tǒng)的業(yè)務邏輯進行操作,具體包括內(nèi)容管理(數(shù)字對象管理和唯一標識符生成)、存取管理(數(shù)字對象映射和數(shù)字對象分發(fā))和系統(tǒng)管理(用戶安全、權限、歷史日志和工作流等);應用層主要負責向用戶提供基于 Web 的操作界面,包括數(shù)字資源提交,對整個原生資源庫的瀏覽、檢索,數(shù)字資源獲取及其他一些信息服務[4-5]。
原生資源庫平臺的運行主要包括存儲和獲取兩個環(huán)節(jié)。存儲環(huán)節(jié)先由用戶通過應用層進行數(shù)字資源提交,然后由業(yè)務層進行內(nèi)容審核與管理,最后由存儲層進行數(shù)據(jù)流和元數(shù)據(jù)包的存儲;獲取環(huán)節(jié)由用戶通過應用層進行瀏覽與檢索,提交獲取申請,業(yè)務層根據(jù)檢索詞進行數(shù)字對象映射與分發(fā),從存儲層中抽取相關內(nèi)容,最后通過應用層將數(shù)字資源提供給用戶。
原生資源庫平臺主要包含文獻資源管理和數(shù)據(jù)發(fā)布兩大子系統(tǒng),分別實現(xiàn)文獻入庫、標引、發(fā)布和瀏覽的功能。系統(tǒng)采用B/S(Browser/Server)結構方式,客戶端可通過瀏覽器在任何時間和地點對服務器各種數(shù)據(jù)資源進行管理和檢索、瀏覽、下載[6]。
2.2.1 文獻資源管理子系統(tǒng)
該子系統(tǒng)主要實現(xiàn)對數(shù)字文獻資源的管理,包含各專題數(shù)據(jù)庫結構定義、全文入庫、標引、發(fā)布等功能[7-8]。
2.2.1.1 資源分類
原生資源類型包括科研資源和數(shù)學資源(表1)。正式出版物包括期刊論文、會議論文、圖書專著等,非正式出版物包括本校學位論文、工作報告、科研數(shù)據(jù)、講座報告、教案、課件、軟件和程序等各種形式的學術成果。
表1 原生資源庫管理的主要資源類型
系統(tǒng)還可針對用戶的需求,提供新建資源分類的功能,方便用戶根據(jù)本校特色資源庫的性質和讀者的需求實現(xiàn)資源的自定義分類管理。在分類時,交叉學科的資源除了嚴格按分類法進行分類外,還提供復選選項,解決學科、類型、主題交叉等帶來的多個分類的問題。
2.2.1.2 資源錄入
支持聯(lián)機采集數(shù)據(jù),支持doc(x)、xls(x)、caj、pdf、pdg等各種主流數(shù)字出版格式文件的批量導入;允許管理員逐條將所需發(fā)布的文獻添加到數(shù)據(jù)庫中,添加的基本信息包含操作用戶、文獻標題、全文文獻路徑、文獻來源、加工日期等,其他信息可以在標引環(huán)節(jié)處理;支持對新添加數(shù)據(jù)詳細信息的自動補全功能。在添加數(shù)據(jù)入庫時,可對用戶提供的基本信息與已存在數(shù)據(jù)進行對比,選擇出相似度最高的數(shù)據(jù)供管理員一鍵同步[9]。
支持線下采集數(shù)據(jù),如紙質圖書經(jīng)掃描儀導入等。經(jīng)掃描完成的圖像可按整本圖書的形式封裝成一本電子書,以PDF的格式進行保存。系統(tǒng)能夠提取書名、作者信息,將生成的電子書分門別類歸屬到相應專題數(shù)據(jù)庫;還可對每本圖書制作目錄導航,以PDF書簽形式在PDF文件內(nèi)生成目錄導航文件。有目錄頁的圖書,目錄導航遵照圖書目錄頁著錄,目錄編輯采用簡體字著錄;沒有目錄頁的圖書,則對照書本內(nèi)容編制目錄導航,一般編輯二級目錄。
2.2.1.3 自動標引著錄
原生資源進入數(shù)據(jù)庫之前要先經(jīng)過預處理,文獻的預處理包括轉碼、整理和標引等??梢酝ㄟ^標題、文摘作為標引源,經(jīng)OCR后,系統(tǒng)采用自動詞語抽取功能,對所識別出的主題詞進行優(yōu)選,或以其他算法得到的關鍵詞作為標引詞,最終產(chǎn)生表達所掃描文獻內(nèi)容的標引詞。還可采用標準的Marc格式對各類型文獻進行元數(shù)據(jù)著錄,并支持外部Marc文件的導入和交換。系統(tǒng)預先設置期刊(連續(xù)出版物)、圖書、報告、音視頻等常用文獻類型的Marc著錄字段,并允許用戶自由定義需要增加的字段[10]。
2.2.1.4 資源編輯加工
具有新建信息文檔的功能,可以將Word或互聯(lián)網(wǎng)頁的正文內(nèi)容直接復制粘貼到文檔內(nèi)容之中,可以在文檔正文中插入圖片和表格,可對文檔內(nèi)容進行可視化排版。信息錄入采用所見即所得的方式,文檔發(fā)布形式與文檔編輯版式相同。 文本編輯:支持像Word一樣的可視化在線編輯功能,支持Word內(nèi)容智能排版、Word圖片一鍵上傳,正文圖片在線裁剪功能,在線截屏功能;圖片編輯:支持圖片批量上傳并自動生成縮略圖,前臺幻燈片顯示圖片集;視頻編輯:支持斷點續(xù)傳,在線avi轉flv。
2.2.2 數(shù)據(jù)發(fā)布子系統(tǒng)
數(shù)據(jù)發(fā)布子系統(tǒng)主要完成自建原生資源庫的Web發(fā)布功能,界面友好,功能強大,以統(tǒng)一高效、快速方便檢索為目的,實現(xiàn)原生資源高效、準確、即時的發(fā)布。支持doc(x)、ppt(x)、pdf等格式文件的在線瀏覽功能。管理員可以指定需要發(fā)布的數(shù)據(jù)庫和文獻列表,一經(jīng)審核和發(fā)布后,前臺立即可以進行檢索和全文下載。主要功能包括:數(shù)據(jù)審核,完成數(shù)據(jù)發(fā)布前的審核,具有審核權限的用戶登陸到發(fā)布系統(tǒng),進行發(fā)布前審核,文獻審核通過(允許發(fā)表)后可以進行發(fā)布操作,允許用戶單篇或者批量選擇文獻進行審核操作;數(shù)據(jù)發(fā)布,完成信息的前臺發(fā)布,發(fā)布后可以立即進行前臺檢索和文獻下載,允許用戶選擇特定范圍的文章進行發(fā)布;訪問控制,所有用戶可以通過網(wǎng)絡地址訪問已發(fā)布的數(shù)據(jù),在線瀏覽和檢索、下載需要的資源;用戶管理,文獻加工、標引、審核發(fā)布人員管理功能,可以預先定義文獻導入權限、文獻標引權限、文獻審核權限、數(shù)據(jù)發(fā)布權限等5個管理權限。
為了節(jié)約建設和維護成本,現(xiàn)有的原生資源庫開發(fā)大多采用的是開放源碼軟件,如DSpace,EPrints,F(xiàn)edo等。但是,這些來源于國外的資源庫建設軟件,在頁面呈現(xiàn)、功能拓展以及長期維護方面都不太符合中國國情。我館原生資源庫平臺采用ASP.NET技術進行開發(fā),支持多種開發(fā)語言,如ADO.NET、AJAX無刷新技術、LINQ數(shù)據(jù)庫訪問技術、母版頁、Web Service、主題等。整個系統(tǒng)具有方便、靈活、性能優(yōu)、生產(chǎn)效率高、安全性強、完整性強等特點。
原生資源庫建設與維護的主要技術包括數(shù)字對象管理技術和開放存取技術。數(shù)字對象管理技術是原生資源庫實現(xiàn)內(nèi)容組織和長期保存的關鍵技術,其核心內(nèi)容是數(shù)字對象框架;開放存取技術是原生資源庫實現(xiàn)互操作和開放存取的關鍵技術,主要包括基于OAI-PMH的開放元數(shù)據(jù)互操作技術、基于DOI的永久性保存與利用技術、基于搜索引擎的開放存取技術和基于Web Service的開放存取技術等。
第二軍醫(yī)大學圖書館通過構建原生資源庫平臺,可將校內(nèi)學者、專家和學生所著的論文、書籍及教案、教學課件等有價值的資料用數(shù)字化的形式保存下來,也可以實現(xiàn)校內(nèi)資源共享。它將極大地推動高校信息資源開放共享,滿足用戶信息需求,促進科研成果快速轉化,提升高校和學者的學術影響力。