洪 濤
關(guān)鍵詞:異構(gòu)數(shù)據(jù)庫;資源數(shù)字化;圖書館;資源整合
摘 要:充分利用信息技術(shù)促進數(shù)字資源整合是數(shù)字圖書館建設(shè)到一定階段出現(xiàn)的新任務(wù)。異構(gòu)資源整合是通過技術(shù)合力,將復(fù)雜轉(zhuǎn)變?yōu)楹唵?以實現(xiàn)數(shù)字圖書館建設(shè)的最優(yōu)目標。
中圖分類號:G250 文獻標識碼:A 文章編號:1003-1588(2009)06-0081-03
1 資源整合的數(shù)字化建設(shè)
數(shù)字化的圖書館本質(zhì)上就是一個集數(shù)據(jù)庫應(yīng)用平臺、信息資源電子商務(wù)平臺與資源數(shù)字化加工服務(wù)平臺于一體的巨大數(shù)據(jù)倉庫,以互聯(lián)網(wǎng)為平臺,面向全球用戶提供基于內(nèi)容的服務(wù)。作為圖書館發(fā)展的方向,數(shù)字圖書館應(yīng)以統(tǒng)一的標準和規(guī)范為基礎(chǔ)、以數(shù)字化的信息為底層、以分布式海量資源庫群為支撐、以智能檢索技術(shù)為手段、以電子商務(wù)為管理方式、以寬帶高速網(wǎng)絡(luò)為傳輸通道,將豐富多彩的多媒體信息傳遞到千家萬戶。值得一提的是,圖書館的研究已經(jīng)從信息交流拓展到了數(shù)字化(異構(gòu))資源管理和信息服務(wù)領(lǐng)域。針對“如何提高讀者對于數(shù)字資源等訪問率,如何提高資源對讀者的有效性,如何提高讀者的檢索效率”三個需求點來構(gòu)建我們圖書館基礎(chǔ)資源建設(shè)的全新模式。從圖書館發(fā)展趨勢來看,一是數(shù)字化。即圖書館所提供服務(wù)的文獻載體、手段、方式是數(shù)字化、網(wǎng)絡(luò)化的;二是結(jié)點化。即圖書館將以網(wǎng)站、五彩繽紛的網(wǎng)頁及豐富的內(nèi)容來吸引更多用戶的注意力和“點擊率”;三是特色化。即特色的館藏、專題數(shù)據(jù)庫、個性化的服務(wù),來滿足用戶特定的需求。
圖書館的總體目標是使得在任何時間、任何地點,每一個人都能方便快捷地獲取其需要的知識資源。圖書館必須要擁有數(shù)字資源,資源的組織、加工、管理構(gòu)成目前數(shù)字圖書館建設(shè)的核心內(nèi)容。凡引進(包括購買、租用和受贈)或自建(包括掃描、轉(zhuǎn)換和錄入)的,擁有磁、光介質(zhì)或網(wǎng)絡(luò)使用權(quán)的數(shù)字形態(tài)的文獻資源,均稱為圖書館的數(shù)字資源。根據(jù)目前圖書館的實際情況,數(shù)字資源劃分為四個種類:(1)電子書(包括學(xué)位論文及其他類似書的出版物)。(2)電子刊(包括其他類似刊的出版物)。(3)二次文獻數(shù)據(jù)庫(包括題錄、文摘、索引等)。(4)其他數(shù)據(jù)庫。因此,圖書館的數(shù)字化資源建設(shè)應(yīng)有4種類型。
1.1 資源型數(shù)據(jù)庫。資源型數(shù)據(jù)庫建設(shè)目標就是引進各種數(shù)字資源,提供用戶訪問。它是一種基礎(chǔ)型的、也是最有成效的數(shù)字圖書館類型。數(shù)字資源的引進是數(shù)字圖書館建設(shè)的第一階段,也是數(shù)字圖書館發(fā)展的關(guān)鍵階段。優(yōu)質(zhì)數(shù)字資源的大量引進改變了讀者利用資源的方式,提高了資源利用效率,資源投入比例大大提高。資源型面臨的主要問題是異構(gòu)數(shù)據(jù)庫資源的整合問題。
1.2 特色型數(shù)據(jù)庫。和資源型不同,它的主要任務(wù)是建設(shè)特色數(shù)字資源。包括特色資源的選題規(guī)劃、元數(shù)據(jù)方案的規(guī)劃、存儲方案的規(guī)劃、系統(tǒng)的開發(fā)或選型以及數(shù)據(jù)資源的收集、加工等。特色數(shù)字資源的加工是數(shù)字圖書館建設(shè)的第二階段。許多圖書館藏有大量的獨具特色的資源,這些資源往往跟當?shù)氐臍v史、文化以及學(xué)科專業(yè)息息相關(guān),不但具有收藏價值,而且對推動特色專業(yè)學(xué)科的研究與發(fā)展極具意義。
1.3 學(xué)科中心型資源數(shù)據(jù)庫。它是基于分布式環(huán)境的資源數(shù)據(jù)庫,也是數(shù)字圖書館建設(shè)的第三個階段。學(xué)科資源中心是一個通過分布式環(huán)境,讓相關(guān)學(xué)科資源整合為一個整體,提供在某一個學(xué)科方向上完備、全面、及時的資源保障與服務(wù)。數(shù)字資源有成員館及多家協(xié)作單位在分布系統(tǒng)支持下共同加工制作完成,對特定學(xué)科研究所需資源提供完整、全面、及時的服務(wù)。既有傳統(tǒng)的特色資源,還有來源于Internet的動態(tài)資源。充分發(fā)揮共建共享的優(yōu)勢,是數(shù)字圖書館邁向知識服務(wù)的重要標志。
1.4 研究和學(xué)習(xí)型數(shù)字資源。研究和學(xué)習(xí)型數(shù)字資源數(shù)據(jù)庫的建設(shè)也是數(shù)字圖書館建設(shè)的最后一個階段。它的內(nèi)容不但涵蓋上述三種數(shù)字圖書館的建設(shè)內(nèi)容,而且還包括基于網(wǎng)絡(luò)實時交互技術(shù)和支持網(wǎng)絡(luò)協(xié)作學(xué)習(xí)、研究的虛擬環(huán)境。如虛擬參考咨詢系統(tǒng),遠程教學(xué)系統(tǒng),協(xié)作研究系統(tǒng)等。
2 異構(gòu)數(shù)據(jù)庫資源整合
這種整合方式其實是數(shù)據(jù)源整合的進階,在國內(nèi)圖書館界較為流行。如北京大學(xué)圖書館、清華大學(xué)圖書館、上海交大圖書館、中科院文獻情報中心、華中科技大學(xué)圖書館等一些技術(shù)力量較為雄厚的圖書館都已經(jīng)開發(fā)出這種異構(gòu)數(shù)據(jù)庫檢索平臺,并已進入試運行階段。
理想的數(shù)字信息資源整合是把各種信息資源透明地?zé)o縫地聯(lián)在一起,融為一個有機的整體,讓用戶感覺是在一個資源系統(tǒng)中操作。經(jīng)過整合的資源可以充分發(fā)揮計算機和網(wǎng)絡(luò)的強大能力,使信息檢索效率大大提高。圖書館資源建設(shè)應(yīng)基本達到第三代數(shù)字圖書館發(fā)展的要求,即與多種異構(gòu)的信息提供系統(tǒng)無縫的信息服務(wù)視圖,提供跨平臺聯(lián)合檢索服務(wù)。異構(gòu)數(shù)據(jù)庫資源整合就是其中最為重要的衡量標準之一。
所謂的異構(gòu)數(shù)據(jù)庫系統(tǒng)是相關(guān)的多個數(shù)據(jù)庫系統(tǒng)的集合,可以實現(xiàn)數(shù)據(jù)的共享和透明訪問,每個數(shù)據(jù)庫系統(tǒng)在加入異構(gòu)數(shù)據(jù)庫系統(tǒng)之前本身就已經(jīng)存在。異構(gòu)數(shù)據(jù)庫的各個組成部分具有自身的自治性,實現(xiàn)數(shù)據(jù)共享的同時,每個數(shù)據(jù)庫系統(tǒng)仍保有自己的應(yīng)用特性、完整性控制和安全性控制。對用戶而言,這些異構(gòu)數(shù)據(jù)庫是透明的,用戶所看到的只是一個簡單明了的界面,不需要知道各數(shù)據(jù)庫不同的檢索方法,避免了需要逐個登錄數(shù)據(jù)庫、輸入檢索條件的麻煩,使用方便快捷,使用戶覺得就像在使用一個數(shù)據(jù)庫一樣。
以XML、RDF、Ontology等為基礎(chǔ)的新一代計算機技術(shù)為數(shù)字信息資源整合檢索提供了良好技術(shù)支持,代表著未來數(shù)字圖書館的發(fā)展方向,為圖書情報機構(gòu)展現(xiàn)了全新的發(fā)展領(lǐng)域,對現(xiàn)實的信息工作提供了有益的啟示。整合的技術(shù)思路在于建立統(tǒng)一的數(shù)據(jù)交換標準和接口,以保證異構(gòu)庫之間的透明訪問。
2.1 建立引文鏈接
通過引文鏈接方式構(gòu)建知識信息之間的內(nèi)容關(guān)聯(lián),是深度開發(fā)利用知識信息資源極為有效的手段。實現(xiàn)文獻之間的引文鏈接以后,用戶可以通過文獻之間的引證關(guān)系,直接從數(shù)據(jù)庫中得到引證線索和引用文獻的全文,使文獻的查準率及速度大大提高。圖書館可以在有關(guān)的統(tǒng)一機構(gòu)(河南如Halis)的協(xié)調(diào)下,將各館的中外期刊目次庫、題錄庫、全文數(shù)據(jù)庫、書目數(shù)據(jù)庫等進行引文鏈接,建立引用、被引關(guān)聯(lián),使用戶通過互聯(lián)網(wǎng)查詢存放在各圖書館網(wǎng)站上的引文鏈接數(shù)據(jù)庫,通過文獻之間交錯復(fù)雜的引用途徑在整個知識網(wǎng)絡(luò)中自由地漫游,從而最大限度地獲得相關(guān)知識信息。
2.2 研發(fā)知識元鏈接
知識本身就可以用文字給出一個簡潔明確的描述。這種描述在數(shù)據(jù)庫中可以作為一種知識信息元素,即知識元,它不僅可以直接表述知識的內(nèi)容,也可以通過全文數(shù)據(jù)庫的索引技術(shù)將使用這一知識元的文獻關(guān)聯(lián)起來。將大量不斷更新、不斷出現(xiàn)的知識元建成知識元數(shù)據(jù)庫,這樣產(chǎn)生的各種知識內(nèi)容之間的內(nèi)在網(wǎng)絡(luò)化關(guān)聯(lián),從而體現(xiàn)出各學(xué)科專業(yè)交叉滲透的關(guān)系特征。將知識元數(shù)據(jù)庫嵌入到各種數(shù)據(jù)庫當中,它將把數(shù)據(jù)庫內(nèi)部和各數(shù)據(jù)庫之間的知識信息從內(nèi)容上緊密關(guān)聯(lián)起來,并將通過文獻對知識發(fā)現(xiàn)的認識過程,使所有數(shù)據(jù)庫在知識元數(shù)據(jù)庫這一網(wǎng)絡(luò)的支配下成為一個內(nèi)容高度關(guān)聯(lián)的有機的整體。用戶可以充分利用知識的內(nèi)在關(guān)系,提高查全率。
2.3 異構(gòu)資源統(tǒng)一檢索功能
2.3.1 瀏覽與檢索。系統(tǒng)應(yīng)提供主題樹等索引系統(tǒng),幫助用戶以瀏覽的方式選取合適的檢索詞進行查詢。檢索應(yīng)包括簡單和高級檢索。簡單檢索應(yīng)包括自然語言、短語檢索及布爾算符、位置算符、截詞符和通配符等檢索。高級檢索應(yīng)提供多字段檢索和多種限制選項。同時,系統(tǒng)還應(yīng)提供檢索策略的保存及定題跟蹤服務(wù),以方便用戶再次檢索。
2.3.2 用戶定制功能。系統(tǒng)應(yīng)提供特定的學(xué)科入口,把同一學(xué)科相關(guān)的數(shù)據(jù)庫整合在一起。同時應(yīng)提供可供跨庫檢索的數(shù)據(jù)庫列表,并允許用戶自由選擇和組合,一次檢索到相關(guān)數(shù)據(jù)庫的各種信息。
2.3.3 統(tǒng)計功能。數(shù)據(jù)庫使用數(shù)據(jù)是電子資源利用率的重要指標,因此跨庫檢索系統(tǒng)應(yīng)提供完善的統(tǒng)計功能,包括用戶利用跨庫檢索系統(tǒng)訪問各數(shù)據(jù)庫的各種使用數(shù)據(jù),如訪問各數(shù)據(jù)庫的登錄數(shù)、檢索次數(shù)、下載題錄文摘數(shù)、下載全文數(shù)等。并提供各時間段、各用戶IP或賬戶的統(tǒng)計。
2.3.4 數(shù)據(jù)間的連接。系統(tǒng)應(yīng)兼容CrossRef、OpenURL、SFX等數(shù)據(jù)庫無縫鏈接技術(shù)或標準,使不同數(shù)據(jù)庫之間的各種記錄能互相鏈接。包括書目數(shù)據(jù)庫、文摘數(shù)據(jù)庫、全文數(shù)據(jù)庫中各種數(shù)據(jù)之間的互連。
2.3.5 數(shù)據(jù)的顯示與保存。系統(tǒng)應(yīng)對來源于不同數(shù)據(jù)庫的結(jié)果進行融合,檢索結(jié)果輸出應(yīng)具備排序功能,如按日期、篇名、作者、相關(guān)性排序。檢索記錄應(yīng)可以打印、下載、Email發(fā)送。最好能兼容各種Citation Manager軟件,如Reference Manager、Endnote、Refworks等。
3 異構(gòu)資源整合的技術(shù)模式
面對當前信息資源和網(wǎng)絡(luò)環(huán)境的復(fù)雜性,要實現(xiàn)解決異構(gòu)數(shù)據(jù)庫的跨庫檢索,傳統(tǒng)的DMBS(數(shù)據(jù)管理系統(tǒng))已經(jīng)很難解決。解決異構(gòu)數(shù)據(jù)庫問題的目的是為圖書館綜合應(yīng)用系統(tǒng)提供集成的、統(tǒng)一的、安全的、快捷的信息查詢、數(shù)據(jù)挖掘和決策支持服務(wù)。為了滿足這個條件,整合、集成后的數(shù)據(jù)必須保證一定的集成性、完整性、一致性和訪問安全性。主要包括以下相關(guān)技術(shù):
3.1 共網(wǎng)關(guān)接口技術(shù)CGI。利用CGI可實現(xiàn)Web與數(shù)據(jù)庫的連接。CGI(Common Gateway Interface)是最早的Web程序設(shè)計方式,它提供一個外部應(yīng)用程序與Web服務(wù)器交互的標準接口,遵循CGI標準編寫的Web服務(wù)器端的可執(zhí)行程序稱為CGI程序。CGI最大的優(yōu)勢之一是其與瀏覽Web站點的用戶之間的交互能力,使信息網(wǎng)關(guān)、反饋機制、訪問數(shù)據(jù)庫、查詢等一系列靈活復(fù)雜的操作得以實現(xiàn)。
3.2 開放式數(shù)據(jù)庫互連技術(shù)ODBC。它是Microsoft公司提供的標準的應(yīng)用程序接口。利用它可以實現(xiàn)一個應(yīng)用程序訪問不同的數(shù)據(jù)源。ODBC數(shù)據(jù)源驅(qū)動是實現(xiàn)ODBC驅(qū)動來訪問一個特定的數(shù)據(jù)源。ODBC屏蔽了底層數(shù)據(jù)庫系統(tǒng)的不同,數(shù)據(jù)開發(fā)者可以直接利用sql語句實現(xiàn)對不同數(shù)據(jù)庫中數(shù)據(jù)的操縱。
3.3 JAVA數(shù)據(jù)庫互連技術(shù)JDBC。主要針對瀏覽器/服務(wù)器結(jié)構(gòu)的WEB數(shù)據(jù)庫。JDBC的出現(xiàn)是Java編程中最重大的突破之一,它使得Java程序與數(shù)據(jù)庫服務(wù)器的連接更加方便。與其他的數(shù)據(jù)庫存取技術(shù)相比,JDBC繼承了Java語言的所有特點,不僅具有獨立于平臺運行、面向?qū)ο?、堅固性好的?yōu)點,而且具有多線程、內(nèi)置檢校器來防止病毒入侵等功能,更加適合網(wǎng)絡(luò)應(yīng)用。JDBC的這些特點也特別適合于實現(xiàn)對Web異構(gòu)數(shù)據(jù)庫的訪問。JDBC是連接Internet上異構(gòu)數(shù)據(jù)庫的最好方法。
3.4 XML應(yīng)用技術(shù)。它是一種可以對信息進行自我描述的語言,允許定義一套符合自己需要的標記,作為信息傳輸?shù)妮d體。標記用于界定內(nèi)容。XML語法允許自行定義任意復(fù)雜的標記結(jié)構(gòu)。XML使用普通的文本,而不是二進制的數(shù)據(jù)格式,因此具有跨平臺的優(yōu)點。XML的優(yōu)點在于:(1)規(guī)范、簡單。XML文檔有一套嚴謹而簡潔的語法結(jié)構(gòu)。這為XML解析器獲取文檔所含信息提供了前提。(2)可擴展性。應(yīng)用者可以按照需求定義自己的標記,而不像HTML一樣其標記都是預(yù)先定義的。(3)自描述性。自描述性使其非常適用于不同應(yīng)用間的數(shù)據(jù)交換,而且這種交換是不以預(yù)先規(guī)定一組數(shù)據(jù)結(jié)構(gòu)定義為前提,因此具備很強的開放性。(4)XML意義在于它可以把所有信息都存在于文檔中,采用HTTP的方式傳輸。因而,XML為異構(gòu)數(shù)據(jù)庫平臺在Web方式下的應(yīng)用提供了有利條件。
4 資源整合建設(shè)的人才保障。
人是知識經(jīng)濟的重要資源。知識經(jīng)濟時代是真正以人為本的時代,沒有出色的信息管理人才,就不會有出色的信息機構(gòu)。在網(wǎng)絡(luò)環(huán)境下,“館員·信息·網(wǎng)絡(luò)”三要素中,館員的地位可謂舉足輕重。要求館員應(yīng)是復(fù)合型人才,除了具有強烈的事業(yè)心、嚴謹?shù)墓ぷ鲬B(tài)度和開拓進取的創(chuàng)新精神外,圖書館的隊伍建設(shè),迫切需要三支學(xué)有專長的技術(shù)隊伍:(1)善于加工書目和各種信息庫的數(shù)據(jù)加工隊伍。(2)懂得計算機、網(wǎng)絡(luò)、多媒體等現(xiàn)代技術(shù),熟練掌握文獻情報的收集、加工、整理、傳遞知識和技能,能開展研究和開發(fā)各種軟件的技術(shù)隊伍。(3)懂得信息分類,熟悉使用數(shù)據(jù)庫資源系統(tǒng),懂外文、善于導(dǎo)航的信息咨詢隊伍。同時要注意引進和補充新型人才,特別是現(xiàn)代信息技術(shù)專門人才,從而培養(yǎng)建設(shè)一支學(xué)科專業(yè)結(jié)構(gòu)合理、一專多能、梯次發(fā)展的人才隊伍,為信息資源整合的數(shù)字化開發(fā)建設(shè)和信息服務(wù)提供高質(zhì)量、高水平的人才保障。
參考文獻:
[1] 曹玉霞.圖書館數(shù)字資源整合與管理[J].情報科學(xué),2003,(11).
[2] 趙洗塵.數(shù)字圖書館資源組織[J].圖書情報工作,2003,(3).
[3] 龔亦農(nóng).數(shù)字圖書館的資源整合[J]. 圖書情報工作,2005,(7).
[4] 馮琪等.異構(gòu)數(shù)據(jù)庫的連接[J].電腦與信息技術(shù),2003,(5).