徐 方 張 靜
〔摘 要〕分布式資源的集成以及互操作是當前數(shù)字圖書館發(fā)展過程中亟待解決的重要問題,而OAI-PMH元數(shù)據(jù)獲取協(xié)議的提出為實現(xiàn)分布式資源的互操作提供了一套良好的解決方案。本文通過對國內(nèi)該協(xié)議的相關(guān)研究論文進行調(diào)研,總結(jié)了國內(nèi)研究者在協(xié)議理論以及應(yīng)用方面的相關(guān)進展情況。
〔關(guān)鍵詞〕數(shù)字圖書館;互操作;元數(shù)據(jù);OAI-PMH協(xié)議
〔中圖分類號〕G250.76 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)01-0089-06
Outline on Chinese Research of OAI-PMH
Xu Fang1 Zhang Jing2,3
(1.School of Management,Beijing Normal University,Beijing 100875,China;
2.National Science Library,Chinese Academy of Sciences,Beijing 100080,China;
3.Graduate School,Chinese Academy of Sciences,Beijing 100000,China)
〔Abstract〕With the rapid development of digital libraries,the integration and interoperability of distributed resources arise as a very important problem to be resolved.OAI-PMH is an good solution to solve this problem.By means of statistics on the articles about OAI-PMH,the passage summarizes the development of the protocol in theories and applications.
〔Key words〕digital library;DL;interoperability;metadata;open archive initiative protocol for metadata harvesting;OAI-PMH
隨著計算機、網(wǎng)絡(luò)和通訊技術(shù)的發(fā)展,數(shù)字圖書館成為人們獲取信息的重要來源,然而面對網(wǎng)絡(luò)上的眾多分布式數(shù)字資源,人們更希望通過統(tǒng)一的檢索途徑獲得所需的信息。但要實現(xiàn)數(shù)字資源間的互操作并不容易,早期的數(shù)字圖書館在建設(shè)時缺乏統(tǒng)一的標準,其內(nèi)部數(shù)據(jù)資源的類型也有較大的差異,因而要制定一套能夠描述這些資源的統(tǒng)一的元數(shù)據(jù)格式相當困難。
OAI(Open Archives Initiative)最初由Paul Ginsparg,Rick Luce,Herbert Van de Sompel等人在1999年10月于Santa Fe的Universal Preprint Service會議中促成,意圖通過整合元數(shù)據(jù)來解決數(shù)據(jù)系統(tǒng)之間彼此不隸屬、資源分散存儲難以集成的問題。2001年4月,OAI組織發(fā)表了OAI-PMH元數(shù)據(jù)獲取協(xié)議(Open Archive Initiative Protocol for Metadata Harvesting),該協(xié)議是一個在分布式網(wǎng)絡(luò)化環(huán)境中獲取元數(shù)據(jù)信息的標準化協(xié)議,它將OAI的思想擴展到數(shù)字圖書館領(lǐng)域,通過提供了一個元數(shù)據(jù)互操作框架,整合網(wǎng)絡(luò)上不同結(jié)構(gòu)的數(shù)字資源,并以統(tǒng)一的格式為用戶提供增值服務(wù)。
OAI-PMH協(xié)議自發(fā)布以來得到了國內(nèi)外圖書情報工作者的廣泛關(guān)注,并在其理論研究和實踐應(yīng)用方面都取得了較大的進展。本文主要基于中國期刊全文數(shù)據(jù)庫、維普全文電子期刊數(shù)據(jù)庫、萬方數(shù)據(jù)知識服務(wù)平臺等電子資源庫以及Google Scholar、Cnki知識搜索等網(wǎng)絡(luò)資源中搜集到的中文文獻資料,對近年來國內(nèi)OAI-PMH協(xié)議的研究進展進行了分析和綜述。
1 文獻分析
為了對2001年以來國內(nèi)有關(guān)OAI-PMH協(xié)議的研究情況有一個較為全面的了解,筆者以“OAI”、“OAI-PMH”以及“元數(shù)據(jù)收割協(xié)議”為檢索點,對上述電子資源庫進行了關(guān)鍵詞以及題名檢索,得到近年來關(guān)于OAI-PMH協(xié)議的相關(guān)論文發(fā)表情況,如表1:
1.1 從論文數(shù)量上看
我國研究者對OAI-PMH協(xié)議的關(guān)注較早,發(fā)表于2002年的論文[1]是國內(nèi)最早比較系統(tǒng)的介紹該協(xié)議的文章。該篇論文針對北京數(shù)字圖書館研究所的中文元數(shù)據(jù)標準項目中已經(jīng)制定的拓片元數(shù)據(jù)標準,提出了基于OAI-PMH協(xié)議的元數(shù)據(jù)框架,為國內(nèi)對于OAI-PMH協(xié)議的研究鋪開了道路。此后,隨著資源整合的呼聲日益高漲,越來越多的研究人員開始加入了對OAI-PMH協(xié)議的研究行列,發(fā)表論文的數(shù)量也基本成逐年上升的趨勢。從2004年開始,國內(nèi)研究者對OAI-PMH協(xié)議的研究狀況呈現(xiàn)穩(wěn)定的趨勢,每年論文發(fā)表數(shù)量大概在15篇左右。正如其創(chuàng)始人之一,Van de Sompel教授指出的:OAI-PMH協(xié)議提供的是一種簡單的、低障礙(Low barrier)的互操作解決方案[2]。在解決當前數(shù)字圖書館元數(shù)據(jù)的互操作問題上,采用該協(xié)議的可實施性強、操作簡單,因此也得到了越來越多研究者們的關(guān)注。
1.2 從研究主題上看
通過分析2002年至今有關(guān)OAI-PMH協(xié)議的研究論文,可以將其研究方向歸納為如下5個方面:OAI-PMH協(xié)議的基礎(chǔ)研究、OAI-PMH協(xié)議與其他協(xié)議的比較研究、OAI-PMH協(xié)議的基礎(chǔ)應(yīng)用實踐、OAI-PMH協(xié)議的新領(lǐng)域?qū)嵺`以及對OAI-PMH協(xié)議的擴展。具體論文主題分布情況如表2:
不難看出,目前國內(nèi)對于OAI-PMH協(xié)議的研究狀況呈現(xiàn)一種“三分天下”的局面,即當今科研人員對該協(xié)議的基礎(chǔ)研究、基礎(chǔ)應(yīng)用實踐以及新領(lǐng)域?qū)嵺`這3個方向給予了較多的關(guān)注。其中,對于OAI-PMH協(xié)議的基礎(chǔ)研究起步較早,主要探討了協(xié)議產(chǎn)生的背景、原理、運行機制以及發(fā)展中存在的問題。從2002年到2004年,該領(lǐng)域論文的研究方向主要集中在基礎(chǔ)研究方面,并逐步向?qū)嵺`方面擴展。這說明基礎(chǔ)研究對于OAI-PMH協(xié)議的實踐具有指導性的作用,只有建立在一定理論研究的基礎(chǔ)之上,實踐項目才能順利的進行。
由于該協(xié)議提出的元數(shù)據(jù)互操作框架是一種“低障礙”的框架,一經(jīng)提出便被圖書情報界公認為是解決當前數(shù)字圖書館互操作問題的有利方案,因此隨著基礎(chǔ)理論研究的逐漸深入,2003年研究者開始將該協(xié)議應(yīng)用到數(shù)字圖書館的實踐項目中。目前,采用OAI-PMH協(xié)議構(gòu)建的實踐項目有北京大學中文古籍數(shù)字圖書館項目[3]、民族音樂數(shù)字圖書館項目[4]、CALIS高等學校學位論文全文數(shù)據(jù)庫[9]、科學數(shù)據(jù)庫跨庫搜索引擎[5]、知識倉庫建庫管理系統(tǒng)和知識網(wǎng)絡(luò)管理系統(tǒng)(KDKW35)[6]、山西省科技文獻資源平臺聯(lián)合目錄[7]、臺灣大學典藏數(shù)字化計劃[6]、臺灣知識門戶網(wǎng)站[6]、臺灣教育部教學資源交換平臺[6],以及研究者們采用開源OAI客戶端軟件,如ARC、Kelper等構(gòu)建的個人試驗項目[14]。以CALIS高等學校學位論文全文數(shù)據(jù)庫為例,該項目在國內(nèi)高校圖書館的范圍內(nèi),采用“各成員單位在本地建立自己的學位論文全文數(shù)據(jù)庫、通過OAI-PMH協(xié)議集中元數(shù)據(jù)”的分布建庫模式,構(gòu)建了統(tǒng)一的高校學位論文數(shù)據(jù)庫。各高??勺孕虚_發(fā)本地系統(tǒng),進行學位論文的提交和檢索工作,作為OAI的數(shù)據(jù)提供方,本地系統(tǒng)必須遵循OAI協(xié)議以及項目所確定的元數(shù)據(jù)標準和相關(guān)技術(shù)規(guī)范。
從2005年開始,研究者對于OAI-PMH協(xié)議的研究便主要以實踐為主,其研究內(nèi)容也跳出了基礎(chǔ)實踐方向,轉(zhuǎn)而研究該協(xié)議在新領(lǐng)域的實踐活動。目前,該協(xié)議已經(jīng)不僅僅提供一個供集成的元數(shù)據(jù)的框架,而是將側(cè)重點放在構(gòu)建個人圖書館、實現(xiàn)全文獲取、處理復(fù)雜數(shù)字對象的元數(shù)據(jù)以及與結(jié)合其他網(wǎng)絡(luò)基礎(chǔ)設(shè)施以實現(xiàn)數(shù)字圖書館的互操作等方面,可見OAI-PMH協(xié)議具有廣闊的發(fā)展研究空間。本文第4節(jié)將詳細介紹這些有關(guān)該協(xié)議的研究熱點。
另外,對于該協(xié)議與其他數(shù)字資源互操作協(xié)議的比較的研究也屬于該協(xié)議的早期研究內(nèi)容,隨著基礎(chǔ)研究的深入,OAI-PMH協(xié)議的優(yōu)勢已經(jīng)無需更多的語言贅述,因而近年來研究的較少。但是對于該協(xié)議的擴展,結(jié)合其在新領(lǐng)域的實踐目前還是一個較新的領(lǐng)域,論文的數(shù)量比較少。由于OAI-PMH協(xié)議本身存在的一些缺陷,將該協(xié)議進行擴展以滿足其在實踐中的應(yīng)用是一種必然,值得深入的研究。
1.3 從作者專業(yè)、發(fā)表期刊看
就當前論文作者的專業(yè)看,對于OAI-PMH協(xié)議的研究基本上集中在圖書情報界,各地的圖書情報工作者對于該協(xié)議理論基礎(chǔ)以及應(yīng)用實踐的研究都取得了較大的進展;其次,計算機以及軟件專業(yè)的工作者對該協(xié)議也有一定的了解;另外還有來自其他領(lǐng)域的研究人員,例如文章[8]作者的專業(yè)方向為“攝影測量與遙感”,主要研究“地理信息系統(tǒng)”,該篇論文指出:數(shù)字圖書館的元數(shù)據(jù)與地理信息元數(shù)據(jù)存在很多相似性,將數(shù)字圖書館的元數(shù)據(jù)互操作協(xié)議應(yīng)用于地理信息領(lǐng)域,有助于解決其空間元數(shù)據(jù)的互操作問題。
就期刊情況而言,國內(nèi)論文大約有85%的來源于圖書情報方向的期刊,例如情報學報、情報理論與實踐、現(xiàn)代情報等;剩余15%來源于計算機方向的期刊,例如計算機工程、計算機工程與應(yīng)用等??梢?,OAI-PMH協(xié)議主要應(yīng)用于圖書情報以及計算機領(lǐng)域,還沒有在其他領(lǐng)域內(nèi)形成規(guī)模。
2 國內(nèi)OAI-PMH協(xié)議研究進展
早在2002年,我國圖書情報工作者便開始了較為系統(tǒng)的對OAI-PMH協(xié)議的研究。論文[1]提出了一套較為完善的基于OAI的元數(shù)據(jù)互操作框架,并詳細說明了其中的各個組件以及每個組件包含的模塊,在OAI已有規(guī)則的基礎(chǔ)上,研究者還提出與Ontology結(jié)合的觀點,即數(shù)據(jù)提供者可以根據(jù)Ontology提供的主題分類來組織元數(shù)據(jù),而服務(wù)提供者可以建立不同的Ontology之間的映射關(guān)系,從而實現(xiàn)對元數(shù)據(jù)的分類。
到了2003年,在理論研究的基礎(chǔ)上,國內(nèi)研究者對OAI的關(guān)注深入到具體實踐方面,并對協(xié)議中存在的問題提出了一系列的改進方案。當時關(guān)于該協(xié)議的實踐項目有CALIS高校學位論文全文數(shù)據(jù)庫、民族音樂數(shù)字圖書館、臺灣大學典藏數(shù)字化計劃等,在將OAI-PMH協(xié)議應(yīng)用于具體數(shù)字圖書館建設(shè)的同時,協(xié)議在設(shè)計上存在的一些問題也得到了研究者的關(guān)注。比如OAI-PMH協(xié)議沒有提供于刪除記錄有關(guān)的操作,其中的一種改進方案提出了采用“表單記錄”方式處理刪除記錄,即數(shù)據(jù)提供者將最新的刪除記錄自動放在數(shù)據(jù)庫的某個表中,服務(wù)提供者收集到這些刪除記錄信息后,會自動將這些記錄從表單中清除,因此每次只留下最新的刪除記錄信息,這樣的處理方式可以顯著的提高系統(tǒng)運行時的效率[9]。研究者們還提出使用特定的管理模塊定制個性化的元數(shù)據(jù)獲取規(guī)則,用戶可以通過預(yù)先設(shè)置來控制系統(tǒng)根據(jù)不同抓取條件定期向指定的數(shù)據(jù)提供方抓取元數(shù)據(jù)記錄,更新本地元數(shù)據(jù)倉儲。對于抓取過程的監(jiān)控也是研究者們改進的方向,例如在元數(shù)據(jù)抓取過程中由于網(wǎng)絡(luò)、數(shù)據(jù)提供方服務(wù)器故障等問題造成的抓取任務(wù)的失敗,用戶可以手動將這些未完成的進程重新開始或取消[11]。此外,由于OAI-PMH協(xié)議只能針對數(shù)據(jù)資源層次進行整合,而不能做到服務(wù)層次的集成,因此研究人員還提出了將該協(xié)議應(yīng)用于Web Services環(huán)境下的設(shè)想。由于每個服務(wù)提供者都有各有所長,用戶在享受這個服務(wù)提供者的長處的同時,不可避免地受到其短處的制約,如果能夠讓某一個服務(wù)提供者自動地選擇其他服務(wù)提供者提供的服務(wù),將多個服務(wù)提供者的功能集成在一起并透明的提供給用戶,則可以讓用戶在不知不覺間享受到更加完善的服務(wù),同時也完善了OAI協(xié)議的功能。但是這種想法 目前只是一個初步的設(shè)想,對于服務(wù)發(fā)現(xiàn)以及被發(fā)現(xiàn)的可靠性問題、分布式服務(wù)整合的效率問題、安全以及費用等問題都還需要進一步探討[10]。
隨著OAI-PMH協(xié)議應(yīng)用越來越廣泛,2004年的論文繼續(xù)針對協(xié)議使用中存在的不足進行了補充和完善。在論文[11]中引入了ODL協(xié)議,該協(xié)議是一個基于OAI的擴展協(xié)議,既保持了對OAI的兼容,也彌補了OAI的不足,更好地適應(yīng)DL復(fù)雜的應(yīng)用和服務(wù)的需要。ODL主要引入了軟件工程中組件化的設(shè)計思想,這與Web Services類似,它將DL的典型服務(wù)定義為多個與平臺無關(guān)的符合ODL的組件,使相同組件在不同的DL項目中可以重用,有助于實現(xiàn)不同DL的相同服務(wù)之間的互操作。同年,數(shù)字圖書館標準與規(guī)范建設(shè)被納入科技部科技基礎(chǔ)條件平臺工作重點項目,該項目針對OAI-PMH協(xié)議提供了應(yīng)用指南,可以說是OAI-PMH協(xié)議的中文寶典。指南分別從簡介、協(xié)議說明、技術(shù)結(jié)構(gòu)、數(shù)據(jù)提供者的應(yīng)用方式、協(xié)議的實現(xiàn)方式、與其他協(xié)議和規(guī)范的結(jié)合、相關(guān)資源、原型實現(xiàn)、案例分析、實現(xiàn)指南概要等10個方面對OAI-PMH協(xié)議進行了詳細的說明,更加深化了人們對該協(xié)議的理解。
在此后的幾年時間里,國內(nèi)對于OAI-PMH協(xié)議的研究更加關(guān)注實用性,對于如何將協(xié)議更好的應(yīng)用于數(shù)字圖書館的互操作中,進一步完善數(shù)據(jù)提供者、服務(wù)提供者以及各個組件的功能,如何收割不同格式的元數(shù)據(jù)、進行原文獲取、實現(xiàn)跨庫檢索平臺等方面提出了具體的解決方案。由于OAI協(xié)議只是一個關(guān)于元數(shù)據(jù)收割的協(xié)議,因此并沒有提供獲取原文的機制,即該協(xié)議沒有提供元數(shù)據(jù)與其描述對象之間的關(guān)聯(lián),然而在實際應(yīng)用中用戶需要查看原文,建立全文索引也需要大量的原文。為了解決這個問題,論文[12]中采取的方法是在數(shù)據(jù)提供者中采用一個DC字段來記錄原文的URL,并將其進行封裝,服務(wù)提供者可以通過調(diào)用這個封裝器從數(shù)據(jù)提供者那里獲取原文URL,并下載存放到本地的全文庫中。此外,OAI-PMH協(xié)議與網(wǎng)格技術(shù)的結(jié)合也是近幾年的研究熱點。網(wǎng)格技術(shù)通過提供一組協(xié)議保證了網(wǎng)絡(luò)傳輸?shù)陌踩耘c通訊的實時性,更加合理的解決了資源與任務(wù)的分配和調(diào)度問題,與網(wǎng)格技術(shù)的結(jié)合能夠更加高效的完成OAI-PMH協(xié)議的收割過程。
可以將OAI-PMH協(xié)議近幾年的發(fā)展狀況總結(jié)如表3:
3 OAI-PMH協(xié)議存在的問題及其解決方案
3.1 無法處理更新和刪除元數(shù)據(jù)信息
正如上文提到的,由于OAI-PMH協(xié)議所提供的是一種增量查詢機制,它只能獲取數(shù)據(jù)提供者在某個時間段內(nèi)中新增加的元數(shù)據(jù),但沒法獲取其中被刪除或修改的元數(shù)據(jù)信息,這種機制導致了資源庫中的元數(shù)據(jù)信息與數(shù)據(jù)提供者間可能存在不一致。
3.2 DC元素集的精確度不夠
為了元數(shù)據(jù)標準的統(tǒng)一和更廣泛的適用性,OAI-PMH協(xié)議采用Dublin Core作為互操作的標準元數(shù)據(jù),但是由于DC的核心元素集只有15個,精確度不夠,因此不能很好滿足不同類型的需求。另外,采用Dublin Core使得最終提供給用戶的檢索服務(wù)只能停留在DC的15個元素的范圍內(nèi),這與人們期望的深度內(nèi)容檢索也有相當大的差距。
3.3 不提供原文獲取功能
OAI-PMH協(xié)議只規(guī)定不同數(shù)字圖書館之間如何交換數(shù)字資源的“線索”,即資源的元數(shù)據(jù)信息,如果想要獲取原始館藏資源則還需要其它協(xié)議的配合。
為了解決上述問題,Edward Fox教授和他的學生Hussein Suleman首先提出了擴展的OAI-PMH協(xié)議。該協(xié)議擴展了OAI的Identify容器,在數(shù)據(jù)提供者對Identify的響應(yīng)結(jié)果中增加了ODL協(xié)議和版本的描述;擴展了Response-Level容器,增加了對響應(yīng)的記錄總數(shù)的描述;擴展了時間粒度,規(guī)定時間粒度精確到秒;擴展了元數(shù)據(jù)格式,不再要求必須符合DC要求;增加了putRecord方法,該方法與getRecord方法類似,用來對知識資源庫中的元數(shù)據(jù)記錄進行增刪改操作。
與此同時,國內(nèi)的研究人員也開始研究擴展OAI-PMH協(xié)議的方法。論文[13]中提到通過“采用更加復(fù)雜的元數(shù)據(jù)格式”,如METS、MPEG-21 DIDL、OEBPS、SCORM等來克服DC等普通描述元數(shù)據(jù)在資源收割方面的不足,同時為了整合這些不同的元數(shù)據(jù)格式,研究者又提出了采用Warwick框架。Warwick框架提出了一個容器體系機構(gòu)的概念模型,是一種能夠容納各種元數(shù)據(jù)的容器結(jié)構(gòu),在其中用戶可以根據(jù)自身需要部署多個元數(shù)據(jù)集合,比如DC、METS等,當然這個框架的特定實現(xiàn)必須提供一個用于處理容器和它的元數(shù)據(jù)包的實際方法。這種結(jié)構(gòu)的優(yōu)勢在于其具有模塊化、可擴展性、分布式、遞歸性等特點,可以整合不同的元數(shù)據(jù)格式,較為容易的添加新的元數(shù)據(jù)類型,允許參考外部元數(shù)據(jù)對象,并且能夠處理與已知格式相關(guān)聯(lián)的元數(shù)據(jù)對象。
在解決原文獲取問題上,Kelper客戶端是一個成功的實例。Kelper是一個簡單易用的個人數(shù)據(jù)提供者,它基于OAI-PMH協(xié)議,可以很容易的安裝在客戶端個人PC上,為研究者發(fā)布個人研究成果以及共享信息資源提供服務(wù)。Kelper提供的獲取原文途徑主要有兩種,一是提供該資源所在的服務(wù)提供者的URL地址,服務(wù)提供者可以根據(jù)這個地址獲取原文;二是緩存文檔內(nèi)容,即服務(wù)提供者自動保存最后一次正確訪問該資源的原文內(nèi)容,當授權(quán)用戶進行二次訪問時,服務(wù)提供者就可以直接從緩存中獲取到所需的館藏資源。
在對OAI-PMH協(xié)議進行擴展的同時我們也應(yīng)該注意到,目前已經(jīng)有大量基于該協(xié)議的應(yīng)用和工具, 擴展工作可能會對它們造成一定的影響,因此擴展還需慎重。
3.4 沒有提供安全認證以及訪問控制的功能
在OAI-PMH協(xié)議中并沒有集成諸如安全認證、訪問控制等功能,而是將其交給OAI所依賴的HTTP來完成。例如,可以在注冊的時候進行IP限制,只有具有指定IP地址的服務(wù)提供者才能夠從某個數(shù)據(jù)提供者中獲取元數(shù)據(jù);也可以通過用戶名/密碼控制,服務(wù)提供者必須提交了正確的用戶名和密碼之后,才能從數(shù)據(jù)提供者中獲得元數(shù)據(jù)。
3.5 不適用于小規(guī)模的資源庫建設(shè)
OAI-PMH協(xié)議的提出較好的解決了Internet環(huán)境下數(shù)字圖書館之間彼此孤立的問題,正因為它是一種"低門檻"的協(xié)議,因此更適合應(yīng)用在那些大規(guī)模、多節(jié)點、松耦合的數(shù)字圖書館網(wǎng)絡(luò)中,對于一些規(guī)模較小節(jié)點也比較少的網(wǎng)絡(luò),比如一個地區(qū)的有限幾個圖書館或者一個圖書館的幾個分部來說,采用該協(xié)議并不是最佳選擇[14]。因此,在考慮構(gòu)建數(shù)字圖書館網(wǎng)絡(luò)的時候,應(yīng)當具體問題具體分析,選擇合適的協(xié)議標準,比如對于節(jié)點數(shù)較少的網(wǎng)絡(luò)環(huán)境可以采用分布式搜索技術(shù)實現(xiàn)互操作[15]。
4 國內(nèi)OAI-PMH協(xié)議的研究熱點
4.1 構(gòu)建個人數(shù)字圖書館
個人用戶計算機是個內(nèi)容豐富的個人數(shù)字圖書館,應(yīng)用OAI-PMH協(xié)議可以有效管理這些內(nèi)容,在滿足用戶個性化要求的前提下更方便地實現(xiàn)個人數(shù)字圖書館之間的互操作。文章[16]已經(jīng)基于Kelper構(gòu)建了個人數(shù)字圖書館,但是手工生成元數(shù)據(jù)、資源標引深度過淺以及將OAI協(xié)議應(yīng)用到小型數(shù)據(jù)源是否“大材小用”的問題,還有待解決。
4.2 共享廣泛的機構(gòu)倉儲資源
機構(gòu)倉儲是大學及研究團體等學術(shù)機構(gòu)建立起來用來存儲自己科研人員研究成果的資源庫[17],倉儲所收集的資源類型包括本機構(gòu)的期刊論文、學位論文、會議論文、研究報告、預(yù)印本、專利等。如果所有的機構(gòu)倉儲都能支持OAI-PMH協(xié)議,服務(wù)提供者便可以通過收割元數(shù)據(jù)共享機構(gòu)倉儲資源,建立統(tǒng)一的檢索平臺,從而有效推動全球?qū)W術(shù)資源的廣泛共享。文章[18]中提到的電子預(yù)印本資源共享即是機構(gòu)倉儲的一種類型。
4.3 整合不同類型的信息資源
OAI-PMH協(xié)議的服務(wù)提供者可以對OAI官方網(wǎng)站上注冊的數(shù)據(jù)提供者進行元數(shù)據(jù)的分析采集,但除此之外,Internet上還分布著其他類型的信息資源,比如靜態(tài)的網(wǎng)頁、數(shù)據(jù)庫以及Z39.50服務(wù)器等,研究者們希望能夠通過OAI-PMH協(xié)議實現(xiàn)不同類型信息資源的整合。論文[19]中實踐了對不同類型資源的元數(shù)據(jù)整合工作,OAI服務(wù)提供者需要從這些不同類型的信息資源中抽取元數(shù)據(jù),并在此基礎(chǔ)上生成供自己使用的本地OAI數(shù)據(jù)源。其中如何抽取元數(shù)據(jù)以及本地數(shù)據(jù)源的生成規(guī)則是其中的重點研究問題。
4.4 結(jié)合網(wǎng)格基礎(chǔ)設(shè)施
為了在Internet上實現(xiàn)更加有效的元數(shù)據(jù)發(fā)現(xiàn)、收集以及索引服務(wù),需要提供支持這些操作的良好的框架結(jié)構(gòu)以及高性能的服務(wù)器。目前,對元數(shù)據(jù)的這些操作都集中在一臺或者是幾臺服務(wù)器上,由于受到服務(wù)器性能以及網(wǎng)絡(luò)環(huán)境限制,這種實現(xiàn)方式在性能、可靠性以及可擴展性方面都比較差,不能適應(yīng)數(shù)字圖書館互操作規(guī)模持續(xù)擴大的要求。
網(wǎng)格是架構(gòu)在互聯(lián)網(wǎng)上的一組新興技術(shù),它將高速互聯(lián)網(wǎng)、高性能計算機、大型數(shù)據(jù)庫、傳感器、遠程設(shè)備等融為一體,可以為科研人員和普通用戶提供更多的資源和功能以及更加良好的交互性。與互聯(lián)網(wǎng)所提供的電子郵件、網(wǎng)頁瀏覽等通信功能相比,網(wǎng)格的功能則要更多更強,力求讓人們可以無障礙的使用網(wǎng)格架構(gòu)中的計算、存儲等多種資源。
將OAI-PMH協(xié)議架構(gòu)與網(wǎng)格基礎(chǔ)設(shè)施之上,其實質(zhì)就是用網(wǎng)格所提供的高性能的計算節(jié)點來實現(xiàn)協(xié)議中的數(shù)據(jù)提供者以及服務(wù)提供者的功能。網(wǎng)格節(jié)點可以增強元數(shù)據(jù)收集和索引的動態(tài)性能,加快元數(shù)據(jù)的更新速度;網(wǎng)格所提供的標準的規(guī)范和通用的接口可以保證了資源訪問的安全。采用網(wǎng)格基礎(chǔ)設(shè)施實現(xiàn)OAI-PMH協(xié)議,能夠降低元數(shù)據(jù)獲取的費用、提高數(shù)字圖書館服務(wù)的質(zhì)量,實現(xiàn)大規(guī)模的信息資源共享[20]。
5 結(jié) 語
OAI-PMH協(xié)議作為一種獲取元數(shù)據(jù)信息的標準化協(xié)議,已經(jīng)成為實現(xiàn)分布式數(shù)字圖書館互操作性的關(guān)鍵技術(shù)。它不僅可以應(yīng)用于數(shù)字圖書館領(lǐng)域,也可以解決企業(yè)信息管理系統(tǒng)以及電子商務(wù)系統(tǒng)中的信息交互問題。隨著該協(xié)議應(yīng)用領(lǐng)域的拓寬以及協(xié)議內(nèi)容的不斷完善,OAI-PMH協(xié)議將進一步推動資源的廣泛共享。
參考文獻
[1]王愛華,張銘,楊冬青,等.基于OAI的數(shù)字圖書館中元數(shù)據(jù)互操作框架[J].計算機工程與應(yīng)用,2002,(1):5-7,41.
[2]C.Lagoze,H.Van de Sompel.The Open Archives Initiative:Building a low-barrier interoperability framework[J].Proceedings of the 1st ACM/IEEE-CS joint conference on Digital libraries,2001:54-62.
[3]王蜀安,汪萌,張銘.支持OAI—PMH的元數(shù)據(jù)互操作體系結(jié)構(gòu)設(shè)計與實現(xiàn)[J].計算機工程與應(yīng)用,2003,(20):168-172.
[4]鄭巧英,楊宗英.基于OAI協(xié)議的民族音樂數(shù)字圖書館互操作系統(tǒng)[J].高校圖書館工作,2003,(5):7-10.
[5]中國國家科學數(shù)字圖書館.http:∥www.csdl.ac.cn/ejournal/SPT—OAISearchInterface.php[EB/OL].2006-10-26.
[6]李勇文.OAI集成信息檢索系統(tǒng)研究與設(shè)計[D].四川:四川大學,2004.
[7]劉軍.基于OAI-PMH的山西省科技文獻資源平臺聯(lián)合目錄的實現(xiàn)[J].科技情報開發(fā)與經(jīng)濟,2007,(17):213-214.
[8]毛海霞.基于OAI-PMH的空間元數(shù)據(jù)互操作理論研究與實現(xiàn)[D].武漢:武漢大學,2004.
[9]趙陽,姜愛蓉.基于OAI 的“CALIS高校學位論文全文數(shù)據(jù)庫”建設(shè)[J].上海交通大學學報,2003,(9):234-238.
[10]夏翠娟.Web Services與數(shù)字圖書館的互操作問題[J].圖書館雜志,2003,(9):46-50.
[11]趙陽.基于可擴展OAI的開放數(shù)字圖書館的服務(wù)協(xié)議——ODL協(xié)議研究[J].圖書館雜志,2004,(5):38-42.
[12]郭少友.OAI-PMH框架內(nèi)的全文獲取研究[J].情報理論與實踐,2006,(3):353-354,379.
[13]曾婷,張成昱.基于OAI-PMH和復(fù)雜對象格式的資源收割機制探討[J].現(xiàn)代圖書情報技術(shù),2005,(11):14-18,23.
[14]董慧,丁波濤.OAI-MHP協(xié)議初探[J].圖書情報知識,2004,(6):70-73.
[15]鄭志蘊,徐瑋,牛振東,等.基于網(wǎng)格的數(shù)字圖書館互操作技術(shù)研究[J].計算機科學,2005,(8):245-248.
[16]王軍,齊華偉,常政.MyOpenDL:一個基于OAI的個人數(shù)字圖書館[J].情報學報,2006,(4):399-406.
[17]王宇芳,黃鏑,李曉玲,等.OAI-PMH協(xié)議及應(yīng)用新趨勢[J].現(xiàn)代情報,2006,(5):81-83.
[18]馮艷花.基于OAI的電子預(yù)印本資源共享[J].情報理論與實踐,2005,(4):425-427.
[19]郭少友.基于OAI-PMH的信息資源整合[J].大學圖書館學報,2005,(3):16-18.
[20]鄭志蘊,閉樂鵬,牛振東,等.數(shù)字圖書館網(wǎng)格互操作框架[J].計算機工程與應(yīng)用,2005,(25):186-189.