夏翠軍 (廣東外語外貿大學圖書館 廣東廣州 510420)
整合檢索由最初的“Google-like”一站式檢索圖書館電子資源發(fā)展到強力存取圖書館各種資源(物理館藏和虛擬館藏)的探索發(fā)現(xiàn)系統(tǒng),更進一步提出以統(tǒng)一資源管理平臺管理圖書館的各種資源。系統(tǒng)開發(fā)商積極開發(fā)新功能組件的系統(tǒng),圖書館面臨更多的選擇,也有了更多思考。本文試圖通過梳理整合檢索系統(tǒng)的發(fā)展脈絡,引發(fā)圖書館思考如何讓讀者利用整合檢索成更加方便、快捷的獲取所需信息資源,并以整合檢索系統(tǒng)為新的信息服務起點做好信息服務工作。
面對復雜多元的網(wǎng)絡信息環(huán)境,圖書館與數(shù)據(jù)庫商、系統(tǒng)服務商等都在努力開發(fā)可以像Google一樣一站式檢索圖書館各種信息資源的工具——整合檢索系統(tǒng)。整合檢索并不是近幾年出現(xiàn)的新概念,上世紀70年代開始發(fā)展的Z39.50及90年代與網(wǎng)絡資源搜尋有關的Metacrawler都體現(xiàn)了整合檢索的訴求,它們均是架構于透過一個共通的搜尋接口檢索異質信息來源概念所形成的信息檢索通訊協(xié)議或程序工具。也有的通過API程序對檢索接口的分析、指令的包裝與數(shù)據(jù)的重整達到整合檢索。這類型的通訊協(xié)議與程序工具的設計目的都是希望能夠透過一個共通的檢索接口,降低信息使用者檢索多個信息來源、重復輸入多次相同檢索策略的繁瑣。[1]但由于技術限制,不論是Z39.50、API程序或者Metacrawler,檢索范圍多限于單一形態(tài)資源,整合程度有限。近年來隨著OpenURL以及相關程序工具的發(fā)展,整合檢索在圖書館運用的成效也日見顯著,metasearch,parallel search,federated search,broadcast search,cross-database search,search portal這些詞匯從不同角度反映了對檢索圖書館電子期刊、電子圖書、自建資源等多種異構數(shù)據(jù)庫信息資源的探索。
在整合檢索系統(tǒng)的功能要求上,2005年美國國家信息標準組織(National Information Standards Organization、簡稱NISO)在“整合檢索先導計劃(NISO Metasearch Initiative)”的網(wǎng)站上對整合檢索系統(tǒng)提出了三點要求,即:整合檢索系統(tǒng)服務商能提供更有效的服務;內容供應商提供更多的內容并能保障他們的知識產權;圖書館能提供異于Google和其它免費網(wǎng)絡資源的服務。[2]這三點要求是開發(fā)整合檢索系統(tǒng)的基本要求,整合檢索系統(tǒng)的發(fā)展也經歷了一個由初步發(fā)展到相對成熟的過程。
目前進入商業(yè)化開發(fā)的整合檢索的技術方案有兩種。一是基于備用性(just-in-case)處理的元數(shù)據(jù)集中索引式整合檢索,預先將各個數(shù)據(jù)庫資源的元數(shù)據(jù)集中到一臺或幾臺中間服務器上,用戶通過向這幾臺中間服務器發(fā)送檢索請求的方式來完成整合檢索。[3]二是基于即時性(just-in-time)處理的跨庫檢索系統(tǒng),用戶即時將查詢提交給整合系統(tǒng),通過整合服務器向源數(shù)據(jù)庫發(fā)送請求,獲取實時檢索結果的整合方式。[4]這兩種方案各有優(yōu)缺點,也都各自的適用范圍。
基于元數(shù)據(jù)索引的整合檢索系統(tǒng)就是通過抽取、映射和導入等手段對分布異構資源的元數(shù)據(jù)(也可能包括對象數(shù)據(jù))進行收集和聚合,安裝在本地系統(tǒng)或者中心系統(tǒng)平臺提供統(tǒng)一的檢索和服務。[5]這是一種備用性的整合檢索,需要預先集中外部數(shù)據(jù)庫源的元數(shù)據(jù),檢索是針對本地系統(tǒng)或中心系統(tǒng)平臺的元數(shù)據(jù)庫進行的,不需要跨多個外部數(shù)據(jù)庫源,也不受源數(shù)據(jù)庫訪問方式的限制,檢索速度快。從讀者使用體驗看,檢索速度快是這種方式的最大優(yōu)點。
元數(shù)據(jù)整合是目錄信息的整合,基于元數(shù)據(jù)的整合檢索系統(tǒng)會充分發(fā)現(xiàn)各個源數(shù)據(jù)庫的共性,它會按照異構數(shù)據(jù)的共性,重組新的學科體系,做到分類體系統(tǒng)一,實現(xiàn)對所有異構資源的學科聚合,實現(xiàn)學科導航檢索功能。[6]
基于元數(shù)據(jù)索引的整合檢索系統(tǒng)需要建立一個龐大的集中式索引,強調元數(shù)據(jù)的提交與處理,注重元數(shù)據(jù)的更新與維護,存在著較大的管理難題。最初由于這種方式由于涉及數(shù)據(jù)庫廠商的商業(yè)利益,不要說將所有資源的元數(shù)據(jù)集中到一起,就是集中圖書館訂購的那些資源的元數(shù)據(jù)也很難操作。而且由于源數(shù)據(jù)庫不斷更新,已經集中索引的元數(shù)據(jù)也面臨數(shù)據(jù)更新和維護問題。隨著開放獲取運動的發(fā)展,這一困境正在得到緩解。傳統(tǒng)數(shù)據(jù)庫商擔心免費資源會影響到他們的用戶,開始與Google合作,一些學術性商業(yè)數(shù)據(jù)庫和出版商已將其全文或文摘讓Google Scholar編入索引。有些學術性商業(yè)數(shù)據(jù)庫和出版商與圖書館系統(tǒng)服務商簽約,同意系統(tǒng)服務商從他們數(shù)據(jù)庫中直接收割元數(shù)據(jù)甚至是全文文本,并可存取這些元數(shù)據(jù)和生成索引。
元數(shù)據(jù)集中索引的整合檢索在電子期刊整合中用的比較多。SwetsWise的元數(shù)據(jù)庫SwetsWise MetaData收錄了22000種刊名目錄、3.5億條篇名目次信息。[7]360 Core的Knowledge Works是電子期刊、電子圖書及其它資源的權威知識庫,Serials Solution公司與全球各地的資源提供商合作,從中收集元數(shù)據(jù),并集成到Knowledge Works中,通過Knowledge Works合作伙伴認證計劃,確保數(shù)據(jù)庫商按要求正確收集和呈現(xiàn)元數(shù)據(jù)。目前Knowledge Works包括來自2700多個全文和4720多個非全文的出版社權威數(shù)據(jù)庫的18.5萬多種電子期刊、50余萬種電子圖書的元數(shù)據(jù),并以每月新增150個數(shù)據(jù)庫資源的速度增加。[8]
元數(shù)據(jù)集中索引的整合檢索也應用在資源探索發(fā)現(xiàn)系統(tǒng)。ExLibris公司的PrimoCentral就是這樣一個元數(shù)據(jù)集中式索引,它由Ex Libris統(tǒng)一維護、更新,將來自不同數(shù)據(jù)庫商的數(shù)據(jù)進行集中索引,力求整合、揭示全世界的各主要電子期刊、電子數(shù)據(jù)庫。ExLibris公司與各個數(shù)據(jù)庫商協(xié)商并簽訂合同,定時從供應商處直接收割元數(shù)據(jù)甚至是全文文本。從不同供應商收割回來的數(shù)據(jù)全部進入Primo系統(tǒng)中,進行統(tǒng)一的數(shù)據(jù)加工、規(guī)范化,最終建立一個單一的集中式索引。目前,Primo Central中已經整合了世界上大部分的外文電子期刊文章和部分報紙、電子書元數(shù)據(jù),目前已收錄記錄超過2.5億條。[9]
Serials Solution公司的Summon Unified Search Index也是這樣一個元數(shù)據(jù)集中式索引。經加工處理的元數(shù)據(jù)(部分包括全文)被預先收割到Summon Unified Search Index,并可深度索引,內容涵蓋了數(shù)字資源庫、報告、引文、灰色文獻、會議錄、學術倉儲、電子期刊、報紙、電子圖書、學位論文、圖書館書目記錄等。[10]與Summon簽約的出版商和內容供應商持續(xù)增長,目前,已有超過6800家出版商、約10萬種期刊向Summon提供超過5億條的記錄。[11]
基于即時性處理的跨庫檢索系統(tǒng)指用戶即時將查詢提交給系統(tǒng),系統(tǒng)將用戶的檢索要求轉化為不同數(shù)據(jù)源的檢索表達式,并發(fā)地檢索本地的和廣域網(wǎng)上的多個分布式異構數(shù)據(jù)源,并對檢索結果加以整合,在經過去重和排序等操作后,以統(tǒng)一的格式將結果呈現(xiàn)給用戶。[12]
對異構分布資源的整合,最佳的方式是采用標準的數(shù)據(jù)格式XML和標準的通用檢索協(xié)議,如Z39.50、Open URL、Zing、ODL、OAI以及 Web Service 等,但實際上大多數(shù)電子資源并不支持或者并不開放這些接口,在實際情況中,也經常遇到資源提供商不公開他們所遵循的協(xié)議情況。針對未知協(xié)議,通常采用“頁面分析技術”實現(xiàn)跨庫檢索,即通過分析各數(shù)據(jù)庫的URL和HTML頁面,通過抽取、嘗試和分析去判定檢索請求和頁面內容。[13]通過標準的通訊協(xié)議和標準的數(shù)據(jù)格式來進行的整合檢索能夠提供準確、全面、及時的檢索結果,而通過Http頁面分析和模擬進行的整合檢索由于受到源數(shù)據(jù)庫訪問方式的限制,整合的效果和準確性會受到不同程度的影響。
基于即時性處理的跨庫檢索系統(tǒng),使用完全實時的目標資源數(shù)據(jù),可即時檢索到源數(shù)據(jù)庫的最新數(shù)據(jù),也避免了數(shù)據(jù)的更新與維護問題。但當源數(shù)據(jù)庫檢索接口、數(shù)據(jù)字段、數(shù)據(jù)結構發(fā)生變化時,跨庫檢索系統(tǒng)必須重新配庫。
基于即時性處理的跨庫檢索系統(tǒng)的具體產品,國內目前使用比較多的有Metalib元搜索,已有許多詳細介紹,此處不贅述。Deep Web Technology在檢索獲取集成分析深層網(wǎng)頁數(shù)據(jù)庫資源方面有獨到之處,它開發(fā)的Explorit能同時并發(fā)檢索數(shù)百個資源庫,在幾秒鐘內返回高度相關性的檢索結果,并將檢索結果以智能聚類方式呈現(xiàn)給用戶。[14]360 Secarch將全球領先的兩大聯(lián)邦檢索引擎360 Secarch和WebFeat整合在一起,形成了一個功能強大、齊全的服務,可對檢索結果進行整理和綜合,并以聚類方式顯示在一個簡單易用的界面中。[15]Innovative的Encore通過Research Pro來檢索資源,Research Pro異構資源整合檢?系統(tǒng)采用的是Muse異構資源整合檢索引擎。Swets公司的SwetsWise Searcher采用的也是Muse的技術,2010年2月,Swets宣布與Deep Web Technology合作來改進SwetsWise Searcher的功能。[16]
整合檢索的兩種技術方案各有優(yōu)缺點,也都有各自的適用范圍。如何讓這兩種方案揚長避短優(yōu)勢互補呢?資源探索與發(fā)現(xiàn)系統(tǒng)正在做這方面的嘗試,而整合檢索也從最初嘗試按Google族的使用習慣為讀者提供一個簡易的檢索入口來查找圖書館豐富的電子館藏,發(fā)展到強力存取、管理圖書館各種資源(物理館藏和虛擬館藏)的統(tǒng)一資源管理平臺。
兩種方案各有優(yōu)缺點,也都有各自的適用范圍。元數(shù)據(jù)集中索引的整合檢索需要學術性商業(yè)數(shù)據(jù)庫、出版商等數(shù)據(jù)提供商的配合,經許可才可采集、索引元數(shù)據(jù)?;诩磿r性處理的跨庫檢索實現(xiàn)了對異構資源庫的并發(fā)檢索,但若要訪問多個外部源數(shù)據(jù)庫,則檢索進程緩慢,且受外部源數(shù)據(jù)庫訪問方式的限制容易出現(xiàn)檢索中斷。如果將兩種技術集成,既可解決元數(shù)據(jù)集中索引中未提供元數(shù)據(jù)的數(shù)據(jù)庫的整合檢索問題,又可減少跨庫檢索中要訪問的外部數(shù)據(jù)庫數(shù)量,換而言之,既擴大了檢索范圍又提高了檢索效率。隨著數(shù)字環(huán)境的形成,兩種技術也整合在一起,并作為關鍵技術應用到圖書館的資源門戶中,單一技術的整合系統(tǒng)發(fā)展到兩種技術并用的資源發(fā)現(xiàn)與獲取平臺。
Serials Solution公司的探索發(fā)現(xiàn)解決方案集成了Summon互聯(lián)網(wǎng)級探索發(fā)現(xiàn)和360 Search聯(lián)邦檢索服務。Innovative的Encore Discovery通過Research Pro聯(lián)邦檢索工具和Encore Harvesting Services收割OAI元數(shù)據(jù)生成的索引集來發(fā)現(xiàn)資源,2010年1月宣稱所整合的內容供應商的文章層級的內容,都是基串流XML模式而成,而不僅僅提前作內容的收割與索引。[17]
ExLibris將MetaLib整合檢索集成到Primo中,成為Primo的組件Primo Metasearch。Primo設計為通過Primo Central提供的元數(shù)據(jù)集中式檢索方式和MetaLib元搜索提供的整合檢索方式進行檢索和發(fā)現(xiàn)資源,采取了以下幾種檢索:
①本地Primo檢索。通過檢索Primo本地索引、Primo其它用戶的遠程索引、Primo Central索引來進行。本地索引來自當前圖書館資源的元數(shù)據(jù),其它用戶的遠程索引指Primo其它用戶圖書館的索引。
②Primo深度檢索。沒有被預先抽取元數(shù)據(jù)索引的資源,而且這些資源符合Primo的深度檢索的要求。
③Primo元搜索。適用于沒有被預先抽取元數(shù)據(jù)索引的資源且不符合Primo深度檢索。其核心組件是Metalib元搜索。[18]
整合檢索則由最初的“Google-like”檢索界面改進到發(fā)現(xiàn)界面,以此為基礎建立服務導向的架構,一方面提升讀者的使用體驗,另一方面與開放鏈接、聚類導航、個性化空間與信息定制、用戶認證和權限控制等功能一起構成一個實用的數(shù)字資源整合系統(tǒng)。國外圖書館和軟件商相繼開發(fā)出十幾種數(shù)字資源整合系統(tǒng),在資源整合的基礎上進行更深入的資源管理研究,提出了一些新的概念,如Ex Libris提出的統(tǒng)一資源管理(Unified Resource Management, 簡 稱 URM),OCLC 推 出 的 Web-scale Management Services(簡稱 WMS);國內 ALIS 提出了三期建設和服務計劃。
ExLibris的統(tǒng)一資源管理平臺將可處理各類資源(包括印刷資源、電子資源和數(shù)字資源),統(tǒng)一整合圖書館自動化系統(tǒng)、電子資源管理系統(tǒng)、機構倉儲管理系統(tǒng)及其它系統(tǒng),2011年1月公布了Alma解決方案。Alma采用統(tǒng)一資源管理框架,支持圖書館所有資源的全部業(yè)務,不管這些資源是什么載體或格式、是在本地還是遠程,全部業(yè)務涵蓋了采分編、元數(shù)據(jù)管理、數(shù)字化以及日常業(yè)務。[19]如:Alma提供高質量、可共享的元數(shù)據(jù),統(tǒng)一管理圖書館的各類資源,簡化圖書館的工作流程,智能的館藏管理讓圖書館在有限的經費范圍內實現(xiàn)最優(yōu)的館藏發(fā)展計劃等。
OCLC指出WMS可讓地方圖書館擁有完整自動化解決方案,而不需本地圖書館自動化系統(tǒng),希望通過擴展WorldCat Local的功能來取代本地圖書館自動化系統(tǒng)。OCLC將WorldCat Local定位為探索發(fā)現(xiàn)工具,即WMS的發(fā)現(xiàn)層,加入流通、采購與許可管理的功能模塊,旨在將現(xiàn)有的OCLC服務和最新開發(fā)的應用模塊集成到一個協(xié)同在線網(wǎng)絡中,希望開發(fā)一個可支持數(shù)千個圖書館有效處理數(shù)據(jù)的全球技術平臺。目前已經形成三個主要的WMS模塊:許可和訂閱管理、流通發(fā)展、采購和工作流程。[20]
CALIS三期項目的建設目標是為全國近2000個高校成員館提供標準化、低成本、自適應、可擴展的數(shù)字圖書館統(tǒng)一服務和集成平臺,既要建立多級共建共享中心,又要為不同規(guī)模的高校圖書館提供低成本、本地化的數(shù)字圖書館解決方案。[21]
雖然統(tǒng)一資源管理目前僅為概念模式,Alma、WMS和CALIS的三期服務計劃僅有少數(shù)圖書館開始早期試用,但對圖書館的影響不可忽視。以Exlibris的URM理念為例,在傳統(tǒng)圖書館自動系統(tǒng)中,OPAC由圖書館提供元數(shù)據(jù)(MARC書目記錄)和內容(紙本館藏),自動化系統(tǒng)只是圖書館更好管理資源服務讀者的工具,若元數(shù)據(jù)由Exlibris整合,內容由數(shù)據(jù)庫商提供,那圖書館除了購買服務內容和服務平臺,還能干什么?新技術帶給圖書館的挑戰(zhàn)前所未有!但數(shù)字化的浪潮不可阻擋,圖書館要在關注變化中尋找行業(yè)的發(fā)展機會。
提供一個單一整合接口讓讀者能夠非常容易地獲得所需的信息是圖書館界一直追求的目標,整合檢索系統(tǒng)讓圖書館朝這目標又向前邁進了一步。但準確便捷的一站式整合檢索也是對圖書館信息服務的巨大挑戰(zhàn),如何讓整合檢索入口成為圖書館服務的起點,而不是服務的終點是需要我們思考的問題。
[1]羅思嘉.信息搜尋與異質數(shù)據(jù)庫整合查詢系統(tǒng)建置之初探[EB/OL].[2011-07-26].http://www.lib.ncku.edu.tw/journal/15/4.htm.
[2]NISO Metasearch Initiative[EB/OL].[2011-05-20].http://www.niso.org/workrooms/mi/#background.
[3][4]竇天芳等.以Exlibris&Metalib為例談整合檢索的幾個關鍵技術及應用[J]. 情報科學,2007,(8):1235-1239.
[5]姜愛蓉.數(shù)字資源整合系統(tǒng)的技術發(fā)展與應用趨勢[J].圖書館雜志,2006,(12):14-18.
[6]蔣繼平,姚倩.文獻資源整合中的統(tǒng)一檢索系統(tǒng)應用研究[J].大學圖書館學報,2011,(1):72-76.
[7]SwetsWise MetaData [EB/OL].[2011-05-16].http://www.swets.com/sites/default/files/factsheet/sw-md-03-2011-web.pdf.
[8]The Authoritative E-Resource Knowledgebase[EB/OL].[2011-05-16].http://www.serialssolutions.com/assets/re sources/Brochure-Serials-Solutions-KnowledgeWorks.pdf.
[9]資源發(fā)現(xiàn)與獲取系統(tǒng)[EB/OL].[2011-05-16].http://www.exlibris.com.cn/product/primo/index.html.
[10][15]電子資源整體解決方案[EB/OL].[2011-05-10].http://www.serialssolutions.com/assets/publications/Seri alsSolutions_Catalog_sch.pdf.
[11]Your Library Discovered[EB/OL].[2011-5-10].http://www.serialssolutions.com/assets/resources/Summon-Br ochure-2010.pdf.
[12]李廣建,張智雄.國外跨庫檢索系統(tǒng)研究項目及其特點[J].圖書情報工作,2004,(4):444-447.
[13]姜愛蓉等.分布異構資源整合管理系統(tǒng)的技術特點和應用趨勢——MetaLib&SFX綜述[J].現(xiàn)代圖書情報技術,2004,(4):1-5.
[14]Explorit Overview[EB/OL].[2011-05-16].http://www.deepwebtech.com/products/explorit-overview/.
[16]SwetsWise Searcher improves its federated search per formance with Deep Web Technologies[EB/OL].[2011-05-20].http://www.librarytechnology.org/ltg-displaytext.pl?RC=14516.
[17]Marshall Breeding.Automation Marketplace 2010:New Models,Core Systems[J].Library Journal,2010,135(6):22-36.
[18]Primo Search[EB/OL].[2011-05-20].http://www.exlibrisgroup.com/de/files/Germany/Produkte/PrimoSearchWh itePaper.pdf.
[19]Ex Libris announces the cloud-based Alma Library Management Service[EB/OL].[2011-05-17].http://www.librarytechnology.org/ltg-displaytext.pl?RC=15322.
[20]David Rapp.OCLC's Cloud-Based ILS Enters Next Phase[J].Library Journal,2010,135(13):16-18.
[21]王文清,陳凌.CALIS數(shù)字圖書館云服務平臺模型[J].大學圖書館學報,2009,(4):13-18.