牟英華
〔摘 要〕海量信息資源收藏和多樣化的信息管理與服務技術,使信息的收集?管理?利用出現(xiàn)了巨大的矛盾?基于元數(shù)據(jù)整合的多面檢索技術,以元數(shù)據(jù)為核心,通過信息資源和信息技術的全面整合,實現(xiàn)了多面跨庫信息檢索,提高了信息技術的融合度與信息資源的利用率?
〔關鍵詞〕元數(shù)據(jù);資源整合;信息檢索;檢索技術
〔中圖分類號〕G252.7 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)08-0146-03
Multi-faced Search Technology Based on Meta-data IntegrationMu Yinghua
(Department of Education Science and Technology,Xiangfan University,Xiangfan441053,China)
〔Abstract〕The massive collection of information resources and variety of information management technology and services have made big contradiction in the collection,management and utilization of information.Based on multi-faced information technology,taking metadata as the core,though the integration of information resource and information technology,it realized the multi-faced search technology and improved the integration of information technology and the utilization ratio of information resources.
〔Key words〕metadata;resources integration;information retrieval;retrieval technology
以圖書館為代表的信息收藏和服務機構購買了大量的圖書資料和數(shù)據(jù)庫,就信息記錄方式來看,有紙質(zhì)圖書?電子圖書?印刷型報刊?電子報刊?光盤數(shù)據(jù)?磁盤磁帶信息等;就檢索方式來看,有布爾邏輯檢索?詞組檢索?截詞檢索?字段檢索等?這些信息資源因編排體例?閱讀方式?檢索途徑自成一體而成為一個個的信息孤島?這樣既不方便信息資源的管理,更加重了讀者信息利用的不便,降低了工作效率,加大了管理與服務成本?
宋代目錄學家鄭樵曰:集天下之書為一書?這正是基于元數(shù)據(jù)整合的多面檢索技術所追求的?基于元數(shù)據(jù)整合的多面檢索技術通過對系統(tǒng)的信息資源和信息技術進行全面整合,對圖書館信息資源各種元數(shù)據(jù)預先建立索引,每次信息檢索只需要在同一化的元數(shù)據(jù)索引中進行查找,而不需要用不同的搜索引擎在不同的數(shù)據(jù)庫之間切換,從而解決了查重排序?檢索速度和檢索效率等問題[1]?
基于元數(shù)據(jù)整合的多面檢索技術平臺有3個構成要素,即海量數(shù)據(jù)存儲?統(tǒng)一元數(shù)據(jù)?多面檢索技術?數(shù)據(jù)庫是基礎,元數(shù)據(jù)是條件,多面檢索技術是保障?
1 基于元數(shù)據(jù)整合的多面檢索技術的設計理念
基于元數(shù)據(jù)整合的多面檢索技術最直接明了的描述就是:牽一發(fā)而動全身?多面檢索技術“牽”出元數(shù)據(jù)之“發(fā)”,從而實現(xiàn)不同形式不同內(nèi)容的信息資源“全身”從浩如煙海的信息中浮現(xiàn)出來?基于元數(shù)據(jù)整合的多面檢索技術平臺以規(guī)模龐大的海量數(shù)據(jù)庫為基礎,并開發(fā)基于元數(shù)據(jù)整合的多面檢索技術,實現(xiàn)海量信息資源在元數(shù)據(jù)平臺下的合理使用[2]?
在數(shù)字資源極大豐富的時代,基于元數(shù)據(jù)整合的多面檢索技術的現(xiàn)實意義在于:在海量的信息資源中迅速搜索和獲取符合度高的核心知識資源,以較低的成本通過單一的技術平臺從海量信息資源中獲得個性化信息滿足?隨著用戶對獲取知識需求的日益強烈,集精度學術搜索和快捷學術資源獲取為一體的資源與技術整合性應用系統(tǒng)的建立勢在必行,基于元數(shù)據(jù)整合的多面檢索技術正是應這種需求而產(chǎn)生的,它向用戶提供深度的知識點檢索和信息資源版權范圍內(nèi)的合理使用?
基于元數(shù)據(jù)整合的多面檢索技術借助網(wǎng)絡環(huán)境實現(xiàn)信息資源的有效利用和共享,在信息服務功能上實現(xiàn)了質(zhì)的飛躍?從圖書館立場出發(fā),以元數(shù)據(jù)為基礎整合不同形式不同內(nèi)容的信息資源,補充并完善現(xiàn)有資源,保證資源的有效性,更好地為讀者服務,為知識經(jīng)濟時代的信息服務提供了獲取知識資源的捷徑?從用戶立場來看,只要在多面檢索平臺上輸入所需要的信息需求,系統(tǒng)就會在元數(shù)據(jù)整合過的所有數(shù)據(jù)庫中自動搜索并呈現(xiàn)搜索結果,用戶勿需在眾多的數(shù)據(jù)庫間轉換?
2 基于元數(shù)據(jù)的信息資源整合
數(shù)據(jù)庫是基于元數(shù)據(jù)整合的多面檢索平臺的基礎?海量超大型數(shù)據(jù)庫為用戶整體信息服務提供了資源保障,其后臺知識庫通過元數(shù)據(jù)的整合,實現(xiàn)信息資源檢索的需求在系統(tǒng)平臺上一站式解決,完成圖書館原系統(tǒng)的整體升級,使其成為真正意義上的立體式知識管理型圖書館,全面保障信息資源的統(tǒng)一整合?深度搜索和權威咨詢,提高信息資源的管理和服務水平[3]?
基于元數(shù)據(jù)整合的多面檢索技術依托海量超大型數(shù)據(jù)庫基礎,將圖書館紙質(zhì)圖書?電子圖書?期刊?報紙?學位論文?會議論文等各種學術資源整合于同一元數(shù)據(jù)體系之下,并且將圖書?期刊?論文等元數(shù)據(jù)與自備數(shù)據(jù)庫中內(nèi)容對應掛接,使用戶在基于元數(shù)據(jù)整合的多面檢索技術平臺上獲取所有紙本文獻?電子書刊?特色數(shù)據(jù)庫等信息?不僅方便用戶的使用,同時也提高各種數(shù)據(jù)庫的兼容性和使用效率,提高圖書館的管理水平?服務水平[4]?基于元數(shù)據(jù)整合的多面檢索平臺對信息資源整合的內(nèi)容如下:
2.1 整合紙質(zhì)圖書
圖書館藏有大量紙質(zhì)圖書,讀者使用OPAC系統(tǒng)只能檢索到圖書的元數(shù)據(jù)信息,不能看到具體內(nèi)容,更無法判斷圖書的內(nèi)容是否符合自己的信息需求?通過基于元數(shù)據(jù)整合的多面檢索平臺整合后,將館藏的所有印刷型信息資源與系統(tǒng)自備海量數(shù)據(jù)庫進行比照并掛接,用戶通過這種掛接可以獲取以該技術元數(shù)據(jù)為平臺的統(tǒng)一數(shù)字信息,用戶可直接片段試讀圖書的部分原文,通過圖書部分試讀行為來判斷?選擇圖書,提高了讀者借閱的命中率,提高了信息利用效率?
2.2 整合電子圖書
圖書館購買的電子圖書,因為數(shù)據(jù)開發(fā)商知識產(chǎn)權保護等目的,往往需要下載安裝其專用的閱讀器,如中國知網(wǎng)的中國學術期刊全文數(shù)據(jù)庫需安裝其CAJV閱讀器,萬方學位論文需安裝PDF閱讀器?書生數(shù)字圖書館等也要安裝指定閱讀工具?由于電子圖書的出版商不同而造成了閱讀技術的差異,給圖書閱讀造成很大障礙?基于元數(shù)據(jù)整合的多面檢索平臺將圖書館自有電子圖書與系統(tǒng)知識庫數(shù)據(jù)進行對接,整合在同一閱讀平臺之下,所有數(shù)據(jù)閱讀一體化,實現(xiàn)館內(nèi)電子圖書閱覽一鍵制,降低了信息閱讀條件,節(jié)省了PC內(nèi)存空間,使館藏信息資源得到充分拓展,提高資源的利用率?
2.3 整合多載體文獻
基于元數(shù)據(jù)整合的多面檢索平臺在整合了紙制圖書與電子圖書后,基本上實現(xiàn)了圖書館絕大部分信息資源的整合?該平臺還將圖書館的光盤?磁帶?磁盤等載體形式的信息資源與系統(tǒng)知識庫的圖書?期刊?音像?論文等元數(shù)據(jù)條目進行對接,使多媒體信息資源和本館論文元數(shù)據(jù)條目與內(nèi)容對應?用戶在通過某一個檢索入口進行檢索的時候,就能夠獲得該知識點來源于圖書?電子資源?多媒體的所有內(nèi)容,從而實現(xiàn)以點帶面?綱舉目張的檢索效果?
3 基于元數(shù)據(jù)的信息技術整合
基于元數(shù)據(jù)整合的多面檢索平臺中,元數(shù)據(jù)是條件,多面檢索技術是保障?基于元數(shù)據(jù)整合的多面檢索技術集IT業(yè)界先進的核心搜索技術之大成,突破以往的傳統(tǒng)單一引擎的檢索模式,實現(xiàn)了圖書?期刊?報紙?論文?多媒體資源等的多面檢索,而且檢索點具有豐富的層次性,可以簡化到詞組?句子,也可以深入到章節(jié)和全文?通過使用多面檢索平臺,用戶能在最短的時間內(nèi)獲得準確?全面的信息,集約用戶學習研究的過程,縮短查找信息的時間和經(jīng)歷,提高學習研究的效率?
3.1 書目檢索技術整合
借助于元數(shù)據(jù)整合的多面檢索技術強大的書目服務功能,建立聯(lián)合書目查詢系統(tǒng),通過書目檢索可以明確館藏信息?如果本圖書館有此書的紙本館藏,即可通過系統(tǒng)的掛接功能直接連接到本館此書在OPAC的借閱信息;如果本館暫無此書的紙本館藏,可通過系統(tǒng)聯(lián)合書目查閱到其他鏈接館此書的收藏信息,進而通過文獻傳遞等方式實現(xiàn)借閱[5]?
基于元數(shù)據(jù)整合的多面檢索圖書推薦系統(tǒng)為圖書館與讀者間建立溝通的渠道,實現(xiàn)圖書館真正意義上的按需采購?當用戶搜索結果為空時,讀者可以點擊“推薦購買”并提交給管理系統(tǒng);采編管理員登錄系統(tǒng),可對館藏每本圖書流量進行查看,同時系統(tǒng)自動提示是否有館藏;采編管理員根據(jù)讀者流量和讀者征訂需求通過系統(tǒng)采購平臺下定單到書店(購買紙書)或數(shù)字圖書館(購買電子圖書)?
基于元數(shù)據(jù)整合的多面檢索平臺的界面顯示內(nèi)容與權限管理關聯(lián),即登錄用戶可以看見權限范圍內(nèi)的界面和操作,沒有權限的操作在界面上沒有?這些界面要素都是通過權限管理模塊動態(tài)生成的?根據(jù)相關選項對檢索結果進行排序,選擇相關圖書館聯(lián)合書目查詢系統(tǒng),根據(jù)用戶需求,可根據(jù)地域?系統(tǒng)?專業(yè)等進行個人檢索范圍定制,如“其他圖書館借閱”欄目中的圖書館可定制為某省?某范圍或特定地區(qū)內(nèi)的圖書館[6]?
3.2 借閱技術整合
基于元數(shù)據(jù)整合的多面檢索平臺的自帶超大型數(shù)據(jù)庫與館藏資源結合,為讀者提供多種資源借閱途徑,實現(xiàn)資源完全共享?系統(tǒng)不僅提供部分原文試讀功能,如封面頁?版權頁?前言頁?正文部分頁,全面揭示圖書內(nèi)容,利于讀者深入地選擇圖書,還提供其他途徑的借閱,如閱讀館內(nèi)電子全文?借閱館內(nèi)紙質(zhì)圖書?文獻傳遞獲取資料?館際互借圖書等,該平臺實現(xiàn)了真正意義上的借閱一體?基于元數(shù)據(jù)整合的多面檢索技術還提供強大的后臺流量查詢系統(tǒng),用戶隨時可對圖書訪問量?文獻傳遞量?各頻道訪問量等按年?月?日分時段進行統(tǒng)計分析?
3.3 咨詢技術整合
目前大部分圖書館都面臨著資金有限?技術老化等問題?基于元數(shù)據(jù)整合的多面檢索平臺自帶海量數(shù)據(jù)庫和多面信息檢索功能,是一個集信息與技術為一體的現(xiàn)代管理與服務平臺?基于元數(shù)據(jù)整合的多面檢索技術知識庫為讀者之間?館員與讀者提供一個良好的交流平臺,使得讀者的學習和研究有了互動性和互補性?同時在讀者與圖書館之間創(chuàng)建了溝通渠道,圖書館的購買和讀者的需求能夠?qū)崿F(xiàn)一致,提高圖書館資源的利用率?
基于元數(shù)據(jù)整合的多面檢索技術提供用戶交流平臺,利于讀者學術交流,便于機構了解用戶動態(tài)?系統(tǒng)平臺對關于用戶的歷史記錄(記錄讀者最近的搜索記錄cookie)?我的收藏(讀者可以將所選圖書收藏到“我的圖書館”)?網(wǎng)友收藏(參考其他網(wǎng)友收藏,便于讀者間交流)等保存記錄,極大地提高了咨詢服務的針對性與主動性?
3.4 系統(tǒng)平臺整合
基于元數(shù)據(jù)整合的多面檢索平臺通過索取圖書館MARC信息或通過Spider技術獲取圖書館MARC信息,與系統(tǒng)實現(xiàn)無縫掛接,達到100%鏈接效果;該平臺使用實時控制與監(jiān)控系統(tǒng),保證用戶在更新?更換OPAC系統(tǒng)時及時處理用戶openUrl規(guī)則,保證用戶的正常使用;該平臺支持匯文?ILAS?北郵?圖騰?金盤?妙思?深圖等國內(nèi)外圖書集成管理系統(tǒng);該平臺支持OPAC系統(tǒng)開放的Z39.50協(xié)議,支持XML/XSL?ODL?HTML?JSP?WebServices等方式獲取圖書館更新信息;該平臺支持相關工業(yè)標準,如MARC,Unicode,Z39.88(OpenURL),XML,Z39.50,SRW/SRU和OAI-PMH等;該平臺通過與圖書館進行協(xié)作,同時又體現(xiàn)資源共享目的;該平臺自身提供OAI-DP服務與OpenUrl標準接口,允許其他系統(tǒng)對平臺進行二次開發(fā)和利用,提高信息利用效率?
4 基于元數(shù)據(jù)整合的多面檢索技術案例分析——duxiudsr
北京超星公司的duxiudsr(讀秀)搜索引擎就是一個基于元數(shù)據(jù)整合的多面檢索技術平臺[7]?該平臺的總體設計框架是將用戶的信息需求集中在基于元數(shù)據(jù)整合的多面檢索技術平臺上一攬子解決,共分為6個邏輯層(見圖1)?
4.1 海量的超大型數(shù)據(jù)庫
海量全文數(shù)據(jù)及元數(shù)據(jù)組成的超大型數(shù)據(jù)庫?duxiudsr涵蓋260萬種圖書?6億頁全文資料?100萬份人物簡介?1 000萬個詞條解釋?duxiudsr提供3億5千萬條元數(shù)據(jù)(包括:2億個圖書章節(jié),近5 000萬條期刊?2 000萬條報紙元數(shù)據(jù))?這些多形式?多層次的系統(tǒng)自備數(shù)據(jù)庫極大地豐富了館藏資源,保證了館藏資源與系統(tǒng)掛接時的吻合度,奠定了多面檢索的信息資源基礎?
4.2 開放的數(shù)字圖書館平臺
duxiudsr為圖書館搭建開放的借閱平臺,用戶只需一次登錄duxiudsr,即可享受試讀部分原文?閱讀館內(nèi)電子全文?借閱館內(nèi)紙質(zhì)圖書?館際互借?文獻傳遞?采購建議?在線咨詢等一站式的全方位服務?
4.3 便捷的多面檢索技術
duxiudsr目前提供全文檢索?圖書?期刊?報紙?會議論文?學位論文6個主要搜索頻道,選擇任意頻道檢索,duxiudsr將顯示與之相關的圖書?人物?期刊?工具書解釋?報紙?網(wǎng)頁等多維信息,真正實現(xiàn)多層面多角度的搜索功能,讓用戶在最短的時間內(nèi)獲得最全面的信息資源?
4.4 即時的參考咨詢服務
duxiudsr以海量資源為基礎,通過系統(tǒng)記錄的用戶個性化信息定制以E-mail的形式快速高效地為用戶提供最全面?最專業(yè)的圖書資料資訊,使用戶的學習研究不再因圖書資源匱乏或搜索引擎障礙而受限?
總之,依托于duxiudsr海量元數(shù)據(jù),duxiudsr與圖書館資源及用戶掛接,實現(xiàn)統(tǒng)一檢索和統(tǒng)一使用,即:將圖書館現(xiàn)有的圖書?期刊?報紙?論文異構資源整合統(tǒng)一檢索;將duxiudsr搜索框嵌入到圖書館門戶首頁,實現(xiàn)各種學術資源統(tǒng)一使用?目前duxiudsr提供全文檢索?圖書?期刊?報紙?會議論文?學位論文6個主要檢索頻道?用戶任意一個頻道檢索后,都能夠獲得館內(nèi)對應資源內(nèi)容,獲得全面的學術信息?
參考文獻
[1]程煥文.閱讀秀出美麗,讓更多的人讀更多的書[OL].http:∥blog.sina.com.cn/s/blogz4978019f010091kh.html,2008-12-09.
[2]周立兵,柳景超.Google檢索技巧及其評析[J].計算機時代,2006,(8):50-51.
[3]強韶華,等.面向信息資源整合的元數(shù)據(jù)注冊系統(tǒng)研究[J].情報科學,2008,(12):1878-1881,1911.
[4]陳紅梅.基于本體的數(shù)字資源整合研究[J].情報雜志,2007,(11):151-153,156.
[5]袁磊,等.面向領域知識的本體知識模型XML表示框架[J].計算機工程,2006,(1):186-188,192.
[6]羅冰眉.元數(shù)據(jù)及其在數(shù)字圖書館的應用[J].情報雜志,2003,(1):51-53.
[7]http:∥www.duxiu.com/login.jsp[EB].2009-10-07.