馬林山 孫紹俊 趙慶峰
(1.合肥學院圖書館 安徽合肥 230601;2.山東省圖書館 山東濟南 250100;3.山東科技大學信息科學與工程學院 山東青島 266510)
當今社會,信息資源日益豐富,各類文獻信息機構的館藏資源越來越多與讀者使用難的矛盾越發(fā)突出。為了使讀者方便、快速、高效、準確的檢索獲取所需的參考文獻,在信息技術發(fā)展的支持下,各類檢索系統應運而生,從最初的主要面向印刷型文獻的OPAC檢索系統,到面向數字資源的異構式聯邦檢索系統、基于元數據庫的一站式檢索系統,發(fā)展到目前云計算環(huán)境下,基于數據挖掘和知識發(fā)現的發(fā)現系統。發(fā)現系統以其強大的深度、細粒度精準檢索技術,為讀者獲取參考知識點,進行科研趨勢分析,提供了便利,這也是其功能的主旨;另一方面,筆者認為,發(fā)現系統擁有海量、及時更新的元數據和強大的分析功能,在信息分析的基礎上,可以導出研究熱點和核心區(qū)域的文獻清單。作為特定要求的理想館藏標準,管理者將它與本館已有的資源相對比,進而自動析出館藏建設報告和具體增補訂單信息,指導文獻機構更加合理的進行館藏資源的建設。發(fā)現系統若具備這一功能,將是大數據時代更加符合文獻機構使用的數據處理工具,將會為圖書館、大的文獻信息中心,如區(qū)域性的圖書館聯盟中心科學合理的館藏建設,提供強大的支持。
發(fā)現系統是大數據時代文獻信息檢索分析的重要工具,現有的功能主要面向讀者,為其提供信息檢索、信息分析、發(fā)現知識,且屬初步快速探索實踐階段,對于信息服務機構的館藏分析建設來講,還沒提供有針對性的功能。文章從較宏觀的角度論述發(fā)現系統的館藏輔助建設功能的設計,闡述其實現機理,為發(fā)現系統的館藏輔助建設功能的實現提供幫助。
發(fā)現系統(discovery system)的研究,起步于數據庫中的知識發(fā)現(Knowledge Discovery in Databases,KDD,又稱數據挖掘(Data Mining))。這一研究領域興起于20世紀八十年代初,是以機器學習和數據分析的理論及實踐為基礎的?!?〕目前,發(fā)現系統代表性定義為:發(fā)現系統是一種計算機程序系統,該系統采用特定學習算法,具有觀察和學習的功能,用以發(fā)現某些學科的概念、定理或定律的系統。系統可對已知的信息、數據進行整理,通過綜合運用統計學、粗糙集、模糊數學、機器學習、模式識別等方法從大量數據記錄中發(fā)現抽象的知識,從而揭示出蘊含在這些數據背后的客觀世界的內在聯系和本質規(guī)律,實現知識的自動獲取。〔2〕
隨著發(fā)現系統技術研究的日益成熟,適合不同行業(yè)應用的發(fā)現系統不斷出現,圖書館行業(yè)也不例外(為了區(qū)別其他類型的發(fā)現系統,下面對應用于圖書館等文獻信息機構的發(fā)現系統稱為文獻發(fā)現系統)。國外高校圖書館從2007年開始探索利用發(fā)現系統的理念和技術進行館藏資源的檢索?!?〕圖書館界服務企業(yè)推出的成熟產品相繼出現:OCLC于2008年正式推出了WorldCat Local,Proquest旗下的Serials Solution公司于2009年7月發(fā)布了Summon,以色列Ex Libris公司于2010年6月正式發(fā)布了PrimoCentral,EBSCO于2010年1月發(fā)布的EBSCO Discovery Service(簡稱EDS),以及Innovative Interfaces公司的EncoreDiscovery系統。據統計,全球的圖書館及其他信息機構用戶已有3000多家應用以上五種發(fā)現系統,其他產品也有一定的客戶群體?!?〕
我國與圖書館相關的行業(yè)對發(fā)現系統研究起步較晚,目前只有超星公司于2013年5月正式推出成熟產品。國內的圖書館,特別是高校圖書館最初主要是引進國外的發(fā)現系統,如北京大學圖書館、浙江大學圖書館、西安交通大學圖書館以及北京師范大學圖書館引進了Summon系統;清華大學圖書館、上海交通大學圖書館、中科院高能所圖書館、農科院圖書館、中國社科院圖書館引進了Primo系統;中山大學圖書館引進了EDS系統。超星公司的發(fā)現系統推出后,在國內反響很大,特別是對中文資源的收錄發(fā)現優(yōu)勢,極大地吸引國內圖書館界的關注,目前用戶已經超過50家。〔5〕
圖書館界應用的發(fā)現系統是在最初的異構式跨庫檢索系統的基礎上發(fā)展起來的,它拋棄了向各個分布數據庫發(fā)送檢索指令,接收結果數據進行去重排序顯示的工作方式,采取通過與出版社等內容提供商合作,提取他們的資源元數據和對象數據,經過分析、抽取等手段進行預收集處理(pre-harves-ted),將這些數據依據映射轉換規(guī)則生成標準的格式,形成自己的標準數據庫,在索引器、檢索器、用戶接口的配合下,為用戶提供統一搜索的服務??梢哉f是利用搜索引擎的工作原理,構建起來的適合圖書館界等文獻信息機構使用的大型文獻信息檢索系統?!?〕其內部核心運行機制如圖1所示。
圖1 信息發(fā)現系統運行原理
文獻發(fā)現系統是云計算環(huán)境下分析使用文獻大數據的重要工具。它不僅數據量大,而且檢索速度快,在信息資源的深度揭示、深度融合、檢索質量、科研趨勢分析等方面都有很大的提高。雖然不同的發(fā)現系統在數據來源、數據量、功能與服務等方面存在著一定的差異,但資源的檢索原理、元數據獲取方式、服務模式等方面都基本相同,其顯著特點如下?!?〕
第一,海量中央元數據倉儲。元數據倉儲和索引是發(fā)現系統的基礎,其收錄資源越廣泛,整合檢索才會全面、深入。為了保證數據的全面和新穎,發(fā)現系統提供商特別注重與數據提供商簽約合作,取得準確、全面、及時收錄各類信息資源元數據的資格和保障,形成整合、揭示全世界各主要期刊、圖書、會議論文、報紙、科技報告等文獻的元數據倉儲。在需求的拉動下,發(fā)現系統的元數據覆蓋率一般都很高,且與數據商發(fā)布的內容保持同步。
第二,由云計算支撐,檢索速度快,智能分析深度高。云計算強大的計算能力和存儲能力為發(fā)現系統提供了良好運行的基礎保證,不僅能支持一般檢索、高級檢索、全文檢索和二次檢索,而且運行速度極快,讓讀者得到良好的檢索體驗。檢索結果支持多種相關列排序和智能統計分析顯示,有助于提高讀者獲取有用信息和知識的效率,以及把握科研發(fā)展脈絡和趨勢。
第三,平臺的融合能力很強,全文無縫鏈接,支持原文傳遞服務。平臺的融合能力強,通過相關接口與各類數據資源庫對接,采用開放鏈接技術,實現一站式資源獲取。通過內嵌的SFX、OpenURL可直接定位許可范圍內的全文鏈接,快速、便捷地獲取全文;印刷型資源則鏈接至館藏位置和借閱信息等。對于沒有權限直接獲取全文的資源,系統還可以通過館際互借將全文獲取請求發(fā)送到擁有該全文獲取權限并能出借給其他讀者的單位,實現信息資源全文探索發(fā)現和傳遞的無縫鏈接。另外具備Web2.0功能,支持文獻與讀者交互,以及讀者與讀者之間交互;支持移動服務,實現系統全部內容可通過移動終端檢索。
文獻發(fā)現系統主要功能目前是面向讀者的,能提供完善的館藏資源比較分析功能,將會對圖書館等文獻信息機構,建設合理的館藏資源提供理想的參考依據?!?〕
第一,現今的圖書館館藏評價指標基本上都是建立在本館擁有的資源和服務對象之上的,缺乏一個針對各學科完善資源庫的參考體系。發(fā)現系統中的元數據資源豐富,并且與內容出版商最新出版內容同步,可以假設各類文獻收錄達到了理想狀態(tài)。與此同時,發(fā)現系統一般采用云服務的模式,不同的機構用戶,在提供自己館藏元數據的基礎上,形成一個為本單位服務的私有云。文獻元數據加上不同用戶自身的文獻數據,以及使用信息,可以為單個館的館藏評價對比,提供參照標準。
第二,發(fā)現系統強大的云計算能力,可以快速實現海量數據的多角度對比分析。針對某個具體信息機構的館藏元數據信息,依據館藏評價理論和方法,通過與發(fā)現系統中的全部信息比較分析,形成該館館藏客觀、正確、全面的評價指標數值。
第三,分析館藏評價指標數值的基礎上,系統還可接受采訪人員提供要達到的理想指標參數數值,智能生成補庫建設方案和具體的文獻增訂清單,方便參訪人員引進缺少的文獻。
圖書館館藏評價(Collection Evaluation),就是對圖書館現有館藏體系所具有的各個屬性進行檢測、評定,包括對館藏數量、文獻資源的購買速度、文獻采購經費、館藏結構、館藏本身的學術價值以及館藏使用效果等各個指標進行綜合分析與總體評價。有代表性的是教育部高等學校圖書情報工作指導委員會于2007年專門頒布了《普通高等學校圖書館館藏評價指南》,界定了高校圖書館傳統館藏評估的主要內涵和做法,在國內高校實踐應用比較普遍。
隨著信息技術的發(fā)展,數字文獻越來越豐富,圖書館的文獻資源結構日趨復雜,在這種信息環(huán)境中,新的評價方式不斷出現,館藏評價向實體館藏和虛擬館藏分別建立指標體系方向發(fā)展。國外對于特定館藏的實證性評價研究較多,特別集中于關于單一學科或圖書館就某一目的進行的在微觀層次上的評價研究,如期刊的引文分析;館藏與館際互借的分析比較等。國內對館藏評價的探索主要以理論研究為主,近年來借助圖書館集成系統的統計功能,從藏書結構、圖書利用率等方面入手,在一定程度上推動了傳統館藏評價的實證性研究,但對數字資源館藏評價原則、標準、方式尚未達成統一的認識?!?〕
在數字資源評價上,國外出臺了一系列標準規(guī)范,主要針對使用的評價,如訪問次數、下載文獻數量、檢索次數、用戶行為統計分析等。有代表性的標準主要有2002年歐洲聯盟(The European Commission)資助的歐洲圖書館績效評價和質量管理系統項目EQUINOX發(fā)布的電子圖書館的評價指標,以及美國研究圖書館學會統計和測量項目下面的子項目:數字資源計量項目中的數字資源使用評價,ISO2789的圖書館電子服務使用評價(Measuring the use of electronic library services),NISO Z39.7,E-Metrics等實踐性較強的標準規(guī)范?!?0〕
總的來講,我國圖書館的館藏評價研究走過了30余年的歷程,經歷了20世紀80、90年代比較單一的藏書評價,到21世紀初迅速崛起的電子資源評價,再到多種館藏類型的綜合評價,現已進入比較成熟的階段。涉及的館藏評價指標體系,主要分布在館藏比例指標、館藏量指標、專業(yè)學科指標、館藏成本指標、館藏利用指標、用戶指標六個層面。這些指標基本還是建立在單館資源基礎之上,雖有一定的參考價值,但是部分指標缺少理想參照基數(比如理想狀態(tài)的學科文獻總數),也不利于多館進行同樣基數下各指標的對比分析。若將一些館藏評價指標建立在發(fā)現系統中的數據倉儲之中,將會更加客觀、全面,參考指導價值更大?!?1〕
文獻發(fā)現系統不僅總文獻量豐富,而且每個機構用戶都配置自己的私有服務云,存儲該機構用戶的館藏文獻元數據,提供發(fā)現服務和收割本機構用戶的行為信息。這些資源和服務在滿足讀者信息檢索、知識分析發(fā)現的基礎上,還可進一步拓展功能,提供基于文獻元數據總庫和各館用戶行為信息的館藏統計分析服務,為各館的館藏建設提供評價參考數值,輔助生成優(yōu)化方案,指導館藏的建設。下面從較宏觀的角度談談發(fā)現系統輔助館藏建設的功能設計與實現思路。
文獻發(fā)現系統要實現館藏的輔助建設,在保證現有服務功能的基礎上,需進一步拓展,設計出一系列功能模塊來完成。至少要提供各類最新文獻訂單查重生成功能,實現總庫、本館及它館文獻和用戶行為信息統計功能,依一定標準從總庫中生成理想館藏清單的功能,多館館藏對比篩選功能,訂單自助格式生成功能等等,如圖2所示。這些功能需在文獻分析和館藏建設參考統計理論指導下實施,分析結果盡可能可視化表示。
圖2 文獻發(fā)現系統館藏輔助建設功能規(guī)劃
文獻發(fā)現系統設計新的功能模塊,對元數據的使用將會提出更高的要求,其格式要進一步規(guī)范,特別是文獻之間的引證關系要在元數據中規(guī)范標識;其次還要提出一套合理的館藏統計分析指標為全面科學分析提供保障。
5.2.1 完善發(fā)現系統中文獻之間相互引證關系,為全面的分析提供保障
一個合理的館藏資源,特別是有一定學科性質的館藏,真正合理、科學的參考數值依據在哪里,一直是個難題??茖W引文的理論與發(fā)現系統結合,將會為該問題的解決提供思路和方法。發(fā)現系統中收錄極盡理想狀態(tài)的文獻元數據,若文獻之間的參考引證關系完善,利用這一引證關系,不僅能分析出一些研究領域的發(fā)展脈絡和趨勢,同時也發(fā)現了一定學科領域文獻的利用率和參考價值,可以析出特色館藏的理想文獻內容,為具體館藏構建提供科學參考依據?,F有的一些引文系統,如世界著名的三大引文數據庫(SCI、EI、ISTP),以及我國的中國科學引文數據庫(CSCD),其不但收錄文獻類型單一,而且在收全方面差距極大,在文獻信息分析方面也是存在一些缺陷的。發(fā)現系統若能合理利用這一引文分析思想,在全面收錄文獻的基礎上,盡可能的揭示出所有文獻之間的參考關系,將會為科研分析和館藏建設提供更加詳實準確的參考信息。
5.2.2 設計完善的館藏統計與分析指標
優(yōu)化指導館藏建設,要有一套系統科學的館藏統計分析評價指標來支持,使用的統計評價指標,應盡可能遵循文獻計量規(guī)律和目前已頒布的相關參考標準?!?2〕文獻的基礎統計可以從類型、出版時間、作者、作者單位、出版機構、學科、結構等角度進行;引文理論支持下的各項統計分析指標要進一步完善,并且各類指標在實施時能夠交叉使用,分析顯示的內容對應的相關文獻清單要能靈活的導出和進行再統計。比如,某學科的核心作者、核心研究機構,證明這一核心的所有文獻都是該主題館藏的重點收藏內容。各類資源的使用信息,也是證明文獻重要性的參考指標,也要通過相關指標進行統計,并且能夠按照要求導出文獻清單和再統計。圍繞用戶的信息檢索、知識分析發(fā)現,推出有用知識的文獻都是科學館藏的重要組成部分。
各項統計指標要綜合利用,從發(fā)現系統的總庫中統計某一要求的科學館藏內容,作為一個參照系統,通過對比進行館藏優(yōu)化。
發(fā)現系統完善了支持各項館藏統計分析指標的元數據格式和各數據之間的關聯關系,在提供相應功能模塊的支持下,即可實現館藏建設的輔助建設。總體思路是先利用發(fā)現系統統計分析生成滿足一定要求的科學館藏內容參考清單,之后再與本館現有的文獻資源對比分析,規(guī)定一個覆蓋率,篩選出需要增訂的內容。
5.3.1 單館館藏資源統計與發(fā)現系統總庫統計指標對照分析
發(fā)現系統為機構用戶開通服務,實際上是在掛接了用戶提供的本館文獻資源元數據的基礎上,開通了一個私有云服務,提供一個專屬的服務訪問頁面。每個機構用戶的私有云是發(fā)現系統的一部分,它對該本機構的用戶來講是透明的,訪問的資源都是本機構所擁有的文獻資源,用戶感覺不到它在為其它機構用戶服務。
發(fā)現系統的一個機構用戶私有云,它具有一定的獨立性,理論上具備自己館藏資源全面的獨立統計分析基礎,包括本館資源的用戶行為信息收割和統計分析。機構用戶可以利用發(fā)現系統統計本館的館藏量、館藏結構、學科文獻保障量、館藏成本、館藏利用和用戶指標等等。本館資源的系統指標,可以與基于發(fā)現系統其它館的館藏資源指標比較、也可以與發(fā)現系統中全部資源指標進行對比分析,判斷自己館藏建設的優(yōu)點和不足。
5.3.2 在對比分析的基礎上,設計接受合理參數智能析出優(yōu)化館藏的方案功能
本館的館藏統計指標,與發(fā)現系統中的全局文獻資源統計指標,特別是學科覆蓋率進行對比分析,在此基礎上,發(fā)現系統應提供接受理想指標數值參數的功能,機構館藏建設者,可以利用它輸入一定的參數,比如某學科的圖書覆蓋率數值,系統接受參數后,會智能生成這一部分文獻的合理清單,除去本館現有的圖書信息,按照設定格式生成增補的圖書訂單,實現館藏優(yōu)化的智能實現。如圖3。
圖3 館藏優(yōu)化方案生成流程
假如優(yōu)化某一專題的館藏圖書,根據這一要求,設計一套規(guī)則如:該領域研究發(fā)展脈絡下核心作者和核心機構出版的圖書、利用率較高(規(guī)定引用次數)的圖書、權威出版社出版的圖書、不同語種、時間范圍等等。在這些規(guī)則約束下生成這一專題的理想館藏圖書清單(不同規(guī)則下的分項書單匯總去重),之后拿本館該專題現有的圖書與理想藏書清單對比,給定一個覆蓋率,篩選出本館缺少的內容。最后按照訂購的格式要求,生成增訂訂單即可訂購。
另一方面,因發(fā)現系統與內容提供商聯系緊密,最新出版的資源元數據會第一時間被發(fā)現系統采集,發(fā)現系統可以為圖書館文獻機構提供最新訂購信息的生成功能,比如最新圖書的訂購書單服務,省卻現有書商提供書單的征訂的低效率做法。發(fā)現系統還可跟蹤分析本單位讀者的使用行為信息,利用文獻之間的相關關系,采用大數據的預測理念,為文獻機構推薦增訂信息。
文獻發(fā)現系統是大數據時代,文獻信息機構處理數據的重要工具,其元數據全面、新穎,可作為文獻收全的理想狀態(tài),文獻之間的相互引證關系也可以完善到理想的境界,加上云計算環(huán)境的支持,發(fā)現系統在幫助讀者檢索信息、發(fā)現知識的基礎上,還可為圖書館、文獻信息中心館藏建設提供幫助。發(fā)現系統,利用其強大的統計分析優(yōu)勢,可以找出館藏建設的理想目標,圖書館結合自身的具體情況,進行對比分析,智能生成館藏優(yōu)化方案和相應的文獻增補訂單信息,實現館藏資源的快速科學建設。這一理念是探索性的,文中列舉的一些基于發(fā)現系統的館藏建設評價指標,是在現有館藏評價研究基礎上,結合發(fā)現系統的功能特征,應該是可以實現的。因文章定位和篇幅的限定,僅提出了宏觀建設思路和闡述了實現機理,細化內容,未深入詳述,讀者可以參閱相關文獻。
文獻的發(fā)現系統,其資源和計算的優(yōu)勢,將會對科研分析預測、館藏輔助建設提供有力的幫助,逐步向更加精確的方向發(fā)展。為了便于發(fā)現系統館藏建設的研究,一方面建議發(fā)現系統的元數據表示標準化,并且能公開;另一方面希望現有的發(fā)現系統最好能對館藏資源統計提供標準外界訪問接口,提供內部資源的統計分析調用方法,吸引文獻信息機構的建設者和相關研究者探索基于發(fā)現系統的館藏資源建設的實踐研究。
1.陳棟等.KDD研究現狀及發(fā)展.計算機科學,1996(6):38
2.蔡自興.人工智能辭典.北京:化學工業(yè)出版社,2008:58
3.鞏林立.高校圖書館資源發(fā)現服務系統體系構建.圖書館學研究,2013(9):69-70
4.劉萬國,孫波,黃穎.網絡級發(fā)現服務平臺比較研究.情報理論與實踐,2013(4):111-113
5.人民網天津視窗.天津大學圖書館與超星公司合作推出“學術發(fā)現系統”.〔2013-09-22〕.http://www.022net.com/2013/5-24/532040342637680.html
6.Jason V.Investigations into library Web-scale discovery services.Information Technology and Libraries,2012(1):32-82
7.包凌,蔣穎.圖書館統一資源發(fā)現系統的比較研究.情報資料工作,2012(5):67-68
8.萬燕萍,劉華.現代圖書館館藏評價與優(yōu)化.圖書館論壇,2009(2):159-161
9.萬彤,周蓉.高校圖書館館藏評價研究.圖書館,2013(2):67-69
10.Douglas W.Oard,Jason R.Baron,etc.Evaluation of information retrieval for E-discovery.Artificial Intelligence and Law,2010,18(4):347-386
11.王興旺,尚建翠.我國圖書館館藏評價研究的可視化分析.圖書館研究,2013(4):117-121
12.趙云華.數字時代評價圖書館館藏的標準.圖書館學刊,2007(1):113-114