章珞佳
(山西大學文學院,太原,030006)
隨著信息和通信技術的發(fā)展,人類社會生產(chǎn)的數(shù)據(jù)資源越來越多,且呈現(xiàn)出密集化的態(tài)勢,愈加復雜的信息環(huán)境使人們獲取知識時感到困難。然而,以圖書館為代表的信息服務行業(yè)在數(shù)據(jù)密集環(huán)境下利用包括大數(shù)據(jù)在內(nèi)的高新技術進行知識生產(chǎn)和導航可以化被動為主動,化挑戰(zhàn)為機遇?;谶@樣的理念,國際圖書館協(xié)會聯(lián)合會(International Federation of Library Associations and Institutions,IFLA)在其趨勢報告(Trend Report)中指出以英特爾為代表的密集數(shù)據(jù)計算是革新信息科學行業(yè)服務的一把“尖刀”[1];IEEE 計算機學會主辦的2015年大數(shù)據(jù)服務專題會議列出七大大數(shù)據(jù)應用,其中圖書館的信息服務是其中重要的一個領域[2]。在圖書館應用方面,美國國會圖書館(Library of Congress)將“美國記憶工程”、歷史文獻部、印刷圖像部等部門和項目的元數(shù)據(jù)進行整合,以提供更好地密集數(shù)據(jù)集成服務;哈佛大學圖書館(Harvard University Library)宣布使用Hadoop分布式計算管理書目海量數(shù)據(jù);歐洲數(shù)字圖書館(Europeana)將其超過2000萬的圖片、文獻、檔案等記錄利用大數(shù)據(jù)技術進行重制,并開放地提供給各國研究者。因此,數(shù)據(jù)密集環(huán)境下的圖書館服務無論從理念、手段還是內(nèi)容上都將迎來一場革新。
海量數(shù)據(jù)的概念早在21世紀初就已被提出,隨著摩爾定律持續(xù)產(chǎn)生作用,人類社會所擁有的計算機硬件與數(shù)據(jù)資源在持續(xù)不斷地快速增長。麥肯錫在2011年的研究報告《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域》[3]中首次定義了“大數(shù)據(jù)”,并指出“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素”。而微軟研究院經(jīng)過對信息環(huán)境的研究,提出了基于數(shù)據(jù)密集型的科學研究“第四范式”,數(shù)據(jù)密集型環(huán)境也成為國內(nèi)外圖書情報領域研究的一個熱點。目前國內(nèi)外對數(shù)據(jù)密集型環(huán)境的研究主要有兩個層面:①應用層面:Google公司開發(fā)的MapReduce分布式編程模式和因特爾開發(fā)的Hadoop系統(tǒng)已經(jīng)成為密集數(shù)據(jù)處理的重要工具,IBM、浪潮等公司加強對分布式數(shù)據(jù)管理技術的研發(fā)投入,工業(yè)界已經(jīng)生產(chǎn)出一系列解決數(shù)據(jù)密集環(huán)境知識管理的工具和產(chǎn)品;②研究層面:關于密集數(shù)據(jù)的期刊論文、會議論文和最新的科研成果層出不窮。從2013年開始,國家自然科學基金和國家社會科學基金都在相關學科的申報指引中將數(shù)據(jù)密集型計算相關研究列入其中,已有相當數(shù)量的立項項目是以該領域的研究為主題的。國際頂級期刊Nature、Science,IEEE頂級的學術會議和CODATA等國際知名的數(shù)據(jù)管理組織都將數(shù)據(jù)密集環(huán)境下的知識管理作為重要的研究對象。
一直以來,圖書館所占有的數(shù)據(jù)資源相當豐富,圖書情報學科也是以此類信息資源為研究對象的,借助數(shù)據(jù)密集型環(huán)境下的新技術能夠大大提升圖書情報領域的知識服務效率和質(zhì)量。圖書館是知識信息服務的中介機構,高校和科研機構、不同類型的智庫以及政府管理機構等都對知識服務有很高的要求。因此,圖書館迫切需要利用密集數(shù)據(jù)處理技術開發(fā)新形式的學科評價、知識導航、數(shù)據(jù)分析等增值服務。隨著圖書館安裝使用越來越多的智能化設備和與用戶交互能力的提升,其開始產(chǎn)生大量的非結構化程序,如用戶記錄、用戶評價、傳感器數(shù)據(jù)等。如能利用新技術從這部分密集數(shù)據(jù)中尋找讀者用戶、科研工作者的隱形需求并透析借閱、科研的熱點,那么將在很大程度上改善個性化薦讀、學科評價與導航、科研熱點預測等服務。
目前密集數(shù)據(jù)的最大特點是數(shù)據(jù)量非常大,需要占用大量的物理和網(wǎng)絡存儲空間。另一方面,數(shù)字資源的長期保存是圖書情報領域?qū)?shù)據(jù)管理研究的一個重點,密集數(shù)據(jù)的長期保存問題成為一個新的研究點?;诿芗瘮?shù)據(jù)的特點,本文認為其存儲應從四個方面考慮:在空間上應保障服務器部署的擴展空間;在硬件上采用動態(tài)虛擬存儲和虛擬路由技術來提高存儲效率;在構架上與軟件配置上使用基于MapReduce和Hadoop的分布式數(shù)據(jù)管理技術,提供密集數(shù)據(jù)的查詢效率;在人才培養(yǎng)上應重視引進數(shù)據(jù)管理型人才,設置相應的數(shù)據(jù)管理館員等職位。
3.2.1 語義化處理
近年來,以本體為代表的語義化技術在圖書情報領域得到廣泛而深入的研究,并產(chǎn)生了一批質(zhì)量較高的本體模型,例如“中文敘詞表本體”、“漢語主題詞表本體”、“情感詞匯本體”等,推動了知識共享工程和語義化信息資源的建設。對密集數(shù)據(jù)進行語義化處理有許多好處:一方面能夠使不相關的數(shù)據(jù)集合統(tǒng)一為一個整體同時將傳統(tǒng)網(wǎng)絡資源語義化;另一方面語義化能夠提高這部分資源的使用率。目前,大規(guī)模數(shù)據(jù)的語義化處理主要有以下三種方法:一是“詞表—本體”的自動轉(zhuǎn)化,即通過構造詞表上下位類的邏輯關系和詞匯級別來實現(xiàn)本體化;二是以本體映射來實現(xiàn)模型的構建,常見的有基于RDA/ONIX框架的書目本體映射數(shù)據(jù)庫;三是通過自動抽詞技術實現(xiàn)的領域本體的構建,即通過提前設定一系列本體內(nèi)所需要的父類、子類、實例等關系來對某一領域的詞匯進行抽取和本體構建。數(shù)字資源的語義化處理為密集數(shù)據(jù)環(huán)境下的知識咨詢開發(fā)提供了底層資源池的準備。
3.2.2 開放關聯(lián)
與語義化相對應的是利用開放關聯(lián)技術來使大規(guī)模數(shù)據(jù)資源實現(xiàn)關聯(lián)、分類和聚類等應用。2011年,W3C圖書館關聯(lián)數(shù)據(jù)(Library Linked Data)孵化小組發(fā)表了系列研究報告[4],定義其使命為“通過帶動更多的人參與語義網(wǎng)活動——特別是關注圖書館及相關領域關聯(lián)數(shù)據(jù)活動,應用現(xiàn)有的先導活動,確定未來合作發(fā)展的軌跡,以此促進圖書館數(shù)據(jù)在萬維網(wǎng)上的互操作”,其實質(zhì)是圖書館利用關聯(lián)數(shù)據(jù)技術對其內(nèi)部廣泛存在的數(shù)據(jù)集、元數(shù)據(jù)元素集和取值詞匯集等資源進行描述和組織,以提高圖書館數(shù)據(jù)的檢索和利用效率。此外,圖書館的關聯(lián)數(shù)據(jù)應用已經(jīng)從書目數(shù)據(jù)擴展到了更多的數(shù)據(jù)源。在數(shù)據(jù)密集型環(huán)境下,關聯(lián)數(shù)據(jù)技術使多數(shù)據(jù)源實現(xiàn)聚合能夠優(yōu)化圖書館的業(yè)務流程、提高其服務質(zhì)量并擴展服務內(nèi)容。
3.3.1 人工分析
參考咨詢和數(shù)據(jù)分析是圖書館人的核心能力和專業(yè)所長。事實上,圖書館工作人員的能力和素養(yǎng)是隨著知識資源的擴充而不停增長的,兩者呈正相關的關系。隨著數(shù)據(jù)量變得越來越大、數(shù)據(jù)類型變得越來越多,圖書館人在新的數(shù)據(jù)密集型環(huán)境中所掌握的技能和知識也隨之增長。數(shù)據(jù)分析能力的核心是從規(guī)模龐大的數(shù)據(jù)資源中獲取科研熱點的能力,是從紛繁復雜的數(shù)據(jù)類型中獲取有效知識的能力,是從信息爆炸的環(huán)境中提供知識咨詢的能力。
3.3.2 可視化展現(xiàn)
SPSS、CiteSpace、Google Fusion Tables等流行的可視化分析軟件能夠很好地對密集數(shù)據(jù)進行分析展現(xiàn),針對密集數(shù)據(jù)的可視化分析能夠打破海量數(shù)據(jù)所帶來的知識藩籬,將粒度更小的知識傳遞給用戶。知識網(wǎng)絡地圖,就是以分析軟件為工具,對從密集數(shù)據(jù)中提取出來的用戶所需求的專業(yè)知識進行分析總結,按照科研發(fā)展脈絡、科研熱點、科研低中高層次分析等方面進行地圖式的分析,給科研用戶帶來前所未有的清晰的知識咨詢體驗。在繁雜的科學數(shù)據(jù)管理工作中,知識網(wǎng)絡地圖能夠有效避免重復勞動,減少數(shù)據(jù)重復和數(shù)據(jù)沖突,為科研團隊的工作助力。
數(shù)據(jù)密集型知識生產(chǎn)技術就是將泛在于網(wǎng)絡空間和圖書館實體中的信息逐步提煉為情報和知識的過程,一般表現(xiàn)為知識庫的建立和應用。知識庫的建立一般按照需求分析、技術準備、知識組織等流程來進行,以實現(xiàn)用戶需求與從密集數(shù)據(jù)中提煉出來的知識的雙向?qū)???傮w來說,知識庫的構建可以分為以下幾個步驟:
(1)信息獲?。翰捎没诜植际接嬎愕拿芗瘮?shù)據(jù)處理技術來從密集數(shù)據(jù)中按照一定的關系模型提煉出所需要的信息,保障知識生產(chǎn)。
(2)知識組織:將提取出來的知識以科學的分類法加以組織,增強元數(shù)據(jù)描述的厚度,制作索引、目錄以方便檢索,目的是更方便用戶使用和檢索;
(3)構建知識庫:將經(jīng)過組織的知識資源進行存儲,使用語義化技術構建知識庫檢索系統(tǒng),同時進行必要的備份策略;
(4)更新與維護:在知識爆炸環(huán)境中,知識是不斷更新的,因此圖書館工作者也必須跟上知識更新的腳步,不斷更新“知識庫”,并進行維護工作。
利用密集數(shù)據(jù)進行知識咨詢服務,就是在保障圖書館大數(shù)據(jù)安全儲存的基礎上,使用科學方法采集與學科服務相關的大數(shù)據(jù),挖掘、分析和展現(xiàn),然后通過學科導航平臺將通過密集數(shù)據(jù)獲得的科研熱點、科研趨勢、情報計量等學科服務信息精確推送到相應的用戶面前。最終使學科服務實現(xiàn)從被動服務到主動服務的轉(zhuǎn)變、從傳統(tǒng)參考咨詢服務到現(xiàn)代知識服務的轉(zhuǎn)變、從低效耗散服務到高效集中服務的轉(zhuǎn)變。
在Web2.0的環(huán)境下,圖書館與用戶的知識交流模式發(fā)生了變革,以微博、微信為代表的社交媒體逐漸被圖書館所應用,這些工具打破了圖書館與用戶在時間與空間上的界限,擴展了圖書館的形態(tài),提升了服務質(zhì)量。因此,在知識導航過程中應當采用基于新媒體的主動服務模式,又可以細分為以下幾種類型:
4.3.1 傳統(tǒng)咨詢模式的革新
即知識導航和咨詢是基于圖書館傳統(tǒng)的參考咨詢服務的,但其工作流程和服務內(nèi)容發(fā)生了質(zhì)的變化。其不僅僅為讀者和科研用戶提供文獻的檢索和全文傳遞,更提供了貫穿知識管理全部生命周期的服務。首先由用戶提出需求,然后館員可以根據(jù)需求從密集數(shù)據(jù)中提煉知識,形成知識庫,通過知識導航遞送給用戶并提供持續(xù)服務。一旦某些知識內(nèi)容形成專題,那么將會使更多的用戶關注這些知識熱點。
4.3.2 基于 Web2.0的知識咨詢
即依托于微博、微信、博客、RSS、WIKI寫作等Web2.0技術的知識咨詢。圖書館定期更新知識庫并通過Web2.0工具進行推送,在用戶參與知識共享的過程中,可以進一步使用大數(shù)據(jù)技術分析用戶的個性化需求,利用反饋信息優(yōu)化知識庫。同時,重視Web2.0所帶來的交互性,使用戶在使用過程中產(chǎn)生身臨其境的感覺。
4.3.3 基于人工智能的知識導航
人工智能(Artificial Intelligence,AI)隨著近年來計算機軟硬件技術的革新發(fā)展較快。圖書館所能利用的人工智能目前還有限,但可以預見的是AI會成為智慧城市和智慧型圖書館建設的核心環(huán)節(jié)。人工智能的核心是機器學習、模式識別和專家系統(tǒng)等技術,而這些技術同樣適用于大規(guī)模數(shù)據(jù)處理。數(shù)據(jù)密集型環(huán)境下,應用人工智能可以協(xié)調(diào)圖書館內(nèi)傳感器、數(shù)據(jù)庫、用戶記錄等不同類型的數(shù)據(jù)資源,從而實現(xiàn)智慧化的知識導航服務。目前,清華大學圖書館“小圖”機器人程序已經(jīng)開始為用戶提供全新模式的咨詢服務;蘋果公司的Siri能夠?qū)⒅悄苁謾C變身為帶有AI的機器人??梢灶A見,未來AI能夠更好地提升圖書館的文獻檢索、圖書分類和知識導航等業(yè)務。
隨著數(shù)據(jù)密集型環(huán)境的不斷發(fā)展,圖書館的業(yè)務在不斷擴展,以數(shù)據(jù)為核心的服務將為圖書館帶來機遇和挑戰(zhàn)。面對越來越強大的搜索引擎和商業(yè)數(shù)字圖書館的雙重威脅,圖書館在信息交流和知識共享領域的核心地位遭遇了前所未有的挑戰(zhàn)。然而,圖書館軟硬件水平不斷提高,其數(shù)據(jù)存儲能力、情報計量水平、知識咨詢服務等都在持續(xù)進步,同時越來越多的接受過專業(yè)圖書館教育的館員正在走進這個行業(yè)。因此,圖書館有能力抓住數(shù)據(jù)密集環(huán)境下的機遇,大力提升其知識咨詢水平,為用戶帶來福音。
新媒體、物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等一系列技術不斷地被應用在圖書館中,并提高了圖書館的服務能力和效率,傳統(tǒng)的圖書館正在朝著智慧型圖書館的方向升級。在這個大趨勢中,圖書館的知識咨詢服務勢必將成為核心內(nèi)容,在數(shù)據(jù)爆炸時代增強圖書館的核心競爭力。
[1]Vision Paper-Distributed Data Mining and Big Data:Intel’s Perspective on Data at the Edge[EB/OL].[2015-04-08].http://trends.ifla.org/node/99
[2]IEEE Big Data Service 2015[EB/OL].[2015-04-08].http://www.big-dataservice.net
[3]Bia Data:The next frontier for innovation,competition,and productivity[EB/OL].[2014-04-08].http://www.mckinsey.com/Insights/MGI/Research/Technologu_and_Innovation/Big_data_the_next_frontier for innovation
[4]Library Linked Data Incubator Group:Use Cases[EB/OL].[2015-04-08].http://www.w3.org/2005/Incubator/lld/XGR-lld-usecase-20111025/