鄒鑫
關(guān)鍵詞:圖書館服務(wù);大數(shù)據(jù);數(shù)據(jù)挖掘;數(shù)據(jù)分析
摘要:文章分析了大數(shù)據(jù)理念及其對圖書館服務(wù)的影響,指出圖書館要想真正提供個(gè)性化服務(wù)和智慧服務(wù),使服務(wù)更具價(jià)值,必須將服務(wù)建立在分析、挖掘相關(guān)海量數(shù)據(jù)的基礎(chǔ)上。
中圖分類號:G250.7文獻(xiàn)標(biāo)識碼:A文章編號:1003-1588(2016)09-0112-03
互聯(lián)網(wǎng)促使數(shù)字?jǐn)?shù)據(jù)量猛增,讓人類邁入大數(shù)據(jù)時(shí)代,使圖書館館藏資源與日俱增,數(shù)據(jù)類型多種多樣,存儲系統(tǒng)空間日益增大,圖書館服務(wù)開始提供訪問、互動(dòng)、共享、數(shù)字化和備份等功能,管理系統(tǒng)支持不同的輸入、輸出密集行為及數(shù)據(jù)查詢密集行為。因此導(dǎo)致圖書館相關(guān)數(shù)據(jù)急劇膨脹,造成圖書館無法在一定時(shí)間內(nèi)用常規(guī)軟件或工具對其內(nèi)容進(jìn)行分析、處理和管理,大數(shù)據(jù)開始對圖書館的服務(wù)方式、館藏結(jié)構(gòu)、管理模式產(chǎn)生重大影響。
1大數(shù)據(jù)內(nèi)涵及理念
1.1大數(shù)據(jù)內(nèi)涵
關(guān)于大數(shù)據(jù),目前學(xué)界尚未形成統(tǒng)一的定義,但是存在一些共識:大數(shù)據(jù)是一個(gè)動(dòng)態(tài)概念,是一個(gè)用來描述海量的結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的流行短語,大數(shù)據(jù)的容量非常巨大以至于很難用傳統(tǒng)的數(shù)據(jù)庫和軟件技術(shù)進(jìn)行存儲、管理和處理。但是,人們沒有明確提出數(shù)據(jù)量必須達(dá)到TB級或PB級才算是大數(shù)據(jù),數(shù)據(jù)量隨著信息技術(shù)的發(fā)展而改變,過去或目前的大數(shù)據(jù),在未來可能不再是大數(shù)據(jù)。
大數(shù)據(jù)具有4V特征,即種類(Variety)多、速度(Velocity)快、容量(Volume)大、價(jià)值(Value)大[1],其中價(jià)值大是其首要特征。建立數(shù)據(jù)驅(qū)動(dòng)的關(guān)于大數(shù)據(jù)相關(guān)關(guān)系的分析以及建立在相關(guān)關(guān)系分析法基礎(chǔ)上的預(yù)測是大數(shù)據(jù)的價(jià)值所在[2]。對圖書館來說,大數(shù)據(jù)的價(jià)值是分析讀者和圖書館的各種數(shù)據(jù)來創(chuàng)新、完善圖書館服務(wù),制定圖書館未來發(fā)展策略。
1.2大數(shù)據(jù)理念
大數(shù)據(jù)基本理念是通過包括互聯(lián)網(wǎng)在內(nèi)的多種渠道收集研究對象的多維度數(shù)據(jù),通過對海量數(shù)據(jù)的關(guān)聯(lián)分析和數(shù)據(jù)挖掘,發(fā)現(xiàn)被研究對象的潛在行為模式或規(guī)律[3]。
1.2.1提煉數(shù)據(jù)的價(jià)值。大數(shù)據(jù)時(shí)代,重要的不是數(shù)據(jù),而是如何使用數(shù)據(jù)。企業(yè)要想創(chuàng)新發(fā)展立于不敗之地,必須改變它們的經(jīng)營方式,學(xué)會從數(shù)據(jù)中洞察事實(shí)并做出反應(yīng),否則數(shù)據(jù)整理得再有條理,也沒有什么價(jià)值。美國麻省理工學(xué)院管理評論在一個(gè)研究報(bào)告中指出:“頂尖績效的公司使用正確分析挖掘方法和工具的使用率,與績效低的公司相比,高出5倍?!盵4]可見,挖掘數(shù)據(jù)價(jià)值在企業(yè)中非常重要,是人們利用大數(shù)據(jù)進(jìn)行決策、發(fā)現(xiàn)事物規(guī)律的前提。
1.2.2分析數(shù)據(jù),預(yù)知未來。美國學(xué)者艾伯特-拉斯洛·巴拉巴西認(rèn)為,93%的人類行為均可以通過數(shù)據(jù)分析予以預(yù)測[5]。因此,圖書館要把用戶訪問圖書館網(wǎng)站、利用資源習(xí)慣、用戶網(wǎng)絡(luò)行為等數(shù)據(jù)搜集起來,進(jìn)行分析挖掘,去發(fā)現(xiàn)用戶利用資源的規(guī)律及信息需求特點(diǎn)。
1.2.3服務(wù)精確與個(gè)性化。大數(shù)據(jù)時(shí)代,對一個(gè)企業(yè)來說,它能夠收集來自電子商務(wù)、企業(yè)網(wǎng)站、博客、微信、移動(dòng)應(yīng)用等不同渠道的用戶訪問、交易和反饋數(shù)據(jù),通過這些數(shù)據(jù)能夠了解用戶的全方面信息,通過分析數(shù)據(jù)幫助企業(yè)針對不同的用戶提供更加精確、更加貼心的產(chǎn)品或服務(wù);對信息服務(wù)機(jī)構(gòu)來說,通過收集、分析用戶信息,可以提供個(gè)性化服務(wù)或一對一服務(wù)。
2大數(shù)據(jù)對圖書館造成的影響
大數(shù)據(jù)時(shí)代,圖書館服務(wù)質(zhì)量的提升需要大數(shù)據(jù)的支持,大數(shù)據(jù)將成為圖書館的核心資產(chǎn),圖書館對讀者數(shù)據(jù)進(jìn)行分析、處理和預(yù)測,能夠給讀者提供更好的服務(wù)模式[6]。讀者信息需求呈現(xiàn)個(gè)性化與多樣化,為滿足其需求圖書館需要分析處理圖書館與讀者之間、不同服務(wù)數(shù)據(jù)之間、讀者與服務(wù)數(shù)據(jù)之間的關(guān)系數(shù)據(jù),預(yù)測讀者多樣化需求、提供針對性服務(wù)和個(gè)性化定制服務(wù)。因此,從海量數(shù)據(jù)中分析潛在的價(jià)值、讀者需求和行為,并通過個(gè)性化服務(wù)來滿足讀者獲取信息的效率、準(zhǔn)確性和便捷性,成為影響圖書館服務(wù)發(fā)展及質(zhì)量提升的關(guān)鍵。
大數(shù)據(jù)對圖書館館藏造成的影響主要有:一是數(shù)據(jù)量猛增。過去圖書館沒有關(guān)心或沒有能力關(guān)心的數(shù)據(jù),如:社交媒體、實(shí)時(shí)位置、智能設(shè)備、傳感器計(jì)量、消費(fèi)痕跡等復(fù)雜業(yè)務(wù)數(shù)據(jù),也成為收藏對象。另外,隨著資源共享、圖書館聯(lián)盟建立,有的館藏可用量已達(dá)TB級,甚至PB級。二是隨著圖書館越來越重視個(gè)性化服務(wù),圖書館系統(tǒng)與網(wǎng)絡(luò)日志、監(jiān)控與服務(wù)視頻、音頻、圖片、網(wǎng)絡(luò)行為及增值服務(wù)信息等非結(jié)構(gòu)化數(shù)據(jù)將占數(shù)字總量的80%以上,大大超越了以數(shù)字文本為主的機(jī)構(gòu)化信息資源的數(shù)據(jù)量。三是圖書館數(shù)據(jù)量的增長與數(shù)據(jù)的價(jià)值密度背道而馳,造成圖書館海量數(shù)據(jù)的價(jià)值密度較低,而圖書館收藏及提供的信息資源是經(jīng)過篩選的高質(zhì)量知識信息。因此,圖書館需要利用大數(shù)據(jù)技術(shù)與理念處理、挖掘海量數(shù)據(jù)來提高數(shù)據(jù)的價(jià)值密度和可用性。
3大數(shù)據(jù)環(huán)境下圖書館服務(wù)的新發(fā)展
3.1數(shù)據(jù)分析與數(shù)據(jù)挖掘是基礎(chǔ)
大數(shù)據(jù)時(shí)代,圖書館間的競爭不僅是對文獻(xiàn)信息的擁有與組織的競爭,更多的是對多類型數(shù)據(jù)的擁有、融合、挖掘與利用能力的競爭,即大數(shù)據(jù)推動(dòng)圖書館服務(wù)體系從以資源為中心向以數(shù)據(jù)為中心的方向發(fā)展,并且數(shù)據(jù)分析與數(shù)據(jù)挖掘成為圖書館提供服務(wù)與開展工作的基礎(chǔ)。
圖書館要想提升服務(wù)水平,需要對用戶數(shù)據(jù)進(jìn)行分析、處理和預(yù)測,以便提供更好的服務(wù)和更多的服務(wù)方式。圖書館通過對用戶借閱記錄、數(shù)字資源使用下載行為、網(wǎng)站瀏覽等記錄進(jìn)行分析,建立用戶數(shù)據(jù)庫,再進(jìn)行用戶行為模式相似性比對,提供準(zhǔn)確的信息資源推薦及推送服務(wù);通過對圖書借閱率、借閱排行、借閱次數(shù)、訪問數(shù)字資源類型及時(shí)間、學(xué)習(xí)行為、利用資源模式等記錄進(jìn)行分析,圖書館能有針對性地采購用戶需要的信息資源;通過對讀者閱讀習(xí)慣、學(xué)習(xí)方式、獲取資源方式等數(shù)據(jù)進(jìn)行分析,圖書館能科學(xué)合理地完善圖書館工作流程與服務(wù)模式。
3.2服務(wù)走向個(gè)性化
大數(shù)據(jù)環(huán)境下,圖書館的服務(wù)策略建立在對大規(guī)模復(fù)雜數(shù)據(jù)搜集、組織、整理、分析和挖掘的基礎(chǔ)之上,因而大數(shù)據(jù)時(shí)代的圖書館服務(wù)項(xiàng)目更具有針對性和操作性[7]。所以圖書館在解決用戶問題時(shí),可以完全拋棄傳統(tǒng)的解決流程,而采用大數(shù)據(jù)策略的解決方案,即搜集解決用戶問題的相關(guān)數(shù)據(jù),量化分析,再找出相互關(guān)系,給出最優(yōu)解決方案。圖書館對數(shù)據(jù)的挖掘、分析,不僅要分析MARC、電子論文、電子圖書等結(jié)構(gòu)化數(shù)據(jù),還要分析用戶的借閱行為、閱讀習(xí)慣等非結(jié)構(gòu)化數(shù)據(jù)以及用戶的網(wǎng)絡(luò)交流、購物、娛樂等網(wǎng)絡(luò)行為數(shù)據(jù),這樣圖書館才能實(shí)現(xiàn)“一對一”的個(gè)性化服務(wù)。如:美國國會圖書館通過分析館內(nèi)布局與藏書流通率的關(guān)系,來量化并預(yù)測用戶的借閱行為,進(jìn)而提供針對性服務(wù)[8]。
3.3服務(wù)趨向智慧性
大數(shù)據(jù)是數(shù)據(jù)世界的智慧基因,分析和應(yīng)用大數(shù)據(jù)是獲得智慧的關(guān)鍵[9]。傳統(tǒng)分析數(shù)據(jù)的思路基本上都是抽取樣本,事先確定收集什么樣的數(shù)據(jù),然后尋找“已知的未知(Known unknows)”,即證實(shí)某一結(jié)論正確。而大數(shù)據(jù)分析則是以全部數(shù)據(jù)為對象,發(fā)現(xiàn)未知的未知,即找到一些未曾想到的結(jié)果。大數(shù)據(jù)這種發(fā)現(xiàn)未知的未知功能為圖書館服務(wù)創(chuàng)新、實(shí)現(xiàn)智能化開辟了途徑,圖書館服務(wù)開始趨向智慧化發(fā)展:第一,大數(shù)據(jù)技術(shù)不僅能夠利用數(shù)據(jù)了解用戶、信息行為、意愿、業(yè)務(wù)需求、知識應(yīng)用能力及服務(wù)需求等,還能夠利用數(shù)據(jù)分析和預(yù)測用戶科研創(chuàng)新將要發(fā)生什么,從而提供智慧服務(wù)。第二,對圖書館已有信息資源進(jìn)行挖掘,抓取有價(jià)值的知識、關(guān)系、模式等,對網(wǎng)絡(luò)免費(fèi)信息資源利用蜘蛛爬行器、自動(dòng)跟蹤等技術(shù)完成對其搜集、處理和保存等,以便構(gòu)建智慧型知識服務(wù)引擎。第三,大數(shù)據(jù)時(shí)代,智慧服務(wù)的三個(gè)基本要素是智慧館員、數(shù)據(jù)(知識)和用戶,其中智慧館員是核心和主體。智慧館員不僅要具備掌握分析和預(yù)測大數(shù)據(jù)的范疇、價(jià)值、狀態(tài)和周期的能力,還要具備靈活運(yùn)用信息技術(shù)、人工智能、自然語言理解、數(shù)學(xué)算法等多學(xué)科先進(jìn)成果的能力。
3.4提供面向創(chuàng)新的知識服務(wù)
大數(shù)據(jù)環(huán)境下,圖書館提供面向創(chuàng)新的知識服務(wù),該服務(wù)以解決用戶問題為核心,深入解決問題的各個(gè)環(huán)節(jié),擁有解決問題的探索、構(gòu)建和測試等服務(wù)機(jī)制。此服務(wù)建立用戶數(shù)據(jù)庫,跟蹤和整理大量文獻(xiàn)(館內(nèi)外信息資源),對比、篩選與組織相關(guān)內(nèi)容,鑒別、分析可能的結(jié)構(gòu)和趨勢來構(gòu)建宏知識,利用大數(shù)據(jù)技術(shù)進(jìn)一步挖掘知識結(jié)構(gòu)中的沖突、變異和可能性,分析知識內(nèi)容的發(fā)展趨勢與路徑,支持對科技創(chuàng)新未來演變方向與可能性的挖掘與預(yù)警,從而開拓和激發(fā)創(chuàng)新思路與路徑。通過對多樣化數(shù)據(jù)和信息的關(guān)聯(lián)與分析,來支持具體領(lǐng)域的具體問題及其解決方法的分析,再根據(jù)需求的動(dòng)態(tài)變化不斷調(diào)適,與用戶共同探索問題的解決方案[10]。
3.5服務(wù)更具價(jià)值
通俗地講,大數(shù)據(jù)技術(shù)就是從海量的各種類型的數(shù)據(jù)中發(fā)現(xiàn)有價(jià)值信息的技術(shù),此技術(shù)對圖書館服務(wù)質(zhì)量的提升具有很大的幫助。如:圖書館員利用大數(shù)據(jù)方差分析、判別分析與常規(guī)仿真模型、神經(jīng)網(wǎng)絡(luò)分析相結(jié)合的分析方法,針對讀者某一具體研究問題或研究領(lǐng)域進(jìn)行分析,發(fā)現(xiàn)未被人知的研究方向,預(yù)測某一學(xué)科的前沿發(fā)展或?qū)W者影響力評價(jià)等。再如:圖書館員搜集某一學(xué)科的各種類型、各種結(jié)構(gòu)的數(shù)字資源,使用聚類分析與大數(shù)據(jù)技術(shù)架構(gòu)相結(jié)合的分析方法,對該領(lǐng)域的研究方向進(jìn)行歸納、分類,為讀者提供了解學(xué)科隱含著的發(fā)展趨勢、學(xué)科文獻(xiàn)之間的聯(lián)系、可視化學(xué)科圖譜等有價(jià)值信息。
參考文獻(xiàn):
[1]郭育艷.大數(shù)據(jù)時(shí)代圖書館信息服務(wù)的創(chuàng)新[J].鄭州航空工業(yè)管理學(xué)院學(xué)報(bào),2014(1):122-124.
[2]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革[M].杭州:浙江人民出版社,2012:150-156.
[3]李善青,趙輝,宋立榮.基于大數(shù)據(jù)挖掘的科技項(xiàng)目查重模型研究[J].圖書館論壇,2014(2):78-83.
[4]Bill Franks.駕馭大數(shù)據(jù)[M].北京:人民郵電出版社,2013:60-78.
[5]艾伯特-拉斯洛·巴拉巴西.爆發(fā):大數(shù)據(jù)時(shí)代預(yù)見未來的新思維[M].北京:中國人民大學(xué)出版社,2012:99-110.
[6]韓翠峰.大數(shù)據(jù)時(shí)代圖書館的服務(wù)創(chuàng)新與發(fā)展[J].圖書館,2013(1):121-122.
[7]楊海燕.大數(shù)據(jù)時(shí)代的圖書館服務(wù)淺析[J].圖書與情報(bào),2012(4):120-122.
[8]王天泥.知識咨詢:大數(shù)據(jù)時(shí)代圖書館的知識服務(wù)增長點(diǎn)[J].圖書與情報(bào),2013(2):74-77.
[9]韓煒.大數(shù)據(jù)時(shí)代公共圖書館消除數(shù)據(jù)不平等的路徑選擇[J].圖書館論壇,2014(3):14-21.
[10]張曉林.研究圖書館2020:嵌入式協(xié)作化知識實(shí)驗(yàn)室?[J].中國圖書館學(xué)報(bào),2012(1):11-20.
(編校:徐黎娟)