□潘家芳
(玉林師范學(xué)院 圖書館,廣西 玉林 537000)
大數(shù)據(jù)對圖書館信息服務(wù)的沖擊
□潘家芳
(玉林師范學(xué)院 圖書館,廣西 玉林 537000)
隨著科學(xué)的發(fā)展,大數(shù)據(jù)時(shí)代在社會(huì)中的影響越來越明顯。在互聯(lián)網(wǎng)、虛擬社區(qū)和科學(xué)研究等多個(gè)領(lǐng)域,數(shù)據(jù)量正以驚人的速度增長著。大數(shù)據(jù)圖書館已經(jīng)日漸形成,研究大數(shù)據(jù)對圖書館信息服務(wù)的沖擊具有重要的現(xiàn)實(shí)意義。通過透析大數(shù)據(jù)的發(fā)展應(yīng)用,論述大數(shù)據(jù)對圖書館信息服務(wù)的沖擊,并提出相應(yīng)的應(yīng)對措施。
大數(shù)據(jù);圖書館;信息服務(wù)
隨著科學(xué)的發(fā)展,大數(shù)據(jù)時(shí)代在社會(huì)中的影響越來越明顯,在互聯(lián)網(wǎng)、虛擬社區(qū)和科學(xué)研究等多個(gè)領(lǐng)域,數(shù)據(jù)量正以驚人的速度增長著。2012以來,大數(shù)據(jù)研究已成為社會(huì)各個(gè)領(lǐng)域的重要熱點(diǎn)之一,越來越多的國家研究機(jī)構(gòu)以及IT行業(yè)巨頭紛紛投入到對大數(shù)據(jù)的研究當(dāng)中。圖書館作為社會(huì)中比較重要的提供知識(shí)信息服務(wù)的機(jī)構(gòu),其服務(wù)愈來愈依賴互聯(lián)網(wǎng)技術(shù)和計(jì)算機(jī)技術(shù),在時(shí)代浪潮中不可避免地面臨著大數(shù)據(jù)的沖擊?;ヂ?lián)網(wǎng)數(shù)據(jù)中心(IDC)的統(tǒng)計(jì)結(jié)果顯示,2008年全球產(chǎn)生的數(shù)據(jù)量為0.49ZB(1ZB等于10億個(gè)TB, 1TB=1024GB),2009 年的數(shù)據(jù)量為0.8ZB,2010年增長為1.4ZB,2011年的數(shù)據(jù)更是高達(dá)1.8ZB(見圖1)。而截止到2012 年底,國家圖書館數(shù)字資源總量達(dá)807.3TB[1]。由此可見,圖書館已初步具備大數(shù)據(jù)的雛形,研究大數(shù)據(jù)以及大數(shù)據(jù)對圖書館的發(fā)展具有重要的現(xiàn)實(shí)意義。
圖1 IDC全球數(shù)據(jù)監(jiān)控及預(yù)測報(bào)告
大數(shù)據(jù)概念最早是由咨詢公司McKensey提出,而后《紐約時(shí)報(bào)》和《華爾街日報(bào)》同時(shí)開辟專欄對其展開了討論[2]。但對于大數(shù)據(jù)的概念,目前還沒有形成一個(gè)統(tǒng)一的準(zhǔn)確定義。總的來說,大數(shù)據(jù)就是用來描述海量數(shù)據(jù)的集合,囊括了聲音數(shù)據(jù)、視頻數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)、個(gè)人信息、科學(xué)研究數(shù)據(jù)等結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),其規(guī)模上遠(yuǎn)遠(yuǎn)超過傳統(tǒng)信息數(shù)據(jù)量,傳統(tǒng)的數(shù)據(jù)庫等技術(shù)已無法滿足大數(shù)據(jù)的存儲(chǔ)和管理要求。
大數(shù)據(jù)具有以下4個(gè)特點(diǎn):
規(guī)模大(Volume),全社會(huì)各行各業(yè)的信息最后都會(huì)全部轉(zhuǎn)為電子數(shù)據(jù)來顯示和存儲(chǔ);
多樣化(Variety),大數(shù)據(jù)種類豐富,在數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)特征等多個(gè)方面存在差異性,也不再是單一的結(jié)構(gòu)數(shù)據(jù),而是增加了視頻等非結(jié)構(gòu)數(shù)據(jù);
價(jià)值密度低(Value),信息時(shí)代的發(fā)展促使信息無處不在,海量的數(shù)據(jù)中參雜著各種錯(cuò)亂的、無效的信息,數(shù)據(jù)價(jià)值密度較低;
時(shí)效性強(qiáng)(Velocity),大數(shù)據(jù)的應(yīng)用在實(shí)時(shí)數(shù)據(jù)方面具有很高的要求,是實(shí)時(shí)地不間斷地對數(shù)據(jù)進(jìn)行抓取和處理,比傳統(tǒng)的數(shù)據(jù)查詢、數(shù)據(jù)挖掘要快速有效。
2011 年美國McKinsey Global Institute發(fā)布了《Big Data: The Next Frontier for Innovation,Competition and Productivity》的調(diào)查報(bào)告,指出盡管全球數(shù)據(jù)飛速增長,但有將近87.5% 的數(shù)據(jù)未得到真正利用,許多數(shù)據(jù)資源并沒有形成真正的知識(shí)源以供研究人員利用。2011年9月美國總統(tǒng)奧巴馬正式宣布“數(shù)字承諾”(Digital Promise)項(xiàng)目,以研究和開發(fā)學(xué)習(xí)科學(xué)、技術(shù)和教育的交叉點(diǎn)服務(wù)為己任,借助新媒體技術(shù)改變和幫助公民進(jìn)行快速的最廣泛的教學(xué)與學(xué)習(xí),600個(gè)美國校區(qū)將使用iPad來閱讀電子教材,目前亞馬遜已經(jīng)向美國學(xué)生啟動(dòng)了租借電子教材的服務(wù)。2012年3月29日,奧巴馬政府公布了“大數(shù)據(jù)研發(fā)計(jì)劃”(Big Data),目的在于借助政府的推動(dòng),促使大數(shù)據(jù)相關(guān)技術(shù)的成熟發(fā)展,從而提高民眾從海量和復(fù)雜的數(shù)據(jù)中提取知識(shí)和洞察分析的能力,從而加速美國在科學(xué)與工程領(lǐng)域發(fā)明的步伐,轉(zhuǎn)變現(xiàn)有的教學(xué)和學(xué)習(xí)方式[3]。
大數(shù)據(jù)最大的價(jià)值在于通過數(shù)據(jù)的共建共享和專業(yè)化處理,實(shí)現(xiàn)以最小的成本挖掘出數(shù)據(jù)最大的價(jià)值。因此,對于其研究更多是為了進(jìn)行商業(yè)應(yīng)用。例如百度作為國內(nèi)最常用的搜索引擎,其搜索過程便是對互聯(lián)網(wǎng)數(shù)據(jù)、用戶數(shù)據(jù)進(jìn)行專業(yè)處理。根據(jù)百度的資料顯示,其每天需要提供超過1.5PB(1PB=1024TB)的導(dǎo)航數(shù)據(jù),“每天處理的數(shù)據(jù)量接近100PB,相當(dāng)于5000個(gè)國家圖書館信息量的總和[4]?!倍聊壳盀橹?,人類生產(chǎn)的所有印刷材料的數(shù)據(jù)量一共才200PB。在技術(shù)方面,百度借鑒了Hadoop的思想,根據(jù)自身應(yīng)用實(shí)際情況開發(fā)了Replication Protocol、數(shù)據(jù)分治等技術(shù)方法[4]。
大數(shù)據(jù)的特色在于在海量數(shù)據(jù)中挖掘出用戶最需要的數(shù)據(jù),提高數(shù)據(jù)的利用和效益,因此大數(shù)據(jù)必須依托與計(jì)算機(jī)技術(shù)和互聯(lián)網(wǎng)技術(shù)。目前大數(shù)據(jù)分析主要涉及到以下5個(gè)方面[5]:
可視化分析:大數(shù)據(jù)通過異構(gòu)數(shù)據(jù)的關(guān)聯(lián),能夠直觀地向用戶提供圖文聲像等多角度的可視化分析,使得數(shù)據(jù)信息一目了然,易于用戶解讀和接受。如百度在陽泉市設(shè)立了“云計(jì)算”中心項(xiàng)目,采用大數(shù)據(jù)核心技術(shù),充分利用了大數(shù)據(jù)的優(yōu)勢,通過高水平的數(shù)據(jù)關(guān)聯(lián)和云計(jì)算技術(shù),對搜索結(jié)果進(jìn)行多方面多角度展示。
預(yù)測性分析:大數(shù)據(jù)分析是建立在海量的歷史數(shù)據(jù)上面,通過這些數(shù)據(jù)可以建立有效的數(shù)字模型,從而可以在一定程度上對未來的數(shù)據(jù)發(fā)展進(jìn)行預(yù)測,為用戶提供個(gè)性化的數(shù)據(jù)推送。
數(shù)據(jù)價(jià)值挖掘:大數(shù)據(jù)的出發(fā)點(diǎn)在于通過對海量數(shù)據(jù)進(jìn)行深入、有效、快速的分析,對數(shù)據(jù)進(jìn)行過濾、關(guān)聯(lián)、整合等處理,使得不同結(jié)構(gòu)、不同類型的數(shù)據(jù)相互關(guān)聯(lián),最大程度上挖掘出數(shù)據(jù)應(yīng)有的價(jià)值。
語義引擎:語義引擎采用自然語言,通過人工智能系統(tǒng)主動(dòng)搜集和識(shí)別用戶所使用的數(shù)據(jù)語言或者從現(xiàn)有文件中提取出有用語義信息,并在搜索結(jié)果中自動(dòng)進(jìn)行個(gè)性化推送。
數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理:數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理是數(shù)據(jù)處理的關(guān)鍵,能幫助大數(shù)據(jù)如何通過標(biāo)準(zhǔn)化的流程和工具最大化實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。
大數(shù)據(jù)借助這些理論以及相關(guān)的云計(jì)算、物聯(lián)網(wǎng)、數(shù)據(jù)倉庫等最新技術(shù),在商業(yè)智能、政府決策、公共服務(wù)、市場營銷等方面得到了廣泛應(yīng)用,幫助政府部門和企業(yè)在高度復(fù)雜的海量數(shù)據(jù)當(dāng)中挖掘出其想得到的價(jià)值,這在很大程度上給圖書館信息服務(wù)工作的未來發(fā)展提供了很大的啟迪。
隨著大數(shù)據(jù)的研究和應(yīng)用的日漸成熟,圖書館面臨著越來越大的壓力。面對大數(shù)據(jù)的壓力,當(dāng)前圖書館的信息服務(wù)不可避免地受到了不同程度、不同角度的沖擊。
(一)信息服務(wù)對象明顯流失
大數(shù)據(jù)時(shí)代的到來讓人們對社會(huì)上各類信息觸手可及,用戶在信息獲取方面不再局限于以往的有限的幾個(gè)途徑,可以通過多種途徑獲得其需要的信息服務(wù),相對傳統(tǒng)圖書館信息服務(wù)來說更方便更快捷。
在以往的信息環(huán)境中,圖書館信息服務(wù)在用戶的信息獲取、信息利用方面占據(jù)著相當(dāng)重要的地位,是文獻(xiàn)信息存儲(chǔ)、傳播、發(fā)揮其作用的重要手段之一。用戶在工作、學(xué)習(xí)、研究等活動(dòng)中比較多地通過圖書館信息服務(wù)來獲取所需信息。而大數(shù)據(jù)時(shí)代讓用戶足不出戶就可以得到滿意的信息服務(wù),用戶既可以通過互聯(lián)網(wǎng)、網(wǎng)絡(luò)數(shù)據(jù)庫、虛擬圖書館等多種途徑自行獲取個(gè)性化的信息服務(wù),也可以從眾多信息推送當(dāng)中選擇自己滿意的信息服務(wù),這就極大地豐富了用戶的信息獲取途徑,大大削弱了用戶對于圖書館信息服務(wù)的依賴性。
用戶在使用信息服務(wù)時(shí)往往希望能夠快捷地高效地得到有用信息,而圖書館所提供的信息服務(wù)往往需要用戶自己進(jìn)行詳細(xì)的信息閱覽。大數(shù)據(jù)引擎則能夠根據(jù)用戶的檢索要求快速地定位到具體的信息內(nèi)容上,用戶對提供的信息內(nèi)容一目了然。相對于以往效率低下、信息時(shí)效性差、服務(wù)方式生硬的圖書館信息服務(wù),用戶更樂意選擇方便快捷、時(shí)效性強(qiáng)、個(gè)性化程度高的互聯(lián)網(wǎng)等信息途徑來獲取信息,這就導(dǎo)致了圖書館用戶明顯的流失。
(二)信息服務(wù)內(nèi)容不夠豐富
圖書館作為信息、文獻(xiàn)的收集和保存機(jī)構(gòu),其所提供的信息服務(wù)內(nèi)容必然需要經(jīng)過一定時(shí)間的采集、加工、生產(chǎn)、篩選、采購等一系列程序,而傳統(tǒng)的數(shù)據(jù)采集能力往往是非常有限的,這就導(dǎo)致了圖書館信息服務(wù)的內(nèi)容時(shí)效性不強(qiáng)、信息量有限、信息表現(xiàn)形式比較單一等諸多不足。此外,圖書館因其需要確保所提供的信息服務(wù)真實(shí)可靠,在信息采集、采購過程當(dāng)中會(huì)過濾掉一些不可靠數(shù)據(jù)信息,這就大大減少了圖書館能提供的信息量,用戶感興趣的部分信息只能通過其他途徑獲取。
大數(shù)據(jù)時(shí)代讓網(wǎng)絡(luò)等各種信息傳播方式能夠隨時(shí)隨地獲取信息和傳播信息,讓用戶隨時(shí)隨地都可以從信息使用者變?yōu)樾畔⑸a(chǎn)者,讓信息的時(shí)效性得到充分發(fā)揮,也極大地豐富了社會(huì)上的信息內(nèi)容。不僅如此,信息的展示形式也從過去的文字、圖片、聲音、影像等非結(jié)構(gòu)化數(shù)據(jù)單調(diào)地展示轉(zhuǎn)變?yōu)楦鞣N結(jié)構(gòu)化數(shù)據(jù)相互兼容、立體化展示,為用戶提供全方位的生動(dòng)的信息服務(wù)。
(三)信息服務(wù)方式過于被動(dòng)
在傳統(tǒng)的圖書館信息服務(wù)過程中,往往是用戶主動(dòng)到圖書館尋求借閱、咨詢等信息服務(wù),信息利用率有限,并且在接受服務(wù)時(shí)往往會(huì)出現(xiàn)文獻(xiàn)已外借、信息時(shí)效性差、圖書館員缺乏等一系列問題。而大數(shù)據(jù)在互聯(lián)網(wǎng)信息服務(wù)上的廣泛應(yīng)用讓圖書館用戶逐步習(xí)慣于被動(dòng)地接受服務(wù),也沒有了在接受圖書館信息服務(wù)過程中遇到的諸多困難,這將會(huì)讓越來越多的用戶放棄傳統(tǒng)的圖書館信息服務(wù)。
大數(shù)據(jù)的主要應(yīng)用方向之一便是預(yù)測性分析[6],因此大數(shù)據(jù)技術(shù)在圖書館界的應(yīng)用將很大程度上改變傳統(tǒng)信息服務(wù)方式,促使圖書館在提供信息服務(wù)的過程中更多的是主動(dòng)為用戶提供服務(wù)。借助互聯(lián)網(wǎng)技術(shù)、云計(jì)算技術(shù)等相關(guān)技術(shù),圖書館信息服務(wù)將可以深入、廣泛地參與到用戶的生活當(dāng)中,通過收集和分析用戶的訪問時(shí)間、閱讀喜好、查閱趨勢等行為要素,建立可行的數(shù)據(jù)模型,不斷針對用戶的實(shí)際閱讀行為趨勢提供個(gè)性化的主動(dòng)服務(wù),隨時(shí)隨地為用戶提供信息服務(wù)以及互動(dòng)服務(wù),特別是在為科研用戶提供學(xué)科服務(wù)、決策支持等方面提供主動(dòng)的具有足夠深度的信息服務(wù),極大地提高館藏信息資源的利用率,發(fā)揮出積極的應(yīng)有的社會(huì)效益[7]。
(四)信息服務(wù)意識(shí)相對落后
在傳統(tǒng)的圖書館服務(wù)中,圖書館往往著重于利用自身館藏資源、館員以及相關(guān)軟硬件設(shè)備為用戶提供信息服務(wù),不太重視圖書館間的合作,服務(wù)對象也僅滿足于本地用戶或者老用戶,其所提供的信息服務(wù)相對比較片面,難以滿足用戶更廣泛的信息需求。比如一所高校圖書館的用戶絕大部分都屬于這間學(xué)校的師生,其館藏信息也大多偏向于本校專長的專業(yè)信息,在其他專業(yè)、領(lǐng)域的信息相對比較薄弱,用戶在使用信息服務(wù)時(shí)很難全部專業(yè)或者領(lǐng)域都能滿足需求。
大數(shù)據(jù)時(shí)代所面對的將是更廣的用戶范圍以及更豐富的信息需求,這就要求圖書館之間能夠進(jìn)行更廣泛、更開放、更深入的合作。各區(qū)域圖書館、各專業(yè)圖書館在各方面都應(yīng)轉(zhuǎn)變服務(wù)意識(shí),通過館藏信息互補(bǔ)、技術(shù)合作、館員交流等方面展開全方位合作,將館藏資源向更廣泛的用戶群開放,既可以吸引其他區(qū)域的用戶使用本館的館藏信息,也可以借助其他區(qū)域的館藏信息吸引更多的本區(qū)域新用戶前來使用信息服務(wù),還可以通過共建共享館藏信息來降低館藏建設(shè)成本。
(五)軟硬件設(shè)施相對落后
大數(shù)據(jù)對于數(shù)據(jù)存儲(chǔ)和處理的要求是很高的,圖書館現(xiàn)有數(shù)據(jù)技術(shù)、信息服務(wù)平臺(tái)難以滿足大數(shù)據(jù)的應(yīng)用需求,尤其是在數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)處理的軟硬件設(shè)施方面的要求。數(shù)據(jù)量的幾何級(jí)增長對圖書館的數(shù)據(jù)存儲(chǔ)能力提出了嚴(yán)峻的挑戰(zhàn)。面對每天都在飛速增長的信息數(shù)據(jù),一味增加存儲(chǔ)規(guī)模只會(huì)致使成本急劇上升,同時(shí)增加了信息管理的復(fù)雜性,對信息的可靠性、擴(kuò)展性和規(guī)范性方面也提出了更高要求。當(dāng)前圖書館的信息服務(wù)系統(tǒng)很難滿足大數(shù)據(jù)時(shí)代的數(shù)據(jù)查詢、分析,甚至很容易出現(xiàn)服務(wù)系統(tǒng)出錯(cuò)乃至崩潰等情況,極大地制約著圖書館為用戶提供滿意的信息服務(wù),為圖書館帶來了一定的損失。因此,圖書館必須改變過去的非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)和一站式存儲(chǔ)方式,將非結(jié)構(gòu)化數(shù)據(jù)逐步轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),采用分布式數(shù)據(jù)存儲(chǔ)模式,選擇合適的服務(wù)器組成圖書館計(jì)算機(jī)網(wǎng)絡(luò),以高效的存儲(chǔ)能力和處理能力對圖書館信息進(jìn)行數(shù)據(jù)存儲(chǔ)和管理,以獲得較強(qiáng)的擴(kuò)展性和較好的系統(tǒng)可用性[8]。
隨著大數(shù)據(jù)以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的日漸成熟,大數(shù)據(jù)在圖書館的應(yīng)用將會(huì)對圖書館的信息服務(wù)帶來巨大的變化,傳統(tǒng)的圖書館信息服務(wù)逐漸被大數(shù)據(jù)時(shí)代的主動(dòng)分享所取代。如何處理數(shù)據(jù)、如何挖掘數(shù)據(jù)潛在價(jià)值以及如何根據(jù)數(shù)據(jù)進(jìn)行分析和預(yù)測將成為圖書館信息服務(wù)在大數(shù)據(jù)方面發(fā)展的主要方向。面對大數(shù)據(jù)的沖擊,圖書館人應(yīng)加強(qiáng)自身學(xué)習(xí),努力提升自我素質(zhì),在努力中前進(jìn),在沖擊中尋找機(jī)會(huì),開拓創(chuàng)新,與圖書館一起走向輝煌未來。 ■
[1]崔梅芳.論大數(shù)據(jù)時(shí)代對圖書館知識(shí)服務(wù)的影響及對策[J].企業(yè)文化,2013(7):237.
[2]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學(xué)報(bào),2013(8):142-146.
[3]李健,王麗萍,劉瑞.美國的大數(shù)據(jù)研發(fā)計(jì)劃及對我國的啟發(fā)[J].中國科技資源導(dǎo)刊,2013,45(1):17-23.
[4]李鵬云.大數(shù)據(jù)與圖書館服務(wù)[J].農(nóng)業(yè)圖書情報(bào)學(xué)刊,2013,25(9):179-181.
[5]劉明,李娜.大數(shù)據(jù)趨勢與專業(yè)圖書館[J].中華醫(yī)學(xué)圖書情報(bào)雜志,2013,22(2):1-6.
[6]大數(shù)據(jù)分析的5個(gè)方面[OB].開源中國社區(qū)http://www. oschina.net/news/27069/5-technics-for-bigdataanalysis, 2012-03-22/2014-04-28.
[7]金茵,儲(chǔ)娟.圖書館服務(wù)創(chuàng)新與發(fā)展—大數(shù)據(jù)背景下的“智慧分析”[J].當(dāng)代圖書館,2013(3):37,45-46.
[8]杜成軍. 淺析大數(shù)據(jù)時(shí)代對圖書館的技術(shù)影響[J].電子測試,2013(9):151-152.
【責(zé)任編輯 潘琰佩】
The Impact of Big Data on Library Information Service
PANG Jia-fang
(Library, Yulin Normal University, Yulin, Guangxi 537000)
With the development of science, the influence of big data age on the society is more and more obvious. In many areas, such as, Internet, virtual community and the scientific research, the amount of data is increasing at an alarming rate. Big data library has been formed gradually; it has practical significance to study the impact of big data on library information service. Through dialyzing the development and application of big data, the paper discusses the impact of big data on library information service, and puts forward the corresponding countermeasures.
big data; library; information service
G250.7
A
1004-4671(2015)03-0148-04
2015-01-27
潘家芳(1970~),女,廣西興業(yè)人,玉林師范學(xué)院圖書館技師、助館。研究方向:信息服務(wù)。