韓鳳勇
關鍵詞:圖書館;大數(shù)據(jù);數(shù)據(jù)處理;應用策略
摘 要:文章介紹了圖書館大數(shù)據(jù)的來源、特點和大數(shù)據(jù)的處理技術,分析了圖書館應用大數(shù)據(jù)技術的實際意義,提出了圖書館運用大數(shù)據(jù)處理技術開展信息服務的策略與方法。
中圖分類號:G250文獻標識碼:A文章編號:1003-1588(2017)10-0125-03
1 背景
大數(shù)據(jù)一般需要新處理模式才能具有更強的決策力、洞察力和流程優(yōu)化能力,以便取得海量、高增長率和多樣化的信息資產(chǎn)。其數(shù)據(jù)處理方式不同于傳統(tǒng)意義上的數(shù)據(jù)處理,而是由一定的統(tǒng)籌能力、敏銳的趨勢判斷能力、強大的決策能力和流程優(yōu)化能力所構成的全新處理模式。近年來,隨著云技術、近距離無線通信技術、物聯(lián)網(wǎng)等技術的不斷成熟,各種信息資源大量出現(xiàn),給人們的工作和生活帶來了極大的便利,值得一提的是圖書館數(shù)字技術的應用在給人們閱讀帶來便捷的同時,也影響著圖書館工作的方方面面。
2 圖書館的大數(shù)據(jù)
2.1 大數(shù)據(jù)的來源
圖書館大數(shù)據(jù)來源包括:(1)商業(yè)數(shù)字平臺。圖書館采購的數(shù)字資源和平臺,如超星手機圖書館、讀秀、百鏈系統(tǒng)、CNKI學術期刊以及各種圖片、音頻、視頻等資源庫。(2)自建資源庫。大量圖書、期刊、光盤的MRAC數(shù)據(jù)及這些圖書、期刊隨書的音、視頻數(shù)據(jù)及本館制作的各類特色資源庫等。(3)互聯(lián)網(wǎng)數(shù)據(jù)。讀者網(wǎng)絡瀏覽信息、圖書的評論信息、讀者的網(wǎng)上社交信息、讀者所處地理位置、讀者的閱讀傾向、讀者消費記錄等個人信息。(4)傳感器數(shù)據(jù)。館內(nèi)安裝的溫度、客流、聲音、防火、安全等傳感器不停地對周圍進行檢測,并不斷生成具有分析價值的數(shù)據(jù)。(5)RFID(無線射頻技術)。目前,國內(nèi)許多圖書館已經(jīng)使用了RFID技術對文獻進行管理,人們對這些安裝有RFID芯片的文獻進行跟蹤、分析、研究、總結,能夠得出許多有價值的大數(shù)據(jù)信息。
以上所提到的圖書館大數(shù)據(jù)按結構歸納,可分為結構化數(shù)據(jù)和非結構化數(shù)據(jù)。存儲在SQL Server等關系數(shù)據(jù)庫中的圖書館數(shù)字資源庫和各平臺產(chǎn)生的數(shù)據(jù),從結構上劃分屬于前者;而音頻、視頻、圖片等文獻屬于非結構化數(shù)據(jù),此類數(shù)據(jù)比結構化數(shù)據(jù)容量大出許多。
2.2 圖書館大數(shù)據(jù)的特點
圖書館的大數(shù)據(jù)滿足“3V”定義,即規(guī)模大(Volume)、變化多樣(Variety)、價值密度低(Value)。其特點有:(1)數(shù)據(jù)量大。如:國家圖書館2005年開始信息化建設,2010年數(shù)字資源量就達到了480TB,2011年增長到了561TB,到2012年數(shù)字總資源已達到807.3TB,近年來更是呈爆發(fā)式增長態(tài)勢。(2)數(shù)據(jù)多樣性。圖書館的大數(shù)據(jù)有本館制作的特色資源、商業(yè)數(shù)字平臺及各應用系統(tǒng)的結構化數(shù)據(jù),另外,還有非結構化的音、視頻文件及圖片等數(shù)據(jù)。(3)價值密度低。價值密度的高低與數(shù)據(jù)總量的大小成反比。以視頻為例,一部一小時的視頻,在連續(xù)不間斷的監(jiān)控中,有用的數(shù)據(jù)可能僅有一二秒,也就是說雖然信息量很大,但必須將大量數(shù)據(jù)信息統(tǒng)籌分析研究,才能從中挖掘出有價值的數(shù)據(jù),而這個挖掘的過程,是目前大數(shù)據(jù)背景下亟待解決的難題。
3 研究圖書館大數(shù)據(jù)的意義
3.1 節(jié)約成本
在共享、合作、開放的理念下,圖書館不需要添置大量的硬件設備,只需通過大數(shù)據(jù)技術即可進行信息管理,其可將電子文獻儲存在第三方供應商的大數(shù)據(jù)服務器上,通過網(wǎng)絡共享解決讀者使用的問題。
3.2 方便使用
圖書館以現(xiàn)有資源為依托,對讀者閱覽習慣、行為模式的大數(shù)據(jù)進行分析,這是一種對現(xiàn)有資源的分析與挖掘。圖書館運用其分析結果為不斷提升智能化管理水平,提高服務質(zhì)量提供了決策依據(jù),提高了讀者利用圖書館的效率,改善了讀者的閱讀習慣。
3.3 建立更加完善的信息服務機制
圖書館對大數(shù)據(jù)進行分析和研究,能夠指導讀者從眾多信息中準確找到自己所需的信息,使館員更為準確、智能地預測讀者需求,進而提高圖書館的服務效能。
4 大數(shù)據(jù)處理技術
4.1 并行數(shù)據(jù)庫
并行數(shù)據(jù)庫是處理數(shù)據(jù)的一種技術,出現(xiàn)在20世紀80年代,屬于關系型數(shù)據(jù)庫,是建立在并行計算和MPP環(huán)境基礎上的數(shù)據(jù)庫,主要存儲結構化數(shù)據(jù),它通過縱向(Scale Up)和橫向(Scale Out)的擴展來實現(xiàn)??v向擴展是增添高性能的CPU、增加RAM容量或更換更快的硬盤,以提升某節(jié)點的性能,但擴展是有限的;橫向擴展指在節(jié)點增加服務器形成集群,使并行數(shù)據(jù)庫的處理能力得到提升,如果某一節(jié)點性能較低,便會影響該集群的整體處理能力,這種處理方式對單個節(jié)點硬件的要求較為苛刻,成本較高。
4.2 云計算
云計算技術是以網(wǎng)格計算為基礎逐步發(fā)展成熟起來的一種新興技術,具有并行和分布式計算的特點。其本質(zhì)是海量的數(shù)據(jù)存儲和數(shù)據(jù)的并行計算,技術比較成熟,可行性比較高。目前,云計算主要有以下幾種技術:(1)谷歌公司的不開源分布式文件可擴展系統(tǒng),為巨量數(shù)據(jù)存儲、搜索而設計,用于大型分布式數(shù)據(jù)的訪問。它運行在普通的硬件上,有自己的容錯機制,能夠為眾多用戶提供總體性能較高的服務。(2)Hadoop分布式文件系統(tǒng)(HDFS),是能夠運行在通用硬件上的分布式文件系統(tǒng),具有高度容錯機制以及開源性的分布式文件系統(tǒng),適合部署在廉價的設備上,提供帶寬比較高的數(shù)據(jù)訪問。目前雅虎、淘寶等許多互聯(lián)網(wǎng)公司都采用該文件系統(tǒng)。(3)編程模型(Map Reduce)是處理大數(shù)據(jù)的基礎。編程模型用于并行運算大于1TB的數(shù)據(jù)集,其概念Reduce(歸約)、Map(映射)及模型內(nèi)涵,是從函數(shù)式編程語言借鑒而來,這針對不熟悉分布式并行編程的人員來說,可以通過該模型方便地將程序運行在分布式系統(tǒng)上,其流程見圖1。
5 處理圖書館的大數(shù)據(jù)
5.1 大數(shù)據(jù)的存儲endprint
圖書館雖然可以利用HDFS來存儲圖書館大數(shù)據(jù),但是無法滿足實時性的要求,因此需要對大數(shù)據(jù)分類并使用不同方式進行存儲。如實時性較高的數(shù)據(jù)應存儲到實時數(shù)據(jù)庫,實時性要求不高的數(shù)據(jù)或各業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù)應存儲到并行數(shù)據(jù)倉庫,大量的歷史數(shù)據(jù)和非結構化數(shù)據(jù)應存儲到HDFS系統(tǒng)(見圖2)。
5.2 大數(shù)據(jù)的展現(xiàn)
圖書館的大數(shù)據(jù)經(jīng)過分析會有許多結果呈現(xiàn)在用戶界面上,用戶界面要注重結構設計、交互設計、視覺設計,應做到易用性、規(guī)范性、合理性、排錯性、節(jié)能性,符合頁面布局合理、易操作、響應時間短等要求。
6 圖書館大數(shù)據(jù)的應用策略
6.1 建立圖書館內(nèi)部數(shù)據(jù)資源集成庫
圖書館應通過科學的方法,運用大數(shù)據(jù)技術對本館現(xiàn)有的“小數(shù)據(jù)”進行收集、整理、挖掘和分析,逐步建立本館自己的信息數(shù)據(jù)資源集成庫,可優(yōu)化服務流程,提高服務效率。
6.2 建立信息核心資源數(shù)據(jù)模塊
圖書館在掌握讀者信息需求的基礎上,要從“小數(shù)據(jù)”應用開始積累經(jīng)驗,并通過整合優(yōu)化內(nèi)外部信息資源的數(shù)據(jù)構架,從源頭上為建立核心資源數(shù)據(jù)模塊夯實基礎,使之能盡快投入到信息服務平臺的運營中。
6.3 建立非結構化的信息庫
目前,以手機、PAD為代表的個人智能終端設備,已經(jīng)成最主要的個人信息來源,所以圖書館很有必要建立社會化、非結構化的信息庫。提升圖書館信息數(shù)據(jù)資源的整體分析能力,有利于加快實現(xiàn)圖書館信息資源智能化服務步伐。
6.4 云技術和大數(shù)據(jù)技術融合
建立信息全面、內(nèi)容豐富的數(shù)字圖書館,需要強大的數(shù)據(jù)發(fā)現(xiàn)能力、數(shù)據(jù)處理能力和數(shù)據(jù)存儲能力,這些都需要先進的數(shù)據(jù)分析技術作為保障。
目前,要解決上述問題,云計算技術是一種最好的技術方案。圖書館應用云技術處理大數(shù)據(jù),應做到以下幾點:(1)充分利用云技術,創(chuàng)建大數(shù)據(jù)基礎架構,讓大數(shù)據(jù)在云平臺上運行,這是云技術的靈魂,也是推進圖書館轉(zhuǎn)型升級的必由之路。(2)利用云技術構建信息資源“數(shù)據(jù)集合”,這是目前嫁接分布式處理的最經(jīng)濟、最有效的手段,充分顯示了云技術的優(yōu)勢,圖書館可通過第三方供應商構建圖書館信息服務云,解決“數(shù)據(jù)集合”的問題。(3)圖書館運用云技術對大數(shù)據(jù)進行分析,圍繞讀者個性化需求,精心設計讀者的個性化服務方案,以釋放出更多的潛在價值。
6.5 選擇適合自身的大數(shù)據(jù)解決方案
存儲、處理和分析大數(shù)據(jù)就需要有相應的數(shù)據(jù)挖掘技術解決方案,目前國際上較為成熟的方案有Intel的Spark開源集群計算環(huán)境,華為的OceanStor9000大數(shù)據(jù)存儲系統(tǒng),IBM的IBMPower分析應用平臺。它們擁有各自的特點和優(yōu)勢,圖書館應根據(jù)自身情況選擇一款適合自己的軟件,作為知識管理的應用平臺。
7 結語
數(shù)字化信息的增長催生出了“大數(shù)據(jù)”的概念,并逐漸地滲入圖書館工作中,這必將影響或改變圖書館的服務。展望未來,大數(shù)據(jù)服務技術與熱點會不斷涌現(xiàn),它將對圖書館知識服務的拓展和深化帶來重大影響。圖書館未來的工作將是“數(shù)據(jù)驅(qū)動”的圖書情報工作。圖書館的大數(shù)據(jù)技術及服務將是一項復雜的系統(tǒng)工程,涉及數(shù)據(jù)的管理水平、數(shù)據(jù)的處理技術及數(shù)據(jù)服務的創(chuàng)新等,需要廣大圖書館員共同努力。
參考文獻:
[1] 張德豐.云計算實戰(zhàn)[M].北京:清華大學出版社,2012:44-47.
[2] 劉剛.Hadoop應用開發(fā)技術詳解[M].北京:機械工業(yè)出版社,2014:10-20.
[3] 張興旺.圖書館大數(shù)據(jù)體系構建的學術環(huán)境和戰(zhàn)略思考[J].情報資料工作,2013(2):12-17.
[4] 王天泥.知識咨詢:大數(shù)據(jù)時代圖書館的知識服務增長點[J].圖書與情報,2013(2):74-77.
[5] 姜山,王剛.大數(shù)據(jù)對圖書館的啟示[J].圖書館工作與研究,2013(4):52-54.
[6] 裴昱.大數(shù)據(jù)時代圖書館用戶行為信息的利用方式[J].圖書館學刊,2013(8):44-46.endprint