国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Hadoop的高校圖書館大數(shù)據(jù)關(guān)鍵技術(shù)研究*

2017-06-13 03:37:04葉春蕾
數(shù)字圖書館論壇 2017年5期
關(guān)鍵詞:數(shù)據(jù)服務(wù)海量結(jié)構(gòu)化

葉春蕾

(北京農(nóng)學(xué)院圖書館,北京 102206)

基于Hadoop的高校圖書館大數(shù)據(jù)關(guān)鍵技術(shù)研究*

葉春蕾

(北京農(nóng)學(xué)院圖書館,北京 102206)

為解決大數(shù)據(jù)環(huán)境下高校圖書館服務(wù)面臨的海量數(shù)據(jù)分布式存儲、多樣化數(shù)據(jù)源分布式管理以及簡易靈活的大數(shù)據(jù)服務(wù)應(yīng)用問題,本文深入分析大數(shù)據(jù)處理研究內(nèi)容、Hadoop生態(tài)系統(tǒng)以及高校圖書館大數(shù)據(jù)服務(wù)需求,提出一種基于Hadoop的高校圖書館大數(shù)據(jù)整體技術(shù)框架,構(gòu)建高校圖書館海量數(shù)據(jù)分布式存儲管理、多樣化數(shù)據(jù)源分布式管理和多樣化服務(wù)管理。該技術(shù)框架充分考慮大數(shù)據(jù)環(huán)境下高校圖書館大數(shù)據(jù)特征、數(shù)據(jù)存儲、數(shù)據(jù)管理及服務(wù)處理等方面的變化,能夠在一定程度上解決高校圖書館大數(shù)據(jù)服務(wù)的關(guān)鍵技術(shù)問題。

大數(shù)據(jù);大數(shù)據(jù)技術(shù);高校圖書館;Hadoop

隨著信息化發(fā)展,大量數(shù)字資源紛紛進(jìn)入高校圖書館。移動(dòng)終端的普及使用戶可以不受時(shí)空限制獲取知識,用戶數(shù)據(jù)量呈現(xiàn)爆發(fā)增長趨勢。同時(shí),高校圖書館數(shù)據(jù)來源也呈現(xiàn)多樣化特征,除傳統(tǒng)結(jié)構(gòu)化數(shù)據(jù)資源外,還包括海量半結(jié)構(gòu)、非結(jié)構(gòu)化的信息資源。并且隨著社交網(wǎng)站的普遍應(yīng)用,互聯(lián)網(wǎng)數(shù)據(jù)的產(chǎn)生速度超過以往任何一種傳播媒介,高校圖書館用戶的使用數(shù)據(jù)增長量更大,形成高速發(fā)展的大數(shù)據(jù)基礎(chǔ)。為充分發(fā)揮大數(shù)據(jù)技術(shù)對高校圖書館服務(wù)的促進(jìn)作用,本文提出基于Hadoop的高校圖書館大數(shù)據(jù)技術(shù)框架[1],從應(yīng)用實(shí)踐角度闡述其關(guān)鍵技術(shù),并對其進(jìn)行深入探討。本文構(gòu)建的技術(shù)模型,旨在解決大數(shù)據(jù)環(huán)境下高校圖書館發(fā)展中面臨的三個(gè)主要問題,即海量數(shù)據(jù)的分布式存儲管理、多樣化數(shù)據(jù)源管理(包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的分布式管理)以及簡易靈活的大數(shù)據(jù)服務(wù)管理。

1 研究現(xiàn)狀分析

1.1 大數(shù)據(jù)技術(shù)研究現(xiàn)狀

大數(shù)據(jù)技術(shù)融合多種計(jì)算技術(shù)。從信息系統(tǒng)角度可將大數(shù)據(jù)處理分為基礎(chǔ)設(shè)施層、系統(tǒng)軟件層、并行化算法層以及應(yīng)用層[2]。Hadoop作為新的分布式存儲與計(jì)算架構(gòu),因具有可擴(kuò)展性、低成本、高效性與可靠性等優(yōu)點(diǎn),在分布式計(jì)算領(lǐng)域得到廣泛運(yùn)用,并已逐漸成為工業(yè)與學(xué)術(shù)界海量數(shù)據(jù)并行處理標(biāo)準(zhǔn)之一。Hadoop借鑒Google分布式文件系統(tǒng)(Google File System)實(shí)現(xiàn)分布式文件系統(tǒng)(Hadoop Distributed File System, HDFS)[3],借鑒MapReduce計(jì)算模型實(shí)現(xiàn)分布式計(jì)算框架[4],這兩個(gè)系統(tǒng)構(gòu)成Hadoop的核心子系統(tǒng)。MapReduce為大數(shù)據(jù)處理提供了良好平臺,但由于是為大數(shù)據(jù)線下批處理而設(shè)計(jì)的,其隨著數(shù)據(jù)規(guī)模不斷擴(kuò)大,對于需要高響應(yīng)性能的大數(shù)據(jù)查詢分析計(jì)算問題,以Hadoop為代表的大數(shù)據(jù)處理平臺通常難以滿足計(jì)算要求,因此有研究者嘗試在Hadoop平臺上搭建Spark框架[5],利用Apache Spark快速靈活的迭代計(jì)算能力來滿足大數(shù)據(jù)環(huán)境下日益增長的速度需求。與此同時(shí), Hadoop為提高計(jì)算性能,參考BigTable實(shí)現(xiàn)了分布式數(shù)據(jù)庫HBase[6-7],并提供其他配套工具(如Hive[8]、Pig[9]等),以期在一定程度上彌補(bǔ)MapReduce的不足。

1.2 高校圖書館大數(shù)據(jù)研究現(xiàn)狀

大數(shù)據(jù)環(huán)境下,無論從高校圖書館數(shù)據(jù)類型、數(shù)量、價(jià)值還是從未來發(fā)展趨勢來看,高校圖書館海量數(shù)據(jù)已經(jīng)初步具備大數(shù)據(jù)基本特征。圖書館作為圖書情報(bào)領(lǐng)域的實(shí)踐陣地,一直關(guān)注新信息技術(shù)和應(yīng)用。

從大數(shù)據(jù)處理內(nèi)容來看,系統(tǒng)軟件層主要考慮大數(shù)據(jù)存儲管理和并行化計(jì)算能力,其中存儲管理是關(guān)鍵。陳臣提出一種基于新型存儲的高校圖書館分布式大數(shù)據(jù)存儲架構(gòu)[10],其主要設(shè)計(jì)思想源于Hadoop的HDFS系統(tǒng)架構(gòu);梁俊榮提出一種基于Hadoop的圖書館復(fù)合大數(shù)據(jù)存儲系統(tǒng)[11]。目前,基于HDFS的分布式文件系統(tǒng)發(fā)展較成熟,其以可擴(kuò)展方式支持大規(guī)模數(shù)據(jù)的存儲管理。但從高校圖書館大數(shù)據(jù)技術(shù)角度來看,需根據(jù)大數(shù)據(jù)處理過程中所面臨的問題,提出可行性存儲方案;此外,還需要考慮多樣化數(shù)據(jù)結(jié)構(gòu)存儲問題。目前,國內(nèi)外學(xué)者在非結(jié)構(gòu)化數(shù)據(jù)處理和應(yīng)用方面進(jìn)行了廣泛研究[12-17],而更需要解決的是如何針對高校圖書館非結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn)建立模型,并提出具體實(shí)施方案。

當(dāng)傳統(tǒng)數(shù)據(jù)庫在容量和數(shù)據(jù)結(jié)構(gòu)上難以適應(yīng)半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)時(shí),NoSQL數(shù)據(jù)庫技術(shù)應(yīng)運(yùn)而生[18],但NoSQL數(shù)據(jù)庫一般不提供SQL語言支持。大量數(shù)據(jù)庫應(yīng)用開發(fā)者仍然習(xí)慣于SQL編程,如果要在NoSQL上提供SQL查詢機(jī)制,則需要將面向結(jié)構(gòu)化數(shù)據(jù)查詢的SQL與面向半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化大數(shù)據(jù)查詢的NoSQL統(tǒng)一融合,新的數(shù)據(jù)查詢技術(shù)NewSQL便是此環(huán)境下的產(chǎn)物(包括Apache HBase)。HBase以其分布式特點(diǎn)、海量存儲技術(shù)以及靈活的數(shù)據(jù)定義方式在多個(gè)領(lǐng)域得到廣泛應(yīng)用[19-20]。

在大數(shù)據(jù)并行化算法層,現(xiàn)有研究偏向于大數(shù)據(jù)處理所需分析挖掘算法的并行化設(shè)計(jì)。大數(shù)據(jù)分析挖掘算法通常可使用MapReduce架構(gòu)實(shí)現(xiàn),但要求開發(fā)人員具有較高的編程能力,他們需要編寫復(fù)雜的MapReduce程序以實(shí)現(xiàn)大數(shù)據(jù)分析和挖掘。Hive提供了一個(gè)供用戶進(jìn)行數(shù)據(jù)查詢、分析和挖掘的倉庫系統(tǒng),該系統(tǒng)使用類似SQL的HiveQL語言描述數(shù)據(jù)處理邏輯,減少大數(shù)據(jù)處理的編程工序。吳曉英等基于Hive平臺調(diào)用Mahout算法進(jìn)行數(shù)據(jù)挖掘與分析[21]。一般情況下,Hive主要面向數(shù)據(jù)庫的數(shù)據(jù)處理平臺,但是高校圖書館的流數(shù)據(jù)也是圖書館大數(shù)據(jù)的重要來源之一,在處理數(shù)據(jù)流時(shí)可以考慮使用Pig。相比MapReduce,Pig為海量數(shù)據(jù)集的處理提供了更高層次的抽象,可以簡化MapReduce任務(wù)的開發(fā),提高Hadoop集群數(shù)據(jù)處理的便捷性。

1.3 高校圖書館大數(shù)據(jù)技術(shù)面臨的問題

1.3.1 海量數(shù)據(jù)存儲問題

海量數(shù)據(jù)資源存儲需求對高校圖書館存儲能力提出挑戰(zhàn)。蘇新寧認(rèn)為大數(shù)據(jù)時(shí)代高校圖書館資源建設(shè)要注重各類再生資源的存儲工作[22]。陳傳夫等認(rèn)為大數(shù)據(jù)環(huán)境下高校圖書館建設(shè)面臨的問題之一是資金投入不足[23]。因此,在現(xiàn)有的資金基礎(chǔ)上提高大數(shù)據(jù)對高校圖書館服務(wù)創(chuàng)新的推動(dòng)作用首要解決的問題是提高海量數(shù)據(jù)存儲能力。

大數(shù)據(jù)環(huán)境下,高校圖書館對數(shù)據(jù)存儲的安全性、讀寫性能、經(jīng)濟(jì)性和管理效率等方面提出更高要求。數(shù)據(jù)存儲的安全性是高校圖書館有效服務(wù)的關(guān)鍵問題之一,只有確保數(shù)據(jù)安全才能進(jìn)一步提高圖書館服務(wù)可靠性,保護(hù)用戶隱私。隨著高校圖書館數(shù)據(jù)量指數(shù)級增長,對圖書館數(shù)據(jù)存儲的讀寫性能也提出更高要求。海量數(shù)據(jù)要求存儲系統(tǒng)具有高吞吐量、快速準(zhǔn)確存取和傳輸能力,為高校圖書館用戶服務(wù)決策支持提供保障。高校圖書館大數(shù)據(jù)存儲系統(tǒng)在構(gòu)建時(shí)需考慮存儲成本問題,所以要求大數(shù)據(jù)存儲架構(gòu)能夠?qū)υ写鎯ο到y(tǒng)平臺進(jìn)行升級和無縫對接,在保證前期數(shù)據(jù)存儲業(yè)務(wù)有效運(yùn)行的同時(shí),盡可能降低大數(shù)據(jù)存儲系統(tǒng)建設(shè)成本。因此,在大數(shù)據(jù)環(huán)境下如何保證大數(shù)據(jù)存儲系統(tǒng)安全、高效、經(jīng)濟(jì)和可靠是高校圖書館面臨的一個(gè)嚴(yán)峻挑戰(zhàn)。

1.3.2 多樣化數(shù)據(jù)結(jié)構(gòu)處理問題

陳傳夫等認(rèn)為:大數(shù)據(jù)環(huán)境下高校圖書館存在資源建設(shè)不合理的問題;資源同質(zhì)化現(xiàn)象比較嚴(yán)重;存儲在數(shù)據(jù)庫中的結(jié)構(gòu)化數(shù)據(jù)占比高,缺乏對非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理[23]。在高校圖書館大數(shù)據(jù)服務(wù)創(chuàng)新中需要解決的另一個(gè)問題是對多樣化數(shù)據(jù)結(jié)構(gòu)的處理。

在高校圖書館中結(jié)構(gòu)化數(shù)據(jù)占比較低,非結(jié)構(gòu)化數(shù)據(jù)是大數(shù)據(jù)的主要存在形式。其一方面來自圖書館自身館藏資源,如圖片、圖像、論文、多媒體、數(shù)據(jù)庫、自建特色數(shù)據(jù)庫、RFID數(shù)據(jù)、用戶行為數(shù)據(jù)、用戶社交網(wǎng)絡(luò)數(shù)據(jù)、移動(dòng)設(shè)備數(shù)據(jù)等;另一方面來自圖書館外部開放資源,如即時(shí)通訊數(shù)據(jù)、網(wǎng)絡(luò)出版與傳播數(shù)據(jù)、電子商務(wù)數(shù)據(jù)、社交網(wǎng)絡(luò)數(shù)據(jù)、館際共享數(shù)據(jù)等。對多樣化數(shù)據(jù)源,尤其是非結(jié)構(gòu)化數(shù)據(jù)的有效管理將直接影響圖書館服務(wù)效果。

1.3.3 多樣化服務(wù)應(yīng)用問題

程學(xué)旗等認(rèn)為大數(shù)據(jù)價(jià)值挖掘需要對其內(nèi)容進(jìn)行分析與計(jì)算,主要包括深度學(xué)習(xí)、知識計(jì)算和可視化技術(shù)[24]。高校圖書館開展服務(wù)創(chuàng)新活動(dòng)應(yīng)關(guān)注數(shù)據(jù)分析[25]。在理論條件下,高校圖書館大數(shù)據(jù)技術(shù)可以滿足服務(wù)創(chuàng)新需求[22],但要實(shí)現(xiàn)這些技術(shù)必須考慮其在服務(wù)中的靈活性和簡便性。

按照時(shí)效性劃分,高校圖書館大數(shù)據(jù)資源主要包括兩類數(shù)據(jù):第一類是對時(shí)效性要求不高的數(shù)據(jù),主要包括系統(tǒng)日志、用戶行為、閱讀關(guān)系及系統(tǒng)配置數(shù)據(jù)等歷史數(shù)據(jù);第二類是對時(shí)效性要求較高的數(shù)據(jù),主要包括用戶個(gè)性化閱讀即時(shí)需求、用戶位置信息等實(shí)時(shí)數(shù)據(jù)。針對第一類數(shù)據(jù),傳統(tǒng)數(shù)據(jù)服務(wù)方式通常借助數(shù)據(jù)倉庫,使用各類數(shù)據(jù)挖掘算法或工具提供數(shù)據(jù)服務(wù),但大數(shù)據(jù)環(huán)境下,傳統(tǒng)數(shù)據(jù)倉庫處理方式很難有效地完成數(shù)據(jù)多樣化處理;而對于時(shí)效性要求較高的第二類數(shù)據(jù)來說,傳統(tǒng)數(shù)據(jù)服務(wù)方式通常會使用數(shù)據(jù)庫或文件方式進(jìn)行讀、寫、分析等處理,但從使用效率角度來看,很難滿足海量數(shù)據(jù)實(shí)時(shí)轉(zhuǎn)換、導(dǎo)入并加載到分布式數(shù)據(jù)庫管理系統(tǒng)的需求。

基于以上的分析可以看出,在大數(shù)據(jù)環(huán)境下,高校圖書館服務(wù)創(chuàng)新面臨海量數(shù)據(jù)存儲問題、多樣化數(shù)據(jù)結(jié)構(gòu)處理問題、多樣化服務(wù)應(yīng)用等問題。目前,Hadoop所提供的多樣化、靈活性和可擴(kuò)展的系統(tǒng)成員能夠完成大數(shù)據(jù)處理要求。陳吉榮等提出,Hadoop生態(tài)系統(tǒng)將成為中小企業(yè)在面對大數(shù)據(jù)問題時(shí)的首選解決方案[26]。張紅介紹了國家圖書館聯(lián)合軟件開發(fā)商自主研發(fā)的“文津搜索”系統(tǒng)[27],該系統(tǒng)引入Hadoop系統(tǒng)和各類NoSQL技術(shù),實(shí)踐了大數(shù)據(jù)技術(shù)在圖書館資源服務(wù)領(lǐng)域的應(yīng)用。因此,本文將結(jié)合大數(shù)據(jù)技術(shù)內(nèi)容、Hadoop生態(tài)系統(tǒng)架構(gòu)以及高校圖書館大數(shù)據(jù)服務(wù)需求,提出一種基于Hadoop的高校圖書館大數(shù)據(jù)技術(shù)框架,并對框架中的關(guān)鍵技術(shù)進(jìn)行深入討論,以期為高校圖書館大數(shù)據(jù)服務(wù)創(chuàng)新實(shí)踐提供技術(shù)參考。

2 基于Hadoop的高校圖書館大數(shù)據(jù)技術(shù)框架

本文在充分研究大數(shù)據(jù)技術(shù)內(nèi)容、Hadoop生態(tài)系統(tǒng)架構(gòu)、高校圖書館大數(shù)據(jù)現(xiàn)狀和問題的基礎(chǔ)上,提出一種基于Hadoop的高校圖書館大數(shù)據(jù)技術(shù)框架,如圖1所示。

圖1 基于Hadoop的高校圖書館大數(shù)據(jù)技術(shù)框架

基于Hadoop的高校圖書館大數(shù)據(jù)技術(shù)框架主要分為四個(gè)層次,分別是數(shù)據(jù)層、服務(wù)層、應(yīng)用層和用戶層。應(yīng)用層主要利用傳統(tǒng)分析工具、開發(fā)工具等進(jìn)行大數(shù)據(jù)服務(wù)應(yīng)用開發(fā);用戶層主要針對各級用戶提供基于工具的服務(wù)應(yīng)用;其中關(guān)鍵技術(shù)問題主要集中在以Hadoop生態(tài)系統(tǒng)為支撐的數(shù)據(jù)層和服務(wù)層,這兩層主要解決海量數(shù)據(jù)分布式存儲管理、多樣化數(shù)據(jù)源分布式管理以及大數(shù)據(jù)多樣化服務(wù)管理三方面問題。

2.1 基于HDFS的海量數(shù)據(jù)分布式存儲管理

為更好地解決海量數(shù)據(jù)分布式存儲面臨的安全性、讀寫性能、經(jīng)濟(jì)性和管理效率等問題,本文建立基于HDFS的高校圖書館大數(shù)據(jù)存儲結(jié)構(gòu),如圖2所示。

圖2 基于HDFS的高校圖書館大數(shù)據(jù)存儲結(jié)構(gòu)

在基于HDFS的高校圖書館大數(shù)據(jù)存儲結(jié)構(gòu)的實(shí)現(xiàn)過程中,可以從一組普通商用服務(wù)器中選擇一臺性能較好的服務(wù)器作為主控節(jié)點(diǎn)NameNode,其他服務(wù)器作為從節(jié)點(diǎn)DataNode。高校圖書館大數(shù)據(jù)文件(包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù))作為Linux本地文件被存儲在DataNode節(jié)點(diǎn)服務(wù)器中。主控節(jié)點(diǎn)和從節(jié)點(diǎn)服務(wù)器的目錄結(jié)構(gòu)不同,主要由其身份決定。NameNode負(fù)責(zé)管理文件系統(tǒng)的命名空間和元數(shù)據(jù),同時(shí)處理外部文件訪問請求。NameNode保存高校圖書館大數(shù)據(jù)文件系統(tǒng)的3種元數(shù)據(jù):命名空間(整個(gè)分布式文件系統(tǒng)的目錄結(jié)構(gòu))、數(shù)據(jù)塊與文件名映射表以及每個(gè)數(shù)據(jù)塊副本(默認(rèn)有3個(gè)副本)的位置信息。HDFS對外提供命名空間,保證用戶數(shù)據(jù)可存儲在文件中;但HDFS對內(nèi),文件可能被分成若干個(gè)數(shù)據(jù)塊。DataNode用于存儲和管理文件的數(shù)據(jù)塊,為防止數(shù)據(jù)丟失,每個(gè)數(shù)據(jù)塊默認(rèn)有3個(gè)副本,且3個(gè)副本分別復(fù)制在不同節(jié)點(diǎn)上,以避免因一個(gè)節(jié)點(diǎn)失敗而造成一個(gè)數(shù)據(jù)塊的徹底丟失。因此,基于HDFS的高校圖書館大數(shù)據(jù)分布式管理能在一定程度上解決高校圖書館海量數(shù)據(jù)的存儲問題。

2.2 基于HBase的多樣化數(shù)據(jù)源分布式管理

為有效解決多樣化數(shù)據(jù)源,尤其是非結(jié)構(gòu)化數(shù)據(jù)的分布式管理問題,本文對非結(jié)構(gòu)化數(shù)據(jù)源建立統(tǒng)一的數(shù)據(jù)模型。在高校圖書館中,多數(shù)非結(jié)構(gòu)化數(shù)據(jù)的產(chǎn)生與特定用戶行為有關(guān),雖然該類數(shù)據(jù)格式各異,但可通過用戶行為抽取出具有共同特征的屬性集。同樣,海量非結(jié)構(gòu)化數(shù)據(jù)也存在一定關(guān)聯(lián),其關(guān)聯(lián)性通過主題體現(xiàn),可以從數(shù)據(jù)主題特征中抽取出相關(guān)主題屬性集。高校圖書館非結(jié)構(gòu)化數(shù)據(jù)模型主要包括基本屬性集、內(nèi)容屬性集、特征屬性集、行為屬性集和主題屬性集。其中,基本屬性集描述非結(jié)構(gòu)化數(shù)據(jù)對象的一般屬性,包括與非結(jié)構(gòu)數(shù)據(jù)文件相關(guān)的信息,如文件名稱、文件路徑、文件類型、可操作權(quán)限類型、數(shù)據(jù)負(fù)責(zé)人、數(shù)據(jù)所屬單位等;內(nèi)容屬性集描述與非結(jié)構(gòu)化數(shù)據(jù)內(nèi)容相關(guān)的信息,包括非結(jié)構(gòu)化數(shù)據(jù)標(biāo)題、數(shù)據(jù)主題信息、所屬科學(xué)領(lǐng)域、數(shù)據(jù)內(nèi)容語言等;特征屬性集描述與非結(jié)構(gòu)化數(shù)據(jù)類型特征相關(guān)的特有屬性,如媒體屬性、文檔屬性、音頻數(shù)據(jù)、視頻屬性以及圖像屬性等;行為屬性集描述與非結(jié)構(gòu)化數(shù)據(jù)用戶行為相關(guān)的屬性,如最近訪問時(shí)間、訪問累計(jì)時(shí)長、所屬服務(wù)名稱、服務(wù)類別等;主題屬性集描述與非結(jié)構(gòu)數(shù)據(jù)主題相關(guān)的屬性,如非結(jié)構(gòu)數(shù)據(jù)所屬主題在檢索結(jié)果中的數(shù)量相同主題數(shù)以及非結(jié)構(gòu)數(shù)據(jù)所屬主題被檢索次數(shù)等。通過屬性集描述非結(jié)構(gòu)化數(shù)據(jù),并將其納入多樣化數(shù)據(jù)源分布式管理模型中,能促使該分布式數(shù)據(jù)管理模型更好地完成高校圖書館用戶行為檢測和模式提取、高性能數(shù)據(jù)檢索、數(shù)據(jù)分析以及可視化服務(wù)應(yīng)用等。

HBase是一個(gè)基于HDFS的分布式可擴(kuò)展NoSQL數(shù)據(jù)庫,提供對結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化大數(shù)據(jù)的實(shí)時(shí)讀寫和隨機(jī)訪問。HBase提供了一個(gè)基于行、列和時(shí)間戳的三維數(shù)據(jù)管理模型,在HDFS實(shí)際的存儲中,直接存儲每個(gè)字段數(shù)據(jù)所對應(yīng)的完整鍵值對“{row key, column family, column name, timestamp}->value.”。如圖書館用戶訪問資源的鍵值對可以表示為“{key3, userInfo, dataSource, t2}->’http://www.cnki.net’”。HBase的每行每列族中保存一個(gè)Map映射表,列不需要靜態(tài)定義,每列都可以動(dòng)態(tài)增加或減少。利用HBase實(shí)現(xiàn)多樣化數(shù)據(jù)源管理主要包括三個(gè)步驟:對非結(jié)構(gòu)化數(shù)據(jù)的各類屬性進(jìn)行描述,提取并設(shè)置屬性值;以屬性集合及其屬性值建立對應(yīng)的HBase數(shù)據(jù)表(見表1);基于HBase數(shù)據(jù)表進(jìn)行各類靈活的查詢、分析等操作。

HBase通過靈活的鍵值對為高校圖書館非結(jié)構(gòu)化數(shù)據(jù)屬性集提供精確的保存方式。同時(shí),HBase中每個(gè)數(shù)據(jù)表的記錄數(shù)(行數(shù))可以多達(dá)幾十億條,每條記錄可以擁有上百萬字段。其存儲能力不需要特殊硬件,普通服務(wù)器集群即可勝任。因此,對于高校圖書館海量、多樣化數(shù)據(jù)來說,基于HBase的技術(shù)框架是可行的。

表1 HBase數(shù)據(jù)表的基本結(jié)構(gòu)

2.3 基于Hive、Pig的大數(shù)據(jù)多樣化服務(wù)管理

為更好地提高高校圖書館大數(shù)據(jù)服務(wù)的靈活性和簡便性,本文針對時(shí)效性要求提出不同管理方案。對于高校圖書館對時(shí)效性要求不高的數(shù)據(jù)來說,可以使用Hive數(shù)據(jù)倉庫。首先,Hive是建立在Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu),早期被Facebook用于處理和分析大量用戶日志數(shù)據(jù);其次,作為Hadoop的數(shù)據(jù)倉庫工具, Hive可將結(jié)構(gòu)化數(shù)據(jù)文件映射到數(shù)據(jù)庫表,并提供簡單的數(shù)據(jù)分析功能;再次,Hive還提供一系列工具,可以進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)換和加載;最后,Hive定義了簡單的類SQL查詢語言(HiveQL),方便熟悉SQL的用戶執(zhí)行簡單的數(shù)據(jù)查詢操作。此外,該語言也允許熟悉MapReduce的開發(fā)者開發(fā)自定義的Mapper和Reducer,完成復(fù)雜的數(shù)據(jù)分析工作。

對于高校圖書館時(shí)效性要求較高的數(shù)據(jù)來說,可以使用Pig平臺從數(shù)據(jù)流層面解決這一問題。Pig Latin是一種面向數(shù)據(jù)流的語言。其提供數(shù)據(jù)排序、過濾、求和、分組和關(guān)聯(lián)功能,同時(shí)允許用戶自定義函數(shù),以滿足特殊數(shù)據(jù)處理需求。當(dāng)處理海量數(shù)據(jù)時(shí),首先需要使用Pig Latin語言編寫腳本程序,然后在Pig中執(zhí)行該腳本程序。Pig將用戶編寫的Pig Latin程序編譯為MapReduce作業(yè)程序,并上傳到集群中運(yùn)行。對用戶來說,底層的MapReduce工作是完全透明的,用戶只要了解Pig Latin語言就可以自行處理海量數(shù)據(jù)。基于Hive和Pig的大數(shù)據(jù)多樣化服務(wù)管理的流程圖如圖3所示。

因此,通過對技術(shù)框架中各關(guān)鍵技術(shù)的分析可以看出,在高校圖書館海量數(shù)據(jù)資源、資金有限、多樣化服務(wù)需求條件下,本文構(gòu)建的高校圖書館大數(shù)據(jù)技術(shù)框架將為高校圖書館大數(shù)據(jù)服務(wù)提供充分支持,能夠有助于充分挖掘圖書館海量數(shù)據(jù)資源的潛在價(jià)值,進(jìn)而提升圖書館服務(wù)創(chuàng)新水平。

圖3 高校圖書館大數(shù)據(jù)多樣化服務(wù)流程

3 結(jié)論

高校圖書館數(shù)字資源無論從數(shù)據(jù)類型、數(shù)量、價(jià)值還是從未來發(fā)展趨勢來看,都初步具備大數(shù)據(jù)基本特征。因此,為有效解決大數(shù)據(jù)環(huán)境下高校圖書館服務(wù)創(chuàng)新面臨的問題,本文深入分析高校圖書館大數(shù)據(jù)特征、大數(shù)據(jù)技術(shù)研究內(nèi)容、Hadoop生態(tài)系統(tǒng)架構(gòu)以及高校圖書館大數(shù)據(jù)技術(shù)面臨的問題,提出一種基于Hadoop的高校圖書館大數(shù)據(jù)技術(shù)框架,并進(jìn)一步提出分布式存儲技術(shù)(旨在解決圖書館大數(shù)據(jù)海量存儲問題)、多樣化數(shù)據(jù)源分布式管理技術(shù)(旨在解決圖書館多樣化數(shù)據(jù)類型管理問題)、多樣化服務(wù)處理技術(shù)(旨在提供靈活簡便的圖書館大數(shù)據(jù)服務(wù))。該技術(shù)框架充分考慮大數(shù)據(jù)環(huán)境下高校圖書館大數(shù)據(jù)特征、數(shù)據(jù)存儲與計(jì)算、數(shù)據(jù)管理及服務(wù)處理等方面的變化,能夠在一定程度上解決高校圖書館大數(shù)據(jù)技術(shù)實(shí)施問題。

盡管Hadoop存在不足,特別是基于內(nèi)存計(jì)算模式對速度的響應(yīng)程度遠(yuǎn)低于Spark,但因其具有可擴(kuò)展性、低成本、高效性與可靠性等優(yōu)點(diǎn),在分布式計(jì)算領(lǐng)域得到廣泛的應(yīng)用。Hadoop正努力擴(kuò)展現(xiàn)有計(jì)算模式框架,以解決現(xiàn)有版本在計(jì)算性能、計(jì)算模式等方面的不足。針對Hadoop MapReduce難以支持迭代計(jì)算的缺陷,后續(xù)研究會考慮在Hadoop平臺上搭建Spark框架以解決這類問題。本文為高校圖書館大數(shù)據(jù)技術(shù)框架的模型探討階段,具體實(shí)證將在后續(xù)研究中進(jìn)一步展開,以更好地驗(yàn)證該技術(shù)框架的有效性和可行性。

[1]Hadoop[EB/OL].[2017-01-18].http://hadoop.apache.org/.

[2]黃宜華.深入理解大數(shù)據(jù):大數(shù)據(jù)處理與編程實(shí)踐[M].北京:機(jī)械工業(yè)出版社,2014:24.

[3]GHEMAWAT S,GOBIOFF H,LEUNG S-T.The Google fi le system[C]// Proceedings of the 19th ACM Symposium on Operating System Principles(SOSP 2003),October 19-22,2003,New York:[s.n],2003:29-43.

[4]DEAN J,GHEMAWAT S.MapReduce:simpli fi ed data processing on large clusters[J].Communications of the ACM,2008,51(1):107-109.

[5]陳虹君,吳雪琴.基于Hadoop平臺的Spark快數(shù)據(jù)推薦算法分析與應(yīng)用[J].現(xiàn)代電子技術(shù),2016(10):18-20.

[6]CHANG F,DEAN J,GHEMAWAT S,et al.Bigtable:a distributed storage system for structured data[C]//Proceeding of the 7th Symposium on Operating Systems Design and Implementation(OSDI).Seattle:[s.n], 2006:205-218.

[7]HBase[EB/OL].[2017-02-15].https://hbase.apache.org/.

[8]Hive.Getting started with Apache hive software[EB/OL].[2017-02-15].https://hive.apache.org/.

[9]Hadoop.Welcome to apache Pig[EB/OL].[2017-02-15].https://pig.apache.org/.

[10]陳臣.一種基于新型存儲的數(shù)字圖書館分布式大數(shù)據(jù)存儲架構(gòu)[J].現(xiàn)代情報(bào),2015(1):100-103.

[11]梁俊榮.基于Hadoop的圖書館復(fù)合大數(shù)據(jù)存儲系統(tǒng)研究[J].現(xiàn)代情報(bào),2017(2):63-67.

[12]FERRUCCI D,LALLY A.UIMA:an architectural approach to unstructured information processing in the corporate research environment[J].Natural Language Engineering,2004(10):327-348.

[13]DOAN A,NAUGHTON J F,BAID A,et al.The case for a structured approach to managing unstructured data[C]//Proceedings of the 4th Biennial Conference on Innovative Data Systems Research.Asilomar: CIDR,2009:1-10.

[14]韓晶,鄂海紅,宋美娜,等.基于主體行為的非結(jié)構(gòu)化數(shù)據(jù)模型[J].計(jì)算機(jī)工程與設(shè)計(jì),2013(3):904-908.

[15]白如江,冷伏海.“大數(shù)據(jù)”時(shí)代科學(xué)數(shù)據(jù)整合研究[J].情報(bào)理論與實(shí)踐,2014(1):94-99.

[16]郭春霞.大數(shù)據(jù)環(huán)境下微信公眾平臺非結(jié)構(gòu)化數(shù)據(jù)融合研究[J].現(xiàn)代情報(bào),2015(8):141-143,150.

[17]陳臣.基于Hadoop的圖書館非結(jié)構(gòu)化大數(shù)據(jù)分析與決策系統(tǒng)研究[J].情報(bào)科學(xué),2017(1):24-28.

[18]申德榮,于戈,王習(xí)特,等.支持大數(shù)據(jù)管理的NoSQL系統(tǒng)研究綜述[J].軟件學(xué)報(bào),2013(8):1786-1803.

[19]王遠(yuǎn),陶燁,袁軍,等.一種基于HBase的智能電網(wǎng)時(shí)序大數(shù)據(jù)處理方法[J].系統(tǒng)仿真學(xué)報(bào),2016(3):559-568.

[20]徐愛萍,王波,徐武平.HBase中基于時(shí)空特征的監(jiān)測視頻大數(shù)據(jù)關(guān)聯(lián)查詢研究[J].計(jì)算機(jī)應(yīng)用研究,2017(5):1-7.

[21]吳曉英,明均仁.基于數(shù)據(jù)挖掘的大數(shù)據(jù)管理模型研究[J].情報(bào)科學(xué),2015(11):131-134.

[22]蘇新寧.大數(shù)據(jù)時(shí)代數(shù)字圖書館面臨的機(jī)遇和挑戰(zhàn)[J].中國圖書館學(xué)報(bào),2015(6):4-12.

[23]陳傳夫,錢鷗,代鈺珠.大數(shù)據(jù)時(shí)代的數(shù)字圖書館建設(shè)研究[J].圖書情報(bào)工作,2014(7):40-45.

[24]程學(xué)旗,靳小龍,王元卓,等.大數(shù)據(jù)系統(tǒng)和分析技術(shù)綜述[J].軟件學(xué)報(bào), 2014(9):1889-1908.

[25]程結(jié)晶.大數(shù)據(jù)時(shí)代圖書館服務(wù)創(chuàng)新的內(nèi)容及其策略研究[J].情報(bào)理論與實(shí)踐,2016(3):57-62.

[26]陳吉榮,樂嘉錦.基于Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)解決方案綜述[J].計(jì)算機(jī)工程與科學(xué),2013(10):25-35.

[27]張紅.基于大數(shù)據(jù)技術(shù)的資源發(fā)現(xiàn)平臺構(gòu)建——以國家圖書館“文津搜索”系統(tǒng)為例[J].數(shù)字圖書館論壇,2016(1):61-67.

Study on the Key Technology of University Library’s Big Data Based on Hadoop

YE ChunLei
(Library of Beijing University of Agriculture, Beijing 102206, China)

In order to solve the problems that the distributed storage of the massive data, the distributed management of the diverse data sources, the simple and fl exible application of the big data services in university libraries in China, this paper proposes a framework of the big data technology in university libraries based on Hadoop.The framework builds the distributed storage of the mass data, the distributed management of the diverse data sources and the diversi fi ed service processing.The technical framework can solve the key technical problems of the big data service of university libraries to a certain extent.

Big Data; Big Data Technology; University Library; Hadoop

G250

10.3772/j.issn.1673-2286.2017.05.005

葉春蕾,女,1975年生,博士,副教授,研究方向:情報(bào)分析、大數(shù)據(jù)技術(shù)研究,E-mail:yechunlei2014@126.com。

2017-04-11)

* 本研究得到北京市社會科學(xué)基金項(xiàng)目“大數(shù)據(jù)環(huán)境下高校圖書館服務(wù)創(chuàng)新技術(shù)研究”(編號:16XCB006)資助。

猜你喜歡
數(shù)據(jù)服務(wù)海量結(jié)構(gòu)化
地理空間大數(shù)據(jù)服務(wù)自然資源調(diào)查監(jiān)測的方向分析
一種傅里葉域海量數(shù)據(jù)高速譜聚類方法
促進(jìn)知識結(jié)構(gòu)化的主題式復(fù)習(xí)初探
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
海量快遞垃圾正在“圍城”——“綠色快遞”勢在必行
如何運(yùn)用稅收大數(shù)據(jù)服務(wù)供給側(cè)結(jié)構(gòu)性改革
中國商論(2016年34期)2017-01-15 14:24:18
一個(gè)圖形所蘊(yùn)含的“海量”巧題
基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
基于圖模型的通用半結(jié)構(gòu)化數(shù)據(jù)檢索
一種基于數(shù)據(jù)服務(wù)超鏈進(jìn)行情景數(shù)據(jù)集成的方法*
嵊州市| 井陉县| 兰坪| 改则县| 太保市| 和静县| 虞城县| 长岛县| 介休市| 肥东县| 威远县| 子洲县| 景泰县| 达日县| 民勤县| 大姚县| 金川县| 蕲春县| 陆丰市| 鹤峰县| 虎林市| 迭部县| 孟津县| 平泉县| 上高县| 哈密市| 缙云县| 轮台县| 永丰县| 会理县| 正定县| 邛崃市| 沙雅县| 华亭县| 铁岭县| 习水县| 普洱| 景东| 绥江县| 犍为县| 五莲县|