陳臣(蘭州財(cái)經(jīng)大學(xué)信息中心)
基于云計(jì)算的圖書(shū)館大數(shù)據(jù)分析和決策支持平臺(tái)構(gòu)建
陳臣(蘭州財(cái)經(jīng)大學(xué)信息中心)
隨著大數(shù)據(jù)時(shí)代的到來(lái),圖書(shū)館中的數(shù)據(jù)量呈現(xiàn)爆炸式增長(zhǎng),由于大數(shù)據(jù)具有多類型和復(fù)雜性,給圖書(shū)館的大數(shù)據(jù)分析與決策支持帶來(lái)了極大的挑戰(zhàn)。本文介紹了大數(shù)據(jù)和云計(jì)算的定義,構(gòu)建了基于云計(jì)算的圖書(shū)館大數(shù)據(jù)分析與決策平臺(tái)。該平臺(tái)大幅提高了圖書(shū)館海量數(shù)據(jù)的處理能力,能夠發(fā)現(xiàn)圖書(shū)館大數(shù)據(jù)之間存在的關(guān)系和規(guī)則,可有效預(yù)測(cè)圖書(shū)館服務(wù)未來(lái)的發(fā)展趨勢(shì),從而增強(qiáng)圖書(shū)館服務(wù)決策的準(zhǔn)確性和科學(xué)性。
云計(jì)算;大數(shù)據(jù);分析和決策支持平臺(tái)
伴隨互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計(jì)算和智能閱讀終端的不斷發(fā)展與普及,圖書(shū)館界已進(jìn)入大數(shù)據(jù)時(shí)代。全球著名咨詢公司麥肯錫稱:“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)要素。人們對(duì)于海量數(shù)據(jù)的挖掘和應(yīng)用,預(yù)示著新一波生產(chǎn)率增長(zhǎng)和消費(fèi)者盈余浪潮的到來(lái)?!弊鳛橹匾纳a(chǎn)力構(gòu)成和發(fā)展要素,大數(shù)據(jù)中蘊(yùn)藏著巨大的戰(zhàn)略資產(chǎn)和價(jià)值,可為圖書(shū)館服務(wù)模式變革、服務(wù)內(nèi)容創(chuàng)新、產(chǎn)業(yè)升級(jí)和市場(chǎng)競(jìng)爭(zhēng)力提升,提供可靠的大數(shù)據(jù)決策支持和服務(wù)保障。[1]
但是,大數(shù)據(jù)在幫助圖書(shū)館員準(zhǔn)確獲取知識(shí)和正確認(rèn)識(shí)事物關(guān)系的同時(shí),其所具有的海量、動(dòng)態(tài)、非結(jié)構(gòu)化、低價(jià)值密度、高時(shí)效性和不確定性特點(diǎn),也給圖書(shū)館的大數(shù)據(jù)采集、存儲(chǔ)、實(shí)時(shí)計(jì)算、價(jià)值過(guò)濾和發(fā)現(xiàn)帶來(lái)了挑戰(zhàn)。云計(jì)算是分布式計(jì)算、并行計(jì)算、效用計(jì)算、網(wǎng)絡(luò)存儲(chǔ)、虛擬化、負(fù)載均衡、熱備份冗余等,傳統(tǒng)計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)發(fā)展融合的產(chǎn)物,具有超大規(guī)模、虛擬化、高可靠性、高通用性、高可擴(kuò)展性、按需服務(wù)和低成本的特點(diǎn),可為圖書(shū)館的大數(shù)據(jù)分析與決策提供基礎(chǔ)設(shè)施即服務(wù)(IaaS),平臺(tái)即服務(wù)(PaaS)和軟件即服務(wù)(SaaS)支持。因此,如何基于云計(jì)算技術(shù)構(gòu)建安全、高效、實(shí)時(shí)和經(jīng)濟(jì)的大數(shù)據(jù)分析與決策平臺(tái),是圖書(shū)館提高大數(shù)據(jù)決策安全性、科學(xué)性、智慧性、經(jīng)濟(jì)性和可靠性應(yīng)關(guān)注的重要問(wèn)題。
2.1 圖書(shū)館大數(shù)據(jù)的概念與特點(diǎn)
維基百科對(duì)大數(shù)據(jù)定義:“大數(shù)據(jù)是指無(wú)法在可承受的時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合?!贝髷?shù)據(jù)權(quán)威專家維克托·邁爾·舍恩伯格編寫的《大數(shù)據(jù)時(shí)代》中描述道:“大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣的捷徑,而采用所有的數(shù)據(jù)進(jìn)行分析、處理?!贝髷?shù)據(jù)具有Volume(海量)、Velocity(高速)、Variety(多樣)、Value(高價(jià)值)的4V特點(diǎn)。[2]
近年來(lái),隨著圖書(shū)館用戶服務(wù)模式的變革和高新技術(shù)的應(yīng)用,讀者需求感知、應(yīng)用設(shè)備物聯(lián)、互聯(lián)網(wǎng)絡(luò)、智慧化服務(wù)和大數(shù)據(jù)等,已成為圖書(shū)館服務(wù)生產(chǎn)力的五個(gè)重要組成要素,導(dǎo)致圖書(shū)館數(shù)據(jù)環(huán)境發(fā)生了根本性的變化。圖書(shū)館的數(shù)據(jù)規(guī)模呈現(xiàn)海量和指數(shù)遞增狀態(tài),數(shù)據(jù)呈現(xiàn)類型繁多和非結(jié)構(gòu)化數(shù)據(jù)大幅增長(zhǎng)的現(xiàn)象,且非結(jié)構(gòu)化數(shù)據(jù)比例占據(jù)數(shù)據(jù)總量的85%以上。同時(shí),由于大數(shù)據(jù)之間顯性或隱性的網(wǎng)絡(luò)化關(guān)系存在,使得圖書(shū)館數(shù)據(jù)之間關(guān)聯(lián)復(fù)雜,其中蘊(yùn)藏著海量、高價(jià)值的知識(shí)。大數(shù)據(jù)之間關(guān)系和蘊(yùn)藏知識(shí)的精準(zhǔn)發(fā)現(xiàn),往往決定著圖書(shū)館大數(shù)據(jù)決策的科學(xué)性和有效性。其次,大數(shù)據(jù)的產(chǎn)生具有動(dòng)態(tài)、突發(fā)、快速和不可預(yù)測(cè)的特性,圖書(shū)館服務(wù)對(duì)大數(shù)據(jù)的分析、決策有較高的精確性和時(shí)效性要求,因此,大數(shù)據(jù)自身的價(jià)值和決策科學(xué)性,往往隨著圖書(shū)館服務(wù)時(shí)空的變化而發(fā)生改變。大數(shù)據(jù)分析、決策的水平和有效性,是關(guān)系圖書(shū)館能否在海量、低價(jià)值的大數(shù)據(jù)中精確發(fā)現(xiàn)數(shù)據(jù)關(guān)系和提取知識(shí),實(shí)現(xiàn)圖書(shū)館從傳統(tǒng)“是什么”的數(shù)據(jù)分析,向“為什么”的大數(shù)據(jù)分析轉(zhuǎn)變的關(guān)鍵。
2.2 圖書(shū)館大數(shù)據(jù)面臨的挑戰(zhàn)
第一,圖書(shū)館需要通過(guò)大數(shù)據(jù)過(guò)濾和大數(shù)據(jù)挖掘技術(shù),大幅過(guò)濾掉虛假、錯(cuò)誤和無(wú)價(jià)值的數(shù)據(jù),并通過(guò)云存儲(chǔ)系統(tǒng)提高非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的管理安全性、效率和經(jīng)濟(jì)性。第二,圖書(shū)館通過(guò)傳感器網(wǎng)絡(luò)和監(jiān)控設(shè)備采集的讀者特征數(shù)據(jù)、讀者行為數(shù)據(jù)、讀者閱讀關(guān)系數(shù)據(jù)、服務(wù)器運(yùn)行和日志數(shù)據(jù)等,具有低價(jià)值、碎片化、異構(gòu)和高度冗余的特點(diǎn)。提高大數(shù)據(jù)挖掘的全面性、科學(xué)性、精確性和實(shí)時(shí)性,是圖書(shū)館及時(shí)、快速地發(fā)現(xiàn)大數(shù)據(jù)間關(guān)聯(lián)、數(shù)據(jù)關(guān)系發(fā)展趨勢(shì)、數(shù)據(jù)突發(fā)異常和蘊(yùn)藏價(jià)值的關(guān)鍵。[3]第三,圖書(shū)館傳統(tǒng)數(shù)據(jù)系統(tǒng)在大數(shù)據(jù)的存儲(chǔ)、新增、截取、刪除、檢索和更新過(guò)程中,其簡(jiǎn)單的腳本語(yǔ)言預(yù)處理無(wú)法解析過(guò)于復(fù)雜的大數(shù)據(jù)結(jié)構(gòu),也無(wú)法滿足大數(shù)據(jù)時(shí)代多用戶高并發(fā)讀寫、海量數(shù)據(jù)高效存儲(chǔ)與訪問(wèn)、系統(tǒng)高可用性和高擴(kuò)展性等需求。此外,傳統(tǒng)數(shù)據(jù)庫(kù)的優(yōu)化空間和數(shù)據(jù)運(yùn)算能力有限,無(wú)法對(duì)大數(shù)據(jù)的質(zhì)量生命周期全程有效監(jiān)控。第四,當(dāng)前,物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)、傳感器網(wǎng)絡(luò)和傳統(tǒng)互聯(lián)網(wǎng)絡(luò)已成為圖書(shū)館管理、服務(wù)網(wǎng)絡(luò)的重要組成,如何對(duì)傳感器、RFID設(shè)備、GPS設(shè)備和閱讀智能終端等設(shè)備采集的數(shù)據(jù),進(jìn)行科學(xué)、準(zhǔn)確、實(shí)時(shí)的測(cè)量、感知和理解,是圖書(shū)館實(shí)時(shí)獲取讀者需求變化、精確感知用戶QOS(服務(wù)質(zhì)量)、動(dòng)態(tài)調(diào)整服務(wù)策略和提高讀者閱讀滿意度應(yīng)關(guān)注的問(wèn)題。
2.3 圖書(shū)館大數(shù)據(jù)與云計(jì)算的關(guān)系
圖書(shū)館大數(shù)據(jù)的應(yīng)用重點(diǎn)在于對(duì)用戶服務(wù)相關(guān)數(shù)據(jù)的采集、過(guò)濾、分析、挖掘和知識(shí)發(fā)現(xiàn),關(guān)注于對(duì)圖書(shū)館管理層的決策科學(xué)性、業(yè)務(wù)部門的服務(wù)保障力、讀者QOS保障和讀者閱讀滿意度保證提供可靠的大數(shù)據(jù)支撐。云計(jì)算的應(yīng)用著眼于圖書(shū)館通過(guò)自建私有云,或者與云服務(wù)商簽署服務(wù)協(xié)議的方式,為圖書(shū)館提供具有超級(jí)計(jì)算、海量存儲(chǔ)、資源虛擬化管理和按需付費(fèi)的大數(shù)據(jù)處理、存儲(chǔ)和海量數(shù)據(jù)高速傳輸?shù)钠脚_(tái)。因此,大數(shù)據(jù)與云計(jì)算是相輔相成和密不可分的。
如何基于云服務(wù)平臺(tái)支持,在海量、快速遞增的大數(shù)據(jù)中過(guò)濾噪聲信號(hào)和提高大數(shù)據(jù)的價(jià)值密度,是關(guān)系圖書(shū)館有效降低大數(shù)據(jù)應(yīng)用成本和提升大數(shù)據(jù)決策效率的關(guān)鍵。[4]此外,大數(shù)據(jù)在圖書(shū)館云端的整合與共享、讀者個(gè)體數(shù)據(jù)的無(wú)縫連接,以及數(shù)據(jù)分析員對(duì)大數(shù)據(jù)的監(jiān)管、分析和價(jià)值挖掘過(guò)程,是確保圖書(shū)館大數(shù)據(jù)可用性和決策科學(xué)性的重要因素。因此,圖書(shū)館只有依靠云計(jì)算超大規(guī)模、虛擬化、高可擴(kuò)展性、按需資源分配和低應(yīng)用成本的優(yōu)勢(shì),才能科學(xué)構(gòu)建具備分布式計(jì)算、存儲(chǔ)和動(dòng)態(tài)可伸縮的數(shù)據(jù)處理系統(tǒng)架構(gòu),才能在多個(gè)節(jié)點(diǎn)中實(shí)現(xiàn)大數(shù)據(jù)的分布式計(jì)算與存儲(chǔ),才能確保大數(shù)據(jù)分析和決策高效、快速、實(shí)時(shí)和經(jīng)濟(jì)。
3.1 圖書(shū)館大數(shù)據(jù)分布式計(jì)算架構(gòu)的設(shè)計(jì)要求
對(duì)大數(shù)據(jù)的產(chǎn)生過(guò)程分析,圖書(shū)館大數(shù)據(jù)主要由讀者群、傳感器設(shè)備、服務(wù)器、監(jiān)控設(shè)備等產(chǎn)生。對(duì)圖書(shū)館大數(shù)據(jù)的應(yīng)用成本分析,其應(yīng)用成本主要由大數(shù)據(jù)的采集、傳輸、存儲(chǔ)、分析、計(jì)算和決策等五部分組成,并且隨著大數(shù)據(jù)總量的級(jí)數(shù)遞增,大數(shù)據(jù)存儲(chǔ)和計(jì)算的成本在圖書(shū)館大數(shù)據(jù)應(yīng)用總成本中占據(jù)的比例呈現(xiàn)快速增長(zhǎng)的態(tài)勢(shì)。因此,圖書(shū)館大數(shù)據(jù)分布式計(jì)算架構(gòu)的設(shè)計(jì)應(yīng)采用云計(jì)算架構(gòu),才能確保大數(shù)據(jù)分析與決策系統(tǒng)具有安全可靠、高集成度、合理配置、低能耗和易擴(kuò)展的特點(diǎn)。
將圖書(shū)館大數(shù)據(jù)分布式計(jì)算架構(gòu)的設(shè)計(jì)要求與云計(jì)算技術(shù)特點(diǎn)相結(jié)合,基于IaaS、PaaS、SaaS三種云服務(wù)模式的圖書(shū)館大數(shù)據(jù)分布式計(jì)算架構(gòu)如圖1所示。
圖1 圖書(shū)館大數(shù)據(jù)分布式計(jì)算架構(gòu)
IaaS主要由云存儲(chǔ)、虛擬化管理和超級(jí)計(jì)算等云數(shù)據(jù)中心IT基礎(chǔ)設(shè)施物理平臺(tái)組成,依托云數(shù)據(jù)中心IT基礎(chǔ)設(shè)施的分布式處理、分布式數(shù)據(jù)庫(kù)、云存儲(chǔ)和虛擬化技術(shù),為圖書(shū)館提供強(qiáng)大的大數(shù)據(jù)應(yīng)用云基礎(chǔ)設(shè)施硬件支持。PaaS由分布式大數(shù)據(jù)計(jì)算平臺(tái)和大數(shù)據(jù)存儲(chǔ)平臺(tái)組成?;贗aaS平臺(tái)的支持,可將互聯(lián)網(wǎng)的云資源服務(wù)化為可編程接口,為圖書(shū)館大數(shù)據(jù)高級(jí)應(yīng)用開(kāi)發(fā)者提供有商業(yè)價(jià)值的云資源和服務(wù)平臺(tái)。[5]SaaS通過(guò)運(yùn)營(yíng)商運(yùn)行在云計(jì)算基礎(chǔ)設(shè)施上的應(yīng)用程序,圖書(shū)館管理層、職能部門或者普通用戶可通過(guò)不同設(shè)備上的瘦客戶端界面訪問(wèn),實(shí)現(xiàn)對(duì)相關(guān)大數(shù)據(jù)的挖掘、分析與決策,為圖書(shū)館戰(zhàn)略發(fā)展決策、職能部門運(yùn)營(yíng)和讀者服務(wù),提供科學(xué)、安全、高效、實(shí)時(shí)的大數(shù)據(jù)分析與決策支持。
3.2 圖書(shū)館大數(shù)據(jù)分析與決策系統(tǒng)平臺(tái)的設(shè)計(jì)
結(jié)合圖書(shū)館大數(shù)據(jù)環(huán)境特點(diǎn)和大數(shù)據(jù)的決策需求,本文在大數(shù)據(jù)分析與決策系統(tǒng)平臺(tái)的設(shè)計(jì)中,堅(jiān)持構(gòu)建統(tǒng)一的數(shù)據(jù)運(yùn)算平臺(tái)、按照業(yè)務(wù)優(yōu)先級(jí)調(diào)度和分配系統(tǒng)資源、系統(tǒng)資源靈活擴(kuò)展和配置、低系統(tǒng)構(gòu)建和運(yùn)行成本的設(shè)計(jì)原則,構(gòu)建的基于云計(jì)算的圖書(shū)館大數(shù)據(jù)分析與決策平臺(tái)系統(tǒng)組織如圖2所示。
圖2 圖書(shū)館大數(shù)據(jù)分析與決策平臺(tái)
該系統(tǒng)主要由虛擬化基礎(chǔ)架構(gòu)層、云基礎(chǔ)服務(wù)層、大數(shù)據(jù)處理與分析平臺(tái)、大數(shù)據(jù)決策應(yīng)用層四個(gè)部分組成。虛擬化基礎(chǔ)架構(gòu)層為圖書(shū)館提供云數(shù)據(jù)中心基礎(chǔ)設(shè)施服務(wù)保障,主要由云虛擬計(jì)算、云虛擬存儲(chǔ)、云虛擬化網(wǎng)絡(luò)傳輸、云虛擬化安全防護(hù)四部分組成。其上層的虛擬化資源管理與調(diào)度模塊,可根據(jù)圖書(shū)館大數(shù)據(jù)計(jì)算、存儲(chǔ)、數(shù)據(jù)傳輸?shù)陌踩枨?,?duì)下層系統(tǒng)運(yùn)行進(jìn)行云資源的科學(xué)分配和調(diào)度管理,確保虛擬化基礎(chǔ)設(shè)施運(yùn)行安全、高效、經(jīng)濟(jì)和動(dòng)態(tài)可控。
云基礎(chǔ)服務(wù)層基于彈性云計(jì)算、虛擬私有云、彈性云存儲(chǔ)、安全與均衡等云計(jì)算技術(shù)和服務(wù)的支持,為圖書(shū)館提供基礎(chǔ)設(shè)施即服務(wù)、平臺(tái)即服務(wù)和軟件即服務(wù)三種云服務(wù)模式。[6]
大數(shù)據(jù)處理與分析平臺(tái)基于云基礎(chǔ)服務(wù)層的支持,首先對(duì)原始大數(shù)據(jù)進(jìn)行過(guò)濾、整合和價(jià)值提取等操作,提升大數(shù)據(jù)的價(jià)值密度和數(shù)據(jù)可用性。然后通過(guò)分布式系統(tǒng)計(jì)算、實(shí)時(shí)流計(jì)算、大數(shù)據(jù)存儲(chǔ)與管理、語(yǔ)境的搜索等,完成數(shù)據(jù)的處理、計(jì)算、分析和決策?;诖髷?shù)據(jù)處理與分析平臺(tái)底層的支持,圖書(shū)館管理員可通過(guò)對(duì)大數(shù)據(jù)的可視化分析與發(fā)展、應(yīng)用程序的開(kāi)發(fā)、大數(shù)據(jù)平臺(tái)的管理,提高大數(shù)據(jù)處理與應(yīng)用的效率、可用性、可控性和經(jīng)濟(jì)性。
大數(shù)據(jù)決策應(yīng)用層基于下層平臺(tái)層的支持,完成圖書(shū)館發(fā)展戰(zhàn)略決策、職能部門工作與服務(wù)決策、讀者閱讀需求分析與預(yù)測(cè)、圖書(shū)館QOS評(píng)估、智能化服務(wù)報(bào)告,以及其他與圖書(shū)館變革、發(fā)展和讀者服務(wù)相關(guān)的大數(shù)據(jù)決策,為圖書(shū)館戰(zhàn)略決策、系統(tǒng)管理與運(yùn)營(yíng)、讀者的QOS保證、服務(wù)生產(chǎn)力的可持續(xù)發(fā)展提供可靠的大數(shù)據(jù)決策支持。[7]
3.3 圖書(shū)館大數(shù)據(jù)云分析與決策系統(tǒng)平臺(tái)構(gòu)建
3.3.1 應(yīng)具有較高的大數(shù)據(jù)容災(zāi)備份和災(zāi)難恢復(fù)能力
大數(shù)據(jù)在數(shù)據(jù)存儲(chǔ)、管理和應(yīng)用過(guò)程的安全性,以及大數(shù)據(jù)遭受數(shù)據(jù)災(zāi)難后的可恢復(fù)性,是關(guān)系圖書(shū)館大數(shù)據(jù)分析、決策過(guò)程可靠和可控的關(guān)鍵問(wèn)題。首先,圖書(shū)館應(yīng)通過(guò)重復(fù)數(shù)據(jù)刪除和數(shù)據(jù)壓縮等方式,大幅減少大數(shù)據(jù)存儲(chǔ)系統(tǒng)的數(shù)據(jù)總量,以此降低大數(shù)據(jù)云端傳輸帶寬和云存儲(chǔ)空間的使用量。此外,可依據(jù)圖書(shū)館對(duì)大數(shù)據(jù)安全級(jí)別的劃分,實(shí)現(xiàn)數(shù)據(jù)在云端的同步或異步遠(yuǎn)程復(fù)制,完成大數(shù)據(jù)在云端的增量備份。其次,應(yīng)采用異地大數(shù)據(jù)容災(zāi)備份的方式,將關(guān)系圖書(shū)館運(yùn)營(yíng)、用戶閱讀質(zhì)量和讀者隱私的關(guān)鍵大數(shù)據(jù),備份到距離圖書(shū)館地理位置較遠(yuǎn)的第三方云服務(wù)商云端,實(shí)現(xiàn)安全、高效和經(jīng)濟(jì)的敏感大數(shù)據(jù)異地存儲(chǔ)保護(hù)。[8]同時(shí),在大數(shù)據(jù)容災(zāi)備份時(shí),應(yīng)保證圖書(shū)館大數(shù)據(jù)的核心決策服務(wù)不間斷。再者,數(shù)據(jù)丟失率和恢復(fù)間隔是圖書(shū)館大數(shù)據(jù)災(zāi)難恢復(fù)能力評(píng)估的2個(gè)重要指標(biāo)。因此,圖書(shū)館大數(shù)據(jù)備份應(yīng)采用同步復(fù)制技術(shù),使大數(shù)據(jù)同步復(fù)制的數(shù)據(jù)丟失率接近于0。當(dāng)數(shù)據(jù)災(zāi)難發(fā)生時(shí),應(yīng)確保圖書(shū)館可在瞬間完成災(zāi)備系統(tǒng)的切換。
3.3.2 利用云計(jì)算技術(shù)提升大數(shù)據(jù)挖掘的科學(xué)性
圖書(shū)館在傳統(tǒng)的大數(shù)據(jù)挖掘中,通常根據(jù)數(shù)據(jù)流的流向?qū)㈩A(yù)處理數(shù)據(jù)傳輸至數(shù)據(jù)庫(kù)存儲(chǔ),然后集中傳輸至處理器進(jìn)行分析與挖掘,并將最終結(jié)果以交互的方式展現(xiàn)給用戶。這種傳統(tǒng)的以數(shù)據(jù)流向?yàn)橐罁?jù)的集中存儲(chǔ)和批處理模式,在時(shí)間、空間上具有較高的復(fù)雜度,且不能滿足多維、異構(gòu)大數(shù)據(jù)環(huán)境下,圖書(shū)館對(duì)分析與決策系統(tǒng)計(jì)算、存儲(chǔ)能力的擴(kuò)展需求,也不能滿足用戶較高的交互式體驗(yàn)需求。因此,圖書(shū)館應(yīng)基于多維度動(dòng)態(tài)的大數(shù)據(jù)分析,注重提升將大數(shù)據(jù)匯聚成單一的信息邏輯集和可視化處理的能力,并在大數(shù)據(jù)分析時(shí)通過(guò)對(duì)結(jié)構(gòu)化或非結(jié)構(gòu)化物理數(shù)據(jù)的底層結(jié)構(gòu)去耦合,來(lái)提高大數(shù)據(jù)分析的靈活性。
此外,圖書(shū)館特別要滿足大數(shù)據(jù)分析師、各部門業(yè)務(wù)人員、業(yè)務(wù)流程分析程序、關(guān)鍵性應(yīng)用程序等,對(duì)重要大數(shù)據(jù)的實(shí)時(shí)獲取和更新需求??衫脠D書(shū)館獲得的第三方相關(guān)共享數(shù)據(jù),對(duì)大數(shù)據(jù)的分析方法、分析流程和結(jié)果進(jìn)行修正與完善后,將大數(shù)據(jù)的分析結(jié)果與圖書(shū)館相關(guān)部門、人員的決策流程進(jìn)行綁定,提高圖書(shū)館大數(shù)據(jù)分析、決策和結(jié)果修正的智能自動(dòng)化水平。[9]
3.3.3 采用科學(xué)、可視化的大數(shù)據(jù)分析方法
云計(jì)算平臺(tái)的超級(jí)計(jì)算、海量存儲(chǔ)、虛擬化管理和熱備份冗余等技術(shù),使圖書(shū)館可根據(jù)大數(shù)據(jù)決策需要科學(xué)、快速地配置和調(diào)度云計(jì)算資源共享池(資源池包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件、云服務(wù)),為圖書(shū)館的大數(shù)據(jù)分析提供充足的IT基礎(chǔ)設(shè)施和系統(tǒng)資源支持。
當(dāng)前,隨著云計(jì)算技術(shù)的發(fā)展和支撐,圖書(shū)館數(shù)據(jù)中心的IT基礎(chǔ)設(shè)施計(jì)算與存儲(chǔ)性能、系統(tǒng)資源的科學(xué)調(diào)度與管理能力,已不是決定圖書(shū)館大數(shù)據(jù)應(yīng)用效率的關(guān)鍵因素,而大數(shù)據(jù)挖掘算法的科學(xué)性、大數(shù)據(jù)分析模型的有效性、大數(shù)據(jù)質(zhì)量的管理和可用性保證、大數(shù)據(jù)分析結(jié)果的可視化直觀展示等,已成為關(guān)系大數(shù)據(jù)分析、決策活動(dòng)安全、高效、實(shí)時(shí)和經(jīng)濟(jì)的最主要因素。[10]因此,在確保自建私有云或租賃的云服務(wù)完全滿足大數(shù)據(jù)應(yīng)用的前提下,應(yīng)重點(diǎn)加強(qiáng)圖書(shū)館在大數(shù)據(jù)采集、存儲(chǔ)和處理過(guò)程的質(zhì)量監(jiān)控和可用性管理,有效過(guò)濾對(duì)分析過(guò)程影響較大的噪聲數(shù)據(jù)信號(hào),不斷提高大數(shù)據(jù)的價(jià)值密度和可控性。此外,還應(yīng)結(jié)合圖書(shū)館大數(shù)據(jù)的環(huán)境特點(diǎn)和決策需求,構(gòu)建科學(xué)的大數(shù)據(jù)分析模型和科學(xué)算法,為圖書(shū)館用戶閱讀服務(wù)提供高效、智慧、準(zhǔn)確、實(shí)時(shí)和經(jīng)濟(jì)的大數(shù)據(jù)決策支持。
[1]云計(jì)算[EB/OL].[2015-09-02].http://baike. baidu.com/view/1316082.htm.
[2]虛擬化與云計(jì)算小組.虛擬化與云計(jì)算[M].北京:電子工業(yè)出版社,2009.
[3]汪正坤,等.基于云計(jì)算的中國(guó)政府信息資源的圖書(shū)館開(kāi)發(fā)利用[J].圖書(shū)館學(xué)研究,2012(7):73-77.
[4]鄧仲華,等.基于云計(jì)算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報(bào)理論與實(shí)踐,2012,38(7):103-108.
[5]李建中,劉顯敏.大數(shù)據(jù)的一個(gè)重要方面:數(shù)據(jù)可用性[J].計(jì)算機(jī)研究與發(fā)展,2013,50(6): 1147-1162.
[6]丁巖,等.基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究[J].中興通訊技術(shù),2013,19(1):53-56,60.
[7]趙又霖,等.數(shù)據(jù)挖掘云服務(wù)分析研究[J].情報(bào)理論與實(shí)踐,2012,35(9):33-36,44.
[8]方艾,等.電信運(yùn)營(yíng)商能耗優(yōu)化的大數(shù)據(jù)分析模型研究[J].電信科學(xué),2014(10):38-42.
[9]薛濤,劉龍.云計(jì)算中虛擬機(jī)資源自動(dòng)配置技術(shù)的研究[J].計(jì)算機(jī)應(yīng)用研究,2015,33(9): 1-8.
[10]盧小賓,王濤.Google三大云計(jì)算技術(shù)對(duì)海量數(shù)據(jù)分析流程的技術(shù)改進(jìn)優(yōu)化研究[J].圖書(shū)情報(bào)工作,2015,59(3):6-11,102.
Construction of Big Data Analysis and Decision Support Platform for Library Based on Cloud Computing
Chen Chen
With the coming of Big Data era,the quantity of data in library is growing exponentially.Multi-type and complexity of big data brings big challenge to big data analysis and decision supportof library.Firstly,this paper introduces the definition of Big Data and cloud computing,and then constructs a Big Data analysis and decision supportplatform for library based on cloud computing.The platform greatly improves the processing capability ofmass data of library,which can find the relationship and rule between Big Data to predict the future trend of library services,and improve veracity and scientificity of the decision-making in library services.
Cloud Computing;Big Data;Analysis and Decision Support Platform
G250.76
B
1005-8214(2016)05-0101-04
陳臣(1974-),男,甘肅蘭州人,碩士,副教授,研究方向:大數(shù)據(jù)、數(shù)字圖書(shū)館建設(shè)。
2015-10-23[責(zé)任編輯]呂曉佩