魏建琳
(西安文理學(xué)院 圖書館,西安 710065)
2011年5月,國際著名咨詢公司麥肯錫(McKinsey & Company)預(yù)言,人類將步入一個“大數(shù)據(jù)時代”[1].短短幾年間,信息技術(shù)的飛速發(fā)展已讓預(yù)言成為現(xiàn)實.大數(shù)據(jù)不僅受到普遍關(guān)注成為國際流行的熱門話題,而且相關(guān)技術(shù)不斷取得突破促使新產(chǎn)品新項目大量涌現(xiàn),更重要的是大數(shù)據(jù)已應(yīng)用于各行各業(yè),成為政府、企業(yè)、社會組織以至于個人的重要生產(chǎn)組織決策資源.
“大數(shù)據(jù)時代”翩然而至,成為本世紀(jì)繼云計算、物聯(lián)網(wǎng)后又一次顛覆性的技術(shù)變革,對國家、企業(yè)、團(tuán)體、個人都已經(jīng)或?qū)⒁a(chǎn)生巨大影響.面對洶涌澎湃的大數(shù)據(jù)浪潮,筆者擬從時代背景與技術(shù)實現(xiàn)兩個維度對大數(shù)據(jù)的基礎(chǔ)知識——概念(What)、理由(Why)以及方式方法(How)做一簡單梳理與解析.
什么是大數(shù)據(jù)?為什么要研究大數(shù)據(jù)?對此,IT行業(yè)已做出了精確的界定與合理的解釋.2011年,麥肯錫(McKinsey & Company)將大數(shù)據(jù)定義為“大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群”[1].隨后,IBM公司概括了大數(shù)據(jù)的三大特點——大量化(Volume)、多樣化(Variety)和快速化(Velocity).[1]筆者擬在此基礎(chǔ)上,聯(lián)系信息化發(fā)展演變的具體語境,對這兩個命題進(jìn)行再審視,以做出更通俗的闡釋與解析.
20世紀(jì)中葉,人類邁入了信息時代.隨著計算機(jī)的發(fā)明和應(yīng)用,信息的承載從“語言”到“文字”,進(jìn)而發(fā)展到了“數(shù)據(jù)”.“數(shù)據(jù)”是客觀事物的符號化表示,二進(jìn)制的發(fā)明實現(xiàn)了數(shù)據(jù)在物理機(jī)器中的表達(dá)、計算和傳輸,數(shù)據(jù)可輸入計算機(jī),被計算機(jī)程序理解和處理,這樣利用計算機(jī)強(qiáng)大的計算能力,人類對數(shù)據(jù)得以有效的管理與開發(fā)利用.經(jīng)過近半個世紀(jì)的探索,人類以計算機(jī)為工具管理數(shù)據(jù)從依賴“特有程序”到“文件系統(tǒng)”管理,再到“數(shù)據(jù)庫管理系統(tǒng)”,基本實現(xiàn)了數(shù)據(jù)的快速組織、存儲和讀取.以計算機(jī)為工具管理數(shù)據(jù)不僅提升了信息描述的精確性,更擴(kuò)大了信息傳遞的廣泛性,信息在越來越廣闊的空間發(fā)揮著越來越重要的作用.
但是,信息時代在利用現(xiàn)代信息技術(shù)有效管理利用數(shù)據(jù)的同時,也帶來了數(shù)據(jù)的爆發(fā)式增長.據(jù)國際數(shù)據(jù)中心IDC發(fā)布[2],2010年全球數(shù)據(jù)量已達(dá)1.2 ZB,2011增長到1.8 ZB,2012年達(dá)到2.8 ZB,全球數(shù)據(jù)總量年增長率維持在50%左右,預(yù)計到2020年,全球數(shù)據(jù)總量將達(dá)到40 ZB.現(xiàn)在,數(shù)據(jù)不僅數(shù)量龐大(Volume),增長迅速(Velocity),而且來源類型多樣化(Variety).傳統(tǒng)數(shù)據(jù)基本來源于行業(yè)或企業(yè)的內(nèi)部數(shù)據(jù),現(xiàn)在則大部分來源于互聯(lián)網(wǎng)和物聯(lián)網(wǎng).傳統(tǒng)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主,而現(xiàn)在來源于社交網(wǎng)站、電子商務(wù)、物聯(lián)網(wǎng)的數(shù)據(jù)基本都是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù).傳統(tǒng)數(shù)據(jù)用關(guān)系數(shù)據(jù)庫的管理系統(tǒng)可實現(xiàn)有效的管理與開發(fā),現(xiàn)在數(shù)據(jù)因其大量、迅速、復(fù)雜,大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的能力范圍,以至于引發(fā)了數(shù)據(jù)存儲與處理的危機(jī).[1,3]
圖1 大數(shù)據(jù)采集、處理、存儲、分析的系統(tǒng)實現(xiàn)架構(gòu)
大數(shù)據(jù)帶來了危機(jī),同時也呼喚著大數(shù)據(jù)處理技術(shù),推動著大數(shù)據(jù)研究的飛速發(fā)展.
信息時代極大地彰顯了“數(shù)據(jù)”的價值,但人們無法有效地利用“數(shù)據(jù)”,望“大數(shù)據(jù)”而興嘆.由此,“大數(shù)據(jù)技術(shù)”應(yīng)運而生.2012年,美國政府頒布《大數(shù)據(jù)研究與發(fā)展倡議》(Big Data Research and Development Initiative),并投資兩億美元以支持大數(shù)據(jù)相關(guān)技術(shù)的研發(fā).[4]2015年9月,國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,圍繞“大數(shù)據(jù)”著手實施一系列研發(fā)應(yīng)用工程[5].另外,IBM、谷歌、亞馬遜、阿里巴巴等商業(yè)公司亦紛紛推出了大數(shù)據(jù)系統(tǒng)解決方案.當(dāng)前,大數(shù)據(jù)技術(shù)初見端倪,初顯成效.下面筆者對大數(shù)據(jù)的系統(tǒng)實現(xiàn)模式做一簡要梳理.
盡管當(dāng)前大數(shù)據(jù)解決方案千差萬別,采用技術(shù)五花八門,但都有一個基本相似的流程,即大數(shù)據(jù)的采集、處理、存儲、分析,圍繞流程開發(fā)工具,實現(xiàn)對大數(shù)據(jù)的科學(xué)管理合理利用.如圖1.
大數(shù)據(jù)主要有三個來源,一是傳統(tǒng)的行業(yè)/企業(yè)內(nèi)部數(shù)據(jù),如ERP(Enterprise Resource Planning,企業(yè)資源計劃系統(tǒng))、CRM(Customer Relationship Management,客戶關(guān)系管理)等,這類數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主;再就是泛互聯(lián)網(wǎng)數(shù)據(jù),如QQ、微博等社交網(wǎng)站和亞馬遜、阿里巴巴等電子商務(wù)產(chǎn)生的動態(tài)數(shù)據(jù),這類數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主;還有就是物聯(lián)網(wǎng)數(shù)據(jù),如RFID(radio frequency identification,射頻識別)和傳感器數(shù)據(jù),這類數(shù)據(jù)以半結(jié)構(gòu)化數(shù)據(jù)為主.
針對不同的數(shù)據(jù)類型,有不同的采集方法.對于結(jié)構(gòu)化數(shù)據(jù)的采集利用傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)接口實現(xiàn).對于非結(jié)構(gòu)化的泛互聯(lián)網(wǎng)數(shù)據(jù),可通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式獲取非結(jié)構(gòu)化數(shù)據(jù),再在本地存儲為結(jié)構(gòu)化數(shù)據(jù).對于半結(jié)構(gòu)化數(shù)據(jù)流,需借助專用采集工具,如Chukwa、Flume等.
大數(shù)據(jù)來源多樣,類型復(fù)雜,數(shù)據(jù)大多不完整或不一致,需要ETL(Extract-Transform-Load)進(jìn)行預(yù)處理,將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目標(biāo)數(shù)據(jù)庫或相應(yīng)文件存儲系統(tǒng).
大數(shù)據(jù)場景下,數(shù)據(jù)量呈爆炸式增長,存儲方案一般是分布式存儲架構(gòu),以保障海量數(shù)據(jù)的讀取.當(dāng)前較出名的存儲技術(shù)有谷歌的GFS(Google File System)和Hadoop的HDFS(Hadoop Distributed File System).另外,采用NoSQL(Not Only SQL)數(shù)據(jù)模型自定義數(shù)據(jù)存儲格式,對數(shù)據(jù)和系統(tǒng)架構(gòu)進(jìn)行擴(kuò)展,也是較流行的存儲技術(shù).
完成了數(shù)據(jù)的采集、處理和存儲,下一步就是數(shù)據(jù)的分析和挖掘.當(dāng)前大數(shù)據(jù)分析主要采用數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘解決方案.數(shù)據(jù)倉庫(Data Warehouse)是核心,它是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.聯(lián)機(jī)分析(On-Line Analysis Processing,簡寫為OLAP)和數(shù)據(jù)挖掘(Data mining)是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用形式.OLAP屬于驗證型的分析,輔助實現(xiàn)多元數(shù)據(jù)一致存取和多維分析,從而獲得對數(shù)據(jù)的更深入了解.數(shù)據(jù)挖掘是通過算法從大量的數(shù)據(jù)中搜索隱藏于其中信息的過程,它主動去發(fā)現(xiàn)有用信息,發(fā)掘潛在規(guī)律,與OLAP一同用于支持管理決策.[1,3]
互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的廣泛應(yīng)用,產(chǎn)生了大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具處理能力的數(shù)據(jù)群,使得人們無法有效地利用“數(shù)據(jù)”,望“大數(shù)據(jù)”而興嘆.由此,“大數(shù)據(jù)技術(shù)”應(yīng)運而生.人們通常所說的“大數(shù)據(jù)”,其實更多地是指“大數(shù)據(jù)技術(shù)”,實質(zhì)是一個“新技術(shù)群”.大數(shù)據(jù)技術(shù)豐富多彩,難以面面俱到,筆者僅擷取其最基本的關(guān)鍵技術(shù)做一簡要解析.
大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理在流程上并無太大差異,主要的區(qū)別在于處理方式.大數(shù)據(jù)處理方式是基于MapReduce技術(shù)對海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合并行處理,MapReduce技術(shù)應(yīng)用于各個環(huán)節(jié).
MapReduce最早是由Google公司研究提出的一種面向大規(guī)模數(shù)據(jù)處理的并行計算模型和方法.Google公司設(shè)計MapReduce的初衷主要是為了解決其搜索引擎中大規(guī)模網(wǎng)頁數(shù)據(jù)的并行化處理,但由于MapReduce對數(shù)據(jù)一致性要求不高,具有可擴(kuò)展性和可用性,可以普遍應(yīng)用于很多大規(guī)模數(shù)據(jù)的計算問題,特別適用于海量的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的混合處理,因此MapReduce迅速普及成為通用的面向大數(shù)據(jù)并行處理的計算模型、軟件框架和系統(tǒng)平臺.MapReduce的運行原理如圖2所示.
圖2 MapReduce運作原理[6]
因為對于大數(shù)據(jù)的處理,不是一臺計算機(jī)同時處理許多任務(wù),而是許多計算機(jī)同時做一件任務(wù)的邏輯關(guān)系,所以必須進(jìn)行有效的分工與協(xié)同.MapReduce將計算機(jī)分為兩類,一類是Master負(fù)責(zé)調(diào)度,另一類是Worker負(fù)責(zé)執(zhí)行.同時,MapReduce將大數(shù)據(jù)處理任務(wù)分為Map(映射)和Reduce(化簡)兩個階段,首先Master對來自User Program的大數(shù)據(jù)進(jìn)行Map(映射),即把海量數(shù)據(jù)分割成若干部分split,分給多臺處理器Woker并行處理;然后對處理結(jié)果Reduce(化簡),即把各臺處理器Worker處理后的結(jié)果進(jìn)行匯總操作、集成輸出Output file以得到最終結(jié)果.
MapReduce將傳統(tǒng)的查詢、分解及數(shù)據(jù)分析進(jìn)行分布式處理,并基于網(wǎng)絡(luò)環(huán)境共享大量的廉價PC資源,耦合度低,有容錯機(jī)制,所以特別適合大數(shù)據(jù)環(huán)境下的處理需求.MapReduce已經(jīng)成為事實上的大數(shù)據(jù)處理工業(yè)標(biāo)準(zhǔn),盡管還有很多局限性,但人們普遍公認(rèn)MapReduce是截止目前最為成功的大數(shù)據(jù)并行處理技術(shù),也是截至目前大數(shù)據(jù)處理的關(guān)鍵技術(shù).[1,3,6-7]
大數(shù)據(jù)和其他劃時代的信息技術(shù)一樣,幾乎對所有行業(yè)及其從業(yè)人員都有革命性的影響.大數(shù)據(jù)時代,數(shù)據(jù)就是最重要的“財富”,能匯集挖掘大數(shù)據(jù)價值為己所用的行業(yè)及其從業(yè)人員將是未來的“贏家”.千里之行始于足下,大數(shù)據(jù)時代已經(jīng)翩然而至,融入大數(shù)據(jù)時代,成為大數(shù)據(jù)時代的佼佼者,就從了解“大數(shù)據(jù)的入門知識”開始.