大數(shù)據(jù)的時代背景、系統(tǒng)實現(xiàn)及關(guān)鍵技術(shù)解析

2018-11-16 09:10魏建琳

西安文理學(xué)院學(xué)報（自然科學(xué)版） 2018年5期

魏建琳

(西安文理學(xué)院圖書館,西安 710065)

2011年5月，國際著名咨詢公司麥肯錫(McKinsey & Company)預(yù)言，人類將步入一個“大數(shù)據(jù)時代”[1].短短幾年間，信息技術(shù)的飛速發(fā)展已讓預(yù)言成為現(xiàn)實.大數(shù)據(jù)不僅受到普遍關(guān)注成為國際流行的熱門話題，而且相關(guān)技術(shù)不斷取得突破促使新產(chǎn)品新項目大量涌現(xiàn)，更重要的是大數(shù)據(jù)已應(yīng)用于各行各業(yè)，成為政府、企業(yè)、社會組織以至于個人的重要生產(chǎn)組織決策資源.

“大數(shù)據(jù)時代”翩然而至，成為本世紀(jì)繼云計算、物聯(lián)網(wǎng)后又一次顛覆性的技術(shù)變革，對國家、企業(yè)、團(tuán)體、個人都已經(jīng)或?qū)⒁a(chǎn)生巨大影響.面對洶涌澎湃的大數(shù)據(jù)浪潮，筆者擬從時代背景與技術(shù)實現(xiàn)兩個維度對大數(shù)據(jù)的基礎(chǔ)知識——概念(What)、理由(Why)以及方式方法(How)做一簡單梳理與解析.

1 信息化發(fā)展演變視閾下大數(shù)據(jù)的再審視

什么是大數(shù)據(jù)？為什么要研究大數(shù)據(jù)？對此，IT行業(yè)已做出了精確的界定與合理的解釋.2011年，麥肯錫(McKinsey & Company)將大數(shù)據(jù)定義為“大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的抓取、存儲、管理和分析能力的數(shù)據(jù)群”[1].隨后，IBM公司概括了大數(shù)據(jù)的三大特點——大量化(Volume)、多樣化(Variety)和快速化(Velocity).[1]筆者擬在此基礎(chǔ)上，聯(lián)系信息化發(fā)展演變的具體語境，對這兩個命題進(jìn)行再審視，以做出更通俗的闡釋與解析.

20世紀(jì)中葉，人類邁入了信息時代.隨著計算機(jī)的發(fā)明和應(yīng)用，信息的承載從“語言”到“文字”，進(jìn)而發(fā)展到了“數(shù)據(jù)”.“數(shù)據(jù)”是客觀事物的符號化表示，二進(jìn)制的發(fā)明實現(xiàn)了數(shù)據(jù)在物理機(jī)器中的表達(dá)、計算和傳輸，數(shù)據(jù)可輸入計算機(jī)，被計算機(jī)程序理解和處理，這樣利用計算機(jī)強(qiáng)大的計算能力，人類對數(shù)據(jù)得以有效的管理與開發(fā)利用.經(jīng)過近半個世紀(jì)的探索，人類以計算機(jī)為工具管理數(shù)據(jù)從依賴“特有程序”到“文件系統(tǒng)”管理，再到“數(shù)據(jù)庫管理系統(tǒng)”，基本實現(xiàn)了數(shù)據(jù)的快速組織、存儲和讀取.以計算機(jī)為工具管理數(shù)據(jù)不僅提升了信息描述的精確性，更擴(kuò)大了信息傳遞的廣泛性，信息在越來越廣闊的空間發(fā)揮著越來越重要的作用.

但是，信息時代在利用現(xiàn)代信息技術(shù)有效管理利用數(shù)據(jù)的同時，也帶來了數(shù)據(jù)的爆發(fā)式增長.據(jù)國際數(shù)據(jù)中心IDC發(fā)布[2]，2010年全球數(shù)據(jù)量已達(dá)1.2 ZB，2011增長到1.8 ZB，2012年達(dá)到2.8 ZB，全球數(shù)據(jù)總量年增長率維持在50%左右，預(yù)計到2020年，全球數(shù)據(jù)總量將達(dá)到40 ZB.現(xiàn)在，數(shù)據(jù)不僅數(shù)量龐大(Volume)，增長迅速(Velocity)，而且來源類型多樣化(Variety).傳統(tǒng)數(shù)據(jù)基本來源于行業(yè)或企業(yè)的內(nèi)部數(shù)據(jù)，現(xiàn)在則大部分來源于互聯(lián)網(wǎng)和物聯(lián)網(wǎng).傳統(tǒng)數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主，而現(xiàn)在來源于社交網(wǎng)站、電子商務(wù)、物聯(lián)網(wǎng)的數(shù)據(jù)基本都是非結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù).傳統(tǒng)數(shù)據(jù)用關(guān)系數(shù)據(jù)庫的管理系統(tǒng)可實現(xiàn)有效的管理與開發(fā)，現(xiàn)在數(shù)據(jù)因其大量、迅速、復(fù)雜，大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具的能力范圍，以至于引發(fā)了數(shù)據(jù)存儲與處理的危機(jī).[1，3]

圖1 大數(shù)據(jù)采集、處理、存儲、分析的系統(tǒng)實現(xiàn)架構(gòu)

大數(shù)據(jù)帶來了危機(jī)，同時也呼喚著大數(shù)據(jù)處理技術(shù)，推動著大數(shù)據(jù)研究的飛速發(fā)展.

2 大數(shù)據(jù)采集、處理、存儲、分析的系統(tǒng)實現(xiàn)

信息時代極大地彰顯了“數(shù)據(jù)”的價值，但人們無法有效地利用“數(shù)據(jù)”，望“大數(shù)據(jù)”而興嘆.由此，“大數(shù)據(jù)技術(shù)”應(yīng)運而生.2012年，美國政府頒布《大數(shù)據(jù)研究與發(fā)展倡議》(Big Data Research and Development Initiative)，并投資兩億美元以支持大數(shù)據(jù)相關(guān)技術(shù)的研發(fā).[4]2015年9月，國務(wù)院印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》，圍繞“大數(shù)據(jù)”著手實施一系列研發(fā)應(yīng)用工程[5].另外，IBM、谷歌、亞馬遜、阿里巴巴等商業(yè)公司亦紛紛推出了大數(shù)據(jù)系統(tǒng)解決方案.當(dāng)前，大數(shù)據(jù)技術(shù)初見端倪，初顯成效.下面筆者對大數(shù)據(jù)的系統(tǒng)實現(xiàn)模式做一簡要梳理.

盡管當(dāng)前大數(shù)據(jù)解決方案千差萬別，采用技術(shù)五花八門，但都有一個基本相似的流程，即大數(shù)據(jù)的采集、處理、存儲、分析，圍繞流程開發(fā)工具，實現(xiàn)對大數(shù)據(jù)的科學(xué)管理合理利用.如圖1.

大數(shù)據(jù)主要有三個來源，一是傳統(tǒng)的行業(yè)/企業(yè)內(nèi)部數(shù)據(jù)，如ERP(Enterprise Resource Planning，企業(yè)資源計劃系統(tǒng))、CRM(Customer Relationship Management，客戶關(guān)系管理)等，這類數(shù)據(jù)以結(jié)構(gòu)化數(shù)據(jù)為主；再就是泛互聯(lián)網(wǎng)數(shù)據(jù)，如QQ、微博等社交網(wǎng)站和亞馬遜、阿里巴巴等電子商務(wù)產(chǎn)生的動態(tài)數(shù)據(jù)，這類數(shù)據(jù)以非結(jié)構(gòu)化數(shù)據(jù)為主；還有就是物聯(lián)網(wǎng)數(shù)據(jù)，如RFID(radio frequency identification，射頻識別)和傳感器數(shù)據(jù)，這類數(shù)據(jù)以半結(jié)構(gòu)化數(shù)據(jù)為主.

針對不同的數(shù)據(jù)類型，有不同的采集方法.對于結(jié)構(gòu)化數(shù)據(jù)的采集利用傳統(tǒng)關(guān)系型數(shù)據(jù)庫管理系統(tǒng)接口實現(xiàn).對于非結(jié)構(gòu)化的泛互聯(lián)網(wǎng)數(shù)據(jù)，可通過網(wǎng)絡(luò)爬蟲或網(wǎng)站公開API等方式獲取非結(jié)構(gòu)化數(shù)據(jù)，再在本地存儲為結(jié)構(gòu)化數(shù)據(jù).對于半結(jié)構(gòu)化數(shù)據(jù)流，需借助專用采集工具，如Chukwa、Flume等.

大數(shù)據(jù)來源多樣，類型復(fù)雜，數(shù)據(jù)大多不完整或不一致，需要ETL(Extract-Transform-Load)進(jìn)行預(yù)處理，將數(shù)據(jù)從來源端經(jīng)過抽取(extract)、轉(zhuǎn)換(transform)、加載(load)至目標(biāo)數(shù)據(jù)庫或相應(yīng)文件存儲系統(tǒng).

大數(shù)據(jù)場景下，數(shù)據(jù)量呈爆炸式增長，存儲方案一般是分布式存儲架構(gòu)，以保障海量數(shù)據(jù)的讀取.當(dāng)前較出名的存儲技術(shù)有谷歌的GFS(Google File System)和Hadoop的HDFS(Hadoop Distributed File System).另外，采用NoSQL(Not Only SQL)數(shù)據(jù)模型自定義數(shù)據(jù)存儲格式，對數(shù)據(jù)和系統(tǒng)架構(gòu)進(jìn)行擴(kuò)展，也是較流行的存儲技術(shù).

完成了數(shù)據(jù)的采集、處理和存儲，下一步就是數(shù)據(jù)的分析和挖掘.當(dāng)前大數(shù)據(jù)分析主要采用數(shù)據(jù)倉庫、聯(lián)機(jī)分析和數(shù)據(jù)挖掘解決方案.數(shù)據(jù)倉庫(Data Warehouse)是核心，它是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合.聯(lián)機(jī)分析(On-Line Analysis Processing，簡寫為OLAP)和數(shù)據(jù)挖掘(Data mining)是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用形式.OLAP屬于驗證型的分析，輔助實現(xiàn)多元數(shù)據(jù)一致存取和多維分析，從而獲得對數(shù)據(jù)的更深入了解.數(shù)據(jù)挖掘是通過算法從大量的數(shù)據(jù)中搜索隱藏于其中信息的過程，它主動去發(fā)現(xiàn)有用信息，發(fā)掘潛在規(guī)律，與OLAP一同用于支持管理決策.[1，3]

3 大數(shù)據(jù)的關(guān)鍵技術(shù)解析

互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的廣泛應(yīng)用，產(chǎn)生了大小超出了傳統(tǒng)數(shù)據(jù)庫軟件工具處理能力的數(shù)據(jù)群，使得人們無法有效地利用“數(shù)據(jù)”，望“大數(shù)據(jù)”而興嘆.由此，“大數(shù)據(jù)技術(shù)”應(yīng)運而生.人們通常所說的“大數(shù)據(jù)”，其實更多地是指“大數(shù)據(jù)技術(shù)”，實質(zhì)是一個“新技術(shù)群”.大數(shù)據(jù)技術(shù)豐富多彩，難以面面俱到，筆者僅擷取其最基本的關(guān)鍵技術(shù)做一簡要解析.

大數(shù)據(jù)技術(shù)與傳統(tǒng)數(shù)據(jù)處理在流程上并無太大差異，主要的區(qū)別在于處理方式.大數(shù)據(jù)處理方式是基于MapReduce技術(shù)對海量結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的混合并行處理，MapReduce技術(shù)應(yīng)用于各個環(huán)節(jié).

MapReduce最早是由Google公司研究提出的一種面向大規(guī)模數(shù)據(jù)處理的并行計算模型和方法.Google公司設(shè)計MapReduce的初衷主要是為了解決其搜索引擎中大規(guī)模網(wǎng)頁數(shù)據(jù)的并行化處理，但由于MapReduce對數(shù)據(jù)一致性要求不高，具有可擴(kuò)展性和可用性，可以普遍應(yīng)用于很多大規(guī)模數(shù)據(jù)的計算問題，特別適用于海量的結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的混合處理，因此MapReduce迅速普及成為通用的面向大數(shù)據(jù)并行處理的計算模型、軟件框架和系統(tǒng)平臺.MapReduce的運行原理如圖2所示.

圖2 MapReduce運作原理[6]

因為對于大數(shù)據(jù)的處理，不是一臺計算機(jī)同時處理許多任務(wù)，而是許多計算機(jī)同時做一件任務(wù)的邏輯關(guān)系，所以必須進(jìn)行有效的分工與協(xié)同.MapReduce將計算機(jī)分為兩類，一類是Master負(fù)責(zé)調(diào)度，另一類是Worker負(fù)責(zé)執(zhí)行.同時，MapReduce將大數(shù)據(jù)處理任務(wù)分為Map(映射)和Reduce(化簡)兩個階段，首先Master對來自User Program的大數(shù)據(jù)進(jìn)行Map(映射)，即把海量數(shù)據(jù)分割成若干部分split，分給多臺處理器Woker并行處理；然后對處理結(jié)果Reduce(化簡)，即把各臺處理器Worker處理后的結(jié)果進(jìn)行匯總操作、集成輸出Output file以得到最終結(jié)果.

MapReduce將傳統(tǒng)的查詢、分解及數(shù)據(jù)分析進(jìn)行分布式處理，并基于網(wǎng)絡(luò)環(huán)境共享大量的廉價PC資源，耦合度低，有容錯機(jī)制，所以特別適合大數(shù)據(jù)環(huán)境下的處理需求.MapReduce已經(jīng)成為事實上的大數(shù)據(jù)處理工業(yè)標(biāo)準(zhǔn)，盡管還有很多局限性，但人們普遍公認(rèn)MapReduce是截止目前最為成功的大數(shù)據(jù)并行處理技術(shù)，也是截至目前大數(shù)據(jù)處理的關(guān)鍵技術(shù).[1，3，6-7]

4 結(jié)語

大數(shù)據(jù)和其他劃時代的信息技術(shù)一樣，幾乎對所有行業(yè)及其從業(yè)人員都有革命性的影響.大數(shù)據(jù)時代，數(shù)據(jù)就是最重要的“財富”，能匯集挖掘大數(shù)據(jù)價值為己所用的行業(yè)及其從業(yè)人員將是未來的“贏家”.千里之行始于足下，大數(shù)據(jù)時代已經(jīng)翩然而至，融入大數(shù)據(jù)時代，成為大數(shù)據(jù)時代的佼佼者,就從了解“大數(shù)據(jù)的入門知識”開始.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大數(shù)據(jù)的時代背景、系統(tǒng)實現(xiàn)及關(guān)鍵技術(shù)解析

1 信息化發(fā)展演變視閾下大數(shù)據(jù)的再審視

2 大數(shù)據(jù)采集、處理、存儲、分析的系統(tǒng)實現(xiàn)

3 大數(shù)據(jù)的關(guān)鍵技術(shù)解析

4 結(jié)語

大數(shù)據(jù)的時代背景、系統(tǒng)實現(xiàn)及關(guān)鍵技術(shù)解析

2 大數(shù)據(jù)采集、處理、存儲、分析的系統(tǒng)實現(xiàn)