大數(shù)據(jù)戰(zhàn)略重點(diǎn)實(shí)驗(yàn)室
摘 要:自從2012年美國政府推出《大數(shù)據(jù)研究和發(fā)展計(jì)劃》以來,全球各組織、國家都紛紛在大數(shù)據(jù)戰(zhàn)略推進(jìn)方面積極行動,大數(shù)據(jù)相關(guān)的基礎(chǔ)設(shè)施、產(chǎn)業(yè)應(yīng)用和理論體系不斷發(fā)展與完善,大數(shù)據(jù)正從單一的技術(shù)概念逐漸轉(zhuǎn)化為新要素、新戰(zhàn)略、新思維。然而,目前社會各界關(guān)于大數(shù)據(jù)的基本概念還沒有形成統(tǒng)一、系統(tǒng)化的描述。為深入理解認(rèn)識大數(shù)據(jù)的本質(zhì),更好挖掘利用大數(shù)據(jù)的潛能和優(yōu)勢,文章從大數(shù)據(jù)概念入手,從多個(gè)維度剖析了大數(shù)據(jù)的研究現(xiàn)狀,梳理了大數(shù)據(jù)的概念演變及其特性,并對大數(shù)據(jù)發(fā)展的現(xiàn)狀進(jìn)行分析,以期為大數(shù)據(jù)研究提供指導(dǎo)。
關(guān)鍵詞:大數(shù)據(jù)研究,概念,特征
中圖分類號:N04;TP39;H059文獻(xiàn)標(biāo)識碼:ADOI:10.3969/j.issn.1673-8578.2017.04.009
Abstract: Since the U.S. government launched the Big Data Research and Development Initiative in 2012, international organizations and countries around the world have taken active actions to implement big data strategies. As a result, big datarelated infrastructure, industrial applications and theoretical systems are developing and improving. Big data is gradually transforming from a single technical concept to new elements, new strategies and new ways of thinking. However, the various sectors of society still do not have a unified and systematic description of the basic concept of big data. In order to provide guidance for big data research, gain a comprehensive understanding of the nature of big data, and better utilize and exert the potential and advantages of big data, this paper starts from the concept of big data, analyzes the present research status of big data from multiple dimensions, highlights the concept evolution and characteristics of big data, and analyzes the development status of big data.
Keywords: big data research, concept, characteristics
一 定義及內(nèi)涵
(一) 定義
大數(shù)據(jù)是以容量大、類型多、存取速度快、應(yīng)用價(jià)值高為主要特征的數(shù)據(jù)集合,正快速發(fā)展為對數(shù)量巨大、來源分散、格式多樣的數(shù)據(jù)進(jìn)行采集、存儲和關(guān)聯(lián)分析,從中發(fā)現(xiàn)新知識、創(chuàng)造新價(jià)值、提升新能力的新一代信息技術(shù)和服務(wù)業(yè)態(tài)[1]。
(二)研究現(xiàn)狀
目前,學(xué)術(shù)界、產(chǎn)業(yè)界、政府機(jī)構(gòu)都對大數(shù)據(jù)的內(nèi)涵和外延有過不同界定,其研究涉及性質(zhì)特點(diǎn)、要素構(gòu)成、技術(shù)系統(tǒng)、應(yīng)用范圍、價(jià)值來源等諸多方面。
(1)技術(shù)分析角度。這一類定義重點(diǎn)關(guān)注的是對海量、復(fù)雜數(shù)據(jù)進(jìn)行分析處理,從而獲得信息和知識的技術(shù)手段[2]。其中較為權(quán)威的觀點(diǎn)來自于麥肯錫全球研究院(Mckinsey Global Institute, MGI)所發(fā)表的《大數(shù)據(jù):下一個(gè)創(chuàng)新、競爭和生產(chǎn)力的前沿》,該報(bào)告提出:“大數(shù)據(jù)”是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲存、管理和分析等能力的數(shù)據(jù)集。數(shù)據(jù)集成軟件商納斯達(dá)克(NASDAQ)認(rèn)為,大數(shù)據(jù)包括了海量數(shù)據(jù)和復(fù)雜數(shù)據(jù)類型,其規(guī)模超過傳統(tǒng)數(shù)據(jù)庫進(jìn)行管理和處理的能力。綜合此類觀點(diǎn)來看,一是大數(shù)據(jù)是一種難以處理的大規(guī)模數(shù)據(jù)集,二是需要特定的技術(shù)才能完成其采集、分析、應(yīng)用等。
(2)大數(shù)據(jù)應(yīng)用價(jià)值角度。這一類定義強(qiáng)調(diào)的是大數(shù)據(jù)的應(yīng)用,關(guān)注的是從數(shù)據(jù)中獲取有價(jià)值的信息和知識,最終目的是建立商業(yè)方面的競爭優(yōu)勢甚至是創(chuàng)新商業(yè)模式。高德納咨詢公司(Gartner Group)曾提出:大數(shù)據(jù)是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力來適應(yīng)海量、高增長率和多樣化的信息資產(chǎn)。哈佛大學(xué)訪問學(xué)者徐晉在《大數(shù)據(jù)經(jīng)濟(jì)學(xué)》中指出,大數(shù)據(jù)是指存在價(jià)值關(guān)聯(lián)的海量數(shù)據(jù)。其本質(zhì)是社會經(jīng)濟(jì)的離散化解構(gòu)和全息化重構(gòu),表現(xiàn)為行業(yè)間海量數(shù)據(jù)的關(guān)系從量變到質(zhì)變的轉(zhuǎn)變(深度挖掘)。
(3)大數(shù)據(jù)對社會發(fā)展影響角度。這一類定義強(qiáng)調(diào)大數(shù)據(jù)對人類社會生產(chǎn)生活方式、思維范式等產(chǎn)生的重大影響,認(rèn)為大數(shù)據(jù)開啟了人類發(fā)展的新階段,并且認(rèn)為這種范式的影響是持久而深遠(yuǎn)的。數(shù)據(jù)科學(xué)家維克托·邁爾-舍恩伯格(Viktor MayerSchnberger)及肯尼斯·庫克耶(Kenneth Cukier)在出版的《大數(shù)據(jù)時(shí)代》中提出,大數(shù)據(jù)是人們獲得新的認(rèn)知、創(chuàng)造新的價(jià)值的源泉;大數(shù)據(jù)還是改變市場、組織結(jié)構(gòu),以及政府與公民關(guān)系的方法[4]。哈佛大學(xué)定量社會學(xué)研究所主任蓋瑞·金(Gary King)在名為“Why‘Big DataIs a Big Deal”的演講中指出,大數(shù)據(jù)技術(shù)完全是一場數(shù)據(jù)革命(big data revolution),這場革命對政府管理、學(xué)術(shù)及商業(yè)帶來了很多顛覆式變革。他認(rèn)為,大數(shù)據(jù)技術(shù)將觸及任何一個(gè)領(lǐng)域,同時(shí)“大數(shù)據(jù)”時(shí)代還將引爆一場“哥白尼式革命”——它改變的不僅僅是信息生產(chǎn)力,更是信息生產(chǎn)關(guān)系。
二 起 源
(一)萌芽期
20世紀(jì)90年代興起的復(fù)雜性科學(xué),為人類提供了有機(jī)自然觀,整體全局、關(guān)聯(lián)、演化的復(fù)雜性思維方式和新的科學(xué)理論方法,也為大數(shù)據(jù)提供了理論基礎(chǔ),是大數(shù)據(jù)形成的萌芽階段。1997年10月,美國國家航空航天局(NASA)阿姆斯研究中心的邁克爾·考克斯(Michael Cox)和大衛(wèi)·埃爾斯沃斯(David Ellsworth)在第八屆美國電氣和電子工程師協(xié)會(Institute of Electrical and Electronics Engineers,IEEE)關(guān)于可視化的會議論文集中首次使用“大數(shù)據(jù)”概念,并界定了內(nèi)涵。他們表示,日新月異的計(jì)算機(jī)技術(shù)迅猛生長,并帶動了數(shù)據(jù)處理技術(shù)的革新,促使人類重新調(diào)整自身認(rèn)識問題、解決問題的方法。1999年8月,史蒂夫·布賴森(Steve Bryson)等在《美國計(jì)算機(jī)和協(xié)會通訊》上發(fā)表了以“大數(shù)據(jù)的科學(xué)可視化”為副標(biāo)題的論文,首次在期刊中使用“大數(shù)據(jù)”這一術(shù)語。
這一階段的“大數(shù)據(jù)”多是一種概念構(gòu)想,并逐漸開始被一些研究者作為一個(gè)術(shù)語使用,常直指“大量的數(shù)據(jù)或數(shù)據(jù)集”這樣的字面含義,還沒有涵蓋到相關(guān)的收集、存儲、分析、應(yīng)用等技術(shù)方法與特征內(nèi)涵。
(二)發(fā)展期
從20世紀(jì)末到21世紀(jì)初期是大數(shù)據(jù)的發(fā)展期,在這一階段中大數(shù)據(jù)逐漸為學(xué)術(shù)界的研究者所關(guān)注。如經(jīng)濟(jì)學(xué)家弗朗西斯·X.迪博爾德(Francis X. Diebold)在2000年撰寫《大數(shù)據(jù),宏觀經(jīng)濟(jì)度量與預(yù)測動態(tài)因素模型》來討論大數(shù)據(jù)在經(jīng)濟(jì)分析方面的運(yùn)用。英國Nature(自然)、美國Science(科學(xué))等期刊分別出版了大數(shù)據(jù)???,從互聯(lián)網(wǎng)技術(shù)、互聯(lián)網(wǎng)經(jīng)濟(jì)學(xué)、超級計(jì)算、環(huán)境科學(xué)、生物醫(yī)藥等多個(gè)方面討論了大數(shù)據(jù)處理面臨的各種問題。在這一階段中大數(shù)據(jù)逐漸為理論界的研究者所關(guān)注,相關(guān)的定義、內(nèi)涵、特性也得到了進(jìn)一步的豐富。
(三)成熟期
2011年至今,是大數(shù)據(jù)發(fā)展的成熟階段。2011年5月,麥肯錫全球研究院(MGI)發(fā)布了《大數(shù)據(jù):下一個(gè)具有創(chuàng)新力、競爭力與生產(chǎn)力的前沿領(lǐng)域》報(bào)告,系統(tǒng)闡述了大數(shù)據(jù)概念,列舉了大數(shù)據(jù)的核心技術(shù),分析了大數(shù)據(jù)在不同行業(yè)的應(yīng)用,提出了政府和企業(yè)決策者應(yīng)對大數(shù)據(jù)發(fā)展的策略。2012年,瑞士達(dá)沃斯召開的世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)成為主題之一。同時(shí),會上發(fā)布的報(bào)告《大數(shù)據(jù),大影響》宣稱,數(shù)據(jù)已經(jīng)成為一種新的經(jīng)濟(jì)資產(chǎn)類別,就像貨幣或黃金一樣。2014年后,世界經(jīng)濟(jì)論壇以“大數(shù)據(jù)的回報(bào)與風(fēng)險(xiǎn)”為主題發(fā)布了《全球信息技術(shù)報(bào)告》(第13版);美國發(fā)布了《大數(shù)據(jù):抓住機(jī)遇、保存價(jià)值》;聯(lián)合國啟動“全球脈動”計(jì)劃,并發(fā)布了《大數(shù)據(jù)促發(fā)展:挑戰(zhàn)與機(jī)遇》;中國發(fā)布了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》;經(jīng)濟(jì)合作與發(fā)展組織(OECD)推出《使用大數(shù)據(jù)作決策》。越來越多的研究者對大數(shù)據(jù)的認(rèn)識也從技術(shù)概念豐富到了信息資產(chǎn)與思維變革等多個(gè)維度,一些國家、社會組織、企業(yè)開始將大數(shù)據(jù)上升為重要戰(zhàn)略。
三 特 性
大數(shù)據(jù)特性最早的提出者是麥塔集團(tuán)(META Group,現(xiàn)為高德納)分析師道格·萊尼(Doug Laney),他在研究報(bào)告《3D數(shù)據(jù)管理:控制數(shù)據(jù)數(shù)量、速度及種類》中指出,“數(shù)據(jù)激增的挑戰(zhàn)和機(jī)遇是三維的,不僅僅在我們通常所理解的數(shù)據(jù)量(volume)層面,還包括數(shù)據(jù)進(jìn)出的速度 (velocity) 以及數(shù)據(jù)種類范圍 (variety)”。此后,研究者紛紛從特性角度去分析和理解大數(shù)據(jù),并對這種“3V”的觀點(diǎn)加以豐富。如IBM商業(yè)價(jià)值研究院在《分析:大數(shù)據(jù)在現(xiàn)實(shí)世界中的應(yīng)用》報(bào)告中提出應(yīng)增加準(zhǔn)確性(veracity);弗雷斯特研究公司(Forrester Research)分析師布萊恩·霍普金斯和鮑里斯·埃韋爾松認(rèn)為應(yīng)增加易變性(variability)等。其中國際數(shù)據(jù)公司(International Data Corporation ,IDC)的觀點(diǎn)最為權(quán)威,也得到了研究者的廣泛認(rèn)同,該公司在《從混沌中提取價(jià)值》報(bào)告中提出了大數(shù)據(jù)的“4V”特征,即:數(shù)據(jù)容量大(volume)、數(shù)據(jù)類型繁多(variety)、商業(yè)價(jià)值高(value)、處理速度快(velocity)。
(一)規(guī)模性(volume)
或稱數(shù)據(jù)體量巨大。目前,大數(shù)據(jù)的規(guī)模尚是一個(gè)不斷變化的指標(biāo),單一數(shù)據(jù)集的規(guī)模范圍從幾十TB到數(shù)PB不等,各方研究者雖然對大數(shù)據(jù)量的統(tǒng)計(jì)和預(yù)測結(jié)果并不完全相同,但一致認(rèn)為數(shù)據(jù)量將急劇增長。
(二)多樣性(variety)
即數(shù)據(jù)類型多樣。從生成類型上分為交易數(shù)據(jù)、交互數(shù)據(jù)、傳感數(shù)據(jù);從數(shù)據(jù)來源上分為社交媒體、傳感器數(shù)據(jù)、系統(tǒng)數(shù)據(jù);從數(shù)據(jù)格式上分為文本、圖片、音頻、視頻、光譜等;從數(shù)據(jù)關(guān)系上分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);從數(shù)據(jù)所有者分為公司數(shù)據(jù)、政府?dāng)?shù)據(jù)、社會數(shù)據(jù)等。
(三)高速性(velocity)
數(shù)據(jù)的增長速度快,以及要求數(shù)據(jù)訪問、處理、交付等速度快。數(shù)據(jù)創(chuàng)建、處理和分析的速度持續(xù)加快,其原因是數(shù)據(jù)創(chuàng)建的實(shí)時(shí)性屬性,以及需要將流數(shù)據(jù)結(jié)合到業(yè)務(wù)流程和決策過程中的要求。速度影響數(shù)據(jù)時(shí)延——從數(shù)據(jù)創(chuàng)建或獲取到數(shù)據(jù)可以訪問的時(shí)間差。目前,數(shù)據(jù)以傳統(tǒng)系統(tǒng)不可能達(dá)到的速度在產(chǎn)生、獲取、存儲和分析。對于對時(shí)間敏感的流程(例如實(shí)時(shí)欺詐監(jiān)測或多渠道“即時(shí)”營銷),某些類型的數(shù)據(jù)必須實(shí)時(shí)地分析,以對業(yè)務(wù)產(chǎn)生價(jià)值。
(四)價(jià)值性(value)
大數(shù)據(jù)價(jià)值巨大。大數(shù)據(jù)能夠通過規(guī)模效應(yīng)將低價(jià)值密度的數(shù)據(jù)整合為高價(jià)值、作用巨大的信息資產(chǎn)。如美國社交網(wǎng)站 Facebook 有10億用戶,網(wǎng)站對這些用戶信息進(jìn)行分析后,廣告商可根據(jù)結(jié)果精準(zhǔn)投放廣告。對廣告商而言,10億用戶的數(shù)據(jù)價(jià)值上千億美元。據(jù)資料報(bào)道,2012 年,運(yùn)用大數(shù)據(jù)的世界貿(mào)易額已達(dá) 60 億美元。