王淵
摘 要:在分析大數(shù)據(jù)時代的背景下筆者對“大數(shù)據(jù)時代”做了個界定,并從數(shù)據(jù)分析出發(fā)界定了“大數(shù)據(jù)”的概念。同時,根據(jù)大數(shù)據(jù)的特點,從幾個方面剖析了大數(shù)據(jù)時代下數(shù)據(jù)分析的主要變化,明確了今后經(jīng)濟統(tǒng)計研究中需要注意的一些問題。
關鍵詞:大數(shù)據(jù);大數(shù)據(jù)時代;數(shù)據(jù)分析;統(tǒng)計學
一、引言
隨著互聯(lián)網(wǎng)特別是移動互聯(lián)網(wǎng)的發(fā)展,信息化滲入到社會經(jīng)濟各方面、人們?nèi)粘I钪?。根?jù)相關資料的顯示,在1998年至2014年間,全球網(wǎng)民每月使用流量就增長了近萬倍。在2001年一年內(nèi),全網(wǎng)流量累計達到了1EB(1EB=TB),2004年需一個月,在2007年則是1周,而到了2013年僅用一天的時間。[1]據(jù)思科之前預測,到2016年全球將會產(chǎn)生高達1.3ZB(1ZB=TB),將這個數(shù)字形象化一點就是全球網(wǎng)絡每小時會傳輸超過3800萬張DVD所容納的數(shù)據(jù)量。大數(shù)據(jù)充斥著人類經(jīng)濟社會的許多角落。
在《第三次浪潮》一書中,著名未來學家阿爾文·托夫勒(1980)將大數(shù)據(jù)形容為“第三次浪潮的華彩樂章”。近年來,社交網(wǎng)絡、物聯(lián)網(wǎng)、云計算逐漸占據(jù)人類生活圈,使得數(shù)據(jù)的規(guī)模越來越大。麥肯錫在2011年5月發(fā)布的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個前沿領域》報告中指出,“數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來”,這也標志著“大數(shù)據(jù)”時代的到來。
朱建平、章貴軍等(2014)[2]認為大數(shù)據(jù)時代是在互聯(lián)網(wǎng)、物聯(lián)網(wǎng)等現(xiàn)代網(wǎng)絡渠道廣泛收集數(shù)據(jù)資源的基礎上建立起來的數(shù)據(jù)存儲、價值提煉、智能處理和展示的信息時代。其基本特征主要體現(xiàn)在社會性、廣泛性、公開性和動態(tài)性幾個方面。
二、大數(shù)據(jù)概念的界定
關于什么是大數(shù)據(jù)目前沒有統(tǒng)一的說法,不同態(tài)度和學科背景的定義者對其的理解不同。比較有代表性的定義主要有以下幾種。
維基百科認為,大數(shù)據(jù)是指在目前主流的軟件工具的支撐下,仍無法在合理的時間內(nèi)對規(guī)模巨大的資料進行擷取、管理、處理、并整理,使之能幫助企業(yè)做出更積極的經(jīng)營決策的資訊[3]。
“大數(shù)據(jù)”研究機構Gartner給出的定義是:大數(shù)據(jù)是需要新的處理模式,使海量、高增長率和多樣化的信息資產(chǎn)可以擁有更強的決策力、洞察力和流程優(yōu)化能力①。
大數(shù)據(jù)科學家John Rauser提出了一個簡單的定義,大數(shù)據(jù)指任何超過了一臺計算機處理能力的數(shù)據(jù)[4]。
而對于麥肯錫全球研究所來說,大數(shù)據(jù)是指在規(guī)模上遠遠超出傳統(tǒng)數(shù)據(jù)庫承載能力的數(shù)據(jù)集合,海量的數(shù)據(jù)規(guī)模、多樣的數(shù)據(jù)類型、快速的數(shù)據(jù)流轉和低密度價值是其四大特征[5]。
Gartner公司的Merv Adrian(2011)認為,大數(shù)據(jù)超出了常用硬件環(huán)境和軟件工具在可接受的時間內(nèi)為其用戶收集、管理和處理數(shù)據(jù)的能力[6]。
還有一些學者沒有給出大數(shù)據(jù)的具體定義,但概括了大數(shù)據(jù)的特點。從Dumbill(2012)采用IBM公司的“3V”特點②到IDC堅持的“4V”特點③,再到劉念真(2013)給出的“5V”特點④[7],都是對大數(shù)據(jù)特點和定義的延展。
大數(shù)據(jù)的定義之所以言人人殊,主要是由于大數(shù)據(jù)本身所涉及到的內(nèi)容“大”,大家可以從不同的角度理解它。總的來說,大數(shù)據(jù)可以從廣義和狹義兩個層面來理解,狹義的是從數(shù)據(jù)的字面含義來看,是指數(shù)據(jù)所具有的規(guī)模和結構形式;如果從廣義上來看的話,大數(shù)據(jù)除了字面的意義外,更是包含了數(shù)據(jù)處理的技術。
大數(shù)據(jù)的核心是數(shù)據(jù),而數(shù)據(jù)是統(tǒng)計研究的對象,對數(shù)據(jù)進行正確的統(tǒng)計分析是從大數(shù)據(jù)中尋找有價值信息的關鍵。因此,我們可以從統(tǒng)計學科的性質來理解,大數(shù)據(jù)是指那些傳統(tǒng)數(shù)據(jù)處理系統(tǒng)無法承載,并跨越經(jīng)典統(tǒng)計思想研究范圍的復雜數(shù)據(jù)的集合。對于這一數(shù)據(jù)集合,為了達到商業(yè)價值和公共事業(yè)服務性的實現(xiàn),我們可以運用新的統(tǒng)計思想分析管理,在現(xiàn)代計算機技術的媒介支撐下獲取所需的信息和知識。
三、數(shù)據(jù)分析的主要變化
(一)分析思路
傳統(tǒng)的統(tǒng)計分析方法通常是“先假設后關系”,即先假設某種關系的存在,然后設定理論模型,再根據(jù)之前的假設計算變量之間的關系,這種思路一般只適用于處理小數(shù)據(jù)。而大數(shù)據(jù)時代的數(shù)據(jù)量和變量數(shù)目都很龐大,傳統(tǒng)的分析思路有些超脫實際。因此,大數(shù)據(jù)時代的分析常常是直接計算現(xiàn)象之間的相依性。
傳統(tǒng)的統(tǒng)計分析過程是“定性-定量-再定性”,第一個定性是為定量分析找準方向,主要靠經(jīng)驗判斷,一般針對數(shù)據(jù)短缺的情況下比較重要?,F(xiàn)在大數(shù)據(jù)時代,可以直接通過數(shù)據(jù)分析做出判斷,所要做的是直接從“定量的回應”中找出數(shù)量特征和數(shù)量關系,然后得出可以作為判斷或決策依據(jù)的結論。因此大數(shù)據(jù)時代統(tǒng)計分析的過程可以簡化為“定量-定性”[8]。
在實證分析上,傳統(tǒng)思路通常是“假設-驗證”,先根據(jù)最終的研究目的提出假設性意見,然后收集分析數(shù)據(jù),進而驗證假設的成立與否。這種實證分析容易受到數(shù)據(jù)的缺失、假設的局限性以及指標選擇的不當?shù)鹊挠绊?,得不到正確的結論。尤其是在假設本身的非科學性、非客觀性、非合理性的情況下,得出的結論更是毫無用處,甚至歪曲事實本身。在現(xiàn)在的大數(shù)據(jù)時代,可以從中尋找關系、發(fā)現(xiàn)規(guī)律而不受任何假設的限制,然后得出結論,分析的思路可以概括為“發(fā)現(xiàn)-總結”。
(二)研究對象的變化
首先,從數(shù)據(jù)來源上看,由于傳統(tǒng)經(jīng)濟學以及統(tǒng)計學研究中數(shù)據(jù)收集成本條件的限制,人們往往采用抽樣調(diào)查的方式,對抽取的少量樣本進行分析研究,這種方法也一直延續(xù)到現(xiàn)在,可以說是統(tǒng)計學等研究領域的主流調(diào)研方式。樣本抽樣研究對抽取的樣本的質量要求是非常高的,否則會對最終的研究結果產(chǎn)生巨大的影響。傳統(tǒng)的統(tǒng)計抽樣調(diào)查方法有一些不足:抽樣框不穩(wěn)定,隨機取樣困難;事先設定調(diào)查目的會限制調(diào)查的內(nèi)容和范圍;樣本量有限,抽樣結果經(jīng)不起細分;糾偏成本高,可塑性弱。而在大數(shù)據(jù)時代,更多的是將總體直接作為研究對象,摒棄了抽樣樣本的研究,傳統(tǒng)統(tǒng)計抽樣調(diào)查方法的不足可以在大數(shù)據(jù)時代得到改進。
其次,對于數(shù)據(jù)類型而言,傳統(tǒng)數(shù)據(jù)通常是結構型的,即定量數(shù)據(jù)加上少量的定性數(shù)據(jù),格式化,有標準,可通過常規(guī)的統(tǒng)計指標和統(tǒng)計圖來表示。而大數(shù)據(jù)則注重非結構性數(shù)據(jù)或者半結構、異結構數(shù)據(jù),多樣化、無標準,很難通過傳統(tǒng)的統(tǒng)計指標或統(tǒng)計圖表加以表現(xiàn)。
(三)假設檢驗的變化
傳統(tǒng)的統(tǒng)計研究,通常是根據(jù)內(nèi)容提出假設意見,然后根據(jù)最初設定的理論模型來檢驗驗證假設的真實效用性。但對于大數(shù)據(jù)時代而言,信息資源充足,可以采用人工智能對數(shù)據(jù)信息進行挖掘開發(fā),需要驗證的假設比傳統(tǒng)經(jīng)濟學研究多出很多,不在一個數(shù)量級上。傳統(tǒng)的假設驗證分析是無法滿足大數(shù)據(jù)時代的需求的[9]。
(四)分析關系的變化
預先假設事物之間的因果聯(lián)系,再設定理論模型驗證預先的假設,這是傳統(tǒng)統(tǒng)計分析工作的一般工作模式。在大數(shù)據(jù)時代,由于數(shù)據(jù)規(guī)模的龐大,數(shù)據(jù)結構的復雜多樣等,使預設的因果關系會相對復雜很多,給分析工作帶來很大的不便。預示,大數(shù)據(jù)時代的數(shù)據(jù)分析便側重于關注事物之間的相關聯(lián)性,而非因果關系。
在小數(shù)據(jù)時代,計算機存儲和計算能力不足,導致大部分相關分析限于線性關系。大數(shù)據(jù)時代,現(xiàn)象的關系相對更復雜,不僅可能是線性關系,更有可能是非線性關系。這種非線性關系除了可能是非線性的函數(shù)關系外,更一般的情況不清楚關系的具體形式,只知道現(xiàn)象之間的相依的程度。由于在大數(shù)據(jù)時代數(shù)據(jù)結構和數(shù)據(jù)關系錯綜復雜,很難在變量間確定的函數(shù)形式并在此基礎上探討因果關系,因此大數(shù)據(jù)時代一般不做原因分析。
(五)建模思想的變化
傳統(tǒng)的統(tǒng)計往往采用模型來進行研究,但是模型不是萬能的,各個模型并不是完全一樣,而是各有所長,同樣也有其自身的局限性。因此傳統(tǒng)的統(tǒng)計研究所得出的結論只能表示所用模型的結論,卻不具有普適性。如果用另一個模型,結論可能就會大相徑庭,研究結論是脆弱的。除此之外,在研究同一問題時,即使開始設定的理論模型是一樣的,但不同的研究者在研究時所選擇的變量、方法等方面的不同,也會導致研究結論的不同。
在借助分布式處理、人工智能和云計算等現(xiàn)代信息技術的大數(shù)據(jù)時代背景下,可以采用數(shù)以千計的模型來進行研究。在2009年美國甲型H1N1流感爆發(fā)之際,谷歌公司對其進行了大膽的預測,將上千萬條美國人的高頻檢索詞和疾控中心在2003~2008年中間的(季節(jié)性)流感時期進行了大量比較,總共處理了將近5億的數(shù)字模型,其結果與官方數(shù)據(jù)相關性達到了97%,比官方時間省事半個月左右,為相關部門積極解決問題爭取了彌足珍貴的時間。
四、小結
大數(shù)據(jù)不僅可以理解為數(shù)據(jù)規(guī)模巨大、數(shù)據(jù)結構復雜,還可以理解為處理大規(guī)模復雜數(shù)據(jù)的技術。通過上述數(shù)據(jù)分析的主要變化的剖析,在今后的經(jīng)濟統(tǒng)計研究中需要注意一些問題。對于統(tǒng)計研究過程,傳統(tǒng)的統(tǒng)計研究過程主要包括設定模型、收集數(shù)據(jù)、整理與分析和統(tǒng)計資料的積累、開發(fā)與應用四個基本環(huán)節(jié)。大數(shù)據(jù)時代下僅包括數(shù)據(jù)整理與分析和數(shù)據(jù)的積累、開發(fā)與應用兩個基本環(huán)節(jié)。對于統(tǒng)計研究方法,大數(shù)據(jù)的統(tǒng)計分析是以相關關系為基礎展開的,分析的不僅是線性相關,更多的是非線性相關和不能明確函數(shù)形式的相關。對于統(tǒng)計研究目的,傳統(tǒng)統(tǒng)計研究的目的主要是探尋現(xiàn)象或變量之間相關關系、因果關系以及建立在相關關系或因果關系基礎上的預測分析。大數(shù)據(jù)時代統(tǒng)計研究的目的主要是現(xiàn)象間的相關關系以及建立在相關關系基礎上的預測分析。對于統(tǒng)計研究工作思想,傳統(tǒng)統(tǒng)計研究工作中,通常采用樣本數(shù)據(jù)和相對比較復雜的模型獲取信息,一般是事后檢驗;在大數(shù)據(jù)時代,樣本即總體,可以巧用簡單模型或者不用模型,可以較方便地進行事先預測。
(作者單位:蘭州財經(jīng)大學統(tǒng)計學院)
注釋:
① http://baike.baidu.com/item/大數(shù)據(jù)/1356941
② “3V”特點,即規(guī)模性(Volume)、多樣性(Variety)、實時性(Velocity)
③ “4V”特點,在3V的基礎上增加了價值性(Value)
④ “5V”特點,即規(guī)模性(Volume)、多樣性(Variety)、實時性(Velocity)、真實性(Veracity)和價值性(Value)
參考文獻:
[1] 鄔賀銓.大數(shù)據(jù)時代的機遇與挑戰(zhàn)[J].求是,2013,04:47-49.
[2] 朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014,31(2):10-19.
[3] http:/ /zh.wikipedia.org/wiki/:大數(shù)據(jù).維基百科,2012 -10 -5.6.
[4] Mckinsey Global Institute,Big Data:The next frontier for innovation,Competition and productivity,2011 -5.
[5] http:/ /www.networkworld.com/news/2012/051012 - big-data -259147.html.
[6] http:/ / www.teradatamagazine.com/v11n01/Features/Big-Data/:Merv Adrian.Big Data[N/OL].Teradata Magazine.
[7] http:/ /wenku.baidu.com/view/abfb3a1552d380eb62946d9d.html:劉念真.利用 Oracle 信息模型駕馭大數(shù)據(jù).
[8] 李金昌.大數(shù)據(jù)與統(tǒng)計新思維[J].統(tǒng)計研究,2014,31(1):10-17.
[9] 俞立平.大數(shù)據(jù)與大數(shù)據(jù)經(jīng)濟學[J].中國軟科學,2013(7):177-183.