李秀麗
摘 要:大數(shù)據(jù)時(shí)代的到來(lái)給我們的社會(huì)和生活帶來(lái)了強(qiáng)烈沖擊,它從方方面面影響著我們的行為特征和思維方式,對(duì)于以數(shù)據(jù)為研究對(duì)象的統(tǒng)計(jì)學(xué)而言,為了適應(yīng)大數(shù)據(jù)時(shí)代的發(fā)展就必須調(diào)整思維,在認(rèn)識(shí)數(shù)據(jù)、收集數(shù)據(jù)和分析數(shù)據(jù)三個(gè)方面作出創(chuàng)新突破,并且從多個(gè)角度對(duì)統(tǒng)計(jì)工作進(jìn)行改進(jìn),以積極應(yīng)對(duì)大數(shù)據(jù)帶來(lái)的變化。本文從大數(shù)據(jù)的認(rèn)識(shí)和統(tǒng)計(jì)思維的變化入手,探究了統(tǒng)計(jì)工作應(yīng)如何應(yīng)對(duì)大數(shù)據(jù)。
關(guān)鍵詞:大數(shù)據(jù) 統(tǒng)計(jì)新思維 國(guó)家戰(zhàn)略
中圖分類(lèi)號(hào):F204 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-0298(2018)02(b)-005-02
大數(shù)據(jù)是互聯(lián)網(wǎng)時(shí)代快速發(fā)展下的階段性成果之一,大到國(guó)家戰(zhàn)略、小到民間商業(yè),尤其是電子商務(wù)等領(lǐng)域早已率先應(yīng)用大數(shù)據(jù)技術(shù)。鑒于此,以數(shù)據(jù)為研究對(duì)象、具有專(zhuān)業(yè)嚴(yán)謹(jǐn)特點(diǎn)的統(tǒng)計(jì)學(xué),應(yīng)該積極面對(duì)大數(shù)據(jù)潮流,促進(jìn)其長(zhǎng)足發(fā)展。
1 正確認(rèn)識(shí)大數(shù)據(jù)
大數(shù)據(jù)是一個(gè)整體概念,它的“大”指的不是數(shù)量大小,而是意味著“整體、全體”。站在統(tǒng)計(jì)學(xué)的角度,大數(shù)據(jù)是以信息為單位,借助現(xiàn)代信息技術(shù)和計(jì)算機(jī)工具,對(duì)所有類(lèi)型的數(shù)據(jù)進(jìn)行記錄和存儲(chǔ)。大數(shù)據(jù)將傳統(tǒng)統(tǒng)計(jì)學(xué)中刻意收集的、有一定限度的、結(jié)構(gòu)化的樣本數(shù)據(jù),擴(kuò)充成任意類(lèi)型、沒(méi)有上限、數(shù)字化數(shù)據(jù)。大數(shù)據(jù)對(duì)傳統(tǒng)統(tǒng)計(jì)學(xué)造成的最大影響就是:以大數(shù)據(jù)的大體量和多樣性覆蓋了樣本數(shù)據(jù)的不可擴(kuò)充性和局限性,從而使得統(tǒng)計(jì)學(xué)所需要的研究數(shù)據(jù)包含了所有信息,相關(guān)的分析研究也更加準(zhǔn)確。從另一個(gè)角度來(lái)說(shuō),統(tǒng)計(jì)學(xué)是研究數(shù)據(jù)的學(xué)科,那么既然作為研究對(duì)象的數(shù)據(jù)發(fā)生了變化,相應(yīng)的統(tǒng)計(jì)思維也要發(fā)生變化,所以就需要適應(yīng)大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)新思維。
2 適應(yīng)大數(shù)據(jù)時(shí)代的統(tǒng)計(jì)新思維
統(tǒng)計(jì)新思維的誕生需要以傳統(tǒng)統(tǒng)計(jì)思維為基礎(chǔ),結(jié)合大數(shù)據(jù)的優(yōu)勢(shì)進(jìn)行合理改變而形成。所謂傳統(tǒng)統(tǒng)計(jì)思維是指通過(guò)數(shù)據(jù)分析來(lái)研究事物的生存、聯(lián)系和發(fā)展規(guī)律,而大數(shù)據(jù)恰恰為數(shù)據(jù)分析的過(guò)程增加了難度,因此,統(tǒng)計(jì)新思維就應(yīng)該從認(rèn)識(shí)數(shù)據(jù)、收集數(shù)據(jù)和分析數(shù)據(jù)三方面作出改變[1],具體變化如下。
2.1 認(rèn)識(shí)數(shù)據(jù)的思維變化
大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù),在數(shù)據(jù)來(lái)源、數(shù)據(jù)類(lèi)型和數(shù)據(jù)量化方式上都有明顯區(qū)別,應(yīng)對(duì)其有正確認(rèn)識(shí):從來(lái)源上來(lái)看,傳統(tǒng)數(shù)據(jù)來(lái)自于身份確定的、目的明確的人或事物,而大數(shù)據(jù)來(lái)自于物聯(lián)網(wǎng)中一切可記錄的信號(hào),因此大數(shù)據(jù)是發(fā)散且難以追蹤的;從類(lèi)型上來(lái)看,傳統(tǒng)數(shù)據(jù)有專(zhuān)門(mén)的格式標(biāo)準(zhǔn),常以統(tǒng)計(jì)指標(biāo)或圖標(biāo)的形式來(lái)體現(xiàn),而大數(shù)據(jù)形式多樣且無(wú)標(biāo)準(zhǔn),也不適用傳統(tǒng)數(shù)據(jù)的表現(xiàn)形式,因此大數(shù)據(jù)是非結(jié)構(gòu)型的;從量化方式上來(lái)看,傳統(tǒng)數(shù)據(jù)依賴(lài)固定的、程序化的方式進(jìn)行量化分析,而大數(shù)據(jù)由于其非結(jié)構(gòu)性導(dǎo)致難以量化?;谝陨险J(rèn)識(shí),新的思維應(yīng)該是從數(shù)據(jù)的定義和分類(lèi)入手來(lái)擴(kuò)大統(tǒng)計(jì)研究的對(duì)象,即擴(kuò)大看待數(shù)據(jù)的角度和眼界。
2.2 收集數(shù)據(jù)的思維變化
傳統(tǒng)思維下的收集數(shù)據(jù)是以目的為導(dǎo)向進(jìn)行針對(duì)性的收集,但大數(shù)據(jù)的到來(lái)使得數(shù)據(jù)來(lái)源和體量無(wú)限擴(kuò)大,因此在收集數(shù)據(jù)前不需要進(jìn)行專(zhuān)門(mén)調(diào)查。但是,由于大數(shù)據(jù)的豐富性和無(wú)限擴(kuò)充性,導(dǎo)致必須考慮如何進(jìn)行數(shù)據(jù)甄別、提煉、利用,以及如何加大數(shù)據(jù)的存儲(chǔ)。因此,新的思維應(yīng)該是把收集數(shù)據(jù)看作一個(gè)識(shí)別、整理、提煉、汲?。▌h除)、分配和存儲(chǔ)數(shù)據(jù)的過(guò)程 [2]。
2.3 分析數(shù)據(jù)的思維變化
傳統(tǒng)思維下的分析數(shù)據(jù)經(jīng)歷三個(gè)階段:首先是依靠經(jīng)驗(yàn)判斷來(lái)找準(zhǔn)定量分析的方向以便作出定性結(jié)論,其次是按照“假設(shè)——驗(yàn)證”的思路進(jìn)行統(tǒng)計(jì)分析,最后是基于概率來(lái)以樣本數(shù)據(jù)的好壞推斷總體特征。然而,大數(shù)據(jù)時(shí)代不存在數(shù)據(jù)短缺和分析運(yùn)算手段有限的情況,因此可以簡(jiǎn)化定量分析過(guò)程;并且,大數(shù)據(jù)的全面性彌補(bǔ)了“假設(shè)——驗(yàn)證”過(guò)程中的漏洞與不合理情況;同時(shí),大數(shù)據(jù)下的樣本即為總體,因此在推斷分析過(guò)程不需要依據(jù)概率。新的思維應(yīng)該結(jié)合大數(shù)據(jù)的特征,從統(tǒng)計(jì)分析過(guò)程、實(shí)證分析思路、推斷分析邏輯、統(tǒng)計(jì)分析評(píng)價(jià)的標(biāo)準(zhǔn)等角度作出相應(yīng)調(diào)整。
3 基于大數(shù)據(jù)與統(tǒng)計(jì)新思維下的變化
根據(jù)上述有關(guān)“統(tǒng)計(jì)新思維”的探討可以看出,基于大數(shù)據(jù)與統(tǒng)計(jì)新思維下的變化主要體現(xiàn)在數(shù)據(jù)認(rèn)識(shí)、數(shù)據(jù)收集和數(shù)據(jù)分析的新思維中,具體來(lái)說(shuō),需要作出以下改變來(lái)應(yīng)對(duì)大數(shù)據(jù)。
3.1 改變對(duì)個(gè)體、總體和樣本的定義方式
傳統(tǒng)思維下的統(tǒng)計(jì)分析是先確定總體范圍再收集個(gè)體數(shù)據(jù),但大數(shù)據(jù)的到來(lái)使得個(gè)體數(shù)據(jù)處于變化狀態(tài),因而無(wú)法事先確定總體。另外,傳統(tǒng)思維下的個(gè)體由于符號(hào)或稱(chēng)謂的重疊異位,導(dǎo)致數(shù)據(jù)識(shí)別過(guò)程難以確定身份,因此必須改變總體與個(gè)體、以及樣本的定義方式,即基于大數(shù)據(jù)的起源無(wú)序性和流動(dòng)變化性,可以把任意時(shí)點(diǎn)的總體當(dāng)作一個(gè)截面樣本[3]。
3.2 改變統(tǒng)計(jì)學(xué)的研究目標(biāo)
統(tǒng)計(jì)學(xué)的研究目標(biāo)是事物的不確定性,通過(guò)量化事物的不確定性來(lái)總結(jié)背后的規(guī)律,要實(shí)現(xiàn)這一目標(biāo)就需要收集數(shù)據(jù),并通過(guò)對(duì)數(shù)據(jù)的抽樣觀察來(lái)推斷總體。但是,大數(shù)據(jù)在保留個(gè)體差異性的前提下,使得個(gè)體無(wú)限趨近于總體,因此樣本的抽取不再具有隨機(jī)性。如此一來(lái),統(tǒng)計(jì)學(xué)的研究目標(biāo)就應(yīng)該是研究大數(shù)據(jù)的不確定性,即研究大數(shù)據(jù)來(lái)源的多樣性與混雜性,以及由于個(gè)體差異性所引起的總體差異性。
3.3 改變數(shù)據(jù)梳理與分類(lèi)方法
傳統(tǒng)思維下的數(shù)據(jù)梳理與分類(lèi)需要預(yù)先設(shè)定方案,并考慮到標(biāo)志、指標(biāo)、分類(lèi)標(biāo)識(shí)、分組規(guī)則等內(nèi)容,對(duì)具有特定目的的收集數(shù)據(jù)進(jìn)行加工。而大數(shù)據(jù)從來(lái)源、內(nèi)容、表現(xiàn)形式上都具有不可預(yù)測(cè)性,因此只能從事后完善的角度進(jìn)行梳理與分類(lèi)??赏ㄟ^(guò)觀察數(shù)據(jù)的分布特征來(lái)選擇差異化的數(shù)據(jù)梳理與分類(lèi)方法,這一過(guò)程可以借助建模來(lái)實(shí)現(xiàn)自動(dòng)化。
3.4 改變對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的認(rèn)識(shí)
結(jié)構(gòu)化數(shù)據(jù)是指?jìng)鹘y(tǒng)思維下不依賴(lài)公共網(wǎng)絡(luò)系統(tǒng),而是通過(guò)專(zhuān)門(mén)的方式進(jìn)行收集的數(shù)據(jù);非結(jié)構(gòu)化數(shù)據(jù)其實(shí)就是大數(shù)據(jù),因?yàn)樗鼇?lái)源復(fù)雜、表現(xiàn)形式多樣、難以用傳統(tǒng)統(tǒng)計(jì)指標(biāo)或圖標(biāo)進(jìn)行量化。一般我們都認(rèn)為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間涇渭分明,但隨著大數(shù)據(jù)時(shí)代的發(fā)展,發(fā)現(xiàn)很多時(shí)候既需要針對(duì)性的收集結(jié)構(gòu)化數(shù)據(jù),又需要從非結(jié)構(gòu)化數(shù)據(jù)中挖掘有價(jià)值信息。因此,必須要改變對(duì)結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的認(rèn)識(shí),將兩者視為相輔相成,并通過(guò)增強(qiáng)對(duì)各類(lèi)型數(shù)據(jù)的描述能力來(lái)實(shí)現(xiàn)兩者之間的轉(zhuǎn)化與對(duì)接。
3.5 改變抽樣調(diào)查的功能
傳統(tǒng)思維下的數(shù)據(jù)收集極其依賴(lài)抽樣調(diào)查,其功能就是通過(guò)樣本來(lái)推斷總體特征。盡管抽樣調(diào)查存在數(shù)據(jù)信息有限、抽樣范圍封閉、前期準(zhǔn)備工作難等問(wèn)題,但大數(shù)據(jù)的到來(lái)可以將樣本數(shù)據(jù)無(wú)限擴(kuò)充到整體,從而有效掩蓋這些問(wèn)題??杉幢闳绱耍紤]到成本、效率、大數(shù)據(jù)覆蓋不全面等因素,在很多時(shí)候仍需要通過(guò)抽樣調(diào)查來(lái)獲取信息并進(jìn)行分析。這樣一來(lái),抽樣調(diào)查的功能就變?yōu)椋鹤鳛榇髷?shù)據(jù)分析的驗(yàn)證依據(jù)并用于對(duì)照,以及快速?gòu)幕祀s的數(shù)據(jù)中進(jìn)行挖掘和探測(cè)分析。
3.6 改變統(tǒng)計(jì)研究方法
傳統(tǒng)的統(tǒng)計(jì)研究方法主要是歸納推斷法,即從樣本數(shù)據(jù)中歸納出樣本特征,再由此推斷總體特征。但大數(shù)據(jù)淡化了樣本數(shù)據(jù)的功能,所以?xún)H靠一般特征的歸納推斷是不夠的,還需要對(duì)其子類(lèi)、個(gè)體,甚至特殊化、異?;男畔⑦M(jìn)行分析研究,從而發(fā)現(xiàn)更深層次的關(guān)聯(lián)并找出更具體的規(guī)律或結(jié)論,這就需要演繹推理法。因此,必須改變單一的統(tǒng)計(jì)研究方法,將歸納推斷法和演繹推理法進(jìn)行有機(jī)結(jié)合,從而了解大數(shù)據(jù)的必然性并掌握其偶然性。
3.7 改變數(shù)據(jù)分析目的
大數(shù)據(jù)的內(nèi)容豐富、覆蓋面廣等特點(diǎn)導(dǎo)致在進(jìn)行數(shù)據(jù)分析時(shí)很容易陷入思維上的誤區(qū),只重視“是什么”,而忽略了“為什么”。但研究數(shù)據(jù)不能只停留在表面,還需要探究事物之間的聯(lián)系,把握數(shù)據(jù)的背景和產(chǎn)生原因。鑒于此,必須要改變數(shù)據(jù)分析目的,以相關(guān)分析為基礎(chǔ)進(jìn)行因果分析,通過(guò)互補(bǔ)并用來(lái)挖掘數(shù)據(jù)的最大價(jià)值。
3.8 改變單一、過(guò)時(shí)的統(tǒng)計(jì)技術(shù)
傳統(tǒng)的統(tǒng)計(jì)技術(shù)在數(shù)據(jù)的收集和分析過(guò)程中發(fā)揮出了既定的價(jià)值,但大數(shù)據(jù)的到來(lái)使得原本的統(tǒng)計(jì)技術(shù)顯得單一和過(guò)時(shí),不能有效解決計(jì)算能力上的不足,因此需要及時(shí)作出改變,最可取的方法是依靠現(xiàn)代信息技術(shù)的協(xié)助,比如:云計(jì)算。云計(jì)算是指將計(jì)算任務(wù)分布在大量計(jì)算機(jī)構(gòu)成的資源池上,使各種應(yīng)用系統(tǒng)能夠根據(jù)需要獲取計(jì)算力、存儲(chǔ)空間和各種軟件服務(wù)。借助云計(jì)算技術(shù)的強(qiáng)大計(jì)算處理能力,可以彌補(bǔ)傳統(tǒng)統(tǒng)計(jì)技術(shù)的缺陷,從而在數(shù)據(jù)分析中體現(xiàn)統(tǒng)計(jì)思想以應(yīng)對(duì)大數(shù)據(jù)。
4 結(jié)語(yǔ)
大數(shù)據(jù)的到來(lái)迫使統(tǒng)計(jì)學(xué)作出相應(yīng)調(diào)整改變,且這種改變是積極正面的、有助于統(tǒng)計(jì)學(xué)發(fā)展的、適應(yīng)社會(huì)變化的。本文通過(guò)對(duì)基于大數(shù)據(jù)與統(tǒng)計(jì)新思維下應(yīng)該作出的變化進(jìn)行詳細(xì)分析,希望能為統(tǒng)計(jì)學(xué)的長(zhǎng)久發(fā)展提供方向。
參考文獻(xiàn)
[1] 柴世琿.試論大數(shù)據(jù)統(tǒng)計(jì)的新思維[J].中國(guó)高新技術(shù)企業(yè), 2015(09).
[2] 劉晨燕.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)新思維[J].知識(shí)經(jīng)濟(jì),2015(07).
[3] 李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014(01).