褚慧敏
摘 要:大數(shù)據(jù)對(duì)社會(huì)經(jīng)濟(jì)的各個(gè)方面產(chǎn)生的巨大影響,本文討論了大數(shù)據(jù)下的統(tǒng)計(jì)思維原理:總體代替抽樣可以改善取樣分析的準(zhǔn)確性;用相關(guān)代替因果,在一定程度上對(duì)研究有量變引起質(zhì)變的作用;接受數(shù)據(jù)不準(zhǔn)確和不完美,可以更好地模擬和了解世界?;谶@一原理,討論統(tǒng)計(jì)業(yè)務(wù),如數(shù)據(jù)搜集、數(shù)據(jù)處理和數(shù)據(jù)應(yīng)用所面臨的挑戰(zhàn)。
關(guān)鍵詞:大數(shù)據(jù) 統(tǒng)計(jì)分析 總體 相關(guān) 近似
中圖分類號(hào):G64 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2018)01(a)-0166-03
隨著物聯(lián)網(wǎng)、云計(jì)算、傳感器的快速發(fā)展,大數(shù)據(jù)已經(jīng)引起全球廣泛的關(guān)注[1]。企業(yè)的IT高管們已然開(kāi)始意識(shí)到,如果沒(méi)有強(qiáng)大的分析系統(tǒng),大數(shù)據(jù)幾乎沒(méi)什么價(jià)值。所以,最關(guān)鍵的并非大數(shù)據(jù)本身,而是數(shù)據(jù)價(jià)值的獲取。如果企業(yè)管理者能夠從他們收集的數(shù)據(jù)中得到真實(shí)的信息,他們可以做出更好的決策,并提升企業(yè)乃至整個(gè)行業(yè)中的地位。
小數(shù)據(jù)統(tǒng)計(jì)的最基本的思想就是抽樣方法,利用樣本的信息去估計(jì)總體信息以減少不必要的損失。其中最常見(jiàn)的應(yīng)用就是,在測(cè)量某家廠商生產(chǎn)電視的壽命時(shí),不必每一臺(tái)都去測(cè)量,而是從中取出樣本測(cè)量,再利用樣本和總體的關(guān)系,得到總體的電視壽命的大概分布,再利用抽樣檢測(cè),驗(yàn)證其分布是否合理[2]。
與小數(shù)據(jù)統(tǒng)計(jì)不同,大數(shù)據(jù)統(tǒng)計(jì)不用隨機(jī)抽樣調(diào)查,而采用全員數(shù)據(jù)參與的方法。當(dāng)數(shù)據(jù)積累到一定程度之后,數(shù)據(jù)就會(huì)引發(fā)質(zhì)變。也就是說(shuō),樣本容量越大,收集的信息就越多,
從而估計(jì)的精度就越高,但進(jìn)行觀察所投入的費(fèi)用、人力和處理時(shí)間就越長(zhǎng)。抽樣方法,雖然節(jié)省了進(jìn)行觀察所投入的費(fèi)用、人力和處理時(shí)間,但由于收集的信息有限,影響了估計(jì)的準(zhǔn)確性,在小數(shù)據(jù)時(shí)代,這是個(gè)統(tǒng)計(jì)兩難問(wèn)題。而今天,在計(jì)算機(jī)處理能力日益增長(zhǎng),特別是互聯(lián)網(wǎng)(包括移動(dòng)互聯(lián)網(wǎng))的發(fā)展、傳感技術(shù)的廣泛應(yīng)用,使得統(tǒng)計(jì)所需要的樣本的獲取變得輕而易舉,或者說(shuō)大數(shù)據(jù)時(shí)代給統(tǒng)計(jì)科學(xué)帶來(lái)了新的生機(jī)。大數(shù)據(jù)價(jià)值獲取主要體現(xiàn)在以下幾個(gè)方面[2]。
(1)可視化分析。
數(shù)據(jù)可視化分析能夠客觀地、直觀地認(rèn)知數(shù)據(jù),其基本原理是借助于圖形化技術(shù),直觀地傳達(dá)數(shù)據(jù)潛在的特征,從而實(shí)現(xiàn)對(duì)于相當(dāng)稀疏而又復(fù)雜的數(shù)據(jù)集的深入洞察。讓數(shù)據(jù)分析人員更深入地觀察和分析,實(shí)現(xiàn)更好的用戶體驗(yàn)。
(2)數(shù)據(jù)價(jià)值挖掘。
數(shù)據(jù)價(jià)值挖掘指從大量有噪聲的、不完全的、隨機(jī)的、模糊的數(shù)據(jù)中,提取隱藏在數(shù)據(jù)中的、有用的信息和知識(shí)的過(guò)程。挖掘的結(jié)果是數(shù)據(jù)分析報(bào)告的素材,挖掘的越深,數(shù)據(jù)故事講得就越精彩。數(shù)據(jù)價(jià)值挖掘是數(shù)據(jù)分析的基本任務(wù)。
(3)預(yù)測(cè)。
大數(shù)據(jù)分析最要的目標(biāo)之一就是預(yù)測(cè)分析,其基本思想是根據(jù)客觀事物的已知信息,推測(cè)和評(píng)估估計(jì)事物在將來(lái)的某些特征和發(fā)展?fàn)顟B(tài),從而減少對(duì)事物認(rèn)知的不確定性,減少?zèng)Q策的盲目性。
要實(shí)現(xiàn)大數(shù)據(jù)分析這些技術(shù),必須要樹(shù)立大數(shù)據(jù)時(shí)代的數(shù)據(jù)統(tǒng)計(jì)理念。
1 大數(shù)據(jù)時(shí)代的數(shù)據(jù)統(tǒng)計(jì)理念
1.1 總體取代抽樣
在小數(shù)據(jù)時(shí)代,統(tǒng)計(jì)分析往往用盡可能少的樣本來(lái)證實(shí)總體的假設(shè),所以,一般采用隨機(jī)抽樣,隨機(jī)抽樣方法存在以下缺陷。
(1)隨機(jī)性不容易保證;
(2)泛化能力差;
(3)忽略了細(xì)節(jié);
(4)對(duì)奇異值敏感。
隨著計(jì)算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、通信技術(shù)的發(fā)展,能很容易獲取來(lái)自傳感器、網(wǎng)站、視頻等數(shù)據(jù),計(jì)算機(jī)的處理能力越來(lái)越大。所以,在大數(shù)據(jù)時(shí)代,統(tǒng)計(jì)分析不是依靠少量的樣本抽樣數(shù)據(jù),而是依靠總體數(shù)據(jù)。如Google的流感趨勢(shì)預(yù)測(cè)是在分析了幾十億條互聯(lián)網(wǎng)社交數(shù)據(jù)而得出的結(jié)論??傮w取代抽樣能夠提高微觀層面分析的準(zhǔn)確性。
“樣本=總體”是大數(shù)據(jù)時(shí)代數(shù)據(jù)統(tǒng)計(jì)的準(zhǔn)則,這種巨大的調(diào)整,意味著統(tǒng)計(jì)重心需要轉(zhuǎn)移。
如果說(shuō)小數(shù)據(jù)時(shí)代的統(tǒng)計(jì)分析的重心在于如何獲取數(shù)據(jù),那么在大數(shù)據(jù)時(shí)代,則重心在于如何選擇有用數(shù)據(jù)[4]。
數(shù)據(jù)多比數(shù)據(jù)少要好,更多數(shù)據(jù)比算法系統(tǒng)更優(yōu)化還要重要。
1.2 相關(guān)關(guān)系取代因果關(guān)系
相關(guān)關(guān)系應(yīng)該說(shuō)是統(tǒng)計(jì)科學(xué)發(fā)展的基礎(chǔ),雖然有大量的理論是以邏輯推導(dǎo)得來(lái)的,但還是有相當(dāng)一部分是先發(fā)現(xiàn)相關(guān)關(guān)系,再研究因果關(guān)系。
針對(duì)傳統(tǒng)統(tǒng)計(jì)分析中的因果關(guān)系難以確定的缺陷,在大數(shù)據(jù)時(shí)代,更注重相關(guān)關(guān)系的發(fā)現(xiàn)。相關(guān)關(guān)系指我們?cè)谟^察研究對(duì)象X,Y時(shí),如果發(fā)現(xiàn),X的變化總是與Y的變化同步,那我們就說(shuō)X和Y是相關(guān)的。事實(shí)上,我們可以確定的所有關(guān)系都是相關(guān)關(guān)系,但我們無(wú)法得出因果性結(jié)論,相關(guān)關(guān)系應(yīng)該只與變量之間連動(dòng)性的緊密程度有關(guān),而不應(yīng)受變量間形式的影響。相關(guān)關(guān)系具有“普遍性”,運(yùn)用范圍之廣、重要性之大是我們不能忽略的。傳統(tǒng)的統(tǒng)計(jì)方法已經(jīng)無(wú)法滿足發(fā)現(xiàn)相關(guān)關(guān)系的業(yè)務(wù)需求,面臨巨大挑戰(zhàn)和機(jī)遇。
從理論上講,相關(guān)關(guān)系是發(fā)現(xiàn)因果關(guān)系的基礎(chǔ),快速排除不必要的行為。特別在研究復(fù)雜系統(tǒng)時(shí),采用相關(guān)關(guān)系分?jǐn)?shù)線因果關(guān)系具有更高的效率。相關(guān)關(guān)系的研究是一種提高研究效率的方法,在一定程度上對(duì)研究有量變引起質(zhì)變的又積極作用。
文獻(xiàn)[5]指出:“我們沒(méi)有必要非得知道現(xiàn)象背后的原因,而是要讓數(shù)據(jù)自己發(fā)聲,相關(guān)關(guān)系能夠幫助我們更好地了解這個(gè)世界?!苯⒃谙嚓P(guān)關(guān)系分析法上面的預(yù)測(cè)是大數(shù)據(jù)的核心。通過(guò)找到“關(guān)聯(lián)物”并監(jiān)控它,我們就能夠預(yù)測(cè)未來(lái)。
1.3 近似取代精確
精確的、規(guī)范化的、可以被傳統(tǒng)數(shù)據(jù)庫(kù)處理的數(shù)據(jù)只占全部數(shù)據(jù)的5%,必須接受不精確性才能處理另外的95%[6]。
在大數(shù)據(jù)時(shí)代,近似性不是竭力避免,而是一種標(biāo)準(zhǔn)途徑[7]。在小數(shù)據(jù)時(shí)代,數(shù)據(jù)分析的目的就是防止發(fā)生錯(cuò)誤,所以,在收集樣本時(shí),數(shù)據(jù)分析師會(huì)用明智的策略來(lái)減少錯(cuò)誤數(shù)據(jù),但實(shí)施規(guī)避錯(cuò)誤發(fā)生的策略非常耗費(fèi)。尤其是當(dāng)我們收集的數(shù)據(jù)大到一定規(guī)模時(shí),規(guī)避錯(cuò)誤發(fā)生的策略就行不通了,不僅是因?yàn)樘幚沓杀炯哟螅€因?yàn)樵诤A繑?shù)據(jù)上保持?jǐn)?shù)據(jù)的一致性不太現(xiàn)實(shí)。
大數(shù)據(jù)時(shí)代要求我們重新看待數(shù)據(jù)精確性的內(nèi)涵。如果將小數(shù)據(jù)時(shí)代的思維模式運(yùn)用于大數(shù)據(jù)上,就會(huì)錯(cuò)過(guò)許多挖掘有價(jià)值數(shù)據(jù)的機(jī)會(huì)。
執(zhí)迷于數(shù)據(jù)精確性是“小數(shù)據(jù)時(shí)代”的產(chǎn)物,因?yàn)樵凇靶?shù)據(jù)時(shí)代”,任何一個(gè)數(shù)據(jù)都對(duì)結(jié)果有影響,所以,只有保證數(shù)據(jù)的精確性,才不會(huì)導(dǎo)致分析結(jié)果出偏差。
如今,我們掌握的數(shù)據(jù)庫(kù)越來(lái)越全面,不需要再擔(dān)心某個(gè)數(shù)據(jù)對(duì)總體分析的產(chǎn)生的不利影響。我們要做的就是要接受這些不精確的數(shù)據(jù),并從中受益,而不是以高昂的代價(jià)消除數(shù)據(jù)的不精確性。
大數(shù)據(jù)讓我們接受數(shù)據(jù)的不精確和不完美,除了一開(kāi)始會(huì)與我們的直覺(jué)相矛盾之外,隨著數(shù)據(jù)的增多,“近似”反而能夠更好地地理解世界。
2 統(tǒng)計(jì)業(yè)務(wù)的變革
一個(gè)新生事物的出現(xiàn)將必定導(dǎo)致傳統(tǒng)觀念和技術(shù)的革命。小數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)最得意的回歸預(yù)測(cè)方法面臨考驗(yàn)[8]。
大數(shù)據(jù)時(shí)代的數(shù)據(jù)統(tǒng)計(jì)的“總體、相關(guān)關(guān)系、近似”特征,增強(qiáng)了統(tǒng)計(jì)學(xué)的生命力,意味著統(tǒng)計(jì)業(yè)務(wù)將發(fā)生如下變革。
2.1 數(shù)據(jù)搜集
數(shù)據(jù)的搜集和存儲(chǔ)是大數(shù)據(jù)分析和數(shù)據(jù)利用的前提。如果沒(méi)有大量的數(shù)據(jù),再?gòu)?qiáng)大的分析能力也是“巧婦難為無(wú)米之炊”。在搜集和存儲(chǔ)數(shù)據(jù)方面,要有長(zhǎng)遠(yuǎn)的眼光,會(huì)分析的數(shù)據(jù)要搜集,不會(huì)分析的數(shù)據(jù)也要搜集。等到新的數(shù)據(jù)分析方式出來(lái)之后再開(kāi)始搜集數(shù)據(jù)就已悔之晚矣。
隨著傳感技術(shù)的發(fā)展,收集數(shù)據(jù)變得十分簡(jiǎn)單而且成本超便宜。即使你僅僅在討論區(qū)留言、Twitter 或 FB 發(fā)表一段文字,它都會(huì)變成新的信息,成為大數(shù)據(jù)的一部份??梢哉f(shuō)你的生活離不開(kāi)這片無(wú)限巨網(wǎng),即使你不上網(wǎng),手上的付款裝置同樣有機(jī)會(huì)出賣(mài)你,讓你成為大數(shù)據(jù)提供者之一,所以,傳統(tǒng)的統(tǒng)計(jì)抽樣調(diào)查不再適用。
2.2 數(shù)據(jù)處理
提高對(duì)數(shù)據(jù)的分析能力是大數(shù)據(jù)價(jià)值體現(xiàn)的核心。再利用傳統(tǒng)的統(tǒng)計(jì)方法無(wú)法得到我們期望的結(jié)果,這就需要我們對(duì)統(tǒng)計(jì)方法進(jìn)行創(chuàng)新與發(fā)展。大數(shù)據(jù)統(tǒng)計(jì)分析是以相關(guān)關(guān)系為基礎(chǔ)展開(kāi)的,它不同于傳統(tǒng)的因果關(guān)系分析,因果關(guān)系分析基本是線性相關(guān)分析,而相關(guān)關(guān)系分析的不僅是線性相關(guān),更多的是非線性相關(guān)以及不明確函數(shù)形式的線性關(guān)系。
2.3 數(shù)據(jù)使用
讓數(shù)據(jù)說(shuō)話,用數(shù)據(jù)提高數(shù)據(jù)的決策效率和決策質(zhì)量是大數(shù)據(jù)分析的最終目標(biāo)。用戶一般情況下是不知道自己需要什么,但大數(shù)據(jù)知道。通過(guò)價(jià)值挖掘,數(shù)據(jù)會(huì)告訴管理者,用戶需要解決的問(wèn)題是什么。讓數(shù)據(jù)說(shuō)話就是寫(xiě)出有分量、有價(jià)值、能輔助決策的數(shù)據(jù)分析報(bào)告,這樣的報(bào)告不是用數(shù)據(jù)證明你的結(jié)論,而是如何講清楚數(shù)據(jù)的故事。一般需要特別關(guān)注:(1)業(yè)務(wù)的改變,(2)異常數(shù)據(jù)。
3 結(jié)語(yǔ)
大數(shù)據(jù)不是基于人工設(shè)計(jì)的數(shù)據(jù),也不是借助傳統(tǒng)方法獲得的數(shù)據(jù),而是基于現(xiàn)代信息技術(shù)自動(dòng)記錄、儲(chǔ)存和擴(kuò)充的數(shù)據(jù)。通過(guò)對(duì)大數(shù)據(jù)特性分析找出大數(shù)據(jù)與統(tǒng)計(jì)學(xué)的聯(lián)系,進(jìn)一步了解在大數(shù)據(jù)時(shí)代下,統(tǒng)計(jì)學(xué)所處的地位以及大數(shù)據(jù)時(shí)代下統(tǒng)計(jì)學(xué)的變化和發(fā)展。
參考文獻(xiàn)
[1] 大數(shù)據(jù)時(shí)代到來(lái)百度大規(guī)模機(jī)器學(xué)習(xí)算法受追捧.2014-03-21第48期百度技術(shù)沙龍,http://tech.huanqiu.com/Enterprise/ 2014-03/4921523.html.
[2] 呂浩.數(shù)據(jù)統(tǒng)計(jì)與分析 http://wenku.baidu.com/link?url=cBurGBToX1gf5RKE0Ws38oaVQu8BD8Jk8ErqhQ3yrR1TV P6ERuh 4KJ1V2RaHUmhbESdYpyigCqzjNk64XvgevIf1uLzUcz-FCK7LYATn_m
[3] 李國(guó)杰.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2013(6).
[4] 邱東.大數(shù)據(jù)時(shí)代對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J]。統(tǒng)計(jì)研究,2014,31(1):16-24.
[5] 維克托·邁爾·舍恩伯格,肯尼思·庫(kù)克耶.大數(shù)據(jù)時(shí)代——生活、工作與思維的大變革[M].杭州:浙江人民出版社,2013(中文版).
[6] B. Zhu, L. Xu, D. Faries et al.. PMH83 Comparison of Total Health Care Costs Between Remitters and Non-Remitters for Schizophrenia Patients from a Prospective Longitudinal, Observational Study in the Presence of Missing Data[J]. Value in Health, 2012, 15(4):408-413.
[7] 朱建平.大數(shù)據(jù)時(shí)代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計(jì)研究,2014,31(2):10-19.
[8] Hang Yang, Simon Fong, Guangmin Sun et al.. A Very Fast Decision Tree Algorithm for Real-Time Data Mining of Imperfect Data Streams in a Distributed Wireless Sensor Network[J]. International Journal of Distributed Sensor Networks,2012,24(2):125-131.