摘要:海量的數(shù)據(jù)已經(jīng)滲透了每個人的生活,以數(shù)據(jù)為研究對象的統(tǒng)計學(xué)應(yīng)該以科學(xué)的態(tài)度迎接大數(shù)據(jù)浪潮,并積極思考如何把握這重要的發(fā)展機會。本文首先闡明大數(shù)據(jù)與統(tǒng)計學(xué)的密切關(guān)系,再從大數(shù)據(jù)時代下的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)、相關(guān)關(guān)系與因果關(guān)系,這兩個方面思考大數(shù)據(jù)與統(tǒng)計學(xué)的協(xié)同發(fā)展。
關(guān)鍵詞:大數(shù)據(jù)時代;大數(shù)據(jù);統(tǒng)計學(xué);
隨著互聯(lián)網(wǎng)和信息相關(guān)行業(yè)的蓬勃發(fā)展,“大數(shù)據(jù)”已經(jīng)被越來越多地被提及,大數(shù)據(jù)也已被資本瞄準,成為商業(yè)領(lǐng)域中的寵兒。數(shù)據(jù)在迅速膨脹,大數(shù)據(jù)的覆蓋面越來越廣,不論你是否愿意接受,這種趨勢將會持續(xù)下去。以數(shù)據(jù)為研究對象的統(tǒng)計學(xué)在大數(shù)據(jù)時代進入了新的發(fā)展階段,我們應(yīng)思考如何將大數(shù)據(jù)與統(tǒng)計學(xué)相結(jié)合,努力創(chuàng)新、協(xié)同發(fā)展。
一、大數(shù)據(jù)與統(tǒng)計學(xué)
(一)大數(shù)據(jù)與統(tǒng)計學(xué)關(guān)系密切
簡單來說,我們可以分為兩個方面來理解大數(shù)據(jù):若“大數(shù)據(jù)”作為形容詞,則描述的是大數(shù)據(jù)時代數(shù)據(jù)的特點;若“大數(shù)據(jù)”作為名詞,則體現(xiàn)的是數(shù)據(jù)科學(xué)研究的對象。對大數(shù)據(jù)的定義有非常多,不同領(lǐng)域不同專業(yè)對大數(shù)據(jù)的界定都會有些許不同。通俗地說:大數(shù)據(jù)是目前人類所有可抓取、可記錄、可存儲的信號集合。這個包含了一切信號的集合將非常非常之龐大、多樣、繁雜,并且還在不停地、迅速地增加?,F(xiàn)代互聯(lián)網(wǎng)和信息技術(shù)的飛速發(fā)展,使得人類開始有能力收集、儲存、分析、處理這些從前無能為力的數(shù)據(jù),從中挖掘出有用的信息促進社會的發(fā)展。邁爾·舍恩伯格說:大數(shù)據(jù)發(fā)展的核心動力就是人類測量、記錄和分析世界的渴望。而統(tǒng)計學(xué)正好是收集、整理、分析、解釋數(shù)據(jù)并從數(shù)據(jù)中得出結(jié)論的科學(xué)。由此可見大數(shù)據(jù)與統(tǒng)計學(xué)關(guān)系密切,將大數(shù)據(jù)與統(tǒng)計學(xué)結(jié)合發(fā)展?jié)摿o窮。
(二)大數(shù)據(jù)時代下的非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)需整合對接
統(tǒng)計研究可根據(jù)自身的目的收集總體數(shù)據(jù)或樣本數(shù)據(jù),但如果總體太過龐大,以過去的技術(shù)方法來收集總體數(shù)據(jù)成本會很高,受于限制統(tǒng)計研究更多收集得是樣本數(shù)據(jù)。如今,人類已經(jīng)開始能夠在合適的成本下獲得大數(shù)據(jù),大數(shù)據(jù)的廣博給統(tǒng)計研究帶來了新的發(fā)展方向。我們需要著重研究的一個方向就是如何將結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)對接。
大數(shù)據(jù)的核心是數(shù)據(jù),統(tǒng)計學(xué)的研究對象也是數(shù)據(jù),但是它們獲得的數(shù)據(jù)性質(zhì)有所不同:大數(shù)據(jù)收集的多是半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),通俗地理解,先獲得數(shù)據(jù),再整理結(jié)構(gòu)(如聲音、圖片、視頻等信息);傳統(tǒng)統(tǒng)計學(xué)收集則主要是結(jié)構(gòu)化數(shù)據(jù),先定好結(jié)構(gòu),再根據(jù)目標結(jié)構(gòu)收集數(shù)據(jù)(如數(shù)字、符號等信息)。拿非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)來說:大數(shù)據(jù)時代使得我們有更多可以分析利用的數(shù)據(jù),使得統(tǒng)計研究不僅可以在有更多的結(jié)構(gòu)化數(shù)據(jù)的情形下進行;對于一些領(lǐng)域的研究工作還可以設(shè)法將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化的數(shù)據(jù)結(jié)合起來分析。如何實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)與結(jié)構(gòu)化數(shù)據(jù)的結(jié)合?首先,完善非結(jié)構(gòu)化數(shù)據(jù)的整合,然后我們可以用結(jié)構(gòu)化數(shù)據(jù)做數(shù)量說明,非結(jié)構(gòu)化數(shù)據(jù)加強描述;或是提高數(shù)據(jù)處理技術(shù),實現(xiàn)結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)的互相轉(zhuǎn)化,選擇能更好說明問題的數(shù)據(jù)形式作為后續(xù)分析基礎(chǔ)。這都是值得再深入思考研究的新問題,而且這不僅僅是大數(shù)據(jù)和統(tǒng)計研究的事,同時需要計算機技術(shù)的一同創(chuàng)新發(fā)展。統(tǒng)計研究的范圍在大數(shù)據(jù)時代越來越大,能用數(shù)據(jù)說明的問題越來越多。
(三)大數(shù)據(jù)時代下的相關(guān)分析與因果分析發(fā)展并重
《大數(shù)據(jù)時代》一書中表示:大數(shù)據(jù)時代的一個顯著變化是:相關(guān)分析比因果分析更重要。我的看法是:大數(shù)據(jù)時代下,市場確實會對相關(guān)分析有著更強的關(guān)注度,但這并不意味著因果分析的重要性會有褪色。
統(tǒng)計學(xué)中既有相關(guān)分析,也有因果分析,要對它們有合理的了解,首先需要明確的是相關(guān)關(guān)系和因果關(guān)系之間的聯(lián)系,簡單說:有相關(guān)關(guān)系不一定有因果關(guān)系,有因果關(guān)系則一定有相關(guān)關(guān)系。大數(shù)據(jù)時代,相關(guān)關(guān)系變得比以前更加為人所關(guān)注的原因:一方面,在很多領(lǐng)域的應(yīng)用里,相關(guān)分析比因果分析更簡單可行;另一方面,因為相關(guān)關(guān)系足以體現(xiàn)事物之間的一定聯(lián)系,在商業(yè)效益上更為經(jīng)濟有效。因此在商業(yè)利潤的推動下,相關(guān)關(guān)系也會更加受到青睞。但是我們不能就此否定因果關(guān)系的重要性,因果關(guān)系是對數(shù)據(jù)更加深度地分析:相關(guān)關(guān)系讓我們知道了“是什么”,因果關(guān)系是讓我們知道了“為什么”。倘若只是在商業(yè)經(jīng)濟上的利用和成本考慮,“是什么”在很多時候就以足夠;但如果是在科學(xué)研究領(lǐng)域,“知其然而不知其所以然”就遠遠不夠了。結(jié)合現(xiàn)實發(fā)展需要,可在分析確定相關(guān)關(guān)系后,根據(jù)情況研究因果關(guān)系,若能夠得出因果關(guān)系,那肯定是更具價值和意義的。探求“為什么”始終是人類探索世界的動力 ,因果分析是人類永恒的使命。
二、結(jié)語
大數(shù)據(jù)時代的到來幾乎對每個領(lǐng)域都有著不可忽視的影響。大數(shù)據(jù)與統(tǒng)計學(xué)關(guān)系密切,大數(shù)據(jù)的出現(xiàn)對統(tǒng)計學(xué)的意義是非凡的,我們應(yīng)把握住大數(shù)據(jù)時代和統(tǒng)計學(xué)的可結(jié)合點。其一,完善非結(jié)構(gòu)化數(shù)據(jù)的整合,深入研究如何實現(xiàn)非現(xiàn)結(jié)構(gòu)化與結(jié)構(gòu)化數(shù)據(jù)的對接,都需要我們思維上的創(chuàng)新、數(shù)據(jù)處理技術(shù)上的提高。其二,在注重相關(guān)分析的同時,不能丟掉對因果分析的研究,應(yīng)合理并重,實現(xiàn)大數(shù)據(jù)的進一步利用,真正挖掘出數(shù)據(jù)的價值。對于以數(shù)據(jù)為研究對象的統(tǒng)計學(xué)科,大數(shù)據(jù)時代就是統(tǒng)計學(xué)變革創(chuàng)新的時代,統(tǒng)計研究工作人員也應(yīng)把握機會思考創(chuàng)新,為統(tǒng)計學(xué)增添新的生命力。
參考文獻:
[1]朱建平,張悅涵.大數(shù)據(jù)時代對傳統(tǒng)統(tǒng)計學(xué)變革的思考[J].統(tǒng)計研究,2016(02):3-9.
[2]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014(02):10-19.
[3]Viktor Mayer-Sch-nberger,KennethCukier.盛楊燕等譯.大數(shù)據(jù)時代[M].杭州:浙江人民出版社,2013.
作者簡介:
張?zhí)焓妫?992- ),女,漢族,江西信豐人,碩士研究生,研究方向:統(tǒng)計理論與方法、數(shù)據(jù)分析方法與應(yīng)用。