馬靜汝 年勇
摘 要:2010年,全球數(shù)據(jù)跨入了ZB時(shí)代,全球的數(shù)據(jù)量也越來(lái)越多,海量的數(shù)據(jù)對(duì)我們的生活、工作,甚至社會(huì)發(fā)展、國(guó)家經(jīng)濟(jì)都產(chǎn)生了實(shí)時(shí)的影響,大數(shù)據(jù)時(shí)代已然悄悄來(lái)臨.因?yàn)閿?shù)據(jù)關(guān)系的內(nèi)在的本質(zhì),它決定了統(tǒng)計(jì)學(xué)和大數(shù)據(jù)之間有著密不可分的關(guān)系,大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)產(chǎn)生了挑戰(zhàn)又提供了機(jī)遇.本論文范文過(guò)介紹現(xiàn)代統(tǒng)計(jì)學(xué)體系,根據(jù)統(tǒng)計(jì)方法將統(tǒng)計(jì)學(xué)分為推斷統(tǒng)計(jì)學(xué)和描述統(tǒng)計(jì)學(xué),本文首先分析了大數(shù)據(jù)對(duì)描述統(tǒng)計(jì)學(xué)帶來(lái)的挑戰(zhàn),體現(xiàn)在:給搜集數(shù)據(jù)方法帶來(lái)的挑戰(zhàn)、給數(shù)據(jù)存儲(chǔ)方法帶來(lái)的挑戰(zhàn).再者總結(jié)了給推斷統(tǒng)計(jì)學(xué)帶來(lái)的挑戰(zhàn).大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來(lái)機(jī)遇表現(xiàn)在:統(tǒng)計(jì)學(xué)作用范圍的擴(kuò)大和統(tǒng)計(jì)學(xué)家地位的提升.
關(guān)鍵詞:大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來(lái)的挑戰(zhàn);大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來(lái)的機(jī)遇;大數(shù)據(jù)時(shí)代
當(dāng)我們對(duì)“物聯(lián)網(wǎng)”、“云計(jì)算”等概念的感覺(jué)還依然不知所云的時(shí)候,“大數(shù)據(jù)”的發(fā)展就已經(jīng)一發(fā)不可收拾了.大數(shù)據(jù)這個(gè)概念的提出可以追溯到上個(gè)世紀(jì)80年代.我們被包裹在數(shù)據(jù)的海洋里,生活中幾乎任何事物都與數(shù)據(jù)有關(guān),醫(yī)療、金融、體育,我們每一日都在與數(shù)據(jù)打交道,發(fā)微信、到超市購(gòu)物、打電話、發(fā)微博、上班刷卡、買車票、在論文范文上聊天等等大量的數(shù)據(jù)無(wú)時(shí)無(wú)刻不在對(duì)我們的工作、生活乃至社會(huì)發(fā)展產(chǎn)生重要的影響.
當(dāng)數(shù)據(jù)變成和人力資源、自然資源同樣重要的戰(zhàn)略資源的時(shí)候,便引起了企業(yè)界與科技界的廣泛的關(guān)注.全球數(shù)據(jù)總量在以每?jī)赡攴环乃俣仍鲩L(zhǎng).在移動(dòng)互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、寬帶化、云計(jì)算、物聯(lián)網(wǎng)的催生下,大數(shù)據(jù)時(shí)代已然來(lái)到。
一、統(tǒng)計(jì)學(xué)的分科
社會(huì)科學(xué)和自然科學(xué)的眾多領(lǐng)域都會(huì)應(yīng)用到統(tǒng)計(jì)方法,統(tǒng)計(jì)學(xué)也逐漸發(fā)展成為有了各項(xiàng)分支的統(tǒng)計(jì)學(xué)體系.構(gòu)成統(tǒng)計(jì)方法的兩個(gè)分支,主要可以分為推斷統(tǒng)計(jì)學(xué)和描述統(tǒng)計(jì)學(xué).
描述統(tǒng)計(jì)學(xué)(DescriptiveStatistics)指的是研究怎樣獲取那些反映客觀現(xiàn)象的數(shù)據(jù),并且用圖表的形式進(jìn)行處理加工和展示所收集的數(shù)據(jù),最后通過(guò)分析和綜合概括得出顯示客觀現(xiàn)象的規(guī)律性數(shù)量特征.它的內(nèi)容包括統(tǒng)計(jì)數(shù)據(jù)的收集方法、加工處理方法、顯示方法、分布特征的分析和概括方法等.
推斷統(tǒng)計(jì)學(xué)(InferentialStatistics)指的是研究怎樣依據(jù)樣本數(shù)據(jù)對(duì)總體數(shù)量特征進(jìn)行推斷的方法,它是在描述樣本數(shù)據(jù)的前提下,以概率形式表述統(tǒng)計(jì)對(duì)總體的未知數(shù)量特征進(jìn)行的推斷.
推斷統(tǒng)計(jì)學(xué)和描述統(tǒng)計(jì)學(xué)二者相輔相成,密不可分,描述統(tǒng)計(jì)學(xué)是推斷統(tǒng)計(jì)學(xué)的前提和基礎(chǔ),推斷統(tǒng)計(jì)學(xué)也是描述統(tǒng)計(jì)的進(jìn)步和升華.下文將從描述統(tǒng)計(jì)學(xué)和推斷統(tǒng)計(jì)學(xué)這兩個(gè)分支出發(fā),討論大數(shù)據(jù)對(duì)統(tǒng)計(jì)方法帶來(lái)的挑戰(zhàn)和機(jī)遇.
二、大數(shù)據(jù)對(duì)描述統(tǒng)計(jì)學(xué)帶來(lái)的挑戰(zhàn)
1..對(duì)數(shù)據(jù)搜集方法的挑戰(zhàn)
搜集數(shù)據(jù)可通過(guò)統(tǒng)計(jì)報(bào)表、普查、抽樣調(diào)查、重點(diǎn)調(diào)查、典型調(diào)查等眾多途徑來(lái)獲得資料.搜集數(shù)據(jù)時(shí)要著重注意已獲得資料的可靠性和真實(shí)性.在完善數(shù)據(jù)的各個(gè)階段都會(huì)有誤差存在,統(tǒng)計(jì)數(shù)據(jù)的誤差主要分為代表性誤差和登記性誤差.
登記性誤差指的是調(diào)查過(guò)程中因?yàn)檎{(diào)查或被調(diào)查者的各種人為因素所導(dǎo)致的誤差.而在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)的存儲(chǔ)就跟擺在貨架上的貨物相似,人們能夠直接篩選出自己所需的數(shù)據(jù),搜集這些數(shù)據(jù)單單靠測(cè)量方法就能完成,并不需要調(diào)查對(duì)象的配合.當(dāng)技術(shù)完善,在海量的數(shù)據(jù)傳輸中,人為想要篡改數(shù)據(jù)是非常困難的,所以登記性誤差會(huì)大大降低.
代表性誤差主要是指用樣本數(shù)據(jù)進(jìn)行統(tǒng)計(jì)推斷的過(guò)程中出現(xiàn)的隨機(jī)誤差.這類誤差在傳統(tǒng)的搜集方法中一般是不能消除的.但在大數(shù)據(jù)背景下,一方面,數(shù)據(jù)搜集下的統(tǒng)計(jì)調(diào)查通??梢哉J(rèn)定為普查,而普查的情況下,代表性誤差是可以消除的.另一方面,統(tǒng)計(jì)數(shù)據(jù)反映的是大方向的情況,無(wú)法細(xì)致到每個(gè)個(gè)體的情況,很難取得更有用的信息.但因?yàn)閿?shù)據(jù)時(shí)代的發(fā)展和進(jìn)步,統(tǒng)計(jì)數(shù)據(jù)不光可以反映總體方向的情況,更能細(xì)致到每個(gè)個(gè)體的情況.是技術(shù)進(jìn)步所帶來(lái)數(shù)據(jù)價(jià)值的變化.
2..對(duì)數(shù)據(jù)存儲(chǔ)方法的沖擊
從以前的數(shù)據(jù)存儲(chǔ)方法來(lái)看,數(shù)據(jù)庫(kù)是對(duì)高度結(jié)構(gòu)化數(shù)據(jù)來(lái)進(jìn)行存儲(chǔ)的,一般使用電子表格的形式,這樣方便對(duì)相對(duì)簡(jiǎn)單的問(wèn)題進(jìn)行處理和分析,比較適用于數(shù)據(jù)處理量小的用戶.但是在這個(gè)數(shù)據(jù)飛速增長(zhǎng)的時(shí)代,數(shù)據(jù)量的大量增加,從機(jī)器處理生成的數(shù)據(jù)到電子表格,涉及網(wǎng)頁(yè)博客,PDF,視頻,圖片等等.這些所有的數(shù)據(jù)都是特定領(lǐng)域的數(shù)據(jù)類型,結(jié)構(gòu)相對(duì)比較復(fù)雜.
三、大數(shù)據(jù)對(duì)推斷統(tǒng)計(jì)學(xué)帶來(lái)的挑戰(zhàn)
統(tǒng)計(jì)學(xué)的依據(jù)是樣本統(tǒng)計(jì)(普查除外),樣本從總體中抽取一定的數(shù)量作為總體代表的集合.在一定規(guī)模的樣本數(shù)量下,越小的樣本數(shù)量,其估計(jì)的誤差就會(huì)越大,這是樣本統(tǒng)計(jì)無(wú)法避免的弊端.如果要解決這個(gè)弊端就得把樣本量擴(kuò)大,但擴(kuò)大樣本量的話,時(shí)間、資金等成本就會(huì)增加,所以單純擴(kuò)大樣本量在現(xiàn)實(shí)中是行不通的.
大數(shù)據(jù)時(shí)代產(chǎn)生了海量的即時(shí)的電子化數(shù)據(jù),數(shù)據(jù)呈現(xiàn)“總體即樣本”的特點(diǎn),這一特點(diǎn)剛好能夠解決上面由于樣本數(shù)量小誤差大的弊端.大數(shù)據(jù)的全樣本統(tǒng)計(jì)雖然能夠包含全部的總體,但必須對(duì)數(shù)據(jù)的可靠性、真實(shí)性有所保證.
四、大數(shù)據(jù)給統(tǒng)計(jì)學(xué)帶來(lái)的機(jī)遇
1..擴(kuò)大了統(tǒng)計(jì)應(yīng)用范圍
隨著處理數(shù)據(jù)軟件和網(wǎng)絡(luò)的飛速發(fā)展,很多以前無(wú)法量化的現(xiàn)象和事物在如今這個(gè)時(shí)代可以轉(zhuǎn)化成能夠讓人分析的數(shù)據(jù)了,這種現(xiàn)象意味著這些以前不能用統(tǒng)計(jì)學(xué)來(lái)處理的事情現(xiàn)在可以運(yùn)用統(tǒng)計(jì)學(xué)的方法來(lái)分析了.在大數(shù)據(jù)時(shí)代,大量數(shù)據(jù)從一些特殊的領(lǐng)域提取出來(lái),例如可以從企業(yè)經(jīng)理的說(shuō)說(shuō)心情看出企業(yè)運(yùn)營(yíng)狀況的信息,可以從百度搜索排行榜推測(cè)出最近熱搜的商品和時(shí)事等.只要能夠獲取數(shù)據(jù),就可以運(yùn)用統(tǒng)計(jì)學(xué)方法來(lái)進(jìn)行研究和分析,所以隨著大數(shù)據(jù)的發(fā)展,統(tǒng)計(jì)學(xué)在各個(gè)領(lǐng)域的作用越來(lái)越強(qiáng)。例如近幾年來(lái)我國(guó)各個(gè)地區(qū)頻發(fā)霧霾天氣,掀起了社會(huì)波瀾和造成了巨大的經(jīng)濟(jì)損失.但是如果能制作開(kāi)發(fā)出一個(gè)比較準(zhǔn)確的空氣預(yù)測(cè)系統(tǒng),在霧霾天氣發(fā)生時(shí)候能及時(shí)對(duì)此發(fā)生原因進(jìn)行解釋并做好預(yù)防措施,避免民眾恐慌.雖然目前這只是一個(gè)想法,但或許在不遠(yuǎn)的將來(lái)我們就實(shí)現(xiàn)這種方法.
2..增加了統(tǒng)計(jì)學(xué)畢業(yè)生的就業(yè)機(jī)會(huì)
據(jù)一家國(guó)際咨詢公司,蓋特納咨詢公司預(yù)測(cè)大數(shù)據(jù)將為全球帶來(lái)440萬(wàn)個(gè)IT新崗位和上千萬(wàn)個(gè)非IT崗位.麥肯錫公司預(yù)測(cè)美國(guó)到2018年需要深度數(shù)據(jù)分析人才44萬(wàn)—49萬(wàn),缺口14萬(wàn)—19萬(wàn)人;需要既熟悉本單位需求又了解大數(shù)據(jù)技術(shù)與應(yīng)用的管理者150萬(wàn),這方面的人才缺口更大.這些數(shù)據(jù)足以說(shuō)明,大數(shù)據(jù)時(shí)代下,對(duì)統(tǒng)計(jì)學(xué)的人才供不應(yīng)求,隨著大數(shù)據(jù)的發(fā)展,各行各業(yè)各個(gè)領(lǐng)域?qū)y(tǒng)計(jì)學(xué)畢業(yè)生的人才需求將會(huì)不斷增加,更多的增加了統(tǒng)計(jì)學(xué)畢業(yè)生的就業(yè)機(jī)會(huì).
3..可以提升統(tǒng)計(jì)學(xué)家地位
在大數(shù)據(jù)時(shí)代,數(shù)據(jù)分析家和統(tǒng)計(jì)學(xué)家通過(guò)合理利用數(shù)據(jù)可以在一定程度上起到行業(yè)專家的作用,他們?cè)诟鱾€(gè)領(lǐng)域都會(huì)起到至關(guān)重要的作用,為各個(gè)領(lǐng)域提供有利的信息和建議.因?yàn)閿?shù)據(jù)分析家和統(tǒng)計(jì)學(xué)家們能夠從大數(shù)據(jù)中提取大量的信息并將其轉(zhuǎn)化為實(shí)際價(jià)值,所以數(shù)據(jù)分析師和統(tǒng)計(jì)學(xué)家的作用將會(huì)逐漸受到社會(huì)廣泛的重視,他們的地位自然也會(huì)得到大幅提升.
五、結(jié)束語(yǔ)
綜上所述,大數(shù)據(jù)時(shí)代已然悄悄來(lái)臨.因?yàn)閿?shù)據(jù)關(guān)系的內(nèi)在的本質(zhì),它決定了統(tǒng)計(jì)學(xué)和大數(shù)據(jù)之間有著密不可分的關(guān)系,大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)產(chǎn)生了挑戰(zhàn)又提供了機(jī)遇.以上,就是本文對(duì)大數(shù)據(jù)對(duì)統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇進(jìn)行的研究和分析,希望能夠?qū)y(tǒng)計(jì)學(xué)的發(fā)展起到積極的作用。