郭鑫雨
(山西大同大學(xué)數(shù)學(xué)與計算機(jī)科學(xué)學(xué)院,大同 037009)
隨著互聯(lián)網(wǎng)的逐步普及,現(xiàn)在大數(shù)據(jù)成為了焦點話題。最初大數(shù)據(jù)概念源于IT行業(yè)中數(shù)據(jù)庫,通常表示數(shù)據(jù)量很大或數(shù)據(jù)表示形式多樣,這種情形下就需要更強(qiáng)的決策力和數(shù)據(jù)優(yōu)化能力。從數(shù)據(jù)方面看,“大數(shù)據(jù)”是指無法采用傳統(tǒng)工具搜集、處理和分析的信息。具體什么是大數(shù)據(jù),現(xiàn)在還沒有較為權(quán)威的定義,但隨著大數(shù)據(jù)信息的普及應(yīng)用,其必將對社會帶來巨大變革。本文中對統(tǒng)計學(xué)進(jìn)行研究分析,提出如何轉(zhuǎn)變統(tǒng)計思維才能夠更加契合當(dāng)今時代的發(fā)展,增強(qiáng)對數(shù)據(jù)處理能力,使得數(shù)據(jù)統(tǒng)計在當(dāng)前得到更好的應(yīng)用。
大數(shù)據(jù)時代是建立在互聯(lián)網(wǎng)和多種新技術(shù)的廣泛發(fā)展應(yīng)用之上。數(shù)字媒體、網(wǎng)絡(luò)媒體及多種新媒體逐步打破了傳統(tǒng)認(rèn)知范圍,逐漸將認(rèn)知轉(zhuǎn)變成為一種來源日益豐富、分工逐步細(xì)致的社會自主互助的學(xué)習(xí)認(rèn)識過程。
各種新媒體技術(shù)的出現(xiàn)和廣泛應(yīng)用逐漸豐富了網(wǎng)絡(luò)資源,將世界各地的人土風(fēng)情、經(jīng)濟(jì)實時新聞和生活娛樂等帶入人們視線中,每個人都成為了海量信息的制造者和使用者。但是,海量的數(shù)據(jù)信息也增加了數(shù)據(jù)辨識、選擇、采集和利用難度,從而有時會大大影響工作效率。
互聯(lián)網(wǎng)技術(shù),微電子技術(shù)以及qq、微信、微博、公眾賬號等平臺的廣泛應(yīng)用拓寬了獲取知識的手段,并且拉近了世界范圍內(nèi)的各種信息和認(rèn)知者的距離。尤其是現(xiàn)在智能手機(jī)、平板電腦、iPad及各種云存儲空間使認(rèn)知者接觸所學(xué)信息形式更加多樣化,隨時隨地都可進(jìn)行學(xué)習(xí)。大數(shù)據(jù)時代的到來帶來的是認(rèn)知方式的空前多樣化,已經(jīng)從根本上改變了傳統(tǒng)教學(xué)時間及地點的限制。
從對數(shù)據(jù)的收集來看,傳統(tǒng)數(shù)據(jù)的收集目的性較強(qiáng),基本能夠確定所需要的信息和信息的提供者,多數(shù)信息還能支持采集后的核對。但在大數(shù)據(jù)時代,多數(shù)信息都來自互聯(lián)網(wǎng)并且多是匿名信息,信息最初產(chǎn)生就不是為了后期的應(yīng)用采集,所以對數(shù)據(jù)的提供者確認(rèn)較困難,更無從談起信息的核對。
從數(shù)據(jù)類型上來說,傳統(tǒng)數(shù)據(jù)的結(jié)構(gòu)穩(wěn)定性較強(qiáng),通常為一定形式的定量數(shù)據(jù)和定性數(shù)據(jù)構(gòu)成,格式性較強(qiáng),并且傳統(tǒng)數(shù)據(jù)常以統(tǒng)計圖表形式展現(xiàn)出來。大數(shù)據(jù)時代數(shù)據(jù)非結(jié)構(gòu)性、半結(jié)構(gòu)性和異結(jié)構(gòu)性的特點突出,具體表現(xiàn)就是所有的符號或信息都被統(tǒng)計起來,并且展現(xiàn)形式也無固定標(biāo)準(zhǔn)。此外,數(shù)據(jù)之間多無關(guān)聯(lián),所以在包含多樣的大量數(shù)據(jù)時不用對數(shù)據(jù)結(jié)構(gòu)進(jìn)行預(yù)先設(shè)置。
從對數(shù)量量化來看,傳統(tǒng)數(shù)據(jù)的統(tǒng)計分析已經(jīng)形成了較為完備的量化方式,數(shù)量量化過后多可直接分析運用。但大數(shù)據(jù)時代數(shù)據(jù)的非結(jié)構(gòu)性使得數(shù)據(jù)的量化成為了一個全新的課題,通過量化非結(jié)構(gòu)性數(shù)據(jù)得到正確結(jié)論十分困難。大數(shù)據(jù)時代信息的統(tǒng)計時也發(fā)生了改變,數(shù)據(jù)量化呈現(xiàn)的形式不再固定,所以,當(dāng)前非結(jié)構(gòu)化數(shù)據(jù)不再適用傳統(tǒng)數(shù)據(jù)的量化方式。
數(shù)據(jù)分析的前提是數(shù)據(jù)收集,傳統(tǒng)數(shù)據(jù)統(tǒng)計中的數(shù)據(jù)收集首先要確認(rèn)數(shù)據(jù)分析目標(biāo),并對數(shù)據(jù)收集的方案精細(xì)化設(shè)計,此過程通常占用較多精力。大數(shù)據(jù)時代,可選取的數(shù)據(jù)量大大提升,數(shù)據(jù)分析中工作的重要部分變?yōu)檫x擇和分析比較,而數(shù)據(jù)收集過程的重點也轉(zhuǎn)變?yōu)槿绾卫煤A繑?shù)據(jù),而沒有必要對大數(shù)據(jù)中的部分?jǐn)?shù)據(jù)進(jìn)行專門的收集分析調(diào)查。
但是,由于海量數(shù)據(jù)的來源多樣化且種類結(jié)構(gòu)不固定,數(shù)據(jù)量的增長速度同樣十分迅速,因此數(shù)據(jù)的統(tǒng)計分析中除了有大數(shù)據(jù)帶來的數(shù)據(jù)豐富的優(yōu)點外,還要面對這樣的難題:存儲內(nèi)存不足、對海量數(shù)據(jù)分析能力差、數(shù)據(jù)真?zhèn)坞y以鑒別及數(shù)據(jù)的關(guān)聯(lián)物選擇不夠好等。
當(dāng)前數(shù)據(jù)存儲中采用TB級別的數(shù)據(jù)庫已屢見不鮮,PB級別的數(shù)據(jù)量也逐步流行起來,可預(yù)見以后可能會收集存儲EB、ZB和YB級的數(shù)據(jù)量。因此,對于當(dāng)前設(shè)備存儲能力的提升已需要提上日程。設(shè)備存儲能力不足可能會影響系統(tǒng)對大數(shù)據(jù)的應(yīng)用,另外,還可能會因數(shù)據(jù)庫的更新造成一定的數(shù)據(jù)丟失問題。因為數(shù)據(jù)量如果較大,當(dāng)數(shù)據(jù)庫存儲達(dá)到一定數(shù)量級別后進(jìn)行存儲量的擴(kuò)充或拷貝都會成為非常嚴(yán)重的問題,代價十分慘重。所以,在一定狀況下需要對數(shù)據(jù)進(jìn)行篩選和分類,實時有目的的刪除或備份一些數(shù)據(jù)。傳統(tǒng)上針對性的收集數(shù)據(jù)到當(dāng)前大數(shù)據(jù)時代下有目的的刪除部分?jǐn)?shù)據(jù)都是實現(xiàn)數(shù)據(jù)收集。大數(shù)據(jù)時代的數(shù)據(jù)手機(jī)已經(jīng)改變?yōu)閺暮A繑?shù)據(jù)中過濾和篩選,所以勢必會放棄部分不重要數(shù)據(jù)。
傳統(tǒng)上的數(shù)據(jù)分析是從對數(shù)據(jù)的定性分析開始,然后對數(shù)據(jù)進(jìn)行定量分析,最后再回歸到對數(shù)據(jù)的定性分析。開始對數(shù)據(jù)的定性分析是為實現(xiàn)找到主要數(shù)據(jù),所以此時數(shù)據(jù)分析者的實際經(jīng)驗和個人能量成為數(shù)據(jù)分析的主要因素。因為在數(shù)據(jù)量小或數(shù)據(jù)部分缺失情形下,高質(zhì)量的定性分析往往能夠決定最終統(tǒng)計分析的好壞。而當(dāng)前大數(shù)據(jù)時代可以依據(jù)海量的數(shù)據(jù)來做決策,當(dāng)下最新的計算機(jī)技術(shù)、分析技術(shù)以及設(shè)備的存儲能量都得到了較大提升,所以定量分析勢必會走向簡單化。而統(tǒng)計分析工作的重點就是要在定量的回應(yīng)中深層次挖掘分析初一些數(shù)量關(guān)系或數(shù)量特征,從而實現(xiàn)為后續(xù)科學(xué)的決策提供理論支持。綜上,大數(shù)據(jù)時代的統(tǒng)計分析往往只經(jīng)過定量到定性的過程,且其得出的結(jié)論更具加科學(xué)合理,具有更高的準(zhǔn)確性。
傳統(tǒng)上的數(shù)據(jù)統(tǒng)計工作是因為數(shù)據(jù)結(jié)構(gòu)的穩(wěn)定性、數(shù)據(jù)量小而得到準(zhǔn)確的數(shù)據(jù)結(jié)果,多數(shù)情形中都避免了不確定性的出現(xiàn)。而在當(dāng)前的大數(shù)據(jù)時代,海量的數(shù)據(jù)且形式的多樣性直接造成了數(shù)據(jù)分析的不確定性,且不確定性主要來自數(shù)據(jù)的多樣性以及數(shù)據(jù)中個體差異,所以數(shù)據(jù)分析中對數(shù)據(jù)的精確性可以不作過多要求。
大數(shù)據(jù)存在的最大的特點就是其種類多且互相交錯,另外大數(shù)據(jù)還是先有數(shù)據(jù)再有整體分布。傳統(tǒng)對數(shù)據(jù)進(jìn)行處理的方法大都是采用預(yù)定的方案,該方案中所用到的分類標(biāo)記和分組方法也都是固定不變的,另外其處理的數(shù)據(jù)也需要是一些獲取的確定數(shù)據(jù)。因此這種方法對目前的大數(shù)據(jù)而言并不是一種有效的處理方法。具體表現(xiàn)在:大數(shù)據(jù)由于其涉獵較廣而雜,隨著信息化社會發(fā)展,會不斷涌現(xiàn)新的信息,信息的表現(xiàn)方式也會不斷變化。數(shù)據(jù)的分類標(biāo)志很難固定,不同類之間的界限也逐漸減弱。如果依然采用固定的分類標(biāo)志,那么隨著數(shù)據(jù)的更新,會增加后續(xù)工作量,如果數(shù)據(jù)量較大,那么對數(shù)據(jù)有效的梳理和分類就很難實現(xiàn)?;谝陨蠁栴}并結(jié)合大數(shù)據(jù)特點,開發(fā)出一種新的大數(shù)據(jù)梳理與分類方法是非常有必要的,只有對收集到的數(shù)據(jù)進(jìn)行合理的分類和處理才能對數(shù)據(jù)進(jìn)行更好的分析。這里指的考慮的問題是,該過程是否可以通過相關(guān)的大數(shù)據(jù)迭代建模算法進(jìn)行自動的處理,這將是未來的研究方向。
對數(shù)據(jù)進(jìn)行預(yù)處理之后就是對其進(jìn)行分析,從而可以得出一定的結(jié)論并進(jìn)行應(yīng)用。數(shù)據(jù)統(tǒng)計對專業(yè)比較敏感,專業(yè)不同,其所采用的數(shù)學(xué)模型也有很大差別,因此需要針對不同的專業(yè)特點建立最優(yōu)的數(shù)據(jù)分析模式,從多角度、多方位對數(shù)據(jù)作深入的剖析,利用非線性和線性回歸參數(shù)來檢驗與估計實現(xiàn)對數(shù)據(jù)的多層次的精確分析。例如在分析設(shè)備的實際結(jié)構(gòu)與模型結(jié)構(gòu)的相似度時可以采用兩者的歐氏距離大小來衡量,通過數(shù)據(jù)的大小,精確清楚地對產(chǎn)業(yè)化的結(jié)構(gòu)層次作出定量分析。
大數(shù)據(jù)時代是統(tǒng)計學(xué)發(fā)展的契機(jī),可能會削弱傳統(tǒng)數(shù)據(jù)統(tǒng)計功能。所以,本文對統(tǒng)計思維進(jìn)行研究,希望通過大數(shù)據(jù)時代數(shù)據(jù)的新特點幫助統(tǒng)計思維的改進(jìn),使其更加合理和科學(xué)地進(jìn)行數(shù)據(jù)處理,使商業(yè)及學(xué)術(shù)等領(lǐng)域逐步邁入量化進(jìn)程,為經(jīng)濟(jì)發(fā)展等社會各個方面的統(tǒng)計工作帶來創(chuàng)新與機(jī)遇。
[1] 韓莉莉.大數(shù)據(jù)時代下統(tǒng)計思維變革綜述[J].現(xiàn)代商業(yè),2017(05):191-192.