王 燕,李 彥
(1.信陽職業(yè)技術(shù)學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,河南 信陽 464000;2.新鄉(xiāng)學(xué)院教務(wù)處,河南新鄉(xiāng)453000)
改革實(shí)踐
大數(shù)據(jù)時代下的統(tǒng)計(jì)學(xué)重構(gòu)研究
王燕1,李彥2
(1.信陽職業(yè)技術(shù)學(xué)院數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,河南 信陽 464000;2.新鄉(xiāng)學(xué)院教務(wù)處,河南新鄉(xiāng)453000)
當(dāng)前很多科學(xué)領(lǐng)域中都產(chǎn)生了復(fù)雜的數(shù)據(jù),例如天文學(xué)、基因?qū)W、宇宙學(xué)等,這些復(fù)雜超高維數(shù)據(jù)在快速增長,面對這種大數(shù)據(jù)帶來的挑戰(zhàn),各學(xué)科領(lǐng)域中的科學(xué)家們急需提升自身快速獲取信息的能力。通過對當(dāng)今大數(shù)據(jù)統(tǒng)計(jì)學(xué)理論研究中的相關(guān)問題進(jìn)行分析,提出了大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)研究的框架。
大數(shù)據(jù)時代;統(tǒng)計(jì)學(xué);重構(gòu)
隨著當(dāng)前科學(xué)技術(shù)的快速發(fā)展,大數(shù)據(jù)時代開始到來,人們將大數(shù)據(jù)比作“未來的新興石油”[1],可見其必將對未來的科技及經(jīng)濟(jì)發(fā)展帶來深遠(yuǎn)的影響。正因?yàn)榇髷?shù)據(jù)影響著人類的決策模式,關(guān)系到社會經(jīng)濟(jì)是否可以得到正常運(yùn)行,因此在不久的將來,大數(shù)據(jù)必然會發(fā)展成為具有潛力的新興產(chǎn)業(yè)。
1.1科研前沿領(lǐng)域的統(tǒng)計(jì)學(xué)理論
隨著當(dāng)前科學(xué)技術(shù)的快速發(fā)展,很多學(xué)科研究領(lǐng)域中都產(chǎn)生了海量的大數(shù)據(jù),面對這些快速增長的大數(shù)據(jù)挑戰(zhàn),統(tǒng)計(jì)學(xué)家們急需對信息進(jìn)行有效提取。站在統(tǒng)計(jì)學(xué)科的角度來看,也應(yīng)該加大對大數(shù)據(jù)的研究,并以此為基礎(chǔ)積極開發(fā)和研究數(shù)據(jù)分析工具,進(jìn)而演變成系統(tǒng)大數(shù)據(jù)統(tǒng)計(jì)學(xué)理論[2],進(jìn)而對經(jīng)濟(jì)學(xué)領(lǐng)域中大重大現(xiàn)實(shí)性問題進(jìn)行解決。
1.2科研交叉領(lǐng)域的統(tǒng)計(jì)學(xué)理論
統(tǒng)計(jì)學(xué)背后涉及到了很多數(shù)學(xué)導(dǎo)向領(lǐng)域,然而當(dāng)今統(tǒng)計(jì)學(xué)已經(jīng)不再局限于國家或政府事務(wù)中,已經(jīng)延伸到了自然、社會學(xué)等領(lǐng)域中。由于統(tǒng)計(jì)學(xué)本身具有廣泛應(yīng)用性及深厚歷史性等特點(diǎn),因此,在數(shù)學(xué)領(lǐng)域中統(tǒng)計(jì)學(xué)被認(rèn)為是處理的對象,在數(shù)學(xué)領(lǐng)域中,統(tǒng)計(jì)學(xué)也是與數(shù)學(xué)相關(guān)意義的研究對象。隨著當(dāng)前大量復(fù)雜數(shù)據(jù)的增長,當(dāng)前統(tǒng)計(jì)學(xué)家們紛紛將自己的精力放在跨學(xué)科領(lǐng)域的研究中??v觀統(tǒng)計(jì)學(xué)發(fā)展史,統(tǒng)計(jì)學(xué)家們的機(jī)遇隨著數(shù)據(jù)量的增大不斷增多,與此相關(guān)的統(tǒng)計(jì)學(xué)理論也獲得了極快的發(fā)展,反過來看,也推動著其他學(xué)科的快速發(fā)展。
1.3統(tǒng)計(jì)學(xué)理論的創(chuàng)建意義重大
大數(shù)據(jù)時代下,我們對高維多元復(fù)雜數(shù)據(jù)進(jìn)行分析就可以看出,一套大數(shù)據(jù)統(tǒng)計(jì)學(xué)理論的形成,可以有效促進(jìn)國際前沿研究。與此同時,將新的統(tǒng)計(jì)學(xué)方法應(yīng)用于社會經(jīng)濟(jì)發(fā)展中,也具有十分廣闊的發(fā)展前景。例如將其應(yīng)用于金融風(fēng)險管理領(lǐng)域,基于大數(shù)據(jù)時代展開風(fēng)險值的計(jì)算[3]。實(shí)際上在人們將微博等社交平臺作為發(fā)表議論的工具時,美國華爾街的斂財高手們已經(jīng)在對這些“數(shù)據(jù)財富”進(jìn)行挖掘,并對其市場走勢進(jìn)行判斷,已經(jīng)獲得了巨大的收益,由此可見,統(tǒng)計(jì)學(xué)理論在大數(shù)據(jù)分析中應(yīng)用收益和效果將會更加明顯。
1.4搶戰(zhàn)大數(shù)據(jù)統(tǒng)計(jì)學(xué)的制高點(diǎn)
大數(shù)據(jù)時代下復(fù)雜數(shù)據(jù)正從前沿研究領(lǐng)域中收集數(shù)據(jù),對其中游泳的信息進(jìn)行挖掘,這種情況下大數(shù)據(jù)工程需要和多學(xué)科之間交叉,繼續(xù)發(fā)展出新的方法。前面的研究結(jié)果中可以看出,對統(tǒng)計(jì)學(xué)中復(fù)雜數(shù)據(jù)進(jìn)行整合,可以將優(yōu)勢力量集中到一起,隨著多學(xué)科的交叉,統(tǒng)計(jì)推斷需求將會預(yù)示著實(shí)證研究的條件基本上已經(jīng)成熟。這種情況下,我們必須緊抓機(jī)遇,在最短時間內(nèi)發(fā)展出擁有獨(dú)立知識產(chǎn)權(quán)的數(shù)據(jù)分析理論,推動統(tǒng)計(jì)學(xué)的順利發(fā)展。
2.1大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)基本理論發(fā)展研究
2.1.1總體理論框架的構(gòu)建
在傳統(tǒng)統(tǒng)計(jì)學(xué)的理論發(fā)展過程中,樣本數(shù)據(jù)本身是來自總體的,可以利用現(xiàn)有數(shù)據(jù)對總體進(jìn)行認(rèn)知。大數(shù)據(jù)時代中樣本歸結(jié)于總體,不再是隨機(jī)的樣本,這種情況下我們不再需要假定總體。
2.1.2大數(shù)據(jù)視角的抽樣理論
當(dāng)前的抽樣分析方法中存在很多問題,以前為了避免這些缺陷帶來影響,我們做出了很多嘗試,進(jìn)入大數(shù)據(jù)時代以后,我們不再需要抽樣檢測,因此得到的結(jié)果遠(yuǎn)比以前要精確很多[4]。這種情況下,我們不再需要將那些不相干的數(shù)據(jù)放在一起使用。
2.1.3新的理論與方法
數(shù)理統(tǒng)計(jì)又被稱作統(tǒng)計(jì)理論,是利用概率論對統(tǒng)計(jì)理論進(jìn)行分析和驗(yàn)證的基礎(chǔ)。統(tǒng)計(jì)推斷在數(shù)理統(tǒng)計(jì)中非常重要,在大數(shù)據(jù)時代中不再需要隨意抽樣,總體即樣本。這種情況下我們應(yīng)該充分注意到精確性是當(dāng)前時代缺乏的東西,只有少部分?jǐn)?shù)據(jù)可以在傳統(tǒng)數(shù)據(jù)庫中應(yīng)用,造成了嚴(yán)重的浪費(fèi)。
2.2大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)研究框架構(gòu)建
2.2.1統(tǒng)計(jì)學(xué)理論和方法
傳統(tǒng)統(tǒng)計(jì)學(xué)的焦點(diǎn)在概率分布指數(shù)族方面,這一方向的研究內(nèi)容主要保羅協(xié)變量信息效應(yīng)、圖表指數(shù)族等方面,其中值得一提的是,指數(shù)族中包含了很多已知概率分布,指數(shù)族結(jié)構(gòu)應(yīng)用范圍十分廣泛,因?yàn)橹笖?shù)組處于理論統(tǒng)計(jì)的核心位置上,其重要性也逐漸顯示出來。
2.2.2大數(shù)據(jù)吝嗇建模
隨著大數(shù)據(jù)時代的到來,快速線上算法也逐漸被開發(fā)出來,由于數(shù)據(jù)非常龐大,這項(xiàng)研究必將產(chǎn)生十分深遠(yuǎn)的影響。學(xué)習(xí)效果得到了進(jìn)一步優(yōu)化,在線學(xué)習(xí)可以充分以來任務(wù)的優(yōu)化器,開發(fā)出效率較高的算法,與優(yōu)化器相接近,同時這項(xiàng)技術(shù)也可以在大數(shù)據(jù)中應(yīng)用。
2.2.3巨型分布系統(tǒng)建模
利用前所未有的速度生成海量數(shù)據(jù),進(jìn)而增加至億億兆平臺的速度[5]。當(dāng)內(nèi)存系統(tǒng)中遍布大量數(shù)據(jù)記錄時,小數(shù)目比較也會帶來很高的代價。這方面的工作需要以億億兆系統(tǒng)為基礎(chǔ),利用分布方式結(jié)合大型科學(xué)數(shù)據(jù)集進(jìn)行建模,通過對空間降維技術(shù)的應(yīng)用,利用分布式模式對新算法進(jìn)行設(shè)計(jì),研發(fā)出多種算法。
2.2.4巨大矩陣的統(tǒng)計(jì)模擬與推斷
隨著科學(xué)技術(shù)的快速進(jìn)步和發(fā)展,大數(shù)據(jù)存儲和收集只需要利用較低成本即可,隨著大范圍科學(xué)研究海量數(shù)據(jù)開始產(chǎn)生。一般來說觀測能力要遠(yuǎn)遠(yuǎn)超過信息提取能力的,從這方面來看無疑為這項(xiàng)研究提供了動力。當(dāng)前這方面研究主要集中在了波動率矩陣、協(xié)方差矩陣等矩陣統(tǒng)計(jì)理論的研發(fā)上,該研究對進(jìn)一步理解大數(shù)據(jù)對科學(xué)研究的影響非常有利,可以進(jìn)一步推進(jìn)大矩陣先進(jìn)的統(tǒng)計(jì)理解,促進(jìn)不同學(xué)科數(shù)字化的實(shí)現(xiàn)[6]。
2.2.5大數(shù)據(jù)的應(yīng)用
不同形式的大數(shù)據(jù)在政府統(tǒng)計(jì)中應(yīng)用的重點(diǎn)不同,分析和研究大數(shù)據(jù)統(tǒng)計(jì)工作流程的影響非常關(guān)鍵。從這一點(diǎn)來看各地區(qū)各部門應(yīng)該積極推廣大數(shù)據(jù)的經(jīng)驗(yàn)做法,并在推行過程中探索有效的解決對策,將大數(shù)據(jù)技術(shù)作為核心,積極改進(jìn)當(dāng)前的統(tǒng)計(jì)工作。
[1]金曉彤,王天新,楊瀟.大數(shù)據(jù)時代的聯(lián)動式數(shù)據(jù)庫營銷模式構(gòu)建——基于“一汽大眾”的案例研究[J].中國工業(yè)經(jīng)濟(jì),2013 (6):122-134.
[2]陳建寶,鞠芳煜,禚鑄瑤.大數(shù)據(jù)時代下的統(tǒng)計(jì)學(xué)——第五屆中國統(tǒng)計(jì)學(xué)年會綜述[J].統(tǒng)計(jì)研究,2015(5):106-112.
[3]張楠.公共衍生大數(shù)據(jù)分析與政府決策過程重構(gòu):理論演進(jìn)與研究展望[J].中國行政管理,2015(10):19-24.
[4]吳赟.產(chǎn)業(yè)重構(gòu)時代的出版與閱讀——大數(shù)據(jù)背景下出版業(yè)應(yīng)深度思考的五個關(guān)鍵命題[J].出版廣角,2013(23):32-36.
[5]農(nóng)秋紅.大數(shù)據(jù)時代下高職《統(tǒng)計(jì)學(xué)基礎(chǔ)》教學(xué)優(yōu)化設(shè)計(jì)的探究與實(shí)踐[J].經(jīng)營管理者,2014(15):363.
[6]楊小牛,楊志邦,賴蘭劍.下一代信號情報偵察體系架構(gòu):大數(shù)據(jù)概念的應(yīng)用[J].中國電子科學(xué)研究院學(xué)報,2013(1):1-7.
[責(zé)任編輯:路實(shí)]
StatisticalReconstruction Research in the Era of Big Data
WANGYan1,LIYan2
(1.College of Mathematics and Computer Science of Xinyang Vocational and Technical College,Xinyang Henan 464000,China;2.Academic AffairsOfficeof Xinxiang College,Xinxiang Henan 453000,China)
Currently have a complex data inmany fieldsofscience,such asastronomy,genetics,cosmology,in the face of the rapid growth of super high dimensional complex mass of big data challenge,interdisciplinary scientists need develop the ability of rapid access to information.Through the analysis of the relevant issues in the theoretical research of large data statistics,this paper puts forward the framework ofstatistical research in theeraofbig data.
big dataera;statistics;reconstruction
F222.1
A
1673-5919(2016)03-0048-02
10.13691/j.cnki.cn23-1539/f.2016.03.015
2016-05-06
王燕(1979-),女,河南信陽人,講師,碩士,研究方向:數(shù)學(xué)統(tǒng)計(jì)與計(jì)算機(jī)應(yīng)用。