楊程
山西大同大學(xué)(大同 037009)
統(tǒng)計(jì)學(xué)在大數(shù)據(jù)時代下面臨的挑戰(zhàn)
楊程
山西大同大學(xué)(大同 037009)
面對大數(shù)據(jù)科學(xué)潮流,統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)之間又有著怎樣的聯(lián)系呢?本文以科學(xué)探討的態(tài)度,詳細(xì)分析當(dāng)下大數(shù)據(jù)時代統(tǒng)計(jì)學(xué)的發(fā)展情況,面臨著哪些挑戰(zhàn)。面對這些影響,統(tǒng)計(jì)學(xué)又是以怎樣的姿態(tài)面對的。
統(tǒng)計(jì)學(xué);大數(shù)據(jù);挑戰(zhàn)
大數(shù)據(jù)時代對整個社會的推動影響巨大,統(tǒng)計(jì)部門為了跟隨時代的腳步,要求更高的服務(wù)質(zhì)量,深入分析統(tǒng)計(jì)學(xué)在當(dāng)下數(shù)據(jù)背景下的現(xiàn)實(shí)作用。數(shù)據(jù)帶給社會機(jī)遇的同時,又蘊(yùn)藏著怎樣的挑戰(zhàn),我們需要進(jìn)一步研究統(tǒng)計(jì)學(xué)與大數(shù)據(jù)的關(guān)系,在挑戰(zhàn)中促進(jìn)發(fā)展。
社會潮流的推動力,使得全國甚至全世界逐漸走向信息時代,在數(shù)據(jù)大爆炸的當(dāng)下也存在著很多問題與矛盾。而發(fā)展就是在問題中不斷推進(jìn)的,切實(shí)的處理問題才可以促其發(fā)展。所謂“識時務(wù)者為俊杰”,在信息時代各個階段下,需要處理不同的問題以順應(yīng)現(xiàn)代總體的數(shù)據(jù)趨勢。
2009年“大數(shù)據(jù)”這一詞匯開始流行,其實(shí)早在1980年,著名未來學(xué)家A.托夫勒就在《第三次浪潮》中提到了大數(shù)據(jù)。這個時間段是大數(shù)據(jù)的萌芽階段,需要的更多是大數(shù)據(jù)潮流的推動著,打開向整個世界發(fā)展的門路。
面對大數(shù)據(jù)涌現(xiàn)出來的現(xiàn)實(shí),不僅有機(jī)遇也面臨著層層挑戰(zhàn)。社會需要通過科學(xué)的啟蒙和引導(dǎo),同時也不能盲目跟風(fēng),不要只考慮一個方向的偏執(zhí),也不要應(yīng)運(yùn)而生的投機(jī)者。這個時代需要切合實(shí)際的學(xué)術(shù)和數(shù)據(jù)科學(xué)的有效推進(jìn),拓展整個數(shù)據(jù)學(xué)科的發(fā)展,在不斷尋找和發(fā)展中還要保持批判性思維,為了構(gòu)成平衡的發(fā)展結(jié)構(gòu),在矛盾中保持艱巨全面。
在不同的成長時期應(yīng)該著力于不同的發(fā)展重心,在接受大數(shù)據(jù)的同時確保整個信息化發(fā)展的穩(wěn)定性,面對大數(shù)據(jù)帶給這個世界的豐富機(jī)遇,也同時具備隨時可以形成的挑戰(zhàn)。
2.1 互聯(lián)網(wǎng)外的大魚
迅速覆蓋世界的大數(shù)據(jù),通過互聯(lián)網(wǎng)已經(jīng)遍布開來,會有一些沒有被覆蓋到的地方,人們會認(rèn)為那些地方,是落伍的不值得被覆蓋的,跟數(shù)據(jù)發(fā)展的大局無關(guān),因此認(rèn)為在整體數(shù)據(jù)發(fā)展中可以將沒有覆蓋到的放棄。
然而實(shí)踐中的情況又是怎樣的,一些技術(shù)精英可以說最早就使用了互聯(lián)網(wǎng)及手機(jī)信息技術(shù),卻在發(fā)展中為了避免“技術(shù)專政”而躲避數(shù)據(jù)互聯(lián)網(wǎng)的覆蓋。還有一些宗教或是政治相關(guān)人士更傾向于遠(yuǎn)離互聯(lián)網(wǎng)。另有一些為了避稅或是避仇等因素,選擇盡可能的躲避互聯(lián)網(wǎng)的覆蓋。以上所說到的這些部分的群體,確實(shí)是大數(shù)據(jù)難以覆蓋的,但是他們的經(jīng)濟(jì)行為恰恰對分析社會格局而言尤為重要,在推論中不容忽視。
大數(shù)據(jù)得到倡導(dǎo)的首要前提就是民主、開放和理性,然而在不同的國家或地區(qū)其實(shí)現(xiàn)的程度也是大不相同的。其實(shí)人類社會進(jìn)入到大數(shù)據(jù)時代,其發(fā)展并不是同步的,世界會被分割為三種并存時代,即大數(shù)據(jù)時代、小數(shù)據(jù)時代和物數(shù)據(jù)時代。
2.2 數(shù)據(jù)的“海量”是相對的
在數(shù)據(jù)形成中,其覆蓋面積再大或者發(fā)展速度再快,也會存在一些“黑暗地帶”。信號問題一直存在于大數(shù)據(jù)發(fā)展之中,數(shù)據(jù)量變得巨大,但大數(shù)據(jù)的海量之大也是相對而言的。對于地球來說,海是那么的浩瀚之大,但是就宇宙而言就顯得不大了,就地球上的數(shù)據(jù)問題來說,其規(guī)模也沒有不可控的巨大。
經(jīng)過相關(guān)研究資料可以得知,美國上網(wǎng)成年人中百分之十六在使用推特網(wǎng)(Twitter),其中年輕人和城市人的使用率較多,而對于整個社會而言,也不能將其作為一個代表性的樣本。推特網(wǎng)數(shù)據(jù)顯示,人們離家越遠(yuǎn)快樂指數(shù)越高。顯然并不能代表所有人的意愿,或許這一判斷會得到部分人的認(rèn)可,卻不能代表所有人。
相關(guān)報道研究,社會上的全部數(shù)據(jù)有百分之九十都產(chǎn)生于過去兩年,那么也就是說當(dāng)今的大數(shù)據(jù),相對來說就是明天的小數(shù)據(jù)。對于數(shù)據(jù)我們是不能將其窮盡控制的,對于數(shù)據(jù)的掌握非常有限。今天所有數(shù)據(jù)的發(fā)展和覆蓋,在明天或許就會被否定,所以就覆蓋程度一說法是缺乏延展性的。曾有相關(guān)學(xué)者提出,人們會因現(xiàn)有的知識工作所限制,卻不曾想到明天的工具或許比當(dāng)下的要強(qiáng)大數(shù)倍,也就是說今天的數(shù)據(jù)資料不能預(yù)知將來。
3.1 統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)之間的關(guān)系
有部分學(xué)者認(rèn)為統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)之間應(yīng)該達(dá)到統(tǒng)一,其沒有存在差異之處,持“同一論”或“唯一論”。對于學(xué)科關(guān)系的不同認(rèn)識,影響到這一觀點(diǎn)的成立性。大數(shù)據(jù)時代在當(dāng)今社會快速遍布,統(tǒng)計(jì)就可以代表數(shù)據(jù)科學(xué)嗎,體現(xiàn)在現(xiàn)實(shí)中的一切就這么簡單?
經(jīng)過對相關(guān)文獻(xiàn)進(jìn)行進(jìn)一步研究,發(fā)現(xiàn)很多論著在討論數(shù)據(jù)科學(xué)分支時提到了統(tǒng)計(jì)學(xué),大部分學(xué)者都持“之一論”或“屬于論”。這樣的論述否認(rèn)了以上所說的同一論”或“唯一論”,統(tǒng)計(jì)學(xué)與數(shù)據(jù)科學(xué)之間是不等價的,某些相關(guān)學(xué)者將其視為某種交叉的關(guān)系。
將統(tǒng)計(jì)學(xué)認(rèn)為是一門數(shù)據(jù)科學(xué),理解為統(tǒng)計(jì)學(xué)就是數(shù)據(jù)科學(xué)中的一個分支,而其信息量的貢獻(xiàn)有限。統(tǒng)計(jì)是一門數(shù)據(jù)科學(xué)對于大數(shù)據(jù)時代的發(fā)展很重要,而這只能說明統(tǒng)計(jì)學(xué)特別重要,而不能說統(tǒng)計(jì)學(xué)“唯一”重要。
3.2 四類世界與四種科學(xué)
就世界而言可以有各種各樣不同的分類,科學(xué)也一樣體現(xiàn)著不同的視角和觀察格局。
在這里我們提出四類世界下的四種科學(xué),廣義上來說,可以將世界分為四類:應(yīng)對物質(zhì)世界、應(yīng)對精神世界、應(yīng)對賽博世界和應(yīng)對行為世界。其相對應(yīng)的四類科學(xué)分別是:物理科學(xué)、心理科學(xué)、數(shù)理科學(xué)和事理科學(xué)。人類多維思維的科學(xué)成果,使得社會科學(xué)更加豐富,它們之間的關(guān)系不是外在板塊的疊加,四者之間是有機(jī)滲透的交錯關(guān)系?,F(xiàn)實(shí)世界的體現(xiàn)在同一個世界的四個不同維度,想要將其一科學(xué)用好學(xué)好,并不能單一進(jìn)行。
總體而言,世界是多元化的,不是數(shù)據(jù)可以將其一切所代替的,當(dāng)今不能僅僅依賴于數(shù)據(jù)的發(fā)展,在大數(shù)據(jù)時代,還是不能缺少定性和“較質(zhì)”。
4.1 數(shù)據(jù)的識別問題
統(tǒng)計(jì)實(shí)務(wù)通過統(tǒng)計(jì)學(xué)的理論指導(dǎo),在不同階段進(jìn)行相應(yīng)的科學(xué)研究。可以說收集基礎(chǔ)數(shù)據(jù)是原先的統(tǒng)計(jì)實(shí)務(wù)的重心,如何獲取數(shù)據(jù)是其考慮的主要問題。如何選擇有用數(shù)據(jù),就是當(dāng)下大數(shù)據(jù)時代的重心所在。
數(shù)據(jù)的識別問題對于大數(shù)據(jù)時代的發(fā)展而言尤為重要,就是要將現(xiàn)實(shí)與理論以及方法之間的反復(fù)作用,從數(shù)據(jù)中總結(jié)出的數(shù)量規(guī)律能否成立是個重要的問題。
2012年“谷歌流感趨勢”高估了年度流感發(fā)病率,可以說是數(shù)據(jù)誤導(dǎo)中的一個典型案例。從人們在網(wǎng)上留的搜索記錄,直接判斷其是否患得流感,這樣做確實(shí)不夠科學(xué)?;蛟S人們是出于其他原因搜索信息,或者只是為了了解一些相關(guān)事態(tài)而搜索的,如何區(qū)分真正的患者,還需要進(jìn)行進(jìn)一步的判斷。所以,若太過于多的依賴有缺陷的大數(shù)據(jù),就會對公共決策造成較大影響。
4.2 虛擬信息的識別問題
除了一些數(shù)據(jù)考察外,還存在很多虛擬信息識別問題,比如不少帳號是機(jī)器人自動程序或“半機(jī)器人”系統(tǒng),還有虛假賬號。所以,在使用網(wǎng)絡(luò)數(shù)據(jù)分析社會狀況的時候,應(yīng)該警覺數(shù)據(jù)中有沒有由自動化算法系統(tǒng)產(chǎn)生問題。
互聯(lián)網(wǎng)營銷中,大量的“刷量”以及水軍好評差評等數(shù)據(jù),可以說就是一種數(shù)據(jù)干擾,影響著數(shù)據(jù)的準(zhǔn)確性,如今市場上有很多類似這樣的噪聲,最終使得數(shù)據(jù)價值降低。
另外,考慮在技術(shù)層面中實(shí)現(xiàn)“數(shù)據(jù)去重”,確保數(shù)據(jù)的完整性,以及對網(wǎng)絡(luò)病毒的剔除等等這些問題,都是值得關(guān)注的數(shù)據(jù)問題。
科技總是具有雙面性的,對于大數(shù)據(jù)時代下統(tǒng)計(jì)學(xué)的發(fā)展,應(yīng)該進(jìn)行全面的分析,將面臨的問題重視起來,充分認(rèn)識統(tǒng)計(jì)學(xué)與數(shù)據(jù)化時代的聯(lián)系,積極應(yīng)對各種挑戰(zhàn)。
[1]游士兵,張佩,姚雪梅.大數(shù)據(jù)對統(tǒng)計(jì)學(xué)的挑戰(zhàn)和機(jī)遇[J].珞珈管理評論.2013,(02).
[2]邱東.大數(shù)據(jù)時代對統(tǒng)計(jì)學(xué)的挑戰(zhàn)[J].統(tǒng)計(jì)研究.2014,(01).
[3]陳龍,程開明.大數(shù)據(jù)時代的決策:數(shù)據(jù)分析抑或直覺經(jīng)驗(yàn)[J].中國統(tǒng)計(jì).2014,(09).
(責(zé)任編輯:文婷)
F222
A
1003-3319(2016)04-00039-02
10.19469/j.cnki.1003-3319.2016.04.0039