〔摘要〕 大數(shù)據(jù)主義者強(qiáng)調(diào)數(shù)據(jù)及其相關(guān)性在科學(xué)發(fā)現(xiàn)中的重要地位,但并不否認(rèn)理論的作用,也不否認(rèn)因果性的存在,更不否認(rèn)世界的規(guī)律性。大數(shù)據(jù)主義者試圖克服理論先入為主的偏見,強(qiáng)調(diào)讓數(shù)據(jù)自己說話,增加了數(shù)據(jù)密集型科學(xué)知識生產(chǎn)新方式。大數(shù)據(jù)主義者試圖用相關(guān)性糾正傳統(tǒng)科學(xué)對因果性的偏執(zhí),科學(xué)發(fā)現(xiàn)中首先應(yīng)重點(diǎn)尋找數(shù)據(jù)間的相關(guān)關(guān)系,進(jìn)而為因果關(guān)系的發(fā)現(xiàn)提供進(jìn)一步探索的路標(biāo)。大數(shù)據(jù)主義者不但承認(rèn)世界的規(guī)律性,而且拓寬了規(guī)律的內(nèi)涵和外延,用數(shù)據(jù)規(guī)律補(bǔ)充了以往那種單一的因果規(guī)律,規(guī)律的范圍從而得到了重大的拓展。
〔關(guān)鍵詞〕 大數(shù)據(jù)主義者,相關(guān)性,因果性,理論,因果,規(guī)律
〔中圖分類號〕N02 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1004-4175(2016)06-0033-07
大數(shù)據(jù)的興起,給傳統(tǒng)的科學(xué)哲學(xué)帶來許多新挑戰(zhàn),特別是對諸如科學(xué)理論的作用、因果關(guān)系、科學(xué)規(guī)律等科學(xué)哲學(xué)的核心問題提出了有別于傳統(tǒng)的新觀點(diǎn)。齊磊磊博士概括總結(jié)了大數(shù)據(jù)相關(guān)學(xué)者的論述,在《哲學(xué)動態(tài)》雜志發(fā)表了題為《大數(shù)據(jù)經(jīng)驗(yàn)主義——如何看待理論、因果與規(guī)律》的重要文章 〔1 〕。她在文中提出了大數(shù)據(jù)經(jīng)驗(yàn)主義的概念,并系統(tǒng)提煉了大數(shù)據(jù)經(jīng)驗(yàn)主義的科學(xué)哲學(xué)觀點(diǎn),這是大數(shù)據(jù)哲學(xué)的重要提煉和概括。她認(rèn)為,大數(shù)據(jù)經(jīng)驗(yàn)主義是一種新經(jīng)驗(yàn)主義(以下簡稱為大數(shù)據(jù)主義),并將其觀點(diǎn)概括為三點(diǎn):1.在科學(xué)理論問題上,大數(shù)據(jù)主義認(rèn)為“理論已經(jīng)終結(jié)”,否定科學(xué)理論對科學(xué)發(fā)現(xiàn)的作用;2.在關(guān)系到科學(xué)存亡的因果性問題上,大數(shù)據(jù)主義否定因果性的存在,提出由相關(guān)性取代因果性;3.在世界的本質(zhì)問題上,大數(shù)據(jù)主義否定世界的規(guī)律性,認(rèn)為世界的本質(zhì)是混亂的。樹立起大數(shù)據(jù)主義的靶子之后,齊磊磊進(jìn)行了批判,并明確提出反對大數(shù)據(jù)主義對大數(shù)據(jù)的神化。問題是大數(shù)據(jù)主義果真要徹底否定理論、因果和規(guī)律嗎?通過相關(guān)文獻(xiàn)的研讀,筆者發(fā)現(xiàn),齊磊磊對大數(shù)據(jù)主義的概括過于以偏概全。為此,筆者深入大數(shù)據(jù)學(xué)者的原始文獻(xiàn),按照齊磊磊所分的理論、因果、規(guī)律三個維度與其商榷,試圖還原大數(shù)據(jù)主義的真相,以便讓人們有機(jī)會了解大數(shù)據(jù)主義者的真實(shí)觀點(diǎn)究竟是什么。
一、大數(shù)據(jù)主義者如何看待理論
齊磊磊將大數(shù)據(jù)主義的第一個特征概括為對理論的全盤否定。她認(rèn)為,在對待理論的態(tài)度上,大數(shù)據(jù)主義持徹底否定的態(tài)度,認(rèn)為在大數(shù)據(jù)時代,只要數(shù)據(jù)就夠了,理論成了多余,甚至徹底無用。齊磊磊得出這個結(jié)論的依據(jù)主要有三個,一是大數(shù)據(jù)前期的代表人物安德森的觀點(diǎn),二是暢銷書《大數(shù)據(jù)時代》的作者舍恩伯格的觀點(diǎn),三是哈爾濱理工大學(xué)孫博文教授的觀點(diǎn)。孫博文教授的觀點(diǎn)是在一次會議上提出的,筆者沒有參加這次會議,所以無從考證其觀點(diǎn)的原意。下面我們主要來看安德森和舍恩伯格的觀點(diǎn)。
安德森是美國《連線》雜志的主編和主要撰稿人,齊磊磊引用的觀點(diǎn)出自安德森于2008年6月23日發(fā)表在《連線》雜志上的文章:《理論的終結(jié):海量數(shù)據(jù)使科學(xué)方法變得過時》,不過齊磊磊沒有找到并閱讀原文,只是轉(zhuǎn)引了舍恩伯格在《大數(shù)據(jù)時代》一書中所引用的部分觀點(diǎn)。作為大數(shù)據(jù)時代的預(yù)言家,在大數(shù)據(jù)時代來臨的前夜,安德森就預(yù)感到了大數(shù)據(jù)的浪潮已經(jīng)驚濤拍岸,并提前預(yù)言大數(shù)據(jù)對我們傳統(tǒng)科學(xué)方法將帶來怎樣的革命。安德森一開始就用統(tǒng)計學(xué)家喬治·博克斯在30多年前的抱怨:“所有的模型都是錯的,雖然有些很有用”。〔2 〕安德森認(rèn)為,傳統(tǒng)科學(xué)發(fā)現(xiàn)的方法都是從理論假設(shè)出發(fā),建立模型,然后用經(jīng)驗(yàn)檢驗(yàn)?zāi)P偷恼_性。但這種猜想性的模型往往出錯,而海量數(shù)據(jù)的出現(xiàn)改變了這種科學(xué)知識的生產(chǎn)方式,Google等大數(shù)據(jù)公司不再首先從理論假設(shè)、模型出發(fā),而是從數(shù)據(jù)出發(fā),從海量數(shù)據(jù)中歸納、提煉、發(fā)現(xiàn)其中的規(guī)律。安德森提出這些觀點(diǎn)是有前提的,首先是海量數(shù)據(jù),即大數(shù)據(jù)的出現(xiàn);二是他談?wù)摰闹髦际侵R發(fā)現(xiàn)的問題;三是他所說的“理論的終結(jié)”只是針對知識發(fā)現(xiàn)的出發(fā)點(diǎn)而言。他認(rèn)為,我們已經(jīng)進(jìn)入了PB(Petabytes)時代,即現(xiàn)在所稱的大數(shù)據(jù)時代,數(shù)據(jù)資源像洪流一樣爆發(fā)、增長。面對PB級別的大數(shù)據(jù),小數(shù)據(jù)時代的“假設(shè)—模型—檢驗(yàn)的科學(xué)方法變得過時了”。“現(xiàn)在有更好的方式。允許我們這么說:相關(guān)性就足夠了。我們可以停止尋找模型。我們可以對數(shù)據(jù)進(jìn)行分析,而不需要預(yù)先假設(shè)它會顯示什么。我們可以把數(shù)字扔進(jìn)世界上從未見過的最大的計算集群中,并讓統(tǒng)計算法找到科學(xué)無法找到的模式?!?〔2 〕這就是說,在大數(shù)據(jù)時代,知識的發(fā)現(xiàn)可以從數(shù)據(jù)開始,不再需要預(yù)先做出理論的假設(shè)。所以,安德森所說的“理論的終結(jié)”不是說大數(shù)據(jù)時代就不需要理論,不再有理論,只是科學(xué)發(fā)現(xiàn)不再是從理論出發(fā),而是從數(shù)據(jù)出發(fā)。他說:“大量的可用數(shù)據(jù),以及處理這些數(shù)據(jù)的統(tǒng)計工具,提供了一個全新的方式認(rèn)識世界。通過相關(guān)關(guān)系而不是因果關(guān)系,即使沒有清晰的模型、統(tǒng)一的理論,甚至沒有任何機(jī)理解釋,科學(xué)依然能夠取得進(jìn)步?!?〔2 〕因此,安德森并不是全盤否定科學(xué)理論,只是說在大數(shù)據(jù)時代,科學(xué)發(fā)現(xiàn)可以從數(shù)據(jù)開始,而不是必須從理論假設(shè)出發(fā)。
齊磊磊認(rèn)為,舍恩伯格的觀點(diǎn)與安德森一致。其實(shí),舍恩伯格雖然引用了安德森的觀點(diǎn),并且也同意安德森從數(shù)據(jù)及其相關(guān)性出發(fā)來進(jìn)行科學(xué)發(fā)現(xiàn),但在對待理論的態(tài)度上,舍恩伯格沒有安德森極端,而是有所保留。舍恩伯格雖然也認(rèn)為,在大數(shù)據(jù)時代,從海量數(shù)據(jù)中發(fā)現(xiàn)相關(guān)關(guān)系比尋找因果關(guān)系更重要,科學(xué)發(fā)現(xiàn)更多地依賴于數(shù)據(jù),而不是預(yù)設(shè)的普遍規(guī)則,應(yīng)盡量讓數(shù)據(jù)自己說話。在大數(shù)據(jù)時代,“所有的普遍規(guī)則都不重要了……重要的是數(shù)據(jù)分析,它可以揭示一切問題?!钡?,他并不完全否定理論在大數(shù)據(jù)中的作用,因?yàn)椤按髷?shù)據(jù)是在理論的基礎(chǔ)上形成的”,例如大數(shù)據(jù)也要使用統(tǒng)計學(xué)理論和計算機(jī)理論。在數(shù)據(jù)的收集、處理、解釋等環(huán)節(jié)中也要用到相關(guān)理論,他在書中明確告誡:“大數(shù)據(jù)時代不是理論消亡的時代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面?!?〔3 〕93因此,齊磊磊將舍恩伯格也歸入理論終結(jié)論者是不太客觀的。
科學(xué)發(fā)現(xiàn)模式問題是科學(xué)哲學(xué)極其重要的問題,歷史上就有“科學(xué)始于觀察”還是“科學(xué)始于問題”的爭論。大數(shù)據(jù)來臨前夕,美國計算機(jī)專家、圖靈獎得主吉姆·格雷(Jim Gray)就敏銳地認(rèn)識到大數(shù)據(jù)對科學(xué)發(fā)現(xiàn)的意義。他在2007年的一個發(fā)言中,首次提出了隨著大數(shù)據(jù)的興起,科學(xué)研究中出現(xiàn)了第四種研究范式?!? 〕XViii他對歷史上的科學(xué)研究范式,即科學(xué)發(fā)現(xiàn)的模式做了系統(tǒng)的分類,認(rèn)為歷史上曾出現(xiàn)過三種范式:經(jīng)驗(yàn)范式、理論范式和計算范式。經(jīng)驗(yàn)范式是科學(xué)發(fā)現(xiàn)的第一種范式,也是歷史最久的范式,它的邏輯起點(diǎn)是人類的觀察或?qū)嶒?yàn),然后用歸納法將觀察或?qū)嶒?yàn)數(shù)據(jù)歸納、提煉出科學(xué)理論,這種范式認(rèn)為科學(xué)始于經(jīng)驗(yàn)。邏輯實(shí)證主義就是這種主張的代表。邏輯實(shí)證主義主張“科學(xué)始于觀察”,并主張歸納法作為其基本方法。隨著邏輯實(shí)證主義被波普爾等后來者多方批判,其主張的發(fā)現(xiàn)模式逐漸被波普爾所主張的“科學(xué)始于問題”的發(fā)現(xiàn)模式所取代,這就是第二種范式,即理論范式,它出現(xiàn)于第一次科學(xué)革命之后,此時的科學(xué)家主要從已有理論出發(fā),發(fā)現(xiàn)問題,然后進(jìn)行經(jīng)驗(yàn)檢驗(yàn),這就是波普爾的“猜想—反駁”模式。波普爾最重要的依據(jù)是觀察滲透理論,他認(rèn)為沒有純粹的客觀觀察,科學(xué)發(fā)現(xiàn)都因我們先有疑問、問題、猜想(P),然后提出相應(yīng)的嘗試性的假設(shè)(TT)或模型,再進(jìn)行觀察或?qū)嶒?yàn)(EE)以檢驗(yàn)假設(shè)或模型的正確性,這就是波普爾著名的 “猜想—反駁”科學(xué)發(fā)現(xiàn)模式(P1-TT-EE-P2)。第三種范式出現(xiàn)于20世紀(jì)50年代計算機(jī)發(fā)明之后。由于問題的復(fù)雜性,我們無法直接觀察或?qū)嶒?yàn),只能首先建立模型,然后使用計算機(jī)進(jìn)行模擬、仿真或計算,通過仿真、計算來模擬真實(shí)場景以達(dá)到研究的目的。格雷認(rèn)為,隨著海量數(shù)據(jù)的出現(xiàn),科學(xué)發(fā)現(xiàn)模式發(fā)生了重大變化,在前三種科學(xué)發(fā)現(xiàn)范式的基礎(chǔ)上出現(xiàn)了第四種范式,即數(shù)據(jù)密集型科學(xué)范式。數(shù)據(jù)密集型科學(xué)范式的邏輯起點(diǎn)是大數(shù)據(jù),它從大數(shù)據(jù)出發(fā),通過數(shù)據(jù)之間的相關(guān)關(guān)系發(fā)現(xiàn)大數(shù)據(jù)所呈現(xiàn)出來的數(shù)據(jù)規(guī)律。由大數(shù)據(jù)所構(gòu)成的數(shù)據(jù)世界成為數(shù)據(jù)密集型科學(xué)研究的直接對象,數(shù)據(jù)挖掘是大數(shù)據(jù)時代科學(xué)研究最重要的方法,數(shù)據(jù)規(guī)律是數(shù)據(jù)密集型科學(xué)最重要的成果。當(dāng)然,格雷也特別申明,第四種范式與前三種范式并列存在,相互補(bǔ)充,共同構(gòu)成了科學(xué)研究的范式體系,它絕不是要取代前三種范式,只是作為前三種范式的重要補(bǔ)充和完善。格雷對科學(xué)研究范式的分類及其對第四種范式的論述,比較充分地表明了大數(shù)據(jù)主義者對經(jīng)驗(yàn)、理論和數(shù)據(jù)的態(tài)度。
大數(shù)據(jù)革命帶來了科學(xué)發(fā)現(xiàn)的新途徑與新模式,也改變了理論在科學(xué)發(fā)現(xiàn)中的作用。從大數(shù)據(jù)相關(guān)學(xué)者,特別是安德森、舍恩伯格、格雷的論述中,我們可以提煉出大數(shù)據(jù)主義的科學(xué)發(fā)現(xiàn)觀以及理論在科學(xué)發(fā)現(xiàn)中的作用。(1)數(shù)據(jù)成為科學(xué)研究的直接對象。以往的科學(xué)研究都是直接面對自然界或人類社會,而大數(shù)據(jù)的興起以及數(shù)據(jù)世界的形成,讓我們擺脫了對直接對象的依賴,取而代之的是作為自然或社會現(xiàn)象映射而成的數(shù)據(jù)世界,這樣科學(xué)研究可以直接以數(shù)據(jù)世界為研究對象。(2)大數(shù)據(jù)徹底改變了科學(xué)數(shù)據(jù)的采集方式。自從經(jīng)驗(yàn)科學(xué)興起之后,數(shù)據(jù)就成為科學(xué)研究的重要手段,然而,以往的數(shù)據(jù)都是研究者預(yù)先設(shè)計好目的,然后進(jìn)行觀察或?qū)嶒?yàn),所得數(shù)據(jù)已經(jīng)被觀察者污染,也就是觀察已經(jīng)滲透理論。然而,在大數(shù)據(jù)時代,數(shù)據(jù)主要來自智能感知設(shè)備、網(wǎng)絡(luò)瀏覽或者網(wǎng)絡(luò)社交等留下的數(shù)據(jù)足跡,這些數(shù)據(jù)因?yàn)椴皇茄芯空哳A(yù)先設(shè)計而獲得的,沒有被研究者污染,因而更具有客觀實(shí)在性。(3)大數(shù)據(jù)時代凸顯出數(shù)據(jù)在科學(xué)發(fā)現(xiàn)中的重要作用。以往的科學(xué)數(shù)據(jù)只是驗(yàn)證科學(xué)假說的工具,科學(xué)發(fā)現(xiàn)主要依賴于理論的猜想,即使是邏輯實(shí)證主義的“科學(xué)始于觀察”,其觀察仍然滲透著理論。但是,在大數(shù)據(jù)時代,數(shù)據(jù)具有了客觀性,而且從數(shù)據(jù)出發(fā),就能發(fā)現(xiàn)數(shù)據(jù)中蘊(yùn)含的規(guī)律性,因此帶來了“科學(xué)始于數(shù)據(jù)”的科學(xué)發(fā)現(xiàn)新模式。(4)理論在科學(xué)發(fā)現(xiàn)中的作用方式發(fā)生了重大變化。在大數(shù)據(jù)時代,初始數(shù)據(jù)雖未被采集者污染,但在隨后的數(shù)據(jù)挖掘過程中,理論開始滲入其中,比如數(shù)據(jù)倉庫的選取、挖掘工具的選擇以及挖掘結(jié)果的解釋等,都滲透著數(shù)據(jù)挖掘者的意圖。這就是說,在大數(shù)據(jù)時代,科學(xué)發(fā)現(xiàn)依然滲透著理論,只是滲透的環(huán)節(jié)被延后罷了,理論在數(shù)據(jù)挖掘、科學(xué)發(fā)現(xiàn)中依然起著重要的作用。
安德森、舍恩伯格和格雷,都是大數(shù)據(jù)主義的代表人物,他們都強(qiáng)調(diào)在海量數(shù)據(jù)面前,科學(xué)發(fā)現(xiàn)不能從理論假設(shè)出發(fā),必須直接從數(shù)據(jù)出發(fā),讓數(shù)據(jù)說話,但是他們并不是徹底排斥理論,只強(qiáng)調(diào)大數(shù)據(jù)時代出現(xiàn)了科學(xué)發(fā)現(xiàn)的新模式。正如舍恩伯格所說:“大數(shù)據(jù)絕不會叫囂‘理論已死,但它毫無疑問會從根本上改變我們理解世界的方式。很多舊有的習(xí)慣將被顛覆,很多舊有的制度將面臨挑戰(zhàn)?!?〔3 〕94 《大數(shù)據(jù)主義》的作者史蒂夫·洛爾借用人工智能專家彼得·諾威格的話說,數(shù)據(jù)具有不可思議的威力,“但是,方法論中仍然包括模型,這是毫無疑問的。理論沒有終結(jié),而是正在發(fā)展,并擁有各種新的外在形式。” 〔5 〕165齊磊磊所說的大數(shù)據(jù)主義徹底拋棄理論,大數(shù)據(jù)時代不需要理論,這些并不是大數(shù)據(jù)主義者的真正主張,而是她對大數(shù)據(jù)主義者的誤讀,或者說是以偏概全。
二、大數(shù)據(jù)主義者如何看待因果
齊磊磊對大數(shù)據(jù)主義第二個批評是大數(shù)據(jù)的因果觀。她認(rèn)為,大數(shù)據(jù)主義者認(rèn)為,因果性在大數(shù)據(jù)時代不再存在,已經(jīng)完全由相關(guān)性取而代之。她主要是以舍恩伯格為靶子來進(jìn)行批判的。她在文章中批評說,舍恩伯格將相關(guān)關(guān)系分析作為大數(shù)據(jù)時代的新視野和預(yù)測新工具,以此看到了從前未曾留意的聯(lián)系,并掌握了以往難以理解的社會動態(tài)和復(fù)雜技術(shù)。最為關(guān)鍵的是,舍恩伯格認(rèn)為知道“是什么”就夠了,而不必知道“為什么”。舍恩伯格還特別強(qiáng)調(diào)要“讓數(shù)據(jù)自己發(fā)聲”,不必過多探究現(xiàn)象背后的本質(zhì)。由此,齊磊磊得出結(jié)論說,大數(shù)據(jù)主義企圖消除因果關(guān)系,否定因果律,試圖用事物的相關(guān)關(guān)系取代因果關(guān)系。隨后,她通過因果與相關(guān)的概念區(qū)別,并從哲學(xué)、數(shù)學(xué)、邏輯等維度來討論兩者之間的區(qū)別與聯(lián)系,特別用量子糾纏作案例來說明,由此來批判舍恩伯格觀點(diǎn)的錯誤。
齊磊磊所樹立的批判靶子對嗎?舍恩伯格的真實(shí)觀點(diǎn)是什么?讓我們回到舍恩伯格的文本。據(jù)亞馬遜圖書智能推薦系統(tǒng)介紹,舍恩伯格說:“亞馬遜的推薦系統(tǒng)梳理出了有趣的相關(guān)關(guān)系,但不知道背后的原因。知道是什么就夠了,沒必要知道為什么?!?〔3 〕71舍恩伯格的確認(rèn)為,在大數(shù)據(jù)時代,相關(guān)性分析可能比因果性分析更重要?!霸谛?shù)據(jù)世界中,相關(guān)關(guān)系也是有用的,但在大數(shù)據(jù)的背景下,相關(guān)關(guān)系大放異彩。通過相關(guān)關(guān)系,我們可以比以前更容易、更快捷、更清楚地分析事物?!?〔3 〕71舍恩伯格很清楚,因果性是相關(guān)性的特殊關(guān)系,相關(guān)關(guān)系缺少因果關(guān)系那種必然性,只具有可能性,“相關(guān)關(guān)系通過識別有用的關(guān)聯(lián)物來幫助我們分析一個現(xiàn)象,而不是通過揭示其內(nèi)部的運(yùn)作機(jī)制?!?〔3 〕72舍恩伯格只是在方法論的意義上對相關(guān)性進(jìn)行肯定,并沒有在本體論上對事物的因果性進(jìn)行否定。對事物進(jìn)行因果分析,必須深入把握事物間的內(nèi)部機(jī)制,然而,面對大數(shù)據(jù)時代的海量數(shù)據(jù),這種內(nèi)部機(jī)制很難及時被把握。因此,他認(rèn)為,與其用臆想的因果假設(shè),不如從表象出發(fā),快速把握它們的相關(guān)關(guān)系,“大數(shù)據(jù)的相關(guān)關(guān)系分析法更準(zhǔn)確、更快捷,而且不容易受偏見的影響?!?〔3 〕75特別是在日常生活、商業(yè)分析中,相關(guān)性分析更是一種快速、高效的分析、預(yù)測工具,“相關(guān)關(guān)系很有用,不僅僅是因?yàn)樗転槲覀兲峁┬乱暯?,而且提供的視角都很清晰。而我們一旦把因果關(guān)系考慮進(jìn)來,這些視角就有可能被蒙蔽?!?〔3 〕88舍恩伯格知道,相關(guān)性只是一種表象,因果性才是表象背后的本質(zhì),因此他并不否定因果性的存在,相反,他認(rèn)為相關(guān)性是認(rèn)識因果性的有效途徑。“相關(guān)關(guān)系分析本身意義重大,同時它也為研究因果關(guān)系奠定了基礎(chǔ)?!?〔3 〕88“在大多數(shù)情況下,一旦我們完成了對大數(shù)據(jù)的相關(guān)關(guān)系分析,而又不再滿足于僅僅知道‘是什么時,我們就會繼續(xù)向更深層次研究因果關(guān)系,找出背后的‘為什么” 〔3 〕89他明確地表示:“因果關(guān)系還是有用的,但是它不再被看成是意義來源的基礎(chǔ)。” 在此,我們可以說,舍恩伯格強(qiáng)調(diào)了相關(guān)性對大數(shù)據(jù)的重要性,但他并不否定因果性的存在,更沒有說要用相關(guān)性完全取代因果性。
史蒂夫·洛爾在《大數(shù)據(jù)主義》一書中提出要“厘清大數(shù)據(jù)中的相關(guān)關(guān)系與因果關(guān)系”,認(rèn)為相關(guān)關(guān)系可以為商業(yè)、醫(yī)學(xué)等應(yīng)用領(lǐng)域提供有效的預(yù)測工具,但不能因此否定因果性。他借用IBM人工智能專家費(fèi)魯奇的話說:“對于大量商業(yè)決策而言,有相關(guān)性就能得出令人滿意的結(jié)果”。但是,“僅憑相關(guān)性是不夠的”,“還要對因果關(guān)系產(chǎn)生有啟發(fā)性的認(rèn)識,包括理論、假設(shè)、現(xiàn)實(shí)世界的心理模型、事情的原委等,兩者必須更密切地相互配合?!?〔5 〕163-164
英國韋斯特敏斯特大學(xué)的David Chandler在論文《沒有因果的世界:大數(shù)據(jù)與后人類時代的來臨》中認(rèn)為,大數(shù)據(jù)并不是要取代因果關(guān)系,它只是帶來了新的歸納方法和新的知識生產(chǎn)方式。〔6 〕牛津大學(xué)互聯(lián)網(wǎng)研究中心的Josh Cowls和Ralph Schroeder在論文《因果性、相關(guān)性及社會科學(xué)研究的大數(shù)據(jù)》中,通過訪談26位學(xué)者,詳細(xì)論述了大數(shù)據(jù)時代的因果性與相關(guān)性的關(guān)系?!? 〕受訪者認(rèn)為,理論終結(jié)及取代因果的說法有點(diǎn)過分夸張,但大數(shù)據(jù)對他們的影響的確很大,它使得社會科學(xué)研究所需數(shù)據(jù)的采集、處理變得容易。至于相關(guān)性和因果性問題,這取決于何種類型的研究:如果是商業(yè)應(yīng)用之類的研究,找到相關(guān)性就夠了,但社會科學(xué)理論研究則仍然需要因果性。
歸納起來,大數(shù)據(jù)主義對相關(guān)性與因果性的態(tài)度是:在大數(shù)據(jù)時代,由于數(shù)據(jù)的暴增,尋找數(shù)據(jù)間的相關(guān)性比因果性更重要,大數(shù)據(jù)主義承認(rèn)事物的因果性,但更應(yīng)該把握事物的相關(guān)性。齊磊磊說大數(shù)據(jù)主義否認(rèn)因果性的存在,它已被相關(guān)性完全取代,這是對大數(shù)據(jù)主義的誤解或誤讀。大數(shù)據(jù)主義為什么強(qiáng)調(diào)相關(guān)性,弱化因果性呢?我們可以從四個方面來說明。(1)就相關(guān)性與因果性的關(guān)系來說,相關(guān)性更廣泛,因果性更嚴(yán)格,因果性是相關(guān)性的一種特例。在哲學(xué)史上,對這兩者關(guān)系的討論很多,齊磊磊不但回顧了哲學(xué)史上兩者之間的關(guān)系,而且從數(shù)學(xué)的集合論和函數(shù)關(guān)系論證了“相關(guān)性是一種比因果性更廣泛的概念”,因果性是相關(guān)性的一種特殊狀態(tài)。(2)大數(shù)據(jù)并不否定因果,只是不強(qiáng)調(diào)因果。自休謨對因果性進(jìn)行全面懷疑和批判以來,雖然眾多科學(xué)家、哲學(xué)家做出了種種努力,但仍然很難證明某兩種現(xiàn)象或事物之間就一定存在著因果關(guān)系。休謨只是把因果性看成是人們的一種習(xí)慣,康德的《純粹理性批判》也只是做出了一種工具主義的修補(bǔ),仍然沒法證明因果性的必然性。大數(shù)據(jù)沒有站到徹底否定因果性的隊伍中,而是承認(rèn)因果性,但從相關(guān)性入手來把握。從方法論來說,相關(guān)性比較表象,只要兩者之間有依隨關(guān)系就認(rèn)為具有相關(guān)性,因此容易被識別;而因果性則要反映事物之間內(nèi)在的本質(zhì)關(guān)系,這就不容易被認(rèn)識和把握。大數(shù)據(jù)從相關(guān)性而不是因果性入手,是一種聰明的方法論策略。(3)大數(shù)據(jù)時代的來臨,海量數(shù)據(jù)使得尋找因果關(guān)系如同大海撈針一樣困難。大數(shù)據(jù)時代的數(shù)據(jù)量迅速發(fā)展到PB、ZB級別,要在這么多的數(shù)據(jù)中找到與某數(shù)據(jù)具有因果關(guān)系的另一個數(shù)據(jù),這比大海撈針還困難。正如統(tǒng)計物理學(xué)面對海量的分子,研究者無法跟蹤每個分子的運(yùn)動軌跡以及它們之間的因果關(guān)系,只能用統(tǒng)計學(xué)的方法研究大量分子運(yùn)動所表現(xiàn)出來的宏觀行為和規(guī)律,而且這些規(guī)律只遵從統(tǒng)計規(guī)律,沒有因果規(guī)律那種必然性。PB、ZB級別的數(shù)據(jù),跟統(tǒng)計物理學(xué)所面對的海量分子一樣,我們不可能跟蹤每個數(shù)據(jù)的來龍去脈、前因后果,只能使用數(shù)據(jù)挖掘工具挖掘出數(shù)據(jù)之間所表現(xiàn)出來的宏觀行為以及數(shù)據(jù)之間的相關(guān)關(guān)系。(4)日常生活、商業(yè)應(yīng)用中,相關(guān)關(guān)系就已經(jīng)足夠。在許多場合,我們的確不需要知道事物之間內(nèi)在的因果關(guān)系,只要知道它們之間具有依隨性質(zhì)的相關(guān)關(guān)系,在我們發(fā)現(xiàn)某現(xiàn)象或數(shù)據(jù)變化時,大致能夠推斷與之相關(guān)的另一個現(xiàn)象或數(shù)據(jù)也可能會發(fā)生變化。例如,我們發(fā)現(xiàn),天氣長期下雨會帶來雨具銷售的增加,而我國南方總是春雨綿綿,于是聰明的商家早已準(zhǔn)備好了各種雨具來迎接南方雨季的到來。又如,每年大學(xué)新生開學(xué)季,都有大量的銀行卡、手機(jī)卡等商業(yè)機(jī)會,于是聰明的商家早已與學(xué)校相關(guān)部門將各種卡隨錄取通知書投送到新生手中。對商業(yè)應(yīng)用來說,最關(guān)鍵的是快速抓住機(jī)會,至于背后的因果關(guān)系則留給學(xué)者們?nèi)ヌ接憽?/p>
總之,大數(shù)據(jù)主義不是要否定事物之間的因果性,并用相關(guān)性取代,只是不再過分執(zhí)著于事物因果性的追求,采取從表象的、數(shù)據(jù)之間的相關(guān)性入手,發(fā)現(xiàn)數(shù)據(jù)規(guī)律,然后由此作為路徑,再打開黑箱,尋找數(shù)據(jù)之間的因果關(guān)系。由此,相關(guān)關(guān)系就成了尋求因果關(guān)系的一把方便鑰匙。當(dāng)然,大數(shù)據(jù)也能夠接受暫時找不到因果關(guān)系,只能找到相關(guān)關(guān)系的情況存在。
三、大數(shù)據(jù)主義者如何看待規(guī)律
在對待世界的本質(zhì)及其規(guī)律性問題上,齊磊磊說,大數(shù)據(jù)主義否認(rèn)世界的規(guī)律性,將世界的本質(zhì)歸結(jié)為混亂的數(shù)據(jù)。她把大數(shù)據(jù)主義的觀點(diǎn)與卡特萊特為代表的新經(jīng)驗(yàn)主義相比較,并由此來批判大數(shù)據(jù)主義者。齊磊磊對大數(shù)據(jù)的世界觀和規(guī)律觀的批判主要從統(tǒng)計學(xué)家的觀點(diǎn)和網(wǎng)絡(luò)科學(xué)家巴拉巴西的觀點(diǎn)這兩條路徑來進(jìn)行。她引用統(tǒng)計學(xué)家的觀點(diǎn)說,統(tǒng)計樣本的增加不一定能夠增加統(tǒng)計的精確性,只有增加采樣的隨機(jī)性才能提高統(tǒng)計的精確性。她用舍恩伯格的“大數(shù)據(jù)的核心在于預(yù)測”來反證舍恩伯格主張世界混雜性的錯誤。此外,她引用巴拉巴西在其《爆發(fā):大數(shù)據(jù)時代預(yù)見未來的新思維》的觀點(diǎn)來證明世界的規(guī)律性和可預(yù)測性。
齊磊磊所批判的觀點(diǎn)主要來自舍恩伯格,因此我們有必要先還原舍恩伯格究竟說了些什么。舍恩伯格認(rèn)為,萬物皆數(shù),通過大數(shù)據(jù)技術(shù),一切現(xiàn)象或行為皆可轉(zhuǎn)化為數(shù)據(jù),這就是他所說的“量化一切”。通過智能感知、萬物互聯(lián)等量化手段之后,現(xiàn)象世界就映射為一個“數(shù)據(jù)世界”,這個數(shù)據(jù)世界可以被智能設(shè)備所識別、儲存、傳輸和計算,世界的存在變成了數(shù)據(jù)的泛在。這樣,數(shù)據(jù)就成了世界的本質(zhì)屬性,所以舍恩伯格說“世界的本質(zhì)是數(shù)據(jù)” 〔3 〕125。
舍恩伯格認(rèn)為,在大數(shù)據(jù)時代,數(shù)據(jù)的獲取變得十分容易,數(shù)據(jù)規(guī)模也暴增到海量,因此現(xiàn)在人們已經(jīng)徹底告別了數(shù)據(jù)缺乏的時代,并進(jìn)入到一個數(shù)據(jù)豐裕的時代。正因如此,舍恩伯格才強(qiáng)調(diào),人們沒必要再依靠抽樣調(diào)查等手段來獲取數(shù)據(jù),可以采取一網(wǎng)打盡的“全數(shù)據(jù)模式”。由于數(shù)據(jù)來源多樣化,數(shù)據(jù)規(guī)模海量化,因此,一方面這些數(shù)據(jù)難免魚龍混雜,失去傳統(tǒng)的精確性,另一方面數(shù)據(jù)的多樣性也反映了世界的多樣性。齊磊磊所批判的“混亂”,舍恩伯格所用的英文是messy,其本義的確有“混亂”的意思,但也有“混雜”、“復(fù)雜”之義?!? 〕33中文版的《大數(shù)據(jù)時代》大部分時候都將其譯成“混雜”,偶爾譯成“混亂”?!盎祀s”的譯法比較合適,而“混亂”則誤解了舍恩伯格的原意?!爸挥?%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫。如果不接受混雜,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶?!?〔3 〕45因此,舍恩伯格提出應(yīng)該允許和接受混雜性,不再過分執(zhí)著于追求精確性。舍恩伯格并沒有由此推斷出世界就不再有規(guī)律性,相反,他正是想通過認(rèn)識、接受混雜性來更好地把握世界的規(guī)律性,正如他自己所說:“接受數(shù)據(jù)的不精確和不完美,我們反而能更好地進(jìn)行預(yù)測,也能更好地理解這個世界。” 〔3 〕56
從大數(shù)據(jù)學(xué)者的論述中,我們可以看出大數(shù)據(jù)主義者對世界觀、規(guī)律性的態(tài)度。歸結(jié)起來,主要表現(xiàn)為如下五個方面,即整體主義、復(fù)雜多樣、關(guān)注細(xì)節(jié)、數(shù)據(jù)規(guī)律、透明世界。
(1)整體主義。自從古希臘以來,西方科學(xué)主要是通過打開黑箱,還原到部分甚至是“始基”去研究其中的奧秘。這種還原方法論反映到數(shù)據(jù)采集上就是受控實(shí)驗(yàn)或抽樣調(diào)查方法。由于技術(shù)能力的限制,以往的數(shù)據(jù)采集只能在理想化處理之后,通過精心設(shè)計的受控實(shí)驗(yàn),或精心設(shè)計調(diào)查問卷和調(diào)查對象之后所進(jìn)行的抽樣調(diào)查來獲取所需的數(shù)據(jù)。小數(shù)據(jù)時代的隨機(jī)采樣就是試圖以最少的數(shù)據(jù)獲得最多的信息,這就是將復(fù)雜的現(xiàn)象還原為少量的抽樣數(shù)據(jù)。大數(shù)據(jù)時代的來臨,讓我們不再需要選取樣本,或者說樣本量可以最大化,這就是大數(shù)據(jù)的“全數(shù)據(jù)模式”。由于與對象相關(guān)的所有可能性都包括其中,至大無外,所以這其實(shí)就是一個整體。以往我們經(jīng)常說要用整體論的視野看問題,但由于沒有將整體技術(shù)化,在解決實(shí)際問題時依然應(yīng)用部分代替整體的還原方法。大數(shù)據(jù)的“全數(shù)據(jù)模式”將傳統(tǒng)整體論數(shù)據(jù)化,用全部數(shù)據(jù)代表整體,并可以進(jìn)行計算、分析,是一種數(shù)據(jù)化、可操作的整體觀,因此大數(shù)據(jù)主義是一種數(shù)據(jù)化的整體主義?!? 〕
(2)復(fù)雜多樣。經(jīng)過孤立、靜止、抽樣等理想化處理,所獲數(shù)據(jù)變得簡單、純粹、單一,所反映出來的現(xiàn)象世界也變成了簡單、單一的理想世界。大數(shù)據(jù)時代的數(shù)據(jù)來自各種途徑,例如各類傳感器數(shù)據(jù)、網(wǎng)絡(luò)瀏覽數(shù)據(jù)、網(wǎng)絡(luò)社交數(shù)據(jù)、電話短信數(shù)據(jù)、消費(fèi)數(shù)據(jù)、刷卡數(shù)據(jù)等等,這些數(shù)據(jù)都屬于原始數(shù)據(jù)。因此,數(shù)據(jù)粗糙、類型多樣。但是,大數(shù)據(jù)時代的數(shù)據(jù)由于沒有人工的預(yù)先參與,因而未被人工污染。因此,保留了原始性、粗糙性、復(fù)雜性、多樣性等,由此所反映出來的現(xiàn)象世界也變成了一個復(fù)雜多樣的真實(shí)世界。復(fù)雜性科學(xué)早就批判了傳統(tǒng)科學(xué)的理想化和簡單化,認(rèn)為真實(shí)世界是復(fù)雜、粗糙、多樣的世界,而大數(shù)據(jù)技術(shù)則用可計算的海量數(shù)據(jù)來刻畫了復(fù)雜性科學(xué)的理念,讓復(fù)雜性的科學(xué)理念變成了大數(shù)據(jù)的技術(shù)手段。
(3)關(guān)注細(xì)節(jié)。理想化之后的受控實(shí)驗(yàn)和抽樣調(diào)查,都是選取預(yù)先被認(rèn)為重要的少量數(shù)據(jù)來代表所有數(shù)據(jù),或者說由少量數(shù)據(jù)來描述真實(shí)世界的復(fù)雜現(xiàn)象,例如全國大學(xué)生有幾千萬,但不少做大學(xué)生相關(guān)問題調(diào)查的研究者往往在幾所大學(xué)發(fā)放幾百份問卷,就得出全國大學(xué)生怎么樣的結(jié)論。做抽樣調(diào)查者辯護(hù)說,只要能夠保證抽樣的絕對隨機(jī)性,少量樣本就能代表全體。問題是,我們怎么知道具有絕對隨機(jī)性?事物本身千差萬別、豐富多彩,少量樣本又怎么來代表這些細(xì)節(jié)?大數(shù)據(jù)讓所有樣本都保留,不要少數(shù)樣本來代表自己,這樣每個樣本的獨(dú)特之處、出彩之處都有可能保留下來。因此,大數(shù)據(jù)的“全數(shù)據(jù)模式”就保留了每個樣本的豐富細(xì)節(jié)和個性,具有統(tǒng)計學(xué)所說的“遍歷性”,而且數(shù)據(jù)越多,細(xì)節(jié)越豐富。抽樣的數(shù)據(jù)無法被放大以便觀察細(xì)節(jié),而大數(shù)據(jù)的數(shù)據(jù)可以被隨意組合、放大,可以追溯每個數(shù)據(jù)的細(xì)節(jié),大數(shù)據(jù)成了數(shù)據(jù)顯微鏡。因此,大數(shù)據(jù)比以往的小數(shù)據(jù)更加關(guān)注細(xì)節(jié),更加注重個性。
(4)數(shù)據(jù)規(guī)律。小數(shù)據(jù)時代根據(jù)因果推理所得到的規(guī)律叫做因果規(guī)律,簡稱為規(guī)律。因果規(guī)律被認(rèn)為具有確定性和普遍必然性,具有放之四海而皆準(zhǔn)的可重復(fù)性。利用因果規(guī)律,不但能夠解釋過去發(fā)生的事件,而且可以預(yù)測未來事件的發(fā)生。大數(shù)據(jù)不再執(zhí)著追求因果必然性,而是側(cè)重于通過數(shù)據(jù)之間的關(guān)聯(lián)性來尋找事件之間的相關(guān)性,并根據(jù)數(shù)據(jù)挖掘、分析得出具有概率性的數(shù)據(jù)規(guī)律。這種數(shù)據(jù)規(guī)律只是數(shù)據(jù)之間的關(guān)聯(lián)性,不一定具有普遍必然性,也不一定具有絕對的可重復(fù)性,因此在因果論者看來,這種數(shù)據(jù)規(guī)律根本就不算規(guī)律,并由此推斷大數(shù)據(jù)主義否定規(guī)律,并說大數(shù)據(jù)主義者將世界看作是一個混亂無序的世界。數(shù)據(jù)規(guī)律是不是規(guī)律呢?數(shù)據(jù)規(guī)律也能夠解釋過去,預(yù)測未來,而且在無法得到因果規(guī)律的時候,數(shù)據(jù)規(guī)律可以大顯身手,因此數(shù)據(jù)規(guī)律也是規(guī)律的一種類型。大數(shù)據(jù)主義不但承認(rèn)世界規(guī)律的存在,而且拓展了規(guī)律的內(nèi)涵和外延,將數(shù)據(jù)規(guī)律納入規(guī)律的范疇,用數(shù)據(jù)規(guī)律補(bǔ)充了因果規(guī)律之不足。舍恩伯格和巴拉巴西都承認(rèn)在混雜多樣的世界都能找到規(guī)律,不能找到因果規(guī)律,起碼能找到數(shù)據(jù)規(guī)律,而且利用數(shù)據(jù)規(guī)律,再復(fù)雜的現(xiàn)象都可以解釋和預(yù)測,甚至小數(shù)據(jù)時代難以認(rèn)識和預(yù)測的人類行為,都能做出高達(dá)93%以上的準(zhǔn)確預(yù)測。〔10 〕13因此,大數(shù)據(jù)沒有否定規(guī)律,只是拓展了規(guī)律的內(nèi)涵和外延,以便更好地認(rèn)識和把握復(fù)雜世界的規(guī)律。
(5)透明世界。大數(shù)據(jù)技術(shù)可以將一切現(xiàn)象、行為數(shù)據(jù)化,萬物的背后都留下了一條可被存儲、識別的數(shù)據(jù)鏈。這些數(shù)據(jù)在沒有發(fā)現(xiàn)用途的時候往往被看作是數(shù)據(jù)垃圾,但事實(shí)上這些數(shù)據(jù)全程記錄了事物的存在和演化的全息軌跡。這些數(shù)據(jù)被永遠(yuǎn)存儲于網(wǎng)絡(luò)、云端,幾乎難于被徹底消除,因此即使某事物已經(jīng)消失,但與其對應(yīng)的數(shù)據(jù)足跡依然存在于數(shù)據(jù)世界中。通過對數(shù)據(jù)世界的挖掘,一切都無法偽裝和隱藏,就像真有上帝之眼一樣被永遠(yuǎn)地監(jiān)視著。數(shù)據(jù)化的世界是一個可以永遠(yuǎn)被存儲、識別、挖掘的世界,通過相關(guān)性不但能夠知道過去的一切,而且未來的一切也可以被掌控。自然界及其規(guī)律都隱藏在黑暗中,但在大數(shù)據(jù)的陽光照耀下,世界的一切都變成了透明。因此,大數(shù)據(jù)時代的世界是一個徹底透明的世界。
綜上,大數(shù)據(jù)主義者并不否定科學(xué)理論或終結(jié)科學(xué)理論,只是從海量數(shù)據(jù)中進(jìn)行知識發(fā)現(xiàn)時不能預(yù)先帶著理論的有色眼鏡,必須先“讓數(shù)據(jù)說話”,尊重數(shù)據(jù)本身顯現(xiàn)出來的規(guī)律,數(shù)據(jù)采集環(huán)節(jié)不一定預(yù)先依賴?yán)碚摚跀?shù)據(jù)挖掘和知識生產(chǎn)中,大數(shù)據(jù)主義仍然承認(rèn)理論的作用。大數(shù)據(jù)不否定事物因果性的存在,但數(shù)據(jù)挖掘時不會一開始就糾結(jié)于因果性,它更重視數(shù)據(jù)顯現(xiàn)出來的相關(guān)性。如果需要,我們可以在認(rèn)識相關(guān)性之后再進(jìn)一步深挖因果性,相關(guān)性為尋求因果性提供了猜想的路徑。大數(shù)據(jù)主義者認(rèn)為,世界是復(fù)雜多樣的,但皆可被數(shù)據(jù)化,通過數(shù)據(jù)之間的相關(guān)性能夠挖掘出事物間的數(shù)據(jù)規(guī)律,并通過數(shù)據(jù)規(guī)律來解釋、預(yù)測由因果規(guī)律難于解釋和預(yù)測的復(fù)雜現(xiàn)象。因此,他們不但承認(rèn)世界的規(guī)律性,而且在以往難于發(fā)現(xiàn)規(guī)律的地方找出規(guī)律,讓科學(xué)的陽光照亮混雜世界的每一個角落,我們的世界變成了一個完全透明的世界。所以,齊磊磊認(rèn)為大數(shù)據(jù)主義者否認(rèn)理論、否認(rèn)因果、否認(rèn)規(guī)律的說法是不太符合實(shí)際的。
參考文獻(xiàn):
〔1〕齊磊磊.大數(shù)據(jù)經(jīng)驗(yàn)主義——如何看待理論、因果與規(guī)律〔J〕.哲學(xué)動態(tài),2015(7).
〔2〕Chris Anderson. The End of Theory:The Data Deluge Makes the Scientific Method Obsolete〔J〕.Wired 16,2008(7).
〔3〕維克托·邁爾-舍恩伯格,肯尼斯·庫克耶.大數(shù)據(jù)時代:生活、工作與思維的大變革〔M〕.盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.
〔4〕T.Hey, S.Tansley, K.Tolle. The Fourth Paradigm: Data-Intensive Scientific Discovery〔M〕.Redmond: Microsoft Research, 2009.
〔5〕史蒂夫·洛爾.大數(shù)據(jù)主義〔M〕.胡小銳,朱勝超,譯.北京:中信出版集團(tuán),2015.
〔6〕David Chandler.A World without Causation: Big Data and the Coming of Age of Posthumanism〔J〕.Millennium: Journal of International Studies,2015(3).
〔7〕Josh Cowls, Ralph Schroeder.Causation, Correlation, and Big Data in Social Science Research〔J〕. Policy and Internet,2015(9999).
〔8〕V.M.Schonberger, K.Cukier.Big Data: A Revolution That Will Transform How We Live,Work and Think〔M〕.London: John Murray,2013.
〔9〕黃欣榮.大數(shù)據(jù)對科學(xué)認(rèn)識論的發(fā)展〔J〕.自然辯證法研究,2014(9).
〔10〕艾伯特-拉斯洛·巴拉巴西.爆發(fā):大數(shù)據(jù)時代預(yù)見未來的新思維〔M〕.馬慧,譯.北京:中國人民大學(xué)出版社,2012.
責(zé)任編輯 蘇玉娟