趙利利
論大數(shù)據(jù)迷思的建構(gòu)
趙利利
大數(shù)據(jù)話語體系的建構(gòu)正在超越技術(shù)和數(shù)據(jù)本身的社會功能形成迷思。理性看待迷思有助于我們合理選擇路徑,避免社會資源的浪費。本文從“全體數(shù)據(jù)”的崇拜與懷疑、“混雜性”便利與非結(jié)構(gòu)化數(shù)據(jù)難題、“相關(guān)關(guān)系”的因果基礎(chǔ)抽離、“預(yù)測”與算法模型背后的權(quán)力實在四個方面對“大數(shù)據(jù)”迷思進(jìn)行剖析,以期在“大數(shù)據(jù)迷思”強勢滲透的現(xiàn)實語境下提供一種批判性的思考維度。
大數(shù)據(jù);迷思;數(shù)據(jù)驅(qū)動
[作者]趙利利,中國傳媒大學(xué)。
“迷思”一詞起源于希臘語單詞μ θ ο(mythos),是指“一種純粹虛構(gòu)性的敘事,通常涉及超自然的人物、行動或事件,體現(xiàn)了一些與自然或歷史現(xiàn)象有關(guān)的流行觀念”。①《牛津英語詞典》,牛津大學(xué)出版社,1989年。迷思包含著承諾,這種承諾在未來解決了現(xiàn)在的困境,是對未來或想象圖景的美好建構(gòu)。迷思一旦出現(xiàn),其本身就成為現(xiàn)實的組成部分,它將消耗人力、物力、財力或者其他資源維持自身的物質(zhì)實在性。
大數(shù)據(jù)話語體系的建構(gòu)正在超越技術(shù)和數(shù)據(jù)本身的社會功能形成自身的話語場?!叭祟愋袨?3%是可以預(yù)測的”,“我們到底有多好預(yù)測?我們終于能夠為這個一直困擾我們的問題給出一個定量的答案了”。②艾伯特-拉斯洛·巴拉巴西著,馬慧譯:《爆發(fā)——大數(shù)據(jù)時代預(yù)見未來的新思維》,中國人民大學(xué)出版社,2012年,第217頁?!爱?dāng)世界開始邁向大數(shù)據(jù)時代時,社會也將經(jīng)歷類似的地殼運動”,“大數(shù)據(jù)早已在推動人類信息管理準(zhǔn)則的重新定位”。③維克托·邁爾-舍恩伯格肯尼斯·庫克耶著,盛楊燕、周濤譯:《大數(shù)據(jù)時代——生活、工作與思維的大變革》,浙江人民出版社,2013年,第V頁。這套話語的強勢正愈來愈顯著地滲透包括計算機、商業(yè)、傳媒甚至政治、經(jīng)濟(jì)等多個領(lǐng)域,形成一種即將發(fā)生廣泛的本源性顛覆的假象。這種話語的建構(gòu)已然形成迷思。理性看待迷思,厘清“大數(shù)據(jù)”迷思建構(gòu)背后的主導(dǎo)要素,有助于我們合理選擇路徑,避免社會資源的浪費。
在有關(guān)大數(shù)據(jù)特性的描述中,全數(shù)據(jù)模式是大數(shù)據(jù)話語體系中最具誘惑力的內(nèi)容之一。全部數(shù)據(jù)意味著樣本等于總體,從某種意義上說,全數(shù)據(jù)模式終結(jié)了隨機抽樣。公眾對于大數(shù)據(jù)的狂熱追捧正是因為這種顛覆性的解放。但是,從哲學(xué)的角度來說,自從愛因斯坦的相對論打破西方絕對主義科學(xué)觀之后,要求某一理論、研究成果或者技術(shù)達(dá)到全部數(shù)據(jù)的采集本身就是一件有悖自然規(guī)律的事情。除非所討論的范疇是形而上的,要不然以全體數(shù)據(jù)作為邏輯或者現(xiàn)實起點的探討本身就是詭辯術(shù)?!按髷?shù)據(jù)”迷思的建構(gòu)者們一方面自豪地標(biāo)榜大數(shù)據(jù)應(yīng)用的實操性,另一方面又為它的絕對性正名,這本身就是悖論。就目前和可預(yù)見的未來來看,“大數(shù)據(jù)”全數(shù)據(jù)模式的迷思意味顯而易見。且不說信息基礎(chǔ)設(shè)施在世界范圍內(nèi)的普及存在嚴(yán)重的不平衡性,即便未來實現(xiàn)了信息基礎(chǔ)設(shè)施的全部平等準(zhǔn)入,不同種族之間的文化沖突、商業(yè)力量對技術(shù)的利用和政治權(quán)力對技術(shù)化現(xiàn)實的規(guī)制都對數(shù)據(jù)資源的分配帶來了強烈的不可預(yù)知性,全數(shù)據(jù)模式帶有明顯的理想主義色彩。
目前,全體數(shù)據(jù)采集在現(xiàn)實中遇到的最大阻礙是個人信息泄露引發(fā)的侵權(quán)問題和冗余數(shù)據(jù)的低價值附加問題。私密信息的獲取難度降低了全數(shù)據(jù)采集的可行性,而大部分?jǐn)?shù)據(jù)的低可利用性實際上拉低了整體數(shù)據(jù)的質(zhì)量,即使所謂的全體數(shù)據(jù)(實質(zhì)上是可得到的巨大數(shù)據(jù),做不到全數(shù)據(jù)獲?。┠軌蜃鳛榉治鰧ο?,但大部分?jǐn)?shù)據(jù)不具有代表性會導(dǎo)致分析結(jié)果嚴(yán)重偏頗,其價值甚至比不上隨機抽樣獲得的結(jié)論價值。
大數(shù)據(jù)另外一個突出的特點是:不追求精確性,擁抱混雜性。從表面上看,如果相關(guān)分析技術(shù)能夠保證所有格式的數(shù)據(jù)均能被統(tǒng)一體系的分析標(biāo)準(zhǔn)所提取并剝離出有效信息進(jìn)行分析的話,那么,對數(shù)據(jù)混雜性的寬容的確能夠節(jié)省大量的人力物力,提高效率。但是,現(xiàn)實并非如此簡單。有業(yè)界人士撰文指出:數(shù)據(jù)和信息正呈現(xiàn)出爆炸性的增長,巨大的數(shù)據(jù)量已經(jīng)從TB級躍升至PB級,數(shù)據(jù)結(jié)構(gòu)也更加復(fù)雜,大部分?jǐn)?shù)據(jù)信息都屬于非結(jié)構(gòu)化數(shù)據(jù),各種數(shù)據(jù)格式之間互不兼容,而且人們對數(shù)據(jù)的訪問和使用更具隨機性,這些特點給數(shù)據(jù)的提取、存儲、管理和應(yīng)用帶來了很大困難。①王?。骸洞髷?shù)據(jù)時代如何應(yīng)對非結(jié)構(gòu)化信息狂潮》,泡泡網(wǎng),www.pcpop.com,2014年8月7日。此外,隨著傳統(tǒng)產(chǎn)業(yè)網(wǎng)絡(luò)化程度的提高,互聯(lián)網(wǎng)企業(yè)之間的競爭日趨激烈,企業(yè)的版權(quán)意識也不斷強化?;ヂ?lián)網(wǎng)不再是知識免費共享的烏托邦,越來越多的企業(yè)為了保護(hù)知識產(chǎn)權(quán)紛紛通過使用不同的程序語言、加密技術(shù)或者權(quán)限設(shè)置等措施加強對自身產(chǎn)品的保護(hù),這讓數(shù)據(jù)的采集和挖掘變的愈發(fā)困難。
大數(shù)據(jù)第三個為人熟知的特性是:不再是因果關(guān)系而是相關(guān)關(guān)系。相關(guān)關(guān)系是一種相對低級的關(guān)系分析。因為擁有龐大的數(shù)據(jù)基礎(chǔ),相關(guān)關(guān)系在商業(yè)領(lǐng)域上發(fā)揮著“小數(shù)據(jù)時代”意想不到的作用,商家可以在不關(guān)心為什么啤酒和紙尿布的銷售情況呈正相關(guān)只需把這兩件商品擺在相近位置的情況下就贏得高額利潤,但是,這種以經(jīng)濟(jì)目標(biāo)為準(zhǔn)則的短期利益對于推進(jìn)人類對客觀世界的認(rèn)識和人類知識體系的深化來說并沒有直接意義上的好處,頂多是提供了新的研究線索。大數(shù)據(jù)追捧的“相關(guān)關(guān)系”跟所有其他通過數(shù)學(xué)模型或量化研究得出來的相關(guān)關(guān)系一樣體現(xiàn)出解決問題時的相對性和局限性,并不具有顛覆意義。大數(shù)據(jù)的思維和技術(shù)方法更像是一種助推科學(xué)研究多面向發(fā)展的手段,它的工具性價值大于它的世界觀價值。
如果從邏輯推理的角度關(guān)照,大數(shù)據(jù)所謂的相關(guān)關(guān)系根本上還是一個個具體的碎片化的因果關(guān)系復(fù)雜綜合后的結(jié)果。把相關(guān)關(guān)系從因果關(guān)系中抽離出來禁不起推敲理論的推敲,在現(xiàn)實關(guān)系的重構(gòu)上表現(xiàn)出脆弱性。
預(yù)測是被大數(shù)據(jù)建構(gòu)者們公認(rèn)的核心功能?!按髷?shù)據(jù)的核心就是預(yù)測。大數(shù)據(jù)不是要像機器人一樣思考。它是把數(shù)據(jù)算法運用到海量的數(shù)據(jù)上來預(yù)測事情發(fā)生的可能性?!雹诰S克托·邁爾-舍恩伯格肯尼斯·庫克耶著,盛楊燕、周濤譯:《大數(shù)據(jù)時代——生活、工作與思維的大變革》,浙江人民出版社,2013年,第16頁。維克托對大數(shù)據(jù)預(yù)測功能的闡述明確區(qū)分了大數(shù)據(jù)預(yù)測和人工智能學(xué)習(xí)之間的不同,與人工智能主要依托于神經(jīng)網(wǎng)絡(luò)等新科學(xué)技術(shù)不同,大數(shù)據(jù)預(yù)測的主要工具是算法模型。
算法模型不是與生俱來的,它建立在總結(jié)歸納經(jīng)驗的基礎(chǔ)之上。算法所遵循的仍然是建立在因果思維和因果鏈條上的經(jīng)驗?zāi)J?。因此,以它為模型演繹所得的結(jié)論很難脫離因果邏輯的窠臼。從符號學(xué)的角度來講,算法本身是一套具有一定規(guī)則的符號體系。算法模型是多元的,它隨著變量和參數(shù)的改變具有一定的彈性和可調(diào)試性,因此,不同的算法有時候會得出不同的結(jié)果,而算法的可靠性則需要通過實踐的檢驗來不斷修正。算法模型的多元性決定了出于預(yù)測目的的大數(shù)據(jù)分析必然面對模型的選擇。什么樣的算法模型應(yīng)該被用于預(yù)測什么樣的事件趨勢掌握在大數(shù)據(jù)分析師的手中,關(guān)乎資源配置的權(quán)力,而有權(quán)力的地方則往往埋藏著政治經(jīng)濟(jì)關(guān)系的伏筆。
互聯(lián)網(wǎng)為迷思的建構(gòu)提供了便攜的物質(zhì)基礎(chǔ),從作為互聯(lián)網(wǎng)基礎(chǔ)語言的程序語言到作為互聯(lián)網(wǎng)內(nèi)容支撐的線下現(xiàn)實文化遷移后的文本呈現(xiàn),再到作為人的延伸的多媒體網(wǎng)絡(luò)生態(tài)元素,互聯(lián)網(wǎng)無時無處不體現(xiàn)為符合系統(tǒng)的綜合。大數(shù)據(jù)作為具有創(chuàng)造力的技術(shù)實在參與現(xiàn)實建構(gòu)以及作為現(xiàn)實建構(gòu)話語維度的話語實踐本身具有積極意義,“大數(shù)據(jù)”話語體系的秩序性建構(gòu)也理應(yīng)得到現(xiàn)實語境的擁護(hù),畢竟海量數(shù)據(jù)廢氣占用大量存儲資源限制并不是數(shù)據(jù)經(jīng)濟(jì)的最優(yōu)選擇,事實上,泛濫的數(shù)據(jù)垃圾已經(jīng)成為擺在數(shù)據(jù)生產(chǎn)者和消費者面前的巨大難題。只是,網(wǎng)絡(luò)社會與現(xiàn)實社會的選擇性互動使得這一困境在公眾頭腦中形成弱勢存在,當(dāng)技術(shù)的可供性有可能解決這一現(xiàn)實困境時,迷思的建立便擁有了龐大的群眾基礎(chǔ)。網(wǎng)絡(luò)社會與現(xiàn)實社會的同根性(決定了公眾頭腦中網(wǎng)絡(luò)拯救的可能性)和異質(zhì)性(決定了拯救失敗的可原諒性)共同促成了公眾對于互聯(lián)網(wǎng)技術(shù)癲狂般的迷思性崇拜。正如文森特·莫斯可所說,網(wǎng)絡(luò)空間不僅是迷思上演的地方,它同時也促進(jìn)了今天的迷思性思維方式,因為它體現(xiàn)了一種模糊意識。迷思依賴于這樣一種意識:我們正在遠(yuǎn)離一個時代——工業(yè)時代,并正在進(jìn)入一個新的時代——擁有許多與電腦相關(guān)的名字的時代,例如“信息時代”“數(shù)字時代”③文森特·莫斯可著,黃典林譯:《數(shù)字化崇拜——迷思、權(quán)力與賽博空間》,北京大學(xué)出版社,2010年,第29頁。,當(dāng)然,也包括所謂的“大數(shù)據(jù)時代”。