文/劉林平 唐斌斌 蔣和超
大數(shù)據(jù)有“原罪”嗎?
——與潘綏銘教授商榷
文/劉林平 唐斌斌 蔣和超
《新視野》2016年第3期發(fā)表了潘綏銘教授《生活是如何被篡改為數(shù)據(jù)的?——大數(shù)據(jù)套用到研究人類的“原罪”》一文(以下簡(jiǎn)稱“潘文”)。他認(rèn)為,大數(shù)據(jù)不能套用到對(duì)人類的研究中。大數(shù)據(jù)把人類的行為及其結(jié)果也給量化了,從自然科學(xué)侵入到人文社會(huì)研究,從“科學(xué)”蛻變?yōu)椤拔茖W(xué)主義”。大數(shù)據(jù)在操作層次上將人類生活實(shí)踐改造成“數(shù)據(jù)”的過(guò)程中不可避免會(huì)出現(xiàn)“現(xiàn)實(shí)生活被裁剪”“社會(huì)情境被忽視”“主體建構(gòu)被抹煞”“生活意義被取消”的問(wèn)題。“潘文”還進(jìn)一步認(rèn)為,量化研究具有原罪,其缺陷與弊病根本無(wú)法避免,“大數(shù)據(jù)崇拜”,其實(shí)就是“唯科學(xué)主義”在人類歷史面前一敗涂地后的末日哀鳴。我們不能同意這些論斷,下面對(duì)此提出若干商榷意見(jiàn)。
關(guān)于大數(shù)據(jù),現(xiàn)在還沒(méi)有得到公認(rèn)的準(zhǔn)確定義。一般認(rèn)為,大數(shù)據(jù)不同于傳統(tǒng)數(shù)據(jù)之處在于:它不是通過(guò)抽樣調(diào)查所獲取的樣本數(shù)據(jù),而是人類活動(dòng)的實(shí)時(shí)記錄,并大都可以通過(guò)互聯(lián)網(wǎng)存儲(chǔ)、獲取、交換和分析?!芭宋摹敝袑?duì)于大數(shù)據(jù)(包含小數(shù)據(jù))的性質(zhì)、特點(diǎn)存在若干誤解,這是需要澄清的。
其一,大數(shù)據(jù)記錄的都是單獨(dú)個(gè)人的行為嗎?
“潘文”引用了一篇文章作為依據(jù)說(shuō)“大數(shù)據(jù)記錄的都是單獨(dú)個(gè)人的行為”,然后就此質(zhì)問(wèn)“在這個(gè)現(xiàn)實(shí)世界里,難道真的存在一種與他人毫無(wú)關(guān)系的個(gè)人行為嗎?難道個(gè)人的一切行為,不都是在一定的人際關(guān)系中,才會(huì)產(chǎn)生,才會(huì)帶來(lái)某種結(jié)果嗎”?
事實(shí)是,大數(shù)據(jù)既有個(gè)體(比如網(wǎng)上購(gòu)物)層面的數(shù)據(jù),也有組織層面(比如企業(yè)活動(dòng))的數(shù)據(jù),還有地區(qū)層面乃至全球?qū)用娴臄?shù)據(jù);既有個(gè)體單獨(dú)活動(dòng)(比如瀏覽網(wǎng)頁(yè))的數(shù)據(jù),也有人際交往(比如Facebook、twitter和微信、QQ等的好友關(guān)系)的數(shù)據(jù)。而利用電話、手機(jī)與社交網(wǎng)絡(luò)的大數(shù)據(jù)開(kāi)展的研究已有不少。比如,社交網(wǎng)絡(luò)與經(jīng)濟(jì)發(fā)展的研究、社會(huì)網(wǎng)與戀愛(ài)的研究、弱關(guān)系與信息傳播的研究等。
其二,精神活動(dòng)的信息無(wú)法獲得、無(wú)法監(jiān)測(cè)嗎?
“潘文”斷言:“人類一切精神活動(dòng)的信息,在可預(yù)見(jiàn)的未來(lái),仍然不但是無(wú)法獲得的,而且根本就是無(wú)法監(jiān)測(cè)的?!钡?,網(wǎng)絡(luò)上人們所發(fā)布的大量文獻(xiàn)(博客、微博、照片等)難道不是人們精神活動(dòng)的結(jié)果嗎?這些難道不是大數(shù)據(jù)的組成部分嗎?與此相連,“潘文”指出:“無(wú)論大數(shù)據(jù)監(jiān)測(cè)到多少人類的行為,它究竟是如何分辨出其中主體建構(gòu)的成分呢?首先,以網(wǎng)購(gòu)的大數(shù)據(jù)為例,即使您收集到全部的上網(wǎng)痕跡,而且全都數(shù)字化地一覽無(wú)余,那您怎么知道人家就真的就是這樣想的呢?這種‘客觀測(cè)定’,離礦物學(xué)很近,可是人卻是有主觀意志的啊,您是怎么監(jiān)測(cè)到的?連物理學(xué)還有個(gè)‘測(cè)不準(zhǔn)原理’呢,何況對(duì)于人的主觀意愿?”
在這一段話中,潘教授首先否認(rèn)在大數(shù)據(jù)中有關(guān)于人類思維、精神活動(dòng)成果的數(shù)據(jù)存在;其次,他將人們的行為與想法(動(dòng)機(jī)、期望、判斷等)割裂開(kāi)來(lái),認(rèn)為以客觀行為完全不能判斷主觀想法;再次,以網(wǎng)絡(luò)購(gòu)物數(shù)據(jù)為例,他也忽視了網(wǎng)購(gòu)中購(gòu)物者對(duì)商品與店家的直接評(píng)價(jià)。最后,潘教授關(guān)于大數(shù)據(jù)測(cè)不準(zhǔn)的說(shuō)法,正是基于對(duì)數(shù)據(jù)的不了解。任何測(cè)量都有誤差,大數(shù)據(jù)正是通過(guò)大樣本消除誤差。大數(shù)據(jù)的客觀性有利于消除問(wèn)卷調(diào)查中易于產(chǎn)生的回憶誤差。物理學(xué)中的“測(cè)不準(zhǔn)”原理并不是普遍適用于任何自然現(xiàn)象與社會(huì)現(xiàn)象的,如果人們的主觀意愿完全是測(cè)不準(zhǔn)的,那么社會(huì)科學(xué)中關(guān)于主觀意志、精神現(xiàn)象的研究就是瞎折騰。
其三,大數(shù)據(jù)不能表現(xiàn)人的偏好嗎?
“潘文”說(shuō):“以購(gòu)物網(wǎng)站記錄下來(lái)的數(shù)據(jù)為例,它確實(shí)可以容納數(shù)千萬(wàn)人在購(gòu)物時(shí)不知不覺(jué)地留下的近乎無(wú)窮無(wú)盡的痕跡;但是,這就能反映出這些人的購(gòu)物偏愛(ài)嗎?難道這些人就再也不在實(shí)體商店中買東西了嗎?難道他們?cè)谝粫r(shí)一事上表現(xiàn)出來(lái)的偏愛(ài)就永恒不變嗎?難道他們的每一次上網(wǎng)購(gòu)物都能得到自我滿足嗎?”
潘教授認(rèn)為大數(shù)據(jù)不能表現(xiàn)人的偏好,這完全是誤解。就以他所提出的購(gòu)物數(shù)據(jù)為例,首先,網(wǎng)上購(gòu)物對(duì)商品與店家服務(wù)的評(píng)價(jià),對(duì)于品牌、樣式、質(zhì)地、價(jià)格的選擇就表現(xiàn)出了偏好。其次,潘教授質(zhì)疑說(shuō)“難道這些人就再也不在實(shí)體商店中買東西了嗎”?他這里的意思似乎是要用網(wǎng)上購(gòu)物的數(shù)據(jù)去推論實(shí)體店購(gòu)物行為。網(wǎng)上購(gòu)物數(shù)據(jù)反映的是網(wǎng)上購(gòu)物的行為,其中也包含了偏好,至于是否可以用來(lái)推論實(shí)體店購(gòu)物行為與偏好則是不同的問(wèn)題,實(shí)體店購(gòu)物也有實(shí)體店購(gòu)物的數(shù)據(jù),這些數(shù)據(jù)也是大數(shù)據(jù)的一部分。潘教授將兩種購(gòu)物形式混淆在一起,以為只有網(wǎng)上購(gòu)物才有大數(shù)據(jù),而實(shí)體店購(gòu)物則沒(méi)有,網(wǎng)上購(gòu)物數(shù)據(jù)不能推論實(shí)體店購(gòu)物行為,并由此莫名其妙地去責(zé)難大數(shù)據(jù)。再次,潘教授接著說(shuō)“難道他們?cè)谝粫r(shí)一事上表現(xiàn)出來(lái)的偏愛(ài)就永恒不變嗎”?這一質(zhì)疑更加表明他對(duì)大數(shù)據(jù)的不了解,網(wǎng)上購(gòu)物所形成的數(shù)據(jù)是一個(gè)連續(xù)的、不同時(shí)點(diǎn)所組成的面板數(shù)據(jù),它恰好可以很好地反映人們購(gòu)物行為與偏好隨著時(shí)間變化的變化,而一次或數(shù)次問(wèn)卷調(diào)查卻難以反映這種變化。
其四,大數(shù)據(jù)是空中樓閣嗎?
“潘文”認(rèn)為:“我們的一切社會(huì)背景、生活狀況和成長(zhǎng)經(jīng)歷……往往僅僅存在于我們自己的經(jīng)驗(yàn)與記憶之中;往往難于言表,更往往無(wú)法記錄。從‘客觀監(jiān)測(cè)’的角度來(lái)說(shuō),根本就是‘風(fēng)過(guò)無(wú)痕’?!比缓缶蛻{此推斷“對(duì)于了解人類生活而言,大數(shù)據(jù)其實(shí)根本就是空中樓閣”。問(wèn)題在于:如果我們的社會(huì)背景、生活狀況和成長(zhǎng)經(jīng)歷“難于言表、無(wú)法記錄”,那么社會(huì)科學(xué)又憑什么研究社會(huì)與人呢?潘教授對(duì)性工作者的研究,不是也要表現(xiàn)和記錄她們的生活嗎?如果這些東西是不能“客觀監(jiān)測(cè)”而只能主觀回憶的,潘教授又怎么保證自己研究的客觀、真實(shí)與可靠呢?
這里的關(guān)鍵在于,“我們的一切社會(huì)背景、生活狀況和成長(zhǎng)經(jīng)歷……往往僅僅存在于我們自己的經(jīng)驗(yàn)與記憶之中”,所指的“我們”只是現(xiàn)在或過(guò)去的一代或多代人,由于時(shí)代的局限,在互聯(lián)網(wǎng)及其相關(guān)設(shè)備還沒(méi)有得到充分應(yīng)用的前提下,的確,許多生活經(jīng)歷只能用回憶的方式去復(fù)述。但是,時(shí)代是在發(fā)展的,全方位記載人們活動(dòng)軌跡的可能性越來(lái)越大,而實(shí)際的記載也越來(lái)越多,就像凱文·凱利所描述的“生活流”。潘教授則以靜止的觀點(diǎn)看待科技的發(fā)展,妄下斷言。
與潘教授所說(shuō)的正好相反,大數(shù)據(jù)并不是空中樓閣,而是人們生活的實(shí)時(shí)記錄,在這個(gè)意義上,它超出回憶性的數(shù)據(jù),更為真實(shí)與準(zhǔn)確。它也不僅僅是人們生活的自然、物理與生理記錄,它也是可以記載人們的社會(huì)交往、精神生活與思維活動(dòng)產(chǎn)物的數(shù)據(jù)。
“潘文”認(rèn)為,對(duì)大數(shù)據(jù)進(jìn)行加工:界定、分類、定義、賦值 “完完全全是研究者自己在主觀地、人為地、強(qiáng)制地‘整理’那些‘可獲得信息’,把人類生活的痕跡,完完全全地篡改為自己的世界觀和價(jià)值觀所能接受的‘?dāng)?shù)據(jù)’。往好里說(shuō),這叫做無(wú)可避免地加工;往壞里說(shuō),這就是赤裸裸地偽造”。將大數(shù)據(jù)加工看作是“篡改”,然后說(shuō)成是“赤裸裸地偽造”,這里完全是一個(gè)偷換概念甚至是一個(gè)赤裸裸更換概念的過(guò)程。
人類的任何研究都是一個(gè)加工過(guò)程,如果不加工,那我們就無(wú)法認(rèn)知任何事物。質(zhì)性研究、問(wèn)卷調(diào)查和理論研究都是一個(gè)加工過(guò)程。沒(méi)有加工就沒(méi)有理論抽象。即使是最初淺的認(rèn)知都有加工的過(guò)程。
進(jìn)一步說(shuō),任何定量的研究過(guò)程都有一個(gè)數(shù)據(jù)加工的過(guò)程,即使使用自己設(shè)計(jì)的問(wèn)卷進(jìn)行調(diào)查,數(shù)據(jù)加工也不可避免。研究者必須要對(duì)數(shù)據(jù)進(jìn)行審查、清理、重新分類等,才能進(jìn)行研究工作。在質(zhì)性研究過(guò)程中,研究者對(duì)觀察、訪談資料也必須進(jìn)行加工整理,完全不進(jìn)行加工地地道道使用原始資料的情況非常罕見(jiàn)。在這一加工過(guò)程中,研究者不可避免地要從自己的研究目的出發(fā)來(lái)使用數(shù)據(jù),世界觀與價(jià)值觀內(nèi)涵在研究者的頭腦中,當(dāng)然會(huì)發(fā)揮作用。不過(guò),對(duì)數(shù)據(jù)的加工有好的加工和壞的加工,無(wú)論是定性研究還是定量研究都是如此。
問(wèn)題在于:潘教授認(rèn)為對(duì)大數(shù)據(jù)的加工一定是壞的加工,甚至是篡改和偽造。不知道他究竟有何證據(jù):潘教授是閱讀并仔細(xì)研究了有關(guān)大數(shù)據(jù)的大量研究才有此發(fā)現(xiàn)呢?還是基于本人的“世界觀與價(jià)值觀”就做此判斷呢?如果潘教授認(rèn)定大數(shù)據(jù)加工是“赤裸裸地偽造”,他應(yīng)該舉出一些典型的案例來(lái)支持自己的判斷。
在大數(shù)據(jù)的研究中,對(duì)原始數(shù)據(jù)進(jìn)行加工已經(jīng)成為一個(gè)非常專業(yè)的數(shù)據(jù)挖掘過(guò)程。這一過(guò)程包含對(duì)各種各樣的數(shù)據(jù)進(jìn)行抓?。ǐ@?。⒄?、分類和匹配,需要一定的技術(shù)手段,但與質(zhì)性研究中獲取數(shù)據(jù)、整理記錄、分類抽象在思維邏輯上并無(wú)本質(zhì)區(qū)別。而在潘教授看來(lái),自己對(duì)性工作者的調(diào)查與研究過(guò)程是一個(gè)正確的過(guò)程(盡管他沒(méi)有明說(shuō)),而大數(shù)據(jù)的研究加工過(guò)程則一定錯(cuò)誤。我們想請(qǐng)教潘教授的是:在您的研究過(guò)程中,世界觀與價(jià)值觀就沒(méi)有發(fā)揮作用嗎?您本人對(duì)性工作者的研究是如何保證不是一個(gè)“篡改”與“偽造”的過(guò)程呢?
潘教授所謂的數(shù)據(jù)“篡改”或“偽造”的說(shuō)法,還表明他將研究的認(rèn)知過(guò)程與研究倫理混淆起來(lái)??茖W(xué)研究并不是一個(gè)絕對(duì)正確的過(guò)程,在數(shù)據(jù)處理(清理、分類、調(diào)整等)的過(guò)程中出現(xiàn)錯(cuò)誤是正?,F(xiàn)象,但這與弄虛作假違反研究倫理是完全不同性質(zhì)的問(wèn)題。
潘教授的自相矛盾還在于:一方面,他承認(rèn)用問(wèn)卷調(diào)查的數(shù)據(jù)進(jìn)行研究是可以的,但另一方面,他卻斷然否認(rèn)大數(shù)據(jù)可以用于社會(huì)科學(xué)研究。如果只是從對(duì)數(shù)據(jù)的加工方面來(lái)看,問(wèn)卷調(diào)查主要是一種事前加工的過(guò)程(即預(yù)設(shè)題目來(lái)進(jìn)行測(cè)量),大數(shù)據(jù)是一種事后加工的過(guò)程(即直接對(duì)數(shù)據(jù)進(jìn)行加工),在是否加工的問(wèn)題上,兩者并無(wú)本質(zhì)區(qū)別。
基于對(duì)大數(shù)據(jù)的若干誤解,“潘文”認(rèn)為:“大數(shù)據(jù)并不是研究者主動(dòng)去收集的人類行為及其結(jié)果,而是五花八門的所謂‘客觀記錄’……大數(shù)據(jù)所獲得的信息,首先是極端片面;其次是漫無(wú)邊際;第三是支離破碎;第四是毫無(wú)意義;根本不能用于任何量化的分析?!边@一結(jié)論是非常武斷的。
其一,大數(shù)據(jù)雖然不是社會(huì)科學(xué)研究者設(shè)計(jì)好的類似問(wèn)卷調(diào)查所獲取的數(shù)據(jù)。但大數(shù)據(jù)并不是就沒(méi)有設(shè)計(jì)。比如,我們可以利用手機(jī)來(lái)收集使用人的方位,這牽涉到經(jīng)緯度(經(jīng)緯度是人們通常用來(lái)準(zhǔn)確定位地理位置的指標(biāo)),對(duì)人的地理位置移動(dòng)的測(cè)量是非常準(zhǔn)確的。這絕不是潘所說(shuō)的“漫無(wú)邊際”。
其二,大數(shù)據(jù)中的許多數(shù)據(jù),主要是根據(jù)自然科學(xué)(包括工程技術(shù)科學(xué)、醫(yī)學(xué)等)現(xiàn)有測(cè)量方法而記錄和呈現(xiàn)的,社會(huì)、人文指標(biāo)較少,但并非沒(méi)有,比如社交網(wǎng)站中的家庭、婚姻與朋友狀況。這說(shuō)明社會(huì)科學(xué)的研究及其測(cè)量方法還沒(méi)有自然科學(xué)成熟和得到社會(huì)的廣泛認(rèn)可與應(yīng)用,但并不意味著大數(shù)據(jù)就不能運(yùn)用到社會(huì)科學(xué)研究中,因?yàn)樯鐣?huì)科學(xué)研究也往往借用自然科學(xué)所使用的指標(biāo),比如醫(yī)療社會(huì)學(xué)的研究就必須使用醫(yī)學(xué)測(cè)量的指標(biāo)。進(jìn)一步說(shuō),一些指標(biāo)既是自然的也是社會(huì)的,比如年齡、性別等,既反映人的自然屬性,也表現(xiàn)了人的社會(huì)屬性。
其三,潘教授認(rèn)為大數(shù)據(jù)不能用于任何量化分析,但是,量化的商業(yè)分析也不行嗎?事實(shí)是,大數(shù)據(jù)不但可以用于自然科學(xué)研究,也可以運(yùn)用于社會(huì)科學(xué)研究,不但可以進(jìn)行商業(yè)、管理分析,也可以用于社會(huì)分析。若干大數(shù)據(jù)的研究已經(jīng)證明了這一點(diǎn)。
其四,“潘文”認(rèn)為大數(shù)據(jù)“極端片面”“支離破碎”,指出:“所謂的大數(shù)據(jù),其實(shí)一點(diǎn)都沒(méi)有超出‘小數(shù)據(jù)’原有的局限性:裁剪生活,撕碎人生;非要把整體生存的‘人’,視為一堆雜亂的零碎。在實(shí)際生活中,人類絕對(duì)不是,也不可能是這樣來(lái)‘量化地’認(rèn)知和行動(dòng)的。因此,大數(shù)據(jù)其實(shí)并不是幫助人類思考,而是企圖取代和控制人類的生活經(jīng)驗(yàn),是人工智能的噩兆?!?/p>
在潘教授看來(lái),定量的數(shù)據(jù)就是剪裁生活,就是撕碎人生。但即使是質(zhì)性研究,比如潘教授對(duì)性工作者的研究,難道不剪裁生活嗎?為什么用數(shù)據(jù)就是剪裁就是撕碎,而用訪談或觀察進(jìn)行質(zhì)性研究就不是撕碎呢?
對(duì)人與社會(huì)的研究,都是選擇一個(gè)或數(shù)個(gè)側(cè)面,任何的研究都是裁剪,只有裁剪的好壞,而沒(méi)有剪裁不剪裁的問(wèn)題。完整地表現(xiàn)一個(gè)人、一個(gè)群體或一個(gè)社會(huì)的全部生活是基本不可能的事情。定量與定性研究在表現(xiàn)人的生活時(shí),區(qū)別在于:前者對(duì)生活進(jìn)行測(cè)量,將生活理解為一個(gè)個(gè)變量,尋找變量之間的關(guān)系;后者則以一個(gè)一個(gè)的故事進(jìn)行敘述,從中探討故事的前因后果。定量研究沒(méi)有可能也沒(méi)有必要窮盡所有變量,只要抓住關(guān)鍵的變量探討其中的關(guān)系就可以了。同樣,定性研究也沒(méi)有可能沒(méi)有必要將生活的所有細(xì)枝末節(jié)都呈現(xiàn)出來(lái)。
潘教授的邏輯混亂在于:他將現(xiàn)實(shí)的人的生活與對(duì)這種生活的研究混為一談。的確,如潘教授所說(shuō),人們的實(shí)際生活是完整的。但是,對(duì)此進(jìn)行研究卻必須有所取舍。潘教授能否告訴我們,你從頭至尾完完整整地記錄或敘述過(guò)一個(gè)性工作者的全部人生歷程嗎?如果有,你是用什么方法與技術(shù)手段做到這一點(diǎn)的呢?
“潘文”在結(jié)論處提出所謂“原罪”的說(shuō)法:“原罪不但是與生俱來(lái)的,而且是背負(fù)終身的,不能通過(guò)人自己的救贖而被消除。很可惜,量化研究也是如此。無(wú)論其技術(shù)手段如何發(fā)達(dá),無(wú)論其數(shù)據(jù)多么大,一旦應(yīng)用于人文社會(huì)研究,其缺陷與弊病就根本無(wú)法避免,充其量也不過(guò)是程度的減輕而已?!?/p>
世界上任何一種研究范式(包含方法、手段與技術(shù))都是有缺陷的,量化研究當(dāng)然有其缺陷,但并不能被武斷地?cái)嘌跃哂小霸铩薄T谂私淌诳磥?lái),量化研究(包括大數(shù)據(jù))將現(xiàn)實(shí)生活剪裁得支離破碎、忽視了社會(huì)情景、抹煞了主體建構(gòu)、取消了生活意義。他無(wú)視定量研究作為社會(huì)科學(xué)的主流研究范式所取得的豐碩成果,混淆科學(xué)研究的性質(zhì)、方法、過(guò)程與其社會(huì)功能的區(qū)別,以偏見(jiàn)亂下結(jié)論,以靜止、片面的眼光看待大數(shù)據(jù)的發(fā)展。
在我們看來(lái),大數(shù)據(jù)的發(fā)展是當(dāng)代科技革命的產(chǎn)物,它給社會(huì)科學(xué)研究提供了新的機(jī)遇,有可能帶來(lái)研究范式的革命性變化。它不但適用于自然科學(xué)領(lǐng)域里的研究,也同樣可以并且實(shí)際上被運(yùn)用于社會(huì)科學(xué)研究領(lǐng)域。當(dāng)然,世界范圍里運(yùn)用大數(shù)據(jù)進(jìn)行社會(huì)科學(xué)研究還起步不久,具體的大數(shù)據(jù)也有其缺陷,但它猶如新生的嬰兒,對(duì)此抱有期望是正常的,而將之扼殺卻是罪惡的。
(劉林平系南京大學(xué)社會(huì)學(xué)院教授,唐斌斌、蔣和超系南京大學(xué)社會(huì)學(xué)院博士研究生;摘自《新視野》2016年第4期)