□吳靜
當(dāng)歷史跨入互聯(lián)網(wǎng)時(shí)代,“數(shù)據(jù)”成為一種極為重要的資源橫空出世。數(shù)據(jù)傳遞的速度與效率決定著經(jīng)濟(jì)體是否能在競(jìng)爭(zhēng)中占據(jù)有利的地位。隨著互聯(lián)網(wǎng)的普及,其低價(jià)、高效、無(wú)邊界的特性更以非同一般的加速度將整個(gè)世界縱深一體地卷入其中?!皵?shù)字化生存”無(wú)論在個(gè)體還是在社會(huì)經(jīng)濟(jì)層面都從預(yù)言走向現(xiàn)實(shí)。云計(jì)算、物聯(lián)網(wǎng)、5G技術(shù)以及人工智能紛紛從研究前沿轉(zhuǎn)向近距離生活?!按髷?shù)據(jù)時(shí)代”的來臨使線上與線下的界限變得模糊起來,每一點(diǎn)私人或社會(huì)性痕跡都以數(shù)據(jù)的形式被捕捉和記錄。一種樂觀性的看法傾向于將這種覆蓋全球的數(shù)字化網(wǎng)絡(luò)所負(fù)載的信息看做共享性的“一般數(shù)據(jù)”而加以贊揚(yáng),并將其與作為基礎(chǔ)的、“去中心化”的互聯(lián)網(wǎng)系統(tǒng)一起視之為新的自由的可能性。事實(shí)真的如此嗎?對(duì)數(shù)據(jù)的這種過高期待是否有可能回落到更具有批判性的分析上來呢?
自20世紀(jì)后期以降,數(shù)字化網(wǎng)絡(luò)的發(fā)展和應(yīng)用已經(jīng)不再單純地作為一種輔助性的工具系統(tǒng),甚至遠(yuǎn)遠(yuǎn)超出了信息產(chǎn)業(yè)的單一領(lǐng)域,滲透和嵌入社會(huì)經(jīng)濟(jì)的幾乎各個(gè)層面之中,它既產(chǎn)生也依賴于各種電子化的數(shù)據(jù)。于是,當(dāng)“大數(shù)據(jù)時(shí)代”的稱謂越來越取代“信息時(shí)代”而成為時(shí)下一切問題討論最鮮亮的背景色的時(shí)候,人們常常會(huì)有一種直觀主義的錯(cuò)覺,認(rèn)為數(shù)據(jù)等于信息,或者說數(shù)據(jù)是信息最先進(jìn)也最優(yōu)化的表達(dá)形式。數(shù)據(jù)的提取或捕獲直接導(dǎo)向目的性,而大數(shù)據(jù)本身則意味著超大容量信息(或知識(shí))的自然呈現(xiàn)。也有人將數(shù)據(jù)視為生產(chǎn)資料或資產(chǎn),認(rèn)為它只有實(shí)現(xiàn)商業(yè)價(jià)值才有意義。實(shí)際上,數(shù)據(jù)并不會(huì)自然地產(chǎn)生信息價(jià)值,也不必然涉及知識(shí)或目的。數(shù)據(jù)的產(chǎn)生由來已久,甚至早在有電子記錄之前已存在,只是借助于計(jì)算機(jī)和互聯(lián)網(wǎng)技術(shù)才使得對(duì)海量數(shù)據(jù)的記錄和存儲(chǔ)成為可能。物聯(lián)網(wǎng)(the internet of things)的出現(xiàn)更使得數(shù)據(jù)的產(chǎn)生超越出傳統(tǒng)的范疇,記錄個(gè)體生活的每一個(gè)可能的側(cè)面和細(xì)節(jié),從而產(chǎn)生了大量的數(shù)據(jù)冗余。但數(shù)據(jù)的收集和分析并不是一個(gè)自然而然的無(wú)阻力過程,它必須經(jīng)過被提取、精煉以及再組織,才能有效地呈現(xiàn)出信息。并非所有的數(shù)據(jù)都有意義,大多數(shù)數(shù)據(jù)需要被清理。即使是留存必要的數(shù)據(jù),也必須經(jīng)過標(biāo)準(zhǔn)化再組織過程并盡可能減少冗余。
孤立的、零散的、雜亂無(wú)章的數(shù)據(jù)意義有限。數(shù)據(jù)量越大,其間的聯(lián)系越多維,能夠產(chǎn)生的用途也就越大。這也就意味著,所謂的“大數(shù)據(jù)時(shí)代”的形成需要兩個(gè)必要的條件:首先,是數(shù)字化技術(shù)在社會(huì)生產(chǎn)生活等多方面的普及,各種商用、民用軟件系統(tǒng)及平臺(tái)對(duì)日常數(shù)據(jù)的捕捉可以以高效低成本的方式進(jìn)行;其次,高能介質(zhì)的出現(xiàn)則使海量數(shù)據(jù)的存儲(chǔ)成為可能。在這樣的前提之下,數(shù)據(jù)作為一種新的資源,其重要性和影響日益突顯出來。但即便如此,這樣被存儲(chǔ)下來的數(shù)據(jù)如果不經(jīng)過提煉、分析和優(yōu)化,仍然是不具有可讀性的,它們就如同一堆胡亂擺放的音符,并不會(huì)自然組成或優(yōu)美或震撼人心的樂章。于是,讀取數(shù)據(jù)的能力就成為企業(yè)(數(shù)據(jù)價(jià)值的發(fā)掘最早體現(xiàn)在商業(yè)上)提高競(jìng)爭(zhēng)力的核心能力,并且隨著這種重要性的進(jìn)一步彰顯,也催生出專業(yè)從事數(shù)據(jù)提取和分析的行業(yè)。
然而,數(shù)據(jù)的提取和分析首先要解決的是目的問題,即大數(shù)據(jù)的決策結(jié)構(gòu)設(shè)計(jì),而這正是算法(algorithm)的任務(wù)。在計(jì)算機(jī)研究領(lǐng)域,算法指的是用一系列可執(zhí)行的清晰指令的系統(tǒng)方法描述、解決問題的策略機(jī)制。用哲學(xué)的語(yǔ)言來說,算法實(shí)際上是數(shù)據(jù)使用的問題式,它決定了數(shù)據(jù)在何種意義上可以成為信息。在直觀主義地將數(shù)據(jù)等同于信息的理解模式中,人們通常以為只需要借助于一定的專業(yè)性方法,就可以使數(shù)據(jù)的有效性體現(xiàn)出來,但實(shí)際上,這樣做對(duì)于分析方法的確定和數(shù)據(jù)之間關(guān)聯(lián)的判斷則常常導(dǎo)致過于依賴經(jīng)驗(yàn)主義。一個(gè)顯而易見的事實(shí)被忽略了,即數(shù)據(jù)的生成和顯現(xiàn)本身都是符碼性的,它們是某種事實(shí)(fact)的表征,它和自然語(yǔ)言一樣,同樣是社會(huì)關(guān)系的構(gòu)型。然而,另外一方面,它和自然語(yǔ)言不一樣的地方在于,任何一種自然語(yǔ)言體系都是一個(gè)由文化和習(xí)慣賦予了意義的既定結(jié)構(gòu),它從概念本身到有意識(shí)的表達(dá)都被這個(gè)意義體系內(nèi)在化,而數(shù)據(jù)則完全不同,它的生成和在場(chǎng)都以不連續(xù)性的方式體現(xiàn)出來。不是所有的數(shù)據(jù)都具有同樣的重要性,不是所有的數(shù)據(jù)之間都具有相關(guān)性,甚至在不同的分析方法中,數(shù)據(jù)之間的相關(guān)性也可以發(fā)生改變。這也就意味著,數(shù)據(jù)作為一種語(yǔ)言構(gòu)型,它不是如自然語(yǔ)言一般在既定的意義框架內(nèi)顯現(xiàn),它對(duì)事實(shí)的表征,它所表征的事實(shí)具有的意義都需要被建構(gòu)性地生成,甚而是動(dòng)態(tài)性地生成。
阿爾都塞在著名的《意識(shí)形態(tài)與國(guó)家意識(shí)形態(tài)機(jī)器》中曾用“質(zhì)詢”(interpellation,也譯作“喚問”)來描述語(yǔ)言和主體的建構(gòu)性在場(chǎng)的關(guān)系?!巴ㄟ^我們稱之為質(zhì)詢的那種非常明確的活動(dòng),在個(gè)人中間招募主體(它招募所有的個(gè)人)或把個(gè)人‘改造’成主體(它改造所有的個(gè)人)?!盵1]然而,在這一被強(qiáng)烈構(gòu)架起來的質(zhì)詢場(chǎng)景中,被質(zhì)詢的個(gè)人(阿爾都塞戲謔地將其稱為“演員”)的立場(chǎng)卻并非是封閉和固定的,而是在不同的情境(在阿爾都塞那里是意識(shí)形態(tài))中條件性地被建構(gòu)的。語(yǔ)言質(zhì)詢的實(shí)施通過各種在語(yǔ)言結(jié)構(gòu)內(nèi)部早已被結(jié)構(gòu)化的概念或范疇對(duì)被質(zhì)詢的個(gè)體進(jìn)行選擇或排除,以確定個(gè)體的社會(huì)性定位(角色),并要求他(們)/她(們)按照被質(zhì)詢的身份行動(dòng)或應(yīng)對(duì)。這些結(jié)構(gòu)化的概念或范疇包括但不僅限于性別、職業(yè)、年齡、族群、階級(jí),等等。這些因素并非外在化的質(zhì)詢本身加諸被質(zhì)詢者,質(zhì)詢的過程只是使得在被質(zhì)詢個(gè)體身上以“潛存”(the virtual)形式存在的構(gòu)型定位在質(zhì)詢所制造的情境中變?yōu)椤皩?shí)存”(the real)。數(shù)據(jù)的被調(diào)用過程正是一個(gè)與此相類似的運(yùn)作。然而,略微有所不同的地方在于,與質(zhì)詢對(duì)主體的建構(gòu)過程相逆,數(shù)據(jù)的意義給予并不是預(yù)先被設(shè)定好的。也就是說,阿爾都塞的質(zhì)詢過程所使用的區(qū)分性因素(性別、職業(yè)、年齡、族群、階級(jí),等等)不但早已在語(yǔ)言或文化的語(yǔ)境中被高度結(jié)構(gòu)化,同時(shí)也是被質(zhì)詢個(gè)體自身身份的某個(gè)維度。而數(shù)據(jù)則不同,數(shù)據(jù)的獲得是隨機(jī)或零散的,并非來源于它后來所構(gòu)建起來的意義(或真相)。數(shù)據(jù)真正的意義不取決于它的來源方式或本身,而取決于將它與其他數(shù)據(jù)聯(lián)系起來的意義承載模型。
這一視角提供了理解算法的路徑入口,因?yàn)闃?gòu)建起數(shù)據(jù)的意義模型的正是算法。當(dāng)一種算法被制造出來的時(shí)候,零散的數(shù)據(jù)被給予立場(chǎng)并與其他數(shù)據(jù)之間建立起聯(lián)系。算法不是數(shù)據(jù)的內(nèi)在結(jié)構(gòu),它是被有目的性地制造出來的數(shù)據(jù)的外在性空間,從而具有生產(chǎn)上的無(wú)限可能性。也正因?yàn)槿绱?,即使是最日常的?shù)據(jù),也可以被不同的算法多重地質(zhì)詢。不同的目的產(chǎn)生不同的算法,它既取決于經(jīng)驗(yàn)性的判斷,也體現(xiàn)出對(duì)未知進(jìn)行探索的可能。算法的不同目的和結(jié)構(gòu)創(chuàng)造了數(shù)據(jù)之間的關(guān)系,這些關(guān)系在算法之外未必成立。大數(shù)據(jù)真正的力量不在于挖掘數(shù)據(jù),更不是對(duì)已經(jīng)被電子化的數(shù)據(jù)的事實(shí)來源進(jìn)行復(fù)原,而在于尋找數(shù)據(jù)之間已知或未知的關(guān)聯(lián)性,即對(duì)數(shù)據(jù)所表征的真相或意義的挖掘。數(shù)字經(jīng)濟(jì)所依賴的恰恰是對(duì)數(shù)據(jù)背后的真相和意義所進(jìn)行的判斷。
算法對(duì)數(shù)據(jù)的質(zhì)詢與其說勾勒出數(shù)據(jù)的邊界,倒不如說是建構(gòu)起了數(shù)據(jù)的綜合總體性表面。數(shù)據(jù)本身對(duì)算法并不具有附著性,但卻依賴于算法而呈現(xiàn)出表征;同時(shí)又由于算法制造的不可窮盡性,數(shù)據(jù)的多重功能性則體現(xiàn)為消散的不連續(xù)性。簡(jiǎn)單地說,算法不是數(shù)據(jù)的形成規(guī)則,只是數(shù)據(jù)的使用規(guī)則,它在數(shù)據(jù)的不連續(xù)性之上構(gòu)筑起有條件的總體的同一性。??略凇吨R(shí)考古學(xué)》中對(duì)陳述的條件性變遷的論證在這里可以借用來理解數(shù)據(jù)和算法的關(guān)系:這些條件和界限是這總體在其中出現(xiàn)的其他陳述總體強(qiáng)加于它的,是使用和應(yīng)用它的范圍,它應(yīng)該發(fā)揮的作用或功能強(qiáng)加給它的。像地球是圓的或物種進(jìn)化這樣的斷言在哥白尼前后,在達(dá)爾文前后,都不構(gòu)成相同的陳述。對(duì)這些如此簡(jiǎn)單的表述來說,并不是意義改變了,被改變的是這些斷言與其他命題之間的關(guān)系,是它們的使用和重新投入的條件,是經(jīng)驗(yàn)的可能的證明的以及我們能夠參照的要解決的問題的范圍[2]。也就是說,具體陳述所建構(gòu)的意義并不完全來源于它自身的語(yǔ)言,而在于它所處的情境賦予它的條件和功能,因而陳述本身不是一個(gè)變動(dòng)不居的完成體,而是處在不斷的生成建構(gòu)之中,隨著外在性而變化。
由此可以看出,外在化的算法的建設(shè)本身是戰(zhàn)略性的,任何一種算法都不是理解數(shù)據(jù)的唯一模式或途徑,而只是提供了一種可能性塑型。也正因如此,每一種算法所挖掘出的“真相”或“意義”也并不比其他的模型更具有絕對(duì)的優(yōu)越性(當(dāng)然,在同一模型下,數(shù)據(jù)所涵蓋的范圍不同也會(huì)導(dǎo)致不同的結(jié)果)。從本質(zhì)上而言,算法是一種關(guān)系性生產(chǎn)系統(tǒng),連接導(dǎo)致生產(chǎn),連接的頻率、維度和方式的不同形成結(jié)果的多樣性和差異性。正如算法不是唯一的一樣,連接也不是唯一的,甚至是可以被取消和否定的。算法不是萬(wàn)能的,它的合法性也不能被默認(rèn)。作為一種被構(gòu)筑的話語(yǔ),算法的正確性(更準(zhǔn)確地說,是合理性)決定了數(shù)據(jù)之間的連接合理性是否為真。在不合理的算法之下,數(shù)據(jù)之間也可能建立起偽聯(lián)系,這就需要花費(fèi)更多的時(shí)間從經(jīng)驗(yàn)或其他算法中去驗(yàn)證。因此,對(duì)大數(shù)據(jù)的理解或談?wù)摫仨殢膶?duì)數(shù)據(jù)和算法的本質(zhì)開始,一個(gè)值得也必須被追問的問題產(chǎn)生了:它們的客觀存在與事實(shí)(或意義)之間存在必然的聯(lián)系嗎?
熱衷于言及大數(shù)據(jù)時(shí)代的人常常認(rèn)為海量數(shù)據(jù)足以刻畫出“所有時(shí)代所有地方的所有信息”。電腦、手機(jī)和平板電腦與現(xiàn)代通訊線路的無(wú)障礙對(duì)接不但使我們以遠(yuǎn)程在場(chǎng)的方式與全球發(fā)生聯(lián)系,而且越來越多的智能裝備(家庭恒溫系統(tǒng)、警報(bào)系統(tǒng)、監(jiān)控系統(tǒng)、智能家居中控、無(wú)人駕駛汽車、聊天機(jī)器人甚至可穿戴設(shè)備)實(shí)現(xiàn)了機(jī)器與機(jī)器、人與機(jī)器的對(duì)接?!耙话銇碚f,人們知道如果上網(wǎng)的話,信息可能會(huì)被收集走,但是他們不知道,當(dāng)自己?jiǎn)?dòng)洗衣機(jī)、打開冰箱,沖澡或上床休息,都會(huì)留下信息?!盵3]于是,一方面,人比過去任何時(shí)代都更接近于世界和其他人,另一方面,傳統(tǒng)的直接在場(chǎng)與聯(lián)系的方式被數(shù)字化生存改寫。線上與線下、實(shí)體與數(shù)字的邊界日益模糊,甚至相互滲透?!懊缊F(tuán)”和“餓了么”了解你的口味偏好和訂餐歷史,“淘寶”和“京東”清楚你的需求類型和消費(fèi)習(xí)慣,移動(dòng)和電信可以根據(jù)你在特定時(shí)間內(nèi)的漫游記錄給出你的足跡,搜索引擎知道你的好奇心和最深層的疑問,電子導(dǎo)航系統(tǒng)不但清楚掌握你走過的所有路線和出行方式,并且會(huì)根據(jù)你的日常記錄,指導(dǎo)性地給出特定時(shí)間段內(nèi)特定交通路線的通行狀態(tài)和建議……更有甚者,你一旦離開所在城市踏足外地,你會(huì)立刻收到應(yīng)用軟件根據(jù)你過去的訂房情況給出酒店參考以及根據(jù)你的訂餐記錄給出周邊餐廳選擇!
前面談到,數(shù)據(jù)和自然語(yǔ)言一樣,是以符號(hào)或符碼顯示的社會(huì)關(guān)系,但和語(yǔ)言不同的是,數(shù)據(jù)是一種純書寫。德里達(dá)將書寫的本質(zhì)性特征定義為間隔,即“間隙和時(shí)間的那種空間生成、意義在某一新場(chǎng)所的展開?!谝饬x的……非純語(yǔ)音的間隔中,不再服從邏輯時(shí)間、意識(shí)或前意識(shí)時(shí)間,‘語(yǔ)詞再現(xiàn)時(shí)間’的那種線性的互聯(lián)關(guān)系是可能的”[4]。這實(shí)際上是對(duì)數(shù)據(jù)的非情境性特質(zhì)的確認(rèn)。吉登斯更是以闡釋學(xué)的立場(chǎng)對(duì)“書寫”和“言談”進(jìn)行了區(qū)分:“言談暗示著社會(huì)活動(dòng)……言談植根于人類交往的實(shí)實(shí)在在的語(yǔ)境中。因此,語(yǔ)言才牢固地停泊于社會(huì)現(xiàn)實(shí),與語(yǔ)言復(fù)雜性相聯(lián)系的不是語(yǔ)言的內(nèi)部結(jié)構(gòu),而是語(yǔ)境相互作用的復(fù)雜排列……書寫缺乏具體情境下的言談所具有的復(fù)雜性”[5]。這種去情境化的純書寫特質(zhì)在數(shù)據(jù)身上體現(xiàn)得更為突出,它以極端的形式化瓦解了一直以來對(duì)語(yǔ)言的語(yǔ)境進(jìn)行辨認(rèn)的各種社會(huì)坐標(biāo)。數(shù)據(jù)被高度地抽象化,這使得它的傳輸和存儲(chǔ)更加便捷,但同時(shí)也使得德里達(dá)所說的傳輸者與接受者之間的間隔被無(wú)限擴(kuò)大。如果書寫的基本原則是延異(différance),數(shù)據(jù)則是趨向于絕對(duì)的延異,它在時(shí)空存續(xù)和純形式化兩方面做到了極致。
然而,絕大多數(shù)迷戀于大數(shù)據(jù)的使用者并不會(huì)意識(shí)到數(shù)據(jù)的這種后結(jié)構(gòu)主義特征,在他們眼中,數(shù)據(jù)既然來源于日?,F(xiàn)實(shí),自然也可以逆向地被還原為現(xiàn)實(shí)(或事實(shí))。但事實(shí)上,數(shù)據(jù)的現(xiàn)實(shí)源頭從來不是它承載的意義,它的意義取決于它的被使用。從這個(gè)意義上而言,數(shù)據(jù)又是一個(gè)非表征性的系統(tǒng),其目的從來都不是對(duì)所被記錄和提取的現(xiàn)實(shí)表面進(jìn)行還原。算法之所以成為數(shù)據(jù)的問題式,正在于它作為一種純粹的外在性對(duì)數(shù)據(jù)進(jìn)行了統(tǒng)攝,它是數(shù)據(jù)的使用規(guī)則,而非生成規(guī)則。與此相對(duì)應(yīng),數(shù)據(jù)和算法的真正力量在于它的使用者,而非產(chǎn)生者。這一點(diǎn)從美國(guó)1974年通過的《隱私法案》以及《信息自由法案》的管制重點(diǎn)都是在聯(lián)邦政府對(duì)所擁有的數(shù)據(jù)庫(kù)的規(guī)范性使用中可以看出。
算法使得數(shù)據(jù)和它的來源產(chǎn)生了距離,使用者依照其目的借助算法對(duì)數(shù)據(jù)進(jìn)行重新編碼和提煉。而這產(chǎn)生出另外一種風(fēng)險(xiǎn),與將數(shù)據(jù)等同于現(xiàn)實(shí)的經(jīng)驗(yàn)主義做法不同,這種風(fēng)險(xiǎn)來自于使用數(shù)據(jù)對(duì)現(xiàn)實(shí)進(jìn)行校準(zhǔn)。這一趨勢(shì)所產(chǎn)生的后果是數(shù)字化存在對(duì)實(shí)體存在的全面滲透,線上線下的界限日益模糊,個(gè)體性在不同的方面同時(shí)面臨被漠視和被增強(qiáng)的雙重命運(yùn)。
全面數(shù)據(jù)化是一個(gè)全新的挑戰(zhàn)。人的一切被還原為數(shù)據(jù),零散的數(shù)據(jù)則通過被記錄而歸于大數(shù)據(jù)。雖然孤立的事件或個(gè)體所展現(xiàn)的數(shù)據(jù)表現(xiàn)為非結(jié)構(gòu)化或半結(jié)構(gòu)化特征,但經(jīng)過算法的調(diào)用和高度組織化處理以后,原先毫不相關(guān)的數(shù)據(jù)之間卻建立起相關(guān)性,從而顯現(xiàn)出巨大的價(jià)值。在這個(gè)過程中,作為對(duì)象的數(shù)據(jù)本身和作為中介的算法依然是中性的,但算法的設(shè)計(jì)卻蘊(yùn)含著特定目的的存在。可能有人會(huì)爭(zhēng)論說,互聯(lián)網(wǎng)時(shí)代的一個(gè)根本性特征就在于數(shù)據(jù)甚至算法的使用權(quán)可以作為公共資源,而并非排他性獨(dú)有,但這種表面上的共享性卻依然被不平衡的權(quán)力所決定。于是,圍繞著數(shù)據(jù)的占有和使用上的不對(duì)稱,一方面,一部分人依靠對(duì)數(shù)據(jù)和算法的壟斷獲得更大的權(quán)力,而另一方面,分散的用戶卻在毫不知情的情況下被剝奪了部分權(quán)利。這種落差甚至?xí)萦摇?/p>
從純粹技術(shù)性的層面理解數(shù)據(jù)和算法忽略了歷史唯物主義最強(qiáng)調(diào)的一個(gè)方法,即分析對(duì)象本身所具有的社會(huì)基礎(chǔ)。作為工具的技術(shù)從來不是一個(gè)獨(dú)立于社會(huì)之外的存在物,它總是為著特定的目的而服務(wù),網(wǎng)絡(luò)不例外,算法也不例外。資本的涌動(dòng)可以穿透一切邊界,達(dá)及所有領(lǐng)域,逐漸加深對(duì)個(gè)體日常生活以及生命各個(gè)維度的捕獲。數(shù)據(jù)理所當(dāng)然地會(huì)成為商品,對(duì)數(shù)據(jù)的分析更加如此,它是以對(duì)數(shù)據(jù)的評(píng)估和反饋為核心形成的專業(yè)化產(chǎn)品和服務(wù),它們不但不會(huì)置身于資本的視域之外,還可以作為更不易令人察知的牟利的途徑。
有人用“透明人”的概念來描述大數(shù)據(jù)時(shí)代人的生存境況。無(wú)線網(wǎng)絡(luò)的全面覆蓋、智能手機(jī)和其他設(shè)備的普及使得每個(gè)個(gè)體成為一個(gè)數(shù)據(jù)發(fā)送的基站,只要連接,所有的數(shù)據(jù)都會(huì)源源不斷地被發(fā)送出去,形成電子符碼化的表征。在不同的算法模型中,數(shù)據(jù)被無(wú)條件地調(diào)用,而個(gè)體本身卻一無(wú)所知地缺席著,出現(xiàn)的只有數(shù)據(jù)。啟蒙理性所倚重的中心化的主體以離奇的方式在場(chǎng),卻不斷地在缺席狀態(tài)下被去中心化和重構(gòu)。雙重的匿名性在這里產(chǎn)生了:數(shù)據(jù)的產(chǎn)生者是匿名的,它只具有統(tǒng)計(jì)學(xué)上的意義;算法的調(diào)用是匿名的,不出場(chǎng)的,自動(dòng)的甚至是隨機(jī)的,只服務(wù)于純粹的功能性。這種功能性以簡(jiǎn)筆畫的方式確定了主體在數(shù)據(jù)中的存在形式,并根據(jù)這種存在形式為其量身定制所需要的服務(wù)。
一個(gè)有趣的悖論產(chǎn)生了:在以統(tǒng)計(jì)學(xué)意義上的子集進(jìn)入數(shù)據(jù)中的個(gè)體在商業(yè)經(jīng)營(yíng)策略中被以一種極度個(gè)人化的方式對(duì)待。這正是以大數(shù)據(jù)作為支撐的后信息時(shí)代的商業(yè)的標(biāo)志化特征:精準(zhǔn)營(yíng)銷。由于數(shù)據(jù)的無(wú)微不至,針對(duì)個(gè)體的商業(yè)定位就可以變得極為精準(zhǔn)。這也是眾多互聯(lián)網(wǎng)平臺(tái)共同的盈利模式。在這一方面,走在前列的是谷歌和臉書,而后來的百度也毫不落后。它們無(wú)一例外是通過占有大量的用戶資料和數(shù)據(jù)(這些信息最初并不是用來販賣,而主要是致力于完善用戶服務(wù)),從而吸引廣告商參與競(jìng)拍。無(wú)論這三家公司建立的初衷和最初兜售的服務(wù)是什么,它們都早已完成了從服務(wù)提供向依賴廣告收入的轉(zhuǎn)變。2016年第一季度,廣告收入分別占到了谷歌和臉書收入的89%和96.6%,而百度則占到了91%。
“用戶的注意力在哪里,廣告主的錢就投向哪里”,這條原則在大數(shù)據(jù)時(shí)代得到空前的運(yùn)用。廣告商對(duì)互聯(lián)網(wǎng)平臺(tái)的青睞正在于它們對(duì)數(shù)據(jù)提取和分析的有效性使得越來越多樣化的顧客需求可以被追蹤和滿足。在算法經(jīng)濟(jì)中,嫻熟的玩家通過各種途徑提升自己對(duì)于客戶群數(shù)據(jù)的獲得,以強(qiáng)化自身在充滿變數(shù)的市場(chǎng)競(jìng)爭(zhēng)中的反應(yīng)能力。這是一個(gè)極度個(gè)體化的時(shí)代,然而這種個(gè)體的建構(gòu)本身依舊是充滿悖論的。表面上看,精準(zhǔn)營(yíng)銷似乎以其關(guān)懷備至的體貼迎合著主體的每一點(diǎn)哪怕最細(xì)微和獨(dú)特的需要,線上的環(huán)境日益變得個(gè)性化。但在算法與技術(shù)的合謀之下,極度的個(gè)性化的所謂“精準(zhǔn)營(yíng)銷”不僅提供了精準(zhǔn)的產(chǎn)品和服務(wù),也提供了精準(zhǔn)的價(jià)格:名為“定價(jià)優(yōu)化”的價(jià)格歧視政策,誘使有特殊偏好的、易于沖動(dòng)的消費(fèi)者以更高的價(jià)格為自己埋單。因此,在丹·席勒看來,大數(shù)據(jù)時(shí)代不但不是傳統(tǒng)的馬克思主義政治經(jīng)濟(jì)學(xué)問題得到解決的時(shí)代,反而促使資本主義的矛盾完成了現(xiàn)代化,而這其中,最新、也最關(guān)鍵性的問題在于算法。它到底扮演了什么樣的角色呢?
在現(xiàn)今社會(huì),商家越來越多地使用算法來為客戶提供服務(wù),政府、學(xué)校等機(jī)構(gòu)也會(huì)利用算法來幫助其日常工作,比如制定政策、調(diào)整課程和教學(xué)方式等。誠(chéng)然,互聯(lián)網(wǎng)技術(shù)的普及和大數(shù)據(jù)技術(shù)的運(yùn)用所帶來的商業(yè)的繁榮和生活的便利似乎都在為社會(huì)發(fā)展的愿景規(guī)劃出了一個(gè)極具建設(shè)性的承諾:科技改善生活。然而,在這一迅猛發(fā)展的進(jìn)步背后,整個(gè)互聯(lián)網(wǎng)生態(tài)系統(tǒng)(算法設(shè)計(jì)、應(yīng)用軟件開發(fā)、平臺(tái)操控、不同的商家)形成了合謀,它不僅對(duì)傳統(tǒng)市場(chǎng)進(jìn)行了結(jié)構(gòu)性的重構(gòu),使得生產(chǎn)和消費(fèi)的行為模式完全發(fā)生改變,甚至使整個(gè)市場(chǎng)體系所倚重的自由競(jìng)爭(zhēng)法則受到了挑戰(zhàn),改寫了當(dāng)下經(jīng)濟(jì)的勝者法則,使遮蔽和壟斷比過去任何時(shí)候都更容易形成。由于大數(shù)據(jù)對(duì)于使用者的天然傾向性,“信息鴻溝”必然在商家和用戶之間產(chǎn)生,這實(shí)際上是社會(huì)權(quán)力不對(duì)稱的一種布展。商家很容易借助海量的數(shù)據(jù)和精妙的算法搭建起類似“上帝視角”的全視能力,零散的用戶則在手機(jī)或電腦的面前,滿足于由互聯(lián)網(wǎng)網(wǎng)站或平臺(tái)提供的無(wú)所不及的搜尋做出決定和選擇。然而,后者常常忽略了一個(gè)問題:技術(shù)所提供的信息的透明性是否以及如何得到保證呢?
從表面上看,算法是通過運(yùn)行計(jì)算機(jī)程序來運(yùn)作的,無(wú)感情的計(jì)算機(jī)程序輸出的結(jié)果要比有感情的人更加客觀理性,更加獨(dú)立公正??墒?,算法真的能做到中立和公正嗎?事實(shí)可能并非如此。與信息表面上的透明性相反,算法一直隱匿在后臺(tái),以不可見的“黑箱”狀態(tài)運(yùn)行。甚至至今為止,很多人也并不清楚它的存在和作用。各種應(yīng)用軟件和智能設(shè)備負(fù)責(zé)記錄和收集數(shù)據(jù),算法則作為數(shù)據(jù)的管家,按照特定的意圖對(duì)數(shù)據(jù)進(jìn)行篩選和分析。如果說前一過程在今天已經(jīng)為越來越多的用戶察知并警惕的話,后一過程則是遠(yuǎn)離人們視野,在暗中悄悄進(jìn)行。算法是名副其實(shí)的“看不見的手”,它和用戶唯一的對(duì)接方式是結(jié)果的輸出,而這則被當(dāng)做由數(shù)據(jù)和機(jī)器共同保證的客觀正確性。
然而,算法不是機(jī)器自生產(chǎn)出來的,算法的背后是人,算法本身是人創(chuàng)作出來的。沒有任何一個(gè)寫算法的人能保證自己完全做到客觀公正,那么算法的結(jié)果又怎能保證客觀?很多機(jī)構(gòu)(最顯而易見的是商業(yè)機(jī)構(gòu))使用算法的目的之一正是通過算法結(jié)果來引導(dǎo)算法用戶。算法是人類智慧的產(chǎn)品,算法設(shè)計(jì)者和實(shí)現(xiàn)者的設(shè)計(jì)意圖、認(rèn)知水平、價(jià)值觀、精神狀態(tài)等都會(huì)對(duì)算法產(chǎn)生影響,人類或者說算法制作者的需求和利益更是決定了算法結(jié)果的傾向性。因而,揭開算法的神秘的外衣,它和其他所有產(chǎn)品一樣,是對(duì)某種社會(huì)性需求的迎合。不過,與其他消耗性終端產(chǎn)品不一樣,在今天的經(jīng)濟(jì)結(jié)構(gòu)中,網(wǎng)絡(luò)與現(xiàn)實(shí)界限的相互嵌入使得人們的日常行為不但潛在或顯在地受到算法的左右,更日益形成對(duì)算法的依賴。于是,算法被設(shè)計(jì)時(shí)的初衷毫無(wú)疑問地體現(xiàn)了特定的社會(huì)利益結(jié)構(gòu)。
以前面談到過的線上廣告行業(yè)為例,互聯(lián)網(wǎng)時(shí)代的廣告趨勢(shì)之一是精準(zhǔn)廣告投放,精準(zhǔn)投放的意思是針對(duì)不同群體所需要的商品和服務(wù)投放特定的廣告,甚至是針對(duì)單個(gè)個(gè)體的個(gè)性化廣告。這和從20世紀(jì)上半葉開始的平面媒體廣告和電視廣告的大眾性不同,互聯(lián)網(wǎng)媒體的廣告投放將受眾不斷窄化,甚至做到因人而異。不同在線購(gòu)物網(wǎng)站會(huì)根據(jù)使用者的購(gòu)買記錄和瀏覽記錄來展示相應(yīng)的主頁(yè)顯示和推薦商品,這已經(jīng)人盡皆知。這就好比,不同的人去看同一個(gè)杯子,每個(gè)人看到的都不是杯子本來的樣子,而是場(chǎng)景設(shè)計(jì)者想要她/他看到的樣子,或者說是杯子的特定元素的不同展現(xiàn)(例如,用戶喜歡的風(fēng)格、顏色、設(shè)計(jì)師、使用情境,等等)。當(dāng)然算法的這種預(yù)設(shè)是它從所占有的用戶數(shù)據(jù)中推測(cè)出來的,由此可以看出,算法背后的那只手以提供精準(zhǔn)服務(wù)的名義,對(duì)用戶的喜好進(jìn)行了評(píng)估和預(yù)測(cè),卻因此對(duì)用戶獲得完整客觀的事物面貌的權(quán)利形成了侵害。
另一個(gè)更容易引發(fā)關(guān)注的是算法帶來的歧視問題。亞馬遜公司開發(fā)的“簡(jiǎn)歷篩選系統(tǒng)”的篩選結(jié)果顯示,該系統(tǒng)對(duì)男性的簡(jiǎn)歷存在明顯的偏好,當(dāng)系統(tǒng)識(shí)別出女性相關(guān)信息時(shí),會(huì)給出較低的評(píng)分。另一些研究者發(fā)現(xiàn),在搜索引擎中,搜索有色人種名字的結(jié)果中比搜索白人名字會(huì)更傾向于出現(xiàn)提示存在犯罪記錄的廣告。其原因在于,一是用來訓(xùn)練這些算法的簡(jiǎn)歷或搜索數(shù)據(jù)集,本身就帶著強(qiáng)烈的傾向性;二是算法譜寫者自身的偏見可能會(huì)體現(xiàn)在他們所構(gòu)建的數(shù)據(jù)分析的模型或框架中,從而影響算法的結(jié)果。因此,算法所給出的答案實(shí)際上不過是將反映在互聯(lián)網(wǎng)產(chǎn)業(yè)中的傾向性展現(xiàn)了出來。這種歧視傾向既不是互聯(lián)網(wǎng)技術(shù)所產(chǎn)生的,也不是新近出現(xiàn)的現(xiàn)象,它是人類社會(huì)內(nèi)部所包含的偏見或沖突的現(xiàn)代化公開。不是技術(shù)問題,而是社會(huì)問題。歸根結(jié)底,算法是人類思維的產(chǎn)物,只要人類的偏見和歧視依然存在,算法歧視問題就不會(huì)消失。
就這個(gè)意義而言,作為人工智能技術(shù)核心支撐的算法依然是帶有倫理性的,它在提供技術(shù)服務(wù)的同時(shí),也布展了價(jià)值觀,并且由于它所扮演的角色,它可以將隸屬于特殊群體的偏見或價(jià)值取向擴(kuò)大化,以貌似公正的方式形成社會(huì)共識(shí)。算法實(shí)際上像一面鏡子,它將社會(huì)中業(yè)已存在的不平等現(xiàn)象悉數(shù)反映出來,并且與現(xiàn)實(shí)中的歧視相比,算法歧視還帶有明顯的技術(shù)性特征,即精準(zhǔn)性、多元性和隱蔽性。算法對(duì)數(shù)據(jù)分類和篩選的標(biāo)準(zhǔn)更加量化和細(xì)微,可能涉及和涵蓋個(gè)體的一切方面,甚至是偶然性行為。個(gè)體被客體化為刻板的數(shù)據(jù),其動(dòng)態(tài)和綜合的可能性被漠視,而依據(jù)某種傾向被暗中評(píng)估或引導(dǎo),甚至毫無(wú)申訴的可能。
其次,算法使用的數(shù)據(jù)是決定算法結(jié)果的基本要素之一,如果系統(tǒng)使用的原始數(shù)據(jù)是不中立、帶有偏向性的,甚至是被污染的,那么系統(tǒng)的結(jié)果自然也不能保證中立。如果說在上面所舉“簡(jiǎn)歷篩選系統(tǒng)”和搜索引擎的例子中,訓(xùn)練數(shù)據(jù)的偏向性尚是算法開發(fā)者有意為之的話,那么2016年微軟公司的AI聊天機(jī)器人Tay在上線僅一天就被網(wǎng)民“教壞”,頻頻爆粗口,甚至變成了種族歧視主義者,這反映了貌似開放公正的利用網(wǎng)民聊天信息來訓(xùn)練的AI算法,最終走向了一個(gè)嚴(yán)重偏離中立的結(jié)果。
客觀地說,算法的原始數(shù)據(jù)從根本上而言不可能是完美的。追求客觀數(shù)據(jù)是一種理想和目標(biāo),在獲得數(shù)據(jù)的過程中總是存在這樣或那樣的因素和障礙,以至于影響了數(shù)據(jù)的客觀中立。我們現(xiàn)在號(hào)稱進(jìn)入了“大數(shù)據(jù)”時(shí)代,大數(shù)據(jù)的本意是“海量數(shù)據(jù)”而并非“全數(shù)據(jù)”。要獲得“全數(shù)據(jù)”,是一件極其困難的事情。首先,想要收集完整的數(shù)據(jù),需要有相當(dāng)完備的保證,包括雄厚的資金、可靠且全面的信息源、合適的采集方式,等等。其次,在很多領(lǐng)域中,其本身也缺少系統(tǒng)完整的數(shù)據(jù)積累。此外,由于機(jī)構(gòu)壁壘、信息安全等因素,只有一部分?jǐn)?shù)據(jù)能公開或通過一些途徑去獲得。數(shù)據(jù)樣本的不完整,必然會(huì)使算法結(jié)果出現(xiàn)以偏概全的問題。
除了數(shù)據(jù)的不完整性,數(shù)據(jù)的采集質(zhì)量也不可能是完美的。受限于采集工作者的技術(shù)水平、采集設(shè)備的可靠、穩(wěn)定性等因素,采集到的數(shù)據(jù)質(zhì)量可能跟設(shè)計(jì)者在制作算法時(shí)所設(shè)想的大相徑庭,更不要說數(shù)據(jù)造假對(duì)數(shù)據(jù)造成的污染了。很多網(wǎng)民都有所了解,在網(wǎng)上看到的對(duì)一個(gè)餐廳或酒店的評(píng)價(jià),不一定是消費(fèi)者的真實(shí)反饋,而很可能是商戶自己刷好評(píng)刷出來的。盡管可以針對(duì)數(shù)據(jù)中可能的不良狀況進(jìn)行數(shù)據(jù)清洗,但是這不能完全清除數(shù)據(jù)中的污染。由于人類本身存在的局限和偏見,數(shù)據(jù)和算法程序都是不完美的,那么算法的推論自然也很難做到完全的客觀公正。
最后一點(diǎn),算法作為一整套機(jī)器識(shí)別的運(yùn)作規(guī)則,其認(rèn)知方式和人類完全不同。后者可以依據(jù)抽象的概念和具體的情境進(jìn)行思考和做出判斷,而算法則主要考量被量化的屬性的權(quán)重?cái)?shù)值。這種識(shí)別方式很難對(duì)復(fù)雜的人類情境進(jìn)行復(fù)原,因此兩者之間的偏差就不可避免地會(huì)出現(xiàn)。
以大數(shù)據(jù)作為基礎(chǔ)和支撐的數(shù)字經(jīng)濟(jì)和智能化趨勢(shì)無(wú)疑是這個(gè)時(shí)代最鮮明、最具有活力的方面之一,而當(dāng)人類的生活越來越多地依賴于互聯(lián)網(wǎng)和智能技術(shù)的時(shí)候,算法這只“看不見的手”所發(fā)揮的作用也日益加重。一種健康的發(fā)展趨勢(shì)要求市場(chǎng)和算法都需要面對(duì)透明性的挑戰(zhàn),對(duì)此,從技術(shù)層面到制度層面,我們是否都準(zhǔn)備好了呢?