国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“計(jì)算”的邊界:互聯(lián)網(wǎng)大數(shù)據(jù)與社會(huì)研究

2018-06-21 10:54:56
關(guān)鍵詞:計(jì)算群體信息

(武漢大學(xué)社會(huì)學(xué)系,湖北武漢,430072)

社會(huì)學(xué)的量化研究以數(shù)據(jù)資料為基礎(chǔ),大數(shù)據(jù)時(shí)代的到來(lái),使運(yùn)用海量數(shù)據(jù)和新的數(shù)據(jù)處理技術(shù),對(duì)人類行為、群體互動(dòng)乃至社會(huì)復(fù)雜適應(yīng)系統(tǒng)進(jìn)行研究成為可能??捎糜谏鐣?huì)研究的大數(shù)據(jù),依其生成方式大體可分為三類:第一類是基于人機(jī)互動(dòng)在互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)平臺(tái)上生成采集的互聯(lián)網(wǎng)大數(shù)據(jù)①,包括社交關(guān)系數(shù)據(jù)、網(wǎng)絡(luò)文本數(shù)據(jù)、電子蹤跡數(shù)據(jù)等;第二類是通過(guò)各種傳感器采集而來(lái)的物聯(lián)網(wǎng)大數(shù)據(jù),手機(jī)位置信息是其典型類型;第三類則是通過(guò)數(shù)字化與數(shù)據(jù)化手段由既有信息資料轉(zhuǎn)制而成的大數(shù)據(jù),例如谷歌圖書語(yǔ)料庫(kù)(Google Books Corpus)[1]。在三類數(shù)據(jù)中,互聯(lián)網(wǎng)大數(shù)據(jù)由于承載著大規(guī)模、長(zhǎng)時(shí)段、連續(xù)關(guān)系性和意義性信息,被認(rèn)為將賦予社會(huì)學(xué)“改變我們對(duì)生活、組織和社會(huì)的理解”的潛力[2]。

單從名稱上看,“大數(shù)據(jù)”好像是在強(qiáng)調(diào)與傳統(tǒng)量化數(shù)據(jù)相比所具有的更大個(gè)案數(shù)量或信息規(guī)模。然而實(shí)際上,兩種數(shù)據(jù)無(wú)論是在數(shù)據(jù)性質(zhì)還是生產(chǎn)邏輯上都存在著質(zhì)的差異:傳統(tǒng)計(jì)量方法分析的是數(shù)值型數(shù)據(jù)(numerical data),這些數(shù)據(jù)是出于特定研究目的而運(yùn)用實(shí)驗(yàn)、問(wèn)卷調(diào)查等方法有計(jì)劃地觀測(cè)的結(jié)果,即數(shù)據(jù)生產(chǎn)本身就構(gòu)成了研究的一項(xiàng)重要組成部分。新型計(jì)算方法所處理的則是計(jì)算機(jī)代碼型數(shù)據(jù)(code data) ——“作為數(shù)據(jù)的可解釋代碼和作為代碼的數(shù)據(jù)”[3],這些數(shù)據(jù)獨(dú)立于社會(huì)研究之外。數(shù)據(jù)生產(chǎn)的獨(dú)立性,也決定了其在社會(huì)研究中的邊界。在計(jì)算范式下,數(shù)據(jù)分析的焦點(diǎn)不再是能測(cè)量到什么,而是“已經(jīng)生產(chǎn)出什么”;不再是“能否有效且穩(wěn)定地測(cè)量”,而是“是否真實(shí)且準(zhǔn)確地生產(chǎn)”。[4]在由“可觀測(cè)性”議題轉(zhuǎn)向“可獲得性”議題的過(guò)程中,圍繞著大數(shù)據(jù)計(jì)算形成了一系列認(rèn)識(shí)假定,其中對(duì)社會(huì)研究最為重要的有“總體性”“真實(shí)?自然性”“客觀性”三大假定。“總體性”假定指大數(shù)據(jù)時(shí)代的到來(lái),開(kāi)啟了“樣本=總體”的全數(shù)據(jù)模式,數(shù)據(jù)代表性問(wèn)題將不復(fù)存在;“真實(shí)?自然性”假定指互聯(lián)網(wǎng)上記錄的是人們行為互動(dòng)的真實(shí)蹤跡和“自然狀態(tài)”下的表達(dá);“客觀性”假定指基于大數(shù)據(jù)的研究可以避免研究者個(gè)人因素的影響,能夠獲得傳統(tǒng)研究方法無(wú)法企及的、帶有真理性、客觀性和準(zhǔn)確性的見(jiàn)解。然而,將大數(shù)據(jù)運(yùn)用于社會(huì)研究,就會(huì)發(fā)現(xiàn)實(shí)際情況并沒(méi)有預(yù)想的那么樂(lè)觀。

一、缺失與分隔:互聯(lián)網(wǎng)大數(shù)據(jù)的代表性邊界

“總體性”假定來(lái)自于邁爾-舍恩伯格和庫(kù)克耶的《大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革》,他們將大數(shù)據(jù)理解為不同于抽樣數(shù)據(jù)的全體數(shù)據(jù),稱大數(shù)據(jù)是指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)的方法”[5](56);并且認(rèn)為“社會(huì)科學(xué)是被‘樣本=總體’撼動(dòng)得最厲害的學(xué)科”[5](41)。這樣籠統(tǒng)地宣稱“采用所有數(shù)據(jù)”的潛臺(tái)詞似乎是——在大數(shù)據(jù)時(shí)代,一切社會(huì)科學(xué)研究都能夠用總體數(shù)據(jù)來(lái)分析。這一觀點(diǎn)對(duì)傳統(tǒng)定量研究者而言無(wú)疑有著巨大的吸引力,因?yàn)槿绻娴目梢垣@得“全樣本”,就意味著不存在數(shù)據(jù)代表性問(wèn)題,社會(huì)研究結(jié)論的準(zhǔn)確性和適用范圍將得到顯著提升。國(guó)內(nèi)有些學(xué)者直接接受了“總體性”假定,認(rèn)為“抽樣誤差曾經(jīng)是長(zhǎng)期困擾社會(huì)科學(xué)研究的重要難題,而全樣本作為大數(shù)據(jù)最重要的特征,甚至可以將抽樣誤差降為零”[6]。然而,“總體性”假定在表述上是含混不清的,在社會(huì)科學(xué)研究中,“總體”是相對(duì)于研究對(duì)象和研究問(wèn)題而言的,在沒(méi)有明確研究對(duì)象的情況下談?wù)摽傮w,其實(shí)是毫無(wú)意義的。舍恩伯格等研究者未能對(duì)數(shù)據(jù)的“可計(jì)算性”和“可獲得性”之間的差異作出清晰的分辨,他認(rèn)為隨著計(jì)算能力的日益強(qiáng)大和數(shù)據(jù)處理技術(shù)的日益進(jìn)步,對(duì)獲取到的所有數(shù)據(jù)已有能力進(jìn)行有效的分析,無(wú)需再因計(jì)算條件(能力、成本、時(shí)效等)的限制而采取隨機(jī)抽樣方法壓縮數(shù)據(jù)體量。然而,在數(shù)據(jù)生產(chǎn)與科學(xué)研究相分離的背景下,可獲得的所有數(shù)據(jù)不一定等同于研究對(duì)象的所有數(shù)據(jù)。這是不能脫離具體研究問(wèn)題來(lái)下結(jié)論的。正因如此,國(guó)內(nèi)有些學(xué)者對(duì)此問(wèn)題的論述陷入自相矛盾,他們一方面沿襲舍恩伯格的觀點(diǎn),強(qiáng)調(diào)大數(shù)據(jù)的全樣本特性,另一方面又承認(rèn)很多時(shí)候并不能獲得總體數(shù)據(jù)[7?8]。鑒于此,有必要對(duì)“總體性”假定進(jìn)行細(xì)致的分析,以矯正相關(guān)認(rèn)知偏差。

(一) 數(shù)據(jù)缺失:“數(shù)字鴻溝”下的年齡與階層邊界

在現(xiàn)實(shí)生活中,計(jì)算設(shè)備的獲得和使用會(huì)直接受到支付成本、技能學(xué)習(xí)、生活需求等社會(huì)因素的影響,從而使互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)過(guò)程本身具有明顯的社會(huì)屬性[9]。對(duì)這種社會(huì)屬性最直接的考察,便是檢視網(wǎng)民群體結(jié)構(gòu)與總體人口結(jié)構(gòu)的對(duì)應(yīng)程度。

據(jù)第 41次“中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告”顯示,2017年中國(guó)網(wǎng)民規(guī)模達(dá)到7.72億,而按照當(dāng)年總?cè)丝跀?shù)計(jì)算,中國(guó)互聯(lián)網(wǎng)普及率只有 55.8%,仍有近一半的中國(guó)人口未能成為互聯(lián)網(wǎng)大數(shù)據(jù)的生產(chǎn)主體。當(dāng)然,如果這種缺失只是群體比例上的隨機(jī)缺失,可以通過(guò)統(tǒng)計(jì)手段加以修正[10](186?187)。但現(xiàn)實(shí)情況卻不盡然,僅從年齡結(jié)構(gòu)來(lái)看,2017年,中國(guó)網(wǎng)民群體以40歲以下人口為主,40歲以上網(wǎng)民只占總網(wǎng)民數(shù)的23.6%,不到1.82億人;而同年齡段的實(shí)際人口,占總?cè)丝跀?shù)的比例卻接近五成[11?12]。以往的研究表明,中國(guó)互聯(lián)網(wǎng)的使用不僅會(huì)受到使用者年齡因素的影響,更與其收入、受教育程度和城鄉(xiāng)差異等因素緊密相關(guān)[13?14]。即便只是對(duì)使用者的年齡、收入、受教育程度與城鄉(xiāng)結(jié)構(gòu)四個(gè)因素的交叉列聯(lián)也會(huì)發(fā)現(xiàn),僅憑 40歲以上的網(wǎng)民群體規(guī)模是無(wú)法實(shí)現(xiàn)對(duì)同年齡段總?cè)丝谧儺愋缘恼w覆蓋,尤其是覆蓋那些年齡較大、收入較低、學(xué)歷不高、居住在農(nóng)村的群體,其中大部分人的日常行為和態(tài)度意見(jiàn)都沒(méi)有被記錄在互聯(lián)網(wǎng)大數(shù)據(jù)之中。例如,新浪微博發(fā)布的“2016微博用戶發(fā)展報(bào)告”顯示,82%的微博用戶年齡在30歲以下,40歲以上用戶不足7%;77.8%的用戶受教育程度為大學(xué)及以上層次,初中及以下層次用戶同樣不足7%[15]。

“數(shù)字鴻溝”(Digital Divided)的一系列研究對(duì)數(shù)據(jù)缺失背后所隱含的社會(huì)意義有所揭示。數(shù)字鴻溝概念,最初被用于描述因網(wǎng)絡(luò)設(shè)備接入的不均衡所引發(fā)的信息分配的不平等現(xiàn)象[16]。對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)而言,“數(shù)字鴻溝”現(xiàn)象的存在意味著部分社會(huì)成員作為數(shù)據(jù)生產(chǎn)主體的缺場(chǎng),其態(tài)度與行為信息無(wú)法在網(wǎng)絡(luò)中獲取?!皵?shù)字鴻溝”不僅出現(xiàn)在網(wǎng)民與非網(wǎng)民群體之間,同樣也出現(xiàn)在網(wǎng)民群體內(nèi)部。隨著研究的不斷深入,社會(huì)學(xué)家們普遍意識(shí)到,由互聯(lián)網(wǎng)的接入與否所引發(fā)的區(qū)隔問(wèn)題,不過(guò)是“數(shù)字鴻溝”的表現(xiàn)形式之一。社會(huì)的結(jié)構(gòu)性不平等因素,同樣會(huì)在網(wǎng)民群體之間制造出使用頻率、需求程度、技能水平和信息素養(yǎng)等方面的顯著差異,由此引發(fā)數(shù)據(jù)生產(chǎn)上的“次級(jí)數(shù)字鴻溝”問(wèn)題[17]。

“數(shù)字鴻溝”理論表明,受個(gè)人技術(shù)能力、經(jīng)濟(jì)條件和社會(huì)需要等因素的限制,社會(huì)大齡群體和底層群體在成為互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)主體問(wèn)題上普遍面臨著更多的障礙。這些群體中只有少數(shù)成員成為了網(wǎng)民,他們無(wú)論是在行為方式還是態(tài)度意見(jiàn)方面都不足以代表全部成員,其所生產(chǎn)出的數(shù)據(jù)信息也無(wú)法涵蓋群體內(nèi)的所有變異性特征[18]??梢哉f(shuō),“數(shù)字鴻溝”現(xiàn)象的存在,使互聯(lián)網(wǎng)大數(shù)據(jù)不可避免地存在數(shù)據(jù)缺失問(wèn)題。在以往量化研究方法中,數(shù)據(jù)缺失是指所要觀測(cè)的變量取值未能被測(cè)量到,或測(cè)量結(jié)果的信度太低而無(wú)法使用。然而在大數(shù)據(jù)研究領(lǐng)域,“缺失”的內(nèi)涵發(fā)生了變化,用以描述受成本支付和主體偏好等因素的影響,社會(huì)研究所需要的數(shù)據(jù)未能在互聯(lián)網(wǎng)絡(luò)中生產(chǎn)或儲(chǔ)存下來(lái),因而研究者無(wú)法獲取關(guān)于特定社會(huì)群體或研究主題的全部必要信息。由此類數(shù)據(jù)的絕對(duì)缺失所帶來(lái)的信息恒定缺損,以至難以甚至無(wú)法以統(tǒng)計(jì)學(xué)方式來(lái)加以彌補(bǔ)或矯正。

(二) 數(shù)據(jù)分隔:差異化生產(chǎn)下的群體與主題邊界

在網(wǎng)絡(luò)經(jīng)濟(jì)時(shí)代,作為純粹人工制品的互聯(lián)網(wǎng)服務(wù),多數(shù)情況下都是以一種商品化的形象呈現(xiàn)在世人面前。由這些服務(wù)平臺(tái)所生成的各類互聯(lián)網(wǎng)大數(shù)據(jù),也就變相成為對(duì)互聯(lián)網(wǎng)商品/服務(wù)消費(fèi)過(guò)程或消費(fèi)結(jié)果的一系列記錄資料的集合。因此,在互聯(lián)網(wǎng)大數(shù)據(jù)所蘊(yùn)含的全部意義中,最首要也最基本的便是數(shù)字化媒介的消費(fèi)意涵。各種信息商品,在具備使用價(jià)值的同時(shí),被賦予了遠(yuǎn)比以往更為豐富的符號(hào)屬性,指向著“通過(guò)區(qū)別符號(hào)來(lái)生產(chǎn)價(jià)值社會(huì)編碼的目標(biāo)”[19](69)。隱含在數(shù)字消費(fèi)背后的種種“社會(huì)性功能”,會(huì)在互聯(lián)網(wǎng)大數(shù)據(jù)的生產(chǎn)過(guò)程中畫出一條不甚清晰的群體與主題邊界,進(jìn)而制造出一種“數(shù)據(jù)分隔”現(xiàn)象,即不同數(shù)據(jù)源所承載的信息在生成主體、內(nèi)容主題等方面存在明顯的差異[20]。

互聯(lián)網(wǎng)絡(luò)數(shù)據(jù)分隔現(xiàn)象的出現(xiàn)主要有兩大動(dòng)力,一是發(fā)生在不同專業(yè)領(lǐng)域之間的專門化過(guò)程,二是發(fā)生在同一領(lǐng)域或服務(wù)類型內(nèi)部的差異化過(guò)程。伴隨著現(xiàn)實(shí)社會(huì)中的領(lǐng)域分化與職能分工,互聯(lián)網(wǎng)中出現(xiàn)了諸多面向特定領(lǐng)域的專門化網(wǎng)絡(luò)服務(wù)平臺(tái)(例如評(píng)論股市行情的炒股論壇、探討病情的病友貼吧、分享技術(shù)知識(shí)的科技論壇)。與綜合性信息網(wǎng)站相比,這些專門化網(wǎng)站通常具有專業(yè)信息覆蓋面寬、信息內(nèi)容規(guī)范且體系完整、原創(chuàng)信息豐富和信息增長(zhǎng)率快等優(yōu)勢(shì),并由此成為相關(guān)專業(yè)群體獲取信息與溝通交流的重要平臺(tái)。由此,專業(yè)/領(lǐng)域邊界便轉(zhuǎn)化為數(shù)據(jù)信息中的群體與主題邊界。另外,在自由競(jìng)爭(zhēng)的互聯(lián)網(wǎng)市場(chǎng)中,盡管的確存在著一些占優(yōu)勢(shì)甚至主導(dǎo)地位的平臺(tái)或服務(wù),但多個(gè)服務(wù)商競(jìng)相滿足同一需求的狀況仍是市場(chǎng)中的主流?,F(xiàn)代消費(fèi)社會(huì)的一大特征是,商品的消費(fèi)取代生產(chǎn)成為經(jīng)濟(jì)活動(dòng)組織的主導(dǎo)形式。網(wǎng)絡(luò)服務(wù)商們普遍有針對(duì)性地依據(jù)各種必要的或建構(gòu)的細(xì)分市場(chǎng)需求來(lái)組織商品的生產(chǎn)與營(yíng)銷,從而帶來(lái)同一類型互聯(lián)網(wǎng)服務(wù)之間的差異化。這種差異化又會(huì)因消費(fèi)者的選擇偏好——既有統(tǒng)計(jì)意義上的個(gè)體偏好,亦有數(shù)字認(rèn)同(涉及數(shù)字媒介中對(duì)不同象征符號(hào)的組織、串聯(lián)、賦值與解讀)作用下的群體偏好[21]——而持續(xù)得以鞏固,并由此引發(fā)用戶群體的進(jìn)一步分化。

由中國(guó)互聯(lián)網(wǎng)信息中心(CNNIC)開(kāi)發(fā)的中國(guó)互聯(lián)網(wǎng)數(shù)據(jù)平臺(tái),提供了各種類型的網(wǎng)絡(luò)站點(diǎn)與軟件客戶端總覆蓋人數(shù)及其比例的重合分析計(jì)算功能。從新聞、購(gòu)物、瀏覽器與視頻客戶端四種網(wǎng)站與軟件類型中各選取三個(gè)代表性服務(wù)商,對(duì)覆蓋人數(shù)的重合比例(見(jiàn)表1)進(jìn)行分析后發(fā)現(xiàn),數(shù)據(jù)分隔現(xiàn)象的確存在。表1顯示,各網(wǎng)站或軟件盡管存在著覆蓋人數(shù)比例上的差異,但均擁有多則千萬(wàn)少則百萬(wàn)的獨(dú)占用戶規(guī)模(即只訪問(wèn)或使用特定網(wǎng)站或軟件的用戶)。當(dāng)這些獨(dú)占用戶不具備獨(dú)特的群體屬性時(shí),其存在并不會(huì)對(duì)社會(huì)學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)計(jì)算造成嚴(yán)重影響。然而,通過(guò)對(duì)用戶群體的基本屬性分析,可以發(fā)現(xiàn)不同類型網(wǎng)站或軟件的獨(dú)占用戶之間存在著明顯的群體特征差異(見(jiàn)表2)。例如,由表2可知,在三種視頻客戶端平臺(tái)的獨(dú)占用戶中,(1)愛(ài)奇藝與搜狐的男性用戶多于女性,后者的男性用戶占比甚至超過(guò)七成,而優(yōu)酷的女性用戶則要遠(yuǎn)高于男性用戶;(2)四成以上的愛(ài)奇藝獨(dú)占用戶年齡在20~29歲之間,近五成的搜狐用戶為30~49歲群體,優(yōu)酷用戶中19歲以下年齡段群體占比則接近四成;(3)愛(ài)奇藝獨(dú)占用戶集中于華東與中南地區(qū),搜狐用戶集中在華北和西南地區(qū),而優(yōu)酷用戶則集中在華東和西南地區(qū),其中西南地區(qū)比例占比超過(guò)四成;(4)愛(ài)奇藝和搜狐均有七成左右的獨(dú)占用戶分布在二、三級(jí)城市之中,后者有著更高的四級(jí)城市用戶比例,而優(yōu)酷則有七成以上的用戶居住在一、二級(jí)城市之中。獨(dú)占用戶之間的類似群體差異,同樣出現(xiàn)在生成購(gòu)物大數(shù)據(jù)的電商網(wǎng)站平臺(tái)和生成電子蹤跡數(shù)據(jù)的瀏覽器與視頻客戶端軟件平臺(tái)之上。

表1 2017年第1季度四種類型網(wǎng)站與軟件覆蓋人數(shù)的重合比例分析(%)

表2 四類網(wǎng)站與軟件代表性服務(wù)商獨(dú)占用戶群體特征的比例分布(%)

性別、年齡、地域分布與城市分布等變量對(duì)亞文化群體的形成具有直接影響,這幾乎是社會(huì)學(xué)、人類學(xué)等學(xué)科的基本共識(shí)。由此可知,在專業(yè)化與差異化過(guò)程的雙重作用下,數(shù)據(jù)信息中不同專業(yè)群體之間、不同社會(huì)階層之間、不同主題內(nèi)容之間的邊界會(huì)被隱秘地樹(shù)立起來(lái)。數(shù)據(jù)分隔現(xiàn)象的存在意味著社會(huì)研究難以藉由單一或少數(shù)幾個(gè)數(shù)據(jù)源獲取關(guān)于研究對(duì)象的全部可用數(shù)據(jù),不同的數(shù)據(jù)源同研究主題操作化定義的匹配程度(即數(shù)據(jù)效度)也會(huì)有明顯的差異。因此,在社會(huì)學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)研究,特別是那些與專業(yè)化議題或特殊群體緊密相關(guān)的研究中,預(yù)先明確數(shù)據(jù)源的群體屬性與核心主題范圍,就成為考察數(shù)據(jù)代表性與數(shù)據(jù)效度的重要指標(biāo)。

二、虛假與偏態(tài):互聯(lián)網(wǎng)大數(shù)據(jù)的準(zhǔn)確性邊界

互聯(lián)網(wǎng)大數(shù)據(jù)的“真實(shí)?自然性”假定指向兩個(gè)問(wèn)題,一是數(shù)據(jù)信息本身的真?zhèn)?,二是?shù)據(jù)生成過(guò)程的“自然”與否。在IBM公司早期的5Vs模型中,真實(shí)性(veracity)曾一度被視為大數(shù)據(jù)的基本特征之一[22]。這種認(rèn)識(shí)的建立,主要基于以下理由:一方面,“機(jī)器不會(huì)說(shuō)謊”,人們?cè)诨ヂ?lián)網(wǎng)上所呈現(xiàn)的任何心態(tài)與行為信息都會(huì)被計(jì)算機(jī)直接保留下來(lái),不存在對(duì)信息的選擇性記錄與存儲(chǔ);另一方面,他們也相信擺脫了調(diào)查/實(shí)驗(yàn)情境和研究者面對(duì)面的影響,大眾將普遍缺乏造假或說(shuō)謊的直接動(dòng)機(jī)而會(huì)表露出自身的真實(shí)意圖。有學(xué)者在同傳統(tǒng)測(cè)量方法比較后提出,“許多大數(shù)據(jù)是人們活動(dòng)行為的實(shí)時(shí)和真實(shí)的記錄,鮮受人類記憶、偏好和情感的干擾,這將會(huì)在很大程度上排除人們因主觀性以及對(duì)概念的誤解等因素對(duì)調(diào)查內(nèi)容的誤填和爛填”[23]。然而面對(duì)各種謠言、刷單等網(wǎng)絡(luò)虛假信息層出不窮的現(xiàn)實(shí),這一特征已開(kāi)始受到越來(lái)越多的質(zhì)疑。與對(duì)“真實(shí)性”的廣泛存疑不同,“自然發(fā)生性”(naturally occurring)仍被許多研究者視為互聯(lián)網(wǎng)大數(shù)據(jù)的基本屬性之一[24]。他們相信,人們更多是根據(jù)個(gè)人興趣與需要來(lái)有選擇地獲取與篩選不同主題的信息,并基于自身知識(shí)與態(tài)度對(duì)信息做出判斷和反饋;其中,信息的發(fā)布、搜索、閱讀、轉(zhuǎn)發(fā)與評(píng)論,作為大眾個(gè)體意識(shí)的自然表達(dá)或“平常狀態(tài)”[5](42)被記錄在互聯(lián)網(wǎng)大數(shù)據(jù)之中,成為“描繪復(fù)雜的人類感官世界,展現(xiàn)個(gè)體真實(shí)的內(nèi)心世界,體察驛動(dòng)的心理動(dòng)態(tài),挖掘豐富的人際交互,探索人類社會(huì)總體價(jià)值走向”[25]的可靠資料。對(duì)于上述假設(shè),產(chǎn)生如下疑問(wèn):互聯(lián)網(wǎng)大數(shù)據(jù)都是真實(shí)可靠的嗎?數(shù)據(jù)生產(chǎn)果真都是自然發(fā)生的嗎?數(shù)據(jù)所承載的信息是否會(huì)存在著某種形式的缺損?

(一) 數(shù)據(jù)操縱:互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)中的“非真實(shí)”

如前所述,絕大多數(shù)互聯(lián)網(wǎng)服務(wù)平臺(tái)都帶有濃厚的商業(yè)色彩,互聯(lián)網(wǎng)大數(shù)據(jù)的生成在一定意義上可以被理解為銷售行為與消費(fèi)行為交互作用的結(jié)果。在市場(chǎng)邏輯之下,圍繞著信息的生產(chǎn)、分配與交換形成了一種“數(shù)據(jù)商業(yè)”。所謂“數(shù)據(jù)商業(yè)”,在此指的不是某種純粹的數(shù)據(jù)或信息買賣業(yè)務(wù),而是一種數(shù)據(jù)生產(chǎn)的基本邏輯:商業(yè)化的盈利導(dǎo)向?yàn)榛ヂ?lián)網(wǎng)大數(shù)據(jù)的生成提供了一種“例行程序”,一方面,指導(dǎo)和限定著數(shù)據(jù)的整體生成框架;另一方面,“還要盡力掩蓋滲透其中的經(jīng)濟(jì)邏輯”[26](129)。正是這種商業(yè)化邏輯的存在,將大量人為操縱因素注入到互聯(lián)網(wǎng)大數(shù)據(jù)中。例如在網(wǎng)絡(luò)購(gòu)物數(shù)據(jù)中,考慮到銷售量和既有評(píng)價(jià)是潛在消費(fèi)者購(gòu)物的評(píng)判依據(jù),部分網(wǎng)絡(luò)銷售商便采用惡意刷單、雇傭“水軍”等方式人為篡改銷售數(shù)量和好評(píng)度,甚至出現(xiàn)了許多專業(yè)“刷單”公司和“水軍”公司;部分消費(fèi)者也可能出于獲取返利等目的刻意編造好評(píng),將大量虛假信息注入互聯(lián)網(wǎng)大數(shù)據(jù)之中。網(wǎng)絡(luò)打車平臺(tái)上,也曾出現(xiàn)過(guò)大量為騙取平臺(tái)補(bǔ)貼的“惡意刷單”現(xiàn)象。再如,網(wǎng)絡(luò)搜索引擎服務(wù)商作為“信息把關(guān)人”,在數(shù)據(jù)商業(yè)邏輯的影響和缺乏外部監(jiān)管的情況下,難免會(huì)進(jìn)行“權(quán)力尋租”——由于搜索結(jié)果的排名先后會(huì)直接影響其點(diǎn)擊率,搜索服務(wù)商出于增加廣告營(yíng)利目的,普遍對(duì)搜索結(jié)果中的優(yōu)先位置進(jìn)行計(jì)價(jià)銷售。2008年的“屏蔽百度抓取”事件[27]和 2016年的“魏則西”事件[28],便充分暴露出百度搜索引擎通過(guò)競(jìng)價(jià)排名對(duì)搜索結(jié)果排序的人為操縱以及由此所產(chǎn)生的社會(huì)后果。

除了商業(yè)利益驅(qū)使外,政治利益也是數(shù)據(jù)造假的重要?jiǎng)訖C(jī)。大數(shù)據(jù)時(shí)代帶來(lái)的政治?文化后果便是“大數(shù)據(jù)政治”,即一種技術(shù)“殖民”社會(huì)的權(quán)力結(jié)構(gòu)體系。隨著互聯(lián)網(wǎng)對(duì)政治活動(dòng)影響的不斷加深,以往身體化的參與行為日漸讓位于虛擬的鼠標(biāo)點(diǎn)擊行動(dòng)(clicktivism),支持或反對(duì)的程度被認(rèn)為可以通過(guò)點(diǎn)擊、閱讀和轉(zhuǎn)發(fā)的數(shù)量來(lái)衡量[29]。由此,大數(shù)據(jù)使政府與企業(yè)決策過(guò)程中的公眾角色不斷弱化,取而代之的則是數(shù)據(jù)化的“幻影公眾”[30],此后果不僅使數(shù)據(jù)生產(chǎn)者的主體性受到侵蝕——這正是哈貝馬斯對(duì)“技術(shù)官僚統(tǒng)治”的憂慮所在[31],而且也使數(shù)據(jù)信息本身的真實(shí)性遭遇嚴(yán)峻的考驗(yàn)。例如,英美等國(guó)媒體就曾曝光過(guò)美國(guó)政府通過(guò)開(kāi)發(fā)網(wǎng)絡(luò)機(jī)器人和注冊(cè)虛假社交媒體賬號(hào)等方式偽造民意的新聞[32]。對(duì)于互聯(lián)網(wǎng)大數(shù)據(jù)研究而言,這些人為操縱之下形成的虛假數(shù)據(jù),如果不能被有效甄別與剔除,就意味著數(shù)據(jù)可能存在巨大的系統(tǒng)性偏差,勢(shì)必導(dǎo)致研究結(jié)果出現(xiàn)嚴(yán)重錯(cuò)誤。然而,虛假數(shù)據(jù)的甄別與剔除,目前仍是有待深入解決的技術(shù)難題和社會(huì)難題。

(二) 數(shù)據(jù)偏態(tài):互聯(lián)網(wǎng)大數(shù)據(jù)生產(chǎn)中的“非自然”

有學(xué)者認(rèn)為,無(wú)論社交媒體中的聊天信息、電子郵件,還是各類服務(wù)平臺(tái)上的購(gòu)物記錄和電子蹤跡等,都是在未受研究者干預(yù)條件下自然發(fā)生的,反映著行動(dòng)者的客觀真實(shí)狀態(tài)。該觀點(diǎn)的缺陷在于,過(guò)分關(guān)注互聯(lián)網(wǎng)大數(shù)據(jù)生成過(guò)程的技術(shù)維度而忽略其社會(huì)維度。一方面,互聯(lián)網(wǎng)大數(shù)據(jù)的生成平臺(tái)能夠通過(guò)程序設(shè)計(jì)與議程設(shè)置等方式,對(duì)數(shù)據(jù)生成過(guò)程產(chǎn)生直接引導(dǎo)作用,影響著所能生成的數(shù)據(jù)形式與信息內(nèi)容。另一方面,社會(huì)大眾的數(shù)據(jù)生產(chǎn)過(guò)程實(shí)質(zhì)上就是其在互聯(lián)網(wǎng)空間開(kāi)展社會(huì)行動(dòng)與互動(dòng)的過(guò)程,這一過(guò)程除了受到群體環(huán)境的影響,其本身會(huì)帶有明顯的現(xiàn)實(shí)情境特征。正因如此,即使能擺脫研究者與研究本身的影響,也改變不了互聯(lián)網(wǎng)大數(shù)據(jù)中存在著諸多其他社會(huì)因素影響的現(xiàn)實(shí)。

1.數(shù)據(jù)引導(dǎo)

數(shù)據(jù)引導(dǎo),即通過(guò)人為設(shè)計(jì)與限制等方式影響信息生產(chǎn)過(guò)程與結(jié)果的行為。除了權(quán)力監(jiān)管(如網(wǎng)絡(luò)刪帖、敏感詞屏蔽)這種顯性形式之外,數(shù)據(jù)引導(dǎo)還會(huì)以“數(shù)據(jù)算法”的隱蔽形式潛藏在互聯(lián)網(wǎng)大數(shù)據(jù)的生成過(guò)程。有學(xué)者指出,那些看似“自然”的互聯(lián)網(wǎng)大數(shù)據(jù),其實(shí)在生成過(guò)程中就已經(jīng)摻雜進(jìn)了大量人為的設(shè)計(jì)因素。Facebook和Twitter等社交網(wǎng)站通過(guò)不停地調(diào)試,將友誼、受歡迎程度等轉(zhuǎn)換成某種算法,同時(shí)把這種算法宣稱為某種“社會(huì)共享”的價(jià)值觀念。點(diǎn)“贊”和“熱門話題”這樣的網(wǎng)站按鈕雖然可能被認(rèn)為是自然的在線社交活動(dòng),但并不能掩蓋構(gòu)成這些按鈕的算法,本質(zhì)上是被精心調(diào)制出來(lái)用于引導(dǎo)人們點(diǎn)擊響應(yīng)的[33]。

除了基于算法設(shè)計(jì)的技術(shù)引導(dǎo),數(shù)據(jù)引導(dǎo)還可以通過(guò)直接的人為干預(yù)方式發(fā)生。社會(huì)注意力研究也證明,網(wǎng)絡(luò)時(shí)代的大眾媒介和部分精英群體同樣也能夠通過(guò)議程設(shè)置和框架建構(gòu),對(duì)受眾的注意力分配發(fā)揮明顯的引導(dǎo)與形塑作用。與心理學(xué)關(guān)注神經(jīng)性活動(dòng)不同,社會(huì)學(xué)和經(jīng)濟(jì)學(xué)將“注意力”視為特定結(jié)構(gòu)與情境條件下,與信息處理相關(guān)聯(lián)的可組織配置的一種社會(huì)性資源[34]。在信息爆炸與信息過(guò)載的網(wǎng)絡(luò)時(shí)代,“注意力”開(kāi)始取代信息成為社會(huì)中的稀缺資源②,其分配——注意力資源在不同信息對(duì)象之間的配置結(jié)構(gòu)——會(huì)對(duì)信息獲取的方向、主題及其處理方式與效率產(chǎn)生重要影響[35]。傳播學(xué)認(rèn)為,大眾媒介對(duì)信息受眾的注意力分配發(fā)揮著引導(dǎo)與建構(gòu)作用。議程設(shè)置與框架理論指出,在以往信息與信源匱乏的時(shí)代,人們?yōu)楂@取信息必須緊緊依附于有限的大眾媒介,并在媒介的影響下配置自身的注意力。“隨著時(shí)間的推移,媒介議程中報(bào)道對(duì)象的顯著性會(huì)轉(zhuǎn)移到公眾議程上,媒介不僅能成功地告訴我們?nèi)ハ胧裁?,而且能成功地告訴我們?nèi)绾稳ハ搿盵36]。進(jìn)入網(wǎng)絡(luò)時(shí)代之后,這種議程設(shè)置現(xiàn)象并未隨著信源數(shù)量的迅猛增長(zhǎng)和信息議題的多元化而消失。表3呈現(xiàn)了由2017年3月26日至5月20日8周時(shí)間內(nèi),中國(guó)傳統(tǒng)新聞媒介在新浪微博中每周影響力的排名。由表中數(shù)據(jù)可知,盡管存在著許多網(wǎng)絡(luò)意見(jiàn)領(lǐng)袖(微博 VIP會(huì)員)和自媒體賬號(hào),但微博中傳統(tǒng)新聞媒介依然擁有巨大的輿論影響力;與印刷形式上的多樣性相比,大量受眾的注意力逐漸集中到少數(shù)傳統(tǒng)新聞媒介上[37]。議程設(shè)置現(xiàn)象的存在,將會(huì)造成網(wǎng)絡(luò)輿情大數(shù)據(jù)在主題分布上的極度不均衡,那些未被納入議程的主題很可能面臨數(shù)據(jù)量過(guò)小或樣本代表性不足等潛在問(wèn)題。此外,各類自媒體的出現(xiàn),很多情況下也不過(guò)是將議程設(shè)置的主體由大眾媒介拓展至部分網(wǎng)絡(luò)精英群體[38?39]。“2016微博用戶發(fā)展報(bào)告”就指出,新浪微博的VIP會(huì)員的發(fā)文量超過(guò)普通用戶近四倍[15]。一項(xiàng)關(guān)于Twitter網(wǎng)中信息生產(chǎn)主體的研究也顯示,精英用戶群體盡管只占全部用戶的極少部分,卻生產(chǎn)出該平臺(tái)近50%的信息[40]。自媒體的精英屬性,也使議程的選擇難免帶有偏見(jiàn)與人為謀劃色彩。

表3 部分傳統(tǒng)新聞媒體微博賬號(hào)影響力每周排名(2017.3.26—2017.5.20)

2.環(huán)境塑造

在社會(huì)學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)的生產(chǎn)主體中,政府、媒介與商業(yè)公司等專業(yè)內(nèi)容生產(chǎn)者只構(gòu)成了其中的一小部分,絕大多數(shù)是那些普通的互聯(lián)網(wǎng)用戶。這些用戶被認(rèn)為會(huì)以“主動(dòng)自我報(bào)告”或“自我曝光”形式在互聯(lián)網(wǎng)上持續(xù)生產(chǎn)各種類型的心態(tài)與行為信息,將自己的真實(shí)面記錄在數(shù)據(jù)之中。由此,可以引申出如下問(wèn)題,即在互聯(lián)網(wǎng)上大眾是否真的所言/行如所想?關(guān)于網(wǎng)絡(luò)輿論中從眾行為、傳染行為與“沉默的螺旋”現(xiàn)象的研究均顯示,許多情況下人們并非會(huì)按照自己所想的那樣去行事。首先,互聯(lián)網(wǎng)中的數(shù)字認(rèn)同與社交互動(dòng)中的同質(zhì)性偏好,造成了網(wǎng)絡(luò)結(jié)構(gòu)上的不均勻,信息受眾普遍分散在內(nèi)部關(guān)系緊密而外部關(guān)系稀疏的各個(gè)子網(wǎng)絡(luò)之中。受子網(wǎng)絡(luò)群體的影響和壓力,網(wǎng)絡(luò)成員有可能傾向于隱匿自身的想法而試圖與其他群體成員保持一致[41?42]。其次,由從眾行為衍生而來(lái)的社會(huì)傳染研究,更進(jìn)一步揭示出網(wǎng)絡(luò)中特定成員會(huì)將關(guān)系鄰接者的行為作為現(xiàn)實(shí)的情境因素加以解讀,并可能受其傳染而出現(xiàn)行為上的主動(dòng)趨同化[43?44]。最后,在被動(dòng)從眾與主動(dòng)趨同之外,還存在著一種受眾保持“沉默”的可能。“沉默的螺旋”理論認(rèn)為,人們會(huì)出于害怕孤立的心理,預(yù)先評(píng)估特定議題下的意見(jiàn)分布狀況,并判斷不同意見(jiàn)之間的優(yōu)劣地位。當(dāng)他們估計(jì)優(yōu)勢(shì)意見(jiàn)與其個(gè)人意見(jiàn)相去甚遠(yuǎn),且不愿改變自身立場(chǎng)時(shí),便傾向于保持沉默[45]。沉默的直接后果是使優(yōu)勢(shì)意見(jiàn)的強(qiáng)者地位得到進(jìn)一步強(qiáng)化,劣勢(shì)意見(jiàn)則更趨于沉默,這種循環(huán)往復(fù)的作用會(huì)嚴(yán)重?fù)p害網(wǎng)絡(luò)輿情大數(shù)據(jù)中的態(tài)度多樣性信息[46]。

實(shí)際上,除了群體壓力以外,權(quán)力監(jiān)控下的自我隱私保護(hù)同樣會(huì)帶來(lái)互聯(lián)網(wǎng)用戶的主動(dòng)沉默。福柯曾指出現(xiàn)代權(quán)力體系的兩大特征,即從統(tǒng)治權(quán)向生命權(quán)力的拓展以及與之相配合的“全景敞視主義”。當(dāng)數(shù)字化技術(shù)成為人們身體的延伸,大數(shù)據(jù)計(jì)算在一定意義上便成為強(qiáng)化生命權(quán)力的工具;而時(shí)時(shí)刻刻的“數(shù)據(jù)監(jiān)測(cè)”,則進(jìn)一步提升了對(duì)社會(huì)的“全景監(jiān)控”能力。在部分學(xué)者看來(lái),數(shù)據(jù)規(guī)模愈大,數(shù)據(jù)生成主體就會(huì)變得愈加“透明”,這與現(xiàn)代社會(huì)所強(qiáng)調(diào)的隱私權(quán)利保護(hù)背道而馳[47]。盡管存在著各種數(shù)據(jù)的匿名與脫敏技術(shù),但對(duì)性別、年齡、族群或亞文化群體信息的披露,仍會(huì)涉及到對(duì)群體隱私權(quán)的侵犯[48]。所謂群體隱私,是一個(gè)群體以其整體的名義而非群體內(nèi)各成員的個(gè)人名義所享有的社會(huì)權(quán)利[49]。以往關(guān)于“群體污名”的研究已經(jīng)表明,在一個(gè)不平等社會(huì)中,任何群體間的明顯差異都有可能成為建構(gòu)群體污名甚至社會(huì)區(qū)隔的意義基礎(chǔ)。這種對(duì)個(gè)人/群體隱私的潛在侵?jǐn)_,勢(shì)必會(huì)給數(shù)據(jù)生產(chǎn)制造障礙,對(duì)個(gè)體或群體隱私保護(hù)意識(shí)的強(qiáng)化,會(huì)窒息數(shù)據(jù)生產(chǎn)主體的創(chuàng)造意愿,使其對(duì)重要信息進(jìn)行刻意隱瞞甚至主動(dòng)篡改,并由此對(duì)數(shù)據(jù)質(zhì)量帶來(lái)嚴(yán)重?fù)p害[50]。

三、價(jià)值有涉:互聯(lián)網(wǎng)大數(shù)據(jù)的客觀性邊界

自從孔德創(chuàng)立“社會(huì)物理學(xué)”并將其視為“標(biāo)志著實(shí)證主義的最終勝利”開(kāi)始[51],實(shí)證主義方法論就在社會(huì)研究中劃分出一條科學(xué)與非科學(xué)的邊界。它在“將社會(huì)科學(xué)放置到了低于自然科學(xué)的位置上”的同時(shí),也“將人文學(xué)科貶低到了一個(gè)虛幻的主觀性領(lǐng)域”[52]。然而長(zhǎng)久以來(lái),無(wú)論是質(zhì)性研究中“薩摩亞”之爭(zhēng)和“墨西哥特波茨蘭村”之爭(zhēng)背后隱含的研究者主觀價(jià)值分歧[53],還是量化資料收集過(guò)程中調(diào)查者對(duì)被調(diào)查者的外在干擾[54],都持續(xù)證明著絕對(duì)“價(jià)值中立”與完全“客觀”在社會(huì)研究中的難以企及[55],甚至引發(fā)出一場(chǎng)關(guān)于社會(huì)學(xué)方法論危機(jī)的討論[56?57]。

大數(shù)據(jù)時(shí)代的到來(lái),將社會(huì)學(xué)的實(shí)證主義情結(jié)再次喚醒。二進(jìn)制的計(jì)算機(jī)代碼將大數(shù)據(jù)時(shí)代描繪成一個(gè)擺脫人為干涉的純數(shù)字時(shí)代,“客觀性”被視為互聯(lián)網(wǎng)大數(shù)據(jù)的基本特征之一。由于數(shù)據(jù)生成與社會(huì)研究相分離,加之可用數(shù)據(jù)集中信息的極度豐富及其多維屬性,研究者個(gè)人因素所造成的“觀念先行”“材料拼湊”和“以偏概全”等問(wèn)題被認(rèn)為可以有效避免。在此基礎(chǔ)上,一種稱為“大數(shù)據(jù)神話”的觀點(diǎn)被提出,它認(rèn)為“大數(shù)據(jù)集提供了一種智力和知識(shí)的更高級(jí)形式,可以生產(chǎn)出以往無(wú)法企及的、帶有真理性、客觀性和準(zhǔn)確性的見(jiàn)解”[58];“從海量的客觀數(shù)據(jù)中得出的結(jié)論要比傳統(tǒng)抽樣統(tǒng)計(jì)分析得出的結(jié)論更為可靠”[59]。然而也有學(xué)者提醒我們,大數(shù)據(jù)其實(shí)“并沒(méi)有看起來(lái)的那么簡(jiǎn)單”[60]。事實(shí)上,數(shù)據(jù)生產(chǎn)與社會(huì)研究的相互獨(dú)立,不但未能將人為干擾從互聯(lián)網(wǎng)大數(shù)據(jù)中排除出去,反而會(huì)招致比傳統(tǒng)研究方法更多的干擾因素。各種或顯性或隱性的人為干擾,潛藏在由數(shù)據(jù)生成到數(shù)據(jù)挖掘再到數(shù)據(jù)分析的整個(gè)處理鏈條之中,持續(xù)威脅著計(jì)算結(jié)果的客觀中立性。

首先,數(shù)據(jù)生成環(huán)節(jié)上的算法設(shè)計(jì)及其變更,構(gòu)成了互聯(lián)網(wǎng)大數(shù)據(jù)研究的第一層人為干擾。網(wǎng)絡(luò)數(shù)據(jù)的生產(chǎn)通常都需要依靠特定的程序設(shè)計(jì)才能得以實(shí)現(xiàn),但這些程序作為一種人工制品本身遠(yuǎn)非盡善盡美,需要經(jīng)過(guò)不斷的調(diào)試、更新與升級(jí)。在此過(guò)程中,程序本身的明顯調(diào)整(如搜索推薦算法變更),會(huì)在基于該程序所生成的數(shù)據(jù)中制造出某種不甚清晰的斷裂。拉澤爾等就曾指出,谷歌出于商業(yè)目的對(duì)網(wǎng)絡(luò)搜索推薦算法的變更,是造成谷歌疾病預(yù)測(cè)走向失敗的一個(gè)重要原因[61]。與此同時(shí),不同平臺(tái)間算法設(shè)計(jì)上的差異,也為數(shù)據(jù)的匹配和關(guān)聯(lián)制造了障礙。一個(gè)典型的例子是,中國(guó)幾大主要門戶網(wǎng)站(如網(wǎng)易、搜狐)在互聯(lián)網(wǎng)平臺(tái)和移動(dòng)互聯(lián)網(wǎng)平臺(tái)上普遍采用了兩種不同的推薦算法——前者以人工審核和操作為主,后者則使用著基于機(jī)器學(xué)習(xí)的智能推薦算法,其結(jié)果將造成無(wú)法對(duì)兩大平臺(tái)的數(shù)據(jù)直接關(guān)聯(lián)或相加。

其次,即便數(shù)據(jù)生成本身足以客觀中立,但對(duì)數(shù)據(jù)的選擇與獲取仍無(wú)法逃脫人為因素的干擾。一方面,作為有價(jià)值的商品和有意義的信息,數(shù)據(jù)公布或隱藏背后普遍隱含著商業(yè)利益或權(quán)力斗爭(zhēng)方面的考量;另一方面,數(shù)據(jù)采集同樣是一個(gè)主觀操作的過(guò)程,無(wú)論是主題的選擇還是信息的取舍,背后都難免涉及各種差異性甚至矛盾性的價(jià)值取向。有學(xué)者提出大數(shù)據(jù)作為一個(gè)龐大的原始信息集合,本身并不是不言自明的,對(duì)數(shù)據(jù)的解釋必然要向各種哲學(xué)辯論開(kāi)放[62]13。換句話說(shuō),存在著社會(huì)學(xué)互聯(lián)網(wǎng)大數(shù)據(jù)研究的價(jià)值邊界,這要求研究者應(yīng)當(dāng)始終持有一種反思意識(shí),即“基于誰(shuí)的利益,出于什么目的”進(jìn)行數(shù)據(jù)的收集與計(jì)算[33]。

最后,人為干擾因素同樣充斥在數(shù)據(jù)分析階段。由于數(shù)據(jù)與其生產(chǎn)者之間的關(guān)系并非是不證自明的,對(duì)任何數(shù)據(jù)的分析都難免摻雜進(jìn)分析者的個(gè)人解讀。人們絕不僅僅是制度規(guī)范的機(jī)械執(zhí)行者,社會(huì)行為及其意義必須被置于其所發(fā)生的特定情境中才能被更好地理解。然而,現(xiàn)實(shí)情況是許多情境因素都未能被記錄在大數(shù)據(jù)之中;即使那些被記錄下來(lái)的情境因素,一部分也難免會(huì)在數(shù)據(jù)清洗與抽取過(guò)程中被排除出去。脫離了具體情境下的意義結(jié)構(gòu),我們即使能夠發(fā)現(xiàn)人們?cè)凇俺閯?dòng)眼皮”,卻永遠(yuǎn)也難以直接明確分辨出這一行為的意義所在[63](7?8);而對(duì)于那些被解讀出來(lái)的意義,也應(yīng)當(dāng)不斷反問(wèn),這是數(shù)據(jù)本身的意義,還是分析者個(gè)人所賦予其的意義?清醒認(rèn)識(shí)到這一點(diǎn),有助于在社會(huì)研究中避免對(duì)數(shù)據(jù)意義的過(guò)度解讀。

四、結(jié)語(yǔ):互聯(lián)網(wǎng)大數(shù)據(jù)的社會(huì)研究邊界

當(dāng)下熱門的“大數(shù)據(jù)”一詞,最早是由著名計(jì)算機(jī)企業(yè)的專業(yè)技術(shù)人員提出的。由于這一概念很快就夾雜了大量商業(yè)宣傳的聲音,許多有市場(chǎng)炒作之嫌的觀點(diǎn)也逐漸大行其道[64]。部分社會(huì)學(xué)研究者囿于自身的知識(shí)結(jié)構(gòu),一時(shí)難以對(duì)以計(jì)算機(jī)科學(xué)為基礎(chǔ)的各種大數(shù)據(jù)觀點(diǎn)進(jìn)行準(zhǔn)確的判斷,故而出現(xiàn)了一些誤解或認(rèn)知偏差。對(duì)于社會(huì)研究來(lái)說(shuō),大數(shù)據(jù)的總體性、真實(shí)?自然性、客觀性假設(shè),在很多數(shù)情況下其實(shí)并不成立。首先,無(wú)論是由“數(shù)字鴻溝”現(xiàn)象劃分出的年齡與階層邊界,還是由“數(shù)據(jù)分隔”現(xiàn)象所筑起的主題與群體邊界,都說(shuō)明大數(shù)據(jù)盡管體量龐大、類型多樣,但只能完成對(duì)現(xiàn)實(shí)社會(huì)信息的部分記錄,在大多數(shù)情況下并非什么“總體性”數(shù)據(jù),故而對(duì)數(shù)據(jù)中可能存在的信息缺失必須加以考量,數(shù)據(jù)代表性問(wèn)題依然需要檢視。其次,在那些已經(jīng)被生產(chǎn)出來(lái)的互聯(lián)網(wǎng)大數(shù)據(jù)中,還或多或少存在著信息造假與數(shù)據(jù)偏態(tài)的問(wèn)題,有些數(shù)據(jù)的真實(shí)性和準(zhǔn)確性值得懷疑。最后,在互聯(lián)網(wǎng)大數(shù)據(jù)的生成與計(jì)算過(guò)程中,還暗含著大量顯性或隱性的人為干擾因素。從源數(shù)據(jù)生成階段的信息造假與意義建構(gòu),到數(shù)據(jù)處理階段的算法設(shè)計(jì)和變量選取,再到數(shù)據(jù)分析階段的意義解讀,大數(shù)據(jù)的生成、采集和計(jì)算中很可能存在著比傳統(tǒng)研究方法更多的人為操縱和干擾因素。

受線上/線下諸多因素的影響,大數(shù)據(jù)中普遍存在數(shù)據(jù)缺失、數(shù)據(jù)偏態(tài)與人為干擾等問(wèn)題,這決定了將其運(yùn)用于社會(huì)研究會(huì)存在一定的范圍限制。這些限制部分源于當(dāng)前信息社會(huì)發(fā)展的不成熟,隨著互聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)的持續(xù)普及,越來(lái)越多的社會(huì)成員將有機(jī)會(huì)成為數(shù)據(jù)生產(chǎn)的主體,從而使大數(shù)據(jù)的代表性問(wèn)題得到不斷優(yōu)化;另一些導(dǎo)源于互聯(lián)網(wǎng)大數(shù)據(jù)結(jié)構(gòu)性問(wèn)題——如專業(yè)化和偏好因素作用下的數(shù)據(jù)分隔現(xiàn)象、經(jīng)濟(jì)利益驅(qū)使下的數(shù)據(jù)造假現(xiàn)象、個(gè)體性格與社會(huì)心態(tài)影響下的信息偏態(tài)現(xiàn)象、變量操作化與挖掘分析中的價(jià)值有涉現(xiàn)象——的限制將會(huì)始終存在。

本文反思三大假定的目的,在于認(rèn)清當(dāng)前互聯(lián)網(wǎng)大數(shù)據(jù)的研究邊界,這對(duì)運(yùn)用大量新型數(shù)據(jù)和新興工具與方法開(kāi)展計(jì)算范式下的社會(huì)研究而言至關(guān)重要。因?yàn)?,?duì)于市場(chǎng)營(yíng)銷而言,大數(shù)據(jù)獲取與計(jì)算的及時(shí)性、高效性和低成本,能夠服務(wù)于企業(yè)的快速?zèng)Q策和市場(chǎng)細(xì)分,對(duì)數(shù)據(jù)的代表性、真實(shí)性和客觀性的要求有時(shí)并不嚴(yán)格[65]。但對(duì)于學(xué)術(shù)研究而言,上述三大假定的成立與否,直接決定著計(jì)算結(jié)果是否真正具有學(xué)術(shù)價(jià)值。尤其是在將研究結(jié)果應(yīng)用于社會(huì)治理時(shí),更應(yīng)注意數(shù)據(jù)中潛藏的不平等、刻意隱瞞與人為操縱等現(xiàn)象,防止缺失、偏態(tài)與強(qiáng)加意義的數(shù)據(jù)分析結(jié)果成為政策制定的錯(cuò)誤依據(jù)。

對(duì)研究邊界的討論,一定程度上也是在回答有關(guān)大數(shù)據(jù)計(jì)算與傳統(tǒng)研究方法之間關(guān)系的問(wèn)題。部分純數(shù)據(jù)驅(qū)動(dòng)型學(xué)者認(rèn)為,傳統(tǒng)的研究方法、研究邏輯和認(rèn)識(shí)路徑(理論假設(shè)——數(shù)學(xué)模型——統(tǒng)計(jì)檢驗(yàn))基本上已經(jīng)過(guò)時(shí),借助于豐富的海量數(shù)據(jù)和強(qiáng)大的復(fù)雜算法,可以在不需要理論的前提下做出準(zhǔn)確理解和精確預(yù)測(cè)[66]。在拉澤爾等人看來(lái),以為大數(shù)據(jù)計(jì)算可以取代傳統(tǒng)方法的觀點(diǎn)是一種“大數(shù)據(jù)狂妄”(Big Data Hubris)[61]。如今,互聯(lián)網(wǎng)早已不再是與現(xiàn)實(shí)社會(huì)相平行的“虛擬社會(huì)”,其本身已成為現(xiàn)實(shí)社會(huì)的一部分。大數(shù)據(jù)計(jì)算盡管首先表現(xiàn)為一種技術(shù)和方法層面上的意義,但同時(shí)也越來(lái)越帶有著濃厚的社會(huì)屬性。因而基于大數(shù)據(jù)計(jì)算所得出的結(jié)論并不一定是絕對(duì)客觀的真理,可能還需要通過(guò)傳統(tǒng)研究方法加以補(bǔ)充和驗(yàn)證。

當(dāng)然,邊界的存在決不意味著沒(méi)有價(jià)值。在研究邊界內(nèi),大數(shù)據(jù)計(jì)算能夠從遠(yuǎn)比以往更為豐富的數(shù)據(jù)資料(其中大部分過(guò)去并不存在)中挖掘出有價(jià)值的信息,可能會(huì)幫助研究者發(fā)現(xiàn)一些以往未被認(rèn)識(shí)或未能深入了解的社會(huì)規(guī)律[67]。尤其是在轉(zhuǎn)向復(fù)雜自適應(yīng)系統(tǒng)理論的過(guò)程中,大數(shù)據(jù)計(jì)算對(duì)社會(huì)復(fù)雜性、社會(huì)適應(yīng)性、微觀行為的宏觀涌現(xiàn)性等問(wèn)題的處理要比傳統(tǒng)方法更具優(yōu)勢(shì)[68]。此外,大數(shù)據(jù)計(jì)算的相關(guān)技術(shù),也為傳統(tǒng)質(zhì)性與量化資料的處理提供了新型的、更高效的分析方法和手段。當(dāng)前,基于大數(shù)據(jù)的社會(huì)研究尚處在方興未艾的時(shí)期,關(guān)于其基本概念、理論、方法和技術(shù)的研究仍有待進(jìn)一步深入。將傳統(tǒng)質(zhì)性與量化研究方法同大數(shù)據(jù)計(jì)算,特別是人工智能技術(shù)相結(jié)合,將會(huì)為社會(huì)研究的未來(lái)發(fā)展助益良多。

注釋:

① 根據(jù)生產(chǎn)主體的不同,互聯(lián)網(wǎng)大數(shù)據(jù)可以細(xì)分為兩種類型,即專業(yè)生成內(nèi)容(professional generated content,PGC)和用戶生成內(nèi)容(user generated content,UGC)。本文討論的互聯(lián)網(wǎng)大數(shù)據(jù)主要著眼于后一類型,即非專業(yè)機(jī)構(gòu)用戶在互聯(lián)網(wǎng)上生產(chǎn)和累積的各類數(shù)據(jù)化信息。

② 受人腦智力條件和社會(huì)時(shí)間資源等因素的限制,人類被認(rèn)為只具備獲取與處理信息的有限能力。盡管各類先進(jìn)的數(shù)字化設(shè)備與技術(shù)極大地拓展了這一能力,但其本質(zhì)上仍存在著一定的上限。

[1]郝龍, 李鳳翔.社會(huì)科學(xué)大數(shù)據(jù)計(jì)算——大數(shù)據(jù)時(shí)代計(jì)算社會(huì)科學(xué)的核心議題[J].圖書館學(xué)研究, 2017(22): 20?29.

[2]Lazer D, Pentland A, Adamic L, et al.Social science.computational social science[J].Science, 2009, 323(5915):721?723.

[3]Wing J M.Computational thinking[J].Visual Languages and Human-Centric Computing, 2006, 49: 33?35.

[4]段偉文.大數(shù)據(jù)知識(shí)發(fā)現(xiàn)的本體論追問(wèn)[J].哲學(xué)研究,2015(11): 114?119.

[5]邁爾-舍恩伯格,庫(kù)克耶.大數(shù)據(jù)時(shí)代: 生活、工作與思維的大變革[M].盛楊燕, 周濤, 譯.杭州: 浙江人民出版社, 2014.

[6]唐皇鳳, 謝德勝.大數(shù)據(jù)時(shí)代中國(guó)政治學(xué)的機(jī)遇與挑戰(zhàn)[J].新疆師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2016(1): 95?104.

[7]唐文方.大數(shù)據(jù)與小數(shù)據(jù): 社會(huì)科學(xué)研究方法的探討[J].中山大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版), 2015(6): 141?146.

[8]劉濤雄, 尹德才.大數(shù)據(jù)時(shí)代與社會(huì)科學(xué)研究范式變革[J].理論探索, 2017(6): 27?32.

[9]何其聰, 喻國(guó)明.我國(guó)城市互聯(lián)網(wǎng)用戶使用社會(huì)化媒體的現(xiàn)況考察——使用時(shí)長(zhǎng)、類型偏好、認(rèn)知-使用率及在線社交活動(dòng)的若干特征[J].當(dāng)代傳播(漢文版), 2015(3): 29?32.

[10]阿利森.缺失數(shù)據(jù)[M].林毓玲, 譯.上海: 上海格致出版社,2012.

[11]中國(guó)互聯(lián)網(wǎng)信息中心.第41次“中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告”[EB/OL].(2018-01-31) [2018-02-23].http://www.cnnic.net.cn/hlwfzyj/hlwxzbg/hlwtjbg/201801/P020180131509544165 973.pdf.

[12]中華人民共和國(guó)國(guó)家統(tǒng)計(jì)局.中國(guó)統(tǒng)計(jì)年鑒 2017[EB/OL].(2017-06-26) [2018-02-23].http://www.stats.gov.cn/tjsj/ndsj/2017/ indexch.htm.

[13]李冠強(qiáng), 陳雅, 李強(qiáng).中國(guó)互聯(lián)網(wǎng)用戶網(wǎng)絡(luò)使用行為分析[J].中國(guó)圖書館學(xué)報(bào), 2004, 30(5): 43—46.

[14]汪明峰.互聯(lián)網(wǎng)使用與中國(guó)城市化——“數(shù)字鴻溝”的空間層面[J].社會(huì)學(xué)研究, 2005(6): 112?135.

[15]新浪微博數(shù)據(jù)中心.2016微博用戶發(fā)展報(bào)告[EB/OL].(2017-01-11) [2018-02-23].http://data.weibo.com/report/report Detail?id=346.

[16]曹榮湘.數(shù)字鴻溝引論: 信息不平等與數(shù)字機(jī)遇[J].馬克思主義與現(xiàn)實(shí), 2001(6): 20?25.

[17]Van Dijk, J.Digital divide research, achievements and shortcomings[J].Poetics, 2006, 34(4): 221?235.

[18]羅俊, 羅教講.數(shù)據(jù)密集型知識(shí)發(fā)現(xiàn)的邊界與陷阱——以美國(guó)大選預(yù)測(cè)為例[J].學(xué)術(shù)論壇, 2017, 40(3): 1?7.

[19]布希亞.消費(fèi)社會(huì)[M].劉成富, 全志剛, 譯.南京: 南京大學(xué)出版社, 2001.

[20]Liu J, Li J, Li W, et al.Rethinking big data: A review on the data quality and usage issues[J].Isprs Journal of Photogrammetry &Remote Sensing, 2016, 115: 134?142.

[21]Akerlof G A, Kranton R E.Economics and identity[J].Quarterly Journal of Economics, 2000, 115(3): 715?753.

[22]Bendler J, Wagner S, Brandt T, et al.Taming uncertainty in big data: Evidence from social media in urban areas[J].Business &Information Systems Engineering, 2014, 6(5): 279?288.

[23]丁小浩.大數(shù)據(jù)時(shí)代的教育研究[J].清華大學(xué)教育研究, 2017,38(5): 8?14.

[24]Shah D V, Cappella J N, Neuman W R.Big data, digital media,and computational social science: Possibilities and perils[J].Annals of the American Academy of Political & Social Science,2015, 659(1): 6?13.

[25]陳潭, 劉成.大數(shù)據(jù)驅(qū)動(dòng)社會(huì)科學(xué)研究的實(shí)踐向度[J].學(xué)術(shù)界, 2017(7): 130?140.

[26]麥克馬那斯.市場(chǎng)新聞業(yè): 公民自行小心?[M].張磊, 譯.北京: 新華出版社, 2004.

[27]杜駿飛.百度“屏蔽門”事件: 網(wǎng)絡(luò)社會(huì)的敵人[J].傳媒,2008(10): 14?17.

[28]凌永輝, 張?jiān)掠?市場(chǎng)結(jié)構(gòu)、搜索引擎與競(jìng)價(jià)排名: 以魏則西事件為例[J].廣東財(cái)經(jīng)大學(xué)學(xué)報(bào), 2017 (2): 109?116.

[29]Halupka M.Clicktivism: A systematic heuristic[J].Policy &Internet, 2014, 6(2): 115?132.

[30]袁光鋒.政治算法、“幻影公眾”與大數(shù)據(jù)的政治邏輯[J].學(xué)海, 2015(4): 49?54.

[31]曹衛(wèi)東.開(kāi)放社會(huì)及其數(shù)據(jù)敵人[J].讀書, 2014(11): 73?78.

[32]Fielding, N & Cobain, I.Revealed: US spy operation that manipulates social media [EB/OL].(2011-3-11) [2018-02-23].https://www.theguardian.com/technology/2011/mar/17/us-spyoperation-social-networks.

[33]Van Dijck, J.Datafication, dataism and dataveillance: Big Data between scientific paradigm and ideology[J].Surveillance &Society, 2014, 12(2): 197.

[34]練宏.注意力分配——基于跨學(xué)科視角的理論述評(píng)[J].社會(huì)學(xué)研究, 2015(4): 215?241.

[35]汪丁丁.“注意力”的經(jīng)濟(jì)學(xué)描述[J].經(jīng)濟(jì)研究, 2000(10):67?72.

[36]麥克斯韋爾-麥考姆斯.議程設(shè)置理論概論: 過(guò)去、現(xiàn)在與未來(lái)[J].郭鎮(zhèn)之, 鄧?yán)锓? 譯.新聞大學(xué), 2007, 93(3): 55?67.

[37]Hamilton J.All the news that's fit to sell: How the market transforms information into news[M].Princeton: Princeton University Press, 2004: 197.

[38]王平, 謝耘耕.突發(fā)公共事件中微博意見(jiàn)領(lǐng)袖的實(shí)證研究——以“溫州動(dòng)車事故”為例[J].現(xiàn)代傳播-中國(guó)傳媒大學(xué)學(xué)報(bào), 2012, 34(3): 82?88.

[39]禹建強(qiáng), 李艷芳.對(duì)微博信息流中意見(jiàn)領(lǐng)袖的實(shí)證分析: 以“廈門BRT公交爆炸案”為個(gè)案[J].國(guó)際新聞界, 2014, 36(3):23?36.

[40]Wu S, Hofman J M, Mason W.A., et al.Who says what to whom on twitter[C].In Proceedings of the 20th international conference on World Wide Web, 2011: 705?714.

[41]朱琳, 汪蕾, 陳長(zhǎng), 等.網(wǎng)絡(luò)信息傳播的從眾行為研究——以微博為例[J].現(xiàn)代情報(bào), 2014, 34(12): 17?22.

[42]劉錦德, 王國(guó)平.網(wǎng)絡(luò)輿情傳播的從眾效應(yīng)[J].江西社會(huì)科學(xué), 2015(5): 234?239.

[43]王世龍, 謝光明.社會(huì)網(wǎng)絡(luò)中的行為傳染研究述評(píng)[J].人民論壇, 2016(8): 164?166.

[44]Cheng J, Danescu-Niculescu-Mizil C, et al.Anyone can become a troll[J].American Scientist, 2017, 105(3): 152.

[45]Noelle-Neumann E.The spiral of silence: A theory of public opinion[J].Journal of Communication, 1974, 24(2): 43?51.

[46]羅俊, 羅教講.互聯(lián)網(wǎng)輿情偏態(tài)傳播與引導(dǎo)[J].人民論壇,2015(36): 25?27.

[47]Rubinstein I S.Big data: The end of privacy or a new beginning?[J].Social Science Electronic Publishing, 2013, 3(2):74?87.

[48]Zwitter A.Big data ethics[J].Big Data & Society, 2014, 1(2):1?6.

[49]Floridi L.Open data, data protection, and group privacy[J].Philosophy & Technology, 2014, 27(1): 1?3.

[50]Tene O, Polonetsky J.Privacy in the age of big data: A time for big decisions[J].Stanford Law Review Online, 2012, 64(63):63?69.

[51]Giddens A.Positivism and its critics[C]// In Bottomore, T.,Nisbet, R.eds.A History of Sociological Analysis.New York:Basic Books, 1978: 237?286.

[52]約翰·扎米托.科學(xué)哲學(xué): 從實(shí)證主義到后實(shí)證主義[J].劉鵬譯, 淮陰師范學(xué)院學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版), 2013(1): 28?35.

[53]朱炳祥.反思與重構(gòu): 論“主體民族志”[J].民族研究,2011(3): 12?24.

[54]郭淑華.現(xiàn)代社會(huì)調(diào)查真實(shí)性所面臨的挑戰(zhàn)[J].社會(huì),2003(5): 22?24.

[55]蘇國(guó)勛.社會(huì)學(xué)與社會(huì)建構(gòu)論[J].國(guó)外社會(huì)科學(xué), 2002(1):4?13.

[56]張小山.實(shí)證主義社會(huì)學(xué)面臨挑戰(zhàn)[J].社會(huì)學(xué)研究, 1991(5):114?126.

[57]吳小英.社會(huì)學(xué)危機(jī)的涵義[J].社會(huì)學(xué)研究, 1999(1): 52?58.

[58]Boyd D, Crawford K.Critical questions for big data:Provocations for a cultural, technological, and scholarly phenomenon[J].Information, Communication & Society, 2012,15(5): 662?679.

[59]羅小燕, 黃欣榮.社會(huì)科學(xué)研究的大數(shù)據(jù)方法[J].系統(tǒng)科學(xué)學(xué)報(bào), 2017(4): 9?12.

[60]Goldston D.Data wrangling[J].Nature, 2008, 455(7209): 15.

[61]Lazer D, Kennedy R, King G, et al.The parable of Google Flu:Traps in big data analysis[J].Science, 2014, 343(6176):1203?1205.

[62]Bollier D.The promise and peril of big data.Washington[R].Washington DC: Aspen Institute, Communications and Society Program , 2010.

[63]格爾茨.文化的解釋[M].韓莉, 譯.南京: 譯林出版社, 1999.

[64]Gandomi A, Haider M.Beyond the hype: Big data concepts,methods, and analytics[J].International Journal of Information Management, 2015, 35(2): 137?144.

[65]馮仕政.大數(shù)據(jù)時(shí)代的社會(huì)治理與社會(huì)研究: 現(xiàn)狀、問(wèn)題與前景[J].大數(shù)據(jù), 2016, 2(2): 3?16.

[66]Anderson C.The end of theory: The data deluge makes the scien tific method obsolete [EB/OL].(2008-06-23) [2018-02-23]https://www.wired.com/2008/06/pb-theory.

[67]Watts D.Computational social science: Exciting progress and future challenges[J].The Bridge, 2013(4): 5?10.

[68]Conte R, Gilbert N, Bonelli G, et al.Manifesto of computational social science[J].European Physical Journal Special Topics,2012, 214(1): 325?346..

猜你喜歡
計(jì)算群體信息
通過(guò)自然感染獲得群體免疫有多可怕
“群體失語(yǔ)”需要警惕——“為官不言”也是腐敗
訂閱信息
中華手工(2017年2期)2017-06-06 23:00:31
在Android中設(shè)計(jì)和實(shí)現(xiàn)簡(jiǎn)單的計(jì)算能力測(cè)試系統(tǒng)
項(xiàng)目成本計(jì)算方法的改進(jìn)研究
經(jīng)濟(jì)增加值EVA——企業(yè)業(yè)績(jī)?cè)u(píng)價(jià)新指標(biāo)
大型設(shè)備吊裝的承載計(jì)算及平衡梁校核
展會(huì)信息
關(guān)愛(ài)特殊群體不畏難
特殊群體要給予特殊的關(guān)愛(ài)
长顺县| 城市| 库伦旗| 盘山县| 霍林郭勒市| 辉南县| 凤山县| 昌黎县| 大冶市| 临洮县| 香港| 确山县| 额尔古纳市| 安仁县| 湛江市| 万源市| 攀枝花市| 永善县| 石渠县| 祁东县| 铁岭市| 教育| 城口县| 正镶白旗| 安岳县| 新昌县| 喀什市| 邵武市| 博乐市| 鄢陵县| 康乐县| 金华市| 云阳县| 五峰| 黑龙江省| 武陟县| 仁布县| 嵩明县| 万宁市| 义马市| 九台市|