茍澤鵬 董 悅 閆一帆 王成軍
Lazer等人2009 年在《科學(xué)》雜志發(fā)表《計(jì)算社會(huì)科學(xué)》一文[1],標(biāo)志著計(jì)算社會(huì)科學(xué)的開端。十一年過去,計(jì)算社會(huì)科學(xué)已經(jīng)取得了長(zhǎng)足的發(fā)展,吸引了大量的研究者進(jìn)入到這個(gè)新的領(lǐng)域當(dāng)中。與之類似,人文學(xué)科的研究者也在積極倡導(dǎo)并發(fā)展數(shù)字人文研究。2018年,中國(guó)教育部正式提出新文科的發(fā)展思路,并在2020年開始全面推進(jìn)新文科建設(shè)。計(jì)算社會(huì)科學(xué)為新文科建設(shè)提供了切實(shí)可行的操作框架,對(duì)計(jì)算社會(huì)科學(xué)的發(fā)展進(jìn)行綜述有利于厘清對(duì)新文科建設(shè)的認(rèn)識(shí)。一方面,計(jì)算社會(huì)科學(xué)的發(fā)展為社會(huì)科學(xué)的研究帶來了很多機(jī)遇;另一方面,計(jì)算社會(huì)科學(xué)本身也遇到了許多本質(zhì)性的問題。例如,Lazer等人在2020年最新的一篇文章當(dāng)中明確提出計(jì)算社會(huì)科學(xué)在跨學(xué)科合作、數(shù)據(jù)分享框架、隱私和倫理等方面遇到挑戰(zhàn)[2]。
計(jì)算社會(huì)科學(xué)的發(fā)展引起了很多研究者的重視。Salganik 將計(jì)算社會(huì)科學(xué)看作數(shù)據(jù)科學(xué)與社會(huì)科學(xué)的融合,系統(tǒng)地介紹了數(shù)字時(shí)代為社會(huì)研究帶來的機(jī)遇[3]xv-xvii;王飛躍2004 年提出社會(huì)計(jì)算的學(xué)科體系[4];孟小峰等在2013年將社會(huì)計(jì)算作為大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn),進(jìn)一步提出面向社會(huì)科學(xué)和面向技術(shù)應(yīng)用的兩大趨勢(shì)[5];陳浩等從社會(huì)科學(xué)和信息科學(xué)兩條發(fā)展脈絡(luò)展開,把計(jì)算社會(huì)科學(xué)視為兩大學(xué)科的“共同機(jī)遇”[6];祝建華、王成軍等較多關(guān)注計(jì)算社會(huì)科學(xué)在新聞傳播學(xué)中的應(yīng)用[7-8];韓軍徽等更加關(guān)注計(jì)算社會(huì)科學(xué)的興起為社會(huì)研究帶來的機(jī)遇[9];羅俊則聚焦于社會(huì)計(jì)算科學(xué)領(lǐng)域的數(shù)據(jù)計(jì)算、模擬、實(shí)驗(yàn)三種新的研究方法[10]。這些研究存在一些明顯的問題,集中體現(xiàn)在未能提供一個(gè)分析和理解計(jì)算社會(huì)科學(xué)的整體性框架。
計(jì)算社會(huì)科學(xué)的發(fā)展遵循數(shù)據(jù)科學(xué)的基本邏輯,即追求問題、數(shù)據(jù)、算法、模型和因果推斷的融合,根本使命依然在于理解重要的社會(huì)問題并發(fā)展好的理論。為了更好地理解計(jì)算社會(huì)科學(xué)的發(fā)展,本研究將首先基于數(shù)據(jù)科學(xué)和科學(xué)環(huán)的邏輯建立理論框架;接下來,將采用數(shù)據(jù)科學(xué)作為理論框架,從問題、數(shù)據(jù)、算法、模型、因果推斷五個(gè)角度對(duì)計(jì)算社會(huì)科學(xué)的發(fā)展進(jìn)行綜述。
數(shù)據(jù)科學(xué)為理解計(jì)算社會(huì)科學(xué)提供了重要的思路??梢圆捎庙f恩圖對(duì)數(shù)據(jù)科學(xué)的一個(gè)簡(jiǎn)潔的表述:數(shù)據(jù)科學(xué)是計(jì)算機(jī)科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)知識(shí)、專業(yè)領(lǐng)域知識(shí)三方面的重疊。專業(yè)領(lǐng)域知識(shí)與統(tǒng)計(jì)知識(shí)的重疊區(qū)域?yàn)閭鹘y(tǒng)的研究;計(jì)算機(jī)科學(xué)與數(shù)學(xué)和統(tǒng)計(jì)知識(shí)的重疊區(qū)域?yàn)闄C(jī)器學(xué)習(xí);最需要警惕的是計(jì)算機(jī)科學(xué)與專業(yè)領(lǐng)域知識(shí)的重疊,因?yàn)槿狈?shù)學(xué)和統(tǒng)計(jì)知識(shí)的支撐(尤其是假設(shè)檢驗(yàn)的邏輯),這個(gè)區(qū)域被稱為危險(xiǎn)區(qū)域。數(shù)據(jù)科學(xué)的韋恩圖對(duì)于理解計(jì)算社會(huì)科學(xué)具有重要價(jià)值,然而作為一個(gè)分析框架依然存在明顯的不足。它至少忽略了兩個(gè)方面的問題:首先,大數(shù)據(jù)在計(jì)算社會(huì)科學(xué)當(dāng)中所扮演的角色;其次,社會(huì)科學(xué)是圍繞問題組織的,忽略了研究問題會(huì)讓研究者迷失方向。
本文主張從科學(xué)環(huán)的角度來構(gòu)建用來理解計(jì)算社會(huì)科學(xué)的理論框架(見圖1)??茖W(xué)環(huán)是美國(guó)社會(huì)學(xué)家華萊士(Walter L.Wallace)對(duì)科學(xué)發(fā)展過程的總結(jié)[11]??茖W(xué)環(huán)將科學(xué)描述為一個(gè)理論和社會(huì)現(xiàn)實(shí)互動(dòng)的過程??梢匝刂碚摶蚪?jīng)驗(yàn)、歸納或演繹兩個(gè)主要的維度將科學(xué)研究分為四個(gè)象限。雖然科學(xué)作為一個(gè)圓環(huán),研究者可以從任意一個(gè)位置切入,但是社會(huì)科學(xué)更加偏好的卻是理論驅(qū)動(dòng)的實(shí)證研究。從理論當(dāng)中來,到理論當(dāng)中去。具體而言:1.從理論出發(fā)經(jīng)過邏輯演繹提出研究假設(shè);2.通過經(jīng)驗(yàn)觀察收集數(shù)據(jù);3.對(duì)概念進(jìn)行測(cè)量并建立模型對(duì)假設(shè)進(jìn)行檢驗(yàn);4.對(duì)經(jīng)驗(yàn)進(jìn)行概括,然后可以分成兩條研究路徑:4a.接受或拒絕假設(shè),并經(jīng)由邏輯推論的方式發(fā)展理論;4b.形成新概念和命題,進(jìn)一步發(fā)展理論。其中,定性研究或質(zhì)性研究更傾向于4b 路線,而定量研究更傾向于走4a 的路線。當(dāng)然,這僅僅是就研究的表象而言;就研究的實(shí)質(zhì)而言,不管是定性研究還是定量研究都可以走假設(shè)檢驗(yàn)和概念命題這兩條路線。采用科學(xué)環(huán)來理解計(jì)算社會(huì)科學(xué)會(huì)出現(xiàn)以下問題:
圖1 計(jì)算社會(huì)科學(xué)的理論框架
第一,科學(xué)環(huán)的一個(gè)問題是未能突出研究問題。脫離了現(xiàn)實(shí)問題的理論容易變得視野狹窄。例如,理論驅(qū)動(dòng)的實(shí)證研究者會(huì)傾向于從自己所熟悉的理論出發(fā)。如果把理論比喻成一棵樹的話,社會(huì)科學(xué)的理論是如此之多,以致已經(jīng)形成了理論的叢林。甚至經(jīng)常出現(xiàn)對(duì)于同一個(gè)問題具有多種理論模型;然而這些理論模型的核心假設(shè)也許是自我矛盾的。研究者如果缺乏理論品味的話,就很容易吊死在一棵樹上或迷失在晦暗的叢林里。也許研究者所選擇的理論并非參天大樹,而只是小灌木,甚至是藤蔓,并不具有強(qiáng)大的解釋力。這種類型的研究所隱藏的一個(gè)更大的風(fēng)險(xiǎn)在于社會(huì)科學(xué)研究者比我們所想象的更加依賴常識(shí)[12]。當(dāng)然,從經(jīng)驗(yàn)觀察出發(fā)的研究者可以更好地捕捉經(jīng)驗(yàn)背后對(duì)應(yīng)的社會(huì)問題。但是就形式而言,科學(xué)環(huán)依然未能體現(xiàn)對(duì)社會(huì)問題的重視程度。計(jì)算社會(huì)科學(xué)更加主張對(duì)于重大社會(huì)問題的重視。例如,Watts就建議社會(huì)科學(xué)更加重視對(duì)問題的解決方案[13]。本文也主張計(jì)算社會(huì)科學(xué)研究從重要的問題出發(fā),并最終解決這些社會(huì)問題。需要說明的是從重要問題出發(fā)并非忽視理論,而恰恰是為了更好地發(fā)展理論,避免自說自話的理論。
第二,計(jì)算社會(huì)科學(xué)對(duì)于科學(xué)環(huán)的另外一個(gè)拓展在于使用大規(guī)模的數(shù)據(jù)。但是,計(jì)算社會(huì)科學(xué)絕非只研究大數(shù)據(jù),而是將大數(shù)據(jù)作為重要的基礎(chǔ)和能力納入到社會(huì)科學(xué)研究的工具箱當(dāng)中?;诙喾N來源、多種類型的數(shù)據(jù)來進(jìn)行經(jīng)驗(yàn)觀察已經(jīng)成為計(jì)算社會(huì)科學(xué)的一個(gè)重要特點(diǎn)。例如,吳令飛等人使用專利、軟件開發(fā)、論文三種類型的數(shù)據(jù),發(fā)現(xiàn)小團(tuán)隊(duì)在顛覆性創(chuàng)新方面比大團(tuán)隊(duì)更有優(yōu)勢(shì)[14]。
第三,計(jì)算社會(huì)科學(xué)在方法論上的一個(gè)主要的特點(diǎn)在于使用更多的計(jì)算方法。這些方法超越了已有的統(tǒng)計(jì)模型和方法,納入了更多的計(jì)算機(jī)科學(xué)的算法、物理學(xué)和數(shù)學(xué)的模型。例如,Vosoughi 等人在對(duì)推特上的假新聞擴(kuò)散進(jìn)行研究的時(shí)候,綜合使用了網(wǎng)絡(luò)科學(xué)分析方法、自然語言處理技術(shù)和多元回歸模型等統(tǒng)計(jì)方法[15]。當(dāng)然,計(jì)算方法不會(huì)替代已有的統(tǒng)計(jì)方法,實(shí)際上,計(jì)算方法和傳統(tǒng)方法是互補(bǔ)的,二者可以相輔相成、相得益彰。大數(shù)據(jù)和調(diào)查/內(nèi)容分析是補(bǔ)充而不是替代。大數(shù)據(jù)不會(huì)消除向人們提問/內(nèi)容分析的需要,實(shí)際上會(huì)增加提問/內(nèi)容分析的價(jià)值,當(dāng)有更多的大數(shù)據(jù)時(shí),人們會(huì)想要更多的調(diào)查/內(nèi)容分析[3]117-129。
第四,計(jì)算社會(huì)科學(xué)追求從簡(jiǎn)單的假設(shè)檢驗(yàn)走向因果推斷和預(yù)測(cè)。就形式上而言,科學(xué)環(huán)的中心是假設(shè)檢驗(yàn)。今天社會(huì)科學(xué)研究者所使用的統(tǒng)計(jì)方法多數(shù)來自于費(fèi)舍爾等人所建立的假設(shè)檢驗(yàn)的邏輯。計(jì)算社會(huì)科學(xué)依然沿著假設(shè)檢驗(yàn)的思路發(fā)展,假設(shè)檢驗(yàn)背后是基于證偽的科學(xué)發(fā)現(xiàn)的邏輯。具體而言,研究者沒有辦法證實(shí)一個(gè)假設(shè),只能通過證偽作為零模型的假設(shè)進(jìn)而支持備擇假設(shè)。然而,傳統(tǒng)的統(tǒng)計(jì)分析方法具有兩個(gè)問題:第一個(gè)問題是忽視了因果推斷。很多研究主要是基于相關(guān)關(guān)系,而不是因果關(guān)系。在大數(shù)據(jù)和人工智能時(shí)代,好的理論依然非常有用。計(jì)算社會(huì)科學(xué)不應(yīng)停留在相關(guān)性方面,應(yīng)該朝向因果推斷的方向繼續(xù)前進(jìn)。另外,計(jì)算社會(huì)科學(xué)將機(jī)器學(xué)習(xí)等計(jì)算機(jī)算法引入到了社會(huì)科學(xué)研究當(dāng)中來,彌補(bǔ)了社會(huì)科學(xué)缺乏預(yù)測(cè)能力的問題。
克里斯·安德森(Chris Anderson)2008年在《連線》雜志發(fā)表了一篇極富煽動(dòng)性的文章,名為《理論的終結(jié):數(shù)據(jù)將會(huì)讓科學(xué)方法失去效能》,提出大量數(shù)據(jù)以及處理這些數(shù)據(jù)的統(tǒng)計(jì)工具的可用性,為人們提供了一個(gè)理解世界的全新方式:相關(guān)性取代了因果關(guān)系,即使缺少了連續(xù)模型、統(tǒng)一理論或者任何機(jī)制論解釋,科學(xué)依然可以前進(jìn)。與之類似,圖靈獎(jiǎng)獲得者Jim Gray提出了科學(xué)研究的第四范式——數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)(Data-intensive Scientific Discovery)[16]XVII-XXXI。人類科學(xué)研究活動(dòng)已經(jīng)歷過三種不同范式的演變過程:原始社會(huì)的“實(shí)驗(yàn)科學(xué)范式”,以模型和歸納為特征的“理論科學(xué)范式”,以模擬仿真為特征的“計(jì)算科學(xué)范式”,目前正在轉(zhuǎn)向“數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)范式”。科學(xué)研究人員只需要從大數(shù)據(jù)中查找和挖掘所需要的信息和知識(shí),無須直接面對(duì)所研究的物理對(duì)象。這是過于實(shí)用主義的思路,其背后的假設(shè)是大數(shù)據(jù)唾手可得,覆蓋日常生活的方方面面,這些都與大數(shù)據(jù)本身的特點(diǎn)相沖突。正如接下來要分析的那樣,大數(shù)據(jù)并不易得,并且具有不完整性。大數(shù)據(jù)作為科學(xué)發(fā)現(xiàn)的第四范式實(shí)際上是前三個(gè)范式的結(jié)合,即理論、實(shí)驗(yàn)和模擬的統(tǒng)一化,但又增加了對(duì)數(shù)據(jù)搜集和分析的重視。
綜上,將數(shù)據(jù)科學(xué)的韋恩圖與科學(xué)環(huán)結(jié)合起來,同時(shí)加入研究問題、因果推斷和預(yù)測(cè),構(gòu)成了本文分析計(jì)算社會(huì)科學(xué)研究的理論框架。接下來,本文從問題、數(shù)據(jù)、算法、模型、因果推斷這幾個(gè)方面對(duì)計(jì)算社會(huì)科學(xué)進(jìn)行綜述。
計(jì)算社會(huì)科學(xué)聚焦于通過計(jì)算來回答人們關(guān)切的重大社會(huì)問題。按照數(shù)據(jù)科學(xué)的邏輯發(fā)展,計(jì)算社會(huì)科學(xué)追求數(shù)據(jù)、算法、模型和問題的融合,其發(fā)展方向和根本使命依然在于理解重要的社會(huì)問題并建構(gòu)更加強(qiáng)大、有用的理論。因此,對(duì)十余年來計(jì)算社會(huì)科學(xué)關(guān)注的問題進(jìn)行梳理分類就顯得十分必要。
正如Lazer 等學(xué)者所言,人們生活在網(wǎng)絡(luò)中[1]。在人們的日常生活中,發(fā)電子郵件、發(fā)微博、使用微信、網(wǎng)絡(luò)購(gòu)物、在線看電影聽音樂等人類行為都會(huì)留下大量的行為痕跡,構(gòu)成了數(shù)字時(shí)代大數(shù)據(jù)的來源。大數(shù)據(jù)覆蓋了生活的各個(gè)方面,構(gòu)成數(shù)字時(shí)代的顯微鏡?;谖谋尽⒕W(wǎng)絡(luò)、圖片、語音和視頻的分析成為可能,有助于更加全面地認(rèn)識(shí)并提出重要的社會(huì)問題。計(jì)算社會(huì)科學(xué)關(guān)注的問題是人類生活當(dāng)中存在的真實(shí)問題,大數(shù)據(jù)和算法模型構(gòu)成了回答這些問題的基礎(chǔ)。計(jì)算社會(huì)科學(xué)試圖重構(gòu)個(gè)人和群體的行為、情感、心理圖景,從而驗(yàn)證或變革對(duì)人類社會(huì)的理解。Watts認(rèn)為目前社會(huì)科學(xué)領(lǐng)域的理論解釋存在較為分散、甚至互相矛盾的局面,他進(jìn)一步提出采用一種更注重解決問題的思路,即從一個(gè)實(shí)際問題出發(fā),研究需要哪些理論和方法來解決它[13]。
計(jì)算社會(huì)科學(xué)的一個(gè)突出特點(diǎn)是,其研究關(guān)注的問題及其追問可能涉及多個(gè)學(xué)科,或者說是去學(xué)科界限的。計(jì)算社會(huì)科學(xué)不僅依托于技術(shù)手段的應(yīng)用,更是將以大數(shù)據(jù)計(jì)算為代表的科學(xué)與人文社會(huì)科學(xué)相互融合的創(chuàng)新方向。傳統(tǒng)的人文社會(huì)科學(xué)對(duì)于人類社會(huì)行為的研究,往往由于社會(huì)現(xiàn)象的復(fù)雜特性而缺乏連貫的理論框架,無法從更宏觀的角度進(jìn)行提問并得到共通的解釋。而傳統(tǒng)物理學(xué)、計(jì)算機(jī)科學(xué)對(duì)人文社會(huì)科學(xué)的理解也往往囿于自己的學(xué)科框架。計(jì)算社會(huì)科學(xué)思考的問題,是將現(xiàn)有分支學(xué)科的關(guān)注點(diǎn)進(jìn)行回歸、反思和整合,從而使傳統(tǒng)學(xué)科研究中經(jīng)驗(yàn)的、混亂的問題變得更加深刻、有跡可循。例如,在傳統(tǒng)物理學(xué)的研究認(rèn)知中,人類社會(huì)行為是可以通過方程、模型來計(jì)算并預(yù)測(cè)的,而Salganik 等學(xué)者通過在線實(shí)驗(yàn)收集用戶下載音樂的數(shù)據(jù),探究了音樂市場(chǎng)流行度的“樂隊(duì)花車”效應(yīng)(bandwagon effect)[17]。這一場(chǎng)MusicLab 實(shí)驗(yàn)得出了“人類行為具有不可預(yù)測(cè)性”的結(jié)論,在一定程度上更新了傳統(tǒng)物理學(xué)家對(duì)社會(huì)學(xué)問題的看法。在過去的11 年里,計(jì)算社會(huì)科學(xué)已經(jīng)在傳統(tǒng)學(xué)科、創(chuàng)新學(xué)科、跨學(xué)科研究等諸多領(lǐng)域問題的研究上取得了一系列重要成果。由此,從衍生學(xué)科領(lǐng)域的路徑梳理計(jì)算社會(huì)科學(xué)試圖解決的社會(huì)問題,大致可以分為基于傳統(tǒng)社會(huì)學(xué)研究的行為社會(huì)科學(xué)、基于大數(shù)據(jù)計(jì)算技術(shù)的網(wǎng)絡(luò)社會(huì)科學(xué),以及具有跨學(xué)科創(chuàng)新特性的數(shù)字社會(huì)科學(xué)三個(gè)方面。
第一,從社會(huì)科學(xué)關(guān)注的基本問題出發(fā),計(jì)算社會(huì)科學(xué)關(guān)注差異化的個(gè)體在社會(huì)網(wǎng)絡(luò)中如何產(chǎn)生復(fù)雜、有趣的社會(huì)現(xiàn)象,這些群體形態(tài)又如何影響微觀行為,以及二者間的雙向反饋機(jī)制。研究者可以證偽一個(gè)基于現(xiàn)實(shí)社會(huì)問題提出的假設(shè),從而更新社會(huì)科學(xué)對(duì)重大社會(huì)問題的認(rèn)識(shí)。如從自由主義者對(duì)拿鐵的偏愛獲得啟發(fā),DellaPosta 等學(xué)者通過建立仿真模型,促進(jìn)了人們關(guān)于刻板印象問題的理解[18]。具體而言,計(jì)算社會(huì)科學(xué)學(xué)者試圖對(duì)經(jīng)濟(jì)生活中的個(gè)人消費(fèi)、群體利益、政策態(tài)勢(shì),企業(yè)、市場(chǎng)、政府的關(guān)系及邊界等進(jìn)行討論;對(duì)網(wǎng)絡(luò)環(huán)境下個(gè)人與集體的情感、行為、互動(dòng)關(guān)系及輿論發(fā)展進(jìn)行研究;對(duì)公共衛(wèi)生事件中的個(gè)體行為、群體網(wǎng)絡(luò)、政府治理進(jìn)行因果推斷并預(yù)測(cè)。研究者關(guān)注個(gè)體關(guān)系的多樣性和社群的經(jīng)濟(jì)發(fā)展[19]、社交網(wǎng)絡(luò)邊緣權(quán)重的重要性[20]、社交網(wǎng)絡(luò)的動(dòng)態(tài)性和自適應(yīng)群體智慧[21]等諸多方面。通過利用在線平臺(tái)數(shù)據(jù)訓(xùn)練機(jī)器學(xué)習(xí)模型,Dong 等學(xué)者得以估計(jì)城市的人口、公司數(shù)量和消費(fèi)水平等社會(huì)經(jīng)濟(jì)屬性[22]。有研究者將機(jī)器學(xué)習(xí)和衛(wèi)星圖像結(jié)合,不僅演示了預(yù)測(cè)貧困,也展示了在經(jīng)濟(jì)數(shù)據(jù)稀缺情況下研究者關(guān)注和改善社會(huì)經(jīng)濟(jì)方面困境的努力[23]。政治相關(guān)議題始終是研究者關(guān)注的熱點(diǎn)問題,基于社交網(wǎng)絡(luò)的大數(shù)據(jù),計(jì)算社會(huì)科學(xué)的研究者能夠更好地檢驗(yàn)社會(huì)理論在現(xiàn)實(shí)世界中的解釋能力,從而為現(xiàn)實(shí)政策的問題和決策提供理論支持。如Bail等學(xué)者關(guān)注在社交媒體上的政治分化[24];Aral等人通過多層次社會(huì)網(wǎng)絡(luò)建模,研究發(fā)現(xiàn)社會(huì)傳染的嵌入性、結(jié)構(gòu)多樣性理論對(duì)社會(huì)傳染效應(yīng)的精準(zhǔn)估計(jì),從而能夠更好地為預(yù)測(cè)社會(huì)政策干預(yù)的結(jié)果提供參考[25]。但有些話題往往容易引起爭(zhēng)論,如《自然通訊》雜志2020 年發(fā)布的一篇論文就因?yàn)樘岢雠詫?dǎo)師對(duì)師生的學(xué)術(shù)發(fā)展造成損害這一結(jié)論而引發(fā)廣泛討論[26],最終由于研究數(shù)據(jù)和方法被質(zhì)疑而撤稿。值得注意的是,計(jì)算社會(huì)科學(xué)相較于傳統(tǒng)社會(huì)科學(xué)也存在局限性,甚至人類行為是否可計(jì)算、在多大程度上可預(yù)測(cè)仍是一個(gè)根本問題,這些伴隨而生的討論也成為計(jì)算社會(huì)科學(xué)關(guān)注的問題。
第二,作為一個(gè)正在發(fā)展完善的學(xué)科,計(jì)算社會(huì)科學(xué)誕生于計(jì)算機(jī)科學(xué)技術(shù)發(fā)展的基礎(chǔ)之上,通過算法推動(dòng)更宏觀的網(wǎng)絡(luò)社會(huì)科學(xué)的構(gòu)建。一方面,不同于社會(huì)學(xué)中傳統(tǒng)的量化研究,計(jì)算社會(huì)科學(xué)需要基于特定的平臺(tái)或項(xiàng)目指標(biāo)體系設(shè)計(jì)算法,進(jìn)一步構(gòu)建適應(yīng)研究需要的數(shù)據(jù)。由于數(shù)據(jù)規(guī)模較大,如何對(duì)輸入的數(shù)據(jù)進(jìn)行復(fù)雜的算法處理形成宏觀網(wǎng)絡(luò),則成為計(jì)算社會(huì)科學(xué)的重要部分。例如,通過空間聚合分析,研究者從15個(gè)月內(nèi)150萬人的移動(dòng)電話數(shù)據(jù)集中發(fā)現(xiàn),移動(dòng)通信的個(gè)體識(shí)別度使個(gè)人隱私保護(hù)面臨新的威脅[27]。機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、自然語言處理等構(gòu)建網(wǎng)絡(luò)的方法也在不斷優(yōu)化,算法和理論呈現(xiàn)相互促進(jìn)的效果。另一方面,在社會(huì)物理學(xué)領(lǐng)域,隨著小世界模型、無標(biāo)度網(wǎng)絡(luò)相關(guān)研究的深入展開,近年來關(guān)于社交網(wǎng)絡(luò)的研究成為計(jì)算社會(huì)科學(xué)關(guān)注的重點(diǎn)。社交平臺(tái)體量巨大的文本中包含了豐富的信息,因此自然語言處理近年來也受到越來越多的關(guān)注。近期,研究者利用大數(shù)據(jù)的優(yōu)勢(shì),在傳統(tǒng)文本分析方法的基礎(chǔ)上通過主題聚類和時(shí)間序列分析發(fā)現(xiàn)現(xiàn)代文化的進(jìn)化速度[28],通過詞嵌入分析谷歌新聞中對(duì)婦女和少數(shù)民族的刻板印象和態(tài)度的變化[29],以及從微觀角度關(guān)注個(gè)人的音樂使用和情感狀況[30]。計(jì)算社會(huì)科學(xué)也促進(jìn)人們對(duì)自然語言處理和量化思維本身的反思,如研究發(fā)現(xiàn)將機(jī)器學(xué)習(xí)應(yīng)用于普通的人類學(xué)語言,則會(huì)導(dǎo)致語義的偏差[31]。
第三,計(jì)算社會(huì)科學(xué)關(guān)注與統(tǒng)計(jì)學(xué)、人文學(xué)科等相關(guān)學(xué)科結(jié)合的跨學(xué)科研究。一方面,計(jì)算社會(huì)科學(xué)的學(xué)者更傾向于思考人文學(xué)科、社會(huì)學(xué)科在不同的時(shí)間、空間結(jié)構(gòu)中的變化。如通過對(duì)Twitter平臺(tái)數(shù)百萬條公開消息的文本分析,可以發(fā)現(xiàn)全球不同文化環(huán)境中的個(gè)體在日間、每周和季節(jié)性的情緒變化趨勢(shì)[32]。Liu 等學(xué)者用大數(shù)據(jù)模型重建職業(yè)歷史,從而探究電影導(dǎo)演、藝術(shù)家等創(chuàng)造性職業(yè)是否存在日漸熱門的趨勢(shì)[33]。另一方面,也有學(xué)者關(guān)注大數(shù)據(jù)本身對(duì)社會(huì)科學(xué)研究方法的啟發(fā)。如利用在線實(shí)驗(yàn)進(jìn)行因果推斷[34];通過對(duì)實(shí)驗(yàn)組施以不同的干預(yù)來評(píng)估不同影響社會(huì)互動(dòng)的因素及其組合對(duì)選舉中政治動(dòng)員的影響[35]。
總體上來看,計(jì)算社會(huì)科學(xué)關(guān)注的問題是對(duì)傳統(tǒng)社會(huì)科學(xué)的突破,也不同于計(jì)算機(jī)科學(xué)等算法主導(dǎo)的邏輯,其試圖通過整合人文社科和計(jì)算機(jī)科學(xué)技術(shù)的方式,直面當(dāng)下的重要社會(huì)問題,具有做出重要理論貢獻(xiàn)的潛力。
在數(shù)字時(shí)代,人類創(chuàng)造的各類信息往往以數(shù)字化的形式被記錄和存儲(chǔ)下來。相較于模擬時(shí)代的觀測(cè)數(shù)據(jù),大數(shù)據(jù)體量更大,類型更多樣,更新速度更快。大數(shù)據(jù)的海量性、持續(xù)性與不反應(yīng)性為社會(huì)研究開辟了新的路徑,可以用來研究稀有事件、接觸更廣泛的研究樣本、發(fā)現(xiàn)數(shù)據(jù)中細(xì)微變化產(chǎn)生的影響等。但大數(shù)據(jù)很容易讓研究者陷入對(duì)技術(shù)的盲目樂觀,甚至認(rèn)為大數(shù)據(jù)可以取代傳統(tǒng)的調(diào)查研究。不反應(yīng)性的數(shù)據(jù)并不能確保數(shù)據(jù)就是人們行為或態(tài)度的直接反映,梅洛維茨的中臺(tái)理論早就警示過,人們?cè)诿浇樯峡赡軙?huì)傾向于自我修飾。大數(shù)據(jù)還受到大數(shù)據(jù)平臺(tái)算法的干擾,2012-2013年谷歌流感趨勢(shì)預(yù)測(cè)產(chǎn)生了巨大的誤差,是美國(guó)疾病和預(yù)防中心實(shí)際監(jiān)測(cè)到的數(shù)據(jù)的兩倍[36],部分原因在于谷歌改變了搜索引擎的相關(guān)算法,造成人們的搜索行為改變,導(dǎo)致預(yù)測(cè)效果大大減弱。利用大數(shù)據(jù)進(jìn)行社會(huì)科學(xué)研究要求研究者必須同時(shí)具備社會(huì)科學(xué)家的洞察力以及數(shù)據(jù)科學(xué)家的算法功底。
首先,大數(shù)據(jù)雖然體量龐大,但始終是非概率樣本,抽樣數(shù)據(jù)不具有代表性。研究者可以在數(shù)據(jù)處理階段對(duì)數(shù)據(jù)進(jìn)行分組、加權(quán),對(duì)非概率抽樣數(shù)據(jù)進(jìn)行統(tǒng)計(jì)學(xué)調(diào)整。Park等人在音樂選擇與情緒刺激關(guān)系的研究中,選用了流媒體音樂平臺(tái)Spotify 上2016 年1 月1 日至12 月31 日全世界51 個(gè)國(guó)家991 035 位用戶生成的764 992 760條音樂流數(shù)據(jù),隨后研究人員參考美國(guó)中央情報(bào)局《世界概覽》的最近數(shù)據(jù),根據(jù)每個(gè)國(guó)家的年齡、性別、人口分布等因素對(duì)非隨機(jī)抽樣數(shù)據(jù)進(jìn)行分組調(diào)整,以使數(shù)據(jù)能夠在世界人口分布上具有代表性[30]。一般認(rèn)為,這種分組調(diào)整組別越細(xì),組數(shù)越多,數(shù)據(jù)也會(huì)被調(diào)整得越符合現(xiàn)實(shí)情況,大數(shù)據(jù)為在保持每組有合理數(shù)量樣本的基礎(chǔ)上增加組別提供了海量數(shù)據(jù)樣本,使得在傳統(tǒng)調(diào)查研究中備受冷落的非概率抽樣數(shù)據(jù)在數(shù)字時(shí)代迎來新的可能。
其次,與傳統(tǒng)社會(huì)科學(xué)研究方法結(jié)合,才能更好地釋放大數(shù)據(jù)的活力,得出單獨(dú)通過調(diào)查或大數(shù)據(jù)資源都無法獲得的結(jié)論。大數(shù)據(jù)資源中含有研究人員感興趣的核心數(shù)據(jù),但缺乏關(guān)于研究對(duì)象的背景資料。此時(shí)就可以通過調(diào)查研究來構(gòu)建圍繞該大數(shù)據(jù)資源的背景數(shù)據(jù)。這兩種數(shù)據(jù)更有前景的融合之法是通過一個(gè)機(jī)器學(xué)習(xí)模型將調(diào)查數(shù)據(jù)與大數(shù)據(jù)結(jié)合起來。Blumenstock 等研究者與盧旺達(dá)最大的手機(jī)供應(yīng)商合作,將其提供的2005-2009年間150萬手機(jī)用戶的匿名記錄與研究者自行收集的衡量財(cái)富狀況和幸福感的傳統(tǒng)調(diào)查研究數(shù)據(jù)相結(jié)合,訓(xùn)練機(jī)器學(xué)習(xí)模型,最終對(duì)盧旺達(dá)的貧窮狀況進(jìn)行了準(zhǔn)確的、高分辨率的評(píng)估[37]。同樣,大數(shù)據(jù)與傳統(tǒng)實(shí)驗(yàn)相結(jié)合來判斷因果、與文本分析相結(jié)合進(jìn)行數(shù)據(jù)挖掘也是計(jì)算社會(huì)科學(xué)研究的重要方向。
最后,研究者應(yīng)該針對(duì)不同的研究問題,創(chuàng)造性地設(shè)計(jì)出數(shù)據(jù)使用方案,將不同來源的大數(shù)據(jù)資源配合進(jìn)行研究。Jin 等人為了研究替代品的擴(kuò)散動(dòng)力學(xué)[38],分別使用了北歐電信公司2006 年1 月到2014年11月的手機(jī)記錄和2012年至2016年北美地區(qū)126輛汽車的月度交易記錄這兩種數(shù)據(jù)集,以及2016年11 月到12 月Apple Store 上每日發(fā)布的新智能手機(jī)應(yīng)用下載和246 630 名科學(xué)家1980 年到2018 年科學(xué)出版數(shù)據(jù)這兩種混合型數(shù)據(jù)集,發(fā)現(xiàn)替代系統(tǒng)的早期生長(zhǎng)模式不遵循傳播現(xiàn)象中習(xí)慣的指數(shù)增長(zhǎng),它們傾向于遵循非整數(shù)指數(shù)的冪律,表明他們從最初的爆炸性采用過程開始,隨后的增長(zhǎng)比正常擴(kuò)散中的預(yù)期要慢得多。
計(jì)算機(jī)科學(xué)與統(tǒng)計(jì)、社會(huì)科學(xué)一起構(gòu)成計(jì)算社會(huì)科學(xué)的基石。伴隨著大規(guī)模數(shù)據(jù)的出現(xiàn),算法驅(qū)動(dòng)是計(jì)算社會(huì)科學(xué)的必然選擇。面對(duì)海量的、人工不易計(jì)算的數(shù)據(jù),使用計(jì)算機(jī)科學(xué)的算法可以大幅度提高計(jì)算效率。算法是計(jì)算機(jī)科學(xué)的核心,它可以是一種使計(jì)算機(jī)按照人的指令進(jìn)行任務(wù)的工具。算法并不是計(jì)算機(jī)科學(xué)所特有的概念,從本質(zhì)上來說,算法是解決某個(gè)問題的計(jì)算方法、步驟。社會(huì)科學(xué)家對(duì)社會(huì)問題的研究就是使用“算法”解決問題的過程。對(duì)于算法的使用需要研究者具有計(jì)算思維(computational thinking)。計(jì)算思維首先強(qiáng)調(diào)對(duì)于需要優(yōu)化的問題的理解,然后將問題分解為不同的任務(wù),最后使用計(jì)算機(jī)自動(dòng)化地實(shí)現(xiàn)這些分解的任務(wù)。
計(jì)算社會(huì)科學(xué)家的研究依然著眼于對(duì)社會(huì)現(xiàn)象的解釋,探尋人的行為模式和社會(huì)演變的規(guī)律。這種解釋可以依據(jù)其復(fù)雜程度分為兩類,第一類是根據(jù)社會(huì)中成員的行為和互動(dòng)產(chǎn)生的數(shù)據(jù)進(jìn)行研究,從數(shù)據(jù)中挖掘出社會(huì)現(xiàn)象的潛在規(guī)律,這種數(shù)據(jù)計(jì)算視為計(jì)算社會(huì)科學(xué)的一個(gè)重要發(fā)展方向[10]?;ヂ?lián)網(wǎng)數(shù)據(jù)因其前所未有的廣度與深度而被視為最具有探索潛力的數(shù)據(jù)。在數(shù)字時(shí)代之前,結(jié)構(gòu)化數(shù)據(jù)可以通過各種統(tǒng)計(jì)軟件進(jìn)行處理分析,非結(jié)構(gòu)化的數(shù)據(jù),尤其是一些文本、圖片與視頻數(shù)據(jù),主要采用文本分析等定性分析的方式來處理。但這種傳統(tǒng)的研究方式過于依賴編碼員的直覺和策略,因而編碼工作具有很強(qiáng)的主觀性和不可重復(fù)性。受限于人類的閱讀速度,使用定性分析的方法來處理大數(shù)據(jù)往往耗時(shí)費(fèi)力。但是非結(jié)構(gòu)化數(shù)據(jù),尤其是文本數(shù)據(jù)具有非常重要的社會(huì)意義。一個(gè)群體的語言反映了其文化體系,研究者通過對(duì)文本進(jìn)行闡釋主義的細(xì)讀和系統(tǒng)的定性編碼可以透視一個(gè)社會(huì)的文化范疇和意義結(jié)構(gòu)。計(jì)算機(jī)科學(xué)提供的算法能夠讓社會(huì)科學(xué)在文本這一領(lǐng)域更進(jìn)一步[39]。
機(jī)器學(xué)習(xí)是算法處理大規(guī)模數(shù)據(jù)和多語義文本的核心,可以被認(rèn)為是計(jì)算社會(huì)科學(xué)的元算法:讓算法通過訓(xùn)練學(xué)會(huì)對(duì)經(jīng)驗(yàn)進(jìn)行歸納,從而對(duì)未知問題與未來進(jìn)行推測(cè)。機(jī)器學(xué)習(xí)算法與數(shù)據(jù)庫(kù)相結(jié)合,就能在極短的時(shí)間內(nèi)挖掘出數(shù)據(jù)規(guī)律以回答現(xiàn)實(shí)問題,社會(huì)科學(xué)家相信,即使是作為非結(jié)構(gòu)化數(shù)據(jù)的文本中也存在某種模式,通過算法讓這層模式浮出水面就能夠洞悉創(chuàng)造該文本的群體背后的社會(huì)意義。深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的進(jìn)一步深化,多隱層的神經(jīng)網(wǎng)絡(luò)具有更優(yōu)異的特征學(xué)習(xí)能力,能產(chǎn)生更好的輸出,做出更好的預(yù)測(cè)或決策。CNN是深度學(xué)習(xí)算法的一種,也是計(jì)算機(jī)視覺領(lǐng)域中最具影響力的一部分,其最擅長(zhǎng)的是圖像處理。Gebru 等人通過CNN 對(duì)汽車圖像和谷歌街景車收集的5 000 萬張街景圖片進(jìn)行標(biāo)注,從社區(qū)客觀圖像特征估算美國(guó)城市社會(huì)經(jīng)濟(jì)特征[40]。那么以此而推,可以認(rèn)為計(jì)算機(jī)科學(xué)為社會(huì)科學(xué)提供的算法便大多以機(jī)器學(xué)習(xí)為基底,在多個(gè)細(xì)分研究方向上進(jìn)行深化和拓展。其中,最為深入的便是以文本分析為內(nèi)核的自然語言處理(NLP)和網(wǎng)絡(luò)科學(xué)。
NLP以語義網(wǎng)絡(luò)分析為理論框架和研究方法[41],通過將詞視為網(wǎng)絡(luò)中的節(jié)點(diǎn),文本共現(xiàn)作為鏈接來構(gòu)建[42]。檢查語義網(wǎng)絡(luò)的結(jié)構(gòu)特征,如中心詞或連接語義或文化洞的詞,可以洞察單個(gè)詞和支撐文本的整體概念結(jié)構(gòu)之間的關(guān)系[43],并且可以進(jìn)一步揭示文本生產(chǎn)者的認(rèn)知結(jié)構(gòu)[44]。搭建語義網(wǎng)絡(luò)空間要求能夠?qū)φZ言進(jìn)行定量化的研究,詞嵌入模型即Word Embeddings 基于“出現(xiàn)在相同上下文中的詞意思應(yīng)該相近”這樣一種分布式假設(shè),較好地解決了以往one-hot等離散表示方法難以解決的復(fù)雜語義關(guān)系問題。詞嵌入模型將語料庫(kù)中單詞之間的關(guān)系表示為密集、連續(xù)、高維空間中的向量[45],有了一個(gè)詞的向量之后,各種基于向量的計(jì)算就可以實(shí)施,通過“余弦模擬度”來評(píng)估嵌入到空間中的詞之間的距離,研究者可以進(jìn)行比較來度量詞語之間的語義相關(guān)性。2013 年,Mikolov 對(duì)Word Embeddings 進(jìn)行了優(yōu)化,提出了現(xiàn)在最廣泛使用的詞嵌入算法Word2vec[46],這種算法使用了一種兩層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),與其他詞共享上下文來優(yōu)化詞的預(yù)測(cè),它包含了兩種類型即Continuous Bag-of-Words Model和Skip-gram Model,前者是通過附近的詞來預(yù)測(cè)中心詞,后者則恰恰相反。
Word2vec擁有極快的訓(xùn)練速度,即使是使用wikipedia這樣大于20億詞規(guī)模的語料庫(kù)進(jìn)行訓(xùn)練也只需要幾個(gè)小時(shí)??犰诺膍an-woman=king-queen 的示例,讓社會(huì)科學(xué)研究者也能很容易理解其精髓,故而大量社會(huì)科學(xué)家使用word2vec 來開展詞共現(xiàn)研究。Kozlowski 等人認(rèn)為由詞嵌入產(chǎn)生的向量空間模型基于文化相似性,并且詞匯嵌入的高維性也為文化差異的多個(gè)軸之間的復(fù)雜相互關(guān)系留下了空間[47],他們使用word2vec 算法對(duì)一百年來出版的數(shù)百萬本書形成的語料庫(kù)進(jìn)行訓(xùn)練,研究美國(guó)階級(jí)的基本文化維度,發(fā)現(xiàn)詞匯差異引起的維度與文化意義的維度相對(duì)應(yīng),并且使用調(diào)查數(shù)據(jù)驗(yàn)證了他們的發(fā)現(xiàn)。Garg 等人同樣使用word2vec 算法,并且使用了一個(gè)時(shí)間分析框架來量化美國(guó)20 世紀(jì)和21 世紀(jì)對(duì)婦女和少數(shù)民族的刻板印象和態(tài)度的變化[29],這一研究不僅發(fā)現(xiàn)隨著時(shí)間的推移,偏見已經(jīng)減少,更重要的是表明利用嵌入來研究隨時(shí)間推移而產(chǎn)生的偏差的價(jià)值和潛力,啟示后來的研究者,將word2vec與時(shí)間動(dòng)態(tài)相結(jié)合,通過關(guān)注細(xì)微的個(gè)人變化來洞悉更大的歷史軌跡。目前的word2vec 算法主要集中在對(duì)英文文本的處理中,近年來,針對(duì)漢字的詞向量算法也處在不斷的開發(fā)之中,如Cao 等人通過提取中文漢字的筆畫特征構(gòu)建了cw2vec模型[48]。
情感分析同樣是NLP的重要組成部分,它要求對(duì)文本,并且主要是長(zhǎng)文本進(jìn)行細(xì)讀來揣摩語句中的情感,這也是為何傳統(tǒng)的情感分析被認(rèn)為是一件充滿藝術(shù)的美學(xué)。計(jì)算社會(huì)科學(xué)的情感分析則較多針對(duì)社交媒體等短文本,通過使用情感字典來分析文本的極性或情緒。Scott 等人就通過使用LIWC 文本分析詞典對(duì)數(shù)百萬條公共Twitter 消息的數(shù)據(jù)進(jìn)行分析,來研究全球不同文化環(huán)境中的個(gè)體的日間和季節(jié)性情緒節(jié)奏變化。情感字典主要是通過詞語匹配來進(jìn)行情感分類,詞嵌入算法同樣可以幫助克服其在詞匯覆蓋和領(lǐng)域適應(yīng)方面的局限性[49],目前常用的情感字典有textblob、加拿大國(guó)家研究委員會(huì)信息技術(shù)研究所基于眾包方式標(biāo)注的NRC 字典等,在國(guó)內(nèi),則有在Ekman 六大情感分類體系的基礎(chǔ)上構(gòu)建的針對(duì)中文詞匯與短語的大連理工大學(xué)中文情感詞典。
主題建??梢员徽J(rèn)為是計(jì)算社會(huì)科學(xué)對(duì)傳統(tǒng)定性編碼的發(fā)展。計(jì)算機(jī)以非監(jiān)督學(xué)習(xí)的方式對(duì)文本的隱含語義結(jié)構(gòu)進(jìn)行聚類來實(shí)現(xiàn)文本挖掘,并且,當(dāng)面對(duì)復(fù)雜且微妙的主題時(shí),主題建??梢允褂媒Y(jié)構(gòu)良好的概率模型來實(shí)現(xiàn)對(duì)構(gòu)建語料庫(kù)的“主題”的歸納發(fā)現(xiàn),每個(gè)主題以稀疏分布的方式學(xué)習(xí)[50-51],并且通過跟蹤存在于多個(gè)主題中的單詞來檢測(cè)一詞多義,以及通過跨文檔的不同主題的混合來檢測(cè)異質(zhì)多義[52-53]。目前,使用最廣泛的也是最基礎(chǔ)的主題模型為潛在狄利克雷分配模型,即LDA 模型。這是一種三層貝葉斯模型,這里的三層分別指“文檔”層、“主題”層和“詞語”層。具體而言,LDA模型是在“文檔—詞語”關(guān)系層中插入“主題”這一中間層,從而形成“文檔—主題”“主題—詞語”兩個(gè)矩陣,再依靠這兩個(gè)矩陣生成對(duì)應(yīng)文檔集。因其在文本挖掘中體現(xiàn)出的優(yōu)秀的降維能力、建模能力以及擴(kuò)展能力,社會(huì)科學(xué)研究者在對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行挖掘分析時(shí),大多會(huì)采用這種方法,如Lambert 等人運(yùn)用LDA 主題聚類模型對(duì)流行歌曲、小說、醫(yī)學(xué)文章和汽車車型進(jìn)行處理來研究現(xiàn)代文化的進(jìn)化速度[28];Abd-Alrazaq 等人提取了COVID-19相關(guān)的主題,使用LDA 進(jìn)行主題建模,確定了12個(gè)主題,可歸為病毒的起源、來源、影響以及防治方法四大類,研究表明10 個(gè)主題的平均情緒為陽性,而2 個(gè)主題的平均情緒為負(fù)面[54]。但是,LDA主題模型非常不適合處理社交媒體等短文本,也會(huì)面臨粒度太粗等問題,在面對(duì)具體的文本進(jìn)行研究時(shí),計(jì)算社會(huì)科學(xué)家會(huì)選擇LDA 的各種變種模型。Blei 等人在2007 年提出CTM(Correlated Topic Model)模型[55],將傳統(tǒng)LDA 模型中的狄利克雷分布改為對(duì)數(shù)正態(tài)分布,完善了LDA 處理主題間相關(guān)性的能力,Song等人使用CTM模型對(duì)2010-2019傳播學(xué)Top20期刊的學(xué)術(shù)論文進(jìn)行主題分析,研究發(fā)現(xiàn)傳播學(xué)科并沒有人們想象中那么支離破碎[56]。文本數(shù)據(jù)除了包含文本內(nèi)容之外,往往還包含作者、日期、瀏覽量等元數(shù)據(jù)(metadata)。STM 模型使用這些元數(shù)據(jù)作為協(xié)變量,拓展了經(jīng)典的主題模型。Zhang等人通過準(zhǔn)實(shí)驗(yàn)設(shè)計(jì),對(duì)微博上的文本進(jìn)行STM 主題建模分析,發(fā)現(xiàn)抗議對(duì)促進(jìn)圍觀者的公共參與有顯著的影響[34]。除此之外,還有非常適合對(duì)短文本進(jìn)行主題建模的BTM 模型,多主題文本建模的利器MGTM 模型,揭示不同作者寫作主題分布的ATM 模型,以及分析話題熱點(diǎn)變遷的DTM 模型等,它們?yōu)橛?jì)算社會(huì)科學(xué)研究者對(duì)不同類型的網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行處理、研究提供了算法支持。
計(jì)算社會(huì)科學(xué)對(duì)社會(huì)現(xiàn)象的研究還有第二種解釋模式,即運(yùn)用網(wǎng)絡(luò)科學(xué)進(jìn)路尋求社會(huì)中成員的行為和成員之間互動(dòng)的模式。社會(huì)是一個(gè)復(fù)雜系統(tǒng),網(wǎng)絡(luò)科學(xué)能為理解復(fù)雜的社會(huì)系統(tǒng)提供一個(gè)可以操作的理論框架,網(wǎng)絡(luò)中存在“節(jié)點(diǎn)”,信息等資源在節(jié)點(diǎn)與節(jié)點(diǎn)之間傳播,連接節(jié)點(diǎn)和節(jié)點(diǎn)的被稱為“邊”,在具體的研究中,“節(jié)點(diǎn)”往往是對(duì)被研究單元的抽象,而邊則是用來刻畫節(jié)點(diǎn)之間的聯(lián)系性。Albert-László Barabási 提出復(fù)雜網(wǎng)絡(luò)的可控性,在網(wǎng)絡(luò)中引入動(dòng)力系統(tǒng),以描述一個(gè)復(fù)雜系統(tǒng)如何隨時(shí)間變化[57]。例如Varga 等人搭建了Web-of-Science 中論文的引用網(wǎng)絡(luò),發(fā)現(xiàn)科學(xué)領(lǐng)域隨著時(shí)間的推移變得更加整合[58]。
在網(wǎng)絡(luò)科學(xué)研究中,網(wǎng)絡(luò)圖的搭建至關(guān)重要,目前主流的圖算法有基于隨機(jī)游走的DeepWalk 和node2vec。DeepWalk的思想類似于word2vec,使用圖中節(jié)點(diǎn)與節(jié)點(diǎn)的共現(xiàn)關(guān)系來學(xué)習(xí)節(jié)點(diǎn)的向量表示,而節(jié)點(diǎn)與節(jié)點(diǎn)之間的共現(xiàn)關(guān)系則使用隨機(jī)游走的方式在圖中進(jìn)行節(jié)點(diǎn)采樣[59],算法的實(shí)現(xiàn)包含兩個(gè)步驟,第一步為隨機(jī)游走采樣節(jié)點(diǎn)序列,第二步為使用Skip-gram model Word2Vec 學(xué)習(xí)表達(dá)向量。使用DeepWalk 雖然能捕捉網(wǎng)絡(luò)節(jié)點(diǎn)之間的共現(xiàn)性,但這個(gè)共現(xiàn)性可能既包含了結(jié)構(gòu)性又包含了同質(zhì)性;而node2ve則可以被看作DeepWalk的一種擴(kuò)展,其雖依然采用隨機(jī)游走的方式獲取節(jié)點(diǎn)的近鄰序列,但它采用的是一種有偏的隨機(jī)游走,按概率抽取鄰接點(diǎn)[60],計(jì)算社會(huì)科學(xué)研究者可以通過指定超參數(shù)來靈活地定義研究目的是要捕捉更多的結(jié)構(gòu)性還是更多的同質(zhì)性。用于社區(qū)檢驗(yàn)的模塊化算法可以幫助研究者確定網(wǎng)絡(luò)中的哪些結(jié)構(gòu)具有緊密的聯(lián)系、形成社區(qū),類似于文本分析中的聚類算法,這些社區(qū)在研究中可以成為重要的研究著眼點(diǎn):Zeng等人在研究科學(xué)家在科學(xué)研究中的興趣切換時(shí)使用infomap社區(qū)檢測(cè)算法來檢驗(yàn)所生成研究社區(qū)的異質(zhì)性,從而來確定科學(xué)家們都在哪些領(lǐng)域進(jìn)行探索。類似的算法還有Louvain[61]、Fastgreedy[62]和LPA[63]等,上文中所提node2vec也同樣可以被應(yīng)用于識(shí)別網(wǎng)絡(luò)社團(tuán)(community detection)。
計(jì)算社會(huì)科學(xué)作為一個(gè)研究方向正式提出時(shí),主要的參與者是社會(huì)科學(xué)學(xué)者和物理學(xué)家。統(tǒng)計(jì)物理學(xué)和復(fù)雜性科學(xué)為社會(huì)科學(xué)發(fā)展提供了另外一條路徑,即從物理學(xué)角度進(jìn)行社會(huì)學(xué)研究,采用物理學(xué)方法和概念分析各類社會(huì)現(xiàn)象及其規(guī)律[64]。將社會(huì)看作一個(gè)復(fù)雜系統(tǒng),其復(fù)雜性在于其非線性、自適應(yīng)等特征,用簡(jiǎn)單普通的線性模型難以對(duì)其表示。網(wǎng)絡(luò)科學(xué)為理解復(fù)雜的社會(huì)系統(tǒng)提供了一個(gè)可以操作的理論框架。從統(tǒng)計(jì)物理學(xué)的角度,網(wǎng)絡(luò)是一個(gè)包含了大量個(gè)體以及個(gè)體之間相互作用的系統(tǒng),統(tǒng)計(jì)物理學(xué)對(duì)復(fù)雜網(wǎng)絡(luò)系統(tǒng)研究的核心在于分析網(wǎng)絡(luò)中頂點(diǎn)與邊的度值與權(quán)值等微觀性質(zhì)與網(wǎng)絡(luò)的幾何性質(zhì)、效率與穩(wěn)定性等宏觀性質(zhì)之間的關(guān)系,側(cè)重點(diǎn)在于從實(shí)際網(wǎng)絡(luò)上抽象出一般的網(wǎng)絡(luò)幾何量,并用一般性質(zhì)指導(dǎo)實(shí)際網(wǎng)絡(luò)研究[65]。傳統(tǒng)意義上研究復(fù)雜網(wǎng)絡(luò)系統(tǒng)往往基于研究者經(jīng)驗(yàn)進(jìn)行人工建模,如Boid 模型[66]、SIR 病毒傳播模型[67]等,由于數(shù)據(jù)規(guī)模以及人類認(rèn)知經(jīng)驗(yàn)的局限,人工模型存在過于簡(jiǎn)單、預(yù)測(cè)精度低、擬合能力較差等問題?;诖髷?shù)據(jù)以及深度學(xué)習(xí)的計(jì)算社會(huì)科學(xué)可以從海量觀測(cè)數(shù)據(jù)中自動(dòng)構(gòu)建模型,模擬復(fù)雜系統(tǒng)的組成方式和交互特點(diǎn)來提取系統(tǒng)中的內(nèi)在運(yùn)行機(jī)制和規(guī)律,進(jìn)而對(duì)真實(shí)的復(fù)雜系統(tǒng)進(jìn)行預(yù)測(cè)。
復(fù)雜系統(tǒng)中的諸多要素會(huì)呈現(xiàn)各種屬性和特征,各要素之間的交互作用也會(huì)增加網(wǎng)絡(luò)的不確定性和更為復(fù)雜的關(guān)系,復(fù)雜系統(tǒng)建模的核心在于抓住真實(shí)系統(tǒng)中的核心要素及其作用機(jī)制。如研究社會(huì)網(wǎng)絡(luò)中的信息擴(kuò)散,需要將個(gè)體及其關(guān)系抽象為網(wǎng)絡(luò)中的節(jié)點(diǎn)與連邊,核心要素在于節(jié)點(diǎn)權(quán)重、節(jié)點(diǎn)間的網(wǎng)絡(luò)關(guān)系以及節(jié)點(diǎn)間的傳播內(nèi)容,例如在研究社交網(wǎng)絡(luò)中的信息擴(kuò)散問題中,處于社會(huì)網(wǎng)絡(luò)中心的人比處于邊緣的人更早接受新信息[68],意見領(lǐng)袖自身的接納行為會(huì)加速創(chuàng)新內(nèi)容的擴(kuò)散[69]。Vosoughi等人研究社交網(wǎng)絡(luò)中虛假信息的傳播,發(fā)現(xiàn)在社交平臺(tái)上虛假信息比真實(shí)信息傳播得更遠(yuǎn)、更快,社交機(jī)器人更有可能傳播假新聞[15]。
復(fù)雜系統(tǒng)還可以基于圖網(wǎng)絡(luò)模型盡可能契合地模擬真實(shí)系統(tǒng)。圖網(wǎng)絡(luò)模型基于一個(gè)給定的圖結(jié)構(gòu)學(xué)習(xí)一種網(wǎng)絡(luò)節(jié)點(diǎn)到連邊、連邊到節(jié)點(diǎn)的映射過程,可以充分把握異質(zhì)性網(wǎng)絡(luò)特征,提高模型擬合和預(yù)測(cè)的準(zhǔn)確度[70],例如在合作網(wǎng)絡(luò)研究中,研究者通過引入時(shí)間維度和多節(jié)點(diǎn)合作模式構(gòu)建合著者網(wǎng)絡(luò),擬合了真實(shí)網(wǎng)絡(luò)中的合作系數(shù),分析團(tuán)隊(duì)規(guī)模對(duì)團(tuán)隊(duì)收益的影響,這一公共品博弈模型為研究人類合作行為提供了基礎(chǔ)[71]。在大氣污染研究中,研究者還將圖網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)(GNN)結(jié)合,并引入氣象學(xué)領(lǐng)域先驗(yàn)知識(shí),建構(gòu)系統(tǒng)模型用于預(yù)報(bào)霧霾[72]。復(fù)雜系統(tǒng)將圖網(wǎng)絡(luò)與動(dòng)力學(xué)相結(jié)合,可以用來分析網(wǎng)絡(luò)節(jié)點(diǎn)之間的互動(dòng)機(jī)制。Zang 等人引入微分方程對(duì)網(wǎng)絡(luò)上的動(dòng)力學(xué)進(jìn)行建模,提出NDCN 模型來預(yù)測(cè)未來的節(jié)點(diǎn)狀態(tài)[73]。從統(tǒng)計(jì)物理學(xué)視角,基于滲流理論的復(fù)雜網(wǎng)絡(luò)模型也被廣泛應(yīng)用于對(duì)現(xiàn)實(shí)世界的預(yù)測(cè),為政策制定提供指導(dǎo)。Liu等人利用隨機(jī)度分布網(wǎng)絡(luò)滲流理論建立了基于有限信息的針對(duì)性免疫模型,提供了疫情期間遏制傳播的有效方法[74]。Fan等人基于滲流相變和網(wǎng)絡(luò)理論提出了研究熱帶區(qū)域大氣環(huán)流的框架,該框架可以用來預(yù)測(cè)全球變暖背景下熱帶區(qū)域大氣環(huán)流的動(dòng)力學(xué)演化及其影響[75]。
復(fù)雜網(wǎng)絡(luò)在自動(dòng)建模過程中一方面需要應(yīng)對(duì)系統(tǒng)復(fù)雜度的問題,另一方面還需解決數(shù)據(jù)缺失的問題。在回答系統(tǒng)復(fù)雜度這一問題上,Bagrov 等人提出通過重整化群的方法對(duì)復(fù)雜度進(jìn)行定義,借助對(duì)大尺度的分析來對(duì)小尺度現(xiàn)象進(jìn)行建模[76]。應(yīng)對(duì)網(wǎng)絡(luò)稀缺性的需求催生了網(wǎng)絡(luò)重構(gòu)這一研究領(lǐng)域。Cimini 等人從宏觀、介觀、微觀三種尺度對(duì)網(wǎng)絡(luò)重構(gòu)問題進(jìn)行詳細(xì)的介紹,網(wǎng)絡(luò)重構(gòu)可以在數(shù)據(jù)缺失的情況下最大程度恢復(fù)數(shù)據(jù)完整性,構(gòu)建更加精準(zhǔn)的網(wǎng)絡(luò)模型,從而實(shí)現(xiàn)對(duì)顯示的精準(zhǔn)預(yù)測(cè)與控制[77]。
相關(guān)關(guān)系與因果關(guān)系是社會(huì)科學(xué)研究始終關(guān)注的核心議題,由于哲學(xué)與自然科學(xué)對(duì)于客觀性、確定性的困惑和搖擺,社會(huì)科學(xué)中的因果關(guān)系長(zhǎng)久遮蔽于相關(guān)關(guān)系中。數(shù)據(jù)驅(qū)動(dòng)的計(jì)算社會(huì)科學(xué)在研究起步階段也對(duì)大數(shù)據(jù)過于樂觀,認(rèn)為數(shù)據(jù)本身和相關(guān)關(guān)系足以認(rèn)識(shí)和理解社會(huì),因果關(guān)系不再重要[78]。但已有大量研究證明,相關(guān)性不能取代因果性。相關(guān)關(guān)系指兩個(gè)變量在變化趨勢(shì)上存在某種程度上的一致性,因果關(guān)系則強(qiáng)調(diào)變量間存在某種邏輯上確定的依存關(guān)系。相關(guān)關(guān)系和因果關(guān)系最顯著的區(qū)別就在于因果關(guān)系具有必然性,即原因和結(jié)果之間的關(guān)系是必然的。盡管大數(shù)據(jù)具有天然的對(duì)相關(guān)關(guān)系的解釋能力,但“因果關(guān)系是人類理性行為與活動(dòng)的基本依據(jù),人類理性本身不可能否定因果關(guān)系”[79]。因此,計(jì)算社會(huì)科學(xué)向因果關(guān)系的“轉(zhuǎn)身”是重要且必要的。
判定兩個(gè)變量之間存在因果關(guān)系的核心思想在于:在控制其他干擾因素的前提下確定原因?qū)Y(jié)果產(chǎn)生影響。圖靈獎(jiǎng)獲得者朱迪亞·珀?duì)枺↗udea Pearl)提出了因果關(guān)系的三層結(jié)構(gòu),將數(shù)據(jù)和算法能夠回答的因果信息分成三種層次:關(guān)聯(lián)(association)、干預(yù)(intervention)和反事實(shí)(counterfactual)[80]。關(guān)聯(lián)指觀察數(shù)據(jù)中的相關(guān)性規(guī)律,干預(yù)指預(yù)測(cè)主體或行動(dòng)對(duì)環(huán)境的刻意改變可能導(dǎo)致的結(jié)果,反事實(shí)則指想象一個(gè)并不存在的虛擬世界并反思觀察到的現(xiàn)象的原因。關(guān)聯(lián)層和干預(yù)層主要針對(duì)當(dāng)前的弱人工智能,而反事實(shí)層是基于人類獨(dú)有的反思能力和思考能力,是從經(jīng)驗(yàn)到理性的上升,是人工智能取得突破性進(jìn)展的關(guān)鍵。目前主流社會(huì)科學(xué)界對(duì)因果關(guān)系的理解建立在反事實(shí)框架(counterfactual framework)之上[81],“由果及因”地根據(jù)觀察到的現(xiàn)象對(duì)其原因的推斷,在推斷過程中設(shè)計(jì)一個(gè)“平行世界”,思考如果現(xiàn)在的原因在過去并沒有發(fā)生,現(xiàn)在的結(jié)果會(huì)有何不同。因果關(guān)系三層結(jié)構(gòu)之間是維度的差異,從關(guān)聯(lián)層到反事實(shí)層是一個(gè)“升維”的過程。頂層的反事實(shí)層處于最高維,通過反事實(shí)模型可以同時(shí)解釋因果、干預(yù)與關(guān)聯(lián)的問題,而如果僅掌握關(guān)聯(lián)模型,就無法進(jìn)行預(yù)測(cè)與因果推斷。
基于反事實(shí)框架,社會(huì)科學(xué)研究中的統(tǒng)計(jì)方法難以進(jìn)行因果推斷,原因首先在于統(tǒng)計(jì)相關(guān)性不能解釋因果性,其次統(tǒng)計(jì)模型無法處理既影響“因”又影響“果”的混雜因子,會(huì)產(chǎn)生因果倒置、偽相關(guān)等問題,從而陷入“辛普森悖論”(Simpson’s Paradox)。目前解決這一問題的主要辦法有工具變量(instrumental variable)、斷點(diǎn)回歸(regression discontinuity design)、傾向值匹配(propensity score matching)、實(shí)驗(yàn)與準(zhǔn)實(shí)驗(yàn)(experiments and quasi-experienments)等。在反事實(shí)框架理論下,實(shí)驗(yàn)與準(zhǔn)實(shí)驗(yàn)方法最能匹配其邏輯。傳統(tǒng)模擬時(shí)代,線下實(shí)驗(yàn)室實(shí)驗(yàn)存在難以組織實(shí)施、成本高、規(guī)模有限等問題,而大數(shù)據(jù)時(shí)代破除了模擬時(shí)代實(shí)驗(yàn)面臨的諸多限制,為計(jì)算社會(huì)科學(xué)向因果推斷轉(zhuǎn)向創(chuàng)造了條件。
鄧肯·瓦茨(Duncan Watts)提出,理論需要在現(xiàn)實(shí)中得以復(fù)現(xiàn)并具有充分的解釋能力,因果推斷中需要重視預(yù)測(cè)的部分[13]?;跀?shù)據(jù)與算法雙重驅(qū)動(dòng)下的計(jì)算社會(huì)科學(xué)在因果推斷領(lǐng)域的優(yōu)勢(shì)體現(xiàn)在三個(gè)方面,分別是:在線實(shí)驗(yàn)提高實(shí)驗(yàn)的內(nèi)外部效度、大數(shù)據(jù)驅(qū)動(dòng)下更好處理研究對(duì)象異質(zhì)性以及行為數(shù)據(jù)對(duì)理論構(gòu)念效度的驗(yàn)證。
隨機(jī)控制實(shí)驗(yàn)的核心在于將實(shí)驗(yàn)對(duì)象分為實(shí)驗(yàn)組與對(duì)照組,這兩組成員在屬性上具有相似性,這樣可以將結(jié)果上的差異歸因于干預(yù)(treatment),可以規(guī)避混雜因素(confounder)對(duì)因果關(guān)系的影響。以往研究中廣泛采用的觀察性實(shí)驗(yàn)與實(shí)驗(yàn)室實(shí)驗(yàn)在進(jìn)行因果推斷時(shí)面臨諸多局限。例如在對(duì)社交網(wǎng)絡(luò)的研究中,存在同質(zhì)性、社會(huì)傳染以及個(gè)體屬性對(duì)行為的影響等混雜因素的影響[82]。這些因素一方面難以通過觀察性實(shí)驗(yàn)觀測(cè)得到,另一方面通過實(shí)驗(yàn)控制也難以達(dá)到理想的效果,即使加以控制也與現(xiàn)實(shí)情況不符,影響實(shí)驗(yàn)的效度。傳統(tǒng)問卷調(diào)查方法,人們?cè)谔顚憜柧磉^程中帶有很強(qiáng)的主觀意志,會(huì)明確地知道自己處于“被研究”狀態(tài)下,這些外部環(huán)境因素都會(huì)影響問題回答的客觀性和真實(shí)性。而基于大數(shù)據(jù)的計(jì)算社會(huì)科學(xué)通過采用行為追蹤數(shù)據(jù)作為研究對(duì)象可以超越嚴(yán)格的實(shí)驗(yàn)設(shè)置,提高因果推斷在社會(huì)網(wǎng)絡(luò)研究中的有效性和對(duì)現(xiàn)實(shí)情況的解釋能力。數(shù)字化時(shí)代人們?cè)诰W(wǎng)絡(luò)中的各種點(diǎn)擊、瀏覽、記錄行為都成為大數(shù)據(jù),這種行為數(shù)據(jù)是在無意識(shí)中產(chǎn)生的,能夠更加真實(shí)地反映人們?cè)谏盍?xí)慣、喜好、社會(huì)互動(dòng)等方面的自然狀態(tài)。Aral等人采用了110 萬人過去五年中在運(yùn)動(dòng)中記錄下的行為數(shù)據(jù),包括地理位置、社會(huì)網(wǎng)絡(luò)聯(lián)系以及日常跑步模式,并引入“天氣”這一工具變量,規(guī)避回歸性分析中的內(nèi)生性問題以及個(gè)體行為同質(zhì)性等混雜因素的影響[25],進(jìn)而分析社會(huì)傳染對(duì)運(yùn)動(dòng)行為的影響。大數(shù)據(jù)條件下的在線實(shí)驗(yàn)還可根據(jù)研究需要建構(gòu)出一個(gè)理想化的“平行世界”,Salganik等人研究社會(huì)網(wǎng)絡(luò)中人與人之間的示范與追隨作用對(duì)音樂市場(chǎng)的作用,人為創(chuàng)造除了一個(gè)“音樂市場(chǎng)”,將研究對(duì)象分為僅憑自身音樂偏好選擇音樂的對(duì)照組以及在他人影響下選擇音樂的實(shí)驗(yàn)組,結(jié)果表明隨著社會(huì)影響會(huì)增加音樂產(chǎn)品是否可以獲得商業(yè)上成功的不可預(yù)測(cè)性[17]。
大數(shù)據(jù)的海量性、多樣性以及在線實(shí)驗(yàn)的大規(guī)模參與者為研究集體的社會(huì)過程創(chuàng)造條件,一方面可以用來分析群體性社會(huì)交往、社會(huì)傳染對(duì)主體行動(dòng)和觀念的影響。由于基數(shù)較大,大數(shù)據(jù)中看似微不足道的作用也會(huì)產(chǎn)生明顯的綜合效應(yīng),這在傳統(tǒng)規(guī)模較小的研究樣本中可能難以檢測(cè)得到。另一方面可以對(duì)數(shù)據(jù)進(jìn)行分層處理,研究平均效果與異質(zhì)效果對(duì)結(jié)果的影響。在Kramer等人對(duì)社交媒體中情緒傳染作用的研究中發(fā)現(xiàn),情緒充分影響人們的身心健康與行為選擇,在Facebook的用戶規(guī)模下,即使0.1%的情緒效應(yīng)也會(huì)影響每天成百上千個(gè)線上用戶,這需要充分引起人們對(duì)社交媒體用戶公共健康的重視[83]?;诖髷?shù)據(jù)的在線實(shí)驗(yàn)可以通過對(duì)單個(gè)影響因素的獨(dú)立效應(yīng)以及不同因素的組合效應(yīng)進(jìn)行全面評(píng)估從而進(jìn)行因果推斷。Bond 等人將研究對(duì)象分為三組,對(duì)實(shí)驗(yàn)組施以不同的干預(yù)因素,來評(píng)估不同社會(huì)互動(dòng)影響因素及其組合對(duì)選舉中政治動(dòng)員的影響[35]。為了研究同輩壓力對(duì)青少年抑郁癥狀擴(kuò)散的影響,研究者將青少年所處的環(huán)境進(jìn)行分層處理,將同輩分為班級(jí)同學(xué)(classmates)、課外活動(dòng)同學(xué)(clubmates)、自主選擇同學(xué)(self-selection friends)三種類型,并將抑郁程度分為嚴(yán)重、一般、不嚴(yán)重三種層次。通過對(duì)影響因素的分割,減少不可觀測(cè)的混雜因素的干擾[84]。
通過行為數(shù)據(jù)、大規(guī)模隨機(jī)控制試驗(yàn),計(jì)算社會(huì)科學(xué)對(duì)社會(huì)行為的研究能夠更好檢驗(yàn)社會(huì)理論在現(xiàn)實(shí)世界中的解釋能力,為現(xiàn)實(shí)政策決策提供理論支持,同時(shí)模型也更具拓展性,能在各種現(xiàn)實(shí)場(chǎng)景下維持預(yù)測(cè)穩(wěn)定性。Aral 等人通過對(duì)大規(guī)模行為數(shù)據(jù)的追蹤以及各層次社會(huì)網(wǎng)絡(luò)的建模,結(jié)果顯示社會(huì)傳染的嵌入性和社會(huì)結(jié)構(gòu)多樣性理論可以用來解釋社會(huì)傳染效應(yīng)對(duì)運(yùn)動(dòng)行為的印象,而復(fù)雜傳染理論沒有做到。研究獲得了對(duì)社會(huì)傳染效應(yīng)的精準(zhǔn)估計(jì),能夠更好地預(yù)測(cè)社會(huì)政策干預(yù)的結(jié)果[25]。就政治極化形成的原因,回音室效應(yīng)(echo chamber effect)、文化認(rèn)知理論給出了各自的解釋,但研究通過隨機(jī)控制實(shí)驗(yàn)設(shè)計(jì)“多重世界”提出了新的“意見瀑布模型”(opinion cascades),為政治和文化分歧提供了另一種解釋。意見瀑布模型表明,黨派分歧具有高度任意性和不可預(yù)測(cè)性,參與者的黨派選擇是內(nèi)在吸引力和社會(huì)影響力共同作用的結(jié)果。以往研究只關(guān)注意識(shí)形態(tài)、核心價(jià)值和政黨認(rèn)同的內(nèi)在影響,忽視了政治文化派別由于社會(huì)環(huán)境與社會(huì)互動(dòng)帶來的動(dòng)態(tài)特征,黨派分歧可能在不斷向?qū)Ψ搅?chǎng)傾斜的過程中產(chǎn)生。研究在以往關(guān)于政治極化理論的基礎(chǔ)上進(jìn)行擴(kuò)展,為政治極化的形成機(jī)制提供了新的、可以在現(xiàn)實(shí)中得以復(fù)現(xiàn)的理論解釋[85]。
將數(shù)據(jù)科學(xué)的韋恩圖與科學(xué)環(huán)結(jié)合起來,同時(shí)加入研究問題、因果推斷和預(yù)測(cè),構(gòu)成了本文分析計(jì)算社會(huì)科學(xué)研究的理論框架。為了更好地理解計(jì)算社會(huì)科學(xué)的發(fā)展,本文首先介紹了如何基于數(shù)據(jù)科學(xué)的邏輯來拓展科學(xué)環(huán)的理論框架?;谶@一理論框架,從計(jì)算社會(huì)科學(xué)關(guān)注的問題、大數(shù)據(jù)、計(jì)算機(jī)科學(xué)提供的算法、數(shù)學(xué)和物理學(xué)模型、因果推斷與預(yù)測(cè)五個(gè)角度對(duì)計(jì)算社會(huì)科學(xué)的發(fā)展進(jìn)行綜述。
在問題方面,事實(shí)上計(jì)算社會(huì)科學(xué)關(guān)心的問題并非僅圍繞數(shù)據(jù)和算法兩大概念,而是受到數(shù)據(jù)資源壟斷、算法水平受限等諸多限制,因而針對(duì)具體的問題在相關(guān)學(xué)科內(nèi)展開討論,即Watts 提出的“采用一種更注重解決問題的思路”[13]。從學(xué)科路徑梳理大概可以分為社會(huì)科學(xué)、計(jì)算機(jī)科學(xué)等傳統(tǒng)學(xué)科內(nèi)部的研究,統(tǒng)計(jì)學(xué)、人文學(xué)科等相關(guān)學(xué)科的跨學(xué)科研究,以及人工智能等發(fā)展中的創(chuàng)新學(xué)科的研究等。計(jì)算社會(huì)科學(xué)的一個(gè)突出特點(diǎn)是學(xué)科界限的模糊。
數(shù)據(jù)和算法使得對(duì)社會(huì)現(xiàn)象和人類行為的測(cè)量和計(jì)算如虎添翼。大規(guī)模數(shù)據(jù)讓社會(huì)科學(xué)研究在數(shù)字時(shí)代可以無處不在,但研究者的盲目樂觀同樣值得警惕。研究者對(duì)于大數(shù)據(jù)的運(yùn)用應(yīng)當(dāng)有一些巧妙的策略,將其局限性轉(zhuǎn)化為它的優(yōu)勢(shì)。如研究者可以在數(shù)據(jù)處理階段對(duì)數(shù)據(jù)進(jìn)行分組、加權(quán),參考其他權(quán)威數(shù)據(jù)使得研究數(shù)據(jù)的結(jié)構(gòu)符合現(xiàn)實(shí)社會(huì)情況,也可以在算法的基礎(chǔ)上與傳統(tǒng)社會(huì)研究方法相結(jié)合,針對(duì)不同的研究問題,創(chuàng)造性地設(shè)計(jì)出數(shù)據(jù)使用的方案,將不同來源的大數(shù)據(jù)資源配合進(jìn)行研究。算法作為計(jì)算機(jī)科學(xué)的核心,既是一種任務(wù)工具,也是一種復(fù)雜科學(xué)的思維,算法驅(qū)動(dòng)是計(jì)算社會(huì)科學(xué)在復(fù)雜性科學(xué)運(yùn)動(dòng)興起和數(shù)字時(shí)代大規(guī)模數(shù)據(jù)涌現(xiàn)背景下的必然選擇。在計(jì)算社會(huì)科學(xué)領(lǐng)域內(nèi),詞向量模型、字典、主題模型等算法能夠和大規(guī)模數(shù)據(jù)產(chǎn)生奇妙的化學(xué)反應(yīng),而不論是計(jì)算社會(huì)科學(xué)的文本分析與定性編碼還是網(wǎng)絡(luò)科學(xué)中的算法,都離不開人工智能,尤其是機(jī)器學(xué)習(xí)技術(shù)。
建立模型和因果推斷的目標(biāo)在于理解機(jī)制。在模型方面,統(tǒng)計(jì)物理和網(wǎng)絡(luò)科學(xué)為社會(huì)科學(xué)研究提供了新的路徑范式和理論框架。人類行為主體以及主體間的交往互動(dòng)行為具有多重復(fù)雜性,基于大數(shù)據(jù)和算法建構(gòu)的復(fù)雜網(wǎng)絡(luò)模型能對(duì)真實(shí)網(wǎng)絡(luò)系統(tǒng)進(jìn)行更好的擬合,提供更加精確的預(yù)測(cè)。目前網(wǎng)絡(luò)科學(xué)面臨數(shù)據(jù)對(duì)網(wǎng)絡(luò)結(jié)構(gòu)完整性的沖擊,由此催化的網(wǎng)絡(luò)重構(gòu)領(lǐng)域成為新的研究方向。因果推斷依然是計(jì)算社會(huì)科學(xué)的核心問題。傳統(tǒng)社會(huì)科學(xué)調(diào)查方法囿于樣本規(guī)模、模型等限制因素難以厘清變量間的因果關(guān)系,大數(shù)據(jù)時(shí)代則提供了可能。因此,本文認(rèn)為計(jì)算社會(huì)科學(xué)向因果關(guān)系的“轉(zhuǎn)身”是重要且必要的。
計(jì)算社會(huì)科學(xué)代表了一種將數(shù)據(jù)科學(xué)融入社會(huì)科學(xué)的浪潮,而不是反過來。目前,計(jì)算社會(huì)科學(xué)已經(jīng)取得了長(zhǎng)足的發(fā)展,吸引了大量的研究者進(jìn)入到這個(gè)新的領(lǐng)域當(dāng)中。使用“計(jì)算社會(huì)科學(xué)”作為主題詞在CNKI 數(shù)據(jù)庫(kù)中檢索,僅能找到117 篇中文期刊論文。一方面,國(guó)內(nèi)關(guān)于計(jì)算社會(huì)科學(xué)的研究目前正處于一個(gè)起步的階段;另一方面,計(jì)算社會(huì)科學(xué)領(lǐng)域發(fā)表的論文數(shù)量呈上升趨勢(shì)。本文認(rèn)為計(jì)算社會(huì)科學(xué)的發(fā)展遵循數(shù)據(jù)科學(xué)的基本邏輯,追求算法、模型和問題的融合。計(jì)算社會(huì)科學(xué)的發(fā)展方向和根本使命依然在于理解重要的社會(huì)問題并建構(gòu)更加強(qiáng)大和有用的理論,這也為新文科建設(shè)提供了一種切實(shí)可行的操作框架。