范曉光,劉金龍
1.浙江大學(xué) 社會(huì)學(xué)系,浙江 杭州 310058;2.中國(guó)社會(huì)科學(xué)院大學(xué) 社會(huì)學(xué)系,北京 102488
計(jì)算社會(huì)學(xué)是計(jì)算社會(huì)科學(xué)與社會(huì)學(xué)的學(xué)科交叉,是一門新興學(xué)科。社會(huì)學(xué)作為一門獨(dú)立的學(xué)科經(jīng)歷了近200年的發(fā)展,已經(jīng)形成完善的學(xué)科體系,但是其倡導(dǎo)的實(shí)證主義在宏觀解釋與微觀解釋、數(shù)據(jù)驅(qū)動(dòng)與理論驅(qū)動(dòng)、相關(guān)分析與因果推斷、信度與效度等方面長(zhǎng)期存在內(nèi)在“張力”[1]。計(jì)算社會(huì)科學(xué)是對(duì)社會(huì)科學(xué)實(shí)證主義傳統(tǒng)的推進(jìn),借助于計(jì)算機(jī)和信息通信技術(shù)(ICT)的迭代更新,其研究方法和研究設(shè)計(jì)都有別于傳統(tǒng)范式,研究議題越來越突破傳統(tǒng)的學(xué)科界限。面對(duì)作為典型的復(fù)雜性系統(tǒng)的社會(huì),計(jì)算社會(huì)學(xué)具有的學(xué)科交叉、基礎(chǔ)理論和應(yīng)用對(duì)策并行等特質(zhì),使其在回應(yīng)實(shí)證主義面臨的諸多困境時(shí)具有明顯優(yōu)勢(shì)。
實(shí)證社會(huì)科學(xué)是指利用實(shí)際調(diào)查或訪談資料來驗(yàn)證理論假設(shè)或者構(gòu)建理論的研究范式,它有別于純理論思辨式的傳統(tǒng)社會(huì)科學(xué)[2]。社會(huì)學(xué)在實(shí)證社會(huì)科學(xué)的發(fā)展早期發(fā)揮了舉足輕重的作用。孔德提出的社會(huì)物理學(xué)力圖用科學(xué)的方法研究人類社會(huì)的構(gòu)想,在實(shí)證社會(huì)科學(xué)的發(fā)展歷史中遇到了許多困難。如果將社會(huì)科學(xué)研究看成研究主體、研究客體和研究過程所構(gòu)成的三個(gè)有機(jī)整體,則可以更清晰地理解其面臨的不確定性。
首先,理解并揭示社會(huì)現(xiàn)象發(fā)生和發(fā)展的因果關(guān)系是實(shí)證社會(huì)科學(xué)一直追求的,但社會(huì)復(fù)雜性所帶來的不確定性使得實(shí)現(xiàn)上述目標(biāo)的難度大大增加。在復(fù)雜系統(tǒng)內(nèi),多元個(gè)體在某一框架之內(nèi)進(jìn)行互動(dòng),行為會(huì)彼此影響,并且個(gè)體具有適應(yīng)性和學(xué)習(xí)能力,最終引起特定的功能涌現(xiàn)[3]。正是由于社會(huì)系統(tǒng)的復(fù)雜性,并不存在像“萬(wàn)有引力”那樣的普遍規(guī)律,加之系統(tǒng)成員具有自主選擇和創(chuàng)造的能力,使得實(shí)證研究發(fā)現(xiàn)在一般化上總是不甚理想。
其次,實(shí)證社會(huì)科學(xué)已經(jīng)發(fā)展出完備的理論和方法工具箱,但是研究者在方法論的認(rèn)同和運(yùn)用上的偏好都會(huì)帶來實(shí)證發(fā)現(xiàn)的不確定性。社會(huì)科學(xué)家有一種自然而然的研究?jī)A向,即嘗試通過理解行動(dòng)者的意圖、信念、場(chǎng)景和機(jī)遇,去解釋他們的行動(dòng)及后果[4]。如在社會(huì)分層與流動(dòng)領(lǐng)域,衡量社會(huì)不平等的取向包括階梯型和關(guān)系型兩種,而在如何恰當(dāng)?shù)厥褂貌煌姆謱涌蚣苌蠀s長(zhǎng)期缺乏共識(shí)。之所以產(chǎn)生以上分歧,很難簡(jiǎn)單歸因于研究對(duì)象本身的差異,而是要充分考慮作為行動(dòng)者的研究者個(gè)體偏好。在田野調(diào)查中,不同的研究者即使從訪談對(duì)象那里獲得完全相同的信息,在“裁剪”的過程中仍然無法避免出現(xiàn)理解偏差;在定量研究中,雖然開放性、透明性和標(biāo)準(zhǔn)化程度相對(duì)更高,但這并不意味著研究者偏好對(duì)實(shí)證研究的“干預(yù)”更少。
最后,研究設(shè)計(jì)是實(shí)證社會(huì)科學(xué)區(qū)別于思辯哲學(xué)的關(guān)鍵環(huán)節(jié),當(dāng)然也是不確定性的主要生成器。一方面表現(xiàn)為模型設(shè)定起點(diǎn)的不確定性。理論導(dǎo)向的實(shí)證研究尤為強(qiáng)調(diào)理論對(duì)模型建立的指導(dǎo),通常采取的策略是以所對(duì)話的理論為起點(diǎn)。要探究理論之核心變量對(duì)因變量的影響模式,必須排除若干競(jìng)爭(zhēng)性解釋,這在模型上主要通過引入控制變量來實(shí)現(xiàn)。例如,一個(gè)模型有10個(gè)控制變量,那么最多存在1 024(210)種可能的變量組合,盡管可以用多模型分析的計(jì)算框架(computational framework for multi-model analysis)窮盡這些組合后的結(jié)果,以獲得核心變量關(guān)聯(lián)模式的動(dòng)態(tài)變化[5],但如何解讀這些發(fā)現(xiàn)也并非易事。此外,社會(huì)是一個(gè)開放系統(tǒng),有些看似外生性的因素仍然可能影響我們?cè)噲D解釋的現(xiàn)象。另一方面,模型假定、數(shù)據(jù)構(gòu)成、操作化測(cè)量、事后因果框架等都導(dǎo)致模型輸出結(jié)果的不確定性。任何模型對(duì)資料(定性或定量)構(gòu)成都有相應(yīng)的前提假定,如總體分布、代表性(包括類型)、信度、效度等,研究者不得不通過“改造”資料以減少實(shí)際研究中遇到的前提假設(shè)違背困境。同時(shí),經(jīng)驗(yàn)觀察的重要假設(shè)是研究者和觀察者對(duì)研究的“干擾”是可控的,但現(xiàn)實(shí)中不僅極易違背,而且較難評(píng)估。尤其是在“默頓系統(tǒng)”中,反身性所帶來的不確定性凸顯[6]。此外,被廣泛使用的事后因果分析框架很大程度上也制約了因果推斷的實(shí)際預(yù)測(cè)力。
總之,研究結(jié)果的不確定性是實(shí)證社會(huì)科學(xué)的基本特征之一,如何消解其對(duì)社會(huì)科學(xué)的約束一直是個(gè)棘手的問題。數(shù)據(jù)密集型(data-intensive)科學(xué)范式的到來,為實(shí)證社會(huì)科學(xué)提供了許多變革的機(jī)遇。由此,筆者認(rèn)為有必要將該問題置于計(jì)算社會(huì)科學(xué)的發(fā)展脈絡(luò)中。
計(jì)算社會(huì)科學(xué)能夠積極應(yīng)對(duì)實(shí)證社會(huì)科學(xué)的不確定性。其中,基于模擬社會(huì)系統(tǒng)或過程的社會(huì)仿真可以克服傳統(tǒng)模型的線性思維和化約主義,對(duì)于復(fù)雜性有著更科學(xué)的探究;大數(shù)據(jù)分析通過對(duì)海量數(shù)據(jù)的挖掘推動(dòng)知識(shí)生產(chǎn),減少了模型設(shè)定、測(cè)量和結(jié)論泛化的不確定性。
生成解釋(generative explanation)是通過建立有關(guān)被研究社會(huì)系統(tǒng)的模型,并從模型的運(yùn)行過程和結(jié)果中獲得對(duì)研究對(duì)象的理解[7]。該傳統(tǒng)主要通過對(duì)主體的行動(dòng)及其相互作用規(guī)則的設(shè)定,從演化過程中獲得新的機(jī)制解釋?!皬?fù)雜性”是生成解釋背后的認(rèn)識(shí)論基礎(chǔ),它將現(xiàn)代物理和生物學(xué)結(jié)合,認(rèn)為社會(huì)永遠(yuǎn)處于時(shí)間的邊緣,結(jié)構(gòu)時(shí)刻在組合、衰敗和發(fā)展[8]。
社會(huì)仿真(simulation)是生成解釋的主要方法,它始于20世紀(jì)50年代,在研究社會(huì)的復(fù)雜性上遠(yuǎn)遠(yuǎn)超越了其他多數(shù)研究方法。該方法通過建立一個(gè)模擬社會(huì)系統(tǒng)或過程的計(jì)算機(jī)模型,即建立一個(gè)能夠表征現(xiàn)實(shí)世界的“人工社會(huì)”,開展各種社會(huì)科學(xué)分析。仿真模型能夠容納具有適應(yīng)性的主體,實(shí)現(xiàn)主體之間的交互,展現(xiàn)了從微觀個(gè)體行為到宏觀系統(tǒng)狀況的“涌現(xiàn)”。它能夠?qū)⑿袆?dòng)主體的異質(zhì)性、自我適應(yīng)性、有限理性、交互性等重要因素重新納入研究框架之中,克服多數(shù)模型的線性外推思維、無法反映宏觀—微觀線性內(nèi)在聯(lián)系、缺乏對(duì)“活”系統(tǒng)成員的描述等不足[9],自下而上地構(gòu)建一個(gè)逼近真實(shí)的人工社會(huì),以揭示事件發(fā)生的條件、概率、限度以及多種可能選擇的策略。社會(huì)仿真之所以有效,很大程度上是因?yàn)樗c真實(shí)人類社會(huì)的多功能性、高維度、隨機(jī)性、非線性、不完全性等直接相關(guān)。除了完全基于理論的與真實(shí)社會(huì)無法直接對(duì)接的方式,社會(huì)仿真還有注入真實(shí)數(shù)據(jù)對(duì)現(xiàn)實(shí)對(duì)接的方式。例如,針對(duì)恐怖分子在美國(guó)華盛頓市區(qū)引爆一顆1萬(wàn)噸當(dāng)量的小型原子彈,導(dǎo)致輻射開始在整個(gè)城市擴(kuò)散的問題,很難想象科學(xué)家可以采用社會(huì)仿真完成這項(xiàng)傳統(tǒng)方法幾乎不可能完成的研究。
總體而言,社會(huì)仿真經(jīng)歷了從宏觀仿真到微觀仿真,再到基于主體仿真的發(fā)展歷程,主要分為面向變量模型、面向?qū)ο竽P秃突旌仙鐣?huì)模型等類型。其中,基于行動(dòng)者的模型(agent-based modelling,ABM)屬于面向?qū)ο蠼?為研究者提供了創(chuàng)建、分析和試驗(yàn)由在環(huán)境中互動(dòng)的行動(dòng)者構(gòu)成的模型[10]。ABM擅長(zhǎng)模擬微觀行動(dòng)者的互動(dòng),進(jìn)而對(duì)其“涌現(xiàn)”的有關(guān)社會(huì)后果進(jìn)行分析,解釋已經(jīng)被觀察到的宏觀現(xiàn)象或者預(yù)測(cè)變化趨勢(shì)。經(jīng)典的隔離模型(segregation model)假定個(gè)體都希望1/3以上的鄰居和自己同屬一個(gè)種族,如果同種族比例小于1/3才會(huì)搬走,否則就留在原地不動(dòng)。該過程利用元胞自動(dòng)機(jī)(后來逐步改進(jìn)為ABM)模擬個(gè)體搬家的過程,直到無人搬家為止,結(jié)果表明即使個(gè)體與不同種族鄰居相處很寬容(只有當(dāng)同種族少于1/3才離開),仍然可能出現(xiàn)種族隔離的宏觀后果[11]。社會(huì)仿真研究不僅包括投票交易、創(chuàng)新擴(kuò)散、謠言傳播、組織決策、廣義交換形成等集體行動(dòng)議題,也包括社會(huì)分化、制度起源與維持等有關(guān)結(jié)構(gòu)的議題[12]。雖然仿真在物理學(xué)、生物學(xué)、計(jì)算機(jī)科學(xué)、網(wǎng)絡(luò)科學(xué)等領(lǐng)域應(yīng)用更為廣泛,但不可否認(rèn)的是,以社會(huì)學(xué)為代表的社會(huì)科學(xué)在該傳統(tǒng)的推廣和應(yīng)用上發(fā)揮了重要作用。
數(shù)據(jù)挖掘傳統(tǒng)主要基于互聯(lián)網(wǎng)興起在線實(shí)時(shí)所產(chǎn)生的大數(shù)據(jù),利用數(shù)據(jù)科學(xué)和計(jì)算科學(xué)的前沿技術(shù)做數(shù)據(jù)挖掘,進(jìn)行理論檢驗(yàn)和社會(huì)預(yù)測(cè)。有別于社會(huì)仿真,該傳統(tǒng)的數(shù)據(jù)資料來源更加多元、時(shí)空跨度更大、體量更大、形式多樣,由此為計(jì)算社會(huì)科學(xué)的發(fā)展提供了難得的機(jī)遇。大數(shù)據(jù)最早是由道格·萊尼設(shè)想的,他提出了一個(gè)著名的“三V”模型(容量大、高速增長(zhǎng)、種類繁多),用來應(yīng)對(duì)日益龐雜的三維數(shù)據(jù)管理[13]。目前,大數(shù)據(jù)已經(jīng)呈現(xiàn)出痕跡數(shù)據(jù)匯集,存儲(chǔ)和運(yùn)用并行化、在線化、生活化和社會(huì)化的新樣態(tài)[14],它對(duì)社會(huì)科學(xué)的最大意義是“從無到有”。與傳統(tǒng)主要通過收集觀察、抽樣調(diào)查的數(shù)據(jù)不同,大數(shù)據(jù)是在弱選擇性觀察、弱設(shè)計(jì)、弱標(biāo)準(zhǔn)化、弱目的性的前提下自動(dòng)存取的非結(jié)構(gòu)化的痕跡數(shù)據(jù)。雖然無法回避算法干擾、數(shù)據(jù)漂移、代表性、個(gè)人隱私等方面的困擾,但它還是為社會(huì)科學(xué)家打開了一扇理解人類社會(huì)的新大門。
同時(shí),大數(shù)據(jù)在方法論層面為傳統(tǒng)社會(huì)科學(xué)研究注入了新的活力,即來自計(jì)算科學(xué)的數(shù)據(jù)驅(qū)動(dòng)。如果說傳統(tǒng)的實(shí)證社會(huì)科學(xué)倡導(dǎo)以理論為研究起點(diǎn),那么大數(shù)據(jù)為我們提供了另外一種可能,即基于對(duì)海量數(shù)據(jù)的挖掘去探尋突破人類既有知識(shí)結(jié)構(gòu)的新發(fā)現(xiàn),并在此技術(shù)上發(fā)現(xiàn)和建構(gòu)新理論和新理解[15]。這種方法論上的革新,促使演繹和歸納更為密切地結(jié)合,也使得計(jì)算科學(xué)、數(shù)據(jù)科學(xué)和社會(huì)科學(xué)的聯(lián)系更為緊密。由于該傳統(tǒng)的數(shù)據(jù)生產(chǎn)多來自互聯(lián)網(wǎng),大量研究都圍繞著由互聯(lián)網(wǎng)平臺(tái)衍生的輿論傳播、情感計(jì)算和文化生產(chǎn)等議題展開。此外,數(shù)據(jù)挖掘與數(shù)據(jù)科學(xué)和計(jì)算科學(xué)結(jié)合,也使得計(jì)算社會(huì)科學(xué)可以開展時(shí)間和空間跨度更大的人文和歷史研究。
數(shù)據(jù)挖掘無論在數(shù)據(jù)屬性、分析方法和研究目標(biāo)上都與實(shí)證社會(huì)科學(xué)存在明顯不同。該傳統(tǒng)的分析對(duì)象主要是以文本、圖片、視頻等為形式的非結(jié)構(gòu)化數(shù)據(jù),大部分并不是為研究者而設(shè)計(jì)。雖然它們不是全數(shù)據(jù),在代表性上存在一定的偏差,但不容否認(rèn)的是其維度更高、結(jié)構(gòu)更復(fù)雜。也正是因?yàn)閿?shù)據(jù)挖掘的分析對(duì)象有別于傳統(tǒng)數(shù)據(jù),研究者往往需要借助自然語(yǔ)言處理(包括情感分析、潛在狄利克雷模型等)、圖像識(shí)別、深度學(xué)習(xí)等發(fā)端于計(jì)算科學(xué)的分析工具。在研究目標(biāo)上,大數(shù)據(jù)分析將預(yù)測(cè)置于核心位置,有別于實(shí)證社會(huì)科學(xué)強(qiáng)調(diào)因果解釋的傳統(tǒng)。由于大數(shù)據(jù)不再局限于“觀察”,全息記錄不會(huì)對(duì)非直接關(guān)聯(lián)變量進(jìn)行過早篩選,因此恰恰可以為預(yù)測(cè)提供更全面的基礎(chǔ)信息。加之機(jī)器學(xué)習(xí)強(qiáng)調(diào)偏差與方差的權(quán)衡(bias-variance tradeoff),也使得模型預(yù)測(cè)的穩(wěn)健性得到顯著提升。
計(jì)算社會(huì)學(xué)是計(jì)算社會(huì)科學(xué)的分支。要對(duì)計(jì)算社會(huì)學(xué)進(jìn)行概念界定,首先得從什么是計(jì)算社會(huì)科學(xué)入手。計(jì)算社會(huì)科學(xué)的定義有多種,不同學(xué)科取向的學(xué)者所采取的方式也不盡相同。有學(xué)者認(rèn)為計(jì)算社會(huì)科學(xué)是“以計(jì)算為媒介,以不同規(guī)模的社會(huì)團(tuán)體為著眼點(diǎn),對(duì)社會(huì)學(xué)領(lǐng)域開展的跨學(xué)科研究,其研究對(duì)象小至個(gè)體行動(dòng)者,大到社會(huì)群體”的新領(lǐng)域[16]。有學(xué)者提出,計(jì)算社會(huì)科學(xué)是對(duì)復(fù)雜的,通常是大規(guī)模人類行為數(shù)據(jù)計(jì)算方法的開發(fā)和應(yīng)用[17]。國(guó)內(nèi)學(xué)者指出,計(jì)算社會(huì)科學(xué)的分支學(xué)科主要包括計(jì)算社會(huì)學(xué)、計(jì)算政治學(xué)、計(jì)算經(jīng)濟(jì)學(xué)、計(jì)算傳播學(xué)和計(jì)算法學(xué)及計(jì)算(運(yùn)籌)管理學(xué)等[18],其核心內(nèi)容是關(guān)于人類社會(huì)發(fā)展的各類信息的自動(dòng)化處理,專注于透過行為分析、媒體分析、網(wǎng)絡(luò)分析和對(duì)現(xiàn)實(shí)社會(huì)的典型化事實(shí)分析,借助代碼、算法、程序、建模、模擬等數(shù)字化手段,更深入地觀察探討個(gè)體行為特征與社會(huì)運(yùn)行規(guī)律及二者的互動(dòng)關(guān)系。
按照《布萊克威爾社會(huì)學(xué)百科全書》的定義,計(jì)算社會(huì)學(xué)是“利用計(jì)算機(jī)模擬和人工智能去發(fā)展理論和開展實(shí)證研究的新社會(huì)學(xué)路徑”[19]。大數(shù)據(jù)時(shí)代,新計(jì)算社會(huì)學(xué)被提出,主要是指“利用大數(shù)據(jù)新方法來獲取數(shù)據(jù)與分析數(shù)據(jù),從而研究與解釋社會(huì)的一種新的方式或思維方式”[20]。本文認(rèn)為,計(jì)算社會(huì)學(xué)是以計(jì)算科學(xué)、數(shù)據(jù)科學(xué)等為主要分析工具,將非介入方式收集的大規(guī)模數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)集相結(jié)合,挖掘人類社會(huì)和社會(huì)互動(dòng)的規(guī)則和模式,用以解釋人類行為與社會(huì)運(yùn)行規(guī)律的科學(xué)。毋庸諱言,計(jì)算社會(huì)學(xué)的定義與許多傳統(tǒng)的學(xué)科界定形式不同,給人的印象是邊界不夠明晰,理論性也不夠強(qiáng)。如果構(gòu)建一個(gè)理論(橫坐標(biāo))和計(jì)算(縱坐標(biāo))組成的象限,計(jì)算社會(huì)科學(xué)處于45°角的話,計(jì)算社會(huì)學(xué)將位于40°~45°的夾角之間。其數(shù)據(jù)來源涵蓋了語(yǔ)言、位置與運(yùn)動(dòng)、網(wǎng)絡(luò)、圖像以及視頻等多種內(nèi)容,并應(yīng)用復(fù)雜的算法來識(shí)別數(shù)據(jù)中的多重依賴性。
由于計(jì)算社會(huì)學(xué)也是社會(huì)學(xué)的組成部分,因此總是與“常識(shí)”緊密相連。與物理學(xué)、化學(xué)、生物學(xué)等自然科學(xué)探索人類未知世界一樣,論證常識(shí)也極為重要。因?yàn)橥瑯右粋€(gè)觀點(diǎn)作為常識(shí)和作為理論存在的意義完全不同,不少觀點(diǎn)看上去像是常識(shí),其實(shí)是學(xué)術(shù)研究后產(chǎn)生了常識(shí)的錯(cuò)覺[21]。然而,計(jì)算社會(huì)學(xué)的數(shù)據(jù)收集、數(shù)據(jù)挖掘、算法設(shè)計(jì)、論證過程都遠(yuǎn)比傳統(tǒng)社會(huì)學(xué)復(fù)雜,如果對(duì)邏輯起點(diǎn)和方法局限缺乏充分反思,研究發(fā)現(xiàn)就會(huì)無法超越“常識(shí)”,表現(xiàn)為“酷炫技術(shù),理論貧乏”;如果對(duì)重大的現(xiàn)實(shí)問題缺少關(guān)切,表現(xiàn)為“強(qiáng)解釋,弱預(yù)測(cè)”,則難免落入“計(jì)算社會(huì)學(xué)是個(gè)筐,什么都往里面裝”的批評(píng)之中[22]。以上對(duì)傳統(tǒng)社會(huì)學(xué)似曾相識(shí)的批評(píng),當(dāng)然與計(jì)算社會(huì)學(xué)的學(xué)科使命不符。
20世紀(jì)70—90年代,信息革命使得科學(xué)發(fā)展變得越來越快且越來越復(fù)雜,大工業(yè)和高科技為人類創(chuàng)造了巨大財(cái)富的同時(shí),也產(chǎn)生了貧富差距、社會(huì)沖突、環(huán)境惡化等大量關(guān)乎人類命運(yùn)的重大問題。在這種背景下,各門學(xué)科都開始意識(shí)到自身的相對(duì)性及與其他學(xué)科的密切關(guān)聯(lián)。對(duì)于社會(huì)科學(xué)而言,無論在問題還是在方法維度上都應(yīng)該面向現(xiàn)實(shí),面向其他知識(shí)體系,因此,自然科學(xué)和社會(huì)科學(xué)開始走到一起。
如圖1所示,計(jì)算社會(huì)學(xué)處于自然科學(xué)和社會(huì)科學(xué)之間的連通地帶。它不是傳統(tǒng)意義上以研究對(duì)象、研究問題和研究范疇等為基本內(nèi)容來定義的學(xué)科,而是特別強(qiáng)調(diào)研究方法和研究設(shè)計(jì)的創(chuàng)新。其看似遵循了通常的“某某社會(huì)學(xué)”的命名慣例,但是除了將計(jì)算作為研究對(duì)象,更多的是將計(jì)算作為一種理解人類社會(huì)的工具,因此更適合與定量社會(huì)學(xué)、分析社會(huì)學(xué)等相提并論[22]。
圖1 計(jì)算社會(huì)學(xué)的學(xué)科分類示意[23]
與社會(huì)學(xué)其他分支相比,計(jì)算社會(huì)學(xué)的理論更多來自相鄰分支,而研究方法則從計(jì)算科學(xué)和數(shù)據(jù)科學(xué)遷移而來。在學(xué)科內(nèi)部,計(jì)算社會(huì)學(xué)是一門提供“范式”的學(xué)科,它能夠在方法論和研究方法上開辟新的方向,有助于拆除社會(huì)學(xué)中定性和定量研究之間的藩籬;從經(jīng)濟(jì)社會(huì)學(xué)、組織社會(huì)學(xué)、政治社會(huì)學(xué)等分支學(xué)科汲取理論養(yǎng)分,使學(xué)科內(nèi)部彼此融通;通過多理論整合、多方法融合和多類型數(shù)據(jù)匹配,將傳統(tǒng)社會(huì)學(xué)在數(shù)據(jù)生產(chǎn)上的優(yōu)勢(shì)得以延展。在學(xué)科之間,計(jì)算社會(huì)學(xué)采用人工智能和數(shù)據(jù)挖掘等計(jì)算科學(xué)方法,不局限于總體性思維,在技術(shù)的層面具有天然的開放性和包容性,有助于達(dá)成共識(shí);其同時(shí)重視理論創(chuàng)新和現(xiàn)實(shí)關(guān)懷,既可以與管理學(xué)、新聞傳播等應(yīng)用性強(qiáng)的學(xué)科交叉,也能與哲學(xué)、歷史學(xué)等基礎(chǔ)性學(xué)科交叉。
計(jì)算社會(huì)學(xué)作為一門“范式”型的學(xué)科,至少包括方法論和學(xué)科定位兩個(gè)面向。在方法論層面,歸納和演繹是知識(shí)發(fā)現(xiàn)的基礎(chǔ)。囿于社會(huì)科學(xué)的特殊性,歸納和演繹并不能較好地整合起來。計(jì)算社會(huì)科學(xué)的核心之一是數(shù)據(jù)挖掘,實(shí)際上是一個(gè)知識(shí)發(fā)現(xiàn)的過程,包括理解問題領(lǐng)域、理解數(shù)據(jù)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘、評(píng)估新知識(shí)和使用新知識(shí)等環(huán)節(jié),融合了歸納和演繹兩種研究方法[24]。
由此,計(jì)算社會(huì)學(xué)主要包括兩種:一是理論與數(shù)據(jù)雙向驅(qū)動(dòng)。單純的數(shù)據(jù)驅(qū)動(dòng)是在沒有理論假設(shè)的前提下,通過模式識(shí)別的深度學(xué)習(xí)方法開展分析和研究,從人類行為互動(dòng)數(shù)據(jù)中發(fā)現(xiàn)規(guī)律,進(jìn)而給出合理的理論解釋,難以滿足社會(huì)科學(xué)研究的需要。理論與數(shù)據(jù)雙向驅(qū)動(dòng)是以現(xiàn)實(shí)問題為導(dǎo)向,以社會(huì)科學(xué)相關(guān)領(lǐng)域的理論知識(shí)經(jīng)驗(yàn)為基礎(chǔ),提出理論假設(shè)和研究框架,然后收集適當(dāng)?shù)脑紨?shù)據(jù),并采用適切的分析技術(shù)從中提取信息挖掘知識(shí),然后以科學(xué)可靠的方式運(yùn)用數(shù)據(jù)和知識(shí)來檢驗(yàn)理論假設(shè),最終發(fā)現(xiàn)和揭示人類社會(huì)的規(guī)律[25]。二是理論引導(dǎo)的大數(shù)據(jù)分析。計(jì)算社會(huì)學(xué)把社會(huì)學(xué)理論以及研究方法與大數(shù)據(jù)分析融為一體,為大數(shù)據(jù)分析開啟了許多新議題。一方面,理論指導(dǎo)下的定性、定量調(diào)查可以為數(shù)據(jù)挖掘的結(jié)果提供校準(zhǔn);另一方面,在數(shù)據(jù)挖掘的結(jié)果中也可以找到建構(gòu)理論的線索,提供驗(yàn)證理論的資料,從而指導(dǎo)預(yù)測(cè)模型的建構(gòu),推論并解釋更多的現(xiàn)象[26]。
在學(xué)科定位層面,與傳統(tǒng)社會(huì)學(xué)不同,計(jì)算社會(huì)學(xué)更強(qiáng)調(diào)理論創(chuàng)新與現(xiàn)實(shí)關(guān)懷的結(jié)合,而不滿足于象牙塔。首先是社會(huì)預(yù)測(cè)。傳統(tǒng)的量化實(shí)證研究往往使用全部樣本數(shù)據(jù)來擬合模型,這樣就導(dǎo)致了擬合的模型往往只能代表對(duì)該數(shù)據(jù)集的分析及過度擬合。機(jī)器學(xué)習(xí)可以為社會(huì)科學(xué)處理結(jié)構(gòu)更為復(fù)雜、樣式更加多元的信息內(nèi)容,并生成可供分析的變量形式,從而拓展社會(huì)科學(xué)的研究視界:獲得潛藏指標(biāo)、啟發(fā)理論假說、助力因果推斷、實(shí)現(xiàn)數(shù)據(jù)增生和推動(dòng)理論創(chuàng)新[27]。
其次是整合“解釋—預(yù)測(cè)”。需要承認(rèn)的是,不同類型的學(xué)者在價(jià)值觀上長(zhǎng)期存在分歧。如數(shù)據(jù)科學(xué)家強(qiáng)調(diào)開發(fā)準(zhǔn)確預(yù)測(cè)的模型,不苛求于因果推斷,時(shí)常因?yàn)闊o法解釋而被批評(píng);社會(huì)科學(xué)家則追求對(duì)個(gè)體和集體行為提供合理解釋,以因果機(jī)制為基礎(chǔ),在解釋真實(shí)世界上存在不足。該范式試圖建立一種綜合模型,提倡一個(gè)明確的標(biāo)簽系統(tǒng),用以更清楚地描述個(gè)人的研究貢獻(xiàn),識(shí)別其所屬的象限,倡導(dǎo)開放的科學(xué)實(shí)踐[28]。
最后是社會(huì)干預(yù)。計(jì)算社會(huì)學(xué)有著更強(qiáng)的科學(xué)性和應(yīng)用性傾向,社會(huì)計(jì)算不僅是技術(shù)手段,也是社會(huì)現(xiàn)實(shí)的生成過程。除了能在研制與開發(fā)新型社會(huì)計(jì)算工具中發(fā)揮重要作用,研究計(jì)算與社會(huì)的關(guān)系和有關(guān)計(jì)算/技術(shù)的社會(huì)問題同樣是計(jì)算社會(huì)學(xué)的重要內(nèi)容。在平臺(tái)治理中,社會(huì)干預(yù)可以發(fā)展算法治理、開源平臺(tái)賦能、社會(huì)價(jià)值評(píng)估、企業(yè)社會(huì)工作、平臺(tái)工作參與、規(guī)范制訂和觀念培訓(xùn)等渠道。
計(jì)算社會(huì)學(xué)的研究方法很大程度上受益于計(jì)算社會(huì)科學(xué)。有學(xué)者指出,信息的加工在理解社會(huì)復(fù)雜性方面起到了關(guān)鍵作用,而計(jì)算社會(huì)科學(xué)就是基于一種對(duì)社會(huì)的信息加工范式[16]。目前,計(jì)算社會(huì)科學(xué)已經(jīng)形成了社會(huì)數(shù)據(jù)計(jì)算、互聯(lián)網(wǎng)社會(huì)科學(xué)實(shí)驗(yàn)、社會(huì)模擬三大方法體系[29]。除了社會(huì)模擬屬于計(jì)算社會(huì)科學(xué)的第一傳統(tǒng),其他方法均為第二傳統(tǒng)。其中,社會(huì)數(shù)據(jù)計(jì)算主要集中于數(shù)據(jù)挖掘過程,這種方法背后的計(jì)算思維強(qiáng)調(diào)對(duì)所需優(yōu)化問題的理解,將其分解為不同的任務(wù),最后通過計(jì)算機(jī)的自動(dòng)化實(shí)現(xiàn)這些分解的任務(wù)。社會(huì)數(shù)據(jù)計(jì)算的應(yīng)用場(chǎng)景不僅包括對(duì)大數(shù)據(jù)的清洗(如針對(duì)變量缺失、代表性弱、非結(jié)構(gòu)化等),還涵蓋特征提取、交叉驗(yàn)證、模型校準(zhǔn)等,其基礎(chǔ)是機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)是處理大規(guī)模數(shù)據(jù)和多語(yǔ)義文本的核心,被喻為計(jì)算社會(huì)科學(xué)的元算法[30]。機(jī)器學(xué)習(xí)通常遵循非線性和非參數(shù)方法,而不是預(yù)先限制模型的復(fù)雜性,實(shí)現(xiàn)聚類、分類及預(yù)測(cè)等任務(wù),主要分為監(jiān)督學(xué)習(xí)(supervised learning)與無監(jiān)督學(xué)習(xí)(unsupervised learning)兩種。與傳統(tǒng)統(tǒng)計(jì)模型相比,機(jī)器學(xué)習(xí)模型的復(fù)雜性通過一個(gè)或多個(gè)超參數(shù)進(jìn)行控制,通過交叉驗(yàn)證進(jìn)行選擇,提高預(yù)測(cè)能力,使得它在平均干預(yù)效應(yīng)的因果推斷、項(xiàng)目評(píng)估等方面優(yōu)勢(shì)明顯[31]。深度學(xué)習(xí)是一個(gè)復(fù)雜的機(jī)器學(xué)習(xí)算法,強(qiáng)調(diào)從連續(xù)的“層”中學(xué)習(xí)。機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的最大區(qū)別在于兩者提取特征的方式不同:前者具備自動(dòng)提取抽象特征的能力,而后者大多是手動(dòng)選取特征和構(gòu)造特征。目前,計(jì)算社會(huì)科學(xué)中的算法多為基于機(jī)器學(xué)習(xí)的底層技術(shù),在自然語(yǔ)言處理(NLP)和網(wǎng)絡(luò)科學(xué)等多個(gè)細(xì)分方向上深化和拓展。
互聯(lián)網(wǎng)社會(huì)科學(xué)實(shí)驗(yàn)是將互聯(lián)網(wǎng)平臺(tái)作為一種“實(shí)驗(yàn)室”,運(yùn)用新興的信息技術(shù)作為工具開展隨機(jī)實(shí)驗(yàn)。和實(shí)驗(yàn)室實(shí)驗(yàn)、自然實(shí)驗(yàn)等傳統(tǒng)社會(huì)科學(xué)實(shí)驗(yàn)相比,該方法在樣本代表性、環(huán)境仿真度、條件控制力、可復(fù)制性、主事者偏差、受試者偏差、內(nèi)在效度和外部效度等方面都具有不同程度的優(yōu)勢(shì)[29]。目前,互聯(lián)網(wǎng)實(shí)驗(yàn)在計(jì)算社會(huì)學(xué)中已經(jīng)產(chǎn)生了一些影響力,應(yīng)用主要分為兩大塊:一是通過和線下實(shí)驗(yàn)、自然實(shí)驗(yàn)等傳統(tǒng)實(shí)驗(yàn)結(jié)合,提高因果推斷的內(nèi)外部效率;二是利用互聯(lián)網(wǎng)實(shí)驗(yàn)回應(yīng)大數(shù)據(jù)時(shí)代的一些基礎(chǔ)性命題,如假新聞的傳播、政治極化的擴(kuò)散、音樂產(chǎn)品的成功等。當(dāng)然,互聯(lián)網(wǎng)實(shí)驗(yàn)?zāi)軌蛟谛畔⒓夹g(shù)的更新迭代中得到更廣泛的運(yùn)用,而它在實(shí)驗(yàn)過程的信度和結(jié)果的外部效度上面臨新的不確定性,而且研究倫理如何遵循也還有許多未解。
最后,社會(huì)仿真實(shí)質(zhì)上是在計(jì)算機(jī)中構(gòu)造與現(xiàn)實(shí)世界相對(duì)應(yīng)的人工世界,建立起與真實(shí)系統(tǒng)相對(duì)應(yīng)的平行系統(tǒng),并在人工世界與平行系統(tǒng)中對(duì)現(xiàn)實(shí)復(fù)雜系統(tǒng)進(jìn)行試驗(yàn)性研究[32]。如前文所述,社會(huì)仿真是生成解釋的主要方法。ABM主要包括主體環(huán)境、交互規(guī)則、時(shí)間尺度等基本要素[10]。其早期主要是從概念模型出發(fā),如模型設(shè)置和檢驗(yàn)往往都屬于抽象概念模型,近年來開始注入實(shí)證數(shù)據(jù),即數(shù)據(jù)驅(qū)動(dòng)的自主行動(dòng)者建模(data-driven agent-based modeling)[33]。與國(guó)外相比,社會(huì)仿真在國(guó)內(nèi)計(jì)算社會(huì)學(xué)的應(yīng)用還比較小眾,但已經(jīng)被用來分析技術(shù)擴(kuò)散、集體行動(dòng)和社會(huì)信任等議題,相關(guān)研究呈現(xiàn)增長(zhǎng)態(tài)勢(shì)。在大數(shù)據(jù)時(shí)代,大數(shù)據(jù)、網(wǎng)絡(luò)科學(xué)、實(shí)驗(yàn)開始與ABM融合,成為該方法發(fā)展的新方向。
計(jì)算社會(huì)學(xué)作為計(jì)算社會(huì)科學(xué)的子集,無法逃脫數(shù)據(jù)共享、數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)、倫理遵循、學(xué)術(shù)復(fù)合型人才培養(yǎng)等諸多挑戰(zhàn)。然而,計(jì)算社會(huì)學(xué)還具有社會(huì)學(xué)的基因。費(fèi)孝通在其學(xué)術(shù)生涯的最后一篇長(zhǎng)文《試談擴(kuò)展社會(huì)學(xué)的傳統(tǒng)界限》中強(qiáng)調(diào)了社會(huì)學(xué)“科學(xué)”和“人文”的雙重性格,并指出社會(huì)學(xué)在探索新的領(lǐng)域時(shí),不可避免地要涉及“方法論和方法”的創(chuàng)新。本文將從國(guó)家定位與學(xué)科自覺、定性與定量、抽樣調(diào)查與感應(yīng)器采集之間的內(nèi)在張力等方面歸納計(jì)算社會(huì)學(xué)在中國(guó)發(fā)展可能面臨的挑戰(zhàn)。
中國(guó)社會(huì)學(xué)恢復(fù)以來,始終堅(jiān)持“兩條腿”走路,即遵循學(xué)科發(fā)展規(guī)律不斷建立和健全學(xué)科體系的同時(shí),回應(yīng)重大的理論和現(xiàn)實(shí)問題。與管理學(xué)、經(jīng)濟(jì)學(xué)等其他社會(huì)科學(xué)大類不同,社會(huì)學(xué)是一個(gè)更偏向?qū)ι鐣?huì)現(xiàn)象和社會(huì)過程進(jìn)行后驗(yàn)式解釋的基礎(chǔ)學(xué)科,對(duì)成果的應(yīng)用性和產(chǎn)學(xué)研轉(zhuǎn)換要求略低,學(xué)科評(píng)價(jià)還是以理論創(chuàng)新為主導(dǎo)。然而,在新時(shí)代,國(guó)家對(duì)包括社會(huì)學(xué)在內(nèi)的哲學(xué)社會(huì)科學(xué)界提出了主動(dòng)服務(wù)國(guó)家重大戰(zhàn)略的更高期望,這促使社會(huì)學(xué)學(xué)科必須思考如何增強(qiáng)理論研究與應(yīng)用研究之間的粘性。
計(jì)算社會(huì)學(xué)自提出以來就有著很強(qiáng)的應(yīng)用性底色。以社會(huì)決策為例,傳統(tǒng)的預(yù)測(cè)和決策多依賴于對(duì)常規(guī)性事實(shí)的研究,而計(jì)算社會(huì)學(xué)提供了一個(gè)應(yīng)對(duì)高度復(fù)雜和快速變化環(huán)境的高效能、低成本的新工具[6]。加上社會(huì)學(xué)一直對(duì)風(fēng)險(xiǎn)和不確定性有著很強(qiáng)的理論傳統(tǒng),計(jì)算社會(huì)學(xué)很可能對(duì)決策科學(xué)帶去突破性的變革,使得社會(huì)學(xué)的公共政策影響力更強(qiáng),借此拓展傳統(tǒng)學(xué)科界限。如基于疫情相關(guān)的行政數(shù)據(jù)、輿情數(shù)據(jù)和調(diào)查數(shù)據(jù)進(jìn)行挖掘,使用ABM建模對(duì)疫情防控政策施行的效果進(jìn)行預(yù)測(cè),提升決策的科學(xué)性。
當(dāng)然,計(jì)算社會(huì)學(xué)在學(xué)科拓展的過程中要始終保持理論自覺。在計(jì)算社會(huì)學(xué)中,理論和計(jì)算的關(guān)系不再是單向的指導(dǎo)與被指導(dǎo)關(guān)系,而是雙向促進(jìn)和螺旋上升的過程。理論導(dǎo)向的實(shí)證研究是社會(huì)學(xué)知識(shí)生產(chǎn)的重要方式,這種導(dǎo)向在計(jì)算社會(huì)學(xué)中仍然是成立的。也就是說,理論不是變得不重要,而是要更加強(qiáng)調(diào)理論的意義。如前所述,機(jī)器學(xué)習(xí)是計(jì)算社會(huì)學(xué)的三大方法之一,在數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘和數(shù)據(jù)理解等環(huán)節(jié)都離不開理論。除了數(shù)據(jù)理論和計(jì)算理論,還有社會(huì)理論。
定性和定量研究方法的爭(zhēng)論在國(guó)內(nèi)社會(huì)科學(xué)中較為普遍。由于社會(huì)學(xué)兼具“人文”和“科學(xué)”雙重性格,加上社會(huì)學(xué)在中國(guó)恢復(fù)發(fā)展的特定歷史原因,超越定性與定量之爭(zhēng)的問題相對(duì)突出。雖然兩種研究方法各具優(yōu)勢(shì),但有的研究者為了強(qiáng)調(diào)所用方法的優(yōu)越性和普適性而指責(zé)其他方法的局限性。事實(shí)上,從研究者的角度來看,沒有任何捷徑可以超越該爭(zhēng)論,只有把握多種方法并理解各自的優(yōu)缺點(diǎn),才能夠在面對(duì)具體的研究議題時(shí),恰當(dāng)?shù)剡\(yùn)用不同的方法組合來較好地進(jìn)行回答。
然而,必須指出的是,定性定量之爭(zhēng)實(shí)際上對(duì)學(xué)術(shù)交流、合作乃至學(xué)術(shù)評(píng)價(jià)都產(chǎn)生了直接或間接的影響。相對(duì)來說,以定性研究見長(zhǎng)的學(xué)者更強(qiáng)調(diào)個(gè)體的創(chuàng)造性,從問題提出、資料收集、文本書寫到成果署名,都凸顯“獨(dú)立性”;而量化研究者則更強(qiáng)調(diào)團(tuán)隊(duì)的創(chuàng)造力,利用資料收集、操作化測(cè)量和統(tǒng)計(jì)方法上的開放性和程式化,可以由不同的人在同一框架下通過協(xié)作進(jìn)行知識(shí)生產(chǎn)。前者會(huì)批評(píng)后者除了第一作者均有“掛名”之嫌,研究缺乏“溫度”,而后者批評(píng)前者缺乏合作精神,對(duì)理論有夸大之嫌。根據(jù)筆者的觀察,這種以方法之爭(zhēng)為起點(diǎn)的分野有擴(kuò)散和強(qiáng)化之勢(shì),并且把研究方法等同于技術(shù),造成“術(shù)”與“道”的失衡。
囿于計(jì)算社會(huì)學(xué)天然的量化屬性,也就自然被卷入研究方法之爭(zhēng)。相比于傳統(tǒng)的量化研究,計(jì)算社會(huì)學(xué)的資料收集和分析邊界變得更加模糊,數(shù)據(jù)挖掘的算法不再僅僅是一種簡(jiǎn)單的應(yīng)用,其團(tuán)隊(duì)協(xié)作對(duì)成員的知識(shí)構(gòu)成和規(guī)模都提出了更高的要求。如今,計(jì)算社會(huì)科學(xué)正在引發(fā)數(shù)據(jù)觀念、研究設(shè)計(jì)、模型選擇和推論原則等方面的實(shí)質(zhì)性影響,調(diào)整了社會(huì)科學(xué)研究中依賴?yán)碚摰乃季S定勢(shì)。然而,如果無法超越定性與定量之爭(zhēng),計(jì)算社會(huì)學(xué)的合法性危機(jī)在相當(dāng)長(zhǎng)的時(shí)期內(nèi)都將難以消解。
實(shí)證社會(huì)科學(xué)的發(fā)展離不開數(shù)據(jù)的采集及處理技術(shù)的進(jìn)步。事實(shí)上,社會(huì)學(xué)不僅輸出了許多理解人類社會(huì)的“語(yǔ)法”,也構(gòu)建了以抽樣調(diào)查為核心的研究方法體系,為知識(shí)界生產(chǎn)和積累了大量的高質(zhì)量數(shù)據(jù)。有學(xué)者批評(píng)“讓數(shù)據(jù)自己說話”是一種“狂妄”,不過如何利用數(shù)據(jù)創(chuàng)造新知識(shí),一直是社會(huì)學(xué)家的歷史擔(dān)當(dāng)。然而,作為工業(yè)化產(chǎn)物的社會(huì)調(diào)查,正在受到以感應(yīng)器為基礎(chǔ)設(shè)施的數(shù)據(jù)生產(chǎn)體系越來越多的挑戰(zhàn)。該挑戰(zhàn)除了數(shù)據(jù)規(guī)模,還表現(xiàn)在數(shù)據(jù)顆?;?、測(cè)量效度、觀測(cè)廣度等方面。
與此同時(shí),感應(yīng)器的背后是龐大的算法系統(tǒng)。在算法融合的社會(huì)中,不僅社會(huì)、經(jīng)濟(jì)、政治和科學(xué)之間相互影響,不同層次上運(yùn)行算法的形成也被環(huán)境所塑造。如圖2所示,當(dāng)新開發(fā)的算法引導(dǎo)新的測(cè)量、假設(shè)和理論時(shí),科學(xué)過程就形成了新的算法平臺(tái)。由此,個(gè)體和社會(huì)層面的各種現(xiàn)象都會(huì)受到算法系統(tǒng)的影響,很難將算法和人類行為以及兩者的相互影響完全分離[34]。感應(yīng)器所生產(chǎn)的數(shù)據(jù)并非是為社會(huì)學(xué)研究專門收集的,通過自然語(yǔ)言處理去識(shí)別、轉(zhuǎn)換成結(jié)構(gòu)數(shù)據(jù)的過程中,存在著用算法去挖掘被算法所生產(chǎn)的數(shù)據(jù)的復(fù)雜境遇。
圖2 算法對(duì)社會(huì)的影響示意[35]
總之,面對(duì)以上新變化,探索隨機(jī)抽樣與大數(shù)據(jù)的結(jié)合、傳統(tǒng)測(cè)量與大數(shù)據(jù)測(cè)量的結(jié)合、經(jīng)典理論與大數(shù)據(jù)的結(jié)合等都是非常有效的應(yīng)對(duì)。然而,大數(shù)據(jù)資源壟斷導(dǎo)致數(shù)據(jù)準(zhǔn)入限制成為不爭(zhēng)的事實(shí)。在算法和社會(huì)日益融合的新階段,繼續(xù)采用傳統(tǒng)的數(shù)據(jù)生產(chǎn)手段獲取資料并與大數(shù)據(jù)對(duì)接的思路有著較濃的路徑依賴之嫌。如果社會(huì)學(xué)希望在資料的生產(chǎn)環(huán)節(jié)繼續(xù)發(fā)揮關(guān)鍵作用,就必須進(jìn)行方法和方法論上的創(chuàng)新。那么,計(jì)算社會(huì)學(xué)家是否可以和計(jì)算科學(xué)家類似,建立起屬于自己的數(shù)據(jù)收集感應(yīng)器,并在學(xué)術(shù)共同體探索共享機(jī)制呢?是否可以進(jìn)入算法生產(chǎn)的前端去干預(yù)感應(yīng)器,以克服數(shù)據(jù)準(zhǔn)入問題帶來的相關(guān)研究無法復(fù)制和檢驗(yàn)的困境呢?以上疑問都不失為計(jì)算社會(huì)學(xué)學(xué)者思考和探索的新方向。
西安交通大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版)2022年1期