文/陳茁 陳云松
依托于客觀數(shù)據(jù)和模型的社會學(xué)定量研究對長期根植于邏輯思辨和歷史情境的社會學(xué)傳統(tǒng)研究方法形成了極為重要的補(bǔ)充,伴隨著大型社會調(diào)查的開展和數(shù)據(jù)模型的普及,已成為社會學(xué)研究的重要范式。定量研究原本只是對數(shù)字?jǐn)?shù)據(jù)進(jìn)行分析研究的統(tǒng)稱,但伴隨著范式的固化,特別是定性和定量研究的二元分立,學(xué)術(shù)界逐漸將量化研究自我限定在以演繹法為邏輯、以理論驗證為目的、以統(tǒng)計推論為手段的單一面向,不覺中忽視了數(shù)據(jù)和模型對于直接啟發(fā)理論的價值、歸納邏輯對于定量研究的應(yīng)用可能性。
有沒有一種新的邏輯路徑和模型,能讓定量學(xué)者不僅能進(jìn)行“后置”的科學(xué)檢驗,也能利用數(shù)據(jù)資料直接助產(chǎn)理論假說? 隨著大規(guī)模社會調(diào)查數(shù)據(jù)的日益豐富和機(jī)器學(xué)習(xí)等方法在社會學(xué)中的應(yīng)用,我們已經(jīng)發(fā)現(xiàn)了這種可能。在本文里,我們將提出一種基于大量數(shù)據(jù)和機(jī)器學(xué)習(xí)模型的量化理論生產(chǎn)方法:對于既定的Y和大量的解釋變量X,通過監(jiān)督學(xué)習(xí)方法對一系列X對于Y的預(yù)測能力進(jìn)行量化分析。利用因果關(guān)系和可預(yù)測性之間的邏輯關(guān)聯(lián),我們可以對具有強(qiáng)大預(yù)測力的諸多X 進(jìn)行挖掘和篩選,從而直接助產(chǎn)理論假說,為Y尋找到潛在的具有理論價值的新X,進(jìn)而幫助社會學(xué)家生成、發(fā)展和修正理論。
這一方法雖然是典型的計算社會科學(xué)方法,但其邏輯起點和扎根理論的核心原則有異曲同工之妙:打破理論的先入為主,在不做任何理論假說前提的條件下扎根于數(shù)據(jù)本身,從而打破“演繹—驗證”的邏輯,打通經(jīng)驗研究到理論研究的生成路徑。因此,我們將其命名為“計算扎根”。
近四十年來,定量社會學(xué)研究的基本模式是基于調(diào)查問卷數(shù)據(jù),采用多元模型回歸的方法,對解釋變量是否和被解釋變量存在關(guān)聯(lián)或因果進(jìn)行統(tǒng)計推斷。彭玉生曾形象地把定量研究比作“洋八股文”,也即國內(nèi)外主流社會科學(xué)刊物,都采用了比較標(biāo)準(zhǔn)化的“模板式”格式,按照問題、文獻(xiàn)、假設(shè)、測量、數(shù)據(jù)、方法、分析、結(jié)論八個部分各司其職,環(huán)環(huán)相扣。盡管相關(guān)的環(huán)節(jié)可以合并或細(xì)化,但其基本思路就是對所提出的零假說進(jìn)行證偽。
但檢驗理論并非科學(xué)研究的全部工作。華萊士在《社會學(xué)中的科學(xué)邏輯》中提出“科學(xué)環(huán)”概念,指出社會學(xué)研究是包括理論建構(gòu)和理論檢驗的循環(huán)往復(fù)、螺旋上升、永無止境的過程。很明顯,假設(shè)檢驗的定量范式都集中在科學(xué)環(huán)的右半部分。從理論建構(gòu)到理論檢驗本是一項科學(xué)研究的完整路徑,但伴隨著定量和定性的分野,理論建構(gòu)似乎成了定性研究的專屬使命,而定量研究日益將理論驗證奉為圭臬。這導(dǎo)致了定量研究在科學(xué)發(fā)現(xiàn)之旅中的后置化甚至缺席:量化研究使得現(xiàn)有理論更為精致化了,但卻很少產(chǎn)生新的理論建構(gòu)。
不得不承認(rèn),量化學(xué)者在實際的研究過程中都曾經(jīng)得到過數(shù)據(jù)本身帶來的啟發(fā),只不過很多研究者在從數(shù)據(jù)中得到新發(fā)現(xiàn)后并不會按照真實的研究過程來表述自己的研究,而是通過文獻(xiàn)梳理的方式把自己的發(fā)現(xiàn)“裝扮”成已有的理論假設(shè),然后再按照假設(shè)檢驗的邏輯來證明它。實際上,正如默頓所說,經(jīng)驗研究遠(yuǎn)遠(yuǎn)超出檢驗理論的被動功能,它不僅僅是證實或反駁假設(shè),在塑造理論的發(fā)展上至少執(zhí)行著四個功能:創(chuàng)立、修訂、轉(zhuǎn)變和澄清理論。
計算扎根的思路是打通從數(shù)據(jù)到理論的“逆向”路徑,借助機(jī)器學(xué)習(xí)的預(yù)測能力和可解釋的歸因算法,基于因果是可預(yù)測性的充分不必要條件這一規(guī)律,實現(xiàn)用數(shù)據(jù)來直接生成關(guān)于既定因變量的機(jī)制理論。計算扎根的基本步驟可以由以下六個環(huán)節(jié)組成:
第一步,制定研究問題。根據(jù)社會調(diào)查問卷數(shù)據(jù)指標(biāo),結(jié)合研究興趣和需要來確定研究對象Y。
第二步,準(zhǔn)備高維數(shù)據(jù)。社會調(diào)查數(shù)據(jù)往往是高維的,變量有上百個甚至更多。這些大量的指標(biāo),每一個都可能是潛在的Y的因,也即蘊(yùn)含了扎根結(jié)果的可能性。
第三步,開展社會預(yù)測。使用監(jiān)督學(xué)習(xí)的方法訓(xùn)練Y的預(yù)測模型。只要能達(dá)到相對較好的預(yù)測效果,不必拘泥于算法是否復(fù)雜以及是否可解釋。
第四步,比較預(yù)測能力。依賴機(jī)器學(xué)習(xí)模型的可解釋性算法,對預(yù)測生成的黑盒模型進(jìn)行歸因分析,根據(jù)X對Y的預(yù)測力排序?qū)ふ铱赡艿囊?。其基本思路是:打亂某些特征X是否影響模型預(yù)測的準(zhǔn)確率,改變特征將如何影響預(yù)測結(jié)果。
第五步,尋找潛在理論。根據(jù)一組按照預(yù)測力排序的X,尋找以往研究未曾涉及的社會關(guān)聯(lián)。可以依據(jù)潛在關(guān)系模式將它們與既有研究比照,驗證或澄清理論;亦可以對相似的解釋項進(jìn)行歸類,抽象出概念或歸納理論命題。
第六步,補(bǔ)充交叉驗證。驗證計算扎根結(jié)果的穩(wěn)健性和理論假說的適用性。嘗試使用不同數(shù)據(jù)、其他機(jī)器學(xué)習(xí)和歸因算法對同一個因變量進(jìn)行計算扎根,也可以對生成理論推導(dǎo)出的其他假說進(jìn)行再檢驗,相互驗證完成科學(xué)環(huán)閉環(huán)。
作為理論生產(chǎn)方法的計算扎根理論,有著清晰的邏輯基礎(chǔ)。對于計算扎根理論而言,其邏輯前提主要是兩個方面:
1.扎根理論的歸納邏輯。扎根理論主張以逐級歸納的方法從經(jīng)驗材料中直接創(chuàng)造出理論,再將其與現(xiàn)有理論和研究相比照。避免在研究開始前就有先入為主的觀念或猜想是確?!霸庇行У闹匾瓌t。值得一提的是,創(chuàng)立者格拉澤強(qiáng)調(diào)扎根理論是一種普適的方法論,既適用于質(zhì)性資料,也適用于定量數(shù)據(jù),兩者對理論的產(chǎn)生和驗證都是有幫助的。但隨著扎根理論的實際發(fā)展,人們發(fā)現(xiàn)它似乎還是更適合做質(zhì)性研究。其原因不難理解:質(zhì)性資料的深度和可解讀性往往更有利于運用社會學(xué)想象力直接提出理論假說,而定量數(shù)據(jù)作為一種數(shù)值指標(biāo)具有高度簡化的抽象特征,其內(nèi)在的數(shù)理統(tǒng)計關(guān)聯(lián)難以通過直觀的方式加以發(fā)現(xiàn)。
2.因果關(guān)系的可預(yù)測邏輯。社會現(xiàn)象之間的可預(yù)測性和因果機(jī)制是兩個不同但又高度關(guān)聯(lián)的范疇。計算扎根方法的邏輯基礎(chǔ)之一就是充分地運用預(yù)測和因果之間的重要關(guān)系,也即因果是預(yù)測的充分而非必要條件。這意味著,如果一個X可以很好地預(yù)測Y,那么X的確可能構(gòu)成Y的原因。雖然這一關(guān)系只是可能而非必然,但其構(gòu)成因果的概率總比不具備預(yù)測性的關(guān)聯(lián)要高得多。在社會學(xué)家逐漸把學(xué)科旨趣壓縮到兩兩變量的分析而放棄社會預(yù)測的大背景下,以機(jī)器學(xué)習(xí)的預(yù)測力來推動理論的生產(chǎn)對于定量研究具有重要意義。
計算扎根允許幾十、上百甚至上千個變量的互動,其通過對算法模型的相關(guān)特征值的預(yù)測力進(jìn)行比較,比通過個人思維靈感來發(fā)現(xiàn)理論的過程要穩(wěn)定和可靠得多。其具體的方法實現(xiàn)過程包括社會預(yù)測和預(yù)測力比較兩個方面。
1.社會預(yù)測:運用監(jiān)督學(xué)習(xí)的算法模型擬合
著名統(tǒng)計學(xué)家布雷曼曾將統(tǒng)計建模方法分為兩種取向:一是數(shù)據(jù)模型,二是算法模型。數(shù)據(jù)模型事先假定數(shù)據(jù)服從某個函數(shù)分布f(x),然后對事先假定的f(x)的參數(shù)進(jìn)行擬合估計。當(dāng)前社會和行為科學(xué)中廣泛采用數(shù)據(jù)模型的思維方式,強(qiáng)調(diào)理想化模型中的特定系數(shù)是否具有統(tǒng)計顯著性以及影響的方向。但數(shù)據(jù)模型存在兩個明顯的問題:第一,為擬合特定參數(shù)模型,數(shù)據(jù)必須滿足一定的假定。而現(xiàn)實社會復(fù)雜多樣,要求數(shù)據(jù)滿足嚴(yán)格假設(shè)未免過于苛刻。第二,結(jié)論是關(guān)于模型的機(jī)制而非關(guān)于事實的機(jī)制。將簡單的參數(shù)模型強(qiáng)加于復(fù)雜系統(tǒng)生成的數(shù)據(jù)之上,會導(dǎo)致準(zhǔn)確性和關(guān)鍵信息的損失。
另一種取向,算法模型不假定數(shù)據(jù)的任何分布特征,旨在找到一個函數(shù)g(x),通過g(x)可以對Y進(jìn)行預(yù)測。算法模型往往采用非線性、非參數(shù)方法,通過一個或多個超參數(shù)來調(diào)整模型的復(fù)雜性。其對數(shù)據(jù)復(fù)雜性的尊重使得被分析的數(shù)據(jù)可以服從任意分布,而不需要滿足任何假設(shè)條件。我們認(rèn)為,這種解放將至少從兩個方面提高生產(chǎn)理論的能力。第一,滿足真實社會過程中的非線性數(shù)據(jù)關(guān)系。大部分機(jī)器學(xué)習(xí)擬合過程不需要滿足既有的函數(shù)設(shè)定,而是以追求預(yù)測準(zhǔn)確性為最高宗旨。第二,滿足真實社會過程中的高維復(fù)雜數(shù)據(jù)關(guān)系。通過在單個學(xué)習(xí)模型中同時考慮數(shù)千個不同的因素和各種復(fù)雜的交互作用模式,納入更多潛在的“因”,發(fā)現(xiàn)新的解釋維度的可能性也就更大。
2.預(yù)測力比較:解決黑箱模型可解釋性的歸因算法
盡管機(jī)器學(xué)習(xí)打破了以往統(tǒng)計模型的種種預(yù)設(shè)限制,帶來了數(shù)據(jù)生產(chǎn)力的解放,更好地模擬了事物的真實狀態(tài),但它最廣為詬病的問題則在于其“黑箱過程”導(dǎo)致無法解釋。但較新的機(jī)器學(xué)習(xí)文獻(xiàn)中越來越多的證據(jù)表明,預(yù)測準(zhǔn)確性和可解釋性之間的矛盾并沒有想象的那么嚴(yán)重。隨著對復(fù)雜模型可解釋性的迫切需求,越來越多“拆解黑箱”的方法得以發(fā)明且獲得了成熟應(yīng)用,如基于聯(lián)盟博弈理論分配變量貢獻(xiàn)的SHAP方法;通過比較置換某列特征前后模型預(yù)測誤差的變化來衡量該特征的重要程度的置換特征重要性方法;通過對一個特征反復(fù)修改,建構(gòu)出本不存在的事實狀態(tài)并再次預(yù)測,比較前后預(yù)測結(jié)果差異的部分依賴圖方法;等等。這些方法的創(chuàng)立和成熟為重新平衡預(yù)測的準(zhǔn)確性與可理解性提供了可能,為計算扎根奠定了堅實的方法基礎(chǔ)。
我們以“主觀幸福感”為例展示計算扎根如何助力于幸福感理論的啟發(fā)和澄清。本案例使用的數(shù)據(jù)為中國綜合社會調(diào)查(CGSS)2017年數(shù)據(jù),本研究的被預(yù)測變量為“總的來說,您覺得生活是否幸?!?,預(yù)測變量為問卷中除被預(yù)測變量以外的其他所有變量。
分析結(jié)果顯示,問卷的所有變量中,對幸福感預(yù)測最大的特征是公平感,SHAP值約為1.4,其次是健康程度。為便于歸納,我們按照變量含義的相似性將幸福感最主要的影響維度歸納為五個方面。(1)主觀認(rèn)知:公平感、信任感;(2)主客觀地位:自我階層定位、10 年后自我階層預(yù)期、當(dāng)?shù)丶彝ルA層定位、自評社會經(jīng)濟(jì)地位、住房面積;(3)人口學(xué)和健康因素:健康程度、出生年、健康影響;(4)婚姻家庭:配偶同住、配偶工作小時、配偶年收入、夫妻應(yīng)分擔(dān)家務(wù);(5)生活方式:休息放松、看電視、聽音樂、每周工作時間。理論上我們可以針對所有范疇進(jìn)行層層歸納,抽象出更高層次的概念和關(guān)于幸福感的總體理論模型;也可以針對以往研究未曾關(guān)注的某一變量或某一具體維度作更深層次的挖掘和比較,探尋共同因素和共變規(guī)律,歸納出微觀層面的理論假說。
根據(jù)分析計算扎根結(jié)果我們發(fā)現(xiàn),“配偶每周工作小時”這一變量排在預(yù)測的第9位,但既往研究卻沒有充分關(guān)注。我們將兩者的關(guān)系表述為一個新的經(jīng)驗命題:配偶工作時間會影響另一半的主觀幸福感。由于命題還沒有在現(xiàn)象和本質(zhì)之間建立起一種基于因果的理性認(rèn)識,我們可以進(jìn)一步通過虛假相關(guān)的排除和因果關(guān)系的確立、相關(guān)范疇的歸納與概念提煉、與既有理論的對話和邏輯推導(dǎo)、總結(jié)理論命題并使用其他數(shù)據(jù)方法進(jìn)行再驗證等步驟相互補(bǔ)充,以填補(bǔ)命題到理論的鴻溝,并增加理論的科學(xué)性。
除了新理論命題的發(fā)現(xiàn),計算扎根還可以通過探究復(fù)雜關(guān)系的多元模式來實現(xiàn)理論的精細(xì)化發(fā)展。例如,計算扎根的結(jié)果顯示,自我階層認(rèn)知與幸福感的關(guān)系呈“梯”狀分布,也即存在關(guān)鍵轉(zhuǎn)折點;收入與幸福感的關(guān)系呈“廠”字形分布,也即服從邊際效益遞減;年齡與幸福感的關(guān)系呈“谷”狀分布,即中年人幸福感低,青年人和老年人幸福感高;家人交流時間與幸福感的關(guān)系呈“峰”狀分布,即家人相處距離需恰到好處。計算扎根可以充分捕捉變量之間的非線性關(guān)系,同時可以呈現(xiàn)不同群體或個體的同質(zhì)異質(zhì)效應(yīng)等。
計算扎根對傳統(tǒng)定量研究的補(bǔ)充是多方面的。在數(shù)據(jù)層面,模型納入的指標(biāo)不再僅限于有限的幾個變量,而是盡可能地納入各類指標(biāo);在目標(biāo)層面,不再強(qiáng)調(diào)模型系數(shù)的統(tǒng)計顯著性,而是重新平衡社會預(yù)測的準(zhǔn)確性和機(jī)制的可解釋性;在觀察視野層面,不再局限于回歸系數(shù)大小和方向,而是細(xì)致挖掘變量間的非線性關(guān)系和群體異質(zhì)效應(yīng)。這些革新能夠為計算扎根方法帶來多方面的價值。
(一)理論創(chuàng)生價值:發(fā)現(xiàn)潛在模式。只要數(shù)據(jù)本身足夠豐富,計算扎根就能引導(dǎo)研究者通過發(fā)現(xiàn)新的解釋變量啟發(fā)新理論假說。通過一次計算扎根,我們就能夠?qū)φ麄€調(diào)查數(shù)據(jù)的上百個指標(biāo)進(jìn)行篩選比較。
(二)理論發(fā)展價值:捕捉復(fù)雜關(guān)系。真實社會中數(shù)據(jù)的兩兩關(guān)系遠(yuǎn)沒有我們預(yù)期得那么整齊劃一。計算扎根方法能充分捕捉變量之間的復(fù)雜關(guān)系,解放傳統(tǒng)計量模型的線性枷鎖。
(三)學(xué)科范式價值:第二種想象力。米爾斯的社會學(xué)想象力是基于個人體驗的視角提升的思維,而計算扎根則提供了一種基于數(shù)據(jù)的以算法模型來直接助產(chǎn)理論的思維能力。
(四)知識體系價值:自主知識生產(chǎn)。有更多的新理論假說可以從大量數(shù)據(jù)中得到啟發(fā)、更細(xì)微的機(jī)制和關(guān)系特征可以被同時發(fā)現(xiàn),進(jìn)行系統(tǒng)化知識生產(chǎn)。
(五)社會治理價值:尋找干預(yù)因素。計算扎根通過立足于社會預(yù)測的問題導(dǎo)向,不斷模擬本身不存在的社會現(xiàn)象,能為社會治理找出關(guān)鍵干預(yù)變量。