陳云松,張亮亮,閔尊濤,張柏楊
(南京大學(xué) 社會(huì)學(xué)院,江蘇 南京 210093)
?
大數(shù)據(jù)機(jī)遇與宏觀定量社會(huì)學(xué)的重啟
陳云松,張亮亮,閔尊濤,張柏楊
(南京大學(xué) 社會(huì)學(xué)院,江蘇 南京 210093)
在社會(huì)科學(xué)定量研究領(lǐng)域,按照因變量(Y)和自變量(X)所在的社會(huì)結(jié)構(gòu)層級(jí),可以將相關(guān)研究劃分為四個(gè)層次:第一,因變量(Y)和自變量(X)均處于微觀個(gè)體層次的“微觀定量社會(huì)學(xué)”,旨在研究個(gè)體的屬性對(duì)個(gè)體結(jié)果的影響。第二,因變量(Y)處于微觀個(gè)體層次,自變量(X)處于宏觀群體層次,旨在分析社會(huì)群體的結(jié)構(gòu)對(duì)個(gè)體結(jié)果的影響。盡管這是一種跨層次的研究,但借用默頓的中層理論的概念,可以將該層次的研究理解為“中層定量社會(huì)學(xué)”中的“社會(huì)化”(Socialization)分析。第三,因變量(Y)處于宏觀群體層次,自變量(X)處于微觀個(gè)體層次,這實(shí)際是“中層”研究的另外一種形式,可以稱為“中觀定量社會(huì)學(xué)”的“躍遷”(Emergence)分析。第四,因變量(Y)和自變量(X)均處于宏觀群體層次,可以稱之為“宏觀定量社會(huì)學(xué)”。
以“收入對(duì)幸福感的影響”為例,我們來簡(jiǎn)單闡述一下這四種層次的定量社會(huì)學(xué)。第一種層次的微觀研究,聚焦于“個(gè)體收入影響個(gè)體的幸福感”這樣的假說或命題,而第二種層次的社會(huì)化研究,則試圖探究“城市的收入不平等影響個(gè)體幸福感”。實(shí)際上,前兩種層次的定量社會(huì)學(xué)分析,都屬于目前社會(huì)學(xué)領(lǐng)域的主流研究范式,有著較為成熟的數(shù)據(jù)基礎(chǔ)和模型方法。其數(shù)據(jù)往往多采用問卷調(diào)查來獲得,通過計(jì)量模型的設(shè)定來對(duì)數(shù)據(jù)進(jìn)行回歸擬合,得出變量之間的統(tǒng)計(jì)關(guān)聯(lián),最終由這個(gè)樣本統(tǒng)計(jì)結(jié)果推斷總體的相關(guān)特征。目前,影響這兩個(gè)層次分析的主要瓶頸,是非實(shí)驗(yàn)設(shè)計(jì)所導(dǎo)致的內(nèi)生性問題。但通過信息量更大的數(shù)據(jù)和高級(jí)計(jì)量模型,這一問題可以得到一定的緩解。
第三個(gè)層次的中層定量社會(huì)學(xué)的躍遷分析,則關(guān)心的是“個(gè)體收入如何影響城市總體幸福感”這樣的問題。從回歸分析的角度這類命題,我們往往無法直接加以解決,但計(jì)算社會(huì)學(xué)所從事的基于主體的仿真建模、分析社會(huì)學(xué)(Analytical Sociology)所倡導(dǎo)的基于主體的實(shí)證校準(zhǔn)仿真建模,是主要的方法。該層次研究的邏輯淵源,來自韋伯的早期論述:社會(huì)學(xué)家不能滿足于群聚層次的相關(guān)(aggregate correlation),而應(yīng)該著眼于可理解的個(gè)人行為來進(jìn)行解釋,即要實(shí)現(xiàn)從微觀向宏觀的躍遷[1]。不過,無論是科爾曼還是默頓,都認(rèn)為這是社會(huì)學(xué)研究的一個(gè)難點(diǎn)。例如,師承默頓的赫斯特洛姆首倡分析社會(huì)學(xué),提議研究“在過去的行動(dòng)所導(dǎo)致的社會(huì)條件下,不斷和他人互動(dòng)的個(gè)體行動(dòng)如何產(chǎn)生大規(guī)模的社會(huì)現(xiàn)象”[2]。其主要方法,就是建立虛擬的社會(huì)學(xué)實(shí)驗(yàn)室,在實(shí)證數(shù)據(jù)校正的基礎(chǔ)上,用多主題仿真建模,來分析社會(huì)系統(tǒng)從微觀到宏觀的躍遷與涌現(xiàn)過程[3]。
第四個(gè)層次的定量社會(huì)學(xué),則關(guān)注群體屬性和群體結(jié)果的關(guān)聯(lián),關(guān)注類似“城市收入不平等影響城市總體幸福感”這樣的問題。在質(zhì)性研究或者理論研究領(lǐng)域,以及社會(huì)學(xué)量化方法誕生之初,這種解釋模式并無模型。但目前仍然從事該研究的社會(huì)學(xué)定量學(xué)者非常少。特別是相對(duì)于近三十年來微觀定量社會(huì)學(xué)的突飛猛進(jìn),宏觀定量社會(huì)學(xué)的發(fā)展明顯滯后。一方面,這是因?yàn)椤吧鷳B(tài)謬誤”(ecological fallacy)的歷史挑戰(zhàn),導(dǎo)致20世紀(jì)70年代之后的社會(huì)學(xué)家較少進(jìn)行宏觀層次的量化分析(注意,理論學(xué)者和質(zhì)性研究學(xué)者更無法面對(duì)“生態(tài)謬誤”的邏輯挑戰(zhàn))。另一方面,或許是更為重要的,社會(huì)學(xué)所關(guān)注的指標(biāo),在宏觀層次上往往難以測(cè)量,較難發(fā)展出學(xué)科公認(rèn)的成熟有效的測(cè)量指標(biāo)。特別是,宏觀分析往往關(guān)注較長(zhǎng)的歷史跨度、較大的地理跨度。社會(huì)學(xué)基于“人”和“人群”的宏觀指標(biāo),既難有客觀測(cè)度,更難以像經(jīng)濟(jì)學(xué)基于“經(jīng)濟(jì)現(xiàn)象”的宏觀指標(biāo)那樣,有專業(yè)的國(guó)家機(jī)構(gòu)來統(tǒng)計(jì)梳理。比如,宏觀經(jīng)濟(jì)學(xué)者常常能夠利用多國(guó)或某一國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行時(shí)間序列或面板數(shù)據(jù)分析,但統(tǒng)計(jì)部門對(duì)于“人”的現(xiàn)象的數(shù)據(jù),一般不加以關(guān)注。也因此,宏觀社會(huì)學(xué)定量分析往往是無米之炊。
重要的是,“生態(tài)謬誤”完全不意味著宏觀層次的研究是冗余的。恰恰相反,當(dāng)個(gè)體層次的實(shí)證研究已經(jīng)有了幾十年的豐富積累,我們應(yīng)該認(rèn)識(shí)到,在群體層次上的宏觀定量研究必須提上議事日程以獲得相稱的發(fā)展。因?yàn)橹挥袑⑽⒂^與宏觀層次的定量分析結(jié)果進(jìn)行比對(duì)和對(duì)差異的分析解釋,我們才能更好地理解社會(huì)現(xiàn)象形成的個(gè)體基礎(chǔ)和躍遷過程,發(fā)現(xiàn)各個(gè)領(lǐng)域可能存在的“生態(tài)謬誤”的機(jī)制所在:其實(shí),“生態(tài)謬誤”并非“謬誤”,只是不同層次上的“人”和“人群”現(xiàn)象的差異。幸運(yùn)的是,大數(shù)據(jù)的出現(xiàn),將可能改變當(dāng)代社會(huì)學(xué)定量研究中重個(gè)體與輕群體的分析層次鴻溝,為發(fā)展滯后由來已久的宏觀定量社會(huì)學(xué)提供了相當(dāng)寶貴也非常及時(shí)的機(jī)遇。這是因?yàn)?,大?shù)據(jù)可以為研究者提供過去無法測(cè)量甚至難以想象的宏觀變量,為過去只能想象甚至無法想象的宏觀層次定量研究,帶來了空前的可能。國(guó)內(nèi)學(xué)者近期的系列大數(shù)據(jù)社會(huì)學(xué)定量研究,實(shí)際已經(jīng)走在了國(guó)際社會(huì)學(xué)的前列,并充分顯示出這一領(lǐng)域的潛力。在本文中,我們將回顧宏觀定量社會(huì)學(xué)的衰落原因,并梳理大數(shù)據(jù)為重啟宏觀定量社會(huì)學(xué)所能帶來的三大機(jī)遇。
早期社會(huì)學(xué)極端重視對(duì)宏觀現(xiàn)象的研究,理論、質(zhì)化研究與量化分析的開山鼻祖?zhèn)兌疾焕狻o論是凃爾干對(duì)歐洲不同國(guó)家自殺率與社會(huì)整合的分析[4],還是韋伯關(guān)于新教倫理與資本主義精神的經(jīng)典研究[5],都是基于宏觀層次的社會(huì)學(xué)思考和數(shù)據(jù)梳理。這些早期的巨著,為社會(huì)學(xué)作為一門年輕學(xué)科提供了基本的方法和理論范式。而進(jìn)入社會(huì)學(xué)學(xué)科發(fā)展的現(xiàn)代時(shí)期,理論流派林林總總,包括帕森斯等人的結(jié)構(gòu)功能主義、科塞等人的社會(huì)沖突論、馬爾庫(kù)塞等人的批判理論等等,也都將各自的理論視角對(duì)準(zhǔn)宏觀層次的社會(huì)及其相應(yīng)系統(tǒng),提出了眾多影響深遠(yuǎn)的理論觀點(diǎn)。而當(dāng)量化分析的大潮在20世紀(jì)中期開始襲來之時(shí),學(xué)者們的突破口也自然是對(duì)社會(huì)群體層次的數(shù)據(jù)進(jìn)行搜集整理和展示分析。
其實(shí),早在1939年,美國(guó)心理學(xué)家桑代克(Thorndike)就已經(jīng)在美國(guó)心理學(xué)雜志(AJP)以《在計(jì)算群體和組成它的更小群體或個(gè)體相關(guān)性方面的謬誤》為題撰文,批評(píng)當(dāng)時(shí)心理學(xué)界忽視研究數(shù)據(jù)的層次,而輕易將群體層面獲得的相關(guān)推斷到個(gè)體層面的相關(guān)的現(xiàn)象[6]。在社會(huì)學(xué)界最早對(duì)這一邏輯誤區(qū)進(jìn)行的完整論述來自于美國(guó)社會(huì)學(xué)家羅賓遜(Robinson)于1950年在美國(guó)社會(huì)學(xué)評(píng)論(ASR)上的《生態(tài)關(guān)聯(lián)與個(gè)體行為》一文。該文集中關(guān)注文盲率和移民人口數(shù)量的關(guān)系。結(jié)果發(fā)現(xiàn),從州的層次來看,一個(gè)州的移民人口比例越高,其文盲率越低。但在個(gè)體層次,移民人口比本地居民文盲率更高,也就是說移民人口更可能是文盲[7]。羅賓遜由此提醒不能輕易地從總體層次或生態(tài)學(xué)數(shù)據(jù)研究中而做出個(gè)體層次的結(jié)論。緊接著,塞爾文(Selvin)于1958年最早提出“生態(tài)謬誤”的概念,他在一篇研究涂爾干自殺論的文章中指出,涂爾干關(guān)于自殺的研究方法存在生態(tài)學(xué)謬誤,群體層次的相關(guān)并不能解釋個(gè)體層次財(cái)富和自殺的關(guān)系,因而其將群體層次的數(shù)據(jù)運(yùn)用于推斷個(gè)體行為是存在謬誤的[8]。
“生態(tài)謬誤”的提出,給學(xué)界特別是社會(huì)學(xué)界帶來了一系列的挑戰(zhàn):1950年以前,社會(huì)學(xué)經(jīng)常使用匯總數(shù)據(jù)、以地區(qū)為單位來做研究。但是,在發(fā)現(xiàn)匯總數(shù)據(jù)可能帶來“生態(tài)謬誤”之后,基于韋伯提出的用可理解的個(gè)人行為來進(jìn)行解釋群體現(xiàn)象的學(xué)科傳統(tǒng),社會(huì)學(xué)家們開始了一輪向個(gè)人和家庭數(shù)據(jù)的華麗轉(zhuǎn)身,投入到更“個(gè)人化”的數(shù)據(jù)中去[9],這在社會(huì)學(xué)界被稱為“調(diào)查革命”。巧的是,“調(diào)查革命”出現(xiàn)后的幾十年,恰逢調(diào)查問卷技術(shù)迅速發(fā)展、個(gè)體數(shù)據(jù)積累不斷加快和微觀計(jì)量模型迅速發(fā)展的歷史關(guān)口。于是,社會(huì)學(xué)領(lǐng)域的定量學(xué)者在微觀數(shù)據(jù)搜集和分析方面突飛猛進(jìn),而在宏觀層次社會(huì)現(xiàn)象數(shù)據(jù)搜集和分析方面則相對(duì)止步。盡管“調(diào)查革命”從數(shù)據(jù)層次的角度回應(yīng)了“生態(tài)謬誤”所帶來的挑戰(zhàn),但并沒有致力于對(duì)比和分析個(gè)體與群體現(xiàn)象這一重要學(xué)科歷史使命,甚至帶來了對(duì)宏觀定量分析的停滯不前,使得一些重大、經(jīng)典的理論問題難以得到實(shí)證檢驗(yàn)。由于這種“矯枉過正”,自20世紀(jì)60年代以來,隨著時(shí)間的推移,整個(gè)社會(huì)學(xué)界也似乎已經(jīng)開始進(jìn)入了某種“后大理論”時(shí)代[10]。
對(duì)于社會(huì)學(xué)研究而言,目前從可用大數(shù)據(jù)的來源看主要是數(shù)量級(jí)以千億詞匯、萬億字節(jié)的數(shù)字化書籍、媒體、語料庫(kù)、視頻庫(kù)、互聯(lián)網(wǎng)文本、搜索引擎記錄以及臉書、微博、微信等當(dāng)代自媒體平臺(tái)[11]。國(guó)內(nèi)學(xué)者利用谷歌數(shù)字化圖書大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)等,在學(xué)科發(fā)展、階級(jí)階層、文化傳播、文化遺產(chǎn)研究、城市發(fā)展等方向率先形成了一批實(shí)證研究成果。我國(guó)一批期刊,如《社會(huì)學(xué)研究》《社會(huì)》《學(xué)術(shù)論壇》等刊物率先刊登了基于大數(shù)據(jù)的實(shí)證應(yīng)用定量分析文章。南京大學(xué)、武漢大學(xué)、中山大學(xué)、復(fù)旦大學(xué)等社會(huì)學(xué)系科均率先形成了各自的研究團(tuán)隊(duì)。從學(xué)科發(fā)展看,大數(shù)據(jù)的適時(shí)出現(xiàn),為我們重啟宏觀定量社會(huì)學(xué)提供了新的數(shù)據(jù)源。而這種數(shù)據(jù)源,進(jìn)一步形成了宏觀定量社會(huì)學(xué)發(fā)展的三大機(jī)遇:理論發(fā)展機(jī)遇、領(lǐng)域拓展機(jī)遇和方法延展機(jī)遇。
1.理論發(fā)展機(jī)遇。社會(huì)學(xué)的眾多理論都可以溯源到少數(shù)典范性的學(xué)說,雖然這些經(jīng)典學(xué)說通常立足宏觀層面去描繪和理解社會(huì)結(jié)構(gòu)及變遷,但是宏大理論卻難以解釋經(jīng)驗(yàn)的現(xiàn)實(shí)問題。由于理論的宏觀性、復(fù)雜性和傳統(tǒng)資料采集方式獲得經(jīng)驗(yàn)材料的有限性,傳統(tǒng)抽樣方法往往無法在經(jīng)驗(yàn)層面上對(duì)這些理論進(jìn)行檢驗(yàn)。但大數(shù)據(jù)能夠在宏大理論和經(jīng)驗(yàn)研究間架起一座橋梁,利用其以實(shí)證資料超大的規(guī)模和時(shí)空跨度,為研究者提供具有重要價(jià)值的分析手段,進(jìn)而改變非宏大理論的式微,為學(xué)界審視經(jīng)典理論甚至構(gòu)建新的理論成為可能。
以經(jīng)典的馬克思主義理論為例,使用大數(shù)據(jù)能夠?qū)︸R克思理論的跨歷史、跨國(guó)別解釋力提供重要的證據(jù)和觀點(diǎn)拓展。例如,陳云松和嚴(yán)飛等在美國(guó)《社會(huì)科學(xué)研究》(Social Science Research)雜志發(fā)表了關(guān)于20世紀(jì)美國(guó)社會(huì)公眾階級(jí)意識(shí)和宏觀經(jīng)濟(jì)的量化研究[12]。作者基于谷歌圖書的海量語料庫(kù),對(duì)1900年—2000年這100年間,美國(guó)出版的書籍中“階級(jí)/階層”相關(guān)詞匯的提及進(jìn)行提取,構(gòu)建出橫跨百年的美國(guó)社會(huì)公眾階級(jí)關(guān)注度的指數(shù),并將其與基尼系數(shù)、通貨膨脹率和失業(yè)率等指標(biāo)進(jìn)行時(shí)間序列分析。研究結(jié)果表明,20世紀(jì)美國(guó)的收入不公平(基尼系數(shù))本身不影響社會(huì)的階級(jí)意識(shí),但通貨膨脹和失業(yè)等經(jīng)濟(jì)現(xiàn)象則會(huì)產(chǎn)生階級(jí)意識(shí)效應(yīng)。究其原因,可能在于人們對(duì)全社會(huì)收入不平等的感知,不如對(duì)和自身直接相關(guān)的失業(yè)率、通貨膨脹等那么敏感直接。該發(fā)現(xiàn)用跨度百年的大數(shù)據(jù)和以前無法獲得的階級(jí)關(guān)注度指標(biāo)來證實(shí)相關(guān)的經(jīng)典理論,不僅是研究方法上的突破,實(shí)際上是對(duì)階級(jí)意識(shí)理論在20世紀(jì)發(fā)達(dá)國(guó)家的拓展應(yīng)用,展示了馬克思經(jīng)典理論的當(dāng)代解釋力。
再如,基于曼海姆的代際社會(huì)學(xué),周曉虹早在20世紀(jì)80年代提出了經(jīng)典的“文化反哺理論”。無論是代際傳播還是“文化反哺”,文化傳播的跨度都以生理的“代際”來衡量。而最新的宏觀定量社會(huì)學(xué)研究提出,當(dāng)代社會(huì)的反向社會(huì)化模式,已從“代際反哺”主導(dǎo)變?yōu)椤按H反哺”與“非代際反授”并存的格局[13]。“非代際文化反授”主要指文化傳授者雖比學(xué)習(xí)者年輕,但不再有家庭子代親代或?qū)W校師生關(guān)系式的代際年齡差異。其具有年齡差距縮小化、空間距離擴(kuò)大化、社會(huì)關(guān)系多元化、施受身份瞬時(shí)化、傳播內(nèi)容選擇化和變遷條件虛置化等六大特征。之所以能對(duì)“文化反哺”這類大理論進(jìn)行驗(yàn)證和延伸,主要就是因?yàn)榇髷?shù)據(jù)分析可以為測(cè)量文化、測(cè)量傳播提供了強(qiáng)有力的數(shù)據(jù):作者以自媒體平臺(tái)上的網(wǎng)絡(luò)熱詞使用者作為傳授方,以網(wǎng)絡(luò)熱詞搜索者作為學(xué)習(xí)方,利用提取自新浪微博和百度搜索的三年近四百個(gè)熱詞數(shù)據(jù),進(jìn)行了ARDL邊限模型計(jì)量分析,證實(shí)了“非代際文化反哺”現(xiàn)象的存在??梢姡髷?shù)據(jù)不光可以檢驗(yàn)和拓展以前無法用量化方式來證實(shí)證偽的理論,還能幫助我們發(fā)現(xiàn)新的規(guī)律、提出并驗(yàn)證新的理論。
2.領(lǐng)域拓展機(jī)遇。利用大數(shù)據(jù),社會(huì)學(xué)宏觀定量的研究,除了可以把觸角伸向社會(huì)學(xué)之外的經(jīng)濟(jì)學(xué)、政治學(xué)、傳播學(xué)和歷史學(xué)等領(lǐng)域,拓展出新的宏觀層面的交叉研究領(lǐng)域,更能夠?yàn)閷W(xué)科自身的精細(xì)化、專業(yè)化、科學(xué)化提供極為豐富的手段。特別是,大數(shù)據(jù)為社會(huì)科學(xué)的跨層次復(fù)制檢驗(yàn)研究開辟了全新的領(lǐng)域。吳曉剛等學(xué)者提出,社會(huì)科學(xué)定量分析亟待建立一個(gè)透明和開源的學(xué)術(shù)機(jī)制,讓研究數(shù)據(jù)和模型公開共享,使研究成果可以得到他人的驗(yàn)證和進(jìn)一步拓展。這個(gè)學(xué)術(shù)機(jī)制的核心就是倡導(dǎo)“復(fù)制性研究”[14]。不過,目前學(xué)者所倡導(dǎo)和進(jìn)行的復(fù)制,仍然是狹義的基于原數(shù)據(jù)的個(gè)體研究復(fù)制。而我們這里提出的復(fù)制,則是利用大數(shù)據(jù)可以提供宏觀層面、歷史層面的集聚數(shù)據(jù)的機(jī)遇,對(duì)以往基于個(gè)體研究形成的假設(shè)、觀點(diǎn)進(jìn)行群體層次上的再檢驗(yàn)。這恰恰是對(duì)“生態(tài)謬誤”現(xiàn)象的一次重讀和深入解剖。
實(shí)際上,《走向開源的社會(huì)學(xué)》一文,提出了嚴(yán)格復(fù)制和拓展復(fù)制兩類檢驗(yàn)方式,前者把復(fù)制性檢驗(yàn)理解為基于同樣數(shù)據(jù)和同樣統(tǒng)計(jì)模型,后者是相同的數(shù)據(jù)和不同的模型,同樣模型和不同數(shù)據(jù)的估算結(jié)果比較檢驗(yàn)。而我們則進(jìn)一步延伸復(fù)制拓展的概念:復(fù)制拓展研究,實(shí)際上還包括從個(gè)體層次的檢驗(yàn)走向群體層次的檢驗(yàn)、復(fù)制和拓展。如果個(gè)體群體的結(jié)果一致,則不存在生態(tài)謬誤。如果不一致,則存在生態(tài)謬誤。那么,存在于不存在差異的原因在哪里,機(jī)制在哪里,就都值得進(jìn)一步深入探討。例如,“個(gè)人收入影響個(gè)體的幸福感”假說檢驗(yàn),可以通過傳統(tǒng)問卷調(diào)查數(shù)據(jù)來進(jìn)行分析,而對(duì)其進(jìn)行群體層次的研究驗(yàn)證,分析“城市收入不平等影響城市總體幸福感”,則可以通過大數(shù)據(jù)的提煉來獲得城市、省份層次的總體幸福感,并將其與城市、省份層面的收入狀況或者不平等加以關(guān)聯(lián),尋找規(guī)律。有了大數(shù)據(jù)的助力,我們將會(huì)面臨對(duì)“調(diào)查革命”以來所有個(gè)體層次社會(huì)學(xué)研究的群體層次復(fù)制研究機(jī)遇,而這些空白,必將成為未來定量研究的熱點(diǎn)領(lǐng)域之一。相信到彼時(shí),社會(huì)學(xué)家對(duì)于“生態(tài)謬誤”的理解也會(huì)提高到一個(gè)新的層次。
3.方法延展機(jī)遇。社會(huì)學(xué)的宏觀層面數(shù)據(jù)不同于經(jīng)濟(jì)學(xué),經(jīng)濟(jì)學(xué)有省市年鑒等宏觀數(shù)據(jù)積累。每個(gè)城市、省份的經(jīng)濟(jì)數(shù)據(jù)都有各級(jí)政府部門的精心搜集和發(fā)布。而省份和城市層面的社會(huì)學(xué)相關(guān)指標(biāo),則只有靠社會(huì)學(xué)家自己去調(diào)查獲得。而問卷獲得的樣本數(shù)據(jù)比較有限,某種意義上,傳統(tǒng)的社會(huì)學(xué)宏觀定量分析,很難有真正的全數(shù)據(jù)的規(guī)模,也難以形成時(shí)間跨度20年、50年甚至100年的時(shí)間序列或者面板數(shù)據(jù)。恰恰因此,社會(huì)學(xué)定量分析與計(jì)量經(jīng)濟(jì)學(xué)在模型使用的風(fēng)格上天然存在著巨大的差距。盡管社會(huì)學(xué)定量分析的方法越來越接近微觀計(jì)量經(jīng)濟(jì)學(xué),但宏觀計(jì)量經(jīng)濟(jì)學(xué)中慣用的時(shí)間序列數(shù)據(jù)、面板數(shù)據(jù)等等,在社會(huì)學(xué)定量分析尤其是宏觀層次分析里非常少。這樣,社會(huì)學(xué)家的模型習(xí)慣多是截面數(shù)據(jù)和短面板,而時(shí)間序列、長(zhǎng)面板等模型,幾乎不涉及。
大數(shù)據(jù)的出現(xiàn),使得社會(huì)學(xué)者開始使用這類模型。例如,前面提及的國(guó)內(nèi)學(xué)者對(duì)階層意識(shí)、城市知名度、微博輿情與股市、網(wǎng)絡(luò)熱詞傳播等等分析,都采用了以往社會(huì)學(xué)定量分析領(lǐng)域所罕見的時(shí)間序列分析方法(包括單位根檢驗(yàn)、格蘭杰檢驗(yàn)、協(xié)整分析)、動(dòng)態(tài)面板差分廣義矩、系統(tǒng)廣義矩方法,以及地理等學(xué)科使用較多的空間鄰接矩陣模型、空間距離矩陣模型等等。這些方法的引入,加深了社會(huì)學(xué)家對(duì)歷史數(shù)據(jù)、縱貫數(shù)據(jù)的分析能力,豐富了定量社會(huì)學(xué)研究者的模型手段。當(dāng)然,無論是傳統(tǒng)調(diào)查問卷數(shù)據(jù),還是從大數(shù)據(jù)中提取出來的變量,只要運(yùn)用傳統(tǒng)計(jì)量模型,非實(shí)驗(yàn)數(shù)據(jù)內(nèi)在的遺漏變量、樣本偏誤、聯(lián)立性等影響因果推斷的內(nèi)生性問題,都必然存在。這里我們要強(qiáng)調(diào)的是,在社會(huì)學(xué)研究領(lǐng)域,目前大數(shù)據(jù)并不能幫助提升因果推斷,但研究者可以根據(jù)未來為社會(huì)科學(xué)研究所量身定制的高質(zhì)量大數(shù)據(jù)做出好的因果分析。
除了回歸模型的進(jìn)一步豐富,大數(shù)據(jù)對(duì)傳統(tǒng)定量社會(huì)學(xué)研究成果的展示方法和效果也提供了更為多樣化的選擇。一直以來,基于個(gè)體層次的傳統(tǒng)社會(huì)學(xué)定量模型多借助表格來呈現(xiàn)成果。而大數(shù)據(jù)尤其是宏觀定量分析中的大數(shù)據(jù)變量,都能夠通過圖形、圖像的可視化形式來進(jìn)行,它能幫助讀者快速了解研究者的觀點(diǎn)和思路,非常直觀地揭示數(shù)據(jù)背后蘊(yùn)藏的規(guī)律。例如,一系列關(guān)于文化大數(shù)據(jù)中的中國(guó)物質(zhì)文化遺產(chǎn)、非物質(zhì)文化遺產(chǎn)、文化名人名著的研究,都僅僅采用了描述和基于時(shí)間軸的曲線表現(xiàn)形式。盡管沒有回歸等計(jì)量分析,但僅僅就圖形所展示的內(nèi)容,就足以構(gòu)成社會(huì)學(xué)的深度解讀[15-17]。
宏觀定量社會(huì)學(xué)的衰落,源于傳統(tǒng)量化資料收集方法的局限和“生態(tài)謬誤”的邏輯挑戰(zhàn)。微觀定量社會(huì)學(xué)的迅猛發(fā)展,加上學(xué)者對(duì)“生態(tài)謬誤”的矯枉過正,使得宏觀定量社會(huì)學(xué)的發(fā)展出現(xiàn)了嚴(yán)重的相對(duì)滯后。不過,大數(shù)據(jù)的興起為重開宏觀定量社會(huì)學(xué)的研究之門提供了寶貴的數(shù)據(jù)源。我們就此提出了大數(shù)據(jù)對(duì)于宏觀定量研究的三大價(jià)值:為宏觀定量社會(huì)學(xué)的重啟提供了理論發(fā)展機(jī)遇、領(lǐng)域拓展機(jī)遇和方法延展機(jī)遇。在一定程度上,我們贊同張旭、唐魁玉的觀點(diǎn):“這些研究方法只能作為傳統(tǒng)社會(huì)學(xué)研究的補(bǔ)充,而不能完全替代傳統(tǒng)的小數(shù)據(jù)研究方法?!盵18]不過,我們強(qiáng)調(diào)的是,盡管對(duì)于社會(huì)科學(xué)而言大數(shù)據(jù)的遠(yuǎn)景價(jià)值仍然模糊,但其現(xiàn)實(shí)價(jià)值卻日漸清晰,在當(dāng)前的社會(huì)科學(xué)領(lǐng)域特別是社會(huì)學(xué)領(lǐng)域,大數(shù)據(jù)研究,起碼足以讓更多的學(xué)者重新關(guān)注宏觀研究,重啟宏觀定量社會(huì)學(xué)的研究之門。
[1]Weber,Max.The Methodology of the Social Sciences tr. by Edward A. Shils and Henry A. Finch[M].New York: Free Press,1949.
[2]Hedstr?m,P.Dissecting the Social: On the Principles of Analytical Sociology[M].Cambridge: Cambridge University Press,2005:98.
[3]陳云松.分析社會(huì)學(xué):尋求連接微觀與宏觀的機(jī)制性解釋[J].浙江社會(huì)科學(xué),2008(5).
[4]Emile Durkheirn.Suicide trans. John A. Spaul- ding and George Simpson ,Glencoe, Ill[M].Free Press, 1951.
[5]馬克斯·韋伯.新教倫理與資本主義精神[M].于曉,陳維綱等,譯.北京:三聯(lián)書店,1987.
[6]Thorndike, E. On the Fallacy of Imputing the Correlations Found for Groups to the Individuals or Smaller Groups Composing Them[J]. The American Journal of Psychology,1939, 52(1):122-124.
[7]Robinson,W. Ecological Correlations and the Behavior of Individuals[J].American Sociological Review,1950, 15(3):351-357.
[8]Selvin,H. Durkheim's Suicide and Problems of Empirical Research[J].American Journal of Sociology, 1958,63(6):607-619.
[9]謝宇. 社會(huì)學(xué)方法與定量研究[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2006:67-69.
[10]陳云松.大數(shù)據(jù)中的百年社會(huì)學(xué)——基于百萬書籍的文化影響力研究[J].社會(huì)學(xué)研究,2015(1).
[11]陳云松,嚴(yán)飛,張翼 2016.“大數(shù)據(jù)”的文化建設(shè)戰(zhàn)略價(jià)值:案例和實(shí)踐[J].學(xué)術(shù)論壇,2016(6).
[12]Yunsong Chen and Fei Yan. Economic performance and public concerns about social class in twentieth-century books[J].Social Science Research,2016.
[13]陳云松,朱燦然,張亮亮.非代際文化反授:概念、理論和實(shí)證[C].南京大學(xué)社會(huì)學(xué)院工作論文,2016.
[14]陳云松,吳曉剛 .走向開源的社會(huì)學(xué):定量分析中的復(fù)制性研究[J].社會(huì),2012(3).
[15]龔為剛、羅教講.大數(shù)據(jù)視野下的19世紀(jì)“海上絲綢之路”——以絲綢、瓷器與茶葉的文化影響力為中心[J].學(xué)術(shù)論壇,2015(12).
[16]孫艷,黃榮貴,洪巖璧.大數(shù)據(jù)中的中國(guó)非物質(zhì)文化遺產(chǎn):300年國(guó)際知名度分析[J].學(xué)術(shù)論壇,2016(6).
[17]張亮亮,張洪,李雙龍,吳楷文.大數(shù)據(jù)中的中國(guó)文化名人名著:500年國(guó)際知名度分析[J].學(xué)術(shù)論壇,2016(6).
[18]張旭,唐魁玉.大數(shù)據(jù)及其“社會(huì)學(xué)后果”[J].新視野, 2016(3).
2016-10-12
國(guó)家社科基金重大項(xiàng)目“大數(shù)據(jù)時(shí)代計(jì)算社會(huì)科學(xué)的產(chǎn)生、現(xiàn)狀與發(fā)展前景研究”(16ZDA086)、江蘇高校哲學(xué)社會(huì)科學(xué)研究重點(diǎn)項(xiàng)目“中國(guó)傳統(tǒng)文化的全球知名度”(2015ZDIXM001)、江蘇省社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“大數(shù)據(jù)視野中的江蘇文脈研究”(15ZHA001)的階段性成果。
陳云松(1975-),男,江蘇如皋人,南京大學(xué)社會(huì)學(xué)系副教授,碩士生導(dǎo)師。研究方向:定量社會(huì)學(xué)、大數(shù)據(jù);張亮亮(1992-),女,江蘇連云港人,南京大學(xué)社會(huì)學(xué)系研究生。研究方向:社會(huì)資本與社會(huì)網(wǎng)絡(luò);閔尊濤(1991-),男,江西南昌人,南京大學(xué)社會(huì)學(xué)系研究生。研究方向:定量社會(huì)學(xué);張柏楊(1992-),男,內(nèi)蒙古呼和浩特人,南京大學(xué)社會(huì)學(xué)系研究生。研究方向:經(jīng)濟(jì)社會(huì)學(xué)。