黃 斌 李 波
(1. 南京大學(xué)教育研究院,南京 210023;2. 南京財經(jīng)大學(xué)公共管理學(xué)院,南京 210023)
2021 年10 月11 日,瑞典皇家科學(xué)院將諾貝爾經(jīng)濟學(xué)獎授予加利福尼亞大學(xué)伯克利分校教授戴維·卡德(David Card)、麻省理工學(xué)院教授喬舒亞·D 安格里斯特(Joshua D. Angrist)和斯坦福大學(xué)教授吉多·W·因本斯(Guido W. Imbens)。在頒獎典禮致辭中,諾貝爾經(jīng)濟學(xué)獎評委會主席彼得·弗雷德里克森(Peter Fredriksson)如此評價三位獲獎?wù)叩膶W(xué)術(shù)貢獻 “你們的研究表明社會核心問題完全可以通過自然實驗得以回答?!ぁぁぁぁぁつ銈儚氐赘淖兞私?jīng)濟科學(xué)中的經(jīng)驗研究。得益于你們的研究,我們回答關(guān)鍵因果問題的能力得到了極大的提升”(Fredriksson,2021)。事實上,這并不是因果方法第一次登上諾獎舞臺。2019 年,阿比吉特·班納吉(Abhijit Banerjee)、埃絲特·迪弗洛(Esther Duflo)和邁克爾·克雷默(Michael Kremer)三位學(xué)者就因運用隨機對照實驗方法為全球脫貧做出的學(xué)術(shù)貢獻而獲得諾貝爾經(jīng)濟學(xué)獎。社會科學(xué)研究實現(xiàn)因果推斷有兩種方法:隨機對照實驗(Randomized Controlled Trial,RCT)與自然實驗(Nature Experiment)或準實驗(Quasi-experiment)。隨機對照實驗是實現(xiàn)因果分析的“黃金法則”,它通過隨機分組形成處理組和控制組之間的數(shù)據(jù)平衡,由此實現(xiàn)對干預(yù)的因果效應(yīng)的正確識別。隨機對照實驗源自農(nóng)業(yè)科學(xué),普遍應(yīng)用于醫(yī)學(xué)與藥物研究,班納吉、迪弗洛和克雷默的學(xué)術(shù)貢獻在于將隨機對照實驗大規(guī)模地應(yīng)用于社會政策項目與改革成效評估;自然實驗或準實驗也是以隨機對照實驗原理為理論基礎(chǔ),但它采用的是非實驗性的研究設(shè)計,對非實驗的觀測數(shù)據(jù)進行“改造”,使之具有與實驗數(shù)據(jù)相類似的平衡特征,并由此獲得與隨機實驗具有同等或相近的因果推斷效力的結(jié)論??ǖ?、安格里斯特和因本斯的學(xué)術(shù)貢獻在于他們突破原有的實驗研究局限,創(chuàng)新性地發(fā)展出基于觀測數(shù)據(jù)的因果推斷方法,使因果推斷方法在社會科學(xué)領(lǐng)域擁有了更廣闊的應(yīng)用空間。
近三十年來,因果推斷方法在推動社會科學(xué)經(jīng)驗研究發(fā)展方面取得了巨大的成功。正如哈佛大學(xué)教授加里·金(Gary King)等人指出(King et al., 2021):“在過去幾十年里,人們對因果關(guān)系的了解比以往的總和還要多?!彪m然卡德、安格里斯特和因本斯的主要研究領(lǐng)域是勞動經(jīng)濟學(xué)與計量經(jīng)濟學(xué),但鑒于教育對個人勞動參與和收入所具有的重要影響,他們的許多重要研究都與現(xiàn)實教育問題及教育制度變革密切相關(guān),包括教育收益率估計、小班化教學(xué)效果、學(xué)校投入對學(xué)生認知能力發(fā)展的影響等。他們在這些方面做出了許多極富創(chuàng)新性的工作,并取得了豐碩的成果,這是教育研究者無法回避,且必須回應(yīng)的。
探尋事件之間的因果關(guān)系是人類不斷追求真理的前進動力,決定論與因果律一直是西方哲學(xué)研究最重要的內(nèi)容之一。亞里士多德在其論著《物理學(xué)》中便就掌握因果律對于了解自然變化的重要作用進行了充分的闡釋:“既然我們的目的是要得到認識,又,我們在明白了每一個事物的‘為什么’(就是說把握了它們的基本原因)之前是不會認為自己已經(jīng)認識一個事物的,所以很明顯,在生與滅的問題以及每一種自然變化的問題上去把握它們的基本原因,以便我們可以用它們來解決我們的每一個問題?!保▉喞锸慷嗟拢?982,p. 37)秉承這一傳統(tǒng),大衛(wèi)·休謨從經(jīng)驗主義立場出發(fā)對因果關(guān)系進行考察,他主張“事物的知識應(yīng)當(dāng)以因果關(guān)系為基礎(chǔ),只有因果關(guān)系才能使我們超出感覺和記憶的范圍。對于因果關(guān)系并不能有先驗的認知,只可能借助于經(jīng)驗,而要得出超過經(jīng)驗的任何知識又必須假設(shè)因果關(guān)系”(休謨,1957,p. 61)。
因果知識很重要,卻不易獲得?,F(xiàn)代人類正身處信息大爆炸的時代,手握各種信息技術(shù)利器,可輕易地獲取巨量的數(shù)據(jù)。數(shù)據(jù)可以告訴我們很多知識,比如它可以告訴我們目前國人的平均收入水平有多高,與之前相比是增加還是減少了,與其他國家相比處于何種水平。這些屬于描述性知識。再比如,它還可以告訴我們國人的收入水平會隨著個人性別、教育水平、居住地域發(fā)生怎樣的變化。這屬于相關(guān)性知識。描述性知識和相關(guān)性知識都是非常有益的信息,它們能幫助我們快速了解我們所生活世界的整體狀況,但還不夠!因為我們不僅希望了解自身所處的物質(zhì)世界和精神世界是怎樣的,更希望了解它為什么會是這樣。描述性知識和相關(guān)性知識只能回答“是什么”的問題,回答不了“為什么”的因果問題。因果知識對于指導(dǎo)人類社會正常和健康發(fā)展是極為必要和重要的,唯有因果知識方可解答“為什么”的問題,為人類下一步的行動提供可信的指引。
“對于因果關(guān)系方面的知識來說,數(shù)據(jù)沒有任何發(fā)言權(quán)” (珀爾和麥肯齊,2019,導(dǎo)言, 第XXIII頁)。因果解釋只存在于數(shù)據(jù)之外的人類的想象和邏輯推理之中。事實上,因果推斷的思維早已存在于人類意識之中,人們腦中儲存了大量的因果知識,正如遠古人早就明白在狩獵時團結(jié)協(xié)作要比單槍匹馬能收獲更多的獵物,現(xiàn)代人只要早上出門上班發(fā)現(xiàn)下雨,就會立刻意識到今天早高峰會大堵車。雖然人類早已掌握并習(xí)慣于運用因果思維進行行為決策,隨機實驗法在100 年前就已經(jīng)被提出(Fisher & Mackenzie,1923),但人類的因果思維一直未被正式的模型化和數(shù)學(xué)化,因果推斷方法得不到系統(tǒng)的發(fā)展,這極大阻礙和限制了因果知識在改善我們?nèi)祟惿罘矫娴淖饔玫陌l(fā)揮(珀爾和麥肯齊,2019)。
值得慶幸的是,自20 世紀七八十年代以來,經(jīng)過唐納德·魯賓(Donald B. Rubin)、朱迪亞·珀爾(Judea Pearl)、吉多·W·因本斯、喬舒亞·D·安格里斯特等一批學(xué)者的努力,包括潛在結(jié)果框架(Potential Outcome Framework)與有向無環(huán)圖(Directed Acyclic Graphs)在內(nèi)的專門用于因果識別的數(shù)學(xué)語言和分析框架被系統(tǒng)地建立起來。目前,因果推斷方法已被大量地應(yīng)用到經(jīng)濟學(xué)、人工智能、醫(yī)學(xué)、心理學(xué)等領(lǐng)域研究中,并正快速向教育學(xué)、社會學(xué)、政治學(xué)等領(lǐng)域滲透。教育學(xué)科正處于因果推斷方法由經(jīng)濟學(xué)向其他社會科學(xué)領(lǐng)域擴張的“最前線”,教育科學(xué)研究正醞釀著一場因果推斷“方法革命”。在以下篇幅中,我們將先從教育研究的人文與科學(xué)屬性入手,闡明獲取因果證據(jù)對推動教育科學(xué)研究發(fā)展的重要意義,再重點介紹2021 年諾貝爾經(jīng)濟學(xué)獎得主在教育領(lǐng)域的一些重要研究與發(fā)現(xiàn),最后對當(dāng)前我國教育因果研究所存在的問題及未來改進方向進行討論。
關(guān)于“教育學(xué)是否是科學(xué)”一直頗有爭議。在日常生活和教育實踐中,教育總是給人一種與科學(xué)無涉的印象?!叭巳硕际墙逃摇保瑢逃龁栴}進行研究、對教育現(xiàn)象進行剖析似乎不需要深奧的專業(yè)知識,即便是徹頭徹尾的外行人,都能對教育問題、現(xiàn)象或觀點評頭論足一番(中室牧子,2017)。之所以有此現(xiàn)象,一方面可能是因為教育與我們離得太近,參與教育活動是人類日常生活的一部分,絕大多數(shù)人都曾經(jīng)或正身處于接受教育或施行教育的情境之中;另一方面,教育研究給人一種沒有門檻的錯覺,它似乎不像討論其他學(xué)科問題那樣需要具備高深的知識,只憑借一般經(jīng)驗或觀察便可以獲得足夠的知識用于指導(dǎo)教育實踐。教育研究似乎只需描述現(xiàn)象或做價值判斷,不需要科學(xué)理性,不存在“為什么”的問題,只有“是什么”和“怎么做”的問題。人們習(xí)慣于關(guān)注教育現(xiàn)象并發(fā)表見解,卻較少關(guān)心教育現(xiàn)象發(fā)生的原因,似乎只要把當(dāng)前所存在的教育問題“痛罵一通”,便完成自己對所有教育本源問題的解構(gòu)。
公眾通常相信自然變化有一般規(guī)律,對自然變化規(guī)律的研究可訴諸理性與科學(xué),而人的教育行為及結(jié)果無規(guī)律可循,研究教育只存在倫理與道德上的應(yīng)然問題,無因果實然研究之必要,因此無須理性與科學(xué)。然而,事實并非如此,不是只有自然之物才具有規(guī)律性,人類行為及互動以個體的生理為基礎(chǔ),并受制于社會制度、群體行為與道德規(guī)范,因此在群體層面上亦會呈現(xiàn)出一定的規(guī)律性。
早在18 世紀40 年代至19 世紀中葉歐洲啟蒙運動時期,孟德斯鳩、盧梭、亞當(dāng)·斯密、康德等一批思想家在采用理性精神與科學(xué)方法破除傳統(tǒng)宗教對人類思想的操控與束縛的同時,便已嘗試運用相同的方法建立起“人的科學(xué)”,用以形成對人類自身情感與行為的普遍性與規(guī)律性的理解和認識(平克,2019, p. 10)。教育研究“天然”具有科學(xué)屬性:一方面雖然不同個體的主觀意識存在差異,生理卻存在共性。個體的發(fā)展符合生理規(guī)律,掌握了這種規(guī)律可極大程度地提高教育效率。另一方面,人作為獨立的個體雖具有一定的主觀能動性,但其生活必須遵從既有的文化、生物演進和社會客觀事實,并最終形成規(guī)律進而約束著人類的生存與發(fā)展活動。因此,社會個體有其獨特性和異質(zhì)性,但作為群體其一定存在著共性和規(guī)律(袁振國,2019,2020)。
當(dāng)前,有不少教育及其他社會科學(xué)研究依然延續(xù)傳統(tǒng)政策研究的風(fēng)格,偏重于描述教育現(xiàn)象及“說理性”分析,雖然近年來教育量化研究數(shù)量與成果不斷增多,但研究方法還停留于描述性和相關(guān)性階段,缺乏因果解釋力,這極大限制了我們運用經(jīng)驗證據(jù)指導(dǎo)教育政策制定的能力(陳云松和范曉光,2010)。因果必定相關(guān),而相關(guān)未必因果。正如我們運用爬蟲技術(shù)可以輕易地從網(wǎng)絡(luò)獲得白菜價格與汽油價格的日常變化數(shù)據(jù),并通過相關(guān)分析發(fā)現(xiàn)二者存在顯著的正相關(guān)關(guān)系,但我們永遠不會想到用改變白菜價格的方法來調(diào)控汽油價格的走向。相比之下,因果分析能夠提供變量間可靠的因果關(guān)系信息,決策者利用這一信息可以制定出有效的政策干預(yù)工具,改變?nèi)巳旱男袨樽呦蚣捌浣Y(jié)果,使其未來的發(fā)展與政策預(yù)期目標相一致(黃斌等,2017)。因果性是科學(xué)證據(jù)最重要的特質(zhì),大衛(wèi)·休謨甚至將科學(xué)的唯一功用定義為因果性,在他看來,“科學(xué)唯一且直接的功用是告訴我們?nèi)绾螐脑騺砜刂坪驼{(diào)整未來發(fā)生的事件”(Hume,2007, Section VII, Part II, p. 56)。從這一角度看,科學(xué)證據(jù)即等同于因果證據(jù)。
除相關(guān)概念外,政策制定者、學(xué)者和公眾還常將“常識(Common Sense)”與科學(xué)或因果證據(jù)混為一談,誤將基于個體經(jīng)驗所形成的“常識”等同于科學(xué)證據(jù)。所謂“常識”是指大多數(shù)人普遍認可的觀點或知識,但目前在教育領(lǐng)域有多少觀點或知識是被多數(shù)學(xué)者所認可的呢?在筆者所在的教育經(jīng)濟學(xué)界,數(shù)十年來形成的共識可以說是寥寥無幾,學(xué)者們在許多重要的具體研究議題上始終存在著巨大的分歧。以增加學(xué)校投入能否提高學(xué)校教學(xué)質(zhì)量這個看似簡單的命題為例,該議題從20 世紀60 年代美國學(xué)者科爾曼發(fā)布《科爾曼報告》以來,便一直存在爭議。有大量研究發(fā)現(xiàn)公立學(xué)校的絕大多數(shù)投入都是無效的,尤其是我們之前認為十分重要的一些物力或貨幣投入(如基建投入)與教師特征(如教師學(xué)歷、教齡與性別),對學(xué)生學(xué)業(yè)成績都不具有顯著的影響或只具有微小的影響。這一現(xiàn)象不僅存在于發(fā)達國家,發(fā)展中國家亦是如此(Glewwe et al.,2011)。
在人類行為互動形成的社會場域中,事件與事件之間的因果關(guān)系是復(fù)雜的,并且經(jīng)常隨時空和人群發(fā)生變化,很難憑借個體的經(jīng)驗或常識就能觀察清楚。僅憑借未加科學(xué)驗證的所謂“常識”進行教育政策決策,面臨著極高的犯錯風(fēng)險。常識不能作為科學(xué)證據(jù),相反,常識往往是需要進行科學(xué)驗證的對象。曾經(jīng)的異端(如日心說),在當(dāng)下可能是常識;而曾經(jīng)的常識(如地心說),在當(dāng)下可能是異端。此外,基于個體經(jīng)驗所形成的常識缺乏客觀的價值評判標準,每個個體的教育背景不同,所身處的社會經(jīng)濟環(huán)境亦不同,這使得個體經(jīng)驗存在較大差別,你有你的常識,我有我的常識,憑借常識說理常導(dǎo)致“公說公有理,婆說婆有理”的局面。
教育政策的制定需以富含因果關(guān)系信息的科學(xué)證據(jù)作為決策依據(jù)。當(dāng)前,教育因果研究主要集中在教育政策評價領(lǐng)域。對教育政策進行科學(xué)評價需要判定政策實施與現(xiàn)實教育結(jié)果之間的關(guān)系,并量化這種關(guān)系的正負方向與大小(袁振國,2017)。然而,除政策外,現(xiàn)實教育結(jié)果還受其他許多因素的影響。我們要形成特定政策與現(xiàn)實教育結(jié)果之間一一對應(yīng)的因果關(guān)系,就需要通過一定的因果研究設(shè)計剝離教育現(xiàn)象之間復(fù)雜的干擾因素,揭示特定政策與現(xiàn)實教育結(jié)果的因果關(guān)系,從而為我們制定對策、改良社會提供依據(jù)(辛濤和姜宇,2013;胡詠梅和唐一鵬,2018)。在以往文獻中,由于缺少對因果關(guān)系的準確定義與判定條件界定,不少政策研究常將只具有相關(guān)含義的結(jié)論表述為因果結(jié)論,這使得不同研究對同一教育政策的量化評價結(jié)果不具有可比性。因果推斷方法的發(fā)展帶來了新的量化技術(shù)標準,使得不同教育政策研究的質(zhì)量至少在“相關(guān)—因果”這一維度上高下立判。在統(tǒng)一的因果關(guān)系分析框架下探求過往不同教育政策的成敗原因與得失經(jīng)驗,可幫助我們積累更多有關(guān)人類教育行為的有效知識,在科學(xué)的客觀標準之上取得更多經(jīng)驗證據(jù)與社會共識,以減少未來政策重蹈覆轍的可能性。
誠然,教育學(xué)又不完全只是科學(xué)的,它是兼具人文與科學(xué)雙重屬性、集價值和規(guī)律為一體的社會科學(xué)。教育事關(guān)人的終身發(fā)展,是人的基本權(quán)利,每個個體都有權(quán)利接受恰當(dāng)?shù)慕逃?,這是人類社會在數(shù)千年演化過程中形成的“公理”,不證自明!人文關(guān)懷理應(yīng)成為我們制定并實施教育政策、開展教育活動的哲學(xué)和倫理基礎(chǔ)。然而,人類教育活動帶有的主觀價值傾向與其客觀規(guī)律之間關(guān)系并不是對立的而是統(tǒng)一的,教育的人文研究與因果科學(xué)研究二者并不矛盾,教育研究側(cè)重價值判斷未見得就偏離科學(xué),強調(diào)科學(xué)理性分析亦非無法兼容價值判斷。
一方面,教育人文關(guān)懷功能的實現(xiàn)需要科學(xué)研究與因果證據(jù)的支持。人文關(guān)懷由單一家庭、群體、民族、階層與國家向外延展,不僅需要人類基于同情心與同理心形成統(tǒng)一的道德認識,更需要獲得這一具有超越性的統(tǒng)一道德認識的能力。正如阿馬蒂亞·森在其論著《以自由看待發(fā)展》中所闡述的“(自由)應(yīng)該是一個人選擇有理由珍視的生活的實質(zhì)自由—即可行能力”(森,2002,第62 頁)。個人實現(xiàn)其應(yīng)有權(quán)利在很大程度上取決于他功能性活動的質(zhì)量,而其功能性活動本身就在生理與心理層面上具有一定的自然和社會規(guī)律性。掌握含有關(guān)人類教育活動規(guī)律內(nèi)容的因果知識對于提升人類在教育方面的“實質(zhì)性自由”是極為重要的。另一方面,教育研究的人文屬性要求研究者需對一些教育“應(yīng)然”問題抱有強烈的價值傾向與價值判斷,而這一傾向與評判的發(fā)生本身也內(nèi)含因果邏輯。尤其是當(dāng)我們基于效率或公平的價值標準對多種可能的教育政策選項進行取舍時,我們必然要尋求一定的科學(xué)因果證據(jù)的支持。我們身處在一個資源稀缺的世界,公共教育與其他公共支出之間、公共教育中不同類型投入之間都存在著極為激烈的預(yù)算競爭,教育的生產(chǎn)與分配活動始終面臨著效率與公平的兩難抉擇。通過科學(xué)的手段探尋人類教育行為的因果規(guī)律,可幫助我們在資源有限的條件下以最小的投入獲得更多的教育產(chǎn)出并實現(xiàn)更加均衡的教育分配,實現(xiàn)教育效率與公平的共進。
2021 年諾貝爾經(jīng)濟學(xué)獎三位得主中,因本斯的研究偏因果計量技術(shù)研發(fā)與推廣,其與著名統(tǒng)計學(xué)家唐納德·魯賓(Donald B. Rubin)合著的Casual Inference for Statistics, Social, and Biomedical Sciences被譽為因果方法最經(jīng)典的教材(Imbens,2015)。相比之下,安格里斯特和卡德的研究偏方法應(yīng)用,發(fā)表文章中有許多涉及教育,尤其是安格里斯特,他絕大部分代表作都與教育有關(guān)。以下,我們將對安格里斯特和卡德在教育領(lǐng)域的重要研究與發(fā)現(xiàn)進行詳細介紹。
估計教育收益率是勞動與教育經(jīng)濟學(xué)最重要的研究議題。接受更多教育的人擁有更高的工資收入,這幾乎是眾人皆知的“常識”。然而,接受教育與工資收入之間是否存在因果關(guān)系,在學(xué)界長期存在爭議。個體擁有更高的工資收入,究竟是由于他相較常人接受了更多教育,還是由于他原本就擁有高于常人的天賦能力?也就是說,我們?nèi)粘S^測到的“高教育擁有高收入”現(xiàn)象可能反映的只是二者之間的相關(guān)關(guān)系而非因果關(guān)系。
如以下明瑟方程(Mincer,1974):
其中,lnYi表示個體i收入的對數(shù)值;edui表 示個體i的 受教育年限,估計系數(shù) β即為教育收益率,表示個體受教育年限每增加1 年,其收入增加百分之幾;expi和exp2i分別表示個體i的工作經(jīng)驗及其平方項,εi是隨機誤差項。
可以想象,一個人所受教育會受其天賦能力與家庭背景的影響,而天賦能力與家庭背景又對個人收入具有重要影響,能否有效控制天賦能力與家庭背景的混淆作用對于精確估計教育收益率至關(guān)重要。然而,在研究者掌握的數(shù)據(jù)資料中,天賦能力與家庭背景變量常常因不易測量而被遺漏,如上述明瑟方程(1)就未控制這兩個變量,此時個人受教育年限變量由個人天賦能力與家庭背景內(nèi)生決定,估計系數(shù) β有可能偏估了教育收益率。在遺漏重要變量的條件下,估計系數(shù) β可能只反映個人教育與收入的相關(guān)關(guān)系,而非因果關(guān)系。①解決這一偏估問題的辦法主要有以下三種:
一是將個人的智力或認知能力的測驗分數(shù)作為天賦能力的代理變量,同時控制家庭社會經(jīng)濟背景變量。該方法采用直接控制的方式,其優(yōu)勢在于簡明,問題在于智力或認知能力得分可能并不能完全反映個人的真實能力。
二是采用雙胞胎樣本消去不可觀測因素的混淆作用。(同卵)雙胞胎繼承了相同的父母基因并在同一家庭背景中成長,若他們的收入和教育水平都存在差異,那么收入差異就很可能是由于他們擁有不同的教育水平引起的。該方法存在兩方面問題:(1)雙胞胎樣本過于特殊,其估計結(jié)果的代表性存疑;(2)它無法解釋為何具有相同基因和家庭背景的雙胞胎卻在教育與收入水平上存在著差異。在雙胞胎樣本中,我們常觀測到不少擁有相同教育水平的同卵雙胞胎在收入上也存在差異,這意味著即便是同卵雙胞胎,也未見得是完全同質(zhì)的,他們可能在偏好、態(tài)度、能力和健康等方面存在著差異,遺漏這些變量也會導(dǎo)致教育收益率偏估(Bound & Solon,1999)。
三是采用工具變量法從個人受教育年限變異中剝離出一部分與個人能力、家庭背景及其他異質(zhì)特征都無關(guān)的外生變異,將其用于教育收益率估計。誠然,有效的工具變量需滿足一定條件,不是所有變量都適合做工具變量。例如,以往研究常以父母或配偶教育水平作為工具變量,但它可能不是一個好的工具變量,因為有不少有關(guān)收入代際流動和婚姻匹配的研究表明,個人收入水平與其父母或配偶的受教育水平顯著相關(guān)(Becker,1973;Buss,1986)。一種更高明的做法是利用一定的政策沖擊構(gòu)建一個具有隨機外生特質(zhì)的工具變量,安格里斯特就是最早提出并采用這一工具變量設(shè)計思路的學(xué)者之一。
1991 年,安格里斯特與艾倫·克魯格(Alan B. Krueger)在Quarterly Journal of Economics合作發(fā)表文章Does Compulsory Attendance Affect Schooling of Earnings?。該文巧妙利用義務(wù)教育法形成自然實驗設(shè)計,以出生季度作為工具變量實現(xiàn)對教育收益率的一致估計,堪稱教育收益率和工具變量法研究的經(jīng)典之作。關(guān)于義務(wù)教育的入學(xué)年齡,許多國家都有法律規(guī)定。美國各州一般規(guī)定到當(dāng)年12 月31 日前年滿6 歲的孩子可以在當(dāng)年9 月份入學(xué)接受義務(wù)教育,這一限制會使個體入學(xué)年齡產(chǎn)生差異。第四季度出生的孩子入學(xué)時年齡較小,而第一季度出生的孩子入學(xué)時年齡較大,出生季度不同導(dǎo)致入學(xué)年齡的最大差異可以達到近一歲。此外,美國各州對學(xué)生結(jié)束義務(wù)教育的年齡也有嚴格規(guī)定,大部分州要求兒童結(jié)束義務(wù)教育不得早于16 周歲。學(xué)生入學(xué)和退學(xué)時間的法律限制使得個人出生季節(jié)對其受教育年限具有影響。
利用美國1980 年全國普查數(shù)據(jù),安格里斯特和克魯格繪制出人口平均受教育年限隨出生年份與季度變化的折線。如圖1 所示,折線標識的1、2、3、4 數(shù)字分別表示同一年份的第一、二、三、四季度。從該圖可以看出,美國人口平均受教育年限隨年份總體呈上升趨勢,但在同一年內(nèi)不同季節(jié)出生人口的平均受教育年限呈現(xiàn)出一種有規(guī)律的起伏變化。在同一年中第三、四季度出生人口的平均受教育年限總是比第一、二季度出生人口的平均受教育年限長,前一年第四季度出生人口的平均受教育年限也總比后一年第一季度出生人口長。
圖1 美國人口的出生季度與受教育年限
通常情況下,在哪一季度出生是隨機外生的,它與個人家庭背景和天賦能力無關(guān),而圖1 表明出生季度對個人受教育年限具有影響。這意味著我們可以利用個人出生季度這個工具變量,從個人受教育年限變異中分離出一部分與個人家庭背景和天賦能力無關(guān)的外生變異,并將該變異用于對個人收入的回歸估計,形成對教育收益率的一致估計。采用這一思路,安格里斯特和克魯格估計出1920—1929 年出生的美國男子的教育收益率為10.07%。相比之下,傳統(tǒng)的OLS 估計結(jié)果為7.01%。工具變量估計結(jié)果高于OLS,但二者相差不顯著。
這一結(jié)果是出乎意料的,因為當(dāng)模型遺漏重要變量時,教育收益率的OLS 估計值應(yīng)該是被高估的,采用工具變量法糾偏后的估計結(jié)果應(yīng)當(dāng)顯著不同于OLS 的估計結(jié)果。然而,安格里斯特和克魯格的估計結(jié)果卻顯示二者相差無幾。工具變量法估計量的局部特質(zhì)能解釋這一“異常”現(xiàn)象。安格里斯特和克魯格是利用義務(wù)教育法自然實驗形成出生季度工具變量,他們所估計得到的教育收益率只代表了那些教育決策會受到義務(wù)教育法影響的人群,或者說,只代表了那些教育水平偏低人群的教育收益率,這部分人群學(xué)習(xí)能力較差且大都來自弱勢家庭,屬于易受義務(wù)教育法影響的“邊緣易感”群體。根據(jù)邊際收益遞減原理,這部分人群的教育收益率一般要高于整體勞動力的平均水平,采用出生季度工具變量估計得到的教育收益率高于或接近于OLS 估計結(jié)果,就不足為奇了。
小班教學(xué)是近年來發(fā)達國家推進公立學(xué)校教學(xué)改革最重要的政策工具之一。小班教學(xué)改革既是一個“該如何教學(xué)生”的教育問題,更是一個“該不該投入及應(yīng)如何投入”的財政問題。從財政的角度看,小班教學(xué)意味著學(xué)校需雇傭更多的教師,由此負擔(dān)更多的教學(xué)和非教學(xué)成本,耗資巨大,成本極高,因此研究小班教學(xué),首先要回答小班教學(xué)值不值得投入的問題。如果小班教學(xué)并不能提升學(xué)生的學(xué)業(yè)成績,或?qū)W(xué)生學(xué)業(yè)成績只具有極為有限的影響,那么小班教學(xué)就不值得投入了。然而,想精確識別班級規(guī)模對學(xué)生學(xué)業(yè)成績的因果效應(yīng)是十分困難的,需采用特別的研究設(shè)計來解決因果識別過程中的一系列技術(shù)性問題(Card & Krueger,1996;李波和黃斌,2020)。
首先,學(xué)生的能力可能和其就讀班級的規(guī)模相關(guān)。如果學(xué)生就讀的學(xué)校奉行補償式教育,將能力較差的學(xué)生優(yōu)先分配到小班進行教學(xué),此時學(xué)生能力就與班級規(guī)模正相關(guān);相反,如果學(xué)校奉行精英教育,學(xué)生能力就會與班級規(guī)模負相關(guān)。其次,學(xué)生的家庭背景也可能與其就讀班級的規(guī)模相關(guān)。條件優(yōu)越的家庭傾向于將孩子送至教學(xué)質(zhì)量更好的學(xué)校就讀,由此導(dǎo)致學(xué)生家庭背景與其就讀班級規(guī)模呈一定的相關(guān)關(guān)系。最后,學(xué)生就讀學(xué)校的其他投入也有可能與其就讀班級的規(guī)模相關(guān)。如果學(xué)校經(jīng)費充足,教學(xué)條件優(yōu)良,教師薪資待遇好而師資水平高,并有多余財力支持小班化教學(xué),此時班級規(guī)模就與學(xué)校其他投入負相關(guān);相反,學(xué)校財力原本就不富足,再擠出經(jīng)費投入小班化教學(xué),這勢必會壓縮學(xué)校其他財力投入,此時班級規(guī)模就與學(xué)校其他投入正相關(guān)。
如何解決以上小班化教學(xué)效果的因果識別難題?1999 年,安格里斯特和維克托里·拉維(Victor Lavy)在Quarterly Journal of Economics合作發(fā)表論文Using Maimonides’ rule to estimate the effect of class size on scholastic achievement,他們利用以色列政府對中小學(xué)班級最大規(guī)模的政策限制形成(模糊)斷點回歸設(shè)計,完成對小班化教學(xué)效果的一致估計(Angrist & Lavy,1999)。
有關(guān)班級規(guī)模與教學(xué)效果的討論已有上千年的歷史。早在6 世紀,猶太律法經(jīng)典《塔木德經(jīng)(Talmud)》就對集體學(xué)習(xí)圣經(jīng)的人數(shù)規(guī)則有過討論。12 世紀猶太哲學(xué)家邁蒙尼提斯(Maimonides)提出研習(xí)圣經(jīng)的師生配比應(yīng)達到一定標準,如果學(xué)生人數(shù)達到40 人,就應(yīng)該增派助教。1969 年,以色列政府直接采用邁蒙尼提斯設(shè)立的規(guī)則,規(guī)定所有公立中小學(xué)校最大班額上限為40 人,如果同一年級在校生人數(shù)超過40 人,就要拆分為兩個班授課。在該規(guī)則下,學(xué)生接受的是大班教學(xué)還是小班教學(xué)取決于同年級在校生人數(shù)。假定有兩所學(xué)校A 和B,A 校某一年級在校生為40 人,B 校同一年級在校生為41 人。根據(jù)邁蒙尼提斯規(guī)則,A 校只開一個班授課,班額為40 人,為大班教學(xué),而B 校要拆分為兩個班授課,平均每班學(xué)生為20.5 人,為小班教學(xué)。也就是說,在校生人數(shù)由40 人變化為41 人,僅變化1 人,卻使得學(xué)校平均班額由40 人下降為20.5 人。在校生人數(shù)變化1 人,這只是一種微小的變化,可視為隨機的,由此所帶來的班額劇烈變化也可視為隨機的,它不受前述學(xué)生個體特征、家庭背景與學(xué)校投入的影響。因此,如果我們從數(shù)據(jù)中觀測到隨班級規(guī)模發(fā)生劇烈變化,學(xué)生成績也發(fā)生了較大變化,便可認定班級規(guī)模對于學(xué)生成績具有因果效應(yīng)。
如圖2,安格里斯特和拉維運用以色列公辦小學(xué)數(shù)據(jù)繪制出年級在校生人數(shù)與班級規(guī)模、學(xué)生平均成績變化關(guān)系圖。如圖2(a),橫坐標是公立小學(xué)五年級與四年級在校生人數(shù),縱坐標是各學(xué)校班級規(guī)模,實線表示根據(jù)邁蒙尼提斯規(guī)則繪制的班級規(guī)模隨年級入學(xué)人數(shù)變化的理論預(yù)測線,虛線表示樣本中各公立小學(xué)班級規(guī)模隨年級入學(xué)人數(shù)變化的實際變化線,可以看出這兩條線起伏變化高度吻合。圖2(b)的橫坐標依然是在校生人數(shù),縱坐標變?yōu)楦餍W(xué)生的平均閱讀成績,安格里斯特和拉維“驚奇地”發(fā)現(xiàn)各校學(xué)生平均成績的變化線同樣呈折線變化,并且其變化方向與根據(jù)邁蒙尼提斯規(guī)則繪制的班級規(guī)模理論預(yù)測線正好相反,即當(dāng)年級在校生人數(shù)未達到40、80 和120······人這些班級拆分點時,學(xué)校班級規(guī)模大都呈上升趨勢,而此時學(xué)生的閱讀成績大都呈下降趨勢。相反,一旦年級在校生人數(shù)超過這些班級拆分點時,學(xué)校班級規(guī)模大都呈下降趨勢,而此時學(xué)生的閱讀成績卻大都呈上升趨勢。學(xué)生成績與班級規(guī)模呈同時且反向的折線跳躍變化,由此可初步判定班級規(guī)模應(yīng)對學(xué)生成績具有一定的因果效應(yīng)?;谶@一研究設(shè)計,安格里斯特和拉維運用模糊斷點回歸估計出縮減班級規(guī)模對五年級學(xué)生閱讀和數(shù)學(xué)成績有顯著的正效應(yīng),對四年級學(xué)生閱讀成績有微弱的正效應(yīng)。
圖2 以色列公立小學(xué)在校生人數(shù)、班級規(guī)模與學(xué)生成績
如前所述,在有關(guān)增加學(xué)校投入能否提高教學(xué)質(zhì)量這一問題上,教育經(jīng)濟學(xué)界長期存在著爭議?!犊茽柭鼒蟾妗钒l(fā)現(xiàn)美國公立學(xué)校投入在提升兒童學(xué)業(yè)成績方面起到的作用極為有限(Coleman et al.,1966)。該報告一經(jīng)發(fā)布,便在美國社會與知識界引發(fā)激烈的討論。經(jīng)濟學(xué)家埃里克·漢納謝克(Eric Hanushek)支持《科爾曼報告》的觀點,他的系列研究顯示學(xué)校投入與學(xué)生學(xué)業(yè)成績確不存在一致性與系統(tǒng)性關(guān)系(Hanushek,1986,1989,1997,2003),而以拉里·赫奇斯(Larry V. Hedges)為首的另一批學(xué)者同樣運用數(shù)據(jù)分析發(fā)現(xiàn)某些學(xué)校投入對學(xué)生學(xué)業(yè)成績在一定程度上是具有顯著影響的(Hedges et al.,1994a,1994b;Greenwald et al.,1996a,1996b;Laine et al.,1996)。
關(guān)于這一問題之所以有如此大的爭議,主要是因為精確識別學(xué)校投入與學(xué)生學(xué)業(yè)成績之間因果關(guān)系存在很大的技術(shù)困難。學(xué)校之間在投入水平上存在很大差異,而學(xué)生在不同學(xué)校之間的分配也是非隨機的?,F(xiàn)實中,通常情況是私立學(xué)校投入超過公辦學(xué)校,精英學(xué)校投入超過普通學(xué)校,而學(xué)生擇校行為又與其家庭背景和個人能力密切相關(guān)(Clark,2010)。因此,在學(xué)校投入與學(xué)生學(xué)業(yè)成績的因果關(guān)系識別中,最關(guān)鍵的核心問題是如何構(gòu)造出一種不同家庭背景與不同能力學(xué)生在私立學(xué)校與公辦學(xué)校、精英學(xué)校與普通學(xué)校之間隨機分配的數(shù)據(jù)條件。
為解決這一問題,安格里斯特與其合作者利用美國憲章學(xué)校(Charter School)隨機抽簽錄取學(xué)生這一制度形成對此類學(xué)校教學(xué)效果的因果識別與估計。美國憲章學(xué)校是一種特殊的公立學(xué)校類型,此類學(xué)校同樣接受政府財政的資助,但采用比傳統(tǒng)公立學(xué)校更加靈活、更加自主的學(xué)校運營模式。在許多城市,憲章學(xué)校改革取得了很好的成效,憲章學(xué)校學(xué)生的平均成績普遍高于傳統(tǒng)公立學(xué)校同類學(xué)生。然而,有不少人認為憲章學(xué)校學(xué)生成績之所以高,不是因為此類學(xué)校教學(xué)質(zhì)量高,而是因為就讀憲章學(xué)校的學(xué)生的學(xué)習(xí)能力原本就比就讀傳統(tǒng)公立學(xué)校的同類學(xué)生強,這些學(xué)生的家長也要比傳統(tǒng)公立學(xué)校的同類學(xué)生家長更重視孩子的教育。
為解答這一疑問,安格里斯特等人利用馬薩諸塞州林恩市KIPP(憲章)學(xué)校通過抽簽決定學(xué)生入學(xué)資格這一隨機事件形成工具變量,完成了對憲章學(xué)校教學(xué)效果的因果推斷(Angrist et al.,2012)。按照馬薩諸塞州政府規(guī)定,若學(xué)校每年入學(xué)申請人數(shù)超過既定的學(xué)額數(shù),就要采用隨機抽簽的方式來分派學(xué)額。2005 年,林恩市憲章學(xué)校入學(xué)申請人數(shù)首次超過學(xué)額數(shù),開始通過隨機抽簽決定申請學(xué)生的入學(xué)資格。學(xué)生是否抽中入學(xué)資格完全由“老天”決定,這是一個外生的隨機變量。然而,獲得入學(xué)資格的學(xué)生未必就讀KIPP 學(xué)校,有一部分學(xué)生可能會放棄KIPP 入學(xué)資格而選擇就讀傳統(tǒng)公立學(xué)?;蛩搅W(xué)校。因此,是否獲得入學(xué)資格對成績的影響只是一種“意向性處理效應(yīng)”(Intent-to-treat Effect,ITT),它不同于學(xué)生是否就讀KIPP 學(xué)校對成績產(chǎn)生的處理效應(yīng)。
對此,安格里斯特等人提出,雖然獲得入學(xué)資格不能直接作為處理變量,但它可以作為工具變量發(fā)揮作用。根據(jù)樣本描述統(tǒng)計,在抽簽獲得入學(xué)資格的學(xué)生中有73%就讀KIPP 學(xué)校,而未獲得入學(xué)資格的學(xué)生中僅有3.5%就讀KIPP 學(xué)校,這兩個比例相差69.5%。安格里斯特等人跟蹤了所有向KIPP 學(xué)校提交入學(xué)申請的學(xué)生的數(shù)學(xué)考試成績,他們發(fā)現(xiàn)獲得入學(xué)資格學(xué)生的數(shù)學(xué)平均成績比全州平均成績低0.003 個標準差,而未獲得入學(xué)資格學(xué)生的數(shù)學(xué)平均成績比全州平均成績低0.358 個標準差,兩者相差0.353 個標準差。根據(jù)工具變量的Wald 估計量公式:
可以計算出就讀KIPP 學(xué)校對學(xué)生數(shù)學(xué)成績的平均處理效應(yīng)為:0.355/0.695=0.511,表明就讀KIPP 學(xué)校能使學(xué)生平均數(shù)學(xué)成績提高大約0.5 標準差。這一結(jié)果是在隔絕了學(xué)生個人能力、學(xué)習(xí)動機和家庭背景影響的條件下取得的,表明林恩市KIPP 學(xué)校學(xué)生成績優(yōu)于其他學(xué)校同類學(xué)生并不是學(xué)生和家庭自我選擇的結(jié)果,KIPP 學(xué)校在提升學(xué)生學(xué)業(yè)成績方面確實取得了顯著的成效。
卡德對于學(xué)校投入亦有重要的研究發(fā)現(xiàn)??ǖ聦h納謝克的“學(xué)校投入無用”觀點持懷疑態(tài)度,他認為將學(xué)生學(xué)業(yè)成績作為學(xué)校教育結(jié)果過于短視,應(yīng)以個人工資收入(而非學(xué)業(yè)成績)作為學(xué)校教育結(jié)果。早在1992 年,卡德與克魯格便合作發(fā)表有關(guān)學(xué)校投入的文章(Card & Krueger,1992)。他們以美國1980 年全國人口普查數(shù)據(jù)中于1920—1940 年出生的個體為樣本,采用雙向固定效應(yīng)法(Two-way Fixed Effect),在控制個體出生隊列與所在州固定效應(yīng),以及家庭背景的條件下,就一系列學(xué)校投入指標對個人工資收入的影響進行估計,發(fā)現(xiàn)有部分學(xué)校投入指標(如教師學(xué)歷、女性教師占比等)對個人工資收入具有顯著的正效應(yīng)。
總的來看,根據(jù)已有的因果研究,現(xiàn)實中有大量的學(xué)校投入確實是無效的,尤其是一些我們曾以為十分重要的學(xué)校投入都對學(xué)生學(xué)業(yè)成績無顯著的因果效應(yīng)(Glewwe et al.,2011)。為什么如此多的學(xué)校投入是無效的呢?一種最具說服力的解釋是許多學(xué)校將資源都投入到不能有效促進學(xué)生認知能力發(fā)展的方面。如果這一解釋成立,那么接下來我們所面臨的將是另一個更重要的命題,即學(xué)生的認知能力究竟是如何形成與發(fā)展的,它最易受那些外界環(huán)境與投入的影響?對于這一問題,認知神經(jīng)學(xué)家與經(jīng)濟學(xué)家早已開始進行研究,并取得了許多突破性的成果,有興趣的讀者可參見Heckman(2006)和Nelson & Margaret(2011)。
近年來,我國教育因果推斷研究數(shù)量不斷增多,研究質(zhì)量亦不斷提升,尤其是在義務(wù)教育政策領(lǐng)域,國內(nèi)學(xué)者在應(yīng)用因果推斷方法科學(xué)評價過往教育政策改革成效方面取得了較豐碩的成果(如孫志軍等人,2010;哈巍和余韌哲,2017;Huang et al.,2017;黃斌等人,2019;Ding et al.,2020)。但總體看,當(dāng)前我國教育因果研究還處于“初級階段”,國內(nèi)教育領(lǐng)域從事因果研究的學(xué)者數(shù)量還不多,量化文獻中因果研究數(shù)量占比還不高,高質(zhì)量研究更是少之又少。以下,我們將對制約我國教育因果推斷研究發(fā)展的若干問題進行討論。
有別于傳統(tǒng)量化研究,因果推斷研究最重要的內(nèi)核不是統(tǒng)計技術(shù)應(yīng)用,而是準確識別干預(yù)分配機制并基于此形成有效的研究設(shè)計。要做到這一點,研究者必須對現(xiàn)實教育背景與政策改革有深入的了解,如此才能明白:在我們所研究的微觀對象中,哪些對象接受了干預(yù)以及接受了怎樣的干預(yù);政策干預(yù)的分配是不是隨機的;如果不是隨機分配,處理組與控制組在哪些特征上存在顯著差異;這些差異顯著特征中有哪些會對因果關(guān)系識別產(chǎn)生混淆作用;我們應(yīng)采用怎樣的研究設(shè)計實現(xiàn)處理組與控制組的數(shù)據(jù)平衡,以獲得因果關(guān)系的無偏估計;高質(zhì)量的因果推斷研究一定是先基于現(xiàn)實政策背景掌握政策干預(yù)的對象、內(nèi)容與分配規(guī)則,了解處理組與控制組數(shù)據(jù)的非平衡表現(xiàn),再有針對性地采用一定的因果研究設(shè)計實現(xiàn)處理組與控制組之間的數(shù)據(jù)平衡,最后才是運用一定計量技術(shù)完成參數(shù)估計、統(tǒng)計推斷及各種假設(shè)檢驗。
與此相比,目前國內(nèi)教育因果研究存在“頭輕腳重”的問題,即過度重視后期統(tǒng)計技術(shù)“套路”的運用,忽視前期干預(yù)分配機制識別與研究設(shè)計工作。有不少研究花費許多筆墨介紹某一因果推斷方法的基本原理、模型構(gòu)建與估計法,對于真正需要濃墨重彩介紹的政策背景、干預(yù)分配機制與因果研究設(shè)計等內(nèi)容,卻總是一筆帶過,語焉不詳;另有一些研究過度追求數(shù)據(jù)結(jié)構(gòu)與量化方法的復(fù)雜性,對形成有效因果識別的一些基礎(chǔ)性工作卻視而不見。筆者曾評審過一篇文章,該文利用我國農(nóng)戶多年跟蹤面板數(shù)據(jù),在控制個體固定效應(yīng)的條件下對農(nóng)村勞動力(已完成學(xué)校教育)的教育收益率進行估計,并宣稱利用追蹤面板數(shù)據(jù)進行估計能獲得更加一致、穩(wěn)健的教育收益率估計結(jié)果?!袄硐牒苊篮?,現(xiàn)實很骨感”,作者未曾想到既然樣本中個體已完成了學(xué)校教育,那么在他所追蹤的年份中同一個體的受教育年限變量取值必定是不變的,如此如何能通過個體固定效應(yīng)模型估計出教育收益率呢?
因果研究,無論是隨機對照實驗研究,還是基于可觀測數(shù)據(jù)的準實驗研究,其背后都蘊藏著極為嚴苛的前提假設(shè)與適用條件。當(dāng)前國內(nèi)有不少研究對各類因果方法的假設(shè)檢驗工作還不夠重視。
因果推斷研究是以潛在結(jié)果框架作為理論基礎(chǔ),此框架要求干預(yù)分配應(yīng)滿足非混淆性假設(shè)(Unconfoundedness),即個體是否接受干預(yù)應(yīng)獨立于其所可能獲得的潛在結(jié)果。非混淆性假設(shè)是形成因果推斷的最關(guān)鍵假設(shè),但可惜的是,由于個體的潛在結(jié)果總有一方是無法觀測到的,因此該假設(shè)無法被直接檢驗,只能采取證偽(Falsification)檢驗。倍差法的平行趨勢檢驗、工具變量法的獨立性檢驗、斷點回歸的概率密度檢驗與斷點連續(xù)性檢驗、傾向得分法的數(shù)據(jù)平衡性檢驗都屬于證偽檢驗。證偽檢驗慣用的邏輯是:“根據(jù)當(dāng)前的研究設(shè)計所得到的因果結(jié)論,事件A 是不可能發(fā)生的,如果A 事件發(fā)生,即可證明該因果結(jié)論是不成立的?!币员恫罘ǖ钠叫汹厔輽z驗為例,該檢驗要求研究者應(yīng)對干預(yù)發(fā)生之前處理組和控制組的結(jié)果變化趨勢進行研判,如果在干預(yù)之前這兩組的結(jié)果變化趨勢就已經(jīng)發(fā)生分化,那么在干預(yù)期,這兩組的結(jié)果變化依然發(fā)生分化的可能性就非常大,此時控制組結(jié)果就不能作為處理組如果不接受干預(yù)時的反事實結(jié)果,若“強行”使用倍差法,估計得到的處理效應(yīng)很可能就是有偏的。雖然本質(zhì)上,證偽檢驗只能證明誰是“假”因果,不能驗明誰是“真”因果,但對于研究者捍衛(wèi)自身估計結(jié)果的因果性與內(nèi)部有效性來說是極為重要的,不容忽視。
近年來,國內(nèi)教育學(xué)期刊中使用傾向得分法的應(yīng)用性文章數(shù)量激增,但該方法被濫用和錯用的問題也最為突出。與其他因果方法相比,傾向得分法有三方面特性:首先,由于匹配變量通常包括若干隨時間變化的特征變量,因此理論上實施傾向得分匹配應(yīng)至少擁有兩期跟蹤面板數(shù)據(jù)。研究者使用干預(yù)發(fā)生前的基期數(shù)據(jù)進行處理組和控制組匹配操作,而后再使用干預(yù)實施后的一期數(shù)據(jù)進行處理效應(yīng)估計。如此做的目的在于保證干預(yù)實施前處理組和控制組便已經(jīng)處于數(shù)據(jù)平衡狀態(tài),如同我們在進行隨機實驗時總是在實驗之前就完成處理組和控制組的隨機分配。其次,偏估可分為可觀測的顯性偏估(Overt Bias)和未觀測的隱性偏估(Hidden Bias)兩大類(Rosenbaum,2002,p. 71)。傾向得分法只能用于糾正顯性偏估,無力解決隱性偏估。也就是說,只有在模型中絕大多數(shù)偏估可以通過已有數(shù)據(jù)觀測到的條件下,它才能形成對因果關(guān)系的正確識別。因此,為盡量減少模型偏估的可能性,實施傾向得分匹配必須要在匹配前后做數(shù)據(jù)平衡檢驗,以評估其對顯性偏估的糾偏作用,并將匹配法與倍差法或斷點回歸法配合使用,以解決隱性偏估問題。最后,傾向得分匹配一般要采用一定方法對原樣本進行重組,但這一過程包含許多帶有濃厚主觀色彩的技術(shù)操作,如匹配變量的選取、選擇模型形式的設(shè)定、具體匹配法的選擇等,不同的參數(shù)和技術(shù)組合可能會使匹配后樣本的容量與結(jié)構(gòu)發(fā)生較大變化,其估計結(jié)果亦“飄忽不定”。
對于傾向得分法的上述特性,國內(nèi)已有研究大都不重視。以一篇剛在教育學(xué)刊物發(fā)表的文章為例,該文采用傾向得分法對農(nóng)村勞動力的職業(yè)教育收益率進行估計,文中使用的數(shù)據(jù)是近期某年橫截面的調(diào)查數(shù)據(jù),處理變量為農(nóng)村勞動力是否接受過正式的職業(yè)教育。該文存在一些明顯的錯誤:一是樣本中絕大多數(shù)處理組個體在調(diào)查之前就已經(jīng)完成了職業(yè)教育,這意味著作者是采用干預(yù)發(fā)生之后的協(xié)變量對處理組和控制組進行匹配,所形成的是處理組和控制組在干預(yù)之后的數(shù)據(jù)平衡,嚴重偏離因果推斷的重要假設(shè);二是形成匹配樣本后直接通過處理組和控制組均值對比來估計平均處理效應(yīng),未配合使用其他因果方法,對明顯存在的職業(yè)教育收益率隱性偏估問題不做任何文字討論與檢驗;三是未對匹配變量的選取和選擇模型形式的設(shè)定進行檢驗,刻意降低顯著性水平以確保所有匹配變量的平衡檢驗得以通過。
King & Nielson(2019)指出傾向得分匹配存在嚴重的模型依賴問題(Model Dependence),他們認為觀測數(shù)據(jù)研究的關(guān)鍵在于破解數(shù)據(jù)產(chǎn)生的過程,傾向得分匹配正是通過構(gòu)建和估計選擇模型來完成這一破解任務(wù),但可惜的是我們對于現(xiàn)實中觀測數(shù)據(jù)的產(chǎn)生過程知之甚少,這使得我們在使用傾向得分法時帶有較大的主觀性和隨意性。估計結(jié)果有賴于模型設(shè)定,當(dāng)有多個模型都能很好地擬合數(shù)據(jù)并達成數(shù)據(jù)平衡目標時,研究者自然青睞于那個能產(chǎn)生自己心儀結(jié)果的模型,由此量化研究就喪失了客觀與科學(xué)的品質(zhì),淪落為一種單純?yōu)楂@得參數(shù)估計的“技術(shù)游戲”。
教育科學(xué)研究的重要使命是揭示教育現(xiàn)象背后的教育運行規(guī)律,這就要求研究者不僅要回答“X 對Y 是否具有因果效應(yīng)”,還需解釋該因果效應(yīng)的發(fā)生機制,闡明X 是通過何種途徑對Y 發(fā)生因果效應(yīng)的(即“How”問題),以及X 是在何種條件下對Y 發(fā)生因果效應(yīng)的(即“When”問題)。目前國內(nèi)教育因果研究還主要關(guān)注兩變量因果關(guān)系的識別與估計,對因果關(guān)系的發(fā)生機制研究得還不夠,對于許多重要的教育投入與其結(jié)果變量之間的因果關(guān)系,我們僅知其然,但不知其所以然。
探究變量間影響機制一般要采用中介效應(yīng)分析,就X 是否通過Z 或其他變量進而對Y 產(chǎn)生影響進行分析。本質(zhì)上,中介效應(yīng)“X→Z→Y”反映的是帶有明確作用方向的多變量間因果關(guān)系,而當(dāng)下流行的各種中介效應(yīng)檢驗法,無論是早期提出的分步檢驗法(Baron & Kenny,1986),還是近來流行的自舉法檢驗和條件過程分析法(Hayes,2018),都不是從因果推斷的正式分析框架(潛在結(jié)果框架)推演出來的,它們只能實現(xiàn)變量間機制的相關(guān)分析。然而,國內(nèi)有大量教育研究將這些方法用于因果中介效應(yīng)估計。以另一篇剛在教育學(xué)刊物發(fā)表的文章為例,該文利用省級面板數(shù)據(jù)就留學(xué)教育對我國經(jīng)濟增長的因果影響機制進行回歸分析,其中外國直接投資、技術(shù)研發(fā)與創(chuàng)新為中介變量,所構(gòu)建中介模型如下:
在模型(3)—(5)中,留學(xué)教育規(guī)模(edu_os)是處理變量,但各省留學(xué)教育規(guī)模受多種經(jīng)濟、社會因素的影響,因此它是內(nèi)生變量。同理,中介變量外國直接投資(FDI)和技術(shù)研發(fā)與創(chuàng)新(RD)也是內(nèi)生變量。因此,模型中幾乎所有的主要估計系數(shù)(a1、 β1、 π1、 π2和 π3)都很可能是偏估的。退一步說,即便模型未遺漏重要變量,不存在任何的隱性偏估,式(3)中的a1也是偏估的,因為它很明顯遺漏了中介變量外國直接投資(FDI)和技術(shù)研發(fā)與創(chuàng)新(RD),而該研究對中介效應(yīng)的第一步檢驗便是看估計系數(shù)a1是否顯著。第一步檢驗便是錯的,之后檢驗更是錯上加錯。
事實上,識別因果中介效應(yīng)“X→Z→Y”要比僅識別兩變量因果效應(yīng)“X→Y”困難得多,亦嚴苛得多。要實現(xiàn)對因果中介效應(yīng)的一致估計,既要保證個體是否接受干預(yù)與潛在結(jié)果、中介變量潛在取值無關(guān),還要保證在給定干預(yù)的條件下中介變量取值與潛在結(jié)果無關(guān)。目前有關(guān)因果機制識別與估計方法的研究尚處于探索階段,具體討論可參見Imai 等人(2011)。
針對上述問題,可從教育量化方法教學(xué)改革與教育因果研究創(chuàng)新能力提升兩方面提出一些建議。
當(dāng)前國內(nèi)高校教育學(xué)相關(guān)專業(yè)的量化方法教學(xué)多以教育統(tǒng)計學(xué)為基礎(chǔ)課程,該課程大都沿襲心理統(tǒng)計學(xué)的教學(xué)傳統(tǒng),授課內(nèi)容以概率與統(tǒng)計初步和心理研究常用方法為主。然而,心理學(xué)研究較多采用實驗方法,在干預(yù)為隨機分配的實驗數(shù)據(jù)條件下研究者通過簡單的組間均值對比與檢驗或簡單線性回歸便可獲得因果結(jié)論,而相比之下,教育研究(尤其是教育政策研究)所使用的數(shù)據(jù)多為非實驗的觀測數(shù)據(jù),若照搬心理實驗研究慣用方法來判定變量間因果關(guān)系,其結(jié)果必大謬。
教育量化方法課程的目的是培養(yǎng)學(xué)生運用科學(xué)思維與方法探究人類學(xué)習(xí)成長與教育行為規(guī)律的能力,而科學(xué)思維中最重要的就是因果思維,科學(xué)方法中最重要的亦是基于科學(xué)實驗方法原理形成的因果推斷方法,但吊詭的是,目前絕大多數(shù)教育量化方法課程都未包含有關(guān)因果思維與方法的知識。如此設(shè)計課程容易造成學(xué)生對量化方法學(xué)習(xí)目標的“認知偏差”,使學(xué)生形成一種“為學(xué)習(xí)方法而學(xué)習(xí)方法”的錯覺。譬如,學(xué)生在學(xué)習(xí)OLS 線性回歸時總是關(guān)注如何獲得主要解釋變量的顯著估計結(jié)果,對模型中應(yīng)控制哪些變量卻不太關(guān)心,這是因為現(xiàn)有方法課程習(xí)慣性地把掌握某種統(tǒng)計技術(shù)當(dāng)作教學(xué)目標。如果方法課程是以探索變量間因果關(guān)系作為教學(xué)目標,讓學(xué)生明白一種結(jié)果的產(chǎn)生有多種可能的解釋,預(yù)設(shè)的“因”只是其中一種“備選解釋”,如此學(xué)生自然會思考應(yīng)采用怎樣的控制策略才能獲得較為可靠的因果結(jié)論,并關(guān)注在控制不同變量的條件下主要解釋變量的估計結(jié)果會發(fā)生怎樣的變化,如此學(xué)生也就不會產(chǎn)生“只要控制變量不顯著,就可以踢出模型”這樣的錯誤認識。
因果推斷方法的發(fā)展帶來的不只是更多新的統(tǒng)計技術(shù),更是量化思維的徹底革新。我國教育學(xué)各專業(yè)未來應(yīng)充分借鑒和吸收前沿因果推斷思想,圍繞強化培養(yǎng)學(xué)生科學(xué)思維與因果推斷能力這一核心目標,對現(xiàn)有的本科與研究生量化方法課程與教學(xué)體系進行改革:首先,可考慮在本科階段單獨設(shè)置一門“因果思維”課程作為所有教育量化方法課程的前置課程,此課程不講授任何具體的統(tǒng)計技術(shù),以介紹因果推斷的基本知識與社會科學(xué)因果推斷經(jīng)典研究為主要內(nèi)容。也可考慮將這些知識濃縮,放入到“教育統(tǒng)計學(xué)”的靠前章節(jié)中進行講解,如美國普林斯頓大學(xué)教授、統(tǒng)計學(xué)家今井耕介(Kosuke Imai)編著的著名教材Quantitative Social Science: An Introduction中,引言之后的第二章便介紹因果定義及相關(guān)方法;其次,可考慮在本科生高年級設(shè)置“教育因果推斷方法”選修課程,并在研究生低年級設(shè)置“教育因果推斷方法進階”必修課程,作為“教育統(tǒng)計學(xué)”的后置課程,具體講解隨機對照實驗設(shè)計與各種常用的準實驗方法。
如前所述,正確識別干預(yù)分配機制是實現(xiàn)可靠因果分析的前提條件,而要做到這一點,研究者需對現(xiàn)實教育背景與政策有透徹的了解。在因果研究中,事實邏輯永遠優(yōu)先于技術(shù)邏輯。一旦研究設(shè)計與教育現(xiàn)實不符,無論獲得多么漂亮的數(shù)據(jù)分析結(jié)果,亦是無用的,甚至是有害的。
首先,研究者需明白誰為因,誰為果。對于結(jié)果變量來說,政策干預(yù)是原因,它應(yīng)是結(jié)果變量的前定變量;而對于政策干預(yù)來說,控制或匹配變量是原因,它應(yīng)是干預(yù)變量的前定變量。研究者只有對政策實施的歷史與現(xiàn)狀有足夠的了解,才能形成各變量之間在因果鏈條上的準確時序,才不會犯變量間因果時序顛倒的“低級錯誤”。
其次,研究者需明晰政策干預(yù)的對象、內(nèi)容和過程。即便是同一政策,在地方落地實施過程亦可能呈現(xiàn)出很大的差別。教育政策的多樣化與差異性正是教育政策研究創(chuàng)新的重要來源。譬如,對某一教育事權(quán)下放制度改革進行成效評價研究,我們以往常將干預(yù)賦值為0 和1,實施該改革的地方賦值為1,未改革的地方賦值為0。而事實上,教育事權(quán)概念復(fù)雜,它包括多種權(quán)力,如教育服務(wù)舉辦權(quán)、監(jiān)督權(quán)與調(diào)控權(quán)等(魏建國,2019),不同省份對不同縣區(qū)下放的具體事權(quán)很可能是不同的,由此導(dǎo)致該政策干預(yù)在不同地方實際運行中會產(chǎn)生不同的效力。如何將政策的多樣性與差異性用變量間數(shù)量變化關(guān)系呈現(xiàn)出來,是未來教育因果研究尋求突破與創(chuàng)新的一個重要方向,而要實現(xiàn)這一點,研究者就必須非常了解政策干預(yù)在不同地方的實施內(nèi)容與過程。
最后,研究者需基于教育現(xiàn)實、政策背景和數(shù)據(jù)結(jié)構(gòu)來挑選因果識別策略。譬如,有效的工具變量需滿足第一階段效應(yīng)、獨立與排他限制三個假設(shè),其中第一階段效應(yīng)與獨立假設(shè)可通過一定方法得到直接或間接的檢驗,而排他限制假設(shè)幾乎是不可被檢驗的,只能依靠事實邏輯進行判定。一個“好”的工具變量可以來自研究者的經(jīng)驗或直覺判斷,也可以來自研究者基于理論理解所形成的對變量間內(nèi)在邏輯的知識構(gòu)建,無論來自何處,它都必須符合事實邏輯,與教育現(xiàn)實和政策背景不沖突。正如安格里斯特在Instrumental Variables and the Search for Identification一文中所指出的:“在我們看來,好的工具變量常來自對決定自變量取值的經(jīng)濟機制和制度的細致了解。”
(黃斌工作郵箱: huangbin@nju.edu.cn;本文通信作者為李波:libobnu@163.com)
華東師范大學(xué)學(xué)報(教育科學(xué)版)2022年4期