劉 驥, 強(qiáng)發(fā)瑛, 李海茜
(陜西師范大學(xué) 教育學(xué)部, 西安 710062)
黨的二十大報(bào)告明確設(shè)立“實(shí)施科教興國戰(zhàn)略,強(qiáng)化現(xiàn)代化建設(shè)人才支撐”專章,將教育事業(yè)的高水平發(fā)展放在了歷史戰(zhàn)略位置。在實(shí)現(xiàn)高質(zhì)量發(fā)展的新征程上,教育現(xiàn)代化作為中國式現(xiàn)代化的核心組成,是全面實(shí)現(xiàn)中華民族復(fù)興的關(guān)鍵支撐?!吨袊逃F(xiàn)代化2035》中明確提出要大力推進(jìn)教育治理方式變革,加快形成現(xiàn)代化的教育管理體系,推進(jìn)管理精準(zhǔn)化和決策現(xiàn)代化。(1)《中共中央、國務(wù)院印發(fā)〈中國教育現(xiàn)代化2035〉》,《人民日?qǐng)?bào)》2019年2月24日。2023年5月29日,習(xí)近平總書記在中共中央政治局第五次集體學(xué)習(xí)時(shí)強(qiáng)調(diào)要加強(qiáng)以教育理念、體系、制度、內(nèi)容、方法、治理現(xiàn)代化為基本路徑,辦好人民滿意的教育。
就本質(zhì)而言,教育決策的現(xiàn)代化需要依托教育改革方法論的發(fā)展,圍繞科學(xué)循證確保教育政策的制定有例可循、有據(jù)可依,通過專業(yè)智慧支撐教育實(shí)踐,進(jìn)而優(yōu)化教育決策,為教育決策現(xiàn)代化提供方法論基礎(chǔ)。(2)陳喚春、蔣貴友:《循證教育改革歷史演變與實(shí)踐反思》,《比較教育研究》2021年第3期。早在1913年,哈佛大學(xué)教育學(xué)院首任院長保羅·漢努斯(Paul Hanus)在美國教育學(xué)會(huì)年會(huì)上提出“唯有精準(zhǔn)無懈的科學(xué)方法才能糾正教育事物中常見的錯(cuò)誤性常識(shí)”,認(rèn)為教育研究的科學(xué)化意義遠(yuǎn)超學(xué)科自身發(fā)展與方法論的進(jìn)步,而將更重要地影響社會(huì)的全面科學(xué)發(fā)展。(3)P.H.Hanus,School Administration and School Reports,(Boston:Houghton Mifflin Press,1920),3—4.由此可見,如何通過教育研究中對(duì)教育事務(wù)基本因果邏輯的建立,進(jìn)而賦能教育決策現(xiàn)代化,成為極具學(xué)科價(jià)值與現(xiàn)實(shí)意義的問題?;诖?本研究圍繞因果推斷研究范式在教育中的應(yīng)用對(duì)我國教育發(fā)展的影響展開以下討論:一是梳理教育決策的方法論演進(jìn);二是構(gòu)建教育決策的“反事實(shí)框架”;三是探究外部效度作為教育決策科學(xué)的核心指向;四是總結(jié)教育決策現(xiàn)代化對(duì)我國加快建設(shè)教育強(qiáng)國的戰(zhàn)略意義。
相關(guān)性研究往往關(guān)注變量間相互關(guān)聯(lián)的程度,無法直接驗(yàn)證變量間的因果關(guān)系。(4)黃斌、方超、汪棟:《教育研究中的因果關(guān)系推斷——相關(guān)方法原理與實(shí)例應(yīng)用》,《華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版)》2017年第4期。正如科學(xué)研究領(lǐng)域所達(dá)成的普遍共識(shí)——“相關(guān)性不代表因果關(guān)系”,相關(guān)性研究是從事先觀察到的結(jié)果出發(fā),通過實(shí)地訪談、田野問卷等手段收集的數(shù)據(jù)來歸納與結(jié)果變量相關(guān)的解釋因素。抽象的看,相關(guān)性研究的實(shí)質(zhì)是通過“歸因分析”的形式呈現(xiàn),強(qiáng)調(diào)從結(jié)果的差異出發(fā),尋找解釋結(jié)果差異的原因。這一分析范式常導(dǎo)致研究者找到的解釋因素(X1,X2,…,Xn)無法窮舉,也就是遺漏變量偏誤(omitted variable bias),從而制約因果影響的真實(shí)估計(jì)。此外由于個(gè)體與客觀世界的互動(dòng),相關(guān)性分析還受到與解釋變量相關(guān)的其他因素和研究對(duì)象依據(jù)個(gè)人意愿決定接受干預(yù)與否的內(nèi)生性問題(endogeneity issue)和自選擇偏差問題(self-selection bias)的影響,導(dǎo)致無法精確識(shí)別變量間的因果關(guān)系。
針對(duì)變量間因果關(guān)系的識(shí)別,學(xué)界開展了眾多討論和嘗試,其中就包括增加數(shù)據(jù)的樣本量和開展多時(shí)間點(diǎn)的追蹤。與這一嘗試相關(guān)的研究案例眾多,其中包括美國的《科爾曼報(bào)告》(Coleman Report)、英國的《一萬五千個(gè)小時(shí)》(Fifteen Thousand Hours),和智利的《他們八年的青春》(Eight Years of Their Lives)。在《科爾曼報(bào)告》中,研究者收集了大量數(shù)據(jù),但因?yàn)檠芯吭O(shè)計(jì)中缺少學(xué)生入學(xué)前成績的信息導(dǎo)致測(cè)試結(jié)果缺少對(duì)照,最終無法準(zhǔn)確識(shí)別學(xué)校財(cái)政資源對(duì)學(xué)生學(xué)業(yè)成就的因果效應(yīng)。在《一萬五千個(gè)小時(shí)》和《他們八年的青春》中,研究者利用長期追蹤同一群體的研究數(shù)據(jù),發(fā)現(xiàn)學(xué)校作為與學(xué)生學(xué)業(yè)成就相互關(guān)聯(lián),但依舊無法準(zhǔn)確識(shí)別學(xué)校作為與學(xué)生學(xué)業(yè)成就之間的因果效應(yīng)。(5)R.J.Murnane &J.B.Willett,Methods Matter,(New York:Oxford University Press,2010),9—10.事實(shí)證明,盡管應(yīng)用大樣本量和長期追蹤調(diào)查的方法是教育研究中的進(jìn)步,但從數(shù)據(jù)側(cè)介入并無法準(zhǔn)確識(shí)別因素間的因果關(guān)系。因此,要真正解決這一問題,關(guān)鍵是要通過嚴(yán)謹(jǐn)規(guī)范的研究設(shè)計(jì)來避免相關(guān)性研究中遺漏變量偏誤的影響。
從理論基礎(chǔ)上看,識(shí)別變量間因果關(guān)系的研究設(shè)計(jì)需要規(guī)范嚴(yán)謹(jǐn)?shù)睦碚摲治隹蚣?。美國統(tǒng)計(jì)學(xué)家唐納德·魯賓(Donald B. Rubin)提出的“潛在結(jié)果框架”(potential outcomes framework),又稱為“反事實(shí)框架”(counterfactual framework)為消除遺漏變量偏誤問題提供了一種可行方案。潛在結(jié)果框架是指研究者假設(shè)任何結(jié)果都存在兩種狀態(tài),受到干預(yù)(intervention)時(shí)的事實(shí)結(jié)果狀態(tài)(factual)和未受到干預(yù)時(shí)的反事實(shí)結(jié)果狀態(tài)(counterfactual)。(6)D.B.Rubin,“Estimating Causal Effects of Treatments in Randomized and Nonrandomized Studies”,Journal of Educational Psychology,5(1974):688—701.如果能有效識(shí)別事實(shí)與反事實(shí)結(jié)果之間的差別,即排除由遺漏變量帶來的偏誤影響,研究者就能夠準(zhǔn)確建立因素與結(jié)果的因果關(guān)聯(lián)。因此,潛在結(jié)果框架的核心思路是建立與觀察事實(shí)相反的結(jié)果狀態(tài),從而區(qū)分研究對(duì)象在相同情境下接受干預(yù)和不接受干預(yù)的差異。通過數(shù)學(xué)推導(dǎo),第i名研究對(duì)象受到的干預(yù)效應(yīng)為實(shí)驗(yàn)組(t)接受干預(yù)結(jié)果Yi(1)和對(duì)照組(c)未接受干預(yù)結(jié)果Yi(0)之差,即:
個(gè)體干預(yù)效應(yīng)i=Yi(1)-Yi(0)或ΔY=Yt-Yc
由此可見,教育因果推斷的核心實(shí)質(zhì)是探究自選擇偏差的影響因素,探明分組機(jī)制。
基于潛在結(jié)果框架的因果推斷研究,為教育決策中變量間的因果關(guān)系分析提供了有效路徑。在當(dāng)前,隨機(jī)干預(yù)實(shí)驗(yàn)(Randomized Controlled Trials,RCT)是因果推斷較為理想的方法之一,其通過實(shí)現(xiàn)隨機(jī)分組降低了由遺漏變量偏誤帶來的影響。但在社會(huì)科學(xué)尤其是教育研究中,隨機(jī)干預(yù)實(shí)驗(yàn)的應(yīng)用受到諸多因素的制約。首先,是科學(xué)與道德倫理的限制。教育研究的對(duì)象是人,對(duì)人施加干預(yù)無可避免會(huì)引起一定的道德倫理爭議,所以研究者無法按照實(shí)驗(yàn)方法人為干預(yù)和控制研究進(jìn)程。其次,人的行為和意志在個(gè)人經(jīng)歷、受教育水平等因素的影響下差異顯著,使得研究中存在較高的被試風(fēng)險(xiǎn)。再者,是歷史可溯性的限制。隨機(jī)干預(yù)實(shí)驗(yàn)注重在實(shí)驗(yàn)前對(duì)研究設(shè)計(jì)的思考,強(qiáng)調(diào)事前估計(jì)(ex-ante)。而在現(xiàn)有的教育研究中,許多教育研究者傾向于根據(jù)事實(shí)結(jié)果進(jìn)行事后估計(jì)(ex-post)。因此要使教育研究具備歷史可溯性,其前提條件是要在實(shí)驗(yàn)前進(jìn)行研究設(shè)計(jì)。除此之外,隨機(jī)干預(yù)實(shí)驗(yàn)的成本昂貴,研究者如果要在教育研究中獲取追蹤數(shù)據(jù)需要投入大量的資金成本,這并不利于大多數(shù)教育研究者實(shí)地開展隨機(jī)干預(yù)實(shí)驗(yàn)。
當(dāng)隨機(jī)干預(yù)實(shí)驗(yàn)不可行時(shí),基于“分組機(jī)制”發(fā)展形成了一系列因果效應(yīng)識(shí)別的準(zhǔn)實(shí)驗(yàn)方法(Quasi-Experiment)。一方面是尋找影響分組機(jī)制的外來因素。自然發(fā)生或形成的實(shí)驗(yàn)與觀測(cè)數(shù)據(jù)(observational data)不受人為干預(yù),因此研究對(duì)象在各項(xiàng)特征中可能會(huì)存在差異。挖掘解釋變量的外生性變化找到僅對(duì)結(jié)果變量產(chǎn)生影響的外來因素能夠消除或避免這些差異帶來的影響,建立真實(shí)或近似存在的隨機(jī)分組環(huán)境以評(píng)估某項(xiàng)政策或某種行為的因果效應(yīng)。(8)張羽:《教育政策定量評(píng)估方法中的因果推斷模型以及混合方法的啟示》,《清華大學(xué)教育研究》2013年第3期。另一方面是借助統(tǒng)計(jì)學(xué)手段,減少由分組機(jī)制不明造成因果偏誤。在教育研究中,由研究者直接調(diào)查或觀測(cè)到的數(shù)據(jù)具有事后性,導(dǎo)致研究者只能得到事實(shí)結(jié)果無法得知反事實(shí)結(jié)果。通過借助統(tǒng)計(jì)學(xué)手段,研究者能夠及時(shí)矯正或盡可能消除由分組機(jī)制不明確所帶來的偏誤。(9)曹浩文、杜育紅:《教育研究中的因果推斷方法探析——以班級(jí)規(guī)模與學(xué)業(yè)成績的關(guān)系研究為例》,《上海教育科研》2015年第6期??偟膩碇v,因果推斷研究形成了三大類,如圖1所示。其中最優(yōu)選擇是對(duì)分組機(jī)制進(jìn)行人為干預(yù),典型代表為隨機(jī)干預(yù)實(shí)驗(yàn)。次優(yōu)選擇是尋找影響分組機(jī)制的外來因素,代表方法包括自然實(shí)驗(yàn),斷點(diǎn)回歸和工具變量。再次則是對(duì)由分組機(jī)制不明造成偏誤的矯正,代表方法包括雙重差分、固定效應(yīng)和傾向匹配。
圖1 因果推斷方法分類示意
從發(fā)展脈絡(luò)上看,RCT主要應(yīng)用于衛(wèi)生健康領(lǐng)域中藥物療效和治療方法效果的檢測(cè)和評(píng)估。1935年,羅納德·費(fèi)希爾(Ronald Fisher)首先提出“隨機(jī)試驗(yàn)”的概念,推動(dòng)了RCT在醫(yī)學(xué)、藥學(xué)、護(hù)理學(xué)等自然科學(xué)研究領(lǐng)域的發(fā)展。(11)張延、王琪:《邁克爾·克雷默對(duì)發(fā)展經(jīng)濟(jì)學(xué)的貢獻(xiàn)——2019年度諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主學(xué)術(shù)貢獻(xiàn)評(píng)介》,《經(jīng)濟(jì)學(xué)動(dòng)態(tài)》2019年第12期。如2019年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主邁克爾·克雷默(Michael Kremer)與其合作者利用隨機(jī)實(shí)驗(yàn)法,在肯尼亞地區(qū)的學(xué)校中有效識(shí)別了提供蛔蟲藥物與學(xué)生出勤率間的因果效應(yīng)。(12)P.Glewwe,M. Kremer, S. Moulin &E. Zitzewitz, “Retrospective vs. Prospective Analysis of School Inputs:The Case of Flip Charts in Kenya”,Journal of Development Economics,1(2004):251—268.近年來,RCT逐漸滲透至教育、政策評(píng)估等社會(huì)科學(xué)領(lǐng)域。針對(duì)1985—1989年美國在田納西州開展的有關(guān)小班教學(xué)對(duì)學(xué)生學(xué)業(yè)成就影響的大規(guī)模追蹤調(diào)查研究STAR項(xiàng)目(Student-Teacher Achievement Ratio,STAR),研究者利用隨機(jī)分組機(jī)制將研究對(duì)象分成小班、常規(guī)班以及附帶教學(xué)助手的常規(guī)班這三組類別,在配對(duì)和控制校間差異、校內(nèi)差異、教學(xué)資源等因素的基礎(chǔ)上,評(píng)估了小班教學(xué)與學(xué)生學(xué)業(yè)成就間的因果效應(yīng),證實(shí)小班教學(xué)效果顯著高于常規(guī)班級(jí)和附帶教學(xué)助手的班級(jí)。(13)高秀娟:《美國田納西州STAR計(jì)劃——評(píng)價(jià)與討論》,《上海教育評(píng)估研究》2017年第2期。
1.自然實(shí)驗(yàn)
自然實(shí)驗(yàn)(Natural Experiment)強(qiáng)調(diào)研究者只是作為單純的觀察者通過觀察,利用某些不受人為控制的外生事件將研究對(duì)象隨機(jī)劃分成實(shí)驗(yàn)組和對(duì)照組,從而探究變量間因果關(guān)系。(14)J.D.Angrist,E. Bettinger,E.Bloom,E.King &M.Kremer,“Vouchers for Private Schooling in Colombia: Evidence from a Randomized Natural Experiment”, American Economic Review, 5(2002): 1535—1558.自然實(shí)驗(yàn)的基本思路是利用某一僅會(huì)影響結(jié)果變量但不影響解釋變量的接近于隨機(jī)分配的自然事件所產(chǎn)生的外部“選擇”,比如征兵、氣候變化等政策類、地理類因素,使研究對(duì)象隨機(jī)分配到實(shí)驗(yàn)組和對(duì)照組中。由于自選擇偏差僅受自然事件的影響,實(shí)驗(yàn)組(t)的期望效應(yīng)值E[Yt│S=t]和對(duì)照組(c)的期望效應(yīng)值E[Yt│S=c]之差異為干預(yù)手段對(duì)結(jié)果變量的因果效應(yīng),即:
自然實(shí)驗(yàn)起源于經(jīng)濟(jì)學(xué)領(lǐng)域,常見于社會(huì)經(jīng)濟(jì)領(lǐng)域研究中。2021年諾貝爾經(jīng)濟(jì)學(xué)獎(jiǎng)得主約書亞·安格里斯特(Joshua Angrist)與其合作者利用美國在20世紀(jì)50年代實(shí)行的隨機(jī)征兵(draft lottery)政策這一自然事件,將研究對(duì)象隨機(jī)分成具備征兵資格和不具備征兵資格兩組開展研究,得出服役與后來勞動(dòng)力市場收入之間具有因果效應(yīng)。(15)J. D. Angrist, “Lifetime Earnings and the Vietnam Era Draft Lottery: Evidence from Social Security Administrative Records”, American Economic Review,3(1990):313—336.近三十年來,受國家政策影響以及這一方法的全面普及,自然實(shí)驗(yàn)也逐漸進(jìn)入教育研究領(lǐng)域。借助2005年美國卡特里娜颶風(fēng)的影響,路易斯安那州大批低質(zhì)量公立學(xué)校學(xué)生被迫從受災(zāi)區(qū)轉(zhuǎn)移到郊區(qū)高質(zhì)量學(xué)校這一自然事件,研究者將研究對(duì)象隨機(jī)分成學(xué)生轉(zhuǎn)校前學(xué)業(yè)成就和轉(zhuǎn)校后學(xué)業(yè)成就兩組,通過實(shí)驗(yàn)數(shù)據(jù)的對(duì)比分析評(píng)估了學(xué)校教育質(zhì)量對(duì)學(xué)生長期學(xué)業(yè)成就的因果效應(yīng)。(16)B. I.Sacerdote,“When the Saints Go Marching Out: Long-Term Outcomes for Student Evacuees from Hurricanes Katrina and Rita”,American Economic Journal: Applied Economics,1(2012):109—135.
2.斷點(diǎn)回歸
斷點(diǎn)回歸(Regression Discontinuity,RD)是指存在一個(gè)由政策或地理等因素導(dǎo)致的臨界值,在一定范圍內(nèi)當(dāng)觀測(cè)數(shù)據(jù)在臨界值一側(cè)時(shí),研究對(duì)象作為實(shí)驗(yàn)組接受干預(yù),當(dāng)觀測(cè)數(shù)據(jù)在臨界值另一側(cè)時(shí),研究對(duì)象作為對(duì)照組不接受干預(yù)。這一臨界值是決定干預(yù)發(fā)生與否的斷點(diǎn),研究者可以通過比較斷點(diǎn)兩側(cè)相鄰對(duì)象的數(shù)據(jù)結(jié)果得到變量間的因果關(guān)系。由于研究對(duì)象的取值落入斷點(diǎn)任意一側(cè)是隨機(jī)發(fā)生的,所以較難人為操控使研究對(duì)象落入某一側(cè)概率更大,使得臨界值附近樣本的結(jié)果差別為干預(yù)的因果效應(yīng)。(17)劉沖、諸宇靈、李皓宇:《斷點(diǎn)回歸設(shè)計(jì):理論前沿進(jìn)展與新應(yīng)用場景》,《經(jīng)濟(jì)學(xué)報(bào)》2022年第3期。在具體運(yùn)算中,若存在斷點(diǎn)R,那么斷點(diǎn)右側(cè)δ單位內(nèi)的數(shù)據(jù)為接受干預(yù)的實(shí)驗(yàn)組(t)的結(jié)果,即[Yt│S=1,R+δ],斷點(diǎn)左側(cè)δ單位內(nèi)的數(shù)據(jù)為未接受干預(yù)的對(duì)照組(c)的結(jié)果,即[Yc│S=0,R-δ]。由于在斷點(diǎn)回歸設(shè)計(jì)中自選擇偏差全部由斷點(diǎn)影響,所以在斷點(diǎn)附近左右側(cè)的數(shù)據(jù)結(jié)果之差的極限值為干預(yù)手段對(duì)結(jié)果變量的因果效應(yīng),即:
1958年,美國西北大學(xué)心理學(xué)家安格斯·坎貝爾 (Angus Campbell)首次提出RD這一研究設(shè)計(jì),主張利用觀測(cè)數(shù)據(jù)分析變量之間的因果關(guān)系,在教育學(xué)、經(jīng)濟(jì)學(xué)等政策效應(yīng)評(píng)估中得到廣泛運(yùn)用。1969年,安格里斯特基于以色列政府頒布的班額政策,班級(jí)大小若超過40人則必須分為兩個(gè)班,利用RD開展班級(jí)大小與學(xué)生成績間因果效應(yīng)的識(shí)別,并得出班級(jí)人數(shù)越少,其班級(jí)平均成績?cè)胶玫难芯拷Y(jié)論。(18)J. D. Angrist &V. Lavy, “Using Maimonides' Rule to Estimate the Effect of Class Size on Scholastic Achievement”,The Quarterly Journal of Economics,2(1999):533—575.需要注意的是,盡管RD是在非實(shí)驗(yàn)條件下進(jìn)行因果推斷的一種有效方法,但為避免使用不當(dāng)以及確保斷點(diǎn)研究設(shè)計(jì)的內(nèi)部效度,RD的應(yīng)用需滿足兩個(gè)要求:一是在臨界值兩側(cè)結(jié)果變量是保持連續(xù)的;二是需界定臨界值附近的具體范圍,一般來講區(qū)域太窄會(huì)導(dǎo)致樣本量較小從而影響結(jié)果的準(zhǔn)確性,區(qū)域太寬會(huì)導(dǎo)致其他變量的干擾。
3.工具變量
工具變量(Instrumental Variable,IV)是指通過借助一個(gè)與解釋變量相關(guān),但對(duì)誤差項(xiàng)無影響的外生變量作為工具將研究對(duì)象自然分成實(shí)驗(yàn)組和對(duì)照組,如出生日期、最近上學(xué)距離等,借助工具變量剔除其他變量對(duì)解釋變量的影響來實(shí)現(xiàn)因果效應(yīng)的無偏估計(jì)。要通過工具變量獲得解釋變量與結(jié)果變量的因果關(guān)系鏈,IV的選擇需滿足三個(gè)條件:首先是工具變量要與所替代的解釋變量相關(guān),以確保解釋變量的變化可以通過工具變量來解釋。其次是這一工具變量要與其他因素不相關(guān),以排除研究中混雜因素的干擾。最后是要確保該工具變量只通過解釋變量對(duì)結(jié)果變量產(chǎn)生影響。(19)J. D. Angrist &P. J. Steffen, Mastering Metrics: The Path from Cause to Effect, (Princeton: Princeton University Press, 2015),67.IV的計(jì)算可通過兩階段回歸實(shí)現(xiàn)。第一階段是計(jì)算借助工具變量所區(qū)分的實(shí)驗(yàn)組和對(duì)照組的期望差值,即:
E[Dt-Dc]=E[Dt│Z=1]-E[Dc│Z=0]
第二階段是通過計(jì)算在這種區(qū)分下造成的兩組結(jié)果之間的數(shù)據(jù)差得出干預(yù)手段對(duì)結(jié)果變量的因果效應(yīng),即:
且(E[Yt],E[Yc])Z(D)
1.雙重差分
雙重差分(Difference-in-Differences,D-i-D)是指研究者通過借助研究對(duì)象受到干預(yù)前后兩組數(shù)據(jù)的差值,比較隨時(shí)間的變化受到干預(yù)影響的實(shí)驗(yàn)組和未受到干預(yù)影響的對(duì)照組之間的數(shù)據(jù)差異,從而檢驗(yàn)干預(yù)對(duì)研究對(duì)象的因果效應(yīng)。在干預(yù)前后對(duì)實(shí)驗(yàn)組和對(duì)照組的數(shù)據(jù)變化進(jìn)行記錄,可以有效避免或排除將特征變量導(dǎo)致的變化當(dāng)成施加干預(yù)的結(jié)果,確保兩組研究對(duì)象之間的變化僅來自干預(yù)。(22)O. Ashenfelter &D. Card, “Using the Longitudinal Structure of Earnings to Estimate the Effect of Training Programs”,The Review of Economics and Statistics,4(1985):648—660.在具體運(yùn)算中,通過在實(shí)驗(yàn)中施加干預(yù)可以分別估算隨時(shí)間從1到2的變化,實(shí)驗(yàn)組(t)和對(duì)照組(c)受干預(yù)影響和不受干預(yù)影響的期望效應(yīng)值。假設(shè)實(shí)驗(yàn)中自選擇偏差全部由“雙重差分”剔除掉,對(duì)實(shí)驗(yàn)組和對(duì)照組干預(yù)前后的期望效應(yīng)“差值做差”的結(jié)果為干預(yù)所帶來的因果效應(yīng),即:
在上述公式中,D為指示變量,表示接受干預(yù)與否,其中D=1表示接受干預(yù),D=0表示接受對(duì)照。t為時(shí)間變量,表示時(shí)間的變化,t=1表示干預(yù)實(shí)施前,t=2表示干預(yù)實(shí)施后。19世紀(jì)初,英國公共衛(wèi)生學(xué)家約翰·斯諾(John Snow)率先使用了D-i-D這一方法,得益于雙重差分對(duì)于因果識(shí)別的可靠論斷,近年來D-i-D逐漸被應(yīng)用到教育政策效應(yīng)評(píng)估中。例如有研究者基于中國發(fā)展基金會(huì)開展的“農(nóng)村貧困地區(qū)寄宿制小學(xué)學(xué)生營養(yǎng)改善項(xiàng)目”,利用D-i-D對(duì)小學(xué)寄宿生進(jìn)行營養(yǎng)干預(yù)前后一段時(shí)間內(nèi)的數(shù)據(jù)進(jìn)行分析,結(jié)果顯示營養(yǎng)補(bǔ)貼對(duì)于貧困地區(qū)寄宿學(xué)生的人力資本發(fā)展具有顯著的積極影響。(23)齊良書、趙俊超:《營養(yǎng)干預(yù)與貧困地區(qū)寄宿生人力資本發(fā)展——基于對(duì)照實(shí)驗(yàn)項(xiàng)目的研究》,《管理世界》2012年第2期。
2.固定效應(yīng)
固定效應(yīng)(Fixed Effects,FE)是指研究者通過觀察研究對(duì)象在未實(shí)施干預(yù)時(shí)所表現(xiàn)出的特征,在實(shí)驗(yàn)組和對(duì)照組中對(duì)這種特征進(jìn)行控制,進(jìn)而有效評(píng)估實(shí)驗(yàn)組和對(duì)照組水平差異的分析工具。FE的核心是消除不隨時(shí)間變化的不可觀測(cè)特征變量的影響。由于不隨時(shí)間變化的不可觀測(cè)特征變量均值之差為零,所以直接消除這些變量的影響,從而獲得較為準(zhǔn)確的估計(jì)值。(24)杜育紅、袁玉芝:《教育中的同伴效應(yīng)研究述評(píng):概念、模型與方法》,《教育經(jīng)濟(jì)評(píng)論》2016年第3期。在具體運(yùn)算中,假設(shè)實(shí)驗(yàn)中自選擇偏差全部發(fā)生于“固定效應(yīng)組”之外,那么不隨時(shí)間變化的未觀測(cè)的變量均值之差為零,實(shí)驗(yàn)組與對(duì)照組在接受干預(yù)前后一段時(shí)間內(nèi)的平均期望差值即為干預(yù)對(duì)結(jié)果變量的因果效應(yīng),即:
在上述公式中,S表示組別,S=1表示該個(gè)體在實(shí)驗(yàn)組,S=0表示該個(gè)體在對(duì)照組。D為指示變量,表示接受干預(yù)與否,D=1時(shí)表示接受干預(yù),D=0時(shí)表示接受對(duì)照。例如,有研究者針對(duì)1965年美國聯(lián)邦政府為3~5歲貧困家庭的幼兒提供免費(fèi)保育和教育服務(wù)的領(lǐng)先起步(Head Start)項(xiàng)目,利用FE控制了由母親的工作經(jīng)歷、育兒安排,以及兒童出生體重等不隨時(shí)間變化的不可觀測(cè)特征因素的干擾,即參與項(xiàng)目的兩組研究對(duì)象基本同質(zhì),實(shí)現(xiàn)政策實(shí)施對(duì)地區(qū)兒童長期生命健康因果效應(yīng)的識(shí)別。(25)J. D. David, “Early Childhood Intervention and Life-Cycle Skill Development:Evidence from Head Start”,American Economic Journal:Applied Economics,3(2009):111—134.
3.傾向得分匹配
傾向得分匹配(Propensity Score Matching,PSM) 是指研究者利用觀測(cè)數(shù)據(jù)將可能與結(jié)果變量和解釋變量相關(guān)的可觀測(cè)特征變量納入統(tǒng)計(jì)模型中,以消除處理效應(yīng)估計(jì)中觀察偏差(observed bias)的因果推斷工具。(26)J. J.Diaz &S.Handa,“An Assessment of Propensity Score Matching as a Nonexperimental Impact Estimator:Evidence from Mexico’s PROGRESA Program”,Journal of Human Resources,2(2006):319—345.PSM的設(shè)計(jì)思路是通過在回歸模型中控制可觀測(cè)特征變量在兩組之間的差異性,實(shí)現(xiàn)兩組的數(shù)據(jù)平衡。要達(dá)到這一目的,首先需要通過將特征變量作為自變量進(jìn)行邏輯回歸(logistic regression)以確定研究對(duì)象受到解釋變量影響的條件概率,即傾向得分。依據(jù)傾向得分,研究者會(huì)將受到解釋變量影響的研究對(duì)象和未受到解釋變量影響的個(gè)體進(jìn)行配對(duì),從而確定實(shí)驗(yàn)組和對(duì)照組。(27)P.R.Rosenbaum &D.B.Rubin,“Constructing a Control Group Using Multivariate Matched Sampling Methods That Incorporate the Propensity Score”,The American Statistician,1(1985):33—38.從數(shù)學(xué)統(tǒng)計(jì)上來講,假設(shè)選擇性偏誤全部由“可觀測(cè)變量”影響,那么實(shí)驗(yàn)組測(cè)量結(jié)果與對(duì)照組的測(cè)量結(jié)果之差為傾向匹配下的平均干預(yù)效應(yīng),即:
在上述公式中,D表示組別,D=1表示該個(gè)體接受干預(yù),D=0表示該個(gè)體接受對(duì)照,協(xié)變量的取值為Xi。已知協(xié)變量的取值Xi而計(jì)算第i名研究對(duì)象分到實(shí)驗(yàn)組的條件概率需滿足共同支撐假設(shè)(common support hypothesis),取值范圍為0 在因果推斷分析中,確保內(nèi)部效度(internal validity)有利于因果關(guān)系的正確識(shí)別。依托潛在結(jié)果框架,因果推斷研究克服了在相關(guān)性分析中由于無法排除特征變量的影響所引起的偏誤難題,提升了干預(yù)實(shí)施與結(jié)果變量間因果結(jié)論的可信程度,具有較高的內(nèi)部效度。但因果結(jié)論的適用范圍具有明確的情境界限。相應(yīng)的,較高的內(nèi)部效度可以識(shí)別變量間在特定情境下的因果關(guān)系,但當(dāng)特定情境發(fā)生變化時(shí),如樣本量大小、實(shí)驗(yàn)地域不同時(shí),變量間因果關(guān)系的有效預(yù)測(cè)就需要借助外部效度(external validity)來實(shí)現(xiàn)。外部效度關(guān)注特定因果結(jié)論是否能夠推廣到其他類型的群體和環(huán)境當(dāng)中。一般來講,只有當(dāng)參與研究的樣本群體的特征變量與推理群體的特征變量在組成上相似或具有代表性時(shí),研究結(jié)論才會(huì)被推廣到推理人群中。(29)D. C. Thomas &D. T. Campbell, Quasi-experimentation: Design and Analysis Issues for Field Settings, (Boston: Houghton Mifflin Press, 1979), 13—17.如果研究結(jié)論適用于特定研究范圍之外的其他組織、其他時(shí)間或其他情境,則此研究具有外部效度,相反則缺乏外部效度。對(duì)于教育研究尤其是教育決策研究來講,研究結(jié)論的外部效度占據(jù)十分重要的地位。教育研究者作為教育政策研究的主力軍,在政策研究中不僅要關(guān)注高內(nèi)部效度,更要聚焦于研究設(shè)計(jì)的外部效度,切實(shí)推動(dòng)教育政策、教學(xué)方法、教學(xué)活動(dòng)在多樣地域、文化、層級(jí)中的可重復(fù)。(30)肖鳳翔、曹瑞紅:《新時(shí)代教育科學(xué)研究的價(jià)值取向》,《中國電化教育》2021年第1期。簡言之,教育研究中的因果推斷研究不能僅局限于變量間因果效應(yīng)的識(shí)別,更要切實(shí)服務(wù)于教育政策優(yōu)化和教育教學(xué)改善等實(shí)踐需要。近年來,在我國教育研究中應(yīng)用因果推斷研究工具開展教育政策評(píng)估的研究數(shù)量不斷增加,但針對(duì)研究是否具有代表性和推廣性的思考卻極為有限。因此,為教育研究中影響因果推斷解決其結(jié)論可推廣性是極具價(jià)值的前沿方向,具體實(shí)現(xiàn)路徑有以下兩方面。 將有限范圍的研究結(jié)論如何科學(xué)化推廣是教育政策制定者普遍面臨的決策難點(diǎn)。從宏觀決策層來講,識(shí)別政策運(yùn)行機(jī)制是關(guān)鍵。運(yùn)行機(jī)制是推動(dòng)政策實(shí)施的基石,研究者只有在理解政策機(jī)制中所包含的理論才能結(jié)合先驗(yàn)知識(shí)實(shí)現(xiàn)最大化的信息獲取,從而預(yù)測(cè)和評(píng)估教育政策制定與實(shí)施的可行性。(31)J.Ludwig,J.R.Kling &S.Mullainathan,“Mechanism Experiments and Policy Evaluations”,The Journal of Economic Perspectives,3(2011):17—38.更具體地看,識(shí)別政策運(yùn)行機(jī)制有助于教育決策現(xiàn)代化體現(xiàn)在三個(gè)方面。一是拓寬政策可實(shí)施的證據(jù)范圍。在考慮是否實(shí)施特定政策或計(jì)劃時(shí)會(huì)缺乏關(guān)于該確切計(jì)劃的現(xiàn)有證據(jù),此時(shí)研究者可以通過降維,從更一般的問題中獲取與政策實(shí)施相關(guān)的證據(jù)基礎(chǔ)。二是增加潛在行為推廣的可能性。依據(jù)政策背后的理論支持,研究者能夠獲得關(guān)于近似推理群體的行為判斷,并在此基礎(chǔ)上施加相應(yīng)的激勵(lì)措施以支持目標(biāo)群體潛在行為的發(fā)生。三是提供政策實(shí)施與否的具體證據(jù)。關(guān)注政策運(yùn)行機(jī)制可以幫助研究者判斷推廣環(huán)境與研究環(huán)境的相似程度,例如地理位置相近、收入水平相同、人口密度相同或文化水平相同等。 具體來講,普適性框架(Generalizability Framework)是識(shí)別政策運(yùn)行機(jī)制的有效途徑,幫助政策制定者完成從特定研究到其他環(huán)境的政策移植。普適性框架強(qiáng)調(diào)特定研究樣本與推理群體間信息的歸納與互補(bǔ),試圖通過四步回答政策推廣中的四個(gè)關(guān)鍵問題(如圖2所示)。步驟一是進(jìn)行理論再分解。教育政策評(píng)估不是在測(cè)試一個(gè)“黑匣子”,教育政策是建立在教育學(xué)科專業(yè)知識(shí)與理論基礎(chǔ)之上,具有清晰完備的理論機(jī)制,通過拆解政策背后的理論基礎(chǔ),可以獲得更豐富的證據(jù)支持。步驟二是推行理論在地化。理論在地化是通過深入推理群體內(nèi)部,推斷特定政策適用于當(dāng)?shù)貤l件的可靠性程度。切實(shí)推動(dòng)理論在地化的實(shí)踐途徑要考慮三點(diǎn)要求,首先是教育政策推行主體的供給能力,通過政府、當(dāng)?shù)氐貐^(qū)與學(xué)校等多方面的資源整合確定當(dāng)?shù)丨h(huán)境是否能夠滿足政策推行的基本條件。其次是教育政策的需求程度,教育政策與推理群體需求相匹配才能推動(dòng)教育政策實(shí)施的可能性。最后是實(shí)現(xiàn)供給與需求的匹配均衡,教育政策的推廣既需要推行主體的支持,也需要推理群體的認(rèn)同。步驟三是建立行為激勵(lì)。推理群體行為的改變不僅受其意志的影響,還受個(gè)人能力、機(jī)會(huì)以及資源等現(xiàn)實(shí)條件的制約,因此通過收集影響推理群體認(rèn)同教育政策的有力證據(jù),有助于研究者提供有針對(duì)性的激勵(lì)措施推動(dòng)推理群體行為改變。步驟四是評(píng)估政策可行性。依據(jù)理論再分解與理論在地化,行為激勵(lì)的落實(shí),研究者可以客觀評(píng)估政策在推理群體中實(shí)施的可能性。在評(píng)估過程中,激勵(lì)措施是什么、如何實(shí)施,是否需要根據(jù)當(dāng)?shù)貙?shí)際情況進(jìn)行調(diào)整這些問題是確保教育政策推廣的關(guān)鍵。(32)M.A.Bates &R.Glennerster,“The Generalizability Puzzle”,Stanford Social Innovation Review,3(2017):50—54. 圖2 外部效度普適性框架示意 因果推斷研究雖有利于識(shí)別干預(yù)對(duì)結(jié)果無偏的因果影響,但并不能確保研究樣本與推理群體間匹配的充分性。研究樣本與推理群體間匹配的充分性受樣本與推理群體間組成成分是否相似或相同的影響,對(duì)于政策制定者來說如果研究樣本不具代表性,特定干預(yù)下的政策結(jié)論將無法推廣至推理群體中。(33)S.H.Bell,R.B.Olsen,L.L.Orr &E.A.Stuart,“Estimates of External Validity Bias When Impact Evaluations Select Sites Purposively”,Educational Evaluation and Policy Analysis,38(2016):318—335.為解決研究樣本不具代表性的問題,可以從研究樣本入手提升政策結(jié)論的外部效度。平衡樣本(balanced sample)是依據(jù)特定協(xié)變量選擇類似于“微型”推理群體的樣本,以保障研究樣本與推理群體間匹配的充分性的一種新型樣本選擇框架。(34)E.Tipton,“Stratified Sampling Using Cluster Analysis:A Balanced-sampling Strategy for Improved Generalizations from Experiments”,Evaluation Review,37(2014):109—139.如圖3所示,這一樣本選擇框架的實(shí)施囊括五個(gè)步驟。 圖3 基于樣本選擇的外部效度推斷示意 第一步是依據(jù)特定協(xié)變量確定推理群體選擇范圍。超群體框架(super-population framework)為研究者選定與研究樣本相似或重要的推理群體提供了有效依據(jù)。超群體框架不僅列舉了總?cè)后w中的所有個(gè)體,而且包含關(guān)于所有個(gè)體的協(xié)變量信息。(35)E.A.Stuart,S.R.Cole,C.P.Bradshaw &P.J.Leaf,“The Use of Propensity Scores to Assess the Generalizability of Results from Randomized Trials”,Journal of the Royal Statistical Society,Series A,174(2011): 369—386.為保證樣本與推理群體的一致性,研究者需提前定義一組協(xié)變量,既能夠解釋研究樣本平均干預(yù)效應(yīng)又與推理群體成分相似的除解釋變量和結(jié)果變量之外的全部特征變量,使兩組在協(xié)變量上保持相對(duì)平衡。 第二步是消除研究樣本與推理群體間的異質(zhì)性差異。研究樣本與推理群體之間常常存在異質(zhì)性,主要表現(xiàn)在人的年齡、性別、自身需求等方面,這些變量間的差異影響著政策效果的評(píng)估和推廣。解決研究樣本與推理群體間異質(zhì)性差異的有效途徑是控制協(xié)變量,通過將預(yù)期推理群體劃分至不同的層級(jí)來保證群體之間的協(xié)變量平衡,即分層(stratify)。分層方法使用范圍廣泛,一方面是操作便捷,研究者前期可能已依據(jù)城市化程度、地區(qū)差異等手段劃分樣本。另一方面是結(jié)果可信,研究者利用分層工具,將推理群體中的單元?jiǎng)澐种翈缀跬|(zhì)的群體層級(jí)。 第三步是建立研究樣本與推理群體間的有效關(guān)聯(lián)。保證研究樣本與相應(yīng)層級(jí)間在組成成分上同質(zhì)的途徑是分配(allocation)。分配的目的是為每一個(gè)樣本點(diǎn)匹配具有相同或相近協(xié)變量取值的推理群體,確保匹配得到的數(shù)據(jù)在實(shí)驗(yàn)組和對(duì)照組中具有相同的協(xié)變量分布。層級(jí)匹配的標(biāo)準(zhǔn)是實(shí)現(xiàn)全面覆蓋,研究者可以按照每個(gè)層級(jí)的人數(shù)按比例分配樣本。 第四步是依據(jù)推理群體內(nèi)部同質(zhì)性程度進(jìn)行排序(ranking),以幫助研究者確定最終參與評(píng)估的推理群體。(36)E. Tipton, L. V. Hedges, M. Vaden-Kiernan, G. D. Borman, K. Sullivan &S. Caverly, “Sample Selection in Randomized Experiments: A New Method Using Propensity Score Stratified Sampling”, Journal of Research on Educational Effectiveness, 7(2014):114—135. 第五步是評(píng)估研究樣本與推理群體間的數(shù)據(jù)平衡程度。確定參與評(píng)估的樣本群體之后,驗(yàn)證參與實(shí)驗(yàn)的樣本與研究預(yù)期假設(shè)推斷群體間關(guān)聯(lián),以確定在特定協(xié)變量下的研究樣本和推理群體之間的平衡程度。當(dāng)失衡仍然存在時(shí),研究者需要采取再分層的方法對(duì)其進(jìn)行后分層調(diào)整(post-stratification adjustments)。一般來講,由于選擇樣本時(shí)已經(jīng)考慮到協(xié)變量平衡問題,因此選定的樣本與推理群體接近相似。(37)E. Tipton, “Improving Generalizations from Experiments Using Propensity Score Subclassification: Assumptions, Properties, and Contexts”, Journal of Educational and Behavioral Statistics, 38(2013): 239—266. 教育作為社會(huì)與個(gè)人穩(wěn)定發(fā)展的正向動(dòng)源,在推動(dòng)社會(huì)生產(chǎn)力進(jìn)步與滿足個(gè)人可持續(xù)發(fā)展中發(fā)揮重要作用。對(duì)國家而言,教育是促進(jìn)社會(huì)發(fā)展的戰(zhàn)略性資源,在推動(dòng)經(jīng)濟(jì)可持續(xù)增長、增強(qiáng)公民社會(huì)參與度以及提升社會(huì)凝聚力等方面發(fā)揮著重要作用。對(duì)個(gè)體而言,教育是滿足個(gè)人美好生活追求的原動(dòng)力,在提升個(gè)人物質(zhì)回報(bào)、拓寬職業(yè)選擇范圍以及調(diào)節(jié)身心健康狀況等方面占據(jù)獨(dú)特優(yōu)勢(shì)。隨著教育在社會(huì)和個(gè)人發(fā)展中的作用愈發(fā)凸顯,人們對(duì)于教育活動(dòng)、教學(xué)內(nèi)容、教育政策的要求和期待越來越高,對(duì)現(xiàn)實(shí)教育問題解決的需求也越來越迫切。但鑒于教育發(fā)展錯(cuò)綜復(fù)雜,涉及利益群體眾多,直接影響個(gè)人與社會(huì)發(fā)展切身利益,因此教育決策現(xiàn)代化是邁向更高質(zhì)量發(fā)展階段的關(guān)鍵一環(huán)。 就本質(zhì)而言,規(guī)范嚴(yán)謹(jǐn)?shù)默F(xiàn)代化教育決策亟須教育學(xué)科專業(yè)性與科學(xué)性的一體發(fā)展。教育學(xué)科的專業(yè)性發(fā)展能夠?yàn)榭茖W(xué)決策提供系統(tǒng)的專業(yè)知識(shí)和理論基礎(chǔ),有利于在教育政策的制定與實(shí)施中避免由主觀感受和經(jīng)驗(yàn)判斷帶來的次優(yōu)政策后果。而專業(yè)知識(shí)和理論的創(chuàng)新與發(fā)展又源于教育學(xué)的科學(xué)性發(fā)展。教育學(xué)研究通過理性推導(dǎo)、實(shí)證檢驗(yàn)等系統(tǒng)的科學(xué)研究手段和方法生產(chǎn)出豐富的教育科學(xué)知識(shí)以拓寬已有的教育學(xué)科知識(shí)體系,從而為教育學(xué)科的專業(yè)性發(fā)展提供新的事實(shí)證據(jù)、為教育現(xiàn)象提供具有現(xiàn)實(shí)意義的解釋,以及為教育決策提供科學(xué)的理論和數(shù)據(jù)支撐。 在理念上,教育因果推斷范式是兼顧教育學(xué)科專業(yè)性與科學(xué)性發(fā)展的關(guān)鍵路徑。一方面因果推斷分析依靠跨學(xué)科專業(yè)知識(shí)和理論基礎(chǔ)的支持形成科學(xué)嚴(yán)謹(jǐn)?shù)难芯吭O(shè)計(jì)。另一方面因果推斷分析是利用政策干預(yù)手段與現(xiàn)實(shí)結(jié)果的真實(shí)數(shù)據(jù)開展科學(xué)的調(diào)查研究。2023年3月中共中央辦公廳印發(fā)《關(guān)于在全黨大興調(diào)查研究的工作方案》強(qiáng)調(diào),調(diào)查研究是把握事物的本質(zhì)和找到破解難題的方法的主渠道,而通過調(diào)研發(fā)現(xiàn)真問題并將其有效解決是關(guān)鍵。 在國家推進(jìn)更高質(zhì)量教育發(fā)展、加快建設(shè)教育強(qiáng)國的大時(shí)代背景下,教育決策研究不應(yīng)僅停留在變量間因果關(guān)系的識(shí)別,更重要的是要推動(dòng)政策結(jié)論在更大的范圍內(nèi)的實(shí)踐推廣,發(fā)揮為決策精準(zhǔn)化服務(wù)的關(guān)鍵作用。其中,保障教育政策的內(nèi)部有效性是實(shí)現(xiàn)教育政策外部推廣的首要前提條件,然而若要真正將其轉(zhuǎn)化為教育質(zhì)量的高水平提升,還應(yīng)綜合考慮內(nèi)部與外部有效性的協(xié)同問題。總而言之,因果推斷研究方法論體系以及普適性框架與新型的樣本選擇方法等推廣手段為教育決策的內(nèi)部效度評(píng)估和外部效度的度量提供了重要啟示,為有效銜接循證研究與教育決策、兼顧內(nèi)部與外部效度提供了理論依據(jù)與實(shí)踐策略,對(duì)教育決策現(xiàn)代化的應(yīng)然命題做出實(shí)然應(yīng)答。四、外部效度作為教育決策科學(xué)的核心指向
(一)普適性框架下的外部效度推斷
(二)基于樣本選擇的外部效度推斷
五、對(duì)我國加快建設(shè)教育強(qiáng)國的意義