李寶良,郭其友
(1.華僑大學 經(jīng)濟與金融學院,福建 泉州 362021;2.廈門大學 經(jīng)濟學院,福建 廈門 361005)
因果關系評估是一切科學研究的核心問題。隨機控制實驗(randomized controlled trials,RCTs)是因果關系評估最有效的工具,被譽為因果推斷的黃金標準。社會科學的許多領域也采用這一方式對因果關系進行評估。在經(jīng)濟學研究領域中,弗農(nóng)·史密斯對實驗經(jīng)濟學的研究和阿比吉特·班納吉、埃絲特·迪弗洛和邁克爾·克雷默對減輕全球貧困問題所進行的實地實驗研究最具代表性(李寶良和郭其友,2019)。但是,隨機控制實驗有其局限。因其耗時、花費不菲,以及倫理道德的限制等因素,該方法并不總是行得通的。例如,經(jīng)濟學家難以甚至無法通過隨機控制實驗來評估最低工資、移民及教育政策對就業(yè)和收入等的影響。對于這些事關勞動者收入以及收入不平等的問題,能夠用于因果關系評估的數(shù)據(jù)通常只有觀察數(shù)據(jù)。然而,觀察數(shù)據(jù)不同于實驗數(shù)據(jù),其中最大的問題是觀察數(shù)據(jù)中的“內生性”問題,觀察數(shù)據(jù)是人們在受約束條件下最優(yōu)化的結果,這導致觀察數(shù)據(jù)受各種可觀測或不可觀測因素的影響,使得研究者難以像使用實驗數(shù)據(jù)一樣,在保持其他影響因素不變的情況下來評估因果關系。
早期的實證經(jīng)濟學(empirical economics)①這里實證經(jīng)濟學指的是empirical economics而非positive economics。實證經(jīng)濟學(positive economics)是相對于規(guī)范經(jīng)濟學(normative economics)而言的,empirical的含義是源于實驗和觀察而非理論,因此,empirical economics是相對于理論經(jīng)濟學(theoretical economics)而言的,更準確的翻譯是經(jīng)驗經(jīng)濟學,之所以翻譯為實證經(jīng)濟學,是因為考慮到國內的翻譯慣例。研究因缺乏解決內生性問題的有效辦法,導致實證研究的結論缺乏可信性。以最低工資政策為例,即使如教科書所預測的那樣,最低工資與失業(yè)率之間有正相關關系,人們卻無法確認是因最低工資的提高而導致了失業(yè)率增加,還是因政策制定者為了回應失業(yè)率增加下低收入者的呼聲而提高最低工資。因此,要使用觀察數(shù)據(jù)對經(jīng)濟變量之間的因果關系進行可信的評估,就要找到解決觀察數(shù)據(jù)中的內生性問題的辦法。借助自然實驗進行準實驗設計,成為解決觀察數(shù)據(jù)中的內生性問題的切入口。準實驗設計基于這樣一種思想:自然、政策以及制度等的變化有時候會提供一種場景,就像隨機控制實驗一樣,它會將研究對象進行隨機分組而排除內生性的影響。這些場景是在社會經(jīng)濟中自然發(fā)生的,因而被稱為自然實驗;它們又類似于隨機控制實驗,也被稱為準實驗。通過自然實驗的選擇,能夠較好地排除觀察數(shù)據(jù)中的內生性問題,從而很大程度上提高了因果關系評估的可信性。
本年度三位獲獎者是借助自然實驗對因果關系評估進行準實驗設計的先鋒。從20世紀90年代以來,卡德借助自然實驗對最低工資、移民和教育政策問題中的因果關系進行準實驗設計研究,他的許多實證結論顛覆了傳統(tǒng)觀念,并且引發(fā)了經(jīng)濟理論的發(fā)展和新一輪的實證研究,使人們對勞動力市場的運作有了更深刻的了解;安格里斯特和因本斯將經(jīng)濟學中的工具變量框架和統(tǒng)計學中的潛在結果框架結合起來,考慮了自然實驗中普遍存在的異質性和不完全依從問題,在滿足一組最小假設的條件下提出了局部平均處理效應的估計方法,澄清在自然實驗中進行可信的因果關系評估所需要滿足的關鍵假設,使準實驗設計更加透明和可信。
以卡德、安格里斯特和因本斯為代表的因果關系評估的準實驗設計方法,與以班納吉、迪弗洛和克雷默為代表的實地實驗方法一起奠定了實證經(jīng)濟學(empirical economics)的方法論基礎,并在過去三十多年里掀起了實證經(jīng)濟學可信性革命的浪潮。諾貝爾經(jīng)濟科學獎委員會主席彼得·弗雷德里克森稱:“卡德對社會核心問題的研究以及安格里斯特和因本斯的方法論貢獻表明,自然實驗是豐富的知識來源。他們的研究大大提高了我們回答關鍵因果問題的能力,這對社會大有裨益?!?/p>
本文對他們如何借助自然實驗對因果關系評估進行準實驗設計進行梳理和述評,主要結論如下:第一,因果關系評估的各種準實驗設計方法萬變不離其宗,有著相同的基本邏輯,都是借助自然實驗的場景模仿隨機控制實驗的方式,尋找具有相同或者相似特征的研究對象作為對照組,對照組構成了因果關系評估的反事實結果。第二,對實證經(jīng)濟學的經(jīng)典文獻的研究發(fā)現(xiàn),因果關系評估的可信性,它不是依賴于數(shù)據(jù)和計量方法本身,而是依賴于社會經(jīng)濟體制運行機制的深入理解和透徹分析,因而對自然實驗的深入調查和探討是必不可少的。事實上,實證經(jīng)濟學家不太可能僅依賴計量經(jīng)濟學方法對實證結論的因果關系進行解讀。高質量的實證經(jīng)濟學研究要根據(jù)問題的背景,包括制度特征的深入分析以及數(shù)據(jù)的可得性選擇合適的方法。第三,中國的經(jīng)濟改革為準實驗設計提供了可資利用的豐富的自然實驗資源,研究者以科學規(guī)范的經(jīng)濟學研究方法講好中國故事時,必須注重對自然實驗背后的相關制度進行深度的調查分析,規(guī)范準實驗設計過程,避免P值操縱,并且要加強影響機制的理論研究;而政策制定者在借鑒參考準實驗設計評估政策效果時,要關注準實驗設計研究結論的局限性和外部有效性。
卡德1956年出生于加拿大圭爾夫(Guelph),擁有加拿大和美國雙重國籍??ǖ?978年畢業(yè)于加拿大女王大學(安大略省金斯敦),獲文學學士,1983年在普林斯頓大學獲博士學位,后先任教于芝加哥大學、哈佛大學等,現(xiàn)任加州大學伯克利分校經(jīng)濟學教授、勞動經(jīng)濟學研究中心主任、計量經(jīng)濟學實驗室主任、國家經(jīng)濟研究局勞動研究計劃主任。他曾擔任《美國經(jīng)濟評論》《計量經(jīng)濟學》《勞動經(jīng)濟學雜志》等期刊的聯(lián)合編輯或副主編,并擔任加拿大統(tǒng)計局、羅素圣哲基金會等的咨詢顧問??ǖ乱驅趧咏?jīng)濟學研究的杰出貢獻而獲得了許多榮譽,其中最重要的或許是獲得1995年約翰·貝茨·克拉克獎。此外,他還獲得伊扎勞動經(jīng)濟學獎(2006)、計量經(jīng)濟學會授予的弗里希勛章(2007)、BBVA前沿知識獎(2015)。
卡德師從奧利·阿申菲爾特(Orley Ashenfelter)而走上勞動經(jīng)濟學研究之路。阿申菲爾特是著名的勞動經(jīng)濟學家,是他第一個將雙重差分法引入經(jīng)濟學的實證研究之中①雙重差分法最早可以追溯到約翰·斯諾(John Snow)對霍亂傳播機制的研究(1855)。,也是他指出了隨機實驗是實證研究的可行之路(Ashenfelter,1978)。在阿申菲爾特的引導和啟發(fā)下,卡德的研究興趣包括最低工資、移民、教育政策以及勞動力市場中與性別、種族相關的收入差異,研究議題涉及稅率和勞動力供應、最低工資、粘性工資、罷工模式、工會和不平等、基于技能的技術變革、教育回報、移民等社會熱點問題??ǖ掳l(fā)表了上百篇的期刊論文和書籍章節(jié)。與艾倫·克魯格合著的《神話與衡量:最低工資的新經(jīng)濟學》(1995)一書,集中體現(xiàn)了他對最低工資實證研究的成果。與艾倫·克魯格合著的《工資、學校質量和就業(yè)需求》(2011)一書,是他對教育問題的實證研究成果。與史蒂文·拉斐爾合編的《移民、貧困和社會經(jīng)濟不平等》(2013),集中收錄他對移民問題的研究。
安格里斯特1960年出生于美國俄亥俄州哥倫布,擁有美國和以色列雙重國籍。他在1982年獲奧伯林學院經(jīng)濟學學士,1987年和1989年在普林斯頓大學獲經(jīng)濟學碩士和博士學位,先后任教于哈佛大學、希伯來大學、哥倫比亞大學等,現(xiàn)任麻省理工學院福特經(jīng)濟學教授、麻省理工學院藍圖實驗室主任、國家經(jīng)濟研究局副研究員。他是美國藝術與科學院院士,美國經(jīng)濟協(xié)會、美國統(tǒng)計協(xié)會、計量經(jīng)濟學會等的會員,擔任《勞動經(jīng)濟學雜志》的聯(lián)合編輯。他因對計量經(jīng)濟學方法和實證研究的貢獻而受到廣泛贊譽,1999年獲《經(jīng)濟學季刊》授予的格里利克斯(Griliches)榮譽獎,2011年被布達佩斯拉吉克·拉茲洛高等研究學院授予約翰·馮·諾依曼獎。
國內計量經(jīng)濟學界稱安格里斯特為“安神”?!鞍采瘛钡纳衿嫒松c他不安分的性格分不開。他成長于猶太家庭,貪玩的秉性讓其父母甚為擔心他的人生。好在他在奧伯林學院時寫了篇優(yōu)秀論文,得到奧利·阿申菲爾特的賞識,后者有意收他為博士生。然而,安格里斯特卻赴以色列當一名傘兵。在見識了戰(zhàn)爭的殘酷之后,安格里斯特寫信給阿申菲爾特想回到他名下攻讀博士,由此重歸學術之路。他的研究興趣包括教育經(jīng)濟學和學校改革、社會計劃和勞動力市場、移民、勞動力市場監(jiān)管和制度的影響、項目和政策評估的計量方法。他對準實驗設計方法的推廣體現(xiàn)在與約恩-斯特芬·皮施克合著的《基本無害的計量經(jīng)濟學:實證研究者指南》《精通計量:從原因到結果的探尋之旅》兩本教科書中,書中也匯集了他對勞動經(jīng)濟學的實證研究成果。
因本斯1963年出生于荷蘭,擁有荷蘭和美國雙重國籍。因本斯1983年通過荷蘭鹿特丹伊拉斯姆斯大學的計量經(jīng)濟學候選資格考試(相當于學士學位),1986年以優(yōu)異的成績畢業(yè)于英國赫爾大學,獲得經(jīng)濟學和計量經(jīng)濟學碩士學位,并于1989年和1991年在布朗大學獲經(jīng)濟學碩士和博士學位,先后執(zhí)教于哈佛大學、加州大學洛杉磯分校和伯克利分校等。2012年,他轉職斯坦福大學商學院,現(xiàn)任應用計量經(jīng)濟學教授和經(jīng)濟學教授、經(jīng)濟政策研究所高級研究員。他是美國藝術與科學學院院士、經(jīng)濟計量學會會員、斯坦福大學商學院信托教師委員會成員、瑞士圣加侖大學名譽博士、美國國家經(jīng)濟研究局研究員。自1993年起,他擔任多屆計量經(jīng)濟學學會大會的組織委員,曾任《商業(yè)與經(jīng)濟統(tǒng)計期刊》《計量經(jīng)濟學》《計量經(jīng)濟學期刊》等的副主編,曾獲得阿爾弗雷德·P·斯隆研究獎學金(1995—1998)、因將貝葉斯分析用于“在隨機激勵設計中評估流感疫苗的效果”研究而獲得2001年度的米切爾獎。
因本斯對計量經(jīng)濟學理論研究情有獨鐘。自1982年起,他一邊從事計量經(jīng)濟學的學習和研究,一邊在大學兼任研究助理或講師。他早期的研究興趣是基于選擇的抽樣問題的推斷和優(yōu)化研究。20世紀90年代中期后,他與安格里斯特、魯賓合作,研究重點和研究興趣逐步轉向準實驗設計的因果關系評估方法,包括匹配方法、回歸斷點估計以及雙重差分法的改進。因本斯的代表作是與反事實框架的提出者唐納德·魯賓合著出版《統(tǒng)計學、社會學和生物醫(yī)學的因果推斷導論》(2015),該書總結了因果推斷領域的最新理論進展,被譽為因果推斷理論應用研究領域最經(jīng)典的教科書。
準實驗設計在本質上是對隨機控制實驗的模仿,要把握因果關系評估的準實驗設計,首先要理解隨機控制實驗的精髓。接下來,我們將以隨機控制實驗作為比較的基準,就安格里斯特和因本斯對工具變量法所需滿足的前提假設(Imbens和Angrist,1994),或者更一般地說,使用自然實驗進行因果關系評估的準實驗設計時需要做出的假設進行探討;同時回顧安格里斯特及其合作者運用準實驗設計方法對教育回報率(Angrist和Krueger,1991)以及教育投入與學習表現(xiàn)(Angrist和Lavy,1999)的實證研究,展示從自然實驗中能夠進行哪些因果推斷,或者不能進行哪些因果推斷。
因果關系評估是要評估某個處理對個體的影響,它被稱為處理效應(treatment effect)估計。要準確地估計處理對個體的影響,就需要知道受處理的個體,假如它沒有受到處理會怎么樣?這就是所謂的反事實結果(counterfactual outcomes)。然而,因果關系評估的難點在于,無法讓同一批病人在服藥的同時又不讓他們服藥。如果僅是比較一批服藥的和另外一批不服藥的病人,那么兩批病人結果的差異可能不是藥品的效果,而是兩批病人之間的差異導致的。簡言之,要準確地評估處理效應,需要在除了是否接受處理的不同之外,還要保持其他各個方面的條件不變,才能準確地估計反事實結果,進而準確地進行因果關系評估。
隨機控制實驗就是一種評估反事實結果的有效手段。仍以藥品有效性檢驗為例,研究人員通常采用精心設計的雙盲實驗評估藥品的有效性。具體是,首先將病人隨機分組,隨機分組確保了這兩組人在性別構成、平均年齡、嗜好的比例等各個方面具有相同或者相似的特征;然后隨機選擇一組作為處理組施以服藥的處理,另一組作為對照組則服用安慰劑。在這個過程中,參與實驗的病人和醫(yī)生不知道其服用的是藥品還是安慰劑。之所以這樣做,是因為常識和生理學理論指出,藥物的效果會受到人體自身有免疫力和自我恢復的能力及心理暗示的影響。
隨機控制實驗中的處理組和作為反事實結果的對照組之間均值的差異,提供了藥品效果的可信估計,這個處理效應也稱為平均處理效應(average treatment effect,ATE)。平均處理效應等于處理組的平均處理效應(average treatment effect for the treated,ATT)和未處理組(對照組)的平均處理效應(average treatment effect for the untreated,ATU)的加權平均,其權重是處理組和對照組的比重。由于異質性的存在,ATT通常不等于ATU,因而通常也不等于ATE。一般而言,在隨機控制實驗中,可以估計ATE,但是在自然實驗中,能夠估計的只是ATT。
雖然隨機控制實驗的設計和實施比較麻煩,但是實驗數(shù)據(jù)的分析則相對簡單。在上述藥品有效性檢驗的例子中,可以通過兩組之間的均值的t檢驗進行判斷。但是在現(xiàn)實中,許多因果關系評估是難以通過隨機控制實驗來檢驗的。研究人員能借助的就是觀察數(shù)據(jù),而這些觀察數(shù)據(jù)通常是人們選擇的結果,這就存在內生性問題,計量經(jīng)濟學就是為了解決觀察數(shù)據(jù)中的內生性問題發(fā)展而來的。這些方法在計量經(jīng)濟學教材中有詳細的介紹(安格里斯特和皮施克,2012,2019)。接下來的重點是,以隨機控制實驗作為基準,歸納自然實驗在模仿隨機控制實驗進行因果關系評估中所面臨的挑戰(zhàn),闡述各種準實驗設計方法,它們如何在保持其他條件不變的情況下來估計反事實結果,從而進行因果關系評估。這是精髓所在。
在經(jīng)濟社會發(fā)展過程中,一些自然發(fā)生的事件會導致類似于隨機控制實驗的場景或自然實驗,這些事件不在人們的掌控之中,會將人們隨機分成不同的群體、接受不同的處理。準實驗設計的優(yōu)勢在于節(jié)約了設計和實施隨機控制實驗所需的時間和資源。但是,自然實驗畢竟不是隨機控制實驗,利用自然實驗對因果推斷進行準實驗設計也給研究者提出了新的挑戰(zhàn)。一個挑戰(zhàn)是異質性(heterogenity)問題,即處理組和對照組對同樣處理的反應可能是不同的,即ATT可能并不等于ATU;另一個挑戰(zhàn)是不完全依從(compliance)問題,即當處理效應因人而異時,人們在進行選擇時很有可能不會完全依從自然實驗。這兩個挑戰(zhàn)在隨機控制實驗中也同樣存在。例如,實驗對象可能退出實驗,這時研究人員通常采用最終完成實驗的處理組和對照組去估計,被稱為意圖處理效應(intention to treatment,ITT)。很明顯,如果不遵從實驗而退出的人具有某種系統(tǒng)性特征的話,那么ITT很可能不同于ATE。
在隨機控制實驗中,可以通過對實驗的過程進行嚴格把關來減少兩者的偏差。但是,不完全依從問題在自然實驗中普遍存在,其與異質性的結合給因果推斷帶來了新的問題。早期的研究人員試圖對研究對象的行為施加嚴格的假設,以此來對總體或處理組的平均處理效應進行因果推斷,但是,這些假設往往過于嚴格而缺乏實際用途。要解決內生性問題,就得找到一個工具變量,對是否接受處理進行隨機分組。因本斯和安格里斯特試圖探討的問題是,如何在不對無法觀察的研究對象行為施加額外的假設下,能夠從自然實驗中進行哪些因果推斷。
1.工具變量法
以安格里斯特和克魯格對教育回報率的估計的里程碑式實證研究(Angrist和Krueger,1991)為例,他們選擇出生日期作為工具變量。這個工具變量來自于出生日期的隨機性以及美國的教育法規(guī)產(chǎn)生的自然實驗。在美國,早出生的學生將比其他晚出生的學生更早到達從高中輟學的合法年齡。假設有兩個孩子的出生日間隔一天,即一個出生于12月31日,另一個在1月1日。由于開學的日期是統(tǒng)一的,譬如都在9月1日,這樣,出生于12月的孩子在開學時的實際年齡是5歲8個月大,而出生于1月份的孩子是6歲8個月大①這個問題類似于國內幼兒園報名的出生日期以8月31日為界限,不同之處是美國在某一年出生的人在同一年的9月1日入學,因而12月31日出生的人一到年齡就可以上學,1月1日的人只能下一年才能入學。。如果法律規(guī)定年滿18周歲可以輟學,那么,只有1月份出生的孩子才能在高中畢業(yè)前輟學??梢?,出生日期的隨機變化導致教育程度的變化,這是由法律法規(guī)引起的,與學校教育的其他決定因素無關。因而,這樣就可以采用是否將入學截止日期前出生的啞變量作為工具變量。
按照出生日期與是否完成高中學業(yè)可以將總體分成4個子樣本,不同子樣本的行為是異質性影響的反應:第一個子樣本是不管出生日期為何都會完成高中學業(yè)的,這一類人也稱為始終接受者(always-taker);第二個是不管出生日期為何都會輟學的,這一類人也稱為從不接受者(never-taker);第三個是出生日期在入學截止日期前就完成高中學業(yè)、在入學截止日期后就輟學的,這一類人被稱為依從者(compliers);第四個是出生日期在截止日期前就輟學、在截止日期后就完成高中學業(yè)的,這一類人被稱為排斥者(defiers)。由于始終接受者和從不接受者的行為不會因工具變量而發(fā)生變化,因而無法用來進行因果推斷;能夠借助工具變量用于因果推斷的實際上是第三個子樣本,也就是依從者。但是,這會受到排斥者的干擾。
為了能夠使用工具變量法進行因果推斷,因本斯和安格里斯特(Imbens和Angrist,1994)認為,一個有效的工具變量至少應該滿足如下的假設:(1)隨機分配假設:工具變量應該和隨機分配一樣好,即工具變量應與所有潛在結果不相關。這個假設與隨機控制實驗一樣,使得處理組和對照組具有相似的特征。(2)相關性假設:工具變量與被處理與否相關,它可以通過是否中簽與是否服兵役兩者之間的相關性檢驗來判斷。(3)排他性假設:工具變量影響潛在結果的唯一途徑是通過處理。從理論上來講,這個假設是不可檢驗的,只能通過經(jīng)濟學理論或者常識進行論證。例如,抽簽是根據(jù)出生日期隨機抽取的,出生日期影響未來收入是通過是否服兵役可能是一個合理的假設。假設(1)和(3)意味著工具變量是外生的,也即外生性假設由隨機性和排他性兩個假設組成,但這是兩個不同的假設。此外,為了排除排斥者的干擾,他們還提出了第四個輔助的假設,即(4)單調性假設:所有的個體都以同一個方向受影響,要么不受影響,這個假設意味著排斥者很少或者不存在。
在滿足以上假設的基礎上,借助兩階段最小二乘法,因本斯和安格里斯特提出了局部平均處理效應(local average treatment effect,LATE)定理:對于任何隨機分配的、第一階段估計值不等于零的工具變量,如果滿足單調性和排他性約束,那么局部平均處理效應就是簡約式估計值與第一階段估計值之比,也就是處理對依從者所產(chǎn)生的平均因果效應。所以,局部平均處理效應也稱為依從者平均因果效應(complier average causal effect,CACE)。由于異質性的存在,CACE可能不同于始終接受者和從不接受者的平均因果效應,這也是這個平均處理效應被稱為局部的原因。
在教育回報率的估計(Angrist和Krueger,1991)中,依從者是這個實證研究主要對象,出生在入學截止日期前完成高中學業(yè)的依從者是處理組,出生在入學截止日期后輟學的依從者是對照組。這個工具變量滿足隨機分配的假設,因為出生日期是隨機的;也滿足相關性假設,因為這個可以通過工具變量與高中畢業(yè)相關性進行檢驗;還可以合理地假設排斥者不存在,也即基本滿足單調性假設;剩下的問題是排他性假設,由于工具變量也會產(chǎn)生入學年齡的變化,如果工資收入與入學年齡有關系,那么排他性假設可能會被違背。假如工資收入與入學年齡無關,那么這個工具變量就滿足了四個相關的假設。在這種特殊情況下,安格里斯特和克魯格使用工具變量法估計了教育的回報率。他們的研究發(fā)現(xiàn),額外受教育一年的回報率大約為9%。這個估值高于早期的基于普通最小二乘法的回歸估計結果。這是由于處理的異質性導致的。事實上,準實驗設計對因果關系的評估針對的是那些盡快輟學的可能性很高的人,因此所估計系數(shù)代表的是確定了受工具變量影響的群體的平均教育回報率,這個群體是教育回報率研究的“依從者”,他們的平均處理效應可能不同于那些未受自然實驗影響的“非依從者”。
2.其他準實驗設計方法
安格里斯特和因本斯對局部平均因果效應的研究表明,即使存在異質性和不完全依從問題,工具變量也可以在一組最少但是在許多情況下合理的假設下識別因果治療效應。其所確定的因果效應是依從者之間的平均因果影響,即由于隨著工具變量的變化而改變行為的人群子集的因果影響。這使得因果關系評估準實驗設計所需滿足的假設的性質更加透明,并且提供了一個探討諸如雙重差分法以及回歸斷點設計等其他準實驗設計方法所要滿足的條件的基本框架。事實上,其他的準實驗設計方法與上述工具變量法有著相同的基本邏輯,就是借助自然實驗將研究對象進行隨機分組:在工具變量法中,依從者按照工具變量分成是處理組和對照組;在回歸斷點設計中,斷點附近的一側是處理組,另一側的附近是對照組;在雙重差分法中,受政策影響的是處理組,不受政策影響的是對照組等。
這些準實驗設計方法要能對因果關系進行可信的評估,其假設前提類似于與工具變量法的前提假設,都是要通過外生的變化來進行因果關系評估。以回歸斷點設計①回歸斷點設計最早出現(xiàn)于1960年教育心理學家唐納德·坎貝爾(Donald Campbell)的研究報告(Thistlehwaite和Campbell ,1960年)??藏悹栐蜆O力倡導回歸斷點設計,但是那時并沒有得到學術界的重視。1972年,戈德伯格(Goldberger)將其引入在經(jīng)濟學領域中,但是真正使回歸斷點設計受到經(jīng)濟學家關注的是1999年安格里斯特和拉維在《經(jīng)濟學季刊》合作發(fā)表的論文(Angrist和Lavy,1999)。(regression discontinuity design,RDD)為例,它考慮的是這樣一種情況,當沿著某個運行變量移動時,被處理的概率發(fā)生“跳躍”,這個跳躍點就是一個的斷點。以斷點作為分界,斷點兩邊的研究對象可能存在著比較大的差異;但是如果在斷點的附近兩側截取一個子樣本,那么這兩組人之間除了是否接受處理之外,其他各個方面具有相似的特征。可以看出,回歸斷點設計是最接近隨機控制實驗的一種準實驗設計方法?;貧w斷點設計的關鍵前提假設是斷點的外生性,也就是斷點要能夠將斷點附近的研究對象隨機分組,這與工具變量法中隨機分配假設一樣;斷點影響潛在結果的唯一途徑是通過處理,這實際上就是工具變量法中的排他性假設。因而,回歸斷點設計也可以看成是一種工具變量法,斷點就是一個工具變量(安格里斯特和皮施克,2019)。
安格里斯特及其合作者使用了回歸斷點設計研究了班級規(guī)模對成績的影響(Angrist和Lavy,1999)。教育投入對學習表現(xiàn)影響的實證研究經(jīng)常面臨教育的投入的內生性問題的困擾,比如班級規(guī)模如果是按照學習表現(xiàn)來確定,將學習表現(xiàn)差的學生分到小班去,那么使用學習表現(xiàn)對是否小班的啞變量進行回歸可能會得到班級越小,學習表現(xiàn)越差的荒謬結論。針對這個問題,他們借助以色列的分班情況作為自然實驗。以色列的班級人數(shù)上限為40人。如果是41人通常分為兩個小班,而39人就為一個大班。這創(chuàng)造了一個類似的實驗場景:將入學人數(shù)略高于或低于40、80或120的學校進行比較,其中班級規(guī)模差異很大。在這種情況下,學生人數(shù)不同的學校在其他方面可能非常相似。因此,隨著學校入學人數(shù)的增加,一個描述學生數(shù)量和學業(yè)成績之間關系的回歸應該在這些斷點處表現(xiàn)出不連續(xù)性。使用以色列數(shù)據(jù)的回歸斷點估計表明,當班級規(guī)模下降時,成績顯著提高。
以上回歸斷點估計的關鍵假設是,在斷點的兩側,個體在其他方面都是相似的。例如,在安格里斯特的研究中,這要求注冊人數(shù)在35—39之間的學校的學生(對照組)和注冊人數(shù)在41—45之間的學校的學生(處理組)具有相似的家庭背景。這可以通過處理組和對照組的均值檢驗來判斷,還可以通過對斷點附近學生背景特征分布。如果存在某種聚集特征,那么有可能表明一些家庭存在策略行為,會將自己的小孩分到班級比較小的學校,因而可能不是隨機抽樣,這會影響回歸斷點設計的有效性。當然,這個因果關系評估針對的是斷點附近兩側處理組和對照組之間的差異,這個處理效應也是局部平均處理效應。
縱觀往屆諾貝爾經(jīng)濟學獎獲得者的貢獻,有多位獲獎者與實驗或者因果關系評估有關系。他們或在實驗室開展隨機控制實驗對經(jīng)濟理論進行檢驗(史密斯,2002年度),或者在實際的經(jīng)濟環(huán)境中進行實地實驗(班納吉、迪弗洛和克雷默,2019年度);或者通過計量經(jīng)濟學方法的設計,例如金融學中用于市場有效性檢驗的事件研究法(法碼,2013年度)以及用于宏觀經(jīng)濟中的因果關系實證研究的結構宏觀計量經(jīng)濟學和向量自回歸模型(薩金特和西姆斯,2011年度)。安格里斯特和因本斯對因果關系分析的方法論貢獻在于,他們在不能做實驗的情況下借助經(jīng)濟社會變遷中制度、政策變化、自然變化產(chǎn)生的自然實驗模仿隨機控制實驗進行準實驗設計,由此豐富了因果關系評估的工具箱。
就準實驗設計方法本身而言,安格里斯特和因本斯的貢獻在于,他們將經(jīng)濟學中的工具變量法與統(tǒng)計學中的潛在因果關系模型結合,提供了一個理解各種準實驗設計方法的統(tǒng)一框架。工具變量法本質上是借助工具變量對研究對象進行隨機分組,其他的準實驗設計方法也有相同的基本邏輯,都是使用自然實驗來模仿隨機控制實驗的方式,將研究對象分為處理組和對照組。他們的研究指明了工具變量所必須具備的條件,或者更一般地,利用自然實驗對因果關系評估進行準實驗設計所必須滿足的前提假設。安格里斯特和因本斯通過實證研究示范了如何尋找自然實驗進行準實驗設計。他們指出,最好的工具來自對某些計劃或干預的制度細節(jié)的深入了解(Angrist和Krueger,2001)。
將隨機控制實驗方法引入實際經(jīng)濟環(huán)境中進行實地實驗,或者借助自然實驗對觀察數(shù)據(jù)的因果關系評估進行準實驗設計,都為實證研究提供了突破口,由此掀起了近三十多年來的實證經(jīng)濟學可信性革命的浪潮。其中,勞動經(jīng)濟學實證研究的可信性革命最為顯著。這一部分重點關注卡德對最低工資、移民和教育問題的實證研究。1990年以來,以卡德及合作者創(chuàng)造性地借助自然實驗,比如新澤西州和賓夕法尼亞州最低工資政策差異、1980年的馬列爾偷渡事件以及州一級教育支出的變化等分別對最低工資、移民、教育等一系列問題的因果關系評估進行準實驗設計,創(chuàng)造出近似于理想的實驗環(huán)境,從而極大地提高了實證研究結論的可信性。
最低工資政策的初衷是為了幫助低收入者提高收入。然而,最低工資增加企業(yè)的用工成本,從而降低了低收入和低技能勞動力的需求,進而可能減少就業(yè)。這個經(jīng)典的預測也受到廣泛的認同。有79%的經(jīng)濟學家同意最低工資法提高了年輕人和不熟練工人中的失業(yè)(曼昆《經(jīng)濟學原理》)。其實,最低工資政策是否使低收入者受益仍然是不清楚的。其中,最低工資政策對就業(yè)的影響是問題的關鍵。早期的勞動經(jīng)濟學家借助時間序列數(shù)據(jù)或截面數(shù)據(jù)進行實證研究,這些實證研究結論因為缺乏解決觀察數(shù)據(jù)中的內生性問題而缺乏可信性。雖然實證研究發(fā)現(xiàn)最低工資的提高與失業(yè)率的增加呈正相關關系,但是研究者無法區(qū)分這種正相關關系是最低工資的提高導致了失業(yè)率的增加,還是失業(yè)率的增加激發(fā)了提高最低工資的呼聲進而導致最低工資政策的出臺。
1992年,卡德使用最低工資政策沒有發(fā)生變化的州作為對照組,研究了加利福尼亞州的工資和就業(yè)演變(Card,1992)。研究發(fā)現(xiàn),雖然加利福尼亞州在1988年最低工資提高了27%,與此同時的加利福尼亞州青少年的工資與對照州相比增加了10%,沒有證據(jù)表明青少年就業(yè)率下降??ǖ逻€發(fā)現(xiàn),與對照州相比,加利福尼亞州的就業(yè)人口比增加了4%,這似乎是由勞動力參與率的增加推動的;換句話說,加利福利亞州最低工資政策對青少年就業(yè)的影響除了最低工資的影響之外,還可能受到不同州勞動力市場條件差異的影響。為了解決這個問題,必須排除不同州勞動力市場條件差異的影響。卡德和克魯格爾借助新澤西州與賓夕法尼亞州的最低工資政策差異作為“自然實驗”,通過雙重差分設計估計了最低工資政策對就業(yè)的影響(Card和Krueger,1994),這是雙重差分法的經(jīng)典應用。
1992年11月,新澤西州將最低時薪從4.25美元提高到5.05美元,但相鄰的賓夕法尼亞州的最低時薪將保持在4.25美元。由于兩州的地理位置臨近,可以認為兩州處于統(tǒng)一的勞動力市場,具有相同的勞動力市場條件。這創(chuàng)造了一個天然的實驗場所,可以排除勞動力市場條件的影響。通過比較這兩個州在最低工資調整前后的情況,評估最低工資提高對就業(yè)的影響??ǖ屡c克魯格爾分別對兩個州實地調查,收集了1992年2月(最低工資調整之前)和11月(最低工資調整之后)大約400家快餐店在這兩年前后一系列數(shù)據(jù),包括工資水平、雇用人數(shù)以及產(chǎn)品價格。選擇快餐店作為調查對象,是因為快餐店是受最低工資政策影響最大的行業(yè)之一。
他們采用雙重差分法進行估計。第一重差分分別估計了這兩個州的快餐店就業(yè)狀況在最低工資提高前后的差異。這個差異代表了最低工資和宏觀經(jīng)濟的影響。例如,他們發(fā)現(xiàn)新澤西州的就業(yè)在最低工資政策實施后確有下降,但這主要是受美國東部地區(qū)持續(xù)惡化的宏觀經(jīng)濟形勢所致,而非提高最低工資的影響。第二重差分通過將新澤西州就業(yè)狀況在最低工資提高前后的差異,然后減去賓夕法尼亞州就業(yè)狀況在最低工資提高前后的差異,這樣就排除了宏觀經(jīng)濟形勢對就業(yè)的影響??梢钥闯?,這里必須有一個關鍵假設,那就是宏觀經(jīng)濟形勢對兩個州就的影響相同,即所謂的平行趨勢假設。這個可以通過比較新澤西州(處理組)和賓夕法尼亞州(對照組)在最低工資提高前快餐店就業(yè)的變化進行檢驗。
卡德和克魯格爾的研究發(fā)現(xiàn),沒有證據(jù)表明新澤西州最低工資的提高減少了快餐店的就業(yè)。這項研究結論挑戰(zhàn)了經(jīng)濟學家和普通大眾有關最低工資對就業(yè),特別是低收入人群就業(yè)有負面影響的共同信念。盡管該研究結果飽受爭議,但是卡德和克魯格爾對反事實結果估計的研究設計,引起人們對早期的研究結論和教科書上模型的預測結果的懷疑,進而引發(fā)了人們對最低工資問題的重新探討。經(jīng)濟學家提出了很多新的解釋,如勞動成本、生產(chǎn)力、價格反應、勞動力市場結構等,對最低工資的提高為何沒有導致降低就業(yè)影響的機制提出了解釋。例如,卡德和克魯格爾認為,是因為快餐店可以將最低工資提高導致的負擔轉嫁給消費者。這些新的解釋又引發(fā)了新一輪的實證研究,從而極大地促進了人們對勞動力市場運行機制的理解。
移民問題也是廣受爭議的政策議題。一方面,大量移民特別是低技能移民的流入對當?shù)氐膭趧恿┙o產(chǎn)生正向沖擊,影響本地居民的就業(yè)前景并壓低本地居民的工資;另一方面,大量移民的流入又增加了本地商品和服務的需求,這可能改善本地居民的就業(yè)前景。因此,事先并不清楚低技能移民流入如何影響居住本地居民。具體來說,移民的勞動技能與本地居民是替代還是互補,以及企業(yè)在面對移民涌入時是否要增加針對移民勞動技能的投資,這些問題人們并不清楚,因此需要對移民問題進行實證研究。研究的最大難點在于,移民可能會選擇對勞動力需求不斷增長的地方,這些地方即使沒有移民,對本地居民的需求也與其他市場不同。這就是移民問題實證研究中的內生性問題。因此,實證研究的挑戰(zhàn)在于,研究者要找到辦法估計出,在沒有移民涌入的情況下本地居民就業(yè)狀況和工資收入的反事實結果。
1980年的馬列爾偷渡事件(Mariel Boatlift )提供了一個解決上述問題的機會??ǖ聵O其敏銳地捕捉到這個事件,借助這個自然實驗來評估移民的影響。事件的背景是,1980年,古巴首腦菲德爾·卡斯特羅宣布,任何希望離開古巴的人都可以移民。在古巴政府的支持下,自1980年4月至10月的6個月期間,大約125 000名古巴人從古巴瑪麗爾港偷渡到美國佛羅里達州(主要是邁阿密),結果使得邁阿密的勞動力增加了7%。這就是馬列爾偷渡事件。
馬列爾偷渡事件為評估移民影響提供了一個理想的自然實驗(Card,1990)。一是該事件導致的邁阿密的勞動力供給曲線是外生的;二是這些移民主要集中在邁阿密相對狹小的地區(qū),沒有對其他區(qū)產(chǎn)生外溢影響,這使得研究者可以用其他相似的地區(qū)作為對照組??ǖ虏捎眠~阿密人口調查的個人失業(yè)數(shù)據(jù),并基于人口統(tǒng)計和經(jīng)濟狀況選擇了四個具有可比性的城市(亞特蘭大、洛杉磯、休斯頓和坦帕-圣彼得堡)作為對照組。在此基礎上,卡德通過雙重差分法估計了移民對本地居民工資和失業(yè)率的影響。研究結果令人詫異,大量移民的涌入對本地居民工資和失業(yè)率沒有顯著影響??ǖ抡J為,這是因為邁阿密的勞動力市場有能力吸收這些移民??ǖ碌难芯渴艿劫|疑,原因之一是他在選擇對照組城市時存在主觀性;有學者利用合成控制法解決了這個問題,他們使用合成控制法復制了卡德的研究并得到類似的結論(Peri和Yasenov,2018)。
卡德的這項研究再次挑戰(zhàn)了經(jīng)典的完全競爭勞動力市場理論模型的預測,深化了人們對移民影響的理解。在隨后的研究中,很多的研究也發(fā)現(xiàn)移民對本地居民的影響不大。除此之外,在對移民影響本地人的機制的理論和實證研究中也發(fā)現(xiàn),本地居民通過進入需要當?shù)卣Z言溝通技能等與移民競爭較少的職業(yè)來避免負面后果,實際上本地居民受益于新移民的涌入;相比起來,受移民影響最大的是先前的移民,新移民的涌入對先前的移民構成了競爭;企業(yè)通過技術投資適應移民流入,可以減少新涌入的移民對先前移民的不利影響。
關于教育投入如何影響學習表現(xiàn)以及教育回報率的早期實證研究受到內生性的困擾。例如,不可觀察的能力因素同時影響受教育程度和工資收入,如果基于工資收入對教育程度的回歸來估計教育回報率,實際上是混雜了教育和能力的共同影響,因而未能對教育的回報率作出可信的估計。實證研究者需要找到受教育程度的外生變量來解決這個問題。安格里斯特借助出生日期導致的教育程度的外生變化來估計教育的回報率,以及使用回歸斷點設計估計小班教育對學習表現(xiàn)的影響,這是教育問題實證經(jīng)濟學的兩個里程碑式的經(jīng)典研究。卡德和克魯格(Card和Krueger,1992a;Card和Krueger,1992b)這兩篇論文研究了學校質量對勞動力市場結果的重要性,也是教育回報率估計的重要轉折點。
這兩篇論文都利用了學校質量的外生變化,這些外生變化來自20世紀30年代至50年代美國特別是美國南部對教育的大量投入,他們用師生比、平均學期長度和教師的相對工資來衡量不同州的教育質量。但是,勞動收入除了受到不同州的學校質量的影響之外,還受到各州勞動力市場條件的影響,因而,需要一種能夠區(qū)分這些不同影響的策略。1992年,卡德和克魯格利用人們跨州遷移這個自然實驗設計了一個策略,其基本思路是比較居住在同一個州但成長于不同州的人,由于他們成長于不同的州,他們的勞動收入會受到不同州的學校質量的影響,但是居住在同一個州因而他們所面臨的勞動力市場條件是一樣的。換句話說,可以將學校質量好的看成處理組,將學校質量差的看成對照組,這兩組人面臨的勞動力市場條件是一樣的,由此可以排除勞動力市場條件的影響。在實證研究中,卡德和克魯格采用這種跨州遷移策略分別按居住州、出生州和出生隊列(cohort)估算學校教育的收入回報,然后挑出與給定隊列在特定州長大相關的學校教育回報。他們利用1980年人口普查的收入數(shù)據(jù),以1920年至1949年間出生的男性為研究對象,評估了學校質量的影響,發(fā)現(xiàn)在學校質量較高的州接受教育的男性,額外受教育年限的回報率較高(Card和Krueger,1992b)。另一項研究則利用州級遷移策略,考察1960年到1980年黑人與白人男子工資收入差異的下降是否受到相對教育質量的影響,他們利用搬到北方各州的個人信息表明,1960年至1980年間黑人和白人收入差距縮小幅度中有20%可以由黑人學生學校相對質量的提高來解釋。
卡德和克魯格的這兩項研究對早期的實證研究提出了質疑,重新激發(fā)人們對教育投入和教育回報率的興趣,引發(fā)了一場關于學校質量和學校資源對學校和勞動力市場結果是否重要的討論。過去30年的研究得出的總體結論是,在工業(yè)化國家,學校資源似乎對勞動力市場的結果很重要(Jackson、Johnson和Persico,2016)。這并不意味著所有類型的教育投入的增加都會帶來成就和勞動力市場結果的改善。對處于劣勢的學生來說,學校資源對學校成績的影響往往更大,這表明他們的學校選擇比來自優(yōu)勢背景的學生受到更大程度的限制。
準實驗設計方法的引入點燃了勞動經(jīng)濟學領域實證研究可信性革命的導火線,這場可信性革命從勞動經(jīng)濟學開始,像漣漪一樣波及制度經(jīng)濟學、經(jīng)濟史、健康經(jīng)濟學、保險、產(chǎn)業(yè)經(jīng)濟學、犯罪經(jīng)濟學、宏觀經(jīng)濟學等經(jīng)濟學的眾多領域,涌現(xiàn)了許多經(jīng)典的研究。例如,在制度經(jīng)濟學領域和經(jīng)濟增長問題的實證研究中,阿西莫格魯、約翰遜和羅賓遜(2001)對制度影響經(jīng)濟增長的研究是利用工具變量法進行準實驗設計的經(jīng)典??梢?,卡德、安格里斯特和因本斯推動了過去30多年來經(jīng)濟學各領域的實證研究方式的改變。
從安格里斯特和卡德及其合作者對勞動經(jīng)濟學的實證研究可以看出,準實驗設計給實證經(jīng)濟學研究帶來了兩大優(yōu)勢。第一個優(yōu)勢是,通過引入準實驗設計,在對照組的選擇和設定下,研究者明確了影響研究結論可信性的關鍵性假設是什么,從而使得討論重點更加明確。第二個優(yōu)勢是,準實驗設計使得研究者可以像隨機控制實驗一樣,通過平衡檢驗或者均值檢驗,以判斷處理組和控制組在各個方面是否相似,以及處理后以處理組和對照組均值之間的差異來估計處理效應,這有助于對研究的過程和結果進行直接的展示和簡單的解釋。
過去30多年來,準實驗設計方法的引入和發(fā)展推動了實證經(jīng)濟學可信性革命的發(fā)展。安格里斯特和因本斯對工具變量法的發(fā)展,提供了一個理解準實驗設計方法的基本框架,給實證研究者提供了利用觀察數(shù)據(jù)進行因果關系評估的強大工具,他們不僅極大地豐富了實證研究的工具箱,而且推動和拓展了因果關系分析的應用領域。在我國改革開放不斷深化的過程中,各種制度創(chuàng)新和政策試點不斷推出,這些制度創(chuàng)新和政策試點創(chuàng)造了許多可資利用的自然實驗。這些自然實驗為有志于應用科學規(guī)范的經(jīng)濟學方法講好中國故事的經(jīng)濟學家(陸毅和孫天陽,2021)提供了豐富的素材,利用準實驗設計的方法對這些制度創(chuàng)新和政策試點的效果進行評估,也有助于相關政策制定者調整和完善已出臺的政策措施及其規(guī)劃。
首先,要借鑒準實驗設計方法講好中國故事,必須注意到運用準實驗設計進行因果關系的可信評估并非易事。隨機控制實驗需要研究者對實驗進行精心的設計,并密切跟蹤實驗的實施過程;基于自然實驗的準實驗設計雖然不需要研究者親自實施實驗,但是也需要了解自然實驗的具體情況,根據(jù)自然實驗的特征選擇準實驗設計的方法,判斷是否滿足這些方法使用的前提條件,特別是自然實驗如何對研究對象進行隨機分配,從而解決觀察數(shù)據(jù)的內生性問題。即使經(jīng)過如此細心的準實驗設計,對因果關系評估結論的解讀仍然要十分謹慎,因為從自然實驗中獲得的因果關系推斷,通常只適用于總體的某個局部。
其次,要規(guī)范準實驗設計的研究過程,避免P值操縱。針對準實驗設計實證研究論文的綜合分析發(fā)現(xiàn),這些準實驗設計實證研究中存在一種發(fā)表偏差(publication bias)現(xiàn)象(Brodeur等,2020),與顯著性水平剛好大于0.05相比,有大量準實驗設計研究的顯著性水平剛好低于0.05。這表明,實證研究者在進行準實驗設計研究時可能存在P值操縱問題。研究者可能通過對照組的選擇、控制變量的選取、刪除異常值等方式對數(shù)據(jù)進行調整,操縱實證研究結果的顯著性水平。防范P值操縱要依賴實證研究者和經(jīng)濟學界的共同努力,實證研究者要注重和規(guī)范準實驗研究的設計過程;對于經(jīng)濟學界而言,要建立實證研究設計的平臺,提前開放研究設計和數(shù)據(jù)是防范P值操縱的有效方法。
再次,在進行準實驗設計的同時,要加強影響機制的理論研究。準實驗設計方法更側重的是經(jīng)濟變量之間的因果關系評估,然而經(jīng)濟變量之間為什么會有這樣或那樣的關系需要進一步研究。正如對最低工資對就業(yè)影響的研究中,卡德通過準實驗設計發(fā)現(xiàn)最低工資政策對就業(yè)的影響與教科書上基于完全競爭勞動力市場的預測不一致,顛覆了傳統(tǒng)的觀點。但是這并非問題的結束,而是提出了更多新的問題。經(jīng)濟研究不僅要知其然,更要知其所以然。這要求經(jīng)濟學者加強影響機制的理論研究,在最低工資問題中,經(jīng)濟學家通過勞動成本、生產(chǎn)力、價格反應、勞動力市場結構等方面解釋了為什么最低工資政策對就業(yè)影響甚微,這實際上正是影響機制的研究。而對這些影響機制是否有效則需要進一步的實證研究。因此,經(jīng)濟學者在借助自然實驗進行因果關系評估的同時,也要加強影響的理論機制的研究。當然,在這個過程中也要不斷完善因果關系評估的準實驗設計理論與方法。例如工具變量法中弱工具變量問題,工具變量分析依賴于強變量工具,如果工具很弱,估計就可能有偏差,因果關系評估就具有誤導性。
最后,對于政策制定者而言,他們要意識到準實驗設計研究結論的局限性。如前所述,準實驗設計實證研究更多的是考慮因果關系評估的內部有效性問題,而且其研究結論通常只是針對受處理影響的子樣本而言才成立。因而,準實驗設計盡管極大地提高了因果關系評估的內部有效性,但是任何實證研究與特定的時間、地點和特定的研究設計有關,其因果關系的實證證據(jù)總是局部的。如果將其推廣到新的環(huán)境中,就必須要考慮外部有效性的問題。這也是政策制定者在參考準實驗設計研究結論制定或調整政策時需要注意的問題。