国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中國政策試點中的隨機實驗:一種方法論的探討

2022-03-02 07:55:38王思琦
公共行政評論 2022年1期
關(guān)鍵詞:試點政策評估

王思琦

一、引言

眾所周知,政策試點(Policy Pilots)是中國公共政策制定的一種特色機制,也是理解中國政策過程的重要研究視角(趙慧,2019)。政策試點體現(xiàn)了中央政府“尊重地方和基層的經(jīng)驗、智慧和首創(chuàng)精神”的基本理念(江小涓,2020),在中國公共政策的制定與實施過程中發(fā)揮了至關(guān)重要的作用。

一方面,很多研究者關(guān)注到試點中的“點”在政策制定中的意義(陳那波、蔡榮,2017),并將政策試點概括為“由點到面”,將某個地區(qū)或領(lǐng)域行之有效的政策方案推廣到更大的范圍(韓博天,2008、2010、2018;周望,2016)。這種“由點到面”的政策執(zhí)行及創(chuàng)新,被視為解釋中國適應(yīng)內(nèi)外部環(huán)境的復(fù)雜變化,并推動經(jīng)濟社會持續(xù)發(fā)展的重要路徑(李智超,2019;劉偉,2015;朱旭峰、張超,2020)。

另一方面,試點中的“試”從字面上很容易讓人聯(lián)想到“試驗”或“實驗”(1)在本文中,出于簡單化的目的,不對“試驗”和“實驗”兩個概念進行區(qū)分。匿名審稿人指出,嚴格來講這兩個詞還是有一定區(qū)別的,雖然部分學(xué)者混用了兩個詞,但在官方用語中,幾乎從來不使用“實驗”一詞。。部分研究者提出,政策試點的實質(zhì)是將實驗這一研究方式應(yīng)用于公共決策或社會實踐領(lǐng)域(趙慧,2019)。這種觀點實際上將“試點”與“實驗”兩個概念等同起來(陳靖、洪偉,2020;康鎮(zhèn),2020;楊宏山,2013;章文光、宋斌斌,2018),認為實施政策試點的最理想、最科學(xué)的方法就是實驗。

具體來說,這種觀點通常基于實驗方法和因果推斷的基本邏輯,建議采用世界銀行等國際組織推崇的影響評估(Impact Evaluation)視角來評估中國的公共政策。研究者認為,傳統(tǒng)的政策試點在很多方面違背了實驗與因果推斷的原則,導(dǎo)致政策結(jié)果(效果)的真實性與可靠性有問題。例如,試點運行過程可能受到選擇性偏差(Selection Bias) 和霍桑效應(yīng)(Hawthorn Effects)兩大效應(yīng)的影響,使得政策試行的結(jié)果被高估或被低估(劉軍強等,2018),因此,要解決政策試點機制存在的問題,應(yīng)當采用隨機對照(控制)實驗(Randomized Controlled Trails,RCT)來進行政策評估(2)本文中的隨機實驗,特指嚴格意義上的隨機對照實驗(RCT),即由研究者(政策評估機構(gòu))實施隨機分配與政策干預(yù)的真正實驗,不包括采用準實驗(Quasi-Experiments)或自然實驗(Natural Experiments)方法的研究(評估)。感謝匿名審稿人的意見。。

然而,本文認為,采用隨機對照實驗方法,不僅沒有真正解決樣本選擇偏誤、外在效度等因果推斷問題(Alcott,2015),還可能帶來一些觀察性方法所沒有的問題。而且,鑒于中國的政策試點與隨機實驗存在諸多差異,以及中國的政府執(zhí)行能力與政策實施規(guī)模,本文認為,用隨機實驗方法來替代或改造政策試點是沒有必要的。

政策試點與隨機實驗的差異體現(xiàn)在多個方面。首先,政策試點區(qū)域的選擇,更多地是基于科層制的運行邏輯,而非政策效果評估的因果邏輯(Ko & Shin,2017)。研究者認為,政策試點的選擇機制有“由上至下”的行政官僚式與“由下至上”的基層創(chuàng)新式兩種解釋視角(朱旭峰、張超,2020)。很明顯,這兩種選擇機制都不是為了準確評估政策效果,更多是一種上下級政府之間的宣傳、協(xié)調(diào)與溝通機制。中央與地方之間的官員流動強化了相關(guān)城市與中央部委間的信息傳遞,借此形成的信息優(yōu)勢影響了政策試點的選擇(朱旭峰、 張超,2020)。換句話說,政策試點中上下級之間主動與自發(fā)的雙向選擇,替代了隨機實驗中樣本的隨機選擇和分配。

其次,與基于隨機實驗方法的影響評估相比,中國政策試點的內(nèi)容通常比較模糊,政策干預(yù)和結(jié)果測量缺乏定量化與精確化。一般來說,必須清晰界定與測量影響評估的干預(yù)內(nèi)容(自變量)與結(jié)果變量(因變量),以便建立一個“變遷理論”(Theory of Change),來解釋因果效應(yīng)的傳遞機制,否則就很難建立一套可操作的政策實驗方案(Gertler et al.,2016;Glennerster & Takavarasha,2013)。

正是這種模糊性,使得中國的政策試點很難采用這種因果推斷的邏輯。因為政策試點內(nèi)容具有較大的模糊性,在一個政策中往往存在多種干預(yù)方案,尤其是在多地區(qū)、多層級和多部門參與試點的情況下,各主體都會將現(xiàn)有工作內(nèi)容與職責(zé)嵌入政策試點當中,尤其在中央沒有提供實施具體步驟和方案,只提供政策名稱與大概思路的情況下,這些政策試點內(nèi)容之間甚至缺乏統(tǒng)一標準。與實驗內(nèi)容的單一性相比,試點內(nèi)容則呈現(xiàn)出明顯的整體復(fù)合性(何挺,2018)。

正是由于這種政策內(nèi)容的模糊性與多樣性,使得隨機實驗評估方法難以直接用于中國的政策試點過程。正如史耀疆等(2020)提出的,實驗方案必須簡單化才能推廣:“對于一個社會問題,人們可能想到的干預(yù)是多方面的、多層次的,其解決通常需要整合社會資源、上下聯(lián)動、多方參與。但由于開展教育領(lǐng)域的隨機干預(yù)實驗最終是為了推動教育政策的改善,如果實驗方案過于復(fù)雜、對實施者的要求過高,則會給后續(xù)政策推廣造成一定的困難?!?/p>

最后,中國的政策試點的目標與影響評估也存在差異。影響評估的目標,是通過估計政策因果效應(yīng)來提供決策依據(jù),以便進一步推廣(Scale up)或取消(Cancel)政策。然而,政策試點最重要的目標,是通過試點來解決政策實施的制度障礙,即“試點能夠積累經(jīng)驗、測試效果、突破障礙和緩沖壓力,是推進改革的有效途徑”(江小涓,2020)。這種情況不同于政策影響評估具有的科學(xué)決策意義,政策試點實際上是一種科層制下的資源和績效分配機制,具有更復(fù)雜的政治、經(jīng)濟意義。

試點項目一般會伴隨著政策紅利,與中央政府或地方政府的高度重視與匯聚的資源成正比,形成輻射網(wǎng)絡(luò),使政策得以有效的推動(陳靖、洪偉,2020;楊宏山、李沁,2021)。正是科層制中的這些政治、經(jīng)濟激勵,使得政府部門不一定有動力采用隨機實驗方法與證據(jù),即使實驗方法能夠驗證政策效果的有無或高低。研究者認為,在自上而下的科層體系中,政策方案的成功與否實際上并不是推廣的充分條件(梅賜琪等,2015)。

本文對政策試點與隨機實驗進行了全面地比較和分析。第二部分基于隨機實驗的因果推斷原理,比較了中國政策試點與隨機實驗的差異。第三部分基于國家發(fā)展、組織能力、科層制邏輯以及外部效度問題,討論了為什么隨機實驗對于中國的公共政策評估并不是必要的。在第四部分與結(jié)論中,論文提出將實驗與非實驗方法、定量與定性方法結(jié)合起來,才能更加全面和深入地理解政策試點對中國國家治理的獨特意義。

二、通過隨機實驗來理解政策試點

隨機對照實驗(RCT)或?qū)嵉貙嶒?Field Experiments)在公共政策尤其是發(fā)展政策當中的廣泛使用,與公共政策研究中循證決策(Evidence-based Policy Making)的興起是同一個過程(Cartwright & Hardie,2012)。在一定程度上,隨機對照實驗解決了觀察性研究中存在的混雜因素(Confounder)問題,從而可靠地建立了政策干預(yù)與政策結(jié)果之間的因果關(guān)系,因此受到廣泛推崇(王思琦,2018)。

(一)隨機實驗的因果推斷邏輯

眾所周知,包括隨機對照實驗與準實驗、自然實驗(工具變量、回歸間斷設(shè)計、雙重差分、傾向值匹配、合成控制等)等一系列用于影響評估的因果推斷方法,均建立在潛在結(jié)果框架(Potential Outcome Framework),或稱為反事實框架(Counterfactual Framework)的統(tǒng)計基礎(chǔ)上(馬凌遠、李曉敏,2019;曾婧婧、周丹萍,2019)。因此,要準確理解隨機實驗與政策試點的聯(lián)系與區(qū)別,可以使用潛在結(jié)果符號對平均干預(yù)效應(yīng)(Average Treatment Effect,ATE)的估計值進行進一步分析。

=E[Yi|Di=1]-E[Xi|Di=1]-E[Yi|Di=0]+E[Xi|Di=0]

=E[Yi(1)]-E[Yi(0)].

(1)

從式(1)第1行可以看出,在滿足隨機分配的條件下,平均干預(yù)效應(yīng)的估計值,是分配到干預(yù)組被試的前測與后測之差(Yi-Xi)的期望值,減去分配到控制組被試的前測與后測之差(Yi-Xi)的期望值。換句話說,平均干預(yù)效應(yīng)的估計值的大小取決于公式第1行中第1項與第2項的比較,二者互為反事實。如果第1項越大,第2項越小,那么平均干預(yù)效應(yīng)越大。而每一項期望值的大小,則取決于每組結(jié)果變量的前測與后測之間的差值。

基于式(1)可以得出,一項公共政策或項目的平均效果,等于隨機分配到干預(yù)組和控制組被試的平均效果之差。如果以扶貧政策的隨機實驗為例,假定干預(yù)組為實施某種扶貧干預(yù)的人群(即Di=1),而控制組為不實施任何扶貧干預(yù)的人群(Di=0)。這里的Yi可以定義為政策實施之后的平均家庭收入,而Xi定義為政策實施之前的平均家庭收入。第1行的第1項E[Yi-Xi|Di=1]即干預(yù)組人群政策實施前后的平均家庭收入之差,第1行的第2項E[Yi-Xi|Di=0]即控制組人群政策實施前后的平均家庭收入之差。

在中國的政策試點背景下,如果扶貧對象所在的干預(yù)組(Di=1)在扶貧前后的收入變化(Yi-Xi)非常明顯,即Yi遠遠大于Xi,而非扶貧對象所在的控制組(Di=0)在同時期的收入變化(Yi-Xi)并不明顯,即Yi與Xi差別不大,則說明政策的平均干預(yù)效應(yīng)很大,即使不采用隨機分配的實驗設(shè)計,政策效果也是非常可靠的,即扶貧效果存在選擇性偏誤和混雜因素的可能性非常低。因為從經(jīng)驗與邏輯上我們無法找到除了政策干預(yù)以外的因素來解釋這種巨大的收入變化(Mckenzie,2020)。

相反,如果政策的效果并不理想,即扶貧政策實施前后,政策干預(yù)組與控制組的收入變化(Yi-Xi)均不明顯,則理所當然,第1行的兩項之差也不大。在這種情況下,要在統(tǒng)計上可靠地識別政策效果,只有采用隨機對照實驗設(shè)計,通過隨機分配和政策干預(yù),進一步排除其他因素的干擾。

需要進一步討論的是,在進行隨機對照實驗之前,政策評估者需要基于實驗設(shè)計的基本參數(shù),來計算實驗的統(tǒng)計效力(Statistical Power),即拒絕無干預(yù)效應(yīng)的零假設(shè)的概率(Athey & Imbens,2017),具體計算參見式(2)。

(2)

式(2)的等號左邊為統(tǒng)計效力β,研究通常會選擇β=0.8,等號右邊的Φ和Φ-1分別表示累積標準正態(tài)分布函數(shù)及其反函數(shù)。在右邊的各項參數(shù)中,按照研究慣例,通常選擇α=0.05作為統(tǒng)計顯著性水平。τ是預(yù)先指定的平均干預(yù)效應(yīng)水平(即兩組的結(jié)果變量均值差)。一般假設(shè)兩個組實驗樣本具有相同的方差σ2。這幾個參數(shù)可以通過公式的變換相互計算。例如,從公式可以看到,另一個研究經(jīng)常感興趣的實驗設(shè)計參數(shù),即實驗所需的最小樣本量N=Nt+Nc是α、β、τ、σ2的函數(shù)。一般來說,為了最大化統(tǒng)計效力,通常會選擇Nt=Nc=N/2,即干預(yù)組與控制組的樣本量相等的設(shè)計。

實際上,統(tǒng)計效力分析需要一定程度上的猜測(Gerber & Green,2012)。研究者必須基于文獻和經(jīng)驗,提供一些未知參數(shù)的值,諸如預(yù)期的ATE,即τ的大小。基于公式,還可以發(fā)現(xiàn),隨著樣本量N的增加,統(tǒng)計效力將增大。因此,解決隨機實驗缺乏統(tǒng)計效力問題的一個方法就是增加樣本量。統(tǒng)計效力同樣隨著效應(yīng)τ變大而增加,所以增加干預(yù)強度是解決統(tǒng)計效力不足的另外一種途徑。效力也會隨著σ2的減少而增加,因此,研究者可以減少數(shù)據(jù)中的隨機噪音來提高統(tǒng)計效力:收集各種協(xié)變量數(shù)據(jù);最小化被試的異質(zhì)性;隨機分配之前先對樣本分層;在層內(nèi)實施隨機化;等等。

在扶貧政策試點中,如果研究者或政策制定者基于文獻和經(jīng)驗,預(yù)期一項扶貧政策的效果將非常明顯,那么在方法論意義上,隨機實驗其實并不是一種必須的效果評估方法,采用傳統(tǒng)的評估方法,甚至基于公眾的日常觀察就足以獲得可靠的結(jié)果了。然而,如果預(yù)期扶貧政策的效果不太明顯,或者預(yù)期效果的不確定性(取值范圍)很大,這個時候,隨機實驗相對來說可以提供比較可靠的因果效應(yīng)(平均干預(yù)效應(yīng))估計值。

然而,如果要確保實驗發(fā)現(xiàn)的因果效應(yīng)可靠程度較高,即統(tǒng)計效力較大,政策評估者和研究者需要盡可能地增加樣本量N,減少統(tǒng)計誤差σ2。這些保證統(tǒng)計效力措施的實行,是以耗費巨大的研究資源(人力、物力、經(jīng)費、時間等)為代價的,隨機實驗的成本甚至?xí)颊呋蝽椖靠偝杀镜南喈斠徊糠?,而這些資源本來可以直接用于扶貧對象。從現(xiàn)實意義上講,在政策試點過程中,不區(qū)分政策的類型與特征,不考慮政策效果的預(yù)期,大量采用實驗方法進行評估,至少在經(jīng)濟上是不合理的,存在公共資源的浪費問題。

(二)政策試點的政治經(jīng)濟邏輯

如前所述,與隨機對照實驗不同,至少在宏觀制度層面上,中國政策試點的主要目標并非是獲得政策(項目)方案的因果效應(yīng)估計值,而是關(guān)注其控制、宣傳、示范與協(xié)調(diào)、溝通等多重作用。因此,試點的政治經(jīng)濟邏輯取代了實驗的因果推斷邏輯(劉培偉,2010)。正如韓博天(2008、2010)指出的那樣,中國的政策試驗并非一種科學(xué)過程,而是一個充滿了政治博弈的過程,央地之間的關(guān)系是理解政策試驗的一個主要角度。李振(2014)也通過對比中國政策試驗(試點)和歐洲的試驗主義治理,將政策試驗(試點)視為應(yīng)對不確定性的一種機制。

研究認為,中國政府開展政策試點的目標是多重的,這些目標包括:第一,因為還看不準對新的制度或政策的實施效果,需要進行小范圍實測,觀察實效和完善改革方案;第二,表明此事僅在小范圍試行,有進退余地,容易與持不同意見者達成妥協(xié);第三,允許地方因地制宜推進改革;第四,有極少數(shù)試點是具體部門的“緩兵之計”;第五,還是在部門層面,有極少數(shù)試點是“設(shè)租”的一種方式(江小涓,2020)。在以上五種試點目標中,只有第一種接近隨機實驗或影響評估的目標,其余幾種都是服務(wù)于不同層級、部門、官員之間的協(xié)調(diào)與溝通,以便實現(xiàn)各自的政策偏好,進行上下級權(quán)力與部門利益的博弈與分配。

此外,地方政府對于試點成功的期待,使其難以算作一種科學(xué)實驗,而是一個塑造示范標桿的政治經(jīng)濟過程(趙慧,2019)。尤其在試點選擇上,不會像實驗?zāi)菢訉⒉煌貐^(qū)隨機分配到干預(yù)組與控制組。研究發(fā)現(xiàn),上級政府傾向選擇擁有較多資源、具有較好經(jīng)驗積累、成功可能性較大的地區(qū)試點,因為試點并非追求純粹的科學(xué)屬性,而在于突破現(xiàn)有制度障礙、建立示范(趙慧,2020)。

為了使試點取得成功,上級政府還往往將資源集中投入到試點地區(qū)(吳怡頻、陸簡,2018)。正是因為試點能夠在政策、財政等方面獲得額外支持,地方政府會積極爭取成為試點,并將成為試點作為一種政績(趙慧,2020)。從實驗與因果推斷的邏輯來看,給予試點地區(qū)額外的資源或權(quán)力,相當于引入了混雜(混淆)因素,進一步導(dǎo)致試點效果歸因的困難:究竟試點政策本身產(chǎn)生了效果,還是額外資源產(chǎn)生了效果?

不管是上級政府基于試點成功可能性的主動選擇,還是地方政府出于政績考慮,積極爭取成為試點(自選擇),都將導(dǎo)致樣本選擇性偏誤(Selection Bias)。試點地區(qū)的高度自選擇性,使得相比非試點地區(qū),試點地區(qū)會更重視試點工作,有更多內(nèi)部資源傾斜。在極端情況下,其他政策的效果都會被算到該試點政策頭上,甚至虛構(gòu)與夸大政策的效果。

表1比較了政策試點與隨機實驗的主要區(qū)別。在政策干預(yù)地點的確定上,如前所述,政策試點地區(qū)往往是高度選擇性的,無論是上級政府(中央政府)的挑選或指派,還是下級地方政府的積極爭取,都與政策試點效果高度相關(guān)。而隨機實驗在選擇實驗地點時,則會采用完全隨機分配、整群隨機分配、區(qū)塊隨機分配等,即使限于條件,無法采用真正的隨機分配,選擇試點地區(qū)也會盡量減少人為選擇,保證結(jié)果至少是近似隨機的。

表1 政策試點與隨機實驗的比較

在政策干預(yù)的內(nèi)容上,由于政策試點涉及上級政府與下級政府之間的合謀機制,即復(fù)雜的討價還價、協(xié)調(diào)溝通過程。同時,政策試點往往不是單一部門、單一地區(qū)的試點。因此,即使上級政府在出臺政策試點方案時,方案內(nèi)容相對統(tǒng)一與清晰,在試點的推進過程中,其干預(yù)內(nèi)容也會變得越來越多樣和模糊。各級政府、各個地區(qū)以及各種部門,都會有意無意地改變政策內(nèi)容,加入有利于本級、本地區(qū)、本部門利益的項目。在試點過程中,可能最終能夠統(tǒng)一的只有政策名稱。

此外,中國是一個面積廣大,人口眾多,文化、自然與氣候條件復(fù)雜的國家?!耙虻刂埔恕薄熬唧w問題具體分析”本來就是被體制所推崇和肯定的,這進一步導(dǎo)致了政策內(nèi)容的多樣性。相反,實驗方法的高度定量化,決定了其干預(yù)內(nèi)容的設(shè)計必須是清晰和標準的,否則根本無法對不同干預(yù)對象(如個人、家庭、社區(qū)、企業(yè)等)統(tǒng)一實施。

與試點地區(qū)選擇的邏輯一致,正是因為結(jié)論在上級決定試點地區(qū)時就基本確定了,因此,試點并不嚴格強調(diào)對政策結(jié)果的定量與精確測量,而基本上均采用定性評價程序與手段,如采用專家座談、實地考察、單位自評等方式來判定政策實施的效果。這些方法往往是一次性和短期的,因為上下級政府都期望政策效果立竿見影,便于及時宣傳推廣。而隨機實驗為了保證政策干預(yù)效應(yīng)的可靠性,減少結(jié)果測量的誤差,基本上采用定量的、多次的和長期的測量工具。

總之,政策試點體現(xiàn)的是政治經(jīng)濟邏輯而非因果推斷邏輯?;蛘哒f,基于隨機實驗和因果推斷基礎(chǔ)上的政策效果(影響)評估,可能只是其中一個目標,甚至并非是其中的主要目標。不管是將試點與實驗(試驗)視為同義詞,還是認為應(yīng)當基于實驗方法對其進行改造完善的觀點,都過于理想化,強調(diào)了隨機實驗的科學(xué)性,卻相對忽視了傳統(tǒng)政策試點機制的內(nèi)在合理性。

三、隨機實驗是否是必要的?

盡管隨機實驗有利于在統(tǒng)計上發(fā)現(xiàn)政策的因果效應(yīng)(平均干預(yù)效應(yīng))。但是,采用隨機實驗進行政策評估的真實意義,仍然需要根據(jù)不同的應(yīng)用背景來具體分析。實際上,與傳統(tǒng)觀察性評估方法一樣,隨機實驗同樣存在一系列方法與應(yīng)用上的局限,導(dǎo)致其對中國公共政策評估的意義被夸大了。

(一)隨機實驗與國家發(fā)展

如前所述,在政策效果非常明顯的情況下,即使不使用隨機實驗,也能夠進行因果推斷,發(fā)現(xiàn)可靠的因果效應(yīng),這就為政策試點機制的合理性提供了理論基礎(chǔ)。因為中國政策試點涉及的人口規(guī)模、地區(qū)范圍、經(jīng)濟資源往往非常龐大,從而產(chǎn)生了明顯可觀察、可識別的政策效果。例如,近年來中國的精準扶貧政策,成功地實現(xiàn)了9899萬農(nóng)村貧困人口全部脫貧,創(chuàng)造了人類減貧史上的奇跡和減貧治理的中國樣本,為全球減貧事業(yè)做出了重大貢獻。如此巨大的政策效果,不可能來自于其他任何地理、自然等混雜因素,只能歸結(jié)于精準扶貧政策本身。

在中國的體制環(huán)境下,政府具有強大的政策執(zhí)行力和資源動員能力,它能使用包括科層制與項目制在內(nèi)的各種治理手段,可以制定與實施長期的經(jīng)濟與社會發(fā)展計劃,最終實現(xiàn)中國政治、經(jīng)濟的可持續(xù)發(fā)展。而這種宏觀的、國家層面上的結(jié)構(gòu)轉(zhuǎn)型與發(fā)展,恰好是隨機實驗難以甚至無法評估的政策層次。

正如Pritchett(2018、2020)提出的那樣,國家發(fā)展(National Development)是一個國家、地區(qū)或社會向更高水平能力的轉(zhuǎn)型,體現(xiàn)為四個方面:從低生產(chǎn)力到高生產(chǎn)力的經(jīng)濟轉(zhuǎn)型,向更能回應(yīng)人民愿望政府的政治轉(zhuǎn)型,向具有更高執(zhí)行能力的組織(包括國家在內(nèi))的行政轉(zhuǎn)型,還有向使這個國家的公民得到更平等待遇的社會轉(zhuǎn)型。

與此形成鮮明對比的,是目前發(fā)展經(jīng)濟學(xué)當中的隨機實驗評估。這些評估基本上是研究者與基金會等社會組織推動的,導(dǎo)致解決政策問題的視野比較狹隘,基本上是圍繞瑣碎且微觀的主題,采用市場化、貨幣化的干預(yù)手段,很大程度上忽視了國家整體發(fā)展層面的政策議題。這些微觀主題諸如:要求小學(xué)老師每天早上提交一張自拍,研究這是否會提高教師出勤率;研究免費或收費發(fā)放蚊帳對非洲民眾蚊帳使用率的影響;研究飲用水加氯、驅(qū)蟲藥等對民眾身體健康的影響;研究電話、短信、網(wǎng)絡(luò)等信息干預(yù)對經(jīng)濟、健康、教育行為的影響;研究與小額貸款相關(guān)的諸多隨機對照實驗;等等。

在隨機實驗中,政策制定者與研究者無法提出這些微觀政策所嵌入的機構(gòu)和制度的總體改革方案,只能提出零碎的解決方案。這些方案沒有充分考慮政策的社會、文化背景因素和制度約束(Pritchett & Sandefur,2015),基本上是照搬西方或其他國家。一旦各種外來的助推與資源消失,政策效果就隨之消失,難以真正解決制度性與結(jié)構(gòu)性的國家發(fā)展問題(Pritchett,2020)。例如,近年來,多個國際組織與阿富汗政府部門合作開展的阿富汗國家團結(jié)項目(National Solidarity Programme),基于500個村莊的實驗樣本,采用隨機對照實驗評估了一系列經(jīng)濟、社會領(lǐng)域的子項目,但最近阿富汗的政治局勢表明,這種外生的國際援助項目并沒有肩負起國家建設(shè)與發(fā)展的重任(4)感謝匿名審稿人的啟發(fā)。該評估項目的詳細情況可以參見網(wǎng)站:http://nsp-ie.com/index.html. 2021年12月8日訪問。。

總之,諸如精準扶貧等國家發(fā)展層面上的政策,具有宏觀性、復(fù)雜性,很難被整齊和均勻地分割為一個個微觀問題及解決方案,以便使用隨機實驗進行評估。而且,即使能夠把宏大議題分解為小的主題進行研究,在市場化、商業(yè)化的干預(yù)設(shè)計思路下,也無法將其還原為整體性的國家戰(zhàn)略知識。

相反,中國的政策試點是一種從國家與中央政府層面推動的政策試錯機制,盡管某個試點地區(qū)得到的經(jīng)驗是局部的、微觀的,但是在總體性和長期性發(fā)展規(guī)劃的框架下,通過對這些局部知識的匯總與理解,可以制定推動國家長期、可持續(xù)發(fā)展的有效戰(zhàn)略。

(二)有效政策與實施能力

公共政策的有效性與政府實施能力高度相關(guān)。研究發(fā)現(xiàn),很多政策即使在前期或小規(guī)模的評估中是有效的,可能也難以大規(guī)模應(yīng)用和推廣,因為對政府能力提出了更高的要求。江小涓(2020)認為,當小范圍試點“政府私人合作伙伴(PPP)”項目時,由于管理精細且關(guān)注度高,項目推進過程的可控性較好。而當大面積鋪開后,有可能出現(xiàn)嚴重的利益輸送或腐敗等問題。

一般來說,在小規(guī)模政策影響評估中,隨機實驗的資助者、設(shè)計者、實施者往往具備一定的特殊動機與能力,正是這種動機與能力導(dǎo)致前期實驗的成功,同時也為政策推廣后的失敗埋下了種子。因為在大規(guī)模應(yīng)用和推廣時,這種動機與能力是異常的或稀缺的。例如,在發(fā)展中國家進行的實驗發(fā)現(xiàn),一些小規(guī)模評估時有顯著效果的政策,一旦推廣到更大范圍,效果往往會下降甚至消失。理所當然,在初期進行實驗時,相關(guān)人員通常具有高度專業(yè)知識和強烈服務(wù)動機,而且實驗規(guī)模較小,溝通協(xié)調(diào)的問題也較少,政策效果肯定容易出現(xiàn)。一旦推廣到更多區(qū)域,由常規(guī)的機構(gòu)來實施時,這些人很難具有像參與前期實驗的那些人員的素質(zhì)與能力,而且面對的將是更復(fù)雜的社會環(huán)境,政策效果就消失了。

眾所周知,很多發(fā)展中國家政府的管理和監(jiān)督能力很弱,根本無法實施大規(guī)模、標準化的政策方案(Andrews et al.,2017)。換句話說,這些國家真正缺乏的是實現(xiàn)發(fā)展目標的政府能力,而不是具體的政策有效性知識。不管是來自隨機實驗評估的結(jié)果,還是來自常規(guī)方法評估的結(jié)果,都無法解決政府治理能力的問題。在這種低國家能力的約束條件下,各種小打小鬧、創(chuàng)可貼式的政策方案反而更適合他們。因為這樣更容易出成果,更有可見度,更有利于選舉獲勝、快速調(diào)任與升遷。

實際上,與其他發(fā)展中國家的地方政府相比,中國的地方政府能力總體較高??紤]到中國的人口規(guī)模龐大、地區(qū)差異明顯,如果非要采用經(jīng)過實驗評估后制定的、高度統(tǒng)一和標準化的政策方案,盡管下級政府在執(zhí)行上沒有問題,但可能導(dǎo)致政策在執(zhí)行時喪失靈活性。例如,東部沿海發(fā)達地區(qū)行之有效的政策,要求西部地區(qū)全盤復(fù)制,如果不考慮西部地區(qū)行政資源相對較少的狀況,就會導(dǎo)致政策實施的效果不盡相同。正如福山(Fukuyama,2013)提出的那樣,在高政府能力的情況下,需要增加政府的自主性,即鼓勵地方的政策創(chuàng)新,而在低政府能力的情況下,要保證其忠實執(zhí)行中央政策,以實現(xiàn)政策的基本目標。

在中國這種政治上高度統(tǒng)一的單一制國家,政府具備良好的政策執(zhí)行能力和行政資源,公眾政治信任程度較高。因此,在選擇試點地區(qū)和方案時,應(yīng)充分尊重各地區(qū)、各部門的實際情況,因地制宜、上下協(xié)商,這樣更有利于發(fā)現(xiàn)具有局部最優(yōu)適應(yīng)性的政策方案,避免復(fù)制機械和呆板的標準化政策。而且,政策試點內(nèi)容的復(fù)雜性與結(jié)果測量的模糊性,也有利于實現(xiàn)多種政策目標組合,在這些目標之間進行調(diào)整與迭代,最終發(fā)現(xiàn)適合解決本地特殊問題的創(chuàng)新方案。

(三)實驗結(jié)果與科層制

如果將隨機實驗用于中國的政策評估,還會面臨組織結(jié)構(gòu)與制度背景不適應(yīng)的問題。目前,國外發(fā)展政策等領(lǐng)域的實驗評估,很多是由研究機構(gòu)設(shè)計、社會組織資助或?qū)嵤┑?,著名的影響評估機構(gòu)有J-PAL、International Initiative for Impact Evaluation(3ie)等。由于其所處的制度環(huán)境,使得其采用的政策干預(yù)往往基于競爭性、市場化、商品化的激勵機制(Berndt,2015)。這種政策干預(yù)模式相對忽視了真正的公共政策,基本上是由國家和政府主導(dǎo)與實施的,政府的政策工具與科層制內(nèi)部的激勵,與各種社會組織和企業(yè)有巨大的差異。

從這種意義上來說,在中國的制度背景下,即便政策在前期實驗評估時被認為有效,相關(guān)政府部門也有實施能力,但政策可能仍然無法被廣泛采納或重視,原因就在于目前這種市場導(dǎo)向、自下而上的實驗評估與科層制的運行邏輯是不兼容甚至是沖突的。

首先,隨機對照實驗評估在學(xué)術(shù)上的重要價值在于證偽而非證實。例如,隨機對照實驗證偽了小額貸款的有效性。盡管小額貸款的倡導(dǎo)者將其描述為賦予婦女權(quán)利和大規(guī)模減貧的關(guān)鍵因素(Angelucci et al.,2015),但很多實驗結(jié)果表明,小額貸款只是一種有用的金融產(chǎn)品,并不能實現(xiàn)社會變革(Morduch,2020)。在很多環(huán)境下,小額貸款對家庭決策和支出模式?jīng)]有明顯影響 (Banerjee & Duflo,2011)。

這種證偽邏輯,固然可以驗證某些政府主導(dǎo)政策在統(tǒng)計意義上的無效性,但忽略了科層體制下,政策過程的現(xiàn)實性與復(fù)雜性,因此難以被政府部門采納。例如,某些政策被驗證為無效(如對弱勢群體的再分配政策,并沒有改變其生存狀況),但可能具有重要的政治意義,因此短期內(nèi)不能取消或減少。很多政策的目標是多方面的、潛在的,單一結(jié)果測量的實驗過于簡單化,容易忽視政策的積極作用。然而一旦進行全面地觀測,可能會發(fā)現(xiàn)政策實際上是有其積極作用的,或者對非政策目標人群具有意想不到的某種效果。

其次,即使在實驗評估中行之有效的市場化干預(yù)工具,也可能并不適合由政府部門來實施,要么干預(yù)成本太高,花費大量財政經(jīng)費反而導(dǎo)致公眾的反對,要么干預(yù)過程過于瑣碎和漫長,不符合政府部門的年度預(yù)算規(guī)定與行政流程。例如,很多時效性政策是針對特定問題的解決而提出的,而實驗為了保證其規(guī)范性,通常會花費大量時間用于研究設(shè)計、基線(Baseline)調(diào)查、干預(yù)分配和結(jié)果測量,尤其是終線(End Line)測量或后續(xù)(Follow up)測量,可能花費幾個月甚至幾年的時間。而政府官員傾向在短期內(nèi)做出政策決定,否則會面臨相當大的政治與社會壓力,因此無法采用曠日持久的隨機實驗評估。

相比之下,政策試點更符合中國的制度環(huán)境,因為試點機制內(nèi)在于科層制本身,包括:政策干預(yù)工具符合科層制的工作慣例,由政府部門主導(dǎo)評估過程,不需要漫長的評估周期,對政策結(jié)果的相對靈活使用符合政治要求,允許上下級政府之間的協(xié)調(diào)、默許、討價還價等。更重要的是,實驗測量的是某種政策干預(yù)的整體效果,這種效果無法被分解為不同干預(yù)成分的邊際貢獻,哪怕有多個部門都參與了政策干預(yù)實施。無法分割對政策效果的貢獻,違反了科層制按部門進行績效考核的基本原則,而政策試點伴隨著科層制的運行過程,允許觀察政策效果和分配部門與崗位績效,從而形成強大的政績激勵,更有利于公共政策的落實與推廣。

(四)政策實驗的外部效度

一般來說,政策評估的實驗方法,通過隨機分配樣本,建立干預(yù)組與控制組的反事實比較,能夠測量政策因果效應(yīng),因此具有較高的內(nèi)部效度。然而,由于研究經(jīng)費、研究環(huán)境的限制,整個實驗樣本通常并不是從研究總體中隨機抽樣得來的,因此實驗結(jié)果對總體很難有統(tǒng)計代表性,即外部效度并沒有想象的那么高,或者說,研究結(jié)果很難推廣到異質(zhì)性的政策環(huán)境與政策對象中去(Bates & Glennerster,2017)。

政策實驗外部效度的不足,與政策一旦有效就應(yīng)當推廣的邏輯產(chǎn)生了沖突。在理想狀態(tài)下,只有同時具備內(nèi)部和外部效度的政策工具,才能被認可并成為政策方案(趙慧,2019)。但現(xiàn)實中的政策實驗,其效果其實只經(jīng)過了少量實驗對象、個別地區(qū)的檢驗,并沒有經(jīng)過大范圍的驗證。這些實驗對象或地區(qū)中出現(xiàn)的因果效應(yīng),可能受其內(nèi)在特征(性別、年齡、收入、地理氣候、經(jīng)濟發(fā)展水平等)的調(diào)節(jié)(Moderation),而這些內(nèi)在特征在總體(政策總體)上是分布不均勻的。因此,在更大范圍的實驗對象中可能無法重現(xiàn)效果。

更重要的是,政策的不斷推廣會導(dǎo)致一般均衡(General Equilibrium)效應(yīng)。換句話說,前期實驗中的政策效果只是一種市場的局部均衡而非一般均衡。例如,一項旨在促進失業(yè)人員再就業(yè)的培訓(xùn)政策(項目),前期評估發(fā)現(xiàn)它可以有效提高就業(yè)率或收入,因此政府部門在不同地區(qū)和行業(yè)大力推廣。但隨著接受政策干預(yù)的人數(shù)的增加,政策的效果會逐漸變小甚至消失,因為最初的實驗是對少數(shù)人進行的,沒有改變整個勞動力市場的供求與價格,一旦規(guī)模擴大,就可能影響市場的基本供求結(jié)構(gòu)。因為參加培訓(xùn)的人越多,培訓(xùn)對人力資本的價值就越小,對個人就業(yè)和收入的邊際作用就越低,而這種效應(yīng)可能要很長時間才能顯現(xiàn)出來。

政策總體的高度異質(zhì)性與一般均衡效應(yīng)的存在,使得很難有一個“放之四海而皆準”的政策方案,即“試點效果好并不能得出大面積實施后的效果也同樣好的結(jié)論”(江小涓,2020)。或者說,有效政策基本上是局部的,要在更大范圍內(nèi)實現(xiàn)政策目標,需要熟悉政策環(huán)境的本地機構(gòu)和人員,通過針對問題的不斷試錯來進行迭代適應(yīng)(Iterative Adaptation)。這種“具體問題具體分析”的邏輯恰好與政策試點有很多的共同之處,即允許各個地方采用不同的政策方案,基于本地的實際情況來設(shè)計,避免了將特定群體的實驗結(jié)果推廣到高度差異化的總體,也減輕了一般均衡效應(yīng)的影響。

四、政策評估方法的黃金標準

最近20年來,無論在發(fā)展經(jīng)濟學(xué)、計量經(jīng)濟學(xué)還是統(tǒng)計學(xué)等領(lǐng)域,無論是世界銀行、世界衛(wèi)生組織等國際組織,以及在眾多發(fā)展中國家的政府部門,都將采用隨機實驗進行政策評估的實踐,隨機試驗被視為一種黃金標準(Bothwell et al.,2016)。很多人認為只有基于實驗(或準實驗、自然實驗等)評估方法得到的政策效果,才是值得信任的(Angrist & Pischke,2010;Gueron,2017;Imbens,2018)。與此同時,其他定量和定性評估方法在政策因果推斷上的價值都被有意無意地貶低(Banerjee & Duflo,2009)。

Heckman (1992、2020)指出,從1965年以來,經(jīng)濟學(xué)領(lǐng)域?qū)嵉貙嶒灥臍v史可以分為兩個時代。(1)早期利用實驗來解決重要的政策辯論,認為非實驗證據(jù)是模棱兩可的。(2)發(fā)展經(jīng)濟學(xué)實驗復(fù)興,以2019年諾貝爾經(jīng)濟學(xué)獎為高潮。每個時代都以對隨機對照實驗方法論的近乎宗教般的熱情為標志。Heckman (2020)認為,在兩次實驗方法熱潮中,“第一波的動機是解決主要的社會問題,而第二波則更注重方法論。獲得因果效應(yīng)是經(jīng)濟學(xué)領(lǐng)域癡迷的一部分,即使所確定的效應(yīng)沒有社會意義和(或)經(jīng)濟意義”。

換句話說,所謂隨機主義者(Randomistas)對于實驗方法的推崇(Leigh,2018;Ravallion,2020),只是出于利益與偏好,而非真正的科學(xué)證據(jù)(Donovan,2018)。與其他方法相比,實驗方法并不具有天然的優(yōu)越性(Deaton,2010;Deaton & Cartwright,2018;Harrison,2011)。

從實驗方法的發(fā)展來看,經(jīng)過歷史上長期的方法論爭議,政策評估領(lǐng)域其實已達成共識,實驗并不具有絕對的優(yōu)先性(Barrett & Carter,2010),好的評估一定是多種方法并用的(Concato et al.,2000)。但這種共識被20世紀90年代以來對隨機實驗的高度推崇所干擾,重新陷入了方法論爭議當中(Ogden,2017;Rodrik,2009;Teele,2014)。因此,要準確理解實驗評估的局限性與政策試點的意義,需要對實驗與非實驗方法的關(guān)系進行討論。

(一)實驗評估與非實驗評估方法

社會科學(xué)的隨機對照實驗方法起源于醫(yī)學(xué)與生物學(xué)研究傳統(tǒng)(Bothwell & Podolsky,2016;Favereau,2016)。但與醫(yī)學(xué)研究不同,社會科學(xué)中的實驗很難遵循醫(yī)學(xué)實驗?zāi)欠N嚴格標準(Cook,2018)。例如,社會科學(xué)實驗基本上無法做到“雙盲”,仍然存在霍桑效應(yīng)等研究者介入效應(yīng)。例如,控制組被試可能出現(xiàn)約翰·亨利效應(yīng)(John Henry Effects),即在研究某種干預(yù)(如提高福利)對工作效率的實驗中,控制組被試如果意識到自己沒有被分到干預(yù)組,出于競爭的心態(tài),可能會更努力地表現(xiàn)自己,從而干擾實驗結(jié)果,降低干預(yù)效應(yīng)。而且,很多政策實驗沒有像醫(yī)學(xué)實驗?zāi)菢硬捎冒参縿?Placebo)設(shè)計,即經(jīng)常使用無任何干預(yù)的空白對照組,而非對其實施現(xiàn)有的政策。在這種情況下,即使新的政策并不優(yōu)于現(xiàn)有政策,也被視為有效的政策創(chuàng)新。

與非實驗方法相比,盡管實驗采用了隨機分配,在一定程度上消除了樣本選擇偏誤和遺漏(混淆)變量的干擾,但這只是理想狀況而非現(xiàn)實狀況。政策評估中的實地實驗,由于在真實社會環(huán)境下進行,雖然比實驗室實驗的外部效度高,但也面臨更多干擾,如隨機分配失誤、實驗對象不遵從、樣本縮減、實驗對象相互干擾等問題(Della Vigna & Pope,2018)。換句話說,實施一項有問題的實驗評估,因果推斷的能力可能遠遠不如實施良好的非實驗(觀察性)評估,如問卷調(diào)查、參與觀察、深度訪談、管理數(shù)據(jù)分析等。

表2對實驗評估和非實驗評估進行了比較。盡管非實驗評估缺乏隨機分配,但是由于其實施簡單、成本較低,采用隨機或非隨機抽樣,對總體的代表性反而更高。而且非實驗研究方法包括了定量與定性的多種方法,更能適應(yīng)復(fù)雜的社會環(huán)境。實驗方法雖然有利于因果推斷,但其較高的成本也限制了其推廣性。而且,在政策經(jīng)費有限,或因倫理、政治等因素(Baele,2013)而無法進行實驗時,觀察性評估甚至是唯一可行的方法(5)這里的觀察性評估包括準實驗、自然實驗等一系列因果推斷方法。本文將由研究者或政策評估機構(gòu)實施隨機分配與干預(yù)的方法視為真正的實驗,而把無隨機分配和干預(yù)、隨機分配和干預(yù)不是由研究者來實施的方法,都視為準實驗或自然實驗。。

表2 隨機實驗評估與非實驗評估比較

因此,將隨機實驗作為最高地位的評估方法,忽視甚至排斥其他方法的觀點是有問題的(Barrett & Carter,2014)。這種觀點忽視了現(xiàn)實世界的復(fù)雜性以及實驗方法面臨的諸多困難,從方法論的角度來看,更接近于廣告宣傳而非科學(xué)研究(Bédécarrats et al.,2019)。

(二)多種評估方法的結(jié)合

需要說明的是,本文對于實驗評估方法的分析與批評,并不意味著在政策評估中不應(yīng)該使用隨機實驗。這種方法論上的反思,是為了將實驗與非實驗評估方法結(jié)合起來,充分發(fā)揮不同方法的優(yōu)勢,同時避免各自的缺陷(Basu,2014;Gelman,2018)。

隨機實驗方法在統(tǒng)計推斷上的優(yōu)勢,最重要的是研究設(shè)計的透明性以及結(jié)果分析的簡單性。如果滿足隨機分配有效、干預(yù)正確實施的條件,實驗數(shù)據(jù)可以直接計算均值差估計量,使用最簡單的t檢驗就可以直接比較干預(yù)組與控制組在結(jié)果變量上的差異,無需像觀察性數(shù)據(jù)那樣,進行復(fù)雜的回歸分析和模型設(shè)定,從而減少了為找到統(tǒng)計顯著性結(jié)果導(dǎo)致的學(xué)術(shù)不端行為。例如,Vivalt(2019)發(fā)現(xiàn),在統(tǒng)計模型設(shè)定搜索(Specification Search)行為方面,采用隨機對照實驗方法的文獻比傳統(tǒng)觀察性研究文獻要少。

用形象的語言來說,政策評估如同警察破解疑案中的蛛絲馬跡,需要利用所有可得的知識與信息(Freedman,1991)。因此,一項好的政策評估,應(yīng)當是實驗與非實驗方法、定量和定性方法的結(jié)合(Morvant-Roux et al.,2014)。如果隨機對照實驗基于各種文獻積累,并得到了觀察性或定性方法的幫助,才能真正有效地獲得政策洞見,幫助設(shè)計行之有效的政策方案,以及在相互競爭的政策方案之間選擇成本效益最好的那種。

因此,可以在開展大規(guī)模實驗之前,利用田野調(diào)查、民族志或其他方法來發(fā)現(xiàn)關(guān)鍵的因果機制傳遞過程,結(jié)合學(xué)術(shù)研究文獻和部門政策經(jīng)驗,確定合適的政策干預(yù)變量與結(jié)果測量。在實驗結(jié)束之后,如果發(fā)現(xiàn)了異質(zhì)性干預(yù)效應(yīng),就進一步深入實地,從實驗對象中補充收集數(shù)據(jù),基于問卷調(diào)查與訪談,來探索這種異質(zhì)性干預(yù)效應(yīng)出現(xiàn)的原因,即為什么干預(yù)對某些對象有效或者無效。

總之,要發(fā)揮實驗與非實驗方法各自在政策評估中的作用,一方面,必須進入到政策實施環(huán)境中,理解政策對象的態(tài)度、認知與偏見,觀察政策執(zhí)行中的意外、矛盾與失誤,不斷修改和完善評估設(shè)計(Karlan & Appel,2011)。另一方面,必須主動去收集與政策相關(guān)的自然、技術(shù)、人文和社會科學(xué)知識,不能局限在某個學(xué)科或領(lǐng)域內(nèi),才能設(shè)計出有想象力、創(chuàng)造力的政策干預(yù)與結(jié)果測量:除了觀察現(xiàn)有政策的效果,還可以嘗試檢驗前所未有的政策干預(yù)的效果。

當然,將非實驗方法單獨用于政策評估也是合理的。例如,對于一種創(chuàng)新性的政策方案,政策對象數(shù)量很少,無法滿足實驗隨機分配(或定量研究)的樣本量,可以采用案例分析式的評估,通過觀察政策過程與事件,為進一步的政策設(shè)計提供參考。此外,前述中提到的國家發(fā)展政策,由于任何隨機實驗都無法評估,也需要結(jié)合多種非實驗方法來排除其他宏觀因素的干擾,確定發(fā)展政策的效果和意義。

五、結(jié)論

政策試點作為中國國家治理的一種重要機制,得到了學(xué)術(shù)界廣泛的關(guān)注。有研究者認為,應(yīng)該采用隨機對照實驗的方法來改造甚至替代政策試點,提高政策評估的因果推斷能力。基于隨機實驗以及因果推斷的統(tǒng)計原理,本文對政策試點與隨機實驗進行了深入比較,分析了政策試點的價值以及隨機實驗的局限,提出政策試點的基礎(chǔ)是適合中國治理體制的政治經(jīng)濟邏輯,而非統(tǒng)計意義上的因果推斷邏輯。這兩種邏輯都有其合理性與適用性,因此,沒有必要用隨機實驗的標準來要求或評價中國的政策試點。

本文認為,隨機實驗強調(diào)微觀的、市場化的政策解決方案,而政策試點能更好地幫助制定與評估國家發(fā)展層面的宏觀戰(zhàn)略與政策。經(jīng)隨機實驗評估有效的政策,由于地方政府能力高低與條件差異,難以在更大范圍內(nèi)推廣與應(yīng)用??茖又骗h(huán)境下,實驗方法的評估結(jié)果可能難以被政府官員采納,而政策試點與科層制的內(nèi)在關(guān)系密切,采納與實施的可能性更高?,F(xiàn)有實驗評估通常由社會組織或研究機構(gòu)主導(dǎo),缺乏與政府科層制的銜接,難以適應(yīng)政府決策的復(fù)雜性和時效性,而政策試點則具有更高的適應(yīng)性。隨機實驗往往選擇部分區(qū)域和少量對象實施,一旦拓展到更大范圍,就容易出現(xiàn)干預(yù)效應(yīng)異質(zhì)性和一般均衡效應(yīng),而政策試點則可以進行局部方案的優(yōu)化調(diào)整。

總之,隨機實驗評估并非是一種萬能方法,也不是政策評估的黃金標準,沒有自動高于其他方法的地位。作為諸多評估范式和方法的其中之一,實驗必須與非實驗的定性和定量方法結(jié)合起來,揚長避短,才能獲得有洞見的政策評估知識。

相比實驗方法,政策試點更加具有靈活性、包容性和開放性,在某種意義上,政策試點更加接近于貝葉斯統(tǒng)計學(xué)的邏輯,即通過政策干預(yù)與觀察學(xué)習(xí)來不斷試錯,隨時結(jié)合新出現(xiàn)的信息,不斷對干預(yù)手段與政策信念進行迭代更新。這種貝葉斯類型的政策評估,可以讓我們在高度復(fù)雜、充滿不確定性的世界中,越來越接近政策背后的真相。

因此,高質(zhì)量的政策制定與評估,必須拋棄“唯實驗”方法論的偏執(zhí),對所有方法一視同仁、兼容并包。與醫(yī)學(xué)和生物學(xué)研究將實驗用于藥物、疫苗與治療方案上的應(yīng)用不同,社會科學(xué)中的隨機對照實驗,可能更適用于理論的驗證和修改,而不是具體政策的評估。因為,如果沒有理論的指導(dǎo),就難以將各種分散化評估的結(jié)果聯(lián)系起來,建立理解中國公共政策更大的、更完整的圖景。

當然,無論是政策試點還是隨機實驗,都需要考慮政策的成本-效益(Cost-Effectiveness)問題。任何公共政策,實際上都是資源的再分配,為了取得某種政策效果,一定會付出某種代價(時間、經(jīng)濟、健康、生命、尊嚴等)?,F(xiàn)實中可以看到,相互競爭的政策方案之間的比較并不總是基于成本-效益,可能更多的是基于政策主導(dǎo)機構(gòu)的績效與利益。在這種情況下,政策試點和隨機實驗都失去了意義。

猜你喜歡
試點政策評估
政策
政策
助企政策
政策
華人時刊(2019年21期)2019-11-17 08:25:07
固廢試點“擴容”再生資源或?qū)⒓{入其中
省級醫(yī)改試點的成績單
評估依據(jù)
國家醫(yī)改試點再擴容
國家級醫(yī)改試點醫(yī)院舉步維艱
立法后評估:且行且盡善
浙江人大(2014年5期)2014-03-20 16:20:25
百色市| 邓州市| 康定县| 西充县| 乌鲁木齐县| 西乌| 达日县| 郓城县| 江华| 芦溪县| 朔州市| 文安县| 石屏县| 读书| 桐乡市| 舞阳县| 柞水县| 林西县| 黔东| 嵩明县| 贞丰县| 贵阳市| 合作市| 剑川县| 武穴市| 来凤县| 阜阳市| 沙田区| 绩溪县| 丹凤县| 金坛市| 石棉县| 阳曲县| 清镇市| 扎兰屯市| 河南省| 永州市| 古浪县| 海淀区| 巴楚县| 永登县|