范良聰 許 彬
目次
一、 引言
二、 文獻述評
三、 實驗設計和程序
四、 實驗結果
(一)集體行動中引入賞罰效果的統(tǒng)計描述與比較
(二)集體行動中引入賞罰對一階捐獻行為的影響差異分析
(三)集體行動中賞罰行為使用規(guī)范的差異性分析
五、 結論
小到社區(qū)的垃圾收集,大到全球的氣候問題,集體行動問題無處不在。目前深深困擾著我國政府的公共服務提供、公共品供應、公共資源保護等問題都可歸之于此。這些問題的共同特征在于,理性個體的最優(yōu)選擇最終都會導致整個社會的無效率。于是,如何克服集體行動難題,走向社會最優(yōu)均衡便就成為社會科學各領域學者和實踐者持續(xù)關注的焦點。
理論上,“囚徒困境”(1)M. M. Flood, Some Experimental Games, 5 Management Science 5-26 (1958).“免費搭便車”(2)M. Olson, The Logic of Collective Action, Harvard University Press, 1965.和“公地悲劇”(3)G. Hardin, The Tragedy of Commons, 162 Science 1243-1248 (1962).三大模型的相繼提出,嚴重打擊了學者們關于集體行動難題可以克服的信心,以致得出只能求之于“利維坦”或“私有化”的結論。然而,這兩條路徑下不盡如人意的解決效果和大量自愿合作的經驗事實迫使學者們對此進行重新思考。典型的是有許多學者引用田野和實驗室證據證明,并非所有自組織的集體行動都會陷入困境: 集體行動中存在許多違背標準理論預測的行為模式;(4)E. Ostrom, Collective Action and the Evolution of Social Norms, 14 The Journal of Economic Perspectives 137-158 (2000).結構變量如邊際收益、重復博弈會影響行為;(5)J. O. Ledyard, Public Goods: A Survey of Experimental Research, in J. H. Kagel & A. E. Roth eds., Handbook of Experimental Economics, Princeton University Press, 1995.更重要的是,引入一定的制度安排有助于克服集體行動難題。(6)E. Ostrom, J. Walker & R. Gardner, Covenants with and without a Sword: Self-Governance is Possible, 86 The American Political Science Review 404-417 (1993); A. Chaudhuri, Sustaining Cooperation in Laboratory Public Goods Experiments: A Selective Survey of the Literature, 14 Experimental Economics 1-37 (2011); E. Ostrom, Governing the Commons: the Evolution of Institutions for Collective Action, Cambridge University Press, 1990; E. Ostrom, R. Gardner & J. Walker, Rules, Games, and Common-Pool Resources, University of Michigan Press, 1994.
事實上,Olson在給出他的“免費搭便車”模型之后,就提出了兩種可能的解決路徑。第一種解決路徑建立在行動者偏好異質性的基礎上。偏好的異質性使某些行動者有激勵把集體行動難題內部化?,F(xiàn)實中,這種情形并不少見,如由個人出資修建道路、涼亭等。然而,由于個體行動者能力有限,僅基于此往往無法解決大規(guī)模的集體行動難題。第二種路徑是通過引入“選擇性激勵”,改變行動者的支付。依據Olson的觀點,“只有一種獨立的和選擇性的激勵會驅使?jié)撛诩瘓F中的理性個體采取有利于集團的行動……這些選擇性激勵既可以是積極的,也可以是消極的: 既可以通過懲罰那些沒有承擔集體行動成本的人來強制實施,也可以通過獎勵那些為集體利益出力的人來進行誘導”。(7)M. Olson, supra note 〔2〕, at 51.雖然有些學者以“選擇性激勵”的供應會面臨二階搭便車問題來反駁Olson的觀點,(8)N. Frohlich & J. A. Oppenheimer, I Get by with a Little Help from My Friends, 23 World Politics 104-120 (1970).但是理論與經驗研究表明,“選擇性激勵”確實可以把合作者看似不理性的集體行動逆轉成理性的行動。(9)P. Oliver, Rewards and Punishments as Selective Incentives for Collective Action: Theoretical Investigations, 85 American Journal of Sociology 1356-1375 (1980).
值得注意的是,在Olson那里,這兩種“選擇性激勵”是可以互相替換的。按照Oliver的重新闡釋,不管是獎勵還是懲罰,只要激勵總量大于合作收益與不合作收益之差即可。(10)P. Oliver, Rewards and Punishments as Selective Incentives for Collective Action: Theoretical Investigations, 85 American Journal of Sociology 1356-1375 (1980).然而,后續(xù)經驗研究的結果卻與此迥然有異。心理學行為主義傳統(tǒng)下的一些研究顯示,獎勵的作用比懲罰強,(11)J. L. Hogan, R. H. Fisher & B. J. Morrison, Social Feedback and Cooperative Game Behavior, 34 Psychological Reports 1075-1082 (1974).或者至少沒有什么差異。(12)S. Lindskold & J. T. Tedeschi, Self-Esteem and Sex as Factors Affecting Influenceability, 10 The British Journal of Social and Clinical Psychology 114 (1971).而同時期經濟學家的研究卻發(fā)現(xiàn),懲罰更有效。(13)J. I. Shaw, Response-Contingent Payoffs and Cooperative Behavior in the Prisoner’s Dilemma Game, 34 Journal of Personality and Social Psychology 1024, 1024-1033 (1977); P. Oliver, Selective Incentives in an Apex Game: An Experiment in Coalition Formation, 24 Journal of Conflict Resolution 113-141 (1980); P. Oliver, Rewards and Punishments as Selective Incentives: An Apex Game, 28 Journal of Conflict Resolution 123-148 (1984).不過后續(xù)研究結果并不穩(wěn)健,有的研究發(fā)現(xiàn)懲罰更有效,(14)M. Sefton, R. Shupp & J. Walker, The Effect of Rewards and Sanctions in Provision of Public Goods, 45 Economic Inquiry 671-690 (2007).有的發(fā)現(xiàn)獎勵與懲罰一樣有效甚至更有助于維持人類合作,(15)D. G. Rand, A. Dreber, T. Ellingsen & D. Fudenberg, Positive Interactions Promote Public Cooperation, 325 Science 1272-1276 (2009).還有的則發(fā)現(xiàn)二者無差異。(16)See P. J. Hall, Resolving a Public Good Dilemma Using Reward and Sanction Mechanisms, Working paper, University of Otago, 2005.正如下文的文獻述評中所言,這種差異出現(xiàn)的關鍵在于不同研究實驗設計的差異。與此同時,在效果差異之外,既有研究很少談及這種差異出現(xiàn)的根源。鑒于此,本研究試圖在一個與既有研究參數(shù)不同但卻可以連接它們的公共品實驗中,重新比較獎勵與懲罰之于促進集體合作效果的差異,并深入至微觀行為層面找出這種差異的原因,以圖加深我們對于獎勵和懲罰這兩種最常見的激勵機制的理解。
本文后續(xù)安排如下: 第二部分文獻述評,第三部分實驗介紹,第四部分實驗結果,最后一部分總結。
在Olson提出“選擇性激勵”之后,對集體行動環(huán)境中這兩種激勵效果的實驗檢驗直到1970年代末期才出現(xiàn)。這些研究大致可分為兩類: 一類同時考慮了獎勵和懲罰,另一類則僅關注獎勵或懲罰。
經濟學中同時關注賞罰的研究較少。較早的研究是Shaw在一個囚徒困境博弈中完成的,結果發(fā)現(xiàn)懲罰在克服困境上更有效。(17)J. I. Shaw, Response-Contingent Payoffs and Cooperative Behavior in the Prisoner’s Dilemma Game, 34 Journal of Personality and Social Psychology 1024-1033 (1977).而后Oliver展開了系統(tǒng)的探究。他首先從理論上證成了獎勵與懲罰的差異性,強調了不同激勵方式的成本與集體行動中行動者組成結構的關系。他認為,雖然同樣程度的獎勵和懲罰對于接受者而言無差異,但是對于使用者而言就不同了。(18)See P. Oliver, supra note 〔9〕.作為一種私人產品,接受者越多,賞罰的使用成本就越高。給定獎勵針對的是合作者,它在小組合作者比例較小時成本更低,在那些只需要相對較小的合作者做出貢獻就能成功的集體行動中更有效;相反,因為懲罰針對的是背叛者,它在小組合作者更多時成本更低,在要求更高一致性的集體行動中更有效。而后,基于頂點博弈(Apex Game),(19)這是一個復雜的多人囚徒困境博弈,其中有一位居于有利地位的參與者與四位居于不利地位的參與者。不利地位的參與者的行動選擇有二: 與其他同處于不利地位的參與者競爭,以獲得與居于有利地位的參與者聯(lián)合的機會;或者是與其他同處于不利地位的參與者合作,以求創(chuàng)造出一個共同的更好結果。Oliver發(fā)現(xiàn)引入懲罰而不是獎勵可以顯著地提升處于不利地位的參與者之間的合作水平,因為懲罰在這種情況下成本更低。(20)P. Oliver, Selective Incentives in an Apex Game: An Experiment in Coalition Formation, 24 Journal of Conflict Resolution 113-141 (1980); P. Oliver, Rewards and Punishments as Selective Incentives: an Apex Game, 28 Journal of Conflict Resolution 123-148 (1984).
此后很長一段時間中,這個主題似乎為經濟學家所淡忘,直到最近十年。Dickinson基于一個初始稟賦異質的公共品博弈框架,研究了一種規(guī)則外生設定的獎勵和懲罰對于促進生產的作用。他檢驗了當賞罰對象分別依據捐獻者的絕對捐獻水平和相對于其稟賦的相對捐獻水平來確定時,對最高捐獻者進行獎勵和對最高捐獻者之外的所有捐獻者進行懲罰的效果,并發(fā)現(xiàn)在所有四種情況下引入獎勵或者懲罰都可以增加合作。不過,當賞罰對象是以絕對捐獻水平確定時,懲罰更有效;當賞罰對象是以相對捐獻水平確定時,獎勵更有效。(21)D. Dickinson, The Carrot vs. the Stick in Work Team Motivation, 5 Experimental Economics 107-124 (2001).
后來的學者發(fā)現(xiàn),“選擇性激勵”并非如Oliver所說,是一種私人產品,而是一種公共品。(22)T. Yamagishi, The Provision of a Sanctioning System as a Public Good, 51 Journal of Personality and Social Psychology 110-116 (1986).因此,這其中確實存在如Frohlich和Oppenheimer所說的“二階困境”。(23)N. Frohlich & J. A. Oppenheimer, supra note 〔8〕.考慮到這一點,Hall在一個帶門檻的公共品自愿捐獻博弈框架(24)在該博弈中,只有當小組所有成員的捐獻加總超過一定數(shù)額時,公共品才會得到供應。中引入一個新設計,令被試在做出捐獻決策的同時,決定是否對獎勵基金或者懲罰基金進行捐獻。而后,實驗者加總獎勵或者懲罰基金、乘以2,用于獎勵捐獻最高者,或者懲罰捐獻最低者。與其他來自實驗室的證據一致,作者發(fā)現(xiàn)被試存在顯著的對獎勵和懲罰的需求,不過獎勵與懲罰在提升公共品捐獻的效果上沒有顯著差異。(25)P. J. Hall, supra note 〔16〕.
接著,Sefton等在一個標準公共品自愿捐獻博弈(這是本文采用的博弈框架,具體博弈結構將在后文中介紹)中檢驗了由個體實施的獎勵和懲罰對提升公共品自愿捐獻的作用。他們把獎勵定義為“轉移支付”,亦即獎勵者獎勵多少,被獎勵者就可以得到多少。他們發(fā)現(xiàn),引入獎勵或懲罰在最初階段確實可以提升公共品自愿捐獻水平。但是在引入獎勵的情形中,捐獻水平會逐步下降到未引入任何激勵的基準情形之下。也就是說,僅有獎勵并不足以維持公共品自愿捐獻;與此相反,引入懲罰則可以維持公共品自愿捐獻。因此他們總結說,在維持公共品自愿捐獻上,懲罰比獎勵有效。(26)M. Sefton, R. Shupp & J. Walker, supra note 〔14〕.
不過同樣是應用的公共品博弈框架,后續(xù)研究得到的結果卻與Sefton等的研究不同。基于一次博弈,Walker與Halloran發(fā)現(xiàn),作為轉移支付的獎勵與懲罰都是無效的。(27)J. Walker & M. Halloran, Rewards and Sanctions and the Provision of Public Goods in One-Shot Settings, 7 Experimental Economics 235-247 (2004).而通過在實驗中引入聲譽,也即通過固定被試的身份標簽,使得被試可以跨輪追蹤小組各個伙伴的捐獻歷史。Rand等發(fā)現(xiàn),獎勵在維持公共品捐獻上與懲罰一樣有效。當獎勵與懲罰同時存在時,獎勵導致了捐獻的增加,而懲罰則沒有。因此他們總結說,在重復博弈中,獎勵這種積極的互動要比懲罰這種消極的互動更有助于維持人類的合作。(28)D. G. Rand, A. Dreber, T. Ellingsen & D. Fudenberg, supra note 〔15〕.
此外,Andreoni等在獨裁者博弈框架(這是一個分配博弈,給定財富的數(shù)額,獨裁者決定給接受者分配多少比例的財富,決定是終局的)中檢驗了賞罰效果的差異。他們發(fā)現(xiàn),隨著獨裁者分配比例的增加,平均而言,懲罰會減少而獎勵會增加,雖然接受者對獎勵的需求顯著更大。從效果上看,雖然獎勵在單獨使用時帶來的平均分配比例比懲罰更高,但是獎勵在促使提議者遠離最小可能投入的效力上顯著比懲罰差。也就是說,“比起壞的行為被懲罰的社會,在一個好的行為被獎勵的社會中,人們會期望更少的合作”。(29)J. Andreoni, W. Harbaugh & L. Vesterlund, The Carrot or the Stick: Rewards, Punishments, and Cooperation, 93 American Economic Review 893-902 (2003).
另一方面,在單獨研究獎勵或者懲罰效果中,有關懲罰的研究已經得到比較一致的結論。懲罰已被看成合作的關鍵機制,雖然這可能存在一定的效力拐點條件。(30)研究發(fā)現(xiàn),懲罰成本是一個關鍵變量,低成本、高效力的懲罰制度較之高成本、低效力的制度更有效。N. Nikiforakis & H. T. Normann, A Comparative Statics Analysis of Punishment in Public-Good Experiments, 11 Experimental Economics 358-369 (2008); M. Egas & A. Riedl, The Economics of Altruistic Punishment and the Maintenance of Cooperation, 275 Proceedings of the Royal Society B: Biological Sciences 871-878 (2008).這在實驗室實驗、(31)E. Fehr & S. G?chter, Cooperation and Punishment in Public Goods Experiments, 90 American Economic Review 980-994 (2000); E. Fehr & S. G?chter, Altruistic Punishment in Humans, 415 Nature 137, 137-140 (2002); D. Masclet, C. Noussair, S. Tucker, & M. C. Villeval, Monetary and Nonmonetary Punishment in the Voluntary Contributions Mechanism, 93 American Economic Review 366-380 (2003); O. Gürerk, B. Irlenbusch & B. Rockenbach, The Competitive Advantage of Sanctioning Institutions, 312 Science 108-111 (2006).實地實驗、(32)B. Herrmann, C. Th?ni & S. G?chter, Antisocial Punishment Across Societies, 319 Science 1362-1367 (2008).大腦神經成像實驗(33)K. Sigmund, C. Hauert & M. A. Nowak, Reward and Punishment, 98 Proceedings of the National Academy of Sciences 107-157 (2001); B. Seymour, T. Singer & R. Dolan, The Neurobiology of Punishment, 8 Nature Reviews Neuroscience 300-311 (2007); M. Hsu, C. Anen, & S. R. Quartz, The Right and the Good: Distributive Justice and Neural Encoding of Equity and Efficiency, 320 Science 1092-1095 (2008).中不斷得到佐證。
不過與懲罰不同,單獨研究獎勵作用的文獻很少。Dickinson與Isaac基于和Dickinson一樣的設計考察了獎勵的作用。作者發(fā)現(xiàn),獎勵的引入可以提升合作水平,不過對相對捐獻最高的被試進行獎勵,比對絕對捐獻最高的被試進行獎勵,可以引致更高的合作水平。(34)D. L. Dickinson & R. M. Isaac, Absolute and Relative Rewards for Individuals in Team Production, 19 Managerial and Decision Economics 299-310 (1998).此外,基于公共池資源博弈,Vyrastekova與Soest對比了代表轉移支付的獎勵和可以產生凈剩余的獎勵之間的差異。他們發(fā)現(xiàn),在純粹轉移支付的情況下,獎勵是無效的;不過在擁有正的凈效應時,獎勵是有效的。(35)J. Vyrastekova & D. van Soest, On the (In)Effectiveness of Rewards in Sustaining Cooperation, 12 Experimental Economics 53-65 (2008).
綜上所述,有關集體行動框架下賞罰效果差異性的研究并未達成一致結論。其中的問題之一在于,這些研究的實驗設計差異顯著,不具可比性。Oliver的博弈框架融合了困境博弈與議價博弈,與后續(xù)研究都不同;而且在他的實驗中,使用激勵不需要成本。此外,雖然他在理論上強調了激勵的私人產品屬性,卻在實驗中使用了多人博弈結構,反而凸顯了獎勵與懲罰的公共品性質。后續(xù)研究雖然大都基于公共品博弈,但是設定的參數(shù)卻各有不同,典型如Sefton等人和Rand等人的研究: 前者在實驗中剔除了聲譽效應的影響,而后者則通過固定標簽賦予了被試構建聲譽的可能;前者的獎勵是一種轉移支付,后者在實驗中成倍地放大獎勵懲罰的效力,只允許被試選擇是否支出4點來進行獎勵(懲罰),被獎勵者(被懲罰者)相應的將獲得(遭受)12點的收益(損失)。這種關鍵參數(shù)設定上的差異,可能正是這些實驗結果有所差異的原因之所在。
更重要的是,這些文獻更關注引入賞罰效果的差異,而對于為何存在這種差異的探討有限,尤其是忽視了行動者在二階集體行動中的行為差異,以及這種差異及其差異效果之間的關系。然而,任何一個完整的有關“選擇性激勵”的集體行動理論的構建,顯然不能僅僅依賴于一階集體行動中微觀行為的分析,而必須同時考慮二階集體行動中的微觀行為以及二者的關系。雖然Oliver曾凝練出行動者結構屬性這一因素,但他并沒有對此進行驗證,而只是簡單地假定獎勵是給予合作者,懲罰則針對搭便車者,且假定它們對于接受者而言是無差異的。(36)P. Oliver, supra note〔20〕.雖然也有一些學者注意到懲罰行為所遵循的規(guī)范的重要性,(37)J. Carpenter & P. H. Matthews, What Norms Trigger Punishment?, 12 Experimental Economics 272-288 (2009).但是幾乎沒有學者注意到獎勵行為所遵循的規(guī)范是什么,更遑論比較二者,進而把這種二階行為規(guī)范與一階行為規(guī)范相聯(lián)系。唯一的例外可能是Sefton等人的研究: 他們以個體在給定輪次的捐獻為因變量,以個體在前一輪受到的獎勵或者懲罰、個體在前一輪捐獻與其他人平均捐獻之間的偏離為自變量,構建了一個簡單的計量模型來說明賞罰行為所遵循的規(guī)范,并發(fā)現(xiàn)獎勵可以引致個體在后續(xù)輪次中的捐獻,而懲罰的這種作用則相應地弱得多。(38)M. Sefton, R. Shupp & J. Walker, supra note 〔14〕.然而從本文后面所構建的模型(3)可知,其模型中的解釋變量存在顯著的多重共線性關系,因而其結論也就值得商榷。
就國內而言,雖然已經有較多學者利用實驗室實驗對一階集體行動問題進行了研究,(39)參見周業(yè)安: 《改革開放以來實驗經濟學的本土化歷程》,載《南方經濟》2019年第1期,第1—40頁。并且有越來越多的學者關注到懲罰這種“選擇性激勵”,(40)參見秦海英、王冠群: 《利他互惠行為與中國經濟轉型期公共品供給機制創(chuàng)新》,載《克拉瑪依學刊》2011第1期,第20—28頁;宋紫峰、周業(yè)安: 《收入不平等、懲罰和公共品自愿供給的實驗經濟學研究》,載《世界經濟》2011第10期,第35—54頁;連洪泉、周業(yè)安、左聰穎: 《懲罰機制真能解決搭便車難題嗎——基于動態(tài)公共品實驗的證據》,載《管理世界》2013年第4期,第69—81頁;周曄馨、涂勤、胡必亮: 《懲罰、社會資本與條件合作——基于傳統(tǒng)實驗和人為田野實驗的對比研究》,載《經濟研究》2014年第10期,第125—138頁。但僅有一項研究注意到獎勵和懲罰的差異,以及一階集體行動和二階集體行動之間的關系。(41)參見張元鵬、林大衛(wèi): 《社會偏好、獎懲機制與公共品的有效供給——基于一種實驗方法的研究》,載《南方經濟》2015年第12期,第26—39頁。即便是在這篇關注獎勵懲罰機制的文章中,由于作者引入的是外生的獎勵機制與內生的懲罰機制,獎勵與懲罰機制本身的設定就具有了不對稱性,因此其結論是否具有一般性,還有待檢驗。
鑒于此,本研究試圖中和Sefton等人和Rand等人的實驗設計,以一組公共品博弈實驗重新比較獎勵與懲罰對合作影響的差異,以探究這種差異產生的行為根源。在設計上,與Rand等不同,我們將在每輪實驗中變換被試的身份標簽,以最大限度去除聲譽、互惠等因素的影響;而與Sefton等的實驗不同,我們將提升賞罰的效力,使得獎勵的使用可以帶來凈剩余,賦予其一個發(fā)揮作用的空間。
沿著前人實驗設計的路線,我們以4人一組的帶懲罰或者獎勵的線性公共品自愿捐贈博弈作為研究的基本框架。借助計算機,被試被隨機匿名地指派到一個小組中,并在該小組中直到實驗結束。也就是說,我們實施的是一個固定伙伴的實驗。這樣,每個小組便構成一個獨立的樣本。
實驗的基準情形(記為N)是公共品自愿捐獻博弈。在該情形中,每輪每個被試i需要同時匿名在一個公共賬戶與一個私人賬戶間分配給定為20實驗幣的初始稟賦。向公共賬戶的投入Ci將被乘以一個表征公共品邊際生產率(RG)的系數(shù)1.6,形成收益并在小組成員間平均分配;向私人賬戶的投入將直接乘以1轉化為個體收益。如此重復10輪。每一輪結束,每個被試都將在各自計算機屏幕上看到本組每個成員向公共賬戶的投入以及本人收益情況。每輪中小組成員的組內編號是隨機生成的,以剔除聲譽效應。由“連鎖店悖論”很容易得知,該博弈的“子博弈精煉納什均衡”是不捐獻,因為私人賬戶的邊際收益高于公共賬戶的邊際收益。
本文關注的是引入獎勵或懲罰的影響(分別記為R和P)。這兩種情形與基準情形的差異是,每輪在與基準情形完全一樣的第一步決策完成之后增加了一步。在第二步中,被試將獲知其組成員向公共賬戶的投入信息以及自己在第一輪的收益,并獲得懲罰或獎勵小組其他成員的機會,不過這需要付出私人成本。(42)遵循實驗研究的標準做法,我們在實驗介紹中避開了諸如“獎勵”“懲罰”等帶有情感色彩的詞語,而采用諸如“您付出1個點,將在對方賬戶中扣除3個點”的中性語句。相關實驗介紹可聯(lián)系作者獲取。被試每支出1點獎勵或者懲罰就將在其收入賬戶中扣除1個實驗幣,但是相應的會在被獎勵或者懲罰者的收入賬戶中加上或者扣除3個實驗幣。定義這種支出的影響與支出成本的比例為獎勵或者懲罰的效力e,則在我們的實驗中e均等于3,這與Sefton等人的研究的不一樣,但與Rand等人的研究一樣。帶激勵的實驗同樣重復10輪。每輪決策結束后,被試將獲知其他小組成員對其實施的獎勵或者懲罰總和以及自己的最終收益。不過,他們不知道獎勵懲罰具體來自哪里。同樣,由逆向推導法可以很容易得知,即使引入獎勵或者懲罰,該博弈唯一的“子博弈精煉納什均衡”仍是不獎勵(不懲罰)、不捐獻。
令Pijt為被試i在t輪對j實施的懲罰量,Rij為該輪i對j實施的獎勵量,則可定義被試j在t輪結束后的收益函數(shù):
加總每輪得分,就是被試的總得分。所有這些信息都是共同知識。
為控制賞罰引入順序對實驗結果的影響,我們遵循Fehr與G?chter的被試內設計,分別實施了懲罰(獎勵)情形在前、基準情形在后和懲罰(獎勵)情形在后、基準情形在前的兩組實驗(見表1)。為控制可能存在的損失對被試行為造成的影響,我們跟隨Fehr與G?chter,在引入賞罰的實驗情形開始之前,一次性賦予被試25個實驗幣。(43)B. Herrmann, C. Th?ni & S. G?chter, supra note 〔32〕.
表1 實驗基本情況
實驗被試由通過浙江大學BBS征募的非經濟學專業(yè)本科生隨機抽取組成。每名被試只參加其中一場實驗。每場實驗開始之前由實驗者大聲介紹實驗規(guī)則,而后由被試進行一些簡單的測試,以確保其理解實驗規(guī)則。實驗結束后被試按照21∶1的比例以得分換取現(xiàn)金,此外還有10元的出場費。實驗在2010年9月至2011年10月期間分4次實施,通過相互隔離的計算機完成。每場實驗大致耗時100分鐘,被試平均獲得36元的報酬。(44)實驗實施時,本校本科生勤工儉學助管崗位的津貼為12元 /時。因此本次實驗的激勵強度符合國際慣例。實驗軟件為浙江大學自主開發(fā)的G_G軟件平臺中的公共品博弈系列。(45)該平臺由王志堅博士和許彬教授共同開發(fā),在此作者向他們表示感謝。
在這一部分中,我們將首先從整體上描述引入賞罰對提升公共品自愿捐獻的效果,而后再從個體層面上分析賞罰的作用路徑及其差異,最后深入到二階集體行動的行為層面,比較個體使用獎勵與懲罰的方式,探析這種方式與一階公共品自愿捐獻行為之間的內在關聯(lián)。
圖1 小組層面上不同情形下的平均捐獻圖注: 圖a、 b、 c、 d分別對應NP、 PN、 NR、 RN四場實驗。
圖1給出了不同情形下捐獻變化的趨勢。由圖可見,在所有基準情形中,小組平均捐獻都呈現(xiàn)出一種隨時間推移而遞減的態(tài)勢。與此不同,在引入懲罰的兩種情形中,小組平均捐獻呈現(xiàn)出遞增態(tài)勢;而在引入獎勵的兩種情形中,小組平均捐獻呈現(xiàn)出一種先增后減的趨勢??傮w上,引入“選擇性激勵”確實可以抑制自愿捐獻情形中捐獻衰退的趨勢。
統(tǒng)計檢驗支持這一結論。檢驗表明,不管是基準情形還是實驗情形,個體平均捐獻都顯著不為零(表2第三列與第四列),明確拒絕了標準理論的零捐獻預測。(46)頻率上,引入懲罰后,零捐獻出現(xiàn)的次數(shù)從28%下降到3.125%;引入獎勵后,該頻率從18.25%降到12%。我們還可以通過比較引入賞罰前后捐獻的變化,觀察賞罰引入的影響。表2中的第五列顯示,有賞(罰)和無賞(罰)兩種情形之間的平均捐獻差異同樣顯著不為零。(47)RN情形中,這種差異在邊際上不顯著,不過這一結果在后面的回歸分析中變得顯著。對引入賞罰前后捐獻水平進行比較的非參數(shù)檢驗也支持這一結論。(48)Wilcoxon signed rank sum檢驗顯示,“NP”中,z=2.803, p=0.005 1; “PN”, z=2.701, p=0.006 9;“NR”中,z=2.091, p=0.036 5; “RN”, z=1.784, p=0.074 5。這表明,引入“選擇性激勵”確實可以發(fā)揮作用。
表2 數(shù) 據 描 述
注: 括號中是雙邊t檢驗下的p值。
我們還構建了一個簡單的回歸模型以驗證上述結論。模型的因變量是每個小組在P或者R情形中十輪總捐獻及其在N情形中十輪總捐獻之差,自變量是情形虛擬變量。OLS穩(wěn)健性回歸結果(如表3第一列)顯示,引入懲罰或者獎勵都有顯著的效果。不過,引入獎勵的效果顯著弱于引入懲罰的效果,NP中平均捐獻最高,而后為PN,接著為NR和RN。(49)Wald檢驗顯示,F(xiàn)=5.17, p=0.004 5。兩兩對比的檢驗顯示,NP vs. PN, F=6.42, p=0.015 8; PN vs. NR, F=11.32, p=0.001 8; NR vs. RN, F=0.06, p=0.800 3。為檢驗這一結果的穩(wěn)健性,我們截取前五輪、后五輪以及最后一輪的數(shù)據做了同樣的回歸。結果(表3后3列)表明,大多數(shù)情形下,捐獻差異顯著不等于零。而且我們發(fā)現(xiàn),懲罰效果是在實驗后半段才超過獎勵的效果: 雖然前五輪中四種情形的平均捐獻沒有顯著差異,但是后五輪以及最后一輪中四種情形的平均捐獻差異顯著。(50)Wald檢驗顯示,前五輪,F(xiàn)=2.13, p=0.112 9;后五輪,F(xiàn)=6.03, p=0.001 9;最后一輪,F(xiàn)=4.21, p=0.011 9。到最后一輪,引入懲罰所帶來的捐獻增加的平均幅度顯著地超過了引入獎勵所帶來的增加幅度。(51)最后一輪中捐獻差異的順序為NP=PN>RN=NR。Wald檢驗顯示,NP vs. PN, F=1.51, p=0.227 7; PN vs. RN, F=3.53, p=0.068 3; RN vs. NR, F=0.21, p=0.646 4。
表3 引入懲罰或者獎勵效果及其比較
注: ***表示p<0.01,**表示p<0.05,*表示p<0.1(下同)。
上述結果表明,引入懲罰或者獎勵確實可以提升小群體中公共品自愿捐獻的水平。不過,懲罰與獎勵的作用效果存在差異。這種差異不如Sefton等發(fā)現(xiàn)的那么明顯,更與Rand等發(fā)現(xiàn)的不同。這說明,賞罰效力和聲譽都是影響賞罰效果的重要變量。
結果1: 在固定組公共品自愿捐獻博弈中,引入效力為3的獎勵或懲罰都有助于消除捐獻遞減的趨勢,提升平均捐獻。不過比起獎勵,懲罰的作用更穩(wěn)健。
下面考慮出現(xiàn)這種差異的原因。要明了為什么有差異,首先需要知曉賞罰是怎么起作用的;亦即相對于沒有賞罰的基準組而言,賞罰的引入對捐獻行為本身的動力學帶來什么影響?已有文獻強調了個體捐獻趨向平均捐獻。(52)E. Fehr & S. G?chter, supra note 〔31〕.結合已有文獻中區(qū)分合作者和不合作者這兩類行動者的思路,(53)See P. Oliver, supra note 〔9〕.這種傾向可以進一步細化為這樣一個推論,即先前輪次中捐獻高于平均水平者在后續(xù)輪次中傾向于減少捐獻,而之前捐獻低于平均水平者在后續(xù)輪次中傾向于增加捐獻。于是,當前一種趨勢強于后一種趨勢時,小組捐獻水平就會趨于衰退;反之,則會提升?;诖?,我們需要檢驗的就是賞罰引入對這兩種行為趨勢的影響。為此,我們構建了如下計量模型:
Cit=αTreat+βCit-1+γ1Treat*Pdet-1+γ2Treat*Ndet-1+ζTreat*Xi+ui+εit
(1)
由于實驗中被解釋變量的取值范圍為[0, 20],是一個截尾數(shù)據,因此我們采用Tobit模型進行擬合。為控制因不同的實驗順序而產生的實驗經歷對后期行為的影響,我們在擬合時僅選取了前十輪的數(shù)據?;貧w結果(表4第一列)顯示,解釋變量系數(shù)的符號符合預期。給定個體前輪捐獻水平,絕對正向偏離越大,這一輪越傾向于降低捐獻;相反,絕對負向偏離越大,這一輪越傾向于增加捐獻。與此同時,不同情形的截距項沒有顯著差異;(55)Wald檢驗顯示,F(xiàn)=0.30, p=0.743 5。這意味著引入賞罰不會顯著地改變被試的預期,進而改變其捐獻起始點。不過我們更關注捐獻高于平均和低于平均兩種類型的個體在捐獻調整力度上的對比。統(tǒng)計檢驗表明,基準情形中高捐獻者捐獻下降的趨勢在邊際上顯著強于低捐獻者捐獻上升的趨勢,(56)Wald檢驗顯示,F(xiàn)=2.85, p=0.091 5。而在引入賞罰之后,這兩種趨勢轉而變得沒有顯著差異。(57)Wald檢驗顯示,P情形中,F(xiàn)=0.04, p=0.837 7;R情形中,F(xiàn)=0.27, p=0.603 7。這就解釋了為什么捐獻在基準情形中會呈現(xiàn)出一種衰退的趨勢,而在引入賞罰的情形中則不再衰退。
由于上述模型中納入了因變量的滯后項,因此可能存在內生性問題,從而導致回歸結果的非一致。為緩解該問題,我們借助差分思想構建了以下模型:
ΔCit=αTreat+β1Treat*Pdet-1+β2Treat*Ndet-1+ζTreat*Xi+ui+εit
(2)
這里被解釋變量是被試i在t輪的捐獻增加量,其他變量設定同模型(1)。由于實驗的隨機分配與操控特性,假定潛在的個體效應與外生的情形虛擬變量和規(guī)范偏離之間無關是合理的,因此我們用隨機效應模型來估計以上模型參數(shù)。估計結果見表4的第二列。
表4 賞罰的作用路徑
注: 控制變量的結果省略,標準差經過組內異方差調整(下同)。
由結果可見,解釋變量的回歸系數(shù)符號與Tobit回歸一樣,表明結果很穩(wěn)健。絕對正向偏離越大,下一輪捐獻增加量越??;絕對負向偏離越大,下一輪捐獻增加量越大。同樣,不同情形的截距項同樣沒有顯著差異。(58)Wald檢驗顯示,X2=0.80, p=0.670 5。基準情形中高捐獻者捐獻增加量下降的趨勢仍然顯著強于與低捐獻者捐獻增加量上升的趨勢,(59)Wald檢驗顯示,X2=4.67, p=0.030 6。不過這種差異在引入賞罰之后消失。(60)Wald檢驗顯示,P情形中,X2=0.20, p=0.651 1;R情形中,X2=0.28, p=0.599 7。這再次說明,賞罰是通過改變兩類行動者行為趨勢的相對力量而維持公共品捐獻。于是,我們有:
結果2: 賞罰的引入改變了不同類型行動者捐獻行為趨勢的相對強度,合作者捐獻下降的趨勢為不合作者捐獻上升的趨勢所抵消,從而使得捐獻至少得以維持。
再考慮賞罰作用的差異性。以四場實驗中引入賞罰的四種情形的十輪數(shù)據,重新估計模型(1)和(2),結果見表5。這些結果的系數(shù)符號同樣符合預期,也同樣支持結論(2),在此不再詳述。我們重點比較回歸結果中反映獎勵與懲罰作用的變量系數(shù)。
表5 賞罰作用路徑的比較
Tobit回歸顯示,給定順序效應,引入賞罰對截距項的影響并沒有顯著差異,(61)Wald檢驗顯示,NP vs. NR, F=2.57, p=0.109 4; PN vs. RN, F=1.73, p=0.188 9。對兩個偏離變量的影響也沒有顯著差異。(62)Wald檢驗顯示,Pde的系數(shù),NP vs. NR, F=0.47, p=0.494 5; PN vs. RN, F=0.87, p=0.352 4。Nde的系數(shù),NP vs. NR, F=0.95, p=0.330 5; PN vs. RN, F=0.13, p=0.721 3。不過,RE回歸的結果出現(xiàn)了一些變化。雖然給定順序效應,引入賞罰對截距項的影響沒有顯著差異,(63)Wald檢驗顯示,NP vs. NR, X2=0.43, p=0.514 3; PN vs. RN, X2=0.11, p=0.740 3。但在兩個偏離變量的系數(shù)比較上,給定偏離水平,PN的懲罰情形中絕對正向偏離所帶來的捐獻增加量的下降幅度要顯著低于RN的獎勵情形中它帶來的捐獻增加量的下降幅度,(64)Wald檢驗顯示,NP vs. NR, X2=1.55, p=0.212 5; PN vs. RN, X2=4.19, p=0.040 5。雖然NP與NR中絕對正向偏離的系數(shù)沒有顯著差異;與此同時,NP的懲罰情形中絕對負向偏離所帶來的捐獻增加量的增加幅度要顯著高于NR的獎勵情形中它帶來的捐獻增加量的增加幅度,(65)Wald檢驗顯示,NP vs. NR, X2=3.01, p=0.082 6; PN vs. RN, X2=0.65, p=0.418 6。雖然PN與RN中絕對負向偏離的系數(shù)沒有顯著差異。綜合二者可知,懲罰之所以帶來更好的合作效果,或者是因為在改變低捐獻者的行為趨勢,或者是因為在改變高捐獻者的行為趨勢上發(fā)揮了比獎勵更大的作用。于是,我們有:
結果3: 相比獎勵,懲罰或者可以更有效地維持合作者的捐獻、緩解其降低捐獻的趨勢,或者可以更有效地提升不合作者的捐獻、增強其增加捐獻的趨勢,從而引致更好的合作。
上述分析告訴我們,賞罰效果的差異與賞罰的引入對不同類型行動者的捐獻趨勢產生不同影響密切相關。于是,接下來的問題就是,為什么賞罰的引入會對捐獻趨勢產生這種不同的影響呢?從經濟學的視角看,行為變化的根源往往在于行為激勵的變化。下面,我們就用數(shù)據來說明這一點。
先看被試使用賞罰的總體狀況。圖2顯示了各種情形下被試每輪平均使用的賞罰量及其變化趨勢。由圖可見,賞罰的使用總體上保持平穩(wěn)。數(shù)量上,表2的最后一列表明,賞罰支出顯著不為0。對比獎勵與懲罰的使用量我們發(fā)現(xiàn),雖然賞罰的使用均不受順序的影響,(66)Wilcoxon符秩檢驗顯示,NP vs. PN, z=0.265, p=0.791 0; NR vs. RN, z=-0.870, p=0.384 5。但是給定順序效應,被試在獎勵上的支出比在懲罰上多得多。(67)Wilcoxon符秩檢驗顯示,NP vs. NR, z=-2.571, p=0.010 1; PN vs. RN, z=-3.780, p=0.000 2。從使用頻率上看,有76.25%的個體曾使用過懲罰,98.75%的個體曾使用過獎勵。在所有2 400次可以使用懲罰的機會中,懲罰被使用了358次,占比14.92%;在所有2 400次可以使用獎勵的機會中,獎勵被使用了1 187次,占比49.46%。這些數(shù)字不僅意味著,在引入賞罰之后,被試的行為模式同樣違背了標準博弈理論的預測,而且意味著,相比懲罰,被試更愿意使用獎勵。于是,悖論就出現(xiàn)了: 既然被試更偏好使用獎勵,為何獎勵的效果反而不如懲罰呢?顯然,我們需要知曉賞罰是怎么被使用的,才能回答這一問題。
圖2 獎勵懲罰的使用圖
依據經驗,現(xiàn)實中人們常常提及并遵循的賞罰使用規(guī)范是“賞善罰惡”。對應于公共品博弈環(huán)境,這意味著那些遵守一階合作規(guī)范、捐獻更多的被試會得到獎勵,而那些違背一階合作規(guī)范、捐獻更少的被試將受到懲罰。問題是,如何定義這里的遵守和違背呢?我們需要找到一種參照標準。在公共品博弈文獻中,學者們常??紤]的一種標準是平均標準,也即視捐獻高于平均水平者遵守了合作規(guī)范,而視捐獻低于平均水平者違背了合作規(guī)范。(68)見前注〔14〕,Sefton et al.文以及前注〔31〕,F(xiàn)ehr & G?chter文;還可參見T. Decker, A. Stiehler & M. Strobel, A Comparison of Punishment Rules in Repeated Public Good Games: An Experimental Study, 47 Journal of Conflict Resolution 751-772 (2003); J. Carpenter, The Demand for Punishment, 62 Journal of Economic Behavior and Organization 522-542 (2007).實驗數(shù)據顯示,當我們如此定義“善惡”時,在所有358次懲罰中,有301次懲罰是針對的捐獻低于其他三人平均水平者,占比84.08%;在所有1 187次獎勵中,有876次獎勵針對的是捐獻大于或等于其他三人平均水平者,占比73.80%??梢姡m然并非全部,但確實如常識告訴我們的,大多數(shù)的懲罰是針對的不合作者,大多數(shù)獎勵是針對的合作者。不過從上述比例中,我們還可以發(fā)現(xiàn),相比于獎勵合作者,被試似乎更愿意懲罰不合作者。
因此,從總體數(shù)據描述中,我們可以概括出兩層賞罰使用的偏好: 一方面,被試偏好使用獎勵甚于懲罰;另一方面,相比于獎勵合作者,被試似乎更愿意懲罰不合作者。為了考察這種二階行為的差異之源,我們構建了一個回歸模型:
pijt=α0+α1Treat+β1Treat*Pde+β2Treat*Nde+γTreat*Xi+ui+εijt
(3)
qijt=α0+α1Treat+β1Treat*Pde+β2Treat*Nde+γTreat*Xi+ui+εijt
(4)
pijt=1,如果qijt>0。
(5)
這里,pijt表示i在t輪對j是否實施了獎勵或者懲罰,如果是,則為1;qijt表示i在t輪對j實施的獎勵或者懲罰的量級。(69)這里分開考慮賞罰的可能性和量級的原因在于,有文獻證明,賞罰的使用可能存在兩個獨立的決策階段: 先決定是否賞罰,再決定賞罰多少。M. Egas & A. Riedl, The Economics of Altruistic Punishment and the Maintenance of Cooperation, 275 Proceedings of the Royal Society B: Biological Sciences 871-878 (2008); J. Carpenter & P. H. Matthews, supra note 〔37〕.
表6 懲罰與獎勵的使用規(guī)范
接下來看這種使用模式給賞罰對象帶來的影響。假定被試可以準確地如模型般預測到其他被試的賞罰行為,假定被試僅關注自己的短期收益并且小組中被懲罰的被試之外的三個被試行動對稱,則我們就可以依據該回歸結果計算不同的行動者在一階集體行動中的合作激勵: (1)假定給定被試的捐獻偏離不會引致獎勵或者懲罰,則此時被試增加捐獻的邊際激勵為負,因為捐獻的邊際成本1大于邊際收益0.4;(2)假定給定被試的捐獻要高于其他人的平均捐獻且受到獎勵,此時被試增加捐獻的邊際激勵為: -1+0.4+3*3*(Pde的系數(shù))。由回歸結果計算可知,不管是NR情形還是RN情形,該值均大于零,被試都有激勵增加捐獻。反之,假定給定被試的捐獻小于其他人的平均捐獻且受到獎勵,此時被試增加捐獻的邊際激勵為-1+0.4+3*3*(Nde的系數(shù))。由回歸結果可知,不管是NR情形還是RN情形,該值均小于零,被試都有激勵減少捐獻;(3)同理,假定給定被試的捐獻高于其他人的平均捐獻且受到懲罰,被試將有激勵減少捐獻;若低于其他人平均捐獻且受到懲罰,被試則有激勵增加捐獻。因此,比較賞罰對于被試捐獻的激勵作用差異的關鍵就在于比較這兩種激勵的相對力量。給定實驗中賞罰成本效力比例對稱的設計,這一對比最終就可歸之于偏離變量系數(shù)的對比。
就增加捐獻的激勵而言,檢驗已經顯示,(73)D. G. Rand, A. Dreber, T. Ellingsen & D. Fudenberg, supra note 〔15〕.給定順序效應,同樣程度的正向偏離引致的獎勵要顯著低于同樣程度的負向偏離引致的懲罰。就減少捐獻的激勵而言,檢驗顯示,給定順序效應,NR情形中同樣程度的負向偏離所引致的獎勵要顯著少于NP情形中同樣程度的正向偏離引致的懲罰,雖然這種關系在RN與PN情形中沒有顯著差異。(74)Tobit回歸中,NP vs. NR, X2=2.91, p=0.087 8; PN vs. RN, X2=0.56, p=0.454 5。結合二者則意味著: 當賞罰激勵是在被試有過公共品自愿捐獻的經驗之后引入時,刺激被試增加捐獻的激勵效果差異最大。因為此時,不僅懲罰所帶來的不合作者增加捐獻的激勵顯著大于獎勵所帶來的合作者增加捐獻的激勵,而且懲罰所帶來的合作者減少捐獻的激勵也要顯著小于獎勵所帶來的不合作者減少捐獻的激勵。而當賞罰激勵是在沒有經歷過公共品自愿捐獻的被試間直接引入時,二者的捐獻激勵差異仍然存在,不過此時的差異主要在于增加捐獻的激勵上。這就解釋了為什么懲罰要比獎勵更有助于促進捐獻。
最后,既然不是為了提升合作,那為何被試還更頻繁地使用獎勵呢?這同樣可以從回歸結果中找到答案,也即被試還存在其他使用獎勵的激勵: 互惠。從回歸模型的控制變量Recit-1可以看出,賞罰的使用還存在另一種差異。大多數(shù)情況下,前一輪收到的懲罰越多,使用者在這一輪越傾向于降低懲罰使用的可能性和使用量,雖然這種關系并不顯著。與此相反,被試使用獎勵的可能性和量級卻顯著正相關于前一輪收到的獎勵。給定順序效應,這種關系的強度也分別顯著大于被試使用懲罰的可能性和量級與前一輪收到的懲罰之間的關系強度。這些結果表明,相比于負向互惠,正向互惠本身更容易形成一種與一階合作行為沒有直接聯(lián)系的交互作用,即使是在一種匿名的環(huán)境之中。(75)這可能是因為在我們的實驗中,獎勵的成本效力比小于1,從而使得相互獎勵成為一種有利可圖的行為。
結合這兩個方面,上述悖論便得到了解釋。一方面,獎勵得到使用的量級與頻率明顯高于懲罰在很大程度上是源于行動者就獎勵本身而形成的一種互惠行為,與一階合作行為沒有直接關系;另一方面,相比于獎勵合作者,行動者更傾向于懲罰不合作者,這種與合作之間顯著更緊密的關系賦予了懲罰顯著更強的激勵效果。綜合二者,雖然懲罰沒有獲得如獎勵一般頻繁地被使用,但還是帶來了更高的合作水平。于是,我們有:
結果4: 獎勵和懲罰的使用存在兩層非常不同的使用模式。一方面,相較于懲罰,人們更愿意使用獎勵;另一方面,相比于獎勵合作者,人們更傾向于懲罰不合作者。后一種使用模式正是懲罰比獎勵更有效的行為基礎。
本文在一組標準的固定組公共品博弈實驗中檢驗了由個體分散實施的獎勵和懲罰,在提升公共品自愿捐獻上效果的差異及其行為根源。研究發(fā)現(xiàn),雖然在引入獎勵或懲罰后,合作者捐獻下降的趨勢將為不合作者捐獻上升的趨勢所抵消,從而使得捐獻至少得以維持,但是相比較而言,懲罰的效果比獎勵更穩(wěn)健。這一結論更接近Oliver和Sefton等人的研究,而與Walker和Halloran與Rand等人的研究不一致。這意味著,賞罰效力和聲譽都是影響賞罰作用效果的關鍵變量,因此圍繞相關參數(shù)展開穩(wěn)健性檢驗是后續(xù)研究的方向之一。
通過行為層面的分析,本文找到了這種差異的行為根源。研究發(fā)現(xiàn),懲罰更有效的原因是: 相比獎勵,懲罰或者可以更有效地維持合作者的捐獻,緩解其捐獻降低的趨勢;或者可以更有效地提升不合作者的捐獻,增強其捐獻增加的趨勢。這種捐獻行為的差異與行動者使用賞罰的方式不同有關。雖然行動者偏好使用獎勵甚于懲罰,但是相較于獎勵合作者,行動者更傾向于懲罰不合作者。這種不同使得行動者的捐獻激勵出現(xiàn)了差異: 相比獎勵給合作者帶來的增加捐獻的激勵,懲罰給不合作者帶來的增加捐獻的激勵更強。
實驗結果還表明,激勵引入的順序效應會加強這種差異性。這些結果帶來的啟示是,在構建集體行動中的激勵理論時必須綜合考慮行動者的一階行為和二階行為;在設計集體行動中的激勵機制時,必須考慮行動者使用賞罰的方式及其對象的反應,考慮如何在激勵和合作行為之間建立起直接的關聯(lián),考慮激勵實施的順序。
綜上,本研究不僅為發(fā)展集體行動中的行為模型提供了有價值的經驗證據,而且為集體行動中激勵機制的設計帶來了啟發(fā)。當然,由于本文主要關注的是由個體分散實施的獎勵和懲罰,因此相關結論是否可以推廣至第三方實施的獎勵和懲罰,尚待進一步研究。