王 玉 明
(廣東行政學(xué)院 行政學(xué)教研部,廣東 廣州 510053)
博弈論研究的是理性決策主體之間直接相互作用時(shí),如何進(jìn)行決策選擇及決策均衡的問題[1]。城市群府際環(huán)境治理中既有競爭也有合作,是一個(gè)相關(guān)參與者博弈的過程。利用博弈論研究政府間的競爭合作關(guān)系具有很強(qiáng)的解釋力。本文通過對(duì)府際環(huán)境治理中的博弈態(tài)勢進(jìn)行分析,以論證府際環(huán)境治理中的合作模式、合作條件和變量。博弈方是指博弈分析中的決策主體,本文泛稱中央政府和作為城市群成員的地方政府。從某種意義上說,地方政府負(fù)責(zé)人是府際環(huán)境治理中的實(shí)際博弈方。另外,還有污染企業(yè)也是重要的博弈方。在城市群府際環(huán)境治理中,參與博弈各方的利益訴求不同、實(shí)力和地位不同、地理區(qū)位不同、話語權(quán)不同,以及所掌握的信息不同等,每個(gè)參與者的行為決策或策略具有很大的選擇空間。在城市群府際環(huán)境治理中,中央政府強(qiáng)調(diào)城市群生態(tài)文明建設(shè)增長,實(shí)現(xiàn)國家利益最大化。地方政府主要目標(biāo)是區(qū)域性和轄區(qū)內(nèi)的生態(tài)環(huán)境保護(hù)和可持續(xù)發(fā)展,實(shí)現(xiàn)地區(qū)和轄區(qū)利益最大化。不論哪種類型博弈的結(jié)果都是趨于均衡,即所有博弈者達(dá)成一種最佳策略或行動(dòng)的組合,如納什均衡注1951年納什(J.Nash)提出博弈中的均衡概念,這種均衡往往就是各個(gè)博弈方參與博弈后所獲得的相對(duì)穩(wěn)定的博弈結(jié)果,而且如果這種結(jié)果為多數(shù)博弈方所接受,即具備一定的穩(wěn)定性,這種穩(wěn)定性的結(jié)果,稱之為“納什均衡”(Nash Equilibrium)。。納什均衡狀態(tài)就是一種博弈者單獨(dú)改變決策誰就要蒙受損失的情形,沒有一方愿意打破這種狀態(tài)。
城市群府際環(huán)境治理是一個(gè)相關(guān)利益主體之間的博弈過程,這種博弈主要體現(xiàn)為中央政府與地方政府之間、地方政府之間、政府與污染企業(yè)之間的博弈。博弈可分為合作博弈和非合作博弈、單次博弈和重復(fù)博弈、動(dòng)態(tài)博弈和靜態(tài)博弈等形式。合作博弈討論的是各博弈主體在何種約束條件下進(jìn)行結(jié)盟,而非合作博弈探討的是各博弈主體如何為各自利益最大化而開展討價(jià)還價(jià)[2]。合作博弈和非合作博弈的區(qū)別在于參與博弈各方之間有沒有一個(gè)具有約束力的協(xié)議,如果有,就是合作博弈,如果沒有,就是非合作博弈[3]。從博弈論上講,合作性的集體行動(dòng)主要有保證型博弈、討價(jià)還價(jià)博弈,合作博弈中各方進(jìn)行信息交流或達(dá)成具有約束力的契約,各方的利益都有所增加,或者至少是一方利益增加,另一方利益也不受損。非合作博弈不存在有約束力的協(xié)議,博弈者都以自身收益最大化為出發(fā)點(diǎn)選擇策略,如典型的囚徒困境博弈。城市群府際環(huán)境治理中也存在合作博弈和非合作博弈。美國學(xué)者安妮特·斯坦尼克在《大都市治理:沖突、競爭與合作》一書中分析了大都市合作的四種典型博弈——囚徒困境博弈、重復(fù)的囚徒困境博弈、討價(jià)還價(jià)博弈、保證型博弈[4]31-43。本文借鑒這四種博弈模型探討城市群府際環(huán)境治理中博弈態(tài)勢,進(jìn)而解釋政府間合作的可能性及其相關(guān)條件。
博弈論所涉及的一個(gè)最典型的模型就是“囚徒困境博弈”模型,也就是單次囚徒困境博弈。單次囚徒困境博弈是用來研究府際間關(guān)系最常用的分析模型,它的解釋力主要是其支付結(jié)構(gòu)(收益矩陣)抓住了政府間關(guān)系所固有的競爭屬性。囚徒困境最早是由美國數(shù)學(xué)家艾伯特·培克(Albert tucker)于1950年提出來的,它講的是A與B兩個(gè)共同盜竊犯罪嫌疑人作案后被警察抓獲,分別被隔開審訊。A與B都面臨著“坦白”還是“抵賴”兩個(gè)選擇,而每個(gè)人行為選擇的結(jié)果又取決于另一人的行為選擇。如果兩個(gè)人都坦白,那么每人判刑8年;如果兩個(gè)人都抵賴,因?yàn)闆]有足夠證據(jù),判刑1年;如果其中一方坦白,另一方抵賴,坦白的一方當(dāng)場釋放,抵賴的一方判刑10年。對(duì)于每個(gè)囚徒來說,這四個(gè)結(jié)果按對(duì)自己有利的排序依次是:自己坦白對(duì)方抵賴—雙方都抵賴—雙方都坦白—自己抵賴對(duì)方坦白。囚徒困境的收益矩陣如圖1所示。
囚徒B囚徒AB1(坦白)B2(抵賴)A1(坦白)(-8,-8)??(0,-10)A2(抵賴)(-10,0)(-1,-1)
圖1單次囚徒困境型博弈
A在進(jìn)行決策時(shí),他會(huì)發(fā)現(xiàn)如果B選擇“抵賴”,則自己的最優(yōu)選擇就是“坦白”;而如果B選擇“坦白”,則自己的最優(yōu)選擇也將是“坦白”,承擔(dān)8年刑期,相對(duì)于選擇“抵賴”而獲刑10年相對(duì)較短。因此,作為任何一個(gè)理性的嫌犯來說,無論對(duì)方的選擇“坦白”還是“抵賴”,自己的最優(yōu)選擇都是“坦白”。這樣一來,最后的結(jié)果就是A與B都選擇“坦白”,各判刑8年,收益矩陣中的“(-8,-8)**”就是囚徒困境模型的納什均衡解(用星號(hào)標(biāo)出,文中其他收益矩陣也一樣)。實(shí)際上,即使兩個(gè)囚徒事先訂立了攻守同盟,他們也會(huì)有背叛同盟的可能。因?yàn)槊總€(gè)囚徒都追求個(gè)體利益最大化,都希望對(duì)方抵賴,自己坦白獲釋。在上述收益矩陣中,對(duì)博弈方而言,“坦白”策略都是在考慮自身利益最大化基礎(chǔ)上的最佳策略。這是典型的單次囚徒困境博弈,是一個(gè)典型的個(gè)體理性導(dǎo)致的集體非理性的完全不合作博弈[5]。
城市群府際環(huán)境治理中也面臨著這種囚徒困境的難題。假定有兩個(gè)地方政府:地方政府A和地方政府B,每個(gè)地方政府都有合作和背叛兩種行動(dòng)策略(見圖2)。
地方政府B地方政府AB1(合作)B2(背叛)A1(合作)(A1,B1)(A1,B2)A2(背叛)(A2,B1)(A2,B2)??
圖2地方政府間單次囚徒困境型博弈
當(dāng)雙方都選擇合作時(shí),處于一個(gè)雙方都有收益的均衡解(A1,B1);但因各個(gè)地方政府都要有理性經(jīng)濟(jì)人屬性,希望選擇背叛或“搭便車”以使自己的利益最大化,都寄希望于其他地方政府選擇合作,而自己盡量少地付出或不付出。但如果地方政府A選擇背叛,而地方政府B選擇合作,那么結(jié)果為(A2,B1);如果地方政府B與地方政府A一樣也選擇背叛,故而最終的均衡解是(A2,B2)。在這種狀態(tài)下,地方政府的利益表現(xiàn)或行動(dòng)決策的結(jié)果,最終導(dǎo)致的是一個(gè)納什均衡,但是這個(gè)納什均衡不是帕累托最優(yōu)境界,而是博弈結(jié)果最差的一種(A2,B2)。如果所有的地方政府都選擇合作,任何一方的獲益都將比背叛這樣的情況要好。然而,相互合作的結(jié)果不是納什均衡,因?yàn)槿绻胤秸瓵選擇合作,地方政府B能夠通過背叛而使他境況更優(yōu),最壞的結(jié)果也能保持原有的收益不變,反之亦然。對(duì)每位博弈地方政府而言,選擇背叛策略將使之至少不會(huì)落到只有支付治理成本而無收益的境地,這是一種完全不合作博弈。就城市群環(huán)境治理來說,如果一個(gè)地方政府選擇背叛策略或“搭便車”,那么它不要投入或者境況更佳。每個(gè)地方政府都做同樣的算計(jì),所以每個(gè)地方政府最后都選擇背叛策略或“搭便車”。特別是政府間雙方因信息不對(duì)稱而無法準(zhǔn)確判斷對(duì)方的行為策略條件下,各自最優(yōu)的策略選擇必然是不合作,即收益組合(A2,B2)。
單次囚徒困境博弈是一個(gè)典型的非合作博弈,即該模型中各方采取的以背叛為主導(dǎo)的行為決策。這種博弈模型取決于幾個(gè)基本假設(shè):一是靜態(tài)性博弈;二是博弈者之間沒有交流,不能從重復(fù)博弈中進(jìn)行學(xué)習(xí);三是沒有制裁或外部強(qiáng)制;四是博弈者的對(duì)稱性,偏好一致。因而這種博弈模型在解決博弈者偏好分歧、地位不對(duì)稱和博弈穩(wěn)定性等方面的解釋能力非常有限。該模型的靜態(tài)性沒有考慮到重復(fù)博弈或者隨時(shí)間推移而出現(xiàn)變化的影響,而這些將影響政府間合作的可能性。如果出現(xiàn)重復(fù)博弈和博弈方之間可以面對(duì)面地溝通,博弈態(tài)勢就會(huì)改變。在府際博弈中,博弈者有同樣的發(fā)展偏好和平等的政治權(quán)力,這種假設(shè)是很難存在的。
雖然單次囚徒博弈會(huì)出現(xiàn)最差的均衡結(jié)果,但并不意味著合作障礙是不可能克服的,因?yàn)椴┺碾p方的決策選擇是互相依賴的,所以在囚徒困境模式中存在著合作的空間和可能性??朔呛献鞯那敉嚼Ь车年P(guān)鍵問題在于,如何使個(gè)體理性與集體理性統(tǒng)一起來。安妮特·斯坦尼克提出通過三種方法得以解決,每種方法都導(dǎo)致了一種新的博弈模式:第一,改變支付結(jié)構(gòu),導(dǎo)致了保證博弈;第二,引入重復(fù)博弈,導(dǎo)致了重復(fù)的囚徒困境博弈;第三,在討價(jià)還價(jià)博弈中,加入了博弈者偏好和政治權(quán)力的變化[4]36。這三種博弈模型后文會(huì)詳細(xì)分析。除了這三種方法外,針對(duì)囚徒博弈的局限,需要突出強(qiáng)調(diào)以下對(duì)策。(1)引入選擇性激勵(lì)。奧爾森認(rèn)為,克服集體行動(dòng)困境的辦法,需要特權(quán)勢力的存在,或者是通過制度設(shè)計(jì)提供有選擇性的激勵(lì)[6]41。選擇性激勵(lì)既可以是積極的,也可以是消極的,就是說,它們既可以通過懲罰那些沒有承擔(dān)集團(tuán)行動(dòng)成本的人來進(jìn)行強(qiáng)調(diào),或者也可以通過獎(jiǎng)勵(lì)那些為集體利益出力的人來進(jìn)行誘導(dǎo)[6]42。選擇性激勵(lì)是一套鼓勵(lì)合作,促進(jìn)個(gè)體行為與集體利益相一致的賞罰分明的制度。這個(gè)制度設(shè)計(jì)通過凌駕于雙方之上的第三方來實(shí)現(xiàn),雙方必須遵循第三方的規(guī)則,如果有人違反了承諾或規(guī)定必須進(jìn)行懲罰,迫使雙方向著集體理性方向選擇行動(dòng)策略。(2)制度規(guī)范硬約束。具有強(qiáng)制性約束力的制度規(guī)范是克服囚徒困境的一個(gè)重要途徑。博弈內(nèi)生理論指明制度既是博弈規(guī)則,也是博弈均衡[7]。均衡的制度和法律才是符合各方利益的規(guī)范,均衡制度為府際環(huán)境治理中的囚徒困境的解決提供了規(guī)范和新思路[8]。在城市群環(huán)境治理中,破解囚徒困境需要加強(qiáng)制度規(guī)范建設(shè),如相關(guān)法律規(guī)范、環(huán)境合作協(xié)議、合作規(guī)約等。經(jīng)驗(yàn)也證明,如果沒有相應(yīng)的法律規(guī)范,府際間合作就會(huì)充滿不確定因素,合作成本和風(fēng)險(xiǎn)一定會(huì)提高。府際合作所要遵循的制度還包含合作契約、績效考評(píng)制度、責(zé)任追究制度等。這些制度規(guī)范在主體間的合作過程中,起到約束合作行為、協(xié)調(diào)利益關(guān)系、預(yù)防合作風(fēng)險(xiǎn)的功能。(3)克服信息不對(duì)稱。信息在博弈中具備非常重要的地位,博弈方掌握的信息直接影響決策的選擇,信息不對(duì)稱增加了合作的難度,博弈方不清楚對(duì)方的策略,會(huì)產(chǎn)生不信任危機(jī)。囚徒困境博弈狀態(tài)下存在信息溝通障礙,倘若囚徒之間有信息的溝通,雙方很有可能會(huì)攻守同盟,雙方會(huì)選擇抵賴。在城市群府際環(huán)境治理中,加強(qiáng)環(huán)境合作信息溝通,建立環(huán)境信息共享系統(tǒng)尤其必要。
重復(fù)囚徒困境博弈是指固定的博弈者會(huì)不斷重逢,不斷重復(fù)相同或相似的選擇條件的博弈,實(shí)質(zhì)上是同一個(gè)博弈反復(fù)進(jìn)行所構(gòu)成的博弈過程。囚徒困境是一次性博弈,基于個(gè)體利益最大化,囚徒往往選擇坦白,如果是多次博弈,就可能會(huì)在各成員之間產(chǎn)生合作,如果博弈是無限次的,考慮到長遠(yuǎn)利益,選擇持續(xù)合作才是明智的。羅伯特·艾克斯羅德在其《合作的進(jìn)化》一書中用實(shí)驗(yàn)證明,如果博弈一方采用背叛策略,則另一方在下一局立即采用相同的策略,如果博弈一方開始采取合作策略,另一方會(huì)馬上效法。這種“一報(bào)還一報(bào)”或“針鋒相對(duì)”的多次重復(fù)博弈就會(huì)促進(jìn)相互間的合作。羅伯特·艾克斯羅德的結(jié)論肯定了突破單次囚徒困境,建立互惠合作關(guān)系的可能性[9]。弗里德曼也提供了一個(gè)嚴(yán)格的證明:如果博弈者比較重視自己未來的收益,那么合作就能夠在不定次的重復(fù)囚徒困境中自我實(shí)現(xiàn)[10]。在重復(fù)囚徒困境博弈中,有條件的合作策略將是理性經(jīng)濟(jì)人的最優(yōu)選擇,因?yàn)槊總€(gè)博弈者都有機(jī)會(huì)去懲罰前一回合的不合作行為,理性博弈者會(huì)認(rèn)識(shí)到,如果自己選擇背叛,在下一輪博弈中會(huì)遭到其他博弈者的報(bào)復(fù),選擇合作是明智之舉。由于未來收益或長期利益的存在,如果博弈者一方有任何合作的可能性,那么另一方將使用包括合作在內(nèi)的行動(dòng)策略來改善他的總收益。因此,當(dāng)博弈重逢的次數(shù)足夠多的情況下,合作可能會(huì)作為均衡的結(jié)果出現(xiàn)。當(dāng)重復(fù)博弈的次數(shù)接近無限的數(shù)量,納什均衡趨向于帕累托最優(yōu)。城市群環(huán)境治理中政府間的博弈是長期的、多次的和動(dòng)態(tài)的,即存在重復(fù)囚徒困境博弈態(tài)勢,這就為克服單次博弈的囚徒困境提供了一定可能性。
假設(shè)以單次囚徒困境為原博弈G,如果G重復(fù)進(jìn)行T次,那么G(T)就表示重復(fù)進(jìn)行T次的有限重復(fù)博弈。用逆推法來分析有限次重復(fù)博弈的過程,研究發(fā)現(xiàn),如果階段博弈G有唯一的納什均衡,則對(duì)任意有限的T,重復(fù)博弈G(T)有唯一的子博弈完美納什均衡,即G的納什均衡結(jié)果在每一個(gè)階段重復(fù)進(jìn)行。博弈者若明確知道合作到了最后一輪,以后不會(huì)再有重復(fù)博弈,那么,最后一輪的博弈和單次囚徒困境博弈就沒有區(qū)別,博弈者的欺騙和違約行為不可能被報(bào)復(fù),結(jié)果最后一輪每個(gè)博弈者的占優(yōu)策略就是不合作。逆推到前一期,每個(gè)博弈者都推知以后將不合作,所以也不會(huì)合作。因此,在有限次重復(fù)博弈中,囚徒困境博弈的納什均衡是參與者的不合作。由此可見,影響重復(fù)博弈均衡結(jié)果的主要因素是博弈的重復(fù)次數(shù)。本文假設(shè)按單次囚徒困境模型重復(fù)博弈兩次,第一階段和第二階段的收益矩陣分別如圖3、圖4。根據(jù)以上分析,第一階段的納什均衡為(坦白,坦白)即(-8,-8)。
囚徒B囚徒AB1(坦白)B2(抵賴)A1(坦白)(-8,-8)??(0,-10)A2(抵賴)(-10,0)(-1,-1)
圖3第一階段囚徒困境型博弈
第二階段,即將最后階段的收益(-8)添加到第一階段的矩陣中,發(fā)現(xiàn)第二階段的納什均衡為(坦白,坦白),即(-16,-16)。兩次重復(fù)囚徒困境博弈的均衡組合都是選擇(坦白,坦白),即在有限次重復(fù)博弈G(T)中,如果原博弈G存在唯一的純策略納什均衡組合,則重復(fù)博弈的唯一的子博弈完美納什均衡解為各博弈方在每階段都采取了原博弈納什均衡策略。這意味著在原博弈具有唯一均衡的有限次重復(fù)博弈中,由于完全理性的博弈方具有“共同知識(shí)”的分析推理能力,因此在從最后階段開始的逆推過程中,仍然無法擺脫囚徒困境。羅伯特·艾克斯羅德的實(shí)驗(yàn)結(jié)果表明,當(dāng)博弈重復(fù)無限次時(shí)的情形,假定兩個(gè)囚徒A和B的貼現(xiàn)因子為相同的常數(shù)δ,當(dāng)δ充分大時(shí),合作均衡結(jié)果每階段都為(抵賴,抵賴),將是一個(gè)子博弈精煉均衡。
囚徒B囚徒AB1(坦白)B2(抵賴)A1(坦白)(-16,-16)??(-8,-18)A2(抵賴)(-18,-8)(-9,-9)
圖4第二階段囚徒困境博弈
重復(fù)囚徒困境博弈建立在以下假設(shè)基礎(chǔ)上,一是相同的參與者重復(fù)博弈;二是存在交流的可能性;三是對(duì)稱的博弈者,即博弈者在偏好、地位、信息獲得、資源配置等方面基本上是平等的。重復(fù)囚徒困境博弈的最突出特征是將未來收益對(duì)參與者的影響考慮進(jìn)去,拋棄了靜態(tài)假設(shè),開啟了合作的可能性。如果我們相信城市間的某種競爭水平比以協(xié)議為基礎(chǔ)的保證博弈收益更適當(dāng),那么重復(fù)的囚徒困境博弈框架將是一個(gè)更準(zhǔn)確的方法。這種博弈能夠提供完整的信息、允許從某次博弈中受益而在另一次博弈中付出更多、包含有防止博弈者隨時(shí)間推移而出現(xiàn)的地位或偏好的變化的保護(hù)措施。重復(fù)的囚徒困境博弈的最大局限仍然是關(guān)于博弈者完全一樣的假設(shè),包括他們有相同的貼現(xiàn)率[4]43。相比單次囚徒困境博弈,重復(fù)囚徒困境博弈包含更多政府間合作和政策的特性,但該模型仍然很難把博弈者的多樣性和博弈者地位隨時(shí)間推移的變動(dòng)性概括進(jìn)去。現(xiàn)實(shí)中,對(duì)等博弈只是在少數(shù)情形下才存在,政府間的地位和實(shí)力存在差異,即使合作的潛在總收益很大,收益分配沖突也會(huì)阻止這種合作。
重復(fù)的囚徒困境博弈存在多種均衡狀態(tài),博弈合作是一種可能的納什均衡,這種納什均衡的可能性受諸多因素的影響。理查德·C.菲沃克認(rèn)為,在重復(fù)博弈過程中,幾個(gè)參數(shù)影響最優(yōu)策略選擇以及合作的水平,主要是博弈終結(jié)點(diǎn)的不確定性、博弈者的貼現(xiàn)率,以及收益的相對(duì)規(guī)模能夠?qū)е略谧畛鯉纵喩系暮献?,以及?qiáng)制實(shí)施的可信的內(nèi)外制裁也能夠發(fā)揮作用以保持合作策略。其中當(dāng)前條件對(duì)博弈者影響越大,貼現(xiàn)率越高,博弈者越希望從當(dāng)前博弈輪次中獲得最大可能的收益。當(dāng)前收益對(duì)博弈者越重要,就越可能選擇背叛策略。因?yàn)閷?duì)于博弈者來說,較低但確定的收益比未來較高卻有風(fēng)險(xiǎn)的收益更有價(jià)值[4]38。阿克塞爾羅德認(rèn)為,合作的基礎(chǔ)不是真正的信任,而是關(guān)系的持續(xù)性。他提出合作博弈存在以下基本條件:一是個(gè)體有足夠大的機(jī)會(huì)相遇,并使雙方相互作用更持久和使相互作用更頻繁;二是回報(bào)原則,互惠是交換關(guān)系的基本原則,每次讓渡都包含著獲得相應(yīng)回報(bào)的預(yù)期;三是建立合作的規(guī)范,防止其他不太合作的侵入,合作就能夠產(chǎn)生、成長并保持穩(wěn)定[11]。結(jié)合以上論述,本文將重復(fù)囚徒困境博弈格局優(yōu)化的途徑概括為以下幾個(gè)方面。(1)導(dǎo)向長遠(yuǎn)利益。在重復(fù)博弈環(huán)境下,理性的參與者能夠?yàn)榱宋磥淼拈L久利益而支持當(dāng)前不利的政策主張。參與者可能不急于獲取眼前的利益,而是著眼于在未來獲取更大的累積性收益。對(duì)博弈輪數(shù)的期望值影響到博弈者的決定,博弈者越是認(rèn)為博弈行將結(jié)束,越是看重當(dāng)前的收益。應(yīng)用該模型于城市群府際環(huán)境治理的分析需要測定博弈本身以決定其參數(shù)值(收益和貼現(xiàn)率),評(píng)估這些參數(shù)在現(xiàn)實(shí)世界中的價(jià)值排列即可測定城市間合作的可能性。這種方法的主要困難在于多個(gè)納什均衡,又有體系中必須要解決的精確的參數(shù)估計(jì)[4]39。需要強(qiáng)調(diào)的是,博弈者合作的前提是合作的未來收益高于背叛的收益,讓博弈者看到合作的未來收益會(huì)比當(dāng)前選擇背叛的收益更大。假如短期誘惑過大或者缺乏足夠耐心,違約行為就會(huì)發(fā)生。保護(hù)城市群生態(tài)環(huán)境是區(qū)域發(fā)展的長遠(yuǎn)利益、整體利益和共同利益,政府要摒棄短視的發(fā)展模式,協(xié)調(diào)經(jīng)濟(jì)發(fā)展與環(huán)境保護(hù)的關(guān)系,處理好短期利益與長遠(yuǎn)利益、局部利益與整體利益、個(gè)體利益與共同利益的關(guān)系,將發(fā)展目標(biāo)導(dǎo)向長遠(yuǎn)和未來。(2)持續(xù)性互動(dòng)。重復(fù)的囚徒困境博弈突出特征是博弈者試圖在依靠多次反復(fù)的互動(dòng)使自己的收益最大化。博弈理論對(duì)于平行組織之間合作問題最常提供的對(duì)策,就是長期的互動(dòng)。這種長期交往使部門間與政府間得以建立名聲以增進(jìn)互信,進(jìn)而建立相互間對(duì)于合作事宜的互動(dòng)模式與心理上的互相期望。城市群府際環(huán)境合作的成效不僅包括短時(shí)期內(nèi)的直接影響,具有持續(xù)性是合作成功的更為重要的標(biāo)志。城市群各成員城市處于一個(gè)生態(tài)共同體之中,環(huán)境污染治理和生態(tài)文明建設(shè)需要長期行動(dòng),政府間需要持續(xù)性的長期合作[12]。為此,在城市群區(qū)域建立一種制度化的商談會(huì)晤機(jī)制,即程序性的會(huì)商機(jī)制。程序性的會(huì)商其實(shí)質(zhì)是一種基于交往理性的主體間關(guān)系,只有在這種主體間基礎(chǔ)上才能形成有效的規(guī)則或長效機(jī)制[13]。通過制度化的程序化的商談會(huì)晤,加強(qiáng)相互之間的政策學(xué)習(xí)、交流經(jīng)驗(yàn)和共享知識(shí)。(3)建立聲譽(yù)機(jī)制。單次囚徒困境博弈之所以會(huì)出現(xiàn)互不誠信的結(jié)果,最主要的原因在于雙方是“一錘子買賣”,博弈雙方都從各自的眼前利益出發(fā),選擇不守信和欺騙,聲譽(yù)機(jī)制就無法形成。在重復(fù)囚徒困境博弈中,要維持聲譽(yù),強(qiáng)調(diào)對(duì)失信的懲罰,加大失信的成本,否則就等于縱容背叛,從而迫使其行為趨向誠信。這種懲罰可能會(huì)促使每個(gè)參與者都在第一回合選擇合作,或在幾個(gè)回合之后采取合作。同時(shí),博弈者的失信或背叛信息能及時(shí)被觀察到,并且該信息能夠快速準(zhǔn)確地傳播出去,如果失信或背叛不能被人觀察到,當(dāng)事人就可能不講信譽(yù),一般來說,信息觀察越滯后,信譽(yù)的建立就越難[14]。因而聲譽(yù)機(jī)制的建立還要解決重復(fù)博弈中所需的信息不對(duì)稱問題。
討價(jià)還價(jià)博弈模型避免了煩瑣的公理假設(shè)和數(shù)學(xué)定義,具有較好的適用性。該模型考慮到了博弈者實(shí)力和地位的不同,考慮到了博弈者不對(duì)稱的偏好,考慮到了重復(fù)博弈和隨時(shí)間推移而出現(xiàn)的變化性,考慮到了風(fēng)險(xiǎn)規(guī)避和時(shí)間偏好的重要性。該模型不僅包括決定制度性合作能否發(fā)生的因素,還包括決定合作協(xié)議條款的因素,所以它是最具彈性的一種模型[4]39。城市群府際環(huán)境合作是利益協(xié)調(diào)的動(dòng)態(tài)博弈過程,是中央政府與地方政府之間、地方政府之間不斷協(xié)商或討價(jià)還價(jià)的過程,需要在協(xié)商一致的基礎(chǔ)上達(dá)成合作共識(shí)和利益協(xié)調(diào)。城市群府際環(huán)境治理的合作收益就像一塊蛋糕,需要合理分配,環(huán)境治理的成本需要合理分?jǐn)?,以討價(jià)還價(jià)博弈模型分析城市間利益協(xié)調(diào)的過程有較強(qiáng)針對(duì)性和應(yīng)用性。府際合作收益分配是一個(gè)復(fù)雜的談判過程,幾個(gè)城市間通過討價(jià)還價(jià)最后達(dá)成協(xié)議,可能導(dǎo)致實(shí)力或地位較強(qiáng)的城市接受當(dāng)前的較少收益,并遵守其他城市所提出的公平觀念,以尋求在未來更好合作。因?yàn)槲磥淼幕?dòng)可能降低違反當(dāng)前協(xié)議的可能性[15]88-95。
討價(jià)還價(jià)博弈關(guān)鍵是建立博弈方之間的共識(shí)基礎(chǔ)。(1)外部選擇權(quán)。外部選擇權(quán)是指如果談判破裂,博弈者能夠得到的東西,往往是指現(xiàn)狀的價(jià)值,這些價(jià)值暗示了每個(gè)博弈者對(duì)合作協(xié)議的需要。在政府間的合作談判過程中,每個(gè)政府都將要求從協(xié)議中獲取的價(jià)值不能少于其外部選擇權(quán)的收益,或者不少于單獨(dú)行動(dòng)的收益。每個(gè)政府從合作協(xié)議中獲取的收益至少要與沒有協(xié)議時(shí)一樣多,如果這個(gè)條件不能達(dá)到,很難實(shí)現(xiàn)合作。如果政府間的外部選擇獲得的總和收益比合作收益分配的收益大得多,那么很難達(dá)成環(huán)境合作協(xié)議。一旦每個(gè)博弈者都收到了其外部選擇的價(jià)值,共同收益的剩余將會(huì)按博弈者風(fēng)險(xiǎn)規(guī)避和時(shí)間偏好的相對(duì)價(jià)值來分配。這種分配偏愛更有可能遭受風(fēng)險(xiǎn)的以及未來貼現(xiàn)率較低的博弈者[16]。外部選擇權(quán)的大小實(shí)質(zhì)上反映機(jī)會(huì)成本大小,機(jī)會(huì)成本是指博弈者能找到相似或相同成交條件的可能性,如清潔水源的替代性、產(chǎn)業(yè)發(fā)展對(duì)水源的依賴度等。如果機(jī)會(huì)成本小,意味著外部選擇權(quán)小,達(dá)成協(xié)議的可能性就大。(2)未來貼現(xiàn)率。在討價(jià)還價(jià)博弈模型中,貼現(xiàn)因子表示討價(jià)還價(jià)的時(shí)間成本,也是博弈者耐心程度的反映。對(duì)未來貼現(xiàn)率[注]貼現(xiàn)因子在數(shù)值上可以理解為貼現(xiàn)率,就是1個(gè)份額經(jīng)過一段時(shí)間后所等同的現(xiàn)在份額。這個(gè)貼現(xiàn)因子是由參與者的“耐心”程度所決定的。由于貼現(xiàn)因子的作用,參與者在本期所得的份額X和下期所得同樣份額的X在價(jià)值上是不相等的,下期的X經(jīng)過貼現(xiàn)只能等于本期的δx,要小于本期的X。很高的政府來說,只有當(dāng)前能夠?qū)崿F(xiàn)的交易才是有價(jià)值的,談判中處在一個(gè)較弱的位置。若時(shí)間對(duì)某個(gè)政府越重要,那么其貼現(xiàn)因子就越小,在討價(jià)還價(jià)中就越處于不利位置。或者說,風(fēng)險(xiǎn)厭惡度小的博弈者,其貼現(xiàn)因子較大,在討價(jià)還價(jià)中處于較有利的地位,同時(shí)引發(fā)談判破裂的可能性也較大;風(fēng)險(xiǎn)厭惡度大的博弈者,其貼現(xiàn)因子較小,在討價(jià)還價(jià)中處于較被動(dòng)不利的地位,但引發(fā)談判破裂的可能性也較小。如果雙方都是風(fēng)險(xiǎn)接受者并有低貼現(xiàn)率,引發(fā)談判破裂的可能性也較大,因?yàn)殡p方都以一個(gè)高要求開始且在談判過程中沒有明顯地作出調(diào)整[15]。如污染河流的上下游政府關(guān)于生態(tài)補(bǔ)償?shù)恼勁芯兔媾R這種情形,下游政府的未來貼現(xiàn)率高,帶來的損失比上游政府要大,治理河流污染比上游政府要緊迫,所以談判中處于較弱位置。(3)磋商談判的規(guī)范性。城市群府際環(huán)境治理中,政府的討價(jià)還價(jià)能力對(duì)合作影響很大,由于政府間基礎(chǔ)條件的差異,各自的行動(dòng)策略也不盡相同,從環(huán)境合作中獲取的收益也不同。那些討價(jià)還價(jià)能力占優(yōu)勢的博弈者從協(xié)議當(dāng)中收益較多,而不占優(yōu)勢的則收獲較少。一般來看,城市群中核心城市往往從城市共同體中分到更大利益,一般城市收益則相對(duì)越少,這導(dǎo)致一般城市在區(qū)域合作中更愿采取“搭便車”策略[16]。小城市傾向于選擇等待策略,傾向于跟隨并參與環(huán)境合作,等待核心城市或中央政府啟動(dòng)合作。因此,規(guī)范討價(jià)還價(jià)的過程,維護(hù)弱勢方的利益是解決博弈方非合作的關(guān)鍵。為此,建立城市群環(huán)境問題磋商機(jī)制,通過政府間的有效磋商,協(xié)調(diào)彼此的利益訴求和政策立場,最終達(dá)成區(qū)域共同認(rèn)可的合作協(xié)議。磋商機(jī)制實(shí)際上是一種公共對(duì)話機(jī)制,公共對(duì)話可以促進(jìn)博弈方進(jìn)行自我反思,消除彼此之間的認(rèn)識(shí)差距、利益沖突和利益張力,增加共享性思維[17]。政府通過正式或非正式的方式進(jìn)行公共對(duì)話與磋商,加強(qiáng)溝通,在一定游戲規(guī)則下達(dá)成合約。磋商談判機(jī)制的建立,應(yīng)當(dāng)注意參與主體的平等性和代表性,城市群環(huán)境治理在哪些方面、在哪里進(jìn)行合作,如何進(jìn)行合作,地方政府都應(yīng)該享有同等的發(fā)言權(quán)和表決權(quán),因此,建立一種使各地方政府都有機(jī)會(huì)表達(dá)不同意見的正式程序,如建立聯(lián)席會(huì)議、聽證會(huì),通過調(diào)解、均衡,形成以國家利益為主,反映地方利益的協(xié)議或規(guī)則[18]。(4)合作協(xié)議的公平性。討價(jià)還價(jià)博弈的一個(gè)重要特征是以協(xié)議為基礎(chǔ)。在討價(jià)還價(jià)博弈中,對(duì)雙方最不利的結(jié)果是談判的失敗,合作成功需要依賴的分配協(xié)議,達(dá)成什么樣的協(xié)議是個(gè)復(fù)雜的討價(jià)還價(jià)和談判的過程,這里面關(guān)鍵是存在收益分配和成本分?jǐn)倖栴},以及如何保證弱勢方政府的話語權(quán)、發(fā)展權(quán),確定環(huán)境合作協(xié)議的公平公正和順利實(shí)施。在磋商談判中,應(yīng)當(dāng)重視參與方意見表達(dá),確保協(xié)商的廣泛性、公正性和持續(xù)性,通過協(xié)商、談判,建立起互惠合作的關(guān)系,明確協(xié)議方之間的利益獲得和責(zé)任承擔(dān)方式。
保證型博弈是一種靜態(tài)博弈,博弈者之間存在可能的交流,博弈者之間偏好是完全聚合的,合作會(huì)增加收益,并存在幾種納什均衡狀態(tài)。保證型博弈的決策結(jié)構(gòu)可用以圖5來表述。
城市B城市AB1(合作)B2(不合作)A1(合作)(5,5)??(1,3)A2(不合作)(3,1)(2,2)??
圖5保證型博弈
圖5是典型的保證型博弈格局圖。假設(shè)A和B兩個(gè)毗鄰城市都面臨著比較嚴(yán)峻的跨界環(huán)境污染問題,每個(gè)城市都有實(shí)施合作或不合作兩種決策選擇。在這種博弈中,雙方都不存在自己的主導(dǎo)決策選擇(合作或不合作),博弈中各自的決策隨對(duì)方的決策而定。假設(shè)預(yù)期收益的最大值是5,最小值是1。A和B城市如果分別單獨(dú)地去治理,則獲得的收益各為2;兩個(gè)城市如果合作治理,則各自的收益可達(dá)到最大值5;如果一個(gè)城市實(shí)施環(huán)境治理,而另一個(gè)城市不實(shí)施,則實(shí)施的城市獲得收益為3,不實(shí)施的城市收益為最小值1??梢?,保證型博弈存在兩種納什均衡:一是合作治理即均衡A1B1(5,5);二是各自單獨(dú)治理即均衡A2B2(2,2)。博弈中只要地方政府A選擇第一種決策A1(合作),地方政府B也就選擇同樣的決策B1(合作),反之亦然。那么博弈中平衡的結(jié)果就會(huì)是A1B1,地方政府A與B都能實(shí)現(xiàn)各自最大的收益5,這是理想的帕累托最優(yōu)均衡。如果地方政府A與B同時(shí)選擇自己的第二種決策A2B2時(shí),表面上看,地方政府A在選擇第二種決策A2(不合作)時(shí),其收益是3,而地方政府B的收益為1,同樣道理,地方政府B選擇第二種決策B2(不合作)時(shí),其收益是3,而地方政府A的收益為1。而事實(shí)上由于各方在決策上存在相互依賴性,因此,當(dāng)?shù)胤秸瓵與B同時(shí)選擇第二種決策時(shí),它們的收益結(jié)果正好會(huì)成為另一個(gè)納什均衡解,這種納什均衡結(jié)果對(duì)兩者來說都是次優(yōu)或者是最差的[4]37。
從圖5可以看出,如果一方選擇合作的話,每個(gè)博弈者將更愿意合作,如果都選擇合作的話將有一個(gè)清晰的帕累托最優(yōu)結(jié)果,這是一種納什均衡。如果一方選擇不合作,每個(gè)博弈者將選擇不合作策略,這種結(jié)果與囚徒困境博弈相同。在這種博弈中,博弈雙方采用第一種決策(合作)無疑就是一種最優(yōu)的決策選擇,因?yàn)槠垓_與背叛的收益總量是要小于合作的收益。所有參與者都希望達(dá)到一種相互合作的納什均衡狀態(tài)——如果城市A知道城市B會(huì)選擇合作策略,那么它將沒有動(dòng)機(jī)去選擇背叛策略,而且選擇合作策略將使收益最大。相反,如果城市A知道城市B將選擇背叛策略,那么它將選擇背叛策略。這樣的收益小于都選擇合作策略,但卻大于自己選擇合作策略而另一方選擇背叛策略的情況[4]36。保證型合作博弈的核心特征是會(huì)出現(xiàn)帕累托最優(yōu)的博弈結(jié)果。在保證型博弈中,收益結(jié)構(gòu)被改變,因此背叛不再是優(yōu)勢策略。盡管相互背叛在保證型博弈中也能構(gòu)成一個(gè)納什均衡解,但并非最優(yōu)的決策選擇。面對(duì)保證型合作博弈中兩個(gè)納什均衡,最終的策略選擇是由兩個(gè)支付結(jié)構(gòu)的收益大小來判斷,合作的收益比不合作要大得多。在這種情況下,選擇合作的納什均衡比不合作的納什均衡具有帕累托優(yōu)勢。另外,在保證型合作中,博弈方處于基本平等和相互依賴的地位,是一種對(duì)稱的靜態(tài)博弈。在保證型博弈中,集體利益與個(gè)體利益是相容性的,個(gè)體理性與集體理性并不突出,個(gè)體利益與公共利益間并不存在嚴(yán)重的背離狀況[19]。在城市群府際環(huán)境治理中,由于區(qū)域生態(tài)環(huán)境的整體性,環(huán)境問題的跨界性和關(guān)聯(lián)性,環(huán)境治理的復(fù)雜性和緊迫性,環(huán)境合作治理將是理性選擇,隨著生態(tài)文明建設(shè)和生態(tài)城市群建設(shè)的推進(jìn),城市群環(huán)境治理中的政府合作也存在保證型博弈的態(tài)勢。通過地方政府間資源整合和利益共享促成城市群共同利益的增長,從而達(dá)到帕累托最優(yōu)。在帕累托最優(yōu)均衡解中,各控制變量的總體邊際收益等于其總體邊際成本,不僅對(duì)單個(gè)城市的利益來說是最優(yōu)的,而且對(duì)整個(gè)城市群來說也是帕累托最優(yōu)的。當(dāng)然,保證型博弈確實(shí)增加了合作的機(jī)會(huì),但城市群政府間的實(shí)力、地位存在較大差異,博弈者的偏好仍然是變化的。因而,該模型的應(yīng)用將受到一定限制。
保證型博弈中存在完全合作的可能性。完全合作是指最大化總體福利的充分合作,在完全合作狀態(tài)下,如果存在相應(yīng)的權(quán)威機(jī)構(gòu),擁有必要的信息和權(quán)力來化解不合作的阻力,那么這個(gè)解是可以得到的。保證型合作博弈需要一定條件才能維持。(1)充分的信息交流。這種博弈往往容易受到信息不完全的影響,陷入集體行動(dòng)的困境。面對(duì)博弈中有兩種納什均衡,如果博弈者必須同時(shí)決策且不能交流,那么不能確定每個(gè)博弈者都會(huì)選擇合作。如果博弈者能夠交流,那么博弈的合作承諾不是一個(gè)問題。因此,信息的溝通與交流是關(guān)鍵性的合作條件。在組織關(guān)系中,溝通是合作的基本前提,溝通可以拓寬信息渠道,可以更好表達(dá)意愿和要求,及時(shí)了解其他參與者的行為選擇。良好的信息溝通,能夠促進(jìn)協(xié)調(diào),有效地減少和緩和沖突,增進(jìn)信任。因此,建立有效的溝通交流機(jī)制和信息交流平臺(tái),拓寬政府間的信息溝通渠道;建立城市群環(huán)境信息通報(bào)制度,定期通報(bào)環(huán)境政策、環(huán)境污染現(xiàn)狀、監(jiān)測數(shù)據(jù)和防治的重點(diǎn)工作;建立環(huán)境信息公開制度,降低信息交流成本,保證信息能夠及時(shí)、準(zhǔn)確地在區(qū)域之間傳遞并得到利用;建立政府間定期磋商機(jī)制;建立區(qū)域環(huán)境動(dòng)態(tài)信息數(shù)據(jù)庫,以便及時(shí)有效地了解城市群環(huán)境變化狀態(tài)及趨勢。(2)必要的制度約束。對(duì)城市群府際環(huán)境治理來說,關(guān)鍵問題在于如何使博弈雙方的合作承諾與合作行為處于相互保證的狀態(tài)。保證博弈符合于偏好完全聚合的情況,當(dāng)公共物品的屬性決定著囚徒困境結(jié)構(gòu)的時(shí)候,政策建議往往是使之轉(zhuǎn)變?yōu)楸WC博弈,其方式是通過制裁來降低背叛的收益或者通過激勵(lì)來提高合作的收益[4]39。城市群環(huán)境治理過程中,治理合作需要必要的制度基礎(chǔ)。環(huán)境合作開展中的很多內(nèi)容都需要相應(yīng)的規(guī)則和制度予以明確的規(guī)定及限制,同時(shí),還需要常設(shè)性的權(quán)威機(jī)構(gòu)對(duì)地方政府合作進(jìn)行監(jiān)督和管理[20]。埃莉諾·奧斯特羅姆認(rèn)為,對(duì)于如何實(shí)現(xiàn)公共池塘資源占用者之間的合作,需要解決“新制度的供給問題”“可信承諾問題”“相互監(jiān)督問題”[21]。城市政府之間的環(huán)境合作,如果沒有嚴(yán)格的制度予以監(jiān)督約束,那么很難保證合作協(xié)議和合作行動(dòng)的執(zhí)行實(shí)施。
城市群環(huán)境治理是一個(gè)多元主體參與,既有競爭也有合作的博弈過程。其中府際環(huán)境治理中存在囚徒困境博弈、重復(fù)的囚徒困境博弈、討價(jià)還價(jià)博弈、保證型博弈等典型的博弈態(tài)式或模式,這四種態(tài)式反映了城市群環(huán)境治理中政府關(guān)系的基本狀態(tài),反映政府環(huán)境合作需要的條件基礎(chǔ)和影響變量。在四種博弈中,囚徒困境博弈是一種典型的非合作博弈,保證型博弈是一種典型的完全合作博弈,重復(fù)的囚徒困境博弈和討價(jià)還價(jià)博弈是有條件的合作博弈。每種博弈具有自己的特征、形成條件和收益結(jié)構(gòu)。在城市群環(huán)境治理中,這四種博弈在不同城市群、不同政府間、不同時(shí)期都可能出現(xiàn)。我們需要弄清每種博弈的基礎(chǔ)條件和形成邏輯,弄清每種博弈的基本特征和主要局限。針對(duì)單次囚徒困境博弈,通過引入選擇性激勵(lì)、制度規(guī)范硬約束、克服信息不對(duì)稱等措施來破解囚徒困境;針對(duì)重復(fù)囚徒困境博弈,通過導(dǎo)向長遠(yuǎn)利益、持續(xù)性互動(dòng)、建立聲譽(yù)機(jī)制來優(yōu)化博弈格局;針對(duì)討價(jià)還價(jià)博弈,通過明確外部選擇權(quán)、未來貼現(xiàn)率,規(guī)范磋商談判,保證合作協(xié)議的公平性來達(dá)到博弈均衡;針對(duì)保證型博弈,通過充分的信息交流、必要的制度約束來維持博弈秩序。