摘要:囚徒困境模型指出,追求個人利益最大化的納什均衡解是集體利益最小化,這與古典經濟學的“看不見的手”核心思想背道而馳。相比囚徒困境模型,鷹鴿博弈區(qū)分了策略H種群和策略D種群,這樣就從兩個體不合作分析轉變?yōu)椴煌呗缘娜后w間混合演化穩(wěn)定策略分析,這個混合策略中包含一定概率的合作策略。西格蒙德證明了均衡點存在,這些均衡點包含一定概率的合作策略,在其基礎上,諾瓦克證明了當種群中合作策略的群體占種群總量的三分之一以上時,合作策略會成最優(yōu)策略,囚徒困境被破解。
關鍵詞:囚徒困境;交易費用;三分之一定律
中圖分類號:F069.9 ? ?文獻標識碼:A文章編號:2095-6916(2021)05-0140-03
一、博弈論中的囚徒困境
1928年,匈牙利裔數學家約翰·馮·諾依曼(John von Neumann)發(fā)表了他關于博弈論的第一篇論文,后來奧地利經濟學家奧斯卡·莫根施特恩(Oskar Morgenstern)為逃避納粹迫害到美國避難,在他的幫助下,馮·諾依曼對博弈論進行了完善,并將其成功應用于經濟領域。
博弈論中有一個非常有趣的博弈模型——囚徒困境,由梅里爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)于1950年共同提出。囚徒困境模型指出,追求個人利益最大化的納什均衡解是集體利益最小化,這與古典經濟學的“看不見的手”核心思想——自由競爭的一般均衡解帶來集體利益最大化——背道而馳。
假設你和你的同伙犯罪并已被警方緝拿歸案,二人分別隔離囚禁不能互通信息,現在正面臨檢方的犯罪指控。假設檢方對二人分別進行審訊,并對每人只提供一次選擇機會。這個選擇機會正是囚徒困境的核心:如果某人選擇不合作,充當背叛者,坦白認罪并指控另一人的罪行,而同時另一人保持沉默(不認罪,不指控),那么坦白者被從寬處理,刑期1年,而保持沉默(不認罪,不指控)的同伙被重罰,面臨4年監(jiān)禁;如果二人都保持沉默,互相合作,不認罪不指控,檢方由于證據不足只能輕判,二人分別獲刑2年;還有一種情況,二人都選擇背叛對方,互相揭發(fā),因證據確鑿都會被治以重罪,但考慮都有坦白表現,將會分別判處刑期3年。
在囚徒困境里不管對方的選擇如何,己方的最優(yōu)策略是背叛,每個人的最優(yōu)策略構成的穩(wěn)定均衡是納什均衡,囚徒困境里的納什均衡是(不合作,不合作),或者說(背叛,背叛)。有意思的是,從個人的最優(yōu)策略角度構成的(不合作,不合作)均衡,從總體來看是最差的,因為兩人的刑期總和為6年,顯然比一人坦白一人不坦白的5年或者二人都不坦白的4年效果要差。
要注意的是囚徒困境分析中沒有區(qū)分策略的種群差別。
二、鷹鴿博弈
1973年,約翰·梅納德·史密斯(John Maynard Smith)和普瑞斯(Price)在《動物沖突的邏輯》中研究生物進化現象時,提出了進化博弈論的思想以及進化穩(wěn)定策略(ESS),從此進化博弈理論誕生。史密斯在他出版的《演化與博弈論》[1]一書中描述了鷹鴿博弈,這一模型已成為演化動力學與進化博弈論的基本模型。
假設兩種動物為爭奪價值為V的資源而展開競爭,所謂價值指的是該資源使得動物的達爾文適應性之增加值。一種動物可以采取的行動有三種:炫耀、戰(zhàn)斗或撤退。炫耀指的是動物只能虛張聲勢而不會傷害到對手,采取戰(zhàn)斗的動物如能傷害對手使其撤退就能獲取資源,而采取撤退行為的動物則等于放棄競爭,將資源拱手讓人。
為了簡化,將動物的策略只歸為兩種,鷹(H)策略:戰(zhàn)斗,僅當自己受傷或對手撤退時才停止戰(zhàn)斗;鴿(D)策略:炫耀,當對手開始戰(zhàn)斗時立刻撤退。
如果兩種動物都采取戰(zhàn)斗策略,其中的某種動物早晚會受傷退出,受傷的結果將降低其達爾文適應度為C。假設鷹策略對鷹策略:競爭者有50%的機會傷害并擊退對手獲取資源V,也有50%的機會可能受傷退出競爭,那么鷹策略的收益為(V-C)/2。對手是鴿策略,鷹策略的競爭者將會擊退鴿策略者,獲得收益V,而鴿策略者獲得收益0。如果兩個鴿策略者競爭,他們最后將分享資源,每個競爭者的收益為V/2。
設策略I是穩(wěn)定策略,策略J是突變策略,梅納德·史密斯和普瑞斯(1973)指出存在進化穩(wěn)定策略(ESS)的條件是E(I,I)>E(J,I)或者E(I,I)=E(J,I)且E(I,J)>E(J,J)。顯然,D不是一個ESS,因為E(D,D) 要注意的是,在鷹鴿博弈分析中,實際是區(qū)分了策略H種群和策略D種群,這樣就從囚徒困境的兩個體不合作分析轉變?yōu)椴煌呗缘娜后w間混合演化穩(wěn)定策略分析,這個混合策略中包含一定概率的合作策略。 三、交易費用和演化動力學的統一方程 1999年,鄧肯·瓦特(Duncan Watts)在《美國社會性雜志》發(fā)表《網絡,動力學,小世界現象》;2004年,又在《社會性年鑒》發(fā)表了《網絡新科學》,瓦特介紹了“小世界”網絡研究。瓦特的研究表明,社會網絡有三種類型:熟人社會、冷漠社會和介于二者之間的“小世界”,小世界的典型特點是存在不同策略的群體。關于真實世界的社會網絡的研究結果表明,交易與病毒在小世界網絡里傳播的速度最快——或者說其交易費用足夠低。 哈佛大學演化理論家馬丁·諾瓦克(Martin A.Nowak)2002年發(fā)表了論文《演化動力學的統一方程》,論文核心圍繞“演化基本方程”展開,復制子—變異子方程為 ?,這一方程也被稱為演化基本方程,設為有機體承載的被稱為“合作行為”的策略,方程右端的fi(x)代表物種i的適存度,f代表這一生態(tài)環(huán)境下全部物種的平均適存度。方程左邊為變量xi隨時間變化的百分比,方程兩端同除以xi然后對時間求導數,方程左端變?yōu)閘n(xi)對時間的導數。演化基本方程的含義是:變量有機體承載的“合作行為”策略百分比變化率等于物種i的適存度與全部物種的平均適存度之差。要注意的是:(1)適存度fi(x)是向量X的函數,而xi只是X的一個分量;(2)平均適存度f也是向量X的函數;(3)使得適存度之差為零的X值稱為微分方程組的靜態(tài)均衡點,或稱為零點。 卡爾·西格蒙德(Karl Sigmund)在其著作《演化博弈與種群動力學》[2]中研究了這些均衡的穩(wěn)定性,在擴展到兩個變量x和y,得到 ?和 ?,聯立方程組后能得到穩(wěn)定的均衡解,由這一方程組所刻畫的動力系統的軌跡總是趨向于均衡點。他還證明了當有三個變量時,相應的相平面軌跡同樣存在均衡點。 四、三分之一定律和最后博弈者仿真 在西格蒙德著作的基礎上,諾瓦克于2006年出版了《演化動力學:探索生命的方程》[3]一書,這本書源自諾瓦克2004—2005年在哈佛大學的講義。諾瓦克在書中提出了“三分之一定律”,這一定律為:對于任一規(guī)模有限的種群,如果對個體而言策略A比策略B占優(yōu),當策略A的載體占到種群載體總數的三分之一或以上時,策略A的載體能夠侵入由策略B的載體組成的種群,并最終顛覆策略B。 假設有一個兩策略二階矩陣,策略分別為A和B,相應的支付矩陣為: 限定種群數量大小為N,其中采用A策略的個體數量為i,采取B策略的個體數量為N-i。對于每一個體而言,對應有其他個體N-1個。對于單個A個體,種群當中相應有i-1個其他個體采用A策略,對單個B個體,種群當中相應有N-i-1個其他個體采用B策略。假設種群當中個體之間的相互作用機制是隨機的,一個A個體同另外一個A個體之間相互作用的概率為(i-1)/(N-1),而一個A個體同B個體之間的相互作用概率為(N-i)/(N-1);相應的一個B個體同另外一個B個體之間的相互作用概率為(N-i-1)/(N-1),而一個B個體同A個體之間的相互作用概率為i/(N-1)。 A的期望支付為 B的期望支付為 指標i表示種群中含有i個A個體。 在Moran過程下: A的適合度是: B的適合度是: 其中參數w表示選擇強度,且w介于0和1之間。如果w=0,博弈對適合度沒有影響,策略A與策略B是重型變量;如果w=1,選擇作用強度很大,適合度完全由期望支付決定;在w趨于0的情況下,支付對適合度影響不大。 諾瓦克推導得到不等式為: a(N-2)+b(2N-1)>c(N+1)+d(2N-4) 對于只有兩個個體的種群,N=2,可得b>c 此結果意味著:在一個由單個A個體和單個B個體組成的種群中,前者獲得的支付是b,后者獲得的支付是c;如果b>c,自然選擇會更青睞A。 對于大種群,以上不等式可得a+2b>c+2d 也就是說在一個博弈下,如果a>c且b 五、囚徒困境的破解 博弈論里面所說的“策略”并不同于博弈參與者的“行為”,例如,在一個2╳2博弈中,每名博弈者對對方的每一可能行為都有最佳的對應行為,所以,一個策略往往是由一系列行為及最佳反應的組合而構成。但是在合作行為傳播的仿真研究里,行為主體并非完全理性,而是有限理性(或零理性)。由于行為主體只是在一個內隨機游走,它們的理性程度由每一步的步長所刻畫,根據西蒙的尋優(yōu)算法,因為步長很短,最后它們的尋優(yōu)結果往往只是局部最優(yōu)而不可能是全局最優(yōu)。當載體在仿真平面內的視野很近時,兩個隨機相遇的載體并不能想象雙方在兩步及多步之后的行為,這時策略就退化為行為。 設想一個種群規(guī)模有限的演化博弈模型,這個種群內部有大量策略B的載體,可以想象,任一變異導致策略A的載體的出現,都會導致策略A的載體可能被策略B的載體所包圍。我們假定策略A是合作,策略B是不合作,在囚徒困境的博弈中,A載體會被B載體出賣,從而極大地降低了策略A載體繁衍后代的數量及可能性。假定策略A的載體采取抱團集體行動,在這一小集體內部,A載體只會遇到A載體,并能夠得到合作所帶來的雙贏收益,于是策略A載體繁衍后代的速度將高于策略B載體。可以想象,在整個種群內部,如果策略A載體在抱團行動下總數達到種群的三分之一時,將會觸發(fā)諾瓦克等證明的三分之一定律。諾瓦克小組證明這是一個“臨界點”,一旦超過這一臨界點,策略A載體隨機遇到的另一載體更可能是載體A而不是策略B載體,這樣,合作雙贏下策略A種群的增長速度和數量更快,而且策略A載體遇到策略A載體的概率越來越高,并高于遇到策略B載體的概率。最終物競天擇的結果,是策略B載體將逐漸被策略A載體所取代。 六、競爭與合作的關系 研究競爭時,在經濟學視角下,任意兩種商品之間的關系是互替性而不是互補性。但在日常生活中,人使用的各種物品和他的生活是融為一體的,起主導作用的是互補性而不是互替性。比如人的左腳和右腳,以及與兩只腳相匹配的兩只鞋。秩序間的關系,以互補性為主導;秩序內的各類關系,以互替性為主導。合作的本質就是互補性,競爭的本質就是互補性。 2013年諾瓦克出版了《超級合作者》[4],他指出合作的機制有五種:直接互惠、間接互惠、空間博弈、群體選擇和親緣選擇。從生命的起源到細胞社會、螞蟻社會,都離不開合作的機制和功勞,人類作為超級合作者,從RNA到細胞、到語言,再到人類社會各種問題都離不開合作,諾瓦克的三分之一定律給我們指出了囚徒困境的破解之道,并說明了競爭與合作的作用機制是雙向的,遠比我們想象的要復雜。 參考文獻: [1]John Maynard Smith.Evolution and the Theory of Games[M].New York:Cambridge University Press,1982. [2]Josef Hofbauer,Karl Sigmund.Evolutionary Games and Population Dynamics[M].New York:Cambridge University Press,1998. [3]Martin A.Nowak.進化動力學:探索生命的方程[M].北京:高等教育出版社,2010. [4]馬丁·諾瓦克.超級合作者[M].杭州:浙江人民出版社,2013. [5]汪丁丁.行為經濟學講義——演化論的視角[M].上海:上海人民出版社,2011. 作者簡介:劉紅軍(1979—),男,漢族,河北大城人,單位為滇西科技師范學院,研究方向為西方經濟學。 (責任編輯:王寶林)