崔鵬
我一個同學(xué)最近遇到一個問題。他的小孩在幼兒園被同學(xué)搶走了奧特曼。本來那個小孩說玩一下就還給他,但是后來,他不還了。孩子回家問,“我該怎么辦,那是我最喜歡的奧特曼?!?/p>
這就是那種雖然小,但是很不好回答的問題。
我的同學(xué)回答這個問題時之所以小心謹(jǐn)慎,還因?yàn)檫@是他給小孩上的人生第一堂社會關(guān)系課。為了解讀它是值得下點(diǎn)功夫的。
解答:首先來簡化一下這個兩個小孩和一個奧特曼的故事。
假設(shè)我同學(xué)的小孩是A,另一個想要玩奧特曼的小孩是B,當(dāng)他們只有一個奧特曼,可能有四種情況出現(xiàn)。A和B談判,他們承諾輪流不受打擾地和奧特曼玩。如果他們都遵守承諾,這樣他們可以分別和奧特曼快樂地度過半小時時光,那么他們的快樂得分分別是3分。但如果其中一人不遵守承諾,那么不遵守承諾的人可以獨(dú)占奧特曼一個小時,他的快樂得分就是5允而另一個苦等對方放手的老實(shí)孩子得分是0。還有一種可能,兩個人都想獨(dú)占奧特曼,他們在一個小時的自由游戲時間里不斷爭搶,只是偶爾得到片刻和奧特曼獨(dú)處的時間,這樣他們兩人的快樂得分都是1分。
如果這種假設(shè)還算合理,那么我們就把兩個小孩和奧特曼的問題簡化成了一個著名的“囚徒困境”問題。
當(dāng)然了,即使奧特曼再也要不回來了,我同學(xué)的小孩也不會因此轉(zhuǎn)到另外一個幼兒園,他還要繼續(xù)和“騙走”奧特曼的小家伙相處。所以這種相處將成為一個重復(fù)的囚徒困境問題——所謂重復(fù)囚徒困境,就是你和對手隨著時間的推移,要一次次地約定和博弈。對于幼兒園小朋友來說,基本上要持續(xù)到上學(xué)年齡吧——他現(xiàn)在才3歲半。
我們要解答的問題就是,我同學(xué)的小孩在這個有30多人的班級的一次次囚徒困境的博弈中(和不同的小朋友的若干次博弈),如何才能使自己的快樂得分最高——這種方法也就是他和身邊人相處的最佳原則。
美國密歇根大學(xué)的羅伯特·阿克塞爾洛德教授做過解決類似問題的試驗(yàn)。他召集他所知道的對囚徒困境問題有研究的人展開兩次比賽。比賽方式是,參賽者提出自己應(yīng)付重復(fù)囚徒困境的辦法,并把它寫成程序。然后,讓這些程序單循環(huán)對抗,統(tǒng)計(jì)整個循環(huán)賽結(jié)束后各種解決辦法程序的得分。
這個比賽第一屆參賽選手是15個,第二屆參賽選手是63個。而兩次的冠軍都由同一種辦法獲得。那其實(shí)是一種非常簡單的辦法,我們通常把它稱作“一報還一報”。
所謂“一報還一報”的方式就是,在重復(fù)的囚徒困境博弈里,你重復(fù)對手在上一輪博弈中對你的態(tài)度。如果他上一輪采取獨(dú)占的態(tài)度,那么在下一次你也采取獨(dú)占的態(tài)度實(shí)施報復(fù);如果他上一輪采取合作的態(tài)度與你共享奧特曼,那么在下一次,你也采取共享的態(tài)度。當(dāng)然,“一報還一報”的辦法在第一次和對方接觸時是采取合作態(tài)度的,也就是先假設(shè)對方是講道理守承諾的。
善良、樂觀、懂得報復(fù)、學(xué)會寬容和原諒、待人邏輯簡單清晰、不嫉妒、不愛占別人的小便宜——這是博弈論對人生的總結(jié)。
仁者無敵在阿克塞爾洛德教授組織的比賽中,名列前茅的都是一些被稱為“善良”的辦法。什么是“善良”,就是不首先對博弈的對手采取獨(dú)占好處的行為。
不首先采取自私行為的方法之所以能夠名列前茅,是因?yàn)檫@些善良的辦法一旦相遇,都不首先自私和背叛,所以得分都會很高。假如博弈有30輪,兩個“善良”的程序相遇時,它們的得分都會是90分。
樂觀的人過得更好“一報還一報”的方法能取勝,另一個原因是,它是樂觀的,也就是它在和對手第一次接觸時假設(shè)對方是善意守承諾的。這其實(shí)很重要,因?yàn)楹芏嘟鉀Q重復(fù)囚徒困境的辦法雖然善良,但是都會對背叛和獨(dú)占行為展開報復(fù)。所以一個好的開始很可能是兩個善良的人和諧相處的全部。
迅速的報復(fù)性對背叛和對方自私的行為一定要有反射很快的報復(fù)行為——這好像和傳統(tǒng)的道德判斷相違背,不過從博弈的結(jié)果來看,有報復(fù)性地和人相處的方式更健康,在增加自己的快樂得分方面也更有效。
在阿克塞爾洛德教授組織的比賽中,也有人采取更加寬容的處事方法,比如,連續(xù)兩次或三次被背叛才報復(fù)。也正是因此,就會有一些聰明的小人利用這個機(jī)會來占便宜,他們從不連續(xù)背叛對手,只是在對方放松警惕時偶爾獨(dú)占奧特曼。用更寬容的辦法和這些小人相處就像冤大頭,損失慘重。
懂得寬容和原諒“一報還一報”只是報復(fù)對方一次,在之后和對方博弈中就會重新開始,接受對方的善意和合作。這種寬容性讓它比那些更嚴(yán)厲的報復(fù)者的快樂得分高很多。
在比賽中曾有一個被命名為“永遠(yuǎn)報復(fù)者”的程序,它的方案是善良樂觀的,但是如果遭遇到一次對方的背叛和自私行為,在之后的博弈中它都會用背叛和自私展開報復(fù)。這么做看似很解恨,但是總體上,這種方式的得分并不高。因?yàn)閮春莸膱髲?fù)會招至別人同樣兇狠的報復(fù)。它做得太過分了。
簡單清晰“一報還一報”的邏輯簡單明了,這也是它得分高的一個原因。
在參加比賽的專家中,有的人編寫了非常復(fù)雜的解決方案程序。他們試圖根據(jù)對手的決策猜測下一次對手所采取的策略。無疑,在這個問題上,他們想歪了。之所以這么說是因?yàn)椋愃朴谥貜?fù)囚徒困境的和人相處的問題不是零和博弈。如果雙方合作,從長遠(yuǎn)來看,大家都會贏得更多。
在和人相處的時候,想得過多,因而對別人行為的反饋看上去有點(diǎn)莫名其妙,這在人際交往中其實(shí)得分并不占優(yōu)勢。把自己裝扮得高深莫測,是種費(fèi)力不討好的愚蠢行為。
不要嫉妒,眼界放遠(yuǎn)一點(diǎn)最佳策略,“一報還一報”的方式執(zhí)行起來會有個有趣的特點(diǎn)。采取“一報還一報”策略的人,在任何單一的一次重復(fù)博弈中,得分都是小于或等于對手的。
假如對方采取善良的策略,那么兩個博弈的人應(yīng)該同獲滿分;假如對方采取自私或者悲觀的策略,“一報還一報”的得分就會比對方少3到5分——如果博弈的次數(shù)夠多,這點(diǎn)分差根本算不了什么。
等到將和所有人博弈的得分相加,“一報還一報”策略的得分卻是最高的。
這說明了個小問題,不要嫉妒你的博弈對手相比你暫時賺了點(diǎn)小便宜,要從整體看問題,畢竟“一報還一報”的得分是最高的。
不要試圖占別人的小便宜無論是在上述的比賽里,還是在現(xiàn)實(shí)生活中,總有人會想盡辦法占別人的便宜,并以此得意。這種占便宜的解決方案即使非常聰明,總體得分也不算高,在阿克塞爾洛德教授組織的比賽中,這種占便宜程序的最佳表現(xiàn)是在第二屆比賽中獲得第七。
為什么“聰明人”很難在長期的博弈中占到別人的便宜?
這是因?yàn)椴┺牡牧硪环酵瑯邮侨耍闩φ妓谋阋?,他也會想辦法這么做。這有點(diǎn)像你把球踢向一面墻,你用的力氣越大,它反彈回來的力量也越大。挖空心思在別人不注意的時候占便宜的思路是把別人物化了,忽視了對手在重復(fù)博弈中的報復(fù)和反饋。
總結(jié)一下,如果你在和別人相處時(或者也這么教導(dǎo)你的子女)采取“一報還一報”策略,那么你需要具備我上邊說的7種特質(zhì):善良、樂觀、懂得報復(fù)、學(xué)會寬容和原諒、待人邏輯簡單清晰、不嫉妒、不愛占別人的小便宜。
這有點(diǎn)像上帝說的,但其實(shí)是行為經(jīng)濟(jì)學(xué)的總結(jié)——很可能它們有相通之處。