博弈論告訴你，人生本該如此

2020-09-10 01:19:21崔鵬

第一財經(jīng) 2020年9期

關(guān)鍵詞：克塞爾洛德囚徒

崔鵬

我一個同學(xué)最近遇到一個問題。他的小孩在幼兒園被同學(xué)搶走了奧特曼。本來那個小孩說玩一下就還給他，但是后來，他不還了。孩子回家問，“我該怎么辦，那是我最喜歡的奧特曼?！?/p>

這就是那種雖然小，但是很不好回答的問題。

我的同學(xué)回答這個問題時之所以小心謹(jǐn)慎，還因?yàn)檫@是他給小孩上的人生第一堂社會關(guān)系課。為了解讀它是值得下點(diǎn)功夫的。

解答：首先來簡化一下這個兩個小孩和一個奧特曼的故事。

假設(shè)我同學(xué)的小孩是A，另一個想要玩奧特曼的小孩是B，當(dāng)他們只有一個奧特曼，可能有四種情況出現(xiàn)。A和B談判，他們承諾輪流不受打擾地和奧特曼玩。如果他們都遵守承諾，這樣他們可以分別和奧特曼快樂地度過半小時時光，那么他們的快樂得分分別是3分。但如果其中一人不遵守承諾，那么不遵守承諾的人可以獨(dú)占奧特曼一個小時，他的快樂得分就是5允而另一個苦等對方放手的老實(shí)孩子得分是0。還有一種可能，兩個人都想獨(dú)占奧特曼，他們在一個小時的自由游戲時間里不斷爭搶，只是偶爾得到片刻和奧特曼獨(dú)處的時間，這樣他們兩人的快樂得分都是1分。

如果這種假設(shè)還算合理，那么我們就把兩個小孩和奧特曼的問題簡化成了一個著名的“囚徒困境”問題。

當(dāng)然了，即使奧特曼再也要不回來了，我同學(xué)的小孩也不會因此轉(zhuǎn)到另外一個幼兒園，他還要繼續(xù)和“騙走”奧特曼的小家伙相處。所以這種相處將成為一個重復(fù)的囚徒困境問題——所謂重復(fù)囚徒困境，就是你和對手隨著時間的推移，要一次次地約定和博弈。對于幼兒園小朋友來說，基本上要持續(xù)到上學(xué)年齡吧——他現(xiàn)在才3歲半。

我們要解答的問題就是，我同學(xué)的小孩在這個有30多人的班級的一次次囚徒困境的博弈中（和不同的小朋友的若干次博弈），如何才能使自己的快樂得分最高——這種方法也就是他和身邊人相處的最佳原則。

美國密歇根大學(xué)的羅伯特·阿克塞爾洛德教授做過解決類似問題的試驗(yàn)。他召集他所知道的對囚徒困境問題有研究的人展開兩次比賽。比賽方式是，參賽者提出自己應(yīng)付重復(fù)囚徒困境的辦法，并把它寫成程序。然后，讓這些程序單循環(huán)對抗，統(tǒng)計(jì)整個循環(huán)賽結(jié)束后各種解決辦法程序的得分。

這個比賽第一屆參賽選手是15個，第二屆參賽選手是63個。而兩次的冠軍都由同一種辦法獲得。那其實(shí)是一種非常簡單的辦法，我們通常把它稱作“一報還一報”。

所謂“一報還一報”的方式就是，在重復(fù)的囚徒困境博弈里，你重復(fù)對手在上一輪博弈中對你的態(tài)度。如果他上一輪采取獨(dú)占的態(tài)度，那么在下一次你也采取獨(dú)占的態(tài)度實(shí)施報復(fù);如果他上一輪采取合作的態(tài)度與你共享奧特曼，那么在下一次，你也采取共享的態(tài)度。當(dāng)然，“一報還一報”的辦法在第一次和對方接觸時是采取合作態(tài)度的，也就是先假設(shè)對方是講道理守承諾的。

善良、樂觀、懂得報復(fù)、學(xué)會寬容和原諒、待人邏輯簡單清晰、不嫉妒、不愛占別人的小便宜——這是博弈論對人生的總結(jié)。

仁者無敵在阿克塞爾洛德教授組織的比賽中，名列前茅的都是一些被稱為“善良”的辦法。什么是“善良”，就是不首先對博弈的對手采取獨(dú)占好處的行為。

不首先采取自私行為的方法之所以能夠名列前茅，是因?yàn)檫@些善良的辦法一旦相遇，都不首先自私和背叛，所以得分都會很高。假如博弈有30輪，兩個“善良”的程序相遇時，它們的得分都會是90分。

樂觀的人過得更好“一報還一報”的方法能取勝，另一個原因是，它是樂觀的，也就是它在和對手第一次接觸時假設(shè)對方是善意守承諾的。這其實(shí)很重要，因?yàn)楹芏嘟鉀Q重復(fù)囚徒困境的辦法雖然善良，但是都會對背叛和獨(dú)占行為展開報復(fù)。所以一個好的開始很可能是兩個善良的人和諧相處的全部。

迅速的報復(fù)性對背叛和對方自私的行為一定要有反射很快的報復(fù)行為——這好像和傳統(tǒng)的道德判斷相違背，不過從博弈的結(jié)果來看，有報復(fù)性地和人相處的方式更健康，在增加自己的快樂得分方面也更有效。

在阿克塞爾洛德教授組織的比賽中，也有人采取更加寬容的處事方法，比如，連續(xù)兩次或三次被背叛才報復(fù)。也正是因此，就會有一些聰明的小人利用這個機(jī)會來占便宜，他們從不連續(xù)背叛對手，只是在對方放松警惕時偶爾獨(dú)占奧特曼。用更寬容的辦法和這些小人相處就像冤大頭，損失慘重。

懂得寬容和原諒“一報還一報”只是報復(fù)對方一次，在之后和對方博弈中就會重新開始，接受對方的善意和合作。這種寬容性讓它比那些更嚴(yán)厲的報復(fù)者的快樂得分高很多。

在比賽中曾有一個被命名為“永遠(yuǎn)報復(fù)者”的程序，它的方案是善良樂觀的，但是如果遭遇到一次對方的背叛和自私行為，在之后的博弈中它都會用背叛和自私展開報復(fù)。這么做看似很解恨，但是總體上，這種方式的得分并不高。因?yàn)閮春莸膱髲?fù)會招至別人同樣兇狠的報復(fù)。它做得太過分了。

簡單清晰“一報還一報”的邏輯簡單明了，這也是它得分高的一個原因。

在參加比賽的專家中，有的人編寫了非常復(fù)雜的解決方案程序。他們試圖根據(jù)對手的決策猜測下一次對手所采取的策略。無疑，在這個問題上，他們想歪了。之所以這么說是因?yàn)椋愃朴谥貜?fù)囚徒困境的和人相處的問題不是零和博弈。如果雙方合作，從長遠(yuǎn)來看，大家都會贏得更多。

在和人相處的時候，想得過多，因而對別人行為的反饋看上去有點(diǎn)莫名其妙，這在人際交往中其實(shí)得分并不占優(yōu)勢。把自己裝扮得高深莫測，是種費(fèi)力不討好的愚蠢行為。

不要嫉妒，眼界放遠(yuǎn)一點(diǎn)最佳策略，“一報還一報”的方式執(zhí)行起來會有個有趣的特點(diǎn)。采取“一報還一報”策略的人，在任何單一的一次重復(fù)博弈中，得分都是小于或等于對手的。

假如對方采取善良的策略，那么兩個博弈的人應(yīng)該同獲滿分;假如對方采取自私或者悲觀的策略，“一報還一報”的得分就會比對方少3到5分——如果博弈的次數(shù)夠多，這點(diǎn)分差根本算不了什么。

等到將和所有人博弈的得分相加，“一報還一報”策略的得分卻是最高的。

這說明了個小問題，不要嫉妒你的博弈對手相比你暫時賺了點(diǎn)小便宜，要從整體看問題，畢竟“一報還一報”的得分是最高的。

不要試圖占別人的小便宜無論是在上述的比賽里，還是在現(xiàn)實(shí)生活中，總有人會想盡辦法占別人的便宜，并以此得意。這種占便宜的解決方案即使非常聰明，總體得分也不算高，在阿克塞爾洛德教授組織的比賽中，這種占便宜程序的最佳表現(xiàn)是在第二屆比賽中獲得第七。

為什么“聰明人”很難在長期的博弈中占到別人的便宜？

這是因?yàn)椴┺牡牧硪环酵瑯邮侨耍闩φ妓谋阋?，他也會想辦法這么做。這有點(diǎn)像你把球踢向一面墻，你用的力氣越大，它反彈回來的力量也越大。挖空心思在別人不注意的時候占便宜的思路是把別人物化了，忽視了對手在重復(fù)博弈中的報復(fù)和反饋。

總結(jié)一下，如果你在和別人相處時（或者也這么教導(dǎo)你的子女）采取“一報還一報”策略，那么你需要具備我上邊說的7種特質(zhì)：善良、樂觀、懂得報復(fù)、學(xué)會寬容和原諒、待人邏輯簡單清晰、不嫉妒、不愛占別人的小便宜。

這有點(diǎn)像上帝說的，但其實(shí)是行為經(jīng)濟(jì)學(xué)的總結(jié)——很可能它們有相通之處。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

博弈論告訴你，人生本該如此