博弈環(huán)境下合作達成的策略選擇

2020-08-11 07:01:48傅曉巖

河北地質(zhì)大學(xué)學(xué)報 2020年3期

傅曉巖

中央財經(jīng)大學(xué) 政府管理學(xué)院，北京 100081

博弈論是現(xiàn)代數(shù)學(xué)、運籌學(xué)和經(jīng)濟學(xué)的交叉理論，業(yè)已形成了較為完整的理論系統(tǒng)。博弈論（Game Theory）屬于運籌學(xué)領(lǐng)域，是研究具有斗爭或競爭性質(zhì)現(xiàn)象的理論和方法。博弈論對博弈局中人的選擇與行為進行研究，探討局中人局勢和策略的優(yōu)化方法。博弈意味著競爭性的環(huán)境，具有沖突、競爭與不合作的性質(zhì)。但是，博弈環(huán)境與博弈各方合作的存在有一定的關(guān)聯(lián)。研究博弈環(huán)境下合作存在或達成的策略選擇將有助于在博弈環(huán)境中建構(gòu)合作，在競爭決策中尋求最大收益或最小損害。

1 博弈案例與理論

1.1 博弈論的學(xué)者

博弈理論是諸多數(shù)學(xué)家、經(jīng)濟學(xué)家以及計算機方面的專家共同智慧的結(jié)晶。數(shù)學(xué)家納什（John Nash）、經(jīng)濟學(xué)家摩根斯坦（Morgenstern）與伯特蘭（Bertrand）、計算機方面的專家馮·諾依曼（John von Neumann）都是博弈理論的研究者。 “1994 年納什（John Nash）、豪爾紹尼（John Harsanyi）、澤爾滕（Reinhard Selton）， 2005 年奧曼（Robert Aumann）、謝林（Thomas Schelling）榮獲諾貝爾經(jīng)濟學(xué)獎，以及以博弈論為工具研究信息經(jīng)濟學(xué)的米爾利斯（James Mirrlees）和威克瑞（William Vickrey），阿克洛夫（G.Akerlof）、斯賓塞（M.Spence）和斯蒂格里茨（J.Stiglitz），三位學(xué)家也在博弈論中做出了突出的貢獻，于1996 年、 2001 年被授予諾貝爾經(jīng)濟學(xué)獎”［1］。朱·弗登博格（Dre Fudenberg）和讓·梯若爾（Jean Tirole）共同撰寫的《博弈論》，更是博弈論理論界的集大成之作。博弈論是現(xiàn)代學(xué)科交叉的產(chǎn)物，但博弈環(huán)境和博弈現(xiàn)象自古就有，我國古代歷史上田忌賽馬和空城計就是典型的博弈案例。

1.2 田忌賽馬與空城計

“田忌賽馬” 的故事，出自漢代司馬遷的《史記》卷六十五：《孫子吳起列傳》。故事講述戰(zhàn)國時期，大將田忌與國君齊威王賽馬，第一次比賽時，田忌將賽馬按照上、中、下三等的順序比賽，三戰(zhàn)三敗輸?shù)袅吮荣悺?在第二次比賽時，經(jīng)過孫臏建議，田忌調(diào)整了戰(zhàn)術(shù)，用下等馬對齊威王的上等馬，用上等馬對齊威王的中等馬，用中等馬對齊威王的下等馬，最終三局兩勝，順利贏得了比賽。在賽馬中田忌采納孫臏建議調(diào)整策略，以自身優(yōu)勢對抗競爭對手之劣勢而在競賽中獲勝。田忌賽馬是在競爭環(huán)境中以策略對決取勝，堪稱博弈案例的經(jīng)典。

表1 田忌賽馬的局勢與支付Table 1 The situation and payment of Tian Ji horse racing

“空城計” 則是另外一個出自《三國演義》的經(jīng)典博弈事例。描述的是諸葛亮在馬謖失守街亭后，守衛(wèi)的西城士兵僅剩2 500 余人，而司馬懿統(tǒng)領(lǐng)精兵15萬，乘勝追擊直到諸葛亮退守的西城，諸葛亮情急之下，想出“妙計”，制造假象，憑欄而坐，打開城門，撫琴觀景，鎮(zhèn)定自若。司馬懿兵臨城下，見此狀，心生疑慮，暗自退兵。空城計是一個博弈對局，博弈雙方為諸葛亮和司馬懿，空城計策略對局是諸葛亮空城堅守，司馬懿引兵而回，留下了武侯彈琴退仲達的知名戰(zhàn)例。

表2 空城計中諸葛亮-司馬懿的博弈表Table 2 The game table of Zhuge Liang-Sima Yi in the empty city plan

1.3 現(xiàn)代博弈理論

“田忌賽馬” 和“空城計” 是眾多博弈案例中的早期典范，蘊含了博弈論的思想精髓，印證了博弈雙方對峙的競爭環(huán)境。現(xiàn)代博弈論起源于西方，博弈就是在競爭環(huán)境中做出決策的活動，故亦稱對策論。

現(xiàn)代博弈論意指的博弈現(xiàn)象和對局案例應(yīng)包括四類因素。一是任何博弈現(xiàn)象或?qū)侄急仨毎┺牡木种腥耍?局中人就是有權(quán)自主抉擇使用何種策略參與博弈比賽的參與者。齊威王和田忌是“田忌賽馬” 博弈中的局中人；司馬懿和諸葛亮是“空城計” 博弈中的局中人；大豬和小豬是 “智豬博弈（Pigs’ payoffs） ” 博弈中的局中人；小朋友是“石頭剪刀布”游戲博弈中的局中人。二是任何發(fā)生的博弈事件都一定具備博弈的策略和策略集。策略是可供局中人選擇的實際可行的完整的行動方案，從而策略的全部集合構(gòu)成了策略集。在剪刀石頭布游戲中，剪刀、石頭、布都是博弈策略，而剪刀、石頭、布三個策略共同構(gòu)成游戲博弈的策略集。策略集包含的策略可以是有限集，也可以是無限集。如果在一個博弈中局中人總共有有限個策略，則稱為“有限博弈”，反之稱為“無限博弈”。 “田忌賽馬、空城計、剪刀石頭布、智豬博弈（Pigs’ payoffs） ” 均為有限博弈。三是任何博弈現(xiàn)象必當發(fā)生局勢與支付函數(shù)。局中人從各自策略集中取一種策略組成的策略對局稱為局勢，每一策略對局的得失或結(jié)果稱為局勢，也是局中人的支付函數(shù)，亦稱贏得。四是現(xiàn)代博弈論的重要基礎(chǔ)和先決條件：博弈局中人信息掌握的對稱性、完整性。博弈局中人既知道自己和對方的博益策略與贏得，同時每個博弈局中人也必須知道其他局中人也掌握這些信息。

1.4 博弈類型與納什均衡

博弈論是諸多學(xué)科學(xué)者集體智慧的結(jié)晶，博弈論研究分支眾多，研究成果異常豐富。依據(jù)當前博弈理論研究成果，可按三個標準對博弈進行分類。 “按博弈局中人是否合作，博弈分為非合作博弈與合作博弈”［2］按局中人博弈結(jié)果總和是否為零，分為零和博弈、非零和博弈；按策略集中的策略項目的有限和無限，分為有限博弈與無限博弈。現(xiàn)實中的博弈，往往是非合作博弈，甚至為零和博弈，博弈往往會導(dǎo)致競爭、沖突，常引發(fā)困境與悲劇的發(fā)生。

博弈中的困境與悲劇比合作與共贏更容易發(fā)生，且困境與悲劇總是以納什均衡（Nash Equilibrium）局勢出現(xiàn)。 “納什均衡指的是這樣一種策略組合，在該策略組合中，由所有人的最優(yōu)策略組成。”［3］參與人單獨改變策略都不會得到任何好處。即如果在一個策略組合中，所有參與人都不改變策略，沒有人會改變自己的策略，則該策略組合就是一個納什均衡。然而，諸多的納什均衡并不意味著合作與雙贏，而恰恰意味著困境與悲劇。

2 博弈環(huán)境下的困境與悲劇

博弈意味著競爭，競爭往往意味著非合作，在非合作情況下往往衍生出諸多的困境與悲劇，著名的博弈案例還有諸如囚徒困境（Prisoner' s Dilemma）、公地悲?。═ragedy of the Commons）等。

2.1 囚徒困境

“囚徒困境” 是1950 年美國Rand 公司顧問艾伯特·塔克（Albert Tucker）提出的博弈論模型。囚徒困境案例講的是兩個共謀犯罪的嫌疑犯被警察抓住關(guān)進監(jiān)獄的不同房間進行審訊而不能互通消息。如果兩個人都不揭發(fā)對方，則由于缺乏足夠證據(jù)，每個人坐牢1 年；如果兩人中一個人抵賴而另一個人坦白，坦白者因坦白從寬揭發(fā)立功而即可獲釋（0 年），抵賴者因抗拒從嚴而加重責罰判刑10 年；如果兩人無法信任對方，傾向于互相揭發(fā)，而不是同守沉默，則因證據(jù)確鑿各判刑坐牢8 年。警方對兩個囚徒犯罪事實的認定，取決于兩個囚徒自行選擇的策略：是否供認。

如表3 囚徒困境的支付矩陣，在囚徒B 坦白的情況下，囚徒A 的最優(yōu)策略是坦白，只有這樣才能不被對方出賣，如果抵賴將會被判刑10 年，坦白比抵賴占優(yōu)；在囚徒B 抵賴的情況下，囚徒A 的最優(yōu)策略也是坦白，這樣自己就可以即可獲釋出獄了，如果抵賴將會被判刑8 年，坦白比抵賴占優(yōu)。總之，無論囚徒B 供認與否，囚徒A 的占優(yōu)策略是選擇“坦白”，同理，囚徒B 的占優(yōu)策略也是選擇“坦白”。無論對方是否選擇“坦白”，自己選擇“坦白” 的結(jié)果要優(yōu)于選擇“抵賴” 的結(jié)果，最好的結(jié)果是（坦白，坦白），最終形成“囚徒困境” 的中納什均衡。

表3 囚徒困境支付矩陣Table 3 Prisoner' s dilemma payment matrix

兩個理性人總會試圖將自己受到的懲罰降到最低，因而囚徒A、 B 總會選擇坦白而不是合作起來抵賴，這對于自己來說是最好的策略。但是由于囚徒A、 B 都理性的選擇了不合作的坦白，導(dǎo)致兩人都受到了8 年牢獄之災(zāi)，共計16 年，遠遠大于兩人合作抵賴和一方抵賴一方坦白，即表1 支付矩陣中的2R＞S＋T＞2P，個體的理性造成了集體的悲劇，陷入了困境。

2.2 公地悲劇

如同“囚徒困境”， “公地悲劇” 的發(fā)生，是個體的理性造成了集體的悲劇。公地悲劇理論，是英國加勒特·哈丁（Garrett Hardin）教授在《The Tragedy of the Commons》文中首次提出來的博弈理論模型，隨后即被制度經(jīng)濟學(xué)廣泛引用。加勒特·哈?。℅arrett Hardin）教授借用牧羊者使用可以自由放牧的公用地，闡釋“集體資源的使用會毀滅整個集體資源”的論點。

哈丁教授指出，自由放牧的牧羊者都是理性人，都希望自己能夠足夠放牧更多的牲畜。但是牧場還存在其他牧民，他們也希望放牧足夠多的牲畜。牧民知道自己不多增加牲畜，其他牧民也會增加牲畜，牧民幾經(jīng)思考的結(jié)論必然是自己要增加牲畜，于是牧民無視草地承載力而增加牲畜。其他牧民不會因為有牧民增加牲畜而減少自己的牲畜以保護草場，而是見到有利可圖紛紛增加自己畜牧數(shù)量。牧民不顧草地承載力紛紛增加畜牧量，必然導(dǎo)致草地惡化最終無法放牧，最終引發(fā)“公地悲劇”。

個體理性造成了集體困境，競爭環(huán)境（博弈）中的不合作再次導(dǎo)致了悲劇，以至于哈丁做出了“公共資源的自由使用會毀滅所有的公共資源”［4］的論斷。

“公地悲劇” 中牧民無節(jié)制的放牧原理，同樣可以用于現(xiàn)代海洋典型的捕撈問題，漁業(yè)資源如同草地，屬于公共資源，任何擁有漁具的漁民都可以進行捕撈，而不為其他漁民所獲，但是漁業(yè)資源是稀缺的，過度捕撈會導(dǎo)致漁業(yè)種類的資源量下降和海洋資源的整體衰退，從而對漁民后代的利益造成損害，生態(tài)鏈的環(huán)環(huán)相扣，持續(xù)下去造成對海洋資源不可逆轉(zhuǎn)的破壞，這就是現(xiàn)代的“資源枯竭型公地悲劇”［5］。

2.3 如何避免困境與悲劇

從囚徒困境和公地悲劇中可以看出，博弈環(huán)境下由于不合作往往會產(chǎn)生困境和悲劇，那么如何改變不合作而避免困境與悲劇的發(fā)生呢。

理性人從事任何經(jīng)濟活動時都是利己的，都會為自己的利益最大化尋求相應(yīng)的最優(yōu)策略。任何人都有人性的弱點，人不是天使，都往往首先關(guān)心自己的利益。在每個人都有自私動機情況下，怎樣才能在彼此競爭的博弈環(huán)境中構(gòu)造合作成為了一個難題。但合作的構(gòu)造是避免博弈中悲劇發(fā)生的關(guān)鍵環(huán)節(jié)，因此博弈環(huán)境下達成合作的策略成為了一個非常值得探討的問題。

3 博弈環(huán)境下達成合作的策略

博弈環(huán)境之中難道沒有合作的情況嗎？答案是否定的。我們可以從這些案例中探尋博弈環(huán)境中合作達成的原因，進而促進合作進化，避免悲劇和困境的產(chǎn)生。

3.1 博弈環(huán)境下的合作

談到博弈環(huán)境下，弱肉強食的生物界中的共生合作以及殘酷廝殺戰(zhàn)場的塹壕默契應(yīng)當值得關(guān)注。

3.1.1 生物界的共生

生物界歷來遵循弱肉強食的“叢林法則”，大自然中各種生物也是以物競天擇和適者生存為基礎(chǔ)的，相互的生存沖突造成了物種間的博弈，生物進化論也由此而來。與此同時，生物界也出現(xiàn)了“共生現(xiàn)象”，在這里共生往往被看成一種適應(yīng)現(xiàn)象。真菌和藻類共同生成了地衣互補養(yǎng)料；無花果的花朵是黃蜂的寄居地，而黃蜂傳播無花果的花粉以及小丑魚和?？幕ダ采?。生物界的共生現(xiàn)象對于博弈環(huán)境中尋求合作策略有著深遠性的啟示。生物共生關(guān)系的發(fā)生往往是生物之間彼此能夠互惠，換言之，生物共生是建立在回報基礎(chǔ)上的，而回報更是博弈環(huán)境中合作建立的基礎(chǔ)。

3.1.2 敵對塹壕的默契

對于生物界有基于互惠而產(chǎn)生共生的合作現(xiàn)象，在人類最殘酷的戰(zhàn)爭中也有合作的發(fā)生。戰(zhàn)爭的雙方是處在最激烈的博弈環(huán)境之中，存在著你死我活的沖突，這是合作最不可能發(fā)生的地方，但是這里仍然存在默契的合作。

在一戰(zhàn)期間，西部戰(zhàn)場形成了為領(lǐng)土而瘋狂廝殺的殘酷場面，但在這些殘酷戰(zhàn)役的空隙在法國和比利時長達五百里的戰(zhàn)線對峙中，敵對士兵出現(xiàn)了極大的克制與默契。戰(zhàn)爭雙方強烈對抗情況下還能出現(xiàn)合作情況，這種“自己活也讓別人活”［6］系統(tǒng)成因何在。對于戰(zhàn)爭任何一方，殺傷對方削弱敵人都是必要的，殺傷對方等于保護自己，但是殺傷對方總會招致敵軍的報復(fù)。雖然司令部強調(diào)進攻銳氣，要求進攻和射擊敵人，但是英軍射擊德軍，總會遭遇德軍的報復(fù)性炮擊，反之亦如此。塹壕戰(zhàn)中彼此長時間對峙，使得敵對雙方能夠頻繁接觸，告訴對方自己愿意保持默契讓彼此休息、吃飯以及傷亡救助和運送物資，也告訴對方自己能夠報復(fù)如果有必要的話。在塹壕戰(zhàn)中，克制不是因為軟弱，而背叛只能帶來自我傷害，顯然雙方克制比彼此懲罰好，于是在強烈敵對狀態(tài)下合作便形成了。可見，回報是合作的基礎(chǔ)，并且合作需要善良的對待和背叛的反擊，并且需要長期反復(fù)來加強。

3.2 博弈合作的策略達成

合作能夠在叢林法則中生存，合作能夠在塹壕廝殺中保持，博弈環(huán)境下合作策略達成成為現(xiàn)實。

3.2.1 重復(fù)囚徒困境的比賽

對于博弈環(huán)境下合作策略逐漸刻畫出來，其實阿克塞爾羅德在“重復(fù)囚徒困境” 的計算機比賽中讓合作的策略更加成熟。在眾多的計算機程序中， “一報還一報” 在兩次比賽中保持領(lǐng)先，但是“一報還一報” 在大多單次比賽中并不占優(yōu)勢。 “一報還一報”是一個善良的策略，非常簡單，首先選擇不背叛，選擇合作，再按照對方上一步的決定而做出相應(yīng)的選擇。 “一報還一報” 策略的可能性是顯而易見的，具有善良特征，因為一開始選擇合作而非背叛；具有報復(fù)特征，因為對方一旦背叛就會遭到報復(fù)；具有包容特征，因為對方停止背叛、選擇合作將會出現(xiàn)合作回歸；具有清晰特征，因為對方很快就能知道自己合作對方也會合作，自己背叛對方立刻背叛。合作策略在“一報還一報” 策略中形成了自己的清晰構(gòu)架。

3.2.2 合作存在與達成的策略

基于上面探討，博弈環(huán)境下合作達成的策略選擇已經(jīng)明確。

合作必須基于回報。親友之間的背叛也會出現(xiàn)，親緣和信任不是合作的必要條件，合作是利益最大化的博弈結(jié)果。例如我們會思考，還要不要邀請從來不回請我們的朋友來就餐。我們在博弈環(huán)境下，沖突傾向比較強烈，加大合作的回報將會是避免沖突的有效選擇。

合作應(yīng)當基于重復(fù)。生物的共生、塹壕的默契、囚徒困境的避免，都具有重復(fù)博弈性質(zhì)。重復(fù)是相對單次博弈而言，是區(qū)別于今后不會再遇見而所言的。單次博弈的囚徒困境，因為人性自利，一般會選擇背叛，這也是人之常情。自己家樓下的食品攤位，往往允許賒賬并且從來都是物美價廉而足斤足量，而火車站的商販總是缺斤少兩并且價格昂貴宰客行為頻發(fā)，原因就在于一個是重復(fù)性合作，一個是一次性買賣。

合作需要善良本性。 “一報還一報” 策略能夠破解“囚徒困境”，帶來合作。在重復(fù)囚徒困境的程序比賽中，善良的本性能夠把程序按照得分高低區(qū)分開。 “一報還一報” 策略因為不首先選擇背叛，所以有明顯的善良特征。善良的人有惻隱之心，不會無緣無故傷害別人，這樣就減少了博弈沖突的激化而增進了博弈之中合作的可行性。

合作要求可激怒性。 “一報還一報” 策略之所以能夠成功，還在于其對合作與背叛都給予對等的回報。對合作給予合作，對于背叛行為給予還擊，合作的可激怒性，防止了試探性背叛的“檢驗者” 和“鎮(zhèn)定者”。合作是建立在對等前提之下的，對于背叛者的容忍將會助長背叛者的囂張氣焰，對于背叛行為要堅決的抵制和打擊。古希臘故事中講述：牧羊人古格斯品行低劣，無意間得到了一枚可以隱身的戒指，當他知曉戒指可以隱身后，利用戒指引誘王后，謀殺了國王最終還竊取了王位。這印證了“一個人即使日常平中奉公守法、循規(guī)蹈矩，但行為一旦不受約束，就會做思想中想做的事情，而不是應(yīng)該做的事情”，因為隱身戒指使其為所欲為不會受到懲罰。懲罰的必要性可想而知，不僅可以打擊壞人的入侵還可以避免好人被縱容成壞人。由此可見，在由利己主義者組成的社會關(guān)系中，可激怒性是合作的持續(xù)保障。

合作不可或缺寬容。 “一報還一報” 策略對于背叛給予堅決的反擊，但對于曾經(jīng)背叛的程序一旦采取合作就會報之以合作，體現(xiàn)了寬容性。寬容性區(qū)別于某些一經(jīng)遭遇背叛便從不合作的程序，合作一經(jīng)破裂將再無彌合機會。博弈環(huán)境中的沖突難免發(fā)生，不能因為曾經(jīng)沖突過而堅決不合作，畢竟金無足赤，要原諒別人的過失。寬容能夠增強合作關(guān)系的可持續(xù)性。

合作策略應(yīng)當清晰化。合作策略的清晰性，即告知博弈環(huán)境中的局中人對合作與背叛都會給予相應(yīng)回報，更加重要。最佳的合作模式是對合作要給予回報，對背叛也要給予還擊，是合作基礎(chǔ)。合作策略的清晰性可以避免博弈局中人背叛的企圖和嘗試，把不合作扼殺在萌芽狀態(tài)。

舉例來看，如“共享單車” 作為新興的事物，以方便快捷低廉進入大眾視野，解決了諸多出行者“最后一公里” 的問題，但追求過快的用戶數(shù)量，不計成本的快速擴張，也帶來諸多問題。由此，應(yīng)建立共享單車平臺與政府監(jiān)管戰(zhàn)略選擇的博弈策略，政府出臺全面有效的行政法規(guī)進行規(guī)范管理與懲罰措施，對平臺加以合理的引導(dǎo)和規(guī)范，對共享單車適當把控，同時通過多媒體等方式加大輿論宣傳力度，建立公民誠信管理機制，從源頭提高社會公眾對公共社會資源的認知度，最終建立起共享經(jīng)濟政府下的共享經(jīng)濟生態(tài)平衡［7］。

綜上，合作策略具有回報性、重復(fù)性、良善性、可激怒性、寬容性以及清晰性，將改變博弈之中的納什均衡，從原來的（背叛，背叛）變?yōu)椋ê献鳎?合作）的納什均衡。讓博弈環(huán)境中的局中人從合作中獲利，讓任何局中人沒有積極性采取其他的策略，合作是其最佳選擇。

注釋：

① 田忌賽馬處于非對稱信息狀態(tài)，屬博弈案例但區(qū)別于現(xiàn)代博弈理論信息完整要求。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡