傅曉巖
中央財經(jīng)大學(xué) 政府管理學(xué)院, 北京 100081
博弈論是現(xiàn)代數(shù)學(xué)、 運籌學(xué)和經(jīng)濟學(xué)的交叉理論, 業(yè)已形成了較為完整的理論系統(tǒng)。 博弈論(Game Theory) 屬于運籌學(xué)領(lǐng)域, 是研究具有斗爭或競爭性質(zhì)現(xiàn)象的理論和方法。 博弈論對博弈局中人的選擇與行為進行研究, 探討局中人局勢和策略的優(yōu)化方法。 博弈意味著競爭性的環(huán)境, 具有沖突、 競爭與不合作的性質(zhì)。 但是, 博弈環(huán)境與博弈各方合作的存在有一定的關(guān)聯(lián)。 研究博弈環(huán)境下合作存在或達成的策略選擇將有助于在博弈環(huán)境中建構(gòu)合作, 在競爭決策中尋求最大收益或最小損害。
博弈理論是諸多數(shù)學(xué)家、 經(jīng)濟學(xué)家以及計算機方面的專家共同智慧的結(jié)晶。 數(shù)學(xué)家納什 (John Nash)、 經(jīng)濟學(xué)家摩根斯坦(Morgenstern) 與伯特蘭(Bertrand)、 計算機方面的專家馮·諾依曼(John von Neumann) 都是博弈理論的研究者。 “1994 年納什(John Nash)、 豪 爾紹尼 (John Harsanyi)、 澤爾滕(Reinhard Selton), 2005 年奧曼 (Robert Aumann)、謝林(Thomas Schelling) 榮獲諾貝爾經(jīng)濟學(xué)獎, 以及以博弈論為工具研究信息經(jīng)濟學(xué)的米爾利斯(James Mirrlees) 和威克瑞 (William Vickrey), 阿克洛夫(G.Akerlof)、 斯賓塞(M.Spence) 和斯蒂格里茨(J.Stiglitz), 三位學(xué)家也在博弈論中做出了突出的貢獻, 于1996 年、 2001 年被授予諾貝爾經(jīng)濟學(xué)獎”[1]。朱·弗登博格(Dre Fudenberg) 和讓·梯若爾(Jean Tirole) 共同撰寫的《博弈論》, 更是博弈論理論界的集大成之作。 博弈論是現(xiàn)代學(xué)科交叉的產(chǎn)物, 但博弈環(huán)境和博弈現(xiàn)象自古就有, 我國古代歷史上田忌賽馬和空城計就是典型的博弈案例。
“田忌賽馬” 的故事, 出自漢代司馬遷的 《史記》 卷六十五: 《孫子吳起列傳》。 故事講述戰(zhàn)國時期, 大將田忌與國君齊威王賽馬, 第一次比賽時, 田忌將賽馬按照上、 中、 下三等的順序比賽, 三戰(zhàn)三敗輸?shù)袅吮荣悺?在第二次比賽時, 經(jīng)過孫臏建議, 田忌調(diào)整了戰(zhàn)術(shù), 用下等馬對齊威王的上等馬, 用上等馬對齊威王的中等馬, 用中等馬對齊威王的下等馬, 最終三局兩勝, 順利贏得了比賽。 在賽馬中田忌采納孫臏建議調(diào)整策略, 以自身優(yōu)勢對抗競爭對手之劣勢而在競賽中獲勝。 田忌賽馬是在競爭環(huán)境中以策略對決取勝, 堪稱博弈案例的經(jīng)典。
表1 田忌賽馬的局勢與支付Table 1 The situation and payment of Tian Ji horse racing
“空城計” 則是另外一個出自《三國演義》 的經(jīng)典博弈事例。 描述的是諸葛亮在馬謖失守街亭后, 守衛(wèi)的西城士兵僅剩2 500 余人, 而司馬懿統(tǒng)領(lǐng)精兵15萬, 乘勝追擊直到諸葛亮退守的西城, 諸葛亮情急之下, 想出“妙計”, 制造假象, 憑欄而坐, 打開城門,撫琴觀景, 鎮(zhèn)定自若。 司馬懿兵臨城下, 見此狀, 心生疑慮, 暗自退兵。 空城計是一個博弈對局, 博弈雙方為諸葛亮和司馬懿, 空城計策略對局是諸葛亮空城堅守, 司馬懿引兵而回, 留下了武侯彈琴退仲達的知名戰(zhàn)例。
表2 空城計中諸葛亮-司馬懿的博弈表Table 2 The game table of Zhuge Liang-Sima Yi in the empty city plan
“田忌賽馬” 和“空城計” 是眾多博弈案例中的早期典范, 蘊含了博弈論的思想精髓, 印證了博弈雙方對峙的競爭環(huán)境。 現(xiàn)代博弈論起源于西方, 博弈就是在競爭環(huán)境中做出決策的活動, 故亦稱對策論。
現(xiàn)代博弈論意指的博弈現(xiàn)象和對局案例應(yīng)包括四類因素。 一是任何博弈現(xiàn)象或?qū)侄急仨毎┺牡木种腥耍?局中人就是有權(quán)自主抉擇使用何種策略參與博弈比賽的參與者。 齊威王和田忌是“田忌賽馬” 博弈中的局中人; 司馬懿和諸葛亮是“空城計” 博弈中的局中人; 大豬和小豬是 “智豬博弈(Pigs’ payoffs) ” 博弈中的局中人; 小朋友是“石頭剪刀布”游戲博弈中的局中人。 二是任何發(fā)生的博弈事件都一定具備博弈的策略和策略集。 策略是可供局中人選擇的實際可行的完整的行動方案, 從而策略的全部集合構(gòu)成了策略集。 在剪刀石頭布游戲中, 剪刀、 石頭、布都是博弈策略, 而剪刀、 石頭、 布三個策略共同構(gòu)成游戲博弈的策略集。 策略集包含的策略可以是有限集, 也可以是無限集。 如果在一個博弈中局中人總共有有限個策略, 則稱為“有限博弈”, 反之稱為“無限博弈”。 “田忌賽馬、 空城計、 剪刀石頭布、 智豬博弈(Pigs’ payoffs) ” 均為有限博弈。 三是任何博弈現(xiàn)象必當發(fā)生局勢與支付函數(shù)。 局中人從各自策略集中取一種策略組成的策略對局稱為局勢, 每一策略對局的得失或結(jié)果稱為局勢, 也是局中人的支付函數(shù),亦稱贏得。 四是現(xiàn)代博弈論的重要基礎(chǔ)和先決條件:博弈局中人信息掌握的對稱性、 完整性。 博弈局中人既知道自己和對方的博益策略與贏得, 同時每個博弈局中人也必須知道其他局中人也掌握這些信息。
博弈論是諸多學(xué)科學(xué)者集體智慧的結(jié)晶, 博弈論研究分支眾多, 研究成果異常豐富。 依據(jù)當前博弈理論研究成果, 可按三個標準對博弈進行分類。 “按博弈局中人是否合作, 博弈分為非合作博弈與合作博弈”[2]按局中人博弈結(jié)果總和是否為零, 分為零和博弈、 非零和博弈; 按策略集中的策略項目的有限和無限, 分為有限博弈與無限博弈。 現(xiàn)實中的博弈, 往往是非合作博弈, 甚至為零和博弈, 博弈往往會導(dǎo)致競爭、 沖突, 常引發(fā)困境與悲劇的發(fā)生。
博弈中的困境與悲劇比合作與共贏更容易發(fā)生,且困境與悲劇總是以納什均衡(Nash Equilibrium) 局勢出現(xiàn)。 “納什均衡指的是這樣一種策略組合, 在該策略組合中, 由所有人的最優(yōu)策略組成。”[3]參與人單獨改變策略都不會得到任何好處。 即如果在一個策略組合中, 所有參與人都不改變策略, 沒有人會改變自己的策略, 則該策略組合就是一個納什均衡。 然而,諸多的納什均衡并不意味著合作與雙贏, 而恰恰意味著困境與悲劇。
博弈意味著競爭, 競爭往往意味著非合作, 在非合作情況下往往衍生出諸多的困境與悲劇, 著名的博弈案例還有諸如囚徒困境(Prisoner' s Dilemma)、 公地悲?。═ragedy of the Commons) 等。
“囚徒困境” 是1950 年美國Rand 公司顧問艾伯特·塔克(Albert Tucker) 提出的博弈論模型。 囚徒困境案例講的是兩個共謀犯罪的嫌疑犯被警察抓住關(guān)進監(jiān)獄的不同房間進行審訊而不能互通消息。 如果兩個人都不揭發(fā)對方, 則由于缺乏足夠證據(jù), 每個人坐牢1 年; 如果兩人中一個人抵賴而另一個人坦白, 坦白者因坦白從寬揭發(fā)立功而即可獲釋(0 年), 抵賴者因抗拒從嚴而加重責罰判刑10 年; 如果兩人無法信任對方, 傾向于互相揭發(fā), 而不是同守沉默, 則因證據(jù)確鑿各判刑坐牢8 年。 警方對兩個囚徒犯罪事實的認定, 取決于兩個囚徒自行選擇的策略: 是否供認。
如表3 囚徒困境的支付矩陣, 在囚徒B 坦白的情況下, 囚徒A 的最優(yōu)策略是坦白, 只有這樣才能不被對方出賣, 如果抵賴將會被判刑10 年, 坦白比抵賴占優(yōu); 在囚徒B 抵賴的情況下, 囚徒A 的最優(yōu)策略也是坦白, 這樣自己就可以即可獲釋出獄了, 如果抵賴將會被判刑8 年, 坦白比抵賴占優(yōu)。 總之, 無論囚徒B 供認與否, 囚徒A 的占優(yōu)策略是選擇“坦白”, 同理, 囚徒B 的占優(yōu)策略也是選擇“坦白”。 無論對方是否選擇“坦白”, 自己選擇“坦白” 的結(jié)果要優(yōu)于選擇“抵賴” 的結(jié)果, 最好的結(jié)果是 (坦白, 坦白), 最終形成“囚徒困境” 的中納什均衡。
表3 囚徒困境支付矩陣Table 3 Prisoner' s dilemma payment matrix
兩個理性人總會試圖將自己受到的懲罰降到最低, 因而囚徒A、 B 總會選擇坦白而不是合作起來抵賴, 這對于自己來說是最好的策略。 但是由于囚徒A、 B 都理性的選擇了不合作的坦白, 導(dǎo)致兩人都受到了8 年牢獄之災(zāi), 共計16 年, 遠遠大于兩人合作抵賴和一方抵賴一方坦白, 即表1 支付矩陣中的2R>S+T>2P, 個體的理性造成了集體的悲劇, 陷入了困境。
如同“囚徒困境”, “公地悲劇” 的發(fā)生, 是個體的理性造成了集體的悲劇。 公地悲劇理論, 是英國加勒特·哈丁(Garrett Hardin) 教授在《The Tragedy of the Commons》 文中首次提出來的博弈理論模型,隨后即被制度經(jīng)濟學(xué)廣泛引用。 加勒特·哈?。℅arrett Hardin) 教授借用牧羊者使用可以自由放牧的公用地, 闡釋“集體資源的使用會毀滅整個集體資源”的論點。
哈丁教授指出, 自由放牧的牧羊者都是理性人,都希望自己能夠足夠放牧更多的牲畜。 但是牧場還存在其他牧民, 他們也希望放牧足夠多的牲畜。 牧民知道自己不多增加牲畜, 其他牧民也會增加牲畜, 牧民幾經(jīng)思考的結(jié)論必然是自己要增加牲畜, 于是牧民無視草地承載力而增加牲畜。 其他牧民不會因為有牧民增加牲畜而減少自己的牲畜以保護草場, 而是見到有利可圖紛紛增加自己畜牧數(shù)量。 牧民不顧草地承載力紛紛增加畜牧量, 必然導(dǎo)致草地惡化最終無法放牧,最終引發(fā)“公地悲劇”。
個體理性造成了集體困境, 競爭環(huán)境(博弈) 中的不合作再次導(dǎo)致了悲劇, 以至于哈丁做出了“公共資源的自由使用會毀滅所有的公共資源”[4]的論斷。
“公地悲劇” 中牧民無節(jié)制的放牧原理, 同樣可以用于現(xiàn)代海洋典型的捕撈問題, 漁業(yè)資源如同草地, 屬于公共資源, 任何擁有漁具的漁民都可以進行捕撈, 而不為其他漁民所獲, 但是漁業(yè)資源是稀缺的, 過度捕撈會導(dǎo)致漁業(yè)種類的資源量下降和海洋資源的整體衰退, 從而對漁民后代的利益造成損害, 生態(tài)鏈的環(huán)環(huán)相扣, 持續(xù)下去造成對海洋資源不可逆轉(zhuǎn)的破壞, 這就是現(xiàn)代的“資源枯竭型公地悲劇”[5]。
從囚徒困境和公地悲劇中可以看出, 博弈環(huán)境下由于不合作往往會產(chǎn)生困境和悲劇, 那么如何改變不合作而避免困境與悲劇的發(fā)生呢。
理性人從事任何經(jīng)濟活動時都是利己的, 都會為自己的利益最大化尋求相應(yīng)的最優(yōu)策略。 任何人都有人性的弱點, 人不是天使, 都往往首先關(guān)心自己的利益。 在每個人都有自私動機情況下, 怎樣才能在彼此競爭的博弈環(huán)境中構(gòu)造合作成為了一個難題。 但合作的構(gòu)造是避免博弈中悲劇發(fā)生的關(guān)鍵環(huán)節(jié), 因此博弈環(huán)境下達成合作的策略成為了一個非常值得探討的問題。
博弈環(huán)境之中難道沒有合作的情況嗎? 答案是否定的。 我們可以從這些案例中探尋博弈環(huán)境中合作達成的原因, 進而促進合作進化, 避免悲劇和困境的產(chǎn)生。
談到博弈環(huán)境下, 弱肉強食的生物界中的共生合作以及殘酷廝殺戰(zhàn)場的塹壕默契應(yīng)當值得關(guān)注。
3.1.1 生物界的共生
生物界歷來遵循弱肉強食的“叢林法則”, 大自然中各種生物也是以物競天擇和適者生存為基礎(chǔ)的, 相互的生存沖突造成了物種間的博弈, 生物進化論也由此而來。 與此同時, 生物界也出現(xiàn)了“共生現(xiàn)象”, 在這里共生往往被看成一種適應(yīng)現(xiàn)象。 真菌和藻類共同生成了地衣互補養(yǎng)料; 無花果的花朵是黃蜂的寄居地,而黃蜂傳播無花果的花粉以及小丑魚和??幕ダ采?。 生物界的共生現(xiàn)象對于博弈環(huán)境中尋求合作策略有著深遠性的啟示。 生物共生關(guān)系的發(fā)生往往是生物之間彼此能夠互惠, 換言之, 生物共生是建立在回報基礎(chǔ)上的, 而回報更是博弈環(huán)境中合作建立的基礎(chǔ)。
3.1.2 敵對塹壕的默契
對于生物界有基于互惠而產(chǎn)生共生的合作現(xiàn)象,在人類最殘酷的戰(zhàn)爭中也有合作的發(fā)生。 戰(zhàn)爭的雙方是處在最激烈的博弈環(huán)境之中, 存在著你死我活的沖突, 這是合作最不可能發(fā)生的地方, 但是這里仍然存在默契的合作。
在一戰(zhàn)期間, 西部戰(zhàn)場形成了為領(lǐng)土而瘋狂廝殺的殘酷場面, 但在這些殘酷戰(zhàn)役的空隙在法國和比利時長達五百里的戰(zhàn)線對峙中, 敵對士兵出現(xiàn)了極大的克制與默契。 戰(zhàn)爭雙方強烈對抗情況下還能出現(xiàn)合作情況, 這種“自己活也讓別人活”[6]系統(tǒng)成因何在。 對于戰(zhàn)爭任何一方, 殺傷對方削弱敵人都是必要的, 殺傷對方等于保護自己, 但是殺傷對方總會招致敵軍的報復(fù)。 雖然司令部強調(diào)進攻銳氣,要求進攻和射擊敵人, 但是英軍射擊德軍, 總會遭遇德軍的報復(fù)性炮擊, 反之亦如此。 塹壕戰(zhàn)中彼此長時間對峙, 使得敵對雙方能夠頻繁接觸, 告訴對方自己愿意保持默契讓彼此休息、 吃飯以及傷亡救助和運送物資, 也告訴對方自己能夠報復(fù)如果有必要的話。 在塹壕戰(zhàn)中, 克制不是因為軟弱, 而背叛只能帶來自我傷害, 顯然雙方克制比彼此懲罰好,于是在強烈敵對狀態(tài)下合作便形成了。 可見, 回報是合作的基礎(chǔ), 并且合作需要善良的對待和背叛的反擊, 并且需要長期反復(fù)來加強。
合作能夠在叢林法則中生存, 合作能夠在塹壕廝殺中保持, 博弈環(huán)境下合作策略達成成為現(xiàn)實。
3.2.1 重復(fù)囚徒困境的比賽
對于博弈環(huán)境下合作策略逐漸刻畫出來, 其實阿克塞爾羅德在“重復(fù)囚徒困境” 的計算機比賽中讓合作的策略更加成熟。 在眾多的計算機程序中, “一報還一報” 在兩次比賽中保持領(lǐng)先, 但是“一報還一報” 在大多單次比賽中并不占優(yōu)勢。 “一報還一報”是一個善良的策略, 非常簡單, 首先選擇不背叛, 選擇合作, 再按照對方上一步的決定而做出相應(yīng)的選擇。 “一報還一報” 策略的可能性是顯而易見的, 具有善良特征, 因為一開始選擇合作而非背叛; 具有報復(fù)特征, 因為對方一旦背叛就會遭到報復(fù); 具有包容特征, 因為對方停止背叛、 選擇合作將會出現(xiàn)合作回歸; 具有清晰特征, 因為對方很快就能知道自己合作對方也會合作, 自己背叛對方立刻背叛。 合作策略在“一報還一報” 策略中形成了自己的清晰構(gòu)架。
3.2.2 合作存在與達成的策略
基于上面探討, 博弈環(huán)境下合作達成的策略選擇已經(jīng)明確。
合作必須基于回報。 親友之間的背叛也會出現(xiàn), 親緣和信任不是合作的必要條件, 合作是利益最大化的博弈結(jié)果。 例如我們會思考, 還要不要邀請從來不回請我們的朋友來就餐。 我們在博弈環(huán)境下, 沖突傾向比較強烈, 加大合作的回報將會是避免沖突的有效選擇。
合作應(yīng)當基于重復(fù)。 生物的共生、 塹壕的默契、囚徒困境的避免, 都具有重復(fù)博弈性質(zhì)。 重復(fù)是相對單次博弈而言, 是區(qū)別于今后不會再遇見而所言的。單次博弈的囚徒困境, 因為人性自利, 一般會選擇背叛, 這也是人之常情。 自己家樓下的食品攤位, 往往允許賒賬并且從來都是物美價廉而足斤足量, 而火車站的商販總是缺斤少兩并且價格昂貴宰客行為頻發(fā),原因就在于一個是重復(fù)性合作, 一個是一次性買賣。
合作需要善良本性。 “一報還一報” 策略能夠破解“囚徒困境”, 帶來合作。 在重復(fù)囚徒困境的程序比賽中, 善良的本性能夠把程序按照得分高低區(qū)分開。 “一報還一報” 策略因為不首先選擇背叛, 所以有明顯的善良特征。 善良的人有惻隱之心, 不會無緣無故傷害別人, 這樣就減少了博弈沖突的激化而增進了博弈之中合作的可行性。
合作要求可激怒性。 “一報還一報” 策略之所以能夠成功, 還在于其對合作與背叛都給予對等的回報。 對合作給予合作, 對于背叛行為給予還擊, 合作的可激怒性, 防止了試探性背叛的“檢驗者” 和“鎮(zhèn)定者”。 合作是建立在對等前提之下的, 對于背叛者的容忍將會助長背叛者的囂張氣焰, 對于背叛行為要堅決的抵制和打擊。 古希臘故事中講述: 牧羊人古格斯品行低劣, 無意間得到了一枚可以隱身的戒指, 當他知曉戒指可以隱身后, 利用戒指引誘王后, 謀殺了國王最終還竊取了王位。 這印證了“一個人即使日常平中奉公守法、 循規(guī)蹈矩, 但行為一旦不受約束, 就會做思想中想做的事情, 而不是應(yīng)該做的事情”, 因為隱身戒指使其為所欲為不會受到懲罰。 懲罰的必要性可想而知, 不僅可以打擊壞人的入侵還可以避免好人被縱容成壞人。 由此可見, 在由利己主義者組成的社會關(guān)系中, 可激怒性是合作的持續(xù)保障。
合作不可或缺寬容。 “一報還一報” 策略對于背叛給予堅決的反擊, 但對于曾經(jīng)背叛的程序一旦采取合作就會報之以合作, 體現(xiàn)了寬容性。 寬容性區(qū)別于某些一經(jīng)遭遇背叛便從不合作的程序, 合作一經(jīng)破裂將再無彌合機會。 博弈環(huán)境中的沖突難免發(fā)生, 不能因為曾經(jīng)沖突過而堅決不合作, 畢竟金無足赤, 要原諒別人的過失。 寬容能夠增強合作關(guān)系的可持續(xù)性。
合作策略應(yīng)當清晰化。 合作策略的清晰性, 即告知博弈環(huán)境中的局中人對合作與背叛都會給予相應(yīng)回報, 更加重要。 最佳的合作模式是對合作要給予回報, 對背叛也要給予還擊, 是合作基礎(chǔ)。 合作策略的清晰性可以避免博弈局中人背叛的企圖和嘗試, 把不合作扼殺在萌芽狀態(tài)。
舉例來看, 如“共享單車” 作為新興的事物, 以方便快捷低廉進入大眾視野, 解決了諸多出行者“最后一公里” 的問題, 但追求過快的用戶數(shù)量, 不計成本的快速擴張, 也帶來諸多問題。 由此, 應(yīng)建立共享單車平臺與政府監(jiān)管戰(zhàn)略選擇的博弈策略, 政府出臺全面有效的行政法規(guī)進行規(guī)范管理與懲罰措施, 對平臺加以合理的引導(dǎo)和規(guī)范, 對共享單車適當把控, 同時通過多媒體等方式加大輿論宣傳力度, 建立公民誠信管理機制, 從源頭提高社會公眾對公共社會資源的認知度, 最終建立起共享經(jīng)濟政府下的共享經(jīng)濟生態(tài)平衡[7]。
綜上, 合作策略具有回報性、 重復(fù)性、 良善性、 可激怒性、 寬容性以及清晰性, 將改變博弈之中的納什均衡, 從原來的(背叛, 背叛) 變?yōu)椋ê献鳎?合作) 的納什均衡。 讓博弈環(huán)境中的局中人從合作中獲利, 讓任何局中人沒有積極性采取其他的策略, 合作是其最佳選擇。
注釋:
① 田忌賽馬處于非對稱信息狀態(tài),屬博弈案例但區(qū)別于現(xiàn)代博弈理論 信息完整要求。