張敏 張倩男 邵光祖 孟慧慧 王雪鋒
【摘要】本文根據(jù)地圖1分析玩家走最優(yōu)路徑和其他路徑兩種情況,列出贏得矩陣,根據(jù)對(duì)手的策略來(lái)選擇自己的策略.筆者發(fā)現(xiàn)無(wú)論對(duì)手選擇什么樣的策略,玩家都會(huì)選擇最優(yōu)路徑,因此得到兩人博弈的支配性策略組合(納什均衡):需要在起點(diǎn)購(gòu)買72箱水、84箱食物.本文根據(jù)地圖2確定在悲觀狀態(tài)下的天氣情況是除沙暴天氣以外其余全是高溫.三個(gè)玩家互相避開(kāi)在同一時(shí)間內(nèi)挖礦、購(gòu)買物資和行走相同路徑,最終均分三人總的剩余資金.計(jì)算得出:一人在挖礦,兩人直達(dá)終點(diǎn)的情況下,總剩余資金是28175元;在3人輪流挖礦的情況下,總剩余資金是26628元.通過(guò)對(duì)比,我們發(fā)現(xiàn)一人挖礦,兩人直達(dá)終點(diǎn)的方案最優(yōu).根據(jù)玩家在最優(yōu)路線過(guò)程中消耗的物資和在行程中購(gòu)買的物資,我們得知在起點(diǎn)時(shí),玩家A、C均需要購(gòu)買180箱水、180箱食物.玩家B需要購(gòu)買137箱水、335箱食物.
【關(guān)鍵詞】納什均衡;悲觀準(zhǔn)則;樂(lè)觀準(zhǔn)則
玩家憑借一張地圖,利用初始資金購(gòu)買一定數(shù)量的水和食物(包括食品和其他日常用品),從起點(diǎn)出發(fā)在沙漠中行走.游戲途中會(huì)遇到不同的天氣,玩家也可以在礦山、村莊補(bǔ)充資金或資源,在游戲設(shè)定的規(guī)則下和規(guī)定的時(shí)間內(nèi)到達(dá)終點(diǎn),并保留盡可能多的資金.
一、問(wèn)題分析
對(duì)于玩家來(lái)說(shuō),玩家同時(shí)從起點(diǎn)出發(fā)時(shí)會(huì)增加玩家“同行”時(shí)的消耗,降低玩家“同挖”時(shí)的收益,提高玩家“同買”時(shí)的價(jià)格.
在地圖1的情形下,游戲有2名玩家.對(duì)于這2名玩家,他們需要提前設(shè)定好行動(dòng)方案.此外,他們?cè)谠O(shè)定行動(dòng)方案時(shí)要盡可能地避免與其他玩家相遇,因此需要猜測(cè)對(duì)方玩家的心理,這是典型的博弈游戲.由于最短路徑的消耗量是相同的,2名玩家在做決策時(shí)要么選擇走三天的最優(yōu)路徑,要么選擇走其他路徑.玩家可以列出玩家們的贏得矩陣(支付矩陣)來(lái)分析對(duì)方采取的策略,以此得到自己的支配性策略,從而確定一般情況下玩家采取的最優(yōu)策略組合(納什均衡).
在地圖2的情形下,游戲有3名玩家,游戲截止時(shí)間是第30天.已知一般情況下沙暴天氣出現(xiàn)的概率是20%,而本游戲中的30天內(nèi)較少出現(xiàn)沙暴天氣,所以本游戲中出現(xiàn)沙暴天氣的概率低于20%.本游戲討論沙暴天氣的概率是3.33%的情況,即沙暴天氣在30天內(nèi)只出現(xiàn)1天的情況.從悲觀準(zhǔn)則分析,假設(shè)30天內(nèi)有1天沙暴天氣,有29天高溫天氣.從樂(lè)觀準(zhǔn)則分析,假設(shè)30天內(nèi)有1天沙暴天氣,有29天晴朗天氣.我們分析3名玩家為追求個(gè)人的最大利益,均走最優(yōu)路徑的方案是否可取.如果不可取,那么我們討論3名玩家在合作時(shí)互相避開(kāi)同一時(shí)間內(nèi)挖礦、購(gòu)買物資和相同路徑移動(dòng)的情況下,輪流挖礦以及一人挖礦、兩人直達(dá)兩種方案的總剩余資金,最終三人均分總剩余資金.
二、模型的建立與求解
(一)地圖1情形下模型的建立與求解
根據(jù)以往經(jīng)驗(yàn),我們知道天氣不會(huì)對(duì)最優(yōu)路徑造成太大影響.我們通過(guò)MATLAB軟件計(jì)算得出:去挖礦的所有路徑都不能使玩家到達(dá)終點(diǎn)時(shí)獲得的剩余資金最大,因此,我們選擇的路徑就是從起點(diǎn)直接到終點(diǎn),不考慮挖礦.
地圖1情形下有2名玩家,記為A和B.假設(shè)2名玩家都是理性決策者,他們就會(huì)根據(jù)對(duì)方的策略來(lái)確定自己的策略,找出從起點(diǎn)到終點(diǎn)的最短線路.
由于他們都是理性決策者,他們?nèi)绻x擇除最優(yōu)路徑以外的其他路徑,那么一定會(huì)選擇從起點(diǎn)到終點(diǎn)的最近路徑.我們把除最優(yōu)路徑以外的路徑策略記作else,最優(yōu)路徑的策略記作min.
下面,我們分析玩家A的決策情況.
決策一:當(dāng)玩家B選擇else時(shí),玩家A可以選擇else或min.若玩家A選擇min,則玩家A勝利;若玩家A選擇else,則兩人平局.玩家A為了贏得本次博弈會(huì)選擇min.
決策二:當(dāng)玩家B選擇min時(shí),玩家A仍然可以選擇else或min.若玩家A選擇min,則兩人平局;若玩家A選擇else,則玩家A失敗.為了贏得本次博弈,玩家A在平局和失敗中會(huì)選擇平局,所以玩家A會(huì)選擇min.
在這個(gè)博弈的過(guò)程中,無(wú)論玩家B的策略選擇如何,玩家A都會(huì)選擇min.
下面,我們分析玩家B的決策情況.
對(duì)于玩家B來(lái)說(shuō),其面臨的博弈局面與玩家A完全相同,所以玩家B也會(huì)選擇min.博弈雙方都使用了支配性策略,他們支配性策略的組合就是納什均衡.由于事先考慮到對(duì)方可能與自己走相同的路徑,他們?cè)谄瘘c(diǎn)帶的食物和水都要滿足支撐他們走最大相同路徑的消耗.我們最終判定最大相同路徑就是(else,else).
利用MATLAB軟件計(jì)算,他們需要在起點(diǎn)購(gòu)買72箱水、84箱食物.
(二)地圖2情形下模型的建立與求解
根據(jù)當(dāng)?shù)氐奶鞖庖?guī)律及相應(yīng)的數(shù)據(jù)記錄,我們計(jì)算沙暴天氣的概率是630×100%=20%,據(jù)此得到沙暴天氣在該地區(qū)一般情況下的概率.在本游戲中,已知在30天內(nèi)較少出現(xiàn)沙暴天氣,則本游戲中的沙暴天氣的概率必然低于20%.本模型討論的沙暴天氣的概率是3.33%的情況,即沙暴天氣出現(xiàn)1天的情況.
在本游戲中,如果3名玩家都只追求個(gè)人利益的最大化,那么他們都會(huì)選擇走最優(yōu)路徑.下面給出3名玩家同時(shí)走最優(yōu)路徑,其中1名玩家物資消耗的情況,如表1所示.
我們從表1中可以看出,第16天消耗的物資將會(huì)超過(guò)負(fù)重上限1200 kg,即在第16天物資耗盡,游戲失敗.當(dāng)執(zhí)行策略的玩家面臨多次具有淘汰風(fēng)險(xiǎn)的博弈時(shí),他們會(huì)以不可逆的趨勢(shì)向合作的方向發(fā)展,因此,他們會(huì)選擇合作.合作后的三人會(huì)將集體獲得的總資金進(jìn)行均分.
設(shè)3名玩家分別是A,B,C.
1.輪流挖礦方案
已知30天內(nèi)出現(xiàn)1天沙暴天氣,其余29天均為高溫的情況下,一個(gè)人挖礦的最大天數(shù)是5天.本方案中3人可以走不同路線,即玩家A從起點(diǎn)走最短路徑到達(dá)礦山,開(kāi)始挖礦.在玩家B還未到達(dá)礦山時(shí),玩家A已挖礦2天.在玩家B到達(dá)礦山后,玩家A撤出,玩家B隨即開(kāi)始挖礦,玩家B挖礦5天,這時(shí),玩家A直接走向終點(diǎn),對(duì)玩家B和玩家C的路徑、購(gòu)買物資和挖礦沒(méi)有產(chǎn)生影響.在玩家C到達(dá)礦山后,玩家B撤出,玩家C隨即開(kāi)始挖礦,玩家C挖礦5天,這時(shí),玩家B直接走向終點(diǎn),對(duì)玩家C的路徑、購(gòu)買物資和挖礦沒(méi)有產(chǎn)生影響.綜上所述,該方案的總挖礦最大天數(shù)是12天.玩家A,B,C的具體行程如表2所示.
我們按照A的行程利用Excel計(jì)算得到A最終的剩余資金是8730元;按照B的行程,利用Excel計(jì)算得到B最終的剩余資金是9975元;按照C的行程,利用Excel計(jì)算得到C最終的剩余資金是7923元.因此,3人輪流挖礦方案的總剩余資金是26628元.
3名玩家在起點(diǎn)購(gòu)買(購(gòu)買物資總量的依據(jù)是挖礦最大天數(shù)和路程消耗量)和在村莊購(gòu)買(補(bǔ)充物資總量的依據(jù)是挖礦最大天數(shù)和路程消耗量)的物質(zhì),如表3所示.
由表3可知,玩家A、玩家B和玩家C在起點(diǎn)購(gòu)買的水分別是432箱、110箱、422箱,食物分別是432箱、670箱、778箱.玩家A不經(jīng)過(guò)村莊,玩家B在村莊沒(méi)有購(gòu)買水和食物(即在起點(diǎn)購(gòu)買的水和食物夠用),玩家C在村莊購(gòu)買745箱水和895箱食物.
2.一人挖礦,兩人直達(dá)方案
本方案考慮兩人從起點(diǎn)直接去終點(diǎn),即其中2名玩家不經(jīng)過(guò)村莊和礦山.本方案中的玩家A和玩家C從起點(diǎn)直接去終點(diǎn),對(duì)玩家B的路徑、購(gòu)買物資和挖礦沒(méi)有產(chǎn)生影響.在玩家B到達(dá)礦山時(shí),玩家B挖礦5天.綜上所述,該方案的總挖礦最大天數(shù)是5天.
玩家A,B,C的具體行程如表4所示.
這種方案下直達(dá)終點(diǎn)的玩家A和玩家C最終的剩余資金均是9100元,玩家B最終的剩余資金是9975元.因此,一人挖礦、兩人直達(dá)方案的總剩余資金是28175元.
玩家在起點(diǎn)購(gòu)買(購(gòu)買物資總量的依據(jù)是挖礦最大天數(shù)和路程消耗量)和在村莊購(gòu)買(補(bǔ)充物資總量的依據(jù)是挖礦最大天數(shù)和路程消耗量)的物資,如表5所示.
由表5可知,玩家A、玩家B和玩家C在起點(diǎn)購(gòu)買的水分別是180箱、137箱、180箱,食物分別是180箱、335箱、180箱.玩家A不經(jīng)過(guò)村莊,玩家B在村莊購(gòu)買298箱水,沒(méi)有購(gòu)買食物(即在起點(diǎn)購(gòu)買的食物夠用),玩家C在村莊沒(méi)有購(gòu)買水和食物(即在起點(diǎn)購(gòu)買的水和食物夠用).
三、結(jié)語(yǔ)
在地圖1的情形下,博弈雙方都采用支配性策略,玩家A和玩家B的支配性策略都選擇min.通過(guò)MATLAB軟件計(jì)算,他們需要在起點(diǎn)購(gòu)買72箱水、84箱食物.在地圖2的情形下,從悲觀準(zhǔn)則和樂(lè)觀準(zhǔn)則兩個(gè)角度出發(fā),首先,我們分析了3名玩家均走最優(yōu)路徑方案不可行.其次,我們討論了3名玩家在合作時(shí)互相避開(kāi)同一時(shí)間內(nèi)挖礦、購(gòu)買物資和相同路徑移動(dòng)的情況下,輪流挖礦以及一人挖礦、兩人直達(dá)的兩種方案,得出3人輪流挖礦方案的總剩余資金是26628元;一人挖礦、兩人直達(dá)方案的總剩余資金是28175元.
【參考文獻(xiàn)】
[1]嚴(yán)蔚敏, 吳偉民. 數(shù)據(jù)結(jié)構(gòu)(C語(yǔ)言版)[M].北京: 清華大學(xué)出版社,2007.
[2]岳超源.決策理論與方法[M]. 北京:科學(xué)出版社,2003.
[3]羅伯特·吉本斯. 博弈論基礎(chǔ)[M].高峰,譯.北京:中國(guó)社會(huì)科學(xué)出版社,1999.
[4]謝識(shí)予. 經(jīng)濟(jì)博弈論(第三版)[M].上海:復(fù)旦大學(xué)出版社,2008.
[5]胡運(yùn)權(quán). 運(yùn)籌學(xué)基礎(chǔ)及應(yīng)用(第三版)[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,1998.
[6]程理民, 吳江, 張玉林. 運(yùn)籌學(xué)模型與方法教程[M]. 北京:清華大學(xué)出版社,2000.
[7]胡運(yùn)權(quán). 運(yùn)籌學(xué)基礎(chǔ)及應(yīng)用(第四版)[M]. 北京:高等教育出版社,2004.
[8]谷小娜.從“囚徒困境”到多人多次重復(fù)博弈的人性假設(shè)[J]. 中國(guó)集體經(jīng)濟(jì)(下半月),2007(11):31-32.
數(shù)學(xué)學(xué)習(xí)與研究2022年6期