郭美云,黨學(xué)哲
(西南大學(xué)邏輯與智能研究中心,重慶市400715)
試析博弈困境的兩種解決方案?
——以旅行者困境為例
郭美云,黨學(xué)哲
(西南大學(xué)邏輯與智能研究中心,重慶市400715)
在博弈困境中,納什均衡所預(yù)測的博弈解與人們的直觀相矛盾,而且越來越多的博弈實驗表明,這與現(xiàn)實博弈的結(jié)果也存在巨大反差。博弈困境的出現(xiàn)引起了人們對經(jīng)典博弈論理性預(yù)設(shè)的質(zhì)疑,從而提出不同的邏輯模型和解決方案。本文以旅行者困境為例,對Halpern&Pass提出的重復(fù)后悔度最小化模型和Capraro提出的基于聯(lián)盟與合作的概率推理模型兩種方案進(jìn)行分析比較,考察它們是如何成功地解釋和預(yù)測旅行者困境中選手實際博弈行為,并對這兩種方案的普適性問題和應(yīng)用前景進(jìn)行了展望,同時對博弈論的基礎(chǔ)進(jìn)行了哲學(xué)反思。
博弈困境;旅行者困境;解決方案;重復(fù)后悔最小化模型;概率推理模型
納什均衡(Nash Equilibrium)概念的提出和存在性證明[1]奠定了博弈論這門學(xué)科的基礎(chǔ),為理解和預(yù)測人們在策略互動中的行為提供了強(qiáng)而有力的工具。但是,隨著博弈論的發(fā)展,人們普遍意識到,甚至通過實驗研究也發(fā)現(xiàn),在有些博弈中,納什均衡所預(yù)測的博弈結(jié)果并不符合人們的直觀和各種實驗研究的結(jié)果。人們把這些納什均衡與直觀或現(xiàn)實嚴(yán)重沖突的博弈稱為博弈困境,著名的例子有囚徒困境(Prisoner's Dilemma)、旅行者困境(Traveler's Dilemma)、蜈蚣博弈(Centipede Game)、納什討價還價問題(Nash bargaining problem)、伯川德悖論(Bertrand competition)、公共物品供給博弈(Public Good Game)、最后通牒博弈(Ultimatum Game)和獨裁者博弈(Dictator Game)等。
旅行者困境是由著名經(jīng)濟(jì)學(xué)家Kaushik Basu于1994年[2]提出來的博弈中的一個新的困境。正如他本人所說:“旅行者困境是一個特殊的并且令人信服的悖論,在這里,無情的博弈論理性和直覺觀念無法保持一致。”[2]391該困境融合了以往困境中具有代表性的一些主要特征,從而使博弈論中的根本問題更為集中地得到展現(xiàn)。
旅行者困境的發(fā)現(xiàn)和提出,立刻引起了學(xué)術(shù)界的廣泛關(guān)注,國際上不少博弈論學(xué)家和邏輯學(xué)家從理論和實驗兩個方面分別展開研究[3-7]。與此相反,國內(nèi)學(xué)者雖然對一般意義上的博弈困境及其產(chǎn)生原因已有所關(guān)注[8-9],但是對針對博弈困境的各種解決方案缺乏細(xì)致而深入的學(xué)理分析和研究。對解決方案的深入研究可以加深我們對人類社會中各種博弈困境的理解的同時,有助于尋找新的理論和現(xiàn)實解決方案,還可以避免對博弈論泛泛而談的批評和指責(zé)。本文以旅行者困境為例,對Halpern&Pass提出的重復(fù)后悔度極小化模型[3]和Capraro提出的基于聯(lián)盟與合作的概率推理模型[4]兩種方案進(jìn)行分析比較,以窺它們是如何成功地解釋和預(yù)測旅行者困境中選手實際博弈行為的,并分析這兩種方案各自存在的問題。
關(guān)于旅行者困境的描述有很多不同的變種,其中最主要的變化是提供賠償?shù)姆秶土P金的比重不同。以下給出賠償范圍為2~100、罰金為2的版本:
假設(shè)有兩名乘客從太平洋的某個島上度假后乘同一個航班返回自己的國家。不幸的是,他們的行李箱被航空公司弄丟了。兩個行李箱裝的都是他們在島上購買的同一種古董。航空公司答應(yīng)給予他們賠償,但因為很難評估古董的實際具體價值,兩位乘客可以在2美元和100美元這個區(qū)間中任意選取一個數(shù)值要求賠償。但為了保證乘客提出合理的賠償價格,航空公司特地制定了賠償規(guī)則如下:如果他們要求賠償?shù)臄?shù)值一樣,那么航空公司就直接按這個數(shù)值提供賠償。如果他們要求賠償?shù)臄?shù)值不一樣,則按照要求少的那位乘客提出的價格標(biāo)準(zhǔn)進(jìn)行賠償,但要求少的那位乘客將獲得額外2美元的獎勵,而要求多的那位乘客則在要求少的那位乘客提出的價格基礎(chǔ)上減少2美元作為罰金。例如,兩位乘客提出的賠償分別為98美元和100美元,則他們獲得的賠償各自為100美元和96美元。
直觀地看,兩位乘客應(yīng)該都提出最高的賠償要求即100美元,因為這樣的話,他們都可以獲得100美元的賠償,或者至少雙方都應(yīng)該提出較高水平的索賠,因為這樣的話,即使獲得的賠償沒達(dá)到100美元,仍可以達(dá)到較高水平。
但是如果按照經(jīng)典博弈論的假設(shè),兩位乘客都是追求個人的收益最大化的理性人并且是能進(jìn)行任意有限步推理的高手,那么在給定其中一方提出100美元的賠償?shù)那闆r下,另一方會選擇放棄索賠100美元而只索賠99美元,因為那樣的話,他就可以直接獲得101美元。但是另一位乘客也知道這一點,則他會放棄索賠99美元而提出98美元的索賠,因為這樣的話,他將獲得100美元的賠償,而不是97美元。以此類推,按照這個邏輯,他們最終都只會選擇2美元的賠償要求,從而陷入每人只能得到2美元的困境。實際上這正是博弈論中運用重復(fù)剔除被弱占優(yōu)策略算法(Iterated Removal of Weakly Dominated Strategy,簡寫為IRWDS)和納什均衡所預(yù)測的結(jié)果。雖然整個推理過程無懈可擊,但結(jié)果卻與人們直觀嚴(yán)重沖突,并且與現(xiàn)實中人們的行為選擇也不相符合。
國際上有不少研究者針對不同版本的旅行者困境展開實驗研究[5-7]。例如,在賠償范圍為2~100美元之間,罰金為2美元的情況下,Becker[6]等在博弈論學(xué)會的會員中間所做的調(diào)查表明,45名選手中只有3名選擇了納什均衡所預(yù)測的博弈結(jié)果(2,2),有38名選手選擇了90美元以上的索賠要求,而這38名中有31名甚至提交了96美元以上的索賠。實驗還表明,45名選手中提交97美元索賠的選手最后獲得的收益最高,平均每人有85.09美元。而提交2美元索賠的兩名所獲得的收益是最低的,平均每人只有3.92美元。
有意思的是,實驗研究還表明,人們實際的選擇范圍會隨罰金比重的變化而不同。Capra[5]等所做的重復(fù)博弈(Repeated Game)實驗表明,在罰金很低的情況下,人們傾向于提出較高的索賠要求,并在重復(fù)博弈實驗中保持這一較高的索賠要求。而在罰金較高的情況下,人們開始也提出較高的索賠,但經(jīng)過幾輪之后,最后會提出納什均衡所預(yù)測的2美元。這些實驗數(shù)據(jù)均從不同程度上驗證了人們的直觀預(yù)測,確證了旅行者困境中人的行為選擇與納什均衡的嚴(yán)重偏離,更重要的是它們?yōu)樾吕碚撎峁┝四P蜋z驗的重要標(biāo)準(zhǔn)。
經(jīng)典博弈論對旅行者困境中人們的行為預(yù)測是令人失望的,它所預(yù)測的結(jié)果不僅不符合直觀,更與實驗數(shù)據(jù)嚴(yán)重偏離。這一理論與實踐之間的反差表明,旅行者困境不僅是局中人的困境,也是博弈理論的困境。為此,不少博弈論學(xué)家開始從不同的角度提出不同的邏輯模型,試圖對實驗中看似非理性的行為尋找理性的解釋方案,從而對現(xiàn)實中人們的博弈行為作出更好的預(yù)測。
目前比較成功的解決方案有兩種:一種是后悔理性的角度,即一個理性選手總是讓自己的后悔最小化,如Halpern&Pass(2011)提出的重復(fù)后悔最小化(Iterated Regret Minimization)解決方案。另一種則從理性選手會試圖尋求結(jié)成聯(lián)盟以達(dá)成合作的角度,在期望效用理論(Expected U-tility Theory)的基礎(chǔ)上,Capraro提出的基于聯(lián)盟與合作的概率推理模型的解決方案。
(一)重復(fù)后悔最小化方案
后悔最小化是決策論中用來解釋選手如何進(jìn)行理性決策的一個重要概念。要把后悔這一概念引入到博弈論,必須考慮如何給出兩個不同的后悔概念,一個是在給定其他選手選擇的情況下,如何給出一個選手當(dāng)前選擇的后悔程度。另一個是不管其他選手作何種選擇,如何比較兩個不同策略自身的后悔程度。Halpern&Pass(2011)成功地解決了以上兩個問題,從后悔的角度定義出一種與經(jīng)典理論不同的理性概念,從而給出了一個理性主義的解決方案。
后悔度最小化方案是對經(jīng)典博弈論中重復(fù)剔除被弱占優(yōu)策略算法的改進(jìn)。為具體說明這一點,表1給出旅行者困境的矩陣式表達(dá):
表1 旅行者困境的矩陣式表達(dá)
一個選手如果在給定其他選手選擇的情況下,自己單方面偏離這個選擇并不能獲得更好的收益,那么當(dāng)前選擇就是最佳反應(yīng)(Best Response)。一個博弈結(jié)果是納什均衡,當(dāng)且僅當(dāng)各個選手的當(dāng)前選擇都是最佳反應(yīng)。
在表1中,畫線的向量表示其中一個乘客在給定另一個乘客選擇的前提下其當(dāng)前選擇是最佳反應(yīng)。不難看出,只有在(2,2)中,兩位乘客的當(dāng)前選擇都是最佳反應(yīng),因此是納什均衡。在納什均衡中各個選手都安于現(xiàn)狀,沒有動力偏離當(dāng)前的選擇,因此是個均衡狀態(tài)。
納什均衡只是從靜態(tài)的角度對一個穩(wěn)定的博弈結(jié)果所應(yīng)該具有的性質(zhì)的描述。它并沒有對各個選手如何通過推理理性地到達(dá)這個均衡狀態(tài)的過程進(jìn)行說明。因此后來博弈論又發(fā)展出求解納什均衡的重復(fù)剔除被弱(強(qiáng))占優(yōu)策略算法。
一個選擇或者行動又可被稱作一個策略。一個當(dāng)前策略是被弱占優(yōu)的(Weakly Dominated),當(dāng)且僅當(dāng)該選手存在另一個策略,該策略一定和當(dāng)前策略至少一樣好,并且在一些情況下該策略還比當(dāng)前策略嚴(yán)格好。因此,一個理性的選手是不會選擇一個被弱占優(yōu)的策略的。
我們看到,在旅行者困境中,乘客A的100美元這個策略就是被弱占優(yōu)的,因為從表1可以看出,在乘客B做任意選擇情況下,乘客A選擇99美元的收益總是不少于選擇100美元的收益,并且在乘客B選擇99美元和100美元這兩種情況下,乘客A選擇99美元的收益嚴(yán)格高于選擇100美元的收益。因此,作為理性選手的乘客A不會選擇100美元的索賠要求。同理,乘客B也不會提出100美元的索賠要求。因此,如果兩位乘客都足夠理性并且知道對方也是理性的話,那么他們都會確信對方不會提出100美元的這個索賠要求。
因此,雙方都會把100美元這個被弱占優(yōu)策略剔除掉,從而進(jìn)入表2的子博弈中。
表2 旅行者困境第一個子博弈的矩陣式表達(dá)
同樣,不難發(fā)現(xiàn),在這個子博弈中99美元對雙方來說也是一個被弱占優(yōu)策略。因此,乘客A、B都會剔除索賠99美元這一被弱占優(yōu)策略,從而進(jìn)入下一個子博弈當(dāng)中。以此類推,如果兩位乘客足夠理性并且知道對方也是理性的話,根據(jù)重復(fù)剔除被弱占優(yōu)策略算法,最后一個子博弈為表3:
表3 旅行者困境最后一個子博弈的矩陣式表達(dá)
不難看出,最后一個子博弈具有和囚徒困境相同的博弈結(jié)構(gòu)。在這個子博弈中,3美元是一個被強(qiáng)占優(yōu)策略(Strongly Dominated Strategy),因為無論一方作何選擇,另一方選擇2美元得到的收益都嚴(yán)格高于選擇3美元的收益。因此,理性選手不會選擇被強(qiáng)占優(yōu)策略,最后雙方博弈的結(jié)果為(2,2)。事實上,這也正是納什均衡理論所預(yù)測的結(jié)果。
與囚徒困境不同的是,在旅行者困境的納什均衡求解過程中,融合了博弈論中重復(fù)剔除被弱占優(yōu)策略和重復(fù)剔除被強(qiáng)占優(yōu)策略兩種經(jīng)典算法。因此,旅行者困境是比囚徒困境更為復(fù)雜和嚴(yán)重的困境。
在給定其他選手選擇的情況下,Halpern&Pass(2011)將當(dāng)前策略的后悔程度定義為選擇最佳反應(yīng)策略所獲得的收益與采取當(dāng)前策略下所獲得收益的差值。據(jù)此,我們可以將旅行者困境的博弈模型轉(zhuǎn)換為表4所示的后悔度模型:
表4 旅行者困境的后悔度模型
不難看出,一個選手策略的后悔度是隨著對方選擇的不同而發(fā)生變化的,那么如何評估一個策略本身的后悔指數(shù)呢?直觀來說,一個理性的選手應(yīng)該盡可能地避免最大后悔事件的發(fā)生。因此,可以將一個策略的后悔度定義為它在所有情況下的最大值。例如,選擇策略2的最大后悔度對于雙方來說都是97(見表4)。因此,在考慮后悔理性的背景下,選手所面臨的形勢發(fā)生了根本的變化。選擇策略2成為后悔指數(shù)最高的一個策略,任何一個理性的選手都會首先將其剔除掉。因此,博弈雙方可以進(jìn)入一個沒有策略2的子博弈之中,從而不會陷入納什均衡所預(yù)測的博弈困境當(dāng)中。
在確定選手不同策略的后悔程度之后,根據(jù)Halpern&Pass(2011)確立的一個理性原則:一個理性的選手總是選擇使得他后悔程度最小的一個策略。因此,在這一理性原則是各個選手公共知識(Common Knowledge)的前提下,兩位乘客可以只將后悔程度最小的策略保留,這在表4中表現(xiàn)為只將后悔度為3的策略保留,從而進(jìn)入下一個子博弈當(dāng)中。
值得注意的是,經(jīng)過剔除后,在子博弈中各個選手的策略的后悔度會產(chǎn)生變化,博弈雙方需要重新計算各個策略的后悔度,再次保留后悔度最小的策略,一直重復(fù)這一過程直到不能剔除為止,最后達(dá)到的狀態(tài)就是后悔度最小化方案所預(yù)測的結(jié)果。
事實證明,這是一個非常高效率的算法,并且最后保留的策略是和罰金的相關(guān)性與經(jīng)驗研究相符合。若設(shè)罰金為p,則在第一輪當(dāng)中,兩位乘客只會保留[100-2p,100]這一范圍的索賠要求。本例中罰金P=2,因此經(jīng)過第一輪剔除后兩位乘客只會保留[96,100]范圍的索賠要求,重復(fù)這一過程到不能剔除為止,最后雙方博弈的結(jié)果為97美元,這與Becker和Capra等人的實驗數(shù)據(jù)是一致的。
(二)基于聯(lián)盟與合作的概率推理模型
基于聯(lián)盟與合作的概率推理方案從大量實驗數(shù)據(jù)偏離納什均衡的現(xiàn)象中總結(jié)出人不是絕對自私的,而是具有聯(lián)盟和合作傾向這一重要特征。
為采用聯(lián)盟與合作的思想研究像旅行者困境那樣的非合作博弈中的合作式均衡,Capraro提出一個合作原則作為預(yù)設(shè)[4]6:
如果選手在博弈中結(jié)成一個聯(lián)盟的話,那么他們會據(jù)此來預(yù)測博弈的走向并且按照那個最好的預(yù)測進(jìn)行博弈。
在旅行者困境中,作為一個理性的選手,他們可以清醒地意識到,如果雙方都絕對自私的話,那么他們會意識到自己會逐步陷入到納什均衡所預(yù)測的困境當(dāng)中。因此,考慮結(jié)成各種聯(lián)盟以尋求潛在的合作是他們擺脫困境的出路之一。
在博弈論中,任何一部分選手都可以組成一個聯(lián)盟,但一個選手只能加入一個聯(lián)盟,并且所有聯(lián)盟合起來應(yīng)該剛好是全體選手。特殊地,每個選手本身也可以看作一個聯(lián)盟。當(dāng)然,所有選手也是一個聯(lián)盟。值得注意的是,這里所說的聯(lián)盟都是一種虛擬的聯(lián)盟,聯(lián)盟內(nèi)部不允許交換任何信息或者達(dá)成任何轉(zhuǎn)移支付的協(xié)議。在旅行者困境中,因為只有兩個選手,恰好無外乎這兩種聯(lián)盟,我們不妨把它們分別稱作自私聯(lián)盟和合作聯(lián)盟。如果形成合作聯(lián)盟的期望效用高于形成自私聯(lián)盟的期望效用,則顯然選手會傾向于形成合作聯(lián)盟。
根據(jù)合作原則,在旅行者困境中,選手們?nèi)绻凑兆运铰?lián)盟,則顯然他們可以預(yù)測并且按照這個預(yù)測進(jìn)入納什均衡(2,2)的博弈結(jié)果當(dāng)中。(2,2)是納什均衡,意味著沒有選手有動力改變當(dāng)前選擇,因此自私聯(lián)盟是一個穩(wěn)定的聯(lián)盟。按照自私聯(lián)盟博弈的結(jié)果,最后雙方的收益都是2美元。換句話說,2美元是他們結(jié)成自私聯(lián)盟的期望效用。因此,我們可以把2看做是自私聯(lián)盟對于這兩位乘客的價值。
現(xiàn)在假設(shè)兩位乘客結(jié)成合作聯(lián)盟,即他們共同提出100美元的索賠要求,則他們在結(jié)成合作聯(lián)盟時的最大收益是100美元。但100美元并不能成為合作聯(lián)盟對于他們的價值。因為這是一個不穩(wěn)定的聯(lián)盟,其中任何一個選手如果提出99美元的賠償要求,則他可以得到101美元的收益。因此,我們可以說他脫離聯(lián)盟的動力是1個單位。但是作為一個理性的選手,他除了計算自己脫離聯(lián)盟的動力外,還須評估脫離聯(lián)盟所產(chǎn)生的風(fēng)險。其中最大的風(fēng)險是如果對方依然堅持自私原則或者他預(yù)測到自己會脫離聯(lián)盟的話,則對方可以提出98美元的索賠要求,在這種情況下自己只能得到96美元的索賠,從而比原來結(jié)成聯(lián)盟的情況下?lián)p失4美元。因此,我們可以說他脫離聯(lián)盟的風(fēng)險是4個單位。
從乘客A的角度看,如果他選擇堅守合作聯(lián)盟,在他對乘客B脫離聯(lián)盟的動力和風(fēng)險進(jìn)行上述評估之后,他就可以據(jù)此對乘客B是否也會堅守合作同盟這兩個事件發(fā)生的概率進(jìn)行評估。因此,根據(jù)概率理論,乘客A在自己堅守聯(lián)盟的條件下,他可以推斷出乘客B脫離合作聯(lián)盟這一事件的概率是1/(1+4)=1/5,而乘客B堅守合作聯(lián)盟這一事件的概率則是4/5。
在沒有人會脫離合作聯(lián)盟的情況下,乘客A的預(yù)期收益顯然為100美元。而乘客B脫離合作聯(lián)盟這一事件可以有兩種情況,即乘客B可以提出99和98美元的索賠要求,因為在這兩種情況下,他都可以獲得不少于堅守合作聯(lián)盟中100美元的收益。其中最壞的情況是乘客A選擇100美元索賠而乘客B選擇98美元索賠這種情況,這時乘客A的收益僅為96美元。因此在乘客B脫離合作聯(lián)盟這一情況下,乘客A的預(yù)期收益最壞且為96美元。
使用概率工具計算選手的期望效用并使其最大化是博弈論中用來預(yù)測選手理性行為的另一個非常有力的工具。根據(jù)乘客A對于乘客B堅守合作聯(lián)盟和脫離合作聯(lián)盟這兩個事件發(fā)生的概率評估,乘客A不難計算出自己在堅守聯(lián)盟條件下的期望效用,即100×(4/5)+96×(1/5)≈99。同理,乘客B計算出自己在堅守聯(lián)盟條件下的期望效用也是99。因此,我們可以把99看做是合作聯(lián)盟對于這兩位乘客的價值。顯然,99遠(yuǎn)遠(yuǎn)大于3,這就是在旅行者困境中人們傾向于合作的原因所在。
目前為止,在基于聯(lián)盟的背景下,我們只是得出了在旅行者困境中形成合作聯(lián)盟的價值遠(yuǎn)遠(yuǎn)高于形成自私聯(lián)盟的價值,從而人們會傾向于合作這一結(jié)論。但這并不意味著,兩位乘客一定都會提出100美元的索賠要求,因為我們前面提到,合作聯(lián)盟并不是一個穩(wěn)定的聯(lián)盟。但是,我們可以把合作聯(lián)盟中計算出來的期望效用看做是兩位乘客的公共信念(Common Belief)。根據(jù)形成合作聯(lián)盟所計算的期望效用,兩位乘客會合理地預(yù)期博弈只會發(fā)生在一個各方收益都不會低于合作聯(lián)盟價值的子博弈當(dāng)中,從而聚焦①焦點(Focal Points)理論是2005年諾貝爾經(jīng)濟(jì)學(xué)獎獲得者Thomas C.Schelling提出的在博弈論中用來解釋選手在實際博弈中選擇均衡的一個重要方法。于如表5所示的一個子博弈之中。
表5 合作聯(lián)盟公共信念下誘導(dǎo)出的子博弈
在選手根據(jù)合作聯(lián)盟計算出期望效用誘導(dǎo)出來的子博弈中的納什均衡就被稱作是合作式均衡。在本文給出的旅行者困境的例子中,可以看出(97,97)正是合作式均衡。另外,隨著罰金的提高,雙方堅守合作聯(lián)盟事件的概率變低,從而使堅守合作聯(lián)盟條件下的期望效用變低,進(jìn)而導(dǎo)致合作式均衡越來越接近納什均衡??梢?無論是對結(jié)果的預(yù)測還是罰金的相關(guān)性而言,合作式均衡方案的預(yù)測結(jié)果和Becker與Capra等人的實驗數(shù)據(jù)也是一致的。
與其他方案將選手在博弈困境中偏離納什均衡歸因于犯錯[11]和有限理性[12]不同,這兩種方案依然高舉理性主義的旗幟,在堅持經(jīng)典博弈論理性人假設(shè)的同時,還在此基礎(chǔ)上增加了諸如后悔與合作等更多的理性概念。因此,這兩種方案都是在堅持理性主義路線的基礎(chǔ)上,在原來非合作博弈理論框架下,對經(jīng)典博弈理論的豐富和完善。
在重復(fù)后悔最小化方案中,選手通過分別計算給定對方選擇前提下當(dāng)下選擇的后悔度和策略本身的后悔度,從而將整個博弈中各個博弈結(jié)果收益之間的差異納入理性決策的考慮之中。而在基于聯(lián)盟與合作的概率推理方案中,選手則綜合考慮對方脫離聯(lián)盟的額外收益和風(fēng)險,通過比較合作聯(lián)盟與自私聯(lián)盟的價值,對對方關(guān)于合作聯(lián)盟的忠誠度進(jìn)行全面評估,從而形成自己的合理預(yù)期,最后做出理性決策。因此,與傳統(tǒng)博弈論對選手收益只側(cè)重于質(zhì)的研究不同,這兩種方案都將選手收益在博弈中量的差別考慮進(jìn)來,這在模型中是通過求差、取最大值和最小值等方式來實現(xiàn)的,從而將各個博弈結(jié)果中收益的差距在模型中體現(xiàn)出來,更能全面反映博弈中選手理性決策的實際情況??梢哉f,這兩種方案是在經(jīng)典博弈論質(zhì)的方法的基礎(chǔ)上,質(zhì)的方法與量的方法相結(jié)合的兩個成功案例。
重復(fù)后悔最小化方案繼承了經(jīng)典博弈論中重復(fù)剔除被弱占優(yōu)策略算法的一些缺點。在重復(fù)后悔最小化方案的剔除過程中,我們是一次性選擇后悔度最小的策略。另外一種選擇是只剔除后悔度最大的策略,因為在不同的子博弈中后悔度會發(fā)生改變,因此這會導(dǎo)致不同的博弈結(jié)果。也就是說,剔除順序的不同,該方案會預(yù)測出不同的博弈結(jié)果。這表明這種方案所預(yù)測的結(jié)果并不具有唯一性,從而使其精確性受到影響。
更為嚴(yán)重的是,這揭示出重復(fù)后悔最小化方案并不具有“無關(guān)選項獨立性”(Independence of Irrelevant Alternatives)這一重要性質(zhì),即一個博弈從后悔理性的角度看,如果加上一個完全應(yīng)該被剔除的選項,反而會對博弈的結(jié)果產(chǎn)生影響,其根本原因在于在這種后悔度計算方式下,無關(guān)選項的加入會讓原本的策略的后悔度發(fā)生變化。Halpern等人雖然也意識到這一內(nèi)在缺陷,但他們將其歸因于人們在實際博弈中同樣會受到無關(guān)選項的心理干擾[3]18。這種求助于心理學(xué)的解釋當(dāng)然是不能讓人滿意的,因為這與該方案所秉承的理性主義風(fēng)格相沖突。
重復(fù)后悔最小化方案和基于聯(lián)盟與合作的概率推理方案都想將其解決方案應(yīng)用到更多的博弈困境當(dāng)中。但是,這兩種方案對于囚徒困境都是失效的。因為在囚徒困境中,背叛對于雙方都是強(qiáng)占優(yōu)的策略,而強(qiáng)占優(yōu)策略的后悔度為零。因此,雙方選擇背叛正是重復(fù)后悔最小化方案所預(yù)測的博弈結(jié)果,從而不能解釋人們在囚徒困境中會有合作的現(xiàn)象。而根據(jù)基于聯(lián)盟與合作的概率推理方案,所計算出來的合作聯(lián)盟的價值并不具有參考意義,因為所得到的子博弈和原博弈是一樣的。如果將子博弈中的納什均衡當(dāng)作合作式納什均衡,則同樣不能解釋囚徒困境中的合作現(xiàn)象。
相比較而言,基于聯(lián)盟與合作的概率推理方案普適性更強(qiáng)。例如,重復(fù)后悔最小化方案不能解釋協(xié)同博弈(Coordination Game)中人們?yōu)楹纹蛴谶x擇對雙方結(jié)果都最好的納什均衡,而基于聯(lián)盟與合作的概率推理方案卻能很輕松做到這一點。因為在協(xié)同博弈中,合作聯(lián)盟的價值遠(yuǎn)高于自私聯(lián)盟的價值,而博弈雙方脫離合作聯(lián)盟的動力為零。因此,基于聯(lián)盟與合作的概率推理方案更能解釋協(xié)同博弈中的合作現(xiàn)象。
基于聯(lián)盟與合作的概率推理方案也存在不足之處。從前面的分析中可以看到,該方案沒有將概率的思想貫徹到底。在求解均衡的前期,我們通過概率手段計算出合作聯(lián)盟對雙方的價值,從而使博弈進(jìn)入一個雙方收益都不低于合作聯(lián)盟價值的子博弈中,但在子博弈中又使用納什均衡來求解合作式均衡。更大的問題是,在基于聯(lián)盟與合作的概率推理方案中,Capraro對所計算出來的合作聯(lián)盟的價值作多種解讀,他有時甚至直接將合作聯(lián)盟的價值看作該方法所預(yù)測的博弈結(jié)果[13]8。同時也為了處理囚徒困境一類的困境,Capraro后來提出在子博弈中計算混合策略納什均衡①在沒有純策略納什均衡的博弈中,可以將選手的選擇看做是純策略上的概率分布,因而是非決定性的?;旌喜呗约{什均衡的提出就是為這些博弈的穩(wěn)定狀態(tài)構(gòu)建模型。(Mixed Strategy Nash Equilibrium)[3]42。求解子博弈混合策略納什均衡的方法雖然在囚徒困境中有一定作用,因為在囚徒困境中,每位選手只有合作與背叛兩個選項,但在旅行者困境中的子博弈中,往往每位選手都有多種索賠策略,所以在旅行者困境中是難以計算的。這種不一致的做法表明基于聯(lián)盟與合作的概率推理方案不具有統(tǒng)一性,從而對其普適性產(chǎn)生影響。這也是過分依賴概率這種量的方法的一個內(nèi)在缺陷。
總的來看,概率方法是更具普適性的一種方法。因為納什均衡的存在性定理表明,任何一個有窮策略式博弈總是存在混合策略的納什均衡[1]。Halpern等人后來也不得不結(jié)合概率的方法,將混合策略考慮進(jìn)來[3]20,從而得以將其方法應(yīng)用到協(xié)同博弈當(dāng)中。
針對人們在博弈困境中并不是如經(jīng)典納什均衡所預(yù)測的那樣,而是存在大量偏離納什均衡的選擇行為的現(xiàn)象。我們有必要對博弈論的哲學(xué)基礎(chǔ)進(jìn)行反思,一方面,這涉及博弈論這門學(xué)科的性質(zhì)和定位:博弈論是一門規(guī)范性(Normative)學(xué)科,還是一門描述性(Descriptive)學(xué)科?將這些博弈困境定義為困境的一個預(yù)設(shè)是博弈論至少應(yīng)該具有描述性學(xué)科的特點,即它應(yīng)該能夠?qū)Σ┺闹械倪x手做出的選擇進(jìn)行解釋,從而對人們應(yīng)該如何理性選擇提供決策參考。另一方面,博弈困境的產(chǎn)生使得我們必須重新反思非合作博弈論中的理性人假設(shè),即每個選手都是只追求自身利益最大化的,并且能夠進(jìn)行任意有限步的推理。但選手不僅是一個理性人還是一個社會人,人們在實際博弈中的行為選擇還受選手類型、收益敏感度、期望、相互間的信任和社會規(guī)范等理性因素甚至犯錯等非理性因素的影響。但是,一個理論往往出于簡單或便于研究的需要,又不可能考慮所有這些因素的影響。這也是許多社會科學(xué)研究中面臨的理論困境。
進(jìn)入21世紀(jì)以來,世界形勢和利益格局變得日益紛繁復(fù)雜,特別是像中國這樣的發(fā)展中國家又處于社會的劇烈轉(zhuǎn)型之中,各個國家、社會群體和利益階層的沖突和斗爭日益激烈,人們越來越意識到在國家戰(zhàn)爭、地區(qū)沖突和利益紛爭中,通過相互合作達(dá)到共贏往往是解決問題的最佳選擇。對博弈中的合作進(jìn)行研究一直是博弈論研究中的難題。目前博弈論對合作博弈論的研究還非常有限,圍繞博弈困境的解決主要還是在非合作博弈的理論框架下進(jìn)行的。因此,如何在非合作博弈的理論框架下對選手博弈困境中實際存在的合作行為提供理論解釋和更為準(zhǔn)確的預(yù)測模型是博弈論中的一個巨大挑戰(zhàn)。在這個意義上說,重復(fù)后悔最小化方案和基于聯(lián)盟與合作的概率推理方案不僅是博弈論理論研究中取得的重要進(jìn)展,還為人們在社會行為中普遍存在的合作和共贏現(xiàn)象提供了理論支撐和理論指導(dǎo)。
[1]Nash J F.Equilibrium points in n-person games[J].Proceedings of the National Academy of Science of the United States,1950,36 (1):48-49.
[2]Basu K.The Traveler's Dilemma:Paradoxes of Rationality in Game Theory[J].American Economic Review,1994,84(2):391-395.
[3]Halpern J Y,Pass R.Iterated Regret Minimization:a new solution concept[J].Games and Economic Behavior,2012,74(1):184-207.
[4]Capraro V.A solution concept for games with altruism and cooperation[EB/OL].http://arxiv.org/pdf/1302.3988v2.pdf.2013.
[5]Capra M,Goeree J K,Gomez R,Holt C A.Anomalous Behavior in a Travelers Dilemma?[J].American Economic Review,1999 (89)3:678-690.
[6]Becker T,Carter M,Naeve J.Experts Playing the Travelers Dilemma[R].Discussion Paper 252,Institute for Economics,Hohenheim University,2005.
[7]Basu K,Becchetti L,Stanca L.Experiments with the Travelers Dilemma:welfare,strategic choice and implicit collusion[J].Social Choice and Welfare,2011,37(4):575-595.
[8]潘天群.博弈論中理性人假設(shè)的困境[J].經(jīng)濟(jì)學(xué)家,2003(4):99-104.
[9]袁藝,茅寧.從經(jīng)濟(jì)理性到有限理性:經(jīng)濟(jì)學(xué)研究理性假設(shè)的演變[J].經(jīng)濟(jì)學(xué)家,2007(2):21-26.
[11]Mc Kelvey R,Palfrey T.Quantal response equilibria for normal form games[J].Games and Economic Behavior.1995(10)1,6-38.[12]Stahl D,Wilson P.Experimental evidence on player's models of other players[J].Economic Behavior and Organization,1994(25) 3:309-327.
[13]Capraro V.A Model of Human Cooperation in Social Dilemmas[R].PLoS ONE 2013,8(8):e72427.doi:10.1371/journal.pone.0072427.
責(zé)任編輯 劉榮軍
B815
A
1673-9841(2015)02-0018-08
10.13718/j.cnki.xdsk.2015.02.003
2014-09-02
郭美云,哲學(xué)博士,西南大學(xué)邏輯與智能研究中心,副教授。
重慶市人文社會科學(xué)重點研究基地重點項目“博弈的邏輯與認(rèn)知基礎(chǔ)研究”(14SKB047),項目負(fù)責(zé)人:郭美云;國家社會科學(xué)基金重點項目“現(xiàn)代邏輯視野的認(rèn)知研究”(11AZD57),項目負(fù)責(zé)人:何向東;中央高?;究蒲袠I(yè)務(wù)費專項資金資助項目“博弈中互動認(rèn)知的邏輯研究”(SWU1309380),項目負(fù)責(zé)人:郭美云。