崔建英
?
后向歸納法的動態(tài)認(rèn)知刻畫*
崔建英
[摘要]后向歸納法BI(Backward Induction)是求解動態(tài)博弈的經(jīng)典算法,其認(rèn)知機(jī)制的探討多是基于靜態(tài)的認(rèn)知模型展開的。這樣,為了給BI算法結(jié)果中具有反事實(shí)性的理性行動提供合理置信的解釋,一些非平凡的條件被添加到這類認(rèn)知模型中,形成多種較為復(fù)雜的條件知識(或信念)或?qū)蛹壥剑℉ierarchical)知識(或信念)系統(tǒng)。我們構(gòu)建了一類博弈認(rèn)知模型,基于公開宣告邏輯PAL(Public Announcement Logic),實(shí)現(xiàn)博弈認(rèn)知模型的動態(tài)更新,論證了在完美信息動態(tài)博弈中,選手間的理性公共知識能夠?qū)е翨I算法結(jié)果,為該算法的認(rèn)知條件提供了一種新的邏輯刻畫。這種刻畫沒有涉及選手策略等博弈概念,通過利用PAL中模型更新的動態(tài)性來描述動態(tài)博弈中的BI算法認(rèn)知條件,不會受到通常BI算法認(rèn)知刻畫理論中所涉及的反事實(shí)(無論是主觀還是客觀)推理的影響,從而有效地避免了復(fù)雜的條件信念(或知識)系統(tǒng)或?qū)蛹壥街R(或信念)和信念修正的問題。
[關(guān)鍵詞]后向歸納法理性公開宣告邏輯
*本文系國家社科基金資助項目(12CZX056)、教育部人文社會科學(xué)重點(diǎn)研究基地重大項目(15JJD720014)、廣東省哲學(xué)社會科學(xué)“十二五”規(guī)劃青年項目(GD11YZX03)的階段性成果。
在動態(tài)博弈中,關(guān)于選手理性選擇的刻畫往往是基于一類靜態(tài)的認(rèn)知模型而展開進(jìn)行的。[1]在這類認(rèn)知模型中,我們不僅需要描述出理性決策路徑上選手們的知識(或信念),而且還需要說明當(dāng)一個不是理性決策路徑上的行動如果被對手選擇到時,每個選手原有的初始知識(或信念)、在此情形下選手對于原有知識(或信念)所進(jìn)行的修正以及其對手關(guān)于該選手修正后的知識(或信念)等。例如,在一個動態(tài)博弈中,選手2初始時知道(或相信)理性選手1應(yīng)該選擇馬上結(jié)束博弈的行動,然而,他還需要知道(或相信),如果選手1讓博弈繼續(xù)進(jìn)行,給出機(jī)會讓他進(jìn)行選擇時,選手1所基于的知識(或信念)是什么,以引導(dǎo)選手2在此情形下做出理性的選擇。因此,這類模型必然會涉及復(fù)雜的條件知識(或信念)系統(tǒng)或?qū)蛹壥剑℉ierarchical)系統(tǒng)和信念修正的問題。同時,基于此類模型,選手初始時理性的公共知識是不能蘊(yùn)涵后向歸納法BI(Backward Induction)的結(jié)果的。[2] [3] [4]
在本文中,我們基于一個動態(tài)邏輯系統(tǒng)——公開宣告邏輯PAL(Public Announcement Logic),將理性選手定義為或者該選手對于當(dāng)前世界所相應(yīng)的結(jié)果沒有絕對決策權(quán),或者他知道參與博弈的選手在他們能夠?qū)Σ┺慕Y(jié)果具有絕對決策權(quán)時總是追求其自身利益最大化,論證了在完美信息動態(tài)博弈中,基于這種理性的公共知識能夠?qū)е翨I算法結(jié)果,從而為該算法的認(rèn)知條件提供了一種新的邏輯刻畫。由于這種刻畫理論是通過利用PAL中模型更新的動態(tài)性來描述動態(tài)博弈中的BI算法的動態(tài)剔除博弈結(jié)果的過程,沒有涉及選手策略的問題,不會受到通常BI算法認(rèn)知刻畫理論中所涉及的反事實(shí)(無論是主觀還是客觀)推理問題的影響,從而有效地避免了復(fù)雜的條件信念(或知識)系統(tǒng)或?qū)蛹壥叫拍睿ɑ蛑R)和信念修正的問題。[5] [6] [7] [8] [9] [10] [11] [12] [13]同時,由于我們的刻畫分析是基于動態(tài)認(rèn)知邏輯PAL之上,這也為未來我們研究動態(tài)模型檢測動態(tài)博弈認(rèn)知系統(tǒng)性質(zhì),提供了可行的理論基礎(chǔ)。
本文的討論主要涉及了公開宣告邏輯和具有完美信息動態(tài)博弈的內(nèi)容,因此,在本節(jié)中,我們將主要介紹與這兩個內(nèi)容相關(guān)的一些概念和定理,并定義一個行動函數(shù),用于后文中博弈認(rèn)知模型的構(gòu)建。
(一)公開宣告邏輯PAL
借助于動態(tài)認(rèn)知邏輯研究虛擬在博弈選手頭腦間的交流情形與博弈進(jìn)程中模型變化之間的關(guān)系近十多年得到迅速發(fā)展。本文研究所基于的PAL是一種較為簡單的動態(tài)認(rèn)知邏輯,主要是通過公告某個命題φ,剔除原認(rèn)知模型中與命題φ不相容的狀態(tài)(或可能世界),而保留原模型中主體認(rèn)知擇選關(guān)系不變,從而顯性地描述主體間信息的互動,以及由此引發(fā)的主體認(rèn)知情形變化的一種邏輯。這種邏輯的語言是通過添加一個行動模態(tài)算子[! P],即,公開宣告算子,到標(biāo)準(zhǔn)的多主體認(rèn)知邏輯構(gòu)成,[14]公式[! P]φ表示了真實(shí)宣告命題P后,公式φ成立,語義解釋為:
因此,公開宣告一個命題為真的直接結(jié)果就是各個主體摒棄那些原先自己認(rèn)為的可能為假的那些可能世界。經(jīng)過這種變化后,主體的認(rèn)知狀態(tài)相應(yīng)地發(fā)生了改變(這里,行動模態(tài)算子[! P]實(shí)質(zhì)上是起到從一個模型到它的相對化子模型的動態(tài)轉(zhuǎn)換功能)。值得注意的是,由于公告命題P這類認(rèn)知行為的觸發(fā)是基于P為真的條件,因此,公告算子是一種部分函數(shù)。
這樣,借助于PAL語言,我們可以表達(dá)諸如,[!φ]Kiψ:在公開宣告事實(shí)φ后,主體i知道了命題ψ;[!φ] CGψ:公開宣告φ后,ψ成為群體G間的公共知識等認(rèn)知情形。同時,van Benthem在文中,[15]定義了公開宣告某命題φ的極限模型是重復(fù)公告φ不再對其相應(yīng)的初始模型M產(chǎn)生任何的影響(即模型不再被改變)的第一個子模型,用#(φ, M)表示。并且,van Benthem論證了當(dāng)此極限模型#(φ, M)是非空的,那么,我們就獲得了一個使得φ成為主體間的公共知識的模型。
后文中,證明宣告極限模型#(Ra, MG)中的元素與BI算法求解的結(jié)果之間的一致性,正是本文中一個重要的刻畫定理,是我們證明理性公共知識蘊(yùn)涵BI算法求解結(jié)果的基石。
(二)具有完美信息的動態(tài)博弈和行動函數(shù)
我們采用基于博弈歷史來描述動態(tài)博弈模型——擴(kuò)展式博弈模型(或稱博弈樹模型)。
設(shè)A是一個行動集合,A*表示A中一個有窮行動序列集合。如果h=〈a1,a2,…ak〉∈A*且1≤j≤k,則稱序列〈a1,a2,…aj〉是h的前綴。一個具有完美信息的有窮擴(kuò)展式博弈G是五元組〈H, N, A, f, {ui}i∈N〉,[16]其中,H是滿足條件H?A*的有窮歷史集,且相對于取前綴運(yùn)算是封閉的(即若h∈H且h’∈A*是h的前綴,則h’∈H);N是有窮的選手集;A是有窮行動集合(Ai?A是可供選手i選擇的行動集);函數(shù)f是給每個決策歷史指派一個選手,f(h)表示在歷史h上的決策者;效用函數(shù)ui指派給每個具有博弈終點(diǎn)的歷史,對應(yīng)不同選手的一個效用值。這里,我們用?表示空歷史〈〉,它是每個歷史的前綴;字母Z用以表示具有博弈終點(diǎn)(或稱葉子)的歷史,而D=H是指非終點(diǎn)式的歷史集,A(h)表示在歷史h中所包含的行動集。
考慮到在一個動態(tài)博弈中,不同選手所選擇的相同行動或者同一個選手在不同時刻選擇的同一個行動,由于選擇人和選擇時段的不同,實(shí)質(zhì)上都是不同的行動,因此,我們規(guī)定對?a,b∈A,有a≠b。同時,出于下文定義行動函數(shù)的需要,我們用符號0和⊥0表示任意一個空行動和假行動,①這里空行動是指博弈開始前選手們的行動,類似于空歷史的概念;而假行動則是指當(dāng)某歷史的長度小于博弈進(jìn)程時刻值時選手們的一種虛擬的行動。并將它們添加到每個選手的行動集中,即,0∧⊥0∈∧i∈NAi。
如果對一個有窮擴(kuò)展式博弈G中的任何一個h∈H,都至多有一個選手具有一個非單元素的行動集,那么,稱這樣的博弈是具有完美信息的有窮博弈。進(jìn)一步來說,如果對每一個選手i,若z和z’對應(yīng)是不同的結(jié)果,則必有ui(z)≠ui(z’),則稱此博弈是泛型的(generic)。[17]由于BI算法主要被用于求解完美信息的動態(tài)博弈,因此,本文重點(diǎn)考察具有完美信息的有窮泛型博弈。
為方便敘述,我們將含有葉子的歷史z記為是一串不包含括號和逗號的行動序列,如,z=〈?, a1, a2, …,a5〉被記為z=0a1a2a3a4a5,并用符號l(z)表示該歷史的長度,這里l(z)=5(空段不計入長度),lmax(G)=max{ l(z),?z∈H}則表示博弈樹G的最大長度。
在一個歷史z中,博弈不同時段對應(yīng)的行動是不同的,為此,我們定義一個行動函數(shù),用于尋找博弈t時段(t∈N|t≤l(G)-1)時,歷史z中的行動。而借助此函數(shù),我們可以刻畫出BI算法解集。
定義1.給定一個具有完美信息的泛型擴(kuò)展式博弈G,行動函數(shù)Λz(t):Z×T→A,用于尋找在博弈t階段時,歷史z上所對應(yīng)的行動。其中,Λz(0)=0,Λz(t)=⊥0(當(dāng)l(z)<t時)。
依此定義,如果Λz(t)=Λz’(t)(其中z≠z’),那么,兩個不同的歷史z和z’在博弈t時段時具有相同的行動。并且,z和z’具有長度不大于t的相同前綴。
定義2.給定一個具有完美信息的泛型擴(kuò)展式博弈G=〈H, N, A, f, {ui}i∈N〉且l(G)=m。令BI*是該博弈BI算法均衡解的集合,則BI*=∩n≥1BIn=∩n≥1(BIn-1-DBn-1)(n∈N,1≤n≤m),這里DBn表示逆推第n階段時,被BI算法剔除的結(jié)果集,而BIn表示逆推第n階段時未被BI算法所剔除的結(jié)果集。其中,BI0=Z,DB0= {z∈Z|Λz(m)∈Ai/{⊥0}且ui(z)<max {ui(z’)},其中Λz(m-1)=Λz’(m-1)}。對?z∈DBn(n≥1),滿足:
(i)z∈BIn-1;
(ii)Λz(m-n)∈Ai/{⊥0}且ui(z)<max{ui(z’)},其中Λz(m-n-1)=Λz'(m-n-1)。
隨著博弈進(jìn)程的展開,選手關(guān)于博弈結(jié)果的知識在增加:博弈開始前,每個選手都認(rèn)為所有的博弈結(jié)果都是可能的,而當(dāng)某個選手做出一個行動選擇后,某些博弈結(jié)果一定會從選手當(dāng)前的認(rèn)知可能世界集中消失,從而縮減了選手的認(rèn)知可能世界集,選手關(guān)于博弈結(jié)果的知識得到增加。以下,我們通過將選手關(guān)于博弈結(jié)果的知識隨著博弈的進(jìn)程展開而發(fā)生的這種變化,與我們所定義的行動函數(shù)一起,刻畫選手關(guān)于某博弈結(jié)果的絕對決策權(quán)。進(jìn)而在此基礎(chǔ)上,將理性選手定義為能夠知道具有絕對決策權(quán)的選手總是最大化他們收益的選手,并證明重復(fù)公告這種理性后所達(dá)到的、公告極限模型的可能世界集,與BI算法解集具有完全的一致性,從而提供出一個關(guān)于BI算法認(rèn)知基礎(chǔ)的完全刻畫定理。
考慮到易讀性,我們將一類符號集專門用以表達(dá)與博弈相關(guān)的命題。如符號ADi表示選手i對于歷史z所相應(yīng)的結(jié)果具有絕對決策權(quán),Rai表示i是理性的,zv’≥izv表示選手i偏好的是博弈結(jié)果v’而不是v。這樣,對于給定的一個動態(tài)博弈G,基于公開宣告邏輯PAL,我們構(gòu)建博弈G的認(rèn)知模型如下:
定義3.給定一個完美信息有窮泛型博弈G,關(guān)于G的一個博弈認(rèn)知模型MG’是一個四元組〈W, T, {Ri}i∈N,V〉,其中:
T是博弈G進(jìn)程時刻點(diǎn)集,即T={t|t∈N且t≤l(G)};
W是由博弈歷史z和博弈時段值t構(gòu)成的有序?qū)?,W={w|(zw,tw)∈Z×T};
Ri?W* W是狀態(tài)集N上的二元關(guān)系,Ri(w)= {v∈W|tv=tw且Λzv(t-1)=Λzw(t-1)≠⊥0};
V: W→2W是賦值函數(shù),指派原子命題到每個可能世界;
那么,與博弈相關(guān)的命題公式語義解釋為:①因其他公式語義是標(biāo)準(zhǔn)的Kripke語義,這里不再贅述。
MG’,(zw,tw)ADi當(dāng)且僅當(dāng)Λzw(tw)∈Ai/{⊥0}且?v∈{(zv,tv)∈W| zv=zw,tv≠tw,Card(Ri(v)≥2},滿足Card(Ri(v))>Card(Ri(w))≥2;
MG’,(zw,tw)zv’≥izv當(dāng)且僅當(dāng)ui(zv’)≥ui(zv);
MG’,(zw,tw)Rai當(dāng)且僅當(dāng)或者?v∈{(zv,tv)∈W|zv=zw},MG’,(zv,tv)ADi或者?v∈{(zv,tv)∈W|zv=zw}且?j∈N,滿足MG’,(zv,tv)Ki(ADj∧(zv≥jzv’)),其中?v’∈Rj(v)。
釋義1:在上述關(guān)于選手認(rèn)知擇換關(guān)系的定義中,條件tv=tw確保了選手的認(rèn)知擇換關(guān)系具有自反、對稱和傳遞性;而條件Λzv(t-1)=Λzw(t-1)則要求只要博弈下一階段的決策者(或活動選手)沒有做出選擇,那么,任何一個屬于當(dāng)前階段中的博弈結(jié)果都不會被選手排除。這是一個合理的規(guī)則,原因在于每個人在對手未做出選擇前,是不可能知道哪些結(jié)果確定地不會被選擇,即便下個決策者是自己,也是具有犯錯誤的可能性而選錯了行動,從而,任何一個結(jié)果都不應(yīng)該在下個選手未做出選擇前,而被選手從他們的可能世界集中剔除。同時,由于我們所關(guān)注的是選手關(guān)于博弈結(jié)果知識的描述,因此,對于一個具有完美信息的博弈而言,每個選手在博弈的每個階段,對于當(dāng)前博弈結(jié)果可能性的認(rèn)知都是一樣的,即對?w∈W,Ri(w)=Rj(w)。
釋義2:一個選手i在某可能世界w上具有絕對決策權(quán)ADi是指,選手i不需要考慮到后續(xù)博弈階段中參與選手行動選擇的影響,而可直接決定w所相應(yīng)的博弈結(jié)果是否能夠成為整個博弈的最終結(jié)果。②按照定義3,如果選手只是可以直接決定某結(jié)果,并不一定具有對于該結(jié)果的絕對決策權(quán),因為這并不意味著他不需要考慮后續(xù)階段參與選手的影響。例如,在前述例1中,盡管在博弈第2個時段(即t=2時),選手2可以直接選擇行動b3而使得博弈最終結(jié)果為z3。但是,由于在此階段選手2需要考慮到其對手后續(xù)行動對于自己當(dāng)前選擇所導(dǎo)致的收益的影響,使得他并不能確定地知道是否此結(jié)果是這個博弈中能夠最優(yōu)自己收益的結(jié)果,因此,選手2在此時段,并沒有此結(jié)果的絕對決策權(quán)。如前述,選手關(guān)于博弈結(jié)果的知識是隨著博弈進(jìn)程的展開而增加:在博弈初始階段選手i的認(rèn)知可能世界往往是較大集合。而隨著博弈進(jìn)程展開,某些結(jié)果會被選手摒棄,使得i關(guān)于最終博弈結(jié)果的知識在增加,相應(yīng)地,他的認(rèn)知可能世界集在減小。如果選手i在某世界w上擁有絕對決策權(quán),那么,i是博弈此階段的決策者(即,Λzw(tw)∈Ai/{⊥0})的同時,他還能夠確定地知道下一階段行動所導(dǎo)致結(jié)果的孰劣孰優(yōu)。因此,i一定他在此階段(tw)的認(rèn)知可能世界集Ri(w),應(yīng)該是所有相應(yīng)于狀態(tài)w上博弈結(jié)果(zw)他的那些非單元素的、認(rèn)知可能世界集中最小的集合,即?v∈{(zv,tv)∈W|zv=zw,tv≠tw,Card(Ri(v)≥2},滿足Card(Ri(v))>Card(Ri(w))≥2。這里,由于只有當(dāng)Λzw(tw)=⊥0或者選手在tw時已經(jīng)做出了選擇,其在w處的可能世界集才會是單元素集,即Ri(w)={w}。而在這兩種情形下,該選手都不可能具有絕對決策權(quán)。因此,通過選手在當(dāng)前世界上的認(rèn)知可能世界集的基數(shù)大小,來定義其在該世界上是否具有關(guān)于該世界的博弈結(jié)果的絕對決策權(quán),并限定Ri(v)和Ri(w)的基數(shù)值不小于2是有意義的。并且,根據(jù)定義3中關(guān)于選手認(rèn)知關(guān)系Ri的說明,不難得出:命題CNADi(?i∈N)在我們的博弈認(rèn)知模型中是恒有效的,從而保證了“博弈結(jié)構(gòu)是選手間的公共知識”這一經(jīng)典的博弈分析原則的成立。
釋義3:我們認(rèn)為如果選手i在某可能世界w上是理性的,那么,或者i對于當(dāng)前世界所相應(yīng)的結(jié)果沒有絕對決策權(quán);或者i知道博弈選手都是偏好最大化自我效益結(jié)果并且w對應(yīng)的結(jié)果zw是可以最大化未來對此結(jié)果具有絕對決策權(quán)的選手的收益。這是一種直觀性較強(qiáng)的理性要求。同時,理性Ra也是一種“面向未來”的理性,這是因為具有這樣理性特征的選手,要知道其他對手在有絕對選擇權(quán)時都會選擇自我利益最大化的行動,否則,如果當(dāng)前世界相應(yīng)的結(jié)果zw在未來不能最大化具有絕對決策權(quán)選手(如選手j)的收益,則該結(jié)果一定會被j所剔除,也因而不會使得當(dāng)前世界上的決策者i欲通過選擇該世界在此時段對應(yīng)zw的行動而獲得較好收益的愿望得到實(shí)現(xiàn)。因此,不同于已有文獻(xiàn)中關(guān)于BI算法理性要求,理性的判定需要涉及關(guān)于對手的信念、偏好等眾多信息,在我們的認(rèn)知模型中,選手的知識信息僅包括博弈結(jié)果認(rèn)知的判定,從而使得理性判定更為簡單直觀。
具體地說,下圖1是給定某博弈G(左圖)的認(rèn)知模型MG’,其中,W={w1,…, w15},分別是:
這里,歷史z1=a1b1和z5= a2b4a4在t=0和t=2階段時的行動函數(shù)分別是Λz1(0)=0和Λz5(0)=b4,R1(w1)={w1,w4,w7,w10,w13}(即博弈開始前,在世界w1上,選手1認(rèn)為這些都是有可能成為最終的博弈結(jié)果),R1(w15)={w12, w15}(當(dāng)選手2選擇行動b4后,在世界w15上,選手1認(rèn)為歷史z4和z5所對應(yīng)的結(jié)果是有可能成為最終的博弈結(jié)果)。這樣,依定義7,因為在w15上選手1具有絕對決策權(quán),即,MG’,w15AD1,并且MG’,w15z5≥1z4,所以,MG’,w15Ra1,進(jìn)而有MG’,w13Ra1和MG’,w14Ra1(因為zw13=zw14=zw15=z5);相應(yīng)地,因為w12對應(yīng)的結(jié)果z4不能夠最大化選手1的收益,所以在w10,w11和w12這三個世界上,選手1不再是理性的。另一方面,考慮到zw1= zw2= zw3= z1并且MG’,w1﹁AD1(因為Card(w1)>Card(w2)≥2),MG’,w2﹁AD1(因為Λzw2(2)=b1∈A2/{⊥0}),MG’,w3﹁AD1(因為Card(w3)=1),所以MG’,wkRa1(k=1, 2, 3)。依此分析可得,在這個初始的博弈認(rèn)知模型中,選手1只在w10,w11和w12這三個世界上是不理性的,而選手2在w4,w5和w6這三個世界上是不理性的。
考慮到公開宣告某個命題φ會導(dǎo)致原來模型M中φ不成立的可能世界被刪除,縮減了原來的認(rèn)知模型。隨著模型的變小,主體的知識在不斷增加。這一過程與博弈論中的重復(fù)剔除劣策略算法有很大的相似性。接下來我們將基于公開宣告邏輯PAL,通過證實(shí)理性可以作為宣告的命題,表明宣告理性Ra(記Ra=∧i∈NRai)的極限模型#(! Ra,MG’)中的可能世界集是與BI算法求解的均衡結(jié)果集是一致的。
為方便起見,我們用Ra表示博弈中所有選手都是理性的,即Ra=∧i∈NRai。并將一個初始完整的博弈認(rèn)知模型MG’的任一個子模型MG’|Ra稱為MG’的廣義博弈認(rèn)知模型,并用M’G’表示。
由于在完美信息博弈中,博弈結(jié)構(gòu)和選手的偏好都是公共知識,因此,在任一個廣義博弈認(rèn)知模型中,命題:ADi→KjADi和zw≥izv→Kj(zw≥izv)恒為真(這里,符號i, j代表任意的兩個選手)。另外,由于公告算子是一種部分函數(shù),即公告行為并不總是可以得到執(zhí)行,只有真命題才能作為公告的事實(shí),因此,下面的定理1確保了理性Ra是適合作為公開宣告的斷定。
定理1: Ra在任一個廣義博弈認(rèn)知模型中都是可滿足的。
考慮到重復(fù)宣告可以看做是博弈前存在于選手間思維中的一種虛擬信息流互動的情形,[18]下文刻畫定理I表明:博弈開始前,具有理性選手推理彼此也為這樣的理性特征時,選手間的這種虛擬高階信息互動交流(即你知道我知道你是理性的選手等互動認(rèn)知交流情形)的結(jié)果,迫使選手將與理性命題真值不一致的可能狀態(tài)排除在外,從而化簡原博弈認(rèn)知模型到宣告極限模型,而最終留在此宣告極限模型中的可能世界所對應(yīng)的博弈結(jié)果,則是與通過BI算法求得的博弈結(jié)果是完全一致的。
定理2(刻畫定理I):給定一個完美信息有窮泛型博弈G,MG’=〈W, T, {Ri}i∈N,V〉是關(guān)于G的博弈認(rèn)知模型,設(shè)w∈W,如果經(jīng)過重復(fù)公開宣告命題后Ra,w仍被保留在最終穩(wěn)定的某個廣義博弈認(rèn)知模型M’G’,即,M’G’是一個宣告極限模型#(Ra, MG’),那么,w所對應(yīng)的結(jié)果也一定屬于BI算法的均衡結(jié)果集,反之亦成立。形式化為:w∈#(Ra, MG’)?zw∈BI*
圖2展示了重復(fù)公開宣告主體理性所導(dǎo)致的博弈結(jié)果。在公開宣告理性三次后,博弈認(rèn)知模型達(dá)到宣告極限,不再發(fā)生改變,而對此博弈,這個宣告極限中的可能世界所對應(yīng)的結(jié)果恰是該博弈的子博弈精煉均衡。
基于上面的刻畫定理,進(jìn)一步我們易得:
定理3(刻畫定理II):給定一個完美信息有窮泛型博弈G,如果歷史z∈BI*,那么存在一個博弈認(rèn)知模型,使得對wz∈W, MG’,wzCNRa,反之亦成立。
圖2
利用動態(tài)認(rèn)知邏輯研究動態(tài)博弈的思想是由van Benthem提出來[19]并進(jìn)行了多次討論[20]。本文的研究主要受益于這些成果。不過在這些研究論述中,van Benthem著眼于將邏輯作為工具,促進(jìn)和深化博弈研究的思想引領(lǐng),并沒有給出關(guān)于BI算法認(rèn)知條件的刻畫理論。盡管van Benthem也提及通過重復(fù)公告理性可以得到BI算法結(jié)果,然而在這些研究中,他所描述的理性沒有涉及選手的知識或信念,是一種“行為理性”。但由于公告算子是部分函數(shù),即公告行為可以發(fā)生的前提是所要公告的事實(shí)必須為真。這樣,公告這種理性的動作只能是在博弈完全結(jié)束后才能發(fā)生。因此van Benthem在這些文獻(xiàn)中所提出的重復(fù)公告理性理論只是一種通過動態(tài)邏輯求解完美信息動態(tài)博弈的方法,并不是關(guān)于BI算法的認(rèn)知刻畫。本文中,我們著眼于算法本身,通過構(gòu)建一類博弈認(rèn)知模型,利用公告邏輯PAL動態(tài)更新認(rèn)知模型,探討了BI算法背后的認(rèn)知機(jī)制并提供了一種關(guān)于此算法的動態(tài)認(rèn)知刻畫理論。由于刻畫分析是基于一種動態(tài)認(rèn)知邏輯—公開宣告邏輯PAL,這為未來我們研究動態(tài)模型檢測動態(tài)博弈認(rèn)知系統(tǒng)性質(zhì),提供了能行的理論基礎(chǔ)。未來我們將拓展DEMO,①DEMO是由Eijck在2007年提出的一種動態(tài)模型檢測工具,已被開發(fā)用于許多認(rèn)知問題的解決方案正確性的檢測(J. Eijck, DEMO-a Demo of Epistemic Modelling Interactive Logic,Amsterdam: Amsterdam University Press, 2007,Technology Report)。實(shí)現(xiàn)利用該工具驗測我們理論的正確性。
[參考文獻(xiàn)]
[1] Giacomo Bonanno,“A Dynamic Epistemic Characterization of Backward Induction without Counterfactuals”,Games and Economic Behavior, 2013, vol. 78, pp.31-44.
[2] Pierpaolo Battigalli, Alfredo Di-Tillio and Dov Samet,“Strategies and Interactive Beliefs in Dynamic Games”,[book auth.] Daron Acemoglu, Manuel Arellano and Eddie Dekel,Advances in Economics and Econometrics. Theory and Applications: Tenth World Congress,Cambridge: Cambridge University Press, 2012.
[3][7] Pierpaolo Battigalli, Marciano Siniscalchi,“Strong Belief and Forward Induction Reasoning”,J. Econ. Theory, 2002,pp.356-391.
[4][12] Elchanan Ben-Porath,“Nash Equilibrium and Backwards Induction in Perfect Information Games”,Rev. Econ. Stud.,1997, vol.64, pp.23-46.
[5] Robert Aumann,“On the Centipede Game”,Games Econ. Behav.,1998, vol.23, pp.97-105.
[6] Robert Aumann,“Backward Induction and Common Knowledge of Rationality”,Games Econ. Behav.,1995,pp.8-19.
[8] Thorsten Clausing,“Doxastic Conditions for Backward Induction”,Theory Dec.,2003, pp.315-336.
[9] Adam Brandenburger,“The Power of Paradox: Some Recent Developments in Interactive Epistemology”,Int. J. Game Theory,2007, vol.35, pp.465-492.
[10] Andrés Perea, Belief in the Opponents’Future Rationality,Maastricht University,2011,Technical Report.
[11] Andrés Perea, Epistemic Game Theory: Reasoning and Choice,Cambridge: Cambridge University Press, 2012.
[13] Joseph Halpern,“Substantive Rationality and Backward Induction”,Games Econ. Behav.,2001, vol.37, pp.425-435.
[14] A. Baltag, L. S. Moss and S. Solecki, The Logic of Public Announcements, Common Knowledge and Private Suspicious,Amsterdam University. s.l.: CWI, 1997,Technical Report SEN-R9922.
[15][18][19] Johan van Benthem,“Rational Dynamics and Epistemic Logic in Games”,Game Theory Review International,2007, vol.9,no.1,pp.13-45.
[16] A. Rubinstein, A Course in Game Theory,Cambridge, Mass.: The MIT Press, 1994.
[17] Geir B. Asheim,“On the Epistemic Foundation of Backward Induction”,Mathematical Social Sciences,2002, vol.44, pp.121-144.
[20] Johan van Benthem, Logic in Games,Cambridge, Massachusetts: The MIT Press, 2014.
責(zé)任編輯:羅蘋
作者簡介崔建英,中山大學(xué)哲學(xué)系、邏輯與認(rèn)知研究所講師(廣東廣州,510275)。
〔中圖分類號〕B81-05
〔文獻(xiàn)標(biāo)識碼〕A
〔文章編號〕1000-7326(2016)04-0035-07