賀壽南
(衡陽師范學院人文社會科學系,湖南衡陽421008)
不完全信息博弈的邏輯分析
賀壽南
(衡陽師范學院人文社會科學系,湖南衡陽421008)
在不完全信息靜態(tài)博弈中,參與人選擇的依據(jù)就是在給定自己的類型以及其他參與人的類型與策略選擇之間關(guān)系的條件下,使得自己的期望收益最大化。而在不完全信息動態(tài)博弈中,參與人根據(jù)他所觀察到的其他參與人的實際行動,來修正自己的初步判斷,并根據(jù)這種不斷變化的判斷,選擇自己的策略。
不完全信息;博弈;歸納推理;邏輯基礎(chǔ)
在當今博弈論的研究前沿,邏輯的基礎(chǔ)地位和作用日益突出。20世紀80年代和90年代,關(guān)于共同知識、動態(tài)博弈的逆向歸納法、邏輯全知悖論、貝葉斯均衡的形式化、概率分配的可加性等問題的討論成為博弈論的熱門話題,相關(guān)的論文不斷出現(xiàn)在博弈論、邏輯學、經(jīng)濟學、人工智能等學科的刊物上。經(jīng)典的博弈是建立在完全信息基礎(chǔ)之上的,但是在現(xiàn)實中,決策者往往很難做到對自己及競爭對手信息的完全掌握。不完全信息博弈論作為一門發(fā)展中的學科,其理論體系遠未成熟,其邏輯基礎(chǔ)更有待于充實。因此,系統(tǒng)地研究不完全信息博弈的歸納概率邏輯基礎(chǔ),形式化、公理化地刻畫知識、信念和認知推理,用邏輯的有效性、恰當性分析“均衡”“解”等概念,是博弈論理論發(fā)展的內(nèi)在要求,也是邏輯學所應當應對的一個課題[1]。
不完全信息博弈指參與者對策略空間及策略組合下的支付沒有完全的了解,至少有一個參與者不能確切知道其他參與者的支付函數(shù),也就是說參與者的得益函數(shù)不是公共知識[2]。不完全信息博弈中的“不完全信息”,指博弈的策略空間及支付函數(shù)不是參與人的公共知識。作為不完全信息博弈的分析工具,不完全信息博弈論的主要任務是刻畫博弈主體知識信念的概然性、推理的不確定性和博弈均衡的隨機性。由于博弈參與人的得益函數(shù)不是公共知識,參與者不能確切知道其他參與者的支付函數(shù),即使博弈中存在唯一的納什均衡,這個均衡也不會是公共知識,而且這樣的均衡不可能在一次博弈中達到,而必須通過多次博弈才能達到。在這樣的過程中,博弈參與人是如何確定自己的策略呢?他只能根據(jù)自己的經(jīng)驗和歸納學習別人以往的策略,從而決定自己的策略,參與人所運用的推理方法就是歸納推理。這種不完全信息博弈按照博弈各方是否同時決策,可分為不完全信息靜態(tài)博弈和不完全信息動態(tài)博弈兩種。相應地,歸納推理也分為不完全信息靜態(tài)博弈中的歸納推理和不完全信息動態(tài)博弈中的歸納推理兩種。下面筆者對這兩種推理作具體的邏輯分析。
不完全信息博弈論同歸納概率邏輯有著密切的聯(lián)系。不完全信息博弈論的歸納概率邏輯基礎(chǔ)問題是博弈論專家首先提出來的。在不完全信息博弈論發(fā)展初期,就借用了決策論中以概率邏輯為基礎(chǔ)的期望效用論和貝葉斯方法;在其“公理化”刻畫知識信念的概然性和不確定性的過程中,利用了歸納邏輯語義分析中的狀態(tài)空間和信息結(jié)構(gòu)。如Aumann在對不完全信息博弈的主體認知推理的“公理化”刻畫中構(gòu)造了信息結(jié)構(gòu),提出了共同知識和信念概念[3]。Halpern提出了知識和信念邏輯的形式系統(tǒng)和語義模型,并且針對“共同知識”“共同信念”進行了語形和語義兩方面的刻畫[4-5]。我們通過海薩尼轉(zhuǎn)換①所有參與人的真實類型是給定的,其他參與人仍然不知道某一參與人的真實類型,但是知道可能出現(xiàn)的類型的概率分布。只要知道某一參與人的不同類型的概率分布,就可將不確定條件下的選擇轉(zhuǎn)換為風險條件下的選擇。這種轉(zhuǎn)換稱之為“海薩尼轉(zhuǎn)換”。,即通過假定其他參與人知道某一參與人的所屬類型的概率分布,計算博弈的貝葉斯納什均衡解。下面以企業(yè)市場進入為例來說明。
假定某市場原來為完全壟斷市場,只有一家企業(yè)A(以下簡稱A)提供產(chǎn)品和服務?,F(xiàn)在企業(yè)B (以下簡稱B)考慮是否進入。當然,A不會坐視B進入而無動于衷。B也清楚地知道,是否能夠進入,完全取決于A為阻止其進入所花費的成本大小。對A而言,他所花費的成本高低與其收益大小有關(guān)。假定該市場進入博弈的收益矩陣如圖1所示。
表1 市場進入博弈的收益矩陣
在這個博弈中,B面臨的是不確定性條件下的選擇問題。B不知道原壟斷者A究竟是屬于阻止成本低還是阻止成本高,但他知道A只能有這兩種成本方式(選擇)以及相應選擇的概率分布,所以說這是一個不完全信息博弈問題。又因為雙方的行動有先后順序,但是后行動者B并不知道先行動者A所采取的行動,只能通過所掌握的有限信息進行歸納,從而預測出對方可能會采取何種策略,因此它也是一個靜態(tài)博弈。對于這類博弈的均衡,海薩尼(J. C.Harsany)作了系統(tǒng)的分析,提出一種研究不完全信息博弈均衡的方法。若A屬于高阻止成本的概率為p,則A屬于低阻止成本的概率就為(1-p)。如果A的阻止成本高,A將默許B進入市場;如果A的阻止成本低,A將阻止B進入。在以上兩種情況下,B的收益分別為30、-10。所以,B選擇進入的期望收益為30 p+(-10)×(1-p);選擇不進入的期望收益為0。顯然,只要B選擇進入的期望收益大于不進入的期望收益,B就應該選擇進入,否則,B選擇不進入。也就是說,B的選擇取決于30 p +(-10)×(1-p)是否大于0,即只要A高阻止成本的概率大于25%時,B選擇進入得到的期望收益大于選擇不進入的期望收益。此時,B選擇進入是其最優(yōu)策略。而這時的貝葉斯納什均衡為:B選擇進入,高成本原壟斷者A選擇默許,而低成本原壟斷A選擇阻止。
從上述分析可以看出,按照海薩尼的方法,所有參與人的真實類型都是給定的。其他參與人雖然不清楚某一參與人的真實類型,但知道這些可能出現(xiàn)的類型的分布概率,而且這種概率是公共知識。用上例來說,公共知識不僅意味著B知道A高阻止成本與低阻止成本的分布概率,而且意味著A也清楚B知道這一概率。通過海薩尼轉(zhuǎn)換,不完全信息博弈變成了完全但不完美信息博弈。這里的不完美信息,就是指其他參與人只知道某一參與人某些方面類型的分布概率,而不知道該參與人在這些方面的真實類型。在上述轉(zhuǎn)換的基礎(chǔ)上,海薩尼提出了貝葉斯納什均衡。對此,可以作如下解釋:在不完全信息靜態(tài)博弈中,參與人同時行動,沒有機會觀察到別人的選擇。給定其他參與人的策略選擇,每個參與人的最優(yōu)策略依賴于自己的類型。由于每個參與人僅知道其他參與人有關(guān)類型的分布概率,而不知道其真實類型,因而,他不可能知道其他參與人實際上會選擇什么策略。但是,他能夠正確地預測到其他參與人的選擇與其各自的有關(guān)類型之間的關(guān)系。因此,該參與人的決策目標就是:在給定自己的類型,以及給定其他參與人的類型與策略選擇之間關(guān)系的條件下,使得自己的期望效用最大化。貝葉斯納什均衡是一種類型依賴型策略組合。在給定自己的類型和其他參與人類型的分布概率的條件下,這種策略組合使得每個參與人的期望效用達到了最大化。
在不完全信息動態(tài)博弈中,雖然后行動者只能觀測到先行動者的行動,不能觀測到先行動者的類型,但由于對方的行動是類型依存的,雙方的行動都傳遞著(或顯示出)有關(guān)自己類型的某種信息,后行動者可以通過觀察先行動者所選擇的行動來推斷其類型或修正對其類型的先驗信念,進而選擇自己的最優(yōu)策略。而先行動者預測到自己的行動將被對手所觀察和利用,就會設(shè)法傳遞對自己最有利的信息,避免傳遞對自己不利的信息。這就反映出不完全信息動態(tài)博弈的特征:當一方對另一方的行動作出反應時,他可以從對手的行動中推斷出有關(guān)信息。如軍事對抗,敵對雙方都盡量隱蔽自己的意圖,秘密地調(diào)動部隊,以期給對手以突入其來的一擊。指揮員必須在對手情況不明了的情況下制定作戰(zhàn)計劃,這一決策過程是一種典型的不完全信息動態(tài)博弈。這種推斷過程采取了貝葉斯修正的形式,即根據(jù)假設(shè)的均衡策略和觀察到的行動修正有關(guān)行動者特征或行動的信息。進行貝葉斯修正應該使用“逆向歸納法”。由于一般無法精確地知道對手的狀態(tài),所以,計算中帶有不確定性。
假設(shè)有一個連鎖店,稱為局中人A,在10個市鎮(zhèn)具有分店,在每個市鎮(zhèn)存在一個潛在競爭者,即存在一個商人可能會在當?shù)亟⑼瑯宇愋偷牡诙€商店。假設(shè)第k個市鎮(zhèn)的潛在競爭者被稱為局中人Mk,因此這一博弈有11個局中人:連鎖店,即局中人A和他的10個潛在競爭者,即局中人Mk,k=1, 2,…,10。除了這10個局中人以外,連鎖店沒有任何其他競爭者。對局中人Mk來說,他必須決定:是在他的市鎮(zhèn)中建立第二個商店,還是以其他方式來使用他的自有資本。如果他選擇后者,他就不再是局中人A的潛在競爭者。如果第二個商店在市鎮(zhèn)k建立起來,則局中人A必須對市鎮(zhèn)k的兩種價格策略進行選擇。他的反應可以是“合作”或者“攻擊”。合作反應會導致局中人A和Mk在市鎮(zhèn)k都有較高利潤,但如果局中人Mk不建立第二個商店,則局中人A在市鎮(zhèn)k的利潤會更高。如果局中人A采取攻擊反應時,則局中人Mk不建立第二個商店,他的利潤會更好。其收益矩陣如表2。
表2 局中人A和局中人Mk的收益矩陣
在這個博弈中,局中人A和局中人Mk(k=1, 2,…,m)在連貫階段序列1,2,…,m之上進行。在階段k開始時,局中人Mk必須在“進入”和“退出”之間進行選擇(決策“進入”意味著局中人Mk建立起第二個商店),局中人Mk的決策會馬上被所有局中人知曉。如果局中人Mk的決策是“退出”,則在階段k中不再進行決策。如果他的選擇是“進入”,則局中人A必須在“合作”和“攻擊”之間進行選擇,這一決策也會馬上為所有局中人知曉。因此,對于k=1, 2,…,m-1,階段k+1根據(jù)同樣規(guī)則開始和進行。博弈在階段m后結(jié)束。
在該博弈中,由于后行動者局中人A只能觀測到先行動者局中人Mk的行動,但可以通過觀察先行動者局中人Mk所選擇的行動來推斷其類型或修正對其類型的先驗信念,進而選擇自己的最優(yōu)策略。而先行動者局中人Mk預測到自己的行動將被對手所觀察和利用,就會設(shè)法傳遞對自己最有利的信息,避免傳遞對自己不利的信息。所以該博弈是不完全信息動態(tài)博弈。那么,這一博弈中,局中人是如何進行歸納推理的呢?
如果在階段10中局中人M10選擇了“進入”,若局中人A的反應是“合作”時會使他得到支付為2,但若其反應為“攻擊”,則相應支付為0,所以局中人A此時的最優(yōu)選擇是“合作”反應。長遠考慮在其中不起作用,因為在階段10之后博弈結(jié)束。這說明,對于局中人M10來說最好是選擇“進入”。顯然,階段10中的策略形勢和局中人在階段1,2,…,9中的決策無關(guān)。階段9中的決策對階段10中的策略形勢沒有影響。如果局中人M9選擇“進入”,則“合作”反應對局中人A來說是最優(yōu)的;“攻擊”反應將不會阻止局中人M10。顯然可以由此歸納得到結(jié)論,每個局中人k應選擇“進入”,而每次局中人A應使用“合作”反應。博弈剩余部分的策略形勢與是否知道階段k前的決策無關(guān)。如果已經(jīng)知道在k+1,…,10階段的局中人Mk+1,…,M10會選擇“進入”,而局中人A會總是選擇“合作”選項,則會得到在階段k中選擇“進入”也將導致“合作”反應。如果這一博弈以這種方法進行,則局中人Mk(k=1,2,…,10)各自得到的支付為2,而局中人A得到的支付總和為20。
由此可以看出:逆向歸納法是動態(tài)博弈的常用推理方式,也是達成動態(tài)博弈均衡的有效方法。通過逆向歸納法求出的納什均衡是一個策略組合的序列,其中每一個策略組合對應一個具體的博弈階段[6]。
通過以上分析,可以看出:在不完全信息靜態(tài)博弈中,參與人的行動同時發(fā)生,沒有先后順序,因此,沒有任何參與人能夠有機會觀察其他參與人的選擇。在給定其他參與人的策略條件下,每個參與人的最優(yōu)策略依賴于自己的類型。每個參與人雖然不知道其他參與人實際選擇什么策略,但是,只要知道其他參與人有關(guān)類型的概率分布,他就能夠正確地預測其他參與人的選擇與其各自的有關(guān)類型之間的關(guān)系。因此,該參與人選擇的依據(jù)就是在給定自己的類型,以及其他參與人的類型與策略選擇之間關(guān)系的條件下,使得自己的期望收益最大化。而在不完全信息動態(tài)博弈中,某一參與人根據(jù)其他參與人的不同類型及其所屬類型的概率分布,建立自己的初步判斷。當博弈開始后,該參與人就可以根據(jù)他所觀察到的其他參與人的實際行動,來修正自己的初步判斷。并根據(jù)這種不斷變化的判斷,選擇自己的策略。
不完全信息博弈論不僅是完全信息博弈論在理論上的推廣,也是博弈論面向?qū)嶋H和應用的發(fā)展。在人類社會和自然界出現(xiàn)的博弈現(xiàn)象中,主體只擁有不完全的相關(guān)信息是普遍的情形,知識信念的概然性、理智有限性和推理不確定性是主體認知狀況的常態(tài)。正是由于認識到這種普遍性,博弈論的重心才發(fā)生了從完全信息分析向不完全信息分析的轉(zhuǎn)移。不完全信息博弈論在處理信息不完全性、知識信念概論性和推理不確定性時,不是把它們當做完全性和確定性的偏離,而是當做分析的基本預設(shè)。在不完全信息博弈論中,博弈主體是有限理性的“貝葉斯型主體”,知識信念是狀態(tài)空間上的概率分配,推理形式主要是歸納概率推理和缺省推理。通過這種處理,不完全信息博弈論中形成了以貝葉斯均衡為核心的分析框架,其分析能力和應用范圍都得到了較大的增強和拓寬。不完全信息博弈論的發(fā)展,不僅催生了信息經(jīng)濟學等新的經(jīng)濟學分支,而且使博弈論超越經(jīng)濟學范圍進入政治學、法學、社會學、倫理學、生物學等領(lǐng)域,對這些學科的分析方法、研究范式產(chǎn)生了深刻的影響。
[1]任曉明.新編歸納邏輯導論:機遇決策與博弈的邏輯[M].鄭州:河南人民出版社,2009:216.
[2]賀壽南.博弈視野中的邏輯推理問題[J].科學技術(shù)與辯證法,2004(5):52.
[3]Aumann R J.Agreeing to disagree[J].Annals of Statistics,1976:1236-1239.
[4]Halpern J Y,Moses Y.Towards a theo ry of know ledge and ignorance:p reliminary report[M]//Logic and models of concurrent systems.New Yo rk:Sp ringer-Verlag New Yo rk,Inc,1985:459-476.
[5]Halpern J Y,Moses Y.A guide to completeness and comp lexity formodal logicsof know ledge and belief[J].A rtificial Intelligence,1992(3):319-379.
[6]張曉云.博弈邏輯及其應用研究[D].南京:南京大學, 2008:42-43.
Abstract:In incomp lete info rmation static game,the participation choose tactics that make their ow n expected revenue maximization on the condition that given itsow n type and relationship between typesof other participants and strategy selection.In incomp lete information dynamic game,the participants correct their initial judgments in accordance with real actions of other participants that he observed and choose their ow n strategy in the basisof this changing.
Key words:incomp lete info rmation;game;inductive;logical basis
Logical analysis of incomplete info rmation game
HE Shounan
(Department of Humanities and Social Science,Hengyang Normal University,Hengyang 421008,China)
B812 文獻標志碼:A 文章編號:1671-9476(2010)04-0104-04
2010-04-21;
2010-05-10
國家社科基金項目“經(jīng)濟邏輯研究”(06BZX050);衡陽師范學院科學基金項目“博弈邏輯中的歸納推理研究”(09B03)。
賀壽南(1970-),男,湖南雙峰人,講師,博士,南京大學現(xiàn)代邏輯與邏輯應用研究所兼職研究員,研究方向為決策邏輯、歸納邏輯。