囚徒困境博弈模型作為演化博弈經(jīng)典模型成為近年來的研究熱點,針對規(guī)則格子網(wǎng)絡(luò)中如何提高囚徒困境博弈的合作水平問題,我們引入獎勵因子來促進參與者采取合作策略。為了研究獎勵因子對網(wǎng)絡(luò)中所有個體采取合作或背叛策略的影響,并探究獎勵因子針對不同獎勵對象時對規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響,我們引入3種獎勵機制:只獎勵合作者;只獎勵背叛者;對整個網(wǎng)絡(luò)中的所有個體都獎勵。我們在Matlab平臺上進行仿真實驗,看到獎勵因子會明顯提高網(wǎng)絡(luò)整體的合作水平,并找到其原因,是因為獎勵因子對合作者的影響要高于對背叛者的影響,使得當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而升高,網(wǎng)絡(luò)中所有個體更趨向于合作而不是背叛。
自1950年Nash所做出的開創(chuàng)性工作以來,博弈成為了一門系統(tǒng)理論,并被廣泛應(yīng)用到人類社會,特別是經(jīng)濟行為當中。作為一門交叉研究學科,在復雜網(wǎng)絡(luò)中的演化博弈成為現(xiàn)在的關(guān)注熱點之一。囚徒困境博弈模型作為演化博弈經(jīng)典模型之一,研究其在規(guī)則網(wǎng)絡(luò)中演化更是重中之重[1-5]。
現(xiàn)實中利己者間出現(xiàn)的自發(fā)合作行為及其維持機制得到了越來越多的關(guān)注[6-7],將演化博弈理論與復雜網(wǎng)絡(luò)的結(jié)合也成為了一個熱點[8-9]。在復雜網(wǎng)絡(luò)的演化博弈中,通常以網(wǎng)絡(luò)中的節(jié)點作為個體,使用規(guī)則格子網(wǎng)絡(luò)表示一般性人際關(guān)系網(wǎng)絡(luò),為了有效地促進參與者采取合作策略,在囚徒困境博弈模型中引入獎勵因子,在網(wǎng)絡(luò)中的個體進行策略學習時,我們改變其收益函數(shù),使得下一輪的收益出現(xiàn)變動,從而探究這種變動對博弈模型合作水平的影響。本文將基于“獎勵”機制,在引入獎勵因子的概念,又探究獎勵因子針對不同獎勵對象對規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響。
本文首先闡述囚徒困境博弈模型及規(guī)則網(wǎng)絡(luò)模型的構(gòu)建,并將具體闡述本研究所采用的模型及其收益矩陣、獎勵因子;其次進行實驗仿真,并利用Matlab實現(xiàn)模型的構(gòu)建與仿真實驗;最后給出研究結(jié)論。
模型
囚徒困境博弈模型
在博弈中,每個個體都有幾種策略,個體會從這些策略中選出一種以使自己獲得最大的收益[10],并且每個人都是理性的。囚徒困境是兩個被捕的囚徒之間的一種特殊博弈,其說明了為什么甚至在合作對雙方都有利時,保持合作也是困難的。在囚徒困境博弈模型中,每個個體都有兩種策略選擇:合作C(Cooperation)、背叛D(Defection)。如A、B兩個個體進行博弈時,會出現(xiàn)四種情況:如果個體A采取背叛D策略,個體B采取合作C策略,那么個體A的收益為T,個體B的收益為S;如果A、B雙方都采取合作C策略,那么雙方均獲得利益為R;如果A、B雙方都采取背叛D策略,那么雙方均獲得收益為P。即收益矩陣E為:
且對于囚徒困境博弈,有如下規(guī)則:T>R>P>S,且2R>T+S。在囚徒困境博弈中,兩個個體需要同時決定他們各自的策略。
為了方便研究,簡化收益矩陣中參數(shù)的數(shù)目,我們使用Weak-PD模型,即采用Nowak和May使用的收益矩陣E:
在本文中,我們考慮PD博弈模型為Weak-PD博弈模型,且令1
方格子網(wǎng)絡(luò)模型
本文采用100×100具有周期邊界條件的方格子網(wǎng)絡(luò),即存在10 000個個體,如圖1所示。其中,黃色圓圈表示網(wǎng)絡(luò)中的個體,數(shù)字為個體標號,黑色線表示網(wǎng)絡(luò)中個體與個體之間的連接關(guān)系,藍色虛線方框內(nèi)為100×100方格子網(wǎng)絡(luò),藍色虛線方框外側(cè)表示該網(wǎng)絡(luò)所具有的周期邊界條件。因為為方格子網(wǎng)絡(luò),則每個個體有四個鄰居。
引入獎勵因子
分析收益矩陣,如果兩個個體進行一次博弈,個體為了達到自己收益最大化,都會選擇背叛策略。但是為了提高整體的合作水平,需要采取某種“獎勵”措施來促進個體采取合作策略,從而有利于合作策略的涌現(xiàn)和維持。在這里我們引入文獻[11]中的獎勵因子規(guī)則,對網(wǎng)絡(luò)中的個體進行收益上的獎勵。為了便于研究不同獎勵機制對規(guī)則網(wǎng)絡(luò)中囚徒困境博弈合作水平的影響,我們維持一個穩(wěn)定的記憶長度M。
Matlab仿真及結(jié)果分析
Matlab是將計算矩陣、分析數(shù)值、數(shù)據(jù)可視化以及非線性動力學系統(tǒng)的建模和仿真等諸多強大功能集成在一起的強大軟件。本文利用Matlab軟件進行仿真,過程為:在圖1所示的方格子網(wǎng)絡(luò)中進行博弈;初始網(wǎng)絡(luò)中全部10 000個個體的初始策略,在這里我們采用隨機賦值初始條件法;設(shè)定MCS為1×104;由于初始條件為隨機初始條件,為了消除隨機誤差,我們做了100次系綜平均。
在本文中,我們將獎勵機制分為3種:1)只獎勵合作者;2)只獎勵背叛者;3)對整個網(wǎng)絡(luò)中的所有個體都獎勵。
如圖2所示,a為只獎勵合作者、b為只獎勵背叛者、c為同時獎勵時,獎勵因子分別取
通過比較圖2中a、b、c三圖,我們可以發(fā)現(xiàn),選擇不同的獎勵機制,對網(wǎng)絡(luò)中整體的合作水平的影響也不同。如果只獎勵合作者,當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體的合作水平會隨著獎勵因子的增加而增加,網(wǎng)絡(luò)中的個體更趨向于合作;如果只獎勵背叛者,當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而降低,網(wǎng)絡(luò)中的個體更趨向于背叛;如果對整個網(wǎng)絡(luò)中所有個體都獎勵,當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體合作水平呈現(xiàn)出隨著獎勵因子的增加而升高,即可以說明獎勵因子對合作者的影響要高于對背叛者的影響,使得網(wǎng)絡(luò)中所有個體更趨向于合作,這也是獎勵因子可以提高網(wǎng)絡(luò)整體合作水平的原因。
總結(jié)與展望
本文建立一個基于獎勵因子的囚徒困境博弈模型,在網(wǎng)絡(luò)中個體博弈過程中,根據(jù)個體所采取的策略不斷更新其收益,使得個體在更新策略時考慮獎勵因子對個體學習過程的影響。我們看到獎勵因子會明顯提高網(wǎng)絡(luò)整體的合作水平,并發(fā)現(xiàn)獎勵因子對合作者的影響要高于對背叛者的影響,導致網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而升高,網(wǎng)絡(luò)中所有個體更趨向于合作而不是背叛。該結(jié)論對獎勵因子提高博弈合作水平的原因有了更全面的解讀。
參考文獻
[1]SANTO FORTUNATO. UNIVERSALITY OF THE THRESHOLD FOR COMPLETE CONSENSUS FOR THE OPINION DYNAMICS OF DEFFUANT et al.[J].International Journal of Modern Physics C,2004,15(9):1301-1307.
[2]王文旭.復雜網(wǎng)絡(luò)的演化動力學及網(wǎng)絡(luò)上的動力學過程研究[D].合肥:中國科學技術(shù)大學,2007.
[3]代瓊琳.復雜網(wǎng)絡(luò)上的演化博弈動力學研究[D]北京:北京郵電大學,2011.
[4]楊志虎.復雜網(wǎng)絡(luò)上的演化博弈與合作演化動力學研究[D].西安:西安電子科技大學,2014.
[5]李燕.空間囚徒困境博弈中合作解的演化[D].杭州:浙江大學,2017.
[6]廖列法,孫瑋,劉朝陽.基于演化博弈研究移動和噪聲對合作的影響[J].計算機應(yīng)用與軟件,2015(3):53-56.
[7]劉華,李瑩,趙建立,等.沉默策略對囚徒困境博弈合作水平的影響[J].數(shù)學的實踐與認識,2016,46(20):240-247.
[8]宋亦泠,王秉中,朱洪,等.重復囚徒困境的學習和響應(yīng)模型[J].計算機工程與科學,2007,29(10):115-119.
[9]劉貞,任玉瓏,唐松林.基于Mealy自動機的重復囚徒困境博弈模型[J].管理科學,2006,19(5):66-70.
[10]Doebeli M,Hauert C.Models of cooperation based on the Prisoners Dilemma and the Snowdrift game[J].Ecology Letters,2005,8(7):748-766.
[11]陳維春,尚麗輝.基于獎勵因子的囚徒困境博弈模型研究[J].電子科技,2016,29(3):5-6.
(作者簡介:唐宸,重慶市第八中學校。)endprint