基于多種獎勵機制的囚徒困境博弈模型研究

2018-01-11 17:51:04唐宸

科學家 2017年24期

囚徒困境博弈模型作為演化博弈經(jīng)典模型成為近年來的研究熱點，針對規(guī)則格子網(wǎng)絡(luò)中如何提高囚徒困境博弈的合作水平問題，我們引入獎勵因子來促進參與者采取合作策略。為了研究獎勵因子對網(wǎng)絡(luò)中所有個體采取合作或背叛策略的影響，并探究獎勵因子針對不同獎勵對象時對規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響，我們引入3種獎勵機制：只獎勵合作者；只獎勵背叛者；對整個網(wǎng)絡(luò)中的所有個體都獎勵。我們在Matlab平臺上進行仿真實驗，看到獎勵因子會明顯提高網(wǎng)絡(luò)整體的合作水平，并找到其原因，是因為獎勵因子對合作者的影響要高于對背叛者的影響，使得當都有相同背叛獲利b值時，網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而升高，網(wǎng)絡(luò)中所有個體更趨向于合作而不是背叛。

自1950年Nash所做出的開創(chuàng)性工作以來，博弈成為了一門系統(tǒng)理論，并被廣泛應(yīng)用到人類社會，特別是經(jīng)濟行為當中。作為一門交叉研究學科，在復雜網(wǎng)絡(luò)中的演化博弈成為現(xiàn)在的關(guān)注熱點之一。囚徒困境博弈模型作為演化博弈經(jīng)典模型之一，研究其在規(guī)則網(wǎng)絡(luò)中演化更是重中之重[1-5]。

現(xiàn)實中利己者間出現(xiàn)的自發(fā)合作行為及其維持機制得到了越來越多的關(guān)注[6-7]，將演化博弈理論與復雜網(wǎng)絡(luò)的結(jié)合也成為了一個熱點[8-9]。在復雜網(wǎng)絡(luò)的演化博弈中，通常以網(wǎng)絡(luò)中的節(jié)點作為個體，使用規(guī)則格子網(wǎng)絡(luò)表示一般性人際關(guān)系網(wǎng)絡(luò)，為了有效地促進參與者采取合作策略，在囚徒困境博弈模型中引入獎勵因子，在網(wǎng)絡(luò)中的個體進行策略學習時，我們改變其收益函數(shù)，使得下一輪的收益出現(xiàn)變動，從而探究這種變動對博弈模型合作水平的影響。本文將基于“獎勵”機制，在引入獎勵因子的概念，又探究獎勵因子針對不同獎勵對象對規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響。

本文首先闡述囚徒困境博弈模型及規(guī)則網(wǎng)絡(luò)模型的構(gòu)建，并將具體闡述本研究所采用的模型及其收益矩陣、獎勵因子；其次進行實驗仿真，并利用Matlab實現(xiàn)模型的構(gòu)建與仿真實驗；最后給出研究結(jié)論。

模型

囚徒困境博弈模型

在博弈中，每個個體都有幾種策略，個體會從這些策略中選出一種以使自己獲得最大的收益[10]，并且每個人都是理性的。囚徒困境是兩個被捕的囚徒之間的一種特殊博弈，其說明了為什么甚至在合作對雙方都有利時，保持合作也是困難的。在囚徒困境博弈模型中，每個個體都有兩種策略選擇：合作C（Cooperation）、背叛D（Defection）。如A、B兩個個體進行博弈時，會出現(xiàn)四種情況：如果個體A采取背叛D策略，個體B采取合作C策略，那么個體A的收益為T，個體B的收益為S；如果A、B雙方都采取合作C策略，那么雙方均獲得利益為R；如果A、B雙方都采取背叛D策略，那么雙方均獲得收益為P。即收益矩陣E為：

且對于囚徒困境博弈，有如下規(guī)則：T>R>P>S，且2R>T+S。在囚徒困境博弈中，兩個個體需要同時決定他們各自的策略。

為了方便研究，簡化收益矩陣中參數(shù)的數(shù)目，我們使用Weak-PD模型，即采用Nowak和May使用的收益矩陣E：

在本文中，我們考慮PD博弈模型為Weak-PD博弈模型，且令1

方格子網(wǎng)絡(luò)模型

本文采用100×100具有周期邊界條件的方格子網(wǎng)絡(luò)，即存在10 000個個體，如圖1所示。其中，黃色圓圈表示網(wǎng)絡(luò)中的個體，數(shù)字為個體標號，黑色線表示網(wǎng)絡(luò)中個體與個體之間的連接關(guān)系，藍色虛線方框內(nèi)為100×100方格子網(wǎng)絡(luò)，藍色虛線方框外側(cè)表示該網(wǎng)絡(luò)所具有的周期邊界條件。因為為方格子網(wǎng)絡(luò)，則每個個體有四個鄰居。

引入獎勵因子

分析收益矩陣，如果兩個個體進行一次博弈，個體為了達到自己收益最大化，都會選擇背叛策略。但是為了提高整體的合作水平，需要采取某種“獎勵”措施來促進個體采取合作策略，從而有利于合作策略的涌現(xiàn)和維持。在這里我們引入文獻[11]中的獎勵因子規(guī)則，對網(wǎng)絡(luò)中的個體進行收益上的獎勵。為了便于研究不同獎勵機制對規(guī)則網(wǎng)絡(luò)中囚徒困境博弈合作水平的影響，我們維持一個穩(wěn)定的記憶長度M。

Matlab仿真及結(jié)果分析

Matlab是將計算矩陣、分析數(shù)值、數(shù)據(jù)可視化以及非線性動力學系統(tǒng)的建模和仿真等諸多強大功能集成在一起的強大軟件。本文利用Matlab軟件進行仿真，過程為：在圖1所示的方格子網(wǎng)絡(luò)中進行博弈；初始網(wǎng)絡(luò)中全部10 000個個體的初始策略，在這里我們采用隨機賦值初始條件法；設(shè)定MCS為1×104；由于初始條件為隨機初始條件，為了消除隨機誤差，我們做了100次系綜平均。

在本文中，我們將獎勵機制分為3種：1）只獎勵合作者；2）只獎勵背叛者；3）對整個網(wǎng)絡(luò)中的所有個體都獎勵。

如圖2所示，a為只獎勵合作者、b為只獎勵背叛者、c為同時獎勵時，獎勵因子分別取

通過比較圖2中a、b、c三圖，我們可以發(fā)現(xiàn)，選擇不同的獎勵機制，對網(wǎng)絡(luò)中整體的合作水平的影響也不同。如果只獎勵合作者，當都有相同背叛獲利b值時，網(wǎng)絡(luò)整體的合作水平會隨著獎勵因子的增加而增加，網(wǎng)絡(luò)中的個體更趨向于合作；如果只獎勵背叛者，當都有相同背叛獲利b值時，網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而降低，網(wǎng)絡(luò)中的個體更趨向于背叛；如果對整個網(wǎng)絡(luò)中所有個體都獎勵，當都有相同背叛獲利b值時，網(wǎng)絡(luò)整體合作水平呈現(xiàn)出隨著獎勵因子的增加而升高，即可以說明獎勵因子對合作者的影響要高于對背叛者的影響，使得網(wǎng)絡(luò)中所有個體更趨向于合作，這也是獎勵因子可以提高網(wǎng)絡(luò)整體合作水平的原因。

總結(jié)與展望

本文建立一個基于獎勵因子的囚徒困境博弈模型，在網(wǎng)絡(luò)中個體博弈過程中，根據(jù)個體所采取的策略不斷更新其收益，使得個體在更新策略時考慮獎勵因子對個體學習過程的影響。我們看到獎勵因子會明顯提高網(wǎng)絡(luò)整體的合作水平，并發(fā)現(xiàn)獎勵因子對合作者的影響要高于對背叛者的影響，導致網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而升高，網(wǎng)絡(luò)中所有個體更趨向于合作而不是背叛。該結(jié)論對獎勵因子提高博弈合作水平的原因有了更全面的解讀。

參考文獻

[1]SANTO FORTUNATO. UNIVERSALITY OF THE THRESHOLD FOR COMPLETE CONSENSUS FOR THE OPINION DYNAMICS OF DEFFUANT et al.[J].International Journal of Modern Physics C，2004，15（9）：1301-1307.

[2]王文旭.復雜網(wǎng)絡(luò)的演化動力學及網(wǎng)絡(luò)上的動力學過程研究[D].合肥：中國科學技術(shù)大學，2007.

[3]代瓊琳.復雜網(wǎng)絡(luò)上的演化博弈動力學研究[D]北京：北京郵電大學，2011.

[4]楊志虎.復雜網(wǎng)絡(luò)上的演化博弈與合作演化動力學研究[D].西安：西安電子科技大學，2014.

[5]李燕.空間囚徒困境博弈中合作解的演化[D].杭州：浙江大學，2017.

[6]廖列法，孫瑋，劉朝陽.基于演化博弈研究移動和噪聲對合作的影響[J].計算機應(yīng)用與軟件，2015（3）：53-56.

[7]劉華，李瑩，趙建立，等.沉默策略對囚徒困境博弈合作水平的影響[J].數(shù)學的實踐與認識，2016，46（20）：240-247.

[8]宋亦泠，王秉中，朱洪，等.重復囚徒困境的學習和響應(yīng)模型[J].計算機工程與科學，2007，29（10）：115-119.

[9]劉貞，任玉瓏，唐松林.基于Mealy自動機的重復囚徒困境博弈模型[J].管理科學，2006，19（5）：66-70.

[10]Doebeli M，Hauert C.Models of cooperation based on the Prisoners Dilemma and the Snowdrift game[J].Ecology Letters，2005，8（7）：748-766.

[11]陳維春，尚麗輝.基于獎勵因子的囚徒困境博弈模型研究[J].電子科技，2016，29（3）：5-6.

（作者簡介：唐宸，重慶市第八中學校。）endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多種獎勵機制的囚徒困境博弈模型研究