国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多種獎勵機制的囚徒困境博弈模型研究

2018-01-11 17:51:04唐宸
科學家 2017年24期
關(guān)鍵詞:囚徒困境個體

囚徒困境博弈模型作為演化博弈經(jīng)典模型成為近年來的研究熱點,針對規(guī)則格子網(wǎng)絡(luò)中如何提高囚徒困境博弈的合作水平問題,我們引入獎勵因子來促進參與者采取合作策略。為了研究獎勵因子對網(wǎng)絡(luò)中所有個體采取合作或背叛策略的影響,并探究獎勵因子針對不同獎勵對象時對規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響,我們引入3種獎勵機制:只獎勵合作者;只獎勵背叛者;對整個網(wǎng)絡(luò)中的所有個體都獎勵。我們在Matlab平臺上進行仿真實驗,看到獎勵因子會明顯提高網(wǎng)絡(luò)整體的合作水平,并找到其原因,是因為獎勵因子對合作者的影響要高于對背叛者的影響,使得當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而升高,網(wǎng)絡(luò)中所有個體更趨向于合作而不是背叛。

自1950年Nash所做出的開創(chuàng)性工作以來,博弈成為了一門系統(tǒng)理論,并被廣泛應(yīng)用到人類社會,特別是經(jīng)濟行為當中。作為一門交叉研究學科,在復雜網(wǎng)絡(luò)中的演化博弈成為現(xiàn)在的關(guān)注熱點之一。囚徒困境博弈模型作為演化博弈經(jīng)典模型之一,研究其在規(guī)則網(wǎng)絡(luò)中演化更是重中之重[1-5]。

現(xiàn)實中利己者間出現(xiàn)的自發(fā)合作行為及其維持機制得到了越來越多的關(guān)注[6-7],將演化博弈理論與復雜網(wǎng)絡(luò)的結(jié)合也成為了一個熱點[8-9]。在復雜網(wǎng)絡(luò)的演化博弈中,通常以網(wǎng)絡(luò)中的節(jié)點作為個體,使用規(guī)則格子網(wǎng)絡(luò)表示一般性人際關(guān)系網(wǎng)絡(luò),為了有效地促進參與者采取合作策略,在囚徒困境博弈模型中引入獎勵因子,在網(wǎng)絡(luò)中的個體進行策略學習時,我們改變其收益函數(shù),使得下一輪的收益出現(xiàn)變動,從而探究這種變動對博弈模型合作水平的影響。本文將基于“獎勵”機制,在引入獎勵因子的概念,又探究獎勵因子針對不同獎勵對象對規(guī)則網(wǎng)絡(luò)中囚徒博弈合作水平的影響。

本文首先闡述囚徒困境博弈模型及規(guī)則網(wǎng)絡(luò)模型的構(gòu)建,并將具體闡述本研究所采用的模型及其收益矩陣、獎勵因子;其次進行實驗仿真,并利用Matlab實現(xiàn)模型的構(gòu)建與仿真實驗;最后給出研究結(jié)論。

模型

囚徒困境博弈模型

在博弈中,每個個體都有幾種策略,個體會從這些策略中選出一種以使自己獲得最大的收益[10],并且每個人都是理性的。囚徒困境是兩個被捕的囚徒之間的一種特殊博弈,其說明了為什么甚至在合作對雙方都有利時,保持合作也是困難的。在囚徒困境博弈模型中,每個個體都有兩種策略選擇:合作C(Cooperation)、背叛D(Defection)。如A、B兩個個體進行博弈時,會出現(xiàn)四種情況:如果個體A采取背叛D策略,個體B采取合作C策略,那么個體A的收益為T,個體B的收益為S;如果A、B雙方都采取合作C策略,那么雙方均獲得利益為R;如果A、B雙方都采取背叛D策略,那么雙方均獲得收益為P。即收益矩陣E為:

且對于囚徒困境博弈,有如下規(guī)則:T>R>P>S,且2R>T+S。在囚徒困境博弈中,兩個個體需要同時決定他們各自的策略。

為了方便研究,簡化收益矩陣中參數(shù)的數(shù)目,我們使用Weak-PD模型,即采用Nowak和May使用的收益矩陣E:

在本文中,我們考慮PD博弈模型為Weak-PD博弈模型,且令1

方格子網(wǎng)絡(luò)模型

本文采用100×100具有周期邊界條件的方格子網(wǎng)絡(luò),即存在10 000個個體,如圖1所示。其中,黃色圓圈表示網(wǎng)絡(luò)中的個體,數(shù)字為個體標號,黑色線表示網(wǎng)絡(luò)中個體與個體之間的連接關(guān)系,藍色虛線方框內(nèi)為100×100方格子網(wǎng)絡(luò),藍色虛線方框外側(cè)表示該網(wǎng)絡(luò)所具有的周期邊界條件。因為為方格子網(wǎng)絡(luò),則每個個體有四個鄰居。

引入獎勵因子

分析收益矩陣,如果兩個個體進行一次博弈,個體為了達到自己收益最大化,都會選擇背叛策略。但是為了提高整體的合作水平,需要采取某種“獎勵”措施來促進個體采取合作策略,從而有利于合作策略的涌現(xiàn)和維持。在這里我們引入文獻[11]中的獎勵因子規(guī)則,對網(wǎng)絡(luò)中的個體進行收益上的獎勵。為了便于研究不同獎勵機制對規(guī)則網(wǎng)絡(luò)中囚徒困境博弈合作水平的影響,我們維持一個穩(wěn)定的記憶長度M。

Matlab仿真及結(jié)果分析

Matlab是將計算矩陣、分析數(shù)值、數(shù)據(jù)可視化以及非線性動力學系統(tǒng)的建模和仿真等諸多強大功能集成在一起的強大軟件。本文利用Matlab軟件進行仿真,過程為:在圖1所示的方格子網(wǎng)絡(luò)中進行博弈;初始網(wǎng)絡(luò)中全部10 000個個體的初始策略,在這里我們采用隨機賦值初始條件法;設(shè)定MCS為1×104;由于初始條件為隨機初始條件,為了消除隨機誤差,我們做了100次系綜平均。

在本文中,我們將獎勵機制分為3種:1)只獎勵合作者;2)只獎勵背叛者;3)對整個網(wǎng)絡(luò)中的所有個體都獎勵。

如圖2所示,a為只獎勵合作者、b為只獎勵背叛者、c為同時獎勵時,獎勵因子分別取

通過比較圖2中a、b、c三圖,我們可以發(fā)現(xiàn),選擇不同的獎勵機制,對網(wǎng)絡(luò)中整體的合作水平的影響也不同。如果只獎勵合作者,當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體的合作水平會隨著獎勵因子的增加而增加,網(wǎng)絡(luò)中的個體更趨向于合作;如果只獎勵背叛者,當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而降低,網(wǎng)絡(luò)中的個體更趨向于背叛;如果對整個網(wǎng)絡(luò)中所有個體都獎勵,當都有相同背叛獲利b值時,網(wǎng)絡(luò)整體合作水平呈現(xiàn)出隨著獎勵因子的增加而升高,即可以說明獎勵因子對合作者的影響要高于對背叛者的影響,使得網(wǎng)絡(luò)中所有個體更趨向于合作,這也是獎勵因子可以提高網(wǎng)絡(luò)整體合作水平的原因。

總結(jié)與展望

本文建立一個基于獎勵因子的囚徒困境博弈模型,在網(wǎng)絡(luò)中個體博弈過程中,根據(jù)個體所采取的策略不斷更新其收益,使得個體在更新策略時考慮獎勵因子對個體學習過程的影響。我們看到獎勵因子會明顯提高網(wǎng)絡(luò)整體的合作水平,并發(fā)現(xiàn)獎勵因子對合作者的影響要高于對背叛者的影響,導致網(wǎng)絡(luò)整體合作水平會隨著獎勵因子的增加而升高,網(wǎng)絡(luò)中所有個體更趨向于合作而不是背叛。該結(jié)論對獎勵因子提高博弈合作水平的原因有了更全面的解讀。

參考文獻

[1]SANTO FORTUNATO. UNIVERSALITY OF THE THRESHOLD FOR COMPLETE CONSENSUS FOR THE OPINION DYNAMICS OF DEFFUANT et al.[J].International Journal of Modern Physics C,2004,15(9):1301-1307.

[2]王文旭.復雜網(wǎng)絡(luò)的演化動力學及網(wǎng)絡(luò)上的動力學過程研究[D].合肥:中國科學技術(shù)大學,2007.

[3]代瓊琳.復雜網(wǎng)絡(luò)上的演化博弈動力學研究[D]北京:北京郵電大學,2011.

[4]楊志虎.復雜網(wǎng)絡(luò)上的演化博弈與合作演化動力學研究[D].西安:西安電子科技大學,2014.

[5]李燕.空間囚徒困境博弈中合作解的演化[D].杭州:浙江大學,2017.

[6]廖列法,孫瑋,劉朝陽.基于演化博弈研究移動和噪聲對合作的影響[J].計算機應(yīng)用與軟件,2015(3):53-56.

[7]劉華,李瑩,趙建立,等.沉默策略對囚徒困境博弈合作水平的影響[J].數(shù)學的實踐與認識,2016,46(20):240-247.

[8]宋亦泠,王秉中,朱洪,等.重復囚徒困境的學習和響應(yīng)模型[J].計算機工程與科學,2007,29(10):115-119.

[9]劉貞,任玉瓏,唐松林.基于Mealy自動機的重復囚徒困境博弈模型[J].管理科學,2006,19(5):66-70.

[10]Doebeli M,Hauert C.Models of cooperation based on the Prisoners Dilemma and the Snowdrift game[J].Ecology Letters,2005,8(7):748-766.

[11]陳維春,尚麗輝.基于獎勵因子的囚徒困境博弈模型研究[J].電子科技,2016,29(3):5-6.

(作者簡介:唐宸,重慶市第八中學校。)endprint

猜你喜歡
囚徒困境個體
困境
文苑(2020年12期)2020-04-13 00:54:08
關(guān)注個體防護裝備
勞動保護(2019年7期)2019-08-27 00:41:02
機智的囚徒
“鄰避”困境化解之策
囚徒
歲月(2016年12期)2016-12-07 17:32:11
我國霧霾治理的困境與出路
海盜的囚徒
小學時代(2016年28期)2016-02-24 05:09:46
論男性出軌者的囚徒困境
個體反思機制的缺失與救贖
學習月刊(2015年22期)2015-07-09 03:40:48
How Cats See the World
中學科技(2015年1期)2015-04-28 05:06:12
个旧市| 中西区| 常山县| 安乡县| 莒南县| 延寿县| 绥德县| 中山市| 房产| 彝良县| 武山县| 彩票| 唐山市| 太仆寺旗| 荔波县| 江源县| 获嘉县| 吉水县| 霍邱县| 寿宁县| 包头市| 广灵县| 革吉县| 达州市| 桃江县| 芜湖县| 五寨县| 禄劝| 温泉县| 泸水县| 苍南县| 龙山县| 台南县| 绵竹市| 交城县| 建瓯市| 疏附县| 龙岩市| 搜索| 融水| 喀什市|