国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于決策概率逼近的矩陣對(duì)策近似求解方法

2020-03-08 14:19何煉堅(jiān)冷國(guó)俊蒲春霞
關(guān)鍵詞:局中人策略

何煉堅(jiān) 冷國(guó)俊 蒲春霞

【摘要】本文提出一種面向大規(guī)模矩陣對(duì)策問(wèn)題,基于決策概率逼近的可快速收斂到近似最優(yōu)策略的求解方法.

【關(guān)鍵詞】矩陣對(duì)策;局中人;策略

【基金項(xiàng)目】本論文由國(guó)家自然科學(xué)青年基金(51605452)資助.

一、引?言

對(duì)一般性的矩陣對(duì)策問(wèn)題,通常使用線性規(guī)劃法,將原問(wèn)題轉(zhuǎn)化為等價(jià)的線性規(guī)劃問(wèn)題,利用單純形或?qū)ε紗渭冃畏ㄇ蠼?該方法的缺點(diǎn)在于,對(duì)大規(guī)模的矩陣對(duì)策問(wèn)題,求解線性規(guī)劃的開(kāi)銷太大.

本文提出一種基于決策概率逼近的矩陣對(duì)策策略確定方法.該方法依賴于以下準(zhǔn)則:一是矩陣對(duì)策雙方都會(huì)根據(jù)期望收益最大(或期望損失最小)原則進(jìn)行分析,即根據(jù)每個(gè)決策方案的期望收益(或期望損失)來(lái)對(duì)方案進(jìn)行比較,從中選擇期望收益最大(或期望損失最?。┑姆桨?二是決策方案選擇的概率分布是關(guān)于其期望收益的單調(diào)上升函數(shù)(或關(guān)于其期望損失的單調(diào)下降函數(shù)).

二、基于決策概率逼近的矩陣對(duì)策近似求解方法

矩陣對(duì)策問(wèn)題模型包括以下基本要素:

(1)局中人

以I表示局中人的集合;矩陣對(duì)策包括兩個(gè)局中人,因此,I中元素的個(gè)數(shù)為2.

(2)策略

可供局中人選擇的策略集記為Sz(z=1,2),其元素個(gè)數(shù)分別記為m和n;矩陣對(duì)策的m,n均為有限值.

(3)收益函數(shù)

局中人1的任一策略和局中人2的任一策略一起形成的策略組稱為一個(gè)局勢(shì),該局勢(shì)下兩個(gè)局中人的收益由收益函數(shù)確定.所有局勢(shì)下局中人2的收益構(gòu)成一個(gè)m×n矩陣R,局中人1的收益構(gòu)成另一個(gè)m×n矩陣-R.不失一般性約定矩陣R滿足0≤Rij≤1(i=1,…,m,j=1,…,n).

考慮某一局中人的任一策略,該策略的期望收益是與對(duì)方采取的策略有關(guān)的.如果能夠有效估計(jì)對(duì)方可能采取的策略,對(duì)提升期望收益是有利的.一種合理的想法是,認(rèn)為對(duì)方從其策略集中選擇某一策略的概率是關(guān)于該策略的期望收益的單調(diào)上升函數(shù),即期望收益越大的策略的選擇概率越大,期望收益越小的策略的選擇概率越小.另一方面,對(duì)方計(jì)算其某一策略的期望收益時(shí),必須由我方策略選擇的概率分布輸入,其同樣會(huì)認(rèn)為,我方從策略集中選擇某一策略的概率是關(guān)于該策略的期望收益的單調(diào)上升函數(shù).這樣就形成了如下迭代計(jì)算:

(1)局中人1

針對(duì)局中人1的策略選擇概率分布,計(jì)算局中人2所有策略的期望收益.

使用最新計(jì)算出的局中人2所有策略的期望收益,計(jì)算局中人2的策略選擇概率分布(計(jì)算函數(shù)要求是局中人2的期望收益的嚴(yán)格單調(diào)上升函數(shù)).

(2)局中人2

針對(duì)局中人2的策略選擇概率分布,計(jì)算局中人1所有策略的期望收益.

使用最新計(jì)算出的局中人1所有策略的期望收益,計(jì)算局中人1的策略選擇概率分布(計(jì)算函數(shù)要求是局中人1的期望收益的嚴(yán)格單調(diào)上升函數(shù)).

只要為局中人1(或局中人2)的策略選擇概率分布給出一個(gè)初始值(從而可以計(jì)算局中人2或局中人1的所有策略的期望收益),就可以驅(qū)動(dòng)上述迭代計(jì)算,以(1)或(2)為開(kāi)始.迭代計(jì)算應(yīng)該在判斷局中人1和局中人2的策略選擇概率分布都收斂的時(shí)候終止.

不失一般性,站在局中人1的立場(chǎng),為局中人2的策略選擇概率分布給出初始值,則迭代計(jì)算的具體步驟如下:

(1)設(shè)置初值

記局中人2關(guān)于其策略集中策略的選擇概率向量為n維向量g,設(shè)定其初值如下:

g(0)=1n,…,1nT.

上面設(shè)置選擇概率向量初值時(shí),認(rèn)為各策略的選擇概率均等;如果有更多的信息用于判斷各策略的選擇概率,也可以設(shè)置為其他向量值.不同初值的影響在于收斂的速度可能不同.

(2)計(jì)算局中人1的策略選擇概率向量

如下計(jì)算m維向量f和h:

f=Rg,

h=h(0),∑mi=1F(fi)=0時(shí),[F(f1),…,F(xiàn)(fm)]T∑mi=1F(fi),其他情況,

其中

h(0)=[1m,…,1m]T.

這里R是局中人2的收益矩陣;f表示當(dāng)局中人2的策略選擇概率向量為g時(shí),局中人1各策略的期望收益;h為局中人1的策略選擇概率向量,滿足:

0≤hi≤1,i=1,…,m,

∑mi=1hi=1.

函數(shù)F滿足:

F(0)=0,且F(x)關(guān)于x嚴(yán)格單調(diào)上升.

特別的,對(duì)函數(shù)F(x)=x,有:

h=h(0),∑mi=1fi=0時(shí),

[f1,…,fm]T∑mi=1fi,其他情況,

f,h的計(jì)算反映了局中人1的策略選擇概率是關(guān)于其策略期望收益的嚴(yán)格單調(diào)上升函數(shù).

計(jì)算h時(shí),當(dāng)∑mi=1F(fi)=0時(shí)h=h(0),實(shí)際上這時(shí)只要h滿足所有分量值屬于[0,1],且其總和為1就可以(由F的定義,∑mi=1F(fi)=0等價(jià)于F(fi)=0(i=1,…,m),即局中人1的任意策略的期望收益效用都為最小值0,這種情況下局中人1無(wú)論如何選擇策略都無(wú)法改善處境,一般簡(jiǎn)單以均等概率選擇,即h=h(0)).

(3)計(jì)算局中人2的策略選擇概率向量

如下計(jì)算n維向量e,q和g:

e=-RTh,

q=0,…,1C,…,0T,滿足G(ej)=0的下標(biāo)共有C(0

其分量值為1C,其中j為分量下標(biāo);

滿足G(ej)<0的下標(biāo)共有n-C(0

其分量值為0,其中j為分量下標(biāo)

1G(e1),…,1G(en)T,其他情況,

g=g(0),∑nj=1G(qj)=0時(shí),

G(q1),…,G(qn)∑nj=1G(qj),其他情況.

這里-R為局中人1的收益矩陣;e表示當(dāng)局中人1的策略選擇概率向量為h時(shí),局中人2各策略的期望收益;g為局中人2的策略選擇概率向量,滿足:

0≤gj≤1,j=1,…,n,

∑nj=1gj=1,

q為計(jì)算g用到的中間向量.

函數(shù)G滿足:

G(0)=0,且G(x)關(guān)于x嚴(yán)格單調(diào)上升.

特別的,對(duì)函數(shù)G(x)=x,有:

g=g(0),∑nj=1ej=0時(shí),

[e1,…,en]T∑nj=1ej,其他情況.

e,q,g的計(jì)算反映了局中人2的策略選擇概率是關(guān)于其策略期望收益的嚴(yán)格單調(diào)上升函數(shù).

計(jì)算g時(shí),當(dāng)∑nj=1G(qj)=0時(shí)g=g(0),實(shí)際上這時(shí)只要g滿足所有分量值屬于區(qū)間[0,1],且其總和為1就可以(由G的定義,∑nj=1G(ej)=0等價(jià)于G(ej)=0(j=1,…,n),即局中人2的任意策略的期望收益效用都為0,由于局中人2策略的期望收益屬于區(qū)間[-1,0],這表明局中人2無(wú)論如何選擇策略都能取得最高的期望收益0,一般簡(jiǎn)單以均等概率選擇,即g=g(0)).

完成上述計(jì)算后轉(zhuǎn)(2).(2)執(zhí)行完后又會(huì)轉(zhuǎn)(3).

上述(2)(3)之間的往復(fù)迭代計(jì)算到g,h都收斂后結(jié)束.此時(shí)g和h分別是局中人1和2的近似最優(yōu)策略.g和h可能是純策略,也可能是混合策略.對(duì)混合策略不能接受(要求完全確定的策略)的情況,可以在可選的所有純策略中根據(jù)期望收益最大原則(或期望損失最小原則)選擇一個(gè)(假定對(duì)方采用混合策略).

g,h的收斂判斷采用如下方法,記錄最近2次計(jì)算出的g,h值,并如下計(jì)算前后相繼的g之間的距離,以及前后相繼的h之間的距離:

deviation_g=max1≤j≤n(deviation_gj),

deviation_h=max1≤i≤m(deviation_hi),

其中:

deviation_gj=|gj-gprevj|,gprevj=0時(shí),

|(gj-gprevj)/gprevj|,gprevj≠0時(shí),

deviation_hi=|hi-hprevi|,hprevi=0時(shí),

|(hi-hprevi)/hprevi|,hprevi≠0時(shí).

這里gj為當(dāng)前g的第j個(gè)分量值(j=1,…,n),gprevj為上輪迭代得到的g的第j個(gè)分量值(j=1,…,n),hi為當(dāng)前h的第i個(gè)分量值(i=1,…,m),hprevi為上輪迭代得到的h的第i個(gè)分量值(i=1,…,m).

設(shè)置整數(shù)變量L的初值為0,如下在每次迭代中更新L:

L=L+1,當(dāng)deviation_g

deviation_h

0,其他.

這里MINEPS為預(yù)設(shè)精度.

如果L值達(dá)到預(yù)設(shè)門限Lmax(Lmax≥1),那么判斷g,h均收斂,迭代結(jié)束,否則繼續(xù)迭代.

說(shuō)明:不同場(chǎng)景中,g,h的收斂速度是不一樣的,為了確保計(jì)算在可接受的迭代次數(shù)內(nèi)結(jié)束,可以設(shè)置迭代次數(shù)門限,當(dāng)?shù)螖?shù)達(dá)到該門限時(shí),無(wú)論g,h是否滿足收斂條件,都結(jié)束迭代計(jì)算,并以結(jié)束迭代時(shí)的g和h分別作為局中人1和2的近似最優(yōu)策略.

三、數(shù)值實(shí)驗(yàn)

在一輪計(jì)算實(shí)驗(yàn)中,設(shè)置局中人1和2的策略集合的元素個(gè)數(shù)范圍均為[128,1024],預(yù)設(shè)精度為MINEPS=10-3.L值預(yù)設(shè)門限Lmax=5.判斷策略選擇概率向量g,h的收斂性.遍歷局中人1和2的策略集合元素個(gè)數(shù)組合(共有(1024-128+1)×(1024-128+1)=804609個(gè)),同時(shí)在[0,1]范圍內(nèi)隨機(jī)設(shè)置收益矩陣的元素,構(gòu)建矩陣對(duì)策問(wèn)題.按照前邊描述的方法迭代計(jì)算矩陣對(duì)策問(wèn)題的近似最優(yōu)策略(其中函數(shù)F,G分別設(shè)置為F(x)=x,G(x)=x),記錄收斂時(shí)的迭代次數(shù).

上述計(jì)算實(shí)驗(yàn)可以持續(xù)進(jìn)行多輪(每次只有收益矩陣不同).實(shí)驗(yàn)的結(jié)果如下:

由上表可以看出,針對(duì)較大規(guī)模的矩陣對(duì)策問(wèn)題,本文提出的基于決策概率逼近的矩陣對(duì)策近似求解方法能夠在很少的幾次迭代(就我們的實(shí)驗(yàn)而言是6或7次)后收斂.

四、結(jié)束語(yǔ)

本文提出的基于決策概率逼近的矩陣對(duì)策近似求解方法,能夠快速收斂到大規(guī)模矩陣對(duì)策問(wèn)題的近似最優(yōu)策略,對(duì)博弈決策的實(shí)際應(yīng)用具有重要的意義.

【參考文獻(xiàn)】

[1]羅杰,B·邁爾森.博弈論:矛盾沖突分析[M].北京:中國(guó)經(jīng)濟(jì)出版社,2001.

猜你喜歡
局中人策略
基于“選—練—評(píng)”一體化的二輪復(fù)習(xí)策略
例談未知角三角函數(shù)值的求解策略
我說(shuō)你做講策略
張一山、潘粵明聯(lián)手 演繹《局中人》
高中數(shù)學(xué)復(fù)習(xí)的具體策略
2×2型博弈決策均衡的歸一化解法
超對(duì)策模型中多形式結(jié)局偏好認(rèn)知信息融合的0—1規(guī)劃方法
具有失真認(rèn)知信息的兩層沖突環(huán)境建模與分析
基于行為博弈論的企業(yè)與其職工的互惠研究
Passage Four
威远县| 海丰县| 阿图什市| 凤山县| 龙游县| 买车| 开平市| 邹城市| 阜康市| 禹城市| 城步| 舞阳县| 额敏县| 东港市| 调兵山市| 南昌县| 南靖县| 神农架林区| 乌鲁木齐市| 张北县| 龙江县| 海林市| 西华县| 芦溪县| 开鲁县| 迁安市| 永胜县| 宜黄县| 辽宁省| 白玉县| 富裕县| 台山市| 灯塔市| 雷波县| 阳泉市| 孟津县| 花垣县| 威海市| 屏南县| 滕州市| 岑溪市|