国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于零和博弈方法的多智能體系統(tǒng)H∞一致性

2020-06-03 07:18:40弓鎮(zhèn)宇李慶奎
河南科學 2020年4期
關(guān)鍵詞:一致性方程矩陣

弓鎮(zhèn)宇, 李慶奎

(北京信息科技大學自動化學院,北京 100192)

由于多智能體系統(tǒng)應(yīng)用的廣泛性,其相關(guān)研究在數(shù)學、生物、經(jīng)濟、控制科學等眾多學科領(lǐng)域獲得了長足的發(fā)展. 其中多智能體系統(tǒng)的一致性問題一直是研究熱點,它在飛行器編隊控制[1-2]、機器人協(xié)作[3-4]和網(wǎng)絡(luò)系統(tǒng)同步[5-6]等實際問題中起著重要作用. 解決一致性問題的關(guān)鍵在于設(shè)計合理的控制策略或控制協(xié)議,使得各個智能體與鄰居能夠進行特定的信息交換,并最終實現(xiàn)狀態(tài)的統(tǒng)一.

二人零和博弈最早由馮-諾依曼歸納提出[7],它是指博弈中雙方參與者的收益和為零或常數(shù),二人零和博弈問題可轉(zhuǎn)化為最大最小優(yōu)化問題[8]. 從控制角度來看,控制輸入和干擾輸入是一種“對抗”關(guān)系,設(shè)計一個指標函數(shù)來量化系統(tǒng)性能,控制輸入的目標就是使得指標函數(shù)最小,而干擾的目標是最大化指標函數(shù). 求解二人零和博弈問題依賴于求解Hamilton-Jacobi-Isaacs(HJI)方程. 由于HJI方程仍然難以直接求解,因此針對這個難題,文獻[9]中引入了離線策略迭代算法,通過迭代收斂獲得HJI方程的解. 隨著強化學習和神經(jīng)網(wǎng)絡(luò)學科的發(fā)展,與Actor-Critic神經(jīng)網(wǎng)絡(luò)結(jié)合的在線策略迭代算法[10-12]和值迭代算法[13]也受到了眾多關(guān)注. 在多智能體框架下,文獻[14]研究了二人零和圖博弈問題,并給出了與Actor-Critic 神經(jīng)網(wǎng)絡(luò)結(jié)合的雙環(huán)策略迭代算法進行求解;文獻[15]研究了多智能體系統(tǒng)存在輸入飽和以及輸出限制時的二人零和博弈問題,并且結(jié)合了自適應(yīng)動態(tài)規(guī)劃方法.

隨著研究深入,外部干擾和模型不確定性存在時的一致性問題受到了越來越多的關(guān)注,文獻[16]中引入了H∞控制理論,將其轉(zhuǎn)化為多智能體系統(tǒng)的H∞一致性問題. 目前大多數(shù)針對H∞一致性問題的研究基于求解線性矩陣不等式[17-20],而文獻[14,21-22]中引入了二人零和博弈框架對H∞一致性問題展開討論,這為H∞一致性打開了新的思路. 文獻[21]中討論了設(shè)計輸出狀態(tài)反饋控制策略實現(xiàn)多智能體系統(tǒng)的同步性,并給出了解耦HJI方程的方法;文獻[14]將H∞一致性問題轉(zhuǎn)化為二人零和圖博弈問題,并引入策略迭代算法進行求解;文獻[22]中考慮了異質(zhì)多智能體模型的H∞一致性問題.

目前在博弈論框架中,國內(nèi)外求解H∞一致性問題的文獻主要針對有領(lǐng)導者時的情形,即各個智能體狀態(tài)最終與領(lǐng)導者的狀態(tài)同步. 領(lǐng)導者的引入可以保證拓撲圖的拉普拉斯矩陣是非奇異的,從而有助于分析和計算,而系統(tǒng)中沒有領(lǐng)導者時的一致性研究較少,針對這種研究現(xiàn)狀,可以考慮多智能體系統(tǒng)的平均一致性問題. 當智能體與全局平均狀態(tài)的誤差趨于零時,多智能體系統(tǒng)實現(xiàn)一致性. 此時需要考慮到誤差系統(tǒng)中存在奇異系數(shù)矩陣的問題. 本文研究了離散時間多智能體系統(tǒng)存在外部干擾時的平均一致性問題,不同于傳統(tǒng)的求解線性矩陣不等式實現(xiàn)H∞控制做法,此處將設(shè)計一致性協(xié)議問題轉(zhuǎn)化為尋找二人零和博弈的納什均衡點的問題,通過納什均衡點可以得出最優(yōu)的控制協(xié)議設(shè)計. 針對二人零和博弈產(chǎn)生的耦合HJI方程設(shè)計了解耦方法,并使用了雙環(huán)策略迭代算法尋求最壞情形干擾下的最優(yōu)一致性協(xié)議,最后通過一個算例仿真證明了提出方法的可行性.

1 預備知識和建模

1.1 圖論

對稱圖的拉普拉斯矩陣是對稱矩陣,本文考慮的圖是對稱圖且不包含自環(huán).

1.2 多智能體系統(tǒng)建模

考慮由N個智能體組成的多智能體系統(tǒng),第i個智能體的動力學方程如下所示:

式中A 和B 都是適當維度的系統(tǒng)矩陣,xi(k)∈Rn代表智能體i 的狀態(tài)變量,ui(k)∈Rn代表其控制輸入,ωi(k)∈Rn代表外部擾動.

因此,包含N個智能體的多智能體系統(tǒng)的動力學方程可整合成如下形式:

式中IN為N×N 維的單位陣,并且有:

定義1 對于包含N個智能體的系統(tǒng)(3)而言,若系統(tǒng)中智能體i在任意初始狀態(tài)xi(0)下都滿足以下條件:

則稱該系統(tǒng)達成了一致性.

為實現(xiàn)多智能體系統(tǒng)一致性,我們需要根據(jù)智能體i和它鄰居的狀態(tài)合理設(shè)計一致性協(xié)議,考慮具有如下形式的一致性協(xié)議:

其中K1表示分布式一致性增益,進一步整理可得:

進一步整理可得系統(tǒng)誤差動力學方程:

其中In為n×n 維的單位陣,并且有:

注意到矩陣M 是奇異矩陣,不妨令:

則有:

式中z(k)為系統(tǒng)輸出,此外根據(jù)式(5)可得:

因此H∞一致性問題可以轉(zhuǎn)化為設(shè)計一致性協(xié)議問題,該協(xié)議能夠讓誤差系統(tǒng)在外部擾動?(k)=0 時實現(xiàn)漸進穩(wěn)定,且滿足下述條件.

定義2[23]對于非零外部干擾?(k)∈l2[0,∞)以及有界函數(shù)β,給定一個正標量γ,若系統(tǒng)(7)滿足以下條件:

則稱該系統(tǒng)是l2增益有界的. 令γ*為干擾抑制水平γ 的下界,則對于任意的γ >γ*而言式(9)都成立.

2 多智能體系統(tǒng)二人零和博弈

2.1 零和博弈與耦合HJI方程

首先對系統(tǒng)(7)定義一個性能函數(shù):

式中Q >0,R >0,T >0 是對稱的權(quán)重矩陣. 對于控制輸入和外部干擾定義如下值函數(shù):

H∞一致性問題可看作是一個零和博弈問題,其中參與者包含一致性協(xié)議和外部干擾,控制輸入的目標是減小指標函數(shù),而干擾的目標是增大指標函數(shù). 因此,這個過程可表示為:

它等價于下面的納什均衡條件:

由貝爾曼最優(yōu)原理和式(11)可得貝爾曼方程:

考慮二次型形式的值函數(shù):

式中P為正半定對稱矩陣. 將式(16)代入(15)式可得到:

進一步定義哈密爾頓函數(shù)為:

通過一階條件?H ?uˉ=0,?H ??=0 可得最優(yōu)控制策略和最壞情形的干擾策略:

式中:

基于誤差狀態(tài)的反饋控制律結(jié)構(gòu)由式(8)給出,因此最優(yōu)控制策略可由最優(yōu)控制增益-(L ?K*1)給出.假設(shè)R=R1?R2,并且P=P1?P2,結(jié)合式(8)可得:

假設(shè)T=T1?T2,并且最壞情形下干擾滿足以下形式:

進一步通過如下定理對耦合HJI方程(21)進行解耦.

定理1 考慮如(7)中所示的多智能體誤差系統(tǒng),如果R1=T1=IN,P1=L,且矩陣Q滿足:

因此HJI方程(21)等價于:

式中

如果權(quán)重矩陣Q 滿足:

式中Q1=≥0. 將其代入耦合HJI方程可得到:

式中Ak=(In+BK1-K2) . 最終可以得到:

因此P2可以通過求解式(25)得出,并進一步得到P,該定理證畢.

2.2 誤差系統(tǒng)l2 增益有界

本節(jié)將討論誤差狀態(tài)系統(tǒng)存在外部擾動時,在最優(yōu)一致性協(xié)議uˉ*(k)的作用下是滿足l2增益有界條件的. 首先介紹以下引理.

引理1[24]假設(shè)HJI方程存在正定解V*( )

δ(k) ,那么下式成立:

定理2 假設(shè)γ >γ*,并且HJI方程存在光滑的正定解V*,那么在控制策略uˉ*(k)下,當?(k)=0 時系統(tǒng)(7)能實現(xiàn)漸進穩(wěn)定,并且對于任意?(k)∈l2[0,∞]系統(tǒng)都滿足l2增益有界條件.

證明 假設(shè)HJI方程存在解V*,同時把uˉ*(k),?*(k)代入到式(18)中可得:

式中

當?(k)=0 時,下述不等式成立:

所以根據(jù)Lyapunov定理可知系統(tǒng)在最優(yōu)控制策略下能夠?qū)崿F(xiàn)漸近穩(wěn)定. 考慮干擾抑制條件和引理1,對式(29)進行級數(shù)運算可得:

因此該系統(tǒng)滿足在γ 水平上l2增益有界,該定理證畢. 由此可知多智能體系統(tǒng)(3)可實現(xiàn)H∞一致性.

2.3 策略迭代算法

因為HJI方程解耦之后仍然難以直接求解,所以我們采用了雙環(huán)策略迭代算法來求解Lyapunov方程形式的HJI方程(25),并獲得最優(yōu)控制策略. 該算法包括內(nèi)環(huán)迭代和外環(huán)迭代,其中內(nèi)環(huán)執(zhí)行策略評估,將控制策略固定,對干擾策略進行迭代;外環(huán)執(zhí)行策略更新,改進控制策略. 算法具體步驟如表1所示.

表1 雙環(huán)策略迭代算法Tab.1 Double-loop policy iteration algorithm

進一步可通過式(22)和式(24)分別得到最優(yōu)控制策略和最壞情形干擾策略.

3 算例仿真

假設(shè)一個多智能體系統(tǒng)中包含3個智能體,它們通過圖1所示的通信拓撲進行信息交互,每個智能體的動力學方程為:

所以圖1的拉普拉斯矩陣為:

圖1 通信拓撲圖Fig.1 Communication topology

選擇合適的權(quán)重矩陣Q1、R2和T2,選定γ=0.45,通過算法1計算得出P2為:

進一步可得出針對最壞情形擾動設(shè)計的最優(yōu)一致性協(xié)議. 給定智能體狀態(tài)初始值為:

圖2和圖3展現(xiàn)了三個智能體的狀態(tài)響應(yīng)曲線,三個智能體的狀態(tài)在0.5 s處趨于一致. 圖4和圖5展現(xiàn)了各個智能體的狀態(tài)與整體平均狀態(tài)間的誤差響應(yīng)曲線,誤差值在0.5 s處趨近于0. 因此可以推斷出,考慮外部擾動影響時的多智能體系統(tǒng)在文中提出方法下最終可以達成一致性.

圖2 狀態(tài)xi1 的響應(yīng)曲線Fig.2 Response curve of state xi1

圖3 狀態(tài)xi2 的響應(yīng)曲線Fig.3 Response curve of state xi2

圖4 誤差δi1 的響應(yīng)曲線Fig.4 Response curve of error δi1

圖5 誤差δi2 的響應(yīng)曲線Fig.5 Response curve of error δi2

4 結(jié)論

本文利用二人零和博弈思想代替?zhèn)鹘y(tǒng)的線性矩陣不等式方法,解決了離散多智能體系統(tǒng)存在外部干擾時的H∞平均一致性問題,設(shè)計解耦方法和引入雙環(huán)策略迭代算法求出最優(yōu)控制策略和最壞情形擾動策略,使得系統(tǒng)在最壞干擾下能夠?qū)崿F(xiàn)H∞平均一致性. 仿真結(jié)果驗證了該方法行之有效,考慮時滯和切換系統(tǒng)會更加貼切實際情形,可以作為下一步的研究方向.

猜你喜歡
一致性方程矩陣
關(guān)注減污降碳協(xié)同的一致性和整體性
公民與法治(2022年5期)2022-07-29 00:47:28
方程的再認識
方程(組)的由來
注重教、學、評一致性 提高一輪復習效率
IOl-master 700和Pentacam測量Kappa角一致性分析
圓的方程
初等行變換與初等列變換并用求逆矩陣
基于事件觸發(fā)的多智能體輸入飽和一致性控制
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
南和县| 德令哈市| 无极县| 清丰县| 浙江省| 大兴区| 明星| 齐河县| 兰坪| 绥芬河市| 保山市| 翼城县| 台山市| 察隅县| 同心县| 桃园市| 体育| 秦皇岛市| 台州市| 望奎县| 抚顺县| 策勒县| 东乌珠穆沁旗| 宁远县| 郎溪县| 崇义县| 昌吉市| 嘉善县| 太保市| 赣榆县| 贡觉县| 巴彦淖尔市| 刚察县| 漳浦县| 罗平县| 永和县| 诸城市| 卫辉市| 确山县| 韶山市| 高安市|