国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

不對稱約束多人非零和博弈的自適應評判控制

2023-10-26 01:24:20李夢花喬俊飛
控制理論與應用 2023年9期
關鍵詞:最優(yōu)控制代價評判

李夢花,王 鼎,喬俊飛

(北京工業(yè)大學信息學部,北京 100124;計算智能與智能系統(tǒng)北京市重點實驗室,北京 100124;智慧環(huán)保北京實驗室,北京 100124;北京人工智能研究院,北京 100124)

1 引言

自適應動態(tài)規(guī)劃(adaptive dynamic programming,ADP)方法由Werbos[1]首先提出,該方法結合了動態(tài)規(guī)劃、神經(jīng)網(wǎng)絡和強化學習,其核心思想是利用函數(shù)近似結構來估計最優(yōu)代價函數(shù),從而獲得被控系統(tǒng)的近似最優(yōu)解.在ADP方法體系中,動態(tài)規(guī)劃蘊含最優(yōu)性原理提供理論基礎,神經(jīng)網(wǎng)絡作為函數(shù)近似結構提供實現(xiàn)手段,強化學習提供學習機制.值得注意的是,ADP方法具有強大的自學習能力,在處理非線性復雜系統(tǒng)的最優(yōu)控制問題上具有很大的潛力[2–7].此外,ADP作為一種近似求解最優(yōu)控制問題的新方法,已經(jīng)成為智能控制與計算智能領域的研究熱點.關于ADP的詳細理論研究以及相關應用,讀者可以參考文獻[8–9].本文將基于ADP的動態(tài)系統(tǒng)優(yōu)化控制統(tǒng)稱為自適應評判控制.

近年來,微分博弈問題在控制領域受到了越來越多的關注.微分博弈為研究多玩家系統(tǒng)的協(xié)作、競爭與控制提供了一個標準的數(shù)學框架,包括二人零和博弈、多人零和博弈以及多人非零和博弈等.在零和博弈問題中,控制輸入試圖最小化代價函數(shù)而干擾輸入試圖最大化代價函數(shù).在非零和博弈問題中,每個玩家都獨立地選擇一個最優(yōu)控制策略來最小化自己的代價函數(shù).值得注意的是,零和博弈問題已經(jīng)被廣泛研究.在文獻[10]中,作者提出了一種改進的ADP方法來求解多輸入非線性連續(xù)系統(tǒng)的二人零和博弈問題.An等人[11]提出了兩種基于積分強化學習的算法來求解連續(xù)時間系統(tǒng)的多人零和博弈問題.Ren等人[12]提出了一種新穎的同步脫策方法來處理多人零和博弈問題.然而,關于非零和博弈[13–14]的研究還很少.此外,控制約束在實際應用中也廣泛存在.這些約束通常是由執(zhí)行器的固有物理特性引起的,如氣壓、電壓和溫度.因此,為了確保被控系統(tǒng)的性能,受約束的系統(tǒng)需要被考慮.Zhang等人[15]發(fā)展了一種新穎的事件采樣ADP方法來求解非線性連續(xù)約束系統(tǒng)的魯棒最優(yōu)控制問題.Huo等人[16]研究了一類非線性約束互聯(lián)系統(tǒng)的分散事件觸發(fā)控制問題.Yang和He[17]研究了一類具有不匹配擾動和輸入約束的非線性系統(tǒng)事件觸發(fā)魯棒鎮(zhèn)定問題.這些文獻考慮的都是對稱約束,而實際應用中,被控系統(tǒng)受到的約束也可能是不對稱的[18–20],例如在污水處理過程中,需要通過氧傳遞系數(shù)和內(nèi)回流量對溶解氧濃度和硝態(tài)氮濃度進行控制,而根據(jù)實際的運行條件,這兩個控制變量就需要被限制在一個不對稱約束范圍內(nèi)[20].因此,在控制器設計過程中,不對稱約束問題將是筆者研究的一個方向.

到目前為止,關于具有控制約束的微分博弈問題,有一些學者取得了相應的研究成果[12,21–23].但可以發(fā)現(xiàn),具有不對稱約束的多人非零和博弈問題還沒有學者研究.同時,在多人非零和博弈問題中,相關的耦合Hamilton-Jacobi(HJ)方程是很難求解的.因此,本文針對一類連續(xù)時間非線性系統(tǒng)的不對稱約束多人非零和博弈問題,提出了一種自適應評判控制方法來近似求解耦合HJ方程,從而獲得被控系統(tǒng)的近似最優(yōu)解.本文的主要貢獻如下: 1)首次將不對稱約束應用到連續(xù)時間非線性系統(tǒng)的多人非零和博弈問題中;2)提出了一種新穎的非二次型函數(shù)來處理不對稱約束問題,并且當系統(tǒng)狀態(tài)為零時,最優(yōu)控制策略是不為零的,這與以往不同;3)在學習期間,用單一評判網(wǎng)絡結構代替了傳統(tǒng)的執(zhí)行–評判網(wǎng)絡結構,并且提出了一種新的權值更新規(guī)則;4)利用Lyapunov方法證明了評判網(wǎng)絡權值近似誤差和系統(tǒng)狀態(tài)的一致最終有界(uniformly ultimately bounded,UUB)穩(wěn)定性.

2 問題描述

考慮以下具有不對稱約束的N–玩家連續(xù)時間非線性系統(tǒng):

其中:x(t)∈? ?Rn是狀態(tài)向量且x(0)=x0為初始狀態(tài),Rn代表由所有n-維實向量組成的歐氏空間,?是Rn的一個緊集;uj(t)∈Tj ?Rm為玩家j在時刻t所選擇的策略,且Tj為

假設1非線性系統(tǒng)(1)是可控的,并且x=0是被控系統(tǒng)(1)的一個平衡點.此外,?j ∈N,f(x)和gj(x)是未知的Lipschitz函數(shù)且f(0)=0,其中集合N={1,2,···,N},N≥2是一個正整數(shù).

假設2?j ∈N,gj(0)=0,且存在一個正常數(shù)bgj使‖gj(x)‖≤bgj,其中‖·‖表示在Rn上的向量范數(shù)或者在Rn×m上的矩陣范數(shù),Rn×m代表由所有n×m維實矩陣組成的空間.

注1假設1–3是自適應評判領域的常用假設,例如文獻[6,13,19],是為了保證系統(tǒng)的穩(wěn)定性以及方便后文中的穩(wěn)定性證明,其中假設3出現(xiàn)在后文中的第3.2節(jié).

定義與每個玩家相關的效用函數(shù)為

其中U={u1,u2,···,uN}并且Qi是一個對稱正定矩陣.此外,為了處理不對稱約束問題,令Sj(uj)為

其中αj和βj分別為

因此,與每個玩家相關的代價函數(shù)可以表示為

其中i ∈N.為了方便,將Ji(x0,U)簡寫為Ji(x0).于是,每個玩家的最優(yōu)代價函數(shù)為

在本文中,如果一個控制策略集的所有元素都是可容許的,那么這個集合是可容許的.

定義1(容許控制[24])如果控制策略ui(x)是連續(xù)的,ui(x)可以鎮(zhèn)定系統(tǒng)(1),并且Ji(x0)是有限的,那么它是集合?上關于代價函數(shù)(6)的可容許控制律,即ui(x)∈Ψ(?),i ∈N,其中,Ψ(?)是?上所有容許控制律的集合.

對于任意一個可容許控制律ui(x)∈Ψ(?),如果相關代價函數(shù)(6)是連續(xù)可微的,那么非線性Lyapunov方程為

其中,Hamiltonian函數(shù)Hi(x,U,?(x))為

注2根據(jù)式(2)和式(5),能推導出βi≠0,即≠0,又根據(jù)式(12)可知(0)≠0,i ∈N.因此,為了保證x=0是系統(tǒng)(1)的平衡點,在假設2中提出了條件?j ∈N,gj(0)=0.

將式(12)代入式(10),耦合HJ方程又能表示為

如果已知每個玩家的最優(yōu)代價函數(shù)值,那么相關的最優(yōu)狀態(tài)反饋控制律就可以直接獲得,也就是說式(13)是可解的.可是,式(13)這種非線性偏微分方程的求解是十分困難的.同時,隨著系統(tǒng)維數(shù)的增加,存儲量和計算量也隨之以指數(shù)形式增加,也就是平常所說的“維數(shù)災”問題.因此,為了克服這些弱點,在第3部分提出了一種基于神經(jīng)網(wǎng)絡的自適應評判機制,來近似每個玩家的最優(yōu)代價函數(shù),從而獲得相關的近似最優(yōu)狀態(tài)反饋控制策略.

3 自適應評判控制設計

3.1 神經(jīng)網(wǎng)絡實現(xiàn)

本節(jié)的核心是構建并訓練評判神經(jīng)網(wǎng)絡,以得到訓練后的權值,從而獲得每個玩家的近似最優(yōu)代價函數(shù)值.

首先,根據(jù)神經(jīng)網(wǎng)絡的逼近性質(zhì)[25],可將每個玩家的最優(yōu)代價函數(shù)(x)在緊集?上表示為

其中:Wi ∈Rδ是理想權值向量,σi(x)∈Rδ是激活函數(shù),δ是隱含層神經(jīng)元個數(shù),ξi(x)∈R是重構誤差.同時,可得出每個玩家的最優(yōu)代價函數(shù)梯度為

將式(15)代入式(12),有

值得注意的是,式(14)中的理想權值向量Wi是未知的,也就是說式(16)中的(x)是不可解的.因此,構建如下的評判神經(jīng)網(wǎng)絡:

考慮式(19),近似的最優(yōu)控制律為

3.2 穩(wěn)定性分析

本節(jié)的核心是通過利用Lyapunov方法討論評判網(wǎng)絡權值近似誤差和閉環(huán)系統(tǒng)狀態(tài)的UUB穩(wěn)定性.這里,給出以下假設:

定理1考慮系統(tǒng)(1),如果假設1–3成立,狀態(tài)反饋控制律由式(20)給出,且評判網(wǎng)絡權值通過式(22)進行訓練,則評判網(wǎng)絡權值近似誤差是UUB穩(wěn)定的.

證選取如下的Lyapunov函數(shù):

計算L1i(t)沿著式(23)的時間導數(shù),即

根據(jù)假設3,有

其中λmin(·)表示矩陣的最小特征值.因此,當不等式

證畢.

定理2考慮系統(tǒng)(1),如果假設1–3成立,狀態(tài)反饋控制律由式(20)給出,且評判網(wǎng)絡權值通過式(22)進行訓練,則系統(tǒng)狀態(tài)x(t)是UUB穩(wěn)定的.

證選取如下的Lyapunov函數(shù):

考慮式(13),有

同時,根據(jù)假設2–3,有

4 仿真結果

考慮如下的3–玩家連續(xù)時間非線性系統(tǒng):

其中:x(t)=[x1x2]T∈R2是狀態(tài)向量,u1(x)∈T1={u1∈R:-1 ≤u1≤2},u2(x)∈T2={u2∈R:-0.2 ≤u2≤1}和u3(x)∈T3={u3∈R:-0.4 ≤u3≤0.8}是控制輸入.

令Q1=2I2,Q2=1.8I2,Q3=0.3I2,其中I2代表2× 2維單位矩陣.同時,根據(jù)式(5)可知,α1=1.5,β1=0.5,α2=0.6,β2=0.4,α3=0.6,β3=0.2.因此,與每個玩家相關的代價函數(shù)可以表示為

執(zhí)行學習過程,本文發(fā)現(xiàn)每個玩家的評判神經(jīng)網(wǎng)絡權值分別收斂于[6.9091 2.9904 6.6961]T,[4.8901 2.2347 5.2062]T,[1.7945 0.3321 2.4583]T.在60個時間步之后去掉探測噪聲,每個玩家的評判網(wǎng)絡權值收斂過程如圖1–3所示.然后,將訓練好的權值代入式(20),能得到每個玩家的近似最優(yōu)控制律,將其應用到系統(tǒng)(39),經(jīng)過10個時間步之后,得到的狀態(tài)軌跡和控制軌跡分別如圖4–5所示.由圖4可知,系統(tǒng)狀態(tài)最終收斂到了平衡點.由圖5可知,每個玩家的控制軌跡都沒有超出預定的邊界,并且可以觀察到u1,u2和u3分別收斂于0.5,0.4和0.2.綜上所述,仿真結果驗證了所提方法的有效性.

圖1 玩家1的評判網(wǎng)絡權值收斂過程Fig.1 Convergence process of the critic network weights for player 1

圖2 玩家2的評判網(wǎng)絡權值收斂過程Fig.2 Convergence process of the critic network weights for player 2

圖3 玩家3的評判網(wǎng)絡權值收斂過程Fig.3 Convergence process of the critic network weights for player 3

圖4 系統(tǒng)(39)的狀態(tài)軌跡Fig.4 State trajectory of the system(39)

圖5 系統(tǒng)(39)的控制軌跡Fig.5 Control trajectories of the system(39)

5 結論

本文首次將不對稱約束應用到連續(xù)時間非線性系統(tǒng)的多人非零和博弈問題中.首先,獲得了最優(yōu)狀態(tài)反饋控制律和耦合HJ方程,并且為了解決不對稱約束問題,建立了一種新的非二次型函數(shù).值得注意的是,當系統(tǒng)狀態(tài)為零時,最優(yōu)控制策略是不為零的.其次,由于耦合HJ方程不易求解,提出了一種基于神經(jīng)網(wǎng)絡的自適應評判算法來近似每個玩家的最優(yōu)代價函數(shù),從而獲得相關的近似最優(yōu)控制律.在實現(xiàn)過程中,用單一評判網(wǎng)絡結構代替了經(jīng)典的執(zhí)行–評判結構,并且建立了一種新的權值更新規(guī)則.然后,利用Lyapunov理論討論了評判網(wǎng)絡權值近似誤差和系統(tǒng)狀態(tài)的UUB穩(wěn)定性.最后,仿真結果驗證了所提算法的可行性.在未來的工作中,會考慮將事件驅動機制引入到連續(xù)時間非線性系統(tǒng)的不對稱約束多人非零和博弈問題中,并且將該研究內(nèi)容應用到污水處理系統(tǒng)中也是筆者的一個重點研究方向.

猜你喜歡
最優(yōu)控制代價評判
交流與評判
條件平均場隨機微分方程的最優(yōu)控制問題
基于學習的魯棒自適應評判控制研究進展
自動化學報(2019年6期)2019-07-23 01:18:18
帶跳躍平均場倒向隨機微分方程的線性二次最優(yōu)控制
Timoshenko梁的邊界最優(yōu)控制
愛的代價
海峽姐妹(2017年12期)2018-01-31 02:12:22
代價
采用最優(yōu)控制無功STATCOM 功率流的解決方案
詩歌評判與詩歌創(chuàng)作
文學教育(2016年27期)2016-02-28 02:35:12
成熟的代價
中學生(2015年12期)2015-03-01 03:43:53
德州市| 浪卡子县| 兰考县| 清涧县| 阳朔县| 孟连| 年辖:市辖区| 深州市| 西乌| 淳安县| 阜新| 日照市| 曲松县| 罗源县| 景泰县| 高淳县| 当阳市| 通江县| 嘉义县| 砀山县| 成武县| 青岛市| 洛宁县| 菏泽市| 静安区| 天祝| 措美县| 永顺县| 桦甸市| 闸北区| 亚东县| 诸暨市| 山丹县| 大同县| 商河县| 丁青县| 铜山县| 巩义市| 威海市| 宣恩县| 宣城市|