魏文軍 尉晶波
(1.蘭州交通大學自動化與電氣工程學院,甘肅蘭州 730070;2.蘭州交通大學光電技術與智能控制教育部重點實驗室,甘肅蘭州 730070)
多智能體系統(tǒng)的一致性控制由于其廣泛的應用,如無人機編隊控制[1-2],自主移動的智能體群[3]等,引起了廣泛的關注.一般而言,多智能體系統(tǒng)的一致性問題分為無領導者一致性[4]和有領導者跟隨一致性[5].無領導者一致性是為每個智能體設計一致性控制律,通過智能體間的局部通信,使智能體最終趨于一致.有領導者跟隨一致性是指一個智能體作為領導者,其余智能體作為跟隨者.領導者作為指令發(fā)出者,生成參考軌跡,跟隨者通過智能體間的局部通信跟蹤到領導者信號,實現多智能體的跟蹤一致性.
多智能體最優(yōu)一致性控制是多智能體一致性控制的一個重要的分支,在實際工程應用中有著重要的意義.最優(yōu)控制是指在滿足系統(tǒng)穩(wěn)定性條件下,使得系統(tǒng)的性能指標取得極值.文獻[6-8]提出了一種通過求解線性二次調節(jié)器(linear quadratic regulator,LQR)問題的分布式最優(yōu)控制設計方法,雖然解決了多智能體系統(tǒng)的最優(yōu)控制問題,但系統(tǒng)達到穩(wěn)態(tài)的時間長.針對具有輸入約束的一般線性多智能體系統(tǒng)的最優(yōu)一致性控制問題,文獻[9]利用逆最優(yōu)方法提出了基于滾動時域控制的一致性策略,設計了最優(yōu)一致性協議.文獻[10]利用逆最優(yōu)方法研究了線性多智能體系統(tǒng)中各智能體狀態(tài)可測的最優(yōu)一致性控制問題.文獻[11-12]提出了一種基于模糊自適應動態(tài)規(guī)劃的最優(yōu)控制算法,解決了多智能體系統(tǒng)的一致性最優(yōu)控制問題.文獻[13]提出了一種基于神經逆最優(yōu)控制的控制律設計方法,解決了非線性離散多智能體系統(tǒng)的分散鎮(zhèn)定控制問題.文獻[14]為解決非線性離散多智能體系統(tǒng)的分布式逆最優(yōu)控制問題,提出了一種基于非合作博弈的協同控制方法.而對于全局最優(yōu)控制問題,通常需要智能體的全局信息,在實際應用中很難獲得智能體的全局信息.在文獻[15]中,為每個智能體設計了分布式近似最優(yōu)控制器,解決了系統(tǒng)的分布式最優(yōu)控制問題.文獻[16]為解決異構非線性多智能體系統(tǒng)的最優(yōu)控制問題,通過分布式觀測器為每個智能體提供領導者信息,利用無模型近似動態(tài)規(guī)劃算法提出了一種最優(yōu)分布式控制協議.文獻[17]考慮了指定性能和帶有輸入死區(qū)約束的嚴格反饋非線性系統(tǒng),提出了自適應模糊最優(yōu)控制算法,使系統(tǒng)的跟蹤誤差約束在指定范圍內.文獻[18]研究了一類不確定的嚴格反饋非線性系統(tǒng)的自適應模糊反優(yōu)化控制問題,利用反步遞歸算法提出了自適應模糊逆向優(yōu)化方案,保證系統(tǒng)從輸入到狀態(tài)的穩(wěn)定性,并且在目標函數方面實現反優(yōu)化.文獻[19]研究了一般線性多智能體系統(tǒng)的逆最優(yōu)控制問題,提出了基于靜態(tài)輸出反饋的最優(yōu)協同控制協議.
在實際應用中,智能體控制性能的好壞對系統(tǒng)整體的運行有重要的意義,比如瞬態(tài)性能、穩(wěn)態(tài)性能和最優(yōu)性能,其中系統(tǒng)的瞬態(tài)性能依賴于系統(tǒng)特征值的位置.針對這一點,文獻[20]引入兩個關于閉環(huán)系統(tǒng)特征值的性能指標來評價一致性性能:收斂率和阻尼率.收斂率用于評價智能體的收斂速度,阻尼率用于評價智能體的振蕩行為.然而,現有的基于LQR的一致性設計方法[6-8,21]在解決這類問題時存在重大缺陷,因為很難選擇合適的權重矩陣,使得多智能體系統(tǒng)的特征值不能位于特定的區(qū)域,從而很難獲得理想的一致性性能.
上述文獻雖研究解決了多智能體系統(tǒng)的最優(yōu)控制問題,但這些文獻解決智能體控制性能的同時沒有考慮系統(tǒng)整體性能最優(yōu).主要存在以下問題:1)研究對象主要為線性或非線性離散多智能體系統(tǒng),所提的研究方法無法滿足一般連續(xù)非線性多智能體系統(tǒng);2)僅僅考慮了系統(tǒng)的整體最優(yōu)性能,單個智能體的控制效果一般且收斂時間長,無法滿足對單個智能體性能要求高的系統(tǒng).
基于上述討論,本文針對一般連續(xù)非線性多智能體系統(tǒng),研究拓撲切換下的全局最優(yōu)協同控制問題.主要的創(chuàng)新點如下: 1)提出了通過一種IT2 T-S模糊模型將連續(xù)非線性系統(tǒng)等價轉化為線性系統(tǒng);2)基于局部穩(wěn)定性理論,給出了全局逆最優(yōu)控制的充要條件和全局逆最優(yōu)控制的設計過程;3)基于全局逆最優(yōu)控制條件,設計了拓撲切換下全局最優(yōu)控制律,使得多智能體系統(tǒng)實現期望性能下的全局最優(yōu)控制,同時實現了單個智能體的期望性能,解決了現有文獻中控制效果一般和系統(tǒng)達到一致時間長的問題.
考慮具有N個節(jié)點的非空有限集的加權有向圖G=(V,E,A),其中V(ν1,ν2,...,νN),邊集E ?V×V,相關的鄰接矩陣A[aij]RN×N.始于根節(jié)點j并終止于節(jié)點i的邊緣用(νj,νi)表示,這意味著信息從節(jié)點j流向節(jié)點i,邊(νj,νi)的權重aij為正.即若(νj,νi),則aij >0,否則,aij0.在本文中,假設沒有重復的邊和自閉環(huán),即aii0,?i{1,2,...,N}.若(νj,νi),則節(jié)點j稱為節(jié)點i的鄰接節(jié)點.節(jié)點i的鄰接節(jié)點集表示為Ni{j|(νj,νi).定義有向圖的入度矩陣Ddiag{diRN×N,其中di定義拉普拉斯矩陣LD-A.若圖G中兩個節(jié)點可以通過一條路徑連起來,則稱圖G為連通圖.若圖G中的每兩個頂點都可以有一條有向路連接,則稱圖G為強連通圖.若圖G為強連通圖,其含有一個零特征值.圖G含有一個有向生成樹,則存在從節(jié)點i到圖中每個其他節(jié)點的有向路徑.
本文考慮非線性多智能體系統(tǒng)由N個非線性子系統(tǒng)組成.第i個非線性子系統(tǒng)的動態(tài)方程為
其中:i1,2,...,N,N為非線性智能體的個數;AiRm×m為系統(tǒng)狀態(tài)矩陣;BiRm×n為系統(tǒng)輸入矩陣;xi(t)Rm為第i個子系統(tǒng)的狀態(tài)列向量;ui(t)Rn為第i個子系統(tǒng)的控制輸入向量;fi(.):Rm →Rm非線性函數.
為了表示非線性系統(tǒng)的局部線性輸入/輸出關系,應用一種局部線性輸入輸出關系模型[4]-IT2 T-S模糊模型.非線性系統(tǒng)可根據IT2 T-S模糊模型轉化為下列局部線性子系統(tǒng):
其中:EilRm×m,l1,2,...,r,r為模糊規(guī)則數.xi[xi1xi2...xim]T;ui[ui1ui2...uin]T.
局部線性子系統(tǒng)式(2)的全局方程為
利用單點模糊化,乘積模糊推理和加權平均數模糊化,IT2 T-S模糊系統(tǒng)將式(1)可寫為式(4)
其中隸屬度函數
系統(tǒng)式(3)的全局動態(tài)方程為
不失一般性,推導本文結論前,對IT2 T-S模糊化的多智能體系統(tǒng)做出以下假設:
假設1(Bil)是可控的.
假設2圖G含有一個有向生成樹.
分別對有領導者和無領導者情況下當智能體能夠獲取鄰接智能體的狀態(tài)信息,基于LQR方法[21]設計的全局狀態(tài)反饋控制器
使得多智能體系統(tǒng)的全局目標函數(9)最小.
其中:Kl為局部線性子系統(tǒng)全局反饋增益;Ql,Rl為已知的對稱非負定矩陣;反饋增益矩陣
其中Pl為Riccati方程式(10)的唯一正定對稱解.
式(10)可等價為
則S為李雅普諾夫漸進穩(wěn)定的.
由引理2可推出下列命題.
命題1若以下條件成立
2)Kl是穩(wěn)定的到Pl的零空間;對于逆最優(yōu)控制問題,Kl是最優(yōu)的和Pl為Riccati方程的半正定解.
證由式(11)可得
考慮以下性能指標:
命題2對于逆最優(yōu)控制問題,Kl是最優(yōu)的;當Ql≥0和Rl≥0時,Pl為Riccati方程的唯一半正定解,當條件成立
1)Kl/2是穩(wěn)定的在Pl的零空間;
2)KlBl為半正定矩陣.
由上述證明可知,對任意x0Rm且x00時,系統(tǒng)性能指標的最優(yōu)值為
不失一般性,設計全局逆最優(yōu)控制律前,假設模糊
本文假設智能體i能夠獲取鄰接智能體的狀態(tài)信息,在此前提條件下研究有向拓撲切換下有領導者和無領導者的非線性多智能體系統(tǒng)全局逆最優(yōu)協同控制問題.
假設領導者和跟隨著為同構智能體.領導者系統(tǒng)的動態(tài)方程如下:
其中:v0為領導者系統(tǒng)的狀態(tài)向量,為領導者系統(tǒng)的狀態(tài)矩陣.
設計局部子系統(tǒng)i的控制律uicKilεi,使得多智能體系統(tǒng)的所有節(jié)點都能同步于領導者節(jié)點,同時使得系統(tǒng)的二次型性能指標值達到最小.
定義線性子系統(tǒng)i鄰接誤差方程為
系統(tǒng)的全局鄰接誤差方程為
模糊化的多智能體系統(tǒng)的全局閉環(huán)方程為
多智能體系統(tǒng)的全局閉環(huán)誤差方程為
引理3[10]設λi為矩陣(L+H)σ(t)的特征值.若全局閉環(huán)跟蹤誤差系統(tǒng)實現漸近穩(wěn)定,當且僅當矩陣-cλiBlKl為Hurwitz.
定理1對于全局跟蹤誤差系統(tǒng),設計分布式控制律式,當且僅當矩陣(L+H)σ(t)為正定矩陣,系統(tǒng)的全局二次性能指標達到最優(yōu).
證(必要性) 由命題3可知,若分布式控制律u-c(L+H)σ(t)?Klε為最優(yōu),矩陣[(L+H)σ(t)?Kl](In ?B)為正定矩陣.存在一個非奇異矩陣T1滿足
其中Λ1為矩陣(L+H)σ(t)?(KlBl)的特征值對角陣.
矩陣(L+H)σ(t)和KlBl的約旦標準型分別為
將式(25)-(26)代入式(28)中,可得
由于系統(tǒng)的通信拓撲圖G包含一個生成樹,其中至少有一個非零增益連接到根節(jié)點.因此拓撲圖G所對應的矩陣(L+H)σ(t)的全部特征值均有正實部.假設(L+H)σ(t)有共軛復根α±jβ,其中α >0,0R.假設μ為矩陣KlBl的一個非零特征值,則μ(α±jβ)為Λ1的特征值.可得μ(α±jβ)>0.當μ>0和β0時,矩陣(L+H)σ(t)為正定的.
(充分性) 設Kl[K1K2]Rn×m,矩陣
其中ΣSA11+A21-cλiB1K1-(SA12+A22-cλiB1K2)S.
當cλi >1,推導可知(x)<0,因此-cλiBlKl為Hurwitz.根據引理2,選擇S,F和c >cmin,使得系統(tǒng)為漸進穩(wěn)定的.根據命題3可知,c(L+H)σ(t)Kl為最優(yōu)反饋控制增益.
其中Pl為Riccati方程式(36)的唯一正定對稱解.
證畢.
對于無領導者多智能體系統(tǒng)的一致性問題,當時間t →∞,智能體的狀態(tài)能夠達到同一狀態(tài).即
通過設計分布式一致性控制律ui,使得系統(tǒng)的每個智能體達到同一狀態(tài),并使系統(tǒng)的性能指標達到最小.設計的無領導者局部線性子系統(tǒng)的全局分布式一致性控制律
其中:c >0,反饋增益矩陣KlRn×m.線性化的多智能體的閉環(huán)系統(tǒng)方程可寫為
全局閉環(huán)系統(tǒng)可寫為
假設系統(tǒng)的通信拓撲為強連通的,拓撲圖對應的Laplace矩陣Lσ(t)的特征值λ10,其余的特征值均為有正實部的非零特征值.
定理2對于全局閉環(huán)系統(tǒng)(40),在分布式一致性控制律u作用下,系統(tǒng)的全局二次性能指標式(41)是最優(yōu)的.
此外,由于全局逆最優(yōu)分布式一致性控制律式(38)穩(wěn)定在零空間Im ?Lσ(t),系統(tǒng)的通信拓撲為強連通拓撲,因此在最優(yōu)控制律作用下,智能體系統(tǒng)能夠實現一致性.
于是cLσ(t)?Kl可寫為
下面證明cLσ(t)?Kl能夠漸近穩(wěn)定到Lσ(t)?In的零空間.
對角陣J3是由一個零特征值和n-1個正特征值構成的對角陣,即J3diag{0,λ2,...,λn}.由此可推導得出
根據引理1可知,cLσ(t)?Kl為漸近穩(wěn)定到零空間Lσ(t)?In.因此,命題1中的條件均滿足,無領導者分布式反饋控制律為最優(yōu)的且漸近穩(wěn)定,非線性多智能體系統(tǒng)中的每個智能體能夠最終達到一致.證畢.
從實際角度來看,多智能體系統(tǒng)的一致性能夠達到預期的期望值是非常有意義的.系統(tǒng)中的每個智能體的瞬態(tài)狀態(tài)取決于系統(tǒng)閉環(huán)極點的位置.為了更好地使多智能體系統(tǒng)的一致性能夠達到期望值,本文采用逆最優(yōu)分布式反饋控制方法解決系統(tǒng)的一致性能夠達到預期值.針對有無領導者非線性多智能體系統(tǒng),給出逆最優(yōu)分布式控制律設計步驟.
1) 無領導者系統(tǒng).
步驟1:根據IT2 T-S模糊將非線性多智能體系統(tǒng)轉化為多個局部線性子系統(tǒng).
步驟2:根據智能體間的通信拓撲Lσ(t),求出對應的最小特征值并令c1/
步驟3:設計矩陣S使得A11-A12S的m-n個特征值{ω1,ω2,...,ωm-n}全部位于指定位置.
步驟4:根據式(34)求解反饋增益矩陣Kl并令γ→+∞.
步驟5:根據求得的反饋增益矩陣Kl確定系統(tǒng)的逆最優(yōu)分布式控制律.
2) 有領導者系統(tǒng).
步驟1:根據IT2 T-S模糊將非線性多智能體系統(tǒng)轉化為多個局部線性子系統(tǒng).
步驟2:根據智能體間的通信拓撲(L+H)σ(t),求出對應的最小特征值并令c1/
步驟3:設計矩陣S使得A11-A12S的m-n個特征值{ω1,ω2,...,ωm-n}全部位于指定位置.
步驟4:根據式(34)求解反饋增益矩陣Kl并令γ→+∞.
步驟5:根據求得的反饋增益矩陣Kl設計系統(tǒng)的全局逆最優(yōu)分布式一致性控制律.
下面分別對有向拓撲切換下的有無領導者非線性多智能體系統(tǒng)的全局最優(yōu)控制給出算例仿真,驗證逆最優(yōu)分布式反饋控制律的有效性和正確性.
非線性系統(tǒng)由6個非線性智能體組成,智能體間的有向切換拓撲如圖1所示,1 s為一個拓撲切換周期.
圖1 系統(tǒng)的有向切換拓撲Fig.1 The system’s directional switching topologies
非線性系統(tǒng)動態(tài)方程如式(48)所示.
利用IT2 T-S模糊規(guī)則將非線性系統(tǒng)化為不同模糊規(guī)則下的線性子系統(tǒng).線性子系統(tǒng)可寫為
規(guī)則li1若xi2在0的微小鄰域內,則
規(guī)則li2若xi2在±π/2的微小鄰域內,則
模糊規(guī)則所對應的隸屬度函數如式(51)所示.
系統(tǒng)的有向切換拓撲如圖1所示,其對應的Laplace矩陣L的最小正特征值0.8340,可得出c1.1991.
1) 基于LQR分布式反饋控制律.
選擇權重矩陣QI3和R1,根據式(10)求解最優(yōu)反饋增益Kl.在控制律式(12)作用下,非線性多智能體系統(tǒng)的一致性如圖2所示,系統(tǒng)誤差如圖3所示,所有的智能體在4.3 s達到一致.
圖2 基于LQR分布式反饋控制律下智能體狀態(tài)Fig.2 Agent state under LQR distributed feedback control law
圖3 基于LQR分布式反饋控制律智能體誤差Fig.3 Agent error under LQR distributed feedback control law
2) 逆最優(yōu)分布式反饋控制律.
設系統(tǒng)中A11-A12S對應的特征值為-3±j0.5,γ20.在逆最優(yōu)控制律作用下,智能體的狀態(tài)如圖4所示,智能體間的誤差如圖5所示,所有的智能體大約在2 s達到一致,誤差衰減為零.
圖4 逆最優(yōu)分布式反饋控制律智能體狀態(tài)Fig.4 Agent state under Inverse optimal distributed feedback control law
通過圖3和圖5對比,基于逆最優(yōu)方法設計的分布式一致性最優(yōu)反饋控制律作用于多智能體系統(tǒng)時,非線性智能體達到一致所需時間明顯縮短,對系統(tǒng)有很好的控制效果.
圖5 逆最優(yōu)分布式反饋控制律系統(tǒng)誤差Fig.5 Agent state under Inverse optimal distributed feedback control law
系統(tǒng)由6個非線性智能體和1個非線性領導者構成,通信拓撲如圖6所示,拓撲切換周期為1 s.
圖6 系統(tǒng)的有向切換拓撲Fig.6 The system’s directional switching topologies
非線性領導跟隨者多智能體系統(tǒng)的動態(tài)方程如式(48)所示.
非線性領導者系統(tǒng)方程如式(52)所示
通信拓撲網絡圖2對應的矩陣(L+H)σ(t)最小正特征值0.4544,則c2.2007.領導跟隨者系統(tǒng)在不同控制律下的領導跟隨一致性.
1) 基于LQR分布式反饋控制律.
選擇權重矩陣QI3和R1,根據式(10)求解最優(yōu)反饋增益矩陣Kl.在控制律式(12)作用下,非線性智能體的狀態(tài)如圖7所示,系統(tǒng)誤差如圖8所示,所有智能體大約在5 s時跟蹤到領導者,誤差衰減為零.
圖7 基于LQR分布式反饋控制律智能體狀態(tài)Fig.7 Agent state under LQR distributed feedback control law
圖8 基于LQR分布式反饋控制律下智能體誤差Fig.8 Agent error under LQR distributed feedback control law
2) 逆最優(yōu)分布式反饋控制律.
假設A11-A12S對應的特征值為-2±j1.2,γ100,在逆最優(yōu)分布式反饋控制律作用下,智能體的狀態(tài)如圖9所示,系統(tǒng)誤差如圖10所示,所有智能體在4 s達到一致,系統(tǒng)誤差衰減為零,系統(tǒng)的一致性滿足期望值.
圖9 逆最優(yōu)分布式反饋控制律智能體狀態(tài)Fig.9 Agent state under inverse optimal distributed feedback control law
對比圖8和圖10,有領導者非線性多智能體系統(tǒng)通過逆最優(yōu)法設計的控制律對非線性多智能體系統(tǒng)有更好的控制效果,智能體跟隨到領導者所需時間比一般控制律更短.
圖10 逆最優(yōu)分布式反饋控制律智能體誤差Fig.10 Agent error under inverse optimal distributed feedback control law
本文研究了拓撲切換下連續(xù)非線性多智能體系統(tǒng)全局逆最優(yōu)控制問題,提出了用于一般連續(xù)非線性系統(tǒng)的方法,通過IT2 T-S模糊模型將非線性系統(tǒng)方程轉化為線性系統(tǒng)方程;基于逆最優(yōu)方法設計了拓撲切換下的一致性最優(yōu)協同控制律,與基于LQR的方法相比,基于逆最優(yōu)方法的最大優(yōu)勢在于: 1)對非線性多智能體系統(tǒng)有更好地控制效果,控制效果能夠滿足要求;2)智能體趨于一致或跟隨到領導者所需時間更短,多智能體系統(tǒng)能夠快速的達到期望值.