肖 星,羅毅平,蔡 聰,姚月杰
(湖南工程學院 電氣與信息工程學院,湘潭 411104)
多智能體系統(tǒng)是人工智能領域的一項重要內(nèi)容,是屬于計算機、軍事、通信與控制等多個領域的交叉學科,自然界和社會中的很多復雜系統(tǒng)都可以看作是多智能體系統(tǒng)[1].研究多智能體系統(tǒng),一方面可以加深人們對大自然現(xiàn)象的了解和認識,另一方面可以為各行各業(yè)的發(fā)展奠定理論基礎.目前,多智能體系統(tǒng)在實際中有著非常廣泛的應用,例如編隊控制[2]、智能交通[3]、傳感器網(wǎng)絡[4]和航天器的交會對接問題.多智能體系統(tǒng)已經(jīng)成為一種對現(xiàn)實中的復雜系統(tǒng)進行分析、設計和建模的有效方法和工具.通過多智能體間協(xié)作機制的引入,一個大規(guī)模的復雜任務便能由多個簡單的智能體完成,與高度智能的個體相比,這可以更大限度地節(jié)省成本,減少資源浪費.
其中,一致性問題是多智能體系統(tǒng)中每個智能體之間進行相互作用所涌現(xiàn)的動力學行為,是研究多智能體系統(tǒng)合作與協(xié)調(diào)控制的關鍵[5].隨著經(jīng)濟與科技的發(fā)展,無人機群控制、機器人群編隊以及無線傳感網(wǎng)控制等研究領域,都是基于多智能體系統(tǒng)一致性的概念來進行控制的.對多智能體系統(tǒng)一致性控制的研究熱度不斷增長,其影響力也越來越大,已經(jīng)成為控制領域的研究熱點.
在已有的一些文獻中,多智能體系統(tǒng)內(nèi)部的信息交互方式大多都依賴于各個智能體狀態(tài)信息的連續(xù)交換.隨著數(shù)字化網(wǎng)絡的不斷發(fā)展,網(wǎng)絡帶寬和網(wǎng)絡節(jié)點也不斷增長,從節(jié)省資源的角度來看,時間觸發(fā)的采樣方式有一定的局限.學者們提出用事件觸發(fā)策略的方式以節(jié)約通信資源.事件觸發(fā)策略在減少不必要的采樣和傳輸方面具有優(yōu)越性,越來越多的研究人員采用事件觸發(fā)策略來解決多智能體系統(tǒng)的一致性問題[6-7].到目前為止,事件觸發(fā)策略的研究已經(jīng)取得一定的成果.例如,Jian Liu[8]研究了不確定非線性多智能體系統(tǒng)的固定時間事件觸發(fā)一致性問題,可以讓智能體間不需要持續(xù)通信就能實現(xiàn)一致.接下來,本文將從多個角度對多智能體系統(tǒng)事件觸發(fā)一致性問題進行概述.
多智能體系統(tǒng)一致性,即隨著時間變化,多智能體系統(tǒng)中的所有智能體在相互的耦合作用之下,最終的狀態(tài)(如位置、速度等)趨向于一致.已有文獻主要采用三種形式研究不同的多智能體系統(tǒng)的一致性問題.
對于無領導者的多智能體系統(tǒng),一般在控制協(xié)議作用下,使得智能體i和智能體j的狀態(tài)最終達到同一運動狀態(tài)[9],這種一致性方式具有普適性,同時適用于有向連通圖和無向連通圖.具體可以描述為‖xi(t )-xj(t)‖=0,?i,j=1,···,N,其中,xi(t)表示智能體i的狀態(tài).
文獻[10]中的平均一致性可以使多智能體系統(tǒng)中的每個智能體在控制協(xié)議作用下的最終狀態(tài)都可以達到Ave( )x()0.平均一致性的最終狀態(tài)與所有智能體狀態(tài)的初始值都有關,是一個相對固定的數(shù)值,但是并不是所有的多智能體系統(tǒng)都能夠?qū)崿F(xiàn)平均一致性.平均一致性只適用于無向連通圖或強連通平衡圖.平均一致性[10]的表達形式為
對于有領導者的多智能體系統(tǒng),如文獻[11]所述,除領導者外的其他智能體的最終狀態(tài)在一致性控制協(xié)議作用下均與領導者保持一致.領導者在領導跟隨系統(tǒng)中地位非常重要,其他智能體需要與領導 者保持通信.表示為‖xi(t )-x0(t)‖ =0,?i=1,···,N,其中,x0(t)表示智能體領導者的狀態(tài).領導跟隨系統(tǒng)其實就是無領導者系統(tǒng)中xi(t)與xj(t)達到一致的特殊情況.
多智能體系統(tǒng)能夠?qū)崿F(xiàn)一致的前提是智能體具有動力學行為,智能體之間存在通信拓撲結構,能夠進行信息交換,并且存在一致性協(xié)議.更進一步地,事件觸發(fā)策略的提出能夠有效的減少控制器的更新和資源損耗.本小節(jié)將從動力學行為、控制協(xié)議以及事件觸發(fā)條件等角度出發(fā),分析現(xiàn)階段連續(xù)多智能體系統(tǒng)的事件觸發(fā)一致性研究進展.
現(xiàn)如今,由于多智能體在人工智能及機器人等領域的應用越來越深入,對多智能體系統(tǒng)一致性的研究熱度只增不減,而根據(jù)不同的實際情況,建立的動力學模型也越來越豐富.
2.1.1 不同階的多智能體模型
已經(jīng)有很多文獻針對各種各樣的實際系統(tǒng)提出了合適的多智能體系統(tǒng)模型,例如一階、二階和高階系統(tǒng)模型.一階系統(tǒng)模型相對簡單,計算簡便,處理復雜問題的時候一般會先從一階系統(tǒng)入手,然后推廣至高階系統(tǒng);二階系統(tǒng)模型在工程應用和生活中比較普遍,應用性更廣;而高階系統(tǒng)相對復雜,已有文獻一般將高階系統(tǒng)轉(zhuǎn)化為二階系統(tǒng)進行處理.在文獻[12][13][14]分別提出了這三種動力學行為的典型表示形式.
2.1.2 含干擾的多智能體模型
在實際的系統(tǒng)中,總是會受到噪聲和通信時滯等干擾的影響,需要使用更加復雜的模型解決問題.Yang Liu[15]采用了一種含時滯的非線性模型研究有限時間的多智能體系統(tǒng)保性能問題,其智能體i的動力學行為表示如下:
其中,i=1,2,···,N,xi(t)∈Rn表示系統(tǒng)的狀態(tài);xi(t -d)∈Rn表示節(jié)點狀態(tài)時滯;ui(t)∈Rm表示控制輸入;f(xi(t))表示智能體i的非線性函數(shù).
同時,實際系統(tǒng)中可能會出現(xiàn)一些不確定的干擾因素,Yiwen Qi[16]采用了一種含有不確定項的多智能體系統(tǒng)模型研究多智能體系統(tǒng)的H∞控制問題,其智能體i的動力學行為表示如下:
其中,i=1,2,···,N,A∈ Rn×n和 B ∈ Rn×m表示適當維數(shù)的已知常數(shù)矩陣,ΔA和ΔB是適當維數(shù)的不確定矩陣.
對于非線性系統(tǒng)和不確定系統(tǒng),文獻[15][16]分別對非線性項和不確定項進行了轉(zhuǎn)化處理,很好地對實際系統(tǒng)中的干擾因素進行了模擬處理,但是其轉(zhuǎn)化過程并不是完全等價的,不能完全排除干擾因素的影響.
2.2.1 連續(xù)時間控制協(xié)議
至今,已經(jīng)有很多的文獻對多智能體系統(tǒng)的連續(xù)控制協(xié)議進行了研究,設計的是一種經(jīng)典的分布式控制協(xié)議[17-18],即
其中,K表示狀態(tài)反饋控制增益.
2.2.2 事件觸發(fā)控制協(xié)議
上述的連續(xù)時間控制協(xié)議中,每個智能體需要不斷的獲取其鄰居的當前狀態(tài),控制協(xié)議需要不斷更新,需要消耗大量的能量和資源.文獻[19][20]提出一種新的事件觸發(fā)控制協(xié)議,能夠有效的減少不必要的信息傳輸和控制協(xié)議更新.
xi(tik)是智能體i在事件觸發(fā)時刻tik的狀態(tài).
文獻[17]-[20]中的分布式協(xié)議比傳統(tǒng)的集中式控制協(xié)議控制效果更好,每個智能體的控制協(xié)議都不一樣.而事件觸發(fā)控制協(xié)議[19-20]相比連續(xù)時間控制協(xié)議[17-18]在節(jié)省能量和資源方面存在一定的優(yōu)勢,是多智能體系統(tǒng)一致性研究的熱點問題.
為了便于描述,首先定義
2.3.1 集中式事件觸發(fā)策略(Centralized ETS)
文獻[16][21]給出的是一種集中式的事件觸發(fā)通信方案,為多智能體系統(tǒng)中的所有智能體設計了一個通用的事件觸發(fā)條件,可以確定智能體何時與鄰居進行信息交換.集中式事件觸發(fā)策略的特點是需要多智能體系統(tǒng)中所有智能體的信息來確定下一個觸發(fā)瞬間.與時間觸發(fā)方案相比,在該事件觸發(fā)策略下,可以顯著降低智能體的通信頻率.集中式事件觸發(fā)策略為:
其中,智能體i當前時刻與最后事件時刻之間的估計誤差為ei(t)=xi(tk)-xi(t),?t∈[tk, tk+1).M,N是合適維數(shù)的正定對稱矩陣;L表示拉普拉斯矩陣.ρ∈[0,1]是給定的事件觸發(fā)策略的一個正向閾值.
2.3.2 集群式事件觸發(fā)策略(Clustered ETS)
當網(wǎng)絡規(guī)模較大時,集中式事件觸發(fā)策略難以應用,采用一種新的集群式事件觸發(fā)策略.在文獻[22][23]中,集群式事件觸發(fā)策略的特點是它不再需要收集所有智能體的狀態(tài)來確定下一個觸發(fā)時刻.一般把智能體劃分成不同的集群,只有同一集群中的智能體共享一個公共事件觸發(fā)條件,同一集群中智能體的觸發(fā)時刻是相同的.但是,不同集群中的智能體的觸發(fā)時刻可能不同.首先,利用初等矩陣U對多智能體系統(tǒng)矩陣進行排序:
將圖劃分成了κ個連通分量.且χσ(t)=Uxσ(t)表示集群智能體的狀態(tài).
其中,智能體i當前時刻與最后事件時刻之間的估 計 誤 差 為ei(t)=χi()-χi(t),?t∈ [).ρσ∈[0 ,1]是給定的事件觸發(fā)策略的一個正向閾值.
2.3.3 分布式事件觸發(fā)策略(Distributed ETS)
相比較而言,分布式事件觸發(fā)策略不需要收集所有智能體的狀態(tài)信息,能夠更好地節(jié)省通信資源.從文獻[24][25]可以看出,分布式事件觸發(fā)策略具有如下特點:系統(tǒng)中的每個智能體都能夠獨立地確定自己的行為,并且其事件觸發(fā)條件僅使用本地信息進行設計,每一個智能體都有它自己的事件觸發(fā)時間序列.文獻[24][25]提出一種簡單的分布式事件觸發(fā)策略:
注意到文獻[24][25]提出的事件觸發(fā)條件能夠減少控制器更新的頻率,其重點是事件觸發(fā)采樣,仍然需要智能體之間進行連續(xù)通信.與文獻[8]相比,文獻[24][25]的事件觸發(fā)函數(shù)較保守,需要的采樣時間以及觸發(fā)次數(shù)更少.當然,文獻[8]中提出的間斷通信下的事件觸發(fā)函數(shù)能夠很好克服連續(xù)通信的局限,減少通信資源的浪費,將成為未來研究的重點.
目前,對多智能體系統(tǒng)事件觸發(fā)一致性的研究仍然存在以下兩個問題.
上述分布式事件觸發(fā)策略在文獻[24][25]中,每個智能體都有自己的事件觸發(fā)時間序列,能夠有效地減少不必要的采樣和信息傳輸,提高資源利用率.然而,只是單純的保證系統(tǒng)穩(wěn)定性已經(jīng)很難滿足實際需求,系統(tǒng)性能優(yōu)化的問題尚待解決.如何有效地保證控制效果,使系統(tǒng)的保性能函數(shù)滿足要求將成為學者們以后的研究重點.如何在理論上明確揭示約束目標函數(shù)與資源利用之間的關系,在確保事件觸發(fā)策略合理性的前提下,實現(xiàn)多智能體系統(tǒng)的一致性優(yōu)化問題,是需要著重考慮的一個問題.
據(jù)了解,許多文獻中所得到的多智能體系統(tǒng)一致性的性能優(yōu)化的結果往往是次優(yōu)的[26],僅僅只能夠保證其滿足某一特定的性能指標;在實際需求中,工程應用上往往希望系統(tǒng)性能達到最優(yōu)或者是接近最優(yōu).從本質(zhì)上講,在多智能體優(yōu)化問題中,明確揭示約束目標函數(shù)與資源利用之間的關系具有挑戰(zhàn)性,吸引了大量的研究者.這些年,學者們紛紛提出一些優(yōu)化方法來解決多智能體系統(tǒng)的最優(yōu)化問題,但是這些方法[27-28]一般只是針對某一方面提出,還有很多問題尚未考慮.例如,在確保系統(tǒng)能夠?qū)崿F(xiàn)一致的情況下,怎樣通過減少采樣次數(shù)、優(yōu)化性能使其達到最優(yōu)一致.此外,基于事件觸發(fā)策略作用下的二階或高階多智能體系統(tǒng)以及網(wǎng)絡攻擊下的多智能體系統(tǒng)的保性能一致性問題均尚未涉及,對基于事件觸發(fā)策略作用下的含不確定參數(shù)、隨機干擾或者時滯的多智能體系統(tǒng)的保性能一致性問題也尚未見文獻報導,而現(xiàn)實中這些都是有意義的.由此可見,對多智能體系統(tǒng)保性能一致問題的研究任重而道遠.
上述文獻[21]-[25]大多通過狀態(tài)反饋控制方法研究多智能體系統(tǒng)的事件觸發(fā)一致性問題,沒有考慮某些狀態(tài)變量未知或工業(yè)儀表無法測量的情況.在大多數(shù)實際系統(tǒng)中,內(nèi)部狀態(tài)通常是不可能全部得到,有些狀態(tài)變量甚至根本無法檢測.在多智能體一致性問題的研究中需要進一步考慮輸出反饋控制方法.
當沒有智能體的狀態(tài)信息時,用智能體輸出信息代替一致性協(xié)議的設計引起了廣泛關注.對于不穩(wěn)定且狀態(tài)未知的運行系統(tǒng),通常情況下將通過觀測器來得到系統(tǒng)的狀態(tài)估計.如文獻[29]和文獻[30]基于觀測器分別研究了一般線性多智能體系統(tǒng)的事件觸發(fā)一致性問題和多智能體系統(tǒng)在事件觸發(fā)策略下的領導跟隨一致性問題.基于事件觸發(fā)策略下的多智能體系統(tǒng)的輸出反饋一致還有許多問題尚待解決.其一,多智能體系統(tǒng)模型需要考慮非線性因素以及擾動,并具體探究多智能體系統(tǒng)動力學擾動的來源;其二,需要設計復雜度較低且在實際系統(tǒng)中易于實現(xiàn)的控制器;其三,需要進一步解決基于輸出反饋的無連續(xù)通信的多智能體系統(tǒng)的事件觸發(fā)一致性問題.
文中對多智能體事件觸發(fā)一致性問題的研究都是在有一定的圖論、矩陣論以及控制論等知識儲備的基礎上進行的.從動力學行為、控制協(xié)議以及事件觸發(fā)條件等角度出發(fā),詳細闡述了多智能體系統(tǒng)事件觸發(fā)一致性的研究進展.在多智能體系統(tǒng)一致性問題中,事件觸發(fā)控制協(xié)議以及分布式事件觸發(fā)策略能夠有效地減少不必要的信息傳輸和能量的消耗,已經(jīng)成為研究的重點.最后,提出了值得思考的兩個問題,優(yōu)化問題和輸出反饋一致性問題也將成為未來的重點研究方向.