摘要:當(dāng)前,分布式強(qiáng)化學(xué)習(xí)假設(shè)所有智能體均能正常工作,但在實(shí)際情況中可能存在異常智能體。為此,提出了一種基于高斯混合模型的聚類方法,用于優(yōu)化分布式強(qiáng)化學(xué)習(xí)算法。首先,計(jì)算智能體上傳梯度對(duì)應(yīng)的高斯分布概率。其次,根據(jù)高斯分布更新聚類模型參數(shù),并重復(fù)執(zhí)行上述步驟直至收斂。最后,根據(jù)聚類模型篩選異常梯度。實(shí)驗(yàn)結(jié)果表明,該方法能在存在異常智能體的場(chǎng)景下,有效維持分布式強(qiáng)化學(xué)習(xí)的訓(xùn)練效果,提高算法的魯棒性。
關(guān)鍵詞:聚類算法;分布式強(qiáng)化學(xué)習(xí);魯棒性
中圖分類號(hào):TP391文獻(xiàn)標(biāo)志碼:A
0引言(Introduction)
近年來,深度強(qiáng)化學(xué)習(xí)[1]在游戲AI[2]、機(jī)器人控制[3]和無人駕駛汽車[4\|5]等多個(gè)領(lǐng)域取得了長(zhǎng)足的進(jìn)步和成功的應(yīng)用。這些應(yīng)用通常依賴單一智能體進(jìn)行決策和控制。然而,這類單一智能體的應(yīng)用方式在實(shí)際場(chǎng)景中面臨數(shù)據(jù)收集速度較慢和訓(xùn)練過程不夠平穩(wěn)等典型問題。為有效地解決這些問題,分布式強(qiáng)化學(xué)習(xí)框架[6\|7]應(yīng)運(yùn)而生并得到廣泛研究。分布式強(qiáng)化學(xué)習(xí)框架的基本思路是同時(shí)部署和協(xié)調(diào)多個(gè)智能體學(xué)習(xí),并將它們的經(jīng)驗(yàn)匯總到中央服務(wù)器上,以便全局模型可以根據(jù)這些經(jīng)驗(yàn)不斷更新和改進(jìn)。這種分布式學(xué)習(xí)框架顯著加速了訓(xùn)練過程,提高了決策系統(tǒng)的穩(wěn)定性。作為分布式強(qiáng)化學(xué)習(xí)的一個(gè)典型應(yīng)用場(chǎng)景,我們可以部署多輛自動(dòng)駕駛汽車[8]進(jìn)行路測(cè),這些車輛均配備了各種傳感器,可以實(shí)時(shí)交換信息。可以將每輛車看作一個(gè)智能體,這些智能體會(huì)將學(xué)習(xí)到的數(shù)據(jù)發(fā)送到云端的中央服務(wù)器。云服務(wù)器利用這些豐富的多源異構(gòu)數(shù)據(jù)不斷優(yōu)化和改進(jìn)自動(dòng)駕駛算法。盡管分布式強(qiáng)化學(xué)習(xí)框架應(yīng)用前景巨大,但是目前相關(guān)算法研究仍局限于仿真實(shí)驗(yàn),并且大多基于所有智能體都正常工作的理想假設(shè)。然而,現(xiàn)實(shí)世界與仿真環(huán)境存在差異,部署的智能體可能因各種軟件、硬件故障導(dǎo)致異常工作狀態(tài)。此外,分布式強(qiáng)化學(xué)習(xí)算法本身存在一定的脆弱性,即使只有個(gè)別異常智能體,也可能嚴(yán)重影響全局模型的訓(xùn)練效果。
因此,為了將分布式強(qiáng)化學(xué)習(xí)算法迅速部署到實(shí)際應(yīng)用場(chǎng)景并發(fā)揮其應(yīng)有的價(jià)值,必須對(duì)算法框架進(jìn)行改進(jìn),提升其整體魯棒性。本文提出的方法通過引入高斯混合模型技術(shù)[9]優(yōu)化了分布式強(qiáng)化學(xué)習(xí)算法的訓(xùn)練框架,并對(duì)智能體上傳至中央服務(wù)器的信息進(jìn)行了有效的聚類篩選,顯著提升了整個(gè)算法框架的魯棒性。
1算法設(shè)計(jì)(Algorithmdesign)
1.1智能體異常行為定義
在現(xiàn)實(shí)場(chǎng)景中,每個(gè)智能體都有可能因?yàn)檐浖蛴布收隙a(chǎn)生異常,特別是當(dāng)一個(gè)系統(tǒng)中包含多個(gè)智能體時(shí),出現(xiàn)異常智能體的概率會(huì)大大增加。為方便后續(xù)討論,首先,對(duì)異常智能體進(jìn)行定義,即N=Nb∪Nm,其中N表示系統(tǒng)中的智能體總數(shù),Nb表示正常智能體的數(shù)量,Nm表示異常智能體的數(shù)量,并且Nb與Nm互斥。其次,將對(duì)異常行為進(jìn)行定義。在分布式強(qiáng)化學(xué)習(xí)框架中,智能體需要將本地信息上傳至中央服務(wù)器,此時(shí)考慮以下兩種常見的異常,并用函數(shù)F表示這些異常。
(1)隨機(jī)噪聲異常:是指智能體上傳的信息中存在噪聲干擾,屬于常見的異常。本文用函數(shù)F表示這種異常,具體為
其中:G表示智能體上傳服務(wù)器的信息,可以是原始軌跡或本地計(jì)算的梯度;rnd表示來自給定概率分布的隨機(jī)噪聲,如高斯分布等。
(2)固定值異常:是指智能體上傳的信息為固定值,也是一種常見的異常,具體為
其中,c表示一個(gè)常數(shù)。
1.2高斯混合模型
高斯混合模型是一種概率模型,它可用于對(duì)復(fù)雜的數(shù)據(jù)分布進(jìn)行建模和聚類。在聚類方面,通過對(duì)數(shù)據(jù)進(jìn)行聚類,將數(shù)據(jù)分為多個(gè)簇,其中的每個(gè)簇對(duì)應(yīng)一個(gè)高斯分布,這種方式能發(fā)現(xiàn)數(shù)據(jù)中隱藏的簇結(jié)構(gòu)。在數(shù)據(jù)建模方面,對(duì)數(shù)據(jù)分布進(jìn)行建模,可用于估計(jì)數(shù)據(jù)的概率密度函數(shù),對(duì)異常情況進(jìn)行檢測(cè)。高斯混合模型假設(shè)數(shù)據(jù)是由多個(gè)高斯分布混合而成,其中的每個(gè)高斯分布表示數(shù)據(jù)中的一個(gè)聚類或組分,它具有自己的均值和協(xié)方差矩陣。整個(gè)數(shù)據(jù)由這些高斯分布組合而成,每個(gè)高斯分布都有一個(gè)權(quán)重,表示其在總體數(shù)據(jù)中的貢獻(xiàn)度。高斯混合模型的參數(shù)主要包括每個(gè)高斯分布的均值、協(xié)方差矩陣和權(quán)重,這些參數(shù)可以通過期望最大化(EM)算法進(jìn)行估計(jì)。EM算法是一個(gè)迭代優(yōu)化的過程,包括E步和M步。E步計(jì)算每個(gè)數(shù)據(jù)點(diǎn)來自各個(gè)高斯分布的后驗(yàn)概率,即數(shù)據(jù)點(diǎn)屬于每個(gè)聚類的“責(zé)任”。M步根據(jù)這些“責(zé)任”重新估計(jì)每個(gè)高斯分布的參數(shù)。通過多次迭代E步和M步,可以使模型參數(shù)收斂,從而對(duì)數(shù)據(jù)的分布進(jìn)行建模。在存在異常智能體的場(chǎng)景中,可以訓(xùn)練一個(gè)高斯混合模型,建模正常信息的分布,然后使用這個(gè)模型計(jì)算新上傳信息屬于正常模型的概率,若計(jì)算結(jié)果低于一個(gè)閾值,則判定為異常信息并過濾掉。
EM算法具體步驟如下。
(1)E步:計(jì)算每個(gè)數(shù)據(jù)點(diǎn)屬于每個(gè)高斯分布的后驗(yàn)概率,即數(shù)據(jù)點(diǎn)屬于每個(gè)聚類的“責(zé)任”。
(2)M步:根據(jù)E步計(jì)算得到的“責(zé)任”,重新估計(jì)每個(gè)高斯分布的參數(shù)。
(3)通過多次迭代E步和M步,使模型參數(shù)收斂,從而對(duì)數(shù)據(jù)的分布進(jìn)行建模。
(4)在存在異常智能體的場(chǎng)景中,訓(xùn)練一個(gè)高斯混合模型,建模正常信息的分布。
(5)使用訓(xùn)練好的模型計(jì)算新上傳信息屬于正常模型的概率。
(6)若概率低于一個(gè)閾值,則判定為異常信息并過濾掉。
1.3分布式強(qiáng)化學(xué)習(xí)改進(jìn)框架
強(qiáng)化學(xué)習(xí)旨在讓智能體通過與環(huán)境的交互,學(xué)習(xí)如何做出決策以最大化其長(zhǎng)期累積獎(jiǎng)勵(lì),它涵蓋了智能體、環(huán)境、狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)等重要概念。如圖1展示的智能體與環(huán)境交互過程,智能體根據(jù)當(dāng)前狀態(tài)選擇行動(dòng),環(huán)境則根據(jù)智能體的行動(dòng)和當(dāng)前狀態(tài)轉(zhuǎn)移到新的狀態(tài),并返回獎(jiǎng)勵(lì)信號(hào)。智能體通過與環(huán)境的交互,利用價(jià)值函數(shù)或策略函數(shù)等方法,逐步學(xué)習(xí)并優(yōu)化其行為策略,從而實(shí)現(xiàn)長(zhǎng)期累積獎(jiǎng)勵(lì)的最大化。與傳統(tǒng)監(jiān)督學(xué)習(xí)不同,強(qiáng)化學(xué)習(xí)中的智能體在初始階段對(duì)何種行動(dòng)是有利的并無先驗(yàn)知識(shí),而是通過嘗試不同的行動(dòng)探索環(huán)境,并根據(jù)環(huán)境提供的獎(jiǎng)勵(lì)或懲罰信號(hào)調(diào)整其行為。這種試錯(cuò)過程使智能體能夠逐漸學(xué)習(xí)到如何在復(fù)雜的環(huán)境中做出理想的決策。
分布式強(qiáng)化學(xué)習(xí)框架主要由多個(gè)智能體和一個(gè)中央服務(wù)器構(gòu)成。每個(gè)智能體都能夠獨(dú)立地與自己對(duì)應(yīng)的環(huán)境進(jìn)行交互,它們通過觀察環(huán)境給出的反饋獎(jiǎng)勵(lì)和狀態(tài)觀測(cè)值,不斷積累這些與環(huán)境交互過程中產(chǎn)生的連續(xù)序列,進(jìn)而構(gòu)建成完整的經(jīng)驗(yàn)軌跡。當(dāng)積累獲得了足夠數(shù)量的代表性經(jīng)驗(yàn)軌跡后,每個(gè)智能體都會(huì)利用這些先驗(yàn)經(jīng)驗(yàn)以及當(dāng)前自己所維護(hù)的本地策略神經(jīng)網(wǎng)絡(luò)模型,計(jì)算出策略梯度更新的方向。這里的本地策略神經(jīng)網(wǎng)絡(luò)模型是指每個(gè)智能體當(dāng)前用于與環(huán)境進(jìn)行交互決策的策略函數(shù)。在求出策略梯度更新方向后,各個(gè)智能體會(huì)將對(duì)應(yīng)于自己本地策略網(wǎng)絡(luò)的這些梯度信息發(fā)送給中央服務(wù)器。中央服務(wù)器維護(hù)著一個(gè)全局共享的策略神經(jīng)網(wǎng)絡(luò)模型,它的主要作用是匯總整合來自多個(gè)智能體計(jì)算得到的策略梯度信息,然后用這些梯度統(tǒng)一更新全局策略網(wǎng)絡(luò)中的模型參數(shù)。在更新全局策略網(wǎng)絡(luò)的模型參數(shù)后,中央服務(wù)器會(huì)將最新的參數(shù)立刻傳播分發(fā)給每一個(gè)參與訓(xùn)練的智能體。于是,每個(gè)智能體都會(huì)使用這些同步后的最新參數(shù)更新與調(diào)整自己本地維護(hù)的策略網(wǎng)絡(luò)模型,以便準(zhǔn)備下一輪的訓(xùn)練過程。這樣,中央服務(wù)器和各個(gè)智能體之間形成循環(huán)信息傳遞和交互。通過不斷地進(jìn)行協(xié)同的聚合梯度、更新參數(shù)、廣播分發(fā)參數(shù)這一循環(huán)迭代過程,最終可以獲得一個(gè)訓(xùn)練好的全局策略模型。
然而,由于存在異常故障的智能體可能會(huì)向中央服務(wù)器上傳錯(cuò)誤的策略梯度信息,因此為了提高系統(tǒng)的魯棒性,研究人員在分布式強(qiáng)化學(xué)習(xí)算法框架的基礎(chǔ)上增加了一個(gè)過濾器模塊。這個(gè)模塊利用了高斯混合模型的聚類過濾功能,對(duì)輸入的策略梯度信息進(jìn)行處理,有效地過濾掉了異常梯度。通過這種方式,可以確保系統(tǒng)在面對(duì)異常情況時(shí)能夠保持穩(wěn)定,并且不會(huì)受到錯(cuò)誤信息的影響。分布式強(qiáng)化學(xué)習(xí)改進(jìn)框架如圖2所示。
分布式強(qiáng)化學(xué)習(xí)改進(jìn)框架算法流程如下。
(1)每個(gè)智能體與本地環(huán)境交互。
(2)通過累積的軌跡計(jì)算各自的梯度,并將梯度信息上傳。
(3)所有智能體上傳的梯度信息將通過高斯混合模型過濾。
(4)過濾器將篩選后的梯度上傳至服務(wù)器智能體處聚合并以此更新模型參數(shù)。
(5)中央服務(wù)器將模型參數(shù)傳回給每一個(gè)智能體。
(6)智能體根據(jù)模型參數(shù)更新本地模型。
(7)智能體根據(jù)新的模型與環(huán)境開始下一輪的交互。
2實(shí)驗(yàn)結(jié)果與分析(Experimentalresultsandanalysis)
2.1仿真環(huán)境介紹
如圖3所示,CartPole環(huán)境是一個(gè)模擬典型倒立擺控制的系統(tǒng),它主要由一個(gè)移動(dòng)的小車和一個(gè)連接在其上的擺桿兩個(gè)部分構(gòu)成。具體來說,系統(tǒng)中的小車能夠沿著一個(gè)水平方向的軌道進(jìn)行左右移動(dòng),而桿子是通過一個(gè)假設(shè)為無質(zhì)量的支點(diǎn)連接在小車上,這樣桿子就可以在這個(gè)支點(diǎn)周圍自由轉(zhuǎn)動(dòng)。整個(gè)倒立擺系統(tǒng)的狀態(tài),可以用4個(gè)元素向量來表示,分別為小車的水平位移位置、小車的速度大小、桿子與豎直方向的傾角大小及桿子的角速度。在這個(gè)環(huán)境中,智能體可以通過兩個(gè)基本動(dòng)作中的任意一個(gè)來影響系統(tǒng),即可以對(duì)小車施加向左或向右方向的推力。每次向小車施加一定的推力,都會(huì)改變小車本身以及連接其上的桿子的運(yùn)動(dòng)狀態(tài)。智能體需要通過適時(shí)地決策,選擇施加左右推力的時(shí)機(jī)和力度大小,使得連接在車上的桿子能夠不斷地保持近似豎直的倒立姿態(tài)。若在控制過程中,桿子的傾角偏離豎直方向的幅度大于環(huán)境預(yù)設(shè)的一個(gè)角度閾值,或者小車移動(dòng)到了軌道的邊界范圍,則該回合的環(huán)境就會(huì)提前強(qiáng)制終止,同時(shí)給予智能體負(fù)的獎(jiǎng)勵(lì)。智能體的目標(biāo)就是在這一約束條件下,最大化桿子倒立狀態(tài)的持續(xù)時(shí)間。
2.2實(shí)驗(yàn)設(shè)置
本小節(jié)將更全面地介紹實(shí)驗(yàn)的整體設(shè)置和配置。實(shí)驗(yàn)所采用的分布式強(qiáng)化學(xué)習(xí)框架主要由10個(gè)相對(duì)獨(dú)立的智能體以及1個(gè)負(fù)責(zé)集中協(xié)調(diào)控制的中央服務(wù)器構(gòu)成。所有的智能體將在一個(gè)經(jīng)典且被廣泛使用的CartPole倒立擺控制環(huán)境中進(jìn)行交互操作,并在該交互過程中積累大量包含當(dāng)前環(huán)境狀態(tài)、執(zhí)行動(dòng)作以及相應(yīng)獎(jiǎng)勵(lì)的行為決策序列數(shù)據(jù)。在這10個(gè)參與實(shí)驗(yàn)的智能體當(dāng)中,研究人員特意設(shè)置了3個(gè)會(huì)產(chǎn)生各種異常行為的故障智能體。這3個(gè)異常智能體的具體編號(hào)信息是在每一次完整的實(shí)驗(yàn)運(yùn)行之前根據(jù)算法隨機(jī)產(chǎn)生的,也就是說對(duì)于算法框架自身來說,異常智能體的確切信息是完全未知的。這幾個(gè)異常故障智能體還將在整個(gè)實(shí)驗(yàn)過程中持續(xù)執(zhí)行某些預(yù)先定義的異常操作,以此主動(dòng)干擾和破壞整個(gè)分布式學(xué)習(xí)系統(tǒng)。在這些不同類型的異常行為的主動(dòng)干擾下,將比較分析本文提出的基于高斯混合模型的改進(jìn)算法框架與當(dāng)前常規(guī)的分布式強(qiáng)化學(xué)習(xí)框架在訓(xùn)練過程中的穩(wěn)定性,以及最終得到的集成控制策略的整體性能。最終,通過定量和定性的比較實(shí)驗(yàn)分析,希望可以充分驗(yàn)證本文提出的框架方法對(duì)于提高分布式強(qiáng)化學(xué)習(xí)面對(duì)異常情況時(shí)的整體魯棒性與綜合效果的顯著改進(jìn)作用。
2.3結(jié)果分析
在實(shí)驗(yàn)1中,設(shè)置異常智能體執(zhí)行的異常行為類型是向中央服務(wù)器上傳含有不同程度的隨機(jī)噪聲的策略梯度信息。也就是說,這些指定的異常智能體計(jì)算出的策略梯度更新中會(huì)混入不同比例的隨機(jī)噪聲項(xiàng)。這種隨機(jī)噪聲的加入將會(huì)對(duì)中央服務(wù)器聚合后的策略梯度產(chǎn)生一定的干擾,從而對(duì)后續(xù)的全局策略網(wǎng)絡(luò)模型訓(xùn)練帶來一定的負(fù)面影響。為了更加直觀地比較本文算法框架與當(dāng)前常規(guī)框架在存在異常智能體情況下的具體訓(xùn)練效果,本研究采用圖表的形式展示了兩個(gè)框架在訓(xùn)練過程中獲得的平均獎(jiǎng)勵(lì)值隨著迭代輪數(shù)變化的趨勢(shì)曲線(圖4)。圖4的標(biāo)簽“DRL”代表了當(dāng)前常規(guī)的分布式強(qiáng)化學(xué)習(xí)算法框架,而標(biāo)簽“改進(jìn)的DRL”則對(duì)應(yīng)代表了本文在原有分布式強(qiáng)化學(xué)習(xí)框架中嵌入高斯混合模型模塊后得到的改進(jìn)算法框架。
從圖4可以非常明確地看出,在存在部分異常智能體向中央服務(wù)器上傳含有大量隨機(jī)噪聲的策略梯度情況下,常規(guī)分布式強(qiáng)化學(xué)習(xí)框架DRL所得到的訓(xùn)練效果受到了極大的負(fù)面干擾和影響,表現(xiàn)為訓(xùn)練獎(jiǎng)勵(lì)曲線基本無提升,一直難以進(jìn)行正常的模型擬合和參數(shù)更新,最終模型的參數(shù)無法收斂到穩(wěn)定水平,并且終止時(shí)獲得的訓(xùn)練平均獎(jiǎng)勵(lì)值低于10。這充分證明了這種規(guī)模的隨機(jī)噪聲異常對(duì)常規(guī)框架具有極大干擾作用,嚴(yán)重阻礙了正常的分布式協(xié)作學(xué)習(xí)過程,導(dǎo)致了模型訓(xùn)練的完全失敗。相比之下,本文提出的在分布式強(qiáng)化學(xué)習(xí)框架中嵌入高斯混合模型作為濾波器的改進(jìn)框架,則能夠有效地檢測(cè)和隔離這種異常策略梯度,抑制異常信息的負(fù)面干擾。因此,改進(jìn)框架下的訓(xùn)練過程明顯更為平穩(wěn),獎(jiǎng)勵(lì)值可以持續(xù)穩(wěn)步上升,最終可以收斂穩(wěn)定到接近500的獎(jiǎng)勵(lì)值。這說明框架成功地完成了模型的訓(xùn)練并獲得了良好的控制策略。
在實(shí)驗(yàn)2中設(shè)置的異常智能體產(chǎn)生的異常信息類型為持續(xù)上傳完全固定值的策略梯度。根據(jù)圖5展示的訓(xùn)練獎(jiǎng)勵(lì)曲線比較結(jié)果,與實(shí)驗(yàn)1類似,在存在部分上傳固定值異常信息的干擾情況下,常規(guī)分布式強(qiáng)化學(xué)習(xí)框架DRL同樣受到了非常大的負(fù)面影響,表現(xiàn)為訓(xùn)練獎(jiǎng)勵(lì)值無法提升,模型訓(xùn)練失敗。相比之下,本文提出的在分布式框架中增加高斯混合模型模塊的改進(jìn)框架,其訓(xùn)練曲線仍能夠保持較好的平穩(wěn)性和收斂度,最終使得控制策略模型成功訓(xùn)練并收斂到一個(gè)較高的性能狀態(tài)。
表1為兩組實(shí)驗(yàn)條件下不同算法獲取獎(jiǎng)勵(lì)值的對(duì)比。通過這兩組比較實(shí)驗(yàn)可以非常明確地看出,本文提出的改進(jìn)框架在面對(duì)分布式訓(xùn)練系統(tǒng)中存在一定比例異常智能體的情況下,仍然能夠獲取較高的獎(jiǎng)勵(lì)值,展現(xiàn)了比較好的魯棒性和抗干擾性能。這進(jìn)一步驗(yàn)證了引入高斯混合模型對(duì)檢測(cè)隔離異常信息和提升分布式強(qiáng)化學(xué)習(xí)方法魯棒性的積極作用。
為了進(jìn)一步探討本文提出的改進(jìn)框架對(duì)分布式強(qiáng)化學(xué)習(xí)訓(xùn)練收斂速度的影響,本研究特別設(shè)計(jì)了額外的比較實(shí)驗(yàn)3,即收斂速度對(duì)比實(shí)驗(yàn)。如圖6所示,虛線表示原始分布式強(qiáng)化學(xué)習(xí)框架DRL在沒有任何異常智能體存在時(shí)的訓(xùn)練獎(jiǎng)勵(lì)曲線,從中可以明顯地看出在全體智能體正常的理想情況下,分布式框架可以非??焖俚赝瓿刹呗阅P偷挠?xùn)練并實(shí)現(xiàn)參數(shù)收斂。圖6中的實(shí)線則表示加入了高斯混合模型模塊的改進(jìn)分布式框架在面對(duì)3個(gè)持續(xù)產(chǎn)生異常信息的故障智能體環(huán)境下的訓(xùn)練曲線。通過對(duì)比這兩條訓(xùn)練曲線可以發(fā)現(xiàn),盡管存在一定規(guī)模的異常干擾,本文提出的改進(jìn)框架的訓(xùn)練收斂速度與所有智能體正常工作的理想狀況下非常接近。原始框架之所以收斂速度相對(duì)較快,其中的一個(gè)原因是參與訓(xùn)練的正常智能體數(shù)量更多。然而進(jìn)行這額外的收斂速度對(duì)比實(shí)驗(yàn)證明,本文提出的帶有高斯混合模型的改進(jìn)分布式強(qiáng)化學(xué)習(xí)框架,不僅能夠顯著提升面對(duì)異常情況下的訓(xùn)練魯棒性,同時(shí)可以較好地保證整體訓(xùn)練過程的收斂速度。
3結(jié)論(Conclusion)
本文提出了一種基于高斯混合模型的分布式強(qiáng)化學(xué)習(xí)優(yōu)化方法。該方法在中央服務(wù)器中增加了帶有高斯混合模型的過濾器,在聚合智能體上傳的梯度之前,由過濾器對(duì)梯度進(jìn)行過濾和篩選。過濾器通過高斯混合模型計(jì)算新上傳信息屬于正常模型的概率,若這個(gè)概率低于一個(gè)閾值,則判定為異常信息并過濾掉。實(shí)驗(yàn)結(jié)果顯示,該方法極大提升了分布式強(qiáng)化學(xué)習(xí)的魯棒性,即使系統(tǒng)中存在若干個(gè)異常的智能體,也能確保模型訓(xùn)練的收斂性。未來,將探索在更復(fù)雜的異常行為時(shí)和更多異常智能體場(chǎng)景中,提升分布式強(qiáng)化學(xué)習(xí)算法魯棒性的方法,以進(jìn)一步完善該方法的應(yīng)用。
參考文獻(xiàn)(References)
[1]劉建偉,高峰,羅雄麟.基于值函數(shù)和策略梯度的深度強(qiáng)化學(xué)習(xí)綜述[J].計(jì)算機(jī)學(xué)報(bào),2019,42(6):1406\|1438.
[2]田佩,臧兆祥,張震,等.RTS游戲中基于強(qiáng)化學(xué)習(xí)的行動(dòng)參數(shù)配置優(yōu)化[J].計(jì)算機(jī)仿真,2023,40(8):355\|359.
[3]鄧修朋,崔建明,李敏,等.深度強(qiáng)化學(xué)習(xí)在機(jī)器人路徑規(guī)劃中的應(yīng)用[J].電子測(cè)量技術(shù),2023,46(6):1\|8.
[4][JP3]陳越,焦朋朋,白如玉,等.基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛車輛跟馳行為建模[J].交通信息與安全,2023,41(2):67\|75,102.
[5]王曙燕,萬頃田.自動(dòng)駕駛車輛在無信號(hào)交叉口右轉(zhuǎn)駕駛決策技術(shù)研究[J].計(jì)算機(jī)應(yīng)用研究,2023,40(5):1468\|1472.
[6]VENTURINIF,MASONF,PASEF,etal.DistributedreinforcementlearningforflexibleandefficientUAVswarmcontrol[J].IEEEtransactionsoncognitivecommunicationsandnetworking,2021,7(3):955\|969.
[7]MATHKARA,BORKARVS.Distributedreinforcementlearningviagossip[J].IEEEtransactionsonautomaticcontrol,2017,62(3):1465\|1470.
[8]劉衛(wèi)國(guó),項(xiàng)志宇,劉偉平,等.基于分布式強(qiáng)化學(xué)習(xí)的車輛控制算法研究[J].汽車工程,2023,45(9):1637\|1645.
[9]方佳鍇.一種基于高斯混合模型的不均衡分類方法[J].電腦知識(shí)與技術(shù),2022,18(2):28\|30.