基于高斯混合模型的分布式強(qiáng)化學(xué)習(xí)算法魯棒性優(yōu)化

2024-11-07 00:00:00畢霄昀魯廣東蔡霞

軟件工程 2024年11期

摘要：當(dāng)前，分布式強(qiáng)化學(xué)習(xí)假設(shè)所有智能體均能正常工作，但在實(shí)際情況中可能存在異常智能體。為此，提出了一種基于高斯混合模型的聚類方法，用于優(yōu)化分布式強(qiáng)化學(xué)習(xí)算法。首先，計(jì)算智能體上傳梯度對(duì)應(yīng)的高斯分布概率。其次，根據(jù)高斯分布更新聚類模型參數(shù)，并重復(fù)執(zhí)行上述步驟直至收斂。最后，根據(jù)聚類模型篩選異常梯度。實(shí)驗(yàn)結(jié)果表明，該方法能在存在異常智能體的場(chǎng)景下，有效維持分布式強(qiáng)化學(xué)習(xí)的訓(xùn)練效果，提高算法的魯棒性。

關(guān)鍵詞：聚類算法；分布式強(qiáng)化學(xué)習(xí)；魯棒性

中圖分類號(hào)：TP391文獻(xiàn)標(biāo)志碼：A

0引言（Introduction）

近年來，深度強(qiáng)化學(xué)習(xí)［1］在游戲AI［2］、機(jī)器人控制［3］和無人駕駛汽車［4＼|5］等多個(gè)領(lǐng)域取得了長(zhǎng)足的進(jìn)步和成功的應(yīng)用。這些應(yīng)用通常依賴單一智能體進(jìn)行決策和控制。然而，這類單一智能體的應(yīng)用方式在實(shí)際場(chǎng)景中面臨數(shù)據(jù)收集速度較慢和訓(xùn)練過程不夠平穩(wěn)等典型問題。為有效地解決這些問題，分布式強(qiáng)化學(xué)習(xí)框架［6＼|7］應(yīng)運(yùn)而生并得到廣泛研究。分布式強(qiáng)化學(xué)習(xí)框架的基本思路是同時(shí)部署和協(xié)調(diào)多個(gè)智能體學(xué)習(xí)，并將它們的經(jīng)驗(yàn)匯總到中央服務(wù)器上，以便全局模型可以根據(jù)這些經(jīng)驗(yàn)不斷更新和改進(jìn)。這種分布式學(xué)習(xí)框架顯著加速了訓(xùn)練過程，提高了決策系統(tǒng)的穩(wěn)定性。作為分布式強(qiáng)化學(xué)習(xí)的一個(gè)典型應(yīng)用場(chǎng)景，我們可以部署多輛自動(dòng)駕駛汽車［8］進(jìn)行路測(cè)，這些車輛均配備了各種傳感器，可以實(shí)時(shí)交換信息。可以將每輛車看作一個(gè)智能體，這些智能體會(huì)將學(xué)習(xí)到的數(shù)據(jù)發(fā)送到云端的中央服務(wù)器。云服務(wù)器利用這些豐富的多源異構(gòu)數(shù)據(jù)不斷優(yōu)化和改進(jìn)自動(dòng)駕駛算法。盡管分布式強(qiáng)化學(xué)習(xí)框架應(yīng)用前景巨大，但是目前相關(guān)算法研究仍局限于仿真實(shí)驗(yàn)，并且大多基于所有智能體都正常工作的理想假設(shè)。然而，現(xiàn)實(shí)世界與仿真環(huán)境存在差異，部署的智能體可能因各種軟件、硬件故障導(dǎo)致異常工作狀態(tài)。此外，分布式強(qiáng)化學(xué)習(xí)算法本身存在一定的脆弱性，即使只有個(gè)別異常智能體，也可能嚴(yán)重影響全局模型的訓(xùn)練效果。

因此，為了將分布式強(qiáng)化學(xué)習(xí)算法迅速部署到實(shí)際應(yīng)用場(chǎng)景并發(fā)揮其應(yīng)有的價(jià)值，必須對(duì)算法框架進(jìn)行改進(jìn)，提升其整體魯棒性。本文提出的方法通過引入高斯混合模型技術(shù)［9］優(yōu)化了分布式強(qiáng)化學(xué)習(xí)算法的訓(xùn)練框架，并對(duì)智能體上傳至中央服務(wù)器的信息進(jìn)行了有效的聚類篩選，顯著提升了整個(gè)算法框架的魯棒性。

1算法設(shè)計(jì)（Algorithmdesign）

1.1智能體異常行為定義

在現(xiàn)實(shí)場(chǎng)景中，每個(gè)智能體都有可能因?yàn)檐浖蛴布收隙a(chǎn)生異常，特別是當(dāng)一個(gè)系統(tǒng)中包含多個(gè)智能體時(shí)，出現(xiàn)異常智能體的概率會(huì)大大增加。為方便后續(xù)討論，首先，對(duì)異常智能體進(jìn)行定義，即N=Nb∪Nm，其中N表示系統(tǒng)中的智能體總數(shù)，Nb表示正常智能體的數(shù)量，Nm表示異常智能體的數(shù)量，并且Nb與Nm互斥。其次，將對(duì)異常行為進(jìn)行定義。在分布式強(qiáng)化學(xué)習(xí)框架中，智能體需要將本地信息上傳至中央服務(wù)器，此時(shí)考慮以下兩種常見的異常，并用函數(shù)F表示這些異常。

（1）隨機(jī)噪聲異常：是指智能體上傳的信息中存在噪聲干擾，屬于常見的異常。本文用函數(shù)F表示這種異常，具體為

其中：G表示智能體上傳服務(wù)器的信息，可以是原始軌跡或本地計(jì)算的梯度；rnd表示來自給定概率分布的隨機(jī)噪聲，如高斯分布等。

（2）固定值異常：是指智能體上傳的信息為固定值，也是一種常見的異常，具體為

其中，c表示一個(gè)常數(shù)。

1.2高斯混合模型

高斯混合模型是一種概率模型，它可用于對(duì)復(fù)雜的數(shù)據(jù)分布進(jìn)行建模和聚類。在聚類方面，通過對(duì)數(shù)據(jù)進(jìn)行聚類，將數(shù)據(jù)分為多個(gè)簇，其中的每個(gè)簇對(duì)應(yīng)一個(gè)高斯分布，這種方式能發(fā)現(xiàn)數(shù)據(jù)中隱藏的簇結(jié)構(gòu)。在數(shù)據(jù)建模方面，對(duì)數(shù)據(jù)分布進(jìn)行建模，可用于估計(jì)數(shù)據(jù)的概率密度函數(shù)，對(duì)異常情況進(jìn)行檢測(cè)。高斯混合模型假設(shè)數(shù)據(jù)是由多個(gè)高斯分布混合而成，其中的每個(gè)高斯分布表示數(shù)據(jù)中的一個(gè)聚類或組分，它具有自己的均值和協(xié)方差矩陣。整個(gè)數(shù)據(jù)由這些高斯分布組合而成，每個(gè)高斯分布都有一個(gè)權(quán)重，表示其在總體數(shù)據(jù)中的貢獻(xiàn)度。高斯混合模型的參數(shù)主要包括每個(gè)高斯分布的均值、協(xié)方差矩陣和權(quán)重，這些參數(shù)可以通過期望最大化（EM）算法進(jìn)行估計(jì)。EM算法是一個(gè)迭代優(yōu)化的過程，包括E步和M步。E步計(jì)算每個(gè)數(shù)據(jù)點(diǎn)來自各個(gè)高斯分布的后驗(yàn)概率，即數(shù)據(jù)點(diǎn)屬于每個(gè)聚類的“責(zé)任”。M步根據(jù)這些“責(zé)任”重新估計(jì)每個(gè)高斯分布的參數(shù)。通過多次迭代E步和M步，可以使模型參數(shù)收斂，從而對(duì)數(shù)據(jù)的分布進(jìn)行建模。在存在異常智能體的場(chǎng)景中，可以訓(xùn)練一個(gè)高斯混合模型，建模正常信息的分布，然后使用這個(gè)模型計(jì)算新上傳信息屬于正常模型的概率，若計(jì)算結(jié)果低于一個(gè)閾值，則判定為異常信息并過濾掉。

EM算法具體步驟如下。

（1）E步：計(jì)算每個(gè)數(shù)據(jù)點(diǎn)屬于每個(gè)高斯分布的后驗(yàn)概率，即數(shù)據(jù)點(diǎn)屬于每個(gè)聚類的“責(zé)任”。

（2）M步：根據(jù)E步計(jì)算得到的“責(zé)任”，重新估計(jì)每個(gè)高斯分布的參數(shù)。

（3）通過多次迭代E步和M步，使模型參數(shù)收斂，從而對(duì)數(shù)據(jù)的分布進(jìn)行建模。

（4）在存在異常智能體的場(chǎng)景中，訓(xùn)練一個(gè)高斯混合模型，建模正常信息的分布。

（5）使用訓(xùn)練好的模型計(jì)算新上傳信息屬于正常模型的概率。

（6）若概率低于一個(gè)閾值，則判定為異常信息并過濾掉。

1.3分布式強(qiáng)化學(xué)習(xí)改進(jìn)框架

強(qiáng)化學(xué)習(xí)旨在讓智能體通過與環(huán)境的交互，學(xué)習(xí)如何做出決策以最大化其長(zhǎng)期累積獎(jiǎng)勵(lì)，它涵蓋了智能體、環(huán)境、狀態(tài)、行動(dòng)和獎(jiǎng)勵(lì)等重要概念。如圖1展示的智能體與環(huán)境交互過程，智能體根據(jù)當(dāng)前狀態(tài)選擇行動(dòng)，環(huán)境則根據(jù)智能體的行動(dòng)和當(dāng)前狀態(tài)轉(zhuǎn)移到新的狀態(tài)，并返回獎(jiǎng)勵(lì)信號(hào)。智能體通過與環(huán)境的交互，利用價(jià)值函數(shù)或策略函數(shù)等方法，逐步學(xué)習(xí)并優(yōu)化其行為策略，從而實(shí)現(xiàn)長(zhǎng)期累積獎(jiǎng)勵(lì)的最大化。與傳統(tǒng)監(jiān)督學(xué)習(xí)不同，強(qiáng)化學(xué)習(xí)中的智能體在初始階段對(duì)何種行動(dòng)是有利的并無先驗(yàn)知識(shí)，而是通過嘗試不同的行動(dòng)探索環(huán)境，并根據(jù)環(huán)境提供的獎(jiǎng)勵(lì)或懲罰信號(hào)調(diào)整其行為。這種試錯(cuò)過程使智能體能夠逐漸學(xué)習(xí)到如何在復(fù)雜的環(huán)境中做出理想的決策。

分布式強(qiáng)化學(xué)習(xí)框架主要由多個(gè)智能體和一個(gè)中央服務(wù)器構(gòu)成。每個(gè)智能體都能夠獨(dú)立地與自己對(duì)應(yīng)的環(huán)境進(jìn)行交互，它們通過觀察環(huán)境給出的反饋獎(jiǎng)勵(lì)和狀態(tài)觀測(cè)值，不斷積累這些與環(huán)境交互過程中產(chǎn)生的連續(xù)序列，進(jìn)而構(gòu)建成完整的經(jīng)驗(yàn)軌跡。當(dāng)積累獲得了足夠數(shù)量的代表性經(jīng)驗(yàn)軌跡后，每個(gè)智能體都會(huì)利用這些先驗(yàn)經(jīng)驗(yàn)以及當(dāng)前自己所維護(hù)的本地策略神經(jīng)網(wǎng)絡(luò)模型，計(jì)算出策略梯度更新的方向。這里的本地策略神經(jīng)網(wǎng)絡(luò)模型是指每個(gè)智能體當(dāng)前用于與環(huán)境進(jìn)行交互決策的策略函數(shù)。在求出策略梯度更新方向后，各個(gè)智能體會(huì)將對(duì)應(yīng)于自己本地策略網(wǎng)絡(luò)的這些梯度信息發(fā)送給中央服務(wù)器。中央服務(wù)器維護(hù)著一個(gè)全局共享的策略神經(jīng)網(wǎng)絡(luò)模型，它的主要作用是匯總整合來自多個(gè)智能體計(jì)算得到的策略梯度信息，然后用這些梯度統(tǒng)一更新全局策略網(wǎng)絡(luò)中的模型參數(shù)。在更新全局策略網(wǎng)絡(luò)的模型參數(shù)后，中央服務(wù)器會(huì)將最新的參數(shù)立刻傳播分發(fā)給每一個(gè)參與訓(xùn)練的智能體。于是，每個(gè)智能體都會(huì)使用這些同步后的最新參數(shù)更新與調(diào)整自己本地維護(hù)的策略網(wǎng)絡(luò)模型，以便準(zhǔn)備下一輪的訓(xùn)練過程。這樣，中央服務(wù)器和各個(gè)智能體之間形成循環(huán)信息傳遞和交互。通過不斷地進(jìn)行協(xié)同的聚合梯度、更新參數(shù)、廣播分發(fā)參數(shù)這一循環(huán)迭代過程，最終可以獲得一個(gè)訓(xùn)練好的全局策略模型。

然而，由于存在異常故障的智能體可能會(huì)向中央服務(wù)器上傳錯(cuò)誤的策略梯度信息，因此為了提高系統(tǒng)的魯棒性，研究人員在分布式強(qiáng)化學(xué)習(xí)算法框架的基礎(chǔ)上增加了一個(gè)過濾器模塊。這個(gè)模塊利用了高斯混合模型的聚類過濾功能，對(duì)輸入的策略梯度信息進(jìn)行處理，有效地過濾掉了異常梯度。通過這種方式，可以確保系統(tǒng)在面對(duì)異常情況時(shí)能夠保持穩(wěn)定，并且不會(huì)受到錯(cuò)誤信息的影響。分布式強(qiáng)化學(xué)習(xí)改進(jìn)框架如圖2所示。

分布式強(qiáng)化學(xué)習(xí)改進(jìn)框架算法流程如下。

（1）每個(gè)智能體與本地環(huán)境交互。

（2）通過累積的軌跡計(jì)算各自的梯度，并將梯度信息上傳。

（3）所有智能體上傳的梯度信息將通過高斯混合模型過濾。

（4）過濾器將篩選后的梯度上傳至服務(wù)器智能體處聚合并以此更新模型參數(shù)。

（5）中央服務(wù)器將模型參數(shù)傳回給每一個(gè)智能體。

（6）智能體根據(jù)模型參數(shù)更新本地模型。

（7）智能體根據(jù)新的模型與環(huán)境開始下一輪的交互。

2實(shí)驗(yàn)結(jié)果與分析（Experimentalresultsandanalysis）

2.1仿真環(huán)境介紹

如圖3所示，CartPole環(huán)境是一個(gè)模擬典型倒立擺控制的系統(tǒng)，它主要由一個(gè)移動(dòng)的小車和一個(gè)連接在其上的擺桿兩個(gè)部分構(gòu)成。具體來說，系統(tǒng)中的小車能夠沿著一個(gè)水平方向的軌道進(jìn)行左右移動(dòng)，而桿子是通過一個(gè)假設(shè)為無質(zhì)量的支點(diǎn)連接在小車上，這樣桿子就可以在這個(gè)支點(diǎn)周圍自由轉(zhuǎn)動(dòng)。整個(gè)倒立擺系統(tǒng)的狀態(tài)，可以用4個(gè)元素向量來表示，分別為小車的水平位移位置、小車的速度大小、桿子與豎直方向的傾角大小及桿子的角速度。在這個(gè)環(huán)境中，智能體可以通過兩個(gè)基本動(dòng)作中的任意一個(gè)來影響系統(tǒng)，即可以對(duì)小車施加向左或向右方向的推力。每次向小車施加一定的推力，都會(huì)改變小車本身以及連接其上的桿子的運(yùn)動(dòng)狀態(tài)。智能體需要通過適時(shí)地決策，選擇施加左右推力的時(shí)機(jī)和力度大小，使得連接在車上的桿子能夠不斷地保持近似豎直的倒立姿態(tài)。若在控制過程中，桿子的傾角偏離豎直方向的幅度大于環(huán)境預(yù)設(shè)的一個(gè)角度閾值，或者小車移動(dòng)到了軌道的邊界范圍，則該回合的環(huán)境就會(huì)提前強(qiáng)制終止，同時(shí)給予智能體負(fù)的獎(jiǎng)勵(lì)。智能體的目標(biāo)就是在這一約束條件下，最大化桿子倒立狀態(tài)的持續(xù)時(shí)間。

2.2實(shí)驗(yàn)設(shè)置

本小節(jié)將更全面地介紹實(shí)驗(yàn)的整體設(shè)置和配置。實(shí)驗(yàn)所采用的分布式強(qiáng)化學(xué)習(xí)框架主要由10個(gè)相對(duì)獨(dú)立的智能體以及1個(gè)負(fù)責(zé)集中協(xié)調(diào)控制的中央服務(wù)器構(gòu)成。所有的智能體將在一個(gè)經(jīng)典且被廣泛使用的CartPole倒立擺控制環(huán)境中進(jìn)行交互操作，并在該交互過程中積累大量包含當(dāng)前環(huán)境狀態(tài)、執(zhí)行動(dòng)作以及相應(yīng)獎(jiǎng)勵(lì)的行為決策序列數(shù)據(jù)。在這10個(gè)參與實(shí)驗(yàn)的智能體當(dāng)中，研究人員特意設(shè)置了3個(gè)會(huì)產(chǎn)生各種異常行為的故障智能體。這3個(gè)異常智能體的具體編號(hào)信息是在每一次完整的實(shí)驗(yàn)運(yùn)行之前根據(jù)算法隨機(jī)產(chǎn)生的，也就是說對(duì)于算法框架自身來說，異常智能體的確切信息是完全未知的。這幾個(gè)異常故障智能體還將在整個(gè)實(shí)驗(yàn)過程中持續(xù)執(zhí)行某些預(yù)先定義的異常操作，以此主動(dòng)干擾和破壞整個(gè)分布式學(xué)習(xí)系統(tǒng)。在這些不同類型的異常行為的主動(dòng)干擾下，將比較分析本文提出的基于高斯混合模型的改進(jìn)算法框架與當(dāng)前常規(guī)的分布式強(qiáng)化學(xué)習(xí)框架在訓(xùn)練過程中的穩(wěn)定性，以及最終得到的集成控制策略的整體性能。最終，通過定量和定性的比較實(shí)驗(yàn)分析，希望可以充分驗(yàn)證本文提出的框架方法對(duì)于提高分布式強(qiáng)化學(xué)習(xí)面對(duì)異常情況時(shí)的整體魯棒性與綜合效果的顯著改進(jìn)作用。

2.3結(jié)果分析

在實(shí)驗(yàn)1中，設(shè)置異常智能體執(zhí)行的異常行為類型是向中央服務(wù)器上傳含有不同程度的隨機(jī)噪聲的策略梯度信息。也就是說，這些指定的異常智能體計(jì)算出的策略梯度更新中會(huì)混入不同比例的隨機(jī)噪聲項(xiàng)。這種隨機(jī)噪聲的加入將會(huì)對(duì)中央服務(wù)器聚合后的策略梯度產(chǎn)生一定的干擾，從而對(duì)后續(xù)的全局策略網(wǎng)絡(luò)模型訓(xùn)練帶來一定的負(fù)面影響。為了更加直觀地比較本文算法框架與當(dāng)前常規(guī)框架在存在異常智能體情況下的具體訓(xùn)練效果，本研究采用圖表的形式展示了兩個(gè)框架在訓(xùn)練過程中獲得的平均獎(jiǎng)勵(lì)值隨著迭代輪數(shù)變化的趨勢(shì)曲線（圖4）。圖4的標(biāo)簽“DRL”代表了當(dāng)前常規(guī)的分布式強(qiáng)化學(xué)習(xí)算法框架，而標(biāo)簽“改進(jìn)的DRL”則對(duì)應(yīng)代表了本文在原有分布式強(qiáng)化學(xué)習(xí)框架中嵌入高斯混合模型模塊后得到的改進(jìn)算法框架。

從圖4可以非常明確地看出，在存在部分異常智能體向中央服務(wù)器上傳含有大量隨機(jī)噪聲的策略梯度情況下，常規(guī)分布式強(qiáng)化學(xué)習(xí)框架DRL所得到的訓(xùn)練效果受到了極大的負(fù)面干擾和影響，表現(xiàn)為訓(xùn)練獎(jiǎng)勵(lì)曲線基本無提升，一直難以進(jìn)行正常的模型擬合和參數(shù)更新，最終模型的參數(shù)無法收斂到穩(wěn)定水平，并且終止時(shí)獲得的訓(xùn)練平均獎(jiǎng)勵(lì)值低于10。這充分證明了這種規(guī)模的隨機(jī)噪聲異常對(duì)常規(guī)框架具有極大干擾作用，嚴(yán)重阻礙了正常的分布式協(xié)作學(xué)習(xí)過程，導(dǎo)致了模型訓(xùn)練的完全失敗。相比之下，本文提出的在分布式強(qiáng)化學(xué)習(xí)框架中嵌入高斯混合模型作為濾波器的改進(jìn)框架，則能夠有效地檢測(cè)和隔離這種異常策略梯度，抑制異常信息的負(fù)面干擾。因此，改進(jìn)框架下的訓(xùn)練過程明顯更為平穩(wěn)，獎(jiǎng)勵(lì)值可以持續(xù)穩(wěn)步上升，最終可以收斂穩(wěn)定到接近500的獎(jiǎng)勵(lì)值。這說明框架成功地完成了模型的訓(xùn)練并獲得了良好的控制策略。

在實(shí)驗(yàn)2中設(shè)置的異常智能體產(chǎn)生的異常信息類型為持續(xù)上傳完全固定值的策略梯度。根據(jù)圖5展示的訓(xùn)練獎(jiǎng)勵(lì)曲線比較結(jié)果，與實(shí)驗(yàn)1類似，在存在部分上傳固定值異常信息的干擾情況下，常規(guī)分布式強(qiáng)化學(xué)習(xí)框架DRL同樣受到了非常大的負(fù)面影響，表現(xiàn)為訓(xùn)練獎(jiǎng)勵(lì)值無法提升，模型訓(xùn)練失敗。相比之下，本文提出的在分布式框架中增加高斯混合模型模塊的改進(jìn)框架，其訓(xùn)練曲線仍能夠保持較好的平穩(wěn)性和收斂度，最終使得控制策略模型成功訓(xùn)練并收斂到一個(gè)較高的性能狀態(tài)。

表1為兩組實(shí)驗(yàn)條件下不同算法獲取獎(jiǎng)勵(lì)值的對(duì)比。通過這兩組比較實(shí)驗(yàn)可以非常明確地看出，本文提出的改進(jìn)框架在面對(duì)分布式訓(xùn)練系統(tǒng)中存在一定比例異常智能體的情況下，仍然能夠獲取較高的獎(jiǎng)勵(lì)值，展現(xiàn)了比較好的魯棒性和抗干擾性能。這進(jìn)一步驗(yàn)證了引入高斯混合模型對(duì)檢測(cè)隔離異常信息和提升分布式強(qiáng)化學(xué)習(xí)方法魯棒性的積極作用。

為了進(jìn)一步探討本文提出的改進(jìn)框架對(duì)分布式強(qiáng)化學(xué)習(xí)訓(xùn)練收斂速度的影響，本研究特別設(shè)計(jì)了額外的比較實(shí)驗(yàn)3，即收斂速度對(duì)比實(shí)驗(yàn)。如圖6所示，虛線表示原始分布式強(qiáng)化學(xué)習(xí)框架DRL在沒有任何異常智能體存在時(shí)的訓(xùn)練獎(jiǎng)勵(lì)曲線，從中可以明顯地看出在全體智能體正常的理想情況下，分布式框架可以非?？焖俚赝瓿刹呗阅Ｐ偷挠?xùn)練并實(shí)現(xiàn)參數(shù)收斂。圖6中的實(shí)線則表示加入了高斯混合模型模塊的改進(jìn)分布式框架在面對(duì)3個(gè)持續(xù)產(chǎn)生異常信息的故障智能體環(huán)境下的訓(xùn)練曲線。通過對(duì)比這兩條訓(xùn)練曲線可以發(fā)現(xiàn)，盡管存在一定規(guī)模的異常干擾，本文提出的改進(jìn)框架的訓(xùn)練收斂速度與所有智能體正常工作的理想狀況下非常接近。原始框架之所以收斂速度相對(duì)較快，其中的一個(gè)原因是參與訓(xùn)練的正常智能體數(shù)量更多。然而進(jìn)行這額外的收斂速度對(duì)比實(shí)驗(yàn)證明，本文提出的帶有高斯混合模型的改進(jìn)分布式強(qiáng)化學(xué)習(xí)框架，不僅能夠顯著提升面對(duì)異常情況下的訓(xùn)練魯棒性，同時(shí)可以較好地保證整體訓(xùn)練過程的收斂速度。

3結(jié)論（Conclusion）

本文提出了一種基于高斯混合模型的分布式強(qiáng)化學(xué)習(xí)優(yōu)化方法。該方法在中央服務(wù)器中增加了帶有高斯混合模型的過濾器，在聚合智能體上傳的梯度之前，由過濾器對(duì)梯度進(jìn)行過濾和篩選。過濾器通過高斯混合模型計(jì)算新上傳信息屬于正常模型的概率，若這個(gè)概率低于一個(gè)閾值，則判定為異常信息并過濾掉。實(shí)驗(yàn)結(jié)果顯示，該方法極大提升了分布式強(qiáng)化學(xué)習(xí)的魯棒性，即使系統(tǒng)中存在若干個(gè)異常的智能體，也能確保模型訓(xùn)練的收斂性。未來，將探索在更復(fù)雜的異常行為時(shí)和更多異常智能體場(chǎng)景中，提升分布式強(qiáng)化學(xué)習(xí)算法魯棒性的方法，以進(jìn)一步完善該方法的應(yīng)用。

參考文獻(xiàn)（References）

［1］劉建偉，高峰，羅雄麟.基于值函數(shù)和策略梯度的深度強(qiáng)化學(xué)習(xí)綜述［J］.計(jì)算機(jī)學(xué)報(bào)，2019，42（6）：1406＼|1438.

［2］田佩，臧兆祥，張震，等.RTS游戲中基于強(qiáng)化學(xué)習(xí)的行動(dòng)參數(shù)配置優(yōu)化［J］.計(jì)算機(jī)仿真，2023，40（8）：355＼|359.

［3］鄧修朋，崔建明，李敏，等.深度強(qiáng)化學(xué)習(xí)在機(jī)器人路徑規(guī)劃中的應(yīng)用［J］.電子測(cè)量技術(shù)，2023，46（6）：1＼|8.

［4］[JP3]陳越，焦朋朋，白如玉，等.基于深度強(qiáng)化學(xué)習(xí)的自動(dòng)駕駛車輛跟馳行為建模［J］.交通信息與安全，2023，41（2）：67＼|75，102.

［5］王曙燕，萬頃田.自動(dòng)駕駛車輛在無信號(hào)交叉口右轉(zhuǎn)駕駛決策技術(shù)研究［J］.計(jì)算機(jī)應(yīng)用研究，2023，40（5）：1468＼|1472.

［6］VENTURINIF，MASONF，PASEF，etal.DistributedreinforcementlearningforflexibleandefficientUAVswarmcontrol［J］.IEEEtransactionsoncognitivecommunicationsandnetworking，2021，7（3）：955＼|969.

［7］MATHKARA，BORKARVS.Distributedreinforcementlearningviagossip［J］.IEEEtransactionsonautomaticcontrol，2017，62（3）：1465＼|1470.

［8］劉衛(wèi)國(guó)，項(xiàng)志宇，劉偉平，等.基于分布式強(qiáng)化學(xué)習(xí)的車輛控制算法研究［J］.汽車工程，2023，45（9）：1637＼|1645.

［9］方佳鍇.一種基于高斯混合模型的不均衡分類方法［J］.電腦知識(shí)與技術(shù)，2022，18（2）：28＼|30.

軟件工程2024年11期

軟件工程的其它文章: 基于少量數(shù)據(jù)集的三維點(diǎn)云生成模型; 融合混沌映射和自適應(yīng)T分布的蜣螂優(yōu)化算法; 基于多頭注意力機(jī)制的文本檢測(cè)識(shí)別方法; 一種加速渲染NeRF烘焙數(shù)據(jù)的方法; 基于優(yōu)化RRT算法的智能車輛路徑規(guī)劃策略; 融合翻筋斗覓食和正余弦策略的白骨頂雞優(yōu)化算法

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于高斯混合模型的分布式強(qiáng)化學(xué)習(xí)算法魯棒性優(yōu)化