基于深度強(qiáng)化學(xué)習(xí)的智能網(wǎng)聯(lián)車(chē)匝道合并策略

2022-04-02 16:32:19陳廣福

電腦知識(shí)與技術(shù) 2022年33期

陳廣福

摘要：針對(duì)高速公路智能網(wǎng)聯(lián)汽車(chē)（CAV）匝道合并時(shí)的協(xié)同決策問(wèn)題，提出了一種基于近端策略?xún)?yōu)化（PPO）改進(jìn)的協(xié)作深度強(qiáng)化學(xué)習(xí)算法（C-PPO）。首先，基于強(qiáng)化學(xué)習(xí)構(gòu)建CAV匝道合并場(chǎng)景下的馬爾科夫決策過(guò)程（MDP）模型，接著設(shè)計(jì)了一個(gè)新穎的協(xié)作機(jī)制，即在策略更新過(guò)程中的多個(gè)時(shí)期動(dòng)態(tài)考慮匝道附近CAV的策略更新信息，這一過(guò)程可以協(xié)調(diào)地調(diào)整優(yōu)勢(shì)值以實(shí)現(xiàn)匝道合并車(chē)輛之間的協(xié)作。實(shí)驗(yàn)結(jié)果表明，與傳統(tǒng)的PPO算法相比，C-PPO算法在匝道合并問(wèn)題中的效果顯著優(yōu)于基于PPO和ACKTR等主流算法。

關(guān)鍵詞：深度強(qiáng)化學(xué)習(xí); 智能網(wǎng)聯(lián)車(chē)；匝道合并; 近端策略?xún)?yōu)化; 馬爾科夫決策過(guò)程

中圖分類(lèi)號(hào)：TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2022）33-0001-03

1 概述

據(jù)估計(jì)，全球機(jī)動(dòng)車(chē)數(shù)量已經(jīng)超過(guò)了10億輛，而這一數(shù)字可能會(huì)在二十年內(nèi)翻一番[1]。密集的交通活動(dòng)會(huì)導(dǎo)致各種問(wèn)題，包括速度故障和交通匯聚段的擁堵等，其中匝道合并場(chǎng)景是高速公路上最具挑戰(zhàn)性的場(chǎng)景之一，它涉及車(chē)速的調(diào)整和變道控制[2]。近年來(lái)，一些學(xué)者研究了CAV是如何安全有效地通過(guò)匝道合并區(qū)，并提出了一些CAV的控制策略，可分為傳統(tǒng)基于數(shù)學(xué)模型和基于人工智能強(qiáng)化學(xué)習(xí)方法兩大類(lèi)。前者主要包含基于規(guī)則和基于優(yōu)化的方法來(lái)解決匝道的合并問(wèn)題[3]。其中基于規(guī)則的方法采用啟發(fā)式和硬編碼規(guī)則來(lái)指導(dǎo)CAV進(jìn)行駕駛決策。雖然這類(lèi)方法在某些確定性場(chǎng)景下取得了較好的效果，甚至有些技術(shù)已經(jīng)在大型科技公司實(shí)現(xiàn)了商業(yè)化[4]。然而，這些方法在面對(duì)交通流量較為復(fù)雜的匝道合并場(chǎng)景時(shí)很快變得不切實(shí)際[5]。

在智能交通領(lǐng)域，基于DRL的無(wú)人駕駛智能決策是一個(gè)新興領(lǐng)域[6]，受到了諸多關(guān)注。LIN等[7]設(shè)計(jì)了一個(gè)多目標(biāo)獎(jiǎng)勵(lì)函數(shù)，利用DDPG算法來(lái)解決匝道合并問(wèn)題；EL等[8]將RL算法與駕駛員意圖預(yù)測(cè)結(jié)合起來(lái)，提高CAV匝道合并的安全性能。但是，這些基于DRL的決策方法局限于單智能車(chē)的設(shè)計(jì)，很少考慮匝道合并過(guò)程中智能車(chē)之間的協(xié)同決策機(jī)制。

針對(duì)上述存在的不足，提出一種基于DRL的CAVs匝道合并模型。使用改進(jìn)的PPO算法構(gòu)建匝道合并場(chǎng)景下的強(qiáng)化學(xué)習(xí)模型，通過(guò)考慮匝道附近其他車(chē)輛的策略更新信息，以在CAVs之間協(xié)調(diào)適應(yīng)步長(zhǎng)來(lái)實(shí)現(xiàn)匝道合并過(guò)程中的協(xié)作。最后進(jìn)行仿真實(shí)驗(yàn)，表明所提算法可以取得更高的回報(bào)，在保證安全的情況下以更快的速度完成匝道合并，驗(yàn)證了其優(yōu)越性。

2 方法

2.1 強(qiáng)化學(xué)習(xí)問(wèn)題描述

在混合交通場(chǎng)景中基于DRL決策的匝道合并環(huán)境建模為一個(gè)馬爾可夫模型，定義如下：

狀態(tài)空間定義為[N×F]的維度矩陣，[N]為鄰居車(chē)輛加上自身的車(chē)輛數(shù)量，在兩車(chē)道場(chǎng)景中，相鄰車(chē)輛包括同車(chē)道前后車(chē)輛、相鄰車(chē)道前后車(chē)輛。[F]用于表示車(chē)輛狀態(tài)的特征數(shù)，其為一個(gè)五元組：（是否能觀測(cè)到車(chē)輛，縱向位置，橫向位置，縱向速度，橫向速度）。

動(dòng)作空間描述采用五元組（左轉(zhuǎn)、右轉(zhuǎn)、勻速、加速和減速）來(lái)描述。

獎(jiǎng)勵(lì)函數(shù)從安全性、速度穩(wěn)定性、時(shí)間進(jìn)度以及匝道合并成本四個(gè)維度進(jìn)行設(shè)置：

[ri，t=w1r1+w2r2+w3r3+w4r4]

其中[w1、w2、w3、w4]分別對(duì)應(yīng)前述四個(gè)維度的權(quán)重，而其四個(gè)維度對(duì)應(yīng)的獎(jiǎng)勵(lì)分別[r1、r2、r3、r4]。當(dāng)發(fā)生交通事故時(shí)[r1=-1]，此外[r1=0]。[r2=min（1，（vt-vmin）/（vmax-vmin））]，其中[rt]、[rmin]、[rmax]分別為當(dāng)前速度、最小速度和最大速度。[r3=loge（d/（thvt））]，其中d是距離進(jìn)展，[th]是預(yù)定義的時(shí)間進(jìn)展閾值。[r4=-exp（-（x-L）2/10L）]，其中x為CAV在匝道上導(dǎo)航的距離，L為匝道合并區(qū)的長(zhǎng)度，隨著CAV更接近合并端終點(diǎn)，懲罰增加以避免死鎖[9]。

2.1 C-PPO算法

C-PPO算法是一種將原始的PPO擴(kuò)展到多智能體環(huán)境中的算法。其關(guān)鍵思想在于，在CAV策略更新過(guò)程中，引入匝道附近車(chē)輛的策略更新信息以便在多個(gè)CAV之間協(xié)調(diào)適應(yīng)步長(zhǎng)，這一過(guò)程可以協(xié)調(diào)地調(diào)整優(yōu)勢(shì)值，進(jìn)而促使匝道合并附近的車(chē)輛實(shí)現(xiàn)協(xié)同。在基于策略的方法中，適當(dāng)限制策略更新的步長(zhǎng)被證明在單智能體設(shè)置中是有效的[10]。在存在多個(gè)策略的情況下，每個(gè)智能體在調(diào)整自己的步長(zhǎng)時(shí)考慮到其他智能體的更新也很重要[11]?；谶@一見(jiàn)解，提出了C-PPO算法，C-PPO算法的基本結(jié)構(gòu)如圖1所示。

圖1中的環(huán)境為汽車(chē)（即環(huán)境車(chē)）和無(wú)人駕駛車(chē)輛CAV的混合交通場(chǎng)景，C-PPO訓(xùn)練兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò)：一個(gè)是網(wǎng)絡(luò)參數(shù)為[θA]的Actor行動(dòng)者網(wǎng)絡(luò)，另一個(gè)是網(wǎng)絡(luò)參數(shù)為[?C]的Critic評(píng)論家網(wǎng)絡(luò)。Critic網(wǎng)絡(luò)可表示為[V?]，執(zhí)行[S→R]的映射，Actor網(wǎng)絡(luò)可表示為[πθ]，將智能體當(dāng)前的狀態(tài)映射到離散動(dòng)作空間中動(dòng)作的分類(lèi)分布，或在連續(xù)動(dòng)作空間中對(duì)一個(gè)動(dòng)作進(jìn)行采樣的多元高斯分布的均值和標(biāo)準(zhǔn)差向量，從該分布中采樣一個(gè)動(dòng)作。

Actor網(wǎng)絡(luò)生成策略，Critic網(wǎng)絡(luò)通過(guò)估計(jì)優(yōu)勢(shì)函數(shù)[At]來(lái)評(píng)估并改進(jìn)當(dāng)前策略[π]，二者都是根據(jù)策略梯度進(jìn)行優(yōu)化。其中Critic網(wǎng)絡(luò)參數(shù)[?C]的更新公式為：

[At=yt-V?Cst，at]? ? ? ? ? ? ? ? ? ? ?（2）

[L?C=EA2t]? ? ? ? ? ? ? ? ? ? ?（3）

Actor網(wǎng)絡(luò)參數(shù)[θA]更新公式為：

[LCLIP（θi）=Εa～πold{min[（j≠irj）ri（θ）Ai，clip（（j≠irj）ri（θ），1-ε，1+ε）Ai]}] ? ? ? ? ? ?（4）

其中，[yt=rt+γV?C（st+1，πθA（st+1））] ? ? ? ? ? ? （5）

[ri（θ）=πθat|stπθoldat|st] ? ? ? ? ? ? ? ? ? ? ?（6）式中的[yt]是由貝爾曼方程計(jì)算得出的目標(biāo)價(jià)值，[V?C（st，at）]表示一個(gè)智能體的Critic網(wǎng)絡(luò)的輸出值，[γ]為衰減系數(shù)，[ε]為超參數(shù)，[ri（θ）]為概率比，[θi]是第[i]個(gè)智能體策略的參數(shù)，[Ai]則為第[i]個(gè)智能體的優(yōu)勢(shì)函數(shù)。

算法中每個(gè)智能體都有兩個(gè)結(jié)構(gòu)相同的[Actor]行動(dòng)者網(wǎng)絡(luò)，其中一個(gè)[πθAold（at|st）]用于收集數(shù)據(jù)，另一個(gè)用于生成待優(yōu)化的策略[πθA（at|st）]，新策略通過(guò)重要性抽樣來(lái)估計(jì)。在存在多個(gè)智能體的情況下，每個(gè)智能體在調(diào)整自己的步長(zhǎng)時(shí)考慮到周?chē)渌悄荏w的更新，協(xié)調(diào)地調(diào)整優(yōu)勢(shì)值來(lái)直接協(xié)調(diào)智能體的策略，C-PPO核心優(yōu)化公式為（4），該損失函數(shù)限制了[πθA（at|st）]的更新幅度，確保新舊策略之間的偏離程度不會(huì)太大。其中[clip（·）]截?cái)嗪瘮?shù)可以防止聯(lián)合概率比超過(guò)[[1-ε，1+ε]]，從而近似地限制了聯(lián)合策略的變異散度。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集設(shè)置

本文實(shí)驗(yàn)環(huán)境是在基于Gym構(gòu)建的highway-env[12]環(huán)境上進(jìn)行修改構(gòu)建的匝道合并仿真環(huán)境，使用PyTorch構(gòu)建Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)。主道路長(zhǎng)度為520m，合并車(chē)道入口為320m，合并車(chē)道長(zhǎng)度L為100m，在道路上將隨機(jī)出現(xiàn)1～3輛環(huán)境車(chē)以及CAV。

將C-PPO與兩種主流的RL算法進(jìn)行了比較，這兩種對(duì)比算法分別由單智能體算法PPO、ACKTR擴(kuò)展到多智能體環(huán)境中，將其分別表示為MAPPO以及MAACKTR。從平均獎(jiǎng)勵(lì)值、平均速度、安全性三個(gè)方面進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)中C-PPO算法使用的Actor和Critic網(wǎng)絡(luò)都是由多層神經(jīng)網(wǎng)絡(luò)構(gòu)建，Actor和Critic網(wǎng)絡(luò)的隱藏層均使用了Softmax函數(shù)。

3.2 實(shí)驗(yàn)結(jié)果與分析

分別使用三種算法訓(xùn)練環(huán)境中的CAV來(lái)進(jìn)行匝道合并，場(chǎng)景進(jìn)行10000回合的訓(xùn)練，每回合步長(zhǎng)100步，共100萬(wàn)步。由圖2可以看出，在經(jīng)過(guò)100萬(wàn)步的訓(xùn)練后， C-PPO算法能夠收斂到比MAPPO以及MAACKTR算法更高的平均獎(jiǎng)勵(lì)值，說(shuō)明這三種算法中，有協(xié)作的C-PPO算法能夠取得更好的性能，獲得更高的獎(jiǎng)勵(lì)回報(bào)。

圖3、圖4分別表示在匝道合并過(guò)程中，CAV的平均速度以及每個(gè)回合能否安全完成匝道合并任務(wù)。圖3顯示MAACKTR算法控制下的車(chē)輛能夠具有更高的速度，但是結(jié)合圖4可知，在一個(gè)回合中，MAACKTR算法并沒(méi)有走完一個(gè)回合中的100步，即在該匝道合并過(guò)程中出現(xiàn)了交通事故，例如碰撞等導(dǎo)致提前結(jié)束該回合，這也是導(dǎo)致其平均獎(jiǎng)勵(lì)較低的原因。而C-PPO算法在早期會(huì)出現(xiàn)提前結(jié)束回合的情況，這是因?yàn)檐?chē)輛在初步階段還處于探索學(xué)習(xí)過(guò)程，與環(huán)境交互進(jìn)行試錯(cuò)，大概1000回合后，C-PPO算法都能完整跑完一個(gè)回合，保證其安全性，匝道合并成功率穩(wěn)定且高于其余兩種算法，其平均速度也快于MAPPO算法。故C-PPO算法能夠在安全的前提下以較快的速度完成匝道合并，具有更好的性能。

4 結(jié)論

本文提出了一種適用于高速公路環(huán)境下CAVs匝道合并的協(xié)作深度強(qiáng)化學(xué)習(xí)算法C-PPO。首先構(gòu)建了CAV匝道合并場(chǎng)景下的馬爾科夫決策模型，接著設(shè)計(jì)了一個(gè)新穎的協(xié)作機(jī)制，即在CAV的策略更新中考慮了匝道附近其他CAV的策略更新信息以調(diào)整優(yōu)勢(shì)值來(lái)實(shí)現(xiàn)車(chē)輛之間的協(xié)作。與其他主流的RL算法進(jìn)行了比較，C-PPO算法可以取得更高的回報(bào)，以更快的速度完成匝道合并且安全性更好。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提算法的優(yōu)越性。下一步考慮將具有明確協(xié)同機(jī)制的傳統(tǒng)控制領(lǐng)域方法與RL進(jìn)行結(jié)合，進(jìn)一步加強(qiáng)車(chē)輛之間的協(xié)作。

參考文獻(xiàn)：

[1] Jia D Y，Lu K J，Wang J P，et al.A survey on platoon-based vehicular cyber-physical systems[J].Communications Surveys & Tutorials，2016，18（1）：263-284.

[2] Wang H J，Wang W S，Yuan S H，et al.On social interactions of merging behaviors at highway on-ramps in congested traffic[J]. IEEE Transactions on Intelligent Transportation Systems， 2021.

[3] Jackeline R T，Malikopoulos A A.A survey on the coordination of connected and automated vehicles at intersections and merging at highway on-ramps[J].IEEE Transactions on Intelligent Transportation Systems，2017，18（5）：1066-1077.

[4] Dong C， Dolan J M， Litkouhi B. Intention estimation for ramp merging control in autonomous driving[C]//2017 IEEE intelligent vehicles symposium （IV）. IEEE， 2017： 1584-1589.

[5] Cao W， Mukai M， Kawabe T， et al. Cooperative vehicle path generation during merging using model predictive control with real-time optimization[J]. Control Engineering Practice， 2015（34）： 98-105.

[6] Haydari A，Yilmaz Y.Deep reinforcement learning for intelligent transportation systems：a survey[J].IEEE Transactions on Intelligent Transportation Systems，2020，（99）.

[7] Lin Y，McPhee J，Azad N L.Anti-jerk on-ramp merging using deep reinforcement learning[C]//2020 IEEE Intelligent Vehicles Symposium （IV）. IEEE， 2020： 7-14.

[8] el abidine Kherroubi Z， Aknine S， Bacha R. Leveraging on Deep Reinforcement Learning for Autonomous Safe Decision-Making in Highway On-ramp Merging （Student Abstract）[C]//Proceedings of the AAAI Conference on Artificial Intelligence，2021， 35（18）： 15815-15816.

[9] Bouton M，Nakhaei A，F(xiàn)ujimura K，et al.Cooperation-aware reinforcement learning for merging in dense traffic C]//2019 IEEE Intelligent Transportation Systems Conference （ITSC）. IEEE， 2019： 3441-3447.

[10] Schulman J，Levine S，Moritz P，et al.Trust region policy optimization[C]//International conference on machine learning. PMLR， 2015： 1889-1897.

[11]Wu Z F，Yu C，Ye D H，et al.Coordinated proximal policy optimization Advances in Neural Information Processing Systems， 2021（34）.

[12] Leurent E. An environment for autonomous driving decision-making[J]. GitHub， 2018.

【通聯(lián)編輯：唐一東】

電腦知識(shí)與技術(shù)2022年33期

電腦知識(shí)與技術(shù)的其它文章: 游戲在《數(shù)據(jù)結(jié)構(gòu)》課堂教學(xué)中的應(yīng)用; 數(shù)據(jù)結(jié)構(gòu)課程思政教學(xué)探索; DS-VLAB在計(jì)算機(jī)組成原理實(shí)驗(yàn)教學(xué)中的應(yīng)用; 課程思政融入機(jī)器學(xué)習(xí)課程教學(xué)的探索與實(shí)踐; 以項(xiàng)目為驅(qū)動(dòng)的計(jì)算機(jī)類(lèi)專(zhuān)業(yè)應(yīng)用型人才培養(yǎng)模式探究; 計(jì)算機(jī)通識(shí)教育課程的思政教學(xué)探索與實(shí)踐

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于深度強(qiáng)化學(xué)習(xí)的智能網(wǎng)聯(lián)車(chē)匝道合并策略