陳廣福
摘要:針對(duì)高速公路智能網(wǎng)聯(lián)汽車(chē)(CAV)匝道合并時(shí)的協(xié)同決策問(wèn)題,提出了一種基于近端策略?xún)?yōu)化(PPO)改進(jìn)的協(xié)作深度強(qiáng)化學(xué)習(xí)算法(C-PPO)。首先,基于強(qiáng)化學(xué)習(xí)構(gòu)建CAV匝道合并場(chǎng)景下的馬爾科夫決策過(guò)程(MDP)模型,接著設(shè)計(jì)了一個(gè)新穎的協(xié)作機(jī)制,即在策略更新過(guò)程中的多個(gè)時(shí)期動(dòng)態(tài)考慮匝道附近CAV的策略更新信息,這一過(guò)程可以協(xié)調(diào)地調(diào)整優(yōu)勢(shì)值以實(shí)現(xiàn)匝道合并車(chē)輛之間的協(xié)作。實(shí)驗(yàn)結(jié)果表明,與傳統(tǒng)的PPO算法相比,C-PPO算法在匝道合并問(wèn)題中的效果顯著優(yōu)于基于PPO和ACKTR等主流算法。
關(guān)鍵詞: 深度強(qiáng)化學(xué)習(xí); 智能網(wǎng)聯(lián)車(chē);匝道合并; 近端策略?xún)?yōu)化; 馬爾科夫決策過(guò)程
中圖分類(lèi)號(hào):TP391? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)33-0001-03
1 概述
據(jù)估計(jì),全球機(jī)動(dòng)車(chē)數(shù)量已經(jīng)超過(guò)了10億輛,而這一數(shù)字可能會(huì)在二十年內(nèi)翻一番[1]。密集的交通活動(dòng)會(huì)導(dǎo)致各種問(wèn)題,包括速度故障和交通匯聚段的擁堵等,其中匝道合并場(chǎng)景是高速公路上最具挑戰(zhàn)性的場(chǎng)景之一,它涉及車(chē)速的調(diào)整和變道控制[2]。近年來(lái),一些學(xué)者研究了CAV是如何安全有效地通過(guò)匝道合并區(qū),并提出了一些CAV的控制策略,可分為傳統(tǒng)基于數(shù)學(xué)模型和基于人工智能強(qiáng)化學(xué)習(xí)方法兩大類(lèi)。前者主要包含基于規(guī)則和基于優(yōu)化的方法來(lái)解決匝道的合并問(wèn)題[3]。其中基于規(guī)則的方法采用啟發(fā)式和硬編碼規(guī)則來(lái)指導(dǎo)CAV進(jìn)行駕駛決策。雖然這類(lèi)方法在某些確定性場(chǎng)景下取得了較好的效果,甚至有些技術(shù)已經(jīng)在大型科技公司實(shí)現(xiàn)了商業(yè)化[4]。然而,這些方法在面對(duì)交通流量較為復(fù)雜的匝道合并場(chǎng)景時(shí)很快變得不切實(shí)際[5]。
在智能交通領(lǐng)域,基于DRL的無(wú)人駕駛智能決策是一個(gè)新興領(lǐng)域[6],受到了諸多關(guān)注。LIN等[7]設(shè)計(jì)了一個(gè)多目標(biāo)獎(jiǎng)勵(lì)函數(shù),利用DDPG算法來(lái)解決匝道合并問(wèn)題;EL等[8]將RL算法與駕駛員意圖預(yù)測(cè)結(jié)合起來(lái),提高CAV匝道合并的安全性能。但是,這些基于DRL的決策方法局限于單智能車(chē)的設(shè)計(jì),很少考慮匝道合并過(guò)程中智能車(chē)之間的協(xié)同決策機(jī)制。
針對(duì)上述存在的不足,提出一種基于DRL的CAVs匝道合并模型。使用改進(jìn)的PPO算法構(gòu)建匝道合并場(chǎng)景下的強(qiáng)化學(xué)習(xí)模型,通過(guò)考慮匝道附近其他車(chē)輛的策略更新信息,以在CAVs之間協(xié)調(diào)適應(yīng)步長(zhǎng)來(lái)實(shí)現(xiàn)匝道合并過(guò)程中的協(xié)作。最后進(jìn)行仿真實(shí)驗(yàn),表明所提算法可以取得更高的回報(bào),在保證安全的情況下以更快的速度完成匝道合并,驗(yàn)證了其優(yōu)越性。
2 方法
2.1 強(qiáng)化學(xué)習(xí)問(wèn)題描述
在混合交通場(chǎng)景中基于DRL決策的匝道合并環(huán)境建模為一個(gè)馬爾可夫模型,定義如下:
狀態(tài)空間定義為[N×F]的維度矩陣,[N]為鄰居車(chē)輛加上自身的車(chē)輛數(shù)量,在兩車(chē)道場(chǎng)景中,相鄰車(chē)輛包括同車(chē)道前后車(chē)輛、相鄰車(chē)道前后車(chē)輛。[F]用于表示車(chē)輛狀態(tài)的特征數(shù),其為一個(gè)五元組:(是否能觀測(cè)到車(chē)輛,縱向位置,橫向位置,縱向速度,橫向速度)。
動(dòng)作空間描述采用五元組(左轉(zhuǎn)、右轉(zhuǎn)、勻速、加速和減速)來(lái)描述。
獎(jiǎng)勵(lì)函數(shù)從安全性、速度穩(wěn)定性、時(shí)間進(jìn)度以及匝道合并成本四個(gè)維度進(jìn)行設(shè)置:
[ri,t=w1r1+w2r2+w3r3+w4r4]
其中[w1、w2、w3、w4]分別對(duì)應(yīng)前述四個(gè)維度的權(quán)重,而其四個(gè)維度對(duì)應(yīng)的獎(jiǎng)勵(lì)分別[r1、r2、r3、r4]。當(dāng)發(fā)生交通事故時(shí)[r1=-1],此外[r1=0]。[r2=min(1,(vt-vmin)/(vmax-vmin))],其中[rt]、[rmin]、[rmax]分別為當(dāng)前速度、最小速度和最大速度。[r3=loge(d/(thvt))],其中d是距離進(jìn)展,[th]是預(yù)定義的時(shí)間進(jìn)展閾值。[r4=-exp(-(x-L)2/10L)],其中x為CAV在匝道上導(dǎo)航的距離,L為匝道合并區(qū)的長(zhǎng)度,隨著CAV更接近合并端終點(diǎn),懲罰增加以避免死鎖[9]。
2.1 C-PPO算法
C-PPO算法是一種將原始的PPO擴(kuò)展到多智能體環(huán)境中的算法。其關(guān)鍵思想在于,在CAV策略更新過(guò)程中,引入匝道附近車(chē)輛的策略更新信息以便在多個(gè)CAV之間協(xié)調(diào)適應(yīng)步長(zhǎng), 這一過(guò)程可以協(xié)調(diào)地調(diào)整優(yōu)勢(shì)值,進(jìn)而促使匝道合并附近的車(chē)輛實(shí)現(xiàn)協(xié)同。在基于策略的方法中,適當(dāng)限制策略更新的步長(zhǎng)被證明在單智能體設(shè)置中是有效的[10]。在存在多個(gè)策略的情況下,每個(gè)智能體在調(diào)整自己的步長(zhǎng)時(shí)考慮到其他智能體的更新也很重要[11]?;谶@一見(jiàn)解,提出了C-PPO算法,C-PPO算法的基本結(jié)構(gòu)如圖1所示。
圖1中的環(huán)境為汽車(chē)(即環(huán)境車(chē))和無(wú)人駕駛車(chē)輛CAV的混合交通場(chǎng)景,C-PPO訓(xùn)練兩個(gè)獨(dú)立的神經(jīng)網(wǎng)絡(luò):一個(gè)是網(wǎng)絡(luò)參數(shù)為[θA]的Actor行動(dòng)者網(wǎng)絡(luò),另一個(gè)是網(wǎng)絡(luò)參數(shù)為[?C]的Critic評(píng)論家網(wǎng)絡(luò)。Critic網(wǎng)絡(luò)可表示為[V?],執(zhí)行[S→R]的映射,Actor網(wǎng)絡(luò)可表示為[πθ],將智能體當(dāng)前的狀態(tài)映射到離散動(dòng)作空間中動(dòng)作的分類(lèi)分布,或在連續(xù)動(dòng)作空間中對(duì)一個(gè)動(dòng)作進(jìn)行采樣的多元高斯分布的均值和標(biāo)準(zhǔn)差向量,從該分布中采樣一個(gè)動(dòng)作。
Actor網(wǎng)絡(luò)生成策略,Critic網(wǎng)絡(luò)通過(guò)估計(jì)優(yōu)勢(shì)函數(shù)[At]來(lái)評(píng)估并改進(jìn)當(dāng)前策略[π],二者都是根據(jù)策略梯度進(jìn)行優(yōu)化。其中Critic網(wǎng)絡(luò)參數(shù)[?C]的更新公式為:
[At=yt-V?Cst,at]? ? ? ? ? ? ? ? ? ? ?(2)
[L?C=EA2t]? ? ? ? ? ? ? ? ? ? ?(3)
Actor網(wǎng)絡(luò)參數(shù)[θA]更新公式為:
[LCLIP(θi)=Εa~πold{min[(j≠irj)ri(θ)Ai,clip((j≠irj)ri(θ),1-ε,1+ε)Ai]}] ? ? ? ? ? ?(4)
其中,[yt=rt+γV?C(st+1,πθA(st+1))] ? ? ? ? ? ? (5)
[ri(θ)=πθat|stπθoldat|st] ? ? ? ? ? ? ? ? ? ? ?(6) 式中的[yt]是由貝爾曼方程計(jì)算得出的目標(biāo)價(jià)值,[V?C(st,at)]表示一個(gè)智能體的Critic網(wǎng)絡(luò)的輸出值,[γ]為衰減系數(shù),[ε]為超參數(shù),[ri(θ)]為概率比,[θi]是第[i]個(gè)智能體策略的參數(shù),[Ai]則為第[i]個(gè)智能體的優(yōu)勢(shì)函數(shù)。
算法中每個(gè)智能體都有兩個(gè)結(jié)構(gòu)相同的[Actor]行動(dòng)者網(wǎng)絡(luò),其中一個(gè)[πθAold(at|st)]用于收集數(shù)據(jù),另一個(gè)用于生成待優(yōu)化的策略[πθA(at|st)],新策略通過(guò)重要性抽樣來(lái)估計(jì)。在存在多個(gè)智能體的情況下,每個(gè)智能體在調(diào)整自己的步長(zhǎng)時(shí)考慮到周?chē)渌悄荏w的更新,協(xié)調(diào)地調(diào)整優(yōu)勢(shì)值來(lái)直接協(xié)調(diào)智能體的策略,C-PPO核心優(yōu)化公式為(4),該損失函數(shù)限制了[πθA(at|st)]的更新幅度,確保新舊策略之間的偏離程度不會(huì)太大。其中[clip(·)]截?cái)嗪瘮?shù)可以防止聯(lián)合概率比超過(guò)[[1-ε,1+ε]],從而近似地限制了聯(lián)合策略的變異散度。
3 實(shí)驗(yàn)分析
3.1 實(shí)驗(yàn)環(huán)境和數(shù)據(jù)集設(shè)置
本文實(shí)驗(yàn)環(huán)境是在基于Gym構(gòu)建的highway-env[12]環(huán)境上進(jìn)行修改構(gòu)建的匝道合并仿真環(huán)境,使用PyTorch構(gòu)建Actor網(wǎng)絡(luò)和Critic網(wǎng)絡(luò)。主道路長(zhǎng)度為520m,合并車(chē)道入口為320m,合并車(chē)道長(zhǎng)度L為100m,在道路上將隨機(jī)出現(xiàn)1~3輛環(huán)境車(chē)以及CAV。
將C-PPO與兩種主流的RL算法進(jìn)行了比較,這兩種對(duì)比算法分別由單智能體算法PPO、ACKTR擴(kuò)展到多智能體環(huán)境中,將其分別表示為MAPPO以及MAACKTR。從平均獎(jiǎng)勵(lì)值、平均速度、安全性三個(gè)方面進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)中C-PPO算法使用的Actor和Critic網(wǎng)絡(luò)都是由多層神經(jīng)網(wǎng)絡(luò)構(gòu)建,Actor和Critic網(wǎng)絡(luò)的隱藏層均使用了Softmax函數(shù)。
3.2 實(shí)驗(yàn)結(jié)果與分析
分別使用三種算法訓(xùn)練環(huán)境中的CAV來(lái)進(jìn)行匝道合并,場(chǎng)景進(jìn)行10000回合的訓(xùn)練,每回合步長(zhǎng)100步,共100萬(wàn)步。由圖2可以看出,在經(jīng)過(guò)100萬(wàn)步的訓(xùn)練后, C-PPO算法能夠收斂到比MAPPO以及MAACKTR算法更高的平均獎(jiǎng)勵(lì)值,說(shuō)明這三種算法中,有協(xié)作的C-PPO算法能夠取得更好的性能,獲得更高的獎(jiǎng)勵(lì)回報(bào)。
圖3、圖4分別表示在匝道合并過(guò)程中,CAV的平均速度以及每個(gè)回合能否安全完成匝道合并任務(wù)。圖3顯示MAACKTR算法控制下的車(chē)輛能夠具有更高的速度,但是結(jié)合圖4可知,在一個(gè)回合中,MAACKTR算法并沒(méi)有走完一個(gè)回合中的100步,即在該匝道合并過(guò)程中出現(xiàn)了交通事故,例如碰撞等導(dǎo)致提前結(jié)束該回合,這也是導(dǎo)致其平均獎(jiǎng)勵(lì)較低的原因。而C-PPO算法在早期會(huì)出現(xiàn)提前結(jié)束回合的情況,這是因?yàn)檐?chē)輛在初步階段還處于探索學(xué)習(xí)過(guò)程,與環(huán)境交互進(jìn)行試錯(cuò),大概1000回合后,C-PPO算法都能完整跑完一個(gè)回合,保證其安全性,匝道合并成功率穩(wěn)定且高于其余兩種算法,其平均速度也快于MAPPO算法。故C-PPO算法能夠在安全的前提下以較快的速度完成匝道合并,具有更好的性能。
4 結(jié)論
本文提出了一種適用于高速公路環(huán)境下CAVs匝道合并的協(xié)作深度強(qiáng)化學(xué)習(xí)算法C-PPO。首先構(gòu)建了CAV匝道合并場(chǎng)景下的馬爾科夫決策模型,接著設(shè)計(jì)了一個(gè)新穎的協(xié)作機(jī)制,即在CAV的策略更新中考慮了匝道附近其他CAV的策略更新信息以調(diào)整優(yōu)勢(shì)值來(lái)實(shí)現(xiàn)車(chē)輛之間的協(xié)作。與其他主流的RL算法進(jìn)行了比較,C-PPO算法可以取得更高的回報(bào),以更快的速度完成匝道合并且安全性更好。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提算法的優(yōu)越性。下一步考慮將具有明確協(xié)同機(jī)制的傳統(tǒng)控制領(lǐng)域方法與RL進(jìn)行結(jié)合,進(jìn)一步加強(qiáng)車(chē)輛之間的協(xié)作。
參考文獻(xiàn):
[1] Jia D Y,Lu K J,Wang J P,et al.A survey on platoon-based vehicular cyber-physical systems[J].Communications Surveys & Tutorials,2016,18(1):263-284.
[2] Wang H J,Wang W S,Yuan S H,et al.On social interactions of merging behaviors at highway on-ramps in congested traffic[J]. IEEE Transactions on Intelligent Transportation Systems, 2021.
[3] Jackeline R T,Malikopoulos A A.A survey on the coordination of connected and automated vehicles at intersections and merging at highway on-ramps[J].IEEE Transactions on Intelligent Transportation Systems,2017,18(5):1066-1077.
[4] Dong C, Dolan J M, Litkouhi B. Intention estimation for ramp merging control in autonomous driving[C]//2017 IEEE intelligent vehicles symposium (IV). IEEE, 2017: 1584-1589.
[5] Cao W, Mukai M, Kawabe T, et al. Cooperative vehicle path generation during merging using model predictive control with real-time optimization[J]. Control Engineering Practice, 2015(34): 98-105.
[6] Haydari A,Yilmaz Y.Deep reinforcement learning for intelligent transportation systems:a survey[J].IEEE Transactions on Intelligent Transportation Systems,2020,(99).
[7] Lin Y,McPhee J,Azad N L.Anti-jerk on-ramp merging using deep reinforcement learning[C]//2020 IEEE Intelligent Vehicles Symposium (IV). IEEE, 2020: 7-14.
[8] el abidine Kherroubi Z, Aknine S, Bacha R. Leveraging on Deep Reinforcement Learning for Autonomous Safe Decision-Making in Highway On-ramp Merging (Student Abstract)[C]//Proceedings of the AAAI Conference on Artificial Intelligence,2021, 35(18): 15815-15816.
[9] Bouton M,Nakhaei A,F(xiàn)ujimura K,et al.Cooperation-aware reinforcement learning for merging in dense traffic C]//2019 IEEE Intelligent Transportation Systems Conference (ITSC). IEEE, 2019: 3441-3447.
[10] Schulman J,Levine S,Moritz P,et al.Trust region policy optimization[C]//International conference on machine learning. PMLR, 2015: 1889-1897.
[11]Wu Z F,Yu C,Ye D H,et al.Coordinated proximal policy optimization Advances in Neural Information Processing Systems, 2021(34).
[12] Leurent E. An environment for autonomous driving decision-making[J]. GitHub, 2018.
【通聯(lián)編輯:唐一東】