焦龍飛,谷志茹,舒小華,袁 鵬,王建斌
(湖南工業(yè)大學(xué) 軌道交通學(xué)院,湖南 株洲 412007)
目前,自動(dòng)駕駛技術(shù)是人工智能領(lǐng)域的研究熱點(diǎn)之一,而路徑跟蹤控制是自動(dòng)駕駛系統(tǒng)中的核心問題。路徑跟蹤控制的目標(biāo)是讓車輛按照預(yù)定的路徑行駛,并且盡可能地接近預(yù)定運(yùn)行軌跡。路徑跟蹤控制方法主要分為基于模型和基于非模型兩類。其中,基于模型的路徑跟蹤控制方法主要依賴于車輛的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)模型,通過控制器輸出控制信號(hào)來控制車輛運(yùn)動(dòng),常見的基于模型的控制方法包括比例-積分-微分控制(PID 控制)[1-5]、模糊控制[6-12]、模型預(yù)測(cè)控制(model predictive control,MPC)[13-19]等?;诜悄P偷穆窂礁櫩刂品椒▌t不需要準(zhǔn)確的車輛模型,而是通過感知和決策模塊來實(shí)現(xiàn)控制,基于非模型的控制方法常見的是基于神經(jīng)網(wǎng)絡(luò)的控制方法[20-23]等。
已有研究中,針對(duì)自動(dòng)駕駛車輛在行使中對(duì)目標(biāo)路徑跟蹤精度不高、魯棒性能較差等問題,研究者們從基于模型的算法中尋找解決方法。如文獻(xiàn)[3]提出了一種基于車輛運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)的模糊自適應(yīng)PID控制方法,該方法根據(jù)預(yù)覽理論規(guī)劃下一個(gè)行駛路徑。其首先利用車輛質(zhì)心與所需路徑預(yù)覽點(diǎn)之間的位置關(guān)系計(jì)算橫向偏差和航向偏差,然后利用模糊自適應(yīng)PID 控制器對(duì)誤差的調(diào)整作用調(diào)整前輪角度。該方法雖然簡(jiǎn)單易行,但是在高要求控制場(chǎng)合的適應(yīng)性和控制精度有限。文獻(xiàn)[6]提出了一種基于動(dòng)態(tài)雙點(diǎn)預(yù)瞄策略的橫縱向模糊控制方法,通過模糊控制來動(dòng)態(tài)控制雙點(diǎn)預(yù)瞄距離,進(jìn)而控制車輛跟蹤相應(yīng)軌跡,但是模糊控制的效果受預(yù)瞄距離的改變影響較大。文獻(xiàn)[11]提出了一種基于橫向誤差和航向誤差的復(fù)合模糊控制方法,該方法通過指定相應(yīng)的權(quán)重變量來調(diào)整兩個(gè)模糊控制器的輸出,采用積分補(bǔ)償解決傳統(tǒng)模糊控制穩(wěn)態(tài)精度較低的問題。但是該方法在復(fù)雜道路中的路徑跟蹤精度較差。文獻(xiàn)[14]提出了一種采用線性時(shí)變模型預(yù)測(cè)控制進(jìn)行車輛軌跡跟蹤的控制算法,相比于非線性控制,該方法具有全局最優(yōu)解,且計(jì)算量更小。然而,該方法對(duì)車輛的建模要求較高,對(duì)非線性系統(tǒng)需要進(jìn)行線性逼近,并且需要構(gòu)造二次成本函數(shù)。同時(shí),該方法對(duì)硬件存儲(chǔ)空間和計(jì)算能力的要求較高,需要適當(dāng)考慮計(jì)算資源的限制。文獻(xiàn)[15]提出了建立模型預(yù)測(cè)控制和非線性動(dòng)力學(xué)魯棒控制(MPC-NDRC)框架,以提高軌跡跟蹤性能。MPCNDRC框架分為兩個(gè)階段:一是構(gòu)建預(yù)測(cè)模型控制器,防止在線計(jì)算復(fù)雜模型帶來的實(shí)時(shí)性能較差的問題;二是創(chuàng)建基于非線性動(dòng)力學(xué)的魯棒控制器,確保軌跡跟蹤性能和控制器模型精度。雖然該控制算法能穩(wěn)定地跟蹤路徑,但是系統(tǒng)過于復(fù)雜,穩(wěn)定性能較差。文獻(xiàn)[20]采用了神經(jīng)網(wǎng)絡(luò)和模糊控制相結(jié)合的方法,通過控制方向盤轉(zhuǎn)角來控制車輛的行駛方向,該方法的控制效果較為穩(wěn)定,但是存在轉(zhuǎn)向控制不夠及時(shí)和跟蹤誤差較大等問題。
基于模型的控制算法在路徑跟蹤中需要依賴車輛模型,而車輛建模是一個(gè)復(fù)雜的過程,不僅需要考慮機(jī)械結(jié)構(gòu)、動(dòng)力學(xué)特性、控制策略等多方面因素的影響,還需要考慮各種不確定因素的影響,因此建模的難度較大?;诜悄P偷目刂扑惴ǎ缟窠?jīng)網(wǎng)絡(luò)控制,需要大量的車輛數(shù)據(jù)和環(huán)境數(shù)據(jù)進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,但是當(dāng)前的技術(shù)條件很難保證環(huán)境數(shù)據(jù)的采集完整性。缺乏完整的環(huán)境數(shù)據(jù)會(huì)導(dǎo)致神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到不準(zhǔn)確的信息,從而使得跟蹤效果不佳。為了解決這個(gè)問題,科研工作者提出了有出色感知能力與決策能力的深度強(qiáng)化學(xué)習(xí)。深度強(qiáng)化學(xué)習(xí)方法是通過與環(huán)境不斷地交互試錯(cuò)地學(xué)習(xí),自主探索控制系統(tǒng)的最優(yōu)行為。強(qiáng)化學(xué)習(xí)的算法包括SARSA[24](state action reward state action)、Q-learning[25]、DQN[26](deep Q-learning)、DDPG[27]等。SARSA 是先建立一個(gè)Q表格,并通過與環(huán)境的交互來更新Q 表格的狀態(tài),然后根據(jù)Q 表格中的值采取動(dòng)作,但是SARSA 只能針對(duì)一些簡(jiǎn)單的游戲。Q-learning 與SARSA 類似,Q-learning 的不同點(diǎn)是在更新Q 表格時(shí)選擇不同的策略,但本質(zhì)上還是以表格的形式,Q-learning 卻是通過Q表格來選擇最優(yōu)。DQN是在Q-learning的基礎(chǔ)上,通過引入神經(jīng)網(wǎng)絡(luò)代替Q 表格,從而節(jié)省了軟件空間,但是其不適用于連續(xù)空間。DDPG 是一種利于深度函數(shù)逼近的策略,它可以在高維度和連續(xù)空間中應(yīng)用,而前3 種算法只適用于低維度、離散的行為空間中。但是在高維度、連續(xù)動(dòng)作的自動(dòng)駕駛中,DDPG的獎(jiǎng)懲機(jī)制不能很好地設(shè)置。
綜合上述分析可知,無論是基于模型還是非模型的路徑跟蹤控制算法,在路徑跟蹤過程中的表現(xiàn)都有所不足,主要表現(xiàn)在:
1)基于模型的控制算法在路徑跟蹤過程中對(duì)模型的依賴程度比較高,但是車輛的建模比較困難,這會(huì)導(dǎo)致跟蹤精度不佳。
2)基于非模型的控制算法需要大量的車輛數(shù)據(jù)和環(huán)境數(shù)據(jù)以供神經(jīng)網(wǎng)絡(luò)學(xué)習(xí),而環(huán)境數(shù)據(jù)采集的完整性難以滿足,這導(dǎo)致跟蹤效果比較差。
針對(duì)以上路徑跟蹤控制算法存在的弊端,課題組提出一種RF-DDPG 路徑跟蹤控制算法,該算法既不依賴系統(tǒng)精準(zhǔn)的數(shù)據(jù)模型,也不需要大量的環(huán)境數(shù)據(jù),僅通過車輛與期望路徑的橫向偏差、車輛的橫向角速度等設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)和自適應(yīng)權(quán)重系數(shù),實(shí)現(xiàn)自動(dòng)駕駛車輛的路徑跟蹤控制。
強(qiáng)化學(xué)習(xí)的本質(zhì)是智能體與環(huán)境的交互過程,它可以被看作一個(gè)馬爾可夫決策過程(Markov decision process,MDP)。MDP 是一個(gè)跟時(shí)間相關(guān)的序列決策過程,下一時(shí)刻的狀態(tài)只取決于當(dāng)前狀態(tài)和動(dòng)作。MDP 定義了一個(gè)五元組(S,A,R,P,γ),其中:
S={s1,s2,s3,…},代表車輛的狀態(tài);
A={a1,a2,a3,…},代表當(dāng)前狀態(tài)下智能體所輸出的動(dòng)作;
R={r1,r2,r3,…},代表當(dāng)前狀態(tài)下所輸出動(dòng)作的獎(jiǎng)勵(lì),具有滯后性;
P=p[st+1,rt|st,at],代表當(dāng)前狀態(tài)下st輸出動(dòng)作at轉(zhuǎn)移到下一個(gè)狀態(tài)st+1并拿到獎(jiǎng)勵(lì)rt的概率函數(shù);
γ為折扣因子,且γ∈[0,1]。
強(qiáng)化學(xué)習(xí)過程示意圖如圖1所示。
圖1 強(qiáng)化學(xué)習(xí)過程示意圖Fig.1 Reinforcement learning process
在強(qiáng)化學(xué)習(xí)過程中,智能體在每個(gè)時(shí)間點(diǎn)根據(jù)當(dāng)前的狀態(tài)參數(shù)S給出動(dòng)作A,然后進(jìn)入下一個(gè)環(huán)境狀態(tài),給出反饋回報(bào)R。然后在記憶池里就會(huì)記錄一系列的數(shù)據(jù)(s1,a1,r1,s2,a2,r2,…,st,at,rt),并計(jì)算累計(jì)回報(bào)Gt,其計(jì)算式如下:
用π表示智能體的策略,根據(jù)當(dāng)前的狀態(tài)s選擇輸出動(dòng)作a的概率。
用價(jià)值函數(shù)Q表示當(dāng)前狀態(tài)下s采取動(dòng)作a的價(jià)值:
利用貝爾曼方程遞歸后的價(jià)值函數(shù)為
式(3)(4)中,E(x)為期望函數(shù)。
強(qiáng)化學(xué)習(xí)的核心任務(wù),就是不斷地調(diào)整策略,以使得獎(jiǎng)勵(lì)函數(shù)值最大化。在強(qiáng)化學(xué)習(xí)過程中,智能體通過獲取獎(jiǎng)勵(lì)函數(shù)值最大化來更新策略,策略再給出下一步動(dòng)作,并且拿到獎(jiǎng)勵(lì),以此循環(huán),最終達(dá)到系統(tǒng)控制目標(biāo)。
DDPG 是一種基于確定性策略梯度的無模型算法,該算法基于Actor-Critic 框架,它可以被應(yīng)用于連續(xù)行為空間中,它由Actor、Actor-target 和Critic、Critic-target 網(wǎng)絡(luò)構(gòu)成。其中,Actor 網(wǎng)絡(luò)的作用是根據(jù)環(huán)境反饋的狀態(tài)S輸出動(dòng)作A;Critic 網(wǎng)絡(luò)的作用是根據(jù)環(huán)境反饋的狀態(tài)S和Actor 對(duì)應(yīng)的動(dòng)作A輸出Q值;Actor-target 網(wǎng)絡(luò)和Critic-target 網(wǎng)絡(luò)的作用是提高網(wǎng)絡(luò)的穩(wěn)定性。網(wǎng)絡(luò)首先固定自身的參數(shù)一段時(shí)間,然后通過復(fù)制Actor 網(wǎng)絡(luò)和Critic 網(wǎng)絡(luò)的參數(shù)來更新自己的參數(shù),DDPG 的算法原理框圖如圖2所示。
圖2 DDPG 算法原理框圖Fig.2 DDPG algorithmblock diagram
Actor 網(wǎng)絡(luò)在狀態(tài)觀測(cè)量的基礎(chǔ)上,輸出對(duì)應(yīng)的決策行為,并且將這些行為參數(shù)化為一個(gè)包含n維向量θ的策略π。
Actor 網(wǎng)絡(luò)以策略梯度方法為基礎(chǔ)進(jìn)行更新,通過策略梯度改進(jìn)策略。
在智能車輛軌跡跟蹤控制的學(xué)習(xí)過程中,Actor神經(jīng)網(wǎng)絡(luò)的輸入是觀測(cè)到的環(huán)境狀態(tài)變量,如位置、角度、速度等,其輸出是根據(jù)策略做出的決策,如方向盤轉(zhuǎn)角和油門剎車等。與此同時(shí),Critic 基于行為價(jià)值函數(shù)的方法,其輸入變量是狀態(tài)和行為,輸出變量是回報(bào)值。在學(xué)習(xí)過程中,Critic 用估計(jì)的價(jià)值函數(shù)作為更新Actor 函數(shù)的基準(zhǔn),同時(shí)評(píng)價(jià)Actor 的策略。Actor-Critic 方法的優(yōu)點(diǎn)在于Critic 通過價(jià)值函數(shù)提供了更準(zhǔn)確的評(píng)估,從而改進(jìn)了Actor 策略,使其更加優(yōu)化。此外,Actor-Critic 方法不僅可以使用Critic 更新Actor 策略,還可以使用Actor 更新Critic的價(jià)值函數(shù),可以更好地評(píng)估行為價(jià)值。
在實(shí)踐中,使用如下貝爾曼方程更新Critic 的價(jià)值函數(shù):
式中:α為學(xué)習(xí)率;
Q′為新的價(jià)值函數(shù)。
Actor 網(wǎng)絡(luò)更新參數(shù)θ采用鏈?zhǔn)角髮?dǎo)得出。
Critic 網(wǎng)絡(luò)更新參數(shù)w取期望值和實(shí)際值的均方誤差,即
獎(jiǎng)勵(lì)函數(shù)的好壞是影響模型結(jié)果的關(guān)鍵因素。對(duì)于單一任務(wù)的智能體都有著明確的獎(jiǎng)勵(lì)目標(biāo),故應(yīng)做到讓獎(jiǎng)勵(lì)值最大化。但是在處理復(fù)雜的自動(dòng)駕駛?cè)蝿?wù)中,很難單一明確獎(jiǎng)勵(lì)目標(biāo),故本論文擬通過組合的方式來設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù)。
1)路徑跟蹤能力。本研究中,設(shè)計(jì)用車輛的質(zhì)心位置yi與期望軌跡yj的橫向距離來描述車輛的跟蹤精度。
跟蹤精度誤差與允許誤差之比為Δ1,且
2)速度。R2=Vxcos(θ),其中Vxcos(θ)為車輛沿期望路徑方向的速度,在有限的時(shí)間和安全的情況下,希望快速完成駕駛?cè)蝿?wù)。
3)車輛穩(wěn)定性。車輛穩(wěn)定性主要是由車輛的橫擺角速度和質(zhì)心側(cè)偏角來體現(xiàn)。橫擺角速度常采取實(shí)際橫擺角速度ωp與期望橫擺角速度ωt的差值進(jìn)行描述。
式中:
其中:ωd為橫擺角速度上限;
ωdes為穩(wěn)態(tài)轉(zhuǎn)向下的橫擺角速度,且ωdes=Gωzss×δ,其中Gωzss為橫擺角速度的穩(wěn)態(tài)增益;
δ為轉(zhuǎn)向盤的角度。
橫擺角速度誤差與期望角速度之比為Δ2,且
同樣,質(zhì)心側(cè)偏角采取實(shí)際質(zhì)心側(cè)偏角βp與期望質(zhì)心側(cè)偏角βt的差進(jìn)行描述。
式中:βd為質(zhì)心側(cè)偏角上限;
βdes為穩(wěn)態(tài)轉(zhuǎn)向下的質(zhì)心側(cè)偏角,且βdes=Gβzss×δ,其中Gβzss為質(zhì)心側(cè)偏角的穩(wěn)態(tài)增益。
質(zhì)心側(cè)偏角誤差與期望質(zhì)心側(cè)偏角之比為Δ3,且
4)轉(zhuǎn)向平穩(wěn)性。轉(zhuǎn)向的平穩(wěn)性代表方向盤的震蕩程度,這里引入變異系數(shù)R5進(jìn)行描述,且
式中:σ為方向盤轉(zhuǎn)角的標(biāo)準(zhǔn)差;
路徑跟蹤精度和車輛的穩(wěn)定性能對(duì)自動(dòng)駕駛路徑跟蹤控制的影響比較大。當(dāng)兩者不能同時(shí)滿足時(shí),要確定先處理差距大的那一個(gè)指標(biāo)。本研究設(shè)計(jì)了自適應(yīng)權(quán)重系數(shù),當(dāng)跟蹤精度誤差百分比大于穩(wěn)定性誤差百分比時(shí),跟蹤精度的獎(jiǎng)勵(lì)函數(shù)權(quán)重就會(huì)加大,相反亦然。
跟蹤精度權(quán)重系數(shù)為
穩(wěn)定性權(quán)重系數(shù)為
跟蹤精度權(quán)重系數(shù)和穩(wěn)定性權(quán)重系數(shù)滿足如下表達(dá)式:
自動(dòng)駕駛車輛在訓(xùn)練過程中,會(huì)出現(xiàn)兩種情況:正常行駛和超出車道。正常行駛的獎(jiǎng)勵(lì)函數(shù)已經(jīng)設(shè)計(jì)完成,超出車道的情況在這里統(tǒng)一設(shè)置為0。則獎(jiǎng)勵(lì)函數(shù)表達(dá)式如下:
為了評(píng)估本研究中所提出自動(dòng)駕駛車輛控制方法的優(yōu)劣,接下來將在apollo 仿真平臺(tái)上搭建模型,并且對(duì)智能車輛在軌跡跟蹤過程中采用基于RFDDPG 算法和基于原始的DDPG 算法進(jìn)行仿真與分析。本文所提出的RF-DDPG 算法基于Actor-Critic網(wǎng)絡(luò)結(jié)構(gòu),其中Actor 網(wǎng)絡(luò)以策略梯度方法更新,根據(jù)策略的梯度將策略向更好的方向進(jìn)行優(yōu)化。Actor網(wǎng)絡(luò)的輸入為觀測(cè)量(位置、角度和速度等),輸出為控制信號(hào)(方向盤轉(zhuǎn)角和油門剎車)。Critic 網(wǎng)絡(luò)則基于行為價(jià)值函數(shù),輸入變量為狀態(tài)和行為,輸出變量為回報(bào)值,用于評(píng)估策略的優(yōu)劣。與傳統(tǒng)的DDPG 算法獎(jiǎng)勵(lì)函數(shù)不同,本文的RF-DDPG 算法采用了一種新的獎(jiǎng)勵(lì)函數(shù),這一改進(jìn)使得算法更加具有魯棒性和泛化能力。原始DDPG 算法和RF-DDPG算法的評(píng)價(jià)方式如圖3所示。
圖3 兩種算法的評(píng)價(jià)方式Fig.3 Evaluation method of the two algorithms
圖3a 是原始評(píng)價(jià)算法,可以看出,原始算法對(duì)智能車的評(píng)價(jià)方式只區(qū)分了未產(chǎn)生事故和產(chǎn)生事故,訓(xùn)練出來的效果難以達(dá)到智能車輛對(duì)路徑跟蹤精度的要求。圖3b 是改進(jìn)后的評(píng)價(jià),利用組合方式設(shè)計(jì)獎(jiǎng)勵(lì)函數(shù),使得評(píng)價(jià)更加合理,訓(xùn)練后的控制效果也更加精確。
算法改進(jìn)前后自動(dòng)駕駛車輛的航向角偏差曲線、橫擺角速度偏差曲線、質(zhì)心側(cè)偏角差曲線,分別如圖4~6所示。
圖4 算法改進(jìn)前后自動(dòng)駕駛車輛的航向角偏差曲線Fig.4 Heading angle deviation curves of autonomous vehicles before and after an algorithm improvement
圖5 算法改進(jìn)前后自動(dòng)駕駛車輛的橫擺角速度偏差曲線Fig.5 Yaw rate deviation curves of the autonomous vehicle before and after an algorithm improvement
圖6 算法改進(jìn)前后自動(dòng)駕駛車輛的質(zhì)心側(cè)偏角差曲線Fig.6 Centroid sideslip angle difference of autonomous vehicles before and after an algorithm improvement
從圖4~6 可以看出,采用RF-DDPG 控制算法的自動(dòng)駕駛車輛在實(shí)驗(yàn)過程中的穩(wěn)定性能明顯比采用DDPG 算法車輛的穩(wěn)定性能高,控制過程更加合理。這不僅驗(yàn)證了本研究對(duì)于算法策略輸出的改進(jìn)效果,也說明了本研究的改進(jìn)方式在仿真環(huán)境中擁有良好的泛化性。
圖7 是采用RF-DDPG 算法與DDPG 算法的自動(dòng)駕駛車輛的橫向誤差對(duì)比圖。
圖7 算法改進(jìn)前后自動(dòng)駕駛車輛的橫向誤差對(duì)比圖Fig.7 Lateral error comparison chart of autonomous vehicles before and after an algorithm improvement
由圖7所示采用RF-DDPG 算法與DDPG 算法的自動(dòng)駕駛車輛的橫向誤差對(duì)比圖,同樣可以直觀地看出,RF-DDPG 控制算法在跟蹤精度性能方面表現(xiàn)為比DDPG 算法的跟蹤精度更高,控制過程更加合理。
表1 為采用DDPG 和RF-DDPG 控制算法的不同跟蹤控制值結(jié)果對(duì)比,由表1 中的數(shù)據(jù)可以得出,RF-DDPG 算法的跟蹤控制值均優(yōu)于DDPG 算法的對(duì)應(yīng)值。
表1 算法改進(jìn)前后的跟蹤控制值對(duì)比Table 1 Comparison of tracking control values before and after an algorithm improvement
本文以智能車輛為研究對(duì)象,采用基于強(qiáng)化學(xué)習(xí)的方法研究了車輛在跟蹤軌跡時(shí)的最優(yōu)控制問題,提出了一種深度確定性策略梯度RF-DDPG 路徑跟蹤算法,旨在優(yōu)化車輛的跟蹤精度和運(yùn)行穩(wěn)定性。該算法在深度強(qiáng)化學(xué)習(xí)DDPG 的基礎(chǔ)上,設(shè)計(jì)了智能車輛在軌跡跟蹤時(shí)的獎(jiǎng)勵(lì)函數(shù)和自適應(yīng)權(quán)重系數(shù),從而優(yōu)化了RF-DDPG 的參數(shù)??刂破饕攒囕v當(dāng)前的位置、速度、跟蹤路徑信息和航向角為輸入,輸出轉(zhuǎn)向盤轉(zhuǎn)角和油門剎車。并在仿真平臺(tái)上測(cè)試了采用本文提出的算法和基于原始DDPG 算法的智能車輛軌跡跟蹤效果。仿真結(jié)果表明,相比于基于原始DDPG的強(qiáng)化學(xué)習(xí)方法,本文提出的基于RF-DDPG 的強(qiáng)化學(xué)習(xí)方法在跟蹤精度和控制效果方面有了顯著提高,并保證了車輛行駛過程的安全性和穩(wěn)定性。
為進(jìn)一步探究智能車輛軌跡跟蹤問題,課題組將繼續(xù)進(jìn)行軌跡規(guī)劃研究,以期將跟蹤控制策略應(yīng)用于所規(guī)劃的軌跡中,并對(duì)軌跡跟蹤策略進(jìn)行仿真驗(yàn)證。在此基礎(chǔ)上,進(jìn)一步完善RF-DDPG 算法,提高其控制精度和魯棒性。本研究對(duì)于智能車輛的自主駕駛和智能交通系統(tǒng)的發(fā)展具有重要意義,有望為實(shí)現(xiàn)車輛安全行駛和交通流暢提供有效的技術(shù)支持。