国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

智能網(wǎng)聯(lián)汽車基于逆強化學(xué)習(xí)的軌跡規(guī)劃優(yōu)化機制研究

2023-08-21 04:15:48彭浩楠唐明環(huán)查奇文王聰王偉達(dá)
北京理工大學(xué)學(xué)報 2023年8期
關(guān)鍵詞:特征值軌跡加速度

彭浩楠,唐明環(huán),查奇文,王聰,王偉達(dá)

(1.中國工業(yè)互聯(lián)網(wǎng)研究院,北京 100102;2.北京理工大學(xué) 機械與車輛學(xué)院,北京 100081)

軌跡規(guī)劃模塊的作用是為智能網(wǎng)聯(lián)汽車計算出包含路徑和速度信息的安全可行軌跡,規(guī)劃過程需要考慮車輛行駛安全性、穩(wěn)定性、舒適性以及行駛效率等[1].目前已有許多關(guān)于自動駕駛軌跡規(guī)劃的研究,典型軌跡規(guī)劃方法主要可以分為3 類:包括模型預(yù)測控制方法、人工勢場法等的基于優(yōu)化計算的軌跡規(guī)劃;包括柵格法、隨機搜索法等的基于搜索的規(guī)劃方法;基于特定函數(shù)的軌跡規(guī)劃方法[2].近年來,人工智能為自動駕駛規(guī)劃控制提供了變革性發(fā)展契機.基于智能學(xué)習(xí)算法的軌跡規(guī)劃方法逐漸成為智能網(wǎng)聯(lián)汽車決策控制領(lǐng)域的研究熱點.

其中,包括各種群類算法如魚群、蟻群、粒子群,遺傳算法,神經(jīng)網(wǎng)絡(luò)等[3?4]的智能學(xué)習(xí)算法可解決非線性規(guī)劃問題,有不過分依賴物理模型、適用范圍廣、易于進(jìn)行移植、收斂速度較快的優(yōu)點,但同時存在陷入局部最優(yōu)的弊端.在模仿經(jīng)驗駕駛員的模型預(yù)測(model predictive control, MPC)優(yōu)化軌跡規(guī)劃方法中,各個優(yōu)化目標(biāo)函數(shù)的權(quán)重系數(shù)需要手動反復(fù)標(biāo)定.在不同的復(fù)雜動態(tài)環(huán)境中,權(quán)重系數(shù)標(biāo)定是一個重復(fù)且繁瑣耗時的過程,并且需要豐富的駕駛經(jīng)驗[5].更重要地,基于非線性MPC 的優(yōu)化軌跡規(guī)劃方法的求解計算量和預(yù)測步長Np成指數(shù)關(guān)系,即MPC 方法的求解計算量會隨著預(yù)測步長的升高成指數(shù)增長,還要處理各種約束,所以求解計算量非常巨大,實時性很差[6].

隨著人工智能技術(shù)、大數(shù)據(jù)以及高算力計算硬件的逐步發(fā)展,各種學(xué)習(xí)類算法也被用于解決軌跡規(guī)劃問題,主要包括模仿學(xué)習(xí)算法(imitation learning algorithms, LL)和強化學(xué)習(xí)算法(reinforcement learning algorithms, RL)兩大類.有學(xué)者采用深度強化學(xué)習(xí)算法[7?8]和Q-Learning 強化學(xué)習(xí)算法[9?10]解決軌跡規(guī)劃問題,不同類型的學(xué)習(xí)算法以各自不同的方式學(xué)習(xí)最優(yōu)軌跡.但是,一方面,直接模仿學(xué)習(xí)方法的神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程在可解釋性和泛化能力上存在不足,另一方面,獎勵函數(shù)設(shè)計是強化學(xué)習(xí)方法的瓶頸難題.如何使上述學(xué)習(xí)方法學(xué)習(xí)后的模型具有強泛化能力,解決當(dāng)前研究成果在實時性和可解釋性上的問題值得深入研究.目前也有很多研究文獻(xiàn)聚焦于采用模仿學(xué)習(xí)算法解決軌跡規(guī)劃問題,通過以不同的形式學(xué)習(xí)專家示范軌跡以實現(xiàn)期望軌跡的規(guī)劃,包括基于神經(jīng)網(wǎng)絡(luò)的直接模仿學(xué)習(xí)方法[11]和基于最大熵原則的逆強化學(xué)習(xí)算法[12?14]等.

為了解決算法實時性差、目標(biāo)函數(shù)權(quán)重系數(shù)難以標(biāo)定優(yōu)化和模仿學(xué)習(xí)方法的可解釋性不足等問題,本文提出了基于最大熵原則的逆強化學(xué)習(xí)方法,通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機制,規(guī)劃出符合人類駕駛習(xí)慣的整體最優(yōu)的換道軌跡.本文提出的方法通過最大熵原則求出專家軌跡的概率分布模型,再通過極大似然估計得到專家軌跡特征優(yōu)化權(quán)重參數(shù)的計算方法,通過迭代求出優(yōu)化權(quán)重參數(shù),達(dá)到最終學(xué)習(xí)軌跡特征與專家軌跡特征相匹配的綜合最優(yōu)效果.

1 雙車道交通場景描述與換道動機

1.1 場景描述

本文所研究的交通場景是自動駕駛汽車在城市結(jié)構(gòu)化道路中典型的雙車道交通工況,自動駕駛汽車(自車)行駛在雙車道的右車道上,在此車道上自車前后方各有前車1 和尾車2 向前行駛,相鄰車道上也有前車3 和尾車4 向前行駛.

如圖1 所示,左車道為快車道,自車所在車道為慢車道.自車在慢車道上跟隨前車1 進(jìn)行自適應(yīng)巡航行駛.假設(shè)某一時刻慢車道上前車1 突然減速,自車則也會相應(yīng)地減速行駛,當(dāng)前車1 減速至速度很低時,自車開始產(chǎn)生自主換道意圖,欲換道跟隨前車3 從而實現(xiàn)高速巡航行駛.此時自車需要根據(jù)當(dāng)前量測到的場景參數(shù)—TTC(碰撞時間)和THW(車頭時距),采用貝葉斯概率理論對相鄰待換車道和本車道進(jìn)行安全性風(fēng)險評估,得到當(dāng)前場景每個車道的安全性條件概率,然后根據(jù)安全效用做出相應(yīng)的行為決策,選擇保持該車道繼續(xù)行駛或更換車道.如果待換車道很危險,自車選擇保持該車道繼續(xù)行駛,直到待換車道尾車4 超過自車,新的尾車4 出現(xiàn),此時自車再重新對兩個車道進(jìn)行風(fēng)險評估.當(dāng)自車做出更換車道的行為決策,發(fā)出換道指令時,自車采用相應(yīng)的方法進(jìn)行軌跡規(guī)劃,得到最優(yōu)換道軌跡.

1.2 決策方法

針對此雙車道交通場景,可采用基于貝葉斯概率理論的風(fēng)險評估方法和基于安全效用理論的行為決策方法,構(gòu)建易于擴展到一般復(fù)雜場景的風(fēng)險評估貝葉斯網(wǎng)絡(luò)和決策圖[15].該方法充分考慮了場景輸入量測數(shù)據(jù)的不確定性,對當(dāng)前交通場景的換道風(fēng)險等級做出了定量化的概率描述.

2 基于最大熵原則的逆強化學(xué)習(xí)方法

近年來,隨著人工智能技術(shù)的發(fā)展,利用逆強化學(xué)習(xí)方法從專家示范數(shù)據(jù)集中自動學(xué)習(xí)獲取代價函數(shù)的研究獲得了自動駕駛汽車領(lǐng)域的廣泛關(guān)注.自動駕駛汽車的軌跡規(guī)劃必須達(dá)到經(jīng)驗駕駛員水平,實現(xiàn)安全決策和規(guī)劃.如何設(shè)計合適獎勵函數(shù)來指導(dǎo)智能體做出類優(yōu)秀駕駛員駕駛策略,即強化學(xué)習(xí)方法中的獎勵函數(shù)是一項非常有挑戰(zhàn)性的問題.因此,本文設(shè)計讓智能體從優(yōu)秀駕駛員的駕駛行為里面學(xué)習(xí)(估計、推導(dǎo))出一個可以指導(dǎo)智能體收斂到優(yōu)秀駕駛員的行駛策略的代價函數(shù),即通過逆強化學(xué)習(xí)方法學(xué)出專家軌跡的內(nèi)在優(yōu)化機制.

本文采用基于最大熵原則的逆強化學(xué)習(xí)方法來學(xué)習(xí)專家軌跡的優(yōu)化機制,專家軌跡由模仿優(yōu)秀駕駛員的MPC 優(yōu)化軌跡規(guī)劃方法求得,驗證逆強化學(xué)習(xí)方法實現(xiàn)自動駕駛汽車軌跡規(guī)劃的可行性,為自動駕駛汽車實現(xiàn)軌跡規(guī)劃提供一個可靠、可理解、可泛化,能夠成功實現(xiàn)最優(yōu)換道軌跡的學(xué)習(xí)思路,實現(xiàn)采用逆強化學(xué)習(xí)方法離線學(xué)習(xí)駕駛員專家軌跡的優(yōu)化機制,進(jìn)而構(gòu)建與場景風(fēng)險等級成映射關(guān)系的專家軌跡優(yōu)化代價函數(shù)庫.

利用直接模仿學(xué)習(xí)方法可以直接學(xué)習(xí)得出專家示范軌跡的策略函數(shù),即利用神經(jīng)網(wǎng)絡(luò)訓(xùn)練環(huán)境特征到動作(最優(yōu)軌跡)的映射.但是由于優(yōu)化代價函數(shù)(獎勵函數(shù))未知,黑箱的訓(xùn)練過程無法直觀理解,此方法存在可解釋性差、無法泛化轉(zhuǎn)移、存在失誤率的問題.與直接模仿學(xué)習(xí)方法相比,逆強化學(xué)習(xí)方法的優(yōu)點在于:

① 簡潔:通過逆強化學(xué)習(xí)方法能夠獲得優(yōu)化代價函數(shù),此代價函數(shù)體現(xiàn)了專家軌跡的優(yōu)化機制,這一優(yōu)化機制可以量化且直觀得被工程師所理解,所以代價函數(shù)是描述智能體理想行為的簡潔形式,可解釋性強.而策略函數(shù)(特征到動作的映射)和代價函數(shù)相比則更為復(fù)雜,工程師無法直觀量化地理解訓(xùn)練過程,可解釋性差.

② 魯棒:通過基于神經(jīng)網(wǎng)絡(luò)訓(xùn)練的直接模仿學(xué)習(xí)方法得到的動作容易受到外部干擾的影響.當(dāng)外部環(huán)境和內(nèi)部參數(shù)發(fā)生變化時,特征到動作的映射也會變化,但是代價函數(shù)始終不會發(fā)生變化,不會受到外部的影響.因此與策略函數(shù)相比,逆強化學(xué)習(xí)方法學(xué)出的優(yōu)化代價函數(shù)更具有魯棒性.

③ 可泛化轉(zhuǎn)移:通過逆強化學(xué)習(xí)方法學(xué)得的優(yōu)化代價函數(shù),體現(xiàn)了專家軌跡的優(yōu)化目標(biāo),在當(dāng)前風(fēng)險等級場景下,優(yōu)秀駕駛員的優(yōu)化目標(biāo)不會發(fā)生變化.因此,此優(yōu)化代價函數(shù)可以用于各類車型,是可泛化轉(zhuǎn)移的.

逆強化學(xué)習(xí)方法試圖恢復(fù)并獲得智能體在專家示范行為背后偏好(優(yōu)化機制)的過程.這種偏好(優(yōu)化機制)通常以代價函數(shù)或獎勵函數(shù)的形式表現(xiàn)出來,代價函數(shù)與獎勵函數(shù)將每個系統(tǒng)狀態(tài)的特征映射為一個狀態(tài)成本值.逆強化學(xué)習(xí)中的代價函數(shù)與特征之間的映射關(guān)系可能是線性、非線性或者神經(jīng)網(wǎng)絡(luò).本節(jié)與大多數(shù)逆強化學(xué)習(xí)方法一樣,假設(shè)特征與代價函數(shù)之間成線性映射關(guān)系,此線性關(guān)系可以表示為

式中:C為優(yōu)化代價函數(shù);θ ∈Rn是用來參數(shù)化代價函數(shù)的特征權(quán)重向量;fξi∈Rn定義為對給定軌跡的某些抽象信息進(jìn)行編碼量化的相關(guān)特征,ξi為某個給定的軌跡.在本文討論的換道軌跡規(guī)劃問題中,這種軌跡特征包括目標(biāo)橫向位置、縱向巡航速度、橫向速度、縱橫向加速度等.基于以上定義,逆強化學(xué)習(xí)方法的目標(biāo)可以描述為:給定智能體的專家示范軌跡,找到能夠再現(xiàn)與專家示范軌跡相似的軌跡的優(yōu)化代價函數(shù),即每個軌跡特征的權(quán)重系數(shù),與專家示范軌跡相似的軌跡可以通過求解基于權(quán)重系數(shù)的參數(shù)化代價函數(shù)的優(yōu)化問題獲得.具體目標(biāo)為找到智能體所學(xué)軌跡的概率分布,使得由此推導(dǎo)出的軌跡特征值與專家示范軌跡的經(jīng)驗特征值相匹配:

2.1 最大熵原則

熵是一個描述物質(zhì)系統(tǒng)狀態(tài)很重要的參量.通過研究最大熵原理,斯坦福大學(xué)和加州大學(xué)伯克利分校學(xué)者ZIEBART 等[16]和LIU 等[17]指出,熵最大的概率分布最好地代表了給定的專家示范信息,因為除了特征匹配之外,它沒有表現(xiàn)出任何其他額外的偏好.通俗地講,所學(xué)習(xí)軌跡的概率分布的熵越大,系統(tǒng)越穩(wěn)定,熵最大,系統(tǒng)最好.根據(jù)定義,關(guān)于軌跡概率分布的熵H(p)為

在連續(xù)空間中,如本文所考慮的軌跡規(guī)劃問題,專家選擇某條軌跡是隨機概率分布事件,極大化系統(tǒng)的熵可以求得期望的專家軌跡概率分布模型p?(ξi)為

特征匹配是重要的等式約束,如下所示.

式(4)和(5)所示為標(biāo)準(zhǔn)的含約束的拉格朗日優(yōu)化問題.引入拉格朗日乘子 α?,θ?,該問題為

其中 θ的維數(shù)為軌跡特征的個數(shù).引入拉格朗日函數(shù)L(p)為

求解偏導(dǎo)數(shù)方程:

則專家軌跡的概率分布模型的表達(dá)式為

可以看出,由最大熵原則推導(dǎo)出的概率分布模型中,如果把 θTfξi解釋為代價函數(shù),專家軌跡的概率分布模型表達(dá)式p(ξi|θ)與相關(guān)特征的代價函數(shù)的指數(shù)成正比.這個概率分布模型中的超參數(shù)為 θ.所以根據(jù)最大熵原理,這個概率分布模型意味著:代價函數(shù)成本值越高的軌跡是更不可能出現(xiàn)的,專家選擇的概率越低,隨著代價函數(shù)成本值升高,概率成指數(shù)函數(shù)降低,換言之,智能體模仿學(xué)習(xí)專家軌跡時以指數(shù)形式的可能性更傾向于選擇代價函數(shù)成本值低的軌跡.

又根據(jù)式(4),可得

則概率分布模型的分母表達(dá)式為

最終,可以得到期望的專家軌跡概率分布模型為

其中,Z(θ)為概率分布模型的歸一化(配分)因子.

然后,引入極大似然估計方法來獲取上述概率分布模型中超參數(shù)的計算表達(dá)式.用已有的專家采樣數(shù)據(jù),即給定的專家示范軌跡進(jìn)行極大似然估計,極大化專家的似然求出概率分布模型中的超參數(shù) θ.使得專家軌跡的似然最大,也就是使得已有的專家軌跡數(shù)據(jù)最真實.這樣求得的 θ參數(shù)值能夠保證專家軌跡的出現(xiàn)概率最大.所以,特征匹配下的軌跡分布熵最大化問題就轉(zhuǎn)化為了在上述指數(shù)概率分布模型下,專家軌跡的極大似然估計問題.

在軌跡規(guī)劃問題中,規(guī)劃出的軌跡是關(guān)于橫坐標(biāo)、縱坐標(biāo)和速度的三維函數(shù),即專家軌跡是蘊含時間信息的.因為軌跡上每一點的速度都是隨機的,所以專家軌跡樣本集個數(shù)為無數(shù)條,假設(shè)專家軌跡樣本集個數(shù)為N條,則專家示范軌跡的樣本集可以表示為,i=N.為專家示范軌跡樣本集中的軌跡.

定義專家軌跡的似然函數(shù),即聯(lián)合概率密度函數(shù)為

式中:l(θ) 為專家軌跡的似然函數(shù);p(D|θ)為專家軌跡的聯(lián)合概率密度函數(shù).極大化似然函數(shù)l(θ),即可求出模型超參數(shù) θ?值,使得出現(xiàn)該組樣本的概率最大.

定義專家軌跡的對數(shù)似然函數(shù)為W(θ?),表達(dá)式如下.

式(17)中的歸一化配分因子Z(θ)也可以采用積分的方式表示.利用專家軌跡樣本集試驗結(jié)果和極大似然估計方法得到的參數(shù)值,能夠使專家軌跡樣本集出現(xiàn)的可能性最大.

2.2 配分因子的近似和優(yōu)化權(quán)重參數(shù)的計算

根據(jù)上述分析和公式(17))可知,極大化專家軌跡似然的過程中,如何計算歸一化(配分)因子Z(θ)是該方法的難點所在.由于所有軌跡在高維空間上積分是不可處理的,即在連續(xù)狀態(tài)下,無法對全軌跡進(jìn)行積分,因此無法計算得到精確的配分因子Z(θ)[18?19].只能采用二階泰勒展開/拉布拉斯近似、蒙特卡洛采樣和一次軌跡樣條代替等方式進(jìn)行配分因子 的近似計算.基于二階泰勒展開/拉布拉斯近似的優(yōu)化權(quán)重參數(shù)最優(yōu)解法理論性較強,試圖一次性求解出優(yōu)化權(quán)重參數(shù) θ,但此方法的代碼實現(xiàn)較為困難,很難一步到位求出最優(yōu)解.所以本節(jié)不采用此種方法求解 θ.

本文采用基于一次軌跡樣條近似代替的梯度下降方法,迭代求解出優(yōu)化權(quán)重參數(shù) θ,直至智能體最終的學(xué)習(xí)軌跡特征與專家軌跡特征相匹配.

如上所述,采用最大熵原理推導(dǎo)出專家軌跡的指數(shù)概率分布模型之后,可以采用極大似然估計方法得到概率分布模型中的超參數(shù):

專家軌跡的似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù) θ的梯度可以被推導(dǎo)為

所以專家軌跡的似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù)θ的梯度表達(dá)式為

式中:fD為專家示范軌跡特征值的均值,fD?[fξ?d1+fξ?d2+···+fξ?dN]/N.ξ?i為專家用當(dāng)前的優(yōu)化權(quán)重參數(shù) θ在優(yōu)化一個代價函數(shù)得到一條當(dāng)前最有可能出現(xiàn)的最優(yōu)軌跡.

與文獻(xiàn)[20]類似,利用逆最優(yōu)控制的思想:專家用當(dāng)前自己的優(yōu)化權(quán)重參數(shù) θ在刻意優(yōu)化一個代價函數(shù)得到一條當(dāng)前最有可能出現(xiàn)的最優(yōu)軌跡 ξ?i(此時專家不是在概率分布模型中隨機采樣),假設(shè)此條軌跡的概率近似為1.通過計算當(dāng)前這條最有可能出現(xiàn)的軌跡的特征值來近似代替期望特征值,即用一次軌跡樣條進(jìn)行近似代替,而不是計算采樣出的有限條軌跡的特征值.利用一次軌跡樣條方法進(jìn)行近似代替可以表示為

因此,用一次軌跡樣條方法進(jìn)行近似代替后的專家軌跡似然函數(shù)關(guān)于優(yōu)化權(quán)重參數(shù)的梯度表達(dá)式就變成了

f′即為最有可能出現(xiàn)的軌跡的特征值.當(dāng)然,如前所述,本文假設(shè)智能體模仿專家選擇的軌跡實際上是通過最小化當(dāng)前的代價函數(shù)而產(chǎn)生的,而不是假設(shè)專家選擇的軌跡是從概率分布中抽樣的.所以,基于一次軌跡樣條近似代替的優(yōu)化權(quán)重參數(shù)梯度下降迭代公式為

式 中:θk+1為 迭代更新 后 的優(yōu)化權(quán)重 參 數(shù)值;θk為專家當(dāng)前的優(yōu)化權(quán)重參數(shù)值;α為學(xué)習(xí)參數(shù)值:梯度下降速度.

每次梯度下降迭代后,都會得到一個新的優(yōu)化權(quán)重參數(shù)向量,之后即可得到新的優(yōu)化代價函數(shù),得到的由優(yōu)化權(quán)重參數(shù)構(gòu)成的優(yōu)化代價函數(shù)能夠讓工程師直觀地、量化地理解當(dāng)前的內(nèi)在優(yōu)化機制和原則,即在換道場景中專家軌跡究竟更在意哪些優(yōu)化目標(biāo),在意到什么程度.逆強化學(xué)習(xí)方法的內(nèi)層一定要有一個優(yōu)化的過程,所以得到新的優(yōu)化權(quán)重參數(shù)和優(yōu)化代價函數(shù)之后,需要求解這個很簡單的最優(yōu)問題.通過求解此優(yōu)化代價函數(shù),得到幾個優(yōu)化的學(xué)習(xí)軌跡離散點坐標(biāo)(本文為6 個),也可以說是,通過優(yōu)化幾個軌跡離散點的坐標(biāo)使優(yōu)化代價函數(shù)極小化.

2.3 三次樣條插值方法和特征的提取

求解由當(dāng)前優(yōu)化權(quán)重參數(shù)構(gòu)成的優(yōu)化代價函數(shù),得到時間間隔T/5的6 個最優(yōu)離散點坐標(biāo),假定被學(xué)習(xí)的專家軌跡總的時間間隔為T.為了提取學(xué)習(xí)軌跡的相關(guān)特征,在本文中,對6 個優(yōu)化后的等時間間距離散坐標(biāo)點采用3 次樣條插值方法進(jìn)行插值獲得軌跡的3 次樣條函數(shù).本文用3 次樣條函數(shù)來表示隨時間t變化的換道軌跡橫向位置y和縱向位置x.

采用3 次樣條插值法得到軌跡的3 次樣條函數(shù)之后,即可提取當(dāng)前軌跡的相關(guān)特征,當(dāng)前的這條軌跡為智能體用迭代更新得到的當(dāng)前優(yōu)化權(quán)重參數(shù) θ,極小化相應(yīng)的優(yōu)化代價函數(shù)得到的軌跡.本文提取一些典型的軌跡特征,這些特征能夠反映換道軌跡的相關(guān)重要特性,包括汽車期望橫向位置特征(式(24))ftar(ξ)、汽車 期 望 縱向巡航速度 特 征(式(25))fvx(ξ)、以及汽車橫向速度(式(26))、縱向加速度(式(27))和橫向加速度(式(28))等高階動力學(xué)特征fvy(ξ)、fax(ξ)、fay(ξ).

式中:ytarget為目標(biāo)車道中心線的橫向位置;vxdes為換道結(jié)束后跟隨快車道上的前車的期望巡航縱向速度.最后的軌跡特征fξi可以通過組合以上這些子特征得到.本文從當(dāng)前軌跡中提取這5 個特征,與從專家軌跡中提取的這5 個特征做匹配、做比較,分別判斷當(dāng)前軌跡的5個特征是否和專家軌跡的5個特征近似相同,ε為特征差閾值常數(shù).如果兩者不匹配、不相同,則根據(jù)公式(23)迭代更新求出橫向或縱向的每個特征對應(yīng)的新的優(yōu)化權(quán)重參數(shù) θ1,θ2,θ3和θ4,θ5,構(gòu)成新的優(yōu)化代價函數(shù),如式(29)所示,優(yōu)化求解出新的軌跡,提取新的軌跡特征,重復(fù)以上過程,直至智能體當(dāng)前軌跡的特征與專家軌跡的特征相匹配,即近似相同,最終迭代求出的此時的優(yōu)化權(quán)重參數(shù) θ*為可以復(fù)現(xiàn)專家軌跡的最優(yōu)優(yōu)化權(quán)重參數(shù).

在逆強化學(xué)習(xí)方法中,采用基于一次軌跡樣條近似代替的梯度下降迭代法求解最優(yōu)優(yōu)化權(quán)重參數(shù)θ?的算法過程可用以下偽代碼表示.軌跡的3 個橫向相關(guān)特征和兩個縱向相關(guān)特征對應(yīng)的優(yōu)化權(quán)重參數(shù)分別按照以下過程進(jìn)行求解.

算法1 逆強化學(xué)習(xí)方法(基于一次軌跡樣條代替近似的梯度下降迭代法)

其中,?為軌跡支撐點的集合,grad為特征差梯度.基于一次軌跡樣條近似代替的梯度下降迭代方法按照“優(yōu)化一次、插值一次、匹配一次、迭代一次”4 步的總體思路實現(xiàn)逆強化學(xué)習(xí)方法的過程,直至求出最終的優(yōu)化權(quán)重參數(shù)與相應(yīng)的軌跡,此方法可操作性強,選用此方法復(fù)現(xiàn)專家軌跡.

3 專家軌跡逆強化學(xué)習(xí)仿真結(jié)果

MPC 優(yōu)化軌跡規(guī)劃方法的優(yōu)化機制符合人類駕駛經(jīng)驗和習(xí)慣[21?22].本文將利用模仿優(yōu)秀駕駛員的MPC 優(yōu)化軌跡規(guī)劃方法求出的一般風(fēng)險場景和高風(fēng)險場景的自車最優(yōu)換道軌跡作為一般風(fēng)險場景和高風(fēng)險場景兩個場景的專家示范軌跡.一般風(fēng)險場景和高風(fēng)險場景的自車最優(yōu)換道軌跡,即文獻(xiàn)[15]在一般風(fēng)險場景和高風(fēng)險場景中采用非線性MPC 優(yōu)化軌跡規(guī)劃方法求解出的最優(yōu)軌跡.模仿優(yōu)秀駕駛員的基于非線性MPC 的優(yōu)化軌跡規(guī)劃方法的軟約束為優(yōu)化目標(biāo)勢場函數(shù),考慮了自車換道位置準(zhǔn)確性、安全性、動力性、舒適性等優(yōu)化目標(biāo),硬約束包含等式約束—二自由度汽車運動學(xué)方程和防碰撞安全域不等式約束.在汽車運動學(xué)方程模型中,汽車的軸距為1.8 m.

一般風(fēng)險場景中,周車1 和2 的車速都為15 m/s,自車和周車4 的車速都為16 m/s,周車3 的車速為20 m/s.以自車的起始位置為縱向坐標(biāo)原點,自車縱向坐標(biāo)為0 m.周車1 和周車3 的起始位置坐標(biāo)為100 m,周車2 和周車4 的起始位置坐標(biāo)為?80 m.在高風(fēng)險場景中,周車1 和2 的車速都為15 m/s,周車3 和周車4 的車速分別為20 m/s 和17 m/s,自車的車速為16 m/s.以自車的起始位置為縱向坐標(biāo)原點.周車1 和周車3 的起始位置坐標(biāo)為100 m,周車2 和周車4 的起始位置坐標(biāo)分別為?80 m 和?58 m.一般風(fēng)險場景和高風(fēng)險場景的區(qū)別在于自車相鄰車道上的尾車4 的速度和起始位置不同.尾車4 的車速越高,與自車的縱向距離越近,自車的換道風(fēng)險越高;反之,尾車4 的車速越低,與自車的縱向距離越遠(yuǎn),自車的換道風(fēng)險越低.

通過基于MATLAB 的仿真,驗證所提出的逆強化學(xué)習(xí)方法學(xué)習(xí)兩個場景中專家軌跡的能力.

3.1 一般風(fēng)險場景專家軌跡的逆強化學(xué)習(xí)結(jié)果

為學(xué)習(xí)此一般風(fēng)險場景的專家軌跡,選取初始優(yōu)化權(quán)重參數(shù) θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個特征的初始值依次為:0.01、1、10、20、1.圖2 為自車期望橫向位置、橫向速度、橫向加速度的逆強化學(xué)習(xí)結(jié)果.圖3(a) 為逆強化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差范數(shù)的迭代演化,如式(30)所示.

圖2 一般風(fēng)險場景期望橫向位置、速度、加速度的逆強化學(xué)習(xí)結(jié)果Fig.2 IRL results of lateral position, speed, and acceleration in the general-risk scenario

從圖3 可以看出,在一般風(fēng)險場景中,初始優(yōu)化權(quán)重參數(shù)經(jīng)優(yōu)化插值生成的橫向?qū)W習(xí)軌跡(自車的橫向位置坐標(biāo)、橫向速度和橫向加速度3 組曲線)與橫向?qū)<臆壽E差別較大,初始軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差的范數(shù)比較大(不到500),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差稍大于20,橫向速度特征值之差也存在.智能體按照基于一次軌跡樣條代替近似的梯度下降迭代方法進(jìn)行逆強化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡也和專家軌跡越來越相似,智能體學(xué)習(xí)得到的軌跡橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值的差值也逐漸減小,迭代至20 次時,特征差基本收斂至0.優(yōu)化參數(shù)迭代更新至60 次時,經(jīng)優(yōu)化插值生成的軌跡為橫向最終學(xué)習(xí)軌跡,即3 組橫向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與橫向?qū)<臆壽E很相近,特別是橫向位置與橫向速度.迭代最終的橫向位置、橫向速度和橫向加速度優(yōu)化權(quán)重參數(shù)為0.880 3、0.089 7、0.360 4,量化地表達(dá)了與橫向最終學(xué)習(xí)軌跡相近的橫向?qū)<臆壽E的內(nèi)在優(yōu)化機制,即專家在換道過程中對不同橫向目標(biāo)的不同重視程度.

圖4 為自車期望縱向巡航速度、縱向加速度的逆強化學(xué)習(xí)結(jié)果.圖5(a)為逆強化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差范數(shù)的迭代演化,如式(30)所示.

圖4 一般風(fēng)險場景下期望縱向速度、加速度的逆強化學(xué)習(xí)結(jié)果Fig.4 IRL results of longitudinal speed and acceleration in the general-risk scenario

圖5 一般風(fēng)險場景期望縱向軌跡關(guān)鍵參數(shù)結(jié)果Fig.5 IRL results of key parameters of longitudinal trajectories in the general-risk scenario

圖5(b)為逆強化學(xué)習(xí)過程中自車期望縱向巡航速度和縱向加速度兩個特征梯度的迭代演化.圖5(c)為逆強化學(xué)習(xí)過程中,自車期望縱向巡航速度和縱向加速度兩個特征相對應(yīng)的優(yōu)化權(quán)重參數(shù) θ4和 θ5的迭代演化.

從圖5 可以看出,在一般風(fēng)險場景中,初始優(yōu)化參數(shù)經(jīng)優(yōu)化插值生成的縱向?qū)W習(xí)軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向?qū)<臆壽E存在一定的差距,初始軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差的范數(shù)很大(接近800),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差不到30,縱向加速度特征值之差稍大于5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡和專家軌跡越來越相似,智能體學(xué)習(xí)得到的軌跡縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值的差值也逐漸減小,迭代至60 次時,特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時,經(jīng)優(yōu)化插值生成的軌跡為縱向最終學(xué)習(xí)軌跡,即兩組縱向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與縱向?qū)<臆壽E很相近,特別是縱向巡航速度.迭代最終的縱向巡航速度和縱向加速度優(yōu)化權(quán)重參數(shù)為4.673 3×10?7和5.226×10?7,量化地表達(dá)了與縱向最終學(xué)習(xí)軌跡相近的縱向?qū)<臆壽E的內(nèi)在優(yōu)化機制,也就是專家在換道過程中對兩個縱向相關(guān)目標(biāo)的各自的重視程度.

3.2 高風(fēng)險場景專家軌跡的逆強化學(xué)習(xí)結(jié)果

為學(xué)習(xí)此高風(fēng)險場景的專家軌跡,選取初始優(yōu)化權(quán)重參數(shù) θ0,期望橫向位置、橫向速度、橫向加速度、期望縱向巡航速度、縱向加速度這5 個特征的初始權(quán)重參數(shù)依次為:0.01、1、10、0.01、1.圖6 為高風(fēng)險場景中自車期望橫向位置、橫向速度、橫向加速度的逆強化學(xué)習(xí)結(jié)果.圖7(a)為逆強化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差范數(shù)的迭代演化.圖7(b)為高風(fēng)險場景中自車期望橫向位置、橫向速度、橫向加速度3 個特征梯度的迭代演化.圖7(c)為在此高風(fēng)險場景的逆強化學(xué)習(xí)過程中,自車期望橫向位置、橫向速度、橫向加速度3 個特征相對應(yīng)的優(yōu)化權(quán)重參數(shù) θ1、θ2、θ3的迭代演化.

圖6 高風(fēng)險場景期望橫向位置、速度、加速度的逆強化學(xué)習(xí)結(jié)果Fig.6 IRL results of lateral position, speed, and acceleration in the high-risk scenario

圖7 高風(fēng)險場景期望橫向軌跡關(guān)鍵參數(shù)結(jié)果Fig.7 IRL results of key parameters of lateral trajectories in the high-risk scenario

從圖7 可以看出,在高風(fēng)險場景中,初始優(yōu)化權(quán)重參數(shù)生成的橫向?qū)W習(xí)軌跡(自車的橫向位置坐標(biāo)、橫向速度和橫向加速度3 組曲線)與橫向?qū)<臆壽E相差甚遠(yuǎn),初始軌跡的橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值之差的范數(shù)也很大(900 左右),初始軌跡橫向位置特征值與專家軌跡橫向位置特征值之差不到30,橫向速度特征值之差在?5 左右,橫向加速度特征值之差稍小于?10.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體學(xué)習(xí)得到的軌跡和專家軌跡越來越接近,智能體學(xué)習(xí)得到的軌跡橫向相關(guān)特征值與專家軌跡橫向相關(guān)特征值的差值也逐漸減小,迭代至50 次時,特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時,經(jīng)優(yōu)化插值生成的軌跡為橫向最終學(xué)習(xí)軌跡,即3 組橫向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與橫向?qū)<臆壽E很相近,特別是橫向位置與橫向速度,盡管橫向速度與橫向加速度最終學(xué)習(xí)軌跡后期有微小波動.迭代最終的橫向位置、橫向速度和橫向加速度優(yōu)化權(quán)重參數(shù)為5.967 6,0.081 0,0.503 9.可見,與一般風(fēng)險場景相比,專家軌跡的橫向位置優(yōu)化權(quán)重系數(shù)明顯升高,所以在高風(fēng)險場景換道專家軌跡的內(nèi)在優(yōu)化機制中,大大加強了對期望橫向位置這個橫向目標(biāo)的重視程度,明顯超過了對控制橫向速度和橫向加速度不要過大的重視程度.此換道場景中,專家最在意讓自車盡早到達(dá)期望橫向位置,完成自主換道.

圖8 為高風(fēng)險場景中,自車期望縱向巡航速度、縱向加速度的逆強化學(xué)習(xí)結(jié)果.圖8(a)為逆強化學(xué)習(xí)過程中智能體學(xué)習(xí)得到的每條軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差范數(shù)的迭代演化.圖8(b)為高風(fēng)險場景中自車期望縱向巡航速度和縱向加速度兩個特征梯度的迭代演化.圖8(c)為在高風(fēng)險場景的逆強化學(xué)習(xí)過程中,自車期望縱向巡航速度和縱向加速度兩個特征相對應(yīng)的優(yōu)化權(quán)重參數(shù) θ4和 θ5的迭代演化.

圖8 高風(fēng)險場景下期望縱向速度、加速度的逆強化學(xué)習(xí)結(jié)果Fig.8 IRL results of longitudinal speed and acceleration in the high-risk scenario

從圖8 可以看出,在高風(fēng)險場景中,初始優(yōu)化權(quán)重參數(shù)生成的縱向?qū)W習(xí)軌跡(自車的縱向巡航速度和縱向加速度兩組曲線)與縱向?qū)<臆壽E存在一些差距,初始軌跡的縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值之差的范數(shù)比較大(接近300),初始軌跡縱向巡航速度特征值與專家軌跡縱向巡航速度特征值之差大于15,縱向加速度特征值之差稍大于?5.智能體按照基于一次軌跡樣條近似代替的梯度下降迭代方法進(jìn)行逆強化學(xué)習(xí),不斷迭代更新優(yōu)化權(quán)重參數(shù),共迭代了60 次,智能體每次學(xué)習(xí)得到的軌跡和專家軌跡的相似程度越來越高,智能體學(xué)習(xí)得到的軌跡縱向相關(guān)特征值與專家軌跡縱向相關(guān)特征值的差值也逐漸減小,迭代至30 次時,特征差基本收斂至0.優(yōu)化權(quán)重參數(shù)迭代更新至60 次時,經(jīng)優(yōu)化插值生成的軌跡為縱向最終學(xué)習(xí)軌跡,即兩組縱向?qū)W習(xí)軌跡曲線中的最終一條曲線,它與縱向?qū)<臆壽E很相近,特別是縱向巡航速度.雖然縱向加速度最終學(xué)習(xí)曲線和縱向加速度專家軌跡曲線不完全吻合,但兩者變化趨勢一致.迭代最終的縱向巡航速度和縱向加速度優(yōu)化權(quán)重參數(shù)為0.422 和0.002.可見,與一般風(fēng)險場景相比,專家軌跡的縱向巡航速度優(yōu)化權(quán)重系數(shù)有所升高,所以在高風(fēng)險場景換道專家軌跡的內(nèi)在優(yōu)化機制中,加強了對期望縱向巡航速度這個縱向目標(biāo)的重視程度,并且其超過了對舒適性(控制縱向加速度不要過大)的重視程度.此換道場景中,專家意圖讓自車的縱向巡航速度快速升高.

仿真結(jié)果可知,與一般風(fēng)險場景通過逆強化學(xué)習(xí)方法得到的專家軌跡優(yōu)化代價函數(shù)相比,在高風(fēng)險場景的優(yōu)化代價函數(shù)中,期望橫向位置和期望縱向巡航速度目標(biāo)的優(yōu)化權(quán)重系數(shù)更大,二者中,期望橫向位置的權(quán)重系數(shù)明顯升高.高風(fēng)險場景中,學(xué)習(xí)專家軌跡的智能體更加重視和在意期望橫向位置和期望縱向巡航速度這兩個優(yōu)化目標(biāo),相對來講,此時的智能體不非常重視舒適性和經(jīng)濟性,即不再著重較多地限制高階動力學(xué)特性響應(yīng)過大,而是希望自車快速到達(dá)期望橫向位置,且快速升高車速以跟隨車速較高的前車巡航行駛.這充分證明了所提出的逆強化學(xué)習(xí)方法成功地學(xué)習(xí)了優(yōu)秀駕駛員(仿優(yōu)秀駕駛員的MPC 方法)換道過程的優(yōu)化機制,這一優(yōu)化機制可以量化且直觀得被工程師所理解,具有可解釋、可轉(zhuǎn)移和可泛化到其他智能體的特點.

從兩個場景的專家軌跡逆強化學(xué)習(xí)示例中可以得出結(jié)論,此逆強化學(xué)習(xí)方法有能力通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機制(專家軌跡優(yōu)化代價函數(shù)的權(quán)重系數(shù))從而成功復(fù)現(xiàn)換道的橫縱向?qū)<臆壽E,即通過逆強化學(xué)習(xí)方法學(xué)習(xí)優(yōu)秀駕駛員換道的優(yōu)化機制,復(fù)現(xiàn)專家軌跡是完全可行的.此可行性結(jié)論為未來利用逆強化學(xué)習(xí)方法大量離線學(xué)習(xí)優(yōu)秀駕駛員在不同風(fēng)險場景的專家軌跡的優(yōu)化機制,構(gòu)建與場景風(fēng)險等級成映射關(guān)系的專家軌跡優(yōu)化代價函數(shù)庫奠定了理論和方法基礎(chǔ).以逆強化學(xué)習(xí)方法學(xué)習(xí)得出的優(yōu)化代價函數(shù)作為目標(biāo)函數(shù),通過求解基于此目標(biāo)函數(shù)的優(yōu)化問題,可以實現(xiàn)自動駕駛汽車的軌跡規(guī)劃功能.

4 結(jié)論與展望

本文提出了基于最大熵原則的逆強化學(xué)習(xí)方法,通過學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機制來復(fù)現(xiàn)換道的專家軌跡.首先,根據(jù)最大熵原則推導(dǎo)出專家軌跡的指數(shù)型概率分布模型,再由極大似然估計方法得到專家軌跡特征的優(yōu)化權(quán)重參數(shù)的計算方法.然后通過基于一次軌跡樣條近似代替的梯度下降方法,迭代求出優(yōu)化權(quán)重參數(shù),最后實現(xiàn)智能體軌跡的特征與專家軌跡的特征相匹配.利用MPC 方法求出的自車換道軌跡作為一般風(fēng)險場景和高風(fēng)險場景的專家軌跡,從兩個典型場景的逆強化學(xué)習(xí)結(jié)果得出,逆強化學(xué)習(xí)方法學(xué)習(xí)專家軌跡的內(nèi)在優(yōu)化機制進(jìn)而實現(xiàn)換道軌跡規(guī)劃是完全可行的.該方法學(xué)習(xí)到的優(yōu)化機制具有魯棒、可量化、可轉(zhuǎn)移泛化、直觀、強解釋性的優(yōu)點.

本文驗證了逆強化學(xué)習(xí)方法通過學(xué)習(xí)專家軌跡的優(yōu)化機制復(fù)現(xiàn)專家軌跡的可行性,為通過大量離線學(xué)習(xí)建立專家軌跡優(yōu)化代價函數(shù)庫提供必要的理論基礎(chǔ).本文研究旨在通過學(xué)習(xí)駕駛專家軌跡的內(nèi)在優(yōu)化機制,實現(xiàn)符合人類駕駛習(xí)慣的優(yōu)化換道軌跡規(guī)劃.此外,不同駕駛者或乘員都有各自的駕駛風(fēng)格和乘坐偏好,因此將個性化學(xué)習(xí)納入智能駕駛決策規(guī)劃過程是另一項亟需解決的課題.本文研究工作在一般風(fēng)險場景和高風(fēng)險場景的學(xué)習(xí)結(jié)果表明本方法具有適應(yīng)個性化駕駛學(xué)習(xí)的潛力,因此未來工作將聚焦于駕駛風(fēng)格個性化的智能駕駛軌跡規(guī)劃學(xué)習(xí)方法研究.

猜你喜歡
特征值軌跡加速度
“鱉”不住了!從26元/斤飆至38元/斤,2022年甲魚能否再跑出“加速度”?
一類帶強制位勢的p-Laplace特征值問題
單圈圖關(guān)聯(lián)矩陣的特征值
軌跡
軌跡
天際加速度
汽車觀察(2018年12期)2018-12-26 01:05:42
創(chuàng)新,動能轉(zhuǎn)換的“加速度”
金橋(2018年4期)2018-09-26 02:24:46
死亡加速度
勞動保護(2018年8期)2018-09-12 01:16:14
軌跡
進(jìn)化的軌跡(一)——進(jìn)化,無盡的適應(yīng)
中國三峽(2017年2期)2017-06-09 08:15:29
万安县| 龙岩市| 吴川市| 瓮安县| 梅州市| 兴和县| 泽库县| 鹤壁市| 民勤县| 永丰县| 靖边县| 澳门| 定边县| 札达县| 河北区| 丹阳市| 海安县| 洪雅县| 丰顺县| 阳山县| 都昌县| 灌云县| 泽库县| 横峰县| 伽师县| 恩施市| 泰宁县| 乌拉特前旗| 苏尼特右旗| 黄龙县| 缙云县| 伊宁县| 淮南市| 安陆市| 长白| 乐平市| 澄迈县| 拉萨市| 砚山县| 微山县| 鄂伦春自治旗|