基于深度學(xué)習(xí)的端到端車輛運(yùn)動(dòng)規(guī)劃方法研究*

2023-08-25 01:01劉衛(wèi)國(guó)項(xiàng)志宇李國(guó)棟王子旭

汽車工程 2023年8期

劉衛(wèi)國(guó)，項(xiàng)志宇，劉銳，李國(guó)棟，王子旭

（1.浙江大學(xué)信息與電子工程學(xué)院，杭州 310058；2.國(guó)家智能網(wǎng)聯(lián)汽車創(chuàng)新中心，北京 100160；3.重慶理工大學(xué)車輛工程學(xué)院，重慶 400054）

前言

自動(dòng)駕駛技術(shù)是近年來的研究熱點(diǎn)，能夠有效地提高行駛安全性、緩解交通擁堵、降低能耗。目前最常用的方法是將自動(dòng)駕駛問題劃分為傳感器感知融合、車道檢測(cè)、路徑規(guī)劃和控制執(zhí)行等不同的子模塊，這種模塊化的方法雖然可以使車輛實(shí)現(xiàn)簡(jiǎn)單的自動(dòng)駕駛，但可能導(dǎo)致整個(gè)系統(tǒng)的復(fù)雜性增加。另一種方法是基于深度神經(jīng)網(wǎng)絡(luò)的端到端自動(dòng)駕駛框架，這種方法將所有傳感器原始數(shù)據(jù)作為輸入，網(wǎng)絡(luò)模型直接為車輛生成最終控制指令。該方法在降低復(fù)雜性的同時(shí)減少了不同領(lǐng)域所需的知識(shí)門檻。

近年來，深度學(xué)習(xí)已被廣泛應(yīng)用于自動(dòng)駕駛領(lǐng)域。Pomerleau 提出了Alvinn［1］，其在車道跟隨方面已得出不錯(cuò)的實(shí)驗(yàn)結(jié)果，可以僅使用單幀圖像作為輸入來預(yù)測(cè)轉(zhuǎn)向角度。相比于車道跟隨，城市駕駛?cè)蝿?wù)引入了很多新問題，城市道路上的交通環(huán)境復(fù)雜，需要考慮自車與目標(biāo)車、行人的交互，而單幀圖像無(wú)法為模型提供足夠的信息來預(yù)測(cè)下一步?jīng)Q策，從而產(chǎn)生了對(duì)時(shí)間信息的需求。此外，單幀圖像信息也無(wú)法充分表征復(fù)雜的交通流信息以及歷史連續(xù)駕駛行為對(duì)當(dāng)前時(shí)刻的影響。

為了解決城市駕駛?cè)蝿?wù)中交通環(huán)境復(fù)雜的問題，Codevilla 等［2］提出了條件模仿學(xué)習(xí)，該方法通過專家意圖來指導(dǎo)模型的學(xué)習(xí)，但該算法只能處理極少部分城市工況。同時(shí)，每個(gè)網(wǎng)絡(luò)分支僅根據(jù)專家意圖在城市駕駛場(chǎng)景的一個(gè)子集上進(jìn)行訓(xùn)練，難以覆蓋所有城市道路工況。首先，由于決策動(dòng)作在后續(xù)視頻幀中并不連續(xù)［3］，這使得車輛在行駛過程中出現(xiàn)小幅振蕩；其次，該方法需要大量的訓(xùn)練數(shù)據(jù)，且整個(gè)訓(xùn)練時(shí)間過長(zhǎng)。

為了改善上述問題，本文提出了一種替代架構(gòu)。該架構(gòu)首先從安裝在自車前部的攝像頭獲取原始RGB 圖像序列，并進(jìn)行數(shù)據(jù)預(yù)處理工作以增加數(shù)據(jù)的多樣性。然后將預(yù)處理后的數(shù)據(jù)輸入預(yù)訓(xùn)練網(wǎng)絡(luò)進(jìn)行訓(xùn)練，使用卷積模塊提取必要的特征以學(xué)習(xí)適當(dāng)?shù)目刂茀?shù)。在卷積層之后，使用LSTM 網(wǎng)絡(luò)整合系統(tǒng)的時(shí)空上下文信息，LSTM 網(wǎng)絡(luò)旨在記住自車、交通參與者和道路的歷史狀態(tài)。最后，時(shí)空注意力模塊可以通過在LSTM 網(wǎng)絡(luò)層引入注意力機(jī)制來實(shí)現(xiàn)，根據(jù)當(dāng)前輸入的圖像和歷史狀態(tài)，計(jì)算出一個(gè)權(quán)重向量，該向量可以被用于對(duì)歷史狀態(tài)進(jìn)行加權(quán)求和，從而得到一個(gè)更加關(guān)注重要?dú)v史狀態(tài)的表示。而后，將學(xué)習(xí)到的特征與必要的車輛狀態(tài)信息聯(lián)接起來，將聯(lián)接后的向量輸入全連接層，最終學(xué)習(xí)并預(yù)測(cè)連續(xù)的轉(zhuǎn)向角、制動(dòng)和油門。

本文提出了一種基于深度學(xué)習(xí)端到端的車輛運(yùn)動(dòng)規(guī)劃仿真方法，該方法遵循端到端的框架，直接從原始圖像序列中學(xué)習(xí)車輛控制策略。具體貢獻(xiàn)如下：

（1）提出了一種基于端到端規(guī)控框架的多級(jí)時(shí)空注意力長(zhǎng)短期記憶網(wǎng)絡(luò)，該網(wǎng)絡(luò)通過注意力機(jī)制整合歷史時(shí)序中幀間的時(shí)空關(guān)聯(lián)信息，從而實(shí)現(xiàn)車輛運(yùn)動(dòng)規(guī)劃的端到端學(xué)習(xí)。

（2）提出了一種基于過濾和擴(kuò)充的數(shù)據(jù)平衡方法，在有效增加了有限數(shù)據(jù)集的多樣性的同時(shí)，平衡了不同場(chǎng)景的數(shù)據(jù)分布。

1 方法論

1.1 問題定義

為探索不同架構(gòu)的性能以及架構(gòu)在不同組件下的表現(xiàn)，從而研究端到端模型的自動(dòng)駕駛能力，本節(jié)提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的端到端模型，通過訓(xùn)練此模型以模仿專家駕駛行為。

本文構(gòu)建了模仿學(xué)習(xí)機(jī)制，其中模型將前向視景Oi、用戶意圖hi和外部狀態(tài)信息為模型輸入。其中，用戶導(dǎo)航意圖hi的one-hot 編碼向量，稱為導(dǎo)航輸入；外部環(huán)境的附加狀態(tài)信息，例如當(dāng)前車輛限速、車速和當(dāng)前的紅綠燈狀態(tài)，由外部狀態(tài)信息si引入。改進(jìn)后的模仿學(xué)習(xí)技術(shù)如式（1）所示，其中模型F通過擬合可學(xué)習(xí)參數(shù)θ來學(xué)習(xí)輸入（即oi、hi、si）和執(zhí)行動(dòng)作ai之間的映射，以使損失L最小化。

1.2 系統(tǒng)描述

圖1 展示了訓(xùn)練階段的流程框架。下部黑色虛線框代表不同歷史時(shí)刻的前視攝像頭輸入序列所構(gòu)成的滑動(dòng)窗，中部為網(wǎng)絡(luò)模型示意圖和網(wǎng)絡(luò)訓(xùn)練模式流程圖，包括油門制動(dòng)預(yù)測(cè)和轉(zhuǎn)向預(yù)測(cè)，上部紅色虛線框?yàn)榕c訓(xùn)練時(shí)間同步的真值序列主要包括轉(zhuǎn)向角、制動(dòng)、油門。

圖1 訓(xùn)練階段的系統(tǒng)框架

在轉(zhuǎn)向預(yù)測(cè)模塊中，網(wǎng)絡(luò)輸出通過分類層，產(chǎn)生正弦轉(zhuǎn)向預(yù)測(cè)。在訓(xùn)練階段，分類層的輸出與正弦編碼的地面實(shí)況轉(zhuǎn)向角之間的損失使用RMSE 損失函數(shù)計(jì)算，如式（2）所示，其中，yi表示預(yù)測(cè)值表示真實(shí)值。訓(xùn)練后，當(dāng)系統(tǒng)處于測(cè)試部署階段時(shí)，轉(zhuǎn)向預(yù)測(cè)通過解碼器生成轉(zhuǎn)向角。

在油門制動(dòng)預(yù)測(cè)中，網(wǎng)絡(luò)輸出通過全連接層來預(yù)測(cè)油門和制動(dòng)值。在訓(xùn)練期間，使用MSE 均方誤差損失函數(shù)計(jì)算預(yù)測(cè)值和真值之間的損失，如式（3）所示。在部署測(cè)試階段，預(yù)測(cè)模塊的輸出會(huì)產(chǎn)生最終的油門和制動(dòng)預(yù)測(cè)。

1.3 網(wǎng)絡(luò)架構(gòu)

針對(duì)圖1中的網(wǎng)絡(luò)模型部分，本文設(shè)計(jì)了4種不同架構(gòu)，分別是：?jiǎn)我粫r(shí)空卷積網(wǎng)絡(luò)（single CNN，SiNN）、融合時(shí)空卷積網(wǎng)絡(luò)（fusion CNN，F(xiàn)uNN）、長(zhǎng)短期記憶卷積網(wǎng)絡(luò)（LSTM CNN，LsNN）以及多級(jí)時(shí)空注意力卷積網(wǎng)絡(luò)（attention LSTM CNN，AtLN），以對(duì)比論證自車與環(huán)境、交通參與者的歷史交互過程對(duì)當(dāng)前時(shí)刻決策的影響。

1.3.1 單一時(shí)空卷積網(wǎng)絡(luò)

單一時(shí)空卷積網(wǎng)絡(luò)模型，僅根據(jù)當(dāng)前時(shí)刻的自車與環(huán)境的交互信息進(jìn)行決策規(guī)劃，即僅將當(dāng)前時(shí)刻的單幀圖像作為輸入，并通過CNN 進(jìn)行前饋，網(wǎng)絡(luò)模型的完整體系結(jié)構(gòu)如圖2所示。

圖2 單一時(shí)空卷積網(wǎng)絡(luò)模型

1.3.2 融合時(shí)空卷積網(wǎng)絡(luò)

融合時(shí)空卷積網(wǎng)絡(luò)根據(jù)自車與環(huán)境、交通參與者的歷史交互過程對(duì)當(dāng)前過程進(jìn)行決策輸出，以等權(quán)重融合多個(gè)時(shí)間步長(zhǎng)的信息。如圖3 所示，該網(wǎng)絡(luò)在多個(gè)平行的CNN 級(jí)別中應(yīng)用不同的時(shí)空輸入信息，以有效提取每個(gè)時(shí)刻空間下不同外部狀態(tài)的不同特征。其中包含n個(gè)級(jí)別的CNN，n的大小與滑動(dòng)窗體內(nèi)的序列長(zhǎng)度一致，每個(gè)CNN 具有相同的結(jié)構(gòu)和不同時(shí)刻的輸入。此處使用concatente 進(jìn)行特征融合，但是也表現(xiàn)出訓(xùn)練收斂速度慢且參數(shù)量較大的缺點(diǎn)。

圖3 融合時(shí)空卷積網(wǎng)絡(luò)模型

1.3.3 長(zhǎng)短期記憶卷積網(wǎng)絡(luò)

長(zhǎng)短期記憶卷積網(wǎng)絡(luò)模型如圖4 所示，根據(jù)自車與環(huán)境、交通參與者的歷史交互過程對(duì)當(dāng)前過程進(jìn)行決策輸出，采用直接遞歸混合預(yù)測(cè)輸出。該網(wǎng)絡(luò)使用與FuNN 相同的特征提取結(jié)構(gòu)，但其特征是按時(shí)間分布的，本模型與FuNN 的不同之處在于卷積層和分類器之間添加了一個(gè)具有10 個(gè)隱藏狀態(tài)的LSTM 模塊。卷積層的一系列輸出被送入LSTM模塊，每個(gè)時(shí)間步長(zhǎng)產(chǎn)生的隱藏狀態(tài)被連接到序列的下一個(gè)輸入。在時(shí)間步t，輸出被引導(dǎo)到分類器中輸出轉(zhuǎn)向、油門和制動(dòng)。

圖4 長(zhǎng)短期記憶卷積網(wǎng)絡(luò)模型

1.3.4 多級(jí)時(shí)空注意力長(zhǎng)短期記憶網(wǎng)絡(luò)

多級(jí)時(shí)空注意力長(zhǎng)短期記憶網(wǎng)絡(luò)，根據(jù)自車與環(huán)境、交通參與者的歷史交互過程對(duì)當(dāng)前過程進(jìn)行決策輸出，為不同歷史時(shí)刻的輸入空間特征賦予不同的重要性并按照時(shí)間序分布，即使用注意力機(jī)制學(xué)習(xí)歷史序列中不同時(shí)空的權(quán)重，在本文中，使用“軟”注意力［4］的建模方式。如圖5 所示，AtLN 包括CNN、LSTM和空間注意力模塊。

圖5 多級(jí)時(shí)空注意力長(zhǎng)短期記憶網(wǎng)絡(luò)模型

在時(shí)間步t，假設(shè)CNN層產(chǎn)生一組d個(gè)大小為n×m的特征圖，L=m×n，每個(gè)區(qū)域向量對(duì)應(yīng)于CNN 在不同圖像區(qū)域提取的特征。在軟注意力機(jī)制中，假設(shè)上下文向量zt由所有區(qū)域向量的加權(quán)和表示：

權(quán)重是根據(jù)區(qū)域向量的重要性來選擇的，它是由注意力網(wǎng)絡(luò)g學(xué)習(xí)得到的。注意力網(wǎng)絡(luò)g將LSTM 層產(chǎn)生的區(qū)域向量和隱藏狀態(tài)h(t-1)作為輸入，并輸出區(qū)域向量的對(duì)應(yīng)權(quán)重。該注意力網(wǎng)絡(luò)g是一個(gè)全連接層，其后跟著一個(gè)softmax函數(shù)：

式中上下文向量zt輸入到LSTM 層。LSTM 層的輸出與全連接層相連，用于生成最終油門、轉(zhuǎn)向盤轉(zhuǎn)角和制動(dòng)踏板值。

注意力網(wǎng)絡(luò)可以解釋為CNN 特征圖上的掩碼，它重新加權(quán)區(qū)域特征以獲得最有用的特征。因此，多級(jí)時(shí)空注意力長(zhǎng)短期記憶模型在做出駕駛決策時(shí)獲得了選擇和關(guān)注重要區(qū)域的能力。此外，也有助于減少網(wǎng)絡(luò)中的參數(shù)量，以實(shí)現(xiàn)更快的模型訓(xùn)練和收斂。

1.4 角度分類

轉(zhuǎn)向角預(yù)測(cè)通常根據(jù)傳感器輸入來預(yù)測(cè)連續(xù)的轉(zhuǎn)向角度；另一種方法則是將問題定義為分類任務(wù)，通過網(wǎng)絡(luò)預(yù)測(cè)屬于每個(gè)轉(zhuǎn)向角區(qū)間的概率。

本文按照與Eraqi等［5］相同的設(shè)置，將包含10個(gè)神經(jīng)元的分類層引入轉(zhuǎn)向預(yù)測(cè)模塊的末端。此外，將tanh激活應(yīng)用于分類層，允許神經(jīng)元形成振幅為1 的正弦波。原始轉(zhuǎn)向角?對(duì)應(yīng)于正弦波的相移。在訓(xùn)練過程中，真值轉(zhuǎn)向角使用式（6）編碼為正弦值。Yi是輸出神經(jīng)元i的編碼目標(biāo)值，?是原始轉(zhuǎn)向角，?max是最大可能的原始轉(zhuǎn)向角。預(yù)測(cè)損失為預(yù)測(cè)波形和編碼的真值波形之間的RMSE值。在部署期間，分類層的輸出被解碼回轉(zhuǎn)向角。解碼通過將分類層的輸出擬合為正弦函數(shù)并返回其相移來完成：

2 實(shí)驗(yàn)設(shè)置

本研究使用的三階段實(shí)驗(yàn)流程如圖6所示。

圖6 本研究的三階段實(shí)驗(yàn)流程

2.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)軟硬件相關(guān)配置參數(shù)如表1所示。

表1 實(shí)驗(yàn)設(shè)置

2.2 數(shù)據(jù)獲取

僅在理想環(huán)境中使用專家數(shù)據(jù)訓(xùn)練的模型可能無(wú)法學(xué)習(xí)如何從干擾中恢復(fù)，為解決這個(gè)問題，本文采用了多種類型的駕駛行為數(shù)據(jù)，使用Carla 的Autopilot［6］控制模式獲取專家駕駛行為數(shù)據(jù)，從而在正確保持速度限制的同時(shí)實(shí)現(xiàn)車道中心駕駛。為獲取更多不穩(wěn)定的數(shù)據(jù)，在Autopilot 的輸出控制信號(hào)中添加了一個(gè)隨機(jī)生成的噪聲值。這有可能導(dǎo)致車輛軌跡和速度的突然變化，并由Autopilot進(jìn)行糾正。為消除訓(xùn)練集中誤操作行為的影響，只收集了Autopilot 對(duì)噪聲的響應(yīng)。最后，手動(dòng)將車輛置于危險(xiǎn)位置（例如駛向?qū)ο蜍嚨溃﹣慝@得從偶發(fā)事故狀態(tài)中糾偏的數(shù)據(jù)。

如圖7 所示，本文基于Carla 中仿真地圖Town01和 Town07 的多條驗(yàn)證路徑完成訓(xùn)練數(shù)據(jù)采集。一部分訓(xùn)練數(shù)據(jù)是在沒有任何其他車輛的情況下獲取的，另一部分?jǐn)?shù)據(jù)則是通過隨機(jī)生成一定數(shù)量（100～200）的其他車輛來獲取的。

圖7 Carla中仿真地圖Town01、Town07及其驗(yàn)證路徑

本研究在中午和傍晚分別針對(duì)7 種不同的天氣條件進(jìn)行了數(shù)據(jù)收集，包括晴天、陰天、小雨、中雨、大雨、雨后晴天以及多云潮濕，共計(jì)14 種不同的天氣/時(shí)間組合。圖8展示了在中午和傍晚時(shí)不同天氣條件下的部分示例。

圖8 不同天氣光照模擬結(jié)果

表2 中列出并描述了從Carla 中獲取的不同類型的數(shù)據(jù)。每個(gè)傳感器模型由仿真中單個(gè)渲染幀的數(shù)據(jù)組成，并以10 Hz的頻率抓取數(shù)據(jù)。本研究共收集了3.4 h的訓(xùn)練數(shù)據(jù)，其中Town 01占2.4 h，Town 07占1.0 h。

表2 從Carla獲取的不同類型數(shù)據(jù)

在數(shù)據(jù)預(yù)處理階段，首先將采集的圖像需要下采樣到180×300 像素。其次，對(duì)于可分類的數(shù)據(jù)，如行駛方向和速度限制及交通燈狀態(tài)，使用one-hot編碼進(jìn)行預(yù)處理。為了避免模型只學(xué)習(xí)方向和轉(zhuǎn)向之間的關(guān)系，對(duì)于交叉路口的方向命令，最多添加30 個(gè)時(shí)間步。此外，為了獲取更多樣本，將噪聲注入數(shù)據(jù)中以讓車輛自行糾偏。此外，還強(qiáng)制車輛在短時(shí)間內(nèi)向右或向左行駛，然后由Autopilot 進(jìn)行糾偏。

2.3 數(shù)據(jù)增強(qiáng)

在端到端學(xué)習(xí)框架中，數(shù)據(jù)集中目標(biāo)值分布的均衡性是一個(gè)非常重要的影響因素。如果在不平衡的數(shù)據(jù)集上訓(xùn)練模型，可能會(huì)因錯(cuò)誤的引導(dǎo)而偏好某些決策。為了解決這個(gè)問題，通常通過過濾或擴(kuò)充數(shù)據(jù)樣本以平衡數(shù)據(jù)集。然而，在遞歸網(wǎng)絡(luò)中，保持?jǐn)?shù)據(jù)集的時(shí)間信息非常重要。因此，本研究使用并對(duì)比了兩種數(shù)據(jù)增強(qiáng)方法。

第一種數(shù)據(jù)擴(kuò)充平衡方法通過復(fù)制和重組數(shù)據(jù)來保留盡可能多的時(shí)間信息。本研究將數(shù)據(jù)集中的每一輪分割成5 個(gè)片段池：直道、左轉(zhuǎn)、右轉(zhuǎn)、直線車道跟隨和車道跟隨彎道。然后，通過從其中一個(gè)片段池中隨機(jī)選擇一個(gè)片段來構(gòu)建平衡數(shù)據(jù)集。這些選擇是基于加權(quán)選擇和數(shù)據(jù)重組完成的［7］，并根據(jù)每個(gè)池的平均段長(zhǎng)度與最高平均段長(zhǎng)度的比較確定權(quán)重，從而更多地?cái)U(kuò)充具有較少信息的場(chǎng)景類型。規(guī)定轉(zhuǎn)向歸一化變量介于-1和1之間，轉(zhuǎn)向閾值高于0.5 的樣本進(jìn)行5 倍上采樣，閾值0.1-0.5 的樣本進(jìn)行2 倍上采樣；紅綠燈制動(dòng)樣本3 倍上采樣，限速60 km/h 的樣本3倍上采樣，限速90 km/h 的樣本2倍上采樣。使用池中的所有場(chǎng)景片段后，該類型的選擇將重新開始。該方法可以保留時(shí)間信息，但需要進(jìn)行數(shù)據(jù)重復(fù)。

第二種數(shù)據(jù)平衡方法則沒有數(shù)據(jù)重復(fù)。將數(shù)據(jù)集分成用于訓(xùn)練的正確序列長(zhǎng)度的片段，這些片段由其最主要的導(dǎo)航命令表示。然后，在定序器中過濾丟棄并重組來實(shí)現(xiàn)數(shù)據(jù)集的平衡［3］，對(duì)于車輛靜止或轉(zhuǎn)向角為0的數(shù)據(jù)，采用0.7-0.9的閾值過濾去除此類數(shù)據(jù)。該方法不會(huì)干擾時(shí)間信息，但可能會(huì)在定序器中引入某些偏差。兩種平衡方法的結(jié)果如圖9所示。

如圖10（a）所示，可以發(fā)現(xiàn)平衡前的轉(zhuǎn)向角數(shù)據(jù)呈現(xiàn)出極不平衡的分布，而經(jīng)過了上述的過濾和擴(kuò)充操作后，最終產(chǎn)生了如圖10（b）所示的分布情況。

此外，本文還對(duì)圖像樣本進(jìn)行了包括亮度變化、高斯噪聲、高斯模糊、灰度變化、對(duì)比度增強(qiáng)等模擬［8］，如圖11 所示。為了確保每次提取圖像時(shí)都以不同的方式增強(qiáng)圖像，本文會(huì)設(shè)置每次增強(qiáng)的概率和程度。從弱到強(qiáng)的增強(qiáng)形式為：軟、中軟、中、中硬、硬和超硬。

圖11 圖像增強(qiáng)效果

3 實(shí)驗(yàn)結(jié)果

3.1 實(shí)驗(yàn)1：數(shù)據(jù)集平衡的效果

3.1.1 實(shí)驗(yàn)設(shè)置

第一個(gè)實(shí)驗(yàn)旨在從2.3 節(jié)描述的兩種方法中找出最佳的數(shù)據(jù)平衡策略。在同一數(shù)據(jù)集上訓(xùn)練了3 個(gè)模型，分別采用了不同的數(shù)據(jù)平衡策略：不使用數(shù)據(jù)平衡技術(shù)、使用過濾方法和使用擴(kuò)充方法。在時(shí)間分布型網(wǎng)絡(luò)LsNN 和AtLN 中，綜合考慮模型訓(xùn)練效率和收斂速度，本實(shí)驗(yàn)采用第1.3.3 節(jié)中描述的LsNN模型進(jìn)行驗(yàn)證，并通過模型單次實(shí)時(shí)測(cè)試運(yùn)行的性能來衡量。

3.1.2 實(shí)驗(yàn)結(jié)果

表3 的結(jié)果表明，在平衡后數(shù)據(jù)集上訓(xùn)練的模型比平衡前的表現(xiàn)要好得多。使用擴(kuò)充平衡的訓(xùn)練模型在12k 步后達(dá)到了37.19%的平均性能，而使用過濾平衡的模型僅完成了20.89%。擴(kuò)充平衡模型在達(dá)到24k 訓(xùn)練步數(shù)之后，其測(cè)試結(jié)果在傍晚光照條件下表現(xiàn)更好，但在中午光照條件下表現(xiàn)更差。

表3 使用不同平衡方法的路線平均完成情況

表4 的實(shí)驗(yàn)結(jié)果表明：未經(jīng)平衡訓(xùn)練的模型往往會(huì)忽略導(dǎo)航命令；使用過濾平衡方法的模型則主要是因?yàn)轳側(cè)雽?duì)向車道而失敗。此外，還有發(fā)生物體碰撞的可能，雖然沒有直接導(dǎo)致測(cè)試失敗，但可能會(huì)導(dǎo)致車輛被卡住，從而結(jié)束本回合測(cè)試。另外，在采用過濾平衡的數(shù)據(jù)集上訓(xùn)練的模型表現(xiàn)較差，這可能與數(shù)據(jù)集規(guī)模過小有關(guān)。

3.2 實(shí)驗(yàn)2：分類與直接回歸

3.2.1 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)旨在比較直接回歸和正弦編碼分類的相關(guān)特性，訓(xùn)練了兩個(gè)模型：LsNN 和LsNN+sine。兩個(gè)模型都使用了長(zhǎng)度為10 的序列，并進(jìn)行了23k 步的訓(xùn)練。

3.2.2 實(shí)驗(yàn)結(jié)果

表5 中的實(shí)驗(yàn)結(jié)果表明，正弦編碼架構(gòu)的性能優(yōu)于直接回歸，平均完成了70.21%的路線，而直接回歸只完成了41.88%。值得注意的是，正弦編碼模型在不同天氣條件下的表現(xiàn)更加一致。表6 展示了每個(gè)模型在測(cè)試中發(fā)生的失敗類型和對(duì)應(yīng)次數(shù)。正弦編碼模型的大多數(shù)失敗是由于它忽略了給定的導(dǎo)航命令，而整體錯(cuò)誤數(shù)比直接回歸少。

表5 使用和不使用正弦編碼的路線平均完成情況

表6 使用和不使用正弦編碼的總失敗次數(shù)

綜上所述，正弦編碼模型的表現(xiàn)明顯比回歸模型更穩(wěn)定。

3.3 實(shí)驗(yàn)3：不同架構(gòu)方面的效果

3.3.1 實(shí)驗(yàn)設(shè)置

本實(shí)驗(yàn)旨在通過消融實(shí)驗(yàn)來確定自車與環(huán)境、交通參與者的歷史交互過程對(duì)當(dāng)前時(shí)刻決策的影響，以及時(shí)間和空間信息對(duì)模型的影響，并探究使用時(shí)空注意力機(jī)制是否對(duì)任務(wù)產(chǎn)生正向影響。為達(dá)到消融實(shí)驗(yàn)?zāi)康?，本?shí)驗(yàn)根據(jù)1.3節(jié)訓(xùn)練了4個(gè)不同的模型。

3.3.2 實(shí)驗(yàn)結(jié)果

根據(jù)表7 的實(shí)驗(yàn)結(jié)果，SiNN 模型的性能表現(xiàn)最差，平均只完成了17.39%的路線。實(shí)際上，在幾乎所有天氣條件下的表現(xiàn)都只有15.79%，除了在“大雨&中午”的情況下達(dá)到了30.47%。FuNN 模型表現(xiàn)倒數(shù)第二，平均完成率為38.01%。而LsNN 和AtLN 模型表現(xiàn)出對(duì)時(shí)間維度信息的依賴，其平均完成率分別為70.21%和72.35%。從表8 中可以看出，SiNN 和FuNN 模型的失敗大多是由于忽略導(dǎo)航命令導(dǎo)致的，其駕駛表現(xiàn)非常不穩(wěn)定，在轉(zhuǎn)彎處轉(zhuǎn)彎半徑過大導(dǎo)致駛?cè)雽?duì)面車道無(wú)法恢復(fù)。由于缺少時(shí)間維度信息，且復(fù)雜度較低，SiNN 和FuNN 無(wú)法學(xué)習(xí)比車道跟隨更復(fù)雜的導(dǎo)航場(chǎng)景。

表7 不同架構(gòu)的道路平均完成率

表8 使用不同架構(gòu)的總失敗次數(shù)

如圖12 所示，AtLN 模型在約25 個(gè)訓(xùn)練周期后實(shí)現(xiàn)了0.1 的損失。在驗(yàn)證損失方面，其最佳結(jié)果出現(xiàn)在30 個(gè)訓(xùn)練周期之后，驗(yàn)證損失為0.083 2。通過實(shí)驗(yàn)對(duì)比數(shù)據(jù)，證明了時(shí)間維度信息和注意力機(jī)制對(duì)于車輛運(yùn)動(dòng)控制任務(wù)產(chǎn)生了正向影響。如圖13 和圖14 所示，對(duì)于連續(xù)變道和車道保持工況，因?yàn)檐囕v不能瞬間改變轉(zhuǎn)向角度，所以車輛實(shí)際轉(zhuǎn)向并沒有神經(jīng)網(wǎng)絡(luò)直接輸出那么劇烈。與此相反，智能體可以比較準(zhǔn)確地模仿人類駕駛行為。智能體需要具備一定的實(shí)時(shí)交互能力，以便在路況變化時(shí)及時(shí)做出反應(yīng)，更好地適應(yīng)城市交通環(huán)境，并提高行駛的舒適度和安全性。

圖12 時(shí)空上模型的訓(xùn)練損失和驗(yàn)證損失

圖13 車輛在連續(xù)變道中的速度與轉(zhuǎn)向角變化曲線

圖14 車輛在車道保持中的速度與轉(zhuǎn)向角變化曲線

4 結(jié)論

本文提出了一種用于自動(dòng)駕駛端到端仿真的多級(jí)時(shí)空注意力長(zhǎng)短期記憶網(wǎng)絡(luò)，旨在解決現(xiàn)有端到端的深度學(xué)習(xí)自動(dòng)駕駛框架中預(yù)測(cè)精度低的問題，以便更好地體現(xiàn)虛擬仿真測(cè)試中自車與環(huán)境、交通參與者的歷史交互過程對(duì)當(dāng)前時(shí)刻決策的影響。該算法通過提取和表征自動(dòng)駕駛環(huán)境的深層抽象信息，在仿真平臺(tái)中實(shí)現(xiàn)端到端車輛的運(yùn)動(dòng)控制。實(shí)驗(yàn)結(jié)果表明，本文所提出的方法相比典型算法更能夠精確地模仿人類駕駛決策行為。因此，該算法具有較高的理論研究?jī)r(jià)值，可以用于自動(dòng)駕駛端到端車輛運(yùn)動(dòng)規(guī)劃方法研究。未來，本研究將進(jìn)一步優(yōu)化端到端算法實(shí)際落地應(yīng)用場(chǎng)景，以更好地推動(dòng)自動(dòng)駕駛技術(shù)的發(fā)展和應(yīng)用。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡