国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

考慮駕駛員特性的個性化跟馳控制策略研究

2022-03-26 07:36:08任玥鄒博文尹旭劉學(xué)高梁新成
關(guān)鍵詞:主車車速控制策略

任玥,鄒博文,尹旭,劉學(xué)高,梁新成

1.西南大學(xué) 工程技術(shù)學(xué)院,重慶 400715;2.西南大學(xué) 人工智能學(xué)院,重慶 400715;3.重慶長安汽車軟件科技有限公司 智能控制室,重慶 401120

根據(jù)美國國家公路交通安全管理局(The National Highway Traffic Safe Administration,NHTSA)統(tǒng)計,超過90%的安全事故都是由于駕駛員失誤造成的[1].近年來,隨著傳感器的大范圍普及和控制器算力的逐步提升,高級駕駛輔助系統(tǒng)(Advanced Driver Assistance System,ADAS)得到廣泛應(yīng)用.其中,自動緊急制動系統(tǒng)能夠有效降低駕駛員負(fù)荷,減少因駕駛員疏忽導(dǎo)致的交通事故.以此功能為基礎(chǔ)的車輛自主跟馳控制系統(tǒng),也是車輛高度/完全自動駕駛系統(tǒng)的核心功能之一,對提高車輛安全性、舒適性、經(jīng)濟性有著重要的意義,近年來受到全球?qū)W者的關(guān)注和研究.

對于車輛跟馳控制,其主要基于自車和前方障礙的運動信息進(jìn)行碰撞風(fēng)險評估.目前較為成熟的風(fēng)險評估模型包括以MAZDA模型、Berkley模型、NHTSA模型為代表的安全距離模型[2-4]和以碰撞時間(Time to collision,TTC)為代表的車間時距模型[5-6].基于碰撞風(fēng)險模型,Gerdes等[7]采用了一種基于多面滑??刂破鲗Πl(fā)動機輸出扭矩和制動力矩進(jìn)行控制,在跟車工況中,該方法能夠精確地跟蹤車輛期望速度并與前車保持合適的安全距離.Kim提出了一種新型的時變參數(shù)自適應(yīng)速度控制器,其控制發(fā)動機和制動力矩跟蹤車輛期望速度,該方法有著較高的跟蹤精度并對于外界擾動有良好的魯棒性[8].模型預(yù)測控制策略(MPC)由于能夠系統(tǒng)地處理全局約束,在跟馳控制中有著較好的效果.Li通過建立自適應(yīng)巡航優(yōu)化模型,平衡了在跟馳過程中車輛跟蹤性能、燃油經(jīng)濟性和駕駛員期望響應(yīng)的矛盾[9].文獻(xiàn)[10]采用高斯核函數(shù)描述了碰撞風(fēng)險,并采用MPC控制器的優(yōu)化目標(biāo),實現(xiàn)了車輛自適應(yīng)巡航功能.

近年來隨著人工智能和強化學(xué)習(xí)技術(shù)的快速發(fā)展,其越來越廣泛地應(yīng)用于決策和控制系統(tǒng).羅穎等[11]采用深度確定性策略梯度(DDPG)算法,結(jié)合屏障控制方法,實現(xiàn)了車輛低速跟馳控制.朱冰等[12]考慮前車運動不確定性,采用基于PPO的深度強化學(xué)習(xí)方法,實現(xiàn)了車輛自主跟馳,并有效降低了在線計算量.雖然目前大多數(shù)跟馳控制策略已經(jīng)更有效地避免碰撞,實現(xiàn)安全駕駛,但現(xiàn)有大多數(shù)控制策略是基于固定控制器參數(shù)的.而在實際駕駛中,由于不同駕駛員具有差異化的性格、駕駛技術(shù)、駕駛風(fēng)格,而統(tǒng)一標(biāo)定的控制策略無法滿足不同駕駛員的駕駛習(xí)性,從而導(dǎo)致車輛自主跟馳功能的宜人性較差,乘員接受度低.管欣等[13]引入駕駛?cè)四P筒⑻岢隽嘶隈{駛?cè)俗顑?yōu)預(yù)瞄加速度模型的自適應(yīng)巡航系統(tǒng),實現(xiàn)了不同風(fēng)格的跟馳控制.Yi等[14]通過采集實際駕駛?cè)藬?shù)據(jù),采用基于具有遺傳因子的遞歸最小二乘算法實現(xiàn)了駕駛?cè)颂匦詤?shù),并應(yīng)用于自適應(yīng)巡航的起??刂葡到y(tǒng).文獻(xiàn)[15-16]采用強化學(xué)習(xí)方法進(jìn)行跟馳建模,并在學(xué)習(xí)過程中考慮了駕駛員行為特性.

為使得車輛自主跟馳功能能夠滿足不同駕駛員需求,文獻(xiàn)[17-18]在進(jìn)行安全距離建模時考慮了駕駛員行為特性.文獻(xiàn)[19]將駕駛員數(shù)據(jù)進(jìn)行聚類分析,并基于駕駛風(fēng)格辨識設(shè)計了不同的ACC控制器參數(shù),提高了ACC系統(tǒng)人性化.文獻(xiàn)[20-21]采用逆強化學(xué)習(xí)方法,直接從駕駛員數(shù)據(jù)中擬合出決策算法,實現(xiàn)了擬人化的跟馳決策.

針對不同駕駛員的駕駛習(xí)性,基于模擬駕駛試驗采集駕駛員真實駕駛數(shù)據(jù)和深度強化學(xué)習(xí)的車輛個性化自主跟馳控制算法進(jìn)行研究,以期通過設(shè)置獎勵函數(shù)滿足車輛跟馳過程的安全性、舒適性和宜人性,并采用改進(jìn)DDPG算法實現(xiàn)車輛加速度自適應(yīng)控制.

1 駕駛員數(shù)據(jù)采集

相較于實車試驗,模擬駕駛試驗由于其具有高安全、低成本、多工況、可重復(fù)性的特點,被廣泛應(yīng)用于駕駛員駕駛數(shù)據(jù)的采集,本研究通過駕駛員在環(huán)虛擬仿真試驗獲取駕駛員跟馳行為數(shù)據(jù).駕駛行為采集系統(tǒng)如圖1所示.

圖1 駕駛行為采集系統(tǒng)

駕駛模擬試驗在Ubuntu環(huán)境下進(jìn)行.通過CARLA自動駕駛模擬器建立實時交通場景和環(huán)境車輛,采用羅技G29駕駛模擬器采集駕駛員方向盤轉(zhuǎn)角、油門/制動踏板信號并傳輸?shù)杰囕v動力學(xué)模型,輸出主車實際運動狀態(tài),再與仿真場景實時交互.針對跟馳工況,本研究設(shè)計了前車勻速行駛、減速行駛、隨機變速行駛等工況,以模擬城市環(huán)境的車輛跟馳典型工況.在模擬駕駛試驗中,采集主車與前車的相對距離、相對車速、主車車速以及主車加速度序列作為駕駛員跟馳數(shù)據(jù)集.

2 個性化跟馳控制策略

2.1 車輛跟馳動力學(xué)建模

本研究中僅考慮車輛縱向運動,忽略車輛轉(zhuǎn)向時側(cè)向運動對縱向運動的耦合作用,建立車輛跟馳模型,如下式所示:

vh(k+1)=vh(k)+ah(k)ΔT

vr(k)=vl(k)-vh(k)

d(k+1)=d(k)+vr(k)ΔT

(1)

式中,vh和ah分別為主車車速和加速度,vl為前車車速,vr為相對車速,d為相對距離.ΔT為采樣間隔.其中,主車加速度滿足車輛縱向動力學(xué)方程:

(2)

其中,M為車輛質(zhì)量,F(xiàn)t,F(xiàn)b分別為車輛的驅(qū)動/制動力.Ff,F(xiàn)w,F(xiàn)i,F(xiàn)δ分別為車輛的滾動阻力、空氣阻力、坡度阻力和加速阻力[22].

在車輛跟馳控制過程中,選擇主車車速、相對速度和相對距離作為狀態(tài)空間,主車加速度作為動作空間,可表示為:

S=[vh,vr,d]

A=[ah]

(3)

在車輛實際運動過程中,其縱向加速度受到附著力限制,因此,為避免在學(xué)習(xí)過程產(chǎn)生不合理決策,設(shè)置動作空間取值范圍為-6 m/s2≤ah≤6 m/s2.

2.2 獎勵函數(shù)

在車輛跟馳過程中,不僅需要保證車輛的安全性,還需盡可能提高乘員舒適性.同時,還應(yīng)使得跟馳控制策略更符合實際駕駛員行為特性,因此,車輛自主跟馳是一個多目標(biāo)控制問題.在k時刻,定義速度跟蹤獎勵函數(shù)R1為:

R1=ω1(vh(k)-vd)2

(4)

其中vd為期望車速,由駕駛員啟動自動跟馳功能時定義.

定義車輛跟蹤獎勵函數(shù)R2為:

R2=ω2ea·d(k)2

(5)

其中a為形狀因子,表示為:

ρ為距離安全系數(shù),以避免vr(k)為0時a無法計算[10].

定義舒適性獎勵函數(shù)R3為:

R3=ω3(ah(k)-ah(k-1))2

(6)

舒適性獎勵函數(shù)旨在避免車輛在短時間內(nèi)產(chǎn)生較大的加速度變化對乘員造成較大的沖擊度從而導(dǎo)致的舒適性惡化.

定義個性化獎勵函數(shù)R4為:

(7)

結(jié)合式(4)-(7),在k時刻個性化跟馳控制策略獎勵函數(shù)表示為:

(8)

其中dsafe為最小安全距離,vlim為道路最大限速,ωi為各項獎勵的歸一化權(quán)重系數(shù).在訓(xùn)練過程中,當(dāng)車輛發(fā)生不合理運動時(與前車碰撞、車速為負(fù)或超過限速),給予智能體一個較大的懲罰.可以看出,獎勵函數(shù)中權(quán)重系數(shù)ωi的取值直接決定了智能體的跟馳效果,在實際訓(xùn)練過程中,先通過調(diào)試ω1~ω3使車輛擁有較合理的客觀跟馳效果,再調(diào)節(jié)ω4使得智能體決策結(jié)果能更與實際駕駛員特性更為接近.

2.3 基于TD3的跟馳控制策略

強化學(xué)習(xí)基于馬爾科夫過程,通過狀態(tài)、動作、獎勵和狀態(tài)轉(zhuǎn)移函數(shù)描述智能體與環(huán)境的動態(tài)過程.作為一種試錯學(xué)習(xí)方法,強化學(xué)習(xí)控制智能體選擇不同動作,通過與環(huán)境不斷地進(jìn)行交互嘗試,并通過環(huán)境給出的獎勵來判斷動作的優(yōu)劣,最終學(xué)習(xí)到一個最優(yōu)策略,使累計回報的期望最大化.

由于車輛跟馳行為是一個連續(xù)過程,對于傳統(tǒng)的DQN(deep q-learning)、SARSA等算法需要將連續(xù)狀態(tài)空間離散化,易造成維數(shù)災(zāi)難.深度確定性策略方法(deep deterministic policy gradient,DDPG)采用基于Actor-Critic框架,結(jié)合了DQN基于價值和策略梯度(policy gradient)基于策略的優(yōu)勢,通過對價值網(wǎng)絡(luò)的時序差分更新與動作策略的梯度下降實現(xiàn)對連續(xù)動作空間問題的強化學(xué)習(xí)[24].

DDPG中的actor網(wǎng)絡(luò)為策略網(wǎng)絡(luò),表示為μ(s;θ),其代表個性化跟馳控制策略.Critic網(wǎng)絡(luò)為價值網(wǎng)絡(luò),表示為q(s,a;ω),價值網(wǎng)絡(luò)是動作價值函數(shù)Qπ(s,a)的近似,價值網(wǎng)絡(luò)用于評價策略的好壞.動作價值函數(shù)可表示為:

Qπ(s,a)=E(Rk+1+γRk+2+γ2Rk+3+…|Sk=s,Ak=a)

(9)

其中γ為獎勵衰減系數(shù).

對于策略網(wǎng)絡(luò),將其輸出的動作和當(dāng)前狀態(tài)作為價值網(wǎng)絡(luò)的輸入,此時價值網(wǎng)絡(luò)可以表示為q[s,μ(a|s);ω],其值越高,說明策略越好,故定義策略網(wǎng)絡(luò)目標(biāo)函數(shù)為:

J(θ)=ES[q(s,μ(s;θ);ω)]

(10)

gj=θq[s,μ(sj;θ);ω]

(11)

θnew=θold+β·θμ(sj;θ)·aq(s,a;ω)

(12)

而對于價值網(wǎng)路,同樣基于從經(jīng)驗回放數(shù)組中抽取的(sj,aj,rj,sj+1),讓價值網(wǎng)絡(luò)通過歷史數(shù)據(jù)和當(dāng)前策略網(wǎng)絡(luò)進(jìn)行預(yù)測:

(13)

(14)

則TD目標(biāo)可表示為:

(15)

定義價值網(wǎng)絡(luò)損失函數(shù)為:

(16)

可通過梯度下降更新價值網(wǎng)絡(luò)參數(shù),如下式所示:

(17)

ωnew=ωold-α·ωL(ω)

(18)

對于式(15)和式(16),TD目標(biāo)是通過價值網(wǎng)絡(luò)的估計進(jìn)行計算的,而損失函數(shù)再次使用同樣的價值網(wǎng)絡(luò)對TD目標(biāo)進(jìn)行擬合,存在自舉(Bootstrapping)的問題,容易導(dǎo)致對動作價值函數(shù)的高估或低估.為提升DDPG性能,使用TD3算法進(jìn)行改進(jìn).此處采用兩個價值網(wǎng)絡(luò)和一個策略網(wǎng)絡(luò):

q(s,a;ω1),q(s,a;ω2),μ(s;θ)

(19)

再建立與3個網(wǎng)絡(luò)對應(yīng)的、并與各網(wǎng)絡(luò)結(jié)構(gòu)完全相同的目標(biāo)網(wǎng)絡(luò):

(20)

采用目標(biāo)策略網(wǎng)絡(luò)計算動作,并添加噪聲:

(21)

其中ξ表示策略網(wǎng)絡(luò)噪聲,并服從截斷正態(tài)分布,其可以提高算法的魯棒性,同時又可保證噪聲不會過大.

將式(15)的TD目標(biāo)重新定義為:

(22)

各神經(jīng)網(wǎng)絡(luò)間迭代關(guān)系如圖2所示.

圖2 基于TD3深度強化學(xué)習(xí)的網(wǎng)絡(luò)結(jié)構(gòu)

為確保價值網(wǎng)絡(luò)對策略網(wǎng)路打分的可靠程度,減少策略網(wǎng)絡(luò)的更新程度,在訓(xùn)練過程中,每一輪更新一次價值網(wǎng)絡(luò)參數(shù),間隔兩輪更新一次策略網(wǎng)絡(luò)參數(shù).

基于TD3的個性化跟馳控制策略訓(xùn)練偽代碼如表1所示.

表1 基于TD3的個性化跟馳控制策略偽代碼

3 仿真與分析

為驗證本研究提出的跟馳控制策略的有效性,并體現(xiàn)個性化程度,本節(jié)選取兩種控制算法進(jìn)行仿真對比,個性化跟馳控制策略訓(xùn)練方法如表1所示.未考慮駕駛員習(xí)性的跟馳控制策略采用同樣的網(wǎng)絡(luò)架構(gòu),也未考慮式(7)所示的獎勵函數(shù),訓(xùn)練過程中也未采用實際駕駛員數(shù)據(jù).選擇一段跟馳片段進(jìn)行對比,仿真采樣間隔為0.1 s.前車以18 km/h的初速度前進(jìn),隨后進(jìn)行先加速再減速的隨機變速運動,前車車速變化如圖3所示.

圖3 前車車速變化

主車初始速度與前車同為18 km/h,兩車初始相對距離為20 m,跟馳期望車速定義為60 km/h.兩種跟馳控制策略的對比以及駕駛員實際駕駛數(shù)據(jù)如圖4-圖6所示.

圖4 主車跟馳速度對比結(jié)果

圖5 跟馳相對距離對比結(jié)果

圖6 主車加速度對比結(jié)果

圖4-圖6分別為跟馳過程中主車車速、相對距離以及加速度變化.可以看出,無論是否考慮駕駛員習(xí)性,基于深度強化學(xué)習(xí)的跟馳控制算法均能穩(wěn)定、安全地實現(xiàn)自主跟馳功能.未考慮駕駛員習(xí)性的跟馳控制策略僅以客觀跟隨性、安全性和舒適性作為獎勵函數(shù),因此在整個跟馳過程中,無論是主車車速和加速度變化均較平穩(wěn).車輛加速度在大部分時間內(nèi)維持在-1~1 m/s2之內(nèi),均方根值0.86 m/s2,最小跟馳距離為13.7 m.從實際駕駛數(shù)據(jù)可以看出,該駕駛員駕駛風(fēng)格偏“激進(jìn)”類型,在實際跟馳過程中,頻繁加減速,導(dǎo)致車速波動較大,加速度變化也更頻繁,車輛最大加速度絕對值達(dá)到5.6 m/s2,均方根值為1.73 m/s2,而整個跟馳過程的車輛相對距離也更近.當(dāng)考慮了該駕駛員的駕駛習(xí)性后,本研究所提出的個性化跟馳控制策略相較未考慮駕駛員習(xí)性的跟馳控制策略更加 “激進(jìn)”,車速波動和加速度波動更劇烈,和實際駕駛數(shù)據(jù)趨勢更加接近,加速度均方根值為1.57 m/s2.另外,從相對距離可以看出,個性化跟馳控制策略的跟馳距離更近,最小跟馳距離達(dá)到了7.8 m.因此,本研究提出的自主跟馳控制策略通過駕駛員實際駕駛數(shù)據(jù),實現(xiàn)了一定程度的個性化駕駛,相較基于客觀目標(biāo)獎勵函數(shù)的跟馳控制策略,更能迎合駕駛員的駕駛習(xí)性和偏好.但從另一方面可以看出,由于本研究提出的個性化跟馳控制策略并未對駕駛員的駕駛技能專業(yè)程度進(jìn)行評價,僅考慮了駕駛員的駕駛風(fēng)格,因此實際決策結(jié)果與參考駕駛員駕駛的熟練度相關(guān).當(dāng)參考駕駛員的駕駛能力較差時,基于學(xué)習(xí)的決策難以使得車輛跟馳過程的平順性、舒適性達(dá)到最優(yōu).

4 結(jié)論

本研究針對車輛自主跟馳過程中的宜人性問題,首先基于CARLA模擬器搭建了模擬駕駛試驗平臺,通過設(shè)計城市跟馳仿真場景,獲取了駕駛員實際駕駛數(shù)據(jù).然后建立了車輛跟馳動力學(xué)模型,并綜合考慮車輛跟馳過程的安全性、舒適性、跟隨性和駕駛員習(xí)性,設(shè)計了相應(yīng)的獎勵函數(shù).最后結(jié)合駕駛員試駕數(shù)據(jù),采用了改進(jìn)DDPG算法對自主跟馳控制策略進(jìn)行了訓(xùn)練.仿真結(jié)果表明,本研究提出的個性化跟馳控制策略能夠?qū)崿F(xiàn)穩(wěn)定、安全地車輛跟馳控制.同時,通過在獎勵函數(shù)中添加駕駛員偏好特性,能夠有效地提高自主跟馳控制的個性化程度,使得決策結(jié)果更傾向于駕駛員的駕駛行為特性.

猜你喜歡
主車車速控制策略
考慮虛擬慣性的VSC-MTDC改進(jìn)下垂控制策略
能源工程(2020年6期)2021-01-26 00:55:22
工程造價控制策略
山東冶金(2019年3期)2019-07-10 00:54:04
現(xiàn)代企業(yè)會計的內(nèi)部控制策略探討
歐曼牽引車制動系統(tǒng)異常的故障處理
時代汽車(2018年4期)2018-05-31 02:53:08
2012款奔馳R300車修改最高車速限制
主車與掛車分別設(shè)立第三者責(zé)任保險的賠償額如何確定
山東青年(2017年7期)2018-01-11 16:09:15
容錯逆變器直接轉(zhuǎn)矩控制策略
北京現(xiàn)代途勝車車速表不工作
兩車直角碰撞車速計算方法及應(yīng)用
道路交通事故中車速計算方法及應(yīng)用
淮阳县| 滨州市| 新干县| 彩票| 冷水江市| 遵义县| 宁阳县| 朝阳市| 西和县| 聊城市| 浪卡子县| 萍乡市| 都江堰市| 芜湖市| 常山县| 岳阳市| 江川县| 东乌| 武功县| 甘德县| 尚义县| 双城市| 天祝| 津市市| 磐石市| 黎平县| 阳谷县| 太原市| 揭西县| 盘锦市| 北海市| 北辰区| 桑植县| 岳普湖县| 芦溪县| 衡阳县| 宜宾市| 沅江市| 寿宁县| 包头市| 塘沽区|