邵俊愷 趙 翾,2 楊 玨 張文明 康翌婷 趙鑫鑫
(1.北京科技大學(xué)機(jī)械工程學(xué)院, 北京 100083; 2.北京華為數(shù)字技術(shù)有限公司, 北京 100085)
無(wú)人駕駛鉸接式車(chē)輛強(qiáng)化學(xué)習(xí)路徑跟蹤控制算法
邵俊愷1趙 翾1,2楊 玨1張文明1康翌婷1趙鑫鑫1
(1.北京科技大學(xué)機(jī)械工程學(xué)院, 北京 100083; 2.北京華為數(shù)字技術(shù)有限公司, 北京 100085)
針對(duì)無(wú)人駕駛鉸接式運(yùn)輸車(chē)輛無(wú)人駕駛智能控制問(wèn)題,提出了一種強(qiáng)化學(xué)習(xí)自適應(yīng)PID路徑跟蹤控制算法。首先推導(dǎo)了鉸接車(chē)的運(yùn)動(dòng)學(xué)模型,根據(jù)該模型建立實(shí)際行駛路徑與參考路徑偏差的模型,以PID控制算法為基礎(chǔ),設(shè)計(jì)了基于強(qiáng)化學(xué)習(xí)的自適應(yīng)PID路徑跟蹤控制器,該控制器以橫向位置偏差、航向角偏差、曲率偏差為輸入,以轉(zhuǎn)角控制量為輸出,通過(guò)強(qiáng)化學(xué)習(xí)算法對(duì)PID參數(shù)進(jìn)行在線自適應(yīng)整定。最后在實(shí)車(chē)道路試驗(yàn)中驗(yàn)證了控制器的路徑跟蹤質(zhì)量并與傳統(tǒng)PID控制結(jié)果進(jìn)行了對(duì)比。結(jié)果表明,相比于傳統(tǒng)PID控制器,強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制器能夠有效減小超調(diào)和震蕩,實(shí)現(xiàn)精確跟蹤參考路徑,可以較好地實(shí)現(xiàn)系統(tǒng)動(dòng)態(tài)性能和穩(wěn)態(tài)誤差性能的優(yōu)化。
鉸接式車(chē)輛; 駕駛; 強(qiáng)化學(xué)習(xí); 路徑跟蹤
鉸接式車(chē)輛作為一種靈活、機(jī)動(dòng)的運(yùn)輸設(shè)備,常用于非結(jié)構(gòu)地形運(yùn)輸作業(yè),然而特殊的轉(zhuǎn)向形式使其路徑跟蹤控制與傳統(tǒng)車(chē)輛有很大差別。
針對(duì)路徑跟蹤控制算法,國(guó)內(nèi)外眾多學(xué)者進(jìn)行了大量研究,主要算法包括比例積分微分(PID)控制[1]、滑??刂芠2]、模糊控制[3]和智能控制[4]等。隨著被控對(duì)象越來(lái)越復(fù)雜,控制器設(shè)計(jì)經(jīng)常結(jié)合多種算法來(lái)實(shí)現(xiàn)功能互補(bǔ)和性能提升。ASLAM等[5]針對(duì)滑移轉(zhuǎn)向車(chē)動(dòng)力學(xué)模型進(jìn)行了模糊滑??刂坡窂礁?,趙翾等[6]針對(duì)鉸接式車(chē)輛使用Ackermann公式與指數(shù)趨近律設(shè)計(jì)滑??刂七M(jìn)行路徑跟蹤。TALEBI等[7]提出一種用于輪式機(jī)器人的模糊PID路徑跟蹤控制器,將模糊邏輯用于PID參數(shù)調(diào)校。文獻(xiàn)[5-7]所使用的路徑跟蹤算法均為離線算法,不能根據(jù)使用環(huán)境在線優(yōu)化。裴巖[8]使用強(qiáng)化學(xué)習(xí)算法對(duì)車(chē)載導(dǎo)航系統(tǒng)路徑規(guī)劃進(jìn)行優(yōu)化,并預(yù)測(cè)了短時(shí)交通流。沈晶等[9]和付成偉[10]提出了一種基于分層強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃算法,用于位置動(dòng)態(tài)環(huán)境的路徑規(guī)劃。文獻(xiàn)[8-10]均使用強(qiáng)化學(xué)習(xí)算法研究路徑規(guī)劃問(wèn)題,與路徑跟蹤問(wèn)題模型不同。
本文開(kāi)發(fā)一種結(jié)合機(jī)器學(xué)習(xí)與PID控制的路徑跟蹤算法并使用實(shí)車(chē)道路試驗(yàn)驗(yàn)證控制品質(zhì),旨在實(shí)現(xiàn)無(wú)人駕駛鉸接式車(chē)輛路徑跟蹤在線優(yōu)化。
1.1 鉸接車(chē)數(shù)學(xué)模型
鉸接車(chē)轉(zhuǎn)向過(guò)程可以分解為2個(gè)運(yùn)動(dòng),即穩(wěn)態(tài)轉(zhuǎn)向運(yùn)動(dòng)和原地轉(zhuǎn)向運(yùn)動(dòng),以下分別就這2種運(yùn)動(dòng)過(guò)程進(jìn)行分析。
圖1 鉸接車(chē)穩(wěn)態(tài)轉(zhuǎn)向示意圖Fig.1 Schematic of articulated vehicle in steady-state steering
圖1為鉸接車(chē)穩(wěn)態(tài)轉(zhuǎn)向模型,其中O為瞬心,Pf(xf,yf)和Pr(xr,yr)分別為前后橋中點(diǎn),lf和lr分別為前后橋與鉸接點(diǎn)距離,θf(wàn)和θr為前后車(chē)體朝向,即航向角,前后車(chē)體夾角γ為鉸接轉(zhuǎn)向角。出于習(xí)慣考慮,通常以鉸接車(chē)前橋中點(diǎn)Pf為整車(chē)狀態(tài)參考點(diǎn),因?yàn)樵擖c(diǎn)的速度與鉸接車(chē)的前進(jìn)方向一致,有利于分析計(jì)算[11]。
定義整車(chē)速度v為[12]
v=vf
(1)
式中v——整車(chē)速度,m/svf——前車(chē)架速度,m/s
前橋中點(diǎn)Pf速度[13]為
(2)
式中xf——前橋中點(diǎn)橫坐標(biāo),myf——前橋中點(diǎn)縱坐標(biāo),mθf(wàn)——前橋航向角,rad
前橋航向角變化率即前橋角速度為
(3)
式中l(wèi)f、lr——前、后橋與鉸接點(diǎn)距離,mγ——鉸接轉(zhuǎn)向角,rad
鉸接車(chē)穩(wěn)態(tài)轉(zhuǎn)向過(guò)程前橋的位姿狀態(tài)可表示為Pf=(xf,yf,θf(wàn),γ),即
(4)
圖2為鉸接車(chē)原地轉(zhuǎn)向模型,因?yàn)镻f為整車(chē)狀態(tài)參考點(diǎn),因此認(rèn)為原地轉(zhuǎn)向過(guò)程中該點(diǎn)相對(duì)地面靜止[6]。
圖2 鉸接車(chē)原地轉(zhuǎn)向示意圖Fig.2 Schematic of articulated vehicle in pivot steering
則前橋中點(diǎn)Pf在XY平面上的速度分量為
(5)
航向角變化率為
(6)
鉸接車(chē)穩(wěn)態(tài)轉(zhuǎn)向過(guò)程前橋的位姿狀態(tài)可表示為Pf=(xf,yf,θf(wàn),γ),即
(7)
聯(lián)立式(4)、式(7)得出鉸接車(chē)位姿狀態(tài)Pf= (xf,yf,θf(wàn),γ),即
(8)
1.2 運(yùn)動(dòng)路徑描述
圖3為鉸接車(chē)路徑示意圖,定義了鉸接車(chē)在行駛過(guò)程中,實(shí)際路徑和參考路徑之間的偏差[14-16]。小圓圓心為c,是鉸接車(chē)瞬時(shí)實(shí)際行駛軌跡;大圓圓心為C,是鉸接車(chē)參考軌跡。理想情況下,鉸接車(chē)應(yīng)能通過(guò)參考軌跡上的3個(gè)點(diǎn)P1、P2、P3。
圖3 鉸接車(chē)路徑示意圖Fig.3 Schematic of articulated vehicle path
現(xiàn)定義如下變量[17-18]:
(1)橫向位置偏差εd:鉸接車(chē)參考定位點(diǎn)p與參考路徑上對(duì)應(yīng)點(diǎn)P(與參考路徑距離最近點(diǎn))的橫向位置差值。
(2)航向角偏差εθ:鉸接車(chē)定位參考點(diǎn)p的航向角(速度方向與車(chē)輛坐標(biāo)系X軸之間的夾角)與參考路徑上對(duì)應(yīng)點(diǎn)P的航向角(對(duì)應(yīng)點(diǎn)的切線與車(chē)輛坐標(biāo)系X軸之間的夾角)的差值。
(3)曲率偏差εc:鉸接車(chē)定位參考點(diǎn)p與參考路徑上對(duì)應(yīng)點(diǎn)P的曲率差值。
圖4為實(shí)際路徑逼近參考路徑情況示意圖。圖4a為實(shí)際路徑與參考路徑平行的情況,此時(shí)兩路徑距離即為橫向位置偏差εd,控制器可以根據(jù)該偏差計(jì)算控制量使橫向位置偏差εd減??;圖4b為實(shí)際路徑與參考路徑相交的情況,此時(shí)兩路徑夾角即為航向角偏差εθ,當(dāng)鉸接車(chē)向參考路徑接近時(shí),雖然減小了橫向位置偏差εd,卻產(chǎn)生了航向角偏差εθ,在鉸接車(chē)行駛至路徑交點(diǎn)處時(shí)橫向位置偏差εd消除,但由于車(chē)體慣性與外界環(huán)境干擾等因素影響,鉸接車(chē)依舊保持之前的航向,則下一時(shí)刻開(kāi)始橫向位置偏差εd再次產(chǎn)生,因此航向角偏差也需要作為控制器輸入進(jìn)行控制;圖4c為實(shí)際路徑與參考路徑相切的情況,此時(shí)兩路徑切點(diǎn)處曲率差為曲率偏差εθ,鉸接車(chē)行駛至切點(diǎn)位置時(shí)橫向位置偏差εd與航向角偏差εθ均為0,但由于車(chē)體慣性與外界環(huán)境干擾等因素影響,鉸接車(chē)依舊保持之前的轉(zhuǎn)角,則下一時(shí)刻開(kāi)始橫向位置偏差εd與航向角偏差εθ再次產(chǎn)生。因此橫向位置偏差εd、航向角偏差εθ、曲率偏差εc均需要作為控制器輸入進(jìn)行偏差控制,以加快收斂速度、減小震蕩。
圖4 實(shí)際路徑逼近參考路徑情況示意圖Fig.4 Schematics of real path and reference path
2.1 強(qiáng)化學(xué)習(xí)方法
強(qiáng)化學(xué)習(xí)是機(jī)器學(xué)習(xí)中的一種重要方法,不同于監(jiān)督學(xué)習(xí)方法,其不需要根據(jù)樣本進(jìn)行訓(xùn)練[19-20],而是通過(guò)與外界環(huán)境進(jìn)行互動(dòng),并收到環(huán)境反饋和評(píng)價(jià)結(jié)果來(lái)選擇下一時(shí)刻執(zhí)行動(dòng)作。該算法適合在線優(yōu)化。因此本文使用強(qiáng)化學(xué)習(xí)方法對(duì)PID參數(shù)進(jìn)行在線實(shí)時(shí)整定,從而使路徑跟蹤控制器自適應(yīng)不同工況。
2.2 強(qiáng)化學(xué)習(xí)自適應(yīng)PID算法
強(qiáng)化學(xué)習(xí)自適應(yīng)PID算法結(jié)構(gòu)如圖5所示[21],自適應(yīng)PID控制器為一個(gè)可以隨輸入變化而改變?cè)鲆娴腜ID控制器,被控對(duì)象即鉸接車(chē),輸出為路徑偏差,參考模型則是對(duì)偏差收斂的趨勢(shì)進(jìn)行規(guī)定,以獲得理想的收斂效果。參考模型期望的偏差收斂值與實(shí)際偏差差值根據(jù)回報(bào)函數(shù)計(jì)算會(huì)得到一個(gè)當(dāng)前參數(shù)效果的評(píng)價(jià),通過(guò)累計(jì)歷史回報(bào)計(jì)算綜合回報(bào)指標(biāo),作為Actor-Critic網(wǎng)絡(luò)對(duì)歷史多次參數(shù)調(diào)整結(jié)果的優(yōu)劣的評(píng)價(jià),再根據(jù)評(píng)價(jià)調(diào)整新的增益參數(shù),并傳遞給PID控制器。
則自適應(yīng)PID控制器的PID增益為
K(t)=K0+ΔK
(9)
式中K(t)——自適應(yīng)PID增益向量K0——常數(shù)向量 ΔK——自適應(yīng)PID增益可變向量
圖5 強(qiáng)化學(xué)習(xí)自適應(yīng)PID算法結(jié)構(gòu)Fig.5 Flowchart of enforcement learning adaptive PID
由于被控對(duì)象輸出不是單一變量,Actor-Critic網(wǎng)絡(luò)根據(jù)評(píng)價(jià)進(jìn)行隨機(jī)探索需要指定分布規(guī)則,這里選用高斯分布作為動(dòng)作執(zhí)行概率的表述[22],即
(10)
(11)
回報(bào)函數(shù)用于對(duì)當(dāng)前整定的參數(shù)效果進(jìn)行評(píng)價(jià),因此直接關(guān)系到后續(xù)動(dòng)作的選擇,一般以參考模型和被控對(duì)象輸出差值的加權(quán)作為回報(bào)函數(shù)用以評(píng)價(jià)參數(shù)效果。
rt=k|Δy|
(12)
式中rt——回報(bào)值k——比例系數(shù),常數(shù)或分段常數(shù)
Actor-Critic結(jié)構(gòu)中Critic需要更新歷史執(zhí)行動(dòng)作的綜合評(píng)價(jià),因此需要定義指標(biāo)用來(lái)量化綜合評(píng)價(jià),學(xué)習(xí)的優(yōu)化目標(biāo)是使歷史折扣回報(bào)最大化,綜合回報(bào)指標(biāo)為
(13)
式中J——折扣總回報(bào)指標(biāo)β——折扣因子
由于回報(bào)函數(shù)輸入是實(shí)際偏差與參考模型的期望偏差的函數(shù),因此綜合匯報(bào)指標(biāo)可以反映實(shí)際偏差對(duì)參考模型逼近的程度。
強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制器學(xué)習(xí)算法停止準(zhǔn)則為綜合回報(bào)指標(biāo)達(dá)到要求或?qū)W習(xí)次數(shù)達(dá)到給定最大值。本文使用的自適應(yīng)PID算法使用Actor網(wǎng)絡(luò)輸出作為可變?cè)鲆娌糠值慕Y(jié)果,相比直接作為全部增益結(jié)果,避免了初期學(xué)習(xí)時(shí)輸出不穩(wěn)定和學(xué)習(xí)時(shí)間長(zhǎng)的問(wèn)題。
2.3 路徑跟蹤控制算法設(shè)計(jì)
根據(jù)偏差定義,強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制律為
u(t)=(kd0+Δkd)εd(t)+(kθ0+Δkθ)εθ(t)+
(14)
式中kd0、kθ0、kc0、kD、kI——PID增益常數(shù)部分 Δkd、Δkθ、Δkc——PID增益可變部分
為了加快學(xué)習(xí)時(shí)間、避免系統(tǒng)不穩(wěn)定輸出,式(9)中PID增益常數(shù)部分由試湊得出,而增益可變部分通過(guò)強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制器調(diào)節(jié),從而優(yōu)化不同工作環(huán)境下的路徑跟蹤性能。
根據(jù)式(14)的自適應(yīng)PID控制律,控制器強(qiáng)化學(xué)習(xí)部分由Actor-Critic網(wǎng)絡(luò)組成[23],參考模型期望的偏差與實(shí)際偏差差值作為Critic的輸入,Critic輸出為當(dāng)前增益值下的值函數(shù),Actor輸入與Critic相同,網(wǎng)絡(luò)輸出則為增益的調(diào)節(jié)結(jié)果。Critic使用CMAC網(wǎng)絡(luò),Actor使用BP神經(jīng)網(wǎng)絡(luò)。PID增益可變部分采用式(10)進(jìn)行隨機(jī)嘗試。定義z1、z2、z3(0≤zi≤1,i=1,2,3)為Actor的輸出,則可變?cè)鲆鏋閇24]
(15)
式中Ud、Uθ、Uc——可變?cè)鲆姒d、Δkθ、Δkc的變化范圍
為了獲得理想偏差收斂效果,定義參考模型為
(16)
式中b——正常數(shù)
該參考模型定義了系統(tǒng)輸出偏差應(yīng)按照指數(shù)收斂,收斂速度可以通過(guò)調(diào)節(jié)系數(shù)控制。
作為Critic對(duì)Actor輸出的評(píng)價(jià),回報(bào)函數(shù)設(shè)計(jì)為
(17)
式中e1、e2、c——常數(shù)k——回報(bào)比例系數(shù)
其中,0≤e1≤e2,c>0,k>0。該回報(bào)函數(shù)使系統(tǒng)側(cè)向偏差趨向參考模型偏差,從而達(dá)到指數(shù)收斂性能。
鉸接車(chē)路徑跟蹤控制試驗(yàn)使用環(huán)形模擬巷道進(jìn)行測(cè)試,如圖6所示,通過(guò)測(cè)量各向偏差與控制器輸出對(duì)控制效果進(jìn)行驗(yàn)證。
圖6 路徑跟蹤試驗(yàn)Fig.6 Test of path following
利用強(qiáng)化學(xué)習(xí)算法的自適應(yīng)PID路徑跟蹤控制器對(duì)鉸接車(chē)進(jìn)行路徑跟蹤,測(cè)試環(huán)形道路路徑跟蹤性能。其中參考模型和回報(bào)函數(shù)參數(shù)為:b=0.2,k=0.4,e1=0.05,e2=0.01,c=0.1,Critic網(wǎng)絡(luò)學(xué)習(xí)因子為0.05,Actor網(wǎng)絡(luò)學(xué)習(xí)因子為0.2。
PID增益由手工試湊得出,其中增益常數(shù)部分為kd=80,kθ=45,kc=3,kI=1,kD=0.1。自適應(yīng)PID控制器增益可變部分為Ud=40,Uθ=30,Uc=4。根據(jù)以上參數(shù),分別使用傳統(tǒng)固定增益PID控制器和強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制器對(duì)環(huán)形道路進(jìn)行路徑跟蹤試驗(yàn)以驗(yàn)證控制器性能,試驗(yàn)時(shí)間100 s。
圖7和圖8分別給出了路徑跟蹤過(guò)程中固定參數(shù)PID和強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制器的性能比較,包括偏差變化和轉(zhuǎn)向角控制量變化情況。
圖7 路徑跟蹤偏差曲線Fig.7 Changing curves of errors in path following
圖8 路徑跟蹤轉(zhuǎn)向角控制量曲線Fig.8 Changing curves of desired articulated angles in path following
表1為試驗(yàn)結(jié)果統(tǒng)計(jì),可以看出經(jīng)過(guò)強(qiáng)化學(xué)習(xí)自適應(yīng)PID算法相比固定參數(shù)PID算法各向偏差和控制量的幅值、均值、方差均有明顯減小。表明該算法能有效減少震蕩和穩(wěn)態(tài)誤差、提高收斂速度。
圖9顯示了經(jīng)過(guò)強(qiáng)化學(xué)習(xí)后的自適應(yīng)PID控制器增益變化情況,橫向位置偏差增益系數(shù)從初始固定增益80增至90附近,隨后在80~100之間調(diào)整;航向角偏差增益系數(shù)從初始固定增益45迅速降至35,隨后在32~38之間調(diào)整;曲率偏差增益系數(shù)從初始固定增益3迅速降至1.9,隨后在1.7~2.1范圍內(nèi)??梢钥闯銎钤鲆嫦禂?shù)隨偏差變化情況進(jìn)行自適應(yīng)改變。當(dāng)實(shí)際路徑與參考路徑距離較遠(yuǎn)時(shí)橫向位置偏差影響起主要作用,而當(dāng)實(shí)際路徑接近參考路徑時(shí),航向角偏差與曲率偏差起主要作用。該算法可以實(shí)現(xiàn)PID控制器參數(shù)的自適應(yīng)整定,實(shí)現(xiàn)路徑跟蹤控制的智能化。
表1 試驗(yàn)結(jié)果統(tǒng)計(jì)Tab.1 Statistics of test result
圖9 路徑跟蹤比例增益變化Fig.9 Changes of proportional in path following
提供了一種應(yīng)用于無(wú)人駕駛鉸接式車(chē)輛的強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制精確路徑跟蹤的方法,以橫向位置偏差、航向角偏差、曲率偏差作為路徑跟蹤算法輸入,實(shí)現(xiàn)了鉸接式車(chē)輛路徑跟蹤,試驗(yàn)結(jié)果表明,該算法穩(wěn)定可靠,可以實(shí)現(xiàn)鉸接式車(chē)輛的在線優(yōu)化路徑跟蹤控制。橫向位置偏差幅值、均值、方差分別為4.166×10-1mm、-6.921×10-3mm、1.378×10-2mm2,航向角偏差幅值、均值、方差分別為3.852×10-2rad、2.911×10-3rad、8.359×10-5rad2,曲率偏差幅值、均值、方差分別為3.899×10-2m-1、-2.778×10-3m-1、1.241×10-4m-2,轉(zhuǎn)向角控制量幅值、方差分別為4.298×10-1rad、2.122×10-2rad2,相比于傳統(tǒng)PID控制器,強(qiáng)化學(xué)習(xí)自適應(yīng)PID控制器能夠使鉸接式車(chē)輛具有更精確的跟蹤參考路徑。
1 陶永華, 尹怡欣, 葛蘆生. 新型PID控制及其應(yīng)用[M]. 北京: 機(jī)械工業(yè)出版社, 1998.
2 劉金琨. 滑模變結(jié)構(gòu)控制MATLAB仿真[M]. 北京: 清華大學(xué)出版社, 2005.
3 林輝. 輪轂電機(jī)驅(qū)動(dòng)電動(dòng)汽車(chē)聯(lián)合制動(dòng)的模糊自整定PID控制方法研究[D]. 長(zhǎng)春: 吉林大學(xué), 2013. LIN Hui. Research on composite ABS control strategy of fuzzy self-adjusting PID for electric-wheel vehicle[D]. Changchun: Jilin University, 2013. (in Chinese)
4 辛斌, 陳杰, 彭志紅. 智能優(yōu)化控制:概述與展望[J/OL]. 自動(dòng)化學(xué)報(bào), 2013, 39(11): 1831-1848. http:∥www.aas.net.cn/CN/abstract/abstract18223.shtml. DOI: 10.3724/SP.J.1004.2013.01831. XIN Bin, CHEN Jie, PENG Zhihong. Intelligent optimized control: overview and prospect[J/OL]. Acta Automatica Sinica, 2013,39(11):1831-1848. (in Chinese)
5 ASLAM J, QIN Shiyin, ALVI M A. Fuzzy sliding mode control algorithm for a four-wheel skid steer vehicle[J]. Journal of Mechanical Science and Technology, 2014, 28(8): 3301-3310.
6 趙翾, 楊玨, 張文明, 等. 農(nóng)用輪式鉸接車(chē)輛滑模軌跡跟蹤控制算法[J/OL]. 農(nóng)業(yè)工程學(xué)報(bào), 2015, 31(10): 198-203. http:∥www.tcsae.org/nygcxb/ch/reader/view_abstract.aspx?flag=1&file_no=20151026&journal_id=nygcxb. DOI:10.11975/j.issn.1002-6819.2015.10.026. ZHAO Xuan, YANG Jue, ZHANG Wenming, et al. Sliding mode control algorithm for path tracking of articulated dump truck[J/OL]. Transactions of the CSAE, 2015, 31(10): 198-203. (in Chinese)
7 TALEBI A H, DEHGHANI T A. Using a fuzzy PID controller for the path following of a car-like mobile robot[C]∥International Conference on Robotics and Mechatronics, ICRoM 2013, 2013: 189-193.
8 裴巖. 機(jī)器學(xué)習(xí)理論研究及其在車(chē)載導(dǎo)航系統(tǒng)中的應(yīng)用[D]. 沈陽(yáng): 東北大學(xué), 2009. PEI Yan. Research on the machine learning theory and its application in the vehicle navigation system[D]. Shenyang: Northeastern University, 2009. (in Chinese)
9 沈晶, 顧國(guó)昌, 劉海波. 未知?jiǎng)討B(tài)環(huán)境中基于分層強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃[J/OL]. 機(jī)器人, 2006(5): 544-547. http:∥robot.sia.cn/CN/abstract/abstract12918.shtml. DOI: 10.3321/j.issn:1002-0446.2006.05.017. SHEN Jing, GU Guochang, LIU Haibo. Mobile robot path planning based on hierarchical reinforcement learning in unknown dynamic environment[J/OL]. Robot, 2006(5): 544-547. (in Chinese)
10 付成偉. 基于分層強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃[D]. 哈爾濱: 哈爾濱工程大學(xué), 2008. FU Chengwei. Mobile robot path planning based on hierarchical reinforcement learning[D]. Harbin: Harbin Engineering University, 2008. (in Chinese)
11 ZHAO Xuan, YANG Jue, LI Lin, et al. Path tracking control for autonomous underground mining articulated dump truck[J]. EEA-Electrotehnica, Electronica, Automatica, 2015, 63(3): 75-82.
12 李建國(guó),戰(zhàn)凱,石峰,等.基于最優(yōu)軌跡跟蹤的地下鏟運(yùn)機(jī)無(wú)人駕駛技術(shù)[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2015,46(12):323-328. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20151244&journal_id=jcsam. DOI: 10.6041/j.issn.1000-1298.2015.12.044. LI Jianguo,ZHAN Kai,SHI Feng,et al.Auto-driving technology for underground scraper based on optimal trajectory tracking[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2015,46(12):323-328. (in Chinese)
13 習(xí)波波. 具有二自由度鉸接車(chē)體的輪式越野車(chē)輛轉(zhuǎn)向系統(tǒng)研究[D]. 長(zhǎng)春: 吉林大學(xué), 2013. XI Bobo. Study on steering system of wheeled off-road vehicle with two degrees of freedom articulated body[D]. Changchun: Jilin University, 2013.(in Chinese)
14 張廣慶,朱思洪,李偉華,等.鉸接擺桿式大功率拖拉機(jī)原地轉(zhuǎn)向仿真與實(shí)驗(yàn)[J/OL].農(nóng)業(yè)機(jī)械學(xué)報(bào),2012,43(10):25-30,18. http:∥www.j-csam.org/jcsam/ch/reader/view_abstract.aspx?flag=1&file_no=20121005&journal_id=jcsam. DOI: 10.6041/j.issn.1000-1298.2012.10.005. ZHANG Guangqing,ZHU Sihong,LI Weihua,et al. Simulation and experiment of in-situ steering of large wheel tractor with hinge swing link[J/OL].Transactions of the Chinese Society for Agricultural Machinery,2012,43(10):25-30,18. (in Chinese)
15 LEE J H, YOO W S. Predictive control of a vehicle trajectory using a coupled vector with vehicle velocity and sideslip angle[J]. International Journal of Automotive Technology, 2009, 10(2): 211-217.
16 NAYL T, NIKOLAKOPOULOS G, GUSTFSSON T. Switching model predictive control for an articulated vehicle under varying slip angle[C]∥2012 20th Mediterranean Conference on Control and Automation(MED), 2012: 890-895.
17 RIDLEY P, CORKE P. Load haul dump vehicle kinematics and control[J]. ASME Journal of Dynamic Systems, Measurement and Control, 2003, 125(1): 54-59.
18 MAKELA H, LEHTINEN H, RINTANEN K, et al. Navigation system for LHD machines[C]∥Proceedings of the 1995 2nd IFAC Conference on Intelligent Autonomous Vehicles, 1995: 295-300.
19 HEMAMI A, POLOTSKI V. Path tracking control problem formulation of an LHD loader[J]. International Journal of Robotics Research, 1998, 17(2): 193-199.
20 MITCHELL T. 機(jī)器學(xué)習(xí)[M]. 曾華軍, 張銀奎,譯. 北京: 機(jī)械工業(yè)出版社, 2008.
21 吳軍, 徐昕, 王健, 等. 面向多機(jī)器人系統(tǒng)的增強(qiáng)學(xué)習(xí)研究進(jìn)展綜述[J/OL]. 控制與決策, 2011, 26(11): 1601-1610,1615. http:∥kzyjc.alljournals.cn/ch/reader/view_abstract.aspx?file_no=2011-0347&flag=1. DOI:10.13195/j.col.2011.11.4.wuj.014. WU Jun, XU Xin, WANG Jian, et al. Recent advances of reinforcement learning in multi-robot systems: a survey[J/OL]. Control and Decision, 2011, 26(11): 1601-1610, 1615. (in Chinese)
22 徐昕. 增強(qiáng)學(xué)習(xí)與近似動(dòng)態(tài)規(guī)劃[M]. 北京: 科學(xué)出版社, 2010.
23 LIN C, GEORGE L C S. Reinforcement structure/parameter learning for neural-network-based fuzzy logic control systems[J]. IEEE Transactions on Fuzzy Systems, 1994, 2(1): 46-63.
24 BARTO A G, SUTTON R S, ANDERSON C W. Neuronlike adaptive elements that can solve difficult learning control problems[J]. IEEE Transactions on Systems, Man and Cybernetics, 1983, SMC-13(5): 834-846.
25 徐昕. 增強(qiáng)學(xué)習(xí)及其在移動(dòng)機(jī)器人導(dǎo)航與控制中的應(yīng)用研究[D]. 長(zhǎng)沙: 國(guó)防科學(xué)技術(shù)大學(xué), 2002. XU Xin. Reinforcement learning and its applications in navigation and control of mobile robots[D]. Changsha: National University of Defense Technology, 2002. (in Chinese)
Reinforcement Learning Algorithm for Path Following Control of Articulated Vehicle
SHAO Junkai1ZHAO Xuan1,2YANG Jue1ZHANG Wenming1KANG Yiting1ZHAO Xinxin1
(1.SchoolofMechanicalEngineering,UniversityofScienceandTechnologyBeijing,Beijing100083,China2.BeijingHuaweiDigitalTechnologiesCo.,Ltd.,Beijing100085,China)
With the industry 4.0 embraced a number of contemporary automation, data exchange and manufacturing technologies, the autonomous driving system is widespread. In order to enable the autonomous driving, path following strategies are essential to maintain the normal work of the vehicles. The articulated frame steering vehicles (ASV) are flexible, efficient and widely implemented in agriculture, mining, construction and forestry sectors due to their high maneuverability. The articulated vehicle usually composes of two units, a tractor and a trailer, which are connected by an articulation joint. However, as the ASV dynamics are significantly different from the conventional vehicles with front wheel steering, the path following controller derived for conventional vehicles is considered not to be applicable for the ASVs. Thus the path following control is challenging the robustness. A path following strategy is proposed for the ASVs on the basis of reinforcement learning adaptive PID algorithm. The kinematic model of the ASV is derived by neglecting the vehicle dynamics. Three measurable errors are defined to indicate the deviation of real path from reference path, i.e., lateral displacement error, orientation error and curvature error. These errors are served as the inputs in order to synthesize the path following controller and the desired steering angle is served as the output of path following controller. Based on the PID algorithm, the reinforcement learning method is selected for optimizing the parameters of PID online to reduce the overshoot and chattering. Furthermore, the prototype test is conducted to evaluate the performance of the proposed control law. The result shows that compared with the traditional PID, reinforcement learning adaptive PID controller can restrain the overshoot and chattering efficiently and follow the reference path accurately.
articulated vehicle; driving; reinforcement learning; path following
10.6041/j.issn.1000-1298.2017.03.048
2016-04-18
2016-09-13
國(guó)家高技術(shù)研究發(fā)展計(jì)劃(863計(jì)劃)項(xiàng)目(2011AA060404)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專(zhuān)項(xiàng)資金項(xiàng)目(FRF-TP-16-004A1)
邵俊愷(1985—),男,博士生,主要從事無(wú)人駕駛及路徑跟蹤控制研究,E-mail: shao@ustb.edu.cn
楊玨(1975—),男,副教授,主要從事非公路車(chē)輛設(shè)計(jì)研究,E-mail: yangjue@ustb.edu.cn
TP273; U463.32+5
A
1000-1298(2017)03-0376-07