国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

移動(dòng)機(jī)器人行人避讓策略強(qiáng)化學(xué)習(xí)研究

2023-09-25 09:04:24王唯鑒呂宗喆吳宗毅
關(guān)鍵詞:行人機(jī)器人狀態(tài)

王唯鑒,王 勇,楊 驍,呂宗喆,吳宗毅

1.北京機(jī)械工業(yè)自動(dòng)化研究所,北京100120

2.北自所(北京)科技發(fā)展股份有限公司,北京100120

移動(dòng)機(jī)器人近年來(lái)快速發(fā)展,其應(yīng)用場(chǎng)景也在不斷擴(kuò)展[1]。傳統(tǒng)移動(dòng)機(jī)器人主要從事物料搬運(yùn)等簡(jiǎn)單工作,由于工作場(chǎng)景相對(duì)固定,機(jī)器人移動(dòng)過(guò)程中只需考慮對(duì)固定障礙的避讓。服務(wù)機(jī)器人近年來(lái)快速興起,其中具備自主移動(dòng)能力的服務(wù)機(jī)器人需要適應(yīng)復(fù)雜多樣的工作場(chǎng)景,例如行人眾多的車(chē)站、餐廳等。這些人員密集的應(yīng)用場(chǎng)景對(duì)移動(dòng)機(jī)器人對(duì)動(dòng)態(tài)障礙的避讓能力提出了新的要求。移動(dòng)機(jī)器人需要在時(shí)刻與行人保持安全距離的前提下,盡可能高效地到達(dá)目標(biāo)點(diǎn)?;跓o(wú)碰撞假設(shè)提出的動(dòng)態(tài)避障方法,比如RVO或者ORCA[2],采用被動(dòng)躲避的方式避讓動(dòng)態(tài)障礙,由于相對(duì)固定的避讓方法只依賴(lài)于機(jī)器人當(dāng)前與障礙的交互,因此機(jī)器人難以做出長(zhǎng)遠(yuǎn)的決策。另外,在面對(duì)多行人場(chǎng)景帶來(lái)的復(fù)雜限制時(shí),這類(lèi)算法無(wú)法給出有效動(dòng)作,導(dǎo)致機(jī)器人面臨“凍結(jié)”問(wèn)題。

移動(dòng)機(jī)器人如果能夠像人一樣分析判斷行人未來(lái)的行動(dòng),就可以據(jù)此做出更加符合人類(lèi)行為邏輯的動(dòng)作。依照這種想法,部分學(xué)者提出了通過(guò)預(yù)測(cè)行人軌跡指導(dǎo)移動(dòng)機(jī)器人進(jìn)行避障的方法,包括一系列人工設(shè)計(jì)的模型[3]和數(shù)據(jù)驅(qū)動(dòng)的模型[4-5]。前者由于準(zhǔn)確建模的難度過(guò)大,對(duì)行人動(dòng)作的預(yù)測(cè)準(zhǔn)確度較低;后者(例如長(zhǎng)短期記憶細(xì)胞模型,生成對(duì)抗網(wǎng)絡(luò)模型)高度依賴(lài)大量真實(shí)數(shù)據(jù)作為訓(xùn)練樣本。另外,這類(lèi)在完成軌跡預(yù)測(cè)后再進(jìn)行移動(dòng)策略規(guī)劃的方法在具體實(shí)施上也存在很多困難。

強(qiáng)化學(xué)習(xí)適用于智能體在環(huán)境中連續(xù)或者離散動(dòng)作的選擇,因此近年來(lái)被很多學(xué)者采用。深度強(qiáng)化學(xué)習(xí)(deep reinforcement learning,DRL)關(guān)心智能體如何從環(huán)境中提取有助于決策的關(guān)鍵信息,在機(jī)器人對(duì)人群的避讓問(wèn)題中,如何對(duì)復(fù)雜的行人數(shù)據(jù)進(jìn)行編碼,以有效捕捉數(shù)據(jù)的潛在特征(比如行人之間的避讓關(guān)系,行人與機(jī)器人間的關(guān)聯(lián))顯得尤為重要。CADRL 是早期利用強(qiáng)化學(xué)習(xí)解決這一問(wèn)題的方法[6],但其只是通過(guò)簡(jiǎn)單聚合行人之間的關(guān)聯(lián)特征來(lái)建模人群。LSTM-RL[7]采用長(zhǎng)短期記憶細(xì)胞分析行人的行為規(guī)律以指導(dǎo)機(jī)器人移動(dòng),SARL[8]通過(guò)引入自注意力機(jī)制生成機(jī)器人-行人交互的特征向量,可以有效捕捉機(jī)器人與不同距離的行人之間的交互關(guān)系,但這些方法并沒(méi)有充分利用行人之間的交互信息,也只能單純地通過(guò)線性近似模擬行人的下一步動(dòng)作,因此在多行人的場(chǎng)景下表現(xiàn)尚待提高。

針對(duì)當(dāng)前研究中存在的不足,本文提出了GCN-RL模型,采用圖卷積網(wǎng)絡(luò)(GCN)對(duì)包含行人和機(jī)器人在內(nèi)的整個(gè)環(huán)境進(jìn)行特征提取。得益于GCN處理圖結(jié)構(gòu)數(shù)據(jù)的優(yōu)勢(shì),該模型不僅可以準(zhǔn)確捕捉機(jī)器人與行人之間的潛在關(guān)聯(lián),同時(shí)也可以提取行人之間的關(guān)聯(lián)特征,模型中的動(dòng)作價(jià)值估計(jì)模塊用于準(zhǔn)確估計(jì)當(dāng)前的動(dòng)作-價(jià)值函數(shù),行人預(yù)測(cè)模塊配合前向推演策略幫助機(jī)器人通過(guò)與環(huán)境模擬交互更新對(duì)當(dāng)前狀態(tài)下不同動(dòng)作價(jià)值的評(píng)估,能夠有效指導(dǎo)移動(dòng)機(jī)器人的下一步動(dòng)作,在密集行人場(chǎng)景中選擇更優(yōu)的避障路徑。

1 問(wèn)題建模

假設(shè)移動(dòng)機(jī)器人需要在存在N名行人的固定環(huán)境中完成導(dǎo)航任務(wù),其目標(biāo)是盡快到達(dá)地圖中的固定位置并在導(dǎo)航過(guò)程中避讓所有行人。該問(wèn)題可以看作一個(gè)典型的順序決策問(wèn)題[9],即可以通過(guò)深度強(qiáng)化學(xué)習(xí)框架進(jìn)行建模。具備環(huán)境感知能力的自主移動(dòng)機(jī)器人作為強(qiáng)化學(xué)習(xí)智能體,在每個(gè)離散的時(shí)間節(jié)點(diǎn)選擇動(dòng)作;環(huán)境信息包括機(jī)器人自身信息和周?chē)腥诵畔?;機(jī)器人在離散的時(shí)刻讀取環(huán)境的狀態(tài)特征,并評(píng)估當(dāng)前狀態(tài)下自身的動(dòng)作-狀態(tài)價(jià)值,從而選取最優(yōu)動(dòng)作直至到達(dá)目標(biāo)點(diǎn)。

1.1 狀態(tài)編碼

在機(jī)器人導(dǎo)航問(wèn)題中,環(huán)境信息包括場(chǎng)景中所有行人的信息以及機(jī)器人自身信息。由于實(shí)際場(chǎng)景下,行人的實(shí)時(shí)位置和實(shí)時(shí)速度可以通過(guò)固定攝像頭或者移動(dòng)機(jī)器人搭載的攝像頭獲取,而機(jī)器人自身的狀態(tài)除去實(shí)時(shí)位置速度外,還有目標(biāo)點(diǎn)坐標(biāo)(gx,gy),以及當(dāng)前時(shí)刻機(jī)器人的首選速度(vpref,φ),包含速度大小和偏航角。因此,在任意時(shí)刻對(duì)于機(jī)器人自身以及每個(gè)行人的狀態(tài)序列建模如下:

其中,px和py代表當(dāng)前世界坐標(biāo)系下行人和機(jī)器人的坐標(biāo),vx、vy代表世界坐標(biāo)系下的速度,r表示機(jī)器人和行人的碰撞半徑。

1.2 動(dòng)作選擇

基于值函數(shù)估計(jì)的強(qiáng)化學(xué)習(xí)問(wèn)題中,智能體通過(guò)與環(huán)境交互更新對(duì)自身所處狀態(tài)價(jià)值的估計(jì)和當(dāng)前行為策略。移動(dòng)機(jī)器人與人群環(huán)境在每個(gè)離散的決策時(shí)刻通過(guò)執(zhí)行動(dòng)作進(jìn)行交互,決策時(shí)刻的時(shí)間間隔設(shè)置為Δt=0.25 s。假設(shè)機(jī)器人在二維空間上的所有自由度均可控,由于強(qiáng)化學(xué)習(xí)范式的約束以及實(shí)際應(yīng)用的限制,機(jī)器人需要從離散的動(dòng)作空間中選擇要執(zhí)行的動(dòng)作。具體來(lái)說(shuō),機(jī)器人在每個(gè)決策時(shí)刻選擇自身移動(dòng)速度及移動(dòng)方向。設(shè)置了[0,2π]之間的16個(gè)方向和[0,Vmax]之間的五檔速度,組合成共包含80個(gè)動(dòng)作的離散動(dòng)作空間。

1.3 獎(jiǎng)勵(lì)計(jì)算

機(jī)器人在虛擬環(huán)境中從起始位置出發(fā),行走至目標(biāo)點(diǎn)則獲得最高獎(jiǎng)勵(lì),為訓(xùn)練機(jī)器人在到達(dá)目標(biāo)點(diǎn)的過(guò)程中盡量避讓行人,設(shè)立獎(jiǎng)勵(lì)函數(shù)如下:

其中,引入了dt=0.2 m 作為行人舒適距離,以保證機(jī)器人在選擇路徑時(shí)既不會(huì)撞到行人,也不會(huì)因距離過(guò)近而引起行人不適。同時(shí),引入舒適距離dt計(jì)算獎(jiǎng)勵(lì)有效避免獎(jiǎng)勵(lì)過(guò)于稀疏,從而提升訓(xùn)練效果。

2 GCN-RL算法模型

通過(guò)將行人避障問(wèn)題劃歸為強(qiáng)化學(xué)習(xí)范式,可以采用值函數(shù)更新的方式指導(dǎo)機(jī)器人動(dòng)態(tài)避障。GCN-RL模型利用圖卷積網(wǎng)絡(luò)高效提取機(jī)器人和行人的深度交互特征,隨后將這些特征用于估計(jì)狀態(tài)-動(dòng)作價(jià)值。同時(shí),模型針對(duì)環(huán)境中全部行人信息提取行人之間的深度交互特征,用于預(yù)測(cè)行人下一時(shí)刻狀態(tài)。模型在實(shí)時(shí)運(yùn)行過(guò)程中通過(guò)模擬執(zhí)行動(dòng)作和預(yù)測(cè)行人狀態(tài)來(lái)與未來(lái)環(huán)境模擬交互,根據(jù)交互結(jié)果更新對(duì)當(dāng)前動(dòng)作價(jià)值的估計(jì),并依據(jù)更新后動(dòng)作價(jià)值的估計(jì)值從離散動(dòng)作空間中選擇動(dòng)作,指導(dǎo)機(jī)器人做出更加長(zhǎng)遠(yuǎn)的避障決策,使其在導(dǎo)航至目標(biāo)點(diǎn)的過(guò)程中自主避讓環(huán)境中的行人。

2.1 強(qiáng)化學(xué)習(xí)建模

GCN-RL 模型的主要工作原理如圖1 所示,環(huán)境信息包括機(jī)器人的狀態(tài)以及全部行人的狀態(tài),為充分表征機(jī)器人和行人之間、行人與行人之間的關(guān)聯(lián)信息,環(huán)境信息作為圖結(jié)構(gòu)數(shù)據(jù)輸入GCN-RL模型,其中機(jī)器人和行人的潛特征作為圖的節(jié)點(diǎn),機(jī)器人與行人、行人與行人之間的潛在關(guān)聯(lián)信息則作為圖的邊。模型中的價(jià)值估計(jì)模塊接收來(lái)自全部節(jié)點(diǎn)的狀態(tài)編碼,并對(duì)當(dāng)前環(huán)境加以評(píng)估。同時(shí),狀態(tài)預(yù)測(cè)模塊接收全部行人的狀態(tài)編碼,通過(guò)預(yù)測(cè)模型輸出對(duì)環(huán)境未來(lái)狀態(tài)的預(yù)估。隨后,GCN-RL采用了一種多步推演的方式與環(huán)境模擬交互,從而評(píng)估機(jī)器人在當(dāng)前狀態(tài)下采用不同動(dòng)作會(huì)產(chǎn)生的預(yù)期收益,并根據(jù)預(yù)期收益指導(dǎo)機(jī)器人選擇要執(zhí)行的動(dòng)作。在動(dòng)作執(zhí)行完畢的下一個(gè)離散決策時(shí)刻,環(huán)境信息得以更新,機(jī)器人重新獲取環(huán)境信息,進(jìn)入下一個(gè)決策周期。

圖1 GCN-RL工作原理Fig.1 Principle of GCN-RL

2.2 動(dòng)作價(jià)值估計(jì)

強(qiáng)化學(xué)習(xí)中最重要的環(huán)節(jié)是如何通過(guò)環(huán)境的信息評(píng)估當(dāng)前智能體所處狀態(tài)的價(jià)值[10]。GCN-RL 模型采用了一個(gè)由圖卷積網(wǎng)絡(luò)和多層感知機(jī)組合而成的動(dòng)作價(jià)值估計(jì)模塊,用于學(xué)習(xí)機(jī)器人和行人之間關(guān)聯(lián)狀態(tài)的深度交互信息,并以此估計(jì)當(dāng)前狀態(tài)下的動(dòng)作價(jià)值。動(dòng)作價(jià)值估計(jì)模塊的組成如圖2所示。

圖2 動(dòng)作價(jià)值估計(jì)模塊Fig.2 Value predict module

圖卷積網(wǎng)絡(luò)能夠充分利用圖結(jié)構(gòu)信息[11],提取圖數(shù)據(jù)的深度特征,但需要各節(jié)點(diǎn)數(shù)據(jù)具備相同的結(jié)構(gòu)。在機(jī)器人行人避讓問(wèn)題模型中,行人狀態(tài)與機(jī)器人狀態(tài)具有不同的維度,因此首先通過(guò)一個(gè)多層感知機(jī)(multilayer perceptron,MLP)將不同狀態(tài)編碼為潛空間中固定長(zhǎng)度的向量,所有這些向量組成了矩陣X=[xr,xp1,xp2,…,xpn]T,其中xr為機(jī)器人的潛在特征,xp1,xp2,…,xpn為行人的潛在特征。通過(guò)成對(duì)近似函數(shù)計(jì)算該特征矩陣的關(guān)聯(lián)特征矩陣,模型采用嵌入式高斯函數(shù)作為近似函數(shù)[12],計(jì)算得到的A=softmax(XWaXT)矩陣記錄了節(jié)點(diǎn)之間的潛在關(guān)聯(lián)特征,其中xi=X[i,:],θ(xi)=Wθ xi,?(xi)=W?xi,Wa=WθWT?。

以上方式分別提取了環(huán)境中每個(gè)節(jié)點(diǎn)的潛在特征以及任意兩個(gè)節(jié)點(diǎn)之間的直接關(guān)聯(lián)特征,然而對(duì)于在人群中導(dǎo)航的機(jī)器人而言,單純獲取每一時(shí)刻其他行人的特征和行人與自身、行人之間的關(guān)聯(lián)特征并不能充分指導(dǎo)自身動(dòng)作。比如,在某一時(shí)刻距離機(jī)器人很近的行人A由于附近并沒(méi)有其他行人,因此會(huì)傾向于維持原速度繼續(xù)前進(jìn);而同一時(shí)刻距離機(jī)器人相對(duì)較遠(yuǎn)的行人B行進(jìn)前方有其他行人,因此可能會(huì)向機(jī)器人方向做出避讓動(dòng)作。在這種情況下,簡(jiǎn)單整合節(jié)點(diǎn)特征和關(guān)聯(lián)特征難以完成對(duì)環(huán)境當(dāng)前信息的充分提取。

正因如此,GCN-RL采用圖卷積網(wǎng)絡(luò)處理節(jié)點(diǎn)特征和關(guān)聯(lián)特征,由于圖卷積網(wǎng)絡(luò)可以利用圖的連通結(jié)構(gòu)通過(guò)邊傳遞特征,并在節(jié)點(diǎn)聚合特征,經(jīng)由圖卷積網(wǎng)絡(luò)正向傳播后的節(jié)點(diǎn)特征包含了更多機(jī)器人與人群環(huán)境的深層特征(比如行人之間的躲避導(dǎo)致的潛在障礙),其中第i行的數(shù)據(jù)代表了節(jié)點(diǎn)i對(duì)其自身與整個(gè)環(huán)境交互所產(chǎn)生的深度關(guān)聯(lián)特征的編碼。節(jié)點(diǎn)信息按照H(l+1)=σ(AH(l)W(l))+H(l)進(jìn)行傳遞,其中W(l)代表了網(wǎng)絡(luò)第l層可訓(xùn)練的參數(shù),σ為激活函數(shù)Relu。GCN 通過(guò)節(jié)點(diǎn)原始特征X和節(jié)點(diǎn)關(guān)聯(lián)特征A完成節(jié)點(diǎn)特征的更新。本文采用了一個(gè)2 層的GCN 以保證每個(gè)節(jié)點(diǎn)能夠充分從圖的關(guān)聯(lián)中學(xué)習(xí)到環(huán)境中潛藏的深度交互特征,GCN輸出當(dāng)前包含這些特征的全部節(jié)點(diǎn)狀態(tài)Sextracted,輸入一個(gè)MLP以計(jì)算動(dòng)作-狀態(tài)價(jià)值。

2.3 行人狀態(tài)預(yù)測(cè)

行人狀態(tài)預(yù)測(cè)模塊通過(guò)當(dāng)前時(shí)刻全部行人的行為狀態(tài)預(yù)測(cè)他們下一時(shí)刻的狀態(tài)。一些其他的機(jī)器人導(dǎo)航模型[6,8]使用傳統(tǒng)算法預(yù)測(cè)人群在下一時(shí)刻的動(dòng)作狀態(tài)(比如對(duì)行人動(dòng)作做線性近似其下一時(shí)刻位置),這種方法并沒(méi)有利用端到端的學(xué)習(xí)模型,無(wú)法準(zhǔn)確估計(jì)下一時(shí)刻行人的行為策略。另外一些關(guān)于行人軌跡預(yù)測(cè)的研究將行人軌跡看作序列數(shù)據(jù),采用長(zhǎng)短期記憶細(xì)胞等方式對(duì)未來(lái)數(shù)據(jù)進(jìn)行預(yù)測(cè)[13],盡管從歷史數(shù)據(jù)中學(xué)習(xí)提升了對(duì)行人移動(dòng)預(yù)測(cè)的準(zhǔn)確率,但在預(yù)測(cè)過(guò)程中忽略了行人之間的關(guān)聯(lián),且往往需要大量真實(shí)數(shù)據(jù)對(duì)模型進(jìn)行預(yù)訓(xùn)練。

本研究采用的行人狀態(tài)預(yù)測(cè)模塊由兩個(gè)部分組成,第一部分用于提取當(dāng)前人機(jī)交互環(huán)境狀態(tài)特征,其具體組成方式與價(jià)值估計(jì)模塊中的狀態(tài)估計(jì)模塊類(lèi)似:使用多層感知機(jī)對(duì)環(huán)境編碼得到各節(jié)點(diǎn)特征潛向量,之后利用近似函數(shù)計(jì)算關(guān)聯(lián)矩陣,再根據(jù)圖卷積網(wǎng)絡(luò)正向傳播,得到全部行人和機(jī)器人當(dāng)前深層交互狀態(tài)的特征表達(dá);模塊的第二部分通過(guò)另一個(gè)多層感知機(jī)接收行人當(dāng)前時(shí)刻深度交互特征并預(yù)測(cè)下一時(shí)刻行人狀態(tài)。即GCN-RL 并不會(huì)顯式地預(yù)測(cè)行人在下一時(shí)刻的行動(dòng)軌跡,而是直接預(yù)測(cè)行人未來(lái)狀態(tài)。由于這些特征本身包含了行人與環(huán)境交互的深度信息,而本研究中,機(jī)器人正是通過(guò)環(huán)境的狀態(tài)特征計(jì)算狀態(tài)-動(dòng)作價(jià)值,因此對(duì)行人狀態(tài)的預(yù)測(cè)能夠幫助機(jī)器人更準(zhǔn)確地評(píng)估當(dāng)前時(shí)刻執(zhí)行不同動(dòng)作的收益。

2.4 機(jī)器人動(dòng)作選擇

在具體的行人避讓過(guò)程中,機(jī)器人每隔0.25 s 就需要從80 個(gè)離散動(dòng)作中做出選擇,解空間非常龐大。本研究借鑒了N步自舉法[14]和蒙特卡洛樹(shù)搜索[15]的思想,將學(xué)習(xí)到的深度價(jià)值估計(jì)模型與前向推演相結(jié)合,采用一種在當(dāng)前狀態(tài)模擬執(zhí)行最優(yōu)動(dòng)作并與預(yù)測(cè)的環(huán)境狀態(tài)交互以取得回報(bào)的方式更新當(dāng)前狀態(tài)下不同動(dòng)作的價(jià)值估計(jì),其推演流程如圖3所示。機(jī)器人根據(jù)推演結(jié)果更新當(dāng)前狀態(tài)下的動(dòng)作價(jià)值,并以此為依據(jù)選擇動(dòng)作。動(dòng)作價(jià)值按照以下公式更新:

圖3 K 步推演更新動(dòng)作價(jià)值Fig.3 K-step rollout update action value

實(shí)驗(yàn)中前向推演的步數(shù)為K,推演的廣度設(shè)置為W。當(dāng)K取1時(shí),機(jī)器人只能根據(jù)當(dāng)前環(huán)境已知信息計(jì)算動(dòng)作預(yù)期收益,不能利用到行人狀態(tài)預(yù)測(cè)模塊對(duì)未來(lái)狀態(tài)的預(yù)估。更大的K值則意味著機(jī)器人能夠在動(dòng)作選擇時(shí)考慮的更加長(zhǎng)遠(yuǎn)。機(jī)器人探索環(huán)境的過(guò)程中,獎(jiǎng)勵(lì)非常稀疏,因此采用更大的K值也可以提高一次推演中到達(dá)目標(biāo)點(diǎn)的概率,從而提升模型的學(xué)習(xí)效果。然而,增加的K會(huì)大幅增加計(jì)算成本。因此設(shè)置W對(duì)推演的動(dòng)作空間進(jìn)行剪枝,即每次前向推演僅考慮嘗試預(yù)期收益排名前W的動(dòng)作。這種在線推演的方式兼顧了避障模型的性能與效率,可以在相對(duì)低的采樣次數(shù)中對(duì)任意狀態(tài)下的動(dòng)作價(jià)值有較為準(zhǔn)確的估計(jì)。

3 模型訓(xùn)練

3.1 模型初始化

機(jī)器人在移動(dòng)過(guò)程中獲得的獎(jiǎng)勵(lì)較為稀疏,因此從零開(kāi)始訓(xùn)練會(huì)導(dǎo)致模型無(wú)法收斂。為加快模型收斂,采用模仿學(xué)習(xí)[16]對(duì)模型進(jìn)行初始化。在模仿學(xué)習(xí)過(guò)程中,機(jī)器人依照ORCA 避障算法實(shí)現(xiàn)CrowdNav 下的導(dǎo)航。經(jīng)過(guò)模仿學(xué)習(xí)對(duì)網(wǎng)絡(luò)參數(shù)的初始化,機(jī)器人初步具備了對(duì)障礙的避讓能力,可以在后續(xù)訓(xùn)練過(guò)程中側(cè)重于導(dǎo)航路徑的優(yōu)化,避免大量無(wú)意義的動(dòng)作嘗試。

3.2 訓(xùn)練流程

算法1展示了模型的訓(xùn)練流程。

算法1 模型訓(xùn)練流程

輸入:模仿學(xué)習(xí)經(jīng)驗(yàn)池D

輸出:訓(xùn)練后的價(jià)值估計(jì)模型Mv和動(dòng)作預(yù)測(cè)模型Mp

經(jīng)過(guò)模仿學(xué)習(xí)后,經(jīng)驗(yàn)池E中保存了一系列元組(St,at,rt,St+1),對(duì)于每一次從起點(diǎn)出發(fā)的訓(xùn)練,隨機(jī)初始化行人與機(jī)器人的狀態(tài),隨后,機(jī)器人采用ε-greedy策略選擇動(dòng)作獲得收益,并將探索獲取的經(jīng)驗(yàn)存入經(jīng)驗(yàn)池。隨后采用經(jīng)驗(yàn)回放機(jī)制從E中隨機(jī)選取一批(St,at,rt,St+1)用于更新價(jià)值估計(jì)模塊以及狀態(tài)估計(jì)模塊的參數(shù)。一次完整訓(xùn)練流程模擬了機(jī)器人從起點(diǎn)到目標(biāo)點(diǎn)(產(chǎn)生碰撞或超時(shí))的整個(gè)流程。通過(guò)利用經(jīng)驗(yàn)回放機(jī)制[17]訓(xùn)練模型,機(jī)器人記憶池中的數(shù)據(jù)被高效利用,同時(shí)避免了相鄰數(shù)據(jù)的強(qiáng)關(guān)聯(lián)性對(duì)訓(xùn)練效果的負(fù)面影響。在每次訓(xùn)練達(dá)到終點(diǎn)狀態(tài)后,價(jià)值估計(jì)模塊和狀態(tài)預(yù)測(cè)模塊同步更新。

4 實(shí)驗(yàn)驗(yàn)證

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用的場(chǎng)景基于開(kāi)源框架CrowdNav 構(gòu)建,場(chǎng)景設(shè)置為circle-crossing,即環(huán)境中有五名行人隨機(jī)分布在半徑為4 m的圓上,他們的終點(diǎn)位置為起點(diǎn)在圓周上的對(duì)應(yīng)位置,所有行人按照ORCA 避障策略移動(dòng),機(jī)器人的最大速度設(shè)置為1 m/s。為保證行為策略的差異化,算法參數(shù)按照高斯分布采樣得到。機(jī)器人的起始位置和終點(diǎn)位置也在圓周上并關(guān)于圓心對(duì)稱(chēng)。在沒(méi)有行人干擾的情況下,機(jī)器人需要花費(fèi)8 s 行駛到目標(biāo)點(diǎn)。仿真實(shí)驗(yàn)中,機(jī)器人被設(shè)置為對(duì)所有的行人而言不可見(jiàn),即行人不會(huì)主動(dòng)躲避機(jī)器人。這樣設(shè)置有助于充分體現(xiàn)機(jī)器人自主躲避行人的效果。用于編碼機(jī)器人和行人狀態(tài)的MLP維度為(64,32),用于價(jià)值估計(jì)的MLP維度為(150,100,100),用于行人狀態(tài)預(yù)測(cè)的MLP維度為(64,32),Wa的輸出維度設(shè)置為32。模型的所有參數(shù)通過(guò)強(qiáng)化學(xué)習(xí)流程進(jìn)行訓(xùn)練,并使用引入權(quán)重機(jī)制的AdamW[18]算法更新參數(shù),AdamW 的權(quán)重衰減率為0.1。在ε-greedy 策略中,探索率ε最初設(shè)置為0.5,在初始的5 000 次迭代訓(xùn)練后線性降低至0.1,并在后5 000 次迭代中保持在0.1。模仿學(xué)習(xí)次數(shù)設(shè)置為2 000,訓(xùn)練周期總數(shù)設(shè)置為10 000。使用Adam 以及AdamW 算法更新模型,在K步推演階段,K設(shè)置為2,W設(shè)置為2。實(shí)驗(yàn)平臺(tái)為搭載i7-11850H的手提電腦,訓(xùn)練時(shí)長(zhǎng)約為16 h。

4.2 模型訓(xùn)練結(jié)果

模型在10 000 次訓(xùn)練過(guò)程中的累計(jì)折扣獎(jiǎng)勵(lì)曲線如圖4 所示。Adam 作為當(dāng)前主流的優(yōu)化算法,在很多模型中廣泛應(yīng)用,然而面對(duì)過(guò)擬合問(wèn)題時(shí),Adam算法因其權(quán)重更新機(jī)制,不適合像隨機(jī)梯度下降方法一樣使用L2 正則化權(quán)重懲罰項(xiàng)進(jìn)行權(quán)重更新。AdamW 優(yōu)化算法在Adam 算法的基礎(chǔ)上設(shè)置了權(quán)重衰減方法[18],能有效避免模型過(guò)擬合。實(shí)驗(yàn)分別采用Adam和AdamW對(duì)GCN-RL 模型進(jìn)行訓(xùn)練,從圖4 的訓(xùn)練累計(jì)折扣獎(jiǎng)勵(lì)中可以看出,使用Adam 訓(xùn)練的模型在6 000 個(gè)訓(xùn)練周期后達(dá)到最佳性能,但隨后模型的性能由于過(guò)擬合而出現(xiàn)了一定程度的下降。在使用AdamW 對(duì)模型進(jìn)行訓(xùn)練時(shí),雖然權(quán)重衰減導(dǎo)致模型在前4 000 個(gè)訓(xùn)練周期的收斂的速度相對(duì)于使用Adam 算法較慢,但在6 000 個(gè)訓(xùn)練周期后AdamW 算法的訓(xùn)練效果已經(jīng)與Adam 相當(dāng),且在之后的訓(xùn)練過(guò)程中,AdamW 能夠幫助模型收斂到更優(yōu)性能,且并未遭遇因模型過(guò)擬合而導(dǎo)致的性能下降。因此選用AdamW算法以保證GCN-RL模型的訓(xùn)練效果。

圖4 訓(xùn)練累計(jì)折扣獎(jiǎng)勵(lì)Fig.4 Cumulative discounted reward

4.3 模型性能對(duì)比

不同避障方法在Crowd-Nav 仿真場(chǎng)景下的性能表現(xiàn)如表1 所示。由于GCN-RL 首先基于ORCA 進(jìn)行有監(jiān)督的預(yù)訓(xùn)練,因此引入ORCA用于模型性能對(duì)比??梢钥闯?,盡管ORCA采用線性規(guī)劃計(jì)算機(jī)器人動(dòng)作的方式使其運(yùn)行速度很快,但由于其不具備從環(huán)境中學(xué)習(xí)的能力,導(dǎo)航過(guò)程中的避障成功率和平均導(dǎo)航時(shí)間都不理想。SARL使用注意力機(jī)制提取環(huán)境特征,是當(dāng)前表現(xiàn)最佳的模型,然而注意力機(jī)制的應(yīng)用增加了模型的復(fù)雜程度,導(dǎo)致特征計(jì)算需要更大的開(kāi)銷(xiāo)。而GCN-RL采用圖網(wǎng)絡(luò)進(jìn)行順序交互特征提取,計(jì)算方式相當(dāng)于矩陣乘法,所需的開(kāi)銷(xiāo)更小,模型的運(yùn)行時(shí)間也明顯更少。為證明GCN-RL 模型中采用的狀態(tài)預(yù)測(cè)模塊為模型帶來(lái)的性能提升,設(shè)計(jì)了線性預(yù)測(cè)對(duì)比模型GCN-RL-Linear,其中行人下一時(shí)刻的狀態(tài)由線性擬合函數(shù)近似,即默認(rèn)行人在0.25 s的時(shí)間間隔后會(huì)延續(xù)上一時(shí)刻的動(dòng)作。從表1 可以看出其性能低于GCN-RL,這說(shuō)明通過(guò)狀態(tài)預(yù)估模塊的使用讓機(jī)器人能更準(zhǔn)確地預(yù)測(cè)行人狀態(tài),從而幫助機(jī)器人更好地在導(dǎo)航過(guò)程中實(shí)現(xiàn)對(duì)行人的避讓。

表1 不同避障策略性能比較Table 1 Comparison of different strategy

4.4 K 步推演對(duì)模型性能的影響

為驗(yàn)證GCN-RL 模型中采用的動(dòng)作選擇策略對(duì)模型性能的提升作用,設(shè)計(jì)了多組對(duì)比實(shí)驗(yàn)以測(cè)試不同推演深度K和不同剪枝數(shù)W的模型在500個(gè)不同場(chǎng)景下的實(shí)際運(yùn)行表現(xiàn),測(cè)試結(jié)果如表2 所示。從中可以看出,更多的前向推演步數(shù)縮短了機(jī)器人的導(dǎo)航時(shí)間,同時(shí)降低了機(jī)器人與行人距離過(guò)近的概率。然而,當(dāng)K=3時(shí),繼續(xù)增加的前向推演步數(shù)對(duì)于模型性能的提升相對(duì)有限。同時(shí),增加預(yù)剪枝的寬度也對(duì)模型性能有提升,但會(huì)伴隨著顯著增加的算法運(yùn)行時(shí)間,因此模型采用W=2 以平衡性能和運(yùn)行成本。值得注意的是,任何一組參數(shù)下的實(shí)驗(yàn)其導(dǎo)航成功率都未達(dá)到100%,這是因?yàn)闄C(jī)器人被設(shè)置為對(duì)行人不可見(jiàn),部分極端場(chǎng)景下行人會(huì)“包圍”機(jī)器人,導(dǎo)致無(wú)法躲避的碰撞。另外,K和W的增加都會(huì)增加導(dǎo)致機(jī)器人導(dǎo)航過(guò)程中的計(jì)算負(fù)荷,在真實(shí)場(chǎng)景中需要根據(jù)硬件性能限制設(shè)置能平衡模型性能和計(jì)算開(kāi)銷(xiāo)的推演參數(shù)。

表2 不同參數(shù)下模型性能Table 2 Model performance with different parameters

如圖5 中所示,在環(huán)境相同,行人移動(dòng)軌跡一致的情況下,不同的推演參數(shù)使機(jī)器人選擇了不同的導(dǎo)航路徑。從圖5中可以看出,t=4 s 時(shí)行人位置較為集中,當(dāng)K=1 時(shí),機(jī)器人短視地向右轉(zhuǎn)向以躲避路徑上的紅色行人,從而選擇了從行人密集處穿行的路線,導(dǎo)航時(shí)間為10.5 s。當(dāng)K=2 時(shí),機(jī)器人初步具備了預(yù)估行人動(dòng)作的能力,做出了從紅色行人身后繞行的嘗試。然而由于其只進(jìn)行了單步前向推演,對(duì)行人未來(lái)動(dòng)作的預(yù)測(cè)不夠準(zhǔn)確,最后還是選擇了從行人密集處穿過(guò),導(dǎo)航時(shí)間也因此增加了0.3 s。而當(dāng)K=3 時(shí),機(jī)器人通過(guò)前向推演有效預(yù)測(cè)了行人的未來(lái)動(dòng)作,選擇了從紅色行人身后繞行的路線,有效規(guī)避了行走路徑上的人群密集區(qū)域。雖然選擇的路徑相對(duì)遠(yuǎn),但由于做出的避讓動(dòng)作更少,機(jī)器人只用了10.2 s即到達(dá)目標(biāo)。實(shí)驗(yàn)結(jié)果表明前向推演策略幫助機(jī)器人選擇了更優(yōu)的行駛路徑,導(dǎo)航時(shí)間更短,對(duì)行人的避讓效果更好。

5 結(jié)束語(yǔ)

本文提出了一種利用圖卷積網(wǎng)絡(luò)的強(qiáng)化學(xué)習(xí)避障方法GCN-RL,用于解決仿真環(huán)境中機(jī)器人對(duì)行人的避讓問(wèn)題。GCN-RL 模型相較于傳統(tǒng)避障模型有更好的表現(xiàn),基本達(dá)到了當(dāng)前同一問(wèn)題下最優(yōu)模型的性能,同時(shí)運(yùn)行時(shí)間更短。模型采用GCN架構(gòu)提取環(huán)境的深層關(guān)聯(lián)特征,并利用提取到的特征同時(shí)對(duì)動(dòng)作價(jià)值和行人狀態(tài)進(jìn)行估計(jì)以指導(dǎo)避障,從而使得算法的復(fù)雜度降低,運(yùn)行時(shí)間更短。在模型的訓(xùn)練階段,實(shí)驗(yàn)應(yīng)用了AdamW 算法使得價(jià)值估計(jì)模塊能夠收斂到更好的性能。另外,模型通過(guò)采用K步推演實(shí)現(xiàn)了對(duì)動(dòng)作價(jià)值的更精準(zhǔn)評(píng)估。通過(guò)實(shí)驗(yàn)分析了不同參數(shù)下的模型表現(xiàn),體現(xiàn)了該方法對(duì)機(jī)器人行人避讓性能的提升。

猜你喜歡
行人機(jī)器人狀態(tài)
毒舌出沒(méi),行人避讓
意林(2021年5期)2021-04-18 12:21:17
狀態(tài)聯(lián)想
路不為尋找者而設(shè)
生命的另一種狀態(tài)
我是行人
熱圖
家庭百事通(2016年3期)2016-03-14 08:07:17
堅(jiān)持是成功前的狀態(tài)
山東青年(2016年3期)2016-02-28 14:25:52
機(jī)器人來(lái)幫你
認(rèn)識(shí)機(jī)器人
機(jī)器人來(lái)啦
成都市| 鹰潭市| 南川市| 临澧县| 北票市| 西畴县| 石台县| 汉沽区| 肇庆市| 河曲县| 久治县| 朝阳市| 石台县| 福建省| 莱阳市| 韩城市| 焉耆| 阜康市| 芜湖市| 福建省| 鞍山市| 灌云县| 梅河口市| 安义县| 大厂| 吴堡县| 桦南县| 马山县| 天镇县| 泸州市| 乌海市| 九江县| 炎陵县| 洱源县| 宜兴市| 邻水| 宣化县| 富阳市| 泊头市| 沿河| 天水市|