国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學習的機器人導航算法研究

2023-05-30 21:37:31熊李艷舒垚淞曾輝黃曉輝
華東交通大學學報 2023年1期

熊李艷 舒垚淞 曾輝 黃曉輝

摘要:移動機器人穿越動態(tài)密集人群時,由于對環(huán)境信息理解不充分,導致機器人導航效率低且泛化能力弱。針對這一問題,提出了一種雙重注意深度強化學習算法。首先,對稀疏的獎勵函數(shù)進行優(yōu)化,引入距離懲罰項和舒適性距離,保證機器人趨近目標的同時兼顧導航的安全性;其次,設計了一種基于雙重注意力的狀態(tài)價值網(wǎng)絡處理環(huán)境信息,保證機器人導航系統(tǒng)兼具環(huán)境理解能力與實時決策能力;最后,在仿真環(huán)境中對算法進行驗證。實驗結(jié)果表明,提出的算法不僅提高了機器人導航效率還提升了導航系統(tǒng)的魯棒性,主要表現(xiàn)為:在500個隨機的測試場景中,碰撞次數(shù)和超時次數(shù)均為0,導航成功率優(yōu)于對比算法,且平均導航時間比最好的算法縮短了2%;當環(huán)境中行人數(shù)量、導航距離發(fā)生變化時算法依然有效,且導航時間短于對比算法。

關(guān)鍵詞:深度強化學習;獎勵函數(shù);狀態(tài)價值網(wǎng)絡;雙重注意力

中圖分類號:U495;TP242 文獻標志碼:A

本文引用格式:熊李艷,舒垚淞,曾輝,等. 基于深度強化學習的機器人導航算法研究[J]. 華東交通大學學報,2023,40(1):67-74.

Research on Robot Navigation Algorithm Based on

Deep Reinforcement Learning

Xiong Liyan, Shu Yaosong, Zeng Hui, Huang Xiaohui

(School of Information Engineering, East China Jiaotong University, Nanchang 330013, China)

Abstract:When the mobile robot passes through the dynamic dense crowd, due to the insufficient understanding of environmental information, the robot navigation efficiency is low and the generalization ability is weak. To solve this problem, a double-attention deep reinforcement learning algorithm is proposed. Firstly, the sparse reward function was optimized, and the distance penalty term and comfort distance were introduced to ensure that the robot approached the target while taking into account the safety of navigation. Secondly, a state value network based on double attention was designed to process environmental information to ensure that the robot navigation system has both environmental understanding ability and real-time decision-making ability. Finally, the algorithm was verified in the simulation environment. Experimental results show that the proposed algorithm not only improves the navigation efficiency, but also improves the robustness of the robot navigation system; The main performance is that in 500 random test scenarios, the collision times and timeout times are 0, the navigation success rate is better than the comparison algorithm, and the average navigation time is 2% shorter than the best algorithm; When the number of pedestrians and navigation distance in the environment change, the algorithm is still effective, and the navigation time is shorter than the comparison algorithm.

Key words: deep reinforcement learning; reward function; state value network; double attention

研究對環(huán)境模型依賴程度低、能通過自主學習適應復雜環(huán)境的導航方法是移動機器人導航研究的必然趨勢[1]。動態(tài)密集的人群是一種典型的動態(tài)避障導航場景[2],機器人通過感知實時變化的環(huán)境信息,選擇合適的動作,最終安全無碰撞穿越運動人群,在保證安全的前提下盡快到達目標位置。運動的行人相比于道路中行駛的車輛,行為更加靈活與不可預測。理解并推理行人意圖,對于移動機器人在人群環(huán)境中順利導航至關(guān)重要[3]。

傳統(tǒng)的導航算法主要針對環(huán)境基本可知且固定、機器人定位準確且運動方式簡單的情況,利用經(jīng)典的搜索算法或規(guī)劃算法,計算出一條安全可靠的路徑[4]。常用的有蟻群算法、A*算法、人工勢場法以及動態(tài)窗口法等方法[5-9]。以上傳統(tǒng)的方法在復雜的環(huán)境中無法處理復雜的高維環(huán)境信息,容易陷入局部最優(yōu),并且在動態(tài)障礙物較多的場景中效果不佳[10]。

考慮到深度學習對環(huán)境的感知能力,以及強化學習優(yōu)秀的決策能力,將深度學習與強化學習相結(jié)合提出的深度強化學習[11-13](deep reinforcement learning,DRL),能夠?qū)崿F(xiàn)移動機器人在復雜的環(huán)境中能夠不依賴地圖信息進行自主導航[14]。Chen等[15]將運動的行人視為不合作的機器人,融合多智能體導航[16]與DRL,提出了一種多機器人在無通信場景下的無碰撞算法,實現(xiàn)多個機器人在同一個環(huán)境中到達各自目標位置不發(fā)生碰撞。后續(xù)的工作中[17-18] 增加了社交意識(socially aware)模塊,并將該算法擴展至人群社交性導航場景中。

然而行人的運動具有一定的隨機性,并不完全和機器人一樣,為了編碼機器人與人群的交互過程,Chen等[19]將注意力機制引入DRL提出了SARL(socially attentive with deep reinforcement learning, SARL)算法,使得機器人的導航過程更符合人群的社交行為,后續(xù)的工作中[20]使用圖卷積編碼交互過程。Li等[21]引入動態(tài)局部目標設定機制,使得SARL更適應于長距離導航。

為了更好理解人群運動,本文提出一種雙重注意深度強化學習算法(double attention deep reinforcement learning algorithm,DADRL)。

1 問題建模

本文將移動機器人導航環(huán)境簡化為二維平面,如圖1所示。環(huán)境中存在個向著各自終點運動的行人,各自半徑為ri(i=1,2,…,n),機器人為平面中一個半徑為的圓,運動方向由紅色箭頭標出。機器人通過傳感器獲取人群的實時狀態(tài),并且由運動策略控制執(zhí)行離散的動作。

在這樣一個部分可觀測的環(huán)境中,機器人根據(jù)實時獲取的環(huán)境狀態(tài)進行運動,是一個順序決策過程。將人群導航問題建模為馬爾科夫決策過程,用元組M≡表示[22]。其中S為狀態(tài)空間,A為動作空間,P為狀態(tài)轉(zhuǎn)移概率,R為獎勵函數(shù),γ為折扣因子。機器人通過與環(huán)境的交互學習控制策略,目標是得到策略函數(shù),從而機器人可以根據(jù)接收的聯(lián)合狀態(tài)選擇最佳的動作,安全無碰撞到達目標位置。

1.1 狀態(tài)空間與動作空間

環(huán)境將聯(lián)合狀態(tài)Stjn=[St,Oti]反饋給機器人,其中St表示t時刻機器人自身的狀態(tài)信息,Oti表示t時刻第i個人被機器人觀測到的信息,St和Oti都是狀態(tài)空間S的子集。為了更好描述機器人的局部信息,對全局坐標系重建,以機器人所在的位置為原點,機器人與目標點的連線為X軸,建立以機器人為中心的坐標系。轉(zhuǎn)換后的St和Oti為

St=[vx,vy,vpref,r,dg]

Oti=[pix,piy,vix,viy,ri,ri,+r,di]

Stjn=[St,Ot1,Ot2,…Otn](1)

式中:vx,vy為機器人的速度信息;vpref為首選速度;r為機器人半徑;dg表示機器人到目標位置的距離。pix,piy,vix,viy分別為第i個人的位置信息和速度信息;ri為第i個人的半徑大小;di為第i個人與機器人的距離;Stjn為整個環(huán)境的狀態(tài)信息。

動作空間A=[v,ω]由80個離散的動作構(gòu)成。其中:v表示線速度,在區(qū)間[0,vpref]內(nèi)以指數(shù)間隔取5個值;ω表示角速度,在區(qū)間[0,2π]內(nèi)均勻取16個值。

1.2 獎勵函數(shù)

獎勵函數(shù)R的表達式為

Rt(Stjn,at)=-ηdg+2,dg=0

-1,dmin≤0

0.3dΔ,0

0,其他 (2)

式中:Rt為聯(lián)合狀態(tài)為Stjn時,機器人采取動作at所得到的獎勵值,機器人執(zhí)行的操作at∈A。

本文設計了一個大于0的距離懲罰系數(shù)η,當機器人與終點的距離dg越遠則獎勵值越小;dg為0則意味著機器人成功到達了終點,此時導航結(jié)束;dmin表示人群中離機器人最近的單位與機器人的距離,小于0意味著發(fā)生了碰撞,此時導航終止;dΔ=dmin-dc,其中dc是人為指定的舒適性距離,0

獎勵函數(shù)的設計,目的是使得機器人盡快向目標位置靠近,在這個過程中盡可能避免碰撞,同時在前進的過程中兼顧與人群的舒適性。

1.3 策略函數(shù)

策略函數(shù)π(Stjn)∶Stjn→at,表明在聯(lián)合狀態(tài)Stjn下采取的最優(yōu)動作為at。遍歷動作空間A,考慮當前狀態(tài)下執(zhí)行動作at的獎勵值,以及執(zhí)行動作后下一狀態(tài)的價值,綜合衡量后選取最佳動作,表達式為

π(Stjn)=

RtStjn,at+γ

P

VS

(3)

式中:P=Ps′=S

| s=Stjn,a=at,表示在聯(lián)合狀態(tài)Stjn下機器人執(zhí)行動作at后,下一個聯(lián)合狀態(tài)為S的概率,機器人執(zhí)行兩個相鄰動作的時間間隔為Δt。由于聯(lián)合狀態(tài)由St和Oti組成,機器人執(zhí)行動作St后人群的狀態(tài)O是不確定的,S也是不確定的,狀態(tài)轉(zhuǎn)移矩陣P描述了這種不確定性。

1.4 狀態(tài)價值函數(shù)的貝爾曼方程

本文將時間間隔Δt設置為0.25 s,并假定機器人得到動作后能立即執(zhí)行,將得到確定的機器人的下一狀態(tài)St+Δt。假定在[t,t+Δt]內(nèi)每個人繼續(xù)按照之前的速度和方向進行運動,得到人群的下一狀態(tài)O作為預測值。通過這種簡化,機器人采取某一動作后,能夠得到確定的下一聯(lián)合狀態(tài)S,不再需要狀態(tài)轉(zhuǎn)移矩陣。狀態(tài)價值函數(shù)的貝爾曼方程為

V(S)=RtS

RtStjn,at+γ

VS

+

γVS

(4)

式中:V為某一聯(lián)合狀態(tài)的長期累積獎勵,其中折扣因子γ∈[0,1],越大表明越看重長遠獎勵。

2 狀態(tài)價值網(wǎng)絡的構(gòu)建與訓練

狀態(tài)價值函數(shù)V(S)表示從t時刻到導航終止這一過程中的累積總獎勵,綜合衡量了聯(lián)合狀態(tài)S的長期價值,不僅涉及對環(huán)境的感知,更是支撐智能體進行決策的關(guān)鍵依據(jù);因此能夠準確衡量不同狀態(tài)對應的長期累積價值顯得尤為重要。

本文用神經(jīng)網(wǎng)絡擬合狀態(tài)價值函數(shù),提出了一種基于雙重注意力的狀態(tài)價值網(wǎng)絡用以整合狀態(tài)信息,提取機器人與人群的交互特征,計算輸入狀態(tài)的累積折損獎勵。

狀態(tài)價值網(wǎng)絡的結(jié)構(gòu)如圖2所示,由3部分組成:狀態(tài)預處理模塊,特征融合模塊,決策模塊。下文將詳細介紹這3個模塊的具體結(jié)構(gòu)和功能,以及狀態(tài)價值網(wǎng)絡的訓練。

2.1 狀態(tài)預處理模塊

狀態(tài)預處理模塊主要的功能是得到機器人與第i個人的融合特征ei,表達式為

ei=fe(St,O;we)? (5)

式中:St為t時刻機器人自身的狀態(tài)信息,包含有5個維度信息;O為t時刻第i個人被機器人觀測到的信息,包含有7個維度信息; fe(·)為一個多層感知機;we為神經(jīng)網(wǎng)絡的權(quán)值,激活函數(shù)為ReLU。

融合后的向量ei將機器人信息與第i個行人的信息進行整合,得到n個維度相同的向量,為后續(xù)的特征提取做準備。

2.2 特征融合模塊

特征融合模塊主要功能,是將兩兩交互特征ei通過雙重注意力模型,轉(zhuǎn)化為機器人與人群的交互特征Ct,其中雙重注意力模型如圖3所示。

預處理后的n個融合特征ei拼接成矩陣輸入雙重注意力模型。矩陣e通過結(jié)構(gòu)相同但權(quán)值不同的三個多層感知機,得到3個新的矩陣q、k、v,表達式為

qi=?q(ei;wq); ki=?k(ei;wk); vi=?v(ei;wv) (6)

式中:?q(·),?k(·),?v(·)為不同的多層感知機,wq,wk,wv為對應神經(jīng)網(wǎng)絡的權(quán)值,激活函數(shù)為ReLU。降維后的qi、ki、vi依然包含了第i個人與機器人的融合特征。

注意力向量ui的含義為第i個人對整個環(huán)境的注意力系數(shù),具體表達式為

ui=softmax(qi,kT) (7)

式中:向量qi與矩陣k按行做內(nèi)積運算,得到的向量經(jīng)過softmax之后轉(zhuǎn)化為ui。在這個過程中第i個人綜合考察了環(huán)境中每一個人的信息,其中也包括了機器人的信息,可視為第i個人對整個環(huán)境的感知,即第一重注意。

ui為第i個人從第一個維度對環(huán)境的考察,雙重注意力向量hi則是第i個人從第二個維度考察環(huán)境,即雙重注意,具體的表達式為

hi=uiv? (8)

式中:向量ui與矩陣v按列做內(nèi)積運算,得到第i個人與環(huán)境深度融合后的特征向量hi。

機器人與人群的交互特征Ct,表達式為

Ct=hi (9)

式中:人群中有n個行人,hi是兩兩交互特征ei通過雙重注意力模型得到的雙重注意力向量。

2.3 決策模塊

決策模塊的功能是得到聯(lián)合狀態(tài)S的累積折損獎勵,即狀態(tài)的長期價值,表達式為

V(S)=fv(St,Ct;ws)? (10)

式中:fv(·)為一個多層感知機;ws為對應的神經(jīng)網(wǎng)絡的權(quán)值,激活函數(shù)為ReLU。

決策模塊將機器人自身的狀態(tài)信息、機器人與人群的交互特征整合為一個具體的值,代表了該聯(lián)合狀態(tài)的價值大小,根據(jù)式(3)選擇該狀態(tài)下的最佳動作。

2.4 狀態(tài)價值網(wǎng)絡的訓練

為加速模型的訓練以及選擇更合適的初始化參數(shù),引入模仿學習,用最佳相互避免碰撞算法[23] (optimal reciprocal collision avoidance,ORCA)驅(qū)動機器人在人群中運動,進行3 000回合(episode)的探索,生成軌跡數(shù)據(jù)并構(gòu)造專家經(jīng)驗池,使用模仿學習對價值網(wǎng)絡進行預訓練。

狀態(tài)價值網(wǎng)絡的迭代更新使用時序差分法,訓練過程則采用DQN[24]的雙網(wǎng)絡結(jié)構(gòu)和經(jīng)驗回放池。探索過程采用ε-greedy策略,前5 000回合ε從0.5線性減小至0.1,后5 000回合ε=0.1,導致探索終止的條件包括:機器人到達目標位置、機器人發(fā)生碰撞、導航時間超過上限,探索過程中將獲得的信息同步存儲于經(jīng)驗池中。機器人每走一步,從經(jīng)驗池隨機采樣一批經(jīng)驗更新價值網(wǎng)絡。

3 實驗結(jié)果與分析

3.1 仿真環(huán)境與實驗參數(shù)

本文使用的仿真環(huán)境是CrowdNav[19]。為了構(gòu)造機器人穿越人群的場景,且行人的運動距離有效,將環(huán)境設置為一個圓形,行人的初始位置隨機分布,其各自的終點與起點關(guān)于圓心對稱,再對終點加上隨機的擾動,機器人的起點和終點同樣大致關(guān)于圓心對稱。

為了評估本文提出的方法的有效性,設置機器人對人群不可見,即行人不會刻意避免不與機器人發(fā)生碰撞,機器人則需要理解人群的運動并做出合適的動作。模型的訓練參數(shù)如表1所示。

3.2 定量分析

為了衡量算法的有效性,將本文提出的方法與CADRL[15]、GA3C-CADRL[18]、SARL[19] 3種成熟的導航算法進行對比,在500個隨機的測試環(huán)境中進行驗證,環(huán)境的半徑為4 m,行人數(shù)量為5。

評價指標包括:導航成功率、碰撞次數(shù)、超時次數(shù)、平均導航時間、不舒適頻率。導航成功率即500次測試中,機器人安全無碰撞到達目標位置的次數(shù)所占的比例,是最重要的指標;碰撞次數(shù)指的是導航過程中機器人與行人發(fā)生碰撞的次數(shù),碰撞即意味著導航失敗;超時次數(shù)指的是導航時間超過25 s但沒有發(fā)生碰撞的次數(shù),意味著機器人發(fā)生“凍結(jié)”[25];平均導航時間是成功進行導航的平均耗時;本文定義機器人與人的距離小于0.2 m時會讓行人產(chǎn)生不舒適感,不舒適次數(shù)的占比即不舒適頻率。對比實驗的結(jié)果如表2所示。

在4種對比算法中,CADRL的導航成功率最低,碰撞率達到了4%,GA3C-CADRL 的導航時間最長,且成功率也僅優(yōu)于CADRL,在提升導航成功率的過程中犧牲了導航時間。這是由于這兩種算法只考慮了單一的“機器人—行人”交互過程,對整個環(huán)境的理解具有局限性,這也證明了編碼整個人群運動的必要性。

SARL和本文提出的DADRL都對機器人與人群的交互進行編碼,在500個測試例子中,SARL的方法發(fā)生了一次碰撞,本文提出的方法則全部安全到達,且平均導航時間相比SARL縮短了2個百分點,代價是犧牲了很小的舒適性。與先進的SARL算法相比,DADRL在獎勵函數(shù)中增加了距離懲罰項,價值網(wǎng)絡也進行了優(yōu)化。在保證導航成功率的情況下,降低了導航時間,不舒適頻率也相差不大,這證明了本文提出的方法的有效性。

3.3 魯棒性分析

為了進一步衡量算法的魯棒性,將訓練好的算法應用于不同的環(huán)境中。

表3記錄在環(huán)境半徑保持4 m不變的情況下,環(huán)境中行人數(shù)量p發(fā)生變化時,不同方法的導航成功率。結(jié)果表明SARL和DADRL在行人數(shù)量變化時成功率保持在99%以上,且效果優(yōu)于對比算法。

圖4則表示在環(huán)境半徑保持4 m不變的情況下,機器人平均導航時間與行人數(shù)量之間的變化關(guān)系。環(huán)境中行人越多意味著導航環(huán)境越復雜,相應的導航時間也越長。本文提出的DADRL在4種算

法中始終保持導航時間最短,比最優(yōu)秀的SARL還縮短了2%,表明本文的方法在整合人群運動特征方面優(yōu)于對比算法,能更好處理行人數(shù)量變化的人群導航問題。

表4為環(huán)境中僅有5個行人的情況下,導航距離發(fā)生變化時不同方法的導航成功率,表明SARL和DADRL能夠一定程度上適應導航距離的變化。

圖5則表示環(huán)境中存在5個行人的情況下,機器人平均導航時間與環(huán)境半徑之間的變化關(guān)系。隨著環(huán)境半徑增大即導航距離變長,導航時間大致呈線性增長的趨勢,本文提出的 DADRL相比于其他3種算法,始終具有更短的平均導航時間。當環(huán)境半徑為3 m時,DADRL與SARL的導航時間差距達到最大為10%。實驗結(jié)果表明,本文提出的方法能夠更好應對導航距離變化的問題。

3.4 定性分析

為了更直觀展示導航效果,本文對表2的對比實驗進行定性分析,繪制四種算法控制下的機器人在人群中的導航軌跡。圖中圓圈的大小代表行人與機器人的大小,實心圓代表的是機器人,空心圓則是運動的行人。圓圈中的數(shù)字代表某一時刻行人/機器人所處位置,例如:0.0標注起始位置,4.0標注了第4 s時5個行人與機器人分別所處位置,到達目標位置時再次記錄各自的運動時長。將運動的行人編號①~⑤,每隔1 s記錄一次所處位置,將位置連起來得到行人的運動軌跡,同時記錄機器人的運動軌跡,其中5條虛線為行人的運動軌跡,實線為機器人的運動軌跡。

圖6表示由CADRL驅(qū)動的機器人穿越人群的過程,可以觀察到該算法較為“魯莽”,在第4 s與5號行人交錯而過時,并沒有注意到不久將會與1號行人相遇,既沒有加速前進也沒有減速避讓,導致后續(xù)的3 s時間內(nèi)試圖超過前進的1號行人,到第7 s才意識到可以減速讓行,最終耗時12 s到達目的地。該運動過程表明機器人能夠完成對單個行人的避障,但缺乏對人群運動的整體認識。

圖7表示由GA3C-CADRL驅(qū)動的機器人穿越人群的過程,在前4 s的時間內(nèi)都在起點附近打轉(zhuǎn),直到行人的路程過半才出發(fā),最終耗時12.5 s到達終點。

機器人的運動過程表明,CADRL控制的機器人有些“魯莽”,GA3C-CADRL控制的機器人又有些“保守”,都使得導航時間被拉長,是沒有充分理解環(huán)境的表現(xiàn)。

圖8表示由SARL驅(qū)動的機器人穿越人群的過程,該算法顯然對環(huán)境有一定的認識,一開始就注意到行人都是向右側(cè)運動的,因此很早就開始向左側(cè)繞行,到第6 s時轉(zhuǎn)頭直奔目的地,最終耗時9.8 s到達終點。

圖9描述了由DADRL算法控制的機器人穿越人群的過程。實驗結(jié)果表明DADRL算法控制的機器人兼具對環(huán)境的理解能力和實時場景的應對能力,前4 s靠右側(cè)快速前進從而避開密集人群,隨后轉(zhuǎn)向目標位置果斷前進,耗時8.2 s到達終點,運動路徑平滑且耗時最短,是4種策略中最優(yōu)的方案。

4 結(jié)論

1) DADRL具有比對比算法更高的導航效率,體現(xiàn)為導航成功率更高,導航時間更短,不舒適頻率與最優(yōu)算法相差不大;

2) 在導航距離變長、環(huán)境中行人數(shù)量增長的情況下,DADRL的導航效率優(yōu)于對比算法;

3) 通過分析導航軌跡,DADRL的運動路徑更加平滑,到達終點耗時更短。

參考文獻:

[1] KONTOUDIS G P,VAMVOUDAKIS K G. Kinodynamic motion planning with continuous-time q-learning[J]. IEEE

Transactions on Neural Networks and Learning Systems,2019,30(12):3803-3817.

[2] 魏偉和. 動態(tài)密集人群環(huán)境下基于深度強化學習的移動機器人導航[D]. 哈爾濱:哈爾濱工業(yè)大學,2021.

WEI W H. Mobile robot navigation based on deep reinforcement learning in dynamic dense crowd environment [D]. Harbin:Harbin Institute of Technology,2021.

[3] SUN L,ZHAI J,QIN W. Crowd navigation in an unknown and dynamic environment based on deep reinforcement learning[J]. IEEE Access,2019,7:109544.

[4] 林韓熙,向丹,歐陽劍,等. 移動機器人路徑規(guī)劃算法的研究綜述[J]. 計算機工程與應用,2021,57(18):38-48.

LIN H X,XIANG D,OUYANG J,et al. Research review of path planning algorithms for mobile robots[J]. Computer Engineering and Applications,2021,57(18):38-48.

[5] 劉二根,譚茹涵,陳藝琳,等. 基于改進人工蟻群的智能巡線機器人路徑規(guī)劃[J]. 華東交通大學學報,2020,37(6):103-107.

LIU E G,TAN R H,CHEN Y L,et al. Path planning of intelligent line patrol robot based on improved artificial ant colony[J]. Journal of East China Jiaotong University,2020,37(6):103-107.

[6] HE Z ,LIU C,CHU X,et al. Dynamic anti-collision A-star algorithm for multi-ship encounter situations[J]. Applied

Ocean Research,2022,118:102995.

[7] KATHIB O. Real-time obstacle avoidance for manipulators and mobile robots[J]. The International Journal of Robotics Research,1986,5(1):90-98.

[8] FOX D,BURGARD W,THRUN S. The dynamic window approach to collision avoidance[J]. IEEE Robotics & Automation Magazine,2002,4(1):23-33.

[9] 王洪斌,尹鵬衡,鄭維,等. 基于改進的A*算法與動態(tài)窗口法的移動機器人路徑規(guī)劃[J]. 機器人,2020,42(3):346-353.

WANG H B,YIN P H,ZHENG W,et al. Path planning of mobile robots based on improved A* algorithm and dynamic window method[J]. Robotics,2020,42(3):346-353.

[10] 劉林韜. 基于深度強化學習的動態(tài)環(huán)境運動規(guī)劃的研究[D]. 哈爾濱:哈爾濱工業(yè)大學,2021.

LIU L T. Research on dynamic environment motion planning based on deep reinforcement learning[D]. Harbin:

Harbin Institute of Technology,2021.

[11] SILVER D,SCHRITTWIESER J,SIMONYAN K,et al. Mastering the game of go without human knowledge[J]. Nature,2017,550(7676):354-359.

[12] SILVER D,HUBERT T,SCHRITTWIESER J,et al. A general reinforcement learning algorithm that masters chess shogi and Go through self-play[J]. Science,2018,362(6419):1140-1144.

[13] VINYALS O,BABUSCHKIN I,CZARNECKI W M,et al. Grandmaster level in StarCraft II using multi-agent reinforcement learning[J]. Nature,2019,575(7782):350-354.

[14] ZHU K,ZHANG T. Deep reinforcement learning based mobile robot navigation:a review[J].Tsinghua Science and Technology,2021,26(5):674-691.

[15] CHEN Y F,LIU M,EVERETT M,et al. Decentralized non-communicating multiagent collision avoidance with

deep reinforcement learning[C]//Singapor:2017 IEEE international conference on robotics and automation(ICRA),2017.

[16] 孫彧,曹雷,陳希亮,等. 多智能體深度強化學習研究綜述[J]. 計算機工程與應用,2020,56(5):13-24.

SUN Y,CAO L,CHEN X L,et al. Overview of multi-agent deep reinforcement learning[J]. Computer Engineering and Applications,2020,56(5):13-24.

[17] CHEN Y F,EVERETT M,LIU M,et al. Socially aware motion planning with deep reinforcement learning[C]//British Columbia:2017 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),2017.

[18] EVERETT M,CHEN Y F,HOW J P. Motion planning among dynamic,decision-making agents with deep reinforcement learning[C]//Madrid:2018 IEEE/RSJ International

Conference on Intelligent Robots and Systems(IROS),2018.

[19] CHEN C,LIU Y,KREISS S,et al. Crowd-robot interaction: Crowd-aware robot navigation with attention-based deep reinforcement learning[C]//Montreal:2019 International

Conference on Robotics and Automation(ICRA),2019.

[20] CHEN C,HU S,NIKDEL P,et al. Relational graph learning for crowd navigation[C]//Las Vegas:2020 IEEE/RSJ

International Conference on Intelligent Robots and Systems(IROS),2020.

[21] LI K,XU Y,WANG J,et al. SARL deep reinforcement learning based human-aware navigation for mobile robot in indoor environments[C]//Dali:2019 IEEE International

Conference on Robotics and Biomimetics(ROBIO),2019.

[22] LIU L, DUGAS D, CESARI G,et al. Robot navigation in crowded environments using deep reinforcement learning[C]//Las Vegas:2020 IEEE/RSJ International Conference on Intelligent Robots and Systems(IROS),2020.

[23] BERG J,GUY S J,LIN M,et al. Reciprocal n-body collision avoidance[J]. Robotics Research,2011,70:3-19.

[24] MNIH V,KAVUKCUOGLU K,SILVER D,et al. Human-level control through deep reinforcement learning[J]. Nature,

2015,518(7540):529-533.

[25] FAN T,CHENG X,PAN J,et al. Getting robots unfrozen and unlost in dense pedestrian crowds[J]. IEEE Robotics

and Automation Letters,2019,4(2):1178-1185.

湖州市| 博客| 平度市| 西吉县| 闽侯县| 梁山县| 长阳| 石阡县| 泸定县| 岱山县| 麻城市| 林芝县| 高雄市| 三江| 留坝县| 渭源县| 穆棱市| 乐业县| 炎陵县| 鲁山县| 临江市| 哈巴河县| 叶城县| 鲁甸县| 文昌市| 嘉祥县| 沁水县| 兴义市| 航空| 郧西县| 佛坪县| 拜泉县| 资中县| 松江区| 盐边县| 新源县| 三河市| 黑山县| 山阴县| 宣威市| 耒阳市|