于乃功, 默凡凡
(1.北京工業(yè)大學(xué)電子信息與控制工程學(xué)院, 北京 100124;2.北京工業(yè)大學(xué)計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室, 北京 100124;3.數(shù)字社區(qū)教育部工程研究中心, 北京 100124;4.城市軌道交通北京實(shí)驗(yàn)室, 北京 100124)
?
基于深度自動(dòng)編碼器與Q學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃方法
于乃功1,2,3,4, 默凡凡1,2,3,4
(1.北京工業(yè)大學(xué)電子信息與控制工程學(xué)院, 北京100124;2.北京工業(yè)大學(xué)計(jì)算智能與智能系統(tǒng)北京市重點(diǎn)實(shí)驗(yàn)室, 北京100124;3.數(shù)字社區(qū)教育部工程研究中心, 北京100124;4.城市軌道交通北京實(shí)驗(yàn)室, 北京100124)
針對(duì)移動(dòng)機(jī)器人在靜態(tài)未知環(huán)境中的路徑規(guī)劃問(wèn)題,提出了一種將深度自動(dòng)編碼器(deep auto-encoder)與Q學(xué)習(xí)算法相結(jié)合的路徑規(guī)劃方法,即DAE-Q路徑規(guī)劃方法. 利用深度自動(dòng)編碼器處理原始圖像數(shù)據(jù)可得到移動(dòng)機(jī)器人所處環(huán)境的特征信息;Q學(xué)習(xí)算法根據(jù)環(huán)境信息選擇機(jī)器人要執(zhí)行的動(dòng)作,機(jī)器人移動(dòng)到新的位置,改變其所處環(huán)境. 機(jī)器人通過(guò)與環(huán)境的交互,實(shí)現(xiàn)自主學(xué)習(xí). 深度自動(dòng)編碼器與Q學(xué)習(xí)算法相結(jié)合,使系統(tǒng)可以處理原始圖像數(shù)據(jù)并自主提取圖像特征,提高了系統(tǒng)的自主性;同時(shí),采用改進(jìn)后的Q學(xué)習(xí)算法提高了系統(tǒng)收斂速度,縮短了學(xué)習(xí)時(shí)間. 仿真實(shí)驗(yàn)驗(yàn)證了此方法的有效性.
移動(dòng)機(jī)器人; 路徑規(guī)劃; 深度自動(dòng)編碼器;Q學(xué)習(xí)算法
移動(dòng)機(jī)器人技術(shù)是國(guó)家工業(yè)化與信息化進(jìn)程中的關(guān)鍵技術(shù)和重要推動(dòng)力,移動(dòng)機(jī)器人已經(jīng)廣泛應(yīng)用于農(nóng)業(yè)生產(chǎn)、海洋開(kāi)發(fā)、社會(huì)服務(wù)、娛樂(lè)、交通運(yùn)輸、醫(yī)療康復(fù)、航天和國(guó)防以及宇宙探索等領(lǐng)域[1]. 移動(dòng)機(jī)器人研究的重點(diǎn)及難點(diǎn)在于如何使機(jī)器人在復(fù)雜環(huán)境下自主地完成某項(xiàng)預(yù)定的任務(wù),它主要解決的問(wèn)題可分為3個(gè)方面:1) “我(機(jī)器人)現(xiàn)在身在何處”;2) “我要往哪兒走”;3) “我要如何到達(dá)該處”. 而路徑規(guī)劃解決的就是機(jī)器人“我要如何到達(dá)該處”的問(wèn)題.
移動(dòng)機(jī)器人路徑規(guī)劃方法可分為基于模版匹配的路徑規(guī)劃技術(shù)、基于人工勢(shì)場(chǎng)的路徑規(guī)劃技術(shù)、基于地圖構(gòu)建的路徑規(guī)劃技術(shù)和基于人工智能的路徑規(guī)劃技術(shù). 基于人工智能的路徑規(guī)劃技術(shù)是將現(xiàn)代人工智能技術(shù)應(yīng)用到移動(dòng)機(jī)器人的路徑規(guī)劃中,如強(qiáng)化學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)、進(jìn)化計(jì)算、模糊邏輯與信息融合等[2].
其中,強(qiáng)化學(xué)習(xí)不依賴于環(huán)境模型,不需要環(huán)境的先驗(yàn)知識(shí),魯棒性強(qiáng),逐漸成為機(jī)器人領(lǐng)域的一個(gè)研究熱點(diǎn). Beom將模糊邏輯與強(qiáng)化學(xué)習(xí)算法結(jié)合實(shí)現(xiàn)了地面移動(dòng)機(jī)器人的導(dǎo)航[3];Deisenroth等[4]將高斯過(guò)程與基于模型的策略搜索強(qiáng)化學(xué)習(xí)結(jié)合,并將其應(yīng)用在機(jī)器人的控制中;Maeda等[5]利用人工神經(jīng)網(wǎng)絡(luò)的擬合能力,使其與強(qiáng)化學(xué)習(xí)結(jié)合實(shí)現(xiàn)了移動(dòng)機(jī)器人在特定任務(wù)中的路徑規(guī)劃. 要把基于強(qiáng)化學(xué)習(xí)的路徑規(guī)劃應(yīng)用在真實(shí)環(huán)境中,系統(tǒng)必須能很好地處理圖像數(shù)據(jù). 但以上方法均需要人工決定提取何種圖像特征,提取的圖像特征的效果是未知的,且步驟煩瑣. 將深度自動(dòng)編碼器應(yīng)用在強(qiáng)化學(xué)習(xí)中可利用深度自動(dòng)編碼器處理原始圖像數(shù)據(jù),實(shí)現(xiàn)自主提取圖像特征,可以免去人工提取數(shù)據(jù)特征的巨大工作量.
文獻(xiàn)[6]使用卷積神經(jīng)網(wǎng)絡(luò)與強(qiáng)化學(xué)習(xí)結(jié)合,并將其應(yīng)用在真實(shí)環(huán)境中的小車(chē)軌跡跟蹤中. 文獻(xiàn)[7]對(duì)批量模式的強(qiáng)化學(xué)習(xí)算法與深度自動(dòng)編碼器的結(jié)合進(jìn)行了理論研究. 在文獻(xiàn)[6]與文獻(xiàn)[7]的基礎(chǔ)上,本文將一種改進(jìn)后的Q學(xué)習(xí)(Q-learning)算法與深度自動(dòng)編碼器結(jié)合,并成功地應(yīng)用在了移動(dòng)機(jī)器人的路徑規(guī)劃中.
DAE-Q路徑規(guī)劃系統(tǒng)框圖如圖1所示.
首先,將移動(dòng)機(jī)器人所在位置的環(huán)境信息傳遞給深度自動(dòng)編碼器(環(huán)境信息為環(huán)境圖像數(shù)據(jù)),深度自動(dòng)編碼器對(duì)其進(jìn)行編碼獲取圖像的特征信息[8]. 然后,將特征信息傳遞給BP神經(jīng)網(wǎng)絡(luò)進(jìn)行擬合,得到機(jī)器人所處位置的值. 深度自動(dòng)編碼器與BP神經(jīng)網(wǎng)絡(luò)結(jié)合實(shí)現(xiàn)移動(dòng)機(jī)器人全局定位功能;通過(guò)位置信息得到相應(yīng)獎(jiǎng)勵(lì)值R,并將獎(jiǎng)勵(lì)值返回給Q學(xué)習(xí)算法對(duì)Q值進(jìn)行迭代更新,機(jī)器人根據(jù)Q值選擇相應(yīng)的動(dòng)作,使機(jī)器人的位置發(fā)生改變,其所處環(huán)境隨之發(fā)生變化,實(shí)現(xiàn)了機(jī)器人與環(huán)境的交互. 最后,將變化后的環(huán)境信息傳遞給深度自動(dòng)編碼器,以此循環(huán)往復(fù).
強(qiáng)化學(xué)習(xí)的核心思想是與環(huán)境交互學(xué)習(xí),在行動(dòng)- 評(píng)價(jià)的環(huán)境中獲得知識(shí),改進(jìn)行動(dòng)方案以適應(yīng)環(huán)境達(dá)到預(yù)想目的[9]. 試錯(cuò)搜索和延遲回報(bào)是強(qiáng)化學(xué)習(xí)算法2個(gè)最顯著的特征.
機(jī)器人感知周?chē)h(huán)境狀態(tài),根據(jù)強(qiáng)化學(xué)習(xí)算法選擇相應(yīng)的動(dòng)作,機(jī)器人執(zhí)行完動(dòng)作后會(huì)作用于環(huán)境使環(huán)境發(fā)生改變,同時(shí)返回一個(gè)獎(jiǎng)賞信號(hào)給機(jī)器人[10].
Q學(xué)習(xí)算法的產(chǎn)生是強(qiáng)化學(xué)習(xí)的一個(gè)重要里程碑,它是一種模型無(wú)關(guān)的強(qiáng)化學(xué)習(xí)算法. 最優(yōu)行為值估計(jì)的更新依賴于各種“假設(shè)”的動(dòng)作,而不是學(xué)習(xí)策略所選擇的實(shí)際動(dòng)作.Q學(xué)習(xí)算法常采用數(shù)值迭代來(lái)逼近最優(yōu)值,其更新規(guī)則為
Q(st,at)=Q(st,at)+
(1)
式中:α∈[0,1]是學(xué)習(xí)率,控制學(xué)習(xí)速度;st為機(jī)器人當(dāng)前的狀態(tài)(文中是機(jī)器人的位置坐標(biāo));at為機(jī)器人選擇的動(dòng)作值,各動(dòng)作值為at=[1,2,3,4,5],各數(shù)值分別表示機(jī)器人向右走、向上走、向左走、向下走、停在原地;Rt為機(jī)器人選取動(dòng)作at,機(jī)器人狀態(tài)從st轉(zhuǎn)換為st+1時(shí)對(duì)應(yīng)的獎(jiǎng)勵(lì)值;γ∈[0,1]是折扣因子. 由式(1)可知,要更新的Q值是由原來(lái)的Q值和下一個(gè)狀態(tài)的Q值共同決定,Q學(xué)習(xí)數(shù)據(jù)更新過(guò)程如下:
第1步訓(xùn)練s0←s1
第2步訓(xùn)練s0s1←s2
第4步訓(xùn)練s0s1s2←s3
?
第n步訓(xùn)練s0s1s2…sn-1←sn
由以上可知,Q值數(shù)據(jù)傳遞具有一定的滯后性,假設(shè)有任意相連的s1、s2、s3三種狀態(tài),狀態(tài)s1要獲得狀態(tài)s3的Q值反饋需要2次重復(fù)訓(xùn)練循環(huán),即s3將其Q值反饋給s2,s2再將其Q值反饋給s1;同樣,第1個(gè)Q值要獲得相隔n個(gè)狀態(tài)的Q值反饋需要重復(fù)訓(xùn)練n次,這也是限制強(qiáng)化學(xué)習(xí)算法收斂速度的一個(gè)重要原因.
本文采用一種基于“回溯”思想的Q值更新策略. 首先定義記憶矩陣M(t)←[st,at] 來(lái)依次記錄agent所經(jīng)歷過(guò)的所有狀態(tài)與相應(yīng)動(dòng)作,以記憶矩陣中的狀態(tài)動(dòng)作對(duì)作為索引來(lái)找到其對(duì)應(yīng)的Q值,并進(jìn)行更新,更新過(guò)程如下:
Q(sk,ak)←Q(sk,ak)+
k=t-1,t-2,…,2,1
(2)
第1步訓(xùn)練
s0←s1
第2步訓(xùn)練
s0←s1←s2
第3步訓(xùn)練
s0←s1←s2←s3
?
第n步訓(xùn)練
s0←s1←s2←…←sn-1←sn
由以上數(shù)據(jù)更新過(guò)程可知,第1個(gè)Q值要獲得相隔n個(gè)狀態(tài)的Q值反饋,可根據(jù)記憶矩陣存儲(chǔ)的狀態(tài)動(dòng)作值找到之前的Q值,再依次反饋到當(dāng)前的狀態(tài),無(wú)需訓(xùn)練n次才能將相隔n個(gè)狀態(tài)的Q值反饋給當(dāng)前狀態(tài). 利用“回溯”思想改善了Q學(xué)習(xí)過(guò)程中數(shù)據(jù)傳遞的滯后性,使后續(xù)動(dòng)作產(chǎn)生的影響可快速反饋給當(dāng)前的狀態(tài),理論上來(lái)說(shuō)可提高系統(tǒng)的學(xué)習(xí)速度,而這也將在后續(xù)的仿真實(shí)驗(yàn)中得到驗(yàn)證.
作為深度學(xué)習(xí)結(jié)構(gòu)的主要組成部分之一,深度自動(dòng)編碼器主要用于完成轉(zhuǎn)換學(xué)習(xí)任務(wù),同時(shí)在無(wú)監(jiān)督學(xué)習(xí)及非線性特征提取過(guò)程中也扮演著至關(guān)重要的角色. 思想是堆疊多個(gè)層(s1,s2,…,sn),令每層的輸出等于輸入. 在任何一層si,它都是原有信息(即輸入)的另外一種表示,實(shí)現(xiàn)對(duì)輸入信息的分級(jí)表達(dá),并將這一層的輸出作為下一層的輸入. 其網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.
其每層參數(shù)更新公式為
(3)
(4)
(5)
(6)
(7)
(8)
(9)
本文利用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)Q學(xué)習(xí)與深度自動(dòng)編碼器的結(jié)合[11]. 建立具有7個(gè)輸入節(jié)點(diǎn)、10個(gè)隱藏節(jié)點(diǎn)和32個(gè)輸出節(jié)點(diǎn)的BP神經(jīng)網(wǎng)絡(luò). BP神經(jīng)網(wǎng)絡(luò)的輸入是由深度自動(dòng)編碼器得到的圖像特征值,32個(gè)輸出節(jié)點(diǎn)中只有1個(gè)節(jié)點(diǎn)的值為1,其他31個(gè)節(jié)點(diǎn)值為0,即1個(gè)32行1列的矩陣. 機(jī)器人一共有32個(gè)不同的位置,在不同位置時(shí),BP神經(jīng)網(wǎng)絡(luò)輸出值為1的節(jié)點(diǎn)是32個(gè)輸出節(jié)點(diǎn)中不同的節(jié)點(diǎn),由此判斷機(jī)器人所處的位置并得到與機(jī)器人位置相對(duì)應(yīng)的獎(jiǎng)勵(lì)值,相應(yīng)的獎(jiǎng)勵(lì)值反饋給Q學(xué)習(xí)算法,使Q學(xué)習(xí)實(shí)現(xiàn)Q值的更新. 當(dāng)機(jī)器人處于某一位置時(shí)BP神經(jīng)網(wǎng)絡(luò)擬合結(jié)果誤差如圖4所示. 可以看出BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了相應(yīng)的擬合.
通過(guò)將深度自動(dòng)編碼器與Q學(xué)習(xí)算法結(jié)合使系統(tǒng)可以自主提取未經(jīng)處理的圖像的特征,提高了系統(tǒng)的自主性和處理圖像的能力;并且深度自動(dòng)編碼器可以處理高維數(shù)據(jù),實(shí)現(xiàn)高維數(shù)據(jù)的降維,增強(qiáng)了系統(tǒng)處理數(shù)據(jù)的能力.
本實(shí)驗(yàn)實(shí)現(xiàn)了移動(dòng)機(jī)器人在有障礙物的環(huán)境中通過(guò)與環(huán)境的交互不斷地自主學(xué)習(xí),找到從起始點(diǎn)到達(dá)目標(biāo)點(diǎn)的可行路徑,并且最終使機(jī)器人行走步數(shù)達(dá)到收斂不再盲目行走.
1) 建立一個(gè)具有障礙物的10×10網(wǎng)格環(huán)境,如圖5所示[12]. 圖中黑色物體代表障礙物. 建立環(huán)境矩陣E,設(shè)置Ei=1 表示此處是障礙物,Ei=0表示此處無(wú)障礙物. 移動(dòng)機(jī)器人的起點(diǎn)位置為(1,1)點(diǎn),終點(diǎn)位置為(9,8)點(diǎn),動(dòng)作值a=[1,2,3,4,5],各數(shù)值分別表示機(jī)器人向右走、向上走、向左走、向下走、停在原地,移動(dòng)機(jī)器人的任務(wù)是從起點(diǎn)避開(kāi)障礙物走到終點(diǎn).
2) 設(shè)置Q學(xué)習(xí)算法各實(shí)驗(yàn)參數(shù)為α=0.3,γ=0.95,障礙物處的獎(jiǎng)勵(lì)值R為-0.3,目標(biāo)點(diǎn)處的獎(jiǎng)勵(lì)值為1,其余位置處獎(jiǎng)勵(lì)值為0.
3) 建立記憶矩陣Aslist=[st,at],保存機(jī)器人依次的狀態(tài)和動(dòng)作值,以st、at為索引找到之前各個(gè)狀態(tài)的Q值,將Q值依次進(jìn)行迭代更新.
4) 將Q學(xué)習(xí)算法和改進(jìn)后的Q學(xué)習(xí)算法分別應(yīng)用在此環(huán)境中,對(duì)比結(jié)果如圖6所示. 縱坐標(biāo)表示每次從起點(diǎn)走到終點(diǎn)的步數(shù),橫坐標(biāo)表示迭代次數(shù).
由圖6中圖(a)可以看出,迭代5次左右時(shí)系統(tǒng)基本達(dá)到收斂,而且行走步數(shù)在收斂前穩(wěn)步減小,而圖(b)中,系統(tǒng)需迭代近50次才開(kāi)始收斂,而且在收斂前行走步數(shù)很不穩(wěn)定,由此可知,利用“回溯”思想可改善Q學(xué)習(xí)算法數(shù)據(jù)傳遞滯后性,縮短系統(tǒng)學(xué)習(xí)時(shí)間,提高收斂速度.
5) 建立了除輸入層外具有4層隱藏層的深度自動(dòng)編碼器,輸入層有2 500個(gè)節(jié)點(diǎn),4層隱藏層的節(jié)點(diǎn)數(shù)分別為700、200、55、7. 每層訓(xùn)練時(shí)先隨機(jī)設(shè)定此層的隱藏節(jié)點(diǎn)數(shù),進(jìn)行訓(xùn)練,如果訓(xùn)練效果不好,則改變隱藏節(jié)點(diǎn)數(shù)直到達(dá)到預(yù)期訓(xùn)練結(jié)果. 如此,逐層確定每層的隱藏節(jié)點(diǎn)數(shù).
6) 訓(xùn)練深度自動(dòng)編碼器. 將移動(dòng)機(jī)器人每個(gè)位置的圖像像素設(shè)為50×50. 因?yàn)橐苿?dòng)機(jī)器人一共有32個(gè)不同的位置,每個(gè)位置取100個(gè)樣本,所以共取3 200個(gè)樣本訓(xùn)練網(wǎng)絡(luò). 首先訓(xùn)練各個(gè)層,使各層輸出可以復(fù)現(xiàn)輸入,運(yùn)用梯度下降法與Rprop方法更改各層參數(shù)值,訓(xùn)練后總誤差為10.161 8. 將最后隱層輸出的7個(gè)值進(jìn)行反解碼得到輸入的復(fù)現(xiàn),得到的效果圖如圖7中圖(b),輸入圖如圖(a). 由此可見(jiàn),深度自動(dòng)編碼器很好地復(fù)現(xiàn)了輸入,提取了輸入的特征.
7) 訓(xùn)練好各隱藏層后固定各層參數(shù),在最后一層隱藏層后接一分類(lèi)器,將3 200個(gè)樣本作為traindata對(duì)整個(gè)系統(tǒng)進(jìn)行微調(diào). 取320個(gè)樣本作為testdata對(duì)微調(diào)后的系統(tǒng)進(jìn)行測(cè)試,分類(lèi)結(jié)果為:
Before Finetuning Test Accuracy: 71.875%
After Finetuning Test Accuracy: 100.000%
8) 將訓(xùn)練好參數(shù)的深度自動(dòng)偏碼器網(wǎng)絡(luò)與BP神經(jīng)網(wǎng)絡(luò)相連,深度自動(dòng)編碼器最后一層的輸出作為BP神經(jīng)網(wǎng)絡(luò)的輸入,訓(xùn)練BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)特征信息與移動(dòng)機(jī)器人位置的非線性擬合.
9) 移動(dòng)機(jī)器人在不同位置時(shí)由以上網(wǎng)絡(luò)獲取R值,返回給Q函數(shù),更新Q值,尋找行走路線. 最終運(yùn)行結(jié)果如圖8、9所示,收斂前移動(dòng)機(jī)器人行走過(guò)程如圖10所示. 由圖9、10對(duì)比可知,系統(tǒng)收斂前機(jī)器人從起始點(diǎn)到達(dá)目標(biāo)點(diǎn)是盲目探索,而收斂
后機(jī)器人不再盲目行走,經(jīng)過(guò)與環(huán)境不斷交互移動(dòng)機(jī)器人提高了學(xué)習(xí)能力,找到了一條從起始點(diǎn)到達(dá)目標(biāo)點(diǎn)的可行路徑.
1) 通過(guò)將強(qiáng)化學(xué)習(xí)與深度學(xué)習(xí)結(jié)合,使機(jī)器人在未知環(huán)境中沒(méi)有周?chē)h(huán)境先驗(yàn)知識(shí)的情況下通過(guò)與環(huán)境的交互提高學(xué)習(xí)能力進(jìn)行路徑規(guī)劃.
2) 通過(guò)深度自動(dòng)編碼器處理周?chē)h(huán)境圖像,提高了系統(tǒng)的自主性和處理圖像數(shù)據(jù)的能力,使系統(tǒng)可以處理原始圖像,自主地提取好的特征.
3) 與遺傳算法和模擬退火算法相比,遺傳算法沒(méi)有能夠及時(shí)利用網(wǎng)絡(luò)的反饋信息,故算法的搜索速度比較慢,且算法對(duì)初始種群的選擇有一定的依賴性;而模擬退火算法收斂速度慢,執(zhí)行時(shí)間長(zhǎng). 此方法將以前的狀態(tài)和動(dòng)作及時(shí)反饋回來(lái),收斂速度快,具有較高的實(shí)時(shí)性.
4) 文中強(qiáng)化學(xué)習(xí)處理的是離散狀態(tài),但真實(shí)環(huán)境中機(jī)器人的狀態(tài)是連續(xù)的,為將此方法成功應(yīng)用在真實(shí)環(huán)境中,要改進(jìn)強(qiáng)化學(xué)習(xí)算法,使其可以處理連續(xù)狀態(tài)空間.
[1] 張琦. 移動(dòng)機(jī)器人的路徑規(guī)劃與定位技術(shù)研究[D]. 哈爾濱: 哈爾濱工業(yè)大學(xué), 2014.
ZHANG Q. Path planning and location for mobile robot[D]. Harbin: Harbin Institute of Technology, 2014. (in Chinese)
[2] 朱大奇, 顏明重. 移動(dòng)機(jī)器人路徑規(guī)劃技術(shù)綜述[J]. 控制與決策, 2010, 25(7): 961-967.
ZHU D Q, YAN M Z. Survey on technology of mobile robot path planning [J]. Control and Decision, 2010, 25(7): 961-967. (in Chinese)
[3] BEOM H R, CHO H S. A sensor-based navigation for a mobile robot using fuzzy logic and reinforcement learning[J]. IEEE Trans on System, Man and Cybernetics, 1995, 25(3): 464-477.
[4] DEISENROTH M P, FOX D, RASMUSSEN C E. Gaussian processes for data-efficient learning in robotics and control[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 37(2): 408-423.
[5] MAEDA Y, WATANABE T, MORIYAMA Y. View-based programming with reinforcement learning for robotic manipulation[C]∥2011 IEEE International Symposium on Assembly and Manufacturing (ISAM). Piscataway, NY: IEEE, 2011: 1-6.
[6] LANGE S, RIEDMILLER M, VOIGTLANDER A. Autonomous reinforcement learning on raw visual input data in a real world application[C]∥The 2012 International Joint Conference on Neural Networks (IJCNN). Piscataway, NY: IEEE, 2012: 1-8.
[7] LANGE S, RIEDMILLER M. Deep auto-encoder neural networks in reinforcement learning[C]∥The 2010 International Joint Conference on Neural Networks (IJCNN). Piscataway, NY: IEEE, 2010: 1-8.
[8] LIU H L, TANIGUCHI T. Feature extraction and pattern recognition for human motion by a deep sparse autoencoder[C]∥2014 IEEE International Conference on Computer and Information Technology (CIT). Piscataway, NY: IEEE, 2014: 173-181.
[9] 陳宗海, 楊志華, 王海波, 等. 從知識(shí)的表達(dá)和運(yùn)用綜述強(qiáng)化學(xué)習(xí)研究[J]. 控制與決策, 2008, 23(9): 961-968.
CHEN Z H, YANG Z H, WANG H B, et al. Overview of reinforcement learning from knowledge expression and handling [J]. Control and Decision, 2008, 23(9): 961-968. (in Chinese)
[10] 許亞. 基于強(qiáng)化學(xué)習(xí)的移動(dòng)機(jī)器人路徑規(guī)劃研究[D]. 濟(jì)南: 山東大學(xué), 2013.
XU Y. Research on path planning for mobile robot based on reinforcement learning[D]. Jinan: Shandong University, 2013. (in Chinese)
[11] MAEDA Y, ABURATA R. Teaching and reinforcement learning of robotic view-based manipulation[C]∥IEEE RO-MAN 2013. Piscataway, NY: IEEE, 2013: 87-92.
[12] GOYAL J K, NAGLA K S. A new approach of path planning for mobile robots[C]∥2014 International Conference on Advances in Computing, Communications and Informatics (ICACCI). Piscataway, NY: IEEE, 2014: 863-867.
(責(zé)任編輯呂小紅)
Mobile Robot Path Planning Based on Deep Auto-encoder andQ-learning
YU Naigong1,2,3,4, MO Fanfan1,2,3,4
(1.College of Electronic and Control Engineering, Beijing University of Technology, Beijing 100124, China;2.Beijing Key Laboratory of Computational Intelligence and Intelligent System, Beijing University of Technology,Beijing 100124, China; 3.Engineering Research Centre of Digital Community, Ministry of Education, Beijing 100124,China; 4.Beijing Laboratory for Urban Mass Transity, Beijing 100124, China)
To solve the path planning problem of mobile robot in static unknown environment, a new path planning method was proposed which combined the deep auto-encoder with theQ-learning algorithm, namely the DAE-Qpath planning method. The deep auto-encoder processed the raw image data to get the feature information of the environment. TheQ-learning algorithm chose an action according to the environmental information and the robot moved to a new position, changing the surrounding environment of the mobile robot. The robot realized autonomous learning through the interaction with the environment. The system processed raw image data and extracted the image feature autonomously by combining the deep auto-encoder and theQ-learning algorithm, and the autonomy of the system was improved. In addition, an improvedQ-learning algorithm to improve the system’s convergence speed and shorten the learning time was utilized. Experimental evaluation validates the effectiveness of the method.
mobile robot; path planning; deep auto-encoder;Q-learning algorithm
2015- 10- 12
國(guó)家自然科學(xué)基金資助項(xiàng)目(61573029)
于乃功(1966—), 男, 教授, 主要從事機(jī)器人學(xué)、機(jī)器視覺(jué)、人工智能方面的研究, E-mail:yunaigong@bjut.edu.cn
TP 242
A
0254-0037(2016)05-0668-06
10.11936/bjutxb2015100028
北京工業(yè)大學(xué)學(xué)報(bào)2016年5期