国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于視角選擇經(jīng)驗(yàn)增強(qiáng)算法的機(jī)器人抓取策略

2022-11-20 11:42:36王高陳曉鴻柳寧李德平
關(guān)鍵詞:深度圖成功率物體

王高 陳曉鴻 柳寧 李德平?

(1.暨南大學(xué)信息科學(xué)技術(shù)學(xué)院,廣東廣州 510632;2.暨南大學(xué)機(jī)器人智能技術(shù)研究院,廣東廣州 510632;3.暨南大學(xué)智能科學(xué)與工程學(xué)院,廣東珠海 519070)

抓取能力是機(jī)器人智能化的關(guān)鍵處理能力。面向散亂堆疊物品的機(jī)械化分揀,成為機(jī)器人與人類動作能力對比驗(yàn)證的皇冠問題。近年來,隨著計(jì)算機(jī)視覺和深度學(xué)習(xí)的發(fā)展,機(jī)器人抓取技術(shù)取得長足進(jìn)展,即基于視覺感知技術(shù),選擇合適的抓取姿態(tài)用以操縱末端執(zhí)行器實(shí)現(xiàn)抓取。但是,由于物體間形狀大小不同、復(fù)雜的背景、物體間相互遮擋等情況,如何在混雜物體散亂堆疊場景下,實(shí)現(xiàn)快速準(zhǔn)確的抓取仍是極具挑戰(zhàn)性的課題[1]。

針對散亂堆疊環(huán)境的機(jī)器人抓取問題,國內(nèi)外學(xué)者開展了大量相關(guān)研究,包括但不僅限于采用單目相機(jī)結(jié)合結(jié)構(gòu)光、多目相機(jī)、彩色深度(RGB-D)相機(jī)等方案。影響機(jī)器人抓取能力的因素有多方面,本文主要關(guān)注視覺方面的因素,包括物體識別定位、抓取姿態(tài)生成等。

早期的機(jī)器人抓取研究側(cè)重于匹配物體三維模型或進(jìn)行三維解析推理獲取抓取區(qū)域,通常的流程為提取待抓物體對象特征,然后在點(diǎn)云或RGB-D圖像中進(jìn)行特征匹配,獲取局部點(diǎn)云,之后進(jìn)行位姿估計(jì)。在傳統(tǒng)方法中,使用人工設(shè)計(jì)的特征進(jìn)行特 征匹配,主要的人工特征有SIFT[2]、PPF[3]、Linemod[4]等,但這些方法需要預(yù)先獲得物體的三維模型進(jìn)行特征提取。當(dāng)存在多個(gè)物體,需要為每一個(gè)物體創(chuàng)建模板,因此,出現(xiàn)了基于深度學(xué)習(xí)的無物體三維模型位姿估計(jì)研究。例如,Xiang 等[5]提出PoseCNN(位姿卷積神經(jīng)網(wǎng)絡(luò)),通過多層卷積神經(jīng)網(wǎng)絡(luò)提取特征后,使用兩個(gè)全卷積網(wǎng)絡(luò)分別進(jìn)行語義分割和物體平移估計(jì),采用全連接網(wǎng)絡(luò)回歸物體姿態(tài)的四元數(shù),最后組合這3個(gè)網(wǎng)絡(luò)結(jié)果獲得物體的位姿信息。Wang 等[6]在其提出的DenseFu?sion(密集融合網(wǎng)絡(luò))中通過一種異構(gòu)網(wǎng)絡(luò)分別處理彩色和深度數(shù)據(jù)以充分利用這兩種數(shù)據(jù)的互補(bǔ)信息進(jìn)行位姿估計(jì),在許多場景下的表現(xiàn)優(yōu)于基于特征工程的傳統(tǒng)方法,但它依賴于前置語義分割網(wǎng)絡(luò)獲取局部點(diǎn)云,從而導(dǎo)致位姿估計(jì)精度會受到語義分割精度的影響?;谏疃葘W(xué)習(xí)的位姿估計(jì)方法大多需要大規(guī)模運(yùn)算資源,對機(jī)器人抓取效率有較大影響。

隨著深度學(xué)習(xí)的發(fā)展,眾多學(xué)者開始對直接生成抓取姿態(tài)進(jìn)行研究,即從可能抓取姿態(tài)的無窮空間中采樣,并對采用得到的抓取候選姿態(tài)集根據(jù)一些質(zhì)量指標(biāo)進(jìn)行排序。Lenz等[7]使用卷積網(wǎng)絡(luò)預(yù)測圖像塊是否包含潛在抓取,將圖像分解為若干個(gè)圖像框迭代預(yù)測,準(zhǔn)確率達(dá)到75%,但每幅圖像的處理時(shí)間高達(dá)13.5 s。Park 等[8]提出一種基于分類的多級空間變換網(wǎng)絡(luò),該方法允許觀察部分中間結(jié)果,如抓取候選姿態(tài)的抓取位置和方向。Morrison等[9]提出抓取生成卷積神經(jīng)網(wǎng)絡(luò)(GGCNN),以端到端的方式,直接從深度圖生成像素語義上的抓取位姿和抓取權(quán)重,通過抓取權(quán)重選擇最佳抓取效果,此方法在任意孤立物體抓取中可獲得88%以上成功率。

上述工作主要在物體位姿估計(jì)、抓取姿態(tài)生成方面提升機(jī)器人抓取能力,一些學(xué)者則從主動視覺方面進(jìn)行研究。Gualtieri 等[10]對合適的視角是否能影響抓取檢測準(zhǔn)確度進(jìn)行研究,提出“Smart”視角選擇算法,在已知物體粗略抓取位姿的情況下,計(jì)算最優(yōu)視角以提高抓取位姿的準(zhǔn)確度,其實(shí)驗(yàn)證明了合適的視角能夠極大地提高抓取檢測中獲得的抓取候選點(diǎn)數(shù)量。Ten 等[11]在機(jī)器人運(yùn)動軌跡中選擇若干個(gè)點(diǎn)采集點(diǎn)云數(shù)據(jù),將多個(gè)視角的點(diǎn)云數(shù)據(jù)合成為一種稱為視點(diǎn)云(View Point Cloud)的結(jié)構(gòu),以視點(diǎn)云作為輸入進(jìn)行抓取檢測。Morrison 提出Multi-View-Picking[12]方法,使用抓取檢測輸出的抓取質(zhì)量為輸入,面向最大熵減的目標(biāo)進(jìn)行下一次最佳視角預(yù)測,在抓取執(zhí)行過程中多次進(jìn)行最佳視角預(yù)測,該方法在雜亂堆疊場景中相對于固定視角提高了12%的抓取成功率。然而,此算法需要進(jìn)行多次視角選擇迭代且需要依賴于特定抓取檢測算法。

另一方面,深度強(qiáng)化學(xué)習(xí)在不同領(lǐng)域取得突破性成果吸引了大量學(xué)者的注意,在機(jī)器人操作中,深度強(qiáng)化學(xué)習(xí)提供了一種框架,能夠令機(jī)器人自主地通過視覺信息學(xué)習(xí)各類操作技能。例如,Zeng等[13]提出VPG(Visual Pushing &Grasping,視覺推動與抓取網(wǎng)絡(luò)),通過深度Q 網(wǎng)絡(luò)(DQN)令機(jī)器人學(xué)習(xí)推和抓兩種動作的協(xié)同;Deng 等[14]設(shè)計(jì)了一種結(jié)合吸嘴和夾爪的組合夾爪,通過DQN 框架引導(dǎo)機(jī)器人主動探索環(huán)境,獲取更優(yōu)的抓取置信圖。谷歌大腦團(tuán)隊(duì)[15]提出基于Q學(xué)習(xí)連續(xù)動作泛化的離線策略訓(xùn)練方法,將大規(guī)模分布式優(yōu)化和DQN 結(jié)合,令機(jī)器人能夠?qū)W習(xí)動態(tài)閉環(huán)控制策略而進(jìn)行物體抓取。

由此,相機(jī)視角的選擇對于機(jī)器人抓取的效果起著重要的作用。針對相機(jī)隨末端運(yùn)動的機(jī)器人雜亂堆疊環(huán)境抓取問題,本文的主要研究內(nèi)容如下:

(1)提出一種基于深度強(qiáng)化學(xué)習(xí)的眼-手隨動相機(jī)視角選擇策略,通過深度網(wǎng)絡(luò)擬合視角價(jià)值函數(shù),在DQN框架下學(xué)習(xí)視角選擇策略。

(2)提出一種視角選擇經(jīng)驗(yàn)增強(qiáng)算法,解決訓(xùn)練過程中出現(xiàn)的稀疏獎勵(lì)問題,提高網(wǎng)絡(luò)收斂速度。

(3)分別在V-REP?(Virtual Robot Experimenta?tion Platform)仿真環(huán)境和實(shí)體機(jī)器人上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)中網(wǎng)絡(luò)訓(xùn)練可以在2 h 左右達(dá)到收斂,在實(shí)體機(jī)器人混雜場景中抓取成功率達(dá)到82.7%,每小時(shí)平均抓取個(gè)數(shù)達(dá)到294個(gè)。

1 視角選擇策略學(xué)習(xí)框架

1.1 任務(wù)描述

在機(jī)器人抓取應(yīng)用場景中,采用相機(jī)隨機(jī)器人末端移動(眼在手上)的方式實(shí)現(xiàn)混雜物品散亂堆疊的抓取。相對于固定環(huán)境相機(jī),眼在手上相機(jī)的抓取具有更高的靈活性,機(jī)器人能夠根據(jù)運(yùn)動可達(dá)空間選擇合適的拍攝位姿。由于相機(jī)安裝在機(jī)器人末端,則機(jī)器人視角V可以由相機(jī)在機(jī)器人坐標(biāo)系下的6維位姿定義:

式中:x、y、z為機(jī)器人末端在基坐標(biāo)系的位置,rx、ry、rz分別是繞x、y、z軸的旋轉(zhuǎn)角度。

機(jī)器人主動視角選擇抓取任務(wù)的工作流程如圖1所示。首先機(jī)器人移動至預(yù)先設(shè)定好的全局拍照點(diǎn)進(jìn)行拍照以獲取整個(gè)工作空間的圖像,獲取深度圖像后進(jìn)行最佳視角預(yù)測,得到最佳視角的像素坐標(biāo)VI,再經(jīng)由相機(jī)模型和坐標(biāo)變換得到最佳視角的機(jī)器人坐標(biāo)VR,機(jī)器人移動到VR獲取局部圖像進(jìn)行抓取檢測,然后執(zhí)行相應(yīng)抓取動作,最后判斷是否達(dá)到結(jié)束任務(wù)條件,否則重復(fù)以上步驟。

圖1 機(jī)器人主動視角選擇抓取任務(wù)示意圖Fig.1 Illustration of robot active viewpoint selection grasping task

1.2 任務(wù)建模

將強(qiáng)化學(xué)習(xí)應(yīng)用到機(jī)器人主動視角選擇的關(guān)鍵問題是視角選擇過程的馬爾可夫決策過程(MDP)建模。基于智能體和環(huán)境進(jìn)行構(gòu)建的MDP 是一種基于序列決策的數(shù)學(xué)模型,視角選擇過程的MDP 模型如圖2所示。

圖2 機(jī)器人抓取任務(wù)馬爾可夫決策過程Fig.2 Markov decision process in robot grasping task

機(jī)器人通過相機(jī)感知系統(tǒng)當(dāng)前的狀態(tài),并根據(jù)視角選擇策略獲取最佳視角,移動至最佳視角并執(zhí)行抓取流程(即再次獲取深度圖執(zhí)行抓取檢測并根據(jù)抓取檢測的結(jié)果決定是否執(zhí)行抓?。?,最后檢測夾爪狀態(tài)并獲取獎勵(lì)。因此,需要在視角選擇過程MDP模型中對狀態(tài)空間、動作空間、獎勵(lì)和策略進(jìn)行定義。

1.2.1 狀態(tài)空間

抓取環(huán)境的狀態(tài)st定義為在t時(shí)刻待抓取物體之間的位置關(guān)系,本文使用在全局拍照位置獲得的深度圖作為st,即在每次抓取前,機(jī)器人移動至預(yù)先設(shè)定的能夠觀察到整個(gè)工作空間的視角,以此視角獲取的深度圖表達(dá)當(dāng)前環(huán)境的狀態(tài)。

1.2.2 動作空間

視角選擇動作a定義為機(jī)器人移動到視角選擇策略預(yù)測的下一個(gè)最佳視角,并執(zhí)行抓取流程。由于相機(jī)安裝于機(jī)器人末端,視角選擇可以包含6個(gè)自由度,但是六維的連續(xù)動作空間將導(dǎo)致樣本復(fù)雜度為O(n6)。高維模型在訓(xùn)練時(shí)候耗費(fèi)大量計(jì)算資源,并且需要海量訓(xùn)練數(shù)據(jù)才能使網(wǎng)絡(luò)收斂。為了增強(qiáng)學(xué)習(xí)訓(xùn)練結(jié)果部署在實(shí)體機(jī)器人上的可行性,本文將無窮多的視角選擇集簡化為3個(gè)自由度的有限視角集合,即根據(jù)表示環(huán)境狀態(tài)的深度圖,產(chǎn)生與其深度圖像素點(diǎn)一一對應(yīng)的視角點(diǎn),即:

式中:r、c分別表示像素點(diǎn)的行坐標(biāo)和列坐標(biāo),zr,c表示深度圖在像素點(diǎn)(r,c)位置上的深度值,ar,c表示深度圖在像素點(diǎn)(r,c)位置上對應(yīng)的動作。

因此,動作空間的維度為二維空間。通過相機(jī)針孔模型P和手眼標(biāo)定獲得的剛性變換矩陣,可將動作ar,c轉(zhuǎn)換為以機(jī)器人坐標(biāo)系表示的動作:

式中:P(r,c,zr,c)表示動作ar,c通過相機(jī)針孔模型P轉(zhuǎn)換得到的ar,c在相機(jī)坐標(biāo)系的位置

1.2.3 獎勵(lì)設(shè)計(jì)

獎勵(lì)rt表示在t時(shí)刻的狀態(tài)st下,執(zhí)行視角選擇動作at后得到的收益。它是關(guān)于st、at以及下一時(shí)刻的狀態(tài)st+1的函數(shù),即:

在機(jī)器人抓取任務(wù)中,其最終目的是提高抓取成功率。因此,獎勵(lì)設(shè)計(jì)為二維空間圓形區(qū)域獎勵(lì):若抓取成功,獎勵(lì)的值由從圓心到邊緣從1下降至0.5的二維高斯函數(shù)計(jì)算;若抓取失敗,圓形區(qū)域的值為0。即:

式中,x0、y0為獎勵(lì)區(qū)域的圓心,r為獎勵(lì)區(qū)域的半徑,σ為獎勵(lì)從圓心到邊緣下降的速度。在圓形區(qū)域外的獎勵(lì)為未定義,不支持參數(shù)更新。

1.2.4 視角狀態(tài)價(jià)值函數(shù)與最優(yōu)策略

基于獎勵(lì)定義可將機(jī)器人最終目標(biāo)轉(zhuǎn)換為最大化回報(bào),回報(bào)是指從開始抓取到物體清空結(jié)束,這一有限長狀態(tài)動作序列τ中的獎勵(lì)累計(jì)值。為了控制機(jī)器人傾向于盡可能快地完成抓取任務(wù),本文中使用帶折扣因子的回報(bào)函數(shù),即:

式中:γ為未來獎勵(lì)折扣因子,表示智能體對未來獎勵(lì)的權(quán)重,權(quán)重越大越重視長期回報(bào),反之則更重視短期回報(bào)。

式(7)所示視角狀態(tài)價(jià)值函數(shù)Qπ(s,a)表示機(jī)器人基于視角選擇策略π在狀態(tài)s下執(zhí)行視角動作a后的期望回報(bào):

式中,s為當(dāng)前狀態(tài),a為執(zhí)行的動作。

通過視角狀態(tài)價(jià)值函數(shù)Qπ(s,a)可以評估當(dāng)前狀態(tài)s下的機(jī)器人執(zhí)行動作a在未來可以獲得的期望獎勵(lì),Q值越大,說明采取該動作能夠在未來獲得更大的回報(bào),即價(jià)值越大。在Qπ(s,a)已知條件下,可以通過選擇令Q函數(shù)取最大值的動作為最優(yōu)動作,導(dǎo)出貪婪最優(yōu)策略π*,即:

通過上述MDP 建模過程分析,可將求解機(jī)器人最佳視角選擇問題轉(zhuǎn)換為對視角Q函數(shù)的求解,輸出當(dāng)前狀態(tài)下每個(gè)視角的價(jià)值,取Q值最大的視角作為當(dāng)前狀態(tài)的下一個(gè)最佳視角。最終的求解目標(biāo)即可轉(zhuǎn)換為對視角價(jià)值函數(shù)的擬合,即分析從系統(tǒng)狀態(tài)表達(dá)到視角價(jià)值的過程,設(shè)計(jì)合適的深度神經(jīng)網(wǎng)絡(luò)擬合視角價(jià)值函數(shù)。

2 視角價(jià)值函數(shù)學(xué)習(xí)

2.1 視角價(jià)值函數(shù)擬合

視角價(jià)值函數(shù)Q(st,a)的輸入為機(jī)器人抓取環(huán)境當(dāng)前狀態(tài),在機(jī)器人主動視角選擇任務(wù)中使用在全局拍照位置獲取的深度圖表達(dá)。若深度圖的分辨率為sx×sy,則狀態(tài)空間中狀態(tài)數(shù)量為216×sx×sy,接近無窮計(jì)數(shù),因此無法使用傳統(tǒng)Q-Learning 強(qiáng)化學(xué)習(xí)中的查表法求解。而深度卷積神經(jīng)網(wǎng)絡(luò)擅長從圖像這類高維數(shù)據(jù)中學(xué)習(xí)特征,因此選擇深度卷積網(wǎng)絡(luò)擬合視角價(jià)值函數(shù),并且基于深度Q網(wǎng)絡(luò)[16]設(shè)計(jì)強(qiáng)化學(xué)習(xí)訓(xùn)練的框架。

從場景狀態(tài)圖像內(nèi)容估計(jì)視角價(jià)值的過程等同于面向圖像中每個(gè)像素從不同的感受野提取信息,并依據(jù)此信息預(yù)測提取獲得的各維度特征與像素點(diǎn)對應(yīng)的視角價(jià)值,這類似于語義分割的過程。深度反卷積編碼-解碼器結(jié)構(gòu)網(wǎng)絡(luò)[17]克服了原始全卷積網(wǎng)絡(luò)中存在的尺度縮放問題,并且具備識別具有更多細(xì)節(jié)的結(jié)構(gòu)和處理多尺度對象的能力?;诖?,本文中提出使用編碼-解碼器卷積神經(jīng)網(wǎng)絡(luò)擬合視角動作價(jià)值函數(shù),網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。網(wǎng)絡(luò)輸入定義為t時(shí)刻機(jī)器人在全局拍照點(diǎn)采集的深度圖,經(jīng)過三層卷積編碼后,再由三層反卷積解碼,最終可輸出與輸入的深度圖尺寸一致的視角價(jià)值圖。視角價(jià)值圖中的像素值代表了選擇該像素點(diǎn)所對應(yīng)的視角后可以獲得的未來期望回報(bào)。

圖3 視角動作價(jià)值函數(shù)近似網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Viewpoint action value function approximation network structure

在DQN 強(qiáng)化學(xué)習(xí)訓(xùn)練中,為了解決強(qiáng)化學(xué)習(xí)的樣本關(guān)聯(lián)性,采用經(jīng)驗(yàn)回放機(jī)制[18],基于機(jī)器人視角選擇任務(wù)特征,在訓(xùn)練流程中加入結(jié)束條件判定、經(jīng)驗(yàn)增強(qiáng)?;讦?greedy 策略對機(jī)器人抓取場景設(shè)計(jì)可選擇的下一個(gè)最佳視角a*,即:

式中:W、H為視角價(jià)值圖的分辨率,ε為探索概率,U(0,1)表示在[0,1]區(qū)間的均勻分布。若g≥ε,則通過視角價(jià)值函數(shù)Q(st,a)產(chǎn)生視角動作,否則通過2 個(gè)相互獨(dú)立的均勻分布產(chǎn)生視角動作。為了減少探索的概率,使機(jī)器人逐漸傾向于根據(jù)訓(xùn)練的策略選擇動作,同時(shí)保留探索到更優(yōu)動作的可能性;ε伴隨訓(xùn)練的遞進(jìn)漸次從初始值ε0下降至0.1,即:

式中,gε為遞減系數(shù),k為訓(xùn)練的輪次。

移動至預(yù)測的最佳視角后,機(jī)器人執(zhí)行抓取流程,根據(jù)抓取結(jié)果生成經(jīng)驗(yàn)數(shù)據(jù)E={st,at,rt+1,st+1,d}(d表示機(jī)器人抓取任務(wù)是否完成),對所得經(jīng)驗(yàn)數(shù)據(jù)進(jìn)行增強(qiáng),然后存入經(jīng)驗(yàn)池。若經(jīng)驗(yàn)池中的經(jīng)驗(yàn)數(shù)大于預(yù)先設(shè)定的批尺寸N,從經(jīng)驗(yàn)池中隨機(jī)抽取N個(gè)經(jīng)驗(yàn)數(shù)據(jù)后進(jìn)行訓(xùn)練。視角價(jià)值動作函數(shù)訓(xùn)練算法流程圖如圖4所示。

圖4 視角動作價(jià)值函數(shù)訓(xùn)練算法流程圖Fig.4 Flow chart of viewpoint action value function training algorithm

在圖4中通過與環(huán)境交互獲得的經(jīng)驗(yàn)數(shù)據(jù)中包含一個(gè)變量d用于判斷機(jī)器人抓取任務(wù)是否完成,即機(jī)器人是否將視野中的物體全部抓取并轉(zhuǎn)移到目標(biāo)位置。因此,需要根據(jù)執(zhí)行動作后的狀態(tài)判斷場景是否清空,當(dāng)場景清空時(shí)可判斷本輪抓取任務(wù)已完成。

完成上述算法,要先通過相機(jī)內(nèi)參數(shù)K將深度圖轉(zhuǎn)換為點(diǎn)云。相機(jī)內(nèi)參數(shù)對相機(jī)成像針孔模型進(jìn)行描述,可表達(dá)為:

式中:ax為水平方向像元尺寸;ay為豎直方向像元尺寸;u為水平方向的投影中心偏移;v為豎直方向的投影中心偏移,需通過相機(jī)標(biāo)定獲得。

深度圖的像素值表示每個(gè)像素的成像點(diǎn)在相機(jī)坐標(biāo)系的z坐標(biāo),在已知成像點(diǎn)z坐標(biāo)和像素坐標(biāo)的條件下,即可通過相機(jī)內(nèi)參計(jì)算成像點(diǎn)在相機(jī)坐標(biāo)系下的坐標(biāo)。設(shè)第i個(gè)成像點(diǎn)的像素坐標(biāo)為ri,ci,其相機(jī)坐標(biāo)系坐標(biāo)為:

式中,Idepth(ri,ci)為深度圖在(ri,ci)位置的深度值。

將深度圖中所有像素點(diǎn)變換為成像點(diǎn)坐標(biāo),因此所有點(diǎn)可表示為三維列向量,經(jīng)組合獲得點(diǎn)云矩陣DC。根據(jù)手眼關(guān)系將相機(jī)坐標(biāo)系表示的點(diǎn)云變換為機(jī)器人基坐標(biāo)系中的點(diǎn)云D:

不失一般性,本文令抓取工作空間與機(jī)器人基坐標(biāo)系xy平面平行,因此只需統(tǒng)計(jì)點(diǎn)云PB中z坐標(biāo)大于固定閾值zmin的點(diǎn)個(gè)數(shù)即可判斷場景是否清空,如下式:

式中:S(Pb>zmin)表示點(diǎn)云PB中z坐標(biāo)值大于zmin的點(diǎn)個(gè)數(shù);Th為判斷場景情況的點(diǎn)數(shù)閾值。

2.2 視角選擇經(jīng)驗(yàn)增強(qiáng)算法

參閱深度強(qiáng)化學(xué)習(xí)時(shí)的稀疏獎勵(lì)問題[19],可以理解在智能體與環(huán)境進(jìn)行交互的過程中,由于獎勵(lì)獲取的抽象和復(fù)雜性,智能體在初始條件的策略實(shí)施下難以獲得獎勵(lì),出現(xiàn)正樣本與負(fù)樣本的比例失衡和樣本效率低,從而導(dǎo)致強(qiáng)化學(xué)習(xí)算法迭代時(shí)間長,甚至無法收斂。因此,為了提高視角選擇網(wǎng)絡(luò)的收斂速度,本文對視角選擇過程建模,提出一種新的經(jīng)驗(yàn)增強(qiáng)算法,以提高樣本利用效率,從而提升視角價(jià)值函數(shù)的學(xué)習(xí)速度。

機(jī)器人最佳抓取視角選擇標(biāo)準(zhǔn)是目標(biāo)物體能夠出現(xiàn)在視野正中央?;趯ψ罴岩暯堑募僭O(shè)判斷,本文所提方法對抓取成功的視角經(jīng)驗(yàn)進(jìn)行增強(qiáng),擴(kuò)展獎勵(lì)區(qū)域從單一視角點(diǎn)增強(qiáng)到一個(gè)視角選擇區(qū)域。對于抓取成功的情況,如圖5所示,以抓取點(diǎn)作為圓心,視角點(diǎn)與抓取點(diǎn)間距離作為半徑,在該圓形區(qū)域給予獎勵(lì);另外,為了讓機(jī)器人更傾向于選擇令目標(biāo)物體處于中央的視角,在圓形區(qū)域中,從圓心到邊緣以高斯函數(shù)的方式將獎勵(lì)從1衰減到0.5。如圖6 所示,對于抓取失敗,通過圓周四向探索的方式增強(qiáng)經(jīng)驗(yàn)。圖6 以失敗的視角點(diǎn)為起點(diǎn),設(shè)定固定的搜索半徑步長s,令搜索半徑r每次增加s。獲取所有圓邊緣的計(jì)算探索位置,并對所有探索位置進(jìn)行抓取檢測。若本輪所有探索位置均抓取檢測失敗,則增加半徑一個(gè)步長,重復(fù)同類探索;否則,以當(dāng)前半徑作為增強(qiáng)獎勵(lì)區(qū)域的半徑參數(shù)結(jié)束探索。

圖5 抓取成功條件下抓取經(jīng)驗(yàn)增強(qiáng)過程Fig.5 Process of grasping experience enhancement under grasp?ing success

圖6 抓取失敗條件下抓取經(jīng)驗(yàn)探索過程Fig.6 Process of grasping experience exploration under grasp?ing failure

具體算法如下:

3 實(shí)驗(yàn)結(jié)果及分析

3.1 實(shí)驗(yàn)環(huán)境配置

為證明基于深度強(qiáng)化學(xué)習(xí)的視角選擇經(jīng)驗(yàn)增強(qiáng)算法可行性,本文在V-REP仿真環(huán)境中實(shí)施強(qiáng)化學(xué)習(xí)訓(xùn)練并進(jìn)行抓取對比實(shí)驗(yàn),同時(shí)在安川機(jī)器人上進(jìn)行抓取實(shí)驗(yàn),對比驗(yàn)證幾種視角選擇算法對提升抓取性能的效果。實(shí)驗(yàn)使用的計(jì)算機(jī)系統(tǒng)配置如表1所示。

表1 計(jì)算機(jī)系統(tǒng)配置Table 1 Computer system configuration

采用Pytorch 編寫視角選擇經(jīng)驗(yàn)增強(qiáng)算法框架,機(jī)器人執(zhí)行任務(wù)過程與環(huán)境交互的軌跡長度Lτ跟場景中物體個(gè)數(shù)相關(guān),因此鄰接控制周期所獲取獎勵(lì)權(quán)重漸次增強(qiáng)。

不失一般性,設(shè)置折扣因子γ=0.5,學(xué)習(xí)率α=0.001,經(jīng)驗(yàn)池容量R=4 000,目標(biāo)Q網(wǎng)絡(luò)參數(shù)同步步數(shù)M=20。為了增強(qiáng)對噪聲抑制的魯棒性,損失函數(shù)使用Huber Loss,損失函數(shù)Li為

式中:θi為在第i次迭代中的主網(wǎng)絡(luò)的參數(shù),為目標(biāo)網(wǎng)絡(luò)的參數(shù),si、ai、yi分別代表第i次迭代的狀態(tài)、動作和目標(biāo)價(jià)值。每次更新只傳遞獲得獎勵(lì)元素的梯度參數(shù),其他位置對應(yīng)元素的損失強(qiáng)制置為零。優(yōu)化策略采用隨機(jī)梯度下降算法,探索策略則使用ε-greedy 策略,設(shè)置探索概率ε的初始值為0.5,gε=0.99。

3.2 對比實(shí)驗(yàn)設(shè)計(jì)

采用6DOF機(jī)器人重復(fù)執(zhí)行50次抓取任務(wù),每次在機(jī)器人工作空間中隨機(jī)放置N個(gè)物體,執(zhí)行抓取流程,最終將抓取對象放置到料箱。連續(xù)抓取直至工作空間所有物體被放入料箱(即場景清空)視為成功;連續(xù)抓取不到視為失敗。具體到抓取任務(wù)失敗的條件可設(shè)置為連續(xù)抓取失敗超過指定次數(shù),例如5 次,目的是防止機(jī)器人因當(dāng)前場景過于復(fù)雜,不能有效抓取而引起的重復(fù)動作。

3.2.1 對比方法

采用以下3種典型視角選擇生成策略與本文提出的視角選擇經(jīng)驗(yàn)增強(qiáng)算法進(jìn)行對比實(shí)驗(yàn),具體方案如下。

(1)固定單視角 使用安裝在工作空間上方固定位置的單個(gè)相機(jī)獲取場景圖像,任務(wù)執(zhí)行過程中的相機(jī)位置保持不變。獲取固定位置圖像后進(jìn)行抓取檢測并執(zhí)行抓取。

(2)固定多視角 同時(shí)使用多個(gè)相機(jī)或單個(gè)末端相機(jī)多次采集來獲取待抓取目標(biāo)圖像,并根據(jù)所采集多視角間的位置關(guān)聯(lián)關(guān)系實(shí)現(xiàn)信息融合。本文選擇專利[20]中的方法作為目標(biāo)對比方法。使用眼在手上工作模式并根據(jù)機(jī)器人預(yù)設(shè)路徑采集多視角深度圖,然后進(jìn)行點(diǎn)云融合,使用融合點(diǎn)云進(jìn)行抓取檢測。

(3)基于熵的主動多視角 使用Multi-View Picking[12]方法,從固定位置開始,根據(jù)當(dāng)前場景圖像的熵計(jì)算下一個(gè)最佳視角,再移動機(jī)器人到目標(biāo)視角,回環(huán)往復(fù)多次迭代執(zhí)行視角預(yù)測。每次視角預(yù)測均通過深度圖像輸出相關(guān)計(jì)算熵,并根據(jù)熵結(jié)果變化趨勢而選擇視角。

機(jī)器人進(jìn)行視角選擇后,判斷抓取檢測并獲取穩(wěn)定抓取點(diǎn),執(zhí)行抓取操作。與前述對比文獻(xiàn)方法保持一致,本文中采用綜合時(shí)間和準(zhǔn)確率最佳的端到端抓取檢測方法——抓取生成卷積神經(jīng)網(wǎng)絡(luò)[9],作為本實(shí)驗(yàn)方案中使用的抓取檢測算法。

3.2.2 評價(jià)指標(biāo)

本文中使用表2所示指標(biāo)來評估算法在抓取任務(wù)中的性能。

表2 抓取性能評價(jià)指標(biāo)Table 2 Evaluation metrics of grasping performance

3.3 仿真實(shí)驗(yàn)

使用V-REP仿真平臺搭建機(jī)器人抓取環(huán)境,如圖7所示。仿真機(jī)器人采用Universal Robot:UR5,末端安裝Onrobot RG2 夾爪和彩色深度相機(jī),設(shè)置機(jī)器人工作空間為350 mm×350 mm 的方形區(qū)域,調(diào)用V-REP仿真平臺的遠(yuǎn)程控制接口,獲取訓(xùn)練過程中機(jī)器人運(yùn)動狀態(tài)及獲取彩色深度圖像。

圖7 機(jī)器人抓取仿真環(huán)境Fig.7 Robot grasping simulation environment

仿真實(shí)驗(yàn)中,設(shè)定訓(xùn)練、對比的抓取對象為8 種不同形狀的3D積木塊,如圖8所示。隨機(jī)選擇不同形狀和顏色的積木塊作為待抓取對象。

圖8 仿真環(huán)境中的抓取對象Fig.8 Grasping objects in simulation environment

3.3.1 訓(xùn)練過程

通過機(jī)器人與環(huán)境的交互學(xué)習(xí)獲得視角選擇策略?;谶@一原則,將訓(xùn)練步驟安排為:在機(jī)器人工作空間隨機(jī)放入n個(gè)物體,機(jī)器人連續(xù)執(zhí)行抓取任務(wù),并在執(zhí)行任務(wù)過程中不斷收集經(jīng)驗(yàn)數(shù)據(jù)存入經(jīng)驗(yàn)池,直到清空工作空間物體,再重新放置m個(gè)物體。為提高訓(xùn)練收斂速度,采用從易到難的方式放置待抓物體,即訓(xùn)練開始時(shí)只往工作空間中放置一個(gè)物體,隨著訓(xùn)練次數(shù)增加而改變放入物體個(gè)數(shù)。

本文中提出的一種視角選擇經(jīng)驗(yàn)增強(qiáng)算法,在訓(xùn)練過程中的抓取成功率變化如圖9 所示。在500輪抓取任務(wù)訓(xùn)練中,經(jīng)過100輪(約2 h)訓(xùn)練后網(wǎng)絡(luò)已達(dá)到良好收斂效果。

圖9 訓(xùn)練過程中抓取成功率變化Fig.9 Variation of grasping performance during training

3.3.2 對比實(shí)驗(yàn)的結(jié)果分析

仿真環(huán)境中的對比實(shí)驗(yàn)總共設(shè)計(jì)8 組,分別放置1 到8 個(gè)物體,每組分別進(jìn)行50 輪抓取任務(wù)。圖10 為各方法抓取成功率和清空率隨物體個(gè)數(shù)增加的變化曲線。

圖10 仿真環(huán)境下抓取成功率與場景清空率對比Fig.10 Comparison of grasping success rate and clear rate in simulation environment

與使用固定單視角的情況對比,本文方法在復(fù)雜場景下的抓取成功率和場景清空率兩方面均獲得較大提升。其中,場景物體個(gè)數(shù)為8個(gè)時(shí),抓取成功率提升了14%(從62.3%提升到76.2%),而場景清空率提升了46%(從44%提升到90%)。本文所提視角選擇策略可以通過選擇合適視角來降低視野中場景的復(fù)雜度,克服固定單視角模式下機(jī)器人出現(xiàn)連續(xù)抓取失敗的問題,從而提升場景清空率。實(shí)驗(yàn)對比結(jié)果證明,本文方法可以有效提高機(jī)器人在復(fù)雜場景中的抓取能力。

與固定多視角和主動視角選擇這2 種方法對比,本文所提算法在抓取成功率和場景清空率方面相差不大,但兩種對比方法都需要機(jī)器人移動多個(gè)視角導(dǎo)致抓取效率降低。而本文的視角選擇策略在達(dá)到相似抓取率的同時(shí)只需進(jìn)行一次視角選擇,進(jìn)一步提升了機(jī)器人的抓取效率。

3.4 實(shí)體機(jī)器人實(shí)驗(yàn)

為驗(yàn)證仿真環(huán)境中訓(xùn)練的視角選擇策略,本文同時(shí)進(jìn)行了實(shí)體機(jī)器人抓取實(shí)驗(yàn)。本文算法由圖像預(yù)測的視角需通過手眼關(guān)系轉(zhuǎn)換為機(jī)器人視角,精度與手眼標(biāo)定算法有關(guān),而在實(shí)體機(jī)器人實(shí)驗(yàn)中手眼標(biāo)定精度可控制在3 mm 以內(nèi),對本文算法影響可以忽略,因此采用首鋼莫托曼Yaskawa MOTOMAN-GP8 工業(yè)機(jī)器人,集成遠(yuǎn)程控制MOTOCOM32 API 完成機(jī)器人控制。抓取夾具使用舵機(jī)驅(qū)動的機(jī)械夾爪,控制器通過串口控制夾爪開閉并讀取夾取狀態(tài)。末端集成Intel Realsense D435 深度相機(jī),實(shí)體機(jī)器人抓取實(shí)驗(yàn)平臺如圖11所示。

圖11 實(shí)體機(jī)器人抓取實(shí)驗(yàn)平臺Fig.11 Real-world robot grasping experimental platform

抓取對象選擇常見工業(yè)零件:三通管、四通管、90 度彎頭管等,如圖12 所示,隨機(jī)選擇添加至機(jī)器人抓取工作空間。

圖12 工業(yè)零件抓取對象Fig.12 Industrial parts grasping objects

實(shí)體機(jī)器人執(zhí)行與仿真完全一致的10 組零件抓取實(shí)驗(yàn),分別放置1到10個(gè)相異物體,每組分別執(zhí)行50 輪抓取任務(wù),記錄每組實(shí)驗(yàn)抓取成功率、清空率、執(zhí)行時(shí)間。

如圖13 所示,實(shí)驗(yàn)結(jié)果表明本文提出的視角選擇經(jīng)驗(yàn)增強(qiáng)算法對訓(xùn)練中未出現(xiàn)過的物體抓取成功率仍能夠達(dá)到與仿真實(shí)驗(yàn)相近的水平。在混雜物體散亂堆疊場景(10 個(gè)物體)下的成功率達(dá)到了82.7%,相對于一般單視角方法提升了22.8%,相對于主動多視角和固定多視角提升了約2%。在場景清空率方面,本文算法在混雜場景能夠達(dá)到90% 的清空率,優(yōu)于前兩種對比方法。

圖13 真實(shí)場景下抓取成功率與場景清空率對比Fig.13 Comparison of grasping success rate and clear rate in real-world scenes

實(shí)體機(jī)器人抓取實(shí)驗(yàn)結(jié)果如圖14 所示,文中提出的視角選擇經(jīng)驗(yàn)增強(qiáng)算法具備實(shí)際應(yīng)用特征,能夠選擇合適的視角提升抓取成功率,在一定程度上解決了機(jī)器人處理復(fù)雜場景中抓取的問題。

圖14 實(shí)際視角選擇抓取過程Fig.14 Process of real-world viewpoint selection grasping

如表3 所示,設(shè)待抓取物體個(gè)數(shù)為10,本文的方法對比固定單視角、固定多視角、主動多視角的抓取成功率、平均抓取時(shí)間的結(jié)果顯示:平均抓取時(shí)間以固定單視角最小,但由于其較低的抓取成功率在實(shí)效性方面不如本文算法;另外兩種多視角方法雖與本文算法保持接近的成功率,但本文算法可直接預(yù)測下一個(gè)最佳視角,只需選擇移動一次相機(jī)視角,而多視角方法則需要移動多次,因此本文方法可以保證更短視角選擇時(shí)間,在抓取效率方面優(yōu)于另外兩種算法。實(shí)驗(yàn)結(jié)果證實(shí)了本文提出的視角選擇經(jīng)驗(yàn)增強(qiáng)算法在實(shí)體機(jī)器人場景下能以小幅增加單次抓取耗時(shí)的代價(jià),獲得更高的抓取成功率,從而達(dá)到更優(yōu)的抓取效率。

表3 對比實(shí)驗(yàn)結(jié)果(物體個(gè)數(shù)為10)Table 3 Experiment result of comparison(number of objects is 10)

4 結(jié)論

針對機(jī)器人在固定單一視角下難以解決物體散亂堆疊場景下的抓取問題,本文提出一種基于深度強(qiáng)化學(xué)習(xí)的視角經(jīng)驗(yàn)增強(qiáng)算法,將視角選擇問題轉(zhuǎn)化為馬爾科夫決策過程建模,使用編碼-解碼器網(wǎng)絡(luò)擬合視角價(jià)值函數(shù)。針對訓(xùn)練過程中稀疏獎勵(lì)的問題,提出一種視角選擇經(jīng)驗(yàn)增強(qiáng)算法。實(shí)際訓(xùn)練結(jié)果表明,擴(kuò)展視角選擇獎勵(lì)區(qū)間可有效解決當(dāng)前場景中的稀疏獎勵(lì)問題,加快強(qiáng)化學(xué)習(xí)收斂速度。仿真與實(shí)體機(jī)器人抓取實(shí)驗(yàn)結(jié)果表明,本文算法可通過強(qiáng)化學(xué)習(xí)的方法得到有效的視角選擇策略,且具備了較好的抓取目標(biāo)泛化能力,在抓取成功率、場景清空率和抓取效率方面與其他方法相比獲得不同程度的提升,證明了合適的視角選擇策略在提高機(jī)器人抓取性能方面的較強(qiáng)適應(yīng)力。為今后機(jī)器人控制體系采用強(qiáng)化學(xué)習(xí)框架學(xué)習(xí)視角選擇和抓取選擇提供了實(shí)驗(yàn)數(shù)據(jù)支撐。未來,高自由度視角的選擇研究將逐步場景化,融合策略搜索算法、注意力機(jī)制框架等方法將提高系統(tǒng)魯棒性和適應(yīng)性。

猜你喜歡
深度圖成功率物體
成功率超70%!一張冬棚賺40萬~50萬元,羅氏沼蝦今年將有多火?
如何提高試管嬰兒成功率
深刻理解物體的平衡
基于深度圖的3D-HEVC魯棒視頻水印算法
我們是怎樣看到物體的
如何提高試管嬰兒成功率
一種基于局部直方圖匹配的深度編碼濾波算法
疊加速度譜在鉆孔稀少地區(qū)資料解釋中的應(yīng)用
科技視界(2016年2期)2016-03-30 11:17:03
為什么同一物體在世界各地重量不一樣?
研究發(fā)現(xiàn):面試排第四,成功率最高等4則
海峽姐妹(2015年5期)2015-02-27 15:11:00
庆元县| 油尖旺区| 兰溪市| 章丘市| 红桥区| 小金县| 喜德县| 林口县| 广安市| 台安县| 梅州市| 冀州市| 上高县| 长沙县| 雷山县| 宕昌县| 商都县| 响水县| 磴口县| 阿拉尔市| 育儿| 开阳县| 长垣县| 固镇县| 凤城市| 凤山市| 吉木乃县| 绵竹市| 东辽县| 福贡县| 常熟市| 司法| 定陶县| 临夏市| 佳木斯市| 河北区| 宜兴市| 尉氏县| 义乌市| 长岭县| 海原县|