国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)的物體抓取檢測(cè)

2019-09-13 01:02魏英姿曹雪萍
關(guān)鍵詞:成功率模態(tài)卷積

魏英姿,曹雪萍

(沈陽(yáng)理工大學(xué) 信息科學(xué)與工程學(xué)院,沈陽(yáng) 110159)

近年來(lái),機(jī)器人自主抓取研究受到人們的密切關(guān)注,主要是因?yàn)闄C(jī)器人缺乏理解感知信息的能力。即使給機(jī)器人提供與人類相同的視覺信息,機(jī)器人也并不知道怎么抓住物體。其次,由于待抓取物體的外形各種各樣,即使同一種類別的物體在外形上也可能有較大的差異,因此視覺感知成為現(xiàn)實(shí)機(jī)器人系統(tǒng)的一大瓶頸。

傳統(tǒng)的機(jī)器學(xué)習(xí)主要根據(jù)物體模型進(jìn)行抓取姿態(tài)估計(jì)[1-3]。隨著深度學(xué)習(xí)的快速發(fā)展,有學(xué)者提出兩點(diǎn)抓取表示法,選擇最優(yōu)抓取點(diǎn)位置,提高機(jī)器人抓取的成功率。Tanner等[4]通過外形結(jié)構(gòu)以及形態(tài)學(xué)處理的方法提取物體的特征點(diǎn),從而確定物體的中心定位,但該方法并不適用于形狀和結(jié)構(gòu)復(fù)雜的物體。Maitin-Shepard等[5]利用手工標(biāo)記特征的方法來(lái)選擇最優(yōu)抓取點(diǎn),雖然在一定程度上提高了準(zhǔn)確率,但手工標(biāo)記既耗時(shí),通用性也不強(qiáng)。卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),彌補(bǔ)了上述的不足,其結(jié)構(gòu)類似生物神經(jīng)網(wǎng)絡(luò),能夠自主獲取物品的特征。2012年AlexNet卷積神經(jīng)網(wǎng)絡(luò)[6]在ImageNet比賽中脫穎而出,隨后,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行物體識(shí)別[7]及物體抓取檢測(cè)等研究迅速發(fā)展起來(lái)。2015年康奈爾大學(xué)的Ian Lenz等[8]利用一個(gè)深度網(wǎng)絡(luò)檢測(cè)機(jī)器人抓取矩形框并將矩形框中的三維點(diǎn)云映射到抓取參數(shù)。Redom等[9]將一個(gè)卷積神經(jīng)網(wǎng)絡(luò)與Jiang等[10]提出的抓取矩形框結(jié)合起來(lái),實(shí)現(xiàn)物體抓取框的獲取,但該方法的成功率并不高,還需要進(jìn)一步完善。

本文提出一種基于多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)模型的最優(yōu)抓取位姿檢測(cè)的方法。由于單獨(dú)使用RGB圖像作為神經(jīng)網(wǎng)絡(luò)輸入時(shí),物體抓取框預(yù)測(cè)結(jié)果易被圖像的背景顏色和圖案干擾,針對(duì)這個(gè)問題,本文對(duì)AlexNet卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行了改進(jìn),增加專門處理Depth圖像的神經(jīng)網(wǎng)絡(luò),并將其與處理RGB圖像的神經(jīng)網(wǎng)絡(luò)合并。由于預(yù)測(cè)結(jié)果中評(píng)判值排名第一的抓取框未必是最利于機(jī)械手抓取操作的,所以還對(duì)最佳抓取框的選擇進(jìn)行了優(yōu)化,增加了比較重心的算法。第一階段采用背景減除法,得到物體的掩膜,通過等間距采樣規(guī)則,獲取這個(gè)物體所有可能的候選抓取矩形框;第二階段將兩個(gè)獨(dú)立的AlexNet卷積神經(jīng)網(wǎng)絡(luò)融合作為一個(gè)整體進(jìn)行訓(xùn)練,物體的RGB圖像和Depth圖像分別作為兩個(gè)網(wǎng)絡(luò)的輸入,然后將所有候選抓取框送入神經(jīng)網(wǎng)絡(luò)打分,找到評(píng)判值排名前三的抓取框;第三階段通過比較重心的算法找到中心最接近物體重心的抓取框,從而得到最優(yōu)抓取框。

1 抓取矩形框的定義

機(jī)器人在抓取物品時(shí)要預(yù)先獲取物品被抓取部位的位姿,并將位姿映射到末端執(zhí)行器進(jìn)行抓取。本文用一個(gè)旋轉(zhuǎn)的矩形框表示物品的抓取位姿,采用文獻(xiàn)[10]的方法來(lái)定義矩形框。進(jìn)行物體抓取位姿檢測(cè)時(shí),輸入到神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)是包含目標(biāo)物體的RGB-D圖像,輸出的是抓取矩形的四個(gè)頂點(diǎn)坐標(biāo)和抓取矩形框的旋轉(zhuǎn)角度。矩形框的定義如圖1所示,用五維向量表示抓取位姿。

圖1 抓取框在圖像中的定義

若將抓取矩形框表示為G,則矩形框的定義式為

G={x,y,h,w,θ}

(1)

式中:(x,y)表示抓取矩形框的中心位置;h為機(jī)器人夾持器的寬度;w為夾持器張開的大?。沪葹閔與水平軸的夾角,表示抓取位置的姿態(tài)。

2 候選抓取框的確定

根據(jù)抓取框G={x,y,h,w,θ}可知,一個(gè)抓取框由中心點(diǎn)、長(zhǎng)、寬、角度決定。抓取框中心點(diǎn)的確定,如圖2所示,先通過背景減除,得到物體掩膜,然后以一定的等間距在橫向和縱向上標(biāo)記直線,找到既在直線交點(diǎn)上又在物體掩膜上的點(diǎn),該點(diǎn)即為抓取框的中心點(diǎn)。采樣的間距根據(jù)物體整體在圖像上的像素面積確定,如面積較大,則可適當(dāng)?shù)卦黾硬蓸娱g距;反之,則適當(dāng)?shù)販p小采樣間距。

圖2 抓取框中心點(diǎn)獲取示意圖

根據(jù)康奈爾數(shù)據(jù)集中的物體大小,可大致確定抓取框16組長(zhǎng)(w)和寬(h)的組合。

[w,h]=[40,20;50,20;60,20;40,30;50,30;60,30;70,30;50,40;60,40;70,40;80,40;60,50;70,50;80,50;70,60;80,60]

當(dāng)實(shí)際值h比夾持器的寬度小時(shí),或?qū)嶋H值w比夾持器張開的最大值大時(shí),該抓取框則被判定為無(wú)效。

θ的取值范圍為0°~180°,每改變15°取一個(gè)值,這樣既能很大程度上減少抓取框的搜索時(shí)間又不會(huì)影響抓取框檢測(cè)的效果。

通過上述步驟可以確定一個(gè)物體上的所有候選抓取框。

3 神經(jīng)網(wǎng)絡(luò)模型設(shè)計(jì)及訓(xùn)練

3.1 數(shù)據(jù)集選擇

采用美國(guó)康奈爾大學(xué)提供的抓取數(shù)據(jù)集[11],該數(shù)據(jù)集由240個(gè)不同物品的885幅圖像數(shù)據(jù)和點(diǎn)云數(shù)據(jù)組成,圖片和點(diǎn)云數(shù)據(jù)相對(duì)應(yīng)。在這些數(shù)據(jù)中,每幅圖像均有多個(gè)被標(biāo)記為成功(正)或失敗(負(fù))的抓取矩形框,共標(biāo)注了8019個(gè)抓取矩形框,去掉點(diǎn)云缺失嚴(yán)重的數(shù)據(jù)后,共提取出7365個(gè)抓取框,其中正樣本數(shù)為4673,負(fù)樣本數(shù)為2692。圖3所示為可抓取框RGB圖像,圖4所示為可抓取框Depth圖像。本文將數(shù)據(jù)集上標(biāo)注的所有可用的抓取框全部提取出來(lái),將RGB圖像和Depth圖像分開作為訓(xùn)練抓取分類器的兩個(gè)數(shù)據(jù)集,在進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練時(shí),用提取出來(lái)經(jīng)過處理的數(shù)據(jù),將可抓取的矩形框標(biāo)記為1,不可抓取的標(biāo)記為0。

圖3 可抓取框RGB圖像

圖4 可抓取框Depth圖像

3.2 多模態(tài)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

以抓取矩形框?yàn)閷W(xué)習(xí)特征,用8層的AlexNet卷積神經(jīng)網(wǎng)絡(luò),建立多模態(tài)神經(jīng)網(wǎng)絡(luò)模型,將整個(gè)網(wǎng)絡(luò)作為一個(gè)整體來(lái)進(jìn)行訓(xùn)練,輸入數(shù)據(jù)是抓取矩形框的RGB數(shù)據(jù)集和Depth數(shù)據(jù)集。多模態(tài)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 多模態(tài)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

整個(gè)神經(jīng)網(wǎng)絡(luò)共有8層,前5層是卷積層,完成圖形特征的提?。缓?層是全連通層,實(shí)現(xiàn)圖像分類。其中,第1層和第2層包括卷積層、標(biāo)準(zhǔn)化操作和最大池化層;第1層輸出96個(gè)特征圖;第2層輸出256個(gè)特征圖;第3、4層只有一個(gè)卷積層,輸出384個(gè)特征圖;第5層包含了一個(gè)卷積層和一個(gè)池化層,輸出256個(gè)特征圖;第6、7層為全連接層,均有4096個(gè)隱層;第8層將兩個(gè)網(wǎng)絡(luò)進(jìn)行融合;最終輸出層soft-max輸出分類結(jié)果。

3.3 模型訓(xùn)練

實(shí)驗(yàn)平臺(tái)采用Anaconda的tensorflow平臺(tái),主要使用GPU型號(hào)為GTX 1080Ti、操作系統(tǒng)為Windows10的計(jì)算機(jī)進(jìn)行訓(xùn)練;訓(xùn)練數(shù)據(jù)集是從康奈爾抓取數(shù)據(jù)集中提取出來(lái)的抓取矩形框RGB-D樣本集。訓(xùn)練參數(shù)如表1所示。

表1 訓(xùn)練參數(shù)

3.4 檢測(cè)評(píng)估

神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練完成后,在樣本數(shù)據(jù)集上的識(shí)別成功率只反映模型對(duì)樣本特征的學(xué)習(xí)能力,還需要將所有候選抓取框送入神經(jīng)網(wǎng)絡(luò)中評(píng)判,檢測(cè)top3的抓取框。

若預(yù)測(cè)的抓取框?yàn)镽ect,數(shù)據(jù)集中標(biāo)注的抓取框?yàn)镽ect*,判斷一個(gè)預(yù)測(cè)抓取框是否成功有兩個(gè)條件:

(1)預(yù)測(cè)的抓取框Rect和標(biāo)注的抓取框Rect*之間的夾角小于30°;

(2)預(yù)測(cè)的抓取框Rect和標(biāo)注的抓取框Rect*之間的重疊率score大于25%,定義式為

(2)

4 最優(yōu)抓取框的選擇

通過多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)對(duì)所有可能候選抓取框進(jìn)行評(píng)判打分后,得到評(píng)判值排名前三的候選抓取矩形框。為方便對(duì)物體進(jìn)行抓取操作,通過比較重心的算法找到中心最接近物體重心的抓取框,即為最優(yōu)抓取框。本文采用以下算法找到最優(yōu)抓取矩形框,如圖6所示。

圖6 算法的流程圖

首先找到評(píng)分排名前3名且不同中心位置的矩形框,記為Gt1、Gt2、Gt3,初始化Gt1、Gt2、Gt3后,輸入候選矩形框Gi和該矩形框的評(píng)分Ji,然后將矩形框的評(píng)分Ji與第1個(gè)矩形框的評(píng)分Jt1進(jìn)行比較,若Ji>Jt1,則比較其中心值;若中心值相等,則將該候選矩形框Gi賦值給Gt1;若中心值不相等,則依次進(jìn)行以下操作:Gt2賦值給Gt3,Gt1賦值給Gt2,Gi賦值給Gt1,執(zhí)行結(jié)束后進(jìn)入下一循環(huán)。若Ji≤Jt1,則進(jìn)入下一個(gè)判斷,依次執(zhí)行下去,直到獲得評(píng)分在前3名且不同中心位置的矩形框Gt1、Gt2、Gt3。提取Gt1、Gt2、Gt3,求得中心平均值(x,y),再求出每個(gè)矩形框的均方差,則均方差最小的值既為最優(yōu)矩形框。

5 實(shí)驗(yàn)結(jié)果及分析

5.1 網(wǎng)絡(luò)測(cè)試結(jié)果

利用康奈爾大學(xué)的抓取數(shù)據(jù)集對(duì)整體網(wǎng)絡(luò)進(jìn)行測(cè)試。測(cè)試主要從以下兩方面進(jìn)行:①?gòu)目的螤栕ト?shù)據(jù)集中隨機(jī)抽取30種物體的圖像進(jìn)行測(cè)試,共抽取10次,求10次抽取結(jié)果的平均值作為最終正確率;②從數(shù)據(jù)集中隨機(jī)抽取100張圖片,同樣抽取10次,求10次抽取結(jié)果的平均值作為最終正確率。圖7為測(cè)試得到的正確抓取矩形框,圖8為錯(cuò)誤抓取矩形框。

圖7 正確抓取矩形框

圖8 錯(cuò)誤抓取矩形框

將多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)測(cè)試結(jié)果同其他方法進(jìn)行對(duì)比。結(jié)果表明,使用多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)可使抓取矩形框的正確率提高到90%以上,如表2所示。

表2 測(cè)試結(jié)果 %

5.2 實(shí)驗(yàn)驗(yàn)證結(jié)果

將多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到現(xiàn)實(shí)中常見物品上進(jìn)行實(shí)驗(yàn)驗(yàn)證。實(shí)驗(yàn)共選擇8種非數(shù)據(jù)集中的物體,這些物體均以不同的位置和姿態(tài)進(jìn)行擺放,對(duì)每種物體進(jìn)行10次top1抓取框預(yù)測(cè),圖9所示為部分物體top1抓取框預(yù)測(cè)。表3為8種物體top1抓取框預(yù)測(cè)成功率。結(jié)果顯示,該實(shí)驗(yàn)預(yù)測(cè)成功率比較理想,除了在水杯、剪刀、鼠標(biāo)、蘋果上預(yù)測(cè)的抓取框比較不穩(wěn)定外,在其它四個(gè)物體上預(yù)測(cè)的top1抓取框的中心大致在物體的中心處,成功率達(dá)到100%,驗(yàn)證了多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)能夠?qū)崿F(xiàn)對(duì)未知物體的抓取框檢測(cè)。

圖9 部分物品top1抓取框預(yù)測(cè)

表3 top1抓取框預(yù)測(cè)成功率% %

6 結(jié)論

采用多模態(tài)卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對(duì)物品的抓取矩形框檢測(cè),提高了抓取矩形框檢測(cè)的成功率,在測(cè)試集上抓取框的正確率提高到90%以上,在驗(yàn)證集上對(duì)8種物體分別進(jìn)行10次top1抓取框預(yù)測(cè),其成功率都高達(dá)80%,其中有四種物體的預(yù)測(cè)成功率達(dá)到了100%。經(jīng)驗(yàn)證,不需要對(duì)物品進(jìn)行三維建模,也能實(shí)現(xiàn)對(duì)未知物體的抓取。未來(lái)將進(jìn)一步優(yōu)化本文的方法,將兩個(gè)網(wǎng)絡(luò)更有效地結(jié)合在一起,更快更準(zhǔn)確地實(shí)現(xiàn)最優(yōu)抓取位置的檢測(cè)。

猜你喜歡
成功率模態(tài)卷積
基于BERT-VGG16的多模態(tài)情感分析模型
成功率超70%!一張冬棚賺40萬(wàn)~50萬(wàn)元,羅氏沼蝦今年將有多火?
多模態(tài)超聲監(jiān)測(cè)DBD移植腎的臨床應(yīng)用
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
跨模態(tài)通信理論及關(guān)鍵技術(shù)初探
如何提高試管嬰兒成功率
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
如何提高試管嬰兒成功率
基于傅里葉域卷積表示的目標(biāo)跟蹤算法