国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r檢測方法

2020-10-10 01:00盧智亮劉瑞雪
計算機(jī)工程與應(yīng)用 2020年19期
關(guān)鍵詞:物體準(zhǔn)確率機(jī)器人

盧智亮,林 偉,曾 碧,劉瑞雪

廣東工業(yè)大學(xué) 計算機(jī)學(xué)院,廣州510006

1 引言

在家庭和工業(yè)場景下,抓取物體是機(jī)器人進(jìn)行人機(jī)協(xié)作任務(wù)的關(guān)鍵步驟。人類可以準(zhǔn)確且穩(wěn)定地執(zhí)行抓取形狀不規(guī)則以及任意姿態(tài)的物體。然而對于機(jī)器人而言,準(zhǔn)確地抓取各式各樣、任意姿態(tài)的物體依舊是一種挑戰(zhàn)。機(jī)器人若要抓取目標(biāo)物體,需要預(yù)先檢測該物體的抓取區(qū)域,不適當(dāng)?shù)淖ト^(qū)域?qū)?dǎo)致機(jī)器人無法穩(wěn)定地抓取物體。因此,如何實時且準(zhǔn)確地檢測目標(biāo)抓取區(qū)域,是機(jī)器人領(lǐng)域中一個重要研究方向。

近年來,國內(nèi)外學(xué)者對機(jī)器人抓取區(qū)域檢測的研究已有不錯的成果。Lenz 等[1]率先采用深度學(xué)習(xí)的方法提取RGB-D 多模態(tài)特征,基于滑動窗口檢測框架同時使用支持向量機(jī)(Support Vector Machine,SVM)作為分類器,預(yù)測輸入圖像中的一小塊圖像是否存在合適的抓取位置。與Jiang等[2]使用傳統(tǒng)機(jī)器學(xué)習(xí)方法相比,該方法不需要人為針對特定物體設(shè)計視覺特征,而是以自主學(xué)習(xí)的方式提取抓取區(qū)域的特征。在Cornell 數(shù)據(jù)集[3]上,上述方法達(dá)到73.9%的準(zhǔn)確率。然而采用滑動窗口的方法會導(dǎo)致搜索抓取區(qū)域耗費時間長且計算量大。杜學(xué)丹等[4]在檢測抓取位置前,先使用Faster R-CNN二階目標(biāo)檢測算法[5]預(yù)測被抓物體的大致區(qū)域,縮小搜索范圍以減少搜索時間,但該方法并未從本質(zhì)上減少檢測時間且計算量仍舊偏大,無法達(dá)到實時檢測的要求。

Redmon等[6]不再基于滑動窗口框架搜索抓取框,而是利用AlexNet 網(wǎng)絡(luò)[7]強(qiáng)大的特征提取能力,直接在整個圖像上回歸抓取框參數(shù)。將輸入的圖像劃分成N×N個網(wǎng)格單元,每個網(wǎng)格單元預(yù)測一個抓取配置參數(shù)及適合抓取的概率,取其中概率最高的作為預(yù)測結(jié)果。在相同數(shù)據(jù)集上達(dá)到88.0%的準(zhǔn)確率,平均檢測時間為76 ms。Kumra等[8]也采用全局抓取預(yù)測的方法,使用網(wǎng)絡(luò)結(jié)構(gòu)更復(fù)雜的ResNet-50[9]提取多模態(tài)特征,準(zhǔn)確率相應(yīng)提高1.21%。以上兩種方法借助性能強(qiáng)大的特征提取網(wǎng)絡(luò)力求盡可能提高檢測速度和檢測準(zhǔn)確率,但是直接回歸抓取框參數(shù)容易導(dǎo)致預(yù)測的抓取框趨向于物體的中心,對于如盤子等抓取部位為物體邊緣的情況,預(yù)測的效果并不理想。

Chu 等[10]提出旋轉(zhuǎn)抓取框的方法,將方向預(yù)測視為抓取角度分類問題,借鑒Faster R-CNN二階目標(biāo)檢測算法的思想,首先判斷由GPN(Grasp Proposal Network)推薦的多個抓取候選區(qū)域能否用于抓取目標(biāo)物體,然后判斷剩余的抓取候選區(qū)域角度所屬類別。該方法使用三種基礎(chǔ)面積以及三種不同長寬比的錨框(Anchor)搜索抓取候選區(qū)域,達(dá)到96%的準(zhǔn)確率,平均檢測時間為120 ms。該方法雖然大幅度減少文獻(xiàn)[1]和[4]中算法的檢測時間,但依舊無法滿足動態(tài)環(huán)境或動態(tài)物體下實時抓取檢測的要求,并且僅利用特征提取網(wǎng)絡(luò)中最后一層的特征圖進(jìn)行預(yù)測,傾向于檢測較大的抓取框,對小抓取框檢測性能不足,檢測精確性有待提高。

綜上國內(nèi)外學(xué)者的抓取檢測算法已達(dá)到不錯的效果,但是仍然存在以下兩個問題:第一,高準(zhǔn)確率下檢測抓取框時間過長,不滿足機(jī)器人抓取檢測的實時性要求;第二,容易忽略目標(biāo)物中可用于抓取的小部位信息,檢測出來的抓取框偏大、精確度不足。

針對以上問題,本文提出一種基于嵌入通道注意力結(jié)構(gòu)SENet[11]的一階抓取檢測網(wǎng)絡(luò)(Squeeze and Excitation Networks-RetinaNet used for Grasp,SE-Retina-Grasp)模型的機(jī)器人抓取區(qū)域?qū)崟r檢測方法。該方法采用快速的一階目標(biāo)檢測模型RetinaNet[12]作為基本結(jié)構(gòu),在其特征提取網(wǎng)絡(luò)中嵌入通道注意力模塊SENet以提升重要特征通道的權(quán)重,確保檢測精度;而且為了解決原RetinaNet模型特征融合中僅關(guān)注相鄰層特征信息的問題,結(jié)合平衡特征金字塔[13](Balance Feature Pyramid,BFP)思想,充分融合高低層的特征信息,加強(qiáng)檢測小抓取框的能力。

2 抓取框在圖像空間的表達(dá)方式

給定包含目標(biāo)物的圖像I,檢測該目標(biāo)物的最優(yōu)抓取框G,需要先明確抓取框在圖像空間的表達(dá)方式。本文針對末端執(zhí)行器為平行夾爪的情況,采用文獻(xiàn)[1]提出的抓取框表達(dá)方法表示機(jī)器人抓取的具體位置,如圖1所示,公式表示為:

其中,(x,y)為抓取框的中心點;h、w分別表示機(jī)器人平行夾爪的高度、平行夾爪張開的距離大小;θ為沿w方向與圖像x軸正方向之間的夾角。過大的抓取框容易導(dǎo)致抓取中心點的偏移和預(yù)測的w遠(yuǎn)大于夾爪實際可張開的大小,抓取框的精確性直接影響機(jī)器人能否穩(wěn)定地抓取目標(biāo)物。

圖1 抓取框在圖像空間的表達(dá)方式

3 SE-RetinaGrasp模型

機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r檢測算法流程框圖如圖2 所示。首先,獲取包含目標(biāo)物的RGB 場景圖像;其次對該圖像進(jìn)行數(shù)據(jù)預(yù)處理操作后,作為抓取檢測網(wǎng)絡(luò)模型的輸入;最后模型生成可用于抓取目標(biāo)物的抓取框,機(jī)械臂利用抓取框的位置姿態(tài)信息,完成抓取目標(biāo)物的任務(wù)。

圖2 機(jī)器人目標(biāo)抓取區(qū)域?qū)崟r檢測算法流程

本文提出的SE-RetinaGrasp 模型如圖3 所示。圖(a)表示特征提取網(wǎng)絡(luò),在深度殘差網(wǎng)絡(luò)ResNet-50中嵌入SENet模塊,對抓取檢測任務(wù)起積極作用的特征通道加強(qiáng)權(quán)重;圖(b)表示平衡金字塔結(jié)構(gòu),進(jìn)一步融合特征金字塔結(jié)構(gòu)FPN(Feature Pyramid Networks)[14]中高低層的特征信息;圖(c)表示兩個FCN(Fully Convolutional Networks)[15]子網(wǎng)絡(luò),分別用于抓取框的定位以及抓取角度的分類。

圖3 SE-RetinaGrasp模型結(jié)構(gòu)

3.1 RetinaNet一階目標(biāo)檢測模型

一階目標(biāo)檢測模型RetinaNet是由文獻(xiàn)[12]提出,用以驗證提出的Focal Loss 函數(shù)對解決訓(xùn)練過程中正負(fù)樣本類別失衡問題的效果??紤]到目標(biāo)物僅占輸入圖像中的一部分,為解決一階目標(biāo)檢測模型中密集采樣候選機(jī)制導(dǎo)致的正負(fù)樣本失衡的問題,本文采用Focal Loss 函數(shù)作為分類損失函數(shù)、光滑L1 函數(shù)處理抓取框參數(shù)的回歸問題。

其中,F(xiàn)ocal Loss函數(shù)是一種改進(jìn)的交叉熵(Cross-Entropy,CE)損失函數(shù),通過在原有的交叉熵?fù)p失函數(shù)中乘上使易檢測目標(biāo)對模型訓(xùn)練貢獻(xiàn)削弱的指數(shù)式,成功減少目標(biāo)檢測損失值容易被大批量負(fù)樣本左右的現(xiàn)象。Focal Loss函數(shù)定義如下:

假設(shè)有N個樣本,總共有T種分類,y為真實標(biāo)簽,pi,t為第i個樣本被預(yù)測為第t類目標(biāo)的概率大??;平衡參數(shù)α用以調(diào)整正負(fù)樣本對總分類損失的貢獻(xiàn);(1-yi,t)γ為Focal Loss函數(shù)添加的指數(shù)式系數(shù),用以降低易分類樣本的權(quán)重,將更多注意力放在難分類樣本的訓(xùn)練上。其中,α、γ為超參數(shù),不參與模型的訓(xùn)練過程。

RetinaNet 檢測模型主要由ResNet-50 提取特征網(wǎng)絡(luò)、特征金字塔FPN 結(jié)構(gòu)以及兩個FCN 子網(wǎng)絡(luò)組成。RetinaNet檢測模型,如圖4所示。

圖4 RetinaNet檢測模型結(jié)構(gòu)

C1、C2、C3、C4、C5 分別為ResNet50網(wǎng)絡(luò)中采用不同個數(shù)殘差塊(Residual)提取的不同分辨率大小特征圖。根據(jù)低層特征語義信息弱,目標(biāo)位置清晰;高層特征語義信息強(qiáng),目標(biāo)位置模糊的特點,F(xiàn)PN 結(jié)構(gòu)通過自底向上連接、自頂向下連接以及橫向連接,對不同層的特征信息進(jìn)行融合。與原FPN結(jié)構(gòu)不同的是:

(1)RetinaNet 模型僅利用C3、C4、C5 特征圖,避免在高分辨率C2 特征圖中生成Anchor,減少模型檢測時間。

(2)對C5 特征圖進(jìn)行卷積核為3×3,步長為2 的卷積運算得到P6 網(wǎng)絡(luò)結(jié)構(gòu);對P6 使用Relu 激活函數(shù)增加非線性后再進(jìn)行相同的卷積運算得到P7 結(jié)構(gòu),通過在P6、P7 生成較大面積的候選區(qū)域增強(qiáng)模型檢測大物體的性能。

與目標(biāo)檢測任務(wù)不同的是,抓取檢測任務(wù)是檢測可用于抓取目標(biāo)物的區(qū)域位置,并非檢測目標(biāo)物自身的位置。針對目標(biāo)物抓取區(qū)域面積較小的特點,為使RetinaNet模型更好地應(yīng)用于抓取檢測任務(wù)中,本文僅在P3、P4、P5 三個層次生成抓取候選區(qū)域,采用{82,162,322}基礎(chǔ)大小的候選窗口,加入三種不同的尺度和{1∶2,1∶1,2∶1}三種不同的長寬比,搜索各種尺寸大小的抓取候選框。

3.2 SENet結(jié)構(gòu)

從文獻(xiàn)[10]的實驗發(fā)現(xiàn),將特征提取網(wǎng)絡(luò)Vgg16[16]替換為ResNet-50僅提高0.5%的準(zhǔn)確率,證明當(dāng)網(wǎng)絡(luò)達(dá)到一定深度時,繼續(xù)加深網(wǎng)絡(luò)層數(shù)并不能對準(zhǔn)確率有較大的提升。本文從考慮特征通道之間的關(guān)系出發(fā),在特征提取網(wǎng)絡(luò)ResNet-50中的每一個殘差塊后嵌入SENet模塊,增強(qiáng)抓取檢測任務(wù)中關(guān)鍵通道的注意力,以提升檢測準(zhǔn)確度。SENet結(jié)構(gòu),如圖5所示。

圖5 SENet結(jié)構(gòu)

SENet模塊主要采用擠壓(Squeeze)、激勵(Excitation)以及特征重標(biāo)定(Scale)三個操作完成特征通道自適應(yīng)校準(zhǔn)。

首先使用全局平均池化壓縮每一個特征圖,將C個特征圖轉(zhuǎn)換成1×1×C的實數(shù)數(shù)列,使每一個實數(shù)具有全局感受野。然后本文通過兩個卷積層完成降維與升維的操作,第一個卷積層將特征維度降低到原來的C r后通過Relu激活函數(shù)增加非線性;第二個卷積層恢復(fù)原來的特征維度,經(jīng)過Sigmoid函數(shù)得到歸一化的權(quán)重,最后通過乘法逐通道加權(quán)到原來的特征通道上,對原始特征進(jìn)行重標(biāo)定。擠壓、激勵以及特征重標(biāo)定公式如下所示:

3.3 平衡特征金字塔

針對原RetinaNet模型中FPN結(jié)構(gòu)僅融合相鄰層次的特征信息,導(dǎo)致高低層特征信息利用不平衡的現(xiàn)象。為進(jìn)一步加強(qiáng)檢測小抓取框的效果,充分利用不同分辨率下的特征信息,本文受文獻(xiàn)[13]中平衡特征金字塔結(jié)構(gòu)的啟發(fā),對原RetinaNet 模型中的特征金字塔結(jié)構(gòu)進(jìn)行改進(jìn)。平衡特征金字塔結(jié)構(gòu)如圖6 所示。提取P3、P4、P5 三個層次的特征圖,對P3、P5 分別采用最大池化操作、上采樣操作,使P3、P5 的特征圖分辨率與P4特征圖保持一致,三者對應(yīng)元素相加取平均,得到平衡特征圖P′,公式如下:

其中,Pl表示第l層特征;本文中l(wèi)min、lmax代表最低層數(shù)、最高層,分別為3、5;N代表累加的層數(shù)量。對平衡特征圖P′進(jìn)行卷積核為3×3,步長為1 的卷積運算得到進(jìn)一步提煉的特征圖Pr,使特征信息更具有判別性。最后調(diào)整提煉后的特征圖Pr分辨率大小分別與P3、P4、P5 層次的特征圖分辨率大小一致,與原層次的特征對應(yīng)元素相加,分別得到增強(qiáng)原層次特征表征能力的P3′、P4′、P5′,特征圖,從而增強(qiáng)模型捕捉細(xì)節(jié)信息的能力,有助于檢測小抓取框。

圖6 平衡特征金字塔結(jié)構(gòu)

4 實驗

4.1 實驗環(huán)境

本文的實驗機(jī)器是一臺配置型號為Intel?Core?i7-8750H 的CPU 和NVIDIA GeForce GTX 1070 的GPU的個人計算機(jī),內(nèi)存以及顯存大小分別為32 GB、8 GB。該機(jī)在Ubuntu 16.04 上運行,基于深度學(xué)習(xí)框架keras使用Python 語言編寫,借助CUDA(Compute Unified Device Architecture)加速運算。

4.2 實驗數(shù)據(jù)集

本文采用Cornell數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),圖7為數(shù)據(jù)集中的部分圖片。該數(shù)據(jù)集總共有885張圖片,其中包含了244種不同種類的物體,每一種物體均有不同的擺放位置及姿態(tài)。數(shù)據(jù)集對每一張圖片中的目標(biāo)物體的抓取位置進(jìn)行標(biāo)記,共標(biāo)記5 110 個可用于抓取目標(biāo)物的矩形框和2 909個不可用于抓取的矩形框。本文實驗將抓取數(shù)據(jù)集依照以下兩種方式進(jìn)行劃分,得到708張圖片作為訓(xùn)練樣本、177張圖片作為測試樣本。

圖7 Cornell數(shù)據(jù)集

方式1 按圖片隨機(jī)劃分。將數(shù)據(jù)集圖片隨機(jī)劃分至訓(xùn)練集和驗證集中,以驗證模型對已見過的、不同擺放位置的物體的泛化能力。

方式2 按物體種類隨機(jī)劃分。使訓(xùn)練集中并不含有測試集中的物體種類,以驗證模型對未曾見過的新物體的泛化能力。

4.3 數(shù)據(jù)預(yù)處理

盡管Cornell 數(shù)據(jù)集包含的物體種類豐富,但數(shù)據(jù)量較小,為了使訓(xùn)練樣本盡可能地涵蓋各種可能出現(xiàn)的情況,本文對訓(xùn)練樣本進(jìn)行擴(kuò)充:

首先對原始圖像在x軸、y軸各做50 個像素點內(nèi)的隨機(jī)平移;然后對平移后的圖片進(jìn)行中心剪裁得到321×321 大小的圖像;處理后的圖像再進(jìn)行0°~360°范圍內(nèi)的隨機(jī)旋轉(zhuǎn);為了方便與其他算法進(jìn)行比較,本文將原始圖像分辨率大小為480×640 調(diào)整為227×227 作為網(wǎng)絡(luò)模型的輸入;

最后如文獻(xiàn)[10]一樣將抓取角度進(jìn)行類別劃分,考慮到抓取角度的對稱性,本文將180°均分成19個區(qū)域,加上背景分類,本文實驗共有20 種類別。標(biāo)簽中的角度值相應(yīng)分配至最近的區(qū)域,將原本帶有方向性的矩形框置為沒有角度傾斜的矩形框,模型訓(xùn)練時擬合這些垂直于圖像x軸的矩形框,并預(yù)測這些矩形框?qū)儆谀姆N角度類別。

4.4 模型訓(xùn)練的實現(xiàn)

考慮到RetinaNet模型內(nèi)部層數(shù)較多且結(jié)構(gòu)相對復(fù)雜,對于目前數(shù)據(jù)集數(shù)據(jù)規(guī)模較小的情況容易導(dǎo)致過擬合。為此本文采用遷移學(xué)習(xí)的方法進(jìn)行抓取檢測模型訓(xùn)練,將在微軟COCO 數(shù)據(jù)集訓(xùn)練好的ResNet-50 模型參數(shù)作為初始值,在此基礎(chǔ)上進(jìn)行微調(diào),網(wǎng)絡(luò)中其余的參數(shù)采用標(biāo)準(zhǔn)高斯分布進(jìn)行初始化。以圖像RGB作為模型輸入,學(xué)習(xí)率初始化為0.000 1,學(xué)習(xí)率衰減因子為5,設(shè)置每批訓(xùn)練圖片數(shù)為2,epoch初始化為20,采用隨機(jī)梯度下降法(SGD)對模型進(jìn)行訓(xùn)練。

4.5 評估指標(biāo)

通常有兩種評估方法來衡量模型預(yù)測抓取姿態(tài)的效果:一種是點度量方法,另一種是矩形度量方法。

點度量評估方法主要以模型預(yù)測的抓取框中心點與標(biāo)注真值框的中心點之間的距離作為衡量標(biāo)準(zhǔn),當(dāng)兩點之間的距離小于預(yù)定的閾值,則認(rèn)為預(yù)測結(jié)果可用于抓取目標(biāo)物體并取最小值作為最佳抓取框。然而以往算法中沒有公開點度量評估方法所使用的閾值,并且該方法沒有將抓取角度納入評估范疇中,所以更多的算法采用矩形度量作為評估方法。

矩形度量方法采用抓取矩形來衡量模型預(yù)測的效果,當(dāng)預(yù)測的矩形框同時滿足以下兩個條件時,則認(rèn)為該矩形框可用于抓取物體:

(1)預(yù)測的抓取角度與標(biāo)注真值框的抓取角度之差小于30°。

(2)Jaccard 相似系數(shù)大于0.25,其中Jaccard 相似系數(shù)計算公式如下:

其中,gp為預(yù)測抓取矩形區(qū)域,gt為標(biāo)注真值框的抓取矩形區(qū)域。本文采用矩形度量的評估方法,取預(yù)選抓取框中評判值最大的作為模型預(yù)測結(jié)果。

4.6 實驗結(jié)果與分析

本文使用Cornell 數(shù)據(jù)集對提出的算法進(jìn)行測試,測試結(jié)果如圖8 和圖9 所示:圖8 展示模型預(yù)測的部分正確抓取框;圖9展示模型預(yù)測結(jié)果中錯誤抓取框。

圖8 模型預(yù)測的部分正確抓取框

圖9 模型預(yù)測結(jié)果中錯誤抓取框

為進(jìn)一步驗證本文算法的有效性,本文進(jìn)行以下兩部分實驗:

(1)原RetinaNet模型和SE-RetinaGrasp模型檢測效果對比

將數(shù)據(jù)集按圖片隨機(jī)劃分的方式切分訓(xùn)練集和測試集,利用原RetinaNet模型和SE-RetinaGrasp模型對測試集進(jìn)行抓取檢測,實驗結(jié)果如表1所示。

表1 原RetinaNet模型、SE-RetinaGrasp模型結(jié)果對比

從表1中可以看出,嵌入SENet結(jié)構(gòu)的RetinaNet模型較原RetinaNet模型準(zhǔn)確率提高了1.13%,參數(shù)量較原RetinaNet模型增加8%,而平均檢測時間幾乎沒有增加;基于SE-RetinaNet 模型的基礎(chǔ)上引入平衡金字塔的思想,準(zhǔn)確率進(jìn)一步提升0.4%,參數(shù)量較SE-RetinaNet 模型僅增加1%,總體平均檢測時間較原RetinaNet模型增加了1 ms。

實驗分析可知,嵌入SENet結(jié)構(gòu)有助于挖掘抓取檢測任務(wù)中重要的特征通道,增強(qiáng)特征圖的感受野;而引入平衡特征金字塔的思想進(jìn)一步融合不同層次的特征信息,加強(qiáng)原來各層次中特征的表達(dá)能力,有助于檢測物體中各種大小的抓取框。由于主要采用上采樣以及最大池化操作,模型參數(shù)數(shù)量基本不變,并有效提高了檢測準(zhǔn)確率。本文算法與原RetinaNet檢測效果如圖10所示。

圖10 原RetinaNet模型、SE-RetinaGrasp模型效果對比

由圖10 可發(fā)現(xiàn),對于同一種物體,原RetinaNet 檢測的抓取框趨向于兩端且仍有抓取框偏大的現(xiàn)象,而SE-RetinaGrasp 模型的抓取框更趨向于物體的中間位置且抓取框更為精準(zhǔn),提高了機(jī)器人抓取目標(biāo)物體的穩(wěn)定性。

(2)本文算法和其他算法檢測效果對比

將本文算法與以往提出的算法進(jìn)行對比,并比較不同方式劃分?jǐn)?shù)據(jù)集下檢測準(zhǔn)確率以及檢測時間。對比結(jié)果如表2所示。

實驗結(jié)果顯示,本文算法可在保持高準(zhǔn)確率的前提下,以實時速度檢測抓取框,比文獻(xiàn)[10]算法的檢測速度快了將近6倍。

按方式1劃分?jǐn)?shù)據(jù)集,本文算法準(zhǔn)確率均高于其他檢測算法;按方式2 劃分?jǐn)?shù)據(jù)集,準(zhǔn)確率稍低于文獻(xiàn)[10]。本文算法的執(zhí)行效率均高于其他經(jīng)典抓取檢測算法,盡管本文模型在生成候選抓取框時耗費了一定的時間,但本文算法的網(wǎng)絡(luò)模型為全卷積網(wǎng)絡(luò)且無文獻(xiàn)[10]算法中區(qū)域生成網(wǎng)絡(luò)該一步驟,有效地減少檢測時間。

表2 本文算法與其他算法結(jié)果對比

為進(jìn)一步體現(xiàn)本文算法性能,表3 展示了在不同Jaccard閾值下檢測精度結(jié)果。結(jié)果表明,在更嚴(yán)格的評價標(biāo)準(zhǔn)中,本文算法仍保持較高的檢測準(zhǔn)確率,有助于機(jī)器人精確地抓取目標(biāo)物。

表3 不同Jaccard閾值下的檢測精度 %

本文通過復(fù)現(xiàn)文獻(xiàn)[10]的抓取檢測算法,與本文算法進(jìn)行對比,具體效果如圖11所示。

圖11 本文算法與其他算法效果對比

由圖11 的對比效果可發(fā)現(xiàn),對于檢測同一種物體不同擺放姿態(tài)下的抓取位置,文獻(xiàn)[10]檢測的抓取框偏大,精確度不足;本文算法預(yù)測的抓取框更加精細(xì),主要原因在于本文算法充分利用不同層次的特征信息,并在不同層的特征圖上檢測抓取框,與文獻(xiàn)[10]在提取特征網(wǎng)絡(luò)的最后一層特征圖上進(jìn)行檢測相比,本文算法能更好地捕抓目標(biāo)物的細(xì)節(jié)信息,加強(qiáng)小抓取框的檢測效果。

5 結(jié)束語

為了使機(jī)器人實時且準(zhǔn)確地抓取目標(biāo)物體,本文提出并驗證了一種基于SE-RetinaGrasp 的神經(jīng)網(wǎng)絡(luò)模型。該模型以一階目標(biāo)檢測算法RetinaNet 為基礎(chǔ),一方面,通過通道注意力SENet 結(jié)構(gòu),建立特征通道之間的相互依賴關(guān)系,提升對抓取檢測任務(wù)起積極作用的特征并抑制用處不大的特征,從而提高檢測準(zhǔn)確率;另一方面,利用平衡金字塔的思想,在不增加太多參數(shù)的前提下,進(jìn)一步融合不同層次的特征信息,加強(qiáng)模型對細(xì)節(jié)信息的捕抓能力。在Cornell 數(shù)據(jù)集上的實驗證明,相比于傳統(tǒng)抓取檢測模型,SE-RetinaGrasp 模型保持高檢測準(zhǔn)確率的同時,實時性高,并且一定程度上提高了抓取框的精細(xì)程度。

然而,Cornell數(shù)據(jù)集針對的圖像僅包含單一目標(biāo)物體,對于現(xiàn)實生活中多物體堆疊的情況尚未能很好的解決,因此,如何能在多物體堆疊的場景下,實時準(zhǔn)確地抓取相應(yīng)物體是下一步的研究內(nèi)容。

猜你喜歡
物體準(zhǔn)確率機(jī)器人
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報參考產(chǎn)品質(zhì)量檢驗分析
深刻理解物體的平衡
我們是怎樣看到物體的
高速公路車牌識別標(biāo)識站準(zhǔn)確率驗證法
機(jī)器人來幫你
認(rèn)識機(jī)器人
機(jī)器人來啦
為什么同一物體在世界各地重量不一樣?