国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

雜亂場景下小物體抓取檢測研究

2024-02-24 09:17:26孫國棟賈俊杰李明晶張楊
中國圖象圖形學報 2024年2期
關鍵詞:掩碼姿勢尺度

孫國棟,賈俊杰,李明晶,張楊

湖北工業(yè)大學機械工程學院,武漢 430068

0 引言

隨著深度學習技術的快速發(fā)展,數(shù)據(jù)驅(qū)動方法應用在機器人技術上展現(xiàn)出巨大的發(fā)展?jié)摿?,非結(jié)構(gòu)化環(huán)境下對未知物體的抓取受到了許多研究者的關注。根據(jù)抓取形式可以將抓取分為平面抓取和六自由度抓取。平面抓取限制攝像機必須垂直地觀測場景,在雜亂和帶有約束的場景中可能會導致抓取失敗。相比之下,六自由度抓取沒有設置額外的抓取約束,直接從觀測的場景中預測抓取配置,近年來應用于非結(jié)構(gòu)化環(huán)境下對未知物體的抓取。最近一些基于學習的六自由度抓取工作(Mousavian 等,2019;Sundermeyer 等,2021;Fang 等,2020;Ma 和Huang,2022;Wang 等,2021;Lu 等,2022;Gou 等,2021)展示出良好的抓取表現(xiàn),但從數(shù)據(jù)中學習場景中的抓取分布過程仍然存在問題,在小物體上的抓取檢測表現(xiàn)較差。

學習小物體上的抓取配置是十分具有挑戰(zhàn)性的工作。首先,由于原始點云數(shù)據(jù)量巨大,為了減少網(wǎng)絡的計算復雜度和提高檢測效率,需要對場景中的點進行下采樣,而先前的采樣方法在小物體上采樣點較少,導致小物體抓取姿勢學習困難。此外,目前市場上的消費級深度相機存在嚴重噪聲,尤其在小物體上獲得的點云質(zhì)量不能保證,雖然一些方法試圖通過點補全(Yuan 等,2018)和去噪(Rakotosaona等,2020)來緩解這個問題,但在未知物體上進行點云補全是不可靠的。這些方法都不能泛化到現(xiàn)實場景中的未知物體上,導致網(wǎng)絡難以分辨小物體上的像素點屬于前景還是背景,一些可行的抓取點被誤認為是背景點,進一步削減了小物體上的采樣點數(shù)量。采樣點不足導致網(wǎng)絡在小物體上的抓取配置在學習過程中被忽略,因此預測的抓取姿勢的數(shù)量和質(zhì)量都表現(xiàn)較差。

針對以上問題,本文建議在訓練時對小物體采樣足夠的點,保證學習過程能夠關注到小物體上的抓取分布,在推理時引入一個輔助分割網(wǎng)絡獲取場景中的物體掩碼,然后平等地對待每個物體,采樣相同的點以保證小物體上的抓取配置數(shù)量充足,其中引入未知物體實例分割網(wǎng)絡還能提高對未知物體抓取的泛化性能。先前的方法預測抓取配置時在局部點云上使用固定尺寸的圓柱體分組策略,由于大小物體的尺寸存在顯著差別,提取到的特征是不夠明確的,因此本文提出多尺度分組策略提取局部點云下不同大小尺寸內(nèi)的特征信息,整合為物體級別的點云信息,取得了更好的抓取性能。最后,在現(xiàn)實世界中測試了所提方法針對小物體和未知物體的抓取表現(xiàn),達到較優(yōu)的抓取效果。

本文的主要創(chuàng)新和貢獻包括:1)提出掩碼輔助采樣方法和推理階段引入未知物體實例分割網(wǎng)絡,提高在小物體和未知物體上的抓取檢測表現(xiàn)。2)提出多尺度分組學習策略增強局部點云的抓取形狀表示,能夠有效提高抓取檢測質(zhì)量。3)在大型基準數(shù)據(jù)集GraspNet-1Billion 上和現(xiàn)實世界中測試本文方法,大量實驗結(jié)果表明該方法更具有優(yōu)勢。

1 相關工作

1.1 雜亂場景下的抓取檢測

先前的抓取檢測方法按照抓取設置可以分為平面抓取和全六自由度抓取。平面抓?。∕orrison 等,2018;Chu 等,2018;Xu 等,2022;閆明 等,2022)要求攝像機垂直地觀測場景中的物體,輸入物體的RGB或深度照片,輸出一組平面內(nèi)帶有旋轉(zhuǎn)的包圍矩形框。Mahler等人(2019)通過使用物理和幾何分析模型的領域隨機化在合成數(shù)據(jù)集上進行訓練,提高了平面抓取的準確率。然而,平面抓取由于自由度較低的限制,一些物體上的抓取姿勢是不可靠的,例如垂直地抓取一個杯子在抓取過程中容易滑落,并且在雜亂的環(huán)境中受到碰撞干擾影響等容易導致抓取失敗。相比之下,六自由度抓取設置靈活,能夠預測更加豐富的抓取姿勢。因此,近年來研究者們致力于研究六自由度抓取來實現(xiàn)通用物體抓取檢測。

六自由度抓取檢測主流的方法又可以分為兩種。第1 種是基于判別的方法(Ten Pas 等,2017;Liang 等,2019;Fischinger 等,2015),這種方法采用抽樣—評估策略,首先從場景中收集密集的抓取姿勢,然后訓練一個深度神經(jīng)網(wǎng)絡對抓取候選人評估打分,推理階段選擇評分較高的抓取候選人作為可行的抓取姿勢。Mousavian 等人(2019)提出了一個基于變分編碼器的采樣—評估網(wǎng)絡,抓取采樣器網(wǎng)絡首先對部分對象點云上可能的抓取姿態(tài)進行采樣,并由抓取評估器根據(jù)其梯度進行迭代細化。

另一種是基于學習的方法(Sundermeyer 等,2021;Fang 等,2020;Wang 等,2021;Ni 等,2020),這種方法采用端到端的學習策略,網(wǎng)絡直接輸出場景中物體的抓取配置。Fang 等人(2020)提供了一個具有統(tǒng)一評價系統(tǒng)的大規(guī)模抓取姿態(tài)檢測數(shù)據(jù)集GraspNet-1Billion,為研究者們提供了一個基準數(shù)據(jù)集以供訓練和評估算法。GSNet(graspness-based sampling network)(Wang 等人,2021)提出了一種基于幾何線索的質(zhì)量,可以在混亂的場景中超前搜索可抓區(qū)域的方法,進一步提高了抓取檢測質(zhì)量。Ma和Huang(2022)通過引入干凈和帶噪聲的混合增強點云數(shù)據(jù),并設計平衡物體尺寸的損失函數(shù)提高了在小物體上的抓取檢測質(zhì)量。然而,先前的方法在雜亂場景中的小物體上的抓取檢測效果仍然較差。本文為了進一步提高在小物體上的抓取檢測質(zhì)量,在訓練階段引入掩碼輔助采樣方法,并使用多尺度學習策略增強物體局部幾何表示,緩解小尺寸物體學習困難問題,獲得了更好的表現(xiàn)。

1.2 點云學習

機器人抓取檢測方法的發(fā)展離不開點云學習領域的進步,例如Qi 等人(2017a)首先提出了一種基于點的多層感知機(multilayer perceptron,MLP)方法PointNet(point network)(Qi 等,2017a)和后續(xù)改進版本PointNet++(Qi 等,2017b),實現(xiàn)了深度網(wǎng)絡直接輸入3D 點云學習場景中的點云信息,為后面許多基于點云的數(shù)據(jù)學習方法提供了基礎。此外,還有一些基于卷積的方法(Wu 等,2019;Li 等,2018)對經(jīng)典的卷積網(wǎng)絡進行推廣,從點云中學習特征。基于Transformer 架構(gòu)的PT(point transformer)(Zhao等,2021)和Guo 等人(2021)通過更好地捕獲點云中的局部上下文,在點云檢測和分割領域獲得了更好的效果。在本文中,需要從RGB-D 相機中獲取的場景點云數(shù)據(jù)中學習物體的可行抓取姿勢,因此采用了學習能力較強的PT 方法,并且借鑒了PointNet++中對局部點云的多尺度學習策略,以提高通過局部點云預測抓取操作參數(shù)的能力。

2 方 法

本節(jié)將介紹提出的六自由度抓取檢測算法,圖1 是算法的流程圖。類似于先前的方法(Ten Pas等,2017),本節(jié)首先定義對物體的抓取表示方法,然后介紹提出的掩碼輔助采樣和多尺度學習方法,最后設計一個端到端的抓取網(wǎng)絡嵌入了提出的采樣和學習方法以預測物體抓取姿勢。

2.1 抓取姿勢表示

基于學習的六自由度抓取算法從帶有抓取標注的數(shù)據(jù)集中學習物體上的抓取分布并擴展到未知物體上,因此良好的抓取姿勢表示有利于網(wǎng)絡學習到合理的抓取分布。圖2 為抓取姿勢表示,點O為夾爪坐標系原點,O′點為抓取點,網(wǎng)絡預測接近向量V,夾爪圍繞軸R的平面內(nèi)旋轉(zhuǎn)角度,抓取深度D和夾爪打開寬度w。抓取姿勢用相機坐標系下夾具的旋轉(zhuǎn)、平移和夾具的打開寬度共同描述,用數(shù)學式表示為

圖2 抓取姿勢示意圖Fig.2 Schematic diagram of grasping pose

式中,R∈R3×3表示夾爪在相機坐標系下的方向,t∈R3×1為夾爪中心位置,w∈R 表示夾爪的打開寬度。直接用神經(jīng)網(wǎng)絡回歸這些參數(shù)是非常困難的,因此,本文遵循先前的工作(Fang等,2020;Wang等,2021),將夾爪的旋轉(zhuǎn)量分解為視角分類和面內(nèi)旋轉(zhuǎn)預測。視角分類是在相機坐標系下以抓取點為中心的球面區(qū)域內(nèi)選取多個視角,預測這些視角的抓取分數(shù)以獲得合適的夾爪接近物體方向的向量,即通過分類代替回歸降低了神經(jīng)網(wǎng)絡對抓取分布學習的難度,從而得到了更合理的泛化表現(xiàn)。遵循這一定義,提出的網(wǎng)絡也針對性地設計了3 個模塊,包括可抓點預測模塊、接近方向預測模塊和夾爪操作預測模塊。

2.2 掩碼輔助采樣

先前的抓取檢測方法(Fang 等,2020;Wang 等,2021)存在一個潛在問題,即沒有考慮場景中物體尺度差異帶來的有偏差的采樣點分布,從而導致小物體上的采樣點較少。此外,由于相機存在噪聲,尤其在小物體上的點云質(zhì)量較差,網(wǎng)絡預測的點的物體性不明確,導致采樣點進一步減少。

本文建議使用掩碼輔助采樣來解決這一問題,具體來說,與基準方法(Wang 等,2021)一樣,首先預測場景中的可抓點,這些點是由力閉合分析(Nguyen,1988)計算得到的分數(shù)較高的點,抓握時只要關注在這些點上的抓取就能覆蓋物體上大部分可行的抓握姿勢,詳細的定義在GSNet(Wang 等,2021)中可見。然后在訓練階段直接獲取場景中的物體掩碼,由于輸入的點云是有序點云,通過物體掩碼可以索引到點云中對應的物體點,解決了點的物體不明確性問題。本文從掩碼中去除背景點,剩余的點每一個都分別對應一個物體點,隨后在場景中共采樣M個點,每個物體上采樣相同的點以消除物體尺寸差異影響。如圖3所示,使用均勻采樣方法得到的采樣點主要集中分布在大物體上(高亮的綠色點代表采樣點),幾乎忽略了像螺釘、小刀這樣的小尺寸物體,而通過本文提出的掩碼輔助采樣方法可以明顯改善由物體尺度差異帶來的采樣點分布不均衡問題,有利于網(wǎng)絡進一步學習小物體上的抓取姿勢。

圖3 采樣方法比較Fig.3 Comparison of sampling methods((a)uniform sampling;(b)mask-assisted sampling)

2.3 多尺度學習

先前的方法(Fang等,2020;Wang等,2021)僅用一個較大半徑圓柱體采樣種子點附近的點,對不同尺寸的物體的局部區(qū)域采樣是模糊的。多尺度分組采樣已經(jīng)被證明能夠更好地提取局部點云特征(Qi等,2017b)。在抓取檢測中,采樣種子點的局部特征對預測夾爪操作參數(shù)至關重要,因此本文使用多尺度分組學習進一步提高抓取檢測質(zhì)量。

具體來說,如圖4 所示,本文設置了3 個半徑分別為r、0.65r和0.3r的圓柱體,其中r為夾爪的最大打開寬度,分別對應學習大尺寸、中等尺寸和小尺寸物體特征,然后將3 個尺度的特征進行拼接,對拼接后的特征進行自注意層處理,增強局部區(qū)域的注意,自注意層只專注于捕獲區(qū)域范圍的上下文信息,其詳細信息可參考Zhao 等人(2021)方法。為了避免網(wǎng)絡從零開始學習可抓點附近的局部區(qū)域特征,本文將上面的特征經(jīng)過MLP 處理后與種子點特征相加作為局部區(qū)域特征,最后預測夾爪的各種操作參數(shù)。

圖4 多尺度學習示意圖Fig.4 Schematic diagram of multi-scale learning

2.4 端到端抓取網(wǎng)絡

為了預測物體上的抓取姿勢,本文設計了一個端到端的抓取網(wǎng)絡,嵌入了提出的采樣和學習方法。抓取網(wǎng)主要包括可抓點、接近方向和夾爪操作預測3部分。

2.4.1 可抓點預測

許多網(wǎng)絡在預測抓取姿勢時直接操縱場景中所有的點,然而從人類抓握經(jīng)驗來看,雜亂場景中物體上只有部分點可以作為可抓取姿勢的中心點,抓握時只要關注在這些點上的抓取就能覆蓋大部分可行的抓握姿勢。GSNet(Wang 等,2021)通過預測可抓點引導后續(xù)抓取姿勢預測獲得了更好的性能,但預測的可抓點仍然受到物體尺度影響導致網(wǎng)絡偏向于學習大物體上的抓取。本文進一步使用掩碼輔助采樣可抓點,能夠使小物體也分布較多的可抓點,從而提高了小物體上預測抓取姿勢的數(shù)量和質(zhì)量。

2.4.2 接近方向預測

通過掩碼均衡采樣后的點被認為是雜亂場景下可抓取度較高的點,進一步預測這些點上的抓取姿勢來盡量覆蓋場景中可行的抓取。抓取的接近方向指夾爪中心軸接近物體的方向,由于物體間存在遮擋和考慮夾爪與場景中物體的碰撞,接近方向通常由場景和物體整體點的特征決定,因此在骨干網(wǎng)輸出的包含場景整體信息的點的特征后連接輸出頭預測抓取的接近方向。具體來說,在點周圍的單位圓上使用斐波那契網(wǎng)格采樣(González,2010)生成V個方向的視角,由網(wǎng)絡預測每個視角的得分,然后選擇最高抓取分數(shù)對應的視角作為抓取的接近方向。

2.4.3 夾爪操作預測

獲得可抓點的接近方向后,還要獲得夾爪的一些必要的操作參數(shù)才能完成抓取,包括夾爪在垂直接近方向的平面內(nèi)的旋轉(zhuǎn)角度、夾爪抓取深度和打開寬度。這些操作參數(shù)通常與可抓點鄰域的局部點分布特征密切相關,因此本文使用提出的多尺度學習策略學習精確的局部幾何特征表示,輸出尺寸為M×K×C的圓柱組點集特征。獲得局部幾何特征后,使用共享MLP 和最大池化操作對抓取候選集進行處理,最后使用MLP 輸出尺寸為M×(A×D× 2)的抓取參數(shù)。其中,A代表平面內(nèi)旋轉(zhuǎn)角度,D為抓取深度,剩下的兩維分別表示抓取分數(shù)和夾爪打開寬度,選擇抓取分數(shù)排名較高的抓取作為雜亂場景下可信度較高的預測抓取姿勢。

2.5 訓練與推斷

本文方法是端到端的,訓練階段采用多任務學習范式制定多任務組合損失函數(shù),具體為

對應上面提到的網(wǎng)絡組成部分,Lp,Lv分別代表可抓點預測、接近向量預測損失。Ls,Lw為夾爪操作預測中的抓取分數(shù)損失和夾爪打開寬度損失。所有的損失函數(shù)都采用回歸任務中的Smooth L1函數(shù)計算,在計算Lp和Ls時只考慮在物體上的點,物體性由物體掩碼顯示指定,Lv只在采樣的可抓點上計算。α,β和γ為超參數(shù),用于控制不同損失間的大小比例。

訓練階段由于物體掩碼已知,不存在點的物體性和可抓點采樣模糊。而在推理階段,由于沒有對場景點級掩碼的先驗知識,需要引入一個額外的未知物體實例分割網(wǎng)絡來區(qū)分場景中的物體。在本文的實施中,使用Xiang 等人(2021)方法預測的掩碼確定場景中的點的物體性并在不同大小的物體上采樣相同的可抓點。

3 實 驗

3.1 實現(xiàn)細節(jié)

3.1.1 骨干網(wǎng)絡

抓取姿勢預測首先需要從雜亂場景的點云中學習整體和局部點特征,得益于基于Transformer 架構(gòu)的網(wǎng)絡在點云特征學習領域的優(yōu)秀表現(xiàn),本文使用PT(point Transformer)(Zhao 等,2021)作為骨干網(wǎng)絡提取點特征輸入輸出頭預測抓取姿勢。

3.1.2 基準數(shù)據(jù)集與評估指標

GraspNet-1Billion 提供了一個大規(guī)模抓取姿態(tài)檢測數(shù)據(jù)集,并為抓取姿態(tài)質(zhì)量評估建立了統(tǒng)一評價系統(tǒng)。這個數(shù)據(jù)集由兩個相機(Kinect 和Realsense)采集的190 個場景、256 個不同的視圖共97 280 幅RGB-D 圖像組成,包含超過10 億個抓取姿勢。測試場景根據(jù)對象類別(見過/相似/未知)分為3 個部分評估,系統(tǒng)通過分析計算(Nguyen,1988)直接報告抓取是否成功,能夠評估多種類型的抓取姿勢。由于數(shù)據(jù)集中的抓取姿勢與現(xiàn)實場景較為吻合,本文方法在這一數(shù)據(jù)集下訓練和評估。為了公平對比各種方法,統(tǒng)一使用在GraspNet-1Billion中定義的評估指標APμ反映在設置摩擦力為μ下前50 個預測抓取姿勢的平均精度(average precision,AP),其中μ設置為0.2~1.2,AP代表APμ的平均值,詳細的設置在GraspNet-1Billion(Fang等,2020)中可見。

除了原數(shù)據(jù)集中對見過、相似、未知對象分類評估外,本文還研究了針對物體尺度的抓取質(zhì)量評估。具體來說,與Ma 和Huang(2022)的方法類似,根據(jù)抓取物體時夾爪的打開寬度,將不同物體劃分為小物體、中等物體和大物體,設置0~4 cm、4~7 cm、7~10 cm分別為小尺度、中尺度和大尺度,最后分別使用APS、APM和APL評估在小尺度、中尺度和大尺度物體上抓取姿勢的質(zhì)量。對于場景中的每個物體,選取排名前10 的抓取進行統(tǒng)計,設置μ=0.8 表示抓取成功,使用與GraspNet-1Billion中相同的力閉合評估指標評估各個方法對于不同尺寸物體的抓取精度,詳細的設置在Ma 和Huang(2022)提出的評估指標中可見。

3.1.3 參數(shù)設置

原始的GraspNet-1Billion 沒有提供點的可抓性得分,本文遵循GSNet中的設置,密集標注每個點來自300 個不同視圖的抓取質(zhì)量分數(shù),每個視圖包含48 個抓取,即12 個平面內(nèi)旋轉(zhuǎn)角度和4 個抓取深度類別組合。在網(wǎng)絡流程上,骨干網(wǎng)絡輸出C=256維的特征向量,用于預測可抓點的MLP 尺寸為(256,1),在所有可抓點中選擇M=1 024 個種子點,每個種子點采樣V=300 個視角打分,預測接近方向的MLP 尺寸為(256,256,300,300)。在圓柱體分組中,設置多尺度圓柱體半徑分別為r=0.05 m,0.65r,0.3r,高度范圍為[-0.02 m,0.04 m],選擇K=16 個種子點預測夾爪操作參數(shù),最后,網(wǎng)絡輸出A=12 個平面內(nèi)旋轉(zhuǎn)角度與D=4 個抓取深度類別組合,共48 類的抓取分數(shù)與抓取寬度。在損失函數(shù)中,設置超參數(shù)α=β=γ=10。

3.1.4 訓練與推斷

本文模型是基于深度學習框架Pytorch 實現(xiàn)的,在單張Nvidia GTX 3090Ti 上使用Adam 優(yōu)化器訓練了18 輪。批大小設置為4,批歸一化初始動量設置為0.5,訓練時每隔兩輪動量衰減一倍。初始學習率設置為0.001,學習率分別在第8、12、16輪衰減為5E-4、5E-5 和5E-6,整個網(wǎng)絡大均需要花費30 h收斂。

3.2 消融實驗

為了驗證本文方法有效提升小尺度和未知物體上抓取數(shù)量和成功率,對各個模塊進行了消融實驗,對APS、APM和APL進行評估,計算平均值來反映各個尺度上的抓取質(zhì)量。如表1 所示,與之前的兩種典型方法(GraspNet-1Billion基準方法和Ma以及Huang(2022)提出的針對小尺寸物體的抓取檢測方法)分別在不同尺度的見過、相似和新穎物體上(“見過”代表測試集中的物體在訓練集中出現(xiàn)過,“相似”代表測試集中的物體在訓練集中未出現(xiàn)過但形狀類似,“新穎”代表未出現(xiàn)過且具有很大差異)的抓取質(zhì)量評估結(jié)果進行對比。結(jié)果表明,提出的方法在小物體上的抓取指標平均提升了7%,并在所有尺寸的物體上的抓取質(zhì)量都有明顯的改進。然后,分別設置了沒有掩碼輔助采樣和多尺度學習策略的消融實驗研究。結(jié)果表明,當取消了本文提出的這兩種設置,提出的網(wǎng)絡在所有指標上的評估結(jié)果都有一定程度的下降。由此可見,掩碼輔助采樣和多尺度學習策略能夠幫助改善雜亂場景下物體的抓取檢測質(zhì)量。

表1 消融實驗Table 1 Ablation study/%

3.3 結(jié)果可視化

為了更加直觀地看到提出的方法在小物體上的抓取效果提升,將之前最具代表性的方法GSNet(Wang 等,2021)作為基準方法,可視化了4 個雜亂場景下基準方法和本文方法的抓取檢測結(jié)果。由于GSNet 僅發(fā)布了使用Kinect 相機采集數(shù)據(jù)訓練的網(wǎng)絡,因此可視化這些方法的抓取結(jié)果是在Kinect 相機上轉(zhuǎn)換的,而本文展示的結(jié)果是從RealSense 相機轉(zhuǎn)換的,所以場景點云質(zhì)量略有不同,但從RealSense 相機上采集的點云數(shù)據(jù)充斥著更大的噪聲,理論上預測的抓取結(jié)果質(zhì)量應當會更差。從可視化結(jié)果圖5可以看出,GSNet方法傾向于預測場景中大物體上的抓取,在一些小物體上沒有顯示出合理的抓取姿勢(圖中用虛線圈出),而本文方法可以準確預測出小物體上的抓取姿勢。此外,本文方法學習的是物體上的抓取姿勢分布,對物體本身的形狀和尺寸沒有限定,適用于所有類型的物體,可視化結(jié)果也顯示了對不同形狀的小物體均預測出了合理的抓取姿勢。

圖5 物體抓取檢測結(jié)果(使用Open3D(Zhou等,2018)可視化)Fig.5 Object grasping detection results(visualized using Open3D(Zhou et al.,2018))

3.4 與最新的方法比較

將提出的方法與之前代表性的一些方法進行了公平的比較,如表2 所示,所有的測試結(jié)果都是在GraspNet-1Billion 數(shù)據(jù)集上使用RealSense 相機采集的數(shù)據(jù)上評估得到的。與之前的方法相比,本文方法沒有任何后處理手段,但仍在所有測試類別物體的AP指標上處于領先地位,尤其在訓練集中未出現(xiàn)的相似和新穎物體上有明顯提升。這表明提出的方法不僅改善了在小物體上的抓取檢測質(zhì)量,并且提高了在未知物體上抓取的泛化性能。

表2 與主流的方法比較Table 2 Comparison with state-of-the-art methods/%

3.5 真實抓取實驗

為了驗證本文方法的泛化性能,如圖6 所示,在現(xiàn)實世界中設置了雜亂場景并進行抓取實驗。抓取系統(tǒng)建立在一個搭載RealSense D435i相機和柔性電動夾爪的UR-5 機械臂上,上位機計算資源包括NVIDIA Quadro RTX5000 GPU 和Intel Core i7-9850H CPU。抓取物品包括生活中常見的物體和一些復雜形狀的工業(yè)零件等共20 種不同尺寸的物體。

圖6 現(xiàn)實抓取實驗設置Fig.6 Realistic grasping experiment settings

實驗中,成功抓取定義為將桌面上的物品抓起并放置到指定的盒子中,每次在桌面上擺放5 件包含各個類別尺寸的物體,夾爪在每個物品上僅有一次抓取機會,總共進行了30 組實驗,共150 次抓取。最后,在表3 中報告了基準方法GSNet(Wang 等,2021)與本文方法在實驗中的抓取結(jié)果,其中單獨報告了在小刀和固體膠這種小物體上的抓取成功率以顯示提出的方法針對小物體的抓取有效性,在總的抓取成功率上本文方法的表現(xiàn)也優(yōu)于基準方法。在檢測速度方面,本文方法預測每個場景中的全部物體的抓取姿勢耗時大約0.12 s,采用的未知物體實例分割網(wǎng)絡預測每幅圖像的物體實例掩碼耗時約0.25 s,因此完整預測流程耗時約0.37 s。

表3 真實抓取實驗成功率Table 3 Real grasping experiment success rate/%

4 結(jié)論

本文聚焦于小物體上的抓取,提出了一種掩碼輔助采樣方法嵌入到提出的端到端學習網(wǎng)絡中,并引入了多尺度分組學習策略提高物體的局部幾何表示,以解決之前的方法中存在的由物體尺度差異引起的學習不均衡問題。通過大量的實驗驗證了本文方法無論是在廣泛使用的數(shù)據(jù)集上,還是在現(xiàn)實世界的物體抓取實驗中都具有優(yōu)勢,能夠有效提升在小尺寸物體上抓取質(zhì)量,并在所有物體上的抓取評估結(jié)果都超過了對比方法。

然而,本文方法也有一定的局限性,例如使用帶噪聲的低質(zhì)量深度圖作為輸入時,現(xiàn)有的未知物體實例分割方法預測的物體掩碼可能出現(xiàn)錯誤,導致掩碼輔助采樣方法失靈。在未來的工作中,準備研究更具魯棒性的未知物體實例分割方法,能夠修復低質(zhì)量深度圖輸入下的錯誤分割結(jié)果,獲得更加精確的物體實例掩碼,提升在雜亂場景下的物體抓取檢測能力。

猜你喜歡
掩碼姿勢尺度
財產(chǎn)的五大尺度和五重應對
倒掛在樹上,我的主要姿勢
文苑(2020年5期)2020-06-16 03:18:10
看書的姿勢
低面積復雜度AES低熵掩碼方案的研究
通信學報(2019年5期)2019-06-11 03:05:56
解鎖咳嗽的正確姿勢
基于布爾異或掩碼轉(zhuǎn)算術加法掩碼的安全設計*
通信技術(2018年3期)2018-03-21 00:56:37
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
基于掩碼的區(qū)域增長相位解纏方法
基于掩碼的AES算法抗二階DPA攻擊方法研究
9
台湾省| 阿拉尔市| 新民市| 鄄城县| 山西省| 盐津县| 长汀县| 普定县| 泰来县| 柳江县| 广灵县| 固镇县| 安化县| 安庆市| 怀化市| 富民县| 淄博市| 安陆市| 鱼台县| 霍邱县| 丰县| 鸡西市| 建昌县| 台东市| 咸丰县| 舒城县| 游戏| 商洛市| 樟树市| 咸阳市| 漯河市| 达拉特旗| 霍城县| 阳谷县| 谢通门县| 涡阳县| 若尔盖县| 康平县| 闵行区| 来凤县| 德州市|