路通
目前機(jī)器人相關(guān)研究主要是設(shè)計(jì)機(jī)械臂來抓住特定形狀的物體,但是很少有抓住可變形狀物體的相關(guān)研究。
在變形物體操作中的一個(gè)難點(diǎn)是無法知道這個(gè)物體內(nèi)部的參數(shù),例如,對(duì)于一個(gè)剛性立方體,知道一個(gè)固定點(diǎn)相對(duì)于其中心的位置足以描述它在三維空間中的形狀,但是對(duì)一個(gè)柔軟的物體如絲綢來說,布面上的一個(gè)點(diǎn)可以在其他部分移動(dòng)時(shí)保持固定。
這使得感知算法難以描述織物的完整“狀態(tài)”,特別是在有遮擋的情況下。
此外,即使有一個(gè)被充分描述的可變形物體,其動(dòng)力學(xué)也是復(fù)雜的。這使得在對(duì)可變形物體進(jìn)行某種操作之后,很難預(yù)測(cè)其未來的狀態(tài),通常需要多步規(guī)劃來達(dá)到目標(biāo)狀態(tài)。
在ICRA 2021 會(huì)議上,Google 發(fā)布了一個(gè)名為deformaleravens 的開源模擬基準(zhǔn),對(duì)可變形物體操作的研究有極大地促進(jìn)作用。
Google 共設(shè)計(jì)了12個(gè)任務(wù),包括操作電纜、織物和包,還包括一系列模型架構(gòu),用于操縱可變形物體,使其達(dá)到預(yù)期的目標(biāo)狀態(tài)。這些模型架構(gòu)也能夠讓機(jī)器人重新排列電線來達(dá)到目標(biāo)狀態(tài),平滑地使非鋼體如織物達(dá)到指定形狀,或是將物品放入袋子中。
這是第一個(gè)包含特定任務(wù)的模擬器,在這個(gè)任務(wù)中機(jī)器人必須使用一個(gè)袋子來容納其他物品,這對(duì)機(jī)器人學(xué)習(xí)更復(fù)雜的相對(duì)空間關(guān)系提出了關(guān)鍵挑戰(zhàn)。
DeformableRavens 基準(zhǔn)數(shù)據(jù)集
Deformaleravens 擴(kuò)展了之前Google 對(duì)重排列對(duì)象的工作,包括一套12 個(gè)模擬任務(wù),覆蓋一維、二維和三維可變形結(jié)構(gòu)。每個(gè)任務(wù)都包含一個(gè)模擬的UR5 手臂和一個(gè)用于捏握的模擬夾鉗,并與腳本演示器捆綁在一起,自動(dòng)收集用于模仿學(xué)習(xí)的數(shù)據(jù)。任務(wù)隨機(jī)化分布中項(xiàng)的起始狀態(tài),以測(cè)試不同對(duì)象配置的一般性。
UR5 是一款輕量級(jí)、可適應(yīng)的協(xié)作式工業(yè)機(jī)器人,具有極高的靈活性,可處理中型應(yīng)用程序。UR5e 的設(shè)計(jì)是為了無縫集成到廣泛的應(yīng)用程序。UR5e 也提供OEM 機(jī)器人系統(tǒng),并帶有三向示教器。
為操作任務(wù)指定目標(biāo)對(duì)于可變形物體尤其具有挑戰(zhàn)性??紤]到它們復(fù)雜的動(dòng)力學(xué)和高維配置空間,目標(biāo)不能像一組剛性物體姿勢(shì)那樣容易確定,并且可能涉及復(fù)雜的相對(duì)空間關(guān)系,比如“將物品放入袋子”。
因此,除了通過分發(fā)腳本示范定義的任務(wù)之外,我們的基準(zhǔn)還包含由目標(biāo)映像指定的目標(biāo)條件化任務(wù)。對(duì)于受目標(biāo)限制的任務(wù),給定的對(duì)象起始配置必須與一個(gè)單獨(dú)的image 配對(duì),該映像顯示相同對(duì)象的所需配置。這種特殊情況的成功取決于機(jī)器人是否能夠使當(dāng)前的配置足夠接近目標(biāo)圖像中傳達(dá)的配置。
Goal-Conditioned Transporter Networks 是一個(gè)為了補(bǔ)充模擬基準(zhǔn)測(cè)試中的目標(biāo)條件化任務(wù),而將目標(biāo)條件化集成到Google 之前發(fā)布過的Transporter Network 架構(gòu)中,這是一個(gè)以行動(dòng)為中心的模型架構(gòu),它通過重新排列深層特征來從視覺輸入推斷空間位移,很好地適用于剛性對(duì)象操作。
該體系結(jié)構(gòu)以當(dāng)前環(huán)境的圖像和目標(biāo)圖像作為輸入,計(jì)算這2 個(gè)圖像的深度視覺特征,然后利用元素乘法結(jié)合特征,對(duì)場(chǎng)景中的剛性和可變形物體進(jìn)行相關(guān)處理。Transporter 網(wǎng)絡(luò)結(jié)構(gòu)的一個(gè)優(yōu)點(diǎn)是它保留了視覺圖像的空間結(jié)構(gòu),提供了歸納偏差,將基于圖像的目標(biāo)條件化為一個(gè)更簡單的特征匹配問題,并利用卷積網(wǎng)絡(luò)提高了學(xué)習(xí)效率。
一個(gè)涉及目標(biāo)條件的實(shí)例任務(wù),如為了將綠色塊放入黃色袋子中,機(jī)器人需要學(xué)習(xí)空間特性,使其能夠執(zhí)行一系列多步驟的動(dòng)作,以打開黃色袋子的頂部開口,然后將塊放入其中。在它把方塊放入黃色袋子之后,則成功結(jié)束。如果在目標(biāo)圖像中塊被放在藍(lán)色袋子中,則需要把塊放在藍(lán)色袋子中。
結(jié)果表明,Goal-Conditioned Transporter Networks 使agent 可以操縱變形結(jié)構(gòu)到靈活指定的配置,而不需要測(cè)試時(shí)間的視覺錨目標(biāo)位置。我們還通過在2D 和3D 變形體任務(wù)上進(jìn)行測(cè)試,顯著擴(kuò)展了使用Transporter Networks 操縱變形物體的成果。實(shí)驗(yàn)結(jié)果進(jìn)一步表明,該方法比傳統(tǒng)的基于地面真實(shí)位姿和頂點(diǎn)位置的方法具有更高的抽樣效率。
例如所學(xué)習(xí)的策略可以有效地模擬裝袋任務(wù),還提供目標(biāo)圖像以便機(jī)器人必須推斷應(yīng)該將物品放入哪個(gè)袋子。
未來這項(xiàng)工作還有幾個(gè)可擴(kuò)展的目標(biāo),例如減少觀察到的失敗模式。例如當(dāng)機(jī)器人拉袋子向上,并導(dǎo)致抓著的東西掉下去時(shí)就失敗了;另一種情況是,機(jī)器人將物品放置在不規(guī)則保外面,導(dǎo)致物品脫落。未來的算法改進(jìn)可能允許動(dòng)作以更高的頻率運(yùn)行,這樣機(jī)器人可以實(shí)時(shí)作出反應(yīng)來抵消這些可能的失敗情況。
還有個(gè)發(fā)展領(lǐng)域是使用不需要專家演示的技術(shù)來訓(xùn)練基于Transporter Network 的可變形物體操作模型,比如基于實(shí)例的控制或基于模型的強(qiáng)化學(xué)習(xí)。