呂惠
Google機(jī)器人最近實(shí)現(xiàn)了在開(kāi)放詞匯的條件下執(zhí)行自然語(yǔ)言命令,真正實(shí)現(xiàn)了“聽(tīng)懂人話”,相關(guān)數(shù)據(jù)集已開(kāi)源。
上圖中這個(gè)男人正在對(duì)著一個(gè)機(jī)器人不斷發(fā)出自然語(yǔ)言指令,如“把綠色的星推到紅色塊之間”“把藍(lán)色的方塊移動(dòng)到左下角”,機(jī)器人對(duì)每一次輸入的指令都可以實(shí)時(shí)完成。
自上世紀(jì)60年代開(kāi)始,機(jī)器人專(zhuān)家就開(kāi)始嘗試讓機(jī)器人聽(tīng)懂人的“自然語(yǔ)言指令”,并執(zhí)行具體的行動(dòng)。理想情況下,未來(lái)的機(jī)器人將對(duì)用戶能夠用自然語(yǔ)言描述的任何相關(guān)任務(wù)做出實(shí)時(shí)反應(yīng)。特別是在開(kāi)放的人類(lèi)環(huán)境中,用戶可能需要在機(jī)器人行為發(fā)生時(shí)自定義行為,提供快速糾正,比如“停止,將手臂向上移動(dòng)一點(diǎn)”或是指定限制如“慢慢向右移動(dòng)”。
此外,實(shí)時(shí)語(yǔ)言可以使人和機(jī)器人更容易在復(fù)雜的長(zhǎng)期任務(wù)中進(jìn)行協(xié)作,人們可以迭代和交互式地指導(dǎo)機(jī)器人操作,偶爾會(huì)有語(yǔ)言反饋。
目前的相關(guān)工作大體可以分為3個(gè)部分:
機(jī)器人本體需要存在于現(xiàn)實(shí)世界;
能夠響應(yīng)大量且豐富的自然語(yǔ)言命令;
能夠執(zhí)行交互式的語(yǔ)言命令,即機(jī)器人需要在任務(wù)執(zhí)行的過(guò)程中接受新的自然語(yǔ)言指令。
對(duì)于第3點(diǎn)來(lái)說(shuō),目前機(jī)器人領(lǐng)域在交互式方面的發(fā)展速度仍然非常緩慢,也讓機(jī)器人缺乏“生命感”。
最近Google發(fā)表了一篇論文,提出了一個(gè)全新的框架,可以生產(chǎn)真實(shí)世界的、實(shí)時(shí)交互的、執(zhí)行自然語(yǔ)言指令的機(jī)器人,并且相關(guān)數(shù)據(jù)集、環(huán)境、基準(zhǔn)測(cè)試和策略都已開(kāi)放使用。
通過(guò)對(duì)幾十萬(wàn)個(gè)語(yǔ)言標(biāo)注軌跡的數(shù)據(jù)集進(jìn)行行為克隆訓(xùn)練,產(chǎn)生的策略可以熟練地執(zhí)行比以前工作實(shí)現(xiàn)了多一個(gè)數(shù)量級(jí)的命令。在現(xiàn)實(shí)世界中,研究人員估計(jì)該方法在87 000個(gè)不同的自然語(yǔ)言字符串上有93.5 %的成功率。
并且同樣的策略能夠被人類(lèi)通過(guò)自然語(yǔ)言進(jìn)行實(shí)時(shí)引導(dǎo),以解決廣泛的精確的長(zhǎng)距離重新排列目標(biāo),例如“用積木做一個(gè)笑臉”等。
隨論文共同發(fā)布的數(shù)據(jù)集包括近60萬(wàn)個(gè)語(yǔ)言標(biāo)記的軌跡,比之前的可用數(shù)據(jù)集也要大一個(gè)數(shù)量級(jí)。
想要讓機(jī)器人融入現(xiàn)實(shí)世界中,最重要是能夠處理開(kāi)放式的自然語(yǔ)言指令,但從機(jī)器學(xué)習(xí)的角度來(lái)看,讓機(jī)器人學(xué)習(xí)開(kāi)放詞匯表語(yǔ)言是一個(gè)巨大的挑戰(zhàn)。
開(kāi)放代表模型需要執(zhí)行大量任務(wù),包括小的糾正指令等。現(xiàn)有的多任務(wù)學(xué)習(xí)設(shè)置利用精心設(shè)計(jì)的模仿學(xué)習(xí)數(shù)據(jù)集或復(fù)雜的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)功能來(lái)驅(qū)動(dòng)每個(gè)任務(wù)的學(xué)習(xí),通過(guò)這種方式設(shè)計(jì)的預(yù)定義集合注定不會(huì)很大。
因此,在開(kāi)放詞匯表任務(wù)中一個(gè)關(guān)鍵的問(wèn)題是:應(yīng)該如何擴(kuò)展機(jī)器人數(shù)據(jù)的收集過(guò)程,使其能夠涵蓋真實(shí)環(huán)境中成千上萬(wàn)的行動(dòng),以及如何將所有這些行為與最終用戶可能實(shí)際提供的自然語(yǔ)言指令聯(lián)系起來(lái)?
在交互式語(yǔ)言中,Google提出的大規(guī)模仿真學(xué)習(xí)框架關(guān)鍵是創(chuàng)建大型、多語(yǔ)言條件的機(jī)器人演示數(shù)據(jù)集的可伸縮性。
和以前設(shè)置中需要定義所有的技能,然后收集每個(gè)技能策劃的示范不同的是,研究人員不斷在跨多個(gè)機(jī)器人在無(wú)場(chǎng)景重置或低級(jí)別技能分割的情況下收集數(shù)據(jù)。
所有的數(shù)據(jù),包括失敗的數(shù)據(jù)(如把塊從桌子上敲下來(lái)knocking blocks off a table),都要經(jīng)過(guò)一個(gè)hindsight language relabeling的過(guò)程才能與文本配對(duì)。
在這個(gè)過(guò)程中,標(biāo)注人員需要觀看長(zhǎng)長(zhǎng)的機(jī)器人視頻來(lái)識(shí)別盡可能多的行為,標(biāo)記每個(gè)行為的開(kāi)始和結(jié)束時(shí)間,并使用無(wú)限制形式的自然語(yǔ)言來(lái)描述每個(gè)片段。
最重要的是,與之前設(shè)置的引導(dǎo)相比,所有用于訓(xùn)練的技能都是從數(shù)據(jù)本身自下而上顯示出來(lái)的,而非由研究人員預(yù)先確定的。
研究人員有意將學(xué)習(xí)方法和架構(gòu)盡可能簡(jiǎn)化,機(jī)器人策略網(wǎng)絡(luò)是一個(gè)交叉注意力Transformer,將5 Hz的視頻和文本映射到5 Hz的機(jī)器人動(dòng)作,在沒(méi)有輔助損失的情況下使用標(biāo)準(zhǔn)的監(jiān)督式學(xué)習(xí)行為克隆目標(biāo)。
在測(cè)試時(shí),新的自然語(yǔ)言命令可以通過(guò)speech-to-text以高達(dá)5 Hz的速率發(fā)送到策略網(wǎng)絡(luò)中。
在標(biāo)注過(guò)程中,研究人員收集了一個(gè)Language-Table數(shù)據(jù)集,其中包含超過(guò)44萬(wàn)實(shí)際和18萬(wàn)模擬的機(jī)器人執(zhí)行自然語(yǔ)言命令的演示,以及機(jī)器人在演示過(guò)程中采取的動(dòng)作順序。
這也是當(dāng)下最大的基于語(yǔ)言條件的機(jī)器人演示數(shù)據(jù)集,直接提升了一個(gè)數(shù)量級(jí)。
Language-Table推出了一個(gè)模擬仿真學(xué)習(xí)基準(zhǔn),可以用它來(lái)進(jìn)行模型選擇,或者用來(lái)評(píng)估不同方法訓(xùn)練得到的機(jī)器人執(zhí)行指令的能力。
在實(shí)驗(yàn)中,研究人員發(fā)現(xiàn),當(dāng)機(jī)器人能夠跟隨實(shí)時(shí)輸入的自然語(yǔ)言指令時(shí),機(jī)器人的能力就會(huì)顯得特別強(qiáng)大。在項(xiàng)目網(wǎng)站中,研究人員展示了用戶可以僅使用自然語(yǔ)言就能引導(dǎo)機(jī)器人通過(guò)復(fù)雜的長(zhǎng)視野序列來(lái)解決需要較長(zhǎng)時(shí)間才能精確協(xié)調(diào)控制的目標(biāo)。比如在桌子上有許多blcoks,命令可以是“用綠眼睛做一個(gè)笑臉”或者“把所有的放在一條垂直線上”等。
因?yàn)闄C(jī)器人被訓(xùn)練去跟隨開(kāi)放的詞匯語(yǔ)言,所以在實(shí)驗(yàn)中能夠看到機(jī)器人可以對(duì)一系列不同的口頭修正做出反應(yīng),如“輕輕地向右移動(dòng)紅色的星星”。
最后,研究人員探索了實(shí)時(shí)語(yǔ)言的優(yōu)勢(shì),例如可以讓機(jī)器人數(shù)據(jù)采集變得更加高效,一個(gè)人類(lèi)操作員可以同時(shí)使用口頭語(yǔ)言控制四個(gè)機(jī)器人,有可能在未來(lái)擴(kuò)大機(jī)器人數(shù)據(jù)收集的規(guī)模,而不需要為每個(gè)機(jī)器人配備一個(gè)標(biāo)注員。
雖然該項(xiàng)目目前僅限于桌面上的一套固定的物體,但交互式語(yǔ)言的實(shí)驗(yàn)結(jié)果可以初步表明,大規(guī)模模仿學(xué)習(xí)確實(shí)可以生產(chǎn)出實(shí)時(shí)交互式機(jī)器人,能夠遵循自由形式的終端用戶命令。
為了推動(dòng)物理機(jī)器人實(shí)時(shí)語(yǔ)言控制技術(shù)的進(jìn)步,研究人員開(kāi)源了Language-Table,也是目前最大的基于語(yǔ)言條件下的真實(shí)世界機(jī)器人演示數(shù)據(jù)集,也可以作為相關(guān)的模擬基準(zhǔn)。
研究人員認(rèn)為,這個(gè)數(shù)據(jù)集的作用可能不僅僅局限于機(jī)器人控制領(lǐng)域,而且可能為研究語(yǔ)言和動(dòng)作條件視頻預(yù)測(cè)、機(jī)器人視頻條件語(yǔ)言建模,或者在更廣泛的機(jī)器學(xué)習(xí)環(huán)境中研究其他許多有趣的活躍問(wèn)題提供一個(gè)新起點(diǎn)。