谷歌機(jī)器人邁入交互語(yǔ)言新紀(jì)元

2022-02-10 17:24呂惠

計(jì)算機(jī)與網(wǎng)絡(luò) 2022年23期

呂惠

Google機(jī)器人最近實(shí)現(xiàn)了在開(kāi)放詞匯的條件下執(zhí)行自然語(yǔ)言命令，真正實(shí)現(xiàn)了“聽(tīng)懂人話”，相關(guān)數(shù)據(jù)集已開(kāi)源。

上圖中這個(gè)男人正在對(duì)著一個(gè)機(jī)器人不斷發(fā)出自然語(yǔ)言指令，如“把綠色的星推到紅色塊之間”“把藍(lán)色的方塊移動(dòng)到左下角”，機(jī)器人對(duì)每一次輸入的指令都可以實(shí)時(shí)完成。

自上世紀(jì)60年代開(kāi)始，機(jī)器人專(zhuān)家就開(kāi)始嘗試讓機(jī)器人聽(tīng)懂人的“自然語(yǔ)言指令”，并執(zhí)行具體的行動(dòng)。理想情況下，未來(lái)的機(jī)器人將對(duì)用戶能夠用自然語(yǔ)言描述的任何相關(guān)任務(wù)做出實(shí)時(shí)反應(yīng)。特別是在開(kāi)放的人類(lèi)環(huán)境中，用戶可能需要在機(jī)器人行為發(fā)生時(shí)自定義行為，提供快速糾正，比如“停止，將手臂向上移動(dòng)一點(diǎn)”或是指定限制如“慢慢向右移動(dòng)”。

此外，實(shí)時(shí)語(yǔ)言可以使人和機(jī)器人更容易在復(fù)雜的長(zhǎng)期任務(wù)中進(jìn)行協(xié)作，人們可以迭代和交互式地指導(dǎo)機(jī)器人操作，偶爾會(huì)有語(yǔ)言反饋。

目前的相關(guān)工作大體可以分為3個(gè)部分：

機(jī)器人本體需要存在于現(xiàn)實(shí)世界；

能夠響應(yīng)大量且豐富的自然語(yǔ)言命令；

能夠執(zhí)行交互式的語(yǔ)言命令，即機(jī)器人需要在任務(wù)執(zhí)行的過(guò)程中接受新的自然語(yǔ)言指令。

對(duì)于第3點(diǎn)來(lái)說(shuō)，目前機(jī)器人領(lǐng)域在交互式方面的發(fā)展速度仍然非常緩慢，也讓機(jī)器人缺乏“生命感”。

最近Google發(fā)表了一篇論文，提出了一個(gè)全新的框架，可以生產(chǎn)真實(shí)世界的、實(shí)時(shí)交互的、執(zhí)行自然語(yǔ)言指令的機(jī)器人，并且相關(guān)數(shù)據(jù)集、環(huán)境、基準(zhǔn)測(cè)試和策略都已開(kāi)放使用。

通過(guò)對(duì)幾十萬(wàn)個(gè)語(yǔ)言標(biāo)注軌跡的數(shù)據(jù)集進(jìn)行行為克隆訓(xùn)練，產(chǎn)生的策略可以熟練地執(zhí)行比以前工作實(shí)現(xiàn)了多一個(gè)數(shù)量級(jí)的命令。在現(xiàn)實(shí)世界中，研究人員估計(jì)該方法在87 000個(gè)不同的自然語(yǔ)言字符串上有93.5 %的成功率。

并且同樣的策略能夠被人類(lèi)通過(guò)自然語(yǔ)言進(jìn)行實(shí)時(shí)引導(dǎo)，以解決廣泛的精確的長(zhǎng)距離重新排列目標(biāo)，例如“用積木做一個(gè)笑臉”等。

隨論文共同發(fā)布的數(shù)據(jù)集包括近60萬(wàn)個(gè)語(yǔ)言標(biāo)記的軌跡，比之前的可用數(shù)據(jù)集也要大一個(gè)數(shù)量級(jí)。

交互式語(yǔ)言：與機(jī)器人實(shí)時(shí)對(duì)話

想要讓機(jī)器人融入現(xiàn)實(shí)世界中，最重要是能夠處理開(kāi)放式的自然語(yǔ)言指令，但從機(jī)器學(xué)習(xí)的角度來(lái)看，讓機(jī)器人學(xué)習(xí)開(kāi)放詞匯表語(yǔ)言是一個(gè)巨大的挑戰(zhàn)。

開(kāi)放代表模型需要執(zhí)行大量任務(wù)，包括小的糾正指令等。現(xiàn)有的多任務(wù)學(xué)習(xí)設(shè)置利用精心設(shè)計(jì)的模仿學(xué)習(xí)數(shù)據(jù)集或復(fù)雜的強(qiáng)化學(xué)習(xí)獎(jiǎng)勵(lì)功能來(lái)驅(qū)動(dòng)每個(gè)任務(wù)的學(xué)習(xí)，通過(guò)這種方式設(shè)計(jì)的預(yù)定義集合注定不會(huì)很大。

因此，在開(kāi)放詞匯表任務(wù)中一個(gè)關(guān)鍵的問(wèn)題是：應(yīng)該如何擴(kuò)展機(jī)器人數(shù)據(jù)的收集過(guò)程，使其能夠涵蓋真實(shí)環(huán)境中成千上萬(wàn)的行動(dòng)，以及如何將所有這些行為與最終用戶可能實(shí)際提供的自然語(yǔ)言指令聯(lián)系起來(lái)？

在交互式語(yǔ)言中，Google提出的大規(guī)模仿真學(xué)習(xí)框架關(guān)鍵是創(chuàng)建大型、多語(yǔ)言條件的機(jī)器人演示數(shù)據(jù)集的可伸縮性。

和以前設(shè)置中需要定義所有的技能，然后收集每個(gè)技能策劃的示范不同的是，研究人員不斷在跨多個(gè)機(jī)器人在無(wú)場(chǎng)景重置或低級(jí)別技能分割的情況下收集數(shù)據(jù)。

所有的數(shù)據(jù)，包括失敗的數(shù)據(jù)（如把塊從桌子上敲下來(lái)knocking blocks off a table），都要經(jīng)過(guò)一個(gè)hindsight language relabeling的過(guò)程才能與文本配對(duì)。

在這個(gè)過(guò)程中，標(biāo)注人員需要觀看長(zhǎng)長(zhǎng)的機(jī)器人視頻來(lái)識(shí)別盡可能多的行為，標(biāo)記每個(gè)行為的開(kāi)始和結(jié)束時(shí)間，并使用無(wú)限制形式的自然語(yǔ)言來(lái)描述每個(gè)片段。

最重要的是，與之前設(shè)置的引導(dǎo)相比，所有用于訓(xùn)練的技能都是從數(shù)據(jù)本身自下而上顯示出來(lái)的，而非由研究人員預(yù)先確定的。

研究人員有意將學(xué)習(xí)方法和架構(gòu)盡可能簡(jiǎn)化，機(jī)器人策略網(wǎng)絡(luò)是一個(gè)交叉注意力Transformer，將5 Hz的視頻和文本映射到5 Hz的機(jī)器人動(dòng)作，在沒(méi)有輔助損失的情況下使用標(biāo)準(zhǔn)的監(jiān)督式學(xué)習(xí)行為克隆目標(biāo)。

在測(cè)試時(shí)，新的自然語(yǔ)言命令可以通過(guò)speech-to-text以高達(dá)5 Hz的速率發(fā)送到策略網(wǎng)絡(luò)中。

開(kāi)源基準(zhǔn)

在標(biāo)注過(guò)程中，研究人員收集了一個(gè)Language-Table數(shù)據(jù)集，其中包含超過(guò)44萬(wàn)實(shí)際和18萬(wàn)模擬的機(jī)器人執(zhí)行自然語(yǔ)言命令的演示，以及機(jī)器人在演示過(guò)程中采取的動(dòng)作順序。

這也是當(dāng)下最大的基于語(yǔ)言條件的機(jī)器人演示數(shù)據(jù)集，直接提升了一個(gè)數(shù)量級(jí)。

Language-Table推出了一個(gè)模擬仿真學(xué)習(xí)基準(zhǔn)，可以用它來(lái)進(jìn)行模型選擇，或者用來(lái)評(píng)估不同方法訓(xùn)練得到的機(jī)器人執(zhí)行指令的能力。

實(shí)時(shí)語(yǔ)言行為學(xué)習(xí)

在實(shí)驗(yàn)中，研究人員發(fā)現(xiàn)，當(dāng)機(jī)器人能夠跟隨實(shí)時(shí)輸入的自然語(yǔ)言指令時(shí)，機(jī)器人的能力就會(huì)顯得特別強(qiáng)大。在項(xiàng)目網(wǎng)站中，研究人員展示了用戶可以僅使用自然語(yǔ)言就能引導(dǎo)機(jī)器人通過(guò)復(fù)雜的長(zhǎng)視野序列來(lái)解決需要較長(zhǎng)時(shí)間才能精確協(xié)調(diào)控制的目標(biāo)。比如在桌子上有許多blcoks，命令可以是“用綠眼睛做一個(gè)笑臉”或者“把所有的放在一條垂直線上”等。

因?yàn)闄C(jī)器人被訓(xùn)練去跟隨開(kāi)放的詞匯語(yǔ)言，所以在實(shí)驗(yàn)中能夠看到機(jī)器人可以對(duì)一系列不同的口頭修正做出反應(yīng)，如“輕輕地向右移動(dòng)紅色的星星”。

最后，研究人員探索了實(shí)時(shí)語(yǔ)言的優(yōu)勢(shì)，例如可以讓機(jī)器人數(shù)據(jù)采集變得更加高效，一個(gè)人類(lèi)操作員可以同時(shí)使用口頭語(yǔ)言控制四個(gè)機(jī)器人，有可能在未來(lái)擴(kuò)大機(jī)器人數(shù)據(jù)收集的規(guī)模，而不需要為每個(gè)機(jī)器人配備一個(gè)標(biāo)注員。

雖然該項(xiàng)目目前僅限于桌面上的一套固定的物體，但交互式語(yǔ)言的實(shí)驗(yàn)結(jié)果可以初步表明，大規(guī)模模仿學(xué)習(xí)確實(shí)可以生產(chǎn)出實(shí)時(shí)交互式機(jī)器人，能夠遵循自由形式的終端用戶命令。

為了推動(dòng)物理機(jī)器人實(shí)時(shí)語(yǔ)言控制技術(shù)的進(jìn)步，研究人員開(kāi)源了Language-Table，也是目前最大的基于語(yǔ)言條件下的真實(shí)世界機(jī)器人演示數(shù)據(jù)集，也可以作為相關(guān)的模擬基準(zhǔn)。

研究人員認(rèn)為，這個(gè)數(shù)據(jù)集的作用可能不僅僅局限于機(jī)器人控制領(lǐng)域，而且可能為研究語(yǔ)言和動(dòng)作條件視頻預(yù)測(cè)、機(jī)器人視頻條件語(yǔ)言建模，或者在更廣泛的機(jī)器學(xué)習(xí)環(huán)境中研究其他許多有趣的活躍問(wèn)題提供一個(gè)新起點(diǎn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

谷歌機(jī)器人邁入交互語(yǔ)言新紀(jì)元

交互式語(yǔ)言：與機(jī)器人實(shí)時(shí)對(duì)話

開(kāi)源基準(zhǔn)

實(shí)時(shí)語(yǔ)言行為學(xué)習(xí)