技術(shù)的成熟日益讓機(jī)器人變得聰明,但仍然有很多看似簡(jiǎn)單的事情讓機(jī)器人束手無(wú)策,比如運(yùn)動(dòng)中的障礙規(guī)避問(wèn)題。近年來(lái),機(jī)器學(xué)習(xí)的出現(xiàn)似乎讓機(jī)器人有了解決難題的好方法。在2018世界機(jī)器人大會(huì)上,德國(guó)卡爾斯魯厄理工學(xué)院教授Torsten Kroeger,根據(jù)長(zhǎng)期在機(jī)器人領(lǐng)域研究的經(jīng)驗(yàn),以及對(duì)機(jī)器學(xué)習(xí)的認(rèn)知,分析了基于強(qiáng)化學(xué)習(xí)和智能傳感器控制的工業(yè)機(jī)器人系統(tǒng),是如何在運(yùn)動(dòng)中進(jìn)行實(shí)時(shí)運(yùn)動(dòng)規(guī)劃的。
如今,隨著科學(xué)技術(shù)的日益發(fā)展和成熟,機(jī)器人變得越來(lái)越聰明。但是,對(duì)于有些在人類(lèi)看來(lái)是十分簡(jiǎn)單、容易的事情,機(jī)器人卻很難甚至無(wú)法完成,因?yàn)榈侥壳盀橹箼C(jī)器人還沒(méi)有那么聰明。機(jī)器學(xué)習(xí)的出現(xiàn)給了我們希望,它給了我們一個(gè)新的工具,可以讓機(jī)器人進(jìn)行學(xué)習(xí),盡可能完成復(fù)雜的任務(wù)。當(dāng)然,這些也只能算是盡可能地向人類(lèi)學(xué)習(xí),距離真正的“智能”還有很長(zhǎng)的距離。而對(duì)于機(jī)器人來(lái)說(shuō),如今,隨著科學(xué)技術(shù)的日益發(fā)展和成熟,機(jī)器人變得越來(lái)越聰明。但是,對(duì)于有些在人類(lèi)看來(lái)是十分簡(jiǎn)單、容易的事情,機(jī)器人卻很難甚至無(wú)法完成,因?yàn)榈侥壳盀橹箼C(jī)器人還沒(méi)有那么聰明。機(jī)器學(xué)習(xí)的出現(xiàn)給了我們希望,它給了我們一個(gè)新的工具,可以讓機(jī)器人進(jìn)行學(xué)習(xí),盡可能完成復(fù)雜的任務(wù)。當(dāng)然,這些也只能算是盡可能地向人類(lèi)學(xué)習(xí),距離真正的“智能”還有很長(zhǎng)的距離。而對(duì)于機(jī)器人來(lái)說(shuō),想要實(shí)現(xiàn)這樣的目標(biāo),它們需要將認(rèn)知和行動(dòng)連接在一起。
為什么對(duì)于機(jī)器人來(lái)說(shuō),有些事情它們做不了呢?這主要是感知與行動(dòng)之間的差異。在機(jī)器人的設(shè)計(jì)中,機(jī)器人首先要通過(guò)傳感器獲得感知的能力,像視覺(jué)感知、聽(tīng)覺(jué)感知、觸覺(jué)感知等,然后把這些感知都納入到機(jī)器人系統(tǒng)中。人工智能在過(guò)去的三到五年中,在視覺(jué)感知和語(yǔ)音識(shí)別方面都取得了重大的突破性成果,如今,這些領(lǐng)域的數(shù)據(jù)非常豐富,在有些情況下,我們可以使用監(jiān)督學(xué)習(xí)進(jìn)行圖像識(shí)別,甚至可以對(duì)一些視頻數(shù)據(jù)進(jìn)行識(shí)別??梢哉f(shuō),現(xiàn)在神經(jīng)網(wǎng)絡(luò)在諸如語(yǔ)音識(shí)別、翻譯等方面已經(jīng)做得比人類(lèi)還要好,比如Google Home、Apple的Siri都表現(xiàn)得非常不錯(cuò)。在這些領(lǐng)域中,每隔一段時(shí)間都會(huì)取得新的研究進(jìn)展,但仍然存在很多挑戰(zhàn),那就是機(jī)器人和真實(shí)世界的物理互動(dòng),尤其是在安全驅(qū)動(dòng)、物理操作、機(jī)器人與人或者機(jī)器人與機(jī)器人交互時(shí),我們?cè)撊绾未_保安全性,在這個(gè)方面我們并沒(méi)有足夠的數(shù)據(jù)。
眾所周知,1997年,IBM研發(fā)的“深藍(lán)”擊敗了當(dāng)時(shí)的國(guó)際象棋冠軍卡斯帕羅夫,這在當(dāng)時(shí)被認(rèn)為是人工智能。但如今回頭看一看,思考一下人工智能的定義和現(xiàn)在所取得的進(jìn)展,我們應(yīng)該考慮一下它到底意味著什么。可以說(shuō),那個(gè)時(shí)候的計(jì)算機(jī)系統(tǒng)可以下國(guó)際象棋,但沒(méi)有辦法面對(duì)面地和人類(lèi)下國(guó)際象棋。可能有些人認(rèn)為這不是什么問(wèn)題,找一個(gè)人代替機(jī)器進(jìn)行操作就可以。然而大家不知道的是,當(dāng)制作的材料變了,用金屬、木頭或者玻璃做出的象棋,對(duì)于機(jī)器人而言就可能無(wú)法進(jìn)行分辨。因此,有關(guān)機(jī)器人操控的問(wèn)題到目前為止還存在很多挑戰(zhàn)。
機(jī)器人系統(tǒng)中的實(shí)時(shí)運(yùn)動(dòng)規(guī)劃
如今,很多研究學(xué)者致力于研究機(jī)器人的實(shí)時(shí)運(yùn)動(dòng)規(guī)劃,以便機(jī)器人可以避免和人發(fā)生對(duì)抗和沖撞,規(guī)避障礙。這就涉及一個(gè)確定性沖突避免算法(Deterministic Collision Avoidance),其實(shí)這個(gè)算法非常簡(jiǎn)單,直接用于深度空間中,部署3D傳感器,以使得機(jī)器人在操作過(guò)程中可以躲開(kāi)多重障礙。在這個(gè)過(guò)程中,還需要考慮到整個(gè)機(jī)器人的機(jī)身,以及它的空間和運(yùn)動(dòng)速度,利用障礙物運(yùn)動(dòng)進(jìn)行預(yù)測(cè),然后使用OTG框架,讓機(jī)器人識(shí)別對(duì)方動(dòng)作的軌跡,實(shí)時(shí)地檢測(cè)這些動(dòng)作,從而避開(kāi)障礙。在機(jī)器人的運(yùn)動(dòng)中,考慮到速度矢量,機(jī)器人在不斷躲避人類(lèi)動(dòng)作的過(guò)程中也會(huì)受到一些限制,因此我們?cè)诓粩嗟剡M(jìn)行研究,擴(kuò)大這個(gè)算法的應(yīng)用范圍。現(xiàn)在這個(gè)算法還可以考慮到一些其他的因素,從而讓機(jī)器人可以完全避免和人類(lèi)之間的碰撞,甚至能夠?qū)崟r(shí)地、確定地做到這些事情。
在機(jī)器人的實(shí)時(shí)運(yùn)動(dòng)規(guī)劃中,我們還可以讓機(jī)器人在一定的空間內(nèi)完成動(dòng)作移動(dòng)路徑的檢測(cè),這需要關(guān)注它的方向和速度,然后將機(jī)器人從一個(gè)狀態(tài)移動(dòng)到另外一個(gè)狀態(tài)。在這個(gè)過(guò)程中需要考慮到位置、速度、加速度和自由度等因素,還需要具有力和路徑等傳感器,反應(yīng)速度大概是500毫秒左右,從而能夠讓它對(duì)某一動(dòng)作之后需要轉(zhuǎn)向什么方向、轉(zhuǎn)到什么位置做出反應(yīng),然后自動(dòng)控制它的運(yùn)動(dòng)。其實(shí)要想實(shí)現(xiàn)這樣的操作,所需要的算法很簡(jiǎn)單,就是要根據(jù)現(xiàn)在目標(biāo)的狀態(tài),通過(guò)計(jì)算考慮新的移動(dòng)位置。所以整個(gè)過(guò)程中需要完成的就是從第一個(gè)位置到第二個(gè)位置所進(jìn)行的移動(dòng),要把這個(gè)想法融入到現(xiàn)在的系統(tǒng)中其實(shí)是非常容易的。
幾年前,我們的一個(gè)學(xué)生使用有關(guān)機(jī)器人實(shí)時(shí)運(yùn)動(dòng)規(guī)劃的算法,設(shè)計(jì)了一個(gè)可以打架的機(jī)器人,其中,機(jī)器人應(yīng)用傳感器可以實(shí)現(xiàn)與人的互動(dòng),一個(gè)是攻擊的模式,一個(gè)是防守的模式。
實(shí)際上,在現(xiàn)實(shí)生活中,基于強(qiáng)化學(xué)習(xí)和智能傳感器控制的機(jī)器人實(shí)時(shí)運(yùn)動(dòng)規(guī)劃的應(yīng)用非常多,在一些打鉆行業(yè)中也有非常成功的應(yīng)用,基于傳感器,可以同時(shí)使用8個(gè)鉆頭進(jìn)行打鉆的工作。此外,在太空望遠(yuǎn)鏡的生產(chǎn)領(lǐng)域,以及一些制造行業(yè)中的工業(yè)機(jī)器人系統(tǒng)中、實(shí)驗(yàn)室中都有所應(yīng)用。
機(jī)器人系統(tǒng)中的混合控制
接下來(lái),我們來(lái)了解一下混合控制?;旌峡刂埔馕吨阌幸幌盗械目刂破鳎ň嚯x控制器、運(yùn)動(dòng)控制器等,根據(jù)任務(wù)的不同,需要對(duì)這些控制器進(jìn)行配置,以便讓你的機(jī)器人發(fā)揮最大的實(shí)用價(jià)值。在機(jī)器人系統(tǒng)中,有傳感器、運(yùn)動(dòng)控制器、視覺(jué)控制器等,在機(jī)器人的路徑規(guī)劃中,我們需要從一堆材料中檢測(cè)出其中的一個(gè),從而控制它的速度和力量,維持整個(gè)機(jī)器人的運(yùn)動(dòng)和狀態(tài)。
機(jī)器人系統(tǒng)的設(shè)計(jì)是一件非常復(fù)雜的工作,涉及到良好的運(yùn)動(dòng)規(guī)劃算法,比如位置、速度,還需要各種的控制器。在有些機(jī)器人的設(shè)計(jì)中,我們通常會(huì)尋找一種比較簡(jiǎn)單的方式,對(duì)機(jī)器人系統(tǒng)中所涉及的混合控制進(jìn)行概括,把它稱(chēng)為適應(yīng)性的選擇矩陣有很多不同的控制器,包括位置控制、距離控制、力量控制和自由度控制。在一個(gè)機(jī)器人系統(tǒng)中,如果你的控制頻率是1赫茲的話(huà),就可以確保它的穩(wěn)定,因?yàn)樵谙到y(tǒng)中總是有一個(gè)備份的控制器。其實(shí)這是矩陣當(dāng)中一個(gè)新的維度,如果一個(gè)控制器發(fā)生故障或者出了問(wèn)題,一般來(lái)說(shuō)是沒(méi)有備份的,但我們?cè)O(shè)置了一個(gè)備份的控制器,比如,如果視覺(jué)控制器不能發(fā)揮作用,看不見(jiàn)東西的話(huà),就可以有另外一個(gè)備份的視覺(jué)控制器開(kāi)始啟用。
一般來(lái)說(shuō),在機(jī)器人系統(tǒng)中出現(xiàn)的問(wèn)題,可能需要具備很多專(zhuān)業(yè)知識(shí)才能夠得以解決,因?yàn)闄C(jī)器人編程是一件非常專(zhuān)業(yè)的事情,需要具備專(zhuān)家知識(shí),且至少是博士水平的工程師才可以,成本很高。雖然有些機(jī)器人系統(tǒng)是非常強(qiáng)大的,但也存在一定的局限性,因?yàn)閷?duì)公司和行業(yè)來(lái)說(shuō),對(duì)這樣的系統(tǒng)進(jìn)行編程是非常昂貴的。因此,我們有了新的想法,那就是利用機(jī)器學(xué)習(xí),尤其是強(qiáng)化學(xué)習(xí)。
如果對(duì)這一領(lǐng)域有所了解的話(huà),大家應(yīng)該知道這一研究就是“學(xué)習(xí)型機(jī)器人”,我們和一系列人士進(jìn)行合作,共同展開(kāi)相關(guān)研究。這一研究的初衷是讓一個(gè)機(jī)器人自我學(xué)習(xí)如何操控物體。當(dāng)時(shí)我們所做的工作非常簡(jiǎn)單,要讓一個(gè)機(jī)器人學(xué)習(xí)抓取物體。為了做到這一點(diǎn),機(jī)器人就要學(xué)會(huì)協(xié)調(diào)攝像頭和抓手。在一個(gè)機(jī)器人系統(tǒng)中,攝像頭是512×512像素,抓手具有兩根指頭,一開(kāi)始攝像頭會(huì)輸入視覺(jué)圖像,然后確定抓取策略,預(yù)測(cè)抓取策略的成功率,在很短的時(shí)間內(nèi)進(jìn)行計(jì)算,最后選擇那個(gè)最有可能成功的抓取策略。
為了實(shí)現(xiàn)這一目標(biāo),我們大概進(jìn)行了兩個(gè)月的實(shí)驗(yàn),不是每一次都會(huì)成功,但從那些部分成功的實(shí)驗(yàn)中,我們還是有很多收獲的。在這一過(guò)程中,我們一共做了8萬(wàn)次的抓取,對(duì)14只機(jī)械臂的操作練習(xí)結(jié)果進(jìn)行評(píng)估,其實(shí)規(guī)則很簡(jiǎn)單,當(dāng)機(jī)械臂合并的時(shí)候沒(méi)有東西就是不成功,有東西就是成功。此外,我們還有一個(gè)優(yōu)化的機(jī)制,當(dāng)機(jī)器人想抓住一個(gè)物體的時(shí)候,卻會(huì)把這件物體放到旁邊,然后去抓取另外一件物體,這是因?yàn)樗隽藘?yōu)化,對(duì)成功率進(jìn)行了預(yù)測(cè),它通過(guò)神經(jīng)網(wǎng)絡(luò)發(fā)現(xiàn)這樣的移動(dòng)會(huì)使它取得更大的成功。
實(shí)際上,針對(duì)不同的物體,它會(huì)有不同的抓取策略,比如面對(duì)透明物體和金屬物體時(shí),它的抓取策略是不一樣的,而這些都是基于數(shù)據(jù)做出的最終決策。除此之外,我們還使用一些新的、從來(lái)沒(méi)有見(jiàn)過(guò)的物體,對(duì)機(jī)器人進(jìn)行訓(xùn)練,和之前使用過(guò)的類(lèi)似物體相比,它的學(xué)習(xí)速度變得越來(lái)越快。
機(jī)器學(xué)習(xí)不是“魔法子彈”,而是一種工具
如果要從學(xué)術(shù)角度看待這一問(wèn)題的話(huà),有一點(diǎn)需要強(qiáng)調(diào)的是,對(duì)于這個(gè)系統(tǒng)而言,正常情況下是可以良好運(yùn)行的,但如果改變其中一個(gè)元素的話(huà),所有的一切都會(huì)出現(xiàn)問(wèn)題。所以我們不要對(duì)機(jī)器學(xué)習(xí)和物理抓取過(guò)于興奮,機(jī)器學(xué)習(xí)并沒(méi)有捷徑可循,只能不斷地從數(shù)據(jù)當(dāng)中學(xué)習(xí)。機(jī)器學(xué)習(xí)不是魔法,它意味著從數(shù)據(jù)當(dāng)中進(jìn)行學(xué)習(xí),意味著數(shù)據(jù)和算法,更主要的是關(guān)于數(shù)據(jù)的,因?yàn)楹鸵曈X(jué)感知相比,沒(méi)有很多數(shù)據(jù)意味著可能只能做一些比較簡(jiǎn)單的、參數(shù)比較少的方法設(shè)計(jì)。
機(jī)器學(xué)習(xí)算法必須要對(duì)一些典型性的數(shù)據(jù)進(jìn)行訓(xùn)練,但很多人可能會(huì)忽略這一點(diǎn)。在訓(xùn)練過(guò)程中,我們應(yīng)該對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)化,從而使其變成典型的數(shù)據(jù)??梢哉f(shuō),在計(jì)算機(jī)領(lǐng)域,機(jī)器學(xué)習(xí)是一種革命性的成果進(jìn)展,但它不是一個(gè)“魔法子彈”(magic bullet),只是一種工具。對(duì)于諸如物理抓取和物理操縱等許多現(xiàn)有的研究成果和方法,以及學(xué)科知識(shí),我們也不要輕易忘記和拋棄,而要把這些知識(shí)融入到新的基于數(shù)據(jù)的方法中,充分發(fā)揮它的潛力。
其實(shí),在機(jī)器學(xué)習(xí)領(lǐng)域,我們經(jīng)常使用的還有一種學(xué)習(xí)方法,就是遷移學(xué)習(xí)。我們需要把在物理世界中獲得的數(shù)據(jù)與在模擬世界中獲得的數(shù)據(jù)相結(jié)合,因?yàn)閮H僅從模擬系統(tǒng)中獲得的數(shù)據(jù)并不能反映真正的物理世界。為了能夠?qū)崿F(xiàn)我們的工作研究目標(biāo),我們會(huì)做一些比較傳統(tǒng)的系統(tǒng)參數(shù),基于這些參數(shù)產(chǎn)生噪音模型,然后把這些噪音模型注入到模擬系統(tǒng)當(dāng)中,這樣便可以反映物理世界,而這樣的模擬系統(tǒng)所得出的結(jié)果往往更加貼近事實(shí),也會(huì)對(duì)我們的研究有更大的幫助。未來(lái),相信遷移學(xué)習(xí)的使用會(huì)使我們的研究向前邁進(jìn)一步。
最后,談及安全問(wèn)題,大家都希望工業(yè)機(jī)器人和服務(wù)機(jī)器人能夠跳出它們所處的區(qū)隔,和人類(lèi)一起生活。但從安全的角度來(lái)說(shuō),根據(jù)IEC61508國(guó)際標(biāo)準(zhǔn),需要機(jī)器人的故障率非常低才可以,所以我們就要根據(jù)機(jī)器人在社會(huì)生活中的應(yīng)用確定故障率。我們都知道,在機(jī)器人系統(tǒng)中,機(jī)器學(xué)習(xí)涉及的是軟件,底層涉及的是硬件,中層是對(duì)安全性非常重要的軟件,最上層是一些不安全的重要軟件。為了安全性,我們可以選擇在中間層插入一種軟件,通過(guò)機(jī)器學(xué)習(xí)確保安全性。如果再往前推進(jìn)一步,還可以考慮把經(jīng)過(guò)訓(xùn)練的模型引入系統(tǒng)中,系統(tǒng)中存在一些安全軟件,可以在其運(yùn)行的時(shí)候?qū)λM(jìn)行監(jiān)控和監(jiān)測(cè),并及時(shí)糾正問(wèn)題,也就是讓這兩種軟件同時(shí)運(yùn)行,從而極大程度上確保安全性。
與此同時(shí),我們也看到在這一領(lǐng)域不斷有一些新的研究出現(xiàn),將對(duì)安全性來(lái)說(shuō)不是最重要的軟件嵌入到對(duì)安全性來(lái)說(shuō)最重要的軟件當(dāng)中,從而使得這些對(duì)安全性來(lái)說(shuō)不是最重要的軟件通過(guò)機(jī)器學(xué)習(xí)來(lái)學(xué)習(xí)那些安全軟件。相信在不久的未來(lái)會(huì)有更多的研究人員對(duì)這一領(lǐng)域進(jìn)行研究探索,促進(jìn)更安全、更有效、更實(shí)用系統(tǒng)的出現(xiàn)。
(本文根據(jù)“2018世界機(jī)器人大會(huì)”現(xiàn)場(chǎng)演講整理而成,未經(jīng)演講人審閱。)