王奇志,韓麗麗,楊永剛
(北京交通大學(xué)計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)
隨著工業(yè)社會(huì)的發(fā)展,越來越多的人們從事著機(jī)械性的工作,枯燥的工作使得人們渴望從機(jī)械性的勞動(dòng)中解脫出來。1959年美國(guó)英格伯格和德沃爾制造出世界上第一個(gè)工業(yè)機(jī)器人,機(jī)器人開始替代人們進(jìn)行單調(diào)的機(jī)械工作,至此機(jī)器人的歷史才真正開始。
機(jī)器人在近百年來的發(fā)展過程中,大致經(jīng)歷了3個(gè)成長(zhǎng)階段,也可以稱之為機(jī)器人的3個(gè)時(shí)代。第一代為簡(jiǎn)單個(gè)體機(jī)器人,第二代為群體勞動(dòng)機(jī)器人,第三代為類似人類的智能機(jī)器人,它的未來發(fā)展方向是有知覺、有思維、能與人對(duì)話,并且越來越具有人類的智能。
截至目前,機(jī)器人已經(jīng)被應(yīng)用到軍工、醫(yī)療、服務(wù)等行業(yè)。機(jī)器人已經(jīng)深入人們生活的方方面面,越來越多的學(xué)者開始熱衷于機(jī)器人控制的研究。在對(duì)機(jī)器人的研究過程中,機(jī)械臂作為一個(gè)模擬人的上臂而制造的機(jī)械結(jié)構(gòu)[1],成為了機(jī)器人發(fā)展的一個(gè)必不可少的重要環(huán)節(jié)。目前機(jī)械臂大多用在工業(yè)領(lǐng)域,其控制方法多為預(yù)先設(shè)定機(jī)械臂的各類規(guī)定動(dòng)作[2]。機(jī)械臂的運(yùn)動(dòng)軌跡基本采用軌跡插補(bǔ)法進(jìn)行規(guī)劃,然而這些方法用到的數(shù)據(jù)量過于龐大,且編程較為復(fù)雜,工作效率比較低[3]。以上這些方法已經(jīng)無(wú)法滿足人們對(duì)當(dāng)代機(jī)械臂的控制需要。
隨著機(jī)械臂的工作環(huán)境越來越復(fù)雜,人們對(duì)機(jī)械臂動(dòng)作的多樣性和行為的靈活性提出了更高的要求。模仿學(xué)習(xí)的出現(xiàn)使得機(jī)械臂的抓取行為滿足了人們的需求。模仿是人類以及其他動(dòng)物獲得動(dòng)作技巧的有效學(xué)習(xí)方法,機(jī)械臂可以通過模仿學(xué)習(xí)到示教者的動(dòng)作技巧,如此便能更好地解決機(jī)械臂動(dòng)作單一、死板的問題[4]。模仿學(xué)習(xí)的基本步驟有3步:行為獲取、行為表征和行為再現(xiàn)[5]。
對(duì)模仿學(xué)習(xí)的改進(jìn)多從行為獲取和行為表征2個(gè)部分進(jìn)行。行為獲取分為2種:一種是通過視頻、攝像機(jī)和可穿戴設(shè)備等直接得到人類的動(dòng)作行為數(shù)據(jù),另一種是通過虛擬平臺(tái)對(duì)仿真機(jī)械臂的操作獲取運(yùn)動(dòng)數(shù)據(jù)。行為表征也有很多方法,例如,將獲取的動(dòng)作數(shù)據(jù)通過運(yùn)動(dòng)學(xué)轉(zhuǎn)換直接用到機(jī)械臂上;將提取的數(shù)據(jù)進(jìn)行建模,通過建好的模型對(duì)機(jī)械臂的抓取行為進(jìn)行控制,目前最前沿的模型是由神經(jīng)網(wǎng)絡(luò)構(gòu)建的控制模型。筆者將在下文進(jìn)行詳細(xì)的介紹。
張利格等人[6]提出了一種在基于運(yùn)動(dòng)捕捉系統(tǒng)的仿人機(jī)器人復(fù)雜動(dòng)作設(shè)計(jì)中人體運(yùn)動(dòng)數(shù)據(jù)的提取及分析方法,應(yīng)用運(yùn)動(dòng)重定向技術(shù)實(shí)現(xiàn)從人體運(yùn)動(dòng)數(shù)據(jù)到仿人機(jī)器人的映射,并給出了基于人體運(yùn)動(dòng)數(shù)據(jù)到仿人機(jī)器人的逆運(yùn)動(dòng)學(xué)求解方法,最終得到適用于仿人機(jī)器人的關(guān)節(jié)角數(shù)據(jù)。通過運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)的匹配,在仿人機(jī)器人BHR-2的刀術(shù)實(shí)驗(yàn)中驗(yàn)證了他們提出的新方法的有效性。
李少波等人[7]采用AdaBoost算法對(duì)捕捉到的圖像進(jìn)行訓(xùn)練,通過訓(xùn)練可以得到人體部件檢測(cè)器,該檢測(cè)器可以在圖片中尋找到對(duì)應(yīng)部件的若干候選區(qū)域,在此過程中可以同時(shí)檢測(cè)到部件的位置和方向。然后依據(jù)提出的指標(biāo)評(píng)價(jià)這些候選區(qū)域,進(jìn)而從中選出最優(yōu)候選區(qū)域。該方法在NAO機(jī)器人平臺(tái)上進(jìn)行實(shí)驗(yàn),結(jié)果表明,在NAO動(dòng)作的可達(dá)范圍內(nèi)實(shí)現(xiàn)了對(duì)人體動(dòng)作姿態(tài)的識(shí)別和模仿,達(dá)到了對(duì)機(jī)器人手臂控制的目的。
傳統(tǒng)的獲取人體動(dòng)作數(shù)據(jù)的方法有2種:1)基于視覺的動(dòng)作或手勢(shì)識(shí)別方法,該方法的缺點(diǎn)是無(wú)法準(zhǔn)確地識(shí)別和模仿動(dòng)作,這是因?yàn)楣鈱W(xué)傳感器捕捉的圖像對(duì)光照條件、陰影、遮擋和雜亂背景等都很敏感,捕捉的數(shù)據(jù)本身就有很大缺陷[8-9];2)用可穿戴傳感器捕捉運(yùn)動(dòng),可穿戴傳感器用于更健壯的手勢(shì)識(shí)別和模仿[10],因?yàn)樗鼈儽纫曈X獲取數(shù)據(jù)更加可靠,且對(duì)照明條件和背景混亂不敏感。但是,用戶必須佩戴傳感器并且進(jìn)行校準(zhǔn),而且,它們通常比光學(xué)傳感器更昂貴。隨著攝影技術(shù)的發(fā)展,傳統(tǒng)的獲取人體行為數(shù)據(jù)的方法已無(wú)法滿足人類對(duì)精準(zhǔn)數(shù)據(jù)的需要。Kinect深度相機(jī)的問世,無(wú)疑是人體行為研究者的福音。Kinect深度相機(jī)出現(xiàn)以來,得以在許多最新的應(yīng)用中實(shí)現(xiàn),成為了擺脫傳統(tǒng)攝像機(jī)和可穿戴設(shè)備缺點(diǎn)的首選工具[11-15]。
朱特浩等人[16]提出一種自動(dòng)分割和基于RVM的軌跡估計(jì)算法,該算法大大提高了Kinect深度攝像機(jī)感知到人體動(dòng)作數(shù)據(jù)的精確度,使得人們可以采用成本較低的非穿戴設(shè)備實(shí)現(xiàn)較好的人體動(dòng)作感知。通過對(duì)該算法的時(shí)間一致性、空間一致性和平滑度進(jìn)行評(píng)價(jià),以及在NAO機(jī)器人平臺(tái)上的動(dòng)作實(shí)現(xiàn),結(jié)果表明,該方法在提高Kinect感知人體上肢行為方面十分有效。
卡內(nèi)基梅隆大學(xué)[18-20]也進(jìn)行了相關(guān)工作的研究,作者采用的是他們自己設(shè)計(jì)實(shí)現(xiàn)的人體行為獲取系統(tǒng)??▋?nèi)基梅隆大學(xué)所研發(fā)的OpenPose模型可以精確地預(yù)測(cè)人體行為的姿態(tài),但其渲染速度慢,所采用的攝像頭是480個(gè)VGA,價(jià)格高昂,且實(shí)現(xiàn)難度較大,并不適合對(duì)人體行為研究的入門學(xué)習(xí)。
目前真人示教法已取得很大的進(jìn)步,但是,還有很大的進(jìn)步空間。目前,一些問題還有待進(jìn)一步解決:1)人體行為直接獲取的數(shù)據(jù)與實(shí)體機(jī)械臂的結(jié)構(gòu)相差較大,在數(shù)據(jù)轉(zhuǎn)換過程中存在摩擦力不同、關(guān)節(jié)點(diǎn)差異等問題;2)僅僅實(shí)現(xiàn)了機(jī)械臂的抓取行為對(duì)人體行為的模仿,而不能自主地進(jìn)行控制。
根據(jù)一個(gè)給定物體確定抓取規(guī)劃的問題,需要考慮實(shí)現(xiàn)力的封閉或優(yōu)化相關(guān)質(zhì)量指標(biāo)[21]。基于物體的抓取通常假設(shè)物體已準(zhǔn)確知道并且觸點(diǎn)準(zhǔn)確放置。魯棒的抓取規(guī)劃需要解決有限的物體擾動(dòng)時(shí)發(fā)生的一些問題,這就需要考慮物體形狀、姿態(tài)或摩擦力等機(jī)械特性,由于感知和控制不夠精確,對(duì)這些特性的考慮是極為必要的。處理擾動(dòng)的一種方法是統(tǒng)計(jì)抽樣。由于高維采樣可能在計(jì)算上要求很高,最近的工作探索了如何從抓取一個(gè)物體中學(xué)習(xí)到的魯棒抓取來指導(dǎo)類似物體的魯棒抓取[22],例如通過翹曲接觸[23]或在Grasp Moduli Space上的內(nèi)插抓取和成型[24]。為了研究大規(guī)模的抓取規(guī)劃,Goldfeder等人[25-26]開發(fā)了Columbia抓取數(shù)據(jù)庫(kù),該數(shù)據(jù)庫(kù)包含1814個(gè)不同模型的數(shù)據(jù)集,以及使用GraspIt!生成的超過200000個(gè)強(qiáng)制抓取數(shù)據(jù)集。
Brook等人[27]為892點(diǎn)云數(shù)據(jù)庫(kù)規(guī)劃了魯棒抓取,并開發(fā)了一個(gè)模型來預(yù)測(cè)物理機(jī)器人基于該數(shù)據(jù)庫(kù)的抓握成功率。Kehoe等人[28]創(chuàng)建了一個(gè)基于云的系統(tǒng),通過使用Google Goggles對(duì)象識(shí)別引擎對(duì)對(duì)象進(jìn)行索引,將PF在數(shù)據(jù)庫(kù)中的100個(gè)對(duì)象上評(píng)估的抓取轉(zhuǎn)移到物理機(jī)器人上,并在桌子上抓取對(duì)象時(shí)取得了80%的成功率。
另一種研究主要集中在使用統(tǒng)計(jì)模型合成抓取動(dòng)作,抓取動(dòng)作是從一個(gè)物體的點(diǎn)云數(shù)據(jù)庫(kù)[29-31]或圖像數(shù)據(jù)庫(kù)[32]中學(xué)到的。Kappler等人[33]創(chuàng)建了一個(gè)超過700物體實(shí)例的數(shù)據(jù)庫(kù),每個(gè)對(duì)象實(shí)例標(biāo)有500個(gè)Barrett手部抓取動(dòng)作,以及來自人類注釋的相關(guān)質(zhì)量,還包括ODE物理引擎的模擬結(jié)果。作者訓(xùn)練了一個(gè)深度神經(jīng)網(wǎng)絡(luò)通過物體局部表面高度圖來預(yù)測(cè)抓取質(zhì)量。
最近,Laskey等人[34]使用MAB算法來減少抓取樣本數(shù)量,所減少的是2D中在物體形狀、姿態(tài)和摩擦的不確定性的情況下識(shí)別的具有高PF的樣本,最終實(shí)現(xiàn)了更加高效的物體抓取。
加州大學(xué)伯克利分校博士后研究員Mahler等人[35-37]關(guān)于Dex-Net的系列文章,提出了一種新的根據(jù)物體形態(tài)對(duì)機(jī)械臂的抓取行為進(jìn)行控制的方法。他們仿照人類的認(rèn)知模式,先通過圖像識(shí)別對(duì)物體的形態(tài)進(jìn)行判斷,然后確定最優(yōu)的抓取方式和動(dòng)作。
Dex-Net 1.0[35]中采用10000以上的獨(dú)立3D物體模型和超過250萬(wàn)個(gè)平口鉗抓取物體的方式得到的數(shù)據(jù)作為數(shù)據(jù)集,每個(gè)3D物體模型Oi對(duì)應(yīng)250個(gè)平口鉗抓取方式及其PF(PF指力閉合的概率);深度學(xué)習(xí)網(wǎng)絡(luò)采用多視圖卷積神經(jīng)網(wǎng)絡(luò)(Multi-View Convolutional Neural Networks, MV-CNNs)作為物體之間相似度的度量。實(shí)驗(yàn)結(jié)果表明,采用標(biāo)簽式的數(shù)據(jù)格式可以加速抓取規(guī)劃,抓取規(guī)劃的成功率和數(shù)據(jù)集中類似物體的數(shù)量成正比。
Dex-Net 2.0[36]與Dex-Net 1.0[35]相比,訓(xùn)練網(wǎng)絡(luò)的數(shù)據(jù)量更大,數(shù)據(jù)的復(fù)雜度有很大提高,主要體現(xiàn)在Dex-Net 2.0[36]結(jié)合三維點(diǎn)云的數(shù)據(jù)集并采取候選魯棒性抓取的方法上。這可以提高機(jī)械臂抓取物體的精確度,還可以極大地縮短機(jī)械臂抓取物體的時(shí)間。通過對(duì)抓取質(zhì)量卷積神經(jīng)網(wǎng)絡(luò)(Grasp Quality Convolutional Neural Networks, GQ-CNNs)進(jìn)行訓(xùn)練,可以對(duì)抓取規(guī)劃的魯棒性進(jìn)行評(píng)價(jià),得到概率值,并對(duì)魯棒性進(jìn)行排序,最后得到最優(yōu)的抓取動(dòng)作。
Dex-Net 3.0[37]提出一種采用吸氣式末端抓取物體的方法,相比多指式和平行鄂式末端,吸氣式末端只有單一接觸點(diǎn),操作更為簡(jiǎn)化。Dex-Net 3.0[37]采用的網(wǎng)絡(luò)架構(gòu)是GQ-CNNs,與Dex-Net 2.0[36]的網(wǎng)絡(luò)架構(gòu)基本相似,數(shù)據(jù)集是280萬(wàn)個(gè)點(diǎn)云、吸氣式抓取和由1500個(gè)3D物體模型完成的抓取魯棒性標(biāo)簽。
大量實(shí)驗(yàn)結(jié)果證實(shí),Dex-Net系列的抓取規(guī)劃取得了驚人的結(jié)果,對(duì)于很多不同形狀的物體抓取的可靠性很高,然而,該系列的方法還是存在一定的局限性:1)傳感器的精度較低,深度相機(jī)對(duì)桌面上透明物體或平面物體無(wú)法識(shí)別;2)模型單一,該系統(tǒng)只能抓取一個(gè)物體,并且沒有包括用夾持器夾起一張紙的策略;3)該方法沒有將物體的精確定位或者堆疊考慮進(jìn)去。
讓機(jī)器人直接學(xué)習(xí)人類的行為是對(duì)機(jī)器人控制的一種方法,還有一種方法是讓機(jī)器人在仿真環(huán)境中學(xué)習(xí)動(dòng)作,構(gòu)建行為模型,以此實(shí)現(xiàn)機(jī)器人對(duì)自身的控制[38-39]。隨著老齡化社會(huì)的到來,越來越多的老年人和殘疾人得不到家庭成員全面及時(shí)的照顧,家政服務(wù)機(jī)器人的出現(xiàn)給老年人和殘疾人的服務(wù)行業(yè)帶來福音。然而,真人示教的機(jī)器人需要示教者動(dòng)作靈敏,多數(shù)老年人已動(dòng)作緩慢,且有個(gè)別殘疾人因斷臂、眼盲、手臂殘疾等原因無(wú)法正常示教,這就需要一個(gè)可以在虛擬平臺(tái)上學(xué)習(xí)動(dòng)作的機(jī)器人。很多科研工作者針對(duì)此已經(jīng)開展了一系列的工作,他們提出讓使用者在虛擬的環(huán)境中教機(jī)器人完成動(dòng)作,用獲取的數(shù)據(jù)建立機(jī)器人的控制模型,使用模型構(gòu)建的控制器對(duì)機(jī)器人進(jìn)行控制。有些學(xué)者從改進(jìn)虛擬平臺(tái)的角度去提高示教的規(guī)范性,有些研究人員從改善模型的角度提高示教的準(zhǔn)確性。
仿真是機(jī)器人研究領(lǐng)域的一個(gè)非常有用的工具,因?yàn)闄C(jī)器人技能在仿真環(huán)境下的執(zhí)行要比在真實(shí)世界中的執(zhí)行容易得多。然而,模擬學(xué)習(xí)的價(jià)值受到模擬器在建立物理世界動(dòng)態(tài)模型時(shí)的固有不確定性的限制[40]。因此,在模擬器中的學(xué)習(xí)是不可能提高機(jī)器人在真實(shí)世界中的表現(xiàn)的。
為了更快地在較高保真度的模擬器或真實(shí)世界中進(jìn)行學(xué)習(xí),Cutler等人[41]使用較低保真度的模擬器去縮小動(dòng)作搜索的空間。Cully等人[42]使用模擬器估計(jì)低維機(jī)器人動(dòng)作的適應(yīng)值,在機(jī)器人將要遇到危險(xiǎn)時(shí),可以提供給機(jī)器人怎么適應(yīng)這種行為的優(yōu)先知識(shí)。Rajeswaran等人[43]使用一組不同的模擬器去學(xué)習(xí)機(jī)器人策略,這些策略可以在各種環(huán)境中表現(xiàn)良好且效果穩(wěn)健。Christiano等人[44]通過轉(zhuǎn)變政策行動(dòng),將模擬政策轉(zhuǎn)化為現(xiàn)實(shí)政策,以便產(chǎn)生與模擬環(huán)境中相同的效果。這種方法在策略執(zhí)行期間可以將其重置為任意狀態(tài)。
Hanna等人[45]介紹了一種地面行為轉(zhuǎn)換(Grounded Action Transformation, GAT)的方法。該算法通過使用高保真模擬器作為現(xiàn)實(shí)世界的替代品被充分地應(yīng)用和評(píng)估。這項(xiàng)研究結(jié)果有助于加深對(duì)模擬轉(zhuǎn)換和GAT有效性的理解。該方法與最先進(jìn)的手動(dòng)編碼相比,使步行速度提高了43.27%,從而產(chǎn)生了可能是目前步行最快的機(jī)器人SoftBank NAO。
國(guó)內(nèi)外多數(shù)學(xué)者已著手于控制模型完善的方法,主要方法有強(qiáng)化學(xué)習(xí)、遷移學(xué)習(xí)、深度學(xué)習(xí)等,各種方法在不同程度上都對(duì)該科研方法的不斷進(jìn)步做出了自己的貢獻(xiàn)。
國(guó)內(nèi)于建均等人[46]在ADAMS環(huán)境下搭建了等比例的機(jī)械臂模型,通過拖動(dòng)仿真環(huán)境中的機(jī)械臂獲取動(dòng)作數(shù)據(jù),將數(shù)據(jù)放入BP神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,最后得到機(jī)械臂的控制模型。通過大量實(shí)驗(yàn),結(jié)果表明,該方法可以模仿不同的示教行為動(dòng)作,效果良好,證明該系統(tǒng)有較好的泛化能力。
為了縮短在虛擬平臺(tái)上收集數(shù)據(jù)的時(shí)間,Schulman等人[47]將強(qiáng)化學(xué)習(xí)的方法用在仿真環(huán)境下的高維控制任務(wù)中,去降低數(shù)據(jù)維數(shù),以此減少數(shù)據(jù)收集的時(shí)間,該方法取得了令人矚目的成功。
圖1 漸進(jìn)網(wǎng)絡(luò)的網(wǎng)絡(luò)架構(gòu)
Rusu等人[48-49]介紹了一種名為漸進(jìn)網(wǎng)絡(luò)(Progressive Networks)的結(jié)構(gòu),該網(wǎng)絡(luò)實(shí)現(xiàn)了遷移學(xué)習(xí)。該漸進(jìn)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。左邊是漸進(jìn)網(wǎng)絡(luò)架構(gòu),右邊是優(yōu)化后用于機(jī)器人遷移學(xué)習(xí)的漸進(jìn)網(wǎng)絡(luò)結(jié)構(gòu)。本文建議使用漸進(jìn)網(wǎng)絡(luò)連接現(xiàn)實(shí)與模擬環(huán)境之間的鴻溝,并將學(xué)習(xí)策略從模擬環(huán)境轉(zhuǎn)移到現(xiàn)實(shí)世界。漸進(jìn)式網(wǎng)絡(luò)方法是一個(gè)通用的框架,可以應(yīng)用從低級(jí)視覺特征到高級(jí)策略的所有內(nèi)容,以便轉(zhuǎn)移到新任務(wù)中,從而實(shí)現(xiàn)構(gòu)建復(fù)雜技能的簡(jiǎn)單方法。實(shí)驗(yàn)結(jié)果顯示,該方法具有很強(qiáng)的可靠性。
Rahmatizadeh等人[50]提出長(zhǎng)短期記憶循環(huán)神經(jīng)網(wǎng)絡(luò)(Long Short Term Memory Recurrent Neural Network, LSTM)和混合密度網(wǎng)絡(luò)(Mixture Density Network, MDN)的機(jī)械臂的行為控制模型。
在仿真器中獲取機(jī)械臂的行為數(shù)據(jù),用獲取的數(shù)據(jù)訓(xùn)練基于深度神經(jīng)網(wǎng)絡(luò)的控制器。本文中所用的深度神經(jīng)網(wǎng)絡(luò)是三層的雙向LSTM網(wǎng)絡(luò)和MDN網(wǎng)絡(luò)。LSTM網(wǎng)絡(luò)的時(shí)間步長(zhǎng)為50,在第t時(shí)刻,機(jī)械臂的姿勢(shì)和狀態(tài)et和相關(guān)物體的姿勢(shì)qt作為輸入,機(jī)械臂下一時(shí)刻的姿勢(shì)和狀態(tài)et+1作為輸出,以此計(jì)算并返回誤差來更新權(quán)重。在卷積階段,混合密度網(wǎng)絡(luò)用來提取三層網(wǎng)絡(luò)的輸出中最優(yōu)的作為t時(shí)刻的輸出,最后的輸出用來控制機(jī)械臂。通過對(duì)模型的不斷訓(xùn)練,最后得到一個(gè)最優(yōu)的機(jī)械臂的控制模型。
通過微軟的Kinect傳感器獲取t時(shí)刻物理環(huán)境中機(jī)械臂的姿態(tài),對(duì)物體進(jìn)行標(biāo)記,以獲取t時(shí)刻物體的姿態(tài)。獲取的t時(shí)刻數(shù)據(jù)通過訓(xùn)練好的控制器,可產(chǎn)生t+1時(shí)刻機(jī)械臂的姿態(tài),運(yùn)用反向運(yùn)動(dòng)學(xué)的方法得到關(guān)節(jié)角,進(jìn)而實(shí)現(xiàn)對(duì)機(jī)械臂的控制。
用人體的行為數(shù)據(jù)直接訓(xùn)練機(jī)械臂的控制模型,可以使機(jī)械臂的活動(dòng)更加靈活,但是多數(shù)實(shí)驗(yàn)證明,訓(xùn)練得到的控制模型在實(shí)體機(jī)械臂上的控制并沒有在虛擬平臺(tái)上的效果好??偨Y(jié)原因有2點(diǎn):1)實(shí)體機(jī)械臂的關(guān)節(jié)處存在摩擦,在虛擬平臺(tái)上盡管可以模仿實(shí)體機(jī)械臂的摩擦力,但還是跟實(shí)體有差距;2)示教的人或虛擬平臺(tái)跟實(shí)體機(jī)械臂的大小、結(jié)構(gòu)有一定的差距。
把物體的結(jié)構(gòu)、形狀和抓取的動(dòng)作作為輸入數(shù)據(jù)訓(xùn)練網(wǎng)絡(luò)取得了很好的效果,然而,該方法目前抓取的物體較為單一,對(duì)柔性物體的抓取考慮不全,且對(duì)物體的定位不夠精準(zhǔn)。
在虛擬平臺(tái)上訓(xùn)練的機(jī)械臂的控制模型越來越受到廣大科研人員的關(guān)注,但是,在虛擬平臺(tái)上學(xué)習(xí)到的策略在轉(zhuǎn)換到實(shí)體機(jī)械臂上時(shí)工作并沒有那么流暢。虛擬平臺(tái)并不完美,因此,虛擬平臺(tái)會(huì)有一個(gè)候選策略來應(yīng)付與預(yù)期不同的狀態(tài)。訓(xùn)練好的模型是這種更正的不斷疊加,應(yīng)用到實(shí)體機(jī)械臂上問題就會(huì)尤為突出。
再有,仿真機(jī)器人到實(shí)體機(jī)器人之間有一個(gè)巨大的鴻溝。最先進(jìn)的學(xué)習(xí)方法需要成千上萬(wàn)的實(shí)驗(yàn),這對(duì)機(jī)器人來說是不切實(shí)際的。主要因?yàn)椋?)獲取這些數(shù)據(jù)會(huì)消耗大量的時(shí)間;2)不斷地進(jìn)行模型訓(xùn)練會(huì)給機(jī)器人帶來過多的磨損;3)機(jī)器人自己探索不同的執(zhí)行策略會(huì)造成機(jī)器人執(zhí)行不安全動(dòng)作的后果。
采用人類示教和虛擬平臺(tái)示教的方法去構(gòu)建機(jī)械臂的行為控制模型無(wú)論是在工業(yè)還是科研領(lǐng)域都將是一個(gè)熱門話題,加上近幾年正以驚人的速度產(chǎn)生令人驚艷的新應(yīng)用程序和先進(jìn)的深度學(xué)習(xí)方法,兩者碰撞定能產(chǎn)生奇妙的火花,給科學(xué)和社會(huì)的進(jìn)步帶來福音。雖然目前的機(jī)械臂的建模控制方法還存在一些問題,但隨著科技的進(jìn)步、科研工作者的不斷創(chuàng)新和努力,機(jī)械臂的建??刂埔欢〞?huì)越來越趨近人類理想的狀態(tài)。無(wú)論是人類直接示教還是虛擬平臺(tái)示教,不斷的技術(shù)更新才能使其有長(zhǎng)足的進(jìn)步。