陳龍新,曾 翔,吳鴻敏,廖亞軍,銀江濤
(1.廣東工業(yè)大學(xué) 機(jī)電工程學(xué)院,廣東 廣州 510006; 2.廣東嶺南職業(yè)技術(shù)學(xué)院 數(shù)控教研室,廣東 廣州 510663)
機(jī)器人應(yīng)用領(lǐng)域的不斷擴(kuò)張和對(duì)機(jī)器人智能化要求的不斷提高,促使人機(jī)協(xié)作成為機(jī)器人領(lǐng)域的熱門話題與研究方向。人機(jī)協(xié)作可以讓機(jī)器人更好地與人配合,提高生產(chǎn)效率,更好地適應(yīng)當(dāng)前大規(guī)?!皞€(gè)性定制”的生產(chǎn)需求。從20世紀(jì)90年代開始人們對(duì)協(xié)作機(jī)器人的本體設(shè)計(jì)進(jìn)行了十分深入的研究,然而針對(duì)協(xié)作型機(jī)器人開發(fā)的協(xié)作系統(tǒng)的研究卻鮮有成熟的商業(yè)產(chǎn)品,這不利于協(xié)作型機(jī)器人的應(yīng)用與推廣。近年來(lái),有越來(lái)越多的學(xué)者投入到人機(jī)協(xié)作的研究中來(lái)[1],人機(jī)協(xié)作水平將成為衡量機(jī)器人優(yōu)劣的重要指標(biāo)。
模仿學(xué)習(xí)是指模仿者通過(guò)“觀察”示教的運(yùn)動(dòng)行為,學(xué)習(xí)運(yùn)動(dòng)控制策略,進(jìn)而獲取運(yùn)動(dòng)技能[2]?;谀7聦W(xué)習(xí)的人機(jī)協(xié)作,通過(guò)簡(jiǎn)單地示范機(jī)器人如何協(xié)作人完成任務(wù),同時(shí)記錄人和機(jī)器人的狀態(tài)數(shù)據(jù)用于對(duì)交互概率模型進(jìn)行訓(xùn)練,從而描述任務(wù)過(guò)程中狀態(tài)的時(shí)空差異性。本文提出了一種基于模仿學(xué)習(xí)的方法來(lái)實(shí)現(xiàn)人機(jī)協(xié)作任務(wù),并以協(xié)作型機(jī)器人Baxter作為實(shí)驗(yàn)平臺(tái),結(jié)合交互概率模型搭建人機(jī)協(xié)作系統(tǒng),通過(guò)實(shí)驗(yàn)驗(yàn)證模型的可行性。
本文搭建人機(jī)協(xié)作機(jī)器人系統(tǒng)開展研究,其主要硬件如圖1所示。以協(xié)作型機(jī)器人Baxter作為實(shí)驗(yàn)平臺(tái)開展研究,該機(jī)器人在零力拖動(dòng)模式下可拖動(dòng)機(jī)器人末端到任意的可達(dá)空間進(jìn)行任務(wù)的示范。同時(shí),我們需要記錄人機(jī)協(xié)作任務(wù)示范過(guò)程中人的狀態(tài)[3-6]。本文中,我們采用體感相機(jī)Xtion,通過(guò)ROS(Robot Operating System)的程序包openni_tracker實(shí)現(xiàn)對(duì)人體骨架的跟蹤,以此針對(duì)人機(jī)協(xié)作任務(wù)對(duì)人和機(jī)器人的運(yùn)動(dòng)進(jìn)行建模。
圖1 人機(jī)協(xié)作機(jī)器人系統(tǒng)的主要硬件設(shè)備
僅通過(guò)人的運(yùn)動(dòng)狀態(tài)來(lái)推測(cè)任務(wù)是有明顯缺陷的。假設(shè)以下情形:人手持不同物體執(zhí)行著不同的任務(wù),而運(yùn)動(dòng)軌跡卻十分相似。在這種情況下,誤識(shí)別的可能性大大增加。由于當(dāng)手持不同物體時(shí),人手的肌肉信號(hào)是有所不同的,故肌電信號(hào)在人的任務(wù)識(shí)別中起著十分關(guān)鍵的作用。本文提出結(jié)合人的肌電信號(hào)輔助任務(wù)識(shí)別,采用加拿大Thalmic Labs公司推出的Myo腕帶,其配備的肌電信號(hào)傳感器可探測(cè)佩戴者對(duì)應(yīng)的8處肌肉產(chǎn)生的電活動(dòng)。
本文中通過(guò)對(duì)任務(wù)進(jìn)行示范的方式,使機(jī)器人學(xué)習(xí)不同任務(wù)的協(xié)作技能,以協(xié)作人類完成任務(wù)。本文中記錄機(jī)器人的末端位姿和人的位姿及肌電信號(hào),并以此作為交互概率模型的訓(xùn)練樣本,其中人機(jī)協(xié)作的不同任務(wù)示范如圖2所示。
由于在人機(jī)協(xié)作任務(wù)中,人和機(jī)器人在每次的協(xié)作中其運(yùn)動(dòng)不總是一成不變的,所以如果要對(duì)協(xié)作任務(wù)進(jìn)行一般性的描述,則需要捕獲任務(wù)過(guò)程中兩者運(yùn)動(dòng)的時(shí)空差異性。下文對(duì)運(yùn)動(dòng)的空間差異性和時(shí)間差異性進(jìn)行建模,并將其統(tǒng)一到交互概率模型中,以對(duì)人機(jī)協(xié)作任務(wù)進(jìn)行描述。在人機(jī)協(xié)作的任務(wù)中,通過(guò)對(duì)人的狀態(tài)的觀測(cè),對(duì)任務(wù)的類型進(jìn)行識(shí)別,并基于訓(xùn)練得到的交互概率模型生成機(jī)器人的運(yùn)動(dòng)軌跡。為了提高任務(wù)的識(shí)別率,本文將肌電信號(hào)融入到該模型中,避免了錯(cuò)誤的任務(wù)識(shí)別而造成的失敗的機(jī)器人運(yùn)動(dòng)生成。
圖2 人機(jī)協(xié)作的任務(wù)示范
采用線性回歸對(duì)單個(gè)訓(xùn)練樣本進(jìn)行描述,本文采用高斯基函數(shù)作為基函數(shù),則其回歸得到的概率形式的表達(dá)式為:
(1)
其中:Ht為時(shí)間步t的基函數(shù)矩陣,本文采用高斯基函數(shù)作為基函數(shù);ω是對(duì)應(yīng)的權(quán)重向量;Σy為零均值高斯噪聲的協(xié)方差矩陣。
線性回歸實(shí)質(zhì)上是對(duì)運(yùn)動(dòng)軌跡進(jìn)行參數(shù)化的過(guò)程,為了捕獲運(yùn)動(dòng)的空間差異性,假設(shè)有:
p(ω|θ)=N(ω|μω,Σω).
(2)
其中:θ={μω,Σω}為權(quán)重向量ω的概率分布參數(shù),μω和Σω分別為ω的高斯分布的均值和協(xié)方差矩陣。
基于yt的概率分布p(yt|ω)依賴于ω,而ω的概率分布p(ω|θ)又依賴于θ,由此可知,通過(guò)若干訓(xùn)練樣本得到的時(shí)間步t上的運(yùn)動(dòng)分布p(yt|θ)符合層次貝葉斯模型(Hierarchical Bayesian Model,HBM),如圖3所示。
由于每次任務(wù)示范中人手運(yùn)動(dòng)速度的不確定性,每個(gè)示范數(shù)據(jù)的時(shí)間長(zhǎng)度是不盡相同的,因此有必要對(duì)運(yùn)動(dòng)進(jìn)行時(shí)間上的對(duì)齊,并對(duì)時(shí)間差異性進(jìn)行建模。
圖3 層次貝葉斯模型
本文對(duì)所有訓(xùn)練樣本在時(shí)間維度上進(jìn)行線性縮放,使得所有訓(xùn)練樣本的時(shí)長(zhǎng)都為固定的名義時(shí)長(zhǎng)Tnorm,從而使所有新的訓(xùn)練樣本均完成了時(shí)間上的對(duì)齊。對(duì)于時(shí)長(zhǎng)為T的訓(xùn)練樣本,定義時(shí)長(zhǎng)因子為:
α=T/Tnorm.
(3)
通過(guò)α的概率分布p(α)來(lái)描述運(yùn)動(dòng)的時(shí)間差異性,本文假設(shè)α服從高斯分布,即有:
(4)
對(duì)于時(shí)長(zhǎng)為α的訓(xùn)練樣本,為實(shí)現(xiàn)將其在時(shí)間維度上進(jìn)行線性縮放,在時(shí)間步上對(duì)基函數(shù)矩陣做時(shí)間維度的線性縮放得到新的基函數(shù)矩陣At,它與公式(1)中基函數(shù)矩陣Ht的關(guān)系為:
At=Hαt.
(5)
其中:Hαt表示時(shí)間步(αt)的基函數(shù)矩陣。
圖4為交互概率模型。
圖4 交互概率模型
圖4中,線性回歸得到的參數(shù)ω的概率分布是對(duì)運(yùn)動(dòng)的空間差異性進(jìn)行建模,時(shí)長(zhǎng)因子α的概率分布是對(duì)運(yùn)動(dòng)的時(shí)間差異性進(jìn)行建模,而對(duì)時(shí)間依賴的基函數(shù)矩陣A將時(shí)間和空間的差異性統(tǒng)一到一個(gè)概率模型中。
又由于p(yt|θ)符合HBM,故可通過(guò)邊緣化ω得到時(shí)間t步下的運(yùn)動(dòng)狀態(tài)y的概率分布:
(6)
其中:p(yt|ω,α)為yt在權(quán)重向量ω、時(shí)長(zhǎng)因子α下的似然概率分布,且p(yt|ω,α)=N(yt|Atω,Σy)=N(yt|Hatω,Σy)。
在K個(gè)任務(wù)的人機(jī)協(xié)作場(chǎng)景中,對(duì)所有任務(wù)模型分別估計(jì)其時(shí)長(zhǎng)因子。具體的方法是通過(guò)最大后驗(yàn)估計(jì),得到任務(wù)的時(shí)長(zhǎng)因子為:
(7)
(8)
將y中表示機(jī)器人運(yùn)動(dòng)狀態(tài)的部分取出,可得到機(jī)器人的運(yùn)動(dòng)軌跡,機(jī)器人通過(guò)執(zhí)行該軌跡即可輔助人完成對(duì)應(yīng)的任務(wù)。
當(dāng)人的運(yùn)動(dòng)在各個(gè)人機(jī)協(xié)作任務(wù)中的運(yùn)動(dòng)相似時(shí),單純地通過(guò)人的運(yùn)動(dòng)進(jìn)行任務(wù)識(shí)別將會(huì)失效,而肌電信號(hào)對(duì)于人手持不同物體的場(chǎng)景十分地具有區(qū)分度。上述的模型對(duì)機(jī)器人和人的運(yùn)動(dòng)進(jìn)行建模,本質(zhì)上該模型討論的是時(shí)間序列,故可把人的肌電信號(hào)級(jí)聯(lián)到原來(lái)的狀態(tài)向量中為:
(9)
其中:符號(hào)(·)EMG表示該數(shù)值屬于測(cè)得的肌電信號(hào)。
本文設(shè)置人機(jī)協(xié)作任務(wù)的實(shí)驗(yàn),利用每個(gè)任務(wù)的示范獲得若干的訓(xùn)練樣本,對(duì)交互概率模型進(jìn)行訓(xùn)練。在人機(jī)協(xié)作的測(cè)試場(chǎng)景中,采集人的運(yùn)動(dòng)和肌電信號(hào),通過(guò)交互概率模型識(shí)別任務(wù),并生成相應(yīng)的機(jī)器人運(yùn)動(dòng)軌跡。
實(shí)驗(yàn)中,設(shè)置了3個(gè)不同的人機(jī)協(xié)作任務(wù)實(shí)驗(yàn),如圖2所示。在任務(wù)的示范過(guò)程中,利用ROS采集 Baxter機(jī)器人末端夾持器的運(yùn)動(dòng),通過(guò)Xtion相機(jī)捕捉人手腕部的運(yùn)動(dòng),以及用Myo腕帶對(duì)人手腕部肌電信號(hào)進(jìn)行讀取,示范中記錄得到的上述數(shù)據(jù)作為交互概率模型的訓(xùn)練樣本。
通過(guò)設(shè)置對(duì)比實(shí)驗(yàn)分析肌電信號(hào)在人機(jī)協(xié)作任務(wù)中的重要性。在沒有肌電信號(hào)的情況下,任務(wù)的平均識(shí)別率為49.2%,而在有肌電信號(hào)的情況下任務(wù)的平均識(shí)別率為85.8%。因此在任務(wù)的識(shí)別中,肌電信號(hào)起著十分顯著的作用。
在完成任務(wù)識(shí)別后,通過(guò)若干人的運(yùn)動(dòng)狀態(tài)的觀測(cè)點(diǎn),可生成機(jī)器人的運(yùn)動(dòng)軌跡,如圖5所示。該軌跡與真實(shí)值基本吻合,證明了該模型下機(jī)器人軌跡泛化性能。
圖5 機(jī)器人運(yùn)動(dòng)軌跡的生成
本文介紹了一種基于模仿學(xué)習(xí)的人機(jī)協(xié)作的任務(wù)建模方法,通過(guò)人工示范的方式,獲得各個(gè)任務(wù)的訓(xùn)練樣本。利用訓(xùn)練樣本對(duì)交互概率模型進(jìn)行訓(xùn)練,進(jìn)而實(shí)現(xiàn)任務(wù)識(shí)別和機(jī)器人運(yùn)動(dòng)軌跡生成。本文將肌電信號(hào)級(jí)聯(lián)到原來(lái)的運(yùn)動(dòng)狀態(tài)向量中,大大地提高了任務(wù)的識(shí)別率,為后續(xù)的機(jī)器人運(yùn)動(dòng)軌跡生成奠定了基礎(chǔ)。也證明利用交互概率模型對(duì)任務(wù)的時(shí)空差異性建模,具有十分強(qiáng)的泛化能力。