黃艷龍 徐 德 譚 民 ,
機器人運動技能的模仿學(xué)習(xí)(Imitation learning,IL),又稱示教學(xué)習(xí)(Learning from demonstration,LfD)或示教編程(Programming by demonstration,PbD),是指機器人通過學(xué)習(xí)示教樣本來獲得運動技能的一類算法,其學(xué)習(xí)過程一般為從單個或少量示教軌跡中提取運動特征,隨后將該特征泛化到新的情形,從而使得機器人具有較好的自適應(yīng)性.
自1999 年Schaal[1]提出機器人模仿學(xué)習(xí)的概念之后,模仿學(xué)習(xí)作為機器人技能學(xué)習(xí)(Robot learning)領(lǐng)域中的一個重要分支近年來取得了許多重要的進展.例如,Ijspeert 等[2]提出了動態(tài)運動基元(Dynamical movement primitives,DMP),其僅需學(xué)習(xí)單條示教軌跡即可實現(xiàn)點到點和周期運動的泛化.該方法利用彈簧阻尼模型和軌跡調(diào)整項,可以在模仿示教技能時確保泛化軌跡收斂到目標(biāo)點.Khansari-Zadeh 等[3]提出了動態(tài)系統(tǒng)穩(wěn)定估計(Stable estimator of dynamical systems,SEDS),該方法利用非線性求解器對多樣本的高斯混合模型(Gaussian mixture model,GMM)的參數(shù)進行優(yōu)化,以使高斯混合回歸(Gaussian mixture regression,GMR)對應(yīng)的自治系統(tǒng)(即應(yīng)用GMR 預(yù)測狀態(tài)變量對應(yīng)的一階微分,如依據(jù)位置預(yù)測速度)滿足穩(wěn)定性要求.Paraschos 等[4]提出了基于高斯分布的概率運動基元(Probabilistic movement primitives,ProMP),其應(yīng)用最大似然估計對軌跡參數(shù)的概率分布進行估計,之后依據(jù)高斯條件概率的運算對軌跡進行泛化調(diào)整.Calinon 等[5]提出了任務(wù)參數(shù)化高斯混合模型(Task-parameterized GMM,TPGMM),該方法將訓(xùn)練軌跡投影到與任務(wù)相關(guān)的局部坐標(biāo)系中并對變換后的相對運動軌跡進行概率建模,克服了GMM 在機器人任務(wù)空間中泛化的局限性.Huang 等[6]提出了核化運動基元(Kernelized movement primitives,KMP),其通過對參數(shù)化軌跡和樣本軌跡之間的KL 散度(Kullback-Leibler divergence)進行最小化,以及引入核技巧(Kernel trick),獲得了非參的(Non-parametric)技能學(xué)習(xí)模型.由于僅需要極少的樣本即可實現(xiàn)對人類運動技能的遷移,且無需其他先驗知識或數(shù)據(jù),模仿學(xué)習(xí)被廣泛應(yīng)用于諸多領(lǐng)域,如娛樂[7-10]、醫(yī)療[11-12]、護理[13-15]和農(nóng)業(yè)機器人[16]、仿人[17]和外骨骼機器人[18-19]以及人機交互[20-21]等.
在上述運動軌跡的模仿學(xué)習(xí)之外,模仿學(xué)習(xí)還包括其他的一些研究方向,如行為復(fù)現(xiàn)(Behaviour cloning,BC)[22]、直接策略學(xué)習(xí)(Direct policy learning,DPL)[23]和逆強化學(xué)習(xí)(Inverse reinforcement learning,IRL)[24-25].BC和DPL 在實質(zhì)上可以理解為監(jiān)督學(xué)習(xí),即學(xué)習(xí)示教樣本中輸入和輸出的函數(shù)關(guān)系.兩者的區(qū)別是DPL 在BC 的基礎(chǔ)上引入人類的交互反饋,從而改進BC 在長期規(guī)劃中的不足,特別是當(dāng)訓(xùn)練和測試狀態(tài)的概率分布存在顯著差異的情形.IRL 假設(shè)訓(xùn)練樣本中隱含的策略(Policy)在某種未知獎勵函數(shù)(Reward function)下是最優(yōu)的,進而對獎勵函數(shù)的參數(shù)進行優(yōu)化,最終在最佳獎勵函數(shù)下應(yīng)用強化學(xué)習(xí)(Reinforcement learning,RL) 可求得該隱含的最優(yōu)策略.
由于篇幅的限制,本文僅針對機器人運動軌跡的模仿學(xué)習(xí)進行綜述和討論.需要指出的是本文所討論的模仿學(xué)習(xí)算法和BC、DPL、IRL 存在著一定的差異.BC、DPL和IRL 主要側(cè)重解決馬爾科夫決策過程(Markov decision process,MDP)中的決策問題,其中一個主要的特點是智能體(Agent)與環(huán)境存在交互且任意時刻的交互都會影響MDP 下一時刻的狀態(tài),這一過程常被描述為狀態(tài)轉(zhuǎn)換(State transition).軌跡的模仿學(xué)習(xí)側(cè)重對運動軌跡的規(guī)劃,其輸入通常為時間或其他無環(huán)境交互影響的狀態(tài)1在一些文獻中軌跡的模仿學(xué)習(xí)被歸類為BC,然而考慮到其研究內(nèi)容的差異,本文采用不同的劃分方式..另外,本文中涉及的一些算法如GMR和高斯過程(Gaussian process,GP)等可以劃歸到BC 之中,但考慮到這些方法的應(yīng)用對象也包括機器人的軌跡學(xué)習(xí),因此我們?nèi)詫ζ溥M行分析討論.
之前的一些工作如文獻[26-27]對模仿學(xué)習(xí)的部分問題進行了綜述.其中,文獻[26]僅介紹模仿學(xué)習(xí)中的少量工作,未從算法的角度進行討論.文獻[27]討論了模仿學(xué)習(xí)中的任務(wù)參數(shù)化和軌跡協(xié)同兩類問題,但未涉及各種方法的具體推導(dǎo)思路.不同于文獻[26-27],本文主要綜述機器人運動軌跡的模仿學(xué)習(xí)算法,包括詳細介紹模仿學(xué)習(xí)中的基本問題(7 個)和主要方法(7 種),以及著重討論相關(guān)文獻中的算法原理和該領(lǐng)域中存在的若干關(guān)鍵問題(7 大類11 小類).
本文的結(jié)構(gòu)如下:第1 節(jié)對模仿學(xué)習(xí)中的一些基本問題進行描述,隨后在第2 節(jié)中對幾種主要的模仿學(xué)習(xí)算法進行介紹,包括GMM和GMR、GP、(半) 隱馬爾科夫模型(Hidden (Semi-)Markov Model,HMM/HSMM)、DMP、SEDS、ProMP和KMP.第3 節(jié)結(jié)合第2 節(jié)的內(nèi)容對模仿學(xué)習(xí)中的其他若干關(guān)鍵問題進行綜述.第4 節(jié)對機器人軌跡模仿學(xué)習(xí)的未來發(fā)展方向進行探討,最后在第5 節(jié)給出總結(jié).
本節(jié)討論模仿學(xué)習(xí)中的一些基本問題,包括學(xué)習(xí)對象(What to imitate)、技能復(fù)現(xiàn)(Reproduction)、技能泛化(Adaptation)、多軌跡的概率特征(Probabilistic features)、收斂性(Convergence)、外插(Extrapolation)、時間輸入和高維輸入等問題.
模仿學(xué)習(xí)具有廣泛的適用范圍,如學(xué)習(xí)控制策略[1]、人對物體的操作策略[28]以及人類的示教軌跡[3-4,6]或降維后的軌跡[29]等.考慮到本文的綜述范圍,即適用于軌跡規(guī)劃的模仿學(xué)習(xí),故僅以人類示教軌跡為學(xué)習(xí)對象進行分析.
目前常見的模仿學(xué)習(xí)是通過人類對機器人進行示教(Kinesthetic teaching),從而實現(xiàn)人類技能向機器人的遷移.具體來說,在重力補償(Gravity compensation)模式下,針對特定的任務(wù)人類可以直接地拖動機器人對其進行示教,同時通過機器人自身的傳感器、正向運動學(xué)以及視覺系統(tǒng)等記錄機器人的關(guān)節(jié)角度、末端位置和姿態(tài)、力和力矩以及環(huán)境狀態(tài)(如物體或障礙物的位置、其他協(xié)作機器人或用戶的狀態(tài)等),進一步則利用模仿學(xué)習(xí)算法對經(jīng)由示教所得的軌跡進行學(xué)習(xí)以達到對示教技能模仿的目的.
以圖1 為例,在記錄人類示教下機器人末端的位置和姿態(tài)后(如第一行所示),利用模仿學(xué)習(xí)算法可將學(xué)習(xí)到的技能應(yīng)用的新的情形,即生成新的末端位置和姿態(tài)軌跡(如第二、三行所示).圖2 給出了圖1 中粉刷任務(wù)對應(yīng)的示教軌跡以及泛化軌跡,其中圓圈表示泛化情形下的期望路徑點.需要說明的是,除了對機器人進行拖動示教,其他的方式還包括利用視覺捕捉系統(tǒng)[31-32]采集人類的示教軌跡等.
圖1 KMP 在粉刷任務(wù)中的應(yīng)用[30].第一行表示技能的示教,第二行和第三行分別對應(yīng)新情形下的泛化Fig.1 The application of KMP in painting tasks[30].The first row illustrates kinesthetic teaching of a painting task while the second and third rows correspond to skill adaptations in unseen situations
圖2 粉刷任務(wù)中的示教軌跡(a)~ (b)以及泛化軌跡(c)~ (f),其中(c)~ (d)和(e)~ (f)對應(yīng)不同情形下的泛化[30].[pxpypz]T和[qsqxqyqz]T 分別表示機器人末端的位置和四元數(shù)姿態(tài).圓圈為泛化時對應(yīng)的期望路徑點Fig.2 Demonstrations (a)~ (b) and adapted trajectories (c)~ (f) in painting tasks,where (c)~ (d) and(e)~ (f) correspond to different adaptations.[pxpypz]T and [qsqxqyqz]T denote Cartesian position and quaternion,respectively.Circles depict various desired points
針對示教軌跡的學(xué)習(xí),首先需要考慮的是技能的復(fù)現(xiàn)和泛化問題.前者是指模仿學(xué)習(xí)算法能夠?qū)κ窘誊壽E進行準(zhǔn)確地復(fù)現(xiàn),而后者則指學(xué)習(xí)算法將示教的技能應(yīng)用到新的不同于示教的情形.以圖3為例,(a)表示DMP 的技能復(fù)現(xiàn),其中DMP 生成的軌跡(實線) 能夠很好地重復(fù)示教軌跡(虛線);(b)~ (c)均對應(yīng)DMP 的技能泛化,其中DMP 生成一條從新的起點(圓圈)收斂到新的目標(biāo)點的軌跡,該軌跡不同于示教軌跡.在實際系統(tǒng)中,技能的泛化問題是十分重要的.以抓取為例,技能泛化使得機器人在學(xué)習(xí)少量的示教軌跡之后,能夠?qū)Σ煌恢蒙系奈矬w進行抓取而不需要新的示教樣本.
圖3 DMP 在書寫字母中的應(yīng)用.(a)表示技能的復(fù)現(xiàn),(b)~ (c)均表示技能的泛化,其中實線對應(yīng)DMP 生成的軌跡,虛線為示教軌跡并用 ‘*’和‘+’ 分別表示其起點和終點,圓圈表示泛化軌跡需要經(jīng)過的期望位置點Fig.3 The application of DMP in writing tasks.(a) corresponds to skill reproduction,(b)~ (c) represent skill adaptations with different desired points.Solid curves are generated via DMP,while the dashed curves denote the demonstration with ‘*’ and ‘+’ respectively marking its starting and ending points.Circles depict desired points which the adapted trajectories should go through
除了對于目標(biāo)位置的泛化,其他的泛化問題還包括經(jīng)過期望的(一個或多個)中間路徑點以及對位置和速度的同時泛化.這里以打乒乓球機器人為例[33],示教軌跡通常只包含少量的幾條擊打軌跡.然而,在實際系統(tǒng)中機器人應(yīng)根據(jù)乒乓球的方位以及速度來調(diào)整其對應(yīng)的擊打位置和速度,因此需要考慮對位置和速度的同時學(xué)習(xí)和泛化.圖4 為應(yīng)用KMP 對示教的書寫技能進行泛化,其中泛化后的軌跡能夠經(jīng)過新的起始、中間和目標(biāo)點,且每個期望點又包括期望的位置和速度.
圖4 KMP 在書寫字母中的應(yīng)用.(a)對應(yīng)二維軌跡,(b)~ (e)分別表示軌跡的,y, 和分量.實線對應(yīng)KMP 生成的軌跡,虛線為通過GMR 對示教軌跡進行建模得到的均值,圓圈表示不同的期望點Fig.4 The application of KMP in a writing task.(a) plots the corresponding 2D trajectories,while (b)~ (e) show the x,y, and components of trajectories,respectively.Solid curves are planned via KMP while the dashed curves are retrieved by GMR after modelling demonstrations.Circles denote various desired points
在對人類的示教軌跡進行學(xué)習(xí)時,需要考慮不同示教軌跡之間的差異.以抓取為例,即使針對同一個物體,多次示教的軌跡仍可能存在不同程度的變化.針對多條示教軌跡的問題,需要考慮對軌跡中的概率分布進行學(xué)習(xí).這里仍以書寫任務(wù)為例,圖5 給出了應(yīng)用GMM和GMR 對多條軌跡進行概率學(xué)習(xí)的示意圖,其中 (d)中的實線表示多條軌跡的均值而陰影部分的幅度則表征多條軌跡之間的變化程度.
圖5 應(yīng)用GMM和GMR 對多條示教軌跡進行概率建模.(a)~ (b)分別對應(yīng)示教軌跡的和y 分量,(c)~ (d)表示GMM和GMR 的建模結(jié)果,其中(c)中橢圓表示GMM 中的高斯成分,(d)中的實線和陰影部分分別表示多條軌跡的均值和方差Fig.5 The modeling of multiple demonstrations using GMM and GMR.(a)~ (b) plot the x and y components of demonstrations.(c)~ (d) depict the probabilistic features obtained via GMM and GMR,where the ellipses in(c) denote the Gaussian components in GMM,the solid curve and shaded area in (d) represent the mean and covariance of demonstrations,respectively
收斂性問題存在于基于動態(tài)系統(tǒng)(Dynamical systems)的模型中,如學(xué)習(xí)軌跡中速度隨位置ξ的變化趨勢(即學(xué)習(xí)(t)=f(ξ(t)) 對應(yīng)的模型)或?qū)W習(xí)軌跡中加速度隨位置ξ和速度的變化趨勢(即學(xué)習(xí)對應(yīng)的模型) 等.以為例,在利用模仿學(xué)習(xí)獲得函數(shù)關(guān)系f(·) 之后,可以根據(jù)當(dāng)前的位置計算期望的速度從而能夠計算出下一時刻期望的位置,依此迭代下去即可獲得完整的軌跡.收斂性是指當(dāng)t→+∞時,ξ(t) 以零速度和零加速度收斂于期望的位置.該特征可以有效地應(yīng)用于當(dāng)軌跡執(zhí)行時存在較大干擾的情形.收斂性也常常用于解決針對新目標(biāo)點的泛化問題,如圖3 中DMP 即采用了穩(wěn)定的二階動態(tài)模型.
外插問題是指將示教技能從整體上泛化到偏離示教區(qū)域的情形.以物體搬運為例,假設(shè)所有的示教軌跡都在用戶的左側(cè),具有外插特征的方法則允許將示教技能泛化到用戶的右側(cè)或其他遠離示教區(qū)域的位置,因此使得機器人具有更廣泛的泛化能力.圖6 為應(yīng)用DMP 進行外插的兩個例子,其中當(dāng)期望的起始點和目標(biāo)點整體遠離示教區(qū)域時,DMP依然能夠生成與示教軌跡形狀相似且經(jīng)過期望點的軌跡.
圖6 DMP 的外插應(yīng)用Fig.6 The extrapolation application of DMP
在對示教軌跡進行學(xué)習(xí)時需要考慮對應(yīng)的輸入信息.示教軌跡學(xué)習(xí)中的輸入問題是指能否學(xué)習(xí)帶有時間輸入或高維輸入的軌跡.基于時間的技能學(xué)習(xí)能夠在不同的時刻生成相應(yīng)的軌跡,如在某一個時刻到達某個期望的位置.在上述的例子中,圖2~ 6均為學(xué)習(xí)時間驅(qū)動的軌跡.針對高維輸入的學(xué)習(xí)方法能夠直接根據(jù)高維狀態(tài)生成對應(yīng)的軌跡.如在圖7所示的人機交互中,當(dāng)人的手部狀態(tài)發(fā)生變化時,機器人的軌跡也會立即作出相應(yīng)的調(diào)整.如人手的速度變快或變慢,機器人的運動軌跡也會相應(yīng)地變快或變慢.該過程中的模仿學(xué)習(xí)可以理解為直接學(xué)習(xí)機器人和人之間的協(xié)調(diào)關(guān)系.
圖7 KMP 在人機交互中的應(yīng)用[34].第一行表示技能示教,第二行為技能復(fù)現(xiàn),第三行對應(yīng)新情形下的技能泛化Fig.7 The application of KMP in handover tasks[34].The first row shows kinesthetic teaching of a handover task,while the second and third rows illustrate skill reproduction and adaptation,respectively
在本節(jié)最后,需要指出的是當(dāng)模仿學(xué)習(xí)應(yīng)用于技能泛化或外插時,僅需給定期望的任務(wù)目標(biāo)即可生成相應(yīng)的軌跡,無需對軌跡形狀進行幾何分析或?qū)壽E進行分段處理等.另外,對于復(fù)雜的軌跡或存在高維輸入時,基于幾何分析和變換的思路也是無法適用的.在圖6 中,給定期望的起始點和目標(biāo)點,DMP 即能夠直接生成保持示教軌跡形狀的軌跡.類似地,在圖4 中給定期望時刻下對應(yīng)的位置和速度(圖中對應(yīng)3 個期望點),KMP 即能直接生成滿足要求的位置和速度軌跡,而不需要其他任何中間步驟.在圖7 中,當(dāng)人的手部狀態(tài)(高維變量)發(fā)生變化時,KMP 即生成相應(yīng)的機器人的軌跡.
在獲得示教軌跡之后,需要對其進行相應(yīng)的學(xué)習(xí)(How to imitate).機器人運動技能的模仿學(xué)習(xí)方法主要包括GMM和GMR、HMM/HSMM、GP、DMP、SEDS、ProMP和KMP,本節(jié)將結(jié)合第1 節(jié)中的基本問題對這些方法進行介紹和討論.
給定M條示教軌跡,其中Nm為第m條軌跡的長度,s∈RI表示I維輸入信息(如時間、位置或其他外部狀態(tài)),ξ∈RO表示O維的軌跡變量,如機器人末端位置、速度和加速度,關(guān)節(jié)位置、速度和加速度,以及力和力矩等.兩種典型的軌跡是:i)s表示時間,ξ為機器人末端位置、關(guān)節(jié)位置或力等,則示教軌跡表示時間驅(qū)動(Time-driven)的技能;ii) 如果s表示位置,ξ為速度,則示教軌跡對應(yīng)自治的(Autonomous)動態(tài)系統(tǒng).
GMM 可以對樣本中輸入和輸出變量的聯(lián)合概率分布P(s,ξ) 進行建模,即
其中C為GMM 中高斯成分的數(shù)量,πc、μc=分別表示第c個高斯成分的先驗概率、均值和協(xié)方差.GMM 的參數(shù)可以通過期望最大化(Expectation-maximization,EM)算法(文獻[35],第9.2 節(jié))進行迭代優(yōu)化,但需要事先指定高斯成分的數(shù)量.常見的用于改進GMM參數(shù)估計的方法包括:i)用k均值(k-means)對樣本聚類,然后用聚類結(jié)果初始化GMM 的參數(shù);ii)結(jié)合貝葉斯信息判據(jù)(Bayesian information criterion,BIC)尋找最優(yōu)的高斯數(shù)量[29];iii)貝葉斯GMM (Bayesian GMM)自動優(yōu)化高斯成分的數(shù)量(文獻[35],第10.2 節(jié)).
在得到GMM 參數(shù)之后,對于任意新的輸入s*均可利用GMR 預(yù)測其對應(yīng)軌跡ξ*的條件概率分布,即[34,36-37]:
進一步可以將式(2)近似為[34,37]:
GMM 能夠有效地學(xué)習(xí)多訓(xùn)練樣本的概率特征,包括時間輸入和多維輸入的情形.然而,GMM難以將其學(xué)習(xí)到的技能應(yīng)用到與示教環(huán)境不同的情況.為了改進GMM 的自適應(yīng)性(即泛化能力),常見的方法是應(yīng)用強化學(xué)習(xí),如文獻[38]利用行為評判算法[39](Natural actor critic,NAC)對GMM 中高斯成分的均值進行優(yōu)化.由于需要大量的迭代優(yōu)化,這類方法不適用于在線技能的學(xué)習(xí)和調(diào)整.
HMM[40]假設(shè)任意長度為N的觀測序列{o1,o2,···,oN}是由H個隱含的未知狀態(tài){s1,s2,···,sH}所產(chǎn)生,同時假設(shè)當(dāng)前時刻的觀測值僅由當(dāng)前時刻的隱含狀態(tài)決定,以及任意時刻的狀態(tài)僅由其上一時刻的狀態(tài)決定.具體來說,HMM 包括三個主要要素,其中πi為隱狀態(tài)si的初始概率,ai,j為隱狀態(tài)從si轉(zhuǎn)換到sj的概率,bi(o) 表示當(dāng)狀態(tài)為si時觀測到o的概率.然而,當(dāng)對某個或某些隱含狀態(tài)進行連續(xù)多次觀察時,HMM中狀態(tài)頻次的概率表征是不恰當(dāng)?shù)?該概率會隨連續(xù)觀測頻次的增加呈指數(shù)級下降.例如,對第h個隱狀態(tài)連續(xù)觀測n次(即狀態(tài)時長)的概率為(1-ah,h) .為了解決這一問題,HSMM[40]對狀態(tài)觀測時長進行建模來取代HMM 中的狀態(tài)自循環(huán),其參數(shù)主要包括.這里c(si)表示隱狀態(tài)si出現(xiàn)時長的概率分布.
給定M條示教軌跡,可利用EM 對HMM 或HSMM 的參數(shù)進行優(yōu)化[41].以HMM 為例,即
在通過學(xué)習(xí)訓(xùn)練樣本獲得HMM 或HSMM 的參數(shù)之后,可以依據(jù)隱狀態(tài)的初始概率以及狀態(tài)之間的轉(zhuǎn)換概率生成隱狀態(tài)的序列,同時根據(jù)這些隱狀態(tài)對應(yīng)的觀測輸出概率生成新的軌跡.
HMM 或HSMM 的優(yōu)點在于可以同時學(xué)習(xí)多種類型的軌跡,而不需要預(yù)先對技能軌跡進行分類[42].然而,和GMM 類似,該類方法常用于技能復(fù)現(xiàn),不易于將訓(xùn)練軌跡泛化到新的情形.需要注意的是,當(dāng)HMM 或HSMM 用于軌跡規(guī)劃時,通常難以產(chǎn)生平滑的軌跡[43].因此,文獻[37] 通過加權(quán)最小二乘將多階軌跡(包括位置、速度和加速度)轉(zhuǎn)換為低階的位置軌跡.文獻[44]將HSMM和模型預(yù)測控制(Model predictive control,MPC)相結(jié)合來獲得連續(xù)的軌跡.
GP (文獻[45],第2.2 節(jié))是指一系列隨機變量的集合,其中任意有限個隨機變量的聯(lián)合概率服從高斯分布.特別地,給定訓(xùn)練數(shù)據(jù)集合,以及假設(shè)輸入s和其對應(yīng)的觀測輸出y∈R 之間存在某種函數(shù)關(guān)系y=f(s)+?,其中?~N(0,σ2) 表示方差為σ2的噪聲,那么給定新的測試輸入s*,其對應(yīng)的函數(shù)值f(s*)和訓(xùn)練樣本的輸出y=[y1y2···yN]T存在如下關(guān)系:
其中I是N維單位矩陣,
這里k(·,·) 表示核函數(shù),一個常見的例子是平方指數(shù)(Squared exponential,SE) 函數(shù)k(s*,sn)=.關(guān)于核函數(shù)的內(nèi)容可以參考文獻[46].
根據(jù)式(10)中的聯(lián)合概率分布和多變量高斯的條件概率分布,可獲得P(f(s*)|y),其均值和方差分別為(文獻[45],第2.2 節(jié)):
式(13)~ (14)僅針對訓(xùn)練樣本中輸出是一維的情形.對于多維輸出,可以分別對每個輸出變量利用GP 進行預(yù)測,也可以采用向量值(Vector valued)GP 以及可分離核函數(shù)(Separable kernels)[47].
作為典型的監(jiān)督學(xué)習(xí)算法,GP 可以通過學(xué)習(xí)示教軌跡實現(xiàn)運動技能的復(fù)現(xiàn).對于軌跡的自適應(yīng)問題,如機器人末端從A點出發(fā),在B點抓取一個物體并最終將物體放置到C點 (這里A,B,C點的位置均不同于示教軌跡),利用多變量高斯的后驗概率(Posterior)即能夠規(guī)劃新的滿足任務(wù)要求的軌跡.然而,如果利用GP 對位置和速度分別進行預(yù)測,則無法保證速度變量和位置變量之間的一階微分關(guān)系.目前基于GP 的模仿學(xué)習(xí)文獻常僅學(xué)習(xí)位置軌跡或忽略該微分約束,事實上該問題可以利用微分(Derivative) GP 解決[48].以時間輸入為例,在定義GP 的協(xié)方差時可利用
DMP[2]本質(zhì)上是從示教軌跡中學(xué)習(xí)位置和速度到加速度的映射函數(shù).對于機器人系統(tǒng),假設(shè)當(dāng)前時刻t的位置和速度是可觀測的,DMP能夠在線的計算期望的加速度,由此可獲得下一時刻的期望位置(即)和期望速度(即,其中δt表示機器人的伺服周期.隨著時間的增加即可完成軌跡的規(guī)劃任務(wù).同樣地,DMP 可以對關(guān)節(jié)軌跡、力和力矩軌跡等進行規(guī)劃.
給定一條長度為N的軌跡,DMP 使用如下模型對運動軌跡進行編碼(Encoding)[2]:
在式(15)中,α >0為常數(shù),τ為軌跡時長,z表示相位變量.該模型用來將時間信號t轉(zhuǎn)換成z.在式(16) 中,g ∈RO表示軌跡的目標(biāo)位置,Kp和Kv分別表示預(yù)先設(shè)定的對角的剛度和阻尼矩陣,f(z)∈RO為軌跡調(diào)整項.式(17)的fi(z)為f(z)的第i個分量的定義,其中wi,h為加權(quán)系數(shù),H為擬合f所需要的基函數(shù)(Basisfunction) 的數(shù)量,φi(z)=e-ai(z-ci)2表示基函數(shù),這里ai >0,ci ∈[0,1].gi和ξ0i分別對應(yīng)目標(biāo)位置g和初始位置ξ0的第i個分量.
在訓(xùn)練DMP 時可以對式(15)~ (16)進行離散化,即利用和,然后通過回歸算法(如最小二乘或局部加權(quán)回歸[49](Locally weighted regression,LWR))估計形狀參數(shù).在應(yīng)用DMP 進行泛化時,通過調(diào)整τ和g就能夠改變期望軌跡的時長(即運動的快慢)以及期望的目標(biāo)位置.
DMP 的主要優(yōu)點是可以從任意的起始點(Start-point)對軌跡進行規(guī)劃并收斂到任意的目標(biāo)點(End-point),而不需要其他的預(yù)處理,如文獻[5]需要將軌跡投影到局部坐標(biāo)系中.文獻[2]表明,當(dāng)運動時間趨于無窮時式(15) 中的z趨于零,這時式(16) 對應(yīng)的穩(wěn)定收斂點為:ξ=g以及0 .然而,在實際應(yīng)用中軌跡的期望時長τ通常是有限的,即當(dāng)t=τ時z仍大于 0,這時ξ和g仍會存在一定的誤差.
另外,由于DMP 收斂時的速度為零,導(dǎo)致其不適用于存在速度要求的任務(wù)(如打乒乓球機器人需要以某期望的速度擊球),而且DMP 無法生成經(jīng)過任意中間點(Via-point)的軌跡.Kober 等[50]對DMP 進行了改進,使其能夠以非零的速度到達收斂位置,然而仍未能處理期望中間點的問題.除此之外,DMP 需要預(yù)設(shè)置的參數(shù)較多,特別是基函數(shù)的選擇.為了避免基函數(shù)的問題,Fanger 等[51]利用GP 預(yù)測z對應(yīng)的f(z) .文獻[9,52]通過GMM和GMR 預(yù)測f(z) 在不同時刻的概率分布,從而實現(xiàn)DMP 框架下對多個示教軌跡的學(xué)習(xí).
最后,DMP 中的參數(shù)(即τ,g和W)可以利用強化學(xué)習(xí)對其進行優(yōu)化[53-56],但需要事先根據(jù)特定的任務(wù)設(shè)計合理的成本函數(shù).由于強化學(xué)習(xí)采用學(xué)習(xí)和探索(Exploitation and exploration)的方式,常常需要大量的迭代,特別是當(dāng)學(xué)習(xí)復(fù)雜軌跡時需要大量的基函數(shù)從而導(dǎo)致W的維度較大,故該思路不適用于實時的技能泛化.
SEDS[3]利用GMM和GMR 學(xué)習(xí)示教軌跡中位置ξ和速度的函數(shù)關(guān)系并通過(非線性) 優(yōu)化GMM 的參數(shù)來獲得穩(wěn)定的動態(tài)系統(tǒng).給定M條示教軌跡,可以依據(jù)式(1)估計,再用式(2) 計算,以及式(7)估計對應(yīng)的條件期望2將式(2)中的 s和ξ 分別用 ξ和進行替換即可.:
可進一步將式(18)變形為:
為了獲得穩(wěn)定的系統(tǒng),文獻[3]給出了系統(tǒng)穩(wěn)定的充分條件,即對于任意第c∈{1,2,···,C}個子系統(tǒng)均需要滿足:
其中,‘?0 ’ 表示矩陣的負定,ξ*為所有的子系統(tǒng)的收斂目標(biāo).通過非線性優(yōu)化器最大化示教軌跡的觀測概率并滿足上述穩(wěn)定性的充分條件,即可獲得最優(yōu)的GMM 參數(shù).
由于SEDS 將軌跡規(guī)劃問題轉(zhuǎn)化成穩(wěn)定的動態(tài)系統(tǒng)問題,其和DMP 一樣適用于將軌跡從任意的起點泛化到任意的目標(biāo)點.然而其和DMP 也有類似的局限性,即無法直接處理帶有速度或中間路徑點要求的泛化問題.另外,SEDS 可以學(xué)習(xí)多維度的軌跡ξ,但是如式(19)所示其僅適合學(xué)習(xí)ξ和之間的映射關(guān)系,而不適用于學(xué)習(xí)輸入為時間的軌跡或輸入和輸出對應(yīng)不同類型軌跡的情形(如在人機交互時輸入對應(yīng)人的雙手位置,輸出為機器人關(guān)節(jié)角度).
ProMP[4]應(yīng)用如下模型對示教軌跡進行擬合:
需要指出的是當(dāng)w的維度BO大于樣本數(shù)量M時,Σw為奇異陣,因此常需要引入附加的正則項,即Σw+λI.然而如果λ過小,在應(yīng)用高斯條件概率進行軌跡調(diào)整時,常會出現(xiàn)數(shù)值問題.如果λ過大,正則化后的方差則會高估多條軌跡之間的方差特征.
在獲得軌跡參數(shù)w的概率分布之后,針對技能的復(fù)現(xiàn)問題,可以直接利用μw或從N(μw,Σw) 采樣出w,相應(yīng)的復(fù)現(xiàn)軌跡可由式(22) 得到.針對軌跡的自適應(yīng)問題,可以利用條件高斯 (文獻[35],第2.3.1和2.3.3 節(jié))進行計算.假設(shè)泛化的軌跡需要在特定的時刻t*以期望的速度經(jīng)過期望的位置,并且假設(shè)期望點的協(xié)方差3該協(xié)方差可以控制自適應(yīng)軌跡經(jīng)過期望點 的誤差: 越小則誤差越小,反之則誤差變大.為,則調(diào)整后的軌跡參數(shù)的概率分布為[4]:
ProMP 可以同時對位置和速度軌跡進行學(xué)習(xí)和泛化,計算效率高,適用于在線規(guī)劃.ProMP和DMP 類似,兩者均用來學(xué)習(xí)時間驅(qū)動的軌跡(即軌跡的輸入為時間),且都需要事先指定用來擬合軌跡的基函數(shù)φ(t) .然而,對于高維輸入的情況,常常需要大量的基函數(shù)4根據(jù)文獻([35],第3.6 節(jié)),固定基函數(shù)的數(shù)量常隨輸入變量維度的增加呈指數(shù)級增加.,因此難以將ProMP 應(yīng)用于學(xué)習(xí)帶有多維輸入軌跡的情形.另外,ProMP 未考慮軌跡規(guī)劃中的外插問題(即待規(guī)劃軌跡從整體上偏離示教區(qū)域)[58].
KMP[6]從信息論的角度研究示教軌跡的模仿學(xué)習(xí)問題.給定M條示教軌跡{{sn,m,ξn,m},首先利用GMM 獲得P(s,ξ),然后從GMM 中采樣5關(guān)于從GMM 中采樣的方法可以參考文獻[59].N個可以表征輸入空間分布特征的參考輸入.應(yīng)用式(6)計算不同參考輸 入sn對應(yīng)輸出的概率分布,即,可得到參考軌跡.在獲得參考軌跡之后,KMP 采用如下參數(shù)化模型:
其中 Φ (s)=IO?φ(s)∈RBO×O,φ(s) 表示B維的基函數(shù)向量,w~N(μw,Σw) .這里μw和Σw未知.為了估計μw和Σw,KMP 對式(27)生成軌跡的概率分布和參考軌跡的概率分布之間的KL 散度進行最小化,即
對于技能的復(fù)現(xiàn)問題,可以直接應(yīng)用式(29)進行軌跡規(guī)劃.對于經(jīng)過期望路徑點的自適應(yīng)問題,如記M個期望點的集合為,其中和分別為第m個期望點的輸入、輸出的期望和協(xié)方差,可直接將該期望點集合和參考軌跡串聯(lián)成長度為N+M的軌跡6對于期望點輸入和參考軌跡存在重疊的情況,可參考文獻[6]中的軌跡更新策略.,這時應(yīng)用式(29)學(xué)習(xí)新的擴展軌跡即可獲得經(jīng)過所有期望路徑點的自適應(yīng)的軌跡.
除了學(xué)習(xí)帶有多維輸入的示教軌跡,作為KMP的一個特殊情況,KMP 也能夠?qū)W習(xí)時間驅(qū)動的軌跡,并同時對位置和速度進行泛化.和多維輸入情況相比,只需要用式(22)替換式(27),利用以及核函數(shù)φT(ti)φ(tj)=k(ti,tj) 即可.另外,文獻[6]引入了任務(wù)參數(shù)化的處理方式,使得KMP 能夠在遠離示教的區(qū)域處理外插問題.然而,KMP 未考慮軌跡中的動態(tài)問題,無法確保軌跡的收斂性.從計算效率上看,KMP和GP 的計算復(fù)雜度為 O (N3),當(dāng)參考軌跡長度特別大時,兩者均不適用于在線的自適應(yīng)問題.對于這種情形,可以利用近似方法提高學(xué)習(xí)效率,如投影過程近似(Projected process approximation)等(文獻[45],第8.3 節(jié)).
表1 對本節(jié)所討論的方法進行了總結(jié)(部分內(nèi)容來自文獻[6]),包括i) 技能復(fù)現(xiàn);ii) 學(xué)習(xí)多條示教軌跡的概率分布,包括期望和方差;iii)將示教軌跡調(diào)整到經(jīng)過任意的中間路徑點(位置和速度);iv)將示教軌跡泛化到任意的目標(biāo)點(位置和速度);v)整體偏離示教區(qū)域的泛化,即外插;vi) 軌跡隨時間的收斂性;vii) 學(xué)習(xí)帶有時間輸入的示教軌跡;viii)學(xué)習(xí)帶有多維動態(tài)輸入的示教軌跡.
在模仿學(xué)習(xí)的基本問題之外,本節(jié)將結(jié)合第2節(jié)中的方法對其他若干關(guān)鍵問題及相關(guān)文獻進行綜述.需要說明的是,本節(jié)中所討論的問題盡管在研究內(nèi)容上存在差異,但這些方法在實質(zhì)上均與軌跡規(guī)劃相關(guān).
3.1.1 姿態(tài)的學(xué)習(xí)
表1 中的方法可以學(xué)習(xí)無約束的軌跡,如機器人末端位置和速度、關(guān)節(jié)位置和速度、力和力矩軌跡等.然而在學(xué)習(xí)機器人末端姿態(tài)時,需要考慮相應(yīng)的姿態(tài)約束,如四元數(shù)(Quaternion)q∈S3需要滿足qTq=1,旋轉(zhuǎn)矩陣(Rotation matrix)R則需要為正交矩陣,即RTR=I.這里主要依據(jù)文獻[34]并以四元數(shù)姿態(tài)為例進行討論.
表1 幾種主要模仿學(xué)習(xí)方法的對比Table 1 Comparison among the state-of-the-art approaches in imitation learning
對于學(xué)習(xí)四元數(shù)姿態(tài)的問題,如果在 R3空間上對姿態(tài)的四個元素分別進行學(xué)習(xí)(如Pastor 等[62]利用DMP,Silverio 等[63]采用基于GMM[5]的方法) 則生成的姿態(tài)軌跡無法滿足單位范數(shù)的要求.為了滿足姿態(tài)約束,Ude 等[64]和Abu-Dakka 等[65]均利用四元數(shù)的幾何特性對DMP 進行擴展,其主要思路是將當(dāng)前姿態(tài)和目標(biāo)姿態(tài)的距離轉(zhuǎn)化到 R3空間,然后用變換后的距離替換式(16)中的位置距離g-ξ.Ravichandar 等[66]采用類似的處理方法將SEDS[3]應(yīng)用到姿態(tài)學(xué)習(xí)中,其中自治系統(tǒng)對應(yīng)的輸入為角速度和轉(zhuǎn)換到 R3的姿態(tài)距離,輸出為角加速度.這類基于動態(tài)模型的方法保留了原有方法的優(yōu)點和局限性,如可以朝著任意的目標(biāo)姿態(tài)進行泛化以及具有收斂性,然而其無法處理帶有角速度或中間路徑點要求的問題.
Zeestraten 等[67]從黎曼幾何(Riemannian manifold) 的角度研究多條姿態(tài)軌跡的概率分布,其主要依賴兩個映射:對數(shù)映射(Logarithmic map)和指數(shù)映射(Exponential map).前者可以將姿態(tài)投影到相應(yīng)的切空間(Tangent space),后者被用于從切空間中恢復(fù)姿態(tài).由于在概率建模時存在不同的切空間,文獻[67]利用平行遷移(Parallel transport)實現(xiàn)不同切空間中投影的遷移.另外,文獻[67]引入了任務(wù)參數(shù)化[5]的技巧,因此可應(yīng)用于目標(biāo)姿態(tài)的自適應(yīng)問題.然而,文獻[67]未考慮與角速度或中間路徑點相關(guān)的泛化問題.
Huang 等[30,34]采用文獻[64]中的空間變換方法,將KMP 擴展到姿態(tài)學(xué)習(xí)中.該方法除了可以處理姿態(tài)的中間路徑點和目標(biāo)點問題(包括姿態(tài)和角速度),也考慮了角加速度或角加加速度最小化的問題.另外,文獻[34]也適用于學(xué)習(xí)以及泛化帶有多維輸入的姿態(tài)軌跡.然而,文獻[34]的一個主要局限性在于其假設(shè)多條示教軌跡中的姿態(tài)在同一時刻應(yīng)處在 S3中的同一個半球面,因此不適用于多條姿態(tài)軌跡分布在不同半球面的情形.
上述所有方法的學(xué)習(xí)對象均為完整的姿態(tài)軌跡,而不涉及姿態(tài)軌跡的分割問題.與之不同的是,Saveriano 等[68]提出通過學(xué)習(xí)多個DMP 來處理中間路徑點的問題.以一個中間點為例,其思路為先應(yīng)用第一個DMP 生成一條從起始姿態(tài)到中間姿態(tài)的軌跡,而后用第二個DMP 生成從中間姿態(tài)到目標(biāo)姿態(tài)的軌跡.該方法的主要缺點是需要根據(jù)中間路徑點的數(shù)量對示教軌跡進行分割并分別用來訓(xùn)練不同的DMP,因此難以擴展到帶有任意多個(如大于1)中間路徑點的問題.另外對軌跡采取分段泛化的方式無法確保組合后的軌跡其在整體形狀上與示教軌跡的相似性.
表2 對本節(jié)中姿態(tài)學(xué)習(xí)的方法進行了總結(jié)(主要內(nèi)容來自文獻[34]),其中 “單位范數(shù)”是指生成的軌跡滿足qTq=1,“中間姿態(tài)”中的 “單個基元”是指單獨的運動基元能夠?qū)崿F(xiàn)中間姿態(tài)的泛化問題.
表2 幾種主要姿態(tài)學(xué)習(xí)方法的對比Table 2 Comparison among the state-of-the-art approaches in orientation learning
3.1.2 剛度矩陣的學(xué)習(xí)
對于剛度矩陣的學(xué)習(xí),可以采用和文獻[67]類似的基于黎曼幾何的方法,其主要步驟包括剛度矩陣和其切空間之間的映射以及利用遷移函數(shù)實現(xiàn)不同切空間中投影的遷移.Abu-Dakka 等[69]將該思路推廣到DMP 框架中,實現(xiàn)了DMP 對剛度矩陣的學(xué)習(xí),后又將其與KMP 進行結(jié)合[70],實現(xiàn)了剛度矩陣朝著任意期望剛度狀態(tài)的泛化.需要說明的是黎曼幾何方法可以學(xué)習(xí)任意的對稱正定矩陣(Symmetric positive definite,SPD),如剛度(Stiffness)和阻尼(Damping)矩陣.Calinon[71]對基于黎曼幾何的模仿學(xué)習(xí)方法進行了總結(jié).
學(xué)習(xí)剛度矩陣K的另一種方法是采用矩陣的Cholesky 分解[72],即K=LTL,將L中的元素串成向量l后,可直接對該向量進行概率建模和學(xué)習(xí),最后利用新生成的l可恢復(fù)L并計算出K.Wu 等[73]在學(xué)習(xí)人體手臂末端的剛度時采用該矩陣分解的方法.
在模仿學(xué)習(xí)中??紤]外在的附加變量以提高機器人的學(xué)習(xí)能力,包括任務(wù)變量(如被抓物體的位置)、環(huán)境變量(如障礙物的尺寸和位置)和軌跡類型變量等.以打乒乓球機器人為例,可以將來球狀態(tài)當(dāng)作任務(wù)變量,據(jù)此選擇恰當(dāng)?shù)膿舸騽幼?
Forte 等[74]研究了從任務(wù)變量預(yù)測DMP 參數(shù)的問題,其首先收集不同任務(wù)變量s下的運動軌跡,然后分別提取每個運動軌跡對應(yīng)的DMP 參數(shù),包括目標(biāo)位置g、運動時長τ和基函數(shù)加權(quán)系數(shù)W.在收集足夠的訓(xùn)練樣本之后,給定新的s*應(yīng)用GP預(yù)測其對應(yīng)的DMP 的參數(shù){g*,τ*,W*}.最后由式(15)~ (17)生成任務(wù)變量s*條件下的軌跡.類似地,Kramberger 等[75]利用LWR 對DMP 的模型參數(shù)進行預(yù)測,并將其應(yīng)用于末端位置和姿態(tài)的學(xué)習(xí)之中.和文獻[74-75]不同,文獻[76]和[31]在DMP的軌跡調(diào)整項fi(z) (即式(17))中分別顯性地引入任務(wù)變量和表示軌跡類型(Style)的變量s.這時fi(z) 變成fi(z,s) .Colome 等[13]將ProMP 中的參數(shù)w降維成,然后用GMM和GMR 預(yù)測7在預(yù)測之前需要獲得足夠多的訓(xùn)練樣本對 {s,} .新的s*對應(yīng)的,繼而用其恢復(fù)w來生成新的軌跡(利用式(22)).上述方法的主要不足在于需要充分多的訓(xùn)練樣本,在小樣本情況下難以進行較大范圍的泛化.
Calinon 等[5,37]對GMM 進行擴展,提出了TP-GMM,其核心是針對不同的任務(wù)參數(shù)設(shè)計恰當(dāng)?shù)木植孔鴺?biāo)系,然后將示教軌跡投影到各個局部坐標(biāo)系中用來學(xué)習(xí)其相對的運動特征.如抓取任務(wù),這里以一個局部坐標(biāo)系為例,可以將局部坐標(biāo)系設(shè)置在目標(biāo)物體上,從而能夠?qū)W習(xí)機器人末端和物體之間相對距離隨時間變化的特征.當(dāng)抓取其他位置的新物體時,可將上述得到的相對距離看作是機器人和新物體之間的距離,最后將該相對距離轉(zhuǎn)換到機器人的坐標(biāo)系中獲得絕對位置.Silverio 等[63]將TPGMM 推廣到四元數(shù)姿態(tài)的學(xué)習(xí)中,然而該方法未考慮姿態(tài)的單位范數(shù)約束.TP-GMM 中任務(wù)參數(shù)化的處理方法也被應(yīng)用于文獻[6,67]之中.
TP-GMM 存在的一個主要的問題是:難以事先根據(jù)機器人的任務(wù)指定最優(yōu)的局部坐標(biāo)系,如根據(jù)抓取物體的位置可知局部坐標(biāo)系的原點,然而該坐標(biāo)系的最優(yōu)姿態(tài)是未知的.因此,文獻[77]應(yīng)用強化學(xué)習(xí)對局部坐標(biāo)系進行優(yōu)化(包括旋轉(zhuǎn)和平移),且證明了對低維度坐標(biāo)系參數(shù)的優(yōu)化可以轉(zhuǎn)換為對于高維度GMM 參數(shù)的優(yōu)化.
TP-GMM 可以通過學(xué)習(xí)少量的樣本實現(xiàn)較大范圍的泛化,然而其一般僅用于學(xué)習(xí)機器人任務(wù)空間的軌跡,難以擴展到機器人關(guān)節(jié)空間中.另外,對不同局部坐標(biāo)系中的軌跡進行高斯相乘(Gaussian product)的處理方式無法保證生成軌跡的平滑性(特別是位置軌跡對應(yīng)的速度)以及泛化精度(即和期望的目標(biāo)位置常常存在一定的誤差).表1 對TPGMM的特征進行了總結(jié).
3.3.1 運動基元的提取和串聯(lián)
軌跡分割(Segmentation)問題是指從一個完整的軌跡中提取出一系列的基本運動單元,也稱運動基元(Movement primitive,MP),所獲得的MP通過恰當(dāng)?shù)拇?lián)(Sequence)可以用于技能的復(fù)現(xiàn)和泛化.以機器人打開冰箱取牛奶為例,一個完整的動作包括機器人打開冰箱、抓取牛奶以及關(guān)門等對應(yīng)不同子任務(wù)的動作,其中每一個動作或子任務(wù)實質(zhì)上對應(yīng)一個MP.從該完整動作中提取出的MP 經(jīng)過合理的串聯(lián)和泛化即可應(yīng)用到類似的序列任務(wù)的場景中.
針對序列任務(wù)軌跡的分割,近年來被廣泛采用的一種方法是HMM.Kulic 等[78]應(yīng)用HMM 對示教軌跡進行分割、聚類以及MP 的建模,然后通過構(gòu)建MP 之間的概率轉(zhuǎn)移圖實現(xiàn)不同MP 之間的轉(zhuǎn)換,最終形成由多個MP 串聯(lián)而成的軌跡.Manschitz 等[79]假設(shè)所有的MP 均由具有收斂特性的二階動態(tài)系統(tǒng)表征,其首先通過軌跡中的運動特征[80](如速度的停頓、接觸力的出現(xiàn)和消失等作為軌跡分割點)對軌跡進行初步分割8分割后的軌跡片段一般不等同于MP,常常不同的軌跡片段可能對應(yīng)相同的MP,因此需要對軌跡片段進行聚類.,后在應(yīng)用HMM 提取MP 時(分割后的軌跡片段對應(yīng)觀測值,隱狀態(tài)對應(yīng)MP),利用有向正態(tài)分布(Directional normal distribution,DND)對隱狀態(tài)的輸出觀測概率分布進行建模并依據(jù)BIC 選擇最優(yōu)的隱狀態(tài)(即MP)的數(shù)量,其中DND 同時考慮了軌跡的位置和速度向量,因此可以將MP 的收斂假設(shè)和軌跡片段的聚類相結(jié)合.
和文獻[79]類似,Medina 等[81]在考慮多MP序列問題時,也假設(shè)了MP 的收斂特性.兩者的主要區(qū)別是文獻[81]中HMM 隱狀態(tài)的輸出觀測為變參數(shù)的動態(tài)系統(tǒng).另外,文獻[81]顯性地引入判斷MP 終止的二進制變量,而文獻[79]則采用分類器對MP 的轉(zhuǎn)換進行預(yù)測.
目前針對序列任務(wù)學(xué)習(xí)的方法主要側(cè)重于對MP 的提取和串聯(lián),未充分研究序列任務(wù)中單獨MP的泛化(如MP 的形狀和運動時長等).文獻[79]通過在目標(biāo)物體上定義局部坐標(biāo)系來學(xué)習(xí)機器人和物體之間的相對位置,可以實現(xiàn)一定程度的泛化,卻難以應(yīng)用于涉及運動速度、時長和軌跡形狀等要求的場景.除了HMM,其他的軌跡分割方法還包括如基于MP 庫匹配的方法[82]和GMM[83]等.
與從序列任務(wù)的軌跡中提取MP 不同,Pastor 等[62]研究在給定多個MP 的情況下對MP 進行串聯(lián)的銜接點平滑問題,其中MP 為DMP.Stulp等[84]應(yīng)用強化學(xué)習(xí)對多個串聯(lián)DMP 的參數(shù)進行優(yōu)化,并提出了分層定義誤差函數(shù)的方法,其中對于任意一個DMP,其形狀參數(shù)W的誤差函數(shù)僅由該DMP 生成的軌跡決定,而其目標(biāo)點g的誤差函數(shù)則由該DMP 以及后續(xù)DMP 共同決定.Daniel 等[85]采用分層強化學(xué)習(xí)的方法對序列任務(wù)中MP 的順序以及各個MP 的參數(shù)進行優(yōu)化.與文獻[84] 相比,文獻[85]不需要事先指定MP 的順序,然而兩者均需要指定MP 的數(shù)量以及定義合理的獎勵函數(shù).需要強調(diào)的是,當(dāng)機器人任務(wù)需要多個MP 串聯(lián)時基于強化學(xué)習(xí)的方法通常需要大量的訓(xùn)練,特別是在未指定MP 順序以及MP 作用下任務(wù)狀態(tài)轉(zhuǎn)移概率未知的情況.
3.3.2 運動基元的疊加
在對MP 進行串聯(lián)之外,還可以對多個MP 進行疊加(Superposition),如ProMP[4]和KMP[6]通過高斯概率的特性直接對MP 進行疊加.Duan等[86]針對不同的任務(wù)軌跡設(shè)計相應(yīng)的激活函數(shù),該函數(shù)實質(zhì)上是通過調(diào)整不同軌跡的方差來實現(xiàn)多條軌跡間的切換.Silverio 等[87]針對關(guān)節(jié)空間軌跡、任務(wù)空間軌跡和末端交互力分別設(shè)計力矩控制器,其中不同的控制器可以看作是表示不同任務(wù)的MP,最后通過高斯乘積可以將不同的控制器合并成一個最終的力矩控制器.實際上,對于第3.2 節(jié)中討論的TP-GMM,如果將不同局部坐標(biāo)系內(nèi)的軌跡分布看作是MP,也可以將其理解為多個MP 的疊加.
3.4.1 多維軌跡的協(xié)同問題
模仿學(xué)習(xí)中的一個重要特點是學(xué)習(xí)多維軌跡的協(xié)同(Synergy),又稱作協(xié)調(diào)(Coordination).以機器人和人類握手為例[9],一個自然的握手動作主要依賴胳膊的肘關(guān)節(jié)和腕關(guān)節(jié),并適當(dāng)?shù)卣{(diào)動其他的關(guān)節(jié).如果對機器人手臂的關(guān)節(jié)分別進行軌跡規(guī)劃是可以實現(xiàn)末端的握手動作,然而整個機器人手臂在握手過程中的姿勢可能是不恰當(dāng)?shù)?特別是當(dāng)握手的位置和頻率發(fā)生改變時,不同的關(guān)節(jié)需要在協(xié)同的情況下進行調(diào)整.另一個例子是兩個機械手臂的協(xié)同作業(yè)[63],當(dāng)一只手臂受到干擾時另一只手臂也應(yīng)該產(chǎn)生相應(yīng)的調(diào)整,而非獨立的對兩只機械手臂進行軌跡規(guī)劃.
對于多維軌跡的協(xié)同問題,可以采用對其概率分布進行建模的方法獲得軌跡中的協(xié)方差,如第2節(jié)中基于概率的方法9向量值GP 通過恰當(dāng)?shù)目煞蛛x核函數(shù)可以表征多維軌跡之間的協(xié)同關(guān)系,然而其未考慮軌跡本身的方差,故這里未將其包括在內(nèi).GMM,HMM/HSMM,ProMP和KMP.該協(xié)方差即可表征軌跡中的協(xié)同關(guān)系.同時,協(xié)方差也包含軌跡中不同維度的方差信息(可以理解為多條軌跡之間的變化幅度).以兩維變量的高斯分布為例,其均值為 2×1 的向量而協(xié)方差為 2×2 的矩陣,如果協(xié)方差矩陣的非對角元素均為0,則表明兩個變量是獨立的,否則變量間存在協(xié)同關(guān)系,注意這里協(xié)方差矩陣對角線上的元素分別表示兩個變量的方差.另外,在學(xué)習(xí)多個示教軌跡時,常直接將軌跡點對應(yīng)的協(xié)方差矩陣當(dāng)做判斷其重要性的一個依據(jù),即軌跡點的協(xié)方差和其重要性相反,如文獻[7]利用協(xié)方差計算軌跡之間的相似度.
3.4.2 不確定性預(yù)測的問題
不確定性(Uncertainty)是用來度量模仿學(xué)習(xí)生成軌跡的可信度.以文獻[21]中人機協(xié)同的任務(wù)為例,其中操作者的手部位置是機器人運動的控制輸入.當(dāng)人類在示教區(qū)域內(nèi)時,依據(jù)人的手部位置而預(yù)測得到的期望的機器人軌跡是可信的,因此該軌跡的不確定性較低.當(dāng)人類遠離示教的工作區(qū)域時,其對應(yīng)的預(yù)測軌跡是不可信的,因此該軌跡的不確定性較高.對于不確定性的預(yù)測,可以應(yīng)用GP和KMP.
另外,模仿學(xué)習(xí)中還存在一些能夠同時預(yù)測軌跡協(xié)方差和不確定性的方法.這類方法同時考慮如下兩種情況:i) 當(dāng)輸入在示教區(qū)域內(nèi)時,預(yù)測的協(xié)方差能夠?qū)?yīng)示教軌跡之間的關(guān)聯(lián)和變化程度;ii)當(dāng)輸入遠離示教區(qū)域時,預(yù)測的協(xié)方差10這里使用 “協(xié)方差”是為了表明i)和ii)使用相同的預(yù)測模型.則對應(yīng)預(yù)測軌跡的不確定性.Schneider 等[88]在HGP[61]的框架下通過優(yōu)化不同輸入對應(yīng)的噪聲方差實現(xiàn)對軌跡方差的學(xué)習(xí),同時該方法也可以提供不確定性的預(yù)測.然而文獻[88]未考慮多維軌跡之間的協(xié)同問題.Umlauft 等[89]利用多個GP 預(yù)測的均值構(gòu)建Wishart 過程[90]從而實現(xiàn)對協(xié)方差和不確定性的預(yù)測,其中涉及的所有GP 的參數(shù)以及其他參數(shù)可通過數(shù)值優(yōu)化求解MLE 獲得.Silverio 等[21]證明了KMP也可以同時對協(xié)方差和不確定性進行預(yù)測.
值得一提的是,文獻[89]中控制機器人軌跡跟蹤的剛度矩陣是根據(jù)協(xié)方差來定義的.在上述的兩類情況i)和ii)中,只有當(dāng)輸入在訓(xùn)練區(qū)域內(nèi)并且當(dāng)示教軌跡的協(xié)方差小時,預(yù)測輸出的協(xié)方差才會很小;否則,預(yù)測的協(xié)方差則很大.因此,文獻[89]將剛度矩陣的特征值和預(yù)測協(xié)方差的特征值在大小上設(shè)置成反比關(guān)系.文獻[21]將KMP 預(yù)測的協(xié)方差和線性二次型調(diào)節(jié)器(Linear quadratic regulator,LQR)相結(jié)合,其中預(yù)測協(xié)方差的逆矩陣被當(dāng)作LQR 中跟蹤誤差的加權(quán)矩陣,實現(xiàn)了變剛度和變阻尼的控制.和文獻[21]類似的將協(xié)方差與控制器相結(jié)合的工作11這些工作中對應(yīng)的控制器被稱作最小干涉控制(Minimal intervention control).還有文獻[5,44,91-92],然而文獻[5,44,91-92]中的協(xié)方差只針對情況i)而不包括不確定性的預(yù)測.
混合空間下的模仿學(xué)習(xí)是指機器人同時在任務(wù)空間和關(guān)節(jié)空間進行模仿學(xué)習(xí),其可以應(yīng)用于需要同時考慮末端任務(wù)和關(guān)節(jié)姿態(tài)的場景.以機器人在黑板上進行書寫為例,機器人末端的軌跡對完成書寫任務(wù)是至關(guān)重要的,但同時機器人的關(guān)節(jié)軌跡可以確保機器人在書寫過程中的姿勢是自然的、合理的.
與單空間(任務(wù)或關(guān)節(jié)空間)的模仿學(xué)習(xí)相比,混合模仿學(xué)習(xí)需要考慮機器人關(guān)節(jié)軌跡和末端軌跡之間的正向運動學(xué)(Forward kinematics)約束.文獻[93]分別對示教的末端位置軌跡ξp和關(guān)節(jié)角度軌跡ξq用GMM 進行建模,后用GMR 獲得兩種軌跡隨時間變化的概率分布,即和.通過基于雅克比(Jacobian)矩陣的逆運動學(xué)(Inverse kinematics),將末端軌跡的概率分布轉(zhuǎn)換到關(guān)節(jié)空間,得到,最后將和進行高斯相乘即可獲得最終用于機器人控制的關(guān)節(jié)軌跡.注意在對任務(wù)空間軌跡進行概率建模時,文獻[93]將任務(wù)空間的軌跡轉(zhuǎn)化成相對于物體的相對距離軌跡,該處理方式和TP-GMM 中的任務(wù)參數(shù)法方法在實質(zhì)上是相同的.Schneider 等[88]采用同樣的方法處理混合空間的學(xué)習(xí)問題,區(qū)別是將文獻[93]中的GMM和GMR 替換成HGP 方法[61].
除了對兩個空間中的末端位置和關(guān)節(jié)角度軌跡進行學(xué)習(xí),Calinon 等[94]研究了雙空間中速度軌跡(即和)的模仿學(xué)習(xí),其在統(tǒng)一雙空間速度軌跡時和文獻[93]類似,亦采用雅克比矩陣的逆矩陣將任務(wù)空間的速度轉(zhuǎn)換到關(guān)節(jié)空間.Paraschos等[95]采用ProMP 對雙空間中的加速度軌跡(即和) 進行規(guī)劃,然后將關(guān)節(jié)加速度的概率當(dāng)作先驗概率(Prior),并利用雅克比矩陣得到似然概率,最后將ProMP 生成的當(dāng)作觀測值并應(yīng)用條件高斯獲得關(guān)節(jié)加速度的后驗概率
上述方法僅考慮任務(wù)空間的泛化問題,忽視了關(guān)節(jié)軌跡的調(diào)整.如文獻[9]指出,當(dāng)泛化后機器人的末端軌跡遠離示教區(qū)域時,直接應(yīng)用示教的關(guān)節(jié)軌跡可能是不合理的.因此,文獻[9]在DMP 的框架下研究了任務(wù)空間和關(guān)節(jié)空間同時泛化的問題,其主要通過優(yōu)化機器人雅克比矩陣對應(yīng)的零空間(Null space)運動獲得關(guān)節(jié)的最優(yōu)目標(biāo)位置,并最小化泛化后關(guān)節(jié)軌跡和末端軌跡的不一致性.該方法繼承了DMP 的局限性,無法處理帶有速度或中間路徑點要求的問題.
3.6.1 帶有約束的運動基元
在實際機器人系統(tǒng)中經(jīng)常存在各種各樣的約束,如機器人關(guān)節(jié)角度、力矩和末端運動范圍的限制以及避障等.在應(yīng)用模仿學(xué)習(xí)進行軌跡規(guī)劃時需要將限制運動的約束因素考慮進去.
針對避障問題,Ijspeert 等[2]提出在DMP 的動態(tài)模型中(即式(16))增加修正量的方法,該修正量[96]可根據(jù)機器人和障礙物之間的距離以及機器人的速度對機器人的期望加速度進行實時調(diào)整.增加修正量的方法也被文獻[97-98]所采用.文獻[9]利用強化學(xué)習(xí)對TP-GMM 中的局部坐標(biāo)系進行優(yōu)化從而實現(xiàn)避障.然而文獻[2,9,97-98]僅適用于機器人末端的避障問題,未考慮機器人關(guān)節(jié)和障礙物的碰撞問題.文獻[99]利用DMP 在任務(wù)空間進行規(guī)劃獲得期望的末端速度,后采用文獻[100]中調(diào)整雅克比矩陣零空間軌跡的方法實現(xiàn)關(guān)節(jié)空間的避障.
Shyam 等[101]采用和文獻[102] (即Covariant hamiltonian optimization for motion planning,CHOMP)相同的避障函數(shù),利用梯度下降(Gradient descent)的方法對ProMP 的參數(shù)進行迭代優(yōu)化,其中在計算避障函數(shù)時將機器人關(guān)節(jié)之間的連桿用一系列的球體(Body point)表示,然后評估這些球體到障礙物的距離[102].因此文獻[101]可以處理關(guān)節(jié)空間避障的問題.注意文獻[102]對軌跡優(yōu)化時直接將軌跡當(dāng)做一個未知的函數(shù),采用泛函梯度(Functional gradient)的方法計算避障函數(shù)對軌跡函數(shù)的導(dǎo)數(shù)12利用泛函梯度得到的導(dǎo)數(shù)為函數(shù),該導(dǎo)數(shù)用來對函數(shù)本身進行優(yōu)化.,而文獻[101]中的梯度為避障函數(shù)對軌跡參數(shù)的導(dǎo)數(shù),故其利用求導(dǎo)的鏈?zhǔn)椒▌t加入軌跡函數(shù)對軌跡參數(shù)的導(dǎo)數(shù).該方法的局限性是在針對避障的優(yōu)化后,新的軌跡參數(shù)可能無法嚴格滿足優(yōu)化前的泛化要求.
Huang 等[103]在KMP 的框架下研究帶有線性約束的模仿學(xué)習(xí)問題,該方法可以處理任意關(guān)于位置和速度的線性等式和不等式約束(如平面約束、關(guān)節(jié)角度限制以及機器人末端運動范圍的約束等),并且能夠在滿足約束的情況下對軌跡進行泛化,如在期望的時刻以期望的速度經(jīng)過期望的位置.然而該方法未考慮非線性約束.Saveriano 等[104]將軌跡的不等式約束當(dāng)作零障礙函數(shù)(Zeroing barrier function),通過設(shè)計恰當(dāng)?shù)目刂戚斎胧沟靡浑A動態(tài)系統(tǒng)生成的軌跡滿足約束條件.文獻[103-104]均未考慮避障問題.值得一提的是文獻[105]近來對KMP進行了擴展,該方法能夠處理帶有線性和非線性、等式和不等式約束的模仿學(xué)習(xí)問題,且可以同時考慮機器人關(guān)節(jié)的避障問題.
3.6.2 帶有約束的軌跡序列的優(yōu)化
如果將軌跡看作N個離散點{q1,q2,···,qN}(如等時間間隔的關(guān)節(jié)軌跡點),可以直接對由離散點串聯(lián)而成的向量進行優(yōu)化.Osa等[106]利用泛函梯度[102]對機器人的關(guān)節(jié)軌跡進行優(yōu)化,同時考慮關(guān)節(jié)避障問題以及關(guān)節(jié)軌跡對應(yīng)的末端軌跡與示教末端軌跡的匹配問題,并且給出通過條件概率對示教的末端軌跡進行泛化的方法.該文中末端軌跡的泛化精度依賴示教軌跡和環(huán)境變量組成的樣本對的數(shù)量.另外,如文獻[107]指出,在對離散軌跡進行基于梯度下降的迭代時,通常需要選擇很小的步長來確保迭代過程中軌跡的平滑性(Smoothness),因此會增加迭代的次數(shù).
Rana 等[108]假設(shè)軌跡是由時變的隨機微分方程生成,然后可獲得由高斯分布表示的微分方程的解,即ζ~N(μζ,Σζ),通過將避障以及期望起始點對應(yīng)的具有最小二乘形式的目標(biāo)函數(shù)f(ζ) 與其進行合并,得到非線性優(yōu)化目標(biāo)函數(shù)(ζ-μζ)+f(ζ) .文獻[108]未考慮軌跡的平滑性問題,而且難以確保軌跡在優(yōu)化過程中位置和速度的微分關(guān)系.
Koert 等[109]對于機器人末端避障的問題先通過強化學(xué)習(xí)獲得無碰撞(Collision-free)軌跡的概率分布,然后將該概率分布用來訓(xùn)練ProMP,繼而實現(xiàn)避障和軌跡泛化.該方法的主要局限性是當(dāng)障礙物位置發(fā)生變化時需要重新應(yīng)用強化學(xué)習(xí)獲得新的無碰撞軌跡的概率分布,不適用于需要快速規(guī)劃的場合.Ye 等[110]結(jié)合模仿學(xué)習(xí)和基于采樣的方法,其將模仿學(xué)習(xí)生成軌跡當(dāng)作參考軌跡,在障礙物附近利用采樣生成的無碰撞的位置點構(gòu)建路徑圖(Graph),最后用Dijkstra 算法尋找最優(yōu)的可行路徑.該方法可以有效地實現(xiàn)關(guān)節(jié)空間的避障,其局限性在于未能考慮軌跡在避障時的平滑性且難以擴展到帶有速度要求的問題.
文獻[111-112]采用逆最優(yōu)控制(Inverse optimal control,IOC)的思路,先優(yōu)化示教軌跡對應(yīng)的成本函數(shù)(Cost function)的參數(shù),后根據(jù)該函數(shù)采用受限優(yōu)化技術(shù)對整個軌跡序列ζ進行優(yōu)化,其中文獻[111]利用逆KKT (Karush-Kuhn-Tucker)方法而文獻[112] 則利用協(xié)方差矩陣自適應(yīng)進化策略[113](即Covariance matrix adaptation evolution strategy,CMA-ES)對成本函數(shù)的參數(shù)進行優(yōu)化.這類方法可以考慮復(fù)雜的軌跡約束,然而難以對軌跡進行實時的調(diào)整且不易于確保軌跡的平滑性,特別是軌跡對應(yīng)的高階微分軌跡.
當(dāng)模仿學(xué)習(xí)用于人機交互(Human-robot interaction)時需要考慮人類和機器人之間的時間同步(Synchronization)問題.以人類和機器人協(xié)同搬運物品為例,機器人需要根據(jù)人的狀態(tài)(如位置)的變化作出合理的反應(yīng),比如當(dāng)人的移動速度變快(或慢)時機器人也應(yīng)當(dāng)適當(dāng)?shù)丶涌?或減慢)速度,從而實現(xiàn)友好的交互環(huán)境.
為了避免時間同步問題,Ewerton 等[114]假設(shè)在人機交互中人類的運動時長和訓(xùn)練樣本中的時長是一樣的.然而正如文獻[20]指出,該假設(shè)在實際中是難以成立的.因此Maeda 等[20]提出在ProMP 中加入時間同步的方法,其將人的運動軌跡和機器人的軌跡合并成更高維度的軌跡,然后用式 (23)~(24) 獲得合成軌跡對應(yīng)的參數(shù)w的高斯分布.該分布可以看作是人類運動軌跡參數(shù)wh和機器人運動軌跡參數(shù)wr的聯(lián)合概率分布.在人機交互時,將人的軌跡實時的當(dāng)作觀測值并利用式(25)~ (26)可對w進行更新13該更新同時也需要機器人的觀測軌跡,然而該軌跡恰是需要預(yù)測的,因此文獻[20]在更新 w 時將機器人的觀測值設(shè)成零向量,同時將擬合機器人軌跡的基函數(shù)設(shè)成零矩陣.,這時w中的wr即可用來生成機器人的軌跡.最后,文獻[20]給出依據(jù)人的運動軌跡實時調(diào)整機器人運動時長的方法.和文獻[20]類似,Amor 等[115]利用DMP 分別對人類和機器人的軌跡進行學(xué)習(xí),并且給出人和機器人在時間上同步的方法.其他需要時間同步的工作還包括應(yīng)用HMM 的方法[116].
如文獻[34]中的分析,上述方法在對人和機器人的軌跡進行建模時均采用時間作為軌跡的輸入,未能直接考慮人和機器人之間的協(xié)調(diào)關(guān)系,故在預(yù)測機器人軌跡的同時需要附加的人機同步(即在時間上)的處理.由于KMP 可以學(xué)習(xí)帶有多維輸入的運動軌跡,Huang 等[6]應(yīng)用KMP 直接根據(jù)人類的運動狀態(tài)(即輸入)對機器人的軌跡(即輸出)進行預(yù)測,后又將其推廣到人機交互中機器人的姿態(tài)預(yù)測[34],由于預(yù)測過程中不涉及時間,避免了文獻[20,114-116]中的時間同步問題.類似地,Silverio 等[117]研究利用GP 實現(xiàn)人機交互的問題,然而該方法未考慮多維軌跡的協(xié)方差以及軌跡泛化問題.另外,基于動態(tài)系統(tǒng)的方法由于其直接對軌跡及其高階微分進行學(xué)習(xí)[3,118],也能夠避免人機交互中的時間同步問題.
本節(jié)對模仿學(xué)習(xí)的一些未來發(fā)展趨勢進行討論和展望,包括從軌跡規(guī)劃的角度對模仿學(xué)習(xí)進行改進、結(jié)合任務(wù)分解和交互式反饋的模仿學(xué)習(xí)以及學(xué)習(xí)人類與環(huán)境交互過程中的因果關(guān)系.
在模仿學(xué)習(xí)之外,軌跡規(guī)劃(Motion planning)領(lǐng)域存在著大量的關(guān)于軌跡或路徑規(guī)劃的算法,如第3.6.1 節(jié)中提及的CHOMP,還有其他基于優(yōu)化的方法包括隨機軌跡優(yōu)化[119](Stochastic trajectory optimization for motion planning,STOMP),基于序列凸優(yōu)化的TrajOpt 算法[120]和隨機多模態(tài)軌跡優(yōu)化[121](Stochastic multimodal trajectory optimization,SMTO)等,以及基于采樣的方法包括快速擴展隨機樹[122](Rapidly-exploring random trees,RRT)和概率路線圖[123-124](Probabilistic roadmap,PRM)等.模仿學(xué)習(xí)和這些方法的最大區(qū)別在于前者主要通過學(xué)習(xí)人類的示教軌跡達到模仿的效果,而后者主要側(cè)重快速的尋找滿足任務(wù)或環(huán)境約束的可行軌跡.目前相關(guān)的研究如第3.6.2 節(jié)提及的文獻[106,110]可以看作是模仿學(xué)習(xí)和運動規(guī)劃的結(jié)合,然而兩者在軌跡泛化以及復(fù)雜約束的情況下仍存在著很大的局限性.因此如何將不同的軌跡規(guī)劃算法和模仿學(xué)習(xí)進行有機的結(jié)合是未來研究的一個重要方向.
當(dāng)面對復(fù)雜任務(wù)時,人類可以直接地將其分解成一系列可行的子任務(wù),并且能夠合理地分配各個子任務(wù)的難度以及子任務(wù)之間的協(xié)調(diào).對于機器人而言,如何從MP 庫中選擇恰當(dāng)?shù)腗P 以及對多個MP 進行合理的串聯(lián)是十分重要的.如果采用強化學(xué)習(xí)的方法解決該問題,則機器人將過于依賴與環(huán)境的交互且隨著MP 數(shù)量的增加其需要的訓(xùn)練次數(shù)也會顯著地增加.如果采用從示教軌跡中學(xué)習(xí)MP 序列的方法(如文獻[79]),則只適用于和示教場景類似的情況,無法泛化到更一般的未知問題.因此研究人類對于不同任務(wù)或動作的分解和組合策略是模仿學(xué)習(xí)發(fā)展的另一個重要方向.
另外,當(dāng)MP 庫中的所有MP 均無法或難以實現(xiàn)某個子任務(wù)時,如MP 庫中的運動均為簡單的點到點的運動而對于握手任務(wù)則需要周期運動,如何引入人類的交互式反饋也是未來的一個重要研究方向.目前已存在一些關(guān)于交互式學(xué)習(xí)的工作.如文獻[6]在KMP 的框架下提出基于人機交互力的軌跡自適應(yīng)的方法.文獻[125]研究通過人類的反饋對軌跡進行調(diào)整.文獻[126]利用GP 預(yù)測的不確定性來判斷是否需要人類提供新的示教樣本.然而文獻[6,125-126]均限于單獨MP 且應(yīng)用對象僅為簡單的任務(wù)(如避障[6]、寫字母[125]和觸碰動作[126]),未涉及復(fù)雜任務(wù)的分解以及多MP 的問題.
對于人類技能的模仿學(xué)習(xí)除了學(xué)習(xí)軌跡本身還應(yīng)考慮示教過程中蘊含的因果關(guān)系.該關(guān)系可以認為是在抽象的層次對人類技能進行理解.針對該問題,可以采用因果推理(Causal inference)[127]提取觀測變量間的因果關(guān)系和因果強度.相關(guān)的研究如文獻[128],其首先分析人類在對物體進行操作時意圖之間的因果關(guān)系,后將提取出的因果關(guān)系應(yīng)用于新任務(wù)的泛化.另外,如文獻[129]中的討論,在模仿學(xué)習(xí)中常常存在一些與人類行為決策無關(guān)的狀態(tài),如果將這些狀態(tài)應(yīng)用于模仿學(xué)習(xí)將不利于技能的泛化,而通過引入干涉(Intervention)的方法提取狀態(tài)和行為之間正確的因果關(guān)系能夠提高模仿學(xué)習(xí)的性能.因此,結(jié)合因果推理將是模仿學(xué)習(xí)研究的又一個重要趨勢.
本文介紹了模仿學(xué)習(xí)中的基本問題和主要方法,并對其中各種方法的優(yōu)點和局限性進行了討論和比較.在這些方法的基礎(chǔ)上,本文討論了模仿學(xué)習(xí)中存在的若干關(guān)鍵問題.另外,本文探討了未來可能的發(fā)展方向.需要強調(diào)的是,在實際機器人系統(tǒng)中模仿學(xué)習(xí)常和其他的算法緊密相連,如文中提及的應(yīng)用強化學(xué)習(xí)對運動基元進行優(yōu)化、泛函梯度或隨機采樣和模仿學(xué)習(xí)相結(jié)合實現(xiàn)避障以及基于軌跡概率分布設(shè)計控制器等,因此文中并未做嚴格區(qū)分.