?
未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制研究的若干問(wèn)題?
蔡自興1,賀漢根2,陳虹3
(1. 中南大學(xué)信息科學(xué)與工程學(xué)院,湖南長(zhǎng)沙 410083;
2. 國(guó)防科技大學(xué)機(jī)電工程與自動(dòng)化學(xué)院,湖南長(zhǎng)沙 410073;
3. 吉林大學(xué)控制科學(xué)與工程系,吉林長(zhǎng)春 130025)
摘編自《控制與決策》2012年第4期:385~390,464頁(yè),圖、表、參考文獻(xiàn)已省略。
智能移動(dòng)機(jī)器人是一類(lèi)能夠通過(guò)傳感器感知環(huán)境和自身狀態(tài),實(shí)現(xiàn)在有障礙物的環(huán)境中面向目標(biāo)的自主運(yùn)動(dòng)(稱(chēng)為導(dǎo)航),從而完成一定作業(yè)功能的機(jī)器人系統(tǒng)。
隨著科學(xué)技術(shù)的發(fā)展,人類(lèi)的研究和活動(dòng)領(lǐng)域已由陸地?cái)U(kuò)展到海底和空間。利用移動(dòng)機(jī)器人進(jìn)行空間探測(cè)和開(kāi)發(fā),已成為21世紀(jì)世界各主要科技發(fā)達(dá)國(guó)家開(kāi)發(fā)空間資源的主要手段之一。研究和發(fā)展月球探測(cè)移動(dòng)機(jī)器人技術(shù),對(duì)包括移動(dòng)機(jī)器人導(dǎo)航控制在內(nèi)的相關(guān)前沿技術(shù)的研究將產(chǎn)生巨大的推動(dòng)作用。移動(dòng)機(jī)器人在月球和火星等外星球表面導(dǎo)航時(shí),將面臨復(fù)雜的未知環(huán)境。未知環(huán)境中的移動(dòng)機(jī)器人自主導(dǎo)航控制技術(shù)已成為空間探測(cè)機(jī)器人的一項(xiàng)關(guān)鍵技術(shù)。
在移動(dòng)機(jī)器人導(dǎo)航控制理論和方法的研究中,確定性環(huán)境的導(dǎo)航控制方法已取得了大量的研究和應(yīng)用成果。對(duì)未知環(huán)境中的導(dǎo)航控制也開(kāi)展了一些研究,并提出了若干方法,但尚未形成統(tǒng)一和完善的體系結(jié)構(gòu),還有許多關(guān)鍵理論和技術(shù)問(wèn)題有待解決和完善。這些問(wèn)題主要包括環(huán)境建模、定位、導(dǎo)航控制器的學(xué)習(xí)與優(yōu)化、故障診斷、在線(xiàn)運(yùn)動(dòng)規(guī)劃與控制等。未知環(huán)境中的移動(dòng)機(jī)器人只具有較少的先驗(yàn)知識(shí),其導(dǎo)航控制方法涉及環(huán)境認(rèn)知、優(yōu)化決策、知識(shí)表示與獲取等多項(xiàng)關(guān)鍵問(wèn)題。對(duì)未知環(huán)境中的移動(dòng)機(jī)器人導(dǎo)航控制理論和方法的研究,將推動(dòng)認(rèn)知科學(xué)、模式識(shí)別、非線(xiàn)性控制等前沿學(xué)科的研究,帶動(dòng)航天、海洋、軍事、建筑、交通、工業(yè)和服務(wù)業(yè)等領(lǐng)域移動(dòng)機(jī)器人導(dǎo)航控制系統(tǒng)的開(kāi)發(fā)研究,為無(wú)人探察車(chē)、無(wú)人排險(xiǎn)車(chē)和無(wú)人運(yùn)輸車(chē)等用于航天、軍事、深海作業(yè)和核工業(yè)領(lǐng)域的移動(dòng)機(jī)器人系統(tǒng)的應(yīng)用奠定理論和技術(shù)基礎(chǔ)。
適應(yīng)于未知環(huán)境的移動(dòng)機(jī)器人導(dǎo)航系統(tǒng)應(yīng)具備環(huán)境認(rèn)知、行為決策、運(yùn)動(dòng)控制等能力,可對(duì)系統(tǒng)自身狀態(tài)進(jìn)行監(jiān)測(cè)并能有效容錯(cuò)。該領(lǐng)域的研究?jī)?nèi)容主要包括體系結(jié)構(gòu)、環(huán)境建模與定位、路徑規(guī)劃、運(yùn)動(dòng)控制、故障診斷與容錯(cuò)控制等若干方面。
2.1 體系結(jié)構(gòu)
目前,移動(dòng)機(jī)器人導(dǎo)航控制的體系結(jié)構(gòu)主要分為以下3種:
1)基于功能分解的體系結(jié)構(gòu),即按“感知-建模-規(guī)劃-行動(dòng)”的模式實(shí)現(xiàn)移動(dòng)機(jī)器人的導(dǎo)航控制。現(xiàn)已提出多種離線(xiàn)全局路徑規(guī)劃方法[1-3]。
2)基于行為的反應(yīng)式體系結(jié)構(gòu),最具代表性的是Brooks的包容式體系結(jié)構(gòu)[4]。如何構(gòu)造和優(yōu)化機(jī)器人行為控制器是其成功與否的關(guān)鍵。主要方法有基于模糊邏輯及神經(jīng)網(wǎng)絡(luò)的監(jiān)督學(xué)習(xí)方法及基于傳感器信息的局部運(yùn)動(dòng)規(guī)劃方法等。
3)上述二者結(jié)合的混合式體系結(jié)構(gòu)[5],以克服功能分解體系結(jié)構(gòu)在不確定和未知環(huán)境中的建模困難、實(shí)時(shí)性和適應(yīng)性差等缺點(diǎn);同時(shí)實(shí)現(xiàn)對(duì)已有環(huán)境信息進(jìn)行有效表示和利用,完成單一結(jié)構(gòu)無(wú)法實(shí)現(xiàn)的復(fù)雜導(dǎo)航任務(wù)。在混合式體系結(jié)構(gòu)的基礎(chǔ)上,有關(guān)學(xué)者針對(duì)具體移動(dòng)機(jī)器人系統(tǒng)應(yīng)用的特點(diǎn),提出了基于多智能體的體系結(jié)構(gòu)[6],強(qiáng)調(diào)系統(tǒng)功能的分布式計(jì)算和協(xié)調(diào)特性。
混合式體系結(jié)構(gòu)是移動(dòng)機(jī)器人體系結(jié)構(gòu)研究的重要發(fā)展趨勢(shì),并在未知環(huán)境下移動(dòng)機(jī)器人導(dǎo)航中得到應(yīng)用。但在移動(dòng)機(jī)器人體系結(jié)構(gòu)的研究方面,仍有許多問(wèn)題需要進(jìn)一步研究解決,主要有:
1)如何實(shí)現(xiàn)基本功能模塊的靈活組合,使得功能與知識(shí)都具有良好的擴(kuò)展性;
2)如何實(shí)現(xiàn)基于符號(hào)的慎思式智能與基于行為的反應(yīng)式智能之間的合理協(xié)調(diào);
3)如何建立各層次間知識(shí)的交流機(jī)制,通過(guò)機(jī)器學(xué)習(xí)獲得新的知識(shí)。
2.2 環(huán)境建模與定位
移動(dòng)機(jī)器人自定位與環(huán)境建模問(wèn)題是緊密相關(guān)的。環(huán)境模型的準(zhǔn)確性依賴(lài)于定位精度,而定位的實(shí)現(xiàn)又離不開(kāi)環(huán)境模型。在環(huán)境建模技術(shù)研究方面,主要提出了基于傳感器的單元分解建模技術(shù)[7]、幾何建模技術(shù)和拓?fù)浣<夹g(shù)3類(lèi)方法[8]。基于幾何坐標(biāo)的方法利用Kalman濾波器在局部區(qū)域內(nèi)可獲得較高的精度,并且計(jì)算量小,但在廣域環(huán)境中卻難以維持精確的坐標(biāo)信息。基于拓?fù)涞慕7椒ㄔ试S機(jī)器人在難以獲得精確定位信息的情形下,利用狀態(tài)部分可觀測(cè)馬爾可夫決策過(guò)程模型,依靠傳感器信息與環(huán)境特征信息的匹配來(lái)確定機(jī)器人的方位,但在非結(jié)構(gòu)化環(huán)境或環(huán)境特征不明顯的情況下,則難以進(jìn)行可靠的導(dǎo)航控制。
現(xiàn)有移動(dòng)機(jī)器人的定位方法主要包括:航跡推算、組合定位和感知定位[9]。航跡推算方法存在累積誤差問(wèn)題,通常與基于感知的定位方法相結(jié)合,利用環(huán)境特征和路標(biāo)識(shí)別來(lái)消除或減少累積定位誤差。組合式定位系統(tǒng)主要包括全球定位系統(tǒng)(GPS)、激光定位系統(tǒng)等。上述定位方法已成功地應(yīng)用于確定性結(jié)構(gòu)化環(huán)境中的移動(dòng)機(jī)器人定位,但仍難以有效地解決在未知環(huán)境中的移動(dòng)機(jī)器人定位問(wèn)題。目前,基于概率模型和多傳感器融合的移動(dòng)機(jī)器人定位與環(huán)境建模研究已取得了一些研究成果[10,11],但大多局限于室內(nèi)結(jié)構(gòu)化環(huán)境。
在復(fù)雜未知環(huán)境中,由于先驗(yàn)知識(shí)的匱乏和環(huán)境的不確定性,使得并發(fā)的環(huán)境建模和定位方法成為亟待研究的課題,其中包括環(huán)境的不確定性表示,三維環(huán)境特征的提取,基于多傳感器融合的增量式建模方法等。此外,研究可創(chuàng)造主動(dòng)環(huán)境、提高信息獲取效率的行為機(jī)制,將有助于實(shí)現(xiàn)可靠的復(fù)合定位與建模系統(tǒng)。
2.3 路徑規(guī)劃
移動(dòng)機(jī)器人的路徑規(guī)劃可分為基于地圖的全局路徑規(guī)劃和基于傳感器的局部路徑規(guī)劃。對(duì)于環(huán)境已知條件下的離線(xiàn)全局路徑規(guī)劃方法,現(xiàn)已取得大量成果。近年來(lái),學(xué)術(shù)界對(duì)環(huán)境部分已知和未知環(huán)境下的在線(xiàn)全局路徑規(guī)劃方法進(jìn)行研究,其中包括基于進(jìn)化算法[12]和廣義預(yù)測(cè)控制[13]的在線(xiàn)路徑規(guī)劃器等。
基于傳感器的局部路徑規(guī)劃是實(shí)現(xiàn)移動(dòng)機(jī)器人在未知環(huán)境中導(dǎo)航的重要技術(shù)之一,例如增量式構(gòu)造當(dāng)前可視區(qū)域路徑圖的規(guī)劃方法[14]和基于近似單元分解的局部路徑規(guī)劃[15]等。然而,上述方法未能對(duì)移動(dòng)機(jī)器人的運(yùn)動(dòng)學(xué)和動(dòng)力學(xué)特性約束進(jìn)行有效處理,在優(yōu)化性能和對(duì)復(fù)雜環(huán)境的適應(yīng)性方面仍有待改進(jìn)。
近年來(lái),針對(duì)非完整約束條件下的移動(dòng)機(jī)器人運(yùn)動(dòng)規(guī)劃問(wèn)題開(kāi)展了一些研究工作。其中,基于微分平坦系統(tǒng)理論的運(yùn)動(dòng)規(guī)劃方法引起了學(xué)術(shù)界的重視[16-18]?,F(xiàn)已證明,大部分移動(dòng)機(jī)器人系統(tǒng)是平坦的,對(duì)于一個(gè)微分平坦系統(tǒng),運(yùn)動(dòng)規(guī)劃可簡(jiǎn)化為確定一個(gè)光滑的平坦輸出函數(shù),它滿(mǎn)足初始和目標(biāo)狀態(tài)的邊界條件,而期望的控制輸入和狀態(tài)軌跡則通過(guò)對(duì)該平坦函數(shù)求導(dǎo)來(lái)獲得。基于微分平坦理論的運(yùn)動(dòng)規(guī)劃方法為移動(dòng)機(jī)器人實(shí)時(shí)運(yùn)動(dòng)規(guī)劃提供了一種有效方法。文獻(xiàn)[16]通過(guò)應(yīng)用基函數(shù)來(lái)參數(shù)化微分平坦輸出,將非線(xiàn)性控制理論、樣條理論和二次規(guī)劃結(jié)合起來(lái),提出了新的實(shí)時(shí)軌跡生成算法。
研究表明,對(duì)于受約束的機(jī)械系統(tǒng),實(shí)時(shí)軌跡生成可通過(guò)在較低維空間即微分平坦空間中搜索軌跡曲線(xiàn)來(lái)實(shí)現(xiàn)。文獻(xiàn)[17]研究了將微分平坦理論與自適應(yīng)控制方法相結(jié)合的運(yùn)動(dòng)規(guī)劃和控制方法。進(jìn)一步深入探討將微分平坦理論用于未知環(huán)境中移動(dòng)機(jī)器人的規(guī)劃和控制問(wèn)題,是本文的研究?jī)?nèi)容之一。
2.4 運(yùn)動(dòng)控制
移動(dòng)機(jī)器人的運(yùn)動(dòng)控制包括基于路徑規(guī)劃的移動(dòng)機(jī)器人路徑跟蹤控制和基于傳感器-執(zhí)行器直接映射的運(yùn)動(dòng)控制,即反應(yīng)式導(dǎo)航控制。大量研究表明,反應(yīng)式導(dǎo)航方法是提高移動(dòng)機(jī)器人在未知環(huán)境下的實(shí)時(shí)性和靈活性的重要手段。目前已提出多種移動(dòng)機(jī)器人反應(yīng)式導(dǎo)航方法,如模糊邏輯方法、神經(jīng)網(wǎng)絡(luò)方法等。但已有方法往往要求較多的先驗(yàn)知識(shí),如何構(gòu)造和優(yōu)化移動(dòng)機(jī)器人的反應(yīng)式導(dǎo)航控制器以及提高導(dǎo)航系統(tǒng)對(duì)未知環(huán)境的適應(yīng)性,是有待解決的關(guān)鍵問(wèn)題。近年來(lái),利用基于動(dòng)態(tài)規(guī)劃的增強(qiáng)學(xué)習(xí)方法解決上述問(wèn)題,已成為人工智能和機(jī)器人學(xué)領(lǐng)域的研究熱點(diǎn)。進(jìn)一步的工作需要對(duì)增強(qiáng)學(xué)習(xí)梯度算法的局部極值以及算法的學(xué)習(xí)效率和泛化性能進(jìn)行深入研究。
在路徑跟蹤控制問(wèn)題方面,由于非完整控制系統(tǒng)在笛卡爾坐標(biāo)系下不存在光滑的定常靜態(tài)狀態(tài)反饋律使得閉環(huán)系統(tǒng)的平衡點(diǎn)局部漸近穩(wěn)定[19,20],也不存在動(dòng)態(tài)連續(xù)定常反饋控制器使得閉環(huán)系統(tǒng)漸近穩(wěn)定[21],因此在笛卡爾坐標(biāo)系下不能應(yīng)用反饋線(xiàn)性化或光滑定常反饋的控制器設(shè)計(jì)方法漸近鎮(zhèn)定系統(tǒng)。目前,關(guān)于非完整控制系統(tǒng)的鎮(zhèn)定方法,如非連續(xù)定常鎮(zhèn)定化、時(shí)變鎮(zhèn)定化和混合方法,在輪式移動(dòng)機(jī)器人控制中得到了應(yīng)用。文獻(xiàn)[22]針對(duì)帶有輸入約束的時(shí)變非線(xiàn)性系統(tǒng),采用模型預(yù)測(cè)控制(MPC)方法生成反饋控制律,允許反饋非連續(xù)且可在線(xiàn)處理約束。文獻(xiàn)[23]嘗試用非線(xiàn)性預(yù)測(cè)控制鎮(zhèn)定有控制量約束和運(yùn)動(dòng)學(xué)約束的移動(dòng)機(jī)器人。文獻(xiàn)[24]則采用后退方法設(shè)計(jì)了具有全局漸近穩(wěn)定的跟蹤控制器。
盡管有關(guān)移動(dòng)機(jī)器人運(yùn)動(dòng)規(guī)劃與控制的研究取得了許多有意義的結(jié)果,但仍有許多問(wèn)題有待進(jìn)一步研究,例如:1)考慮動(dòng)力學(xué)特性時(shí)移動(dòng)機(jī)器人系統(tǒng)的平坦性,平坦輸出與機(jī)械系統(tǒng)幾何位置的關(guān)系,以及在規(guī)劃運(yùn)動(dòng)軌跡時(shí)如何兼顧性能與穩(wěn)定性;2)存在控制量約束時(shí)能夠協(xié)調(diào)跟蹤性能與穩(wěn)定性的魯棒軌跡跟蹤方法等。由于構(gòu)造非線(xiàn)性控制方法在優(yōu)化性能時(shí)往往能提供更強(qiáng)的穩(wěn)定性和滿(mǎn)意的吸引域,并能避免不必要的高增益,減弱某些現(xiàn)存方法中所需的約束,因而有可能為實(shí)現(xiàn)高性能的移動(dòng)機(jī)器人路徑跟蹤控制器提供一條有效的途徑。
2.5 故障診斷與容錯(cuò)控制
在未知環(huán)境中獨(dú)立工作的移動(dòng)機(jī)器人,往往處于十分惡劣的環(huán)境條件,如強(qiáng)輻射、大溫差、復(fù)雜地形,其機(jī)械部件和控制系統(tǒng)極易出現(xiàn)問(wèn)題,對(duì)于深空探測(cè)機(jī)器人而言,幾乎不可能由人來(lái)修復(fù)故障。因此機(jī)器人系統(tǒng)應(yīng)能進(jìn)行狀態(tài)監(jiān)測(cè),識(shí)別傳感器和執(zhí)行器故障,并利用硬件冗余或控制律重構(gòu)等方式進(jìn)行容錯(cuò)控制,以保證系統(tǒng)安全可靠地運(yùn)行。
現(xiàn)有故障檢測(cè)方法主要可劃分為基于知識(shí)、基于解析模型和基于信號(hào)處理3類(lèi)方法。診斷決策方法主要有閾值法、模糊邏輯、貝葉斯分類(lèi)、故障假設(shè)檢驗(yàn)等?;诮馕瞿P偷姆椒ㄑ芯康帽容^系統(tǒng)深入,它適合于可建立準(zhǔn)確被控過(guò)程數(shù)學(xué)模型的系統(tǒng),但實(shí)際應(yīng)用中通常很難建立這種定量模型。基于知識(shí)和輸入輸出信號(hào)的方法在這方面具有一定優(yōu)勢(shì)。
經(jīng)典容錯(cuò)控制方法可分為被動(dòng)容錯(cuò)控制和主動(dòng)容錯(cuò)控制,但都需要系統(tǒng)具有關(guān)于模型不確定性和外界擾動(dòng)的魯棒性[25],目前的研究對(duì)象主要是線(xiàn)性系統(tǒng),非線(xiàn)性、時(shí)滯系統(tǒng)的容錯(cuò)控制研究還沒(méi)有重要的理論結(jié)果。目前,國(guó)內(nèi)外故障診斷和容錯(cuò)控制研究大都停留在計(jì)算機(jī)仿真或?qū)嶒?yàn)階段,成功應(yīng)用于實(shí)際的例子仍屬少數(shù)。國(guó)外有學(xué)者將擴(kuò)展Kalman濾波器、基于模型的遞歸神經(jīng)網(wǎng)絡(luò)、遺傳算法等方法應(yīng)用于移動(dòng)機(jī)器人的陀螺儀、視覺(jué)傳感器、驅(qū)動(dòng)裝置[26-28]。國(guó)內(nèi)關(guān)于移動(dòng)機(jī)器人的故障診斷和容錯(cuò)控制研究的成果還很少。
由于機(jī)器人系統(tǒng)的復(fù)雜性和非線(xiàn)性,有必要在深入研究系統(tǒng)機(jī)理的基礎(chǔ)上,結(jié)合多種方法解決故障診斷問(wèn)題。其容錯(cuò)機(jī)制的設(shè)計(jì)與機(jī)器人硬件結(jié)構(gòu)、控制系統(tǒng)、傳感器信號(hào)融合、處理技術(shù)密切相關(guān),應(yīng)在移動(dòng)機(jī)器人系統(tǒng)整體設(shè)計(jì)階段就將其作為一個(gè)重要環(huán)節(jié)加以考慮。
移動(dòng)機(jī)器人要在未知環(huán)境中安全、可靠地完成指定任務(wù),除了應(yīng)具有上述建模、定位、規(guī)劃、運(yùn)動(dòng)等基本能力外,還應(yīng)能夠處理各種突發(fā)情況,逐漸適應(yīng)環(huán)境,提高工作效率。這就要求其導(dǎo)航控制系統(tǒng)具有靈活性和適應(yīng)性。近年來(lái),機(jī)器學(xué)習(xí)已成為人工智能和機(jī)器人學(xué)的一個(gè)研究熱點(diǎn),并且取得了不少突破性進(jìn)展,其中包括增強(qiáng)學(xué)習(xí)理論和算法[29]研究,進(jìn)化學(xué)習(xí)算法[30]和應(yīng)用研究,統(tǒng)計(jì)學(xué)習(xí)[31]特別是支持向量機(jī)(SVM)理論和算法研究等。上述機(jī)器學(xué)習(xí)理論和方法為復(fù)雜和未知環(huán)境中的信息提取、環(huán)境理解、任務(wù)規(guī)劃和行為決策提供了有效的解決途徑。
與已有的監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)方法不同的是,增強(qiáng)學(xué)習(xí)和進(jìn)化學(xué)習(xí)采用了動(dòng)物學(xué)習(xí)心理學(xué)的“試錯(cuò)法”原理,強(qiáng)調(diào)在與環(huán)境的交互中利用評(píng)價(jià)性反饋信號(hào)(稱(chēng)為增強(qiáng)信號(hào)或進(jìn)化算法的個(gè)體適應(yīng)度)進(jìn)行學(xué)習(xí),為實(shí)現(xiàn)具有在線(xiàn)自學(xué)習(xí)能力的智能系統(tǒng)提供了有效手段。應(yīng)用機(jī)器學(xué)習(xí)方法特別是增強(qiáng)學(xué)習(xí)和進(jìn)化學(xué)習(xí)方法來(lái)實(shí)現(xiàn)未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制器的設(shè)計(jì)和優(yōu)化,已成為近年來(lái)移動(dòng)機(jī)器人導(dǎo)航控制技術(shù)的研究熱點(diǎn)[ 30,32,33]。
增強(qiáng)學(xué)習(xí)在移動(dòng)機(jī)器人導(dǎo)航中的應(yīng)用主要集中于反應(yīng)式運(yùn)動(dòng)控制[34]。在增強(qiáng)學(xué)習(xí)算法和理論研究方面,由于包括移動(dòng)機(jī)器人導(dǎo)航控制在內(nèi)的實(shí)際工程問(wèn)題往往具有連續(xù)的狀態(tài)和行為空間,因而增強(qiáng)學(xué)習(xí)的泛化和學(xué)習(xí)效率的提高便成為增強(qiáng)學(xué)習(xí)研究的核心問(wèn)題。在已有的增強(qiáng)學(xué)習(xí)泛化方法中,利用神經(jīng)網(wǎng)絡(luò)等值函數(shù)逼近器的增強(qiáng)學(xué)習(xí)方法得到普遍研究和應(yīng)用。早期的神經(jīng)網(wǎng)絡(luò)增強(qiáng)學(xué)習(xí)算法采用一種類(lèi)似于TD學(xué)習(xí)的近似梯度算法,當(dāng)采用一般的非線(xiàn)性函數(shù)逼近器時(shí),理論上難以保證算法的收斂性[35]。文獻(xiàn)[36]對(duì)已有的近似梯度算法進(jìn)行改進(jìn),但僅能保證有限條件下的收斂性,而且學(xué)習(xí)效率有待進(jìn)一步驗(yàn)證和改進(jìn)。
近年來(lái),基于核的增強(qiáng)學(xué)習(xí)受到有關(guān)學(xué)者的關(guān)注[37],該方法為解決連續(xù)空間馬氏決策中的局部收斂性問(wèn)題提供了一條可行途經(jīng)。此外,由于移動(dòng)機(jī)器人的傳感器感知能力的局部性,在許多情況下應(yīng)用增強(qiáng)學(xué)習(xí)方法需要解決部分可觀測(cè)馬氏決策的學(xué)習(xí)算法設(shè)計(jì)問(wèn)題。文獻(xiàn)[38]提出的GPOMDP 算法能對(duì)部分可觀測(cè)馬氏決策問(wèn)題的策略梯度進(jìn)行估計(jì),但存在學(xué)習(xí)效率較低的缺點(diǎn)。目前,有關(guān)部分可觀測(cè)馬氏決策問(wèn)題增強(qiáng)學(xué)習(xí)算法的應(yīng)用研究成果還很少。文獻(xiàn)[39]對(duì)增強(qiáng)學(xué)習(xí)在移動(dòng)機(jī)器人路徑跟蹤控制中的應(yīng)用進(jìn)行研究,提出了基于增強(qiáng)學(xué)習(xí)的自適應(yīng)PID控制器。
移動(dòng)機(jī)器人進(jìn)化設(shè)計(jì)與學(xué)習(xí)是通過(guò)人工進(jìn)化的自動(dòng)化設(shè)計(jì)過(guò)程來(lái)開(kāi)發(fā)機(jī)器人及其傳感-馬達(dá)控制系統(tǒng)的一種方法[40],它包括群體進(jìn)化學(xué)習(xí)和個(gè)體發(fā)展學(xué)習(xí)。基于進(jìn)化學(xué)習(xí)的機(jī)器人導(dǎo)航控制系統(tǒng)主要采用的控制結(jié)構(gòu)有人工神經(jīng)網(wǎng)絡(luò)、LISP程序、模糊規(guī)則集等,已應(yīng)用于各種類(lèi)型移動(dòng)機(jī)器人系統(tǒng)[41]。其主要優(yōu)點(diǎn)在于可以簡(jiǎn)化設(shè)計(jì)過(guò)程,設(shè)計(jì)結(jié)果具有一定魯棒性,并可能產(chǎn)生突現(xiàn)行為,是實(shí)現(xiàn)低層反應(yīng)式控制和高層行為決策的有效途徑之一。但是進(jìn)化學(xué)習(xí)在仿真設(shè)計(jì)、運(yùn)行時(shí)間、評(píng)估性能指標(biāo)等方面還沒(méi)有理論依據(jù),進(jìn)化學(xué)習(xí)是否持續(xù)有效,進(jìn)化結(jié)果是僅僅停留在傳感-馬達(dá)反應(yīng)式行為水平上還是進(jìn)一步擴(kuò)展到復(fù)雜行為等問(wèn)題都值得深入探討。該方向的研究不僅可豐富機(jī)器人控制系統(tǒng)設(shè)計(jì)方法,而且將對(duì)生物系統(tǒng)認(rèn)知過(guò)程的理解起到促進(jìn)作用。
近年來(lái),多示例學(xué)習(xí)作為一種新的學(xué)習(xí)框架受到機(jī)器學(xué)習(xí)理論界的關(guān)注,并在圖像檢索[42]、機(jī)器視覺(jué)[43]等領(lǐng)域取得了一些研究成果。在多示例學(xué)習(xí)問(wèn)題中,系統(tǒng)通過(guò)對(duì)多個(gè)由示例組成的有概念標(biāo)記的訓(xùn)練包進(jìn)行學(xué)習(xí),盡可能正確地對(duì)訓(xùn)練集以外的包的標(biāo)記進(jìn)行預(yù)測(cè)。但多示例學(xué)習(xí)在可學(xué)習(xí)性理論、包生成技術(shù)、學(xué)習(xí)方法方面還需要深入研究,目前還沒(méi)有實(shí)際應(yīng)用到機(jī)器人系統(tǒng)。在移動(dòng)機(jī)器人導(dǎo)航過(guò)程中,常常難以對(duì)一系列行為中的單個(gè)行為進(jìn)行評(píng)價(jià),而只能對(duì)行為組合是否達(dá)到目標(biāo)進(jìn)行概念性標(biāo)記。因此,設(shè)計(jì)有效的算法,在多示例學(xué)習(xí)框架下解決移動(dòng)機(jī)器人導(dǎo)航中的全程進(jìn)化問(wèn)題,在理論和應(yīng)用兩方面都有重要意義。
移動(dòng)機(jī)器人對(duì)環(huán)境特征的識(shí)別,是一個(gè)非常具有挑戰(zhàn)性的模式識(shí)別問(wèn)題。尤其是在未知環(huán)境中,用傳統(tǒng)的基于特征提取的模式識(shí)別方法解決該問(wèn)題會(huì)面臨極大的困難。這主要是因?yàn)槲粗h(huán)境中存在著許多不可知因素,并且很難對(duì)這些未知因素建模,從而難以進(jìn)行有效的特征提取工作。支持向量機(jī)是一種基于統(tǒng)計(jì)學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法。它在進(jìn)行模式分類(lèi)時(shí)沒(méi)有顯式的特征提取過(guò)程,其特征提取隱含在支持向量的提取以及核函數(shù)的選取中。文獻(xiàn)[44,45]的工作在一定程度上顯示了該方法在理論基礎(chǔ)上的優(yōu)勢(shì)和在視覺(jué)感知與學(xué)習(xí)方面的應(yīng)用潛力。但是應(yīng)用SVM方法有效解決實(shí)際問(wèn)題仍然存在不少難點(diǎn),其中最為突出的有兩個(gè):一是核函數(shù)的選取缺乏良好的準(zhǔn)則,二是計(jì)算復(fù)雜度比較高。因此SVM中的核函數(shù)研究主要解決的問(wèn)題是:如何針對(duì)給定數(shù)據(jù)并結(jié)合一定先驗(yàn)知識(shí)選取核函數(shù)。另外,遞推算法的研究在SVM 的應(yīng)用中也有很大意義,但這方面的工作還剛剛開(kāi)始展開(kāi)??上驳氖?,國(guó)內(nèi)學(xué)者已取得了一定結(jié)果[46]。
深入開(kāi)展機(jī)器學(xué)習(xí)理論和方法的研究,應(yīng)用機(jī)器學(xué)習(xí)方法提高移動(dòng)機(jī)器人在未知環(huán)境中的導(dǎo)航性能和對(duì)環(huán)境的適應(yīng)性,是移動(dòng)機(jī)器人導(dǎo)航控制領(lǐng)域的一個(gè)重要發(fā)展趨勢(shì)。
未知環(huán)境中的移動(dòng)機(jī)器人導(dǎo)航控制理論和方法的研究,是機(jī)器人學(xué)和智能控制的一個(gè)重要研究領(lǐng)域。但目前已有的理論和方法并不能完全滿(mǎn)足未知環(huán)境中移動(dòng)機(jī)器人自主導(dǎo)航的要求,在移動(dòng)機(jī)器人體系結(jié)構(gòu)、路徑規(guī)劃、環(huán)境建模和定位等方面都有許多問(wèn)題有待解決。這些問(wèn)題并不是孤立的,各部分相互耦合,互為影響。如果不能把各部分有機(jī)地結(jié)合為一個(gè)整體,那么必將削弱或不能達(dá)到預(yù)期的系統(tǒng)性能。因此有必要針對(duì)未知環(huán)境中移動(dòng)機(jī)器人導(dǎo)航控制的各種問(wèn)題,全面深入地分析機(jī)器人系統(tǒng)與環(huán)境之間、系統(tǒng)各部分之間的交互關(guān)系,研究開(kāi)發(fā)面向全局性能優(yōu)化的導(dǎo)航理論和技術(shù),以實(shí)現(xiàn)靈活、穩(wěn)定、可靠的移動(dòng)機(jī)器人導(dǎo)航控制系統(tǒng)。