国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度強化學習的復雜地形適應機器人設計與實驗

2022-10-15 13:24頓,楊帥,于洋,王
宇航學報 2022年9期
關(guān)鍵詞:樣機步態(tài)驅(qū)動

楊 頓,楊 帥,于 洋,王 琪

(北京航空航天大學航空科學與工程學院,北京 100191)

0 引 言

行星表面附著探測、地震廢墟救援、天然洞穴探索等具有非結(jié)構(gòu)化表面、變尺度縫隙、狹小空間和未知信息的環(huán)境探索任務,通常需要機器人具備地形適應力強、利用本體信息感知環(huán)境、可自主運動決策的能力。常規(guī)的足式機器人,如雙足、四足、六足機器人,相較輪式機器人具有良好的運動能力,且感知、決策、驅(qū)動功能集成度高,但該類機器人結(jié)構(gòu)尺寸相對固定,缺乏靈活性,難以適應行星、洞穴、廢墟等極端地形下探索任務的部署和運輸需求;同時,該類機器人一般使用基于模型的控制方法,需要盡可能多地利用傳感器感知環(huán)境、估計狀態(tài),所建立的動態(tài)模型較復雜且泛化能力不足,這也將消耗不必要的計算資源和電力。

從仿生角度出發(fā),借鑒自然界中動植物適應極端環(huán)境時所采用結(jié)構(gòu)外形和運動模式,為以上問題提供了新的解決方案。在戈壁和海灘等地表復雜地形中,有兩類生物——“風滾草”和海膽,可借助近似球體結(jié)構(gòu),利用滾動運動克服地形障礙,而海膽由于其可伸縮足腿而具備更強的自主適應性——主動避開或越過障礙,最終到達目標地點。以上述生物為靈感,NASA提出了一種仿風滾草行星探測器,可依靠火星風力驅(qū)動,實現(xiàn)星表探索,但不具備自主控制能力;Gheorghe等第一次提出了一種類似海膽的球形機器人,其利用球體內(nèi)的伸縮機構(gòu)推動機器人運動;日本東京大學的研究者研制的一款具有32條可伸縮足腿的球形機器人,基于運動學方法實現(xiàn)了直線和曲線的連續(xù)運動模式;MIT的研究人員設計了一種高伸縮比制動器,將其應用于14足仿海膽機器人的足腿機構(gòu),并制作樣機驗證了機器人在平面地形的基本運動能力。以上仿海膽機器人在結(jié)構(gòu)設計上具備較好地形適應潛力,但目前還沒有研究工作實現(xiàn)該類機器人的自主運動控制。

魯棒且泛化性能良好的運動決策算法是實現(xiàn)自主運動的關(guān)鍵。由于這類機器人是非線性欠驅(qū)動系統(tǒng),其步態(tài)控制是一項極具挑戰(zhàn)性的工作。傳統(tǒng)的足式機器人步態(tài)控制方法需要進行簡化模型、狀態(tài)估計、軌跡優(yōu)化、足端位置規(guī)劃、操作空間控制等一系列復雜步驟,盡管該方法可發(fā)揮機器人良好的機動性,但其通用性和泛化能力不足,需借助大量的專業(yè)領(lǐng)域知識,缺乏對變化較大的應用場景的適應性,較小的地形差異和傳感誤差就可能造成控制不穩(wěn)定。自然界中,動物的運動技能是不斷與環(huán)境交互試錯而習得的。與此類似,強化學習就是這種不依賴機器人的運動學和動力學模型,通過訓練提升決策能力的端到端數(shù)據(jù)驅(qū)動方法。但對足式機器人進行運動步態(tài)的強化學習需要處理連續(xù)高維狀態(tài)空間和動作空間,計算量巨大。近年來,隨著深度學習技術(shù)日趨成熟,結(jié)合深度神經(jīng)網(wǎng)絡的強化學習方法突破了連續(xù)高維空間計算量的限制,在諸多領(lǐng)域中取得了優(yōu)于傳統(tǒng)方法的效果,Peng等使用分層強化學習算法實現(xiàn)了仿真環(huán)境中的機器人運動方案,Kumar等實現(xiàn)了真實環(huán)境下的基于本體感知的四足機器人強化學習步態(tài)控制,Siekmann等實現(xiàn)了盲雙足機器人在真實環(huán)境下的步態(tài)控制。然而,對于硬件系統(tǒng)研究尚未成熟的新型仿生欠驅(qū)動機器人,無先驗知識的端到端運動策略訓練和樣機部署仍具有挑戰(zhàn)性。

本文主要研究面向行星表面復雜地形探索任務的輕量化地形適應機器人解決方案,需要指出,所涉及的復雜地形指非結(jié)構(gòu)化、無全局地形感知(視覺或雷達)信息的一類地形,其輪廓線的隨機起伏可達本文機器人結(jié)構(gòu)尺寸的70%左右;地形適應指該機器人能夠穩(wěn)定運動以躲避或越過此地形下的障礙、隨機外部干擾,最終穿越地形到達運動目標。本文貢獻包括仿生結(jié)構(gòu)設計開發(fā)和基于學習方法的運動策略。首先,在分析海膽結(jié)構(gòu)特點和運動原理的基礎(chǔ)上,設計了一種新型仿海膽結(jié)構(gòu)的十二足球形機器人(以下稱“仿海膽機器人”),該機器人具有機構(gòu)伸展率高、能耗低、無傾覆等優(yōu)勢。此外,還提出了一種基于無模型強化學習技術(shù)的高效步態(tài)訓練算法。通過仿真實驗驗證了該機器人可實現(xiàn)平面地形下的近似周期性運動、非結(jié)構(gòu)地形中基于純本體感知的自主穩(wěn)定運動,并可到達運動目標;同時對外部干擾具有魯棒性。最后通過樣機實驗驗證了算法所生成步態(tài)的動力學可行性。

1 結(jié)構(gòu)設計方案

1.1 仿生結(jié)構(gòu)分析及運動條件

如圖1(a)所示,風滾草在風力驅(qū)動下可產(chǎn)生地形適應運動,但缺少驅(qū)動機構(gòu)使其無法主動控制,只能被動翻滾。海膽依靠伸縮棘刺調(diào)整結(jié)構(gòu)重心,可實現(xiàn)主動運動,但其運動方式以蠕動為主,速度較慢。兩類生物近似球體的對稱構(gòu)型為穩(wěn)定運動提供了基礎(chǔ),可伸縮足腿進一步加強了主動控制能力。結(jié)合以上生物機理,本文采用足腿對稱分布的球形機器人結(jié)構(gòu)方案,伸縮足作為驅(qū)動機構(gòu),可在復雜環(huán)境下實現(xiàn)整機構(gòu)型的大幅變化,獲得地形適應能力;以重心移出支撐三角形而發(fā)生翻滾作為運動方式,可簡化步態(tài)的設計難度。結(jié)構(gòu)設計細節(jié)需要考慮以下幾類特征:

圖1 運動原理及結(jié)構(gòu)設計Fig.1 Motion principle and structure design

(1)對稱性:高度對稱是該機器人能以簡單運動方式適應復雜地形的基本條件。然而實物樣機受限于機電和結(jié)構(gòu)性能,無法實現(xiàn)與海膽相近的足腿數(shù),因此為保障結(jié)構(gòu)對稱,本文將足設置在正多面體的頂點和面心,以確保其足腿呈中心對稱分布。

(2)足腿數(shù)量:考慮到機器人足數(shù)、整機質(zhì)量和驅(qū)動能力之間存在相關(guān)性,合適的足數(shù)對高效完成運動目標具有重要影響:一方面,足數(shù)較少會減小足與支撐面夾角,降低觸地足與地面的摩擦,增加打滑的可能,且需要更大的電機推力;另一方面,足數(shù)較多,運動所需電機推力將變小,但會增加整機重量和控制復雜度。綜合考慮結(jié)構(gòu)質(zhì)量和設計生產(chǎn)難度,本文選擇了十二條可伸縮足,其由正十二面體基座和驅(qū)動機構(gòu)組成,通過控制每個驅(qū)動機構(gòu)的徑向運動,可實現(xiàn)整機形狀改變以適應地形。

(3)足腿伸縮長度條件:機器人足數(shù)和位置確定后,需考慮伸縮足的最小伸縮長度。如圖1(b)所示,機器人用三條足腿支撐站立時,其中一條為驅(qū)動腿,另外兩條為支撐腿。假設機器人的運動從圖1(b)所示的位置開始,驅(qū)動腿伸長使重心投影移出軸之外,機器人可實現(xiàn)一步翻滾動作。已知正十二面體的二面角(相鄰兩個平面的夾角)約為11656°。因此機器人兩條腿之間的角度近似為6344°。圖1(b)中代表驅(qū)動腿初始長度,Δ代表驅(qū)動腿伸長量。是驅(qū)動腿與兩條支撐腿,形成的平面的夾角,則存在如下伸縮關(guān)系:

(1)

可以得出約為58.28°,將,代入公式,得到Δ≈062,即最大伸長量達到原長的1.62倍及以上才可實現(xiàn)翻滾。結(jié)合樣機制作過程的其他影響因素,機器人樣機最終采用1.68倍伸縮比方案。

1.2 結(jié)構(gòu)設計

綜合考慮結(jié)構(gòu)特點和運動條件,整機結(jié)構(gòu)設計如圖1(c)左圖所示。執(zhí)行機構(gòu)安裝在正十二面體的基座面心上。執(zhí)行機構(gòu)末端設計為球形觸地殼,保證其與地面發(fā)生點接觸,便于進行摩擦力分析。

(1)驅(qū)動機構(gòu):驅(qū)動器應滿足輕質(zhì)、可徑向運動的要求。本文自主設計了一款電動直線執(zhí)行器。單個執(zhí)行機構(gòu)由步進電機和套筒組成,包括電機、進給螺桿、滑臺、支架。套筒與滑臺固連,隨著進給螺桿的轉(zhuǎn)動而產(chǎn)生徑向運動。作為滑臺的外延,套筒尺寸通過步進電機直徑確定,需在滿足結(jié)構(gòu)要求的同時盡量減小直徑,同時保證不降低機構(gòu)伸縮比。

(2)基座:為使執(zhí)行機構(gòu)伸縮比滿足運動條件,要盡可能減小基座直徑,并增大中空體積,用于放置硬件控制系統(tǒng)。

(3)傳感器:作為自主運動機器人的外界感知來源,機器人十二條足腿末端裝配有接觸力傳感,中心基座裝配慣性傳感器,同時關(guān)節(jié)的位置和速度信息可獲取。以上感知將作為運動策略的輸入狀態(tài)。

1.3 初代樣機平臺制作

如圖1(c)右圖所示,整體包括執(zhí)行機構(gòu)、基座和控制系統(tǒng)?;吞淄彩褂?D打印。硬件控制系統(tǒng)包括一個Arduino 2560控制板和4988步進電機驅(qū)動模塊。部件具體材料及尺寸見表1。將步態(tài)數(shù)據(jù)輸入Arduino控制板,輸出電脈沖信號;A4988驅(qū)動模塊接收電脈沖信號,并驅(qū)動執(zhí)行機構(gòu)達到期望長度。初代樣機用于開環(huán)步態(tài)驗證,未搭載額外傳感裝置。樣機總質(zhì)量大約為700 g。

表1 機器人材料及尺寸Table 1 Robot material and size

2 基于強化學習方法的數(shù)據(jù)高效步態(tài)訓練算法

在使用傳統(tǒng)方法進行仿生足式機器人的步態(tài)設計和運動控制時,需要已知的地形信息,進而建立精確的系統(tǒng)模型進行反饋控制,以實現(xiàn)穩(wěn)定運動。這一方法缺乏對非結(jié)構(gòu)化未知地形的適應能力。因此,本文采用基于數(shù)據(jù)的強化學習方法,使用從狀態(tài)空間映射到動作空間的深度神經(jīng)網(wǎng)絡作為機器人運動策略,控制其在僅具備本體感知的非結(jié)構(gòu)化環(huán)境中自主運動。

本方法首先需在仿真環(huán)境中進行模型訓練,待策略網(wǎng)絡收斂后,將其遷移到真實環(huán)境中具有感知能力的樣機上,開展自主運動實驗。

作為一類構(gòu)型新穎的機器人,為避免從頭設計運動模式、規(guī)劃步態(tài),同時為了發(fā)揮數(shù)據(jù)驅(qū)動方法和翻滾運動模式的優(yōu)勢,本文采用從0到1的訓練模式,即基于無模型、無先驗知識的訓練方案,僅通過獎勵函數(shù)為神經(jīng)網(wǎng)絡的優(yōu)化提供引導。該方法具備更強的通用性,可根據(jù)不同的任務目標和地形條件快速訓練不同運動策略。無模型強化學習方法的困難之處在于訓練數(shù)據(jù)量過大、任務繁重。為此,本文利用機器人翻滾式運動的特點,設計了一種高效的數(shù)據(jù)采樣方案。經(jīng)過短時間訓練即可實現(xiàn)仿海膽機器人在多種復雜地形的自主決策運動。

2.1 策略熵最大化強化學習

仿海膽機器人在未知環(huán)境下的運動控制過程可以由參數(shù)組{,,,,}所描述的部分可觀馬爾可夫決策過程(POMDP)抽象為強化學習問題,其中,表示狀態(tài)空間和動作空間;表示狀態(tài)轉(zhuǎn)移矩陣;是機器人與環(huán)境交互時得到的獎勵回報;是表示未來獎勵的衰減因子,取值范圍是[0,1]。強化學習的核心目標是學習出一種從狀態(tài)空間映射到動作空間的策略,以從環(huán)境中獲得最大的累計回報:

(2)

式中:表示數(shù)據(jù)采樣時間步;表示從策略中采樣出的軌跡。傳統(tǒng)的強化學習算法僅實現(xiàn)獎勵函數(shù)的最大化,由該方法得到的運動策略在同一狀態(tài)下會采用相同的動作,運動模式較為單一。但面向復雜地形探索任務的足式機器人需要具備同一狀態(tài)下采取多種可能動作方式的能力,才能完成對障礙地形的探索和克服。所以在優(yōu)化網(wǎng)絡時引入了對策略網(wǎng)絡熵的優(yōu)化指標:

((·|))]

(3)

同時最大化獎勵和熵可保證機器人在完成任務目標獲得獎勵的同時,策略具備較強的探索能力。

2.2 強化學習算法設定

網(wǎng)絡結(jié)構(gòu)主要由兩部分組成:動作值函數(shù)Q網(wǎng)絡和策略網(wǎng)絡(Policy),參數(shù)設置如表2所示。策略網(wǎng)絡輸出層的作用是輸入觀測狀態(tài)后,輸出12個關(guān)節(jié)的初始動作值。初始動作值經(jīng)過映射算法得到關(guān)節(jié)可執(zhí)行的伸縮長度。

表2 網(wǎng)絡結(jié)構(gòu)及參數(shù)設置Table 2 Network structure and parameter setting

可觀測狀態(tài)選取

本文設計的海膽機器人對環(huán)境信息的感知基于本體傳感器,不依靠視覺、雷達、地圖等高維觀測數(shù)據(jù)。獲取感知信息的硬件是慣性測量單元、步進電機和足端的接觸力傳感器。因此,可觀測狀態(tài)主要選擇以上三方面信息,包括:十二個伸縮關(guān)節(jié)的位置和速度:{,…,,,…,};中心基座的速度和姿態(tài)角:{,,,,,};觸地腿信號{,…,}。對以上42個觀測值進行歸一化處理后,作為Policy網(wǎng)絡和Q網(wǎng)絡的輸入。

動作空間

觀測狀態(tài)信息經(jīng)過策略網(wǎng)絡的傳遞和處理后,在輸出端得到十二維高斯分布函數(shù),對此分布進行抽樣,可得到一組初始動作值。若直接以此初始動作值作為機器人關(guān)節(jié)運動量,實驗發(fā)現(xiàn)機器人將發(fā)生劇烈的碰撞和彈跳,無法部署到樣機上。因此本文對網(wǎng)絡輸出值A(chǔ)ction設計了映射算法進行約束,約束后的機器人在實驗中可以以最接近樣機真實的運動方式運行,算法流程如圖2所示。

圖2 網(wǎng)絡輸出-關(guān)節(jié)動作映射算法流程Fig.2 Flow chart of the network output and joint motion mapping

獎勵函數(shù)設置

強化學習方法的優(yōu)勢是可通過簡單的獎勵函數(shù)為機器人設定復雜運動目標,而不用設計者熟練掌握某一領(lǐng)域的特定知識,本文設置如下獎勵函數(shù):

(4)

式中:

為訓練機器人具備沿直線運動能力,仿真時,在某一時間步下,將坐標的變化量作為主要獎勵,持續(xù)向軸正方向運動獲得正獎勵;方向的速度(當前質(zhì)心在坐標方向下的速度與前一時間步的速度之差)越大將得到越高獎勵;獎勵函數(shù)對于少于三條觸地腿的情況進行懲罰,其中表示落地腿數(shù)目;獎勵限制了能量消耗,指第條腿的關(guān)節(jié)伸縮量。以上4項為衡量機器人運動狀態(tài)的基本獎勵,總獎勵為各獎勵之和:

(5)

對于特定任務目標還可補充特殊獎勵。由此可以得到最終的獎勵函數(shù)形式:

=+

(6)

2.3 高效數(shù)據(jù)采樣方案及訓練框架

傳統(tǒng)強化學習算法在馬爾可夫決策過程中會按照時間順序?qū)Ψ抡孢^程的序列數(shù)據(jù)依次采樣。但翻滾式機器人在運動時具備特殊性質(zhì):當質(zhì)心投影點移出支撐三角形后,此時不用再施加關(guān)節(jié)動作量,翻滾動作即可自然發(fā)生,并在一段時間的持續(xù)定軸轉(zhuǎn)動后穩(wěn)定到下一姿態(tài)。這段轉(zhuǎn)動時間隨機器人結(jié)構(gòu)、姿態(tài)、重力加速度的不同會有差異,如果對這一性質(zhì)加以利用,即將傳統(tǒng)方法對每一時間步依次采樣的過程改變?yōu)榘凑辙D(zhuǎn)動時間間隔進行采樣,則可使用更少的數(shù)據(jù)訓練出更高效的翻滾技能。

在實驗中對轉(zhuǎn)動時間間隔參數(shù)進行了參數(shù)搜索,最優(yōu)參數(shù)在同一任務下相較依次采樣方法訓練速度提升5倍以上,具體可參考實驗部分3.2節(jié)。基于以上方法和環(huán)境設定,利用圖3所示的框架進行策略網(wǎng)絡的訓練,具體分為兩個并行循環(huán):循環(huán)一是機器人與環(huán)境交互,產(chǎn)生新的馬爾可夫序列數(shù)據(jù);循環(huán)二是存儲數(shù)據(jù)并優(yōu)化網(wǎng)絡參數(shù),提升網(wǎng)絡性能。

圖3 運動策略網(wǎng)絡訓練框架Fig.3 Movement policy network training framework

3 實驗及分析

3.1 仿真驗證實驗

仿真實驗在動力學開源平臺Pybullet 3.0.7上進行,運算主機配備了英特爾i7-8500U處理器和16 GB內(nèi)存。神經(jīng)網(wǎng)絡使用基于CPU版本Pytorch框架進行訓練,機器人模型參數(shù)設置如表3所示。

表3 仿真實驗參數(shù)設置Table 3 Simulation experiment parameter setting

平面地形實驗:首先在該實驗中進行運動策略可行性驗證,預設5000回合訓練,每回合進行200時間步的探索,同時在此環(huán)境中補充如下獎勵函數(shù):

(7)

該獎勵限制了機器人在方向的位移,使其以接近直線的軌跡朝軸正向運動。訓練目標是以最低能耗平穩(wěn)地運動進入目標地點,同時盡量保持3條腿觸地,以減少落地撞擊。經(jīng)過5小時訓練,機器人達到了目標平均獎勵,學習曲線及運動效果如圖4,5(a)所示,代表仿真中的實時時間。

圖4 平面地形學習曲線Fig.4 Flat terrain movement learning curve

圖5 多地形運動步態(tài),自主運動過程的魯棒性展示及對比Fig.5 Multi terrain gait movement display, demonstration and comparison of robustness of autonomous motion process

非結(jié)構(gòu)化地形實驗:非結(jié)構(gòu)體現(xiàn)為位置和數(shù)量隨機生成的石塊障礙,如圖6(a)所示,石塊的直徑在0~280 mm之間,機器人所有關(guān)節(jié)全伸長狀態(tài)下尺寸為320 mm;訓練時,機器人只能通過自身足端接觸、關(guān)節(jié)長度、速度和中心姿態(tài)感知外界,因此該相對比例下的未知復雜地形對機器人而言具有較大挑戰(zhàn)性。

非結(jié)構(gòu)化地形訓練實驗預設12000回合,每回合進行1000時間步探索。訓練目標是在復雜環(huán)境中機器人通過網(wǎng)絡進行自主運動控制和決策,越過障礙進入目標地點。經(jīng)過20 h訓練,學習曲線基本收斂,如圖6(b)所示,運動展示如圖5(b)所示。

圖6 非結(jié)構(gòu)化地形及訓練曲線Fig.6 Unstructured terrain and learning curve

魯棒性實驗:本文通過對搭載訓練過的策略網(wǎng)絡的機器人自主運動過程施加較大外力干擾,發(fā)現(xiàn)其具有較強魯棒性,即在外力干擾下偏離目標軌跡后,撤除外力,機器人會自主調(diào)節(jié)運動過程,直至恢復目標軌跡,如圖5(c)所示。

3.2 對比實驗

為驗證基于翻滾運動模式設計的數(shù)據(jù)高效采樣方案對步態(tài)訓練的影響,進行了對比實驗。實驗發(fā)現(xiàn)最優(yōu)時間間隔參數(shù)為45。圖7對比了參數(shù)為30,45,80時的學習曲線,參數(shù)45相較參數(shù)80的訓練效率提升2倍以上,相較參數(shù)30效率提升5倍以上。

圖7 不同時間間隔參數(shù)對訓練效率的影響Fig.7 Effect of different time gap parameters on training efficiency

為驗證引入了策略熵最大化指標的強化學習算法訓練的策略能力,將該網(wǎng)絡的魯棒性與基于TD3強化學習算法的訓練結(jié)果作對比。對比圖5(c)和圖5(d),對相同訓練任務的運動過程施加較大外力干擾后,基于本文方法訓練的智能體可自主恢復路線,基于TD3算法的智能體不能對環(huán)境干擾做出響應,最終無法自主恢復運動路線。

圖8提取了機器人平面地形運動過程(35時間步),可看到該策略未基于任何先驗信息而習得了近似周期性切換的步態(tài),這一結(jié)果符合自然界翻滾式運動模式的步態(tài)特征;同時可發(fā)現(xiàn)在大多數(shù)時刻,機器人保持3腿著地狀態(tài),該狀態(tài)下機器人質(zhì)心運動平穩(wěn),但仍然存在某些時刻著地腿少于3的情況,在這一時刻,機器人的運動穩(wěn)定性較差,質(zhì)心處于較高點,可能會與地面發(fā)生劇烈撞擊,這是需要進一步提升的方向。

圖8 平面地形周期性步態(tài)切換序列、關(guān)節(jié)能量消耗、質(zhì)心高度曲線和單足落地時刻Fig.8 Flat terrain periodic gait switching sequence, total energy consumption, centroid height curve and single foot landing time

3.3 樣機實驗及分析

為驗證本文方法所訓練的運動步態(tài)在實物樣機平臺上的可行性,本文提取了策略網(wǎng)絡在平面地形下生成的步態(tài)數(shù)據(jù),并在樣機上進行了開環(huán)步態(tài)實驗。如圖9所示,該步態(tài)結(jié)果可實現(xiàn)摩擦接觸較復雜平面下的穩(wěn)定運動,運動過程基本保持3條腿觸地情況。

圖9(a)中0~30 s運動過程展示了一步翻滾動作,俯視圖如圖9(b)所示。初始時刻機器人保持三足支撐,當其準備翻滾至下一狀態(tài)時,為避免落地沖擊對樣機造成破環(huán),其訓練得到的步態(tài)首先伸長前進方向上即將落地的新支撐腿(探測足)和此時已著地但下一時刻將騰空的支撐腿(驅(qū)動足),同時其他懸空足將以某種規(guī)律伸長或縮短以配置質(zhì)心。如圖9(a)中=11 s和圖9(b)中時刻2所示,機器人將以緩慢穩(wěn)定的過程以兩支撐足觸地點連線為軸旋轉(zhuǎn),直到質(zhì)心越過兩不動支撐足時,探測足觸地,驅(qū)動足離地,全過程保持3條腿著地的方式完成本次翻滾。之后,探測足和驅(qū)動足將收縮達到新的穩(wěn)定狀態(tài),以調(diào)配下一步翻滾的質(zhì)心位置。

圖9 平面地形開環(huán)步態(tài)樣機實驗Fig.9 Open loop gait prototype experiment on flat terrain

由樣機實驗過程可看出,相較手動設計步態(tài),基于學習方法的步態(tài)結(jié)果具有更高的運動效率:在實現(xiàn)本次翻滾的質(zhì)心調(diào)整時,部分關(guān)節(jié)的伸縮已開始為下一次翻滾動作準備,因此該方法可更大程度發(fā)揮多足機器人冗余自由度的結(jié)構(gòu)優(yōu)勢。

4 結(jié) 論

針對適應性結(jié)構(gòu)和智能化控制在行星表面輕型自主探測任務的需求,結(jié)合仿生思想和強化學習方法,本文設計了一種仿海膽結(jié)構(gòu)的十二足球形探測機器人及基于SAC算法的步態(tài)訓練策略。實驗表明,通過高效訓練,該機器人可快速掌握未知非結(jié)構(gòu)化地形下的自主運動能力和抗干擾能力。在虛擬環(huán)境實驗中:平面地形下,無模型策略習得了近似周期的步態(tài)序列;隨機石塊地形和施加外力情形下機器人均能自主躲避障礙、抵抗干擾、完成運動目標。同時,通過開展自研樣機的實驗,驗證了數(shù)據(jù)驅(qū)動方法所生成的步態(tài)在真實環(huán)境下的動力學可行性。為進一步開展復雜地形測試提供了實驗基礎(chǔ)。與已有方法相比,該方法所生成的步態(tài)具有更高的魯棒性和運動效率。

另外,本文提出的運動策略無需動力學模型或運動學模型等先驗知識,具備不同地形下的泛化能力。機器人具有結(jié)構(gòu)簡單、無傾覆等優(yōu)勢;通過快速訓練,即可直接部署;可為洞穴、沙漠等地球極端地形的自主探測,或新一代小行星表面探測器的設計提供參考。本文后續(xù)將進一步結(jié)合傳感器融合技術(shù),實現(xiàn)樣機平臺在真實環(huán)境探測場景下的高精度運動控制。

猜你喜歡
樣機步態(tài)驅(qū)動
基于模糊PI控制的驅(qū)動防滑仿真系統(tǒng)分析
按需選擇在PPT中美化APP截圖
步態(tài)識人
Dunnnk讓設計作品更加形象逼真
雄安新區(qū)出現(xiàn)基于區(qū)塊鏈技術(shù)應用的智慧垃圾收集器樣機
能充電并識別步態(tài)的新設備
步態(tài)異常,老人病了
雙筒型棉被清潔器的研制
AMD VS微軟 SSD的AHCI驅(qū)動選哪家
平度市| 疏勒县| 珲春市| 鄂托克前旗| 清流县| 离岛区| 万载县| 中山市| 珲春市| 瓮安县| 凌海市| 合山市| 东乡族自治县| 高平市| 曲阳县| 长阳| 革吉县| 会东县| 浮梁县| 赣州市| 舒兰市| 铜山县| 玉屏| 贺州市| 卫辉市| 朝阳市| 合阳县| 桐乡市| 治多县| 南丰县| 河东区| 林口县| 汤阴县| 九江县| 信阳市| 钟山县| 乌苏市| 彰化县| 邯郸市| 凯里市| 十堰市|