国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

伯克利無模型共享自動(dòng)化,探索人機(jī)交互新方法

2018-06-11 09:32SiddharthReddy
機(jī)器人產(chǎn)業(yè) 2018年3期
關(guān)鍵詞:飛行員輔助深度

□文/ Siddharth Reddy

最近,加州大學(xué)伯克利分校提出使用深度強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)無模型共享自動(dòng)化,共享自動(dòng)化的研究主旨是通過推理用戶的目標(biāo)并進(jìn)行自動(dòng)化行動(dòng)。這種方法已經(jīng)在駕駛輔助、假肢的腦機(jī)接口和輔助遠(yuǎn)程操作方面取得了很好的進(jìn)展,那么深度強(qiáng)化學(xué)習(xí)是否能有助于建立靈活和實(shí)用的輔助系統(tǒng)呢?讓我們通過此文來了解一下。

設(shè)想一下,一名無人機(jī)駕駛員遠(yuǎn)程駕駛一架四旋翼飛行器,使用機(jī)載相機(jī)進(jìn)行導(dǎo)航和降落。不熟悉的飛行動(dòng)力學(xué)、地形和網(wǎng)絡(luò)延遲都可能會(huì)使人類對這個(gè)系統(tǒng)的掌控面臨一定的挑戰(zhàn)。解決這個(gè)問題的一個(gè)方法是對一個(gè)自動(dòng)智能體進(jìn)行訓(xùn)練,從而使其能夠在無需人為干預(yù)的情況下執(zhí)行巡視和制圖等任務(wù)。當(dāng)任務(wù)被明確指定,并且智能體可以觀察到成功所需的全部信息時(shí),該策略就可以很好地執(zhí)行。不幸的是,許多涉及人類用戶的實(shí)際應(yīng)用程序并不能滿足這些條件:用戶的意圖通常是智能體所無法直接訪問的隱私信息,而且任務(wù)可能太復(fù)雜,以至于用戶無法對其進(jìn)行精確定義。例如,飛行員可能想要跟蹤一組移動(dòng)目標(biāo)(比如一群動(dòng)物),并且在飛行過程中即時(shí)改變目標(biāo)優(yōu)先級(例如,關(guān)注那些受傷的人)。共享自動(dòng)化通過將用戶輸入與自動(dòng)協(xié)助相結(jié)合以解決此問題,換句話說,這是為了增強(qiáng)人類的控制而不是取代它。

背景

將人類和機(jī)器智能結(jié)合在共享控制系統(tǒng)中這一想法,可以追溯到1949年Ray Goertz所提出的主從操縱手(Master-Slave Manipulator)、1969年 Ralph Mosher所 提出的Hardiman外骨骼,和1980年Marvin Minsky所提出的遠(yuǎn)程呈現(xiàn)呼叫的初期。在機(jī)器人技術(shù)、人機(jī)交互和人工智能領(lǐng)域進(jìn)行了數(shù)十年的研究之后,人類操作員和遙控機(jī)器人之間的交互仍然是一個(gè)挑戰(zhàn)。根據(jù)對2015年DARPA機(jī)器人挑戰(zhàn)賽的回顧,提高機(jī)器人性能的最具成本效益的研究領(lǐng)域是人機(jī)交互……在DRC中,機(jī)器人穩(wěn)定性和性能的最大敵人是操作失誤。開發(fā)出一種能夠避免和克服這種操作錯(cuò)誤的方法對于實(shí)際中的機(jī)器人來說是至關(guān)重要的。操作人員會(huì)在壓力下犯錯(cuò)誤,特別是在沒有廣泛的訓(xùn)練和實(shí)踐的現(xiàn)實(shí)條件下。

共享自動(dòng)化的一個(gè)研究主旨是通過推理用戶的目標(biāo)并進(jìn)行自動(dòng)化行動(dòng)來實(shí)現(xiàn)它們,從而解決這個(gè)問題。Shervin Javdani博士在其論文中談及了對以往研究方法的優(yōu)秀評論。這些方法已經(jīng)在更好的駕駛輔助、假肢的腦機(jī)接口和輔助遠(yuǎn)程操作方面取得了進(jìn)展,但往往需要事先對世界加以了解,具體地說:(1)動(dòng)態(tài)模型,預(yù)測在給定的環(huán)境中采取給定操作的結(jié)果;(2)用戶可能擁有的目標(biāo)集;(3)觀察模,描述給定目標(biāo)的用戶的行為?;谀P偷墓蚕碜詣?dòng)算法非常適合于這樣一些領(lǐng)域,可以直接對領(lǐng)域中的知識(shí)進(jìn)行硬編碼或?qū)W習(xí),但卻面臨著由具有未定義的目標(biāo)和不可預(yù)測的用戶行為的非結(jié)構(gòu)化環(huán)境所帶來的挑戰(zhàn)。我們從另一個(gè)角度來解決這個(gè)問題,使用深度強(qiáng)化學(xué)習(xí)來實(shí)現(xiàn)無模型共享自動(dòng)化。

深度強(qiáng)化學(xué)習(xí)使用神經(jīng)網(wǎng)絡(luò)函數(shù)近似來處理高維度的、連續(xù)狀態(tài)和動(dòng)作空間中的維度問題,并且最近在從零開始訓(xùn)練自動(dòng)智能體玩視頻游戲、在圍棋對戰(zhàn)中擊敗人類世界冠軍、控制機(jī)器人等方面取得了顯著的成功。我們已經(jīng)采取了初步措施來回答以下問題:深度強(qiáng)化學(xué)習(xí)是否有助于建立靈活和實(shí)用的輔助系統(tǒng)?

在回路中具有人類輔助的無模型強(qiáng)化學(xué)習(xí)

為了在最小的先驗(yàn)假設(shè)下實(shí)現(xiàn)共享控制遠(yuǎn)程操作,我們設(shè)計(jì)了一個(gè)用于共享自動(dòng)化的無模型深度強(qiáng)化學(xué)習(xí)算法。關(guān)鍵理念在于學(xué)習(xí)從環(huán)境觀察和用戶輸入到智能體行為的端到端映射,而任務(wù)獎(jiǎng)勵(lì)是唯一的監(jiān)督形式。從智能體的角度來看,用戶的行為像一個(gè)可以進(jìn)行微調(diào)的先驗(yàn)策略,以及一個(gè)可以生成觀察結(jié)果的附加傳感器,從而智能體可以隱式地解碼用戶的私人信息。從用戶的角度來看,智能體的行為就像一個(gè)自適應(yīng)界面,可以學(xué)習(xí)從用戶命令到能夠最大化任務(wù)獎(jiǎng)勵(lì)的操作的個(gè)性化映射。

這項(xiàng)研究的核心挑戰(zhàn)之一是采用標(biāo)準(zhǔn)的深度強(qiáng)化學(xué)習(xí)技術(shù),在不顯著干擾用戶反饋控制回路,或進(jìn)行長時(shí)間的訓(xùn)練,使他們感到疲勞,利用來自人類的控制輸入。為了解決這些問題,我們使用深度Q學(xué)習(xí)來學(xué)習(xí)一個(gè)近似的狀態(tài)——行為值函數(shù),該函數(shù)計(jì)算在給定當(dāng)前環(huán)境中的觀察和用戶輸入的情況下,行為的預(yù)期未來返回值。配備該值函數(shù)后,輔助智能體將對用戶的控制輸入執(zhí)行最接近的高值操作。智能體的獎(jiǎng)勵(lì)函數(shù)是用于計(jì)算每個(gè)狀態(tài)的已知術(shù)語,和用戶在任務(wù)成功或失敗時(shí)提供的終端獎(jiǎng)勵(lì)的組合。請參見圖1了解此過程。

圖1 在無模型共享自動(dòng)化中,我們在回路中具有人類輔助的深度Q學(xué)習(xí)算法的概述

學(xué)會(huì)進(jìn)行輔助

之前的研究已經(jīng)將共享自動(dòng)化形式化為部分可觀察的馬爾可夫決策過程(POMDP),其中用戶的目標(biāo)對智能體是未知的,并且為了完成任務(wù)必須對其進(jìn)行推理。而現(xiàn)有方法傾向于假設(shè)POMDP的以下組成部分是事先已知的:(1)環(huán)境動(dòng)態(tài)或狀態(tài)轉(zhuǎn)移分布;(2)用戶的一組可能的目標(biāo),或目標(biāo)空間;(3)對于給定目標(biāo)的用戶控制策略,或用戶模型。在我們的研究中,我們放寬了這三個(gè)標(biāo)準(zhǔn)假設(shè)。我們引入了一種無模型的深度強(qiáng)化學(xué)習(xí)方法,該方法能夠在不知道這些知識(shí)的情況下提供幫助,但也可以已知用戶模型和目標(biāo)空間對其加以利用。

具有用戶控制的Q-Learning

在回路中進(jìn)行無模型強(qiáng)化學(xué)習(xí)會(huì)帶來兩個(gè)挑戰(zhàn):保持信息豐富的用戶輸入和最小化與環(huán)境的交互次數(shù)。如果用戶輸入是一個(gè)建議控件,一直忽略該建議并采取不同的行為可能會(huì)降低用戶輸入的質(zhì)量,因?yàn)槿祟愐揽克麄兊男袨榉答亖韴?zhí)行實(shí)時(shí)控制任務(wù)。像TRPO這樣的通用策略算法很難在這個(gè)環(huán)境中進(jìn)行部署,因?yàn)樗鼈儾荒鼙WC忽略用戶輸入的頻率。它們也傾向于需要與環(huán)境進(jìn)行大量的交互,而這對于人類用戶來說是不切實(shí)際的。受到這兩個(gè)標(biāo)準(zhǔn)的啟發(fā),我們轉(zhuǎn)向深度Q學(xué)習(xí)。

Q學(xué)習(xí)是一種off-policy算法,使我們能夠通過對用于給定預(yù)期返回和用戶輸入情況下選擇行為的策略進(jìn)行修改來解決保持信息豐富的用戶輸入的問題。從最近在并行自動(dòng)化和外部回路穩(wěn)定方面研究中所體現(xiàn)出的最小干預(yù)原則得到啟發(fā),我們執(zhí)行一個(gè)最接近用戶建議的可行操作,其中,如果一個(gè)操作不比最佳操作差很多,那么該操作就是可行的。

考慮到最小化與環(huán)境的交互次數(shù),我們注意到,相較于策略梯度和基于Monte Carlo值的方法,off-policy Q-learning傾向于具有更高的樣本效率。當(dāng)用戶近似最優(yōu)時(shí),我們的行為策略的結(jié)構(gòu)也加快了學(xué)習(xí)速度:對于適當(dāng)大的α,智能體學(xué)會(huì)對用戶的策略進(jìn)行微調(diào),而不是學(xué)習(xí)從零開始執(zhí)行任務(wù)。在實(shí)踐中,這意味著在學(xué)習(xí)的早期階段,組合的人機(jī)團(tuán)隊(duì)至少能夠和沒有附加輔助的人類執(zhí)行能力一樣好,而不是在隨機(jī)策略的層面上執(zhí)行。

用戶研究

我們將我們的方法應(yīng)用于兩個(gè)實(shí)時(shí)輔助控制問題:月球登陸游戲(Lunar Lander game)和四旋翼著陸任務(wù)(Quadrotor Landing Task)。這兩項(xiàng)任務(wù)都涉及利用離散動(dòng)作空間和低維狀態(tài)觀測(包括位置、方向和速度信息)來控制運(yùn)動(dòng)。在這兩項(xiàng)任務(wù)中,人類飛行員都擁有完成任務(wù)所必須的私有信息,但他們無法獨(dú)自完成任務(wù)。

月球登陸游戲

盡管比賽的目的是通過操控一臺(tái)主發(fā)動(dòng)機(jī)和兩個(gè)側(cè)向推進(jìn)器,將飛船降落在旗幟之間,而不發(fā)生碰撞或出界。輔助副駕駛可以看到著陸器的位置、方向和速度,但不能看到旗幟的位置。

很少有人能夠單獨(dú)完成月球登陸游戲,但在副駕駛參與時(shí),他們往往表現(xiàn)得很好。

在選用綜合飛行員模型進(jìn)行的模擬實(shí)驗(yàn)中,我們還發(fā)現(xiàn)了明確測量目標(biāo)(即著陸平臺(tái)的位置)的顯著益處,這表明我們可以而且應(yīng)該利用目標(biāo)空間和用戶模型,而不是簡單地將用戶的原始控制輸入添加到智能體的觀測結(jié)果中。

經(jīng)過分析,我們發(fā)現(xiàn)月球登陸游戲的一個(gè)缺點(diǎn)是,游戲界面和物理性不能反映在現(xiàn)實(shí)世界中,機(jī)器人共享自動(dòng)任務(wù)的復(fù)雜性和不可預(yù)測性。為了在更加真實(shí)的環(huán)境中對我們的方法進(jìn)行評估,我們?yōu)轳{駛一架真實(shí)四旋翼飛行器的人類飛行員定制了一項(xiàng)任務(wù)。

圖2a 30次以上的平均成功率和失敗率

圖2b-c 前后兩圖分別表示,在月球登陸游戲中,有副駕駛和無副駕駛兩種情況下的人類飛行員追蹤軌跡。紅色軌跡表示以碰撞或出界告終,綠色表示任務(wù)成功完成,其他情況用灰色軌跡表示。中間的星號標(biāo)記代表著陸平臺(tái)。為了便于說明,我們只顯示左側(cè)邊界的著陸點(diǎn)數(shù)據(jù)。

圖3a 超過20次實(shí)驗(yàn)的平均成功率和失敗率

四旋翼著陸任務(wù)

該任務(wù)的目的是讓一架Parrot AR-Drone 2無人機(jī),著陸在距起飛點(diǎn)一定距離的小型、方形著陸平臺(tái)上,并使無人機(jī)的第一人稱視角指向環(huán)境中的隨機(jī)目標(biāo)(例如一把紅色的椅子),而不會(huì)飛出邊界或耗盡時(shí)間。飛行員使用鍵盤控制飛行速度,并被阻止獲取第三人稱視角,這樣一來,他們就不得不依賴無人機(jī)的第一人稱視角來進(jìn)行導(dǎo)航和著陸。輔助副駕駛觀察無人機(jī)的位置、方向和速度,但不知道飛行員想要看向哪個(gè)目標(biāo)。

人們發(fā)現(xiàn),在限制時(shí)間的情況下,將攝像頭指向目標(biāo)場景并精確導(dǎo)航至一個(gè)可行的著陸平臺(tái),具有挑戰(zhàn)性。輔助副駕駛在著陸平臺(tái)上進(jìn)行著陸幾乎沒有任何困難,但卻并不知道要將攝像頭對準(zhǔn)哪里,因?yàn)樗恢廊祟愒谥懞笙胗^察什么。因此,人類飛行員可以將精力用于攝像頭的瞄準(zhǔn),讓副駕駛關(guān)注在著陸平臺(tái)上的精準(zhǔn)著陸,從而相互配合,完成任務(wù)。

我們的研究結(jié)果表明,飛行員和副駕駛相配合的任務(wù)完成情況,要顯著優(yōu)于單個(gè)飛行員或單個(gè)副駕駛的任務(wù)完成情況。

圖3b-c 前后兩圖分別表示,在四旋翼著陸任務(wù)中,有副駕駛和無副駕駛兩種情況下,人類飛行員飛行軌跡的鳥瞰圖。紅色軌跡表示以碰撞或出界而告終,綠色軌跡表示任務(wù)成功完成,其他情況用灰色軌跡表示。中間的星號標(biāo)記代表著陸平臺(tái)。

未來探索

我們的方法有一個(gè)主要的缺點(diǎn):無模型深度強(qiáng)化學(xué)習(xí)通常需要大量的訓(xùn)練數(shù)據(jù),這對操縱物理機(jī)器人的人類用戶而言是一種負(fù)擔(dān)。實(shí)驗(yàn)中,我們通過在無人類飛行員干預(yù)的情況下,從模擬環(huán)境中對副駕駛進(jìn)行訓(xùn)練,從而在一定程度上解決了這一問題。遺憾的是,由于構(gòu)建高保真模擬器和用戶無關(guān)的獎(jiǎng)勵(lì)函數(shù)Rgeneral存在一定難度,因此這對于實(shí)際應(yīng)用而言并不總是可行的。目前,我們正在探索解決這一問題的方法。

猜你喜歡
飛行員輔助深度
老年人行動(dòng)輔助車
四增四減 深度推進(jìn)
深度思考之不等式
2021年7月22日,演習(xí)期間,美軍飛行員從F-16戰(zhàn)隼中揮手
飛行員擁有自己的秘密語言,這才是他們真正要表達(dá)的 精讀
簡約教學(xué) 深度學(xué)習(xí)
飛行員是一種什么樣的職業(yè)
例談何時(shí)構(gòu)造輔助圓解題
飛行員的酷裝備
深度挖掘
象山县| 金寨县| 深圳市| 宝鸡市| 章丘市| 屯留县| 普宁市| 隆德县| 五原县| 宜黄县| 泽普县| 象山县| 陆河县| 台山市| 南充市| 雷山县| 剑阁县| 西充县| 精河县| 安塞县| 琼结县| 青铜峡市| 江华| 阳新县| 靖宇县| 离岛区| 玉山县| 涞水县| 巫山县| 鄂托克前旗| 上虞市| 额敏县| 宁陵县| 鄯善县| 龙泉市| 宜昌市| 浙江省| 安陆市| 庆云县| 永春县| 济宁市|