国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

DeepMind雙路徑智能體結(jié)構(gòu),不用地圖也能導(dǎo)航

2018-06-11 09:32PiotrMirowskiMatthewKoichiGrimesMateuszMalinowskiKarlMoritzHermann
機(jī)器人產(chǎn)業(yè) 2018年3期
關(guān)鍵詞:神經(jīng)網(wǎng)絡(luò)架構(gòu)智能

□文 / Piotr Mirowski、Matthew Koichi Grimes、Mateusz Malinowski、Karl Moritz Hermann、

Keith Anderson、Denis Teplyashin、Karen Simonyan、Koray Kavukcuoglu、Andrew Zisserman、Raia Hadsell

一直以來(lái),導(dǎo)航都是一項(xiàng)重要的認(rèn)知任務(wù),它使人類和動(dòng)物在一個(gè)復(fù)雜的世界里,在沒(méi)有地圖的情況下,能夠穿越遙遠(yuǎn)的距離。可以這樣說(shuō),能夠在非結(jié)構(gòu)化環(huán)境中導(dǎo)航是智能生物的基本能力,因此這對(duì)于人工智能的研究和開發(fā)具有根本性的作用。最近,DeepMind提出了一種全新的、雙路徑智能體結(jié)構(gòu),該結(jié)構(gòu)采用端到端的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,可處理城市級(jí)規(guī)模的真實(shí)視覺(jué)導(dǎo)航任務(wù)。

在你童年生活中,你是如何學(xué)會(huì)對(duì)你所在的社區(qū)進(jìn)行導(dǎo)航的?你是如何導(dǎo)航去你的朋友家、去學(xué)校或者去雜貨店的?可能沒(méi)有地圖,只要記住街道的視覺(jué)外觀,就可以沿著路轉(zhuǎn)彎就能到達(dá)目的地。當(dāng)你逐漸了解你所在的社區(qū)時(shí),你變得更加自信了,掌握了自己的去向,并學(xué)習(xí)了新的、越來(lái)越復(fù)雜的路徑。你可能短暫地迷失過(guò)方向,但又因?yàn)榈貥?biāo)的出現(xiàn),或者甚至可能是通過(guò)看太陽(yáng)找到一個(gè)即時(shí)指南針,從而再次找到了你的路線。

導(dǎo)航是一項(xiàng)重要的認(rèn)知任務(wù),它使人類和動(dòng)物在一個(gè)復(fù)雜的世界里,在沒(méi)有地圖的情況下,能夠穿越遙遠(yuǎn)的距離。這樣的遠(yuǎn)程導(dǎo)航可以同時(shí)支持自我定位(“我在這里”)和目標(biāo)表征(“我要去那里”)。

在《學(xué)習(xí)在不使用地圖的情況下在城市中進(jìn)行導(dǎo)航》這篇論文中,我們呈現(xiàn)了一種交互的導(dǎo)航環(huán)境,它使用了來(lái)自谷歌街景(Google Street View)的第一人稱視角照片,并將該環(huán)境進(jìn)行游戲化以訓(xùn)練人工智能。根據(jù)街景圖片的標(biāo)準(zhǔn),人臉和車輛牌照都被模糊了且無(wú)法辨認(rèn)。我們建立了一個(gè)基于神經(jīng)網(wǎng)絡(luò)的人工智能體,它可以利用視覺(jué)信息(來(lái)自街景圖像的像素)來(lái)學(xué)習(xí)如何在多個(gè)城市中進(jìn)行導(dǎo)航。請(qǐng)注意,這項(xiàng)研究是關(guān)于廣義的導(dǎo)航的,而不是駕駛;我們沒(méi)有使用交通信息,也沒(méi)有試圖對(duì)車輛控制進(jìn)行建模。

當(dāng)智能體到達(dá)目標(biāo)目的地(例如,特定的一對(duì)緯度和經(jīng)度坐標(biāo))時(shí),它就會(huì)得到獎(jiǎng)勵(lì)。它就像一個(gè)快遞員,有著無(wú)止境的交付任務(wù),但它沒(méi)有地圖。隨著時(shí)間的推移,人工智能體學(xué)會(huì)以這種方式跨越整個(gè)城市。我們還證明了,我們的智能體可以在多個(gè)城市中學(xué)習(xí)這項(xiàng)任務(wù),然后魯棒性地適應(yīng)一個(gè)新的城市。

我們的智能體在不訪問(wèn)該環(huán)境地圖的情況下,在外觀多樣化的環(huán)境中進(jìn)行導(dǎo)航

學(xué)習(xí)在不需要構(gòu)建地圖的情況下進(jìn)行導(dǎo)航

我們背離了那種依賴于顯式測(cè)繪和探索的傳統(tǒng)方法(就像試圖將自己定位并同時(shí)繪制地圖的那種制圖師)。與此相反,我們的方法是學(xué)習(xí)人類過(guò)去常常使用的那種方法進(jìn)行導(dǎo)航——沒(méi)有地圖、GPS定位或者其他的輔助手段,只使用視覺(jué)觀察。我們構(gòu)建了一個(gè)神經(jīng)網(wǎng)絡(luò)智能體,它輸入從環(huán)境中觀察到的圖像,并預(yù)測(cè)在該環(huán)境中它應(yīng)該采取的下一步行動(dòng)。我們使用深度強(qiáng)化學(xué)習(xí)來(lái)對(duì)它進(jìn)行端到端的訓(xùn)練,類似于最近的一些關(guān)于學(xué)習(xí)如何在復(fù)雜的3D迷宮中進(jìn)行導(dǎo)航的研究,以及在玩游戲中使用引入了無(wú)監(jiān)督輔助任務(wù)的強(qiáng)化學(xué)習(xí)的研究。與那些在小規(guī)模模擬迷宮環(huán)境中進(jìn)行的研究不同,我們利用了城市規(guī)模的真實(shí)世界數(shù)據(jù),包括復(fù)雜的十字路口、人行道、隧道,以及橫跨倫敦、巴黎和紐約的各種拓?fù)浣Y(jié)構(gòu)。此外,我們使用的方法還支持特定城市的學(xué)習(xí)和優(yōu)化,以及泛化的、可遷移的導(dǎo)航行為。

可以遷移到新城市的模塊化神經(jīng)網(wǎng)絡(luò)架構(gòu)

我們的智能體中的神經(jīng)網(wǎng)絡(luò)由三部分組成:(1)一個(gè)能夠處理圖像并提取視覺(jué)特征的卷積網(wǎng)絡(luò);(2)一個(gè)特定于地區(qū)的循環(huán)神經(jīng)網(wǎng)絡(luò),它的隱式任務(wù)是負(fù)責(zé)記憶環(huán)境以及學(xué)習(xí)“這里”(智能體的當(dāng)前位置)和“那里”(目標(biāo)的位置)的表征;(3)不因地區(qū)改變的循環(huán)網(wǎng)絡(luò),它生產(chǎn)出智能體行為的導(dǎo)航策略。特定于地區(qū)的模塊被設(shè)計(jì)為可互換的,正如其名稱所示,這個(gè)模塊對(duì)于智能體所導(dǎo)航的每個(gè)城市來(lái)說(shuō)都是獨(dú)一無(wú)二的,但視覺(jué)模塊和策略模塊是可以不因地區(qū)改變的。

就像在谷歌街景界面中一樣,智能體可以在適當(dāng)?shù)奈恢眠M(jìn)行旋轉(zhuǎn),或者在可能的情況下前進(jìn)到下一個(gè)全景圖。與谷歌地圖和街景環(huán)境不同的是,該智能體沒(méi)有看到小箭頭、局部地圖或全局地圖,也沒(méi)有看到著名的小黃人(Pegman):它需要學(xué)習(xí)區(qū)分開放的道路和人行道。在現(xiàn)實(shí)世界中,目標(biāo)目的地可能在幾公里之外,并需要智能體跨過(guò)數(shù)百幅全景圖才能到達(dá)目的地。

我們證明了,我們所提出的方法可以提供一種將知識(shí)遷移到新城市的機(jī)制。和人類一樣,當(dāng)智能體訪問(wèn)一個(gè)新城市時(shí),我們希望它必須學(xué)習(xí)一套新的地標(biāo),但不需要重新學(xué)習(xí)它的視覺(jué)表征或它的行為(例如,沿著街道向前走,或者在十字路口轉(zhuǎn)彎)。因此,我們使用了多城市(MultiCity)架構(gòu),首先在許多城市進(jìn)行了訓(xùn)練,然后凍結(jié)了策略網(wǎng)絡(luò)和視覺(jué)的卷積網(wǎng)絡(luò),并且在一個(gè)新城市中只有一條特定于地區(qū)的路徑。這種方法使智能體能夠獲得新的知識(shí),而不會(huì)忘記它已經(jīng)學(xué)過(guò)的知識(shí),這與漸進(jìn)式神經(jīng)網(wǎng)絡(luò)架構(gòu)(progressive neural networks architecture)類似。

研究導(dǎo)航是研究和發(fā)展人工智能的基礎(chǔ),嘗試在人工智能體中復(fù)制導(dǎo)航也能幫助科學(xué)家了解其生物學(xué)基礎(chǔ)。

將城市導(dǎo)航(CityNav)架構(gòu)(a)、多城市導(dǎo)航(MultiCityNav)架構(gòu)與每個(gè)城市的特定地區(qū)路徑(b)作比較,以及對(duì)將智能體調(diào)整到新城市時(shí)的訓(xùn)練和遷移過(guò)程(c)作出說(shuō)明

在該研究中所使用的曼哈頓的五個(gè)區(qū)域

論文簡(jiǎn)述

可以這樣說(shuō),能夠在非結(jié)構(gòu)化環(huán)境中導(dǎo)航是智能生物的基本能力,因此這對(duì)于人工智能的研究和開發(fā)具有根本性的作用。遠(yuǎn)程導(dǎo)航是一項(xiàng)復(fù)雜的認(rèn)知任務(wù),它依賴于開發(fā)一個(gè)空間的內(nèi)部表征,以可識(shí)別的地標(biāo)和具有魯棒性的視覺(jué)處理為基礎(chǔ),可同時(shí)支持連續(xù)的自我定位(“我在這里”)和目標(biāo)表示(“我將去那里”)?;谧罱M(jìn)行的將深度強(qiáng)化學(xué)習(xí)應(yīng)用于迷宮導(dǎo)航問(wèn)題的研究,我們提出了一種可應(yīng)用于城市規(guī)模的端到端深度強(qiáng)化學(xué)習(xí)方法。認(rèn)識(shí)到成功的導(dǎo)航依賴于通用策略與特定于地區(qū)的知識(shí)的集成,我們提出了一種雙路徑體系架構(gòu),可以將特定地區(qū)的特征封裝起來(lái),同時(shí)仍然能夠遷移到多個(gè)城市。我們展示了一個(gè)交互式導(dǎo)航環(huán)境,它使用Google Street View作為其照片內(nèi)容和全球范圍性的覆蓋范圍,并且證明我們的學(xué)習(xí)方法使得智能體能夠?qū)W習(xí)在多個(gè)城市進(jìn)行導(dǎo)航,并且能夠穿過(guò)可能在數(shù)公里之外的目標(biāo)目的地。點(diǎn)擊鏈接可以觀看視頻,里面概述了我們的研究,以及在不同城市環(huán)境和遷移任務(wù)中經(jīng)過(guò)訓(xùn)練的智能體,鏈接地址:https://googl/ESUfho。

論文《學(xué)習(xí)在不使用地圖的情況下在城市中進(jìn)行導(dǎo)航》

我們的環(huán)境根據(jù)Street View的實(shí)際場(chǎng)所構(gòu)建。該圖顯示了紐約市(時(shí)代廣場(chǎng)、中央公園)和倫敦(圣保羅大教堂)的不同景觀和相應(yīng)的局部地圖。綠色圓錐表示智能體的位置和方向。

一直以來(lái),關(guān)于導(dǎo)航這一主題吸引了各種研究學(xué)科和技術(shù)領(lǐng)域科學(xué)家們的關(guān)注,從希望破解網(wǎng)格代碼和位置細(xì)胞(place cells)的神經(jīng)科學(xué)家角度來(lái)看,它一度成為研究的主題;同時(shí)對(duì)于希望構(gòu)建可以到達(dá)特定目的地的移動(dòng)機(jī)器人研究來(lái)說(shuō),它也是機(jī)器人研究的一個(gè)基本方面。大多數(shù)算法都涉及在探索階段構(gòu)建顯式映射,然后通過(guò)該表征進(jìn)行規(guī)劃和行動(dòng)。在這項(xiàng)研究中,我們?cè)噲D通過(guò)提出一種新方法并展示其在大規(guī)模實(shí)際環(huán)境中的性能,從而挑戰(zhàn)端到端深度強(qiáng)化學(xué)習(xí)的導(dǎo)航極限。正如人類可以不依賴地圖、GPS定位或其他輔助工具而學(xué)習(xí)在城市中進(jìn)行導(dǎo)航一樣,我們的目標(biāo)是證明神經(jīng)網(wǎng)絡(luò)智能體可以僅通過(guò)使用視覺(jué)觀察便可橫穿整個(gè)城市。為了實(shí)現(xiàn)這一目標(biāo),我們?cè)O(shè)計(jì)了一個(gè)交互式環(huán)境,使用Google Street View中的圖像和基本連接信息,并提出了一種可在環(huán)境中導(dǎo)航的雙路徑智能體體系結(jié)構(gòu)。

通過(guò)使用可以從任務(wù)獎(jiǎng)勵(lì)中進(jìn)行學(xué)習(xí)的深度強(qiáng)化學(xué)習(xí)方法(例如,導(dǎo)航到目的地),在某些領(lǐng)域內(nèi),學(xué)習(xí)直接通過(guò)視覺(jué)輸入進(jìn)行導(dǎo)航已被證明是可能的。最近的研究已經(jīng)證明,強(qiáng)化學(xué)習(xí)智能體可以學(xué)習(xí)對(duì)家庭場(chǎng)景(Zhu等人于2017年、Wu等人于2018年提出)、迷宮(Mirowski等人于2016年提出)和3D游戲(例如Lample和Chaplot于2017年提出)進(jìn)行導(dǎo)航。盡管取得了成功,但眾所周知,深度強(qiáng)化學(xué)習(xí)方法數(shù)據(jù)低效且對(duì)環(huán)境干擾異常敏感,并且在游戲和模擬環(huán)境中的成功要遠(yuǎn)遠(yuǎn)高于其在實(shí)際環(huán)境中的應(yīng)用。因此,它們不可以用于基于真實(shí)圖像的大規(guī)模視覺(jué)導(dǎo)航,從而它也是我們此次研究的主題。

我們的貢獻(xiàn)

本文的主要貢獻(xiàn)是提出了一種全新的、雙路徑智能體結(jié)構(gòu)。該結(jié)構(gòu)采用端到端的強(qiáng)化學(xué)習(xí)進(jìn)行訓(xùn)練,可處理城市級(jí)規(guī)模的真實(shí)視覺(jué)導(dǎo)航任務(wù)。我們提出的智能體展示了目標(biāo)依賴性學(xué)習(xí),這意味著策略和價(jià)值函數(shù)必須學(xué)會(huì)適應(yīng)一系列作為輸入而給定的目標(biāo)。此外,該方法具有一種循環(huán)神經(jīng)結(jié)構(gòu),即支持特定語(yǔ)言環(huán)境的學(xué)習(xí),也支持通用的、可遷移的導(dǎo)航行為。平衡這兩項(xiàng)能力是通過(guò)將循環(huán)神經(jīng)路徑從智能體的通用導(dǎo)航策略中分離出來(lái)實(shí)現(xiàn)的。該路徑解決了兩點(diǎn)需求。首先,它接收并解釋了環(huán)境給出的當(dāng)前目標(biāo)。其次,它封裝并記憶了單個(gè)城市地區(qū)的特征和結(jié)構(gòu)。因此,我們不使用地圖或外部存儲(chǔ)器,而是提出了具有兩條循環(huán)路徑的體系架構(gòu),這可以有效解決單個(gè)城市中具有挑戰(zhàn)性的導(dǎo)航任務(wù),并僅通過(guò)訓(xùn)練新的特定語(yǔ)言環(huán)境路徑即可遷移到新的城市或地區(qū)。

我們?cè)谝粋€(gè)新的強(qiáng)化學(xué)習(xí)交互環(huán)境中演示了所提出的智能體架構(gòu),該環(huán)境將現(xiàn)實(shí)世界的圖像作為智能體觀測(cè),具有全球規(guī)模性和多樣性,以及建立在Google StreetView之上的現(xiàn)實(shí)世界的基礎(chǔ)內(nèi)容。在該環(huán)境中,我們研發(fā)了一項(xiàng)任務(wù),要求智能體在倫敦、巴黎和紐約市內(nèi)完成從一點(diǎn)到另一點(diǎn)的導(dǎo)航。我們?nèi)蝿?wù)的現(xiàn)實(shí)世界類比是,在一個(gè)給定的城市中,信使從一點(diǎn)A出發(fā)(該點(diǎn)是任意選定的),到指定的地點(diǎn)B,這一過(guò)程中沒(méi)有給出該區(qū)域的地圖,也沒(méi)有給出從A到B的路線,更沒(méi)有給出各點(diǎn)的具體方位。

導(dǎo)航是一項(xiàng)重要的認(rèn)知任務(wù),它使人類和動(dòng)物能夠在沒(méi)有地圖的情況下穿越復(fù)雜的世界。我們提出了一種解決城市級(jí)現(xiàn)實(shí)環(huán)境中任務(wù)的深度強(qiáng)化學(xué)習(xí)導(dǎo)航方法,引入并分析了一項(xiàng)新的信使任務(wù),同時(shí),我們還提出了一個(gè)多城市神經(jīng)網(wǎng)絡(luò)智能體架構(gòu),演示了該如何將其遷移到新的環(huán)境。

猜你喜歡
神經(jīng)網(wǎng)絡(luò)架構(gòu)智能
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測(cè)
“田間微課堂”創(chuàng)建農(nóng)機(jī)培訓(xùn)全新架構(gòu)
基于改進(jìn)Hopfield神經(jīng)網(wǎng)絡(luò)的對(duì)地攻擊型無(wú)人機(jī)自主能力評(píng)價(jià)
功能架構(gòu)在電子電氣架構(gòu)開發(fā)中的應(yīng)用和實(shí)踐
構(gòu)建富有活力和效率的社會(huì)治理架構(gòu)
智能前沿
智能前沿
智能前沿
智能前沿
常山县| 龙口市| 大关县| 环江| 古丈县| 宁安市| 红河县| 秦皇岛市| 万盛区| 栾川县| 民勤县| 新昌县| 富源县| 报价| 苏尼特右旗| 堆龙德庆县| 合阳县| 吴堡县| 奉节县| 洛扎县| 神木县| 盈江县| 桂东县| 平阴县| 太原市| 平凉市| 浠水县| 平乡县| 英吉沙县| 门头沟区| 资源县| 宁海县| 乌鲁木齐市| 屏南县| 霍城县| 福鼎市| 凤冈县| 毕节市| 东城区| 迁安市| 嘉峪关市|