国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

跨傳感器異步遷移學(xué)習(xí)的室內(nèi)單目無(wú)人機(jī)避障

2020-07-28 01:24:10薛喜地楊學(xué)博孫維超于興虎高會(huì)軍
宇航學(xué)報(bào) 2020年6期
關(guān)鍵詞:激光雷達(dá)行人深度

李 湛,薛喜地,楊學(xué)博,孫維超,于興虎,2,高會(huì)軍,3

(1. 哈爾濱工業(yè)大學(xué)智能控制與系統(tǒng)研究所,哈爾濱 150001;2. 哈爾濱工業(yè)大學(xué)寧波智能裝備研究院,寧波 315201;3. 哈爾濱工業(yè)大學(xué)機(jī)器人技術(shù)與系統(tǒng)國(guó)家重點(diǎn)實(shí)驗(yàn)室,哈爾濱 150001)

0 引 言

近年來(lái),各種類型的無(wú)人機(jī)在軍民領(lǐng)域得到了廣泛的成功應(yīng)用,從巡查航拍到自主協(xié)作、分布式定位建圖等[1-2],都大幅提高了人們的工作效率。小型多旋翼無(wú)人機(jī)體積小、機(jī)動(dòng)性高等特點(diǎn)使其在包括室內(nèi)的各種復(fù)雜環(huán)境中執(zhí)行多種任務(wù)。因此,在復(fù)雜陌生環(huán)境中實(shí)現(xiàn)自主智能導(dǎo)航,則能夠充分利用其高機(jī)動(dòng)性多自由度的特點(diǎn),執(zhí)行大量地面移動(dòng)機(jī)器人無(wú)法完成的任務(wù),如地面擁擠情況下的物資傳遞、快速巡查追蹤等[3-4]。然而,無(wú)人機(jī)的高性能自主導(dǎo)航算法的研究非常具有挑戰(zhàn)性,在環(huán)境結(jié)構(gòu)不確定、光線不穩(wěn)定,以及室內(nèi)存在具有形態(tài)差異大、行走方向隨意性高的行人等場(chǎng)景下,如何實(shí)現(xiàn)自主穩(wěn)定導(dǎo)航一直是該領(lǐng)域的難點(diǎn)之一。

目前,基于模型的方法[5-6]是無(wú)人機(jī)自主決策導(dǎo)航的常用手段,但其效果過(guò)度依賴于對(duì)無(wú)人機(jī)自身動(dòng)態(tài)及其所處環(huán)境的精確建模。同時(shí),對(duì)環(huán)境和自身建模的計(jì)算量巨大,且對(duì)建模時(shí)存在的模型誤差難以進(jìn)行補(bǔ)償。對(duì)于初次到達(dá)的陌生環(huán)境,更是需要重新進(jìn)行一系列的建模工作,使得該類算法應(yīng)用范圍較為狹窄。

與此不同,自然界的生物則通過(guò)不斷與環(huán)境進(jìn)行交互,并且獲得環(huán)境的反饋來(lái)強(qiáng)化生物的某項(xiàng)能力。例如動(dòng)物的行走、捕獵、群體協(xié)作等能力,均是在不斷試錯(cuò)的過(guò)程中來(lái)持續(xù)改善和提升自身的決策策略與技能。該類型學(xué)習(xí)過(guò)程的特點(diǎn)是無(wú)需對(duì)環(huán)境進(jìn)行精確建模,僅通過(guò)與環(huán)境的不斷交互來(lái)持續(xù)改進(jìn)策略,即為強(qiáng)化學(xué)習(xí)算法[7]的核心思想??梢钥闯?,強(qiáng)化學(xué)習(xí)屬于端到端的學(xué)習(xí)類型,即輸入一個(gè)環(huán)境狀態(tài),直接輸出一個(gè)決策動(dòng)作。

然而,由于強(qiáng)化學(xué)習(xí)應(yīng)用于無(wú)人機(jī)導(dǎo)航?jīng)Q策領(lǐng)域的時(shí)間較短,現(xiàn)有研究存在的主要問(wèn)題有:1)強(qiáng)化學(xué)習(xí)策略的遷移問(wèn)題:目前強(qiáng)化學(xué)習(xí)最關(guān)鍵的環(huán)節(jié)是仿真環(huán)境,如果仿真環(huán)境里建立的幾何模型和物理模型能夠足夠逼近現(xiàn)實(shí)世界,那么在仿真環(huán)境里訓(xùn)練好的策略直接移植到實(shí)物無(wú)人機(jī)上即可獲得一致的效果。但建模誤差通常難以避免,因此仿真環(huán)境訓(xùn)練得到的策略遷移到實(shí)物無(wú)人機(jī)上的效果并不理想。文獻(xiàn)[8]提出一種仿真數(shù)據(jù)與現(xiàn)實(shí)數(shù)據(jù)相融合的方法(Generalization through simulation, GTS),將仿真環(huán)境下訓(xùn)練得到的卷積層與現(xiàn)實(shí)數(shù)據(jù)訓(xùn)練得到的全連接層拼接在一起,使得仿真模型與現(xiàn)實(shí)環(huán)境得到一定程度上的統(tǒng)一。但該方法仍存在策略遷移造成的性能降低,如其在仿真環(huán)境下無(wú)人機(jī)的運(yùn)行軌跡比較平直,而遷移到實(shí)物之后卻比較扭曲。因此,強(qiáng)化學(xué)習(xí)策略從仿真環(huán)境移植到實(shí)物,仍存在一系列需要開(kāi)展深入研究的遷移學(xué)習(xí)問(wèn)題。2)在有行人場(chǎng)景下采用無(wú)深度信息單目視覺(jué)感知的避障性能有待提高:?jiǎn)文繜o(wú)深度信息的攝像頭具有成本低、重量輕、使用門檻低等特點(diǎn),在小型無(wú)人機(jī)上應(yīng)用日趨廣泛,但由于無(wú)深度信息,以及行人的多樣性及高動(dòng)態(tài)性,使采用單目視覺(jué)實(shí)現(xiàn)室內(nèi)有行人環(huán)境的端到端導(dǎo)航具有較高挑戰(zhàn)性?,F(xiàn)有基于單目視覺(jué)的無(wú)人機(jī)室內(nèi)導(dǎo)航方法,大多數(shù)都是在無(wú)人的室內(nèi)環(huán)境下進(jìn)行實(shí)驗(yàn),這也就導(dǎo)致該類算法在實(shí)際環(huán)境中的實(shí)用性不足。前述GTS算法是目前基于強(qiáng)化學(xué)習(xí)的無(wú)人機(jī)自主導(dǎo)航方向較為前沿的研究,但其依舊是在無(wú)行人干擾的環(huán)境下進(jìn)行實(shí)驗(yàn)。

本文的主要貢獻(xiàn)為:1)針對(duì)強(qiáng)化學(xué)習(xí)策略遷移問(wèn)題,提出一種基于跨傳感器遷移學(xué)習(xí)的全新框架,使得遷移到實(shí)際環(huán)境中的策略對(duì)比現(xiàn)有方法具有更好的泛化性能。2)為進(jìn)一步提高室內(nèi)有行人環(huán)境下的單目無(wú)深度信息避障性能,提出了一種異步深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)規(guī)劃器與行人信息的結(jié)合,解決現(xiàn)有方法由于行人形態(tài)差異過(guò)大造成的策略不穩(wěn)定問(wèn)題,使得在不具備深度信息的情況下,仍能夠?qū)崿F(xiàn)在室內(nèi)有行人時(shí)的有效、穩(wěn)定避障。實(shí)驗(yàn)結(jié)果表明了該方法的有效性和可行性。

1 仿真環(huán)境和任務(wù)介紹

1.1 仿真環(huán)境

本文基于Cyberbotics公司研發(fā)的Webots仿真平臺(tái)對(duì)無(wú)人機(jī)在室內(nèi)環(huán)境下的三維自主避障任務(wù)進(jìn)行仿真,強(qiáng)化學(xué)習(xí)系統(tǒng)的框圖如圖1所示,虛擬仿真環(huán)境如圖2所示。在Webots仿真器中進(jìn)行強(qiáng)化學(xué)習(xí)訓(xùn)練,涉及到其中的三個(gè)高級(jí)組件:1)場(chǎng)景樹:在場(chǎng)景樹里配置物理引擎的仿真步長(zhǎng)、無(wú)人機(jī)、三維環(huán)境等信息,用以仿真“世界”的搭建;2)控制器:用以搭建無(wú)人機(jī)的底層控制以及強(qiáng)化學(xué)習(xí)算法,控制無(wú)人機(jī)的運(yùn)動(dòng);3)監(jiān)督器:用以監(jiān)控仿真環(huán)境的運(yùn)行,以及根據(jù)控制器在強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)發(fā)出的重置環(huán)境指令重置環(huán)境。同時(shí),Webots仿真環(huán)境提供了一系列Python的接口函數(shù),方便研究人員直接控制仿真環(huán)境里現(xiàn)有的無(wú)人機(jī)模型。本文深度強(qiáng)化學(xué)習(xí)所用到的深度學(xué)習(xí)框架為Pytorch框架。

在圖1中,“控制器”模塊和“強(qiáng)化學(xué)習(xí)”模塊共同組成一個(gè)智能體(即無(wú)人機(jī)的“大腦”),該智能體從“無(wú)人機(jī)仿真環(huán)境”中獲取環(huán)境狀態(tài)觀測(cè)之后,給出一個(gè)決策動(dòng)作去作用于“無(wú)人機(jī)仿真環(huán)境”模塊,而“無(wú)人機(jī)仿真環(huán)境”模塊返回給智能體相應(yīng)決策動(dòng)作所產(chǎn)生的環(huán)境狀態(tài)改變,如此構(gòu)成了一個(gè)完整的強(qiáng)化學(xué)習(xí)經(jīng)典反饋框架。為使仿真環(huán)境更加接近現(xiàn)實(shí)環(huán)境,本文在仿真環(huán)境搭建了一個(gè)類似室內(nèi)走廊場(chǎng)景的虛擬環(huán)境,如圖2中的(a)圖和(b)圖所示。仿真所用到的小型無(wú)人機(jī)如圖2(c)所示,為Webots平臺(tái)內(nèi)置無(wú)人機(jī)模型,在仿真環(huán)境里可以通過(guò)接口函數(shù)獲取電機(jī)轉(zhuǎn)速、陀螺儀、加速計(jì)、氣壓計(jì)、GPS定位等數(shù)據(jù),用于后續(xù)算法開(kāi)發(fā)。

圖1 強(qiáng)化學(xué)習(xí)系統(tǒng)Fig.1 Reinforcement learning system

圖2 三維仿真環(huán)境Fig.2 3D simulation environment

值得注意的是,在仿真環(huán)境里并未直接采用單目相機(jī)作為傳感器,而是采用激光雷達(dá)作為傳感器,是因?yàn)榉抡姝h(huán)境里采集到的相機(jī)圖像不夠逼近現(xiàn)實(shí),將會(huì)大幅降低遷移效果。同時(shí)為方便模型搭建,本文將Webots內(nèi)置的激光雷達(dá)模型直接連接于無(wú)人機(jī)上方,但將其重量參數(shù)設(shè)置為零,因此不會(huì)對(duì)飛行控制帶來(lái)額外問(wèn)題,如圖2(c)所示。同時(shí),為與后續(xù)實(shí)際環(huán)境下采集數(shù)據(jù)所用的RPLidar A2型激光雷達(dá)參數(shù)保持一致,這里將仿真環(huán)境里的激光雷達(dá)的刷新頻率設(shè)置為15Hz。此外,為了實(shí)現(xiàn)從激光雷達(dá)到單目視覺(jué)的跨傳感器遷移學(xué)習(xí),本文將仿真環(huán)境和現(xiàn)實(shí)環(huán)境下的單線激光雷達(dá)的可視范圍均限制在無(wú)人機(jī)正前方的180°范圍內(nèi),從而與攝像頭的視野范圍基本保持一致。

1.2 任務(wù)介紹

本文所涉及的實(shí)驗(yàn)任務(wù)可描述為:首先,在1.1節(jié)所述的仿真環(huán)境中,結(jié)合深度強(qiáng)化學(xué)習(xí)方法,訓(xùn)練得到一個(gè)穩(wěn)定的初級(jí)避障策略。無(wú)人機(jī)在仿真建筑物中自主漫游,將其最主要的目標(biāo)設(shè)定為“存活”的更久。其次,在現(xiàn)實(shí)環(huán)境中,結(jié)合上述初級(jí)避障策略來(lái)進(jìn)行跨傳感器的遷移學(xué)習(xí),使其能夠更好的適應(yīng)現(xiàn)實(shí)環(huán)境。特別地,現(xiàn)實(shí)環(huán)境與仿真環(huán)境的一個(gè)明顯差異是現(xiàn)實(shí)環(huán)境中存在行人這一不確定因素,因此在遷移過(guò)程中還需要研究提高有行人場(chǎng)景下的避障策略的穩(wěn)定性和適應(yīng)能力。

2 深度強(qiáng)化學(xué)習(xí)和遷移學(xué)習(xí)結(jié)合的室內(nèi)無(wú)人機(jī)避障

2.1 基于DDPG算法的室內(nèi)無(wú)人機(jī)避障

近些年來(lái)深度強(qiáng)化學(xué)習(xí)算法取得了顯著進(jìn)展,其中“深度”指的是強(qiáng)化學(xué)習(xí)結(jié)合了深度神經(jīng)網(wǎng)絡(luò),其優(yōu)勢(shì)在于其能夠通過(guò)上百萬(wàn)甚至千萬(wàn)的參數(shù)實(shí)現(xiàn)強(qiáng)大的擬合與泛化能力。因此將強(qiáng)化學(xué)習(xí)的訓(xùn)練參數(shù)以深度神經(jīng)網(wǎng)絡(luò)的形式擬合,極大的擴(kuò)寬了強(qiáng)化學(xué)習(xí)的應(yīng)用范圍。本文采用深度確定性策略梯度[9]強(qiáng)化學(xué)習(xí)算法(Deep deterministic policy gradient, DDPG),其網(wǎng)絡(luò)結(jié)構(gòu)如圖3所示。該算法結(jié)合了Q-Learning強(qiáng)化學(xué)習(xí)算法和深度學(xué)習(xí)的優(yōu)勢(shì),是一種基于策略梯度(Policy gradient)的學(xué)習(xí)算法。DDPG算法為離線策略(Off-policy)類型的算法,具有經(jīng)驗(yàn)回放(Memory replay)機(jī)制,該機(jī)制類似于人類在跟外界環(huán)境交互的過(guò)程中儲(chǔ)存起來(lái)的記憶。每次訓(xùn)練時(shí)隨機(jī)在記憶池里抽出一定數(shù)量(Batch size)的樣本來(lái)訓(xùn)練,類似于人類的“反省”,有了經(jīng)常的“反省”,算法對(duì)于歷史數(shù)據(jù)的利用將更加充分,有利于得到效果更優(yōu)的策略。

圖3 本文的DDPG算法網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.3 Schematic diagram of DDPG algorithm network structure for this work

DDPG網(wǎng)絡(luò)結(jié)構(gòu)上不考慮后期的優(yōu)化因素,可以看作是由兩個(gè)深度網(wǎng)絡(luò)構(gòu)成,其中一個(gè)是表演者(Actor),從環(huán)境獲取狀態(tài)信息s,輸出執(zhí)行動(dòng)作a;另一個(gè)是評(píng)論者(Critic),其結(jié)合環(huán)境的狀態(tài)信息s以及表演者輸出的動(dòng)作a,輸出一個(gè)評(píng)分。因此兩個(gè)網(wǎng)絡(luò)構(gòu)成了對(duì)抗競(jìng)爭(zhēng)的關(guān)系,其中表演者的目標(biāo)是要最大化評(píng)論者的評(píng)分,評(píng)論者的目標(biāo)時(shí)最小化自己給出評(píng)分的變化率(旨在使其策略穩(wěn)定下來(lái))。因此當(dāng)DDPG算法訓(xùn)練收斂之時(shí),表演者可以針對(duì)當(dāng)前環(huán)境給出一個(gè)比較優(yōu)秀的動(dòng)作,而評(píng)論者也可以給出一個(gè)比較準(zhǔn)確的評(píng)分。因此表演者網(wǎng)絡(luò)和評(píng)論者網(wǎng)絡(luò)的代價(jià)函數(shù)如式(1)所示。其中l(wèi)a和lc分別為表演者網(wǎng)絡(luò)和評(píng)論者網(wǎng)絡(luò)的代價(jià)函數(shù),表演者最大化評(píng)論者的評(píng)分q,也就是要最小化-q。表演者最小化狀態(tài)值函數(shù)的變化量。

(1)

DDPG算法同一般強(qiáng)化學(xué)習(xí)算法一樣,具有狀態(tài)空間(State space)、動(dòng)作空間(Action space)、回報(bào)函數(shù)(Reward function)三大要素,而這三大要素隨著不同任務(wù)而變化。本文所設(shè)計(jì)的三要素如下。

1) 狀態(tài)空間:本文的強(qiáng)化學(xué)習(xí)算法在仿真環(huán)境里進(jìn)行訓(xùn)練,利用單線激光雷達(dá)作為環(huán)境感知傳感器,因此狀態(tài)空間定義為單線激光雷達(dá)的一系列深度值數(shù)組,本文對(duì)其180°范圍內(nèi)的數(shù)據(jù)進(jìn)行降采樣,每隔9°采樣一次,組成一個(gè)長(zhǎng)度為20的數(shù)組。此時(shí)激光雷達(dá)數(shù)據(jù)儲(chǔ)存格式如式(2)所示。其中s表示狀態(tài)空間,D表示新的激光雷達(dá)數(shù)據(jù)。li表示表示降采樣后的第i個(gè)激光雷達(dá)射線對(duì)應(yīng)的深度值。

s=D=[l1,l2,…,l18,l19,l20]

(2)

動(dòng)作空間:DDPG強(qiáng)化學(xué)習(xí)策略可以輸出連續(xù)的動(dòng)作空間,而本文設(shè)定沒(méi)有全局定位信息,因此將動(dòng)作空間a分解為無(wú)人機(jī)的線速度v和偏航角速度w,如式(3)所示。值得注意的是,神經(jīng)網(wǎng)絡(luò)往往比較適合處理-1~1之間的數(shù)據(jù),因此在這里將無(wú)人機(jī)的線速度和角速度均映射到[-1, 1]區(qū)間。

a=[v,w]

(3)

(4)

(5)

2.2 跨傳感器強(qiáng)化學(xué)習(xí)策略的遷移

本文2.1節(jié)詳細(xì)敘述了無(wú)人機(jī)使用單線激光雷達(dá)作為傳感器在仿真環(huán)境下訓(xùn)練得到穩(wěn)定的初級(jí)避障策略,本節(jié)進(jìn)一步研究從只使用激光雷達(dá)傳感器的初級(jí)避障策略,到只使用單目視覺(jué)的實(shí)物無(wú)人機(jī)避障策略的跨傳感器遷移學(xué)習(xí)方法。整體算法框架如圖4所示

圖4 整體算法結(jié)構(gòu)圖Fig.4 The overall algorithm structure diagram of this work

遷移學(xué)習(xí)包含眾多類型的算法,其中比較實(shí)用的一種類型是模仿學(xué)習(xí)[10-13],其核心思想為在遷移學(xué)習(xí)新策略過(guò)程中,存在一個(gè)專家策略來(lái)不斷地指導(dǎo)新策略,在遷移學(xué)習(xí)訓(xùn)練的過(guò)程中,目標(biāo)是縮小新策略與專家策略之間的差距。因此,模仿學(xué)習(xí)屬于有監(jiān)督學(xué)習(xí)。

專家策略的獲取方法有多種,例如監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、無(wú)監(jiān)督學(xué)習(xí)等等。本文研究的核心問(wèn)題在于將仿真環(huán)境訓(xùn)練得到的策略遷移到實(shí)際環(huán)境當(dāng)中,因此采用2.1節(jié)訓(xùn)練得到的初級(jí)避障策略作為專家策略,屬于無(wú)監(jiān)督學(xué)習(xí)類型。

如圖5所示,在進(jìn)行遷移學(xué)習(xí)訓(xùn)練之前,需要用攝像頭以及激光雷達(dá)傳感器在如圖6所示的現(xiàn)實(shí)環(huán)境中采集數(shù)據(jù),并利用上述專家策略來(lái)對(duì)數(shù)據(jù)集進(jìn)行自動(dòng)標(biāo)注。在采集數(shù)據(jù)集過(guò)程中,攝像頭圖片數(shù)據(jù)與單線激光雷達(dá)數(shù)據(jù)在每個(gè)程序周期里進(jìn)行對(duì)齊及同步,實(shí)現(xiàn)兩種傳感器數(shù)據(jù)的逐幀綁定。

圖6 現(xiàn)實(shí)世界環(huán)境示意圖Fig.6 Schematic of the real world environment

圖5 激光雷達(dá)和攝像頭安裝結(jié)構(gòu)示意圖Fig.5 Lidar and camera fixed structure diagram

值得注意的是,激光雷達(dá)的刷新頻率為15 Hz,因此將攝像頭的圖片采樣周期也強(qiáng)制同步至15 Hz。從另一個(gè)角度分析,如采樣頻率過(guò)高,采集到的數(shù)據(jù)在短時(shí)間內(nèi)的相似度很高,則會(huì)占用過(guò)多的計(jì)算資源且意義不大。

采集得到的數(shù)據(jù)集格式為一系列(I,L)數(shù)據(jù)對(duì),其中I為圖片數(shù)據(jù),L為激光雷達(dá)數(shù)據(jù)。圖片大小為640×480,格式為RGB。采集數(shù)據(jù)完畢之后,對(duì)數(shù)據(jù)集進(jìn)行離線處理。利用2.1節(jié)中訓(xùn)練得到的初級(jí)避障策略作為專家策略,輸入數(shù)據(jù)集中的激光雷達(dá)數(shù)據(jù),專家策略輸出一系列決策動(dòng)作a來(lái)作為圖片數(shù)據(jù)集的標(biāo)簽,這也就實(shí)現(xiàn)了遷移學(xué)習(xí)過(guò)程中的自動(dòng)標(biāo)注。處理后的新數(shù)據(jù)集格式為(I,B),其中B為專家策略輸出的一系列決策動(dòng)作a,用來(lái)當(dāng)作圖片數(shù)據(jù)集的標(biāo)簽。

最后,遷移學(xué)習(xí)利用上述離線處理得到的新數(shù)據(jù)集來(lái)訓(xùn)練深度網(wǎng)絡(luò),也就實(shí)現(xiàn)了跨傳感器強(qiáng)化學(xué)習(xí)策略的遷移學(xué)習(xí)。深度神經(jīng)網(wǎng)絡(luò)采用的是性能優(yōu)良的Resnet18深度神經(jīng)網(wǎng)絡(luò),同時(shí),Pytorch深度學(xué)習(xí)框架提供了Resnet18網(wǎng)絡(luò)的部署實(shí)現(xiàn)模板,使用非常方便。因此,本文在其模板網(wǎng)絡(luò)結(jié)構(gòu)后添加了規(guī)格為(256, 128, 16)的三層全連接層,網(wǎng)絡(luò)最終有兩個(gè)輸出,分別是無(wú)人機(jī)的給定線速度v和給定偏航角速度w。

在訓(xùn)練時(shí),網(wǎng)絡(luò)的一個(gè)批次數(shù)據(jù)大小采用的是128,代價(jià)函數(shù)采用經(jīng)典的均方誤差,如式(7)所示。其中l(wèi)為網(wǎng)絡(luò)的整體代價(jià)函數(shù),lv為回歸線速度v部分的子代價(jià)函數(shù),lw為回歸給定偏航角速度w部分的子代價(jià)函數(shù),兩個(gè)子代價(jià)函數(shù)的具體表達(dá)式如式(7)和(8)所示。

l=lv+lw

(6)

(7)

(8)

3 基于異步深度網(wǎng)絡(luò)的有行人環(huán)境優(yōu)化

本文第2節(jié)提供了本次工作所設(shè)計(jì)的跨傳感器遷移學(xué)習(xí)的詳細(xì)內(nèi)容,實(shí)現(xiàn)了在室內(nèi)無(wú)人環(huán)境下的無(wú)人機(jī)自主導(dǎo)航避障。然而,室內(nèi)經(jīng)常會(huì)有形態(tài)差異大、行走方向隨意性大的行人群體存在,這將導(dǎo)致2.2節(jié)所述方法得到的避障策略在有行人時(shí)表現(xiàn)出與行人交互不友好、路徑不穩(wěn)定等問(wèn)題。

導(dǎo)致上述遷移學(xué)習(xí)策略在有行人場(chǎng)景下表現(xiàn)不佳的原因可以追溯到以下兩點(diǎn):1)Resnet18網(wǎng)絡(luò)在有行人場(chǎng)景下的泛化能力不足,源自于其網(wǎng)絡(luò)結(jié)構(gòu)較為簡(jiǎn)單所帶來(lái)的弊端;2)從上述遷移學(xué)習(xí)擬合得到的策略可以看出,遷移學(xué)習(xí)得到的策略依舊為端到端決策類型的策略,而端到端策略的優(yōu)勢(shì)在于研究人員不必去詳細(xì)研究其計(jì)算過(guò)程,只需關(guān)心該策略的輸入和輸出即可,輸入一張圖片即可輸出一個(gè)決策動(dòng)作。但同時(shí)也帶來(lái)一個(gè)很嚴(yán)重的問(wèn)題,即輸入一張帶有行人的原始圖片數(shù)據(jù),神經(jīng)網(wǎng)絡(luò)的“注意力”可能會(huì)更多地聚焦在室內(nèi)的建筑物環(huán)境上,而在行人身上投入較少的“注意力”,這也會(huì)導(dǎo)致無(wú)人機(jī)在有行人場(chǎng)景下與行人交互不友好,甚至為了保持與建筑物的安全距離而撞到行人。

因此,本文提出一種基于異步深度網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來(lái)改善有行人情況下的無(wú)人機(jī)避障性能,該異步網(wǎng)絡(luò)結(jié)構(gòu)如圖7所示。從圖中可以看出,異步網(wǎng)絡(luò)結(jié)構(gòu)具有兩個(gè)分支,左側(cè)分支為Resnet8深度網(wǎng)絡(luò),右側(cè)分支為YOLO v3-tiny深度網(wǎng)絡(luò)[14-16],兩個(gè)分支網(wǎng)絡(luò)的輸出最終匯聚到一起,經(jīng)過(guò)四個(gè)全連接隱藏層,最終輸出的決策動(dòng)作分別是無(wú)人機(jī)的給定線速度v和給定偏航角速度w。其中“異步”指的是,為了提高整個(gè)網(wǎng)絡(luò)在前向傳播時(shí)的計(jì)算速度,本文將resnet18和YOLO v3-tiny兩個(gè)分支分別放置在兩個(gè)子線程下進(jìn)行運(yùn)算,最終兩個(gè)線程的計(jì)算結(jié)果在主線程上匯總,再將匯總起來(lái)的計(jì)算結(jié)果經(jīng)過(guò)四個(gè)全連接隱藏層的計(jì)算后輸出結(jié)果。

圖7 異步網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.7 Schematic diagram of asynchronous network

YOLO v3系列網(wǎng)絡(luò)借鑒了殘差網(wǎng)絡(luò)結(jié)構(gòu)[17-19],形成層數(shù)更深的神經(jīng)網(wǎng)絡(luò),有著更強(qiáng)大的擬合能力。同時(shí)其采用多尺度檢測(cè)的圖像金字塔[20-21]機(jī)制,提升了預(yù)測(cè)框的平均重合率(mAP)以及對(duì)體積較小物體的檢測(cè)性能。而YOLO v3-tiny為YOLO v3網(wǎng)絡(luò)的簡(jiǎn)化版,犧牲部分預(yù)測(cè)準(zhǔn)確率以及回歸精度來(lái)很大程度上提升網(wǎng)絡(luò)的前向傳播速度。YOLOv3-tiny的前向傳播速度甚至可以達(dá)到Y(jié)OLO v3網(wǎng)絡(luò)的10倍左右,易于在輕量級(jí)移動(dòng)設(shè)備上使用。

該網(wǎng)絡(luò)結(jié)構(gòu)的特點(diǎn)是利用YOLO v3-tiny網(wǎng)絡(luò)卓越的分類能力,將環(huán)境中的行人信息提取出來(lái),再與Resnet18的結(jié)構(gòu)融合后進(jìn)行綜合決策,這也解決了本節(jié)開(kāi)頭所述的兩大問(wèn)題。值得注意的是,本文所使用的YOLO v3-tiny網(wǎng)絡(luò)為利用Coco數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練過(guò)的網(wǎng)絡(luò),因此可以直接使用YOLO v3-tiny網(wǎng)絡(luò)來(lái)提取行人信息。

其中YOLO v3-tiny網(wǎng)絡(luò)輸出行人預(yù)測(cè)向量信息(對(duì)于每個(gè)行人輸出一個(gè)預(yù)測(cè)框),該向量格式如式(9)所示,pi表示第i個(gè)行人的圖像中預(yù)測(cè)框的位置信息,其中xti,yti表示第i個(gè)行人預(yù)測(cè)框在圖像中的左上角坐標(biāo),同樣xbi,ybi表示第i個(gè)行人預(yù)測(cè)框在圖像中的右下角坐標(biāo)。最終行人向量信息如式(10)所示,其中pi表示第i個(gè)行人的預(yù)測(cè)框信息。這里取行人個(gè)數(shù)上限為10個(gè)人,因?yàn)閷?duì)于一般情況室內(nèi)同一視野內(nèi)同時(shí)近距離出現(xiàn)超過(guò)10個(gè)人的可能性非常小,換而言之,若近距離人數(shù)超過(guò)10個(gè)則當(dāng)前環(huán)境非常擁擠,無(wú)人機(jī)幾乎無(wú)法在這種場(chǎng)景下飛行。若當(dāng)前視野內(nèi)人數(shù)不足10個(gè)人時(shí),則該行人向量末端用0補(bǔ)齊。同樣地,該異步網(wǎng)絡(luò)訓(xùn)練時(shí)的代價(jià)函數(shù)等配置與2.2節(jié)所述一致。

pi=(xti,yti,xbi,ybi)

(9)

f=(p1,p2,…,p9,p10)

(10)

4 實(shí)驗(yàn)結(jié)果及分析

4.1 仿真環(huán)境下強(qiáng)化學(xué)習(xí)訓(xùn)練結(jié)果分析

強(qiáng)化學(xué)習(xí)訓(xùn)練的回報(bào)函數(shù)曲線如圖8所示,從圖中可以看出無(wú)人機(jī)在仿真環(huán)境中隨著訓(xùn)練時(shí)間的增加,其與環(huán)境交互所獲得的回報(bào)也越來(lái)越多,最終趨于平穩(wěn),在宏觀上表現(xiàn)為無(wú)人機(jī)穩(wěn)定在建筑物內(nèi)無(wú)碰撞飛行,這也從正面驗(yàn)證了本文2.1節(jié)所設(shè)計(jì)回報(bào)函數(shù)的合理性。硬件設(shè)備為GTX 1080Ti GPU、i7 8700 K CPU,訓(xùn)練所花費(fèi)時(shí)長(zhǎng)約為3.7 h。

圖8 回報(bào)函數(shù)曲線Fig.8 Reward function data

4.2 跨傳感器遷移學(xué)習(xí)訓(xùn)練結(jié)果分析

網(wǎng)絡(luò)的擬合能力對(duì)比分析:跨傳感器遷移學(xué)習(xí)、采用分段動(dòng)態(tài)學(xué)習(xí)率,下降曲線如圖9(a)曲線所示。動(dòng)態(tài)學(xué)習(xí)率使得網(wǎng)絡(luò)梯度在每個(gè)訓(xùn)練階段都以相對(duì)比較合適的下降速度來(lái)更新網(wǎng)絡(luò)參數(shù),防止網(wǎng)絡(luò)下降過(guò)慢或者梯度爆炸。訓(xùn)練所用的硬件設(shè)備與4.1節(jié)所述一致,數(shù)據(jù)集總量為100,000數(shù)據(jù)樣本,將整個(gè)數(shù)據(jù)集訓(xùn)練200次總耗時(shí)約為20 h。從圖9中左側(cè)圖片的曲線(“*”形狀)可以看出,隨著訓(xùn)練的進(jìn)行,損失函數(shù)不斷收斂,最終趨于0附近。這表明該異步網(wǎng)絡(luò)結(jié)構(gòu)有足夠的能力擬合有行人環(huán)境下的數(shù)據(jù)集。而單獨(dú)Resnet18的損失函數(shù)下降曲線如圖9左側(cè)圖片中的藍(lán)色曲線(“-”形狀)所示,可以看出單獨(dú)Resnet18網(wǎng)絡(luò)訓(xùn)練該數(shù)據(jù)集最終也能逐漸趨于收斂,但其擬合精度的瓶頸比較明顯,最終的擬合精度要比異步深度網(wǎng)絡(luò)低。

網(wǎng)絡(luò)的前向傳播速度的對(duì)比分析:圖9(b)表示在幾次室內(nèi)導(dǎo)航任務(wù)中深度網(wǎng)絡(luò)的平均輸出幀率,其中曲線(“*”形狀)表示雙線程運(yùn)行異步網(wǎng)絡(luò)的輸出幀率曲線變化,曲線(“-”形狀)表示單線程運(yùn)行異步網(wǎng)絡(luò)的輸出幀率隨時(shí)間變化曲線。綜合兩條曲線可以明顯看出基于雙線程運(yùn)行的幀率大致為單線程的2倍。這意味著雙線程運(yùn)行的網(wǎng)絡(luò)前向傳播速度有顯著提高。本次實(shí)驗(yàn)也在NVidia公司的TX2單板計(jì)算機(jī)上測(cè)試了該異步網(wǎng)絡(luò)的平均幀率,其結(jié)果是25.7 Hz,這意味著在機(jī)載計(jì)算環(huán)境中亦可以保證實(shí)時(shí)性。

圖9 代價(jià)函數(shù)下降曲線及網(wǎng)絡(luò)幀率對(duì)比圖Fig.9 Cost function decline curve and network frame rate comparison chart

異步網(wǎng)絡(luò)在室內(nèi)有行人實(shí)際場(chǎng)景中的泛化能力分析:為了檢驗(yàn)該異步深度網(wǎng)絡(luò)在有行人環(huán)境下的泛化能力,在實(shí)際有行人的室內(nèi)環(huán)境中進(jìn)行了飛行測(cè)試,部分飛行軌跡圖如圖10所示。其中實(shí)線軌跡是本次研究所設(shè)計(jì)算法的無(wú)人機(jī)飛行軌跡,虛線軌跡是GTS算法的在實(shí)物上復(fù)現(xiàn)的飛行軌跡。通過(guò)對(duì)比軌跡可以發(fā)現(xiàn)實(shí)線軌跡幾乎是全程在以最大安全裕度在飛行,同時(shí)在有行人的情況下也能夠非常穩(wěn)定和平滑度軌跡避開(kāi)行人。而虛線軌跡相對(duì)比較扭曲和不平滑,最終虛線曲線在“行人”文字標(biāo)記處碰撞到行人而導(dǎo)致任務(wù)結(jié)束。從而綜合以上可以得出,本文所設(shè)計(jì)的異步網(wǎng)絡(luò)在有行人環(huán)境下具有較好的泛化能力和軌跡穩(wěn)定性。

圖10 無(wú)人機(jī)飛行軌跡對(duì)比圖Fig.10 Comparison chart of UAV flight trajectory

各算法無(wú)人機(jī)飛行測(cè)試中的存活時(shí)間對(duì)比分析:如圖11所示,本次飛行存活測(cè)試分別測(cè)試了基本DDPG算法、GTS算法、單Resnet18網(wǎng)絡(luò)、異步網(wǎng)絡(luò)在上述條件下的性能。為了與目前較為有代表性的算法性能做對(duì)比,本文分別在室內(nèi)有行人、室內(nèi)無(wú)行人、室內(nèi)光線不穩(wěn)定、陌生室內(nèi)等幾種環(huán)境下對(duì)無(wú)人機(jī)進(jìn)行飛行存活時(shí)長(zhǎng)測(cè)試。這里“存活時(shí)長(zhǎng)”定義為從無(wú)人機(jī)起飛開(kāi)始計(jì)時(shí),在室內(nèi)漫游飛行至無(wú)人機(jī)發(fā)生碰撞為止所花費(fèi)的總時(shí)長(zhǎng)。值得注意的是,為了使得各個(gè)算法更有可對(duì)比性,本文在做該項(xiàng)測(cè)試時(shí)盡量保證了各算法的基本條件一致,主要包括室內(nèi)行人數(shù)量、光線、硬件設(shè)備、計(jì)算平臺(tái)等主要因素。對(duì)于某一個(gè)算法在某一個(gè)場(chǎng)景下分別測(cè)試多次,最終取平均結(jié)果作為最終的參考存活時(shí)長(zhǎng)。

圖11 無(wú)人機(jī)存活時(shí)間對(duì)比圖Fig.11 Comparison chart of UAV survival time

從圖11中可以看出,基本DDPG算法的性能最弱,這是由于其仿真環(huán)境里的視覺(jué)部分遷移到現(xiàn)實(shí)世界效果不佳。同時(shí)可以看出,單Resnet18網(wǎng)絡(luò)與GTS算法的性能幾乎持平,而基于異步網(wǎng)絡(luò)結(jié)構(gòu)的算法性能遠(yuǎn)超另外三種算法,這也說(shuō)明了異步網(wǎng)絡(luò)結(jié)構(gòu)的算法有著更好的穩(wěn)定性和更友好的行人交互性能。

值得注意的是,這里的基礎(chǔ)DDPG算法指的是在仿真環(huán)境里直接用單目視覺(jué)的圖片數(shù)據(jù)作為狀態(tài)輸入,DDPG算法直接輸出決策動(dòng)作,最后將訓(xùn)練收斂的策略直接移植到實(shí)物上進(jìn)行測(cè)試。

5 結(jié) 論

本文首先在Webots仿真環(huán)境訓(xùn)練得到一個(gè)穩(wěn)定的僅使用虛擬激光雷達(dá)作為傳感器的初級(jí)避障策略;其次通過(guò)將真實(shí)激光雷達(dá)與單目攝像頭圖像數(shù)據(jù)逐幀綁定來(lái)采集現(xiàn)實(shí)環(huán)境中的數(shù)據(jù)集,利用上述初級(jí)避障策略當(dāng)作專家策略,實(shí)現(xiàn)從虛擬激光雷達(dá)到現(xiàn)實(shí)單目視覺(jué)的跨傳感器遷移學(xué)習(xí);最后針對(duì)室內(nèi)有行人的場(chǎng)景設(shè)計(jì)了一種基于Resnet18網(wǎng)絡(luò)和YOLO v3-tiny網(wǎng)絡(luò)相結(jié)合的異步深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),改善了單Resnet18深度網(wǎng)絡(luò)進(jìn)行遷移學(xué)習(xí)時(shí),在有行人室內(nèi)環(huán)境下的避障效果,同時(shí)基于雙線程的機(jī)制極大加速了深度網(wǎng)絡(luò)的前向傳播速度。仿真及實(shí)驗(yàn)結(jié)果表明,本文所提出基于跨傳感器異步遷移學(xué)習(xí)方法能夠在光線不穩(wěn)定、陌生、有行人的室內(nèi)環(huán)境下,相對(duì)于現(xiàn)有工作有著泛化能力更強(qiáng)、軌跡裕度更大、更穩(wěn)定的優(yōu)點(diǎn)。

猜你喜歡
激光雷達(dá)行人深度
手持激光雷達(dá)應(yīng)用解決方案
法雷奧第二代SCALA?激光雷達(dá)
汽車觀察(2021年8期)2021-09-01 10:12:41
毒舌出沒(méi),行人避讓
意林(2021年5期)2021-04-18 12:21:17
深度理解一元一次方程
基于激光雷達(dá)通信的地面特征識(shí)別技術(shù)
路不為尋找者而設(shè)
深度觀察
深度觀察
基于激光雷達(dá)的多旋翼無(wú)人機(jī)室內(nèi)定位與避障研究
電子制作(2018年16期)2018-09-26 03:27:00
深度觀察
昌都县| 阿巴嘎旗| 林州市| 云南省| 广水市| 徐水县| 平江县| 华亭县| 阿拉善右旗| 宝清县| 类乌齐县| 承德县| 彰武县| 上犹县| 西林县| 灵武市| 宣威市| 渭源县| 富平县| 芦山县| 西林县| 梅州市| 资中县| 新蔡县| 仪征市| 吴忠市| 五莲县| 图们市| 平泉县| 上蔡县| 安多县| 泰和县| 合水县| 涟源市| 南溪县| 镇坪县| 焉耆| 逊克县| 罗江县| 保康县| 册亨县|