国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學習在視覺SLAM中應用綜述

2019-05-17 09:47李少朋
空間控制技術(shù)與應用 2019年2期
關鍵詞:回環(huán)位姿深度

李少朋,張 濤

0 引 言

同時定位與地圖構(gòu)建(SLAM)是智能體攜帶其傳感器在運動過程中對自身進行定位,同時以合適的方式描述周圍的環(huán)境[1].SLAM能夠比傳統(tǒng)的文字、圖像和視頻等方式更高效、直觀地呈現(xiàn)信息;在GPS不能正常使用的環(huán)境中,SLAM也可以作為一種有效的替代方案實現(xiàn)在未知環(huán)境中的實時導航.SLAM技術(shù)在服務機器人、無人駕駛汽車、增強現(xiàn)實等諸多領域發(fā)揮著越來越重要的作用.

如圖1所示,一個完整的SLAM框架由以下4個方面組成:前端跟蹤、后端優(yōu)化、回環(huán)檢測、地圖重建.跟蹤前端即視覺里程計負責初步估計相機幀間位姿狀態(tài)及地圖點的位置;后端優(yōu)化負責接收視覺里程計前端測量的位姿信息并計算最大后驗概率估計;回環(huán)檢測負責判斷機器人是否回到了原來的位置,并進行回環(huán)閉合修正估計誤差;地圖重建負責根據(jù)相機位姿和圖像,構(gòu)建與任務要求相適應的地圖.

圖1 SLAM流程示意圖Fig.1 Workflow of SLAM

近年來,視覺SLAM技術(shù)得到了廣泛的研究和長足的發(fā)展.目前,較為先進的視覺SLAM方案在公開數(shù)據(jù)集及實際物理實驗中均取得了較高的精度.傳統(tǒng)的視覺SLAM方案分為特征點法和直接法兩類.特征點法從每幀圖片中提取穩(wěn)定的特征點,通過這些特征點具有不變性的描述子完成相鄰幀的匹配;然后通過對極幾何較為魯棒地恢復相機的姿態(tài)和地圖點坐標,最后通過最小化投影誤差完成相機位姿和地圖結(jié)構(gòu)的微調(diào),每幀所提取的特征點通過聚類等操作進行回環(huán)檢測或重定位.但是特征點的提取及匹配是較為耗時的工作,使得經(jīng)典的特征點法比直接法運行速度要慢.PTAM[2]是早期較為典型的特征點法,該方法基于非線性優(yōu)化后端采用了基于關鍵幀的Bundle Adjustment (BA)[3]來求解位姿與地圖結(jié)構(gòu),之后的很多的特征點法都是該方法的改進版本,其中最為成功的一個就是ORB-SLAM[4],這也是目前效果最好的特征點法.直接法不再提取特征點,直接通過光度誤差來恢復相機的姿態(tài)和地圖結(jié)構(gòu),不用計算關鍵點和描述子.由于直接法中未提取特征點,沒有能夠表征一幀圖像的全局特征,直接法的回環(huán)檢測還是一個開放的話題,所以長時間導航的漂移問題是直接法所面臨的主要問題.LSD-SLAM[5]是典型的直接法SLAM,該方法能夠在無GPU加速的情況下實時運行.DSO-SLAM[6]以LSD-SLAM為基礎,通過光度修正在一定程度上彌補了未提取穩(wěn)定特征點的不足,滑動窗口優(yōu)化及邊緣化策略充分利用的各幀圖像的信息.DSO-SLAM無論在估計精度還是運行效率上都有非常優(yōu)異的表現(xiàn).

但自2017年以來,傳統(tǒng)的視覺SLAM方案再沒有取得實質(zhì)性的進展,傳統(tǒng)視覺SLAM方法有以下幾個方面的問題還沒有較為完備的解決方案:

(1)在光照條件惡劣或光照變化較大等不利條件下,算法的魯棒性還不是很高;

(2)在相機運動較大的情況,傳統(tǒng)算法容易出現(xiàn)“跟丟”的情況;

(3)傳統(tǒng)算法不能識別前景物體,即對場景中運動的物體只能當作 “壞點”來處理,沒有較好的解決方案.

隨著深度學習在計算機視覺領域的發(fā)展,越來越多的視覺問題都通過深度學習的方式取得了更高的突破.目前深度學習在圖像分類、識別、物體檢測、圖像分割等幾大領域的表現(xiàn)都遠遠高于傳統(tǒng)人工設計的算法.視覺SLAM同樣以圖像為處理對象,這為神經(jīng)網(wǎng)絡的學習能力在該領域的應用提供了很大的可能.深度學習與SLAM的結(jié)合在改善了視覺里程計和場景識別等由于手工設計特征而帶來的應用局限性,潛在提高了機器人的學習能力和智能化水平.采用深度學習方式處理SLAM問題,有以下幾個研究層面的優(yōu)勢:

(1)基于深度學習的SLAM方案對光照有較好的不變性,能夠在光照條件較為惡劣的條件下工作;

(2)基于深度學習的SLAM方案能夠識別并提取環(huán)境中移動的物體,可以進行動態(tài)環(huán)境下的SLAM建模;

(3)通過深度學習的方式可以提取高層語義信息,為語義SLAM的構(gòu)建以及場景語義信息的理解及使用提供了更大的幫助;

(4)采用深度學習的方式更有利于信息及知識的壓縮保存,更有益于機器人知識庫的構(gòu)建;

(5)基于深度學習的SLAM方案更符合人類認知及環(huán)境交互的規(guī)律,有更大的研究及發(fā)展的潛力.

基于前述分析,本文對基于深度學習的SLAM方案做了廣泛調(diào)研.重點在基于深度學習的視覺里程計、回環(huán)檢測方法兩個方面做了綜述.并指出了未來基于深度學習的視覺SLAM方案的研究趨勢與發(fā)展方向.

1 基于深度學習的視覺里程計

視覺里程計(VO)是通過分析關聯(lián)圖像之間的多視幾何關系確定機器人位置與姿態(tài)過程.相較于傳統(tǒng)的視覺里程計方法,基于深度學習的方法無需特征提取,也無需特征匹配和復雜幾何運算,使得整個計算過程更加直觀簡潔.根據(jù)訓練方法和數(shù)據(jù)集標簽化程度的不同,將基于深度學習的視覺里程計方法分為監(jiān)督學習,無監(jiān)督學習,半監(jiān)督學習三類分別進行討論.

1.1 監(jiān)督學習方法

監(jiān)督學習方法的基本思路為通過圖片幀的輸入來映射出該幀的位置和姿態(tài),自卷積神經(jīng)網(wǎng)絡(CNN)得到大規(guī)模應用以來,基于監(jiān)督學習的視覺里程計設計方法就得到了學者的廣泛關注和研究,最早的研究通過分類網(wǎng)絡末端用Softmax層來輸出各幀的速度大小和方向,雖然效果不理想,但是說明了深度學習在該領域應用的可行性[7].

PoseNet[8]為早期監(jiān)督學習方法的典型代表,其通過SFM對所采集圖像進行批處理,計算出其對應的位姿作為數(shù)據(jù)集的標簽.然后建立由圖片到六自由度位姿的回歸模型,模型的神經(jīng)網(wǎng)絡結(jié)構(gòu)借鑒了GoogleLeNet[9]的網(wǎng)絡結(jié)構(gòu)及參數(shù),并在此基礎上做了相應的修改和在訓練.PoseNet通過遷移學習,在無大量標簽數(shù)據(jù)集的支持下,得到了精度較高的位姿定位.然而這種以圖片幀為輸入,以絕對位姿為輸出模式在泛化能力上有一定的不足.文獻[10]采用Siamese網(wǎng)絡分別從相鄰圖像提取特征估計了圖像間的相對位姿.文獻[11]在原有研究成果的基礎上,以圖像幀之間的稠密光流作為輸入,以圖像幀之間的相對位姿進行訓練.首先將對稠密光流圖像進行降采樣學習其較“粗略”的全局特征,同時將原圖像進行分割,學習其較“精細”的局部特征,之后通過局部特征與全局特征相結(jié)合的方式來表征整個圖像,之后以圖像特征為輸入,相對位姿為輸出訓練整個網(wǎng)絡.網(wǎng)絡的訓練是分步進行的,該方法與PoseNet相比無論在精度還是在泛化能力上都有了一定的提高.這種局部特征與全局特征共同學習的方式為該領域的研究提供了很好的思路.

在基于監(jiān)督學習的視覺里程計方法中,目前效果最好且應用較為廣泛的為 DeepVO[12],DeepVO能夠從序列原始圖像直接映射出其對應的位姿,它不僅能夠通過卷積神經(jīng)網(wǎng)絡(CNN)學習圖像的特征,而且能夠通過深度遞歸神經(jīng)網(wǎng)絡學習(RNN)隱式地學習圖像間的動力學關系及內(nèi)在聯(lián)系.在特征提取方面,相鄰兩幀圖像在通道上進行組合,堆疊成六通道的圖像(每個圖像有RGB三通道),然后通過多層CNN網(wǎng)絡對圖像進行提取,將提取的特征輸入到RNN網(wǎng)絡中,Long short-term memory(LSTM)在一定的滑動窗口同時訓練連續(xù)的圖像幀最后輸出圖像位姿.這種CNN+RNN的結(jié)構(gòu)充分利用了當前幀圖像和之前某一區(qū)域幀的信息,符合人類認知及信息處理的流程,整個過程不涉及任何幾何計算,可以行端到端的學習,由于模型學習的是各幀之間的位姿關系,該模型也有較好的泛化能力,可以在陌生的環(huán)境下使用.DeepVO與經(jīng)過精細設計和優(yōu)化的傳統(tǒng)方法相比在精度上沒有絕對的優(yōu)勢,但因其巨大的研究價值得到了廣泛的關注,VINet[13]采用類似的結(jié)構(gòu)將通過CNN提取的圖像間的特征與IMU數(shù)據(jù)同時輸入到RNN網(wǎng)絡進行訓練并輸出位姿.Deep EndoVO[14]將該結(jié)構(gòu)應用在了內(nèi)鏡膠囊機器人上進行定位,取得了較好的效果并證明該方法的實用價值.

1.2 無監(jiān)督學習方法

無監(jiān)督學習在視覺里程計中應用較早,起初無監(jiān)督學習在該領域的應用是提取穩(wěn)定的特征點,通過特征點的匹配來求解相對位姿.近年來,隨著深度學習技術(shù)的發(fā)展,研究者逐步把側(cè)重點放在了直接的位姿估計上.文獻[15]較早地采用自編碼的方式同時估計圖像的深度及圖像間的運動.文獻[16]通過無監(jiān)督學習的方式進行單一圖像的深度估計,該方法采用雙目數(shù)據(jù)集,通過多重目標損失訓練網(wǎng)絡產(chǎn)生視差圖.如圖2所示,以訓練雙目數(shù)據(jù)集左側(cè)圖像為例,左側(cè)圖像通過網(wǎng)絡訓練分別產(chǎn)生左側(cè)視差圖和右側(cè)視差圖,左側(cè)視差圖與右側(cè)圖像通過幾何計算產(chǎn)生右側(cè)左側(cè)圖像,右側(cè)視差圖和左側(cè)圖像通過幾何計算產(chǎn)生右側(cè)圖像,則訓練誤差由3個部分組成:(1)重建誤差,即重建出的圖像與真實圖像的差;(2)視差圖平滑誤差;(3)左右視差圖一致性誤差.通過模型的訓練,該網(wǎng)絡對單個圖像深度估計達到了非常高精度,超過了最先進的監(jiān)督學習方法.這種估計深度的無監(jiān)督學習方法為基于無監(jiān)督學習的視覺里程計設計提供了很好的思路.

圖2 網(wǎng)絡訓練示意圖(左側(cè)為訓練損失、右側(cè)為數(shù)據(jù)傳輸流程)[27]Fig.2 Network training diagram of Literature[27]

參照文獻[17]中的思路與方法,文獻[18]通過無監(jiān)督學習的方式同時估計出了圖像的深度、圖像間的位姿狀態(tài)以及圖像中的動態(tài)物體,該方法以單幀圖像通過Depth CNN網(wǎng)絡生成深度圖,相鄰兩幀圖像通過Pose CNN生成圖像間的位姿,根據(jù)深度圖與位姿將原圖像投射到目標圖像上,最后通過真實目標圖像與投射產(chǎn)生目標圖像的重建誤差來訓練網(wǎng)絡.在重建誤差計算的過程中,會出現(xiàn)一些“壞點”,這些“壞點”會被給予一定的權(quán)值來減小“壞點”對整個系統(tǒng)的影響.然而這些被給予權(quán)值的“壞點”就是圖像中動態(tài)物體所代表的點.該方法在網(wǎng)絡結(jié)構(gòu)設計、初值設定和訓練方法上都采用了較為合適策略,是目前效果最好的無監(jiān)督學習方法.之后也有基于該方法的改進算法,其中UnDeepVO提出了一種基于雙目數(shù)據(jù)集的無監(jiān)督學習方法[19],其在對雙目相機左右側(cè)圖像進行位姿和深度學習的同時,又針對雙目相機某一側(cè)的圖像進行幀間位姿的學習,與單目的學習方案相比,該方法能夠真實地恢復位姿的尺度.

GeoNet在文獻[20]的基礎上做了較大的改進[21-22],其在計算圖像重構(gòu)誤差的過程中分兩步進行,首先假設圖像之間是剛性變換,不存在動態(tài)的前景物體,通過生成圖像與真實圖像間結(jié)構(gòu)誤差[23]及像素誤差的加權(quán)和來進行光流的預測.然后以此為初值,通過FlowNet2.0[24]進行場景中運動物體的光流計算.除此之 外GeoNet在進行圖像投影計算時,將多個圖像在通道上融合,通過求解多幀之間的位姿,提升了位姿估計的精度.

1.3 半監(jiān)督學習方法

在單目相機深度預測領域,文獻[21]采用一種半監(jiān)督學習方法,在無深度圖像作為監(jiān)督數(shù)據(jù)時,采用了與文獻[16]類似的方法,以圖像的重構(gòu)誤差以及估計深度圖像的平滑誤差作為損失函數(shù),在深度圖像存在時,可以再加上真實深度圖像與估計深度圖像的誤差作為損失函數(shù).這種半監(jiān)督方式加速了模型的收斂,并且解決了無監(jiān)督學習的不適定問題.

1.4 方法總結(jié)及應用分析

監(jiān)督學習和無(半)監(jiān)督學習在該領域均取得了一定的成果,從現(xiàn)有的成果來看,無(半)監(jiān)督學習在數(shù)據(jù)集采集、網(wǎng)路訓練的可操作性以及最終的估計精度和泛化能力方面均有一定的優(yōu)勢.重要的是,無(半)監(jiān)督學習以位姿為輸入量,通過位姿變換后的圖像與實際圖像的吻合程度為監(jiān)督信息進行學習,這更符合我們?nèi)祟愓J知的規(guī)律,具有較大的發(fā)展?jié)摿?由于半監(jiān)督學習通過部分人工標定或測量的信息,能夠較好的恢復場景的尺度,與無監(jiān)督相比有較大優(yōu)勢.然而在特定任務的限制環(huán)境中,可以采用監(jiān)督學習的方式,采集特定環(huán)境下的數(shù)據(jù)集進行訓練,與無(半)監(jiān)督方法相比會得到更好的效果.

2 深度學習與回環(huán)檢測

回環(huán)檢測是判斷機器人回到了原來的位置并將累計誤差合理的分配到回環(huán)的軌跡上,圖像之間的描述和匹配是回環(huán)檢測的關鍵技術(shù).在傳統(tǒng)方法中,研究者們通常涉及人工的特征(hand-crafted features)來描述一幅圖像.人工特征分為局部特征和全局特征,局部特征包括ORB,SIFT,SURF等,詞袋法(bag of-visual-words)[25]通過局部特征的統(tǒng)計數(shù)據(jù)來描述整個圖像.全局特征包括GIST[26]、Vector of locally aggregated descriptors (VLAD)[27]、Fisher vector[28]等分別以不同的計算方式描述整幅圖像的特征.

隨著深度學習技術(shù)的發(fā)展,越來越多的研究傾向于采用深度神經(jīng)網(wǎng)絡特征來描述一幅圖像進行回環(huán)檢測;近兩年也有不少研究者通過對三維點云學習方式提取其特征,為基于三維點云的回環(huán)檢測提供了可能.

2.1 二維圖像深度回環(huán)檢測

隨著Places數(shù)據(jù)集[29]的提出與應用,深度神經(jīng)網(wǎng)絡具備了強大的場景描述和識別能力,而這正是回環(huán)檢測所需要的.國防科技大學[30]較早地將深度學習應用在回環(huán)檢測中,其將AlexNet[17]遷移到回環(huán)檢測問題中,用其中間層的輸出作為特征來描述整幅圖像,通過二范數(shù)進行特征匹配來確定是否存在回環(huán).之后研究者還通過LSH數(shù)據(jù)壓縮、圖像幀的管理[31]或主成分分析(principal component analysis,PCA)[32-33]來增強匹配的效率.清華大學高翔等[34]提出通過無監(jiān)督學習的方式,采用堆疊去噪自動編碼器(stacked denoising auto-encoder,SDA)的方式描述整幅圖像來進行圖像的匹配實現(xiàn)回環(huán)檢測,并取得了較好的效果.仿真結(jié)果表明,初期的基于深度學習的回環(huán)檢測方法與傳統(tǒng)方法相比具有較強的魯棒性,但是這些方法并未有針對性設計網(wǎng)絡結(jié)構(gòu),也未進一步地進行網(wǎng)絡的訓練,在回環(huán)檢測的精度及效率上沒有明顯的提高.

之后有不少研究者針對回環(huán)檢測問題在網(wǎng)絡訓練和數(shù)據(jù)處理方面都進行了相應的改進性設計.文獻[37]沒有直接對整幅圖像進行特征提取,而是根據(jù)預訓練的結(jié)構(gòu)提取圖像中的路標區(qū)域,之后通過ConvNet計算每塊區(qū)域的特征并將特征進行壓縮.通過特征匹配完成路標區(qū)域的匹配,通過各個路標區(qū)域的相似性來計算整幅圖像之間的相似性.除此之外,該方法還將路標區(qū)域框的大小作為監(jiān)督條件以減小出現(xiàn)假陽性的概率.方法設計顯著地提高了對場景中視點變化或局部遮擋的魯棒性.文獻[38]用Places數(shù)據(jù)集訓練了網(wǎng)絡,通過局部敏感Hashing變換在精度損失較小的情況下將匹配速度加快了兩個數(shù)量級;并將特征輸出編碼成語義信息來劃分搜索空間大大減小場景了搜索的時間.這種根據(jù)兩層特征劃分搜搜空間實現(xiàn)“由粗到細”的場景匹配的方法,可以很好的應用在圖像庫的搜索過程中.

同時也有研究者采用了網(wǎng)絡學習特征與人工設計特征相結(jié)合的方式進行場景識別[39-40],其中NetVLAD[40]是目前在場景識別領域識別效果最好的網(wǎng)絡,其通過CNN特征與局部聚合描述向量(vector of locally aggregated descriptors,VLAD)相結(jié)合的方式構(gòu)建神經(jīng)網(wǎng)絡,并通基于Google Street View Time Machine數(shù)據(jù)集[35-36]對網(wǎng)絡進行弱監(jiān)督學習.圖像輸入后經(jīng)過一系列卷積操作生成W×H×D維的特征,這些特征可看作N(N=W×H)個D維的局部特征,這些局部特征通過NetVLAD層進行類似于VLAD操作,產(chǎn)生整個圖像的特征向量.NetVLAD層對傳統(tǒng)VLAD算法做了相應的改進,傳統(tǒng)VLAD算法如式(1)所示,其中權(quán)重ak(xi)是與局部向量和聚合簇(cluster)ck相關的量.

(1)

在NetVLAD層中將權(quán)重的相關參數(shù)wk、bk和聚合簇向量ck均設為需要學習的參數(shù),如式(2)所示,這種設計保證了計算的平滑性,能夠順利地計算梯度,保證了模型能夠進行端到端的學習.

(2)

傳統(tǒng)VLAD是無監(jiān)督的分類學習,由于NetVLAD中存在監(jiān)督數(shù)據(jù)(即兩幅圖像是否來自同一位置是已知的),這樣在學習聚合簇向量ck位置時,比傳統(tǒng)VLAD方法更有優(yōu)勢.最后經(jīng)過正則化操作NetVLAD層輸出了D×K維向量,用以描述圖像的全局特征.模型的訓練采用的谷歌街景數(shù)據(jù)集,該數(shù)據(jù)集用GPS標注了圖像對應的位置,由于在同一位置由于視角或方向的不同,場景也是不同的,但可以肯定的是不在同一地方(GPS位置相差較遠)描述的肯定不是同一場景,在同一地方描述可能是同一場景.所以,模型采用了弱監(jiān)督學習的方式:

(3)

2.2 三維點云深度回環(huán)檢測

由于三維點云的無序性、坐標系統(tǒng)難統(tǒng)一等問題一直沒有得到很好的解決,對于基于三維點云的回環(huán)檢測問題僅停留于理論研究的階段.其中文獻[41]以三維體素(voxel)網(wǎng)格模型為對象用于判斷點云是否來自同一位置為目標,首先提取體素網(wǎng)格模型中的人工統(tǒng)計特征,然后將人工特征編碼為向量輸入到神經(jīng)網(wǎng)絡中以數(shù)據(jù)集中點云是否匹配為監(jiān)督信息進行學習訓練.該方法是該領域為數(shù)不多的方法中的一個,其在點云匹配的精度及效率上都有待進一步的提高.但其基于深度學習的三維點云位姿配準及分類方法對該領域提供了很多可供借鑒的方法.

在基于三維點云的位姿配準方面,傳統(tǒng)的基于點云人工特征的配準方法已取得不俗的效果[42-44],在深度學習領域,文獻[45]通過對三維點云特征的學習實現(xiàn)了位姿的配準,該方法首先通過隨機球面覆蓋集(random sphere cover set,RSCS)算法將點云劃分為獨立的小塊點云,劃分后的局部點云命名為超點(super-point);然后為超點選擇歸一化的局部坐標系,將超點數(shù)據(jù)投影到當前2D深度圖像中并做顯著性檢驗和過濾;之后通過深度學習自編碼的方式將提取超點特征,通過超點的特征匹配完成當前幀的初定位,最后通過ICP算法對位姿進行微調(diào)得到相機的位姿.該方法對三維點云回環(huán)檢測在點云劃分管理以及檢測回環(huán)后的位姿矯正方面有很大的借鑒意義.

在點云分類及特征提取方面,3Dmatch[46]首先將點云轉(zhuǎn)換為三維體素網(wǎng)格模型,體素網(wǎng)格模型較為有序的數(shù)據(jù)為輸入通過Siamese網(wǎng)絡判斷點云是否匹配,根據(jù)監(jiān)督數(shù)據(jù)集完成訓練.由于體素網(wǎng)格模型中網(wǎng)格的有序性,大部分對于三維點云模型的處理也都是基于此模型,然而向三維體素網(wǎng)格模型的轉(zhuǎn)換會造成一定程度的失真,而且付出較大的計算代價.2017年PointNet[47]有針對性地設計了網(wǎng)絡直接用歐式空間中的點云作為輸入進行學習,歐式空間中的點云具有無序性、單位點之間相互聯(lián)系、對旋轉(zhuǎn)有不變性等特點,PointNet進行了有針對性的設計,以點云n個點云為輸入(每個點包含三通道的位置信息),首先通過空間變換網(wǎng)絡進行訓練出一個空間變換矩陣(T-Net)(通過正則化項使其保持正交性),在空間位置上對點云進行規(guī)范化,然后每個點通過多層感知機(multi-layer perceptron,MLP)進行特征學習是每個點賦予了64維的特征,之后再通過特征空間變換(64維)和多層感知機學習是每個點具有1024維的特征,然后通過最大池(MaxPooling)完成特征壓縮,之后再通過多層感知機完成類別的輸出;在語義分割方面,由于語義信息與局部信息和全局信息都有關,所以通過局部特征和全局特征的融合完成語義識別.該方法利用MaxPooling函數(shù)與參數(shù)順序無關的特點成功的處理了點云的無序性,并且通過空間變換網(wǎng)絡(T-Net)規(guī)范化了空間點云的空間一致性問題.最后結(jié)果表明PointNet能夠有效的識別出點云中信息豐富的物體的骨架(skeleton)信息,達到了很好的效果.在PointNet作者之后的研究中,PointNet++[48]采用PointNet的基本思路進行點云的局部特征提取,首先通過最遠點法分割點云(點云區(qū)域可重復),然后對局部點云進行特征提取生成規(guī)模更小的點云,以此類推直至點云規(guī)模小于一定值時通過全連接層(FCN)輸出點云的類別;當以點云分割為目標是則需要恢復點云規(guī)模給出語義信息.PointNet的出現(xiàn)一定程度上改變了針對三維點云研究的格局,使得模型的研究不再依賴于體素網(wǎng)格模型,加快了三維點云特征提取、識別等技術(shù)的發(fā)展.

3 深度學習與三維重建

傳統(tǒng)的三維重建方法中,比較典型的方法為KinectFusion[49]和ElasticFusion[50],深度學習對于三維重建的貢獻主要集中正在單目圖像的深度點云估計上[51-52].文獻[53]將深度學習應用到了Structure from Motion領域,進行了初步探索.CodeSLAM[54]為首個基于深度學習的實時三維重建方案,也是目前僅有的基于深度學習的完整方案.其以單目光度圖像的深度估計為基礎,提出了一種緊湊、密集的幾何場景表示方案.CodeSLAM根據(jù)每幀圖像生成可進行參數(shù)優(yōu)化的點云表示,結(jié)合每幀圖像對應的位姿對場景統(tǒng)一優(yōu)化以實現(xiàn)全局的一致性.

深度學習在實時三維重建中的應用處于初步探索階段,隨著CodeSLAM的提出與實現(xiàn),深度學習在該領域應用的可行性得到了驗證.深度三維重建將會憑借其巨大的研究價值引來更多的關注,深度三維重建方案也會得到進一步的提升和改進.

4 未來展望

4.1 高層級地圖構(gòu)建

在人類的認知中,我們看到場景中的事物時,除了知道其位置信息外(3通道),還知道其顏色信息(3通道),除此之外還知道其語義信息以及是否可觸碰、柔軟堅硬等一系列的信息.然而我們深度SLAM方法僅僅構(gòu)建的三維點云信息,這是不夠的,所以需要在更高的維度上構(gòu)建更為豐富的更高階的地圖從而適應多樣化的任務,也反過來幫助機器人的自我導航.SLAM創(chuàng)始人Andrew J.Davison在他近期的綜述Future Mapping[55]中也有了類似的設想.

4.2 類似人類的感知與定位

由于深度SLAM采用了智能的方式,其之后的發(fā)展方向會越來越接近人類的感知和思考模式,其中文獻[56]做了類似的探索,其構(gòu)建了一個完全端到端的模型,該模型以序列圖像為輸入,首先根據(jù)Local Pose Estimation Network求圖像間的相對位姿,之后通過Pose Aggregation對相對位姿信息進行壓縮,然后將處理后的相對位姿信息傳入Neural Graph Optimization網(wǎng)絡,該網(wǎng)絡根據(jù)輸入的相對位姿信息輸出全局的絕對位姿信息,并通過大腦的Soft Attention 模型提取路徑關鍵信息并通過信息搜索生成各幀之間的相似性矩陣,通過相似性矩陣完成SLAM中的回環(huán)檢測功能,最后輸出了整個行走的路徑,該路徑與真實路徑的差異作為損失函數(shù)對網(wǎng)絡的進行訓練.最后該網(wǎng)絡在游戲的模擬環(huán)境中達到了較好的效果,并且驗證了Soft Attention模型執(zhí)行回環(huán)檢測對全局位姿估計的作用.根據(jù)現(xiàn)有的深度學習技術(shù)發(fā)展程度,該方法并沒有在真實環(huán)境中,達到較好的效果,但是這種端對端的訓練模式,以及整個網(wǎng)絡的信息處理的過程,符合我們?nèi)祟愓J知的流程,具有很大的發(fā)展?jié)摿?

4.3 主動SLAM方法

人類到了陌生的環(huán)境,會主動的去環(huán)顧四周來更好地完成自我的定位和環(huán)境的感知.當我們迷路是會主動地去尋找自己記得的標志物或者退回到原來的地方從而確定自己的位置,未來智能機器人也應該有類似的能力.其中,文獻[57]做了初步的探索,其通過深度學習的方式進行了Active SLAM初步的嘗試,該模型在進行學習的過程中除了輸出相機當前位姿外還輸出相機運動的策略,該策略用以輔助相機的下一步更好的定位,該網(wǎng)絡模型在模擬的環(huán)境中進行了驗證,并取得了一定的效果.

4.4 與任務要求相融合

定位與感知不是最終目的,最終目的是通過精確的定位及感知完成多樣化的任務.這對深度SLAM提出了更高的要求,在對深度SLAM網(wǎng)絡進行學習訓練時,需要以任務的完成情況為指標進行訓練.Google的DeepMind做了類似的嘗試[58],其利用谷歌街景數(shù)據(jù)集,在采集到圖像輸出行動策略以智能機器人是否能夠到達預定位置為目標進行學習訓練,從而完成機器人在無地圖等先驗信息下的導航.

4.5 記憶的存儲與提取

在回環(huán)檢測方面,無論二維圖像或是三維點云隨著場景規(guī)模的增加其數(shù)據(jù)量也會越來越大,一直保存大量的圖片或點云顯然是不行的.涉及到知識的壓縮與提取,人類不會記住自己看到過的每一幀圖象或點云,但是也能夠在自己到了之前到過的地方后完成識別或回環(huán)檢測,因為人類有更高級的知識、有城市、景點、區(qū)域等概念可以幫助我們完成區(qū)域劃分,我們能夠記住到過哪個城市、哪條街就足夠了,未來深度SLAM也需要將感知信息壓縮,劃分搜索空間完成回環(huán)檢測.另外,人類隨著記憶量的增加也會忘記具體信息甚至到了自己曾經(jīng)到過的地方也不會察覺,在固定存儲空間條件下需要進行非關鍵信息的剔除.另外,類似人類用谷歌地圖等,長期定位可以借助云存儲的方式完成大量信息的儲存.

5 結(jié)束語

除以上深度學習在視覺里程計、回環(huán)檢測方面的應用外,其在語義SLAM[59]、圖像局部特征提取及匹配[60]、配準尺度學習[61]等方面均取得可觀的實驗結(jié)果.目前,傳統(tǒng)的SLAM方案研究較為成熟,基于深度學習的SLAM技術(shù)處于一個剛剛起步、漸有起色的階段.隨著人工智能技術(shù)的發(fā)展,未來視覺SLAM中的各個關鍵技術(shù)將部分或全部被深度學習所取代.基于深度學習的視覺SLAM方法具有巨大的研究空間,也將會在工程中發(fā)揮越來越大的作用.

猜你喜歡
回環(huán)位姿深度
四增四減 深度推進
深度思考之不等式
基于PLC的六自由度焊接機器人手臂設計與應用
嘟嘟闖關記
基于位置依賴的密集融合的6D位姿估計方法
曲柄搖桿機構(gòu)的動力學仿真
簡約教學 深度學習
基于單目視覺的工件位姿六自由度測量方法研究
《中國現(xiàn)代詩歌散文欣賞》之新詩教學多樣性探索
大自然的音籟 靈魂的交響
新和县| 大同市| 大足县| 湘潭市| 淄博市| 襄垣县| 襄城县| 观塘区| 余江县| 云浮市| 潜江市| 那曲县| 宜兰县| 云和县| 禹城市| 龙井市| 衢州市| 安徽省| 大丰市| 阜南县| 星子县| 林芝县| 衡南县| 太仓市| 开平市| 长治县| 炉霍县| 呼伦贝尔市| 东辽县| 汉川市| 开远市| 乳源| 金坛市| 犍为县| 西和县| 绥棱县| 桦川县| 新河县| 康保县| 赫章县| 东莞市|