国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的視覺慣性里程計技術(shù)綜述

2023-03-10 00:10王文森黃鳳榮王旭劉慶璘羿博珩
計算機與生活 2023年3期
關(guān)鍵詞:慣性深度監(jiān)督

王文森,黃鳳榮+,王旭,劉慶璘,羿博珩

1.河北工業(yè)大學(xué) 機械工程學(xué)院,天津300401

2.中國人民解放軍93756 部隊

視覺慣性里程計(visual inertial odometry,VIO)[1-3],又稱為視覺慣性導(dǎo)航系統(tǒng),是由視覺和慣性傳感器構(gòu)成的組合導(dǎo)航系統(tǒng)。VIO 擁有自主性、實時性等特點,傳感器的優(yōu)勢互補使VIO 的導(dǎo)航精度明顯高于由單一傳感器組成的慣性導(dǎo)航系統(tǒng)或視覺里程計(visual odometry,VO),低成本、體積小的消費級微機電慣性測量單元(micro electro mechanical systems inertial measurement unit,MEMS-IMU)和相機的使用更促進其發(fā)展。VIO 研究的主要目的,就是充分利用視覺慣性的優(yōu)勢,實現(xiàn)系統(tǒng)的高精度6 自由度(degree of freedom,DoF)位置與姿態(tài)估計。

傳統(tǒng)的VIO 系統(tǒng)的基本框架如圖1 所示。其中,前端包括基于運動學(xué)模型的慣性預(yù)處理模塊和基于幾何學(xué)模型的視覺里程計,后端為基于濾波器或優(yōu)化器的狀態(tài)估計模塊。此外,為了進一步提高導(dǎo)航精度,還可能會添加回環(huán)檢測等功能。傳統(tǒng)方法已經(jīng)展示了不錯的性能[4-5],但受到建模的局限和真實環(huán)境的復(fù)雜性使其仍然難以投入實際應(yīng)用中。近年來,深度學(xué)習(xí)[6-7]為VIO 的方法研究提供了新的思路。深度學(xué)習(xí)的方法相比傳統(tǒng)方法表現(xiàn)出了更強的魯棒性。基于深度學(xué)習(xí)的VIO 相比傳統(tǒng)方法展現(xiàn)出的優(yōu)勢可以體現(xiàn)在以下方面:

圖1 基于幾何學(xué)與運動學(xué)模型VIO 的基本框架Fig.1 Framework of VIO based on geometric and kinematic model

(1)傳統(tǒng)方法基于復(fù)雜的幾何與運動學(xué)模型,而且現(xiàn)實中很難建立與真實應(yīng)用嚴(yán)格相符的數(shù)學(xué)模型,深度學(xué)習(xí)模型基于神經(jīng)網(wǎng)絡(luò),可以通過自適應(yīng)訓(xùn)練實現(xiàn)高精度導(dǎo)航。

(2)由于受到IMU 的噪聲和偏差的影響,傳統(tǒng)方法一般僅對慣性數(shù)據(jù)進行簡單的預(yù)處理[8],基于深度學(xué)習(xí)的方法使慣性特征也具有了量測的能力,可以使系統(tǒng)不再局限于來自單模態(tài)的量測特征。

(3)傳統(tǒng)方法提取圖像特征局限于特征點、線和平面等低級特征的提取方法[9],深度學(xué)習(xí)可以學(xué)習(xí)潛在的高級特征,有利于實現(xiàn)復(fù)雜環(huán)境中的導(dǎo)航。

由此,隨著越來越多基于深度學(xué)習(xí)的VIO 的研究方法的出現(xiàn),本文在對基于深度學(xué)習(xí)的視覺慣性里程計的發(fā)展歷史、研究現(xiàn)狀以及方法梳理的基礎(chǔ)上,從融合策略的角度分別對深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法和端到端的深度學(xué)習(xí)方法進行了綜述,并分別從監(jiān)督學(xué)習(xí)和無監(jiān)督/自監(jiān)督學(xué)習(xí)方面介紹了網(wǎng)絡(luò)模型,同時分析并闡述了常用數(shù)據(jù)集、評價指標(biāo)和方法對比。最后,總結(jié)了當(dāng)前研究中亟待突破的問題并對未來的研究方向進行了展望。

1 基于深度學(xué)習(xí)的VIO 系統(tǒng)融合策略

根據(jù)后端是否是以深度學(xué)習(xí)的方式實現(xiàn)融合,可以將VIO 系統(tǒng)按融合策略分為深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的融合和基于深度學(xué)習(xí)的端到端融合。同時,VIO 系統(tǒng)無疑是多模態(tài)的融合[10-11],可分為數(shù)據(jù)級融合、特征級融合和決策級融合。特征級融合和決策級融合的方法都已經(jīng)實現(xiàn),在VIO 中一般稱之為緊耦合和松耦合。以下將從融合策略概述現(xiàn)有的研究方法。

1.1 深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的融合

在傳統(tǒng)方法中,慣性狀態(tài)計算基于運動學(xué)模型,視覺狀態(tài)和特征點特征計算基于視覺幾何模型,最后采用濾波器或優(yōu)化器實現(xiàn)二者的特征融合。深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法完整保留了傳統(tǒng)模型的后端,但是在前端則基于深度學(xué)習(xí)設(shè)計了學(xué)習(xí)狀態(tài)的新模型。

早期的深度學(xué)習(xí)模型主要用于替換原有的前端傳統(tǒng)模型。Rambach等[12]設(shè)計了首個基于深度學(xué)習(xí)的監(jiān)督學(xué)習(xí)VIO 模型,模型結(jié)構(gòu)如圖2 所示。其慣性前端基于長短時記憶網(wǎng)絡(luò)(long short-term memory,LSTM)[6]學(xué)習(xí)位置和姿態(tài),同時加入誤差檢測器可以實現(xiàn)慣性網(wǎng)絡(luò)和視覺前端的互相監(jiān)督,最后以卡爾曼濾波(Kalman filter,KF)作為后端實現(xiàn)了VIO 的松耦合。Li等[13]將基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)[6]的VO模型DeepVO[14]作 為VIO 的視覺前端輸出相對位姿,再利用擴展卡爾曼濾波器(extended Kalman filter,EKF)將視覺位姿預(yù)處理的慣性狀態(tài)進行融合。余洪山等[15]基于改進SuperPoint 網(wǎng)絡(luò)[16]檢測和描述特征點,有效抑制了異常特征點,加強了視覺前端的魯棒性,在后端則使用了VINS-Mono[17]的緊耦合融合框架進行融合,實現(xiàn)了高精度導(dǎo)航。

圖2 文獻[12]的模型結(jié)構(gòu)Fig.2 Structure of Ref.[12]

其他方法則會利用深度學(xué)習(xí)在特征學(xué)習(xí)中的多樣性,在前端建立新的子模塊,擴展了后端的特征向量,如行人導(dǎo)航方法RNIN-VIO[18]使用EKF 作為融合后端,在慣性前端的深度學(xué)習(xí)網(wǎng)絡(luò)中,利用人體運動的規(guī)律性,使用IMU 原始數(shù)據(jù)和濾波器中的姿態(tài)學(xué)習(xí)相對位移和其不確定度。最終,視覺特征、慣性狀態(tài)和網(wǎng)絡(luò)輸出的慣性特征通過濾波器實現(xiàn)了緊耦合。該方法增強了對慣性特征的利用,提高了系統(tǒng)魯棒性。系統(tǒng)也可以僅依靠慣性數(shù)據(jù)進行較高精度的導(dǎo)航。Wang等[19]同樣以EKF 作為后端,其視覺前端建立了地標(biāo)識別模型,通過識別已知位置的地標(biāo)信息計算比例關(guān)系進而實現(xiàn)位姿優(yōu)化,以緩解位置誤差累積的問題。Shan等[20]和Zuo等[21]基于MSCKF(multi-state constraint Kalman filter)[22]的融合框架,前者在前端建模了目標(biāo)物體的語義特征的網(wǎng)絡(luò),系統(tǒng)在幾何和語義級別上理解周圍環(huán)境,以目標(biāo)物體產(chǎn)生的殘差約束視覺慣性的狀態(tài),可以實現(xiàn)高精度定位和生成全局地圖;后者建模了深度估計網(wǎng)絡(luò),將圖像深度作為特征向量以實現(xiàn)視覺慣性更緊密的耦合,系統(tǒng)在輸出位姿的同時還可以實時地提供密集稠密深度圖。以上方法通過建立額外的量測約束,使VIO 在一些特定應(yīng)用場景中擁有更強的魯棒性。

1.2 基于深度學(xué)習(xí)的端到端的融合

Clark等[23]提出了首個使用深度學(xué)習(xí)框架實現(xiàn)的端到端的監(jiān)督學(xué)習(xí)VIO 方法VINet,整體可微的CNN-LSTM 架構(gòu)使其可以實現(xiàn)端到端的訓(xùn)練,其中CNN-LSTM 架構(gòu)是由CNN、LSTM 網(wǎng)絡(luò)結(jié)合的網(wǎng)絡(luò)模型架構(gòu)。系統(tǒng)前端將視覺慣性特征轉(zhuǎn)化為高維特征表達,在后端將視覺特征、慣性特征和上時刻位姿拼接,最后基于LSTM 網(wǎng)絡(luò)和全連接層進行特征融合并估計位姿。VINet 在應(yīng)對時間不同步、數(shù)據(jù)外參標(biāo)定不準(zhǔn)確和校準(zhǔn)誤差導(dǎo)致的發(fā)散時,相比傳統(tǒng)方法都表現(xiàn)出更強的魯棒性。但是其后端沒有明確特征選擇的建模,隱式的處理方法很難對靜態(tài)和動態(tài)的特征實現(xiàn)有效和靈活的識別,在提取不同表示、不同分布的數(shù)據(jù)特征時并不穩(wěn)定。后續(xù)的研究為建模特征選擇過程,分別采用基于加法交互作用的方法[10,24-25]和基于乘法交互作用的方法[26-28]。對特征選擇進行建模進一步提高了系統(tǒng)的魯棒性,具體可以體現(xiàn)在應(yīng)對傳感器數(shù)據(jù)丟失、損壞,視覺慣性傳感器數(shù)據(jù)不同步等方面。不同于利用LSTM 網(wǎng)絡(luò)建模特征融合后端的方法,Aslan等[28]基于高斯過程回歸[29]實現(xiàn)了特征融合。這些方法的原理框圖如圖3 所示。

圖3 監(jiān)督學(xué)習(xí)VIO 的基本框架Fig.3 Basic framework for supervised VIO

為減少對數(shù)據(jù)集真值的依賴,無監(jiān)督和自監(jiān)督的方法[25,30-35]也被提出,其系統(tǒng)框架如圖4 所示。無監(jiān)督與自監(jiān)督學(xué)習(xí)的VIO 不直接使用數(shù)據(jù)集真值建立損失函數(shù),而是基于重建的源圖像和目標(biāo)圖像的幾何約束[36],建立無監(jiān)督損失項。無監(jiān)督VIO 中用于建立無監(jiān)督項的深度圖由外部提供,自監(jiān)督方法的重建圖像信息來自相機圖像序列,Almalioglu等[25]使用生成式對抗網(wǎng)絡(luò)(generative adversarial networks,GAN)和無監(jiān)督學(xué)習(xí)方法聯(lián)合實現(xiàn)姿態(tài)估計和生成深度圖,實現(xiàn)在未知陌生環(huán)境中的定位和建圖。Han等[34]利用立雙目圖像序列估計深度得到密集的三維點云,進而得到三維光流和6 自由度姿態(tài)等三維幾何約束作為自監(jiān)督項。無監(jiān)督VIO 可以對有尺度軌跡做在線矯正,在面對新環(huán)境和惡劣環(huán)境時具有更強的適應(yīng)和泛化能力,同時受錯誤校準(zhǔn)、數(shù)據(jù)不同步等因素影響相比傳統(tǒng)方法要低,有些方法[25,31-32]還可以在沒有已知傳感器外參和視覺慣性數(shù)據(jù)松散同步的情況下給出載體位姿信息。

圖4 無監(jiān)督VIO 的基本框架Fig.4 Basic framework of unsupervised VIO

2 深度學(xué)習(xí)VIO 系統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型

深度學(xué)習(xí)VIO 的網(wǎng)絡(luò)模型需依據(jù)是否在訓(xùn)練中使用了數(shù)據(jù)集提供的真值,可以分為監(jiān)督學(xué)習(xí)模型和無監(jiān)督/自監(jiān)督學(xué)習(xí)模型。

2.1 監(jiān)督學(xué)習(xí)模型

慣性前端網(wǎng)絡(luò)能夠利用低精度的IMU 信息提高整個系統(tǒng)的魯棒性和精度。Rambach等[12]建模的慣性網(wǎng)絡(luò)包括1 層LSTM 網(wǎng)絡(luò)和3 層全連接層,雖然網(wǎng)絡(luò)可以利用有限的數(shù)據(jù)得到不錯的結(jié)果,卻存在比較嚴(yán)重的漂移。RNIN-VIO[18]建模的魯棒慣性網(wǎng)絡(luò)由ResNet18、3 層LSTM 網(wǎng)絡(luò)和兩個并行的全連接層組成。ResNet18 用于學(xué)習(xí)人體運動隱藏變量,LSTM 網(wǎng)絡(luò)將當(dāng)前的隱藏狀態(tài)與之前的隱藏狀態(tài)進行融合,以估計運動的最佳當(dāng)前隱藏狀態(tài)。同時RNIN-VIO設(shè)計了兩種不同的損失函數(shù)用于保證每個窗口以及長序列的訓(xùn)練精度。視覺前端的網(wǎng)絡(luò)可以提高系統(tǒng)在快速運動和無紋理場景等特殊環(huán)境中的魯棒性。Li等[13]的視覺網(wǎng)絡(luò)使用CNN 網(wǎng)絡(luò)提取視覺特征,將特征排列為時間序列,然后通過雙層LSTM 網(wǎng)絡(luò)輸出相機位姿和不確定度。

VINet[23]是首個基于深度學(xué)習(xí)的端到端方法,其模型框架如圖5 所示,其中慣性前端基于LSTM 網(wǎng)絡(luò)進行建模,網(wǎng)絡(luò)每次將圖像兩幀之間的所有原始數(shù)據(jù)輸入,這樣保證了慣性特征的學(xué)習(xí)和前端視覺慣性特征的同步輸出。光流網(wǎng)絡(luò)可以利用圖像序列中像素在時間域上的變化以及相鄰幀之間的相關(guān)性來找到圖像的對應(yīng)關(guān)系,進而獲得載體的運動信息。因此,視覺前端使用預(yù)訓(xùn)練的FlowNetCorr光流網(wǎng)絡(luò)[37-38]的前端卷積部分網(wǎng)絡(luò)以兩張連續(xù)的圖像作為輸入,經(jīng)過光流網(wǎng)絡(luò)內(nèi)CNN 網(wǎng)絡(luò)的多次特征提取后輸出高維的特征表達。VINet 的后端使用兩層的LSTM 網(wǎng)絡(luò)建模以實現(xiàn)特征融合。

圖5 VINet的模型結(jié)構(gòu)Fig.5 Model structure of VINet

在特征融合后端,為了進一步提高特征融合網(wǎng)絡(luò)模型的可解釋性和提高系統(tǒng)魯棒性,Chen等[24]提出在視覺慣性特征向量拼接后分別使用具有確定性的軟融合和具有隨機性的強融合兩種具有可解釋性的融合模式,以加法交互作用的方式實現(xiàn)特征選擇的顯示建模。同時,這種方法還采用了輕量級的FlowNetSimple 網(wǎng)絡(luò)[37-38]以加快運行速度。但是這種融合方式依然缺少視覺慣性特征之間的顯式聯(lián)系。為了進一步提高模型的可解釋性和可學(xué)習(xí)性,Shinde等[26]基于多頭自注意力機制[39]建模了后端融合模型,以乘法交互作用的方式實現(xiàn)顯式融合。ATVIO[27]在特征選擇過程中根據(jù)SENet 網(wǎng)絡(luò)[40]構(gòu)建了注意力生成模塊,顯式地建模了特征之間的相關(guān)性,減少了異常數(shù)據(jù)對后端特征融合造成的影響。

在特征提取前端也需要準(zhǔn)確、高效的模型。早期的慣性網(wǎng)絡(luò)一般基于LSTM 網(wǎng)絡(luò)建模,然而LSTM網(wǎng)絡(luò)內(nèi)參數(shù)較多,訓(xùn)練時間較長。CNN 網(wǎng)絡(luò)相比LSTM 網(wǎng)絡(luò)雖然不能補償傳感器間的時間偏差,但是其建模計算速度更快,網(wǎng)絡(luò)更穩(wěn)定和容易收斂[41]。隨著傳感器同步校準(zhǔn)精度的提高,基于CNN 的慣性前端網(wǎng)絡(luò)模型也可以發(fā)揮優(yōu)勢。ATVIO[27]使用了兩個并行的3 層CNN 網(wǎng)絡(luò)層分別學(xué)習(xí)IMU 中加速度和角速度中的特征。Aslan等[28]將平滑和去噪的IMU 數(shù)據(jù)使用預(yù)訓(xùn)練的Inception V3 網(wǎng)絡(luò)[42]學(xué)習(xí)慣性特征。在視覺前端,CNN 網(wǎng)絡(luò)無法記憶先前的圖像信息,為此ATVIO[27]使用ConvLSTM 網(wǎng)絡(luò)建模視覺前端,ConvLSTM 網(wǎng)絡(luò)是可以同時提取圖像時空相關(guān)特征的網(wǎng)絡(luò),使視覺前端得以學(xué)習(xí)來自先前圖像特征的約束。此外,經(jīng)過合理初始化的視覺前端網(wǎng)絡(luò)相比未經(jīng)過訓(xùn)練的網(wǎng)絡(luò)模型具有更快的收斂速度,訓(xùn)練過程也更穩(wěn)定,因此特征級融合的方法一般會對前端視覺網(wǎng)絡(luò)進行預(yù)訓(xùn)練。

端到端的監(jiān)督學(xué)習(xí)模型的損失函數(shù)θ可以使k時刻的真實位姿(pk,φk)與其估計的地面位姿之間的歐氏距離最小化以實現(xiàn)最優(yōu)結(jié)果[14,43-44],一般以均方誤差(mean square error,MSE)計算,稱為MSE損失函數(shù)。部分?jǐn)?shù)據(jù)集的姿態(tài)真值以四元數(shù)的形式保存,但直接使用四元數(shù)計算損失會因其冗余的維數(shù)導(dǎo)致訓(xùn)練難度增加,同時浪費了計算資源,因此一般會將四元數(shù)轉(zhuǎn)化為歐拉角使用。網(wǎng)絡(luò)模型復(fù)雜的深層結(jié)構(gòu)使MSE 損失函數(shù)在訓(xùn)練中仍受到諸多限制,模型子網(wǎng)絡(luò)的平均性能較差。于是Liu等[27]將自適應(yīng)損失函數(shù)[45]應(yīng)用于訓(xùn)練過程中,模型在訓(xùn)練過程中自適應(yīng)地調(diào)整參數(shù),加快了網(wǎng)絡(luò)收斂,同時強化了對子網(wǎng)絡(luò)的訓(xùn)練,提升了網(wǎng)絡(luò)整體性能。監(jiān)督學(xué)習(xí)VIO 的損失函數(shù)定義為:

其中,β是用于平衡位置和姿態(tài)的比例因子。

2.2 無監(jiān)督/自監(jiān)督學(xué)習(xí)模型

無監(jiān)督和自監(jiān)督學(xué)習(xí)的VIO 需要通過在訓(xùn)練過程中建立約束模型以擺脫對數(shù)據(jù)集真值的依賴或應(yīng)對沒有真值的情況。在深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法中,由于難以提供真實的視覺特征,利用深度學(xué)習(xí)對特征點或其他特征進行跟蹤匹配,或者實現(xiàn)深度預(yù)測等,往往需要用無監(jiān)督或自監(jiān)督學(xué)習(xí)解決。余洪山等[15]的改進SuperPoint 網(wǎng)絡(luò)由輕量級的編碼層、特征點檢測層和描述符解碼層構(gòu)成,采用稀疏描述符損失函數(shù)進行訓(xùn)練,但是網(wǎng)絡(luò)在訓(xùn)練前還需經(jīng)過預(yù)訓(xùn)練獲取合適的初始化參數(shù),以保證后續(xù)網(wǎng)絡(luò)的正常收斂。CodeVIO[21]用于深度預(yù)測的網(wǎng)絡(luò)分為兩部分:一部分是修改過的編碼網(wǎng)絡(luò),通過原始圖像和級聯(lián)稀疏深度圖預(yù)測稠密的深度圖及其不確定度;另一部分是變分自編碼器,通過對深度信息進行編碼得到用于VIO 優(yōu)化的深度向量。

Shamwell等[31-32]提出了首個端到端的無監(jiān)督方法VIOLearner,模型結(jié)構(gòu)如圖6 所示。在IMU 固有參數(shù)和外部校準(zhǔn)參數(shù)未知的情況下,網(wǎng)絡(luò)首先學(xué)習(xí)IMU 狀態(tài)并生成原始軌跡,然后通過多尺度縮放圖像的投影誤差的修正,實現(xiàn)原始軌跡的在線校正。多尺度的縮放不僅有助于克服訓(xùn)練期間的梯度局部性,而且有助于在運行時進行在線誤差校正。Lindgren等[33]提出了Boom-VIO,系統(tǒng)包括一個學(xué)習(xí)相對位移的傳統(tǒng)模型、一個深度網(wǎng)絡(luò)和一個無監(jiān)督學(xué)習(xí)模型,無監(jiān)督學(xué)習(xí)模型基于VIOLearner。其在網(wǎng)絡(luò)訓(xùn)練過程中加入傳統(tǒng)模型的引導(dǎo),并得到最終的訓(xùn)練軌跡。DeepVIO[34]通過直接結(jié)合二維光流特征和IMU 原始數(shù)據(jù)來提供絕對軌跡估計。系統(tǒng)包括一個學(xué)習(xí)視覺特征的CNN 光流網(wǎng)絡(luò),一個學(xué)習(xí)慣性特征的LSTM網(wǎng)絡(luò),一個用于融合的全連接網(wǎng)絡(luò)。此外,還有一個用于建立自監(jiān)督約束的模塊,能夠分別對視覺網(wǎng)絡(luò)、IMU 網(wǎng)絡(luò)和整體的網(wǎng)絡(luò)進行訓(xùn)練,其模型結(jié)構(gòu)如圖7所示。SelfVIO[25]前端包括基于CNN 的慣性網(wǎng)絡(luò)、視覺網(wǎng)絡(luò)和深度學(xué)習(xí)網(wǎng)絡(luò),后端由基于多頭自注意力機制的融合網(wǎng)絡(luò)和LSTM 網(wǎng)絡(luò)組成。其中,深度網(wǎng)絡(luò)學(xué)習(xí)輸出的單目深度圖,與網(wǎng)絡(luò)估計的位姿、源圖像共同實現(xiàn)圖像重建。UnVIO[35]同樣通過預(yù)測圖像深度建立無監(jiān)督約束。此外,UnVIO 在訓(xùn)練過程中采用了滑動窗口優(yōu)化的策略,以克服長期運行中誤差累積和尺度模糊的問題。窗口內(nèi)部通過判斷光度一致性建立幾何約束,窗口之間利用三維幾何一致性和軌跡一致性建立約束,這有效緩解了誤差累積的問題。

圖6 VIOLearner的模型結(jié)構(gòu)Fig.6 Model structure of VIOLearner

圖7 DeepVIO 的模型結(jié)構(gòu)Fig.7 Model structure of DeepVIO

無監(jiān)督和自監(jiān)督損失可以利用圖像的時間或空間性質(zhì)構(gòu)造[31-32],以表示一個訓(xùn)練的圖像序列,其中的某一幀It為目標(biāo)圖像,其余的作為源圖像,根據(jù)兩幀圖像間的光度差異可定義損失函數(shù)為:

其中,p是像素點坐標(biāo)值,是基于源圖像Is重建后的源圖像。

3 深度學(xué)習(xí)VIO 的數(shù)據(jù)優(yōu)化與評估

以上方法從學(xué)習(xí)方式、融合方式、方法特性、方法局限等方面匯總并整理至表1。除建立網(wǎng)絡(luò)模型外,模型的訓(xùn)練、優(yōu)化與評估方法也至關(guān)重要。深度學(xué)習(xí)VIO 模型的訓(xùn)練和測試需要使用數(shù)據(jù)集。模型優(yōu)化的最終要求是模型輸出的損失達到目標(biāo)值,這需要選擇合適的優(yōu)化器,并針對不同的融合策略和學(xué)習(xí)方式建立與之匹配的損失函數(shù)等,這里只展開介紹損失函數(shù)。評估方法可以用于對比系統(tǒng)因模型的改變,或面對不同的環(huán)境,或與不同方法的橫向?qū)Ρ戎袝r,表現(xiàn)出這些模型、方法的優(yōu)秀性能和存在的問題。因此,本章將對VIO 現(xiàn)有的公開數(shù)據(jù)集與評估方法進行總結(jié),同時比較部分方法的性能。

表1 基于深度學(xué)習(xí)的VIO 方法概覽Table 1 Overview of deep learning-based VIO methods

3.1 數(shù)據(jù)集

基于深度學(xué)習(xí)的VIO 網(wǎng)絡(luò)模型需要使用大量數(shù)據(jù)進行訓(xùn)練以提高泛化能力和提高導(dǎo)航精度。網(wǎng)絡(luò)模型在訓(xùn)練測試過程中一般使用公共的數(shù)據(jù)集。公共數(shù)據(jù)集按采集數(shù)據(jù)的載體平臺分類可分為:駕駛類數(shù)據(jù)集KITTI(Odometry 序列)[46]、Malaga Urban[47]、UMich NCLT[48]、Zurich Urban[49]、Canoe[50]、CUHK-AHU[51]等;手持設(shè)備數(shù)據(jù)集TUM-VI[52]、PennCOSYVIO[53]、ADVIO[54]、CVG ZJU[55]、NEAR[56]、UMA-VI[57]、HAUD[58]等;微型飛行器(micro air vehicle,MAV)/無人駕駛飛機(unmanned aerial vehicle,UAV)等小型機器人數(shù)據(jù)集EuRoC MAV[59]、AQUALOC[60]、Blackbird UAV[61]等;虛擬系統(tǒng)采集的數(shù)據(jù)集WHU-RSVI[62]、VIODE[63]等。以上數(shù)據(jù)集的基本屬性可見表2。其中,KITTI、EuRoC MAV 是常用的公開數(shù)據(jù)集。

表2 VIO 數(shù)據(jù)集Table 2 VIO datasets

KITTI 數(shù)據(jù)集[46]由德國卡爾斯魯厄理工學(xué)院和豐田美國技術(shù)研究院聯(lián)合制作,是目前最大的自動駕駛場景中的公開數(shù)據(jù)集。KITTI 包含市區(qū)、鄉(xiāng)村和高速公路等室外場景采集的22 個序列,其中11 個有真值。圖像采集自2 個灰度相機(FL2-14S3M-C)、2個彩色相機(FL2-14S3C-C),采集頻率為10 Hz,IMU采集頻率為100 Hz,真值來自高精度全球定位和慣性導(dǎo)航組成的組合系統(tǒng)OXTS RT 3003。

EuRoC MAV 數(shù)據(jù)集[59]是由蘇黎世聯(lián)邦理工學(xué)院制作的微型飛行器數(shù)據(jù)集,數(shù)據(jù)采集于一個工廠場景和兩個室內(nèi)場景。整個數(shù)據(jù)集包含從良好視覺條件下的緩慢飛行到運動模糊和光照差的動態(tài)飛行共11 個序列。圖像采集使用雙目相機MT9V034,采集頻率為20 Hz,IMU使用ADIS16448,采集頻率 為200 Hz,真值來自激光跟蹤系統(tǒng)或Vicon 動捕系統(tǒng)。

3.2 評估方法與指標(biāo)

深度學(xué)習(xí)網(wǎng)絡(luò)通常是模塊化設(shè)計,可以使用消融實驗[64],即通過刪除、修改或替換某些模塊以判斷網(wǎng)絡(luò)行為和驗證一些提出的方法的有效性。

評估VIO 最重要的指標(biāo)就是導(dǎo)航精度。在VIO方法的評估實驗中,常用的度量標(biāo)準(zhǔn)包括:

(1)絕對軌跡誤差(absolute trajectory error,ATE)直接計算VIO 位姿的估計值與真實值之間的差值,可以直觀地反映算法的精度。首先將真實值與估計值的時間戳對齊,然后計算每對位姿之間的差值。一般使用均方根誤差(root mean square error,RMSE)統(tǒng)計ATE。

(2)相對位姿誤差(relative pose error,RPE)用于衡量運動軌跡中固定長度或時間內(nèi)的局部準(zhǔn)確度。通過位姿真實值與估計值的實時比較,可以估計系統(tǒng)的漂移情況,一般使用RMSE 統(tǒng)計RPE。

(3)CPU/GPU 的負(fù)載、內(nèi)存的占用、計算速度等參數(shù)也是VIO 的評價指標(biāo),VIO 不僅要實現(xiàn)高精度,也要綜合考慮應(yīng)用環(huán)境的成本和實現(xiàn)條件。

表3 比較了一些重要方法在公開數(shù)據(jù)集中的性能。評估指標(biāo)為KITTI 的09、10 兩個序列在長度為100~800 m 的平均位移和角度的均方根誤差漂移trel(%)和rrel((°)/hm)以及EuRoC 中Vicon 動捕房間中的前5 個數(shù)據(jù)集的絕對軌跡誤差。此外表中還添加了經(jīng)典的傳統(tǒng)方法進行對比,包括基于濾波的方法MSCKF[22]、S-MSCKF[65]和基于優(yōu)化的方法OKVIS[66]、VINS-Mono[17]。其中可以看到,在大部分的測試中深度學(xué)習(xí)方法具有更高的精度。同時,數(shù)據(jù)集不同可能會影響深度學(xué)習(xí)方法的結(jié)果,比如Li等[13]的方法在KITTI中具有很高的精度,然而在IMU 數(shù)據(jù)的偏差噪聲更大的EuRoC 精度較差。此外,在遇到光照改變、圖像模糊、相機運動過快、圖像和IMU 數(shù)據(jù)丟失等情況時,深度學(xué)習(xí)的方法表現(xiàn)出更強的魯棒性。

表3 基于深度學(xué)習(xí)的VIO 方法比較Table 3 Comparison of deep learning-based VIO methods

4 總結(jié)與展望

本文簡述了深度學(xué)習(xí)VIO 的研究現(xiàn)狀,對研究方法進行了梳理和概括,總結(jié)了基于深度學(xué)習(xí)的系統(tǒng)融合策略,分析了深度學(xué)習(xí)VIO 的模型結(jié)構(gòu),并對可用于其數(shù)據(jù)集、損失函數(shù)以及評估模型的方法與指標(biāo)等進行了介紹,以期望能對現(xiàn)有的方法進行總結(jié),以及對未來的發(fā)展方向提供一些參考。目前可以從兩方面總結(jié)現(xiàn)有方法的性能。

(1)從融合策略的方面來說。深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法利用網(wǎng)絡(luò)可以針對性地優(yōu)化子模型的性能,進而提高系統(tǒng)的魯棒性;同時,系統(tǒng)內(nèi)部有明確意義的特征可以與其他系統(tǒng)進行一定程度的相互融合。這類方法的局限是其限制了隱藏特征的表達,而且狀態(tài)量的增多會提高模型的復(fù)雜度,使計算量增加。端到端的方法對潛在特征挖掘的能力要高于與傳統(tǒng)模型結(jié)合的方法,但是復(fù)雜網(wǎng)絡(luò)的訓(xùn)練首先需要高性能的計算機;其次,網(wǎng)絡(luò)模型內(nèi)部的不可解釋性使得端到端的模型內(nèi)部的高維特征表達也使其內(nèi)部的特征難以利用,使系統(tǒng)功能僅局限于輸出位姿。

(2)從網(wǎng)絡(luò)模型的學(xué)習(xí)方式來說。監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的模型都具有很強的魯棒性,在有挑戰(zhàn)性的視覺環(huán)境中相比傳統(tǒng)方法可以保持更高的導(dǎo)航精度。然而,這些模型需要大量數(shù)據(jù)進行訓(xùn)練,同時它們都難以在與訓(xùn)練環(huán)境不同的場景中繼續(xù)保持高精度。監(jiān)督學(xué)習(xí)模型結(jié)構(gòu)更簡單,訓(xùn)練更容易;無監(jiān)督因無監(jiān)督項的構(gòu)建使模型更為復(fù)雜,同時訓(xùn)練也相對困難。

深度學(xué)習(xí)與VIO 結(jié)合的研究正在快速發(fā)展,基于深度學(xué)習(xí)的VIO 的方法研究正不斷地有新的研究成果出現(xiàn)。同樣的,依然存在很多可以優(yōu)化和尚未解決的問題,需要繼續(xù)深入研究?;谝陨洗嬖诘膯栴},未來開展基于深度學(xué)習(xí)的VIO 方法研究時可以從初始對準(zhǔn)、復(fù)雜環(huán)境導(dǎo)航、深度融合和多系統(tǒng)融合等方面著手,具體如下:

(1)初始對準(zhǔn)。初始對準(zhǔn)極大地影響后續(xù)位姿估計,初始化的不準(zhǔn)確將使后續(xù)位姿的回歸快速發(fā)散,初始化是VIO 運行過程中非常重要的一步。VIO的初始對準(zhǔn)因系統(tǒng)初始位置的隨機性使其難以通過真實數(shù)據(jù)集進行訓(xùn)練,可以使用無監(jiān)督學(xué)習(xí)的方式實現(xiàn),在保證對準(zhǔn)精度和時間的情況下省略傳感器標(biāo)定、IMU 與相機校準(zhǔn)等的人工校準(zhǔn)行為。

(2)復(fù)雜環(huán)境導(dǎo)航?;谏疃葘W(xué)習(xí)的方法需要根據(jù)數(shù)據(jù)集進行訓(xùn)練,在面對與訓(xùn)練數(shù)據(jù)不同的場景中,導(dǎo)航的精度會快速下降。因此,可以建立多場景的大型數(shù)據(jù)集,通過包含更多場景、更多運動模式的數(shù)據(jù)集提高模型的魯棒性,或者使用遷移學(xué)習(xí)等方法提高模型的泛化性。此外,在深度學(xué)習(xí)與傳統(tǒng)模型結(jié)合的方法中可以學(xué)習(xí)一些高級特征,比如利用語義信息實現(xiàn)語義層面的定位約束,提高系統(tǒng)的魯棒性和環(huán)境適應(yīng)性。

(3)深度融合。目前的端到端網(wǎng)絡(luò)模型對多模態(tài)特征的冗余性和差異性的理解依然有限。特征融合過程中引入新的深度學(xué)習(xí)方法可以進一步提高融合深度。在基于濾波和優(yōu)化的VIO 方法中,深度學(xué)習(xí)使多模態(tài)特征的融合不再局限于后端的濾波器或優(yōu)化器,前端的融合可以增加系統(tǒng)的融合深度,提高系統(tǒng)的精度和魯棒性。

(4)多系統(tǒng)融合。系統(tǒng)間的協(xié)作與融合是一個趨勢,VIO 可以與其他導(dǎo)航傳感器結(jié)合以適應(yīng)某些特殊環(huán)境或運動行為。比如與藍(lán)牙、WiFi定位相結(jié)合實現(xiàn)行人或機器人的室內(nèi)導(dǎo)航,與全球定位系統(tǒng)(global positioning system,GPS)結(jié)合以提高遠(yuǎn)距離無人機導(dǎo)航的精度和自主性。也可以投入實際應(yīng)用中,以輸出位姿、深度地圖等作為輔助信號,實現(xiàn)系統(tǒng)的路徑規(guī)劃和自動導(dǎo)航等研究。

猜你喜歡
慣性深度監(jiān)督
你真的了解慣性嗎
沖破『慣性』 看慣性
深度理解一元一次方程
突出“四個注重” 預(yù)算監(jiān)督顯實效
深度觀察
深度觀察
深度觀察
無處不在的慣性
監(jiān)督見成效 舊貌換新顏
夯實監(jiān)督之基