国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合注意力與無監(jiān)督深度學(xué)習(xí)的單目深度估計(jì)

2020-07-27 09:57:28岑仕杰何元烈陳小聰
關(guān)鍵詞:視圖注意力卷積

岑仕杰,何元烈,陳小聰

(廣東工業(yè)大學(xué) 計(jì)算機(jī)學(xué)院,廣東 廣州 510006)

深度信息對于理解三維場景有著重要的作用,它能應(yīng)用于各種機(jī)器人技術(shù),例如三維重建、三維目標(biāo)檢測和同時(shí)定位與構(gòu)圖(Simultaneous Localization and Mapping,SLAM)[1]。從圖像中獲取深度信息的任務(wù)被稱為圖像深度估計(jì),由于攝像頭輕便、廉價(jià)等特性,通過圖像來恢復(fù)像素級深度在計(jì)算機(jī)視覺領(lǐng)域中越來越受關(guān)注。

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,許多工作使用監(jiān)督深度學(xué)習(xí)從圖像中推斷出深度信息。然而監(jiān)督學(xué)習(xí)所需要的真值數(shù)據(jù)的獲取并不容易,因此最近的工作試圖使用無監(jiān)督學(xué)習(xí)解決深度估計(jì)問題。在缺少真實(shí)標(biāo)注的情況下,要學(xué)習(xí)從像素到深度的映射,模型需要附加其他約束條件。其中一種形式的無監(jiān)督深度估計(jì)是使用同步的雙目圖像對進(jìn)行訓(xùn)練。同步雙目圖像對僅在訓(xùn)練期間使用,模型估計(jì)左右圖像視差或圖像深度,從而重建圖像,通過比較圖像之間的差異來訓(xùn)練模型。Xie等[2]提出了一種具有離散深度的模型,用于新視圖合成的問題,隨后Garg等[3]通過估計(jì)連續(xù)視差值來擴(kuò)展這種方法。Godard等[4]通過使用左右深度一致性項(xiàng)來產(chǎn)生優(yōu)于當(dāng)前部分監(jiān)督方法的結(jié)果。另一種約束較少的無監(jiān)督形式是使用單目視頻數(shù)據(jù)來訓(xùn)練模型,將圖像重建損失用作監(jiān)督信號來訓(xùn)練網(wǎng)絡(luò)。這種無監(jiān)督的訓(xùn)練方式除了估計(jì)深度之外,網(wǎng)絡(luò)還必須估計(jì)幀間的相機(jī)姿勢。Zhou等[5]開創(chuàng)性地僅使用單目視頻訓(xùn)練了深度估計(jì)網(wǎng)絡(luò)以及單獨(dú)的位姿估計(jì)網(wǎng)絡(luò),為了處理非剛性場景運(yùn)動,他們提出了使用網(wǎng)絡(luò)學(xué)習(xí)解釋掩模,允許模型忽略違反剛性場景假設(shè)的特定區(qū)域。Mahjourian等[6]使用更明確的幾何損失來聯(lián)合學(xué)習(xí)深度和相機(jī)運(yùn)動的剛性場景。Yin等[7]在文獻(xiàn)[5]研究的基礎(chǔ)上添加了一個(gè)細(xì)化網(wǎng)絡(luò),以估計(jì)殘差光流。這些方法僅僅利用單目視頻序列或者雙目圖像對就可以完成訓(xùn)練任務(wù),并在戶外場景中產(chǎn)生比部分監(jiān)督方法更好的結(jié)果。

然而,以上方法都沒有利用好場景中的上下文信息。Huang等[8]研究了自然場景的深度圖像的統(tǒng)計(jì)量,表明深度圖像可以分解為分段的平滑區(qū)域,彼此之間幾乎沒有依賴性,并且通常存在尖銳的不連續(xù)性。因此,場景深度的變化與場景中“對象”的概念息息相關(guān),而不是像顏色、紋理、照明等一些底層特征。當(dāng)前部分研究[5]采用基于邊緣感知的平滑損失來約束模型,從而產(chǎn)生在“對象”內(nèi)較為平滑的深度圖像。但是基于圖像梯度的邊緣圖并不能很好地表現(xiàn)出對象的邊界。為了解決該問題,本文提出了利用Fu等[9]在語義分割領(lǐng)域所提出的雙重注意力模塊改進(jìn)深度估計(jì)網(wǎng)絡(luò),通過注意力機(jī)制更有效地利用對象內(nèi)和對象間的上下文信息,增強(qiáng)模型的特征提取能力。本文的方法在KITTI數(shù)據(jù)集和Make3D數(shù)據(jù)集上的驗(yàn)證結(jié)果表明了注意力機(jī)制對提高深度估計(jì)精度的有效性。

1 相關(guān)研究

1.1 問題描述

圖像記錄的是三維世界在成像平面上的投影信息,圖像的深度估計(jì)是從圖像信息中估計(jì)場景深度的問題,在計(jì)算機(jī)領(lǐng)域?qū)儆谌S重建的一部分,這個(gè)問題用數(shù)學(xué)語言來描述為 D=F(I) ,其中 D為深度、I為圖像,而 F為圖像到深度的映射函數(shù)。由于尺度的模糊性,單目深度估計(jì)是一種不適定(ill-posed)問題,所以幾乎不能直接求解 F。許多學(xué)者開始使用監(jiān)督深度學(xué)習(xí)進(jìn)行深度估計(jì),但由于獲取大規(guī)模的真實(shí)標(biāo)簽的數(shù)據(jù)費(fèi)時(shí)且昂貴,因而最近許多研究關(guān)注無監(jiān)督的深度學(xué)習(xí)方法。

1.2 視圖重建作為監(jiān)督信號

利用視圖重建作為監(jiān)督信號是一種無監(jiān)督方法,其核心思路是以深度和位姿作為中間量,結(jié)合對極幾何進(jìn)行視圖重建。假設(shè)觀察場景是靜止的,給出兩張不同視角下拍攝的視圖 It和 Is,若已知視圖 It的深度圖 Dt和 It到 Is的坐標(biāo)變換矩陣,則 It和 Is之間的像素映射關(guān)系為

其中 K為相機(jī)內(nèi)參,Tt~s為 It到 Is的坐標(biāo)變換矩陣, pt、ps分別為兩張視圖的像素坐標(biāo)。通過網(wǎng)絡(luò)模型可學(xué)習(xí)出每個(gè)像素的深度以及幀間位姿變換,因此根據(jù)式(1)的映射關(guān)系可以利用插值算法(如雙線性插值)對不同視角下的圖像進(jìn)行合成并與目標(biāo)視圖比較,從而無監(jiān)督訓(xùn)練模型實(shí)現(xiàn)估計(jì)深度和位姿變換。

2 系統(tǒng)模型框架

本文模型框架如圖1所示,模型框架分為深度估計(jì)網(wǎng)絡(luò)和位姿變換估計(jì)網(wǎng)絡(luò)兩部分。深度估計(jì)網(wǎng)絡(luò)以單張彩色圖像作為輸入,不同于之前的一些工作[5,7],本文深度估計(jì)網(wǎng)絡(luò)輸出的是稠密的深度圖,由于直接估計(jì)深度比估計(jì)視差少了取逆操作,整個(gè)系統(tǒng)的訓(xùn)練更容易收斂。位姿估計(jì)網(wǎng)絡(luò)的輸入為兩幀圖像,輸出為6-DoF位姿變換。模型估計(jì)的深度圖與位姿變換用于視圖重建,重建的視圖與目標(biāo)視圖的對比誤差作為損失來訓(xùn)練神經(jīng)網(wǎng)絡(luò),訓(xùn)練過程無需真實(shí)深度和實(shí)際相機(jī)運(yùn)動的位姿變換標(biāo)注。

圖 1 模型框架Fig.1 Model framework

2.1 網(wǎng)絡(luò)結(jié)構(gòu)概述

本文模型框架包含深度估計(jì)網(wǎng)絡(luò)和位姿變換估計(jì)網(wǎng)絡(luò),兩個(gè)網(wǎng)絡(luò)均為全卷積網(wǎng)絡(luò)。深度估計(jì)網(wǎng)絡(luò)基于U-Net架構(gòu),并且包含跳躍連接與注意力模塊,在提取深層特征的同時(shí)又能表示遠(yuǎn)程的上下文信息,結(jié)構(gòu)如圖2所示。為了提取魯棒的圖像特征,本文將ResNet18[10]作為用于提取RGB圖像特征的編碼器。與現(xiàn)有工作中使用DispNet[5]和基于ResNet50的模型相比,本文的編碼器參數(shù)更少,運(yùn)行速度更快。本文把在ImageNet上預(yù)訓(xùn)練的權(quán)重用作編碼器權(quán)重的初始化,實(shí)驗(yàn)表明與從頭開始訓(xùn)練相比,這種初始化方式能提高模型的準(zhǔn)確率。

由于輸入圖像通過編碼器提取特征圖是下采樣過程,因此需要進(jìn)行上采樣操作對特征圖分辨率進(jìn)行還原。深度估計(jì)網(wǎng)絡(luò)的解碼器由5個(gè)上采樣模塊組成,除了輸出處,解碼器其他地方均使用指數(shù)線性單元(Exponential Linear Unit,ELU)作為激活函數(shù)。與文獻(xiàn)[5]中基于反卷積的上采樣模塊不同,本文的上采樣模塊由卷積運(yùn)算層以及最近鄰插值算法組成,結(jié)構(gòu)如圖2中虛線標(biāo)注區(qū)域所示。為了建模遠(yuǎn)程的上下文信息,增強(qiáng)特征之間的關(guān)聯(lián)性,本文在深度估計(jì)網(wǎng)絡(luò)的解碼器部分加入了注意力模塊。解碼器的前兩層嵌入了雙通道注意力模塊,包含位置注意力模塊與通道注意力模塊,可以學(xué)習(xí)特征之間的上下文信息且不會增加過多的計(jì)算開銷。深度估計(jì)層由3×3的卷積運(yùn)算以及Sigmoid激活函數(shù)組成,輸出圖像的深度信息。為了將輸出限制在一個(gè)合理的范圍,本文對輸出進(jìn)行了線性變換,即 D=a+(b?a)σ, 這里 D是模型輸出的深度圖, σ是Sigmoid激活函數(shù)的輸出,a 、b分別是最小和最大深度值,本文取值為0.001和100。

位姿變換估計(jì)網(wǎng)絡(luò)使用全卷積網(wǎng)絡(luò),輸入和輸出通道數(shù)都為6。編碼器部分同樣是采用標(biāo)準(zhǔn)的ResNet18結(jié)構(gòu)。解碼器共4層卷積運(yùn)算,第1、第4層卷積核大小是1×1,第2層和第3層卷積核大小為3×3,除輸出層外其余層激活函數(shù)均為修正線性單元(Rectified Linear Unit,ReLU)。圖像序列按批大小堆疊輸入到網(wǎng)絡(luò),通過編碼器提取出特征圖,再經(jīng)過后續(xù)卷積操作得出不同幀的高層特征,最后通過1×1大小的卷積輸出位姿。輸出位姿是一個(gè)6維的位姿變換向量,前3維代表旋轉(zhuǎn),后3維代表位移。

圖 2 深度估計(jì)網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Depth estimation network structure

2.2 結(jié)合雙重注意力模塊的深度估計(jì)網(wǎng)絡(luò)

給定一張輸入圖像,圖像中的對象物體在尺度、角度和光照各不相同,而卷積運(yùn)算僅僅只擁有局部感受野,這容易導(dǎo)致一些細(xì)長的物體(例如路燈)的深度估計(jì)出現(xiàn)斷裂現(xiàn)象。為了使網(wǎng)絡(luò)更有效地利用場景的全局信息和表示特征之間的依賴關(guān)系,提高深度估計(jì)精度,本文利用雙重注意力模塊對深度估計(jì)網(wǎng)絡(luò)進(jìn)行改進(jìn)。

雙注意力模塊包含兩個(gè)注意力模塊,即位置注意力模塊和通道注意力模塊。兩種注意力模塊分別捕獲空間和通道維度的遠(yuǎn)程上下文信息。雙通道注意力模塊嵌入到深度估計(jì)網(wǎng)絡(luò)的解碼器中,圖3為兩種注意力模塊的結(jié)構(gòu)示意圖。

2.2.1 位置注意力模塊

傳統(tǒng)全卷積網(wǎng)絡(luò)提取的局部特征缺少全局信息,無法表示局部特征之間的關(guān)系,因此在估計(jì)深度時(shí)容易出現(xiàn)邊緣與實(shí)際物體不相符的問題。為了對局部特征的上下文關(guān)系進(jìn)行建模,本文引入了位置注意力模塊。位置注意力模塊如圖3(a)所示。對于經(jīng)過卷積層編碼的特征圖 X ∈RC×H×W,首先將其輸入1×1卷積層分別把通道數(shù)降維并生成兩個(gè)新的特征Q ∈×H×W和K ∈×H×W,這里r本文取值為8。然后將Q 、 K 重塑為Q ∈×N和K ∈×N,并將Q 的轉(zhuǎn)置與K進(jìn)行矩陣乘法,這里N=H×W。最后將得到的結(jié)果通過softmax層來計(jì)算空間注意力圖 S ∈RN×N,如式(2)所示。

圖 3 雙重注意力模塊Fig.3 Dual attention module

如果兩個(gè)位置的特征表示越相似,它們之間的相關(guān)性就越高。同時(shí),將輸入特征 X饋入卷積層以生成新的特征圖V ∈RC×H×W。將V 重塑為V ∈RC×N然后在 V 和S 的轉(zhuǎn)置之間執(zhí)行矩陣乘法。最后,為了使模塊更靈活,本文將 V 和S 相乘的結(jié)果與輸入特征 X乘以比例參數(shù),并進(jìn)行逐元素求和運(yùn)算,得到最終輸出Y ∈RC×H×W,如式(3)所示。

其中α 被初始化為0,β 被初始化為1,并逐漸從訓(xùn)練中分配兩者權(quán)重。從式(3)可以得出,每個(gè)位置上的輸出特征Y 是所有位置上的特征與原始特征的加權(quán)和。因此它具有全局上下文視圖,并根據(jù)空間注意力圖選擇性地聚合上下文。相似的對象特征實(shí)現(xiàn)了關(guān)聯(lián),從而提高了對象內(nèi)部特征的緊湊性。

2.2.2 通道注意力模塊

每個(gè)通道的高級特征圖都可以視為特定于對象的響應(yīng),不同的特征圖之間存在關(guān)聯(lián),這些關(guān)聯(lián)與場景三維結(jié)構(gòu)密切相關(guān)。通過利用通道特征圖之間的相互依賴性,模型可以改進(jìn)特定場景對象的特征表示。因此,本文利用通道注意力模塊來顯式地建模通道之間的相互依賴性,通道注意力模塊的結(jié)構(gòu)如圖3(b)所示。與位置注意力模塊不同,這里直接從原始特征計(jì)算出通道注意力圖。具體來說,將輸入特征X ∈RC×H×W重塑成 X ∈RC×N與其轉(zhuǎn)置之間進(jìn)行矩陣乘法,然后應(yīng)用softmax層獲得通道注意力圖S ∈RC×C,見式(4)。

其中 Sji衡量第i個(gè) 通道對第 j個(gè)通道的影響。隨后,在S 和 X的轉(zhuǎn)置之間執(zhí)行矩陣乘法操作,然后將結(jié)果與輸入特征 X乘以比例參數(shù)并進(jìn)行逐元素求和運(yùn)算,以獲得最終輸出Y ∈RC×H×W,如式(5)所示。

其中 λ 與ω 分別從0和1開始逐漸學(xué)習(xí)權(quán)重。經(jīng)通道注意力模塊處理后,每個(gè)通道的最終特征是所有通道的特征與原始特征的加權(quán)和,該特征對特征圖之間的遠(yuǎn)程依賴性進(jìn)行建模,它有助于提高特征的可區(qū)分度,幫助網(wǎng)絡(luò)表示場景的結(jié)構(gòu)信息。

2.2.3 嵌入注意力模塊的解碼器

本文在解碼器部分加入了雙重注意力模塊來獲取上下文信息。具體來說,如圖2所示,雙重注意力模塊被嵌入到解碼器的第一和第二個(gè)上采樣模塊的輸出處。深度估計(jì)網(wǎng)絡(luò)采用跳躍連接方式把淺層特征并入解碼器的特征中,這種嵌入方式可以同時(shí)處理深層特征與淺層特征的全局上下文信息建模問題。中間特征經(jīng)過兩種注意力模塊處理后通過加法運(yùn)算合并在一起使特征得到加強(qiáng),這樣比級聯(lián)更加節(jié)省運(yùn)算成本。與Fu等[9]不同的是,本文直接將原始特征輸入到兩種注意力模塊中而沒有在輸入前分別作卷積處理,這樣更能保持原特征的有效性。同時(shí),對于高分辨率的特征圖,雙重注意力模塊需要較多的運(yùn)算開銷,因此本文僅在解碼器的前兩個(gè)上采樣模塊中嵌入雙重注意力模塊。

2.3 損失函數(shù)設(shè)計(jì)

本文利用合成視圖和目標(biāo)視圖之間的差異作為監(jiān)督信號訓(xùn)練模型,因此圖像對比損失函數(shù)的設(shè)計(jì)是重要的一環(huán)。由于相機(jī)運(yùn)動中容易受光照影響,因此本文使用文獻(xiàn)[4]中的魯棒性較好的相似度比較函數(shù)作為模型的損失函數(shù)對視圖重建好壞進(jìn)行判斷,即結(jié)構(gòu)相似性(Structural Similarity Index,SSIM)[11]與L1范數(shù)的組合,具體的光度損失函數(shù)為

其中 I 是真實(shí)視圖, I? 是合成視圖,α 是權(quán)重參數(shù),這里設(shè)為0.85。在圖像序列中,使用t ?1時(shí) 刻和t +1時(shí)刻的圖像,分別合成 t時(shí)刻圖像,根據(jù)損失函數(shù)即可得到圖像對比光度損失。為了減少遮擋和運(yùn)動物體的影響,本文采用文獻(xiàn)[12]中的取不同幀的合成損失的最小值作為最終的損失,即

這里 Lp表示式(6)的光度損失函數(shù), N是總的像素?cái)?shù)量。由于雙線性插值具有次微分的特性,本文對4種尺度的輸出進(jìn)行損失計(jì)算,從而降低其影響。

3 實(shí)驗(yàn)結(jié)果與分析

本文使用公共數(shù)據(jù)集KITTI對模型進(jìn)行訓(xùn)練并驗(yàn)證,同時(shí)使用Make3D數(shù)據(jù)集評估模型跨數(shù)據(jù)集的泛化能力。

3.1 實(shí)驗(yàn)設(shè)置

本文使用Pytorch框架對算法進(jìn)行了實(shí)現(xiàn),并在配備NVIDIA GTX 1080 Ti GPU的計(jì)算機(jī)上進(jìn)行訓(xùn)練。數(shù)據(jù)的分割方面,本文使用文獻(xiàn)[13]的數(shù)據(jù)分割方式。另外,實(shí)驗(yàn)遵循文獻(xiàn)[5]中的方法預(yù)去除靜態(tài)幀。輸入圖像的分辨率被縮放到832×256,每次訓(xùn)練所用數(shù)據(jù)序列長度為3,共39 810個(gè)數(shù)據(jù)序列用于訓(xùn)練,4 424個(gè)用于驗(yàn)證。所有圖像數(shù)據(jù)均使用相同的相機(jī)內(nèi)參,焦距設(shè)置為KITTI數(shù)據(jù)集中所有焦距的平均值。為了增加數(shù)據(jù)的多樣性,數(shù)據(jù)在訓(xùn)練的過程中進(jìn)行了隨機(jī)增強(qiáng),如亮度、對比度、飽和度的調(diào)整和水平翻轉(zhuǎn)。模型使用Adam優(yōu)化算法訓(xùn)練模型,初始學(xué)習(xí)率設(shè)為1 0?4,訓(xùn)練數(shù)據(jù)的批大小(batchsize)為4,共訓(xùn)練20個(gè)周期(epoch)。

3.2 單目深度估計(jì)評估

為驗(yàn)證所提方法的有效性,本文將模型在KITTI數(shù)據(jù)上的驗(yàn)證結(jié)果與其他方法進(jìn)行比較。根據(jù)Zhou等[5]的評估做法,深度值被限制在0.001 m到80 m之間。由于單目深度估計(jì)的尺度模糊性,本文方法不能保證產(chǎn)生公制尺度的結(jié)果,因此驗(yàn)證時(shí)需要把模型估計(jì)的深度值乘上尺度s ?=median(Dgt)/median(Dpred)。評價(jià)指標(biāo)與文獻(xiàn)[5]一致,包括誤差指標(biāo)與準(zhǔn)確率指標(biāo)。誤差指標(biāo)有絕對相對誤差(Absolute Relative Difference,Abs Rel)、平方相對誤差(Squared Relative Difference,Sq Rel)、均方根誤差(Root Mean Squared Error,RMSE)和對數(shù)均方根誤差(RMSE log)。準(zhǔn)確率包含3種閾值的指標(biāo),分別為 δ<1.25、δ <1.252和δ<1.253的相應(yīng)準(zhǔn)確率.

表1展示了本文的方法與其他單目深度估計(jì)方法各項(xiàng)指標(biāo)的對比結(jié)果。從表1中的實(shí)驗(yàn)數(shù)據(jù)可得出,本文提出的模型單目深度估計(jì)性能達(dá)到了較高的水平,并且比早期的監(jiān)督學(xué)習(xí)方法[13-14]更好。同時(shí),與其他多任務(wù)模型框架[15-16]相比,本文模型框架更簡單且表現(xiàn)更好,只需估計(jì)深度和位姿變換,并且只使用了視圖重建對比損失而不包含其他損失項(xiàng)。

為了理解模型的各個(gè)部分對整體表現(xiàn)的影響,本文進(jìn)行了消融實(shí)驗(yàn)。具體來說,本文分析了輸入分辨、編碼器預(yù)訓(xùn)練以及注意力模塊對性能表現(xiàn)的影響,實(shí)驗(yàn)結(jié)果如表1所示??梢钥吹?,輸入圖像的分辨率越大,模型的表現(xiàn)越好,同時(shí)在ImageNet預(yù)訓(xùn)練過的編碼器也對提高深度估計(jì)的準(zhǔn)確度有重要作用。而表1中的實(shí)驗(yàn)結(jié)果也表明本文所提出的注意力模塊的有效性。

為了更直觀地對比本文模型與其他方法的深度估計(jì)表現(xiàn),本文提供了部分深度估計(jì)的示例,如圖4所示。與Zhou等[5]和Bian等[17]的工作相比,本文模型方法能更好地保留場景中對象的深度邊界,如車、樹木、行人和路燈等,燈柱等細(xì)長物體也沒有出現(xiàn)斷裂現(xiàn)象。

表 1 在KITTI數(shù)據(jù)集上的深度估計(jì)實(shí)驗(yàn)結(jié)果對比Table 1 Comparison of experimental results of depth estimation on the KITTI dataset

圖 4 KITTI數(shù)據(jù)集上深度估計(jì)效果圖Fig.4 Depth estimation results on the KITTI dataset

表 2 在Make3D數(shù)據(jù)集的泛化性能實(shí)驗(yàn)結(jié)果Table 2 Results of generalization performance experiments in the Make3D data set

圖 5 Make3D數(shù)據(jù)集深度估計(jì)效果圖Fig.5 Depth estimation results on the Make3D dataset

3.3 模型泛化能力評估

出于驗(yàn)證模型的泛化能力的目的,本文在不對模型參數(shù)進(jìn)行任何調(diào)整的情況下用Make3D數(shù)據(jù)集進(jìn)行了測試,實(shí)驗(yàn)結(jié)果如表2所示。同時(shí)本文對部分?jǐn)?shù)據(jù)進(jìn)行可視化以便更直觀地進(jìn)行對比,效果圖如圖5所示。從表2數(shù)據(jù)以及圖5可得出本文模型有較好的跨數(shù)據(jù)泛化能力,能較好地推斷出Make3D數(shù)據(jù)集的三維場景,但Sq Rel和RMSE兩個(gè)指標(biāo)比DFNet[15]略差,主要原因是本文只在KITTI數(shù)據(jù)集上訓(xùn)練,而DF-Net[15]在Cityscapes和KITTI兩個(gè)數(shù)據(jù)集上都進(jìn)行了訓(xùn)練,本文模型對遠(yuǎn)處的物體的深度估計(jì)偏近所造成的。從可視化的部分實(shí)例中同樣可以看出本文的模型比Zhou[5]的泛化能力更強(qiáng),估計(jì)的深度細(xì)節(jié)更加清晰,但是在遠(yuǎn)景的部分泛化能力不夠好,估計(jì)的深度比實(shí)際要近。

4 結(jié)論

本文提出了一種基于雙重注意力模塊的單目無監(jiān)督深度估計(jì)方法。方法的核心是基于自注意力的雙重注意力模塊,這種模塊能有效表示遠(yuǎn)程的上下文信息,幫助網(wǎng)絡(luò)更容易估計(jì)出細(xì)節(jié)更好的深度信息。本文所提方法模型在KITTI數(shù)據(jù)集上深度估計(jì)的性能達(dá)到了較好的效果,在Make3D數(shù)據(jù)集上的實(shí)驗(yàn)也表明模型具有較好的泛化能力。本文方法相比當(dāng)前其他工作也較為簡單,沒有復(fù)雜的損失函數(shù)設(shè)計(jì)和多任務(wù)訓(xùn)練的架構(gòu)即可達(dá)到當(dāng)前最先進(jìn)的性能,然而本文所提方法在位姿變換估計(jì)方面性能依舊不夠好,下一步工作從視頻序列信息方面對位姿估計(jì)網(wǎng)絡(luò)進(jìn)行優(yōu)化從而改善位姿估計(jì)的精度,并且后續(xù)工作將引入雙目線索增強(qiáng)模型的深度估計(jì)精度,增強(qiáng)模型實(shí)用性和通用性。

猜你喜歡
視圖注意力卷積
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
5.3 視圖與投影
視圖
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
Y—20重型運(yùn)輸機(jī)多視圖
SA2型76毫米車載高炮多視圖
A Beautiful Way Of Looking At Things
扬州市| 慈溪市| 五家渠市| 木里| 宁明县| 永登县| 讷河市| 板桥市| 蛟河市| 桑植县| 姜堰市| 马鞍山市| 五指山市| 措美县| 丰宁| 青冈县| 铁岭县| 阿拉善左旗| 金堂县| 临高县| 许昌县| 洛宁县| 澎湖县| 英山县| 翼城县| 景东| 栾川县| 古浪县| 剑阁县| 怀来县| 琼海市| 尖扎县| 遂川县| 榆林市| 阿鲁科尔沁旗| 榆中县| 西城区| 高碑店市| 寿阳县| 新疆| 吉木萨尔县|