賈瑞明,劉立強,劉圣杰,崔家禮
基于編解碼卷積神經(jīng)網(wǎng)絡的單張圖像深度估計
賈瑞明,劉立強,劉圣杰,崔家禮
(北方工業(yè)大學信息學院,北京 100144)
針對傳統(tǒng)方法在單目視覺圖像深度估計時存在魯棒性差、精度低等問題,提出一種基于卷積神經(jīng)網(wǎng)絡(CNN)的單張圖像深度估計方法。首先,提出層級融合編碼器-解碼器網(wǎng)絡,該網(wǎng)絡是對端到端的編碼器-解碼器網(wǎng)絡結(jié)構(gòu)的一種改進。編碼器端引入層級融合模塊,并通過對多層級特征進行融合,提升網(wǎng)絡對多尺度信息的利用率。其次,提出多感受野殘差模塊,其作為解碼器的主要組成部分,負責從高級語義信息中估計深度信息。同時,多感受野殘差模塊可靈活地調(diào)整網(wǎng)絡感受野大小,提高網(wǎng)絡對多尺度特征的提取能力。在NYUD v2數(shù)據(jù)集上完成網(wǎng)絡模型有效性驗證。實驗結(jié)果表明,與多尺度卷積神經(jīng)網(wǎng)絡相比,該方法在精度<1.25上提高約4.4%,在平均相對誤差指標上降低約8.2%。證明其在單張圖像深度估計的可行性。
CNN;編碼器-解碼器;深度估計;單目視覺
隨著人工智能技術(shù)的快速發(fā)展,虛擬現(xiàn)實[1]和自動駕駛[2]等技術(shù)對于三維重建需求巨大。準確的深度信息對于重建三維場景具有重要意義,其廣泛應用于語義分割[3-4]、目標跟蹤[5-6]和機器人控制系統(tǒng)[7]等任務。工業(yè)界多使用激光雷達或激光掃描儀獲取深度圖。前者可用于動態(tài)場景,但獲取的深度圖較為稀疏;后者獲取的深度圖稠密但成像耗時長,且一般用于靜態(tài)場景。同時兩者的成本較高,而單張圖像獲取成本較低。因此,研究通過單張圖像進行深度估計具有較大的實用價值。然而,由于單張圖像本身存在信息缺失,使用單張圖像進行深度估計屬于病態(tài)問題,具有較大的挑戰(zhàn)。
傳統(tǒng)圖像估計深度的方法多基于雙目視覺系統(tǒng),其精度易受視差圖質(zhì)量的影響。實際場景中,受光照條件、圖像紋理分布及觀測視角的影響,難以獲取高質(zhì)量的視差圖。因此,研究者們提出了多種算法用于獲取較高質(zhì)量的視差圖[8-10]。然而,單目視覺算法著重解決如何估計物體間的相對位置關(guān)系。通過單張圖像恢復深度的原理包括:①在實際場景中,物體間存在確定的相對關(guān)系及幾何結(jié)構(gòu);②人的視覺形成過程中,可根據(jù)經(jīng)驗知識推斷物體間的距離。與傳統(tǒng)方法相比,深度神經(jīng)網(wǎng)絡具備較強的擬合能力,在經(jīng)過大量訓練后,可以擬合真實樣本分布。本文提出基于卷積神經(jīng)網(wǎng)絡(convolution neural network, CNN)的單張圖像深度估計網(wǎng)絡:層級融合編碼器-解碼器網(wǎng)絡(fused-layers encoder-decoder network, FLEDNet),具體貢獻如下:
(1) 編碼器端。提出層級融合模塊(fused-layers block, FLB),該模塊提升編碼器網(wǎng)絡對多尺度特征的利用率。
(2)解碼器端。提出多感受野殘差模塊(multi-receptive field res-block, MRFRB)作為解碼器主要組成部分。相較于Inception-ResNet網(wǎng)絡[11],MRFRB可靈活增加網(wǎng)絡的感受野,同時殘差結(jié)構(gòu)的引入改善了網(wǎng)絡在加深時梯度消失的問題。
從圖像或視頻中估計深度信息一直以來是研究熱點,目前大量的研究工作多集中于基于深度神經(jīng)網(wǎng)絡與非深度神經(jīng)網(wǎng)絡方法的研究。
(1) 非深度神經(jīng)網(wǎng)絡方法。KARSCH等[12]提出基于最近鄰(k-nearest neighbor, kNN)的搜索方法,從RGBD數(shù)據(jù)庫中選取候選圖像,通過SIFT Flow算法[13]對深度信息進行優(yōu)化,實現(xiàn)圖像深度估計。但該方法需要建立完善的數(shù)據(jù)庫,計算量較大,在實際應用時局限性較大。TIAN等[14]基于馬氏距離(Mahalanobis distance)和高斯加權(quán)函數(shù)(Gaussian weighting function)的深度信息采樣方法,在Make3D數(shù)據(jù)集上取得較好的實驗結(jié)果。HERRERA等[15]提出基于聚類的學習框架,通過在色彩空間分析結(jié)構(gòu)相似性以及使用kNN搜索算法從圖像中提取深度信息。LIU等[16]使用高階離散-連續(xù)的條件隨機場從單張圖像獲取深度。CHOI等[17]提出一種在梯度域建模的方法,是一種非參數(shù)模型。當輸入圖像紋理分布重復時,該方法失效。本文采用的深度卷積神經(jīng)網(wǎng)絡對輸入圖像的紋理分布較為魯棒。
(2) 深度神經(jīng)網(wǎng)絡方法。其在計算機視覺任務中表現(xiàn)出色,文獻[18]提出多尺度CNN以及尺度不變的損失函數(shù),實現(xiàn)對單張圖像的深度、表面法線和語義標簽的估計,但圖像分辨率較低。文獻[19]使用多孔卷積神經(jīng)網(wǎng)絡(atrous convolution neural network, ACNN)與條件隨機場相結(jié)合的策略,獲得了較好的單張圖像深度估計效果。袁建中等[20]提出基于ResNet和DenseNet結(jié)合的深度卷積神經(jīng)網(wǎng)絡用于解決道路場景的單目視覺深度估計問題。JUNG等[21]使用條件生成對抗網(wǎng)絡(conditional generative adversarial network)實現(xiàn)單張圖像深度估計,采用基于編碼器-解碼器與精煉網(wǎng)絡(refinement network)相結(jié)合的生成器網(wǎng)絡,在客觀數(shù)據(jù)集上達到了較好的實驗結(jié)果。LAINA等[22]使用殘差結(jié)構(gòu)設計網(wǎng)絡,并提出快速上卷積(up-convolution)網(wǎng)絡,在NYUD v2[23]上有優(yōu)異的表現(xiàn)。
使用CNN從單張圖像中估計深度信息屬于密集預測任務,編碼器-解碼器網(wǎng)絡廣泛應用于密集預測任務中,例如語義分割[24]、圖像風格轉(zhuǎn)換[25]等。本文對傳統(tǒng)編碼器-解碼器網(wǎng)絡結(jié)構(gòu)進行改進,提出端到端的FLEDNet。同時,針對深度預測問題,設計了MRFRB,進一步提升網(wǎng)絡的深度信息預測能力。
針對單目視覺中,深度預測存在過程復雜、精度較低等問題,例如文獻[16,19]依賴條件隨機場對網(wǎng)絡輸出的深度圖進行處理,以得到精度更高的深度圖。本文提出FLEDNet,其輸入為RGB彩色圖像,網(wǎng)絡直接輸出的是估計的深度圖,且無需任何后處理操作,實現(xiàn)了端到端的深度估計。本文采用監(jiān)督方式訓練FLEDNet,使用與輸入圖像對應的深度圖作為監(jiān)督信息,網(wǎng)絡學習從二維彩色圖像(RGB)到深度圖的映射關(guān)系,完成密集預測任務。FLEDNet包括編碼器網(wǎng)絡、層級融合模塊和解碼器網(wǎng)絡3個部分,如圖1所示。
圖1 FLEDNet網(wǎng)絡結(jié)構(gòu)圖
(1) 編碼器網(wǎng)絡(encoder network)。ResNet[26]廣泛用于密集預測任務中的基礎網(wǎng)絡,文獻[22]提出基于ResNet的深度估計網(wǎng)絡,取得了較好的效果。因此,F(xiàn)LEDNet編碼器網(wǎng)絡采用ResNet-50,對輸入的彩色圖像進行特征提取,但保留ResNet-50至block4(level-1)。同時,為利用不同尺度的特征圖,從ResNet-50中引出block4(level-1)和block3(level-2)的輸出作為層級融合模塊的輸入。
(2) 層級融合模塊(fused-layers block, FLB)。傳統(tǒng)編碼器-解碼器網(wǎng)絡結(jié)構(gòu)中,僅使用編碼器的最后一層輸出作為解碼器的輸入,該方式缺乏對多層級特征的利用。考慮到不同層級的特征圖差異,例如,特征的抽象程度和特征圖的空間分辨率,本文提出層級融合模塊,以解決不同尺度特征的融合問題。
(3) 解碼器網(wǎng)絡(decoder network)。本文使用4個MRFRB和1個3×3卷積層構(gòu)建解碼器網(wǎng)絡。MRFRB負責對編碼器輸出的特征圖進行解碼,每級MRFRB對輸入特征圖的寬高放大2倍。MRFRB-4輸出特征圖的空間分辨率較大,若繼續(xù)使用MRFRB對特征圖放大至輸出尺寸,會大幅增加網(wǎng)絡參數(shù)量且消耗大量的計算資源。因此,借鑒文獻[27]的設計,本文在MRFRB-4后采用卷積核大小為3×3,步長為1的卷積層將輸出特征圖通道降為1,并采用雙線性插值操作,將特征圖放大至輸出尺寸,以適應網(wǎng)絡輸出。
隨著網(wǎng)絡的加深,編碼器網(wǎng)絡提取特征信息的抽象層次不斷提高,特征圖的空間分辨率不斷縮小,但通道數(shù)較多,特征圖含有更多的高級語義信息。多尺度思想廣泛應用于語義分割、目標檢測的任務中。本文提出的層級融合模塊(圖2)通過對不同層級的特征圖進行融合,實現(xiàn)了多尺度思想,經(jīng)實驗驗證,提升了網(wǎng)絡深度估計的精度。
圖2 層級融合模塊結(jié)構(gòu)示意圖
FLB包括尺度調(diào)整、拼接層(concatenate)、dropout和1×1卷積層4個部分。其中,尺度調(diào)整用于將不同分辨率的輸入統(tǒng)一至相同尺寸,以便進行拼接操作。例如,圖1需通過使用步長為2的均值池化將level-2 (15×19)降至level-1 (8×10)的大小,以實現(xiàn)不同層級特征在通道維度上的拼接操作。實驗中發(fā)現(xiàn)直接使用拼接不同層級得到的特征進行解碼會造成網(wǎng)絡收斂過慢,訓練難的問題。因此,加入dropout操作,對拼接后的特征進行隨機丟失操作(設dropout失活率為0.2),再使用1×1卷積降低通道數(shù),以加速網(wǎng)絡訓練。
考慮到編碼器網(wǎng)絡ResNet可通過最大值池化操作不斷縮減特征圖大小,即從多個尺度對輸入圖像進行特征提取,獲得高級語義信息。因此,解碼器網(wǎng)絡應設計具有多個感受野的卷積層,以從不同尺度對高級語義信息進行解碼。如何設計具有多感受野的網(wǎng)絡結(jié)構(gòu)成為研究重點。受Inception-ResNet啟發(fā),本文提出MRFRB,其作為FLEDNet解碼器的主要組成部分,包括:縮減模塊和多感受野模塊2部分,如圖3所示。
(1) 縮減模塊。該模塊的主要功能是放大特征圖并降低通道數(shù)。編碼器輸出帶有高級語義信息的特征圖,其具有空間分辨率較小但通道數(shù)較大的特點。例如,圖1中,ResNet-50中block4 (level-1)輸出特征圖的大小為8×10 (高×寬),但通道數(shù)高達2 048。與編碼過程不同,解碼操作需要不斷放大特征圖尺寸且減小通道數(shù),本文采用雙線性插值方法放大特征圖,通過卷積層來降低通道數(shù)??紤]到隨著網(wǎng)絡加深,梯度易消失的問題,該模塊采用殘差結(jié)構(gòu)。其中,2個3×3卷積層對輸入特征圖進行信息提取并降低通道數(shù)。在跳躍卷積連接上的1×1卷積層可負責調(diào)整特征圖的通道數(shù),以使其輸出的通道數(shù)與3×3卷積層輸出的特征圖通道數(shù)一致。
圖3 多感受野殘差模塊結(jié)構(gòu)圖
(2) 多感受野模塊。該模塊主要負責從高級語義信息中解碼深度信息。人類的視覺系統(tǒng)中,估計深度信息并不僅僅只關(guān)注局部場景,通常需要使用場景中的參照物來估計距離。因此,設計具有多種感受野的解碼器模塊是能否較好地重建深度信息的關(guān)鍵。縮減模塊中的結(jié)構(gòu)具備一定的特征映射能力,但僅使用3×3卷積層,其感受野有限。Inception-ResNet中,Inception模塊中使用了多種卷積,例如,卷積核大小為3×3、5×5、7×7等卷積層以使得網(wǎng)絡具有多種感受野,提升特征提取的能力。其使用的大尺寸卷積核,例如盡管5×5卷積層可拆分為1×5和5×1卷積層進行等效,但參數(shù)量仍然較大,特別是當模塊數(shù)量增多時,網(wǎng)絡參數(shù)量巨大。故多感受野模塊中,使用不同膨脹率(dilation rate)的空洞卷積(atrous convolution)[28]實現(xiàn)多感受野功能??斩淳矸e優(yōu)勢包括:①可通過設置膨脹率,靈活的控制感受野大??;②同等大小的感受野條件下,相較于傳統(tǒng)卷積,空洞卷積參數(shù)量大幅下降。多感受野模塊中,使用了2個卷積核為3×3且有填充的空洞卷積,膨脹率=2時,空洞卷積可提供7×7的感受野;=4的空洞卷積可提供15×15的感受野。隨著網(wǎng)絡層數(shù)的增多,網(wǎng)絡的表達能力隨之提升,但易產(chǎn)生梯度消失現(xiàn)象,網(wǎng)絡訓練較為困難,故在多感受野模塊中,加入了殘差結(jié)構(gòu)。為盡量避免卷積層對梯度傳播的影響,多感受野中的跳躍連接中未使用1×1卷積,輸入的特征圖以恒等映射的方式與卷積層輸出構(gòu)成殘差結(jié)構(gòu)。多感受野殘差模塊中的卷積層均使用ReLU作為激活函數(shù)。
為驗證FLEDNet及深度感知損失函數(shù)的有效性,本文使用公開數(shù)據(jù)集NYUD v2作為評估數(shù)據(jù)集。評估本文方法的性能。
本文實驗環(huán)境為E5-2620 v4 處理器、NVIDIA Titan XP和16 GB內(nèi)存。使用Tensorflow作為網(wǎng)絡訓練平臺,Adam作為優(yōu)化器,設初始學習率為0.001,batch size設置為16。本文使用準確率、平均相對誤差、對數(shù)平均誤差和均方根誤差等指標評估方法的有效性,各指標表達式為:
其中,為真實的深度值;為預測的深度值。
表1 不同深度估計方法對比
(注:表現(xiàn)最好的指標均加粗)
本文提出的方法在大部分指標上均優(yōu)于文獻[12]、文獻[16]和文獻[18]的方法。與文獻[18]方法相比,本文方法在<1.25指標上高了約4%,在平均相對誤差(Abs rel)指標上高了約8%。另外,在<1.25指標上比文獻[19]的方法高了約14%,且其方法需要CRF對CNN的輸出做后處理,而本文不需要任何后處理步驟即可達到較好的深度估計效果。
從圖4可以看出,文獻[18]提出的方法在部分區(qū)域的深度預測結(jié)果誤差較大。例如,圖4第4行矩形框“1”標出的區(qū)域與真實深度值差異較大;本文的預測結(jié)果(矩形框“2”標出的區(qū)域)與真實深度值較為接近。表明本文方法具有一定的有效性。
(a) 彩色輸 入圖像(b) 文獻[18] 結(jié)果(c) 本文 結(jié)果(d) 真實 深度
FLB通過對不同抽象層級的特征圖進行融合,使得解碼器可利用具有多抽象層次的信息。為驗證不同層級對網(wǎng)絡性能的影響,需研究如何使用各層級特征,表2給出了層級組合與網(wǎng)絡性能的實驗結(jié)果。
表2 不同層級的網(wǎng)絡性能指標
其中,“層級-1”表示FLB的輸入只有ResNet50的block4(對應圖1中的level-1);“層級-1,2”包括ResNet50的block4和block3(分別對應圖1中的level-1和level-2);“層級-1,2,3”包括ResNet50的block4、 block3和block2(分別對應圖1中的level-1、 level-2和level-3)。網(wǎng)絡均使用FLEDNet,損失函數(shù)為L1,其他實驗超參數(shù)均一致。
圖5給出不同層級組合對準確率的影響,其中“l(fā)evel-1”,“l(fā)evel-1,2”和“l(fā)evel-1,2,3”分別對應表2中的“層級-1”、“層級-1,2”和“層級-1,2,3”。
結(jié)合表2及圖5可知,層級組合“l(fā)evel-1,2”表現(xiàn)最好。原因為:①層級組合“l(fā)evel-1”僅使用ResNet50 block4的輸出,尺度單一,且特征的抽象層次單一;②層級組合“l(fā)evel-1,2,3”利用ResNet50的3個輸出,F(xiàn)LB的輸出包括多尺度信息及不同抽象程度高級語義信息,有利于解碼器恢復深度信息。
理論上,“l(fā)evel-1,2,3”性能應超過層級組合“l(fā)evel-1,2”,但實驗發(fā)現(xiàn),其參數(shù)量比“l(fā)evel-1,2”高5.2% (表3),表明“l(fā)evel-1,2,3”的網(wǎng)絡更難訓練。因此,層級組合“l(fā)evel-1,2”不僅利用了多尺度信息且易于網(wǎng)絡訓練,故本文選擇該層級組合作為層級模塊的輸入方式。
表3 不同層級組合的網(wǎng)絡模型參數(shù)量
3.4.1 MRFRB有效性驗證
MRFRB作為解碼器網(wǎng)絡的核心組成部分,其性能直接影響輸出結(jié)果的精度。本文分別使用反卷積deconv和文獻[22]的up-Projection模塊替換圖1中的MRFRB,驗證不同解碼模塊對網(wǎng)絡造成的影響。其中,up-Projection模塊結(jié)構(gòu)如圖6所示。
圖6 up-Projection結(jié)構(gòu)示意圖
實驗中,本文使用卷積核大小為3×3,步長為2的轉(zhuǎn)置卷積實現(xiàn)反卷積deconv,損失函數(shù)使用L1。對比表4結(jié)果可知,本文提出的MRFRB模塊在準確率和誤差指標上均優(yōu)于deconv和up-Projection[22]。原因如下:①MRFRB模塊的多感受野設計有利于解碼器網(wǎng)絡從不同尺度恢復深度信息;②MRFRB使用空洞卷積,在相同感受野條件下,具有參數(shù)量小,易于訓練的優(yōu)點。
表4 不同解碼器模塊的實驗結(jié)果
3.4.2 縮減模塊實驗
在MRFRB中,縮減模塊負責提升特征圖空間分辨率并降低通道數(shù)。該模塊結(jié)構(gòu)類似于殘差結(jié)構(gòu),但因需調(diào)整通道數(shù),跳躍連接中加入了一層卷積,稱為跳躍卷積連接。為研究其對深度估計結(jié)果的影響,去掉該模塊中的跳躍卷積連接,網(wǎng)絡命名為FLEDNet-no-scc。實驗結(jié)果見表5。
表5 Reduction模塊實驗結(jié)果
根據(jù)表5實驗數(shù)據(jù)可知,若去掉跳躍卷積連接,則FLEDNet效果下降較大,表明其設計有利于提高網(wǎng)絡對特征的利用率,同時可增強梯度的傳播,有利于網(wǎng)絡訓練。
本文針對單目視覺深度估計問題提出一種基于編解碼結(jié)構(gòu)的FLEDNet模型:編碼器端引入層級融合模塊,該模塊對來自不同層級的編碼器輸出進行特征融合,并作為解碼器的輸入,提高網(wǎng)絡對多尺度特征信息的利用率。提出MRFRB,以構(gòu)建解碼器網(wǎng)絡,使得網(wǎng)絡“關(guān)注”的區(qū)域大小多樣化,有利于提升精度。同時,殘差結(jié)構(gòu)的設計避免網(wǎng)絡加深時,梯度消失問題,有利于網(wǎng)絡訓練。本文網(wǎng)絡模型以ResNet50為編碼器的主干網(wǎng)絡,通過FLB利用其多個層級輸出。解碼器直接輸出預測的深度圖,實現(xiàn)了端到端的深度估計。與文獻[19]等基于CRF做后處理的方法相比,本文方法無需任何后處理。實驗結(jié)果表明,在NYUD v2數(shù)據(jù)集上,相較于多尺度卷積神經(jīng)網(wǎng)絡,本文提出的方法在精度<1.25上提高約4.4%;在平均相對誤差指標上降低約8.2%。下一步將嘗試對網(wǎng)絡訓練的損失函數(shù)進行改進,以提升深度估計的精度。
[1] 劉源, 陳杰, 龔國成, 等. 常用三維重建技術(shù)研究[J]. 電子技術(shù)與軟件工程, 2018(11): 86-88.
[2] 葉語同, 李必軍, 付黎明. 智能駕駛中點云目標快速檢測與跟蹤[J]. 武漢大學學報:信息科學版, 2019, 44(1): 139-144, 152.
[3] QI X J, LIAO R J, JIA J Y, et al. 3D graph neural networks for RGBD semantic segmentation [C]//2017 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2017: 5209-5218.
[4] GHAFARIANZADEH M, BLASCHKO M B, SIBLEY G. Efficient, dense, object-based segmentation from RGBD video [C]//2016 IEEE International Conference on Robotics and Automation (ICRA). New York: IEEE Press, 2016: 2310-2317.
[5] KIM J S. Object detection using RGBD data for interactive robotic manipulation [C]//2014 11th International Conference on Ubiquitous Robots and Ambient Intelligence (URAI). New York: IEEE Press, 2014: 339-343.
[6] LIN D H, FIDLER S, URTASUN R. Holistic scene understanding for 3D object detection with RGBD cameras [C]//2013 IEEE International Conference on Computer Vision. New York: IEEE Press, 2013: 1417-1424.
[7] TUBMAN R, POTGIETER J, ARIF K M. Efficient robotic SLAM by fusion of RatSLAM and RGBD-SLAM [C]//2016 23rd International Conference on Mechatronics and Machine Vision in Practice (M2VIP). New York: IEEE Press, 2016: 1-6.
[8] ZAGORUYKO S, KOMODAKIS N. Learning to compare image patches via convolutional neural networks [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 4353-4361.
[9] ?BONTAR J, LECUN Y. Computing the stereo matching cost with a convolutional neural network [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2015: 1592-1599.
[10] LUO W J, SCHWING A G, URTASUN R. Efficient deep learning for stereo matching [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 5695-5703.
[11] SZEGEDY C, IOFFE S, VANHOUCKE V, et al. Inception-v4, Inception-ResNet and the impact of residual connections on learning [EB/OL].[2019-02-03]. https://arxiv.org/abs/1602.07261.
[12] KARSCH K, LIU C, KANG S B. Depth transfer: Depth extraction from video using non-parametric sampling [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2014, 36(11): 2144-2158.
[13] LIU C, YUEN J, TORRALBA A. SIFT flow: Dense correspondence across scenes and its applications [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2011, 33(5): 978-994.
[14] TIAN H, ZHUANG B J, HUA Y, et al. Depth extraction from a single image by sampling based on distance metric learning [C]//2014 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2015: 2017-202.
[15] HERRERA J L, DEL-BLANCO C R, GARCIA N. Automatic depth extraction from 2D images using a cluster-based learning framework [J]. IEEE Transactions on Image Processing, 2018, 27(7): 3288-3299.
[16] LIU M M, SALZMANN M, HE X M. Discrete-continuous depth estimation from a single image [C]//2014 IEEE Conference on Computer Vision and Pattern Recognition. New York: IEEE Press, 2014: 716-723.
[17] CHOI S, MIN D B, HAM B, et al. Depth analogy: Data-driven approach for single image depth estimation using gradient samples [J]. IEEE Transactions on Image Processing, 2015, 24(12): 5953-5966.
[18] EIGEN D, FERGUS R. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture [C]//2015 IEEE International Conference on Computer Vision (ICCV). New York: IEEE Press, 2015: 2650-2658.
[19] 廖斌, 李浩文.基于多孔卷積神經(jīng)網(wǎng)絡的圖像深度估計模型[J/OL].計算機應用, 2018: 1-10. [2019-02-03]. http://kns.cnki.net/kcms/detail/51.1307.TP.20180926.1508.004.html.
[20] 袁建中, 周武杰, 潘婷, 等.基于深度卷積神經(jīng)網(wǎng)絡的道路場景深度估計[J/OL].激光與光電子學進展, 2018: 1-17. [2019-02-03]. http://kns.cnki.net/KCMS/detail/31.1690.TN.20181203.1637.048.html.
[21] JUNG H, KIM Y, MIN D B, et al. Depth prediction from a single image with conditional adversarial networks [C]//2017 IEEE International Conference on Image Processing (ICIP). New York: IEEE Press, 2017: 1717-1721.
[22] LAINA I, RUPPRECHT C, BELAGIANNIS V, et al. Deeper depth prediction with fully convolutional residual networks [C]//2016 Fourth International Conference on 3D Vision (3DV). New York: IEEE Press, 2016: 239-248.
[23] SILBERMAN N, HOIEM D, KOHLI P, et al. Indoor segmentation and support inference from RGBD images [M]//Computer Vision – ECCV 2012. Heidelberg: Springer, 2012: 746-760.
[24] RONNEBERGER O, FISCHER P, BROX T. U-net: Convolutional networks for biomedical image segmentation [M]//Lecture Notes in Computer Science. Cham: Springer International Publishing, 2015: 234-241.
[25] ISOLA P, ZHU J Y, ZHOU T, et al. Image-to-image translation with conditional adversarial networks [EB/OL]. [2019-02-03]. https://arxiv.org/abs/1611.07004.
[26] HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition [C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). New York: IEEE Press, 2016: 770-778.
[27] MA F C, KARAMAN S. Sparse-to-dense: Depth prediction from sparse depth samples and a single image [C]//2018 IEEE International Conference on Robotics and Automation (ICRA)New York: IEEE Press, 2018:1-8.
[28] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation [EB/OL]. [2019-02-03]. https://arxiv. org/abs/1706.05587.
[29] ZHUO W, SALZMANN M, HE X M, et al. Indoor scene structure analysis for single image depth estimation [C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR)New York: IEEE Press, 2015: 614-622.
[30] EIGEN D, PUHRSCH C, FERGUS R. Depth map prediction from a single image using a multi-scale deep network [EB/OL]. [2019-02-03]. https://arxiv.org/ abs/1406.2283.
[31] LIU F Y, SHEN C H, LIN G S, et al. Learning depth from single monocular images using deep convolutional neural fields [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(10): 2024-2039.
Single Image Depth Estimation Based on Encoder-Decoder Convolution Neural Network
JIA Rui-ming, LIU Li-qiang, LIU Sheng-jie, CUI Jia-li
(School of Information Science and Technology, North China University of Technology, Beijing 100144, China)
Focusing on the poor robustness and lower accuracy in traditional methods of estimating depth in monocular vision, a method based on convolution neural network (CNN) is proposed for predicting depth from a single image. At first, fused-layers encoder-decoder network is presented. This network is an improvement of the end-to-end encoder-decoder network structure. Fused-layers block is added to encoder network, and the network utilization of multi-scale information is improved by this block with fusing multi-layers feature. Then, a multi-receptive field res-block is proposed, which is the main component of the decoder and used for estimating depth from high-level semantic information. Meanwhile, the network capacity of multi-scale feature extraction is enhanced because the size of receptive field is flexible to change in multi-receptive field res-block. The validation of proposed network is conducted on NYUD v2 dataset, and compared with multi-scale convolution neural network, experimental results show that the accuracy of proposed method is improved by about 4.4% in<1.25 and average relative error is reduced by about 8.2%. The feasibility of proposed method in estimating depth from a single image is proved.
CNN; encoder-decoder; depth estimation; monocular vision
TP 391
10.11996/JG.j.2095-302X.2019040718
A
2095-302X(2019)04-0718-07
2019-02-14;
定稿日期:2019-03-18
北京市教委面上基金(KM201510009005);北方工業(yè)大學學生科技活動項目(110051360007)
賈瑞明(1978-),男,北京人,助研,博士,碩士生導師。主要研究方向為圖像處理與智能識別等。E-mail:jiaruiming@ncut.edu.cn