王 碩 王亞飛
(北京信息科技大學(xué)信息與通信工程學(xué)院 北京 100101)
光場(chǎng)相機(jī)使用一個(gè)微透鏡陣列來(lái)捕獲場(chǎng)景,得到一個(gè)陣列的子孔徑圖像,可使用這些圖像進(jìn)行圖像深度信息的恢復(fù)[1]。其中最有代表性的是使用從圖像陣列中提取的極線平面圖像EPI來(lái)提取深度信息。EPI由各種斜率的線組成,使得在深度估計(jì)上的圖像處理和優(yōu)化變得容易處理。目前光場(chǎng)圖像深度估計(jì)相關(guān)工作可分為兩類(lèi):基于優(yōu)化的方法和基于學(xué)習(xí)的方法。
基于優(yōu)化的方法有:Wanner等[4]使用結(jié)構(gòu)張量來(lái)計(jì)算EPI的斜率,并使用快速全變差去噪濾波器來(lái)細(xì)化初始視差圖。Zhang等[5]使用EPI找到匹配線,并提出旋轉(zhuǎn)平行四邊形算子來(lái)重新移動(dòng)遮擋對(duì)深度估計(jì)的影響。文獻(xiàn)[6-7]提出增加正則化項(xiàng)的參數(shù)來(lái)保證噪聲遮擋區(qū)域的魯棒性。文獻(xiàn)[8-9]利用重聚焦線索,在處理重復(fù)紋理和對(duì)抗噪聲方面的性能有所提升。Anisimov等[10]提出了一種結(jié)合立體匹配和直線擬合的算法,對(duì)物體邊界信息的估計(jì)進(jìn)行改善。這些傳統(tǒng)的基于優(yōu)化的方法在計(jì)算時(shí)間和性能之間有不可避免的權(quán)衡。
近年來(lái)有學(xué)者提出使用深度學(xué)習(xí)的方法來(lái)進(jìn)行光場(chǎng)圖像深度估計(jì)。Johannsen等[11]將基于方向的深度重建與基于生成深度字典的稀疏光場(chǎng)編碼進(jìn)行聯(lián)合,在多層視差估計(jì)場(chǎng)景中取得了較好的效果。文獻(xiàn)[12-13]提出了一個(gè)由編碼和解碼部分組成的端到端深度網(wǎng)絡(luò)體系結(jié)構(gòu),提升了計(jì)算效率。文獻(xiàn)[14]采用EPI patch作為神經(jīng)網(wǎng)絡(luò)的輸入,以分類(lèi)代替回歸的方式得到初始深度值,但是該方法執(zhí)行一次運(yùn)算只能得到一個(gè)像素的深度信息,大大增加了算法耗時(shí)。
針對(duì)現(xiàn)有方法存在的估計(jì)精度低、計(jì)算耗時(shí)長(zhǎng)的問(wèn)題,本文提出多流對(duì)極卷積神經(jīng)網(wǎng)絡(luò)(Multi Stream Epipolar Convolutional Neural Network,MS-EPINET)進(jìn)行光場(chǎng)深度估計(jì)。該方法使用四個(gè)方向的EPI信息作為網(wǎng)絡(luò)輸入,在經(jīng)過(guò)低階特征提取后,使用直接拼接和方差融合的兩種方式對(duì)低階特征進(jìn)行融合,再對(duì)不同方式融合后的特征分別進(jìn)行高階特征提取,分別轉(zhuǎn)化為初始深度圖。為進(jìn)一步提高估計(jì)精度,將兩幅深度圖拼接進(jìn)行卷積操作,得到優(yōu)化深度圖。該方法實(shí)現(xiàn)端到端的深度估計(jì)操作,一次計(jì)算即可得到整幅深度圖。同時(shí),為克服數(shù)據(jù)集小導(dǎo)致模型過(guò)擬合的問(wèn)題,提出針對(duì)光場(chǎng)圖像的數(shù)據(jù)增強(qiáng)技術(shù),提高模型泛化能力。實(shí)驗(yàn)結(jié)果表明,該算法在計(jì)算精度和執(zhí)行效率方面都取得較好結(jié)果。
4D光場(chǎng)圖片可以表示為L(zhǎng)(x,y,u,v),其中(x,y)代表空間坐標(biāo),(u,v)代表視角坐標(biāo)。Nx×Ny是圖片空間分辨率,Nu×Nv是視角分辨率。中心視點(diǎn)圖像由穿過(guò)主透鏡光學(xué)中心的光線形成。中心視點(diǎn)和其他視點(diǎn)光場(chǎng)圖像的關(guān)系為:
L(x,y,0,0)=L(x+d(x,y)×u,y+d(x,y)×v,u,v)
(1)
式中:d(x,y)是中心視點(diǎn)像素(x,y)與其相鄰視點(diǎn)中相應(yīng)像素的視差。
圖1展示了一個(gè)9×9×512×512的光場(chǎng)數(shù)據(jù),對(duì)于中心視點(diǎn)中的像素p(xi,yi),其水平EPI是將視角坐標(biāo)v和空間坐標(biāo)y固定,將9幅在同一水平線上圖片位于橫線位置處的像素拼接而成,大小為9×512,如圖1下方圖像所示。對(duì)于此光場(chǎng)圖像來(lái)說(shuō),中心視點(diǎn)的圖像一共可以生成512幅水平EPI圖像。同理可得中心視角垂直EPI圖像,其中xi位置的垂直EPI圖由圖片中垂線位置處像素拼接而成,如圖1右側(cè)所示。
圖1 光場(chǎng)EPI結(jié)構(gòu)
文獻(xiàn)[13]設(shè)計(jì)了適用于光場(chǎng)圖像的卷積神經(jīng)網(wǎng)絡(luò)模型(EPN),使用深度學(xué)習(xí)的方法計(jì)算光場(chǎng)圖像中場(chǎng)景的深度。該方法在選取的像素點(diǎn)位置截取相應(yīng)的水平和垂直方向的EPI Patch作為網(wǎng)絡(luò)輸入,兩個(gè)子網(wǎng)絡(luò)分別接收水平和垂直EPI塊,經(jīng)過(guò)7個(gè)卷積層進(jìn)行特征提取。使用全連接層將兩個(gè)網(wǎng)絡(luò)的結(jié)果進(jìn)行合并,最后使用Softmax分類(lèi)器將1×229的向量作為結(jié)果輸出,如圖2所示。
圖2 EPN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖
該方法是將深度計(jì)算問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題,每一類(lèi)對(duì)應(yīng)一個(gè)深度值,輸出的深度值只能在這些離散的數(shù)值上。對(duì)圖像所有像素點(diǎn)執(zhí)行以上計(jì)算過(guò)程,即得到該圖像完整的深度圖。然而該方法只能預(yù)測(cè)得到離散的深度值,且數(shù)值不夠精確;由于全連接層的存在,大大增加了網(wǎng)絡(luò)參數(shù)量和網(wǎng)絡(luò)運(yùn)行時(shí)間;由于每次網(wǎng)絡(luò)運(yùn)行只能得到一個(gè)像素點(diǎn)的深度值,要完成512×512分辨率圖像的深度值預(yù)測(cè),一共要進(jìn)行262 144次循環(huán),嚴(yán)重影響計(jì)算效率。
本文提出MS-EPINET進(jìn)行深度信息估計(jì),一次前向傳播計(jì)算即可得到整幅深度圖數(shù)據(jù),顯著提高計(jì)算效率。由于構(gòu)建水平和垂直方向的EPI僅使用了少量光場(chǎng)圖像數(shù)據(jù),為了能夠利用更多光場(chǎng)圖像數(shù)據(jù)用于深度估計(jì),本文將斜線方向的光場(chǎng)數(shù)據(jù)也用于構(gòu)建相應(yīng)的EPI圖像,并使用兩種特征融合的方式,將不同方向的EPI特征進(jìn)行融合,進(jìn)一步提升估計(jì)精度。
本文提出MS-EPINET用于估計(jì)中心視角的視差圖。該網(wǎng)絡(luò)以4個(gè)具有一致基線視點(diǎn)的EPI結(jié)構(gòu)作為輸入,4個(gè)視點(diǎn)分別為水平、垂直和左右對(duì)角線方向。將4個(gè)EPI結(jié)構(gòu)輸入到網(wǎng)絡(luò)的初始4條分支中,完成對(duì)圖像低階特征的提??;將提取的特征進(jìn)行特征融合,融合時(shí)分為兩種方法,分為直接拼接法和方差融合法;將兩種融合后的特征分別經(jīng)由不同的卷積網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行高階特征的提取,并轉(zhuǎn)化為中心視角的初始差異圖。為進(jìn)一步提高合成的差異圖的精度,將兩條支路上預(yù)測(cè)的初始差異圖按通道拼接后,再經(jīng)過(guò)卷積操作后得到最終優(yōu)化后的差異圖。網(wǎng)絡(luò)完整結(jié)構(gòu)如圖3所示。
圖3 MS-EPINET結(jié)構(gòu)
2.1.1 EPI圖像輸入
中心視點(diǎn)和其他視點(diǎn)光場(chǎng)圖像的關(guān)系表示如下:
L(x,y,0,0)=L(x+d(x,y)×u,y+d(x,y)×v,u,v)
(2)
添加斜線方向EPI特征后,對(duì)于角度方向θ(tanθ=v/u),中心視點(diǎn)和其他視點(diǎn)光場(chǎng)圖像的關(guān)系表示可以將式(2)重新描述為:
L(x,y,0,0)=L(x+d(x,y)×u,y+
d(x,y)×utanθ,u,utanθ)
(3)
然而,視點(diǎn)的索引均為整數(shù),當(dāng)tanθ是非整數(shù)時(shí)沒(méi)有對(duì)應(yīng)的視點(diǎn)。因此,假設(shè)光場(chǎng)圖像具有(2N+1)×(2N+1)角分辨率,僅在4個(gè)視角θ:0°、45°、90°和135°的方向上選擇圖像。4個(gè)方向的圖像經(jīng)過(guò)圖像預(yù)處理后,在各自方向上進(jìn)行圖像堆疊,得到網(wǎng)絡(luò)的EPI圖像輸入數(shù)據(jù)。
2.1.2 低階特征提取
網(wǎng)絡(luò)的初始部分由4條支路分別接收4個(gè)方向堆疊的EPI圖像,經(jīng)過(guò)3個(gè)卷積塊(conv block Ⅰ)進(jìn)行低階特征提取。卷積塊“conv blockⅠ”的結(jié)構(gòu)如圖4所示。
圖4 Conv blockⅠ結(jié)構(gòu)圖
卷積層部分使用步長(zhǎng)為1,大小為2×2的卷積核做卷積操作,卷積核的數(shù)量為70個(gè)。將卷積核大小由常規(guī)的3×3改為2×2是因?yàn)楣鈭?chǎng)數(shù)據(jù)集圖像的基線短,使用小的卷積核能較好地捕捉圖像間的差異信息。一次卷積可以計(jì)算±4的視差。
卷積塊中使用ReLU作為激活函數(shù):
f(x)=max(0,x)
(4)
選擇ReLU作為激活函數(shù)的原因如下:速度快,相比sigmoid、tanh等需要計(jì)算指數(shù)和倒數(shù)的激活函數(shù),ReLU的計(jì)算代價(jià)小很多;可以減輕梯度消失的問(wèn)題,計(jì)算梯度的公式如下:
▽=σ′δx
(5)
式中:δx代表自變量的極小量;σ′為激活函數(shù)的導(dǎo)數(shù),以sigmoid為例,其導(dǎo)數(shù)范圍為(0,1)。根據(jù)鏈?zhǔn)角髮?dǎo)法則,多次連乘之后就會(huì)導(dǎo)致梯度越來(lái)越小,造成梯度消失的問(wèn)題。而使用ReLU作為激活函數(shù)可以避免這個(gè)問(wèn)題,在其激活狀態(tài)下,導(dǎo)數(shù)恒為1,因此不會(huì)出現(xiàn)由于網(wǎng)絡(luò)層的增加而導(dǎo)致梯度消失的問(wèn)題。
BN表示批規(guī)范化層(batch normalization),使用批規(guī)范化層是為了克服深度神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題,可以減輕網(wǎng)絡(luò)對(duì)參數(shù)初始化的依賴(lài),使網(wǎng)絡(luò)訓(xùn)練更快,使用更高的學(xué)習(xí)率以及在一定程度上增加模型的泛化能力。
2.1.3 特征融合
在對(duì)提取到的不同EPI方向的特征進(jìn)行合并的時(shí)候,本文提出兩種思想:(1) 直接將四種EPI特征在通道方向上進(jìn)行拼接,即原各支路通道數(shù)為70,拼接后為280,目的是想讓卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)將各個(gè)方向EPI特征進(jìn)行融合;(2) 通過(guò)一些數(shù)學(xué)方法融合不同通道間的特征。文獻(xiàn)[15]使用求均值的方法在不同支路間融合特征,然而這種方法損失了不同特征間的差異信息。針對(duì)這個(gè)缺陷,本文提出使用方差操作來(lái)融合不同的EPI特征,特征融合后的通道數(shù)與原各支路通道數(shù)相同,仍為70。相比求均值的方法,本文提出的求方差的方法能更好地保留特征間的差異信息。其計(jì)算方式如下:
(6)
(7)
(8)
式中:Fvar表示以方差形式融合的特征矩陣。
2.1.4 初始差異圖生成
將直接拼接融合的特征通過(guò)6個(gè)第二種卷積塊(conv block Ⅱ)進(jìn)行高階特征提取,如圖3網(wǎng)絡(luò)結(jié)構(gòu)中間部分的上層支路所示。卷積塊“conv block Ⅱ”的結(jié)構(gòu)與卷積塊“conv block Ⅰ”的結(jié)構(gòu)相同,僅將卷積核的數(shù)量由70增加到280。經(jīng)過(guò)第三種卷積塊(conv block Ⅲ)的計(jì)算即可得到初始的差異圖。卷積塊“conv block Ⅲ”的結(jié)構(gòu)如圖5所示。
圖5 Conv block Ⅲ結(jié)構(gòu)圖
卷積層仍使用2×2大小的卷積核,第一層卷積核數(shù)量為70,最后一層卷積核數(shù)量為1。同理,將通過(guò)方差融合的特征通過(guò)6個(gè)第二種卷積塊(conv block Ⅱ)進(jìn)行高階特征提取,如圖3網(wǎng)絡(luò)結(jié)構(gòu)中間部分的下層支路所示,可得到另外一幅初始的差異圖。
2.1.5 差異圖優(yōu)化
為了進(jìn)一步提高生成的差異圖的精度,將得到的兩個(gè)初始差異圖在通道方向上進(jìn)行拼接。通過(guò)2個(gè)第四種卷積塊(conv block Ⅳ)和1個(gè)第三種卷積塊(conv block Ⅲ),對(duì)拼接的差異圖進(jìn)行進(jìn)一步的特征融合,保留兩者中好的部分,將差異圖的精度提升。其中卷積塊“conv block Ⅳ”的結(jié)構(gòu)如圖6所示,卷積層中卷積核的數(shù)量為32。
圖6 conv block Ⅳ結(jié)構(gòu)圖
2.1.6 深度值的計(jì)算
根據(jù)光場(chǎng)相機(jī)成像原理,可通過(guò)映射關(guān)系將視差值轉(zhuǎn)換為深度值:
(9)
式中:f為相機(jī)焦距;Z為P點(diǎn)的深度值;Δx表示P點(diǎn)在不同視角下的位移量(視差);Δu為相機(jī)鏡頭陣列的基線長(zhǎng)度。
本文使用的是HCI 4D標(biāo)準(zhǔn)光場(chǎng)數(shù)據(jù)集[16],提供20個(gè)精心設(shè)計(jì)合成、密集采樣的4D光場(chǎng)數(shù)據(jù)。每一個(gè)場(chǎng)景包括9×9視角的RGB圖像和中心視角的精確視差圖,每幅圖像的分辨率均為512×512,其中一個(gè)場(chǎng)景的中心視角圖像和對(duì)應(yīng)的視差圖如圖7所示。
(a) 中心視角RGB圖(b) 中心視角差異圖圖7 HCI 4D光場(chǎng)數(shù)據(jù)集
與文獻(xiàn)[13]使用RGB彩色EPI-patch作為輸入不同,對(duì)于通過(guò)EPI特征求解視差來(lái)說(shuō),視差信息隱藏在EPI特征圖像極線的斜率當(dāng)中。因此為減少網(wǎng)絡(luò)參數(shù)數(shù)量和計(jì)算規(guī)模,本文將彩色圖像進(jìn)行灰度化處理,計(jì)算公式如下:
Gray(i,j)=R(i,j)×0.299+G(i,j)×0.587+
B(i,j)×0.114
(10)
式中:Gray(i,j)、R(i,j)、G(i,j)、B(i,j)分別代表在(i,j)像素點(diǎn)處灰度值、紅色通道分量值、綠色分量值和藍(lán)色分量值。
為提升模型收斂速度、提升模型精度和減少光照不均勻?qū)W(wǎng)絡(luò)造成的影響,對(duì)灰度化后的圖像進(jìn)行歸一化處理,將所有像素值壓縮到[0,1]之間。由于像素值最大為255,故歸一化時(shí)直接將像素值除255即得到歸一化后的像素值P′:
(11)
然后將經(jīng)過(guò)灰度化和歸一化處理后的圖像在水平方向上進(jìn)行堆疊,得到水平方向的EPI patch,表示9幅分辨率為512×512灰度圖像的疊加,將其作為網(wǎng)絡(luò)的0°堆疊方向的輸入。同理,將圖像按垂直、主對(duì)角線和副對(duì)角線進(jìn)行堆疊,可得到90°、45°、135°的輸入。
本文使用了HCI 4D光場(chǎng)數(shù)據(jù)集提供的20幅包含各種紋理、材料、物體的光場(chǎng)合成圖像,其中16幅作為訓(xùn)練集。然而,16個(gè)光場(chǎng)圖像遠(yuǎn)遠(yuǎn)難以達(dá)到訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)的目的。為了防止過(guò)擬合問(wèn)題,數(shù)據(jù)增強(qiáng)處理至關(guān)重要。因此,本文提出了適用于光場(chǎng)圖像的數(shù)據(jù)增強(qiáng)技術(shù),該技術(shù)保留了子孔徑圖像之間的幾何關(guān)系。
所使用的數(shù)據(jù)增強(qiáng)方式包括圖像縮放、翻轉(zhuǎn)、旋轉(zhuǎn)、隨機(jī)Gamma值和隨機(jī)灰度化。具體的數(shù)據(jù)增強(qiáng)方式及參數(shù)如表1所示。
表1 數(shù)據(jù)增強(qiáng)方式
使用圖像旋轉(zhuǎn)數(shù)據(jù)增強(qiáng)技術(shù)時(shí),應(yīng)考慮光場(chǎng)圖像的方向特性。為了保持這種光場(chǎng)特征,在圖像旋轉(zhuǎn)后,各個(gè)方向上的堆疊順序也要相應(yīng)的改變。例如:圖像旋轉(zhuǎn)90°后,將豎直方向上的圖像堆疊后輸入到網(wǎng)絡(luò)的水平輸入流中;圖像旋轉(zhuǎn)180°后,豎直方向的圖像仍輸入到網(wǎng)絡(luò)的豎直輸入流中,但由于旋轉(zhuǎn)后圖像中物體的移動(dòng)方向相反,因此圖片的堆疊順序也應(yīng)反向。如圖8所示。
圖8 圖像旋轉(zhuǎn)數(shù)據(jù)增強(qiáng)
由于批量(batch)梯度下降法使用整個(gè)數(shù)據(jù)集去計(jì)算代價(jià)函數(shù)的梯度,批量梯度下降法會(huì)很慢,并且需要很大的顯卡顯存。本文訓(xùn)練時(shí)使用小批量(mini batch)隨機(jī)梯度下降,批次大小(batch size)設(shè)為16,其擁有更快的更新頻率,有利于更魯棒地收斂,避免局部最優(yōu),且不需要把所有數(shù)據(jù)放入顯存中,減少了對(duì)顯存的需求。但由于顯存的限制,仍然無(wú)法直接將512×512分辨率的圖像輸入到網(wǎng)絡(luò)中進(jìn)行計(jì)算,因此將圖像進(jìn)行50×50的隨機(jī)裁剪輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練,再用512×512的圖像進(jìn)行驗(yàn)證。優(yōu)化器(optimizer)采用RMSprop,初始學(xué)習(xí)率為10-4。
網(wǎng)絡(luò)的損失函數(shù)考慮了兩個(gè)初始差異圖和一個(gè)優(yōu)化差異圖的誤差,由三部分組成。使用真實(shí)深度圖和估計(jì)深度圖之間的平均絕對(duì)誤差(Mean Absolute Error,MAE)作為訓(xùn)練損失:
(12)
實(shí)驗(yàn)在一臺(tái)配有E5-2650 v4處理器、NVIDIA TITAN V顯卡和64 GB內(nèi)存的服務(wù)器上完成,使用pycharm作為軟件環(huán)境,采用Tensorflow框架作為訓(xùn)練后端,Keras庫(kù)搭建網(wǎng)絡(luò),訓(xùn)練150個(gè)epoch,大約1天即可使網(wǎng)絡(luò)收斂,得到較好的結(jié)果。
每完整訓(xùn)練1遍訓(xùn)練集中的樣本(1個(gè)epoch),就是用512×512分辨率的圖像作為驗(yàn)證集(validation set)對(duì)網(wǎng)絡(luò)的性能進(jìn)行評(píng)估,根據(jù)評(píng)估的結(jié)果調(diào)整學(xué)習(xí)速率和判斷是否停止迭代。使用均方誤差(Mean Square Error,MSE)和不良像素率(bad pixel ratio)作為評(píng)價(jià)標(biāo)準(zhǔn),均方誤差的計(jì)算如下:
(13)
不良像素率為不良像素的數(shù)量占總像素?cái)?shù)的比例。不良像素率用于描述估計(jì)結(jié)果的準(zhǔn)確度,當(dāng)一個(gè)像素點(diǎn)估計(jì)出的值與真實(shí)值的差異大于一定閾值時(shí),該點(diǎn)被判定為不良像素點(diǎn)。不良像素率的計(jì)算公式為:
(14)
式中:t表示不良像素差異的閾值,這里t=0.07。
均方誤差和不良像素率隨迭代變化的過(guò)程如圖9和圖10所示。隨著網(wǎng)絡(luò)訓(xùn)練次數(shù)的增加,均方誤差和不良像素率在不斷下降且最終收斂,說(shuō)明本文提出的MS-EPINET 的網(wǎng)絡(luò)結(jié)構(gòu)較好,能夠收斂,且精度較高。
圖9 MSE曲線
圖10 Bad Pixel曲線
綜上所述,本文總體算法流程圖如圖11所示。
圖11 總體算法流程圖
HCI 4D標(biāo)準(zhǔn)光場(chǎng)數(shù)據(jù)集中,提供20組不同場(chǎng)景的光場(chǎng)圖像,光場(chǎng)圖像的空間分辨率為512×512,視角分辨率為9×9,并提供了中心視角差異圖的真實(shí)值。其中16個(gè)場(chǎng)景用于訓(xùn)練集,4個(gè)場(chǎng)景用于測(cè)試集。4個(gè)測(cè)試集的場(chǎng)景分別命名為Boxes、Cotton、Dino和Sideboard,中心視角的RGB圖像如圖12所示。
圖12 測(cè)試集中心視角圖像
使用2.2節(jié)所述的圖像預(yù)處理方法對(duì)測(cè)試集輸入圖像進(jìn)行處理后,輸入到已經(jīng)訓(xùn)練收斂的MS-EPINET中,得到預(yù)測(cè)的視差圖。將本文MS-EPINET預(yù)測(cè)結(jié)果與其他文獻(xiàn)預(yù)測(cè)結(jié)果進(jìn)行對(duì)比,對(duì)比結(jié)果如圖13所示。
(a) 真實(shí)值
(b) LF_OCC[7]
(c) OFSY[9]
(d) BSL[10]
(e) EPI1[11]
(f) EPN[14]
(g) MS-EPINET本文算法圖13 實(shí)驗(yàn)結(jié)果對(duì)比
可以看出,在中間兩個(gè)場(chǎng)景Cotton和Dino中,本文算法MS-EPINET估計(jì)結(jié)果準(zhǔn)確,物體的邊緣也較為清晰,且未出現(xiàn)EPI1[11]在Dino場(chǎng)景墻壁上出現(xiàn)的孔洞問(wèn)題。對(duì)于復(fù)雜場(chǎng)景Boxes和Sideboard中,雖然仍有估計(jì)不準(zhǔn)確的地方,但與其他文獻(xiàn)算法相比邊緣更加清晰、差異值過(guò)渡更加平滑,且在Boxes場(chǎng)景中下方箱子的深度估計(jì)明顯優(yōu)于其他算法。
將MS-EPINET與其他現(xiàn)有文獻(xiàn)算法進(jìn)行性能比較,實(shí)驗(yàn)根據(jù)均方誤差(MSE)和不良像素率(Bad Pixel)兩個(gè)評(píng)價(jià)指標(biāo),對(duì)算法的估計(jì)圖像平滑度和估計(jì)精度進(jìn)行對(duì)比,兩個(gè)指標(biāo)的值越小說(shuō)明算法性能越好,算法比較結(jié)果如表2所示。
表2 算法性能對(duì)比
可以看出,本文算法的均方誤差(MSE)和不良像素率(Bad Pixel)在四個(gè)場(chǎng)景中均低于其他算法。與其中結(jié)果最好的EPN[14]算法相比,四個(gè)場(chǎng)景下平均的MSE值和Bad Pixel值分別提升約28.4%和37.3%,說(shuō)明本文提出的MS-EPINET算法具有更強(qiáng)的特征學(xué)習(xí)和轉(zhuǎn)化能力,并且準(zhǔn)確度較高。在計(jì)算時(shí)間上,由于匹配算法需要對(duì)每一個(gè)點(diǎn)或一個(gè)小區(qū)域進(jìn)行單獨(dú)的計(jì)算,多次循環(huán)遍歷才能得到整幅圖像的深度圖,且大多還需要進(jìn)行優(yōu)化后處理操作,導(dǎo)致計(jì)算時(shí)間顯著增加;而本文提出的MS-EPINET算法只需進(jìn)行一次前向傳播計(jì)算即可得到完整的視差圖,再經(jīng)過(guò)簡(jiǎn)單計(jì)算即可得到對(duì)應(yīng)的深度圖,大大減少了計(jì)算耗時(shí),具體計(jì)算耗時(shí)對(duì)比如表3所示。
表3 算法時(shí)間對(duì)比 s
可以看出,在4個(gè)場(chǎng)景下,MS-EPINET計(jì)算耗時(shí)顯著低于其他算法。綜上所述,MS-EPINET在精度提升的同時(shí),降低了配準(zhǔn)耗時(shí),在計(jì)算精度和計(jì)算耗時(shí)之間保持了良好的平衡。因此,本文算法是有效和快速的。
本文提出了一種多流對(duì)極卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行光場(chǎng)深度信息估計(jì)。該網(wǎng)絡(luò)設(shè)計(jì)考慮了光場(chǎng)極線幾何,使用多流網(wǎng)絡(luò)和合并網(wǎng)絡(luò)的組合來(lái)學(xué)習(xí)視角和空間信息,并提出使用兩種特征融合的方式,形成兩條支路分別得到初始深度圖,再對(duì)深度圖融合優(yōu)化,進(jìn)一步提高結(jié)果的精確性。此外,還通過(guò)使用光場(chǎng)圖像的數(shù)據(jù)增強(qiáng)技術(shù),克服數(shù)據(jù)不足的問(wèn)題,避免模型對(duì)訓(xùn)練集過(guò)擬合。實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有文獻(xiàn)算法相比,本文算法的估計(jì)精度和執(zhí)行效率有明顯提高。