基于多流對(duì)極卷積神經(jīng)網(wǎng)絡(luò)的光場(chǎng)圖像深度估計(jì)

2020-09-02 01:22王亞飛

計(jì)算機(jī)應(yīng)用與軟件 2020年8期

王碩王亞飛

(北京信息科技大學(xué)信息與通信工程學(xué)院北京 100101)

0 引言

光場(chǎng)相機(jī)使用一個(gè)微透鏡陣列來(lái)捕獲場(chǎng)景，得到一個(gè)陣列的子孔徑圖像，可使用這些圖像進(jìn)行圖像深度信息的恢復(fù)[1]。其中最有代表性的是使用從圖像陣列中提取的極線平面圖像EPI來(lái)提取深度信息。EPI由各種斜率的線組成，使得在深度估計(jì)上的圖像處理和優(yōu)化變得容易處理。目前光場(chǎng)圖像深度估計(jì)相關(guān)工作可分為兩類(lèi)：基于優(yōu)化的方法和基于學(xué)習(xí)的方法。

基于優(yōu)化的方法有：Wanner等[4]使用結(jié)構(gòu)張量來(lái)計(jì)算EPI的斜率，并使用快速全變差去噪濾波器來(lái)細(xì)化初始視差圖。Zhang等[5]使用EPI找到匹配線，并提出旋轉(zhuǎn)平行四邊形算子來(lái)重新移動(dòng)遮擋對(duì)深度估計(jì)的影響。文獻(xiàn)[6-7]提出增加正則化項(xiàng)的參數(shù)來(lái)保證噪聲遮擋區(qū)域的魯棒性。文獻(xiàn)[8-9]利用重聚焦線索，在處理重復(fù)紋理和對(duì)抗噪聲方面的性能有所提升。Anisimov等[10]提出了一種結(jié)合立體匹配和直線擬合的算法，對(duì)物體邊界信息的估計(jì)進(jìn)行改善。這些傳統(tǒng)的基于優(yōu)化的方法在計(jì)算時(shí)間和性能之間有不可避免的權(quán)衡。

近年來(lái)有學(xué)者提出使用深度學(xué)習(xí)的方法來(lái)進(jìn)行光場(chǎng)圖像深度估計(jì)。Johannsen等[11]將基于方向的深度重建與基于生成深度字典的稀疏光場(chǎng)編碼進(jìn)行聯(lián)合，在多層視差估計(jì)場(chǎng)景中取得了較好的效果。文獻(xiàn)[12-13]提出了一個(gè)由編碼和解碼部分組成的端到端深度網(wǎng)絡(luò)體系結(jié)構(gòu)，提升了計(jì)算效率。文獻(xiàn)[14]采用EPI patch作為神經(jīng)網(wǎng)絡(luò)的輸入，以分類(lèi)代替回歸的方式得到初始深度值，但是該方法執(zhí)行一次運(yùn)算只能得到一個(gè)像素的深度信息，大大增加了算法耗時(shí)。

針對(duì)現(xiàn)有方法存在的估計(jì)精度低、計(jì)算耗時(shí)長(zhǎng)的問(wèn)題，本文提出多流對(duì)極卷積神經(jīng)網(wǎng)絡(luò)(Multi Stream Epipolar Convolutional Neural Network,MS-EPINET)進(jìn)行光場(chǎng)深度估計(jì)。該方法使用四個(gè)方向的EPI信息作為網(wǎng)絡(luò)輸入，在經(jīng)過(guò)低階特征提取后，使用直接拼接和方差融合的兩種方式對(duì)低階特征進(jìn)行融合，再對(duì)不同方式融合后的特征分別進(jìn)行高階特征提取，分別轉(zhuǎn)化為初始深度圖。為進(jìn)一步提高估計(jì)精度，將兩幅深度圖拼接進(jìn)行卷積操作，得到優(yōu)化深度圖。該方法實(shí)現(xiàn)端到端的深度估計(jì)操作，一次計(jì)算即可得到整幅深度圖。同時(shí)，為克服數(shù)據(jù)集小導(dǎo)致模型過(guò)擬合的問(wèn)題，提出針對(duì)光場(chǎng)圖像的數(shù)據(jù)增強(qiáng)技術(shù)，提高模型泛化能力。實(shí)驗(yàn)結(jié)果表明，該算法在計(jì)算精度和執(zhí)行效率方面都取得較好結(jié)果。

1 基于EPI圖像結(jié)構(gòu)的深度估計(jì)

1.1 光場(chǎng)EPI結(jié)構(gòu)

4D光場(chǎng)圖片可以表示為L(zhǎng)(x,y,u,v)，其中(x,y)代表空間坐標(biāo)，(u,v)代表視角坐標(biāo)。Nx×Ny是圖片空間分辨率，Nu×Nv是視角分辨率。中心視點(diǎn)圖像由穿過(guò)主透鏡光學(xué)中心的光線形成。中心視點(diǎn)和其他視點(diǎn)光場(chǎng)圖像的關(guān)系為：

L(x,y,0,0)=L(x+d(x,y)×u,y+d(x,y)×v,u,v)

(1)

式中：d(x,y)是中心視點(diǎn)像素(x，y)與其相鄰視點(diǎn)中相應(yīng)像素的視差。

圖1展示了一個(gè)9×9×512×512的光場(chǎng)數(shù)據(jù)，對(duì)于中心視點(diǎn)中的像素p(xi,yi)，其水平EPI是將視角坐標(biāo)v和空間坐標(biāo)y固定，將9幅在同一水平線上圖片位于橫線位置處的像素拼接而成，大小為9×512，如圖1下方圖像所示。對(duì)于此光場(chǎng)圖像來(lái)說(shuō)，中心視點(diǎn)的圖像一共可以生成512幅水平EPI圖像。同理可得中心視角垂直EPI圖像，其中xi位置的垂直EPI圖由圖片中垂線位置處像素拼接而成，如圖1右側(cè)所示。

圖1 光場(chǎng)EPI結(jié)構(gòu)

1.2 深度估計(jì)

文獻(xiàn)[13]設(shè)計(jì)了適用于光場(chǎng)圖像的卷積神經(jīng)網(wǎng)絡(luò)模型(EPN)，使用深度學(xué)習(xí)的方法計(jì)算光場(chǎng)圖像中場(chǎng)景的深度。該方法在選取的像素點(diǎn)位置截取相應(yīng)的水平和垂直方向的EPI Patch作為網(wǎng)絡(luò)輸入，兩個(gè)子網(wǎng)絡(luò)分別接收水平和垂直EPI塊，經(jīng)過(guò)7個(gè)卷積層進(jìn)行特征提取。使用全連接層將兩個(gè)網(wǎng)絡(luò)的結(jié)果進(jìn)行合并，最后使用Softmax分類(lèi)器將1×229的向量作為結(jié)果輸出，如圖2所示。

圖2 EPN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)示意圖

該方法是將深度計(jì)算問(wèn)題轉(zhuǎn)化為分類(lèi)問(wèn)題，每一類(lèi)對(duì)應(yīng)一個(gè)深度值，輸出的深度值只能在這些離散的數(shù)值上。對(duì)圖像所有像素點(diǎn)執(zhí)行以上計(jì)算過(guò)程，即得到該圖像完整的深度圖。然而該方法只能預(yù)測(cè)得到離散的深度值，且數(shù)值不夠精確；由于全連接層的存在，大大增加了網(wǎng)絡(luò)參數(shù)量和網(wǎng)絡(luò)運(yùn)行時(shí)間；由于每次網(wǎng)絡(luò)運(yùn)行只能得到一個(gè)像素點(diǎn)的深度值，要完成512×512分辨率圖像的深度值預(yù)測(cè)，一共要進(jìn)行262 144次循環(huán)，嚴(yán)重影響計(jì)算效率。

本文提出MS-EPINET進(jìn)行深度信息估計(jì)，一次前向傳播計(jì)算即可得到整幅深度圖數(shù)據(jù)，顯著提高計(jì)算效率。由于構(gòu)建水平和垂直方向的EPI僅使用了少量光場(chǎng)圖像數(shù)據(jù)，為了能夠利用更多光場(chǎng)圖像數(shù)據(jù)用于深度估計(jì)，本文將斜線方向的光場(chǎng)數(shù)據(jù)也用于構(gòu)建相應(yīng)的EPI圖像，并使用兩種特征融合的方式，將不同方向的EPI特征進(jìn)行融合，進(jìn)一步提升估計(jì)精度。

2 MS-EPINET

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文提出MS-EPINET用于估計(jì)中心視角的視差圖。該網(wǎng)絡(luò)以4個(gè)具有一致基線視點(diǎn)的EPI結(jié)構(gòu)作為輸入，4個(gè)視點(diǎn)分別為水平、垂直和左右對(duì)角線方向。將4個(gè)EPI結(jié)構(gòu)輸入到網(wǎng)絡(luò)的初始4條分支中，完成對(duì)圖像低階特征的提??；將提取的特征進(jìn)行特征融合，融合時(shí)分為兩種方法，分為直接拼接法和方差融合法；將兩種融合后的特征分別經(jīng)由不同的卷積網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行高階特征的提取，并轉(zhuǎn)化為中心視角的初始差異圖。為進(jìn)一步提高合成的差異圖的精度，將兩條支路上預(yù)測(cè)的初始差異圖按通道拼接后，再經(jīng)過(guò)卷積操作后得到最終優(yōu)化后的差異圖。網(wǎng)絡(luò)完整結(jié)構(gòu)如圖3所示。

圖3 MS-EPINET結(jié)構(gòu)

2.1.1 EPI圖像輸入

中心視點(diǎn)和其他視點(diǎn)光場(chǎng)圖像的關(guān)系表示如下:

L(x,y,0,0)=L(x+d(x,y)×u,y+d(x,y)×v,u,v)

(2)

添加斜線方向EPI特征后，對(duì)于角度方向θ(tanθ=v/u)，中心視點(diǎn)和其他視點(diǎn)光場(chǎng)圖像的關(guān)系表示可以將式(2)重新描述為：

L(x,y,0,0)=L(x+d(x,y)×u,y+

d(x,y)×utanθ,u,utanθ)

(3)

然而，視點(diǎn)的索引均為整數(shù)，當(dāng)tanθ是非整數(shù)時(shí)沒(méi)有對(duì)應(yīng)的視點(diǎn)。因此，假設(shè)光場(chǎng)圖像具有(2N+1)×(2N+1)角分辨率，僅在4個(gè)視角θ：0°、45°、90°和135°的方向上選擇圖像。4個(gè)方向的圖像經(jīng)過(guò)圖像預(yù)處理后，在各自方向上進(jìn)行圖像堆疊，得到網(wǎng)絡(luò)的EPI圖像輸入數(shù)據(jù)。

2.1.2 低階特征提取

網(wǎng)絡(luò)的初始部分由4條支路分別接收4個(gè)方向堆疊的EPI圖像，經(jīng)過(guò)3個(gè)卷積塊(conv block Ⅰ)進(jìn)行低階特征提取。卷積塊“conv blockⅠ”的結(jié)構(gòu)如圖4所示。

圖4 Conv blockⅠ結(jié)構(gòu)圖

卷積層部分使用步長(zhǎng)為1，大小為2×2的卷積核做卷積操作，卷積核的數(shù)量為70個(gè)。將卷積核大小由常規(guī)的3×3改為2×2是因?yàn)楣鈭?chǎng)數(shù)據(jù)集圖像的基線短，使用小的卷積核能較好地捕捉圖像間的差異信息。一次卷積可以計(jì)算±4的視差。

卷積塊中使用ReLU作為激活函數(shù)：

f(x)=max(0,x)

(4)

選擇ReLU作為激活函數(shù)的原因如下：速度快，相比sigmoid、tanh等需要計(jì)算指數(shù)和倒數(shù)的激活函數(shù)，ReLU的計(jì)算代價(jià)小很多；可以減輕梯度消失的問(wèn)題，計(jì)算梯度的公式如下：

▽=σ′δx

(5)

式中：δx代表自變量的極小量；σ′為激活函數(shù)的導(dǎo)數(shù)，以sigmoid為例，其導(dǎo)數(shù)范圍為(0,1)。根據(jù)鏈?zhǔn)角髮?dǎo)法則，多次連乘之后就會(huì)導(dǎo)致梯度越來(lái)越小，造成梯度消失的問(wèn)題。而使用ReLU作為激活函數(shù)可以避免這個(gè)問(wèn)題，在其激活狀態(tài)下，導(dǎo)數(shù)恒為1，因此不會(huì)出現(xiàn)由于網(wǎng)絡(luò)層的增加而導(dǎo)致梯度消失的問(wèn)題。

BN表示批規(guī)范化層(batch normalization)，使用批規(guī)范化層是為了克服深度神經(jīng)網(wǎng)絡(luò)難以訓(xùn)練的問(wèn)題，可以減輕網(wǎng)絡(luò)對(duì)參數(shù)初始化的依賴(lài)，使網(wǎng)絡(luò)訓(xùn)練更快，使用更高的學(xué)習(xí)率以及在一定程度上增加模型的泛化能力。

2.1.3 特征融合

在對(duì)提取到的不同EPI方向的特征進(jìn)行合并的時(shí)候，本文提出兩種思想：(1) 直接將四種EPI特征在通道方向上進(jìn)行拼接，即原各支路通道數(shù)為70，拼接后為280，目的是想讓卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)將各個(gè)方向EPI特征進(jìn)行融合；(2) 通過(guò)一些數(shù)學(xué)方法融合不同通道間的特征。文獻(xiàn)[15]使用求均值的方法在不同支路間融合特征，然而這種方法損失了不同特征間的差異信息。針對(duì)這個(gè)缺陷，本文提出使用方差操作來(lái)融合不同的EPI特征，特征融合后的通道數(shù)與原各支路通道數(shù)相同，仍為70。相比求均值的方法，本文提出的求方差的方法能更好地保留特征間的差異信息。其計(jì)算方式如下：

(6)

(7)

(8)

式中：Fvar表示以方差形式融合的特征矩陣。

2.1.4 初始差異圖生成

將直接拼接融合的特征通過(guò)6個(gè)第二種卷積塊(conv block Ⅱ)進(jìn)行高階特征提取，如圖3網(wǎng)絡(luò)結(jié)構(gòu)中間部分的上層支路所示。卷積塊“conv block Ⅱ”的結(jié)構(gòu)與卷積塊“conv block Ⅰ”的結(jié)構(gòu)相同，僅將卷積核的數(shù)量由70增加到280。經(jīng)過(guò)第三種卷積塊(conv block Ⅲ)的計(jì)算即可得到初始的差異圖。卷積塊“conv block Ⅲ”的結(jié)構(gòu)如圖5所示。

圖5 Conv block Ⅲ結(jié)構(gòu)圖

卷積層仍使用2×2大小的卷積核，第一層卷積核數(shù)量為70，最后一層卷積核數(shù)量為1。同理，將通過(guò)方差融合的特征通過(guò)6個(gè)第二種卷積塊(conv block Ⅱ)進(jìn)行高階特征提取，如圖3網(wǎng)絡(luò)結(jié)構(gòu)中間部分的下層支路所示，可得到另外一幅初始的差異圖。

2.1.5 差異圖優(yōu)化

為了進(jìn)一步提高生成的差異圖的精度，將得到的兩個(gè)初始差異圖在通道方向上進(jìn)行拼接。通過(guò)2個(gè)第四種卷積塊(conv block Ⅳ)和1個(gè)第三種卷積塊(conv block Ⅲ)，對(duì)拼接的差異圖進(jìn)行進(jìn)一步的特征融合，保留兩者中好的部分，將差異圖的精度提升。其中卷積塊“conv block Ⅳ”的結(jié)構(gòu)如圖6所示，卷積層中卷積核的數(shù)量為32。

圖6 conv block Ⅳ結(jié)構(gòu)圖

2.1.6 深度值的計(jì)算

根據(jù)光場(chǎng)相機(jī)成像原理，可通過(guò)映射關(guān)系將視差值轉(zhuǎn)換為深度值：

(9)

式中：f為相機(jī)焦距；Z為P點(diǎn)的深度值；Δx表示P點(diǎn)在不同視角下的位移量(視差)；Δu為相機(jī)鏡頭陣列的基線長(zhǎng)度。

2.2 輸入數(shù)據(jù)預(yù)處理

本文使用的是HCI 4D標(biāo)準(zhǔn)光場(chǎng)數(shù)據(jù)集[16]，提供20個(gè)精心設(shè)計(jì)合成、密集采樣的4D光場(chǎng)數(shù)據(jù)。每一個(gè)場(chǎng)景包括9×9視角的RGB圖像和中心視角的精確視差圖，每幅圖像的分辨率均為512×512，其中一個(gè)場(chǎng)景的中心視角圖像和對(duì)應(yīng)的視差圖如圖7所示。

(a) 中心視角RGB圖(b) 中心視角差異圖圖7 HCI 4D光場(chǎng)數(shù)據(jù)集

與文獻(xiàn)[13]使用RGB彩色EPI-patch作為輸入不同，對(duì)于通過(guò)EPI特征求解視差來(lái)說(shuō)，視差信息隱藏在EPI特征圖像極線的斜率當(dāng)中。因此為減少網(wǎng)絡(luò)參數(shù)數(shù)量和計(jì)算規(guī)模，本文將彩色圖像進(jìn)行灰度化處理，計(jì)算公式如下：

Gray(i,j)=R(i,j)×0.299+G(i,j)×0.587+

B(i,j)×0.114

(10)

式中：Gray(i,j)、R(i,j)、G(i,j)、B(i,j)分別代表在(i,j)像素點(diǎn)處灰度值、紅色通道分量值、綠色分量值和藍(lán)色分量值。

為提升模型收斂速度、提升模型精度和減少光照不均勻?qū)W(wǎng)絡(luò)造成的影響，對(duì)灰度化后的圖像進(jìn)行歸一化處理，將所有像素值壓縮到[0,1]之間。由于像素值最大為255，故歸一化時(shí)直接將像素值除255即得到歸一化后的像素值P′：

(11)

然后將經(jīng)過(guò)灰度化和歸一化處理后的圖像在水平方向上進(jìn)行堆疊，得到水平方向的EPI patch，表示9幅分辨率為512×512灰度圖像的疊加，將其作為網(wǎng)絡(luò)的0°堆疊方向的輸入。同理，將圖像按垂直、主對(duì)角線和副對(duì)角線進(jìn)行堆疊，可得到90°、45°、135°的輸入。

2.3 數(shù)據(jù)增強(qiáng)

本文使用了HCI 4D光場(chǎng)數(shù)據(jù)集提供的20幅包含各種紋理、材料、物體的光場(chǎng)合成圖像，其中16幅作為訓(xùn)練集。然而，16個(gè)光場(chǎng)圖像遠(yuǎn)遠(yuǎn)難以達(dá)到訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò)的目的。為了防止過(guò)擬合問(wèn)題，數(shù)據(jù)增強(qiáng)處理至關(guān)重要。因此，本文提出了適用于光場(chǎng)圖像的數(shù)據(jù)增強(qiáng)技術(shù)，該技術(shù)保留了子孔徑圖像之間的幾何關(guān)系。

所使用的數(shù)據(jù)增強(qiáng)方式包括圖像縮放、翻轉(zhuǎn)、旋轉(zhuǎn)、隨機(jī)Gamma值和隨機(jī)灰度化。具體的數(shù)據(jù)增強(qiáng)方式及參數(shù)如表1所示。

表1 數(shù)據(jù)增強(qiáng)方式

使用圖像旋轉(zhuǎn)數(shù)據(jù)增強(qiáng)技術(shù)時(shí)，應(yīng)考慮光場(chǎng)圖像的方向特性。為了保持這種光場(chǎng)特征，在圖像旋轉(zhuǎn)后，各個(gè)方向上的堆疊順序也要相應(yīng)的改變。例如：圖像旋轉(zhuǎn)90°后，將豎直方向上的圖像堆疊后輸入到網(wǎng)絡(luò)的水平輸入流中；圖像旋轉(zhuǎn)180°后，豎直方向的圖像仍輸入到網(wǎng)絡(luò)的豎直輸入流中，但由于旋轉(zhuǎn)后圖像中物體的移動(dòng)方向相反，因此圖片的堆疊順序也應(yīng)反向。如圖8所示。

圖8 圖像旋轉(zhuǎn)數(shù)據(jù)增強(qiáng)

2.4 訓(xùn)練細(xì)節(jié)

由于批量(batch)梯度下降法使用整個(gè)數(shù)據(jù)集去計(jì)算代價(jià)函數(shù)的梯度，批量梯度下降法會(huì)很慢，并且需要很大的顯卡顯存。本文訓(xùn)練時(shí)使用小批量(mini batch)隨機(jī)梯度下降，批次大小(batch size)設(shè)為16，其擁有更快的更新頻率，有利于更魯棒地收斂，避免局部最優(yōu)，且不需要把所有數(shù)據(jù)放入顯存中，減少了對(duì)顯存的需求。但由于顯存的限制，仍然無(wú)法直接將512×512分辨率的圖像輸入到網(wǎng)絡(luò)中進(jìn)行計(jì)算，因此將圖像進(jìn)行50×50的隨機(jī)裁剪輸入到網(wǎng)絡(luò)中進(jìn)行訓(xùn)練，再用512×512的圖像進(jìn)行驗(yàn)證。優(yōu)化器(optimizer)采用RMSprop，初始學(xué)習(xí)率為10-4。

網(wǎng)絡(luò)的損失函數(shù)考慮了兩個(gè)初始差異圖和一個(gè)優(yōu)化差異圖的誤差，由三部分組成。使用真實(shí)深度圖和估計(jì)深度圖之間的平均絕對(duì)誤差(Mean Absolute Error,MAE)作為訓(xùn)練損失：

(12)

實(shí)驗(yàn)在一臺(tái)配有E5-2650 v4處理器、NVIDIA TITAN V顯卡和64 GB內(nèi)存的服務(wù)器上完成，使用pycharm作為軟件環(huán)境，采用Tensorflow框架作為訓(xùn)練后端，Keras庫(kù)搭建網(wǎng)絡(luò)，訓(xùn)練150個(gè)epoch，大約1天即可使網(wǎng)絡(luò)收斂，得到較好的結(jié)果。

每完整訓(xùn)練1遍訓(xùn)練集中的樣本(1個(gè)epoch)，就是用512×512分辨率的圖像作為驗(yàn)證集(validation set)對(duì)網(wǎng)絡(luò)的性能進(jìn)行評(píng)估，根據(jù)評(píng)估的結(jié)果調(diào)整學(xué)習(xí)速率和判斷是否停止迭代。使用均方誤差(Mean Square Error,MSE)和不良像素率(bad pixel ratio)作為評(píng)價(jià)標(biāo)準(zhǔn)，均方誤差的計(jì)算如下：

(13)

不良像素率為不良像素的數(shù)量占總像素?cái)?shù)的比例。不良像素率用于描述估計(jì)結(jié)果的準(zhǔn)確度，當(dāng)一個(gè)像素點(diǎn)估計(jì)出的值與真實(shí)值的差異大于一定閾值時(shí)，該點(diǎn)被判定為不良像素點(diǎn)。不良像素率的計(jì)算公式為：

(14)

式中：t表示不良像素差異的閾值，這里t=0.07。

均方誤差和不良像素率隨迭代變化的過(guò)程如圖9和圖10所示。隨著網(wǎng)絡(luò)訓(xùn)練次數(shù)的增加，均方誤差和不良像素率在不斷下降且最終收斂，說(shuō)明本文提出的MS-EPINET 的網(wǎng)絡(luò)結(jié)構(gòu)較好，能夠收斂，且精度較高。

圖9 MSE曲線

圖10 Bad Pixel曲線

綜上所述，本文總體算法流程圖如圖11所示。

圖11 總體算法流程圖

3 實(shí)驗(yàn)結(jié)果與分析

3.1 算法結(jié)果

HCI 4D標(biāo)準(zhǔn)光場(chǎng)數(shù)據(jù)集中，提供20組不同場(chǎng)景的光場(chǎng)圖像，光場(chǎng)圖像的空間分辨率為512×512，視角分辨率為9×9，并提供了中心視角差異圖的真實(shí)值。其中16個(gè)場(chǎng)景用于訓(xùn)練集，4個(gè)場(chǎng)景用于測(cè)試集。4個(gè)測(cè)試集的場(chǎng)景分別命名為Boxes、Cotton、Dino和Sideboard，中心視角的RGB圖像如圖12所示。

圖12 測(cè)試集中心視角圖像

使用2.2節(jié)所述的圖像預(yù)處理方法對(duì)測(cè)試集輸入圖像進(jìn)行處理后，輸入到已經(jīng)訓(xùn)練收斂的MS-EPINET中，得到預(yù)測(cè)的視差圖。將本文MS-EPINET預(yù)測(cè)結(jié)果與其他文獻(xiàn)預(yù)測(cè)結(jié)果進(jìn)行對(duì)比，對(duì)比結(jié)果如圖13所示。

(a) 真實(shí)值

(b) LF_OCC[7]

(d) BSL[10]

(e) EPI1[11]

(f) EPN[14]

(g) MS-EPINET本文算法圖13 實(shí)驗(yàn)結(jié)果對(duì)比

可以看出，在中間兩個(gè)場(chǎng)景Cotton和Dino中，本文算法MS-EPINET估計(jì)結(jié)果準(zhǔn)確，物體的邊緣也較為清晰，且未出現(xiàn)EPI1[11]在Dino場(chǎng)景墻壁上出現(xiàn)的孔洞問(wèn)題。對(duì)于復(fù)雜場(chǎng)景Boxes和Sideboard中，雖然仍有估計(jì)不準(zhǔn)確的地方，但與其他文獻(xiàn)算法相比邊緣更加清晰、差異值過(guò)渡更加平滑，且在Boxes場(chǎng)景中下方箱子的深度估計(jì)明顯優(yōu)于其他算法。

3.2 算法性能分析

將MS-EPINET與其他現(xiàn)有文獻(xiàn)算法進(jìn)行性能比較，實(shí)驗(yàn)根據(jù)均方誤差(MSE)和不良像素率(Bad Pixel)兩個(gè)評(píng)價(jià)指標(biāo)，對(duì)算法的估計(jì)圖像平滑度和估計(jì)精度進(jìn)行對(duì)比，兩個(gè)指標(biāo)的值越小說(shuō)明算法性能越好，算法比較結(jié)果如表2所示。

表2 算法性能對(duì)比

可以看出，本文算法的均方誤差(MSE)和不良像素率(Bad Pixel)在四個(gè)場(chǎng)景中均低于其他算法。與其中結(jié)果最好的EPN[14]算法相比，四個(gè)場(chǎng)景下平均的MSE值和Bad Pixel值分別提升約28.4%和37.3%，說(shuō)明本文提出的MS-EPINET算法具有更強(qiáng)的特征學(xué)習(xí)和轉(zhuǎn)化能力，并且準(zhǔn)確度較高。在計(jì)算時(shí)間上，由于匹配算法需要對(duì)每一個(gè)點(diǎn)或一個(gè)小區(qū)域進(jìn)行單獨(dú)的計(jì)算，多次循環(huán)遍歷才能得到整幅圖像的深度圖，且大多還需要進(jìn)行優(yōu)化后處理操作，導(dǎo)致計(jì)算時(shí)間顯著增加；而本文提出的MS-EPINET算法只需進(jìn)行一次前向傳播計(jì)算即可得到完整的視差圖，再經(jīng)過(guò)簡(jiǎn)單計(jì)算即可得到對(duì)應(yīng)的深度圖，大大減少了計(jì)算耗時(shí)，具體計(jì)算耗時(shí)對(duì)比如表3所示。

表3 算法時(shí)間對(duì)比 s

可以看出，在4個(gè)場(chǎng)景下，MS-EPINET計(jì)算耗時(shí)顯著低于其他算法。綜上所述，MS-EPINET在精度提升的同時(shí)，降低了配準(zhǔn)耗時(shí)，在計(jì)算精度和計(jì)算耗時(shí)之間保持了良好的平衡。因此，本文算法是有效和快速的。

4 結(jié) 語(yǔ)

本文提出了一種多流對(duì)極卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行光場(chǎng)深度信息估計(jì)。該網(wǎng)絡(luò)設(shè)計(jì)考慮了光場(chǎng)極線幾何，使用多流網(wǎng)絡(luò)和合并網(wǎng)絡(luò)的組合來(lái)學(xué)習(xí)視角和空間信息，并提出使用兩種特征融合的方式，形成兩條支路分別得到初始深度圖，再對(duì)深度圖融合優(yōu)化，進(jìn)一步提高結(jié)果的精確性。此外，還通過(guò)使用光場(chǎng)圖像的數(shù)據(jù)增強(qiáng)技術(shù)，克服數(shù)據(jù)不足的問(wèn)題，避免模型對(duì)訓(xùn)練集過(guò)擬合。實(shí)驗(yàn)結(jié)果表明，與現(xiàn)有文獻(xiàn)算法相比，本文算法的估計(jì)精度和執(zhí)行效率有明顯提高。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡