陳思喜,張延吉,李建微
(福州大學(xué) 物理與信息工程學(xué)院,福建 福州 350116)
隨著消費(fèi)級(jí)全景相機(jī)的普及,獲取全景圖像變得更加便捷。全景圖像相較于透視圖像具有更廣闊的視野,因此其深度估計(jì)研究逐漸成為熱點(diǎn)。使用全景相機(jī)獲取深度數(shù)據(jù)是一項(xiàng)費(fèi)時(shí)且勞動(dòng)密集型的任務(wù)[1]。自監(jiān)督深度學(xué)習(xí)方法利用無標(biāo)注深度的數(shù)據(jù)圖像進(jìn)行訓(xùn)練,降低了數(shù)據(jù)標(biāo)注成本,成為完成全景圖像深度估計(jì)任務(wù)的重要趨勢(shì)和低成本解決方案。
OmniDepth是由Zioulis等率先提出的基于學(xué)習(xí)的全景圖像密集深度估計(jì)工作,驗(yàn)證了將全景圖像的等矩形投影(Equirectangular Projection,ERP)作為直接學(xué)習(xí)內(nèi)容的必要性。SVS公司提出室內(nèi)環(huán)境的立體全景數(shù)據(jù)集3D60,并利用幾何模型推導(dǎo)球面視差模型,使用基于深度圖像的渲染(Depth Image Based Rendering,DIBR)繪制方法合成垂直基線上的全景視圖作為監(jiān)督信號(hào)。HoHoNet將二維特征映射壓縮到水平特征來表示,加快了訓(xùn)練速度,但是空間上下文的感知能力仍然存在不足。360-SelfNet將全景圖像進(jìn)行立方體投影轉(zhuǎn)換成多個(gè)透視圖像,利用視頻的圖像幀序列和相機(jī)位姿合成新的全景圖像。OlaNet在Zioulis的框架基礎(chǔ)上進(jìn)行改進(jìn),引入空間金字塔和L1范數(shù)正則化以獲得更具有健壯性的結(jié)果,但是其預(yù)測(cè)結(jié)果精度提升有限。StructReg同樣遵循上述框架,利用消失點(diǎn)檢測(cè)計(jì)算主導(dǎo)方向法向約束和平面一致的深度約束,不過也未解決全景圖像畸變的問題。
基于此,為提升卷積神經(jīng)網(wǎng)絡(luò)遠(yuǎn)距離特征提取能力并解決圖像畸變的問題,在CoordNet基礎(chǔ)上加入跳躍連接,引入球面極地畸變補(bǔ)償層,并設(shè)計(jì)通道優(yōu)化多空間融合模塊和全景感受野塊。實(shí)驗(yàn)結(jié)果表明,此方法在多個(gè)數(shù)據(jù)集上領(lǐng)先之前的自監(jiān)督算法。
總體網(wǎng)絡(luò)架構(gòu)如圖1所示?;谇蛎嬉暡钅P停郧蛎嬉晥D重建方法合成的圖像作為監(jiān)督信號(hào)。將CoordNet作為主干網(wǎng)絡(luò),結(jié)合畸變補(bǔ)償、注意力機(jī)制和全景感受野等模塊,提升對(duì)全景圖像的特征提取能力。
圖1 總體網(wǎng)絡(luò)架構(gòu)
1.1.1 球面視差模型
三維空間中,球坐標(biāo)系ρ=(r,φ,θ)與笛卡爾坐標(biāo)系λ=(x,y,z)為一一映射關(guān)系。通過ERP定義球面圖像,其像素坐標(biāo)(u,v)對(duì)應(yīng)角球坐標(biāo)(?,θ),當(dāng)分辨率設(shè)為W×H時(shí),可得到?=2πu/W,θ=πv/H。全景圖像的深度采用球心到球面坐標(biāo)的歐氏距離r作為度量。鑒于垂直放置不受水平失真影響,視差模型將基線設(shè)置為垂直方向[2]?;谏鲜鰲l件,可得球面坐標(biāo)相對(duì)笛卡爾坐標(biāo)的偏導(dǎo)數(shù),公式為
視差γ=(γ?,γθ)與角球面坐標(biāo)的角度差σ=(θ,?)相對(duì)應(yīng),垂直方向基線b=Pt-Pb,其中Pt和Pb分別表示目標(biāo)物體在上、下視圖中的位置,由此可推導(dǎo)出球面視差公式為
式中:dy為在笛卡爾坐標(biāo)系下沿垂直基線y方向求解微分。
1.1.2 球面視圖重建
文章采用DIBR進(jìn)行球面視圖重建,將每個(gè)源像素的貢獻(xiàn)分散到目標(biāo)畫布中,通過雙線性散射保證局部可微性[3]。對(duì)最終的渲染結(jié)果進(jìn)行歸一化,并應(yīng)用軟Z緩沖算法合成目標(biāo)視圖,這種方法能夠適應(yīng)多對(duì)一映射并有效處理遮擋。
1.1.3 球面總損失函數(shù)
球面總損失函數(shù)由光度圖像重建損失Lrecon和深平滑度先驗(yàn)損失Lsmooth構(gòu)成,計(jì)算公式為
式中:權(quán)重系數(shù)λrecon和λsmooth的和為1。
光度損失像素加權(quán)后的平均重建誤差公式為
式中:A(p)為球面注意力矩陣,用于均勻聚合誤差和梯度,Lphoto(p)為光度損失,Mt(p)為二進(jìn)制掩碼,p為像素坐標(biāo)索引。
光度損失公式為
式中:η為相對(duì)權(quán)重因子,LD為結(jié)構(gòu)差異項(xiàng),ItM中的上標(biāo)M表示目標(biāo)幀It與M t的乘法,表示合成視圖。
球面注意力矩陣公式為
深平滑度先驗(yàn)損失公式為
式中:?Is(p)為對(duì)源圖像像素進(jìn)行均勻梯度計(jì)算,下標(biāo)u、v分別為ERP圖像中的橫縱坐標(biāo),由于文章采用垂直基線,故對(duì)像素的v坐標(biāo)進(jìn)行在u、v方向的均勻梯度計(jì)算。
ERP圖像緯度越高,畸變?cè)絿?yán)重,尤其是在兩極地區(qū)畸變最嚴(yán)重。為此,引入極地畸變補(bǔ)償模塊,使用多個(gè)卷積層來提取高緯度區(qū)域特征,將輸出映射輸入至主干網(wǎng)絡(luò),以減輕局部畸變?cè)斐傻挠绊慬4]。
鑒于卷積神經(jīng)網(wǎng)絡(luò)在遠(yuǎn)距離特征提取方面存在不足,有效融合3種注意力機(jī)制,構(gòu)建了通道優(yōu)化多空間融合模塊(Channel-Optimized Multi-Spatial Fusion,COMSF),如圖2所示。位置注意力機(jī)制被用來捕獲同一特征圖中兩個(gè)像素之間的空間關(guān)聯(lián)性和相似性,空間注意力機(jī)制用于強(qiáng)調(diào)空間位置的重要性,通道注意力機(jī)制則將二者融合,抑制噪聲和冗余信息,以增強(qiáng)通道特征的表達(dá)能力和效率。通過引入通道優(yōu)化多空間融合模塊,強(qiáng)化像素之間的對(duì)比學(xué)習(xí),增強(qiáng)類內(nèi)的聚合性,使模型更好地提取遠(yuǎn)距離特征,從而有效利用上下文信息進(jìn)行推斷和預(yù)測(cè)[5]。
圖2 通道優(yōu)化多空間融合注意力模塊的實(shí)現(xiàn)細(xì)節(jié)
全景圖像相比透視圖像包含更為豐富的空間尺度信息。受人類視覺系統(tǒng)和感受野塊啟發(fā),提出全景感受野塊,如圖3所示。它包含具有不同卷積核尺寸的多分支卷積層和不同擴(kuò)張率的空洞卷積層。多分支卷積層的設(shè)計(jì)旨在通過使用不同內(nèi)核大小的卷積層獲得不同范圍的感受野[6-7]。空洞卷積層的引入旨在充分利用上下文以獲取更廣泛的信息。針對(duì)全景圖像的畸變和信息壓縮,設(shè)置了精細(xì)的擴(kuò)張卷積層,擴(kuò)張率為[1,2,3,5],從而在特征提取過程中涵蓋多樣且更為精細(xì)的空間尺度。此外,將擠壓激勵(lì)(Squeeze and Excitation,SE)模塊引入每個(gè)分支,使模型自適應(yīng)調(diào)整每個(gè)分支通道,突出關(guān)鍵的特征信息。最后,在每個(gè)分支末端添加串聯(lián)的1×1卷積層,生成多個(gè)特征映射,再連接合并成卷積數(shù)組。通過以上改進(jìn)和擴(kuò)展措施,使模型能夠更好地適應(yīng)全景圖像任務(wù),從全景圖像中提取多尺度特征,加強(qiáng)模型對(duì)復(fù)雜場(chǎng)景的理解,并獲得更準(zhǔn)確的預(yù)測(cè)結(jié)果。
圖3 全景感受野塊的實(shí)現(xiàn)細(xì)節(jié)
在實(shí)驗(yàn)中采用在3D60進(jìn)行訓(xùn)練,并分別在3D60、Matterport3D以及Stanford 2D-3D數(shù)據(jù)集上進(jìn)行測(cè)試。使用的評(píng)價(jià)指標(biāo)有均方根誤差(Root Mean Squared Error,RMSE)、對(duì)數(shù)均方根誤差(Logarithmic Root Mean Squared Error,Log-RMSE)、絕對(duì)相對(duì)誤差(Absolute Relative Error,AbsRel)、平方相對(duì)誤差(Square Relative Error,SqRel)以及閾值精度δ。實(shí)驗(yàn)基于PyTorch框架,在顯卡RTX 3080上進(jìn)行訓(xùn)練,輸入圖像大小為256×512。模型采用Xavier初始化和Adam優(yōu)化器,(β1,β2)=(0.9,0.999)。學(xué)習(xí)率設(shè)置為0.000 1,權(quán)重(λrecon,λsmooth)設(shè)置為(0.95,0.05),α設(shè)置為0.85。
在3種數(shù)據(jù)集上分別進(jìn)行對(duì)比驗(yàn)證,結(jié)果如表1所示,其中箭頭朝下表示數(shù)值越低越好,向上表示越高越好。文章提出的模型所有指標(biāo)的性能均獲得顯著提升,且優(yōu)于之前提出的自監(jiān)督算法。同時(shí),其與有監(jiān)督算法相比,超越了SVS_SV算法,與HoHoNet算法表現(xiàn)接近,進(jìn)一步縮小了與有監(jiān)督算法之間的差距。
表1 對(duì)比實(shí)驗(yàn)的定量評(píng)估結(jié)果比較
在相同的實(shí)驗(yàn)環(huán)境下,對(duì)兩個(gè)主要改進(jìn)模塊進(jìn)行消融實(shí)驗(yàn),詳見表2。通過實(shí)驗(yàn)發(fā)現(xiàn),兩個(gè)模塊均能夠提升性能,其中PanoRFB算法的作用尤為明顯。
表2 消融實(shí)驗(yàn)
預(yù)測(cè)實(shí)驗(yàn)如圖4所示。觀察發(fā)現(xiàn),模型能夠?qū)W習(xí)到物體的空間相對(duì)位置信息,從而準(zhǔn)確預(yù)測(cè)房間布局、陳列物品的輪廓。相較于SVS算法,文章算法預(yù)測(cè)結(jié)果輪廓清晰,即使在最遠(yuǎn)處有一塊無標(biāo)注區(qū)域,模型仍能預(yù)測(cè)出較為準(zhǔn)確的細(xì)節(jié),這也體現(xiàn)出自監(jiān)督算法的優(yōu)勢(shì)。
圖4 3D60數(shù)據(jù)集對(duì)比預(yù)測(cè)實(shí)驗(yàn)
文章提出一種全新的全景圖像單目自監(jiān)督深度估計(jì)方法,結(jié)合卷積神經(jīng)網(wǎng)絡(luò)和通道優(yōu)化多空間融合注意力機(jī)制,解決了卷積神經(jīng)網(wǎng)絡(luò)遠(yuǎn)距離特征提取能力不足的問題。此外,設(shè)計(jì)全景感受野塊,以捕捉多尺度上下文信息,在畸變的區(qū)域擴(kuò)充感知范圍,解決畸變帶來的影響,提升了預(yù)測(cè)準(zhǔn)確度。在公開數(shù)據(jù)集上的大量實(shí)驗(yàn)證明,文章方法在全景圖像深度估計(jì)方面具備先進(jìn)的性能。