關(guān)鍵詞:多視圖立體;三維重建;注意力機(jī)制;成本體積
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)志碼:A
0 引言(Introduction)
多視圖立體重建(MVS)使用多個(gè)不同視角的圖像還原場(chǎng)景的三維幾何結(jié)構(gòu),其作為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)基本問(wèn)題被廣泛關(guān)注和研究了幾十年[1]。
近年來(lái),基于成本體積的深度學(xué)習(xí)方法已成為利用高分辨率圖像進(jìn)行MVS的首選技術(shù)[2-5]。這些方法在整個(gè)深度范圍內(nèi)對(duì)平面均勻采樣構(gòu)建成本體積,但若初始估計(jì)的深度與實(shí)際深度相差較大,則誤差會(huì)迭代到最終精細(xì)層次,導(dǎo)致結(jié)果錯(cuò)誤。
本文針對(duì)初始深度估計(jì)誤差大的問(wèn)題,在CVPMVSNET(Cost Volume Pyramid Based Depth Inference for Multi-ViewStereo)[4]的基礎(chǔ)上設(shè)計(jì)了新的MVS網(wǎng)絡(luò)。引入關(guān)注感受野的注意力機(jī)制[6]到特征提取網(wǎng)絡(luò),有利于后續(xù)的注意力加權(quán)學(xué)習(xí)。提出了注意力加權(quán)模塊,以更加關(guān)注圖像金字塔的多層次細(xì)節(jié)并計(jì)算出更精細(xì)的特征圖,同時(shí)在三維卷積更深層,引入引導(dǎo)成本體積激勵(lì)模塊(GCE)[7]以補(bǔ)充成本體積。通過(guò)大量實(shí)驗(yàn)證明,該模型能平滑初始深度估計(jì),在DTU數(shù)據(jù)集上的表現(xiàn)優(yōu)于目前大多數(shù)先進(jìn)算法的表現(xiàn)。
1 相關(guān)工作(Related work)
1.1 基于學(xué)習(xí)的MVS算法
采用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)從多個(gè)視角圖像推斷深度圖,再通過(guò)單獨(dú)的多視圖融合過(guò)程完成三維模型重建。YAO等[8]提出MVSNET(Multi-View Stereo Network)利用圖像的單應(yīng)性變換和基于方差的成本度量構(gòu)建成本體積,隨后通過(guò)三維卷積進(jìn)行正則化處理,以獲取深度圖。雖然這種方法的重建效果較好,但是對(duì)內(nèi)存的要求高。為了處理高分辨率圖像,一些循環(huán)方法[9-11]使用GRU或者LSTM 以遞歸方式構(gòu)建成本量,但通常為減少空間需求,會(huì)犧牲更多的運(yùn)行時(shí)間。一些研究[12-14]不使用固定分辨率構(gòu)建成本體積,而是通過(guò)從粗到精的多尺度方法迭代深度估計(jì)。這些多尺度方法通過(guò)在低分辨率下構(gòu)建粗的成本體積估計(jì)深度圖,然后在較高分辨率下構(gòu)建局部的成本體積優(yōu)化初始深度圖。也有方法[14]注意到構(gòu)建成本體積過(guò)早決策,但其稀疏體積造成了過(guò)多的參數(shù)及使用過(guò)多的內(nèi)存。盡管從粗到精的多尺度方法迭代深度估計(jì)方式已經(jīng)取得了較好效果,但是依然面臨空間信息不夠豐富和初始深度圖過(guò)早估計(jì)的問(wèn)題。本文引入關(guān)注感受野的空間通道注意力解決空間信息不夠豐富的問(wèn)題。與現(xiàn)有研究[14]不同,本文利用注意力加權(quán)和引入引導(dǎo)成本激勵(lì)模塊嘗試解決初始深度圖過(guò)早估計(jì)的問(wèn)題。
1.2 立體匹配
立體匹配方法通常包括匹配成本計(jì)算、成本聚合、優(yōu)化和視差細(xì)化4個(gè)過(guò)程的全部或部分[15-16]。本文受卷積神經(jīng)網(wǎng)絡(luò)的啟發(fā),引入端到端網(wǎng)絡(luò)計(jì)算立體匹配和成本聚合,以獲得更好的匹配結(jié)果。文獻(xiàn)[17]至文獻(xiàn)[19]嘗試?yán)枚喑叨人枷脒M(jìn)行視差建模優(yōu)化提升運(yùn)算速度。文獻(xiàn)[17]和文獻(xiàn)[18]表明,三維卷積在聚合成本體積階段,神經(jīng)網(wǎng)絡(luò)能從數(shù)據(jù)中捕獲幾何信息,利用空間變化的模塊補(bǔ)充和豐富三維卷積。在文獻(xiàn)[7]中利用引導(dǎo)成本體積激勵(lì)方法實(shí)現(xiàn)了基于空間依賴的三維操作,提升了關(guān)注效率和速度。
1.3 注意力機(jī)制
注意力機(jī)制已被廣泛應(yīng)用于自然語(yǔ)言處理中,以捕捉上下文依賴信息[20]。注意力機(jī)制在語(yǔ)義分割、圖像字幕和目標(biāo)分類等計(jì)算機(jī)領(lǐng)域[21]都得到了應(yīng)用。卷積神經(jīng)網(wǎng)絡(luò)的核心構(gòu)建塊是卷積算子,它能使網(wǎng)絡(luò)通過(guò)每層的局部感受野內(nèi)融合空間和通道信息構(gòu)造信息特征。文獻(xiàn)[22]至文獻(xiàn)[24]將重點(diǎn)放在通道關(guān)系上,設(shè)計(jì)出有效的通道注意力,文獻(xiàn)[25]和文獻(xiàn)[26]將通道和空間注意相結(jié)合以取得更好的效果。但是,受限于卷積參數(shù)共享問(wèn)題,現(xiàn)有的注意力并沒(méi)有專門(mén)針對(duì)感受野的空間特征,ZHANG等[6]提出的方法很好地解決了上述問(wèn)題。
2 方法(Method)
本文提出了多視圖立體推斷方法(AGCVP-MVSNET),其網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)充分借鑒了立體匹配方法和注意力機(jī)制,利用基于由粗到精的方法構(gòu)建成本體積金字塔,實(shí)現(xiàn)深度推斷,AGCVP-MVSNET的網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
本文對(duì)多視圖圖像進(jìn)行下采樣,形成圖像金字塔,構(gòu)建了權(quán)值共享的特征提取模塊,對(duì)每一層進(jìn)行特征提取。深度推斷從最粗層(L層)開(kāi)始,使用基于方差的度量構(gòu)建成本體積,并通過(guò)三維卷積層和Softmax操作對(duì)成本體積進(jìn)行正則化,生成初始深度圖。根據(jù)初始深度圖和深度殘差假設(shè),迭代地構(gòu)建部分代價(jià)體,以獲得經(jīng)過(guò)優(yōu)化的更精確的深度圖。本文方法的關(guān)鍵在于充分利用圖像金字塔的每一層,生成注意力權(quán)重特征圖并應(yīng)用于正則化生成初始深度圖,以避免迭代估計(jì)產(chǎn)生更大誤差的深度估計(jì)。
2.1 特征提取網(wǎng)絡(luò)
目前,類似于FPN(Feature Pyramid Network)的分層特征提取方法已經(jīng)取得了不錯(cuò)的效果。這些模型通過(guò)堆疊多個(gè)卷積層,使網(wǎng)絡(luò)能夠?qū)W習(xí)到輸入數(shù)據(jù)的復(fù)雜特征。然而,不同層級(jí)的卷積特征之間存在通信不暢的限制,導(dǎo)致特征表達(dá)能力無(wú)法達(dá)到理想的效果。
本文將RFCBAM(Receptive Filed Convolutional BlockAttention Module)[6]引入特征提取模塊的中間層,專注于感受野的空間通道注意力機(jī)制。特征提取塊由8個(gè)卷積層和1個(gè)RFCBAM中間層組成,基于關(guān)注感受野的空間通道注意力特征提取塊如圖2所示。
其中,所有卷積層的核大小為3,步長(zhǎng)為1,IChannel為輸入通道,OChannel為輸出通道,中間層的特征通常包含更多的語(yǔ)義信息,將其放置在此處有助于更好地融合上下層信息,從而使特征提取網(wǎng)絡(luò)發(fā)揮更好的效果。
關(guān)注感受野空間特征的卷積運(yùn)算。目前,空間注意力機(jī)制最大的限制是不能完全解決大卷積核的參數(shù)共享問(wèn)題??臻g注意力的每個(gè)特征圖上的像素點(diǎn)會(huì)對(duì)應(yīng)乘以一個(gè)注意力權(quán)重。然而進(jìn)行這樣的卷積運(yùn)算時(shí),感受野特征重疊,導(dǎo)致注意力權(quán)重會(huì)在每個(gè)感受野特征中進(jìn)行共享,而感受野注意力(Receptive-Field Attention,RFA)解決了這個(gè)問(wèn)題,并考慮了感受野中每個(gè)特征的重要性。RFA通過(guò)和卷積操作的相互依賴提出了感受野注意卷積(RFACONV[6]),其是通過(guò)分組卷積提取感受野空間特征,計(jì)算公式如下:
3 實(shí)驗(yàn)(Experiment)
3.1 數(shù)據(jù)集
本文采用了DTU數(shù)據(jù)集和最新發(fā)布的BlendedMVS數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)驗(yàn)證。DTU數(shù)據(jù)集[28]是一個(gè)廣泛使用的3D重建基準(zhǔn)數(shù)據(jù)集,其特點(diǎn)是圖像分辨率高,富含豐富的紋理和細(xì)節(jié)。此數(shù)據(jù)集涵蓋124個(gè)場(chǎng)景,每個(gè)場(chǎng)景包含49個(gè)不同視角的拍攝,且每個(gè)視角均有7種不同亮度的圖像,每張影像的分辨率為1 600×1 200。此外,該數(shù)據(jù)集包含帶有深度圖真值的訓(xùn)練影響集,可用于訓(xùn)練神經(jīng)網(wǎng)絡(luò)。研究人員使用與現(xiàn)有研究[8-9]一樣的訓(xùn)練集和測(cè)試集劃分比例。BlendedMVS數(shù)據(jù)集[29]是一個(gè)包含超過(guò)17 000個(gè)MVS訓(xùn)練樣本的大規(guī)模合成數(shù)據(jù)集,涵蓋了113個(gè)場(chǎng)景,包括建筑、雕塑和小物體。由于沒(méi)有官方評(píng)估工具,因此研究人員對(duì)其結(jié)果進(jìn)行了比較。
3.2 訓(xùn)練
本文設(shè)計(jì)的模型是基于PyTorch 實(shí)現(xiàn)的,并在CVPMVSNET代碼的基礎(chǔ)上進(jìn)行了改進(jìn)??紤]到本網(wǎng)絡(luò)是通過(guò)由粗到精的迭代估計(jì)深度圖進(jìn)行構(gòu)建的,因此可以使用低分辨率的圖像尺寸訓(xùn)練模型,從而提高訓(xùn)練速度。
在DTU數(shù)據(jù)集上使用160×120的圖像尺寸進(jìn)行訓(xùn)練,訓(xùn)練后的權(quán)重文件在1600×1200全尺寸的測(cè)試集上進(jìn)行評(píng)估。值得注意的是,為了能夠訓(xùn)練三維卷積網(wǎng)絡(luò),要將圖像尺寸的寬度和高度設(shè)置為能被16整除的值。此外,為了使注意力權(quán)重模塊能夠更好地工作,研究人員使用5張視圖進(jìn)行訓(xùn)練,并且在評(píng)估時(shí)使用同樣的視圖數(shù)量,以保證訓(xùn)練的權(quán)重文件能夠更好地實(shí)現(xiàn)推斷,在本文“3.5小節(jié)”的消融實(shí)驗(yàn)中展示不同視圖的結(jié)果。使用ADAM(Adaptive Moment Estimation)[30]訓(xùn)練優(yōu)化模型。網(wǎng)絡(luò)在NVIDIA 2080Ti圖形卡上訓(xùn)練29輪。設(shè)置初始學(xué)習(xí)率為0.001,然后在訓(xùn)練過(guò)程中,分別在完成第10輪、第12輪、第14輪和第20輪迭代之后,將學(xué)習(xí)率減半。研究人員使用修改過(guò)的fusibile工具箱預(yù)測(cè)深度圖生成密集的點(diǎn)云[8]。對(duì)于定量評(píng)估DTU 數(shù)據(jù)集的重建效果,可以通過(guò)DTU數(shù)據(jù)集提供的官方MATLAB腳本計(jì)算精度和完整性。其中,精度(Acc.)是指深度圖中估計(jì)深度與真實(shí)深度的一致程度,Comp.是指重建模型生成的點(diǎn)云與真實(shí)的點(diǎn)云之間的完整性,取兩者均值為總體精度(OA),表示為公式(11):
3.3 DTU數(shù)據(jù)集上的結(jié)果
將本文改進(jìn)的方法與傳統(tǒng)的基于幾何的方法和基于深度學(xué)習(xí)的方法進(jìn)行比較。如表1所示,在訓(xùn)練視圖數(shù)量為5、評(píng)估視圖為4時(shí),點(diǎn)云融合的精度為0.291,這一結(jié)果在目前重建效果中排名第二低,并且達(dá)到基于深度學(xué)習(xí)方法重建的最優(yōu)水平,而總體精度為0.328,優(yōu)于大部分其他方法。與初始的CVPMVSNET相比,精度提高了1.68%,完整度提高了9.85%,總體精度提高了6.55%,上述結(jié)果表明本文改進(jìn)方法有效。
為了驗(yàn)證本文模型重建效果的優(yōu)異性,在圖4和圖5中對(duì)比了2個(gè)DTU點(diǎn)云重建結(jié)果。圖4展示了幾種方法在DTU數(shù)據(jù)集場(chǎng)景9的三維重建效果。圖4(c)和圖4(d)都展現(xiàn)出相對(duì)較好的完整性,特別是在窗戶部分,與圖4(a)對(duì)比,圖4(b)窗戶細(xì)節(jié)略顯模糊,圖4(d)更關(guān)注微小的特征和紋理。
圖5展示了幾種方法在DTU數(shù)據(jù)集場(chǎng)景49的三維重建效果。與圖5(c)和圖5(d)都展現(xiàn)出相對(duì)較好的完整性,特別是在放大的拉鏈和衣領(lǐng)部分,圖5(d)更加平滑和清晰。
圖6(b)和圖6(c)展示了在DTU數(shù)據(jù)集的場(chǎng)景49、33及15(順序從上到下)的部分視角的深度圖對(duì)比。如圖6(c)所示,與圖6(b)相比,重建結(jié)果在邊緣區(qū)域的清晰度和平滑度有所提高,如圖6(c)中第一行的嘴巴、第二行兔子的尾巴部分及第三行城堡房頂?shù)拇皯糨喞?,有更加高的清晰度和平滑度?/p>
3.4BlendedMVS上的結(jié)果
本文繼續(xù)在BlendedMVS數(shù)據(jù)集評(píng)估本文方法的泛化能力。由于BlendedMVS數(shù)據(jù)集不包含官方提供的3D重建結(jié)果,因此只展示一些定性結(jié)果。本文使用DTU數(shù)據(jù)集上的訓(xùn)練視圖為5的訓(xùn)練權(quán)重,依舊采用修改過(guò)的fusibile工具箱生成密集的點(diǎn)云及點(diǎn)云融合,在BlendedMVS官方2 048×1 536數(shù)據(jù)集上重設(shè)分辨率為1600×1184進(jìn)行評(píng)估。圖7展示了部分場(chǎng)景的重建結(jié)果,其中圖7(a)是多視圖圖像某個(gè)視角的原圖。不難看出,本文方法的訓(xùn)練權(quán)重不做任何更改,但在視角不固定的BlendedMVS數(shù)據(jù)集上依舊有較好的效果。
3.5 消融實(shí)驗(yàn)
對(duì)比注意力層放在特征提取網(wǎng)絡(luò)中間層和最后一層的結(jié)果(表2)。保持和CVPMVSNET相同的訓(xùn)練參數(shù),使用5張視圖進(jìn)行訓(xùn)練,結(jié)果顯示RFCBAM 放在中間層時(shí),Acc.、Comp.、OA值更低,對(duì)比放在最后一層時(shí),準(zhǔn)確度提高了3%,完整度提高了1.08%,總體精度提高了2.08%。上述結(jié)果表明注意力層在中間位置更有效。
表3在DTU數(shù)據(jù)集上對(duì)比分析了對(duì)CVPMVSNET在訓(xùn)練視圖為2、評(píng)估視圖為4時(shí)添加不同模塊的指標(biāo)對(duì)比結(jié)果。對(duì)比CVPMVSNET,只用注意力層替換特征提取中間層,準(zhǔn)確度提高了2.3%,表明注意力層能更好地與地面真值點(diǎn)云的吻合。不添加注意力層,僅在圖3兩邊GCE模塊分別輸入?yún)⒖家暯荝和注意力加權(quán)特征圖AWM,準(zhǔn)確度提高了0.3%,完整性提高了8.2%,表明本文提出的加權(quán)特征圖能更好地包含地面真實(shí)場(chǎng)景的信息。同時(shí),使用RFCBAM32和R-AWM 的總體精度最低為0.335,比CVPMVSNET提高了4.56%。
此外,表4用表3中性能表現(xiàn)最好的方法,驗(yàn)證不同的訓(xùn)練視圖(NSRC-T)和評(píng)估視圖(NSRC-E)對(duì)DTU結(jié)果的影響,研究人員發(fā)現(xiàn)評(píng)估視圖并不是越多越好。在訓(xùn)練和評(píng)估視圖都為6的情況下,雖然準(zhǔn)確度降到了0.284(目前最低為0.283),但是完整度升高導(dǎo)致總體精度下降,而在訓(xùn)練視圖為5、評(píng)估視圖為4時(shí),結(jié)果最好。
4 結(jié)論(Conclusion)
針對(duì)MVS初始構(gòu)建成本體積存在深度估計(jì)誤差大的問(wèn)題,本文提出了基于感受野的特征提取和注意力權(quán)重特征圖匹配代價(jià)激勵(lì)成本體積的方法。該方法改進(jìn)了CVPMVSNET,在特征提取階段能夠充分提取像素之間的上下文信息,并且通過(guò)在粗層次使用注意力權(quán)重特征圖對(duì)成本體積進(jìn)行激勵(lì),避免了早期深度誤差過(guò)大并迭代到更細(xì)的層次。在兩個(gè)具有挑戰(zhàn)性的基準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,本文方法取得了良好的性能,并優(yōu)于一些先進(jìn)的方法,特別是與CVPMVSNET相比,重建的場(chǎng)景邊緣深度更平滑,細(xì)節(jié)更豐富。未來(lái),研究人員將進(jìn)一步完善網(wǎng)絡(luò)結(jié)構(gòu)和激勵(lì)成本體積方法,以降低內(nèi)存需求,并提升對(duì)不同的應(yīng)用程序的適應(yīng)性。
作者簡(jiǎn)介:
郭曉棟(1998-),男,碩士生。研究領(lǐng)域:深度學(xué)習(xí),計(jì)算機(jī)視覺(jué)。
賀平安(1969-),男,博士,教授。研究領(lǐng)域:數(shù)學(xué)模型,機(jī)器學(xué)習(xí)。
代 琦(1979-),男,博士,教授。研究領(lǐng)域:機(jī)器學(xué)習(xí),圖像處理,功能基因組分析。本文通信作者。