張 昊 官 愷 金 飛
(1.中國人民解放軍戰(zhàn)略支援部隊信息工程大學(xué),河南 鄭州 450000;2.西安測繪總站,陜西 西安 710000)
當前,通過光學(xué)圖像密集匹配構(gòu)建視差圖是獲得距離信息的主要方式[1],與傳統(tǒng)方法相比,以深度學(xué)習為代表的基于數(shù)據(jù)驅(qū)動的方法在特征自動提取上具有無可比擬的優(yōu)勢。隨著計算機硬件的發(fā)展和深度學(xué)習理論技術(shù)的完善,基于數(shù)據(jù)驅(qū)動的方法在密集匹配領(lǐng)域取得了一定成就。在經(jīng)典的深度學(xué)習圖像處理中,通常采用卷積方式提取圖像特征。卷積核具有一定尺寸,稱為感受野。卷積核尺寸通常采用3像素×3像素,因此所提取的特征也在3像素×3像素范圍內(nèi)。但圖像不是在每個區(qū)域都有顏色的變化,且通常存在重復(fù)紋理、弱紋理以及無紋理的區(qū)域,直接進行卷積無法有效提取特征,易導(dǎo)致誤匹配。針對上述問題,設(shè)計深度學(xué)習網(wǎng)絡(luò)結(jié)構(gòu)時,應(yīng)針對每個像素選擇最佳尺度,既能對抗弱紋理、無紋理和重復(fù)紋理,也能夠避免多尺度求平均的問題。
本文設(shè)計了一種視野自選擇的密集匹配網(wǎng)絡(luò)結(jié)構(gòu),簡稱視野自選擇網(wǎng)絡(luò)(AFSNet),特征提取部分采用PSMNet網(wǎng)絡(luò)對應(yīng)部分,視差計算過程采用不同擴張率的多尺度網(wǎng)絡(luò),對每個像素進行尺度選擇,最后進行視差軟回歸[2],形成視差圖。
網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示。
圖1 自適應(yīng)視野網(wǎng)絡(luò)結(jié)構(gòu)
由于密集匹配任務(wù)的特殊性,以SPP和ASPP為代表的多尺度疊加可能會造成不同尺度之間的相互干擾,但可以通過多個不同擴張率視野分別進行匹配,選擇每個像素最佳尺寸。本文每個支路擴張率選取分為1、2、3進行實驗。
偏移損失可用于判斷合適的擴張率。偏移損失具體定義為視差范圍內(nèi)每個整數(shù)點位與回歸視差值差的絕對值乘以該位置概率值結(jié)果的求和。對于每個像素而言,偏移損失越大,說明概率分布越分散,匹配效果越差,可能存在多個歧義點。
通過視差軟回歸函數(shù)計算像素點的視差回歸值dmax;以視差回歸值為基準,計算每個像素的偏移值的絕對值|d-dmax|;求偏移絕對值與概率乘積的和。
根據(jù)定義和計算步驟,任意像素偏移損失的計算過程為:
式中:maxdisp——最大匹配視差;d——當前視差值,0~maxdisp;i、j——圖像行列坐標;k——不同擴張率的通道。
式中:Fsoftargmax——視差軟回歸,計算最佳視差回歸值。
明確了多支路選擇標準后,可以采用帶溫度的softmax函數(shù),若xk為輸入張量x的第k個支路置信度測度,已選擇合適的擴張率,其對應(yīng)的概率為:
式中:Npath——支路的數(shù)量;c——支路置信度測度;T——溫度項,溫度越小,概率分布越趨近于代價c中的最大值,溫度越大,概率分布越平滑。
在通道選擇方面,本文設(shè)計了一種類似“注意力”模塊的網(wǎng)絡(luò),稱為視野置信度網(wǎng)絡(luò)。其以偏移損失作為輸入,通過一個三層置信網(wǎng)絡(luò),最終輸出偏移代價。
視野置信度網(wǎng)絡(luò)如圖2所示。
圖2 視野置信度網(wǎng)絡(luò)
三層網(wǎng)絡(luò)均采用1×1的卷積核,針對偏移損失進行微調(diào),使其分布與網(wǎng)絡(luò)學(xué)習到的視野權(quán)重分布相符合,最終選擇出最適合的視野。
多支路訓(xùn)練模式總損失函數(shù)定義為:
式中:Np——參與計算的支路數(shù)量;Lselect——最終生成的視差圖和標簽數(shù)據(jù)之間的光滑L1損失;Li——第i個支路匹配的結(jié)果標簽數(shù)據(jù)之間的光滑L1損失。
Lselect和Li的定義:
式中:D——最終的預(yù)測視差圖;DTrue——視差標簽真值。
式中:Di——第i個通道的預(yù)測視差圖。
為消除隨機因素可能引起的誤差,實驗在多個數(shù)據(jù)集上進行測試。
其中SceneFlow用于生成遷移學(xué)習所需的預(yù)訓(xùn)練模型;KITTI[3-4]兩個數(shù)據(jù)集為近景駕駛場景數(shù)據(jù)集;Vaihingen[5]為遙感數(shù)據(jù)集。實驗計算機CPU 為XEON E5-2680,顯卡為GTX TITAN X 12G;在Windows10操作系統(tǒng)下進行,基于Pytorch深度學(xué)習框架實現(xiàn)。優(yōu)化器采用Adam,β1和β2分別設(shè)置為0.900和0.999。
為驗證AFSNet的有效性,使用該網(wǎng)絡(luò)在多個數(shù)據(jù)集上與DispNet、PSMNet進行了對比。
首先在SceneFlow數(shù)據(jù)集上進行10輪的預(yù)訓(xùn)練,然后綜合考慮數(shù)據(jù)集規(guī)模和網(wǎng)絡(luò)收斂速度設(shè)置微調(diào)的訓(xùn)練輪數(shù)。DispNet在KITTI的兩個數(shù)據(jù)集上微調(diào)2 000 輪,Vaihingen 數(shù) 據(jù) 集400 輪;而PSMNetB、PSMNetS和AFSNet三個網(wǎng)絡(luò)為專用密集匹配網(wǎng)絡(luò),在KITTI數(shù)據(jù)集上進行500輪微調(diào),Vaihingen數(shù)據(jù)集上100輪微調(diào)。
評價指標采用絕對終點誤差(EPE)和3像素誤差(3PE),兩個指標能夠從不同角度反映匹配誤差。EPE能夠反映匹配的整體精度,3PE關(guān)注誤差超過3像素的點占總數(shù)百分比。
為驗證提出的AFSNet的有效性,在除Scene Flow之外的三個數(shù)據(jù)集上進行了驗證實驗。首先在Scene Flow進行10輪的預(yù)訓(xùn)練,然后綜合考慮數(shù)據(jù)集規(guī)模和網(wǎng)絡(luò)收斂速度設(shè)置微調(diào)論數(shù),微調(diào)數(shù)與實驗保持一致。
精度從低到高依次是DispNet、PSMNetB、PSMNetS以及AFSNet。將實驗生成的視差圖進行比對,可以發(fā)現(xiàn)AFSNet誤差圖的實驗效果最好,視差非連續(xù)邊緣的匹配誤差得到了明顯改善。EPE和3PE均比其他方法有較大幅度下降。
為進一步驗證各支路的以及選擇器的有效性,在SceneFlow上進行了各支路的消融實驗。訓(xùn)練過程中各個子網(wǎng)收斂速度相似,但由于擴張率的不同,在收斂過程中的EPE指標各異。
自適應(yīng)視野網(wǎng)絡(luò)效果對比如表1所示。
表1 自適應(yīng)視野網(wǎng)絡(luò)效果對比
各支路消融實驗結(jié)果如表2所示。
最終的實驗結(jié)果驗證了各支路疊加的有效性,擴展率為1、2、3的支路在疊加后精度得到了提升,從側(cè)面印證了偏移損失和置信網(wǎng)絡(luò)能夠有效選擇出最佳視野。將合成結(jié)果以及各支路結(jié)果進行可視化,結(jié)果如圖3所示。
圖3 各支路可視化結(jié)果
從可視化結(jié)果能夠看出,隨著擴張率增加,匹配視差圖出現(xiàn)網(wǎng)格狀,導(dǎo)致匹配精度降低,不同擴張率在不同區(qū)域效果不一。擴張率小,整個視差圖紋理精細,但對于光照區(qū)域的弱紋理、無紋理區(qū)域則難以準確匹配。最終合成的視差圖精度優(yōu)于多個支路單獨匹配的效果。
本文針對視差不連續(xù)邊緣匹配過程多尺度信息相互干擾的問題,設(shè)計了一種視野自選擇的密集匹配網(wǎng)絡(luò)AFSNet,該網(wǎng)絡(luò)利用偏移損失和置信網(wǎng)絡(luò)作為選擇依據(jù),從多支路預(yù)測網(wǎng)絡(luò)選擇最佳視野,并進行了實驗驗證。AFSNet能夠有效減少視差非連續(xù)邊緣的誤差,進一步提升網(wǎng)絡(luò)匹配的精度;偏移損失和置信網(wǎng)絡(luò)作為選擇依據(jù)能夠有效選擇最佳尺度,實現(xiàn)合并后的視差圖精度優(yōu)于任意支路視差圖精度;在參與測試的網(wǎng)絡(luò)中,AFSNet模型泛化性整體優(yōu)于其他參與測試的網(wǎng)絡(luò)。