国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進的多尺度引導聚合立體匹配網絡研究

2021-11-08 09:01唐家輝
浙江科技學院學報 2021年5期
關鍵詞:視差代價卷積

唐家輝,趙 蕓,徐 興

(浙江科技學院 a.信息與電子工程學院;b.機械與能源工程學院,杭州 310023)

在過去的幾十年中,雙目立體匹配廣泛應用于無人機[1]、自動駕駛[2]和醫(yī)療成像[3]等三維領域,尤其在對三維成像獲取物體的深度有著極高精確度要求的醫(yī)療與自動駕駛領域。雙目立體匹配的原理是通過模擬人眼的視覺感知,采用兩個在同一水平線上的傳感器獲取相同場景的圖像,通過兩張圖片對應同一個像素之間的位置差與相機本身參數之間的關系重建三維場景信息。傳統(tǒng)的立體匹配流程通常包括四個步驟:代價計算、代價聚合、視差估計及視差細化[4-5],但其無法在反射、無紋理、昏暗及物體細小的情況下優(yōu)化視差圖的邊緣結構以生成精確的視差圖。

近些年來,隨著深度學習和神經網絡的發(fā)展,傳統(tǒng)的立體匹配方法逐漸發(fā)展為端到端的深度學習立體匹配方法。早期研究者如?bontar等[6]采用了孿生卷積神經網絡來對代價計算進行改進,可以高效地形成代價空間,但是在代價聚合與視差細化中仍采取了傳統(tǒng)的方法。直到Zhang等[7]提出的引導聚合網絡(guided aggregation network,GANet),才使傳統(tǒng)的半全局立體匹配算法(semi-global matching,SGM)具有可微性,構建了端到端的立體匹配神經網絡,才最終實現(xiàn)了端到端的深度學習立體匹配網絡。Guo等[8]通過增加對低分辨率和不連續(xù)深度的超分辨率感知,提出了可學習的高效立體匹配網絡(efficient stereo matching network,ESMNet)。Zhang等[9]提出的領域不變的立體匹配網絡(domain-invariant stereo matching networks,DSMNet)包含兩個可以提高網絡魯棒性的網絡層。為了克服當前無法從真實世界中大量獲取立體匹配數據集的缺點,Mayer等[10]提出了全新的大型虛擬合成數據集場景流,可以有效地提升微調時網絡的穩(wěn)定性。Zou等[11]提出了一種通過對視頻序列中的場景深度及場景切換的差異進行視差估計的無監(jiān)督的網絡,以獲取更穩(wěn)定的視差結果?,F(xiàn)階段,大部分研究都采用不同的特征提取方法來獲取精確的代價空間以進行代價聚合。Duggal等[12]采用可微塊匹配(patchmatch)[13]對局部有效區(qū)域進行代價計算來提升視差圖的生成速度。Guo等[14]提出了分組相關的立體匹配網絡(group-wise correlation stereo network,GWC-Net),通過將左右特征圖分成多個相關的特征組進行相互映射,再打包各組之間的關系圖進行代價聚合。自從Kendall等[15]提出幾何上下文信息網絡(geometry and context network,GC-Net)后,人們在改進代價聚合三維卷積的過程中提出了更多的方法。Liu等[16]提出了新的代價計算方法并采用了自適應的形狀引導濾波器進行代價聚合以降低大面積無紋理區(qū)域的匹配錯誤率。Chang等[17]提出的金字塔立體匹配網絡(pyramid stereo matching network,PSMNet)采用了空間金字塔池化(spatial pyramid pooling,SPP)[18]進行特征提取,并且在代價聚合過程中采用三維的堆疊沙漏,有效地提高了生成視差圖的整體精度。但是,沙漏堆疊網絡中多次上采樣與下采樣的操作會造成代價空間中包含的原圖像輪廓信息丟失。

在上述研究的基礎上,我們提出了一種多尺度引導聚合網絡(multi-scale guided aggregation network,MSGANet),在特征提取階段采用了4個大小不同的空間金字塔池化層用以消除卷積層固定大小的約束,形成代價空間,在代價聚合過程中加入了半全局聚合層,可以在代價空間的四個方向上聚合最佳代價,以減少三維卷積層在上下采樣過程中帶來的三維信息的損失。為了進一步提升網絡的性能,還采用了L2損失函數進行預訓練,獲取更加收斂的初始值參數進行微調,以提升視差圖的精度。

1 數據集與試驗設備

1.1 數據集

本研究使用了卡爾斯魯厄和豐田技術研究所(Karlsruhe Institute of Technology and Toyota Technological Institute,KITTI)提供的數據集來訓練MSGANet。大型合成數據集場景流廣泛用于對真實數據集進行微調之前,可以有效地解決因數據集過小而導致的泛化性差問題。場景流數據集由開源的三維建模軟件Blender獲取,它采用單個雙目虛擬成像傳感器以左右兩個視角拍攝圖像來獲取動態(tài)場景的深度信息。該數據集采用的虛擬傳感器尺寸為高32.0 mm、寬18.0 mm,以35.0 mm的焦距獲取分辨率為540×960像素的圖像。數據集還區(qū)分為純凈版本和最終版本,純凈版本包含發(fā)光和陰影的特殊場景,最終版本包含動態(tài)模糊和散焦模糊的場景。數據集共包含40 024對視圖,由26 760對包含懸浮物體場景的FlyingTing3D,8 864對包含靜態(tài)立體卡通猴子場景的Monkaa,以及4 400對包含合成立體交通場景的Driving 3個子數據集組成。KITTI數據集是一個包含真實世界道路場景的立體匹配數據集。該數據集由安裝在車輛中的2只彩色攝像機和2只灰度攝像機PointGray Flea2(頻率為10 Hz,分辨率為1 392×512像素,開度角為90°×35°)來獲取道路場景的立體視頻,并采用三維激光傳感器Velodyne HDL(頻率為10 Hz,64個激光束,范圍為100 m)來獲取稀疏度為50%的真實光流與視差值。KITTI 2012數據集于2012年提出,在2015年擴展成為KITTI 2015,它采用不同的評價指標對特定的測試集進行在線視差圖評估。與其他數據集相比,KITTI數據集中包含鄉(xiāng)村、城市及高速公路等真實場景,數據集涵蓋了遮擋、不連續(xù)、反射、重復紋理和無紋理等場景,以供各種立體匹配網絡進行全面評估。

1.2 設 備

本試驗使用的測試平臺設置如下:處理器為Intel(R) Core(TM) i7-9700,處理器主頻為3.0 GHz,內存為32 GB,顯卡為11 GB Nvidia GTX 2080Ti,操作系統(tǒng)為Win10;相關的支持軟件有Anaconda、Python3.6、Cuda10.0、Pytorch1.3.0和GCC5.3等。訓練時,所有的模型都采用了Adam優(yōu)化器,以β1=0.9,β2=0.999的參數進行優(yōu)化,并且首先在場景流數據集中進行10個周期的預訓練,然后在KITTI數據集中預訓練300個周期和微調50個周期。考慮到Nvidia GTX 2080Ti僅有11 GB的顯示內存,試驗中僅將batchsize的參數設置為2,這樣在損失值平穩(wěn)下降的過程中可以保證具有足夠的顯示內存進行訓練。

2 立體匹配網絡

2.1 多尺度引導聚合網絡結構

多尺度引導聚合網絡(MSGANet)由金字塔池化網絡和沙漏堆疊網絡組成。輸入的樣本圖像首先經過含有多層卷積和殘差模塊的二維特征提取網絡,獲取更大的感受野后采用4個不同尺寸的卷積核進行空間金字塔池化以消除卷積神經網絡對尺寸的約束。對提取特征后的左右視圖進行差異計算以生成用于代價聚合的四維代價空間。MSGANet用權重相乘的方式來替代權重累加,使半全局立體匹能加入整個神經網絡進行回歸訓練。MSGANet在代價聚合的過程中在卷積與反卷積步驟中摻雜了多個SGA層,SGA層在4個方向上對代價進行評估以優(yōu)化生成視差圖的邊緣部分,提高計算效率。雖然代價聚合過程中SGA能更準確地定位場景中物體的邊緣,但由于網絡中多次上下采樣,不可避免地造成部分信息的損失。為了進一步解決這個問題,我們采用了具有3個引導濾波器的LGA層,將濾波數組與代價空間進行加權求和來重新定義最后獲得的視差圖邊緣。在整個網絡中,原本需要用戶自定義的超參數都被自適應權重所替代,這些參數由二維引導子網絡與整個立體匹配網絡一起訓練生成;子網絡中以原本的RGB圖像作為輸入,訓練過程中對每個需要的參數進行歸一化并將其重塑為SGA層與LGA層需要的權重再輸入下一個訓練周期;最后,采用softmax得到概率乘上對應的視差以獲得最后的真實視差,生成精確的視差圖。進行回歸訓練時,對預訓練與微調過程都采用了平滑的L1損失函數,來評估生成視差與真實視差之間的差距,持續(xù)進行迭代,直至獲取最準確的視差圖。MSGANet結構如圖1所示。

圖1 多尺度代價聚合網絡的結構Fig.1 Architecture overview of MSGANet

2.2 多尺度引導聚合網絡損失策略的改進措施

為了提高MSGANet在微調時獲取模型的效果,本研究提出了一種改進的損失函數計算策略。現(xiàn)階段的立體匹配方法,在整個訓練過程中采用平滑的L1損失函數對預測值與真實值進行差距評估。由圖2可知,在預訓練過程中預測值與真實值之間的差距越大所對應的L2損失函數的梯度比平滑的L1損失函數就越大,因此L2損失函數具有更快的收斂性。在該過程中L2損失函數采用平方項增大了預測值與真實值之間的差距,容易造成梯度爆炸。但是考慮到立體匹配預訓練的任務的目的是獲取足夠收斂的初始模型參數,并且所采用的大型場景流數據集中的大量樣本可以提高訓練中損失值的穩(wěn)定性。結合以上原因,在預訓練過程中所采用L2損失函數可以獲取更快的收斂速度,并沒有梯度爆炸的風險。在圖2中紅圈所示的微調過程中,平滑的L1損失函數相比于L2損失函數具有更小的梯度,能更好地克服微調時離群值對損失值的影響。因此本試驗在預訓練時采用L2損失函數,在微調過程時再改為平滑的L1損失函數進行計算。改進的損失計算策略如式(1)所示。

圖2 平滑的L1損失函數與L2損失函數示意圖Fig.2 Diagram of smooth L1 loss and L2 loss function

(1)

2.3 評價指標

MSGANet模型在KITTI數據集上采用如式(2)所示的端點誤差(endpoint-error,EPE)進行性能評估,以獲取整體的像素平均錯誤率。

(2)

3 試驗結果及討論

3.1 MSGANet訓練模型的評估結果

為了證明我們的改進是有效的,將我們提出的網絡與同樣采用了空間金字塔池化模塊但沒有采用SGA與LGA的PSMNet網絡進行對比試驗。兩個對比的網絡在場景流數據集上進行預訓練時,圖像會隨機剪裁為高240像素和寬512像素的尺寸以達到圖像增強的目的,視差搜索的最大值Dmax設置為192像素。KITTI數據集僅具有200對訓練集與200對測試集,如果直接用于訓練容易出現(xiàn)過擬合現(xiàn)象導致模型的泛化性差。因此,我們將大型數據集場景流劃分為35 454對訓練集、1 000對驗證集和3 570對測試集進行0.01的學習率的10個周期預訓練。KITTI數據集我們采用0.01的學習率訓練了300個周期再以0.001的學習率訓練50個周期,以確保訓練后的模型可以獲取最小的損失值。將PSMNet與MSGANet生成的視差圖結果上傳至KITTI官方網站進行KITTI 2012與KITTI 2015指標的評估對比,結果見表1。由表可知,在代價聚合中增加了半全局引導聚合層與局部引導聚合層的MSGANet的精度后,要比原本采用三維堆疊沙漏卷積的PSMNet在KITTI2012以3像素為閾值的所有測評結果提高0.18%,在KITTI2015的所有區(qū)域整體評估中增加了0.32%的準確率。這表明半全局引導聚合層與局部引導聚合層通過考慮當前像素周圍的代價與最后的濾波操作,解決了三維堆疊沙漏網絡上下采樣帶來的精度損失問題。與表1對應的可視化對比結果如圖3所示,在可視化對比的3組中,挑選出了場景中包含細小物體、無紋理區(qū)域及背光區(qū)域的場景做對比。由圖3(b)可知,PSMNet無法保證在這些場景中物體的完整性,產生了大量的誤匹配點;由圖3(c)可知,MSGANet由于在訓練過程中充分考慮了全局信息,因此可以克服場景中包含物體不完整的缺點。

表1 PSMNet和MSGANet在KITTI 2012與KITTI 2015上的測評結果Table 1 Evaluation results of PSMNet and MSGANet on KITTI 2012 and KITTI 2015

圖3 KITTI數據集采用PSMNet與MSGANet獲取的可視化結果Fig.3 Visual comparison of PSMNet and MSGANet on KITTI dataset

3.2 改進損失函數后的結果

本試驗將改進損失函數的多尺度引導聚合網絡(multi-scale guided aggregation network changed,MSGANet-C)與MC-CNN-art、ESMNet、GC-Net、DFNet、DSMNet、DispletC、PSMNet、Deeppruner及GWC-Net等網絡進行了比較。圖4為MSGANet-C與在PSMNet、Deeppruner及GWC-Net的可視化對比。從圖4中的第1列中具有反射區(qū)域場景的對比結果中可以看出,大部分深度學習立體匹配依然會產生很多的誤匹配點,這是由于在反光區(qū)域中沒有明顯的特征可以用來提取,因此在代價聚合期間會導致視差圖在這部分產生很多的噪聲點。為了解決這類問題,采用多尺度空間金字塔池化層,能有效利用不同尺度的上下文信息使獲取的特征圖更具魯棒性。在圖4的第二列包含細小物體和第三列具有背光物體的場景中,由于很難將前景物體與背景物體區(qū)分開,很容易導致生成的視差不連續(xù),因此在特征提取之后,我們采用的SGA在代價聚合過程中考慮了多個方向上的代價,可以有效地抑制離群值在其他方向對代價計算的干擾以獲取更為清晰的視差圖中物體的輪廓。

圖4 4種網絡結構在KITTI數據集上的可視化對比結果Fig.4 Visual comparison of four networks of KITTI dataset

表2為MSGANet-C與9種網絡對KITTI 2012與KITTI 2015的評估結果。MSGANet-C在以3像素為閾值的KITTI 2012數據集與所有區(qū)域進行整體評估的KITTI 2015數據集中,比首次采用三維卷積的端到端網絡GC-Net精度要高0.61%與0.82%。并且在KITTI 2015的評估結果中,MSGANet-C對背景中的評估結果與近些年來提出的DFNet、DSMNet、GWC-Net的結果相似,但是對前景的深度估計比這3種網絡有更大的優(yōu)勢,因此整體評估精度分別比這3種網絡高0.10%、0.09%與0.16%。這是因為采用了半全局聚合層考慮了多個方向的代價,可以更好地區(qū)分前景的目標邊緣,從而有效地改善前景的精確度。

表2 MSGANet-C與9種網絡對KITTI 2012與KITTI 2015的評估結果Table 2 MSGANet-C evaluation results with 9 types of networks on KITTI 2012 and KITTI 2015

4 結 語

為了立體匹配能在雙目成像領域獲取更好的視差效果,我們提出了一種視差生成網絡MSGANet。該網絡采用多尺度空間“金字塔”池化進行特征提取,生成四維代價空間,并用半全局聚合層(SGA)和局部引導聚合(LGA)進行代價聚合。為了證實我們的改進是有效的,我們在大型合成數據集場景流數據集上進行預訓練,并在KITTI 2012和KITTI 2015上進行微調。試驗結果表明,MSGANet-C將KITTI 2012的準確性提升至98.31%,KITTI 2015準確性提升至97.95%。在未來的研究工作中,我們將側重于提升網絡的運行速度,在檢測場景中車輛的同時獲取物體與車輛間的距離,以適應復雜的道路狀況。

猜你喜歡
視差代價卷積
基于全卷積神經網絡的豬背膘厚快速準確測定
基于歸一化互相關的半透明遮擋視差估計
基于自適應窗的立體相機視差圖優(yōu)化方法研究
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
一種并行不對稱空洞卷積模塊①
視差邊緣優(yōu)化的SGM 密集深度估計算法?
愛的代價
幸災樂禍的代價
代價
黄平县| 开封县| 泰来县| 大埔区| 寻乌县| 锦州市| 大田县| 疏勒县| 尼玛县| 日照市| 尉犁县| 连云港市| 长治县| 洪雅县| 建水县| 桑日县| 平凉市| 延寿县| 灯塔市| 舟山市| 临朐县| 平和县| 吴桥县| 和田县| 新蔡县| 罗山县| 尼勒克县| 十堰市| 西城区| 象州县| 沙河市| 仁布县| 闻喜县| 广东省| 中宁县| 万荣县| 河南省| 深圳市| 玉溪市| 剑阁县| 日照市|