尹晨陽,職恒輝,李慧斌
(西安交通大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,西安 710049)
雙目立體視覺是機器視覺的一種重要形式,其基于視差原理來獲取被測物體的三維幾何信息,在自動駕駛[1]、機器人[2]、工業(yè)檢測[3]、遙感[4]以及三維重建[5]等諸多方面得到廣泛應(yīng)用,是計算機視覺領(lǐng)域的研究熱點之一。立體匹配作為雙目立體視覺的關(guān)鍵步驟[6],其匹配精度和匹配效率直接影響整個雙目立體視覺系統(tǒng)的性能。
立體匹配是指從圖像對中尋找具有同名特征的像素間對應(yīng)關(guān)系的過程,通常可分為稀疏匹配和稠密匹配,本文主要關(guān)注稠密匹配。傳統(tǒng)立體匹配方法通常包含匹配代價計算、代價聚合、視差計算和視差優(yōu)化4 個步驟(或其中部分步驟的組合)[7]。傳統(tǒng)立體匹配方法依據(jù)是否含有代價聚合步驟可分為局部匹配方法[8-9]、全局匹配方法[10-11]以及介于兩者之間的半全局匹配方法[12-13]。
局部匹配方法也稱為基于滑動窗口的匹配方法,通常包含立體匹配方法中的所有步驟。在代價計算步驟中,局部匹配方法采用像素灰度差絕對值A(chǔ)D(Absolute intensity Differences)、CT(Census Transform)[14]和歸一化互相關(guān)(Normalized Cross-Correlation,NCC)[15]等度量函數(shù)計算匹配代價。在代價聚合步驟中,局部匹配方法采用的具體方法通常是:對于左右視圖中的2 個像素,分別以這2 個像素為中心取相同大小的窗口(稱為聚合窗口),逐個計算2 個窗口內(nèi)同位置的像素之間的匹配代價并將其累加作為最終的聚合匹配代價。對于視差計算步驟,局部匹配方法常采用贏家通吃算法(Winner Takes All,WTA)直接進行視差搜索。對于視差優(yōu)化步驟,一般采用左右一致性檢查(Left-Right Check)算法剔除錯誤視差,并用中值濾波或雙邊濾波等平滑算法對初始視差圖進行平滑,從而提高視差精度。
與局部匹配方法不同,全局匹配方法不包含代價聚合步驟,其認為視差圖在全局范圍內(nèi)是平滑的,對于相鄰像素視差值相差較大的情況需要加以懲罰,據(jù)此構(gòu)造全局能量函數(shù)來代替局部匹配方法中的代價聚合步驟。在全局匹配方法中,整個圖像的所有像素同時進行視差值求解,其能量函數(shù)通常包含數(shù)據(jù)約束項和平滑約束項。
半全局立體匹配方法(Semi-Global Matching,SGM)[12]也采用最小化能量函數(shù)的思想,但與全局匹配方法不同,SGM 將二維圖像的優(yōu)化問題轉(zhuǎn)化為多條路徑的一維優(yōu)化(即掃描線優(yōu)化)問題,聚合來自多個方向的路徑代價,并利用WTA 算法計算視差,在匹配精度和計算開銷之間取得了較好的平衡。
近年來,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,傳統(tǒng)立體匹配方法中的代價計算、代價聚合、視差計算和視差優(yōu)化等步驟均可被整合至深度神經(jīng)網(wǎng)絡(luò)框架中,并表現(xiàn)出了更優(yōu)的性能。立體匹配技術(shù)的研究趨勢逐漸從傳統(tǒng)方法轉(zhuǎn)向深度學(xué)習(xí)方法,并產(chǎn)生了一系列頗具代表性的研究成果。通常可將基于深度學(xué)習(xí)的立體匹配方法分為非端到端和端到端兩類,其中,非端到端方法的共同特點是嘗試利用深度神經(jīng)網(wǎng)絡(luò)取代傳統(tǒng)立體匹配方法中的某一步驟,而端到端方法則以左右視圖作為輸入,直接輸出視差圖,利用深度神經(jīng)網(wǎng)絡(luò)直接學(xué)習(xí)原始數(shù)據(jù)到期望輸出的映射。本文總結(jié)近年來所出現(xiàn)的基于深度學(xué)習(xí)的立體匹配方法,將其歸納為非端到端立體匹配方法和端到端立體匹配方法,對不同類方法的性能和特點進行比較與分析,歸納立體匹配方法當(dāng)前所面臨的挑戰(zhàn),并展望該領(lǐng)域未來的發(fā)展方向。
早期基于深度學(xué)習(xí)的立體匹配方法較關(guān)注對傳統(tǒng)匹配方法4 個步驟中的某一個或某幾個單獨進行設(shè)計優(yōu)化。對于代價計算,非端到端立體匹配方法采用學(xué)習(xí)的特征替換手工設(shè)計的特征,然后使用相似性度量(如L1損失函數(shù)、L2損失函數(shù),或通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的度量函數(shù))得到代價體。對于代價聚合,非端到端方法通常采用學(xué)習(xí)的方式優(yōu)化SGM[12]代價聚合步驟中人工設(shè)計的懲罰項,從而提升聚合效果。對于視差優(yōu)化,基于深度學(xué)習(xí)的非端到端方法一般采用多階段策略或引入殘差信息來優(yōu)化視差計算步驟得到的初始視差圖。本文將分別從以上3 個角度介紹基于深度學(xué)習(xí)的非端到端立體匹配方法。
尋找可靠且穩(wěn)健的代價計算函數(shù)是保證匹配正確率的首要步驟,因此,對于匹配代價計算步驟,基于深度學(xué)習(xí)的非端到端方法試圖通過設(shè)計不同結(jié)構(gòu)的卷積網(wǎng)絡(luò)來學(xué)習(xí)更有效的特征和度量函數(shù),將其用于代價計算從而提高立體匹配方法的精度。
文獻[16]提出的MC-CNN 首次嘗試將深度學(xué)習(xí)引入立體匹配任務(wù)??紤]到人工設(shè)計的代價函數(shù)魯棒性不高,在反光、弱紋理等病態(tài)區(qū)域表現(xiàn)不佳,該文設(shè)計MC-CNN-acrt和MC-CNN-fst這2種網(wǎng)絡(luò)結(jié)構(gòu),如圖1所示,主要思想是通過深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像塊特征的相似性度量。在MC-CNN 網(wǎng)絡(luò)的訓(xùn)練過程中,該文構(gòu)建一個二分類數(shù)據(jù)集(相似的圖像塊對和不相似的圖像塊對),以有監(jiān)督的方式進行訓(xùn)練。在MC-CNNacrt框架中,利用孿生網(wǎng)絡(luò)(Siamese Network)對圖像塊進行特征提取,然后經(jīng)過數(shù)個全連接層來計算輸入的2 張圖像塊中心像素的相似性分數(shù),以網(wǎng)絡(luò)學(xué)習(xí)的隱式度量代替手工設(shè)計的顯式度量函數(shù)。MC-CNN-fst 架構(gòu)則采用顯式的相似性度量(以向量內(nèi)積取代MC-CNNacrt的全連接層),從而降低時間成本,但是其匹配精度略有下降。
圖1 MC-CNN 網(wǎng)絡(luò)架構(gòu)Fig.1 The network architecture of MC-CNN
在MC-CNN 之后,很多研究人員延續(xù)了其孿生網(wǎng)絡(luò)基本架構(gòu),并專注于改進特征提取方式從而提高匹配精度。文獻[17]提出的MatchNet 采用更多的卷積層來提取特征,并引入池化層以減小特征尺寸。文獻[18]提出的Deep Embedding 通過在2 個并行的子網(wǎng)絡(luò)中使用不同大小的卷積核進行多尺度特征提取,然后融合不同尺度特征并由匹配代價決策層處理得到匹配代價。文獻[19]提出的Content CNN 不再采用MC-CNN[16]中的二分類訓(xùn)練方式,而是將立體匹配看作以視差作為類別的多分類問題,從而訓(xùn)練網(wǎng)絡(luò)。文獻[20]在最終的匹配代價決策層之前插入4P(Per-Pixel Pyramid Pooling)層,使用4 個不同窗口大小的池化操作將輸出相連接以創(chuàng)建新特征,由于其生成的特征包含從粗到細的信息,使得網(wǎng)絡(luò)在擴大感受野的同時不會丟失圖像細節(jié)。文獻[21]指出文獻[20]中的金字塔池化層需要重新計算每個可能的視差,為此引入多尺度且步長為1 的池化模塊,并將其位置由全連接層末端移至全連接層之前,在保證匹配精度的同時提高了計算效率。文獻[22]提出的SDC(Stacked Dilated Convolution)模塊利用4 個不同擴張率的并行空洞卷積來增加網(wǎng)絡(luò)感受野,從而提取到更加有效的特征。文獻[23]引入一致性和獨特性2 個原則改進特征提取效果。文獻[24]提出的合并雙向匹配代價體(Coalesced Bidirectional Matching Volume,CBMV)網(wǎng)絡(luò)架構(gòu),在訓(xùn)練時使用隨機森林分類器將由神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的隱式代價函數(shù)與手工設(shè)計的顯式代價函數(shù)相結(jié)合,使學(xué)習(xí)到的匹配代價函數(shù)在跨域遷移時泛化性更強。
上述基于代價計算網(wǎng)絡(luò)的非端到端方法,其匹配效果表現(xiàn)證明了基于CNN 提取的特征相較手工特征更加準確有效,且用于特征提取的網(wǎng)絡(luò)越復(fù)雜或訓(xùn)練數(shù)據(jù)集越大,提取的特征在匹配時性能表現(xiàn)越優(yōu)。此類方法(如MC-CNN 等)盡管在KITTI等數(shù)據(jù)集上取得了遠超傳統(tǒng)方法的精度,但是由于它們大都采用孿生網(wǎng)絡(luò)結(jié)構(gòu),然后通過數(shù)個全連接層(DNN)對提取的特征進行串聯(lián)和進一步計算以獲得最終的匹配代價,因此此類方法普遍存在時耗較高的問題。例如,假定圖像大小為M×N,最大視差預(yù)設(shè)為D,孿生網(wǎng)絡(luò)一次前向傳播的時間為T,則代價體的構(gòu)建就需耗時M×N×(D+1)×T。如果T值較大,此類方法將具有較低的時間效率,以MC-CNN 為例,其生成單張KITTI 數(shù)據(jù)集中的圖像(1 226×370 像素)視差圖就需耗時67 s,因此,此類方法大多因為時間復(fù)雜度較高而無法滿足實際需求。
代價聚合步驟的輸入是由代價計算步驟得到的初始代價體,輸出是優(yōu)化后的代價體。在代價聚合步驟中,像素在不同視差下的匹配代價值會根據(jù)其鄰域像素的代價值來重新計算,以此鄰接像素間的聯(lián)系,從而降低異常點的影響,提高信噪比。目前,傳統(tǒng)方法中采用最廣泛的代價聚合方法是由SGM[12]提出的基于掃描線優(yōu)化的代價聚合方法,但SGM[12]中代價聚合的依據(jù)準則較為依賴先驗知識,例如平滑項中不同懲罰參數(shù)的設(shè)置。SGM-Net[25]等基于深度學(xué)習(xí)的非端到端方法試圖利用置信度學(xué)習(xí)和左右一致性原則來設(shè)計代價聚合網(wǎng)絡(luò)以解決此問題。
文獻[26]指出SGM 的代價聚合步驟中并非所有的像素都應(yīng)具有相同的懲罰項,為此根據(jù)左右一致性原則用CNN 處理初始左右視差圖,以得到每個像素的置信度,并在之后的代價聚合步驟中減小對高置信度像素的懲罰。在文獻[26]工作的基礎(chǔ)上,文獻[25]針對SGM 需要人工調(diào)整懲罰參數(shù)的問題,提出SGM-Net,利用CNN 自動學(xué)習(xí)懲罰參數(shù)。如圖2 所示,SGM-Net 的輸入是小圖像塊和其歸一化的位置參數(shù),輸出對3D 物體結(jié)構(gòu)的懲罰項。在SGM-Net 的訓(xùn)練過程中,作者設(shè)計了一個包含路徑代價和鄰域代價的損失函數(shù):路徑代價考慮掃描線上的像素點視差與實際視差之間的路徑成本,鄰域代價則關(guān)注相鄰像素視差之間的過渡成本。除此之外,SGM-Net 根據(jù)物體之間不同的遮擋關(guān)系,將沿掃描線的視差過渡分為正視差過渡和負視差過渡,保證其在病態(tài)區(qū)域也能有較好的視差預(yù)測效果。然而,由于SGM 中懲罰項無法被準確標記,因此網(wǎng)絡(luò)必須在訓(xùn)練過程中設(shè)計包含3 個步驟的策略以生成懲罰項的弱標簽,這就使得整個方法在訓(xùn)練過程中變得復(fù)雜且耗時。
圖2 SGM-Net 網(wǎng)絡(luò)架構(gòu)Fig.2 The network architecture of SGM-Net
文獻[27]指出SGM[12]采取的掃描線優(yōu)化方法會導(dǎo)致視差圖出現(xiàn)條紋現(xiàn)象,其提出基于置信度的智能聚合策略,使用相應(yīng)的置信度得分對每個獨立路徑計算的匹配成本進行加權(quán)求和。與此類似,文獻[28]提出的SGM-Forest 也不再使用SGM[12]中原始的聚合方式來簡單組合來自多個一維掃描線的匹配成本,而是訓(xùn)練隨機森林分類器來融合多個方向的一維掃描線優(yōu)化成本,針對圖像中的每個位置都選擇效果最優(yōu)的掃描線路徑。
視差優(yōu)化是傳統(tǒng)立體匹配方法流程中的最后一步,目的是剔除初始視差圖中的錯誤視差,并得到優(yōu)化后高質(zhì)量的視差圖。在深度學(xué)習(xí)興起后,LRCR等[29]嘗試利用基于置信度學(xué)習(xí)、逐步調(diào)優(yōu)以及殘差校正等思想設(shè)計深度神經(jīng)網(wǎng)絡(luò),從而進行視差優(yōu)化。
文獻[30]提出名為λ-ResMatch 的多階段框架,該框架利用深度殘差網(wǎng)絡(luò)學(xué)習(xí)匹配代價的度量,并采用SGM[12]中的代價聚合步驟處理代價體,再利用全局視差網(wǎng)絡(luò)(Global Disparity Network,GDN)取代贏家通吃(WTA)算法計算得到視差圖和置信度,而后利用置信度得分修正視差圖,完成視差優(yōu)化。文獻[31]將視差優(yōu)化分解為3 個子步驟:檢測不正確的視差;用新視差替換不正確的視差;利用殘差校正的思想對輸出視差進行改善。該文將上述3 個子步驟嵌入在一個統(tǒng)一的卷積網(wǎng)絡(luò)框架中,稱為DRR(Detect、Replace、Refine)。由于DRR的輸入是初始視差圖,因此允許多次使用DRR反復(fù)優(yōu)化視差圖,使匹配精度進一步提升。然而,在用新視差替代不可靠視差時會造成計算資源浪費,增加了計算負擔(dān)。文獻[21]將視差優(yōu)化分解為4 個子步驟:利用卷積網(wǎng)絡(luò)對初始最優(yōu)視差圖和次優(yōu)視差圖進行融合;將融合后的視差圖和原始圖像作為輸入,依次進行錯誤視差檢測、并行視差替換和殘差優(yōu)化,與文獻[31]不同,在并行視差替換的步驟中,并行的2 個沙漏狀結(jié)構(gòu)的子網(wǎng)絡(luò)分別用來處理圖像中的平滑區(qū)域和細節(jié)區(qū)域,進一步提高了視差預(yù)測的準確性。受殘差網(wǎng)絡(luò)思想的影響,文獻[32]提出遞歸殘差網(wǎng)絡(luò)RecResNet(Recurrent Residual CNN),通過估計在多個分辨率下計算的殘差組合來糾正不同類型的視差錯誤,最終生成優(yōu)化后的視差圖。該網(wǎng)絡(luò)可用于優(yōu)化由未知黑盒算法生成的視差圖,并能周期性地應(yīng)用于其自身的輸出以進行進一步改進。與上述完全基于CNN 的視差優(yōu)化方法不同,文獻[29]按照RNN 模式搭建左右比較遞歸模型LRCR(Left-Right Comparative Recurrent),該模型可以同步執(zhí)行視差估計與左右一致性檢測,在每次重復(fù)的步驟中,模型會為左右視圖同時生成視差圖并進行左右一致性檢測,以識別可能出現(xiàn)視差錯誤的區(qū)域。此外,LRCR 框架中引入了柔性注意力機制,用學(xué)習(xí)到的誤差圖引導(dǎo)模型在下個重復(fù)步驟中有選擇性地關(guān)注不可靠區(qū)域的視差,從而逐步改善視差圖的質(zhì)量。值得注意的是,所有這些基于視差優(yōu)化網(wǎng)絡(luò)的非端到端方法都能取得出色的匹配精度,但是它們會受到高計算負擔(dān)的影響,以最具代表性的LRCR[29]為例,其在當(dāng)時的KITTI 數(shù)據(jù)榜單上取得了最好的結(jié)果,但處理一張圖片的時間高達49.2 s。
上述基于深度學(xué)習(xí)的非端到端立體匹配方法本質(zhì)上并未脫離傳統(tǒng)方法的框架,一般仍需添加手工設(shè)計的正則化函數(shù)或視差后處理步驟,這意味著非端到端立體匹配方法具有計算量大和時間效率低的缺點,同時也未解決傳統(tǒng)立體匹配方法中感受野有限、圖像上下文信息缺乏的問題。隨著MAYER等[33]首次成功地將端到端網(wǎng)絡(luò)結(jié)構(gòu)引入立體匹配任務(wù)并取得良好效果,設(shè)計更有效的端到端立體匹配網(wǎng)絡(luò)逐漸成為立體匹配的研究趨勢。從各立體匹配數(shù)據(jù)集的公開排行榜上可以發(fā)現(xiàn),端到端方法在立體匹配任務(wù)中已然占據(jù)了主導(dǎo)地位。
如圖3 所示,當(dāng)前基于深度學(xué)習(xí)的端到端立體匹配網(wǎng)絡(luò)以左右視圖作為輸入,經(jīng)參數(shù)共享的卷積模塊提取特征后按相關(guān)性操作(Correlation)或拼接操作(Concat)構(gòu)建代價體,最后根據(jù)代價體的維度進行不同的卷積操作以回歸出視差圖。根據(jù)代價體維度的不同,端到端立體匹配網(wǎng)絡(luò)可分為基于3D 代價體和基于4D 代價體的2 種方法,而具有級聯(lián)視差優(yōu)化效果的2D 編碼器-解碼器和由3D 卷積組成的正則化模塊是當(dāng)下分別用來處理3D 和4D 代價體的2 種結(jié)構(gòu)。2D 編碼器-解碼器由一系列堆疊的2D CNN 組成,并帶有跳躍連接,加入殘差信息以提高視差預(yù)測效果。而3D 正則化模塊的關(guān)鍵點則是在構(gòu)建代價體時將提取的左右圖特征沿視差維度進行拼接以得到一個4D 的代價體,而后使用3D CNN 處理4D 代價體,以充分利用視差維度信息。
圖3 用于端到端立體匹配的2 種主流架構(gòu)Fig.3 Two mainstream architectures for end-to-end stereo matching
基于3D 代價體的端到端立體匹配網(wǎng)絡(luò)接近于傳統(tǒng)密集回歸問題(如語義分割、光流估計等)的神經(jīng)網(wǎng)絡(luò)模型。如圖3(a)所示,受U-Net[34]模型的啟發(fā),該類型端到端網(wǎng)絡(luò)的設(shè)計中部署了編碼器-解碼器結(jié)構(gòu),以減少內(nèi)存需求并增加網(wǎng)絡(luò)的感受野,從而更好地利用圖像的上下文信息。具體而言,一些研究為提升網(wǎng)絡(luò)的視差預(yù)測精度,采用多階段學(xué)習(xí)和多網(wǎng)絡(luò)框架或多任務(wù)學(xué)習(xí)的思想設(shè)計立體匹配網(wǎng)絡(luò),而另外一些研究則著眼于減少網(wǎng)絡(luò)計算負擔(dān),采用從粗到精的策略設(shè)計更高效的結(jié)構(gòu)。
文獻[33]首次引入端到端視差回歸網(wǎng)絡(luò)Disp-Net,其包含快速框架Disp-NetS 和精確框架Disp-NetC。Disp-NetS 借鑒U-Net[34]的框架設(shè)計一種用于視差回歸的編碼器-解碼器結(jié)構(gòu)。Disp-NetC 則類似于光流估計中的FlowNetCorr[35]網(wǎng)絡(luò)結(jié)構(gòu)(如圖4 所示),首先利用孿生網(wǎng)絡(luò)提取輸入的左右視圖特征,然后對提取的左右特征塊進行1D 的相關(guān)性(Correlation)操作,得到3D 代價體(尺寸與特征圖大小相同,通道數(shù)為Dmax,Dmax是預(yù)設(shè)的最大視差值)。Disp-NetC 網(wǎng)絡(luò)的后續(xù)部分則利用2D 編碼器-解碼器處理3D 代價體并回歸出最終的視差圖。與非端到端方法特征提取模塊常采用孿生網(wǎng)絡(luò)相比,由于Disp-Net 將整個圖像作為輸入,因此其具有更高的時間效率,處理KITTI 數(shù)據(jù)集中一張圖片僅需0.06 s,時間效率是MC-CNN 的1 000 倍,但在圖像的病態(tài)區(qū)域,如遮擋、重復(fù)或無紋理區(qū)域,Disp-Net 仍然較難找到正確的對應(yīng)關(guān)系。
圖4 FlowNetCorr 網(wǎng)絡(luò)架構(gòu)Fig.4 The network architecture of FlowNetCorr
考慮到Disp-Net[33]網(wǎng)絡(luò)結(jié)構(gòu)配置的確定過程經(jīng)過了多次手工設(shè)計和調(diào)整,而且無法確認是否為最佳配置,為此,文獻[36]引入自動機器學(xué)習(xí)(AutoML)的思路。該文利用基于梯度的神經(jīng)架構(gòu)搜索和貝葉斯優(yōu)化來進行超參數(shù)搜索,尋找Disp-Net的最佳配置,并提出AutoDispNet-CSS 網(wǎng)絡(luò)結(jié)構(gòu)。文獻[37]為了解決Disp-Net[33]網(wǎng)絡(luò)對遮擋區(qū)域預(yù)測效果不佳的問題,提出DispNet-CSS 框架,其包含多個基于FlowNet[35]的編碼器-解碼器結(jié)構(gòu)和基于FlowNet 2.0[38]的堆棧結(jié)構(gòu),通過反復(fù)估計遮擋區(qū)域和運動邊界來改善視差估計效果。
秉承多階段網(wǎng)絡(luò)的思想,文獻[39]提出二級級聯(lián)殘差學(xué)習(xí)網(wǎng)絡(luò)CRL(Cascade Residual Learning)。如圖5 所示,CRL 的第一階段結(jié)構(gòu)DispFulNet 由Disp-NetC 網(wǎng)絡(luò)添加額外的反卷積模塊得到,能生成包含細紋理的初始視差圖;第二階段結(jié)構(gòu)DispResNet利用多尺度殘差信號修正初始視差圖,采用殘差學(xué)習(xí)的思想實現(xiàn)更有效的視差精細化。CRL 在所有立體匹配方法中達到了當(dāng)時最高的匹配精度,但復(fù)雜的結(jié)構(gòu)意味著較高的計算負擔(dān),因此,其時間效率比Disp-Net 慢80%。
圖5 CRL 多階段網(wǎng)絡(luò)架構(gòu)Fig.5 Multi-stage network architecture of CRL
文獻[40]認為CRL 網(wǎng)絡(luò)的第二階段中采用光度誤差(即色彩空間層次的重構(gòu)誤差)對視差進行調(diào)優(yōu),魯棒性不足。為此,該文提出iResNet 網(wǎng)絡(luò),在特征空間層面計算重構(gòu)誤差,組合特征空間中的重構(gòu)誤差與特征相關(guān)(feature correlation)作為特征恒量,并在最后的視差優(yōu)化模塊輸入級聯(lián)的特征恒量和左圖特征,從而輸出調(diào)優(yōu)殘差。這種網(wǎng)絡(luò)設(shè)計允許反復(fù)使用視差優(yōu)化模塊對視差圖進行調(diào)優(yōu),以網(wǎng)絡(luò)的匹配速度換取匹配精度。事實上,iResNet 和CRL 具有類似的思想,但iResNet 在提升匹配精度的同時也實現(xiàn)了更好的時間效率,其匹配效率相較CRL 提升了4 倍。從網(wǎng)絡(luò)不同階段間的信息交互情況來看,CRL[39]方法只有第一階段網(wǎng)絡(luò)結(jié)構(gòu)預(yù)測的視差信息會傳遞到第二階段網(wǎng)絡(luò)結(jié)構(gòu),而iResNet則在網(wǎng)絡(luò)的前后兩階段結(jié)構(gòu)間共享更多的信息,這也是CRL[39]采用更復(fù)雜的網(wǎng)絡(luò)架構(gòu)但預(yù)測效果仍不如iResNet 的主要原因。
盡管采用多階段的網(wǎng)絡(luò)設(shè)計策略在很大程度上提高了匹配精度,但更復(fù)雜的網(wǎng)絡(luò)意味著更高的計算負擔(dān)。因此,文獻[41]采用從粗到精的金字塔策略,提出首個無監(jiān)督的實時域自適應(yīng)立體匹配網(wǎng)絡(luò)MADNet。為了提升在線自適應(yīng)效率,MADNet在反向傳播時不對網(wǎng)絡(luò)的全部參數(shù)進行更新,而是采用啟發(fā)式的獎勵-懲罰機制來動態(tài)選擇每次更新的參數(shù)。同樣,為減少計算成本,文獻[42]利用從粗到精的策略,提出分層離散分布分解立體匹配網(wǎng)絡(luò)HD3(Hierarchical Discrete Distribution Decomposition),將立體匹配視為像素對應(yīng)的概率問題,以考慮立體匹配中固有的不確定度估計。HD3將估計視差等價轉(zhuǎn)化為估計離散匹配分布問題,并將圖像分層分解為從粗到細的多個尺度,在利用網(wǎng)絡(luò)預(yù)測出不同尺度上的離散匹配分布后,對由網(wǎng)絡(luò)計算得到的不確定度進行加權(quán)組合,以得到圖像整體的離散匹配分布。
弱紋理、反射、物體邊緣等病態(tài)區(qū)域會嚴重影響立體匹配網(wǎng)絡(luò)的匹配精度,通過融合不同模型的優(yōu)點或采用多任務(wù)學(xué)習(xí)的方式能有效緩解此問題。文獻[43]提出由CNN 和條件隨機場(CRF)組成的混合模型,利用CNN 學(xué)習(xí)提取的特征,從而計算CRF 的一元和二元代價,并將CRF 公式化為最大余量馬爾可夫網(wǎng)絡(luò),實現(xiàn)CNN+CRF 的聯(lián)合訓(xùn)練。文獻[44-45]提出一種由預(yù)測視差的主干網(wǎng)絡(luò)和提取邊緣的子網(wǎng)絡(luò)共同組成的多任務(wù)學(xué)習(xí)網(wǎng)絡(luò)EdgeStereo。如圖6 所示,該模型在視差主網(wǎng)中共享子網(wǎng)提取的邊緣特征,并在損失函數(shù)中加入具有邊緣感知的平滑正則化項,從而將邊緣信息整合到視差主干網(wǎng)絡(luò)中,達成邊緣檢測與視差學(xué)習(xí)相互促進的目的。由于加入了邊緣信息,EdgeStereo 在細薄結(jié)構(gòu)區(qū)域以及物體邊緣處表現(xiàn)較為優(yōu)越,立體匹配方法固有的邊緣肥大缺陷有所緩解,但其仍舊存在訓(xùn)練方式復(fù)雜以及對距離相機較遠的物體結(jié)構(gòu)匹配精度不高的問題。
圖6 EdgeStereo 多任務(wù)網(wǎng)絡(luò)框架Fig.6 Multi-tasking network framework of EdgeStereo
文獻[46]構(gòu)建的網(wǎng)絡(luò)模型SegStereo 用語義信息來指導(dǎo)病態(tài)區(qū)域的視差學(xué)習(xí),該模型包含視差主干網(wǎng)絡(luò)和語義分支網(wǎng)絡(luò)。SegStereo 在視差主干網(wǎng)絡(luò)中融合來自語義分支的語義特征,并在網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)中引入語義損失項,利用語義信息指導(dǎo)視差估計,提高了反光、遮擋、重復(fù)紋理以及弱紋理等病態(tài)區(qū)域的匹配精度。與文獻[46]中使用2 個獨立的編碼模塊來分別提取語義和視差特征不同,文獻[47]提出的DSNet 是一種輕量級網(wǎng)絡(luò)架構(gòu),在特征提取時語義分割分支網(wǎng)絡(luò)與視差估計共享相同的主干網(wǎng)絡(luò),此外,該文不再直接將語義分支網(wǎng)絡(luò)的特征進行拼接,而是設(shè)計一種具有注意力機制的匹配模塊提取融合特征從而進行視差估計。與加入邊緣信息的EdgeStereo[44-45]相比,加入語義信息的SegStereo[46]和DSNet[47]在病態(tài)區(qū)域的匹配精度提升效果較為明顯,但它們在細薄結(jié)構(gòu)和物體邊緣區(qū)域的匹配精度則顯著低于EdgeStereo[44-45]。
與受傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型啟發(fā)的架構(gòu)不同,基于4D代價體的端到端立體匹配網(wǎng)絡(luò)架構(gòu)是專門為立體匹配任務(wù)而設(shè)計的,這一架構(gòu)下的網(wǎng)絡(luò)不再對特征進行降維操作,從而使代價體能保留更多的圖像幾何和上下文信息,因此,基于4D 代價體的端到端立體匹配網(wǎng)絡(luò)視差預(yù)測效果一般優(yōu)于基于3D 代價體的端到端網(wǎng)絡(luò),但是這種精度上的提升需要消耗更多的計算時間和存儲資源。從基于4D 代價體的端到端網(wǎng)絡(luò)的初始設(shè)計理念(盡可能降低圖像信息損失)出發(fā),文獻[48-53]致力于讓網(wǎng)絡(luò)在學(xué)習(xí)過程中考慮更多的圖像上下文信息。而為了緩解該種網(wǎng)絡(luò)架構(gòu)普遍存在的高計算負擔(dān)問題,文獻[54-58]嘗試從壓縮4D 代價體大小、減少3D 卷積數(shù)量等不同角度提高網(wǎng)絡(luò)效率。
文獻[59]提出一種新型深度視差學(xué)習(xí)網(wǎng)絡(luò)GCNet,其創(chuàng)造性地引入4D 代價體,并在正則化模塊中首次利用3D 卷積來融合4D 代價體的上下文信息,開創(chuàng)了專門用于立體匹配的3D 網(wǎng)絡(luò)結(jié)構(gòu)。如圖7所示,GC-Net 包含4 個步驟:
圖7 GC-Net 網(wǎng)絡(luò)框架Fig.7 Network framework of GC-Net
1)利用權(quán)值共享的2D 卷積層分別提取左、右圖像的高維特征,并在此階段進行下采樣將原始分辨率減半以減少內(nèi)存需求。
2)將左特征圖和對應(yīng)通道的右特征圖沿視差維度逐像素錯位串聯(lián)得到4D 代價體,大小為,其中,H、W分別為圖像的高和寬,Dmax為最大視差,C為特征通道數(shù)。
3)利用由多尺度的3D 卷積和反卷積組成的編碼-解碼模塊對代價體進行正則化操作,得到大小為H×W×Dmax×1 的代價體張量。
4)對代價體應(yīng)用可微的Soft ArgMax 操作回歸得到視差圖。
GC-Net 取得了當(dāng)時KITTI 基準下最高的匹配精度,原因是其構(gòu)建的代價體包含高度、寬度、視差和特征通道4 個維度,從而保留了圖像更多的立體幾何信息。但是值得注意的是,由于網(wǎng)絡(luò)中大量使用3D 卷積,因此GC-Net 會存在計算時間方面的局限性,其處理一張分辨率為1 216×352 像素的圖像需要0.9 s,耗時約為基于3D 代價體的端到端立體匹配網(wǎng)絡(luò)DispNet 的15 倍。
與基于3D 代價體的端到端立體匹配網(wǎng)絡(luò)類似,在基于4D 代價體的網(wǎng)絡(luò)學(xué)習(xí)過程中加入更多的信息也能提升視差預(yù)測精度。文獻[48]提出的金字塔立體匹配網(wǎng)絡(luò)PSMNet,主要由空間金字塔池化(Spatial Pyramid Pooling,SPP)模塊和堆疊的沙漏狀3D CNN模塊組成,其中,金字塔池化模塊提取多尺度特征以充分利用全局環(huán)境信息,堆疊的沙漏狀3D 編碼器-解碼器結(jié)構(gòu)對4D 代價體進行正則化處理以提供視差預(yù)測。但是,由于SPP 模塊中不同尺度的池化操作固有的信息損失,導(dǎo)致PSMNet 在如物體邊緣等包含大量細節(jié)信息的圖像區(qū)域的匹配精度較差。在PSMNet 的基礎(chǔ)上,文獻[49]將卷積空間傳播網(wǎng)絡(luò)(Convolutional Spatial Propagation Network,CSPN)模塊擴展到3D 情形以處理4D 代價體,使3D 正則化模塊可以從空間維度和視差維度上對4D 代價體進行信息聚合。文獻[50]則針對PSMNet 網(wǎng)絡(luò)前端的代價計算部分進行改進,提出多級上下文超聚合(Multi-level Context Ultra-Aggregation,MCUA)的二級特征描述方法,通過將層次內(nèi)和層次間的特征組合(即將淺層、低級特征與深層、高級語義特征相結(jié)合),將所有卷積特征封裝成更具區(qū)分性的表示形式,在沒有顯著增加網(wǎng)絡(luò)參數(shù)量的前提下提升了網(wǎng)絡(luò)的匹配性能。受半全局匹配(SGM)的啟發(fā),文獻[51]引入指導(dǎo)代價聚合的顯式代價聚合(Explicit Cost Aggregation Sub-Architecture,ECA)模塊。ECA模塊由雙流束網(wǎng)絡(luò)(two-stream network)組成:第一個流通過卷積操作沿著代價體的高度、寬度、視差3 個維度結(jié)合空間和深度信息,生成3 個潛在的代價聚合方式;第二個流評估潛在的聚合方式并選出其中最佳的一種,選擇標準由輕量卷積網(wǎng)絡(luò)獲得的低階結(jié)構(gòu)信息所確定。GWC-Net[52]通過組相關(guān)策略保留基于3D 代價體的端到端網(wǎng)絡(luò)中代價體構(gòu)建方式(相關(guān)性操作)的優(yōu)點,考慮不同特征通道的關(guān)聯(lián)性從而得到更好的代價體表示,使網(wǎng)絡(luò)能夠推斷出更準確的視差圖。根據(jù)多任務(wù)學(xué)習(xí)的思想,DispSegNet[53]通過分割的方式利用語義信息指導(dǎo)深度估計,提高了網(wǎng)絡(luò)在病態(tài)區(qū)域的匹配精度。
盡管上述基于4D 代價體的端到端網(wǎng)絡(luò)取得了良好的匹配效果,但由于3D 卷積結(jié)構(gòu)本身的計算復(fù)雜度,導(dǎo)致網(wǎng)絡(luò)在存儲資源和計算時間上成本高昂。以GCNet[59]為例,其處理分辨率為1 216×352 像素的圖像對大約需要10.4 GB GPU 內(nèi)存[54]。為了解決此問題,壓縮代價體[54-55]、構(gòu)建更低分辨率的代價體[56-57]或減少3D卷積層個數(shù)[58]等多種思路被提出。文獻[55]設(shè)計的網(wǎng)絡(luò)PDS(Practical Deep Stereo)引入一個瓶頸匹配模塊,通過將來自左、右圖像的級聯(lián)特征壓縮為更緊湊的匹配表示形式來壓縮4D 代價體,從而減少內(nèi)存占用量。文獻[54]提出基于GC-Net[59]的稀疏代價體網(wǎng)絡(luò)(Sparse Cost Volume Net,SCV-Net),在由左、右圖像特征生成4D 代價體的步驟中引入步幅參數(shù)使代價體更緊湊,在不影響性能的情況下大幅減少了內(nèi)存使用量。文獻[56]采用從粗到細的策略,提出一個三階段視差估計網(wǎng)絡(luò)AnyNet:首先以低分辨率特征圖作為輸入,構(gòu)建低分辨率4D 代價體;其次使用3D 卷積在較小的視差范圍內(nèi)進行搜索得到低分辨率視差圖;最后對低分辨率視差圖上采樣得到高分辨率視差圖。該方法是漸進式的,允許隨時停止來獲得較粗的視差圖,以匹配精度換取匹配速度。文獻[57]提出實時輕量立體匹配網(wǎng)絡(luò)StereoNet,在得到低分辨率的視差圖后通過2D 卷積網(wǎng)絡(luò)進行上采樣和視差優(yōu)化,以降低網(wǎng)絡(luò)的復(fù)雜性,但與采用高分辨率4D 代價體的方法相比,StereoNet在物體邊緣區(qū)域的匹配精度有所下降。文獻[58]設(shè)計GA-Net,其采用半全局聚合(Semi-Global Aggregation,SGA)層和局部引導(dǎo)聚合(Local Guided Aggregation,LGA)層替換正則化模塊中的大量3D卷積層,其中:SGA是SGM中代價聚合方法的可微近似,并且懲罰系數(shù)不再由先驗知識確定,而是由網(wǎng)絡(luò)學(xué)習(xí)得到,因此,對于圖像的不同區(qū)域具有較好的適應(yīng)性和靈活性;局部引導(dǎo)聚合層LGA 則附加在網(wǎng)絡(luò)末尾以聚合局部代價,旨在細化薄結(jié)構(gòu)和物體邊緣的視差。
如上所述,許多研究人員嘗試從優(yōu)化4D 代價體大小和減少3D 卷積個數(shù)等不同角度設(shè)計網(wǎng)絡(luò)結(jié)構(gòu),使網(wǎng)絡(luò)在時間效率上得到改進。但是,綜合匹配精度和匹配效率可以看出,如何設(shè)計更加高效實用的網(wǎng)絡(luò)結(jié)構(gòu)仍需進一步探索。
表1 給出了4 個常用數(shù)據(jù)集的介紹與比較。KITTI 2012[60]是用于立體匹配的第一個大型駕駛場景數(shù)據(jù)集,包括靜態(tài)場景的室外圖像,該數(shù)據(jù)集由389 個灰度圖像對組成,分為194個訓(xùn)練圖像對和195個測試圖像對,數(shù)據(jù)集的GT(Ground Truth)由LIDIA 測量獲得,GT 是半密集的,覆蓋了圖像約1/3 的像素點,并經(jīng)過手工矯正后將其轉(zhuǎn)換為視差。KITTI 2012 數(shù)據(jù)集提供了在線排行榜,可對全部區(qū)域像素和去除遮擋區(qū)域像素分別進行評估。KITTI 2015[1]數(shù)據(jù)集采集于動態(tài)場景,圖像內(nèi)容包含行駛中的汽車,該數(shù)據(jù)集共包含400 對彩色雙目圖像,訓(xùn)練集和測試集各200 對。KITTI 2015 數(shù)據(jù)集的數(shù)據(jù)采集方式與KITTI 2012 相似,評價指標也為誤匹配率,分為前景(移動的目標)、背景和全部區(qū)域3 種情形。Middlebury 2014[61]數(shù)據(jù)集由33 個亞像素級別的室內(nèi)靜態(tài)場景組成,分為訓(xùn)練集(13 對)、附加集(10 對)和測試集(10 對),圖像和GT 提供了全分辨率、半分辨率和1/4 分辨率3 種版本,該數(shù)據(jù)集視差范圍在200~800 像素之間,與KITTI 數(shù)據(jù)集相比,Middlebury 2014最大的一個差異是圖像分辨率非常高,達到了600萬像素。Freiburg SceneFlow[33]數(shù)據(jù)集包含約39 000 對大小為540×960 像素的虛擬圖像,根據(jù)場景類型又分為FlyingThings3D、Monkaa 和Driving 這3個子集。FlyingThings3D 數(shù)據(jù)完全由渲染生成,共包含22 872 個圖像對,其中,4 370 個圖像對作為驗證集;Monkaa 數(shù)據(jù)從動畫片中生成,共包含8 591 對雙目圖像;Driving的數(shù)據(jù)生成方式與Monkaa相同,提供駕駛場景的數(shù)據(jù),共包含4 392 對圖像。
表1 立體匹配任務(wù)常用數(shù)據(jù)集Table 1 Common datasets of stereo-matching tasks
綜合近些年的研究結(jié)果來看,KITTI 數(shù)據(jù)集和Middlebury 數(shù)據(jù)集被廣泛應(yīng)用于訓(xùn)練和測試基于圖像塊的CNN 網(wǎng)絡(luò)架構(gòu)(如MC-CNN 等),這是因為單個訓(xùn)練圖像對可以產(chǎn)生數(shù)千對不同的圖像塊。而在端到端架構(gòu)中,由于其需要大量數(shù)據(jù)集進行有效訓(xùn)練,且這種情況下一個圖像對僅對應(yīng)一個樣本,因此大多數(shù)端到端立體匹配網(wǎng)絡(luò)在遷移到如KITTI 和Middlebury 等真實數(shù)據(jù)集前,通常選擇在Freiburg SceneFlow 數(shù)據(jù)集上進行預(yù)訓(xùn)練。
立體匹配方法的評估指標有匹配精度與時間復(fù)雜度。匹配精度的衡量標準有平均絕對誤差、均方根誤差與誤匹配率,計算公式分別如下:
其中:dpre(x,y)與dGT(x,y)分別為預(yù)測視差和真實視差;δ為指示函數(shù),當(dāng)差值大于設(shè)置的閾值δd時其取值為1,否則為0;N為參與計算的像素點總數(shù)。
本文從KITTI 2015 和Middlebury 2014 網(wǎng)站上選取部分方法的量化評價結(jié)果,以對基于深度學(xué)習(xí)的非端到端和端到端立體匹配方法進行定量比較。
表2 和表3 分別給出各立體匹配方法在所有區(qū)域(All pixels)和非遮擋區(qū)域(Non-occluded pixels)2 種情形下的誤匹配率,并在表4 中給出不同種類立體匹配方法的定性分析結(jié)果。
表2 KITTI 2015 數(shù)據(jù)集上不同立體匹配方法的性能比較結(jié)果Table 2 Performance comparison results of different stereo-matching methods on KITTI 2015 dataset
表3 Middlebury 2014 數(shù)據(jù)集上不同立體匹配方法的性能比較結(jié)果Table 3 Performance comparison results of different stereo-matching methods on Middlebury 2014 dataset
表4 不同立體匹配方法的特點比較Table 4 Comparison of characteristics of different stereo-matching methods
在表2 中,誤匹配率的誤差閾值限定為3 個像素,且D1-bg、D1-fg、D1-all 分別代表背景區(qū)域、前景區(qū)域和所有區(qū)域。在表3 中,誤差閾值限定為2 個像素,F(xiàn)、H、Q 分別代表全分辨率、半分辨率和1/4 分辨率,AVE 代表像素點的平均絕對誤差。
從表2 和表3 可以看出:在KITTI 數(shù)據(jù)集中,相比于深度學(xué)習(xí)與傳統(tǒng)方法相結(jié)合的非端到端方法,早期基于深度學(xué)習(xí)的端到端方法計算效率明顯提高,但匹配效果并不理想,隨著后期研究的深入,端到端方法(尤其是基于4D 代價體的端到端方法)的匹配精度要明顯優(yōu)于非端到端方法;在Middlebury 2014 數(shù)據(jù)集中,大部分基于3D 代價體的端到端方法的誤匹配率高于非端到端方法,原因是端到端立體匹配網(wǎng)絡(luò)的學(xué)習(xí)效果較為依賴訓(xùn)練集中圖像場景的類型。端到端立體匹配網(wǎng)絡(luò)通常在Freiburg SceneFlow數(shù)據(jù)集中進行預(yù)訓(xùn)練,而Middlebury 2014 數(shù)據(jù)集中的圖像與Freiburg SceneFlow 中的圖像在情景內(nèi)容上差距較大,導(dǎo)致網(wǎng)絡(luò)遷移到Middlebury 2014 數(shù)據(jù)集上時表現(xiàn)較差。而對于基于4D 代價體的端到端方法,除受到跨域遷移的影響之外,還因?qū)τ诟叻直媛蕡D像處理能力不足,導(dǎo)致其不僅在Middlebury 2014 數(shù)據(jù)集排行榜中排名靠前的算法數(shù)量較少,而且匹配精度也低于基于3D 代價體的端到端立體匹配方法。
基于深度學(xué)習(xí)的立體匹配方法已經(jīng)取得了顯著成果,然而,綜合匹配精度和時間效率來看,目前的研究工作仍處于起步階段。該領(lǐng)域未來的發(fā)展方向主要在以下幾個方面:
1)魯棒性?;谏疃葘W(xué)習(xí)的立體匹配方法在精度上較傳統(tǒng)方法有很大提升,但在弱紋理、重復(fù)紋理、遮擋、透明、鏡面反射、光學(xué)失真等病態(tài)區(qū)域的誤匹配率依舊很高,而這些場景在實際應(yīng)用中真實存在且不可避免,因此,設(shè)計新的立體匹配方法以降低這些區(qū)域的誤匹配率依然會是未來的研究重點。從文獻[44-47,53]等研究結(jié)果來看,將高級視覺任務(wù)中的目標識別、場景理解與低級視覺特征學(xué)習(xí)相結(jié)合是解決該問題的一種有效途徑。
2)實時性。大多數(shù)端到端方法在構(gòu)建3D 或4D代價體后分別使用2D 和3D 卷積進行正則化處理,這導(dǎo)致它們普遍具有高昂的時間成本和計算資源開銷,嚴重阻礙了此類方法在嵌入式設(shè)備中的實際應(yīng)用。因此,開發(fā)精度與速度并存的輕量級端到端網(wǎng)絡(luò)是未來的一個重要研究方向。
3)跨域遷移性。深度神經(jīng)網(wǎng)絡(luò)在很大程度上依賴于訓(xùn)練圖像的可用性,其方法性能和泛化能力會受到訓(xùn)練集較大的影響,且容易出現(xiàn)模型對特定領(lǐng)域過擬合的風(fēng)險。針對立體匹配問題,大多數(shù)端到端網(wǎng)絡(luò)框架一般都會選擇在合成數(shù)據(jù)集Freiburg SceneFlow 上進行預(yù)訓(xùn)練,而這導(dǎo)致了訓(xùn)練后的模型在遷移到真實數(shù)據(jù)集上時效果明顯下降。因此,開發(fā)泛化性較強的立體匹配方法,使其在跨域遷移時能適應(yīng)新的情景環(huán)境也是需要解決的一大難題。在其他視覺任務(wù)中,常通過設(shè)計特定的損失函數(shù)或使用領(lǐng)域自適應(yīng)和遷移學(xué)習(xí)策略來緩解此問題,這2 種思路也是緩解立體匹配網(wǎng)絡(luò)泛化性問題的潛在對策。
4)對高分辨率圖像的處理能力。當(dāng)前大多數(shù)基于深度學(xué)習(xí)的立體匹配方法不能很好地處理高分辨率輸入圖像,通常會生成低分辨率的深度圖,導(dǎo)致這些方法無法有效重建如植被、細桿等細薄結(jié)構(gòu)以及距離相機較遠的結(jié)構(gòu)。對于高分辨率圖像,當(dāng)下一種有效的思路是采用分層技術(shù),即利用深層、低分辨率的特征信息生成低分辨率深度圖,而后結(jié)合淺層、保留較多空間位置信息的特征生成高分辨率深度圖。但在這種基于由粗到精的策略中,低分辨率深度圖可以實時生成,而生成高分辨率深度圖則需要較長時間。因此,對高分辨率圖像實時生成精確的深度圖仍是未來研究的一大趨勢。
5)學(xué)習(xí)范式。對訓(xùn)練圖像進行逐像素標簽標注是一項耗時耗力的工作,已經(jīng)有許多研究人員嘗試采用無監(jiān)督方法來緩解標注負擔(dān)。而相比于監(jiān)督學(xué)習(xí)方法,現(xiàn)有的無監(jiān)督方法匹配精度較低,因此,設(shè)計效果優(yōu)良的無監(jiān)督訓(xùn)練算法也具有重要的研究意義。
6)網(wǎng)絡(luò)架構(gòu)搜索。目前基于深度學(xué)習(xí)的立體匹配方法研究大都集中在設(shè)計新的網(wǎng)絡(luò)結(jié)構(gòu)和訓(xùn)練方法,僅有較少的研究人員關(guān)注自動學(xué)習(xí)最佳架構(gòu)問題,如AutoDispNet[36]。使用神經(jīng)進化理論從數(shù)據(jù)中自動學(xué)習(xí)網(wǎng)絡(luò)架構(gòu)、激活函數(shù),可以釋放對人工網(wǎng)絡(luò)設(shè)計的需求。因此,對自動學(xué)習(xí)復(fù)雜視差估計網(wǎng)絡(luò)架構(gòu)進行研究也具有較大的發(fā)展前景。
7)不同類型網(wǎng)絡(luò)的應(yīng)用。目前基于深度學(xué)習(xí)的立體匹配方法大都基于卷積神經(jīng)網(wǎng)絡(luò),結(jié)合其他類型網(wǎng)絡(luò)(如循環(huán)神經(jīng)網(wǎng)絡(luò)、生成對抗網(wǎng)絡(luò)等)的優(yōu)勢來進一步提高立體匹配的效果,也是一個潛在的研究方向。
本文對基于深度學(xué)習(xí)的立體匹配方法進行分類和總結(jié)?;谏疃葘W(xué)習(xí)的非端到端方法取得了優(yōu)于傳統(tǒng)方法的性能表現(xiàn),并且相較端到端方法,非端到端方法對訓(xùn)練數(shù)據(jù)樣本量的要求較低,同時具有較強的泛化性和跨域遷移性,但是該類方法存在計算時間長、感受野有限、缺乏上下文信息、匹配精度不高等問題?;谏疃葘W(xué)習(xí)的端到端方法具有匹配精度高、網(wǎng)絡(luò)結(jié)構(gòu)易于設(shè)計、實時性高等優(yōu)點,但是該類方法訓(xùn)練數(shù)據(jù)量較少、計算資源成本較高且跨域遷移性較弱。設(shè)計同時滿足匹配精度、實時性、魯棒性、跨域遷移性等要求的立體匹配方法,將是下一步的研究方向。