劉 澤,姜永利,丁志偉,劉永強(qiáng)
(國能寶日希勒能源有限公司,內(nèi)蒙古 呼倫貝爾 021500)
深度估計(jì)[1]是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要任務(wù),常應(yīng)用于自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航、虛擬現(xiàn)實(shí)、三維重建等高級應(yīng)用中。其本質(zhì)在于提取圖像特征,并通過這些特征來識(shí)別目標(biāo)、匹配對應(yīng)點(diǎn)、進(jìn)行像素級的深度估計(jì),通過分析圖像或場景中各像素點(diǎn)間的距離或深度信息,實(shí)現(xiàn)三維場景的理解和建模。特征提取[2]在深度估計(jì)任務(wù)中至關(guān)重要,傳統(tǒng)的計(jì)算機(jī)視覺方法常使用手工設(shè)計(jì)特征,如方向梯度直方圖(HOG)、尺度不變特征變換(SIFT)和速度不變特征變換(SURF)。這些特征?;诰植考y理和邊緣信息,適用于一些傳統(tǒng)的深度估計(jì)算法。隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)在深度估計(jì)中得到廣泛應(yīng)用,這類網(wǎng)絡(luò)能夠?qū)W習(xí)到目標(biāo)更多特征表示和匹配規(guī)則,提高立體匹配的性能。
戴仁月[3]提出一種融合卷積神經(jīng)網(wǎng)絡(luò)(CNN,convolutional neural network)與傳統(tǒng)即時(shí)定位與地圖構(gòu)建算法的深度估計(jì)方法,從非結(jié)構(gòu)化視頻序列中估計(jì)深度,使用當(dāng)前幀或相鄰幀來估計(jì)深度,但并未利用全局和幾何信息來優(yōu)化深度圖。溫靜[4]提出一種基于CNN特征提取和加權(quán)深度遷移的單目圖像深度估計(jì)方法,先提取CNN特征,并計(jì)算輸入圖像在數(shù)據(jù)集中的近鄰圖像,再獲得各候選近鄰圖像和輸入圖像間的像素級稠密空間形變函數(shù),將形變函數(shù)遷移至候選深度圖像集,通過引入基于SIFT的遷移權(quán)重SSW,對加權(quán)遷移后的候選深度圖進(jìn)行優(yōu)化,以此獲得最終的深度信息。李格[5]提出CNN模型與CRFasRNN相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu),該過程先以場景RGB圖的超像素塊為單元提取局部二進(jìn)制LBP特征、顏色差異特征、顏色直方圖分布差異特征,再歸一化3種特征下的特征圖,并以此對輸出的深度圖進(jìn)行線性濾波,隨后將此濾波結(jié)果作為聯(lián)合濾波器的CNN網(wǎng)絡(luò)輸入,進(jìn)一步提高深度估計(jì)精度。
卷積神經(jīng)網(wǎng)絡(luò)通過一系列卷積層和池化層學(xué)習(xí)圖像特征,其中卷積層使用不同尺寸卷積核捕獲不同感受野信息,有效提取圖像中的局部特征,以此獲得目標(biāo)表面結(jié)構(gòu)的重要信息。盡管CNN的局部特征提取能力強(qiáng),但存在以下問題:
1)傳統(tǒng)CNN模型缺乏長距離依賴建模能力,難以捕獲圖像中物體間的全局關(guān)系和上下文信息。在深度估計(jì)任務(wù)中,特別在處理高分辨率圖像時(shí),全局信息對準(zhǔn)確的深度估計(jì)至關(guān)重要;
2)由于CNN關(guān)注的是局部區(qū)域特征,常無法更好地捕獲全局信息,可能導(dǎo)致信息的捕獲能力下降。
近年來,基于注意力機(jī)制的模型在自然語言處理領(lǐng)域獲得廣泛應(yīng)用。Transformer[6-7]的自注意力機(jī)制可以突破感受野的限制,使其能夠在整個(gè)圖像上建立關(guān)聯(lián),實(shí)現(xiàn)全局信息捕獲,具備較高的泛化性 ,對圖像分類、目標(biāo)檢測和分割等任務(wù)至關(guān)重要。 ViT(Vision Transformer)將圖像數(shù)據(jù)轉(zhuǎn)換為序列數(shù)據(jù),使用Transformer架構(gòu)來處理序列數(shù)據(jù),包括圖像塊的向量化表示、位置編碼、Transformer編碼器結(jié)構(gòu),以及用于圖像分類的分類結(jié)構(gòu)。該架構(gòu)使得ViT能夠有效利用多頭自注意力機(jī)制建模像素間的關(guān)聯(lián),處理不同尺寸的圖像,更好地理解圖像中的全局關(guān)系,在大規(guī)模圖像分類任務(wù)中表現(xiàn)出色。由于采用了相對模塊化結(jié)構(gòu),使其容易擴(kuò)展和修改,適用于不同的任務(wù)和應(yīng)用。Swin Transformer[8]通過自注意力機(jī)制捕獲輸入序列中不同元素間的依賴,采用深度分層結(jié)構(gòu),將輸入圖像分為不同分辨率圖像塊,在每個(gè)分辨率上應(yīng)用Transformer編碼器,有助于模型同時(shí)處理全局和局部信息,提高對不同尺度下的特征建模能力。Swin Transformer引入“Shifted Window”機(jī)制,使滑動(dòng)窗口的方式,允許模型在不同空間尺度下進(jìn)行全局信息交互 ,同時(shí)關(guān)注全局和局部信息,有效地捕獲了不同位置間的關(guān)系,從而進(jìn)一步增強(qiáng)了模型的特征提取能力。Swin Transformer可用于各種計(jì)算機(jī)視覺任務(wù),包括圖像分類、對象檢測、語義分割和實(shí)例分割,多尺度特性使其適用于不同場景和任務(wù)。由此可見,視覺 Transformer 的多頭注意力機(jī)制具有長距離依賴和自適應(yīng)空間聚合能力,可以從海量數(shù)據(jù)中學(xué)到比CNN 網(wǎng)絡(luò)更加強(qiáng)大和魯棒的表征。
在自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航等領(lǐng)域,經(jīng)常需要在復(fù)雜和多樣化場景中使用立體匹配技術(shù)。這類場景中,常存在弱紋理區(qū)域,因此解決弱紋理區(qū)域的立體匹配問題對于實(shí)際應(yīng)用至關(guān)重要。在傳統(tǒng)的立體匹配方法中,弱紋理區(qū)域無法獲得真實(shí)有效的視差,非重疊塊的嵌入表達(dá)可能導(dǎo)致弱紋理區(qū)域匹配歧義。為此,本文提出一種純粹基于Transformer架構(gòu)的弱紋理目標(biāo)立體匹配網(wǎng)絡(luò)。通過引入重疊式塊嵌入策略,提升弱紋理區(qū)域的匹配性能,使相鄰塊間的信息有所重疊,從而增加在弱紋理區(qū)域表達(dá)的一致性,減少歧義并提高深度估計(jì)性能,通過借助特征重構(gòu)窗口策略[9]增強(qiáng)特征的表達(dá)能力,以此提高模型在弱紋理區(qū)域的立體匹配性能。
如圖1所示,雙目相機(jī)是由左右兩個(gè)針孔相機(jī)水平拼接而成,當(dāng)兩個(gè)針孔相機(jī)的光圈中心都在一條線且法向量平行時(shí),光圈中心間的距離為雙目相機(jī)的基線。
圖1 雙目相機(jī)模型
利用基線和相機(jī)的焦距,存在以下關(guān)系:
(1)
其中:z為p點(diǎn)在Z軸的投影長度,f為焦距,b為基線距離,UR-UL稱為視差。
雙目測距的匹配問題常稱之為立體匹配,其主要目標(biāo)是找到圖像中每個(gè)像素間的對應(yīng)視差,即兩個(gè)視角下的像素間的距離。視差值可用來估計(jì)目標(biāo)深度,從而還原出三維場景。從采用不同最優(yōu)化理論方法的角度出發(fā),立體匹配的非學(xué)習(xí)方法可分為全局立體匹配與局部立體匹配兩類方法。從采用不同圖像表示基元的角度出發(fā)進(jìn)行分類,可分為區(qū)域立體匹配算法、基于特征的立體匹配算法和基于相位立體匹配算法,常見的立體匹配方法[10-13]包括匹配代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算、視差優(yōu)化4個(gè)步驟。
匹配代價(jià)是指圖像中的每個(gè)像素與其在另一圖像中匹配點(diǎn)間的相似度,可以通過各種方法計(jì)算,如灰度值、特征向量的相似性等。匹配代價(jià)圖通常具有噪聲和不確定性,因此需要進(jìn)行代價(jià)聚合,改善深度估計(jì)的質(zhì)量。代價(jià)聚合有助于整合匹配代價(jià)圖的局部信息,以獲得更平滑和準(zhǔn)確的視差圖。視差計(jì)算階段的任務(wù)是確定每個(gè)像素的最佳匹配點(diǎn),即匹配代價(jià)最小的像素位置,對應(yīng)于左圖像中的像素在右圖像中的匹配點(diǎn)。視差值表示兩個(gè)像素間的距離,可用于估計(jì)目標(biāo)的深度,視差優(yōu)化階段旨在進(jìn)一步改善視差圖的質(zhì)量,常包括使用優(yōu)化算法,如動(dòng)態(tài)規(guī)劃、全局優(yōu)化或半全局匹配等,平滑和修復(fù)視差圖中的不一致性和噪聲。常見的代價(jià)計(jì)算方法有SAD(sum of absolute differences)、SSD(sum of squared differences)、AD算法等,其中AD算法是匹配代價(jià)計(jì)算中最簡單的算法之一,其主要思想是不斷比較左右相機(jī)中兩點(diǎn)的灰度值。通過固定左相機(jī)中的一個(gè)像素點(diǎn),遍歷右相機(jī)中的所有像素點(diǎn),不斷比較它們之前的灰度之差,灰度差即為匹配代價(jià),其數(shù)學(xué)公式為:
CAD(p,q)=|IL(p)-IR(q)|
(2)
其中:p和q分別為左右圖像中的兩點(diǎn),IL( )為左圖像中的灰度值,IR( )為右圖像中的灰度值。上式為灰度圖像間的匹配代價(jià),彩色圖像AD算法的計(jì)算代價(jià)為:
(3)
代價(jià)聚合用于處理視差圖中的不確定性和噪聲,從而改善深度估計(jì)的質(zhì)量。代價(jià)聚合的目標(biāo)是將匹配代價(jià)圖(Cost Volume)的局部信息進(jìn)行整合,以獲得更平滑和準(zhǔn)確的視差圖。近年來諸多學(xué)者開展了基于深度學(xué)習(xí)的立體匹配方法研究工作,常采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造立體匹配的特征提取器,將特征提取器分解為卷積編碼器與卷積解碼器。盡管基于卷積的特征提取器獲得較好效果,但卷積層的感受野通常是局部的,使得卷積層在處理全局信息或長距離依賴關(guān)系時(shí)面臨挑戰(zhàn)?;赥ransformer的模型可以較好地解決該問題,在解碼器模塊中,所有注意力計(jì)算均采用點(diǎn)積形式,其中輸入特征可分為查詢(Q)、鍵(K)和值(V)。查詢Q借助點(diǎn)積運(yùn)算得到的注意力權(quán)重,可從值V中檢索相關(guān)信息,計(jì)算公式如下:
(4)
總體架構(gòu)如圖2所示,通過編碼器和解碼器模塊協(xié)同工作實(shí)現(xiàn)圖像處理和表示學(xué)習(xí)。編碼器模塊對輸入特征進(jìn)行初步處理,增強(qiáng)特征的細(xì)粒度,將其傳遞給Transformer塊,以進(jìn)行全局地表征學(xué)習(xí)。在解碼器模塊中,輸入特征經(jīng)轉(zhuǎn)置卷積層處理獲高分辨率的特征表示,并與編碼器中的同級特征進(jìn)行融合,詳細(xì)過程如下:
圖2 總體網(wǎng)絡(luò)架構(gòu)
編碼器模塊通過多層卷積操作增加輸入特征的細(xì)粒度,卷積層通過一系列卷積核滑動(dòng)捕捉輸入圖像的局部特征,逐漸將圖像中的細(xì)節(jié)信息傳遞到更高級別的表征,這種方式有助于模型更好地理解圖像的局部結(jié)構(gòu)。將編碼器將處理后的特征輸入到Transformer結(jié)構(gòu)中進(jìn)行全局表征學(xué)習(xí)。Transformer借助于模型捕獲不同位置之間的依賴關(guān)系,從而可以更好地理解圖像中的全局結(jié)構(gòu)信息。兩個(gè)組件間的結(jié)合使得編碼器模塊能夠在保留細(xì)粒度特征的同時(shí),提高對整體圖像的特征提取能力。
解碼器模塊用于恢復(fù)高分辨率特征表示,并將其與編碼器中的同級特征進(jìn)行融合,解碼器通過轉(zhuǎn)置卷積操作來逆轉(zhuǎn)這種過程。在解碼器中,轉(zhuǎn)置卷積層有助于對低分辨率特征進(jìn)行上采樣,從而獲得更高分辨率的特征圖。這些高分辨率特征圖可以幫助模型更好地理解圖像細(xì)節(jié),如紋理和邊緣等,將這些高分辨率特征與編碼器中的同級特征進(jìn)行融合,獲得更為全面的特征表示。
這種編碼器-解碼器架構(gòu)的優(yōu)點(diǎn)在于能夠從多層次上捕獲圖像特征,提高模型的特征提取能力,其核心是Block模塊結(jié)構(gòu),主要由以下幾個(gè)部分構(gòu)成:
1)局部感知單元(Local Perception Unit),將輸入圖片信息,與 3*3 的卷積操作相加,旨在增加空間信息提取能力。
2)輕量級多頭注意力機(jī)制(Lightweight Multi-head Self-attention),使用深度卷積計(jì)算代替 key 和 value 的計(jì)算,從而減輕計(jì)算開銷。
3)反向殘差前饋網(wǎng)絡(luò)(Inverted Residual Feed-forward Network),類似于反向殘差塊,由擴(kuò)展層、深度卷積和投影層組成。通過改變跳躍連接的位置,提高網(wǎng)絡(luò)性能。深度卷積用于提取局部信息,其計(jì)算成本可以忽略不計(jì),跳躍連接與經(jīng)典的殘差網(wǎng)絡(luò)相似,可以提高梯度跨層的傳播能力。
在Vision Transformer和Pyramid Vision Transformer(PVT)[14-16]中,首先將輸入圖像劃分為不相交的圖像塊,這些圖像塊被視為模型的“詞”或“記號”,類似于自然語言處理中的標(biāo)記化。每個(gè)圖像塊及其位置編碼通過一個(gè)線性映射被嵌入到固定維度的向量空間中,以此構(gòu)成一個(gè)序列。將該序列作為輸入送入Transformer編碼器[17]中,用于提取圖像中的特征,建模像素之間的關(guān)系。與傳統(tǒng)的VIT和PVT方法不同,本文提出一種重疊式詞嵌入方法,以更好地處理弱紋理區(qū)域和捕獲相鄰區(qū)域的特征信息。采用重疊式詞嵌入方法,圖像塊之間存在重疊,有助于在加強(qiáng)相似像素差異的同時(shí),捕獲更為全面的特征信息。以編碼器的第一階段為例,通過卷積操作將輸入特征圖縮減到較小的尺寸,更好地捕獲局部特征。將這些小塊特征圖轉(zhuǎn)化為詞嵌入,加入位置編碼輸入到Transformer中,以便在全局范圍內(nèi)提取圖像特征。
Transformer能夠處理序列數(shù)據(jù)中不同位置的依賴關(guān)系,從而有效減輕弱紋理區(qū)域缺少特征的問題。全局特征被重新調(diào)整為原始大小的特征圖,可以獲得具有更好表示能力的特征圖。如需多尺度的特征圖,可將第一階段的輸出再次輸入到第二階段,重復(fù)該過程。這種重疊式詞嵌入方法可有效捕獲每個(gè)塊區(qū)域以及周邊鄰域的特征信息,從而更好地突出相似像素間的差異。
在處理高分辨率的立體圖像對時(shí),使用重疊式詞嵌入方法處理整個(gè)特征圖時(shí),其注意力計(jì)算開銷較大,龐大的詞嵌入數(shù)量可能導(dǎo)致計(jì)算資源超出范圍。為了在處理高分辨率圖像時(shí)仍能保持計(jì)算效率,引入一項(xiàng)特征重構(gòu)窗口策略,如圖3所示。該策略允許在提取多尺度特征的同時(shí),使注意力計(jì)算具有在線性時(shí)間復(fù)雜度。具體來說,在不考慮整個(gè)特征圖的情況下,僅選擇一部分窗口進(jìn)行注意力計(jì)算,從而降低計(jì)算復(fù)雜度。這種方式在處理高分辨率圖像時(shí)能夠節(jié)省大量計(jì)算資源,通過選擇適當(dāng)?shù)拇翱诖笮『臀恢?,可以在不降低建模質(zhì)量的情況下,提高模型的計(jì)算效率??偟膩碚f,給出的基于重疊式詞嵌入和特征重構(gòu)窗口策略能夠更好地處理弱紋理區(qū)域和高分辨率圖像,同時(shí)保持了計(jì)算效率,計(jì)算公式如下:
(5)
圖3 特征重構(gòu)窗口
特征重構(gòu)窗口旨在聚合不同區(qū)域的上下文信息,在減少計(jì)算復(fù)雜度的同時(shí)提高網(wǎng)絡(luò)獲取全局信息的能力。這一策略融合了空間信息的提取、Transformer模型的全局特征學(xué)習(xí)以及注意力計(jì)算的高效性。為確保鄰域信息的連續(xù)性,將原始高分辨率圖像劃分為多個(gè)重疊塊,每個(gè)圖像塊映射為相應(yīng)數(shù)量的詞嵌入,引入位置編碼來保留圖像塊的空間位置信息。由于圖像塊被映射為詞嵌入,丟失了原始圖像塊的空間位置信息。為解決該問題,特征重構(gòu)窗口引入位置編碼,將坐標(biāo)信息嵌入到詞嵌入中,以此保留圖像塊的空間位置。位置編碼使模型能夠理解每個(gè)塊的相對位置,以便更好地捕獲全局特征信息。在獲得詞嵌入后,特征重構(gòu)窗口進(jìn)行多尺度的空間聚合,這有助于減小鍵和值矩陣的尺寸,從而降低注意力計(jì)算的復(fù)雜度。多尺度的聚合使模型能夠在不同尺度上捕獲特征,從細(xì)節(jié)到全局信息都能得到充分考慮,有助于提高網(wǎng)絡(luò)性能。
經(jīng)過空間聚合后,通過池化操作將特征合并,并采用卷積操作進(jìn)行特征重組,該過程有助于將特征信息更好地組織,用于后續(xù)的注意力計(jì)算。合并池化后的特征,通過卷積操作進(jìn)行重組,最終轉(zhuǎn)化為可用于注意力計(jì)算的詞嵌入,將這些詞嵌入送入Transformer模型,通過多頭自注意力[18-19]獲取全局信息和長距離依賴,與卷積隨著網(wǎng)絡(luò)加深擴(kuò)大感受野,在每個(gè)階段均可以提取到全局特征,能盡可能地減少丟失語義信息的情況,為解碼器提供更為豐富的全局信息,以此生成高準(zhǔn)確度深度圖。
以上所述的特征重構(gòu)窗口[20-21]策略關(guān)鍵點(diǎn)在于充分利用圖像的空間信息,將圖像分塊處理,并引入Transformer進(jìn)行全局特征學(xué)習(xí)。該策略的優(yōu)勢在于處理高分辨率圖像時(shí),仍能保持注意力計(jì)算的線性時(shí)間復(fù)雜度,與傳統(tǒng)方法和一些基于詞嵌入的方法相比,特征重構(gòu)窗口為高效深度估計(jì)提供了一種新途徑,不僅如此,該方法還可在多尺度條件下提供更為全面的特征信息,從而改善深度估計(jì)的性能。
實(shí)驗(yàn)采用Pytorch機(jī)器學(xué)習(xí)庫,顯卡選用NVIDIA GTX 3090。為驗(yàn)證所提方法的有效性和不同場景的泛化性,在兩個(gè)常用的公開數(shù)據(jù)集Scene Flow和KITTI上展開實(shí)驗(yàn)。KTTTI數(shù)據(jù)集是一個(gè)廣泛用于計(jì)算機(jī)視覺和自動(dòng)駕駛研究的數(shù)據(jù)集,提供了多種類型的傳感器數(shù)據(jù),包括圖像、激光雷達(dá)、GPS和IMU,以及豐富的標(biāo)注信息。該數(shù)據(jù)集用于目標(biāo)檢測、立體視覺、SLAM和自動(dòng)駕駛等領(lǐng)域的研究和開發(fā)。主要場景有公路,鄉(xiāng)村和市區(qū)等,為保證實(shí)驗(yàn)結(jié)果的可比較性,按Eigen等人的方法劃分?jǐn)?shù)據(jù)集,來自32個(gè)場景的23 158張圖像作為訓(xùn)練集,652張來自29個(gè)不同場景的圖像作為測試集,訓(xùn)練時(shí)隨機(jī)裁剪輸入圖像為352像素×704像素,測試時(shí)按Garg等人提出的方法做中心裁剪。Scene Flow為合成的數(shù)據(jù)集,包含了豐富的圖像數(shù)據(jù),每個(gè)場景都包括3個(gè)連續(xù)幀的圖像序列。這些圖像序列提供了不同視角下的真實(shí)世界場景,用于深度學(xué)習(xí)模型的訓(xùn)練和評估。此外,數(shù)據(jù)集還包括了與圖像對應(yīng)的視差地圖、光流場、相機(jī)參數(shù)等附加信息。
采用3種標(biāo)準(zhǔn)評估深度估計(jì)的Transformer架構(gòu)的性能:
EPE(End-Point-Error),表示預(yù)測值和真實(shí)值在視差空間的絕對距離,其中為pred預(yù)測值,true為真實(shí)值,計(jì)算公式如下:
EPE=|pred-true|
(6)
3像素錯(cuò)誤(3PE),表示視差錯(cuò)誤大于3像素的百分比,其中Tr表示視差錯(cuò)誤大于3像素的數(shù)量,L表示視差錯(cuò)誤像素的數(shù)量,計(jì)算公式如下:
(7)
遮擋交并比(OIOU),用于評估遮擋區(qū)域的預(yù)測結(jié)果,計(jì)算公式如下:
(8)
2)基于Softmax操作的加法不變性,通過設(shè)置系數(shù)c將注意力分?jǐn)?shù)約束在16位精度范圍內(nèi)。
合成數(shù)據(jù)集Scene Flow的實(shí)驗(yàn)結(jié)果如表1所示,給出了在Scene Flow數(shù)據(jù)集的實(shí)驗(yàn)對比結(jié)果。在訓(xùn)練和評估階段,將最大視差值分別設(shè)為192和480。由表1可見,本文方法在Scene Flow數(shù)據(jù)集上的指標(biāo)獲得顯著提升。由于注意力計(jì)算不受像素間的距離約束,本文方法在D=480時(shí)依然能夠保持D=192的性能,且優(yōu)于其它方法。在表1中,Oom表示在相同的實(shí)驗(yàn)條件下,對應(yīng)模型無法處理Scene Flow數(shù)據(jù)集中高分辨率和大視差范圍的圖像。
表1 在Scene Flow數(shù)據(jù)集的對比實(shí)驗(yàn)
室外數(shù)據(jù)集KITTI的實(shí)驗(yàn)結(jié)果如表2所示,對KITTI 2015數(shù)據(jù)集中的200組立體像對進(jìn)行微調(diào)訓(xùn)練,與傳統(tǒng)方法相比,本文方法在KITTI2015上各指標(biāo)均得到提升。表2中,在前景區(qū)域上的平均異常值百分比D1-fg指標(biāo)提升4%,在背景區(qū)域上的平均異常值百分比D1-bg指標(biāo)和整體圖像的平均異常值百分比D1-all指標(biāo)也都有顯著的提升。
表2 KITTI數(shù)據(jù)集的對比實(shí)驗(yàn)
目前,大多數(shù)公開數(shù)據(jù)集很少提供對圖像中弱紋理程度的定義,本文采用一種基于圖像像素聚類的方法來衡量圖像的紋理強(qiáng)弱。將每個(gè)像素視為一個(gè)樣本,使用其RGB值作為特征維度,利用K鄰近聚類算法對圖像進(jìn)行聚類,以確定不同像素類別的數(shù)量,這個(gè)數(shù)量可以用來量化圖像的紋理強(qiáng)弱程度。在Scene Flow測試數(shù)據(jù)集中,得到了不同類別數(shù)目,分別在區(qū)間[839,1 500],[1 500,10 000]和[10 000,15 127]內(nèi)。這3個(gè)區(qū)間分別代表了“困難”“中等”和“簡單”樣本。表3中,進(jìn)一步通過使用EPE指標(biāo)進(jìn)行實(shí)驗(yàn)對比,所有方法在“困難”樣本上的準(zhǔn)確率明顯低于“中等”和“簡單”樣本,這說明弱紋理區(qū)域?qū)αⅢw匹配的準(zhǔn)確性產(chǎn)生了明顯影響。此外,本文方法在3種不同樣本區(qū)間上都獲得了較好的結(jié)果,而在“困難”樣本上的提升尤為顯著,表明本文方法對于處理弱紋理區(qū)域具有出色的性能,這一優(yōu)勢得益于Transformer架構(gòu)的全局表征學(xué)習(xí)能力。
表3 弱紋理區(qū)域?qū)Ρ葘?shí)驗(yàn)
由圖4可見,隨著解碼器的逐步深入,弱紋理區(qū)域和細(xì)粒度區(qū)域的特征能力得到了明顯提升,有助于更好地處理這些具有挑戰(zhàn)性的弱紋理區(qū)域。
圖4 實(shí)驗(yàn)結(jié)果對比
本文提出一種弱紋理目標(biāo)立體匹配網(wǎng)絡(luò),給出一種新的特征提取方法,利用Transformer架構(gòu),將編碼器和解碼器結(jié)構(gòu)應(yīng)用于特征提取器,結(jié)合卷積和Transformer的優(yōu)勢,利用重疊式詞嵌入策略更好地捕獲圖像中的局部紋理和上下文信息,特別對弱紋理和遮擋區(qū)域的深度估計(jì)提供顯著改進(jìn)。通過引入特征重構(gòu)窗口來有效傳遞信息,減少計(jì)算復(fù)雜度,并在多個(gè)數(shù)據(jù)集上得到了更準(zhǔn)確的深度估計(jì)結(jié)果。