一種弱紋理目標(biāo)立體匹配網(wǎng)絡(luò)

2024-05-17 11:56姜永利丁志偉劉永強(qiáng)

計(jì)算機(jī)測量與控制 2024年4期

劉澤，姜永利，丁志偉，劉永強(qiáng)

(國能寶日希勒能源有限公司，內(nèi)蒙古呼倫貝爾 021500)

0 引言

深度估計(jì)[1]是計(jì)算機(jī)視覺領(lǐng)域的一項(xiàng)重要任務(wù)，常應(yīng)用于自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航、虛擬現(xiàn)實(shí)、三維重建等高級應(yīng)用中。其本質(zhì)在于提取圖像特征，并通過這些特征來識(shí)別目標(biāo)、匹配對應(yīng)點(diǎn)、進(jìn)行像素級的深度估計(jì)，通過分析圖像或場景中各像素點(diǎn)間的距離或深度信息，實(shí)現(xiàn)三維場景的理解和建模。特征提取[2]在深度估計(jì)任務(wù)中至關(guān)重要，傳統(tǒng)的計(jì)算機(jī)視覺方法常使用手工設(shè)計(jì)特征，如方向梯度直方圖(HOG)、尺度不變特征變換(SIFT)和速度不變特征變換(SURF)。這些特征?；诰植考y理和邊緣信息，適用于一些傳統(tǒng)的深度估計(jì)算法。隨著深度學(xué)習(xí)的發(fā)展，卷積神經(jīng)網(wǎng)絡(luò)在深度估計(jì)中得到廣泛應(yīng)用，這類網(wǎng)絡(luò)能夠?qū)W習(xí)到目標(biāo)更多特征表示和匹配規(guī)則，提高立體匹配的性能。

戴仁月[3]提出一種融合卷積神經(jīng)網(wǎng)絡(luò)(CNN，convolutional neural network)與傳統(tǒng)即時(shí)定位與地圖構(gòu)建算法的深度估計(jì)方法，從非結(jié)構(gòu)化視頻序列中估計(jì)深度，使用當(dāng)前幀或相鄰幀來估計(jì)深度，但并未利用全局和幾何信息來優(yōu)化深度圖。溫靜[4]提出一種基于CNN特征提取和加權(quán)深度遷移的單目圖像深度估計(jì)方法，先提取CNN特征，并計(jì)算輸入圖像在數(shù)據(jù)集中的近鄰圖像，再獲得各候選近鄰圖像和輸入圖像間的像素級稠密空間形變函數(shù)，將形變函數(shù)遷移至候選深度圖像集，通過引入基于SIFT的遷移權(quán)重SSW，對加權(quán)遷移后的候選深度圖進(jìn)行優(yōu)化，以此獲得最終的深度信息。李格[5]提出CNN模型與CRFasRNN相結(jié)合的網(wǎng)絡(luò)結(jié)構(gòu)，該過程先以場景RGB圖的超像素塊為單元提取局部二進(jìn)制LBP特征、顏色差異特征、顏色直方圖分布差異特征，再歸一化3種特征下的特征圖，并以此對輸出的深度圖進(jìn)行線性濾波，隨后將此濾波結(jié)果作為聯(lián)合濾波器的CNN網(wǎng)絡(luò)輸入，進(jìn)一步提高深度估計(jì)精度。

卷積神經(jīng)網(wǎng)絡(luò)通過一系列卷積層和池化層學(xué)習(xí)圖像特征，其中卷積層使用不同尺寸卷積核捕獲不同感受野信息，有效提取圖像中的局部特征，以此獲得目標(biāo)表面結(jié)構(gòu)的重要信息。盡管CNN的局部特征提取能力強(qiáng)，但存在以下問題：

1)傳統(tǒng)CNN模型缺乏長距離依賴建模能力，難以捕獲圖像中物體間的全局關(guān)系和上下文信息。在深度估計(jì)任務(wù)中，特別在處理高分辨率圖像時(shí)，全局信息對準(zhǔn)確的深度估計(jì)至關(guān)重要；

2)由于CNN關(guān)注的是局部區(qū)域特征，常無法更好地捕獲全局信息，可能導(dǎo)致信息的捕獲能力下降。

近年來，基于注意力機(jī)制的模型在自然語言處理領(lǐng)域獲得廣泛應(yīng)用。Transformer[6-7]的自注意力機(jī)制可以突破感受野的限制，使其能夠在整個(gè)圖像上建立關(guān)聯(lián)，實(shí)現(xiàn)全局信息捕獲，具備較高的泛化性，對圖像分類、目標(biāo)檢測和分割等任務(wù)至關(guān)重要。 ViT(Vision Transformer)將圖像數(shù)據(jù)轉(zhuǎn)換為序列數(shù)據(jù)，使用Transformer架構(gòu)來處理序列數(shù)據(jù)，包括圖像塊的向量化表示、位置編碼、Transformer編碼器結(jié)構(gòu)，以及用于圖像分類的分類結(jié)構(gòu)。該架構(gòu)使得ViT能夠有效利用多頭自注意力機(jī)制建模像素間的關(guān)聯(lián)，處理不同尺寸的圖像，更好地理解圖像中的全局關(guān)系，在大規(guī)模圖像分類任務(wù)中表現(xiàn)出色。由于采用了相對模塊化結(jié)構(gòu)，使其容易擴(kuò)展和修改，適用于不同的任務(wù)和應(yīng)用。Swin Transformer[8]通過自注意力機(jī)制捕獲輸入序列中不同元素間的依賴，采用深度分層結(jié)構(gòu)，將輸入圖像分為不同分辨率圖像塊，在每個(gè)分辨率上應(yīng)用Transformer編碼器，有助于模型同時(shí)處理全局和局部信息，提高對不同尺度下的特征建模能力。Swin Transformer引入“Shifted Window”機(jī)制，使滑動(dòng)窗口的方式，允許模型在不同空間尺度下進(jìn)行全局信息交互，同時(shí)關(guān)注全局和局部信息，有效地捕獲了不同位置間的關(guān)系，從而進(jìn)一步增強(qiáng)了模型的特征提取能力。Swin Transformer可用于各種計(jì)算機(jī)視覺任務(wù)，包括圖像分類、對象檢測、語義分割和實(shí)例分割，多尺度特性使其適用于不同場景和任務(wù)。由此可見，視覺 Transformer 的多頭注意力機(jī)制具有長距離依賴和自適應(yīng)空間聚合能力，可以從海量數(shù)據(jù)中學(xué)到比CNN 網(wǎng)絡(luò)更加強(qiáng)大和魯棒的表征。

在自動(dòng)駕駛、增強(qiáng)現(xiàn)實(shí)、機(jī)器人導(dǎo)航等領(lǐng)域，經(jīng)常需要在復(fù)雜和多樣化場景中使用立體匹配技術(shù)。這類場景中，常存在弱紋理區(qū)域，因此解決弱紋理區(qū)域的立體匹配問題對于實(shí)際應(yīng)用至關(guān)重要。在傳統(tǒng)的立體匹配方法中，弱紋理區(qū)域無法獲得真實(shí)有效的視差，非重疊塊的嵌入表達(dá)可能導(dǎo)致弱紋理區(qū)域匹配歧義。為此，本文提出一種純粹基于Transformer架構(gòu)的弱紋理目標(biāo)立體匹配網(wǎng)絡(luò)。通過引入重疊式塊嵌入策略，提升弱紋理區(qū)域的匹配性能，使相鄰塊間的信息有所重疊，從而增加在弱紋理區(qū)域表達(dá)的一致性，減少歧義并提高深度估計(jì)性能，通過借助特征重構(gòu)窗口策略[9]增強(qiáng)特征的表達(dá)能力，以此提高模型在弱紋理區(qū)域的立體匹配性能。

1 立體匹配

如圖1所示，雙目相機(jī)是由左右兩個(gè)針孔相機(jī)水平拼接而成，當(dāng)兩個(gè)針孔相機(jī)的光圈中心都在一條線且法向量平行時(shí)，光圈中心間的距離為雙目相機(jī)的基線。

圖1 雙目相機(jī)模型

利用基線和相機(jī)的焦距，存在以下關(guān)系：

(1)

其中：z為p點(diǎn)在Z軸的投影長度，f為焦距，b為基線距離，UR-UL稱為視差。

雙目測距的匹配問題常稱之為立體匹配，其主要目標(biāo)是找到圖像中每個(gè)像素間的對應(yīng)視差，即兩個(gè)視角下的像素間的距離。視差值可用來估計(jì)目標(biāo)深度，從而還原出三維場景。從采用不同最優(yōu)化理論方法的角度出發(fā)，立體匹配的非學(xué)習(xí)方法可分為全局立體匹配與局部立體匹配兩類方法。從采用不同圖像表示基元的角度出發(fā)進(jìn)行分類，可分為區(qū)域立體匹配算法、基于特征的立體匹配算法和基于相位立體匹配算法，常見的立體匹配方法[10-13]包括匹配代價(jià)計(jì)算、代價(jià)聚合、視差計(jì)算、視差優(yōu)化4個(gè)步驟。

匹配代價(jià)是指圖像中的每個(gè)像素與其在另一圖像中匹配點(diǎn)間的相似度，可以通過各種方法計(jì)算，如灰度值、特征向量的相似性等。匹配代價(jià)圖通常具有噪聲和不確定性，因此需要進(jìn)行代價(jià)聚合，改善深度估計(jì)的質(zhì)量。代價(jià)聚合有助于整合匹配代價(jià)圖的局部信息，以獲得更平滑和準(zhǔn)確的視差圖。視差計(jì)算階段的任務(wù)是確定每個(gè)像素的最佳匹配點(diǎn)，即匹配代價(jià)最小的像素位置，對應(yīng)于左圖像中的像素在右圖像中的匹配點(diǎn)。視差值表示兩個(gè)像素間的距離，可用于估計(jì)目標(biāo)的深度，視差優(yōu)化階段旨在進(jìn)一步改善視差圖的質(zhì)量，常包括使用優(yōu)化算法，如動(dòng)態(tài)規(guī)劃、全局優(yōu)化或半全局匹配等，平滑和修復(fù)視差圖中的不一致性和噪聲。常見的代價(jià)計(jì)算方法有SAD(sum of absolute differences)、SSD(sum of squared differences)、AD算法等，其中AD算法是匹配代價(jià)計(jì)算中最簡單的算法之一，其主要思想是不斷比較左右相機(jī)中兩點(diǎn)的灰度值。通過固定左相機(jī)中的一個(gè)像素點(diǎn)，遍歷右相機(jī)中的所有像素點(diǎn)，不斷比較它們之前的灰度之差，灰度差即為匹配代價(jià)，其數(shù)學(xué)公式為：

CAD(p，q)=|IL(p)-IR(q)|

(2)

其中：p和q分別為左右圖像中的兩點(diǎn)，IL( )為左圖像中的灰度值，IR( )為右圖像中的灰度值。上式為灰度圖像間的匹配代價(jià)，彩色圖像AD算法的計(jì)算代價(jià)為：

(3)

代價(jià)聚合用于處理視差圖中的不確定性和噪聲，從而改善深度估計(jì)的質(zhì)量。代價(jià)聚合的目標(biāo)是將匹配代價(jià)圖(Cost Volume)的局部信息進(jìn)行整合，以獲得更平滑和準(zhǔn)確的視差圖。近年來諸多學(xué)者開展了基于深度學(xué)習(xí)的立體匹配方法研究工作，常采用卷積神經(jīng)網(wǎng)絡(luò)構(gòu)造立體匹配的特征提取器，將特征提取器分解為卷積編碼器與卷積解碼器。盡管基于卷積的特征提取器獲得較好效果，但卷積層的感受野通常是局部的，使得卷積層在處理全局信息或長距離依賴關(guān)系時(shí)面臨挑戰(zhàn)?；赥ransformer的模型可以較好地解決該問題，在解碼器模塊中，所有注意力計(jì)算均采用點(diǎn)積形式，其中輸入特征可分為查詢(Q)、鍵(K)和值(V)。查詢Q借助點(diǎn)積運(yùn)算得到的注意力權(quán)重，可從值V中檢索相關(guān)信息，計(jì)算公式如下：

(4)

2 總體架構(gòu)

總體架構(gòu)如圖2所示，通過編碼器和解碼器模塊協(xié)同工作實(shí)現(xiàn)圖像處理和表示學(xué)習(xí)。編碼器模塊對輸入特征進(jìn)行初步處理，增強(qiáng)特征的細(xì)粒度，將其傳遞給Transformer塊，以進(jìn)行全局地表征學(xué)習(xí)。在解碼器模塊中，輸入特征經(jīng)轉(zhuǎn)置卷積層處理獲高分辨率的特征表示，并與編碼器中的同級特征進(jìn)行融合，詳細(xì)過程如下：

圖2 總體網(wǎng)絡(luò)架構(gòu)

編碼器模塊通過多層卷積操作增加輸入特征的細(xì)粒度，卷積層通過一系列卷積核滑動(dòng)捕捉輸入圖像的局部特征，逐漸將圖像中的細(xì)節(jié)信息傳遞到更高級別的表征，這種方式有助于模型更好地理解圖像的局部結(jié)構(gòu)。將編碼器將處理后的特征輸入到Transformer結(jié)構(gòu)中進(jìn)行全局表征學(xué)習(xí)。Transformer借助于模型捕獲不同位置之間的依賴關(guān)系，從而可以更好地理解圖像中的全局結(jié)構(gòu)信息。兩個(gè)組件間的結(jié)合使得編碼器模塊能夠在保留細(xì)粒度特征的同時(shí)，提高對整體圖像的特征提取能力。

解碼器模塊用于恢復(fù)高分辨率特征表示，并將其與編碼器中的同級特征進(jìn)行融合，解碼器通過轉(zhuǎn)置卷積操作來逆轉(zhuǎn)這種過程。在解碼器中，轉(zhuǎn)置卷積層有助于對低分辨率特征進(jìn)行上采樣，從而獲得更高分辨率的特征圖。這些高分辨率特征圖可以幫助模型更好地理解圖像細(xì)節(jié)，如紋理和邊緣等，將這些高分辨率特征與編碼器中的同級特征進(jìn)行融合，獲得更為全面的特征表示。

這種編碼器-解碼器架構(gòu)的優(yōu)點(diǎn)在于能夠從多層次上捕獲圖像特征，提高模型的特征提取能力，其核心是Block模塊結(jié)構(gòu)，主要由以下幾個(gè)部分構(gòu)成：

1)局部感知單元(Local Perception Unit)，將輸入圖片信息，與 3*3 的卷積操作相加，旨在增加空間信息提取能力。

2)輕量級多頭注意力機(jī)制(Lightweight Multi-head Self-attention)，使用深度卷積計(jì)算代替 key 和 value 的計(jì)算，從而減輕計(jì)算開銷。

3)反向殘差前饋網(wǎng)絡(luò)(Inverted Residual Feed-forward Network)，類似于反向殘差塊，由擴(kuò)展層、深度卷積和投影層組成。通過改變跳躍連接的位置，提高網(wǎng)絡(luò)性能。深度卷積用于提取局部信息，其計(jì)算成本可以忽略不計(jì)，跳躍連接與經(jīng)典的殘差網(wǎng)絡(luò)相似，可以提高梯度跨層的傳播能力。

3 方法

在Vision Transformer和Pyramid Vision Transformer(PVT)[14-16]中，首先將輸入圖像劃分為不相交的圖像塊，這些圖像塊被視為模型的“詞”或“記號”，類似于自然語言處理中的標(biāo)記化。每個(gè)圖像塊及其位置編碼通過一個(gè)線性映射被嵌入到固定維度的向量空間中，以此構(gòu)成一個(gè)序列。將該序列作為輸入送入Transformer編碼器[17]中，用于提取圖像中的特征，建模像素之間的關(guān)系。與傳統(tǒng)的VIT和PVT方法不同，本文提出一種重疊式詞嵌入方法，以更好地處理弱紋理區(qū)域和捕獲相鄰區(qū)域的特征信息。采用重疊式詞嵌入方法，圖像塊之間存在重疊，有助于在加強(qiáng)相似像素差異的同時(shí)，捕獲更為全面的特征信息。以編碼器的第一階段為例，通過卷積操作將輸入特征圖縮減到較小的尺寸，更好地捕獲局部特征。將這些小塊特征圖轉(zhuǎn)化為詞嵌入，加入位置編碼輸入到Transformer中，以便在全局范圍內(nèi)提取圖像特征。

Transformer能夠處理序列數(shù)據(jù)中不同位置的依賴關(guān)系，從而有效減輕弱紋理區(qū)域缺少特征的問題。全局特征被重新調(diào)整為原始大小的特征圖，可以獲得具有更好表示能力的特征圖。如需多尺度的特征圖，可將第一階段的輸出再次輸入到第二階段，重復(fù)該過程。這種重疊式詞嵌入方法可有效捕獲每個(gè)塊區(qū)域以及周邊鄰域的特征信息，從而更好地突出相似像素間的差異。

在處理高分辨率的立體圖像對時(shí)，使用重疊式詞嵌入方法處理整個(gè)特征圖時(shí)，其注意力計(jì)算開銷較大，龐大的詞嵌入數(shù)量可能導(dǎo)致計(jì)算資源超出范圍。為了在處理高分辨率圖像時(shí)仍能保持計(jì)算效率，引入一項(xiàng)特征重構(gòu)窗口策略，如圖3所示。該策略允許在提取多尺度特征的同時(shí)，使注意力計(jì)算具有在線性時(shí)間復(fù)雜度。具體來說，在不考慮整個(gè)特征圖的情況下，僅選擇一部分窗口進(jìn)行注意力計(jì)算，從而降低計(jì)算復(fù)雜度。這種方式在處理高分辨率圖像時(shí)能夠節(jié)省大量計(jì)算資源，通過選擇適當(dāng)?shù)拇翱诖笮『臀恢?，可以在不降低建模質(zhì)量的情況下，提高模型的計(jì)算效率?？偟膩碚f，給出的基于重疊式詞嵌入和特征重構(gòu)窗口策略能夠更好地處理弱紋理區(qū)域和高分辨率圖像，同時(shí)保持了計(jì)算效率，計(jì)算公式如下：

(5)

圖3 特征重構(gòu)窗口

特征重構(gòu)窗口旨在聚合不同區(qū)域的上下文信息，在減少計(jì)算復(fù)雜度的同時(shí)提高網(wǎng)絡(luò)獲取全局信息的能力。這一策略融合了空間信息的提取、Transformer模型的全局特征學(xué)習(xí)以及注意力計(jì)算的高效性。為確保鄰域信息的連續(xù)性，將原始高分辨率圖像劃分為多個(gè)重疊塊，每個(gè)圖像塊映射為相應(yīng)數(shù)量的詞嵌入，引入位置編碼來保留圖像塊的空間位置信息。由于圖像塊被映射為詞嵌入，丟失了原始圖像塊的空間位置信息。為解決該問題，特征重構(gòu)窗口引入位置編碼，將坐標(biāo)信息嵌入到詞嵌入中，以此保留圖像塊的空間位置。位置編碼使模型能夠理解每個(gè)塊的相對位置，以便更好地捕獲全局特征信息。在獲得詞嵌入后，特征重構(gòu)窗口進(jìn)行多尺度的空間聚合，這有助于減小鍵和值矩陣的尺寸，從而降低注意力計(jì)算的復(fù)雜度。多尺度的聚合使模型能夠在不同尺度上捕獲特征，從細(xì)節(jié)到全局信息都能得到充分考慮，有助于提高網(wǎng)絡(luò)性能。

經(jīng)過空間聚合后，通過池化操作將特征合并，并采用卷積操作進(jìn)行特征重組，該過程有助于將特征信息更好地組織，用于后續(xù)的注意力計(jì)算。合并池化后的特征，通過卷積操作進(jìn)行重組，最終轉(zhuǎn)化為可用于注意力計(jì)算的詞嵌入，將這些詞嵌入送入Transformer模型，通過多頭自注意力[18-19]獲取全局信息和長距離依賴，與卷積隨著網(wǎng)絡(luò)加深擴(kuò)大感受野，在每個(gè)階段均可以提取到全局特征，能盡可能地減少丟失語義信息的情況，為解碼器提供更為豐富的全局信息，以此生成高準(zhǔn)確度深度圖。

以上所述的特征重構(gòu)窗口[20-21]策略關(guān)鍵點(diǎn)在于充分利用圖像的空間信息，將圖像分塊處理，并引入Transformer進(jìn)行全局特征學(xué)習(xí)。該策略的優(yōu)勢在于處理高分辨率圖像時(shí)，仍能保持注意力計(jì)算的線性時(shí)間復(fù)雜度，與傳統(tǒng)方法和一些基于詞嵌入的方法相比，特征重構(gòu)窗口為高效深度估計(jì)提供了一種新途徑，不僅如此，該方法還可在多尺度條件下提供更為全面的特征信息，從而改善深度估計(jì)的性能。

4 實(shí)驗(yàn)與分析

4.1 實(shí)驗(yàn)設(shè)置

實(shí)驗(yàn)采用Pytorch機(jī)器學(xué)習(xí)庫，顯卡選用NVIDIA GTX 3090。為驗(yàn)證所提方法的有效性和不同場景的泛化性，在兩個(gè)常用的公開數(shù)據(jù)集Scene Flow和KITTI上展開實(shí)驗(yàn)。KTTTI數(shù)據(jù)集是一個(gè)廣泛用于計(jì)算機(jī)視覺和自動(dòng)駕駛研究的數(shù)據(jù)集，提供了多種類型的傳感器數(shù)據(jù)，包括圖像、激光雷達(dá)、GPS和IMU，以及豐富的標(biāo)注信息。該數(shù)據(jù)集用于目標(biāo)檢測、立體視覺、SLAM和自動(dòng)駕駛等領(lǐng)域的研究和開發(fā)。主要場景有公路，鄉(xiāng)村和市區(qū)等，為保證實(shí)驗(yàn)結(jié)果的可比較性，按Eigen等人的方法劃分?jǐn)?shù)據(jù)集，來自32個(gè)場景的23 158張圖像作為訓(xùn)練集，652張來自29個(gè)不同場景的圖像作為測試集，訓(xùn)練時(shí)隨機(jī)裁剪輸入圖像為352像素×704像素，測試時(shí)按Garg等人提出的方法做中心裁剪。Scene Flow為合成的數(shù)據(jù)集，包含了豐富的圖像數(shù)據(jù)，每個(gè)場景都包括3個(gè)連續(xù)幀的圖像序列。這些圖像序列提供了不同視角下的真實(shí)世界場景，用于深度學(xué)習(xí)模型的訓(xùn)練和評估。此外，數(shù)據(jù)集還包括了與圖像對應(yīng)的視差地圖、光流場、相機(jī)參數(shù)等附加信息。

采用3種標(biāo)準(zhǔn)評估深度估計(jì)的Transformer架構(gòu)的性能：

EPE(End-Point-Error)，表示預(yù)測值和真實(shí)值在視差空間的絕對距離，其中為pred預(yù)測值，true為真實(shí)值，計(jì)算公式如下：

EPE=|pred-true|

(6)

3像素錯(cuò)誤(3PE)，表示視差錯(cuò)誤大于3像素的百分比，其中Tr表示視差錯(cuò)誤大于3像素的數(shù)量，L表示視差錯(cuò)誤像素的數(shù)量，計(jì)算公式如下：

(7)

遮擋交并比(OIOU)，用于評估遮擋區(qū)域的預(yù)測結(jié)果，計(jì)算公式如下：

(8)

4.2 實(shí)驗(yàn)過程及方法

2)基于Softmax操作的加法不變性，通過設(shè)置系數(shù)c將注意力分?jǐn)?shù)約束在16位精度范圍內(nèi)。

4.3 Scene Flow數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

合成數(shù)據(jù)集Scene Flow的實(shí)驗(yàn)結(jié)果如表1所示，給出了在Scene Flow數(shù)據(jù)集的實(shí)驗(yàn)對比結(jié)果。在訓(xùn)練和評估階段，將最大視差值分別設(shè)為192和480。由表1可見，本文方法在Scene Flow數(shù)據(jù)集上的指標(biāo)獲得顯著提升。由于注意力計(jì)算不受像素間的距離約束，本文方法在D=480時(shí)依然能夠保持D=192的性能，且優(yōu)于其它方法。在表1中，Oom表示在相同的實(shí)驗(yàn)條件下，對應(yīng)模型無法處理Scene Flow數(shù)據(jù)集中高分辨率和大視差范圍的圖像。

表1 在Scene Flow數(shù)據(jù)集的對比實(shí)驗(yàn)

4.4 KITTI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

室外數(shù)據(jù)集KITTI的實(shí)驗(yàn)結(jié)果如表2所示，對KITTI 2015數(shù)據(jù)集中的200組立體像對進(jìn)行微調(diào)訓(xùn)練，與傳統(tǒng)方法相比，本文方法在KITTI2015上各指標(biāo)均得到提升。表2中，在前景區(qū)域上的平均異常值百分比D1-fg指標(biāo)提升4%，在背景區(qū)域上的平均異常值百分比D1-bg指標(biāo)和整體圖像的平均異常值百分比D1-all指標(biāo)也都有顯著的提升。

表2 KITTI數(shù)據(jù)集的對比實(shí)驗(yàn)

4.5 弱紋理區(qū)域結(jié)果分析

目前，大多數(shù)公開數(shù)據(jù)集很少提供對圖像中弱紋理程度的定義，本文采用一種基于圖像像素聚類的方法來衡量圖像的紋理強(qiáng)弱。將每個(gè)像素視為一個(gè)樣本，使用其RGB值作為特征維度，利用K鄰近聚類算法對圖像進(jìn)行聚類，以確定不同像素類別的數(shù)量，這個(gè)數(shù)量可以用來量化圖像的紋理強(qiáng)弱程度。在Scene Flow測試數(shù)據(jù)集中，得到了不同類別數(shù)目，分別在區(qū)間[839，1 500]，[1 500，10 000]和[10 000，15 127]內(nèi)。這3個(gè)區(qū)間分別代表了“困難”“中等”和“簡單”樣本。表3中，進(jìn)一步通過使用EPE指標(biāo)進(jìn)行實(shí)驗(yàn)對比，所有方法在“困難”樣本上的準(zhǔn)確率明顯低于“中等”和“簡單”樣本，這說明弱紋理區(qū)域?qū)αⅢw匹配的準(zhǔn)確性產(chǎn)生了明顯影響。此外，本文方法在3種不同樣本區(qū)間上都獲得了較好的結(jié)果，而在“困難”樣本上的提升尤為顯著，表明本文方法對于處理弱紋理區(qū)域具有出色的性能，這一優(yōu)勢得益于Transformer架構(gòu)的全局表征學(xué)習(xí)能力。

表3 弱紋理區(qū)域?qū)Ρ葘?shí)驗(yàn)

由圖4可見，隨著解碼器的逐步深入，弱紋理區(qū)域和細(xì)粒度區(qū)域的特征能力得到了明顯提升，有助于更好地處理這些具有挑戰(zhàn)性的弱紋理區(qū)域。

圖4 實(shí)驗(yàn)結(jié)果對比

5 結(jié)束語

本文提出一種弱紋理目標(biāo)立體匹配網(wǎng)絡(luò)，給出一種新的特征提取方法，利用Transformer架構(gòu)，將編碼器和解碼器結(jié)構(gòu)應(yīng)用于特征提取器，結(jié)合卷積和Transformer的優(yōu)勢，利用重疊式詞嵌入策略更好地捕獲圖像中的局部紋理和上下文信息，特別對弱紋理和遮擋區(qū)域的深度估計(jì)提供顯著改進(jìn)。通過引入特征重構(gòu)窗口來有效傳遞信息，減少計(jì)算復(fù)雜度，并在多個(gè)數(shù)據(jù)集上得到了更準(zhǔn)確的深度估計(jì)結(jié)果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡