国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于加權(quán)相似性的MCCNN訓(xùn)練集選擇方法

2022-02-15 07:00:42范聰聰葛寶瑧范怡萍
關(guān)鍵詞:立體匹配視差相似性

范聰聰,葛寶瑧,范怡萍

(天津大學(xué) 精密儀器與光電子工程學(xué)院,天津 300072)

0 引 言

近年來,基于卷積神經(jīng)網(wǎng)絡(luò)[1]的立體匹配算法[2-4]越來越受到關(guān)注,其中,MCCNN網(wǎng)絡(luò)(matching cost convolutioal neural network)[2]是用于立體匹配的典型方法。使用MCCNN網(wǎng)絡(luò)必須利用訓(xùn)練集來訓(xùn)練模型中的參數(shù),利用測(cè)試集來評(píng)估立體匹配性能,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)需要滿足獨(dú)立同分布原理[5],即訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)分布要有一定的相似性,相似性越高,匹配結(jié)果越好。因此在MCCNN的實(shí)際應(yīng)用中,需要根據(jù)待匹配圖像的特點(diǎn),合理選擇訓(xùn)練數(shù)據(jù)集,以達(dá)到較好的匹配結(jié)果。在雙目數(shù)據(jù)集的選擇上,Su等[6]選擇包含真實(shí)的背景紋理和變化的光照的數(shù)據(jù)集,Lee等[7]通過定性實(shí)驗(yàn),選擇不同的數(shù)據(jù)集共同訓(xùn)練,Mayer團(tuán)隊(duì)[8]選擇對(duì)攝像機(jī)畸變進(jìn)行建模的合成數(shù)據(jù)集。上述研究通過定性實(shí)驗(yàn)得到選擇數(shù)據(jù)集的方法,但如何通過定量的標(biāo)準(zhǔn)為待匹配圖像選擇合適的訓(xùn)練集是一個(gè)值得研究的問題。

針對(duì)MCCNN立體匹配數(shù)據(jù)集定量選擇的問題,本文提出了一種基于相關(guān)性比較、余弦相似性和結(jié)構(gòu)相似性加權(quán)度量的選擇方法,在網(wǎng)絡(luò)訓(xùn)練前先使用這3個(gè)相似性標(biāo)準(zhǔn)的加權(quán)值衡量待匹配圖像與目前公開訓(xùn)練集的相似性,以及訓(xùn)練集本身的相似性,選擇相似性最高的對(duì)應(yīng)數(shù)據(jù)集進(jìn)行訓(xùn)練,最后實(shí)驗(yàn)結(jié)果表明,通過該相似性標(biāo)準(zhǔn)選擇與待匹配圖像相似性高的數(shù)據(jù)集訓(xùn)練MCCNN網(wǎng)絡(luò)進(jìn)行立體匹配,相比常用的BM(block matching)[9]、SSD(sum of squared differences)[10]、NCC(normalized cross correlation)[11]、BP(belief propagation)[12]等4種立體匹配方法得到的視差圖更準(zhǔn)確。

1 MCCNN立體匹配原理

MCCNN的基本原理是通過卷積神經(jīng)網(wǎng)絡(luò)分別提取左右圖像塊的特征,獲得特征向量,再利用特征向量構(gòu)造損失函數(shù),進(jìn)行網(wǎng)絡(luò)訓(xùn)練。網(wǎng)絡(luò)訓(xùn)練完成后,利用訓(xùn)練好的模型對(duì)輸入圖像對(duì)進(jìn)行立體匹配時(shí),整個(gè)流程如圖1所示。

圖1 MCCNN立體匹配流程

網(wǎng)絡(luò)經(jīng)過連續(xù)的卷積層提取輸入左右圖像對(duì)的特征,并在卷積層除最后一層外接ReLU激活函數(shù), ReLU(x)=max(0,x) 式中x為提取的圖像特征,將兩個(gè)分支網(wǎng)絡(luò)提取的特征圖經(jīng)過歸一化和點(diǎn)積后,輸出兩個(gè)圖像對(duì)的相似度,取相似度的負(fù)值作為初始化的匹配代價(jià)。然后通過基于交叉的代價(jià)聚合和半全局匹配算法后,利用“贏者通吃”策略(winner take all,WTA)找到使匹配代價(jià)最小的視差值作為該像素的視差值,從而生成初始的視差圖,最后經(jīng)過一致性檢測(cè)、亞像素增強(qiáng)、中值濾波等進(jìn)一步優(yōu)化,生成最終的視差圖。

2 目前主要的公開數(shù)據(jù)集

目前,常見用于訓(xùn)練的雙目立體視覺數(shù)據(jù)集見表1,其中N代表自然數(shù)據(jù)集,S代表合成數(shù)據(jù)集。自然數(shù)據(jù)集是用相機(jī)等采集裝置拍攝的真實(shí)場(chǎng)景的圖片,合成數(shù)據(jù)集是使用三維建模軟件渲染生成的虛擬場(chǎng)景的圖片。自然數(shù)據(jù)集是Middlebury[13]、Kitti[14]、Eth3d[15]和Cityscapes[16]。合成數(shù)據(jù)集是Sintel[17]、Flyingthings3D、Mookaa和Dri-ving[18],下面對(duì)這些數(shù)據(jù)集進(jìn)行簡單的介紹。

表1 雙目立體視覺數(shù)據(jù)集基本特性

Middlebury數(shù)據(jù)集最早于2001年創(chuàng)建,均是在窒內(nèi)通過控制不同的光照條件拍攝而得,示例如圖2(a)所示,被廣泛應(yīng)用于計(jì)算機(jī)視覺領(lǐng)域,多用于算法的評(píng)估。Kitti數(shù)據(jù)集在2012年創(chuàng)建并在2015年進(jìn)行了擴(kuò)充,采用車載雙目攝像頭在街道行駛并拍攝真實(shí)道路場(chǎng)景,示例如圖2(b)所示,是目前最常用的自動(dòng)駕駛場(chǎng)景下的算法評(píng)測(cè)數(shù)據(jù)集。Cityscapes數(shù)據(jù)集是Cordts等在2016年創(chuàng)建的城市景觀數(shù)據(jù)集,示例如圖2(c)所示,和Kitti類似采用車載相機(jī)錄制了50個(gè)不同城市大量多樣的街道場(chǎng)景視頻序列。Eth3d數(shù)據(jù)集是Thomas等使用單反相機(jī)及具有不同視場(chǎng)的同步多相機(jī)裝置拍攝的圖像對(duì),示例如圖2(d)所示,包括各種室內(nèi)、室外場(chǎng)景的多視圖和二視圖高分辨圖像對(duì)。

近年來合成數(shù)據(jù)集得到了較快發(fā)展,Butler等通過開源動(dòng)畫電影中的現(xiàn)有數(shù)據(jù),在三維建模軟件blender中進(jìn)行渲染提供了一個(gè)合成數(shù)據(jù)集Sintel,示例如圖2(e)所示,包含了一些逼真的場(chǎng)景,例如霧氣和運(yùn)動(dòng)模糊。Mayer等同樣利用開源的3D軟件構(gòu)建了SceneFlow數(shù)據(jù)集,其中包括3個(gè)子集,F(xiàn)lyingthings3d、Monkaa和Driving,示例如圖2(f)~圖2(h)所示,F(xiàn)lyingthings3d數(shù)據(jù)集采用隨機(jī)導(dǎo)入網(wǎng)絡(luò)模型并為模型附上紋理,之后將模型沿著3D軌跡飛行,最后進(jìn)行渲染采集。Mookaa數(shù)據(jù)集是利用一段開源的動(dòng)畫電影,選取關(guān)鍵幀并進(jìn)行隨機(jī)的更改。Driving數(shù)據(jù)集采取導(dǎo)入逼真的汽車、路燈和樹木模型并進(jìn)行渲染采集。3個(gè)數(shù)據(jù)集共計(jì)34 799對(duì)圖像,極大地解決了數(shù)據(jù)集不足的問題,是目前規(guī)模最大的雙目數(shù)據(jù)集。

圖2 數(shù)據(jù)集示例

3 基于加權(quán)相似性的數(shù)據(jù)集選擇方法

3.1 圖像的相似性度量標(biāo)準(zhǔn)

針對(duì)不同的圖像特征指標(biāo)和計(jì)算原理,可以分為基于概率[19-21]、幾何特征[22-24]以及語義特征[25]的3類圖像相似性度量方法。

基于概率的相似性度量方法是根據(jù)圖像像素值的概率分布,對(duì)圖像的直方圖進(jìn)行比較,幾種常用的比較方法有:

(1)巴氏距離[19](Bhattacharyya distance)

(1)

(2)相關(guān)性比較[20](Correlation)

(2)

(3)卡方比較[21](Chi-Square)

(3)

基于幾何特征的相似性度量方法主要有距離相似度[22]、方向相似度[23]以及形狀相似度[24]等指標(biāo)。距離相似度指標(biāo)主要是計(jì)算圖形特征之間的距離,通過距離的大小衡量相似性程度,主要有歐氏距離、曼哈頓距離等,距離相似度計(jì)算比較簡單往往需要和其它指標(biāo)綜合使用。方向相似度主要是計(jì)算圖像之間的角度差,代表為余弦相似性,如式(4)所示,通過測(cè)量兩張圖片向量夾角的余弦值來度量它們之間的相似性大小。向量夾角越小,則余弦值越接近1,方向更加吻合,兩張圖片越相似

(4)

式中:xi、yi為要比較的兩張圖像在i位置處的像素灰度值,n為像素總數(shù)。形狀相似度指標(biāo)有面積比、重疊面積比、周長比、形狀比率等,某一特征指標(biāo)V(如面積、周長等)的相似度計(jì)算如式(5)所示,形狀相似度指標(biāo)范圍為(0,1),當(dāng)兩張圖像分布越相似時(shí),形狀相似度指標(biāo)越接近于1

(5)

基于語義特征的相似性度量表現(xiàn)在圖像的像素間存在著很強(qiáng)的相關(guān)性,這些相關(guān)性在視覺場(chǎng)景中攜帶著關(guān)于物體結(jié)構(gòu)的重要信息。主要由結(jié)構(gòu)相似性(structural simila-rity,SSIM)[25]來衡量,結(jié)構(gòu)相似性用圖像均值作為亮度的估計(jì),標(biāo)準(zhǔn)差作為對(duì)比度的估計(jì),協(xié)方差作為結(jié)構(gòu)相似度的估計(jì)。給定兩張圖像x和y,其結(jié)構(gòu)相似性可按照式(6)求出

(6)

在進(jìn)行相似度計(jì)算時(shí)一般會(huì)選取多個(gè)相似性指標(biāo)進(jìn)行綜合計(jì)算。因此根據(jù)計(jì)算量和應(yīng)用程度選取了基于概率的相關(guān)性比較、基于幾何特征的余弦相似性比較和基于語義特征的結(jié)構(gòu)相似性比較,這3種相似性度量標(biāo)準(zhǔn)的取值范圍都為(0,1),且均為兩張圖像越相似時(shí),值越近于1。用這3種相似性度量標(biāo)準(zhǔn)計(jì)算測(cè)試集與訓(xùn)練集的互相似性以及訓(xùn)練集本身的自相似性值。

互相似性以圖3(a)、圖3(b)所示為例,是指待匹配圖像Kitti與訓(xùn)練集Middlebury圖像數(shù)據(jù)分布的相似性;自相似性以圖3(c)、圖3(d)所示為例,是指訓(xùn)練集Middlebury內(nèi)部不同圖像數(shù)據(jù)之間的相似性。

圖3 相似性示例

計(jì)算的方法主要有總分法[26]和加權(quán)法[27]??偡址▽⑦x取的各個(gè)相似度指標(biāo)的和作為相似度值,而加權(quán)法考慮了不同指標(biāo)對(duì)綜合相似度值的不同影響,使用比較廣泛,故采用加權(quán)法進(jìn)行綜合計(jì)算,一般加權(quán)法所采用的權(quán)重系數(shù)靠經(jīng)驗(yàn)決定,主觀性較大,因此在本文中采用實(shí)驗(yàn)的方法確定加權(quán)系數(shù)。

3.2 加權(quán)系數(shù)確定流程

加權(quán)系數(shù)確定流程如圖4所示,整個(gè)過程描述如下。

圖4 加權(quán)系數(shù)確定流程

(1)先將第2節(jié)介紹的8種數(shù)據(jù)集依次在MC-CNN網(wǎng)絡(luò)上訓(xùn)練得到8種網(wǎng)絡(luò)模型,將測(cè)試數(shù)據(jù)依次在這8種模型上匹配得到視差圖。視差圖的評(píng)價(jià)標(biāo)準(zhǔn)采用平均誤匹配率,誤差容限閾值取3像素,即計(jì)算得到的視差圖與視差真值相差大于3個(gè)像素時(shí),認(rèn)為是錯(cuò)誤匹配點(diǎn)。這樣得到在測(cè)試集上每種模型的平均誤匹配率,結(jié)果見表2。

(3)按不同的加權(quán)系數(shù)分別計(jì)算出測(cè)試集與訓(xùn)練集的互相似性和訓(xùn)練集本身的自相似性值,并將兩者的值相加,即加權(quán)相似性范圍為(0,2)。

表2 各類數(shù)據(jù)集測(cè)試平均誤匹配率/%

(7)

(5)計(jì)算下一加權(quán)系數(shù)組合下的正確率,直到計(jì)算完成全部4356種不同加權(quán)系數(shù)組合下的正確率。

(6)選擇正確率最高時(shí)對(duì)應(yīng)的加權(quán)系數(shù)組合。

表3 加權(quán)系數(shù)組合情況

3.3 結(jié)果與分析

將表3中不同加權(quán)系數(shù)的組合情況與在不同情況下的正確率繪制散點(diǎn)圖,如圖5所示。同時(shí)還計(jì)算了當(dāng)只考慮自相似性和只考慮互相似性時(shí)的正確率,繪制這兩種情況下加權(quán)系數(shù)的組合與在不同組合下正確率的散點(diǎn)圖,如圖6、圖7所示。

圖5 綜合互相似性和自相似性時(shí)的正確率

圖6 只考慮自相似性時(shí)的正確率

圖7 只考慮互相似性時(shí)的正確率

表4 不同情況下符合相似性越高、 平均誤匹配率越低的正確率/%

按得到的權(quán)重系數(shù)對(duì)測(cè)試集與訓(xùn)練集的互相似性和訓(xùn)練集本身的自相似性進(jìn)行加權(quán),加權(quán)結(jié)果見表5,為直觀表達(dá)在這一權(quán)重系數(shù)下,相似性和平均誤匹配率的關(guān)系,將表2和表5中的數(shù)據(jù)繪制散點(diǎn)圖如圖8所示,其中圖8的橫坐標(biāo)為表5中測(cè)試集與訓(xùn)練集的加權(quán)相似性值,縱坐標(biāo)為表2中測(cè)試集的平均誤匹配率。由于在這一權(quán)重系數(shù)下,符合相似性越高,平均誤匹配率率越低這一關(guān)系的正確率為90%,所以出現(xiàn)了少部分異常點(diǎn),但整體上隨著相似性的增加,平均誤匹配率呈下降趨勢(shì),加權(quán)相似性最高時(shí),匹配結(jié)果最好。

表5 測(cè)試集和訓(xùn)練集的加權(quán)相似度

圖8 相似性與匹配平均錯(cuò)誤率的關(guān)系

4 實(shí) 驗(yàn)

為了對(duì)加權(quán)相似性度量方法的有效性進(jìn)行驗(yàn)證,進(jìn)行了二組實(shí)驗(yàn)。實(shí)驗(yàn)一,選擇InStereo2K[28]數(shù)據(jù)集數(shù)據(jù)進(jìn)行實(shí)驗(yàn),如圖9(a)、圖9(b)所示的InStereo2K數(shù)據(jù)集中的兩組圖片作為待匹配數(shù)據(jù),為其進(jìn)行訓(xùn)練集的選擇。實(shí)驗(yàn)二,以兩組實(shí)際拍攝圖像對(duì)作為待匹配數(shù)據(jù)進(jìn)行實(shí)驗(yàn)。實(shí)拍圖像是使用兩臺(tái)佳能5D MARKIII單反相機(jī)與兩支佳能EF 600 mm f/4L IS USM鏡頭進(jìn)行采圖,將采集的圖像對(duì)進(jìn)行立體校正,如圖9(c)、圖9(d)所示為經(jīng)過立體校正后的兩組左右圖像對(duì)。

4.1 視差圖質(zhì)量評(píng)價(jià)標(biāo)準(zhǔn)

視差圖的質(zhì)量是所提訓(xùn)練集選擇方法性能的直接反映,評(píng)價(jià)標(biāo)準(zhǔn)采用比較不同數(shù)據(jù)集訓(xùn)練匹配得到的視差值與標(biāo)準(zhǔn)視差值相差大于3個(gè)像素的平均誤匹配率,但由于實(shí)拍圖像沒有標(biāo)準(zhǔn)視差圖,本文先由SGM[29]算法計(jì)算得到參考視差圖,圖9中圖(a3)、圖(b3)為InStereo2K兩組圖片的標(biāo)準(zhǔn)視差圖,圖(c3)、圖(d3)為實(shí)拍圖像經(jīng)過SGM算法計(jì)算得到的參考視差圖。

4.2 加權(quán)相似性與平均誤匹配率分析

首先按3.3節(jié)得到的3個(gè)相似性標(biāo)準(zhǔn)的加權(quán)系數(shù),計(jì)算圖9(a)~圖9(d)這4組圖片數(shù)據(jù)與8種公開訓(xùn)練集的互相似性,以及各訓(xùn)練集的自相似性,加權(quán)相似性結(jié)果見表6,從表中可以看出,InStereo2K兩組圖片與Cityscapes數(shù)據(jù)集的加權(quán)相似性最高,實(shí)拍圖像1與Flying-things3d數(shù)據(jù)集加權(quán)相似性最高,實(shí)拍圖像2與Mookaa數(shù)據(jù)集加權(quán)相似性最高。

為實(shí)驗(yàn)圖片選擇加權(quán)相似度最高的數(shù)據(jù)集進(jìn)行訓(xùn)練匹配,為了進(jìn)行對(duì)比,同時(shí)選擇相似性較低的數(shù)據(jù)集進(jìn)行訓(xùn)練匹配,圖9(a4)~圖9(d4)分別表示對(duì)InStereo2k圖片和實(shí)拍圖像使用加權(quán)相似性較高的數(shù)據(jù)集訓(xùn)練匹配得到的視差圖,圖9(a5)~圖9(d5)表示采用加權(quán)相似性較低的數(shù)據(jù)集訓(xùn)練匹配得到的視差圖。在圖中標(biāo)注了與標(biāo)準(zhǔn)視差圖相比得到的平均誤匹配率,數(shù)值越低表示匹配結(jié)果越好。

從圖9中看到,采用相似性較低的數(shù)據(jù)集得到的視差圖相比標(biāo)準(zhǔn)視差圖有很多錯(cuò)誤匹配點(diǎn),效果不是特別理想,而采用加權(quán)相似性較高的數(shù)據(jù)集得到的視差圖更為平滑,也均比采用相似性較低的數(shù)據(jù)集訓(xùn)練得到視差圖的平均誤匹配率低。

圖9 視差圖結(jié)果對(duì)比

表6 實(shí)驗(yàn)圖片與訓(xùn)練集的加權(quán)相似性

實(shí)驗(yàn)說明在本文選擇的相似性標(biāo)準(zhǔn)的加權(quán)系數(shù)下,實(shí)驗(yàn)圖片與訓(xùn)練集的加權(quán)相似性和平均誤匹配率符合相似性越高,平均誤匹配率越小這一關(guān)系,選擇相似性較高的對(duì)應(yīng)數(shù)據(jù)集訓(xùn)練可以提高視差圖的準(zhǔn)確率。

為了進(jìn)一步評(píng)價(jià)所提方法的立體匹配效果,選擇了BM(block matching)[9]、SSD(sum of squared differences)[10]、NCC(normalized cross correlation)[11]、BP(belief propagation)[12]這4種常用的匹配方法進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)在Windows 10系統(tǒng)上進(jìn)行,使用處理器Intel(R) Core(TM) i7-8700,3.2 GHz,內(nèi)存8 GB。使用Python語言+Opencv庫,輸入圖像與圖9的實(shí)驗(yàn)一樣,實(shí)驗(yàn)結(jié)果見表7和表8,表7中給出了5種匹配方法對(duì)相同的4組輸入圖像的視差圖平均誤匹配率,表8為運(yùn)行時(shí)間。從表7中可以看出,相比于其它對(duì)比方法,使用所提方法選擇的數(shù)據(jù)集去訓(xùn)練MCCNN網(wǎng)絡(luò)進(jìn)行立體匹配,得到的視差圖平均誤匹配率低于其它對(duì)比方法。同時(shí),從表8的運(yùn)行時(shí)間來看,所提方法的運(yùn)行時(shí)間比BM算法長,而比其它方法都短,因此,綜合平均誤匹配率和運(yùn)行時(shí)間,特別是更多場(chǎng)合需要匹配精度高、誤匹配率低,本文方法的平均誤匹配率比BM算法低近一倍,因此,根據(jù)所提加權(quán)相似性選擇訓(xùn)練集方法訓(xùn)練MCCNN網(wǎng)絡(luò)進(jìn)行立體匹配,其效果是顯著的。

表7 不同算法的平均誤匹配率/%

表8 不同算法的運(yùn)行時(shí)間/s

5 結(jié)束語

猜你喜歡
立體匹配視差相似性
一類上三角算子矩陣的相似性與酉相似性
基于自適應(yīng)窗的立體相機(jī)視差圖優(yōu)化方法研究
淺析當(dāng)代中西方繪畫的相似性
基于梯度域引導(dǎo)濾波的視差精煉迭代算法
影像立體匹配中的凸優(yōu)化理論研究
基于互補(bǔ)不變特征的傾斜影像高精度立體匹配
基于分割樹的視差圖修復(fù)算法研究
改進(jìn)導(dǎo)向?yàn)V波器立體匹配算法
低滲透黏土中氯離子彌散作用離心模擬相似性
立體視差對(duì)瞳孔直徑影響的研究
吉安市| 衡水市| 仪征市| 长乐市| 五常市| 礼泉县| 砀山县| 西吉县| 大城县| 吴川市| 平安县| 库伦旗| 泰顺县| 宣恩县| 龙山县| 湘乡市| 雅安市| 时尚| 秦皇岛市| 朝阳县| 内丘县| 北川| 迭部县| 晴隆县| 九台市| 营山县| 承德市| 阳朔县| 盖州市| 贞丰县| 额济纳旗| 敦煌市| 嵊泗县| 布尔津县| 梁山县| 贞丰县| 贵德县| 襄垣县| 霍林郭勒市| 黎川县| 桑植县|