国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

RISNet:無監(jiān)督真實(shí)場(chǎng)景圖像拼接網(wǎng)絡(luò)

2023-10-18 00:46:12朱永付慧唐世華王一迪
關(guān)鍵詞:計(jì)算機(jī)視覺深度學(xué)習(xí)

朱永 付慧 唐世華 王一迪

摘 要:圖像拼接目的是獲得一張高清無縫的全景圖,現(xiàn)有方法依賴于特征匹配的準(zhǔn)確性,會(huì)錯(cuò)誤地對(duì)齊圖像,產(chǎn)生偽影和失真等現(xiàn)象。為此提出一種新的無監(jiān)督真實(shí)場(chǎng)景圖像拼接網(wǎng)絡(luò),能夠適應(yīng)存在移動(dòng)目標(biāo)的真實(shí)場(chǎng)景拼接,保證全景圖的精度無損失,包含配準(zhǔn)和重建兩個(gè)網(wǎng)絡(luò)。在配準(zhǔn)網(wǎng)絡(luò)中引入內(nèi)容感知分支,學(xué)習(xí)內(nèi)容掩碼,排除移動(dòng)目標(biāo)和誤導(dǎo)性區(qū)域?qū)τ谧儞Q矩陣的負(fù)影響;在重建網(wǎng)絡(luò)中添加邊緣檢測(cè)分支,構(gòu)造邊緣一致性感知損失,約束重建過程,優(yōu)化圖像細(xì)節(jié),實(shí)現(xiàn)高清、無偽影的拼接效果。實(shí)驗(yàn)結(jié)果表明,該方法RMSE、PSNR、SSIM分別達(dá)到1.81、26.56、0.85,客觀評(píng)價(jià)指標(biāo)整體優(yōu)于其他經(jīng)典算法,用戶調(diào)研結(jié)果也說明該方法獲取的全景圖清晰度更高。該方法有效地完成了真實(shí)場(chǎng)景下的無監(jiān)督圖像拼接,并能夠泛化至其他場(chǎng)景的拼接任務(wù)中。

關(guān)鍵詞:計(jì)算機(jī)視覺; 深度學(xué)習(xí); 圖像拼接; 單應(yīng)性估計(jì); 邊緣引導(dǎo)

中圖分類號(hào):TP311?? 文獻(xiàn)標(biāo)志碼:A

文章編號(hào):1001-3695(2023)09-047-2856-07

doi:10.19734/j.issn.1001-3695.2022.11.0820

RISNet:unsupervised real scene image stitching network

Zhu Yong1, Fu Hui1, Tang Shihua2, Wang Yidi1

(1.School of Information Science & Technology, Beijing Forestry University, Beijing 100083, China; 2.Joint Operations College, China Peoples Liberation Army National Defence University, Shijiazhuang 050084, China)

Abstract:The purpose of image stitching is to obtain a high-definition, seamless panoramic image. Existing methods rely on the accuracy of feature matching, which will misalign images and produce errors such as artifacts and distortions. This paper proposed a new unsupervised real scene image stitching network which could adapt to real scene stitching in the presence of mo-ving targets and ensure no loss of accuracy in the panorama, including two networks of alignment and reconstruction. It excluded the negative influence of moving targets and misleading regions on the transformation matrix through content branching, and optimized image details by constraining the reconstruction process through edge branching to achieve high-definition and artifact-free stitching effects. The experimental results show that the methods RMSE, PSNR, and SSIM reaches 1.81, 26.56, and 0.85, respectively. The objective evaluation indexes are better than other classical algorithms overall, and the user research results also indicate that the method obtains higher definition of panoramic images. The method effectively accomplishes unsupervised image stitching in real scenes and can be generalized to stitching tasks in other scenes.

Key words:computer vision; deep learning; image stitching; homography estimation; edge guidance

0 引言

圖像拼接是計(jì)算機(jī)視覺圖像處理領(lǐng)域中的一項(xiàng)關(guān)鍵且具有挑戰(zhàn)性的任務(wù),由于視野有限,一張照片無法顯示出完整的感興趣區(qū)域(region of interest)。圖像拼接技術(shù)可以通過拼接來自不同觀察位置的圖像以獲得高分辨率且具有更寬視野的全景圖像[1],在生物[2]、醫(yī)療[3]、視頻監(jiān)控、虛擬現(xiàn)實(shí)[4]和自動(dòng)駕駛[5]等領(lǐng)域發(fā)揮著重要作用。

圖像拼接技術(shù)主要分為傳統(tǒng)拼接方法和基于深度學(xué)習(xí)的方法。傳統(tǒng)圖像拼接解決方案是基于特征的方法[6],其嚴(yán)重依賴于手工制作稀疏特征的精確定位和均勻分布[7],因此在特征較少或視角變化較大的場(chǎng)景中,拼接圖像中重疊部分極易產(chǎn)生偽影或錯(cuò)位現(xiàn)象,拼接性能急劇下降,甚至導(dǎo)致拼接失敗。

由于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)擁有強(qiáng)大的特征提取能力,通過數(shù)據(jù)驅(qū)動(dòng)的方式可以自適應(yīng)地提取到最適合任務(wù)的特征。近年來,越來越多的研究人員嘗試將CNN應(yīng)用于圖像拼接中,按學(xué)習(xí)方式可分為有監(jiān)督方法和無監(jiān)督方法。

Van,Shi等人[8,9]在圖像拼接的特征檢測(cè)階段采用CNN,使用神經(jīng)網(wǎng)絡(luò)提取的特征點(diǎn)進(jìn)行配準(zhǔn),但該方法不是一個(gè)完整的基于深度學(xué)習(xí)的拼接框架。Chen等人[10]提出了MVLidarNet,該方法由兩個(gè)模塊組成,低分辨率變形模塊學(xué)習(xí)從雙魚眼到全景圖像的變形規(guī)則,高分辨率遞歸模塊以遞歸方式通過高分辨率圖像引導(dǎo)提高拼接結(jié)果的分辨率,但該方法只能拼接拍攝于固定視角的圖像,而不能用于任意視角的圖像拼接。Nie等人[11]提出了第一個(gè)完整的基于深度學(xué)習(xí)的任意視角圖像拼接框架VFISNet,拼接圖像需要經(jīng)過單應(yīng)性估計(jì)、空間變換和內(nèi)容優(yōu)化三個(gè)階段。但是,由于網(wǎng)絡(luò)中各層完全連通,VFISNet無法處理任意分辨率的輸入圖像,實(shí)際應(yīng)用中的拼接質(zhì)量也不理想。在此基礎(chǔ)上,Nie等人[12]提出了一種保留邊緣的圖像拼接網(wǎng)絡(luò)EPISNet,消除了輸入分辨率的限制,顯著提高了真實(shí)場(chǎng)景中的拼接性能。在這些固定視角拼接方法中,可以通過深度單應(yīng)估計(jì)、空間變換扭曲和圖像融合來完成基于深度學(xué)習(xí)的圖像拼接,但上述的解決方案都是基于有監(jiān)督學(xué)習(xí)方法。由于真實(shí)場(chǎng)景中沒有拼接標(biāo)簽,目前還沒有真正用于深度學(xué)習(xí)的有監(jiān)督圖像拼接數(shù)據(jù)集,所以這些網(wǎng)絡(luò)只能在合成數(shù)據(jù)集上進(jìn)行訓(xùn)練,導(dǎo)致在真實(shí)場(chǎng)景中的應(yīng)用不盡如人意。

為了克服基于有監(jiān)督學(xué)習(xí)解決方案的局限性,Nie等人[13]提出了一個(gè)無監(jiān)督深度學(xué)習(xí)圖像拼接框架UDISNet,在圖像對(duì)齊網(wǎng)絡(luò)中提出了拼接域轉(zhuǎn)換層,使輸入圖像在此拼接域內(nèi)占用更小的空間進(jìn)行扭曲,還提出從特征到像素重建拼接圖像的思想,通過圖像重建方式消除偽影,實(shí)現(xiàn)更好的拼接效果。然而,在配準(zhǔn)階段,該方法本質(zhì)上是一種基于單一單應(yīng)性矩陣的配準(zhǔn)方法,只能實(shí)現(xiàn)輸入圖像粗對(duì)齊,并不能精確配準(zhǔn)圖像。當(dāng)輸入圖像存在較大前景或者移動(dòng)目標(biāo)時(shí),該方法的配準(zhǔn)效果會(huì)急劇下降。同時(shí),隨著視差的增加,配準(zhǔn)網(wǎng)絡(luò)的性能會(huì)逐漸降低,重建網(wǎng)絡(luò)的重建能力也并不是無限的,通過重建網(wǎng)絡(luò)生成后的拼接圖像會(huì)損失一部分圖像分辨率,在圖像細(xì)節(jié)豐富的區(qū)域,該方法也會(huì)產(chǎn)生一些偽影或者結(jié)構(gòu)不一致的區(qū)域。

使用單應(yīng)性矩陣在圖像配準(zhǔn)時(shí)出現(xiàn)誤差的主要原因是受到錯(cuò)誤匹配特征點(diǎn)的影響,當(dāng)輸入圖像中具有移動(dòng)目標(biāo)時(shí),因?yàn)橐苿?dòng)目標(biāo)上的匹配特征點(diǎn)與圖像背景的變換矩陣并不相同,所以會(huì)干擾圖像單應(yīng)性矩陣的計(jì)算。減少錯(cuò)誤匹配點(diǎn)常用的有RANSAC方法,但在深度學(xué)習(xí)網(wǎng)絡(luò)中目前還沒有很好的模型實(shí)現(xiàn)這一功能。為了減少這部分特征點(diǎn)的干擾,本文將輸入圖像分為移動(dòng)目標(biāo)與背景兩個(gè)部分,構(gòu)建內(nèi)容掩碼分支消融輸入圖像中的移動(dòng)目標(biāo)[14],對(duì)配準(zhǔn)網(wǎng)絡(luò)進(jìn)行約束,達(dá)到減少錯(cuò)誤匹配的目的。由于移動(dòng)目標(biāo)的變換矩陣與背景不同,所以利用估計(jì)的單應(yīng)性矩陣獲取的拼接結(jié)果圖像中運(yùn)動(dòng)目標(biāo)必然無法對(duì)齊,從而產(chǎn)生偽影。為了結(jié)合圖像的精度與準(zhǔn)度,利用圖像重建網(wǎng)絡(luò)生成全景圖像,使用原始圖像的邊緣信息作為重建網(wǎng)絡(luò)的引導(dǎo)。

基于以上分析,為了克服傳統(tǒng)拼接與深度學(xué)習(xí)方法的局限性,本文采用UDISNet作為骨干網(wǎng)絡(luò)提出一種新的無監(jiān)督真實(shí)場(chǎng)景圖像拼接網(wǎng)絡(luò)RISNet(real scene image stitching network),其包含內(nèi)容感知配準(zhǔn)網(wǎng)絡(luò)和邊緣引導(dǎo)重建網(wǎng)絡(luò)兩部分。在第一部分中,針對(duì)配準(zhǔn)網(wǎng)絡(luò)在某些場(chǎng)景下配準(zhǔn)性能較差等問題,引入內(nèi)容分支突出圖像中對(duì)于單應(yīng)性估計(jì)貢獻(xiàn)較大的區(qū)域。在第二部分中,針對(duì)邊緣輪廓信息在重建過程中丟失等問題,在重建網(wǎng)絡(luò)中引入邊緣分支引導(dǎo)網(wǎng)絡(luò)關(guān)注結(jié)構(gòu)信息豐富的區(qū)域,避免拼接結(jié)果產(chǎn)生偽影等現(xiàn)象。

本文在Warped MS-COCO與RISD數(shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明,無論在合成圖像還是真實(shí)場(chǎng)景圖像中,RISNet與文獻(xiàn)[13,15]相比均占優(yōu)勢(shì)。綜上所述,本文貢獻(xiàn)如下:

a)提出了一種適用于圖像拼接的內(nèi)容感知配準(zhǔn)網(wǎng)絡(luò),可以更加準(zhǔn)確地進(jìn)行單應(yīng)性估計(jì),更好地對(duì)齊預(yù)配準(zhǔn)圖像。

b)提出了一種使用邊緣信息顯式引導(dǎo)重建過程的邊緣引導(dǎo)重建網(wǎng)絡(luò),通過構(gòu)造邊緣一致性感知損失在更好地保留圖像細(xì)節(jié)的同時(shí)盡可能不產(chǎn)生偽影現(xiàn)象。

c)提出了一個(gè)用于無監(jiān)督真實(shí)場(chǎng)景圖像拼接的數(shù)據(jù)集,包含室內(nèi)、室外、黑暗、低紋理、小前景和大前景等多種真實(shí)環(huán)境,與現(xiàn)有公開數(shù)據(jù)集相比,添加了更多包含大前景和運(yùn)動(dòng)物體的場(chǎng)景,使模型對(duì)于真實(shí)場(chǎng)景具有更好的泛化性能。

1 RISNet介紹

RISNet由內(nèi)容感知配準(zhǔn)網(wǎng)絡(luò)(content aware image registration network,CAIRNet)與邊緣引導(dǎo)重建網(wǎng)絡(luò)(edge guidance image reconstruction network,EGIRNet)兩部分組成。

1.1 內(nèi)容感知配準(zhǔn)網(wǎng)絡(luò)

CAIRNet以參考圖a和目標(biāo)圖b兩張高分辨率圖像作為輸入。首先使用內(nèi)容感知分支預(yù)測(cè)內(nèi)容掩碼(content-masks);然后將內(nèi)容掩碼與特征金字塔特征進(jìn)行特征融合(element-wise addition),輸入單應(yīng)估計(jì)模塊中估計(jì)得到單應(yīng)性矩陣H;最后在拼接域變換模塊(stitching-domain transformer)中對(duì)輸入圖像進(jìn)行扭曲變形,以兩張預(yù)配準(zhǔn)圖像作為輸出,實(shí)現(xiàn)輸入圖像預(yù)配準(zhǔn)。

整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)可分為內(nèi)容感知分支、單應(yīng)性估計(jì)和拼接域變換三個(gè)模塊,如圖1所示。

1.1.1 內(nèi)容感知分支

在非平面場(chǎng)景中,尤其是包含移動(dòng)對(duì)象的場(chǎng)景中,不存在可以對(duì)齊兩個(gè)視角的單一單應(yīng)性矩陣。在傳統(tǒng)算法中,RANSAC[15]被廣泛應(yīng)用于尋找單應(yīng)性估計(jì)的內(nèi)點(diǎn),從而求解場(chǎng)景對(duì)齊的最近似矩陣。

受到CA-UDHN[14]的啟發(fā),本文通過構(gòu)建一個(gè)子網(wǎng)絡(luò)來自動(dòng)學(xué)習(xí)內(nèi)點(diǎn)的位置,提出一種內(nèi)容感知分支m學(xué)習(xí)生成一個(gè)內(nèi)容掩碼,掩碼的大小與特征圖Fa和Fb的大小相同,利用內(nèi)容掩碼加權(quán)特征金字塔特征,得到兩個(gè)加權(quán)特征Ga和Gb,然后將加權(quán)特征G送入到單應(yīng)性估計(jì)模塊中。此過程如式(1)所示。

Mβ=m(Iβ),Gβ=FβMβ,β∈{a,b}(1)

對(duì)于那些包含較大前景、低紋理或移動(dòng)對(duì)象的區(qū)域,這些區(qū)域具有不可區(qū)分性或者對(duì)于配準(zhǔn)具有誤導(dǎo)性,在內(nèi)容掩碼中,會(huì)自然地將這些內(nèi)容進(jìn)行消融處理,在單應(yīng)性估計(jì)中使用經(jīng)過內(nèi)容掩碼加權(quán)后的特征圖,網(wǎng)絡(luò)更加關(guān)注那些對(duì)于單應(yīng)性估計(jì)有正向作用的區(qū)域。預(yù)測(cè)的內(nèi)容掩碼如圖2所示,每列上面圖像為原圖,下面圖像是生成的內(nèi)容掩碼,其中(a)(b)中包含具有誤導(dǎo)性的移動(dòng)對(duì)象,(c)包含大片無法匹配的低紋理雪景,(d)是夜間黑暗場(chǎng)景。內(nèi)容掩碼只會(huì)保留具有豐富紋理的可靠區(qū)域,類似于空間注意力,使得網(wǎng)絡(luò)更加關(guān)注那些具有豐富特征信息的可配準(zhǔn)區(qū)域。

內(nèi)容感知分支各層配置細(xì)節(jié)如表1所示。

1.1.2 單應(yīng)性估計(jì)模塊

圖像拼接是在大基線場(chǎng)景[12]下拼接圖像,以構(gòu)建具有更寬視野的全景圖,而在大基線的場(chǎng)景中,圖像之間重疊率過低,CA-UDHN的感受野明顯受限,網(wǎng)絡(luò)無法提取到適用于大基線場(chǎng)景中的對(duì)齊信息,所以CA-UDHN的內(nèi)容感知網(wǎng)絡(luò)僅在小基線場(chǎng)景[14]中具有可行性。本文采用EPISNet[12]中的大基線深度單應(yīng)性估計(jì)模型,將特征金字塔和特征相關(guān)性結(jié)合成一個(gè)網(wǎng)絡(luò),采用特征金字塔進(jìn)行多尺度特征提取,利用特征相關(guān)性實(shí)現(xiàn)從局部到整體的特征匹配,提高了特征圖的利用率,擴(kuò)大了網(wǎng)絡(luò)的感受野,消除了CA-UDHN僅能處理小基線圖像對(duì)的限制。

在配準(zhǔn)網(wǎng)絡(luò)中,輸入圖像被8個(gè)卷積層處理,每?jī)蓪又虚g采用一個(gè)softpool層[16],將卷積層輸出的多尺度特征表示為F、F1/2、F1/4、F1/8,選擇F1/2、F1/4、F1/8形成一個(gè)三層特征金字塔結(jié)構(gòu),將金字塔中每一層的特征與經(jīng)過下采樣后同樣大小的內(nèi)容掩碼融合,將加權(quán)特征G送入單應(yīng)性估計(jì)網(wǎng)絡(luò)(圖3中regress network)估計(jì)單應(yīng)性矩陣,并將上層估計(jì)的單應(yīng)性矩陣傳輸?shù)较聦?,以不斷提高單?yīng)性估計(jì)的精度。通過這種方法,網(wǎng)絡(luò)可以實(shí)現(xiàn)在特征水平上從粗到細(xì)的估計(jì)單應(yīng)性,同時(shí)可以很好地處理大基線場(chǎng)景。單應(yīng)性估計(jì)模塊如圖3所示。

1.1.3 拼接域變換模塊

在求解得到單應(yīng)性矩陣之后,為了避免空間浪費(fèi),不同于空間變換層[17]中定義拼接圖像的最大分辨率的方法,本文采用拼接域變換層[13],將拼接域大小定義為待拼接圖像的最小矩形邊界,在保證圖像內(nèi)容完整性的同時(shí)最大限度地節(jié)省了空間。如圖4所示,(a)與(b)分別展示了空間變換層和拼接域變換層中的扭曲圖像。

通過計(jì)算待扭曲圖像4頂點(diǎn)的坐標(biāo)及各頂點(diǎn)的偏移量,可以得到扭曲后圖像的大小,將拼接域的大小定義為扭曲后圖像的大小,可以較大地減少扭曲圖像占用的空間。此過程如式(2)所示。

2 實(shí)驗(yàn)結(jié)果與分析

2.1 實(shí)驗(yàn)數(shù)據(jù)和環(huán)境

1)數(shù)據(jù)集 本文使用兩種數(shù)據(jù)集進(jìn)行訓(xùn)練。第一種是目前最著名的深度單應(yīng)性估計(jì)合成數(shù)據(jù)集Warped MS-COCO[21]。第二種是真實(shí)場(chǎng)景數(shù)據(jù)集,為了更好地訓(xùn)練RISNet,受到文獻(xiàn)[13,14]的啟發(fā),本文提出了一個(gè)用于無監(jiān)督圖像拼接的真實(shí)場(chǎng)景數(shù)據(jù)集,它是從視角可變的移動(dòng)視頻中獲得的,用到的視頻一些來自文獻(xiàn)[13,14],另一些是筆者自己實(shí)地拍攝的。通過從這些視頻中提取不同間隔時(shí)間的幀圖像,得到了包含不同重疊率、不同視差程度的圖像對(duì)。這個(gè)真實(shí)場(chǎng)景數(shù)據(jù)集包括室內(nèi)、室外、黑暗環(huán)境、低紋理、小前景和大前景等多種場(chǎng)景,如圖9所示,該數(shù)據(jù)集包含10 812對(duì)訓(xùn)練圖像和1 023對(duì)測(cè)試圖像,本文將這個(gè)數(shù)據(jù)集命名為真實(shí)場(chǎng)景圖像拼接數(shù)據(jù)集(real image stitching dataset,RISD)。

2)實(shí)驗(yàn)細(xì)節(jié) RISNet訓(xùn)練過程分為CAIRNet和EGIRNet兩部分完成。首先在CAIRNet中,使用合成數(shù)據(jù)集訓(xùn)練150個(gè)輪次,在提出的RISD中微調(diào)50個(gè)輪次。然后在EGIRNet中,使用RISD訓(xùn)練30個(gè)輪次。訓(xùn)練過程中采用的方式都是無監(jiān)督學(xué)習(xí)方式,這意味著RISNet只需要參考/目標(biāo)圖像作為輸入,而不需要任何標(biāo)簽(groundtruth)。采用的優(yōu)化器為Adam, 學(xué)習(xí)率呈指數(shù)衰減,初始值設(shè)置為10-4。由于神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練初期不穩(wěn)定,所以RISNet在訓(xùn)練最初的兩個(gè)epoch里,采用學(xué)習(xí)率熱身的方式將學(xué)習(xí)率從0平滑地增加到初始學(xué)習(xí)率。式(3)中參數(shù)μ設(shè)為0.01,式(10)和(13)中的參數(shù)均設(shè)置為λi=10-6和λs=2。根據(jù)各部分對(duì)于單應(yīng)性估計(jì)的不同影響,將CAIRNet中的參數(shù)ωc和ωh分別設(shè)置為10和1,將EGIRNet中的參數(shù)ωE、ωLR、ωHR和ωCS分別設(shè)置為0.25、100、1、1。在測(cè)試中,拼接兩張分辨率為512×512的輸入圖像,大約需要0.6 s的時(shí)間。RISNet使用TensorFlow實(shí)現(xiàn),訓(xùn)練和測(cè)試均在單個(gè)NVIDIA GTX 1080 Ti上進(jìn)行。

2.2 算法性能分析

2.2.1 配準(zhǔn)性能評(píng)估

為了客觀地評(píng)價(jià)RISNet的配準(zhǔn)性能,將RISNet與傳統(tǒng)拼接方法SIFT+RANSAC、有監(jiān)督拼接方法DHN[21]、無監(jiān)督拼接方法UDHN[22]、CA-UDHN[14]、UDISNet[13]分別在合成數(shù)據(jù)集和RISD上進(jìn)行了比較。

1)合成數(shù)據(jù)集 在Warped MS-COCO數(shù)據(jù)集上進(jìn)行RISNet與其他方法的比較,所有基于深度學(xué)習(xí)方法的模型都是在該數(shù)據(jù)集上訓(xùn)練,RISNet-S是RISNet在該數(shù)據(jù)集上以無監(jiān)督方式訓(xùn)練得到的模型。采用DHN[21]的評(píng)價(jià)標(biāo)準(zhǔn),通過對(duì)估計(jì)的頂點(diǎn)偏移量與真實(shí)偏移量之間進(jìn)行比較,得到的均方根誤差RMSE值越小代表估計(jì)得越準(zhǔn)確。結(jié)果如表2所示。

2)RISD 由于RISD中不包含配準(zhǔn)結(jié)果真值標(biāo)簽,采用文獻(xiàn)[13]中提出的重疊區(qū)域的PSNR(峰值信噪比)和SSIM(結(jié)構(gòu)相似性)來評(píng)估其配準(zhǔn)性能,使用公開的DHN和UDNH預(yù)訓(xùn)練模型進(jìn)行測(cè)試,RISNet-R是RISNet-S在RISD上微調(diào)50個(gè)時(shí)代后的模型,UDIS_v2是與RISNet-R相同方式訓(xùn)練得到的模型。結(jié)果對(duì)比如表3所示。

通過分析表2、3可知:

a)無論是與傳統(tǒng)方法還是深度學(xué)習(xí)方法對(duì)比,本文提出的RISNet在合成數(shù)據(jù)集和真實(shí)場(chǎng)景數(shù)據(jù)集中均占優(yōu)勢(shì),能夠更加準(zhǔn)確地進(jìn)行單應(yīng)性估計(jì),其中CA-UDHN由于感受野受限,無法在適用于圖像拼接的單應(yīng)性估計(jì)數(shù)據(jù)集上進(jìn)行準(zhǔn)確估計(jì)。

b)與參考的骨干網(wǎng)絡(luò)UDISNet對(duì)比,RISNet在RMSE上提升約為12.1%,在PPNR和SSIM上提升分別約為16.2%和14.9%,說明本文提出的內(nèi)容感知分支及系列損失約束對(duì)于單應(yīng)性估計(jì)有正向作用。

2.2.2 拼接效果評(píng)價(jià)

為了驗(yàn)證RISNet在圖像拼接方面的優(yōu)越性,將RISNet與SIFT+RANSAC[15]、VFISNet[11]和UDISNet[13]方法的拼接結(jié)果進(jìn)行對(duì)比。VFISNet是公開的基于深度學(xué)習(xí)的有監(jiān)督圖像拼接方法,可以拼接任意視角的圖像,但由于網(wǎng)絡(luò)中全連接層的限制,VFISNet只能拼接128×128尺寸的圖像,所以使用雙三次插值(Bicubic)來調(diào)整拼接圖像的大小,以VFISNet+Bicubic方法作為對(duì)照。同時(shí)為了公平起見,UDISNet與RISNet一樣,都是在RISD上微調(diào)后的模型。

1)用戶調(diào)研 為了評(píng)估圖像拼接結(jié)果的優(yōu)劣,采用基于視覺質(zhì)量的用戶調(diào)研。具體來說,將RISNet與其他三種方法其一產(chǎn)生的兩幅結(jié)果圖作為一組,同時(shí)匿名隨機(jī)地顯示在一個(gè)屏幕上,用戶可以自由放大圖像,并被要求回答這組圖像中哪張拼接效果最好或兩張都好或都不好。這個(gè)研究中選取的圖像部分來自RISD的測(cè)試集,部分來自其他公開圖像拼接數(shù)據(jù)集,總共包括300組圖像。為了獲得更公平、更清晰的結(jié)果,邀請(qǐng)了50名志愿者參與,其中30名是具有計(jì)算機(jī)視覺背景的研究人員或?qū)W生,20名是其他專業(yè)領(lǐng)域內(nèi)的學(xué)者。

用戶調(diào)研結(jié)果如圖10所示,忽略都好與都?jí)牡慕Y(jié)果后,無論與哪種方法相比,偏好RISNet結(jié)果的用戶均占多數(shù),這意味著本文結(jié)果在用戶心中具有更好的視覺質(zhì)量,拼接效果更佳。此外,對(duì)于某些黑暗環(huán)境或低紋理圖像中,人眼無法準(zhǔn)確感知是否有效拼接的情況下,小部分用戶選擇了都?jí)模╞oth bad)選項(xiàng),如圖11所示。

2)視覺質(zhì)量對(duì)比 為了進(jìn)一步展示RISNet的拼接性能,圖12對(duì)比展示了各方法在RISD數(shù)據(jù)集中的拼接結(jié)果。

此外,在圖13中展示了更多RISD的測(cè)試結(jié)果。為驗(yàn)證RISNet在其他數(shù)據(jù)集上的泛化性能,圖14展示了在一些公開數(shù)據(jù)集上的測(cè)試結(jié)果,所有展示案例均有不同程度的視差。

通過圖12可知,由于使用了原始圖像的邊緣信息作為約束,RISNet結(jié)果在圖像細(xì)節(jié)上更加清晰(如第1、2行);由于邊緣一致性感知損失的加入,在其他深度學(xué)習(xí)方法結(jié)果均產(chǎn)生偽影的圖像中,RISNet也達(dá)到了很好的視覺效果(如第3行中的人影);通過配準(zhǔn)網(wǎng)絡(luò)中使用的內(nèi)容分支區(qū)分運(yùn)動(dòng)目標(biāo)與背景,RISNet實(shí)現(xiàn)了更好的對(duì)齊效果,拼接結(jié)果也更加合理(如第4行中移動(dòng)的門)。本文模型RISNet并未在包含航拍圖像的數(shù)據(jù)集中進(jìn)行訓(xùn)練,但在圖14其他公開數(shù)據(jù)集中的航拍圖像表現(xiàn)同樣良好,表明本文方法具有一定的模型泛化能力。同時(shí),本文采用無監(jiān)督學(xué)習(xí)方式,對(duì)于所有圖像無須擁有其真實(shí)拼接標(biāo)簽,可以在任何場(chǎng)景下進(jìn)行有效的圖像拼接。

2.2.3 消融實(shí)驗(yàn)

1)內(nèi)容感知分支 為了驗(yàn)證內(nèi)容感知分支的有效性,對(duì)于CAIRNet進(jìn)行了消融實(shí)驗(yàn),在沒有內(nèi)容感知分支的參與下重新訓(xùn)練了配準(zhǔn)網(wǎng)絡(luò)(表4中v1),以相同的評(píng)價(jià)指標(biāo)PSNR和SSIM進(jìn)行比較,結(jié)果如表4所示。由于沒有內(nèi)容掩碼消融輸入圖像中包含移動(dòng)對(duì)象或大前景物體等對(duì)于單應(yīng)性估計(jì)具有負(fù)作用的區(qū)域,v1模型在測(cè)試集的后40%圖像中配準(zhǔn)性能較差,而在RISNet中,內(nèi)容掩碼可以自然且有效地去除這些不可靠區(qū)域?qū)τ趩螒?yīng)性估計(jì)的影響,得到一個(gè)較好的配準(zhǔn)結(jié)果。

2)邊緣檢測(cè)模塊 為了驗(yàn)證檢測(cè)模塊對(duì)于高分辨分支優(yōu)化圖像細(xì)節(jié)的有效性,在RISD上進(jìn)行了消融實(shí)驗(yàn)。結(jié)果如圖15所示,v2代表缺少邊緣檢測(cè)模塊的模型,在優(yōu)化圖像細(xì)節(jié)、豐富圖像內(nèi)容時(shí),v2由于缺乏邊緣一致性感知損失的約束,拼接結(jié)果會(huì)出現(xiàn)不同程度的邊緣不對(duì)齊現(xiàn)象。而RISNet中,通過邊緣信息來引導(dǎo)重建過程,使得網(wǎng)絡(luò)能夠生成邊緣連續(xù)、視覺效果合理的拼接結(jié)果。

3 結(jié)束語

本文提出了一種無監(jiān)督真實(shí)場(chǎng)景圖像拼接網(wǎng)絡(luò)RISNet,包括內(nèi)容感知配準(zhǔn)網(wǎng)絡(luò)和邊緣引導(dǎo)重建網(wǎng)絡(luò)。在配準(zhǔn)階段,提出基于內(nèi)容掩碼的內(nèi)容感知分支來優(yōu)化真實(shí)場(chǎng)景下的圖像配準(zhǔn),并采用一種基于消融的損失函數(shù)來約束大基線場(chǎng)景下的單應(yīng)性估計(jì)。在重建階段,提出了邊緣檢測(cè)分支用來引導(dǎo)圖像重建過程,并設(shè)計(jì)了一個(gè)邊緣一致性損失讓輸出結(jié)果圖邊緣連續(xù),視覺效果更佳。此外,本文在現(xiàn)有無監(jiān)督圖像拼接數(shù)據(jù)集中添加了更多真實(shí)場(chǎng)景,提升了網(wǎng)絡(luò)的泛化性能。實(shí)驗(yàn)結(jié)果表明,RISNet優(yōu)于現(xiàn)有的其他拼接方案,用戶研究也說明,本文拼接結(jié)果的視覺質(zhì)量更受到用戶的青睞。后續(xù)在超大視差等場(chǎng)景應(yīng)用時(shí),可考慮通過采用多網(wǎng)格估計(jì)多個(gè)單應(yīng)性及增大重建網(wǎng)絡(luò)的感受野等方法,進(jìn)一步提高拼接的精度與準(zhǔn)度。

參考文獻(xiàn):

[1]許向陽, 袁杉杉, 王軍, 等. 基于全局和局部特征的圖像拼接方法[J]. 北京理工大學(xué)學(xué)報(bào), 2022,42(5): 502-510. (Xu Xiang-yang, Yuan Shanshan, Wang Jun, et al. Image stitching method based on global and local features[J]. Trans of Beijing Institute of Technology, 2022,42(5): 502-510.)

[2]Chalfoun J, Majurski M, Blattner T, et al. MIST: accurate and scalable microscopy image stitching tool with stage modeling and error minimization[J]. Scientific Reports, 2017,7(1): article No.4988.

[3]Liu Desheng, He Qiang, Liu Chunli, et al. Medical image stitching using parallel SIFT detection and transformation fitting by particle swarm optimization[J]. Journal of Medical Imaging and Health Informatics, 2017,7(6): 1139-1148.

[4]Wang Lang, Yu Wen, Li Bao. Multi-scenes image stitching based on autonomous driving[C]//Proc of the 4th IEEE Information Technology, Networking, Electronic and Automation Control Conference. Piscataway, NJ: IEEE Press, 2020: 694-698.

[5]Kim H G, Lim H T, Ro Y M. Deep virtual reality image quality assessment with human perception guider for omnidirectional image[J]. IEEE Trans on Circuits and Systems for Video Technology, 2020,30(4): 917-928.

[6]劉杰, 游品鴻, 占建斌, 等. 改進(jìn)SIFT快速圖像拼接和重影優(yōu)化[J]. 光學(xué)精密工程, 2020,28(9): 2078-2084. (Liu Jie, You Pinghong, Zhan Jianbin, et al. Improved SIFT fast image stitching and ghosting optimization algorithm[J]. Optics and Precision Engineering, 2020,28(9): 2078-2084.)

[7]唐云, 帥鵬飛, 蔣沛凡, 等. 基于多尺度殘差網(wǎng)絡(luò)的單應(yīng)估計(jì)方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2022,39(10): 3179-3185. (Tang Yun, Shuai Pengfei, Jiang Peifan, et al. Homography estimation method based on multi-scale residual network[J]. Application Research of Computers, 2022,39(10): 3179-3185.)

[8]Van D H, Diem P T, Nguyen G N, et al. Deep feature extraction for panoramic image stitching[J]. Intelligent Information and Database Systems, 2020,4(2): 141-151.

[9]Shi Zaifeng, Li Hui, Cao Qingjie, et al. An image mosaic method based on convolutional neural network semantic features extraction[J]. Journal of Signal Processing Systems, 2020,92(2) : 435-444.

[10]Chen K, Oldja R, Smolyanskiy N, et al. MVLidarNet: real-time multi-class scene understanding for autonomous driving using multiple views[C]//Proc of IEEE/RSJ International Conference on Intelligent Robots and Systems. Piscataway, NJ: IEEE Press, 2020: 2288-2294.

[11]Nie Lang, Lin Chunyu, Liao Kang, et al. A view-free image stitching network based on global homography[J]. Journal of Visual Communication and Image Representation, 2020,73: 102950.[12]Nie Lang, Lin Chunyu, Liao Kang, et al. Learning edge-preserved image stitching from large-baseline deep homography[EB/OL]. (2020)[2022-11-23]. https://arxiv.org/abs/2012.06194.

[13]Nie Lang, Lin Chunyu, Liao Kang, et al. Unsupervised deep image stitching: reconstructing stitched features to images[J]. IEEE Trans on Image Processing, 2021,30: 6184-6197.

[14]Zhang Jirong, Wang Chuan, Liu Shuaicheng, et al. Content-aware unsupervised deep homography estimation[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2020: 653-669.

[15]萬琴, 顏金娥, 李智, 等. 基于改進(jìn)RANSAC算法的全景圖像拼接技術(shù)[J]. 光電子·激光, 2021,32(12): 1253-1261. (Wan Qin, Yan Jine, Li Zhi, et al. Panorama image stitching technology based on improved RANSAC algorithm[J]. Journal of Optoelectronics·Laser, 2021,32(12): 1253-1261.)

[16]Stergiou A, Poppe R, Kalliatakis G. Refining activation downsampling with SoftPool[C]//Proc of International Conference on Compu-ter Vision. Piscataway, NJ: IEEE Press, 2021: 10337-10346.

[17]Jaderberg M, Simonyan K, Zisserman A,et al. Spatial transformer network[C]//Proc of the 28th International Conference on Neural Information Processing Systems. Cambridge, MA: MIT Press, 2015: 968-976.

[18]Dai Qinyan, Fang Faming, Li Juncheng, et al. Edge-guided composition network for image stitching[J]. Pattern Recognition, 2021,118(9): 108019.

[19]Xie Saining, Tu Zhuowen. Holistically-nested edge detection[C]//Proc of IEEE International Conference on Computer Vision. Pisca-taway, NJ: IEEE Press, 2015: 1395-1403.

[20]He Kaiming, Zhang Xiangyu, Ren Shaoqing, et al. Deep residual learning for image recognition[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2016: 770-778.

[21]DeTone D, Malisiewicz T, Rabinovich A. Deep image homography estimation[EB/OL]. (2016)[2022-11-23]. https://arxiv.org/abs/1606. 03798.

[22]Nguyen T, Chen S W, Shivakumar S S, et al. Unsupervised deep homography: a fast and robust homography estimation model[J]. IEEE Robotics and Automation Letters, 2018,3(3): 2346-2353.

收稿日期:2022-11-23;修回日期:2023-01-18? 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目

作者簡(jiǎn)介:朱永(1998-),男(通信作者),安徽合肥人,碩士研究生,主要研究方向?yàn)橛?jì)算機(jī)視覺圖像拼接(zhuyong98@qq.com);付慧(1978-),女,北京昌平人,副教授,碩導(dǎo),博士,主要研究方向?yàn)樯疃葘W(xué)習(xí)、數(shù)字圖像處理及可視化;唐世華(1980-),男,河北石家莊人,高級(jí)工程師,博士,主要研究方向?yàn)橄到y(tǒng)工程;王一迪(1995-),女,吉林扶余人,碩士研究生,主要研究方向?yàn)閳D像識(shí)別與分類.

猜你喜歡
計(jì)算機(jī)視覺深度學(xué)習(xí)
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
雙目攝像頭在識(shí)別物體大小方面的應(yīng)用
機(jī)器視覺技術(shù)發(fā)展及其工業(yè)應(yīng)用
危險(xiǎn)氣體罐車液位計(jì)算機(jī)視覺監(jiān)控識(shí)別報(bào)警系統(tǒng)設(shè)計(jì)
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
計(jì)算機(jī)視覺在交通領(lǐng)域的應(yīng)用
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
基于計(jì)算機(jī)視覺的細(xì)小顆粒團(tuán)重量測(cè)量的研究
资源县| 亳州市| 云霄县| 龙南县| 民和| 阿瓦提县| 宁远县| 昌平区| 太和县| 宜阳县| 梧州市| 敦化市| 恩平市| 府谷县| 巴彦淖尔市| 苍梧县| 凯里市| 基隆市| 兰州市| 额敏县| 罗城| 赫章县| 焦作市| 汉沽区| 毕节市| 讷河市| 当雄县| 永兴县| 博野县| 章丘市| 新沂市| 贵州省| 芮城县| 安庆市| 开封市| 广南县| 托里县| 温泉县| 达州市| 宁乡县| 盐城市|