国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的圖像拼接算法研究綜述

2024-08-17 00:00楊利春田彬黨建武
計算機應(yīng)用研究 2024年7期

摘 要:圖像拼接是計算機視覺和計算機圖形學(xué)中的一個重要分支,在三維成像等方面具有廣泛的應(yīng)用。相較于傳統(tǒng)基于特征點檢測的圖像拼接框架,基于深度學(xué)習(xí)的圖像拼接框架具有更強的場景泛化表現(xiàn)。目前雖然關(guān)于基于深度學(xué)習(xí)的圖像拼接研究成果眾多,但仍缺少相應(yīng)研究的全面分析和總結(jié)。為了便于該領(lǐng)域后續(xù)工作的開展,梳理了該領(lǐng)域近10年的代表性成果。在對傳統(tǒng)拼接方法與基于深度學(xué)習(xí)的圖像拼接方法對比的基礎(chǔ)上,從圖像拼接研究領(lǐng)域中的單應(yīng)性估計、圖像拼接和圖像矩形化三個子問題出發(fā),進(jìn)行了學(xué)習(xí)策略及模型架構(gòu)設(shè)計、經(jīng)典模型回顧、數(shù)據(jù)集等方面的整理與分析??偨Y(jié)了基于深度學(xué)習(xí)的圖像拼接研究方法的一些特點和當(dāng)前該領(lǐng)域的研究現(xiàn)狀,并對未來研究前景進(jìn)行了展望。

關(guān)鍵詞:單應(yīng)性估計; 圖像拼接; 圖像矩形化; 深度學(xué)習(xí)

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1001-3695(2024)07-002-1930-10

doi:10.19734/j.issn.1001-3695.2023.10.0528

Survey on image stitching algorithm based on deep learning

Abstract:Image stitching is an important branch in computer vision and computer graphics, and has a wide range of applications in 3D imaging and other aspects. Compared with the traditional image stitching framework based on feature point detection, the image stitching framework based on deep learning has stronger scene generalization performance. Although there are many research results on image stitching based on deep learning, there is still a lack of comprehensive analysis and summary of the corresponding research. In order to facilitate the subsequent work in this field,this paper sorted out the representative results in this field in the past 10 years. Based on the comparison between traditional stitching methods and deep learning-based image stitching methods,it collated and analysed the learning strategy and model architecture design, classical model review, and dataset from the three sub-problems of homography estimation, image stitching, and image rectangling in the research field of image stitching. It summarized some features of deep learning-based image stitching research methods and summarized the current research status in the field,and prospected the future research prospects.

Key words:homography estimation; image stitching; image rectangling; deep learning

0 引言

圖像拼接是一項關(guān)鍵且具有挑戰(zhàn)性的計算機視覺任務(wù),在過去的幾十年里已經(jīng)得到了很好的研究,其目的是將從不同觀看位置捕獲的不同圖像構(gòu)建成具有更寬視場(field-of-view,F(xiàn)OV)的全景。圖像拼接被廣泛應(yīng)用于醫(yī)療[1]、監(jiān)控視頻[2]、自動駕駛[3]、虛擬現(xiàn)實[4]等領(lǐng)域。

傳統(tǒng)的圖像拼接技術(shù)可以分為自適應(yīng)扭曲和接縫切割[5]兩個步驟。傳統(tǒng)算法往往依賴于越來越復(fù)雜的幾何特征(點、線、邊緣等特征)來實現(xiàn)更好的內(nèi)容對齊和形狀保存。在計算了扭曲之后,通常采用接縫切割去除視差偽影。為了探索不可見的接縫,使用邊[6]、顯著映射[7]等設(shè)計了各種能量函數(shù)。傳統(tǒng)方法要求場景特征在圖像中密集且均勻分布,魯棒性差。同時,隨著幾何結(jié)構(gòu)增大,計算成本急劇飛躍,因此圖像拼接仍然具有挑戰(zhàn)性。

近年來,隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,基于深度學(xué)習(xí)的圖像拼接模型得到了積極的探索,并在各種復(fù)雜場景上取得了良好的性能。受到光流估計、雙目立體匹配等視覺研究的啟發(fā),目前基于深度學(xué)習(xí)的圖像拼接研究主要圍繞借助相關(guān)深度學(xué)習(xí)方法,構(gòu)建更高效的模型架構(gòu)設(shè)計、特定拼接場景設(shè)計及模型訓(xùn)練策略等方面展開。從早期的基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)的方法(如SRCNN[8])到最近有前景的基于注意力機制的方法(如swin Transformer[9]),各種深度學(xué)習(xí)方法已經(jīng)被應(yīng)用于處理圖像拼接任務(wù),解決了不少傳統(tǒng)圖像拼接方案難以解決的問題(如低紋理場景對齊、大視差拼接等)。目前,已經(jīng)提出了各種基于深度學(xué)習(xí)(deep lear-ning,DL)圖像拼接的相關(guān)研究工作,包括有監(jiān)督、無監(jiān)督、CNN、Transformer、GNN、級聯(lián)式、非級聯(lián)式等方法。

之前的綜述研究,如文獻(xiàn)[10],雖然給出了圖像拼接算法的全面調(diào)查,但是主要針對傳統(tǒng)方法進(jìn)行全面總結(jié),而文獻(xiàn)[11~13]只關(guān)注圖像拼接中,特定任務(wù)方法。文獻(xiàn)[11]專注于對基于特征方法的技術(shù)研究;Lyu等人[12]提供了用傳統(tǒng)解決方案解決圖像/視頻拼接問題的詳細(xì)綜述,主要針對基于像素的方法與基于特征的方法進(jìn)行總結(jié);雖然Liao等人[13]討論了基于DL學(xué)習(xí)圖像配準(zhǔn)方法,但只考慮了圖像校準(zhǔn)中的各種技術(shù),缺乏對整個圖像拼接過程的詳細(xì)概述。此外,由于基于DL學(xué)習(xí)的圖像拼接綜述數(shù)量很少,讀者很難了解圖像拼接的發(fā)展趨勢。為了便于后續(xù)的研究工作,在此本文從模型架構(gòu)設(shè)計、學(xué)習(xí)策略設(shè)計、拼接方式設(shè)計等方面出發(fā),針對圖像拼接的三個子任務(wù),即單應(yīng)性估計、圖像拼接和圖像矩形化,進(jìn)行了分類整理及概述,并對當(dāng)前的算法進(jìn)行了對比及總結(jié)。不同于現(xiàn)有的圖像拼接相關(guān)綜述,本文主要圍繞DL方法在圖像拼接領(lǐng)域的研究方法、數(shù)據(jù)集等進(jìn)行了歸納分析。就當(dāng)前基于DL的圖像拼接研究存在的問題及未來研究前景進(jìn)行了總結(jié)與展望。

本文主要貢獻(xiàn)有三個方面:

a)對比分析了傳統(tǒng)圖像拼接算法與基于深度學(xué)習(xí)的圖像拼接技術(shù)各自的優(yōu)缺點,為該領(lǐng)域后續(xù)工作的開展提供了指導(dǎo)。

b)對基于DL的圖像拼接技術(shù)進(jìn)行了全面的綜述,包括基準(zhǔn)數(shù)據(jù)集、學(xué)習(xí)策略及模型設(shè)計出發(fā)點等多個角度,回顧了各個子領(lǐng)域的一些基于DL的經(jīng)典模型,梳理了其模型亮點與不足,為后續(xù)相關(guān)工作的跟進(jìn)指引了方向。

c)討論了基于DL的圖像拼接領(lǐng)域研究所面臨的問題與挑戰(zhàn),整理了基于DL的圖像拼接領(lǐng)域研究的一些模型代碼和數(shù)據(jù)集,為同類研究工作的開展提供了有力的支撐。

1 傳統(tǒng)拼接與基于DL拼接技術(shù)對比

本章從不同的角度回顧了傳統(tǒng)圖像拼接與基于DL的圖像拼接技術(shù),包括傳統(tǒng)的單應(yīng)性估計方法和基于DL的單應(yīng)性估計方法,傳統(tǒng)圖像拼接方法與基于DL圖像拼接,傳統(tǒng)矩形化與基于DL矩形化。

1.1 單應(yīng)性估計方法對比

單應(yīng)性是指3D平面里兩幅圖像或者圍繞相機投影中心旋轉(zhuǎn)拍攝的兩幅圖像之間的變換關(guān)系。單應(yīng)是兩個空間之間的映射,通常用來表示同一場景的兩個圖像之間對應(yīng)關(guān)系的3×3矩陣,包含8個自由度。換句話說,單應(yīng)性是兩個圖像中的點之間的非奇異線性關(guān)系。

1.1.1 傳統(tǒng)的單應(yīng)性估計

傳統(tǒng)的單應(yīng)性估計是基于特征點匹配的方法,特征是要匹配的兩個輸入圖像中的元素,它們是在圖像塊的內(nèi)部,圖像塊是圖像中的像素組,特征通常包括點、線、邊緣等。傳統(tǒng)方法為了給圖像對提供更好的特征匹配,通常采用角點匹配。角點是很好的匹配特性,在視點變化時,角點特征是穩(wěn)定的;此外,角點的鄰域具有強度突變。角點檢測算法有Harris角點檢測算法、SIFT特征點檢測算法、FAST算法角點檢測算法等。

1.1.2 基于DL的單應(yīng)性估計

基于DL的單應(yīng)性估計方法通過深度單應(yīng)性估計模型,利用圖像物體重疊部分的特征關(guān)系,通過圖論等方法,無須人工干預(yù)即可實現(xiàn)全自動單應(yīng)性估計,雖然存在較強的場景泛化能力,但嚴(yán)重依賴數(shù)據(jù)集。針對此問題,為了便于該領(lǐng)域后續(xù)工作的開展,整理兩者的優(yōu)缺點如表1所示。

1.2 圖像拼接方法對比

1.2.1 傳統(tǒng)的圖像拼接

傳統(tǒng)的圖像拼接方法可以分為基于像素的拼接與基于特征的拼接。基于像素的方法將圖像的所有像素強度相互比較,對于場景移動問題健壯性差,速度也相比于基于特征的方法更慢?;谔卣鞯姆椒m然自動發(fā)現(xiàn)無序圖像集之間的重疊關(guān)系,但是嚴(yán)重依賴于特征等信息,并且其特征檢測器的選擇取決于問題本身,不同的特征器在不同場景下存在的問題也不同,比如特征計算時間長、性能差等問題。

1.2.2 基于DL的方法

為了解決傳統(tǒng)方法中的不足,提出了基于DL的圖像拼接技術(shù)。相較于傳統(tǒng)算法,基于DL的圖像拼接算法可以為圖像處理提供更高效、精準(zhǔn)的解決方案。如表2所示,整理了關(guān)于傳統(tǒng)圖像拼接與DL圖像拼接的優(yōu)缺點,為后續(xù)研究提供了參考。

1.3 圖像矩形化方法對比

圖像拼接技術(shù)在獲得大視場的同時,也因為視角投影帶來了不規(guī)則的邊界問題。研究發(fā)現(xiàn),藝術(shù)家與普通用戶通常更喜歡矩形邊界[14]。

1.3.1 傳統(tǒng)的矩形化方法

為了獲得矩形邊界,傳統(tǒng)矩形化通常采用裁剪與圖像補全的方法,但這種方法丟失了更多的原始內(nèi)容信息。圖像補全[15,16]可以根據(jù)圖像中完整區(qū)域的信息對缺失區(qū)域進(jìn)行填充,當(dāng)缺失區(qū)域較小或紋理結(jié)構(gòu)簡單時,這種方法的效果較好,但當(dāng)缺失區(qū)域較大或紋理結(jié)構(gòu)高度復(fù)雜時,得到的填充區(qū)域會存在嚴(yán)重的內(nèi)容失真。此外,通過圖像補全技術(shù)獲得的矩形圖像可能會增加一些看似合理但不現(xiàn)實的信息,這在實際應(yīng)用中非常危險。

1.3.2 基于DL的矩形化方法

與傳統(tǒng)方法不同,基于DL圖像矩形化技術(shù)不引入任何額外的虛假內(nèi)容信息,只是在原始內(nèi)容信息的基礎(chǔ)上通過網(wǎng)格畸變將拼接后的圖像扭曲成矩形圖像,并獲得了令人滿意的效果。表3整理了關(guān)于傳統(tǒng)圖像矩形化與DL圖像矩形化的優(yōu)缺點,為了后續(xù)研究提供參考。

2 基于DL的單應(yīng)性估計

單應(yīng)是兩個空間之間的映射,通常用來表示同一場景的兩個圖像之間的對應(yīng)關(guān)系,是兩個圖像中點之間的非奇異線性關(guān)系。DL為單應(yīng)性估計帶來了新的靈感,無須人工干預(yù)即可實現(xiàn)全自動單應(yīng)性估計。首先,在基于學(xué)習(xí)的圖像校準(zhǔn)中總結(jié)了幾種廣泛使用的學(xué)習(xí)策略,即基于有監(jiān)督的單應(yīng)性估計和無監(jiān)督的單應(yīng)性估計;接著,回顧了一些最新使用的網(wǎng)絡(luò)架構(gòu)以及經(jīng)典模型。

2.1 學(xué)習(xí)策略

2.1.1 有監(jiān)督

Detone等人[20]在2016年首次提出了一種有監(jiān)督DL卷積神經(jīng)網(wǎng)絡(luò)(HomographyNet)來估計一對圖像之間的相對單應(yīng)性,輸入兩張圖,它直接產(chǎn)生兩幅圖像之間的同形關(guān)系。Le等人[21]填補了在動態(tài)場景下單應(yīng)性研究的不足,提出了一個多尺度神經(jīng)網(wǎng)絡(luò)。Nowruzi等人[22]提出了一個雙卷積回歸網(wǎng)絡(luò)的層次來估計一對圖像之間的單應(yīng)性,通過簡單模型的分層排列,實現(xiàn)了更高性能。Wang等人[23]使用卷積神經(jīng)網(wǎng)絡(luò)提高給定圖像對的單應(yīng)性估計的準(zhǔn)確性。通過采用受立體匹配工作啟發(fā)的空間金字塔池化模塊[24],利用圖像的上下文信息,提高卷積部分的特征提取性能力。Nie等人[25]提出了一個大基線DL單應(yīng)性模型,用于估計不同特征尺度下參考圖像和目標(biāo)圖像之間的精確投影變換,其中大基線[26]是中小基線的相對概念,但由于合成圖像中缺乏真實的場景視差,其泛化能力受到限制。最近的一些工作[27~31]使用真實世界的場景建立了訓(xùn)練數(shù)據(jù)集,并用手動注釋標(biāo)記捕獲的圖像,從而促進(jìn)了這一研究領(lǐng)域的發(fā)展。

2.1.2 無監(jiān)督

由于合成圖像中缺乏真實的場景視差,其泛化能力受到限制。為了解決這個問題,Nguyen等人[32]第一個提出了一種無監(jiān)督解決方案,最大限度地減少了真實圖像對上的光度損失。該模型估計了沒有投影標(biāo)簽的配對圖像的單應(yīng)性矩陣,通過減少無須地面實況數(shù)據(jù)的逐像素強度誤差,使UDHN[32]優(yōu)于以前的監(jiān)督學(xué)習(xí)技術(shù)。所提無監(jiān)督算法在保證精度和對光照波動的魯棒性的同時,還可以實現(xiàn)更快的推理。受這項工作的啟發(fā),越來越多的方法利用無監(jiān)督學(xué)習(xí)策略來估計單應(yīng)性,如CA-UDHN[26]、RISNet[33]、BaseHomo[34]、HomoGAN[35]和文獻(xiàn)[36]。

2.2 網(wǎng)絡(luò)架構(gòu)

2.2.1 基于CNN

大多數(shù)基于DL的單應(yīng)性估計方法使用基于CNN的網(wǎng)絡(luò)架構(gòu)作為主干網(wǎng)絡(luò),從最早的基于DL的單應(yīng)性估計[20],使用VGGNet[37]作為骨干,到最先進(jìn)的方法[22,25,30],與傳統(tǒng)的基于特征的方法相比具有更強的魯棒性。在學(xué)習(xí)范式方面,無論使用有監(jiān)督學(xué)習(xí)還是無監(jiān)督學(xué)習(xí),CNN強大的特征提取能力都是促進(jìn)基于DL的單應(yīng)性估計領(lǐng)域進(jìn)步的原因。

2.2.2 基于CNN+Transformer

注意力是為了模仿人類感知的機制而建立的,主要集中在關(guān)注突出部分[28,29]。由于現(xiàn)有的單應(yīng)性估計方法沒有明確考慮跨分辨率問題,忽略了輸入圖像與特征之間對應(yīng)關(guān)系的顯式表述。為了解決此問題,Shao等人[38]提出了一種用于交叉分辨率單應(yīng)性估計的監(jiān)督Transformer。針對不同的任務(wù),提出了一種具有局部注意力的Transformer。

2.2.3 基于GAN+Transformer

由于現(xiàn)有的單應(yīng)性估計方法沒有明確考慮平面誘導(dǎo)視差的問題,這將使預(yù)測的單應(yīng)性在多個平面上被破壞。為了解決此問題,Hong等人[35]提出了一種專注于主導(dǎo)平面的基于無監(jiān)督學(xué)習(xí)的單應(yīng)性估計模型。針對不同的任務(wù),提出了一種具有局部注意力的Transformer。

表4整理了2016—2022年DL單應(yīng)性估計方法,根據(jù)有無真實標(biāo)簽可分為有監(jiān)督和無監(jiān)督兩類,根據(jù)網(wǎng)絡(luò)架構(gòu)可分為基于CNN、基于Transformer與基于GAN的方法,還可根據(jù)網(wǎng)絡(luò)架構(gòu)是否級聯(lián)與視圖場景視差大小進(jìn)行分類。

從經(jīng)典方法[20,22]到先進(jìn)的方法[29,35],大多數(shù)單應(yīng)性估計方法都傾向于使用監(jiān)督學(xué)習(xí)策略來訓(xùn)練其網(wǎng)絡(luò),但是人工注釋很容易出錯,導(dǎo)致注釋質(zhì)量不一致或包含受污染的數(shù)據(jù),增加了構(gòu)建數(shù)據(jù)集的復(fù)雜性和成本,而增加訓(xùn)練數(shù)據(jù)集以提高性能可能具有挑戰(zhàn)性,并且合成圖像中缺乏真實的場景視差,其泛化能力也受到限制,因此無監(jiān)督方法逐漸被重視。

從表4可知,大部分網(wǎng)絡(luò)都采用了基于CNN的方法在特征域上進(jìn)行單應(yīng)性估計,但是基于CNN的網(wǎng)絡(luò)結(jié)構(gòu)對于處理復(fù)雜問題適應(yīng)性不是很強,沒有明確考慮平面誘導(dǎo)視差問題,這將使預(yù)測的單應(yīng)性在多個平面上受到影響。于是,逐漸引入了注意力機制與GAN來處理復(fù)雜問題。比如,HomoGAN提出了一種新的方法來引導(dǎo)無監(jiān)督單應(yīng)性估計集中在優(yōu)勢面上,設(shè)計了一個多尺度Transformer網(wǎng)絡(luò),以粗到精的方式從輸入圖像的特征金字塔中預(yù)測單應(yīng)性。

2.3 經(jīng)典單應(yīng)性估計模型

2.3.1 首個有監(jiān)督DL單應(yīng)性網(wǎng)絡(luò)

圖1[20]是第一個有監(jiān)督DL圖像單應(yīng)性估計結(jié)構(gòu)。

該網(wǎng)絡(luò)采用VGG作為主干網(wǎng)絡(luò),以兩張堆疊的灰度圖像作為輸入,輸出4點偏移量用于單應(yīng)性矩陣求解,可用于將像素從第一張圖像映射到第二張圖像。該方法存在以下優(yōu)點:a)無須單獨的局部特征檢測和轉(zhuǎn)換估計RNNz2lO8Xror7iwsSFV/a+oU5Hqp4MlyxTJegSCtmsU=階段;b)采用端到端的方式,縮減了人工預(yù)處理和后續(xù)處理,使模型從原始輸入到最終輸出,給模型更多可以根據(jù)數(shù)據(jù)自動調(diào)節(jié)的空間,增加模型的整體契合度;c)設(shè)計并實現(xiàn)了回歸單應(yīng)性網(wǎng)絡(luò)與分類單應(yīng)性網(wǎng)絡(luò)。

該方法存在以下缺點:網(wǎng)絡(luò)通過多層的卷積的疊加,整體架構(gòu)比較簡單,只能處理簡單的一個平面到一個平面的單應(yīng)性估計問題,因此算法適應(yīng)性不強。

2.3.2 首個大基線深度單應(yīng)性網(wǎng)絡(luò)

如圖2[25]所示,為了以靈活的學(xué)習(xí)方式拼接任意視圖和輸入大小的圖像,Nie等人[25]提出了基于大基線DL單應(yīng)性的邊緣保留圖像拼接學(xué)習(xí)方法,在一定程度上解決了固定視圖和輸入大小限制對單應(yīng)性估計的影響。該方法存在以下優(yōu)點:a)針對單應(yīng)性估計算法適應(yīng)性不強的問題,采用級聯(lián)式網(wǎng)絡(luò),以更快的速度預(yù)測圖像的單應(yīng)性,具有更為復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),在復(fù)雜場景下具有更好的單應(yīng)性估計效果;b)所提學(xué)習(xí)框架可以縫合任意視圖和輸入大小的圖像,從而有助于在其他真實圖像中表現(xiàn)出出色的泛化能力。該方法存在以下缺點:a)在圖像拼接任務(wù)上的性能可能受到輸入圖像的特征點密度和分布的影響;b)在圖像拼接的過程中,可能會出現(xiàn)邊緣不連續(xù)的問題,需要進(jìn)一步優(yōu)化方法以解決上述問題。

2.3.3 跨分辨率DL單應(yīng)性估計網(wǎng)絡(luò)

單應(yīng)性估計可以輸入包括不同分辨率的圖像,如圖3[38]所示。LocalTrans[38]在分辨率差距高達(dá)10倍的跨分辨率情況仍然下實現(xiàn)了卓越的性能。該方法將交叉分辨率單應(yīng)性估計視為一個多模態(tài)問題,并提出了一個嵌入在多尺度結(jié)構(gòu)中的局部變壓器網(wǎng)絡(luò)來顯式學(xué)習(xí)多模態(tài)輸入之間的對應(yīng)關(guān)系。該方法存在以下優(yōu)點:a)提了一種新穎的多尺度局部變換網(wǎng)絡(luò),為解決差分分辨率問題在同分辨率圖像對齊中提供了有效的方法;b)通過將局部注意力核心(LAK)嵌入到多尺度結(jié)構(gòu)中,從而能夠在長短距離范圍內(nèi)捕捉對齊關(guān)系。該方法存在以下缺點:在真實場景的數(shù)據(jù)集上處理復(fù)雜場景時,其性能還待進(jìn)一步探究。

3 基于DL的圖像拼接

單應(yīng)性估計是一個完整拼接算法里面的第一步,通過單應(yīng)性估計[26,35,40]扭曲后得到配準(zhǔn)后的圖像,還需要將對齊后的圖像進(jìn)行拼接。由于這些扭曲中的大多數(shù)使用單應(yīng)性正則化將扭曲平滑地外推到非重疊區(qū)域,所以不可避免地受到投影失真的影響而出現(xiàn)重影。為了消除拼接圖像中的重影,已經(jīng)提出了許多方法。根據(jù)是否進(jìn)行接縫預(yù)測,將其分為非接縫縫合和接縫驅(qū)動縫合;根據(jù)學(xué)習(xí)策略可將其分為有監(jiān)督方法與無監(jiān)督方法。

3.1 拼接方式

3.1.1 非接縫縫合

融合重影是由單應(yīng)矩陣不能完美地對齊兩幅圖像這一事實引起的,通過盡可能地將目標(biāo)圖像與參考圖像對齊來消除重影。APAP[36]在圖像中放置一個網(wǎng)格,并為每個網(wǎng)格估計局部單應(yīng)變換模型。由于其優(yōu)異的性能,該技術(shù)已被廣泛應(yīng)用于圖像對齊。為了實現(xiàn)更好的對齊,Robust ELA[41] 結(jié)合了基于網(wǎng)格的模型和直接變形策略。為在低紋理環(huán)境保持良好的效果,Li等人[42]開發(fā)了一種雙特征扭曲模型用于圖像對齊,同時使用稀疏特征匹配和線對應(yīng)。以上這些方法將圖像劃分為不同的區(qū)域,并計算每個不同區(qū)域的單應(yīng)性矩陣。通過在這些區(qū)域上施加空間變化的扭曲,重疊區(qū)域被很好地對齊,重影顯著減少。但是,非接縫拼接方法在小視差圖像中表現(xiàn)良好,卻很難處理大視差圖像,這種方法會導(dǎo)致拼接圖像不佳。

3.1.2 接縫縫合

接縫縫合通過研究縫合扭曲圖像的最佳接縫來隱藏偽影。通過優(yōu)化與接縫相關(guān)的成本,可以沿著接縫將重疊劃分為兩個互補區(qū)域,然后根據(jù)兩個區(qū)域形成縫合圖像來改善重影問題。接縫預(yù)測是接縫驅(qū)動拼接方法的基礎(chǔ),Cheng等人[43]提出了第一個基于DL的接縫預(yù)測方法,結(jié)合了接縫形狀約束和接縫質(zhì)量約束的選擇性一致性損失來監(jiān)督網(wǎng)絡(luò)學(xué)習(xí),將接縫預(yù)測轉(zhuǎn)換為掩模預(yù)測。為了進(jìn)一步保持寬視差條件下的圖像結(jié)構(gòu),LPC[44]提出了一種利用線點一致性度量的接縫匹配策略。Liao等人[45]提出了一種新的迭代接縫估計方法,使用混合質(zhì)量評價方法來評價接縫沿線的像素,接縫與之前的接縫相比發(fā)生了可以忽略不計的變化時,迭代完成,但在大視差時可能會失敗。Gao等人[5]提出選擇具有最高感知質(zhì)量的接縫來評估單應(yīng)性逆變換。Zhang等人[46] 提出了一種處理視差的局部拼接方法,僅從大致對齊的圖像中估計合理的接縫。ACIS[47]提出了一種四元數(shù)秩1對齊(QR1A)模型,同時學(xué)習(xí)最優(yōu)接縫線和局部對齊。Lin等人[48]提出了一種接縫引導(dǎo)的局部對齊方法,該方法根據(jù)與當(dāng)前接縫的距離自適應(yīng)特征加權(quán)迭代地改進(jìn)扭曲。Nie等人[7]提出了基于DL的接縫拼接,通過無監(jiān)督學(xué)習(xí)無縫合成拼接圖像,但是存在邊界不清晰、生成的掩碼不連續(xù)等問題。

3.2 學(xué)習(xí)策略

3.2.1 有監(jiān)督

隨著DL的快速發(fā)展,以大數(shù)BXWNAfbmen2HnTuLPaRYfg==據(jù)驅(qū)動的有監(jiān)督學(xué)習(xí)在眾多計算機視覺課題中得到了廣泛研究,然而,DL圖像拼接技術(shù)仍處于發(fā)展階段。Nie等人[30]提出了一種基于全局單應(yīng)性的視角自由的圖像拼接網(wǎng)絡(luò),其首次在完整的DL框架中成功拼接了任意視圖的圖像,能夠處理從任意視圖捕獲的圖像,并且它可以盡可能地消除重影效應(yīng),但存在輸入規(guī)模固定、泛化能力弱的局限性。

3.2.2 無監(jiān)督

在實際場景中,每個圖像域都有可能包含多個不同的深度層次,這與單應(yīng)性的平面場景假設(shè)相矛盾。由于單一的單應(yīng)性不能解釋不同深度級別的所有對齊,所以在縫合結(jié)果中經(jīng)常存在重影效應(yīng)。為了解決此問題,Nie等人[7]首次提出了無監(jiān)督DL圖像拼接,重建圖像拼接特征,并認(rèn)為重建拼接特征比重建像素級拼接圖更容易,隨后拼接特征被用來重建出拼接圖。2023年Nie等人[6]在之前的研究基礎(chǔ)上提出了用于無監(jiān)督視差DL拼接的薄板樣條線運動學(xué)習(xí)來無縫合成圖像,該算法通過對齊和失真的聯(lián)合優(yōu)化,實現(xiàn)了重疊區(qū)域的精確對齊和非重疊區(qū)域的形狀保持。

考慮到現(xiàn)有基于DL的拼接算法研究較少,本文在表5中總結(jié)了2013—2023年一些經(jīng)典的圖像拼接方法(包括傳統(tǒng)圖像拼接方法與基于DL的圖像拼接方法),根據(jù)有無真實標(biāo)簽可分為有監(jiān)督和無監(jiān)督兩類,根據(jù)網(wǎng)絡(luò)架構(gòu)可分為基于CNN、基于圖卷積網(wǎng)絡(luò)(GCN)與基于其他的方法 ,并根據(jù)拼接方式、與視圖場景視圖大小進(jìn)行分類。由表5可知,流行的圖像拼接方法[6~7,30,43]主要在于解決圖像重影問題。這些方法的最終目的都是通過一系列變化,使圖像更好地對齊,以緩解重影問題。

3.3 經(jīng)典圖像拼接模型

3.3.1 首個無監(jiān)督像素級重建拼接網(wǎng)絡(luò)

Nie等人[7]發(fā)現(xiàn),重建拼接特征比重建像素級拼接圖更容易,因此提出了一個無監(jiān)督深度圖像拼接的方法,通過設(shè)計一個無監(jiān)督圖像重建網(wǎng)絡(luò),來消除從特征到像素的偽影,如圖4[7]所示。

方法存在以下優(yōu)點:a)通過特征域融合的方式,一定程度上消除了由于單應(yīng)性估計不完全對齊導(dǎo)致的拼接后的圖像存在的重影問題;b)使用無監(jiān)督的方式,在首個真實場景下的圖像拼接數(shù)據(jù)集上進(jìn)行單應(yīng)性估計與圖像拼接任務(wù),并取得了很好的效果。該方法存在以下缺點:a)在圖像拼接過程中,對于低分辨率變形分支中,使用的編碼器與解碼器過于簡單,如果使用更復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)或許能增強圖像拼接的效率與效果;b)對于高分辨率精細(xì)分支,網(wǎng)絡(luò)始終處理高分辨率圖像,嚴(yán)重影響了處理速度,為了提高性能,可以對模型進(jìn)行改進(jìn),比如先卷積縮放后的圖片,或者更換效果更好的網(wǎng)絡(luò);c)在極大偏斜的場景中,因為重建能力有限,重建網(wǎng)絡(luò)可能會失敗。

3.3.2 基于DL的無監(jiān)督接縫拼接網(wǎng)絡(luò)

傳統(tǒng)的拼接算法通常使用基于網(wǎng)格的多單應(yīng)性方案[36],但它不能有效地并行加速,這意味著它不能用于DL框架[11]。為了克服這個問題,如圖5[6]所示,Nie等人[6]利用TPS變換[53]來實現(xiàn)有效的局部變形。該算法通過對齊和失真的聯(lián)合優(yōu)化,實現(xiàn)了重疊區(qū)域的精確對齊和非重疊區(qū)域的形狀保持。如圖5所示,該方法存在以下優(yōu)點:a)通過無監(jiān)督學(xué)習(xí)對接縫驅(qū)動的合成掩模進(jìn)行無縫合成,完全消除了由于單應(yīng)性估計不完全對齊導(dǎo)致的拼接后的圖像存在的重影問題;b)引入了TPS策略進(jìn)行扭曲點控制,替代了傳統(tǒng)的效率低下的多重單應(yīng)性扭曲方式,同時保證了全局線性變換與局部非線性變形,實現(xiàn)了圖像與視差對齊。

該方法存在以下缺點:a)在圖像拼接過程中,缺少基于DL接縫的評價指標(biāo)及定義;b)只是采用了簡單的U-Net進(jìn)行接縫掩碼生成,缺乏對更為精細(xì)化的網(wǎng)絡(luò)對結(jié)果影響的探討;c)缺乏對最優(yōu)接縫定義的探討;d)缺乏對非二值掩碼接縫質(zhì)量評價的探討。

3.3.3 多光譜圖像拼接網(wǎng)絡(luò)

如圖6[52]所示,該方法實現(xiàn)了多視圖場景的多譜圖像之間的拼接,提出了一種基于空間圖推理的多光譜圖像拼接方法,首次將圖卷積網(wǎng)絡(luò)引入多光譜交叉視圖對齊和集成的關(guān)系建模中。該方法存在以下優(yōu)點:a)通過空間圖推理方法有效地整合多光譜圖像,生成寬視場圖像;b)通過探討多光譜關(guān)系并利用圖卷積網(wǎng)絡(luò),提高了多視角對齊和整合的性能;c)通過引入長距離縱橫一致性來提高空間和通道維度上的上下文感知,有助于多視角場景的整合和多光譜圖像的融合。

該方法存在以下缺點:a)由于在圖像重構(gòu)過程中考慮到多光譜圖像信息,生成的寬視場圖像可能會呈現(xiàn)較低的鮮艷度;b)與可見光圖像相比,紅外圖像的引入可能導(dǎo)致生成的結(jié)果中的噪聲降低。

4 基于DL的圖像矩形化

圖像矩形化是圖像拼接的后處理任務(wù),圖像拼接后難以避免地會存在邊界不規(guī)則、邊界缺失等情況,圖像矩形化技術(shù)則是在不引入任何額外的虛假內(nèi)容信息,只是在原始內(nèi)容信息的基礎(chǔ)上通過網(wǎng)格畸變將拼接后的圖像扭曲成矩形圖像。在矩形化過程中,采用網(wǎng)格局部扭曲的方法,通過對網(wǎng)格形變實現(xiàn)矩形化效果。根據(jù)扭曲的方式不同,此過程可以分為一階段扭曲與兩階段扭曲。

4.1 扭曲方式

4.1.1 兩階段

He等人[19]提出兩階段優(yōu)化保線網(wǎng)格變形。然而,所提出的能量函數(shù)只能保留線性結(jié)構(gòu)??紤]到直線可能在全景圖(ERP格式)中彎曲,Li等人[18]將保線能量項改進(jìn)為保測地線能量項,但是這種改進(jìn)限制了它在全景圖中的應(yīng)用,并且測地線不能直接從拼接圖像中檢測到。Zhang等人[17]在統(tǒng)一優(yōu)化中橋接了圖像矩形化和圖像拼接,但為了減少最終矩形結(jié)果的失真,他們對矩形形狀作出了妥協(xié),轉(zhuǎn)而采用分段矩形邊界約束。

4.1.2 一階段

Nie等人[14]提出了一個簡單但有效的一階段學(xué)習(xí)基線,通過DL的方法來解決圖像在非線性對象的肖像和風(fēng)景上存在明顯的失真問題,相較于兩階段,性能明顯提升。Liao等人[54]提出了一種方法來約束矩形圖像的非線性和非剛性變換,在內(nèi)容與邊界上實現(xiàn)了魚眼圖像矩形化,但其邊界存在模糊現(xiàn)象。圖9(a)展示了傳統(tǒng)的基于兩階段扭曲的圖像矩形化基線[19],圖9(b)展示了基于DL的一階段扭曲圖像矩形化基線[11]。

考慮到現(xiàn)有基于DL的圖像矩形化研究剛剛起步,因此在表6中總結(jié)了2013—2022年來一些經(jīng)典的圖像矩形化方法(包括傳統(tǒng)方法圖像矩形化方法與基于DL的圖像矩形化方法),根據(jù)有無真實標(biāo)簽可分為有監(jiān)督和無監(jiān)督兩類,并根據(jù)矩形化方式、扭曲階段進(jìn)行分類。

4.2 經(jīng)典圖像矩形化模型

4.2.1 首個有監(jiān)督圖像矩形化網(wǎng)絡(luò)

目前的圖像矩形化研究均為有監(jiān)督學(xué)習(xí)的,尚無基于無監(jiān)督學(xué)習(xí)的圖像矩形化研究。圖7[11]所示為首個有監(jiān)督DL矩形化體系結(jié)構(gòu),通過一階段多扭曲的方式對網(wǎng)格進(jìn)行扭曲,從而保證內(nèi)容的完整性以及邊界的規(guī)則化。此方法存在以下優(yōu)點:a)該方法通過扭曲的方式進(jìn)行矩形化,因此不會引入與圖片信息不符合的內(nèi)容;b)提出了一種由邊界項、網(wǎng)格項和內(nèi)容項組成的綜合目標(biāo)函數(shù),保證在非線性場景中也具有良好的性能。此方法存在以下缺點:使用殘差漸進(jìn)回歸策略在一定程度上會增加模型學(xué)習(xí)的負(fù)擔(dān)。

4.2.2 魚眼矩形化網(wǎng)絡(luò)

圖8[54]展示了在廣角鏡頭下的矩形校正網(wǎng)絡(luò)(RecRecNet)架構(gòu),將拼接后的廣角不規(guī)則圖像通過一系列變形方式,扭曲為規(guī)則的矩形化圖片。該方法存在以下優(yōu)點:a)通過使用基于8-DoF(8-自由度)的課程來學(xué)習(xí)逐漸變形規(guī)則,在最終的矩形任務(wù)上提供快速收斂;b)通過一個薄板樣條(TPS)模塊來制定矩形圖像的非線性和非剛性變換,在非線性場景下也實現(xiàn)了良好的效果,具有良好的場景泛化能力。該方法存在以下缺點:a)在訓(xùn)練過程中,RecRecNet可能需要大量的數(shù)據(jù)來學(xué)習(xí)復(fù)雜的結(jié)構(gòu)逼近任務(wù);b)DoF-based(基于自由度)課程學(xué)習(xí)可能在其他領(lǐng)域的應(yīng)用中需要對課程結(jié)構(gòu)進(jìn)行調(diào)整以適應(yīng)新的任務(wù)需求;c)在某些情況下,RecRecNet 可能需要更多的訓(xùn)練時間來學(xué)習(xí)更復(fù)雜的變形規(guī)則。

4.2.3 首個端到端矩形化集成網(wǎng)絡(luò)

RDISNet方法不同于以往的圖像矩形化方法,而是通過端到端的方式,在學(xué)習(xí)顏色一致性和保持內(nèi)容真實性的同時,直接將兩幅圖像拼接成一個標(biāo)準(zhǔn)的矩形圖像,如圖9[55]所示。該方法存在以下優(yōu)點:a)設(shè)計了一個擴大RDISNet接收場景的擴展的BN-RCU模塊,以維護(hù)拼接圖像中大物體的結(jié)構(gòu)特征;b)RDISNet是首次將圖像拼接和矩形處理整合成一個端到端的過程,同時學(xué)習(xí)圖像對的顏色一致性。該方法存在以下缺點:a)可能無法完全涵蓋自然圖像中的豐富內(nèi)容信息;b)由于該算法是在合成數(shù)據(jù)集上進(jìn)行的實驗,所以在真實數(shù)據(jù)集上可能會出現(xiàn)一定程度的失真;c)在處理大偏斜角度的圖像時,可能無法完全保留圖像的內(nèi)容和真實性;d)在處理具有不同光照條件的圖像時,可能會出現(xiàn)白邊,從而影響模型的性能。

5 數(shù)據(jù)集匯總

由于應(yīng)用場景的不同,圖像拼接數(shù)據(jù)集的構(gòu)建方式也各異。有的需要人工標(biāo)注(如在有監(jiān)督單應(yīng)性估計訓(xùn)練中標(biāo)注配對圖像之間的相對位置關(guān)系),有的需要剔除不滿足要求的圖像(如在圖像矩形化中標(biāo)簽的標(biāo)注需要剔除嚴(yán)重形變圖像)。為了便于學(xué)者的研究,本文整理了近些年來在基于DL的圖像拼接領(lǐng)域研究中的相關(guān)數(shù)據(jù)集(單應(yīng)性估計、圖像拼接、圖像矩形化常用的數(shù)據(jù)集),如表7所示。

6 結(jié)束語

1)研究總結(jié)

本文梳理了圖像拼接研究領(lǐng)域的三個重要分支(單應(yīng)性估計、圖像拼接/融合、圖像矩形化)的相關(guān)研究進(jìn)展。在對比分析各個分支研究中傳統(tǒng)算法與基于DL算法各自的優(yōu)劣情況后,就基于DL的圖像拼接研究進(jìn)行了進(jìn)一步細(xì)化整理。探究了其在單應(yīng)性估計、圖像拼接、圖像矩形化三個分支研究中的方法分類、經(jīng)典網(wǎng)絡(luò)回顧以及當(dāng)前所存在的問題。最后,本文還整理了相關(guān)的數(shù)據(jù)集,以便為該領(lǐng)域的研究提供指導(dǎo)。具體來說,本文的研究總結(jié)如下:

a)本文對比分析了圖像拼接中多個研究分支中傳統(tǒng)算法與基于DL的算法之間的各自優(yōu)缺點,發(fā)現(xiàn)基于DL的算法在低紋理、低光照等場景具有更好的性能表現(xiàn)。此外,在運行速度等方面也具有一定的優(yōu)勢,具有較好的研究前景。

b)本文整理分析了各個研究分支中的模型設(shè)計出發(fā)點(如是否使用監(jiān)督學(xué)習(xí)、網(wǎng)絡(luò)架構(gòu)設(shè)計、適用場景等)及一些經(jīng)典網(wǎng)絡(luò)的優(yōu)缺點,為圖像拼接領(lǐng)域后續(xù)研究工作的進(jìn)一步開展提供了參考。

c)本文整理了各項算法的代碼開源情況,數(shù)據(jù)集使用情況等相關(guān)信息,為該領(lǐng)域的研究提供了指導(dǎo)方向。

d)單應(yīng)性估計研究主要采用4點偏移量預(yù)測的方法進(jìn)行網(wǎng)絡(luò)設(shè)計;單應(yīng)性估計網(wǎng)絡(luò)主要以級聯(lián)網(wǎng)絡(luò)的方式進(jìn)行設(shè)計,可以實現(xiàn)4點偏移量的逐步回歸,取得了較好的性能表現(xiàn),但是存在響應(yīng)效率問題;掩碼模塊的設(shè)計可解決含有運動物體的場景對齊;局部網(wǎng)格扭曲具有較好的對齊表現(xiàn),但是存在一定的形變失真問題。

e)圖像拼接/融合研究主要可分為特征級融合重構(gòu)和接縫掩碼拼接兩種方式。像素級融合可一定程度消除在單應(yīng)性估計中帶來的重影錯位問題,但會造成一定的模糊現(xiàn)象且不能完全解決該問題;接縫掩碼拼接的方式取得了較好的視覺感知表現(xiàn),但是最優(yōu)接縫的度量仍有所缺陷。

f)圖像矩形化研究可解決圖像拼接帶來的邊界不規(guī)則問題。目前基于DL的研究剛剛起步,僅存在有監(jiān)督學(xué)習(xí)方式的矩形化網(wǎng)絡(luò),無監(jiān)督網(wǎng)絡(luò)仍有待探索。此外,矩形化結(jié)果仍存在少許的局部斷線等問題有待被解決。

2)未來挑戰(zhàn)

作為計算機視覺的一項至關(guān)重要的任務(wù),圖像拼接在過去的幾十年中得到了廣泛的研究。將DL技術(shù)引入圖像拼接領(lǐng)域,帶來了圖像拼接相關(guān)研究的再一次繁榮,但是同時它也帶來了一些新的挑戰(zhàn)。具體如下:

a)多模態(tài)圖像拼接以及在交叉任務(wù)上應(yīng)用圖像拼接技術(shù)的研究剛剛興起,仍有待進(jìn)一步更近,以便更好地挖掘圖像拼接的潛在價值。

b)在單應(yīng)性估計過程中,級聯(lián)式網(wǎng)絡(luò)的設(shè)計具有逐步回歸的好處,但是當(dāng)級聯(lián)層數(shù)達(dá)到一定閾值后,網(wǎng)絡(luò)性能將變得不穩(wěn)定,其內(nèi)在原理仍不明朗。

c)現(xiàn)有基于DL的圖像拼接技術(shù)主要采用了全局單應(yīng)性和規(guī)則網(wǎng)格的局部單應(yīng)性進(jìn)行圖像配準(zhǔn)工作,但是由于圖像存在景深的差異,在配準(zhǔn)過程中往往難以實現(xiàn)重疊區(qū)域的全部像素對齊。此外,規(guī)則網(wǎng)絡(luò)并不能充分地在不同景深進(jìn)行對齊。探索超像素分割的不同景深對齊方法仍有待開展。

d)當(dāng)前的圖像拼接研究主要集中于成對圖像之間的拼接研究工作,對于多幅圖像之間的拼接仍主要采用逐步堆疊的方式,這不可避免會帶來累積誤差的問題。因此,探索多幅圖像之間的全局最佳對齊位置的配準(zhǔn)研究仍有待跟進(jìn)。

e)當(dāng)前的圖像拼接研究主要側(cè)重于單一視覺任務(wù),如大視差、運動圖像配準(zhǔn)等研究,目前尚無統(tǒng)一框架的出現(xiàn)。探索圖像拼接的通用框架的研究仍有待開展。

f)一個實用拼接算法不僅應(yīng)考慮其配準(zhǔn)及拼接性能表現(xiàn),還應(yīng)從算法的可移植性、運行速率、資源占用量以及輕量化的移動端表現(xiàn)等方面進(jìn)行綜合度量。因此,在后續(xù)研究中可從多個方面進(jìn)行整體度量。

g)圖像矩形化任務(wù)主要以內(nèi)容保真的形式拉伸圖像以得到規(guī)則的圖形邊界,可以解決扭曲失真并避免生成網(wǎng)絡(luò)所帶來的偽信息,其潛在價值及更多的應(yīng)用場景仍有待進(jìn)一步探究。

h)能夠一步實現(xiàn)圖像拼接三個子任務(wù)的端到端的網(wǎng)絡(luò)仍有待被進(jìn)一步探究,以解決現(xiàn)有網(wǎng)絡(luò)參數(shù)量龐大、運行效率低等問題。

參考文獻(xiàn):

[1]Li Desheng, He Qian, Liu Chunli, et al. Medical image stitching using parallel sift detection and transformation fitting by particle swarm optimization[J]. Journal of Medical Imaging and Health Informatics, 2017,7(6): 1139-1148.

[2]Li Jia, Zhao Yifan, Ye Weihua, et al. Attentive deep stitching and quality assessment for 360°omnidirectional images[J]. IEEE Journal of Selected Topics in Signal Processing, 2019,14(1): 209-221.

[3]Wang Lang, Yu Wen, Li Bao. Multi-scenes image stitching based on autonomous driving[C]//Proc of the 4th IEEE Information Technology, Networking, Electronic and Automation Control Conference. Piscataway, NJ: IEEE Press, 2020: 694-698.

[4]Anderson R, Gallup D, Barron J T, et al. Jump: virtual reality video[J]. ACM Trans on Graphics, 2016,35(6): 1-13.

[5]Gao Junhong, Li Yu, Chin T J, et al. Seam-driven image stitching[EB/OL]. (2013). https://api.semanticscholar.org/CorpusID:18578917.

[6]Nie Lang, Lin Chunyu, Liao Kang, et al. Parallax-tolerant unsupervised deep image stitching[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2023: 7365-7374.

[7]Nie Lang, Lin Chunyu, Liao Kang, et al. Unsupervised deep image stitching: reconstructing stitched features to images[J]. IEEE Trans on Image Processing, 2021,30: 6184-6197.

[8]Dong Chao, Loy C C, He Kaiming, et al. Learning a deep convolutional network for image super-resolution[C]//Proc of the 13th European Conference on Computer Vision. Cham: Springer, 2014: 184-199.

[9]Liu Ze, Lin Yutong, Cao Yue, et al. Swin Transformer: hierarchical vision Transformer using shifted windows[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 9992-10002.

[10]Szeliski R. Image alignment and stitching: a tutorial[J]. Foundations and Trends in Computer Graphics and Vision, 2007, 2(1):1-104

[11]Adel E, Elmogy M, Elbakry H. Image stitching based on feature extraction techniques: a survey[J].International Journal of Compu-ter Applications, 2014,99(6): 1-8.

[12]Lyu Wei, Zhou Zhong, Lang Chen, et al. A survey on image and video stitching[J].Virtual Reality & Intelligent Hardware, 2019,1(1): 55-83.

[13]Liao Kang, Nie Lang, Huang Shujuan, et al. Deep le1dfd02c7be1e12f2501b56f79281697905e57853cc110e7756d7b12d24aff934arning for ca-mera calibration and beyond: a survey[EB/OL]. (2023-03-19). https://arxiv.org/abs/2303.10559.

[14]Nie Lang, Lin Chunyu, Liao Kang, et al. Deep rectangling for image stitching: a learning baseline[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 5730-5738.

[15]Krishnan D, Teterwak P, Sarna A, et al. Boundless: generative adversarial networks for image extension[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 10520-10529.

[16]Suvorov R, Logacheva E, Mashikhin A, et al. Resolution-robust large mask inpainting with Fourier convolutions[C]//Proc of IEEE/CVF Winter Conference on Applications of Computer Vision.Pisca-taway, NJ: IEEE Press, 2022:3172-3182.

[17]Zhang Yun, Lai Y K, Zhang F L. Content-preserving image stitching with piecewise rectangular boundary constraints[J].IEEE Trans on Visualization and Computer Graphics, 2020,27(7): 3198-3212.

[18]Li Dongping, He Kaiming, Sun Jian, et al. A geodesic-preserving method for image warping[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 213-221.

[19]He Kaiming, Chang Huiwen, Sun J. Rectangling panoramic images via warping[J].ACM Trans on Graphics, 2013,4(32):1-10.

[20]Detone D, Malisiewicz T, Rabinovich A. Deep image homography estimation[EB/OL]. (2016-06-13). https://arxiv.org/abs/1606.03798.

[21]Le H, Liu Feng, Zhang Shu, et al. Deep homography estimation for dynamic scenes[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 7649-7658.

[22]Nowruzi F E, Laganiere R, Japkowicz N. Homography estimation from image pairs with hierarchical convolutional networks[C]//Proc of IEEE International Conference on Computer Vision Workshops. Piscataway, NJ: IEEE Press, 2017: 904-911.

[23]Wang Xiang, Wang Chen, Bai Xiao , et al. Deep homography estimation with pairwise invertibility constraint[C]//Proc of Joint IAPR International Workshop on Structural, Syntactic, and Statistical Pattern Recognition. Cham: Springer, 2018: 204-214.

[24]Chang Jiaren, Chen Yongsheng. Pyramid stereo matching network[C]//Proc of IEEE Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press,2018: 5410-5418.

[25]Nie Lang, Lin Chunyu, Liao Kang, et al. Learning edge-preserved image stitching from large-baseline deep homography[EB/OL]. (2020-12-11). https://arxiv.org/abs/2012.06194.

[26]Zhang Jirong, Wang Chuan, Liu Shuaicheng, et al. Content-aware unsupervised deep homography estimation[EB/OL]. (2020-07-20). https://arxiv.org/abs/1909.05983.

[27]Nie Lang, Lin Chunyu, Liao Kang, et al. Depth-aware multi-grid deep homography estimation with contextual correlation[J]. IEEE Trans on Circuits and Systems for Video Technology, 2022, 32(7): 4460-4472.

[28]Jiang Hai, Li Haipeng, Lu Yuhang, et al. Semi-supervised deep large-baseline homography estimation with progressive equivalence constraint[C]//Proc of AAAI Conference on Artificial Intelligence.Palo Alto,CA:AAAI Press, 2023: 1024-1032.

[29]Cao S Y, Hu Jianxin, Sheng Zehua, et al. Iterative deep homography estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 1869-1878.

[30]Nie Lang, Lin Chunyu, Liao Kang, et al. A view-free image stitching network based on global homography[J].Journal of Visual Communication and Image Representation, 2020,73: 102950.

[31]Zhao Yajie, Huang Zeng, Li Tianye, et al. Learning perspective undistortion of portraits[C]//Proc of IEEE/CVF International Confe-rence on Computer Vision. Piscataway, NJ: IEEE Press, 2019: 7848-7858.

[32]Nguyen T, Chen S W, Shivakumar S S, et al. Unsupervised deep homography: a fast and robust homography estimation model[J].IEEE Robotics and Automation Letters, 2018,3(3): 2346-2353.

[33]朱永, 付慧, 唐世華, 等. RISNet: 無監(jiān)督真實場景圖像拼接網(wǎng)絡(luò)[J]. 計算機應(yīng)用研究, 2023, 40(9): 2856-2862. (Zhu Yong, Fu Hui, Tang Shihua, et al. RISNet: unsupervised real scene image stitching network[J]. Application Research of Computer, 2023,40(9): 2856-2862.)

[34]Ye Nianjin, Wang Chuan, Fan Haoqiang, et al. Motion basis lear-ning for unsupervised deep homography estimation with subspace projection[C]//Proc of IEEE/CVF International Conference on Compu-ter Vision. Piscataway, NJ: IEEE Press, 2021: 13097-13105.

[35]Hong Mingbo, Lu Yuhang, Ye Nianjin, et al. Unsupervised homo-graphy estimation with coplanarity-aware GAN[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Pisca-taway, NJ: IEEE Press, 2022: 17642-17651.

[36]Zaragoza J, Chin T J, Tran Q H, et al. As-projective-as-possible image stitching with moving DLT[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2014,36(7): 1285-1298.

[37]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2015-04-10). https://arxiv.org/abs/1409.1556.

[38]Shao Ruizhi, Wu Gaochang, Zhou Yuemei, et al. LocalTrans: a multiscale local transformer network for cross-resolution homography estimation[C]//Proc of IEEE/CVF International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2021: 14870-14879.

[39]Zhao Yiming, Huang Xinming, Zhang Ziming. Deep Lucas-Kanade homography for multimodal image alignment[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2021: 15945-15954.

[40]Liu Shuaicheng, Ye Nianjin, Wang Chuan, et al. Content-aware unsupervised deep homography estimation and its extensions[J]. IEEE Trans on Pattern Analysis and Machine Intelligence, 2022, 45(3): 2849-2863.

[41]Li Jing, Wang Zhengming, Lai Shiming, et al. Parallax-tolerant image stitching based on robust elastic warping[J]. IEEE Trans on Multimedia, 2018, 20(7): 1672-1687.

[42]Li Nan, Xu Yifang, Wang Chao. Quasi-homography warps in image stitching[J]. IEEE Trans on Multimedia, 2018, 20(6): 1365-1375.

[43]Cheng Senmao, Yang Fan, Chen Zhi, et al. Deep seam prediction for image stitching based on selection consistency loss[EB/OL]. (2023-06-26). https://arxiv.org/abs/2302.05027.

[44]Jia Qi, Li Zhengjun, Fan Xin, et al. Leveraging line-point consistence to preserve structures for wide parallax image stitching[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Re-cognition. Piscataway, NJ: IEEE Press, 2021: 12181-12190.

[45]Liao Tianli, Chen Jing, Xu Yifang. Quality evaluation-based iterative seam estimation for image stitching[J].Signal, Image and Video Processing, 2019,13: 1199-1206.

[46]Zhang Fan, Liu Feng. Parallax-tolerant image stitching[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2014: 3262-3269.

[47]Li Jiaxue, Zhou Yicong. Automatic color image stitching using quaternion rank-1 alignment[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 19688-19697.

[48]Lin Kaimo, Jiang Nianjuan, Cheong L F,et al. SEAGULL:seam-guided local alignment for parallax-tolerant image stitching[C]//Proc of the 14th European Conference on Computer Vision. Cham:Springer, 2016: 370-385.

[49]Li Shiwei, Yuan Lu, Sun Jian, et al. Dual-feature warping-based motion model estimation[C]//Proc of IEEE International Conference on Computer Vision. Piscataway, NJ: IEEE Press, 2015: 4283-4291.

[50]Lin C C, Pankanti S U, Ramamurthy K N, et al. Adaptive as-natural as-possible image stitching[C]// Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2015: 1155-1163.

[51]Zhang Guofeng, He Yi, Chen Weifeng, et al. Multi-viewpoint panorama construction with wide-baseline images[J]. IEEE Trans on Image Processing, 2016, 25(7): 3099-3111.

[52]Jiang Zhiying, Zhang Zengxi, Liu Jinyuan, et al. Multi-spectral image stitching via spatial graph reasoning[C]//Proc of the 31st ACM International Conference on Multimedia. New York:ACM Press, 2023:472-480.

[53]Bookstein F L. Principal warps: thin-plate splines and the decomposition of deformations[J].IEEE Trans on Pattern Analysis and Machine Intelligence, 1989,11(6): 567-585.

[54]Liao Kang, Nie Lang, Lin Chunyu, et al. RecRecNet: rectangling rectified wide-angle images by thin-plate spline model and DoF-based curriculum learning[EB/OL]. (2023-09-05). https://arxiv.org/abs/2301.01661.

[55]Zhou Hongfei, Zhu Yuhe, Lyu Xiaoqian, et al. Rectangular-output image stitching[C]//Proc of IEEE International Conference on Image Processing. Piscataway, NJ: IEEE Press, 2023: 2800-2804.

[56]Xiao Jianxiong, Ehinger K A, Oliva A, et al. Recognizing scene viewpoint using panoramic place representation[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2012: 2695-2702.

[57]Lin T Y, Maire M, Belongie S, et al. Microsoft COCO: common objects in context[C]//Proc of the 13th European Conference on Computer Vision. Cham :Springer, 2014: 740-755.

[58]Huang P H, Matzen K, Kopf J, et al. DeepMVS: learning multi-view stereopsis[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2018: 2821-2830.

[59]Weyand T, Araujo A, Cao Bingyi, et al. Google landmarks dataset v2-a large-scale benchmark for instance-level recognition and retrieval[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 2572-2581.

[60]Caesar H, Bankiti V, Lang A H, et al. nuScenes: a multimodal dataset for autonomous driving[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 11618-11628.