劉向增,徐雪靈,劉如意,宋建鋒,苗啟廣
(西安電子科技大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,陜西 西安 710071)
隨著智能系統(tǒng)與傳感技術(shù)的發(fā)展,圖像匹配技術(shù)已廣泛應(yīng)用于圖像配準(zhǔn)、多模式圖像融合、變化監(jiān)測(cè)、機(jī)器人視覺導(dǎo)航、目標(biāo)跟蹤、3D場(chǎng)景重建等領(lǐng)域。圖像匹配精度易受數(shù)據(jù)獲取環(huán)境(光照、天氣)、平臺(tái)姿態(tài)(視角、位置、運(yùn)動(dòng)狀態(tài))、傳感器成像機(jī)理差異(紅外、可見光、雷達(dá))的影響(見圖1),而實(shí)現(xiàn)圖像精確、穩(wěn)健匹配的關(guān)鍵與前提是效局部特征的提取與描述。所謂局部特征是圖像中不同于其鄰域的一種模式,該模式與圖像的某種特性變化相關(guān)聯(lián),如灰度、顏色、紋理、結(jié)構(gòu)等。局部特征的表征形式可為顯著點(diǎn)、直線、邊緣,亦可為局部區(qū)域塊、深層處理(梯度統(tǒng)計(jì)、濾波、卷積)的特征向量描述,因而,圖像局部特征可分為語義性特征和定位性特征兩類:
圖1 同一場(chǎng)景的多模態(tài)圖像
(1)語義性特征:具備某種目標(biāo)屬性的局部特征,如遙感圖像中的直線特征時(shí)常對(duì)應(yīng)道路,邊緣對(duì)應(yīng)圖像紋理的分界線,圖像的區(qū)域塊特征對(duì)應(yīng)某種特定紋理植被、水域或建筑。
(2)定位性特征:不具備特定的目標(biāo)屬性含義,但其具備時(shí)空幾何穩(wěn)定性,常用于圖像目標(biāo)定位與特征追蹤。
鑒于上述定義,語義性特征常用于目標(biāo)檢測(cè)與識(shí)別、圖像檢索、目標(biāo)跟蹤;定位性特征常用于圖像匹配、配準(zhǔn)與拼接、視覺導(dǎo)航、3D重建、SLAM等領(lǐng)域。圖像匹配領(lǐng)域中數(shù)據(jù)獲取的環(huán)境(天氣、時(shí)間、狀態(tài))不同及傳感器差異使得圖像間存在較大的輻射變化及幾何結(jié)構(gòu)形變,導(dǎo)致一致性局部特征的提取與描述變得異常困難。
圖像匹配應(yīng)用中高效的局部特征應(yīng)具有以下性質(zhì):
(1)可重復(fù)性:同一場(chǎng)景的兩幅待匹配的圖像中提取的局部特征應(yīng)達(dá)到較高的重復(fù)率才能滿足特征匹配的高精度對(duì)應(yīng)需求。
(2)獨(dú)特性與顯著性:兩幅待匹配圖像中提取的局部特征應(yīng)反映出圖像中顯著性的結(jié)構(gòu)特征,且其位置與幾何屬性具備獨(dú)特性以減少單幅圖像中的自相關(guān)性,為提升特征的單應(yīng)性匹配精度提供保障。
(3)幾何與對(duì)比度不變性:局部特征應(yīng)具備對(duì)比度及幾何不變性,即兩幅圖像間發(fā)生輻射變化及獲取視角變化時(shí),不變性為局部特征的一致性提供保證。
(4)高效性:局部特征提取在具備上述性質(zhì)的同時(shí),盡量具有低復(fù)雜度運(yùn)算,以保證實(shí)時(shí)任務(wù)中圖像匹配的高時(shí)效性。
上述性質(zhì)中可重復(fù)性與不變性是衡量高效局部特征的最重要的兩個(gè)特性,是實(shí)現(xiàn)對(duì)比度變化與幾何差異條件下穩(wěn)健與精確圖像匹配的根本保障。圖像局部特征在匹配領(lǐng)域發(fā)揮了舉足輕重的作用,原因在于它不但解決了前景與背景的辨識(shí)問題,而且可以對(duì)目標(biāo)的任意部分進(jìn)行定位與多尺度分析,同時(shí)在局部區(qū)域可將復(fù)雜的幾何變化進(jìn)行簡(jiǎn)化,實(shí)現(xiàn)快速有效的特征追蹤。
局部特征的研究可以追溯至1954年Attneave提出的形狀信息會(huì)集中至高曲率的控制點(diǎn)。該領(lǐng)域的研究已近70年,難以詳細(xì)介紹所有的工作進(jìn)展,文中主要針對(duì)常用的典型算法與模型進(jìn)行歸類與分析,主要從傳統(tǒng)特征檢測(cè)與描述設(shè)計(jì)、經(jīng)典機(jī)器學(xué)習(xí)的特征定位與生成、現(xiàn)代深度局部特征學(xué)習(xí)等三個(gè)方面與讀者進(jìn)行分享,為相關(guān)研究人員提供比較全面的參考。
文中第一節(jié)主要介紹基于傳統(tǒng)特征設(shè)計(jì)的局部特征提取方法與基本流程,為后續(xù)基于學(xué)習(xí)的模型設(shè)計(jì)提供基礎(chǔ);接著第二節(jié)展示了經(jīng)典機(jī)器學(xué)習(xí)的特征定位與生成,為復(fù)雜環(huán)境下局部特征的自動(dòng)檢測(cè)與生成提供新思路;結(jié)合當(dāng)前流行的深度學(xué)習(xí),第三節(jié)對(duì)深度局部特征的學(xué)習(xí)模型進(jìn)行的簡(jiǎn)介與分析;隨后,第四節(jié)針對(duì)不同應(yīng)用對(duì)當(dāng)前流行的算法模型進(jìn)行了概述;最后,第五節(jié)給出了結(jié)論。
深度學(xué)習(xí)興起之前,傳統(tǒng)局部特征設(shè)計(jì)在圖像匹配領(lǐng)域占據(jù)著至關(guān)重要的位置,甚至當(dāng)今在某些特定環(huán)境下,傳統(tǒng)局部特征的匹配效果依然優(yōu)于深度學(xué)習(xí)方法。本節(jié)通過局部特征在圖像匹配的應(yīng)用,介紹傳統(tǒng)局部特征的發(fā)展及典型成果,為理解后續(xù)基于學(xué)習(xí)方法的局部特征提取提供理論性基礎(chǔ)。通常圖像匹配的流程可分為特征檢測(cè)、描述與匹配三部分,具體實(shí)現(xiàn)流程如圖2所示,因此,本節(jié)分別從特征檢測(cè)、特征描述兩方面對(duì)傳統(tǒng)局部特征設(shè)計(jì)進(jìn)行回顧與總結(jié),并對(duì)相關(guān)典型算法及其應(yīng)用進(jìn)行討論。
圖2 圖像匹配中傳統(tǒng)局部特征檢測(cè)與描述
傳統(tǒng)局部特征檢測(cè)是通過手工特征檢測(cè)方法設(shè)計(jì),利用特定的計(jì)算準(zhǔn)則直接從圖像中將特征進(jìn)行定位與提取的過程。此類特征主要包括點(diǎn)特征、塊特征、區(qū)域特征、線特征,典型的代表性算法如圖3所示。
圖3 傳統(tǒng)代表性局部特征檢測(cè)方法
(1)作為最重要的局部特征,點(diǎn)特征是進(jìn)行特征匹配的關(guān)鍵,是通過分析圖像局部灰度的變化而提取的,可分為基于輪廓曲率、基于梯度變化、基于灰度分布三類。
輪廓曲率:目標(biāo)輪廓的交叉點(diǎn)或結(jié)合點(diǎn)通??煞从承盘?hào)的雙向的變化,因此,利用輪廓曲率的極值可定位點(diǎn)特征。為精確定位曲率點(diǎn)的尺度信息,文獻(xiàn)為應(yīng)對(duì)尺度的變化提出了曲率圖的尺度空間表示。Zhu等提出了非線性點(diǎn)特征檢測(cè)方法,建立了特征點(diǎn)檢測(cè)的一系列標(biāo)準(zhǔn),克服了曲率近似及高斯濾波的問題。
梯度變化:為改進(jìn)Moravec提出的基于塊自相關(guān)的計(jì)算方法,Harris等提出了通過分析圖像的局部二階矩矩陣(自相關(guān)矩陣),構(gòu)建窗口平移信息量變化函數(shù)對(duì)角點(diǎn)特征精確檢測(cè)的經(jīng)典方法,具體函數(shù)如下:
(1)
其中,I
,I
為I
(x
,y
)的偏導(dǎo)數(shù)。F
=det(M
)-α
·trace(M
)(2)
其中,det(M
)與trace(M
)分別為矩陣的行列式和跡,α
的取值范圍為0.
04~0.
06。為減少噪聲的影響,通常提前對(duì)圖像進(jìn)行高斯濾波。Harris算子具有旋轉(zhuǎn)與對(duì)比度不變性(見圖4),但缺乏尺度不變性。
圖4 Harris角點(diǎn)檢測(cè)示例
Mikolajczuk與Schmid將Harris算子融入高斯尺度空間實(shí)現(xiàn)特征檢測(cè)的尺度不變性,二階矩矩陣改為如下形式:
(3)
其中,L
為高斯平滑后微分圖像,σ
為局部微分尺度,σ
為積分尺度。文章進(jìn)一步考慮了各向異性的高斯仿射尺度空間,實(shí)現(xiàn)了角點(diǎn)檢測(cè)的仿射不變性。另外,Beaudet利用Hessian矩陣(式4)行列式的最大值定位點(diǎn)特征。圖5 DoG極值點(diǎn)檢測(cè)
(4)
為實(shí)現(xiàn)點(diǎn)特征的多尺度檢測(cè)并減輕計(jì)算復(fù)雜度,Lowe提出的SIFT算法中設(shè)計(jì)了DoG(高斯差分)算子:
D
(x
,y
,σ
)=L
(x
,y
,kσ
)-L
(x
,y
,σ
)(5)
L
(x
,y
,σ
)=G
(x
,y
,kσ
)*I
(x
,y
)(6)
通過搜尋DoG空間層與尺度層的極值點(diǎn)提取關(guān)鍵點(diǎn),然后利用邊界效應(yīng)去除和重定位,實(shí)現(xiàn)點(diǎn)特征的亞像素定位。
灰度值分布:為滿足點(diǎn)特征快速提取的要求,文獻(xiàn)提出SUSAN(最小核值相似區(qū))算子,通過計(jì)算圓域內(nèi)與中心點(diǎn)灰度值相近的數(shù)量,若小于某一閾值,則該中心點(diǎn)被檢測(cè)為特征點(diǎn)。近來,文獻(xiàn)提出了FAST算子,通過統(tǒng)計(jì)固定半徑圓域內(nèi)灰度值大于或小于中心點(diǎn)的數(shù)量,若大于某一閾值,則將中心點(diǎn)作為特征點(diǎn)。
(2)作為點(diǎn)特征的補(bǔ)充,斑點(diǎn)特征可反映內(nèi)容一致性局部區(qū)域,通常為具有邊界的近似圓斑。常見方法有高斯拉普拉斯尺度極值:
(7)
Hessian矩陣(式4)行列式與跡同時(shí)極值法(DoH),為實(shí)現(xiàn)斑點(diǎn)特征的尺度不變性,文獻(xiàn)[12]提出了Hessian-Laplace,效果如圖6所示。
圖6 LoG與Hessian-Laplace斑點(diǎn)檢測(cè)
(3)可反映圖像結(jié)構(gòu)性信息的另一類重要特征為線特征,如Hough變換將圖像中的直線檢測(cè)問題轉(zhuǎn)化為極坐標(biāo)參數(shù)空間中通過某點(diǎn)最多正交曲線的問題。為提升直線檢測(cè)的效率,Morel等提出了LSD,實(shí)現(xiàn)了圖像中線特征的快速檢測(cè)。
(4)區(qū)域特征是反映局部紋理或內(nèi)容一致性區(qū)域的特征,較斑點(diǎn)特征的范圍更廣。常見的區(qū)域特征有顯著性特征、最大穩(wěn)定極值區(qū)域特征、仿射不變區(qū)域特征。Kadir等將顯著性特征定義為局部復(fù)雜性或不可預(yù)見性,通過灰度概率分布信息熵的尺度空間極值確定特征的區(qū)域范圍。作者進(jìn)一步考慮尺度空間及橢圓區(qū)域形狀參數(shù)實(shí)現(xiàn)了顯著性區(qū)域的仿射不變性。Matas等通過比較區(qū)域邊界內(nèi)外的灰度值實(shí)現(xiàn)最大穩(wěn)定極值區(qū)域特征(MSER)檢測(cè)。為實(shí)現(xiàn)仿射不變區(qū)域特征提取,文獻(xiàn)[12]提出了Hessian-Affine區(qū)域檢測(cè)方法,將Hessian矩陣的特征值作為橢圓區(qū)域的參數(shù)進(jìn)行穩(wěn)定性估計(jì),進(jìn)而確定區(qū)域邊界。
上述局部特征檢測(cè)方法,鑒于對(duì)比度及幾何變化的影響,點(diǎn)特征和區(qū)域特征應(yīng)用比較廣泛。為實(shí)現(xiàn)較好的匹配效果,通常將多種特征進(jìn)行組合檢測(cè)。
局部特征提取后,實(shí)現(xiàn)復(fù)雜環(huán)境下特征間穩(wěn)健匹配的關(guān)鍵是如何對(duì)局部特征進(jìn)行精確描述。特征描述子是對(duì)圖像局部特征的定量化數(shù)學(xué)描述,反映了其局部領(lǐng)域內(nèi)的灰度、紋理或結(jié)構(gòu)特性。理想的描述子應(yīng)具備噪聲、對(duì)比度、幾何變化的不變性。特征描述方法主要分為梯度分布統(tǒng)計(jì)與局部二值化描述兩類。
梯度分布統(tǒng)計(jì)描述:該方法通過某種規(guī)則統(tǒng)計(jì)特征點(diǎn)鄰域的梯度分布,并生成描述向量。經(jīng)典的方法如梯度方向直方圖(HoG),對(duì)梯度的方向進(jìn)行直方圖統(tǒng)計(jì):
圖7 HoG:梯度直方圖統(tǒng)計(jì)描述
(8)
θ
(x
,y
)=arctan(L
/L
)(9)
局部特征描述的里程碑工作采用梯度直方圖統(tǒng)計(jì)的思想對(duì)特征點(diǎn)進(jìn)行SIFT向量描述,實(shí)現(xiàn)同模態(tài)圖像的穩(wěn)定匹配。Bay等提出了SURF,利用Haar小波響應(yīng)替代梯度并通過積分圖像提升了描述子生成效率。Alcantarilla將SURF算法擴(kuò)展至非線性尺度空間,提出KAZE進(jìn)一步提升了描述子的匹配精度,隨后將快速顯式擴(kuò)散嵌入到金字塔框架,實(shí)現(xiàn)了KAZE的加速計(jì)算。Abdel-Hakim等將顏色信息融入描述子,提出了CSIFT。Morel等通過生成不同視角的圖像并提取ASIFT向量,實(shí)現(xiàn)了全仿射不變性匹配同時(shí)增加了算法復(fù)雜度。Arandjelovi′c等利用Hellinger核均方根替代歐氏距離,提出RootSIFT提升了特征匹配的效果。Dong等提出了DSP-SIFT,通過特征塊尺寸與梯度方向的池化,提升了描述子的匹配性能。Hassner通過對(duì)特征點(diǎn)的多尺度SIFT子空間表示,提出SLS實(shí)現(xiàn)了良好的匹配效果。
局部二值化描述:為滿足移動(dòng)與嵌入式設(shè)備的高效特征匹配及實(shí)時(shí)性任務(wù)(VSLAM)需求,研究人員提出了二值化特征描述(見表1),利用Hamming距離對(duì)描述子進(jìn)行快速匹配。
表1 典型二值化描述子
Ojala等首次提出了局部二值模式(LBP),通過比較特征點(diǎn)與其鄰域內(nèi)像素的灰度值,若其值大則該位置為1,反之為0。為解決平坦區(qū)域描述子的不穩(wěn)定問題,Heikkil?等將SIFT中的梯度信息更替為L(zhǎng)BP,提出了CS-LBP。隨后,Chen等通過改變編碼的位數(shù),提出了RLBP,并應(yīng)用于紋理分類。Calonder等于2010年利用特征點(diǎn)鄰域的隨機(jī)分布構(gòu)建BRIEF描述子,隨后Rublee等通過FAST角點(diǎn)檢測(cè)進(jìn)行矩估計(jì)實(shí)現(xiàn)特征方向不變描述(ORB)。Leutenegger等設(shè)計(jì)了圍繞特征點(diǎn)的四個(gè)同心環(huán)采樣模式,提出了BRISK二值特征描述方法,通過尺度金字塔實(shí)現(xiàn)了尺度不變性。Alahi等模仿人眼對(duì)中央凹區(qū)具備高分辨,對(duì)周邊低分辨的視覺感知的采樣模式,提出了FREAK描述方法。受LIOP對(duì)灰度信息進(jìn)行排序的啟發(fā),Choi等提出了灰度排序二值化特征描述(BIO),該方法有效緩解了灰度排序?qū)е碌恼`差。
傳統(tǒng)局部特征描述主要對(duì)特征鄰域內(nèi)梯度或灰度分布進(jìn)行簡(jiǎn)單統(tǒng)計(jì),對(duì)同模式圖像特征匹配效果良好,然而對(duì)于多模式圖像及細(xì)節(jié)變化較大的圖像依然效果欠佳甚至失效,因此,近來研究人員逐漸將學(xué)習(xí)的方法應(yīng)用于局部特征的提取與描述。
基于經(jīng)典學(xué)習(xí)方法的局部特征提取可歸結(jié)為兩類:一是通過對(duì)傳統(tǒng)局部特征描述的自適應(yīng)學(xué)習(xí),將特征投影至學(xué)習(xí)出的低維空間,實(shí)現(xiàn)局部特征的自動(dòng)檢測(cè)與描述;二是通過監(jiān)督學(xué)習(xí),依據(jù)特征的可匹配性與重復(fù)性構(gòu)建特征分類器實(shí)現(xiàn)特征自適應(yīng)提取。本節(jié)從學(xué)習(xí)型特征檢測(cè)與描述兩方面進(jìn)行介紹。
最初,文獻(xiàn)[25,45-46]利用經(jīng)典學(xué)習(xí)方法進(jìn)行加速傳統(tǒng)局部特征的檢測(cè)。Hartmann等訓(xùn)練隨機(jī)森林分類器對(duì)DoG檢測(cè)的特征進(jìn)行可匹配性預(yù)測(cè),進(jìn)而提升SFM中匹配的效率。為抵抗天氣、季節(jié)、時(shí)間引起的光照變化影響,Verdie等提出了時(shí)不變學(xué)習(xí)檢測(cè)器(TILDE),該方法將分段線性函數(shù)作為回歸器獲取的特征點(diǎn)在可靠性方面高于SIFT和SURF,然而該方法不具備度不變性。
早期,Ke等利用主成分分析(PCA)將梯度圖像投影至新的空間構(gòu)建PCA-SIFT,實(shí)現(xiàn)了SIFT的降維處理,提升了匹配速度。隨后,Lepetit等利用隨機(jī)樹、Babenko等通過boosting方法對(duì)匹配與非匹配特征進(jìn)行表達(dá)學(xué)習(xí)。近來,Brown等利用可操縱濾波或梯度方向映射對(duì)傳統(tǒng)局部特征進(jìn)行空間池化,并通過線性或非線性變換對(duì)特征進(jìn)行降維(見圖8)。為應(yīng)對(duì)由視角變化引起的仿射扭曲,Wang等將PCA應(yīng)用于輸入圖像塊的仿射變換集合,通過線性空間到點(diǎn)的映射獲取特征的仿射子空間表達(dá)。對(duì)于較復(fù)雜的非剛體變換,Simo-Serra等基于擴(kuò)散幾何,利用熱擴(kuò)散原理對(duì)圖像塊構(gòu)建非剛體扭曲與光照不變描述子DaLI,利用PCA對(duì)特征降維保證描述子的緊湊性。
圖8 空間池化與特征嵌入優(yōu)化的描述子學(xué)習(xí)
學(xué)習(xí)型二值化描述子的研究主要針對(duì)特定應(yīng)用,如人臉識(shí)別、運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)(SFM)、3D重建,包括LDAHash,D-BRIEF,RI-LBD,BinBoost,RFD,BOLD等算法。Strecha等利用線性判別分析(LDA)最小化類內(nèi)與類間距離比計(jì)算投影矩陣,然后對(duì)閾值化投影生成二值化描述子(LDAHash)。D-BRIEF則通過學(xué)習(xí)圖像塊與判別子空間的線性投影映射對(duì)圖像塊進(jìn)行二值化。
圖9 TcovDet特征點(diǎn)檢測(cè)流程
近來,Duan等提出一種旋轉(zhuǎn)不變二值化描述子的學(xué)習(xí)方法(RI-LBD),該方法先將圖像塊映射至旋轉(zhuǎn)二值模式,再學(xué)習(xí)塊的方向與二值化投影矩陣。受BRIFF的啟發(fā),Trzcinski等利用弱分類器對(duì)圖像梯度進(jìn)行池化,通過提升二值化哈希函數(shù)進(jìn)行二值化描述子生成。Fan等提出了接受域描述子(RFD),依據(jù)區(qū)域的獨(dú)特性或相關(guān)性進(jìn)行的選取。Balntas等通過對(duì)圖像塊的輕微擾動(dòng)自適應(yīng)調(diào)節(jié)度量,進(jìn)而生成二值化在線學(xué)習(xí)描述子(BOLD),其自適應(yīng)性描述過程同樣適用于其他二值化描述子。
基于經(jīng)典學(xué)習(xí)的描述子利用學(xué)習(xí)的思想從特征匹配性、投影空間、幾何擾動(dòng)自適應(yīng)等方面增加了傳統(tǒng)局部特征提取與描述的靈活性,在一定程度上提升了匹配的效率。
經(jīng)典機(jī)器學(xué)習(xí)型局部特征實(shí)現(xiàn)了傳統(tǒng)局部特征的降維與自適應(yīng)空間投影,然而其本質(zhì)并非自動(dòng)學(xué)習(xí)的抽象特征。深度學(xué)習(xí)的興起使得非線性自適應(yīng)局部特征學(xué)習(xí)成為可能,該方法利用多層級(jí)聯(lián)非線性映射將輸入圖像直接進(jìn)行特征提取,不依賴傳統(tǒng)特征設(shè)計(jì)。本節(jié)從深度學(xué)習(xí)特征檢測(cè)、深度學(xué)習(xí)特征描述、一體化特征檢測(cè)與描述三方面進(jìn)行介紹。
與傳統(tǒng)局部特征提取方法類似,Lenc等提出CovDet,通過學(xué)習(xí)圖像塊與變換之間的映射將特征檢測(cè)轉(zhuǎn)化為回歸問題。利用最小化損失函數(shù)使映射函數(shù)滿足協(xié)變性約束:
φ
(gx
)=gφ
(x
),x
∈X
,g
∈G
(10)
函數(shù)φ
是由卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)而得,最終給出三種特征檢測(cè)器,前兩種具備平移不變性,第三種具備旋轉(zhuǎn)不變性。作者將三種檢測(cè)器應(yīng)用于整幅圖像將置信度超過某一閾值時(shí)作為特征點(diǎn)輸出。作為CovDet的拓展,TcovDet(見圖10)則將函數(shù)φ
作為變換預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行學(xué)習(xí),將變換推廣為仿射變換,實(shí)現(xiàn)了良好的特征檢測(cè)。Savinov等將特征檢測(cè)轉(zhuǎn)化為函數(shù)響應(yīng)的學(xué)習(xí)問題,通過建立圖像塊與實(shí)數(shù)之間的映射并對(duì)其進(jìn)行排序提取特征點(diǎn)。隨后,Mishkin等首次利用深度學(xué)習(xí)模型進(jìn)行仿射協(xié)變區(qū)域檢測(cè),考慮可匹配性與幾何精確性的平衡設(shè)計(jì)硬負(fù)常量損失函數(shù):圖10 Superpoint特征檢測(cè)與描述自監(jiān)督學(xué)習(xí)流程
(11)
(12)
該模型提取的仿射區(qū)域在圖像檢索方面獲得了良好的匹配效果。Laguna等提出淺層多尺度架構(gòu)融合傳統(tǒng)與學(xué)習(xí)的CNN濾波,通過傳統(tǒng)對(duì)特征進(jìn)行定位、排序,利用CNN濾波實(shí)現(xiàn)多尺度特征檢測(cè)。
特征檢測(cè)之后如何對(duì)其進(jìn)行穩(wěn)健的描述是后續(xù)特征匹配的關(guān)鍵。本節(jié)主要討論基于深度學(xué)習(xí)模型的特征描述,從深度特征描述、度量學(xué)習(xí)、損失函數(shù)設(shè)計(jì)三個(gè)方面進(jìn)行介紹。
深度特征描述:AlexNet在ImageNet的性能提升掀開了深度學(xué)習(xí)在視覺鄰域研究的熱潮,因此,早期研究人員直接將AlexNet提取的特征圖作為圖像描述子應(yīng)用于圖像匹配。Fischer等最早將AlexNet的中間響應(yīng)層作為特征,以MSER區(qū)域?yàn)槊枋龇秶鷺?gòu)建描述子學(xué)習(xí)模型PhilippNet并應(yīng)用于3D特征點(diǎn)之間的匹配。隨后,Paulin直接以AlexNet為深度特征提取模型,構(gòu)建塊卷積核網(wǎng)絡(luò)(patch-CKN)進(jìn)行快速的塊特征描述。上述文獻(xiàn)均以歐氏距離度量深度特征描述子的相似性,為應(yīng)對(duì)圖像間的復(fù)雜變化,研究人員對(duì)相似性度量進(jìn)行了深入研究。
度量學(xué)習(xí):2015年Han等將描述子與度量進(jìn)行聯(lián)合學(xué)習(xí)提出了MatchNet模型(見表2),該模型通過多層CNN與空間池化進(jìn)行描述子計(jì)算,利用三層全卷積層進(jìn)行度量學(xué)習(xí),結(jié)合交叉熵?fù)p失將匹配問題轉(zhuǎn)化為分類問題。Zagoruyko等提出了Deepcompare,設(shè)計(jì)了孿生、偽孿生、雙通道、空間池化孿生、雙流多分辨等多種網(wǎng)絡(luò),并對(duì)其進(jìn)行了比較,最終給出雙通道網(wǎng)絡(luò)性能最優(yōu)。
表2 基于孿生神經(jīng)網(wǎng)絡(luò)局部特征學(xué)習(xí)模型
損失函數(shù)設(shè)計(jì):為比較圖像塊之間的相似性,大多文獻(xiàn)通過計(jì)算CNN描述子之間的距離進(jìn)行判斷,然而CNN特征由于不同的損失函數(shù)定義存在差異。本節(jié)主要從逐段損失、三元組損失、全局損失等進(jìn)行討論。Jahrer等首次將逐段損失應(yīng)用于描述子的學(xué)習(xí),Simo-Serra等提出DeepDesc挖掘最難的正負(fù)樣本提升網(wǎng)絡(luò)的性能。Choy等針對(duì)幾何對(duì)應(yīng)提出了通用對(duì)應(yīng)網(wǎng)絡(luò)(UCN),利用卷積空間變換實(shí)現(xiàn)精確的幾何對(duì)應(yīng),模型中采用的一致性對(duì)比損失如下:
(13)
其中,m
為超參數(shù)。Balntas等提出利用三元組損失訓(xùn)練描述子匹配模型PN-Net(見圖11),其中P
,N
分別表示正負(fù)樣本。Mishchu等提出HardNet,該模型通過簡(jiǎn)單的三元組損失最大化正樣本與負(fù)樣本之間的距離:(15)
TGLoss等將三元組損失替換為全局損失,在保證匹配塊距離與非匹配塊距離分布方差之和較小的情況下最大化匹配塊距離與非匹配塊距離分布均值之和。L2-Net設(shè)計(jì)的全局損失考慮了三個(gè)方面:最小化匹配描述子之間的距離、最小化描述子內(nèi)部的相關(guān)性、最大化描述子中間特征圖的相似性。
近來,端到端一體化特征檢測(cè)與描述模型成為局部特征學(xué)習(xí)的研究熱點(diǎn)。Yi等首次提出了端到端特征檢測(cè)與描述模型LIFT,該模型由三部分組成:檢測(cè)器、方向估計(jì)器、描述子生成器,并由兩個(gè)空間變換相關(guān)聯(lián)。第一個(gè)空間變換實(shí)現(xiàn)檢測(cè)器提取圖像塊由大及小的剪切;第二個(gè)空間變換根據(jù)方向估計(jì)器對(duì)剪切后的圖像進(jìn)行旋轉(zhuǎn),其中檢測(cè)器采用TILDE,描述子則采用DeepDesc進(jìn)行計(jì)算。
深度局部特征(DELF)利用ResNet50提取深度特征,基于視覺注意進(jìn)行特征點(diǎn)篩選,最后通過PCA實(shí)現(xiàn)描述子的降維,成功應(yīng)用于大規(guī)模的圖像檢索。DeTone針對(duì)多視角問題提出了特征點(diǎn)檢測(cè)與描述自監(jiān)督訓(xùn)練模型SuperPoint,對(duì)于輸入圖像可由單通道同時(shí)實(shí)現(xiàn)特征點(diǎn)定位與描述(見圖10)。首先利用合成數(shù)據(jù)訓(xùn)練特征檢測(cè)器,然后通過單應(yīng)性自適應(yīng)生成偽特征點(diǎn),進(jìn)而訓(xùn)練SuperPoint網(wǎng)絡(luò),其中特征點(diǎn)檢測(cè)采用交叉熵?fù)p失,特征點(diǎn)描述采用合頁損失。
Dusmanu等用一個(gè)CNN實(shí)現(xiàn)特征檢測(cè)與描述雙重角色(D2-Net),其流程如圖11所示,(i
,j
)處的描述子由多層特征圖組成,特征點(diǎn)檢測(cè)通過層內(nèi)與層間軟件測(cè)分值的非極大值抑制獲得,網(wǎng)絡(luò)訓(xùn)練的損失函數(shù)采用特征檢測(cè)與描述聯(lián)合的三元組損失。Luo等同時(shí)考慮視覺表征與特征之間的幾何關(guān)系提出了ContextDesc,該模型通過幾何上下文編碼器將特征點(diǎn)的幾何關(guān)系進(jìn)行編碼,利用視覺上下文編碼器對(duì)局部特征及區(qū)域特征進(jìn)行編碼,最終構(gòu)建出128維描述子。Sarlin提出了基于注意力的上下文聚合機(jī)制SuperGlue(見圖12),首先通過關(guān)鍵點(diǎn)編碼器將特征點(diǎn)位置及其描述子映射為同一個(gè)向量,然后通過自注意和交叉注意層進(jìn)一步轉(zhuǎn)化為更為穩(wěn)健的表征,最后經(jīng)過優(yōu)化匹配給出分?jǐn)?shù)矩陣并由Sinkhorn算法得到特征匹配關(guān)系。該模型利用SuperPoint+SuperGlue實(shí)現(xiàn)了室內(nèi)與室外數(shù)據(jù)的良好匹配效果,其性能超越了D2-Net與ContextDesc。隨后,Sun等基于SuperGlue提出了由粗到細(xì)的匹配策略,通過Transformer中的自注意與交叉注意層進(jìn)行特征變換(LoFTR),再由置信矩陣得到初步對(duì)應(yīng)關(guān)系;細(xì)匹配階段再利用LoFTR進(jìn)行特征變換,最后由相關(guān)系數(shù)矩陣給出匹配關(guān)系。圖11 D2-Net檢測(cè)與描述流程
圖12 SuperGlue實(shí)現(xiàn)架構(gòu)圖
上述基于深度學(xué)習(xí)的局部特征提取與描述方法,通過不同的模型構(gòu)建、損失函數(shù)設(shè)計(jì)、匹配策略研究實(shí)現(xiàn)了較為靈活的特征提取與描述,部分模型的性能已經(jīng)超越傳統(tǒng)局部特征,為不同應(yīng)用需求提供了諸多選擇。
本節(jié)主要討論傳統(tǒng)局部特征、深度學(xué)習(xí)局部特征的性能比較,為不同應(yīng)用提供思路。
早期,Heinly等對(duì)多種傳統(tǒng)特征檢測(cè)與描述方法(Harris,MSER,F(xiàn)AST,BRIEF,ORB,BRISK,SURF,SIFT)在牛津數(shù)據(jù)集(模糊、光照、視角等變化)上從回憶率、重復(fù)率、正確匹配率等方面進(jìn)行了分析與比較。當(dāng)圖像間不存在幾何變化時(shí),BRIEF的性能優(yōu)于ORB,BRISK,SIFT;當(dāng)圖像間存在旋轉(zhuǎn)變化時(shí),ORB的性能優(yōu)于BRIEF和BRISK;當(dāng)圖像間存在復(fù)雜的幾何變化時(shí),SIFT的表現(xiàn)最優(yōu)。
Mishkin等提出了范圍更廣的寬基線立體匹配數(shù)據(jù)集,包含幾何、光照、傳感器、外觀、多模態(tài)等變化,通過對(duì)多種檢測(cè)器及描述子進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明Hessian-affine具備最優(yōu)的檢測(cè)性能,SIFT及其改進(jìn)DAISY具有最佳的描述子表現(xiàn)。Sun等提出了基于圖像定位評(píng)價(jià)的購物中心場(chǎng)景數(shù)據(jù)集,對(duì)BRIEF,SURF,SIFT,COV,RootSIFT等局部特征提取方法進(jìn)行了比較,通過COV檢測(cè)與RootSIFT描述獲得了最佳性能。
近來,隨著深度學(xué)習(xí)在局部特征提取的應(yīng)用,研究人員對(duì)學(xué)習(xí)方法與傳統(tǒng)方法進(jìn)行了應(yīng)用性能的比較,如文獻(xiàn)[56,81-82]。
Zhang等將傳統(tǒng)特征檢測(cè)方法與FAST、TILDE、CovDet、TCovDet在多種數(shù)據(jù)集上進(jìn)行了分析比較,結(jié)果表明TCovDet在特征重復(fù)率方面優(yōu)于CovDet和TILDE,這兩種方法均優(yōu)于SIFT,SURF,MSER,Harris Laplace,Hessian affine,F(xiàn)AST等檢測(cè)器。在匹配性能方面,TCovDet與SIFT分別在不同的數(shù)據(jù)集上獲得了最佳表現(xiàn)。為解決在不同的數(shù)據(jù)集上對(duì)多種檢測(cè)與描述方法的不一致問題,Balntas等提出了新的基準(zhǔn)數(shù)據(jù)集HPatches,該數(shù)據(jù)集包含大量適合描述子訓(xùn)練與測(cè)試的新數(shù)據(jù),并清晰定義了在匹配、檢索、分類等方面的評(píng)價(jià)協(xié)議。作者對(duì)SIFT、RSIFT (RootSIFT)、BRIEF、ORB、BBoost、Deep-Compare(DC)、DeepDesc、TFeat、L2-Net、HardNet(HNet)等進(jìn)行了全面評(píng)價(jià)(見圖13),結(jié)果表明L2-Net與HNet在不同任務(wù)上獲得了最優(yōu)的性能表現(xiàn),TFeat在塊證實(shí)與匹配方面優(yōu)于傳統(tǒng)局部特征檢測(cè)與描述方法。此外,Lenc等基于HPatches數(shù)據(jù)集專門針對(duì)特征檢測(cè)方法進(jìn)行了評(píng)價(jià),提出了改進(jìn)的特征檢測(cè)重復(fù)率計(jì)算方法(見圖14),在5類數(shù)據(jù)集上對(duì)11種檢測(cè)方法進(jìn)行測(cè)試,統(tǒng)計(jì)結(jié)果顯示TILDE有較高的特征檢測(cè)重復(fù)率,然而在視角變化情況下Hessian affine的重復(fù)率達(dá)到最高,某些情況下TCovDet的特征重復(fù)率依然最優(yōu)。
圖13 Hpatches數(shù)據(jù)集上不同方法在證實(shí)、匹配、檢索等任務(wù)的精度比較
圖14 Hpatches數(shù)據(jù)集上不同特征檢測(cè)方法的重復(fù)率比較
文獻(xiàn)[88]對(duì)最新的基于深度學(xué)習(xí)的一體化特征檢測(cè)與描述方法(D2Net,R2D2,DISK,Sparse-NCNet,DRCNet,LoFTR)進(jìn)行了分析與比較,結(jié)果表明LoFTR在單應(yīng)矩陣估計(jì)及姿態(tài)估計(jì)的性能最優(yōu)。
通過前兩節(jié)的比較與分析,對(duì)比較具體的應(yīng)用給出如下建議:
(1)一般情況下傳統(tǒng)局部特征提取方法較基于學(xué)習(xí)的方法計(jì)算復(fù)雜度低,簡(jiǎn)單場(chǎng)景下特征檢測(cè)可采用Harris、FAST、DoG等檢測(cè)器,特征描述可采用SURF、BRIFF、ORB等描述子;
(2)含有較大對(duì)比度、幾何變換建議采用SIFT、Hessian affine等傳統(tǒng)局部特征提取方法,亦可采用TILDE、TCovDet、SuperPoint等特征檢測(cè)方法;
(3)復(fù)雜場(chǎng)景下的局部特征描述與匹配建議采用RootSIFT、L2-Net、D2Net、ContextDesc、SuperGlue、LoFTR等方法。
在較復(fù)雜的情況下(不同模態(tài)、不同時(shí)相、不同視角等),也可將多種方法組合使用。
該文針對(duì)圖像匹配的應(yīng)用對(duì)局部特征的研究進(jìn)展進(jìn)行了總結(jié)與分析,主要從傳統(tǒng)局部特征設(shè)計(jì)、經(jīng)典機(jī)器學(xué)習(xí)局部特征提取模型構(gòu)建、深度學(xué)習(xí)局部特征挖掘等三個(gè)方面對(duì)局部特征的檢測(cè)與描述展開介紹與討論,分析了典型代表算法的基本原理及優(yōu)勢(shì),通過多篇文獻(xiàn)的比較結(jié)果對(duì)具體的應(yīng)用給出了相應(yīng)的建議。目前,局部特征提取仍存在諸多挑戰(zhàn),如多模態(tài)、多時(shí)相導(dǎo)致的局部特征不一致;多視角造成的幾何變換過大,局部特征不穩(wěn)定。因此,如何利用深度學(xué)習(xí)領(lǐng)域最新研究成果,構(gòu)建跨模態(tài)、多時(shí)相、寬動(dòng)態(tài)條件下穩(wěn)健的局部特征提取模型,實(shí)現(xiàn)圖像匹配、視覺導(dǎo)航、SLAM等領(lǐng)域的更廣范圍的應(yīng)用是今后研究的主要方向。