林璟怡,李 東,胡曉瑞
(廣東工業(yè)大學(xué) 自動化學(xué)院,廣東 廣州510006)
圖像特征點(diǎn)檢測是計算機(jī)視覺研究中的一個關(guān)鍵性任務(wù)。隨著圖像處理與模式識別技術(shù)的發(fā)展,準(zhǔn)確充分地提取原圖蘊(yùn)含信息的圖像特征,對物體識別、圖像匹配、視覺跟蹤、三維重建等課題的發(fā)展有著很大的裨益,因此特征點(diǎn)檢測是一項(xiàng)關(guān)鍵且基礎(chǔ)的研究任務(wù)。
圖像特征點(diǎn)指的是周圍包含豐富的局部圖像特征的像素點(diǎn),常見的特征類型有邊緣點(diǎn)、角點(diǎn)、紋理、斑點(diǎn)等[1]。傳統(tǒng)的特征點(diǎn)檢測方法包括Moravec算法、Harris算法、DoG算法[2-4]等。Moravec算法考察局部圖像平移前后的像素值差異,并將差異最大的局部圖像的中心像素作為特征點(diǎn)。然而該方法只具備弱旋轉(zhuǎn)不變性,其在實(shí)際任務(wù)中的性能表現(xiàn)較差。Harris算法[5]計算局部圖像方向?qū)?shù)得出圖像特征變換最劇烈/緩和的兩個方向,根據(jù)這兩個方向的梯度值區(qū)分無紋理區(qū)域的點(diǎn)、邊緣點(diǎn)或是角點(diǎn)。然而由于Harris算法對于圖像的尺度較敏感,該算法在實(shí)際復(fù)雜環(huán)境下的圖像特征提取應(yīng)用中表現(xiàn)亦不佳。LoG和DoG算法將局部區(qū)域中的圖像導(dǎo)數(shù)的極值點(diǎn)作為特征點(diǎn),無法兼顧特征點(diǎn)的精確定位和圖像的良好去噪,在實(shí)際應(yīng)用中難以取舍。尺度不變特征轉(zhuǎn)換方法(Scale-invariant Feature Transform,SIFT)[6]算法使用高斯差分金字塔構(gòu)造尺度空間,并在尺度空間中定位極值點(diǎn)以選取特征點(diǎn)。然而該算法無法對邊緣光滑的目標(biāo)準(zhǔn)確提取特征點(diǎn)。加速穩(wěn)健特征(Speeded Up Robust Features,SURF)[7]算法對SIFT算法進(jìn)行了改進(jìn),通過計算Hessian矩陣并構(gòu)造尺度空間以進(jìn)行特征點(diǎn)的選取與定位。然而SURF算法并未解決SIFT算法在尺度空間中各個層之間的尺度值不夠緊密的問題。
除基于人工設(shè)計的特征點(diǎn)檢測方法[8-10],近年來也涌現(xiàn)出越來越多基于神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的特征點(diǎn)檢測方法[11-12]。然而現(xiàn)階段缺少帶有特征點(diǎn)標(biāo)注的大規(guī)模數(shù)據(jù)集。其原因在于,首先,對于不同的任務(wù)場景,所需的最優(yōu)特征點(diǎn)類型可能不同,即無法準(zhǔn)確找到最優(yōu)特征點(diǎn)對數(shù)據(jù)集進(jìn)行標(biāo)注。其次,對于密集的特征點(diǎn)生成來說,人工標(biāo)注是一件非常困難的事情。這也使得很多基于學(xué)習(xí)的特征點(diǎn)檢測器都依賴人工設(shè)計的檢測器來生成訓(xùn)練數(shù)據(jù),或?qū)⑵渥鳛榫W(wǎng)絡(luò)的一部分一起參與訓(xùn)練。而后者將限制基于學(xué)習(xí)的檢測器的性能進(jìn)一步發(fā)展。為了解決以上問題,Quad-Network[13]提出了一種基于數(shù)據(jù)驅(qū)動的無監(jiān)督特征點(diǎn)檢測方法,該思想也被LF-Net[14]和SuperPoint[15]作為特征點(diǎn)檢測的重要部分來參與整個圖像匹配任務(wù)網(wǎng)絡(luò)的訓(xùn)練。以上工作說明了無監(jiān)督的學(xué)習(xí)方法能夠很好地完成特征點(diǎn)檢測任務(wù)。
本文提出一種基于差分響應(yīng)圖的無監(jiān)督特征點(diǎn)檢測網(wǎng)絡(luò),主要的工作如下:
(1)提出一種新的無監(jiān)督特征點(diǎn)檢測網(wǎng)絡(luò),訓(xùn)練特征點(diǎn)檢測器對以每一個像素點(diǎn)為中心構(gòu)成的局部圖像塊計算一個響應(yīng)值??疾烀恳粋€圖像塊的響應(yīng)值在當(dāng)前圖像的所有圖像塊中的大小關(guān)系,依據(jù)響應(yīng)值大小使用非極大值抑制的方法在響應(yīng)圖中挑選特征點(diǎn)。在訓(xùn)練方式上,使用卷積核對整幅圖像做卷積操作,省去了Quad-Network中對圖像塊進(jìn)行隨機(jī)選取、裁剪的步驟,減少了訓(xùn)練時間。
(2)對特征點(diǎn)檢測器前端進(jìn)行優(yōu)化,將簡單線性濾波器替換為由不同尺度的卷積核進(jìn)行差分運(yùn)算得到的差分卷積核。在本文后續(xù)章節(jié)的分析與實(shí)驗(yàn)結(jié)果表明,利用差分響應(yīng)有利于更精準(zhǔn)地定位物體邊緣,并緩解了物體邊緣選取的特征點(diǎn)聚集的現(xiàn)象。
(3)與現(xiàn)有方法相比,本文所提出的方法采用旋轉(zhuǎn)、光照、模糊等多種圖像變換訓(xùn)練檢測器,獲得相應(yīng)特征不變性,該網(wǎng)絡(luò)更適用于小規(guī)模數(shù)據(jù)集訓(xùn)練,擺脫對大數(shù)據(jù)集規(guī)模的依賴。實(shí)驗(yàn)結(jié)果表明,即便只使用具有足夠豐富細(xì)節(jié)信息的單幅圖像進(jìn)行訓(xùn)練,并對圖像進(jìn)行合理變換,即可得到性能優(yōu)良的特征點(diǎn)檢測器。
假設(shè)1已知集合X,Y。若存在映射關(guān)系F與操作H,對于任意元素x,y(x∈X,y∈Y)使得
成立,則稱操作H能匹配X,Y中任意一對具有F關(guān)系的元素,其中? 符號表示映射操作。
對于特征點(diǎn)檢測任務(wù)來說,特征點(diǎn)的可重復(fù)性指的是:同一特征點(diǎn)可在該場景的不同圖像中被檢測器檢測出來。特征點(diǎn)的可重復(fù)率是特征點(diǎn)檢測任務(wù)中的一項(xiàng)重要指標(biāo)。
根據(jù)假設(shè)1,假設(shè)存在兩幅圖像Ii和Ij,其映射關(guān)系符合單應(yīng)矩陣F i j。若存在完美的檢測器H,其對任意一對匹配的像素點(diǎn)x∈I1,y∈I2輸出的值都應(yīng)相等,此時所檢測出的特征點(diǎn)的可重復(fù)率達(dá)到了極限值。然而,由于相機(jī)參數(shù)和噪聲等原因,讓所有的像素點(diǎn)都能正確匹配的概率極小。
綜上所述,本文將特征點(diǎn)對于多對匹配的像素點(diǎn)響應(yīng)值一一對應(yīng)相等的問題,近似為,多對匹配的像素點(diǎn)對特征檢測器的輸出響應(yīng)值,在不同圖像中的大小排序相近的問題,即將值比較問題轉(zhuǎn)化成排序比較問題?;谠撍枷?,檢測器將對每一個以像素點(diǎn)為中心的局部圖像塊輸出一個響應(yīng)值,該響應(yīng)值在整體圖像所有響應(yīng)值的排序位置決定該像素點(diǎn)的重要性程度。對于兩幅同一三維場景下的不同圖像來說,要求多對匹配點(diǎn)所輸出的響應(yīng)值的大小排序順序相近。而響應(yīng)值在全局范圍內(nèi)排序隊(duì)列前端部分和末端部分的像素點(diǎn),在不同的圖像中重復(fù)率比排序隊(duì)列中其他像素點(diǎn)更大,即選取響應(yīng)值最大及響應(yīng)值最小的多對像素點(diǎn)作為特征點(diǎn)。
在檢測器的選取問題上,本文使用不同尺度下卷積核的差分輸出來計算響應(yīng)值。并在后續(xù)章節(jié)中分析差分卷積核的相關(guān)性質(zhì)。
圖1展示了本文方法的網(wǎng)絡(luò)架構(gòu),使用的深度學(xué)習(xí)框架為PyTorch。圖1(a)為訓(xùn)練過程的步驟。輸入圖像I后網(wǎng)絡(luò)將對其進(jìn)行隨機(jī)變換t并得到圖像t(I),其次使用同一個差分卷積核模型將對兩幅圖像輸出各自響應(yīng)圖。PyTorch中的評判器模塊會根據(jù)預(yù)定義的損失函數(shù)計算得到誤差梯度并反向傳遞回模型。參數(shù)更新模塊會根據(jù)反向傳遞的誤差梯度對模型的參數(shù)進(jìn)行修改,最終得到訓(xùn)練完畢的模型將用于實(shí)際的測試與應(yīng)用。
圖1 本文網(wǎng)絡(luò)架構(gòu)Fig.1 The proposed network architecture
如圖1(b)所示,在測試過程中,使用訓(xùn)練后的檢測器對圖像輸出一幅差分響應(yīng)圖,然后在全局范圍內(nèi)挑選響應(yīng)值最大和最小的一部分像素點(diǎn)作為特征點(diǎn)。在選取的方式上使用常見的非極大值抑制方法。以選取的特征點(diǎn)的重復(fù)率評判特征點(diǎn)檢測器的性能優(yōu)劣。
1.2.1采樣隨機(jī)變換與仿射變換
由于缺乏大規(guī)模的含有真實(shí)標(biāo)注的數(shù)據(jù)集,在特征點(diǎn)檢測任務(wù)中如何設(shè)計基于學(xué)習(xí)的網(wǎng)絡(luò)是一件困難的事情。在使用反傳網(wǎng)絡(luò)來訓(xùn)練模型參數(shù)的時候,由真實(shí)標(biāo)注和計算結(jié)果構(gòu)成的誤差會反向傳播回模型并更新模型的參數(shù)以達(dá)到訓(xùn)練的效果。在特征點(diǎn)檢測任務(wù)中除了需要考慮如何得到真實(shí)標(biāo)注外,還需擴(kuò)增訓(xùn)練的數(shù)據(jù)量以避免造成過擬合。本文使用采樣隨機(jī)變換的方法來獲得真實(shí)的標(biāo)注。
圖2 原圖與經(jīng)過光照強(qiáng)度變換、模糊變換與JPEG壓縮變換后的圖像Fig.2 The original image and its thr ee tr ansfor med images(brightness, blur, JPEG compress)
如圖2所示,可對圖像進(jìn)行隨機(jī)變換操作,例如光照強(qiáng)度變換、模糊變換等。該變換操作并不改變像素的相對位置,即二維圖像每個像素點(diǎn)對應(yīng)的三維位置信息是固定和已知的,并且所得到的新圖像與原圖的差異可用來訓(xùn)練模型獲得相應(yīng)的特征不變性。若模型對同一場景的不同圖像的響應(yīng)分布越相近,則說明這些圖像之間包含的變換關(guān)系對該特征點(diǎn)檢測網(wǎng)絡(luò)的干擾影響越小,代表著這些圖像變換的魯棒性越強(qiáng)。而模型中的卷積操作并不會影響位置屬性,于是圖1(a)所示的模型輸出的兩幅差分響應(yīng)圖之間的位置信息也是一致的,即在訓(xùn)練過程中獲得了對應(yīng)的真實(shí)標(biāo)注,而該標(biāo)注信息將被用于計算網(wǎng)絡(luò)后端的損失函數(shù)的輸出。
由于本文使用小規(guī)模的數(shù)據(jù)來進(jìn)行訓(xùn)練,需要進(jìn)行數(shù)據(jù)增廣以防止訓(xùn)練過擬合。本文對原圖及進(jìn)行隨機(jī)變換后的新圖像采用隨機(jī)的仿射變換。對圖像進(jìn)行仿射變換,相當(dāng)于圖像中每個像素點(diǎn)坐標(biāo)乘以一個仿射變換矩陣,如式(3)所示。仿射變換包括一些常見的變換,例如平移、旋轉(zhuǎn)、縮放等??赏ㄟ^設(shè)置矩陣的參數(shù)a11至a23來實(shí)現(xiàn)特定的變換。式(4)與式(5)分別代表旋轉(zhuǎn)與縮放操作,其中 θ代表旋轉(zhuǎn)角度,ax與ay代表在兩個坐標(biāo)軸上的縮放尺度。使用仿射變換矩陣進(jìn)行運(yùn)算后,需將新坐標(biāo)的第3個維度的值歸一化,從而得到仿射變換后的坐標(biāo)值(x′,y′)。
由于在同一個訓(xùn)練批次中仿射變換矩陣是已知的,可通過對網(wǎng)絡(luò)模型輸出的響應(yīng)圖進(jìn)行逆仿射變換以使得新的響應(yīng)圖符合原圖的位置分布。該操作執(zhí)行后真實(shí)標(biāo)注的對應(yīng)情況不受影響。
1.2.2 差分卷積核
與以往使用單個線性濾波器作為檢測器的方法不同,本文使用兩個不同尺度的卷積核輸出的差分來計算得到響應(yīng)圖,如圖3所示。不同尺度的卷積核表示感受野大小的不同。圖3(a)為原圖,圖3(b)與圖3(c)分別為原圖經(jīng)過較小尺度和較大尺度的卷積核運(yùn)算后輸出的結(jié)果,其中假設(shè)兩個卷積核參數(shù)服從同一分布。在該可視化方法中,響應(yīng)值越大的點(diǎn)所顯示的顏色越淺。在圖3(b)上可發(fā)現(xiàn)該選定的卷積核對建筑物紋理與樹陰的響應(yīng)值有較大不同,并且兩者的分界較為清晰。而圖3(c)也顯示了建筑物紋理與樹陰的響應(yīng)值的不同,但兩者的分界較為模糊。圖3(b)和圖3(c)表明線性卷積核對于物體的紋理的輸出較為穩(wěn)定。對兩幅響應(yīng)圖進(jìn)行批規(guī)范化操作,即將響應(yīng)圖規(guī)范化至符合特定均值與方差的分布,再對其進(jìn)行差分運(yùn)算,得到圖3(d)。如圖3(d)所示,建筑物紋理的顏色與樹陰區(qū)域的顏色相近,表明了兩者的響應(yīng)值大小相近。而在物體邊緣部分像素點(diǎn)的響應(yīng)值將往最大及最小的趨勢變化(如建筑物與樹陰的分界區(qū)域響應(yīng)值變大,建筑物與天空的分界區(qū)域響應(yīng)值變小)。這是由于大尺度的卷積核對物體的邊緣不敏感,在進(jìn)行差分運(yùn)算時,相比于邊緣位置的像素點(diǎn),非邊緣像素點(diǎn)的響應(yīng)會減去與其更為相近的值,而使得其差分響應(yīng)接近于零,而邊緣點(diǎn)的響應(yīng)值會處于全局范圍內(nèi)最大及最小的部分。因此,本文方法選取差分響應(yīng)圖中最大及最小的一部分作為特征點(diǎn)。
圖3 原圖及卷積核響應(yīng)圖Fig.3 The original image and response maps
為了得到每一個像素點(diǎn)的響應(yīng)值,首先根據(jù)二維卷積公式
式(6)~(10)為像素點(diǎn)的差分響應(yīng)值計算步驟。檢測器輸出的差分響應(yīng)圖可簡記為H(I|w),其中I為輸入的圖像,w為網(wǎng)絡(luò)參數(shù)的權(quán)重。本文通過計算損失函數(shù)并進(jìn)行誤差反向傳播,使用的深度學(xué)習(xí)框架在訓(xùn)練時會根據(jù)反向傳播的誤差值對卷積神經(jīng)網(wǎng)絡(luò)參數(shù)權(quán)重w進(jìn)行自動更新。當(dāng)網(wǎng)絡(luò)參數(shù)訓(xùn)練完畢后,網(wǎng)絡(luò)對輸入的圖像生成響應(yīng)圖,并根據(jù)響應(yīng)值選取特征點(diǎn)。
1.2.3損失函數(shù)
當(dāng)圖像經(jīng)過某種非仿射變換后(如模糊、光照等),特征點(diǎn)檢測器對變換前后的圖像所輸出的響應(yīng)圖的分布越接近,代表著檢測器對于該變換的魯棒性越強(qiáng),其所選取的特征點(diǎn)的重復(fù)率也越高。
假設(shè)存在圖像變換操作集T,t∈T為隨機(jī)采樣的圖像變換。圖像Ij和Ii具有t映射關(guān)系,即Ij=t(Ii)。利用檢測器H計算響應(yīng)圖H(Ii|w)和H(Ij|w)。當(dāng)H(Ii|w)與H(Ij|w)的L1距離越接近,則表示網(wǎng)絡(luò)對t變換的魯棒性越強(qiáng)。因此構(gòu)造損失函數(shù)為
其中BN代表Batch Normalization操作。 λt為超參數(shù),用于調(diào)整不同變換操作對損失函數(shù)的貢獻(xiàn)。目前超參數(shù) λt的值需通過多次實(shí)驗(yàn)嘗試,并根據(jù)最優(yōu)實(shí)驗(yàn)結(jié)果和圖像數(shù)據(jù)集的屬性決定。例如,假設(shè)數(shù)據(jù)集圖像之間均存在t1和t2變換,t1的變換程度范圍較大而t2的變化程度較輕微,則可考慮調(diào)整λt1與 λt2的比重以增大t1變 換對損失函數(shù)的貢獻(xiàn),使網(wǎng)絡(luò)對t1變換的魯棒性更強(qiáng)。
本文圖像變換操作集合T包括光照強(qiáng)度變換、模糊變換與JPEG壓縮變換。光照強(qiáng)度變換計算方法如式(12)所示,其中α 為線性的亮度衰減因子,取值范圍為[0,1]。當(dāng)α =1時代表圖像不進(jìn)行光照強(qiáng)度變換。
模糊變換的計算方法如式(13)~(15)所示,其中e 為自然對數(shù)常數(shù),σ 參數(shù)控制鄰域像素點(diǎn)對中心點(diǎn)的影響,n3為模糊半徑。模糊變換的計算形式與式(7)中離散二維卷積值的計算相似,不同之處為將卷積核換成二維離散高斯函數(shù)。
由于JPEG壓縮算法的實(shí)現(xiàn)較復(fù)雜,本文直接使用OPENCV函數(shù)庫工具對圖像的JPEG壓縮率進(jìn)行調(diào)整。
本文使用Oxford VGG數(shù)據(jù)庫[16]進(jìn)行訓(xùn)練和測試分析,其中包含LEUVEN數(shù)據(jù)集、UBC數(shù)據(jù)集和TREES數(shù)據(jù)集。LEUVEN數(shù)據(jù)集中包含同一場景中不同光照強(qiáng)度的圖像,用于測試特征點(diǎn)檢測器的光照不變性。TREES數(shù)據(jù)集包含同一場景不同模糊程度的圖像,UBC數(shù)據(jù)集包含同一場景不同壓縮程度的圖像,分別用于測試特征點(diǎn)檢測器的模糊不變性與JPEG壓縮損失不變性。每個數(shù)據(jù)集都提供了圖像之間的單應(yīng)矩陣,可用于計算特征點(diǎn)的重復(fù)率指標(biāo)。
本文實(shí)驗(yàn)的定量評價指標(biāo)為特征點(diǎn)的可重復(fù)率,其數(shù)學(xué)描述見定義1。圖4能直觀地表示可重復(fù)率的意義。檢測器對存在確定的仿射關(guān)系F的兩圖像進(jìn)行特征點(diǎn)的選取,其中 A點(diǎn)與 C 點(diǎn)在真實(shí)的三維空間中為同一點(diǎn)。若 A點(diǎn)與 C點(diǎn)能同時被檢測器選取,并且檢測的兩點(diǎn)的坐標(biāo)在像素誤差閾值允許的條件下滿足仿射關(guān)系F,則稱特征點(diǎn) A是可重復(fù)的。特征點(diǎn)的可重復(fù)率即為在同一圖像中可重復(fù)的特征點(diǎn)占所有檢測出的特征點(diǎn)的比率。
圖4 特征點(diǎn)檢測器在兩幅圖像選取的特征點(diǎn)Fig.4 Feature points selected by detector in two images
然而只使用可重復(fù)率作為評價指標(biāo)也具有局限性。例如當(dāng)選取的特征點(diǎn)過于密集形成積聚時,計算的可重復(fù)率較高,但是該情況可能造成特征點(diǎn)在后續(xù)實(shí)際應(yīng)用中性能不佳。因此本文同時對特征點(diǎn)的分布情況做出定性評價。
定義1特征點(diǎn)的可重復(fù)率。若存在圖像Ii與Ij,F(xiàn) i j與F ji分別為從Ii到Ij和從Ij到Ii的單應(yīng)矩陣。xi與xj分別為在Ii與Ij中觀測到的特征點(diǎn)。x~i和x~j為在Ii與Ij共有區(qū)域中觀測到的特征點(diǎn),其滿足
本文使用Python語言來編寫和訓(xùn)練特征點(diǎn)檢測網(wǎng)絡(luò),使用的深度學(xué)習(xí)框架為Py Torch。訓(xùn)練集為LEUVEN數(shù)據(jù)集中圖像細(xì)節(jié)最完備的一幅圖像,測試集為前面所述3個數(shù)據(jù)集。本文選擇無監(jiān)督的Quad-Network網(wǎng)絡(luò)和常用的DoG檢測器作為對比方法。在Quad-Network算法的實(shí)現(xiàn)上,為了公平比較,本文使用該網(wǎng)絡(luò)的訓(xùn)練方式和損失函數(shù)替換本文網(wǎng)絡(luò)相對應(yīng)的部分,其余訓(xùn)練操作均一致。本文網(wǎng)絡(luò)使用Adam算法來優(yōu)化網(wǎng)絡(luò)權(quán)重,批量化大小(Batch Size)為8,學(xué)習(xí)率為0.01。隨機(jī)光照強(qiáng)度變換選取衰減因子的范圍為[0.2,1]。隨機(jī)模糊變換選取的模糊像素半徑為[0,5], σ值設(shè)置為1。隨機(jī)JPEG壓縮率的選取范圍為[0.2,1]。
本文方法使用仿射變換中的旋轉(zhuǎn)與縮放操作進(jìn)行數(shù)據(jù)增廣。選取隨機(jī)旋轉(zhuǎn)角度的范圍為[0,360],隨機(jī)縮放因子ax與ay的范圍均為[0.9,1.1]。
計算特征點(diǎn)可重復(fù)率的誤差閾值對特征點(diǎn)檢測器的性能做出了要求,當(dāng)誤差閾值越小時,要求檢測器對特征點(diǎn)的定位要更精準(zhǔn)。本文選取常用的5像素閾值來評判檢測器的性能。
圖5為3種方法在LEUVEN數(shù)據(jù)集上的測試結(jié)果,紅色和藍(lán)色的點(diǎn)為所選擇的特征點(diǎn)。圖6展示DoG算法選取的候選點(diǎn)及Quad-Network和本文方法輸出的響應(yīng)圖。所輸出的響應(yīng)圖采用灰度圖的方式進(jìn)行可視化。如圖7所示,是3種方法分別在TREES和UBC數(shù)據(jù)集上選擇的特征點(diǎn)。所有實(shí)驗(yàn)的特征點(diǎn)重復(fù)率數(shù)據(jù)如表1所示。
由表1可以看出,3種方法在UBC數(shù)據(jù)集中取得的重復(fù)率均較高,且與其余數(shù)據(jù)集中相差較大。這是由于LEUVEN數(shù)據(jù)集與TREES數(shù)據(jù)集中圖像包含了仿射變換,而UBC數(shù)據(jù)集是使用同一幅圖像在不同JPEG壓縮條件下生成的圖像,并不存在仿射變換。傳統(tǒng)的DoG方法只有在LEUVEN數(shù)據(jù)集上的定量性能要比Quad-Network和本文的方法要好。但是,結(jié)合圖5(a)與圖6(a)分析,DoG方法選擇的特征點(diǎn)有很大部分聚集在樹陰的區(qū)域。然而該區(qū)域中,點(diǎn)的位置難以辨認(rèn)與定位,所選擇的像素點(diǎn)在特征點(diǎn)檢測任務(wù)中被認(rèn)為是難樣本(Hard Sample)。這是由于DoG方法總是選擇圖像離散函數(shù)二階導(dǎo)數(shù)為零的點(diǎn),即局部變化最劇烈的點(diǎn),但在全局中該類型的點(diǎn)可能并非最優(yōu)特征點(diǎn)。綜上,雖然DoG檢測器能很好地檢測出物體的邊緣,但也存在著選取大量難樣本的風(fēng)險。
圖5 3種方法在LEUVEN數(shù)據(jù)集上檢測的特征點(diǎn)Fig.5 Feature pointsselected by DoG detector, Quad-Network and our method on LEUVEN dataset
圖6 DoG,Quad-Network和本文方法在LEUVEN數(shù)據(jù)集上的候選點(diǎn)/響應(yīng)圖Fig.6 Candidate point/response diagramsof DoG detector, Quad-Network and our method on LEUVEN dataset
圖7 3種方法分別在TREES數(shù)據(jù)集(左)和UBC數(shù)據(jù)集(右)上選擇的特征點(diǎn)Fig.7 Feature pointsselected by DoG detector, Quad-Network and our method on TREES and UBC datasets
表1 特征點(diǎn)重復(fù)率Table 1 Repetition rate of feature points
如圖5(c)和圖5(d),Quad-Network方法對物體的邊緣不夠敏感,在邊緣的響應(yīng)值大小極為接近,在所測試的3個數(shù)據(jù)集上都存在特征點(diǎn)聚集情況。由圖6(c)與圖6(d)可看出,Quad-Network輸出的響應(yīng)圖模糊現(xiàn)象及邊緣點(diǎn)的積聚現(xiàn)象較為嚴(yán)重。雖然Quad-Network在UBC數(shù)據(jù)集上取得最高的重復(fù)率,但是結(jié)合對特征響應(yīng)圖分析,Quad-Network可能會選取遠(yuǎn)離圖像中復(fù)雜紋理的像素點(diǎn),并認(rèn)為其與所處在復(fù)雜紋理的像素點(diǎn)具有相似的性能表現(xiàn)。這種特征點(diǎn)的選取策略可能會對后續(xù)任務(wù)的性能有損害,例如圖像描述子生成任務(wù)等。
與DoG方法比較,本文所提出的方法在TREES數(shù)據(jù)集和UBC數(shù)據(jù)集中取得的重復(fù)率均高于前者。雖然在LEUVEN數(shù)據(jù)集上的重復(fù)率指標(biāo)與前者相比較低,但緩解了DoG方法優(yōu)先選擇難樣本的問題。與Quad-Network方法相比,所提出的方法在LEUVEN和TREES數(shù)據(jù)集上特征點(diǎn)的重復(fù)率均優(yōu)于前者。此外,本文方法生成了對物體邊緣更為敏感,細(xì)節(jié)更為清晰的特征響應(yīng)圖,見圖6(e)與圖6(f)。
圖8為兩種基于學(xué)習(xí)的方法在測試過程中對LEUVEN數(shù)據(jù)集檢測特征點(diǎn)所耗費(fèi)的時間曲線圖。可以看出本文方法在同等特征點(diǎn)數(shù)目檢測中所需要的時間遠(yuǎn)比Quad-Network的要少。因?yàn)镼uad-Network在使用線性濾波器去對局部圖像塊計算相應(yīng)的響應(yīng)值時,存在著大量耗時的圖像裁剪操作,而本文方法使用了不同于Quad-Network的訓(xùn)練模式與損失函數(shù),利用卷積核對圖像輸出特征圖以候選特征點(diǎn),省去了隨機(jī)采樣和裁剪圖像塊的操作,簡化了數(shù)據(jù)處理流程,使得耗時大大減少。
圖8 檢測特征點(diǎn)的數(shù)量與所消耗時間的關(guān)系Fig.8 The r elationship between the number of feature points detected and the time consumed
圖9是對本文網(wǎng)絡(luò)中隨機(jī)選取的一個尺度的卷積層進(jìn)行可視化操作。訓(xùn)練得到的卷積核呈中心對稱,且卷積參數(shù)的均值近似于零。由于未使用非線性的激活函數(shù),當(dāng)卷積核處于無紋理區(qū)域中,即圖像像素值近似無變化的區(qū)域,其輸出的響應(yīng)值也接近于零;當(dāng)卷積核處于有紋理區(qū)域中,輸出的響應(yīng)值會趨于正無窮及負(fù)無窮,遠(yuǎn)離零點(diǎn)。實(shí)驗(yàn)表明,選取響應(yīng)值最大及最小的一部分像素點(diǎn)為特征點(diǎn),具有較好的可重復(fù)性。
圖9 尺度為23像素的三通道卷積核可視化Fig.9 Visualization of 3-channel convolution kernels with a scale of 23 pixels
綜上,在分別對應(yīng)光照強(qiáng)度變換、模糊變換和JPEG壓縮變換的3個數(shù)據(jù)集的測試上,本文所提出的方法在3種方法中表現(xiàn)出最佳的綜合性能。
本文提出了一種新的數(shù)據(jù)驅(qū)動的基于差分特征響應(yīng)圖的無監(jiān)督特征點(diǎn)檢測網(wǎng)絡(luò)。利用光照、模糊、壓縮等變換來準(zhǔn)確獲取訓(xùn)練數(shù)據(jù)真實(shí)標(biāo)注,利用隨機(jī)仿射變換擴(kuò)充數(shù)據(jù)集以避免訓(xùn)練過擬合,采用差分卷積核來代替?zhèn)鹘y(tǒng)的卷積核提取圖像特征,獲得對邊緣更為敏感的特征圖。采用了一種新的基于全局圖像的損失函數(shù),簡化了數(shù)據(jù)處理過程。使用定量與定性評價標(biāo)準(zhǔn)在3個數(shù)據(jù)集上將提出的方法與其他傳統(tǒng)經(jīng)典方法進(jìn)行實(shí)驗(yàn)對比。實(shí)驗(yàn)結(jié)果表明,所提出的方法能有效地完成特征點(diǎn)檢測任務(wù),生成的特征響應(yīng)圖對物體邊緣更敏感、細(xì)節(jié)更清晰,縮短了訓(xùn)練耗時,在小規(guī)模數(shù)據(jù)集上獲得更優(yōu)的檢測效果,總體表現(xiàn)出最佳的綜合性能。本文方法的局限性在于,未解決含有仿射變換的數(shù)據(jù)集所檢測的特征點(diǎn)可重復(fù)率不高的問題,這也是下一步將要研究的問題。