国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合雙注意力與深度神經(jīng)網(wǎng)絡(luò)的遙感圖像配準(zhǔn)

2022-08-22 13:39:30李績鵬王東振
計算機(jī)仿真 2022年7期
關(guān)鍵詞:特征提取注意力特征

李績鵬,陳 穎,王東振

(上海應(yīng)用技術(shù)大學(xué)計算機(jī)科學(xué)與信息工程學(xué)院,上海 201418)

1 引言

遙感圖像是指由高空成像系統(tǒng)獲得的具有地面目標(biāo)特征的圖像。多視角遙感圖像配準(zhǔn)是實現(xiàn)圖像輔助導(dǎo)航,導(dǎo)彈圖像制導(dǎo)等重要應(yīng)用的關(guān)鍵技術(shù)[1]。本文關(guān)注多視角遙感圖像的配準(zhǔn)技術(shù)研究,即兩幅圖像(分別稱作參考圖像和待配準(zhǔn)圖像)由同一傳感器采集,但采集視角有水平或(和)垂直方向上的改變[2]。

基于點特征的配準(zhǔn)是目前遙感圖像配準(zhǔn)中的主要技術(shù)。Lowe于04年完善了尺度不變特征變換(Scale Invariant Feature Transform,SIFT)算法,具有較高的精度[3]。Morel等在09年提出以圖像變換集為基礎(chǔ)的ASIFT(Affine Scale Invariant Feature Transform)算法,可以很好的解決因視角變化產(chǎn)生的變形問題[4]。然而基于點特征的自動檢測算法的健壯性不如人工標(biāo)注高,因此有很多研究使用線特征或更高級的特征進(jìn)行檢測,但提升有限[2]。

近年,遙感圖像配準(zhǔn)領(lǐng)域開始使用深度學(xué)習(xí)改進(jìn)特征提取的性能。Wang等通過有監(jiān)督學(xué)習(xí)預(yù)測兩幅圖像是否來自同一區(qū)域,有效提升了配準(zhǔn)性能[5]。Yang等使用VGG-16網(wǎng)絡(luò)的多層特征圖融合結(jié)果生成特征點,在多時相遙感圖像上達(dá)到了比傳統(tǒng)方法更好的魯棒性[6]。

通過在特征提取階段引入深度學(xué)習(xí),遙感圖像配準(zhǔn)任務(wù)得到了較好反饋,但只將深度神經(jīng)網(wǎng)絡(luò)當(dāng)作特征提取器并不能充分利用深度學(xué)習(xí)的能力。最近有研究使用深度神經(jīng)網(wǎng)絡(luò)代替特征提取及特征匹配兩步,即使用端到端的方式對圖像進(jìn)行配準(zhǔn)。

Detone等使用深度學(xué)習(xí)對兩幅圖像的單應(yīng)性變換進(jìn)行估計,其使用人工合成的數(shù)據(jù)集進(jìn)行訓(xùn)練,達(dá)到了比傳統(tǒng)算法更高的精確度[7]。Rocco等更進(jìn)一步設(shè)計了一種端到端的框架,進(jìn)行實例級、類級的圖像配準(zhǔn)[8],測試表明該模型的泛化性較好,在真實場景中也能得到較好的表現(xiàn)。Kim等提出一種兩階段配準(zhǔn)模型,第一階段預(yù)測旋轉(zhuǎn)變換,第二階段預(yù)測仿射變換,在多時相遙感圖像中取得了更好的表現(xiàn)[9]。Park等對待配準(zhǔn)圖像進(jìn)行預(yù)處理,使網(wǎng)絡(luò)接受參考、待配準(zhǔn)和增強(qiáng)三幅圖像,并利用圖像全局變換的同構(gòu)性對模型進(jìn)行訓(xùn)練,實驗表明該方法在地表變化較大的遙感配準(zhǔn)中有更高的準(zhǔn)確度[10]。該類方法對特征提取和特征匹配兩個任務(wù)同時訓(xùn)練,在復(fù)雜的圖像配準(zhǔn)場景中能得到更好的結(jié)果。

上述方法在多視角遙感圖像配準(zhǔn)中仍然存在配準(zhǔn)精度低等問題,因此本文提出使用融合雙注意力機(jī)制的網(wǎng)絡(luò)中網(wǎng)絡(luò)改進(jìn)特征提取器的性能,在特征匹配層使用了雙向相關(guān)運(yùn)算以提升特征匹配精度,同時,針對如文獻(xiàn)[6]等方法實時性不高的短板[2],本文對網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行優(yōu)化以提高算法的速度。實驗表明,在多視角遙感配準(zhǔn)中,本文算法的配準(zhǔn)精度和速度提升明顯,

2 端到端的深度學(xué)習(xí)配準(zhǔn)框架

2.1 系統(tǒng)總體設(shè)計

配準(zhǔn)系統(tǒng)分為三部分:①特征提取網(wǎng)絡(luò);②特征匹配層;③參數(shù)回歸網(wǎng)絡(luò)。首先,融合雙注意力機(jī)制與網(wǎng)絡(luò)中網(wǎng)絡(luò)的特征提取器分別提取兩個輸入圖像的特征,生成一對特征圖輸入到特征匹配層中對特征進(jìn)行匹配,最后,匹配層得到的匹配圖輸入到參數(shù)回歸網(wǎng)絡(luò)預(yù)測圖像變換。系統(tǒng)總體設(shè)計如圖1所示,輸入為參考圖像和待配準(zhǔn)圖像,輸出為8個參數(shù),將這些參數(shù)應(yīng)用于待配準(zhǔn)圖像上得到配準(zhǔn)后圖像。下文將對各模塊進(jìn)行詳細(xì)介紹。

圖1 網(wǎng)絡(luò)總體結(jié)構(gòu)

2.2 融合雙注意力機(jī)制的特征提取網(wǎng)絡(luò)

2.2.1 網(wǎng)絡(luò)中網(wǎng)絡(luò)

普通的卷積層對非線形特征抽象能力不足[11]。因此,在卷積層內(nèi)引入微神經(jīng)網(wǎng)絡(luò)(Multilayer Perceptron,MLP)來抽象感受野中的數(shù)據(jù),增加了網(wǎng)絡(luò)對復(fù)雜多視角遙感圖像特征的處理能力。

圖2 網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)

圖2為網(wǎng)絡(luò)中網(wǎng)絡(luò)結(jié)構(gòu)圖,即在每組卷積層和池化層后面接一個MLP層。為了加快網(wǎng)絡(luò)的收斂速度和增強(qiáng)網(wǎng)絡(luò)的泛化能力,在每個卷積層后添加批歸一化層(Batch Normalization,BN)[12]和線形整流激活函數(shù)(Rectified Linear Unit,ReLU)。各層通道數(shù)分別增加至64、128、192。網(wǎng)絡(luò)中網(wǎng)絡(luò)的計算方式如下式(1)所示。其中M為每層網(wǎng)絡(luò)中網(wǎng)絡(luò)的輸出,u、v為輸入特征圖中的像素坐標(biāo)索引,Xu,v代表中心在(u,v)點的特征圖取值,k代表輸入特征圖的通道數(shù)索引,n為網(wǎng)絡(luò)索引,w為神經(jīng)網(wǎng)絡(luò)的權(quán)重,b為神經(jīng)網(wǎng)絡(luò)的偏置。

(1)

2.2.2 雙注意力機(jī)制

使用注意力機(jī)制的目標(biāo)在于使網(wǎng)絡(luò)關(guān)注重要特征并加以利用[13],達(dá)到以重要特征為基準(zhǔn)進(jìn)行配準(zhǔn)的目的。而雙注意力機(jī)制是指網(wǎng)絡(luò)上層生成的特征圖,將會先后通過通道注意力模塊和空間注意力模塊的處理,即沿著兩個獨立的維度依次推斷注意力圖。這不僅考慮到了不同通道的特征的重要性,還考慮到了同一個特征通道的不同位置的特征的重要程度。下圖3為雙注意力機(jī)制的總體結(jié)構(gòu)。

圖3 雙注意力機(jī)制總體結(jié)構(gòu)

在訓(xùn)練階段,每層網(wǎng)絡(luò)生成的每個特征圖(通道)可以看作是針對某一種特征的檢測器,通道注意力機(jī)制可以在訓(xùn)練中分辨出對配準(zhǔn)任務(wù)貢獻(xiàn)最大的通道,以此作為主要依據(jù)進(jìn)行特征提取[14]。通道注意力圖的計算過程如下式(2)所示

MC(F)=σ(MLP(Avg(F)),MLP(Max(F)))

(2)

普通卷積神經(jīng)網(wǎng)絡(luò)通過池化對空間信息進(jìn)行壓縮時可能會導(dǎo)致某些關(guān)鍵信息的丟失,而空間注意力可以在保持關(guān)鍵信息的基礎(chǔ)上更有效的找出圖像中需要被關(guān)注的區(qū)域特征[15]??臻g注意力圖的計算過程如下式(3)所示:

MS(FC)=σ(Cov7×7([Avg(FC);Max(FC)]))

(3)

雙注意力模塊[16]使用上層網(wǎng)絡(luò)輸出的特征圖F作為輸入,首先產(chǎn)生一維通道注意力圖Mc∈RC×1×1,然后產(chǎn)生二維空間注意力圖Ms∈R1×H×W。總體過程如下式(4)所述

F′=MC(F)?F

F″=MS(F′)?F′

(4)

符號?代表逐元素乘法,F(xiàn)′代表注意力模塊的中間結(jié)果,F(xiàn)″為注意力模塊的最終結(jié)果。

本文將注意力模塊加在每個基本網(wǎng)絡(luò)中網(wǎng)絡(luò)模塊之后,第一個注意力模塊通道數(shù)為128維,第二個注意力模塊通道數(shù)為160維,第三個注意力模塊的通道數(shù)為192維。

綜合考慮運(yùn)行速度與配準(zhǔn)質(zhì)量,在圖像輸入階段,使用雙三次插值算法(Bicubic Interpolation)將輸入圖像的大小調(diào)整為256*256。圖4為特征提取網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)及流程圖,其中CBAM_x為雙注意力機(jī)制模塊,Conv_x為卷積層,Max_pool_x為最大池化層。

圖4 特征提取網(wǎng)絡(luò)的詳細(xì)結(jié)構(gòu)及流程

2.3 使用雙向相關(guān)運(yùn)算的特征匹配層

圖5 特征匹配層的計算流程

由相互最近鄰(Mutual Nearest Neighbors)算法啟發(fā),本文使用雙向的相關(guān)運(yùn)算計算特征圖A與特征圖B的相似性,可以更好的避免誤匹配。以CorrAB為例,對CorrBA同理,相關(guān)運(yùn)算如式(5)所示

CorrAB(i,j,K)=fB(i,j)TfA(iK,jK)

(5)

其中,fA,fB∈h×w×d為參考圖像和待配準(zhǔn)圖像的特征圖,h和w為特征圖的大小,d為特征圖的通道數(shù)。i和j分別為兩個特征圖在通道切面上的索引,輔助索引K=h(jK-1)+iK。該層網(wǎng)絡(luò)輸入為2個192*16*16大小的特征圖,輸出CorrAB為256*16*16的匹配圖。為進(jìn)一步剔除誤匹配特征,對匹配圖進(jìn)行ReLU激活函數(shù)處理及歸一化。歸一化操作如下式(6)所示,其中Corr為相關(guān)運(yùn)算輸出的匹配圖,n為匹配圖的第一維大小,ξ取0.000001,F(xiàn)n為歸一化后匹配圖。

(6)

最后將歸一化的兩個匹配圖做逐元素減法,去除不滿足相互匹配的特征,得到本層最終輸出。

2.4 參數(shù)回歸網(wǎng)絡(luò)

參數(shù)回歸網(wǎng)絡(luò)使用上層輸出的匹配圖估計兩幅圖像間的單應(yīng)性變換。該模塊預(yù)測的變換參數(shù)可以應(yīng)用于多視角遙感圖像配準(zhǔn)的前提是:①航空和航天遙感成像的距離非常遠(yuǎn),成像目標(biāo)區(qū)域相對于成像元件近似為一個平面;②在不同視角對成像目標(biāo)進(jìn)行觀察的運(yùn)動可以近似為成像元件繞成像目標(biāo)的單純旋轉(zhuǎn)運(yùn)動[7]。滿足上述假設(shè)的問題為透視變換,可由單應(yīng)性矩陣解決,其廣泛的應(yīng)用于傳統(tǒng)圖像配準(zhǔn)任務(wù)中[17-19]。單應(yīng)性矩陣如下式(7)所示,通過其參數(shù)hij將待配準(zhǔn)圖像中坐標(biāo)(x,y)的像素映射至配準(zhǔn)后圖像中的(x′,y′)處。

(7)

(8)

該模塊由一個網(wǎng)絡(luò)中網(wǎng)絡(luò)基本塊和3層全連接層組成,除最后一層全連接層以外,每一層網(wǎng)絡(luò)后都連接一個批歸一化層和ReLU激活函數(shù)。

參數(shù)預(yù)測網(wǎng)絡(luò)的輸入為256維大小16*16的特征圖,第一層卷積核大小為5,輸入通道256維,輸出通道128維,后兩層卷積核大小為1,通道數(shù)分別減少至64和32。全連接層輸入大小為1152,經(jīng)過一個隱含層后減少至8個,輸出最終的單應(yīng)性變換參數(shù)。

3 本文算法步驟

本文所提到的配準(zhǔn)方法具體實現(xiàn)步驟如下:

步驟1:圖像預(yù)處理。主要包含對輸入圖像數(shù)據(jù)的重采樣和增強(qiáng)處理。

步驟2:特征提取。利用訓(xùn)練后的融合注意力機(jī)制的網(wǎng)絡(luò)中網(wǎng)絡(luò)模型分別對兩幅圖像進(jìn)行特征提取。

步驟3:特征匹配。使用雙向相關(guān)層處理特征提取網(wǎng)絡(luò)提取的兩幅特征圖,輸出關(guān)于兩幅特征圖所有特征點的匹配信息。

步驟4:參數(shù)預(yù)測。根據(jù)特征匹配層輸出的匹配圖,預(yù)測從待配準(zhǔn)圖像到參考圖像的單應(yīng)性變換參數(shù)。

步驟5:求解變換模型。計算圖像變換矩陣,完成多視角遙感圖像的配準(zhǔn)。配準(zhǔn)流程如圖6所示。

圖6 基于網(wǎng)絡(luò)中網(wǎng)絡(luò)與注意力機(jī)制的配準(zhǔn)流程

4 仿真與分析

4.1 數(shù)據(jù)集與參數(shù)設(shè)置

本文訓(xùn)練所使用的數(shù)據(jù)取自谷歌地球(Google Erath Pro,開啟3D地形模式)、UCMerced_LandUse和NWPU VHR-10。原始圖片總計727張,使用文獻(xiàn)[7]中的方法生成模擬多視角遙感配準(zhǔn)數(shù)據(jù)集,訓(xùn)練集共9000組,單組數(shù)據(jù)包含參考圖像、待配準(zhǔn)圖像及二者間的真實變換參數(shù)(label)。

訓(xùn)練軟件環(huán)境為Ubuntu 16.04,Pytorch版本1.0.1,CUDA版本9,Python版本3.6;硬件環(huán)境為8GB顯存的GTX 1070顯卡,Ryzen 5 2600處理器。

網(wǎng)絡(luò)使用Pytorch的隨機(jī)梯度下降(SGD)優(yōu)化器,學(xué)習(xí)率為0.0001,使用輸出參數(shù)的均方誤差(MSE)作為損失函數(shù)。Batch Size設(shè)置為16。

4.2 仿真結(jié)果分析

圖7為本文方法在真實數(shù)據(jù)上的配準(zhǔn)結(jié)果。三幅圖均為從不同視角對同一地面物體進(jìn)行拍攝得到,參考與待配準(zhǔn)圖像差別較大,存在明顯高度起伏,河道彎曲等非剛性變化,比起普通的平面旋轉(zhuǎn)、平移和縮放更加復(fù)雜,從3組配準(zhǔn)結(jié)果看,配準(zhǔn)后圖像在空間特征和幾何相似性上與參考圖像非常接近,在細(xì)節(jié)處理上,主要特征沒有出現(xiàn)明顯的錯位,顏色過渡自然,整體上,各個特征都較精確配準(zhǔn),幾乎沒有出現(xiàn)未對齊區(qū)域。

圖7 本文方法在真實多視角遙感圖像上的配準(zhǔn)結(jié)果(圖像中的小黑塊為棋盤格融合產(chǎn)生的效果)

4.3 對比結(jié)果分析

為進(jìn)一步驗證本文方法對于多視角遙感圖像配準(zhǔn)的性能提升,圖8為本文算法與SIFT、文獻(xiàn)[6]、文獻(xiàn)[8]、文獻(xiàn)[10]、文獻(xiàn)[20]的配準(zhǔn)結(jié)果對比,使用11*11的棋盤格進(jìn)行參考圖像與配準(zhǔn)后圖像的交替融合。棋盤格融合圖可以方便地對配準(zhǔn)性能定性對比,本實驗中,出現(xiàn)棋盤格的為未配準(zhǔn)區(qū)域(指示此區(qū)域配準(zhǔn)性能較差)或因視角變化產(chǎn)生的非重疊區(qū)域(與配準(zhǔn)性能無關(guān))。紅色方框標(biāo)出的區(qū)域可以展示各試驗結(jié)果中衡量配準(zhǔn)精度的細(xì)節(jié)。

在對比實驗中,文獻(xiàn)[6]方法只使用深度學(xué)習(xí)做特征提取,文獻(xiàn)[20]對特征提取算法進(jìn)行了增強(qiáng),文獻(xiàn)[10]使用端到端的深度學(xué)習(xí)方式對圖像進(jìn)行配準(zhǔn)。文獻(xiàn)[8]是文獻(xiàn)[10]和文獻(xiàn)[9]等端到端方法常用的測試基準(zhǔn)(baseline),因此也作為本文對比實驗的基準(zhǔn)。

綜合圖8的4幅圖像配準(zhǔn)結(jié)果分析,以特征點為基礎(chǔ)的方法由于不可靠的底層重復(fù)特征導(dǎo)致在某些局部配準(zhǔn)效果較差。本文方法使用網(wǎng)絡(luò)中網(wǎng)絡(luò)做特征提取,有效提升了多視角遙感圖像中提取的特征點質(zhì)量。對于復(fù)雜的多視角遙感圖像,傳統(tǒng)方法在對圖像中每一個主要特征進(jìn)行精確配準(zhǔn)時有一定困難,本文方法采用通道和空間注意力機(jī)制對整個圖像的特征進(jìn)行篩選,找出對配準(zhǔn)影響大的關(guān)鍵特征,以關(guān)鍵特征為基準(zhǔn)對圖像進(jìn)行配準(zhǔn),對大部分圖像主要的特征均做出了較為恰當(dāng)?shù)奶幚怼?/p>

圖8 對比實驗在真實多視角遙感圖像上的配準(zhǔn)結(jié)果(圖像中的小黑塊為棋盤格融合產(chǎn)生的效果)

從定性對比看,本文方法有效提升了多視角遙感圖像的配準(zhǔn)精度,且對各種遙感圖像有較高的魯棒性。

a、b、c、d圖像配準(zhǔn)的定量分析如下表1所示。本文在所有測試數(shù)據(jù)上(真實遙感圖像)均勻、隨機(jī)的選擇15組采樣點用作配準(zhǔn)誤差測試,使用均方根誤差(RMSD)、平均絕對誤差(MAD)、誤差標(biāo)準(zhǔn)差(STD)和誤差中值(MD)作為定量分析標(biāo)準(zhǔn),所有數(shù)值結(jié)果均是越小越好,單位為像素。本文方法在大部分情況下都可以取得最好精度,RMSD分別至少提升19.6%、20.3%及22.9%。

表1 對比實驗在真實多視角遙感圖像上的定量分析結(jié)果

各算法在a、b、c、d圖像上的時間性能如圖9所示,由于各方法速度差距較大,圖表縱軸非等間距增加。在多視角遙感圖像配準(zhǔn)中,基于迭代優(yōu)化匹配參數(shù)的方法不能很好的平衡配準(zhǔn)質(zhì)量與速度。網(wǎng)絡(luò)中網(wǎng)絡(luò)的時間成本相比其它網(wǎng)絡(luò)要低,同時能保持相對于其它網(wǎng)絡(luò)幾乎相近的性能,在測試圖像運(yùn)行速度上分別提升42.7%、44.9%、44.3%及24.7%,大部分測試都可以在一秒內(nèi)得到結(jié)果,在配準(zhǔn)的質(zhì)量與速度上取得了較好的平衡。

圖9 各算法在測試數(shù)據(jù)上的時間性能

5 結(jié)論

本文關(guān)注于多視角遙感圖像配準(zhǔn),在一定前提下,設(shè)計了一種端到端的深度學(xué)習(xí)算法預(yù)測不同視角下拍攝的遙感圖像間的單應(yīng)性變換。利用網(wǎng)絡(luò)中網(wǎng)絡(luò)與注意力機(jī)制對圖像進(jìn)行特征提取,使用雙向的相關(guān)運(yùn)算對特征進(jìn)行匹配。實驗表明,本文方法在多視角遙感圖像的配準(zhǔn)質(zhì)量與效率間取得了不錯的平衡。但由于缺乏人工標(biāo)注的數(shù)據(jù)集,因此無監(jiān)督學(xué)習(xí)是今后的主要方向之一。

猜你喜歡
特征提取注意力特征
讓注意力“飛”回來
如何表達(dá)“特征”
不忠誠的四個特征
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
抓住特征巧觀察
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
Bagging RCSP腦電特征提取算法
A Beautiful Way Of Looking At Things
基于MED和循環(huán)域解調(diào)的多故障特征提取
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
无极县| 定远县| 甘肃省| 张北县| 孟州市| 集安市| 普陀区| 巴林左旗| 澳门| 扎鲁特旗| 化德县| 佛学| 盘山县| 邻水| 龙山县| 中江县| 赞皇县| 寻甸| 诸暨市| 康平县| 东阿县| 进贤县| 酉阳| 铁岭市| 赤城县| 武鸣县| 光山县| 集安市| 江达县| 河池市| 阳高县| 海丰县| 垣曲县| 临桂县| 台南县| 临清市| 左贡县| 天水市| 阿克| 鹿泉市| 简阳市|