李君寶,楊文慧,許劍清,彭 宇
(哈爾濱工業(yè)大學(xué)自動化測試與控制系, 哈爾濱 150001)
基于深度卷積網(wǎng)絡(luò)的SAR圖像目標(biāo)檢測識別
李君寶,楊文慧,許劍清,彭 宇
(哈爾濱工業(yè)大學(xué)自動化測試與控制系, 哈爾濱 150001)
在SAR圖像解譯應(yīng)用領(lǐng)域,目標(biāo)的自動檢測與識別一直是該領(lǐng)域的研究重點(diǎn)和熱點(diǎn),也是該領(lǐng)域的研究難點(diǎn)。針對SAR圖像的目標(biāo)檢測與識別方法一般由濾波、分割、特征提取和目標(biāo)識別等多個(gè)相互獨(dú)立的步驟組成。復(fù)雜的流程不僅限制了SAR圖像目標(biāo)檢測識別的效率,多步驟處理也使模型的整體優(yōu)化難以進(jìn)行,進(jìn)而制約了目標(biāo)檢測識別的精度。采用近幾年在計(jì)算機(jī)視覺領(lǐng)域表現(xiàn)突出的深度學(xué)習(xí)方法來處理SAR圖像的目標(biāo)檢測識別問題,通過使用CNN、Fast RCNN以及Faster RCNN等模型對MSTAR SAR公開數(shù)據(jù)集進(jìn)行目標(biāo)識別及目標(biāo)檢測實(shí)驗(yàn),驗(yàn)證了卷積神經(jīng)網(wǎng)絡(luò)在SAR圖像目標(biāo)識別領(lǐng)域的有效性及高效性,為后續(xù)該領(lǐng)域的進(jìn)一步研究應(yīng)用奠定了基礎(chǔ)。
SAR;目標(biāo)檢測識別;CNN;Fast RCNN; Faster RCNN
近年來,合成孔徑雷達(dá)(Synthetic Aperture Radar,SAR)在軍事及民用領(lǐng)域的廣泛應(yīng)用使得對高性能的SAR圖像處理及解譯技術(shù)的需要更加迫切[1],其中SAR圖像的自動目標(biāo)識別技術(shù)是眾多技術(shù)中的關(guān)鍵,也是科研攻堅(jiān)的難點(diǎn)。SAR圖像與普通光學(xué)圖像在成像機(jī)理、幾何特征、輻射特征等方面有較大的不同。SAR所成圖像對地物回波的強(qiáng)弱不敏感,層次感較差;雷達(dá)波反射的不均勻造成圖像的分辨率較低,目標(biāo)邊緣模糊;此外,SAR圖像中噪聲較多,對目標(biāo)檢測的影響較大。鑒于SAR圖像的上述特點(diǎn),通常來說,SAR圖像的自動目標(biāo)識別一般由圖像濾波預(yù)處理、提取感興趣區(qū)域、特征提取及目標(biāo)識別等步驟組成。在上述各步驟中,特征提取是重中之重,能否提取到具有較高識別力特征是后續(xù)整個(gè)識別過程的關(guān)鍵。一般來說,SAR圖像的特征提取由主成分分析及其改進(jìn)算法等機(jī)器學(xué)習(xí)方法實(shí)現(xiàn)[2]。
在傳統(tǒng)的機(jī)器學(xué)習(xí)算法中,特征的提取規(guī)則往往是由人工設(shè)計(jì)的,或者當(dāng)數(shù)據(jù)量較大時(shí)由計(jì)算機(jī)總結(jié)出來。實(shí)際應(yīng)用中,當(dāng)數(shù)據(jù)量過大且數(shù)據(jù)較復(fù)雜時(shí),這種方式提取到的特征往往并不具有代表性,無法表示不同類別數(shù)據(jù)間的獨(dú)特性,因此也就限制了識別精度。相較于傳統(tǒng)的機(jī)器學(xué)習(xí)算法,深度學(xué)習(xí)在特征提取方面具有無可比擬的優(yōu)越性。深層網(wǎng)絡(luò)結(jié)構(gòu)通過逐層的非線性變換,能夠?qū)崿F(xiàn)復(fù)雜函數(shù)的逼近,由低層到高層,特征的表示越來越抽象,越能對原始數(shù)據(jù)進(jìn)行更本質(zhì)地刻畫。優(yōu)秀的特征自學(xué)習(xí)能力使深度學(xué)習(xí)受到了學(xué)術(shù)界及工業(yè)界的廣泛關(guān)注,在短短不到10年的時(shí)間里,深度神經(jīng)網(wǎng)絡(luò)已在圖像、語音、自然語言處理等方面顯示出了優(yōu)越的性能,引發(fā)了諸多領(lǐng)域的革命性變革。在圖像識別及目標(biāo)檢測領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)表現(xiàn)出色,在世界各大計(jì)算機(jī)視覺挑戰(zhàn)賽中取得了優(yōu)異的成績。
2006年,Geoffrey Hinton在科學(xué)雜志上發(fā)表的一篇論文給出了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的一種可行性解決方案,由此開啟了深度學(xué)習(xí)的熱潮[3]。在短短幾年時(shí)間里,無論是深度網(wǎng)絡(luò)的架構(gòu)還是深度網(wǎng)絡(luò)在人工智能(語音識別、圖像識別等)領(lǐng)域的應(yīng)用都取得了突破性的進(jìn)展。2012年,Hinton領(lǐng)導(dǎo)的研究小組在ImageNet[4]圖像分類比賽中拔得頭籌。在這個(gè)包含1000類圖像的分類挑戰(zhàn)中,該小組的深度卷積網(wǎng)絡(luò)模型的分類精度較之傳統(tǒng)圖像識別方法超出10%之多[5]。Hinton小組的成功是計(jì)算機(jī)視覺領(lǐng)域里程碑式的一步。自2012年之后,各挑戰(zhàn)小組紛紛采用深度卷積神經(jīng)網(wǎng)絡(luò)來處理圖像識別及目標(biāo)檢測問題,在此過程中,卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)不斷得到改進(jìn),分類精度也在逐步提高。
本文將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用到SAR圖像的目標(biāo)檢測識別任務(wù)中,針對MSTAR SAR公開數(shù)據(jù)集,使用CNN網(wǎng)絡(luò)進(jìn)行了目標(biāo)識別實(shí)驗(yàn),在此基礎(chǔ)上,分別使用RCNN網(wǎng)絡(luò)的擴(kuò)展模型Fast RCNN和Faster RCNN進(jìn)行了SAR圖像目標(biāo)檢測實(shí)驗(yàn)。根據(jù)實(shí)驗(yàn)結(jié)果,分析了卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于SAR圖像目標(biāo)檢測識別的可行性,為后續(xù)該領(lǐng)域的相關(guān)研究提供了思路。
卷積神經(jīng)網(wǎng)絡(luò)由Yann LeCun發(fā)明并首次應(yīng)用于手寫數(shù)字的識別[6],在該項(xiàng)任務(wù)中,CNN在20世紀(jì)90年代就達(dá)到了商用的程度。近幾年,在計(jì)算機(jī)視覺領(lǐng)域,CNN也發(fā)揮了出色的性能,這主要得益于其適用于圖像數(shù)據(jù)的特殊網(wǎng)絡(luò)結(jié)構(gòu)。在處理圖像數(shù)據(jù)時(shí),通常將圖像表示為一維的像素向量,以手寫數(shù)字識別為例,假設(shè)原始圖像的大小為32×32,圖1所示為使用傳統(tǒng)神經(jīng)網(wǎng)絡(luò)處理時(shí)的示意圖。
圖1 普通神經(jīng)網(wǎng)絡(luò)用于手寫數(shù)字識別Fig.1 Ordinary neural network for handwritten digit recognition
如圖1所示,網(wǎng)絡(luò)輸入為32×32的一維像素向量,輸出為從0到9共10類數(shù)字編號,中間隱含層的層數(shù)和每層的節(jié)點(diǎn)數(shù)可調(diào)整,神經(jīng)網(wǎng)絡(luò)各個(gè)網(wǎng)絡(luò)層的神經(jīng)元相互之間是全連接的。使用這種全連接網(wǎng)絡(luò)來處理手寫數(shù)字識別問題雖然可行但識別效果較差,主要原因在于對圖像數(shù)據(jù)來說,圖像的相鄰像素之間是存在相關(guān)關(guān)系的,而這種全連接網(wǎng)絡(luò)的處理方式無法捕捉像素之間的空間關(guān)系,也就丟失了圖像中隱含的很重要的一部分特征。其次,同一類目標(biāo)的大小、形狀以及紋理信息在不同樣本中表現(xiàn)不同,而這種普通的全連接網(wǎng)絡(luò)對目標(biāo)的形體變化或圖像的場景變化不具備魯棒性。
與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)不同,卷積神經(jīng)網(wǎng)絡(luò)在處理圖像數(shù)據(jù)方面具有獨(dú)特的優(yōu)勢,圖2所示為Yann LeCun發(fā)明的用于手寫數(shù)字識別的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)[6]示意圖。如圖2所示,卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、下采樣層和全連接層組成。
圖2 卷積神經(jīng)網(wǎng)絡(luò)用于手寫數(shù)字識別Fig.2 Convolutional neural network for handwritten digit recognition
卷積神經(jīng)網(wǎng)絡(luò)的輸入為原始圖像,卷積層的卷積核以一定的大小和步幅對原始圖像進(jìn)行卷積運(yùn)算得到特征圖,下采樣層對特征圖進(jìn)行采樣處理,抽取特征圖一定區(qū)域內(nèi)的最大值或平均值,經(jīng)過多層卷積和下采樣處理后,由全連接層整合特征并交由分類器進(jìn)行分類處理。相較于傳統(tǒng)的神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)具有以下幾方面特點(diǎn):
1)局部感知:針對圖像數(shù)據(jù)像素的局部聯(lián)系較為緊密的特點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)的卷積層設(shè)置成局部連接的形式,如圖3中右半部分所示,卷積核模擬生物的視覺感受野,每一次卷積只提取圖像固定大小區(qū)域內(nèi)的局部信息;
2)權(quán)值共享:局部感知使每一次卷積只提取到圖像局部區(qū)域內(nèi)的信息,因此,要想提取整幅圖像的某類特征需要該類卷積核按照一定的步幅對整幅圖像中所有局部區(qū)域進(jìn)行特征提取,在整個(gè)過程中卷積核進(jìn)行卷積計(jì)算時(shí)的權(quán)值系數(shù)不會因?yàn)檫@些區(qū)域在圖像中的位置不同而發(fā)生變化,這是因?yàn)樘卣鞯奶崛》绞脚c提取位置無關(guān);
3)多核卷積:每一種卷積核只能提取到圖像的某一類特征,因此,需要在卷積層設(shè)置多種卷積核,從而提取到更加全面的圖像特征信息,如圖3中局部連接部分所示,不同的顏色代表不同種類的卷積核,分別提取圖像的不同特征;
圖3 局部感知示意圖Fig.3 Local sensing
4)下采樣:在某些卷積層后通常會添加一個(gè)下采樣層,抽取卷積得到的特征圖中一定范圍內(nèi)的局部平均值或最大值,這樣既降低了數(shù)據(jù)量,也提升了網(wǎng)絡(luò)對輸入圖像中目標(biāo)形變和場景變化的魯棒性;
5)多層卷積:在一定范圍內(nèi),網(wǎng)絡(luò)層數(shù)越高,學(xué)習(xí)到的特征越抽象,越能表示圖像的全局化信息,但在全連接網(wǎng)絡(luò)中,網(wǎng)絡(luò)層數(shù)的加深也帶來了參數(shù)數(shù)量的指數(shù)型增長,這使得網(wǎng)絡(luò)的學(xué)習(xí)過程非常困難,而在卷積神經(jīng)網(wǎng)絡(luò)中,得益于權(quán)值共享,深層網(wǎng)絡(luò)的優(yōu)勢得到發(fā)揮,能夠?qū)W習(xí)到更具辨識力的抽象特征。
綜上所述,卷積神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)非常適用于圖像數(shù)據(jù)的識別處理,自2012年卷積神經(jīng)網(wǎng)絡(luò)初次應(yīng)用于ImageNet挑戰(zhàn)賽以來,其出色的性能得到了學(xué)術(shù)界和工業(yè)界廣泛的關(guān)注及認(rèn)可,不斷被應(yīng)用于計(jì)算機(jī)視覺、語音識別等人工智能領(lǐng)域,在此過程中,卷積神經(jīng)網(wǎng)絡(luò)的架構(gòu)不斷得到改進(jìn),其性能也在逐步提高。
2.1 CNN模型
本文用于SAR圖像目標(biāo)識別的卷積神經(jīng)網(wǎng)絡(luò)參考AlexNet[5]模型,該模型來源于ImageNet挑戰(zhàn)賽,由多倫多大學(xué)的Alex Krizhevsky等設(shè)計(jì)實(shí)現(xiàn)。2012年,AlexNet模型在圖像分類任務(wù)中的首次應(yīng)用便達(dá)到了85%的準(zhǔn)確率。ImageNet數(shù)據(jù)集中包含1000類圖像,所以AlexNet模型的輸出層中包含1000個(gè)輸出節(jié)點(diǎn)。根據(jù)本文所用數(shù)據(jù)集的類別數(shù),將輸出層的輸出節(jié)點(diǎn)改為8,網(wǎng)絡(luò)的整體架構(gòu)如圖4所示。
圖4 卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)Fig.4 Convolutional neural network used in this paper
如圖4所示,模型包含5個(gè)卷積層和3個(gè)全連接層(包括輸出層),在第1、2、5個(gè)卷積計(jì)算后添加了下采樣(Max-pooling)操作。網(wǎng)絡(luò)的主要執(zhí)行流程及具體參數(shù)信息如下。
1)輸入層:原始圖像,大小為3×224×224;
·卷積操作:96種大小為11×11的卷積核,卷積步幅為4;
2)卷積層1:96個(gè)大小為55×55的特征圖;
·下采樣操作:采樣范圍3×3,步幅為2;
·卷積操作:256種大小為5×5的卷積核,卷積步幅為1;
3)卷積層2:256個(gè)大小為27×27的特征圖;
·下采樣操作:采樣范圍3×3,步幅為2;
·卷積操作:384種大小為3×3的卷積核,卷積步幅為1;
4)卷積層3:384個(gè)大小為13×13的特征圖;
·卷積操作:384種大小為3×3的卷積核,卷積步幅為1;
5)卷積層4:384個(gè)大小為13×13的特征圖;
·卷積操作:256種大小為3×3的卷積核,卷積步幅為1;
6)卷積層5:256個(gè)大小為13×13的特征圖;
·下采樣操作:采樣范圍3×3,步幅為2;
7)全連接層6:4096個(gè)神經(jīng)元節(jié)點(diǎn);
8)全連接層7:4096個(gè)神經(jīng)元節(jié)點(diǎn);
9)輸出層(全連接層8):8個(gè)神經(jīng)元節(jié)點(diǎn)。
2.2 RCNN擴(kuò)展模型
圖像目標(biāo)識別的結(jié)果給出了圖像中可能存在的目標(biāo)類別,而目標(biāo)檢測的結(jié)果則進(jìn)一步明確指出了可能存在的目標(biāo)類別在圖像中的具體坐標(biāo)位置。深度學(xué)習(xí)技術(shù)應(yīng)用于目標(biāo)檢測領(lǐng)域以來,體系架構(gòu)不斷發(fā)展完善,從RCNN到Faster RCNN,檢測準(zhǔn)確率和檢測效率都有了一定提升。目標(biāo)檢測由目標(biāo)的定位和識別兩部分組成,目標(biāo)的識別由卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),但對于目標(biāo)的位置定位來說,有多種實(shí)現(xiàn)方式。RCNN(Regions with CNN features)[7]的檢測算法是基于圖像分割方法(如Selective Search[8])來找出一些可能是物體的區(qū)域;再把這些區(qū)域的尺寸縮放成卷積神經(jīng)網(wǎng)絡(luò)的輸入尺寸,由卷積神經(jīng)網(wǎng)絡(luò)的識別結(jié)果判斷該區(qū)域到底是不是物體,是哪個(gè)物體;最后對是物體的區(qū)域位置進(jìn)行進(jìn)一步的回歸微調(diào),使得目標(biāo)的位置定位更加準(zhǔn)確。RCNN雖然能夠達(dá)到目標(biāo)檢測的目的,但是眾多的可能區(qū)域都要經(jīng)過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行類別劃分,如此大的計(jì)算量嚴(yán)重限制了目標(biāo)檢測的效率。此外,RCNN的整個(gè)檢測識別流程過于復(fù)雜,很難進(jìn)行整體優(yōu)化。
RCNN的擴(kuò)展模型Fast RCNN和Faster RCNN對RCNN的結(jié)構(gòu)進(jìn)行了優(yōu)化改進(jìn),大幅度提高了目標(biāo)檢測效率。本文選取了MSTAR SAR數(shù)據(jù)集中的一類軍事目標(biāo)圖像2S1,使用標(biāo)注工具創(chuàng)建目標(biāo)檢測數(shù)據(jù)集,分別訓(xùn)練了Fast RCNN和Faster RCNN兩種目標(biāo)檢測模型,驗(yàn)證兩種模型針對SAR圖像數(shù)據(jù)的有效性。
Fast RCNN[9]依然使用圖像分割方法(Selective Search)提取感興趣區(qū)域(Region of Interesting,RoI),不過與RCNN不同的是,Fast RCNN不再單獨(dú)把每個(gè)RoI區(qū)域輸入卷積神經(jīng)網(wǎng)絡(luò),而是將原始圖像輸入卷積神經(jīng)網(wǎng)絡(luò),只進(jìn)行一次特征提取,從而有效地提高了計(jì)算效率,Fast RCNN的網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。網(wǎng)絡(luò)的輸入為原始圖像和RoI的坐標(biāo),原始圖像經(jīng)過多層卷積后得到最終的特征圖,根據(jù)網(wǎng)絡(luò)的計(jì)算規(guī)則將RoI的坐標(biāo)映射到特征圖上,得到卷積后的RoI區(qū)域,如圖5中特征圖內(nèi)的紅色框所示。由于每個(gè)RoI區(qū)域大小不一,而神經(jīng)網(wǎng)絡(luò)全連接層要求固定大小的輸入,因此,坐標(biāo)映射之后將RoI采樣到固定尺度(6×6)。之后,通過全連接層將RoI連接成特征向量,交由分類器進(jìn)行類別劃分。由于圖像分割方法給出的RoI的位置坐標(biāo)與目標(biāo)的真實(shí)坐標(biāo)之間并不完全重合,所以當(dāng)分類器判定RoI內(nèi)包含目標(biāo)時(shí),還需進(jìn)一步對RoI的坐標(biāo)進(jìn)行微調(diào),使其更加接近目標(biāo)的真實(shí)位置坐標(biāo)。如圖5所示,Fast RCNN架構(gòu)將輸出層分成了兩部分,把目標(biāo)分類和坐標(biāo)回歸的訓(xùn)練聯(lián)合在了一起,對檢測識別流程進(jìn)行了整合。
圖5 Fast RCNN結(jié)構(gòu)示意圖Fig.5 Schematic diagram of Fast RCNN
Faster RCNN[10]的基本結(jié)構(gòu)仍然是卷積神經(jīng)網(wǎng)絡(luò),但是它省去了圖像分割方法提取圖像內(nèi)目標(biāo)可能區(qū)域的步驟,通過在卷積神經(jīng)網(wǎng)絡(luò)最后一層特征圖后添加一個(gè)叫做RPN(Region Proposal Network)的網(wǎng)絡(luò)來實(shí)現(xiàn)該部分功能,RPN結(jié)構(gòu)如圖6所示。
圖6 RPN結(jié)構(gòu)圖Fig.6 Diagram of Region Proposal Network
RPN網(wǎng)絡(luò)以特征圖上的每個(gè)點(diǎn)為中心,使用不同面積和長寬比的滑動窗口來采集特征圖特定區(qū)域內(nèi)的特征。Faster RCNN預(yù)設(shè)了9種滑動窗口,分別對應(yīng)三種窗口面積1282、2562、5122和三種窗口長寬比1∶1、1∶2、2∶1的自由組合。為了解決網(wǎng)絡(luò)的固定輸入問題,將不同類型的窗口采集到的特征降維到固定維度。根據(jù)降維后的特征,分類層給出滑動窗口內(nèi)包含目標(biāo)的得分,得分高的窗口作為正樣本,得分低的就認(rèn)為沒有物體,會被過濾掉。當(dāng)分類層給出的結(jié)果認(rèn)為窗口內(nèi)有目標(biāo)時(shí),需要對目標(biāo)的位置進(jìn)行進(jìn)一步的回歸校正。此時(shí),將特征圖窗口內(nèi)的區(qū)域映射回輸入圖像,如果輸入圖像內(nèi)對應(yīng)的區(qū)域與圖像中目標(biāo)的真實(shí)區(qū)域的重疊率大于某一設(shè)定值(預(yù)設(shè)值為0.7)時(shí),則該區(qū)域的標(biāo)簽為1;若重疊率小于另一設(shè)定值(預(yù)設(shè)值為0.3)時(shí),則該區(qū)域的標(biāo)簽為0;介于兩個(gè)設(shè)定值之間的區(qū)域不參與訓(xùn)練。對于標(biāo)簽為1的區(qū)域,尋找映射回輸入圖像的坐標(biāo)與圖像中真實(shí)的目標(biāo)坐標(biāo)之間的映射關(guān)系,完成回歸定位過程。
Faster RCNN的整體模型結(jié)構(gòu)如圖7所示,通過調(diào)整網(wǎng)絡(luò)結(jié)構(gòu),經(jīng)過分階段的訓(xùn)練,Faster RCNN把整個(gè)目標(biāo)檢測識別流程全部整合到了神經(jīng)網(wǎng)絡(luò)中。模型的輸入為原始圖像,經(jīng)過多層卷積得到特征圖后,由RPN網(wǎng)絡(luò)和全連接網(wǎng)絡(luò)分別完成目標(biāo)的檢測和識別功能。模型的訓(xùn)練過程分為4步:
1)使用預(yù)訓(xùn)練的CNN模型初始化網(wǎng)絡(luò)參數(shù),訓(xùn)練RPN網(wǎng)絡(luò);
2)使用第一步中產(chǎn)生的RoI區(qū)域訓(xùn)練Fast RCNN分類網(wǎng)絡(luò);
3)固定卷積層參數(shù),調(diào)整RPN參數(shù);
4)固定卷積層參數(shù),調(diào)整全連接層參數(shù)。
圖7 Faster RCNN結(jié)構(gòu)示意圖Fig.7 Schematic diagram of Faster RCNN
3.1 目標(biāo)識別實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)在MSTAR數(shù)據(jù)庫上進(jìn)行,MSTAR SAR是美國國防高級研究計(jì)劃局和空間實(shí)驗(yàn)室的MSTAR項(xiàng)目提供的實(shí)測SAR地面靜止軍用目標(biāo)數(shù)據(jù)集,目前國內(nèi)外對SAR圖像目標(biāo)識別進(jìn)行的研究也大多以該數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。該數(shù)據(jù)集內(nèi)的圖像由X波段、HH極化方式、0.3m×0.3m高分辨率聚束式合成孔徑雷達(dá)分別在1996年和1997年采集得到。經(jīng)過前期處理,從原始SAR圖像數(shù)據(jù)中提取出像素大小約為158×158的目標(biāo)切片圖像,這些目標(biāo)切片圖像數(shù)據(jù)大多是不同型號的坦克、裝甲車在0~360°不同方位角下的靜止切片圖像。本文中SAR圖像目標(biāo)識別實(shí)驗(yàn)所用數(shù)據(jù)來自該數(shù)據(jù)集中8類軍事目標(biāo)圖像,分別為2S1、BRDM_2、BTR60、D7、T62、T72、ZIL131、ZSU_23_4。圖8所示為這些軍事目標(biāo)的SAR圖像及其對應(yīng)的真實(shí)場景下的可見光圖像。
圖8 8類SAR目標(biāo)圖像Fig.8 Eight targets of SAR image
本文中SAR圖像目標(biāo)識別實(shí)驗(yàn)的訓(xùn)練樣本和驗(yàn)證樣本是8類軍事目標(biāo)在俯仰角為15°時(shí)的成像數(shù)據(jù),測試樣本是各類軍事目標(biāo)在俯仰角為17°時(shí)的成像數(shù)據(jù)。對于常規(guī)方法來說,SAR圖像實(shí)現(xiàn)自動目標(biāo)識別需要經(jīng)過4個(gè)步驟:圖像預(yù)處理、特征提取、特征選擇和目標(biāo)分類,這4個(gè)步驟分別需要設(shè)計(jì)不同的算法來實(shí)現(xiàn)。本文利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)SAR圖像的目標(biāo)識別,無需人為設(shè)計(jì)上述各步驟,只需將原始圖像去均值處理后縮放到固定大小輸入神經(jīng)網(wǎng)絡(luò)即可,特征提取、特征選擇和目標(biāo)分類都由卷積神經(jīng)網(wǎng)絡(luò)一次性實(shí)現(xiàn)。本文中各類目標(biāo)實(shí)驗(yàn)數(shù)據(jù)集的組成及識別結(jié)果如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集組成及識別結(jié)果
表1中的識別率是指對測試集樣本的識別準(zhǔn)確率。由表1可得,使用8層卷積神經(jīng)網(wǎng)絡(luò)對8類SAR軍事目標(biāo)圖像的總體識別準(zhǔn)確率為99.0%,就每一類的單項(xiàng)識別準(zhǔn)確率來說,2S1類目標(biāo)的準(zhǔn)確率最低,BTR60類目標(biāo)的準(zhǔn)確率最高,達(dá)到了100%。與常規(guī)的SAR圖像目標(biāo)識別方法相比,使用卷積神經(jīng)網(wǎng)絡(luò)不僅簡化了目標(biāo)識別流程,大大提高了識別效率,就識別準(zhǔn)確率來說也達(dá)到了當(dāng)前最佳水平。
3.2 目標(biāo)檢測實(shí)驗(yàn)結(jié)果
本文選取了MSTAR SAR數(shù)據(jù)集中的一類軍事目標(biāo)圖像2S1進(jìn)行目標(biāo)檢測實(shí)驗(yàn),首先需要使用目標(biāo)標(biāo)注工具創(chuàng)建目標(biāo)檢測數(shù)據(jù)集。實(shí)驗(yàn)數(shù)據(jù)集構(gòu)成及實(shí)驗(yàn)結(jié)果如表2所示。
表2 數(shù)據(jù)集構(gòu)成及實(shí)驗(yàn)結(jié)果
由實(shí)驗(yàn)結(jié)果可知,目標(biāo)檢測的準(zhǔn)確率過高,這是因?yàn)閷?shí)驗(yàn)所用數(shù)據(jù)集中的SAR圖像場景過于單一,所有目標(biāo)的位置坐標(biāo)差別不大,網(wǎng)絡(luò)存在嚴(yán)重的過擬合問題。該問題的解決需要國內(nèi)外相關(guān)研究部門的協(xié)助,公開更多場景更加復(fù)雜的SAR圖像數(shù)據(jù)集,以供研究所用。雖然實(shí)驗(yàn)結(jié)果缺乏通用性,但對于SAR圖像的自動目標(biāo)檢測識別領(lǐng)域來說,本文所用的深度學(xué)習(xí)相關(guān)技術(shù)是一次有益的嘗試,圖9給出了Fast RCNN和Faster RCNN目標(biāo)檢測識別的圖形化結(jié)果,相較于常規(guī)的SAR圖像目標(biāo)檢測識別方法,本文所用方法簡化了流程的同時(shí)也提高了識別準(zhǔn)確率。
圖9 實(shí)驗(yàn)結(jié)果Fig.9 The results of experiments
本文研究了卷積神經(jīng)網(wǎng)絡(luò)在SAR圖像目標(biāo)檢測識別中的應(yīng)用,使用卷積神經(jīng)網(wǎng)絡(luò)及其拓展模型對MSTAR SAR圖像數(shù)據(jù)分別進(jìn)行了目標(biāo)識別和目標(biāo)檢測實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,卷積神經(jīng)網(wǎng)絡(luò)在SAR圖像目標(biāo)識別方面具有廣闊的應(yīng)用前景,對于目標(biāo)檢測任務(wù),卷積神經(jīng)網(wǎng)絡(luò)的兩種擴(kuò)展模型Fast RCNN和Faster RCNN都能實(shí)現(xiàn)比較好的檢測效果。在檢測效率方面,由于整合了整個(gè)流程,Faster RCNN模型要遠(yuǎn)遠(yuǎn)優(yōu)于Fast RCNN,具體的檢測用時(shí)因硬件平臺的不同而有所差異。雖然由于缺乏復(fù)雜場景的SAR圖像數(shù)據(jù)集,本文所用實(shí)驗(yàn)數(shù)據(jù)過于單一,實(shí)驗(yàn)結(jié)果缺乏一定的通用性,但是本文內(nèi)容為卷積神經(jīng)網(wǎng)絡(luò)在SAR圖像目標(biāo)檢測識別領(lǐng)域的應(yīng)用提供了思路,為后續(xù)該方向的進(jìn)一步研究奠定了基礎(chǔ)。
[1] 楊桄, 陳克雄, 周脈魚, 等. SAR圖像中目標(biāo)的檢測和識別研究進(jìn)展[J]. 地球物理學(xué)進(jìn)展, 2007, 22(2):617-621.
[2] 韓萍, 吳仁彪, 王兆華, 等. 基于KPCA準(zhǔn)則的SAR目標(biāo)特征提取與識別[J]. 電子與信息學(xué)報(bào), 2003, 25(10):1297-1301.
[3] Hinton G E , Salakhutdinov R R . Reducing the dimensionality of data with neural networks [J]. Science (New York, N.Y.), 2006, 313 (5786) : 504-507.
[4] Deng J, Dong W, Socher R, et al. Imagenet: A large-scale hierarchical image database[C]//Computer Vision and Pattern Recognition, 2009. CVPR 2009. IEEE Conference on. IEEE, 2009: 248-255.
[5] Krizhevsky A, Sutskever I, Hinton G E. Imagenet classification with deep convolutional neural networks[C]//Advances in Neural Information Processing Systems, 2012: 1097-1105.
[6] Lécun Y, Bottou L, Bengio Y, et al. Gradient-based learning applied to document recognition[J]. Proceedings of the IEEE, 1998, 86(11):2278-2324.
[7] Girshick R, Donahue J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]// Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). IEEE, 2014:580-587.
[8] Uijlings J R R, Sande K E, Gevers T, et al. Selective search for object recognition[J]. International Journal of Computer Vision, 2013, 104(2):154-171.
[9] Girshick R. Fast R-CNN[C]// IEEE International Conference on Computer Vision. IEEE, 2015:1440-1448.
[10] Ren S, He K, Girshick R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[C]//Advances in Neural Information Processing Systems, 2015: 91-99.
Deep Convolutional Network Based SAR Image Object Detection and Recognition
LI Jun-bao, YANG Wen-hui, XU Jian-qing, PENG Yu
(Automatic Test and Control Institute, Harbin Institute of Technology, Harbin 150001, China)
Automatic target detection and recognition has been the focus in SAR image interpretation field. Generally, the target detection and recognition method of SAR image is divide into independent 4 steps, filtering, segmentation, feature extraction and target recognition. Complex process limits the efficiency of SAR image target detection and recognition. Too many steps make it difficult to optimize the whole model, so the accuracy of method is restricted. In recent years, deep learning has been the famous method in many important computer vision challenges. Deep learning has led to a revolutionary change in the field of computer vision. In this paper, we apply deep learning to SAR image automatic target detection and recognition task. And we verify the feasibility and efficiency of deep learning method through experiments on MSTAR SAR image sets.
SAR; Target detection and recognition; CNN; Fast RCNN; Faster RCNN
10.19306/j.cnki.2095-8110.2017.01.011
2016-04-24;
2016-07-16。
教育部新世紀(jì)人才計(jì)劃(NCET-13-0168);國家自然基金(61371178)。
李君寶(1978-),男,博士,副教授,主要從事圖像處理及模式識別方面的研究。E-mail:lijunbao@hit.edu.cn
V448.2
A
2095-8110(2017)01-0060-07