楊曉冬 梁斯東 張寶玉 張麗莎
摘要:長期以來,遙感影像的目標(biāo)檢測主要依靠目視判讀和人工手段,工作效率低,時效性差。文章介紹了傳統(tǒng)遙感影像目標(biāo)檢測和基于深度學(xué)習(xí)的目標(biāo)檢測算法,著重分析了深度學(xué)習(xí)應(yīng)用于遙感影像目標(biāo)檢測的技術(shù),并對深度學(xué)習(xí)在目標(biāo)檢測中的問題和未來方向進(jìn)行了探討。
關(guān)鍵詞:目標(biāo)檢測;特征提取;深度學(xué)習(xí)
中圖分類號:V35;TP751?? 文獻(xiàn)標(biāo)識碼:A?? 文章編號:1672-9129(2020)12-0040-02
1 概述
自20世紀(jì)60年代以來,在衛(wèi)星通信、航天航空信息處理等關(guān)鍵技術(shù)的推動下,遙感對地觀測技術(shù)獲得長足發(fā)展,遙感影像在軍事和民用領(lǐng)域的應(yīng)用范圍日趨廣泛[1]。基于遙感影像的自動目標(biāo)檢測與識別在現(xiàn)代信息搜集中起著重要作用,利用遙感影像對重要目標(biāo)的基礎(chǔ)特性進(jìn)行深入研究,加強(qiáng)對各類目標(biāo)的定性、定量描述和理解,形成規(guī)范的目標(biāo)特征模型和數(shù)據(jù)庫,對于提高遙感數(shù)據(jù)目標(biāo)檢測精度具有重要意義。
近年來,深度學(xué)習(xí)技術(shù)迎來快速發(fā)展,在圖像識別、語音識別、文字翻譯、文本信息提取等方面取得極大的效果?;谏疃葘W(xué)習(xí)技術(shù)的圖像識別已取得相當(dāng)?shù)某晒?,各類識別算法逐漸趨于成熟和完善,同時,遙感影像分辨率高、數(shù)據(jù)量大的特征也為利用深度學(xué)習(xí)技術(shù)進(jìn)行遙感影像目標(biāo)檢測提供了便利。基于深度學(xué)習(xí)的遙感影像處理方法不斷涌現(xiàn)[2],基本思路是把光譜特征和紋理特征等淺層特征看作是深度網(wǎng)絡(luò)的底層特征,把輸出特征看作是深度網(wǎng)絡(luò)的頂層特征,從而直接得到一個分類器用于完成不同的任務(wù)。研究基于深度學(xué)習(xí)的遙感影像目標(biāo)檢測,在災(zāi)害應(yīng)急救援、海上船只管理、城市車輛管理等方面具有重要意義。
2 高分辨遙感影像典型目標(biāo)特點(diǎn)
高分辨遙感影像為目標(biāo)檢測提供了豐富的有用特征和信息的同時也帶來了大量的冗余信息,增加了目標(biāo)檢測的難度。在進(jìn)行遙感影像目標(biāo)檢測時,首先需要了解目標(biāo)的基本特性。根據(jù)目標(biāo)在高分辨率遙感圖像中的形態(tài)特點(diǎn),大致可以分為線性目標(biāo)、復(fù)合結(jié)構(gòu)目標(biāo)和團(tuán)塊目標(biāo)[3]。
線性目標(biāo)在空間上表現(xiàn)出條帶狀或線狀的形態(tài),如道路、機(jī)場跑道、河流等等。線狀目標(biāo)的自動檢測需要全面考慮目標(biāo)的邊緣、大小、紋理、灰度等各特征,采用直線段檢測、平行線檢測、邊界提取等方法來檢測目標(biāo),然后根據(jù)目標(biāo)知識模型進(jìn)行驗(yàn)證。例如可以根據(jù)平行直線線對來檢測機(jī)場跑道的潛在位置,然后根據(jù)跑道的長度、寬度先驗(yàn)知識以及停機(jī)坪等其它結(jié)構(gòu)來確認(rèn)目標(biāo)。
復(fù)合結(jié)構(gòu)目標(biāo)可以看作是一些結(jié)構(gòu)基元或簡單目標(biāo)的組合,如港口、橋梁、建筑物、機(jī)場等。這些組合目標(biāo)的識別通常要依據(jù)關(guān)于目標(biāo)的專家知識,綜合任務(wù)驅(qū)動和數(shù)據(jù)驅(qū)動兩種算法的優(yōu)勢,首先提取出單元目標(biāo),然后結(jié)合各子目標(biāo)之間的相互關(guān)系,最終判斷目標(biāo)是否存在。例如,建筑物一般呈現(xiàn)出矩形特征,所以從圖像中提取直線段后,根據(jù)一定的規(guī)則進(jìn)行矩形或類似矩形的重建,并結(jié)合紋理、灰度特征信息以及周邊道路、綠化設(shè)施等環(huán)境因素,實(shí)現(xiàn)建筑物的檢測。
團(tuán)塊目標(biāo)在圖像中一般以斑塊的形式出現(xiàn),有較強(qiáng)的區(qū)域特性,如飛機(jī)、艦船、車輛、油罐等小目標(biāo),其空間位置可由其重心坐標(biāo)來表示。它們的檢測一般采用自底向上的數(shù)據(jù)驅(qū)動策略,經(jīng)過分割、標(biāo)記、特征提取等底層處理后,進(jìn)行特征匹配識別。除了目標(biāo)自身的特征,通常還利用目標(biāo)與周圍環(huán)境的上下文關(guān)系,在可能出現(xiàn)這些目標(biāo)的區(qū)域進(jìn)行檢測,以提高目標(biāo)檢測效率。如飛機(jī)的識別首先要檢測到機(jī)場的位置,而艦船的檢測則離不開港口或水體的檢測。
3 高分辨率遙感影像目標(biāo)檢測方法
3.1 傳統(tǒng)遙感影像目標(biāo)檢測。傳統(tǒng)的遙感影像目標(biāo)檢測主要有基于模板匹配的方法、基于圖像分析的方法OBIA以及基于機(jī)器學(xué)習(xí)的方法[4]。
(1)基于模板匹配的方法。基于模板匹配算法的主要思路是針對不同的目標(biāo)設(shè)計(jì)不同的模板去識別,例如用寬度和長度兩個幾何參數(shù)以及像元亮度和對比度兩個圖像參數(shù)構(gòu)建道路輪廓模板,并用此模板來檢測道路目標(biāo)。如文章[5]引入多元圖像分析方法并將其作為海岸線模板來檢測石油罐取得了一定成效。模板匹配的方法在針對某些特定目標(biāo)時頗有成效,但該算法對預(yù)先設(shè)定的模板要求十分嚴(yán)格,對目標(biāo)的形狀和密度變化非常敏感,穩(wěn)定性和魯棒性較差,無法滿足大規(guī)模應(yīng)用的需求。
(2)基于圖像分析的方法?;趫D像分析的方法在目標(biāo)中抽取特征,將目標(biāo)抽象為目標(biāo)模型、目標(biāo)背景或環(huán)境模型進(jìn)行識別,主要包括兩個步驟:圖像分割以及目標(biāo)分類。首先,遙感圖像被分割成各個區(qū)域,然后對其區(qū)域進(jìn)行分類,判斷其是否含有目標(biāo)。如國外學(xué)者提出MRS(multi-Resolution Segmentation)算法使用形狀、密度、尺度三個參數(shù)將圖像分割成多個區(qū)域。后續(xù)研究人員又提出了新的參數(shù)定義工具,其能夠有效的給出MRS算法中的尺度參數(shù)。雖然OBIA的方法比較靈活,結(jié)合了一些上下文語義信息并在某些領(lǐng)域取得了較好的效果,但該類方法對如何定義分割區(qū)域仍然含有大量主觀信息,其算法不具有普適性。
(3)基于及其學(xué)習(xí)的方法。基于機(jī)器學(xué)習(xí)的方法其主要思想是通過滑動窗口或其他候選框提取方法來獲取感興趣區(qū)域,然后提取圖像中層語義特征(對底層特征進(jìn)行統(tǒng)計(jì)分析得到的特征,如HOG特征和BOW特征),并以這些特征訓(xùn)練分類器模型,如SVM分類器,利用訓(xùn)練好的分類器模型來判斷感興趣區(qū)域是否含有目標(biāo)。例如文章[6]利滑動窗口和HOG特征進(jìn)行遙感圖像目標(biāo)檢測。文章[7]提出了一種結(jié)合圓頻率特征和HOG特征的算法來進(jìn)行艦船檢測?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的遙感圖像目標(biāo)檢測算法相對于模板匹配方法和OBIA方法具有更好的準(zhǔn)確性、穩(wěn)定性以及普適性,但是該方法所采用的滑動窗口算法會帶來過多的計(jì)算損耗,且該方法所采用的中層語義特征是對底層特征進(jìn)行統(tǒng)計(jì),僅能有效地表達(dá)不同紋理、邊緣等特征的分布,無法表達(dá)具有抽象語義的目標(biāo)特征,例如具有近似形狀結(jié)構(gòu)的機(jī)場跑道線與飛機(jī)目標(biāo)具有完全不同的抽象語義。
3.2 基于深度學(xué)習(xí)的遙感影像目標(biāo)檢測。目前,基于深度學(xué)習(xí)的遙感圖像目標(biāo)檢測算法成為熱門研究方向,例如文章[8]采用滑動窗口算法提取感興趣區(qū)域,并用改進(jìn)的GoogleNet網(wǎng)絡(luò)充分利用卷積神經(jīng)網(wǎng)絡(luò)的高層語義特征進(jìn)行機(jī)場檢測。當(dāng)前較為常見的是直接采用自然場景圖像深度學(xué)習(xí)模型,如R-CNN、Fast-RCNN、Faster-RCNN、YOLO、SSD等深度學(xué)習(xí)模型進(jìn)行改進(jìn)后用于遙感影像的目標(biāo)檢測,這些方法可分為基于區(qū)域的目標(biāo)檢測和基于回歸的目標(biāo)檢測。
(1)基于區(qū)域的目標(biāo)檢測方法。基于深度學(xué)習(xí)的目標(biāo)檢測框架R-CNN在2014年由Girshick[9]教授等人提出,算法開創(chuàng)性的將目標(biāo)檢測問題轉(zhuǎn)化為基于感興趣區(qū)域的分類問題,高效地利用了深度學(xué)習(xí)在分類工作中的出色性能,開啟了利用深度學(xué)習(xí)技術(shù)進(jìn)行目標(biāo)檢測的新紀(jì)元。R-CNN利用選擇性搜索得到建議框,通過CNN對每個候選區(qū)域進(jìn)行多層次深度特征提取和調(diào)整候選框區(qū)域,然后輸入分類器實(shí)現(xiàn)對特征的分類工作,最后通過Bounding box目標(biāo)邊界框回歸算法實(shí)現(xiàn)對目標(biāo)邊界框的重新定位。R-CNN模型框架如下圖所示:
雖然R-CNN展現(xiàn)出了令人驚嘆的目標(biāo)檢測效果,但仍然表現(xiàn)出明顯的不足,其最大的問題就是區(qū)域建議框的提出方法所得到的預(yù)選區(qū)域相互之間重疊率較大,因此直接導(dǎo)致了R-CNN在進(jìn)行目標(biāo)檢測過程中進(jìn)行了非常多的冗余計(jì)算,嚴(yán)重影響了模型運(yùn)行效率。
Fast R-CNN在R-CNN的基礎(chǔ)上又做了一些改進(jìn),在保留R-CNN優(yōu)點(diǎn)的同時,借鑒了SPPNet的思想使目標(biāo)檢測過程更加緊湊,相比于R-CNN,F(xiàn)ast R-CNN并沒有修改候選框生成方式,而是提出將感興趣ROI策略引入到特征提取層,將候選框?qū)?yīng)到特征層中,避免了不同候選框圖像重復(fù)輸入計(jì)算,實(shí)現(xiàn)了對特征提取層直接提取區(qū)域內(nèi)的深度層次特征和分類識別的整合,優(yōu)化了目標(biāo)檢測的效率。
盡管Fast R-CNN優(yōu)化了R-CNN不同候選框重復(fù)輸入的冗余操作,但是候選框生成方法仍然被隔離在深度卷積神經(jīng)網(wǎng)絡(luò)之外,同時候選框生成算法十分耗時且難以集成到GPU加速,效率不高。
任少卿[10]等人針對Fast R-CNN模型由于候選框生成算法耗時所帶來的效率低下的缺點(diǎn)提出了Faster R-CNN模型,利用區(qū)域生成網(wǎng)絡(luò)(Region Proposal Networks,RPN)得到建議框,讓RPN網(wǎng)絡(luò)和Fast R-CNN 網(wǎng)絡(luò)實(shí)現(xiàn)卷積層的權(quán)值共享,實(shí)現(xiàn)了深度學(xué)習(xí)網(wǎng)絡(luò)與區(qū)域建議框提取算法的整合并一同輸入GPU進(jìn)行加速運(yùn)算,構(gòu)成了一種端到端的網(wǎng)絡(luò)模型,在不降低識別精度的前提下提高了模型運(yùn)行效率,達(dá)到了近乎實(shí)時的識別效果。文章[11]使用Faster R-CNN 在高分辨率遙感影像中實(shí)現(xiàn)了多類目標(biāo)的檢測識別。
總的來說,上述三種模型進(jìn)行目標(biāo)檢測時可分為搜索建議框提取和CNN模型運(yùn)算兩個階段,而第一階段中生成搜索建議框使得這類目標(biāo)檢測算法的識別效率不高且搜索建議框的優(yōu)劣很大程度上影響最終的識別精度,三者均屬于基于區(qū)域的目標(biāo)檢測算法。
(2)基于回歸的目標(biāo)檢測方法。2015年,YOLO[12]算法的出現(xiàn)使得深度學(xué)習(xí)目標(biāo)檢測算法開始有了兩步(two-stage)和單步(single-stage)之分。YOLO算法是一種可以同時預(yù)測多個邊框位置和類別的卷積神經(jīng)網(wǎng)絡(luò),算法首先將圖像劃分為7x7的網(wǎng)格,對每個網(wǎng)格都預(yù)測2個邊框,包括了每個邊框是目標(biāo)的置信度以及每個邊框區(qū)域在多個類別上的概率,根據(jù)上一個步驟能夠預(yù)測出7x7x2個目標(biāo)邊框,然后根據(jù)閾值排除可能性低的目標(biāo)邊框,最后使用非極大值抑制去掉冗余邊框。與基于區(qū)域的目標(biāo)檢測方法相比,不需要候選區(qū)域提取過程,直接回歸完成位置和類別的判定,檢測速度較Faster R-CNN也有近10倍的提升。
2016年基于深度卷積神經(jīng)網(wǎng)絡(luò)模型提出的SSD算法實(shí)現(xiàn)了多框識別的單階段目標(biāo)檢測,SSD算法融合了Faster R-CNN中的錨點(diǎn)機(jī)制以及 YOLO 的回歸思想,回歸整圖每個位置的多尺度區(qū)域特征。它將目標(biāo)檢測的流程定義成統(tǒng)一的端到端的回歸學(xué)習(xí)問題,只需要一個網(wǎng)絡(luò)對一張圖片做一次處理就可以通過回歸的方式來識別目標(biāo)的類型和位置。SSD主要分為多尺度特征圖提取、先驗(yàn)框生成、標(biāo)記框預(yù)處理和損失函數(shù)等四部分,算法具有兩個關(guān)鍵性思想:第一,利用淺層卷積特征(大尺度特征圖)進(jìn)行小目標(biāo)的識別,利用深層特征(小尺度特征圖)進(jìn)行大目標(biāo)的識別,從而實(shí)現(xiàn)利用不同尺度特征進(jìn)行多尺度目標(biāo)的識別;第二,利用不同尺度的先驗(yàn)框(Faster R-CNN中稱為候選框),實(shí)現(xiàn)了對小目標(biāo)的識別與準(zhǔn)確定位。
YOLO算法和SSD算法均屬于基于回歸的目標(biāo)檢測算法,該類算法在保證識別結(jié)果與基于建議區(qū)域的目標(biāo)檢測算法相當(dāng)?shù)耐瑫r,節(jié)省了圖像特征處理時間,大幅優(yōu)化了模型運(yùn)行的效率。
4 結(jié)論
文章論述了遙感影像目標(biāo)檢測的相關(guān)技術(shù)研究,傳統(tǒng)遙感影像檢測依賴于人為設(shè)計(jì)的圖像特征,需要人為挑選最優(yōu)的特征子集并調(diào)節(jié)分類器參數(shù),針對不同任務(wù)算法存在魯棒性和性能無法保障的問題?;谏疃葘W(xué)習(xí)的目標(biāo)檢測方法因其更快速的檢測效率、更高的魯棒性使其成為當(dāng)前研究熱點(diǎn),但遙感影像由于其成像質(zhì)量、單幅數(shù)據(jù)量大及影像中存在大量復(fù)雜背景等也為目標(biāo)檢測帶來挑戰(zhàn)。
當(dāng)前基于深度學(xué)習(xí)的目標(biāo)檢測大多進(jìn)行單一目標(biāo)或少量目標(biāo)組合進(jìn)行檢測,在多目標(biāo)聯(lián)合檢測方面還存在模型運(yùn)算效率低、多目標(biāo)檢測正確率不高等問題,研究適用于更快速、更準(zhǔn)確的遙感影像多目標(biāo)聯(lián)合檢測算法仍然是一個遙感目標(biāo)檢測的挑戰(zhàn)。未來基于遙感影像目標(biāo)檢測可以監(jiān)控特定港口或海域的海運(yùn)交通,輔助遇難船只救援,配合安全管理部門監(jiān)測和打擊非法捕魚、非法傾倒油污、走私和海盜等違法行為,具有廣泛的應(yīng)用前景。
參考文獻(xiàn):
[1]劉大偉. 高分辨率遙感影像分割方法及應(yīng)用研究[D].長安大學(xué),2016
[2]曹林林,李海濤,韓顏順,等.卷積神經(jīng)網(wǎng)絡(luò)在高分遙感影像分類中的應(yīng)用[J].測繪科學(xué),2016,41(9):170-175
[3]韓現(xiàn)偉. 大幅面可見光遙感圖像典型目標(biāo)檢測關(guān)鍵技術(shù)研究[D].哈爾濱工業(yè)大學(xué),2013
[4]趙旭江. 基于卷積神經(jīng)網(wǎng)絡(luò)的遙感圖像目標(biāo)檢測與識別[D].合肥:中國科學(xué)技術(shù)大學(xué),2017.
[5] Weber J, Lefevre S. A multivariate hit-or-miss transform for conjoint spatial and spectral template matching[C] International Conference in Image and Singnal Processing, Springer, Berlin, Heidelberg,2008:226-235.
[6] Cheng G, Han J, Guo L, et al. Object detection in remote sensing imagery using a discriminatively trained mixture model[J]. ISPRS journal of photogrammetry and remote sensing,2013,85:32-43.
[7] Shi Z, Yu X, Jiang Z, et al. Ship detection in high-resolution optical imagery based on anomaly detector and local shape feature[J]. IEEE Transactions on Geoscience and Remote Sensing,2014,52(8):4511-4523
[8]Xiao Z, Gong Y, Long Y, et al. Airport detection based on a multiscale fusion feature for optical remote sensing images[J], IEEE Geoscience and Remote Sensing Letters,2017,14(9):1469-1473.
[9]Girshick R, Donahu J, Darrell T, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C] Proceedings of the IEEE Conference on Computer Vision and Pattern Recongnition. Columbia:IEEE,2014:580-587.
[10]任少卿. 基于特征共享的高效物體檢測[D].合肥:中國科學(xué)技術(shù)大學(xué),2016.
[11]殷文斌. 卷積神經(jīng)網(wǎng)絡(luò)在遙感目標(biāo)識別中的應(yīng)用研究[D]. 中國科學(xué)院大學(xué)(中國科學(xué)院遙感與數(shù)字地球研究所), 2017.
[12]Redmon J, Diwala S, Girshick R, et al. You only look once:Unified, real-time object detection[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition.2016:779-788.