高宇歌,楊海濤,王晉宇,李高源,張長弓,馮博迪
1.航天工程大學(xué) 研究生院,北京101416
2.航天工程大學(xué) 航天信息學(xué)院,北京101416
隨著天基遙感技術(shù)的迅猛發(fā)展,對地觀測衛(wèi)星的空間分辨率、光譜分辨率、時間分辨率等不斷提高,遙感技術(shù)現(xiàn)已成為采集地球地物信息及其動態(tài)變化的主要技術(shù)手段,可以大范圍、全方位、高速率地獲取全球的資源與環(huán)境信息。通過對遙感影像的分析與解譯,可以實現(xiàn)作物分類、精細(xì)農(nóng)業(yè)、水域普查、災(zāi)害監(jiān)測、城市規(guī)劃等多領(lǐng)域工作,為不同的用戶服務(wù)。
遙感影像人工解譯模式是幾十年來遙感行業(yè)所使用的最基本的解譯模式,但傳統(tǒng)的遙感影像目視解譯方法需要大量的人力物力,難以滿足海量遙感數(shù)據(jù)的解譯需求。隨著天基遙感大數(shù)據(jù)時代的到來,智能解譯模式已逐漸替代人工解譯模式,成為遙感解譯發(fā)展的主流方向。研究利用人工智能技術(shù)對海量遙感數(shù)據(jù)進行處理分析,將大幅提升遙感數(shù)據(jù)的利用率,推動遙感數(shù)據(jù)向遙感信息的快速轉(zhuǎn)化。
目標(biāo)檢測是光學(xué)遙感圖像分析的重要內(nèi)容,是將圖像數(shù)據(jù)轉(zhuǎn)化為應(yīng)用成果的關(guān)鍵一環(huán)[1]。幾十年來,遙感影像目標(biāo)檢測技術(shù)隨著遙感技術(shù)與計算機視覺技術(shù)的發(fā)展不斷更新?lián)Q代,形成了基于模板匹配、基于知識、基于面向?qū)ο蟆⒒趥鹘y(tǒng)機器學(xué)習(xí)以及基于深度學(xué)習(xí)的五種檢測方法[2]。特別是近年來基于卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的深度學(xué)習(xí)方法的快速發(fā)展,推動目標(biāo)檢測的速率與準(zhǔn)確率迅速提升。但不同于自然場景影像,遙感影像存在數(shù)據(jù)量巨大、實例級噪聲大、目標(biāo)分布方向無序、目標(biāo)成像表觀差異大等顯著特點[3],其檢測任務(wù)與遙感解譯等相關(guān)領(lǐng)域知識關(guān)聯(lián)密切。因而在現(xiàn)階段的研究中,已有越來越多的學(xué)者開始研究將知識融入CNN的遙感影像目標(biāo)檢測方法。
遙感影像數(shù)據(jù)集用于目標(biāo)檢測模型的訓(xùn)練、測試與驗證,國內(nèi)外諸多遙感研究團隊針對不同類別的目標(biāo)制作了相應(yīng)數(shù)據(jù)集,其中國內(nèi)武漢大學(xué)、西北工業(yè)大學(xué)等團隊制作的NWPU VHR-10數(shù)據(jù)集[4]、DOTA數(shù)據(jù)集[5]、DIOR數(shù)據(jù)集[6],以及國外美國防創(chuàng)新部門實驗室和國家地理空間情報局制作的xView數(shù)據(jù)集[7],規(guī)模較大、目標(biāo)類別較多,具有代表性。
NWPU VHR-10數(shù)據(jù)集由800張遙感圖像構(gòu)成,影像主要來自Google Earth和Vaihingen數(shù)據(jù)集裁剪,影像尺寸最大約1 000×1 000,共包含飛機、輪船、儲罐、棒球場、網(wǎng)球場等10個對象類別3 775個實例。
DOTA航空影像目標(biāo)檢測大規(guī)模數(shù)據(jù)集,為CVPR2019中Challenge-2019 on Object Detection in Aerial Images使用的數(shù)據(jù)集,由2 806張遙感圖像構(gòu)成,影像主要來自Google Earth、JL-1衛(wèi)星和GF-2衛(wèi)星,影像尺寸從800×800至4 000×4 000不等,最新的1.5版本共包含飛機、輪船、儲罐、棒球場、網(wǎng)球場、籃球場、跑道等16個對象類別約40萬個實例。
DIOR數(shù)據(jù)集由23 463張遙感圖像構(gòu)成,影像主要來自Google Earth,影像尺寸為800×800,共包含飛機、機場、棒球場、籃球場、橋梁、煙囪、水壩等20個對象類別192 472個實例。
xView是世界最大的公開可用的遙感影像數(shù)據(jù)集之一,具有高分辨率、多光譜特性,由1 129張遙感圖像構(gòu)成,影像主要來自WorldView-3衛(wèi)星,影像尺寸大約3 000×3 000,共包含60個對象類別超過100萬個實例。
目標(biāo)檢測問題中的每張圖片都可能包含許多不同類別的物體,通過目標(biāo)檢測模型進行目標(biāo)分類與定位后,需要評估算法的實際檢測性能,主要評價指標(biāo)如下:
(1)交并比
在目標(biāo)檢測算法中常用交并比(Intersection over Union,IoU)評價檢測框與真實框之間重合程度,即兩矩形框的交集與并集的比值。通常情況下對于檢測框的判定都會設(shè)置固定的閾值(IoU的閾值),一般設(shè)置IoU的值大于0.5的時候,即認(rèn)為成功檢測目標(biāo)。
(2)精度和召回率
檢測精度(Precision)和召回率(Recall)是目標(biāo)檢測最常用的評價指標(biāo),具體計算公式如下:
TP(True Positive)表示被正確檢測出的目標(biāo)數(shù)量,F(xiàn)P(False Positive)表示本身不是目標(biāo)但被錯誤地檢測為目標(biāo)的數(shù)量,F(xiàn)N(False Negative)表示本身是目標(biāo)但未被檢測出的目標(biāo)數(shù)量。
(3)平均精度均值
精度-召回率曲線(Precision-Recall Curve,PRC)指的是通過設(shè)置不同的閾值,以召回率為橫坐標(biāo)、以精度為縱坐標(biāo)構(gòu)成的曲線,平均精度(Average Precision,AP)指的是精度-召回率曲線所覆蓋的面積,平均精度均值(mean Average Precision,mAP)指的是每類目標(biāo)計算AP值后再取平均值,mAP也是用來衡量模型目標(biāo)檢測性能的常用指標(biāo)。
(4)Fβ指標(biāo)
實際檢測應(yīng)用常需要綜合考慮精度與召回率,因此引入指標(biāo)Fβ進行閾值的選取,F(xiàn)β計算公式如下:
當(dāng)設(shè)置β2大于1時,考慮召回率的影響優(yōu)先于精度;反之當(dāng)設(shè)置β2小于1時則更看重精度的影響;當(dāng)設(shè)置β2等于1時,相當(dāng)于召回率和精度的調(diào)和平均,該值亦是常用的指標(biāo)稱為F1值,使用時取F1最大值時的閾值即可。
(5)FPS指標(biāo)
目標(biāo)檢測算法的另一項重要評估指標(biāo)就是速度,通常使用FPS進行評估,即算法每秒可以處理的圖片數(shù)量。很多目標(biāo)檢測算法都是在準(zhǔn)確度和速度上進行權(quán)衡,較高的準(zhǔn)確度往往需要較大的時間損耗。單考慮準(zhǔn)確度不考慮速度,很難實現(xiàn)工程部署;而只考慮速度不考慮準(zhǔn)確度,檢測算法難以達到應(yīng)用要求。
基于知識的方法是傳統(tǒng)遙感影像目標(biāo)檢測的經(jīng)典方法,該方法通過將目標(biāo)及其相關(guān)的隱性知識轉(zhuǎn)化為可供檢測使用的顯性規(guī)則,檢測時通過將目標(biāo)特征與生成的規(guī)則進行匹配計算,最終輸出目標(biāo)檢測結(jié)果?;谥R的方法主要流程如圖1所示。根據(jù)使用知識的不同,該方法可細(xì)分為基于幾何知識的方法、基于上下文知識的方法、基于輔助知識的方法,以及聯(lián)合上述知識的基于綜合知識的方法。
圖1 基于知識的遙感影像目標(biāo)檢測流程圖Fig.1 Flowchart of knowledge-based remote sensingimage target detection
幾何知識主要指目標(biāo)的形狀(如線形、矩形、T形、L形等)等先驗知識,通過將其轉(zhuǎn)化為參數(shù)檢驗?zāi)P停瑢崿F(xiàn)對道路、建筑物等形狀較為規(guī)則的目標(biāo)檢驗。Mcglone等人[8]基于建筑物幾何形狀具有的垂直線和水平線的知識,生成建筑物檢測假設(shè)模型。Treash等人[9]基于道路的形狀邊緣特征,設(shè)計邊緣檢測器提取道路。Wang等人[10]提出了一種不依托災(zāi)前影像進行受損道路檢測的方法,首先提取道路中心線,再根據(jù)道路的矩形度、縱橫比等知識構(gòu)建檢測模型,最后結(jié)合道路損壞評估的領(lǐng)域知識,使用道路受損寬度比進行道路受損評估。但基于幾何知識的方法對目標(biāo)的幾何特征過于敏感,面對影像中目標(biāo)遮擋、相似紋理等情況時,常出現(xiàn)目標(biāo)漏檢、錯檢等現(xiàn)象。如影像中公路與機場跑道幾何形狀相似、建筑物被其他物體陰影遮擋等情況,均會影響該方法檢測效果。
1.3 造模 在含有10%FBS的RPMI-1640中培育(37℃、 5% CO2培養(yǎng)箱)HepG2/ADM細(xì)胞,經(jīng)傳代后取指數(shù)生長期的 HepG2/ADM細(xì)胞,使用緩沖液稀釋懸浮,稀釋密度為1×109/ml,按照每只0.2 ml分別注射至每只裸鼠左側(cè)或右側(cè)腋部[7]。接種后1周左右可見瘤體長成,10 d左右瘤體直徑約0.6 cm,造模成功[8]。
上下文知識主要指待檢目標(biāo)與背景環(huán)境、相鄰目標(biāo)之間的空間聯(lián)系,如道路檢測可將行道樹、斑馬線以及道路上的車輛等作為上下文信息,機場檢測可將機場的跑道、停機坪上的飛機等作為上下文信息。Ok[11]通過引入建筑物所投射的陰影信息,使用概率方法對建筑物及其陰影之間的定向空間關(guān)系進行建模,檢測陰影標(biāo)識可能的建筑物區(qū)域。Wu等人[12]基于船舶與水域的空間位置關(guān)系,先進行水域分割,再根據(jù)船舶存在靠岸和離岸兩種狀態(tài)設(shè)計算法完成檢測。Lin等人[13]結(jié)合橋梁和河流的上下文關(guān)系,提出通過閾值分割獲得可能存在橋梁的水域區(qū)域,再結(jié)合長寬比、角度等橋梁特征進行檢測。但基于上下文知識的方法需要明確待檢目標(biāo)與周邊環(huán)境、目標(biāo)的關(guān)系,并需要人工地選取周邊有用的關(guān)聯(lián)信息,同時由于增加了其他目標(biāo)的檢測,導(dǎo)致檢測算法時間、空間復(fù)雜度整體提升。
輔助知識主要指地形圖、高程圖、定位信息以及其他多源遙感信息等,通過輔助知識與目標(biāo)影像的匹配處理,能夠為目標(biāo)檢測提供豐富的數(shù)據(jù)支撐。項盛文等人[14]利用機場的空間掩膜圖像、多源遙感圖像以及控制點位置等多種輔助知識,結(jié)合飛機目標(biāo)的變化會導(dǎo)致紋理特征的變化等相關(guān)知識,實現(xiàn)機場飛機的變化檢測。張繼賢等人[15]結(jié)合已有的土地利用與覆蓋矢量圖與遙感影像進行配準(zhǔn),構(gòu)建各類別遙感數(shù)據(jù)知識庫,通過計算遙感影像特征統(tǒng)計量,檢測出相應(yīng)的土地利用與覆蓋類別。Bouziani等人[16]利用已有的地理數(shù)據(jù)庫結(jié)合先驗知識生產(chǎn)檢測規(guī)則,實現(xiàn)對城市建筑物的變化檢測,再將變化情況滾動更新地理數(shù)據(jù)庫。Mazzarella等人[17]提出將海上交通知識、自動識別系統(tǒng)信息與遙感影像船只檢測相結(jié)合的方法?;谳o助知識的方法需要獲取有效的多源信息支撐,但制作整理多源信息的過程確有難度,且地形圖、矢量圖等與遙感影像進行時間、空間匹配亦需要較大開銷。
由于遙感影像地物場景的復(fù)雜性以及目標(biāo)特征的多變性,僅僅依靠單一知識進行目標(biāo)檢測,很難快速準(zhǔn)確地完成檢測任務(wù)。因而越來越多學(xué)者開始研究聯(lián)合幾何知識、上下文知識、輔助知識等相關(guān)信息的方法,通過綜合多源知識信息進行交叉印證,更加準(zhǔn)確地實現(xiàn)對目標(biāo)的檢測。
Ding[18]通過引入機場相關(guān)領(lǐng)域知識(如圖2所示),系統(tǒng)梳理了跑道的形狀、結(jié)構(gòu)、瞄準(zhǔn)點等12種識別特征,并根據(jù)上述特征生成不同的檢測規(guī)則,然后使用視覺顯著性分析、灰度模板匹配和線段檢測技術(shù)分階段實現(xiàn)機場跑道的提取。柴宏磊[19]從港口的形狀特征、結(jié)構(gòu)特征、地理位置著手,通過構(gòu)建檢測規(guī)則實現(xiàn)對候選區(qū)域的提取,再通過防波堤與港口的空間關(guān)系確定港口的位置。袁文亮[20]提出首先根據(jù)建筑物的光譜和空間特征生成形態(tài)學(xué)算子進行初檢,再利用建筑物的形狀、陰影等相關(guān)知識進行約束驗證,有效減少目標(biāo)的誤檢。遙感解譯知識庫更是基于綜合知識方法的典型應(yīng)用代表,通過將目標(biāo)的波譜知識、幾何知識、紋理知識、空間關(guān)系知識以及其他專家知識存儲入庫,實現(xiàn)目標(biāo)檢測的流程化、高效化。近年來許多學(xué)者通過結(jié)合專家知識建立解譯知識庫,實現(xiàn)了對自然災(zāi)害[21-22]、水體[23]以及地表植被[24]等目標(biāo)的檢測。但基于綜合知識的方法需要收集整理較多的目標(biāo)相關(guān)知識,仍需較大的時間開銷,同時將知識轉(zhuǎn)變?yōu)楹线m的檢測規(guī)則亦有難度,解譯知識庫所需的專家成本更是難以估量。
圖2 機場跑道領(lǐng)域知識Fig.2 Airport runway domain knowledge
2012年,Hinton和他的學(xué)生Alex設(shè)計的AlexNet[25]奪得了當(dāng)年ImageNet競賽冠軍,掀起了CNN等深度學(xué)習(xí)方法的研究熱潮,后來的VGGNet[26]、DenseNet[27]等經(jīng)典網(wǎng)絡(luò)模型進一步優(yōu)化提升網(wǎng)絡(luò)性能。2014年,R-CNN[28](Regions with CNN features)算法率先將CNN應(yīng)用到自然圖像的目標(biāo)檢測任務(wù)中,后續(xù)Faster R-CNN[29]、YOLO系列算法的陸續(xù)出現(xiàn),更是構(gòu)成了當(dāng)前目標(biāo)檢測算法的主體。在自然圖像上的成功應(yīng)用使得該方法被迅速推廣到遙感影像中,后逐漸替代了遙感影像目標(biāo)檢測的傳統(tǒng)方法并大范圍應(yīng)用。
根據(jù)檢測階段的不同,該方法可以具體分為基于候選區(qū)域的兩階算法和基于回歸的一階算法?;贑NN的遙感影像目標(biāo)檢測方法主要流程如圖3所示。
圖3 基于CNN的遙感影像目標(biāo)檢測流程圖Fig.3 Flowchart of CNN-based remote sensing image target detection
2014年R-CNN通過選擇搜索算法提出候選框、CNN提取圖像特征、支持向量機進行分類、非極大值抑制修正定位等系列操作,完成目標(biāo)檢測任務(wù);后續(xù)SPPNET[30]在此基礎(chǔ)上提出空間金字塔池化方法,改進候選框尺度調(diào)整問題。2016年Fast R-CNN[31]提出感興趣區(qū)域池化(ROI pooling)、多任務(wù)同時訓(xùn)練的改進方法;其后的Faster R-CNN提出區(qū)域預(yù)測網(wǎng)絡(luò)(Region Proposal Network,RPN)生成候選框的新方法,極大地改進了檢測速度;R-FCN[32]則進一步將全卷積網(wǎng)絡(luò)應(yīng)用于Faster R-CNN,使得整個網(wǎng)絡(luò)的計算可以共享。2017年FPN[33]采用了特征金字塔的網(wǎng)絡(luò)結(jié)構(gòu),通過自底向上、自頂向下以及橫向連接方法進行特征融合,解決目標(biāo)檢測中的多尺度變化問題;同年Mask R-CNN[34]將FPN和Faster R-CNN合并,再增加mask預(yù)測分支,能夠同時實現(xiàn)目標(biāo)檢測與實例分割。2018年Cascade R-CNN[35]創(chuàng)新性提出使用不同IoU閾值的多級聯(lián)檢測器,通過逐級提高IoU閾值,使得前一級重新采樣過的提議區(qū)域能夠適應(yīng)下一級更高的IoU閾值,進一步提高檢測精度。2019年RepPoints[36]使用基于點集的新方法來替代基于錨點生成邊界框的方法,提供了更細(xì)粒度的定位描述;同時使用可形變卷積與算法搭配,實現(xiàn)更精確的特征提取。
2016年YOLO v1[37]算法改變了R-CNN系列算法先生成候選區(qū)域再進行分類回歸的思路,創(chuàng)造性地使用一階網(wǎng)絡(luò)直接進行目標(biāo)檢測。緊接著SSD[38]結(jié)合了Faster R-CNN的錨點機制與YOLO v1的網(wǎng)格思想,使用帶有不同預(yù)選框錨點的多尺度特征圖進行檢測。2017年YOLO v2[39]在v1基礎(chǔ)上提出使用DarkNet、設(shè)置預(yù)選框等改進策略,以及多尺度訓(xùn)練、多階段訓(xùn)練等技巧方法;同年RetinaNet[40]首次提出Focal Loss用于解決訓(xùn)練過程中正負(fù)樣本類別數(shù)量極度不平衡的問題,將由負(fù)樣本主導(dǎo)的損失函數(shù)調(diào)整為由正負(fù)樣本共同主導(dǎo)。2018年YOLO v3[41]使用優(yōu)化的網(wǎng)絡(luò)結(jié)構(gòu)DarkNet-53、引入殘差結(jié)構(gòu),提升訓(xùn)練收斂速度,緩解梯度消失;同時算法引入多特征圖,融合深層、中層及淺層特征,提升多尺度目標(biāo)檢測能力。2019年EfficientDet[42]基于EfficientNet[43]分類網(wǎng)絡(luò),使用新的多尺度特征金字塔BiFPN,同時仿照EfficientNet的復(fù)合縮放方法,通過提高網(wǎng)絡(luò)深度、網(wǎng)絡(luò)寬度、輸入圖像分辨率等操作,形成了系列檢測網(wǎng)絡(luò)。2020年YOLO v4[44]在原有YOLO系列目標(biāo)檢測架構(gòu)的基礎(chǔ)上,采用了包括Mosaic數(shù)據(jù)增強算法、SPP擴大感受野、PANet進行特征融合等各種技巧,實現(xiàn)了檢測精度與速度的最佳平衡。
近年來在許多學(xué)者在一階、兩階算法基礎(chǔ)上開展遙感影像目標(biāo)檢測研究,并針對遙感影像數(shù)據(jù)量大、目標(biāo)尺度多變、背景復(fù)雜、訓(xùn)練樣本有限等特點難點進行適應(yīng)性改造。
相比于自然圖像,遙感影像背景復(fù)雜,待檢目標(biāo)在整幅圖像中占比往往較低,且在同一影像中不同目標(biāo)、同類目標(biāo)均有尺度差異,造成小目標(biāo)檢測難及目標(biāo)虛警率高等諸多問題。許多學(xué)者采取調(diào)整骨干網(wǎng)絡(luò)、進行特征融合等解決方法,Xu等人[49]在YOLO v3上改用DenseNet增強網(wǎng)絡(luò)特征提取能力,同時增加多尺度檢測層數(shù)提高小目標(biāo)檢測能力;董彪等人[50]則采用了修改特征圖分辨率、重新計算先驗框維度等策略方法;Qu等人[51]在SSD基礎(chǔ)上使用FPN網(wǎng)絡(luò)結(jié)構(gòu)進行特征融合、利用擴展卷積擴大特征圖范圍等方法進行改進。還有學(xué)者考慮到遙感影像中目標(biāo)旋轉(zhuǎn)角度多變,采用矩形框訓(xùn)練降低了實際檢測精度,提出引入旋轉(zhuǎn)框的方法。Fu等人[52]通過在RPN中增加預(yù)設(shè)角度的錨點框,同時進行帶有方向的ROI池化等操作(如圖4所示),增強了目標(biāo)檢測的旋轉(zhuǎn)魯棒性。
圖4 帶有方向的ROI池化操作Fig.4 ROI-O pooling operation
基于CNN的目標(biāo)檢測方法需要大量標(biāo)注準(zhǔn)確的樣本,人工地進行遙感影像目標(biāo)標(biāo)注需要消耗大量人力物力。一些研究通過數(shù)據(jù)增強的方法提升樣本數(shù)量和質(zhì)量,Ren等人[53]在模型訓(xùn)練階段使用隨機覆蓋的增強方法,并結(jié)合可行變卷積、傳輸連接塊等改進策略,有效提升被部分遮擋目標(biāo)的檢測能力。還有一些研究使用半監(jiān)督學(xué)習(xí)的方法,杜蘭等人[54]針對SAR圖像設(shè)計的方法僅需要少量的切片級標(biāo)記樣本,再配合較多的圖像級標(biāo)記樣本,實現(xiàn)了與全監(jiān)督方法近乎相同的檢測性能。還有一些研究嘗試使用生成對抗網(wǎng)絡(luò)[55]、遷移學(xué)習(xí)[56]等方法,以上研究一定程度緩解了樣本不足的問題,但仍需要足夠的樣本才能滿足模型訓(xùn)練的需要。
基于知識的方法將目標(biāo)的幾何知識、上下文知識、輔助知識等諸多信息引入目標(biāo)檢測,特別是遙感解譯知識庫的建立將專家知識轉(zhuǎn)化為實際的檢測規(guī)則,能夠?qū)崿F(xiàn)對已入庫特定目標(biāo)的有效檢測。但基于知識的方法需要大量的人工參與,檢測精度尚不能完全滿足工程應(yīng)用需要?;贑NN的深度學(xué)習(xí)方法的出現(xiàn),實現(xiàn)了對目標(biāo)特征的自動提取,且該方法泛化性更強、檢測準(zhǔn)確率更高。但遙感圖像成像范圍巨大、目標(biāo)種類眾多,且目標(biāo)與目標(biāo)之間、目標(biāo)與場景之間關(guān)聯(lián)密切,直接套用針對自然圖像設(shè)計的深度學(xué)習(xí)方法性能提升有限。近年來越來越多的學(xué)者開始探索將遙感解譯知識與CNN相結(jié)合的方法,現(xiàn)階段的研究主要將知識應(yīng)用在改進遙感影像數(shù)據(jù)集、調(diào)整檢測算法網(wǎng)絡(luò)結(jié)構(gòu)、實現(xiàn)目標(biāo)上下文推理檢測等方面。
該方法在建立遙感影像數(shù)據(jù)集時即引入目標(biāo)的狀態(tài)信息、幾何特征信息、地理位置信息、上下文信息等相關(guān)知識,通過知識的聯(lián)動有效改進影像數(shù)據(jù)集包含的信息量,一定程度上突破了單一依靠改進算法結(jié)構(gòu)難以提升模型檢測性能的瓶頸限制。
一些研究將知識用于增強模型對目標(biāo)狀態(tài)的檢測,俞利健[57]通過使用不同狀態(tài)的電力塔影像進行訓(xùn)練(如圖5所示),使檢測模型能夠?qū)崿F(xiàn)電力塔倒塌、截斷、正常等不同狀態(tài)的判定,為實際的高壓線運行狀態(tài)檢測與告警提供科學(xué)依據(jù)。但不同狀態(tài)的遙感影像獲取仍需專業(yè)的遙感解譯知識支撐,因而一些研究探索將知識用于解決目標(biāo)的小樣本問題。鄭鑫等人[58]同樣針對電力塔問題進行研究,其創(chuàng)新之處在于考慮到電力塔在自然圖像與遙感影像上的紋理和形狀等特征的相似性,使用電力塔自然圖像訓(xùn)練后再進行遷移學(xué)習(xí),有效解決了電力塔遙感影像數(shù)據(jù)集的獲取與標(biāo)注困難的問題。還有一些研究將知識用于增強數(shù)據(jù)集信息的多樣性,Wu等人[59]考慮到云、雪的存在與海拔、經(jīng)緯度等地理信息密切相關(guān),建立了云、雪檢測遙感影像數(shù)據(jù)集,該數(shù)據(jù)集的創(chuàng)新之處在于每幅圖像均包含相應(yīng)的地理記錄。Luo等人[60]考慮到建筑物等目標(biāo)的陰影會造成其他物體的遮擋,進而影響遙感圖像的解譯分析,提出使用Inria[61]航空圖像的數(shù)據(jù)源建立專用的陰影檢測數(shù)據(jù)集。
圖5 使用不同狀態(tài)的電力塔影像進行模型訓(xùn)練Fig.5 Using images of power towers in different states for model training
該方法主要通過分析目標(biāo)的幾何知識和上下文知識,在網(wǎng)絡(luò)結(jié)構(gòu)搭建、錨點框設(shè)計、ROI區(qū)域選擇、損失函數(shù)計算等方面結(jié)合相關(guān)知識調(diào)整算法網(wǎng)絡(luò)框架,優(yōu)化算法檢測性能。
為了獲取更加豐富的目標(biāo)特征,一些研究將上下文知識融入模型整體的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。Zhang等人[62]設(shè)計了一種遙感影像目標(biāo)檢測網(wǎng)絡(luò)CAD-Net,其中GCNet部分用于提取影像中目標(biāo)與場景之間的全局上下文特征,如飛機目標(biāo)與機場場景的聯(lián)系;PLCNet部分用于提取圖像中目標(biāo)與其相鄰物體之間的局部上下文特征(如圖6所示),如船舶目標(biāo)與鄰近船舶以及靠泊碼頭的聯(lián)系。有一些研究聚焦模型的ROI區(qū)域、損失函數(shù)進行優(yōu)化設(shè)計,宮一平[63]提出結(jié)合目標(biāo)的空間上下文,利用遙感影像中目標(biāo)內(nèi)部各部件之間、目標(biāo)與周圍領(lǐng)域之間、目標(biāo)與目標(biāo)之間以及目標(biāo)與周圍環(huán)境之間的空間位置關(guān)系,在ROI區(qū)域進行上下文擴展,進一步豐富目標(biāo)的特征表達。Hamaguchi等人[64]結(jié)合建筑物與其周圍道路的上下文關(guān)系,在模型的損失函數(shù)中增加道路檢測損失,而且道路標(biāo)簽通過另外的預(yù)先訓(xùn)練過的模型進行提取,不需要增加額外的訓(xùn)練。上述研究重點運用目標(biāo)的上下文知識,還有一些研究結(jié)合目標(biāo)的幾何知識改進模型的錨點框設(shè)計,Chen等人[65]提出根據(jù)機場跑道的形狀特征修改Faster R-CNN算法的滑窗尺度和縱橫比,同時引入與跑道形狀相似的其他目標(biāo)作為負(fù)樣本參與訓(xùn)練,有效提升機場的檢測精度。梁杰等人[66]則是針對機場跑道在不同探測視角下透視畸變檢測開展研究,結(jié)合跑道前視的幾何形狀,改進不同形狀和尺度的四邊形錨框,并設(shè)計了四邊形角點回歸的新方法。
圖6 PLCNet的框架結(jié)構(gòu)Fig.6 Framework of PLCNet
該方法主要利用目標(biāo)之間的上下文關(guān)系及相關(guān)領(lǐng)域知識,先使用基于CNN的深度學(xué)習(xí)方法檢測出關(guān)聯(lián)目標(biāo),再結(jié)合關(guān)聯(lián)目標(biāo)與主目標(biāo)之間的包含、組成、鄰接等關(guān)系進行目標(biāo)的推理,間接完成主目標(biāo)檢測。
為了提升大范圍區(qū)域目標(biāo)的檢測能力,一些研究通過檢測區(qū)域內(nèi)子目標(biāo)后再進行目標(biāo)推理。周偉偉[67]以道路交叉口與交通路網(wǎng)的上下文關(guān)系為突破點,首先訓(xùn)練Faster R-CNN算法模型檢測道路交叉口,再使用基于圖論的圖像分割算法進行道路交叉口同質(zhì)區(qū)域提取,獲取道路交叉點中心坐標(biāo)、道路分支寬度及方向等道路關(guān)鍵信息。Zeng等人[68]首先使用全球土地覆蓋圖、全球數(shù)字表面模型等輔助知識完成機場大范圍篩選,再對候選區(qū)域進行飛機檢測,最后結(jié)合機場與飛機的依存關(guān)系,根據(jù)飛機數(shù)量推理機場檢測結(jié)果,實現(xiàn)了對大范圍區(qū)域內(nèi)機場目標(biāo)的快速準(zhǔn)確檢測(如圖7所示)。李圣琀[69]考慮到停車場典型特征不統(tǒng)一、具體區(qū)域難以界定等實際難題,先通過YOLO v3算法檢測出圖像上的車輛及道路,再結(jié)合停車場與車輛的空間位置關(guān)系,同時基于道路檢測去除周邊區(qū)域的無關(guān)車輛,推理得到圖像上的停車場及停車位信息。還有一些研究結(jié)合領(lǐng)域知識進行深入的目標(biāo)信息關(guān)聯(lián),Chen等人[70]針對運河泄漏檢測問題,引入運河泄漏將影響周圍區(qū)域的土壤濕度和地表溫度,從而造成植被覆蓋情況的變化等運河巡查員的領(lǐng)域知識;通過Landsat 8多光譜遙感影像導(dǎo)出像素級的地表溫度、植被覆蓋率和溫度植被干度指數(shù)3項物理參數(shù),再結(jié)合歷史的運河檢測記錄生成對應(yīng)標(biāo)簽進行深度學(xué)習(xí)訓(xùn)練,有效降低算法的時間復(fù)雜度。Chen和Zhang[71]等人針對山區(qū)滑坡檢測問題,考慮到滑坡會導(dǎo)致地表的植物、建筑物發(fā)生變化,先使用CNN提取滑坡前后影像的特征進行變化檢測,再對候選區(qū)域使用歸一化差分植被指數(shù)和基于紋理的建筑物存在指數(shù)進行篩選,最后再結(jié)合坡度在7°以內(nèi)區(qū)域不可能產(chǎn)生滑坡等知識,使用DEM信息完成后處理。上述研究均取得較好的檢測效果,但采用的領(lǐng)域知識專業(yè)程度較高,推廣復(fù)用有一定難度。
圖7 根據(jù)飛機檢測結(jié)果推理機場區(qū)域Fig.7 Infer airport area based on aircraft detection results
基于知識的目標(biāo)檢測方法中,幾何知識構(gòu)建規(guī)則相對簡單,但檢測性能受相同幾何形狀噪音、目標(biāo)遮擋等因素影響嚴(yán)重,虛警率較高;上下文知識則通過提高目標(biāo)周邊信息的利用率,緩解遮擋、噪音等因素對檢測的影響,但引入其他目標(biāo)增加了總體檢測時間和計算量;輔助知識為目標(biāo)檢測提供更多的外部相關(guān)信息,進一步提高檢測性能,同時實現(xiàn)目標(biāo)的變化檢測,但多源信息的匹配又增加了時間、空間開銷;綜合知識將上述知識進行結(jié)合使用,并引入遙感解譯知識庫,實現(xiàn)更加準(zhǔn)確、高效的檢測,但專家知識、多源信息的獲取與利用都有難度。基于CNN的目標(biāo)檢測方法中,兩階段算法先生成候選區(qū)域再進行分類與回歸,其檢測精度普遍較高,但檢測速度相對較慢;一階段算法直接對影像進行分類與回歸,沒有顯式的候選區(qū)域提取過程,其檢測速度普遍較快,但檢測精度相對較差。聯(lián)合知識與CNN的目標(biāo)檢測方法中,改進遙感影像數(shù)據(jù)集在檢測模型前端部分進行優(yōu)化,提升了檢測目標(biāo)類別數(shù)量以及對目標(biāo)不同狀態(tài)的檢測能力,同時緩解了目標(biāo)的小樣本問題;調(diào)整算法網(wǎng)絡(luò)框架在檢測模型中間骨干部分進行優(yōu)化,重點提升目標(biāo)檢測精度;進行目標(biāo)上下推理在檢測模型后處理部分進行優(yōu)化,利用知識推理間接提升了檢測性能以及目標(biāo)的精細(xì)化檢測能力。但聯(lián)合知識與CNN的目標(biāo)檢測方法需要足夠的遙感解譯與深度學(xué)習(xí)知識支撐,才能夠合理高效地把知識運用于CNN檢測模型。表1對上述三種方法進行了總結(jié)歸納。
表1 不同類型遙感影像目標(biāo)檢測方法比較分析Table 1 Comparison and analysis of different types of remote sensing image target detection methods
遙感影像目標(biāo)檢測技術(shù)經(jīng)過近幾十年的探索發(fā)展,檢測性能不斷得到提升。但同時隨著遙感技術(shù)的進步,成像手段不斷多樣、圖像分辨率不斷提升等新的變化帶來一系列新的挑戰(zhàn)和問題,現(xiàn)有的遙感影像目標(biāo)檢測方法仍面臨以下問題:
(1)特定領(lǐng)域目標(biāo)的小樣本問題。對于遙感影像解譯來說,地球上的任何物體都可能成為檢測對象。而現(xiàn)階段的遙感影像數(shù)據(jù)集樣本多以機場、飛機、體育場、汽車等典型目標(biāo)為主,針對特定領(lǐng)域的遙感影像樣本仍有較大缺口,如工業(yè)污染監(jiān)測方面,化工廠等工業(yè)目標(biāo)仍無大規(guī)模、權(quán)威性的遙感影像數(shù)據(jù)集,造成后續(xù)研究進展緩慢。
(2)大型目標(biāo)的精細(xì)化檢測問題。目標(biāo)精細(xì)化檢測指的是在識別目標(biāo)類別的基礎(chǔ)上,進一步對目標(biāo)的組成、狀態(tài)、分布等開展解譯分析,如檢測到機場后需要再檢測機場的跑道、候機樓、飛機、停車場等各個部分。現(xiàn)有的遙感影像目標(biāo)檢測研究大多以飛機、船舶、油罐等單個目標(biāo)為主,而遙感影像本身具有圖像范圍大、目標(biāo)種類數(shù)量多等特點,因而對于大范圍區(qū)域目標(biāo)的快速精細(xì)檢測勢必會成為未來遙感領(lǐng)域研究發(fā)展的重點和難點。
(3)遙感視頻影像的目標(biāo)檢測問題。地面視頻影像檢測技術(shù)在行人、車輛等諸多方面已成功應(yīng)用[72],近年來隨著國產(chǎn)視頻遙感衛(wèi)星的快速發(fā)展,已實現(xiàn)通過凝視成像模式獲取亞米級分辨率彩色動態(tài)視頻[73],但當(dāng)前遙感視頻目標(biāo)檢測技術(shù)的研究相對較少,特別是視頻影像中動態(tài)目標(biāo)的檢測、跟蹤與定位方法仍有較大研究空間。
綜合上述眾多研究成果的對比分析,未來遙感影像目標(biāo)檢測技術(shù)可以從以下方面展開研究:
(1)針對特定目標(biāo)小樣本問題,采用弱監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)加領(lǐng)域知識的方法開展檢測模型的設(shè)計,將是解決遙感目標(biāo)全領(lǐng)域檢測的可行思路;同時生成對抗網(wǎng)絡(luò)在圖像處理領(lǐng)域的快速發(fā)展,將其與遙感領(lǐng)域知識結(jié)合生成高質(zhì)量特定目標(biāo)樣本的方法還需探索。
(2)針對目標(biāo)精細(xì)化檢測問題,深入研究聯(lián)合專家知識與CNN的方法將是解決上述難點的有效途徑,進一步探索建立目標(biāo)間的關(guān)系模型,充分挖掘現(xiàn)有遙感影像的潛在信息,能夠為后續(xù)遙感智能解譯工作提供強有力的支撐,具有非常廣闊的應(yīng)用前景和研究價值。
(3)針對遙感視頻目標(biāo)檢測問題,注重借鑒改進地面視頻目標(biāo)檢測的最新技術(shù),探索現(xiàn)有深度學(xué)習(xí)方法應(yīng)用于遙感影像視頻目標(biāo)檢測的可行性,同時在檢測的基礎(chǔ)上向動目標(biāo)跟蹤、定位等方向進行深入研究。