鄭美俊 田益民 楊帥
基于改進FCOS網(wǎng)絡(luò)的遙感目標(biāo)檢測
鄭美俊 田益民*楊帥
(北京印刷學(xué)院信息工程學(xué)院,北京 102627)
找出目標(biāo)的位置和類別是目標(biāo)檢測的主要任務(wù)。隨著人工智能和深度學(xué)習(xí)的發(fā)展,目標(biāo)檢測可以達到人眼所達不到的精度。由于信息較少,覆蓋面積小且基于錨框的檢測算法易受錨框大小、比例數(shù)目的影響,對較小的目標(biāo)難以精確檢測。針對以上問題,改進無錨框算法全卷積單階段目標(biāo)檢測(Fully Convolutional One-stage Object Detection,F(xiàn)COS)實現(xiàn)了小目標(biāo)檢測的效率和精度。將FCOS算法的特征提取網(wǎng)絡(luò)結(jié)構(gòu)殘差網(wǎng)絡(luò)(Residual Network,ResNet)更換為輕量級網(wǎng)絡(luò)結(jié)構(gòu)MobileNetV3,隨后在骨干網(wǎng)絡(luò)中引入通道注意力機制和空間注意力機制對特征提取網(wǎng)絡(luò)進行改進,最后設(shè)計T交并比(TIOU)代替原本的交并比(IOU),改善模型精度。實驗結(jié)果表明,所改進的網(wǎng)絡(luò)結(jié)構(gòu)與FCOS相比,網(wǎng)絡(luò)訓(xùn)練時間和模型大小為原來的一半,計算參數(shù)量由原來的32.12×106減少為11.73×106,減少到原來的三分之一,模型推理速度提升了10%,每秒傳輸幀數(shù)為11幀,與主流網(wǎng)絡(luò)Faster RCNN相比,檢測精度和速度更快,可以滿足對小目標(biāo)的實時檢測。
卷積神經(jīng)網(wǎng)絡(luò) 單階段目標(biāo)檢測 通道和空間注意力機制 遙感應(yīng)用
隨著各行各業(yè)在計算機視覺領(lǐng)域取得一系列突破,在深度學(xué)習(xí)領(lǐng)域中占據(jù)重要地位的目標(biāo)檢測也得到了突破性的進展。在目前熱門的自動駕駛研究中,需要從每一幀的圖片中精確識別出障礙物并送入后臺進行處理。在航天遙感中,需要識別出5m以下的小目標(biāo)[1]。
傳統(tǒng)的目標(biāo)檢測方法分為三大部分:區(qū)域選擇、特征提取和分類器。由于傳統(tǒng)的目標(biāo)檢測方法在時間利用率、人為設(shè)計的網(wǎng)絡(luò)魯棒性等方面差的原因,使得識別和檢測的效果不佳。近年來,人工智能的迅速發(fā)展使得目標(biāo)檢測成為人工智能落地研究的重要內(nèi)容,目標(biāo)檢測與神經(jīng)網(wǎng)絡(luò)相結(jié)合取得了巨大的成果,例如:基于錨框的檢測器Faster R-CNN[2]采用預(yù)訓(xùn)練權(quán)重初始化區(qū)域選取網(wǎng)絡(luò)(Region Proposal Network,RPN)的共享卷積層,然后訓(xùn)練RPN網(wǎng)絡(luò),通過生成建議框和雙階段預(yù)測取得了較高的檢測精度,單發(fā)多箱預(yù)測器(Single Shot multiBox Detector,SSD)[3]對于一張圖,結(jié)合多個不同的特征圖預(yù)測不同大小的物體,提高了運行速度和檢測的精度;You Look Only Once(YOLO)v3[4]相比于YOLOv2[5]采用了特征金字塔(Pyramid Of Features,F(xiàn)PN)[6]、ResNet模塊和DarkNet53網(wǎng)絡(luò)結(jié)構(gòu),提高了網(wǎng)絡(luò)的空間和數(shù)據(jù)表征能力,增加對細粒度物體的檢測力度。
針對錨框目標(biāo)檢測算法的缺陷,很多無錨框的算法被提出,文獻[7]提出CenterNet(Keypoint Triplets for Object Detection),將邊界的中心點進行建模,為了找到中心點,通過邊界框左上和右下的角點坐標(biāo)來找到中心點,進而回歸出目標(biāo)框的邊界大小,且不需要進行非極大抑制(Non Maximal Inhibition,NMS)。Zhi Tian等提出的FCOS采用FPN進行分層預(yù)測,提升了對不同尺度目標(biāo)的預(yù)測精度,F(xiàn)COS在避免錨框復(fù)雜計算的方式上采取了去除預(yù)定義的錨框[8],且后處理只采用NMS使得FCOS更加簡單[9]。
本文針對目前目標(biāo)檢測算法面臨的檢測效率慢和模型文件太大兩個問題,設(shè)計出了FCOS改進版。其中,采用輕量級MobileNetV3[10]作為FCOS的骨干網(wǎng)絡(luò),使得網(wǎng)絡(luò)整體參數(shù)量和最后得到的模型文件大幅度縮小。由于模型文件大幅度縮小,所以計算量也變得更小,推理變得更快,不僅擁有不差于較重模型的性能,還可以應(yīng)用于更加輕量級的邊緣設(shè)備,解決了深度學(xué)習(xí)的模型推理對設(shè)備配置要求高的問題。在改進骨干網(wǎng)絡(luò)中引入注意力機制[11],改進IOU損失函數(shù),提升了特征網(wǎng)絡(luò)的提取性能,使得改進后的算法在模型大小大幅度縮小的前提下還能保持模型精度不變?;谝陨蟽煞N方法的改進,使得本文算法能更快的檢測出對應(yīng)目標(biāo),且模型訓(xùn)練的空間和時間縮短為原先的一半,模型的推理速度提升10%,可以達到實時檢測的效果[12],對于深度學(xué)習(xí)在計算機視覺領(lǐng)域的落地有一定的參考價值。
如圖1所示,輕量級單階段目標(biāo)檢測(MobileNetv3-CBAM-FCOS,MVBCA-FCOS)的網(wǎng)絡(luò)結(jié)構(gòu),主要包括特征提取網(wǎng)絡(luò)、特征融合網(wǎng)絡(luò)和檢測模塊三個部分。
圖1 MVBCA-FCOS網(wǎng)絡(luò)結(jié)構(gòu)圖
該網(wǎng)絡(luò)改進了特征提取網(wǎng)絡(luò)和檢測模塊[13],對于特征提取網(wǎng)絡(luò),采用融合通道和空間注意力機制(Convolutional Block Attention Module,CBAM)的輕量級網(wǎng)絡(luò)(MobileNetV3)作為骨干網(wǎng)絡(luò),用于提取圖片中的深層語義信息。其中CBAM引導(dǎo)網(wǎng)絡(luò)關(guān)注特征圖中重要的區(qū)域,抑制無效特征,從而提升特征圖的表征能力。骨干網(wǎng)絡(luò)產(chǎn)生的3個特征圖3、4、5,通過1×1的卷積(Convolution,Conv)得到256維的特征向量3、4、5,傳入特征融合網(wǎng)絡(luò)中進行特征融合。其中,6、7通過特征圖5、6用步長為2的3×3卷積得到,5經(jīng)過上采樣與4相加的到4,4經(jīng)過上采樣與3相加得到3。特征圖3、4、5、6、7的步長(步長表示與初始輸入的特征圖縮小的倍數(shù))分別為8、16、32、64、128。將3、4、5、6、7送入網(wǎng)絡(luò)頭部(Head)進行預(yù)測,得出目標(biāo)回歸得分、目標(biāo)分類得分和邊框中心點得分。最后利用NMS算法進行后處理得到檢測結(jié)果。
常用的擠壓激勵(Squeexe and Excitation,SE[14])模塊是為了解決在卷積池化中通道重要性不同的問題。但是SE模塊忽略了空間性能對網(wǎng)絡(luò)的影響。CBAM注意力機制分為通道注意力模塊(Channel Attention Module,CAM)和空間注意力模塊(Spartial Attention Module,SAM)。
與SE模塊相比,CAM模塊多了個最大池化層,所以獲得的信息更加全面。將CAM模塊輸出的特征圖輸入到SAM模塊中,經(jīng)過一系列的黑盒操作得到最終的權(quán)重系數(shù)。CAM和SAM分別對骨干網(wǎng)絡(luò)中的通道特征和空間特征進行選擇性提取,可以提高模型訓(xùn)練的精度。
通道注意力機制如圖2所示,主要關(guān)注在特征圖中什么樣的特征是有意義的,它的輸入是一個××的特征(×代表像素大小,表示通道數(shù))。首先分別進行一個平均池化和最大池化,接著,再將得到的結(jié)果分別送入共享神經(jīng)網(wǎng)絡(luò),經(jīng)過一系列變化得到通道權(quán)重系數(shù)c。
圖2 通道注意力模塊
空間注意力機制如圖3所示,主要負責(zé)關(guān)注在特征圖中哪些位置上的特征是有意義的,它的輸入××的特征,先后進入最大池化層和平均池化層。然后,經(jīng)過一個7×7的卷積,通過Sigmoid激活函數(shù),得到激活權(quán)重系數(shù)s。
圖3 空間注意力模塊
FCOS中使用Resnet50[15]作為特征提取網(wǎng)絡(luò),網(wǎng)絡(luò)參數(shù)較多,模型大小不適合在邊緣設(shè)備上進行計算[16],改進后的網(wǎng)絡(luò)結(jié)構(gòu)采用輕量級網(wǎng)絡(luò)MobileNetV3作為骨干網(wǎng)絡(luò)進行特征提取,提出了基于CBAM的MobileNetV3特征提取網(wǎng)絡(luò)結(jié)構(gòu),通過通道注意力機制來關(guān)注需要被“重視”的特征,“忽略”無用的特征和作用小的特征,然后通過空間注意力機制來關(guān)注需要“重視”特征區(qū)域,進而有效的提高了網(wǎng)絡(luò)結(jié)構(gòu)的精度。
在表1所示的MobileNetV3網(wǎng)絡(luò)層中,bneck為一系列特殊的卷積,批量歸一化(Batch Normalization, BN)和擠壓激勵模塊混合作用的操作,pool為池化層,NBN代表不使用批量歸一化層,conv2d為卷積操作,表示最后輸出的通道數(shù)。
表1 MobileNetV3網(wǎng)絡(luò)結(jié)構(gòu)
Tab.1 MobileNetV3 network structure
融合網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示,Block1~Block5為經(jīng)過初始的一系列bneck串聯(lián)組成(Block1表示第1~2個bneck,Block2表示第3~4個bneck,Block3表示第5~7個bneck,Block4表示第8~13個bneck,Block5表示第14~15個bneck),輸入分別112像素×112像素、56像素×56像素、28像素×28像素、14像素×14像素和7像素×7像素。將Block1~Block5分為三部分送入FPN中進行特征融合,用不同特征層的識別不同的目標(biāo),提升模型的特征檢測效果。在Block1之前和Block5[17-18]之后使用通道注意力機制和空間注意力機制。
圖4 CBAM-MobileNet網(wǎng)絡(luò)結(jié)構(gòu)
骨干網(wǎng)絡(luò)從Resnet50更換為MobileNetv3之后,網(wǎng)絡(luò)模型的參數(shù)量大幅度下降,模型參數(shù)量從原先的32.12×106減少為11.73×106,減少到原來的三分之一,每張圖片的識別速度下降了20ms,模型推理速度提升了10%。
為了優(yōu)化邊界框的回歸損失函數(shù),在廣義交并比()[19]損失函數(shù)中引入邊界框的長寬比例系數(shù),進而提出了一種T交并比(TIOU)作為邊界框回歸的損失函數(shù)。
IOU損失函數(shù)如下
式中為圖5兩框的交集;為兩框的并集。該損失函數(shù)的缺點是:在兩個框沒有交集的時候,分母為0,所以所求IOU很大,效果不佳。
GIOU是在IOU基礎(chǔ)上的改進版本,如圖6所示,綠色是真實框,紅色是預(yù)測框,最外面的藍色邊框是將紅綠矩形用最小矩形框起來的邊界,是藍色矩形框的面積,對應(yīng)紅綠矩形的并集面積。
圖5 IOU示意
圖6 GIOU示意
GIOU解決了IOU中真實框和預(yù)測框沒有交集產(chǎn)生的問題,在GIOU中,如果當(dāng)真實框和預(yù)測框完美重合,那么IOU=1,和和預(yù)測框面積相等,GIOU=1。如果兩個框距離很大,趨向于很大的數(shù)值,趨向于0,IOU趨向于0,GIOU= –1。因此GIOU取值的區(qū)間是[–1, 1]。
式(2)中GIOU計算方式如下
由于GIOU中沒有考慮邊框長寬比,所以所探測出的目標(biāo)框并不是最佳長寬比,本文提出的TIOU在GIOU的基礎(chǔ)上,額外考慮了預(yù)測框和真實框不相交和真實框與預(yù)測框之間寬高比例的問題,添加了預(yù)測框的長寬比系數(shù),這樣預(yù)測框就會與真實框更加接近。
式(3)TGIOU計算方式如下(、和gt、gt分別代表預(yù)測框的高度、寬度和真實框的高度、寬度)
式中
為了驗證本文算法的性能,測試實驗在遙感影像數(shù)據(jù)集(RSOD)上進行。RSOD為2015年武漢大學(xué)發(fā)布的一個公開的遙感圖像數(shù)據(jù)集。其中有四大類別,分別為:飛機數(shù)據(jù)集,446張飛機圖片中標(biāo)記了4 993架飛機;操場數(shù)據(jù)集,189張操場圖片中標(biāo)記了191個操場;天橋數(shù)據(jù)集,176張?zhí)鞓驁D片中標(biāo)記了180座天橋;油箱數(shù)據(jù)集,165張油箱圖片標(biāo)記了1 586個油箱。訓(xùn)練時,在四個數(shù)據(jù)集中按1:8的比例隨機選取圖片,保證實驗結(jié)果的魯棒性。
使用平均精確率均值(Mean Average Precision,mAP)、精確率均值(Average Precision,AP)來衡量網(wǎng)絡(luò)的性能[20]。AP衡量的是學(xué)出來的模型在每個類別上的好壞,分類器越好,AP值越高,mAP衡量的是模型在所有類別上的好壞,其范圍是[0,1]。取所有類別AP的平均值就是mAP。不管是AP還是mAP,相較于精確率和召回率,都比較綜合地評價了模型的性能。因此,以上兩個評價指標(biāo)是衡量目標(biāo)檢測算法性能的重要指標(biāo)。準(zhǔn)確率是預(yù)測正確的正樣本數(shù)占預(yù)測為正樣本總數(shù)的比例,召回率是預(yù)測正確的正樣本數(shù)與正樣本總數(shù)的比率。
如圖7所示AP值為精確率隨召回率的變化曲線,即-曲線與坐標(biāo)軸圍成的面積。
如圖8所示,mAP用來評價模型的整體檢測精度,每個類別的目標(biāo)的AP值相加后取平均值得到,mAP是衡量一個模型好壞的重要指標(biāo)。
圖7 油箱平均精度
圖8 數(shù)據(jù)集mAP
Windows環(huán)境下進行網(wǎng)絡(luò)的訓(xùn)練和測試,CPU為Intel(R)Core(TM)i7-10750H,顯卡(GPU)為GTX2060,OS為Windows10,使用Python3.7作為編程語言,Pytorch1.8作為深度學(xué)習(xí)的框架,并結(jié)合CUDA10.2和CUDNN7.6工具包進行訓(xùn)練和推理加速。
模型訓(xùn)練時網(wǎng)絡(luò)輸入的圖片大小為800像素×1 333像素,采用的優(yōu)化算法是SGD(Stochastic Gradient Descent),訓(xùn)練輪次為25,學(xué)習(xí)率為0.000 1,每隔5輪下調(diào)一次學(xué)習(xí)率,動量因子為0.9,訓(xùn)練配置如表2所示。
表2 實驗配置
Tab.2 The Experimental Configuration
訓(xùn)練MVBCA-FCOS目標(biāo)檢測算法的損失函數(shù)計算公式如式(6)
式中p,y、t,y、s,y和p,y、t,y、s,y分別為預(yù)測框和真實框的預(yù)測和真實的分類回歸分?jǐn)?shù)、邊界回歸分?jǐn)?shù)和中心度回歸分?jǐn)?shù),其中,為中心位置;pos為正樣本的數(shù)量;cls、reg和cen分別為分類損失函數(shù)、邊界框損失函數(shù)和邊框中心損失函數(shù);為reg的平衡權(quán)重因子;為cen的平衡權(quán)重因子。
為了驗證MVBCA-FCOS中各個模塊對目標(biāo)檢測結(jié)果的影響,在RSOD遙感數(shù)據(jù)集上進行了消融實驗[21],以MobileNetV3為檢測網(wǎng)絡(luò)為消融實驗的基線,實驗結(jié)果如表3所示。對于更換MoblieNetV3輕量級網(wǎng)絡(luò)后,mAP精度下降2.6%,串聯(lián)添加通道注意力機制和空間注意力機制后,精度上升2%,然后改進邊框回歸,引入TIOU,使得邊框的真實框和預(yù)測框更加接近[22],且提升了0.6%,mAP由基本的基線中的91.5%提升到了94.1%,在精度未丟失的前提下模型大小和訓(xùn)練時間縮短為原來的一半,模型的參數(shù)量大大減少,模型的推理速度提升了10%。
表3 在RSOD上的消融實驗對比
Tab.3 Comparison of ablation experiments on RSOD
為了驗證算法的魯棒性和可行性,選取了主流的YOLOV3和Faster R-CNN做對比實驗[23],選取的RSOD遙感數(shù)據(jù)集中,四種算法對操場的特征提取都較為良好,而油箱中有很多小目標(biāo),實驗結(jié)果比較有區(qū)分度。如表4所示,本實驗方法的網(wǎng)絡(luò)精度和原始FCOS精度大致相同的情況下,縮短了模型訓(xùn)練和模型的大小,為原始模型的一半,推理時間提升了10%。
如圖9所示,原始算法FCOS漏檢了左上角的油罐,本文提出的MBVCA-FCOS算法可以較為全面的檢測到油箱。
表4 不同目標(biāo)檢測算法在RSOD數(shù)據(jù)集上的結(jié)果對比
Tab.4 ComparisonofresultsofdifferenttargetdetectionalgorithmsonRSODdataset 單位:%
圖9 算法效果對比
針對目標(biāo)檢測中,錨框設(shè)定、超參數(shù)難調(diào)整和對小目標(biāo)檢測效果不佳等一系列問題,本文提出了一種基于無錨框FCOS改進的檢測模型MBVCA-FCOS?;诠歉删W(wǎng)絡(luò)的更換,交并比損失函數(shù)的改進,空間注意力機制和通道注意力機制的引入,在精度不丟失的前提下,提升了模型推理速度,進而提升了對小目標(biāo)檢測的效果,縮小了模型大小,使得該網(wǎng)絡(luò)能夠在更加便攜設(shè)備上進行部署。該算法在多類目標(biāo)檢測中取得了較好的效果,驗證了算法的有效性和魯棒性。不過,仍然有兩個問題可以改進,一是應(yīng)用模型剪枝技術(shù)或者模型量化技術(shù)進一步縮小模型大小、提升模型速度,二是通過改進特征融合網(wǎng)絡(luò)進一步提升網(wǎng)絡(luò)的精度。
[1] 李慶忠, 徐相玉. 基于改進YOLOV3-Tiny的海面船艦?zāi)繕?biāo)快速檢測[J]. 計算機工程, 2021, 47(10): 283-289, 297.
LI Qingzhong, XU Xiangyu. Fast Target Detection of Surface Ship Based on Improved YOLOV3-Tiny[J]. Computer Engineering, 2021, 47(10): 283-289, 297. (in Chinese)
[2] REN S, HE K, GIRSHICK R, et al. Faster R-CNN: Towards Real-time Object Detection with Region Proposal Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2017, 39(6): 1137-1149.
[3] LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single Shot Multibox Detector[C]//2016 European Conference on Computer Vision(ECCV), October 8-16, 2016, Amsterdam, Netherlands. Springer, 2016: 21-37.
[4] REDMON J, FARHADI A. YOLOv3: An Incremental Improvement[EB/OL]. [2022-5-30]. http://arxiv.org/abs/1804. 02767.pdf.
[5] REDMON J, FARHADI A. YOLO9000: Better, Faster, Stronger[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1612.08242.pdf.
[6] LIN T, DOLLáR P, GIRSHICK R, et al. Feature Pyramid Networks for Object Detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), July 21-26, 2017, Honolulu, HI, USA. IEEE, 2017: 2117-2125.
[7] LAW H, TENG Y, RUSSAKOVSKY O, et al. CornerNet-Lite: Efficient Keypoint Based Object[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1904.08900.pdf.
[8] TIAN Z, SHEN C, CHEN H, et al. FCOS: Fully Convolutional One-stage Object Detection[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1904.01355.pdf.
[9] HU H, GU J, ZHANG Z, et al. Relation Networks for Object Detection[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1711.11575.
[10] HOWARD A, SANDLER M, CHU G, et al. Searching for MobileNetV3[C]//IEEE/CVF International Conference on Computer Vision, October 27-November 2, 2019, Seoul, Korea (South). Piscataway: IEEE, 2019: 1314-1324.
[11] WOO S, PARK J, LEE J Y, et al. KWEON, CBAM: Convolutional Block Attention Module[EB/OL]. [2022-03-30]. https:/arxiv.org/pdf/1807.06521.pdf.
[12] JIANG B, LUO R, MAO J, et al. Acquisition of Localization Confidence for Accurate Object Detection[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1807.11590.pdf.
[13] 孫廣慧. 融合Resnet50與改進注意力機制的絕緣子狀態(tài)識別研究[J]. 電子技術(shù)與軟件工程, 2021(16): 247-248.
SUN Guanghui. Research on Insulator State Recognition Based on Resnet50 and Improved Attention Mechanism[J]. Electronic Technology & Software Engineering, 2021(16): 247-248. (in Chinese)
[14] YU J, JIANG Y, WANG Z, et al. UnitBox: An Advanced Object Detection Network[EB/OL]. [2022-03-30]. https://arxiv.org/pdf/1608.01471.pdf.
[15] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-31, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.
[16] TAN M, PANG R, LE Q V. EfficientDet: Scalable and Efficient Object Detection[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1911.09070.pdf.
[17] HU J, SHEN L, ALBANIE S, et al. Squeeze and Excitation Networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2020, 42(8): 2011-2023.
[18] HE K, ZHANG X, REN S, et al. Deep Residual Learning for Image Recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 27-31, 2016, Las Vegas, NV, USA. IEEE, 2016: 770-778.
[19] REZATOFIGHI H, TSOI N, GWAK J, et al. Generalized Intersection over Union: A Metric and a Loss for Bounding Box Regression[EB/OL]. [2022-03-30]. http://arxiv.org/abs/1902.09630.pdf.
[20] 郭磊, 王邱龍, 薛偉, 等. 基于改進YOLOv5的小目標(biāo)檢測算法[J]. 電子科技大學(xué)學(xué)報, 2022, 51(2): 251-258.
GUO Lei, WANG Qiulong, XUE Wei, et al. Small Target Detection Algorithm Based on Improved YOLOv5[J]. Journal of University of Electronic Science and Technology of China, 2022, 51(2): 251-258. (in Chinese)
[21] 張中華, 賈偉寬, 邵文靜, 等. 優(yōu)化FCOS網(wǎng)絡(luò)復(fù)雜果園環(huán)境下綠色蘋果檢測模型[J]. 光譜學(xué)與光譜分析, 2022, 42(2): 647-653.
ZHANG Zhonghua, JIA Weikuan, SHAO Wenjing, et al. Optimization of FCOS Network Detection Model for Green Apple in Complex Orchard Environment[J]. Spectroscopy and Spectral Analysis, 2022, 42(2): 647-653. (in Chinese)
[22] HAN X, LEUNG T, JIA Y, et al. MatchNet: Unifying Feature and Metric Learning for Patch-based Matching[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 8-10, 2015, Boston, USA. IEEE, 2015.
[23] LOWE D G. Object Recognition from Local Scale-invariant Features[C]//1999 IEEE Conference on Computer Vision and Pattern Recognition(CVPR), June 23-25, 1999, Fort Collins, CO, USA. IEEE, 1999.
Remote Sensing Target Detection Based on Improved FCOS Network
ZHENG Meijun TIAN Yimin*YANG Shuai
(School of Information Engineering, BIGC, Beijing 102627, China)
The main task of target detection is to find the location and category of the target. With the development of artificial intelligence and deep learning, target detection can achieve accuracy beyond human eyes. Due to less information and small coverage area, the detection algorithm based on anchor frame is easily affected by the size and proportion of anchor frame, and it is difficult to accurately detect small targets. Aiming at the above problems, Fully Convolutional One-stage Object Detection (Fully Convolutional One-stage Object Detection, FCOS) algorithm without anchor frame is improved to achieve the efficiency and accuracy of small target detection. FCOS feature extraction network structure ResNet (Residual Network, ResNet) is replaced with lightweight network structure MobileNetV3. Then, channel attention mechanism and spatial attention mechanism are introduced in BackBone network to improve feature extraction network. Finally, T-intersection ratio (TIOU) is designed to replace the original intersection ratio (IOU) to improve model accuracy. Experimental results show that compared with FCOS, the network training time and model size of the improved network structure are half of the original, the number of calculation parameters is reduced from 32.12×106to 11.73×106which is one third of the original, the model inference speed is increased by 10%, and the transmission frame per second (FPS) is 11. Compared with the mainstream Faster network Faster RCNN detection accuracy and speed, can meet the real-time detection of small targets.
convolutional neural network; one-stage object detection; convolutional block attention module; remote sensing application
TP79
A
1009-8518(2022)05-0133-09
10.3969/j.issn.1009-8518.2022.05.013
2022-04-25
國家自然科學(xué)基金項目(NSFC61378001,NSFC61178092)
鄭美俊, 田益民, 楊帥. 基于改進FCOS網(wǎng)絡(luò)的遙感目標(biāo)檢測[J]. 航天返回與遙感, 2022, 43(5): 133-141.
ZHENG Meijun, TIAN Yimin, YANG Shuai. Remote Sensing Target Detection Based on Improved FCOS Network[J]. Spacecraft Recovery & Remote Sensing, 2022, 43(5): 133-141. (in Chinese)
鄭美俊,男,1997年生,2019年獲華北科技學(xué)院信息工程學(xué)院自動化工學(xué)學(xué)位,現(xiàn)在北京印刷學(xué)院電子信息專業(yè)攻讀碩士學(xué)位。研究方向為深度學(xué)習(xí)和計算機視覺。E-mail:269881724@qq.com。
田益民,男,1966年生,2003獲中科院計算數(shù)學(xué)所計算數(shù)學(xué)專業(yè)理學(xué)博士學(xué)位,現(xiàn)為北京印刷學(xué)院電子信息專業(yè)博士生導(dǎo)師。主要研究方向為算法設(shè)計。E-mail:tym8@bigc.edu.cn。
(編輯:龐冰)