廖永為,張桂鵬,楊振國,劉文印,2
1.廣東工業(yè)大學(xué) 計算機學(xué)院,廣州 510006
2.鵬城實驗室 網(wǎng)絡(luò)空間安全研究中心,廣東 深圳 518000
目標檢測[1-3]的目的是在數(shù)字圖像中檢測出特定類別(如人、動物或汽車等)的實例,這是計算機視覺中一項基本且具有挑戰(zhàn)性的任務(wù)。近年來基于深度學(xué)習方法在目標檢測中變得非常流行,它可以分為兩類,即單階段(one-stage)目標檢測[1],例如Yolo[1]、SSD[4]、Retina-Net[5]、FCOS[6]、RepPoints[7]等,以及兩階段(two-stage)目標檢測[1-2],例如Faster R-CNN[8-9]、R-FCN[9-10]、Cascade RCNN[11]等。單階段目標檢測方法通常被認為在通過主干網(wǎng)絡(luò)提取特征信息之后輸出分類和回歸的結(jié)果(bounding box,邊界框),包括基于錨點(anchor-based)的方法,如SSD[1-3]、RetinaNet[5]、Cascade RetinaNet[2]等;以及基于無錨點(anchor-free)的方法,如DenseBox[1-2]、Yolo[1-2]、CornerNet[12]、FCOS[6]、RepPoints[7]等。在這些檢測器中,基于錨點的方法會生成密集錨點框來增加對象的召回率,這會產(chǎn)生冗余框,并且需要設(shè)置大量的超參數(shù),如檢測框的比例、檢測框的長寬比和交并比(IoU)閾值。無錨點方法避免了使用大量錨點而導(dǎo)致的復(fù)雜計算,減少了超參數(shù)的設(shè)計,進一步實現(xiàn)了目標檢測的實時性和高精度。在無錨點的單階段目標檢測算法中,基于關(guān)鍵點(key point)的方法需要預(yù)測多個關(guān)鍵點,如CornerNet[12]、CenterNet[2]等,這將導(dǎo)致復(fù)雜的計算。而像素級預(yù)測方法利用真值(ground-truth)邊界框中所有的點來預(yù)測邊界框,如FCOS[6]、RepPoints[6]等,并且可以與基于錨點的檢測器擁有相同的召回率。無論是基于關(guān)鍵點的方法還是像素級預(yù)測方法,本質(zhì)上都是密集預(yù)測的方法。龐大的解空間會產(chǎn)生過多的負樣本,將會導(dǎo)致高召回率而低準確率。
隨著深度學(xué)習技術(shù)的發(fā)展,目標檢測算法的實現(xiàn)可由三個部分組成,即主干網(wǎng)絡(luò)(backbone)、頸部網(wǎng)絡(luò)(neck)和檢測頭(head)。主干網(wǎng)絡(luò)通常使用卷積神經(jīng)網(wǎng)絡(luò)[13]用于提取特征信息,如VGG[13-14]、ResNet[14]、EfficientNet[15]等。頸部網(wǎng)絡(luò)用于收集主干網(wǎng)絡(luò)中不同階段的特征信息,如FPN[16]、ASFF[16]、RFB[16]、SPP[17]等。檢測頭用于輸出檢測目標的位置和類別信息,可分為單次檢測頭如RPNHead[8]、RetinaHead[5]、DoubleHead[2]和級聯(lián)檢測頭(cascade detection)[11]等。就頸部網(wǎng)絡(luò)而言,特征金字塔網(wǎng)絡(luò)(FPN)結(jié)構(gòu)簡單,能提取多尺度特征來更好地學(xué)習特征表示的有效框架。因此,F(xiàn)PN及其變體使用最為廣泛,如BFPN[16]、BiFPN[16]、AugFPN[16]、iFPN[17]等。然而,目前基于FPN的方法大多由于直接融合多尺度特征表示而丟失語義信息。檢測頭一般由檢測網(wǎng)絡(luò)、感興趣區(qū)域的定義(region of interests,RoI)和損失函數(shù)(loss function)組成。在單階段的目標檢測方法中,基于錨點的方法使用Faster R-CNN[8-9]的檢測頭作為其檢測頭網(wǎng)絡(luò),而無錨點的方法是基于關(guān)鍵點或逐點預(yù)測設(shè)計的。特別是,F(xiàn)COS[5]的逐點預(yù)測引入了中心點分支來抑制低質(zhì)量的預(yù)測邊界框,從而提高了檢測器的性能。此外,Cascade R-CNN[11,18]中級聯(lián)檢測的方法可以通過細化(refine)邊界框而提高檢測性能。
因此,為了減少多尺度特征融合過程中語義信息的丟失,提出了增強的特征金字塔網(wǎng)絡(luò)(SFPN)來融合來自特征映射的局部和全局感受野中的空間和通道信息,以學(xué)習更好的特征表示。為了更好地利用分類和回歸的特征表示,設(shè)計了級聯(lián)檢測頭(CasHead)來提高邊界框回歸的置信度。此外,針對上述提出的模型ConFCOS,對損失函數(shù)進行了優(yōu)化,用來加速模型訓(xùn)練和提高模型性能。
在頸部網(wǎng)絡(luò)中,特征金字塔(FPN[14])網(wǎng)絡(luò)通過將強語義的高層特征傳低層特征中,在由卷積網(wǎng)絡(luò)形成的主干網(wǎng)絡(luò)提取的特征層上構(gòu)建特征金字塔網(wǎng)絡(luò)。FPN 已成為目標檢測器提取多尺度特征的有效而重要的結(jié)構(gòu)。具體來講,F(xiàn)PN 引入了一種自上而下的方法,將高分辨率的低級語義特征和低分辨率的高級語義特征相結(jié)合,用于檢測不同尺度的目標。通過改進具有強語義的多尺度特征,目標檢測的性能得到了顯著提高,如BFPN[16]、BiFPN[16]、AugFPN[16]、CE-FPN[17]、iFPN[17]等。然而,目前基于FPN的方法大多因直接融合多尺度特征表示而丟失語義信息。此外,由于網(wǎng)絡(luò)結(jié)構(gòu)的限制,基于FPN 的方法不能充分利用不同大小的感受野。特別是FPN 中的自底向上路徑只是在不同層上堆疊特征信息以擴大感受野,不鼓勵特征信息的傳遞,而對應(yīng)于不同感受野的特征映射只是通過自頂向下路徑中的元素相加進行合并。然而,不同感受野所捕獲的語義信息在相互傳遞中特征表示能力不強,限制了模型的性能。因此,提出了增強的特征金字塔網(wǎng)絡(luò)(SFPN)來融合空間和通道信息,使來自特征圖(feature map)的不同感受野能學(xué)習更好的特征表示。
關(guān)于檢測頭,在使用Hourglass[12]作為主干網(wǎng)絡(luò)的關(guān)鍵點檢測方法中,CornerNet[12]使用關(guān)鍵點的左上角和右下角來檢測邊界框。ExtremeNet[19]使用關(guān)鍵點估計網(wǎng)絡(luò)來檢測對象最上面、最左邊、最下面、最右邊和一個中心點的四個極值點。CenterNet[20]使用左上角、右下角和中心點的三個關(guān)鍵點來檢測邊界框,這豐富了左上角和右下角收集的信息,并在中心區(qū)域提供了更多可識別的信息。在使用ResNet[13]作為主干的無錨點檢測方法中,F(xiàn)SAF[21]提出的FSAF 模塊是在線特征選擇,應(yīng)用于多層無錨點檢測分支的訓(xùn)練,該分支連接到特征金字塔的每一層。通過修改損失函數(shù)來釋放錨點,以避免手動指定錨點,這樣可以學(xué)習與對象匹配的錨點。在基于ReintaNet[5]的FoveaBox[22]方法中,不同尺度的目標被分配到不同的特征層,直接對像素進行分類和回歸。FCOS[6]引入中心點(center-ness)分支來抑制低質(zhì)量的預(yù)測邊界盒,從而提高檢測器的性能。FCOS v2[23]將中心度分支從分類分支移動到回歸分支以進行預(yù)測。而且FCOS改進版,如NAS-FCOS[24]等,它們都使用單探測頭。此外,檢測頭的檢測網(wǎng)絡(luò)可分為:單次檢測,如Faster R-CNN[8]、SSD[2]、RetinaNet[5]、FCOS[6]等;級聯(lián)檢測利用特征共享形成多級輸出,如Cascade R-CNN[12]、ConRetina-Net[1]、Cascade RetinaNet[2]等。因此,為了提高回歸的可信度,提出了用于全卷積目標檢測算法的級聯(lián)檢測頭(CasHead)。
關(guān)于損失函數(shù),RetinaNet[5]提出了FocalLoss[5]用于分類,L1 Loss[4]用于邊界框回歸,F(xiàn)oclaLoss解決了數(shù)據(jù)樣本不均衡問題。在Free-Anchor[2]算法中使用Smooth L1 Loss[3]替換了L1 Loss,可以使預(yù)測值和真值差別大的時候,梯度值較小,模型會較穩(wěn)定,不容易產(chǎn)生梯度爆炸。而在FCOS[6]中使用IoU Loss[2]考慮檢測框和目標框重疊面積。在ATSS[2]中,使用GIoULoss[2]替換了IoU Loss[2],性能提高了0.4 個百分點,解決邊界框不重合時的問題。因此在FCOS v2[23]也使用了GIoULoss[25]。另外,DIoULoss[25]考慮邊界框中心距離的信息,CIoULoss[25]考慮邊界框?qū)捀弑鹊某叨刃畔???紤]到邊界框中有效框的比例和會產(chǎn)生大量負樣本,在CIoULoss[25]增加了懲罰項加速收斂提高了回歸精度。
對于無錨點目標檢測算法的改進,一方面,可以通過各種方式進一步改進檢測頭重復(fù)輸出。另一方面,可使用FPN來緩解高一致性的影響。因此,基于FCOS v2[23],提出了無錨點目標檢測一致性優(yōu)化算法,稱為ConFCOS,如圖1 所示。對于目標探測器的組成部分,使用了ResNet[13]作為主干網(wǎng)絡(luò),SFPN作為頸部網(wǎng)絡(luò),CasHead作為檢測頭。
圖1 ConFCOS目標檢測框架Fig.1 Structure of ConFCOS
如圖1 所示,自下而上的組件是ResNet 體系結(jié)構(gòu),用于生成多比例尺特征地圖。SFPN采用自上向下的橫向連接結(jié)構(gòu)生成目標識別的最終特征圖。檢測頭CasHead 通過兩個平行卷積層在特征圖的每個網(wǎng)格點上進行分類和定位。另外,對于損失函數(shù),分別采用FocalLoss[5]和CrossEntropy[13]作為分類和中心點分支的損失函數(shù),對CIoULoss[25]進行了優(yōu)化避免了大量的誤檢。
對于頸部網(wǎng)絡(luò),F(xiàn)PN已被證明是多尺度特征融合的有效方法,它引入了自頂向下的通道從多尺度圖像中提取特征,生成多尺度特征表示,并且各個層次的特征映射都具有很強的語義信息。然而,基于FPN的方法通常直接對各層語言進行融合,導(dǎo)致融合過程中語義信息的丟失和信息的衰減。因此,提出了增強特征金字塔網(wǎng)絡(luò)(SFPN)來融合局部和全局感受野的空間和通道信息特征,以改進特征表示,如圖2。
圖2 SFPN模型結(jié)構(gòu)Fig.2 Structure of SFPN
如圖2所示,按照FPN相同的設(shè)置,生成一個4級特征金字塔。將主干的輸出表示為{C2,C3,C4,C5},其輸入圖像的stride設(shè)為{8,16,32,64},通道數(shù)分別為{256、512、1 024、2 048}。{F2,F(xiàn)3,F(xiàn)4,F(xiàn)5}是在全局上下文塊之后具有相同通道數(shù)為256 的特征圖。特征金字塔{P2,P3,P4,P5}由具有擴張卷積模塊的SFPN中的自上而下路徑生成。特別是,由于這些特征之間的語義差距很大,在不同的尺度下沒有考慮到,因此加入了注意力機制[26]。GCB[27]是一個上下文建模模塊,它將所有位置的特征聚合在一起,形成一個全局上下文特征,以便對長距離依賴關(guān)系進行有效建模。在BiFPN 的跳躍連接的基礎(chǔ)上,為了增強特征融合,使用擴展卷積模塊DCM[28]。其中DCM 引入了空洞卷積(dilated convolution)[28],通過增加感受野來增強特征識別能力。
SFPN使用四個尺度從主干網(wǎng)絡(luò)提取的特征中采樣信息。在自頂向下的路徑中,SFPN 集成了后一層的上采樣特征和GCB 的全局特征,從主干網(wǎng)絡(luò)中提取。在自底向上的路徑中,SFPN 將當前層的采樣特征與3×3卷積、前一層的下采樣特征和具有不同感受野的特征信息進行融合。因此,SFPN的公式定義如下:
其中,表示第j層的輸出,表示第i層的輸入,表示最終輸出。conv表示一般3×3 卷積。dcm表示擴展卷積模塊。uspl表示上采樣操作,dspl表示下采樣操作。
級聯(lián)檢測首次由Cascade R-CNN[11,18]提出,它采用級聯(lián)回歸作為重采樣機制,逐步增加IoU 值,使前一階段的重采樣方案能夠適應(yīng)下一階段的高閾值。對于單階段目標檢測,ConRetinaNet[2]在訓(xùn)練過程中利用改進的錨點,采用一致性優(yōu)化來預(yù)測邊界框來提高質(zhì)量。Cascade RedtinaNet采用級聯(lián)檢測的思想來減少分類和定位的偏差。受此啟發(fā),設(shè)計了一種用于無錨點目標檢測的級聯(lián)檢測頭CasHead,它可以獲取高質(zhì)量的邊界框,并有效地學(xué)習到高質(zhì)量的邊界框分布。
如圖3所示,C表示分類,B表示回歸,CN表示中心度,D 表示可變形卷積。CasHead 采用級聯(lián)檢測的方法來提高檢測器的性能,通過細化邊界框可以得到高質(zhì)量的邊界框。與FCOS相同,CasHead包含兩個子網(wǎng),即分類子網(wǎng)絡(luò)和邊框回歸子網(wǎng)絡(luò),該子網(wǎng)絡(luò)使用逐點預(yù)測盒,并引入中心點分支以抑制低質(zhì)量預(yù)測邊界框。其中,分類子網(wǎng)絡(luò)用于輸出預(yù)測分類的置信度,邊框回歸子網(wǎng)絡(luò)用于預(yù)測中心點與四邊之間的距離,中心點分支(center-ness)用于過濾低質(zhì)量檢測點。
圖3 CasHead模型結(jié)構(gòu)Fig.3 Structure of CasHead
從SFPN 輸出特征xi的預(yù)測分類分數(shù)和回歸偏置量,CasHead 采用相同的xi兩次。首先,使用3×3 卷積來回歸xi的偏置量。其次,將經(jīng)過1×1卷積變換的偏置量與經(jīng)過3×3可變形卷積的特征相結(jié)合,從而輸出最終的回歸偏置量。換句話說,基于xi的學(xué)習從原來的位置到細化的偏置量。CasHead 的最終回歸偏置量的公式如下:
其中,F(xiàn)表示具有不同核的卷積,Ri,j表示第i個輸出回歸偏移量,def表示3×3 可變形卷積。應(yīng)注意,細化的偏置量是為了改進檢測點表示。
在FCOS[6]中使用IoU Loss[6]考慮檢測框和目標框重疊面積。FCOS v2[23]使用了GIoULoss[25],它使用外接矩形的方法不僅可以反應(yīng)重疊區(qū)域的面積,還可以計算非重疊區(qū)域的比例,因此GIOU Loss損失函數(shù)能更好地反應(yīng)真實框(ground-truth)和預(yù)測框的重合程度和遠近距離。DIoU Loss[25]增加了懲罰項是基于中心點的距離和對角線距離的比值,避免了像GIoULoss 在兩框距離較遠時,產(chǎn)生較大的邊界框,損失值較大難以優(yōu)化。為了使回歸在與目標框有重疊甚至包含時更準確、更快,CIoU Loss[25]同時考慮了重疊面積、中心點距離、長寬比3 個因素。為了加快模型的收斂速度,在CIoU Loss 增加一個懲罰項,它用于剔除掉得分過低的邊界框,減少訓(xùn)練模型時的計算量和時間,公式如下:
其中,IOU是產(chǎn)生的候選框與原標記框的交疊率,b和bgt表示預(yù)測框與原標記框的中心點,ρ()表示歐式距離,c表示預(yù)測框與原標記框的最小外接矩陣的對角線距離。α表示平衡(trade-off)參數(shù),v表示寬高比一致性參數(shù)。k表示懲罰項參數(shù),與CasHead級聯(lián)檢測中的IoU值相關(guān)。
對于目標檢測,將在主流的MS COCO 2017[1-2]基準數(shù)據(jù)集上評估模型的性能,該數(shù)據(jù)集有80 個目標分類,訓(xùn)練集中約118 000 張圖像,驗證數(shù)據(jù)集中約5 000張圖像(通常稱為minival集)。所有模型都在訓(xùn)練集上進行訓(xùn)練,并在驗證集上進行評估。使用標準的COCO評價指標[1-2]來評估目標檢測的性能,包括AP、AP50、AP75以及APS、APM、APL。
在訓(xùn)練時,使用mmdetection[1-2,29]框架進行實驗。權(quán)重衰減為0.000 1,每次訓(xùn)練4幅圖像,所有模型均使用2個GPU進行訓(xùn)練。ConFCOS的默認訓(xùn)練為36個周期,初始學(xué)習率設(shè)置為2.5×10-5,在第27個周期和第33個周期時分別除以10。主干使用ImageNet[xx]上預(yù)先訓(xùn)練的權(quán)重進行初始化。除非特別指定,否則輸入圖像的大小將調(diào)整為{800×1 333}。
推理過程遵循FCOSv2[23],除非特別指定,否則采用單尺度測試方法,圖像大小與單尺度訓(xùn)練中的圖像大小相同。根據(jù)FCOS v2[23],選擇Px,y>0.05 的位置作為正樣本,并獲得預(yù)測的邊界框。根據(jù)Cascade R-CNN[11,30]將級聯(lián)檢測IoU設(shè)置為0.5和0.6。
表1 總結(jié)了提出的ConFCOS 和最先進的單階段目標檢測方法之間的性能比較。從中可以看出:(1)Con-FCOS 的性能比基于錨點的檢測器M2Det提高了0.9 個百分點,比最近的無錨點單階段檢測器FCOS v2 提高了1.6 個百分點。這是因為SFPN 可以在特征地圖上融合空間和通道信息,并且CasHead通過細化邊界框提高分類和回歸的置信度。(2)對于多尺寸對象的檢測,Con-FCOS 可以獲得最佳性能,原因在于ConFCOS 可SFPN中的全局上下文塊獲得豐富的特征信息,并在CasHead中實現(xiàn)細化的邊界框。
表1 ConFCOS與主流的單階段目標檢測方法的比較Table 1 ConFCOS vs.state-of-the-art one-stage detectors%
基于RetinaNet和FCOS,比較了不同的基于FPN的方法,以驗證SFPN的有效性。其中BiFPN表示BiFPNB0[15]。所有模型均使用ResNet-50作為主干網(wǎng)絡(luò)進行訓(xùn)練。表2總結(jié)了這些目標檢測方法的性能,從中可以觀察到:(1)SFPN 通常優(yōu)于現(xiàn)有的基于FPN 的方法,因為SFPN可以融合具有不同感受域的空間和通道信息的特征,以提高特征表示能力。特別是在跳躍連接[15]中增加了DCM 模塊,它利用不同感受野的空洞卷積來捕獲到更加豐富的全局特征信息。而且在上采樣過程中使用了GCB模塊替代1×1卷積,它將所有位置的特征聚合在一起,形成一個全局上下文特征,以便對長距離依賴關(guān)系進行有效建模。(2)SFPN 在不同的對象檢測器(如RetinaNet 和FCOS)上優(yōu)于現(xiàn)有的基于FPN 的方法,這表明SFPN 具有泛化能力,能夠融合從主干網(wǎng)絡(luò)中提取的更豐富的語義信息。(3)對于小目標的檢測,SFPN 的性能有了明顯的提高。這是因為在SFPN中引入了全局上下文塊,可以增強特征表示,減少特征融合中信息的衰減。(4)對于大目標的檢測,SFPN 的性能優(yōu)于基于FPN的方法。因為引入了空洞卷積模塊DCM[28],它使用了不同的感受野空洞卷積核,其中采樣率rate={1,3,5}。當以不同采樣率的3×3卷積核應(yīng)用在特征映射上時,當采樣率為1 時其實就是普通的3×3 卷積,當采樣率為3和5 時,使用了采樣率大的卷積核具有較大的感受野,可以捕獲到全局上文信息,這對提取圖片中的特征信息非常有效。(5)在AP50上的性能不如CE-FPN,可能是因為CE-FPN在更好地利用高級語義特征。
表2 與主流的FPN方法的比較Table 2 Comparison with popular FPN-based methods %
在表3 中,比較了各種多個目標檢測方法來驗證CasHead 的有效性。所有模型均使用ResNet-101 和FPN進行訓(xùn)練。從中可以看出CasHead優(yōu)于FCOS的單次檢測方法,原因在于CasHead可以獲得高質(zhì)量的邊界框,并能有效地學(xué)習合理的邊界框分布。FCOS 忽視了不同級聯(lián)階段中的特征一致性,因為它是通過全卷積的方式從原始位置上提取特征。CasHead 采用級聯(lián)檢測的方法來提高檢測器的性能,通過細化邊界框可以得到高質(zhì)量的邊界框。在訓(xùn)練過程中以級聯(lián)的方式,逐步提高后續(xù)階段IoU的閾值,有助于解決不一致的問題。
表3 CasHead性能評估Table 3 Evaluating performance of CasHead %
表4比較了COCO數(shù)據(jù)集上第二階段設(shè)置不同IoU閾值下的檢測性能。從表中可以看出,簡單地添加一個具有相同IoU 設(shè)置的新階段不會提高檢測精度。對于IoU閾值為0.5的ConFCOS,AP保持不變。原因主要在于抽樣方法沒有變。當閾值在第二階段增加到0.6 時,觀察到AP從43.2%提升到44.6%。另外,在第二階段嘗試更高的IoU 閾值0.7,但AP 略有下降??赡苁荌oU 閾值越高,訓(xùn)練樣本的質(zhì)量越高,而數(shù)量越少。
表4 不同IoU的檢測性能Table 4 Detection performances of different IoU thresholds
通過表1和表4可以觀察到,使用SFPN可使FCOS的mAP 提升1.7 個百分點,使用CasHead 使FCOS 的mAP提升1.4個百分點,但同時使用SFPN和CasHead的ConFCOS比FCOS只提升了1.6個百分點,這可能是因為SFPN 的性能主要貢獻是能提取豐富的全局特征信息,而這對于CasHead中提高檢測的邊界框質(zhì)量作用有限。
評估了目標檢測方法的召回率來驗證損失函數(shù),對RetinaNet、FCOS 和ConFCOS 召回率曲線進行比較,圖4 顯示了在IOU 閾值分別為0.50、0.75 和0.90 的召回率曲線,從中可以觀察到:(1)ConFCOS 的性能優(yōu)于基于錨點的RetinaNet 和無錨點FCOS,這是因為CasHead 可以通過細化邊界框來實現(xiàn)高質(zhì)量的邊界框。(2)值得注意的是,通過更嚴格的IoU閾值,ConFCOS比RetinaNet和FCOS有更大的改進,這表明ConFCOS有更好的邊界框回歸,可以更加準確地檢測對象。原因是ConFCOS利用新的損失函數(shù)來進行訓(xùn)練。
圖4 RetinaNet、FCOS和ConFCOS召回率曲線Fig.4 Precision of recall curves on RetinaNet,F(xiàn)COS and ConFCOS
在表5 中,對ConFCOS 中的懲罰項k值進行了評估,訓(xùn)練時間在RTX Ti 2080 GPU上采集,主干網(wǎng)絡(luò)采用ResNet-101。從表中可以觀察到:(1)隨著懲罰項值的降低,訓(xùn)練時使用的邊界框數(shù)量越少,訓(xùn)練速度會越來越快。(2)當k=0.7 時性能最好,表明剔除一些冗余的邊界框后性能獲得提升,速度也有所提高。
表5 k 值性能評估Table 3 Evaluating performance of k
圖5展示了SFPN運行過程中的C5~P5的可視化過程,從中可以看出,經(jīng)過SFPN后取得的特征信息更加豐富,因為在其中具有不同感受野的擴展卷積模塊,而且它與當前層的特征與3×3卷積特征、上一層的下采樣特征進行了特征融合。
圖5 SFPN中圖例展示Fig.5 Visualization of SFPN
本文基于無錨點的單階段檢測算法FCOS 提出了一致性優(yōu)化的全卷積單階段目標檢測算法(ConFCOS),單階段目標檢測算法可以使用三個部分來實現(xiàn),即主干網(wǎng)絡(luò)、頸部網(wǎng)絡(luò)和檢測頭。針對頸部網(wǎng)絡(luò),設(shè)計了一個增強的特征金字塔網(wǎng)絡(luò)(SFPN),它在特征圖上融合不同感受野的空間和通道信息。針對檢測頭,構(gòu)造了一個級聯(lián)檢測頭(CasHead)來檢測目標,采用對檢測中的邊界框進行細化來提高分類和回歸的置信度。此外,針對提出的模型ConFCOS 的損失函數(shù)進行了優(yōu)化,能獲取到高召回率,加速模型訓(xùn)練和提高模型性能。在基準模型和數(shù)據(jù)集上進行的綜合實驗結(jié)果表明,ConFCOS 優(yōu)于最先進的方法。