国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合比例先驗(yàn)和損失感知的目標(biāo)檢測(cè)模型的正負(fù)樣本分配算法

2023-10-17 15:08:31莊旭君左華紅韓屏
計(jì)算機(jī)應(yīng)用研究 2023年10期
關(guān)鍵詞:自適應(yīng)目標(biāo)檢測(cè)

莊旭君 左華紅 韓屏

摘 要:針對(duì)目標(biāo)檢測(cè)模型在訓(xùn)練過程中正負(fù)樣本分配時(shí)沒有考慮真實(shí)框的長寬比、對(duì)物體不同分布的適應(yīng)能力差等不足,提出了比例先驗(yàn)和損失感知的分配算法RLA。RLA不改變?cè)袡z測(cè)模型的結(jié)構(gòu),首先根據(jù)真實(shí)框的長寬比選擇等比例的中心區(qū)域,然后計(jì)算錨點(diǎn)綜合損失,考慮真實(shí)框內(nèi)物體的實(shí)際分布,最后通過動(dòng)態(tài)損失閾值的方式區(qū)分正負(fù)樣本。該算法解決了基于IoU分配時(shí)適應(yīng)性差、難以選出最佳正樣本等問題,對(duì)偏心物體和長寬比懸殊物體的樣本分配更加合理。與已有的樣本分配算法對(duì)比,該算法在MS COCO數(shù)據(jù)集上的表現(xiàn)更優(yōu),比基線FCOS的AP提升1.66%;在模型結(jié)構(gòu)相同時(shí),比ATSS和PAA算法的AP分別提升了0.76%和0.24%,證明了RLA算法的有效性。

關(guān)鍵詞:目標(biāo)檢測(cè);正負(fù)樣本;長寬比;損失感知;自適應(yīng)

中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1001-3695(2023)10-048-3194-07

doi:10.19734/j.issn.1001-3695.2023.01.0013

Positive and negative samples allocation algorithm for object detection models incorporating ratio-prior and loss-aware

Zhuang Xujun1,Zuo Huahong2,Han Ping1

(1.School of Information Engineering,Wuhan University of Technology,Wuhan 430070,China;2.Wuhan Chuyan Information Technology Co.,Ltd.,Wuhan 430030,China)

Abstract:To address the shortcomings of the object detection model in the training process,such as the allocation of positive and negative samples without considering the aspect ratio of the ground-truth box and the poor adaptability to different distributions of objects,this paper proposed the ratio-prior and loss-aware assignment(RLA) algorithm.RLA didnt change the structure of the original detection model,firstly it selected an equal proportion of the central sampling area based on the aspect ratio of the ground-truth box,then calculated the integrated loss of the anchor points,considered the actual distribution of objects within the ground-truth box,and finally distinguished between positive and negative samples by means of a dynamic loss threshold.The algorithm solved the problems of poor adaptability and difficulty in selecting the best positive samples based on IoU allocation,and the sample allocation for eccentric objects and objects with different aspect ratios was more reasonable.Compared with existing sample allocation algorithms,the algorithm outperforms the MS COCO dataset by 1.66% over the AP of the baseline FCOS,and 0.76% and 0.24% over the AP of the ATSS algorithm and the PAA algorithm respectively when the model structure is the same,demonstrating the effectiveness of the RLA algorithm.

Key words:object detection;positive and negative samples;aspect ratio;loss-aware;self-adaptive

0 引言

訓(xùn)練過程中的正負(fù)樣本分配是影響目標(biāo)檢測(cè)模型性能的重要因素。傳統(tǒng)的正負(fù)樣本分配策略,使用手工設(shè)計(jì)的硬分配。有錨框檢測(cè)模型,如RetinaNet[1]為了兼顧不同形狀的真實(shí)框,根據(jù)經(jīng)驗(yàn)在每個(gè)錨點(diǎn)平鋪9個(gè)不同大小和比例的錨框,使用固定的IoU閾值把錨框分為正樣本、忽略樣本、負(fù)樣本。這種分配方式需要在每個(gè)錨點(diǎn)敷設(shè)多個(gè)錨框,計(jì)算量大,且沒有考慮真實(shí)框與錨框的實(shí)際相交內(nèi)容。隨著無錨框檢測(cè)模型的發(fā)展,出現(xiàn)了許多不依賴錨框的檢測(cè)模型,如FCOS[2]拋棄了平鋪錨框的方式,利用空間約束(即限制正樣本錨點(diǎn)在真實(shí)框內(nèi))和尺度約束(即給每個(gè)特征層設(shè)置一個(gè)固定的最大回歸范圍)分配正負(fù)樣本,但滿足這兩個(gè)約束的錨點(diǎn)可以分布在真實(shí)框的所有位置,包括各類噪聲和背景。FCOS的升級(jí)版本[3]通過中心采樣的方式,在原來的基礎(chǔ)上限制正樣本點(diǎn)要在以真實(shí)框?yàn)橹行模疫呴L為2×1.5×S(S為步長)的正方形區(qū)域內(nèi)。中心采樣緩解了之前大量背景噪聲被分為正樣本的問題,但是中心區(qū)域的錨點(diǎn)也不全是最佳的。另一方面,由于選擇的區(qū)域固定為正方形,對(duì)長寬比懸殊的真實(shí)框不適用。以上硬分配的方式都有一個(gè)共同點(diǎn),那就是沒有考慮對(duì)于不同尺寸、形狀或遮擋條件的物體,正負(fù)樣本的劃分條件可能并不一樣。

由于硬分配方式的不足,出現(xiàn)了許多自適應(yīng)分配正負(fù)樣本的算法。例如,F(xiàn)reeAnchor[4]基于分類損失和回歸損失,將訓(xùn)練過程定義為最大似然估計(jì)的過程,將手工設(shè)定錨框與真實(shí)框匹配改為自由匹配,但當(dāng)有許多高質(zhì)量的錨框時(shí),這種方式不能很好地為每一個(gè)真實(shí)框匹配到合適的錨框。ATSS[5]在每個(gè)特征層選取k個(gè)L2距離最小的錨點(diǎn),這些錨點(diǎn)各自對(duì)應(yīng)一個(gè)8×S的錨框,計(jì)算這些錨框與真實(shí)框的IoU及IoU的均值與標(biāo)準(zhǔn)差,以均值與標(biāo)準(zhǔn)差之和作為動(dòng)態(tài)的IoU閾值,實(shí)現(xiàn)自適應(yīng)分配樣本。但由于錨框是不變的,對(duì)于同一張圖片的同一個(gè)真實(shí)框,這個(gè)閾值在訓(xùn)練過程中是不變的,依賴預(yù)先定義的錨框和真實(shí)框之間的IoU,既不考慮相交區(qū)域的實(shí)際內(nèi)容,也不考慮模型的學(xué)習(xí)狀態(tài)。此外,由于使用L2距離作為候選正樣本,對(duì)于一些長寬比懸殊的真實(shí)框,初步篩選得到錨點(diǎn)也不夠合理。文獻(xiàn)[6]中提出了錨框評(píng)分方案,由L2距離計(jì)算中心權(quán)重,使用中心權(quán)重作為定位分?jǐn)?shù),將錨框評(píng)分定義為定位得分與分類得分的乘積,并使用高斯模型模擬錨框評(píng)分的分布,根據(jù)最大似然估計(jì)計(jì)算高斯分布的均值和標(biāo)準(zhǔn)差,將兩者之和作為動(dòng)態(tài)的IoU閾值。然而在計(jì)算了錨框評(píng)分后,仍然以IoU閾值作為分離正負(fù)樣本的依據(jù),而IoU并不是代表錨框質(zhì)量的最佳指標(biāo)。文獻(xiàn)[7]中提出了自適應(yīng)標(biāo)簽分配,候選正樣本限制在以真實(shí)框中心為圓心、半徑為r的圓形范圍內(nèi),計(jì)算每個(gè)錨點(diǎn)預(yù)測(cè)框與真實(shí)框的IoU,使用IoU序列差分譜得到極大峰值,由極大峰值所在的位置確定q;然后計(jì)算所有錨點(diǎn)的聯(lián)合損失,并計(jì)算損失小的前q個(gè)預(yù)測(cè)框IoU的和s,作為正樣本數(shù)量,但候選樣本均位于圓形區(qū)域內(nèi),對(duì)長寬懸殊的物體并不是最佳的,而且需要計(jì)算所有錨點(diǎn)的聯(lián)合損失和IoU,計(jì)算量大。為了實(shí)現(xiàn)真正的動(dòng)態(tài)分配,PAA[8]首先將錨框與真實(shí)框的IoU大于0.1作為第一步的篩選,然后引入錨框分?jǐn)?shù)(由錨框的分類損失和回歸損失計(jì)算)評(píng)估錨框質(zhì)量,每層選擇前k個(gè)損失最小的錨框作為候選正樣本,再使用高斯混合模型(GMM)對(duì)這些候選正樣本進(jìn)行聚類,得到最終的正樣本。這種方式在利用IoU初步篩選錨框時(shí)沒有利用真實(shí)框的形狀,選擇更能代表長寬比懸殊物體的錨點(diǎn),而且使用的GMM模型需要不斷地迭代,計(jì)算量大且延長了訓(xùn)練時(shí)間。

綜上所述,現(xiàn)有的正負(fù)樣本分配算法存在的不足包括:

a)沒有利用真實(shí)框的長寬比。對(duì)于長寬比懸殊的物體,在選擇候選樣本時(shí)依然采用正方形區(qū)域作為中心區(qū)域,沒有考慮改變其形狀,例如根據(jù)真實(shí)框的長寬比調(diào)整中心區(qū)域。

b)沒有考慮錨框與真實(shí)框的實(shí)際相交內(nèi)容。如果一個(gè)錨框與真實(shí)框的IoU很大,并不代表這個(gè)錨框可以得到與真實(shí)框的IoU也很大的預(yù)測(cè)框,因?yàn)殄^框與真實(shí)框相交的內(nèi)容可能都是一些嘈雜的背景,模型難以通過這些背景得到準(zhǔn)確的預(yù)測(cè)值,即忽略了錨框與真實(shí)框的IoU并不等于預(yù)測(cè)框與真實(shí)框的IoU。

c)為了確定正負(fù)樣本,使用了復(fù)雜的模型,以時(shí)間和硬件成本來換取精度的提升,增加了訓(xùn)練的難度。

針對(duì)現(xiàn)有的正負(fù)樣本分配算法中存在的上述問題,本文提出了一種新的正負(fù)樣本分配策略——比例先驗(yàn)和損失感知的分配算法RLA(ratio-prior and loss-aware assignment)。該算法與現(xiàn)有正負(fù)樣本分配算法相比主要有三個(gè)改進(jìn),分別是等比例中心先驗(yàn)、錨點(diǎn)綜合損失、動(dòng)態(tài)損失閾值。在第一步篩選中使用了新的中心先驗(yàn)——等比例中心先驗(yàn),充分利用真實(shí)框的長寬比,長寬比不同的物體有不同的中心區(qū)域,選擇更能代表物體特征的錨點(diǎn);在第二步篩選中不再使用傳統(tǒng)的IoU作為判斷錨點(diǎn)質(zhì)量的依據(jù),而是使用動(dòng)態(tài)變化的錨點(diǎn)綜合損失,該綜合損失比IoU更能代表錨點(diǎn)的質(zhì)量,在進(jìn)行正負(fù)樣本分配時(shí)充分考慮真實(shí)框內(nèi)物體實(shí)際的分布情況;在第三步篩選中為了避免高昂的計(jì)算成本,使用動(dòng)態(tài)損失閾值,以更簡單的方式,動(dòng)態(tài)地篩選出損失更小的錨點(diǎn)作為正樣本。

1 RLA算法

本章將介紹RLA算法中的等比例中心先驗(yàn)、錨點(diǎn)綜合損失、動(dòng)態(tài)損失閾值,并在算法1中給出了實(shí)現(xiàn)過程。

1.1 等比例中心先驗(yàn)

FCOS[3]僅從真實(shí)框中面積有限的中心區(qū)域選擇錨點(diǎn),稱為中心先驗(yàn)。ATSS[5]根據(jù)L2距離選擇候選正樣本,實(shí)際上也利用了中心先驗(yàn)。在真實(shí)框外的錨點(diǎn)是較差的錨點(diǎn),如果這些錨點(diǎn)被分配為正樣本錨點(diǎn),將由真實(shí)框外部的特征進(jìn)行預(yù)測(cè),這不利于訓(xùn)練,應(yīng)該排除。FCOS和ATSS以及本文提出的RLA均保證了正樣本錨點(diǎn)在真實(shí)框內(nèi)。理論上,真實(shí)框內(nèi)的所有錨點(diǎn)都有可能成為正樣本。但是大部分情況下,尤其是訓(xùn)練初期,物體中心區(qū)域的錨點(diǎn)更加利于模型的訓(xùn)練,這導(dǎo)致選擇中心區(qū)域需盡量合理。例如FCOS僅選取中心區(qū)域(邊長為2×1.5×S的正方形)內(nèi)的錨點(diǎn)作為正樣本,就會(huì)導(dǎo)致模型過于關(guān)注中心的錨點(diǎn);ATSS以L2距離在每個(gè)特征層選取k個(gè)候選樣本,也只能選擇出更加聚集在真實(shí)框中心區(qū)域的樣本。對(duì)一些不完全在中心的物體,這兩種方式都難以分配到最佳的錨點(diǎn)。而如果僅僅擴(kuò)大中心區(qū)域,會(huì)引入許多包含大量噪聲的錨點(diǎn),在一定程度上影響檢測(cè)模型的性能。此外,F(xiàn)COS和ATSS選擇候選樣本時(shí)完全沒有考慮真實(shí)框形狀的影響,F(xiàn)COS的中心區(qū)域?yàn)檎叫?,ATSS以L2距離作為選擇依據(jù),中心區(qū)域近似于以真實(shí)框中心為圓心的圓。對(duì)于一些長寬比懸殊的真實(shí)框,在這種形狀的中心區(qū)域內(nèi)選擇候選正樣本并不合適。

為了解決這個(gè)問題,本文提出了等比例中心先驗(yàn)。在傳統(tǒng)的中心先驗(yàn)中,所有真實(shí)框的中心區(qū)域是一個(gè)近似于正方形或圓形的區(qū)域,這就導(dǎo)致長寬比懸殊物體的中心區(qū)域與物體實(shí)際分布相差較大,難以從中心區(qū)域中得到合適的錨點(diǎn)。與傳統(tǒng)的中心先驗(yàn)不同,等比例中心先驗(yàn)依據(jù)每一個(gè)真實(shí)框的長寬比確定相應(yīng)長寬比的中心區(qū)域。對(duì)于長寬相近的物體,使用傳統(tǒng)的中心先驗(yàn)和等比例中心先驗(yàn)得到的中心區(qū)域相差不大;而對(duì)于長寬比懸殊物體,由于中心區(qū)域的長寬比與真實(shí)框的長寬比一致,所以中心區(qū)域中包含了大部分可以代表物體特征的錨點(diǎn),這些錨點(diǎn)將參與到錨點(diǎn)綜合損失的計(jì)算中。

假設(shè)一張圖片中的所有真實(shí)框?yàn)榧螱,g是其中一個(gè)真實(shí)框,即g∈G。g的長和寬分別為H和W,中心坐標(biāo)為(x,y),特征層到原圖的步長為S,那么可以確定真實(shí)框中心到中心區(qū)域的左邊界和上邊界的兩個(gè)距離分別如式(1)(2)所示。

其中:r為超參數(shù);R=min(H,W)。由這兩個(gè)距離可以確定中心區(qū)域的四個(gè)頂點(diǎn)坐標(biāo)分別為(x-Xs,y-Ys),(x+Xs,y-Ys),(x-Xs,y+Ys),(x+Xs,y+Ys)。通過等比例處理,每個(gè)真實(shí)框的中心區(qū)域的短邊都為2×r×S,中心區(qū)域保持與真實(shí)框相等的長寬比。

為了保證中心區(qū)域能夠盡可能地覆蓋所有適合作為正樣本的錨點(diǎn),本文將中心區(qū)域的超參數(shù)設(shè)置為r=2.5,在FCOS的中心采樣中,這個(gè)參數(shù)僅為r=1.5。在這種設(shè)置下,F(xiàn)COS的中心區(qū)域大小為(2×r×S)2=9×S2,而RLA的中心區(qū)域最短邊為2×r×S=5S,所以其面積最小也為25×S2。通過加大中心區(qū)域的面積,絕大部分可能成為正樣本的錨點(diǎn)都在中心區(qū)域內(nèi)。此外,由于中心區(qū)域與真實(shí)框的長寬比相同,對(duì)于一些長寬比懸殊的物體,例如公交車、長頸鹿、網(wǎng)球拍、牙刷等,也不會(huì)錯(cuò)過最佳的正樣本錨點(diǎn)。通過等比例中心先驗(yàn),把潛在的正樣本錨點(diǎn)盡可能選擇出來,稱為第一輪候選正樣本C1。但是這也帶來了新的問題,那就是如何從這個(gè)中心區(qū)域的眾多錨點(diǎn)中篩選出高質(zhì)量錨點(diǎn)。因此,在下一節(jié)中,本文提出了錨點(diǎn)綜合損失,用于評(píng)估錨點(diǎn)的質(zhì)量。

1.2 錨點(diǎn)綜合損失

使用固定的IoU閾值或其他固定的超參數(shù)作為分配的依據(jù),往往無法給真實(shí)框分配到最合適的錨點(diǎn)。例如,RetinaNet[1]使用固定的IoU閾值,認(rèn)為IoU大的就是正樣本錨框(在有錨框檢測(cè)模型中,錨框的中心就是錨點(diǎn)),不考慮錨框與真實(shí)框相交區(qū)域的實(shí)際情況。如果相交區(qū)域幾乎是背景,將導(dǎo)致很難由這個(gè)錨框預(yù)測(cè)出物體正確的類別和位置。如圖1所示,綠色框?yàn)檎鎸?shí)框,藍(lán)色框?yàn)槠渲幸粋€(gè)錨框(僅畫出長寬比為1:1的錨框),錨框中心的藍(lán)點(diǎn)為錨點(diǎn)(參見電子版)。圖1(a)中的錨框?qū)?yīng)的錨點(diǎn)在真實(shí)框的中心區(qū)域內(nèi),而且錨框與真實(shí)框的IoU值也比較大,為0.6。這個(gè)IoU值比大部分錨框都要高,如果根據(jù)RetinaNet的正負(fù)樣本分配方式,這個(gè)錨框?qū)⒈环峙錇檎龢颖径M(jìn)行訓(xùn)練。然而,該錨框與真實(shí)框相交的區(qū)域大部分是背景,即使是錨框的中心區(qū)域也大部分都是物體以外的背景,所以模型難以從這幾乎是背景噪聲的內(nèi)容中學(xué)習(xí)到有用的信息。根據(jù)這個(gè)錨框得到的預(yù)測(cè)框,很難與真實(shí)框有較高的IoU,無法得到理想的預(yù)測(cè)結(jié)果。因此,盡管這個(gè)錨框與真實(shí)框的IoU高于大多數(shù)的錨框,但它并不是合適的正樣本。從這個(gè)例子中可以看出,錨框與真實(shí)框的IoU不能作為評(píng)估錨框或錨點(diǎn)質(zhì)量的唯一依據(jù)。

ATSS[5]在每個(gè)錨點(diǎn)僅平鋪一個(gè)正方形的錨框,仍使用IoU作為區(qū)分正負(fù)樣本的閾值,但該閾值是通過統(tǒng)計(jì)特性動(dòng)態(tài)得到的。盡管這種方式可以緩解固定IoU閾值帶來問題,但一方面,因?yàn)殄^框與真實(shí)框的IoU并不是評(píng)估錨點(diǎn)質(zhì)量的最佳指標(biāo),所以用IoU的均值和方差之和作為閾值也不是最佳的;另一方面,這個(gè)平鋪的錨框在訓(xùn)練過程中沒有任何變化,所以真實(shí)框和錨框的IoU不會(huì)變化,IoU閾值不會(huì)隨著訓(xùn)練過程改變,所以正樣本不會(huì)變化,模型仍然無法參與到正負(fù)樣本分配的過程。此外,RetinaNet和ATSS均未考慮真實(shí)框長寬比。如圖1(b)中的錨框與真實(shí)框有較大的IoU,但相交區(qū)域大多是背景,且真實(shí)框的長寬比懸殊,只平鋪一種尺寸的錨框難以滿足各類長寬比。

因此,基于IoU進(jìn)行樣本分配會(huì)導(dǎo)致適應(yīng)性差、難以選出最佳正樣本。為了樣本分配的合理性,錨點(diǎn)或錨框(為了簡單起見,以下統(tǒng)稱為錨點(diǎn)。FCOS中的錨點(diǎn)相當(dāng)于RetinaNet中錨框的中心,一個(gè)錨點(diǎn)和對(duì)應(yīng)的錨框都對(duì)應(yīng)特征圖上的同一個(gè)點(diǎn))需要一個(gè)更合適的評(píng)價(jià)指標(biāo),來界定錨點(diǎn)是正樣本或負(fù)樣本,并且這個(gè)指標(biāo)需要和模型相關(guān),以免出現(xiàn)分配過程中錨框與真實(shí)框的IoU很大,而模型預(yù)測(cè)結(jié)果不佳的情況。通過這個(gè)指標(biāo)找到的錨點(diǎn),不一定在真實(shí)框的中心附近,對(duì)應(yīng)的錨框與真實(shí)框的IoU也不一定很高,但卻能很好地代表真實(shí)框內(nèi)物體的特征,讓模型更好地學(xué)習(xí)。綜上,本文提出了錨點(diǎn)綜合損失,該損失滿足上述條件,如式(3)所示。

其中:LclsAnchor、LregAnchor、LdevAnchor分別為錨點(diǎn)預(yù)測(cè)結(jié)果的分類損失(classification loss)、回歸損失(regression loss)和中心偏離損失(deviation loss);λ1和λ2為超參數(shù),用于平衡各損失的權(quán)重,本文實(shí)驗(yàn)中取λ1=1.5,λ2=1。

錨點(diǎn)綜合損失同時(shí)考慮了錨點(diǎn)的分類質(zhì)量、回歸質(zhì)量以及在真實(shí)框內(nèi)的偏離程度。錨點(diǎn)的分類損失和回歸損失與PAA算法中的使用的錨框質(zhì)量評(píng)估分?jǐn)?shù)類似,考慮了分類和回歸質(zhì)量。對(duì)于適合作為正樣本的錨點(diǎn),其分類損失和回歸損失會(huì)較?。环粗?,其分類損失和回歸損失會(huì)較大。特別地,對(duì)于包含大量背景的錨點(diǎn),其分類損失和回歸損失將更大,因?yàn)槟P蛶缀醪豢赡芨鶕?jù)沒有線索的背景正確預(yù)測(cè)出物體的邊界框和對(duì)應(yīng)的類別。此外,由于C1所在的中心區(qū)域和步長S有關(guān),所以在比較高的特征層上,這個(gè)中心區(qū)域很大,導(dǎo)致在這些特征層上,一些中小物體內(nèi)的所有錨點(diǎn)都被選擇。因此,本文提出了中心偏離損失,計(jì)算C1中每個(gè)錨點(diǎn)的中心偏離損失,處于邊緣的錨點(diǎn)與處于真實(shí)框中心范圍的錨點(diǎn)有不同的中心偏離損失,但最終到底選擇哪些錨點(diǎn)作為正樣本,由錨點(diǎn)綜合損失來確定。綜合損失越小的錨點(diǎn),越能預(yù)測(cè)出正確的類別和邊界框。下面將介紹各損失的計(jì)算方式。

經(jīng)過上一步的等比例中心先驗(yàn)的篩選后,在不同的特征層上可以得到相應(yīng)的候選正樣本,每一層的候選正樣本共同組成了第一輪候選正樣本C1。假設(shè)其中一個(gè)錨點(diǎn)aj∈C1,其坐標(biāo)為(x,y)。aj在經(jīng)過模型正向傳播后得到預(yù)測(cè)值px,y=(pclsj,pregj),其中pclsj和pregj分別代表模型預(yù)測(cè)的分類向量和回歸框的坐標(biāo)向量。假設(shè)aj被分配給了真實(shí)框gi=(x(i)1,y(i)1,x(i)2,y(i)2,c(i)),其中(x(i)1,y(i)1)和(x(i)2,y(i)2)表示真實(shí)框左上角和右下角的頂點(diǎn)坐標(biāo),c(i)對(duì)應(yīng)真實(shí)框內(nèi)物體的類別。

錨點(diǎn)的分類損失使用Focal Loss[1]。由錨點(diǎn)aj正向傳播得到的向量pclsj是一個(gè)維度為類別數(shù)Nclass的向量,可以計(jì)算其分類損失如式(4)所示。

錨點(diǎn)的回歸損失使用GIoU損失[9]。由錨點(diǎn)aj正向傳播得到的預(yù)測(cè)框坐標(biāo)向量pregj是一個(gè)維度為4的向量,可以表示為pregj=(lj,tj,rj,bj),代表預(yù)測(cè)框相對(duì)于錨點(diǎn)aj的位置信息,4個(gè)分量的值分別代表錨點(diǎn)到預(yù)測(cè)框左、上、右、下邊界的距離??梢杂?jì)算其回歸損失如式(5)所示。

錨點(diǎn)的中心偏離損失由中心偏度計(jì)算。假設(shè)錨點(diǎn)aj到真實(shí)框gi的左、上、右、下邊界的距離分別為(l,t,r,b),由于第一輪篩選保證了錨點(diǎn)aj在真實(shí)框gi內(nèi),所以這四個(gè)距離均為正數(shù)。根據(jù)這四個(gè)距離,本文定義了中心偏離度dev,如式(6)所示。左右距離差值|l-r|的絕對(duì)值越小,說明這個(gè)錨點(diǎn)越處于真實(shí)框水平方向的中心,上下距離的差值也同理。此外,考慮到真實(shí)框的長寬不同,將這個(gè)差值的絕對(duì)值除以真實(shí)框相應(yīng)的邊長,歸一化到[0,1]。

本文提出的中心偏離損失如式(7)所示,中心偏離度在閾值內(nèi)的錨點(diǎn),中心偏離損失設(shè)置為0,即認(rèn)為這個(gè)錨點(diǎn)偏離程度在可接受的范圍內(nèi);對(duì)中心偏離度大于所設(shè)閾值的錨點(diǎn)計(jì)算中心偏離損失,具體數(shù)值由中心偏離度計(jì)算。

以上三個(gè)損失共同組成了錨點(diǎn)綜合損失,該損失考慮了框內(nèi)物體的實(shí)際分布以及真實(shí)框的長寬比,對(duì)于偏心物體和長寬比懸殊物體的樣本分配更加合理。

1.3 動(dòng)態(tài)損失閾值

有了候選錨點(diǎn)的綜合損失,需確定一個(gè)分界線來劃分C1中的正/負(fù)樣本。為了進(jìn)一步劃分正/負(fù)樣本,LLA[10]中直接使用固定的正樣本數(shù)量,不考慮錨點(diǎn)損失的具體數(shù)值,只選擇損失小的k個(gè)錨點(diǎn)作為正樣本。這種方式雖然不需要額外的計(jì)算,但引入了超參數(shù),無法利用損失的具體數(shù)值判斷樣本數(shù)量。而且不同大小和尺寸的物體,所需要的正樣本數(shù)量不一定是相同的。PAA[8]中使用了復(fù)雜的高斯混合模型(GMM),根據(jù)錨框分?jǐn)?shù)(與錨點(diǎn)損失類似)的數(shù)值對(duì)候選正樣本進(jìn)行聚類,分為正/負(fù)樣本兩個(gè)類別。PAA雖然不會(huì)影響預(yù)測(cè)過程,但是大大降低了模型的訓(xùn)練速度,對(duì)于每一個(gè)真實(shí)框,都需要重新迭代一次,并且這個(gè)迭代需要在CPU上進(jìn)行。

為了解決上述問題,更好地利用錨點(diǎn)綜合損失動(dòng)態(tài)劃分正負(fù)樣本,而不引入額外的計(jì)算成本,本文提出了更為簡單且有效的區(qū)分方式——?jiǎng)討B(tài)損失閾值。該方式既能在訓(xùn)練過程中動(dòng)態(tài)確定合適的正樣本數(shù)量,又能避免PAA的高訓(xùn)練成本,使模型在不增加訓(xùn)練時(shí)間的前提下達(dá)到了相似甚至更優(yōu)的性能。計(jì)算了C1的錨點(diǎn)綜合損失后,使用動(dòng)態(tài)損失閾值的過程如下:

a)每個(gè)特征層選擇錨點(diǎn)綜合損失更小的k個(gè)錨點(diǎn),得到第二輪候選正樣本C2。

b)在C2中選擇m個(gè)損失小的錨點(diǎn)作為第三輪候選正樣本C3,計(jì)算這m個(gè)候選正樣本錨點(diǎn)綜合損失的均值tg。

c)將C3中錨點(diǎn)綜合損失低于tg的錨點(diǎn)作為正樣本AP,其余為負(fù)樣本AN。

由于RLA算法在第一輪篩選中并沒有關(guān)注哪一層特征層更加適合預(yù)測(cè)當(dāng)前的真實(shí)框,所以C1可能來自所有的特征層,而有的特征層并不適合預(yù)測(cè)當(dāng)前尺度的真實(shí)框。為了找到合適的正樣本,RLA先在每個(gè)特征層都選擇k個(gè)錨點(diǎn),組成第二輪候選正樣本C2。但有一些候選錨點(diǎn)所在的特征層不適合對(duì)當(dāng)前真實(shí)框進(jìn)行預(yù)測(cè)(例如真實(shí)框較大時(shí),最低層的特征層上的錨點(diǎn)不適合作為其候選錨點(diǎn)),這些較差的候選錨點(diǎn)的損失較大,不適合作為正樣本,沒有必要繼續(xù)保留。但PAA將這些較差的錨點(diǎn)也保留了下來,并進(jìn)行聚類。由于這些較差的候選錨點(diǎn)綜合損失較大,通過聚類以后,也會(huì)被認(rèn)為是負(fù)樣本。所以,C2全都參與聚類并不是最合適的辦法,因?yàn)橐恍┚C合損失較大、排名靠后的錨點(diǎn)幾乎不會(huì)是正樣本。此外,GMM迭代的成本很大,每一個(gè)真實(shí)框都要進(jìn)行同樣的過程,而一張圖片往往不止一個(gè)真實(shí)框,這就導(dǎo)致訓(xùn)練時(shí)間被大大延長。因此,本文提出的動(dòng)態(tài)損失閾值對(duì)C2做進(jìn)一步篩選再進(jìn)行劃分。首先,在C2中選擇前m個(gè)損失小的錨點(diǎn),去除掉錨點(diǎn)綜合損失較大的錨點(diǎn),得到第三輪候選正樣本C3。然后,由于C3中已經(jīng)沒有不適合預(yù)測(cè)當(dāng)前真實(shí)框的錨點(diǎn)(這些錨點(diǎn)通常分布在與真實(shí)框尺度相差很大的特征層上),基本剩下了最好的和次好的錨點(diǎn),這些錨點(diǎn)的綜合損失都較小,只需要經(jīng)過簡單的均值計(jì)算,就可以區(qū)分出最合適的錨點(diǎn)和次優(yōu)的錨點(diǎn),將最合適的錨點(diǎn)作為正樣本,進(jìn)而確定正樣本的數(shù)量。由于在訓(xùn)練過程中錨點(diǎn)的損失是由模型預(yù)測(cè)結(jié)果決定的,錨點(diǎn)綜合損失隨之變化,所以損失閾值也是動(dòng)態(tài)的。本文實(shí)驗(yàn)部分證明,與PAA算法相比,RLA算法減少了約27%的訓(xùn)練時(shí)間,并實(shí)現(xiàn)了更好的樣本分配結(jié)果,達(dá)到了和PAA相似甚至更優(yōu)的性能。

1.4 RLA算法的實(shí)現(xiàn)

如算法1所示,描述了RLA進(jìn)行正負(fù)樣本分配的過程,實(shí)現(xiàn)過程如圖2所示。為了說明不同特征層的分配情況,選擇其中三個(gè)特征層F3、F4和F5并畫出這些特征層分配結(jié)果在原圖上的位置。錨點(diǎn)首先滿足在真實(shí)框內(nèi),其次滿足在與真實(shí)框長寬比相同的中心區(qū)域內(nèi),同時(shí)滿足這兩個(gè)條件的錨點(diǎn)作為第一輪候選正樣本C1,如圖2(a)所示。然后對(duì)C1計(jì)算錨點(diǎn)綜合損失,在每層選取k個(gè)損失小的錨點(diǎn)作為第二輪候選正樣本C2,如圖2(b)所示。最后,在C2中選擇m(k

2 實(shí)驗(yàn)結(jié)果及分析

2.1 實(shí)驗(yàn)細(xì)節(jié)與設(shè)置

2.1.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本文的所有實(shí)驗(yàn)都是在具有挑戰(zhàn)性的MS COCO[11]數(shù)據(jù)集上進(jìn)行的,該數(shù)據(jù)集包括80個(gè)類別。按照ATSS和PAA中的設(shè)置,將trainval35k(大約118k張圖片)中的圖像作為訓(xùn)練集,minval(5k張圖片)中的圖像作為驗(yàn)證集。

普通單個(gè)類別的平均精準(zhǔn)度(average precision,AP)定義為對(duì)PR曲線上的precision值求均值。mAP(mean average precision)的定義為在某一個(gè)IoU閾值tIoU下,每個(gè)類別AP的均值,如式(8)所示。

其中:Nclass為類別數(shù)。本文實(shí)驗(yàn)使用的評(píng)價(jià)指標(biāo)與ATSS等算法保持一致,使用主流的COCO評(píng)價(jià)指標(biāo),主要包括AP、AP50、AP75、APS、APM、APL。其中AP為主要的評(píng)價(jià)指標(biāo),使用不同IoU閾值下mAP的均值作為主要評(píng)價(jià)指標(biāo),計(jì)算方式為在IoU從0.5到0.95的區(qū)間上每隔0.05計(jì)算一次mAP的值,取所有結(jié)果的平均值作為最終的結(jié)果。所以COCO評(píng)價(jià)指標(biāo)中的AP更為嚴(yán)格,不再是普通的單個(gè)類別的AP,本文實(shí)驗(yàn)數(shù)據(jù)中提到的AP均為此計(jì)算方式,這是COCO數(shù)據(jù)集中最常用的評(píng)價(jià)指標(biāo)。AP50和AP75分別表示IoU閾值為0.5和0.75時(shí)的mAP值,即AP50為mAP(tIoU=0.5),AP75為mAP(tIoU=0.75)。APS、APM和APL分別代表小、中、大目標(biāo)的AP。

2.1.2 實(shí)現(xiàn)細(xì)節(jié)

與ATSS類似,本文的RLA適用于有錨框和無錨框檢測(cè)模型,本文的實(shí)驗(yàn)將主要基于無錨框檢測(cè)器FCOS。為了保證實(shí)驗(yàn)的條件相同,本文實(shí)驗(yàn)中對(duì)ATSS和PAA進(jìn)行如下的修改:

a) 將ATSS中的中心度分支改為IoU分支,記為ATSS。

b) PAA使用1×訓(xùn)練周期而不是1.5×訓(xùn)練周期,并且在非極大值抑制(NMS)的后處理中不使用分?jǐn)?shù)投票機(jī)制。

即本文保證ATSS、PAA和RLA均使用IoU分支作為輔助分支,訓(xùn)練周期均為1×(即12個(gè)epoch),后處理中除了非極大值抑制外,不再使用任何額外手段提升性能。除了正負(fù)樣本分配策略,其余均保持一致。此外本文還與使用中心采樣算法的FCOS(其輔助分支為中心度分支)進(jìn)行比較。

實(shí)驗(yàn)環(huán)境的CPU為Intel Core i9-10900K CPU@3.70 GHz,顯卡為GeForce RTX 3090,內(nèi)存大小為64 GB,操作系統(tǒng)為Ubuntu18.04。模型使用ImageNet[12]預(yù)訓(xùn)練的ResNet-50[13]和5層特征金字塔結(jié)構(gòu)作為骨干網(wǎng)絡(luò)。在訓(xùn)練過程中,調(diào)整輸入圖像的大小,使其短邊為800,長邊小于或等于1 333。整個(gè)網(wǎng)絡(luò)使用隨機(jī)梯度下降SGD算法進(jìn)行訓(xùn)練,動(dòng)量為0.9,權(quán)重衰減為0.000 1。根據(jù)線性策略,調(diào)整批量大小為8,進(jìn)行180 000次迭代(即12個(gè)epoch)。初始學(xué)習(xí)率設(shè)為0.005,并在迭代到120 000和160 000時(shí)分別衰減為原來的十分之一。訓(xùn)練過程中未使用多尺度訓(xùn)練。

在測(cè)試時(shí),首先采用與訓(xùn)練階段相同的方法調(diào)整輸入圖像的大小,通過整個(gè)網(wǎng)絡(luò)正向傳播,得到預(yù)測(cè)的類別和對(duì)應(yīng)的邊界框。然后,分類向量中對(duì)應(yīng)類別的得分設(shè)置0.05的閾值,過濾包含大量的背景預(yù)測(cè)框,輸出每個(gè)特征層的前1 000個(gè)高置信度的檢測(cè)結(jié)果。最后,用非極大值抑制得到的前100個(gè)檢測(cè)結(jié)果,IoU閾值設(shè)為0.6。模型推理的設(shè)置與ATSS保持一致,未使用多尺度測(cè)試、分?jǐn)?shù)投票等提升模型性能的額外手段。

2.1.3 損失函數(shù)

模型訓(xùn)練的損失函數(shù)由三部分組成,如式(9)所示。

其中:Npos為正樣本的數(shù)量;z表示坐標(biāo)為(x,y)的錨點(diǎn);pz為該錨點(diǎn)的預(yù)測(cè)值;gz為該錨點(diǎn)對(duì)應(yīng)的真實(shí)標(biāo)注;Lcls為分類分支的損失,使用Focal Loss[1];Lreg為回歸分支的損失,使用GIoU Loss[9];Laux為輔助分支的損失,使用二進(jìn)制交叉熵?fù)p失。在ATSS中輔助分支為中心度分支,即Laux是預(yù)測(cè)的中心度與真實(shí)中心度的損失。而在本文中為IoU分支,即Laux是預(yù)測(cè)IoU與真實(shí)IoU的損失,與PAA中設(shè)置相同。該分支與ATSS和PAA的輔助分支均采樣二進(jìn)制交叉熵?fù)p失。α1和α2為損失平衡的權(quán)重,本文使用的權(quán)重與ATSS保持一致,即α1=2,α2=1。1{cz>0}為指示函數(shù),當(dāng)cz>0,即坐標(biāo)為(x,y)的錨點(diǎn)是正樣本時(shí)1{cz>0}=1,否則1{cz>0}=0。

2.2 RLA算法實(shí)驗(yàn)與分析

RLA算法主要由三個(gè)部分組成,分別是動(dòng)態(tài)損失閾值、包含中心偏離損失的錨點(diǎn)綜合損失、等比例中心先驗(yàn)。為了探究每個(gè)部分的作用,本文設(shè)計(jì)了實(shí)驗(yàn),如表1所示。實(shí)驗(yàn)中取k=9,m=20。未使用等比例中心先驗(yàn)時(shí),默認(rèn)使用普通的中心先驗(yàn),即限制正樣本錨點(diǎn)在正方形的中心區(qū)域內(nèi)。

2.2.1 動(dòng)態(tài)損失閾值

1) 動(dòng)態(tài)正樣本數(shù)量

為了說明動(dòng)態(tài)正樣本數(shù)量Npos的作用,本文設(shè)計(jì)了如下實(shí)驗(yàn):首先是固定正樣本數(shù)量,即按照錨點(diǎn)綜合損失從低到高,選出前Npos個(gè)損失小的候選錨點(diǎn)作為正樣本,這導(dǎo)致所有真實(shí)框的正樣本數(shù)量都是相同的,且在訓(xùn)練過程中保持?jǐn)?shù)量不變。PAA使用高斯混合模型,根據(jù)錨點(diǎn)損失通過聚類動(dòng)態(tài)地把錨點(diǎn)分為正負(fù)樣本,從而確定正樣本數(shù)量。PAA表示不使用高斯混合模型GMM確定正樣本數(shù)量,本文提出的做法為“PAA+動(dòng)態(tài)損失閾值”,表示使用動(dòng)態(tài)損失閾值的方式代替原始PAA中的GMM,來確定動(dòng)態(tài)的正樣本數(shù)量。實(shí)驗(yàn)結(jié)果如表2所示。

根據(jù)表2所示的實(shí)驗(yàn)結(jié)果可知,如果使用動(dòng)態(tài)的方式確定正樣本數(shù)量,不論是使用高斯混合模型,還是使用本文提出的動(dòng)態(tài)損失閾值的方式,都可以得到比固定正樣本數(shù)量更好的AP性能。此外,PAA和PAA+動(dòng)態(tài)損失閾值的方式在COCO驗(yàn)證集下的AP分別為40.22%和40.26%,使用PAA+動(dòng)態(tài)損失閾值的方式比PAA的AP相差0.04%。說明本文的動(dòng)態(tài)損失閾值以更簡單而高效的方式,達(dá)到了與GMM相似的作用。

2)正樣本數(shù)量變化

為了和同樣使用錨點(diǎn)損失的PAA進(jìn)行對(duì)比,圖3畫出了PAA和RLA訓(xùn)練過程中的正樣本數(shù)量。圖3中每次迭代正樣本數(shù)量的含義為一次迭代中所有圖片(圖片數(shù)量等于批量大?。┲兴姓鎸?shí)框的正樣本數(shù)量的平均值,共計(jì)180? 000次迭代。圖3(a)中PAA的正樣本是通過高斯混合模型迭代后得到的,數(shù)量動(dòng)態(tài)變化;從圖3(b)可以看出,RLA每次選擇的正樣本數(shù)量也不固定,而是根據(jù)錨點(diǎn)的綜合損失確定,正樣本數(shù)量主要集中在8~14,有更好的適應(yīng)性。RLA和PAA均能根據(jù)錨點(diǎn)損失動(dòng)態(tài)確定正樣本數(shù)量。

3)訓(xùn)練過程正樣本選取的變化

為了證明訓(xùn)練過程中選擇的正樣本會(huì)隨著模型的訓(xùn)練狀態(tài)而變化,實(shí)驗(yàn)中選取了訓(xùn)練過程中的三個(gè)階段,如圖4所示,分別是訓(xùn)練初期(Iteration=1 000)、訓(xùn)練中期(Iteration=90 000)、訓(xùn)練后期(Iteration=180 000)分配的正樣本。在訓(xùn)練初期如圖4(a)所示,樣本點(diǎn)主要集中在真實(shí)框的中心區(qū)域內(nèi),正樣本點(diǎn)并不是完全體現(xiàn)物體的分布,一些正樣本點(diǎn)分布在物體與背景的交界處,甚至有些樣本點(diǎn)基本都是背景。隨著訓(xùn)練的進(jìn)行,模型的識(shí)別能力提升,可以更加準(zhǔn)確地根據(jù)高質(zhì)量的錨點(diǎn)得到好的預(yù)測(cè)結(jié)果,在計(jì)算錨點(diǎn)綜合損失時(shí),錨點(diǎn)的損失值更能代表錨點(diǎn)的質(zhì)量好壞,從而進(jìn)一步為訓(xùn)練提供合適的正樣本。所以,到了訓(xùn)練中期,如圖4(b)所示,選擇的正樣本中包含大量噪聲的錨點(diǎn)變少,錨點(diǎn)的分布變得更加合理。到了訓(xùn)練后期,如圖4(c)所示,選擇的正樣本得到更好優(yōu)化,基本不會(huì)包含太多的背景噪聲。即使有的錨點(diǎn)在中心區(qū)域,但由于錨點(diǎn)包含大量的背景,也不會(huì)選擇這些錨點(diǎn),而是選擇更能代表物體特征的錨點(diǎn)作為正樣本,所以被選擇的錨點(diǎn)不一定都是剛好處于中心范圍內(nèi)的。

2.2.2 等比例中心先驗(yàn)

1) 等比例中心先驗(yàn)篩選后的候選正樣本

本文提出了等比例中心先驗(yàn),主要針對(duì)長寬比懸殊的物體。對(duì)于這些物體,在選擇第一輪候選正樣本時(shí)會(huì)根據(jù)其長寬相應(yīng)選擇候選的錨點(diǎn)。實(shí)驗(yàn)中選取了沒有考慮真實(shí)框長寬比的ATSS作為對(duì)比,ATSS使用L2距離作為選擇第一輪候選正樣本的依據(jù)。經(jīng)過第一輪篩選后得到的候選正樣本如圖5所示。對(duì)于一些長寬比懸殊的真實(shí)框,例如圖5(a)中的飛機(jī),ATSS選擇了到真實(shí)框中心點(diǎn)最近的k個(gè)錨點(diǎn)作為第一輪候選正樣本,所以這些候選正樣本都分布在一個(gè)較小的中心范圍內(nèi)。而本文提出的RLA使用等比例中心先驗(yàn),在第一輪分配中選擇了更多的候選樣本,如圖5(b)所示,目的是盡可能保留更能體現(xiàn)物體位置的錨點(diǎn),而不是只保留處于正方形或圓形中心區(qū)域的錨點(diǎn)。由于增加了候選樣本數(shù),所以第一輪候選正樣本中會(huì)有部分樣本包含大量的噪聲,這些樣本點(diǎn)將通過錨點(diǎn)綜合損失進(jìn)一步篩選。因此,等比例中心先驗(yàn)主要是為了盡可能保留下有意義的錨點(diǎn),對(duì)保留的背景將在下一輪進(jìn)行篩選。圖5(c)和(d)中的人物是長寬比懸殊的類別,如果使用ATSS中的方法,如圖5(c)所示,得到的候選樣本中包含有用信息的錨點(diǎn)并不多。而通過等比例中心先驗(yàn)的方式,如圖5(d)所示,幾乎所有能代表物體特征的錨點(diǎn)都保留下來了,只不過是其中有部分錨點(diǎn)包含大量背景,但高質(zhì)量的錨點(diǎn)也得到保留。背景錨點(diǎn)將通過計(jì)算錨點(diǎn)綜合損失和動(dòng)態(tài)損失閾值的方式做進(jìn)一步篩選,所以背景錨點(diǎn)并不會(huì)由于被分為正樣本而影響模型。

2) 各類別AP對(duì)比

為了更好地說明等比例中心先驗(yàn)對(duì)長寬比懸殊物體的作用,本文選擇了COCO數(shù)據(jù)集80個(gè)類別中的一些類別,如自行車、長頸鹿、滑雪板、網(wǎng)球拍等。ATSS、PAA和RLA在對(duì)以上指定類別進(jìn)行處理的AP表現(xiàn)如圖6所示。對(duì)于這些長寬比懸殊的類別,使用了等比例中心先驗(yàn)后,AP能提升約1%,甚至更高。這說明對(duì)于長寬比懸殊的類別,在選擇候選樣本的時(shí)候利用等比例中心先驗(yàn)改變中心區(qū)域,可以有效提升這些物體的識(shí)別度,提升總體的檢測(cè)性能。

2.2.3 整體性能

1) 分配的正樣本錨點(diǎn)

對(duì)于一些不完全在真實(shí)框中心的物體,如果使用ATSS的分配方式,如圖7(a)所示,得到的正樣本錨點(diǎn)幾乎都聚集在真實(shí)框的中心區(qū)域。中心區(qū)域有背景時(shí),處于背景的錨點(diǎn)也會(huì)被選擇,所以ATSS分配方式選擇的錨點(diǎn)不能很好地代表實(shí)際物體,自適應(yīng)性較差。PAA使用了錨點(diǎn)的分類損失和回歸損失,在一定程度上減緩了中心背景區(qū)域帶來的影響,如圖7(b)所示。本文提出的RLA算法,可以通過在訓(xùn)練過程中根據(jù)每個(gè)錨點(diǎn)預(yù)測(cè)的結(jié)果計(jì)算損失,得到最適合的錨點(diǎn)。如圖7(c)所示,選擇的正樣本錨點(diǎn)不都是處于中心區(qū)域的,而是與物體實(shí)際分布切合。對(duì)于處于中心區(qū)域但包含大量背景的錨點(diǎn),經(jīng)過篩選后不會(huì)成為正樣本。此外,由于使用了等比例中心先驗(yàn),以及中心偏離損失,與PAA相比,選擇的正樣本更符合真實(shí)物體的分布,包含的背景更少,并且分配方式更簡單,訓(xùn)練時(shí)間更短,后面的使用將說明訓(xùn)練時(shí)間的對(duì)比結(jié)果。

2) AP對(duì)比

如表3所示,比較了多種正負(fù)樣本分配算法。與使用了中心度分支的FCOS和ATSS相比,RLA提升的AP分別約為1.66%和1.27%。與模型結(jié)構(gòu)完全相同的ATSS相比,RLA提升了0.76%的AP,0.13%的AP50,0.89%的AP75,0.33%的APS,1.08%的APM,3.2%的APL。與PAA相比,提升了約0.24%的AP,且RLA實(shí)現(xiàn)樣本分配的過程更加簡單高效。以上實(shí)驗(yàn)結(jié)果,說明了訓(xùn)練過程中正負(fù)樣本分配對(duì)模型的重要性以及RLA的作用。

3) 訓(xùn)練時(shí)間對(duì)比

由于RLA算法只重新定義了正樣本和負(fù)樣本,沒有改變模型結(jié)構(gòu),不會(huì)導(dǎo)致模型的訓(xùn)練參數(shù)變多,造成額外開銷。實(shí)驗(yàn)結(jié)果記錄了同樣訓(xùn)練設(shè)置下,各種算法的訓(xùn)練時(shí)間,并定義了訓(xùn)練過程中平均每小時(shí)提升的AP值,記為hAP,如式(10)所示。

其中:T為訓(xùn)練時(shí)間,單位為小時(shí)(h);hAP越高說明單位時(shí)間內(nèi)能提升的AP越高,算法越高效。

實(shí)驗(yàn)結(jié)果如表4所示,PAA的hAP在所有算法中最低,說明PAA算法中的GMM非常影響訓(xùn)練時(shí)間。與PAA相比,RLA減少了約27%的訓(xùn)練時(shí)間,并實(shí)現(xiàn)了更好的樣本分配結(jié)果,比PAA的AP提升了0.24%。PAA由于需要在CPU上迭代高斯混合模型,導(dǎo)致訓(xùn)練時(shí)間大大增加。此外,RLA僅比其余算法的訓(xùn)練時(shí)間增加約3 h。與ATSS相比大約增加了11%的訓(xùn)練時(shí)間,但提升了0.76%的AP。RLA額外的訓(xùn)練時(shí)間主要是由于在使用錨點(diǎn)綜合損失時(shí)需要提前計(jì)算一輪錨點(diǎn)預(yù)測(cè)結(jié)果與真實(shí)值的損失,但該計(jì)算是在GPU上進(jìn)行的,并不會(huì)明顯減緩訓(xùn)練過程。

3 結(jié)束語

本文基于無錨框檢測(cè)器FCOS提出了新的正負(fù)樣本分配算法RLA,該算法解決了基于IoU分配正負(fù)樣本時(shí)適應(yīng)性差、難以選出最佳正樣本等問題,充分考慮了真實(shí)框內(nèi)物體實(shí)際的分布情況,且利用了真實(shí)框的長寬比,盡可能選擇更能代表物體特征的錨點(diǎn)作為候選正樣本,對(duì)偏心物體和長寬比懸殊物體的樣本分配更加合理。實(shí)驗(yàn)表明,該算法可以有效提高檢測(cè)模型在MS COCO驗(yàn)證集上的性能;對(duì)于MS COCO驗(yàn)證集中長寬懸殊的類別,該算法的提升更加明顯。本文提出的算法沒有改變網(wǎng)絡(luò)模型的結(jié)構(gòu),未增加參數(shù)量,僅增加了少量的訓(xùn)練時(shí)間就帶來明顯的精度提升,且在模型的測(cè)試過程中無須額外計(jì)算,不會(huì)影響檢測(cè)速度。在下一步的工作中,將對(duì)錨點(diǎn)綜合損失中的回歸損失做進(jìn)一步的研究,在計(jì)算回歸損失時(shí)考慮真實(shí)框與預(yù)測(cè)框的長寬比,進(jìn)一步提高性能。

參考文獻(xiàn):

[1]Lin T Y,Goyal P,Girshick R,et al.Focal loss for dense object detection[C]//Proc of IEEE International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2017:2999-3007.

[2]Tian Zhi,Shen Chunhua,Chen Hao,et al.FCOS:fully convolutional one-stage object detection[C]//Proc of IEEE/CVF International Conference on Computer Vision.Piscataway,NJ:IEEE Press,2019:9626-9635.

[3]Tian Zhi,Shen Chunhua,Chen Hao,et al.FCOS:a simple and strong anchor-free object detector[J].IEEE Trans on Pattern Analysis and Machine Intelligence,2022,44(4):1922-1933.

[4]Zhang Xiaosong,Wan Fang,Liu Chang,et al.FreeAnchor:learning to match anchors for visual object detection[C]//Proc of the 33rd International Conference on Neural Information Processing Systems.Red Hook,NY:Curran Associates Inc.,2019:147-155.

[5]Zhang Shifeng,Chi Cheng,Yao Yongqiang,et al.Bridging the gap between anchor-based and anchor-free detection via adaptive training sample selection[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2020:9756-9765.

[6]王璐璐,陳東方,王曉峰.一種基于錨框質(zhì)量分布的動(dòng)態(tài)標(biāo)簽分配策略[J].計(jì)算機(jī)工程,2023,49(4):85-91,100.(Wang Lulu,Chen Dongfang,Wang Xiaofeng.A dynamic label assignment strategy based on quality distribution of anchor[J].Computer Engineering,2023,49(4):85-91,100.)

[7]陳金令,劉鑫,李潔.基于自適應(yīng)標(biāo)簽分配的輕量化紅外行人檢測(cè)算法[J].中國科技論文,2022,17(11):1216-1222,1229.(Chen Jinling,Liu Xin,Li Jie.Lightweight infrared pedestrian detection algorithm based on self-adaptive label assignment[J].China Science Paper,2022,17(11):1216-1222,1229.

[8]Kim K,Lee H S.Probabilistic anchor assignment with IoU prediction for object detection[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2020:355-371.

[9]Rezatofighi H,Tsoi N,Gwak J,et al.Generalized intersection over union:a metric and a loss for bounding box regression[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2019:658-666.

[10]Ge Zheng,Wang Jianfeng,Huang Xin,et al.LLA:loss-aware label assignment for dense pedestrian detection[J].Neurocomputing,2021,462:272-281.

[11]Lin T Y,Maire M,Belongie S,et al.Microsoft COCO:common objects in context[C]//Proc of European Conference on Computer Vision.Berlin:Springer,2014:740-755.

[12]Deng Jia,Dong Wei,Socher R,et al.ImageNet:a large-scale hierarchical image database[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2009:248-255.

[13]He Kaiming,Zhang Xiangyu,Ren Shaoqing,et al.Deep residual lear-ning for image recognition[C]//Proc of IEEE Conference on Compu-ter Vision and Pattern Recognition.Piscataway,NJ:IEEE Press,2016:770-778.

收稿日期:2023-01-12;修回日期:2023-02-20基金項(xiàng)目:國家自然科學(xué)基金資助項(xiàng)目(51405360);中央高?;A(chǔ)研究基金資助項(xiàng)目(WUT:2018III069GX)

作者簡介:莊旭君(1998-),男,廣東惠州人,碩士研究生,主要研究方向?yàn)樯疃葘W(xué)習(xí)、目標(biāo)檢測(cè);左華紅(1975-),男,湖北荊州人,高級(jí)工程師,總經(jīng)理,主要研究方向?yàn)閳D像處理;韓屏(1980-),男(通信作者),河南安陽人,副教授,碩導(dǎo),博士,主要研究方向?yàn)樯疃葘W(xué)習(xí)、機(jī)器視覺(hanping@whut.edu.cn).

猜你喜歡
自適應(yīng)目標(biāo)檢測(cè)
視頻中目標(biāo)檢測(cè)算法研究
軟件(2016年4期)2017-01-20 09:38:03
行為識(shí)別中的人體運(yùn)動(dòng)目標(biāo)檢測(cè)方法
淺談網(wǎng)絡(luò)教育領(lǐng)域的自適應(yīng)推送系統(tǒng)
以數(shù)據(jù)為中心的分布式系統(tǒng)自適應(yīng)集成方法
自適應(yīng)的智能搬運(yùn)路徑規(guī)劃算法
科技視界(2016年26期)2016-12-17 15:53:57
Ka頻段衛(wèi)星通信自適應(yīng)抗雨衰控制系統(tǒng)設(shè)計(jì)
電子節(jié)氣門非線性控制策略
汽車科技(2016年5期)2016-11-14 08:03:52
多天線波束成形的MIMO-OFDM跨層自適應(yīng)資源分配
移動(dòng)機(jī)器人圖像目標(biāo)識(shí)別
基于背景建模法的運(yùn)動(dòng)目標(biāo)檢測(cè)
镇赉县| 石景山区| 嘉禾县| 边坝县| 临颍县| 浠水县| 岱山县| 山东| 西和县| 鹤庆县| 武隆县| 沙河市| 闽清县| 黄冈市| 嘉禾县| 卓尼县| 开鲁县| 黄浦区| 永春县| 南安市| 光泽县| 铁岭市| 黑龙江省| 修水县| 永春县| 新民市| 新昌县| 象山县| 财经| 祁阳县| 鹤岗市| 林周县| 睢宁县| 大悟县| 景宁| 保靖县| 久治县| 泽州县| 福清市| 滨海县| 廊坊市|