王興寶, 雷琴輝, 李 韜, 胡佳睿
(1.科大訊飛股份有限公司智能汽車事業(yè)部, 安徽 合肥 230088;2.武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室, 湖北 武漢 430071)
車內(nèi)遺留物品檢測是智能座艙系統(tǒng)的重要組成部分。如果能及時對車主遺留的貴重物品在車艙進(jìn)行提示或者警告,不僅能避免車主后續(xù)回來拿東西的麻煩,也能降低被破窗盜竊風(fēng)險,還可以有效提升車主的用車體驗(yàn),也是車廠賣車的一大亮點(diǎn)。
目標(biāo)檢測的任務(wù)是識別圖像中出現(xiàn)的物體的類別以及對應(yīng)物體的位置。物體是圖像中存在的物體對象,但是需要檢測哪些物體需要根據(jù)具體任務(wù)的需求來確定。例如智能座艙遺留物品定義為手機(jī)、錢包、pad、筆記本電腦和背包這5類,對應(yīng)的目標(biāo)檢測任務(wù)只需要檢測出該5類物品,如果檢出其他類型的物品,則被定義為虛警。
目標(biāo)檢測的位置信息一般分為兩種格式:極坐標(biāo)表示和中心點(diǎn)坐標(biāo)表示。
1) 極坐標(biāo)表示:(xmin,ymin,xmax,ymax),其中xmin,ymin代表目標(biāo)框坐標(biāo)的最小值,xmax,ymax代表目標(biāo)框坐標(biāo)的最大值。
2) 中心點(diǎn)坐標(biāo):(x_center,y_center,w,h),其中,x_center、y_center為目標(biāo)檢測框的中心點(diǎn)坐標(biāo),w、h為目標(biāo)檢測框的寬、高。
1.2.1 Two-Stage目標(biāo)檢測
Two-Stage目標(biāo)檢測是基于區(qū)域的目標(biāo)檢測算法,比較有代表性的算法有R-CNN[1]、SPP-Net[2]、Fast-R-CNN[3]等。該類方法首先需要得到候選區(qū)域,然后進(jìn)行分類與回歸的預(yù)測,具有較高的檢測準(zhǔn)確度,尤其對小目標(biāo)的檢測。但是由于需要事先獲得候選區(qū)域,其效率不如單階段目標(biāo)檢測。
1.2.2 One-Stage目標(biāo)檢測
One-Stage目標(biāo)檢測算法不需要首先獲得提議區(qū)域,直接產(chǎn)生物體的類別概率和位置信息,因此有著更快的檢測速度并且更容易部署。比較典型的算法如YOLO[4]、SSD[5]、YOLOv2[6]、YOLOv3[7]、Retina-Net[8]等。
首先將圖片的數(shù)據(jù)格式轉(zhuǎn)換成HSV格式,通過設(shè)定HSV域的閾值抽取圖片的紅分量,如圖1所示。
圖1 抽取紅分量
根據(jù)紅分量的比例可將整體數(shù)據(jù)集分成3個域,如圖2所示,分別為Normal(圖2a)、Gray(圖2b)、Red(圖2c)。
圖2 根據(jù)紅分量的比例可將整體數(shù)據(jù)集分成3個域
對采集回來的數(shù)據(jù)進(jìn)行分析,我們發(fā)現(xiàn)樣本的域內(nèi)域外數(shù)量分布很不均衡,如圖3所示。對于域內(nèi)樣本,如圖3a所示,包含pad的樣本十分稀少。對于域間樣本分布,發(fā)現(xiàn)Gray域的樣本占了多數(shù)。域間類別數(shù)量分布如圖3b所示。
圖3 樣本域內(nèi)域外類別數(shù)量分布情況
數(shù)據(jù)小目標(biāo)占比較多,其中phone全部為小目標(biāo),packsack中超過一半也為小目標(biāo),總體78%為小目標(biāo),如圖4所示。
圖4 小目標(biāo)數(shù)量分布
數(shù)據(jù)分布的特殊性需要結(jié)合特定的策略進(jìn)行優(yōu)化。下文中,將介紹算法設(shè)計以及針對數(shù)據(jù)分布的難點(diǎn)使用的優(yōu)化方案。
基線模型選擇anchor base架構(gòu),通過RPN[3]生成高品質(zhì)候選框,通過ROIPooling[3]提取固定大小的特征,最后使用Cascade級聯(lián)head逐步提高邊框的預(yù)測品質(zhì)。Cascade RCNN示意圖如圖5所示。
圖5 Cascade RCNN示意圖
在RPN階段,我們采用Global Context[9]策略,如圖6所示。通過加入全局范圍的pooling特征,幫助后續(xù)的分類和回歸。
圖6 全局語境方法
如圖7所示,CBNet[10]通過組合復(fù)用多個backbone的方式增強(qiáng)對backbone和fpn部分的特征提取,可有效提高檢測精度。本文使用Swin Transformer作為網(wǎng)絡(luò)主干。
圖7 CBNet結(jié)構(gòu)
如圖8所示,Swin Transformer[11]的設(shè)計非常巧妙,具有創(chuàng)新又緊扣CNN的優(yōu)點(diǎn),充分考慮的CNN的位移不變性,尺寸不變性,感受野與層次的關(guān)系,分階段降低分辨率增加通道數(shù)等特點(diǎn),相對于CNN結(jié)構(gòu)每個layer看到的區(qū)域更大,比CNN中的padding、pool等有著明顯的優(yōu)勢。
圖8 Swin Trainsformer
YoloX[12]網(wǎng)絡(luò),屬于Anchor Free架構(gòu),如圖9所示,使用darknet作為backbone,并采用PAPN特征金字塔增強(qiáng)對不同layer特征的提取。
圖9 YoloX網(wǎng)絡(luò)結(jié)構(gòu)
YoloX網(wǎng)絡(luò)的頭部采用decouple解耦設(shè)計,將分類任務(wù)、邊框回歸任務(wù)、前景檢測任務(wù)采用單獨(dú)分支進(jìn)行特征增強(qiáng),加速收斂的同時可有效提升精度。同時,YoloX采用SimOTA樣本分配策略,將單階段的候選框依據(jù)前景和分類loss進(jìn)行粗篩,再根據(jù)動態(tài)正樣本排序策略獲得高品質(zhì)的正樣本。圖10為SimOTA標(biāo)簽分配策略。
圖10 SimOTA標(biāo)簽分配策略
模型融合策略包括兩個部分:WBF和NMS。WBF[13](Weighted boxes fusion),該策略重點(diǎn)是融合,根據(jù)較為準(zhǔn)確的框來獲得更加準(zhǔn)確的框,分段的依據(jù)是框置信度在0.3以上。NMS[14]對框進(jìn)行篩選,去掉大量不準(zhǔn)確的框,獲得較為準(zhǔn)確的框。分段依據(jù)是框的置信度在0.3以下。模型融合策略如圖11所示。
圖11 模型融合策略
針對域內(nèi)和域間分布不均衡問題,我們使用軟均衡采樣策略來解決。
經(jīng)過軟均衡策略后,域間和域類樣本數(shù)量分布更加平衡,軟均衡采樣效果如圖12所示。
圖12 軟均衡采樣效果
為了優(yōu)化小目標(biāo)識別問題,我們采用馬賽克增強(qiáng)[15]和SoftNMS[16]策略。
如圖13所示,馬賽克數(shù)據(jù)增強(qiáng)將4張訓(xùn)練圖像按一定比例組合成1張,豐富了檢測數(shù)據(jù)集,增加了很多小目標(biāo),有效提升模型對小目標(biāo)的檢測能力。
圖13 馬賽克增強(qiáng)
Soft-NMS將重疊度大于閾值的其他檢測框不會直接刪除,采用一個函數(shù)來衰減這些檢測框的置信度,可以一定程度避免小目標(biāo)被刪除。其算法流程如下。
其中B是檢測框集合,S是檢測框?qū)?yīng)的得分,Nt為NMS閾值。
由于實(shí)車場景可以采集的數(shù)據(jù)比較少,這樣會導(dǎo)致模型過擬合。針對模型過擬合問題,在YoloX的訓(xùn)練過程中,我們依次嘗試了AutoAug V1、AutoAug V2、AutoAug V3,對比詳情如圖14所示。
圖14 AutoAug效果對比
可見,AutoAug V2在我們的任務(wù)中表現(xiàn)較好,達(dá)到了0.816的mAP。AutoAug V2參數(shù)配置如圖15所示。
圖15 AutoAug V2參數(shù)配置
除此之外,我們還采用gridmask[17]增廣策略強(qiáng)迫模型不擬合訓(xùn)練集。具體效果將在實(shí)驗(yàn)部分開展說明。
以實(shí)車采集的2500張圖片作為測試集,1000張圖片作為訓(xùn)練集。實(shí)驗(yàn)中除了模型融合方案,都使用非極大抑制算法作為后處理方案,其交并比為0.5。實(shí)驗(yàn)的評估指標(biāo)選用平均精度均值(mean average precision,mAP)。
實(shí)驗(yàn)所用的GPU型號為NVDIA Tesla V100,使用pytorch以及mmdetecion工具包構(gòu)建目標(biāo)檢測模型。
以Cascade RCNN作為基線方案,為了讓基線方案有效檢測出小目標(biāo),其設(shè)定的訓(xùn)練尺度比較大,分別為4096×800和4096×1408。在訓(xùn)練過程中,將batch_size設(shè)定為24,初始學(xué)習(xí)率為0.001,采取余弦退火的方式更新學(xué)習(xí)率,使用adamW作為優(yōu)化器。表1給出了不同模型和trick組合情況下的檢測效果對比。
表1 模型效果對比
可以看出,Cascade RCNN作為基線其在測試集的最優(yōu)mAP為0.745,接著加入軟均衡采樣策略以及樣本擴(kuò)充方法使mAP上升到0.76。在此基礎(chǔ)上使用TTA(Test-Time Augmentation,測試時數(shù)據(jù)增強(qiáng)),達(dá)到了0.78,接著應(yīng)用global context算法使效果進(jìn)一步提升達(dá)到0.79,和基線對比相對提升17.6%。可見,我們提出的軟均衡策略以及引入global text對檢測效果有著明顯的促進(jìn)作用。
對于單階段檢測器,通過結(jié)合CBNetV2和Swin Transformer,可以使模型效果直接達(dá)到0.8,在此基礎(chǔ)上,我們通過引入gridmask算法使效果進(jìn)一步提升,使mAP達(dá)到了0.815,和基線對比相對提升27.4%。
由于我們最終方案是集成學(xué)習(xí),因此還訓(xùn)練了YoloX,其訓(xùn)練尺度選擇1280,推理尺度分別為1024、1280、1408,并在模型推理環(huán)節(jié)使用測試時增強(qiáng)。將原始圖片進(jìn)行3個尺度的flip,分別進(jìn)行推理,再對多個結(jié)果進(jìn)行合并,最終得到最優(yōu)結(jié)果為0.81。接著我們通過在訓(xùn)練過程中引入AutoAug V2,使YoloX的檢測結(jié)果進(jìn)一步提升,達(dá)到0.816。
為了進(jìn)一步提升檢測效果以及模型魯棒性,使用模型融合策略對以上3種模型進(jìn)行融合,融合過程采用上文提及的WBF+NMS策略,最終達(dá)到最優(yōu)效果0.817,并且比單模型有著更強(qiáng)的魯棒性。
本文針對車載場景的遺留物品檢測任務(wù),進(jìn)行深入數(shù)據(jù)分析,根據(jù)車載場景圖像數(shù)據(jù)的難點(diǎn)提出了相應(yīng)的解決方案,有效解決了數(shù)據(jù)分布不均衡問題以及小目標(biāo)檢測的挑戰(zhàn)。
實(shí)際車內(nèi)貴重物品檢測場景中除了訓(xùn)練集中的手機(jī)、平板、筆記本電腦、錢包、背包5類外,往往存在手表、手環(huán)、項(xiàng)鏈、戒指等未知類別的樣本,這類樣本的檢測屬于FSD(Few Shot Objection) 或者ZSD(Zero Shot Objection)。端側(cè)推理中基于攝像頭可以獲取視頻流,可以基于連續(xù)幀的特征來增加遺落目標(biāo)的前景置信度,從而提高整體的檢測效果。