汽車智能座艙遺留物品檢測

2022-12-28 08:04:30王興寶雷琴輝胡佳睿

汽車電器 2022年11期

王興寶，雷琴輝，李韜，胡佳睿

（1.科大訊飛股份有限公司智能汽車事業(yè)部，安徽合肥 230088；2.武漢大學(xué)測繪遙感信息工程國家重點(diǎn)實(shí)驗(yàn)室，湖北武漢 430071）

車內(nèi)遺留物品檢測是智能座艙系統(tǒng)的重要組成部分。如果能及時對車主遺留的貴重物品在車艙進(jìn)行提示或者警告，不僅能避免車主后續(xù)回來拿東西的麻煩，也能降低被破窗盜竊風(fēng)險，還可以有效提升車主的用車體驗(yàn)，也是車廠賣車的一大亮點(diǎn)。

1 目標(biāo)檢測技術(shù)概述

1.1 目標(biāo)檢測的定義

目標(biāo)檢測的任務(wù)是識別圖像中出現(xiàn)的物體的類別以及對應(yīng)物體的位置。物體是圖像中存在的物體對象，但是需要檢測哪些物體需要根據(jù)具體任務(wù)的需求來確定。例如智能座艙遺留物品定義為手機(jī)、錢包、pad、筆記本電腦和背包這5類，對應(yīng)的目標(biāo)檢測任務(wù)只需要檢測出該5類物品，如果檢出其他類型的物品，則被定義為虛警。

目標(biāo)檢測的位置信息一般分為兩種格式：極坐標(biāo)表示和中心點(diǎn)坐標(biāo)表示。

1）極坐標(biāo)表示：（xmin，ymin，xmax，ymax），其中xmin，ymin代表目標(biāo)框坐標(biāo)的最小值，xmax，ymax代表目標(biāo)框坐標(biāo)的最大值。

2）中心點(diǎn)坐標(biāo)：（x_center，y_center，w，h），其中，x_center、y_center為目標(biāo)檢測框的中心點(diǎn)坐標(biāo)，w、h為目標(biāo)檢測框的寬、高。

1.2 目標(biāo)檢測算法的種類

1.2.1 Two-Stage目標(biāo)檢測

Two-Stage目標(biāo)檢測是基于區(qū)域的目標(biāo)檢測算法，比較有代表性的算法有R-CNN［1］、SPP-Net［2］、Fast-R-CNN［3］等。該類方法首先需要得到候選區(qū)域，然后進(jìn)行分類與回歸的預(yù)測，具有較高的檢測準(zhǔn)確度，尤其對小目標(biāo)的檢測。但是由于需要事先獲得候選區(qū)域，其效率不如單階段目標(biāo)檢測。

1.2.2 One-Stage目標(biāo)檢測

One-Stage目標(biāo)檢測算法不需要首先獲得提議區(qū)域，直接產(chǎn)生物體的類別概率和位置信息，因此有著更快的檢測速度并且更容易部署。比較典型的算法如YOLO［4］、SSD［5］、YOLOv2［6］、YOLOv3［7］、Retina-Net［8］等。

2 智能座艙遺留物品檢測

首先將圖片的數(shù)據(jù)格式轉(zhuǎn)換成HSV格式，通過設(shè)定HSV域的閾值抽取圖片的紅分量，如圖1所示。

圖1 抽取紅分量

根據(jù)紅分量的比例可將整體數(shù)據(jù)集分成3個域，如圖2所示，分別為Normal（圖2a）、Gray（圖2b）、Red（圖2c）。

圖2 根據(jù)紅分量的比例可將整體數(shù)據(jù)集分成3個域

2.1 域內(nèi)外類別分布不均衡

對采集回來的數(shù)據(jù)進(jìn)行分析，我們發(fā)現(xiàn)樣本的域內(nèi)域外數(shù)量分布很不均衡，如圖3所示。對于域內(nèi)樣本，如圖3a所示，包含pad的樣本十分稀少。對于域間樣本分布，發(fā)現(xiàn)Gray域的樣本占了多數(shù)。域間類別數(shù)量分布如圖3b所示。

圖3 樣本域內(nèi)域外類別數(shù)量分布情況

2.2 目標(biāo)尺度分布不均衡

數(shù)據(jù)小目標(biāo)占比較多，其中phone全部為小目標(biāo)，packsack中超過一半也為小目標(biāo)，總體78%為小目標(biāo)，如圖4所示。

圖4 小目標(biāo)數(shù)量分布

數(shù)據(jù)分布的特殊性需要結(jié)合特定的策略進(jìn)行優(yōu)化。下文中，將介紹算法設(shè)計以及針對數(shù)據(jù)分布的難點(diǎn)使用的優(yōu)化方案。

3 算法主體架構(gòu)

3.1 基線模型

基線模型選擇anchor base架構(gòu)，通過RPN［3］生成高品質(zhì)候選框，通過ROIPooling［3］提取固定大小的特征，最后使用Cascade級聯(lián)head逐步提高邊框的預(yù)測品質(zhì)。Cascade RCNN示意圖如圖5所示。

圖5 Cascade RCNN示意圖

在RPN階段，我們采用Global Context［9］策略，如圖6所示。通過加入全局范圍的pooling特征，幫助后續(xù)的分類和回歸。

圖6 全局語境方法

3.2 CBNet+Swin Transformer

如圖7所示，CBNet［10］通過組合復(fù)用多個backbone的方式增強(qiáng)對backbone和fpn部分的特征提取，可有效提高檢測精度。本文使用Swin Transformer作為網(wǎng)絡(luò)主干。

圖7 CBNet結(jié)構(gòu)

如圖8所示，Swin Transformer［11］的設(shè)計非常巧妙，具有創(chuàng)新又緊扣CNN的優(yōu)點(diǎn)，充分考慮的CNN的位移不變性，尺寸不變性，感受野與層次的關(guān)系，分階段降低分辨率增加通道數(shù)等特點(diǎn)，相對于CNN結(jié)構(gòu)每個layer看到的區(qū)域更大，比CNN中的padding、pool等有著明顯的優(yōu)勢。

圖8 Swin Trainsformer

3.3 YoloX

YoloX［12］網(wǎng)絡(luò)，屬于Anchor Free架構(gòu)，如圖9所示，使用darknet作為backbone，并采用PAPN特征金字塔增強(qiáng)對不同layer特征的提取。

圖9 YoloX網(wǎng)絡(luò)結(jié)構(gòu)

YoloX網(wǎng)絡(luò)的頭部采用decouple解耦設(shè)計，將分類任務(wù)、邊框回歸任務(wù)、前景檢測任務(wù)采用單獨(dú)分支進(jìn)行特征增強(qiáng)，加速收斂的同時可有效提升精度。同時，YoloX采用SimOTA樣本分配策略，將單階段的候選框依據(jù)前景和分類loss進(jìn)行粗篩，再根據(jù)動態(tài)正樣本排序策略獲得高品質(zhì)的正樣本。圖10為SimOTA標(biāo)簽分配策略。

圖10 SimOTA標(biāo)簽分配策略

3.4 模型融合

模型融合策略包括兩個部分：WBF和NMS。WBF［13］（Weighted boxes fusion），該策略重點(diǎn)是融合，根據(jù)較為準(zhǔn)確的框來獲得更加準(zhǔn)確的框，分段的依據(jù)是框置信度在0.3以上。NMS［14］對框進(jìn)行篩選，去掉大量不準(zhǔn)確的框，獲得較為準(zhǔn)確的框。分段依據(jù)是框的置信度在0.3以下。模型融合策略如圖11所示。

圖11 模型融合策略

4 難點(diǎn)問題解決方案

4.1 域內(nèi)不均衡和域間分布不均衡

針對域內(nèi)和域間分布不均衡問題，我們使用軟均衡采樣策略來解決。

經(jīng)過軟均衡策略后，域間和域類樣本數(shù)量分布更加平衡，軟均衡采樣效果如圖12所示。

圖12 軟均衡采樣效果

4.2 小目標(biāo)識別

為了優(yōu)化小目標(biāo)識別問題，我們采用馬賽克增強(qiáng)［15］和SoftNMS［16］策略。

如圖13所示，馬賽克數(shù)據(jù)增強(qiáng)將4張訓(xùn)練圖像按一定比例組合成1張，豐富了檢測數(shù)據(jù)集，增加了很多小目標(biāo)，有效提升模型對小目標(biāo)的檢測能力。

圖13 馬賽克增強(qiáng)

Soft-NMS將重疊度大于閾值的其他檢測框不會直接刪除，采用一個函數(shù)來衰減這些檢測框的置信度，可以一定程度避免小目標(biāo)被刪除。其算法流程如下。

其中B是檢測框集合，S是檢測框?qū)?yīng)的得分，Nt為NMS閾值。

4.3 過擬合

由于實(shí)車場景可以采集的數(shù)據(jù)比較少，這樣會導(dǎo)致模型過擬合。針對模型過擬合問題，在YoloX的訓(xùn)練過程中，我們依次嘗試了AutoAug V1、AutoAug V2、AutoAug V3，對比詳情如圖14所示。

圖14 AutoAug效果對比

可見，AutoAug V2在我們的任務(wù)中表現(xiàn)較好，達(dá)到了0.816的mAP。AutoAug V2參數(shù)配置如圖15所示。

圖15 AutoAug V2參數(shù)配置

除此之外，我們還采用gridmask［17］增廣策略強(qiáng)迫模型不擬合訓(xùn)練集。具體效果將在實(shí)驗(yàn)部分開展說明。

5 實(shí)驗(yàn)

5.1 實(shí)驗(yàn)環(huán)境和參數(shù)配置

以實(shí)車采集的2500張圖片作為測試集，1000張圖片作為訓(xùn)練集。實(shí)驗(yàn)中除了模型融合方案，都使用非極大抑制算法作為后處理方案，其交并比為0.5。實(shí)驗(yàn)的評估指標(biāo)選用平均精度均值（mean average precision，mAP）。

實(shí)驗(yàn)所用的GPU型號為NVDIA Tesla V100，使用pytorch以及mmdetecion工具包構(gòu)建目標(biāo)檢測模型。

5.2 對比實(shí)驗(yàn)

以Cascade RCNN作為基線方案，為了讓基線方案有效檢測出小目標(biāo)，其設(shè)定的訓(xùn)練尺度比較大，分別為4096×800和4096×1408。在訓(xùn)練過程中，將batch_size設(shè)定為24，初始學(xué)習(xí)率為0.001，采取余弦退火的方式更新學(xué)習(xí)率，使用adamW作為優(yōu)化器。表1給出了不同模型和trick組合情況下的檢測效果對比。

表1 模型效果對比

可以看出，Cascade RCNN作為基線其在測試集的最優(yōu)mAP為0.745，接著加入軟均衡采樣策略以及樣本擴(kuò)充方法使mAP上升到0.76。在此基礎(chǔ)上使用TTA（Test-Time Augmentation，測試時數(shù)據(jù)增強(qiáng)），達(dá)到了0.78，接著應(yīng)用global context算法使效果進(jìn)一步提升達(dá)到0.79，和基線對比相對提升17.6%。可見，我們提出的軟均衡策略以及引入global text對檢測效果有著明顯的促進(jìn)作用。

對于單階段檢測器，通過結(jié)合CBNetV2和Swin Transformer，可以使模型效果直接達(dá)到0.8，在此基礎(chǔ)上，我們通過引入gridmask算法使效果進(jìn)一步提升，使mAP達(dá)到了0.815，和基線對比相對提升27.4%。

由于我們最終方案是集成學(xué)習(xí)，因此還訓(xùn)練了YoloX，其訓(xùn)練尺度選擇1280，推理尺度分別為1024、1280、1408，并在模型推理環(huán)節(jié)使用測試時增強(qiáng)。將原始圖片進(jìn)行3個尺度的flip，分別進(jìn)行推理，再對多個結(jié)果進(jìn)行合并，最終得到最優(yōu)結(jié)果為0.81。接著我們通過在訓(xùn)練過程中引入AutoAug V2，使YoloX的檢測結(jié)果進(jìn)一步提升，達(dá)到0.816。

為了進(jìn)一步提升檢測效果以及模型魯棒性，使用模型融合策略對以上3種模型進(jìn)行融合，融合過程采用上文提及的WBF+NMS策略，最終達(dá)到最優(yōu)效果0.817，并且比單模型有著更強(qiáng)的魯棒性。

6 總結(jié)與展望

本文針對車載場景的遺留物品檢測任務(wù)，進(jìn)行深入數(shù)據(jù)分析，根據(jù)車載場景圖像數(shù)據(jù)的難點(diǎn)提出了相應(yīng)的解決方案，有效解決了數(shù)據(jù)分布不均衡問題以及小目標(biāo)檢測的挑戰(zhàn)。

實(shí)際車內(nèi)貴重物品檢測場景中除了訓(xùn)練集中的手機(jī)、平板、筆記本電腦、錢包、背包5類外，往往存在手表、手環(huán)、項(xiàng)鏈、戒指等未知類別的樣本，這類樣本的檢測屬于FSD（Few Shot Objection）或者ZSD（Zero Shot Objection）。端側(cè)推理中基于攝像頭可以獲取視頻流，可以基于連續(xù)幀的特征來增加遺落目標(biāo)的前景置信度，從而提高整體的檢測效果。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡