基于多傳感器信息融合的3維目標(biāo)實(shí)時檢測*

2022-04-07 03:30謝德勝徐友春潘世舉

汽車工程 2022年3期

謝德勝，徐友春，陸峰，潘世舉

（陸軍軍事交通學(xué)院軍事交通運(yùn)輸研究所，天津 300161）

前言

自動駕駛系統(tǒng)作為人工智能技術(shù)應(yīng)用的一個重要領(lǐng)域已經(jīng)獲得較大的發(fā)展，自動駕駛系統(tǒng)主要包括感知模塊、決策規(guī)劃模塊、控制模塊和定位模塊等。感知模塊是自動駕駛系統(tǒng)的基礎(chǔ)，主要負(fù)責(zé)對自動駕駛汽車周圍環(huán)境的多目標(biāo)進(jìn)行檢測、跟蹤和預(yù)測。自動駕駛汽車使用的傳感器主要包括視覺傳感器和3維激光雷達(dá)傳感器等。視覺傳感器的成本較低，可以獲取目標(biāo)的紋理信息，但容易受光照條件的影響出現(xiàn)漏檢。3維激光雷達(dá)檢測目標(biāo)輪廓的精度較高，水平視場范圍廣，可以掃描生成自動駕駛汽車周圍環(huán)境高精度的3維點(diǎn)云，但3維點(diǎn)云不包含目標(biāo)的紋理信息，缺乏對場景的語義理解。因此通過融合高精度的3維點(diǎn)云數(shù)據(jù)和具備語義信息的2維圖像，將使得數(shù)據(jù)源更豐富，更有利于準(zhǔn)確檢測3維目標(biāo)。

近年來，深度學(xué)習(xí)在2維計(jì)算機(jī)視覺任務(wù)上取得了較大進(jìn)展，但僅依靠單目視覺或立體視覺進(jìn)行3維目標(biāo)檢測的精度較低。因此，國內(nèi)外部分學(xué)者使用深度神經(jīng)網(wǎng)絡(luò)對體素化或是多視圖映射后的3維點(diǎn)云進(jìn)行3維目標(biāo)檢測，取得了一定的成果。體素化的方法保存了激光雷達(dá)點(diǎn)云部分3維信息，同時使得用3維卷積對激光雷達(dá)點(diǎn)云進(jìn)行特征提取成為可能，但體素化的方法增加了數(shù)據(jù)量，使得目標(biāo)檢測的實(shí)時性變差。多視圖映射的方法將3維點(diǎn)云投影到不同的方向生成點(diǎn)云2維映射圖，損失了原始信息，使得目標(biāo)檢測的精度下降。不同于體素化和多視圖映射的方法，PointNet++直接對3維點(diǎn)云進(jìn)行特征提取，最大化地保留了點(diǎn)云的3維信息，同時顯著提高了對3維點(diǎn)云的處理速度。僅使用2維圖像或3維點(diǎn)云進(jìn)行目標(biāo)檢測存在各自的弊端，因此，不少網(wǎng)絡(luò)嘗試融合2維圖像與3維點(diǎn)云數(shù)據(jù)來進(jìn)行目標(biāo)檢測，但大部分網(wǎng)絡(luò)都采用體素化或多視圖映射的方法來處理2維圖像和3維點(diǎn)云數(shù)據(jù)，在一定程度上損失了原始信息，影響最終的3維目標(biāo)檢測結(jié)果。

為了有效利用3維點(diǎn)云的空間信息和2維圖像的語義信息，提高對不同類型3維目標(biāo)的檢測精度和檢測速度，本文中提出一種融合3維點(diǎn)云和2維圖像的雙階段目標(biāo)檢測網(wǎng)絡(luò)PointRGBNet（如圖1所示）。在第1階段的區(qū)域提案網(wǎng)絡(luò)中，不使用體素化或多視圖映射的方法，將PointNet++作為特征提取網(wǎng)絡(luò)，直接對6維RGB點(diǎn)云（包括點(diǎn)的3個空間坐標(biāo)和R、G、B 3個值）進(jìn)行處理，讓區(qū)域提案網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)云每個點(diǎn)的類別和每個點(diǎn)對應(yīng)的包圍框。由于輸入的6維RGB點(diǎn)云具備語義信息，同時低維特征圖與高維特征圖進(jìn)行了融合，區(qū)域提案網(wǎng)絡(luò)可以同時對人、騎行者和汽車3類目標(biāo)生成大量置信度較高的提案。在第2階段的目標(biāo)檢測網(wǎng)絡(luò)中，首先利用非極大值抑制（non-maximum suppression，NMS）篩選出每個區(qū)域中置信度較高的提案，然后根據(jù)篩選出的提案對融合后的特征圖進(jìn)行RoI（region of interest）池化，對RoI池化后每個提案內(nèi)的點(diǎn)云特征集合進(jìn)行學(xué)習(xí)，正是這種針對性地學(xué)習(xí)，使得提案分類和包圍框回歸的精度得到了進(jìn)一步的提升。

圖1 PointRGBNet網(wǎng)絡(luò)整體結(jié)構(gòu)

在KITTI3維目標(biāo)檢測數(shù)據(jù)集上的實(shí)驗(yàn)表明，相對于僅用2維圖像的3DOP和僅用3維點(diǎn)云的VoxelNet等網(wǎng)絡(luò)，以及使用3維點(diǎn)云與2維圖像融合的MV3D和AVOD等網(wǎng) 絡(luò)，本文提出的PointRGBNet的檢測速度和檢測精度都有明顯的提升。

1 相關(guān)工作

1.1 基于單一傳感器的目標(biāo)檢測

（1）2維圖像的目標(biāo)檢測

從RCNN、Fast RCNN和Faster RCNN為代表的雙階段目標(biāo)檢測網(wǎng)絡(luò)，到以YOLO系列為代表的單階段目標(biāo)檢測網(wǎng)絡(luò)在2維目標(biāo)檢測任務(wù)中取得了非凡的成就。但自動駕駛汽車需要被檢測的目標(biāo)包含3維信息，Mono3D提出利用能量值最小和S-SVM的卷積神經(jīng)網(wǎng)絡(luò)來檢測3維目標(biāo)，但由于2維圖像缺乏深度信息，3維目標(biāo)的檢測精度并不高。Deep3DBox使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)的方向和維度，利用估計(jì)的方向、尺寸、3維包圍框的投影和2維檢測窗口的緊密匹配等約束條件恢復(fù)出移位，從而檢測出3維目標(biāo)，但與使用3維點(diǎn)云的方法相比，僅使用2維圖像的Deep3DBox在檢測目標(biāo)深度信息的精度上較差。

（2）3維點(diǎn)云的目標(biāo)檢測

VoxelNet將3維點(diǎn)云體素化并歸一化，對每一個非空體素使用體素編碼器和多個卷積核進(jìn)行特征提取，雖然可以實(shí)現(xiàn)對3維目標(biāo)的分類與包圍框回歸，但由于體素化在一定程度上損失了原始信息，同時增加了計(jì)算量，導(dǎo)致了VoxelNet的檢測精度有所降低，同時也使得處理速度變慢。PointRCNN使用PointNet++作為主干網(wǎng)絡(luò)對3維點(diǎn)云進(jìn)行特征提取，并使用基于容器的思想對目標(biāo)的包圍框進(jìn)行回歸，對于單一類別的目標(biāo)檢測可以取得較好的結(jié)果，但由于PointRCNN僅使用二分類的focal loss進(jìn)行前景背景點(diǎn)云的分割，因此無法一次完成對多個類別目標(biāo)的檢測。

1.2 基于多傳感器信息融合的目標(biāo)檢測

（1）2維圖像與毫米波雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測

2維圖像與毫米波雷達(dá)數(shù)據(jù)融合多應(yīng)用于ADAS（advanced driving assistance system）場景，文獻(xiàn)［22］中使用后融合的方式實(shí)現(xiàn)了2維圖像與毫米波雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測，能有效緩解在惡劣天氣情況下由2維圖像產(chǎn)生的誤檢。CenterFusion使用關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)CenterNet生成3維目標(biāo)提案，再使用截錐將毫米波雷達(dá)檢測結(jié)果與相應(yīng)3維目標(biāo)關(guān)聯(lián)起來。最后利用融合后的特征估計(jì)出目標(biāo)的深度、航向角和速度，但CenterFusion的檢測精度較低，mAP（mean average precision）不到0.5。僅使用2維圖像與毫米波雷達(dá)數(shù)據(jù)融合的方法并不可靠，特斯拉Autopilot多次因檢測不到白色掛車等目標(biāo)而發(fā)生致命交通事故也驗(yàn)證了此點(diǎn)。

（2）2維圖像與3維點(diǎn)云融合的目標(biāo)檢測

2維圖像具備語義信息，3維點(diǎn)云具備深度信息，理論上兩種數(shù)據(jù)的有效融合將使目標(biāo)檢測的精度變得更高。MV3D使用2維圖像與3維點(diǎn)云的正視圖和俯視圖作為輸入，使用區(qū)域提案網(wǎng)絡(luò)先生成候選提案，然后再將候選提案映射到3種視圖中，通過融合3種視圖的信息來檢測3維目標(biāo)，由于多視圖映射的方式損失了原始信息，使得MV3D的檢測精度并不高。AVOD先使用卷積神經(jīng)網(wǎng)絡(luò)分別對2維圖像和3維點(diǎn)云的俯視圖生成特征圖，然后利用融合后的特征圖生成提案，最后利用置信度高的提案結(jié)合特征圖對3維目標(biāo)進(jìn)行分類和包圍框回歸，由于融合后的特征圖具備多維度的特征信息，使得AVOD的檢測精度比MV3D要高，速度也更快，但與不經(jīng)過多視圖映射，直接處理3維點(diǎn)云并與2維圖像目標(biāo)檢測結(jié)果相融合的F-PointNet相比，AVOD的檢測精度還是要低。

2 PointRGBNet網(wǎng)絡(luò)結(jié)構(gòu)

本文中提出的PointRGBNet為雙階段多類別目標(biāo)檢測網(wǎng)絡(luò)，如圖1所示。由2維圖像與3維點(diǎn)云融合生成具備RGB通道信息的6維RGB點(diǎn)云作為網(wǎng)絡(luò)的輸入，將主干網(wǎng)絡(luò)PointNet++輸出的高維特征圖與卷積層輸出的低維特征圖融合，進(jìn)而區(qū)域提案網(wǎng)絡(luò)利用融合后的特征圖生成大量置信度較高的提案，目標(biāo)檢測網(wǎng)絡(luò)利用區(qū)域提案網(wǎng)絡(luò)生成的提案進(jìn)行RoI池化得到每個提案對應(yīng)在特征圖上的特征集合，通過針對性地學(xué)習(xí)提案的特征集合來對3維場景中的人、騎行者和汽車等3維目標(biāo)進(jìn)行檢測。

2.1 區(qū)域提案網(wǎng)絡(luò)

區(qū)域提案網(wǎng)絡(luò)主要用于生成置信度較高的提案，在區(qū)域提案網(wǎng)絡(luò)中，將6維RGB點(diǎn)云作為輸入，經(jīng)過1×1大小的卷積核作用，生成低維的特征圖，然后將低維特征圖與PointNet++生成的高維特征圖融合，經(jīng)過特征學(xué)習(xí)，實(shí)現(xiàn)點(diǎn)云語義分割和包圍框的預(yù)測，得到大量置信度較高的提案。

2.1.1 6維RGB點(diǎn)云生成

根據(jù)相機(jī)的內(nèi)部參數(shù)和外部參數(shù)將3維點(diǎn)云投影到2維圖像，然后將點(diǎn)云投影后對應(yīng)像素的RGB通道信息賦予3維點(diǎn)云，生成6維RGB點(diǎn)云。相機(jī)的內(nèi)部參數(shù)包括焦距、畸變系數(shù)等，外部參數(shù)則主要包括激光雷達(dá)坐標(biāo)系到相機(jī)坐標(biāo)系的旋轉(zhuǎn)和平移參數(shù)。

假設(shè)一個點(diǎn)在激光雷達(dá)坐標(biāo)系下的坐標(biāo)是m=(x，y，z，1)，則這個點(diǎn)在圖像坐標(biāo)下的像素坐標(biāo)m=(u，v，1)可由下式求得。

式中：K為相機(jī)的內(nèi)部參數(shù)矩陣；R為激光雷達(dá)坐標(biāo)系到相機(jī)坐標(biāo)系的旋轉(zhuǎn)矩陣；t為相應(yīng)的平移向量。相機(jī)的內(nèi)部參數(shù)可以通過張正友標(biāo)定法等標(biāo)定方法得到，外部參數(shù)則可以根據(jù)文獻(xiàn)［27］中提供的標(biāo)定方法求出。本文中采用KITTI數(shù)據(jù)集，可以根據(jù)KITTI數(shù)據(jù)集提供的內(nèi)外部參數(shù)直接將3維點(diǎn)云投影在2維圖像上，剔除投影在2維圖像范圍外的點(diǎn)云，保留投影在2維圖像范圍內(nèi)的點(diǎn)云，在2維圖像成像范圍內(nèi)的點(diǎn)云是掃描在目標(biāo)及其周圍環(huán)境的點(diǎn)云，將對應(yīng)像素坐標(biāo)的RGB通道信息賦予3維點(diǎn)云，得到6維RGB點(diǎn)云，如圖2所示。

圖2 6維RGB點(diǎn)云

2.1.2 點(diǎn)云語義分割

本文中主要對行人、騎行者和汽車進(jìn)行檢測，因此融合后的特征圖經(jīng)過2層卷積層的特征提取，得到大小為N×4的特征圖，每個點(diǎn)對應(yīng)4個通道，經(jīng)過Softmax層之后，得到每個點(diǎn)屬于行人、騎行者、汽車和背景的概率P。由于在一幀場景中，3維目標(biāo)包含的點(diǎn)云與背景點(diǎn)云的比例懸殊，正負(fù)樣本極度不平衡將使得訓(xùn) 練變得困難。RetinaNet、CornerNet和F-PointNets等目標(biāo) 檢測網(wǎng)絡(luò) 使用focal loss作為二分類的損失函數(shù)，可以有效識別場景中的單一類別，但在真實(shí)的應(yīng)用場景中，往往需要同時識別場景中的多種類別的目標(biāo)。在focal loss的基礎(chǔ)之上，本文中提出新的多分類損失函數(shù)，讓PointRGBNet在訓(xùn)練的過程中更專注于多類別中難以區(qū)分的樣本，使得正樣本的輸出概率越大損失越小，負(fù)樣本的輸出概率越小損失越小。采用one-hot編碼對每個點(diǎn)的類別真值進(jìn)行編碼，得到N×4的真值矩陣G，則在語義分割時的損失函數(shù)可以定義為

式中α為對應(yīng)參數(shù)值構(gòu)成的矩陣，對于正樣本α=0.25，負(fù)樣本α=0.75，參數(shù)γ=2。點(diǎn)云分割結(jié)果如圖3所示，其中紅色的點(diǎn)云為行人，藍(lán)色的點(diǎn)云為騎行者，粉紅色的點(diǎn)云為汽車，綠色的點(diǎn)云為背景。

圖3 點(diǎn)云語義分割結(jié)果

2.1.3 提案生成

融合后的特征圖經(jīng)過2層卷積層的特征提取，可以得到用于包圍框預(yù)測的特征圖。由于不同類別目標(biāo)的中心位置、航向角和包圍框尺寸的差異較大，如果直接采用Smooth L1等回歸損失函數(shù)對預(yù)測結(jié)果與真值的偏差進(jìn)行學(xué)習(xí)，難以準(zhǔn)確地預(yù)測3維目標(biāo)的中心位置、航向角和包圍框尺寸。受PointRCNN基于容器的包圍框預(yù)測思想的啟發(fā)，本文中采用先分類再回歸的思想，將3維目標(biāo)的中心位置、航向角和包圍框尺寸先分類到某個區(qū)間，然后在這個區(qū)間內(nèi)對偏差進(jìn)行回歸。相比于PointRCNN一次只能對一種特定的類別、尺寸相對固定的目標(biāo)的包圍框進(jìn)行預(yù)測，本文中提出的方法可以同時對多種不同類別、各種尺寸目標(biāo)的包圍框進(jìn)行預(yù)測。

將在行人、騎行者和汽車等目標(biāo)的真值包圍框內(nèi)的點(diǎn)云視為前景點(diǎn)，其他點(diǎn)云視為背景點(diǎn)。若一個前景點(diǎn)的空間位置為(x，y，z)，則在此前景點(diǎn)左下方向建立如圖4（a）所示的局部空間直角坐標(biāo)o-xyz，原點(diǎn)到前景點(diǎn)的橫向距離與縱向距離都為d，原點(diǎn)處于前景點(diǎn)所在平面的下方，(x，y，z)表示預(yù)測的中心點(diǎn)（即汽車外接長方形的形心）所在區(qū)間，(，，)表示預(yù) 測的中心點(diǎn) 在相應(yīng) 區(qū) 間(，，)的位置到此區(qū)間起點(diǎn)的偏差。將航向角的范圍[0°，360°)劃分為若干個相等的區(qū)間，航向角預(yù)測值所在的區(qū)間為，航向角預(yù)測值在區(qū)間的方向到此區(qū)間起始方向的夾角為，如圖4（b）所示。同時，將長寬高的尺度范圍劃分為若干個相等長度的區(qū)間，長寬高預(yù)測值所在區(qū)間為(，，)，長寬高預(yù)測值在區(qū)間(，，)的位置到此區(qū)間起點(diǎn)的偏差為(，，)，如圖4（c）所示。

圖4 包圍框預(yù)測示意圖

采用交叉熵?fù)p失函數(shù)對預(yù)測的中心位置、航向角、包圍框尺寸所在的區(qū)間進(jìn)行分類，而相應(yīng)的偏差則先進(jìn)行歸一化然后采用Smooth L1損失函數(shù)進(jìn)行回歸。

因此，在包圍框預(yù)測時的損失函數(shù)如式（3）所示，其中，表示真值所在區(qū)間，表示真值在相應(yīng)區(qū)間的位置到該區(qū)間起點(diǎn)的偏差，表示相應(yīng)回歸量區(qū)間的標(biāo)準(zhǔn)尺度，表示交叉熵?fù)p失函數(shù)，表示Smooth L1損失函數(shù)。

利用點(diǎn)云與真值包圍框的位置關(guān)系可以確定出前景點(diǎn)，通過前景點(diǎn)來訓(xùn)練包圍框預(yù)測子網(wǎng)絡(luò)，從而實(shí)現(xiàn)點(diǎn)對包圍框的預(yù)測，再將語義分割結(jié)果與包圍框預(yù)測結(jié)果結(jié)合，保留語義分割結(jié)果為行人、騎行者和汽車的前景點(diǎn)云和對應(yīng)的包圍框預(yù)測結(jié)果，從而得到大量置信度較高的提案，這些提案將作為第2階段目標(biāo)檢測網(wǎng)絡(luò)的輸入。利用非極大值抑制算法可以篩選出各個區(qū)域范圍內(nèi)置信度相對較高的提案，同時也降低了第2階段目標(biāo)檢測網(wǎng)絡(luò)的計(jì)算量，加快3維目標(biāo)檢測的速度，提案生成過程如圖5所示。

圖5 提案生成示意圖

2.2 目標(biāo)檢測網(wǎng)絡(luò)

區(qū)域提案網(wǎng)絡(luò)可以生成大量置信度較高的提案，但由于使用PointNet++進(jìn)行特征提取和特征學(xué)習(xí)時，只考慮以前景點(diǎn)為中心、以特定長度為半徑的球內(nèi)所有6維RGB點(diǎn)云的特征，沒有充分利用提案內(nèi)及其附近的點(diǎn)云特征進(jìn)行學(xué)習(xí)，為了進(jìn)一步提高3維目標(biāo)分類和包圍框預(yù)測的精度，提出采用RoI池化對提案內(nèi)和提案附近的點(diǎn)云進(jìn)行采樣和特征學(xué)習(xí)，以得到更精準(zhǔn)的3維目標(biāo)檢測結(jié)果。

2.2.1 RoI池化

采用NMS可以得到各區(qū)域中置信度較高的提案，對提案的長寬高分別小幅度地擴(kuò)大ε、ε、ε，得到由提案擴(kuò)大后的RoI，RoI包含前景點(diǎn)云和部分前景點(diǎn)云附近的背景點(diǎn)云，采用最遠(yuǎn)點(diǎn)采樣法從每個提案內(nèi)采樣得到固定數(shù)量的點(diǎn)云，如圖6所示。

圖6 RoI池化示意圖

用最遠(yuǎn)點(diǎn)采樣法獲取N個采樣點(diǎn)的步驟如下：

（1）隨機(jī)選取RoI內(nèi)一個點(diǎn)作為初始點(diǎn)，從剩余的點(diǎn)云中找到距離初始點(diǎn)最遠(yuǎn)的點(diǎn)，構(gòu)成初始點(diǎn)集B；

（2）計(jì)算任意一個剩余點(diǎn)到點(diǎn)集B中所有點(diǎn)的距離，將所有距離中最小值作為該剩余點(diǎn)到點(diǎn)集B的距離；

（3）計(jì)算出每個剩余點(diǎn)到點(diǎn)集B的距離后，取距離最大的剩余點(diǎn)作為新的采樣點(diǎn)，并加入點(diǎn)集B；

（4）重復(fù)步驟（2）～（3），一直采樣到目標(biāo)數(shù)量N為止。

通過RoI池化可以對包含不同點(diǎn)云數(shù)量的提案采樣得到N個固定的采樣點(diǎn)，原始點(diǎn)云主要用于最遠(yuǎn)點(diǎn)采樣，不作為特征輔助目標(biāo)檢測網(wǎng)絡(luò)的精修，將采樣點(diǎn)云映射到融合后的特征圖上，根據(jù)映射關(guān)系由融合后的特征圖生成每個RoI的特征集合，進(jìn)而通過特征學(xué)習(xí)實(shí)現(xiàn)更精準(zhǔn)的提案分類和包圍框預(yù)測。

2.2.2 3維目標(biāo)檢測

每個RoI對應(yīng)的特征集合經(jīng)過卷積層和全連接層的作用之后，得到長度為4的特征，使用Softmax層可以得到每個RoI屬于人、騎行者、汽車和背景的概率，將概率最大的類別作為RoI的類別，由于區(qū)域提案網(wǎng)絡(luò)可以有效地檢測出場景中大量真實(shí)存在的提案，不同類別之間比例失衡的問題得到緩解，在對RoI進(jìn)行分類時，直接使用交叉熵?fù)p失函數(shù)計(jì)算RoI所屬類別的損失，如式（4）所示。

式中：C表示類別的預(yù)測值；C表示類別的真值；L表示分類時的損失。

在預(yù)測包圍框時，采用先分類再回歸的思想，區(qū)域提案網(wǎng)絡(luò)生成的提案中心、航向角和包圍框尺寸已經(jīng)較準(zhǔn)確，在進(jìn)行中心位置和航向角的區(qū)間分類時，采用比區(qū)域提案網(wǎng)絡(luò)中尺度更小的區(qū)間，以提高包圍框預(yù)測的精度。得益于分類區(qū)間尺度的變小和使得特征學(xué)習(xí)更具針對性的RoI池化，包圍框預(yù)測的精度獲得了較大地提升。

對包圍框中心進(jìn)行預(yù)測時，在預(yù)測框中心左下角方向建立局部空間直角坐標(biāo)o-xyz，原點(diǎn)到預(yù)測框中心的橫向距離與縱向距離都為a，原點(diǎn)位于預(yù)測框中心所在平面的下方，(x，y，z)表示預(yù)測框中心所在區(qū)間，(x，y，z)表示預(yù)測框中心所在區(qū)間位置到此區(qū)間起點(diǎn)的偏差。對包圍框航向角進(jìn)行預(yù)測時，以包圍框的航向預(yù)測值順時針偏15°為0°起始方向，逆時針為正，順時針為負(fù)，將航向角的范圍[-45°，45°]和[135°，225°]劃分為若干個區(qū)間，預(yù)測框的航向角所在區(qū)間為r，真值框的航向角方向所在區(qū)間r內(nèi)到此區(qū)間起始方向的夾角為r，如圖7所示。

圖7 中心位置和航向角預(yù)測示意圖

則中心位置和航向角的損失如下：

區(qū)域提案網(wǎng)絡(luò)生成的包圍框尺寸與包圍框真值尺寸比較相近，若包圍框尺寸預(yù)測值為(l，w，h)，包圍框尺寸真值為(l，w，h)，兩者的損失可以直接通過Smooth L1損失函數(shù)計(jì)算，如式（6）所示。

因此在包圍框預(yù)測時的損失定義見式（7），在得到包圍框的預(yù)測結(jié)果之后，同時結(jié)合包圍框分類的結(jié)果，采用NMS得到各區(qū)域中置信度最高的提案，并作為3維目標(biāo)的最終檢測結(jié)果。

3 實(shí)驗(yàn)評估

3.1 數(shù)據(jù)集

實(shí)驗(yàn)數(shù)據(jù)為KITTI數(shù)據(jù)集，KITTI數(shù)據(jù)集分為兩部分，一部分有真值的數(shù)據(jù)集包含2維圖像和3維點(diǎn)云各7 481幀，另一部分沒有真值的數(shù)據(jù)集包含2維圖像和3維點(diǎn)云各7 518幀。根據(jù)目標(biāo)在相機(jī)視場內(nèi)的可見程度，將數(shù)據(jù)分為簡單、中等、困難3種不同等級。由于官方?jīng)]有提供測試集的真值，所以將有真值的數(shù)據(jù)集等分為訓(xùn)練集和驗(yàn)證集，訓(xùn)練集用于網(wǎng)絡(luò)的訓(xùn)練，驗(yàn)證集則用于網(wǎng)絡(luò)的本地評估，而不含真值的數(shù)據(jù)集則全部作為測試集用于在線提交檢測結(jié)果。因?yàn)镵ITTI數(shù)據(jù)集只標(biāo)注了2維圖像范圍內(nèi)的目標(biāo)，本文對2維圖像和3維點(diǎn)云融合時，只考慮在相機(jī)視場內(nèi)的圖像和點(diǎn)云，如圖8所示。

圖8 相機(jī)視場內(nèi)6維RGB點(diǎn)云生成示例

3.2 實(shí)驗(yàn)參數(shù)

本文中使用PyTorch框架實(shí)現(xiàn)PointRGBNet的網(wǎng)絡(luò)結(jié)構(gòu)，使用2塊NVIDIA Tesla-V100 GPU和1塊Intel i7 CPU共同進(jìn)行并行訓(xùn)練，在NVIDIA GTX1060 GPU和Intel i7 CPU上進(jìn)行推理測試。在區(qū)域提案網(wǎng)絡(luò)階段，采樣的6維RGB點(diǎn)云數(shù)量為18 000個點(diǎn)，當(dāng)采樣點(diǎn)云數(shù)量不足18 000個點(diǎn)時，則在包含所有采樣點(diǎn)云的基礎(chǔ)上，從采樣點(diǎn)云里面隨機(jī)采樣補(bǔ)足18 000個點(diǎn)，訓(xùn)練時，使用Adam優(yōu)化器，動量為0.9，初始學(xué)習(xí)率設(shè)置為0.001，衰減系數(shù)為0.001，批的大小為16，共迭代200次。在目標(biāo)檢測網(wǎng)絡(luò)階段，RoI池化的采樣點(diǎn)云數(shù)量為512個，當(dāng)RoI內(nèi)點(diǎn)云不足512個時，則在包含RoI內(nèi)所有點(diǎn)云的基礎(chǔ)上，隨機(jī)采樣補(bǔ)足512個點(diǎn)，訓(xùn)練時，使用Adam優(yōu)化器，初始學(xué)習(xí)率設(shè)置為0.001，衰減系數(shù)為0.001，批的大小為16，共迭代100次。

3.3 數(shù)據(jù)增強(qiáng)

KITTI數(shù)據(jù)集不同幀中的訓(xùn)練數(shù)據(jù)分布不均衡，為了更好地訓(xùn)練PointRGBNet，須對訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)。對獲取的每幀訓(xùn)練數(shù)據(jù)，隨機(jī)將其他幀3維目標(biāo)包圍框內(nèi)的6維RGB點(diǎn)云及其鄰近的RGB點(diǎn)云添加到當(dāng)前幀中，以增加訓(xùn)練時每幀點(diǎn)云的目標(biāo)數(shù)量。

除此之外，隨機(jī)選取每幀點(diǎn)云中的3維目標(biāo)連同包含的6維RGB點(diǎn)云進(jìn)行[-1 m，1 m]范圍內(nèi)的隨機(jī)橫向和縱向偏移、[0.9，1.1]比例范圍內(nèi)的隨機(jī)尺度變換、[-15°，15°]范圍內(nèi)的隨機(jī)水平旋轉(zhuǎn)和[-3°，3°]范圍內(nèi)小角度俯仰旋轉(zhuǎn)，若變換完以后的真值包圍框和當(dāng)前幀中其他真值包圍框有重疊的情況，則放棄本次數(shù)據(jù)增強(qiáng)，隨機(jī)選取其他目標(biāo)進(jìn)行數(shù)據(jù)增強(qiáng)。通過這種數(shù)據(jù)增強(qiáng)的方式，可以有效地提高網(wǎng)絡(luò)訓(xùn)練精度和泛化能力。

3.4 KITTI數(shù)據(jù)集實(shí)驗(yàn)結(jié)果

本文中使用3維目標(biāo)包圍框真值和包圍框預(yù)測值之間的交并比（intersection over union，IoU）作為評估包圍框預(yù)測值準(zhǔn)確程度的標(biāo)準(zhǔn)，當(dāng)包圍框預(yù)測值的IoU大于某一閾值時為正確檢測，否則為錯誤檢測，選取KITTI數(shù)據(jù)集官方閾值標(biāo)準(zhǔn)作為3維目標(biāo)檢測的IoU閾值，即汽車IoU閾值為0.7，行人和騎行者為0.5。KITTI測試集數(shù)據(jù)的真值只存在于官方測試服務(wù)器，用于統(tǒng)一評估各種算法的綜合性能，具有較高的客觀性和公正性。本文中提出的PointRGBNet在KITTI數(shù)據(jù)集官方測試服務(wù)器上進(jìn)行了公開測評，結(jié)果如表1所示。

表1 KITTI測試集上不同網(wǎng)絡(luò)目標(biāo)檢測精度對比

在檢測汽車目標(biāo)上，本文中提出的PointRGBNet的檢測精度極大地優(yōu)于僅采用單目視覺的Kinematic3D和3DOP，這主要是因?yàn)?維圖像不包含深度信息，利用單目視覺難以精準(zhǔn)地估計(jì)3維目標(biāo)的空間位置，而PointRGBNet在利用2維圖像語義信息的同時，也有效使用了3維點(diǎn)云的深度信息。PointRGBNet直接對6維RGB點(diǎn)云進(jìn)行處理，最大程度地保留了原始信息，而VoxelNet和3DBN采用體素化的方法處理點(diǎn)云數(shù)據(jù)，在一定程度上壓縮了原始信息，同時增加了計(jì)算量，因此PointRGBNet在檢測精度和處理速度都優(yōu)于VoxelNet和3DBN。PointRGBNet的輸入包含2維圖像的語義信息和3維點(diǎn)云的空間信息，在原始數(shù)據(jù)層面上進(jìn)行了融合，因而檢測精度高于同樣使用PointNet++作為主干網(wǎng)絡(luò)但采用后融合方式進(jìn)行目標(biāo)檢測的F-PointNet。由于PointRGBNet沒有進(jìn)行多視圖的映射和點(diǎn)云體素化，故其對汽車檢測的精度比采用點(diǎn)云體素化和多視圖映射的MV3D和AVOD、AVOD-、FPN、ContFuse和PointPainting都高。

在行人和騎行者目標(biāo)檢測上，PointRGBNet的檢測精度要優(yōu)于部分僅采用3維點(diǎn)云或是多傳感器融合的3維目標(biāo)檢測網(wǎng)絡(luò)，但也比部分目標(biāo)檢測網(wǎng)絡(luò)的檢測精度差，原因可能在于PointRGBNet使用6維RGB點(diǎn)云作為輸入，當(dāng)目標(biāo)較小或是距離較遠(yuǎn)時，6維RGB點(diǎn)云會變得比較稀疏，不利于提高檢測目標(biāo)的精度，在下一步的工作中將研究如何利用圖像的語義信息對點(diǎn)云進(jìn)行上采樣，提高點(diǎn)云的密度以優(yōu)化行人和騎行者目標(biāo)的檢測精度。PointPainting先將點(diǎn)云投影到語義分割網(wǎng)絡(luò)的檢測結(jié)果上，將類別的置信度添加到每個點(diǎn)上，再使用僅以點(diǎn)云作為輸入的目標(biāo)檢測模型來檢測3維目標(biāo)，故在騎行者目標(biāo)檢測上取得了較好的檢測效果。

圖9為PointRGBNet在KITTI測試集上對輸入的6維RGB點(diǎn)云的檢測結(jié)果，同時將檢測結(jié)果投影到2維圖像上，其中，紅色包圍框表示檢測出的目標(biāo)是行人，藍(lán)色包圍框表示檢測出的目標(biāo)是騎行者，粉紅色包圍框表示檢測出的目標(biāo)是汽車。由圖9（a）和圖9（f）可見，在2維圖像上，當(dāng)目標(biāo)與目標(biāo)之間出現(xiàn)嚴(yán)重遮擋的情況下，PointRGBNet依然可以十分有效地檢測出不同3維目標(biāo)，充分說明PointRGBNet在檢測3維目標(biāo)時的穩(wěn)定性和魯棒性。除此之外，由圖9（e）可見，PointRGBNet可以同時檢測出視場內(nèi)行人、騎行者和汽車3種不同目標(biāo)，實(shí)現(xiàn)了3維目標(biāo)的多類別檢測，比MV3D和ContFuse等單一類別檢測網(wǎng)絡(luò)，更能適應(yīng)自動駕駛汽車的感知需求。

圖9 在KITTI測試集中的部分檢測結(jié)果

同時，本文中提出的PointRGBNet也在驗(yàn)證集上進(jìn)行了測試，結(jié)果如表2所示。由于大部分目標(biāo)檢測網(wǎng)絡(luò)在各自的論文中只給出了汽車類別目標(biāo)在驗(yàn)證集上的檢測結(jié)果，所以主要比較了PointRGBNet與其他目標(biāo)檢測網(wǎng)絡(luò)在汽車類別目標(biāo)上3維目標(biāo)的檢測精度，同時也比較了PointRGBNet使用和不使用數(shù)據(jù)增強(qiáng)的目標(biāo)檢測結(jié)果。從表2可以發(fā)現(xiàn)，通過采用數(shù)據(jù)增強(qiáng)的方法，使得每幀的訓(xùn)練數(shù)據(jù)更豐富，顯著提高了PointRGBNet在驗(yàn)證集上的檢測精度，使其明顯優(yōu)于目前先進(jìn)的多傳感器融合網(wǎng)絡(luò)AVOD-FPN和ContFuse。

表2 KITTI驗(yàn)證集上不同網(wǎng)絡(luò)目標(biāo)檢測精度對比

3.5 消融實(shí)驗(yàn)

3.5.1 數(shù)據(jù)輸入

為確定使用6維RGB點(diǎn)云作為網(wǎng)絡(luò)輸入的有效性，將使用3維點(diǎn)云作為輸入和使用6維RGB點(diǎn)云作為輸入的目標(biāo)檢測結(jié)果進(jìn)行對比，在使用3維點(diǎn)云作為輸入時，將區(qū)域提案網(wǎng)絡(luò)的第1層卷積層的輸入通道數(shù)改為3，PointRGBNet的其他結(jié)構(gòu)和參數(shù)不改變，將僅使用3維點(diǎn)云作為輸入的目標(biāo)檢測結(jié)果提交至KITTI官方服務(wù)器進(jìn)行評價，其結(jié)果如表3所示。由表3可見，使用3維點(diǎn)云作為輸入檢測汽車和騎行者的精度比使用6維RGB點(diǎn)云低，但在行人目標(biāo)檢測上，兩者的檢測精度沒有太大差別，這可能是因?yàn)樾腥说捏w積比汽車和騎行者的體積小，點(diǎn)云更為稀疏，對應(yīng)的RGB通道信息相對于汽車和騎行者要少，但對于汽車等體積較大的目標(biāo)檢測精度有較大的提升，這可能是因?yàn)镽GB通道信息可以使輸入數(shù)據(jù)的語義信息變得豐富，如圖2第1幅圖中銀色汽車的點(diǎn)云為銀色，藍(lán)色汽車的點(diǎn)云為藍(lán)色，明顯區(qū)別于汽車所在位置背景點(diǎn)云的顏色，更有利于PointRGBNet進(jìn)行目標(biāo)檢測。

表3 KITTI測試集不同輸入數(shù)據(jù)目標(biāo)檢測精度對比

3.5.2 包圍框預(yù)測

本文中采用先分類再回歸的思路來預(yù)測包圍框，為確定這種做法的有效性，將目標(biāo)檢測網(wǎng)絡(luò)的包圍框預(yù)測部分改為采用直接回歸的方法來實(shí)現(xiàn)，維持網(wǎng)絡(luò)的其他部分不變，實(shí)驗(yàn)結(jié)果如表4所示。由表可見，相比于直接回歸的方法，先分類再回歸的方法可以極大地提高多類別目標(biāo)包圍框預(yù)測的精度。通過分類先確定出中心位置、航向角和包圍框尺寸所在的區(qū)間范圍，然后在區(qū)間范圍內(nèi)進(jìn)行回歸，這樣有利于避免出現(xiàn)較大誤差的情況，提高包圍框預(yù)測的準(zhǔn)確性。

表4 KITTI測試集不同包圍框預(yù)測方法目標(biāo)檢測精度對比

4 結(jié)論

本文中提出了一種多傳感器信息融合的雙階段目標(biāo)檢測網(wǎng)絡(luò)PointRGBNet。該網(wǎng)絡(luò)利用3維點(diǎn)云投影到2維圖像生成的6維RGB點(diǎn)云作為輸入，不經(jīng)過體素化和多視圖映射，讓PointRGBNet直接學(xué)習(xí)6維RGB點(diǎn)云的特征，一次輸出3維場景中所有行人、騎行者和汽車目標(biāo)的檢測結(jié)果。在KITTI驗(yàn)證集的檢測結(jié)果和測試集在官方服務(wù)器的評估結(jié)果表明，本文中提出的方法相對于目前僅基于2維圖像或3維點(diǎn)云的目標(biāo)檢測網(wǎng)絡(luò)，以及先進(jìn)的多傳感器融合網(wǎng)絡(luò)具有更高的精度，且運(yùn)行速度可以達(dá)到12幀/s，滿足實(shí)時性要求。

現(xiàn)實(shí)的交通環(huán)境十分復(fù)雜，不僅包含行人、騎行者和汽車，更有錐形標(biāo)、小動物等各類目標(biāo)，為了使自動駕駛汽車更好地適應(yīng)現(xiàn)實(shí)交通環(huán)境，下一步將研究在一個網(wǎng)絡(luò)中識別更多常見目標(biāo)，同時確保3維目標(biāo)檢測的精度有較大提升。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡