謝德勝,徐友春,陸 峰,潘世舉
(陸軍軍事交通學(xué)院軍事交通運(yùn)輸研究所,天津 300161)
自動駕駛系統(tǒng)作為人工智能技術(shù)應(yīng)用的一個重要領(lǐng)域已經(jīng)獲得較大的發(fā)展,自動駕駛系統(tǒng)主要包括感知模塊、決策規(guī)劃模塊、控制模塊和定位模塊等。感知模塊是自動駕駛系統(tǒng)的基礎(chǔ),主要負(fù)責(zé)對自動駕駛汽車周圍環(huán)境的多目標(biāo)進(jìn)行檢測、跟蹤和預(yù)測。自動駕駛汽車使用的傳感器主要包括視覺傳感器和3維激光雷達(dá)傳感器等。視覺傳感器的成本較低,可以獲取目標(biāo)的紋理信息,但容易受光照條件的影響出現(xiàn)漏檢。3維激光雷達(dá)檢測目標(biāo)輪廓的精度較高,水平視場范圍廣,可以掃描生成自動駕駛汽車周圍環(huán)境高精度的3維點(diǎn)云,但3維點(diǎn)云不包含目標(biāo)的紋理信息,缺乏對場景的語義理解。因此通過融合高精度的3維點(diǎn)云數(shù)據(jù)和具備語義信息的2維圖像,將使得數(shù)據(jù)源更豐富,更有利于準(zhǔn)確檢測3維目標(biāo)。
近年來,深度學(xué)習(xí)在2維計(jì)算機(jī)視覺任務(wù)上取得了較大進(jìn)展,但僅依靠單目視覺或立體視覺進(jìn)行3維目標(biāo)檢測的精度較低。因此,國內(nèi)外部分學(xué)者使用深度神經(jīng)網(wǎng)絡(luò)對體素化或是多視圖映射后的3維點(diǎn)云進(jìn)行3維目標(biāo)檢測,取得了一定的成果。體素化的方法保存了激光雷達(dá)點(diǎn)云部分3維信息,同時使得用3維卷積對激光雷達(dá)點(diǎn)云進(jìn)行特征提取成為可能,但體素化的方法增加了數(shù)據(jù)量,使得目標(biāo)檢測的實(shí)時性變差。多視圖映射的方法將3維點(diǎn)云投影到不同的方向生成點(diǎn)云2維映射圖,損失了原始信息,使得目標(biāo)檢測的精度下降。不同于體素化和多視圖映射的方法,PointNet++直接對3維點(diǎn)云進(jìn)行特征提取,最大化地保留了點(diǎn)云的3維信息,同時顯著提高了對3維點(diǎn)云的處理速度。僅使用2維圖像或3維點(diǎn)云進(jìn)行目標(biāo)檢測存在各自的弊端,因此,不少網(wǎng)絡(luò)嘗試融合2維圖像與3維點(diǎn)云數(shù)據(jù)來進(jìn)行目標(biāo)檢測,但大部分網(wǎng)絡(luò)都采用體素化或多視圖映射的方法來處理2維圖像和3維點(diǎn)云數(shù)據(jù),在一定程度上損失了原始信息,影響最終的3維目標(biāo)檢測結(jié)果。
為了有效利用3維點(diǎn)云的空間信息和2維圖像的語義信息,提高對不同類型3維目標(biāo)的檢測精度和檢測速度,本文中提出一種融合3維點(diǎn)云和2維圖像的雙階段目標(biāo)檢測網(wǎng)絡(luò)PointRGBNet(如圖1所示)。在第1階段的區(qū)域提案網(wǎng)絡(luò)中,不使用體素化或多視圖映射的方法,將PointNet++作為特征提取網(wǎng)絡(luò),直接對6維RGB點(diǎn)云(包括點(diǎn)的3個空間坐標(biāo)和R、G、B 3個值)進(jìn)行處理,讓區(qū)域提案網(wǎng)絡(luò)學(xué)習(xí)點(diǎn)云每個點(diǎn)的類別和每個點(diǎn)對應(yīng)的包圍框。由于輸入的6維RGB點(diǎn)云具備語義信息,同時低維特征圖與高維特征圖進(jìn)行了融合,區(qū)域提案網(wǎng)絡(luò)可以同時對人、騎行者和汽車3類目標(biāo)生成大量置信度較高的提案。在第2階段的目標(biāo)檢測網(wǎng)絡(luò)中,首先利用非極大值抑制(non-maximum suppression,NMS)篩選出每個區(qū)域中置信度較高的提案,然后根據(jù)篩選出的提案對融合后的特征圖進(jìn)行RoI(region of interest)池化,對RoI池化后每個提案內(nèi)的點(diǎn)云特征集合進(jìn)行學(xué)習(xí),正是這種針對性地學(xué)習(xí),使得提案分類和包圍框回歸的精度得到了進(jìn)一步的提升。
圖1 PointRGBNet網(wǎng)絡(luò)整體結(jié)構(gòu)
在KITTI3維目標(biāo)檢測數(shù)據(jù)集上的實(shí)驗(yàn)表明,相對于僅用2維圖像的3DOP和僅用3維點(diǎn)云的VoxelNet等網(wǎng)絡(luò),以及使用3維點(diǎn)云與2維圖像融 合 的MV3D和AVOD等 網(wǎng) 絡(luò),本 文 提 出 的PointRGBNet的檢測速度和檢測精度都有明顯的提升。
(1)2維圖像的目標(biāo)檢測
從RCNN、Fast RCNN和Faster RCNN為代表的雙階段目標(biāo)檢測網(wǎng)絡(luò),到以YOLO系列為代表的單階段目標(biāo)檢測網(wǎng)絡(luò)在2維目標(biāo)檢測任務(wù)中取得了非凡的成就。但自動駕駛汽車需要被檢測的目標(biāo)包含3維信息,Mono3D提出利用能量值最小和S-SVM的卷積神經(jīng)網(wǎng)絡(luò)來檢測3維目標(biāo),但由于2維圖像缺乏深度信息,3維目標(biāo)的檢測精度并不高。Deep3DBox使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)目標(biāo)的方向和維度,利用估計(jì)的方向、尺寸、3維包圍框的投影和2維檢測窗口的緊密匹配等約束條件恢復(fù)出移位,從而檢測出3維目標(biāo),但與使用3維點(diǎn)云的方法相比,僅使用2維圖像的Deep3DBox在檢測目標(biāo)深度信息的精度上較差。
(2)3維點(diǎn)云的目標(biāo)檢測
VoxelNet將3維點(diǎn)云體素化并歸一化,對每一個非空體素使用體素編碼器和多個卷積核進(jìn)行特征提取,雖然可以實(shí)現(xiàn)對3維目標(biāo)的分類與包圍框回歸,但由于體素化在一定程度上損失了原始信息,同時增加了計(jì)算量,導(dǎo)致了VoxelNet的檢測精度有所降低,同時也使得處理速度變慢。PointRCNN使用PointNet++作為主干網(wǎng)絡(luò)對3維點(diǎn)云進(jìn)行特征提取,并使用基于容器的思想對目標(biāo)的包圍框進(jìn)行回歸,對于單一類別的目標(biāo)檢測可以取得較好的結(jié)果,但由于PointRCNN僅使用二分類的focal loss進(jìn)行前景背景點(diǎn)云的分割,因此無法一次完成對多個類別目標(biāo)的檢測。
(1)2維圖像與毫米波雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測
2維圖像與毫米波雷達(dá)數(shù)據(jù)融合多應(yīng)用于ADAS(advanced driving assistance system)場景,文獻(xiàn)[22]中使用后融合的方式實(shí)現(xiàn)了2維圖像與毫米波雷達(dá)數(shù)據(jù)融合的目標(biāo)檢測,能有效緩解在惡劣天氣情況下由2維圖像產(chǎn)生的誤檢。CenterFusion使用關(guān)鍵點(diǎn)檢測網(wǎng)絡(luò)CenterNet生成3維目標(biāo)提案,再使用截錐將毫米波雷達(dá)檢測結(jié)果與相應(yīng)3維目標(biāo)關(guān)聯(lián)起來。最后利用融合后的特征估計(jì)出目標(biāo)的深度、航向角和速度,但CenterFusion的檢測精度較低,mAP(mean average precision)不到0.5。僅使用2維圖像與毫米波雷達(dá)數(shù)據(jù)融合的方法并不可靠,特斯拉Autopilot多次因檢測不到白色掛車等目標(biāo)而發(fā)生致命交通事故也驗(yàn)證了此點(diǎn)。
(2)2維圖像與3維點(diǎn)云融合的目標(biāo)檢測
2維圖像具備語義信息,3維點(diǎn)云具備深度信息,理論上兩種數(shù)據(jù)的有效融合將使目標(biāo)檢測的精度變得更高。MV3D使用2維圖像與3維點(diǎn)云的正視圖和俯視圖作為輸入,使用區(qū)域提案網(wǎng)絡(luò)先生成候選提案,然后再將候選提案映射到3種視圖中,通過融合3種視圖的信息來檢測3維目標(biāo),由于多視圖映射的方式損失了原始信息,使得MV3D的檢測精度并不高。AVOD先使用卷積神經(jīng)網(wǎng)絡(luò)分別對2維圖像和3維點(diǎn)云的俯視圖生成特征圖,然后利用融合后的特征圖生成提案,最后利用置信度高的提案結(jié)合特征圖對3維目標(biāo)進(jìn)行分類和包圍框回歸,由于融合后的特征圖具備多維度的特征信息,使得AVOD的檢測精度比MV3D要高,速度也更快,但與不經(jīng)過多視圖映射,直接處理3維點(diǎn)云并與2維圖像目標(biāo)檢測結(jié)果相融合的F-PointNet相比,AVOD的檢測精度還是要低。
本文中提出的PointRGBNet為雙階段多類別目標(biāo)檢測網(wǎng)絡(luò),如圖1所示。由2維圖像與3維點(diǎn)云融合生成具備RGB通道信息的6維RGB點(diǎn)云作為網(wǎng)絡(luò)的輸入,將主干網(wǎng)絡(luò)PointNet++輸出的高維特征圖與卷積層輸出的低維特征圖融合,進(jìn)而區(qū)域提案網(wǎng)絡(luò)利用融合后的特征圖生成大量置信度較高的提案,目標(biāo)檢測網(wǎng)絡(luò)利用區(qū)域提案網(wǎng)絡(luò)生成的提案進(jìn)行RoI池化得到每個提案對應(yīng)在特征圖上的特征集合,通過針對性地學(xué)習(xí)提案的特征集合來對3維場景中的人、騎行者和汽車等3維目標(biāo)進(jìn)行檢測。
區(qū)域提案網(wǎng)絡(luò)主要用于生成置信度較高的提案,在區(qū)域提案網(wǎng)絡(luò)中,將6維RGB點(diǎn)云作為輸入,經(jīng)過1×1大小的卷積核作用,生成低維的特征圖,然后將低維特征圖與PointNet++生成的高維特征圖融合,經(jīng)過特征學(xué)習(xí),實(shí)現(xiàn)點(diǎn)云語義分割和包圍框的預(yù)測,得到大量置信度較高的提案。
2.1.1 6維RGB點(diǎn)云生成
根據(jù)相機(jī)的內(nèi)部參數(shù)和外部參數(shù)將3維點(diǎn)云投影到2維圖像,然后將點(diǎn)云投影后對應(yīng)像素的RGB通道信息賦予3維點(diǎn)云,生成6維RGB點(diǎn)云。相機(jī)的內(nèi)部參數(shù)包括焦距、畸變系數(shù)等,外部參數(shù)則主要包括激光雷達(dá)坐標(biāo)系到相機(jī)坐標(biāo)系的旋轉(zhuǎn)和平移參數(shù)。
假設(shè)一個點(diǎn)在激光雷達(dá)坐標(biāo)系下的坐標(biāo)是m=(x,y,z,1),則這個點(diǎn)在圖像坐標(biāo)下的像素坐標(biāo)m=(u,v,1)可由下式求得。
式中:K為相機(jī)的內(nèi)部參數(shù)矩陣;R為激光雷達(dá)坐標(biāo)系到相機(jī)坐標(biāo)系的旋轉(zhuǎn)矩陣;t為相應(yīng)的平移向量。相機(jī)的內(nèi)部參數(shù)可以通過張正友標(biāo)定法等標(biāo)定方法得到,外部參數(shù)則可以根據(jù)文獻(xiàn)[27]中提供的標(biāo)定方法求出。本文中采用KITTI數(shù)據(jù)集,可以根據(jù)KITTI數(shù)據(jù)集提供的內(nèi)外部參數(shù)直接將3維點(diǎn)云投影在2維圖像上,剔除投影在2維圖像范圍外的點(diǎn)云,保留投影在2維圖像范圍內(nèi)的點(diǎn)云,在2維圖像成像范圍內(nèi)的點(diǎn)云是掃描在目標(biāo)及其周圍環(huán)境的點(diǎn)云,將對應(yīng)像素坐標(biāo)的RGB通道信息賦予3維點(diǎn)云,得到6維RGB點(diǎn)云,如圖2所示。
圖2 6維RGB點(diǎn)云
2.1.2 點(diǎn)云語義分割
本文中主要對行人、騎行者和汽車進(jìn)行檢測,因此融合后的特征圖經(jīng)過2層卷積層的特征提取,得到大小為N×4的特征圖,每個點(diǎn)對應(yīng)4個通道,經(jīng)過Softmax層之后,得到每個點(diǎn)屬于行人、騎行者、汽車和背景的概率P。由于在一幀場景中,3維目標(biāo)包含的點(diǎn)云與背景點(diǎn)云的比例懸殊,正負(fù)樣本極度不平 衡 將 使 得 訓(xùn) 練 變 得 困 難。RetinaNet、CornerNet和F-PointNets等 目 標(biāo) 檢測 網(wǎng)絡(luò) 使 用focal loss作為二分類的損失函數(shù),可以有效識別場景中的單一類別,但在真實(shí)的應(yīng)用場景中,往往需要同時識別場景中的多種類別的目標(biāo)。在focal loss的基礎(chǔ)之上,本文中提出新的多分類損失函數(shù),讓PointRGBNet在訓(xùn)練的過程中更專注于多類別中難以區(qū)分的樣本,使得正樣本的輸出概率越大損失越小,負(fù)樣本的輸出概率越小損失越小。采用one-hot編碼對每個點(diǎn)的類別真值進(jìn)行編碼,得到N×4的真值矩陣G,則在語義分割時的損失函數(shù)可以定義為
式中α為對應(yīng)參數(shù)值構(gòu)成的矩陣,對于正樣本α=0.25,負(fù)樣本α=0.75,參數(shù)γ=2。點(diǎn)云分割結(jié)果如圖3所示,其中紅色的點(diǎn)云為行人,藍(lán)色的點(diǎn)云為騎行者,粉紅色的點(diǎn)云為汽車,綠色的點(diǎn)云為背景。
圖3 點(diǎn)云語義分割結(jié)果
2.1.3 提案生成
融合后的特征圖經(jīng)過2層卷積層的特征提取,可以得到用于包圍框預(yù)測的特征圖。由于不同類別目標(biāo)的中心位置、航向角和包圍框尺寸的差異較大,如果直接采用Smooth L1等回歸損失函數(shù)對預(yù)測結(jié)果與真值的偏差進(jìn)行學(xué)習(xí),難以準(zhǔn)確地預(yù)測3維目標(biāo)的中心位置、航向角和包圍框尺寸。受PointRCNN基于容器的包圍框預(yù)測思想的啟發(fā),本文中采用先分類再回歸的思想,將3維目標(biāo)的中心位置、航向角和包圍框尺寸先分類到某個區(qū)間,然后在這個區(qū)間內(nèi)對偏差進(jìn)行回歸。相比于PointRCNN一次只能對一種特定的類別、尺寸相對固定的目標(biāo)的包圍框進(jìn)行預(yù)測,本文中提出的方法可以同時對多種不同類別、各種尺寸目標(biāo)的包圍框進(jìn)行預(yù)測。
將在行人、騎行者和汽車等目標(biāo)的真值包圍框內(nèi)的點(diǎn)云視為前景點(diǎn),其他點(diǎn)云視為背景點(diǎn)。若一個前景點(diǎn)的空間位置為(x,y,z),則在此前景點(diǎn)左下方向建立如圖4(a)所示的局部空間直角坐標(biāo)o-xyz,原點(diǎn)到前景點(diǎn)的橫向距離與縱向距離都為d,原點(diǎn)處于前景點(diǎn)所在平面的下方,(x,y,z)表示預(yù)測的中心點(diǎn)(即汽車外接長方形的形心)所在區(qū)間,(,,)表 示 預(yù) 測 的 中 心 點(diǎn) 在 相 應(yīng) 區(qū) 間(,,)的位置到此區(qū)間起點(diǎn)的偏差。將航向角的范圍[0°,360°)劃分為若干個相等的區(qū)間,航向角預(yù)測值所在的區(qū)間為,航向角預(yù)測值在區(qū)間的方向到此區(qū)間起始方向的夾角為,如圖4(b)所示。同時,將長寬高的尺度范圍劃分為若干個相等長度的區(qū)間,長寬高預(yù)測值所在區(qū)間為(,,),長寬高預(yù)測值在區(qū)間(,,)的位置到此區(qū)間起點(diǎn)的偏差為(,,),如圖4(c)所示。
圖4 包圍框預(yù)測示意圖
采用交叉熵?fù)p失函數(shù)對預(yù)測的中心位置、航向角、包圍框尺寸所在的區(qū)間進(jìn)行分類,而相應(yīng)的偏差則先進(jìn)行歸一化然后采用Smooth L1損失函數(shù)進(jìn)行回歸。
因此,在包圍框預(yù)測時的損失函數(shù)如式(3)所示,其中,表示真值所在區(qū)間,表示真值在相應(yīng)區(qū)間的位置到該區(qū)間起點(diǎn)的偏差,表示相應(yīng)回歸量區(qū)間的標(biāo)準(zhǔn)尺度,表示交叉熵?fù)p失函數(shù),表示Smooth L1損失函數(shù)。
利用點(diǎn)云與真值包圍框的位置關(guān)系可以確定出前景點(diǎn),通過前景點(diǎn)來訓(xùn)練包圍框預(yù)測子網(wǎng)絡(luò),從而實(shí)現(xiàn)點(diǎn)對包圍框的預(yù)測,再將語義分割結(jié)果與包圍框預(yù)測結(jié)果結(jié)合,保留語義分割結(jié)果為行人、騎行者和汽車的前景點(diǎn)云和對應(yīng)的包圍框預(yù)測結(jié)果,從而得到大量置信度較高的提案,這些提案將作為第2階段目標(biāo)檢測網(wǎng)絡(luò)的輸入。利用非極大值抑制算法可以篩選出各個區(qū)域范圍內(nèi)置信度相對較高的提案,同時也降低了第2階段目標(biāo)檢測網(wǎng)絡(luò)的計(jì)算量,加快3維目標(biāo)檢測的速度,提案生成過程如圖5所示。
圖5 提案生成示意圖
區(qū)域提案網(wǎng)絡(luò)可以生成大量置信度較高的提案,但由于使用PointNet++進(jìn)行特征提取和特征學(xué)習(xí)時,只考慮以前景點(diǎn)為中心、以特定長度為半徑的球內(nèi)所有6維RGB點(diǎn)云的特征,沒有充分利用提案內(nèi)及其附近的點(diǎn)云特征進(jìn)行學(xué)習(xí),為了進(jìn)一步提高3維目標(biāo)分類和包圍框預(yù)測的精度,提出采用RoI池化對提案內(nèi)和提案附近的點(diǎn)云進(jìn)行采樣和特征學(xué)習(xí),以得到更精準(zhǔn)的3維目標(biāo)檢測結(jié)果。
2.2.1 RoI池化
采用NMS可以得到各區(qū)域中置信度較高的提案,對提案的長寬高分別小幅度地擴(kuò)大ε、ε、ε,得到由提案擴(kuò)大后的RoI,RoI包含前景點(diǎn)云和部分前景點(diǎn)云附近的背景點(diǎn)云,采用最遠(yuǎn)點(diǎn)采樣法從每個提案內(nèi)采樣得到固定數(shù)量的點(diǎn)云,如圖6所示。
圖6 RoI池化示意圖
用最遠(yuǎn)點(diǎn)采樣法獲取N個采樣點(diǎn)的步驟如下:
(1)隨機(jī)選取RoI內(nèi)一個點(diǎn)作為初始點(diǎn),從剩余的點(diǎn)云中找到距離初始點(diǎn)最遠(yuǎn)的點(diǎn),構(gòu)成初始點(diǎn)集B;
(2)計(jì)算任意一個剩余點(diǎn)到點(diǎn)集B中所有點(diǎn)的距離,將所有距離中最小值作為該剩余點(diǎn)到點(diǎn)集B的距離;
(3)計(jì)算出每個剩余點(diǎn)到點(diǎn)集B的距離后,取距離最大的剩余點(diǎn)作為新的采樣點(diǎn),并加入點(diǎn)集B;
(4)重復(fù)步驟(2)~(3),一直采樣到目標(biāo)數(shù)量N為止。
通過RoI池化可以對包含不同點(diǎn)云數(shù)量的提案采樣得到N個固定的采樣點(diǎn),原始點(diǎn)云主要用于最遠(yuǎn)點(diǎn)采樣,不作為特征輔助目標(biāo)檢測網(wǎng)絡(luò)的精修,將采樣點(diǎn)云映射到融合后的特征圖上,根據(jù)映射關(guān)系由融合后的特征圖生成每個RoI的特征集合,進(jìn)而通過特征學(xué)習(xí)實(shí)現(xiàn)更精準(zhǔn)的提案分類和包圍框預(yù)測。
2.2.2 3維目標(biāo)檢測
每個RoI對應(yīng)的特征集合經(jīng)過卷積層和全連接層的作用之后,得到長度為4的特征,使用Softmax層可以得到每個RoI屬于人、騎行者、汽車和背景的概率,將概率最大的類別作為RoI的類別,由于區(qū)域提案網(wǎng)絡(luò)可以有效地檢測出場景中大量真實(shí)存在的提案,不同類別之間比例失衡的問題得到緩解,在對RoI進(jìn)行分類時,直接使用交叉熵?fù)p失函數(shù)計(jì)算RoI所屬類別的損失,如式(4)所示。
式中:C表示類別的預(yù)測值;C表示類別的真值;L表示分類時的損失。
在預(yù)測包圍框時,采用先分類再回歸的思想,區(qū)域提案網(wǎng)絡(luò)生成的提案中心、航向角和包圍框尺寸已經(jīng)較準(zhǔn)確,在進(jìn)行中心位置和航向角的區(qū)間分類時,采用比區(qū)域提案網(wǎng)絡(luò)中尺度更小的區(qū)間,以提高包圍框預(yù)測的精度。得益于分類區(qū)間尺度的變小和使得特征學(xué)習(xí)更具針對性的RoI池化,包圍框預(yù)測的精度獲得了較大地提升。
對包圍框中心進(jìn)行預(yù)測時,在預(yù)測框中心左下角方向建立局部空間直角坐標(biāo)o-xyz,原點(diǎn)到預(yù)測框中心的橫向距離與縱向距離都為a,原點(diǎn)位于預(yù)測框中心所在平面的下方,(x,y,z)表示預(yù)測框中心所在區(qū)間,(x,y,z)表示預(yù)測框中心所在區(qū)間位置到此區(qū)間起點(diǎn)的偏差。對包圍框航向角進(jìn)行預(yù)測時,以包圍框的航向預(yù)測值順時針偏15°為0°起始方向,逆時針為正,順時針為負(fù),將航向角的范圍[-45°,45°]和[135°,225°]劃分為若干個區(qū)間,預(yù)測框的航向角所在區(qū)間為r,真值框的航向角方向所在區(qū)間r內(nèi)到此區(qū)間起始方向的夾角為r,如圖7所示。
圖7 中心位置和航向角預(yù)測示意圖
則中心位置和航向角的損失如下:
區(qū)域提案網(wǎng)絡(luò)生成的包圍框尺寸與包圍框真值尺寸比較相近,若包圍框尺寸預(yù)測值為(l,w,h),包圍框尺寸真值為(l,w,h),兩者的損失可以直接通過Smooth L1損失函數(shù)計(jì)算,如式(6)所示。
因此在包圍框預(yù)測時的損失定義見式(7),在得到包圍框的預(yù)測結(jié)果之后,同時結(jié)合包圍框分類的結(jié)果,采用NMS得到各區(qū)域中置信度最高的提案,并作為3維目標(biāo)的最終檢測結(jié)果。
實(shí)驗(yàn)數(shù)據(jù)為KITTI數(shù)據(jù)集,KITTI數(shù)據(jù)集分為兩部分,一部分有真值的數(shù)據(jù)集包含2維圖像和3維點(diǎn)云各7 481幀,另一部分沒有真值的數(shù)據(jù)集包含2維圖像和3維點(diǎn)云各7 518幀。根據(jù)目標(biāo)在相機(jī)視場內(nèi)的可見程度,將數(shù)據(jù)分為簡單、中等、困難3種不同等級。由于官方?jīng)]有提供測試集的真值,所以將有真值的數(shù)據(jù)集等分為訓(xùn)練集和驗(yàn)證集,訓(xùn)練集用于網(wǎng)絡(luò)的訓(xùn)練,驗(yàn)證集則用于網(wǎng)絡(luò)的本地評估,而不含真值的數(shù)據(jù)集則全部作為測試集用于在線提交檢測結(jié)果。因?yàn)镵ITTI數(shù)據(jù)集只標(biāo)注了2維圖像范圍內(nèi)的目標(biāo),本文對2維圖像和3維點(diǎn)云融合時,只考慮在相機(jī)視場內(nèi)的圖像和點(diǎn)云,如圖8所示。
圖8 相機(jī)視場內(nèi)6維RGB點(diǎn)云生成示例
本文中使用PyTorch框架實(shí)現(xiàn)PointRGBNet的網(wǎng)絡(luò)結(jié)構(gòu),使用2塊NVIDIA Tesla-V100 GPU和1塊Intel i7 CPU共同進(jìn)行并行訓(xùn)練,在NVIDIA GTX1060 GPU和Intel i7 CPU上進(jìn)行推理測試。在區(qū)域提案網(wǎng)絡(luò)階段,采樣的6維RGB點(diǎn)云數(shù)量為18 000個點(diǎn),當(dāng)采樣點(diǎn)云數(shù)量不足18 000個點(diǎn)時,則在包含所有采樣點(diǎn)云的基礎(chǔ)上,從采樣點(diǎn)云里面隨機(jī)采樣補(bǔ)足18 000個點(diǎn),訓(xùn)練時,使用Adam優(yōu)化器,動量為0.9,初始學(xué)習(xí)率設(shè)置為0.001,衰減系數(shù)為0.001,批的大小為16,共迭代200次。在目標(biāo)檢測網(wǎng)絡(luò)階段,RoI池化的采樣點(diǎn)云數(shù)量為512個,當(dāng)RoI內(nèi)點(diǎn)云不足512個時,則在包含RoI內(nèi)所有點(diǎn)云的基礎(chǔ)上,隨機(jī)采樣補(bǔ)足512個點(diǎn),訓(xùn)練時,使用Adam優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.001,衰減系數(shù)為0.001,批的大小為16,共迭代100次。
KITTI數(shù)據(jù)集不同幀中的訓(xùn)練數(shù)據(jù)分布不均衡,為了更好地訓(xùn)練PointRGBNet,須對訓(xùn)練數(shù)據(jù)進(jìn)行增強(qiáng)。對獲取的每幀訓(xùn)練數(shù)據(jù),隨機(jī)將其他幀3維目標(biāo)包圍框內(nèi)的6維RGB點(diǎn)云及其鄰近的RGB點(diǎn)云添加到當(dāng)前幀中,以增加訓(xùn)練時每幀點(diǎn)云的目標(biāo)數(shù)量。
除此之外,隨機(jī)選取每幀點(diǎn)云中的3維目標(biāo)連同包含的6維RGB點(diǎn)云進(jìn)行[-1 m,1 m]范圍內(nèi)的隨機(jī)橫向和縱向偏移、[0.9,1.1]比例范圍內(nèi)的隨機(jī)尺度變換、[-15°,15°]范圍內(nèi)的隨機(jī)水平旋轉(zhuǎn)和[-3°,3°]范圍內(nèi)小角度俯仰旋轉(zhuǎn),若變換完以后的真值包圍框和當(dāng)前幀中其他真值包圍框有重疊的情況,則放棄本次數(shù)據(jù)增強(qiáng),隨機(jī)選取其他目標(biāo)進(jìn)行數(shù)據(jù)增強(qiáng)。通過這種數(shù)據(jù)增強(qiáng)的方式,可以有效地提高網(wǎng)絡(luò)訓(xùn)練精度和泛化能力。
本文中使用3維目標(biāo)包圍框真值和包圍框預(yù)測值之間的交并比(intersection over union,IoU)作為評估包圍框預(yù)測值準(zhǔn)確程度的標(biāo)準(zhǔn),當(dāng)包圍框預(yù)測值的IoU大于某一閾值時為正確檢測,否則為錯誤檢測,選取KITTI數(shù)據(jù)集官方閾值標(biāo)準(zhǔn)作為3維目標(biāo)檢測的IoU閾值,即汽車IoU閾值為0.7,行人和騎行者為0.5。KITTI測試集數(shù)據(jù)的真值只存在于官方測試服務(wù)器,用于統(tǒng)一評估各種算法的綜合性能,具有較高的客觀性和公正性。本文中提出的PointRGBNet在KITTI數(shù)據(jù)集官方測試服務(wù)器上進(jìn)行了公開測評,結(jié)果如表1所示。
表1 KITTI測試集上不同網(wǎng)絡(luò)目標(biāo)檢測精度對比
在檢測汽車目標(biāo)上,本文中提出的PointRGBNet的檢測精度極大地優(yōu)于僅采用單目視覺的Kinematic3D和3DOP,這主要是因?yàn)?維圖像不包含深度信息,利用單目視覺難以精準(zhǔn)地估計(jì)3維目標(biāo)的空間位置,而PointRGBNet在利用2維圖像語義信息的同時,也有效使用了3維點(diǎn)云的深度信息。PointRGBNet直接對6維RGB點(diǎn)云進(jìn)行處理,最大程度地保留了原始信息,而VoxelNet和3DBN采用體素化的方法處理點(diǎn)云數(shù)據(jù),在一定程度上壓縮了原始信息,同時增加了計(jì)算量,因此PointRGBNet在檢測精度和處理速度都優(yōu)于VoxelNet和3DBN。PointRGBNet的輸入包含2維圖像的語義信息和3維點(diǎn)云的空間信息,在原始數(shù)據(jù)層面上進(jìn)行了融合,因而檢測精度高于同樣使用PointNet++作為主干網(wǎng)絡(luò)但采用后融合方式進(jìn)行目標(biāo)檢測的F-PointNet。由于PointRGBNet沒有進(jìn)行多視圖的映射和點(diǎn)云體素化,故其對汽車檢測的精度比采用點(diǎn)云體素化和多視 圖 映 射 的MV3D和AVOD、AVOD-、FPN、ContFuse和PointPainting都高。
在行人和騎行者目標(biāo)檢測上,PointRGBNet的檢測精度要優(yōu)于部分僅采用3維點(diǎn)云或是多傳感器融合的3維目標(biāo)檢測網(wǎng)絡(luò),但也比部分目標(biāo)檢測網(wǎng)絡(luò)的檢測精度差,原因可能在于PointRGBNet使用6維RGB點(diǎn)云作為輸入,當(dāng)目標(biāo)較小或是距離較遠(yuǎn)時,6維RGB點(diǎn)云會變得比較稀疏,不利于提高檢測目標(biāo)的精度,在下一步的工作中將研究如何利用圖像的語義信息對點(diǎn)云進(jìn)行上采樣,提高點(diǎn)云的密度以優(yōu)化行人和騎行者目標(biāo)的檢測精度。PointPainting先將點(diǎn)云投影到語義分割網(wǎng)絡(luò)的檢測結(jié)果上,將類別的置信度添加到每個點(diǎn)上,再使用僅以點(diǎn)云作為輸入的目標(biāo)檢測模型來檢測3維目標(biāo),故在騎行者目標(biāo)檢測上取得了較好的檢測效果。
圖9為PointRGBNet在KITTI測試集上對輸入的6維RGB點(diǎn)云的檢測結(jié)果,同時將檢測結(jié)果投影到2維圖像上,其中,紅色包圍框表示檢測出的目標(biāo)是行人,藍(lán)色包圍框表示檢測出的目標(biāo)是騎行者,粉紅色包圍框表示檢測出的目標(biāo)是汽車。由圖9(a)和圖9(f)可見,在2維圖像上,當(dāng)目標(biāo)與目標(biāo)之間出現(xiàn)嚴(yán)重遮擋的情況下,PointRGBNet依然可以十分有效地檢測出不同3維目標(biāo),充分說明PointRGBNet在檢測3維目標(biāo)時的穩(wěn)定性和魯棒性。除此之外,由圖9(e)可見,PointRGBNet可以同時檢測出視場內(nèi)行人、騎行者和汽車3種不同目標(biāo),實(shí)現(xiàn)了3維目標(biāo)的多類別檢測,比MV3D和ContFuse等單一類別檢測網(wǎng)絡(luò),更能適應(yīng)自動駕駛汽車的感知需求。
圖9 在KITTI測試集中的部分檢測結(jié)果
同時,本文中提出的PointRGBNet也在驗(yàn)證集上進(jìn)行了測試,結(jié)果如表2所示。由于大部分目標(biāo)檢測網(wǎng)絡(luò)在各自的論文中只給出了汽車類別目標(biāo)在驗(yàn)證集上的檢測結(jié)果,所以主要比較了PointRGBNet與其他目標(biāo)檢測網(wǎng)絡(luò)在汽車類別目標(biāo)上3維目標(biāo)的檢測精度,同時也比較了PointRGBNet使用和不使用數(shù)據(jù)增強(qiáng)的目標(biāo)檢測結(jié)果。從表2可以發(fā)現(xiàn),通過采用數(shù)據(jù)增強(qiáng)的方法,使得每幀的訓(xùn)練數(shù)據(jù)更豐富,顯著提高了PointRGBNet在驗(yàn)證集上的檢測精度,使其明顯優(yōu)于目前先進(jìn)的多傳感器融合網(wǎng)絡(luò)AVOD-FPN和ContFuse。
表2 KITTI驗(yàn)證集上不同網(wǎng)絡(luò)目標(biāo)檢測精度對比
3.5.1 數(shù)據(jù)輸入
為確定使用6維RGB點(diǎn)云作為網(wǎng)絡(luò)輸入的有效性,將使用3維點(diǎn)云作為輸入和使用6維RGB點(diǎn)云作為輸入的目標(biāo)檢測結(jié)果進(jìn)行對比,在使用3維點(diǎn)云作為輸入時,將區(qū)域提案網(wǎng)絡(luò)的第1層卷積層的輸入通道數(shù)改為3,PointRGBNet的其他結(jié)構(gòu)和參數(shù)不改變,將僅使用3維點(diǎn)云作為輸入的目標(biāo)檢測結(jié)果提交至KITTI官方服務(wù)器進(jìn)行評價,其結(jié)果如表3所示。由表3可見,使用3維點(diǎn)云作為輸入檢測汽車和騎行者的精度比使用6維RGB點(diǎn)云低,但在行人目標(biāo)檢測上,兩者的檢測精度沒有太大差別,這可能是因?yàn)樾腥说捏w積比汽車和騎行者的體積小,點(diǎn)云更為稀疏,對應(yīng)的RGB通道信息相對于汽車和騎行者要少,但對于汽車等體積較大的目標(biāo)檢測精度有較大的提升,這可能是因?yàn)镽GB通道信息可以使輸入數(shù)據(jù)的語義信息變得豐富,如圖2第1幅圖中銀色汽車的點(diǎn)云為銀色,藍(lán)色汽車的點(diǎn)云為藍(lán)色,明顯區(qū)別于汽車所在位置背景點(diǎn)云的顏色,更有利于PointRGBNet進(jìn)行目標(biāo)檢測。
表3 KITTI測試集不同輸入數(shù)據(jù)目標(biāo)檢測精度對比
3.5.2 包圍框預(yù)測
本文中采用先分類再回歸的思路來預(yù)測包圍框,為確定這種做法的有效性,將目標(biāo)檢測網(wǎng)絡(luò)的包圍框預(yù)測部分改為采用直接回歸的方法來實(shí)現(xiàn),維持網(wǎng)絡(luò)的其他部分不變,實(shí)驗(yàn)結(jié)果如表4所示。由表可見,相比于直接回歸的方法,先分類再回歸的方法可以極大地提高多類別目標(biāo)包圍框預(yù)測的精度。通過分類先確定出中心位置、航向角和包圍框尺寸所在的區(qū)間范圍,然后在區(qū)間范圍內(nèi)進(jìn)行回歸,這樣有利于避免出現(xiàn)較大誤差的情況,提高包圍框預(yù)測的準(zhǔn)確性。
表4 KITTI測試集不同包圍框預(yù)測方法目標(biāo)檢測精度對比
本文中提出了一種多傳感器信息融合的雙階段目標(biāo)檢測網(wǎng)絡(luò)PointRGBNet。該網(wǎng)絡(luò)利用3維點(diǎn)云投影到2維圖像生成的6維RGB點(diǎn)云作為輸入,不經(jīng)過體素化和多視圖映射,讓PointRGBNet直接學(xué)習(xí)6維RGB點(diǎn)云的特征,一次輸出3維場景中所有行人、騎行者和汽車目標(biāo)的檢測結(jié)果。在KITTI驗(yàn)證集的檢測結(jié)果和測試集在官方服務(wù)器的評估結(jié)果表明,本文中提出的方法相對于目前僅基于2維圖像或3維點(diǎn)云的目標(biāo)檢測網(wǎng)絡(luò),以及先進(jìn)的多傳感器融合網(wǎng)絡(luò)具有更高的精度,且運(yùn)行速度可以達(dá)到12幀/s,滿足實(shí)時性要求。
現(xiàn)實(shí)的交通環(huán)境十分復(fù)雜,不僅包含行人、騎行者和汽車,更有錐形標(biāo)、小動物等各類目標(biāo),為了使自動駕駛汽車更好地適應(yīng)現(xiàn)實(shí)交通環(huán)境,下一步將研究在一個網(wǎng)絡(luò)中識別更多常見目標(biāo),同時確保3維目標(biāo)檢測的精度有較大提升。