郭保青 ,謝光非
(1. 北京交通大學(xué)機(jī)械與電子控制工程學(xué)院,北京100044;2. 北京交通大學(xué)智慧高鐵系統(tǒng)前沿科學(xué)中心,北京100044)
基于目標(biāo)檢測(cè)的環(huán)境感知是自動(dòng)駕駛和機(jī)器人導(dǎo)航[1-2]的基礎(chǔ),常見(jiàn)的目標(biāo)檢測(cè)方法包括二維圖像目標(biāo)識(shí)別和三維點(diǎn)云目標(biāo)精確定位。基于 二 維 圖 像 的 SPPnet[3],R-CNN[4],F(xiàn)ast RCNN[5],F(xiàn)aster R-CNN[6]和 YOLO[7]系列算法被廣泛應(yīng)用于目標(biāo)識(shí)別,這類算法效率較高,但對(duì)目標(biāo)大小及位置的估計(jì)不夠準(zhǔn)確。
與二維目標(biāo)檢測(cè)[8-9]相比,基于三維點(diǎn)云的目標(biāo)識(shí)別與定位[10]可以精準(zhǔn)估計(jì)目標(biāo)的三維尺寸及位置,對(duì)車輛自主駕駛和機(jī)器人導(dǎo)航具有更重要的意義。然而,三維目標(biāo)檢測(cè)面臨著數(shù)據(jù)量大、點(diǎn)云分布不均勻和處理復(fù)雜等諸多挑戰(zhàn),許多相關(guān)研究致力于提高三維點(diǎn)云檢測(cè)的時(shí)效性和準(zhǔn)確性。Complex-YOLO[11]和 YOLO3D[12]算法對(duì)YOLO 的檢測(cè)框架進(jìn)行了三維擴(kuò)展,PIX?OR[13]將三維點(diǎn)云投影到BEV 視圖中進(jìn)行二維檢測(cè),SqueezeSeg 算法[14]則將三維點(diǎn)云投影到了球形網(wǎng)格。上述這類算法均是利用成熟的二維探測(cè)框架將點(diǎn)云投影到平面上,然而投影過(guò)程中的空間信息丟失會(huì)導(dǎo)致空間遮擋和精度下降的問(wèn)題。第二類算法通過(guò)對(duì)點(diǎn)云體素化進(jìn)行三維卷積操作提取點(diǎn)云特征并生成檢測(cè)框。ZHOU等人提出的VoxelNet[15]首先將點(diǎn)云劃分為體素,然后使用RPN 網(wǎng)絡(luò)進(jìn)行對(duì)象檢測(cè);Second 網(wǎng)絡(luò)[16]同樣對(duì)點(diǎn)云進(jìn)行體素劃分,使用 Pointnet 對(duì)非空體素進(jìn)行特征提取。由于點(diǎn)云的稀疏性,這類算法進(jìn)行點(diǎn)云體素化大大增加了數(shù)據(jù)量,大量的空白體素會(huì)導(dǎo)致計(jì)算的浪費(fèi)。
激光點(diǎn)云與圖像融合算法也可以分為兩類。Liang 等人[17]提出了多任務(wù)多傳感器檢測(cè)模型分別對(duì)激光點(diǎn)云和圖像進(jìn)行特征提取,然后輸入到同一神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)分類和預(yù)測(cè),屬于前融合方案?,F(xiàn)有大部分前融合方案網(wǎng)絡(luò)本身較為復(fù)雜,難以實(shí)現(xiàn)實(shí)時(shí)性。Wu 等人[18]分別利用點(diǎn)云和圖像進(jìn)行行人檢測(cè),再對(duì)檢測(cè)結(jié)果進(jìn)行匹配后輸出最終融合的結(jié)果,屬于后融合方案。但目前后融合方法應(yīng)用較為局限,極少能夠用于交通環(huán)境目標(biāo)檢測(cè)。
特征提取是目標(biāo)檢測(cè)的重要環(huán)節(jié),卷積作為一種特征提取方法已經(jīng)廣泛應(yīng)用于二維圖像目標(biāo)識(shí)別,但由于點(diǎn)云的無(wú)序性,卷積無(wú)法直接應(yīng)用于點(diǎn)云特征提取。Pointnet[19]首次提出了一種針對(duì)三維點(diǎn)云直接提取特征的網(wǎng)絡(luò)結(jié)構(gòu),但采用最大池化解決點(diǎn)云無(wú)序性問(wèn)題,由于本地連接被忽略,僅能提取全局特征。為了解決這一問(wèn)題,通常采用最遠(yuǎn)點(diǎn)采樣方法生成種子點(diǎn)對(duì)原始點(diǎn)云進(jìn)行分組,但這種方法只能保證覆蓋面廣,不能代表最優(yōu)選擇。為了優(yōu)化點(diǎn)云分組策略,本文提出了一種改進(jìn)的投票模型網(wǎng)絡(luò),利用神經(jīng)網(wǎng)絡(luò)優(yōu)化種子點(diǎn)的選擇并用于后續(xù)多尺度局部特征提取。
目標(biāo)檢測(cè)精度通常采用檢測(cè)框與實(shí)際目標(biāo)框的交并比(IOU)作為評(píng)價(jià)指標(biāo)。目標(biāo)檢測(cè)中一般使用L1 或L2 損失函數(shù)進(jìn)行檢測(cè)框的優(yōu)化,但是不同的L1 和L2 損失值可能具有相同的IOU 值,此時(shí)利用IOU 作為二維檢測(cè)損失函數(shù)會(huì)存在很大的不收斂風(fēng)險(xiǎn)[20-21]。為了提升收斂性,文獻(xiàn)[22-23]通過(guò) IOU 進(jìn)行優(yōu)化提出了 GIOU 和 DI?OU 損失函數(shù),但只適用于二維情況。為了解決三維目標(biāo)檢測(cè)問(wèn)題,本文提出了一種適用于三維點(diǎn)云檢測(cè)的N3D_DIOU_loss 損失函數(shù)來(lái)統(tǒng)一損失函數(shù)和評(píng)估準(zhǔn)則,達(dá)到了較好的檢測(cè)效果。
本文充分利用經(jīng)過(guò)事先聯(lián)合標(biāo)定的二維圖像及三維點(diǎn)云信息,提出了融合二維圖像與三維點(diǎn)云的目標(biāo)檢測(cè)框架,利用二維圖像中檢測(cè)到的目標(biāo)提取三維點(diǎn)云中的截頭體來(lái)濾除多余的背景點(diǎn),降低了三維計(jì)算成本;提出基于廣義霍夫變換的改進(jìn)投票模型用于多尺度特征提取,同時(shí)提出N3D_DIOU_loss 將DIOU 損失函數(shù)從二維拓展到三維,代替?zhèn)鹘y(tǒng)的L1 損失函數(shù)優(yōu)化回歸目標(biāo)框,使得目標(biāo)框的生成更精確。KITTI 數(shù)據(jù)集的消融實(shí)驗(yàn)表明:與經(jīng)典方法相比,本文算法在三維目標(biāo)檢測(cè)精度和俯瞰圖檢測(cè)精度上均有較大提升,達(dá)到了較好的檢測(cè)效果。
本節(jié)主要介紹融合二維圖像及三維點(diǎn)云的目標(biāo)檢測(cè)網(wǎng)絡(luò)整體結(jié)構(gòu)。如圖1 所示,目標(biāo)檢測(cè)網(wǎng)絡(luò)分為三個(gè)主要部分:(1)數(shù)據(jù)預(yù)處理;(2)投票模型網(wǎng)絡(luò);(3)RPN 網(wǎng)絡(luò)。目標(biāo)檢測(cè)網(wǎng)絡(luò)以三維原始點(diǎn)云和二維圖像作為輸入,用二維圖像檢測(cè)框?qū)?yīng)的平截頭體進(jìn)行點(diǎn)云過(guò)濾;過(guò)濾后的點(diǎn)云被初步聚類,并由改進(jìn)的投票模型網(wǎng)絡(luò)層進(jìn)行特征提取,然后使用FCN 網(wǎng)絡(luò)進(jìn)行多尺度特征融合,融合后的特征被輸入到檢測(cè)頭,包括分類頭(CLS)和回歸頭(REG),以預(yù)測(cè)檢測(cè)結(jié)果。
圖1 檢測(cè)網(wǎng)絡(luò)框架Fig.1 Detection network framework
為了綜合利用二維圖像及三維點(diǎn)云提供的特征信息提升點(diǎn)云處理效率,假設(shè)激光雷達(dá)和攝像機(jī)已經(jīng)聯(lián)合校準(zhǔn),可以執(zhí)行坐標(biāo)轉(zhuǎn)換。由于二維圖像目標(biāo)檢測(cè)算法相對(duì)成熟且高效,本文首先使用二維檢測(cè)器在圖像中提取目標(biāo)框,然后用二維框所對(duì)應(yīng)的平截頭體過(guò)濾三維目標(biāo)點(diǎn)云,過(guò)濾后的點(diǎn)云圍繞二維圖像中對(duì)應(yīng)目標(biāo)中心點(diǎn)的空間點(diǎn)進(jìn)行旋轉(zhuǎn)直到中心線與坐標(biāo)軸Y對(duì)齊,以便于后續(xù)的點(diǎn)云聚合。其中,中心線是由二維被測(cè)物體中心反投影到三維空間生成的。
學(xué)習(xí)點(diǎn)云的語(yǔ)義特征,首先需要提取相鄰點(diǎn)的低層幾何特征。
過(guò)濾后的點(diǎn)云仍具有離散性和無(wú)序性的特點(diǎn)。為了對(duì)點(diǎn)云進(jìn)行分類和分割,一些算法使用最近鄰采樣來(lái)聚集點(diǎn)云,使用最遠(yuǎn)點(diǎn)采樣(FPS)生成原始種子點(diǎn),F(xiàn)PS 雖然覆蓋的點(diǎn)云范圍很廣,但無(wú)法確定目標(biāo)的具體位置。另一類算法采用體素分割用于在同一體素內(nèi)聚集點(diǎn)云,然而這種體素分割方法無(wú)法獲得邊界的位置。
為了解決這些問(wèn)題,我們提出了一個(gè)如圖2所示的改進(jìn)的投票模型網(wǎng)絡(luò)來(lái)生成原始種子點(diǎn),該網(wǎng)絡(luò)主要由投票模塊、分組模塊和Pointnet 模塊組成。其中采用結(jié)合基于廣義霍夫變換的vote 投票模塊與基于最遠(yuǎn)點(diǎn)采樣的分組模塊進(jìn)行點(diǎn)云的聚類,采用Pointnet 進(jìn)行多尺度特征提取。
圖2 投票模型網(wǎng)絡(luò)Fig.2 Vote model network
首先將包含點(diǎn)云位置和激光反射強(qiáng)度特征的過(guò)濾點(diǎn)云輸入到由conv 層、BN 層和relu 層組成的投票模塊中,這些模塊共享權(quán)重模擬了廣義霍夫變換對(duì)中心點(diǎn)的投票過(guò)程尋找點(diǎn)云的聚類中心生成目標(biāo)中心。在此基礎(chǔ)上,本文進(jìn)一步基于目標(biāo)中心的深度和角度生成采樣中心以此改進(jìn)了投票模型,使得網(wǎng)絡(luò)可以獲得更精細(xì)的局部特征。目標(biāo)中心的位移偏移Δxi和特征偏移Δfi由投票模塊生成,并由L1 損失函數(shù)監(jiān)督。投票模塊生成目標(biāo)中心yi,再由分組模塊基于最遠(yuǎn)點(diǎn)采樣原理對(duì)過(guò)濾后的點(diǎn)云進(jìn)行聚合得到分組點(diǎn)。由于目標(biāo)的大小和點(diǎn)云的密度未知,所以使用四組不同的歐式距離劃定球形區(qū)域進(jìn)行粗略聚類,在球形區(qū)域中使用最遠(yuǎn)點(diǎn)采樣法對(duì)點(diǎn)云進(jìn)行降采樣獲得四組不同尺度的降采樣點(diǎn)云,最后將不同尺度的降采樣點(diǎn)云分別輸入到四個(gè)Pointnet 模塊就可以獲得四組不同尺度的點(diǎn)云特征圖。
利用上述投票模型網(wǎng)絡(luò)完成了點(diǎn)云聚類和不同尺度的特征提取,四種特征的尺度大小分別為f1=L·d/4,f2=L·d/4,f3=L·d/2,f4=L·d,其中,L是采樣點(diǎn)數(shù),d是特征大小。為了進(jìn)一步對(duì)不同尺寸物體進(jìn)行目標(biāo)框預(yù)測(cè),本文設(shè)計(jì)了如圖3 所示的對(duì)四種不同尺度特征進(jìn)行融合的FCN網(wǎng) 絡(luò) 結(jié) 構(gòu) 。 FCN 網(wǎng) 絡(luò) 由 conv 層 、deconv 層 和merge 層組成;merge 層也是 conv 層,用于特征圖融合;deconv 層用于調(diào)整特征圖大小,以保證需要融合的各特征圖具有相同的尺寸。
圖3 FCN 網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of FCN network
經(jīng)過(guò)FCN 融合后的特征圖輸入分類頭和回歸頭,分類頭用于識(shí)別目標(biāo)的類別,采用softmax結(jié)構(gòu)輸出感興趣目標(biāo)的分類概率;回歸頭用于目標(biāo)的定位,輸出包含實(shí)例的最小包圍立方體參數(shù)(包圍框中心、長(zhǎng)、寬和高)?;貧w框與分類概率也一一進(jìn)行對(duì)應(yīng),因此可以用一個(gè)統(tǒng)一的多任務(wù)損失函數(shù)對(duì)分類與回歸進(jìn)行統(tǒng)一的優(yōu)化訓(xùn)練。
為降低二維檢測(cè)精度對(duì)算法的影響,本文提出的方法參考 F-Convnet[24]進(jìn)行參數(shù)微調(diào),過(guò)程如下:
(1)根據(jù)坐標(biāo)對(duì)檢測(cè)出的三維框進(jìn)行歸一化,每個(gè)檢測(cè)框的中心作為它們各自坐標(biāo)系的原點(diǎn),坐標(biāo)軸的方向統(tǒng)一到第一檢測(cè)框;
(2)在預(yù)處理過(guò)程中,將點(diǎn)云的過(guò)濾范圍擴(kuò)大并乘一個(gè)膨脹系數(shù),在本文中,這個(gè)膨脹系數(shù)被設(shè)為1.5;過(guò)濾范圍擴(kuò)大有助于降低檢測(cè)框定位不夠精確造成的點(diǎn)云過(guò)多的過(guò)濾,從而提高算法穩(wěn)定性;
(3)將(2)中過(guò)濾后的點(diǎn)云再次送入后續(xù)網(wǎng)絡(luò)重新訓(xùn)練,調(diào)整網(wǎng)絡(luò)參數(shù)。消融實(shí)驗(yàn)表明,參數(shù)微調(diào)過(guò)程對(duì)提高探測(cè)精度具有顯著作用。
深度神經(jīng)網(wǎng)絡(luò)的訓(xùn)練實(shí)際上是基于梯度下降的一種優(yōu)化過(guò)程,設(shè)計(jì)合理的損失函數(shù)可以加快訓(xùn)練過(guò)程并獲得最優(yōu)解。為了完成多任務(wù)分類,本文設(shè)計(jì)了一種基于三維DIOU 的多任務(wù)損失函數(shù),包含分類損失函數(shù)Lcls與三維擴(kuò)展的DI?OU 損失函數(shù)N3D_DIOU_loss 兩部分。為了在訓(xùn)練期間將每個(gè)部分的損失函數(shù)保持在相似的范圍內(nèi),兩個(gè)部分分別乘以權(quán)重ω1和ω2,如公式(1)所示。
其中,權(quán)重ω1和ω2要保證訓(xùn)練過(guò)程中兩部分損失下降的速度相當(dāng),根據(jù)經(jīng)驗(yàn)并基于上述原則優(yōu)化后的權(quán)重值為ω1=1 和ω2=8。
由于RPN 預(yù)測(cè)的大多數(shù)檢測(cè)框都是負(fù)樣本,因此正樣本和負(fù)樣本之間存在很大的不平衡。這種不平衡使得訓(xùn)練過(guò)程中的負(fù)損失遠(yuǎn)大于正損失,這對(duì)網(wǎng)絡(luò)訓(xùn)練是有害的。為了解決這個(gè)問(wèn)題,Lin[25]提出了焦點(diǎn)損失函數(shù)(FL),并表示為公式(2):
本文對(duì)于類別的預(yù)測(cè)即使用焦點(diǎn)損失函數(shù),其中:pt表示對(duì)應(yīng)邊框模型的評(píng)估概率值,參數(shù)αt=0.25,γ=2。
在二維圖像中,經(jīng)常使用L1 損失來(lái)優(yōu)化IOU 精度,但它不能完全代表網(wǎng)絡(luò)訓(xùn)練時(shí)IOU 的精度。對(duì)于具有不同IOU 精度的檢測(cè)框,可能有相同的L1 損失值。為了解決這個(gè)問(wèn)題,F(xiàn)-Con?vnet 使用corner_loss 正則化三維框回歸。而更直觀的方法則是用IOU 作為損失函數(shù)[26],但如圖4(a)所示當(dāng)目標(biāo)框和檢測(cè)框之間沒(méi)有交集時(shí),IOU 損失函數(shù)無(wú)法進(jìn)行訓(xùn)練。為解決這一問(wèn)題,文獻(xiàn)[22]提出了 GIOU 損失函數(shù),但如圖 4(b)和(c)所示時(shí),GIOU 損失函數(shù)在水平或垂直情況下退化為IOU 損失函數(shù),也存在無(wú)法較好收斂的風(fēng)險(xiǎn)。因此,文獻(xiàn)[23]提出DIOU 損失函數(shù)進(jìn)一步提高訓(xùn)練過(guò)程的穩(wěn)定性和優(yōu)化性能,二維圖像中DIOU 損失函數(shù)的原始公式如公式(3)所示。
圖4 三個(gè)檢測(cè)框和目標(biāo)框之間的位置關(guān)系Fig.4 Relationship between three detection boxes and target boxes
其中:ρ是檢測(cè)框中心點(diǎn)b與目標(biāo)框中心點(diǎn)bgt之間的距離,c是最小邊界框的對(duì)角線距離。
三維框和二維框的IOU 計(jì)算并不完全相同,由于三維框存在角度朝向問(wèn)題,使得三維IOU 的計(jì)算更加困難。如圖5 所示,在計(jì)算三維目標(biāo)框和檢測(cè)框的IOU 時(shí),重疊區(qū)域的計(jì)算更加復(fù)雜[27]。 為 此 ,本 文 提 出 了 下 面 的 N3D_DI?OU_loss 損失函數(shù):
圖5 存在角度偏差的目標(biāo)框與檢測(cè)框Fig.5 Target box and detection box with angle deviation
(1)將檢測(cè)框和目標(biāo)框旋轉(zhuǎn)并與坐標(biāo)軸對(duì)齊,利用max 和min 函數(shù)計(jì)算兩框的所有交點(diǎn),并將這個(gè)過(guò)程定義為檢測(cè)框的正則化;
(2)三維DIOU 的計(jì)算退化為二維難度;
(3)對(duì)于角度,首先將其離散化,然后用L1損失函數(shù)監(jiān)督角度偏差,最后與正則化的三維DIOU 組合成多任務(wù)損失函數(shù)。由此簡(jiǎn)化了三維DIOU 的計(jì)算,N3D_DIOU_loss 的偽代碼如算法1 所示。
算法1 N3D_DIOU_loss 偽代碼
為了驗(yàn)證算法的有效性,在公開的KITTI 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)驗(yàn)證,該數(shù)據(jù)集包括7 481 幀的訓(xùn)練集和7 518 幀的測(cè)試集。由于測(cè)試集的標(biāo)簽沒(méi)有公開,我們將訓(xùn)練集分為3 712 幀的訓(xùn)練集和3 769 幀的驗(yàn)證集進(jìn)行網(wǎng)絡(luò)訓(xùn)練和驗(yàn)證。主要檢測(cè)目標(biāo)分為三類,包括車輛,行人和騎自行車的人,數(shù)據(jù)分為簡(jiǎn)單、中等和困難難度級(jí)別。根據(jù)官方標(biāo)準(zhǔn),當(dāng)IOU 值達(dá)到0.7 時(shí),汽車被認(rèn)為分類正確。對(duì)于行人和騎自行車者,由于目標(biāo)較小,IOU 閾值降低為0.5。
投票模型生成的特征圖大小為f1=L·d/4,f2=L·d/4,f3=L·d/2,f4=L·d,其中L表示采樣點(diǎn)數(shù),d表示特征大小。為便于特征圖融合,對(duì)于汽車,L設(shè)置為 280,d設(shè)置為 512;對(duì)于行人和騎自行車的人,L設(shè)為 700,d仍是 512。投票模型網(wǎng)絡(luò)生成的中心點(diǎn)數(shù)量設(shè)置為[32,64,64,128],汽車的聚類距離設(shè)置為[0.25,0.5,1.0,2.0],行人和騎車人的聚類距離設(shè)置為[0.1,0.2,0.4,0.8]。
對(duì)于檢測(cè)網(wǎng)絡(luò)的訓(xùn)練,初始學(xué)習(xí)率設(shè)定為0.000 1,隨著訓(xùn)練epoch 的增加逐漸衰減到0.000 001,總 epoch 設(shè)置為 80。另外,使用 Adam優(yōu)化器進(jìn)行訓(xùn)練,優(yōu)化器的系數(shù)為0.000 1。整個(gè)訓(xùn)練過(guò)程是在兩個(gè)NVIDIA TITAN X GPU上進(jìn)行的多GPU 訓(xùn)練,批量batch 為32。整個(gè)訓(xùn)練過(guò)程大約需要6 個(gè)小時(shí)。
為了驗(yàn)證本文算法的有效性,表1 給出了KITTI 數(shù) 據(jù) 集 上 本 文 算 法 與 經(jīng) 典 的 MV3D[1],ContFusion[28],VoxelNet[16],F(xiàn)-Convnet[24],IP?OD[29]和 point columns[30],F(xiàn)-PointNet[31]先進(jìn)算法在三維檢測(cè)精度上的比較。其中,對(duì)于汽車的檢測(cè),本文算法在各個(gè)難度上都優(yōu)于上述各算法,在典型的簡(jiǎn)單難度下,本文算法較上述算法中表現(xiàn)最好的提升0.71%。對(duì)于行人的檢測(cè),檢測(cè)效果隨著難度的增加而下降,在簡(jiǎn)單難度下較上述算法中表現(xiàn)最好的提升了0.37%。
表1 KITTI 驗(yàn)證集汽車、行人與騎車者三維檢測(cè)結(jié)果Tab.1 3D detection AP(%)of cars,pedestrians and cyclists on KITTI val set
除了三維檢測(cè)精度之外,表2 列出了本文算法與各個(gè)算法在俯視圖(BEV)檢測(cè)中的比較。應(yīng)用N3D_DIOU_loss 損失函數(shù),檢測(cè)框和目標(biāo)框之間的重合度相對(duì)較高,因此BEV 檢測(cè)精度提升較大。其中,汽車在典型的簡(jiǎn)單難度下較上述算法中表現(xiàn)最好的提升了2.07%,而行人在簡(jiǎn)單難度下提升了0.19%;對(duì)于騎車者,本文算法均達(dá)到了最好效果,在簡(jiǎn)單、中等與困難難度下分別提升了1.91%,3.41% 與2.88%。由于行人與騎車者體積小更難于識(shí)別,所有算法在檢測(cè)精度上均低于汽車,但本文算法性能仍與表中最優(yōu)算法相近并在大部分情況下有所提升。
表2 KITTI 驗(yàn)證集汽車、行人與騎車者BEV 檢測(cè)結(jié)果Tab.2 BEV detection AP(%)of cars,pedestrians and cyclists on KITTI val set
由于正負(fù)樣本的不平衡,檢測(cè)的召回率是算法性能重要的考慮指標(biāo)。圖6 顯示了汽車、行人和騎自行車者的三維檢測(cè)精度(Precision)隨召回率(Recall)的變化曲線。從曲線可以看出,在召回率達(dá)到60%的情況下,各監(jiān)測(cè)項(xiàng)均能實(shí)現(xiàn)超過(guò)60%的監(jiān)測(cè)精度,其中,汽車表現(xiàn)最優(yōu),在召回率達(dá)到80%的情況下檢測(cè)精度仍能超過(guò)80%,這表明了算法對(duì)于目標(biāo)檢測(cè)任務(wù)的有效性。
圖6 汽車、行人和騎自行車者的三維檢測(cè)精度和召回率曲線Fig.6 3D detection AP and recall curves for cars,pedestrians and cyclists
圖7 和圖8 顯示了KITTI 數(shù)據(jù)集上部分目標(biāo)檢測(cè)的可視化結(jié)果,包括汽車、行人和騎自行車者的檢測(cè)結(jié)果。其中,綠色框代表目標(biāo)框,紅色框代表檢測(cè)框,包括二維圖像中的二維框(左側(cè))和三維點(diǎn)云中的三維框(右側(cè))。圖7 中,在密集和稀疏點(diǎn)云中都能成功檢測(cè)到汽車,表明該網(wǎng)絡(luò)對(duì)點(diǎn)云的不均勻分布有很強(qiáng)的適應(yīng)性。另外,圖7(b)中遠(yuǎn)處遮擋嚴(yán)重、點(diǎn)云較少的車也能成功檢測(cè)出來(lái)。結(jié)果表明,該網(wǎng)絡(luò)對(duì)汽車具有良好的檢測(cè)效果。圖8 中,行人和騎車者的檢測(cè)性能較汽車差,圖8(a)中最前面的行人沒(méi)有被檢測(cè)出來(lái),這是因?yàn)橛?xùn)練集中騎車者和行人相對(duì)較少導(dǎo)致網(wǎng)絡(luò)訓(xùn)練不足。另外,騎車者和行人的特征相似導(dǎo)致的誤判也降低了檢測(cè)精度。
圖7 汽車檢測(cè)結(jié)果可視化Fig.7 Visualization results of cars
圖8 行人和騎自行車者檢測(cè)結(jié)果可視化Fig.8 Visualization results of pedestrians and cyclists
為了證明N3_DIOU_loss 和投票模型的有效性,以 F-ConvNet[24]為基準(zhǔn),增加了兩個(gè)網(wǎng)絡(luò)層在汽車目標(biāo)上進(jìn)行相關(guān)的消融實(shí)驗(yàn),結(jié)果如表 3~4 所示。表3 表明 N3D_DIOU_loss 和改進(jìn)的投票模型在精度的提高上具有顯著的作用。在3D 目標(biāo)檢測(cè)中,與傳統(tǒng)F-ConvNet 相比,改進(jìn)的投票模型可以有效地過(guò)濾并聚類點(diǎn)云,提高了0.21%的檢測(cè)精度;N3D_DIOU_loss 可以提高目標(biāo)框與檢測(cè)框之間的重合度,進(jìn)一步提升0.11%的檢測(cè)精度,兩者結(jié)合可以提升0.71%的檢測(cè)精度。表4 的結(jié)果證實(shí)網(wǎng)絡(luò)模型參數(shù)的微調(diào)可以對(duì)消融實(shí)驗(yàn)中各種結(jié)構(gòu)的檢測(cè)網(wǎng)絡(luò)帶來(lái)精度的提升。
表3 三維及BEV 檢測(cè)對(duì)比Tab.3 3D and BEV detection performance
表4 參數(shù)微調(diào)實(shí)驗(yàn)對(duì)比Tab.4 Comparison of parameter tuning experiments
針對(duì)三維點(diǎn)云識(shí)別計(jì)算量大、準(zhǔn)確率低的特點(diǎn),本文提出了一種融合二維圖像與三維點(diǎn)云特征的目標(biāo)檢測(cè)網(wǎng)絡(luò)用于三維目標(biāo)檢測(cè)。論文首先利用二維圖像目標(biāo)檢測(cè)框?qū)?yīng)的平截頭體限定點(diǎn)云的處理范圍,然后提出改進(jìn)的投票模型用于多尺度特征提取,并通過(guò)構(gòu)造了包含分類損失函數(shù)與三維DIOU 損失函數(shù)N3D_DI?OU_loss 的多任務(wù)損失函數(shù)優(yōu)化了網(wǎng)絡(luò)訓(xùn)練過(guò)程及檢測(cè)精度。KITTI 數(shù)據(jù)集上的識(shí)別結(jié)果及消融實(shí)驗(yàn)表明,本文算法提出的投票模型與N3D_DIOU_loss 對(duì)目標(biāo)檢測(cè)網(wǎng)絡(luò)精度提升起到了重要作用,在三維檢測(cè)精度上較F-ConvNet算法提高了0.71%,在BEV 檢測(cè)精度上則提高了7.28%。