張冬冬,郭 杰,陳 陽
(陸軍工程大學(xué)野戰(zhàn)工程學(xué)院,南京 210007)
目標(biāo)檢測(cè),作為三維數(shù)據(jù)處理與分析的基礎(chǔ)技術(shù)、基礎(chǔ)算法,是計(jì)算機(jī)視覺當(dāng)前熱門研究方向之一。數(shù)據(jù)是研究的基礎(chǔ),目前主流的三維數(shù)據(jù)表示方法主要有深度圖、三角網(wǎng)格、體素和點(diǎn)云。其中,點(diǎn)云是最簡(jiǎn)單的一種三維數(shù)據(jù)表示方法,具有獲取簡(jiǎn)單、易于存儲(chǔ)、可視性強(qiáng)、結(jié)構(gòu)描述精細(xì)等優(yōu)點(diǎn),而且能夠方便地與深度圖、體素等其他數(shù)據(jù)格式相互轉(zhuǎn)換,已成為三維重建、三維目標(biāo)檢測(cè)、SLAM(即時(shí)定位與地圖構(gòu)建)等研究領(lǐng)域最基本的數(shù)據(jù)格式。點(diǎn)云定義為同一空間坐標(biāo)系下表達(dá)目標(biāo)空間分布和目標(biāo)表面光譜特性的海量離散點(diǎn)集合,每個(gè)點(diǎn)包含特定的位置信息和其他屬性信息,如顏色、激光反射強(qiáng)度等。與傳統(tǒng)的二維圖像相比,點(diǎn)云在分辨率、精度、紋理信息等方面有了很大提升,具有多屬性、可量測(cè)、高精度、高穿透、受環(huán)境和天氣因素影響小等特點(diǎn),已在許多重大工程和典型領(lǐng)域得到廣泛應(yīng)用,如機(jī)器人與自動(dòng)駕駛、軍事目標(biāo)偵察、森林資源調(diào)查、電力走廊安全巡檢、文物三維數(shù)字化、臨床醫(yī)學(xué)輔助診斷和治療等[1]。
早期對(duì)點(diǎn)云場(chǎng)景的目標(biāo)檢測(cè)主要是基于三維特征的識(shí)別,即利用點(diǎn)云的幾何空間結(jié)構(gòu)提取物體的特征信息,然后與已有的特征信息進(jìn)行比對(duì)進(jìn)而完成檢測(cè)。特征比對(duì)主要是利用支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest)及Adaboost等已經(jīng)訓(xùn)練好的分類器,因此只能對(duì)分類器已經(jīng)學(xué)習(xí)到的物體進(jìn)行識(shí)別,且特征提取、數(shù)據(jù)處理仍依托人工操作,方法較為繁瑣復(fù)雜。隨著深度學(xué)習(xí)的迅速發(fā)展和廣泛應(yīng)用,研究人員提出了大量基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)方法,點(diǎn)云的特征提取與數(shù)據(jù)處理才漸漸變得智能自主而無需人工干預(yù),并且與傳統(tǒng)方法相比,此類模型性能得到顯著提升,達(dá)到了更高的基準(zhǔn)。
目前已有一些基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)綜述性研究[2-5],本文在前人工作基礎(chǔ)上進(jìn)行了豐富和完善,總結(jié)了基于圖像視錐、基于數(shù)據(jù)降維、基于原始點(diǎn)云3類三維目標(biāo)檢測(cè)方法,比較了每類方法的優(yōu)缺點(diǎn),提煉了每類方法的工作原理和主要?jiǎng)?chuàng)新點(diǎn),最后對(duì)三維目標(biāo)檢測(cè)未來研究方向進(jìn)行了展望。
隨著深度學(xué)習(xí)在二維目標(biāo)檢測(cè)的迅速發(fā)展和優(yōu)異表現(xiàn),越來越多的研究人員嘗試將其應(yīng)用于點(diǎn)云的目標(biāo)檢測(cè)。然而,點(diǎn)云本身具有稀疏性、離散性、無序性和旋轉(zhuǎn)平移不變性等,二維目標(biāo)檢測(cè)的成熟技術(shù)無法直接應(yīng)用于點(diǎn)云,對(duì)點(diǎn)云數(shù)據(jù)的處理仍面臨較大挑戰(zhàn)。
激光雷達(dá)在采集點(diǎn)云數(shù)據(jù)時(shí),近處物體反射的點(diǎn)較多、遠(yuǎn)處物體反射的點(diǎn)較少,因此采集到的點(diǎn)云會(huì)呈現(xiàn)“近密遠(yuǎn)疏”的特點(diǎn),如圖1所示。并且,采集過程中通常還會(huì)伴有一定環(huán)境噪聲,會(huì)造成采集到的點(diǎn)云存在很多干擾點(diǎn)。此外,還會(huì)因?yàn)檎系K物遮擋、物體之間相互遮擋、高反射物體等情況導(dǎo)致部分物體點(diǎn)云不完整或空洞缺失。
圖1 Velodyne HDL-64E激光雷達(dá)采集的點(diǎn)云數(shù)據(jù)Fig.1 Point clouds scanned by Velodyne HDL-64E LiDAR
在應(yīng)用深度學(xué)習(xí)對(duì)點(diǎn)云進(jìn)行目標(biāo)檢測(cè)時(shí),首先需要提取點(diǎn)云的特征。二維目標(biāo)檢測(cè)中一般利用卷積核和卷積神經(jīng)網(wǎng)絡(luò)遍歷整個(gè)圖像提取特征,借鑒二維目標(biāo)檢測(cè)的方法,采用三維卷積核和單純的三維卷積方法遍歷整個(gè)點(diǎn)云提取特征,會(huì)帶來兩個(gè)問題:一是消耗非常巨大,因?yàn)辄c(diǎn)云廣泛分布在三維空間內(nèi),遍歷整個(gè)點(diǎn)云會(huì)帶來巨大的內(nèi)存和時(shí)間消耗;二是大部分卷積為無效特征提取,因?yàn)辄c(diǎn)云的稀疏性,大部分空間不存在點(diǎn),會(huì)導(dǎo)致無效空卷積。
點(diǎn)云的離散性主要表現(xiàn)在兩個(gè)方面:(1)空間分布離散,點(diǎn)云中每個(gè)點(diǎn)都是獨(dú)立掃描相互獨(dú)立的,不依賴于其他點(diǎn)而單獨(dú)存在,從整體上看,點(diǎn)云是一個(gè)離散的、非結(jié)構(gòu)化的點(diǎn)集合,不定義在某個(gè)區(qū)域內(nèi),相鄰點(diǎn)之間的距離也不固定,因此建立點(diǎn)與點(diǎn)之間的關(guān)系較難;(2)組織結(jié)構(gòu)離散,簡(jiǎn)而言之就是不同數(shù)量的點(diǎn)云可以表示同一物體,點(diǎn)云通過其整體幾何結(jié)構(gòu)信息來描述物體,而不依賴點(diǎn)的數(shù)量,因此描述一個(gè)物體的點(diǎn)云其數(shù)量是不確定的。如圖2所示,描述同一架飛機(jī)的點(diǎn)云稀疏稠密不同,左圖能夠描述飛機(jī)的更多細(xì)節(jié),但右圖也可判斷出物體的類別。雖然人眼能清晰地分辨出二者不同,并判斷其均屬于飛機(jī)類別,但神經(jīng)網(wǎng)絡(luò)卻無法簡(jiǎn)單實(shí)現(xiàn)這一點(diǎn)。
圖2 不規(guī)則離散分布在空間中的三維點(diǎn)云Fig.2 Irregularly and discretely distributed point cloudsin space
點(diǎn)云本質(zhì)上是空間中一群點(diǎn)的集合,每個(gè)點(diǎn)包含了大量屬性信息。從數(shù)學(xué)的角度或數(shù)據(jù)結(jié)構(gòu)的角度,點(diǎn)云應(yīng)當(dāng)由“集合”來描述,集合中一個(gè)元素代表點(diǎn)云中一個(gè)點(diǎn)。集合中每個(gè)元素的地位是相同的,元素之間是無序的。同樣地,點(diǎn)云中每個(gè)點(diǎn)的地位也都是相同的,點(diǎn)與點(diǎn)之間是無序的,存儲(chǔ)在集合中點(diǎn)的先后順序?qū)τ诩隙詿o關(guān)緊要,也不會(huì)因?yàn)辄c(diǎn)存儲(chǔ)的先后順序改變點(diǎn)云的性質(zhì)特征。然而,神經(jīng)網(wǎng)絡(luò)卻對(duì)輸入數(shù)據(jù)的排序非常敏感,點(diǎn)的存儲(chǔ)順序直接影響神經(jīng)網(wǎng)絡(luò)的理解學(xué)習(xí)。如圖3所示,假設(shè)一個(gè)物體的點(diǎn)云數(shù)據(jù)由7個(gè)點(diǎn)組成,左圖將其表示為[P1,P2,P3,P4,P5,P6,P7],右圖將其表示為[P4,P6,P5,P7,P3,P1,P2],顯然不論張量中點(diǎn)的順序如何變化,映射回三維空間中仍然表示的是同一個(gè)物體。然而,以左圖張量為輸入訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)模型很可能無法對(duì)右圖張量做出正確預(yù)測(cè)。
圖3 同一點(diǎn)云的不同張量表達(dá)Fig.3 Different tensor expressions of the same point clouds
對(duì)于點(diǎn)云而言,無論如何旋轉(zhuǎn)或平移,點(diǎn)與點(diǎn)的相對(duì)位置始終保持不變,點(diǎn)云所表示物體的形狀和大小也不會(huì)發(fā)生任何變化,如圖4所示,它是一種剛體變換。然而,當(dāng)對(duì)點(diǎn)云進(jìn)行旋轉(zhuǎn)或平移時(shí),點(diǎn)云中的點(diǎn)的坐標(biāo)會(huì)發(fā)生相應(yīng)變化。因此,旋轉(zhuǎn)或平移雖然并未改變物體的空間結(jié)構(gòu),但卻改變了表達(dá)其空間結(jié)構(gòu)的三維坐標(biāo)。神經(jīng)網(wǎng)絡(luò)需要適應(yīng)點(diǎn)云的這種旋轉(zhuǎn)平移不變性質(zhì),無論如何旋轉(zhuǎn)或平移,無論參考坐標(biāo)系怎樣變化,均應(yīng)輸出一致結(jié)果。
圖4 點(diǎn)云的旋轉(zhuǎn)平移不變性Fig.4 Rotation and translation invariance of point clouds
基于圖像視錐的方法,結(jié)合了二維圖像的高分辨率優(yōu)勢(shì)和三維點(diǎn)云的精確位置信息優(yōu)勢(shì)來進(jìn)行目標(biāo)檢測(cè),其主要思想是利用現(xiàn)有成熟的二維目標(biāo)檢測(cè)算法,首先從二維圖像中獲得目標(biāo)的2D邊界框,然后利用二維圖像與三維點(diǎn)云的對(duì)應(yīng)關(guān)系,將該2D邊界框映射到三維點(diǎn)云中得到一個(gè)3D錐體候選區(qū)域,再從該區(qū)域提取目標(biāo)的3D包圍盒。此類方法的典型代表為Frustum PointNets[6],后續(xù)的基于圖像視錐的研究工作大多是在此基礎(chǔ)上進(jìn)行改進(jìn)的,其工作原理如圖5所示,給定一個(gè)RGB-D數(shù)據(jù),首先使用卷積神經(jīng)網(wǎng)絡(luò)在RGB圖像中生成目標(biāo)的2D邊界框,然后從點(diǎn)云中獲得其對(duì)應(yīng)的3D視錐,最后利用PointNet++[7]來學(xué)習(xí)各個(gè)3D視錐的點(diǎn)云特征,從而提取目標(biāo)的3D包圍盒。
圖5 Frustum PointNets三維目標(biāo)檢測(cè)原理Fig.5 Frustum PointNets 3Dobject detection principle
由于Frustum PointNets僅利用了圖像中的位置信息,并沒有使用其顏色信息,PointFusion[8]對(duì)其進(jìn)行了改進(jìn),首先通過ResNet提取2D邊界框內(nèi)圖像的特征(包括位置信息和顏色信息),然后與3D視錐點(diǎn)云特征進(jìn)行融合。
SIFRNet[9]隨后對(duì)Frustum PointNets再次進(jìn)行了改進(jìn),如圖6所示,提出了一種尺度不變和特征重加權(quán)網(wǎng)絡(luò)(Scale Invariant and Feature Reweighting Network),包含Point-UNet、T-Net、Point-SENet三個(gè)模塊,Point-UNet模塊主要是對(duì)3D視錐點(diǎn)云進(jìn)行分割,捕獲點(diǎn)云的不同朝向信息以及強(qiáng)魯棒性的形狀尺度;T-Net模塊主要是對(duì)物體3D包圍盒中心進(jìn)行估計(jì);Point-SENet模塊預(yù)測(cè)輸出最終的3D包圍盒。
圖6 SIFRNet目標(biāo)檢測(cè)流程意圖Fig.6 Thepipelineof SIFRNet for 3Dobject detection
Shin等[10]提出了RoarNet,解決了2D邊界框投影到3D空間中LiDAR和相機(jī)兩個(gè)傳感器同步的問題。F-Con?vNet[11]在Frustum PointNets網(wǎng)絡(luò)的基礎(chǔ)上,改進(jìn)了視錐區(qū)域點(diǎn)云的特征提取方式,如圖7所示,具體就是在錐體軸上產(chǎn)生一系列的錐體,然后提取各個(gè)錐體內(nèi)點(diǎn)云的特征,將點(diǎn)云的逐點(diǎn)特征轉(zhuǎn)為視錐體級(jí)特征,進(jìn)而利用全卷積網(wǎng)絡(luò)(FCN)回歸3D包圍盒,這樣不僅可以避免大范圍遍歷點(diǎn)云,提升檢測(cè)效率,還可以在回歸時(shí)減少對(duì)稀疏前景點(diǎn)的過度依賴,提高檢測(cè)性能。
圖7 F-ConvNet視錐特征提取Fig.7 F-Convnet frustumfeatureextraction
基于數(shù)據(jù)降維的方法,核心思想就是將不規(guī)則、稀疏無序、數(shù)據(jù)量巨大的點(diǎn)云數(shù)據(jù)降維轉(zhuǎn)化后再進(jìn)行處理,以節(jié)約內(nèi)存和降低時(shí)間消耗。數(shù)據(jù)降維的處理方法有多種,較為典型的主要有以下3類。
(1)基于偽圖片的方法,即將三維點(diǎn)云轉(zhuǎn)化為二維偽圖片數(shù)據(jù),然后再運(yùn)用已經(jīng)相對(duì)成熟的二維目標(biāo)檢測(cè)技術(shù)進(jìn)行檢測(cè)。該方法的典型代表是PointPillars[12]和CenterPoint[13]。PointPillars能夠在保證一定精度的同時(shí)實(shí)現(xiàn)較快的檢測(cè)速度,其網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示,包含3個(gè)部分:Pillar Feature Net將三維點(diǎn)云轉(zhuǎn)化為二維偽圖片(Pseudo image),首先根據(jù)點(diǎn)云的X軸、Y軸坐標(biāo)將點(diǎn)云劃分到一個(gè)個(gè)Pillar(柱體)中,然后提取Stacked Pillars(堆疊柱體)的特征,并對(duì)Pillar所在維度進(jìn)行Max Pool?ing(最大池化)操作得到Learned Features(學(xué)得特征),最后將其轉(zhuǎn)化為二維偽圖片;Backbone利用二維卷積對(duì)偽圖片進(jìn)行特征提取,Detection Head主要利用SSD回歸物體的3D包圍盒。CenterPoint主要從原始點(diǎn)云中學(xué)習(xí)生成表征目標(biāo)中心位置的鳥瞰熱力圖(表示為M∈?W×H×F),然后利用二維卷積找到物體的大致中心點(diǎn)(熱力圖的峰值位置),并使用中心特征回歸物體的位置和方向。
圖8 PointPillars網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Network framework of PointPillars
(2)基于多視圖的方法,主要從前視、俯視等不同視角將三維點(diǎn)云數(shù)據(jù)進(jìn)行二維化處理,得到激光雷達(dá)前視圖、鳥瞰圖(BEV)等特征圖,然后對(duì)這些特征進(jìn)行融合,再應(yīng)用2D目標(biāo)檢測(cè)器進(jìn)行檢測(cè),典型的方法有BirdNet[14]、MV3D[15]和AVOD[16]等。BirdNet將點(diǎn)云投影轉(zhuǎn)化為高度、強(qiáng)度和密度的三通道BEV特征圖(其中密度進(jìn)行歸一化預(yù)處理),然后在BEV特征圖上應(yīng)用2D目標(biāo)檢測(cè)器,結(jié)合高度信息(將物體的最大高度減去地面估計(jì)高度)最后得到3D包圍盒。BirdNet的重要貢獻(xiàn)是提出密度歸一化操作,使得高分辨率點(diǎn)云中訓(xùn)練的模型可以在較低分辨率的點(diǎn)云上使用。MV3D首先從多通道特征圖(由高度、密度和反射強(qiáng)度組成)中計(jì)算候選區(qū)域,然后將候選區(qū)域映射回鳥瞰圖(BV)、前視圖(FV)和圖片(RGB)3個(gè)視圖中,如圖9所示,利用3個(gè)視圖的ROI區(qū)域進(jìn)行ROI pooling獲得3個(gè)視圖特征并融合,最后進(jìn)行目標(biāo)分類和3D包圍盒回歸。AVOD對(duì)MV3D進(jìn)行了改進(jìn),舍棄了MV3D中前視圖(FV)特征輸入,僅使用鳥瞰圖(BV)和圖片(RGB),使用裁剪、調(diào)整特征圖尺寸大小和按位均值融合代替了MV3D的ROIpool?ing進(jìn)行多模態(tài)特征融合,并且進(jìn)行了兩輪RPN區(qū)域建議,提高了小物體(如行人)的檢測(cè)效果。
圖9 MV3D網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Network framework of MV3D
(3)基于體素網(wǎng)格的方法,首先將三維點(diǎn)云降維轉(zhuǎn)化為一個(gè)個(gè)堆疊的、相同大小的規(guī)則體素網(wǎng)格,然后應(yīng)用3D卷積對(duì)體素網(wǎng)格進(jìn)行特征學(xué)習(xí)提取,最后回歸預(yù)測(cè)物體的類別和位置,典型的方法有VoxelNet[17]、SEC?OND[18]等。VoxelNet網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示,首先將點(diǎn)云劃分為等間距體素,利用VFE層(voxel feature encoding layer)提取體素特征,然后將得到的體素特征降維成2D鳥瞰圖,最后使用RPN網(wǎng)絡(luò)輸出檢測(cè)結(jié)果。SECOND對(duì)其進(jìn)行了改進(jìn),使用稀疏3D卷積替換了普通3D卷積,大大提高了推理效率。目前,稀疏3D卷積已成為體素點(diǎn)云特征提取的主要范式。
圖10 VoxelNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Network framework of VoxelNet
基于原始點(diǎn)云的方法,直接作用于原始三維點(diǎn)云提取點(diǎn)云的特征,然后回歸物體的3D包圍盒,無需借助2D圖像邊界框獲得3D點(diǎn)云視錐,也無需進(jìn)行多視圖投影或體素化等數(shù)據(jù)降維操作。典型的方法有Poin?tRCNN[19]、VoteNet[20]和3DSSD[21]等。
PointRCNN是一種兩階段網(wǎng)絡(luò),其網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示,第一階段進(jìn)行前景點(diǎn)和背景點(diǎn)分割,生成少量高質(zhì)量初始檢測(cè)盒,首先利用PointNet++對(duì)原始點(diǎn)云進(jìn)行特征提取,然后進(jìn)行Foreground Point Segmentation(前景點(diǎn)分割),同時(shí)額外增加一個(gè)Bin-based 3D Box Genera?tion(基于Bin損失的3D包圍盒生成網(wǎng)絡(luò))來輸出3D proposals(候選建議),Bin損失方法核心思想是將復(fù)雜困難的3D包圍盒回歸任務(wù)轉(zhuǎn)化為簡(jiǎn)單容易的分類加回歸任務(wù);第二階段對(duì)初始3D包圍盒進(jìn)行細(xì)化精修,首先利用Point Cloud Region Pooling(點(diǎn)云區(qū)域池化)對(duì)上述獲得的3Dproposals進(jìn)行局部特征提取,并將該局部特征進(jìn)行Canonical Transformation(規(guī)范變換),即對(duì)每個(gè)pro?posal建立一個(gè)獨(dú)立坐標(biāo)系,坐標(biāo)系的中心點(diǎn)為proposal的中心,X軸指向物體朝向,然后將其送入MLP獲得新特征,并與全局語義特征堆疊融合,最后利用融合特征進(jìn)行3D包圍盒優(yōu)化和置信度預(yù)測(cè)。
圖11 PointRCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Network framework of PointRCNN
VoteNet是一個(gè)基于深度點(diǎn)集網(wǎng)絡(luò)和霍夫投票的端到端3D目標(biāo)檢測(cè)網(wǎng)絡(luò),如圖12所示,整個(gè)網(wǎng)絡(luò)分為兩部分:第一部分處理現(xiàn)有的點(diǎn)云以生成Votes(投票),首先利用Point cloud feature learning backbone(點(diǎn)云特征學(xué)習(xí)骨干網(wǎng)絡(luò))提取原始點(diǎn)云(N×3)的特征,生成Seeds(種子點(diǎn)),然后利用Hough voting with deep networks(霍夫投票深度網(wǎng)絡(luò))為每個(gè)Seed學(xué)習(xí)一個(gè)3D空間的偏置和特征空間上的偏置以生成Votes(一些靠近3D物體質(zhì)心的虛擬點(diǎn));第二部分利用Votes來預(yù)測(cè)物體類別和3D包圍盒,首先使用FPS(最遠(yuǎn)點(diǎn)采樣)以及ball query(球查詢)的方式采樣聚合Votes得到K個(gè)Vote clusters(投票群集),然后經(jīng)過兩層MLP輸出預(yù)測(cè)結(jié)果。
圖12 VoteNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 Network framework of VoteNet
3DSSD主要有3點(diǎn)貢獻(xiàn):一是開創(chuàng)性地將單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)引入到三維目標(biāo)檢測(cè)中,在保證性能與兩階段檢測(cè)器相當(dāng)?shù)那闆r下大幅度提高了檢測(cè)效率;二是提出了一種融合空間距離與語義特征距離為度量新的采樣方法F-FPS,并與距離最遠(yuǎn)點(diǎn)采樣方法D-FPS、融合采樣策略(F-FPS和D-FPS結(jié)合)進(jìn)行了對(duì)比實(shí)驗(yàn);三是提出了Candidate Generation Layer(候選點(diǎn)生成層),將采樣初始點(diǎn)坐標(biāo)向其對(duì)應(yīng)實(shí)例的中心點(diǎn)進(jìn)行偏移修正,提高了3D包圍盒質(zhì)量。
表1匯總了本文提及的三維目標(biāo)檢測(cè)各方法模型的提出年份、輸入數(shù)據(jù)類型、關(guān)鍵技術(shù)、在KITTI測(cè)試集汽車類別上的3D檢測(cè)性能和檢測(cè)時(shí)間。
表1 基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)方法歸納與總結(jié)Tab.1 Induction and summary of 3D object detection methods based on deep learning
基于圖像視錐的方法,將目標(biāo)鎖定到2D邊界框?qū)?yīng)的3D視錐范圍中,相對(duì)于從整個(gè)三維點(diǎn)云中搜索目標(biāo)而言,僅需從3D視錐區(qū)域內(nèi)搜索目標(biāo),大大縮小了搜索空間,提高了搜索效率和檢測(cè)精度。但是,順序的操作流程也導(dǎo)致其性能受到二維圖像檢測(cè)器的限制。基于數(shù)據(jù)降維的方法,將三維點(diǎn)云降維轉(zhuǎn)化成偽圖片、多視圖、體素后再進(jìn)行目標(biāo)檢測(cè),能夠較好地利用成熟的2D目標(biāo)檢測(cè)技術(shù),并且可以擁有較高的檢測(cè)速度。但是,數(shù)據(jù)降維會(huì)導(dǎo)致點(diǎn)云數(shù)據(jù)信息隱性丟失?;谠键c(diǎn)云的方法,直接對(duì)原始的三維點(diǎn)云進(jìn)行處理,保留了點(diǎn)云的原始數(shù)據(jù)特征,但同樣不可避免存在一些問題:一是難以有效進(jìn)行特征提取,二是難以處理大規(guī)模點(diǎn)云。
現(xiàn)有的三維目標(biāo)檢測(cè)方法達(dá)到了較高的精度和速度,但仍存在一定局限性。基于前述內(nèi)容,對(duì)三維目標(biāo)檢測(cè)展望如下。
(1)隨著傳感器技術(shù)的發(fā)展和傳感器成本的降低,未來的三維目標(biāo)檢測(cè)數(shù)據(jù)來源不僅僅是相機(jī)采集的圖片和LiDAR采集的點(diǎn)云,還可能包括視頻、radar等多模態(tài)數(shù)據(jù),多模態(tài)數(shù)據(jù)融合的目標(biāo)檢測(cè)方法可能會(huì)是未來發(fā)展趨勢(shì)。
(2)現(xiàn)有的三維目標(biāo)檢測(cè)模型對(duì)距離較近、尺寸較大、點(diǎn)云稠密的目標(biāo)檢測(cè)效果較好,但對(duì)距離較遠(yuǎn)、尺寸較小、點(diǎn)云稀疏以及存在遮擋重疊情況的目標(biāo)檢測(cè)效果較差。實(shí)際應(yīng)用中的目標(biāo)檢測(cè)情況十分復(fù)雜,所以針對(duì)這一問題的解決方案非常值得挖掘和探索。
(3)三維數(shù)據(jù)標(biāo)注成本較高,所以現(xiàn)有的目標(biāo)檢測(cè)模型大多是在標(biāo)注充分的公開數(shù)據(jù)集訓(xùn)練和實(shí)驗(yàn)的。對(duì)于特定需求場(chǎng)景下的點(diǎn)云目標(biāo)檢測(cè),由于缺乏標(biāo)注數(shù)據(jù)集大多無法展開。弱監(jiān)督或無監(jiān)督的目標(biāo)檢測(cè)技術(shù)能夠有效解決此問題,可能會(huì)是未來的一個(gè)重要研究方向。