基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)方法研究綜述

2022-05-12 09:40張冬冬

機(jī)電工程技術(shù) 2022年4期

張冬冬，郭杰，陳陽

（陸軍工程大學(xué)野戰(zhàn)工程學(xué)院，南京 210007）

0 引言

目標(biāo)檢測(cè)，作為三維數(shù)據(jù)處理與分析的基礎(chǔ)技術(shù)、基礎(chǔ)算法，是計(jì)算機(jī)視覺當(dāng)前熱門研究方向之一。數(shù)據(jù)是研究的基礎(chǔ)，目前主流的三維數(shù)據(jù)表示方法主要有深度圖、三角網(wǎng)格、體素和點(diǎn)云。其中，點(diǎn)云是最簡(jiǎn)單的一種三維數(shù)據(jù)表示方法，具有獲取簡(jiǎn)單、易于存儲(chǔ)、可視性強(qiáng)、結(jié)構(gòu)描述精細(xì)等優(yōu)點(diǎn)，而且能夠方便地與深度圖、體素等其他數(shù)據(jù)格式相互轉(zhuǎn)換，已成為三維重建、三維目標(biāo)檢測(cè)、SLAM（即時(shí)定位與地圖構(gòu)建）等研究領(lǐng)域最基本的數(shù)據(jù)格式。點(diǎn)云定義為同一空間坐標(biāo)系下表達(dá)目標(biāo)空間分布和目標(biāo)表面光譜特性的海量離散點(diǎn)集合，每個(gè)點(diǎn)包含特定的位置信息和其他屬性信息，如顏色、激光反射強(qiáng)度等。與傳統(tǒng)的二維圖像相比，點(diǎn)云在分辨率、精度、紋理信息等方面有了很大提升，具有多屬性、可量測(cè)、高精度、高穿透、受環(huán)境和天氣因素影響小等特點(diǎn)，已在許多重大工程和典型領(lǐng)域得到廣泛應(yīng)用，如機(jī)器人與自動(dòng)駕駛、軍事目標(biāo)偵察、森林資源調(diào)查、電力走廊安全巡檢、文物三維數(shù)字化、臨床醫(yī)學(xué)輔助診斷和治療等[1]。

早期對(duì)點(diǎn)云場(chǎng)景的目標(biāo)檢測(cè)主要是基于三維特征的識(shí)別，即利用點(diǎn)云的幾何空間結(jié)構(gòu)提取物體的特征信息，然后與已有的特征信息進(jìn)行比對(duì)進(jìn)而完成檢測(cè)。特征比對(duì)主要是利用支持向量機(jī)（SVM）、隨機(jī)森林（Random Forest）及Adaboost等已經(jīng)訓(xùn)練好的分類器，因此只能對(duì)分類器已經(jīng)學(xué)習(xí)到的物體進(jìn)行識(shí)別，且特征提取、數(shù)據(jù)處理仍依托人工操作，方法較為繁瑣復(fù)雜。隨著深度學(xué)習(xí)的迅速發(fā)展和廣泛應(yīng)用，研究人員提出了大量基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)方法，點(diǎn)云的特征提取與數(shù)據(jù)處理才漸漸變得智能自主而無需人工干預(yù)，并且與傳統(tǒng)方法相比，此類模型性能得到顯著提升，達(dá)到了更高的基準(zhǔn)。

目前已有一些基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)綜述性研究[2-5]，本文在前人工作基礎(chǔ)上進(jìn)行了豐富和完善，總結(jié)了基于圖像視錐、基于數(shù)據(jù)降維、基于原始點(diǎn)云3類三維目標(biāo)檢測(cè)方法，比較了每類方法的優(yōu)缺點(diǎn)，提煉了每類方法的工作原理和主要?jiǎng)?chuàng)新點(diǎn)，最后對(duì)三維目標(biāo)檢測(cè)未來研究方向進(jìn)行了展望。

1 深度學(xué)習(xí)應(yīng)用于點(diǎn)云面臨的挑戰(zhàn)

隨著深度學(xué)習(xí)在二維目標(biāo)檢測(cè)的迅速發(fā)展和優(yōu)異表現(xiàn)，越來越多的研究人員嘗試將其應(yīng)用于點(diǎn)云的目標(biāo)檢測(cè)。然而，點(diǎn)云本身具有稀疏性、離散性、無序性和旋轉(zhuǎn)平移不變性等，二維目標(biāo)檢測(cè)的成熟技術(shù)無法直接應(yīng)用于點(diǎn)云，對(duì)點(diǎn)云數(shù)據(jù)的處理仍面臨較大挑戰(zhàn)。

1.1 稀疏性

激光雷達(dá)在采集點(diǎn)云數(shù)據(jù)時(shí)，近處物體反射的點(diǎn)較多、遠(yuǎn)處物體反射的點(diǎn)較少，因此采集到的點(diǎn)云會(huì)呈現(xiàn)“近密遠(yuǎn)疏”的特點(diǎn)，如圖1所示。并且，采集過程中通常還會(huì)伴有一定環(huán)境噪聲，會(huì)造成采集到的點(diǎn)云存在很多干擾點(diǎn)。此外，還會(huì)因?yàn)檎系K物遮擋、物體之間相互遮擋、高反射物體等情況導(dǎo)致部分物體點(diǎn)云不完整或空洞缺失。

圖1 Velodyne HDL-64E激光雷達(dá)采集的點(diǎn)云數(shù)據(jù)Fig.1 Point clouds scanned by Velodyne HDL-64E LiDAR

在應(yīng)用深度學(xué)習(xí)對(duì)點(diǎn)云進(jìn)行目標(biāo)檢測(cè)時(shí)，首先需要提取點(diǎn)云的特征。二維目標(biāo)檢測(cè)中一般利用卷積核和卷積神經(jīng)網(wǎng)絡(luò)遍歷整個(gè)圖像提取特征，借鑒二維目標(biāo)檢測(cè)的方法，采用三維卷積核和單純的三維卷積方法遍歷整個(gè)點(diǎn)云提取特征，會(huì)帶來兩個(gè)問題：一是消耗非常巨大，因?yàn)辄c(diǎn)云廣泛分布在三維空間內(nèi)，遍歷整個(gè)點(diǎn)云會(huì)帶來巨大的內(nèi)存和時(shí)間消耗；二是大部分卷積為無效特征提取，因?yàn)辄c(diǎn)云的稀疏性，大部分空間不存在點(diǎn)，會(huì)導(dǎo)致無效空卷積。

1.2 離散性

點(diǎn)云的離散性主要表現(xiàn)在兩個(gè)方面：（1）空間分布離散，點(diǎn)云中每個(gè)點(diǎn)都是獨(dú)立掃描相互獨(dú)立的，不依賴于其他點(diǎn)而單獨(dú)存在，從整體上看，點(diǎn)云是一個(gè)離散的、非結(jié)構(gòu)化的點(diǎn)集合，不定義在某個(gè)區(qū)域內(nèi)，相鄰點(diǎn)之間的距離也不固定，因此建立點(diǎn)與點(diǎn)之間的關(guān)系較難；（2）組織結(jié)構(gòu)離散，簡(jiǎn)而言之就是不同數(shù)量的點(diǎn)云可以表示同一物體，點(diǎn)云通過其整體幾何結(jié)構(gòu)信息來描述物體，而不依賴點(diǎn)的數(shù)量，因此描述一個(gè)物體的點(diǎn)云其數(shù)量是不確定的。如圖2所示，描述同一架飛機(jī)的點(diǎn)云稀疏稠密不同，左圖能夠描述飛機(jī)的更多細(xì)節(jié)，但右圖也可判斷出物體的類別。雖然人眼能清晰地分辨出二者不同，并判斷其均屬于飛機(jī)類別，但神經(jīng)網(wǎng)絡(luò)卻無法簡(jiǎn)單實(shí)現(xiàn)這一點(diǎn)。

圖2 不規(guī)則離散分布在空間中的三維點(diǎn)云Fig.2 Irregularly and discretely distributed point cloudsin space

1.3 無序性

點(diǎn)云本質(zhì)上是空間中一群點(diǎn)的集合，每個(gè)點(diǎn)包含了大量屬性信息。從數(shù)學(xué)的角度或數(shù)據(jù)結(jié)構(gòu)的角度，點(diǎn)云應(yīng)當(dāng)由“集合”來描述，集合中一個(gè)元素代表點(diǎn)云中一個(gè)點(diǎn)。集合中每個(gè)元素的地位是相同的，元素之間是無序的。同樣地，點(diǎn)云中每個(gè)點(diǎn)的地位也都是相同的，點(diǎn)與點(diǎn)之間是無序的，存儲(chǔ)在集合中點(diǎn)的先后順序?qū)τ诩隙詿o關(guān)緊要，也不會(huì)因?yàn)辄c(diǎn)存儲(chǔ)的先后順序改變點(diǎn)云的性質(zhì)特征。然而，神經(jīng)網(wǎng)絡(luò)卻對(duì)輸入數(shù)據(jù)的排序非常敏感，點(diǎn)的存儲(chǔ)順序直接影響神經(jīng)網(wǎng)絡(luò)的理解學(xué)習(xí)。如圖3所示，假設(shè)一個(gè)物體的點(diǎn)云數(shù)據(jù)由7個(gè)點(diǎn)組成，左圖將其表示為［P1，P2，P3，P4，P5，P6，P7］，右圖將其表示為［P4，P6，P5，P7，P3，P1，P2］，顯然不論張量中點(diǎn)的順序如何變化，映射回三維空間中仍然表示的是同一個(gè)物體。然而，以左圖張量為輸入訓(xùn)練出來的神經(jīng)網(wǎng)絡(luò)模型很可能無法對(duì)右圖張量做出正確預(yù)測(cè)。

圖3 同一點(diǎn)云的不同張量表達(dá)Fig.3 Different tensor expressions of the same point clouds

1.4 旋轉(zhuǎn)平移不變性

對(duì)于點(diǎn)云而言，無論如何旋轉(zhuǎn)或平移，點(diǎn)與點(diǎn)的相對(duì)位置始終保持不變，點(diǎn)云所表示物體的形狀和大小也不會(huì)發(fā)生任何變化，如圖4所示，它是一種剛體變換。然而，當(dāng)對(duì)點(diǎn)云進(jìn)行旋轉(zhuǎn)或平移時(shí)，點(diǎn)云中的點(diǎn)的坐標(biāo)會(huì)發(fā)生相應(yīng)變化。因此，旋轉(zhuǎn)或平移雖然并未改變物體的空間結(jié)構(gòu)，但卻改變了表達(dá)其空間結(jié)構(gòu)的三維坐標(biāo)。神經(jīng)網(wǎng)絡(luò)需要適應(yīng)點(diǎn)云的這種旋轉(zhuǎn)平移不變性質(zhì)，無論如何旋轉(zhuǎn)或平移，無論參考坐標(biāo)系怎樣變化，均應(yīng)輸出一致結(jié)果。

圖4 點(diǎn)云的旋轉(zhuǎn)平移不變性Fig.4 Rotation and translation invariance of point clouds

2 基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)

2.1 基于圖像視錐的方法

基于圖像視錐的方法，結(jié)合了二維圖像的高分辨率優(yōu)勢(shì)和三維點(diǎn)云的精確位置信息優(yōu)勢(shì)來進(jìn)行目標(biāo)檢測(cè)，其主要思想是利用現(xiàn)有成熟的二維目標(biāo)檢測(cè)算法，首先從二維圖像中獲得目標(biāo)的2D邊界框，然后利用二維圖像與三維點(diǎn)云的對(duì)應(yīng)關(guān)系，將該2D邊界框映射到三維點(diǎn)云中得到一個(gè)3D錐體候選區(qū)域，再從該區(qū)域提取目標(biāo)的3D包圍盒。此類方法的典型代表為Frustum PointNets[6]，后續(xù)的基于圖像視錐的研究工作大多是在此基礎(chǔ)上進(jìn)行改進(jìn)的，其工作原理如圖5所示，給定一個(gè)RGB-D數(shù)據(jù)，首先使用卷積神經(jīng)網(wǎng)絡(luò)在RGB圖像中生成目標(biāo)的2D邊界框，然后從點(diǎn)云中獲得其對(duì)應(yīng)的3D視錐，最后利用PointNet++[7]來學(xué)習(xí)各個(gè)3D視錐的點(diǎn)云特征，從而提取目標(biāo)的3D包圍盒。

圖5 Frustum PointNets三維目標(biāo)檢測(cè)原理Fig.5 Frustum PointNets 3Dobject detection principle

由于Frustum PointNets僅利用了圖像中的位置信息，并沒有使用其顏色信息，PointFusion[8]對(duì)其進(jìn)行了改進(jìn)，首先通過ResNet提取2D邊界框內(nèi)圖像的特征（包括位置信息和顏色信息），然后與3D視錐點(diǎn)云特征進(jìn)行融合。

SIFRNet[9]隨后對(duì)Frustum PointNets再次進(jìn)行了改進(jìn)，如圖6所示，提出了一種尺度不變和特征重加權(quán)網(wǎng)絡(luò)（Scale Invariant and Feature Reweighting Network），包含Point-UNet、T-Net、Point-SENet三個(gè)模塊，Point-UNet模塊主要是對(duì)3D視錐點(diǎn)云進(jìn)行分割，捕獲點(diǎn)云的不同朝向信息以及強(qiáng)魯棒性的形狀尺度；T-Net模塊主要是對(duì)物體3D包圍盒中心進(jìn)行估計(jì)；Point-SENet模塊預(yù)測(cè)輸出最終的3D包圍盒。

圖6 SIFRNet目標(biāo)檢測(cè)流程意圖Fig.6 Thepipelineof SIFRNet for 3Dobject detection

Shin等[10]提出了RoarNet，解決了2D邊界框投影到3D空間中LiDAR和相機(jī)兩個(gè)傳感器同步的問題。F-Con?vNet[11]在Frustum PointNets網(wǎng)絡(luò)的基礎(chǔ)上，改進(jìn)了視錐區(qū)域點(diǎn)云的特征提取方式，如圖7所示，具體就是在錐體軸上產(chǎn)生一系列的錐體，然后提取各個(gè)錐體內(nèi)點(diǎn)云的特征，將點(diǎn)云的逐點(diǎn)特征轉(zhuǎn)為視錐體級(jí)特征，進(jìn)而利用全卷積網(wǎng)絡(luò)（FCN）回歸3D包圍盒，這樣不僅可以避免大范圍遍歷點(diǎn)云，提升檢測(cè)效率，還可以在回歸時(shí)減少對(duì)稀疏前景點(diǎn)的過度依賴，提高檢測(cè)性能。

圖7 F-ConvNet視錐特征提取Fig.7 F-Convnet frustumfeatureextraction

2.2 基于數(shù)據(jù)降維的方法

基于數(shù)據(jù)降維的方法，核心思想就是將不規(guī)則、稀疏無序、數(shù)據(jù)量巨大的點(diǎn)云數(shù)據(jù)降維轉(zhuǎn)化后再進(jìn)行處理，以節(jié)約內(nèi)存和降低時(shí)間消耗。數(shù)據(jù)降維的處理方法有多種，較為典型的主要有以下3類。

（1）基于偽圖片的方法，即將三維點(diǎn)云轉(zhuǎn)化為二維偽圖片數(shù)據(jù)，然后再運(yùn)用已經(jīng)相對(duì)成熟的二維目標(biāo)檢測(cè)技術(shù)進(jìn)行檢測(cè)。該方法的典型代表是PointPillars[12]和CenterPoint[13]。PointPillars能夠在保證一定精度的同時(shí)實(shí)現(xiàn)較快的檢測(cè)速度，其網(wǎng)絡(luò)結(jié)構(gòu)如圖8所示，包含3個(gè)部分：Pillar Feature Net將三維點(diǎn)云轉(zhuǎn)化為二維偽圖片（Pseudo image），首先根據(jù)點(diǎn)云的X軸、Y軸坐標(biāo)將點(diǎn)云劃分到一個(gè)個(gè)Pillar（柱體）中，然后提取Stacked Pillars（堆疊柱體）的特征，并對(duì)Pillar所在維度進(jìn)行Max Pool?ing（最大池化）操作得到Learned Features（學(xué)得特征），最后將其轉(zhuǎn)化為二維偽圖片；Backbone利用二維卷積對(duì)偽圖片進(jìn)行特征提取，Detection Head主要利用SSD回歸物體的3D包圍盒。CenterPoint主要從原始點(diǎn)云中學(xué)習(xí)生成表征目標(biāo)中心位置的鳥瞰熱力圖（表示為M∈?W×H×F），然后利用二維卷積找到物體的大致中心點(diǎn)（熱力圖的峰值位置），并使用中心特征回歸物體的位置和方向。

圖8 PointPillars網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 Network framework of PointPillars

（2）基于多視圖的方法，主要從前視、俯視等不同視角將三維點(diǎn)云數(shù)據(jù)進(jìn)行二維化處理，得到激光雷達(dá)前視圖、鳥瞰圖（BEV）等特征圖，然后對(duì)這些特征進(jìn)行融合，再應(yīng)用2D目標(biāo)檢測(cè)器進(jìn)行檢測(cè)，典型的方法有BirdNet[14]、MV3D[15]和AVOD[16]等。BirdNet將點(diǎn)云投影轉(zhuǎn)化為高度、強(qiáng)度和密度的三通道BEV特征圖（其中密度進(jìn)行歸一化預(yù)處理），然后在BEV特征圖上應(yīng)用2D目標(biāo)檢測(cè)器，結(jié)合高度信息（將物體的最大高度減去地面估計(jì)高度）最后得到3D包圍盒。BirdNet的重要貢獻(xiàn)是提出密度歸一化操作，使得高分辨率點(diǎn)云中訓(xùn)練的模型可以在較低分辨率的點(diǎn)云上使用。MV3D首先從多通道特征圖（由高度、密度和反射強(qiáng)度組成）中計(jì)算候選區(qū)域，然后將候選區(qū)域映射回鳥瞰圖（BV）、前視圖（FV）和圖片（RGB）3個(gè)視圖中，如圖9所示，利用3個(gè)視圖的ROI區(qū)域進(jìn)行ROI pooling獲得3個(gè)視圖特征并融合，最后進(jìn)行目標(biāo)分類和3D包圍盒回歸。AVOD對(duì)MV3D進(jìn)行了改進(jìn)，舍棄了MV3D中前視圖（FV）特征輸入，僅使用鳥瞰圖（BV）和圖片（RGB），使用裁剪、調(diào)整特征圖尺寸大小和按位均值融合代替了MV3D的ROIpool?ing進(jìn)行多模態(tài)特征融合，并且進(jìn)行了兩輪RPN區(qū)域建議，提高了小物體（如行人）的檢測(cè)效果。

圖9 MV3D網(wǎng)絡(luò)結(jié)構(gòu)Fig.9 Network framework of MV3D

（3）基于體素網(wǎng)格的方法，首先將三維點(diǎn)云降維轉(zhuǎn)化為一個(gè)個(gè)堆疊的、相同大小的規(guī)則體素網(wǎng)格，然后應(yīng)用3D卷積對(duì)體素網(wǎng)格進(jìn)行特征學(xué)習(xí)提取，最后回歸預(yù)測(cè)物體的類別和位置，典型的方法有VoxelNet[17]、SEC?OND[18]等。VoxelNet網(wǎng)絡(luò)結(jié)構(gòu)如圖10所示，首先將點(diǎn)云劃分為等間距體素，利用VFE層（voxel feature encoding layer）提取體素特征，然后將得到的體素特征降維成2D鳥瞰圖，最后使用RPN網(wǎng)絡(luò)輸出檢測(cè)結(jié)果。SECOND對(duì)其進(jìn)行了改進(jìn)，使用稀疏3D卷積替換了普通3D卷積，大大提高了推理效率。目前，稀疏3D卷積已成為體素點(diǎn)云特征提取的主要范式。

圖10 VoxelNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.10 Network framework of VoxelNet

2.3 基于原始點(diǎn)云的方法

基于原始點(diǎn)云的方法，直接作用于原始三維點(diǎn)云提取點(diǎn)云的特征，然后回歸物體的3D包圍盒，無需借助2D圖像邊界框獲得3D點(diǎn)云視錐，也無需進(jìn)行多視圖投影或體素化等數(shù)據(jù)降維操作。典型的方法有Poin?tRCNN[19]、VoteNet[20]和3DSSD[21]等。

PointRCNN是一種兩階段網(wǎng)絡(luò)，其網(wǎng)絡(luò)結(jié)構(gòu)如圖11所示，第一階段進(jìn)行前景點(diǎn)和背景點(diǎn)分割，生成少量高質(zhì)量初始檢測(cè)盒，首先利用PointNet++對(duì)原始點(diǎn)云進(jìn)行特征提取，然后進(jìn)行Foreground Point Segmentation（前景點(diǎn)分割），同時(shí)額外增加一個(gè)Bin-based 3D Box Genera?tion（基于Bin損失的3D包圍盒生成網(wǎng)絡(luò)）來輸出3D proposals（候選建議），Bin損失方法核心思想是將復(fù)雜困難的3D包圍盒回歸任務(wù)轉(zhuǎn)化為簡(jiǎn)單容易的分類加回歸任務(wù)；第二階段對(duì)初始3D包圍盒進(jìn)行細(xì)化精修，首先利用Point Cloud Region Pooling（點(diǎn)云區(qū)域池化）對(duì)上述獲得的3Dproposals進(jìn)行局部特征提取，并將該局部特征進(jìn)行Canonical Transformation（規(guī)范變換），即對(duì)每個(gè)pro?posal建立一個(gè)獨(dú)立坐標(biāo)系，坐標(biāo)系的中心點(diǎn)為proposal的中心，X軸指向物體朝向，然后將其送入MLP獲得新特征，并與全局語義特征堆疊融合，最后利用融合特征進(jìn)行3D包圍盒優(yōu)化和置信度預(yù)測(cè)。

圖11 PointRCNN網(wǎng)絡(luò)結(jié)構(gòu)Fig.11 Network framework of PointRCNN

VoteNet是一個(gè)基于深度點(diǎn)集網(wǎng)絡(luò)和霍夫投票的端到端3D目標(biāo)檢測(cè)網(wǎng)絡(luò)，如圖12所示，整個(gè)網(wǎng)絡(luò)分為兩部分：第一部分處理現(xiàn)有的點(diǎn)云以生成Votes（投票），首先利用Point cloud feature learning backbone（點(diǎn)云特征學(xué)習(xí)骨干網(wǎng)絡(luò)）提取原始點(diǎn)云（N×3）的特征，生成Seeds（種子點(diǎn)），然后利用Hough voting with deep networks（霍夫投票深度網(wǎng)絡(luò)）為每個(gè)Seed學(xué)習(xí)一個(gè)3D空間的偏置和特征空間上的偏置以生成Votes（一些靠近3D物體質(zhì)心的虛擬點(diǎn)）；第二部分利用Votes來預(yù)測(cè)物體類別和3D包圍盒，首先使用FPS（最遠(yuǎn)點(diǎn)采樣）以及ball query（球查詢）的方式采樣聚合Votes得到K個(gè)Vote clusters（投票群集），然后經(jīng)過兩層MLP輸出預(yù)測(cè)結(jié)果。

圖12 VoteNet網(wǎng)絡(luò)結(jié)構(gòu)Fig.12 Network framework of VoteNet

3DSSD主要有3點(diǎn)貢獻(xiàn)：一是開創(chuàng)性地將單階段目標(biāo)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)引入到三維目標(biāo)檢測(cè)中，在保證性能與兩階段檢測(cè)器相當(dāng)?shù)那闆r下大幅度提高了檢測(cè)效率；二是提出了一種融合空間距離與語義特征距離為度量新的采樣方法F-FPS，并與距離最遠(yuǎn)點(diǎn)采樣方法D-FPS、融合采樣策略（F-FPS和D-FPS結(jié)合）進(jìn)行了對(duì)比實(shí)驗(yàn)；三是提出了Candidate Generation Layer（候選點(diǎn)生成層），將采樣初始點(diǎn)坐標(biāo)向其對(duì)應(yīng)實(shí)例的中心點(diǎn)進(jìn)行偏移修正，提高了3D包圍盒質(zhì)量。

2.4 三類方法比較

表1匯總了本文提及的三維目標(biāo)檢測(cè)各方法模型的提出年份、輸入數(shù)據(jù)類型、關(guān)鍵技術(shù)、在KITTI測(cè)試集汽車類別上的3D檢測(cè)性能和檢測(cè)時(shí)間。

表1 基于深度學(xué)習(xí)的三維目標(biāo)檢測(cè)方法歸納與總結(jié)Tab.1 Induction and summary of 3D object detection methods based on deep learning

基于圖像視錐的方法，將目標(biāo)鎖定到2D邊界框?qū)?yīng)的3D視錐范圍中，相對(duì)于從整個(gè)三維點(diǎn)云中搜索目標(biāo)而言，僅需從3D視錐區(qū)域內(nèi)搜索目標(biāo)，大大縮小了搜索空間，提高了搜索效率和檢測(cè)精度。但是，順序的操作流程也導(dǎo)致其性能受到二維圖像檢測(cè)器的限制。基于數(shù)據(jù)降維的方法，將三維點(diǎn)云降維轉(zhuǎn)化成偽圖片、多視圖、體素后再進(jìn)行目標(biāo)檢測(cè)，能夠較好地利用成熟的2D目標(biāo)檢測(cè)技術(shù)，并且可以擁有較高的檢測(cè)速度。但是，數(shù)據(jù)降維會(huì)導(dǎo)致點(diǎn)云數(shù)據(jù)信息隱性丟失?；谠键c(diǎn)云的方法，直接對(duì)原始的三維點(diǎn)云進(jìn)行處理，保留了點(diǎn)云的原始數(shù)據(jù)特征，但同樣不可避免存在一些問題：一是難以有效進(jìn)行特征提取，二是難以處理大規(guī)模點(diǎn)云。

3 結(jié)束語

現(xiàn)有的三維目標(biāo)檢測(cè)方法達(dá)到了較高的精度和速度，但仍存在一定局限性。基于前述內(nèi)容，對(duì)三維目標(biāo)檢測(cè)展望如下。

（1）隨著傳感器技術(shù)的發(fā)展和傳感器成本的降低，未來的三維目標(biāo)檢測(cè)數(shù)據(jù)來源不僅僅是相機(jī)采集的圖片和LiDAR采集的點(diǎn)云，還可能包括視頻、radar等多模態(tài)數(shù)據(jù)，多模態(tài)數(shù)據(jù)融合的目標(biāo)檢測(cè)方法可能會(huì)是未來發(fā)展趨勢(shì)。

（2）現(xiàn)有的三維目標(biāo)檢測(cè)模型對(duì)距離較近、尺寸較大、點(diǎn)云稠密的目標(biāo)檢測(cè)效果較好，但對(duì)距離較遠(yuǎn)、尺寸較小、點(diǎn)云稀疏以及存在遮擋重疊情況的目標(biāo)檢測(cè)效果較差。實(shí)際應(yīng)用中的目標(biāo)檢測(cè)情況十分復(fù)雜，所以針對(duì)這一問題的解決方案非常值得挖掘和探索。

（3）三維數(shù)據(jù)標(biāo)注成本較高，所以現(xiàn)有的目標(biāo)檢測(cè)模型大多是在標(biāo)注充分的公開數(shù)據(jù)集訓(xùn)練和實(shí)驗(yàn)的。對(duì)于特定需求場(chǎng)景下的點(diǎn)云目標(biāo)檢測(cè)，由于缺乏標(biāo)注數(shù)據(jù)集大多無法展開。弱監(jiān)督或無監(jiān)督的目標(biāo)檢測(cè)技術(shù)能夠有效解決此問題，可能會(huì)是未來的一個(gè)重要研究方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡