国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于紅外與激光雷達融合的鳥瞰圖空間三維目標檢測算法

2024-01-29 02:35:18王五岳徐召飛曲春燕林穎陳玉峰廖鍵
光子學報 2024年1期
關(guān)鍵詞:體素激光雷達分支

王五岳,徐召飛,曲春燕,林穎,陳玉峰,廖鍵

(1 哈爾濱工程大學 煙臺研究生院,煙臺 265500)

(2 哈爾濱工程大學 機電工程學院,哈爾濱 150000)

(3 煙臺艾睿光電科技有限公司,煙臺 265500)

(4 國網(wǎng)山東省電力公司 電力科學研究院,濟南 250014)

0 引言

近年來,自動駕駛領(lǐng)域迎來爆發(fā)式發(fā)展,自動駕駛技術(shù)已經(jīng)在全球掀起熱潮,并被認為是未來汽車工業(yè)發(fā)展的必然趨勢,自動駕駛將從根本上改變我們未來的出行方式。感知功能是自動駕駛的關(guān)鍵環(huán)節(jié),是行車智能性和安全性的保障。精確實時地進行目標檢測是自動駕駛車輛能夠準確感知周圍復(fù)雜環(huán)境的核心功能之一[1],“感”是指硬件部分,負責收集周圍環(huán)境信息,“知”是指算法對硬件收集信息的理解,三維目標檢測不僅要預(yù)測出目標的類別,還要預(yù)測出目標的尺寸、距離、位置、姿態(tài)等三維信息,是感知系統(tǒng)和場景理解的核心[2],也是路徑規(guī)劃、運動預(yù)測和緊急避障等決策控制環(huán)節(jié)的基礎(chǔ)。

我國交通道路情況十分復(fù)雜,多傳感器融合是自動駕駛?cè)蝿?wù)的最佳感知方案,實現(xiàn)高級別的自動駕駛需要多種傳感器相互配合,共同構(gòu)建汽車的感知系統(tǒng)。車載紅外探測的是物體表面輻射的紅外能量,在低照度、雨雪、霧霾、沙塵、強光等場景條件下,依舊可以清晰成像,可有效彌補可見光傳感器的不足,還能夠解決夜間行車的視線問題,提升駕駛安全性;激光雷達是自動駕駛中最重要的傳感器之一,絕大多數(shù)自動駕駛方案都選擇配備激光雷達,提供了目標物體的距離、速度和方向等豐富的空間幾何信息,因此將紅外與激光雷達多傳感器融合能夠結(jié)合兩者的優(yōu)勢,提高車輛對真實世界的感知能力,達到1+1>2 的效果。多模態(tài)融合將成為實現(xiàn)高級自動駕駛的核心驅(qū)動力。

目前自動駕駛感知系統(tǒng)存在三種主流技術(shù)路線,第一種是基于視覺的三維目標檢測,LIU Z 等[3]提出的Smoke 是單階段的視覺三維目標檢測方法,使用一個關(guān)鍵點來表示一個目標,直接將估計的關(guān)鍵點與回歸的三維屬性相結(jié)合來預(yù)測目標的3D 框。第二種是基于激光雷達的三維目標檢測,ZHOU Y 等[4]提出了VoxelNet,將點云劃分成一個個堆疊的、大小相等、有規(guī)則的體素網(wǎng)格,使用三維卷積逐步提取體素特征,最后通過區(qū)域建議網(wǎng)絡(luò)(Region Proposal Network,RPN)預(yù)測3D 框。由于點云的稀疏性,劃分的體素網(wǎng)格包含大量空白體素,直接用三維卷積會浪費大量計算資源,為了解決這個問題,YAN Y 等[5]提出Second 引入三維稀疏卷積替代三維卷積,在提取體素特征時跳過空白體素,減少了無效運算。第三種是基于多傳感器融合的三維目標檢測,CHEN X 等[6]提出的MV3D 將激光雷達點云投影到兩種視圖表示(鳥瞰圖和前視圖),然后將這兩種視圖和從圖像中提取的特征進行特征級融合。KU J 等[7]提出的AVOD 對MV3D 進行了改進,首先從點云映射生成鳥瞰圖,之后將鳥瞰圖和從圖像中提取的特征進行第一次數(shù)據(jù)級融合和第二次特征級融合,這種方式能夠提取不同尺度的特征,對檢測小目標的效果有所提高。QI C R 等[8]提出了使用視錐體(Frustum)的融合方法Frustum-PointNets,首先在圖像上生成2D 預(yù)測框,然后使用投影矩陣將2D 框投影到目標對應(yīng)的點云上,形成了視錐體區(qū)域建議,最后使用PointNet[9]/PointNet++[10]對每個視錐體區(qū)域進行檢測,避免了大范圍掃描點云。VORA S 等[11]提出的PointPainting 首先對圖像進行語義分割,然后將語義信息投影到點云上,最后使用點云網(wǎng)絡(luò)進行檢測。

本文考慮到目前主流的多模態(tài)檢測模型過于復(fù)雜、擴展性差,一旦某個傳感器出現(xiàn)故障將導(dǎo)致整個系統(tǒng)無法工作,很難部署到自動駕駛的實際應(yīng)用場景之中,同時為了彌補可見光傳感器的不足,提升自動駕駛的夜間行車能力,本文基于微機電系統(tǒng)(Micro-Electro-Mechanical System,MEMS)激光雷達和紅外相機兩種傳感器,設(shè)計了一種簡單輕量、易于擴展、易于部署的可分離融合感知系統(tǒng),將激光雷達和紅外相機兩種傳感器分別設(shè)置成獨立的分支,兩者不僅能各自獨立工作也能融合工作。由于兩種不同的傳感器具有不同的數(shù)據(jù)結(jié)構(gòu)表示和空間坐標系,為了解決這種數(shù)據(jù)結(jié)構(gòu)以及空間坐標系的差異,本文選擇鳥瞰圖(Bird′s Eye View,BEV)空間作為兩種不同模態(tài)的統(tǒng)一表示,BEV 空間的優(yōu)勢在于能夠?qū)?fù)雜的三維空間簡化為二維,并且統(tǒng)一坐標系,使得跨攝像頭融合、多視角攝像頭拼接以及多模態(tài)融合更容易實現(xiàn),對下游任務(wù)更為友好,相機分支和雷達分支分別將二維空間和三維空間統(tǒng)一到BEV 空間下,以完成后續(xù)的多模態(tài)特征融合以及三維檢測任務(wù)。本文對相機分支進行了改進,增強相機的深度估計能力以得到更準確的BEV 空間特征,雷達分支適用于任意的SOTA 三維點云檢測模型,融合分支使用門控注意力融合機制將相機分支BEV特征和雷達分支BEV 特征進行融合。

1 算法設(shè)計與實現(xiàn)

本節(jié)主要介紹一種簡單的激光雷達-紅外相機可分離融合感知系統(tǒng)的架構(gòu)、算法的設(shè)計及實現(xiàn)。本系統(tǒng)由相機分支、雷達分支和融合分支三部分構(gòu)成,系統(tǒng)架構(gòu)如圖1所示,將激光雷達和紅外相機分別設(shè)置成獨立的分支,兩種傳感器可分離并且獨立工作,解耦了激光雷達和紅外相機融合的相互依賴性,如出現(xiàn)某一種傳感器故障不會影響另一種傳感器工作。在該系統(tǒng)中,相機分支和雷達分支分別將二維空間和三維空間統(tǒng)一到BEV 空間下,獲得相機分支BEV 特征和雷達分支BEV 特征,融合分支使用門控注意力融合機制將來自不同分支的BEV 特征進行融合,之后完成三維目標檢測任務(wù),若出現(xiàn)某一種傳感器故障,相機分支和雷達分支都可獨立完成三維目標檢測任務(wù)。

圖1 可分離融合感知系統(tǒng)架構(gòu)圖Fig.1 Frame figure of separable fusion sensing system

1.1 相機分支結(jié)構(gòu)

在相機分支中,主要實現(xiàn)圖像特征到BEV 空間的變換,之后得到BEV 特征信息,在變換中需要實現(xiàn)每個相機特征與深度特征相關(guān)聯(lián),即在二維圖像視角下,引入深度估計,轉(zhuǎn)換為在BEV 空間視角下的三維感知。本文使用一種主流的方法來實現(xiàn)圖像到BEV 空間的變換,即Lift-Splat-Shoot(LSS)[12]。相機分支結(jié)構(gòu)主要包括:1)圖像編碼模塊;2)圖像-BEV 視圖變換模塊;3)BEV 編碼模塊;4)3D 檢測頭四大模塊。

1.1.1 圖像編碼模塊

在圖像編碼模塊中,主要由一個骨干網(wǎng)絡(luò)、一個頸部(Neck)網(wǎng)絡(luò)和多尺度特征融合(Multi-Scale Feature Fusion,MSFF)模塊三部分組成,實現(xiàn)提取輸入圖像的多尺度特征,以完成后續(xù)圖像特征變換為BEV 特征的步驟。圖像編碼模塊可以選擇先進的基于CNN 或基于Vision Transformer 的模型作為特征提取網(wǎng)絡(luò),體現(xiàn)了本模型的擴展性,本文為了兼顧精度和速度,選擇YOLOv5。YOLOv5 是一個one-stage、優(yōu)秀的2D 目標檢測算法,由于檢測速度快且易于部署的優(yōu)點被工程界所廣泛使用。2D 骨干網(wǎng)絡(luò)使用CSPDarknet,CSPDarknet 借鑒CSPNet[13],引入了CSP(Cross Stage Partial)結(jié)構(gòu),CSP 將輸入特征圖分為兩部分,一部分經(jīng)過一個小型網(wǎng)絡(luò)進行處理,另一部分則直接進入下一層處理,之后結(jié)合兩部分特征圖,作為下一層的輸入,能夠在不損失檢測精度的前提下,提升網(wǎng)絡(luò)對特征提取的能力。Neck 網(wǎng)絡(luò)使用FPN(Feature Pyramid Networks)[14]+PAN(Path Aggregation Network)[15]結(jié)構(gòu)來提取多尺度特征,F(xiàn)PN 自頂向下將深層的強語義特征傳遞給淺層,增強多個尺度上的語義表達能力;PAN 自底向上將淺層的強定位特征傳遞給深層,增強多個尺度上的定位能力。通過骨干網(wǎng)絡(luò)和Neck 網(wǎng)絡(luò)輸出多尺度特征H/8×W/8×C、H/16×W/16×C、H/32×W/32×C,為了更好地使用這些多尺度特征,本文使用多尺度特征融合(Multi-scale feature fusion,MSFF)模塊,對H/8×W/8×C(C 為通道數(shù))采用自適應(yīng)平均池化,特征圖尺寸保持不變,對H/16×W/16×C、H/32×W/32×C分別進行上采樣至H/8×W/8×C,之后將池化后的特征和上采樣后的特征進行融合,經(jīng)過卷積層得到形狀為H/8×W/8×3C的多尺度融合特征。圖像編碼模塊結(jié)構(gòu)如圖2所示。

圖2 圖像編碼模塊Fig.2 Image encoder module

1.1.2 圖像-BEV 視圖變換模塊

在圖像-BEV 視圖變換模塊中,LSS[12]中Lift 的深度估計是圖像特征變換為BEV 特征的關(guān)鍵步驟,LSS[12]提出的深度網(wǎng)絡(luò)(DepthNet)如圖3所示,主要由一個卷積層和一個Softmax 激活函數(shù)來實現(xiàn)深度估計,將上述圖像編碼過程中得到的圖像多尺度融合特征通過DepthNet 估計每個圖像特征點的深度,為每個圖像特征點生成Dpred個可能的離散深度值以及Dpred個深度的概率分布(Depth Distribution),形成以相機為頂點的視錐體,稱之為視錐點云(H×W×Dpred),Lift 操作將其深度分布與圖像特征計算外積得到視錐點云特征(H×W×Dpred×C)。

圖3 深度網(wǎng)絡(luò)Fig.3 DepthNet

但LSS[12]中Lift 對深度的估計存在一些不足,只有少部分特征區(qū)域的深度估計是準確的,大部分區(qū)域存在較大偏差,這將會造成后續(xù)變換為BEV 的間接損失,導(dǎo)致生成的BEV 特征不準確。對此,本文改進其深度網(wǎng)絡(luò),以增強Lift 階段的深度估計能力,改進深度網(wǎng)絡(luò)(Improved DepthNet)結(jié)構(gòu)如圖4所示,實現(xiàn)準確的深度估計與相機參數(shù)相關(guān)聯(lián),相機參數(shù)主要包括相機內(nèi)參(Camera Intrinsic)、圖像變換矩陣(ImageAug Matrix)和雷達坐標系到相機坐標系的變換逆矩陣(Img2Lidar Matrix),Improved DepthNet 中引入了相機參數(shù)先驗(Camera Parameter Prior)模塊,將相機參數(shù)作為深度估計的先驗,通過全連接層(Fully Connected Layers,F(xiàn)C)升維至圖像特征通道數(shù),之后與圖像特征相乘,得到包含相機參數(shù)的圖像特征,以更準確的回歸深度信息,幫助校正圖像特征在BEV 空間的定位。

圖4 改進深度網(wǎng)絡(luò)Fig.4 Improved DepthNet

為提升深度估計的準確性,Improved DepthNet 中引入了深度監(jiān)督(Depth Supervision)模塊,使用真實點云來監(jiān)督Dpred,使得生成的Dpred更準確,首先通過投影矩陣將點云轉(zhuǎn)換為深度圖(DepthMap),對其采用OneHot 編碼,獲取每個像素點的二值深度Dgt,對于深度損失Ldepth采用二元交叉熵損失,如式(1)所示。

式中,S表示Sigmoid 激活函數(shù),S(-Dpred)=1-S(Dpred)。

在雷達坐標系下,設(shè)定檢測范圍以及BEV 單元格尺寸,本文設(shè)定X軸、Y軸和Z軸檢測范圍分別為[0 m,+120 m ]、[-33.6 m,+33.6 m ]和[-2 m,+4 m ],設(shè)定BEV 單元格X軸、Y軸和Z軸的單位長度為0.6m,分別沿X軸、Y軸和Z軸進行劃分,可得到尺寸為[200,112,10]的BEV 網(wǎng)格,通過相機坐標系到雷達坐標系的變換矩陣,將上述Lift 階段得到的視錐點云特征(H×W×Dpred×C)投影到相應(yīng)的單元格之中,之后對其進行BEV 池化操作,即聚合每個網(wǎng)格內(nèi)的特征,LSS[12]的操作是根據(jù)BEV 網(wǎng)格的索引對所有特征進行排序,對所有特征進行累積求和,然后減掉索引邊界處的值,由于LSS[12]的累積求和采用串行化計算,計算效率低下,會降低模型檢測速度,為提高計算效率,本文設(shè)計了BEV 池化加速內(nèi)核,基于CUDA 平臺構(gòu)建GPUs 并行計算引擎,為每個BEV 網(wǎng)格分配一個GPU 線程,設(shè)計GPU 核函數(shù)實現(xiàn)并行化加速累積求和的計算,模型訓練時間從72 h 減少到30 h。BEV 池化加速內(nèi)核如圖5所示,BEV 池化后獲得偽體素特征Fp-voxel∈RC×X×Y×Z。

圖5 BEV 池化加速內(nèi)核Fig.5 BEV pooling accelerator kernel

1.1.3 BEV 編碼模塊

在BEV 編碼模塊中,主要實現(xiàn)將上述BEV 池化得到的偽體素特征Fp-voxel∈RC×X×Y×Z編碼為BEV 空間特征,本模型的操作是將Fp-voxel∈RC×X×Y×Z重塑為FBEV∈RX×Y×(ZC),而不是類似LSS[12]一樣直接壓縮Z維空間,從而保留了Z維空間信息,之后使用簡單的CBR(Conv+Batchnorm+Relu)網(wǎng)絡(luò)來提取BEV 特征,最大限度保留了空間信息并降低了損失成本。

1.1.4 3D 檢測頭

相機分支適配任意的先進3D 檢測頭完成檢測任務(wù),比如基于Anchor 的PointPillars[17]檢測頭,或基于Anchor-Free 的CenterPoint[18]檢測頭,體現(xiàn)了本模型的可擴展性。在這里,本文采用基于Anchor-Free 的CenterPoint[18]作為相機分支的3D 檢測頭。

1.2 雷達分支結(jié)構(gòu)

在雷達分支中,由于點云的不規(guī)則性和稀疏性,有兩種常見的方法處理原始點云,一種是基于Voxelnet[4]的點云體素化(Voxelization),在三維空間中分別沿X軸、Y軸和Z軸將點云劃分成一個個堆疊的、大小相等、有規(guī)則的體素(Voxel)網(wǎng)格,之后使用體素特征編碼層(Voxel Feature Encoding layer,VFE[4])將體素編碼成向量,由于點云的稀疏性,劃分的網(wǎng)格包含了大量的空白體素,因此使用稀疏3D 卷積[5]逐步提取體素特征,跳過空白體素,降低大量無效運算;另一種是基于PointPillars[17]的點云柱狀化(Pillarization),柱狀體(Pillar)是體素的一種特殊格式,在三維空間中只沿X軸和Y軸對點云劃分成一個個大小相等、有規(guī)則的Pillar 網(wǎng)格,之后使用簡易Pointnet[9]網(wǎng)絡(luò)逐步提取Pillar 特征,避免使用了計算量較大的3D 卷積,節(jié)省計算資源并提升了點云處理速度。

為了兼顧速度和精度,本文使用點云柱狀化(Pillarization)的方法來處理原始點云,獲得Pillar 特征Fpillar∈RP×C(P表示Pillar 數(shù)量,C表示通道數(shù)),將P展開為(W,H),得到偽圖像Fp-img∈RW×H×C,通過Second[5]的骨干網(wǎng)絡(luò)和Neck 網(wǎng)絡(luò)獲得BEV 特征。雷達分支結(jié)構(gòu)如圖6所示。

圖6 雷達分支結(jié)構(gòu)Fig.6 Lidar branch structure

本文的雷達分支適配任意的SOTA 三維點云檢測模型,比如基于Anchor 的Second[5]、PointPillars[17],或基于Anchor-Free 的CenterPoint[18],點云處理方式可以選擇點云體素化(Voxelization)或點云柱狀化(Pillarization),體現(xiàn)了本模型的可擴展性。本文采用基于Anchor-Free 的CenterPoint[18]作為雷達分支的3D檢測頭。

1.3 融合分支結(jié)構(gòu)

上述相機分支和雷達分支分別將二維空間和三維空間統(tǒng)一到BEV 空間下,得到來自不同分支的BEV特征,為了使同一BEV 空間下的兩種特征對齊,本模型在對點云進行一系列數(shù)據(jù)增廣后,同時也對相機分支中生成的BEV 特征進行相同的數(shù)據(jù)增廣,本模型的做法是在對點云進行數(shù)據(jù)增廣后保存其增廣矩陣,之后更新相機坐標系到雷達坐標系的轉(zhuǎn)換矩陣,保證了相機分支中生成的BEV 特征與雷達分支中生成的BEV特征的空間一致性。

在同一BEV 空間下,融合分支使用門控注意力融合機制模塊,模塊結(jié)構(gòu)如圖7所示,首先將來自不同分支的BEV 特征連接通過卷積層得到融合特征,之后使用全局平均池化獲得通道級的全局特征,加入一個卷積層和Sigmoid 激活函數(shù)學習各個通道的權(quán)重作為門控值,表示每個通道的重要程度,最后將融合特征與門控值進行逐通道相乘,輸出具有加強通道注意力的融合特征。融合后可以選擇先進的基于Anchor 的3D 檢測頭或基于Anchor-Free 的3D 檢測頭來完成3D 檢測任務(wù)。本文采用基于Anchor-Free 的CenterPoint[18]作為融合分支的3D 檢測頭。

圖7 門控注意力融合機制模塊Fig.7 Gating attention fusion mechanism module

1.4 損失函數(shù)

本文的相機分支、雷達分支和融合分支均采用基于Anchor-Free 的CenterPoint[18]作為3D 檢測頭,對于類別損失Lclass采用Focal 損失函數(shù),如式(2)所示;對于3D 邊界框損失Lbbox采用Smooth L1 損失函數(shù),如式(3)所示;對于深度損失Ldepth采用二元交叉熵損失函數(shù),如式(1)所示。最終損失為類別損失、邊界框損失和深度損失之和,如式(4)所示。

式中,y∈{0,1}表示真實值,S表示Sigmoid 激活函數(shù),α、γ是超參數(shù),S(-x)=1-S(x)。

式中,y表示真實值,f(x)表示預(yù)測值。

式中,λ1、λ2、λ3表示每一種損失的權(quán)重值。

2 實驗分析

在本節(jié)中,首先介紹本文的實驗數(shù)據(jù)集、實驗評價指標以及實驗設(shè)置,然后在自建的數(shù)據(jù)集上進行了綜合實驗,以驗證模型的性能和魯棒性,最后將本文的模型與其他先進的三維檢測模型進行對比分析。

2.1 數(shù)據(jù)集介紹

數(shù)據(jù)采集硬件平臺主要由一個MEMS 激光雷達和一個紅外相機構(gòu)成,數(shù)據(jù)采集硬件平臺及布設(shè)位置如圖8所示。

圖8 數(shù)據(jù)采集硬件平臺及布設(shè)位置Fig.8 Data collection hardware platform and layout position

激光雷達和紅外相機安裝在實驗車輛的不同位置,布設(shè)位置如圖8所示,由于激光雷達和紅外相機安裝在不同的位置并且以各自的坐標系為基準,因此需要通過多傳感器聯(lián)合配準計算出兩種坐標系之間的剛體變換矩陣,剛體變換矩陣如式(5)所示。

式中,R為3×3 旋轉(zhuǎn)矩陣,T為3×1 平移矩陣,[XL,YL,ZL]表示雷達坐標系下的坐標,[XC,YC,ZC]表示相機坐標系下的坐標,旋轉(zhuǎn)矩陣R的作用是統(tǒng)一雷達坐標系和相機坐標系兩者的基向量,平移矩陣T的作用是將兩種坐標系的原點平移到統(tǒng)一的位置。在本文中,兩種傳感器已通過多傳感器配準算法求解出準確的旋轉(zhuǎn)矩陣R和平移矩陣T,可實現(xiàn)雷達坐標系與相機坐標系的相互變換,即激光雷達點云在經(jīng)過剛體變換后可處于相機坐標系中,之后使用機器人操作系統(tǒng)(Robot Operating System,ROS)工具實現(xiàn)時間同步,保證兩種傳感器在同一時刻內(nèi)對相同環(huán)境進行采集與記錄。

本文自建數(shù)據(jù)集由16 095 張雷達點云和16 095 張分辨率為640×512 的紅外圖像組成,包括三種類別:汽車(Car)、行人(Pedestrian)、騎車人(Cyclist),覆蓋多種場景,場景分布如圖9所示。

圖9 數(shù)據(jù)集場景分布Fig.9 Dataset scene distribution

2.2 實驗評價指標

對于3D 檢測任務(wù),本文使用平均精度(Average Precision,AP)和平均方向相似性(Average Orientation Similarity,AOS)來評估模型性能,BEV AP 和3D AP 分別用于衡量模型在鳥瞰圖空間下和在三維空間下不同類別的準確度,AOS 用于衡量3D 檢測框方向與3D 真實框方向的相似度,基于AP11[19]計算,AP11 表示11 點插值平均精度,曾在2007年至2010年期間作為PASCAL VOC[20]比賽的指標,如式(6)[21]所示。

式中,r表示檢測召回率,方向相似度s∈[0,1]表示預(yù)測樣本與真實樣本的余弦距離的歸一化,如式(7)[21]所示。

2.3 實驗設(shè)置

檢測目標包括三種類別:汽車(Car)、行人(Pedestrian)、騎車人(Cyclist)。本實驗將X軸、Y軸和Z軸檢測范圍分別設(shè)置為[0 m,+120 m ]、[-33.6 m,+33.6 m ]和[-2 m,+4 m ]。在訓練中,為了解決類別不平衡問題,采用類平衡采樣(Class-Balanced Grouping And Sampling,CBGS[22])策略進行訓練。在數(shù)據(jù)增廣方面,對點云使用全局旋轉(zhuǎn),縮放、平移以及水平翻轉(zhuǎn)等數(shù)據(jù)增廣,對圖像使用裁剪、縮放和水平翻轉(zhuǎn)等數(shù)據(jù)增廣,同時對圖像變換生成的BEV 特征采用與點云相同的數(shù)據(jù)增廣,保證在同一BEV 空間下兩種特征對齊。

2.4 消融實驗

關(guān)于相機分支的消融實驗見表1所示,表中mAP 表示Car、Pedestrian 和Cyclist 三種類別的AP 值的平均值,引入點云深度監(jiān)督模塊將3D mAP 提高1.72%,引入相機參數(shù)先驗?zāi)K將3D mAP 提高了0.79%,驗證了本模型的改進深度網(wǎng)絡(luò)(Improved DepthNet)是有效的。

表1 相機分支消融實驗Table 1 Ablation experiment of camera branch

關(guān)于融合分支的消融實驗見表2所示,表中mAP 表示Car、Pedestrian 和Cyclist 三種類別的AP 值的平均值,引入門控注意力融合機制將3D mAP 提高1.13%,證明了本模型的門控注意力融合(Gating Attention Fusion,GAF)機制是有效的。

表2 融合分支消融實驗Table 2 Ablation experiment of fusion branch

2.5 模型各分支實驗對比

在自建數(shù)據(jù)集上,雷達分支選擇基于Anchor-Free 的CenterPoint[18]進行測試,動態(tài)體素化(Dynamic Voxelization,DV)由MVF[23]提出,通過Map 建立點云與體素的映射關(guān)系,消除了普通體素化(Simple Voxelization,SV)需要預(yù)先設(shè)定體素個數(shù)以及每個體素內(nèi)采樣點數(shù)的缺點,保證每個點都可以被使用,降低了特征信息的損失,由于柱狀體(Pillar)是體素的一種特殊格式,因此Pillar 也可以使用動態(tài)體素化。不同體素化方式的測試結(jié)果如表3所示,動態(tài)體素化相比于普通體素化,Car 提升了0.91%3D AP,Pedestrian 提升了1.04%3D AP,在雷達分支選擇動態(tài)體素化可以提高檢測性能。

表3 雷達分支不同體素化方式的性能對比Table 3 Performance comparison of different voxelization method in lidar branches

分別對單一傳感器和融合兩種傳感器進行測試,相機分支、雷達分支和融合分支的測試結(jié)果見表4所示,融合分支相比于雷達分支,Car 提升了2.17%3D AP,Cyclist 提升了2.79% 3D AP,雖然相機分支的性能有限,但應(yīng)用于融合分支后,融合分支可以顯著提高單模態(tài)分支的性能。

表4 相機分支、雷達分支和融合分支的指標對比Table 4 Performance comparison of camera branch,lidar branch and fusion branch

2.6 與其他先進模型的對比

在自建數(shù)據(jù)集上進行綜合實驗,本文模型與其他先進模型的測試結(jié)果對比見表5,由表5 中可知,本文模型相比于先進的三維點云檢測模型PointPillars[17]和CenterPoint[18],Car 分別提升了9.19%3D AP、2.17%3D AP,Cyclist 分別提升了4.46%3D AP、2.79%3D AP,但是Pedestrian 的BEV AP 和3D AP 有所下降,而AOS有所提升,主要原因是在BEV 空間下Pedestrian 目標過小,影響了模型對目標的檢測效果,后期會繼續(xù)優(yōu)化以提升模型檢測小目標的能力。本文模型相比于先進的多模態(tài)檢測模型MVXNet[24],Car 提升了1.83%3D AP,Pedestrian 提升了1.02%3D AP,Cyclist 提升了11.17%3D AP,由此可見,本文模型性能優(yōu)于其他先進的多模態(tài)檢測模型。

表5 本文的模型與其他先進模型的指標對比Table 5 Performance comparison of our model with other SOTA model

3 實驗測試

實驗測試平臺主要由一個MEMS 激光雷達、一個紅外相機和一個MIIVII APEX AD10 嵌入式AI 計算平臺構(gòu)成,兩種傳感器布設(shè)位置如圖8所示。MIIVII APEX AD10 是基于NVIDIA Jetson AGX Orin 的嵌入式AI 計算平臺,如圖10所示。

圖10 MIIVII APEX AD10 嵌入式AI 計算平臺Fig.10 Embedded AI computing platform MIIVII APEX AD10

激光雷達和紅外相機均已接入AD10,本文模型已部署到AD10 中,可實時接收來自兩種傳感器的數(shù)據(jù)流并且實時推理,發(fā)布到RVIZ 實現(xiàn)可視化,RVIZ(Robot Visualization)是機器人操作系統(tǒng)(Robot Operating System,ROS)中的三維可視化平臺。本文實驗測試場景選擇城市道路,城市道路場景測試如圖11所示,左上角為可見光傳感器,可見光傳感器不參與目標檢測任務(wù),僅用于測試參考,右上角和下方為融合分支測試的可視化效果。本文模型融合分支在一個NVIDIA A100 GPU 上的推理速度為33 幀/s,在MIIVII APEX AD10 上的推理速度為4.8 幀/s,我們即將部署TensorRT 加速。

圖11 城市道路場景測試(RVIZ)Fig.11 City road scene test(RVIZ)

4 結(jié)論

本文針對目前主流的多模態(tài)檢測模型過于復(fù)雜、擴展性差,難以部署等問題,同時為了彌補可見光傳感器的不足,提升自動駕駛的夜間行車能力,設(shè)計了一種基于MEMS 激光雷達和紅外相機的可分離融合感知系統(tǒng),將激光雷達和紅外相機兩種傳感器分別設(shè)置成獨立的分支,相機分支和雷達分支不僅能各自獨立完成也能融合完成三維目標檢測任務(wù),解耦了激光雷達和紅外相機融合的相互依賴性。本文選擇BEV 空間作為兩種不同模態(tài)的統(tǒng)一表示,相機分支和雷達分支分別將二維空間和三維空間統(tǒng)一到BEV 空間下,解決了不同傳感器的數(shù)據(jù)結(jié)構(gòu)表示以及空間坐標系的差異問題,對后續(xù)的多模態(tài)特征融合以及三維目標檢測任務(wù)更為友好。相機分支選擇工程界廣泛通用且易于部署的YOLOv5 算法作為特征提取網(wǎng)絡(luò),同時改進了相機分支的深度網(wǎng)絡(luò),引入點云深度監(jiān)督模塊和相機參數(shù)先驗?zāi)K來增強相機分支的深度估計能力,精確的深度估計是相機分支實現(xiàn)將圖像特征變換為BEV 特征的關(guān)鍵所在。在圖像-BEV 視圖變換中設(shè)計了GPU 加速內(nèi)核,提升了模型檢測速度。雖然相機分支性能有限,但應(yīng)用于融合分支后,融合分支可以顯著提高單模態(tài)分支的性能。雷達分支適用于任意的SOTA 三維點云檢測模型。在融合上使用簡單的門控注意力融合機制將來自相機分支的BEV 特征和來自雷達分支的BEV 特征進行融合。本文模型已成功部署到MIIVII APEX AD10 嵌入式AI 計算平臺,實驗結(jié)果表明本文的模型是有效的、易于擴展的且易于部署。

猜你喜歡
體素激光雷達分支
基于多級細分的彩色模型表面體素化算法
手持激光雷達應(yīng)用解決方案
北京測繪(2022年5期)2022-11-22 06:57:43
法雷奧第二代SCALA?激光雷達
汽車觀察(2021年8期)2021-09-01 10:12:41
運用邊界狀態(tài)約束的表面體素加密細分算法
巧分支與枝
學生天地(2019年28期)2019-08-25 08:50:54
基于體素格尺度不變特征變換的快速點云配準方法
基于激光雷達通信的地面特征識別技術(shù)
基于激光雷達的多旋翼無人機室內(nèi)定位與避障研究
電子制作(2018年16期)2018-09-26 03:27:00
一類擬齊次多項式中心的極限環(huán)分支
生成分支q-矩陣的零流出性
固镇县| 汕尾市| 阳朔县| 铜鼓县| 黔西县| 嘉祥县| 康平县| 郯城县| 龙州县| 玛曲县| 淮南市| 泌阳县| 吐鲁番市| 辽中县| 临安市| 闸北区| 兴国县| 衡东县| 南平市| 永春县| 五台县| 宜君县| 平果县| 平潭县| 讷河市| 徐水县| 华蓥市| 福鼎市| 岳西县| 揭西县| 张家川| 永川市| 铜陵市| 怀化市| 香格里拉县| 连城县| 宝丰县| 安化县| 舒城县| 准格尔旗| 永济市|