趙晶, 李少博, 郭杰龍, 俞輝, 張劍鋒, 李杰
(1.廈門理工學(xué)院 電氣工程與自動(dòng)化學(xué)院, 福建 廈門 361024;2.中國(guó)科學(xué)院 福建物質(zhì)結(jié)構(gòu)研究所, 福建 福州 350108;3.中國(guó)科學(xué)院 海西研究院 泉州裝備制造研究中心, 福建 泉州 362000;4.廈門市高端電力裝備及智能控制重點(diǎn)實(shí)驗(yàn)室, 福建 廈門 361024)
激光點(diǎn)云是一種直觀、靈活和存儲(chǔ)效率高的三維數(shù)據(jù)表示方法,在三維視覺(jué)中已變得不可或缺。大規(guī)模激光雷達(dá)數(shù)據(jù)集的出現(xiàn)和端到端3D表示學(xué)習(xí)的巨大進(jìn)步推動(dòng)了基于點(diǎn)云的分割、生成和檢測(cè)任務(wù)的發(fā)展。
不論是單階段還是兩階段檢測(cè)方法,點(diǎn)云的特征提取質(zhì)量影響著算法的檢測(cè)精度。Qi Charles R等[1]首次提出以端到端的方式通過(guò)多層感知來(lái)提取點(diǎn)的特征。隨后,作者進(jìn)一步提出PointNet++[2],以分層方式捕獲局部結(jié)構(gòu),采用密度自適應(yīng)采樣和分組的方式提取點(diǎn)云特征。Point和Point++實(shí)現(xiàn)了直接對(duì)點(diǎn)云數(shù)據(jù)的處理和特征提取,被廣泛應(yīng)用到其他算法模型中。Zhou Y等人提出了VoxelNet[3],這是一種單級(jí)檢測(cè)網(wǎng)絡(luò),可將點(diǎn)云劃分為等間距的三維體素,并使用體素特征編碼層進(jìn)行處理,但是其采用了3D子流形稀疏卷積作為特征提取模塊,致使網(wǎng)絡(luò)推理速度相對(duì)較慢。Lang A H等人提出了Pointpillars[4]網(wǎng)絡(luò)模型,提議將點(diǎn)云劃分為幾個(gè)體柱,將其轉(zhuǎn)換為偽圖像,可以使用2D卷積層進(jìn)一步處理。此方法極大提高了網(wǎng)絡(luò)模型的運(yùn)算速度,使其能夠滿足自動(dòng)駕駛實(shí)時(shí)性的要求,但其點(diǎn)云編碼方式影響了特征提取的質(zhì)量。Point R-CNN[5]和Pillar RCNN[6]是一種兩階段檢測(cè)方法,首先基于原始點(diǎn)云生成自底向上的3D提案,然后對(duì)其進(jìn)行細(xì)化以獲得最終檢測(cè)結(jié)果。隨后,F(xiàn)ast point R-CNN[7]和PV-RCN[8]方法出現(xiàn),利用體素表示和原始點(diǎn)云來(lái)發(fā)揮各自的優(yōu)勢(shì)。圖神經(jīng)網(wǎng)絡(luò)是點(diǎn)云檢測(cè)領(lǐng)域新興的點(diǎn)云結(jié)構(gòu)表示和特征提取方法。如為避免點(diǎn)云中心偏移和比例變化的3D-GCN[9],根據(jù)學(xué)習(xí)的特征生成自適應(yīng)卷積核的AD-GCN[10]等。盡管點(diǎn)云的結(jié)構(gòu)表示和特征提取方法多種多樣,但復(fù)雜精細(xì)的結(jié)構(gòu)設(shè)計(jì)可能會(huì)降低網(wǎng)絡(luò)模型的推理速度。
早期的知識(shí)蒸餾方法主要是訓(xùn)練學(xué)生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)預(yù)測(cè)的分類概率分布。近年來(lái),以設(shè)計(jì)特定的知識(shí)提取方法用于提高目標(biāo)檢測(cè)的效率和準(zhǔn)確性已成為一個(gè)新興的熱門話題。Chen等人首先提出將樸素預(yù)測(cè)和基于特征的知識(shí)提取方法應(yīng)用于目標(biāo)檢測(cè)[11]。Wang等人證明前景對(duì)象和背景對(duì)象之間的不平衡阻礙了知識(shí)提取在目標(biāo)檢測(cè)中實(shí)現(xiàn)更好的性能[12]。為了解決這個(gè)問(wèn)題,豐富的知識(shí)提取方法試圖基于檢測(cè)結(jié)果[13]、基于查詢的注意力[14]和梯度[15]找到待提取區(qū)域。此外,最近還提出了提取教師與學(xué)生之間像素級(jí)和對(duì)象級(jí)關(guān)系的方法[16]。除了用于2D檢測(cè)的知識(shí)蒸餾外,還引入了一些跨模態(tài)知識(shí)蒸餾,以將知識(shí)從基于RGB的教師檢測(cè)網(wǎng)絡(luò)轉(zhuǎn)移到基于激光雷達(dá)的學(xué)生檢測(cè)網(wǎng)絡(luò)。然而,這些方法大多側(cè)重于學(xué)生和教師在多模態(tài)框架中的選擇,而基于純點(diǎn)云數(shù)據(jù)三維檢測(cè)的特定知識(shí)提取優(yōu)化方法尚未得到很好的探索。
在Pointpillars的檢測(cè)網(wǎng)絡(luò)部分,其分類預(yù)測(cè)和回歸框預(yù)測(cè)存在低相關(guān)性。低相關(guān)性主要是由于在訓(xùn)練階段分類預(yù)測(cè)和回歸預(yù)測(cè)使用各自獨(dú)立的目標(biāo)函數(shù)進(jìn)行訓(xùn)練,因此正樣本的回歸框預(yù)測(cè)和分類置信度之間會(huì)存在不對(duì)齊的情況[17],影響置信度分?jǐn)?shù)預(yù)測(cè),最終影響網(wǎng)絡(luò)模型的檢測(cè)精度。
針對(duì)上述問(wèn)題,本文做了如下工作:
(1)依據(jù)單階段網(wǎng)絡(luò)設(shè)計(jì)一組Teacher-Student模型框架對(duì)回歸框尺度進(jìn)行知識(shí)蒸餾?;貧w框尺度在數(shù)據(jù)類型上可以從連續(xù)表示轉(zhuǎn)到離散表示,將教師網(wǎng)絡(luò)的輸出視為附加的回歸框尺度目標(biāo),對(duì)教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的回歸框尺度輸出進(jìn)行連續(xù)值離散化,再做兩組概率值擬合,制定蒸餾損失優(yōu)化學(xué)生網(wǎng)絡(luò),提升物體的檢測(cè)精度。
(2)設(shè)計(jì)定位引導(dǎo)分類項(xiàng),將鳥(niǎo)瞰圖視角下的正樣本預(yù)測(cè)框與真實(shí)框的IoU值作為引導(dǎo)分?jǐn)?shù),以軟化相應(yīng)正樣本硬類別標(biāo)簽,增加分類預(yù)測(cè)和回歸預(yù)測(cè)的相關(guān)性,提高模型檢測(cè)精度。定位引導(dǎo)分類項(xiàng)沒(méi)有額外的網(wǎng)絡(luò)嵌入,不影響網(wǎng)絡(luò)模型的推理時(shí)間,使其保持高效性。
圖1顯示了本文的目標(biāo)檢測(cè)網(wǎng)絡(luò)框架:(1)包含一個(gè)教師檢測(cè)網(wǎng)絡(luò)和一個(gè)學(xué)生檢測(cè)網(wǎng)絡(luò),其中教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的特征提取模塊使用相同的網(wǎng)絡(luò)結(jié)構(gòu)。先訓(xùn)練教師網(wǎng)絡(luò)模型,隨后凍結(jié)教師網(wǎng)絡(luò)參數(shù),在訓(xùn)練學(xué)生網(wǎng)絡(luò)模型時(shí)教師網(wǎng)絡(luò)模型進(jìn)行預(yù)加載,對(duì)輸入學(xué)生網(wǎng)絡(luò)的點(diǎn)云數(shù)據(jù)做增廣,使學(xué)生網(wǎng)絡(luò)探索更大的數(shù)據(jù)空間,并利用教師網(wǎng)絡(luò)預(yù)測(cè)的軟目標(biāo)進(jìn)行更好的優(yōu)化。本文所用回歸框蒸餾(Regression Box Distillation,RBD)策略作用于檢測(cè)頭的回歸分支,而不是深層特征。(2)最終的檢測(cè)網(wǎng)絡(luò)是學(xué)生網(wǎng)絡(luò)和其檢測(cè)模塊,為了增加分類預(yù)測(cè)與回歸預(yù)測(cè)間的相關(guān)性而無(wú)需額外的網(wǎng)絡(luò)嵌入,設(shè)計(jì)了定位引導(dǎo)分類(Positioning Guidance Classification,PGC)項(xiàng)作用于學(xué)生網(wǎng)絡(luò)的分類預(yù)測(cè),并改造分類損失函數(shù)。
圖1 網(wǎng)絡(luò)框圖Fig.1 Network block diagram
網(wǎng)絡(luò)的點(diǎn)云編碼和特征提取依照Pointpillars[4]進(jìn)行設(shè)置。將點(diǎn)云在x-y平面上設(shè)置柱體,每個(gè)非空柱構(gòu)成一組子點(diǎn)云Sx∈W,y∈H={Pi,i=1,2,…,nx,y},其中每個(gè)點(diǎn)Pi用一個(gè)向量(x,y,z,r)表示,nx,y是對(duì)應(yīng)集合中的點(diǎn)的數(shù)量。將一幀點(diǎn)云編碼成一個(gè)維度為(D,P,N)的稠密張量。對(duì)集合中的每個(gè)點(diǎn)用線性層+BatchNorm+ReLU激活函數(shù)處理,生成維度為(C,P,N)的張量,其中C是特征通道。再通過(guò)每個(gè)點(diǎn)的體柱索引值重新放回到原來(lái)對(duì)應(yīng)的體柱的x,y位置上生成(C,H,W)維度的偽圖像。特征提取網(wǎng)絡(luò)由下采樣網(wǎng)絡(luò)和上采樣網(wǎng)絡(luò)組成。下采樣網(wǎng)絡(luò)塊表示為ConvBlock(Cin,Cout,Sd,Nb),其中C是特征通道數(shù),Sd是下采樣因子,Nb是每個(gè)網(wǎng)絡(luò)塊中卷積層的數(shù)量。上采樣網(wǎng)絡(luò)塊表示為DeconvBlock(Cin,Cout,Su),其中Su是2D反卷積的上采樣因子。
與只傳遞語(yǔ)義知識(shí)的分類蒸餾不同,回歸框蒸餾能夠傳遞目標(biāo)物體的位置和尺度信息,來(lái)自教師模型的回歸框尺度用作學(xué)生模型的額外回歸目標(biāo),以幫助學(xué)生模型收斂到更好的優(yōu)化點(diǎn)。此策略能夠讓學(xué)生網(wǎng)絡(luò)模型的回歸預(yù)測(cè)更為穩(wěn)健,并實(shí)現(xiàn)更好的泛化能力,提升檢測(cè)效果。
激光點(diǎn)云的三維目標(biāo)檢測(cè)中,網(wǎng)絡(luò)模型的回歸框預(yù)測(cè)輸出為(x,y,z,l,w,h,θ),共7個(gè)維度的數(shù)據(jù)。本方法中,只對(duì)預(yù)測(cè)輸出的回歸框尺度(l,w,h)進(jìn)行蒸餾處理。在二維圖像目標(biāo)檢測(cè)中,其邊界框的表示通常有(x,y,w,h)(中心點(diǎn)坐標(biāo),長(zhǎng)和寬)、(xmin,ymin,xmax,ymax)(回歸框左上角點(diǎn)和右下角點(diǎn))和(t,b,l,r)(采樣點(diǎn)到回歸框的上、下、左和右的距離)表示方式。其中(x,y,w,h)和(xmin,ymin,xmax,ymax)可以直接互相轉(zhuǎn)換,這兩種表示方法進(jìn)一步用其采樣點(diǎn)(xs,ys)和相匹配的真實(shí)框(xgt,ygt,wgt,hgt)計(jì)算出采樣點(diǎn)到真實(shí)框上、下、左和右的距離,也就是(t,b,l,r)。不論是Anchor-Base類型的檢測(cè)網(wǎng)絡(luò)還是Anchor-Free類型的檢測(cè)網(wǎng)絡(luò),以上回歸框的3種表示形式可以依據(jù)其相匹配的真實(shí)框進(jìn)行互相轉(zhuǎn)換,從離散值轉(zhuǎn)換到連續(xù)值,從連續(xù)值轉(zhuǎn)換到離散值。但是在帶有旋轉(zhuǎn)角的三維目標(biāo)檢測(cè)回歸框中,其中心點(diǎn)、回歸框尺寸和旋轉(zhuǎn)角互相獨(dú)立,本文的回歸框蒸餾其思想是針對(duì)連續(xù)域上回歸的變量先離散化處理,最后進(jìn)行概率擬合。
本文所提的回歸框蒸餾方法選擇對(duì)正樣本回歸框的尺度Dim=(l,w,h)(回歸框的長(zhǎng)、寬、高)進(jìn)行處理,(l,w,h)的每個(gè)變量的物理意義都是一致的,記每條邊為e。設(shè)D為網(wǎng)絡(luò)預(yù)測(cè)的3個(gè)回歸框尺寸,分別由教師網(wǎng)絡(luò)的DT和學(xué)生網(wǎng)絡(luò)的DS表示,使用廣義的SoftMax函數(shù)S(· ,τ)=SoftMax(· ,τ)將DT和DS轉(zhuǎn)換為概率表示pT和pS。當(dāng)τ=1時(shí),它等價(jià)于原始的SoftMax函數(shù);當(dāng)τ>1時(shí),輸入的參數(shù)會(huì)攜帶更多的信息。
LRD用于衡量?jī)山M概率相似度的蒸餾損失,其定義如公式(1)所示:
其中:LKL表示KL發(fā)散損失,τ表示溫度系數(shù),S和T分別為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò),p為概率值,D代表回歸框尺度的集合?;貧w框尺寸S的3個(gè)維度的蒸餾可以化為公式(2),其中e代表回歸框的邊:
為了增加分類預(yù)測(cè)和回歸預(yù)測(cè)的相關(guān)性,設(shè)計(jì)了定位引導(dǎo)分類項(xiàng),過(guò)程示意圖如圖2所示。物體在點(diǎn)云的BEV空間中有一個(gè)關(guān)鍵優(yōu)勢(shì)是位置不重疊,因此在BEV空間中真實(shí)物體的定位效果和定位質(zhì)量較好。將網(wǎng)絡(luò)的正樣本回歸預(yù)測(cè)和真實(shí)框在BEV空間下做IoU值計(jì)算,將計(jì)算得到的IoU值作為引導(dǎo)分?jǐn)?shù),分配給正樣本對(duì)應(yīng)的硬類別標(biāo)簽(One-hot),分配后的硬類別標(biāo)簽變?yōu)檐洏?biāo)簽(Soft Label)。整個(gè)過(guò)程中,具有高IoU的正樣本在分類時(shí)被自適應(yīng)地向上加權(quán),正樣本的回歸預(yù)測(cè)質(zhì)量引導(dǎo)對(duì)應(yīng)的類別標(biāo)簽。定位引導(dǎo)項(xiàng)g定義如式(3)所示:
圖2 定位引導(dǎo)分類Fig.2 Positioning guidance classification
目標(biāo)監(jiān)督值為:
其中:i是預(yù)測(cè)框和真實(shí)框的IoU值;pos代表正樣本;bev是在BEV空間中邊界框的維度表示;regpred表示預(yù)測(cè)框偏差值,通過(guò)預(yù)測(cè)框偏差值與先驗(yàn)框anchor解碼,得出預(yù)測(cè)框bboxpred,將其與樣本所匹配的真實(shí)框bboxgt做BEV視角下的IoU值計(jì)算,最終得到定位引導(dǎo)分類向量是用one-hot向量表示的真實(shí)標(biāo)簽;f是引入定位引導(dǎo)項(xiàng)的soft label表示形式的正樣本標(biāo)簽。
目前Pointpillars網(wǎng)絡(luò)的分類損失是焦點(diǎn)損失(Focal Loss,F(xiàn)L)損失函數(shù),其一般形式如式(5)所示:
其中:y∈{0,1}是真實(shí)值的類別,p∈[0,1]是當(dāng)真實(shí)標(biāo)簽y=1時(shí)模型預(yù)測(cè)的類別概率,γ是可調(diào)節(jié)焦點(diǎn)參數(shù)。焦點(diǎn)損失(FL)是由標(biāo)準(zhǔn)交叉熵-logpt和一個(gè)調(diào)節(jié)因子(1-pt)γ兩部分組成。引入定位引導(dǎo)項(xiàng)g后,正樣本真實(shí)標(biāo)簽從原本的y=0代表負(fù)樣本和y=1代表正樣本,變?yōu)閒=0代表負(fù)樣本和0<f≤1代表正樣本的soft label表示形式。原本的焦點(diǎn)損失不能滿足引入定位引導(dǎo)項(xiàng)后的計(jì)算要求,需要進(jìn)行改造。焦點(diǎn)損失采用sigmoid算子α(· )的多二進(jìn)制分類實(shí)現(xiàn)多分類,把sigmoid的輸出標(biāo)記為α,對(duì)焦點(diǎn)損失的兩部分進(jìn)行擴(kuò)展,將交叉熵部分-logpt擴(kuò)展為完整的表示形式-((1-y)log(1-α)+ylogα),代入定位引導(dǎo)項(xiàng)g后,交叉熵部分變?yōu)?((1-f)log(1-α)+flogα)。比例因子部分(1-pt)γ廣義化擴(kuò)展為估計(jì)α與其連續(xù)標(biāo)簽之間的距離絕對(duì)值,即表示為|f-α|β(β≥0),其中|· |保證了非負(fù)性。最后,將擴(kuò)展的兩部分組合起來(lái),形成完整的分類損失函數(shù),其定義如式(6)所示:
本文的損失函數(shù)中,回歸損失選用與SECOND[18]相同的回歸損失。每個(gè)真實(shí)目標(biāo)或者其先驗(yàn)框的3D表示由一個(gè)七維向量來(lái)表示:(x,y,z,l,w,h,θ)。其中x、y、z表示3D邊界框的中心點(diǎn)坐標(biāo),l、w、h分別表示3D邊界框的長(zhǎng)、寬和高,θ表示3D邊界框的朝向角。在邊界框定位回歸任務(wù)中,真實(shí)邊界框和先驗(yàn)框之間的殘差定義為:
其中:xgt和xa分別表示真實(shí)邊界框和先驗(yàn)框。da=邊界框回歸損失采用Smooth L1函數(shù)表示:
采用Softmax分類損失用于學(xué)習(xí)目標(biāo)的朝向,朝向損失記為L(zhǎng)dir。
對(duì)于分類損失,使用改造過(guò)的焦點(diǎn)損失函數(shù),即:
回歸蒸餾損失為:
最終網(wǎng)絡(luò)模型的總損失可表示為:
其中:Npos是正概率錨數(shù);各項(xiàng)損失值的系數(shù)λ0=2.0,λ1=1.0,λ2=0.2,λ3=0.2。
使用三維目標(biāo)檢測(cè)數(shù)據(jù)集KITTI對(duì)本文算法進(jìn)行驗(yàn)證,在KITTI數(shù)據(jù)集上進(jìn)行多種算法對(duì)比實(shí)驗(yàn)、模型推理速度比較和消融實(shí)驗(yàn)。
本文實(shí)驗(yàn)環(huán)境操作系統(tǒng)為CentOS 7.6,硬件顯卡型號(hào)為NVIDIA GeForce RTX 2080 TI,Intel(R) Xeon(R) 5220 CPU@2.20 GHz。深度學(xué)習(xí)框架為Pytorch 1.7,Python環(huán)境為3.7,使用CUDA 10.1用于GPU加速。
網(wǎng)絡(luò)訓(xùn)練設(shè)置Batch Size為6,訓(xùn)練80個(gè)epochs。采用AdamW優(yōu)化器,使用0.01的衰減權(quán)重。使用周期性重啟學(xué)習(xí)率調(diào)整策略,初始學(xué)習(xí)率設(shè)置為0.001,最高學(xué)習(xí)率和最低學(xué)習(xí)率分別為10和0.000 1,訓(xùn)練期間循環(huán)次數(shù)為1次,學(xué)習(xí)率增加過(guò)程在整個(gè)循環(huán)中的比率為0.4。
在KITTI數(shù)據(jù)集上評(píng)估本文所提出的3D檢測(cè)網(wǎng)絡(luò)模型的性能。KITTI數(shù)據(jù)集中包含7 481個(gè)訓(xùn)練樣本和7 518個(gè)測(cè)試樣本。根據(jù)通用協(xié)議,將KITTI訓(xùn)練集分為3 712個(gè)樣本的訓(xùn)練集和3 769個(gè)樣本的驗(yàn)證集。對(duì)Car類、Cyclist類和Pedestrian類進(jìn)行評(píng)估,其IoU閾值分別為0.7、0.5、0.5。此外,該基準(zhǔn)在評(píng)估中有3個(gè)難度級(jí)別:簡(jiǎn)單、中等和困難,評(píng)估基于目標(biāo)對(duì)象的遮擋和截?cái)嗨?。按照官方KITTI評(píng)估指標(biāo),使用40個(gè)召回位置計(jì)算,以平均精度均值(mean Average Precision, mAP)評(píng)價(jià)檢測(cè)結(jié)果。
在實(shí)驗(yàn)中將范圍[0,69.12]、[-39.68,39.68]和[-3,1]米內(nèi)的所有點(diǎn)分別沿著x、y和z軸體柱化,體柱的分辨率為[0.16,0.16,4],整個(gè)體柱網(wǎng)格大小為496×432×1。最大柱數(shù)(P)為16 000個(gè),柱內(nèi)最大點(diǎn)數(shù)(N)為100個(gè)。每個(gè)類的錨點(diǎn)由寬度、長(zhǎng)度、高度和z中心來(lái)描述,具有0°和90°兩個(gè)方向。在訓(xùn)練階段,對(duì)輸入的點(diǎn)云數(shù)據(jù)做數(shù)據(jù)增強(qiáng)處理,在x軸方向以0.5的概率隨機(jī)翻轉(zhuǎn)點(diǎn)云;將全局點(diǎn)云在z軸方向按照[-π/4,π/4]均勻分布的角度范圍進(jìn)行隨機(jī)旋轉(zhuǎn),對(duì)全局點(diǎn)云按照[0.95,1.05]的范圍進(jìn)行隨機(jī)縮放。
為了評(píng)估所提模型方法的性能,在KITTI數(shù)據(jù)集與其他算法進(jìn)行3D檢測(cè)和BEV檢測(cè)對(duì)比實(shí)驗(yàn),結(jié)果如表1和表2所示。
表1 KITTI數(shù)據(jù)集不同算法3D檢測(cè)精度(3DR40)對(duì)比Tab.1 Comparison of 3D detection accuracy (3DR40) of different algorithms in KITTI dataset %
表2 KITTI數(shù)據(jù)集不同算法BEV檢測(cè)精度(BEVR40)對(duì)比Tab.2 Comparison of BEV detection accuracy (BEVR40) of different algorithms in KITTI dataset %
在3D檢測(cè)對(duì)比中,與經(jīng)典的單階段檢測(cè)方法TANet[22]和SECOND[18]相比,在中等難度級(jí)別上,Car類和Cyclist類分別高3.01%、1.87%和6.4%、7.46%;與先進(jìn)的單階段檢測(cè)方法Point-GNN[24]相比,Car類和Pedsetrian類在中等難度級(jí)別分別高了0.48%和2.32%。與兩階段檢測(cè)方法PointRCNN[5]相比,3種類別的中等難度分別高出3.31%、4.31%和1.71%;與Part-A2[21]相比,Car類中等難度高出0.46%,本文模型優(yōu)于多數(shù)兩階段模型方法。在BEV檢測(cè)中,本文模型與TANet[22]和SECOND[18]相比,在Car類中等難度分別高出2.32%和5.09%。結(jié)果顯示,本文的模型在所有3個(gè)難度級(jí)別的3D和BEV檢測(cè)中與其他先進(jìn)方法相比具有競(jìng)爭(zhēng)力,驗(yàn)證了本文方法的有效性?;貧w框蒸餾能夠傳遞目標(biāo)物體的位置和尺度信息,幫助網(wǎng)絡(luò)收斂到更好的優(yōu)化點(diǎn),使回歸模型更為穩(wěn)??;定位引導(dǎo)分類建立了預(yù)測(cè)框和分類預(yù)測(cè)間的相關(guān)性,提升模型分類效果,最終提升了模型檢測(cè)精度。
本文方法采用體柱特征編碼的方式,點(diǎn)云經(jīng)過(guò)編碼后,其分辨率顯著低于體素特征編碼和基于點(diǎn)的特征形式,所以其小目標(biāo)如Pedestrian類的檢測(cè)精度會(huì)低于部分基于體素特征編碼和基于點(diǎn)的模型方法。
本文的回歸框尺度蒸餾中引入溫度系數(shù)τ,表3中顯示了KITTI數(shù)據(jù)集中不同溫度系數(shù)下的蒸餾結(jié)果,在溫度系數(shù)τ=2時(shí)模型獲得最好的效果。
表3 蒸餾中溫度系數(shù)在ModR40模式下對(duì)模型探測(cè)精度的影響Tab.3 Influence of temperature coefficient on model detection accuracy in distillation under ModR40 %
為了驗(yàn)證本文方法的檢測(cè)效率,選擇主流算法進(jìn)行模型推理速度對(duì)比,結(jié)果如圖3所示。在模型推理速度方面,本文模型方法是兩階段網(wǎng)絡(luò)AVOD[19]和PointRCNN[5]的3~4倍;與單階段網(wǎng)絡(luò)SECOND[18]和TANet[22]相比,推理速度提高了大約2倍,達(dá)到45 FPS。雖然檢測(cè)精度與Point-GNN[24]基本持平,但Point-GNN由于需要對(duì)點(diǎn)云構(gòu)建“圖”結(jié)構(gòu)以及圖卷積等操作,需要消耗大量算力,因此模型推理速度慢了許多,不符合實(shí)時(shí)性要求。與單階段網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)模型具有檢測(cè)精度優(yōu)勢(shì);與兩階段網(wǎng)絡(luò)相比,本文網(wǎng)絡(luò)模型能夠在檢測(cè)精度上持平,但在推理速度上遠(yuǎn)高于兩階段網(wǎng)絡(luò)。
圖3 網(wǎng)絡(luò)模型推理速度對(duì)比Fig.3 Comparison of network model reasoning speed
如圖4所示,將本文針對(duì)點(diǎn)云的蒸餾策略與其他蒸餾方法如Zagoruyko[25]、Zheng[26]、 Tian[27]、Heo等[28]、Zhang[16]等方法對(duì)比,以Pointpillars為基準(zhǔn)網(wǎng)絡(luò),在KITTI數(shù)據(jù)集上進(jìn)行Car類和3種難度級(jí)別的3D檢測(cè)。可以觀察到本文方法在Car類平均檢測(cè)精度方面比所列蒸餾方法都要高。如圖5所示,在3D檢測(cè)難度級(jí)別為中等和困難難度級(jí)別中,本文的蒸餾策略比上述蒸餾方法效果提升更明顯。
圖4 Car類的平均精度均值對(duì)比Fig.4 Comparison of average precision of car class
圖5 3種難度級(jí)別的平均精度均值對(duì)比Fig.5 Comparison of average accuracy of three difficulty levels
消融實(shí)驗(yàn)可以評(píng)估本文所提方法各個(gè)模塊對(duì)檢測(cè)結(jié)果的貢獻(xiàn)。所有評(píng)估測(cè)試都在KITTI訓(xùn)練集上進(jìn)行訓(xùn)練,在驗(yàn)證集上進(jìn)行評(píng)估?;鶞?zhǔn)網(wǎng)絡(luò)為Pointpillars[4]網(wǎng)絡(luò)模型,消融實(shí)驗(yàn)的設(shè)置以單獨(dú)和總體結(jié)合的形式展示本文方法的有效性。其中“回歸框蒸餾”記作RBD,“定位引導(dǎo)分類”記作PGC,使用40個(gè)召回位置計(jì)算平均精度均值(mAP),結(jié)果如表4所示。
表4 回歸框蒸餾和定位引導(dǎo)分類在KITTI數(shù)據(jù)集上的消融實(shí)驗(yàn)Tab.4 Ablation experiments of regression frame distillation and location-guided classification in KITTI dataset %
只增加RBD方法時(shí),網(wǎng)絡(luò)模型在3D檢測(cè)中簡(jiǎn)單、中等、困難3類的平均均值精度提升了4.48%、2.27%和1.49%,表明給預(yù)測(cè)框的尺度增加額外的回歸目標(biāo)可以更好地優(yōu)化模型,同時(shí)教師網(wǎng)絡(luò)產(chǎn)生的軟目標(biāo)攜帶更多的信息,讓學(xué)生網(wǎng)絡(luò)在訓(xùn)練過(guò)程中學(xué)習(xí)到更多的信息熵,提升模型特征提取的質(zhì)量,從而提高物體檢測(cè)精度。只增加PGC方法時(shí),3D檢測(cè)中簡(jiǎn)單、中等、困難3類的平均均值精度提升了2.5%、1.0%和1.16%。定位引導(dǎo)分類項(xiàng)增加了回歸預(yù)測(cè)和分類預(yù)測(cè)之間的相關(guān)性,具有高IoU的正樣本在分類時(shí)被自適應(yīng)地向上加權(quán)。最終綜合評(píng)估,本文所提出的兩種方法組合使用時(shí),其檢測(cè)效果提升最大。
本文受圖像目標(biāo)檢測(cè)中知識(shí)蒸餾思想的啟發(fā),針對(duì)激光點(diǎn)云數(shù)據(jù)的3D目標(biāo)檢測(cè)任務(wù)設(shè)計(jì)了預(yù)測(cè)框的尺度作為約束訓(xùn)練的蒸餾方法。此方法可以為檢測(cè)網(wǎng)絡(luò)在訓(xùn)練中提供更多的信息熵,使網(wǎng)絡(luò)模型擁有更好的泛化能力,提升特征提取質(zhì)量,提高模型檢測(cè)效果。針對(duì)Pointpillars網(wǎng)絡(luò)中回歸預(yù)測(cè)和分類預(yù)測(cè)間的低相關(guān)性,設(shè)計(jì)了定位引導(dǎo)分類項(xiàng),同時(shí)改造了分類損失函數(shù),將正樣本回歸預(yù)測(cè)質(zhì)量引導(dǎo)類別標(biāo)簽,以提升檢測(cè)效果。在KITTI數(shù)據(jù)集中,本文算法模型比基準(zhǔn)網(wǎng)絡(luò)在Car類提升了5.4%mAP,在一眾算法模型中具有競(jìng)爭(zhēng)力。