基于知識(shí)蒸餾和定位引導(dǎo)的Pointpillars點(diǎn)云檢測(cè)網(wǎng)絡(luò)

2024-01-31 06:13:36趙晶李少博郭杰龍俞輝張劍鋒李杰

液晶與顯示 2024年1期

趙晶，李少博，郭杰龍，俞輝，張劍鋒，李杰

（1.廈門理工學(xué)院電氣工程與自動(dòng)化學(xué)院，福建廈門 361024；2.中國(guó)科學(xué)院福建物質(zhì)結(jié)構(gòu)研究所，福建福州 350108；3.中國(guó)科學(xué)院海西研究院泉州裝備制造研究中心，福建泉州 362000；4.廈門市高端電力裝備及智能控制重點(diǎn)實(shí)驗(yàn)室，福建廈門 361024）

1 引言

激光點(diǎn)云是一種直觀、靈活和存儲(chǔ)效率高的三維數(shù)據(jù)表示方法，在三維視覺(jué)中已變得不可或缺。大規(guī)模激光雷達(dá)數(shù)據(jù)集的出現(xiàn)和端到端3D表示學(xué)習(xí)的巨大進(jìn)步推動(dòng)了基于點(diǎn)云的分割、生成和檢測(cè)任務(wù)的發(fā)展。

不論是單階段還是兩階段檢測(cè)方法，點(diǎn)云的特征提取質(zhì)量影響著算法的檢測(cè)精度。Qi Charles R等［1］首次提出以端到端的方式通過(guò)多層感知來(lái)提取點(diǎn)的特征。隨后，作者進(jìn)一步提出PointNet++［2］，以分層方式捕獲局部結(jié)構(gòu)，采用密度自適應(yīng)采樣和分組的方式提取點(diǎn)云特征。Point和Point++實(shí)現(xiàn)了直接對(duì)點(diǎn)云數(shù)據(jù)的處理和特征提取，被廣泛應(yīng)用到其他算法模型中。Zhou Y等人提出了VoxelNet［3］，這是一種單級(jí)檢測(cè)網(wǎng)絡(luò)，可將點(diǎn)云劃分為等間距的三維體素，并使用體素特征編碼層進(jìn)行處理，但是其采用了3D子流形稀疏卷積作為特征提取模塊，致使網(wǎng)絡(luò)推理速度相對(duì)較慢。Lang A H等人提出了Pointpillars［4］網(wǎng)絡(luò)模型，提議將點(diǎn)云劃分為幾個(gè)體柱，將其轉(zhuǎn)換為偽圖像，可以使用2D卷積層進(jìn)一步處理。此方法極大提高了網(wǎng)絡(luò)模型的運(yùn)算速度，使其能夠滿足自動(dòng)駕駛實(shí)時(shí)性的要求，但其點(diǎn)云編碼方式影響了特征提取的質(zhì)量。Point R-CNN［5］和Pillar RCNN［6］是一種兩階段檢測(cè)方法，首先基于原始點(diǎn)云生成自底向上的3D提案，然后對(duì)其進(jìn)行細(xì)化以獲得最終檢測(cè)結(jié)果。隨后，F(xiàn)ast point R-CNN［7］和PV-RCN［8］方法出現(xiàn)，利用體素表示和原始點(diǎn)云來(lái)發(fā)揮各自的優(yōu)勢(shì)。圖神經(jīng)網(wǎng)絡(luò)是點(diǎn)云檢測(cè)領(lǐng)域新興的點(diǎn)云結(jié)構(gòu)表示和特征提取方法。如為避免點(diǎn)云中心偏移和比例變化的3D-GCN［9］，根據(jù)學(xué)習(xí)的特征生成自適應(yīng)卷積核的AD-GCN［10］等。盡管點(diǎn)云的結(jié)構(gòu)表示和特征提取方法多種多樣，但復(fù)雜精細(xì)的結(jié)構(gòu)設(shè)計(jì)可能會(huì)降低網(wǎng)絡(luò)模型的推理速度。

早期的知識(shí)蒸餾方法主要是訓(xùn)練學(xué)生網(wǎng)絡(luò)模仿教師網(wǎng)絡(luò)預(yù)測(cè)的分類概率分布。近年來(lái)，以設(shè)計(jì)特定的知識(shí)提取方法用于提高目標(biāo)檢測(cè)的效率和準(zhǔn)確性已成為一個(gè)新興的熱門話題。Chen等人首先提出將樸素預(yù)測(cè)和基于特征的知識(shí)提取方法應(yīng)用于目標(biāo)檢測(cè)［11］。Wang等人證明前景對(duì)象和背景對(duì)象之間的不平衡阻礙了知識(shí)提取在目標(biāo)檢測(cè)中實(shí)現(xiàn)更好的性能［12］。為了解決這個(gè)問(wèn)題，豐富的知識(shí)提取方法試圖基于檢測(cè)結(jié)果［13］、基于查詢的注意力［14］和梯度［15］找到待提取區(qū)域。此外，最近還提出了提取教師與學(xué)生之間像素級(jí)和對(duì)象級(jí)關(guān)系的方法［16］。除了用于2D檢測(cè)的知識(shí)蒸餾外，還引入了一些跨模態(tài)知識(shí)蒸餾，以將知識(shí)從基于RGB的教師檢測(cè)網(wǎng)絡(luò)轉(zhuǎn)移到基于激光雷達(dá)的學(xué)生檢測(cè)網(wǎng)絡(luò)。然而，這些方法大多側(cè)重于學(xué)生和教師在多模態(tài)框架中的選擇，而基于純點(diǎn)云數(shù)據(jù)三維檢測(cè)的特定知識(shí)提取優(yōu)化方法尚未得到很好的探索。

在Pointpillars的檢測(cè)網(wǎng)絡(luò)部分，其分類預(yù)測(cè)和回歸框預(yù)測(cè)存在低相關(guān)性。低相關(guān)性主要是由于在訓(xùn)練階段分類預(yù)測(cè)和回歸預(yù)測(cè)使用各自獨(dú)立的目標(biāo)函數(shù)進(jìn)行訓(xùn)練，因此正樣本的回歸框預(yù)測(cè)和分類置信度之間會(huì)存在不對(duì)齊的情況［17］，影響置信度分?jǐn)?shù)預(yù)測(cè)，最終影響網(wǎng)絡(luò)模型的檢測(cè)精度。

針對(duì)上述問(wèn)題，本文做了如下工作：

（1）依據(jù)單階段網(wǎng)絡(luò)設(shè)計(jì)一組Teacher-Student模型框架對(duì)回歸框尺度進(jìn)行知識(shí)蒸餾?；貧w框尺度在數(shù)據(jù)類型上可以從連續(xù)表示轉(zhuǎn)到離散表示，將教師網(wǎng)絡(luò)的輸出視為附加的回歸框尺度目標(biāo)，對(duì)教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的回歸框尺度輸出進(jìn)行連續(xù)值離散化，再做兩組概率值擬合，制定蒸餾損失優(yōu)化學(xué)生網(wǎng)絡(luò)，提升物體的檢測(cè)精度。

（2）設(shè)計(jì)定位引導(dǎo)分類項(xiàng)，將鳥(niǎo)瞰圖視角下的正樣本預(yù)測(cè)框與真實(shí)框的IoU值作為引導(dǎo)分?jǐn)?shù)，以軟化相應(yīng)正樣本硬類別標(biāo)簽，增加分類預(yù)測(cè)和回歸預(yù)測(cè)的相關(guān)性，提高模型檢測(cè)精度。定位引導(dǎo)分類項(xiàng)沒(méi)有額外的網(wǎng)絡(luò)嵌入，不影響網(wǎng)絡(luò)模型的推理時(shí)間，使其保持高效性。

2 網(wǎng)絡(luò)模型

2.1 總體框架

圖1顯示了本文的目標(biāo)檢測(cè)網(wǎng)絡(luò)框架：（1）包含一個(gè)教師檢測(cè)網(wǎng)絡(luò)和一個(gè)學(xué)生檢測(cè)網(wǎng)絡(luò)，其中教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)的特征提取模塊使用相同的網(wǎng)絡(luò)結(jié)構(gòu)。先訓(xùn)練教師網(wǎng)絡(luò)模型，隨后凍結(jié)教師網(wǎng)絡(luò)參數(shù)，在訓(xùn)練學(xué)生網(wǎng)絡(luò)模型時(shí)教師網(wǎng)絡(luò)模型進(jìn)行預(yù)加載，對(duì)輸入學(xué)生網(wǎng)絡(luò)的點(diǎn)云數(shù)據(jù)做增廣，使學(xué)生網(wǎng)絡(luò)探索更大的數(shù)據(jù)空間，并利用教師網(wǎng)絡(luò)預(yù)測(cè)的軟目標(biāo)進(jìn)行更好的優(yōu)化。本文所用回歸框蒸餾（Regression Box Distillation，RBD）策略作用于檢測(cè)頭的回歸分支，而不是深層特征。（2）最終的檢測(cè)網(wǎng)絡(luò)是學(xué)生網(wǎng)絡(luò)和其檢測(cè)模塊，為了增加分類預(yù)測(cè)與回歸預(yù)測(cè)間的相關(guān)性而無(wú)需額外的網(wǎng)絡(luò)嵌入，設(shè)計(jì)了定位引導(dǎo)分類（Positioning Guidance Classification，PGC）項(xiàng)作用于學(xué)生網(wǎng)絡(luò)的分類預(yù)測(cè)，并改造分類損失函數(shù)。

圖1 網(wǎng)絡(luò)框圖Fig.1 Network block diagram

2.2 點(diǎn)云編碼與特征提取

網(wǎng)絡(luò)的點(diǎn)云編碼和特征提取依照Pointpillars［4］進(jìn)行設(shè)置。將點(diǎn)云在x-y平面上設(shè)置柱體，每個(gè)非空柱構(gòu)成一組子點(diǎn)云Sx∈W，y∈H={Pi，i=1，2，…，nx，y}，其中每個(gè)點(diǎn)Pi用一個(gè)向量(x，y，z，r)表示，nx，y是對(duì)應(yīng)集合中的點(diǎn)的數(shù)量。將一幀點(diǎn)云編碼成一個(gè)維度為(D，P，N)的稠密張量。對(duì)集合中的每個(gè)點(diǎn)用線性層+BatchNorm+ReLU激活函數(shù)處理，生成維度為(C，P，N)的張量，其中C是特征通道。再通過(guò)每個(gè)點(diǎn)的體柱索引值重新放回到原來(lái)對(duì)應(yīng)的體柱的x，y位置上生成(C，H，W)維度的偽圖像。特征提取網(wǎng)絡(luò)由下采樣網(wǎng)絡(luò)和上采樣網(wǎng)絡(luò)組成。下采樣網(wǎng)絡(luò)塊表示為ConvBlock(Cin，Cout，Sd，Nb)，其中C是特征通道數(shù)，Sd是下采樣因子，Nb是每個(gè)網(wǎng)絡(luò)塊中卷積層的數(shù)量。上采樣網(wǎng)絡(luò)塊表示為DeconvBlock(Cin，Cout，Su)，其中Su是2D反卷積的上采樣因子。

2.3 回歸框蒸餾

與只傳遞語(yǔ)義知識(shí)的分類蒸餾不同，回歸框蒸餾能夠傳遞目標(biāo)物體的位置和尺度信息，來(lái)自教師模型的回歸框尺度用作學(xué)生模型的額外回歸目標(biāo)，以幫助學(xué)生模型收斂到更好的優(yōu)化點(diǎn)。此策略能夠讓學(xué)生網(wǎng)絡(luò)模型的回歸預(yù)測(cè)更為穩(wěn)健，并實(shí)現(xiàn)更好的泛化能力，提升檢測(cè)效果。

激光點(diǎn)云的三維目標(biāo)檢測(cè)中，網(wǎng)絡(luò)模型的回歸框預(yù)測(cè)輸出為(x，y，z，l，w，h，θ)，共7個(gè)維度的數(shù)據(jù)。本方法中，只對(duì)預(yù)測(cè)輸出的回歸框尺度(l，w，h)進(jìn)行蒸餾處理。在二維圖像目標(biāo)檢測(cè)中，其邊界框的表示通常有(x，y，w，h)（中心點(diǎn)坐標(biāo)，長(zhǎng)和寬）、(xmin，ymin，xmax，ymax)（回歸框左上角點(diǎn)和右下角點(diǎn)）和(t，b，l，r)（采樣點(diǎn)到回歸框的上、下、左和右的距離）表示方式。其中(x，y，w，h)和(xmin，ymin，xmax，ymax)可以直接互相轉(zhuǎn)換，這兩種表示方法進(jìn)一步用其采樣點(diǎn)(xs，ys)和相匹配的真實(shí)框(xgt，ygt，wgt，hgt)計(jì)算出采樣點(diǎn)到真實(shí)框上、下、左和右的距離，也就是(t，b，l，r)。不論是Anchor-Base類型的檢測(cè)網(wǎng)絡(luò)還是Anchor-Free類型的檢測(cè)網(wǎng)絡(luò)，以上回歸框的3種表示形式可以依據(jù)其相匹配的真實(shí)框進(jìn)行互相轉(zhuǎn)換，從離散值轉(zhuǎn)換到連續(xù)值，從連續(xù)值轉(zhuǎn)換到離散值。但是在帶有旋轉(zhuǎn)角的三維目標(biāo)檢測(cè)回歸框中，其中心點(diǎn)、回歸框尺寸和旋轉(zhuǎn)角互相獨(dú)立，本文的回歸框蒸餾其思想是針對(duì)連續(xù)域上回歸的變量先離散化處理，最后進(jìn)行概率擬合。

本文所提的回歸框蒸餾方法選擇對(duì)正樣本回歸框的尺度Dim=(l，w，h)（回歸框的長(zhǎng)、寬、高）進(jìn)行處理，(l，w，h)的每個(gè)變量的物理意義都是一致的，記每條邊為e。設(shè)D為網(wǎng)絡(luò)預(yù)測(cè)的3個(gè)回歸框尺寸，分別由教師網(wǎng)絡(luò)的DT和學(xué)生網(wǎng)絡(luò)的DS表示，使用廣義的SoftMax函數(shù)S(· ，τ)=SoftMax(· ，τ)將DT和DS轉(zhuǎn)換為概率表示pT和pS。當(dāng)τ=1時(shí)，它等價(jià)于原始的SoftMax函數(shù)；當(dāng)τ＞1時(shí)，輸入的參數(shù)會(huì)攜帶更多的信息。

LRD用于衡量?jī)山M概率相似度的蒸餾損失，其定義如公式（1）所示：

其中：LKL表示KL發(fā)散損失，τ表示溫度系數(shù)，S和T分別為教師網(wǎng)絡(luò)和學(xué)生網(wǎng)絡(luò)，p為概率值，D代表回歸框尺度的集合?；貧w框尺寸S的3個(gè)維度的蒸餾可以化為公式（2），其中e代表回歸框的邊：

2.4 定位引導(dǎo)分類

為了增加分類預(yù)測(cè)和回歸預(yù)測(cè)的相關(guān)性，設(shè)計(jì)了定位引導(dǎo)分類項(xiàng)，過(guò)程示意圖如圖2所示。物體在點(diǎn)云的BEV空間中有一個(gè)關(guān)鍵優(yōu)勢(shì)是位置不重疊，因此在BEV空間中真實(shí)物體的定位效果和定位質(zhì)量較好。將網(wǎng)絡(luò)的正樣本回歸預(yù)測(cè)和真實(shí)框在BEV空間下做IoU值計(jì)算，將計(jì)算得到的IoU值作為引導(dǎo)分?jǐn)?shù)，分配給正樣本對(duì)應(yīng)的硬類別標(biāo)簽（One-hot），分配后的硬類別標(biāo)簽變?yōu)檐洏?biāo)簽（Soft Label）。整個(gè)過(guò)程中，具有高IoU的正樣本在分類時(shí)被自適應(yīng)地向上加權(quán)，正樣本的回歸預(yù)測(cè)質(zhì)量引導(dǎo)對(duì)應(yīng)的類別標(biāo)簽。定位引導(dǎo)項(xiàng)g定義如式（3）所示：

圖2 定位引導(dǎo)分類Fig.2 Positioning guidance classification

目標(biāo)監(jiān)督值為：

其中：i是預(yù)測(cè)框和真實(shí)框的IoU值；pos代表正樣本；bev是在BEV空間中邊界框的維度表示；regpred表示預(yù)測(cè)框偏差值，通過(guò)預(yù)測(cè)框偏差值與先驗(yàn)框anchor解碼，得出預(yù)測(cè)框bboxpred，將其與樣本所匹配的真實(shí)框bboxgt做BEV視角下的IoU值計(jì)算，最終得到定位引導(dǎo)分類向量是用one-hot向量表示的真實(shí)標(biāo)簽；f是引入定位引導(dǎo)項(xiàng)的soft label表示形式的正樣本標(biāo)簽。

目前Pointpillars網(wǎng)絡(luò)的分類損失是焦點(diǎn)損失（Focal Loss，F(xiàn)L）損失函數(shù)，其一般形式如式（5）所示：

其中：y∈{0，1}是真實(shí)值的類別，p∈[0，1]是當(dāng)真實(shí)標(biāo)簽y=1時(shí)模型預(yù)測(cè)的類別概率，γ是可調(diào)節(jié)焦點(diǎn)參數(shù)。焦點(diǎn)損失（FL）是由標(biāo)準(zhǔn)交叉熵-logpt和一個(gè)調(diào)節(jié)因子(1-pt)γ兩部分組成。引入定位引導(dǎo)項(xiàng)g后，正樣本真實(shí)標(biāo)簽從原本的y=0代表負(fù)樣本和y=1代表正樣本，變?yōu)閒=0代表負(fù)樣本和0＜f≤1代表正樣本的soft label表示形式。原本的焦點(diǎn)損失不能滿足引入定位引導(dǎo)項(xiàng)后的計(jì)算要求，需要進(jìn)行改造。焦點(diǎn)損失采用sigmoid算子α(· )的多二進(jìn)制分類實(shí)現(xiàn)多分類，把sigmoid的輸出標(biāo)記為α，對(duì)焦點(diǎn)損失的兩部分進(jìn)行擴(kuò)展，將交叉熵部分-logpt擴(kuò)展為完整的表示形式-((1-y)log(1-α)+ylogα)，代入定位引導(dǎo)項(xiàng)g后，交叉熵部分變?yōu)?((1-f)log(1-α)+flogα)。比例因子部分(1-pt)γ廣義化擴(kuò)展為估計(jì)α與其連續(xù)標(biāo)簽之間的距離絕對(duì)值，即表示為|f-α|β(β≥0)，其中|· |保證了非負(fù)性。最后，將擴(kuò)展的兩部分組合起來(lái)，形成完整的分類損失函數(shù)，其定義如式（6）所示：

2.5 網(wǎng)絡(luò)總損失函數(shù)

本文的損失函數(shù)中，回歸損失選用與SECOND［18］相同的回歸損失。每個(gè)真實(shí)目標(biāo)或者其先驗(yàn)框的3D表示由一個(gè)七維向量來(lái)表示：(x，y，z，l，w，h，θ)。其中x、y、z表示3D邊界框的中心點(diǎn)坐標(biāo)，l、w、h分別表示3D邊界框的長(zhǎng)、寬和高，θ表示3D邊界框的朝向角。在邊界框定位回歸任務(wù)中，真實(shí)邊界框和先驗(yàn)框之間的殘差定義為：

其中：xgt和xa分別表示真實(shí)邊界框和先驗(yàn)框。da=邊界框回歸損失采用Smooth L1函數(shù)表示：

采用Softmax分類損失用于學(xué)習(xí)目標(biāo)的朝向，朝向損失記為L(zhǎng)dir。

對(duì)于分類損失，使用改造過(guò)的焦點(diǎn)損失函數(shù)，即：

回歸蒸餾損失為：

最終網(wǎng)絡(luò)模型的總損失可表示為：

其中：Npos是正概率錨數(shù)；各項(xiàng)損失值的系數(shù)λ0=2.0，λ1=1.0，λ2=0.2，λ3=0.2。

3 實(shí)驗(yàn)結(jié)果分析

使用三維目標(biāo)檢測(cè)數(shù)據(jù)集KITTI對(duì)本文算法進(jìn)行驗(yàn)證，在KITTI數(shù)據(jù)集上進(jìn)行多種算法對(duì)比實(shí)驗(yàn)、模型推理速度比較和消融實(shí)驗(yàn)。

3.1 實(shí)驗(yàn)環(huán)境和優(yōu)化器設(shè)置

本文實(shí)驗(yàn)環(huán)境操作系統(tǒng)為CentOS 7.6，硬件顯卡型號(hào)為NVIDIA GeForce RTX 2080 TI，Intel（R） Xeon（R） 5220 CPU@2.20 GHz。深度學(xué)習(xí)框架為Pytorch 1.7，Python環(huán)境為3.7，使用CUDA 10.1用于GPU加速。

網(wǎng)絡(luò)訓(xùn)練設(shè)置Batch Size為6，訓(xùn)練80個(gè)epochs。采用AdamW優(yōu)化器，使用0.01的衰減權(quán)重。使用周期性重啟學(xué)習(xí)率調(diào)整策略，初始學(xué)習(xí)率設(shè)置為0.001，最高學(xué)習(xí)率和最低學(xué)習(xí)率分別為10和0.000 1，訓(xùn)練期間循環(huán)次數(shù)為1次，學(xué)習(xí)率增加過(guò)程在整個(gè)循環(huán)中的比率為0.4。

3.2 數(shù)據(jù)集設(shè)置

在KITTI數(shù)據(jù)集上評(píng)估本文所提出的3D檢測(cè)網(wǎng)絡(luò)模型的性能。KITTI數(shù)據(jù)集中包含7 481個(gè)訓(xùn)練樣本和7 518個(gè)測(cè)試樣本。根據(jù)通用協(xié)議，將KITTI訓(xùn)練集分為3 712個(gè)樣本的訓(xùn)練集和3 769個(gè)樣本的驗(yàn)證集。對(duì)Car類、Cyclist類和Pedestrian類進(jìn)行評(píng)估，其IoU閾值分別為0.7、0.5、0.5。此外，該基準(zhǔn)在評(píng)估中有3個(gè)難度級(jí)別：簡(jiǎn)單、中等和困難，評(píng)估基于目標(biāo)對(duì)象的遮擋和截?cái)嗨?。按照官方KITTI評(píng)估指標(biāo)，使用40個(gè)召回位置計(jì)算，以平均精度均值（mean Average Precision， mAP）評(píng)價(jià)檢測(cè)結(jié)果。

在實(shí)驗(yàn)中將范圍［0，69.12］、［-39.68，39.68］和［-3，1］米內(nèi)的所有點(diǎn)分別沿著x、y和z軸體柱化，體柱的分辨率為［0.16，0.16，4］，整個(gè)體柱網(wǎng)格大小為496×432×1。最大柱數(shù)（P）為16 000個(gè)，柱內(nèi)最大點(diǎn)數(shù)（N）為100個(gè)。每個(gè)類的錨點(diǎn)由寬度、長(zhǎng)度、高度和z中心來(lái)描述，具有0°和90°兩個(gè)方向。在訓(xùn)練階段，對(duì)輸入的點(diǎn)云數(shù)據(jù)做數(shù)據(jù)增強(qiáng)處理，在x軸方向以0.5的概率隨機(jī)翻轉(zhuǎn)點(diǎn)云；將全局點(diǎn)云在z軸方向按照[-π/4，π/4]均勻分布的角度范圍進(jìn)行隨機(jī)旋轉(zhuǎn)，對(duì)全局點(diǎn)云按照［0.95，1.05］的范圍進(jìn)行隨機(jī)縮放。

3.3 對(duì)比評(píng)估

為了評(píng)估所提模型方法的性能，在KITTI數(shù)據(jù)集與其他算法進(jìn)行3D檢測(cè)和BEV檢測(cè)對(duì)比實(shí)驗(yàn)，結(jié)果如表1和表2所示。

表1 KITTI數(shù)據(jù)集不同算法3D檢測(cè)精度（3DR40）對(duì)比Tab.1 Comparison of 3D detection accuracy （3DR40） of different algorithms in KITTI dataset %

表2 KITTI數(shù)據(jù)集不同算法BEV檢測(cè)精度（BEVR40）對(duì)比Tab.2 Comparison of BEV detection accuracy （BEVR40） of different algorithms in KITTI dataset %

在3D檢測(cè)對(duì)比中，與經(jīng)典的單階段檢測(cè)方法TANet［22］和SECOND［18］相比，在中等難度級(jí)別上，Car類和Cyclist類分別高3.01%、1.87%和6.4%、7.46%；與先進(jìn)的單階段檢測(cè)方法Point-GNN［24］相比，Car類和Pedsetrian類在中等難度級(jí)別分別高了0.48%和2.32%。與兩階段檢測(cè)方法PointRCNN［5］相比，3種類別的中等難度分別高出3.31%、4.31%和1.71%；與Part-A2［21］相比，Car類中等難度高出0.46%，本文模型優(yōu)于多數(shù)兩階段模型方法。在BEV檢測(cè)中，本文模型與TANet［22］和SECOND［18］相比，在Car類中等難度分別高出2.32%和5.09%。結(jié)果顯示，本文的模型在所有3個(gè)難度級(jí)別的3D和BEV檢測(cè)中與其他先進(jìn)方法相比具有競(jìng)爭(zhēng)力，驗(yàn)證了本文方法的有效性?；貧w框蒸餾能夠傳遞目標(biāo)物體的位置和尺度信息，幫助網(wǎng)絡(luò)收斂到更好的優(yōu)化點(diǎn)，使回歸模型更為穩(wěn)??；定位引導(dǎo)分類建立了預(yù)測(cè)框和分類預(yù)測(cè)間的相關(guān)性，提升模型分類效果，最終提升了模型檢測(cè)精度。

本文方法采用體柱特征編碼的方式，點(diǎn)云經(jīng)過(guò)編碼后，其分辨率顯著低于體素特征編碼和基于點(diǎn)的特征形式，所以其小目標(biāo)如Pedestrian類的檢測(cè)精度會(huì)低于部分基于體素特征編碼和基于點(diǎn)的模型方法。

本文的回歸框尺度蒸餾中引入溫度系數(shù)τ，表3中顯示了KITTI數(shù)據(jù)集中不同溫度系數(shù)下的蒸餾結(jié)果，在溫度系數(shù)τ=2時(shí)模型獲得最好的效果。

表3 蒸餾中溫度系數(shù)在ModR40模式下對(duì)模型探測(cè)精度的影響Tab.3 Influence of temperature coefficient on model detection accuracy in distillation under ModR40 %

為了驗(yàn)證本文方法的檢測(cè)效率，選擇主流算法進(jìn)行模型推理速度對(duì)比，結(jié)果如圖3所示。在模型推理速度方面，本文模型方法是兩階段網(wǎng)絡(luò)AVOD［19］和PointRCNN［5］的3～4倍；與單階段網(wǎng)絡(luò)SECOND［18］和TANet［22］相比，推理速度提高了大約2倍，達(dá)到45 FPS。雖然檢測(cè)精度與Point-GNN［24］基本持平，但Point-GNN由于需要對(duì)點(diǎn)云構(gòu)建“圖”結(jié)構(gòu)以及圖卷積等操作，需要消耗大量算力，因此模型推理速度慢了許多，不符合實(shí)時(shí)性要求。與單階段網(wǎng)絡(luò)相比，本文網(wǎng)絡(luò)模型具有檢測(cè)精度優(yōu)勢(shì)；與兩階段網(wǎng)絡(luò)相比，本文網(wǎng)絡(luò)模型能夠在檢測(cè)精度上持平，但在推理速度上遠(yuǎn)高于兩階段網(wǎng)絡(luò)。

圖3 網(wǎng)絡(luò)模型推理速度對(duì)比Fig.3 Comparison of network model reasoning speed

如圖4所示，將本文針對(duì)點(diǎn)云的蒸餾策略與其他蒸餾方法如Zagoruyko［25］、Zheng［26］、 Tian［27］、Heo等［28］、Zhang［16］等方法對(duì)比，以Pointpillars為基準(zhǔn)網(wǎng)絡(luò)，在KITTI數(shù)據(jù)集上進(jìn)行Car類和3種難度級(jí)別的3D檢測(cè)。可以觀察到本文方法在Car類平均檢測(cè)精度方面比所列蒸餾方法都要高。如圖5所示，在3D檢測(cè)難度級(jí)別為中等和困難難度級(jí)別中，本文的蒸餾策略比上述蒸餾方法效果提升更明顯。

圖4 Car類的平均精度均值對(duì)比Fig.4 Comparison of average precision of car class

圖5 3種難度級(jí)別的平均精度均值對(duì)比Fig.5 Comparison of average accuracy of three difficulty levels

3.4 消融實(shí)驗(yàn)

消融實(shí)驗(yàn)可以評(píng)估本文所提方法各個(gè)模塊對(duì)檢測(cè)結(jié)果的貢獻(xiàn)。所有評(píng)估測(cè)試都在KITTI訓(xùn)練集上進(jìn)行訓(xùn)練，在驗(yàn)證集上進(jìn)行評(píng)估?；鶞?zhǔn)網(wǎng)絡(luò)為Pointpillars［4］網(wǎng)絡(luò)模型，消融實(shí)驗(yàn)的設(shè)置以單獨(dú)和總體結(jié)合的形式展示本文方法的有效性。其中“回歸框蒸餾”記作RBD，“定位引導(dǎo)分類”記作PGC，使用40個(gè)召回位置計(jì)算平均精度均值（mAP），結(jié)果如表4所示。

表4 回歸框蒸餾和定位引導(dǎo)分類在KITTI數(shù)據(jù)集上的消融實(shí)驗(yàn)Tab.4 Ablation experiments of regression frame distillation and location-guided classification in KITTI dataset %

只增加RBD方法時(shí)，網(wǎng)絡(luò)模型在3D檢測(cè)中簡(jiǎn)單、中等、困難3類的平均均值精度提升了4.48%、2.27%和1.49%，表明給預(yù)測(cè)框的尺度增加額外的回歸目標(biāo)可以更好地優(yōu)化模型，同時(shí)教師網(wǎng)絡(luò)產(chǎn)生的軟目標(biāo)攜帶更多的信息，讓學(xué)生網(wǎng)絡(luò)在訓(xùn)練過(guò)程中學(xué)習(xí)到更多的信息熵，提升模型特征提取的質(zhì)量，從而提高物體檢測(cè)精度。只增加PGC方法時(shí)，3D檢測(cè)中簡(jiǎn)單、中等、困難3類的平均均值精度提升了2.5%、1.0%和1.16%。定位引導(dǎo)分類項(xiàng)增加了回歸預(yù)測(cè)和分類預(yù)測(cè)之間的相關(guān)性，具有高IoU的正樣本在分類時(shí)被自適應(yīng)地向上加權(quán)。最終綜合評(píng)估，本文所提出的兩種方法組合使用時(shí)，其檢測(cè)效果提升最大。

4 結(jié)論

本文受圖像目標(biāo)檢測(cè)中知識(shí)蒸餾思想的啟發(fā)，針對(duì)激光點(diǎn)云數(shù)據(jù)的3D目標(biāo)檢測(cè)任務(wù)設(shè)計(jì)了預(yù)測(cè)框的尺度作為約束訓(xùn)練的蒸餾方法。此方法可以為檢測(cè)網(wǎng)絡(luò)在訓(xùn)練中提供更多的信息熵，使網(wǎng)絡(luò)模型擁有更好的泛化能力，提升特征提取質(zhì)量，提高模型檢測(cè)效果。針對(duì)Pointpillars網(wǎng)絡(luò)中回歸預(yù)測(cè)和分類預(yù)測(cè)間的低相關(guān)性，設(shè)計(jì)了定位引導(dǎo)分類項(xiàng)，同時(shí)改造了分類損失函數(shù)，將正樣本回歸預(yù)測(cè)質(zhì)量引導(dǎo)類別標(biāo)簽，以提升檢測(cè)效果。在KITTI數(shù)據(jù)集中，本文算法模型比基準(zhǔn)網(wǎng)絡(luò)在Car類提升了5.4%mAP，在一眾算法模型中具有競(jìng)爭(zhēng)力。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡