深度學習已經在二維目標檢測的視覺任務中取得了顯著的進展
,在人臉識別
、車牌識別
和視覺目標跟蹤
等領域得到充分應用。除了二維場景理解,三維目標檢測對于現實世界的許多應用是關鍵而且密不可分的,例如自動駕駛與計算機視覺。最近的三維目標檢測的方法利用不同類型的數據,例如單目圖像、RGB-D圖像和3D點云數據,最普遍使用的3D傳感器是LiDAR(light detection and ranging)傳感器,它能夠形成3D點云,從而來捕捉場景的三維結構
。然而,點云數據通常是稀疏的和無序的,如何從不規(guī)則的點中提取出獨特的特征成為三維目標檢測任務中的關鍵性挑戰(zhàn)。
根據特征提取過程中點云的表示形式,可將基于點云的三維目標檢測方法分為兩類:基于點的方法(又稱為直接法)和基于網格的方法(包括俯視圖法與體素法)?;邳c的方法
大都采用PointNet或者PointNet++
網絡中的集合抽象(set abstraction,SA)層對輸入點云進行多層次的局部特征提取。PointRCNN
網絡和3DSSD
網絡等都是首先利用集合抽象層對輸入點云進行下采樣之后再進行下游任務的處理。此類方法在處理的過程中充分利用輸入點云的幾何特征,因此其能夠獲得更好的檢測性能。由于此類方法在處理過程中需要堆疊多次下采樣操作和鄰域搜索操作,上述兩類操作的時間復雜度分別為
(
)和
(
),使得其特征提取過程需要消耗大量的時間和計算資源。基于網格的方法將輸入點云轉化為規(guī)則的網格,例如3D體素
或2D俯視(bird’s eye view,BEV)圖
,從而能夠使用3D或者2D CNN提取特征。其中PointPillar
網絡將點云轉化為一個基于俯視圖的二維網格,使用PointNet提取每個網格的特征構成一個二維特征圖,將點云壓縮成2D數據,減少了計算規(guī)模,可以直接利用二維卷積網絡進行下游任務的處理。SECOND
網絡作為體素法,則是將點云轉化為三維體素并使用稀疏三維卷積直接提取特征。相比于基于點的方法,體素法僅需利用點云坐標將其劃分到對應的網格中,該過程的時間復雜度為
(
),不需進行復雜的下采樣和鄰域搜索。雖然體素法會對點云進行體素特征編碼的預處理,但是點云是稀疏的,大部分是空體素,稀疏三維卷積的應用使得體素法僅需處理少量非空體素,此舉大大提高了其檢測效率。點云處理的過程中帶來了一定的信息損失,使得此類方法的檢測精度通常低于基于點的方法。綜上可得,基于點的直接法通常具有更好的性能,基于網格的方法通常具有更高的檢測效率。因此,在室外交通場景等計算能力受限的場景中,提高基于網格方法的檢測性能成為近年來的研究熱點。
本文以SECOND網絡為基準網絡,提出了一種基于體素的單階段三維目標檢測方法Reinforced SECOND,該方法旨在進一步提高基于網格方法的檢測精度。為了能夠提高模型提取點云特征的能力,本文對基準網絡中的點云處理方法和各個子網絡都進行改進。
本文的體素特征編碼網絡在處理點云數據時提高了每個體素中點的信息保留,自適應地增強判別性點的特征以及抑制不穩(wěn)定點。為了能夠進一步解決連續(xù)稀疏卷積會丟失部分原始特征信息的問題,提出殘差稀疏卷積單元,設計了殘差稀疏卷積中間網絡。提出的一種新穎的空間語義特征融合模塊,自適應地融合低級空間特征和高級抽象語義特征,以提高區(qū)域提議網絡的穩(wěn)定性和魯棒性。與基準網絡相比,本文所提方法在KITTI測試集中的car類和cyclist類的3D檢測精度在中等和困難等級上取得了不錯的結果,這使得本文方法超越了當前的許多方法。
基于點云的三維目標檢測方法,一般采用兩種方式從不規(guī)則點云數據中提取出特征,第一種是基于點的方法?;邳c的方法由PointNet(++)及其變體提供支持,直接從原始點云中提取特征。
=
(
)+
(
)
將位置回歸分成定位回歸損失
和角度回歸損失
reg-
。其中,本文采用的是角度回歸的正弦誤差損失的角度回歸方式,解決了三維回歸框0和π朝向角的區(qū)分問題,自然地根據角度偏移函數對IoU進行建模。角度回歸損失
reg-
的正弦誤差損失定義如下
直接從不規(guī)則點云數據中提取出特征,第二種方式根據一定的分辨率將點云劃分為規(guī)則的連續(xù)的網格,并使用2D/3D CNN網絡去提取特征。PIXOR
網絡、ComplexYOLO
網絡和PointPillars網絡轉換點云為2D BEV數據,沿著
軸和
軸劃分為小的像素,從而使用手工特征來代表像素特征。以上方法雖然實現了計算量的下降,但是將點云壓縮成2D數據,不可避免的出現特征信息的丟失。另外的方法是將點云沿著
軸、
軸和
軸均勻地劃分為體素網格。早期的VoxelNet
網絡和MVX-Net
網絡將3D CNN應用于所有劃分的體素,這導致網絡性能不佳。事實上,大多數網格都是空的,對檢測任務毫無用處。SECOND網絡引入稀疏卷積
和子流形稀疏卷積
,避免大量不可用的空體素對計算資源的消耗,因此具有更快的推理速度。雖然基于體素的方法在計算上是高效的,但是在離散化過程中帶來了信息丟失,從而降低了細粒度的定位精度。本文從點云處理方式和子網絡上進行改進,最大限度提高模型的特征提取能力。
={
=[
,
,
,
]
∈
},
=1,2,…,
(1)
式中:
表示點云點數,始終滿足
≤
,
表示每個體素中的最大點數;
表示
個點的
軸、
軸和
軸坐標值
、
、
和反射強度
。
本文方法拋棄原來基準網絡的體素特征編碼層,受PointPillars
的啟發(fā),用一個10維向量來增強表示點
的輸入特征,
、
、
分別表示體素所有點的
軸、
軸和
軸坐標的算術平均值;
、
、
分別表示體素中心點
軸、
軸和
軸坐標。每個體素的輸入特征集合為
-
,
-
,
-
]
∈
},
=1,2,…,
(2)
最后,點云特征被編碼為3D向量(
,
,
),其中
是最小批次中體素的最大數,
是點向量輸入尺寸,本文為10。
本節(jié)主要介紹網絡結構,分為4個子網絡:①堆疊三重注意力體素特征編碼網絡;②殘差稀疏卷積中間網絡;③空間語義特征融合2D CNN主干網絡;④多任務檢測頭。圖1給出了Reinforced SECOND的處理過程。該模型將點云作為輸入,并通過體素特征編碼網絡將它們編碼為體素表示。殘差稀疏卷積中間網絡提取3D稀疏特征圖,并將
軸信息壓縮為2D BEV特征。2D CNN主干網絡在這一步實現了語義和空間特征的魯棒提取。最后,多任務檢測頭生成檢測結果。
2.2.1 堆疊三重注意力體素特征編碼網絡
本節(jié)主要介紹新設計的體素特征編碼網絡,稱為堆疊三重注意力體素特征編碼網絡。體素化后的點云被編碼為3D向量(
,
,
)。受PointPillars的啟發(fā),設計了一個新的體素特征編碼網絡。但是,在提取每個體素中的特征前,為后續(xù)操作能學習到每個體素更具識別能力和魯棒的特征表示。參照TANet
網絡,對體素特征編碼網絡引入堆疊三重注意力,它利用了多級特征注意力。通過聯合考慮channel-wise、point-wise和voxel-wise注意力,重要的TA模塊增強了每個體素的關鍵信息,同時抑制不穩(wěn)定的點云。圖2給出了TA模塊的結構,同時對TA模塊算法的具體流程和作用進行闡述。
一個體素網格
包含
個體素,被定義成
={
,…,
},其中
∈
×
表示體素網格
的第
個體素。
(1)point-wise注意力。假定體素
,按照通道維度對體素中的點特征進行最大池化操作,得到point-wise特征
∈
×1
,通過下面的操作得到體素
的point-wise注意力
∈
×1
=
(
)
(3)
分數概念的演變經歷了四種途徑,隨之相伴的是人們對于數系的認識由整數系擴充為了有理數系.通過對分數演變順序的分析,本研究提出了其對分數概念教學的一些啟示,如教學實施的過程應分為四個具體階段,在教學內容中應滲透比例思想、等價類思想,可將“測量”、“除法”兩種分數產生途徑作為數系擴充的重要教學點.
(2)channel-wise注意力。通過最大池化操作,在它們的point-wise維度上聚合通道特性,得到channel-wise特征
∈
1×
,通過下面操作得到體素
的channel-wise注意力
(4)
式中:
∈
×
和
∈
×
表示兩個全連接層權重參數;
(·)表示ReLU激活函數。
=
(
×
)
(5)
堆疊兩個TA模塊來提取多層特征。第一個TA模塊直接處理點云的原始特征,第二個模塊處理高維特征。對于每個TA模塊,對其輸出和輸入執(zhí)行拼接/元素級和操作以融合更多特征信息,然后通過全連接層獲得高維特征表示。通過堆疊三重注意力模塊后,體素化的點云重新編碼為3D向量(
,
,
),其中
是提取體素特征配置的TA模塊的輸出通道參數,設置為64。
三重注意力模塊之后,再經過全連接層后,使用通道最大池化來提取每個體素的局部聚合和對稱特征,得到尺寸為(
,
)的輸出向量。圖3給出了堆疊三重注意力體素特征編碼網絡的完整流程。最大池化后聚合每個體素內的點來提取尺寸為(
,
)緊湊的特征表示,用不同深淺的紅色表示不同體素的特征向量。根據體素特征在網格中的原始空間位置對其進行排列,從而得到形狀為
×
×
×
的體素網格特征表示,其中每個網格包含
維度特征,帶顏色網格與前面的緊湊排列的相同顏色的特征向量一一對應,其中空白網格表示的是空的體素。
2.2.2 殘差稀疏卷積中間網絡
最典型的例子,莫過于“官渡之戰(zhàn)”中,袁紹的謀士許攸離開袁紹,重新選擇曹操。許攸的這一“重選”,徹底改變了袁紹與曹操的個人命運,也改變了歷史的走向。合作者“重新選擇”的原因,無非兩條,一是軟環(huán)境,一是硬環(huán)境。具體到許攸,主要是軟環(huán)境出了問題。
簡單堆疊三維稀疏卷積會丟失大量的前期信息。參照ResNet
網絡,設計了殘差稀疏卷積單元。該子網絡可以利用殘差稀疏卷積網絡結構變得更深,加快網絡的收斂速度,提取到更加重要的3D稀疏特征。本文將這種網絡命名為殘差稀疏卷積中間網絡。它由一系列稀疏3D卷積(SpConv3D)和殘差稀疏卷積(ResSpConv3D)單元組成。圖4給出了ResSpConv3D單元結構,主要由恒等映射和殘差映射組成,其中3×3×3 SpConv3D和1×1×1 SpConv3D分別表示卷積核大小為(3,3,3)和(1,1,1)的稀疏3D卷積。
唯一值得欣慰的是,英戈施塔特為R8 RWS提供了大尺寸的手套箱和座椅后方充足的儲物空間(226升)。加之前部行李箱提供的額外112升的儲物空間,奧迪車主可隨心所欲地駕駛這輛座駕完成任何一段旅行。當然,R8 RWS出色的座椅也功不可沒—舒適的坐墊、符合人體工程學的造型、豐富電動調節(jié)方向以及座椅加熱功能使這輛奧迪跑車顯得格外文明?;蛟S有人會說,這些配置對于R8 RWS的身價來說根本算不了什么,那么不妨將它與價格是其兩倍的法拉利812 Superfast進行對比。
其中一個ResSpConv3D單元表示為
(6)
(二)充分發(fā)揮惠農資源“粘合劑”功能,有效破解了農業(yè)農村發(fā)展瓶頸。由于“政擔銀企戶”財金互動扶貧試點建立了多方合作的機制,為各方政策接入提供了平臺,多項支農惠農資金主動或被動地“粘合”在一起,集中扶持農業(yè)農村發(fā)展。市縣政府引導當地特色農業(yè)經營主體納入財金互動政策的支持對象,并將原有的多項支農資金優(yōu)先投向財金互動支持項目,改變了支農政策各自為政、小而散的狀況,形成了政策合力。金融機構將國家原有的扶貧再貸款、支農再貸款政策整合起來,用于支持開展合作的信貸擔保項目,農村信貸規(guī)模得到有效拓展。
(7)
+1=
(
)
(8)
殘差稀疏卷積中間網絡由Block1、Block2、Block3和Block4組成。將每個Block設計為SpConv3D和ResSpConv3D的組合,并使用一系列SpConv3D和ResSpConv3D將點云逐漸轉換為1、2、4、8倍下采樣尺寸的特征體。經過ToDense層將3D稀疏特征沿
軸堆疊,得到BEV特征圖。圖5給出了殘差稀疏卷積中間網絡概述。其中淺藍色立方模塊表示3D稀疏特征圖,給出了它們的大小,同時給出Block1、Block2、Block3和Block4子模塊的結構。表1給出了殘差稀疏卷積中間網絡參數信息。
、
、
代表卷積核大小、步幅大小和填充大小。標量以簡單的方式使用,例如對于
,
=(
,
,
),
代表層的輸出通道數,
代表要應用的層數。其中,ResSpConv3D包含兩個SpConv3D,都設置為
=3,
=1,
=1。
2.2.3 空間語義特征融合2D CNN主干網絡
經過殘差稀疏卷積中間網絡,得到的壓縮的BEV特征圖作為區(qū)域建議網絡的輸入。為了準確檢測目標,必須回歸目標的精確位置且分辨每個回歸框作為正/負樣本,因此考慮到低級空間特征和高級的抽象語義特征。當堆疊卷積層獲取到高級的抽象語義特征,會導致低級空間特征在最終的特征圖有所下降。因此,簡單堆疊卷積層的BEV特征提取模塊難以獲得具有豐富空間信息的特征。
新設計的2D CNN主干網絡包括兩組卷積群和空間語義特征融合模塊。兩個卷積群分別稱為空間卷積群和語義卷積群,各自的輸出分別為空間特征和語義特征。圖6為提出的區(qū)域建議網絡的結構圖。
《南方日報》以及其所屬的南方報業(yè)傳媒集團的黨性是不容置疑的,這從張軍工作服上的黨徽、優(yōu)秀工作人員工位上擺放的“黨群先鋒崗”的標識等細節(jié)上,就可見一斑。因而,相較其他類型的印刷企業(yè),南方印務擁有更強的政治責任。
2.2.4 多任務檢測頭
在得到空間語義特征融合模塊融合得到的特征圖后,將運用3種卷積核大小為1×1二維卷積作用于得到的特征圖,輸出的通道數分別為
、
和
,表示類別分類、位置回歸和方向分類的輸出通道數。其中圖6(c)為多任務檢測頭示意圖。使用多個不同尺寸的錨框支持多類檢測。本文使用與基準網絡相同的值,并遵循KITTI數據集基準的交并比(intersection over union,IoU)的閾值,并采用了與基準網絡相同的框編碼函數。
2.3.1 位置回歸的SmoothL1函數
F-PointNet
使用PointNet在2D圖像目標框裁剪點云完成3D目標檢測。PointRCNN網絡借鑒2D檢測器Faster RCNN
的思想,從整個點云生成3D建議。3DSSD網絡最遠點采樣時,將歐氏度量(3DSSD中稱為D-FPS)和特征度量(3DSSD中稱為F-FPS)融合在一起,彌補下采樣時不同前景實例內部點的損失。STD
網絡提出從稀疏到密集的策略優(yōu)化線框提議。VoteNet
網絡采用霍夫投票進行目標特征分組。雖然通過PointNet(++)堆疊集合抽象層為點云特征學習提供了靈活的感受域,但是三維空間中的點檢索需要巨大的計算成本,本文所提模型做到了較好的實時性。
本課程在中職主要培養(yǎng)的是繪圖員,缺乏系統的專業(yè)理論知識,不能獨立完成方案設計任務。而在高職培養(yǎng)的學生是面向初次就業(yè)崗位,具備效果圖表現和初步設計能力;強調方法和手段的運用,重在培養(yǎng)基本技能。在普通高校培養(yǎng)的學生是面向二次就業(yè)崗位及未來發(fā)展崗位,側重于創(chuàng)意設計,培養(yǎng)大型方案的綜合設計能力,組織與協調工作。
reg-
=
(sin(
-
))
(9)
定位回歸損失
定義如下
(10)
式中:下標p表示預測值;下標t表示編碼值;
、
和
表示線框中心坐標;
、
和
分別表示線框的長、寬和高;
表示位置回歸采用的是Smooth L1的損失函數。
2.3.2 分類的焦點損失函數
一般在KITTI場景的點云會預制多達70 000個錨框,然而只有極少的真值標注框,每個只對應4~6個目標框,這就導致前景框數和背景框數極不平衡。為解決此問題,引入焦點損失函數,其定義如下
本期“改革開放與舞臺藝術”專題聚焦改革開放40年來河南的現代戲創(chuàng)作與演出歷程,刊載的三篇文章,既有研究者對河南現代戲創(chuàng)作特點的分析及持續(xù)發(fā)展的經驗總結,從文化環(huán)境、政策導向、創(chuàng)作觀念等視角解析河南現代戲繁榮的原因;也有導演藝術家結合具體作品談創(chuàng)作層面的實踐過程與現代戲美學追求,對河南現代戲從學術研究與藝術創(chuàng)作的角度有較為全面的觀照。他山之石,可以攻玉。以期為福建的現代戲創(chuàng)作,尤其是現實題材現代戲創(chuàng)作提供借鑒與參照。
(
)=-
(1-
)
ln(
)
(11)
式中:
表示樣本屬于真實類別概率;
和
是焦點損失函數的超參數,為了和基準網絡實驗對比,采用與基準網絡相同的值。
2.3.3 多任務損失函數
對于每個類別,設置相同的損失函數。最終的多任務損失函數定義如下
=
+
(
reg-
+
)+
原始的基準網絡通過稀疏3D卷積代替?zhèn)鹘y的3D卷積提取點云場景中劃分的體素的特征,這樣大大降低了網絡的計算成本。基準網絡稀疏卷積中間層網絡每個塊都是一個3D稀疏卷積或者一個3D子流形稀疏卷積,接著是BatchNorm和ReLU操作。
(12)
式中:
表示分類損失,使用上面提到的焦點損失函數;
和
reg-
表示定位和角度的回歸損失,使用Smooth L1函數;
表示方向分類損失,使用Softmax損失函數;
、
和
表示不同任務的損失函數在總體損失中所占的比重。為了和基準網絡對比,本文采用與基準網絡相同的損失函數的常數系數,
=1.0,
=2.0,
=0.2。
本文以SECOND網絡作為基準網絡,嘗試改進了其子網絡:改進的無注意力機制的體素特征編碼網絡,記作NoAtten-VFE;堆疊三重注意力的體素特征編碼網絡,記作STA-VFE;殘差稀疏卷積中間網絡,記作ReSpConvNet;空間語義特征融合2D CNN主干網絡,記作SSFF-2DCNN。
The statistical methods used in the present study were reviewed by Professor Konstantinos Triantafyllou,Medical School, National and Kapodistrian University,Athens, Greece who has been trained in biostatistics.
3.病理剖檢。病死雞剖析可見嗉囊充滿積液,盲腸或小腸顯著腫大,比正常腫大2~4倍,外表呈紫紅色,腸腔充滿凝固或新鮮的暗紅色血液,盲腸壁變厚,漿膜層有針尖至米粒大小的灰白色糜爛點和紫色出血點間染,腸腔內充滿許多混血內容物。
實驗使用的點云
軸、
軸、
軸范圍分別是
=[0 m,70.4 m],
=[-40 m,40 m],
=[-3 m,1 m]。選擇的體素尺寸是
=0.05 m,
=0.05 m,
=0.1 m。因此,生成的體素網格大小是1 408×1 600×40。將
設置成5,作為每個體素中的最大點數,同時
設置成16 000,作為最小批量中的最大非空體素數。
訓練的整個網絡設置batch size為4,采用RTX 2080 Ti GPU,設置80 epochs。采用Adam優(yōu)化器,初始學習率設置為0.003,指數衰減因子為0.8,每15個周期衰減一次。使用0.01的衰減權重,
為0.9,
為0.99。
在訓練階段,使用三維目標檢測的數據增強策略。基準值內的點沿
軸方向按[-π
4,π
4]的均勻分布進行隨機旋轉,以獲得基準值方位變化。此外,基準值沿
軸隨機翻轉點云?;鶞手凳褂肹0.95,1.05]均勻分布的隨機縮放因子進行全局縮放。這些基準值被隨機采樣放入原始樣本中,以模擬有多個對象的場景。也采用從其他場景中隨機“粘貼”一些新的基準值目標到當前的訓練場景中進行基準值采樣增強,模擬各種環(huán)境中的對象。
為了評價所提模型的性能,提供消融實驗,在訓練集上訓練模型,并在驗證集上驗證結果。為了采用KITTI官方測試服務器對測試集進行評估,模型使用訓練樣本數據的80%對模型進行訓練,剩余的20%數據用于驗證。圖7給出了KITTI驗證集上對于4種場景的定性結果。通過實驗結果可以看出,所提出的網絡達到了意想不到的檢測效果。KITTI數據集中一些未標記的對象也可以識別;對遠處的小目標、遮擋嚴重的目標、截斷嚴重的目標能達到較好的識別效果。同時為了客觀比較所提方法與其他方法的實時性,在本實驗硬件平臺上對5種方法在KITTI驗證集的3D檢測速度進行對比。
測試集的平均均值精度結果用官方KITTI測試服務器上的40個召回位置計算。在驗證集的運行速度,計算的是單幀檢測時間/(s·幀
)。表2給出了所提方法在KITTI測試集上的精度性能,其性能優(yōu)于之前的基準網絡和許多其他方法。對于最重要的3D目標檢測car類,KITTI測試集上的3D檢測精度在簡單、中等和困難難度級別上分別比基準網絡提升了4.06%,5.85%,8.54%。而且,對于cyclist類來說,3D檢測精度在簡單、中等和困難難度級別上分別提升了6.95%,8.9%,8.53%。對于car類和cyclist類的BEV檢測,本文方法在3個難度級別上也優(yōu)于許多基于網格及基于點的方法。本文訓練了一個同時用于car類和cyclist類檢測的模型,而非基準網絡為每個類別訓練一個模型。
以上實驗說明了網絡在KITTI測試集上的有效性。在KITTI測試集上檢測精度得到驗證,表3給出了5種方法在KITTI驗證集中3D檢測速度的對比。由表3可知,本文所提出的基于體素的方法比PointRCNN、F-PointNet等經典的基于點的方法實時性更好,相比基準網絡SECOND,所提方法檢測速度變化不大。相比于基于點的方法,在處理過程中利用PointNet(++)的集合抽象層進行采樣操作以及分組操作需要消耗大量的時間,本文方法僅需將點云劃分到不同的網格中,不需進行復雜的采樣和分組。稀疏三維卷積僅處理少量的非空體素,大大提升基于體素法的計算效率。
所有模型都在訓練集上進行訓練,并在KITTI數據集的驗證集上進行評估。本文使用11個召回位置計算平均均值精度,其中car類的旋轉IoU閾值為0.7,cyclist類和pedestrian類的旋轉IoU閾值為0.5。表4和表5給出了KITTI驗證集中消融實驗的3D和BEV檢測性能。表4、5中基準子網代表的是采用基準網絡的子網絡結構。其中消融實驗的設置分別以單獨、兩兩結合以及總體結合展示本文改進點的貢獻。其中包括3組單獨實驗,2組兩兩結合實驗,1組總體實驗。由于殘差稀疏卷積中間網絡和堆疊三重注意力體素特征編碼網絡輸出特征維度關聯,因此并沒有提供殘差稀疏卷積中間網絡改進點的單獨實驗。
實驗使用KITTI數據集,其中包含7 481個訓練樣本和7 518個測試樣本。訓練樣本又分為訓練集(3 712個樣本)和驗證集(3 769個樣本)。對car類、cyclist類和pedestrian類3個類進行評估。KITTI數據集根據圖像平面中邊界框高度、遮擋和截斷劃分模型,評估難度分別為簡單、中等和困難難度級別。因為對測試服務器的訪問有限制,所有消融實驗均使用驗證集評估。按照官方KITTI評估指標,以平均均值精度(mean average precision,mAP)評價3D和BEV檢測結果。
3.3.1 無注意力機制的體素特征編碼網絡的效果
通過與基準網絡比較來驗證提出的體素特征編碼網絡的有效性。表4給出KITTI驗證集上3D檢測性能,在替換NoAtten-VFE為特征編碼網絡后,模型在car類、cyclist類和pedestrian類的中等難度級別平均均值精度分別提升了0.14%、4.93%和3.93%,可見對占用點云較少的小物體檢測效果提升較好。因為NoAtten-VFE引入了10維向量對point-wise特征進行增強表示,新的結構更好地提取voxel-wise特征,雖然小目標點云少,但是可以提取出更多特征。
3.3.2 堆疊三重注意力的效果
從表3中可以很清楚地看到主題學習模式與基于問題的學習模式各有優(yōu)缺點,教師可根據自身是擅長設計學習活動,還是擅長提出問題,再結合實際情況選擇模式,但不管哪種模式,對教師的專業(yè)知識、專業(yè)能力和專業(yè)情意要求都很高。
為了進一步提取體素的更具辨別力和魯棒性的特征,在體素特征編碼網絡引入堆疊三重注意力。同樣在KITTI驗證集進行評估,如表4所示,采用STA-VFE模型和采用NoAtten-VFE模型的實驗結果進行對比,在中等難度級別下,cyclist類和pedestrian類3D檢測精度分別提升了0.22%、0.39%,同時car類依然有輕微的下降,下降了0.09%,但是困難難度級別下的car類確提升0.21%。說明加入堆疊三重注意力增強了體素編碼網絡對體素的關鍵性特征的提取能力。
3.3.3 殘差稀疏卷積的效果
針對體素特征編碼網絡引入堆疊三重注意力的改進,發(fā)現KITTI驗證集中car類中等難度級別3D檢測平均均值精度略有下降。根據STA-VFE網絡的輸出特征維度特點,設計了相應的殘差稀疏卷積網絡,嘗試改進稀疏卷積網絡來提高檢測效果。如表4和表5所示,將STA-VFE與ReSpConvNet結合的模型,與只引入STA-VFE的模型對比,car類在簡單、中等和困難難度級別上的3D檢測精度分別提高了0.84%、0.57%和0.4%。同時BEV檢測精度在不同類的所有難度等級下都有一定提升。說明了殘差稀疏卷積單元相比普通稀疏3D卷積對于car類有更好的檢測提升效果。因為殘差稀疏卷積的短連接結構,相當于在每個卷積又加入了上一層特征的全部信息,一定程度上保留了更多的點云原始信息。
俄羅斯一直在緩慢地開發(fā)自主水下載具,同時進口民用和兩用型。迄今俄羅斯開發(fā)了最著名的中型尺寸“大鍵琴”系列自主水下載具。幾個大型項目正在研發(fā)中,包括:(1) “大鍵琴”-2P-2M,由大型特種任務宿主潛艇(如“別爾哥羅德”號)運載;(2) “代用品”遠程自主誘騙機,由大型潛艇發(fā)射,用于輔助突破北約反潛防御網;(3) 由“紅寶石”設計局設計的“頭足綱”系列自主水下載具,具有相對大的船首聲吶,可裝備兩枚輕型魚雷,可執(zhí)行反潛任務。
3.3.4 空間語義特征融合模塊效果
如表4所示,SSFF-2DCNN在和STA-VFE兩兩結合,或者與STA-VFE+ReSpConvNet總體結合的模型,都做到進一步提升了各個類不同難度級別下的在KITTI驗證集3D精度。說明了本文提出的空間語義特征融合模塊能夠有效地融合2D CNN的低級空間特征和高級語義特征。
詞人通過將自己的感情經歷付諸詩詞,從女性的角度書寫閨中生活的寂寥與無奈,壓抑與無聊。憑欄的狀態(tài)更能表現作者的百無聊賴的心情。登高望遠,卻不見歸人。
3.教師對現代教育技術運用不熟練。很多教師很少使用多媒體教學,沒有把現代教育技術與傳統教學方法有機融合在一起,取長補短,提高課堂教學效率。
針對點云體素化的三維目標檢測方法點云的特征提取能力不足的問題,本文提出了一種基于體素的單階段三維目標檢測(Reinforced SECOND)方法。改進的點云分組方式,對單個體素特征實現更合理的表示,并提出了一種堆疊三重注意力體素特征編碼網絡,該子網絡增強了體素中對檢測任務有著重要貢獻的關鍵特征,同時抑制不相關噪聲特征。提出殘差稀疏卷積單元,設計了殘差稀疏卷積中間網絡,保留了3D稀疏特征圖更豐富的信息,解決了連續(xù)卷積會丟失部分有效信息的問題。在區(qū)域建議網絡中,提出了輕量級的空間語義特征融合模塊,實現自適應地融合低級空間特征和高級抽象語義特征。在KITTI數據集的實驗結果表明,與以前許多方法相比,本文方法有效提升了三維目標檢測性能。
:
[1] 陳科圻,朱志亮,鄧小明,等.多尺度目標檢測的深度學習研究綜述 [J].軟件學報,2021,32(4):1201-1227.
CHEN Keqi,ZHU Zhiliang,DENG Xiaoming,et al.Deep learning for multi-scale object detection:a survey [J].Journal of Software,2021,32(4):1201-1227.
[2] 張帆,趙世坤,袁操,等.人臉識別反欺詐研究進展 [J].軟件學報,2022,33(7):2204-2240.
ZHANG Fan,ZHAO Shikun,YUAN Cao,et al.Recent progress of face anti-spoofing [J].Journal of Software,2022,33(7):2204-2240.
[3] 陳晉音,沈詩婧,蘇蒙蒙,等.車牌識別系統的黑盒對抗攻擊 [J].自動化學報,2021,47(1):121-135.
CHEN Jinyin,SHEN Shijing,SU Mengmeng,et al.Black-box adversarial attack on license plate recognition system [J].Acta Automatica Sinica,2021,47(1):121-135.
[4] 孟琭,楊旭.目標跟蹤算法綜述 [J].自動化學報,2019,45(7):1244-1260.
MENG Lu,YANG Xu.A survey of object tracking algorithms [J].Acta Automatica Sinica,2019,45(7):1244-1260.
[5] 田永林,沈宇,李強,等.平行點云:虛實互動的點云生成與三維模型進化方法 [J].自動化學報,2020,46(12):2572-2582.
TIAN Yonglin,SHEN Yu,LI Qiang,et al.Parallel point clouds:point clouds generation and 3D model evolution via virtual-real interaction [J].Acta Automatica Sinica,2020,46(12):2572-2582.
[6] QI C R,LIU Wei,WU Chenxia,et al.Frustum PointNets for 3D object detection from RGB-D data [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:918-927.
[7] SHI Shaoshuai,WANG Xiaogang,LI Hongsheng.PointRCNN:3D object proposal generation and detection from point cloud [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2019:770-779.
[8] YANG Zetong,SUN Yanan,LIU Shu,et al.3DSSD:point-based 3D single stage object detector [C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2020:11037-11045.
[9] YANG Zetong,SUN Yanan,LIU Shu,et al.STD:sparse-to-dense 3D object detector for point cloud [C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV).Piscataway,NJ,USA:IEEE,2019:1951-1960.
[10] QI C R,LITANY O,HE Kaiming,et al.Deep hough voting for 3D object detection in point clouds [C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV).Piscataway,NJ,USA:IEEE,2019:9276-9285.
[11] CHARLES R Q,SU Hao,KAICHUN Mo,et al.PointNet:deep learning on point sets for 3D classification and segmentation [C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2017:77-85.
[12] QI C R,YI Li,SU Hao,et al.PointNet++:deep hierarchical feature learning on point sets in a metric space [C]∥Proceedings of the 31st International Conference on Neural Information Processing Systems.Red Hook,NY,USA:Curran Associates Inc.,2017:5105-5114.
[13] SHI Shaoshuai,WANG Zhe,WANG Xiaogang,et al.Part-
net:3D part-aware and aggregation neural network for object detection from point cloud [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1907.03670.
[14] SINDAGI V A,ZHOU Yin,TUZEL O.MVX-net:multimodal VoxelNet for 3D object detection [C]∥2019 International Conference on Robotics and Automation (ICRA).Piscataway,NJ,USA:IEEE,2019:7276-7282.
[15] YAN Yan,MAO Yuxing,LI Bo.SECOND:sparsely embedded convolutional detection [J].Sensors,2018,18(10):3337.
[16] ZHOU Yin,TUZEL O.VoxelNet:end-to-end learning for point cloud based 3D object detection [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:4490-4499.
[17] LANG A H,VORA S,CAESAR H,et al.PointPillars:fast encoders for object detection from point clouds [C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2019:12689-12697.
[18] SIMON M,MILZ S,AMENDE K,et al.Complex-YOLO:an Euler-region-proposal for real-time 3D object detection on point clouds [C]∥Computer Vision:ECCV 2018 Workshops.Cham,Switzerland:Springer International Publishing,2019:197-209.
[19] YANG Bin,LUO Wenjie,URTASUN R.PIXOR:real-time 3D object detection from point clouds [C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.Piscataway,NJ,USA:IEEE,2018:7652-7660.
[20] REN Shaoqing,HE Kaiming,GIRSHICK R,et al.Faster R-CNN:towards real-time object detection with region proposal networks [C]∥Proceedings of the 28th International Conference on Neural Information Processing Systems:Volume 1.Cambridge,MA,USA:MIT Press,2015:91-99.
[21] GRAHAM B.Sparse 3D convolutional neural networks [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1505.02890.
[22] GRAHAM B.VAN DER MAATEN L.Submanifold sparse convolutional networks [EB/OL].[2021-12-09].https:∥doi.org/10.48550/arXiv.1706.01307.
[23] LIU Zhe,ZHAO Xin,HUANG Tengteng,et al.TANet:robust 3D object detection from point clouds with triple attention [C]∥Proceedings of the AAAI Conference on Artificial Intelligence.Palo Alto,CA,USA:AAAI Press,2020:11677-11684.
[24] HE Kaiming,ZHANG Xiangyu,REN Shaoqing,et al.Deep residual learning for image recognition [C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).Piscataway,NJ,USA:IEEE,2016:770-778.
[25] KU J,MOZIFIAN M,LEE J,et al.Joint 3D proposal generation and object detection from view aggregation [C]∥2018 IEEE/RSJ International Conference on Intelligent Robots and Systems (IROS).Piscataway,NJ,USA:IEEE,2018:1-8.