国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Light-BotNet 的激光點云分類研究*

2022-07-22 06:32雷根華張志勇
電子技術應用 2022年6期
關鍵詞:類別框架卷積

雷根華 ,王 蕾 ,2,張志勇

(1.東華理工大學 信息工程學院,江西 南昌 330013;2.江西省核地學數(shù)據(jù)科學與系統(tǒng)工程技術研究中心,江西 南昌 330013)

0 引言

大多的深度學習點云分類方法都是采用卷積層與池化層交替實現(xiàn)的,卷積層中的神經(jīng)元僅與上一層的部分區(qū)域相連接,學習局部特征,在點云數(shù)據(jù)特征提取時容易丟失部分特征,從而導致分類精度下降等問題。而Transform 的提出則帶來了一種新的思路,主要利用自我注意機制提取內在特征[1-3]。Transform 最初應用在自然語言處理(NLP)領域,并且取得了重大的成功,受到NLP中Transformer 功能的啟發(fā),研究人員開始將Transformer應用在計算機視覺(CV)任務。研究發(fā)現(xiàn)CNN 曾是視覺應用的基本組件[4-5],但Transformer 正在顯示其作為CNN替代品的能力。Chen 等人[6]訓練序列變換器,以自回歸預測像素,并在圖像分類任務上與CNN 取得競爭性結果。卷積操作擅長提取細節(jié),但是在大數(shù)據(jù)量的大場景三維點云數(shù)據(jù)分類任務中,要掌握三維點云的全局信息往往需要堆疊很多個卷積層,而Transform 中的注意力善于把握整體信息,但又需要大量的數(shù)據(jù)進行訓練。

BotNet[7]網(wǎng)絡是伯克利與谷歌的研究人員在Convolution+Transformer 組合方面一個探索,它采用混合方式同時利用了CNN 的特征提取能力、Transformer 的內容自注意力與位置自注意力機制,取得了優(yōu)于純CNN 或者自注意力的性能,在ImageNet 中取得了84.7%的精度。將CNN與Transform 結合起來,達到取長補短的效果。BoTNet 與ResNet[8]網(wǎng)絡框架的不同之處在于:ResNet[8]框架在最后3 個bottleneck blocks 中使用的是3×3 的空間卷積,而BotNet 框架則是采用全局自我注意替代空間卷積。帶自注意力模塊的Bottleneck 模塊可以視作Transformer 模塊。

本文通過改進方法[7],使用一種基于點的特征圖像生成方法,將框架應用到三維點云任務中。對于特征提取方法中點云中的每個點,本文利用其相鄰點的局部特征組成點云特征圖像,然后使用點云特征圖像輸入到基于CNN 的Transform 的高效神經(jīng)網(wǎng)絡Light-BotNet 網(wǎng)絡模型并使用該模型做最后的激光點云分類任務。

1 框架

1.1 BotNet 網(wǎng)絡框架

BotNet 網(wǎng)絡框架是一種基于Transformer 的架構,同時使用卷積和自我注意的混合模型,利用CNN+Transformer 的方式提出一種Bottleneck Transformer 來代替ResNet Bottleneck,即僅在ResNet 框架的最后3 個bottleneck blocks 中使用全局多頭自注意力 (Multi-Head Self-Attention,MHSA)替換3×3 空間卷積。該方法思想簡單但是功能強大。由于引入Self-Attention 會導致計算量大與內存占用過多,BotNet 在ResNet 框架的最后3 個bottleneck blocks 添加自注意力模塊。每個bottleneck 包含一個3×3 卷積,采用MHSA 替換該卷積,第一個Bottleneck 中的3×3 卷積stride=2,而MHSA 模塊并不支持stride 操作,故而BoTNet 采用2×2 均值池化進行下采樣。傳統(tǒng)的Transformer 方法通常使用位置編碼,考慮了不同位置特征之間的相對距離,從而能夠有效地將對象之間的信息與位置感知關聯(lián)起來,更適合視覺任務[9-11]。BotNet 采用了文獻[9]、[12]中的2D 相對位置自我注意機制。類似于transformer block[3]或None Local block[13]方法。

1.2 基于Light-BotNet 的大場景點云分類框架

為了有效地從三維點云中挖掘有用的信息,采用了CNN 和Transform 結合的BotNet 框架,首先,分別從三維點云中提取這些特征,將得到的特征計算成點云的特征圖像[14];然后將它們輸入Light-BotNet 網(wǎng)絡框架,Light-BotNet 網(wǎng)絡框架從點云特征圖像中選擇有用的信息來對三維點云進行分類。

整體的大場景點云分類網(wǎng)絡框架如圖1 所示。首先是在三維和二維兩個不同的層面上進行點云的特征提取,得到大小[N,32,32,1]的點云特征圖像,輸入Light-BotNet 網(wǎng)絡框架,可以看出總共有4 個網(wǎng)絡層塊(block),每一個block 的大小為[1,3,1,1],在block_1 中Conv 參數(shù)為3×3 的卷積核和Channel 大小為64 的卷積層,block_2 的Conv 參數(shù)為3×3 和Channel 為64 的卷積層,block_3 中Conv 的參數(shù)為3×3 的卷積核和Channel 為64的卷積層,block_4 的Conv 參數(shù)為3×3 和Channel 為128的卷積層,通過這些卷積層可以提取點云特征圖像的特征信息,得到一個[128,K]的一維向量,得出分數(shù)進而輸出分類結果。

圖1 基于Light-BotNet 的大場景點云分類框架

本文采用了ResNet50 和BotNet50 網(wǎng)絡框架來與Light-BotNet 進行對比,如表1 所示。

表1 幾種不同神經(jīng)網(wǎng)絡框架設計表

2 實驗結果分析

本文在Oakland 3D 大場景三維點云數(shù)據(jù)集上進行實驗,以驗證基于Light-BotNet 大場景點云分類方法的有效性和魯棒性,對Oakland 3D 數(shù)據(jù)集中的實驗分類結果進行分析。

在Oakland 3D 三維大場景點云數(shù)據(jù)集上測試所提出的算法框架,該數(shù)據(jù)集來源于奧克蘭卡耐基梅隆大學的校園周邊場景,是使用最廣泛的地面移動激光掃描(MLS)所獲取的數(shù)據(jù)集。該數(shù)據(jù)集主要是城市大場景環(huán)境。該數(shù)據(jù)集包括電線(Wire)、桿(Pole)、建筑立面(Facade)、地面(Ground)和植物(Vegetation)這5 個語義類別,其中每個類別的樣本數(shù)量如表2 所示。

表2 Oakland 數(shù)據(jù)集

實驗運行環(huán)境:Intel i7-4790、NVIDIA RTX 2070、8 GB 內存,在Windows10 和Python3.7 下搭建CUDA 10.0、CUDNN7.6.4、PyTorch 0.6 的深度學習環(huán)境,初始學習率為1×10-3。

本文在Oakland 大場景三維點云數(shù)據(jù)集上分類任務的測試精度實驗對比如表3 所示,其中OA 表示總體分類精度,在總體分類精度(OA)明顯要好于其他文獻的方法。實驗結果表明,所提出的Light-BotNet 方法在Oakland 數(shù)據(jù)集上的總體分類精度達到了98.1%,與文獻[15]-[19]相比較,如圖2 所示的Oakland 3D 大場景三維點云分類結果可視化對比,其中圖2(a)是測試集的Ground Truth,圖2(b)是算法分類結果的可視化效果。

表3 Oakland 數(shù)據(jù)集對比精度 (%)

圖2 可視化效果圖

圖2 中1 表示地面,2 表示電線,3 表示電線桿,4表示墻面,5 表示植物。

可看到Oakland 測試集上分類后可視化效果與測試集真實標簽可視化效果對比。從表3 對比數(shù)據(jù)以及圖2展示的效果來看,電線桿類(Pole)和線(Wire)這兩類別的分類精度分別為20.7%和18.0%,與其他的文獻相比較差。因為這些類別的點本來就是數(shù)據(jù)量少,當對這些類別的點進行在x、y、z 方向投影時,這一投影勢必會造成部分不同類別的點的重合覆蓋,從而影響計算該類點的二維特征精度的計算。但是對于類別的點比較有優(yōu)勢,類別多的覆蓋了類別少的點,所以在最終的結果呈現(xiàn)出類別多的點準確率高,類別少的點準確率低。

由于對比方法中涉及Oakland 大場景三維點云數(shù)據(jù)相關文獻[15-19],為了證明本文所提基于通道注意力機制的深度卷積神經(jīng)網(wǎng)絡在時間和效率上的優(yōu)良性,針對在大場景三維點云的海量數(shù)據(jù)在訓練過程中如何更好地平衡分類精度和實現(xiàn)效率問題,通過對比Light-BotNet與ResNet50 和BotNet50 網(wǎng)絡框架在大場景三維點云數(shù)據(jù)集Oakland 和測試分類的性能與時間復雜度作為評價指標來證明所提算法輕量級框架的優(yōu)良性,圖3 展示的是Light-BotNet 與ResNet50 和BotNet50 網(wǎng)絡框架在大場景三維點云Oakland 數(shù)據(jù)集上隨著輪數(shù)(epoch)增加對點云分類精度(accuary)的變化。

圖3 Light-BotNet 與Method_1 和Method_2 分類精度可視化

通過圖3 展示的效果可以看出,Backbone 分別為ResNet50 和BotNet50 的網(wǎng)絡模型,在分類精度上對比Light-BotNet 比較低,這在很大程度上是因為本文已經(jīng)對激光點云已經(jīng)進行了一遍處理,所以在后面使用的網(wǎng)絡層模型應該偏向于輕量級的網(wǎng)絡模型。本文也同在SVM 和Random Forest 方法上進行驗證分類結果,發(fā)現(xiàn)在分類結果上能夠達到90%左右的效果,在Backbone 為輕量級的網(wǎng)絡框架的效果[17]中,也能夠取得比較好的效果,雖然ResNet 網(wǎng)絡層模型可以適用于在一些比較深的網(wǎng)絡模型提取有效的特征,但是可能并不適用于本方法中。從結果可以看出,整體的實驗分類結果具有很大的波動性,雖然達到了一個比較好的效果,但是可能存在是研究結果出現(xiàn)過擬合的可能。BotNet50 Backbone 同理可證,在Light-BotNet 網(wǎng)絡框架設計上如表1 所示,在整體的網(wǎng)絡框架上,相比于ResNet50 和BotNet50 網(wǎng)絡框架,在網(wǎng)絡層上進行了50%的刪減,形成一個相對輕量級的基于CNN 的Transform 網(wǎng)絡框架模型、在實驗結果上,相比于ResNet50 和BotNet50,整體的分類結果比較穩(wěn)定,分類精度也高。

對比在Oakland 3D 數(shù)據(jù)集下Light-BotNet 與Bot-Net50、ResNet50 3 種不同網(wǎng)絡框架的分類精度,結果如表4 所示。

表4 網(wǎng)絡框架實驗結果對比

對比不同網(wǎng)絡的參數(shù),表5 展示了使用的不同網(wǎng)絡框架運行點云分類的Flops 和Params 對比。從中可以看出,Backbone BotNet50 與ResNet50 在Flops 和Params 對比上差距不是很大,但是結合表4 來看,犧牲一部分的內存和效率,可以換取到準確率的提升。對比Light-BotNet,Light-BotNet 在Flops 和Params 上都降低近50%的消耗,準確率也是達到了一個很好的效果,通過在同樣硬件環(huán)境配置下在不同的Backbone 的分類網(wǎng)絡框架中進行實驗,Light-BotNet 的Flops 消耗與Params 與其他相比都處于最低的效果。

表5 不同網(wǎng)絡框架的Flops 和Params 對比

由于對比方法中涉及Oakland 大場景三維點云數(shù)據(jù)相關文獻[15-19],為了證明本文所提出基于Light-BotNet的激光點云分類方法,針對在大場景激光點云的海量數(shù)據(jù)在訓練過程中Light-BotNet 對本框架的影響,本文對比了在本框架和去除掉MSHA 框架的實驗結果,如圖4 所示,實驗證明MHSA 有利于點云分類精度的提高。

圖4 無MSHA 的準確率變化曲線

3 結論

針對大場景三維點云本身數(shù)據(jù)量巨大,存在計算量大、訓練時間長的挑戰(zhàn),設計更為適合三維點云數(shù)據(jù)處理的輕量級卷積神經(jīng)網(wǎng)絡,在保證分類精度的同時盡可能減少了參數(shù)的數(shù)量和訓練測試時間,使得網(wǎng)絡進一步快速收斂以及減少計算量。本文提出一種基于Light-BotNet 低復雜度、輕量級框架,在取到較好的分類精度的基礎上減少了訓練和測試時間,提升了整個網(wǎng)絡框架的性能。但是從每個類別的分類精度來看,對于Oakland 3D 數(shù)據(jù)集,本方法存在著一些不足之處,對一些數(shù)量占比少類別不友好,而對于一些數(shù)量多的類別來說,可以達到一個非常好的效果,這是本文存在的一個缺點,需要在以后工作中進行改進。這種問題的出現(xiàn)在很大程度上是因為本文在提取點云特征圖像上存在著一些缺點,或許不應該在xoy、yoz、xoz 3 個直平面進行投影,或許應該從一個有利于類別數(shù)量少的點的角度進行投影,例如旋轉到某一個角度,能夠讓類別數(shù)量少的點受到其他類別少的點的影響盡可能少,這將是未來將繼續(xù)的工作。在未來工作內容中,也會繼續(xù)探討在三維大場景點云數(shù)據(jù)同等數(shù)據(jù)容量下,對數(shù)據(jù)特性分析與提升深度學習框架本身的計算性能。

猜你喜歡
類別框架卷積
有機框架材料的后合成交換
框架
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
論陶瓷刻劃花藝術類別與特征
一起去圖書館吧
卷積神經(jīng)網(wǎng)絡的分析與設計
從濾波器理解卷積
基于傅里葉域卷積表示的目標跟蹤算法
關于原點對稱的不規(guī)則Gabor框架的構造
我國在WYO框架下面對的貿易保護現(xiàn)狀及應對