国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多軸自注意力的無人機(jī)避障模型

2024-08-28 00:00:00王新趙偉杰
機(jī)械制造與自動(dòng)化 2024年4期
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別無人機(jī)

摘 要:針對(duì)無人機(jī)在飛行過程中容易因旋翼碰撞而墜毀的問題,提出利用改進(jìn)的圖像識(shí)別模型實(shí)現(xiàn)自動(dòng)預(yù)警。將瓶頸多軸自注意力模塊(BMSA)嵌入到圖像識(shí)別模型中進(jìn)行改進(jìn),提升模型對(duì)細(xì)小物體的識(shí)別準(zhǔn)確率。多軸自注意力層在低分辨率階段替換原本卷積層,使得模型能夠兼顧局部自注意力和全局自注意力。實(shí)驗(yàn)結(jié)果表明:改進(jìn)得到的多軸自注意力的殘差網(wǎng)絡(luò)(MS-ResNet)具有較高的障礙物識(shí)別準(zhǔn)確率,能實(shí)現(xiàn)較好的預(yù)警效果。

關(guān)鍵詞:圖像識(shí)別;深度學(xué)習(xí);自注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);避障模型;無人機(jī)

中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1671-5276(2024)04-0124-05

UAV Obstacle Avoidance Model Based on Multi-axis Self-attention

WANG Xinwen1, ZHAO Weijie2

(1. School of Advanced Manufacturing, Fuzhou University, Quanzhou 362251, China;2. Quanzhou Reserch Center of Equipment Manufacturing of Haixi Institute, Chinese Academy of Science, Quanzhou 362216, China)

Abstract:To address the proneness of UAV crash due to rotor collision during flight, an improved image recognition model is proposed to achieve automatic warning. A bottleneck multi-axis self-attention module (BMSA) is embedded into the image recognition model for improvement, enabling the model to improve the recognition accuracy of the model for fine objects. The multi-axis self-attentive layer replaces the original convolutional layer in the low-resolution stage, enabling the model to obtain both local self-attention and global self-attention. The experiments show that the improved multi-axis self-attentive residual network (MS-ResNet) has high accuracy of obstacle recognition and achieve a better early warning effect.

Keywords:image recognition; deep learning; self-attention mechanism; convolutional neural network; obstacle avoidance model; UAV

0 引言

基于視覺系統(tǒng)的障礙物預(yù)警系統(tǒng)是實(shí)現(xiàn)無人機(jī)安全飛行的重要研究?jī)?nèi)容。在無人機(jī)飛行過程中,航拍攝像頭通常無法采集到無人機(jī)旋翼上方圖像,導(dǎo)致無人機(jī)有旋翼撞擊障礙物而墜毀的風(fēng)險(xiǎn)。為了解決這個(gè)問題,通過圖像識(shí)別算法對(duì)無人機(jī)的飛行路徑進(jìn)行實(shí)時(shí)避障預(yù)警。相比無人機(jī)上的單目避障系統(tǒng)[1]和SIFT圖像匹配避障方法[2],采用圖像識(shí)別網(wǎng)絡(luò)來實(shí)現(xiàn)避障系統(tǒng)計(jì)算量較低、精度較高,能夠較好地平衡計(jì)算耗時(shí)和準(zhǔn)確率。

圖片識(shí)別算法在各個(gè)領(lǐng)域已經(jīng)實(shí)現(xiàn)廣泛的應(yīng)用,2012年,深度卷積結(jié)構(gòu)的AlexNet[3]在ILSVRC[4]分類挑戰(zhàn)大賽中取得讓人印象深刻的成績(jī)。GoogLeNet[5]在ILSVRC大賽上實(shí)現(xiàn)了74.8%的top-1準(zhǔn)確率,后來提出的ResNet[6]相比其他模型實(shí)現(xiàn)了非常顯著的準(zhǔn)確率提升。

近幾年來,研究人員開始研究計(jì)算機(jī)視覺任務(wù)中的Transformer[7]結(jié)構(gòu),BoT[8]基于ResNet提出帶有多頭自注意力模塊的基本組成結(jié)構(gòu),同樣可以堆疊得到類ResNet的網(wǎng)絡(luò)模型。TU等[9]提出結(jié)合局部自注意力和全局自注意力的方法,基于此,本文對(duì)BoT進(jìn)行改進(jìn),提出多軸自注意力的殘差網(wǎng)絡(luò)(deep residual network of multi-axis self-attention, MS-ResNet)模型。

主要?jiǎng)?chuàng)新和工作如下所述。

1)通過視覺系統(tǒng)實(shí)現(xiàn)無人機(jī)飛行避障預(yù)警,以降低旋翼碰撞的風(fēng)險(xiǎn)。在公開數(shù)據(jù)集中搜集大量無人機(jī)飛行障礙物的數(shù)據(jù),對(duì)相關(guān)圖像識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練和對(duì)比。

2)根據(jù)Max-ViT中提出的多注意力融合方法,提出一種嵌入卷積網(wǎng)絡(luò)中的多軸自注意力模塊對(duì)圖像識(shí)別模型進(jìn)行改進(jìn),以增強(qiáng)模型對(duì)障礙物的識(shí)別準(zhǔn)確率。

3)為驗(yàn)證所提方法對(duì)圖像識(shí)別模型的有效性,在CIFAR、FLOWER-102和ImageNet等圖片識(shí)別數(shù)據(jù)集上進(jìn)行了大量的對(duì)比實(shí)驗(yàn),充分驗(yàn)證預(yù)警模型的先進(jìn)性。

1 視覺避障模型

通常無人機(jī)的航拍攝像頭是向下傾斜的,這樣會(huì)導(dǎo)致操縱無人機(jī)時(shí)無法注意到前方或者上方的微小障礙物,以至于無人機(jī)的旋翼發(fā)生碰撞而墜機(jī)。本文提出的無人機(jī)視覺預(yù)警系統(tǒng)如圖1所示,在無人機(jī)的前方添加一個(gè)向上傾斜的攝像頭,對(duì)前上方的場(chǎng)景進(jìn)行自動(dòng)拍攝,再由圖像識(shí)別系統(tǒng)對(duì)危險(xiǎn)物體進(jìn)行實(shí)時(shí)預(yù)警,從而避免無人機(jī)的旋翼發(fā)生碰撞。圖像識(shí)別模型在無人機(jī)嵌入式設(shè)備或者云計(jì)算終端上對(duì)上傾角攝像頭的拍攝圖像進(jìn)行實(shí)時(shí)分析,達(dá)到對(duì)障礙物預(yù)警的目的。

無人機(jī)避障系統(tǒng)的預(yù)警效果由圖像識(shí)別模型的準(zhǔn)確率來體現(xiàn)。基于視覺系統(tǒng)的避障系統(tǒng),要求對(duì)大尺寸物體和小尺寸物體識(shí)別準(zhǔn)確率足夠高,因此,下面對(duì)圖像識(shí)別網(wǎng)絡(luò)進(jìn)行改進(jìn)。

圖2(a)是深度殘差網(wǎng)絡(luò)的Bottleneck,其中包含1個(gè)1×1卷積層、1個(gè)3×3卷積層再加上1個(gè)1×1卷積層。圖2(b)為所提方法,將1個(gè)多軸自注意力模塊嵌入到深度殘差網(wǎng)絡(luò)的Bottleneck中,對(duì)特征圖進(jìn)行空間上的局部建模和全局建模。

具體計(jì)算過程如圖3所示。BMSA的計(jì)算方式分為兩步,第一步將特征圖分成多個(gè)子塊(本文中默認(rèn)是4塊),被分割的特征子圖分別通過多頭自注意力層,實(shí)現(xiàn)對(duì)特征圖中局部特征的交互。第二步將前面分割得到的多個(gè)特征子圖進(jìn)行錯(cuò)位拼接,再經(jīng)過全局自注意力層得到結(jié)果。錯(cuò)位拼接可以使BMSA模塊關(guān)注到更遠(yuǎn)距離的交互信息,有利于模型捕捉更加多樣化的特征關(guān)系。

接下來是方法的數(shù)學(xué)描述。X是每個(gè)Bottleneck的輸入特征圖,X1、X2、X3、X4分別是第1、2、3、4塊特征子圖,而x1i,x2i,…,xni(i=1,2,3,4)則是每個(gè)特征子圖變換成向量后的組成元素,其中n為特征圖的元素個(gè)數(shù)。首先進(jìn)行特征圖分割,將輸入特征圖分割成多個(gè)子圖(這里默認(rèn)分為4塊):

X=(X1,X2,X3,X4)(1)

計(jì)算過程中,每個(gè)特征圖子圖可由式(2)表示。

分割后的特征圖進(jìn)入多頭自注意力層(Multi-Head Self-Attention,MHSA),如式(3)所示。

經(jīng)過局部自注意力模塊后,會(huì)再經(jīng)過LayerNormalization(LN)層。LayerNormalization層的作用是防止多次的特征圖重塑操作。

特征圖X1、X2、X3、X4經(jīng)錯(cuò)位拼接得到和輸入特征圖同維度的X*,X*經(jīng)過全局自注意力層,如式(4)所示。

經(jīng)過全局自注意力部分的計(jì)算,同樣再經(jīng)過一個(gè)LayerNormalization層,得到一個(gè)BMSA模塊的輸出結(jié)果Ooutput。式(4)中FMHSA的計(jì)算過程如式(5)所示。

式中Q、K、V均由[x1i,x2i,…,xni]得到。將自注意力建模過程抽象為Φ(X),局部自注意力過程如式(6)所示。

經(jīng)過當(dāng)前層BMSA的錯(cuò)位拼接后,下一個(gè)BMSA模塊中的局部自注意力過程則可以表示為

Xri(i=1,2,3,4)表示經(jīng)過變形重組得到的特征子圖,局部自注意力能捕捉特征圖上遠(yuǎn)距離的特征交互信息,這是BMSA表現(xiàn)優(yōu)于MHSA的主要原因。模型中的局部注意力模塊能夠增加無人機(jī)在飛行過程中識(shí)別細(xì)小的電線、樹枝等物體的準(zhǔn)確率。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集

為了提高模型對(duì)無人機(jī)飛行障礙物識(shí)別的有效性,制作障礙物數(shù)據(jù)集。從各公開數(shù)據(jù)集中挑選飛行障礙物的圖片,主要有電線、樹木、飛行物(鳥類等)和大型障礙物(山體等)4個(gè)類別,每個(gè)類別大約1 500張訓(xùn)練圖片和50張驗(yàn)證圖片。為了驗(yàn)證避障模型對(duì)多種物體的識(shí)別能力和泛化能力,還在CIFAR、FLOWER-102、Tiny-ImageNet和ImageNet上進(jìn)行對(duì)比試驗(yàn)。

2.2 訓(xùn)練細(xì)節(jié)

對(duì)比實(shí)驗(yàn)中模型使用weight decay為0.000 1,momentum為0.9的SGD優(yōu)化器進(jìn)行訓(xùn)練。Batchsize設(shè)置為128,初始學(xué)習(xí)率固定為0.1,隨著實(shí)驗(yàn)進(jìn)行學(xué)習(xí)率逐漸衰退。在實(shí)驗(yàn)的訓(xùn)練過程中,對(duì)所有訓(xùn)練數(shù)據(jù)運(yùn)用隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。

1)障礙物數(shù)據(jù)集實(shí)驗(yàn)

主流的圖像識(shí)別模型在障礙物數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,改進(jìn)后的MS-ResNet實(shí)現(xiàn)99.10%的準(zhǔn)確率,能夠準(zhǔn)確地識(shí)別無人機(jī)在飛行過程中可能遇到的障礙物,從而對(duì)場(chǎng)景中的障礙物實(shí)時(shí)監(jiān)測(cè),對(duì)有危險(xiǎn)的飛行路徑進(jìn)行提前預(yù)警,并且MS-ResNet相比ResNet、VGG以及BoT等模型可實(shí)現(xiàn)更高的準(zhǔn)確率。這表明采用MS-ResNet作為避障系統(tǒng)的圖像識(shí)別模型能達(dá)到最好的效果,能最準(zhǔn)確地對(duì)無人機(jī)飛行路徑進(jìn)行實(shí)時(shí)預(yù)警,以保障避障系統(tǒng)效果最大化。

隨機(jī)選擇無人機(jī)飛行過程中拍攝的圖片對(duì)預(yù)警模型進(jìn)行測(cè)試,以驗(yàn)證避障模型對(duì)實(shí)際障礙物的識(shí)別置信度。效果圖如圖4所示,圖4中(a)、(b)、(c)、(e)、(f)和(g)識(shí)別置信度都在90%以上,其中圖4(d)和圖4(h)對(duì)電線和樹木的識(shí)別置信度分別為73%和77%,能夠準(zhǔn)確判斷出無人機(jī)在飛行過程中是否遇到障礙物,達(dá)到預(yù)警的目的。

2)公開數(shù)據(jù)集實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證預(yù)警模型的效果,分別在不同分辨率的公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。MS-ResNet、BoT、ResNet-50、ResNeXt-50[10]、ResNet101、VGG16和DenseNet在CIFAR[11]、FLOWER-102[12]、Tiny-ImageNet[13]和ImageNet數(shù)據(jù)集上進(jìn)行訓(xùn)練。為了適應(yīng)小分辨率數(shù)據(jù)的尺寸,將網(wǎng)絡(luò)都進(jìn)行相同的修改,將下采樣次數(shù)減少為3次。

實(shí)驗(yàn)結(jié)果如表2所示,無論是在CIFAR和Tiny-ImageNet等小分辨率數(shù)據(jù)集上,還是在FLOWER-102和ImageNet等大分辨率數(shù)據(jù)集上,MS-ResNet相比同類型的BoT實(shí)現(xiàn)更好地驗(yàn)證準(zhǔn)確率。MS-ResNet在CIFAR10、CIFAR100、Tiny-ImageNet和ImageNet上的準(zhǔn)確率分別比BoT高0.17、1.1、0.58和0.36個(gè)百分點(diǎn)。在數(shù)據(jù)量較少的FLOWER-102上,MS-ResNet的準(zhǔn)確率比BoT高5.62個(gè)百分點(diǎn)。

考慮到預(yù)警系統(tǒng)要求實(shí)時(shí)性,預(yù)警模型的計(jì)算效率和準(zhǔn)確率同樣重要。為了對(duì)比模型的計(jì)算資源消耗,采集部分模型在CIFAR100數(shù)據(jù)集上的吞吐量(單張NVIDIA V100上每秒計(jì)算圖片數(shù)),同時(shí)得到模型的參數(shù)量對(duì)比。如表3所示,MS-ResNet的參數(shù)量要稍高于BoT和ResNet50,但是MS-ResNet在上述3個(gè)數(shù)據(jù)集上得到的驗(yàn)證準(zhǔn)確率都高于BoT和ResNet50。這表明MS-ResNet的泛化能力要優(yōu)于BoT和ResNet50,并且MS-ResNet的吞吐量?jī)H僅稍低于BoT和ResNet50。

表2和表3數(shù)據(jù)表明,DenseNet在上述3個(gè)數(shù)據(jù)集上的表現(xiàn)都稍優(yōu)于MS-ResNet,但是DenseNet的吞吐量遠(yuǎn)遠(yuǎn)低于MS-ResNet。BMSA在提升模型準(zhǔn)確率的同時(shí),沒有大幅降低模型的計(jì)算效率,也能保證預(yù)警系統(tǒng)的實(shí)時(shí)性,可見BMSA嵌入卷積網(wǎng)絡(luò)的方案是可行的。

3 結(jié)語

本文論述了基于圖像識(shí)別模型對(duì)無人機(jī)的飛行路徑進(jìn)行實(shí)時(shí)監(jiān)測(cè),以達(dá)到避障的目的。對(duì)ResNet和BoT進(jìn)行改進(jìn),實(shí)驗(yàn)表明改進(jìn)圖像識(shí)別模型能夠?qū)φ系K物實(shí)現(xiàn)更準(zhǔn)確的識(shí)別。將多軸自注意力模塊BMSA嵌入到原本模型中,引入局部自注意力單元和全局自注意力單元,解決了模型在識(shí)別細(xì)小物體方面表現(xiàn)不佳的問題,提升了系統(tǒng)的避障準(zhǔn)確率。大量實(shí)驗(yàn)結(jié)果表明,深度卷積網(wǎng)絡(luò)結(jié)合BMSA能在圖像識(shí)別任務(wù)中實(shí)現(xiàn)更高的驗(yàn)證準(zhǔn)確率,同時(shí)并沒有大幅降低模型的吞吐率。此外,BMSA相比于同類型的結(jié)構(gòu)表現(xiàn)出了更好的泛化性能,在數(shù)據(jù)量較少的情況下,BMSA能幫助深度卷積網(wǎng)絡(luò)獲得巨大的準(zhǔn)確率提升。

參考文獻(xiàn):

[1] 張香竹,張立家,宋逸凡,等. 基于深度學(xué)習(xí)的無人機(jī)單目視覺避障算法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,50(1): 101-108,131.

[2] 肖英楠,孫抒雨. 基于改進(jìn)SIFT圖像匹配的無人機(jī)高精度避障算法設(shè)計(jì)[J]. 機(jī)械制造與自動(dòng)化,2022,51(1): 237-240.

[3] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.

[4] RUSSAKOVSKY O,DENG J,SU H,et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision,2015,115(3):211-252.

[5] SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA:IEEE,2015:1-9.

[6] HE K M,ZHANG X Y,REN S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). LasVegas,NV,USA:IEEE,2016:770-778.

[7] DOSOVITSKIY A,BEYER L,KOLESNIKOV A, et al. An image is worth 16x16 words:transformers for image recognition at scale[C]//International Conference on Learning Representations, Vienna, Austria:[s.n.] ,2021.

[8] SRINIVAS A,LIN T Y,PARMAR N,et al. Bottleneck transformers for visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville,TN,USA:IEEE,2021:16514-16524.

[9] TU Z Z,TALEBI H,ZHANG H,et al. MaxViT:multi-axis vision transformer[M]//Lecture Notesin Computer Science. Cham:Springer Nature Switzerland,2022:459-479.

[10] XIE S N,GIRSHICK R,DOLLRP,et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI,USA:IEEE,2017:5987-5995.

[11]KRIZHEVSKY A,HINTON G. Learning Multiple Layers of Features from Tiny Images[R].Technical Report TR-2009. Toronto: University of Toronto, 2009: 32-33.

[12] NILSBACK M E,ZISSERMAN A. Automated flower classification over a large number of classes[C]//2008 Sixth Indian Conference on Computer Vision,Graphics amp; Image Processing. Bhubaneswar,India:IEEE,2008:722-729.

[13] LE Y,YANG X S. Tiny imagenet visual recognition challenge[J]. Computer Science,2015,7(7): 3-6.

收稿日期:2023-02-01

猜你喜歡
卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別無人機(jī)
基于Resnet-50的貓狗圖像識(shí)別
電子制作(2019年16期)2019-09-27 09:34:50
高速公路圖像識(shí)別技術(shù)應(yīng)用探討
圖像識(shí)別在物聯(lián)網(wǎng)上的應(yīng)用
電子制作(2018年19期)2018-11-14 02:37:04
圖像識(shí)別在水質(zhì)檢測(cè)中的應(yīng)用
電子制作(2018年14期)2018-08-21 01:38:16
基于深度卷積神經(jīng)網(wǎng)絡(luò)的物體識(shí)別算法
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
高職院校新開設(shè)無人機(jī)專業(yè)的探討
人間(2016年26期)2016-11-03 17:52:40
利用無人機(jī)進(jìn)行航測(cè)工作的方式方法
基于深度卷積網(wǎng)絡(luò)的人臉年齡分析算法與實(shí)現(xiàn)
軟件工程(2016年8期)2016-10-25 15:47:34
一種適用于輸電線路跨線牽引無人機(jī)的飛行方案設(shè)計(jì)
科技視界(2016年22期)2016-10-18 14:30:27
文山县| 玉门市| 兰坪| 肥西县| 浙江省| 庄河市| 田东县| 湖州市| 阿鲁科尔沁旗| 女性| 抚远县| 得荣县| 北票市| 瑞丽市| 青冈县| 东乌珠穆沁旗| 丰城市| 井冈山市| 兴山县| 温宿县| 台南市| 松潘县| 阳信县| 湖口县| 辽阳县| 平陆县| 青铜峡市| 镇宁| 大冶市| 天祝| 青海省| 彭州市| 西丰县| 鄂州市| 威信县| 玉环县| 类乌齐县| 德清县| 新巴尔虎左旗| 长岭县| 收藏|