基于多軸自注意力的無人機(jī)避障模型

2024-08-28 00:00:00王新趙偉杰

機(jī)械制造與自動(dòng)化 2024年4期

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)圖像識(shí)別無人機(jī)

摘要：針對(duì)無人機(jī)在飛行過程中容易因旋翼碰撞而墜毀的問題，提出利用改進(jìn)的圖像識(shí)別模型實(shí)現(xiàn)自動(dòng)預(yù)警。將瓶頸多軸自注意力模塊（BMSA）嵌入到圖像識(shí)別模型中進(jìn)行改進(jìn)，提升模型對(duì)細(xì)小物體的識(shí)別準(zhǔn)確率。多軸自注意力層在低分辨率階段替換原本卷積層，使得模型能夠兼顧局部自注意力和全局自注意力。實(shí)驗(yàn)結(jié)果表明：改進(jìn)得到的多軸自注意力的殘差網(wǎng)絡(luò)（MS-ResNet）具有較高的障礙物識(shí)別準(zhǔn)確率，能實(shí)現(xiàn)較好的預(yù)警效果。

關(guān)鍵詞：圖像識(shí)別；深度學(xué)習(xí)；自注意力機(jī)制；卷積神經(jīng)網(wǎng)絡(luò)；避障模型；無人機(jī)

中圖分類號(hào)：TP391.4 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1671-5276（2024）04-0124-05

UAV Obstacle Avoidance Model Based on Multi-axis Self-attention

WANG Xinwen¹， ZHAO Weijie²

（1. School of Advanced Manufacturing， Fuzhou University， Quanzhou 362251， China;2. Quanzhou Reserch Center of Equipment Manufacturing of Haixi Institute， Chinese Academy of Science， Quanzhou 362216， China）

Abstract：To address the proneness of UAV crash due to rotor collision during flight， an improved image recognition model is proposed to achieve automatic warning. A bottleneck multi-axis self-attention module （BMSA） is embedded into the image recognition model for improvement， enabling the model to improve the recognition accuracy of the model for fine objects. The multi-axis self-attentive layer replaces the original convolutional layer in the low-resolution stage， enabling the model to obtain both local self-attention and global self-attention. The experiments show that the improved multi-axis self-attentive residual network （MS-ResNet） has high accuracy of obstacle recognition and achieve a better early warning effect.

Keywords：image recognition; deep learning; self-attention mechanism; convolutional neural network; obstacle avoidance model; UAV

0 引言

基于視覺系統(tǒng)的障礙物預(yù)警系統(tǒng)是實(shí)現(xiàn)無人機(jī)安全飛行的重要研究?jī)?nèi)容。在無人機(jī)飛行過程中，航拍攝像頭通常無法采集到無人機(jī)旋翼上方圖像，導(dǎo)致無人機(jī)有旋翼撞擊障礙物而墜毀的風(fēng)險(xiǎn)。為了解決這個(gè)問題，通過圖像識(shí)別算法對(duì)無人機(jī)的飛行路徑進(jìn)行實(shí)時(shí)避障預(yù)警。相比無人機(jī)上的單目避障系統(tǒng)^[^1]和SIFT圖像匹配避障方法^[2]，采用圖像識(shí)別網(wǎng)絡(luò)來實(shí)現(xiàn)避障系統(tǒng)計(jì)算量較低、精度較高，能夠較好地平衡計(jì)算耗時(shí)和準(zhǔn)確率。

圖片識(shí)別算法在各個(gè)領(lǐng)域已經(jīng)實(shí)現(xiàn)廣泛的應(yīng)用，2012年，深度卷積結(jié)構(gòu)的AlexNet^[3]在ILSVRC^[4]分類挑戰(zhàn)大賽中取得讓人印象深刻的成績(jī)。GoogLeNet^[5]在ILSVRC大賽上實(shí)現(xiàn)了74.8%的top-1準(zhǔn)確率，后來提出的ResNet^[6]相比其他模型實(shí)現(xiàn)了非常顯著的準(zhǔn)確率提升。

近幾年來，研究人員開始研究計(jì)算機(jī)視覺任務(wù)中的Transformer^[7]結(jié)構(gòu)，BoT^[8]基于ResNet提出帶有多頭自注意力模塊的基本組成結(jié)構(gòu)，同樣可以堆疊得到類ResNet的網(wǎng)絡(luò)模型。TU等^[9]提出結(jié)合局部自注意力和全局自注意力的方法，基于此，本文對(duì)BoT進(jìn)行改進(jìn)，提出多軸自注意力的殘差網(wǎng)絡(luò)（deep residual network of multi-axis self-attention， MS-ResNet）模型。

主要?jiǎng)?chuàng)新和工作如下所述。

1）通過視覺系統(tǒng)實(shí)現(xiàn)無人機(jī)飛行避障預(yù)警，以降低旋翼碰撞的風(fēng)險(xiǎn)。在公開數(shù)據(jù)集中搜集大量無人機(jī)飛行障礙物的數(shù)據(jù)，對(duì)相關(guān)圖像識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練和對(duì)比。

2）根據(jù)Max-ViT中提出的多注意力融合方法，提出一種嵌入卷積網(wǎng)絡(luò)中的多軸自注意力模塊對(duì)圖像識(shí)別模型進(jìn)行改進(jìn)，以增強(qiáng)模型對(duì)障礙物的識(shí)別準(zhǔn)確率。

3）為驗(yàn)證所提方法對(duì)圖像識(shí)別模型的有效性，在CIFAR、FLOWER-102和ImageNet等圖片識(shí)別數(shù)據(jù)集上進(jìn)行了大量的對(duì)比實(shí)驗(yàn)，充分驗(yàn)證預(yù)警模型的先進(jìn)性。

1 視覺避障模型

通常無人機(jī)的航拍攝像頭是向下傾斜的，這樣會(huì)導(dǎo)致操縱無人機(jī)時(shí)無法注意到前方或者上方的微小障礙物，以至于無人機(jī)的旋翼發(fā)生碰撞而墜機(jī)。本文提出的無人機(jī)視覺預(yù)警系統(tǒng)如圖1所示，在無人機(jī)的前方添加一個(gè)向上傾斜的攝像頭，對(duì)前上方的場(chǎng)景進(jìn)行自動(dòng)拍攝，再由圖像識(shí)別系統(tǒng)對(duì)危險(xiǎn)物體進(jìn)行實(shí)時(shí)預(yù)警，從而避免無人機(jī)的旋翼發(fā)生碰撞。圖像識(shí)別模型在無人機(jī)嵌入式設(shè)備或者云計(jì)算終端上對(duì)上傾角攝像頭的拍攝圖像進(jìn)行實(shí)時(shí)分析，達(dá)到對(duì)障礙物預(yù)警的目的。

無人機(jī)避障系統(tǒng)的預(yù)警效果由圖像識(shí)別模型的準(zhǔn)確率來體現(xiàn)。基于視覺系統(tǒng)的避障系統(tǒng)，要求對(duì)大尺寸物體和小尺寸物體識(shí)別準(zhǔn)確率足夠高，因此，下面對(duì)圖像識(shí)別網(wǎng)絡(luò)進(jìn)行改進(jìn)。

圖2（a）是深度殘差網(wǎng)絡(luò)的Bottleneck，其中包含1個(gè)1×1卷積層、1個(gè)3×3卷積層再加上1個(gè)1×1卷積層。圖2（b）為所提方法，將1個(gè)多軸自注意力模塊嵌入到深度殘差網(wǎng)絡(luò)的Bottleneck中，對(duì)特征圖進(jìn)行空間上的局部建模和全局建模。

具體計(jì)算過程如圖3所示。BMSA的計(jì)算方式分為兩步，第一步將特征圖分成多個(gè)子塊（本文中默認(rèn)是4塊），被分割的特征子圖分別通過多頭自注意力層，實(shí)現(xiàn)對(duì)特征圖中局部特征的交互。第二步將前面分割得到的多個(gè)特征子圖進(jìn)行錯(cuò)位拼接，再經(jīng)過全局自注意力層得到結(jié)果。錯(cuò)位拼接可以使BMSA模塊關(guān)注到更遠(yuǎn)距離的交互信息，有利于模型捕捉更加多樣化的特征關(guān)系。

接下來是方法的數(shù)學(xué)描述。X是每個(gè)Bottleneck的輸入特征圖，X₁、X₂、X₃、X₄分別是第1、2、3、4塊特征子圖，而x¹_i，x²_i，…，xⁿ_i（i=1，2，3，4）則是每個(gè)特征子圖變換成向量后的組成元素，其中n為特征圖的元素個(gè)數(shù)。首先進(jìn)行特征圖分割，將輸入特征圖分割成多個(gè)子圖（這里默認(rèn)分為4塊）：

X=（X₁，X₂，X₃，X₄）（1）

計(jì)算過程中，每個(gè)特征圖子圖可由式（2）表示。

分割后的特征圖進(jìn)入多頭自注意力層（Multi-Head Self-Attention，MHSA），如式（3）所示。

經(jīng)過局部自注意力模塊后，會(huì)再經(jīng)過LayerNormalization（LN）層。LayerNormalization層的作用是防止多次的特征圖重塑操作。

特征圖X₁、X₂、X₃、X₄經(jīng)錯(cuò)位拼接得到和輸入特征圖同維度的X^*，X^*經(jīng)過全局自注意力層，如式（4）所示。

經(jīng)過全局自注意力部分的計(jì)算，同樣再經(jīng)過一個(gè)LayerNormalization層，得到一個(gè)BMSA模塊的輸出結(jié)果O_output。式（4）中F_MHSA的計(jì)算過程如式（5）所示。

式中Q、K、V均由[x¹_i，x²_i，…，xⁿ_i]得到。將自注意力建模過程抽象為Φ（X），局部自注意力過程如式（6）所示。

經(jīng)過當(dāng)前層BMSA的錯(cuò)位拼接后，下一個(gè)BMSA模塊中的局部自注意力過程則可以表示為

X^r_i（i=1，2，3，4）表示經(jīng)過變形重組得到的特征子圖，局部自注意力能捕捉特征圖上遠(yuǎn)距離的特征交互信息，這是BMSA表現(xiàn)優(yōu)于MHSA的主要原因。模型中的局部注意力模塊能夠增加無人機(jī)在飛行過程中識(shí)別細(xì)小的電線、樹枝等物體的準(zhǔn)確率。

2 實(shí)驗(yàn)

2.1 數(shù)據(jù)集

為了提高模型對(duì)無人機(jī)飛行障礙物識(shí)別的有效性，制作障礙物數(shù)據(jù)集。從各公開數(shù)據(jù)集中挑選飛行障礙物的圖片，主要有電線、樹木、飛行物（鳥類等）和大型障礙物（山體等）4個(gè)類別，每個(gè)類別大約1 500張訓(xùn)練圖片和50張驗(yàn)證圖片。為了驗(yàn)證避障模型對(duì)多種物體的識(shí)別能力和泛化能力，還在CIFAR、FLOWER-102、Tiny-ImageNet和ImageNet上進(jìn)行對(duì)比試驗(yàn)。

2.2 訓(xùn)練細(xì)節(jié)

對(duì)比實(shí)驗(yàn)中模型使用weight decay為0.000 1，momentum為0.9的SGD優(yōu)化器進(jìn)行訓(xùn)練。Batchsize設(shè)置為128，初始學(xué)習(xí)率固定為0.1，隨著實(shí)驗(yàn)進(jìn)行學(xué)習(xí)率逐漸衰退。在實(shí)驗(yàn)的訓(xùn)練過程中，對(duì)所有訓(xùn)練數(shù)據(jù)運(yùn)用隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。

1）障礙物數(shù)據(jù)集實(shí)驗(yàn)

主流的圖像識(shí)別模型在障礙物數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表1所示，改進(jìn)后的MS-ResNet實(shí)現(xiàn)99.10%的準(zhǔn)確率，能夠準(zhǔn)確地識(shí)別無人機(jī)在飛行過程中可能遇到的障礙物，從而對(duì)場(chǎng)景中的障礙物實(shí)時(shí)監(jiān)測(cè)，對(duì)有危險(xiǎn)的飛行路徑進(jìn)行提前預(yù)警，并且MS-ResNet相比ResNet、VGG以及BoT等模型可實(shí)現(xiàn)更高的準(zhǔn)確率。這表明采用MS-ResNet作為避障系統(tǒng)的圖像識(shí)別模型能達(dá)到最好的效果，能最準(zhǔn)確地對(duì)無人機(jī)飛行路徑進(jìn)行實(shí)時(shí)預(yù)警，以保障避障系統(tǒng)效果最大化。

隨機(jī)選擇無人機(jī)飛行過程中拍攝的圖片對(duì)預(yù)警模型進(jìn)行測(cè)試，以驗(yàn)證避障模型對(duì)實(shí)際障礙物的識(shí)別置信度。效果圖如圖4所示，圖4中（a）、（b）、（c）、（e）、（f）和（g）識(shí)別置信度都在90%以上，其中圖4（d）和圖4（h）對(duì)電線和樹木的識(shí)別置信度分別為73%和77%，能夠準(zhǔn)確判斷出無人機(jī)在飛行過程中是否遇到障礙物，達(dá)到預(yù)警的目的。

2）公開數(shù)據(jù)集實(shí)驗(yàn)

為了進(jìn)一步驗(yàn)證預(yù)警模型的效果，分別在不同分辨率的公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。MS-ResNet、BoT、ResNet-50、ResNeXt-50^[10]、ResNet101、VGG16和DenseNet在CIFAR^[11]、FLOWER-102^[12]、Tiny-ImageNet^[13]和ImageNet數(shù)據(jù)集上進(jìn)行訓(xùn)練。為了適應(yīng)小分辨率數(shù)據(jù)的尺寸，將網(wǎng)絡(luò)都進(jìn)行相同的修改，將下采樣次數(shù)減少為3次。

實(shí)驗(yàn)結(jié)果如表2所示，無論是在CIFAR和Tiny-ImageNet等小分辨率數(shù)據(jù)集上，還是在FLOWER-102和ImageNet等大分辨率數(shù)據(jù)集上，MS-ResNet相比同類型的BoT實(shí)現(xiàn)更好地驗(yàn)證準(zhǔn)確率。MS-ResNet在CIFAR10、CIFAR100、Tiny-ImageNet和ImageNet上的準(zhǔn)確率分別比BoT高0.17、1.1、0.58和0.36個(gè)百分點(diǎn)。在數(shù)據(jù)量較少的FLOWER-102上，MS-ResNet的準(zhǔn)確率比BoT高5.62個(gè)百分點(diǎn)。

考慮到預(yù)警系統(tǒng)要求實(shí)時(shí)性，預(yù)警模型的計(jì)算效率和準(zhǔn)確率同樣重要。為了對(duì)比模型的計(jì)算資源消耗，采集部分模型在CIFAR100數(shù)據(jù)集上的吞吐量（單張NVIDIA V100上每秒計(jì)算圖片數(shù)），同時(shí)得到模型的參數(shù)量對(duì)比。如表3所示，MS-ResNet的參數(shù)量要稍高于BoT和ResNet50，但是MS-ResNet在上述3個(gè)數(shù)據(jù)集上得到的驗(yàn)證準(zhǔn)確率都高于BoT和ResNet50。這表明MS-ResNet的泛化能力要優(yōu)于BoT和ResNet50，并且MS-ResNet的吞吐量?jī)H僅稍低于BoT和ResNet50。

表2和表3數(shù)據(jù)表明，DenseNet在上述3個(gè)數(shù)據(jù)集上的表現(xiàn)都稍優(yōu)于MS-ResNet，但是DenseNet的吞吐量遠(yuǎn)遠(yuǎn)低于MS-ResNet。BMSA在提升模型準(zhǔn)確率的同時(shí)，沒有大幅降低模型的計(jì)算效率，也能保證預(yù)警系統(tǒng)的實(shí)時(shí)性，可見BMSA嵌入卷積網(wǎng)絡(luò)的方案是可行的。

3 結(jié)語

本文論述了基于圖像識(shí)別模型對(duì)無人機(jī)的飛行路徑進(jìn)行實(shí)時(shí)監(jiān)測(cè)，以達(dá)到避障的目的。對(duì)ResNet和BoT進(jìn)行改進(jìn)，實(shí)驗(yàn)表明改進(jìn)圖像識(shí)別模型能夠?qū)φ系K物實(shí)現(xiàn)更準(zhǔn)確的識(shí)別。將多軸自注意力模塊BMSA嵌入到原本模型中，引入局部自注意力單元和全局自注意力單元，解決了模型在識(shí)別細(xì)小物體方面表現(xiàn)不佳的問題，提升了系統(tǒng)的避障準(zhǔn)確率。大量實(shí)驗(yàn)結(jié)果表明，深度卷積網(wǎng)絡(luò)結(jié)合BMSA能在圖像識(shí)別任務(wù)中實(shí)現(xiàn)更高的驗(yàn)證準(zhǔn)確率，同時(shí)并沒有大幅降低模型的吞吐率。此外，BMSA相比于同類型的結(jié)構(gòu)表現(xiàn)出了更好的泛化性能，在數(shù)據(jù)量較少的情況下，BMSA能幫助深度卷積網(wǎng)絡(luò)獲得巨大的準(zhǔn)確率提升。

參考文獻(xiàn)：

[1] 張香竹，張立家，宋逸凡，等. 基于深度學(xué)習(xí)的無人機(jī)單目視覺避障算法[J]. 華南理工大學(xué)學(xué)報(bào)（自然科學(xué)版），2022，50（1）： 101-108，131.

[2] 肖英楠，孫抒雨. 基于改進(jìn)SIFT圖像匹配的無人機(jī)高精度避障算法設(shè)計(jì)[J]. 機(jī)械制造與自動(dòng)化，2022，51（1）： 237-240.

[3] KRIZHEVSKY A，SUTSKEVER I，HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM，2017，60（6）：84-90.

[4] RUSSAKOVSKY O，DENG J，SU H，et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision，2015，115（3）：211-252.

[5] SZEGEDY C，LIU W，JIA Y Q，et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Boston，MA，USA：IEEE，2015：1-9.

[6] HE K M，ZHANG X Y，REN S Q，et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. LasVegas，NV，USA：IEEE，2016：770-778.

[7] DOSOVITSKIY A，BEYER L，KOLESNIKOV A， et al. An image is worth 16x16 words：transformers for image recognition at scale[C]//International Conference on Learning Representations， Vienna， Austria：[s.n.] ，2021.

[8] SRINIVAS A，LIN T Y，PARMAR N，et al. Bottleneck transformers for visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）. Nashville，TN，USA：IEEE，2021：16514-16524.

[9] TU Z Z，TALEBI H，ZHANG H，et al. MaxViT：multi-axis vision transformer[M]//Lecture Notesin Computer Science. Cham：Springer Nature Switzerland，2022：459-479.

[10] XIE S N，GIRSHICK R，DOLLRP，et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition （CVPR）. Honolulu，HI，USA：IEEE，2017：5987-5995.

[11]KRIZHEVSKY A，HINTON G. Learning Multiple Layers of Features from Tiny Images[R].Technical Report TR-2009. Toronto： University of Toronto， 2009： 32-33.

[12] NILSBACK M E，ZISSERMAN A. Automated flower classification over a large number of classes[C]//2008 Sixth Indian Conference on Computer Vision，Graphics amp; Image Processing. Bhubaneswar，India：IEEE，2008：722-729.

[13] LE Y，YANG X S. Tiny imagenet visual recognition challenge[J]. Computer Science，2015，7（7）： 3-6.

收稿日期：2023-02-01

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多軸自注意力的無人機(jī)避障模型