摘 要:針對(duì)無人機(jī)在飛行過程中容易因旋翼碰撞而墜毀的問題,提出利用改進(jìn)的圖像識(shí)別模型實(shí)現(xiàn)自動(dòng)預(yù)警。將瓶頸多軸自注意力模塊(BMSA)嵌入到圖像識(shí)別模型中進(jìn)行改進(jìn),提升模型對(duì)細(xì)小物體的識(shí)別準(zhǔn)確率。多軸自注意力層在低分辨率階段替換原本卷積層,使得模型能夠兼顧局部自注意力和全局自注意力。實(shí)驗(yàn)結(jié)果表明:改進(jìn)得到的多軸自注意力的殘差網(wǎng)絡(luò)(MS-ResNet)具有較高的障礙物識(shí)別準(zhǔn)確率,能實(shí)現(xiàn)較好的預(yù)警效果。
關(guān)鍵詞:圖像識(shí)別;深度學(xué)習(xí);自注意力機(jī)制;卷積神經(jīng)網(wǎng)絡(luò);避障模型;無人機(jī)
中圖分類號(hào):TP391.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1671-5276(2024)04-0124-05
UAV Obstacle Avoidance Model Based on Multi-axis Self-attention
WANG Xinwen1, ZHAO Weijie2
(1. School of Advanced Manufacturing, Fuzhou University, Quanzhou 362251, China;2. Quanzhou Reserch Center of Equipment Manufacturing of Haixi Institute, Chinese Academy of Science, Quanzhou 362216, China)
Abstract:To address the proneness of UAV crash due to rotor collision during flight, an improved image recognition model is proposed to achieve automatic warning. A bottleneck multi-axis self-attention module (BMSA) is embedded into the image recognition model for improvement, enabling the model to improve the recognition accuracy of the model for fine objects. The multi-axis self-attentive layer replaces the original convolutional layer in the low-resolution stage, enabling the model to obtain both local self-attention and global self-attention. The experiments show that the improved multi-axis self-attentive residual network (MS-ResNet) has high accuracy of obstacle recognition and achieve a better early warning effect.
Keywords:image recognition; deep learning; self-attention mechanism; convolutional neural network; obstacle avoidance model; UAV
0 引言
基于視覺系統(tǒng)的障礙物預(yù)警系統(tǒng)是實(shí)現(xiàn)無人機(jī)安全飛行的重要研究?jī)?nèi)容。在無人機(jī)飛行過程中,航拍攝像頭通常無法采集到無人機(jī)旋翼上方圖像,導(dǎo)致無人機(jī)有旋翼撞擊障礙物而墜毀的風(fēng)險(xiǎn)。為了解決這個(gè)問題,通過圖像識(shí)別算法對(duì)無人機(jī)的飛行路徑進(jìn)行實(shí)時(shí)避障預(yù)警。相比無人機(jī)上的單目避障系統(tǒng)[1]和SIFT圖像匹配避障方法[2],采用圖像識(shí)別網(wǎng)絡(luò)來實(shí)現(xiàn)避障系統(tǒng)計(jì)算量較低、精度較高,能夠較好地平衡計(jì)算耗時(shí)和準(zhǔn)確率。
圖片識(shí)別算法在各個(gè)領(lǐng)域已經(jīng)實(shí)現(xiàn)廣泛的應(yīng)用,2012年,深度卷積結(jié)構(gòu)的AlexNet[3]在ILSVRC[4]分類挑戰(zhàn)大賽中取得讓人印象深刻的成績(jī)。GoogLeNet[5]在ILSVRC大賽上實(shí)現(xiàn)了74.8%的top-1準(zhǔn)確率,后來提出的ResNet[6]相比其他模型實(shí)現(xiàn)了非常顯著的準(zhǔn)確率提升。
近幾年來,研究人員開始研究計(jì)算機(jī)視覺任務(wù)中的Transformer[7]結(jié)構(gòu),BoT[8]基于ResNet提出帶有多頭自注意力模塊的基本組成結(jié)構(gòu),同樣可以堆疊得到類ResNet的網(wǎng)絡(luò)模型。TU等[9]提出結(jié)合局部自注意力和全局自注意力的方法,基于此,本文對(duì)BoT進(jìn)行改進(jìn),提出多軸自注意力的殘差網(wǎng)絡(luò)(deep residual network of multi-axis self-attention, MS-ResNet)模型。
主要?jiǎng)?chuàng)新和工作如下所述。
1)通過視覺系統(tǒng)實(shí)現(xiàn)無人機(jī)飛行避障預(yù)警,以降低旋翼碰撞的風(fēng)險(xiǎn)。在公開數(shù)據(jù)集中搜集大量無人機(jī)飛行障礙物的數(shù)據(jù),對(duì)相關(guān)圖像識(shí)別網(wǎng)絡(luò)進(jìn)行訓(xùn)練和對(duì)比。
2)根據(jù)Max-ViT中提出的多注意力融合方法,提出一種嵌入卷積網(wǎng)絡(luò)中的多軸自注意力模塊對(duì)圖像識(shí)別模型進(jìn)行改進(jìn),以增強(qiáng)模型對(duì)障礙物的識(shí)別準(zhǔn)確率。
3)為驗(yàn)證所提方法對(duì)圖像識(shí)別模型的有效性,在CIFAR、FLOWER-102和ImageNet等圖片識(shí)別數(shù)據(jù)集上進(jìn)行了大量的對(duì)比實(shí)驗(yàn),充分驗(yàn)證預(yù)警模型的先進(jìn)性。
1 視覺避障模型
通常無人機(jī)的航拍攝像頭是向下傾斜的,這樣會(huì)導(dǎo)致操縱無人機(jī)時(shí)無法注意到前方或者上方的微小障礙物,以至于無人機(jī)的旋翼發(fā)生碰撞而墜機(jī)。本文提出的無人機(jī)視覺預(yù)警系統(tǒng)如圖1所示,在無人機(jī)的前方添加一個(gè)向上傾斜的攝像頭,對(duì)前上方的場(chǎng)景進(jìn)行自動(dòng)拍攝,再由圖像識(shí)別系統(tǒng)對(duì)危險(xiǎn)物體進(jìn)行實(shí)時(shí)預(yù)警,從而避免無人機(jī)的旋翼發(fā)生碰撞。圖像識(shí)別模型在無人機(jī)嵌入式設(shè)備或者云計(jì)算終端上對(duì)上傾角攝像頭的拍攝圖像進(jìn)行實(shí)時(shí)分析,達(dá)到對(duì)障礙物預(yù)警的目的。
無人機(jī)避障系統(tǒng)的預(yù)警效果由圖像識(shí)別模型的準(zhǔn)確率來體現(xiàn)。基于視覺系統(tǒng)的避障系統(tǒng),要求對(duì)大尺寸物體和小尺寸物體識(shí)別準(zhǔn)確率足夠高,因此,下面對(duì)圖像識(shí)別網(wǎng)絡(luò)進(jìn)行改進(jìn)。
圖2(a)是深度殘差網(wǎng)絡(luò)的Bottleneck,其中包含1個(gè)1×1卷積層、1個(gè)3×3卷積層再加上1個(gè)1×1卷積層。圖2(b)為所提方法,將1個(gè)多軸自注意力模塊嵌入到深度殘差網(wǎng)絡(luò)的Bottleneck中,對(duì)特征圖進(jìn)行空間上的局部建模和全局建模。
具體計(jì)算過程如圖3所示。BMSA的計(jì)算方式分為兩步,第一步將特征圖分成多個(gè)子塊(本文中默認(rèn)是4塊),被分割的特征子圖分別通過多頭自注意力層,實(shí)現(xiàn)對(duì)特征圖中局部特征的交互。第二步將前面分割得到的多個(gè)特征子圖進(jìn)行錯(cuò)位拼接,再經(jīng)過全局自注意力層得到結(jié)果。錯(cuò)位拼接可以使BMSA模塊關(guān)注到更遠(yuǎn)距離的交互信息,有利于模型捕捉更加多樣化的特征關(guān)系。
接下來是方法的數(shù)學(xué)描述。X是每個(gè)Bottleneck的輸入特征圖,X1、X2、X3、X4分別是第1、2、3、4塊特征子圖,而x1i,x2i,…,xni(i=1,2,3,4)則是每個(gè)特征子圖變換成向量后的組成元素,其中n為特征圖的元素個(gè)數(shù)。首先進(jìn)行特征圖分割,將輸入特征圖分割成多個(gè)子圖(這里默認(rèn)分為4塊):
X=(X1,X2,X3,X4)(1)
計(jì)算過程中,每個(gè)特征圖子圖可由式(2)表示。
分割后的特征圖進(jìn)入多頭自注意力層(Multi-Head Self-Attention,MHSA),如式(3)所示。
經(jīng)過局部自注意力模塊后,會(huì)再經(jīng)過LayerNormalization(LN)層。LayerNormalization層的作用是防止多次的特征圖重塑操作。
特征圖X1、X2、X3、X4經(jīng)錯(cuò)位拼接得到和輸入特征圖同維度的X*,X*經(jīng)過全局自注意力層,如式(4)所示。
經(jīng)過全局自注意力部分的計(jì)算,同樣再經(jīng)過一個(gè)LayerNormalization層,得到一個(gè)BMSA模塊的輸出結(jié)果Ooutput。式(4)中FMHSA的計(jì)算過程如式(5)所示。
式中Q、K、V均由[x1i,x2i,…,xni]得到。將自注意力建模過程抽象為Φ(X),局部自注意力過程如式(6)所示。
經(jīng)過當(dāng)前層BMSA的錯(cuò)位拼接后,下一個(gè)BMSA模塊中的局部自注意力過程則可以表示為
Xri(i=1,2,3,4)表示經(jīng)過變形重組得到的特征子圖,局部自注意力能捕捉特征圖上遠(yuǎn)距離的特征交互信息,這是BMSA表現(xiàn)優(yōu)于MHSA的主要原因。模型中的局部注意力模塊能夠增加無人機(jī)在飛行過程中識(shí)別細(xì)小的電線、樹枝等物體的準(zhǔn)確率。
2 實(shí)驗(yàn)
2.1 數(shù)據(jù)集
為了提高模型對(duì)無人機(jī)飛行障礙物識(shí)別的有效性,制作障礙物數(shù)據(jù)集。從各公開數(shù)據(jù)集中挑選飛行障礙物的圖片,主要有電線、樹木、飛行物(鳥類等)和大型障礙物(山體等)4個(gè)類別,每個(gè)類別大約1 500張訓(xùn)練圖片和50張驗(yàn)證圖片。為了驗(yàn)證避障模型對(duì)多種物體的識(shí)別能力和泛化能力,還在CIFAR、FLOWER-102、Tiny-ImageNet和ImageNet上進(jìn)行對(duì)比試驗(yàn)。
2.2 訓(xùn)練細(xì)節(jié)
對(duì)比實(shí)驗(yàn)中模型使用weight decay為0.000 1,momentum為0.9的SGD優(yōu)化器進(jìn)行訓(xùn)練。Batchsize設(shè)置為128,初始學(xué)習(xí)率固定為0.1,隨著實(shí)驗(yàn)進(jìn)行學(xué)習(xí)率逐漸衰退。在實(shí)驗(yàn)的訓(xùn)練過程中,對(duì)所有訓(xùn)練數(shù)據(jù)運(yùn)用隨機(jī)裁剪和隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。
1)障礙物數(shù)據(jù)集實(shí)驗(yàn)
主流的圖像識(shí)別模型在障礙物數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表1所示,改進(jìn)后的MS-ResNet實(shí)現(xiàn)99.10%的準(zhǔn)確率,能夠準(zhǔn)確地識(shí)別無人機(jī)在飛行過程中可能遇到的障礙物,從而對(duì)場(chǎng)景中的障礙物實(shí)時(shí)監(jiān)測(cè),對(duì)有危險(xiǎn)的飛行路徑進(jìn)行提前預(yù)警,并且MS-ResNet相比ResNet、VGG以及BoT等模型可實(shí)現(xiàn)更高的準(zhǔn)確率。這表明采用MS-ResNet作為避障系統(tǒng)的圖像識(shí)別模型能達(dá)到最好的效果,能最準(zhǔn)確地對(duì)無人機(jī)飛行路徑進(jìn)行實(shí)時(shí)預(yù)警,以保障避障系統(tǒng)效果最大化。
隨機(jī)選擇無人機(jī)飛行過程中拍攝的圖片對(duì)預(yù)警模型進(jìn)行測(cè)試,以驗(yàn)證避障模型對(duì)實(shí)際障礙物的識(shí)別置信度。效果圖如圖4所示,圖4中(a)、(b)、(c)、(e)、(f)和(g)識(shí)別置信度都在90%以上,其中圖4(d)和圖4(h)對(duì)電線和樹木的識(shí)別置信度分別為73%和77%,能夠準(zhǔn)確判斷出無人機(jī)在飛行過程中是否遇到障礙物,達(dá)到預(yù)警的目的。
2)公開數(shù)據(jù)集實(shí)驗(yàn)
為了進(jìn)一步驗(yàn)證預(yù)警模型的效果,分別在不同分辨率的公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)。MS-ResNet、BoT、ResNet-50、ResNeXt-50[10]、ResNet101、VGG16和DenseNet在CIFAR[11]、FLOWER-102[12]、Tiny-ImageNet[13]和ImageNet數(shù)據(jù)集上進(jìn)行訓(xùn)練。為了適應(yīng)小分辨率數(shù)據(jù)的尺寸,將網(wǎng)絡(luò)都進(jìn)行相同的修改,將下采樣次數(shù)減少為3次。
實(shí)驗(yàn)結(jié)果如表2所示,無論是在CIFAR和Tiny-ImageNet等小分辨率數(shù)據(jù)集上,還是在FLOWER-102和ImageNet等大分辨率數(shù)據(jù)集上,MS-ResNet相比同類型的BoT實(shí)現(xiàn)更好地驗(yàn)證準(zhǔn)確率。MS-ResNet在CIFAR10、CIFAR100、Tiny-ImageNet和ImageNet上的準(zhǔn)確率分別比BoT高0.17、1.1、0.58和0.36個(gè)百分點(diǎn)。在數(shù)據(jù)量較少的FLOWER-102上,MS-ResNet的準(zhǔn)確率比BoT高5.62個(gè)百分點(diǎn)。
考慮到預(yù)警系統(tǒng)要求實(shí)時(shí)性,預(yù)警模型的計(jì)算效率和準(zhǔn)確率同樣重要。為了對(duì)比模型的計(jì)算資源消耗,采集部分模型在CIFAR100數(shù)據(jù)集上的吞吐量(單張NVIDIA V100上每秒計(jì)算圖片數(shù)),同時(shí)得到模型的參數(shù)量對(duì)比。如表3所示,MS-ResNet的參數(shù)量要稍高于BoT和ResNet50,但是MS-ResNet在上述3個(gè)數(shù)據(jù)集上得到的驗(yàn)證準(zhǔn)確率都高于BoT和ResNet50。這表明MS-ResNet的泛化能力要優(yōu)于BoT和ResNet50,并且MS-ResNet的吞吐量?jī)H僅稍低于BoT和ResNet50。
表2和表3數(shù)據(jù)表明,DenseNet在上述3個(gè)數(shù)據(jù)集上的表現(xiàn)都稍優(yōu)于MS-ResNet,但是DenseNet的吞吐量遠(yuǎn)遠(yuǎn)低于MS-ResNet。BMSA在提升模型準(zhǔn)確率的同時(shí),沒有大幅降低模型的計(jì)算效率,也能保證預(yù)警系統(tǒng)的實(shí)時(shí)性,可見BMSA嵌入卷積網(wǎng)絡(luò)的方案是可行的。
3 結(jié)語
本文論述了基于圖像識(shí)別模型對(duì)無人機(jī)的飛行路徑進(jìn)行實(shí)時(shí)監(jiān)測(cè),以達(dá)到避障的目的。對(duì)ResNet和BoT進(jìn)行改進(jìn),實(shí)驗(yàn)表明改進(jìn)圖像識(shí)別模型能夠?qū)φ系K物實(shí)現(xiàn)更準(zhǔn)確的識(shí)別。將多軸自注意力模塊BMSA嵌入到原本模型中,引入局部自注意力單元和全局自注意力單元,解決了模型在識(shí)別細(xì)小物體方面表現(xiàn)不佳的問題,提升了系統(tǒng)的避障準(zhǔn)確率。大量實(shí)驗(yàn)結(jié)果表明,深度卷積網(wǎng)絡(luò)結(jié)合BMSA能在圖像識(shí)別任務(wù)中實(shí)現(xiàn)更高的驗(yàn)證準(zhǔn)確率,同時(shí)并沒有大幅降低模型的吞吐率。此外,BMSA相比于同類型的結(jié)構(gòu)表現(xiàn)出了更好的泛化性能,在數(shù)據(jù)量較少的情況下,BMSA能幫助深度卷積網(wǎng)絡(luò)獲得巨大的準(zhǔn)確率提升。
參考文獻(xiàn):
[1] 張香竹,張立家,宋逸凡,等. 基于深度學(xué)習(xí)的無人機(jī)單目視覺避障算法[J]. 華南理工大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,50(1): 101-108,131.
[2] 肖英楠,孫抒雨. 基于改進(jìn)SIFT圖像匹配的無人機(jī)高精度避障算法設(shè)計(jì)[J]. 機(jī)械制造與自動(dòng)化,2022,51(1): 237-240.
[3] KRIZHEVSKY A,SUTSKEVER I,HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM,2017,60(6):84-90.
[4] RUSSAKOVSKY O,DENG J,SU H,et al. ImageNet large scale visual recognition challenge[J]. International Journal of Computer Vision,2015,115(3):211-252.
[5] SZEGEDY C,LIU W,JIA Y Q,et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston,MA,USA:IEEE,2015:1-9.
[6] HE K M,ZHANG X Y,REN S Q,et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). LasVegas,NV,USA:IEEE,2016:770-778.
[7] DOSOVITSKIY A,BEYER L,KOLESNIKOV A, et al. An image is worth 16x16 words:transformers for image recognition at scale[C]//International Conference on Learning Representations, Vienna, Austria:[s.n.] ,2021.
[8] SRINIVAS A,LIN T Y,PARMAR N,et al. Bottleneck transformers for visual recognition[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville,TN,USA:IEEE,2021:16514-16524.
[9] TU Z Z,TALEBI H,ZHANG H,et al. MaxViT:multi-axis vision transformer[M]//Lecture Notesin Computer Science. Cham:Springer Nature Switzerland,2022:459-479.
[10] XIE S N,GIRSHICK R,DOLLRP,et al. Aggregated residual transformations for deep neural networks[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu,HI,USA:IEEE,2017:5987-5995.
[11]KRIZHEVSKY A,HINTON G. Learning Multiple Layers of Features from Tiny Images[R].Technical Report TR-2009. Toronto: University of Toronto, 2009: 32-33.
[12] NILSBACK M E,ZISSERMAN A. Automated flower classification over a large number of classes[C]//2008 Sixth Indian Conference on Computer Vision,Graphics amp; Image Processing. Bhubaneswar,India:IEEE,2008:722-729.
[13] LE Y,YANG X S. Tiny imagenet visual recognition challenge[J]. Computer Science,2015,7(7): 3-6.
收稿日期:2023-02-01