艾振華 臧升睿 陳敏 陳倩倩 遲潔茹 楊國為 于騰
摘要:為解決通用目標(biāo)檢測模型在無人機(jī)航拍場景下存在的物體尺度變化劇烈及復(fù)雜的背景干擾等問題,本文主要對基于NATCA-Greater YOLO的航拍小目標(biāo)檢測進(jìn)行研究。在特征提取網(wǎng)絡(luò)的最后一層,加入鄰域注意力轉(zhuǎn)換器(neighborhood attention transformer,NAT),以保留足夠的全局上下文信息,并提取更多不同的特征。同時,在特征融合網(wǎng)絡(luò)(Neck)部分,加入坐標(biāo)注意力(coordinate attention,CA)模塊,以獲取通道信息和更長范圍的位置信息,將原卷積塊中的激活函數(shù)替換為Meta-ACON,并使用NAT作為新網(wǎng)絡(luò)的預(yù)測層,以VisDrone2019-DET目標(biāo)檢測數(shù)據(jù)集為基準(zhǔn),在VisDrone2019-DET-test-dev數(shù)據(jù)集上進(jìn)行測試。為了評估NATCA-Greater YOLO模型在航拍小目標(biāo)檢測任務(wù)中的有效性,采用Faster R-CNN、RetinaNet和單步多框目標(biāo)檢測(single shot multiBox detector,SSD)等檢測網(wǎng)絡(luò)在測試集上進(jìn)行對比檢測。研究結(jié)果表明,NATCA-Greater YOLO檢測的平均精度為42%,與最先進(jìn)的檢測網(wǎng)絡(luò)TPH-YOLOv5相比,NATCA-Greater YOLO的檢測精度提升了2.9%,說明該模型可以準(zhǔn)確地定位并識別目標(biāo)。該研究具有一定的創(chuàng)新性。
關(guān)鍵詞:NAT; CA; Meta-ACON; 小目標(biāo)檢測
中圖分類號:TP391.41; TP183 文獻(xiàn)標(biāo)識碼:A
文章編號:1006-9798(2023)02-0018-08; DOI:10.13306/j.1006-9798.2023.02.003
基金項目:山東省自然科學(xué)基金面上資助項目(ZR2021MF025); 國家自然科學(xué)基金面上資助項目(62172229)
作者簡介:艾振華(1997-),男,碩士研究生,主要研究方向為計算機(jī)視覺和目標(biāo)檢測。
通信作者:于騰(1988-),男,博士,副教授,主要研究方向為機(jī)器學(xué)習(xí)、計算機(jī)視覺和人工智能等。Email:yutenghit@foxmail.com
近年來,無人機(jī)在農(nóng)業(yè)、航空攝影、快速交付和監(jiān)控等領(lǐng)域應(yīng)用廣泛,從這些平臺獲取收集到的視覺數(shù)據(jù)中,提取有效的特征信息變得越來越重要[1]。目標(biāo)檢測是最基本和最重要的任務(wù),是目標(biāo)追蹤和行為識別等高級視覺任務(wù)的基石。目前,主流的目標(biāo)檢測框架主要分為Anchor-Based和Anchor-Free 2種方法,其中Anchor-Free方法是通過對關(guān)鍵點(diǎn)的定位和回歸進(jìn)行檢測。CornerNet[2]是將物體檢測作為一對關(guān)鍵點(diǎn)(邊界框的左上角和右下角),然后根據(jù)距離對這些關(guān)鍵點(diǎn)進(jìn)行分組,以獲得最終檢測結(jié)果。CenterNet[3]是預(yù)測物體的中心點(diǎn),根據(jù)邊界框的中心點(diǎn)回歸每個對象對應(yīng)的大小。Anchor-Based方法可分為二階段網(wǎng)絡(luò)和一階段網(wǎng)絡(luò)。SSD[4]和YOLO[5-7]是一階段檢測網(wǎng)絡(luò),檢測速度快,但準(zhǔn)確率較低。與一階段網(wǎng)絡(luò)相比,F(xiàn)aster R-CNN[8-9]、Cascade R-CNN[10]等二階段檢測器加入?yún)^(qū)域提案網(wǎng)絡(luò)(region proposal network,RPN),生成約2 000個建議框,然后再對建議框分類和定位,雖然檢測速度較慢,但準(zhǔn)確率高。上述通用目標(biāo)檢測模型,雖然在MS COCO[11]、PASCAL VOC[12]和ImageNet[13]等傳統(tǒng)數(shù)據(jù)集上取得了優(yōu)異的表現(xiàn),但對于VisDrone[14]和UAVDT[15]數(shù)據(jù)集,由于無人機(jī)拍攝的圖像具有大量的小目標(biāo)(尺寸小于32像素),包含很多復(fù)雜的背景信息,物體的尺寸變化劇烈,檢測性能較差。DPNet[16]在骨干網(wǎng)絡(luò)中加入了全局上下文(global context,GC)和可變形卷積(deformable convolution,DC),來提高卷積神經(jīng)網(wǎng)絡(luò)(convolution neural network,CNN)的特征提取能力。圖像金字塔尺度歸一化(scale normalization for image pyramids,SNIP)[17]將尺度歸一化用于多尺度訓(xùn)練的圖像金字塔。與通用目標(biāo)檢測模型相比,雖然上述模型在一定程度上提高了檢測性能,但這些方法都是間接解決由小目標(biāo)、復(fù)雜背景、物體尺寸跨度大導(dǎo)致的問題,沒有一個具體的算法或結(jié)構(gòu),網(wǎng)絡(luò)的適用性有限。視覺轉(zhuǎn)換器(vision transformer,ViT)[18-19]中使用自注意力(self-attention,SA),可以保留不同圖像塊之間的位置信息,當(dāng)擁有足夠多的數(shù)據(jù)進(jìn)行訓(xùn)練時,ViT的表現(xiàn)就會超過CNN,突破transformer,缺少歸納偏置的限制,對于航拍小樣本,檢測效果較差?;稗D(zhuǎn)換器(swin transformer,ST)[20-21]將注意力計算限制在一個窗口中,滑窗操作等效于非重疊卷積,引入卷積神經(jīng)網(wǎng)絡(luò)局部性,與ViT相比,節(jié)省了計算量,但并未對小目標(biāo)提出一個具體算法。基于此,本文在特征提取網(wǎng)絡(luò)的最后一層加入NAT模塊,并將原網(wǎng)絡(luò)中的檢測頭換成NAT,NAT使用鄰域注意力(neighborhood attention,NA)[22],與使用SA的ViT相比,NA直接將注意力操作范圍限制到每個像素的鄰域,將原始的全局注意力機(jī)制約束到局部窗口內(nèi)的局部注意力,通過引入更多的局部偏置屬性,提高在視覺任務(wù)上的表現(xiàn)。為了緩解2D池化導(dǎo)致的細(xì)節(jié)信息丟失,在特征融合網(wǎng)絡(luò)中加入CA模塊,與卷積塊注意力模塊(convolutional block attention module,CBAM)相比,CA將通道注意力分解為2個并行的1D特征編碼過程,可以整合空間坐標(biāo)信息,保留范圍更廣的位置信息。隨著網(wǎng)絡(luò)越來越深,圖像分辨率也越來越低,過大的感受導(dǎo)致特征圖上小目標(biāo)占據(jù)的特征更少,影響檢測結(jié)果,所以本文增加了一個檢測頭,與淺層特征圖進(jìn)行融合,并將預(yù)測層替換成NAT,提高了小目標(biāo)檢測的準(zhǔn)確率。該研究對無人機(jī)目標(biāo)檢測算法的應(yīng)用具有重要意義。
1 研究方法
1.1 整體網(wǎng)絡(luò)架構(gòu)
針對航拍小目標(biāo)檢測,本文設(shè)計了NATCA-Greater YOLO網(wǎng)絡(luò),網(wǎng)絡(luò)整體結(jié)構(gòu)包括特征提?。˙ackbone),特征融合(Neck)和預(yù)測層(Head)3部分。Backbone負(fù)責(zé)提取輸入圖像的特征,生成特征圖;Neck負(fù)責(zé)利用Backbone階段提取到的不同層級的特征進(jìn)行聚合再處理;Head負(fù)責(zé)利用Neck聚合細(xì)化過的特征圖,檢測目標(biāo)的位置和類別。NATCA-Greater YOLO網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
在NATCA-YOLOv5的特征提取層,使用Meta-ACON[23]激活函數(shù),代替原網(wǎng)絡(luò)中的SiLU激活函數(shù),在SPP層后面,加入NAT,并將不同層級的特征輸入到Neck部分,經(jīng)過3次上采樣之后,使用NAT代替原網(wǎng)絡(luò)的預(yù)測層,4個預(yù)測層檢測的目標(biāo)尺寸由小到大。
1.2 鄰域注意轉(zhuǎn)換器
對于目標(biāo)檢測等視覺任務(wù),圖像的分辨率比分類任務(wù)大得多,對于航拍圖像,圖像分辨率較高,此時ViT中的SA機(jī)制會導(dǎo)致過高的復(fù)雜度和計算量,影響模型在視覺任務(wù)中的性能。卷積的性能多受益于歸納偏差,而SA是全局操作,雖然多層感知機(jī)(multi-layered perceptron,MLP)層具有局部性和平移不變性,但其他的歸納偏差必須通過大量數(shù)據(jù)來彌補(bǔ),所以ViT模型在VisDrone小樣本數(shù)據(jù)集上的效果較差。NAT是基于NA構(gòu)建的新型分層視覺轉(zhuǎn)換器,NAT網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。
NAT延續(xù)分層的金字塔結(jié)構(gòu),每一層跟著一個下采樣操作,來縮減一半的尺寸。與Swin 轉(zhuǎn)換器[24]不同,NAT利用小內(nèi)核卷積來嵌入和下采樣,而不使用非重疊卷積。與ViT相比,NAT將SA替換成了NA,通過將全局注意力機(jī)制約束到局部窗口內(nèi)的局部注意力,引入了更多的局部偏置屬性,保證NAT在VisDrone等小樣本數(shù)據(jù)集上也具有超越CNN的優(yōu)異性能,表現(xiàn)出更強(qiáng)大的特征提取能力,保留更多的全局上下文信息。
NA是一種更簡單、更靈活的視覺注意力機(jī)制,鄰域注意力如圖3所示。它強(qiáng)制要求鍵向量Key和值向量Value的選擇來自于以問題向量Query為中心的鄰域,與SA相比,NA減少了計算成本,而且引入類似于卷積的局部歸納偏差,當(dāng)鄰域大小達(dá)到最大值(即輸入圖像大?。r,NA就退化為SA。NAT使用重疊卷積,將特征映射在不同級別之間進(jìn)行向下采樣。
將特征圖中的每個像素重復(fù)圖3中的操作,對于不能居中的角像素,通過擴(kuò)展鄰域保持感受野的大小。例如L=3,每個query將以圍繞它的9個key-value像素結(jié)束,即以query為中心的3×3網(wǎng)格。對于角像素,鄰域也是一個3×3的網(wǎng)格,但query不在中心。
1.3 坐標(biāo)注意力機(jī)制
CNN可以高效融合不同層級的特征信息,但隨著網(wǎng)絡(luò)的不斷加深,池化操作導(dǎo)致丟失了通道之間和特征位置之間的細(xì)節(jié)信息。輸入特征圖經(jīng)過卷積之后,每個位置都包含了原圖像一個局部區(qū)域的信息,卷積塊注意力模塊(convolution block attention module,CBAM)是對每個位置的多個通道取最大值和平均值作為加權(quán)系數(shù),但這種方式只考慮局部區(qū)域信息,無法獲取長范圍依賴的信息。坐標(biāo)注意力機(jī)制將通道注意力分解為2個并行的一維特征編碼,經(jīng)過編碼后,這2個特征圖都含有特定方向信息,每個特征圖都沿一個空間方向獲取輸入特征圖中更長范圍的信息,使模型可以更準(zhǔn)確的定位,并識別目標(biāo)區(qū)域。坐標(biāo)注意力如圖4所示。
對于通道注意力,將全局位置信息壓縮到通道信息中,難以保持位置信息,所以先通過2個維度上的一維全局池化,可以獲得該方向上更長的依賴信息,同時保持另一方向上的位置信息。對于輸入x,(H,1)和(1,W)分別沿著水平坐標(biāo)和垂直坐標(biāo)對每個通道進(jìn)行編碼,即
式中,zhc為通道上的空間信息沿水平方向全局池化后的特征向量;zwc為通道上的空間信息沿垂直方向全局池化后的特征向量;xc為輸入特征向量;W為特征圖的寬度;H為特征圖的高度。
將2個池化后的向量,沿著空間維度進(jìn)行拼接,經(jīng)過一個二維卷積減少通道數(shù),降低模型復(fù)雜度,然后進(jìn)行正則化和非線性激活,即
式中,f為輸出特征圖;δ為非線性激活函數(shù);F1為正則化;zh為沿水平坐標(biāo)進(jìn)行編碼的向量;zw為沿垂直坐標(biāo)進(jìn)行編碼的向量。
f沿著空間維度分成了2個張量(c/r,1,H)和(c/r,1,w),然后分別經(jīng)過卷積恢復(fù)到和輸入xc相同的通道數(shù),最后經(jīng)過sigmoid歸一化加權(quán),即
式中,gh為與輸入xc相同通道數(shù)的水平分量;Fh為水平方向上的正則化;fh為f的水平分量;gw為與輸入xc相同通道數(shù)的垂直分量;Fw為垂直方向上的正則化;fw為f的垂直分量;σ為sigmoid激活函數(shù)。
將gh和gw等效為權(quán)重,沿著水平方向和垂直方向的注意同時應(yīng)用于輸入張量,得到坐標(biāo)注意力為
式中,yci,j為像素(i,j)處的坐標(biāo)注意力;ghc(i) 為水平方向上的等效權(quán)重;gwc(j) 為垂直方向上的等效權(quán)重。
在深層特征空間中,CA通過2個一維全局池化操作,使網(wǎng)絡(luò)可以獲得更大的感受野及編碼準(zhǔn)確的空間位置信息,對目標(biāo)區(qū)域的檢測和定位更加準(zhǔn)確。
1.4 激活函數(shù)
為了提高模型的泛化能力,將原網(wǎng)絡(luò)卷積模塊中的激活函數(shù)換成Meta-ACON,它可以自適應(yīng)的選擇是否激活神經(jīng)元,進(jìn)一步提高網(wǎng)絡(luò)精度。ReLU激活函數(shù)本身是一個MAX函數(shù),只考慮2個輸入量時,可微分變體平滑最大值為
其中,σ為sigmoid函數(shù);β是一個平滑因子,當(dāng)β趨近于無窮大時,Smooth Maximum為標(biāo)準(zhǔn)的MAX函數(shù),當(dāng)β為0時,Smooth Maximum為求算術(shù)平均。
Sβ0,x為平滑形式下的ReLU,在此基礎(chǔ)上提出了激活或不激活(activate or not,ACON)系列的激活函數(shù),其中ACON-C是最廣泛的一種形式,即
式中,p1,p2使用的是2個可學(xué)習(xí)參數(shù)來自適應(yīng)調(diào)整;ACON系列的激活函數(shù)通過β值控制是否激活神經(jīng)元,所以計算通道級β的自適應(yīng)函數(shù)為
式中,H為特征圖的高;W為特征圖的寬;xc,h,w表示通道數(shù)為c、高為h、寬為w的輸入特征向量;σ為sigmoid激活函數(shù);W1(c,c/r)和W2(c/r,c)用來節(jié)省參數(shù)量,通道數(shù)為c,縮放參數(shù)r設(shè)置為16。
分別對H,W維度求均值,然后通過2個1×1的卷積層,使每個通道的所有像素共享一個權(quán)重,并通過Meta-ACON提高網(wǎng)絡(luò)的精度和泛化能力。
2 實驗結(jié)果與分析
2.1 數(shù)據(jù)集
VisDrone2019-DET基準(zhǔn)數(shù)據(jù)集有10 209張靜態(tài)圖像,這些圖像是在無限制場景下,由無人機(jī)平臺拍攝所得。其中,訓(xùn)練集有6 471張圖片,驗證集有548張圖片,測試集有1 610張圖片,測試挑戰(zhàn)集有1 580張圖片。無人機(jī)拍攝的圖像比例差異巨大、背景干擾復(fù)雜、大部分物體都很?。ㄐ∮?2像素),而且視角多變,對于同一個物體,視角不同,也會存在很大的差別。
該數(shù)據(jù)集共有10類數(shù)據(jù),數(shù)據(jù)整體分布不均衡,行人和轎車占比較大,VisDrone2019-DET數(shù)據(jù)分布如圖5所示。本文中的所有模型,都是在訓(xùn)練集上進(jìn)行訓(xùn)練,在測試集上進(jìn)行評估。
2.2 評價指標(biāo)
與MS COCO[7]中的評價指標(biāo)類似,本文使用平均精度(mean average precision,mAP)來評估檢測算法的結(jié)果,mAP是所有類別中統(tǒng)一步長為0.05的[0.50∶0.95]范圍內(nèi)所有10個交并比(intersection over union,IOU)閾值的平均值,將它作為算法檢測的主要指標(biāo)。
2.3 對比試驗與消融試驗
本文設(shè)計的算法基于PyTorch深度學(xué)習(xí)框架和YOLOv5實現(xiàn),使用的顯卡型號為NVIDIA GeForce RTX 2080Ti 11GB。模型訓(xùn)練時使用隨機(jī)梯度下降(stochastic gradient descent,SGD)作為優(yōu)化器,其權(quán)重衰減默認(rèn)值為0.000 5,動量默認(rèn)值為0.937。在模型初始訓(xùn)練中,首先進(jìn)行3輪熱身訓(xùn)練,熱身過程中,優(yōu)化器SGD的動量被設(shè)置為0.8,并使用一維線性差值,更新每次迭代的學(xué)習(xí)率。熱身訓(xùn)練結(jié)束后,使用余弦退火函數(shù),減小學(xué)習(xí)率,其中初始學(xué)習(xí)率為0.02,最小學(xué)習(xí)率為0.2×0.01,最后對模型進(jìn)行100輪的訓(xùn)練。
為了評估NATCA-Greater YOLO模型在航拍小目標(biāo)檢測任務(wù)中的有效性,使用Faster R-CNN[8],RetinaNet[25],SSD[4],F(xiàn)COS[26],DETR[27],TPH-YOLOv5[28]等檢測網(wǎng)絡(luò),在測試集上進(jìn)行對比檢測,每個模型都使用mAP作為主要衡量指標(biāo),各模型平均精度對比結(jié)果如表1所示。由表1可以看出,與傳統(tǒng)的CNN模型相比,NATCA-YOLOv5模型在航拍小目標(biāo)檢測任務(wù)中具有更強(qiáng)的泛化能力。
為了驗證各個模塊對NATCA-YOLOv5模型的作用,分別檢驗坐標(biāo)注意模塊、坐標(biāo)注意力機(jī)制和Meta-ACON激活函數(shù)對結(jié)果的影響,各模型平均精度消融實驗結(jié)果如表2所示。
由表2可以看出,YOLOv5網(wǎng)絡(luò)是基礎(chǔ)的模型結(jié)構(gòu),沒有添加NAT模塊和坐標(biāo)注意力,卷積塊中使用SiLU激活函數(shù)。在YOLOv5基礎(chǔ)上,在Backbone的最后一層添加了NAT模塊,并將原網(wǎng)絡(luò)的預(yù)測層換成NAT模塊,與YOLOv5相比,AP指標(biāo)提升了10.4%。當(dāng)Neck模塊加入坐標(biāo)注意力機(jī)制,并與添加CBAM注意力機(jī)制進(jìn)行對比,發(fā)現(xiàn)CA模塊在AP指標(biāo)上提升了1.5%。將原網(wǎng)絡(luò)中卷積層的激活函數(shù)換成Meta-ACON激活函數(shù)后,AP指標(biāo)提升到42%。以上實驗表明,在YOLOv5網(wǎng)絡(luò)中,添加NAT模塊和坐標(biāo)注意力,并結(jié)合使用Meta-ACON激活函數(shù),可以在航拍小樣本數(shù)據(jù)集上的小目標(biāo)檢測任務(wù)中,提升模型的檢測精度的準(zhǔn)確率和泛化能力。
模型預(yù)測的準(zhǔn)確率與召回率(precision recall,PR)曲線如圖6所示。由圖6可以看出,在YOLOv5網(wǎng)絡(luò)基礎(chǔ)上,添加NAT模塊后,所有類別的AP指標(biāo)均為39.3%,其中轎車的AP指標(biāo)為76.8%,行人的AP指標(biāo)為46%,在小樣本數(shù)據(jù)集上也取得了較好的表現(xiàn)。加入卷積塊注意力模塊后,平均精度為39.7%,整體性能提升不大。加入坐標(biāo)注意力后,在深層網(wǎng)絡(luò)中,不僅可以獲取不同通道間的信息,還可以通過位置編碼,獲得更長范圍的信息,所有類別的AP指標(biāo)均達(dá)到41.2%,其中轎車的AP指標(biāo)為78.9%,行人的AP指標(biāo)達(dá)到48.6%,與圖6a相比,分別提升了2.1%和2.6%。
為了進(jìn)一步提升模型的檢測精度,將原網(wǎng)絡(luò)卷積塊中的激活函數(shù)替換為Meta-ACON,NATCA-Greater YOLO最終在所有類別上的AP指標(biāo)達(dá)到42%,對于自行車、三輪車和帶篷三輪車等樣本較少和類別相似物體的檢測有一定的提升。在不同場景下,NATCA-Greater YOLO的檢測結(jié)果如圖7所示。
由圖7可以看出,本文提出的模型可有效檢測到圖7a中的密集小目標(biāo),排除了圖7b圖中矩形綠地背景的干擾,準(zhǔn)確檢測到了圖7c圖中不同尺度的目標(biāo)??傊诿鎸?fù)雜背景干擾、小目標(biāo)、物體尺寸跨度大的挑戰(zhàn)下,NATCA-Greater YOLO模型可以準(zhǔn)確地定位并識別目標(biāo)。
3 結(jié)束語
本文主要對基于深度學(xué)習(xí)的航拍小目標(biāo)檢測進(jìn)行研究。分析了通用目標(biāo)檢測模型和現(xiàn)有航拍目標(biāo)檢測模型的基本原理及局限性。同時,分析了航拍圖像存在的大量小目標(biāo)、目標(biāo)尺寸跨度大、背景復(fù)雜等特點(diǎn),通過比較現(xiàn)有航拍目標(biāo)檢測算法,在YOLOv5模型的基礎(chǔ)上,提出了一個新的網(wǎng)絡(luò)架構(gòu)NATCA-Greater YOLO。對于小目標(biāo)檢測精度較差的問題,加入了鄰域注意力轉(zhuǎn)換器,并從更淺層的網(wǎng)絡(luò)提取特征信息進(jìn)行預(yù)測。為進(jìn)一步排除復(fù)雜背景信息的干擾,加入坐標(biāo)注意力,保留全局和上下文信息。同時,為提高模型的泛化能力,改進(jìn)了原網(wǎng)絡(luò)的激活函數(shù)。實驗結(jié)果表明,本文提出的網(wǎng)絡(luò)模型擁有更強(qiáng)的視覺信息和特征提取能力,與通用目標(biāo)檢測網(wǎng)絡(luò)相比,檢測精度顯著提升。雖然本算法在檢測精度上有所提高,但對于類別相似的目標(biāo),檢測效果并不好。該實驗基于計算機(jī)環(huán)境,由于無人機(jī)體積小,計算資源和空間資源有限,當(dāng)模型部署到無人機(jī)后,檢測的速度和精度還有待提高。為了進(jìn)一步深入研究本課題,接下來的工作主要圍繞2個方面進(jìn)行,一是改進(jìn)算法,提高相似目標(biāo)的檢測精度;二是設(shè)計輕量化網(wǎng)絡(luò)結(jié)構(gòu),在降低模型復(fù)雜度的同時,保持較高的檢測精度。
參考文獻(xiàn):
[1] LAW H,DENG J. Cornernet:Detecting objects as paired keypoints[C]∥In European Conference on Computer Vision (ECCV) . Munich,Germany:Springer,2018:734-750.
[2] DUAN K,BAI S,XIE L,et al. Centernet:Keypoint triplets for object detection[C]∥IEEE/CVF international conference on computer vision. Seoul,Korea(South):IEEE/CVF,2019:6569-6578.
[3] LIU W,ANGUELOV D,ERHAN D,et al. Ssd:Single shot multibox detector[C]∥In European Conference on Computer Vision. Amsterdam,Netherlands:Springer,2016:21-37.
[4] REDMON J,DIVVALA S,GIRSHICK R,et al. You only look once:Unified,real-time object detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas,NV,USA:IEEE,2016 :779-788.
[5] REN S,HE K,GIRSHICK R,et al. Faster R-CNN:Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,39(6):1137-1149.
[6] CAI Z,VASCONCELOS N. Cascade R-CNN:Delving into high quality object detection[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA:IEEE,2018:6154-6162.
[7] LIN TY,MAIRE M,BELONGIE S,et al. Microsoft coco:Common objects in context[C]∥In European Conference on Computer Vision. Zürich,Switzerland:Springer,2014:740-755.
[8] EVERINGHAM M,VAN GOOL L,WILLIAMS C K,et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision,2010,88(2):303-38.
[9] DENG J,DONG W,SOCHER R,et al. Imagenet:A large-scale hierarchical image database[C]∥In 2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami,EL,USA:IEEE,2009:248-255.
[10] DU D,ZHU P,WEN L,et al. VisDrone-DET2019:The vision meets drone object detection in image challenge results[C]∥IEEE/CVF International Conference on Computer Vision Workshops. Seoul,Korea(South):IEEE/CVF,2019:19432701.
[11] DU D,QI Y,YU H,et al. The unmanned aerial vehicle benchmark:Object detection and tracking[C]∥European Conference on Computer vision (ECCV) . Munich,Germany:Springer,2018:370-386.
[12] DU D W,ZHU P F,WEN L Y,et al. VisDrone-DET2019:The vision meets drone object detection in image challenge results[C]∥IEEE/CVF International Conference on Computer Vision Workshops. Seoul,Korea(South):IEEE/CVF,2019:1-36.
[13] SINGH B,DAVIS L S. An analysis of scale invariance in object detection snip[C]∥IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City,UT,USA:IEEE,2018:3578-3587.
[14] ARNAB A,DEHGHANI M,HEIGOLD G,et al. Vivit:A video vision transformer[C]∥IEEE/CVF international conference on computer vision. Montreal:IEEE/CVF,2021:6836-6846.
[15] LIU Z,LIN Y,CAO Y,et al. Swin transformer:Hierarchical vision transformer using shifted windows[C]∥IEEE/CVF International Conference on Computer Vision. Montreal,Canada:IEEE/CVF,2021:10012-10022.
[16] HASSANI A,WALTON S,LI J,et al. Neighborhood attention transformer[J]. arXiv preprint arXiv:2204. 07143,2022.
[17] MA N,ZHANG X,LIU M,et al. Activate or not:Learning customized activation[C]∥IEEE/CVF Conference on Computer Vision and Pattern Recognition. Virtual:IEEE/CVF,2021:8032-8042.
[18] 宋譜怡,陳紅,茍浩波. 改進(jìn)YOLOv5s的無人機(jī)目標(biāo)檢測算法[J]. 計算機(jī)工程與應(yīng)用,2023,59(1):108-116.
[19] LIN T Y,GOYAL P,GIRSHICK R,et al. Focal loss for dense object detection[C]∥IEEE International Conference on Computer Vision. Venice,Italy:IEEE,2017 :2980-2988.
[20] LIU W,ANGUELOV D,ERHAN D,et al. Ssd:Single shot multibox detector[C]∥In European Conference on Computer Vision. Amsterdam,Netherlands:Springer,2016 :21-23.
[21] TIAN Z,SHEN C,CHEN H,et al. Fcos:Fully convolutional one-stage object detection[C]∥IEEE/CVF International Conference on Computer Vision. Seoul,Korea(South):IEEE/CVF,2019 :9627-9636.
[22] CARION N,MASSA F,SYNNAEVE G,et al. End-to-end object detection with transformers[C]∥In European Conference on Computer Vision. Glasgow,US:Springer,2020:213-229.
[23] ZHU X K,LYU S,WANG X,et al. TPH-YOLOv5:Improved YOLOv5 based on transformer prediction head for object detection on drone-captured scenarios[C]∥IEEE/CVF International Conference on Computer Vision. Montreal,Canada:IEEE,2021:2778-2788.
[24] 劉芳,吳志威,楊安喆,等. 基于多尺度特征融合的自適應(yīng)無人機(jī)目標(biāo)檢測[J]. 光學(xué)學(xué)報,2020,40(10):133-142.
[25] 祁江鑫,吳玲,盧發(fā)興,等. 基于改進(jìn)YOLOv4算法的無人機(jī)目標(biāo)檢測[J]. 兵器裝備工程學(xué)報,2022,43(6):210-217.
[26] 田永林,王雨桐,王建功,等. 視覺Transformer研究的關(guān)鍵問題:現(xiàn)狀及展望[J]. 自動化學(xué)報,2022,48(4):957-979.
[27] 桑軍,郭沛,項志立,等. Faster-RCNN的車型識別分析[J]. 重慶大學(xué)學(xué)報(自然科學(xué)版),2017,40(7):32-36.
[28] 黃媛媛,熊文博,張宏偉,等. 基于U型Swin Transformer自編碼器的色織物缺陷檢測[J/OL]. 激光與光電子學(xué)進(jìn)展:1-12[2023-03-23]. http:∥kns. cnki. net/kcms/detail/31. 1690.in. 20220927. 1957. html.
Abstract:In order to solve the problems of the general object detection model in the images captured by drones,including drastic scale variance and complex background interference,this paper focuses on the detection of small objects in aerial photography based on NATCA-Greater YOLO. We add neighborhood attention transformer (NAT) to the last layer of the feature extraction network to retain sufficient global context information and extract more different features. Meanwhile,in the feature fusion network (Neck) part,the coordinate attention (CA) module is added to obtain channel information and longer range location information,the activation function in the original convolutional block is replaced with Meta-ACON,and NAT is used as the prediction layer of the new network. Using the VisDrone2019-DET object detection dataset as a benchmark,tests were conducted on the VisDrone2019-DET-test-dev dataset. To evaluate the effectiveness of the NATCA-Greater YOLO model in the aerial photography small object detection task,detection networks such as Faster R-CNN,RetinaNet and SSD (single shot multiBox detector) were used for comparative testing on the test set. The results show that the average accuracy of NATCA-Greater YOLO detection is 42%,which is 2.9% improvement compared to the state-of-the-art detection network TPH-YOLOv5. This study is innovative.
Key words:NAT; CA; Meta-ACON; small object detection