謝娟英 魯銀圓 孔維軒 許升全
1(陜西師范大學(xué)計(jì)算機(jī)科學(xué)學(xué)院 西安 710119) 2(陜西師范大學(xué)生命科學(xué)學(xué)院 西安 710119)
蝴蝶是節(jié)肢動(dòng)物門(mén)、昆蟲(chóng)綱、鱗翅目、錘角亞目動(dòng)物的統(tǒng)稱[1],在全世界有廣泛分布,約有18 000種[2].蝴蝶對(duì)環(huán)境敏感,有些蝴蝶幼蟲(chóng)以植物為食,危害經(jīng)濟(jì)作物,借助蝴蝶分布可研究區(qū)域生態(tài)環(huán)境保護(hù)和生物多樣性[3].本文借助2018年第3屆中國(guó)數(shù)據(jù)挖掘競(jìng)賽——國(guó)際首次蝴蝶識(shí)別大賽[4]公開(kāi)的蝴蝶圖像數(shù)據(jù)集[5],通過(guò)改進(jìn)經(jīng)典RetinaNet[6],實(shí)現(xiàn)自然環(huán)境中蝴蝶種類識(shí)別.
快速發(fā)現(xiàn)野外環(huán)境中蝴蝶位置,實(shí)現(xiàn)蝴蝶分類,已經(jīng)引起計(jì)算機(jī)視覺(jué)領(lǐng)域研究者的關(guān)注.然而,現(xiàn)有蝴蝶分類研究主要基于蝴蝶標(biāo)本照片.2011年,Wang等人[7]借助1 333張蝴蝶標(biāo)本照,采用基于內(nèi)容的圖像檢索技術(shù),通過(guò)不同特征提取方法和特征權(quán)重設(shè)置,使用不同的相似性匹配算法進(jìn)行消融實(shí)驗(yàn),驗(yàn)證了蝴蝶形狀特征對(duì)分類更重要.2012年,Kang等人[8]使用包含7個(gè)種類的268張蝴蝶標(biāo)本照,設(shè)計(jì)特征提取器,提取圖像中的分支長(zhǎng)度相似性特征,設(shè)計(jì)3層神經(jīng)網(wǎng)絡(luò)進(jìn)行蝴蝶分類,得到85.6%的準(zhǔn)確率.2014年,Kaya等人[9]基于包含14種蝴蝶的140張蝴蝶標(biāo)本照數(shù)據(jù),通過(guò)設(shè)計(jì)特征提取器,將顏色和紋理特征融合,使用3層神經(jīng)網(wǎng)絡(luò)分類,得到92.85%的準(zhǔn)確率.Kaya等人[10]還分別使用灰度共生矩陣和局部二值模式,采用極限學(xué)習(xí)機(jī)對(duì)包含19種蝴蝶的190張標(biāo)本照進(jìn)行分類,分別得到98.25%和96.45%的準(zhǔn)確率.2014年,Kang等人[11]通過(guò)提取不同視角下的圖像分支長(zhǎng)度相似性特征,利用3層神經(jīng)網(wǎng)絡(luò)對(duì)含有15種蝴蝶的150張標(biāo)本照進(jìn)行分類,得到97.85%的準(zhǔn)確率.2015年,Kaya等人[12]提出2種新的描述子提取局部二值模式,處理圖像中的紋理特征,對(duì)包含14種蝴蝶的140張蝴蝶標(biāo)本照,利用3層神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,得到95.71%的準(zhǔn)確率.2017年,Zhou等人[13]對(duì)包含1 117種蝴蝶的4 464張標(biāo)本照進(jìn)行數(shù)據(jù)增強(qiáng),借助CaffeNet網(wǎng)絡(luò)模型進(jìn)行分類,得到95.8%的準(zhǔn)確率.2019年,Lin等人[14]提出新的感知網(wǎng)絡(luò)ISP-CNN,用116 208張?jiān)鰪?qiáng)的蝴蝶標(biāo)本圖像來(lái)訓(xùn)練網(wǎng)絡(luò),實(shí)現(xiàn)蝴蝶分類,驗(yàn)證集準(zhǔn)確率達(dá)到93.67%,測(cè)試集準(zhǔn)確率達(dá)到92.13%.2020年,Lin等人[15]使用包含56種蝴蝶的24 836張標(biāo)本照,提出一種帶跳層連接的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行蝴蝶種類識(shí)別,得到93.36%的準(zhǔn)確率.
截止目前,基于自然環(huán)境中蝴蝶圖像的蝴蝶種類識(shí)別研究相對(duì)較少.原因是該類研究非常具有挑戰(zhàn)性.蝴蝶分類的依據(jù)是其翅膀的花紋、顏色和圖案,而野外自然環(huán)境中的蝴蝶照片,其翅膀往往被遮擋,使得分類依據(jù)的翅膀特征不完全可見(jiàn).另外,該類數(shù)據(jù)的獲取也非常困難,不僅需要到蝴蝶的棲息地拍攝自然環(huán)境下的蝴蝶照片,而且照片中的蝴蝶類標(biāo)需要非常專業(yè)的昆蟲(chóng)學(xué)家才能給出.2018年的第3屆中國(guó)數(shù)據(jù)挖掘競(jìng)賽——國(guó)際首次蝴蝶識(shí)別大賽[4]公布了一個(gè)自然環(huán)境下的蝴蝶標(biāo)注數(shù)據(jù)集[5].Xie等人[16]使用深度學(xué)習(xí)目標(biāo)檢測(cè)框架Faster R-CNN[17]和YOLO系列[18-19],為競(jìng)賽實(shí)現(xiàn)了baseline,最佳mAP=76.1%.2018年,Kartika等人[20]使用包含10種蝴蝶的890張自然環(huán)境中蝴蝶圖像,通過(guò)掩膜技術(shù)過(guò)濾自然背景,保留圖像中自然狀態(tài)下的蝴蝶,構(gòu)成實(shí)驗(yàn)數(shù)據(jù),通過(guò)提取局部二值模式的紋理特征和形狀特征,使用SVM分類,得到66.0%的準(zhǔn)確率.2020年,Liang等人[21]通過(guò)網(wǎng)絡(luò)爬蟲(chóng)技術(shù)采集網(wǎng)絡(luò)上的蝴蝶圖像,擴(kuò)充競(jìng)賽數(shù)據(jù)集[4-5],使用集成的YOLOv3[19]對(duì)蝴蝶進(jìn)行自動(dòng)識(shí)別,最佳mAP=79.8%. 2020年,Almryad等人[22]建立一個(gè)生態(tài)蝴蝶圖像數(shù)據(jù)集,剔除一些同時(shí)包含多個(gè)蝴蝶實(shí)例的圖像,并只保留樣本數(shù)目較多的10類蝴蝶,使用卷積神經(jīng)網(wǎng)絡(luò)(VGG16[23],VGG19[23],ResNet50[24])進(jìn)行分類,最高mAP=79.5%.2021年,Xie等人[25]為解決蝴蝶識(shí)別競(jìng)賽數(shù)據(jù)集[4-5]中的蝴蝶類別間不平衡問(wèn)題,提出一種新的劃分策略和數(shù)據(jù)平衡擴(kuò)增策略,得到最佳mAP=79.71%.
自然環(huán)境下的蝴蝶識(shí)別本質(zhì)上是一個(gè)目標(biāo)檢測(cè)任務(wù),需要首先檢測(cè)蝴蝶在圖像中的位置,然后進(jìn)行分類.目前同時(shí)涉及蝴蝶位置檢測(cè)與分類的研究只有Xie和Liang的工作[16,21,25],3篇文獻(xiàn)均未達(dá)到較高精度.為此,本文將探索和提出更適合自然環(huán)境下蝴蝶識(shí)別任務(wù)的算法模型.RetinaNet模型的Focal Loss[6]有效解決了目標(biāo)檢測(cè)中正負(fù)樣本不平衡問(wèn)題,本文使用的自然環(huán)境中蝴蝶數(shù)據(jù)前景、背景類別極不平衡,且各類別的蝴蝶數(shù)量分布呈現(xiàn)極不平衡的長(zhǎng)尾分布,因此,選擇RetinaNet為基礎(chǔ)模型.注意力機(jī)制[26-29]在計(jì)算機(jī)視覺(jué)領(lǐng)域能顯著提升檢測(cè)精度,本文根據(jù)蝴蝶數(shù)據(jù)特點(diǎn),提出改進(jìn)的注意力機(jī)制來(lái)改進(jìn)RetinaNet模型,增加模型的蝴蝶檢測(cè)精度.自然環(huán)境中蝴蝶形態(tài)多變,本文將在注意力機(jī)制基礎(chǔ)上,引入可變形卷積[30-31]提升模型對(duì)形變的建模能力,使有效感受野能更好覆蓋前景,囊括更多語(yǔ)義信息輔助檢測(cè),得到性能更優(yōu)的蝴蝶自動(dòng)檢測(cè)模型.同時(shí),使用類激活圖[32-33]可視化實(shí)驗(yàn)結(jié)果,分析提出模型的有效性,并采用相似性可視化探索影響模型性能的關(guān)鍵因素.
本文主要貢獻(xiàn)包括:1)對(duì)數(shù)據(jù)集進(jìn)行了詳細(xì)分析,采用K-means確定合適的實(shí)驗(yàn)參數(shù);2)提出新的注意力機(jī)制,改進(jìn)RetinaNet模型;3)引入可變形卷積,增加RetinaNet模型對(duì)蝴蝶形變的建模能力;4)將可變形卷積和注意力機(jī)制組合,探索自然環(huán)境中蝴蝶位置檢測(cè)和分類方案;5)可視化實(shí)驗(yàn)結(jié)果,分析模型性能提升的原因和影響模型性能的關(guān)鍵因素.
Xie等人[16]得出訓(xùn)練集中包含測(cè)試集類別之外的模式照對(duì)最終模型的性能無(wú)益,因此本文訓(xùn)練集只含有測(cè)試集對(duì)應(yīng)的94種類別的生態(tài)照和模式照.對(duì)訓(xùn)練集采用與文獻(xiàn)[16]相同的擴(kuò)增方式進(jìn)行擴(kuò)增,擴(kuò)增后的訓(xùn)練集含12 070張圖像,命名為Butterfly_Data,按照4∶1劃分為訓(xùn)練子集和驗(yàn)證子集.測(cè)試集命名為T(mén)est_Butterfly_Data,含有94類687張蝴蝶自然生態(tài)環(huán)境下照片.Butterfly_Data實(shí)例分布如圖1所示:
Fig.1 The instance quantity distribution of Butterfly_Data圖1 Butterfly_Data數(shù)據(jù)集蝴蝶實(shí)例數(shù)分布
從圖1可以看出,本文實(shí)驗(yàn)數(shù)據(jù)呈現(xiàn)典型的長(zhǎng)尾狀分布,不同類別間分布不平衡,一些實(shí)例數(shù)量比較多的類中,生態(tài)照實(shí)例超過(guò)50%;大部分實(shí)例數(shù)目較少的類中,標(biāo)本照的實(shí)例數(shù)多于生態(tài)照的實(shí)例數(shù).每張標(biāo)本照中只含一個(gè)實(shí)例,每張生態(tài)照中可能有多個(gè)實(shí)例.
整個(gè)數(shù)據(jù)集中實(shí)例數(shù)量特征如表1所示.表1的最小值列和最大值列數(shù)據(jù)顯示:在生態(tài)照、標(biāo)本照及整個(gè)訓(xùn)練集,均存在較大的類別不平衡.
Table 1 Image Quantity Distribution in Butterfly_Data
借鑒Kozlov[34]的做法,對(duì)Butterfly_Data的幾何特征進(jìn)行統(tǒng)計(jì),結(jié)果如圖2所示.
圖2(a)顯示Butterfly_Data數(shù)據(jù)集圖像寬大于高.圖2(b)顯示數(shù)據(jù)集圖像高寬比和寬高比以1.0近似對(duì)稱.圖2(c)顯示數(shù)據(jù)集實(shí)例寬、高分布類似,但寬大于高.圖2(d)顯示實(shí)例寬高比與高寬比關(guān)于1近似對(duì)稱.圖2(e)顯示,數(shù)據(jù)集中自然環(huán)境下的生態(tài)照實(shí)例與其所在圖像的面積比和標(biāo)本照實(shí)例與其所在圖像的面積比有顯著差異,生態(tài)照實(shí)例明顯占比小,說(shuō)明生態(tài)照?qǐng)D像中有較多背景信息,標(biāo)本照實(shí)例的面積占比幾乎覆蓋整張圖像.另外,圖2(e)還顯示,測(cè)試集實(shí)例面積占比與訓(xùn)練集生態(tài)照的實(shí)例面積占比類似.
Fig. 2 The geometric distribution of Butterfly_Data圖2 Butterfly_Data數(shù)據(jù)幾何分布
為了保障檢測(cè)精度,RetinaNet[6]根據(jù)骨干網(wǎng)絡(luò)(Backbone)不同階段的特征圖下采樣比例,設(shè)置不同檢測(cè)尺寸,每個(gè)尺寸通過(guò)3種尺度(scale)和3種縱橫比(aspect ratio)組合,以特征圖中每個(gè)像素為中心,形成9個(gè)不同尺寸的Anchor boxes.然后計(jì)算密集Anchor boxes與Ground-truth boxes的交并比(intersection over union,IoU)值,通過(guò)設(shè)置閾值對(duì)Anchor boxes進(jìn)行正負(fù)樣本劃分,作為先驗(yàn)知識(shí)指導(dǎo)網(wǎng)絡(luò)訓(xùn)練.然而,RetinaNet使用的COCO數(shù)據(jù)集[35]和本文的Butterfly_Data不同,因此,需要對(duì)Anchor boxes參數(shù)進(jìn)行調(diào)整.
RetinaNet以輸入數(shù)據(jù)最短邊進(jìn)行適配縮放.為緩解Butterfly_Data圖像縮放形變,同時(shí)避免輸入過(guò)大導(dǎo)致顯存溢出,根據(jù)圖2(b)顯示的Butterfly_Data圖像的寬高比均值(約為1.5),設(shè)定圖像最短邊不低于512像素,最長(zhǎng)邊不超過(guò)768像素.在此基礎(chǔ)上,根據(jù)COCO數(shù)據(jù)集[35]的實(shí)例尺寸劃分方式分析Butterfly_Data的實(shí)例尺寸分布,結(jié)果如表2所示:
Table 2 The Instance Size Distribution of Butterfly_Data
表2顯示,Butterfly_Data的大實(shí)例和中等實(shí)例占比之和超過(guò)95%,小實(shí)例占比為3.89%.Butterfly_Data的大實(shí)例樣本超過(guò)一半((9078-4218)/9078=53.54%)源于標(biāo)本照,中等實(shí)例和小實(shí)例均來(lái)自于生態(tài)照;Test_Butterfly_Data和Butterfly_Data的生態(tài)照實(shí)例分布類似.
對(duì)Butterfly_Data實(shí)例的高寬比進(jìn)行K-means聚類,類簇?cái)?shù)K與原始RetinaNet的縱橫比參數(shù)量保持一致,設(shè)置為3,聚類結(jié)果的簇中心設(shè)為Butterfly_Data的最佳縱橫比.根據(jù)Butterfly_Data的實(shí)例大小情況,將Anchor boxes中的scale范圍偏向小物體.Anchor boxes每個(gè)階段的尺寸設(shè)置和IoU閾值保留原始RetinNet設(shè)置.從而得到本文實(shí)驗(yàn)參數(shù),如表3所示:
Table 3 The Parameter Setting of Anchor Boxes
卷積神經(jīng)網(wǎng)絡(luò)是目前計(jì)算機(jī)視覺(jué)領(lǐng)域的一種主要特征提取技術(shù)[23-24,36-45].ResNet[24]的殘差模塊,一定程度上解決了網(wǎng)絡(luò)退化問(wèn)題,使網(wǎng)絡(luò)能夠有更深層次,從而提取到更抽象的特征.另外,還有不少ResNet的改進(jìn)研究[40,46-48].RetinaNet[6]將ResNet作為Backbone.由于Butterfly_Data的生態(tài)圖像有較復(fù)雜的自然背景,因此,本文選用較深的ResNet[24]以及最新的ResNeSt[48]作為候選Backbone,通過(guò)消融實(shí)驗(yàn),選擇最佳Backbone.
注意力機(jī)制是一種資源分配機(jī)制,可以發(fā)掘原有數(shù)據(jù)的關(guān)聯(lián)性,突出重要特征,被計(jì)算機(jī)視覺(jué)領(lǐng)域關(guān)注[26-29].SENet[26]是由Hu等人提出的一個(gè)網(wǎng)絡(luò)架構(gòu),是由多個(gè)Squeeze-and-Excitation塊堆疊而成(見(jiàn)圖3(a)),本文記為SEA(squeeze-and-excitation with global average pooling),是一種基于特征圖通道的注意力機(jī)制,通過(guò)Squeeze操作整合特征圖不同通道的全局信息,然后利用Excitation模塊為相應(yīng)通道的特征加權(quán),強(qiáng)化對(duì)任務(wù)有效的特征,弱化無(wú)效特征.本文Butterfly_Data生態(tài)圖像中,圖像大部分內(nèi)容是自然背景,蝴蝶只占了小部分區(qū)域,若在Squeeze操作時(shí),直接考慮特征圖全局信息,背景特征會(huì)對(duì)蝴蝶有效特征造成干擾,為此,引入最大池化替換Squeeze操作中的全局平均池化,緩解背景干擾問(wèn)題(見(jiàn)圖3(b)),記為SEM(squeeze-and-excitation with global max pooling).此外,Squeeze-and-Excitation模塊類似編碼-解碼過(guò)程,經(jīng)過(guò)Squeeze操作后的通道向量需要經(jīng)過(guò)Reduction Ratio為16的2層全連接整合全局信息,全連接參數(shù)質(zhì)量影響Squeeze-and-Excitation模塊的性能,但SENet并沒(méi)有對(duì)全連接參數(shù)質(zhì)量進(jìn)行有效約束,直接通過(guò)全局損失函數(shù)來(lái)進(jìn)行梯度更新.針對(duì)此問(wèn)題,本文提出2種硬注意力機(jī)制,分別命名為DSEA(direct squeeze-and-excitation with global average pooling)和DSEM(direct squeeze-and-excitation with global max pooling),將Squeeze操作后的通道向量直接經(jīng)過(guò)ReLu整合,使用Sigmoid輸出對(duì)應(yīng)通道的注意力向量(見(jiàn)圖3(c)~(d)).在RetinaNet的Backbone中分別引入提出的硬注意力機(jī)制DSEA和DSEM,提升RetinaNet在自然環(huán)境中蝴蝶種類識(shí)別的性能.實(shí)驗(yàn)部分將通過(guò)消融實(shí)驗(yàn)驗(yàn)證提出的硬注意力機(jī)制DSEA和DSEM的性能.
Fig. 3 The modules of attention mechanism圖3 注意力機(jī)制模塊
在Butterfly_Data中,不同類蝴蝶甚至同一類蝴蝶可能分布在不同自然場(chǎng)景中,在自然環(huán)境下呈現(xiàn)多種不同形態(tài),加上照片拍攝條件差異,以及蝴蝶對(duì)其生存環(huán)境的擬態(tài)性,使得蝴蝶位置檢測(cè)與分類非常困難.卷積神經(jīng)網(wǎng)絡(luò)具有平移不變性,能夠?qū)?jiǎn)單規(guī)則形態(tài)的物體進(jìn)行有效的特征提取,但對(duì)物體一些角度未知的幾何變換,特征提取性能會(huì)大打折扣[49].解決該問(wèn)題的主要方案有2種:1)通過(guò)充足的數(shù)據(jù)增強(qiáng)提升模型泛化性,然而蝴蝶樣本的局限性,無(wú)法使模型泛化到一般場(chǎng)景中;2)借助具有幾何不變性的特征提取算法來(lái)提取特征,如SIFT(scale-invariant feature transform)[50],DPM(deformable part-based models)[51],STN(spatial transformer networks)[29].然而,方案2中前2種算法為手工設(shè)計(jì)特征,有局限性,不能滿足對(duì)復(fù)雜幾何變換的建模,STN體現(xiàn)了空間注意力機(jī)制思想,通過(guò)學(xué)習(xí)圖像全局仿射,扭曲特征圖實(shí)現(xiàn)圖像特征提取,但無(wú)法有效關(guān)注局部幾何變換.可變形卷積網(wǎng)絡(luò)(deformable convolutional networks, DCN)[30-31]在每個(gè)普通卷積采樣點(diǎn)引入偏移量,讓采樣點(diǎn)可以提取不規(guī)則的特征,關(guān)注物體局部形態(tài)變換.因此,將DCN思想引入RetinaNet的Backbone,增強(qiáng)模型提取特征的能力,達(dá)到具有競(jìng)爭(zhēng)力的蝴蝶位置檢測(cè)與分類性能.
模型可視化[32-33,52-55]能直觀反映模型關(guān)注的區(qū)域,一方面可以驗(yàn)證模型泛化性能,另一方面可以指導(dǎo)后續(xù)研究.類激活映射(class activation mapping, CAM)[55]相比其他可視化研究,能精確突出圖像哪些區(qū)域?qū)δP屯茢嗍侵匾?但CAM在最后一層卷積特征輸出后,需要添加全局平均池化[56],再訓(xùn)練微調(diào)一個(gè)全連接層,經(jīng)過(guò)softmax求得每個(gè)類別得分,然后將全連接權(quán)重作為類別特征映射權(quán)重,在輸入圖像上得到對(duì)應(yīng)類別的激活視圖.Selvaraju等人[32]提出的Grad-CAM不用修改網(wǎng)絡(luò)結(jié)構(gòu),直接通過(guò)反傳梯度獲得類別的特征映射權(quán)重.Chattopadhyay等人[33]進(jìn)一步對(duì)Grad-CAM進(jìn)行擴(kuò)展,提出Grad-CAM++,適配圖像中有同類多目標(biāo)的情況.本文將Test_Butterfly_Data的部分預(yù)測(cè)結(jié)果使用Grad-CAM++可視化.
本文方法的整體框架如圖4所示,其中si(i∈{3,4,5,6,7})表示RetinaNet中第i階段的特征圖,K代表類別數(shù)(本文K=94),A代表特征圖中每個(gè)像素對(duì)應(yīng)的Anchor boxes數(shù)量(本文A=9).從圖4可見(jiàn),本文在RetinaNet模型框架的基礎(chǔ)上,分別采用4種不同的Backbone網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行實(shí)驗(yàn),并將網(wǎng)絡(luò)輸出結(jié)果進(jìn)行類激活可視化.
Fig. 4 The framework of the methods in this paper圖4 本文方法整體框架圖
通過(guò)3.1節(jié)實(shí)驗(yàn)比較,選擇以ImageNet[57]預(yù)訓(xùn)練的RetinaNet的ResNet50為Backbone,實(shí)驗(yàn)代碼基于Detectron2[58].在訓(xùn)練和測(cè)試階段,設(shè)置最短邊為512像素,Anchor機(jī)制中包含3個(gè)scales和3個(gè)aspect ratio.使用隨機(jī)梯度下降算法更新參數(shù),初始學(xué)習(xí)率為0.001,每5輪學(xué)習(xí)率減半,動(dòng)量項(xiàng)權(quán)重為0.9,權(quán)重衰減系數(shù)為0.000 2,訓(xùn)練初期,熱身訓(xùn)練迭代1 000次,學(xué)習(xí)率線性增大.實(shí)驗(yàn)操作系統(tǒng)為Centos 7.8,使用單個(gè)GPU Nvidia GeForce RTX 2070 SUPER訓(xùn)練模型,在損失函數(shù)和驗(yàn)證子集性能變化不顯著時(shí),停止模型訓(xùn)練.
分別將ResNet34,ResNet50,ResNet101,ResNeSt50和ResNeSt101作為RetinaNet的Backbone,Anchor boxes參數(shù)設(shè)置為表3的RetinaNet配置,Test_Butterfly_Data在各模型的測(cè)試結(jié)果如表4所示.
表4實(shí)驗(yàn)結(jié)果顯示,對(duì)野外環(huán)境下的蝴蝶識(shí)別任務(wù),ResNet50作為Backbone時(shí),RetinaNet取得了綜合最優(yōu)的性能,除了mAP@0.75指標(biāo)不是最優(yōu)外,在其余各指標(biāo)均取得最優(yōu)值.因此,本文實(shí)驗(yàn)選用ResNet50作為Backbone.
Table 4 The Results of Test_ Butterfly _Data with Different Backbone in RetinaNet
本節(jié)將測(cè)試表3根據(jù)Butterfly_Data中蝴蝶標(biāo)本照和生態(tài)照的幾何特征差異,并鑒于生態(tài)照實(shí)例的幾何特征,調(diào)整原始RetinaNet的Anchor boxes參數(shù),提高ground-truth boxes與anchors的匹配度,提升模型性能的實(shí)驗(yàn)參數(shù)設(shè)置的合理性.具體策略是:1)將表3原始RetinaNet的Anchor boxes size減半,scale和aspect ratio保持表3的RetinaNet配置不變;2)將表3原始RetinaNet的Anchor boxes size減半,scale和aspect ratio保持表3中我們的配置;3)采用表3中我們的配置參數(shù).表5為上述3種參數(shù)設(shè)置的消融實(shí)驗(yàn)結(jié)果.
表5消融實(shí)驗(yàn)結(jié)果顯示,策略1使RetinaNet模型性能僅在mAP@0.5指標(biāo)有略微的提升,使用更嚴(yán)格的mAP@[0.5,0.95]和mAP@0.75評(píng)價(jià)指標(biāo)時(shí),原始RetinaNet的默認(rèn)配置更有優(yōu)勢(shì),說(shuō)明Anchor boxes size減半影響模型對(duì)Butterfly_Data中大實(shí)例的學(xué)習(xí).策略2使模型的mAP@[0.5,0.95],mAP@0.5和mAP@0.75指標(biāo)相比策略1均有提升,特別是在更嚴(yán)格的mAP@[0.5,0.95]和mAP@0.75評(píng)價(jià)指標(biāo)上比策略1有大的提升,說(shuō)明本文的scale和aspect ratio參數(shù)配置合理且彌補(bǔ)了Anchor boxes size減半帶來(lái)的性能退化.另外,策略2相比于原始RetinaNet模型,在mAP@[0.5,0.95]指標(biāo)性能相當(dāng),但在mAP@0.5和mAP@0.75指標(biāo)優(yōu)于RetinaNet模型,特別是在mAP@0.75指標(biāo)比原始RetinaNet有超過(guò)2%的提升.表5結(jié)果還顯示,策略3采用表3中我們的配置是最優(yōu)的,模型在mAP@[0.5,0.95],mAP@0.5和mAP@0.75指標(biāo)均比原始RetinaNet有較大提升.策略3的Anchor boxes size和原始RetinaNet相同,不同的是scale和aspect ratio參數(shù)配置,進(jìn)一步說(shuō)明本文設(shè)置的scale和aspect ratio參數(shù)非常合理.綜上關(guān)于表5的實(shí)驗(yàn)結(jié)果分析可見(jiàn),本文RetinaNet模型的參數(shù)設(shè)置(見(jiàn)表3)非常合理.
Table 5 Test Results of Test_ Butterfly _Data for Different RetinaNet
圖2(e)關(guān)于實(shí)驗(yàn)數(shù)據(jù)Butterfly_Data的幾何分布顯示,自然環(huán)境中的蝴蝶圖像,蝴蝶實(shí)例占整張圖像面積的比例很小,注意力機(jī)制可以讓模型更關(guān)注實(shí)例區(qū)域,減小背景信息對(duì)目標(biāo)檢測(cè)性能的影響.因此,2.2節(jié)在SENet[26]的SEA和SEM注意力機(jī)制模塊基礎(chǔ)上,提出2種更符合Butterfly_Data識(shí)別的注意力機(jī)制模塊DSEA(圖3(c))和DSEM(圖3(d)).本節(jié)以圖3的SEA,SEM,DSEA和DSEM注意力機(jī)制殘差塊代替ResNet50中的標(biāo)準(zhǔn)殘差塊,使用表3我們的參數(shù)配置進(jìn)行消融實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表6所示:
Table 6 The Ablation Experimental Results by Introducing Different Attention Mechanisms in Different Stages of Our RetinaNet Backbone
表6的實(shí)驗(yàn)結(jié)果顯示:在我們RetinaNet的Backbone的全階段s2~s5引入SEA或DSEA模塊比引入SEM和DSEM模塊能獲得更魯棒的性能,模型的整體評(píng)價(jià)指標(biāo)mAP@[0.5,0.95]得到提升.DSEA模塊在沒(méi)有增加參數(shù)的情況下,使模型整體性能比引入SEA模塊高出0.528%,說(shuō)明提出的硬注意力機(jī)制對(duì)Butterfly_Data的優(yōu)越性,能非常有效地識(shí)別野外環(huán)境中的蝴蝶.
此外,淺層特征圖中,模型可能提取不到目標(biāo)的高級(jí)特征,背景特征會(huì)有較大特征值,因此,將注意力機(jī)制模塊放在模型的后兩階段高層特征層s4~s5,以避免背景特征的干擾.表6后4行的實(shí)驗(yàn)結(jié)果表明,在高層特征層,引入SEM和DSEM模塊的模型比引入SEA和DSEA模塊的模型性能更好,說(shuō)明提出的SEM和DSEM模塊放在高層能學(xué)習(xí)到目標(biāo)更高級(jí)的特征,且硬注意力機(jī)制DSEM比SEM學(xué)習(xí)的特征更好,在無(wú)參數(shù)增加的情況下,使模型的性能達(dá)到了最大的提升.
表6實(shí)驗(yàn)結(jié)果分析可見(jiàn),硬注意力機(jī)制DSEA和DSEM對(duì)不同層的特征抽象程度敏感,DSEA適用于包含淺層特征的情況,DSEM更適用于抽象高層特征.我們的RetinaNet在深層引入DESM能獲得非常好的性能,且需要的參數(shù)最少.
3.3節(jié)實(shí)驗(yàn)測(cè)試表明在我們的RetinaNet中引入注意力機(jī)制,特別是引入提出的硬注意力機(jī)制DSEM使得模型的性能大幅提升,但注意力向量考慮了特征圖每個(gè)通道的全局特征,沒(méi)有考慮特征圖的局部空間信息,因此,本節(jié)使用可變形3×3卷積替換普通3×3卷積,以使模型能夠?qū)W習(xí)到蝴蝶復(fù)雜的形態(tài)特征.實(shí)驗(yàn)使用我們的RetinaNet作為baseline,將可變形卷積殘差塊替換Backbone不同階段的普通卷積殘差塊,測(cè)試可變形卷積對(duì)模型性能的影響;并測(cè)試將連續(xù)兩階段普通卷積用可變形卷積替換對(duì)模型性能的影響;以及將不連續(xù)兩階段的普通卷積替換為可變性卷積的模型性能,甚至將Backbone第2~5階段的普通卷積全部替換為可變形卷積時(shí)的模型性能.消融實(shí)驗(yàn)結(jié)果見(jiàn)表7.
表7實(shí)驗(yàn)結(jié)果顯示:引入可變形卷積后,模型的性能得到提升,這是因?yàn)榭勺冃尉矸e在特征提取時(shí)考慮了特征圖的局部空間特征.然而,在不同層引入可變形卷積的效果不同.在深層s5引入可變形卷積的綜合效果最佳;在連續(xù)2層引入可變形卷積,模型所獲得的性能提升介于分別在2個(gè)單層引入可變形卷積獲得的性能提升之間;在連續(xù)多層引入可變形卷積并沒(méi)有帶來(lái)模型性能的提升,特別是當(dāng)s2~s5層全部引入可變形卷積,模型性能與使用普通卷積獲得的性能類似.由此可見(jiàn),可變形卷積對(duì)自然環(huán)境中的蝴蝶識(shí)別不像對(duì)COCO數(shù)據(jù)集那么有效.分析原因可能是:1)自然環(huán)境中的蝴蝶識(shí)別是細(xì)粒度分類,不同類別蝴蝶形態(tài)差異小且類間樣本分布極不平衡,不足以訓(xùn)練多階段的可變形卷積殘差模塊;2)自然環(huán)境中的蝴蝶圖像包含豐富的背景,可變形卷積在淺層特征中容易關(guān)注過(guò)多背景特征.
Table 7 The Ablation Experimental Results of Introducing DCN Module in Our RetinaNet
由此可見(jiàn),可變形卷積不需要太多引入,只需要在高層引入可變性卷積即可較大幅度提升模型性能.
3.3節(jié)驗(yàn)證了提出的DSEM模塊的優(yōu)越性能,本節(jié)將DSEM添加到包含可變形卷積的我們的RetinaNet的Backbone,對(duì)可變形卷積殘差塊輸出的不同通道特征進(jìn)行進(jìn)一步篩選.用dconv_DSEM@si表示在Backbone第i階段引入帶有DSEM的可變形卷積殘差模塊,dconv_DSEM@si~sj代表在Backbone第i~j階段引入帶有DSEM的可變形卷積殘差模塊,其他階段均為普通卷積殘差模塊.消融實(shí)驗(yàn)結(jié)果如表8所示:
Table 8 The Ablation Experimental Results by Introducing DCN with DSEM Module in Our RetinaNet
表8消融實(shí)驗(yàn)結(jié)果顯示,在mAP@0.75這種更嚴(yán)格的評(píng)價(jià)指標(biāo)下,將DSEM添加到s2~s5階段的可變形卷積,對(duì)可變形卷積殘差塊輸出的不同通道特征進(jìn)行篩選,可使模型的性能大幅提升,優(yōu)于沒(méi)有可變形卷積的RetinaNet模型,也優(yōu)于在對(duì)應(yīng)階段僅加入可變形卷積(表7實(shí)驗(yàn)結(jié)果:69.283%)或者DSEM模塊(表6實(shí)驗(yàn)結(jié)果:68.986%)的模型性能.根據(jù)表8的模型整體評(píng)價(jià)指標(biāo)mAP@[0.5,0.95]可見(jiàn),加入帶有DSEM的可變形卷積殘差模塊,不僅彌補(bǔ)了DSEM對(duì)特征層級(jí)敏感的不足,也增強(qiáng)了可變形卷積的魯棒性.對(duì)比表7的實(shí)驗(yàn)結(jié)果可見(jiàn),DSEM結(jié)合可變形卷積殘差模塊應(yīng)用在Backbone的第5階段,模型的整體性能mAP@[0.5,0.95]=64.291%低于該階段僅用可變形卷積的效果(表7實(shí)驗(yàn)結(jié)果:65.290%),說(shuō)明在較高抽象特征層,使用可變形卷積能提取更有效的特征,若再經(jīng)過(guò)通道特征篩選,可能造成有效特征丟失,但從較嚴(yán)格的評(píng)價(jià)指標(biāo)mAP@0.75可以看出,加入帶有DSEM的可變形卷積殘差模塊,可以讓模型對(duì)預(yù)測(cè)框的回歸更好.
在此基礎(chǔ)上,組合DSEA和DSEM兩個(gè)硬注意力模塊,在Backbone網(wǎng)絡(luò)淺層(2~3階段)引入帶有DSEA的可變形卷積殘差模塊,深層(4~5階段)引入帶有DSEM的可變形卷積殘差模塊,該模型記為dconv_MIX_1@s2~s5;并與淺層(2~3層)只引入可變形卷積殘差模塊,深層(4~5層)引入帶有DSEM的可變形卷積殘差模塊的網(wǎng)絡(luò)模型進(jìn)行對(duì)照,該模型記為dconv_MIX_2@s2~s5.消融實(shí)驗(yàn)結(jié)果如表9所示.
表9實(shí)驗(yàn)結(jié)果顯示,模型第2~3階段僅使用可變形卷積殘差模塊,4~5階段使用帶有DESM的可變形卷積的效果優(yōu)于第2~3階段使用帶有DSEA的可變形卷積殘差模塊,4~5階段使用帶有DESM的可變形卷積模塊.
Table 9 The Ablation Experimental Results by Introducing DSEA+DSEM Module in Our RetinaNet
綜合3.2~3.5節(jié)的實(shí)驗(yàn)結(jié)果可見(jiàn),為實(shí)現(xiàn)自然環(huán)境中的蝴蝶識(shí)別,ResNet50是合適的網(wǎng)絡(luò)結(jié)構(gòu),根據(jù)Butterfly_Data的幾何特征,調(diào)整RetinNet的Anchor boxes參數(shù)可得到很好的蝴蝶識(shí)別模型,在此基礎(chǔ)上,引入注意力機(jī)制、可變形卷積及兩者的組合,可得到更優(yōu)的預(yù)測(cè)模型.mAP@[0.5,0.95]整體評(píng)價(jià)指標(biāo)最優(yōu)為65.290%(表7),mAP@0.5指標(biāo)最優(yōu)為81.208%(表8),mAP@0.75指標(biāo)最優(yōu)為73.276%(表8).對(duì)比僅使用單一mAP@0.5作為評(píng)價(jià)指標(biāo)的Xie等人[16]的最優(yōu)結(jié)果76.1%、Liang等人[21]的最優(yōu)結(jié)果79.8%和Xie等人[25]的最優(yōu)結(jié)果79.71%,本文取得了該領(lǐng)域最好的實(shí)驗(yàn)結(jié)果81.208%(表8),且采用了更全面的評(píng)價(jià)指標(biāo).
需要說(shuō)明的是,由于不同評(píng)價(jià)指標(biāo)設(shè)置的IoU閾值不同,使得各項(xiàng)指標(biāo)未必在同一網(wǎng)絡(luò)結(jié)構(gòu)同時(shí)取得最優(yōu)值,IoU閾值設(shè)置越高,對(duì)應(yīng)的mAP值則越低;不同指標(biāo)還存在一定局限性;另外,不同網(wǎng)絡(luò)結(jié)構(gòu)對(duì)同一數(shù)據(jù)集提取的特征會(huì)存在差異,直接或間接影響模型的各評(píng)價(jià)指標(biāo)值.各項(xiàng)指標(biāo)對(duì)比發(fā)現(xiàn),模型dconv_DSEM@s4~s5(表8)是本文最佳的網(wǎng)絡(luò)結(jié)構(gòu),在野外環(huán)境的蝴蝶識(shí)別任務(wù)中取得了最好的性能.
評(píng)價(jià)指標(biāo)mAP只能反映模型的檢測(cè)與分類性能,不能解釋模型具體“看”到了什么.本節(jié)采用類激活圖方法,解釋模型“看”到的具體內(nèi)容.圖5中②~⑩列分別展示了不同模型的預(yù)測(cè)結(jié)果和對(duì)應(yīng)的類激活圖,1~4行4幅圖像均為測(cè)試集數(shù)據(jù),其中1,2,3號(hào)圖像分別包含單個(gè)大、中、小蝴蝶實(shí)例,4號(hào)圖像包含多個(gè)小實(shí)例,可視化中取分類得分最高的預(yù)測(cè)結(jié)果.9種不同模型均檢測(cè)到了圖像中的實(shí)例.
圖5的實(shí)驗(yàn)結(jié)果顯示,本文各模型,特別是模型⑧~⑩提取的特征更關(guān)注的是蝴蝶翅膀的特征,因此其性能更好.這與昆蟲(chóng)學(xué)家進(jìn)行蝴蝶分類的依據(jù)一致.
Fig. 5 CAM visualization of several predictive results of different models圖5 不同模型部分預(yù)測(cè)結(jié)果的類激活圖可視化
為進(jìn)一步探究本文提出模型的性能提升原因,對(duì)圖5模型②的預(yù)測(cè)結(jié)果和圖5模型⑩的預(yù)測(cè)結(jié)果進(jìn)行統(tǒng)計(jì)分析,統(tǒng)計(jì)結(jié)果如圖6所示.圖6中每幅圖上半部分為散點(diǎn)圖,下半部分為頻率直方圖和核密度估計(jì)曲線.圖6(a)~(b)展示了圖5模型②預(yù)測(cè)結(jié)果與測(cè)試集所有實(shí)例的交并比(IoU)和分類得分(Score)分布,圖6(c)~(d)對(duì)應(yīng)圖5模型⑩.
圖6關(guān)于原始RetinaNet模型和本文提出的RetinaNet+dconv_DSEM@s4~s5模型預(yù)測(cè)結(jié)果的統(tǒng)計(jì)分析結(jié)果顯示:圖5模型⑩的IoU和分類得分均比原始RetinaNet好,尤其在分類得分方面,提出的圖5模型⑩有更突出的表現(xiàn),這有利于模型后處理階段選擇與Ground-truth boxesIoU更高的預(yù)測(cè)框.
圖6統(tǒng)計(jì)結(jié)果中IoU和分類得分均為0的漏檢實(shí)例嚴(yán)重影響模型性能.使用圖5模型⑩的結(jié)果,分別統(tǒng)計(jì)漏檢實(shí)例在測(cè)試集對(duì)應(yīng)類別的占比情況,結(jié)果如圖7所示,橫坐標(biāo)是測(cè)試集各類別對(duì)應(yīng)實(shí)例數(shù)量由小到大排序生成的類別索引,縱坐標(biāo)為比例值,NoI代表實(shí)例數(shù)量(number of instance),定義不超過(guò)10個(gè)實(shí)例的類為少樣本類別,反之為多樣本類別,圖像的整體漏檢率表示所有漏檢實(shí)例數(shù)目占測(cè)試集所有實(shí)例數(shù)目的比例.
Fig. 6 Distributions of IoU and classification Score of Fig. 5’s models ② and ⑩圖6 圖5模型②、模型⑩的IoU和分類Score分布
Fig. 7 Ratio of each category missed detection instances in Test_Butterfly_Data of Fig. 5’s model ⑩圖7 圖5模型⑩對(duì)測(cè)試集的漏檢實(shí)例在測(cè)試集對(duì)應(yīng)類別實(shí)例的占比
圖7結(jié)果顯示:在模型推斷過(guò)程中,測(cè)試集中少樣本類別的漏檢比例較大,這應(yīng)該與數(shù)據(jù)集類別分布不平衡有關(guān),模型對(duì)少樣本類別的特征學(xué)習(xí)不足,以至于分類錯(cuò)誤,整體漏檢率為7.52%.下面通過(guò)實(shí)驗(yàn)測(cè)試,驗(yàn)證平衡數(shù)據(jù)集可提升本文提出模型的性能,降低漏檢率.
文獻(xiàn)[25]對(duì)競(jìng)賽中的蝴蝶圖像重新劃分訓(xùn)練集和測(cè)試集,對(duì)訓(xùn)練集應(yīng)用平衡擴(kuò)增策略,得到類別分布平衡且標(biāo)注良好的蝴蝶訓(xùn)練數(shù)據(jù)集aug-eco-1,對(duì)應(yīng)測(cè)試集見(jiàn)文獻(xiàn)[25]描述,實(shí)驗(yàn)結(jié)果如表10所示.其中模型1和模型2均為RetinaNet網(wǎng)絡(luò),不同之處在于模型1為表3的原始RetinaNet配置.模型2借助K-means確定針對(duì)訓(xùn)練數(shù)據(jù)集aug-eco-1的RetinaNet模型的Anchor boxes aspect ratio和scale.模型3為本文提出的RetinaNet模型dconv_DSEM@s4~s5,Anchor boxes參數(shù)設(shè)置與模型2一致.
Table 10 Corresponding Test Results of Different RetinaNet Trained by aug-eco-1 from Ref [25]
表10結(jié)果顯示,采用類別分布平衡的自然環(huán)境中蝴蝶數(shù)據(jù)集aug-eco-1訓(xùn)練提出模型,所得模型具有更強(qiáng)大的泛化性能,說(shuō)明本文提出的模型加上分布均衡的訓(xùn)練數(shù)據(jù)集,可以得到更強(qiáng)的自然環(huán)境下蝴蝶種類識(shí)別系統(tǒng).
根據(jù)表10中模型3的結(jié)果,分別統(tǒng)計(jì)漏檢實(shí)例在測(cè)試集對(duì)應(yīng)類別的占比情況,結(jié)果如圖8所示,圖中橫縱坐標(biāo)及圖例信息與圖7一致.
圖8結(jié)果顯示:使用類別分布平衡的訓(xùn)練集,訓(xùn)練所得模型的少樣本類別漏檢率可以得到一定程度的緩解,整體漏檢率降至4.37%,但漏檢實(shí)例仍然集中在少樣本類別.
Fig. 8 Ratio of each class missed detection instances in corresponding test subset of model 3 in Table 10圖8 表10中模型3對(duì)應(yīng)測(cè)試集的漏檢實(shí)例在測(cè)試集對(duì)應(yīng)類別的實(shí)例占比
表10和圖8結(jié)果表明,使用類別分布平衡的訓(xùn)練數(shù)據(jù)集訓(xùn)練模型,所得模型的性能提升有限,說(shuō)明數(shù)據(jù)集類別分布平衡與否會(huì)影響模型性能,但還不是影響模型性能的關(guān)鍵因素.
為進(jìn)一步探索影響模型預(yù)測(cè)性能的關(guān)鍵因素,使用本文的Test_Butterfly_Data對(duì)訓(xùn)練好的模型3進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表11所示.
表11結(jié)果顯示,用Test_Butterfly_Data測(cè)試訓(xùn)練好的模型3時(shí),各項(xiàng)指標(biāo)明顯增強(qiáng),主要原因是Test_Butterfly_Data和訓(xùn)練模型3的aug-eco-1數(shù)據(jù)集有部分?jǐn)?shù)據(jù)重合,即訓(xùn)練集中包含了部分測(cè)試集數(shù)據(jù),因此模型3在Test_Butterfly_Data的表現(xiàn)遠(yuǎn)超過(guò)表8結(jié)構(gòu)完全一樣的dconv_DSEM@s4~s5模型.根據(jù)以上分析,可以猜想訓(xùn)練集和測(cè)試集數(shù)據(jù)差異是影響模型性能的關(guān)鍵因素.下面通過(guò)模型預(yù)測(cè)結(jié)果可視化,驗(yàn)證這一猜想.
Table 11 Test Results of Different Test Subsets Against Well-trained Model 3 in Table 10
3.2~3.5節(jié)的消融實(shí)驗(yàn)顯示本文提出的RetinaNet模型dconv@s5的綜合評(píng)價(jià)指標(biāo)mAP@[0.5,0.95]表現(xiàn)最佳(65.290%).下面統(tǒng)計(jì)該模型預(yù)測(cè)結(jié)果中的正確檢測(cè)實(shí)例和漏檢實(shí)例及所在圖像,然后與訓(xùn)練集中對(duì)應(yīng)類別的實(shí)例及圖像分別計(jì)算結(jié)構(gòu)相似性指數(shù)SSIM Index(structural similarity index)[59]和圖像均值感知Hash相似性MPHash(mean perceptual hashing)[60],將每個(gè)實(shí)例和圖像的最高相似性得分可視化,如圖9所示.其中,圖9(a)為測(cè)試集所有圖像的SSIM Index散點(diǎn)圖,橫坐標(biāo)為圖像索引,縱坐標(biāo)為相似度得分;圖9(b)為測(cè)試集所有實(shí)例的SSIM Index散點(diǎn)圖,橫坐標(biāo)為實(shí)例索引,縱坐標(biāo)為相似度得分;圖9(c)為測(cè)試集所有圖像的MPHash相似性散點(diǎn)圖,橫坐標(biāo)為圖像索引,縱坐標(biāo)為相似度得分;圖9(d)為測(cè)試集所有實(shí)例的MPHash相似性散點(diǎn)圖,橫坐標(biāo)為實(shí)例索引,縱坐標(biāo)為相似度得分.
Fig. 9 Plots of SSIM Index and MPHash圖9 結(jié)構(gòu)相似性指數(shù)和均值感知Hash相似性散點(diǎn)圖
圖9(a)~(d)結(jié)果顯示,測(cè)試集中正確檢測(cè)樣本與訓(xùn)練集樣本最大相似度均值普遍高于漏檢樣本與訓(xùn)練集樣本的最大相似度均值,說(shuō)明模型對(duì)與訓(xùn)練集樣本相似性更高的數(shù)據(jù)推斷更準(zhǔn)確.其中,圖9(a)~(b)均使用SSIM Index相似性,從亮度、對(duì)比度和結(jié)構(gòu)3方面衡量2個(gè)對(duì)象的相似性,不同在于,圖9(a)是測(cè)試集圖像與訓(xùn)練集圖像的相似性,考慮圖像的前景和背景,圖9(b)是測(cè)試集實(shí)例與訓(xùn)練集實(shí)例的相似性,只考慮前景.圖9(a)相似性得分明顯高于圖9(b),說(shuō)明圖像背景可以輔助檢測(cè).
圖9(c)~(d)使用MPHash算法,從結(jié)構(gòu)單方面度量相似度,圖9(c)是測(cè)試集圖像與訓(xùn)練集圖像的結(jié)構(gòu)相似性,考慮圖像的前景和背景,圖9(d)是測(cè)試集實(shí)例與訓(xùn)練集實(shí)例的結(jié)構(gòu)相似性,只考慮前景.圖9(c)和(d)的最大相似度均值顯示,正確檢測(cè)的樣本與訓(xùn)練集樣本的結(jié)構(gòu)相似性更近,說(shuō)明正確檢測(cè)的樣本背景和前景均有較高的結(jié)構(gòu)相似性;而圖9(c)的漏檢樣本與訓(xùn)練集樣本的圖像相似性低于圖9(d)的漏檢樣本與訓(xùn)練集樣本的實(shí)例相似性,說(shuō)明漏檢樣本背景差異較大.
比較圖9(a)和圖9(c)中正確檢測(cè)樣本和漏檢樣本的最大相似度均值之差發(fā)現(xiàn),圖9(c)使用MPHash算法的差異更明顯.這一現(xiàn)象在圖9(b)和(d)也存在.由此可見(jiàn),圖像結(jié)構(gòu)差異是導(dǎo)致漏檢的關(guān)鍵,同時(shí),也驗(yàn)證了上文猜想的正確性.
Fig. 10 MPHash visualization of instances圖10 實(shí)例樣本均值Hash可視化
圖10顯示了部分漏檢實(shí)例和正確檢測(cè)實(shí)例的MPHash變換圖像的可視化結(jié)果,為凸顯圖像結(jié)構(gòu)細(xì)節(jié),將原圖縮放至128×128像素得到對(duì)應(yīng)的MPHash圖.圖10(a)為漏檢實(shí)例,圖10(b)為正確檢測(cè)實(shí)例,每幅圖中前2列為測(cè)試集實(shí)例和對(duì)應(yīng)的MPHash變換圖像,后2列是與對(duì)應(yīng)測(cè)試集實(shí)例類別相同且MPHash相似性最大的訓(xùn)練集實(shí)例及其對(duì)應(yīng)的MPHash變換圖像.圖10可視化結(jié)果顯示,測(cè)試集漏檢樣本與其在訓(xùn)練集最大相似樣本的結(jié)構(gòu)差異非常大,測(cè)試集中被正確檢測(cè)樣本與其在訓(xùn)練集的相似性最大樣本的結(jié)構(gòu)差異較小.這與圖9的可視化分析所得結(jié)論一致,再次說(shuō)明了野外環(huán)境下的蝴蝶種類識(shí)別,樣本的結(jié)構(gòu)相似性更重要.
本文提出了依據(jù)數(shù)據(jù)幾何結(jié)構(gòu)特征配置Retina-Net網(wǎng)絡(luò)的Anchor boxes參數(shù),實(shí)現(xiàn)自然環(huán)境下蝴蝶種類識(shí)別的有效參數(shù)配置策略.本文提出了2種硬注意力機(jī)制模塊DSEA和DSEM,并引入可變形卷積替代普通卷積的殘差塊,構(gòu)建可變形卷積與DSEA,DSEM組合的改進(jìn)RetinaNet模型,實(shí)現(xiàn)自然環(huán)境下的蝴蝶檢測(cè)與分類.大量消融實(shí)驗(yàn)驗(yàn)證了提出的模型對(duì)自然環(huán)境下蝴蝶識(shí)別任務(wù)的有效性.模型預(yù)測(cè)結(jié)果可視化顯示,模型在蝴蝶分類過(guò)程中更關(guān)注蝴蝶的翅膀特征,與專家辨識(shí)蝴蝶的方法相同;模型結(jié)果的可視化還發(fā)現(xiàn),野外環(huán)境下的蝴蝶分類,樣本的結(jié)構(gòu)相似性對(duì)模型性能影響更大.
然而,如何使模型自適應(yīng)地依賴數(shù)據(jù)幾何特征設(shè)置Anchor boxes參數(shù)有待進(jìn)一步研究;如何克服由于拍攝角度等不同帶來(lái)的同類樣本的巨大結(jié)構(gòu)差異,從而導(dǎo)致的模型漏檢問(wèn)題,是需要進(jìn)一步探索和解決的挑戰(zhàn)性問(wèn)題.