国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種遷移學(xué)習(xí)和可變形卷積深度學(xué)習(xí)的蝴蝶檢測(cè)算法

2019-10-14 06:45李策張棟杜少毅朱子重賈盛澤曲延云
自動(dòng)化學(xué)報(bào) 2019年9期
關(guān)鍵詞:蝴蝶卷積變形

李策 張棟 杜少毅 朱子重 賈盛澤 曲延云

蝴蝶種類的識(shí)別與鑒定在農(nóng)林業(yè)生產(chǎn)與保護(hù)、藝術(shù)生活等方面均具有重要意義.蝴蝶種類極其豐富多樣,《世界蝴蝶分類名錄》[1]記錄了世界蝴蝶17 科、47 亞科、1 690 屬、15 141 種,其中記載中國蝴蝶12 科、33 亞科、434 屬、2 153 種.自2016 年我國環(huán)境保護(hù)部啟動(dòng)了蝴蝶多樣性觀測(cè)工作[2],全國蝴蝶觀測(cè)數(shù)據(jù)庫的數(shù)據(jù)量呈現(xiàn)海量增長.如何對(duì)生態(tài)蝴蝶及時(shí)且準(zhǔn)確地檢測(cè),這對(duì)昆蟲分類學(xué)專家是一個(gè)很大的挑戰(zhàn).因此,自然生態(tài)蝴蝶種類檢測(cè)問題已成為促進(jìn)蝴蝶相關(guān)領(lǐng)域研究與應(yīng)用的關(guān)鍵問題之一.

隨著機(jī)器學(xué)習(xí)發(fā)展與應(yīng)用,為實(shí)現(xiàn)蝴蝶自動(dòng)、快速、準(zhǔn)確地檢測(cè)與識(shí)別創(chuàng)造了有利條件.2013 年Kang 等[3]提出了一種基于分支長度相似熵的形狀識(shí)別方法,使用BLS 熵譜(Branch length similarity,BLS)作為BP 神經(jīng)網(wǎng)絡(luò)的輸入特征訓(xùn)練網(wǎng)絡(luò)來識(shí)別蝴蝶.2014 年Kaya 等[4]先后嘗試了Gabor 特征、顏色和紋理特征與極限學(xué)習(xí)機(jī)、人工神經(jīng)網(wǎng)絡(luò)以及Logistic 回歸等方法相結(jié)合,探討蝴蝶自動(dòng)識(shí)別方法.2015 年李凡[5]提出基于蝴蝶形態(tài)與紋理分布規(guī)律的特征提取與優(yōu)化方法,采用改進(jìn)的K 最近鄰[6](K-nearest neighbor,KNN)分類算法進(jìn)行分類,研究并實(shí)現(xiàn)了50 種蝴蝶的自動(dòng)分類方法.近年來,基于深度學(xué)習(xí)的蝴蝶目標(biāo)檢測(cè)取得了良好的檢測(cè)結(jié)果,主要原因是卷積神經(jīng)網(wǎng)絡(luò)可直接從圖像像素級(jí)提取具有更加強(qiáng)大表征力的特征[7?8].2016 年Liu 等[9]使用基于全局對(duì)比區(qū)域的方法來計(jì)算病蟲害目標(biāo)位置的顯著性特征圖,再由深度卷積補(bǔ)綴網(wǎng)絡(luò)(Deep convolution neural network,DCNN)對(duì)圖像特征進(jìn)行分類,但此方法未考慮目標(biāo)與背景相似等實(shí)例.2017 年周愛明等[10]使用CaffeNet 模型在蝴蝶標(biāo)本圖像和180 幅生態(tài)蝴蝶圖像上,通過訓(xùn)練不同的后驗(yàn)概率支持向量機(jī)做分類器來實(shí)現(xiàn)蝴蝶分類.以上算法大多是對(duì)標(biāo)本模式照進(jìn)行識(shí)別,不能直接應(yīng)用在生態(tài)蝴蝶的檢測(cè)問題上.2018 年謝娟英等[11]構(gòu)建基于Faster R-CNN[12]的蝴蝶自動(dòng)檢測(cè)系統(tǒng),采用蝴蝶模式照?qǐng)D像和生態(tài)照?qǐng)D像對(duì)其模型進(jìn)行訓(xùn)練,然后在蝴蝶生態(tài)照片中實(shí)現(xiàn)對(duì)94類蝴蝶的自動(dòng)檢測(cè),并使用ZF[13]、VGG_CNN_M1024[14]、VGG16[15]三種預(yù)訓(xùn)練網(wǎng)絡(luò)做算法自身對(duì)比實(shí)驗(yàn),并且均優(yōu)于對(duì)比算法YOLO-v2[16]、YOLO-v3[17]模型.

綜上所述,現(xiàn)有的生態(tài)蝴蝶檢測(cè)任務(wù)與相關(guān)算法目前仍存在以下三個(gè)問題:1)算法基本以蝴蝶標(biāo)本模式照?qǐng)D像進(jìn)行識(shí)別研究,偏向于單純的分類任務(wù),而在生態(tài)照?qǐng)D像上的拓展能力較弱;2)所使用的數(shù)據(jù)集中包含的蝴蝶類別偏少,因此建立的識(shí)別模型泛化能力較低;3)對(duì)蝴蝶的分類一般到科級(jí),而對(duì)亞科到種名的精細(xì)區(qū)分較為困難.

由于采集的蝴蝶生態(tài)照?qǐng)D像常會(huì)受到光照和觀察點(diǎn)變化的影響,多種類蝴蝶目標(biāo)檢測(cè)任務(wù)則成為了挑戰(zhàn)性的視覺檢測(cè)任務(wù)之一.在自然生態(tài)照蝴蝶檢測(cè)任務(wù)數(shù)據(jù)集[11]上更具挑戰(zhàn)性的因素有:1)待檢測(cè)的蝴蝶生態(tài)圖像分辨率迥異(最大7 630 像素~4 912 像素與最小800 像素~450 像素),且蝴蝶類別要求細(xì)分至種名;2)94 類蝴蝶多特征與多尺度,且形態(tài)變化較大;3)背景復(fù)雜:蝴蝶與背景相似性高;4)蝴蝶重疊、曝光不足進(jìn)一步導(dǎo)致檢測(cè)難等.如圖1 所示為蝴蝶生態(tài)照示例.

針對(duì)上述問題和挑戰(zhàn),本文提出了一種基于遷移學(xué)習(xí)和可變形卷積深度神經(jīng)網(wǎng)絡(luò)的蝴蝶檢測(cè)算法(TDDNET),可對(duì)蝴蝶自然生態(tài)照中不同種名的94類蝴蝶實(shí)現(xiàn)較高精度檢測(cè).

圖1 蝴蝶生態(tài)照示例圖[11]Fig.1 Examples of butterfly ecology[11]

1 本文所提算法

本文提出了一種基于遷移學(xué)習(xí)和可變形卷積深度神經(jīng)網(wǎng)絡(luò)的蝴蝶檢測(cè)算法(TDDNET).主要包括底層特征學(xué)習(xí)和模型遷移兩個(gè)階段,所提算法框架如圖2 所示,在第一階段構(gòu)建了二分類檢測(cè)網(wǎng)絡(luò)(DNET-base)強(qiáng)化特征學(xué)習(xí)能力;第二階段則由模型遷移方法優(yōu)化TDDNET 的檢測(cè)性能.其中,第一階段又分為兩個(gè)部分:1)通過可變形卷積模型重建ResNet-101[18]特征提取層;2)結(jié)合RPN[12]網(wǎng)絡(luò)構(gòu)建一個(gè)二分類檢測(cè)網(wǎng)絡(luò)(DNET-base),對(duì)蝴蝶目標(biāo)和背景進(jìn)行分離訓(xùn)練,增強(qiáng)網(wǎng)絡(luò)對(duì)蝴蝶特征學(xué)習(xí)能力,使得網(wǎng)絡(luò)對(duì)蝴蝶的檢出率更高.而第二階段則可分為三個(gè)部分:1)以DNET-base 網(wǎng)絡(luò)模型為基礎(chǔ),保持特征提取網(wǎng)絡(luò)模塊的參數(shù)不變;2)重新構(gòu)建RoI[12]池化模塊,以RPN 網(wǎng)絡(luò)指導(dǎo)敏感位置區(qū)域可變形RoI 池化過程,獲得多尺度目標(biāo)的評(píng)分特征圖和精準(zhǔn)位置信息;3)通過Soft-max 和Soft-NMS[19]進(jìn)行多分類優(yōu)化,最終形成TDDNET模型.

圖2 本文所提算法TDDNET 的原理框架示意圖Fig.2 Schematic diagram of TDDNETs principle framework proposed in this paper

在模型訓(xùn)練過程中:先將蝴蝶數(shù)據(jù)歸為一類,通過訓(xùn)練重構(gòu)的可變形卷積ResNet-101 使得DNETbase 模型對(duì)蝴蝶特征的提取能力最大化;而后將DNET-base 特征提取網(wǎng)絡(luò)和參數(shù)遷移至TDDNET模型,再重新訓(xùn)練TDDNET 的多分類器.這種方法可使TDDNET 網(wǎng)絡(luò)的收斂性變得更快更穩(wěn)定.下面,將本文所提算法詳述如下.

1.1 可變形卷積

在蝴蝶的自然生態(tài)照中,蝴蝶多姿多樣,色彩斑斕,并且部分蝴蝶偽裝能力極強(qiáng).因此通過大量數(shù)據(jù)與數(shù)據(jù)增強(qiáng)使常規(guī)卷積網(wǎng)絡(luò)完全“記憶”生態(tài)蝴蝶的多樣變化較為困難.因?yàn)槌R?guī)卷積網(wǎng)絡(luò)在構(gòu)建模型變換時(shí)被限制于固定的幾何結(jié)構(gòu),這種局限性決定了卷積單元在輸入圖像上只能在固定位置上采樣,造成卷積層提取的特征表征能力較弱.在類似卷積的池化過程也只能在固定的比例下降低特征空間分辨率,致使特征丟失嚴(yán)重,進(jìn)一步導(dǎo)致?lián)p失函數(shù)的擬合能力弱和網(wǎng)絡(luò)檢測(cè)精度較差.為解決上述問題,本文所提算法中采用Dai 等[20]提出的可變形卷積模型,重新構(gòu)建ResNet[18]網(wǎng)絡(luò)結(jié)構(gòu),以及RoI 興趣區(qū)域池化模型來提升網(wǎng)絡(luò)檢測(cè)性能.如圖3 所示,為常規(guī)卷積與可變形卷積采樣方式示例.

可變形的卷積模型引入了空間幾何形變的學(xué)習(xí)能力,從而更好地適應(yīng)空間形變的目標(biāo)特征提取與目標(biāo)檢測(cè)任務(wù).如圖3(b)~3(d)所示,在可變形卷積中將常規(guī)的網(wǎng)格拓展為擁有偏置量{?pn|n=1,···,N}的偏置矩陣Offset,其中N=|R|.對(duì)輸入圖像中的每一個(gè)在p0位置上的變形卷積如式(1)所示.

圖3 常規(guī)卷積和可變形卷積[22] 的采樣方式示例Fig.3 The instances of traditional and deformable convolution[22]

其中,?pn為偏置量,且是一個(gè)分?jǐn)?shù),ω(?)為采樣點(diǎn)權(quán)重.然而,這樣的操作引入了一個(gè)新問題,即需要對(duì)不連續(xù)的位置變量求導(dǎo).借鑒Jaderberg 等[21]的雙線性插值的思想來求解.偏置矩陣通過一個(gè)同輸入圖像一樣大小的卷積層學(xué)習(xí)而來,如圖4 所示,即獲得的偏置域的大小與輸入圖像的大小一致,其中通道維度2N對(duì)應(yīng)N個(gè)二維的偏置矩陣.卷積核與現(xiàn)有的卷積一樣具有相同的空間解析度和擴(kuò)展度(如在圖4 中3×3 的核擴(kuò)展度為1).同樣,將得到的特征圖送入下一個(gè)卷積層時(shí),采用一樣的可變形卷積模型提取特征.在訓(xùn)練時(shí),同時(shí)學(xué)習(xí)用于產(chǎn)生輸出特征的卷積內(nèi)核和偏置矩陣.

圖4 3×3 可變形卷積特征計(jì)算過程示例Fig.4 An example of deformable convolution feature calculation process(3×3)

因偏置矩陣使卷積的采樣位置可自由變換,偏置矩陣定義了R接受域的大小和擴(kuò)張量,所以可變形卷積的偏置域指向的采樣點(diǎn)對(duì)目標(biāo)趨向性較強(qiáng),則輸出特征信息就較多.這種自適應(yīng)確定蝴蝶形變尺度和蝴蝶位置的方法在檢測(cè)中是非常有效的.如圖5 所示,當(dāng)可變形卷積效果堆疊時(shí),其模型的復(fù)合變形對(duì)特征提取能力的提升影響也較大.

圖5 兩種卷積在網(wǎng)絡(luò)中的計(jì)算過程Fig.5 The computation of both convolutions in networks

1.2 可變形的位置敏感興趣區(qū)域池化

為了獲得自然生態(tài)圖像中蝴蝶的位置和分類,所提算法采用了位置敏感興趣區(qū)域[22](Position sensitive RoI pooling,PS RoI)池化來構(gòu)建TDDNE 的分類器.隨著網(wǎng)絡(luò)的加深,其平移旋轉(zhuǎn)不變性越強(qiáng),這個(gè)性質(zhì)對(duì)于保證分類模型的魯棒性具有積極意義.然而,在檢測(cè)問題中,過度的平移旋轉(zhuǎn)不變性,又使得網(wǎng)絡(luò)對(duì)目標(biāo)位置信息的感知能力削弱.因此,在蝴蝶檢測(cè)中考慮到特征提取和對(duì)小目標(biāo)檢測(cè)邊框?qū)R問題,采取與可變形卷積一樣的結(jié)構(gòu)策略來構(gòu)建區(qū)域空間可變形的敏感位置RoI 池化過程.同時(shí),取消特征聚集過程中的量化操作,使用雙線性插值的方法獲得浮點(diǎn)數(shù)的像素坐標(biāo),讓整個(gè)特征聚集過程轉(zhuǎn)換為一個(gè)連續(xù)量的操作,最后進(jìn)行均值池化.如圖6 所示,為可變形的位置敏感RoI池化.

圖6 可變形的位置敏感RoI 池化示意Fig.6 Deformable pooling of position sensitive RoI

首先,利用卷積產(chǎn)生特征圖的偏置域,由于RoI 池化將RoI 區(qū)域分成k × k塊(k為可調(diào)參數(shù)),因此通過一個(gè)全卷積層可產(chǎn)生偏置量矩陣{?pij|0≤i,j

其中,?pij仍是一個(gè)分?jǐn)?shù),nij是區(qū)域塊位置上的像素?cái)?shù)且這個(gè)全卷積層是通過反向傳播學(xué)習(xí)得來.因?yàn)樵诳勺冃蔚腜S RoI 池化后得到固定大小的k×k區(qū)域塊特征,直接用全連接層歸一化即可得到k×k個(gè)偏置域但是這些偏置域并不能直接使用,因?yàn)镽oI 區(qū)域大小不一致,而且輸入特征圖的寬w和高h(yuǎn)也不一致,故采用一個(gè)增益γ=0.1 加以矯正,與(w,h)點(diǎn)乘可得真值

1.3 構(gòu)建蝴蝶檢測(cè)網(wǎng)絡(luò)TDDNET 框架

階段1(DNET-base).考慮到數(shù)據(jù)集中蝴蝶種類數(shù)量分布不均等性和蝴蝶種類形態(tài)之間的相似性,本文先設(shè)計(jì)了一種基于可變形卷積模型的二分類檢測(cè)網(wǎng)絡(luò)(簡稱DNET-base),強(qiáng)化網(wǎng)絡(luò)對(duì)特征的學(xué)習(xí)能力.如圖8 中的第一階段參數(shù)與二分類過程所示,所建網(wǎng)絡(luò)包括兩個(gè)部分:

1)通過可變形卷積模型重建ResNet-101 特征提取過程,即把ResNet-101 的全連接層和均值池化層都移除,重新構(gòu)建ResNet-101 結(jié)構(gòu)剩余層Conv2(Res2c)、Conv3(Res3b3)、Conv4(Res4b 22)和Conv5(Res5a、Res5b、Res5c)的卷積層重構(gòu)為可變形的卷積網(wǎng)絡(luò)層.具體構(gòu)建方法如圖7 所示,通過對(duì)輸入特征圖進(jìn)行全卷積獲得相同維度的偏置域?qū)覱ffset,在Offset 的偏置量指引作用下,對(duì)輸入特征進(jìn)行可變形卷積操作獲得輸出特征.

圖7 構(gòu)建ResNet 單元為可變形ResNet 結(jié)構(gòu)Fig.7 Construct the ResNet unit as a deformable ResNet structure RoI

2)結(jié)合RPN 網(wǎng)絡(luò)構(gòu)建二分類檢測(cè)網(wǎng)絡(luò),通過RPN 網(wǎng)絡(luò)與PS RoI 池化層后,可獲得分類得分圖和目標(biāo)邊框.因?yàn)槭嵌诸惸P?即類別只有蝴蝶和背景.通過Soft-max 和Soft-NMS[19]在1 000×2的特征信息中獲得準(zhǔn)確的蝴蝶類別和位置信息.即將數(shù)據(jù)集中的全部蝴蝶種類歸為一類“Butterfly”.然后,通過DNET-base 網(wǎng)絡(luò)對(duì)蝴蝶目標(biāo)和背景進(jìn)行分離訓(xùn)練.這種方法可有效避免部分種類數(shù)據(jù)匱乏與種類數(shù)據(jù)量不均衡(數(shù)據(jù)集中部分蝴蝶種類只有1 個(gè)樣本,最多92 個(gè)樣本)造成的訓(xùn)練困難問題,可有效強(qiáng)化“第一階段”網(wǎng)絡(luò)對(duì)蝴蝶特征的提取能力.

階段2(TDDNET).如圖8 所示,借鑒遷移學(xué)習(xí)的思想,針對(duì)性地訓(xùn)練多分類器(94 類+1 背景),即對(duì)第一階段參數(shù)進(jìn)行遷移,將其作為第二階段中提取特征的基層網(wǎng)絡(luò)參數(shù),將其獲得的聚集特征傳遞至第二階段的多分類模型中進(jìn)行訓(xùn)練,以此提高分類精確度.首先,基于DNET-base 構(gòu)建TDDNET 框架的特征提取網(wǎng)絡(luò).然后,結(jié)合可變形卷積模型,構(gòu)建以RPN 網(wǎng)絡(luò)指導(dǎo)敏感位置區(qū)域可變形RoI 池化層部分,以此獲得多尺度目標(biāo)的評(píng)分特征圖和精準(zhǔn)位置信息,最后通過Soft-max 和Soft-NMS 進(jìn)行多分類優(yōu)化,形成完整的TDDNET 模型.并且在所提算法中使用在線難示例挖掘(Online hard example mining,OHEM)算法[23]優(yōu)化訓(xùn)練PS RoI 的卷積檢測(cè)算子,由此可獲得最小的訓(xùn)練損失和較高的均值平均精度(Mean average precision,mAP).因?yàn)镺HEM 取消了人為設(shè)置的參數(shù),同時(shí)放寬了正負(fù)樣本的約束,以零閾值作為負(fù)樣本下界,并取消正負(fù)樣本比例.其計(jì)算方法為OHEM對(duì)RPN 提供的候選區(qū)域計(jì)算損失并排序,挑選出損失最大的目標(biāo)區(qū)域?yàn)殡y樣例再加入網(wǎng)絡(luò)訓(xùn)練.在所提算法中使用Soft-NMS 方法提取目標(biāo)邊框.非極大值抑制NMS 算法,可獲取目標(biāo)的最佳坐標(biāo),并移除目標(biāo)的重復(fù)邊界框,如式(3)所示.

圖8 本文所提算法的網(wǎng)絡(luò)模型與參數(shù)說明(TDDNET)Fig.8 Network model and parameter description of the algorithm proposed in this paper(TDDNET)

其中,si為評(píng)分,Nt為抑制閾值.由于NMS 采用置信度最高的檢測(cè)方法,因其相鄰目標(biāo)檢測(cè)框置信度強(qiáng)制為0,所以對(duì)于區(qū)域重疊較大的目標(biāo)(如圖1)會(huì)出現(xiàn)漏檢,從而導(dǎo)致算法的檢出率降低.Soft-NMS[19]中將NMS 算法進(jìn)行改進(jìn),使得si ←sif(iou(M,bi)),由此可使用線性加權(quán)的方式改寫NMS 算法函數(shù),如式(4)所示.

其中,iou(M,bi)為最大評(píng)分的邊界框M與待處理邊界框bi的交并比.在TDDNET 框架中使用的損失函數(shù)與R-FCN 和Faster R-CNN 中的一樣,采用多目標(biāo)檢測(cè)損失函數(shù),即同時(shí)考慮分類損失和位置損失.在可變形的PSRoI 池化后會(huì)得到k2個(gè)區(qū)域塊,對(duì)每一個(gè)區(qū)域塊都有c+1(為c類+1 背景)維的分類預(yù)測(cè)向量,由此產(chǎn)生分類得分特征圖,如式(5)和(6)所示.

其中,mi,j,c為k2(c+1)個(gè)得分特征圖之一,n為區(qū)域塊中的像素?cái)?shù)量,(x0,y0)表示RoI 區(qū)域塊的左上角位置.?xbin(i,j),?ybin(i,j)為第(i,j)區(qū)域塊的偏置量,Θ 為TDDNET 的訓(xùn)練參數(shù).所提算法中使用Soft-max 來響應(yīng)分類,如式(7)所示.

由此,可通過交叉熵?fù)p失和Soft-L1[10,22]邊框回歸定義TDDNET 中的損失函數(shù),如式(8)所示.

其中,b(x,y,w,h)為預(yù)測(cè)位置,b?為Ground-Truth 目標(biāo)位置標(biāo)注值,c?為類別真值標(biāo)簽,如果c?=0 表示為背景,Lcls(S,Sc?)=?lncls(S|Sc?)表示交叉熵?fù)p失函數(shù),Lreg表示Soft-L1 邊框回歸損失函數(shù).

2 實(shí)驗(yàn)結(jié)果與分析

為了驗(yàn)證所提算法的有效性,在2018 年第三屆中國數(shù)據(jù)挖掘競(jìng)賽上提供的蝴蝶生態(tài)照數(shù)據(jù)集[11]上,與現(xiàn)階段一些主流目標(biāo)檢測(cè)算法做對(duì)比實(shí)驗(yàn).對(duì)比算法分別為Faster R-CNN[12]、FPN[24]、RFCN[22]、SSD[25]、YOLO-v3[17],其中還對(duì)比了由可變形卷積模型重建的Faster R-CNN、R-FCN、FPN網(wǎng)絡(luò)模型的變體.通過定性和定量的實(shí)驗(yàn)對(duì)比,驗(yàn)證所提算法在生態(tài)照上的蝴蝶目標(biāo)檢測(cè)效果較好.所提算法與對(duì)比實(shí)驗(yàn)評(píng)測(cè)平臺(tái)信息為:1)CPU 為Intel Core i7 6700;2)采用英偉達(dá)GTX 1070 8 GB顯存GPU;3)使用Ubuntu 16.04 操作系統(tǒng),內(nèi)存16 GB;4)除了YOLO-v3 網(wǎng)絡(luò)實(shí)驗(yàn)外,所提算法與對(duì)比實(shí)驗(yàn)均依賴于MXNET 開發(fā)庫框架,其版本為0.12.0,OpenCV 版本為3.4.1.

2.1 數(shù)據(jù)集

所提算法與對(duì)比算法使用數(shù)據(jù)包括:標(biāo)準(zhǔn)數(shù)據(jù)集和拓展數(shù)據(jù)集.其中,標(biāo)準(zhǔn)數(shù)據(jù)集為2018 年第三屆中國數(shù)據(jù)挖掘競(jìng)賽所提供的蝴蝶圖像數(shù)據(jù)集,其中蝴蝶生態(tài)照數(shù)據(jù)集721 張共94 類蝴蝶(測(cè)試集暫未公開),圖像分辨率最大為7 630×4 912 與最小為800×450,且生態(tài)蝴蝶標(biāo)注為種名類別,如金裳鳳蝶(編號(hào)AAaa0001002),多姿麝鳳蝶(編號(hào)AAaa0003011).生態(tài)蝴蝶數(shù)據(jù)集中目標(biāo)特征多樣、尺度變化較大,些許蝴蝶類的偽裝色與背景極為相似,以及部分圖像曝光不足等特點(diǎn).數(shù)據(jù)集中有部分類別,如西番翠鳳蝶與克里翠鳳蝶、云豹蛺蝶與伊諾小豹蛺蝶,其在形態(tài)上基本一致,但在紋理和顏色特征[26]上存在一定差異,即一些細(xì)節(jié)紋理和顏色特征起到了主導(dǎo)作用,具有一定細(xì)粒度特性[27].

標(biāo)準(zhǔn)數(shù)據(jù)集中,每種蝴蝶至少1 個(gè)樣本,最多包含92 個(gè)樣本,呈現(xiàn)出典型的長尾分布;另外,蝴蝶標(biāo)本模式照?qǐng)D像數(shù)據(jù)集中與94 類一致的有480 張.每種蝴蝶至少1 個(gè)樣本,最多包含11 個(gè)樣本.94 類蝴蝶的整體數(shù)據(jù)分布如圖9 所示.

圖9 蝴蝶生態(tài)照?qǐng)D像數(shù)據(jù)集樣本分布Fig.9 Sample distribution of butterfly image dataset

拓展數(shù)據(jù)集,根據(jù)標(biāo)準(zhǔn)數(shù)據(jù)集的統(tǒng)計(jì)信息(如圖9 所示)進(jìn)行再次收集,將少于10 個(gè)樣本的蝴蝶種類進(jìn)行數(shù)據(jù)擴(kuò)充,共擴(kuò)充789 張圖像均來自于網(wǎng)絡(luò)上的蝴蝶生態(tài)圖像.最后的數(shù)據(jù)集樣本分布如圖10所示.在實(shí)驗(yàn)中做了簡單交叉驗(yàn)證,即將數(shù)據(jù)按照各個(gè)類的數(shù)量進(jìn)行對(duì)半劃分,確保每個(gè)類在測(cè)試集合和訓(xùn)練集中都有近似相等的數(shù)據(jù)量,并做兩者的交替實(shí)驗(yàn),其檢測(cè)結(jié)果相差小于1%.因此,為了確保數(shù)據(jù)充分驅(qū)動(dòng)模型,以及測(cè)試數(shù)據(jù)集公正性,在全部蝴蝶生態(tài)照?qǐng)D像數(shù)據(jù)集中,按照種類樣本數(shù)量的20% 抽取相應(yīng)圖像作為最終測(cè)試集,由此將蝴蝶生態(tài)照?qǐng)D像數(shù)據(jù)集劃分為訓(xùn)練集1 215 張,測(cè)試集286張.

在施工前就與業(yè)主、監(jiān)理協(xié)商好,建立一個(gè)統(tǒng)一的測(cè)量、驗(yàn)收標(biāo)準(zhǔn)體系。在以后的施工、驗(yàn)收、各種質(zhì)檢站活動(dòng)中用同一個(gè)基準(zhǔn)來測(cè)量驗(yàn)收。以免引起不必要的麻煩。

最后,考慮到數(shù)據(jù)集中蝴蝶目標(biāo)平移或旋轉(zhuǎn)不變性,對(duì)數(shù)據(jù)集進(jìn)行增廣,包括水平翻轉(zhuǎn)、旋轉(zhuǎn)±30?,得到蝴蝶訓(xùn)練數(shù)據(jù)集5 085 張(生態(tài)照1 215×3 張+模式照480×3 張),蝴蝶測(cè)試照854張.從不同角度采集數(shù)據(jù),對(duì)蝴蝶目標(biāo)檢測(cè)性能有一定的促進(jìn)作用.所以,旋轉(zhuǎn)角度可以隨意選擇,但角度選擇不宜過多,以免造成冗余訓(xùn)練,拓展數(shù)據(jù)集分布情況如圖10 所示.

2.2 主觀結(jié)果分析

針對(duì)生態(tài)蝴蝶圖像一些特點(diǎn),對(duì)所提算法與對(duì)比算法的改進(jìn)變體在測(cè)試數(shù)據(jù)集上進(jìn)行主觀檢測(cè),如圖11 所示.在圖11 中實(shí)線箭頭為誤檢目標(biāo)(分類錯(cuò)誤)、虛箭頭為目標(biāo)重疊框、菱形為漏檢目標(biāo).從圖11 可看出,對(duì)于大目標(biāo)的圖像,本文算法和FPN* 均獲得了完整目標(biāo)框,然而FPN* 檢出重疊目標(biāo),R-FCN* 和Faster R-CNN* 出現(xiàn)目標(biāo)割裂,這說明蝴蝶形態(tài)(展翅正視與合翅側(cè)視)在對(duì)比算法存在一定的影響.在對(duì)重疊目標(biāo)中R-FCN* 與Faster RCNN* 均出現(xiàn)誤檢目標(biāo)框,因此在特征區(qū)分度上較弱于其他算法.在相似目標(biāo)、弱特征目標(biāo)以及密集小目標(biāo)上對(duì)比算法均出現(xiàn)了誤檢、漏檢以及重疊檢測(cè)現(xiàn)象,本文所提算法僅出現(xiàn)了對(duì)部分小目標(biāo)漏檢,整體表現(xiàn)優(yōu)于對(duì)比算法.在蝴蝶目標(biāo)被遮擋和合翅正視情況下,本文算法可以獲得較為完整的目標(biāo)邊界框,Faster RCNN* 出現(xiàn)了目標(biāo)割裂和漏檢情況,其他算法檢測(cè)到的蝴蝶邊界框與標(biāo)注邊界框重合度存在相對(duì)較大的差值,且在這兩種情況下檢測(cè)置信度都相對(duì)較低.因此,本文算法在大目標(biāo)與重疊目標(biāo)上對(duì)特征的細(xì)微區(qū)分表現(xiàn)較好,對(duì)背景相似目標(biāo)與弱特征目標(biāo)的檢測(cè)也較為穩(wěn)定,且少誤檢和漏檢.在圖11 中,所提算法檢測(cè)結(jié)果與預(yù)檢測(cè)目標(biāo)(Ground-truth)較相符.

2.3 客觀結(jié)果分析

評(píng)價(jià)標(biāo)準(zhǔn)采用mAP0.5和mAP0.7,以及檢出率(Detection rate,DR)和精確度(Accuracy,ACC).其中,DR 與ACC 來自2018 年第三屆中國數(shù)據(jù)挖掘大賽的評(píng)價(jià)標(biāo)準(zhǔn).檢出率DR 為所有覆蓋率的平均值,其中覆蓋率為交并比(Intersection over union,IoU)的值.精確度ACC 為分類正確的數(shù)量與生態(tài)蝴蝶總數(shù)量的比值.

所提算法自身對(duì)比實(shí)驗(yàn),包括四種情況:1)所提算法的完整模型驗(yàn)證;2)所提算法中使用NMS算法的驗(yàn)證;3)不采用遷移學(xué)習(xí),即摒棄DNETbase 模型架構(gòu),直接訓(xùn)練DDNET(NMS)模型架構(gòu)驗(yàn)證,此模型也是我們?cè)诘谌龑脭?shù)據(jù)挖掘大賽上使用的模型;4)所提算法中采用無可變形卷積的ResNet-101 網(wǎng)絡(luò)驗(yàn)證.如表1 所示,所提算法檢測(cè)效果表現(xiàn)較好.同時(shí),對(duì)比了可變形卷積網(wǎng)絡(luò)在不同層時(shí)對(duì)所提算法的影響,如表2 所示.

圖10 蝴蝶生態(tài)照?qǐng)D像拓展數(shù)據(jù)集樣本分布Fig.10 Sample distribution of butterfly image dataset

表1 針對(duì)所提算法網(wǎng)絡(luò)結(jié)構(gòu)自身差異對(duì)比Table 1 Contrast the differences of the network structure of the proposed algorithm

在表1 中的實(shí)驗(yàn)數(shù)據(jù)說明,模型DDNET(NMS,無遷移)的檢測(cè)效果優(yōu)于TDDNET(無可變形卷積),即加入可變形卷積對(duì)網(wǎng)絡(luò)影響較大.從測(cè)試數(shù)據(jù)中也表現(xiàn)出Soft-NMS 的效果較優(yōu)于NMS模型,并且模型參數(shù)的遷移對(duì)網(wǎng)絡(luò)也有積極的影響.因此,可變形卷積網(wǎng)絡(luò)和模型遷移學(xué)習(xí)方法均有利于提高網(wǎng)絡(luò)的檢測(cè)性能.

表2 針對(duì)所提算法中在不同層使用可變形卷積模型的差異Table 2 Aiming at the difference of using deformable convolution network in different layers of the proposed algorithm

在表2 中實(shí)驗(yàn)數(shù)據(jù)說明,可變形卷積層對(duì)網(wǎng)絡(luò)的檢測(cè)性能是非常有利的.然而隨著可變形卷積網(wǎng)絡(luò)層數(shù)的增加,網(wǎng)絡(luò)參數(shù)也是成倍地增長,網(wǎng)絡(luò)耗時(shí)也在遞增,需要按照實(shí)際問題需求設(shè)置可變形卷積網(wǎng)絡(luò)層.

所提算法與主流檢測(cè)算法對(duì)比實(shí)驗(yàn),如表3 所示,對(duì)比算法包括Faster R-CNN[12]、FPN[24]、RFCN[22]、SSD[25]、YOLO-v3[17],其中YOLO-v3 的預(yù)訓(xùn)練網(wǎng)絡(luò)模型分別為ResNet50 和DarkNet.同時(shí),也對(duì)比了由可變形卷積模型構(gòu)建的Faster RCNN、R-FCN、FPN 網(wǎng)絡(luò)模型的變體,用* 表示.在表3 中實(shí)驗(yàn)數(shù)據(jù)說明,所提算法優(yōu)于對(duì)比算法.并且,Faster R-CNN、R-FCN、FPN 在經(jīng)過可變形卷積網(wǎng)絡(luò)重建后,相比原來算法檢測(cè)性能上都有一定改善.FPN* 與所提算法實(shí)驗(yàn)結(jié)果數(shù)值上非常接近,然而,FPN* 算法計(jì)算復(fù)雜度高于本文算法,且耗時(shí)較長.從DR 值和ACC 的值上也說明,所提算法對(duì)蝴蝶特征的位置敏感性較好,分類準(zhǔn)確性也較高.

表3 所提算法與其他目標(biāo)檢測(cè)算法的實(shí)驗(yàn)結(jié)果Table 3 Experimental results of the proposed algorithm and other target detection algorithms

2.4 實(shí)驗(yàn)討論

卷積網(wǎng)絡(luò)對(duì)圖像特征提取,可理解卷積為濾波,是對(duì)特征信息的篩選與疊加,逐步讓目標(biāo)的特征轉(zhuǎn)向語義特征,而構(gòu)建網(wǎng)絡(luò)讓這種多維特征語義化更加有效.然而,常規(guī)的卷積模型被固定結(jié)構(gòu)所限制,Yu 等[28]嘗試擴(kuò)張卷積的感受野,可以對(duì)目標(biāo)的輪廓信息保留較好.Zhou 等[29]對(duì)卷積核做了旋轉(zhuǎn)操作,讓網(wǎng)絡(luò)可以得到目標(biāo)的角度信息.Jeon 等[30]通過星形蔓延方式改變固定的卷積核,讓離散的輸入空間變成一個(gè)連續(xù)的采樣空間,來提升網(wǎng)絡(luò)對(duì)特征提取能力.Jaderberg 等[21]則利用仿射變換的思想提出了空間變換網(wǎng)絡(luò),可對(duì)各種形變的數(shù)據(jù)進(jìn)行空間變換,以此提高分類準(zhǔn)確率.可變形卷積模型可以理解為卷積包含了上述模型的基本變換.可變形卷積讓卷積過程變得更加靈活,對(duì)特征提取也變得更強(qiáng)更準(zhǔn)確.因此,針對(duì)蝴蝶目標(biāo)特征多樣性、形態(tài)多變性等特點(diǎn),以及目標(biāo)的細(xì)化分類與檢測(cè)難問題,在所提算法上有較大的改善,并且獲得了較好的檢測(cè)效果.

圖11 實(shí)驗(yàn)主觀結(jié)果對(duì)比示例Fig.11 Contrastive examples of subjective results of experiments

本文骨干網(wǎng)絡(luò)模型選擇RCNN 網(wǎng)絡(luò).因?yàn)槟繕?biāo)檢測(cè)過程中有很多不確定的因素,如圖像中的目標(biāo)形狀、姿態(tài)、數(shù)量以及成像時(shí)會(huì)有光照、遮擋等因素干擾、目標(biāo)檢測(cè)算法主要集中在兩個(gè)方向:Twostage 算法(如RCNN[11?12,22,24,31]系列)和Onestage 算法(如YOLO[16?17]、SSD[25]等).兩者主要區(qū)別在于Twostage 算法需要先生成預(yù)選框,然后進(jìn)行細(xì)粒度目標(biāo)檢測(cè).Onestage 算法會(huì)直接提取特征來預(yù)測(cè)目標(biāo)分類和位置.因此,采用第一種方式的算法偏向于檢測(cè)精度,采用第二種方式的算法偏向于檢測(cè)速度.數(shù)據(jù)提供者要求每張圖像檢測(cè)時(shí)間在2 秒內(nèi),故本文算法的骨干網(wǎng)絡(luò)模型選擇RCNN網(wǎng)絡(luò),并且所提算法實(shí)驗(yàn)檢測(cè)效率約2 張/秒至3張/秒.

因?yàn)樵谙嗤娜蝿?wù)上,不同網(wǎng)絡(luò)模型對(duì)目標(biāo)學(xué)習(xí)的偏向性不同,如檢出率、精確性等.如對(duì)生態(tài)照中的小目標(biāo)蝴蝶群體,利用蝴蝶的群體習(xí)性,故可借鑒李策等[32]的目標(biāo)語義關(guān)聯(lián)方法實(shí)現(xiàn)小目標(biāo)檢測(cè).也可使用多網(wǎng)絡(luò)協(xié)同檢測(cè)方式[33]或者網(wǎng)絡(luò)級(jí)聯(lián)優(yōu)化方式[34],通過融合檢測(cè)結(jié)果獲得較好的檢測(cè)效果.也可使用如Inception[35]、ResNext[36]等深度殘差網(wǎng)絡(luò)繼續(xù)改進(jìn)算法模型,以及借鑒Mask R-CNN[31]中的RoI Align 模型等解決“邊框?qū)R問題”,以此提升目標(biāo)檢測(cè)網(wǎng)絡(luò)的精確度.此外,生態(tài)蝴蝶照?qǐng)D像中蝴蝶目標(biāo)尺度變化也是非常大,可以借鑒Zhou等[37]和Bharat 等[38]的多尺度目標(biāo)檢測(cè)算法來改進(jìn)生態(tài)蝴蝶目標(biāo)檢測(cè).

3 結(jié)論

在分析了部分主流目標(biāo)檢測(cè)算法的優(yōu)勢(shì),以及在生態(tài)蝴蝶檢測(cè)問題上的局限性的基礎(chǔ)上,針對(duì)蝴蝶生態(tài)照?qǐng)D像中的蝴蝶檢測(cè)問題,本文提出了一種基于遷移學(xué)習(xí)和可變性卷積深度神經(jīng)網(wǎng)絡(luò)的蝴蝶檢測(cè)算法.所提算法利用可變性卷積模型來增加特征網(wǎng)絡(luò)的基層卷積層對(duì)特征的萃取能力,結(jié)合RPN 網(wǎng)絡(luò),構(gòu)建可變形的位置敏感區(qū)域池化模型進(jìn)一步提升網(wǎng)絡(luò)的檢測(cè)精準(zhǔn)性,并利用遷移學(xué)習(xí)的思想,在任務(wù)中有效地解決了數(shù)據(jù)樣本不平衡與匱乏的問題.在對(duì)比實(shí)驗(yàn)中也取得了較好的檢測(cè)結(jié)果.在未來的工作中將借鑒深監(jiān)督學(xué)習(xí)思想,結(jié)合遷移學(xué)習(xí)知識(shí)與可變形卷積模型理論繼續(xù)改進(jìn)目標(biāo)檢測(cè)模型.

猜你喜歡
蝴蝶卷積變形
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
變形記
談詩的變形
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
“我”的變形計(jì)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
為了蝴蝶
會(huì)變形的餅
捉蝴蝶
乐清市| 莆田市| 开鲁县| 台州市| 房山区| 台南市| 仁化县| 龙海市| 连云港市| 津南区| 益阳市| 上犹县| 河池市| 南涧| 鄂尔多斯市| 乳源| 安图县| 额尔古纳市| 望江县| 莱阳市| 罗源县| 新巴尔虎右旗| 肥城市| 福清市| 分宜县| 马鞍山市| 砀山县| 蚌埠市| 洞头县| 兴化市| 清原| 云梦县| 固镇县| 蒙自县| 华容县| 苗栗市| 五常市| 新沂市| 黄石市| 博罗县| 鄢陵县|