何嶼彤 李 斌 張 鋒 陶浩兵 辜麗川 焦 俊
(安徽農(nóng)業(yè)大學(xué) 信息與計(jì)算機(jī)學(xué)院,合肥 230036)
近年來(lái),隨著生豬養(yǎng)殖業(yè)智能化的發(fā)展,生豬的精準(zhǔn)管理變得尤為重要,而識(shí)別生豬個(gè)體則是進(jìn)行針對(duì)性養(yǎng)殖的關(guān)鍵。傳統(tǒng)的識(shí)別方式包括顏色標(biāo)記、佩戴射頻識(shí)別耳標(biāo)(Radio frequency identification,RFID)等。使用顏色標(biāo)記的方法雖然直觀,但僅限于生豬較少的情況;而佩戴耳標(biāo)則可能存在耳標(biāo)損壞,脫標(biāo)以及生豬感染寄生蟲(chóng)等問(wèn)題。
現(xiàn)有的豬臉識(shí)別研究較少,主要包括:1)Naoki等[1]利用特征空間方法,采用手動(dòng)分割的特征實(shí)現(xiàn)生豬個(gè)體識(shí)別,在16個(gè)類(lèi)別的數(shù)據(jù)集上達(dá)到 97.9% 的識(shí)別率;2)Hansen等[2]搭建了基于卷積,最大池化等結(jié)構(gòu)的CNN模型,在農(nóng)場(chǎng)豬臉識(shí)別上取得了較好結(jié)果;3)秦興等[3]利用雙線(xiàn)性卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行生豬面部特征提取,并將不同層次的特征做外積融合形成最終個(gè)體特征,在其測(cè)試圖像集上達(dá)到了95.73%的識(shí)別準(zhǔn)確率。上述研究在解決豬臉識(shí)別問(wèn)題時(shí),主要考慮單個(gè)個(gè)體樣本受光照、姿態(tài)、場(chǎng)景等因素的影響,當(dāng)樣本圖像中有多個(gè)個(gè)體時(shí),難以完成自動(dòng)化管理中復(fù)雜環(huán)境下的多個(gè)體識(shí)別任務(wù)。
隨著深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺(jué)領(lǐng)域的廣泛運(yùn)用[4-6],深度卷積神經(jīng)網(wǎng)絡(luò)在人臉識(shí)別領(lǐng)域成果頗豐。理論上,應(yīng)用于非侵入式場(chǎng)景的人臉識(shí)別對(duì)于豬臉識(shí)別有一定參考價(jià)值。深度學(xué)習(xí)技術(shù)在人臉識(shí)別領(lǐng)域的研究主要包括:1)Taigman等[7]提出的Deep-Face方法,使用4 000個(gè)人200萬(wàn)的大規(guī)模訓(xùn)練數(shù)據(jù)訓(xùn)練深度卷積神經(jīng)網(wǎng)絡(luò),對(duì)人臉對(duì)齊和人臉表示提出改進(jìn),在LFW數(shù)據(jù)集上達(dá)到97.35%的準(zhǔn)確率;2)Sun等[8-9]提出的DeepID系列使用25個(gè)網(wǎng)絡(luò)模型,并在網(wǎng)絡(luò)結(jié)構(gòu)上同時(shí)考慮分類(lèi)損失和驗(yàn)證損失等,顯著提升了人臉識(shí)別效果;3)Sun等[10]提出的DeepID2神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)利用人臉識(shí)別信號(hào)提取不同人臉特征,增大不同人臉圖像間的類(lèi)間差異,并使用人臉驗(yàn)證信號(hào)提取同一個(gè)人臉的特征,減小類(lèi)內(nèi)差異,從而學(xué)習(xí)到區(qū)分能力較強(qiáng)的特征;4)Florian 等[11]提出的FaceNet網(wǎng)絡(luò)結(jié)構(gòu)共擁有27層網(wǎng)絡(luò)層,引入Triplet損失函數(shù)提取人臉的特征信息,使得模型的學(xué)習(xí)能力更高效;5)Omkar等[12]在網(wǎng)絡(luò)結(jié)構(gòu)中引入跨層連接,并使用了260萬(wàn)的大規(guī)模數(shù)據(jù)集,在LFW和YTF數(shù)據(jù)集上達(dá)到很好的結(jié)果。
基于以上研究,本研究擬采用在骨干網(wǎng)絡(luò)中引入密連塊(DenseBlock)以及在檢測(cè)器中引入改進(jìn)的SPP單元的方法,以期設(shè)計(jì)出能夠在多個(gè)尺度特征圖上對(duì)不同大小的目標(biāo)進(jìn)行檢測(cè),能夠有針對(duì)性的實(shí)現(xiàn)多個(gè)體識(shí)別任務(wù)的豬臉識(shí)別算法。
樣本豬來(lái)自安徽蒙城京徽蒙養(yǎng)豬場(chǎng),使用羅技C920 Pro攝像頭作為實(shí)時(shí)采集工具,利用NanoPc-T4開(kāi)發(fā)板將USB連接的攝像頭采集到的圖像傳輸?shù)介_(kāi)發(fā)板的I/O緩沖區(qū)中,在開(kāi)發(fā)板的圖形運(yùn)算單元上對(duì)圖像數(shù)據(jù)進(jìn)行壓縮打包處理,利用4G通信模塊將圖像信息經(jīng)過(guò)互聯(lián)網(wǎng)傳輸?shù)椒?wù)器。試驗(yàn)中安裝攝像頭的圈舍光照較為充足,且試驗(yàn)采集裝置能夠遠(yuǎn)程控制攝像頭的旋轉(zhuǎn),使得采集到的樣本圖像具有不同角度的生豬個(gè)體臉部信息。
為保證采集到的樣本畫(huà)面連續(xù),能夠辨認(rèn)生豬個(gè)體是否為同一只,試驗(yàn)采集裝置采樣時(shí)間間隔設(shè)置為0.5 s;由于過(guò)短的時(shí)間間隔可導(dǎo)致采集的樣本圖像之間相似度過(guò)高甚至畫(huà)面接近重復(fù),故對(duì)采集到的樣本圖像進(jìn)行了篩選。本研究對(duì)連續(xù)采集圖像之間采用結(jié)構(gòu)相似性指數(shù)(Structural similarity index,SSIM)進(jìn)行比較。經(jīng)過(guò)對(duì)樣本進(jìn)行一系列的比較試驗(yàn),試驗(yàn)樣本同時(shí)選用SSIM值<0.78的2張圖像,若大于該值,則選用序號(hào)靠后的圖像,樣本圖像分辨率為1 920像素×1 080像素。
YOLOv3模型使用連續(xù)的1×1和3×3卷積以及殘差模塊構(gòu)成了1個(gè)包含52個(gè)卷積層以及1個(gè)全連接層的53層特征提取器Darknet53,結(jié)構(gòu)見(jiàn)圖1,此時(shí)輸入圖片大小為256像素×256像素。在預(yù)測(cè)時(shí),為了能夠充分利用早期特征映射中的上采樣特征和細(xì)粒度特征,YOLOv3模型使用了多尺度預(yù)測(cè)方法[13],輸入圖片大小為416像素×416像素。YOLOv3模型首先去除特征提取結(jié)構(gòu)中的全連接層,在最后1個(gè)殘差塊的后面增加若干個(gè)核大小為1×1和3×3的卷積層集合,并使用最后1個(gè)1×1卷積層進(jìn)行預(yù)測(cè),此即為scale1。然后對(duì)該尺度提取到的特征圖執(zhí)行上采樣操作,并使用concat操作將其與上一個(gè)殘差塊提取到的大小為26×26的特征拼接,拼接后的特征圖投入其后的多層卷積集合并預(yù)測(cè),此即為scale2。最后,將scale2中提取的特征上采樣到52×52,并將其與上上個(gè)殘差塊輸出的特征拼接形成大小為52×52的特征圖,將該特征圖輸入其后的卷積層集合進(jìn)行第3次預(yù)測(cè),此即為scale3。
圖1 Darknet53結(jié)構(gòu)
YOLOv3模型提供3種不同尺寸的先驗(yàn)框,并依據(jù)不同的下采樣尺度,采用K-means方法聚類(lèi)得到9種尺寸的先驗(yàn)框,按照大特征圖小尺寸框的原則分配。YOLOv3模型利用線(xiàn)性回歸預(yù)測(cè)每個(gè)先驗(yàn)框的目標(biāo)分值[14]。網(wǎng)絡(luò)模型給每個(gè)ground truth對(duì)象只分配1個(gè)先驗(yàn)框。訓(xùn)練時(shí),采用誤差平方和作為邊框預(yù)測(cè)的損失函數(shù)。圖2給出先驗(yàn)框與預(yù)測(cè)邊界框在圖像上的關(guān)系。預(yù)測(cè)邊界框的中心坐標(biāo)(bx,by)及寬度bw,高度bh的計(jì)算過(guò)程為:
(1)
式中:σ()為sigmoid函數(shù);tx,ty為預(yù)測(cè)邊界框的中心偏移量;Cx,Cy分別為目標(biāo)所在單元相對(duì)于圖像左上角的橫坐標(biāo)與縱坐標(biāo);pw,ph分別為先驗(yàn)框的寬度和高度;tw,th分別為預(yù)測(cè)邊界框的寬度和高度縮放比例。
YOLOv3模型為每個(gè)邊界框采用多標(biāo)簽分類(lèi),使用單獨(dú)的邏輯回歸分類(lèi)器取代softmax分類(lèi)。在訓(xùn)練過(guò)程中,利用二值交叉熵?fù)p失(Binary cross entropy)來(lái)預(yù)測(cè)類(lèi)別。
1.先驗(yàn)框;2.預(yù)測(cè)邊界框
密連網(wǎng)絡(luò)(DenseNet)是卷積神經(jīng)網(wǎng)絡(luò)中的一種跨連模型。密連網(wǎng)絡(luò)包括密連塊和用于連接密連塊的過(guò)渡層。密連網(wǎng)絡(luò)的優(yōu)勢(shì)在于能夠有效解決深層神經(jīng)網(wǎng)絡(luò)的梯度消失問(wèn)題,并在實(shí)現(xiàn)特征重用的同時(shí)減少了參數(shù)[15-16]。
xl=Hl([x0,x1,…xl-1])
(2)
式中:xl為第l層的輸出;Hl(·)為批標(biāo)準(zhǔn)化層(Batch normalization layer,BN Layer),ReLU函數(shù)以及3×3卷積層構(gòu)成的組合函數(shù)。
由于豬場(chǎng)養(yǎng)殖環(huán)境的限制,采集到的生豬樣本面部存在臟污遮擋,需要深層神經(jīng)網(wǎng)絡(luò)提取更具表征性的特征用于識(shí)別。然而,由于標(biāo)記檢測(cè)圖像的時(shí)間代價(jià)大,短期內(nèi)無(wú)法獲取較大的樣本數(shù)來(lái)應(yīng)對(duì)深層神經(jīng)網(wǎng)絡(luò)可能出現(xiàn)的梯度消失問(wèn)題。本研究在原始YOLOv3模型的基礎(chǔ)上提出了YOLOv3_DB_SPP模型。該結(jié)構(gòu)首先在基礎(chǔ)特征提取器中引入了DenseNet中的DenseBlock。其次,為了在不引入過(guò)多參數(shù)的前提下融合多尺度的信息,該結(jié)構(gòu)在骨干網(wǎng)絡(luò)之后添加改進(jìn)的SPP單元,以提高檢測(cè)豬群樣本中占整張圖片面積較小的生豬個(gè)體時(shí)的準(zhǔn)確率。
YOLOv3_DB_SPP模型的特征提取器包括Convolutional單元和DenseBlock模塊2部分,結(jié)構(gòu)見(jiàn)圖3。Convolutional單元由BN Layer,7×7或3×3的卷積層,Leaky ReLU激活函數(shù)構(gòu)成(圖4)。其中BN Layer用于自適應(yīng)的重參數(shù)化,起到避免網(wǎng)絡(luò)參數(shù)分布發(fā)生偏移的作用,在一定程度上能夠緩解深層網(wǎng)絡(luò)的過(guò)擬合以及梯度消失問(wèn)題,且對(duì)參數(shù)初始化的影響比較小。為了更充分的保留原圖信息,提高對(duì)小目標(biāo)的檢測(cè)精度,本研究參考ResNet[17]和GoogLeNet[18]的做法,將特征提取器第一個(gè)卷積層的核大小設(shè)置為7×7,并在該層實(shí)現(xiàn)第一次下采樣,其余的4次下采樣均采用3×3的卷積層實(shí)現(xiàn)。
圖3 特征提取器
圖4 Convolutional單元
改進(jìn)的特征提取器使用DenseBlock代替原來(lái)的Residual單元,DenseBlock中每個(gè)卷積層輸出的特征圖數(shù)目為k,k值的設(shè)置較殘差模塊會(huì)小得多,使得網(wǎng)絡(luò)更窄,在加深層次的同時(shí)參數(shù)數(shù)目不至于增長(zhǎng)的過(guò)多,減少網(wǎng)絡(luò)計(jì)算量。本研究采用的5個(gè)DenseBlock除Denseblock1之外其余4個(gè)DenseBlock的結(jié)構(gòu)一致,如圖5所示。其中非線(xiàn)性轉(zhuǎn)換Hi由BN Layer,1×1的卷積層,Leaky ReLU激活函數(shù)以及大小為3×3的卷積層組成。本研究使用Leaky ReLU函數(shù)取代原DenseNet網(wǎng)絡(luò)中使用的ReLU函數(shù),以防止取到負(fù)值的參數(shù)被置0導(dǎo)致該神經(jīng)元無(wú)法學(xué)習(xí)。在3×3的卷積層之前仍然添加1×1的卷積作為瓶頸層,用于對(duì)輸入到3×3卷積層的特征進(jìn)行降維,減少計(jì)算量。
為了不引入過(guò)多參數(shù),本研究使用的DenseBlock1中每個(gè)卷積層的輸出通道數(shù)設(shè)置為32,且僅使用3層的結(jié)構(gòu)。經(jīng)過(guò)DenseBlock1對(duì)特征的重復(fù)利用之后,對(duì)后面的DenseBlock2,3,4采取或加深層次或減小輸出通道數(shù)的做法,這3個(gè)密連塊的k值分別為16、16、32,且均包含8個(gè)卷積層。最后一個(gè)密連塊為了輸出更加豐富的特征信息設(shè)置了較大的通道數(shù)64,采用4層結(jié)構(gòu)。由于DenseBlock中的卷積層較Residual中要多,故將其疊加使用次數(shù)分別減少到1、2、4、2、1。避免因次數(shù)使用過(guò)多導(dǎo)致網(wǎng)絡(luò)層次過(guò)深,影響到模型的效率。YOLOv3_DB_SPP模型結(jié)構(gòu)見(jiàn)圖6。
圖5 DenseBlock1(a)和DenseBlock2,3,4,5 (b)的結(jié)構(gòu)圖
圖6 YOLOv3_DB_SPP模型結(jié)構(gòu)圖
由于豬場(chǎng)養(yǎng)殖環(huán)境分為單只圈養(yǎng)和多只圈養(yǎng),采集多只圈養(yǎng)的樣本時(shí),樣本圖像中生豬個(gè)體多且擁擠,部分生豬距離攝像頭距離較遠(yuǎn),且有遮擋豬臉的情況發(fā)生。為了能夠檢測(cè)到這類(lèi)小目標(biāo),本研究提出的YOLOv3_DB_SPP模型引入了改進(jìn)的SPP模塊。
在YOLOv3_DB_SPP模型中,先在特征提取器之后增加Convolutional Set。它包括3組1×1和3×3的卷積層,再在該單元的后面引入改進(jìn)的SPP單元(圖7)。改進(jìn)的SPP單元對(duì)卷積層提取的特征圖分別進(jìn)行大小為7×7,5×5以及3×3的最大池化。為了保持輸入輸出尺寸一致,在池化操作前對(duì)特征提取器的輸出做了padding操作,并設(shè)置池化步長(zhǎng)為1。
圖7 改進(jìn)的SPP單元
改進(jìn)的SPP單元對(duì)3種不同尺度池化的結(jié)果進(jìn)行了concat操作,多次最大池化操作在不同尺度上保留響應(yīng)最強(qiáng)烈的特征,且利用拼接特征提取器的輸出與改進(jìn)的SPP單元的輸出保留卷積層提取的特征,再經(jīng)過(guò)1個(gè)3×3卷積層的處理后,輸入第一尺度檢測(cè)器的1×1卷積層,實(shí)現(xiàn)在尺寸為13×13的特征圖上的檢測(cè)操作。
相對(duì)于傳統(tǒng)的SPP,改進(jìn)的SPP單元將輸入的特征圖與池化后的特征圖進(jìn)行通道合并,使得更多的特征被捕獲,提高了大目標(biāo)及一般目標(biāo)的識(shí)別精度。其中較小尺度的池化,用于提取遠(yuǎn)距離小目標(biāo)的代表性特征。
網(wǎng)絡(luò)的第二個(gè)尺度對(duì)改進(jìn)的SPP單元輸出與骨干網(wǎng)絡(luò)輸出拼接得到的特征圖進(jìn)行上采樣,輸出特征圖大小為26×26。與YOLOv3模型不同,YOLOv3_DB_SPP模型中密連塊層數(shù)較多,如果仍然將上采樣得到的26×26的特征圖與DenseBlock4輸出的特征圖進(jìn)行拼接操作,輸出的通道數(shù)將會(huì)變得很大,而在此處進(jìn)行1×1降維又有可能會(huì)丟失部分特征,故在第二尺度采用第四個(gè)下采樣層大小為26×26的輸出與其進(jìn)行拼接。再經(jīng)過(guò)Convolutional Set和3×3卷積后輸入1×1卷積層,完成第二次檢測(cè)。最后一個(gè)尺度重復(fù)第二個(gè)尺度的操作,將第三個(gè)下采樣層的輸出與第二尺度拼接后特征的上采樣特征進(jìn)行拼接,經(jīng)過(guò)一系列1×1和3×3卷積后在最后一個(gè)1×1卷積上完成預(yù)測(cè)。
試驗(yàn)中網(wǎng)絡(luò)模型的輸入為416像素×416像素的RGB彩色生豬圖像,原數(shù)據(jù)集2 128張,經(jīng)過(guò)水平翻轉(zhuǎn),隨機(jī)裁剪,鏡像翻轉(zhuǎn)以及隨機(jī)移位產(chǎn)生 8 512 張樣本,訓(xùn)練集和測(cè)試集樣本數(shù)比例約為9∶1。
試驗(yàn)采用的豬臉數(shù)據(jù)集包含的10個(gè)生豬個(gè)體分別編號(hào)為pig1,pig2,…,pig10。使用labelImg手動(dòng)標(biāo)框并賦標(biāo)簽名,界面見(jiàn)圖8。labelImg生成的XML文件包含了樣本圖像的尺寸以及樣本框左上角和右下角的坐標(biāo)等信息。
本試驗(yàn)采用的操作系統(tǒng)為Ubuntu18.04.3,CPU為Intel i5 9400F 2.9 GHz,內(nèi)存64 G,GPU為NVIDIA GEFORCE RTX 2080Ti,顯存32 G;深度學(xué)習(xí)框架為T(mén)ensorflow,版本號(hào)1.13.0。
圖8 生豬數(shù)據(jù)集的打標(biāo)簽界面
試驗(yàn)分為3個(gè)階段,分別訓(xùn)練15、25、40個(gè)epoch,batch尺寸為32,設(shè)置最大學(xué)習(xí)率lrmax和最小學(xué)習(xí)率lrmin,迭代步數(shù)指迭代的batch數(shù)目。由于網(wǎng)絡(luò)訓(xùn)練初期可能出現(xiàn)loss值為NaN的情況,為了避免該問(wèn)題,第一階段的學(xué)習(xí)率設(shè)置為當(dāng)前迭代步數(shù)與第一階段總迭代步數(shù)的比值與lrmax的乘積,該階段用于穩(wěn)定訓(xùn)練,學(xué)習(xí)率逐漸增大至lrmax。第一階段與第二階段均凍結(jié)除去檢測(cè)器外所有層的參數(shù),利用模型在PASCAL VOC2007數(shù)據(jù)集上訓(xùn)練得到的參數(shù)作為初始參數(shù),僅訓(xùn)練檢測(cè)器層,最終學(xué)習(xí)率為lrmax與lrmin的中值。最后一階段進(jìn)行全網(wǎng)訓(xùn)練,最終學(xué)習(xí)率為lrmin。
由于改進(jìn)的YOLOv3_DB_SPP模型與YOLOv3模型在卷積層層數(shù),參數(shù)數(shù)目等方面均有區(qū)別,因此在訓(xùn)練時(shí)本試驗(yàn)根據(jù)模型收斂實(shí)際情況使用了2組參數(shù)。針對(duì)YOLOv3和YOLOv3_DB模型,lrmax和lrmin分別設(shè)置為10-4和10-6,針對(duì)YOLOv3_DB_SPP模型,lrmax和lrmin分別設(shè)置為10-5和10-7。
網(wǎng)絡(luò)模型的損失函數(shù)分為3個(gè)部分,目標(biāo)類(lèi)別的損失Lcls以及置信度損失Lconf使用二值交叉熵函數(shù),定位損失Lloc采用預(yù)測(cè)偏移量與真實(shí)偏移量之間差的平方和作為損失函數(shù),三者之和為最終損失total_loss,具體如下:
(3)
(4)
(5)
total_loss=Lclass+Lconf+Lloc
(6)
在迭代20 315個(gè)迭代步數(shù)后,3個(gè)模型的總損失值均收斂到0.15附近(圖9),三者訓(xùn)練時(shí)間均為3.0~3.5 h。
圖9 YOLOv3 (a)、YOLOv3_DB (b)以及YOLOv3_DB_SPP (c)的總損失值曲線(xiàn)
表1示出當(dāng)IOU閾值為0.5,分類(lèi)概率閾值T=0.1時(shí)3種模型對(duì)豬臉數(shù)據(jù)集的檢測(cè)結(jié)果,包括平均精度均值(Mean average precision,mAP)與平均精度值(Average precision,AP)。其中YOLOv3_DB模型表示未加改進(jìn)的SPP單元的檢測(cè)器。可以看出,YOLOv3_DB模型與YOLOv3_DB_SPP模型的mAP值均高于YOLOv3模型,且后者較前者有顯著提升,說(shuō)明本研究提出的方法對(duì)提高檢測(cè)準(zhǔn)確率有明顯作用。YOLOv3_DB方法在前7類(lèi)樣本上的AP值雖然有所提升,但對(duì)于pig8,pig9,pig10這種多只圈養(yǎng)的生豬樣本,檢測(cè)結(jié)果并不夠好,而YOLOv3_DB_SPP模型不僅前7類(lèi)樣本的檢測(cè)效果優(yōu)于前2種模型,且對(duì)多只圈養(yǎng)的樣本仍有較高檢測(cè)結(jié)果,說(shuō)明改進(jìn)的SPP單元對(duì)于檢測(cè)距離較遠(yuǎn),遮擋較多的小目標(biāo)物體有所助益。
表1 T=0.1時(shí)3種模型對(duì)豬臉數(shù)據(jù)集的檢測(cè)結(jié)果
為了進(jìn)一步說(shuō)明模型的性能,表2示出不同分類(lèi)概率閾值下3種模型檢測(cè)豬臉數(shù)據(jù)集時(shí)的mAP值以及檢測(cè)速度,此時(shí)IOU閾值仍為0.5??梢钥闯鲭S著分類(lèi)概率閾值的不斷提升,YOLOv3模型的mAP下降十分明顯,而改進(jìn)的2版模型結(jié)果受影響相對(duì)較小,結(jié)果表明YOLOv3模型的檢測(cè)結(jié)果普遍是低概率的,一旦閾值提升,低概率結(jié)果被剔除,mAP也就隨之下降;且對(duì)這10類(lèi)樣本進(jìn)行目標(biāo)檢測(cè)時(shí),改進(jìn)的網(wǎng)絡(luò)模型檢測(cè)每種生豬個(gè)體時(shí)的mAP相較于YOLOv3模型均有不同幅度的提升,但YOLOv3_DB模型與YOLOv3_DB_SPP模型的檢測(cè)速度要次于YOLOv3模型。
表2 不同閾值T下3種模型檢測(cè)豬臉數(shù)據(jù)集時(shí)的平均精度均值及速度
圖10示出YOLOv3,YOLOv3_DB和YOLOv3_DB_SPP這3種模型對(duì)多只圈養(yǎng)樣本的檢測(cè)結(jié)果??梢钥闯?,相對(duì)于YOLOv3模型,YOLOv3_DB模型能夠很好檢測(cè)出右下角有陰影遮擋的生豬;YOLOv3_DB_SPP相對(duì)于YOLOv3和YOLOv3_DB模型,實(shí)現(xiàn)了對(duì)角落里遮擋較多的小樣本的檢測(cè)。
圖11示出YOLOv3,YOLOv3_DB和YOLOv3_DB_SPP這3種模型檢測(cè)多只圈養(yǎng)樣本時(shí)產(chǎn)生的預(yù)測(cè)邊界框??梢?jiàn),YOLOv3_DB模型相對(duì)于YOLOv3模型,預(yù)測(cè)邊界框框出的檢測(cè)目標(biāo)更加完整;YOLOv3_DB_SPP模型相較于前2種模型能夠?qū)崿F(xiàn)對(duì)較遠(yuǎn)距離下遮擋較多的小目標(biāo)的檢測(cè),但對(duì)小樣本邊界框的定位不夠精確。
圖10 YOLOv3 (a)、YOLOv3_DB (b)以及YOLOv3_DB_SPP (c) 3種模型對(duì)豬臉圖像的檢測(cè)結(jié)果
圖11 YOLOv3 (a)、YOLOv3_DB (b)以及YOLOv3_DB_SPP (c) 3種模型檢測(cè)豬臉圖像時(shí)的預(yù)測(cè)邊界框
本研究將DenseBlock引入YOLOv3模型的特征提取器Darknet53得到檢測(cè)模型YOLOv3_DB,并將其與改進(jìn)的SPP單元結(jié)合,提出一種新的檢測(cè)模型YOLOv3_DB_SPP,應(yīng)用到生豬識(shí)別中。當(dāng)IOU閾值為0.5,分類(lèi)概率閾值為0.1時(shí),YOLOv3_DB模型檢測(cè)豬臉數(shù)據(jù)集時(shí)的平均精度均值為82.76%,檢測(cè)速度60幀/s,與YOLOv3模型相比,其平均精度均值高出2.76%,速度僅相差5幀/s;YOLOv3_DB_SPP模型檢測(cè)豬臉數(shù)據(jù)集時(shí)的平均精度均值為90.18%,檢測(cè)速度56幀/s,相較于YOLOv3模型,其平均精度均值高9.87%,速度慢9幀/s。試驗(yàn)表明本研究提出的YOLOv3_DB_SPP模型在檢測(cè)速度損失不大的情況下,提高了檢測(cè)精度并實(shí)現(xiàn)了對(duì)遠(yuǎn)距離有遮擋小目標(biāo)的檢測(cè),但預(yù)測(cè)邊界框的定位精度仍有待提高。
中國(guó)農(nóng)業(yè)大學(xué)學(xué)報(bào)2021年3期