国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)邊界框回歸損失的YOLOv3 檢測算法

2022-03-12 05:56:26沈記全陳相均翟海霞
計(jì)算機(jī)工程 2022年3期
關(guān)鍵詞:真值范數(shù)尺度

沈記全,陳相均,翟海霞

(河南理工大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,河南焦作 454000)

0 概述

目標(biāo)檢測技術(shù)是很多計(jì)算機(jī)視覺任務(wù)的基礎(chǔ),如實(shí)例分割[1-3]、圖像描述[4-5]、目標(biāo)跟蹤[6]等,并且在工業(yè)、安防、視頻監(jiān)控、人臉識別[7]、機(jī)器人視覺[8]、自動駕駛[9]等諸多領(lǐng)域有極大的研究價值和應(yīng)用前景,受到了學(xué)者們的廣泛關(guān)注。當(dāng)前,目標(biāo)檢測的研究已取得較大進(jìn)展,檢測精度及速度在不斷提高。但是,由于尺度變化、旋轉(zhuǎn)、遮擋、光照以及物體的稠密度、角度等不同因素的影響,目標(biāo)檢測的精度仍有較大的提升空間。近年來,基于深度學(xué)習(xí)的目標(biāo)檢測成為研究熱點(diǎn),卷積神經(jīng)網(wǎng)絡(luò)可以快速、準(zhǔn)確地從大量樣本中學(xué)習(xí)更通用的特征,并且無需對樣品進(jìn)行預(yù)處理,避免了復(fù)雜的手工制作和設(shè)計(jì)。

基于深度學(xué)習(xí)的目標(biāo)檢測算法大致分為兩階段檢測算法和單階段檢測算法兩種:一種是包括R-CNN[10]、Fast R-CNN[11]、Faster R-CNN[12]和Pyramid Networks[13]的兩階段檢測算法,被稱為基于候選區(qū)域的目標(biāo)檢測算法,其將目標(biāo)檢測過程分解為候選區(qū)域提取、候選區(qū)域分類和候選區(qū)域坐標(biāo)修正3 個步驟;另一種是包括SSD[14]、RetinaNet[15]和YOLO[16-18]系列的單階段檢測算法,被稱為基于回歸分析的目標(biāo)檢測算法,其將目標(biāo)檢測問題視為對目標(biāo)位置和類別信息的回歸分析問題,通過一個神經(jīng)網(wǎng)絡(luò)模型直接輸出檢測結(jié)果。盡管存在這些不同的檢測框架,但無論對于單階段算法還是兩階段算法,邊界框回歸都是預(yù)測矩形框以對目標(biāo)對象進(jìn)行定位的關(guān)鍵步驟。

現(xiàn)有的目標(biāo)檢測算法常用平均絕對誤差(Mean Absolute Error,MAE)損失(又稱L1 范數(shù)損失)、均方誤差(Mean Square Error,MSE)損失(又稱L2 范數(shù)損失)函數(shù)計(jì)算邊界框位置坐標(biāo)的回歸損失,但是L1、L2 范數(shù)損失對邊界框的尺度具有敏感性,尺度越小的邊界框預(yù)測偏差對其影響越大,且卷積神經(jīng)網(wǎng)絡(luò)在評價邊界框的回歸效果時使用交并比(Intersection over Union,IoU)作為評價標(biāo)準(zhǔn),而L1、L2 范數(shù)損失與IoU 之間的優(yōu)化并非等價。文獻(xiàn)[19]提出將IoU 作為邊界框回歸損失函數(shù)對檢測模型進(jìn)行優(yōu)化,但是存在真值框與預(yù)測框無交集時優(yōu)化效果不佳的情況。文獻(xiàn)[20]提出一種通用的優(yōu)化邊界框的方式破折號GIoU,解決了在真值框和預(yù)測框無交集的情況下將IoU 作為邊界框損失函數(shù)不能反映邊界框之間的距離、以及函數(shù)梯度為零導(dǎo)致模型無法被優(yōu)化等問題。文獻(xiàn)[21]采用GIoU 損失對YOLOv2 模型損失函數(shù)進(jìn)行改進(jìn),提高了模型對車身焊點(diǎn)的檢測精度。文獻(xiàn)[22]在YOLOv3 網(wǎng)絡(luò)中引入空間金字塔池化單元,并采用GIoU 損失計(jì)算坐標(biāo)損失,在不降低速度的情況下,提高了無人機(jī)對罌粟的檢測效率。上述損失函數(shù)雖然總體上比傳統(tǒng)邊界框損失函數(shù)效果更好,但在某些情況下仍存在收斂效果不佳的問題。

本文提出邊界框回歸損失算法BR-IoU。將IoU作為邊界框回歸的損失項(xiàng),加強(qiáng)損失函數(shù)的優(yōu)化與IoU 之間的聯(lián)系,并添加懲罰項(xiàng)加快真值框與預(yù)測框中心點(diǎn)之間的重疊速度,通過使預(yù)測框和真值框?qū)捀弑缺3忠恢?,提升邊界框的回歸收斂效果。

1 相關(guān)工作

1.1 IoU 與GIoU

交并比(IoU)也被稱為Jaccard 系數(shù),用于衡量兩個邊界框重疊面積的相對大小,是2D 和3D 目標(biāo)檢測中常用的評價標(biāo)準(zhǔn)。IoU 具有尺度不變性、非負(fù)性和對稱性,不僅可以用來確定正負(fù)樣本,而且還可以反映模型中預(yù)測框的檢測效果。如圖1 所示,A 和B 為2 個重疊的邊界框,其Jaccard 系數(shù)公式如下:

圖1 矩形A、B 與最小封閉框CFig.1 Rectangle A,B and the smallest enclosed frame C

將IoU 作為邊界框回歸損失,其損失函數(shù)如下:

雖然IoU 作為評價標(biāo)準(zhǔn)具有優(yōu)勢,但是當(dāng)邊框無交集時將IoU 作為損失函數(shù)會導(dǎo)致無法反映兩個邊界框彼此之間的距離、損失函數(shù)梯度為零不能被優(yōu)化等問題。如圖2 所示,圖2(a)場景預(yù)測框的位置相較于圖2(b)場景離真實(shí)框更近,但是IoU 的值卻都為0。

圖2 邊界框無交集時IoU 的比較Fig.2 IoU comparison when bounding boxes have no intersection

基于此,2019 年REZATOFGHI 等[20]提出的GIoU繼承了IoU 具有的尺度不變性、非負(fù)性和對稱性,同時克服了IoU 在邊界框無交集情況下的不足。令圖1 中包含A 和B 的最小封閉框?yàn)镃,則GIoU 公式如下:

當(dāng)A、B 兩個邊界框完全重疊時,IIoU(A,B)=1;當(dāng)A、B 兩個邊界框無交集時,IIoU(A,B)=0。因此,IoU的取值區(qū)間為[0,1]。而GIoU 的取值區(qū)間具有對稱性,即-1 ≤GGIoU(A,B)≤1,與IoU 相似:當(dāng)兩個邊界框完全重疊,即|A ∪B|=|A ∩B|時,GGIoU(A,B)=1;當(dāng)兩個邊界框無交集且距離無限大時,最小包圍框C的面積趨近于無窮大,此時GGIoU(A,B)=-1。

GIoU 取值區(qū)間的對稱性使其比IoU 更能反映邊界框的重疊和非重疊情況。本文將GIoU 作為邊界框回歸損失,其損失函數(shù)如下:

可以看出,邊界框之間的GIoU 值越大,GGIoU_loss值越小,邊界框的回歸收斂效果越好。

1.2 YOLOv3 模型

YOLOv3 模型是具有代表性的單階段目標(biāo)檢測算法,其通過縮放、填充將不同尺寸輸入圖像的大小調(diào)整為32 的倍數(shù),再分成S×S個非重疊的網(wǎng)格,如圖3 所示(S=7)。

圖3 輸入圖像網(wǎng)格示意圖Fig.3 Grid diagram of input image

每個網(wǎng)格負(fù)責(zé)檢測中心點(diǎn)位置坐標(biāo)落入該格的物體,網(wǎng)格中預(yù)設(shè)有3 個邊界框和C個類別概率。在邊界框預(yù)測的5 個分量x、y、w、h和置信度中,(x,y)坐標(biāo)表示邊界框的中心點(diǎn)相對于網(wǎng)格單元的位置,(w,h)坐標(biāo)表示邊界框的尺寸,置信度用來判斷邊界框中存在物體的概率。YOLOv3 通過對置信度設(shè)定閾值過濾掉低分的邊界框,再對剩下的邊界框使用非極大值抑制(Non-Maximum Supression,NMS)算法去除冗余邊界框,得到預(yù)測結(jié)果,因此,YOLOv3每個網(wǎng)格有3×(5+C)個屬性值。為了加強(qiáng)對小物體的檢測性能,YOLOv3 借鑒了特征金字塔網(wǎng)絡(luò)(Feature Pyramid Network,F(xiàn)PN)的思想,采用多尺度特征融合的方式,在不同特征層對不同大小的物體進(jìn)行預(yù)測。同時,YOLOv3 通過上采樣,自頂向下地融合底層的高分辨率信息和高層的高語義信息,提高了對不同尺度物體的檢測精度,尤其增強(qiáng)了對小物體的檢測精度。

YOLOv3 采用L2 范數(shù)計(jì)算邊界框坐標(biāo)的回歸損失,L2 范數(shù)損失中不同尺寸邊界框?qū)ζ漕A(yù)測框坐標(biāo)產(chǎn)生偏差的敏感度也不同。相對于大尺寸邊界框,尺寸越小的邊界框預(yù)測偏差對其IoU 的影響越大,因此,YOLOv3 在邊界框位置損失部分乘以系數(shù)(2-tw×th)來緩解這一情況。為了實(shí)現(xiàn)多標(biāo)簽分類,YOLOv3 采用二元交叉熵函數(shù)取代softmax 函數(shù)計(jì)算邊界框的類別損失。softmax 函數(shù)假設(shè)每個對象只屬于一個類別,但是在一些復(fù)雜場景下,一個對象可能屬于多個類別(例如女人和人),因此,在目標(biāo)類別較復(fù)雜的數(shù)據(jù)集上,多標(biāo)簽分類的二元交叉熵函數(shù)能取得更好的預(yù)測結(jié)果。YOLOv3 網(wǎng)絡(luò)模型的損失函數(shù)分為邊界框坐標(biāo)損失、置信度損失和分類損失。損失函數(shù)如式(6)所示:

圖4 YOLOv3 算法檢測過程Fig.4 Detection process of YOLOv3 algorithm

2 BR-IoU 邊界框回歸損失算法

采用L2 范數(shù)邊界框回歸損失函數(shù)的YOLOv3檢測算法通常會出現(xiàn)以下2 個問題:

1)如圖5 所示,4 組邊界框角點(diǎn)坐標(biāo)距離的L2 范數(shù)損失值相等,但I(xiàn)oU 值卻不同,這表明L2 范數(shù)損失不能準(zhǔn)確地反映IoU 值的變化,與IoU 之間不具有強(qiáng)相關(guān)性。

圖5 L2 范數(shù)損失值相等時IoU 的變化Fig.5 Change of IoU when L2 norm loss values are equal

2)L2 范數(shù)損失具有尺度敏感性,在算法訓(xùn)練過程中,當(dāng)兩個邊界框的IoU 值相同時,大尺寸邊界框會產(chǎn)生更多的損失值使小尺寸邊界框難以被優(yōu)化,導(dǎo)致算法對小尺寸目標(biāo)的檢測效果不佳。

針對上述問題,本文提出BR-IoU 算法,為方便不同邊界框損失算法的性能對比,將BR-IoU 算法分為BR-IoU-A 算法和BR-IoU-B 算法。

BR-IoU-A 算法將IoU 作為邊界框回歸的損失項(xiàng),強(qiáng)化與IoU 之間的聯(lián)系,并繼承了IoU 的尺度不變性,使得不同尺度的邊界框在回歸過程中獲得更均衡的損失優(yōu)化權(quán)重。然后算法在IoU 損失項(xiàng)的基礎(chǔ)上添加一個懲罰項(xiàng),通過最小化預(yù)測框與真值框中心點(diǎn)圍成矩形的面積,加快預(yù)測框中心點(diǎn)與真值框中心點(diǎn)的重疊速度。算法的懲罰項(xiàng)使邊界框在任何情況下都存在梯度,在邊界框無交集的情況下仍然能夠反映邊界框間的相對距離,為邊界框的優(yōu)化提供移動方向,如圖6 所示,D 是真值框Bg的中心點(diǎn)bg和預(yù)測框B 的中心點(diǎn)b 圍成的矩形框,Bc是真值框Bg與預(yù)測框B 的最小封閉框,w和h為D 的寬和高,wc和hc為Bc的寬和高,則BR-IoU-A 計(jì)算公式如下:

圖6 BR-IoU-A 算法示意圖Fig.6 Schematic diagram of BR-IoU-A algorithm

利用BR-IoU-A 算法計(jì)算邊界框回歸損失,損失函數(shù)如下:

BR-IoU-A 損失繼承了IoU 和GIoU 損失的優(yōu)良屬性:1)BR-IoU-A 損失對邊界框的尺度不敏感,具有尺度不變性;2)BR-IoU-A 損失在邊界框無交集情況下仍然存在損失梯度,可以為邊界框的優(yōu)化提供移動方向;3)當(dāng)兩個邊框完全重疊時,GGIoU=BBR-IoU-A=1,GGIoU_loss=BBR-IoU-A_loss=0;當(dāng)兩個邊框距離無限遠(yuǎn)時,GGIoU=BBR-IoU-A=-1,GGIoU_loss=BBR-IoU-A_loss=2。但在某些情景下,如圖7 所示(其中,實(shí)線框?yàn)檎嬷悼?,虛線框?yàn)槠矫鏈y框),真值框?qū)捄透叩闹刀紴?,預(yù)測框?qū)捄透叩闹禐?.5。此時無論預(yù)測框與真值框的中心點(diǎn)間的距離如何變化,GIoU 與IoU 損失值都不變,由此可見,BR-IoUA 損失算法能很好地區(qū)分邊界框之間的重疊情況。

圖7 中心點(diǎn)間相對位置比較Fig.7 Comparison of relative positions between center points

圖7(a)圖像的檢測效果優(yōu)于圖7(b)圖像,BR-IoU-A 損失算法通過值的變化來反映這種情況。

算法BR-IoU-A 邊界框回歸損失算法

圖8 預(yù)測框不同寬高比下的檢測效果對比Fig.8 Comparison of detection effects under different aspect ratios of predicted bounding boxes

圖8(a)預(yù)測框的寬高比值相較于圖8(b)預(yù)測框更接近真實(shí)框,預(yù)測效果更好,但BR-IoU-A 值卻相同。因此,本文在BR-IoU-A 的基礎(chǔ)上,結(jié)合預(yù)測框與真值框之間寬高比的一致性提出BR-IoU-B 損失算法,計(jì)算公式如下:

其中,參數(shù)V使預(yù)測框?qū)捀弑扰c真值框的保持一致,C是V的平衡參數(shù),當(dāng)兩個邊界框無交集或IoU 值較低時,使邊界框之間的重疊因子在回歸過程中獲得較高優(yōu)先級,從而加快邊界框回歸的收斂速度。

其中:wg、hg分別為真值框的寬和高;wp、hp分別為預(yù)測框的寬和高。綜上,BR-IoU-B 損失函數(shù)如下:

使用BR-IoU 邊界框回歸損失算法對YOLOv3模型進(jìn)行改進(jìn),改進(jìn)后的損失函數(shù)如下:

3 實(shí)驗(yàn)結(jié)果與分析

本文實(shí)驗(yàn)?zāi)P突赥ensorflow1.13.1 框架,編程語言為python3.7,實(shí)驗(yàn)操作系統(tǒng)為Ubuntu16.04,GPU型號為NVIDIA Tesla P40,CUDA版本為10.0。為了驗(yàn)證BR-IoU算法的實(shí)際性能,將原始YOLOv3的邊界框回歸損失部分分別替換成GIoU 損失算法(簡稱G-YOLO)、BR-IoU-A 損失算法(簡稱BR-YOLO-A)、BR-IoU-B損失算法(簡稱BR-YOLO-B)。在PASCAL VOC 2007+2012 數(shù)據(jù)集和COCO 2014 數(shù)據(jù)集上進(jìn)行模型評測和對比實(shí)驗(yàn)。

在算法訓(xùn)練過程中,為了增強(qiáng)模型性能,對數(shù)據(jù)集中的原始圖像進(jìn)行數(shù)據(jù)增強(qiáng)操作,通過圖像隨機(jī)裁剪、旋轉(zhuǎn)、平移、顏色變化等方法,增加圖像的多樣性,使神經(jīng)網(wǎng)絡(luò)具有更強(qiáng)的泛化效果,提高模型魯棒性。此外,為檢測不同尺度圖像中包含的不同尺度和形狀的目標(biāo),在每個檢測層中設(shè)定不同尺度的先驗(yàn)框與真實(shí)標(biāo)簽進(jìn)行匹配。網(wǎng)絡(luò)輸入大小為416×416,模型參數(shù)更新方式為Adam,初始學(xué)習(xí)率為0.000 1,權(quán)重衰減設(shè)置為0.000 5。對于VOC 和COCO 數(shù)據(jù)集,模型加載預(yù)訓(xùn)練權(quán)重來完成初始化,令其他沒有預(yù)訓(xùn)練權(quán)重的部分在訓(xùn)練過程中自適應(yīng)微調(diào)參數(shù),然后訓(xùn)練整個模型。為了在訓(xùn)練過程中使模型穩(wěn)定,算法為模型訓(xùn)練設(shè)置兩個輪次迭代的熱身階段。實(shí)驗(yàn)采用平均精度(Average Precision,AP)反映每一類目標(biāo)的檢測效果,平均精度是從準(zhǔn)確率和召回率兩個方面來衡量檢測算法的準(zhǔn)確性,可以直觀地表現(xiàn)模型對單個類別的檢測效果;采用平均精度均值(mean Average Precision,mAP)來衡量多類目標(biāo)的平均檢測精度,mAP 值越高,模型在全部類別中綜合性能越高。

3.1 在PASCAL VOC 數(shù)據(jù)集上的對比實(shí)驗(yàn)

PASCAL VOC 2007+2012訓(xùn)練集共包含16 551張圖像、40 058 個樣本框,分為4 個大類和20 個小類。VOC 2007 測試集包含4 952 張圖像、12 032 個樣本框。PASCAL VOC 通過計(jì)算數(shù)據(jù)集IoU=0.5 時的mAP 對模型進(jìn)行評價。該組實(shí)驗(yàn)在PASCAL VOC數(shù)據(jù)集上的訓(xùn)練迭代次數(shù)為100 輪,測試集上的mAP 及各類別目標(biāo)的AP 檢測結(jié)果如圖9 和表1所示。

圖9 PASCAL VOC 數(shù)據(jù)集上不同算法的AP 對比Fig.9 AP comparison of different algorithms on PASCAL VOC data set

表1 PASCAL VOC 數(shù)據(jù)集上不同算法的性能對比Table 1 Performance comparison of different algorithms on PASCAL VOC data set

實(shí)驗(yàn)結(jié)果表明,在不影響模型檢測速度的情況下,BR-YOLO-B 算法的mAP 高出原YOLOv3 算 法2.54 個百分點(diǎn),高出G-YOLO 算法1.51 個百分點(diǎn)。

3.2 在COCO 數(shù)據(jù)集上的對比實(shí)驗(yàn)

COCO 2014 訓(xùn)練集共包含82 783 張圖像,分為80 個類別。從驗(yàn)證集中選取5 000 張圖像作為測試集對模型進(jìn)行評價。COCO 數(shù)據(jù)集將IoU 在[0.5∶0.95]區(qū)間內(nèi),步長為0.05 的10 個取值分別計(jì)算mAP 并取平均值作為檢測模型的評價結(jié)果,相比VOC 數(shù)據(jù)集,COCO 數(shù)據(jù)集的多IoU 評價標(biāo)準(zhǔn)對檢測算法的要求更高,更能反映檢測算法的綜合性能。該組實(shí)驗(yàn)在COCO 2014 數(shù)據(jù)集上的迭代次數(shù)為120 輪,實(shí)驗(yàn)結(jié)果如圖10 和表2 所示。可以看出,后3 種模型相對YOLOv3 的檢測效果均有所提高,這得益于BR-IoU-A 損失算法相比L2損失算法對不同尺度邊界框的回歸優(yōu)化更均衡,并且與評價指標(biāo)IoU 之間的優(yōu)化更加密切,模型BR-YOLO-A 算法的mAP 對 比YOLOv3 提高了1.63 個百分點(diǎn)。此外,由于BR-IoU-B 算法進(jìn)一步對預(yù)測框與真值框之間寬高比的一致性進(jìn)行優(yōu)化,因此BR-YOLO-B 算法的mAP 比YOLOv3 提高了2.07 個百分點(diǎn)。

圖10 PASCAL VOC 數(shù)據(jù)集上的檢測效果對比Fig.10 Comparison of detection effects on PASCAL VOC data set

表2 COCO 2014 數(shù)據(jù)集上不同算法的mAP 對比Table 2 mAP comparison of different algorithms on COCO 2014 data set %

表3 所示為4 種檢測算法的空間與時間復(fù)雜度比較結(jié)果,其中時間復(fù)雜度為模型檢測每張圖像所需要的時間。由于模型的骨干網(wǎng)絡(luò)都為Darknet53,因此4 種算法的網(wǎng)絡(luò)參數(shù)數(shù)量基本相同,約為236×106。由表3 可以看出,相比YOLOv3算法,BR-YOLO-A 和BR-YOLO-B 算法檢測速度更快。

表3 不同算法的時空間復(fù)雜度對比Table 3 Time and space complexity comparison of different algorithms

4 結(jié)束語

針對YOLOv3 的L2 范數(shù)邊界框回歸損失函數(shù)對邊界框的尺度敏感,以及與算法檢測效果的評價標(biāo)準(zhǔn)IoU 之間相關(guān)性不強(qiáng)等問題,本文提出BR-IoU 算法,通過將IoU 作為損失項(xiàng)強(qiáng)化邊界框回歸與算法評估標(biāo)準(zhǔn)的相關(guān)性,最小化真值框和預(yù)測框中心點(diǎn)形成矩形的面積,同時提高預(yù)測框與真值框之間寬高比的一致性,以加強(qiáng)邊界框的回歸收斂性能。實(shí)驗(yàn)結(jié)果表明,BR-IoU能夠有效提高YOLOv3 算法的檢測精度和檢測速度。下一步將結(jié)合本文算法設(shè)計(jì)思想對其他目標(biāo)檢測算法的邊界框回歸損失函數(shù)進(jìn)行改進(jìn),在不影響檢測速度的情況下達(dá)到更高的檢測精度。

猜你喜歡
真值范數(shù)尺度
財(cái)產(chǎn)的五大尺度和五重應(yīng)對
基于加權(quán)核范數(shù)與范數(shù)的魯棒主成分分析
矩陣酉不變范數(shù)H?lder不等式及其應(yīng)用
10kV組合互感器誤差偏真值原因分析
電子制作(2017年1期)2017-05-17 03:54:35
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
真值限定的語言真值直覺模糊推理
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
一類具有準(zhǔn)齊次核的Hilbert型奇異重積分算子的范數(shù)及應(yīng)用
9
寫真法、寫假法探析
霍城县| 买车| 冀州市| 惠州市| 定陶县| 利川市| 团风县| 利辛县| 乌拉特中旗| 滨州市| 循化| 宾川县| 桐梓县| 濮阳市| 彰化市| 灵石县| 沂源县| 日照市| 广汉市| 盐津县| 方城县| 义乌市| 南京市| 伊宁县| 永宁县| 武宣县| 化州市| 克什克腾旗| 北安市| 皋兰县| 龙川县| 靖宇县| 遵义县| 舒城县| 都兰县| 克山县| 内乡县| 舞阳县| 泰顺县| 蚌埠市| 仪征市|