国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進(jìn)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的預(yù)標(biāo)注方法

2022-03-02 06:15
現(xiàn)代計(jì)算機(jī) 2022年23期
關(guān)鍵詞:級聯(lián)尺度卷積

葉 葉

(泰州學(xué)院信息工程學(xué)院,泰州 225300)

0 引言

隨著智慧城市、智慧交通的迅速發(fā)展,目標(biāo)檢測任務(wù)在智能監(jiān)控方面有著重要的作用[1]。而目標(biāo)檢測任務(wù)需要通過監(jiān)督訓(xùn)練的方式來獲取模型,快速地獲取到標(biāo)注數(shù)據(jù)集對于目標(biāo)檢測任務(wù)來說,具有重要的研究意義。

在目標(biāo)檢測任務(wù)當(dāng)中,采用深度學(xué)習(xí)進(jìn)行訓(xùn)練測試獲取到一個(gè)泛化性能比較好的深度學(xué)習(xí)檢測模型,需要對各種不同類型的模型訓(xùn)練以及測試,以獲取到對于當(dāng)前任務(wù)而言較好的適合模型,此時(shí)就需要采用大量的標(biāo)注數(shù)據(jù)來進(jìn)行監(jiān)督訓(xùn)練,如果采用純?nèi)斯?biāo)注需要耗費(fèi)大量的人力物力以及相當(dāng)長的時(shí)間,在標(biāo)注圖片中還存在著曝光過高、低對比度、雨雪天氣等各種難以標(biāo)注的圖片,導(dǎo)致人力物力以及時(shí)間上的消耗就會(huì)成倍地增加[2]。例如,imagenet的數(shù)據(jù)集通過亞馬遜眾包平臺,總共由來自167個(gè)國家的47000名工作者,耗時(shí)3年進(jìn)行標(biāo)注而成。imagenet比賽的數(shù)據(jù)集圖片總量超過1500萬張、共22000多類帶標(biāo)簽的高分辨率圖像[3]。

當(dāng)下的標(biāo)注方式在以前的純手工基礎(chǔ)上進(jìn)行了一定的改進(jìn),先使用已有的目標(biāo)檢測預(yù)標(biāo)注工具進(jìn)行數(shù)據(jù)的預(yù)標(biāo)注,這樣對于每張圖片可以獲取到相對粗糙的標(biāo)注結(jié)果,然后再采用人工方法進(jìn)行精確標(biāo)注來提高效率,減少誤標(biāo)漏標(biāo)以及人力的投入。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展以及應(yīng)用,目標(biāo)檢測算法的檢測準(zhǔn)確度得到了很大的提升,主要體現(xiàn)在錯(cuò)誤的檢測類別比例減小,正確的檢測類別比例增加。級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)對網(wǎng)絡(luò)性能有進(jìn)一步的提升。

本文使用改進(jìn)的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),用來對圖像進(jìn)行預(yù)標(biāo)注[4]。級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)首先通過一個(gè)主干網(wǎng)絡(luò)提取輸入圖像三個(gè)尺度上的特征,并將深層的特征進(jìn)行上采樣與淺層特征進(jìn)行融合,在三個(gè)尺度上進(jìn)行目標(biāo)檢測,然后將檢測的結(jié)果輸入下一級檢測器進(jìn)行二級目標(biāo)檢測,二級目標(biāo)檢測的結(jié)果輸入到三級檢測器進(jìn)行檢測,對三級檢測結(jié)果進(jìn)行融合,得到目標(biāo)的位置以及分類信息。直接采用級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)雖然也有較好的檢測精度以及準(zhǔn)確度,但在精度上仍有提升空間。本文對級聯(lián)卷積網(wǎng)絡(luò)的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行一定的改進(jìn),處理方案被優(yōu)化以提高算法的準(zhǔn)確度以及定位問題。本文通過將輸入層修改為多尺度輸入、RPN層采用Anchor Free來減少模型計(jì)算量,并且提高模型的檢測性能。最后,在I oU為0.5,F(xiàn)P P I為0.3時(shí),本文的網(wǎng)絡(luò)recall達(dá)到了64.52%,在預(yù)標(biāo)注模型中具有較高的準(zhǔn)確度。

1 級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)介紹

級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)是Cai等[5]發(fā)表在CVPR-2018上的高精度目標(biāo)檢測方法,它采用端到端訓(xùn)練方法,且其目標(biāo)檢測的檢測框精度較高,即檢測框與實(shí)際物體的框IoU值較高。該模型將檢測框的邊界回歸分成三個(gè)階段來進(jìn)行逐步優(yōu)化,同時(shí)對于檢測物體的識別也綜合三個(gè)階段的結(jié)果綜合考量[6]。

1.1 級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)思想

Faster R-CNN目標(biāo)檢測網(wǎng)絡(luò)的特點(diǎn)在RPN訓(xùn)練階段對于正負(fù)樣本是采用I oU閾值來進(jìn)行區(qū)分的,一般采用I oU閾值為0.5,當(dāng)檢測框和實(shí)際框的Io U閾值小于0.5為負(fù)樣本,大于等于0.5為正樣本[7]。但是在這里有個(gè)人為設(shè)定的IoU閾值來區(qū)分正負(fù)樣本,這樣訓(xùn)練出來的網(wǎng)絡(luò)在預(yù)測階段對于proposal框和實(shí)際框的I oU值在0.5左右的檢測框的回歸效果最好,但是對于Io U值較高的proposal框,其回歸效果較差。同理,如果調(diào)整IoU閾值到0.6,則是對I oU值在0.6附近的檢測框的回歸效果最好。RPN網(wǎng)絡(luò)proposal框的分布如圖1所示。

圖1 檢測框Io U分布圖

采用單個(gè)回歸網(wǎng)絡(luò)可以提高其中一部分檢測框的檢測精度,但是采用級聯(lián)網(wǎng)絡(luò)可以將檢測框檢測精度逐步提升,提高最終輸出結(jié)果的檢測精度,圖2所示為經(jīng)過級聯(lián)網(wǎng)絡(luò)后的proposal框的分布圖,從左至右分別是一級proposal框Io U分布,二級proposal框Io U分布,三級proposal框IoU分布[8]。由此經(jīng)過級聯(lián)網(wǎng)絡(luò)最終輸出的檢測框精準(zhǔn)度有極大的提高。

圖2 級聯(lián)后檢測框IoU分布圖

I oU是檢測框預(yù)測值和檢測框?qū)嶋H值的交集與檢測框預(yù)測值和檢測框?qū)嶋H值的并集之比,如下式所示:

1.2 網(wǎng)絡(luò)結(jié)構(gòu)

級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)以Faster R-CNN為基本框架[9],如圖3所示,總共有三級檢測器,其中I為輸入的圖片,conv為用于提取特征的卷積層,采用FPN作為主干網(wǎng)絡(luò);pool為池化層,一般采用RoI Pooling層或者RoI Align層;H1、H2、H3為分類回歸前的神經(jīng)網(wǎng)絡(luò);B0是RPN輸出的proposal,B1、B2、B3分別為三級RCNN的輸出的檢測框參數(shù);C1、C2、C3分別是三級RCNN的分類結(jié)果。

圖3 Cascade RCNN模型結(jié)構(gòu)圖

H1、B1、C1采用Io U閾值為0.5來進(jìn)行訓(xùn)練,H2、B2、C2采用I oU閾值為0.6來進(jìn)行訓(xùn)練,H3、B3、C3采用I oU閾值為0.7來進(jìn)行訓(xùn)練,逐級對檢測框進(jìn)行檢測回歸以提高檢測準(zhǔn)確度和精準(zhǔn)度。

2 基于改進(jìn)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的預(yù)標(biāo)注方法

本文主要利用級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)研究預(yù)標(biāo)注方法,通過修改級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),將級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)較好地應(yīng)用在預(yù)標(biāo)注方法領(lǐng)域。

2.1 改進(jìn)的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法

本文的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法的整體結(jié)構(gòu)圖如圖4所示。首先對輸入圖片進(jìn)行調(diào)整,長邊調(diào)整到1312,短邊按圖片的長寬比進(jìn)行對應(yīng)的縮放,然后將其輸入到訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)中進(jìn)行識別,主干網(wǎng)絡(luò)通過卷積層操作獲取到8倍下采樣、16倍下采樣、32倍下采樣的特征圖,然后對各個(gè)特征圖進(jìn)行目標(biāo)的檢測和識別,獲取到定位、類別、置信度,經(jīng)過三級檢測識別操作獲取到結(jié)果。

圖4 改進(jìn)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

對于輸入層,將原級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)單尺度輸入替換成多尺度輸入進(jìn)行訓(xùn)練,通過實(shí)驗(yàn)得出多尺度能夠提升檢測的準(zhǔn)確度與精準(zhǔn)度。對于主干網(wǎng)絡(luò),將RPN層替換為Anchor Free層,對于建議框來說,Anchor Free的建議框質(zhì)量相對于RPN更高,并且減少建議框的數(shù)量,提升檢測速度以及檢測召回率。

2.2 多尺度優(yōu)化

級聯(lián)網(wǎng)絡(luò)的輸入圖片的尺寸是單一固定的,級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的原始訓(xùn)練測試數(shù)據(jù)的數(shù)據(jù)源較為統(tǒng)一,但是在實(shí)際使用過程中會(huì)遇到數(shù)據(jù)源來自不同的攝像頭的情況,圖片尺寸差別較大,因此需要對級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的輸入層進(jìn)行修改,將圖片的長邊縮放到1312,短邊則按原圖長寬比等比例縮放,如果原始圖片長邊大于1312,則需要將圖片進(jìn)行縮小,此時(shí)采用局部均值的方法來進(jìn)行圖像縮小,濾波器的尺寸大小計(jì)算如下式所示。

當(dāng)輸入圖片長邊小于1312時(shí),需要將圖片進(jìn)行放大,此時(shí)采用雙線性插值算法將圖片進(jìn)行放大,短邊則按原圖長寬比等比例縮放,雙線性插值算法如下式所示[10]。

此時(shí),對于輸入的圖片長邊固定成1312,短邊按原圖比例縮放。并且基于金字塔方法的思想,對于輸入圖片進(jìn)行金字塔式采樣可以使得模型適應(yīng)不同尺寸的圖片,提取到更合理的圖片特征[11]。訓(xùn)練時(shí)采用多尺度方式預(yù)設(shè)多種尺度,并對各尺度進(jìn)行編號,輸入層采用隨機(jī)方式獲取尺度進(jìn)行訓(xùn)練,獲取方式如下式所示。

2.3 Anchor Free優(yōu)化

在級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的RPN網(wǎng)絡(luò)階段,采用Anchor Base的方法來進(jìn)行Anchor[12],采用Anchor Base的方法需要設(shè)定許多的超參,例如Anchor number,Anchor size,Anchor ratio等,這些超參的設(shè)置對于模型的訓(xùn)練結(jié)果會(huì)產(chǎn)生極大的影響;為了保證算法的檢測效果,需要大量的Anchors來進(jìn)行訓(xùn)練,其中負(fù)樣本的比例較大,因此存在正負(fù)樣本不均衡的問題;在訓(xùn)練過程中,需要計(jì)算Anchor box與ground truth box的IoU,總體計(jì)算量較大。

采用Anchor Free將RPN網(wǎng)絡(luò)中feature map對應(yīng)的Anchor轉(zhuǎn)換成在feature map上的每一點(diǎn)進(jìn)行回歸操作[13],首先將feature map中的每個(gè)點(diǎn)映射回原始的輸入圖片,如果這個(gè)映射回原始輸入的點(diǎn)在相應(yīng)的ground truth的范圍之內(nèi),而且類別標(biāo)簽對應(yīng),我們將其作為訓(xùn)練的正樣本塊,否則將其作為負(fù)樣本塊,回歸的目標(biāo)參數(shù)如圖5所示,為(l,t,r,b),即中心點(diǎn)離左邊界、上邊界、右邊界、下邊界的距離。

圖5 回歸目標(biāo)參數(shù)

假設(shè)實(shí)際框的左上角和右下角坐標(biāo)值為(x0,y0)、(x1,y1),那么回歸的目標(biāo)數(shù)據(jù)為

通過這種方式可以獲取到對應(yīng)的正樣本,然后對正樣本進(jìn)行回歸操作。與Anchor Base方法相比,該方法的正負(fù)樣本數(shù)據(jù)較為平衡,并且無需設(shè)置超參,在計(jì)算量方面,該方法相對于需要進(jìn)行Io U計(jì)算的Anchor Base方法計(jì)算量要減少許多。

由于對檢測方式進(jìn)行了修改,相應(yīng)地修改損失函數(shù),具體損失函數(shù)如下所示:

損失函數(shù)包含兩個(gè)部分,Lcls表示分類損失,在本設(shè)計(jì)中采用了FocalLoss;Lreg表示回歸損失,在本設(shè)計(jì)中采用IoULoss,F(xiàn)ocalLoss可以進(jìn)一步對正負(fù)樣本不平衡有優(yōu)化作用[14],IoU Loss將位置信息作為整體來進(jìn)行訓(xùn)練檢測,其相對于四個(gè)坐標(biāo)點(diǎn)分別回歸有更好的檢測效果。

3 實(shí)驗(yàn)結(jié)果與分析

本文的仿真實(shí)驗(yàn)環(huán)境:處理器為Intel core i7-7700,CPU為3.60 GHz*8,7.7 G內(nèi)存,GPU為GTX1080。操作系統(tǒng)為Ubuntu16.04[15]。

3.1 結(jié)果評價(jià)指標(biāo)

為了對檢測結(jié)果進(jìn)行評價(jià)分析,本設(shè)計(jì)采用如下指標(biāo):T P(True Positive)為檢測正確的非背景框,F(xiàn) P(False Positive)為誤報(bào)框,T N(True Negative)為檢測正確的背景框,F(xiàn) N(False Negative)為漏報(bào)。當(dāng)檢測框I o U大于0.5時(shí),且置信度大于設(shè)定閾值時(shí),認(rèn)為該檢測框?yàn)橐粋€(gè)正檢。

平均每張圖誤報(bào)框數(shù)量F P PI:

召回率recall:

采用FPPI-recall作為本設(shè)計(jì)的評價(jià)指標(biāo),本設(shè)計(jì)作為預(yù)標(biāo)注算法,刪除誤檢的檢測框需要人工操作時(shí)間,因此需要控制誤檢框的數(shù)量,同時(shí)需要提高召回率,保證預(yù)標(biāo)注數(shù)據(jù)完整性。

3.2 不同網(wǎng)絡(luò)對比試驗(yàn)

本文采用的目標(biāo)檢測數(shù)據(jù)集為VOC2007和VOC2012,其包括了在角度、光照、形態(tài)等方面不同的檢測圖片[16]。VOC2007訓(xùn)練集圖片量為5011張,測試集圖片量為4952張,對所有網(wǎng)絡(luò)進(jìn)行了90k次迭代訓(xùn)練。為了加速訓(xùn)練并防止過擬合,初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率衰減系數(shù)設(shè)置為0.0001,權(quán)值衰減系數(shù)設(shè)置為0.0005。

為了測試網(wǎng)絡(luò)檢測的準(zhǔn)確度,本文對原級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)、本文優(yōu)化后的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)以及其他的一些神經(jīng)網(wǎng)絡(luò)進(jìn)行了測試實(shí)驗(yàn),并對實(shí)驗(yàn)結(jié)果進(jìn)行了比較。測試集選用VOC-2007的標(biāo)準(zhǔn)測試集,在F PP I為0.3時(shí),其檢測效果如表1和圖6所示。

表1 在VOC2007上不同目標(biāo)檢測算法測試對比

從表1和圖6可以看出,使用改進(jìn)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)在F P PI為0.3、I oU閾值為0.5的情況下,其召回率最高,為64.52%。同時(shí),本文的三個(gè)改進(jìn)點(diǎn)對于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的檢測結(jié)果具有優(yōu)化作用,Anchor Free對于級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化作用相對于多尺度較好。SSD512由于輸入圖像較小,并且其多尺度的方法較為落后,因此,檢測結(jié)果相對較差。同時(shí),在檢測速度上,由于標(biāo)注算法對于實(shí)時(shí)性要求不高,檢測速度不是作為一個(gè)參考參數(shù),可以看到Y(jié)OLOv3和SSD512由于其是單階段的檢測算法,檢測速度相對較快;而Faster-RCNN以及級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法,F(xiàn)aster-RCNN的測試速度最快,因?yàn)镕aster-RCNN的檢測回歸只有一級,而級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)有三級檢測回歸網(wǎng)絡(luò),Anchor Free改進(jìn)對于速度有一定的提升,相對于RPN層,Anchor Free提出的建議框的數(shù)量少、質(zhì)量高,在本設(shè)計(jì)中具有極大的意義。

圖6 部分檢測結(jié)果

VOC2012訓(xùn)練集圖片量為11540張,測試集圖片量為10991張,同樣對所有網(wǎng)絡(luò)進(jìn)行了90k次迭代訓(xùn)練。初始學(xué)習(xí)率設(shè)置為0.001,學(xué)習(xí)率衰減系數(shù)設(shè)置為0.0001,權(quán)值衰減系數(shù)設(shè)置為0.0005。

從表1及表2可知,在VOC2007以及VOC2012數(shù)據(jù)集上,經(jīng)過多尺度以及Anchor Free改進(jìn)后的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的檢測召回率相對于原級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)有一定的提高,另外,Anchor Free對于網(wǎng)絡(luò)召回率的提升效果較多尺度更明顯。改進(jìn)級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的檢測效果比原級聯(lián)神經(jīng)網(wǎng)絡(luò)、Faster-RCNN、SSD512、YOLOv3效果要好。

表2 在VOC2012上不同目標(biāo)檢測算法測試對比

3.3 與已有改進(jìn)級聯(lián)卷積網(wǎng)絡(luò)算法的比較

最后將本文改進(jìn)的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法與近兩年提出的優(yōu)化的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)算法進(jìn)行了對比,統(tǒng)一采用F PPI為0.3時(shí),Io U閾值為0.5時(shí)的r ecal l值,數(shù)據(jù)集VOC2007和VOC2012,檢測結(jié)果如表3所示。

表3 不同優(yōu)化級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)測試對比

文獻(xiàn)[17]提出了一個(gè)新的single-shot檢測器RefineDet,采用ARM(anchor refinement module)和ODM(object detection module),ARM過濾掉部分negative anchors,減少搜索空間,給ODM進(jìn)一步的分類和回歸提供一個(gè)比較原始的信息;ODM用于對ARM輸出的結(jié)果進(jìn)行回歸和分類,實(shí)現(xiàn)了相較于二階段檢測器(主要對比Faster-RCNN)有更高的準(zhǔn)確率的同時(shí),具有一階段檢測器的檢測效率(主要對比SSD系列)。文獻(xiàn)[18]設(shè)計(jì)應(yīng)用場景主要是針對小尺寸的交通標(biāo)志,在級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出了一種基于點(diǎn)積和softmax的多尺度特征加權(quán)關(guān)注方法,并對負(fù)樣本,特別是困難樣本進(jìn)行擴(kuò)充來進(jìn)行訓(xùn)練,其優(yōu)化思想和本文有一定的相似之處,都借鑒了金字塔式多尺度思想,本文的優(yōu)化方案從建議框的角度來對模型進(jìn)行優(yōu)化,不僅可以優(yōu)化模型召回率,對于模型的檢測速度也有很大的提升,召回率以及檢測速度相較于文獻(xiàn)[18]都有優(yōu)勢。文獻(xiàn)[19]采用的檢測方法包含兩個(gè)分支,檢測分支和分割分支,檢測分支以VGG16作為backbone,在不同層的特征圖上進(jìn)行檢測;分割分支主要用于增強(qiáng)低級特征的語義信息。它以低級特征作為輸入,通過bboxlevel segmentation gt作為監(jiān)督來學(xué)習(xí)語義分割的信息,然后利用該分支中的語義特征來增強(qiáng)低級特征。再通過全局激活模塊增強(qiáng)高級特征,全局激活塊能夠以一種自監(jiān)督的方式學(xué)習(xí)特征通道與目標(biāo)類別之間的關(guān)系,從而增強(qiáng)高級特征的語義信息。

4 結(jié)語

本文提出一種優(yōu)化的級聯(lián)卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)對輸入層進(jìn)行多尺度設(shè)計(jì),對于RPN階段,采用Anchor Free的方式來提出預(yù)檢測框,并在VOC2007及VOC2012數(shù)據(jù)集上進(jìn)行訓(xùn)練測試。實(shí)驗(yàn)結(jié)果表明,在F PP I為0.3,I oU閾值為0.5的情況下,本設(shè)計(jì)在VOC2007數(shù)據(jù)集上召回率達(dá)到了64.52%,在VOC2012數(shù)據(jù)集上召回率達(dá)到了65.71%。與時(shí)下的不同模型以及其他優(yōu)化級聯(lián)卷積神經(jīng)網(wǎng)絡(luò)方案相比,本文網(wǎng)絡(luò)具有一流的檢測性能以及速度,對于預(yù)標(biāo)注方法來說,這些特性使本文方法十分適用。

猜你喜歡
級聯(lián)尺度卷積
鈾濃縮廠級聯(lián)系統(tǒng)核安全分析
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對
卷積神經(jīng)網(wǎng)絡(luò)的分析與設(shè)計(jì)
從濾波器理解卷積
富集中間組分同位素的級聯(lián)
—— “T”級聯(lián)
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度
基于級聯(lián)MUSIC的面陣中的二維DOA估計(jì)算法
多組分同位素分離中不同級聯(lián)的比較研究