国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

跨深度的卷積特征增強目標(biāo)檢測算法

2020-07-20 06:32:22王若霄徐智勇張建林
計算機工程與設(shè)計 2020年7期
關(guān)鍵詞:尺度卷積通路

王若霄,徐智勇,張建林

(1.中國科學(xué)院 光電技術(shù)研究所,四川 成都 610209;2.中國科學(xué)院大學(xué) 電子電氣與通信工程學(xué)院,北京 100049)

0 引 言

隨著深度卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,目標(biāo)檢測領(lǐng)域因卷積神經(jīng)網(wǎng)絡(luò)強大的特征提取能力而發(fā)展迅猛,一般可分為雙階段和單階段兩類檢測算法。雙階段檢測算法因比單階段檢測算法多了區(qū)域提名階段故精度較高,但推斷速度較慢。單階段算法以YOLO(you only look once)[1]、SSD(single shot detector)[2]為典型代表。本文基于檢測系統(tǒng)的實時性對單階段檢測算法進行研究并針對單階段算法的缺陷進行改進。尺度變化問題十分重要,因為目標(biāo)的尺度變化范圍太大會嚴(yán)重影響檢測系統(tǒng)的性能。為了解決尺度變化問題,一個通用的方式是采取多尺度訓(xùn)練來模擬圖像金字塔[3],但這僅是訓(xùn)練策略。單階段檢測算法由于缺少區(qū)域提名階段,故對于尺度變化更易受到影響,單階段算法為了解決尺度變化問題有了系列措施,SSD算法采用了多尺度預(yù)測,且設(shè)置了多種寬高比的預(yù)設(shè)框。YOLOv3[4]采用了特征金字塔結(jié)構(gòu)[5]級聯(lián)深層特征和淺層特征,淺層檢測層加入深層語義信息有利于檢測小目標(biāo)。但這些算法解決尺度變化問題是不足夠的,SSD只利用多層特征圖分別進行檢測,而不同特征層之間并沒有聯(lián)系起來;YOLOv3采取的特征金字塔策略仍有許多缺陷,感受野仍不夠大。為了解決這些問題,本文提出了一種跨深度卷積特征增強的目標(biāo)檢測算法,稱之為CDC-YOLO(cross depth convolution-YOLO),基于YOLOv3算法上進行改進。每層預(yù)測層針對它們所對應(yīng)的感受野的不同分別采用不同的特征增強模塊,即不同的多通道跨深度卷積模塊(CDC系列模塊)。CDC系列模塊能充分利用多尺度多深度特征,形成統(tǒng)一的多尺度特征表達(dá),改善各尺度特征圖對目標(biāo)尺度變化的適應(yīng)能力,以提升網(wǎng)絡(luò)對各尺度目標(biāo)的檢測能力。提出的算法能較好地解決尺度變化問題,并在VOC2007測試集上提高了mAP。

1 相關(guān)算法

1.1 基于深度學(xué)習(xí)的雙階段目標(biāo)檢測算法

從R-CNN[6]開始,基于深度學(xué)習(xí)的雙階段目標(biāo)檢測算法便成了研究的熱門,各類基于R-CNN的改進層出不窮。兩階段算法主要是先進行候選框的區(qū)域提名,再對候選框進行多分類和精細(xì)的回歸。自R-CNN之后,F(xiàn)ast-RCNN[7]、Faster-RCNN[8]、Mask-RCNN[9]等相繼提出,改進的目的都是為了使得雙階段網(wǎng)絡(luò)在保持精度的同時提高檢測速度。雙階段檢測網(wǎng)絡(luò)一直都在致力于提高檢測速度以提高檢測系統(tǒng)的實時性和實用性,但是與單階段檢測網(wǎng)絡(luò)相比,仍然不夠簡潔,推斷速度仍不夠快。

1.2 基于深度學(xué)習(xí)的單階段目標(biāo)檢測算法

單階段目標(biāo)檢測算法沒有了區(qū)域提名階段,而是直接在骨干網(wǎng)絡(luò)上加入檢測頭進行分類和回歸,從而大幅度提高檢測網(wǎng)絡(luò)的推斷速度。單階段檢測算法始于YOLO,代表算法為YOLO和SSD,在兩個基礎(chǔ)算法上出現(xiàn)了許多改進的算法。YOLO算法結(jié)構(gòu)過于簡潔,其速度很快但精度較低,SSD算法采用多尺度預(yù)測和瞄點框的策略提高了精度,但仍然與兩階段算法精度有差距。近年來出現(xiàn)了很多單階段的檢測算法,RetinaNet[10]主要是為了解決單階段算法正負(fù)樣本和難易樣本極其不平衡問題,RefineDet[11]吸收了兩階段算法的優(yōu)點,使得單階段檢測算法也能有雙階段算法的精度,RFBNet[12]使用空洞卷積提高感受野,構(gòu)造出人類的感受野特點。這些算法的改進目的都是為了保持單階段網(wǎng)絡(luò)速度優(yōu)勢的同時提高精度。YOLOv3針對YOLO精度低的問題做出了改進,使用特征金字塔及多尺度預(yù)測來提高性能,但原文指出:通過新的多尺度預(yù)測,可以看到Y(jié)OLOv3具有相對較高的小目標(biāo)檢測性能。然而,它在中、大尺度目標(biāo)上的性能相對較差,需要更多的調(diào)查才能找到原因[4]。一個可能的原因是最深層檢測層的感受野不夠大,具體將在之后進行分析。

因而本文針對深層預(yù)測層特點采取多通路跨深度的卷積結(jié)構(gòu)增強語義信息且?guī)в胁煌蛎浡实目斩淳矸e增大并構(gòu)造豐富的感受野,彌補感受野的不足。對于淺層預(yù)測層,由于深層小尺度特征圖插值上采樣過程中感受野不變,與淺層大尺度特征圖級聯(lián)過程會增大淺層的感受野,因而會降低淺層預(yù)測層檢測小目標(biāo)的能力。故針對該不足采用多通路跨深度的卷積級聯(lián)的方式,這種級聯(lián)方式不僅能充分利用多尺度信息,且由于每個通路卷積個數(shù)(深度)不同,能融合利用的網(wǎng)絡(luò)深度語義信息就更加豐富。因此,針對多尺度預(yù)測層各自的特點設(shè)計相應(yīng)的特征增強模塊提高性能,以應(yīng)對尺度變化問題。

2 網(wǎng)絡(luò)架構(gòu)

本文針對YOLOv3在3個尺度上:13×13、26×26、52×52特征圖對目標(biāo)表示及它們所對應(yīng)的感受野的不同,對3個尺度的特征分別采用不同的特征增強方法,改善各尺度特征圖對目標(biāo)尺度變化的適應(yīng)能力,以提升網(wǎng)絡(luò)對各大小尺度目標(biāo)的檢測能力。本節(jié)首先分析YOLOv3的網(wǎng)絡(luò)框架,然后介紹CDC-YOLO網(wǎng)絡(luò)整體框架,最后介紹與各預(yù)測層相適應(yīng)的特征增強模塊并分析改進的算法為何能很好地解決尺度變化問題。

2.1 YOLOv3網(wǎng)絡(luò)框架

YOLOv3用于特征提取的骨干網(wǎng)絡(luò)采用分類網(wǎng)絡(luò)Darknet-53,該網(wǎng)絡(luò)由53個卷積層組成,是一種全卷積網(wǎng)絡(luò),網(wǎng)絡(luò)結(jié)構(gòu)見表1。該網(wǎng)絡(luò)不再使用池化層,而用采用步長為2的下采樣卷積代替池化層,構(gòu)成全卷積網(wǎng)絡(luò),更適合于目標(biāo)檢測任務(wù)[13]。Darknet-53還借鑒了ResNet[14]的思想采用了大量shortcut殘差結(jié)構(gòu),從而加強了特征的傳遞且降低了梯度消失的風(fēng)險。YOLOv3的整體網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示,可看出網(wǎng)絡(luò)采取了特征金字塔結(jié)構(gòu),使用特征金字塔結(jié)構(gòu)可以利用多尺度預(yù)測,其中高層特征帶有高級語義信息和較大的感受野,適合檢測大目標(biāo),淺層特征帶有豐富的空間信息和較小的感受野,適合檢測小目標(biāo)。對于設(shè)定的網(wǎng)絡(luò)輸入尺寸為416×416時,經(jīng)過32倍下采樣的13×13尺寸的特征圖(即Darknet-53的第51層卷積層)作為最深層預(yù)測層,2倍上采樣后與16倍下采樣的26×26尺寸的特征圖(即Darknet-53的第43層卷積層)級聯(lián)起來,該級聯(lián)結(jié)果作為中間預(yù)測層,該級聯(lián)結(jié)果再2倍上采樣與8倍下采樣的淺層52×52尺寸的特征圖(即Darknet-53的第26層卷積層)級聯(lián),這樣做可以使得淺層融合深層傳遞上來的高級語義信息,提高特征的表示能力,從而提升淺層預(yù)測層檢測小目標(biāo)的效果。因此最終網(wǎng)絡(luò)會有3個預(yù)測層,對于輸入尺寸為416×416時,分別有13×13,26×26,52×52這3個尺度的預(yù)測層。此外,YOLOv3根據(jù)真值標(biāo)簽信息的大小進行聚類,獲得了9個尺度的瞄點框,不同尺度的預(yù)測層采用不同尺度的預(yù)設(shè)框,能讓每層預(yù)測層的預(yù)設(shè)框更為貼近該層的感受野,提高檢測能力。

表1 Darknet-53網(wǎng)絡(luò)結(jié)構(gòu)

2.2 CDC-YOLO網(wǎng)絡(luò)框架

CDC-YOLO算法不像YOLOv3將特征金字塔的各層預(yù)測層直接進行預(yù)測,而是根據(jù)各層預(yù)測層的特點后接了與之適應(yīng)的特征增強模塊再進行預(yù)測。其整體網(wǎng)路框架如圖2所示。其中,52×52尺寸的預(yù)測層后接CDC2模塊,26×26尺寸的預(yù)測層后接CDC1模塊,13×13尺寸的預(yù)測層后接CDC0模塊。通過在不同檢測層上設(shè)計不同的感受野,以此增強特征表示,采用CDC系列模塊的多尺度特征表達(dá)來應(yīng)對尺度變化問題。

2.3 特征增強CDC模塊

之前提過YOLOv3原作者指出尺度最小的13×13特征圖,其感受野不夠大難以適應(yīng)大尺度變化,檢測大目標(biāo)效果不夠好,現(xiàn)結(jié)合感受野分析原因。理論感受野計算公式如式(1)所示,式子中RFi+1是第i+1層的感受野大小,Ki是第i層的卷積核大小,Si是第i層的步長。根據(jù)該式子計算YOLOv3的骨干網(wǎng)絡(luò) Darknet-53 的每層卷積層的感受野大小(這里忽略了大量1×1卷積),如圖3所示,最深層的感受野甚至超過了400,但這僅僅是理論感受野。文獻(xiàn)[15]指出特征圖的實際有效感受野小于理論感受野。這是因為并不是感受野內(nèi)的所有像素對輸出向量的貢獻(xiàn)均相同,對同一個特征圖進行卷積運算時邊緣區(qū)域進行計算的次數(shù)會小于中心區(qū)域,隨著卷積的不斷堆疊,實際上會導(dǎo)致邊緣感受野不斷衰減,輸入中越靠近感受野中心的元素對特征的貢獻(xiàn)越大。衰減的分布大致是呈現(xiàn)高斯的,故實際有效感受野是一個高斯分布,有效感受野僅占理論感受野的一小部分??梢娪斜匾龃笊顚拥睦碚摳惺芤?,使得其實際有效感受野更大,才能有效地檢測大目標(biāo)

RFi=Si(RFi+1-1)+Ki

(1)

因而本文針對深層預(yù)測層的感受野的特點采取多通道跨深度的卷積特征增強模塊CDC0,即在13×13深層預(yù)測層后接一個如圖4所示的CDC0模塊,該模塊使用多個通路且深度呈現(xiàn)“階梯狀”且尺度各異的跨深度卷積核,這種卷積核結(jié)構(gòu)在文獻(xiàn)[16]中已有類似的應(yīng)用,且取得了較好的效果。下面具體解釋CDC0結(jié)構(gòu):

圖1 YOLOv3網(wǎng)絡(luò)框架

圖2 CDC-YOLO網(wǎng)絡(luò)框架

圖3 YOLOv3各層感受野增長規(guī)律

(1)該結(jié)構(gòu)是類似inception[17]的多通路網(wǎng)絡(luò)結(jié)構(gòu),其共分為4個通路,每個通路均利用1×1的卷積將通道數(shù)(channels)降為1/4,分成4個通路的原因是各層檢測層通道數(shù)目都是2的倍數(shù),使用3個通路的話將無法均分,該層13×13卷積層的通道數(shù)目為1024,故每個通路均降維成256維度,每個通路均經(jīng)過一系列卷積操作后concat級聯(lián)起來,最終輸出通道仍為1024。結(jié)構(gòu)與inception不同的是,每個通路的卷積個數(shù)并不相同,即卷積結(jié)構(gòu)跨深度,4 個通路分支均有不同的卷積層深度,不算上用于通道降維1×1卷積,第1個通路進行了1次卷積操作,第2個通路進行了2次卷積操作,第3個和第4個通路進行了3次卷積操作。輸入信息經(jīng)過不同的卷積層深度后級聯(lián)起來能綜合各個卷積深度的語義信息,使得語義特征豐富且多樣。

(2)4個通路均采用了不同膨脹率的空洞卷積(其中第一個通路的膨脹率為1,即相當(dāng)于沒有采用空洞卷積),空洞卷積可以在不增加特征圖的尺度下增大感受野,而每個通路采用不同的膨脹率可使得每個通路分支均具有不同感受野大小,構(gòu)造豐富多樣的感受野大小,可以更好地應(yīng)對不同尺度的目標(biāo),更加適應(yīng)于尺度變化。

(3)該模塊中最后一個通路將5×5的卷積核拆為了1×5和5×1的卷積,相比拆為兩個3×3卷積核更節(jié)省參數(shù),有利于提高網(wǎng)絡(luò)的推斷速度。而且這種非對稱的卷積結(jié)構(gòu)拆分,比拆分為幾個相同的方形卷積核效果更好,能夠處理更豐富的空間特征,增加特征多樣性[18]。以上幾個方面均能提高13×13預(yù)測層對大目標(biāo)的檢測能力,利用多尺度的特征形成統(tǒng)一的多尺度特征表達(dá)以應(yīng)對尺度變化問題。

圖4 CDC0模塊

對于52×52尺度的淺層預(yù)測層,該層感受野小且空間信息豐富,有利于檢測小目標(biāo),但只包含顏色、邊緣等低級語義特征,檢測小目標(biāo)效果仍不夠好,因而YOLOv3采用特征金字塔增強淺層特征,但深層小尺度特征圖插值上采樣成大尺度特征圖過程中感受野并沒有因此減小,與淺層大尺度特征圖級聯(lián)過程會增大感受野,降低模型檢測小目標(biāo)的能力。因此在該檢測層后接CDC2模塊以增強表示能力,盡量提高該層的語義信息,以彌補淺層語義信息不豐富的缺陷。CDC2模塊如圖5所示。該模塊使用多通路且跨深度的“階梯狀”卷積核,且同樣在各個通路將方形卷積核拆分為條形卷積核。每個通路的卷積深度呈階梯狀,這樣的跨深度結(jié)構(gòu)能綜合不同深度下的語義和空間信息,構(gòu)造豐富的特征,能更好地應(yīng)對尺度變化。這里并沒有采用空洞卷積,是因為52×52特征圖尺度較大,淺層預(yù)測層檢測小目標(biāo)不需要太大的感受野,文獻(xiàn)[17]指出感受野越大對小目標(biāo)檢測效果越不好。RFBNet也利用多尺度卷積結(jié)構(gòu)并使用了空洞卷積增大感受野,但其不足是沒有針對不同深度的預(yù)測層的各自特點單獨設(shè)計模塊,在淺層預(yù)測層和深層預(yù)測層均采取相同膨脹率的空洞卷積(分別為1,3,5),本文通過實驗佐證了淺層特征圖用大的膨脹率反而降低對小目標(biāo)的檢測能力,經(jīng)過實驗驗證發(fā)現(xiàn),如果CDC2模塊中第1個和第4個通道分別采用膨脹率為1和2的空洞卷積,其它模塊均不變時,訓(xùn)練后在VOC2007test測試的結(jié)果見表2,可以看出,淺層使用空洞卷積后不僅速度變慢,精度也有下降,尤其體現(xiàn)在瓶子這類小物體上,對于鳥類小目標(biāo)的檢測性能得下降也很明顯。而且RFBNet還有不足是模塊的每個通路卷積個數(shù)相同,沒有充分利用跨深度的信息。

圖5 CDC2模塊

表2 CDC2采用空洞卷積與否的對比實驗

對于26×26尺度的預(yù)測層,該預(yù)測層檢測中間尺度的目標(biāo),后接如圖6所示的CDC1模塊,該模塊同樣采取了不同尺度的跨深度卷積核,也同樣將方形卷積拆分成兩個條形卷積。結(jié)構(gòu)中第2條通路先經(jīng)過1×3橫形卷積,再經(jīng)過3×1豎卷積,第3條通路先經(jīng)過3×1豎形卷積再通過 1×3 橫形卷積,條形卷積和方形卷積不同,更加對條狀目標(biāo)敏感,1×n對于橫形物體更加敏感(如汽車、鐵軌等),n×1對于橫形物體更加敏感(如行人)。這里使用了膨脹率為2和3的空洞卷積,因為該層檢測中間尺度的目標(biāo),并不需要52×52檢測層那樣檢測大目標(biāo),感受野不需要那么大,因此膨脹率需要設(shè)置小一些。

圖6 CDC1模塊

為了驗證跨深度的卷積結(jié)構(gòu)是有效的,本文設(shè)置了對照實驗,在3個檢測層后不再分別采用CDC0、CDC1、CDC2模塊,而是均采用如圖7所示的非跨深度的類inception卷積結(jié)構(gòu),該模塊的每個通路的卷積核個數(shù)均相同,也就是各個通路的卷積深度是相同的,且沒有針對每個檢測層各自的感受野特點去設(shè)計不同的特征增強模塊。VOC2007上的實驗結(jié)果見表3,顯然,跨深度卷積結(jié)構(gòu)有著更優(yōu)異的性能。

2.4 損失函數(shù)

本文所采用的損失函數(shù)分成了L1、L2、L3這3個部分,最終損失是它們的加和。

圖7 非跨深度的特征增強模塊

表3 采用跨深度卷積與否的對比實驗

(2)

(3)

(4)

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集訓(xùn)練與測試

本文的實驗在配有i5-8400的CPU和1080Ti顯卡的PC機上運行,本文使用標(biāo)準(zhǔn)數(shù)據(jù)集VOC2007和VOC2012 trainval作為訓(xùn)練集,采用VOC2007 test作為測試集來評估網(wǎng)絡(luò)的性能。主干網(wǎng)絡(luò)Darknet-53采用Imagenet數(shù)據(jù)集進行了預(yù)訓(xùn)練,便于檢測網(wǎng)絡(luò)的權(quán)重微調(diào)。網(wǎng)絡(luò)的輸入尺寸為416×416,采取隨機梯度下降法,動量設(shè)為0.9,權(quán)重衰減設(shè)置為5×10-3,一共迭代100個epoch,一次性送入訓(xùn)練的圖片為16張,初始學(xué)習(xí)率為10-3,50個epoch后學(xué)習(xí)率下降10倍,80個epoch后學(xué)習(xí)率再次下降10倍。本文使用檢測算法最常使用的mAP(平均均值精度)指標(biāo)來檢驗網(wǎng)絡(luò)的性能,如表4所示,為目前經(jīng)典的檢測算法與本文算法CDC-YOLO的性能對比,這些算法均在VOC2007和VOC2012 trainval訓(xùn)練,在VOC2007 test進行測試,且均在同一軟件和硬件下訓(xùn)練與測試。表5顯示了本文改進后的算法和原始YOLOv3的性能對比。

3.2 結(jié)果分析

從表4可以看出,YOLOv3比YOLOv2的mAP高很多,得益于特征金字塔模塊,尤其瓶子這類小目標(biāo)檢測精度提高最大。而CDC-YOLO有著最高的mAP,不僅瓶子這類小目標(biāo)檢測精度有較大提高,對于鳥、人等尺度變化大的類別的檢測精度也有較大的提高,體現(xiàn)了算法對于目標(biāo)尺度變化的魯棒性。從表4也可以看出,CDC-YOLO在大幅度提高精度的同時,沒有折損太多檢測速度,滿足實時性要求。

3.3 主觀結(jié)果分析

本文在用Pascal VOC訓(xùn)練完成后,為了驗證在除Pascal VOC測試集外的實際場景圖片里CDC-YOLO是否真的能更好地處理尺度變化問題,因而找了一些圖片作為驗證。如圖8所示是針對目標(biāo)尺度變化范圍較大且復(fù)雜場景下的檢測結(jié)果對比,圖8(a)的3張圖是YOLOv3的檢測結(jié)果,而圖8(b)的3張圖是本文CDC-YOLO檢測結(jié)果??梢钥闯鰪?fù)雜場景下YOLOv3明顯漏檢了一些尺度較小的行人,而CDC-YOLO 基本能夠檢測到這些行人。主要因為行人的尺度變化范圍較大,需要對尺度變化非常敏感才能做到。通過這些例子可知 CDC-YOLO 不僅檢測精度高于 YOLOv3,且由于對尺度變化更為敏感,因而召回率也更高,漏檢率降低。

4 結(jié)束語

本文提出了一種基于深度學(xué)習(xí)的目標(biāo)檢測算法CDC-YOLO,通過在YOLOv3的多尺度預(yù)測層后分別接入與各檢測層的特點相適應(yīng)的跨深度卷積特征增強模塊,該模塊能綜合利用多種網(wǎng)絡(luò)深度的空間信息和語義信息,也能夠構(gòu)造多種感受野大小,提高檢測層的表示能力以及應(yīng)對多尺度目標(biāo)的能力??缟疃染矸e結(jié)構(gòu)能改善各尺度特征圖對目標(biāo)尺度變化的適應(yīng)能力,形成統(tǒng)一的多尺度特征表達(dá),以提升網(wǎng)絡(luò)對各大小尺度目標(biāo)的檢測能力。實驗結(jié)果表明,改進后的算法的mAP有較大的提升,而且對尺度變化大的物體更加魯棒。在保證精度提高的同時不會折損太多檢測速度,滿足實時性要求。

表4 不同檢測算法在VOC2007 test上的檢測結(jié)果/%

表5 改進前后性能對比

圖8 YOLOv3與CDC-YOLO復(fù)雜場景下檢測結(jié)果對比

猜你喜歡
尺度卷積通路
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
財產(chǎn)的五大尺度和五重應(yīng)對
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
Kisspeptin/GPR54信號通路促使性早熟形成的作用觀察
proBDNF-p75NTR通路抑制C6細(xì)胞增殖
通路快建林翰:對重模式應(yīng)有再認(rèn)識
9
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
四会市| 九台市| 成武县| 泽州县| 焦作市| 依安县| 友谊县| 大兴区| 疏附县| 新泰市| 乐清市| 河津市| 玛纳斯县| 松滋市| 深水埗区| 永仁县| 虹口区| 鄱阳县| 黄陵县| 建宁县| 昌都县| 天津市| 珲春市| 临清市| 武山县| 库尔勒市| 哈巴河县| 布尔津县| 马公市| 贞丰县| 平舆县| 双辽市| 中阳县| 霍城县| 济阳县| 永寿县| 汉寿县| 云龙县| 浮山县| 高淳县| 商河县|