国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于擴(kuò)張卷積特征自適應(yīng)融合的復(fù)雜駕駛場(chǎng)景目標(biāo)檢測(cè)

2021-12-23 07:29黃文涵殷國(guó)棟耿可可莊偉超徐利偉
關(guān)鍵詞:殘差尺度卷積

黃文涵 殷國(guó)棟 耿可可 莊偉超 徐利偉

(東南大學(xué)機(jī)械工程學(xué)院, 南京 211189)

我國(guó)汽車(chē)產(chǎn)業(yè)正處于一個(gè)戰(zhàn)略轉(zhuǎn)型的時(shí)代,近年來(lái)在電動(dòng)化、網(wǎng)聯(lián)化、智能化、共享化等各方面都取得關(guān)鍵性進(jìn)展.根據(jù)《智能汽車(chē)創(chuàng)新發(fā)展戰(zhàn)略》[1],智能駕駛汽車(chē)的復(fù)雜環(huán)境感知能力是需要重點(diǎn)突破的關(guān)鍵基礎(chǔ)技術(shù),以實(shí)現(xiàn)在2025年有條件智能駕駛汽車(chē)的規(guī)?;a(chǎn)以及在特定環(huán)境下的市場(chǎng)化應(yīng)用這一目標(biāo).道路目標(biāo)檢測(cè)是環(huán)境感知系統(tǒng)中不可或缺的功能之一,但是駕駛環(huán)境的復(fù)雜性、動(dòng)態(tài)性以及道路目標(biāo)的隨機(jī)性、多樣性使得其實(shí)現(xiàn)較通用的目標(biāo)檢測(cè)難度更大,對(duì)檢測(cè)算法的實(shí)時(shí)性與準(zhǔn)確性也提出了更高的要求.

隨著基于深度學(xué)習(xí)的計(jì)算機(jī)視覺(jué)技術(shù)的發(fā)展,目標(biāo)檢測(cè)算法的性能得到了很大提升,其整體可以分為2類(lèi).其中一類(lèi)以Ren等[2]提出的算法為代表,通過(guò)區(qū)域提案、區(qū)域分類(lèi)回歸2個(gè)步驟實(shí)現(xiàn)目標(biāo)檢測(cè),在精度上有了較大的提高,但是因其網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,而且計(jì)算對(duì)硬件要求較高,故難以滿足智能駕駛汽車(chē)中環(huán)境感知系統(tǒng)對(duì)實(shí)時(shí)性的要求.另一類(lèi)以Liu等[3]、Redmon等[4]提出的算法為代表,針對(duì)第一類(lèi)算法在實(shí)時(shí)性上的不足,通過(guò)在圖像中設(shè)置密集的采樣錨框與先驗(yàn)框,只需進(jìn)行一次網(wǎng)絡(luò)計(jì)算,便可得到預(yù)測(cè)分類(lèi)與回歸結(jié)果.這種方法雖然精度略有下降,但是在實(shí)時(shí)性方面更具優(yōu)勢(shì).

在復(fù)雜環(huán)境感知任務(wù)中,尺度變化是最具挑戰(zhàn)性的問(wèn)題,各類(lèi)目標(biāo)的外形、姿態(tài)不同,且存在光照、遮擋、失真等因素的影響,如何設(shè)計(jì)特征提取與融合模塊用于分類(lèi)與檢測(cè)成為研究的重點(diǎn).Singh等[5-6]提出圖像金字塔的方法,將圖片做縮放尺度歸一化,在不同尺度上篩選訓(xùn)練適當(dāng)?shù)哪繕?biāo),但其計(jì)算量大大增加,實(shí)際應(yīng)用效果不佳;Lin等[7]則對(duì)特征圖通過(guò)自頂向下和橫向的連接,構(gòu)建出多尺度的特征金字塔網(wǎng)絡(luò)(feature pyramid network, FPN)以提高目標(biāo)檢測(cè)性能;RetinaNet算法[8]則主要從損失函數(shù)和樣本分配策略方面進(jìn)行研究,通過(guò)權(quán)重因子誘導(dǎo)網(wǎng)絡(luò)偏向于學(xué)習(xí)那些困難的樣本特征,以降低簡(jiǎn)單樣本對(duì)網(wǎng)絡(luò)的影響;華夏等[9]對(duì)文獻(xiàn)[4]做出改進(jìn),模仿人眼視覺(jué)設(shè)計(jì)出多種卷積核,并結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)改善了網(wǎng)絡(luò)的跟蹤效果,但其用于訓(xùn)練的數(shù)據(jù)量較小,不能適應(yīng)復(fù)雜的交通場(chǎng)景;葛明進(jìn)等[10]則采用逐像素預(yù)測(cè)與中心性預(yù)測(cè)的方法進(jìn)行坐標(biāo)回歸,雖提升了檢測(cè)性能,同時(shí)也造成了實(shí)時(shí)性能的下降.

基于深度學(xué)習(xí)的算法改進(jìn)離不開(kāi)大規(guī)模數(shù)據(jù)集的支撐.以權(quán)威數(shù)據(jù)集MS COCO[11]為例,其包含10萬(wàn)以上的圖像數(shù)據(jù)及標(biāo)注,主要用于推進(jìn)日常場(chǎng)景下目標(biāo)檢測(cè)任務(wù)的發(fā)展.據(jù)統(tǒng)計(jì),數(shù)據(jù)集中41.4%的目標(biāo)為小目標(biāo),僅占整體數(shù)據(jù)集圖像面積的1.2%,而數(shù)據(jù)集中占比為24.2%的大目標(biāo)的圖像面積占比達(dá)88.6%[12],能夠較好地覆蓋多尺度的目標(biāo)和場(chǎng)景訓(xùn)練.但是目前常用于駕駛場(chǎng)景的數(shù)據(jù)集主要為KITTI數(shù)據(jù)集[13],能用于訓(xùn)練的數(shù)量不足8 000,包含的場(chǎng)景與天氣情況、光照條件、標(biāo)注的目標(biāo)類(lèi)別均較少,不足以真正評(píng)估目標(biāo)檢測(cè)算法在復(fù)雜駕駛場(chǎng)景下的性能.

針對(duì)上述問(wèn)題,本文以RetinaNet算法[8]為基本框架,為了提高其在復(fù)雜駕駛場(chǎng)景下的目標(biāo)檢測(cè)性能,借助擴(kuò)張卷積在提取多尺度目標(biāo)特征方面的優(yōu)勢(shì),設(shè)計(jì)了基于擴(kuò)張卷積的殘差分支模塊,在原殘差網(wǎng)絡(luò)的卷積特征基礎(chǔ)上,使用不同擴(kuò)張率卷積分支模塊獲取不同感受野下的多尺度特征;而為了更好地將這些特征進(jìn)行融合,采用了參數(shù)自適應(yīng)融合的方式代替?zhèn)鹘y(tǒng)的金字塔融合特征.為了測(cè)試所提出算法的有效性,在包含各種復(fù)雜場(chǎng)景的大規(guī)模數(shù)據(jù)集BDD100K[14]上進(jìn)行實(shí)驗(yàn),結(jié)果表明,所提算法能夠提高數(shù)據(jù)集中各類(lèi)目標(biāo)的檢測(cè)精度,并且能更好地應(yīng)對(duì)復(fù)雜的駕駛場(chǎng)景.

1 RetinaNet算法

RetinaNet算法以相對(duì)簡(jiǎn)潔的網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)了檢測(cè)精度和運(yùn)行速度的權(quán)衡.首先通過(guò)殘差網(wǎng)絡(luò)ResNet[15]的卷積模塊提取出不同層次的特征,然后通過(guò)FPN將特征信息由深層至淺層遞進(jìn)傳播,最后通過(guò)卷積組成的分類(lèi)和回歸子網(wǎng)絡(luò)做出預(yù)測(cè),并且通過(guò)改進(jìn)的分類(lèi)損失函數(shù)Focal Loss(FL)提高了算法在訓(xùn)練的正負(fù)樣本不均衡情況下的表現(xiàn),其總體結(jié)構(gòu)如圖1所示,圖中箭頭表示卷積特征的傳播方向,⊕表示不同特征之間的融合.

圖1 RetinaNet網(wǎng)絡(luò)結(jié)構(gòu)

1.1 基礎(chǔ)特征提取

采用He等[15]提出的殘差網(wǎng)絡(luò)ResNet,相比普通卷積網(wǎng)絡(luò)其特點(diǎn)在于增加了卷積層之間的跳躍連接,使得淺層卷積特征能夠直接傳播至深層,緩解訓(xùn)練時(shí)梯度消失與網(wǎng)絡(luò)退化的問(wèn)題.殘差網(wǎng)絡(luò)具有ResNet-34、ResNet-50、ResNet-101等不同的構(gòu)型,隨著網(wǎng)絡(luò)深度的增加,性能逐漸提升,但是其計(jì)算量也隨之增大.為了保證網(wǎng)絡(luò)運(yùn)行的實(shí)時(shí)性,本文針對(duì)ResNet-50進(jìn)行實(shí)驗(yàn),主要有5個(gè)卷積模塊,其基本參數(shù)如表1所示.其中,[7×7,64]表示計(jì)算核大小為7、輸出通道數(shù)為64的卷積特征,后續(xù)模塊中的[1×1,64]、[3×3,64]等以此類(lèi)推.在Conv1模塊通過(guò)卷積與池化初步提取特征后,Conv2~Conv5的計(jì)算將分別重復(fù)3、4、6、3次,分別表示為Conv2_x、Conv3_x、Conv4_x、Conv5_x,并且在模塊輸出時(shí),將當(dāng)前特征的分辨率下采樣至輸入的1/2,同時(shí)其通道數(shù)將擴(kuò)大2倍,因此ResNet-50的Conv2~Conv5模塊分別輸出通道數(shù)為256、512、1 024、2 048的卷積特征.

表1 ResNet-50參數(shù)設(shè)置

1.2 特征金字塔融合

特征金字塔(feature pyramids, FP)的結(jié)構(gòu)如圖2所示,為節(jié)省內(nèi)存與計(jì)算量,未使用分辨率較大的Conv1與Conv2特征,選取上述基礎(chǔ)特征提取部分的Conv3~Conv5,記為Ci,i=3,4,5,作為特征金字塔的輸入;而金字塔的輸出則記為Pi,i=3,4,…,7.其中C5經(jīng)過(guò)通道調(diào)整后直接作為FP的輸出P5,同時(shí)經(jīng)過(guò)2次3×3卷積,生成的特征圖分別記為P6、P7;此外,如圖2中融合模塊所示,C5還經(jīng)過(guò)1×1卷積調(diào)整通道數(shù)與C4一致后,通過(guò)2倍最近鄰上采樣生成與C4相同分辨率的特征圖,隨后,二者按對(duì)應(yīng)元素相加,再進(jìn)行一次3×3卷積,得到P4;同理可得P3,最終得到輸出特征通道數(shù)均為256的卷積特征P3、P4、P5、P6、P7.

圖2 特征金字塔及其融合模塊

1.3 預(yù)測(cè)子網(wǎng)與損失函數(shù)

在得到上述融合特征圖Pi后,為了能夠檢測(cè)出各種尺度與長(zhǎng)寬比例的目標(biāo),需要在特征圖上定義一定數(shù)量的錨框(anchor box),并作為訓(xùn)練過(guò)程中的樣本.即在其中每個(gè)特征點(diǎn)位置定義大小比例分別為20、21/3、22/3,長(zhǎng)寬比例分別為1∶2、1∶1、2∶1的共9個(gè)錨框,如圖3(a)白色框所示.每個(gè)錨框?qū)?yīng)著K個(gè)目標(biāo)類(lèi)別,在BDD100K數(shù)據(jù)集中K=10;隨后,在每個(gè)Pi之后分出2個(gè)互相獨(dú)立的卷積分支,代表分類(lèi)子網(wǎng)Ki與回歸子網(wǎng)Bi,i=3,4,…,7.如圖3(b)所示,均為5層3×3大小的卷積,其中前4層特征分辨率均為W×H且通道數(shù)為256,在第5層輸出時(shí),分類(lèi)子網(wǎng)的輸出通道KA,表示預(yù)測(cè)的A個(gè)錨框及其對(duì)應(yīng)的K個(gè)目標(biāo)類(lèi)別,而回歸子網(wǎng)輸出通道4A,代表預(yù)測(cè)A個(gè)錨框的坐標(biāo)相對(duì)于真實(shí)坐標(biāo)的4個(gè)偏移值.

(a) 錨框

(b) 分類(lèi)/回歸子網(wǎng)

在每個(gè)融合特征圖上產(chǎn)生密集的錨框,導(dǎo)致存在大量的樣本對(duì)應(yīng)到的是圖像的背景,將被作為負(fù)樣本進(jìn)行訓(xùn)練,因此訓(xùn)練時(shí)大量的易區(qū)分的負(fù)樣本會(huì)主導(dǎo)損失函數(shù)的下降.RetinaNet的損失函數(shù)分為坐標(biāo)的回歸損失與目標(biāo)的分類(lèi)損失,將二者損失值相加作為網(wǎng)絡(luò)總損失進(jìn)行訓(xùn)練.其中,回歸損失采用Smooth L1損失:

(1)

式中,x表示需要回歸的目標(biāo)框坐標(biāo).

對(duì)于分類(lèi)損失,傳統(tǒng)的交叉熵(cross entropy, CE)損失函數(shù)的定義如下:

CE(p)=-logp

(2)

式中,p表示網(wǎng)絡(luò)預(yù)測(cè)的目標(biāo)類(lèi)別概率.

在此基礎(chǔ)上,F(xiàn)L則通過(guò)2個(gè)調(diào)整參數(shù)抑制那些易被分類(lèi)樣本的權(quán)重,將訓(xùn)練重點(diǎn)集中在那些難以區(qū)分的樣本上,有效控制正負(fù)樣本比例,防止失衡現(xiàn)象,定義為

FL(p)=-α(1-p)γlogp

(3)

其中,參數(shù)α用于調(diào)整正負(fù)樣本數(shù)量比例,即控制正負(fù)樣本對(duì)損失函數(shù)的貢獻(xiàn)度;參數(shù)γ作用下的(1-p)γ能夠控制模型對(duì)容易分類(lèi)和分類(lèi)困難的區(qū)分度,當(dāng)樣本容易分類(lèi)時(shí),(1-p)γ將接近于0,難以分類(lèi)的樣本則其接近于1,使得網(wǎng)絡(luò)能夠?qū)W習(xí)到更加有效的信息.

2 擴(kuò)張卷積特征自適應(yīng)融合算法

2.1 擴(kuò)張卷積特征提取

卷積神經(jīng)網(wǎng)絡(luò)的感受野(receptive fields)指的是輸出的某一特征圖上的像素點(diǎn)在原圖像上所能映射的區(qū)域大小.經(jīng)典的特征提取網(wǎng)絡(luò)通過(guò)連續(xù)卷積或池化來(lái)進(jìn)行下采樣,以聚合一定區(qū)域的語(yǔ)義信息,本質(zhì)上對(duì)應(yīng)著感受野的不斷擴(kuò)大.擴(kuò)張卷積[16](dilated convolution)通過(guò)設(shè)置不同的擴(kuò)張率使普通卷積的感受野大小得以擴(kuò)張,同時(shí)可以維持較高的分辨率,因此在檢測(cè)和分割領(lǐng)域得到廣泛應(yīng)用.

(4)

而對(duì)于擴(kuò)張率為d的擴(kuò)張卷積,記為*d,有

(5)

擴(kuò)張卷積可看作在普通卷積時(shí)給卷積核插入d-1的零值.對(duì)普通卷積而言,以3×3的卷積核大小在特征圖上計(jì)算,得到新的特征點(diǎn)的感受野即為3,如圖4(a)所示;而進(jìn)行擴(kuò)張率d=2的擴(kuò)張卷積時(shí),在3×3卷積核之間插入1個(gè)零值計(jì)算,得到其感受野為5,如圖4(b)所示,結(jié)果是相當(dāng)于2次普通3×3卷積,而計(jì)算量?jī)H為一次;若連續(xù)使用擴(kuò)張卷積,隨著線性增長(zhǎng)的計(jì)算參數(shù)能得到呈指數(shù)級(jí)增長(zhǎng)的感受野,但同時(shí)會(huì)造成特征采樣不連續(xù)的問(wèn)題,如圖4(c)所示,對(duì)小目標(biāo)而言弊大于利,因此

(a) 3×3卷積

(b) 擴(kuò)張卷積

(c) 特征不連續(xù)

需要合理地使用擴(kuò)張卷積.

當(dāng)以擴(kuò)張率遞進(jìn)的形式,在ResNet的卷積模塊中串聯(lián)使用,依次增加擴(kuò)張率,雖能較好地利用不同感受野下的特征,但是會(huì)造成計(jì)算量的增加使實(shí)時(shí)性大幅下降.因此本文使用分支的形式,即在ResNet模塊中,使用不同擴(kuò)張率的卷積分支進(jìn)行特征提取,并且輸出時(shí)在通道維度上進(jìn)行疊加,結(jié)構(gòu)如圖5所示.

(a) 殘差結(jié)構(gòu)

(b) 擴(kuò)張卷積殘差分支結(jié)構(gòu)

殘差結(jié)構(gòu)如圖5(a)所示,在此基礎(chǔ)上設(shè)計(jì)擴(kuò)張卷積殘差分支模塊,分別以d=1,2,3的擴(kuò)張率對(duì)輸入的特征圖進(jìn)行特征提取,并通過(guò)通道調(diào)整實(shí)現(xiàn)特征維度一致,最后疊加輸出,如圖5(b)所示.每個(gè)分支首先對(duì)輸入特征進(jìn)行1×1卷積調(diào)整通道,即輸入通道對(duì)應(yīng)的分支數(shù).其中一個(gè)分支不進(jìn)行計(jì)算直接與其他分支計(jì)算結(jié)果相加,對(duì)應(yīng)殘差結(jié)構(gòu)的跳躍連接.輸出得到的特征圖尺度與原殘差結(jié)構(gòu)一致,不同的是包含了多種感受野下的特征信息,有利于多尺度目標(biāo)的識(shí)別.

應(yīng)用到ResNet-50,分別在Conv3~Conv5輸出后,使用擴(kuò)張卷積殘差分支結(jié)構(gòu)對(duì)其特征進(jìn)行進(jìn)一步提取.具體而言,Conv3~Conv5的通道數(shù)依次為512、1 024、2 048.以Conv3為例,輸入512通道的特征圖后,首先經(jīng)過(guò)1×1卷積調(diào)整出4個(gè)通道數(shù)為128的分支,然后按照上述模塊分別計(jì)算不同感受野下的特征結(jié)果,最后疊加成為一個(gè)特征圖,且與原特征圖尺度一致.依次類(lèi)推,經(jīng)過(guò)3個(gè)擴(kuò)張卷積殘差分支結(jié)構(gòu)的特征提取,獲得相同大小但尺度信息更為豐富的特征圖,記為D3、D4、D5.

2.2 特征自適應(yīng)融合

如1.2節(jié)所述,特征金字塔網(wǎng)絡(luò)FPN采用的是自頂向下的形式,將深層特征依次與淺層特征融合,使得深層次的語(yǔ)義特征能夠與淺層次的位置特征相結(jié)合.淺層特征所進(jìn)行的下采樣次數(shù)較少,目標(biāo)位置的特征信息豐富,但是將其信息傳播至深層的路徑較長(zhǎng),目標(biāo)定位信息難以被深層特征獲取,造成算法定位精度下降.此外,網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果是基于某一特定的特征圖上預(yù)分配的錨框,即在FPN的各層上獨(dú)立做出預(yù)測(cè),沒(méi)有考慮其他特征圖的信息可能有助于最終分類(lèi)與定位的結(jié)果.

為了能夠自適應(yīng)地融合不同層級(jí)之間的特征,首先需要調(diào)整特征圖的分辨率與通道數(shù)一致,即通過(guò)上采樣和下采樣進(jìn)行尺度縮放.其中,上采樣時(shí)可使用最近鄰插值法,下采樣時(shí)可使用步長(zhǎng)為2的3×3卷積或最大池化.具體而言,首先對(duì)D3、D4、D5使用1×1卷積調(diào)整通道數(shù)為256,保持與FPN一致;隨后,對(duì)于分辨率最大的D3,通過(guò)步長(zhǎng)為2的最大池化可調(diào)整其分辨率與D4相同,進(jìn)而做一次步長(zhǎng)為2的3×3卷積即可調(diào)整至D5的分辨率;對(duì)于分辨率最小的D5,則使用插值法,考慮算法實(shí)時(shí)性的需求,使用最近鄰法分別進(jìn)行2倍、4倍的插值調(diào)整至D3和D4大?。煌?,對(duì)D4做一次上采樣、一次下采樣即可得到與D3和D5相同大小的特征圖.

(6)

(7)

(8)

(9)

3 復(fù)雜駕駛場(chǎng)景數(shù)據(jù)集

在面對(duì)真實(shí)的復(fù)雜駕駛場(chǎng)景時(shí),大規(guī)模數(shù)據(jù)集是驅(qū)動(dòng)算法進(jìn)步不可或缺的一部分,對(duì)于智能駕駛感知系統(tǒng)的研究更是如此.目前在COCO、KITTI數(shù)據(jù)集上均有表現(xiàn)出色的目標(biāo)檢測(cè)算法,但是COCO數(shù)據(jù)集主要面向日常通用目標(biāo)檢測(cè),其圖像數(shù)據(jù)質(zhì)量較高、場(chǎng)景較為簡(jiǎn)單;而KITTI數(shù)據(jù)集雖專(zhuān)門(mén)采集自駕駛場(chǎng)景,同樣存在場(chǎng)景條件單一,難以覆蓋復(fù)雜、多樣的交通場(chǎng)景,且數(shù)據(jù)量較少的限制,對(duì)訓(xùn)練模型造成了一定的局限性.例如,整個(gè)數(shù)據(jù)集的場(chǎng)景區(qū)域限制于空曠的城市道路與校園場(chǎng)景,且大多天氣良好、傳感器成像清晰,缺少真實(shí)的復(fù)雜交通場(chǎng)景、惡劣的天氣情況與傳感器成像模糊的數(shù)據(jù),不利于模型的訓(xùn)練與泛化,很容易在訓(xùn)練時(shí)陷入過(guò)擬合的情況.此外,有些數(shù)據(jù)集則關(guān)注某特定目標(biāo)的檢測(cè)算法研究,例如專(zhuān)門(mén)的行人檢測(cè)、車(chē)輛檢測(cè)、交通標(biāo)志檢測(cè)數(shù)據(jù)集等.

本文使用UC Berkeley發(fā)布的BDD100K大規(guī)模駕駛場(chǎng)景數(shù)據(jù)集.相比傳統(tǒng)的KITTI數(shù)據(jù)集,BDD100K涵蓋了復(fù)雜的場(chǎng)景變化,不僅僅局限于城市與街道場(chǎng)景,還包括了高速、隧道、停車(chē)場(chǎng)等在日常駕駛中出現(xiàn)頻率較高的場(chǎng)景;而且具有晴、雨、雪、霧等復(fù)雜多樣的天氣條件,白天與夜晚的圖像數(shù)量相當(dāng)(包含傍晚與清晨);數(shù)據(jù)來(lái)源是眾包形式,采集自眾多車(chē)載的行車(chē)記錄儀,即包含了不同的成像傳感器,大多數(shù)圖像存在一定程度的運(yùn)動(dòng)模糊,目標(biāo)的分布密度也更加合理;在目標(biāo)類(lèi)別的標(biāo)注方面,相比KITTI增加了公交車(chē)、摩托車(chē)、騎手、交通標(biāo)識(shí)等幾類(lèi)常見(jiàn)目標(biāo).因此,BDD100K更適合用于訓(xùn)練魯棒的目標(biāo)檢測(cè)算法,而且有利于評(píng)價(jià)目標(biāo)檢測(cè)算法的遷移泛化性能,BDD100K與KITTI數(shù)據(jù)集之間的對(duì)比見(jiàn)表2與圖6.

表2 BDD100K與KITTI數(shù)據(jù)集對(duì)比

(a) KITTI數(shù)據(jù)集

(b) BDD100K數(shù)據(jù)集

根據(jù)相對(duì)尺度的定義,像素面積小于原圖0.12%的目標(biāo)為小物體,對(duì)于BDD100K中像素大小為1 280×720的圖像,目標(biāo)像素面積約小于332即可歸于小物體.為方便統(tǒng)一評(píng)價(jià),本文采用MS COCO中絕對(duì)尺度的定義,以像素面積小于322的目標(biāo)為小物體,面積介于322~962的目標(biāo)為中物體,大于962則為大物體;相比MS COCO圖像像素大小為640×360的數(shù)據(jù)集,如此設(shè)置更加考驗(yàn)?zāi)繕?biāo)檢測(cè)算法在復(fù)雜駕駛場(chǎng)景下對(duì)多尺度目標(biāo)的檢測(cè)能力.按照以上定義,對(duì)BDD100K數(shù)據(jù)集中各個(gè)標(biāo)注類(lèi)別數(shù)量及尺度分布做出統(tǒng)計(jì),結(jié)果如圖7所示(其中火車(chē)類(lèi)別數(shù)量較少并未列出).可見(jiàn)除公交車(chē)與卡車(chē)外,各類(lèi)目標(biāo)均以中、小尺度為主.

圖7 BDD100K數(shù)據(jù)集類(lèi)別數(shù)量及尺度分布

4 模型訓(xùn)練與結(jié)果分析

4.1 實(shí)驗(yàn)平臺(tái)與模型訓(xùn)練細(xì)節(jié)

實(shí)驗(yàn)平臺(tái)為深度學(xué)習(xí)工作站,硬件配置如下:處理器為Intel(R) Core i9-9900K@3.60 GHz × 16,安裝32 GB內(nèi)存;獨(dú)立顯卡為GeForce RTX 2080 Ti,11G顯存.軟件配置如下:Ubuntu 16.04 LTS系統(tǒng),顯卡驅(qū)動(dòng)版本440.82,CUDA V10.2,cuDNN v7.6.5;深度學(xué)習(xí)框架為PyTorch1.5,以及其他常用圖像處理軟件包.

模型的基礎(chǔ)特征提取部分改進(jìn)自殘差網(wǎng)絡(luò)ResNet-50,因此使用PyTorch中torchvision提供的預(yù)訓(xùn)練模型,可以幫助改進(jìn)后的算法更快地收斂;對(duì)于沒(méi)有預(yù)訓(xùn)練模型的部分,在初始化時(shí)采用正態(tài)分布的Kaiming初始化方法;對(duì)于錨框的分配,依然以交并比(intersection over union, IoU)作為篩選條件,具體而言,在網(wǎng)絡(luò)輸出的每個(gè)特征圖上,選取與目標(biāo)真實(shí)標(biāo)簽IoU大于0.5的錨框作為候選的正樣本,而IoU小于0.4的錨框?qū)⒆鳛樨?fù)樣本,IoU介于二者之間的錨框則被忽略;FL中的超參數(shù)αt與γ按照文獻(xiàn)[8]取值為γ=2,αt=0.25;數(shù)據(jù)預(yù)處理部分,使用COCO數(shù)據(jù)集的均值與標(biāo)準(zhǔn)差進(jìn)行圖像歸一化,輸入網(wǎng)絡(luò)時(shí)隨機(jī)水平翻轉(zhuǎn)概率為0.5.

訓(xùn)練參數(shù)設(shè)置如下:BDD100K數(shù)據(jù)集中,提供標(biāo)簽的圖片數(shù)量為8萬(wàn)張,隨機(jī)選取其中7萬(wàn)張作為訓(xùn)練集,剩下1萬(wàn)張作為測(cè)試集(不參與訓(xùn)練);同時(shí),為了驗(yàn)證改進(jìn)后算法對(duì)比原算法的效果,按照類(lèi)似COCO數(shù)據(jù)集的像素大小640×360,調(diào)整BDD100K數(shù)據(jù)集,并使用隨機(jī)梯度下降算法(stochastic gradient descent, SGD)進(jìn)行訓(xùn)練,其中權(quán)重衰減與動(dòng)量分別設(shè)置為10-4與0.9,共進(jìn)行12輪完整的數(shù)據(jù)集迭代;初始學(xué)習(xí)率設(shè)為0.01,分別在第6次和第8次完整數(shù)據(jù)集迭代后衰減10倍.

4.2 實(shí)驗(yàn)結(jié)果與分析

按照上述實(shí)驗(yàn)細(xì)節(jié),在基于大規(guī)模復(fù)雜駕駛場(chǎng)景數(shù)據(jù)集BDD100K下進(jìn)行了幾組實(shí)驗(yàn):首先是以ResNet-50與FPN的組合重新訓(xùn)練了RetinaNet算法,并作為后續(xù)實(shí)驗(yàn)對(duì)比的基準(zhǔn);然后在ResNet-50部分改用設(shè)計(jì)的擴(kuò)張卷積殘差分支模塊,同時(shí)特征融合部分沿用FPN的結(jié)構(gòu),記為RetinaNet-A算法;隨后,仍然使用ResNet-50網(wǎng)絡(luò)作為基本特征提取,但以自適應(yīng)參數(shù)的特征融合算法來(lái)融合多尺度特征,記為RetinaNet-B;最后,將上述2個(gè)算法結(jié)合,訓(xùn)練完整的改進(jìn)模型,記為RetinaNet-S.網(wǎng)絡(luò)的訓(xùn)練過(guò)程中,上述各算法的損失函數(shù)值曲線如圖8所示.因幾種算法的結(jié)構(gòu)形式不同,造成參數(shù)量與計(jì)算量的變化,進(jìn)而影響到運(yùn)行的實(shí)時(shí)性.具體參數(shù)如表3所示.

圖8 損失函數(shù)曲線

模型的評(píng)價(jià)指標(biāo)采用平均精度均值(mean average precision, mAP),IoU閾值為0.5時(shí)記為mAP,按照前文所定義的目標(biāo)尺度大小,分別計(jì)算出對(duì)小、中、大目標(biāo)的mAP_s、mAP_m、mAP_l,如表4所示.針對(duì)各個(gè)目標(biāo)類(lèi)別的平均精度見(jiàn)表5.

表3 模型參數(shù)量、計(jì)算量與實(shí)時(shí)性

表4 各模型的平均精度均值

由表4數(shù)據(jù)分析可知,擴(kuò)張殘差卷積分支模塊可將RetinaNet算法的平均精度均值mAP由0.330提升至0.338,而特征自適應(yīng)融合算法則可將其提高到0.344;此外,各模型對(duì)小目標(biāo)的mAP_s值均較低,原因是在訓(xùn)練時(shí)將原像素大小為1 280×720的圖像縮小至640×360,某些小目標(biāo)(特別是交通燈)在特征提取計(jì)算過(guò)程中丟失信息所致;針對(duì)mAP_m分析可知,特征自適應(yīng)融合模塊對(duì)中型目標(biāo)的提升較大,而擴(kuò)張卷積殘差分支模塊亦能提升模型的表現(xiàn),二者結(jié)合后可將平均精度從0.207提升至0.222;而擴(kuò)張卷積殘差分支模塊對(duì)大目標(biāo)檢測(cè)效果較好,其mAP_l值達(dá)0.474.從表5數(shù)據(jù)分析,造成小目標(biāo)檢測(cè)性能不佳的原因主要在于交通燈這類(lèi)目標(biāo)還具有較大的提升空間.整體而言,本文提出的算法改進(jìn)將RetinaNet的mAP值由 0.330 提高至0.349,同時(shí)保證了算法的實(shí)時(shí)性沒(méi)有下降太多,具有實(shí)際應(yīng)用價(jià)值.算法對(duì)部分測(cè)試集的檢測(cè)結(jié)果見(jiàn)圖9,對(duì)比可見(jiàn),改進(jìn)后的算法在面對(duì)夜晚、密集、交通燈、遮擋等情況都具有較好的檢測(cè)效果.

(a) RetinaNet

(b) RetinaNet-S

5 結(jié)論

1)本文以RetinaNet算法為基本框架,為提高在復(fù)雜駕駛場(chǎng)景下的性能,設(shè)計(jì)了基于擴(kuò)張卷積特征自適應(yīng)融合的目標(biāo)檢測(cè)算法.采用擴(kuò)張卷積的殘差分支結(jié)構(gòu)改進(jìn)了經(jīng)典的殘差網(wǎng)絡(luò),提高了特征對(duì)多尺度目標(biāo)的表示,并進(jìn)一步提出參數(shù)自適應(yīng)學(xué)習(xí)的特征融合算法,將尺度與信息不一的多個(gè)特征層通過(guò)一致的尺度調(diào)整后,利用網(wǎng)絡(luò)自身來(lái)學(xué)習(xí)多特征的融合參數(shù),從而能夠自適應(yīng)地融合各部分特征,提高算法在復(fù)雜場(chǎng)景下的表現(xiàn).

2)所提出的擴(kuò)張卷積殘差分支模塊對(duì)BDD100K數(shù)據(jù)集的中、大型目標(biāo)具有提升效果,相比原算法,將模型平均精度均值由0.330提升至0.338;特征自適應(yīng)融合算法相比傳統(tǒng)的特征金字塔融合能夠更好地結(jié)合網(wǎng)絡(luò)所提取的不同層次的特征信息,并且能夠提高精度值至0.344;在二者結(jié)合之下,實(shí)現(xiàn)了0.349的平均精度均值,結(jié)果表明所提出的算法能夠有效提升目標(biāo)檢測(cè)算法在復(fù)雜駕駛場(chǎng)景下的檢測(cè)性能,對(duì)智能駕駛的復(fù)雜環(huán)境感知系統(tǒng)的研究具有一定的理論與實(shí)踐意義.

猜你喜歡
殘差尺度卷積
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測(cè)定
基于殘差-注意力和LSTM的心律失常心拍分類(lèi)方法研究
融合上下文的殘差門(mén)卷積實(shí)體抽取
一種基于卷積神經(jīng)網(wǎng)絡(luò)的地磁基準(zhǔn)圖構(gòu)建方法
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
一種并行不對(duì)稱(chēng)空洞卷積模塊①
論社會(huì)進(jìn)步的評(píng)價(jià)尺度
基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
基于深度卷積的殘差三生網(wǎng)絡(luò)研究與應(yīng)用
宇宙的尺度
岳阳市| 建湖县| 许昌县| 来凤县| 柳江县| 东乌珠穆沁旗| 漠河县| 宜兰县| 大新县| 育儿| 永新县| 金川县| 南投市| 四平市| 永春县| 怀化市| 江永县| 榕江县| 凌海市| 修水县| 闽清县| 山东| 织金县| 施甸县| 博兴县| 镇赉县| 台北县| 丹巴县| 高邮市| 德昌县| 清流县| 泸水县| 阳城县| 临桂县| 晋州市| 三门县| 儋州市| 额敏县| 陕西省| 盈江县| 澄迈县|