国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

模態(tài)自適應(yīng)權(quán)值學(xué)習(xí)機(jī)制下的多光譜行人檢測(cè)網(wǎng)絡(luò)

2021-01-12 08:36:02瑩,朱
光學(xué)精密工程 2020年12期
關(guān)鍵詞:權(quán)值行人紅外

陳 瑩,朱 宇

(江南大學(xué) 輕工過(guò)程先進(jìn)控制教育部重點(diǎn)實(shí)驗(yàn)室,江蘇 無(wú)錫214122)

1 引 言

行人檢測(cè)是自動(dòng)駕駛、智能視頻監(jiān)控等領(lǐng)域的核心技術(shù),要求能適應(yīng)全天候及各種場(chǎng)景的變換。傳統(tǒng)行人檢測(cè)的輸入源是可見(jiàn)光模態(tài),可見(jiàn)光圖像在光照充足的情況下,能提供豐富的視覺(jué)信息,一旦環(huán)境改變,提供的視覺(jué)信息會(huì)非常有限,所以傳統(tǒng)的行人檢測(cè)極易受到不良光照及惡劣天氣的影響。為了解決這一問(wèn)題,一種能同時(shí)應(yīng)用紅外和可見(jiàn)光兩種模態(tài)信息的多光譜行人檢測(cè)技術(shù)應(yīng)運(yùn)而生。紅外模態(tài)作為多光譜行人檢測(cè)的另一輸入源,其使用紅外成像技術(shù)提供的紅外圖片在黑暗條件下可以較好地顯示出人體,彌補(bǔ)可見(jiàn)光模態(tài)的不足,但通常在光照較好時(shí),其表現(xiàn)力不如可見(jiàn)光圖片,因此這種動(dòng)態(tài)變化要求檢測(cè)過(guò)程中能夠有效地融合利用多模態(tài)信息。

近年來(lái),針對(duì)多光譜行人檢測(cè)中的多模態(tài)信息融合問(wèn)題,文獻(xiàn)[1]研究了卷積神經(jīng)網(wǎng)絡(luò)不同融合時(shí)期(前期,中間,后期)以及同一融合方法直接堆疊對(duì)實(shí)驗(yàn)結(jié)果的影響,得出利用中間層特征直接堆疊策略可以最大限度地整合紅外和可見(jiàn)光信息。Konig 等[2]使用Faster R-CNN 框架[3]中的區(qū)域建議生成網(wǎng)絡(luò)和隨機(jī)森林算法協(xié)同完成檢測(cè),采用文獻(xiàn)[1]的融合方式,但在后續(xù)訓(xùn)練中同時(shí)使用到融合后的特征層以及原始雙流的兩模態(tài)特征層。文獻(xiàn)[4]采用一種新型無(wú)監(jiān)督行人檢測(cè)方式,在特征融合部分沿用特征堆疊策略。Song 等[5]將像素級(jí)圖像融合與基于卷積神經(jīng)網(wǎng)絡(luò)的行人檢測(cè)算法結(jié)合。然而這幾種算法均未能關(guān)注到每種模態(tài)對(duì)檢測(cè)任務(wù)的貢獻(xiàn)不同,無(wú)法有效地適應(yīng)環(huán)境的動(dòng)態(tài)變化。Lee 等[6]考慮到上述算法[1-2,4]中特征堆疊策略的不足,在特征融合時(shí)加入特征關(guān)聯(lián)層,但側(cè)重的是對(duì)模態(tài)特征進(jìn)行特征加強(qiáng),未充分考慮模態(tài)與模態(tài)之間的關(guān)系,文獻(xiàn)[7-8]考慮到不同光照條件下每種模態(tài)融合的權(quán)重不同,設(shè)計(jì)了一個(gè)光照感知網(wǎng)絡(luò),模擬白天黑夜照明情況,但結(jié)果的優(yōu)劣過(guò)于依賴(lài)光照感知網(wǎng)絡(luò)。

針對(duì)上述問(wèn)題,本文提出了一個(gè)基于多模態(tài)自適應(yīng)權(quán)值學(xué)習(xí)融合機(jī)制的行人檢測(cè)網(wǎng)絡(luò)。首先將兩種模態(tài)的圖片送入雙流多光譜行人檢測(cè)框架中,再分別從兩流提取特征送入自適應(yīng)權(quán)值學(xué)習(xí)融合網(wǎng)絡(luò)中,網(wǎng)絡(luò)根據(jù)每種模態(tài)的貢獻(xiàn)差異,學(xué)習(xí)到每流特征的權(quán)值,因此兩流特征加權(quán)融合得到融合特征,然后在融合特征的基礎(chǔ)上生成新的特征金字塔,同時(shí)為減少行人負(fù)樣本數(shù)量,采用了一種豐富行人先驗(yàn)信息的策略,完成行人檢測(cè)任務(wù)。

2 基于多光譜信息融合的行人檢測(cè)

2.1 問(wèn)題分析

在多光譜行人檢測(cè)中,紅外和可見(jiàn)光兩種模態(tài)表現(xiàn)出來(lái)的特征不同[9]??梢詾樾腥藱z測(cè)提供互補(bǔ)的信息。因此多光譜信息的融合方式尤為重 要 ,目 前 有 直 接 堆 疊 策 略[1-2,4],特 征 關(guān) 聯(lián) 策略[6]等。

直接堆疊策略直接在輸入時(shí)或在訓(xùn)練過(guò)程中選定某一層對(duì)兩模態(tài)做通道堆疊,即兩模態(tài)之間按1:1 的權(quán)重進(jìn)行融合,未考慮不同模態(tài)對(duì)任務(wù)的不同影響,易丟失有效特征信息[10],影響檢測(cè)性能。特征關(guān)聯(lián)策略提取某一層雙流特征并相乘,將相乘后的特征再與原始特征堆疊作為融合特征。該策略雖然對(duì)特征信息進(jìn)行了加強(qiáng),也考慮到模態(tài)之間的交互性,但還是未完全考慮到兩模態(tài)在不同場(chǎng)景下對(duì)任務(wù)的貢獻(xiàn)比重不同,同時(shí)在融合時(shí)這兩種策略均只是選擇了某一特定層,而忽視了剩余特征層的重要性。

圖1 紅外和可見(jiàn)光圖像對(duì)Fig. 1 Infrared and visible image pairs

如圖1 所示,第一列和第二列分別是可見(jiàn)光和紅外圖片,每一行的圖片均是在同一場(chǎng)景和時(shí)刻拍攝的,圖中用綠框標(biāo)出了同一目標(biāo)在兩張圖像上的差異(彩圖見(jiàn)期刊電子版)。當(dāng)光照充足,四周無(wú)遮擋時(shí),可見(jiàn)光圖像(a)上的行人顯示得較為完整,而對(duì)應(yīng)紅外圖像(b)上目標(biāo)卻不能被分辨出來(lái)。同樣在白天,可見(jiàn)光圖像(c)上的目標(biāo)由于被樹(shù)蔭遮擋,無(wú)法顯示出完整的人形,而紅外圖像(d)能區(qū)分出行人和背景。由此可見(jiàn),不同情況下,檢測(cè)網(wǎng)絡(luò)對(duì)兩模態(tài)的依賴(lài)程度存在著較大差異,因此需要一種融合策略能自適應(yīng)環(huán)境改變,根據(jù)檢測(cè)任務(wù)學(xué)習(xí)兩個(gè)模態(tài)的差異性,從而為兩個(gè)模態(tài)分配相應(yīng)權(quán)重。

2.2 網(wǎng)絡(luò)框架

結(jié)合以上問(wèn)題,以及多光譜行人檢測(cè)是目標(biāo)檢測(cè)中的一個(gè)特殊任務(wù),需要針對(duì)其在輸入的多源性以及檢測(cè)行人任務(wù)的單一性?xún)煞矫娲罱ê线m的基礎(chǔ)框架。本文選用Li 等[11]提出的FSSD(Feature Fusion Single shot Multibox Detector)框架作為檢測(cè)的基礎(chǔ)框架,并將其擴(kuò)展為雙流。FSSD 級(jí)聯(lián)原始檢測(cè)器SSD[12]中不同尺度的特征層,以融合高層語(yǔ)義信息和低層細(xì)節(jié)信息,這是因?yàn)镾SD 對(duì)于高分辨率的低層特征沒(méi)有再利用[13],而這些層對(duì)于檢測(cè)類(lèi)似行人這樣的小目標(biāo)很重要,這也是本文算法選擇FSSD 的主要原因。

網(wǎng)絡(luò)框架如圖2 所示,512×512,對(duì)齊的可見(jiàn)光和紅外圖片先經(jīng)過(guò)前向傳播的兩分支網(wǎng)絡(luò)提取特征,再將特征送入權(quán)值學(xué)習(xí)融合網(wǎng)絡(luò)(Weight-learning Fusion Network,WFN)完成加權(quán)融合,然后利用融合特征生成特征金字塔用于行人的分類(lèi)和回歸,最終的檢測(cè)結(jié)果會(huì)經(jīng)過(guò)非極大 值 抑 制(Non-Maximum Suppression,NMS)層。下面介紹網(wǎng)絡(luò)的組成。

圖2 多光譜行人檢測(cè)框架Fig. 2 Multispectral pedestrian detection network framework

2.2.1 可見(jiàn)光和紅外分支

紅外分支與可見(jiàn)光分支的網(wǎng)絡(luò)結(jié)構(gòu)完全相同,均是以在ImageNet 上預(yù)訓(xùn)練的VGG16 網(wǎng)絡(luò)為基礎(chǔ)網(wǎng)絡(luò)。在特征提取階段,文獻(xiàn)[11]中提出尺寸小于10×10 的特征層可提供的信息較少,因此本文選取VGG16 網(wǎng)絡(luò)的conv4-3 和fc7 特征層,兩層尺寸分別為64×64,38×38,并添加了19×19 的conv7-2 層,得到可見(jiàn)光分支的三個(gè)特征 :f1,f2,f3,及 對(duì) 應(yīng) 的 紅 外 分 支 的 三 個(gè) 特

2.2.2 模態(tài)融合部分

模態(tài)融合主要利用WFN 完成模態(tài)的加權(quán)融合,本文將在2. 3 節(jié)介紹WFN 模塊。該部分首先將提取得到的三組對(duì)應(yīng)特征送入WFN,進(jìn)行模態(tài)加權(quán)融合,得到加權(quán)融合后的三個(gè)高低層特征F1,F(xiàn)2,F(xiàn)3,并對(duì)三個(gè)特征進(jìn)行尺寸歸一化,即先利用1×1 的卷積核對(duì)三個(gè)特征進(jìn)行通道降維,再使用雙線(xiàn)性插值法將尺寸歸一化為64×64,最后級(jí)聯(lián)這三個(gè)特征得到特征Fc。具體操作如式(1)~式(2)所示,其中i表示層數(shù),i= 1,2,3,ΦW表示經(jīng)過(guò)WFN 完成的加權(quán)融合操作,ΦC表示級(jí)聯(lián)操作,Γi指對(duì)特征的尺寸歸一化操作。

2.2.3 特征金字塔

特征金字塔部分用于完成行人目標(biāo)的分類(lèi)以及檢測(cè)框的定位和回歸。與原始FSSD 不同,本文算法是對(duì)兩模態(tài)融合后的融合特征Fc,而不是對(duì)單一流的特征操作,以獲得更多模態(tài)之間的交互信息。具體操作是采用下采樣方法,即利用7 組3×3 的卷積核和relu 的組合操作實(shí)現(xiàn),生成圖1 右側(cè)的特征金字塔。

2.3 自適應(yīng)加權(quán)融合網(wǎng)絡(luò)

針對(duì)2. 1 節(jié)提出的問(wèn)題,受文獻(xiàn)[14]中RGB圖與深度圖融合方法的啟發(fā),本文在雙流檢測(cè)網(wǎng)絡(luò)中對(duì)雙流融合機(jī)制進(jìn)行設(shè)計(jì),提出自適應(yīng)權(quán)值學(xué)習(xí)融合網(wǎng)絡(luò)。該網(wǎng)絡(luò)可以自適應(yīng)關(guān)注兩個(gè)模態(tài)的重要信息,從而學(xué)習(xí)并分配權(quán)重,強(qiáng)化對(duì)重要信息的學(xué)習(xí)。 本文對(duì)從兩個(gè)分支對(duì)應(yīng)的conv4-3,fc7,conv7-2 層提取到的三組特征對(duì)都嵌入了WFN 模塊,以充分利用每一層的特征。第三部分的實(shí)驗(yàn)證明了選取該融合時(shí)機(jī)的有效性。

圖3 權(quán)值學(xué)習(xí)融合網(wǎng)絡(luò)Fig. 3 Weight-learning fusion network

網(wǎng)絡(luò)框架如圖3 所示,圖中左側(cè)第一個(gè)框是直接堆疊方法,即級(jí)聯(lián)融合,網(wǎng)絡(luò)輸入為尺寸相同 的 可 見(jiàn)光 和 紅 外特 征fi和fi′(i表 示 層 數(shù),i=1,2,3),級(jí)聯(lián)融合是做簡(jiǎn)單的通道堆疊操作,從而得到通道堆疊后的特征Sfi,在直接堆疊融合算法中,之后的訓(xùn)練直接應(yīng)用特征Sfi。本文則是對(duì)特征Sfi進(jìn)行加權(quán)操作,得到一組權(quán)重矩陣,然后分別與原始特征相乘,得到分別加權(quán)后的兩個(gè)特征,再級(jí)聯(lián)得到最終加權(quán)融合后的特征Fi。該網(wǎng)絡(luò)主要由以下兩個(gè)部分組成。

2.3.1 加權(quán)部分

該部分由3×3 卷積和sigmoid 激活函數(shù)組合完成加權(quán)操作。其中3×3 的卷積操作是為了在分離特征Sfi時(shí),進(jìn)一步加深特征的深度。分離出的兩組特征再經(jīng)過(guò)sigmoid 激活函數(shù)得到對(duì)應(yīng)權(quán)重矩陣wi,w′i,如式(3)~式(4)所示。其中C1,C2表示卷積核的權(quán)重,b1,b2表示卷積核的偏差,

sigmoid 函數(shù)輸出在(0,1)之間,輸出范圍有限,優(yōu)化穩(wěn)定。兩個(gè)權(quán)重矩陣wi,w′i各自代表了每個(gè)模態(tài)對(duì)網(wǎng)絡(luò)的貢獻(xiàn)。當(dāng)光照充足,可見(jiàn)光模態(tài)對(duì)網(wǎng)絡(luò)的貢獻(xiàn)較大,相應(yīng)wi就越接近于1,wi′則接近0;相反,當(dāng)網(wǎng)絡(luò)更依賴(lài)紅外模態(tài)時(shí),wi′ 接近1,wi則接近0,且wi,wi′ 是由網(wǎng)絡(luò)自主學(xué)習(xí)得來(lái),可以自適應(yīng)外界環(huán)境的動(dòng)態(tài)變化。將獲得的權(quán)重矩陣與原始特征相乘,那么加權(quán)后的兩個(gè)特征就分別代表了模態(tài)最優(yōu)特征。

2.3.2 級(jí)聯(lián)部分

自適應(yīng)加權(quán)融合網(wǎng)絡(luò)中有兩個(gè)部分應(yīng)用到了級(jí)聯(lián)(concat),第一次是將輸入的一組特征fi,fi′級(jí)聯(lián)。第二次是將加權(quán)后的特征級(jí)聯(lián),并使用1×1 的卷積核降維,得到加權(quán)融合后的特征Fi。

2.4 豐富行人先驗(yàn)信息

FSSD 是單階段的檢測(cè)算法[15],沒(méi)有雙階段目標(biāo)檢測(cè)器Faster-RCNN 的候選區(qū)域生成階段[16],而是采用了先驗(yàn)框(Prior boxes)機(jī)制預(yù)設(shè)不同大小的先驗(yàn)框。FSSD 設(shè)置了五種不同寬高比的先驗(yàn)框,以檢測(cè)出不同大小的各種目標(biāo)。但是行人檢測(cè)只有行人一個(gè)目標(biāo),不同寬高比的先驗(yàn)框不僅增加了網(wǎng)絡(luò)的計(jì)算量,還給行人目標(biāo)的檢測(cè)帶來(lái)了干擾信息。

如圖4 所示本文統(tǒng)計(jì)了kaist 多光譜行人數(shù)據(jù)集[17]中訓(xùn)練集的行人實(shí)例的寬高比,由此在本文中將寬高比簡(jiǎn)化成0. 41。同時(shí)因?yàn)槲覀冊(cè)诰W(wǎng)絡(luò)訓(xùn)練過(guò)程中只采用行人實(shí)例高度大于50 的圖片,所以針對(duì)先驗(yàn)框的尺寸也進(jìn)行了重新設(shè)置,并為了應(yīng)對(duì)行人擁擠的場(chǎng)景,在水平方向增加先驗(yàn)框的密集度,如圖5 右所示(圖5 左是原始先驗(yàn)框設(shè)置)。

圖4 寬高比統(tǒng)計(jì)Fig. 4 Statistics of aspect ratio

圖5 先驗(yàn)框設(shè)置Fig. 5 Prior boxes settings

2.5 損失函數(shù)和優(yōu)化方法

網(wǎng)絡(luò)的損失函數(shù)是位置和分類(lèi)損失的加權(quán)和,如式(5)所示。 其中,N是匹配的先驗(yàn)框數(shù)量,α是兩損失的加權(quán)值,本文使用文獻(xiàn)[12]中的默認(rèn)設(shè)置,將α設(shè)為1。

分類(lèi)損失如式(6)所示是softmax 損失。指網(wǎng)絡(luò)輸出的第i個(gè)樣本框?yàn)閜類(lèi)的置信度其中t=1 時(shí)代表分類(lèi)為行人,t=0時(shí)則為背景。

位置損失如式(7)所示是正樣本(i∈pos)的真實(shí)框g和預(yù)測(cè)框l偏移量的smooth-L1 損失,(cx,cy)是框的中心點(diǎn)坐標(biāo),w,h分別是框的寬和高。是第i個(gè)預(yù)測(cè)框和第j個(gè)標(biāo)注框的偏移量的定義如式(8)所示,其中d是先驗(yàn)框。

本文采用隨機(jī)梯度下降算法,以提高訓(xùn)練速度,加快網(wǎng)絡(luò)學(xué)習(xí)進(jìn)程。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 實(shí)驗(yàn)配置

本文提出的算法是在深度學(xué)習(xí)框架Pytorch下完成的,實(shí)驗(yàn)所使用環(huán)境Ubuntu14. 0,CUDA8. 0. 61,python3. 6,硬件配置為T(mén)ITAN XP。網(wǎng)絡(luò)的初始學(xué)習(xí)率為0. 000 5,沖量為0. 9,權(quán)重衰減項(xiàng)為0. 000 5。

3.2 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

本實(shí)驗(yàn)使用的公開(kāi)數(shù)據(jù)集是kaist 多光譜數(shù)據(jù)集,該數(shù)據(jù)集是目前為止國(guó)內(nèi)外最大型,且能提供成對(duì)配準(zhǔn)標(biāo)注的紅外和可見(jiàn)光圖像的多光譜行人檢測(cè)數(shù)據(jù)集,包含95 328 對(duì),103 128 個(gè)密集標(biāo)注的,交通場(chǎng)景下的紅外可見(jiàn)光圖像對(duì),且圖像尺寸均為640×512。為與其他算法[4-9,18]保持?jǐn)?shù)據(jù)一致性,本文沿用文獻(xiàn)[1]的處理方式:在訓(xùn)練集中去除嚴(yán)重遮擋以及行人高度<50 的行人實(shí)例,得到最終用于訓(xùn)練的7 904 張訓(xùn)練圖片。測(cè)試集使用原數(shù)據(jù)集劃分的2 252 張圖片,包含白天和夜晚拍攝的圖片。

網(wǎng)絡(luò)訓(xùn)練時(shí)為了維持正負(fù)樣本的平衡,正負(fù)樣本比例設(shè)置為1∶3,并為了增強(qiáng)網(wǎng)絡(luò)的泛化能力,采用了數(shù)據(jù)增廣策略。

實(shí)驗(yàn)計(jì)算對(duì)數(shù)空間下[10-2,100]的平均漏檢率(Log-average Miss Rate,MR)來(lái)比較算法性能。MR 值越小,則算法性能越優(yōu)。同時(shí)在空間對(duì)數(shù)坐標(biāo)下繪制的missrate-FPPI 曲線(xiàn)圖[19]也用來(lái)評(píng)估算法的性能,該曲線(xiàn)圖橫坐標(biāo)是平均每張圖片中負(fù)樣本被檢測(cè)為正樣本的數(shù)量(False Positives Per Image,F(xiàn)PPI),縱坐標(biāo)是指在實(shí)際為正的樣本中,未被正確檢測(cè)出來(lái)的概率,即漏檢率(Miss Rate)。 曲線(xiàn)越低,代表的算法性能越優(yōu)。

3.3 消融實(shí)驗(yàn)

3.3.1 多模態(tài)信息的重要性及互補(bǔ)性

本部分比較了單支可見(jiàn)光,紅外以及雙支多模態(tài)網(wǎng)絡(luò)的性能。表1 是三種網(wǎng)絡(luò)在白天,夜晚及全天的檢測(cè)性能,其中多模態(tài)網(wǎng)絡(luò)整體獲得了26. 96% 的MR 值,分別比只使用可見(jiàn)光模態(tài)和紅外模態(tài)的單流網(wǎng)絡(luò)減少了12. 91% 和11. 28%,可以發(fā)現(xiàn)利用多模態(tài)信息的雙流檢測(cè)網(wǎng)絡(luò)的檢測(cè)性能更優(yōu)。

對(duì)比表1 的兩個(gè)單模態(tài)網(wǎng)絡(luò)在白天黑夜的MR 值大小以及圖6~圖7 的missrate-FPPI 曲線(xiàn)(藍(lán)色代表紅外分支,紫色代表可見(jiàn)光分支,彩圖見(jiàn)期刊電子版)的高低,可以看出,在白天,單支可見(jiàn)光比單支紅外網(wǎng)絡(luò)性能更優(yōu);而在夜晚的大部分場(chǎng)景下,單支紅外比單支可見(jiàn)光網(wǎng)絡(luò)性能更優(yōu),驗(yàn)證了兩模態(tài)的互補(bǔ)性。

表1 不同模態(tài)的MR 值Tab. 1 MR values of different modals (%)

圖8 是在kaist 數(shù)據(jù)集上的檢測(cè)實(shí)例(彩圖見(jiàn)期刊電子版)。(紅色框代表真實(shí)標(biāo)注框,綠色框代表網(wǎng)絡(luò)輸出的檢測(cè)框,從左到右分別為(a)原始標(biāo)注,(b)單支可見(jiàn)光模態(tài),(c)單支紅外模態(tài),(d)雙支多模態(tài)以及(e)Fusion-RPN[2]。 關(guān)于與Fusion-RPN 算法的比較將在3. 4 節(jié)介紹)相鄰的兩行是同一組可見(jiàn)光和紅外圖片,第一組是在夜晚拍攝,第二組和第三組均為白天拍攝。由幾組圖片可以看出,單獨(dú)使用某一分支網(wǎng)絡(luò)只能在白天或黑夜一種情況下性能更優(yōu),并不能適應(yīng)環(huán)境變化,雙支多模態(tài)網(wǎng)絡(luò)明顯性能更優(yōu)化穩(wěn)定,進(jìn)一步驗(yàn)證了上文的結(jié)論,佐證了多模態(tài)自適應(yīng)融合實(shí)驗(yàn)的可行性。

圖6 兩分支在白天的檢測(cè)結(jié)果Fig. 6 Detection results of the two branches during the day

圖7 兩分支在夜晚的檢測(cè)結(jié)果Fig. 7 Detection results of the two branches during the night

3.3.2 多模態(tài)融合實(shí)驗(yàn)

兩模態(tài)的正確融合可以大幅度提升檢測(cè)性能,然而兩模態(tài)正確融合的關(guān)鍵就是如何融合和何時(shí)融合。針對(duì)這兩個(gè)關(guān)鍵問(wèn)題,本文做了如下兩組實(shí)驗(yàn)。

3.3.2.1 選取融合時(shí)機(jī)

本文為了更有效地融合多光譜信息,更好地發(fā)揮WFN 模塊的優(yōu)勢(shì)。本部分研究了兩種不同時(shí)機(jī)嵌入WFN 模塊的方案。圖9 表示(a),(b)兩種嵌入WFN 模塊的策略。

融合時(shí)機(jī)(a):先逐層加權(quán)自適應(yīng)融合,再對(duì)融合后的三個(gè)特征進(jìn)行高低層級(jí)聯(lián),獲得最終的用于生成特征金字塔的融合特征。

圖8 檢測(cè)實(shí)例Fig. 8 Detection examples

融合時(shí)機(jī)(b):先在每一單獨(dú)分支對(duì)三層特征進(jìn)行高低層級(jí)聯(lián),再對(duì)分別來(lái)自?xún)闪鞯母叩蛯蛹?jí)聯(lián)特征做加權(quán)自適應(yīng)融合操作,獲得最終的用于生成特征金字塔的融合特征。

本文選擇融合方式(a),是因?yàn)橹饘尤诤峡梢猿浞掷妹恳粚拥奶卣餍畔?,讓網(wǎng)絡(luò)充分學(xué)習(xí)更多兩模態(tài)之間的信息,相較融合方式(b),減少了特征信息丟失的可能性。表2 是兩種方式在Kaist 數(shù)據(jù)集上的MR 值,本文選擇的融合方式(a)的MR 值比融合方式(b)低了1. 09%,圖10(ours 和fusion b)也展示了兩種方式的missrate-FPPI 曲線(xiàn)圖,顯然,融 合 方 式(a)的性能較優(yōu)。

3.3.2.2 選取融合方法

本文通過(guò)實(shí)驗(yàn)比較了直接堆疊和自適應(yīng)權(quán)值學(xué)習(xí)兩種融合方法的優(yōu)劣,實(shí)驗(yàn)結(jié)果如表3 和圖10(ours 和stack)所示,顯然,采用自適應(yīng)權(quán)值學(xué)習(xí)融合方式可以顯著提高網(wǎng)絡(luò)性能。

圖9 兩種融合時(shí)機(jī)Fig. 9 Two fusion stages

表2 不同融合時(shí)機(jī)的MR 值Tab. 2 MR values of different fusion stages

3.4 算法的整體性能

為驗(yàn)證算法的先進(jìn)性,將本文算法與當(dāng)前先進(jìn) 算 法ACF+T+THOG[17],F(xiàn)usion-RPN[2],YOLO-TGB[18],DSSD-HC[6],TS-RPN[4]在Kaist數(shù)據(jù)集上進(jìn)行了MR 值的比較,結(jié)果如表4 所示??梢钥闯霰疚奶岢龅乃惴∕R 值為26. 96% 與當(dāng)前最優(yōu)方法Fusion-RPN(29. 73%)相比,降低了2. 77%,與baseline 算法相比分別降低了27. 84%,與最新的三種算法相比分別降低了4. 24%,7. 36%,3. 7%。

表4 不同方法在Kaist 數(shù)據(jù)集上的MR 值Tab. 4 MR values of different methods on the Kaist dataset

為了進(jìn)一步驗(yàn)證本文算法的領(lǐng)先性,如圖10所示,挑選了當(dāng)前采用直接堆疊策略的最優(yōu)算法Fusion-RPN,和ACF+T+THOG(baseline)兩種算法繪制missrate-FPPI 曲線(xiàn)圖,由圖10 可以看出,本文提出的算法(ours)曲線(xiàn)是明顯低于另兩種算法的。同時(shí)圖8 也對(duì)比了本文算法(d)和Fusion-RPN 算法(e)在kaist 數(shù)據(jù)集上的檢測(cè)實(shí)例。觀(guān)察兩個(gè)算法在第一組和第二組圖片上的檢測(cè)結(jié)果,可以發(fā)現(xiàn)本文算法不僅能框出更多使用直接堆疊的Fusion-RPN 算法漏檢的行人目標(biāo),而且對(duì)已分類(lèi)出的行人目標(biāo)的定位也更加準(zhǔn)確。因此本文的自適應(yīng)權(quán)值融合方法可以有效提升行人檢測(cè)性能,優(yōu)于其他算法。

4 結(jié) 論

本文根據(jù)自動(dòng)駕駛,智能視頻監(jiān)控等領(lǐng)域?qū)π腥藱z測(cè)能適應(yīng)全天候及各種場(chǎng)景變化的要求,提出了基于多模態(tài)信息融合權(quán)值學(xué)習(xí)的行人檢測(cè)網(wǎng)絡(luò),首先分析了當(dāng)前一些融合方法,融合時(shí)機(jī)存在的問(wèn)題,然后介紹了本文算法提出的雙流行人檢測(cè)框架以及權(quán)值學(xué)習(xí)融合網(wǎng)絡(luò)的各部分組成和工作原理,并通過(guò)實(shí)驗(yàn)驗(yàn)證本文算法的先進(jìn)性。實(shí)驗(yàn)結(jié)果證明:相比目前采用直接堆疊的最優(yōu)算法以及當(dāng)前先進(jìn)算法的漏檢率,本文算法獲得了較低的漏檢率:26. 96%,基本能為行人檢測(cè)提供互補(bǔ)的模態(tài)信息,滿(mǎn)足行人檢測(cè)自適應(yīng)場(chǎng)景變化的需求。

猜你喜歡
權(quán)值行人紅外
一種融合時(shí)間權(quán)值和用戶(hù)行為序列的電影推薦模型
網(wǎng)紅外賣(mài)
閃亮的中國(guó)紅外『芯』
金橋(2021年4期)2021-05-21 08:19:20
毒舌出沒(méi),行人避讓
意林(2021年5期)2021-04-18 12:21:17
CONTENTS
CONTENTS
TS系列紅外傳感器在嵌入式控制系統(tǒng)中的應(yīng)用
電子制作(2019年7期)2019-04-25 13:17:14
路不為尋找者而設(shè)
我是行人
基于權(quán)值動(dòng)量的RBM加速學(xué)習(xí)算法研究
米泉市| 昌图县| 贞丰县| 尉犁县| 雅江县| 屯昌县| 临西县| 资阳市| 右玉县| 电白县| 盘锦市| 呼玛县| 赫章县| 盖州市| 新郑市| 漾濞| 襄汾县| 金坛市| 石棉县| 泸西县| 阿瓦提县| 龙口市| 安吉县| 大田县| 博野县| 剑阁县| 汝南县| 梨树县| 盘锦市| 永州市| 白城市| 临武县| 阿拉善右旗| 涡阳县| 泾源县| 宣恩县| 丰宁| 孝义市| 崇明县| 山西省| 托克逊县|