国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多尺度特征融合的YOLOv3 行人檢測(cè)算法?

2024-04-17 07:28黎國(guó)斌王等準(zhǔn)扈健瑋林向會(huì)謝本亮
關(guān)鍵詞:行人殘差尺度

黎國(guó)斌 王等準(zhǔn) 張 劍 扈健瑋 林向會(huì) 謝本亮

(貴州大學(xué)大數(shù)據(jù)與信息工程學(xué)院半導(dǎo)體功率器件可靠性教育部工程研究中心 貴陽(yáng) 550025)

1 引言

行人檢測(cè)技術(shù)以往是人工提取特征,例如SIFT[1]、LBP[2]、SURF[3]、HOG[4]以及Haar[5]等特征描述因子,提取行人特征后輸入分類(lèi)器中進(jìn)行學(xué)習(xí),傳統(tǒng)的分類(lèi)器有adboost[6]或者SVM[7],最后輸出分類(lèi)的結(jié)果。YOLOv3[8]作為一階段檢測(cè)算法,略去區(qū)域候選框過(guò)程,在保證檢測(cè)性能的同時(shí)提升檢測(cè)速度,該算法摒棄以往僅僅利用最后檢測(cè)層進(jìn)行單尺度輸出,而是同時(shí)輸出三種尺度的目標(biāo),更適合本文研究的內(nèi)容,所以本文使用YOLOv3 作為基準(zhǔn)算法。

行人檢測(cè)是一種特殊的目標(biāo)檢測(cè)算法,只是檢測(cè)目標(biāo)限定于行人。圖1 是Caltech[9]行人檢測(cè)數(shù)據(jù)集的統(tǒng)計(jì)圖。

圖1 Caltech數(shù)據(jù)集行人尺度統(tǒng)計(jì)圖

由上可知,行人大小尺度分布不均勻,行人尺度主要分布在50 像素以下。在現(xiàn)實(shí)生活中,由于道路行人與車(chē)載成像設(shè)備之間的距離不同,成像后行人尺度差距十分顯著,因此,本文在YOLOv3 算法基礎(chǔ)上,改進(jìn)特征提取網(wǎng)絡(luò),引入多尺度特征融合模塊至殘差單元中,替換原來(lái)僅僅是兩個(gè)卷積層堆疊的殘差單元。改進(jìn)后的殘差單元,可以將不同尺度的特征進(jìn)行融合,那么多個(gè)殘差單元堆疊就可以進(jìn)一步融合更多不同尺度的行人特征,提高網(wǎng)絡(luò)對(duì)不同尺度特征的提取能力。

2 相關(guān)工作

特征融合在目標(biāo)檢測(cè)算法中是非常常見(jiàn)的,特征 融 合 有 很 多 種 方 式,例 如ResNet[10]的 跳 連 接(skip connection)、FPN[11]的長(zhǎng)連接(long connection)、Inception[12]中同層不同分支間特征拼接或者按像素相加進(jìn)行特征融合。

針對(duì)不同尺度不同語(yǔ)義的特征,Yimian Dai等[13]提出多尺度通道注意力模塊(MS-CAM)。多尺度通道注意力模塊結(jié)構(gòu)圖如圖2所示。

圖2 多尺度通道注意模塊結(jié)構(gòu)圖

輸入X分別通過(guò)全局和局部分支,全局分支依次通過(guò)全局平均池化層得到C×1×1 特征,接著輸入到深度可分離卷積得到C/r×1×1 特征,隨后輸入到批量歸一化(BN),非線性激活函數(shù)(Re-LU),再通過(guò)深度可分離卷積得到C×1×1 特征。同理,局部分支除去全局平均池化操作外,其他與全局分支相同。最后將全局的語(yǔ)義信息和局部的特征信息進(jìn)行相加,通過(guò)激活函數(shù)(Sigmoid)將特征信息權(quán)重限定在[0,1],最后與原特征X相乘得到調(diào)整后的特征X′。MS-CAM 僅僅是單輸入,難以融合不同層的特征,因此將淺層特征X深層特征Y、多尺度通道注意力模塊結(jié)合一起,構(gòu)造成多尺度特征融合模塊(AFF),AFF 網(wǎng)絡(luò)結(jié)構(gòu)圖如圖3所示。

圖3 多尺度特征融合模塊

X為淺層特征,Y為深層的特征,特征圖的寬為W,高為H,通道數(shù)為C。X和Y相加得到的特征,繼續(xù)通過(guò)MS-CAM,得到兩個(gè)分支,左分支是特征融合后的權(quán)重,并且局限在0到1之間,而右分支是通過(guò)全1 矩陣減左分支的值得到的,右邊權(quán)重也是限定在[0,1],隨后左右分支分別與原特征進(jìn)行矩陣乘法運(yùn)算,得到的結(jié)果進(jìn)行相加運(yùn)算得到最后的輸出Z?RC×H×W,即得到的Z是淺層細(xì)?;卣髋c深層語(yǔ)義信息融合后的特征。

3 本文算法

本文算法分三個(gè)小節(jié)進(jìn)行闡述,首先簡(jiǎn)述本文改進(jìn)算法的結(jié)構(gòu)設(shè)計(jì)、其次闡述改進(jìn)算法的訓(xùn)練過(guò)程、最后針對(duì)改進(jìn)算法的實(shí)驗(yàn)環(huán)境及結(jié)果做進(jìn)一步的分析。

3.1 本文算法結(jié)構(gòu)設(shè)計(jì)

為了實(shí)現(xiàn)不同尺度行人的檢測(cè),本文在YOLOv3 算法的特征提取網(wǎng)絡(luò)中引入多尺度特征融合模塊,改進(jìn)前的殘差單元結(jié)構(gòu)圖如圖4。

圖4 改進(jìn)前的殘差單元結(jié)構(gòu)圖

將原輸入x、x經(jīng)過(guò)連續(xù)兩個(gè)DBL卷積層得到的特征y、x與y相加得到的特征w,x表示淺層特征,y表示深層特征,改進(jìn)后的殘差單元結(jié)構(gòu)如圖5所示。

圖5 改進(jìn)后的殘差單元結(jié)構(gòu)圖

淺層特征x與左分支權(quán)重z相乘得到淺層調(diào)整后的特征,深層特征y與右分支相乘得到深層調(diào)整后的特征,然后將調(diào)整后的特征相加得到最后輸出。將改進(jìn)Res_unit 替換YOLOv3 中的Res_unit,其他網(wǎng)絡(luò)結(jié)構(gòu)不變。

3.2 網(wǎng)絡(luò)模型訓(xùn)練設(shè)計(jì)

由于兩個(gè)階段的學(xué)習(xí)率不一樣,模型更新步伐不同,第一階段將學(xué)習(xí)率調(diào)大,可以加快模型訓(xùn)練,第二階段調(diào)小學(xué)習(xí)率,可以更好地找到全局最優(yōu)解,所以模型訓(xùn)練過(guò)程分為兩個(gè)階段,第一階段實(shí)驗(yàn)超參數(shù)設(shè)計(jì)如表1所示。

表1 第一階段實(shí)驗(yàn)超參數(shù)表

第二階段學(xué)習(xí)率調(diào)整為0.0001,訓(xùn)練次數(shù)epoch設(shè)置為10,其他參數(shù)與上相同。

模型訓(xùn)練,訓(xùn)練與驗(yàn)證集比例為7∶3,并隨機(jī)打亂訓(xùn)練集。網(wǎng)絡(luò)訓(xùn)練的最終目的是保存最佳的權(quán)重參數(shù),而權(quán)重更新的方法很多,本文使用學(xué)習(xí)率自適應(yīng)二階優(yōu)化方法Adam(Daptive Moment Estimate)。該優(yōu)化方法可以自適應(yīng)地調(diào)整學(xué)習(xí)率,并且適合處理不平穩(wěn)的目標(biāo)函數(shù),計(jì)算效率高且內(nèi)存需求小,正好適用于行人檢測(cè)數(shù)據(jù)集。

3.3 本文實(shí)驗(yàn)結(jié)果與分析

3.3.1 實(shí)驗(yàn)配置與數(shù)據(jù)集

本文實(shí)驗(yàn)環(huán)境分為兩部分,其一是本地調(diào)試程序使用的個(gè)人計(jì)算機(jī)運(yùn)行平臺(tái),其二是實(shí)驗(yàn)室搭建的英偉達(dá)(NVIDIA)GPU 服務(wù)器。個(gè)人計(jì)算機(jī)運(yùn)行平臺(tái)軟硬件環(huán)境配置如表2所示。

表2 本地調(diào)試程序個(gè)人計(jì)算機(jī)軟硬件環(huán)境

服務(wù)器軟硬件配置如表3所示。

表3 服務(wù)器軟硬件環(huán)境配置

表4 改進(jìn)算法在Caltech、On_merge數(shù)據(jù)集訓(xùn)練的測(cè)試結(jié)果

本文實(shí)驗(yàn)使用的數(shù)據(jù)集共2 個(gè),分別為Caltech和On_merge數(shù)據(jù)集。選擇set00-set05 作為Caltech訓(xùn)練集,共有67020張訓(xùn)練圖片。On_merge數(shù)據(jù)集包含Caltech 訓(xùn)練集、Cityperson[14]訓(xùn)練集、驗(yàn)證集,共有69663 張訓(xùn)練圖片。由于Caltech 數(shù)據(jù)集中存在部分錯(cuò)標(biāo)漏標(biāo)的情況,本次實(shí)驗(yàn)的測(cè)試集選用set06 中部分?jǐn)?shù)據(jù)集,測(cè)試集經(jīng)過(guò)調(diào)整后,測(cè)試圖片數(shù)量為2059張。

3.3.2 實(shí)驗(yàn)結(jié)果與分析

替換Darknet53為引入多尺度特征融合模塊的特征提取網(wǎng)絡(luò),其他網(wǎng)絡(luò)結(jié)構(gòu)與YOLOv3 一樣。經(jīng)過(guò)實(shí)驗(yàn),得到如圖6~7所示PR曲線圖。

圖6 Caltech數(shù)據(jù)集精準(zhǔn)率-召回率曲線圖

圖7 On_merge數(shù)據(jù)集精準(zhǔn)率-召回率曲線圖

從圖6、7 知,改進(jìn)算法(YOLOv3+mscam)的平均精準(zhǔn)率比基準(zhǔn)算法高,并且在On_merge 數(shù)據(jù)集的平均精準(zhǔn)率都比基準(zhǔn)算法高,進(jìn)一步說(shuō)明改進(jìn)算法的有效性。On_merge 數(shù)據(jù)集包含Caltech 和Cityperson數(shù)據(jù)集,模型泛化能力更強(qiáng)。

YOLOv3+mscam 表示引入多尺度特征融合模塊的YOLOv3 算法,分別在Caltech、On_merge 數(shù)據(jù)集進(jìn)行訓(xùn)練,測(cè)試得到的結(jié)果;R 表示召回率,P 表示精準(zhǔn)率。從表5、6 可知,對(duì)于Caltech 數(shù)據(jù)集,YOLOv3+mscam、YOLOv3 在置信度分別等于30.79%,26.4%取得上述F1系數(shù)、召回率、精準(zhǔn)率以及平均精準(zhǔn)率。YOLOv3+mscam 的平均精準(zhǔn)率比基準(zhǔn)算法高出其5.49%,F(xiàn)1調(diào)和系數(shù)比基準(zhǔn)算法高出其3.42%,精準(zhǔn)率比基準(zhǔn)算法高出其14.1%。

表5 改進(jìn)算法在Caltech、On_merge數(shù)據(jù)集訓(xùn)練的測(cè)試結(jié)果

取得上述性能提升的主要原因是引入了多尺度特征融合模塊,并且是引入到殘差單元(ResNet)內(nèi)部,依然保持殘差連接特性,即增加網(wǎng)絡(luò)深度的同時(shí)不會(huì)引起梯度消失的問(wèn)題。增加特征提取網(wǎng)絡(luò)的深度,進(jìn)一步提升特征提取網(wǎng)絡(luò)的非線性表達(dá)能力,增強(qiáng)網(wǎng)絡(luò)對(duì)行人特征的提取能力。

此外,多尺度特征融合模塊內(nèi)部融合通道域注意力機(jī)制,融合全局與局部的信息,可以更好判別行人特征信息,降低假陽(yáng)性率,在通道域注意力機(jī)制的引導(dǎo)下,網(wǎng)絡(luò)增加行人特征對(duì)應(yīng)通道的響應(yīng)權(quán)重,降低背景等無(wú)關(guān)信息對(duì)應(yīng)通道的響應(yīng)比例,因此網(wǎng)絡(luò)可以更加傾向行人可見(jiàn)特征信息,降低行人特征信息以外等無(wú)關(guān)信息的干擾,更多有用行人特征信息參與網(wǎng)絡(luò)訓(xùn)練,網(wǎng)絡(luò)對(duì)行人的識(shí)別能力也進(jìn)一步加強(qiáng)。

由圖3 可知,多尺度特征融合模塊外部改變?yōu)殡p輸入,一輸入為淺層的特征、另外一輸入為殘差學(xué)習(xí)后的特征,兩輸入相加后的特征信息輸入至多尺度通道注意力模塊,得到兩個(gè)特征比例權(quán)重,淺層特征、殘差學(xué)習(xí)后特征分別與各自比例權(quán)重相乘得到各自調(diào)整后的特征,最后將調(diào)整后的特征相加輸出,經(jīng)過(guò)多級(jí)特征融合的殘差單元級(jí)聯(lián),可以更好地融合不同尺度行人的特征信息,從而提高行人檢測(cè)的性能。

為了更直觀理解改進(jìn)算法的模型參數(shù),基準(zhǔn)算法與改進(jìn)算法的模型參數(shù)如表6。

表6 模型參數(shù)對(duì)比表

雖然改進(jìn)算法在特征提取網(wǎng)絡(luò)引入別的網(wǎng)絡(luò)層,但總體的計(jì)算量增加不大,改進(jìn)算法在Tesla V100 的FPS 為48,基準(zhǔn)算法的FPS 為52,都能滿足檢測(cè)實(shí)時(shí)性要求。

為了更直觀地理解改進(jìn)算法的有效性,改進(jìn)算法與基準(zhǔn)算法的檢測(cè)效果圖如圖8~9所示。

圖8 改進(jìn)算法檢測(cè)效果全圖

圖9 改進(jìn)算法檢測(cè)局部放大圖

紅色框代表基準(zhǔn)算法的檢測(cè)結(jié)果,綠色框代表改進(jìn)算法的檢測(cè)結(jié)果,從圖8、9 知,基準(zhǔn)算法對(duì)于距離較遠(yuǎn)的小尺度行人存在漏檢,而改進(jìn)算法可以完全框出圖像中的行人。

為了驗(yàn)證改進(jìn)算法的有效性,將改進(jìn)的算法在On_merge 訓(xùn)練集進(jìn)行訓(xùn)練,經(jīng)測(cè)試得到表4 與表5結(jié)果。YOLOv3+mscam、YOLOv3 在置信度分別等于33.81%,34.28%取得上述F1 系數(shù)、召回率、精準(zhǔn)率以及平均精準(zhǔn)率。YOLOv3+mscam 的平均精準(zhǔn)率比基準(zhǔn)算法高出其2.26%。進(jìn)一步說(shuō)明改變?cè)瓉?lái)特征提取方式,替換為帶多尺度特征融合模塊的特征提取網(wǎng)絡(luò),可以提升不同尺度行人的檢測(cè)性能。

紅色框是基準(zhǔn)算法,綠色框是改進(jìn)算法,從圖10、11 得知,改進(jìn)算法的檢測(cè)效果更佳。基準(zhǔn)算法對(duì)較小尺度行人存在漏檢,改進(jìn)算法可以很好地?cái)M合小尺度行人。

圖10 改進(jìn)算法檢測(cè)效果全圖

圖11 改進(jìn)算法檢測(cè)局部放大圖

4 結(jié)語(yǔ)

在行人檢測(cè)技術(shù)中,行人大小尺度問(wèn)題比較常見(jiàn),一直也是行人檢測(cè)的難點(diǎn)。由于行人與成像設(shè)備間的距離不同,導(dǎo)致行人大小尺度不一問(wèn)題尤為顯著,本文針對(duì)行人大小尺度問(wèn)題,提出基于多尺度特征融合的YOLOv3 行人檢測(cè)算法。由于YOLOv3 的特征提取網(wǎng)絡(luò)Darknet53 引入了殘差連接,那么在殘差單元里引入多尺度特征融合模塊,改變特征的提取方式,將淺層特征和經(jīng)過(guò)殘差學(xué)習(xí)的深層特征進(jìn)行融合,融合后輸入多尺度通道注意力模塊,可以同時(shí)關(guān)注行人的全局信息和局部信息,并更加關(guān)注行人的有用信息,降低無(wú)用信息對(duì)網(wǎng)絡(luò)的干擾。最后在Caltech 數(shù)據(jù)集和Cityperson 數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),上文也統(tǒng)計(jì)Caltech 數(shù)據(jù)集中的行人尺度,行人尺度分布廣泛,小尺度行人尤為顯著,提高不同尺度行人檢測(cè)性能,為后續(xù)行人重識(shí)別[15]、行人跟蹤等領(lǐng)域的研究奠定堅(jiān)實(shí)的基礎(chǔ)。

猜你喜歡
行人殘差尺度
基于雙向GRU與殘差擬合的車(chē)輛跟馳建模
毒舌出沒(méi),行人避讓
基于殘差學(xué)習(xí)的自適應(yīng)無(wú)人機(jī)目標(biāo)跟蹤算法
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
基于遞歸殘差網(wǎng)絡(luò)的圖像超分辨率重建
路不為尋找者而設(shè)
我是行人
宇宙的尺度
平穩(wěn)自相關(guān)過(guò)程的殘差累積和控制圖
9