張家鈞,唐云祁,楊智雄
(中國(guó)人民公安大學(xué)偵查學(xué)院,北京 100032)
通過(guò)作案人遺留在犯罪現(xiàn)場(chǎng)的嫌疑鞋印推斷嫌疑鞋型,進(jìn)而在監(jiān)控視頻中追蹤犯罪嫌疑人已經(jīng)成為公安機(jī)關(guān)偵破案件的重要技戰(zhàn)法。隨著監(jiān)控?cái)z像頭的普及,該技戰(zhàn)法在偵查破案中具有重要作用。文獻(xiàn)[1]介紹2016 年某超市內(nèi)發(fā)生的一起命案,現(xiàn)場(chǎng)唯一有價(jià)值的物證是數(shù)枚來(lái)自同一人的帶血鞋印。在該案件中,偵查人員通過(guò)特征標(biāo)示、拼接比較、重合比較等方法確定監(jiān)控視頻中一男子所穿鞋型與案發(fā)現(xiàn)場(chǎng)鞋型為同類(lèi)鞋型,在監(jiān)控視頻中成功鎖定犯罪嫌疑人,實(shí)現(xiàn)了從案發(fā)現(xiàn)場(chǎng)遺留鞋印到監(jiān)控的跨模態(tài)追蹤溯源。
“鞋印+監(jiān)控”技戰(zhàn)法雖然有較強(qiáng)的實(shí)戰(zhàn)價(jià)值,但是在監(jiān)控視頻中比對(duì)嫌疑鞋型的工作全部由人工完成。我國(guó)警力尚處于不足的狀態(tài),無(wú)法確保在規(guī)定時(shí)間內(nèi)精準(zhǔn)搜索到犯罪嫌疑人。因此,一種面向監(jiān)控視頻的鞋型自動(dòng)識(shí)別算法成為研究熱點(diǎn)。相比人臉識(shí)別問(wèn)題,面向監(jiān)控視頻的鞋型識(shí)別問(wèn)題更復(fù)雜,其原因?yàn)槭苓\(yùn)動(dòng)、光照、分辨率較低等因素的影響,在監(jiān)控視頻中的鞋子區(qū)域大多是模糊不清的,導(dǎo)致可利用有效特征較少。因此,通過(guò)提取低分辨率鞋子影像有效特征進(jìn)行鞋型自動(dòng)識(shí)別是現(xiàn)階段亟須解決的難題。
針對(duì)上述問(wèn)題,本文提出一種基于自適應(yīng)感受野模塊與多支路特征融合的鞋型識(shí)別算法。通過(guò)構(gòu)建自適應(yīng)感受野模塊(Adaptive Receptive Field Module,ARFM),在模塊末端連接通道注意力機(jī)制,使網(wǎng)絡(luò)自動(dòng)選擇合適大小的感受野特征,設(shè)計(jì)三支路特征融合模型,充分利用有效特征進(jìn)行鞋型識(shí)別,采用Center Loss[2]和標(biāo)簽平滑損失[3]聯(lián)合函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,使樣本實(shí)現(xiàn)更好的聚類(lèi)效果。
基于內(nèi)容的圖像檢索(Content-Based Image Retrieval,CBIR)是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)。在深度學(xué)習(xí)發(fā)展之前,CBIR 主要基于手工標(biāo)注的特征,如尺度不變特征變換(Scale-Invariant Feature Transform,SIFT)[4],因手工特征描述受限,導(dǎo)致檢索效率較低。自深度學(xué)習(xí)得到迅速發(fā)展之后,特別是AlexNet[5]、VGGNet[6]、GoogLeNet[7]、ResNet[8]、DenseNet[9]等深度卷積神經(jīng)網(wǎng)絡(luò)的出現(xiàn),得益于其強(qiáng)大的特征提取能力,深度學(xué)習(xí)廣泛應(yīng)用在圖像分類(lèi)、目標(biāo)檢測(cè)[10]、圖像檢索[11]等領(lǐng)域。
文獻(xiàn)[12]提出全連接層具有較強(qiáng)的語(yǔ)義特征描述能力,并且其本身是向量形式,因此在早期工作中,直接選擇全連接層作為圖像的表示向量,但是僅選擇一層全連接層會(huì)限制網(wǎng)絡(luò)的檢索性能。因此,文獻(xiàn)[13]提出融合多層全連接層特征進(jìn)行圖像檢索,取得更優(yōu)的檢索結(jié)果。文獻(xiàn)[14]對(duì)GoogLeNet的3 組inception 結(jié)構(gòu)進(jìn)行平均池化、1×1 卷積和全連接層操作,并將這3 組提取到的1 024 維特征進(jìn)行拼接,并對(duì)得到3 072 維特征向量進(jìn)行檢索,其檢索結(jié)果優(yōu)于傳統(tǒng)的特征提取算法。文獻(xiàn)[15]指出,全連接層對(duì)圖像分類(lèi)的貢獻(xiàn)突出,但是缺乏圖像細(xì)節(jié)特征和局部幾何不變特性,對(duì)圖像的尺寸、位置等變化較敏感。因此,研究人員將卷積層的輸出作為圖像特征表示向量,卷積層中神經(jīng)元僅連接特征圖中的部分區(qū)域并且參數(shù)共享,具有對(duì)圖像幾何變換的有效性。將卷積層的輸出作為圖像特征表示向量需要選擇合適的卷積特征聚合方法,如SPoC[16]、CroW[17]、R-MAC[18]、SCDA[19]、PWA[20]、GEM[21]等方法。文獻(xiàn)[22]基于CroW 和SCDA 方法提出深度卷積特征聚合(DFW)方法,綜合考慮深度卷積特征的位置、區(qū)域和通道的重要性,并對(duì)特征進(jìn)行加權(quán)聚合,以獲得更優(yōu)的檢索效果。文獻(xiàn)[23]基于CroW 方法提出一種新的空間和通道特征加權(quán)聚合方法,生成差異性加權(quán)向量,并對(duì)權(quán)重矩陣進(jìn)行濾波處理,具有較優(yōu)的檢索結(jié)果。
文獻(xiàn)[24]提出在卷積神經(jīng)網(wǎng)絡(luò)中每層提取的特征具有層次性,低層特征主要包含紋理、邊緣等細(xì)節(jié)特征,隨著層數(shù)的加深,網(wǎng)絡(luò)感受野逐漸增大,高層特征主要包含高級(jí)語(yǔ)義特征。基于此,文獻(xiàn)[25]融合低層細(xì)節(jié)特征和高層語(yǔ)義特征,提高網(wǎng)絡(luò)檢索性能。文獻(xiàn)[26]提出融合全局特征和局部特征的兩階段的圖像檢索方法,利用全局特征進(jìn)行檢索得到top30 結(jié)果,采用局部特征進(jìn)行重新檢索排序,在Google Landmarks dataset v2 數(shù)據(jù)集上達(dá)到最高的檢索精度。文獻(xiàn)[15]提出多層特征融合的檢索精度相比于單獨(dú)使用低層特征或者高層特征的檢索精度高。文獻(xiàn)[27]提出一種三支路特征層融合的模型,使網(wǎng)絡(luò)充分利用有效特征進(jìn)行行人重識(shí)別,實(shí)驗(yàn)結(jié)果表明,多層特征融合模型具有更優(yōu)的檢索性能。針對(duì)傳統(tǒng)神經(jīng)網(wǎng)絡(luò)在學(xué)習(xí)目標(biāo)高層語(yǔ)義特征時(shí)存在目標(biāo)邊緣、紋理等淺層特征丟失的問(wèn)題,文獻(xiàn)[28]采用Haar-like 提取目標(biāo)邊緣、紋理特征,同時(shí)利用Adaboost 進(jìn)行特征降維,以提取目標(biāo)的邊緣、紋理淺層特征,將目標(biāo)淺層特征與神經(jīng)網(wǎng)絡(luò)提取的深層特征相融合,能夠有效提升檢測(cè)精度。文獻(xiàn)[29]通過(guò)Gabor 濾波器獲取目標(biāo)不同方位的特征,利用MS-CLBP 獲取目標(biāo)的局部紋理、空間和輪廓信息,并將淺層特征與神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的高層語(yǔ)義特征相融合輸入到SVM 分類(lèi)器中,得到優(yōu)于當(dāng)時(shí)最先進(jìn)方法的分類(lèi)精度。
針對(duì)監(jiān)控視頻中行人所穿鞋型自動(dòng)識(shí)別研究較少的問(wèn)題,本文將深度學(xué)習(xí)運(yùn)用到鞋型識(shí)別工作中,不僅取代人工盯查監(jiān)控工作,大幅加快鞋型匹配速度,還可以避免人工盯查監(jiān)控時(shí)受主觀(guān)因素的影響,提升公安機(jī)關(guān)偵破案件的效率。
感受野是指神經(jīng)網(wǎng)絡(luò)中每層輸出特征圖的像素點(diǎn)在原始圖像上映射的區(qū)域大小,網(wǎng)絡(luò)感受野越大表示其接觸到原圖像范圍越大,所包含的特征信息更加全面。增大感受野的主要方式是增加網(wǎng)絡(luò)深度和采用下采樣操作,在深度學(xué)習(xí)初期,網(wǎng)絡(luò)層數(shù)越深,訓(xùn)練得到的模型效果越好,但是通過(guò)池化層增大網(wǎng)絡(luò)感受野的弊端是隨著圖像分辨率的降低,圖像的細(xì)節(jié)信息也會(huì)隨之丟失。因此,本文提出一種自適應(yīng)感受野模塊,其骨干網(wǎng)絡(luò)采用ResNet50,模塊結(jié)構(gòu)如圖1 所示。
圖1 自適應(yīng)感受野模塊Fig.1 Adaptive receptive field module
為獲得不同大小的網(wǎng)絡(luò)感受野,本文設(shè)計(jì)3 條卷積支路,每條支路采用不同空洞率的空洞卷積[30]。本文在3×3 卷積層中采用分組卷積[31],Groups 設(shè)置為16,減少模塊參數(shù)量,使自適應(yīng)感受野模塊輕量化,在模塊末端連接通道注意力機(jī)制[32],實(shí)現(xiàn)自適應(yīng)選擇合適大小的感受野特征[33],從而提升鞋型識(shí)別性能。圖2 為引入自適應(yīng)感受野模塊之后的網(wǎng)絡(luò)架構(gòu)。
圖2 本文網(wǎng)絡(luò)架構(gòu)Fig.2 Architecture of the proposed network
2.1.1 空洞卷積
空洞卷積是指在傳統(tǒng)卷積的基礎(chǔ)上增加零填充,通過(guò)設(shè)置不同的膨脹率,在不增加額外參數(shù)的情況下擴(kuò)大網(wǎng)絡(luò)感受野。感受野的計(jì)算如式(1)所示:
其中:rn為該層網(wǎng)絡(luò)感受野大??;rn-1為前層網(wǎng)絡(luò)感受野大小;kn為該層卷積核大??;si為i層步長(zhǎng)。
不同膨脹率的空洞卷積示意圖如圖3 所示,圖3(a)為傳統(tǒng)的標(biāo)準(zhǔn)卷積操作,感受野大小為3×3。圖3(b)表示空洞卷積的膨脹率大小為2,通過(guò)增加零填充,此時(shí)感受野大小為5×5。空洞卷積在不增加額外計(jì)算量的同時(shí)僅使用不同的膨脹率獲得不同大小的感受野,以捕獲更加全面的特征信息。
圖3 不同膨脹率的空洞卷積示意圖Fig.3 Schematic diagram of cavity convolution with different dilation rates
空洞卷積卷積核的計(jì)算如式(2)所示:
其中:Kn為空洞卷積卷積核大??;kn為真實(shí)卷積核大??;d為空洞卷積使用的膨脹率參數(shù)。
2.1.2 分組卷積
本文在3×3 卷積層中采用分組卷積減少參數(shù)量,使自適應(yīng)感受野模塊更加輕量化。分組卷積首先對(duì)輸入的特征圖進(jìn)行分組,在每組特征圖中再進(jìn)行卷積操作。假設(shè)某層輸入特征圖的通道數(shù)、寬、高、輸出通道數(shù)分別為C、W、H、K,采用傳統(tǒng)標(biāo)準(zhǔn)卷積方式的參數(shù)量P1如式(3)所示:
分組卷積將傳統(tǒng)標(biāo)準(zhǔn)卷積分為G組,其參數(shù)量P2為,如式(4)所示:
2.1.3 通道注意力機(jī)制
注意力機(jī)制使得網(wǎng)絡(luò)自適應(yīng)選擇對(duì)當(dāng)前任務(wù)更關(guān)鍵的特征信息。在本文提出的自適應(yīng)感受野模塊中,3 條支路分別代表不同大小的感受野特征。本文在模塊末端連接通道注意力機(jī)制,使每條支路具有不同重要性的權(quán)重,從而實(shí)現(xiàn)網(wǎng)絡(luò)自適應(yīng)選擇合適大小感受野特征的目的。通道注意力機(jī)制模型如圖4 所示。
圖4 通道注意力機(jī)制模型Fig.4 Channel attention mechanism module
首先對(duì)輸入特征進(jìn)行壓縮,即通過(guò)平均池化和最大池化整合各通道的信息,之后通過(guò)兩層全連接層建模通道間的相關(guān)性,獲取每條支路的重要性權(quán)重,通過(guò)Sigmoid 激活函數(shù)獲取0~1 之間的歸一化權(quán)重,將兩條支路的歸一化權(quán)重系數(shù)相加后加權(quán)到各通道特征中,實(shí)現(xiàn)網(wǎng)絡(luò)自適應(yīng)選擇合適大小的感受野特征。注意力權(quán)重系數(shù)Q如式(5)所示:
其中:X∈Rc×h×w為上層輸出特征;Q0∈、Q1∈Rc×1×1分別為經(jīng)過(guò)第1 層和第2 層FC 層的特征;δ為ReLU 激活函數(shù);σ為Sigmoid 激活函數(shù)。
批量標(biāo)準(zhǔn)化(Batch Normalization,BN)[34]是卷積神經(jīng)網(wǎng)絡(luò)中數(shù)據(jù)歸一化常用的方法,BN 對(duì)輸入每批次的數(shù)據(jù)進(jìn)行歸一化處理,使每層的輸出歸一化至均值為0 和方差為1 的分布,確保數(shù)據(jù)分布的一致性。實(shí)例標(biāo)準(zhǔn)化(Instance Normalization,IN)與BN相反,IN 僅作用于單張圖片,通過(guò)對(duì)單張圖片的所有像素求均值和標(biāo)準(zhǔn)差,可以降低場(chǎng)景遷移(如背景、光照等變化)時(shí)對(duì)識(shí)別效果產(chǎn)生的影響。本文使用多背景數(shù)據(jù)集,且光照、角度等條件均不同,利用IN減少外觀(guān)差異產(chǎn)生的影響,但是IN 在減小同類(lèi)個(gè)體差異的同時(shí)也會(huì)損失一些有效特征信息。BN 保留較多區(qū)分不同個(gè)體的特征信息,但是該特征信息受外觀(guān)影響較大。因此,結(jié)合IN 和BN 兩者的優(yōu)點(diǎn),本文采用文獻(xiàn)[35]提出的IBN-Net,一半通道使用IN,剩余通道使用BN。在卷積神經(jīng)網(wǎng)絡(luò)中,由外觀(guān)因素帶來(lái)的特征差異主要存在于低層中,高層受外觀(guān)差異產(chǎn)生的影響較小。本文在conv2_x 中每組卷積塊的第1 層卷積層之后使用IBN 結(jié)構(gòu),增強(qiáng)網(wǎng)絡(luò)識(shí)別能力。實(shí)例與批量標(biāo)準(zhǔn)化結(jié)構(gòu)如圖5 所示。
圖5 實(shí)例與批量標(biāo)準(zhǔn)化結(jié)構(gòu)Fig.5 Structure of instance and batch normalization
本文提出的多支路特征融合模型能夠充分利用淺層特征和深層特征,通過(guò)特征融合方式彌補(bǔ)神經(jīng)網(wǎng)絡(luò)無(wú)法充分利用有效特征進(jìn)行識(shí)別的不足。在卷積神經(jīng)網(wǎng)絡(luò)中,卷積層提取的特征各不相同,淺層特征一般是紋理、邊緣等細(xì)節(jié)特征信息,深層特征通常是高級(jí)語(yǔ)義特征。深層特征雖然具有語(yǔ)義表達(dá)能力,但是如果網(wǎng)絡(luò)單獨(dú)使用深層特征會(huì)損失圖像細(xì)節(jié)信息,從而影響鞋型識(shí)別性能。本文選擇ResNet50 網(wǎng)絡(luò)中的conv2_x、conv3_x、conv5_x 這3 個(gè)模塊的輸出特征,以充分利用有效特征,以conv5_x 輸出特征為主,conv2_x、conv3_x 輸出特征為輔進(jìn)行特征融合,舍棄conv4_x 模塊的原因是conv4_x 的語(yǔ)義特征沒(méi)有conv5_x 模塊明顯,其細(xì)節(jié)等特征信息沒(méi)有conv2_x 和conv3_x 模塊顯著。首先Branch 1 引出conv2_x 模塊的輸出,獲得與conv5_x 相同大小的輸出特征圖,經(jīng)過(guò)全局平均池化得到大小為4×4×256 的特征FBranch1;同理,Branch 2 將conv3_x 模塊的輸出引出,經(jīng)過(guò)全局平均池化得到大小為4×4×512 的特征FBranch2;Branch 3 直接將conv5_x 的輸出引出,得到大小為4×4×2 048 的特征FBranch3。將經(jīng)過(guò)統(tǒng)一尺寸的特征FBranch1、FBranch2、FBranch3融合之后得到大小為4×4×2 816 的特征F。本文在特征F之后加入降維模塊(Dimensionality Reduction Module,DRM),以降低維度和增加特征F的非線(xiàn)性特性,從而增強(qiáng)網(wǎng)絡(luò)表達(dá)能力。多支路特征融合模型如圖6 所示。
圖6 多支路特征融合模型Fig.6 Multi-branch feature fusion model
本文數(shù)據(jù)集中鞋類(lèi)較多,且相似度較高,在訓(xùn)練過(guò)程中存在類(lèi)間差距不明顯、類(lèi)內(nèi)差距較大等問(wèn)題。因此,在增大類(lèi)間差距的同時(shí)縮小類(lèi)內(nèi)差距,提高模型的識(shí)別精度,使樣本達(dá)到更好的聚類(lèi)效果。
傳統(tǒng)的Softmax 損失函數(shù)將整個(gè)空間按照類(lèi)別個(gè)數(shù)進(jìn)行劃分,在分類(lèi)任務(wù)中具有較優(yōu)的效果,但是Softmax 函數(shù)并沒(méi)有強(qiáng)調(diào)類(lèi)間分離和類(lèi)內(nèi)緊湊?;诖?,本文提出聯(lián)合Center Loss 訓(xùn)練的方法。Center Loss 作為一種輔助訓(xùn)練損失函數(shù),能夠有效縮小類(lèi)內(nèi)差距并保持類(lèi)間差異,Center Loss 函數(shù)如式(6)所示:
其中:m為批次大??;xi為全連接層之前的特征;為第yi個(gè)類(lèi)別的特征中心。本文在Softmax 損失函數(shù)中加入LS(Label Smoothing),通過(guò)在輸出中引入噪聲,降低網(wǎng)絡(luò)訓(xùn)練過(guò)擬合現(xiàn)象的發(fā)生及網(wǎng)絡(luò)對(duì)真實(shí)標(biāo)簽的依賴(lài)性,以提高模型的泛化能力。本文最終采用的損失函數(shù)L如式(7)所示:
其中:LLabel為加入Label Smoothing 的Softmax 損失函數(shù);Lc為Center Loss 函數(shù);λ為Center Loss 函數(shù)的權(quán)重,本文λ取值0.000 1。
本文實(shí)驗(yàn)操作系統(tǒng)為L(zhǎng)inux 3.10.0,是基于PyTorch 深度學(xué)習(xí)框架展開(kāi)的算法研究。CPU 為Intel?Xeon?CPU E5-2650 v4 2.20 GHz,顯卡設(shè)置為NVIDIA TITAN X(Pascal),顯存12 GHz,深度學(xué)習(xí)平臺(tái)為PyTorch1.2.0,編譯環(huán)境為Python3.5.6。輸入圖像尺寸為120×120 像素,采用隨機(jī)裁剪、水平翻轉(zhuǎn)方式進(jìn)行數(shù)據(jù)增強(qiáng)處理,采用Adam 作為優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.000 1。
為驗(yàn)證本文方法的有效性,本文在構(gòu)建的多背景數(shù)據(jù)集上進(jìn)行測(cè)試。數(shù)據(jù)集是由3 個(gè)不同視角的監(jiān)控?cái)z像頭在中國(guó)人民公安大學(xué)足跡實(shí)驗(yàn)室采集的圖像,300 類(lèi)鞋共35 300 張低分辨率鞋子圖像。鞋子圖像由人工手動(dòng)標(biāo)注完成,訓(xùn)練集包含150 雙鞋30 000 張鞋子圖像。測(cè)試集包含150 雙鞋300 張鞋子圖像。鞋樣數(shù)據(jù)庫(kù)包含5 000 張混淆樣本和300 張樣本鞋子圖像。多背景數(shù)據(jù)集的部分?jǐn)?shù)據(jù)樣式如圖7 所示。
圖7 多背景數(shù)據(jù)集的部分?jǐn)?shù)據(jù)Fig.7 Partial data of multi-background datasets
為評(píng)估模型性能,本文將均值平均精度(mean Average Precision,mAP)和Rank-1 作為評(píng)價(jià)指標(biāo)。Rank-1 反映識(shí)別排序結(jié)果第一位的匹配正確率;mAP 反映模型的整體性能,如下:
其中:TTP為預(yù)測(cè)正確的正樣本數(shù);FFP為預(yù)測(cè)錯(cuò)誤的正樣本數(shù);N為類(lèi)別總數(shù)。
3.4.1 自適應(yīng)感受野模塊對(duì)識(shí)別精度的影響
為驗(yàn)證自適應(yīng)感受野模塊(ARFM)對(duì)網(wǎng)絡(luò)識(shí)別精度的影響,在多背景鞋子數(shù)據(jù)集上,本文將對(duì)引入自適應(yīng)感受野模塊的ResNet50 網(wǎng)絡(luò)進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果如表1 所示。
表1 分組卷積和標(biāo)準(zhǔn)卷積對(duì)識(shí)別精度的影響Table 1 Influence of group convolution and standard convolution on recognition accuracy %
從表1 可以看出,自適應(yīng)感受野模塊能夠有效提高網(wǎng)絡(luò)識(shí)別性能,本文采用標(biāo)準(zhǔn)卷積的精度相比于分組卷積的精度略微下降,在ResNet50 網(wǎng)絡(luò)中加入ARFM 之后,相比ResNet50,ResNet50+ARFM(分組卷積)的Rank-1 和mAP 精度分別提高2.34 和0.88 個(gè)百分點(diǎn),能夠有效提高識(shí)別精度。ARFM 在不降低目標(biāo)分辨率的同時(shí),使網(wǎng)絡(luò)自適應(yīng)選擇合適大小的感受野特征進(jìn)行學(xué)習(xí),從而提高鞋型識(shí)別精度,實(shí)驗(yàn)結(jié)果充分驗(yàn)證自適應(yīng)感受野模塊的有效性。
分組卷積和標(biāo)準(zhǔn)卷積對(duì)網(wǎng)絡(luò)復(fù)雜性的影響如表2 所示。本文將ARFM 模塊中的分組卷積替換成標(biāo)準(zhǔn)卷積。從表2 可以看出,相比ResNet50,當(dāng)使用標(biāo)準(zhǔn)卷積時(shí),自適應(yīng)感受野模塊參數(shù)量增大8.66×106,且網(wǎng)絡(luò)浮點(diǎn)運(yùn)算量增加了0.61×109;當(dāng)使用分組卷積時(shí),自適應(yīng)感受野模塊參數(shù)量?jī)H增大了2.14×106,浮點(diǎn)運(yùn)算量增大0.2×109。實(shí)驗(yàn)結(jié)果表明,在自適應(yīng)感受野模塊中采用分組卷積能夠大幅降低參數(shù)量和運(yùn)算量,從而提升網(wǎng)絡(luò)訓(xùn)練效率。
表2 分組卷積和標(biāo)準(zhǔn)卷積對(duì)網(wǎng)絡(luò)復(fù)雜性的影響Table 2 Influence of group convolution and standard convolution on network complexity
3.4.2 實(shí)例與批量標(biāo)準(zhǔn)化對(duì)識(shí)別精度的影響
在多背景鞋子數(shù)據(jù)集上,本文對(duì)加入實(shí)例與批量標(biāo)準(zhǔn)化IBN 的ResNet50 網(wǎng)絡(luò)進(jìn)行測(cè)試,自適應(yīng)感受野模塊與IBN 整體對(duì)網(wǎng)絡(luò)識(shí)別精度的影響如表3所示。
表3 IBN 和自適應(yīng)感受野模塊對(duì)識(shí)別精度的影響Table 3 Influence of instance and batch normalization and adaptive receptive field module on recognition accuracy %
從表3 可以看出,相比ResNet50 網(wǎng)絡(luò),在ResNet50 網(wǎng)絡(luò)中加入IBN 的Rank-1 和mAP 精度分別提高了0.39 和1.36 個(gè)百分點(diǎn),在ResNet50 網(wǎng)絡(luò)中同時(shí)使用IBN 和ARFM,Rank-1 和mAP 精度分別提高2.73 和1.71 個(gè)百分點(diǎn)。因此,IBN 能夠有效縮小目標(biāo)差異,在ResNet50 網(wǎng)絡(luò)conv2_x 中,每組卷積塊的第一層卷積層之后使用IBN 結(jié)構(gòu),能夠提高網(wǎng)絡(luò)的識(shí)別能力,并驗(yàn)證IBN 結(jié)構(gòu)的有效性。
3.4.3 多支路特征融合模型對(duì)識(shí)別精度的影響
本文算法是在IBN 和ARFM 的ResNet50 網(wǎng)絡(luò)基線(xiàn)上引入Branch 1+Branch 2+Branch 3 融合特征進(jìn)行識(shí)別。為驗(yàn)證多支路特征融合模型的有效性,本文按照相同的融合方式測(cè)試Branch 1+Branch 3、Branch 2+Branch 3、Branch 4+Branch 3、Branch 2+Branch 4+Branch 3、Branch 1+Branch 4+Branch 3、Branch 1+Branch 2+Branch 3這6種方法的識(shí)別精度,其中Branch 4是conv4_x 引出的分支。多支路特征融合模型的精度對(duì)比如表4所示。多支路特征融合模型的Rank-1、Rank-5、Rank-10 對(duì)比如圖8 所示。
表4 多支路特征融合模型的精度對(duì)比Table 4 Accuracy comparison among multi-branch feature fusion models %
圖8 多支路特征融合模型的Rank-1、Rank-5、Rank-10 對(duì)比Fig.8 Rank-1,Rank-5,Rank-10 comparison among multi-branch feature fusion models
從表4 和圖8 可以看出,多支路特征融合模型對(duì)網(wǎng)絡(luò)識(shí)別性能的提升具有顯著效果,在加入IBN 和ARFM 的ResNet50 基線(xiàn)上,將Branch 1、Branch 2 和Branch 3 特征融合之后Rank-1 精度相比基線(xiàn)提高了1.94 個(gè)百分點(diǎn),mAP 精度提高1.35 個(gè)百分點(diǎn),識(shí)別精度具有顯著提升。在卷積神經(jīng)網(wǎng)絡(luò)中,單獨(dú)使用深層高級(jí)語(yǔ)義特征會(huì)丟失圖像細(xì)節(jié)信息,從而影響鞋型識(shí)別性能,將神經(jīng)網(wǎng)絡(luò)中淺層紋理、邊緣等細(xì)節(jié)特征與深層高級(jí)語(yǔ)義特征相融合,使得網(wǎng)絡(luò)利用魯棒性較優(yōu)的鞋型特征進(jìn)行鞋型識(shí)別,從而提升識(shí)別精度,進(jìn)一步驗(yàn)證本文特征融合模型的有效性。
3.4.4 損失函數(shù)對(duì)識(shí)別精度的影響
在多背景鞋子數(shù)據(jù)集上,本文驗(yàn)證Center Loss函數(shù)和LS(Label Smoothing)函數(shù)對(duì)識(shí)別精度的影響,實(shí)驗(yàn)結(jié)果如表5 所示。本文算法加入Center Loss函數(shù)和LS 函數(shù)的Rank-1 和mAP 分別為78.21%和60.98%。在Softmax 損失函數(shù)的基礎(chǔ)上,本文聯(lián)合Center Loss 函數(shù)訓(xùn)練網(wǎng)絡(luò)在增大類(lèi)間距離的同時(shí)縮小類(lèi)內(nèi)差距,使樣本實(shí)現(xiàn)更優(yōu)的聚類(lèi)效果;在Softmax 損失函數(shù)中加入LS 函數(shù)能夠有效增強(qiáng)模型泛化性能,避免出現(xiàn)訓(xùn)練過(guò)擬合現(xiàn)象,提高鞋型識(shí)別精度。
表5 損失函數(shù)對(duì)識(shí)別精度的影響Table 5 Influence of loss function on recognition accuracy %
Re-ranking 是圖像檢索領(lǐng)域常用的測(cè)試技巧,通過(guò)對(duì)檢索結(jié)果重新排序,提升模型識(shí)別性能。本文在測(cè)試最終模型性能時(shí)加入Re-ranking,實(shí)驗(yàn)結(jié)果如表6 所示。
表6 Re-ranking 測(cè)試實(shí)驗(yàn)結(jié)果Table 6 Experimental results of Re-ranking test %
從表6 可以看出,本文算法具有較優(yōu)的識(shí)別性能,引入Re-ranking 的Rank-1 和mAP 精度分別達(dá)到79.77%和62.18%,相比ResNet50 基礎(chǔ)網(wǎng)絡(luò),其Rank-1和mAP 精度分別提高7.79 和7.13 個(gè)百分點(diǎn)。
3.4.5 結(jié)果可視化
為更加直接展現(xiàn)ARFM、特征融合的有效性,本文在ResNet50、ARFM、特征融合模型上進(jìn)行部分?jǐn)?shù)據(jù)測(cè)試,并對(duì)Rank-5 結(jié)果進(jìn)行可視化,左側(cè)圖像是待查詢(xún)圖像,右側(cè)5 張圖像是從庫(kù)中返回的查詢(xún)結(jié)果。其中帶有√標(biāo)志的代表正確的查詢(xún)結(jié)果。不同算法的識(shí)別結(jié)果如圖9 所示。從圖9 可以看出,原始ResNet50 網(wǎng)絡(luò)識(shí)別效果較差,錯(cuò)誤結(jié)果較多,但是在ResNet50 網(wǎng)絡(luò)基礎(chǔ)上融合ARFM 和多層特征后,其識(shí)別效果顯著提升,同時(shí)驗(yàn)證了本文提出的自適應(yīng)感受野模塊和多層特征融合模型的有效性。
圖9 不同算法的識(shí)別結(jié)果Fig.9 Recognition results comparison among different algorithms
本文提出基于自適應(yīng)感受野與多支路特征融合的鞋型識(shí)別算法。設(shè)計(jì)一種輕量級(jí)自適應(yīng)感受野模塊,實(shí)現(xiàn)自適應(yīng)選擇合適大小感受野特征,提升識(shí)別精度,同時(shí)融合神經(jīng)網(wǎng)絡(luò)淺層特征和深層特征,在Softmax 損失函數(shù)中加入Label Smoothing 并聯(lián)合Center Loss 函數(shù)對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明,本文算法具有較高的識(shí)別精度和較強(qiáng)的實(shí)用性。在公安實(shí)戰(zhàn)中,受監(jiān)控?cái)z像頭分辨率、天氣等因素的影響,鞋子影像存在極度模糊和色彩、亮度發(fā)生變化的情況。因此,下一步將對(duì)數(shù)據(jù)集進(jìn)行研究,探究超分辨率重建、數(shù)據(jù)增強(qiáng)等方法對(duì)鞋型識(shí)別效果的影響,使算法適用于公安實(shí)戰(zhàn)工作。