融合特征篩選策略的雙塔網(wǎng)絡(luò)鞋印檢索算法

2023-08-23 07:17:50韓雨彤郭威唐云祁

科學(xué)技術(shù)與工程 2023年22期

韓雨彤, 郭威, 唐云祁

(中國人民公安大學(xué)偵查學(xué)院, 北京 100032)

鞋底花紋特征是犯罪偵查過程中極具價值的證據(jù)之一,但鞋印痕跡檢索在實踐應(yīng)用中發(fā)揮的作用大小受到圖像特質(zhì)、設(shè)備引擎、算法技術(shù)以及專業(yè)職業(yè)素養(yǎng)等因素的影響,尚未滿足公安實戰(zhàn)的需求。根據(jù)Alexandre[1]的報道顯示,在犯罪現(xiàn)場中,大概有30%的現(xiàn)場鞋印可以被提取,但這些被提取的鞋印不一定都能成為偵查破案的線索。在現(xiàn)場勘驗中,通過攝影或者靜電吸附的方式將灰塵鞋印從地面提取,然后通過掃描來實現(xiàn)數(shù)字化。給定一個犯罪現(xiàn)場提取的嫌疑鞋印,檢驗人員在數(shù)據(jù)庫中搜索出與之較為相似的清晰的樣本鞋印。在公安工作中,這一檢索過程需要調(diào)查人員在一個大型的圖像數(shù)據(jù)庫中手動搜索,會造成巨大的人工成本和時間成本浪費。因此,將基于計算機視覺的圖像自動檢索技術(shù)引入鞋印檢索領(lǐng)域,并在公安實踐工作中發(fā)揮作用是非常重要的一項工作。

傳統(tǒng)的鞋印檢索工作從基于人工文本的特征提取到使用尺度不變特征變換、Gabor等傳統(tǒng)特征,再到如今以卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)作為基礎(chǔ),提取鞋印圖像的深度特征進行檢索識別?；谏疃葘W(xué)習(xí)的方法相比較傳統(tǒng)算法更加自動化也有更好的識別結(jié)果。但是目前已知的研究工作中有以下兩個問題:一是鞋印質(zhì)量參差不齊,存在很多低質(zhì)量的現(xiàn)場鞋印圖像,使得鞋印檢索的準確率大打折扣;二是由于卷積神經(jīng)網(wǎng)絡(luò)對鞋印特征的關(guān)注不夠精細,提取的鞋印特征較少,不能夠有效代表整個鞋印的特征。

針對以上問題,現(xiàn)對convNeXt網(wǎng)絡(luò)進行改進,并將鞋印圖片分區(qū)提取特征,使用兩個convNeXt網(wǎng)絡(luò)分別對各個區(qū)域進行學(xué)習(xí)訓(xùn)練,再將篩選后的分區(qū)特征融合,得到最終的鞋印圖像特征。

1 鞋印檢索技術(shù)概述

在多年的鞋印自動化檢索研究過程中,鞋印檢索算法提取不同鞋印圖像特征,如形狀特征,紋理特征、尺度不變特征變換(scale-invariant feature transform,SIFT)特征等經(jīng)典圖像特征,將其作為特征描述符進行鞋印圖像檢索,并都取得了較好的識別效果。

近年來,隨著卷積神經(jīng)網(wǎng)絡(luò)在各個領(lǐng)域的廣泛應(yīng)用,鞋印檢索算法的研究方向也逐漸發(fā)生轉(zhuǎn)變,很多研究人員以卷積神經(jīng)網(wǎng)絡(luò)為基礎(chǔ)模型,訓(xùn)練大量鞋印圖像數(shù)據(jù),以期讓計算機自動提取鞋印圖像特征,并根據(jù)提取到的特征描述符計算特征距離進行排序。史文韜等[2]將預(yù)訓(xùn)練的VGG-16網(wǎng)絡(luò)在鞋印數(shù)據(jù)集上進行了微調(diào)并直接展開卷積層特征進行檢索實驗,該實驗證明微調(diào)的VGG-16網(wǎng)絡(luò)對殘缺的鞋印圖像檢索效果并不理想。之后,史文韜等[3]又提出了基于選擇卷積描述子的鞋印檢索算法,并將完整鞋印和殘缺鞋印分開檢索,提取不同的卷積特征進行檢索,其在CSS-200數(shù)據(jù)集上top1%的識別率達到了92.5%。趙夢影[4]對原始鞋印圖像進行分割,構(gòu)建了基于VGG19的Siamese網(wǎng)絡(luò)融合并且用三元組損失訓(xùn)練模型,對提取的特征進行特征融合以及相似性度量。Kong等[5]將ResNet50網(wǎng)絡(luò)提取到圖像的深度特征采用多通道歸一化互相關(guān)的方法進行鞋印圖像的匹配。該算法在公開數(shù)據(jù)集[6]上取得了較好的檢索效果。但是該方法由于通過滑動窗和一定角度之間的旋轉(zhuǎn)獲得了多個局部區(qū)域,在檢索過程中耗費了大量時間,并不適用于實際應(yīng)用中。Cui等[7]采用深度信念網(wǎng)絡(luò)(deep belief networks,DBN)提取局部特征,并通過空間金字塔匹配得到從局部到全局的匹配分數(shù)。在該實驗中,前10名的累計匹配得分為65.67%。Cui等[8]對鞋印圖像進行預(yù)處理,旋轉(zhuǎn)補償之后劃分圖像為頂部和底部兩區(qū)域,計算兩個區(qū)域神經(jīng)編碼的余弦相似度的加權(quán)和,得到兩張比對圖像的匹配分數(shù)。經(jīng)過實驗,top10%的累計匹配分數(shù)為88.7%。該法經(jīng)過主成分分析(principal component analysis,PCA)降維后發(fā)現(xiàn),當降低至原圖像特征的95%時檢索精度最高。Ma等[9]使用分區(qū)策略融合多部分加權(quán)卷積神經(jīng)網(wǎng)絡(luò)(multi-part weighted convolutional neural network,MP-CNN)提取鞋印特征,在公開數(shù)據(jù)集上進行實驗,top10%的識別率達到了89.83%。周思越[10]提出了一種局部語義濾波器組的鞋印檢索算法,該算法在MUES-SR10KS2S、FID-300和CS-Database數(shù)據(jù)集上的檢索實驗都取得了優(yōu)秀的檢索結(jié)果。但由于數(shù)據(jù)依賴大量人工預(yù)處理,因此檢索結(jié)果并不穩(wěn)定。彭飛[11]結(jié)合局部語義塊和流行排序,在低質(zhì)量鞋印圖像數(shù)據(jù)集上的top1%的識別率達到了90.3%。焦揚等[12]利用鞋印圖片的SIFT特征,使用K均值進行聚類構(gòu)造視覺詞典,提出基于支持向量機(support vector machine,SVM)反饋的二次檢索,對初次檢索結(jié)果中前2%的圖片再次分類,再利用二次分類得到的超平面計算圖片與超平面之間的距離,以距離為依據(jù)進行二次檢索。焦揚等[13]提取鞋印圖像的SIFT圖像并用K-means聚類方法對提取到的特征矩陣進行分類,建立圖像特征包,在依據(jù)余弦距離進行緊縮排序。實驗證明,該算法可以有效提高殘缺鞋印的檢索精度。吳艷軍[14]針對低質(zhì)量鞋印圖像提出一種融合多粒度的圖像表征信息,優(yōu)化了鞋印花紋特征提取方法,是當下鞋印檢索的最佳結(jié)果。辛一冉等[15]將全局特征和分塊的局部特征進行融合,選取EfficientNet網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),降低了計算成本,在CSS-200數(shù)據(jù)集上的檢索實驗也取得了當下最好的檢索結(jié)果。韓雨彤等[16]將混合域注意力機制融入ResNet34網(wǎng)絡(luò)中,證明了混合域注意力可以有效提升鞋印檢索的準確率,但是由于ResNet34網(wǎng)絡(luò)學(xué)習(xí)能力有限的,對于殘缺鞋印的檢索效果并不理想。

由上述研究可以看出,卷積神經(jīng)網(wǎng)絡(luò)在鞋印檢索領(lǐng)域的應(yīng)用范圍不斷擴展,并且都在改進后取得了較好的檢索效果。但是僅僅依靠卷積神經(jīng)網(wǎng)絡(luò)并不能有效解決殘缺鞋印檢索精度低的問題,而現(xiàn)有研究已經(jīng)開始從鞋印的全局特征轉(zhuǎn)向局部特征,局部語義等方法因為需要人工處理導(dǎo)致實驗結(jié)果并不穩(wěn)定。因此,現(xiàn)提出一種融合分區(qū)策略和特征篩選的雙塔網(wǎng)絡(luò)模型,希望能提取到更多鞋印圖像的有效信息,并進一步提高卷積神經(jīng)網(wǎng)絡(luò)對鞋印圖像特征的提取能力。

2 融合特征篩選策略的雙塔網(wǎng)絡(luò)鞋印檢索算法

卷積神經(jīng)網(wǎng)絡(luò)經(jīng)過多年發(fā)展,近些年,計算機視覺應(yīng)用研究逐漸被Transformer網(wǎng)絡(luò)[17]取代。Transformer網(wǎng)絡(luò)引入自注意力模塊,這是一種避免循環(huán)的模型結(jié)構(gòu),完全依賴注意力機制對輸入輸出的全局依賴關(guān)系進行建模。Transformer網(wǎng)絡(luò)突破了循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)模型不能并行計算的限制,相比較CNN來說,計算兩個位置之間的關(guān)聯(lián)所需的操作次數(shù)不隨距離增長,而網(wǎng)絡(luò)結(jié)構(gòu)中的自注意力模塊使得模型更具有可解釋性。Liu等[18]提出了純粹的“卷積神經(jīng)網(wǎng)絡(luò)”,實現(xiàn)了標準的ResNet網(wǎng)絡(luò)向 “Vision Transformer”(VIT)[19]網(wǎng)絡(luò)的轉(zhuǎn)變。Liu等[17]經(jīng)過實驗對比發(fā)現(xiàn),在相同的FLOPs下,convNeXt_xlarge網(wǎng)絡(luò)在ImageNet22K數(shù)據(jù)集上達到了目前為止最好的準確率87.8%,且網(wǎng)絡(luò)中具有更快的推理速度以及更高的準確率。但是由于本文使用的訓(xùn)練數(shù)據(jù)集較小,因此選取convNeXt_tiny網(wǎng)絡(luò)作為本文算法的骨干網(wǎng)絡(luò)。

本文研究中的鞋印檢索算法結(jié)構(gòu)如圖1所示。通過鞋印分區(qū)策略將一張鞋印分成足掌區(qū)和足跟區(qū)分別輸入兩條卷積網(wǎng)絡(luò)提取圖像特征,在兩條支路網(wǎng)絡(luò)中分別采取兩種特征篩選方法進行特征融合,將提取到的網(wǎng)絡(luò)特征拼接融合后展開作為特征描述符,依據(jù)特征描述符計算樣本鞋印與嫌疑鞋印之間的相似度,依據(jù)距離大小對樣本鞋印進行排序輸出。

圖1 鞋印圖像檢索算法結(jié)構(gòu)Fig.1 Shoe printing image retrieval algorithm structure

2.1 分區(qū)策略

因為鞋印在足掌區(qū)和足跟區(qū)的花紋樣式并不相同,所以將鞋印進行分區(qū)成為一種有效的方法,這種方法更加關(guān)注鞋印圖像的局部特征。Tang等[20]將鞋印圖像進行分區(qū),在區(qū)分足掌和足跟的基礎(chǔ)上,每個部分分別劃分成9個更小的區(qū)域提取特征,檢索時,分別對每個小區(qū)域的特征計算相似度,在依據(jù)部分相似度來確定整體的相似度。劉家浩[21]在足掌和足跟區(qū)劃分6個區(qū)域,評價每個分區(qū)的有效性,只提取有效區(qū)的圖像特征計算相似度。文獻[7]將鞋印圖片分為Top塊與Bottom塊,Top塊與Bottom塊的比例為3∶2,在各區(qū)域提取特征,將特征按照權(quán)重加權(quán)求和得到圖像整體的相似度。專家經(jīng)驗認為為了獲得更多的花紋信息,Top塊的特征權(quán)重應(yīng)大于Bottom塊的權(quán)重。但是當應(yīng)用該方法時,某一區(qū)塊的鞋印花紋大面積缺失,兩張圖片相同區(qū)域之間的相似度會呈斷崖式下降,影響鞋印圖像識別的結(jié)果。分區(qū)求相似度時,兩張圖片Top塊相似度很高,但是由于足跟區(qū)鞋印缺失,Bottom塊相似度基本為0。所以文獻[8]中給兩區(qū)塊簡單賦以固定權(quán)重再融合的方法實際效果不好。文獻[22]中通過計算兩區(qū)塊的有效信息量和置信度,再通過設(shè)置閾值、預(yù)設(shè)相似度等一系列方法解決這一問題,效果理想但是方法復(fù)雜?；谝陨显?為了簡化方法,本文研究并未將鞋印進行裁剪,而是將其通過掩碼圖變?yōu)榱粲邪霃埿〉臍埲眻D像(圖2),以此提高模型對鞋印圖像的特征提取能力,進一步提升殘缺鞋印的檢索結(jié)果。不計算部分相似度,直接融合兩個網(wǎng)絡(luò)提取到的鞋印特征作為到特征描述符,即最終用于檢索的特征向量,含有每個區(qū)域的特征信息,因此在計算相似度時這樣當有鞋印缺失時,相似度不會出現(xiàn)突然下降的情況。

圖2 分區(qū)鞋印 Fig.2 Partition shoe print

2.2 convNeXt骨干網(wǎng)絡(luò)

參考文獻[18]中敘述的convNeXt網(wǎng)絡(luò)相比于其他的卷積神經(jīng)網(wǎng)絡(luò),主要改進的方面如下。

2.2.1 結(jié)構(gòu)設(shè)計

以ResNet50網(wǎng)絡(luò)為例,ResNet50結(jié)構(gòu)分為5個部分(stage),除第一層外,后4個stage都有殘差模塊堆疊而來,4個stage的殘差模塊的堆疊比例是3∶4∶6∶3,文章將Swin transformer網(wǎng)絡(luò)[23]block模塊中的比例引入ResNet50網(wǎng)絡(luò),變?yōu)?∶1∶3∶1,即將ResNet50中每個部分殘差模塊的數(shù)量從(3,4,6,3)調(diào)整為(3,3,9,3)。

在ResNet50網(wǎng)絡(luò)中,鞋印圖像在進入殘差模塊前會經(jīng)過一個卷積核為7×7,步長為2的卷積層,再接入一個最大池化下采樣層,而convNeXt網(wǎng)絡(luò)選擇引入“patchify”層,使用一個卷積核大小為4×4,步長為4的卷積層將圖像進行分塊,然后在通道方向展平。

2.2.2 深度可分離卷積

借鑒ResNeXt網(wǎng)絡(luò)[24]的思想,將卷積核分成不同的組,使用深度可分離卷積結(jié)構(gòu),與傳統(tǒng)卷積不同,在深度可分離卷積中由深度卷積和逐點卷積兩部分組成。深度卷積模塊中,如圖3(a)所示,每個卷積核的深度都為1,每個通道都通過深度為1的卷積核進行卷積。因此,經(jīng)過深度卷積后,特征矩陣的深度并不會發(fā)生變化。深度卷積相較于傳統(tǒng)卷積核大大減少了運算量和參數(shù)數(shù)量,使得網(wǎng)絡(luò)變得更為簡單。逐點卷積模塊將不同組經(jīng)過深度卷積后的特征圖用1×1的卷積并拼接起來得到輸出的卷積特征圖,如圖3(b)所示。在深度卷積的過程中,將3×3的卷積核變?yōu)楹蚐win transformer中相同的7×7的卷積核。

圖3 深度可分離卷積 Fig.3 Depthwise separatable convolution

2.2.3 Layer Normalization(LN)

Batch Normalization(BN)在卷積神經(jīng)網(wǎng)絡(luò)中是常用的操作,它可以加速網(wǎng)絡(luò)的收斂并減少過擬合,但是BN層在訓(xùn)練過程中的效果需受到batch大小的限制,且計算復(fù)雜,因此本文研究選用LN層。LN是針對時序網(wǎng)絡(luò)提出的。由于在時序網(wǎng)絡(luò)中,文本的長短并非定值,所以針對時序網(wǎng)絡(luò)提出的LN層并不受樣本的限制。當LN應(yīng)用于圖像處理時,也不受batch大小的限制。LN層公式為

(1)

(2)

LN層只對單個樣本進行計算,而且在計算過程中,不保存最小batch的均值和方差,節(jié)省了存儲空間。

2.3 嵌入混合域注意力機制的convNeXt網(wǎng)絡(luò)結(jié)構(gòu)

K為卷積核尺寸大小;s為卷積步長;p為圖像邊緣增加的邊界像素層數(shù);LN為層歸一化;GELU為激活函數(shù)圖4 加入注意機制的Block結(jié)構(gòu) Fig.4 Block structure

由于更改后的網(wǎng)絡(luò)模型層數(shù)更多,而本文的數(shù)據(jù)集較小,因此選擇以convNeXt_tiny網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),獨立的convNeXt網(wǎng)絡(luò)模型如圖5所示。

圖5 convNeXt網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 ConvNeXt network structure diagram

2.4 特征篩選策略

選擇性卷積特征卷積描述子[26](selective convolutional descriptor aggregation,SCDA)是2017年提出的專門針對細粒度圖像的檢索方法。在細粒度圖像檢索方法中,SCDA提取了VGG-16網(wǎng)絡(luò)中relu5-2和最后一層卷積層特征,將兩者的特征級聯(lián)拼接成用于相似度計算的特征向量。但是SCDA方法對兩個卷積層的特征進行計算,且中間層relu5-2的卷積特征是最后一層卷積特征大小的4倍,帶來了計算內(nèi)存的提高。史文韜等[3]將SCDA方法應(yīng)用于鞋印檢索領(lǐng)域,提取VGG-16網(wǎng)絡(luò)最后一層卷特征進行篩選,將鞋印分為完整鞋印和殘缺鞋印使用不同方法進行特征檢索。Wang等[27]改進了特征篩選方法,依據(jù)最大響應(yīng)頻次進行特征篩選,節(jié)省了計算機的運算內(nèi)存。本文研究選取convNeXt網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò),提取最后一層卷積特征進行篩選。每一層的卷積特征都是由前一層的卷積計算得來的,而每一個卷積層在特征圖上滑動窗口時計算得到下一層的特征圖,相當于組合了多個濾波器。經(jīng)過大規(guī)模數(shù)據(jù)的學(xué)習(xí)訓(xùn)練,調(diào)整濾波器的參數(shù),可以得到鞋印圖像的特征圖。因此,輸出的二維特征圖中(i,j)處是該張?zhí)卣鲌D的最大響應(yīng)值,說明此處為濾波器對原始鞋印圖像中最感興趣的區(qū)域,可能包含重要的特征信息。每一層卷積特征沿深度方向會有多個二維特征圖,當該區(qū)域多次出現(xiàn)最大響應(yīng)值,那么說明該位置的特征在鞋印圖像中較為重要。假設(shè)該圖像不存在特征信息時,通過濾波器后特征響應(yīng)會均勻分布在二維特征圖上,因此出現(xiàn)最大響應(yīng)次數(shù)多的位置即重點位置,而有些位置從未出現(xiàn)最大響應(yīng),該位置則被通過設(shè)定的閾值篩選掉。

最大響應(yīng)頻次的篩選規(guī)則為:提取convNeXt網(wǎng)絡(luò)最后一層卷積特征,沿深度方向?qū)⑵浞譃槿舾蓚€二維特征圖,標記每一個出現(xiàn)最大響應(yīng)的位置,在深度方向?qū)⑺械奶卣鲌D累加得到二維頻次特征圖,該特征圖上記錄了每個位置出現(xiàn)最大響應(yīng)值的次數(shù)。再選取合適的閾值,將大于該閾值(Threshold)的特征保留下來,得到經(jīng)過篩選的特征圖。

前文假設(shè)了經(jīng)過卷積計算的特征在沒有被區(qū)別對待時,最大響應(yīng)值的次數(shù)會均勻分布在特征頻次圖中,每個位置出現(xiàn)最大響應(yīng)次數(shù)為

Threshold=D/WH

(3)

式(3)中:W為特征圖的長度;H為特征圖的寬度;D為特征矩陣的深度。

以convNeXt網(wǎng)絡(luò)為例,最后一層特征深度D為768,以400×150的原始鞋印圖像輸入特征網(wǎng)絡(luò),得到12×4的卷積特征圖,將Threshold作為篩選局部特征的閾值。但是該閾值只是一個參考標準,具體的Threshold需要通過后續(xù)的實驗確定適當?shù)臄?shù)值以達到最佳的檢索精度。

將二維頻次圖通過閾值進行篩選得到二維掩碼圖Maski,j為

近年來，我國公路橋梁施工技術(shù)發(fā)展迅速，如在高等級公路建設(shè)中，在線型設(shè)計布局方面的要求也在逐年提升，特別是對高墩橋梁建設(shè)中的加固技術(shù)更有了新的要求標準，在一定程度上增加了施工難度。我國高速公路橋梁的基本特點包括：（1）跨度大，對承載力要求高。公路橋梁工程是跨越水域、山谷等地勢的構(gòu)造物，因此，其跨度通常較大，相應(yīng)地對其結(jié)構(gòu)的承載力要求也高。（2）耐久性強。橋梁工程的設(shè)計年限一般為100～120年，并且在運營過程中，會受到環(huán)境、有害化學(xué)物質(zhì)的侵蝕以及車輛荷載、風(fēng)荷載、超載及人為等因素的影響，因此，為了保證橋梁的正常通行，要求橋梁工程的耐久性較強。

(4)

式(4)中:(i,j)為二維坐標;Frei,j為每個位置出現(xiàn)最大響應(yīng)的次數(shù);Threshold為當前閾值。

圖6是特征篩選的流程圖。從圖6中可以看出,經(jīng)過特征選擇后,第24維特征圖最大響應(yīng)位置位于殘缺鞋印的中間部位,第138維特征圖的最大響應(yīng)出現(xiàn)在殘缺鞋印的底部,第566維特征圖的最大響應(yīng)位置出現(xiàn)在殘缺鞋印的頂部,說明最大響應(yīng)出現(xiàn)的位置都是含有圖像特征的位置,保留下的二維頻次圖覆蓋整個鞋印所在的區(qū)域,增強了特征區(qū)分度。

圖6 最大響應(yīng)頻次特征選擇流程圖Fig.6 Flow chart of feature selection for maximum response frequency

3 實驗結(jié)果及分析

3.1 數(shù)據(jù)集

3.1.1 訓(xùn)練集

所用訓(xùn)練集為文獻[16]中重新處理的CSS-200數(shù)據(jù)集,加入了201類人為模仿的殘缺鞋印。訓(xùn)練集中共有634類,131 105張鞋印圖片。

3.1.2 測試集

選取CSS-200數(shù)據(jù)集[2]和公開數(shù)據(jù)集FID-300作為測試集。CSS-200數(shù)據(jù)集是公安機關(guān)標準采集的樣本數(shù)據(jù),與訓(xùn)練集中的部分數(shù)據(jù)屬于同源數(shù)據(jù)但鞋印花紋種類并不重復(fù)。該數(shù)據(jù)集共有200張嫌疑鞋印以及5 000張樣本鞋印比對數(shù)據(jù)。FID-300數(shù)據(jù)集是公開數(shù)據(jù)集,包含從現(xiàn)場采集的300張嫌疑鞋印和1 175張樣本鞋印比對庫。

3.2 實驗配置

訓(xùn)練及檢索實驗都是在NVDIA Digits深度學(xué)習(xí)平臺上完成,操作系統(tǒng)為Windows10(64位),CPU為英特爾Core i7-10700,內(nèi)存64 GB,GPU為 GTX2080Ti,顯存11 GB。實驗所用的深度學(xué)習(xí)框架為Pytorch1.9。

在訓(xùn)練神經(jīng)網(wǎng)絡(luò)的過程中,選擇AadmW優(yōu)化器以及Warm up訓(xùn)練策略。AdamW優(yōu)化器在Adam優(yōu)化器的基礎(chǔ)上將參數(shù)在更新時引入?yún)?shù)自身,解決了Adam函數(shù)中易出現(xiàn)的參數(shù)過擬合的問題。Warm up訓(xùn)練策略是指在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)率在開始訓(xùn)練時十分不穩(wěn)定,設(shè)置很低的初始學(xué)習(xí)率,促進網(wǎng)絡(luò)更好的收斂。Warm up策略使得學(xué)習(xí)率逐漸增大直至較高的學(xué)習(xí)率,當以較高的學(xué)習(xí)率完成訓(xùn)練后,再降至初始學(xué)習(xí)率進行訓(xùn)練,實現(xiàn)神經(jīng)網(wǎng)絡(luò)的快速收斂。

3.3 評價指標

本文算法主要應(yīng)用于案件偵破過程中對現(xiàn)場鞋印的線索提取,檢索返回的正確結(jié)果排名靠前可以為辦案人員節(jié)省更多的時間和人工成本。因此采用累計匹配曲線(cumulative match characteristic,CMC)作為算法的評價指標。CMC曲線的橫軸表示返回的所有候選圖片的前k位,下文用topk表示,縱軸代表鞋印檢索實驗的準確率。針對公安偵查的需要,偵查人員需要在返回的結(jié)果圖像中更靠前的位置找到相同種類的鞋印花紋,因此將top1和top1%作為主要的評價指標。

3.4 實驗結(jié)果分析

為了證明本特征提取網(wǎng)絡(luò)的有效性,對不同網(wǎng)絡(luò)模型的實驗結(jié)果和不同網(wǎng)絡(luò)數(shù)量下的鞋印檢索實驗結(jié)果進行了比對。

3.4.1 消融實驗

為了確定合適的Threshold,在不同的數(shù)據(jù)集上進行了消融實驗。由表1可知,Threshold數(shù)值從0開始遞增,可以看出在不同的數(shù)據(jù)集上檢索精度隨著閾值的變化趨勢一致,在達到最佳閾值前,檢索精度隨著Threshold的增大而提高,當Threshold不斷變大時,特征圖中將保留下較少的鞋印特征信息,破壞鞋印的主體特征,鞋印圖像的檢索精度開始下降。為了更直觀地看出實驗結(jié)果的變化趨勢,給出了不同數(shù)據(jù)集在不同閾值情況下實驗結(jié)果的折線圖。由圖7可以看出,在Threshold=3時,檢索精度最高。

表1 不同Threshold在CSS-200數(shù)據(jù)集上的實驗結(jié)果比較Table 1 Comparison of experimental results of different thresholds on CSS-200 data sets

表2 不同網(wǎng)絡(luò)模型在CSS-200上的實驗結(jié)果Table 2 Different network models on the experimental results on CSS-200

圖7 CMC曲線Fig.7 CMC curve

3.4.2 不同網(wǎng)絡(luò)模型在CSS-200上的實驗結(jié)果

選取微調(diào)VGG-16網(wǎng)絡(luò)(conv-25088),選擇性特征篩選方法,Swin-transformer網(wǎng)絡(luò),以及融合全局特征與局部特征等方法進行比對。同時,將獨立convNeXt網(wǎng)絡(luò)在鞋印檢索實驗中的數(shù)據(jù)一同進行比對。實驗結(jié)果表明,雖然本文算法沒有達到目前最好的結(jié)果,位列第二,但是與最好結(jié)果相差較小,相比較其他方法相比,仍然有很大提高,在top1%位置達到了94%的準確率。

3.4.3 基于公開鞋印數(shù)據(jù)集FID-300中不同方法的實驗結(jié)果比較

通過對公開數(shù)據(jù)集的比較,可以直觀地看出本文研究中特征提取網(wǎng)絡(luò)在鞋印圖像檢索領(lǐng)域的實驗效果。如表3所示,在FID-300數(shù)據(jù)集上,分區(qū)雙塔網(wǎng)絡(luò)提取的特征檢索實驗前1%的識別率為69.40%,top10%的識別率為90.75%。由于文獻[10-11,28]采用頻譜特征進行圖像特征的相似度衡量,所以不將這兩種算法的特征維度與其他方法進行比較。可以看出,本文提取的特征描述符維度過高,相比較其他特征維度較低的算法,特征描述符維度過高的算法對于殘缺鞋印的識別準確率都有所欠缺。因為在進行特征檢索時會將與圖像無關(guān)的信息如噪聲等一起與樣本圖像進行對比,無關(guān)信息會對鞋印圖像特征之間的相似度計算造成不利影響。然而,本文算法在top1%的準確率大幅提高,算法在公安工作中依舊有其優(yōu)勢。相關(guān)方法在全部FID-300數(shù)據(jù)集上的識別率最高為93.7%。雖然本文算法沒有超越當下的最好結(jié)果,但是通過CSS-200和FID-300兩個數(shù)據(jù)集的實驗結(jié)果可以看出,使用本文算法能夠明顯提高殘缺鞋印圖像的檢索精度。

表3 本文算法與先進方法在FID-300數(shù)據(jù)集上的結(jié)果比較Table 3 Compare the results of the algorithm and advanced method on the FID-300 data set

4 結(jié)論

本文算法在CSS-200和FID-300數(shù)據(jù)集上均取得了較高的準確率,但是與當前最好的檢索精度相比仍有較小差距,一方面是由于在訓(xùn)練階段就使用了雙塔網(wǎng)絡(luò)結(jié)構(gòu),雖然convNeXt網(wǎng)絡(luò)經(jīng)過改進之后在訓(xùn)練時減少了參數(shù),但是網(wǎng)絡(luò)結(jié)構(gòu)仍然較為復(fù)雜,且直接展開卷積特征的特征描述符維度過高制約了圖像識別準確率的提高,這也為下一步的研究指明了方向;另一方面,FID-300數(shù)據(jù)集在預(yù)處理方面仍然有待提高,并沒有達到公安機關(guān)采集鞋印的標準,導(dǎo)致鞋印圖像出現(xiàn)變形,對圖像識別造成困難。綜上所述,通過融合分區(qū)策略以及特征篩選策略有效地加強了鞋印局部特征關(guān)注度,且嵌入注意力機制的新型卷積神經(jīng)網(wǎng)絡(luò)進一步提高了對鞋印圖像的識別精度。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡