鮑文霞 茅麗麗 王 年 楊先軍 劉 晉 瞿金杰
(1安徽大學(xué)電子信息工程學(xué)院, 合肥 230601)(2中國科學(xué)院合肥物質(zhì)科學(xué)研究院, 合肥 230031)(3公安部物證鑒定中心, 北京 100038)
足跡指的是人體在站立或行走條件下,腳掌通過體重壓力作用在承痕體所形成的痕跡[1].醫(yī)學(xué)研究表明,足跡數(shù)據(jù)具有唯一性和獨特性[2-3],反映了對象的生理特征和行為特征.在偵查犯罪案件中,足跡特征相對于人體的其他特征,更加不易偽裝,刑偵人員可以從中挖掘到更多有效的信息.因此,國內(nèi)外研究人員開展了形式多樣的足跡方面的研究.例如,Osisanwo等[4]使用捺印技術(shù)獲取足跡圖像,比較分割后各區(qū)域的壓力面積和壓力值標(biāo)準偏差,并進行圖像匹配.Khokher等[5]通過平板掃描儀獲取了21人足底圖像,使用主成分分析(PCA)和獨立成分分析(ICA)線性投影技術(shù)提取足底的紋理和形狀特征來進行足跡識別.Heydarzadeh等[6]使用壓力傳感器平面板采集35人足跡數(shù)據(jù),將每幀圖像疊加合成一張融合圖像,使用支持向量機(SVM)對足跡圖像進行分類識別.
從以上研究可看出,目前還沒有公共的足跡圖像數(shù)據(jù)集,并且足跡圖像采集規(guī)范和采集設(shè)備多樣化,在不同采集設(shè)備下獲取的多模態(tài)足跡圖像包含的信息既有共性,又有各自的獨特性,通過一種模態(tài)定向檢索到另一種模態(tài)的足跡圖像在足跡的鑒定比對、識別中有著重要的應(yīng)用.對多模態(tài)數(shù)據(jù)的處理屬于多視圖學(xué)習(xí)(multi-view learning)問題,通過利用數(shù)據(jù)在不同視圖學(xué)習(xí)的難易程度不同來實現(xiàn)視圖之間的協(xié)同學(xué)習(xí).例如,Sun等[7]提出8個PAC-貝葉斯邊界來分析和比較多視圖分類器的泛化性能,并驗證了多視圖邊界的有效性.Xie等[8]提出多視圖拉普拉斯支持向量機的方法,在圖像和文本的多模態(tài)分類任務(wù)中具有較好的效果.跨模態(tài)圖像檢索是多視圖學(xué)習(xí)方法的一個具體應(yīng)用,其難點在于需要克服不同模態(tài)間的“語義鴻溝”.
目前基于圖像的跨模態(tài)檢索方法主要有子空間方法[9]、主題模型方法[10]、哈希變換方法[11]和深度學(xué)習(xí)方法[12].深度學(xué)習(xí)方法能夠利用神經(jīng)網(wǎng)絡(luò)構(gòu)造一個多模態(tài)公共空間,從而減小跨模態(tài)的異構(gòu)性.
現(xiàn)有的足跡研究受到數(shù)據(jù)樣本的限制,關(guān)于跨模態(tài)足跡檢索研究還很少.因此,本文首先利用光學(xué)足跡采集器和壓力足跡采集器,采集并建立了一個包含138人的跨模態(tài)足跡數(shù)據(jù)集.然后根據(jù)足跡圖像的特點,設(shè)計了一種基于空間注意力機制的雙分支網(wǎng)絡(luò)用于跨模態(tài)足跡檢索.該網(wǎng)絡(luò)采用了雙分支結(jié)構(gòu),并引入了空間注意力機制和雙約束損失,以學(xué)習(xí)到更有效的多模態(tài)共享特征表示.
本文采集光學(xué)足跡圖像所使用的儀器為杭州創(chuàng)恒電子技術(shù)開發(fā)有限公司所研制的光學(xué)足跡采集器,如圖1(a)所示.該采集器由正面為腳踏面的等腰三棱鏡、均勻直流光源、拍攝裝置組成,采集時不需要在足底涂抹油墨,而是利用棱鏡全反射原理形成足跡圖像并由拍攝裝置獲取.光學(xué)足跡采集時的軟件界面如圖1(b)所示,采集圖像的分辨率為1 362×2 871 dpi.
(a) 光學(xué)足跡采集器(單位:mm)
本文采集壓力足跡圖像所使用的儀器是杭州創(chuàng)恒電子技術(shù)開發(fā)有限公司提供的單板壓力足跡采集器,如圖2(a)所示.采集的軟件界面如圖2(b)所示,采集圖像分辨率為250×150 dpi.
(a) 壓力足跡采集器
從生物力學(xué)角度來看,足跡采集器可以獲取采集者自然行走過程中的壓力變化以及足跡特征等數(shù)據(jù)信息.該采集器的性能穩(wěn)定,能夠較好地保證采集圖像的質(zhì)量,表1給出了采集器的主要技術(shù)參數(shù).其中采集頻率達到100 Hz,可以滿足人體行走時正常實現(xiàn)圖像采集的要求;傳感器密度達到25點/cm2,幅面達到50 cm×30 cm的有效區(qū)域,便于清晰地觀察到采集的壓力圖像.
表1 壓力采集器主要參數(shù)
數(shù)據(jù)采集前,首先在系統(tǒng)錄入被采集人員的身高、體重等基本信息.表2給出了被采集人員的基本信息分布.在圖像采集過程中,可能會受到光照、灰塵、被采集人員的腳部施力狀態(tài)和行走姿勢、儀器噪聲等因素的不同程度的影響.為了提高采集的規(guī)范性,要求采集儀器表面保持一定的清潔和一致的光照條件.足跡是體現(xiàn)人體心理的重要載體,心理活動與足跡之間有著必然的聯(lián)系[13],因此被采集人員的心理活動也會影響采集數(shù)據(jù)的質(zhì)量,故要求被采集人員在行走過程中盡量放松自然,同時要求腳印落在采集儀器的中心位置,以避免不必要的噪聲干擾.同時在正式采集前,被采集人員需要事先經(jīng)過采集器來回行走10趟.
表2 被采集人員的信息分布
正式采集時,被采集人員在赤足條件下自然行走過采集器,采集器自動采集行走時留下的左右腳各10幅足跡圖像.最終共采集5 520幅足跡圖像,其中光學(xué)赤足圖像和壓力赤足圖像各有2 760幅,表3統(tǒng)計了采集圖像的數(shù)量分布.圖3展示了不同被采集人員在每種模態(tài)下的6幅足跡圖像,其中左腳圖像和右腳圖像各3幅.同一個人的光學(xué)圖像和壓力圖像在形態(tài)、圖像分布位置等方面存在很大差異,同時在單模態(tài)內(nèi)同一個人以及不同人之間的圖像也存在一定差異,例如在光學(xué)圖像的紋理、形態(tài)等方面和壓力圖像的重壓面等方面.
(a) 被采集人員1的足跡圖像
表3 采集圖像的數(shù)量統(tǒng)計
足跡圖像采集易受光線、灰塵及儀器噪聲等因素影響,本文采用了中值濾波對光學(xué)足跡圖像和壓力足跡圖像進行去噪.如圖3所示,采集的光學(xué)足跡圖像中含有標(biāo)尺部分,因此需要對圖像進行去標(biāo)尺操作.光學(xué)赤足圖像的預(yù)處理如圖4所示,壓力赤足圖像的預(yù)處理如圖5所示.為了提升網(wǎng)絡(luò)模型的泛化能力和魯棒性,本文對采集圖像進行垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、逆時針旋轉(zhuǎn)10°和順時針旋轉(zhuǎn)10°的數(shù)據(jù)增廣.光學(xué)足跡圖像和壓力足跡圖像的增廣操作如圖6和圖7所示.經(jīng)擴充后,每個人的光學(xué)足跡圖像和壓力足跡圖像分別擴展為100幅.
(a) 原圖
(a) 原圖
(a) 濾波
不同模態(tài)足跡圖像的特征既有共性,又有各自的特點,并且不同個體的足跡圖像特征差異小,同一個體的足跡圖像特征差異大.因此,為了獲取具有同一個體穩(wěn)定性、不同個體高區(qū)分性的特征,本文設(shè)計了一個既能充分學(xué)習(xí)每個模態(tài)中具有辨別性的固有特征又能獲取不同模態(tài)足跡的共享特征空間的雙分支網(wǎng)絡(luò).該網(wǎng)絡(luò)結(jié)構(gòu)包含特征提取模塊、特征嵌入和雙約束損失3個模塊,如圖8所示,該網(wǎng)絡(luò)結(jié)構(gòu)以端到端的方式學(xué)習(xí)特征表示并進行距離度量.
圖8 跨模態(tài)足跡檢索的網(wǎng)絡(luò)結(jié)構(gòu)
在深度學(xué)習(xí)中,隨著網(wǎng)絡(luò)深度的增加,可能會伴隨著梯度消失或梯度爆炸等問題,不利于網(wǎng)絡(luò)的收斂優(yōu)化.常用的ResNet50[14]通過短接操作構(gòu)建了恒等映射,使得原始粗略的特征和訓(xùn)練后得到的精細化特征之間相互補充,以增強有用的特征,過濾掉一些無用特征.同時,ResNet50網(wǎng)絡(luò)的學(xué)習(xí)過程是去擬合殘差,不是直接擬合輸入和輸出,優(yōu)化更簡單,不僅能學(xué)習(xí)充分的足跡信息,還使得梯度反向傳播時不容易出現(xiàn)梯度消失等問題.因此,本文在特征提取模塊中,采用經(jīng)過預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)作為雙分支結(jié)構(gòu)中的每個單分支的基礎(chǔ)網(wǎng)絡(luò),提取足跡特征,ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)圖如9所示.考慮到各模態(tài)中細粒度足跡圖像的類內(nèi)特征不易學(xué)習(xí),本文在各分支的ResNet50網(wǎng)絡(luò)的Layer3和Layer4層后引入空間注意力模塊,從而學(xué)習(xí)到各模態(tài)中更有辨別性的固有特征;在特征嵌入模塊中通過部分參數(shù)共享構(gòu)建一個模態(tài)共享空間;為了增大模態(tài)內(nèi)的類間差異和減小跨模態(tài)中同類別之間的差異[15],本文應(yīng)用了雙約束損失,即交叉熵損失和異質(zhì)中心損失.
圖9 ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)
細粒度足跡圖像存在較大的類內(nèi)差距和較小的類間差距,增加了各模態(tài)類內(nèi)和類間特征學(xué)習(xí)的難度.為了使網(wǎng)絡(luò)關(guān)注到各模態(tài)內(nèi)不同類別圖像的關(guān)鍵區(qū)域,學(xué)習(xí)到更有辨別性的特征,本文在ResNet50基礎(chǔ)網(wǎng)絡(luò)的Layer3和Layer4層后引入了1×1的空間注意力機制,空間注意力結(jié)構(gòu)圖如圖10所示.該注意力主要包括一個1×1的卷積操作和一個Sigmoid激活操作,具體實現(xiàn)是將ResNet50網(wǎng)絡(luò)的Layer3和Layer4層后輸出的尺寸為b×c×h×w的特征圖通過一個1×1的卷積和Sigmoid激活操作,得到一個注意力掩圖,再將注意力掩圖與輸入特征圖進行對應(yīng)元素相乘操作,以得到可以突出關(guān)鍵區(qū)域的特征向量,其中b表示超參數(shù)batch size,c為通道數(shù),h和w分別為高度和寬度;Sigmoid激活函數(shù)可以增加神經(jīng)網(wǎng)絡(luò)模型的非線性,以便增加對樣本非線性關(guān)系的擬合能力.考慮到學(xué)習(xí)到的凸顯關(guān)鍵區(qū)域的特征向量可能具有局限性,再將其和原始輸入特征向量進行對應(yīng)元素相加的操作,以學(xué)習(xí)到更為全面的特征,即圖10中的輸出特征圖.
圖10 1×1的空間注意力模塊
為了能同時考慮到模態(tài)內(nèi)和模態(tài)間的差異,本文采用雙約束損失對網(wǎng)絡(luò)進行約束.損失函數(shù)結(jié)構(gòu)如圖11所示,通過將圖8中雙分支網(wǎng)絡(luò)輸出的2個模態(tài)的特征向量在第一維度上拼接后再訓(xùn)練,實現(xiàn)特征嵌入模塊中的參數(shù)共享,以此來構(gòu)建一個模態(tài)共享空間,再將拼接的特征向量經(jīng)過全連接層FC1、BN層得到降維特征向量,最后經(jīng)過2種不同的處理分別得到交叉熵損失和異質(zhì)中心損失.本文總的損失函數(shù)如下:
圖11 損失函數(shù)結(jié)構(gòu)圖
LZ=LID+LHC
(1)
式中,LID為交叉熵損失;LHC為異質(zhì)中心損失.
交叉熵損失是利用特定模態(tài)信息來學(xué)習(xí)類別特征,并對各模態(tài)的類內(nèi)特征進行約束,使類間差異增大,同時也有助于增大跨模態(tài)樣本的相關(guān)性.如圖11所示,全連接層FC1、BN層后得到的降維特征向量,經(jīng)過LeakyRelu激活函數(shù)和Dropout丟棄訓(xùn)練策略的處理后,再經(jīng)過全連接層FC2、Softmax函數(shù)后結(jié)合標(biāo)簽計算可得到交叉熵損失.其中,BN可以在一定程度上提升網(wǎng)絡(luò)訓(xùn)練速度,加快收斂過程;Dropout操作則是為了防止過擬合.交叉熵損失計算公式如下:
(2)
式中,i表示每個訓(xùn)練樣本;K表示2倍的batch size,本文中batch size為32;j表示每個類別;n為總的類別數(shù),本文中n設(shè)置為82;xi為第i個樣本的特征向量;yi為樣本i的真實類別;wj表示第j列的權(quán)重,wyi表示第yi列的權(quán)重.
異質(zhì)中心損失可以通過降低跨模態(tài)同類別樣本的中心距離來減小跨模態(tài)的類內(nèi)差異[16].如圖11所示,全連接層FC1、BN層后得到的降維特征向量,經(jīng)過L2正則化處理后,再將每個模態(tài)的特征向量結(jié)合每個模態(tài)的標(biāo)簽計算可得到異質(zhì)中心損失.異質(zhì)中心損失計算公式如下:
(3)
實驗所用計算機帶有2塊NVIDIA 2070ti顯卡,采用Linux操作系統(tǒng).網(wǎng)絡(luò)模型均在PyTorch中搭建,使用隨機梯度下降(SGD)優(yōu)化器進行訓(xùn)練,損失函數(shù)為交叉熵損失和異質(zhì)中心損失,經(jīng)過200次迭代后完成訓(xùn)練.本文將前100次迭代的網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.01,后100次迭代的網(wǎng)絡(luò)學(xué)習(xí)率設(shè)置為0.001,每次迭代的批處理大小設(shè)置為32.
本文采用文獻[17-18]中的評價指標(biāo)來評估細粒度跨模態(tài)檢索的性能,即平均精度均值(mAP)和CMC曲線中的Rank1、Rank5、Rank10.其中RankK值表示檢索集中前K個檢索結(jié)果中出現(xiàn)正確匹配的概率.本文基于跨模態(tài)足跡圖像的互檢索問題開展研究,為了充分體現(xiàn)本文方法的互檢索性能,將2種檢索模式下mAP均值和Rank1均值作為本文的評價指標(biāo).
將實驗數(shù)據(jù)集劃分為訓(xùn)練集、驗證集和測試集,其中訓(xùn)練集含82人的光學(xué)和壓力足跡圖像,驗證集含28人的光學(xué)和壓力足跡圖像,測試集也含28人的光學(xué)和壓力足跡圖像.為了保證實驗的科學(xué)性,確保訓(xùn)練集、驗證集和測試集的類別和圖像互不交叉重疊,本文采用2種檢索模式:① 根據(jù)光學(xué)圖像檢索壓力圖像;② 根據(jù)壓力圖像檢索光學(xué)圖像.為了提高檢索的可靠性,將驗證集和測試集中查詢庫和檢索庫的數(shù)據(jù)量比例設(shè)置為1∶2,即查詢庫中每人50幅圖像,檢索庫中每人100幅圖像.在每次迭代中進行訓(xùn)練后都在驗證集上進行測試,得到mAP和Rank值,并且將Rank1取得最高值的模型保存為最優(yōu)模型.為了證明模型的有效性,最后在測試集中運用保存的最優(yōu)模型進行驗證,記錄和保存最后的實驗結(jié)果.
本文提出了基于空間注意力機制的雙分支網(wǎng)絡(luò)結(jié)構(gòu),為了驗證該結(jié)構(gòu)的檢索性能,從5個方面進行對比實驗.
3.4.1 圖像預(yù)處理對檢索性能的影響
為了證明本文采用的去標(biāo)尺、濾波和數(shù)據(jù)增強等預(yù)處理方法對跨模態(tài)足跡檢索的實用性,在預(yù)處理前和預(yù)處理后的數(shù)據(jù)集上進行了實驗效果對比,如表4所示.由表可知,在光學(xué)到壓力檢索模式下的mAP值和Rank1值達到70.17%和90.64%,在壓力到光學(xué)檢索模式下的mAP值和Rank1值達到71.49%和84.36%,預(yù)處理之后的mAP均值和Rank1均值分別為70.83%和87.50%,相較于預(yù)處理之前的檢索精度分別高出7.52%和11.43%,進一步提高了跨模態(tài)足跡檢索的精度.濾波能夠去除一定的噪聲,提高采集圖像的質(zhì)量,有利于卷積神經(jīng)網(wǎng)絡(luò)的特征學(xué)習(xí)和網(wǎng)絡(luò)的訓(xùn)練優(yōu)化,并且通過數(shù)據(jù)增廣的操作,能夠增強網(wǎng)絡(luò)的泛化性,提高跨模態(tài)足跡圖像的檢索精度.
表4 預(yù)處理前后的跨模態(tài)足跡檢索效果圖 %
3.4.2 消融實驗
為了驗證本文設(shè)計的雙分支網(wǎng)絡(luò)中引入空間注意力機制及雙約束損失在跨模態(tài)足跡檢索中的有效性,進行了消融實驗.實驗結(jié)果如表5所示,表中CBAM(convolutional block attention module)是一種結(jié)合了通道注意力和空間注意力的注意力機制,可以與一些前饋卷積神經(jīng)網(wǎng)絡(luò)集成[19].
表5中還比較了不同雙約束損失下的檢索結(jié)果.當(dāng)只采用交叉熵損失時,mAP均值為51.18%,Rank1均值為75.11%.若采用交叉熵損失和中心損失時,mAP均值為46.46%,Rank1均值為69.47%,相較于僅使用交叉熵損失時的實驗效果,分別降低了4.72%和5.64%,表明中心損失[20]不利于本文的跨模態(tài)足跡檢索研究.若采用中心損失和異質(zhì)中心損失時,實驗效果最好,mAP均值為67.99%,Rank1均值為85.15%,不僅優(yōu)于采用交叉熵損失和中心損失時的mAP均值和Rank1均值,相較于僅使用交叉熵損失時的實驗效果,mAP均值和Rank1均值也分別提高了16.81%和10.04%.這不僅說明了異質(zhì)中心損失的實驗效果優(yōu)于中心損失,而且本文采用的交叉熵和異質(zhì)中心損失的雙約束損失也明顯優(yōu)于單個交叉熵損失,大大提升了實驗效果.由表5可知,在采用交叉熵損失基礎(chǔ)上,在網(wǎng)絡(luò)的Layer3和Layer4層引入空間注意力機制的檢索效果,相較于引入CBAM注意力機制,mAP均值和Rank1均值分別提高了1.05%和1.14%;同時本文在雙約束損失的基礎(chǔ)上,引入空間注意力機制的檢索效果也明顯優(yōu)于CBAM注意力機制,其中mAP均值和Rank1均值分別提高了2.85%和3%.實驗結(jié)果表明,在網(wǎng)絡(luò)的Layer3和Layer4層引入空間注意力機制有助于學(xué)習(xí)到可辨別性特征,進一步提升跨模態(tài)檢索性能.
表5 本文方法的消融實驗結(jié)果 %
3.4.3 特征提取模塊對比實驗
為了驗證本文特征提取模塊的有效性,分別與AlnexNet、Vgg19、ResNet18、ResNet34、ResNet50、InceptionV4、InceptionResNetV2、MobileNet、ShuffleNetV2這9種特征提取網(wǎng)絡(luò)進行了對比實驗,不同特征提取模塊的效果如圖12所示.從圖中可以觀察到,ResNet網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò),能夠取得較好的實驗效果.AlexNet網(wǎng)絡(luò)出現(xiàn)時間最早,只包含8層;Vgg19網(wǎng)絡(luò)采用連續(xù)的幾個3×3的卷積核代替AlexNet中的較大卷積核,增加了網(wǎng)絡(luò)的深度,但參數(shù)量遠遠多于AlnexNet網(wǎng)絡(luò);InceptionV4采用了不同Inception模塊的連接,并使用全局平均池化代替全連接層,減少參數(shù)量;InceptionResNetV2在InceptionV4的基礎(chǔ)上引用ResNet網(wǎng)絡(luò)中殘差連接操作,以訓(xùn)練更深的網(wǎng)絡(luò);MobileNet和ShuffleNetV2這2種輕量級網(wǎng)絡(luò)能夠較好地實現(xiàn)計算速度與準確度之間的平衡.
圖12 不同特征提取模塊的mAP均值和Rank1均值
如圖12所示,ResNet50的檢索精度最高,其中mAP均值和Rank1均值相較于Vgg19,分別提高了64.06%和81.50%;相較于AlnexNet,分別提高了33.57%和31.93%;而InceptionResNetV2下的mAP均值和Rank1均值比InceptionV4下的分別高出21.99%和25.32%,也說明了這種殘差連接操作的有效性,但相比較于ResNet50,仍分別降低了8.97%和3.54%,考慮到InceptionResNetV2相對于ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜性更大,因此不利于跨模態(tài)足跡檢索的研究;而 MobileNet和ShuffleNetV2這2種輕量級網(wǎng)絡(luò)的檢索效果均低于ResNet50.從以上數(shù)據(jù)分析可以看出ResNet50網(wǎng)絡(luò)相較于其他網(wǎng)絡(luò)的有效性,由于網(wǎng)絡(luò)設(shè)計的高效和殘差模塊的引入,可以學(xué)習(xí)到更加深層的語義信息.為了使網(wǎng)絡(luò)提取到更具有辨別性的特征,本文在ResNet50的Layer3和Layer4層引入了1×1的空間注意力機制,其中mAP均值和Rank1均值比ResNet50下的分別提高了2.84%和2.35%,進一步提升了實驗效果,也驗證了本文引入的空間注意力機制對跨模態(tài)足跡檢索中特征學(xué)習(xí)的有效性.
3.4.4 空間注意力機制位置的對比實驗
本文將1×1的空間注意力機制應(yīng)用在ResNet50的Layer3和Layer4層.為了證明實驗的合理性,本文將該空間注意力機制應(yīng)用在ResNet50的不同Layer層間的實驗效果進行了對比,結(jié)果如圖13所示.當(dāng)空間注意力機制應(yīng)用在ResNet50的Layer1、Layer2、Layer3和Layer4時的mAP均值分別為68.82%、69.53%、70.46%、68.57%,而應(yīng)用在Layer1和Layer2層、Layer2和Layer3層以及Layer3和Layer4層的mAP均值分別為69.84%、70.82%和70.83%,基本優(yōu)于注意力機制應(yīng)用在單層時的實驗效果,而應(yīng)用在Layer2和Layer3層以及Layer3和Layer4層的mAP均值相較于Layer1和Layer2層的實驗效果,分別提升了0.98%和0.99%,也說明在ResNet50網(wǎng)絡(luò)的后幾層應(yīng)用空間注意力能夠進一步提升跨模態(tài)檢索精度.
圖13 空間注意力機制在不同Layer層間的mAP值
3.4.5 與其他跨模態(tài)檢索方法的比較
為了進一步驗證本文跨模態(tài)足跡檢索算法的有效性,在本文采用的足跡數(shù)據(jù)集上,與常用的跨模態(tài)檢索方法FGC[21]、BDTR[22]、HC[16]進行對比實驗.FGC的研究對象是包含圖像、文本、聲音以及視頻的多模態(tài)數(shù)據(jù),提升了細粒度檢索效果;BDTR和HC的研究對象是行人重識別中的可見光和紅外光行人圖像,在跨模態(tài)行人重識別領(lǐng)域取得較好的檢索效果.表6中顯示了不同方法下的mAP均值和Rank均值的對比實驗結(jié)果.由表可知,本文方法取得最優(yōu)效果,其中mAP均值、Rank1均值、Rank5均值、Rank10均值和Rank20均值分別達到70.83%、87.50%、94.07%、96.22%和97.83%,相較于FGC,分別高出26.28%、30%、21.42%、15.97%和11.47%;相較于HC,分別高出12.95%、10.32%、6.07%、4.29%和2.72%;相較于BDTR,分別高出64.49%、74.82%、62.78%、51.47%和37%.
表6 不同方法的結(jié)果對比 %
FGC方法是將各模態(tài)輸入樣本在第一維度上進行拼接后再經(jīng)過一個單分支的ResNet50網(wǎng)絡(luò)進行多模態(tài)的學(xué)習(xí),損失函數(shù)包括交叉熵損失和中心損失,其中交叉熵損失是為了實現(xiàn)各模態(tài)類別的分類以及確保多模態(tài)中同類別特征的緊致性,中心損失是為了實現(xiàn)各模態(tài)類別的分類以及確保多模態(tài)中同類別特征的緊致性,但是該中心損失僅有益于減小同模態(tài)的類內(nèi)特征距離,忽略了跨模態(tài)的類內(nèi)之間的距離.BDTR方法以AlexNet為基礎(chǔ)網(wǎng)絡(luò)構(gòu)建了雙分支網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計了雙向雙重約束損失,而AlexNet屬于淺層網(wǎng)絡(luò),在特征學(xué)習(xí)階段無法學(xué)習(xí)到每個模態(tài)的固有特征,不利于網(wǎng)絡(luò)的整體優(yōu)化.HC方法中采用了類似BDTR中的雙分支網(wǎng)絡(luò)結(jié)構(gòu),損失函數(shù)和本文的雙約束損失相同,但由于該方法對網(wǎng)絡(luò)輸出特征向量進行多次分割后再分別計算損失值,使得網(wǎng)絡(luò)難以有效地學(xué)習(xí)跨模態(tài)足跡特征.而本文設(shè)計的跨模態(tài)足跡檢索算法,不僅采用了有效的雙分支網(wǎng)絡(luò)學(xué)習(xí)各模態(tài)的固有特征,并在網(wǎng)絡(luò)的Layer3和Layer4層引入空間注意力機制,有助于獲取更有辨別性的足跡特征.同時還采用了雙約束損失來優(yōu)化網(wǎng)絡(luò),考慮到了模態(tài)內(nèi)和模態(tài)間的特征差異,其中異質(zhì)中心損失計算中沒有對輸出特征向量進行分割,增強了足跡特征的相關(guān)性.
1) 該網(wǎng)絡(luò)在特征提取模塊的各分支中分別采用ResNet50作為基礎(chǔ)網(wǎng)絡(luò),并為了學(xué)習(xí)到更有辨別性的固有特征,在Layer3和Layer4層還引入空間注意力機制.
2) 為了減小跨模態(tài)的異構(gòu)性,在特征嵌入模塊通過部分參數(shù)共享學(xué)習(xí)一個多模態(tài)的公共空間.
3) 為了同時對模態(tài)內(nèi)和模態(tài)間的特征學(xué)習(xí)進行約束,本文采用了交叉熵損失和異質(zhì)中心損失的雙約束損失.最后在所構(gòu)建的138人數(shù)據(jù)集上進行消融以及對比實驗,結(jié)果表明:在光學(xué)到壓力檢索模式下的mAP值和Rank1值達到70.17%和90.64%,在壓力到光學(xué)檢索模式下的mAP值和Rank1值達到71.49%和84.36%.這2種檢索模式下的mAP均值和Rank1均值分別達到70.83%和87.50%,優(yōu)于常用的FGC、BDTR、HC等跨模態(tài)檢索方法.