国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非局部注意力雙分支網(wǎng)絡(luò)的跨模態(tài)赤足足跡檢索

2022-07-15 01:05鮑文霞茅麗麗王年唐俊楊先軍張艷
中國圖象圖形學(xué)報 2022年7期
關(guān)鍵詞:模態(tài)足跡檢索

鮑文霞,茅麗麗,王年,唐俊,楊先軍,張艷

1.安徽大學(xué)電子信息工程學(xué)院,合肥 230601;2.中國科學(xué)院合肥物質(zhì)科學(xué)研究院,合肥 230031

0 引 言

足跡是指人體穿鞋、穿襪或赤足站立/行走條件下,腳掌通過體重壓力作用在承痕體形成的痕跡(Gurney等,2008)。醫(yī)學(xué)研究表明,足跡數(shù)據(jù)具有唯一性和獨(dú)特性(Nirenberg等,2019),不僅能夠反映個體的生理特征,還可以反映個體的行為特征。在偵查犯罪案件中,足跡特征相對于指紋和面部等其他人體特征來說更加不易偽裝,刑偵人員可以從現(xiàn)場遺留足跡中挖掘到更多有效的信息和線索。因此,研究人員在足跡方面開展了形式多樣的研究。Kulkarni和Kulkarni(2015)使用攝像機(jī)采集了30人的足底圖像,提取足弓水平最小截距、足弓內(nèi)側(cè)最大距離、痕跡指數(shù)和痕跡幾何指數(shù)等4種特征進(jìn)行研究。Osisanwo等人(2014)使用捺印技術(shù)在紙板上印出足跡,比較分割后的前腳、中間和后腳3個部分的壓力面積和壓力值標(biāo)準(zhǔn)偏差并進(jìn)行圖像匹配。Khokher等人(2015)通過平板掃描儀獲取了21人的足底圖像,分別使用主成分分析(principal component analysis,PCA)和獨(dú)立成分分析(independent components analysis,ICA)線性投影技術(shù)提取足底的紋理和形狀特征來進(jìn)行足跡識別,識別率分別達(dá)到95.24%和97.23%。Heydarzadeh等人(2017)使用壓力傳感器平面板采集了35人的足跡數(shù)據(jù),將每幀圖像疊加合成一幅融合圖像,使用支持向量機(jī)(support vector machine,SVM)對融合圖像進(jìn)行分類識別,識別率達(dá)到97%。鮑文霞等人(2020a)使用光學(xué)足跡采集器采集134人的2 680枚足跡數(shù)據(jù),通過度量學(xué)習(xí)方法,結(jié)合支持向量機(jī)分類器實(shí)現(xiàn)足跡識別,達(dá)到96.66%的準(zhǔn)確率。朱明等人(2020)使用壓力足跡采集器采集了100名受試者的1 000枚壓力赤足足跡,通過多尺度自注意卷積模塊自適應(yīng)地提取可判別足跡特征,以實(shí)現(xiàn)足跡圖像檢索,其中mAP(mean average precision)值為81.64%,rank1值為95.63%。鮑文霞等人(2020b)使用壓力足跡采集器構(gòu)建了100人的2 000枚足跡圖像,通過設(shè)計(jì)一種空間聚合加權(quán)模塊,有效實(shí)現(xiàn)了足跡識別,其中算法準(zhǔn)確率達(dá)到91.20%。

從上述足跡方面的研究可以看出,目前尚未存在公共的足跡圖像數(shù)據(jù)集,并且在研究過程中的足跡圖像采集規(guī)范和采集設(shè)備多樣化,相同采集對象在不同采集設(shè)備下獲取的足跡圖像模態(tài)不同,而它們包含的信息既有共性又有各自的獨(dú)特性。目前公安部門使用的足跡采集設(shè)備不統(tǒng)一,主要有光學(xué)和壓力兩種足跡圖像采集儀。壓力成像的足跡在圖像中間或邊緣都能比較準(zhǔn)確地體現(xiàn)壓力值的大小,壓力變化層次豐富。光學(xué)成像的足跡壓力值是通過算法估計(jì)得到的相對值,并且圖像輪廓的邊緣模糊、壓力值不準(zhǔn)確,但是光學(xué)足跡圖像的這種特點(diǎn)更接近現(xiàn)場足跡。因此,通過壓力和光學(xué)兩種模態(tài)足跡圖像的互檢索,一方面可以使目前由不同設(shè)備采集構(gòu)建的足跡庫中的圖像互查,另一方面也為下一步現(xiàn)場足跡比對、鑒定等應(yīng)用提供了研究基礎(chǔ)。

基于圖像的跨模態(tài)檢索方法主要包括子空間方法、主題模型方法、哈希變換方法和深度學(xué)習(xí)方法。子空間方法的原理是利用跨模態(tài)樣本對的信息構(gòu)建共享子空間,通過度量相似性實(shí)現(xiàn)跨模態(tài)檢索(Liang等,2016),但存在不能有效建模不同模態(tài)的高階相關(guān)性的問題。主題模型法是通過對各模態(tài)都學(xué)習(xí)一個潛在主題模型,再建模不同模態(tài)間的關(guān)系(Zheng等,2014),但在建立不同模態(tài)語義關(guān)聯(lián)的同時未能綜合考慮不同模態(tài)的結(jié)構(gòu)。哈希變換法是將高維特征轉(zhuǎn)換為便于存儲和計(jì)算的二進(jìn)制碼,其中相似的數(shù)據(jù)會得到相似的二進(jìn)制碼,并將不同模態(tài)特征映射到一個漢明(Hamming)二值空間再進(jìn)行學(xué)習(xí)(Cao等,2016),可能會造成圖像信息上的損失。深度學(xué)習(xí)方法是利用能夠?qū)W習(xí)到高層語義特征的神經(jīng)網(wǎng)絡(luò)為多個模態(tài)構(gòu)造一個公共語義空間,減小跨模態(tài)的異構(gòu)性,然后在公共空間進(jìn)行模態(tài)之間的相似性度量(Wang等,2015),具有更好的檢索效果,因此成為目前跨模態(tài)檢索的研究熱點(diǎn)。例如,在深度學(xué)習(xí)領(lǐng)域,Wu等人(2017)提出一個深度零填充網(wǎng)絡(luò)來自適應(yīng)地學(xué)習(xí)模態(tài)共享特性,實(shí)現(xiàn)了可見光行人圖像與紅外光行人圖像之間的跨模態(tài)檢索;Ye等人(2018a)引入了雙流網(wǎng)絡(luò)(two stream network)來建模特定的和可共享的信息,進(jìn)行模態(tài)內(nèi)和模態(tài)間的特征學(xué)習(xí),實(shí)現(xiàn)了可見光行人圖像與紅外光行人圖像的模態(tài)內(nèi)和模態(tài)間的特征學(xué)習(xí);Zhu等人(2019)提出了一個新的異質(zhì)中心損失(hetero-center loss),以減少類內(nèi)交叉模態(tài)的變化,再結(jié)合交叉熵?fù)p失和雙分支結(jié)構(gòu),擴(kuò)大類間差異和盡可能提高類內(nèi)跨模態(tài)相似性,在紅外光和可見光的跨模態(tài)行人重識別領(lǐng)域取得了較優(yōu)的檢索效果。

在行人重識別、草圖識別以及圖像、文本、聲音及視頻的多模態(tài)領(lǐng)域中,跨模態(tài)檢索取得了一定進(jìn)展,但關(guān)于足跡圖像的跨模態(tài)檢索方面的研究還很少。因此,本文根據(jù)赤足足跡圖像的特點(diǎn),結(jié)合深度學(xué)習(xí)方法研究足跡的跨模態(tài)檢索問題。首先設(shè)計(jì)了人在自然行走狀態(tài)下的足跡圖像采集規(guī)范和流程,利用光學(xué)足跡和壓力足跡圖像采集儀器,采集并建立了一個包含138人的5 520枚赤足足跡的跨模態(tài)檢索數(shù)據(jù)集。針對細(xì)粒度赤足足跡圖像存在的類內(nèi)差異大類間差異細(xì)微的特點(diǎn),設(shè)計(jì)了一種基于非局部(non-local)注意力機(jī)制的雙分支網(wǎng)絡(luò)用于赤足足跡的跨模態(tài)檢索,該網(wǎng)絡(luò)在特征提取模塊采用了雙分支結(jié)構(gòu),各分支均采用ResNet50網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),提取不同模態(tài)的有效特征,過濾干擾特征;在特征嵌入模塊通過參數(shù)共享構(gòu)建一個多模態(tài)的共享空間,并在網(wǎng)絡(luò)的layer2層和layer3層的每個殘差塊處引入非局部注意力機(jī)制模塊,增強(qiáng)每個模態(tài)的有用特征,以得到更具辨別性的足跡特征,同時獲取跨模態(tài)的共享特征空間;為了實(shí)現(xiàn)每個模態(tài)以及跨模態(tài)類間距離的最大化和類內(nèi)距離的最小化,本文損失函數(shù)采用了交叉熵?fù)p失和三元組損失,以學(xué)習(xí)到更有效的跨模態(tài)共享特征。

1 足跡圖像獲取和預(yù)處理

本文使用光學(xué)足跡圖像采集儀器和壓力足跡圖像采集儀器獲取足跡圖像。

光學(xué)足跡圖像采集儀器由正面為腳踏面的等腰三棱鏡、均勻直流光源和拍攝裝置組成,采集時不需要在足底涂抹油墨,而是利用棱鏡全反射原理形成足跡圖像并由拍攝裝置獲取。光學(xué)足跡采集圖像的分辨率為1 362 × 2 871 dpi(dots per inch)。光學(xué)足跡圖像采集器及軟件界面如圖1所示。

圖1 光學(xué)足跡圖像采集儀器及軟件界面Fig.1 Optical footprint image collector and its software interface((a)optical footprint image collector;(b)software interface)

從生物力學(xué)角度來看,壓力足跡圖像采集儀器可以獲取采集者自然行走過程中的壓力變化以及足跡特征等信息。該采集器的性能穩(wěn)定,能夠較好地保證采集圖像的質(zhì)量。壓力足跡圖像采集器及軟件界面如圖2所示。表1給出了采集儀器的主要技術(shù)參數(shù),其中采集頻率為100 Hz,可以滿足人體行走時圖像采集的要求;傳感器密度為25個/cm2;幅面為50 cm×30 cm的有效區(qū)域,便于清晰地觀察采集的壓力圖像。壓力足跡采集圖像的分辨率為250×150 dpi。

圖2 壓力足跡圖像采集儀器及軟件界面Fig.2 Pressure footprint image collector and its software interface((a)pressure footprint image collector;(b)software interface)

表1 壓力圖像采集儀器主要參數(shù)Table 1 Parameters of pressure footprint image collector

1.1 足跡數(shù)據(jù)采集流程

本次實(shí)驗(yàn)總共采集了138人的光學(xué)赤足圖像和壓力赤足圖像,其中男性90人,女性48人。數(shù)據(jù)采集前,首先在系統(tǒng)中錄入被采集人員的身高、體重等個人基本信息。表2給出了被采集人員的基本信息分布。

表2 被采集人員的信息分布Table 2 Information distribution of the person to be collected

在圖像采集過程中,可能會受到灰塵、儀器噪聲以及被采集人員腳部的施力狀態(tài)和行走姿勢等因素的影響。為了提高采集的規(guī)范性,采集過程要求采集儀器表面保持一定的清潔。足跡是體現(xiàn)人體心理的重要載體,心理活動與足跡之間有著必然的聯(lián)系(薛亞龍和岳佳,2012),被采集人員的心理活動也會影響采集數(shù)據(jù)的質(zhì)量。因此,采集人員會提前向被采集者介紹采集內(nèi)容和方式,然后向被采集者示范正確的采集規(guī)范。具體的采集流程如下:

1)將采集儀器水平嵌入地板槽內(nèi),保持儀器與地面持平。隨后打開電源連接設(shè)備進(jìn)行測試,確認(rèn)設(shè)備無誤后,根據(jù)被采集者信息和采集方式建立文件夾,例如“學(xué)號_行走趟數(shù)_左腳”。為了達(dá)到采集標(biāo)準(zhǔn),在光學(xué)足跡和壓力足跡正式采集前預(yù)留足夠時間,要求被采集人員行走多趟適應(yīng)地面環(huán)境以達(dá)到自然行走狀態(tài)。然后點(diǎn)擊“采集”按鈕,并示意被采集人員按示范的標(biāo)準(zhǔn)開始行走。

2)在被采集人員平穩(wěn)自然行走經(jīng)過采集儀器時,查看生成的圖像是否存在缺損嚴(yán)重、偏離采集頁面中心以及行走速度過快等問題,若有則重新采集,以提高采集圖像的質(zhì)量;如果被采集者和采集的圖像滿足采集規(guī)范,則將圖像數(shù)據(jù)保存到事先建立好的個人文件夾中。

3)為了維持采集設(shè)備的性能穩(wěn)定性,每天在早中晚3個時間段只采集兩個人的赤足足跡圖像,并在每次采集后進(jìn)行儀器表面的清理,減少采集圖像的背景噪聲。

正式采集時,被采集人員在赤足條件下自然地來回走過采集儀器10趟,得到20幅赤足足跡圖像,其中左右腳圖像各10幅,最終共采集5 520幅赤足足跡圖像,其中光學(xué)赤足圖像和壓力足跡圖像各有2 760幅。圖3展示了3個不同被采集人員在每種模態(tài)下的6幅赤足足跡圖像,其中左右腳圖像各3幅。由于被采集人員的身高、體態(tài)以及行走習(xí)慣等因素,被采集人員的光學(xué)和壓力足跡在形態(tài)以及圖像中的具體分布位置等方面存在很大差異;同時,在單模態(tài)內(nèi)同一個被采集人員的圖像存在較大差異,而不同被采集人員之間的圖像差異細(xì)微,導(dǎo)致跨模態(tài)赤足足跡檢索難度顯著提升。

圖3 采集的光學(xué)赤足圖像和壓力赤足圖像Fig.3 Collected optical barefoot images and pressure barefoot images ((a) the collected person A;(b) the collected person B;(c) the collected person C)

1.2 足跡數(shù)據(jù)預(yù)處理

采集的光學(xué)赤足圖像中含有標(biāo)尺部分,并且在采集的過程中受灰塵等因素的影響,從而產(chǎn)生少量噪聲,因此首先對采集的赤足足跡圖像進(jìn)行去標(biāo)尺和濾波等預(yù)處理。在去噪方法中最常用的是中值濾波(趙博文 等,2020),因?yàn)橹兄禐V波可以保留圖像輪廓信息,更能起到保護(hù)圖像細(xì)節(jié)信息的作用,因此本文采用中值濾波方法分別對光學(xué)赤足圖像和壓力赤足圖像進(jìn)行去噪處理,并在足跡圖像送入網(wǎng)絡(luò)訓(xùn)練之前將分辨率統(tǒng)一調(diào)成了224 × 224 dpi。光學(xué)赤足圖像和壓力赤足圖像的預(yù)處理分別如圖4和圖5所示。為了提升網(wǎng)絡(luò)模型的泛化能力和魯棒性,對采集圖像進(jìn)行了垂直翻轉(zhuǎn)、水平翻轉(zhuǎn)、逆時針旋轉(zhuǎn)10°和順時針旋轉(zhuǎn)10°的數(shù)據(jù)增廣,光學(xué)赤足圖像和壓力赤足圖像的增廣操作分別如圖6和圖7所示。經(jīng)擴(kuò)充后,光學(xué)赤足圖像和壓力赤足圖像分別從2 760幅擴(kuò)展為13 800幅。

圖4 光學(xué)赤足圖像的預(yù)處理效果圖Fig.4 Preprocessing of optical barefoot images ((a) optimal original image;(b) after removing the scale;(c) after filtering)

圖5 壓力赤足圖像的預(yù)處理效果圖Fig.5 Preprocessing of pressure barefoot image ((a) pressure original image;(b) after filtering)

圖6 光學(xué)赤足圖像的數(shù)據(jù)增廣效果圖Fig.6 Data augmentation of optical barefoot images ((a) filtering;(b) vertical flipping;(c) horizontal flipping;(d) rotating 10 degrees counterclockwise;(e) rotating 10 degrees clockwise)

圖7 壓力赤足圖像的數(shù)據(jù)增廣效果圖Fig.7 Data augmentation of pressure barefoot images ((a) filtering;(b) vertical flipping;(c) horizontal flipping;(d) rotating 10 degrees counterclockwise;(e) rotating 10 degrees clockwise)

2 基于非局部注意力的雙分支網(wǎng)絡(luò)

2.1 網(wǎng)絡(luò)總體結(jié)構(gòu)

采集的光學(xué)赤足圖像紋理信息較為完好,但是邊緣模糊,壓力值不準(zhǔn)確;采集的壓力赤足圖像的輪廓較為清晰,壓力變化對比鮮明,重壓面區(qū)域較清晰。由于不同模態(tài)足跡圖像的特征之間既有共性又有各自的獨(dú)特性,且赤足足跡圖像屬于細(xì)粒度圖像,不同個體赤足足跡圖像差異細(xì)微,而同一個體由于受環(huán)境、心理以及走路姿態(tài)等影響使得足跡圖像差異較大,即存在較大的類內(nèi)差異和較小的類間差異。針對足跡圖像的這些特點(diǎn),本文設(shè)計(jì)了一個雙分支卷積神經(jīng)網(wǎng)絡(luò)用于跨模態(tài)赤足足跡圖像的檢索。整個網(wǎng)絡(luò)包含特征提取(feature extractor)、特征嵌入(feature embedding)和雙約束損失(dual-constrained loss)3個模塊,如圖8所示。其中特征提取模塊采用兩個分支分別用于提取不同模態(tài)赤足圖像的特征;在特征嵌入模塊中,將特征提取模塊輸出的各模態(tài)特征進(jìn)行拼接(concat)實(shí)現(xiàn)參數(shù)共享,以構(gòu)建一個多模態(tài)的共享空間,同時引入非局部注意力機(jī)制(Wang等,2018),快速捕獲長范圍依賴,獲得更大感受野,專注赤足圖像整體壓力分布,從而學(xué)習(xí)到更優(yōu)的壓力分布多模態(tài)共享特征;為了增大赤足圖像特征的類間差異和減小類內(nèi)差異(Wang等,2019),減小光學(xué)模態(tài)與壓力模態(tài)圖像的語義鴻溝,在雙約束損失模塊引入交叉熵?fù)p失(cross-entropy loss,CE loss)和三元組損失(triplet loss,TRI loss)進(jìn)行網(wǎng)絡(luò)優(yōu)化。

圖8 跨模態(tài)足跡檢索網(wǎng)絡(luò)結(jié)構(gòu)Fig.8 The network architecture of cross-modal retrieval for footprint images

2.2 特征提取模塊

在深度學(xué)習(xí)領(lǐng)域,隨著網(wǎng)絡(luò)深度的增加,可能會伴隨梯度消失或梯度爆炸等問題,不利于網(wǎng)絡(luò)的收斂優(yōu)化。常用的ResNet50網(wǎng)絡(luò)(He等,2016)通過短接操作構(gòu)建了恒等映射,使原始粗略的特征與訓(xùn)練后得到的精細(xì)化特征相互補(bǔ)充融合,可以突出有用特征,過濾掉一些無用特征。同時ResNet50網(wǎng)絡(luò)的學(xué)習(xí)過程是去擬合殘差,不是直接擬合輸入和輸出,優(yōu)化更加簡單,不僅能夠?qū)W習(xí)有效的足跡特征,還使得梯度反向傳播時,更加不容易出現(xiàn)梯度消失等問題。因此本文采用經(jīng)過預(yù)訓(xùn)練的ResNet50網(wǎng)絡(luò)作為雙分支結(jié)構(gòu)中的每個單分支的基礎(chǔ)網(wǎng)絡(luò)。

ResNet50的網(wǎng)絡(luò)結(jié)構(gòu)圖如圖9所示,特征提取模塊由ResNet50網(wǎng)絡(luò)的layer1層之前的卷積層(convolution layer,Conv)、批量正則化(batch-normalization,BN)、ReLU(rectified linear unit)激活函數(shù)以及最大池化(max pooling,MaxPool)構(gòu)成,分別提取光學(xué)赤足圖像的特征和壓力赤足圖像的特征。

圖9 ResNet50網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.9 The network structure of ResNet50

2.3 特征嵌入模塊

將特征提取模塊輸出的各模態(tài)特征拼接(concat)后送入特征嵌入模塊,用于構(gòu)建多模態(tài)的共享空間。為了獲取更加充分全面的共享特征信息,特征嵌入模塊由ResNet50中的layer1—layer4層構(gòu)成,同時在layer2層和layer3層的每個殘差塊處都引入了非局部注意力模塊(Wang等,2018)。

在常規(guī)的卷積操作輸出特征圖中,每個空間位置的輸出值由輸入特征圖和卷積核在局部范圍內(nèi)進(jìn)行對應(yīng)元素相乘再相加獲得,而non-local注意力機(jī)制在計(jì)算每個空間位置輸出時,不是僅考慮局部元素,而是與圖像中所有空間位置計(jì)算相關(guān)性,并將相關(guān)性作為權(quán)重以表征當(dāng)前空間位置與其他空間位置的相似度。通過關(guān)注所有空間位置并取其加權(quán)平均值作為當(dāng)前空間位置的響應(yīng)值,從而增強(qiáng)赤足足跡圖像中的有效特征。同時,非局部注意力機(jī)制的輸入尺度多樣化,易與其他基礎(chǔ)網(wǎng)絡(luò)模型相結(jié)合。如圖8所示,本文在ResNet50基礎(chǔ)網(wǎng)絡(luò)的layer2和layer3中每個殘差塊處都引入了non-local注意力機(jī)制,該注意力機(jī)制的完整表達(dá)式為

zi=Wzyi+xi

(1)

式中,i是輸出特征圖的空間位置索引,xi表示空間位置i處的輸入特征向量,yi是對所有空間位置進(jìn)行加權(quán)學(xué)習(xí)全局信息的特征向量,形狀與xi相同,Wz表示訓(xùn)練過程中輸出特征向量z的學(xué)習(xí)參數(shù)。其中yi的表達(dá)式為

(2)

式中,j表示所有空間位置的索引,g(xj)表示進(jìn)行信息變換的一元輸入函數(shù),C(x)為保證變換前后整體信息不變的歸一化函數(shù),f(xi,xj)表示特征圖中空間位置i與空間位置j之間的相似度權(quán)重關(guān)系函數(shù),f(xi,xj)的表達(dá)式為

f(xi,xj)=θ(xi)Tφ(xj)

(3)

式中,θ(xi)表示用1 × 1卷積學(xué)習(xí)當(dāng)前位置的信息,φ(xj)表示用1 × 1卷積學(xué)習(xí)全局信息。通過將θ(xi)的轉(zhuǎn)置與φ(xj)進(jìn)行矩陣相乘操作,計(jì)算位置i與位置j的相似度大小。

該注意力機(jī)制的實(shí)現(xiàn)細(xì)節(jié)如圖10所示。其中,x表示形狀為[b,c,h,w]的特征向量,b表示每個模態(tài)的批量處理數(shù)目,c表示特征圖的通道數(shù),h和w分別表示特征圖的高度和寬度。對x經(jīng)過1×c×1×1卷積(輸入通道為c,輸出通道為1的1×1卷積)操作,得到形狀為[b,1,h,w]的特征向量fea1。fea1經(jīng)過變維操作1后得到形狀為[b,h×w,1]的特征向量,記為g(x);fea1經(jīng)過變維操作2后得到兩個形狀均為[b,1,h×w]的特征向量,分別記為θ(x)和φ(x),將θ(x)的轉(zhuǎn)置與φ(x)進(jìn)行對應(yīng)元素相乘,得到f(xi,xj);經(jīng)過1/N(N=h×w)得到歸一化的特征向量,與g(x)進(jìn)行對應(yīng)元素相乘的加權(quán)操作,并經(jīng)過變維操作3得到形狀為[b,1,h,w]的特征向量fea2;然后通過c×1×1×1卷積(輸入通道為1,輸出通道為c的1×1卷積)操作和BN正則化操作,輸出與x形狀相同的特征向量。最后將y與原始輸入特征向量x進(jìn)行對應(yīng)元素相加,從而學(xué)習(xí)到更有關(guān)聯(lián)的共享特征z,減小了模態(tài)間的特征差異。

圖10 Non-local 注意力模塊原理圖Fig.10 The schematic diagram of non-local attention module

2.4 雙約束損失模塊

為了能夠同時考慮到模態(tài)內(nèi)和模態(tài)間的特征差異,使網(wǎng)絡(luò)學(xué)習(xí)到更好的跨模態(tài)共享特征,本文損失函數(shù)采用交叉熵?fù)p失和三元組損失雙約束方式進(jìn)行網(wǎng)絡(luò)優(yōu)化。損失函數(shù)具體結(jié)構(gòu)如圖11所示,其中光學(xué)足跡特征和壓力足跡特征為圖8中特征提取模塊輸出的光學(xué)模態(tài)特征向量和壓力模態(tài)特征向量,通過在第1維度上concat后得到fea1特征向量,再依次經(jīng)過ResNet50的layer1、layer2、layer3、layer4,以實(shí)現(xiàn)特征嵌入模塊中的參數(shù)共享。為獲得更有辨別性的模態(tài)特征,學(xué)習(xí)到一個更好的模態(tài)共享空間,本文在layer2和layer3中的每個殘差塊處引入non-local注意力機(jī)制進(jìn)行訓(xùn)練,將最后輸出的特征向量經(jīng)過兩種不同處理分別得到交叉熵?fù)p失(CE loss)和三元組損失(TRI loss)。本文總的損失函數(shù)為

圖11 損失函數(shù)結(jié)構(gòu)圖Fig.11 Structure diagram of loss function

Ltotal=LCE+LTRI

(4)

式中,LCE為交叉熵?fù)p失,LTRI為三元組損失。

交叉熵?fù)p失是利用特定模態(tài)信息學(xué)習(xí)類別特征,并對各模態(tài)的類內(nèi)特征進(jìn)行約束,使類間差異增大,同時也有助于增加跨模態(tài)樣本的相關(guān)性(Ye等,2018b)。如圖11所示,將由廣義平均池化(generalized mean pooling,GmPool)操作產(chǎn)生的特征向量,經(jīng)過正則化(BN)、全連接層(FC1)和softmax函數(shù),結(jié)合標(biāo)簽計(jì)算得到交叉熵?fù)p失,其中正則化可以在一定程度上提升網(wǎng)絡(luò)訓(xùn)練速度,加快收斂過程。

交叉熵?fù)p失(CE loss)計(jì)算為

(5)

式中,i表示樣本索引,K表示2 × batch_size,其中batch_size為網(wǎng)絡(luò)訓(xùn)練的超參數(shù),本文設(shè)置batch_size為16;j表示類別索引,n表示總的類別數(shù),本文設(shè)置n為82;xi為第i個樣本的特征向量,yi表示樣本i的真實(shí)類別,wj表示權(quán)重的第j列,wyi表示權(quán)重的第yi列,byi表示偏置的第yi列。該損失值越小,表示預(yù)測概率分布與真實(shí)概率分布之間的差異越小。

三元組損失(Liu等,2020)通過在跨模態(tài)共享空間中促使每幅足跡圖像與相同類別圖像之間的距離小于其與不同類別圖像之間的距離,以進(jìn)一步解決圖像檢索中類內(nèi)距離大于類間距離的問題。如圖11所示,將經(jīng)過池化層GmPool的特征向量,結(jié)合每個模態(tài)的標(biāo)簽計(jì)算可得到三元組損失。

三元組損失(TRI loss)計(jì)算為

(6)

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)所用計(jì)算機(jī)帶有兩塊NVIDIA 2070ti,系統(tǒng)環(huán)境為Linux操作系統(tǒng),網(wǎng)絡(luò)模型均在PyTorch中搭建。本文應(yīng)用sampler方式選取訓(xùn)練圖像,各模態(tài)赤足圖像在每次迭代時的批處理大小均設(shè)置為16,其中隨機(jī)選擇4個不同類別,每個類別對應(yīng)4幅不同的圖像。同時各模態(tài)赤足圖像在每次迭代時選取的類別須對應(yīng)。圖像尺寸設(shè)置為224 × 224像素,并采用翻轉(zhuǎn)、旋轉(zhuǎn)等預(yù)處理操作。損失函數(shù)使用交叉熵?fù)p失(CE loss)和三元組損失(TRI loss)進(jìn)行雙約束。優(yōu)化器采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.01,訓(xùn)練輪數(shù)在[0,9]范圍內(nèi)時學(xué)習(xí)率按0.01進(jìn)行增加,訓(xùn)練輪數(shù)在[10,20)范圍內(nèi)時學(xué)習(xí)率為0.1,訓(xùn)練輪數(shù)在[20,50)范圍內(nèi)學(xué)習(xí)率為0.01,訓(xùn)練輪數(shù)在[50,80]范圍內(nèi)時學(xué)習(xí)率為0.001。本算法共訓(xùn)練81個epoch。

3.2 評價指標(biāo)

本文選用Dai等人(2019)和Zhao等人(2019)采用的評價指標(biāo)評估赤足圖像跨模態(tài)檢索的性能,包括mAP和CMC(cumulative match characteristic curve)中的rank1(R1)、rank5(R5)和rank10(R10)。rank1表示首位檢索到的概率,相較于其他rank值使用更為廣泛。為進(jìn)一步驗(yàn)證本文算法對赤足足跡圖像跨模態(tài)互檢索的有效性,實(shí)驗(yàn)過程中將兩種檢索模式下的mAP均值(mAP_Avg)和rank1均值(R1_Avg)也同時作為評價指標(biāo)。其中mAP_g2y和R1_g2y分別表示光學(xué)到壓力檢索模式下的mAP值和rank1值,mAP_y2g和R1_y2g分別表示壓力到光學(xué)檢索模式下的mAP值和rank1值。

3.3 數(shù)據(jù)集的劃分

實(shí)驗(yàn)數(shù)據(jù)集劃分為訓(xùn)練集、驗(yàn)證集和測試集。其中,訓(xùn)練集包含82人,驗(yàn)證集包含28人,測試集包含28人,人數(shù)比例為6 ∶2 ∶2。為了保證實(shí)驗(yàn)的公平性和有效性,須保證訓(xùn)練集、驗(yàn)證集和測試集的類別和圖像各不交叉重疊。訓(xùn)練集包括82人的8 200幅光學(xué)赤足圖像和8 200幅壓力赤足圖像。驗(yàn)證集包括兩種檢索模式,一種是根據(jù)光學(xué)圖像檢索壓力圖像,另一種是根據(jù)壓力圖像檢索光學(xué)圖像。同時將查詢集和檢索集的數(shù)據(jù)量比例設(shè)置為1 ∶2,即查詢集中每人50幅圖像,檢索集中每人100幅圖像。測試集的圖像數(shù)目分布與驗(yàn)證集相同。在每輪訓(xùn)練結(jié)束后都對驗(yàn)證集進(jìn)行性能評測,得到mAP和rank值,并且按照rank1最高值保存最優(yōu)模型。為證明模型的有效性,最終運(yùn)用保存的最優(yōu)模型對測試集進(jìn)行性能評測,記錄和保存最后的實(shí)驗(yàn)結(jié)果數(shù)據(jù)。

3.4 實(shí)驗(yàn)結(jié)果及分析

本文設(shè)計(jì)了基于非局部(non-local)注意力雙分支網(wǎng)絡(luò)架構(gòu)的跨模態(tài)赤足足跡檢索算法。對比實(shí)驗(yàn)包括以下4個方面:1)non-local注意力機(jī)制對檢索性能的影響;2)采用不同損失函數(shù)的對比;3)特征嵌入模塊后采用不同池化方法的對比;4)將本文算法與跨模態(tài)檢索領(lǐng)域的FGC(fine-grained cross-media)方法以及跨模態(tài)行人重識別領(lǐng)域的HC(hetero center)方法進(jìn)行比較。

3.4.1 非局部注意力機(jī)制對檢索性能的影響

為驗(yàn)證本文算法中non-local注意力機(jī)制對足跡圖像跨模態(tài)檢索性能的影響,對網(wǎng)絡(luò)是否使用non-local注意力機(jī)制以及將該注意力機(jī)制應(yīng)用在ResNet50網(wǎng)絡(luò)的不同位置進(jìn)行對比分析,實(shí)驗(yàn)結(jié)果如表3所示。其中Non0、Non23、Non146和Non46分別表示不使用non-local注意力機(jī)制和將non-local注意力機(jī)制應(yīng)用在ResNet50網(wǎng)絡(luò)的不同殘差塊上的4種實(shí)驗(yàn)方法,Non46為本文方法。ResNet50網(wǎng)絡(luò)在layer1、layer2、layer3和layer4上的殘差塊數(shù)目分別是3、4、6和3。Non23表示注意力機(jī)制應(yīng)用在layer2層中的后2個殘差塊和layer3層中的前3個殘差塊;Non46表示注意力機(jī)制應(yīng)用在layer2層中的4個殘差塊和layer3層中的6個殘差塊;Non146表示注意力機(jī)制應(yīng)用在layer1層中的最后一個殘差塊、layer2層中的4個殘差塊和layer3層中的6個殘差塊。實(shí)驗(yàn)結(jié)果表明,Non46方法的效果最優(yōu),其中mAP_Avg和R1_Avg分別達(dá)到83.95%和96.5%,相較于Non0,分別高出0.63%和0.78%;相較于Non23,分別高出0.72%和0.07%;相較于Non146,分別高出1.66%和0.21%。

表3中Non0方法的mAP_Avg和R1_Avg分別為83.32%和95.72%,Non23、Non46和Non146方法的R1_Avg均高于Non0,但Non23和Non146方法的mAP_Avg比Non0低0.09%和1.03%,僅本文采用的Non46方法的mAP_Avg比Non0高出0.63%。上述結(jié)果說明,該non-local注意力機(jī)制通??梢栽谝欢ǔ潭壬蠋椭W(wǎng)絡(luò)更好地進(jìn)行跨模態(tài)檢索的特征學(xué)習(xí),進(jìn)一步提高檢索精度。同時,non-local注意力機(jī)制應(yīng)用在ResNet50網(wǎng)絡(luò)的具體位置會影響最終的檢索結(jié)果。

Non23和Non46方法皆是將注意力機(jī)制應(yīng)用在ResNet50的layer2層和layer3層,區(qū)別僅在于具體應(yīng)用的殘差塊上。表3中的實(shí)驗(yàn)結(jié)果比較直觀地體現(xiàn)了相同層不同殘差塊上的檢索效果差異。其中,Non46方法的mAP_Avg和R1_Avg分別比Non23高0.72%和0.07%,說明將注意力機(jī)制應(yīng)用在layer2層和layer3層的所有殘差塊可以進(jìn)行遠(yuǎn)距離深層次的信息交互(Wang等,2018),更有利于本文針對跨模態(tài)檢索的研究。

表3中Non146方法的mAP_Avg和R1_Avg分別為82.29%和96.29%,相較于最優(yōu)實(shí)驗(yàn)效果的Non46方法降低了1.66%和0.21%。該實(shí)驗(yàn)結(jié)果表明在layer1層引入non-local注意力機(jī)制不利于跨模態(tài)特征的學(xué)習(xí),與layer1層學(xué)習(xí)到的淺層足跡信息相比,layer2層和layer3含有更為豐富的細(xì)節(jié)信息,使得non-local注意力機(jī)制能夠捕獲更具辨別性的特征。

表3 本文算法中non-local注意力機(jī)制對檢索性能的影響Table 3 The effect of non-local attention mechanism in the algorithm on retrieval performance /%

3.4.2 不同損失函數(shù)的對比實(shí)驗(yàn)

實(shí)驗(yàn)對網(wǎng)絡(luò)采用的損失函數(shù)進(jìn)行對比,結(jié)果如圖12所示。CE表示僅使用交叉熵?fù)p失,TRI表示僅使用三元組損失,CE_TRI表示交叉熵?fù)p失和三元組損失的雙約束損失。實(shí)驗(yàn)結(jié)果表明,使用交叉熵?fù)p失(CE loss)和三元組損失(TRI loss)的雙約束損失下檢索效果最優(yōu),mAP_Avg值為83.95%,R1_Avg值為96.5%,相較于僅使用CE損失分別提高了7.93%和3.46%;相較于僅使用TRI損失分別提高了30.84%和17.96%。

圖12 采用不同損失函數(shù)的結(jié)果柱狀圖Fig.12 Histogram of results using different loss functions

交叉熵?fù)p失衡量的是實(shí)際輸出與期望輸出之間的差異大小。差異越大,參數(shù)調(diào)整得越快,收斂速度也越快。雖然三元組損失可以針對細(xì)粒度赤足足跡圖像的特點(diǎn)實(shí)現(xiàn)增大類間距離且減小類內(nèi)距離,但僅使用三元組損失而省略交叉熵?fù)p失,在一定程度上加大了訓(xùn)練難度。從圖12中對比數(shù)據(jù)可知,只采用TRI時,mAP_Avg值為53.11%,R1_Avg值為78.54%,相較于CE損失,分別降低了22.91%和14.5%。因此,在本文研究任務(wù)上,交叉熵?fù)p失的實(shí)驗(yàn)效果更優(yōu)于三元組損失。而本文采用雙約束損失CE_TRI,融合了CE損失和TRI損失的優(yōu)點(diǎn),均優(yōu)于僅使用CE損失或僅使用TRI損失的實(shí)驗(yàn)效果。

3.4.3 特征嵌入模塊后采用不同池化方法的對比

為驗(yàn)證不同池化方法對檢索性能的影響,本文分別在特征嵌入模塊后采用3種池化方法進(jìn)行對比分析,即最大池化(MaxPool)、平均池化(AvgPool)和廣義平均池化(GmPool)。該對比實(shí)驗(yàn)結(jié)果如圖13所示,其中橫坐標(biāo)為3種不同池化方法的檢索精度。從對比數(shù)據(jù)可以看出,采用廣義平均池化效果最好,mAP_Avg和R1_Avg分別為83.95%和96.5%,相較于最大池化分別提高了4.79%和2.18%;相較于平均池化分別提高了3.07%和1.46%。

圖13 特征嵌入模塊后采用不同池化方法的結(jié)果柱狀圖Fig.13 Histogram of results adopting different pooling methods after the feature embedding module

3.4.4 與其他跨模態(tài)檢索方法的比較

為了驗(yàn)證本文算法的有效性,在本文采用的赤足足跡數(shù)據(jù)集上,分別與跨模態(tài)檢索領(lǐng)域提出的具有代表性的FGC方法(He等,2019)和HC方法(Zhu等,2019)進(jìn)行對比分析。FGC的研究對象是細(xì)粒度圖像及其對應(yīng)的文本、聲音和視頻的多模態(tài)數(shù)據(jù),取得了一定的跨模態(tài)檢索效果;HC的研究對象分別是三通道彩色圖的可見光行人圖像和單通道灰度圖的紅外光行人圖像,也取得了不錯的效果。實(shí)驗(yàn)結(jié)果如表4所示。結(jié)果表明,本文算法效果最優(yōu),mAP_Avg、R1_Avg、R5_Avg和R10_Avg值分別為83.95%、96.50%、98.13%和98.74%,相較于FGC分別高出40.01%、36.50%、20.42%和16.1%;相較于HC分別高出26.07%、19.32%、20.95%和6.81%。

表4 本文算法與FGC和HC方法的結(jié)果對比Table 4 Comparison of results among FGC,HC and ours /%

FGC是將每個模態(tài)原始輸入樣本在第1維度上進(jìn)行拼接后再經(jīng)過一個單分支ResNet50網(wǎng)絡(luò)進(jìn)行多模態(tài)的學(xué)習(xí),損失函數(shù)采用交叉熵?fù)p失和中心損失,以實(shí)現(xiàn)各模態(tài)類別的分類以及增加各模態(tài)中同類別特征的緊致性,但是該中心損失僅有益于拉近同模態(tài)的類內(nèi)特征距離,忽略了跨模態(tài)的類內(nèi)之間的距離。

HC方法采用的也是雙分支網(wǎng)絡(luò)架構(gòu),損失函數(shù)包括交叉熵?fù)p失和異質(zhì)中心(hetero-center)損失。其中,異質(zhì)中心損失通過拉近跨模態(tài)同類別樣本的中心距離減少跨模態(tài)類內(nèi)差異,但是由于雙分支網(wǎng)絡(luò)結(jié)構(gòu)的復(fù)雜性以及嵌入模塊位于網(wǎng)絡(luò)的后端,難以有效地學(xué)習(xí)跨模態(tài)赤足足跡特征。

本文設(shè)計(jì)的跨模態(tài)赤足足跡檢索算法采用雙分支網(wǎng)絡(luò),結(jié)構(gòu)簡單,有助于網(wǎng)絡(luò)學(xué)習(xí)到不同模態(tài)的足跡特征。同時,運(yùn)用non-local注意力機(jī)制獲取更有辨別性的特征,采用交叉熵?fù)p失和三元組損失的雙約束方式,考慮到了模態(tài)內(nèi)和模態(tài)間的特征差異問題,對整個網(wǎng)絡(luò)進(jìn)行有效優(yōu)化,在赤足足跡圖像的跨模態(tài)檢索任務(wù)上,相較于FGC方法和HC方法,具有更高效的跨模態(tài)檢索性能。

4 結(jié) 論

足跡檢索在犯罪案件偵查、身份識別等領(lǐng)域發(fā)揮著重要作用。針對目前足跡檢索中采集設(shè)備種類多樣化的問題,本文以光學(xué)和壓力赤足足跡為研究對象,構(gòu)建了138人的光學(xué)和壓力赤足足跡圖像數(shù)據(jù)庫,提出一種基于細(xì)粒度足跡圖像的非局部注意力雙分支網(wǎng)絡(luò)模型,對赤足足跡圖像的跨模態(tài)互檢索問題進(jìn)行了研究。該模型由特征提取、特征嵌入和雙約束損失3個模塊組成。在特征提取模塊的各個分支上均采用ResNet50作為基礎(chǔ)網(wǎng)絡(luò)進(jìn)行足跡有效特征的學(xué)習(xí)。為了減小跨模態(tài)的異構(gòu)性,在特征嵌入模塊通過參數(shù)共享以學(xué)習(xí)到一個多模態(tài)的共享空間。同時,為了獲得更有辨別性的多模態(tài)足跡特征,該模型在網(wǎng)絡(luò)的layer2層和layer3層的所有殘差塊上采用了non-local注意力機(jī)制,用于學(xué)習(xí)特征圖中每個空間位置與所有空間位置之間的相似度權(quán)重關(guān)系,從而增強(qiáng)足跡有用特征,同時突出跨模態(tài)的共享特征。為了增大不同類別之間差異和減小相同類別之間的差異,本文算法還采用了交叉熵?fù)p失和三元組損失的雙約束損失進(jìn)行網(wǎng)絡(luò)優(yōu)化。

在跨模態(tài)赤足足跡數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文采用的non-local注意力機(jī)制、不同損失函數(shù)和在特征嵌入模塊后采用不同池化方法對跨模態(tài)赤足足跡檢索效果較好。同時,與細(xì)粒度圖像的跨模態(tài)檢索方法FGC和跨模態(tài)行人重識別方法HC在足跡數(shù)據(jù)集上的實(shí)驗(yàn)效果進(jìn)行對比分析,結(jié)果表明,本文方法的mAP和rank1指標(biāo)均取得最優(yōu)效果。

由于本文主要采用注意力機(jī)制構(gòu)造一個跨模態(tài)共享空間,且針對的研究對象是基于光學(xué)和壓力兩個模態(tài)的赤足足跡圖像,所以未來考慮使用對抗網(wǎng)絡(luò)學(xué)習(xí)更有效的足跡特征。下一步將考慮在穿鞋、穿襪和捺印等其他模態(tài)足跡圖像中,利用對抗網(wǎng)絡(luò)中的生成器和判別器,更好地解決模態(tài)內(nèi)和模態(tài)間的特征差異問題,進(jìn)一步提升跨模態(tài)檢索精度。

猜你喜歡
模態(tài)足跡檢索
聯(lián)合仿真在某車型LGF/PP尾門模態(tài)仿真上的應(yīng)用
EASY-EV通用底盤模態(tài)試驗(yàn)
黨的足跡
CNKI檢索模式結(jié)合關(guān)鍵詞選取在檢索中的應(yīng)用探討
通過實(shí)際案例談如何利用外文庫檢索提高檢索效率
瑞典專利數(shù)據(jù)庫的檢索技巧
模態(tài)可精確化方向的含糊性研究
習(xí)近平的外交足跡
英國知識產(chǎn)權(quán)局商標(biāo)數(shù)據(jù)庫信息檢索
中國足跡