国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于圖像和特征聯(lián)合優(yōu)化的跨模態(tài)行人重識(shí)別研究

2023-06-03 09:45:25張輝劉世洪鐘武

張輝 劉世洪 鐘武

摘要:跨模態(tài)行人重識(shí)別(VI-ReID)旨在匹配可見(jiàn)光和紅外攝像頭下捕獲的行人圖像,十分具有挑戰(zhàn)性。為減小可見(jiàn)光圖像和紅外圖像之間的模態(tài)差異,本文提出了異質(zhì)圖像增廣方法和跨模態(tài)特征對(duì)齊方法來(lái)優(yōu)化跨模態(tài)行人重識(shí)別網(wǎng)絡(luò),利用輕量級(jí)異質(zhì)圖像卷積生成器對(duì)可見(jiàn)光圖像進(jìn)行增廣,采用色彩抖動(dòng)方式對(duì)紅外圖像進(jìn)行增廣,并使用正樣本優(yōu)化輕量級(jí)異構(gòu)圖像卷積生成器來(lái)約束損失。在此基礎(chǔ)上,使用兩個(gè)模態(tài)分類器和跨模態(tài)特征對(duì)齊損失作為指導(dǎo),不斷學(xué)習(xí)獲得模態(tài)共享的特征。在兩個(gè)數(shù)據(jù)集上的大量實(shí)驗(yàn)表明,我們的方法具有優(yōu)異的性能,在SYSU-MM01和RegDB數(shù)據(jù)集上分別達(dá)到了rank1/mAP 57.82%/54.35%和80.39%/75.05%的精度。

關(guān)鍵詞:跨模態(tài)行人重識(shí)別;模態(tài)差異;異質(zhì)圖像增廣;跨模態(tài)特征對(duì)齊

中圖分類號(hào):TP391.41? ? ? 文獻(xiàn)標(biāo)志碼:A? ? ? 文章編號(hào):1008-4657(2023)02-0009-09

0? ? ? ? 引言

可見(jiàn)光-紅外的跨模態(tài)行人重識(shí)別(Cross-Modality? Person? Re-identification)是安防監(jiān)控領(lǐng)域中非常重要的一項(xiàng)技術(shù),具有重要的研究意義和廣泛的應(yīng)用場(chǎng)景。Ye等[ 1-2 ]設(shè)計(jì)了由特征提取和距離度量組合成的端到端學(xué)習(xí)框架,采用雙流卷積神經(jīng)網(wǎng)絡(luò),同時(shí)處理跨模態(tài)和模態(tài)內(nèi)差異。Dai等[ 3 ]引入了生成對(duì)抗學(xué)習(xí)框架,通過(guò)改進(jìn)三元組損失函數(shù)和交叉熵?fù)p失函數(shù)共同約束身份類別和模態(tài)類別。Wang等[ 4-5 ]討論了在跨模態(tài)行人重識(shí)別中,基于雙流卷積神經(jīng)網(wǎng)絡(luò)的共享參數(shù)問(wèn)題,并借鑒中心損失[ 6 ](Center? Loss)思想提出基于異質(zhì)中心的三元組損失(Hetero-Center? based? Triplet? Loss)。以上方法都是在特征層面上試圖對(duì)兩種模態(tài)的特征進(jìn)行約束,提升網(wǎng)絡(luò)匹配跨模態(tài)圖像的性能,然而不同光譜圖像之間是像素級(jí)的劇烈不平衡,因此效果仍然無(wú)法令人滿意。

圖像層面上,一些工作利用生成對(duì)抗網(wǎng)絡(luò)來(lái)減小模態(tài)差異的影響,Wang等人[ 7 ]先將當(dāng)前模態(tài)圖像生成對(duì)應(yīng)另一模態(tài)的圖像,通過(guò)生成圖像和原圖像在通道上疊加后組合成多光譜圖像,統(tǒng)一圖像的模態(tài)后,再將多光譜圖像作為特征提取網(wǎng)絡(luò)的輸入。一種對(duì)齊生成對(duì)抗網(wǎng)絡(luò)[ 8 ](Alignment? Generative? Adversarial? Network,AlignGAN)將跨模態(tài)行人重識(shí)別任務(wù)分為像素對(duì)齊、特征對(duì)齊和聯(lián)合鑒別器三個(gè)模塊,減小了跨模態(tài)和模態(tài)內(nèi)行人圖像變化所帶來(lái)的影響。但是,生成對(duì)抗網(wǎng)絡(luò)需要依賴大量的訓(xùn)練數(shù)據(jù),收斂速度慢,計(jì)算成本比較高,而且生成圖像不同于原始圖像的結(jié)構(gòu),生成圖像的分辨率更低,并引入了許多噪聲。

雖然目前在跨模態(tài)行人重識(shí)別領(lǐng)域中已經(jīng)出現(xiàn)了很多方法,但是仍然面臨著兩個(gè)主要挑戰(zhàn),第一是處理由光照不同、行人姿態(tài)變化、跨攝像頭視角變化帶來(lái)的行人樣本間的外觀差異[ 9 ],第二是處理由于可見(jiàn)光、紅外兩種模態(tài)下攝像頭捕獲的行人圖像高度異構(gòu)而產(chǎn)生的模態(tài)差異。本文在傳統(tǒng)單模態(tài)行人重識(shí)別方法的基礎(chǔ)上,構(gòu)建了應(yīng)用于跨模態(tài)場(chǎng)景的雙流網(wǎng)絡(luò)[ 10 ],利用批次樣本三元組損失[ 11 ]度量高維特征空間內(nèi)行人特征的距離,并使用基于交叉熵計(jì)算的身份分類損失對(duì)行人類別進(jìn)行約束,在網(wǎng)絡(luò)訓(xùn)練過(guò)程中不斷減小同一行人多個(gè)樣本間外觀差異帶來(lái)的影響。

針對(duì)不同模態(tài)下行人樣本間的模態(tài)差異,在圖像層面上,提出了一種基于雙流網(wǎng)絡(luò)的異質(zhì)圖像增廣(Heterogeneous? Image? Augmentation,HIA)方法,原始可見(jiàn)光圖像經(jīng)過(guò)輕量級(jí)異質(zhì)圖像卷積生成器轉(zhuǎn)變?yōu)楫愘|(zhì)圖像,紅外圖像經(jīng)過(guò)色彩抖動(dòng)處理后轉(zhuǎn)變?yōu)榱炼取?duì)比度和飽和度不斷變化的新紅外圖像。異質(zhì)圖像和新紅外圖像都是在原始圖像上的增廣圖像,它們與原始圖像共同作為雙流網(wǎng)絡(luò)的輸入,可以減小圖像層面上的模態(tài)差異,使網(wǎng)絡(luò)更容易學(xué)到模態(tài)間的共享特征。在特征層面上,提出了一種基于模態(tài)分類的跨模態(tài)特征對(duì)齊方法(Cross-modality? Feature? Alignment,CFA),對(duì)可見(jiàn)光和紅外模態(tài)設(shè)置預(yù)定義標(biāo)簽,雙流網(wǎng)絡(luò)提取出兩種模態(tài)的特征后,模態(tài)分類器對(duì)兩種模態(tài)特征按照預(yù)定義標(biāo)簽來(lái)分類,并更新模態(tài)分類器部分權(quán)重參數(shù),然后通過(guò)設(shè)計(jì)跨模態(tài)特征對(duì)齊損失,在優(yōu)化特征提取網(wǎng)絡(luò)中使模態(tài)分類器將兩種模態(tài)特征分類為相反標(biāo)簽。在不斷迭代的過(guò)程中,模態(tài)分類器和特征提取網(wǎng)絡(luò)交替更新各自模型參數(shù),引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)模態(tài)共享特征,減小了特征層面上的模態(tài)差異。

1? ? ? ?圖像和特征聯(lián)合優(yōu)化方法

本文提出的方法是在圖像和特征兩個(gè)層面上來(lái)減小跨模態(tài)行人重識(shí)別中的模態(tài)差異,進(jìn)而優(yōu)化跨模態(tài)行人重識(shí)別網(wǎng)絡(luò)的性能,該方法主要包含兩個(gè)部分。(1)異質(zhì)圖像增廣(HIA):設(shè)計(jì)輕量級(jí)異質(zhì)圖像卷積生成器用于可見(jiàn)光圖像的增廣,采用色彩抖動(dòng)處理方式進(jìn)行紅外圖像的增廣,設(shè)計(jì)正樣本對(duì)約束損失Lp用于優(yōu)化異質(zhì)圖像卷積生成器。(2)跨模態(tài)特征對(duì)齊(CFA):在兩個(gè)模態(tài)的圖像特征共同嵌入時(shí),設(shè)計(jì)模態(tài)特征對(duì)齊模塊Lcfa,用于在統(tǒng)一特征空間內(nèi)拉近兩個(gè)模態(tài)的特征。

將本文方法應(yīng)用到跨模態(tài)行人重識(shí)別的整體網(wǎng)絡(luò)結(jié)構(gòu)后(圖1),其工作步驟是:

(1)兩種模態(tài)的圖像進(jìn)行增廣后,通過(guò)權(quán)重獨(dú)立的淺層網(wǎng)絡(luò)提取各自模態(tài)的特征,再通過(guò)權(quán)重共享的網(wǎng)絡(luò)將兩種模態(tài)的特征映射到統(tǒng)一的特征空間內(nèi),經(jīng)過(guò)全局平均池化(Global Average Pool,GAP)后得到可見(jiàn)光和紅外模態(tài)2048維度的高維特征。在網(wǎng)絡(luò)訓(xùn)練反向傳播的過(guò)程中,利用正樣本對(duì)約束損失Lp,優(yōu)化可見(jiàn)光圖像經(jīng)過(guò)異質(zhì)圖像卷積生成器后生成的異質(zhì)圖像。

(2)在高維特征空間中,采用批次難樣本三元組損失函數(shù)Lbhtri進(jìn)行特征距離度量,使用設(shè)計(jì)的模態(tài)特征對(duì)齊模塊Lcfa減小模態(tài)差異帶來(lái)的影響。然后,高維特征經(jīng)過(guò)批量歸一化層(Batch? Normalization,BN)以保證網(wǎng)絡(luò)穩(wěn)定收斂,并使用參數(shù)共享的全連接層(Fully? Connected? Layers,F(xiàn)C)對(duì)模態(tài)共享信息進(jìn)行建模,最后計(jì)算基于交叉熵的身份分類損失對(duì)行人身份進(jìn)行分類。

其中圖2(a)為灰度-零填充:由于紅外圖像中不含顏色信息,因此文獻(xiàn)[ 3 ]提出了一個(gè)深度零填充的特征學(xué)習(xí)網(wǎng)絡(luò)框架,將所有行人圖像灰度化后零填充,形成兩通道圖像,輸入到權(quán)重共享的單流網(wǎng)絡(luò)中學(xué)習(xí)。然而這樣的處理方式未利用到所有信息,它忽略了可見(jiàn)光圖像中重要的顏色信息。

圖2(b)為RGB-灰度:文獻(xiàn)[ 1 ]采用雙流網(wǎng)絡(luò),直接使用RGB三通道的可見(jiàn)光圖像和由單通道重復(fù)擴(kuò)展為三通道的紅外圖像作為輸入,然后將特征嵌入到統(tǒng)一空間中學(xué)習(xí)跨模態(tài)特征表示,網(wǎng)絡(luò)性能的提升證明了顏色信息對(duì)跨模態(tài)行人重識(shí)別任務(wù)是有益的。此后,為了適配網(wǎng)絡(luò)的輸入,將紅外圖像的單通道重復(fù)擴(kuò)展為三通道灰度圖像。

圖2(c)為GAN生成:生成對(duì)抗網(wǎng)絡(luò)[ 11 ](GAN)可以生成當(dāng)前模態(tài)對(duì)應(yīng)的另一域的行人圖像,在圖像層面上達(dá)成“模態(tài)統(tǒng)一”,其思想就是應(yīng)用圖像風(fēng)格遷移的方式,將跨模態(tài)轉(zhuǎn)換成單模態(tài)下的行人重識(shí)別。但是GAN生成圖像與原始圖像相比,噪聲增加,清晰度和分辨率下降,部分有益信息會(huì)丟失。另外,如果利用GAN將紅外圖像生成可見(jiàn)光圖像,由于沒(méi)有顏色信息的監(jiān)督,生成圖像將更加不可靠。

現(xiàn)有的圖像生成方法大多是利用GAN達(dá)到“模態(tài)統(tǒng)一”,但此方法沒(méi)有充分利用可見(jiàn)光圖像的顏色信息,顏色信息對(duì)于每個(gè)模態(tài)下的行人聚類是有益的。所以,為了解決RGB圖像與紅外圖像之間高度異構(gòu)的問(wèn)題,本文提出了一個(gè)新的異質(zhì)圖像增廣方法,即圖2(d)。

圖2(d)為本文方法:采用雙流網(wǎng)絡(luò)作為基礎(chǔ)網(wǎng)絡(luò),通過(guò)異質(zhì)圖像卷積生成器生成的異質(zhì)圖像減小模態(tài)差異,使用色彩抖動(dòng)對(duì)紅外圖像進(jìn)行處理,模擬光照變化。生成圖像作為原始圖像的增廣樣本,在減少模態(tài)差異的同時(shí),還利用了原始行人圖像中顏色、紋理等有益信息。

對(duì)于可見(jiàn)光圖像,如圖3所示,輕量級(jí)異質(zhì)圖像卷積生成器采用的卷積核,將尺寸為(通道數(shù)/高度/寬度)的RGB三通道圖像在通道上降維壓縮成單通道圖像,隨后采用修正線性單元(Rectiflied Linear Unit,ReLU)和批量歸一化(Batch Normalization,BN),以改善模型的非線性表達(dá)能力,輸出的單通道圖像擴(kuò)展為與紅外一致的三通道圖像。通過(guò)異質(zhì)圖像卷積生成器生成的新樣本與紅外圖像一起輸入到雙流網(wǎng)絡(luò)中統(tǒng)一進(jìn)行訓(xùn)練,隨著損失函數(shù)的逐漸收斂和網(wǎng)絡(luò)反向傳播優(yōu)化,訓(xùn)練過(guò)后的異質(zhì)圖像卷積生成器能夠生成近似紅外的新圖像。

實(shí)驗(yàn)結(jié)果表明,異質(zhì)圖像增廣方法(HIA)在兩種搜索模式下均達(dá)到了很好的效果,在常用的全搜索模式下,將本文構(gòu)建的基礎(chǔ)雙流網(wǎng)絡(luò)(Baseline)與應(yīng)用HIA方法的雙流網(wǎng)絡(luò)(Baseline+HIA)進(jìn)行對(duì)比,后者在rank-1和mAP上的絕對(duì)百分比提高了6.21%和4.31%。將Baseline與應(yīng)用HIA和CFA方法的雙流網(wǎng)絡(luò)(Baseline+HIA+CFA)進(jìn)行對(duì)比,后者在在rank-1和mAP上的絕對(duì)百分比提高了9.30%和6.20%。

如表4所示,分別在RegDB數(shù)據(jù)集的兩種測(cè)試模式(可見(jiàn)光檢索紅外和紅外檢索可見(jiàn)光)下進(jìn)行測(cè)試實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明,在可見(jiàn)光檢索紅外模式下,與Baseline相比,HIA方法使rank-1和mAP值絕對(duì)百分比分別提升了5.62%和5.11%,HIA和CFA聯(lián)合優(yōu)化方法使rank-1和mAP值絕對(duì)百分比分別提升了8.38%和7.30%。

3? ? 結(jié)論

為了減少可見(jiàn)光圖像和紅外圖像之間的模態(tài)差異,在圖像層面上,我們提出了基于雙流網(wǎng)絡(luò)的異質(zhì)圖像增廣方法,利用輕量級(jí)異質(zhì)圖像卷積生成器從原始可見(jiàn)光圖像生成異質(zhì)圖像,采用色彩抖動(dòng)方式從原始紅外圖像生成新紅外圖像,在此基礎(chǔ)上,我們還設(shè)計(jì)了基于異質(zhì)圖像的正樣本對(duì)約束損失,用于優(yōu)化輕量級(jí)異質(zhì)圖像卷積生成器。在特征層面上,我們提出了基于模態(tài)分類的跨模態(tài)特征對(duì)齊方法,通過(guò)兩個(gè)模態(tài)分類器和跨模態(tài)特征對(duì)齊損失不斷引導(dǎo)網(wǎng)絡(luò)學(xué)習(xí)模態(tài)共享特征。在兩個(gè)公開(kāi)數(shù)據(jù)集SYSU-MM01和RegDB上的實(shí)驗(yàn)結(jié)果表明了本文方法的優(yōu)越性。

參考文獻(xiàn):

[1] Ye Mang,Wang Zheng, Lan Xiangyuan, et al. Visible thermal person re-identification via dual-constrained top-ranking[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. San Francisco:Margan Kaufmann,2018: 1092-1099.

[2] Ye Mang,Wang Zheng,Li Jiawei,et al. Hierarchical discriminative learning for visible thermal person re-identification[C]//Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence and Thirtieth Innovative Applications of Artificial Intelligence Conference and Eighth AAAI Symposium on Educational Advances in Artificial Intelligence. 2018:7501-7508.

[3] Dai Pingyang,Ji Rongrong,Wang Haibin,et al. Cross-modality person re-identification with generative adversarial training[C]//Proceedings of the 27th International Joint Conference on Artificial Intelligence. San Francisco:Margan Kaufmann,2018:677-683.

[4] Wang Zhixiang,Zheng wang,Zheng Yinqiang,et al. Learning to reduce dual-level discrepancy for infrared-visible person re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). NJ:IEEE,2019:618-626.

[5] Ye Mang, Lan Xiangyuan, Wang Zheng, et al. Bi-directional center-constrained top-ranking for visible thermal person re-identification[J]. IEEE Transactions on Information Forensics and Security,2019,15:407-419.

[6] Wen Yandong,Zhang Kaipeng,Li Zhifeng,et al. A discriminative feature learning approach for deep face recognition[C]//Computer Vision–ECCV 2016:14th European Conference. Cham:Springer,2016:499-515.

[7] Wang Guanan,Zhang Tianzhu,Cheng Jian,et al. RGB-infrared cross-modality person re-identification via joint pixel and feature alignment[C]//Proceedings of the IEEE/CVF International Conference on Computer Vision. NJ:IEEE,2019:3623-3632.

[8] Wu Ancong, Zheng Weishi, Yu Hongxing, et al. RGB-infrared cross-modality person re-identification[C]//Proceed-ings of the IEEE international conference on computer vision. NJ:IEEE,2017:5380-5389.

[9] Hao Yi,Wang Nannan,Li Jie,et al. HSME: hypersphere manifold embedding for visible thermal person re-identification[C]//Proceedings of the AAAI conference on artificial intelligence. Menlo Park:AAAI,2019,33(01):8385-8392.

[10] Zhu Junyan,Park Taesung,Isola Phillip,et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[C]//Proceedings of the IEEE international conference on computer vision. NJ:IEEE,2017:2223-2232.

[11] Ian Goodfellow,Jean Pouget-Abadie,Mehdi Mirza,et al. Generative adversarial networks[J]. Communications of the ACM, 2020,63(11):139-144.

[12] Hermans A,Beyer L,Bastian L. In defense of the triplet loss for person re-identification[J/OL].[2022-12-23].http://arxiv.org/abs/1703.07737.preprint arXiv:1703.07737,2017.

[13] Nguyen Dat Tien,Hong Hyun Gil,Kim Wan Ki,et al. Person recognition system based on a combination of? body images from visible light and thermal cameras[J]. Sensors,2017,17(3):605-633.

[14] Luo Hao,Gu Youzhi,Liao Xingyu,et al. Bag of tricks and a strong baseline for deep person re-identification[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops. NJ:IEEE,2019:4321-4329.

[責(zé)任編輯:王妍]

Cross-modality Visible-infrared Person Re-identification

Based on Joint optimization of Image and Feature

ZHANG Hui1, LIU Shihong2, ZHONG Wu1

(1. Wuhan Melit Communication Co., Ltd., Wuhan 430075, Hubei;

2. Chongqing Jinmei Communication Co., Ltd., Chongqing 400030)

Abstract:Cross-modality Visible-infrared Person Re-identification (VI-ReID) aims to match the person images captured under visible and infrared cameras, which is very challenging. In order to reduce the modality difference between visible and infrared images, this paper proposes a heterogeneous image augmentation method and a cross-modality feature alignment method to optimize the VI-ReID network, uses lightweight heterogeneous image convolution generator to augment visible images, uses color jitter to augment infrared images, and optimizes lightweight heterogeneous image convolution generator by using positive samples to constrain loss. On this basis, two modality classifiers and cross-modality feature alignment loss continuously guide the network to learn modal shared features. Extensive experiments show that our method has excellent performance, achieving the accuracy of 57.82%/54.35% for rank1/mAP and 80.39%/75.05% on SYSU-MM01 and RegDB datasets respectively.

Key words:VI-reID;modality differences;heterogeneous image enhancement;cross-modality feature alignment

收稿日期:2023-01-02

作者簡(jiǎn)介:張輝(1969-),男,湖北武漢人,武漢邁力特通信有限公司高級(jí)工程師,主要研究方向:有線無(wú)線通信系統(tǒng)傳輸接入交換技術(shù);

劉世洪(1971-),男,重慶人,重慶金美通信有限責(zé)任公司高級(jí)工程師,主要研究方向:數(shù)字信號(hào)處理及光通信;

鐘武(1982-),男,湖北黃岡人,武漢邁力特通信有限公司工程師,主要研究方向:通信技術(shù)、圖像識(shí)別。

垫江县| 元朗区| 原平市| 玉田县| 松江区| 文水县| 无极县| 万宁市| 太康县| 台东市| 揭阳市| 靖远县| 闻喜县| 瓦房店市| 贵德县| 桦川县| 襄城县| 田阳县| 怀化市| 章丘市| 红河县| 黄石市| 上蔡县| 安庆市| 旬邑县| 铅山县| 樟树市| 陵水| 常熟市| 勐海县| 三门峡市| 大港区| 大悟县| 嘉义县| 泰顺县| 盐亭县| 庄浪县| 吉木萨尔县| 湘潭市| 岳阳市| 会理县|