吳岸聰,林城梽,鄭偉詩
中山大學(xué)計(jì)算機(jī)學(xué)院,廣州 510006
隨著城市監(jiān)控系統(tǒng)的完善,對監(jiān)控視頻進(jìn)行智能分析的需求越發(fā)迫切。行人重識(shí)別作為智能監(jiān)控視頻分析的基礎(chǔ)技術(shù)受到越來越多的關(guān)注。其任務(wù)是跨無交疊視域的攝像頭進(jìn)行行人圖像的匹配。由于不同攝像頭下采集的行人圖像受到光照、分辨率、遮擋和背景變化等影響,這些場景因素導(dǎo)致的數(shù)據(jù)分布偏移是行人重識(shí)別的難點(diǎn)。隨著深度學(xué)習(xí)的迅速發(fā)展,基于有監(jiān)督學(xué)習(xí)與弱監(jiān)督學(xué)習(xí)的算法,行人重識(shí)別模型在公開標(biāo)準(zhǔn)數(shù)據(jù)集上已經(jīng)能達(dá)到很高的性能。
然而,現(xiàn)有的研究大部分集中在基于可見光圖像的行人重識(shí)別。對于可見光圖像無法適用的應(yīng)用場景,如在跨白天和夜晚或跨室外與室內(nèi)的情況下,行人圖像的外觀會(huì)受到顯著光照變化的影響。在正常光照場景下通常使用可見光圖像。而在低照度場景中由于采集的可見光圖像質(zhì)量退化嚴(yán)重,其中包含的信息不具有判別性,難以從中提取特征進(jìn)行匹配。在這種情況下監(jiān)控?cái)z像頭通常會(huì)切換為采集近紅外圖像,克服光照不足的影響??梢姽鈭D像包含紅(R)、綠(G)、藍(lán)(B)3個(gè)通道,而紅外圖像包含單個(gè)通道。由于成像原理不同,可見光圖像與紅外圖像屬于不同模態(tài)的數(shù)據(jù),存在顯著的視覺差異(如圖1左側(cè)),使得現(xiàn)有針對可見光行人圖像的方法難以適用。為克服顯著光照變化的影響,有必要研究“可見光—紅外”跨模態(tài)行人重識(shí)別問題。
目前,“可見光—紅外”跨模態(tài)行人重識(shí)別的研究主要圍繞設(shè)計(jì)能有效消除模態(tài)鴻溝的跨模態(tài)匹配算法開展,但是性能仍然不理想。除了不同模態(tài)數(shù)據(jù)的顯著視覺差異導(dǎo)致的模態(tài)鴻溝外,數(shù)據(jù)難以標(biāo)注也是一個(gè)限制模型性能的重要問題。目前公開的多模態(tài)行人數(shù)據(jù)集的訓(xùn)練集身份總數(shù)均不超過500,對于訓(xùn)練深度學(xué)習(xí)模型仍然不夠。如圖1左側(cè),由于在紅外圖像中缺失可見光圖像的顏色信息,視覺模糊度高使人工觀察也很難分辨行人圖像是否屬于同一個(gè)人,導(dǎo)致人工標(biāo)注跨模態(tài)的樣本比一般情況下標(biāo)注同模態(tài)的樣本耗時(shí)更長以及成本更高。
圖1 基于單模態(tài)數(shù)據(jù)輔助的跨模態(tài)行人重識(shí)別示意圖
在有標(biāo)注的多模態(tài)數(shù)據(jù)量有限的情況下,從其他領(lǐng)域遷移對跨模態(tài)匹配有幫助的先驗(yàn)知識(shí)是其中一種重要的解決思路。如圖1,本文提出使用單模態(tài)可見光行人圖像作為輔助,從中挖掘?qū)庾V范圍不敏感的特征,并把這種先驗(yàn)知識(shí)遷移到基于有限的有標(biāo)注多模態(tài)訓(xùn)練數(shù)據(jù)學(xué)習(xí)的跨模態(tài)匹配模型中,以提高其判別能力。單模態(tài)數(shù)據(jù)的標(biāo)注相比跨模態(tài)數(shù)據(jù)的標(biāo)注更加容易,用于輔助的可見光行人圖像的獲取可以選擇用人工標(biāo)注,也可以選擇更容易獲得標(biāo)簽的3維合成虛擬行人數(shù)據(jù)。
面向跨模態(tài)行人重識(shí)別的任務(wù),針對模態(tài)鴻溝與有標(biāo)注訓(xùn)練數(shù)據(jù)有限的問題,本文從單模態(tài)自監(jiān)督信息挖掘的角度開展研究,利用額外的單模態(tài)可見光圖像作為輔助挖掘?qū)庾V范圍不敏感的特征,通過預(yù)訓(xùn)練模型初始化與下游任務(wù)微調(diào)把先驗(yàn)知識(shí)遷移到跨模態(tài)匹配模型中,提高多模態(tài)數(shù)據(jù)有限情況下的判別性能。本文的創(chuàng)新點(diǎn)如下:
1)提出一種隨機(jī)單通道掩膜的數(shù)據(jù)增強(qiáng)方法來提取通道共享的特征,使模型對成像光譜變化不敏感;
2)提出一種基于三通道與單通道雙模型互學(xué)習(xí)的預(yù)訓(xùn)練與微調(diào)方法,從三通道與單通道的關(guān)系中挖掘自監(jiān)督信息引導(dǎo)模型學(xué)習(xí)魯棒的跨模態(tài)匹配特征。
1)基于可見光圖像的行人重識(shí)別。近年來,行人重識(shí)別研究(羅浩 等,2019)快速發(fā)展,技術(shù)日趨成熟?,F(xiàn)有的行人重識(shí)別方法研究主要集中在可見光圖像和視頻的理解上。行人重識(shí)別技術(shù)經(jīng)歷了從手工特征設(shè)計(jì)(Liao等,2015)到距離度量學(xué)習(xí)(Zheng等,2013)和端到端深度學(xué)習(xí)(Ahmed等,2015)的快速發(fā)展。大多數(shù)現(xiàn)有的行人重識(shí)別研究都從可見光圖像中提取視覺表觀特征,然后學(xué)習(xí)計(jì)算相似度進(jìn)行匹配。其難點(diǎn)在于姿態(tài)變化與遮擋(史維東 等,2020)、多分辨率(沈慶 等,2020)等方面。
雖然有監(jiān)督學(xué)習(xí)(Sun等,2018;Ye等,2022)、弱監(jiān)督學(xué)習(xí)(Meng等,2021)和無監(jiān)督學(xué)習(xí)(Ge等,2020;Zheng等,2021b;Wei等,2018;Yu等,2020)的方法都已經(jīng)可以在基于可見光圖像的行人重識(shí)別研究中取得很好的性能,但這些方法仍然未能解決開放環(huán)境中的行人重識(shí)別問題,如光照變化強(qiáng)烈的跨模態(tài)行人重識(shí)別場景(Wu等,2017)、換衣行人重識(shí)別場景(Yang等,2021)、細(xì)粒度行人重識(shí)場景(Yin等,2020)、跨分辨率行人重識(shí)別場景(Zheng等,2022)以及基于群體驗(yàn)證的場景(Zheng等,2016)等。
2)跨模態(tài)行人重識(shí)別。為解決不同場景光照變化強(qiáng)烈的問題,“可見光—紅外”跨模態(tài)行人重識(shí)別(陳丹 等,2020)的研究主要圍繞能有效消除模態(tài)鴻溝的跨模態(tài)匹配算法開展,但是性能仍然不理想。Wu等人(2017)首次開展跨模態(tài)行人重識(shí)別的研究,并公開了首個(gè)包含可見光圖像與紅外圖像的多模態(tài)行人重識(shí)別數(shù)據(jù)集。之后,跨模態(tài)行人重識(shí)別的研究逐漸開始發(fā)展。Ye等人(2018)提出基于雙流網(wǎng)絡(luò)的方法HCML(hierarchical cross-modality metric learning),利用雙流網(wǎng)絡(luò)消除模態(tài)差異以及通過度量學(xué)習(xí)得到更穩(wěn)定的跨模態(tài)匹配。在模態(tài)鴻溝消除方法的設(shè)計(jì)上,還發(fā)展了一些代表性的方法,包括基于圖像和特征聯(lián)合對齊的D2RL(dual-level discrepancy reduction learning)(Wang等,2019b)、基于生成對抗學(xué)習(xí)的cmGAN(cross-modality generative adversarial network)(Dai等,2018)與AlignGAN(aligned genereative adversarial network)(Wang等,2019a)、基于跨模態(tài)相似度保持的CMSP(cross-modality similarity preservation)(Wu等,2020)、基于第3模態(tài)生成的XIV-ReID(x-infrared-visible re-identification)(Li等,2020)和MMG(middle modality generator)(Zhang等,2021b)、基于多模態(tài)圖像混合的CMM(class-aware modality mix)(Ling等,2020)、基于協(xié)同注意力機(jī)制的CoAL(co-attentive lifting)(Wei等,2020)、基于模態(tài)“特有—共享”特征遷移的cm-SSFT(cross-modality shared-specific feature transfer)(Lu等,2020)、基于模態(tài)和模式聯(lián)合對齊的(joint modality and pattern alignment network,MPANet)(Wu等,2021)、基于模態(tài)混淆學(xué)習(xí)網(wǎng)絡(luò)的方法(modality confusion learning network,MCLNet)(Hao等,2021)、基于融合模態(tài)聯(lián)合學(xué)習(xí)的方法(syncretic modality collaborative learning,SMCL)(Wei等,2021)、基于密集關(guān)鍵點(diǎn)配對的方法(learning by aligning,LBA)(Park等,2021)和基于多特征空間聯(lián)合優(yōu)化的方法(multi-feature space joint optimization,mSO)(Gao等,2021)等。針對可見光圖像與紅外圖像的模型設(shè)計(jì)開始引入自動(dòng)機(jī)器學(xué)習(xí)的思想,發(fā)展了基于特征搜索的NFS(neural feature search)方法(Chen等,2021)與基于架構(gòu)搜索的CM-NAS(cross-modality neural architecture search)方法(Fu等,2021)。Tian等人(2021)基于信息瓶頸理論,提出變分自蒸餾的方法避免互信息的顯式估計(jì)。
基于通道增強(qiáng)聯(lián)合學(xué)習(xí)的CAJL(channel-augmented joint learning)方法(Ye等,2021)與跨光譜圖像生成方法(Fan等,2020)都是與本文研究高度相關(guān)的方法。它們通過分離可見光圖像的RGB通道分別做數(shù)據(jù)增強(qiáng)來使數(shù)據(jù)更接紅外圖像的模態(tài)。一方面,在單通道圖像特征提取上,它們對不同通道學(xué)習(xí)共享的卷積核,而本文使用的隨機(jī)單通道掩膜相當(dāng)于在卷積網(wǎng)絡(luò)第1層學(xué)習(xí)通道特有的卷積核,通過識(shí)別通道特有的紋理更好地提取通道共享的外觀形狀特征。另一方面,本文進(jìn)一步通過互學(xué)習(xí)探索了從單模態(tài)數(shù)據(jù)得到的三通道圖像與單通道圖像的關(guān)系來挖掘自監(jiān)督信息用于跨模態(tài)匹配。除了消除模態(tài)鴻溝的研究思路,有小部分研究從單模態(tài)數(shù)據(jù)中遷移先驗(yàn)知識(shí)來幫助跨模態(tài)匹配的學(xué)習(xí)。Liang等人(2021)提出一種跨模態(tài)自訓(xùn)練方法,利用單模態(tài)預(yù)訓(xùn)練的模型通過跨模態(tài)偽標(biāo)簽學(xué)習(xí)無監(jiān)督地提高跨模態(tài)匹配的性能。與現(xiàn)有相關(guān)方法對比,本文從單模態(tài)自監(jiān)督信息挖掘的新角度,學(xué)習(xí)有利于跨模態(tài)匹配的先驗(yàn)知識(shí),克服模態(tài)鴻溝的問題。
3)互學(xué)習(xí)。深度互學(xué)習(xí)(Zhang等,2018)是與本文密切相關(guān)的方法。其主要思想是訓(xùn)練多個(gè)模型,使其互為教師模型和學(xué)生模型,通過知識(shí)蒸餾(Hinton等,2015)互相遷移學(xué)習(xí)到的知識(shí)從而提高模型的判別能力?;W(xué)習(xí)的思想在行人重識(shí)別的研究領(lǐng)域也受到關(guān)注。例如,在單模態(tài)無監(jiān)督行人重識(shí)別方法MMT(mutual mean-teaching)(Ge等,2020)和跨模態(tài)有監(jiān)督行人重識(shí)別方法MPANet(Wu等,2021)中也使用了互學(xué)習(xí)。MMT用互學(xué)習(xí)探索當(dāng)前模型與平均模型之間的關(guān)系,來獲取更可靠的偽標(biāo)簽用于單模態(tài)無監(jiān)督學(xué)習(xí)。MPANet用互學(xué)習(xí)拉近不同模態(tài)的輸出消除模態(tài)鴻溝。本文通過把單模態(tài)數(shù)據(jù)變換為三通道與單通道兩個(gè)視角,并通過它們之間的互學(xué)習(xí)挖掘有助于跨模態(tài)匹配的自監(jiān)督信息,不受限于以往方法訓(xùn)練過程中對多模態(tài)數(shù)據(jù)同時(shí)存在的要求。
本文目標(biāo)是在輔助的可見光圖像數(shù)據(jù)集DRGB-A上進(jìn)行預(yù)訓(xùn)練,挖掘?qū)庾V范圍變化具有穩(wěn)定性的特征。然后在真實(shí)的多模態(tài)行人數(shù)據(jù)集DRGB和DIR上進(jìn)行微調(diào)時(shí),把預(yù)訓(xùn)練模型中的先驗(yàn)知識(shí)通過初始化參數(shù)遷移到跨模態(tài)行人匹配的下游任務(wù)上,提高模型的判別性能。
跨模態(tài)行人重識(shí)別問題中的模態(tài)鴻溝是由可見光圖像和紅外圖像的成像原理不同導(dǎo)致的。可見光的紅、綠、藍(lán)通道與紅外光的通道上的灰度值表示對物體反射不同波長光線的強(qiáng)度??梢姽鈭D像中的3個(gè)通道共同反映了可見光的顏色信息。在使用單模態(tài)可見光圖像進(jìn)行行人特征學(xué)習(xí)的時(shí)候,三通道共同反映的顏色信息是重要的判別性特征。然而,由于光譜范圍不同,這對紅外圖像卻無法適用。本文模型可以學(xué)習(xí)到跨光譜不變的特征。
可見光圖像示例如圖2(RGB圖像)所示。分離的紅、綠、藍(lán)3個(gè)通道無法反映三通道圖像豐富的顏色信息。當(dāng)進(jìn)行不同通道圖像的對比時(shí),比如第1個(gè)通道和第3個(gè)通道,發(fā)現(xiàn)行人的上下身衣服灰度值均發(fā)生了變化。如果要對不同通道的圖像進(jìn)行身份匹配,也就是跨光譜的匹配,學(xué)習(xí)的特征需要包含更加豐富的行人形狀等細(xì)粒度信息。由于可見光圖像與紅外圖像的匹配同樣是一種跨光譜的匹配,假設(shè)對紅、綠、藍(lán)通道跨光譜匹配具有判別性的特征,在紅外圖像上也具有適用性。假設(shè)從不同通道的圖像中提取共享的外觀形狀特征需要識(shí)別不同的紋理。在神經(jīng)網(wǎng)絡(luò)淺層使用通道特有的卷積核。
圖2 隨機(jī)單通道掩膜數(shù)據(jù)增強(qiáng)示意圖
(1)
由于被隨機(jī)掩膜提取的輸入通道之外的兩個(gè)輸入通道為0,使用隨機(jī)單通道掩膜相當(dāng)于使卷積神經(jīng)網(wǎng)絡(luò)的第1層學(xué)習(xí)R、G、B通道特有的卷積核(Wu等,2017),通過在網(wǎng)絡(luò)淺層識(shí)別通道特有的紋理更好地提取通道共享的外觀形狀特征。
2.3.1 基于單模態(tài)可見光圖像的雙模型預(yù)訓(xùn)練
(2)
LID-sin=Lcls-sin+Ltri-sin
(3)
判別損失函數(shù)LID-sin由交叉熵分類損失Lcls-sin和軟間隔三元組損失Ltri-sin(Hermans等,2017)兩部分組成。
(1)交叉熵分類損失Lcls-sin表示為
(4)
(2)軟間隔三元組損失Ltri-sin表示為
(5)
對于三通道特征提取模型MRGB,學(xué)習(xí)的目標(biāo)函數(shù)LID-RGB可類比單通道特征提取模型Msin的目標(biāo)函數(shù)LID-sin進(jìn)行構(gòu)建。
2)三通道與單通道模型互學(xué)習(xí)。三通道特征提取模型MRGB是從RGB圖像學(xué)習(xí)得到的。對于與行人身份相關(guān)的判別性信息,從RGB圖像中既可以提取如色度、飽和度等與顏色相關(guān)的特征,也可以提取形狀、紋理等與顏色無關(guān)的特征。雖然兩種特征都包含可以區(qū)分行人的信息,但模型會(huì)趨向于學(xué)習(xí)與顏色相關(guān)的特征,可以為下游任務(wù)中可見光圖像的模態(tài)內(nèi)匹配提供先驗(yàn)知識(shí)。
單通道特征提取模型Msin是從經(jīng)過隨機(jī)單通道掩膜數(shù)據(jù)增強(qiáng)后的單通道數(shù)據(jù)中學(xué)習(xí)得到的。由于模型輸入的單通道數(shù)據(jù)中的信息是三通道RGB圖像的子集,在缺失了不同通道組合的情況下,難以提取到色度、飽和度等與顏色相關(guān)的特征。模型會(huì)更趨向于學(xué)習(xí)形狀、紋理等與顏色無關(guān)的特征。這種特征具有對光譜范圍變化不敏感的特點(diǎn),可以為下游任務(wù)中紅外圖像的模態(tài)內(nèi)匹配和可見光與紅外圖像之間的跨模態(tài)匹配提供先驗(yàn)知識(shí)。
為了直觀地理解三通道模型與單通道模型學(xué)習(xí)到的特征,按照上述介紹的訓(xùn)練方法,在UnrealPerson(Zhang等,2021a)數(shù)據(jù)集上訓(xùn)練了以ResNet-50(He等,2016)為骨干模型的MRGB和Msin。然后,在DukeMTMC(Duke multi-target multi-camera)(Ristani等,2016)數(shù)據(jù)集的RGB圖像上進(jìn)行測試。隨機(jī)選擇訓(xùn)練集中的一幅RGB圖像,分別根據(jù)兩個(gè)模型提取的特征的歐氏距離檢索訓(xùn)練集中最相似的圖像,得到排序列表如圖3所示。在排序列表中,為顯示更多不同身份的行人,同一個(gè)身份的行人圖像只保留最靠前的一幅??梢杂^察到,對于同一幅查詢圖像,三通道模型檢索到的圖像衣著顏色與查詢圖像高度相似,其中也包含與查詢圖像中的男性行人外觀形狀不同的女性行人(如圖3(a)紅框中的第3幅和第6幅圖中的女性發(fā)型與男性短發(fā)形狀不同,第7幅圖中的女性腿型比男性腿型細(xì));單通道模型檢索到的圖像則都是與查詢圖像中的男性行人外觀形狀接近的其他男性行人,但衣著顏色則未必相近(如圖3(b)紅框中的第5、7、9幅圖都是與查詢圖像的行人體型相近的短發(fā)男性,但衣服顏色不同)。觀察結(jié)果與上述三通道模型和單通道模型提取特征的特點(diǎn)相符。
圖3 三通道模型與單通道模型檢索排序列表對比
(6)
結(jié)合判別損失函數(shù)和互學(xué)習(xí)損失函數(shù)得到預(yù)訓(xùn)練的總體損失函數(shù)
Lpre=LID-sin+LID-RGB+wmuLmu
(7)
式中,wmu是控制互學(xué)習(xí)損失Lmu影響的權(quán)重參數(shù)。
在三通道模型與單通道模型之間進(jìn)行互學(xué)習(xí),一方面可以促進(jìn)單通道模型對在缺乏顏色信息情況下容易忽略的特征的提取,另一方面可以促進(jìn)三通道模型對光譜范圍不敏感特征的提取。
由于單通道數(shù)據(jù)和三通道數(shù)據(jù)是從同一個(gè)數(shù)據(jù)變換得到的兩個(gè)不同視角的輸入,單通道模型和三通道模型的互學(xué)習(xí)可以看做是從三通道和單通道的關(guān)系中挖掘有利于跨模態(tài)匹配的自監(jiān)督信息。只需作為輔助數(shù)據(jù)的單模態(tài)可見光圖像,即可為下游的跨模態(tài)匹配任務(wù)提供先驗(yàn)知識(shí)。三通道與單通道模型互學(xué)習(xí)的示意圖如圖4所示。
2.3.2 基于多模態(tài)數(shù)據(jù)的雙模型微調(diào)
在基于互學(xué)習(xí)的雙模型預(yù)訓(xùn)練后,三通道模型MRGB和單通道模型Msin學(xué)習(xí)到兩種不同的先驗(yàn)知識(shí)。雖然在互學(xué)習(xí)中兩個(gè)模型的知識(shí)會(huì)相互補(bǔ)充,但由于輸入數(shù)據(jù)的不同,兩個(gè)模型仍分別側(cè)重顏色相關(guān)特征與光譜范圍不敏感特征的提取。為更有效地在下游任務(wù)中利用兩種先驗(yàn)知識(shí)幫助有監(jiān)督學(xué)習(xí),避免預(yù)訓(xùn)練與微調(diào)的學(xué)習(xí)目標(biāo)之間產(chǎn)生差異,使用與雙模型預(yù)訓(xùn)練相同的框架(如圖4所示),在多模態(tài)數(shù)據(jù)上進(jìn)行雙模型微調(diào)。
圖4 三通道與單通道雙模型互學(xué)習(xí)示意圖
微調(diào)訓(xùn)練的目標(biāo)函數(shù)Lfine參照式(7)中的Lpre構(gòu)造。與預(yù)訓(xùn)練的區(qū)別在于輸入訓(xùn)練數(shù)據(jù)的不同。微調(diào)過程除了使用可見光圖像,還增加了通過上述預(yù)處理轉(zhuǎn)換成三通道的紅外圖像。
在基于多模態(tài)數(shù)據(jù)的雙模型微調(diào)中,三通道模型與單通道模型的互學(xué)習(xí)起到的作用與預(yù)訓(xùn)練過程類似,從可見光圖像的三通道數(shù)據(jù)與單通道數(shù)據(jù)之間挖掘得到的自監(jiān)督信息可提供先驗(yàn)知識(shí)作為正則化,提高跨模態(tài)匹配特征的判別性。
2.3.3 模型推斷
在完成基于三通道與單通道模型互學(xué)習(xí)的預(yù)訓(xùn)練與微調(diào)之后,測試階段由于有兩個(gè)不同的模型,采用不同的推斷方式。
1)三通道模型推斷。對于可見光圖像,直接輸入三通道模型提取特征。對于紅外圖像,把單通道復(fù)制為三通道輸入三通道模型提取特征。
2)單通道模型推斷。由于單通道模型訓(xùn)練時(shí)的輸入是應(yīng)用了不同通道掩膜的圖像,為保持訓(xùn)練和測試輸入的一致性,在推斷之前需要對測試圖像進(jìn)行預(yù)處理。對于可見光圖像,參照1.2節(jié)分別使用掩膜mR、mG和mB得到3幅只包含單通道信息的圖像,分別輸入單通道模型進(jìn)行特征提取。對于紅外圖像,首先把單通道復(fù)制為三通道,然后采用與可見光圖像相同的方式進(jìn)行掩膜處理與特征提取。最后,把提取的3個(gè)特征取平均得到融合的特征。單通道模型特征提取過程如圖5所示。
圖5 單通道模型特征提取示意圖
3)雙模型融合推斷。在計(jì)算資源允許的情況下,可以通過特征串聯(lián)的方式,融合兩個(gè)模型的輸出作為特征。
在提取特征后,通過度量查詢圖像和圖庫圖像的特征歐氏距離進(jìn)行檢索。
本文在SYSU-MM01(Wu等,2020)、RGBNT201(Zheng等,2021a)和RegDB(Nguyen等,2017)這3個(gè)多模態(tài)數(shù)據(jù)集上測試提出的基于單模態(tài)跨光譜自監(jiān)督信息挖掘的預(yù)訓(xùn)練與微調(diào)方法,與當(dāng)前先進(jìn)的方法進(jìn)行對比,并進(jìn)行了消融實(shí)驗(yàn)、使用不同超參數(shù)與預(yù)訓(xùn)練數(shù)據(jù)集的實(shí)驗(yàn)。
1)數(shù)據(jù)集。圖6展示了3個(gè)數(shù)據(jù)集的一些示例圖像。
圖6 實(shí)驗(yàn)中各個(gè)數(shù)據(jù)集的樣本示例
SYSU-MM01數(shù)據(jù)集由6個(gè)攝像頭拍攝,其中4個(gè)是正常光照環(huán)境下的可見光攝像頭,2個(gè)是黑暗環(huán)境下的近紅外攝像頭。拍攝的場景包括2個(gè)室內(nèi)場景與3個(gè)室外場景。不同場景下的圖像有光照、背景等場景變化。行人身份總數(shù)為491個(gè),可見光圖像數(shù)量為30 071幅,近紅外圖像數(shù)量為15 792幅。
RGBNT201數(shù)據(jù)集由4個(gè)攝像頭拍攝,其中每個(gè)攝像頭拍攝了同步的可見光圖像、近紅外圖像與熱成像圖像。場景變化包括有天氣、光照等。行人身份總數(shù)為201個(gè),可見光圖像、近紅外圖像與熱成像圖像的數(shù)量均為4 787幅。
RegDB數(shù)據(jù)集包含了一個(gè)可見光攝像頭和一個(gè)熱成像攝像頭拍攝的412個(gè)身份的行人的8 240幅圖像。對于每個(gè)身份,有10幅可見光圖像和10幅熱成像圖像。
在提出方法的預(yù)訓(xùn)練過程中,需要輔助的有標(biāo)注可見光行人圖像數(shù)據(jù)集。在默認(rèn)的實(shí)驗(yàn)設(shè)置下,采用3維合成的虛擬數(shù)據(jù)集UnrealPerson(Zhang等,2021a)作為輔助數(shù)據(jù)集。UnrealPerson是3維合成的大規(guī)模數(shù)據(jù)集,包含了3 000個(gè)身份的120 000幅行人圖像,無需人工進(jìn)行標(biāo)注。使用虛擬數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練可避免使用真實(shí)數(shù)據(jù)的隱私問題。
2)測試協(xié)議。在SYSU-MM01數(shù)據(jù)集上,遵循Wu等人(2020)對訓(xùn)練集和測試集中查詢圖像和圖庫圖像的劃分?!叭阉鳌北硎驹谌繑z像頭的數(shù)據(jù)組成的圖庫圖像中的搜索實(shí)驗(yàn);“室內(nèi)搜索”表示在室內(nèi)攝像頭的數(shù)據(jù)組成的圖庫圖像中的搜索實(shí)驗(yàn),難度比“全搜索”稍低。
在RGBNT201數(shù)據(jù)集上,遵循了數(shù)據(jù)集提出者Zheng等人(2021a)的測試協(xié)議。訓(xùn)練集身份數(shù)為141,測試集身份數(shù)為30。由于RGBNT201上有3種模態(tài)的圖像,跨模態(tài)匹配分為4種情況:“可見光—近紅外”表示把近紅外圖像作為圖庫圖像,把可見光圖像作為查詢圖像;“可見光—熱成像”表示把熱成像圖像作為圖庫圖像,把可見光圖像作為查詢圖像;“近紅外—可見光”和“熱成像—可見光”是將上述兩種情況的圖庫圖像和查詢圖像種類交換。
對于RegDB數(shù)據(jù)集,遵循了現(xiàn)有方法HCML(Ye等,2018)中使用的測試協(xié)議。一半的身份用于訓(xùn)練,其他身份用于測試??缒B(tài)匹配的方式有兩種:“熱成像—可見光”表示把熱成像圖像作為查詢圖像,把可見光圖像作為圖庫圖像,“可見光—熱成像”表示把可見光圖像作為查詢圖像,把熱成像圖像作為圖庫圖像。
實(shí)驗(yàn)的性能指標(biāo)是通過度量查詢圖像和圖庫圖像之間的相似度獲得的排序列表計(jì)算得到的累積匹配特性CMC(cumulative match characteristic)、Rank-k正確率和平均精度均值(mean average precision,mAP),參照Zheng等人(2015)在Market-1501數(shù)據(jù)集上的計(jì)算方法。
3)實(shí)現(xiàn)細(xì)節(jié)。(1)基礎(chǔ)模型。在實(shí)現(xiàn)中采用了ResNet-50(He等,2016)作為骨干模型,把輸入圖像的尺寸調(diào)整為384×128像素,然后在輸出的特征圖上分割水平條帶提取特征,具體參照MGN(multiple granularity network)(Wang等,2018)的模型設(shè)計(jì)。分類器層參照circle損失(Sun等,2020)的實(shí)現(xiàn)方式,其中circle head的間隔參數(shù)設(shè)為0.35,特征的尺度設(shè)為64。然后使用平滑參數(shù)為0.1的標(biāo)簽平滑操作,得到最后的分類概率。提出方法中的單通道模型和三通道模型均基于此模型實(shí)現(xiàn)。
(2)訓(xùn)練策略。由于模型參數(shù)用ImageNet預(yù)訓(xùn)練的參數(shù)初始化,輸入數(shù)據(jù)的預(yù)處理先使用ImageNet的均值和標(biāo)準(zhǔn)差進(jìn)行圖像的歸一化。然后應(yīng)用隨機(jī)水平翻轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)擦除和顏色抖動(dòng)的數(shù)據(jù)增強(qiáng)策略。數(shù)據(jù)增強(qiáng)策略的參數(shù)參照He等人(2020)提出的FastReID中的策略設(shè)置。在顏色抖動(dòng)策略中設(shè)置亮度變化范圍為[0.8, 1.2],對比度變化范圍為[0.85, 1.15]。訓(xùn)練過程分為預(yù)訓(xùn)練和微調(diào)兩個(gè)步驟。在預(yù)訓(xùn)練過程中,默認(rèn)使用單模態(tài)可見光圖像數(shù)據(jù)集UnrealPerson。在微調(diào)過程中,使用需要測試的目標(biāo)數(shù)據(jù)庫的訓(xùn)練集數(shù)據(jù)。在梯度下降的的迭代過程中,使用ADAM(adaptive moment estimation)優(yōu)化器(Kingma和Ba,2015)。預(yù)訓(xùn)練步驟分雙模型單獨(dú)訓(xùn)練和雙模型互學(xué)習(xí)兩個(gè)階段。第1階段的迭代總數(shù)為15 000次,前2 000次迭代使用warmup策略使學(xué)習(xí)率從3.5×10-6增加到3.5×10-4,之后的7 000次迭代保持學(xué)習(xí)率不變,最后6 000次迭代使用Cosine學(xué)習(xí)率下降策略。第2階段的訓(xùn)練設(shè)置與第1階段相同,區(qū)別在于加入了互學(xué)習(xí)損失Lmu,其權(quán)重wmu設(shè)置為0.1。微調(diào)步驟也參照預(yù)訓(xùn)練步驟分兩階段進(jìn)行,區(qū)別在于每階段迭代總次數(shù)變?yōu)? 000次,去除了預(yù)訓(xùn)練步驟中保持學(xué)習(xí)率不變的7 000次迭代。
(3)測試過程。默認(rèn)使用三通道模型進(jìn)行推斷。在展示的實(shí)驗(yàn)結(jié)果中,“三通道模型”“單通道模型”和“雙模型融合”均表示提出的方法。
4)對比方法。在SYSU-MM01與RegDB數(shù)據(jù)集上,對比了當(dāng)前具有代表性的、先進(jìn)的跨模態(tài)行人重識(shí)別方法,包括基于非對稱建模的Zero-Padding(Wu等,2017)、基于圖像和特征聯(lián)合對齊的D2RL(Wang等,2019b)、基于生成對抗學(xué)習(xí)的AlignGAN(Wang等,2019a)、基于跨模態(tài)相似度保持的CMSP(Wu等,2020)、基于第3模態(tài)生成的XIV-ReID(Li等,2020)、基于多模態(tài)圖像混合的CMM+CML(Ling等,2020)、基于協(xié)同注意力機(jī)制的CoAL(Wei等,2020)、基于模態(tài)“特有—共享”特征遷移的cm-SSFT(Lu等,2020)、基于密集關(guān)鍵點(diǎn)配對的方法LBA(Park等,2021)、基于神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索的方法CM-NAS(Fu等,2021)、基于通道增強(qiáng)聯(lián)合學(xué)習(xí)的CAJL(Ye等,2021)和基于模態(tài)和模式聯(lián)合對齊的MPANet(Wu等,2021)。在RGBNT201數(shù)據(jù)集上,由于目前已經(jīng)公開測試過的方法較少,只有TSLFN+HC(hetero-center loss)(Zhu等,2020)和DDAG(dynamic dual-attentive aggregation)(Ye等,2020)有公開報(bào)告的結(jié)果。其中,CAJL是一種單通道數(shù)據(jù)增強(qiáng)方法。MPANet應(yīng)用了多模態(tài)的互學(xué)習(xí),是當(dāng)前在SYSU-MM01數(shù)據(jù)集上性能最高的方法。對于具有代表性的先進(jìn)方法LBA、CM-NAS、CAJL和MPANet,基于作者公布的代碼以UnrealPerson數(shù)據(jù)集預(yù)訓(xùn)練的參數(shù)作為初始化進(jìn)行實(shí)驗(yàn),以保證與提本文方法使用相同的訓(xùn)練數(shù)據(jù)進(jìn)行公平的對比。在實(shí)驗(yàn)結(jié)果中表示為“方法名(unreal)”。其中,CM-NAS由于只在SYSU-MM01和RegDB兩個(gè)數(shù)據(jù)集上提供了模型架構(gòu)且沒有公開架構(gòu)搜索的代碼,不進(jìn)行在RGBNT201數(shù)據(jù)集上的實(shí)驗(yàn)。CM-NAS的所有實(shí)驗(yàn)結(jié)果都是基于作者公開代碼實(shí)現(xiàn)得到的。
1)消融實(shí)驗(yàn)。為說明方法各個(gè)部分的有效性,在SYSU-MM01上進(jìn)行了如表1所示的消融實(shí)驗(yàn)。展示的結(jié)果是全搜索設(shè)置下的性能。所有實(shí)驗(yàn)都默認(rèn)在ImageNet預(yù)訓(xùn)練參數(shù)的基礎(chǔ)上使用UnrealPerson作為進(jìn)一步預(yù)訓(xùn)練的數(shù)據(jù)集,除了實(shí)驗(yàn)0只使用 ImageNet預(yù)訓(xùn)練的參數(shù)。實(shí)驗(yàn)1是使用單個(gè)模型在可見光數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練和在多模態(tài)數(shù)據(jù)上微調(diào)的基礎(chǔ)模型。在實(shí)驗(yàn)2—實(shí)驗(yàn)11,預(yù)訓(xùn)練互學(xué)習(xí)和微調(diào)互學(xué)習(xí)兩列中的內(nèi)容表示是否有使用互學(xué)習(xí)的訓(xùn)練策略?!盁o”表示只使用單個(gè)模型進(jìn)行訓(xùn)練?!坝小北硎臼褂昧恕盎W(xué)習(xí)類型”一列中的策略進(jìn)行雙模型互學(xué)習(xí)。在預(yù)訓(xùn)練有兩個(gè)模型的情況下,微調(diào)使用的單個(gè)模型選擇三通道模型。在互學(xué)習(xí)類型中,“A—B”中的A和B表示互學(xué)習(xí)的兩個(gè)模型輸入的數(shù)據(jù)類型?!叭ǖ馈獑瓮ǖ姥谀ぁ笔潜疚姆椒ā檎f明隨機(jī)單通道掩膜的作用,對比了3種引導(dǎo)模型學(xué)習(xí)顏色無關(guān)信息的數(shù)據(jù)增強(qiáng)方法,分別是使用灰度圖作為輸入、使用RGB三通道隨機(jī)打亂的圖像作為輸入(表示為“亂序通道”)以及使用跨光譜圖像生成方法(Fan等,2020)得到的單通道R、G、B和灰度圖像作為輸入(表示為“跨光譜圖像”)。
表1 在SYSU-MM01數(shù)據(jù)集上的消融實(shí)驗(yàn)性能
結(jié)果表明:對比實(shí)驗(yàn)1的基礎(chǔ)模型,在實(shí)驗(yàn)6和實(shí)驗(yàn)11中提出的預(yù)訓(xùn)練互學(xué)習(xí)和微調(diào)互學(xué)習(xí)兩個(gè)步驟都能帶來顯著的性能提升。對比實(shí)驗(yàn)2和實(shí)驗(yàn)6還有實(shí)驗(yàn)7和實(shí)驗(yàn)11,結(jié)果表明“三通道—單通道掩膜”的互學(xué)習(xí)比“三通道—三通道”的互學(xué)習(xí)更有效,說明從三通道和單通道的關(guān)系中能學(xué)習(xí)到的對光譜范圍不敏感的特征,對跨模態(tài)匹配更有幫助。對比實(shí)驗(yàn)3—實(shí)驗(yàn)6還有實(shí)驗(yàn)8—實(shí)驗(yàn)11,結(jié)果表明使用隨機(jī)單通道掩膜比使用灰度圖、隨機(jī)打亂通道順序和跨光譜圖像更有助于挖掘跨光譜不變的自監(jiān)督信息。實(shí)驗(yàn)5和實(shí)驗(yàn)10中跨光譜圖像與提出的隨機(jī)單通道掩膜一樣使用了分離的單通道R、G、B圖像,但性能不如本文方法。由于隨機(jī)單通道掩膜方法進(jìn)一步考慮了網(wǎng)絡(luò)第1層通道特有卷積核的建模,通過在網(wǎng)絡(luò)淺層識(shí)別通道特有的紋理更有效地提取通道共享的外觀形狀特征。對比實(shí)驗(yàn)0和實(shí)驗(yàn)1,說明了UnrealPerson虛擬數(shù)據(jù)的預(yù)訓(xùn)練對于行人重識(shí)別任務(wù)的有效性。
2)與當(dāng)前先進(jìn)方法的對比。在SYSU-MM01、RGBNT201和RegDB這3個(gè)數(shù)據(jù)集上與當(dāng)前先進(jìn)方法的對比結(jié)果分別如表2—表4所示。
表2 在SYSU-MM01數(shù)據(jù)集上的跨模態(tài)匹配性能對比
表3 在RGBNT201數(shù)據(jù)集上的跨模態(tài)匹配性能對比
表4 在RegDB數(shù)據(jù)集上的跨模態(tài)匹配性能對比
從實(shí)驗(yàn)結(jié)果可得,在SYSU-MM01上,在本文方法使用三通道模型或者單通道模型單獨(dú)進(jìn)行測試時(shí),取得與MPANet(unreal)相當(dāng)?shù)男阅堋T谑褂秒p模型融合的情況下,mAP和Rank-1的準(zhǔn)確率取得最優(yōu)的效果。在RGBNT201和RegDB數(shù)據(jù)集上,單獨(dú)使用本文方法中的三通道模態(tài)或者單通道模型對比性能排第2的方法均有提升。在RGBNT201上,在熱成像圖像和可見光圖像的匹配實(shí)驗(yàn)中,Rank-1準(zhǔn)確率和mAP有接近5%的提升。對于LBA(unreal)、CM-NAS(unreal)、CAJL(unreal)和MPANet(unreal)這幾種先進(jìn)的方法,相比使用ImageNet預(yù)訓(xùn)練的結(jié)果,使用UnrealPerson進(jìn)行預(yù)訓(xùn)練的結(jié)果在SYSU-MM01上提升不明顯,在RegDB上稍有提升,但都不如使用本文雙模型互學(xué)習(xí)方法。對比方法的預(yù)訓(xùn)練方法是使用單模態(tài)RGB圖像直接訓(xùn)練單個(gè)模型,傾向于學(xué)習(xí)顏色相關(guān)的判別性先驗(yàn)知識(shí),對跨模態(tài)匹配幫助不大。而提出的雙模型互學(xué)習(xí)方法可在預(yù)訓(xùn)練與微調(diào)階段都從單通道模型遷移跨光譜不變的判別性知識(shí)到三通道模型中,更有利于模型提高跨模態(tài)匹配的判別性能。
與SYSU-MM01相比,本文方法在RGBNT201和RegDB數(shù)據(jù)集上的提升更明顯。在數(shù)據(jù)集的規(guī)模上,RGBNT201的訓(xùn)練身份數(shù)比SYSU-MM01和RegDB都少,RegDB的訓(xùn)練樣本數(shù)比SYSU-MM01少。不同數(shù)據(jù)集上性能提升的差別說明,在目標(biāo)域越缺乏監(jiān)督信息的情況下,提出的自監(jiān)督信息挖掘方法提供的先驗(yàn)知識(shí)對下游任務(wù)的提升越大。
雙模型融合在大部分情況下都能相比三通道模型和單通道模型有一定的性能提升,說明兩個(gè)模型在互學(xué)習(xí)后提取的特征仍具有互補(bǔ)性。在少數(shù)情況下,比如在RGBNT201上“熱成像—可見光”設(shè)置下的結(jié)果,互學(xué)習(xí)有可能使雙模型的知識(shí)比較完全地進(jìn)行互相遷移,導(dǎo)致雙模型互補(bǔ)性變?nèi)?,但是雙模型融合的結(jié)果仍與最優(yōu)的單模型結(jié)果相當(dāng)。在計(jì)算資源允許的情況下,使用雙模型提取特征進(jìn)行融合以獲得更好的效果。
3)預(yù)訓(xùn)練模型對現(xiàn)有方法的提升作用。為驗(yàn)證提出的預(yù)訓(xùn)練方法的通用性,基于在單模態(tài)的虛擬行人數(shù)據(jù)集UnrealPerson(Zhang等,2021a)上進(jìn)行三通道與單通道雙模型互學(xué)習(xí)得到的三通道模型參數(shù)作為初始化,使用具有代表性的先進(jìn)方法LBA、CM-NAS、CAJL和MPANet進(jìn)行學(xué)習(xí)(表示為“方法名(unreal + 提出的預(yù)訓(xùn)練)”),并與使用UnrealPerson直接訓(xùn)練單個(gè)模型作為初始化的實(shí)驗(yàn)(表示為“方法名(unreal)”)進(jìn)行對比。
在SYSU-MM01數(shù)據(jù)集全搜索設(shè)置、RGBNT201數(shù)據(jù)集的“熱成像—可見光”設(shè)置以及RegDB數(shù)據(jù)集的“熱成像—可見光”設(shè)置下得到的實(shí)驗(yàn)結(jié)果如表5所示。使用提出的雙模型預(yù)訓(xùn)練方法(表示為“(unreal + 提出的預(yù)訓(xùn)練)”)的性能高于使用一般的單模型預(yù)訓(xùn)練方法(表示為“(unreal)”),表明了三通道與單通道雙模型預(yù)訓(xùn)練的有效性。三通道模型在SYSU-MM01數(shù)據(jù)集上取得與對比方法相當(dāng)?shù)男阅?,而在樣本?shù)更加受限的RGBNT201數(shù)據(jù)集和RegDB數(shù)據(jù)集上能取得更優(yōu)的性能。
表5 把本文提出的預(yù)訓(xùn)練應(yīng)用到其他現(xiàn)有方法的性能
圖7 互學(xué)習(xí)損失權(quán)重wmu的影響
表6 不同預(yù)訓(xùn)練數(shù)據(jù)集在SYSU-MM01的性能對比
基于ResNet-50默認(rèn)架構(gòu)的實(shí)驗(yàn)訪問鏈接https://github.com/wuancong/cjig_supplementary/blob/main/附錄.pdf。
本文研究“可見光—紅外”跨模態(tài)行人重識(shí)別,適用于跨正常光照與低照度場景進(jìn)行行人匹配的情況。造成跨模態(tài)行人重識(shí)別性能不理想的難點(diǎn)主要是圖像視覺差異導(dǎo)致的模態(tài)鴻溝以及標(biāo)注數(shù)據(jù)缺乏。為解決這些問題,本文研究如何利用易于獲得的有標(biāo)注可見光圖像作為輔助,挖掘單模態(tài)自監(jiān)督信息來提供跨模態(tài)匹配的先驗(yàn)知識(shí)。主要?jiǎng)?chuàng)新點(diǎn)有兩方面:1)提出一種隨機(jī)單通道掩膜的數(shù)據(jù)增強(qiáng)方法,促使模型學(xué)習(xí)對光譜范圍不敏感的特征;2)提出一種三通道與單通道雙模型互學(xué)習(xí)的方法,從三通道數(shù)據(jù)與單通道數(shù)據(jù)的關(guān)系中挖掘跨光譜自監(jiān)督信息,使這種先驗(yàn)知識(shí)在預(yù)訓(xùn)練和微調(diào)過程中在雙模型之間互相遷移和補(bǔ)充,提高跨模態(tài)匹配模型的判別能力。在 “可見光—紅外”多模態(tài)行人數(shù)據(jù)集SYSU-MM01、RGBNT201和RegDB上進(jìn)行的跨模態(tài)行人重識(shí)別對比實(shí)驗(yàn)表明,本文方法能有效地利用單模態(tài)可見光圖像輔助數(shù)據(jù)挖掘?qū)庾V范圍變化不敏感的自監(jiān)督信息以幫助跨模態(tài)匹配,達(dá)到當(dāng)前最優(yōu)的性能。
提出的互學(xué)習(xí)方法需要在訓(xùn)練階段使用雙模型同時(shí)進(jìn)行訓(xùn)練,雖然測試過程可以只使用單模型,但是訓(xùn)練過程中的開銷比一般情況下的單模型訓(xùn)練大一倍。進(jìn)一步的工作可以考慮在互學(xué)習(xí)的框架中研究共享參數(shù)、模型壓縮和知識(shí)蒸餾等新方法實(shí)現(xiàn)計(jì)算開銷的減少。