国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

低分辨率行人重識別數(shù)據(jù)集及其基準(zhǔn)方法

2023-05-20 07:36:10楊露露藍(lán)龍孫冬婷滕霄賁晛燁沈肖波
中國圖象圖形學(xué)報(bào) 2023年5期
關(guān)鍵詞:低分辨率高分辨率攝像機(jī)

楊露露,藍(lán)龍*,孫冬婷,滕霄,賁晛燁,沈肖波

1.國防科技大學(xué)計(jì)算機(jī)學(xué)院,長沙 410073;2.國防科技大學(xué)量子信息研究所兼高性能計(jì)算國家重點(diǎn)實(shí)驗(yàn)室,長沙 410073;3.山東大學(xué)信息科學(xué)與工程學(xué)院,青島 266237;4.南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院,南京 210094

0 引 言

行 人 重 識 別(Lan 等,2020;Liang 等,2021a;Zhang等,2021a)旨在從多個(gè)非重疊監(jiān)控?cái)z像頭中搜索或匹配同一個(gè)行人,已經(jīng)廣泛應(yīng)用于安防和視頻監(jiān)控等場景。行人重識別將在一臺攝像機(jī)視角中觀察到的特定行人與另外一臺攝像機(jī)拍攝到的諸多候選行人進(jìn)行比較,自動發(fā)現(xiàn)特定行人,從而完成行人在不同攝像頭之間的再次識別。但是,在真實(shí)的復(fù)雜場景中,同一個(gè)行人在不同攝像頭中的成像存在外貌、尺寸等差異問題,并且由于視角、拍攝距離、身體姿態(tài)和遮擋條件的變化,導(dǎo)致拍攝到的行人圖像可能會存在低分辨率的情況。相比于高分辨率圖像,低分辨率的行人圖像包含了更少的身份與細(xì)節(jié)信息,如果直接對低分辨率行人圖像進(jìn)行相互匹配會造成顯著的性能損失(賁晛燁 等,2012;史維東等,2020;沈慶 等,2020;鄭鑫 等,2020)。

現(xiàn)有的許多行人重識別方法通常側(cè)重于解決跨分辨率行人匹配問題,即同一個(gè)行人不同分辨率圖像之間的相互匹配。近年來涌現(xiàn)了許多跨分辨率行人重識別方法(Adil 等,2020;Jing 等,2017),大致可以分為3 類:1)利用超分辨率技術(shù)(Wang 等,2018);2)采用對抗學(xué)習(xí)方法(Li等,2019);3)學(xué)習(xí)分辨率不變特征表示(Chen等,2019b)。第1類方法是聯(lián)合訓(xùn)練超分模型和行人重識別模型,然而這種訓(xùn)練方式會導(dǎo)致梯度不能有效地傳播,模型難以收斂。為簡便起見,許多現(xiàn)有的基于超分辨率的方法在訓(xùn)練過程中直接對高分辨率圖像下采樣得到對應(yīng)的低分辨率圖像。這種數(shù)據(jù)采樣的方式并不能使超分模型有效地恢復(fù)低分辨率圖像的細(xì)節(jié)特征。在真實(shí)場景中,低分辨率圖像的產(chǎn)生受光照、噪音背景環(huán)境等復(fù)雜因素影響。因此,通過下采樣方式得到的低分辨率圖像無法準(zhǔn)確反映真實(shí)場景中獲取的低分辨率圖像情況。第2 類方法通常采用對抗學(xué)習(xí)的思想實(shí)現(xiàn)分辨率自適應(yīng)表示,然而通過這種方法并不能有效地解決不同分辨率行人的相互匹配。第3 類方法通常學(xué)習(xí)低分辨率和高分辨圖像共有的特征表示,但是由于低分辨率圖像缺失細(xì)節(jié)信息,從而無法獲取細(xì)粒度判別特征。

目前,一些行人重識別方法只關(guān)注高低分辨率行人圖像不匹配的問題。這些方法只考慮了Probe集合里的圖像是低分辨率的,往往忽略了訓(xùn)練集合和Gallery 集合里也存在低分辨率圖像。低分辨率圖像所包含的行人細(xì)節(jié)信息較少,不利于同一身份的行人相互匹配。許多行人重識別算法嘗試采用超分模型恢復(fù)圖像細(xì)節(jié),但是需要足夠的高低分辨率圖像對訓(xùn)練超分模型。目前,最常見的方式是直接使用原始的行人數(shù)據(jù)集作為高分辨率圖像集,然后下采樣原始行人圖像得到低分辨率圖像集。雖然通過這種采樣方式可以用來訓(xùn)練超分模型,但是并不能確保超分模型能有效地學(xué)習(xí)真實(shí)場景下高分辨圖像和低分辨率圖像之間的映射關(guān)系。

以上的研究工作大都采用模擬的低分辨率數(shù)據(jù)集解決不同分辨率行人之間的相互匹配,本文聚焦于一個(gè)更富有挑戰(zhàn)性的行人重識別問題,即實(shí)際場景中的低分辨行人之間的相互匹配。為研究該問題,本文首先構(gòu)建了一個(gè)基于槍球攝像機(jī)的行人數(shù)據(jù)集。該數(shù)據(jù)集由部署在3 個(gè)交叉路口的槍球系統(tǒng)收集得到,如圖1 所示。每個(gè)交叉路口都放置了兩臺攝像機(jī),其中的槍機(jī)攝像頭具有固定方向和焦距,拍攝獲取低分辨率圖像。另一個(gè)球機(jī)攝像頭可以根據(jù)目標(biāo)行人位置,調(diào)整焦距和視線方向,從而獲得高分辨率圖像。槍機(jī)攝像頭獲得的低分辨率圖像和球機(jī)攝像頭拍攝的高分辨率圖像如圖2所示。

圖1 槍球攝像機(jī)數(shù)據(jù)采集系統(tǒng)Fig.1 The gun-ball camera system

圖2 基于槍球攝像機(jī)的行人數(shù)據(jù)集示例圖像Fig.2 Sample images of the gun-ball camera-based person dataset((a)low resolution images;(b)high resolution images)

基于槍球攝像機(jī)的行人數(shù)據(jù)集共包含200 個(gè)有身份標(biāo)簽行人(同一行人在不同位置被拍攝和識別)和320 個(gè)無身份標(biāo)簽行人(只在某個(gè)攝像頭下拍攝的行人),其中每個(gè)行人都包含高分辨率和低分辨率圖像。有身份標(biāo)簽的行人指的是被至少2 臺不同的槍球攝像機(jī)從不同地方捕獲到,無身份標(biāo)簽行人指的是只被1 臺槍球攝像機(jī)拍攝到,無法進(jìn)行跨相機(jī)搜索與匹配,但是每個(gè)無身份類別的行人也包含低分辨率和高分辨率圖像,從而可以有效地訓(xùn)練超分模型。為了研究真實(shí)場景下的低分辨率行人匹配問題,本文提出了一個(gè)通用的低分辨率行人重識別基準(zhǔn)模型。

本文的主要工作包括兩個(gè)方面:1)從真實(shí)場景中構(gòu)建了一個(gè)小型的基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集,其中每個(gè)行人具有成對的高分辨率和低分辨率圖像,同時(shí)被每臺攝像機(jī)捕獲多幅圖像。該數(shù)據(jù)集包含從6 臺攝像機(jī)收集的大約200 個(gè)有身份標(biāo)簽行人和320 個(gè)無身份標(biāo)簽行人。這個(gè)基于槍球攝像機(jī)的行人數(shù)據(jù)集為未來的低分辨率行人重識別的研究提供了更接近于實(shí)際情況的基準(zhǔn)。2)基于構(gòu)建的數(shù)據(jù)集,設(shè)計(jì)了一個(gè)低分辨率行人重識別基準(zhǔn)模型,該基準(zhǔn)模型包括超分模塊、特征學(xué)習(xí)模塊和特征判別器模塊。其中,超分模塊由基于Transformer的生成器網(wǎng)絡(luò)、梯度判別器和圖像判別器組成,實(shí)現(xiàn)低分辨率圖像超分。特征學(xué)習(xí)模塊采用預(yù)訓(xùn)練的殘差網(wǎng)絡(luò),完成行人特征學(xué)習(xí)。特征判別器模塊用于鑒別超分圖像和高分辨率圖像的行人特征。這個(gè)模型可以同時(shí)優(yōu)化行人圖像的分辨率和行人判別特征,從而解決實(shí)際場景中的低分辨行人識別問題。對比經(jīng)典的行人重識別模型(Ye等,2022),這個(gè)基準(zhǔn)模型在基于槍球攝像機(jī)的數(shù)據(jù)上分別將平均精度均值(mean average precision,mAP)和Rank-1指標(biāo)提高了3.1%和6.1%。

本文是對前期工作(Sun 等,2022)的擴(kuò)展和創(chuàng)新,系統(tǒng)性地介紹了低分辨率下行人重識別研究,相比于前期工作,主要有兩個(gè)新貢獻(xiàn):1)更加全面深入地介紹了行人重識別數(shù)據(jù)集收集方法和使用方式。2)從3 個(gè)方面對基準(zhǔn)方法進(jìn)行了大幅優(yōu)化和創(chuàng)新。(1)設(shè)計(jì)了一個(gè)基于Transformer的生成器網(wǎng)絡(luò),并基于此提出了一種新的行人重識別模型用于低分辨率行人匹配,新方法在低分辨率數(shù)據(jù)集上取得了更高的識別精度;(2)擴(kuò)充了消融實(shí)驗(yàn),更加全面地驗(yàn)證所提模型的有效性;(3)設(shè)計(jì)了更優(yōu)的網(wǎng)絡(luò)訓(xùn)練方法,有效提高了行人圖像的分辨率和特征判別效果。

1 相關(guān)工作

1.1 行人重識別

行人重識別是計(jì)算機(jī)視覺領(lǐng)域的重要任務(wù),受到廣泛關(guān)注并取得了迅猛發(fā)展。現(xiàn)有的許多行人重識別方法通過提取更魯棒的判別性特征,解決行人匹配中存在的視角姿態(tài)變化、背景干擾和部分遮擋等各種挑戰(zhàn)。這些外在環(huán)境的變化和影響,使行人重識別成為一項(xiàng)具有挑戰(zhàn)性的任務(wù),越來越多的行人重識別算法聚焦這些困難并提高行人匹配的精度。Liu 等人(2018)設(shè)計(jì)了一種姿態(tài)可轉(zhuǎn)移的行人重識別框架,通過利用姿態(tài)轉(zhuǎn)移的樣本增強(qiáng)生成特定姿態(tài)的圖像,從而解決行人匹配中姿態(tài)變化的問題。另外一些方法通過引入注意力機(jī)制解決行人匹配中的背景干擾問題。Kalaye 等人(2018)采用語義解析分割出前景和背景信息,從而減少背景的干擾。針對部分遮擋的問題,Li等人(2021a)提出了一種基于Transformer 的編碼器和解碼器架構(gòu),依賴一個(gè)完整目標(biāo)的標(biāo)簽識別遮擋的行人。然而,上述方法大都忽略了真實(shí)場景中拍攝的行人會存在低分辨率的問題,不能有效地解決低分辨率行人匹配問題。因此,一些跨分辨率行人重識別方法應(yīng)運(yùn)而生。Li 等人(2019)提出了一個(gè)跨分辨率對抗雙網(wǎng)絡(luò)(crossresolution adversarial dual network,CAD-Net),利用對抗網(wǎng)絡(luò)獲得分辨率自適應(yīng)表示并學(xué)習(xí)恢復(fù)低分辨率行人圖像的細(xì)節(jié)。Cheng 等人(2020)通過引入一種模型訓(xùn)練正則化方法(inter-task association critic,INTACT),實(shí)現(xiàn)超分和行人重識別模型的有效聯(lián)合訓(xùn)練。Zhang 等人(2021b)設(shè)計(jì)了一個(gè)偽孿生網(wǎng)絡(luò)框架,以減少低分辨和高分辨率圖像之間特征分布差異。Munir 等人(2021)為了解決跨分辨率圖像匹配問題,引入了基于分辨率的特征提取方法學(xué)習(xí)分辨率不變特征。Wu 等人(2022)提出了一個(gè)由超分模塊和雙流特征融合模塊構(gòu)成的超分辨率雙流特征融合子網(wǎng)絡(luò),其中超分模塊恢復(fù)圖像分辨率,雙流特征融合模塊減少圖像細(xì)節(jié)的丟失,從而聯(lián)合優(yōu)化行人圖像的特征細(xì)節(jié)和提取。Zheng 等人(2022)設(shè)計(jì)了一種新的聯(lián)合雙邊分辨率身份建模的方法,同時(shí)進(jìn)行特定高分辨率身份特征學(xué)習(xí)、低分辨率身份特征學(xué)習(xí)和行人重識別優(yōu)化。然而這些方法只關(guān)注跨分辨率行人匹配問題,即低分辨率Query 圖像和高分辨率Gallery 圖像之間的相互匹配,而對于真實(shí)場景中低分辨率下的Query 和Gallery 圖像相互匹配的研究甚少。

1.2 超分辨率

基于深度學(xué)習(xí)的方法在圖像超分(super-resolution,SR)領(lǐng)域取得了極大成功。圖像SR旨在從低分辨率圖像中重建高分辨率圖像,并學(xué)習(xí)低分辨率圖像和高分辨率圖像之間的映射關(guān)系。Dong 等人(2014)首次使用卷積神經(jīng)網(wǎng)絡(luò)解決單幅圖像的超分辨率問題。隨著深度卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)的發(fā)展,提出了越來越多的基于CNN 的方法。Zhang 等人(2018)利用殘差和殘差(residual in residual,RIR)結(jié)構(gòu)建立了一個(gè)非常深的可訓(xùn)練網(wǎng)絡(luò)。此外,考慮到通道之間的相互依賴關(guān)系,該工作還設(shè)計(jì)了通道注意力機(jī)制。Liu 等人(2020)提出了一種漸進(jìn)式多尺度殘差網(wǎng)絡(luò)(progressive multi-scale residual network,PMRN),通過對參數(shù)受限的特征進(jìn)行連續(xù)挖掘,解決了單幅圖像的超分辨率問題。鑒于SR 模型有利于提升低分辨率圖像質(zhì)量,本文在提出的基準(zhǔn)模型中采用了改進(jìn)的SR模型,并在輸入圖像中融入梯度信息。

1.3 生成對抗網(wǎng)絡(luò)

生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)在許多無監(jiān)督學(xué)習(xí)任務(wù)中取得了顯著成功。隨著不斷發(fā)展,生成對抗網(wǎng)絡(luò)已廣泛應(yīng)用于語義分割、目標(biāo)檢測和行人重識別領(lǐng)域。對抗網(wǎng)絡(luò)由生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)組成,生成網(wǎng)絡(luò)用于生成新樣本,判別網(wǎng)絡(luò)區(qū)分真假樣本。Makhzani等人(2015)提出了一種通過聚集后驗(yàn)數(shù)據(jù)進(jìn)行正則化的對抗式自編碼器。Kim等人(2017)設(shè)計(jì)了一種自動學(xué)習(xí)并發(fā)現(xiàn)跨域關(guān)系的生成對抗網(wǎng)絡(luò),用于圖像風(fēng)格遷移。借鑒以上基于生成對抗網(wǎng)絡(luò)算法的成功應(yīng)用,本文提出的低分辨行人重識別基準(zhǔn)模型采用對抗思想,以減少超分行人和高分辨率行人特征分布之間的差異。

2 本文工作

目前,行人重識別領(lǐng)域的許多研究都傾向于關(guān)注分辨率不匹配問題,忽略了實(shí)際場景下低分辨率行人匹配的問題。此外,現(xiàn)有的許多算法都是直接從公開的行人重識別數(shù)據(jù)集中通過下采樣的方式構(gòu)建低分辨率行人數(shù)據(jù)集,模擬真實(shí)場景中出現(xiàn)的低分辨率行人。與高分辨率圖像相比,低分辨率圖像不僅在尺寸上發(fā)生了變化,即圖像寬高變小,同時(shí)在像素上發(fā)生了變化,即像素值變低。放大低分辨率圖像,圖像會變得模糊。而通過下采樣的方式獲取低分辨率圖像雖然能保證尺寸變小,但不能確保像素值是否變低。在現(xiàn)實(shí)場景中,低分辨率圖像受許多復(fù)雜因素影響,如失真、噪音和相機(jī)等因素。簡單的下采樣過程很難模擬出現(xiàn)實(shí)世界中的非線性變換。此外,真實(shí)場景中一般是通過低清攝像頭拍攝獲取低分辨率圖像。本文為了驗(yàn)證通過下采樣方式獲取的低分辨率圖像和真實(shí)場景中所獲取的低分辨率圖像不同,在消融實(shí)驗(yàn)中,設(shè)計(jì)了5 組實(shí)驗(yàn)對比其差異。實(shí)驗(yàn)結(jié)果表明,下采樣方式獲取的低分辨率數(shù)據(jù)集訓(xùn)練的模型不能很好地處理真實(shí)場景中的低分辨率行人匹配問題。因此,通過這種方式構(gòu)建的低分辨率行人數(shù)據(jù)集在效果上并不完全等同于真實(shí)場景中出現(xiàn)的低分辨率行人。為此,本文從真實(shí)場景中收集了一個(gè)低分辨率行人數(shù)據(jù)集,用以解決低分辨率行人匹配的問題。本文構(gòu)建的基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集包含了一組具有身份標(biāo)簽的高分辨率和低分辨率圖像對。其中的高分辨率和低分辨率圖像對用于訓(xùn)練超分模型,身份標(biāo)簽信息為行人重識別模型提供了可監(jiān)督訓(xùn)練。本文探究了圖像超分的潛力,一個(gè)有效的超分模型能夠從降級的低分辨率圖像中生成細(xì)節(jié)豐富的高分辨圖像,緩解Probe圖像和Gallery圖像之間的匹配問題。為了使超分模型生成的高分辨率圖像有益于行人識別,本文通過級聯(lián)超分和行人重識別模型進(jìn)行多任務(wù)聯(lián)合學(xué)習(xí)。

2.1 基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集

基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集由部署在3 個(gè)交叉路口的槍球攝像機(jī)收集,每個(gè)交叉路口有1臺高清攝像機(jī)(球機(jī)攝像機(jī))和1臺低清攝像機(jī)(槍機(jī)攝像機(jī))。該數(shù)據(jù)集包括6臺攝像機(jī)拍攝的520個(gè)不同身份類別的行人。其中200 個(gè)行人有身份標(biāo)簽,320個(gè)行人沒有身份標(biāo)簽。每個(gè)行人至少被2臺攝像機(jī)捕獲到。同時(shí)每個(gè)行人不僅具有高分辨率的圖像,還具有低分辨率的圖像。這個(gè)數(shù)據(jù)集共包括10 424 幅圖像,每個(gè)行人平均有17 幅訓(xùn)練圖像。數(shù)據(jù)集中的每幅行人圖像均由真實(shí)場景中的攝像機(jī)自動拍攝獲取。槍球攝像機(jī)拍攝的是多幀圖像,圖像里面不僅包含了目標(biāo)行人還有其他建筑物、道路和車輛等非目標(biāo)對象。因此,本文利用ImageMagick圖像標(biāo)注工具,將目標(biāo)行人從整幅圖像中裁剪出來。由于每幅圖像中目標(biāo)行人的大小不一,裁剪出來的圖像尺寸大小也不一樣。為了訓(xùn)練方便,在訓(xùn)練過程中將所有高分辨率圖像的尺寸調(diào)整為192 × 96 像素,低分辨率圖像尺寸調(diào)整為64 × 32像素。

基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集中每個(gè)身份類別的行人在每個(gè)攝像頭下都具有多幅圖像,這將有利于跨攝像頭搜索并匹配同身份類別的行人。本文構(gòu)建的數(shù)據(jù)集與現(xiàn)有主流數(shù)據(jù)集存在以下不同。1)現(xiàn)有的一些數(shù)據(jù)集(如Market501、CUHK03(Chinese University of Hong Kong)和CAVIAR)主要通過捕獲大學(xué)校園或者購物商場行人圖像,而基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集從交叉路口獲取各種路人圖像,形成了更豐富、更多樣化的行人數(shù)據(jù)集。2)因?yàn)榛跇屒驍z像機(jī)的行人數(shù)據(jù)集是從視頻流中捕獲并裁剪得到,所以每幅行人圖像具有時(shí)序信息,可以捕捉到隨時(shí)間變化的行人動態(tài)。這種具有時(shí)序特征的行人圖像還適用于研究視頻行人重識別。3)本文構(gòu)建的數(shù)據(jù)集還包括一些身份未標(biāo)明的行人,可以用于研究半監(jiān)督或者無監(jiān)督領(lǐng)域的行人重識別算法,同時(shí)也可以模擬現(xiàn)實(shí)世界中身份識別系統(tǒng)的工作模式。即給定一幅未知身份的人員圖像,身份識別系統(tǒng)將會在監(jiān)控畫面或者數(shù)據(jù)庫中自動檢測到該同類人員。本文構(gòu)建的數(shù)據(jù)集與現(xiàn)有主流 行 人 數(shù) 據(jù) 集Market1501、CUHK03、CAVIAR 和VIPeR的對比結(jié)果如表1所示。

表1 基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集與其他數(shù)據(jù)集對比Table 1 Comparison between the gun-ball camera-based person re-identification and other datasets

從表1 可以看出,本文構(gòu)建的數(shù)據(jù)集具有以下優(yōu)點(diǎn):1)這是第1 個(gè)為每個(gè)行人同時(shí)提供高分辨率圖像和低分辨圖像的行人重識別數(shù)據(jù)集。CAVIAR數(shù)據(jù)集雖然也包含低分辨和高分辨率圖像,但是這兩個(gè)圖像是獨(dú)立拍攝獲取的,彼此之間沒有對應(yīng)關(guān)系,所以無法直接用于訓(xùn)練超分模型,而本文構(gòu)建的數(shù)據(jù)集中每個(gè)行人具有對應(yīng)的高分辨率和低分辨率圖像,因此可以通過超分模型學(xué)習(xí)低分辨率圖像和高分辨率圖像之間的映射關(guān)系。2)整個(gè)數(shù)據(jù)集中的每個(gè)行人是由兩臺不同的攝像機(jī)同時(shí)拍攝的。因此,每個(gè)行人的高分辨率和低分辨率圖像之間可能存在像素誤對齊的問題。在某種程度上,該數(shù)據(jù)集也可以應(yīng)用于研究圖像超分領(lǐng)域的像素誤對齊問題。因此,本文構(gòu)建的數(shù)據(jù)集對其他領(lǐng)域的研究具有重要的參考價(jià)值。

2.2 低分辨率行人重識別模型總體架構(gòu)

本文提出的低分辨率行人重識別基準(zhǔn)模型聯(lián)合學(xué)習(xí)超分任務(wù)和行人重識別任務(wù),整體網(wǎng)絡(luò)框架如圖3 所示,包括生成器網(wǎng)絡(luò)G、梯度判別器Dg、圖像判別器Ds、行人特征判別器Df和行人特征提取器F。對于輸入的低分辨率行人圖像,本文基準(zhǔn)模型訓(xùn)練目標(biāo)有:1)將低分辨率圖像恢復(fù)為高分辨率圖像;2)識別并匹配不同攝像機(jī)下的同身份行人。

圖3 網(wǎng)絡(luò)總體結(jié)構(gòu)圖Fig.3 Overall network structure of the baseline

輸入的低分辨圖像xLR首先經(jīng)過生成器G得到超分圖像xSR,然后圖像判別器Ds區(qū)分高分辨率圖像xHR和超分圖像xSR,同時(shí)梯度判別器Dg負(fù)責(zé)鑒別超分圖像和高分辨圖像梯度圖的真假,最后利用特征提取器F提取超分圖像xSR和高分辨圖像xHR的判別特征,并將提取的判別特征輸入到特征判別器Df辨別是否來自同一特征分布。

2.3 圖像超分辨率模型

本文采用的超分模型由生成器網(wǎng)絡(luò)G、梯度判別器Dg和圖像判別器Ds組成。

2.3.1 生成器網(wǎng)絡(luò)

為了從低分辨率行人圖像中獲取高質(zhì)量的行人圖像,本文采用基于SwinIR(swin image restoration)(Liang 等,2021b)的生成器網(wǎng)絡(luò)架構(gòu)。但是SwinIR只能有效地解決超分領(lǐng)域中像素對齊圖像的復(fù)原問題,而在像素誤對齊圖像上使用失效,因此本文對SwinIR 模型中的網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行了兩方面的改進(jìn):1)網(wǎng)絡(luò)輸入同時(shí)包含了低分辨率圖像的梯度信息。輸入的梯度信息可以使網(wǎng)絡(luò)學(xué)習(xí)到圖像的結(jié)構(gòu)特征和高頻信息,同時(shí)結(jié)合梯度判別器的使用,能有效地解決像素誤對齊的問題。首先低分辨率圖像xLR通過梯度函數(shù)M(·)(M(·)采用固定的3 × 3大小卷積核對圖像的3 個(gè)顏色通道分別做水平和垂直方向上的卷積操作,再將得到的卷積結(jié)果在顏色通道維度上進(jìn)行拼接得到最終梯度)得到梯度圖x;然后xLR和x分別輸入到一個(gè)卷積核大小為3 × 3的卷積層提取淺層特征;最后將兩者的淺層特征在通道維度上進(jìn)行連接操作,并將連接后的特征圖作為后續(xù)模塊的輸入。2)為了減少上采樣操作所帶來的計(jì)算量,網(wǎng)絡(luò)結(jié)構(gòu)的上采樣層采用最近鄰插值算法增大圖像分辨率。生成器網(wǎng)絡(luò)結(jié)構(gòu)如圖4 所示,輸入圖像xLR和x首先經(jīng)過一個(gè)3 × 3 卷積層獲取到淺層特征,并將淺層特征進(jìn)行通道維度拼接。然后,將拼接特征輸入到6 個(gè)RSTB(residual swin transformer block)(Liang 等,2021b)模塊和1 個(gè)3 × 3 卷積層提取深層特征。最后,將拼接特征和深層特征相加得到融合特征,并將融合特征輸入到上采樣層得到最終的高質(zhì)量圖像。

圖4 生成器網(wǎng)絡(luò)Fig.4 The generator network

本文采用像素級損失和感知損失。像素級損失最小化超分圖像和高分辨率圖像之間的像素級誤差,同時(shí)最小化超分圖像梯度圖和高分辨率圖像梯度圖之間的像素級誤差。感知損失最小化超分圖像和高分辨率圖像之間的特征損失。感知特征由預(yù)先訓(xùn)練的視覺幾何群網(wǎng)絡(luò)(Visual Geometry Group network-16,VGG-16)提取。目標(biāo)函數(shù)為

式中,λ,λ,λ是權(quán)重參數(shù),φ(·)是感知特征提取函數(shù)。在圖像、梯度和感知特征的監(jiān)督下,生成器不僅可以學(xué)習(xí)到細(xì)節(jié)信息,還可以避免結(jié)構(gòu)失真。

2.3.2 圖像判別器

許多基于生成對抗網(wǎng)絡(luò)的方法都成功地解決了圖像超分領(lǐng)域的問題。本文利用Ds區(qū)分生成的圖像和高分辨率圖像,使得兩圖像之間更相似。優(yōu)化目標(biāo)函數(shù)為

式中,ExSR表示log(1 -Ds(xSR))的數(shù)學(xué)期望,ExHR表示log(Ds(xHR))的數(shù)學(xué)期望。

2.3.3 梯度判別器

本文構(gòu)建的數(shù)據(jù)集是通過人工裁剪視頻幀中的行人得到的,因此高分辨率行人和低分辨率行人之間可能存在像素誤對齊的問題。為此,本文利用梯度判別器Dg來解決像素誤對齊問題。梯度判別器Dg鑒別高分辨率行人梯度圖和超分行人梯度圖的真假,可以通過對抗學(xué)習(xí)監(jiān)督超分圖像的生成,保留完整的細(xì)節(jié)和結(jié)構(gòu)信息。為了優(yōu)化Dg,最小化目標(biāo)函數(shù)LDg,具體為

2.4 行人特征提取器

行人重識別根據(jù)圖像特征判斷是否來自于同一個(gè)行人。其中Probe 集合是待檢索的圖像集,而Gallery 集合是用于匹配的圖像集。當(dāng)要對Probe 集合的某個(gè)行人圖像進(jìn)行檢索,首先需要特征提取器提取待檢索行人圖像特征,然后再提取Gallery 集合中的所有行人圖像特征并計(jì)算與待檢索行人圖像特征的距離,并將特征距離按照升序排序,最后特征距離最小的圖像即為匹配成功的圖像。本文采用在ImageNet 數(shù)據(jù)集上預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)ResNet50(residual network 50)(He 等,2016)作為行人特征提取器。

許多行人重識別模型利用交叉熵?fù)p失函數(shù)訓(xùn)練行人特征提取器,目標(biāo)函數(shù)為

式中,y是輸入圖像的身份標(biāo)簽,py是在y類上的預(yù)測概率。

為了更好地匹配同身份行人,本文引入了三元組損失函數(shù)最小化類間距離,目標(biāo)函數(shù)為

式中,dp和dn分別表示正樣本和負(fù)樣本的特征距離,α是一個(gè)大于0 的常數(shù)。本文根據(jù)經(jīng)驗(yàn)知識將α的值設(shè)置為0.3。該行人特征提取器的優(yōu)化目標(biāo)為

2.5 行人特征判別器

在圖像空間上,利用梯度和圖像判別器改善生成的超分圖像質(zhì)量并沒有顯著地提升行人識別的性能。為此,本文引入了行人特征判別器Df在特征空間上區(qū)分超分圖像特征和高分辨率圖像特征,使這兩個(gè)特征的分布相似。相對而言,在特征空間上超分相似約束能極大改善行人匹配的性能。研究表明,如果使用二分類損失函數(shù)優(yōu)化行人特征判別器Df和特征生成器(由生成器G和特征提取器F組成),那么由于特征生成器網(wǎng)絡(luò)過深可能會造成訓(xùn)練不穩(wěn)定,因此本文行人特征判別器的最后一層移除了sigmoid,采用基于Wasserstein GAN(Arjovsky 等,2017)的判別器損失函數(shù),具體為

式中,fHR和fSR分別表示高分辨率和超分行人圖像的特征。

2.6 網(wǎng)絡(luò)訓(xùn)練

在模型訓(xùn)練過程中,LG損失項(xiàng)和Lid損失項(xiàng)可以直接嵌入到GAN 的優(yōu)化中,并且整個(gè)模型都保持端到端的可訓(xùn)練。具體步驟如下:

輸入:具有身份標(biāo)簽的訓(xùn)練集D={xLR,xHR}。

輸出:網(wǎng)絡(luò)G,F(xiàn),Ds,Dg,Df。

1)從訓(xùn)練集D中隨機(jī)選取一批數(shù)據(jù)輸入到生成器G和行人特征提取器F,最后得到輸出xSR、fSR和fHR,并利用LG+Lid更新網(wǎng)絡(luò)G和F的參數(shù);

2)行人特征判別器Df鑒別fSR和fHR特征的真假,利用LDf更新網(wǎng)絡(luò)Df的參數(shù);

3)圖像判別器鑒別xSR和xHR的真假,利用LDs更新網(wǎng)絡(luò)Ds的參數(shù);

4)梯度判別器鑒別xSR和xHR的梯度圖的真假,利用LDg更新網(wǎng)絡(luò)Dg的參數(shù);

5)重復(fù)步驟 1)—4),直至網(wǎng)絡(luò)收斂。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)設(shè)置及評價(jià)指標(biāo)

3.1.1 實(shí)驗(yàn)設(shè)置

本文的所有實(shí)驗(yàn)都基于深度學(xué)習(xí)框架Pytorch,在顯卡為GeForce RTX 2080 的Linux 操作系統(tǒng)的單機(jī)電腦上進(jìn)行訓(xùn)練。本文在構(gòu)建的行人重識別數(shù)據(jù)集上的實(shí)驗(yàn)設(shè)置是將數(shù)據(jù)集按照7∶3 的比例劃分為訓(xùn)練集和測試集。圖像判別器和梯度判別器采用VGG-16 網(wǎng)絡(luò)結(jié)構(gòu),特征判別器由4 層線性變換層和3 層非線性激活層組成,除了最后一層線性變換層,其他線性變換層后面都有非線性激活層。特征判別器采用基于Wasserstein GAN(Arjovsky 等,2017)的損失函數(shù)更新網(wǎng)絡(luò)參數(shù),因此參照Arjovsky 等人(2017)的設(shè)計(jì),在每次更新特征判別器的參數(shù)之前,將參數(shù)絕對值限定到[-0.01,0.01]范圍。網(wǎng)絡(luò)訓(xùn)練的總輪次達(dá)到200 時(shí),網(wǎng)絡(luò)基本達(dá)到收斂且性能不再上升。采用RMSProp優(yōu)化器更新生成器和特征提取器網(wǎng)絡(luò)參數(shù),根據(jù)行人重識別訓(xùn)練的經(jīng)驗(yàn),本文設(shè)置初始化學(xué)習(xí)率為0.000 35,權(quán)重衰減參數(shù)為0.000 5。考慮到顯存原因,batch size 設(shè)置為8。所有判別器網(wǎng)絡(luò)采用初始化學(xué)習(xí)率為0.000 1的Adam優(yōu)化器更新網(wǎng)絡(luò)參數(shù),β1= 0.9,β2= 0.999。根據(jù)超分辨率圖像訓(xùn)練的經(jīng)驗(yàn),在本文實(shí)驗(yàn)中設(shè)置式(1)中的權(quán)重系數(shù),λ=λ= 0.01,λ= 1。

3.1.2 評價(jià)指標(biāo)

實(shí)驗(yàn)使用累積匹配特征(cumulative matching characteristic,CMC)和平均精度均值(mAP)作為行人重識別的性能評估指標(biāo)。CMC 曲線表示被查詢的行人出現(xiàn)在不同尺寸行人的候選名單中的概率,用來量化性能,CMC@K表示排名在前K位正確匹配的百分比,即本文實(shí)驗(yàn)中的Rank-K。

3.2 實(shí)驗(yàn)結(jié)果與分析

3.2.1 對比實(shí)驗(yàn)

為了驗(yàn)證本文提出的基準(zhǔn)模型的性能,與采用不同訓(xùn)練的3 種方法進(jìn)行對比,并分別進(jìn)行定性和定量實(shí)驗(yàn)分析,結(jié)果如圖5 和表2 所示。圖5 展示了在基于槍球攝像機(jī)的低分辨率行人數(shù)據(jù)集上進(jìn)行圖像超分的不同結(jié)果。由圖5 可知,采用了超分模塊的方法能夠有效地提高圖像的分辨率。同時(shí)也容易觀察到,結(jié)合了行人重識別模塊的聯(lián)合模型在超分的同時(shí)保留了更多的細(xì)節(jié)信息,因而更加適合行人重識別任務(wù)。

圖5 槍球行人數(shù)據(jù)集的超分圖像實(shí)例Fig 5 Examples of super-resolved person images from the gun-ball person dataset

對比實(shí)驗(yàn)中所采用的超分模型為SwinIR(Liang等,2021b),行人重識別模型為AGW(Ye 等,2022)。第1 種方法是行人重識別模型直接訓(xùn)練基于槍球攝像機(jī)的低分辨率行人數(shù)據(jù)集,然后在低分辨率行人數(shù)據(jù)集上進(jìn)行測試。從實(shí)驗(yàn)結(jié)果可以看出,低分辨率的行人識別性能差。第2 種方法采用聯(lián)合訓(xùn)練的方式同時(shí)優(yōu)化級聯(lián)的超分模型和行人重識別模型。第3 種方法是單獨(dú)訓(xùn)練超分模型和行人重識別模型。首先使用數(shù)據(jù)集中的高分辨率圖像和低分辨率圖像訓(xùn)練超分模型,然后低分辨率圖像輸入到訓(xùn)練好的超分模型中得到超分圖像,最后行人重識別模型對超分圖像進(jìn)行訓(xùn)練和測試。本文提出的基準(zhǔn)模型是在級聯(lián)的超分模型和行人重識別模型中又嵌入了特征判別器模塊,使得高分辨率行人特征和超分辨率行人特征空間分布更相似。為了驗(yàn)證所提出的基準(zhǔn)模型包含的3 個(gè)網(wǎng)絡(luò)模塊的有效性,以SwinIR作為超分模型改善低分辨率圖像的分辨率,同時(shí)以AGW 為行人重識別模型識別行人特征,設(shè)計(jì)了3 種模型Sole ID、SR+ID 和Sole SR 與基準(zhǔn)模型進(jìn)行對比。其中,Sole ID 直接采用低分辨率圖像訓(xùn)練AGW模型;SR+ID 使用高低分辨圖像對聯(lián)合訓(xùn)練SwinIR和AGW模型;Sole SR使用高低分辨圖像對單獨(dú)訓(xùn)練SwinIR 模型,然后低分辨率圖像輸入到訓(xùn)練好的SwinIR模型中得到超分圖像,最后AGW 模型對超分圖像進(jìn)行訓(xùn)練和測試。消融實(shí)驗(yàn)結(jié)果如表2所示??梢钥闯觯疚哪P惋@著優(yōu)于Sole ID、SR + ID和Sole SR這3種模型的識別精度。表2 的實(shí)驗(yàn)結(jié)果表明,當(dāng)同時(shí)優(yōu)化超分模型和行人重識別模型,性能有所提升。但將超分模型和行人重識別模型分開訓(xùn)練,識別精度反而下降。這是因?yàn)槌帜P偷纳善鞑]有學(xué)習(xí)到有益于行人識別的細(xì)節(jié)特征。聯(lián)合優(yōu)化的訓(xùn)練方式雖然提高了識別性能,但是仍然顯著低于本文方法的識別精度。

表2 在槍球行人數(shù)據(jù)集的低分辨率行人上的性能對比Table 2 Performance comparison on low-resolution pedestrians on the gun-ball person dataset/%

實(shí)驗(yàn)將所提模型與4 種代表性行人重識別方法進(jìn)行比較,包括BagTricks(Luo 等,2019)、CDNet(combined depth network)(Li 等,2021b)、ABD-Net(attentive but diverse network)(Chen 等,2019a)和NFormer(neighbor transformer network)(Wang 等,2022)。公平起見,所有方法都在本文構(gòu)建數(shù)據(jù)集中的低分辨率圖像上進(jìn)行訓(xùn)練,所有圖像輸入尺寸為64 × 32像素。表3給出了對比結(jié)果。與主流的行人重識別方法相比,在mAP 和Rank-1 評價(jià)指標(biāo)上,本文模型超過現(xiàn)有主流方法的性能,證明了所提模型能有效解決真實(shí)場景中低分辨率下的行人匹配。與BagTricks、CDNet、ABD-Net和NFormer等4種方法相比,本文所提出的基準(zhǔn)模型包含了圖像超分模塊,因此能夠?qū)⒌头直媛市腥藞D像恢復(fù)為高分辨率圖像,并通過級聯(lián)超分和行人重識別模型進(jìn)行多任務(wù)聯(lián)合學(xué)習(xí),從而有效提升了低分辨率行人匹配的性能。

表3 不同方法在槍球行人數(shù)據(jù)集上的對比結(jié)果Table 3 Comparison results of different methods on the gun-ball pedestrian dataset/%

3.2.2 消融實(shí)驗(yàn)

為了驗(yàn)證真實(shí)場景的低分辨率圖像無法通過下采樣模擬獲取,設(shè)計(jì)了5 組實(shí)驗(yàn)來對比真實(shí)場景中低分辨圖像與下采樣獲得的低分辨率圖像之間的差異。5 組實(shí)驗(yàn)采用相同的訓(xùn)練模型和方法,但是低分辨率訓(xùn)練數(shù)據(jù)集的獲取來自不同方式。第1 組實(shí)驗(yàn)通過雙線性插值的方式下采樣高分辨率圖像獲取低分辨率圖像;第2 組實(shí)驗(yàn)采用雙三次插值算法下采樣高分辨率圖像獲得低分辨率圖像;第3 組實(shí)驗(yàn)采用最近鄰插值算法下采樣高分辨率圖像獲得低分辨率圖像;第4 組實(shí)驗(yàn)采用區(qū)域插值算法下采樣高分辨率圖像獲得低分辨率圖像;第5 組實(shí)驗(yàn)從真實(shí)場景中收集低分辨率圖像。實(shí)驗(yàn)結(jié)果都是在真實(shí)場景上的低分辨率行人圖像上進(jìn)行測試得到,如圖6所示。

圖6 低分辨率圖像獲取方式不同的消融研究Fig.6 Ablation of low-resolution images in different ways

從實(shí)驗(yàn)結(jié)果可以看出,通過下采樣方式獲取的低分辨率數(shù)據(jù)集訓(xùn)練的模型不能很好地處理真實(shí)場景中的低分辨率行人匹配。所以,現(xiàn)有的許多解決低分辨率行人匹配的算法可能無法有效地解決真實(shí)場景中的低分辨率行人識別問題。這同時(shí)也說明采用簡單的下采樣方法很難模擬真實(shí)場景中的非線性變換。

此外,通過選定超分模型各模塊和行人特征判別器,探究本文提出的基準(zhǔn)模型的訓(xùn)練方法在其他行人特征提取器上的有效性。包括:1)在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練的殘差網(wǎng)絡(luò)結(jié)構(gòu)ResNet50;2)Szegedy 等人(2016)通過修改Inception 模塊得到的InceptionV4 網(wǎng)絡(luò)結(jié)構(gòu);3)Zhou 等人(2019)設(shè)計(jì)的一種實(shí)現(xiàn)全尺度特征學(xué)習(xí)的深度行人重識別的全尺度網(wǎng)絡(luò)OSNet(omni-scale network);4)在InceptionV3網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上采用深度可分離卷積替換Inception模塊的標(biāo)準(zhǔn)卷積并引入殘差結(jié)構(gòu)的Xception(Chollet,2017)。實(shí)驗(yàn)結(jié)果如表4所示。公平起見,表4中所有采用Joint 方式的網(wǎng)絡(luò)保持相同的訓(xùn)練數(shù)據(jù)、學(xué)習(xí)率和優(yōu)化器。同理,所有采用Raw 方式(Raw 方式直接在本文提出的低分辨率行人數(shù)據(jù)集上進(jìn)行訓(xùn)練和測試)的網(wǎng)絡(luò)也一樣。從實(shí)驗(yàn)結(jié)果可以看出,本文設(shè)計(jì)的基準(zhǔn)模型網(wǎng)絡(luò)對于不同的行人特征提取器都是適用的,進(jìn)一步驗(yàn)證了這個(gè)基準(zhǔn)模型不僅在殘差網(wǎng)絡(luò)上有效,在其他網(wǎng)絡(luò)上識別性能也同樣得到了極大提升。

表4 不同行人特征提取器的實(shí)驗(yàn)結(jié)果對比Table 4 Comparison of different pedestrian feature extractors/%

目前,超分模型的生成器都是基于CNN 網(wǎng)絡(luò)或者Transformer網(wǎng)絡(luò)。因此本文探究了這兩種網(wǎng)絡(luò)類型的生成器模塊對識別性能的影響,并在基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)對比,結(jié)果如表5 所示??梢钥闯?,不論生成器基于何種類型的網(wǎng)絡(luò),識別性能都有所提升。但是基于Transformer的生成器模型,性能提升的幅度更大。

表5 不同生成器類型的實(shí)驗(yàn)結(jié)果對比Table 5 Comparison of experimental results of different generator types/%

4 結(jié) 論

針對實(shí)際場景中的低分辨率行人重識別問題,本文構(gòu)建了一個(gè)基于槍球攝像機(jī)的行人重識別數(shù)據(jù)集,共包含200 個(gè)有身份標(biāo)簽的行人(同一行人在不同位置被拍攝和識別)和320 個(gè)無身份標(biāo)簽的行人(只在某個(gè)攝像頭下拍攝的行人),其中每個(gè)行人都包含高分辨率和低分辨率圖像。同時(shí),為低分辨率下的行人匹配設(shè)計(jì)了一個(gè)基準(zhǔn)行人重識別模型,由生成器、圖像判別器、梯度判別器、行人特征提取器和行人特征判別器構(gòu)成。該基準(zhǔn)模型可以同時(shí)優(yōu)化行人圖像的分辨率和行人判別特征,從而解決實(shí)際場景中的低分辨行人識別問題。實(shí)驗(yàn)結(jié)果表明,本文提出的基準(zhǔn)模型對比于經(jīng)典的行人重識別模型,在mAP和Rank-1指標(biāo)上分別提高了3.1%和6.1%。因此,相對其他方法,本文方法能更好地解決實(shí)際場景中的低分辨率行人識別問題,并在一定程度上解決了由于像素誤對齊導(dǎo)致生成的超分圖像質(zhì)量不高的問題。本文所提出的數(shù)據(jù)集和基準(zhǔn)模型不僅可以應(yīng)用于行人重識別領(lǐng)域,還可以應(yīng)用于圖像超分領(lǐng)域。

目前,本文實(shí)驗(yàn)的行人重識別訓(xùn)練部分都是針對所構(gòu)建數(shù)據(jù)集中的有身份標(biāo)簽的行人。后續(xù)會考慮在識別部分加入無身份標(biāo)簽的行人,從而利用半監(jiān)督算法解決低分辨率行人匹配的問題。因此,未來擬研究弱監(jiān)督場景下的行人重識別算法。

猜你喜歡
低分辨率高分辨率攝像機(jī)
紅外熱成像中低分辨率行人小目標(biāo)檢測方法
基于偏移學(xué)習(xí)的低分辨率人體姿態(tài)估計(jì)
高分辨率合成孔徑雷達(dá)圖像解譯系統(tǒng)
樹木的低分辨率三維模型資源創(chuàng)建實(shí)踐
看監(jiān)控?cái)z像機(jī)的4K之道
攝像機(jī)低照成像的前世今生
新安訊士Q6155-E PTZ攝像機(jī)
高分辨率對地觀測系統(tǒng)
太空探索(2015年8期)2015-07-18 11:04:44
如何消除和緩解“攝像機(jī)恐懼癥”
新聞前哨(2015年2期)2015-03-11 19:29:25
基于Curvelet-Wavelet變換高分辨率遙感圖像降噪
兖州市| 高安市| 宜章县| 鱼台县| 海安县| 峨眉山市| 辽宁省| 忻州市| 新竹县| 临沧市| 岱山县| 武冈市| 广南县| 新平| 容城县| 三台县| 白朗县| 呈贡县| 尼玛县| 横山县| 千阳县| 临沧市| 洪湖市| 明溪县| 阳曲县| 宁强县| 安丘市| 太和县| 钟祥市| 阳曲县| 江安县| 吴桥县| 兴业县| 贡山| 溧水县| 扶绥县| 镇原县| 日土县| 蓝山县| 松阳县| 酒泉市|