国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于變分對(duì)抗與強(qiáng)化學(xué)習(xí)的行人重識(shí)別①

2022-06-29 07:48:06夏士雄趙佳琦朱東郡
關(guān)鍵詞:變分行人姿態(tài)

陳 瑩, 夏士雄, 趙佳琦, 周 勇, 姚 睿, 朱東郡

1(中國(guó)礦業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院, 徐州 221116)

2(礦山數(shù)字化教育部工程研究中心, 徐州 221116)

行人重識(shí)別技術(shù)(person re-identification, ReID)[1]是在行人檢測(cè)的基礎(chǔ)上利用計(jì)算機(jī)視覺方法判斷圖像或者視頻序列中是否存在特定行人的技術(shù), 被認(rèn)為是圖像檢索的子問題. 行人重識(shí)別技術(shù)與行人檢測(cè)技術(shù)相結(jié)合, 可廣泛應(yīng)用于智能視頻監(jiān)控、智能商業(yè)、智能安防等領(lǐng)域. 在實(shí)際的視頻監(jiān)控環(huán)境中, 由于目標(biāo)尺寸變化、姿態(tài)變化、非剛體目標(biāo)形變等目標(biāo)自身變化的多樣性和光照變化、背景復(fù)雜、相似行人干擾、遮擋等應(yīng)用環(huán)境的復(fù)雜性, 使得魯棒、高效的行人重識(shí)別是一個(gè)極具挑戰(zhàn)性的課題, 也是當(dāng)前國(guó)內(nèi)外的研究熱點(diǎn). 其中, 攝像機(jī)視角不同和多姿態(tài)行人是導(dǎo)致ReID任務(wù)識(shí)別精度低的主要原因. “多姿態(tài)” (例如正身與側(cè)身匹配)是指當(dāng)目標(biāo)發(fā)生運(yùn)動(dòng)時(shí)引起身體幾何形變或者角度變化, 從而導(dǎo)致不同姿態(tài)下同一行人圖像在像素級(jí)別的差別大于不同行人在相同姿態(tài)下的圖像, 如圖1 所示. 針對(duì)上述問題, ReID 方法的核心在于如何設(shè)計(jì)魯棒的行人視覺特征和如何得到最優(yōu)的行人圖像特征相似性度量.

圖1 行人重識(shí)別任務(wù)中“多姿態(tài)”樣本示例

卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNNs)作為深度學(xué)習(xí)的一個(gè)重要組成部分, 它可以從大規(guī)模數(shù)據(jù)集中自動(dòng)學(xué)習(xí)魯棒的行人特征, 基于深度學(xué)習(xí)的ReID 方法能夠自動(dòng)學(xué)習(xí)較好的視覺特征和最優(yōu)的相似性度量, 因此基于深度學(xué)習(xí)的行人重識(shí)別技術(shù)得到迅速發(fā)展[2]. 人體姿態(tài)的變化會(huì)引起識(shí)別漂移或者失敗, 其原因是當(dāng)人體發(fā)生形變或者角度變化時(shí), 行人的表觀特征也會(huì)發(fā)生變化, 與初始跟蹤時(shí)的目標(biāo)有較大外觀差異. 行人姿態(tài)多變?nèi)匀皇荝eID 方法提取有效行人特征的一大挑戰(zhàn), 現(xiàn)有深度學(xué)習(xí)領(lǐng)域主要有3 類方法針對(duì)該問題: 行人圖像對(duì)齊[3–6], 局部特征學(xué)習(xí)[7–11]和行人姿態(tài)轉(zhuǎn)換[12–16].

行人圖像對(duì)齊方法解決的是由于姿態(tài)或者視角變化以及不可靠的關(guān)鍵點(diǎn)檢測(cè)引起的身體部件缺失和圖像背景冗余問題, 通過將非對(duì)準(zhǔn)圖像數(shù)據(jù)進(jìn)行人體結(jié)構(gòu)對(duì)齊來學(xué)習(xí)圖像對(duì)的相似度. 局部特征學(xué)習(xí)方法針對(duì)姿勢(shì)變化引起的人體不對(duì)準(zhǔn)問題, 采用關(guān)鍵點(diǎn)定位技術(shù)生成多個(gè)區(qū)域, 從而學(xué)習(xí)易于判別行人身份的局部特征. 行人姿態(tài)轉(zhuǎn)換方法利用生成式對(duì)抗網(wǎng)絡(luò)生成身份一致的規(guī)范姿態(tài)圖像達(dá)到學(xué)習(xí)與身份相關(guān)特征的目的. 盡管這些方法獲得了較好的ReID 性能, 但行人圖像對(duì)齊和局部特征學(xué)習(xí)方法在識(shí)別階段需要輔助的姿態(tài)信息, 這限制了ReID 方法的泛化能力. 尤其是基于行人姿態(tài)轉(zhuǎn)換的ReID 方法, 它們忽略了生成任務(wù)對(duì)識(shí)別精度的影響.

針對(duì)行人重識(shí)別數(shù)據(jù)集的姿態(tài)多樣性帶來的挑戰(zhàn),在不進(jìn)行行人對(duì)齊或?qū)W習(xí)基于人類區(qū)域表示的情況下,本文提出一種基于變分對(duì)抗與強(qiáng)化學(xué)習(xí)(RL-VGAN)的行人重識(shí)別方法來提取僅與身份相關(guān)的視覺特征.一方面提升網(wǎng)絡(luò)生成多樣性樣本的能力, 另一方面提升行人重識(shí)別方法對(duì)相似樣本干擾的魯棒性. 具體而言, RL-VGAN 在孿生網(wǎng)絡(luò)結(jié)構(gòu)中嵌入設(shè)計(jì)的變分生成式對(duì)抗網(wǎng)絡(luò)(variational generative network, VG-Net),VG-Net 中變分生成網(wǎng)絡(luò)由外觀編碼器和圖像解碼器組成, 圖像解碼器將外觀編碼器編碼的外觀特征和姿態(tài)編碼器編碼的姿態(tài)特征解碼為新的行人圖像; 姿態(tài)判別器用以判斷生成的行人圖像是否與原始的目標(biāo)姿態(tài)一致. 除了VG-Net 外, 還包括一個(gè)身份驗(yàn)證分類器實(shí)現(xiàn)行人身份的判斷. 特別地, 變分生成網(wǎng)絡(luò)將行人圖像分解為兩個(gè)基本特征: 與內(nèi)在身份信息相關(guān)的外觀特征和可變化的姿態(tài)特征(包括位置、體型、形狀等).大量定性和定量實(shí)驗(yàn)證明RL-VGAN 方法在基準(zhǔn)數(shù)據(jù)集上取得顯著效果. 本文的主要貢獻(xiàn)包括以下3 點(diǎn).

(1) 設(shè)計(jì)了一個(gè)新的變分生成網(wǎng)絡(luò)將行人特征解耦為外觀特征和姿態(tài)特征, 有效地緩解姿態(tài)變化帶來識(shí)別精度低的問題. 特別地, 通過采用Kullback-Leibler(KL)散度損失促進(jìn)編碼網(wǎng)絡(luò)學(xué)習(xí)潛在空間變量和真實(shí)圖像之間的關(guān)系, 保證編碼的空間變量包含更多與行人身份相關(guān)的信息.

(2) 采用強(qiáng)化學(xué)習(xí)策略能夠處理變分生成式對(duì)抗網(wǎng)絡(luò)在方向傳播中不可微分的問題, 通過限制生成網(wǎng)絡(luò)迭代的梯度調(diào)整判別網(wǎng)絡(luò)的參數(shù), 保證生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)的協(xié)調(diào)工作.

(3) 針對(duì)基于姿態(tài)引導(dǎo)圖像生成任務(wù)生成圖像質(zhì)量差的問題, 設(shè)計(jì)新的inception score (IS)損失, IS 是評(píng)估GAN 生成圖像真實(shí)性和多樣性的指標(biāo), 因此提出新的IS 損失使變分生成網(wǎng)絡(luò)生成具有真實(shí)性和多樣性的行人圖像.

本文的其余部分組織如下: 第1 節(jié)討論了行人重識(shí)別方法的相關(guān)工作; 第2 節(jié)詳細(xì)地介紹基于變分對(duì)抗與強(qiáng)化學(xué)習(xí)的行人重識(shí)別方法; 第3 節(jié)描述了實(shí)驗(yàn)細(xì)節(jié)和分析了實(shí)驗(yàn)結(jié)果; 第4 節(jié)概括了本文的結(jié)論以及提出未來研究工作的方向.

1 相關(guān)工作

行人ReID 技術(shù)通常包含3 個(gè)環(huán)節(jié): 特征提取、相似度量和特征匹配. 首先利用行人特征表示方法提取行人圖像的視覺特征; 然后對(duì)提取到的行人圖像視覺特征進(jìn)行訓(xùn)練, 學(xué)習(xí)合適的相似性度量方法; 最后將待檢索的行人圖像視覺特征與其他行人圖像視覺特征進(jìn)行相似度排序, 找到與其相似度高的行人圖像. ReID方法的核心在于如何設(shè)計(jì)魯棒的行人視覺特征和如何得到最優(yōu)的行人圖像特征相似性度量. 由于目標(biāo)在不同的角度和距離拍攝下, 其形狀、姿態(tài)和相對(duì)大小都有變化, 行人姿態(tài)多變?nèi)匀皇荝eID 方法提取有效行人特征的一大挑戰(zhàn), 現(xiàn)有深度學(xué)習(xí)領(lǐng)域主要有3 類方法針對(duì)該問題: 行人圖像對(duì)齊[3–6], 局部特征學(xué)習(xí)[7–11]和行人姿態(tài)轉(zhuǎn)換[12–16].

基于行人圖像對(duì)齊的行人重識(shí)別方法通過把人體分解成幾塊區(qū)域后獲取每個(gè)區(qū)域的特征表示, 計(jì)算兩幅圖像對(duì)應(yīng)區(qū)域之間相似度和作為它們的匹配得分.王金等人[3]利用行人圖像的圖像塊集合, 提取每個(gè)圖像塊特征表示獲取行人圖像的局部信息, 對(duì)局部信息進(jìn)行聚類處理建立兩幅行人圖像塊之間的對(duì)應(yīng)關(guān)系以獲得姿態(tài)對(duì)齊后的圖像塊序列. 基于深度學(xué)習(xí)的部件表示(deeply-learned part-aligned representations, DPR)[4]方法針對(duì)人體空間分布不一致問題, 采用注意力機(jī)制提取一個(gè)更具區(qū)分性的三維特征向量, 其通道對(duì)應(yīng)人體部位, 在不借助人體部件標(biāo)注的情況下采用最小化三元損失訓(xùn)練網(wǎng)絡(luò)模型. 這些行人圖像對(duì)齊方法要么簡(jiǎn)單地把人體分為幾個(gè)部分, 要么通過姿態(tài)估計(jì)器估計(jì)人體骨架信息來實(shí)現(xiàn)對(duì)齊, 而行人對(duì)齊網(wǎng)絡(luò)(pedestrian alignment network, PAN)[5]采用深度學(xué)習(xí)方法來矯正行人姿態(tài), 學(xué)習(xí)一個(gè)二維的變換把行人對(duì)齊好后再做識(shí)別, 該方法包含基本網(wǎng)絡(luò)分支和對(duì)齊網(wǎng)絡(luò)分支這兩個(gè)CNN 分類網(wǎng)絡(luò)和一個(gè)放射估計(jì)網(wǎng)絡(luò). 基本分類網(wǎng)絡(luò)由ResNet-50 作為骨干網(wǎng)絡(luò), 執(zhí)行識(shí)別預(yù)測(cè)任務(wù); 對(duì)齊網(wǎng)絡(luò)定位行人關(guān)節(jié)點(diǎn)以便放射估計(jì)網(wǎng)絡(luò)學(xué)習(xí)一個(gè)能夠?qū)R人體結(jié)構(gòu)的二維變換. Zheng 等人[6]提出位姿不變嵌入(pose invariant embedding, PIE)作為行人描述符,首先利用姿態(tài)估計(jì)和仿射變換產(chǎn)生將行人與標(biāo)準(zhǔn)姿勢(shì)對(duì)齊的PoseBox 結(jié)構(gòu); 其次設(shè)計(jì)PoseBox Fusion 網(wǎng)絡(luò)融合輸入圖像、PoseBox 和姿態(tài)估計(jì)誤差, 在姿態(tài)估計(jì)失敗時(shí)提供了一種后退機(jī)制.

上述方法利用人體結(jié)構(gòu)來增強(qiáng)識(shí)別能力, 通過人體部件對(duì)齊表示來處理身體部件不對(duì)齊導(dǎo)致的局部距離過大問題. 而基于局部特征學(xué)習(xí)的行人重識(shí)別方法通過區(qū)分人體區(qū)域精準(zhǔn)地識(shí)別行人, 因?yàn)槿梭w具有高度的結(jié)構(gòu)[17]. Chen 等人[7]提出了可以提取人體整體和區(qū)域特征的集成模型, 該集成模型包括提取整體特征的卷積神經(jīng)網(wǎng)絡(luò)和提取區(qū)域特征的雙向高斯混合模型.為了提高模型的泛化性, 在特征匹配時(shí)采用距離歸一化提取的特征. 另一個(gè)解決此類問題的有效方法是將長(zhǎng)短期記憶網(wǎng)絡(luò)嵌入到孿生網(wǎng)絡(luò)中[8], 利用上下文信息以序列的方式對(duì)人體部件進(jìn)行處理, 提高局部特征的判別能力實(shí)現(xiàn)識(shí)別行人的任務(wù). Spindle Net[9]是ReID任務(wù)中第1 個(gè)考慮人體結(jié)構(gòu)信息的方法, 它利用14 個(gè)定位的人體關(guān)節(jié)來檢測(cè)感興趣區(qū)域, 產(chǎn)生7 個(gè)身體區(qū)域: 頭-肩、上體和下體宏觀區(qū)域以及雙腿、雙臂微觀區(qū)域與Spindle Net 相似, 姿態(tài)驅(qū)動(dòng)的深卷積方法(posedriven deep convolutional, PDC)[10]也采用了同時(shí)學(xué)習(xí)全局和局部信息的方式, 但將14 個(gè)關(guān)鍵點(diǎn)分成6 個(gè)區(qū)域. 而全局局部對(duì)齊描述符方法(global local alignment descriptor, GLAD)[11]在提取人體關(guān)鍵點(diǎn)后將人體分為頭部、上半身和下半身3 部分, 采用4 個(gè)子網(wǎng)絡(luò)組成的CNN 對(duì)全局區(qū)域和局部區(qū)域進(jìn)行特征表示學(xué)習(xí), 結(jié)合全身輸入到網(wǎng)絡(luò)中進(jìn)行特征融合.

盡管這些方法獲得了較好的ReID 性能, 但由于需要輔助姿態(tài)信息增加了計(jì)算復(fù)雜度. 近年來, 許多學(xué)者對(duì)Goodfellow 等人[18]首次提出的生成式對(duì)抗網(wǎng)絡(luò)(generative adversarial network, GAN)產(chǎn)生了興趣, 一些工作致力于研發(fā)基于GAN 的ReID 任務(wù). Zheng 等人[19]利用深度卷積生成式對(duì)抗網(wǎng)絡(luò)(deep convolutional GAN, DCGAN)生成無類標(biāo)樣本, 這是利用GAN 完成ReID 任務(wù)的第一個(gè)工作. 同時(shí)也有很多ReID 方法利用GAN 來指導(dǎo)姿態(tài)轉(zhuǎn)換的行人圖像生成. Ge 等人提出FD-GAN (feature distilling GAN)[12]僅學(xué)習(xí)和身份信息有關(guān)的視覺特征, 去除冗余的姿態(tài)特征表示. 在網(wǎng)絡(luò)學(xué)到行人視覺特征后, 在測(cè)試階段不需要輔助的姿態(tài)信息, 因此減少了計(jì)算成本. 為了解決在跨攝像機(jī)下對(duì)姿態(tài)多變訓(xùn)練數(shù)據(jù)的差異特征和不變特征的魯棒性學(xué)習(xí), Ho 等人[13]提出一種端到端的稀疏時(shí)態(tài)學(xué)習(xí)框架用以解決姿態(tài)時(shí)序變化問題. Qian 等人[14]提出一種基于姿態(tài)歸一化圖像生成的方法(pose-normalization GAN,PN-GAN), 該方法可以生成身份一致和姿態(tài)可控的行人圖像. 而基于姿態(tài)生成的方法(pose transferrable GAN,PT-GAN)[15]是一個(gè)實(shí)現(xiàn)轉(zhuǎn)移行人姿態(tài)的模型, 將MARS 數(shù)據(jù)集中的多姿態(tài)行人圖像遷移到目標(biāo)數(shù)據(jù)集以擴(kuò)充訓(xùn)練樣本, 設(shè)計(jì)引導(dǎo)子網(wǎng)絡(luò)模型使生成的新姿態(tài)圖像更好地適應(yīng)ReID 任務(wù).

2 基于變分對(duì)抗與強(qiáng)化學(xué)習(xí)的行人重識(shí)別方法

本文提出的RL-VGAN 模型以姿態(tài)引導(dǎo)圖像生成的思想解決ReID 易受姿態(tài)變化影響和相似行人干擾的問題. 整體的網(wǎng)絡(luò)模型結(jié)構(gòu)如圖2 所示. RL-VGAN模型采用孿生網(wǎng)絡(luò)結(jié)構(gòu), 該結(jié)構(gòu)的每個(gè)分支嵌入由變分生成網(wǎng)絡(luò)G和姿態(tài)判別器Dp組成的變分生成式對(duì)抗網(wǎng)絡(luò). 以孿生網(wǎng)絡(luò)一個(gè)分支的訓(xùn)練過程為例, 條件行人圖像xi被G中的外觀編碼器Ea編碼成外觀特征fa, 目標(biāo)姿態(tài)圖像pk被姿態(tài)編碼器Ep編碼為姿態(tài)特征fp, 圖像解碼器D根據(jù)外觀特征fa、姿態(tài)特征fp和隨機(jī)噪聲n拼接的特征z生成擁有xi外觀以及姿態(tài)pk的行人圖像xki.接下來, 姿態(tài)判別器Dp通過判別樣本姿態(tài)的真實(shí)性來規(guī)范圖像解碼器D生成姿態(tài)變化樣本的能力. 此外, 身份驗(yàn)證分類器V監(jiān)督外觀編碼器Ea學(xué)習(xí)僅與身份相關(guān)的視覺特征.

圖2 RL-VGAN 網(wǎng)絡(luò)結(jié)構(gòu)示意圖

2.1 變分生成網(wǎng)絡(luò)

給定序列(X,Y)=({x1,···,xN},{y1,···,yM}),xi表示有M個(gè)類別和N張圖像數(shù)據(jù)集中的一張行人圖像,yj表示xi的身份標(biāo)簽. 為了生成真實(shí)的行人圖像, 本節(jié)設(shè)計(jì)變分生成網(wǎng)絡(luò)學(xué)習(xí)與圖像相關(guān)的連續(xù)隱變量分布以便進(jìn)行采樣和插值. 一方面利用變分推理保留條件行人圖像的細(xì)節(jié)信息, 另一方面采用最近鄰損失保證生成的圖像在外觀和紋理上與條件行人圖像一致.

借助姿態(tài)編碼器, 孿生網(wǎng)絡(luò)中兩個(gè)圖像解碼器生成的行人圖像姿態(tài)一致, 保證一個(gè)分支中的外觀編碼器可以學(xué)習(xí)僅用身份相關(guān)與姿態(tài)無關(guān)的特征.

2.2 姿態(tài)判別器

變分生成式對(duì)抗網(wǎng)絡(luò)通過變分推理和對(duì)抗學(xué)習(xí)生成較為真實(shí)的圖像, 編碼網(wǎng)絡(luò)通過隱變量和真實(shí)圖像之間的KL 損失保持了外觀特征的一致性. 在對(duì)抗性學(xué)習(xí)階段, RL-VGAN 模型將變分生成網(wǎng)絡(luò)和姿態(tài)判別器嵌入到孿生網(wǎng)絡(luò)模型中, 通過生成樣本對(duì)抗學(xué)習(xí)提升RL-VGAN 模型學(xué)習(xí)身份特征以及生成相似樣本的能力. GAN 的基本思想來源于極小極大博弈, 變分生成網(wǎng)絡(luò)試圖通過生成更自然的圖像“欺騙”判別器以獲得高匹配置信度, 姿態(tài)判別器Dp用來判別變分生成網(wǎng)絡(luò)G生成的行人圖像是否能完成姿態(tài)遷移的任務(wù).

將外觀特征fa、姿態(tài)特征fp和服從正態(tài)分布的隨機(jī)噪聲n統(tǒng)一到相同空間維度z, 加入噪聲n目的是提高模型魯棒性. 在基于變分生成對(duì)抗網(wǎng)絡(luò)模型中, 圖像解碼器D根據(jù)z生成具有pk姿態(tài)和xi外觀的新圖像xki, 姿態(tài)判別器Dp判別生成的圖像xki與相同分支輸入圖像xk的姿態(tài)特征是否保持一致, 保證D在姿態(tài)轉(zhuǎn)移上的生成能力.Dp的損失函數(shù)如式(8)所示.

其 中,m表示孿生網(wǎng)絡(luò)的分支數(shù).

2.3 基于強(qiáng)化學(xué)習(xí)的變分生成式對(duì)抗網(wǎng)絡(luò)算法

深度強(qiáng)化學(xué)習(xí)(reinforcement learning, RL)將深度學(xué)習(xí)的強(qiáng)大感知能力及表征能力與強(qiáng)化學(xué)習(xí)的決策能力相結(jié)合, 通過最大化獎(jiǎng)勵(lì)函數(shù)的學(xué)習(xí)方式使學(xué)習(xí)器從環(huán)境中獲取行為. 具體而言就是通過一系列動(dòng)作策略與環(huán)境交互, 學(xué)習(xí)器產(chǎn)生新的參數(shù), 再利用新的參數(shù)去修改自身的動(dòng)作策略, 經(jīng)過數(shù)次迭代后, 學(xué)習(xí)器就會(huì)學(xué)習(xí)到完成任務(wù)所需要的動(dòng)作策略. 在基于姿態(tài)指導(dǎo)行人圖像生成任務(wù)中, 采用強(qiáng)化學(xué)習(xí)的方法訓(xùn)練變分生成網(wǎng)絡(luò)G和姿態(tài)判別器Dp中的參數(shù), 對(duì)它們的參數(shù)進(jìn)行調(diào)整保證兩個(gè)網(wǎng)絡(luò)協(xié)調(diào)工作來學(xué)習(xí)行人的幾何特征. 基于強(qiáng)化學(xué)習(xí)的變分生成式對(duì)抗網(wǎng)絡(luò)(RL-VGAN)模型如圖3 所示.

圖3 強(qiáng)化變分生成式對(duì)抗網(wǎng)絡(luò)結(jié)構(gòu)示意圖

在RL-VGAN 網(wǎng)絡(luò)模型中, 變分生成網(wǎng)絡(luò)G作為學(xué)習(xí)器在更新網(wǎng)絡(luò)參數(shù)生成新的樣本過程中, 與姿態(tài)判別器Dp環(huán)境進(jìn)行交互, 產(chǎn)生新的狀態(tài)S,S表示在當(dāng)前姿態(tài)判別器Dp的狀態(tài)下是否需要對(duì)G進(jìn)行狀態(tài)更新.G生成圖像的質(zhì)量通過強(qiáng)化學(xué)習(xí)決策產(chǎn)生動(dòng)作a影響Dp. 同時(shí)環(huán)境給出反饋即由標(biāo)量獎(jiǎng)勵(lì)信號(hào)r組成, 通過達(dá)到最大獎(jiǎng)賞值來提高生成網(wǎng)絡(luò)生成圖像的能力, 以及通過學(xué)習(xí)器和環(huán)境不斷交互來更新網(wǎng)絡(luò).G將生成的圖像送入Dp計(jì)算獎(jiǎng)勵(lì)信號(hào)Qr, 根據(jù)得到的獎(jiǎng)勵(lì)信號(hào)進(jìn)行策略梯度下降優(yōu)化模型. 采用Dp(·)作為獎(jiǎng)勵(lì)函數(shù)一方面促使變分生成網(wǎng)絡(luò)G和姿態(tài)判別器Dp協(xié)同工作,另一方面保證生成的圖像具有目標(biāo)姿態(tài)特征. 獎(jiǎng)勵(lì)信號(hào)Qr定義如下:

一個(gè)分支網(wǎng)絡(luò)的Dp試圖最小化以下?lián)p失函數(shù):

算法1. 基于強(qiáng)化學(xué)習(xí)的變分生成式對(duì)抗網(wǎng)絡(luò)算法流程輸入: 學(xué)習(xí)器 , 環(huán)境 , 行人樣本和姿態(tài)數(shù)據(jù), 起始狀態(tài)G x′輸出: 學(xué)習(xí)器 生成的圖像GDpxpS 0=G(x,p)1 for do G tepoches<maxepoches 2 使用變分生成網(wǎng)絡(luò) 根據(jù)姿態(tài)和行人圖像生成一張行人圖像x′x′GSa 3 根據(jù) 質(zhì)量來產(chǎn)生是否更新 的狀態(tài)以及動(dòng)作4 使用式(9)計(jì)算獎(jiǎng)勵(lì)信號(hào)QrG Qr 5 根據(jù)獎(jiǎng)勵(lì)信號(hào) 判斷當(dāng)前是否對(duì) 執(zhí)行更新網(wǎng)絡(luò)參數(shù)的決策Qr 6 根據(jù) 進(jìn)行策略梯度下降優(yōu)化模型7 end for

2.4 訓(xùn)練

為了完成識(shí)別行人身份任務(wù), 需要借助身份驗(yàn)證分類器V進(jìn)行行人身份的識(shí)別,V根據(jù)兩個(gè)分支外觀編碼器Ea編碼的特征識(shí)別輸入的圖像是否屬于同一個(gè)行人, 因此驗(yàn)證分類損失Lve 可以由式(11)表示:

3 實(shí)驗(yàn)結(jié)果與分析

本節(jié)對(duì)所提出的RL-VGAN 模型在3 個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證, 證明RL-VGAN 模型在ReID 任務(wù)中的優(yōu)越性. 首先對(duì)本文使用的數(shù)據(jù)集和評(píng)價(jià)指標(biāo)進(jìn)行介紹; 其次針對(duì)圖像生成任務(wù), 與基于姿態(tài)指導(dǎo)行人圖像生成方法進(jìn)行對(duì)比; 最后對(duì)RL-VGAN 模型與先進(jìn)的行人重識(shí)別方法在姿態(tài)變化問題上進(jìn)行比較.

3.1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)

基于卷積神經(jīng)網(wǎng)絡(luò)的行人重識(shí)算法依賴于大規(guī)模的數(shù)據(jù)集, 本文在大型數(shù)據(jù)集CUHK03[21], Market-1501[22]和DukeMTMC[23]上進(jìn)行ReID 算法驗(yàn)證, 通過3 個(gè)指標(biāo): IS[20], structural similarity (SSIM)[24]和Frechet inception distance (FID)[25]評(píng)價(jià)圖像生成質(zhì)量,采用平均準(zhǔn)確度(mean average precision, mAP)和累計(jì)匹配特征(cumulative match characteristics, CMC)曲線評(píng)估ReID 算法的性能.

采用的數(shù)據(jù)集詳細(xì)信息如表1. CUHK03 數(shù)據(jù)集是由香港中文大學(xué)從2 個(gè)攝像頭上采集的, 包含1 476個(gè)行人的14 097 張圖像, 每個(gè)行人平均有9.6 張訓(xùn)練數(shù)據(jù). 由1 367 個(gè)行人作為訓(xùn)練集和100 個(gè)行人作為測(cè)試集組成, 且提供人工標(biāo)注的行人檢測(cè)框和機(jī)器檢測(cè)的行人檢測(cè)框. Market-1501 數(shù)據(jù)集的采集地點(diǎn)是清華大學(xué)校園, 使用6 個(gè)攝像頭采集了1 501 個(gè)行人的32 668張圖像, 其中訓(xùn)練集有751 個(gè)行人和12 936 張圖像, 平均每人有17.2 張訓(xùn)練數(shù)據(jù); 測(cè)試集包含750 個(gè)行人的19732 張圖像, 平均每人擁有26.3 張測(cè)試數(shù)據(jù). Duke-MTMC 數(shù)據(jù)集是在杜克大學(xué)由8 個(gè)攝像頭采集, 該數(shù)據(jù)集由16 522 張行人圖像的訓(xùn)練集和17 661 張圖像的測(cè)試集組成. 訓(xùn)練集中有702 個(gè)行人, 平均每人有23.5 張訓(xùn)練數(shù)據(jù); 測(cè)試數(shù)據(jù)集中有702 個(gè)行人, 平均每人有25.2 張測(cè)試數(shù)據(jù), 該數(shù)據(jù)集提供了行人屬性(性別/長(zhǎng)短袖/是否背包等)的標(biāo)注信息.

表1 行人重識(shí)別圖像數(shù)據(jù)集信息

由于各種概率標(biāo)準(zhǔn), 評(píng)估不同模型生成圖像的質(zhì)量是一項(xiàng)艱巨的任務(wù). 使用3 個(gè)標(biāo)準(zhǔn): 可辨別性, 多樣性和真實(shí)性來量化FD-GAN, RL-VGAN(w/IS) (w/IS 表示RL-VGAN 模型在FD-GAN 的基礎(chǔ)上僅用IS 損失)和RL-VGAN 生成模型. IS 度量標(biāo)準(zhǔn)表示生成圖像的質(zhì)量和多樣性之間的合理相關(guān)性, 這也是IS 廣泛用于度量生成圖像的原因. SSIM 作為感知度量, 經(jīng)常用來衡量由于數(shù)據(jù)壓縮或數(shù)據(jù)傳輸中丟失而導(dǎo)致的圖像質(zhì)量惡化程度. FID 在判別生成圖像真實(shí)性方面表現(xiàn)良好, 因此它被認(rèn)為是對(duì)帶有標(biāo)記數(shù)據(jù)集樣本質(zhì)量評(píng)估的標(biāo)準(zhǔn). FID 值越低表示兩個(gè)樣本分布越近, 生成的圖像越接近真實(shí)圖像, 而IS 和SSIM 值越高表示生成的圖像質(zhì)量越好.

現(xiàn)有的ReID 算法采用CMC 曲線評(píng)估算法中分類器的性能, 即匹配給定目標(biāo)行人圖像在大小為r的行人圖像庫中出現(xiàn)的概率. CMC 曲線將行人匹配結(jié)果的高低進(jìn)行排序, 通過rank-r的形式給出, 即查找r次即可找到目標(biāo)行人的概率. CMC 曲線能夠檢驗(yàn)ReID 算法的查準(zhǔn)率, 此外還要考慮算法的查全率, 因此采用mAP 對(duì)算法的性能進(jìn)行評(píng)估. mAP 是對(duì)ReID 算法中準(zhǔn)確率和召回率的綜合考量, 其計(jì)算方式是對(duì)每個(gè)檢索目標(biāo)求AP (average precision)并取平均. 將準(zhǔn)確率和召回率作為橫縱坐標(biāo)時(shí), AP 的值是曲線下的面積.

3.2 實(shí)現(xiàn)細(xì)節(jié)

與面向多姿態(tài)行人重識(shí)別的變分對(duì)抗與強(qiáng)化學(xué)習(xí)網(wǎng)絡(luò)模型和傳統(tǒng)的ReID 模型相比, 模型的任務(wù)更復(fù)雜, 故采用多階段的學(xué)習(xí)方法來訓(xùn)練本文提出的RLVGAN 模型, 實(shí)現(xiàn)多個(gè)任務(wù)的協(xié)同學(xué)習(xí): 一方面實(shí)現(xiàn)高質(zhì)量樣本生成, 另一方面提升行人重識(shí)別方法的泛化性能. 使用PyTorch 環(huán)境實(shí)現(xiàn)代碼編寫, 采用一張Geforce RTX 2080Ti 卡訓(xùn)練所提方法. 在訓(xùn)練過程中,3 個(gè)基準(zhǔn)數(shù)據(jù)集的圖像大小設(shè)置為256×128, 與FDGAN[12]一樣, 整個(gè)網(wǎng)絡(luò)的訓(xùn)練分為3 個(gè)階段. 第1 階段利用損失函數(shù)Lve在數(shù)據(jù)集上訓(xùn)練變分生成網(wǎng)絡(luò)中的外觀編碼器Ea和身份驗(yàn)證分類器V, 采用隨機(jī)梯度下降法(stochastic gradient descent, SGD)[26]優(yōu)化兩個(gè)神經(jīng)網(wǎng)絡(luò), 動(dòng)量因子大小為0.9, 初始學(xué)習(xí)率設(shè)為0.01. 第1 階段batch_size設(shè)為128, 共訓(xùn)練100 個(gè)迭代次數(shù). 第2 階段是針對(duì)生成任務(wù), 在固定外觀編碼器Ea和身份驗(yàn)證分類器V網(wǎng)絡(luò)參數(shù)的情況下訓(xùn)練圖像解碼器D和姿態(tài)判別器Dp, 即式(12)中λve=0. 圖像解碼器D采用Adam 優(yōu)化器[27](β1=0.5 , β2=0.999), 姿態(tài)判別器Dp采用SGD 進(jìn)行優(yōu)化, 其中 β1和 β2是矩估計(jì)的指數(shù)衰減率, 兩個(gè)網(wǎng)絡(luò)的初始學(xué)習(xí)率分別是10?3、10?2, 第2 階段的batch_size設(shè)為16, 共訓(xùn)練100 個(gè)迭代次數(shù).第3 階段, 整個(gè)行人重識(shí)別網(wǎng)絡(luò)以端到端的方式聯(lián)合微調(diào)進(jìn)行模型參數(shù)的學(xué)習(xí),batch_size設(shè)為16, 共訓(xùn)練50 個(gè)迭代次數(shù).

3.3 實(shí)驗(yàn)結(jié)果分析

為了證明在本小節(jié)中, 我們首先在3 個(gè)基準(zhǔn)數(shù)據(jù)集上, 展示所提方法生成圖像的視覺效果, 其次使用IS, SSIM 和FID 三種評(píng)價(jià)指標(biāo)評(píng)估RL-VGAN 方法生成圖像的效果. 最后采用mAP 和rank-1 準(zhǔn)確率對(duì)比RL-VGAN 方法和其他行人重識(shí)別方法.

3.3.1 基于姿態(tài)指導(dǎo)行人圖像生成結(jié)果

圖4 展示了RL-VGAN 生成圖像示例, 從上到下依次為條件行人圖像、目標(biāo)行人圖像、目標(biāo)姿態(tài)圖像和生成行人圖像. RL-VGAN 方法在大多數(shù)情況下能夠生成真實(shí)和多樣的圖像, 由于數(shù)據(jù)集中圖像存在遮擋以及清晰度低的問題, 因此生成的圖像中存在一些噪點(diǎn), 但整體上比較好的保留了原圖像的細(xì)節(jié)信息.

圖4 在3 個(gè)數(shù)據(jù)集上的生成圖像示例

為了定量地分析方法的有效性, 選用IS、SSIM和FID 作為分析和評(píng)估本文方法與基準(zhǔn)方法的客觀評(píng)價(jià)指標(biāo), 如表2 所示. 其中, RL-VGAN(w/IS)表示RLVGAN 只采用IS 損失. 與基線FD-GAN 相比, 在CUHK03 數(shù)據(jù)集上, RL-VGAN(w/IS) 分別在IS 和SSIM 評(píng)估指標(biāo)提高了3.86%、3.45%, 在FID 指標(biāo)上下降了4.77%. 表明IS 損失能夠促進(jìn)生成網(wǎng)絡(luò)很好地保留更多外觀信息. 而且, RL-VGAN 得到的IS 準(zhǔn)確率相比于RL-VGAN(w/IS), 分別提高了9.83%、6.81%和1.21%. 其原因在于結(jié)合強(qiáng)化學(xué)習(xí)的生成式對(duì)抗網(wǎng)絡(luò)有效地規(guī)范了生成網(wǎng)絡(luò)生成圖像的過程, 從而進(jìn)一步提高行人圖像的姿態(tài)轉(zhuǎn)移能力. 針對(duì)本文提出的IS 損失, 我們?cè)u(píng)估了其在不同數(shù)據(jù)集上的收斂性, 如圖5 所示. 我們可以看出IS 損失收斂值約為0.02.

表2 3 個(gè)基準(zhǔn)數(shù)據(jù)集上生成圖像的IS、SSIM 和FID 值

圖5 訓(xùn)練階段, IS 損失隨著迭代次數(shù)在3 個(gè)數(shù)據(jù)集上的變化說明

3.3.2 與現(xiàn)有行人重識(shí)別方法的結(jié)果比較

為了公平起見, 我們選擇的ReID 對(duì)比方法是解決ReID 任務(wù)中行人姿態(tài)變化導(dǎo)致識(shí)別精度差的問題,包括基于行人圖像對(duì)齊的ReID 方法[5]和基于行人姿態(tài)轉(zhuǎn)換的ReID 方法[12–16], 如表3 所示.

表3 中“*”表示本文復(fù)現(xiàn)結(jié)果, CMC 包括rank-1正確率, 即預(yù)測(cè)的標(biāo)簽取最后概率向量里面最大的作為預(yù)測(cè)結(jié)果, 若預(yù)測(cè)結(jié)果中概率最大的分類正確則預(yù)測(cè)正確, 否則預(yù)測(cè)錯(cuò)誤. 值得注意的是, 采用不同的GPU 卡和不同數(shù)量的卡都會(huì)嚴(yán)重影響實(shí)驗(yàn)結(jié)果, 比如FD-GAN 結(jié)果與原論文相比下降嚴(yán)重, mAP 在CUHK03、Market1501 和DukeMTMC-ReID 分別下降2.85%、3.86%和12.25%. 因?yàn)镚PU 卡的好壞會(huì)影響浮點(diǎn)運(yùn)算, 以及batch_size大小. 實(shí)驗(yàn)數(shù)據(jù)表明, 在數(shù)據(jù)集CUHK03 和Market1501 上, 本文提出的方法表現(xiàn)均優(yōu)于其他行人重識(shí)別方法. 與基準(zhǔn)方法FD-GAN 相比,RL-VGAN 分別提高了1.35%、0.67% 和8.66%(mAP 指標(biāo)), 0.76%、0.11%和3.44% (rank-1 指標(biāo)). 在DukeMTMC 數(shù)據(jù)集上, 所提方法取得了與GLAD 方法相當(dāng)?shù)慕Y(jié)果. 實(shí)驗(yàn)結(jié)果表明, 本文提出的方法不僅可以有效地生成高質(zhì)量的行人樣本, 而且還可以緩解行人姿態(tài)變化帶來的干擾.

表3 RL-VGAN 與其他方法在3 個(gè)基準(zhǔn)數(shù)據(jù)集下的mAP 和rank-1 準(zhǔn)確率 (%)

4 結(jié)論與展望

本文構(gòu)建了基于變分對(duì)抗與強(qiáng)化學(xué)習(xí)(RL-VGAN)的行人重識(shí)別模型, 在變分生成式對(duì)抗網(wǎng)絡(luò)中, 利用變分推理促進(jìn)生成網(wǎng)絡(luò)生成相似行人圖像的同時(shí)學(xué)習(xí)魯棒的身份信息. 此外, 提出一種新的IS 損失提升變分生成網(wǎng)絡(luò)生成圖像的質(zhì)量, 從而解決行人重識(shí)別系統(tǒng)易受相似行人干擾以及行人姿態(tài)變化的問題. 由于采用交替迭代方式會(huì)導(dǎo)致生成式對(duì)抗網(wǎng)絡(luò)訓(xùn)練過程不穩(wěn)定, 因此本文采用強(qiáng)化學(xué)習(xí)策略促進(jìn)變分生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)收斂到穩(wěn)定狀態(tài). 本文提出的RLVGAN 將姿態(tài)指導(dǎo)行人圖像生成任務(wù)與行人重識(shí)別任務(wù)相結(jié)合, 在3 個(gè)基準(zhǔn)數(shù)據(jù)集上進(jìn)行的大量實(shí)驗(yàn)證明, RL-VGAN 不僅能夠生成高質(zhì)量的行人圖像還能夠有效地完成ReID 的任務(wù). 基于變分對(duì)抗與強(qiáng)化學(xué)習(xí)的行人重識(shí)別方法具有極高的準(zhǔn)確性, 但該網(wǎng)絡(luò)模型容易存在網(wǎng)絡(luò)參數(shù)過擬合的問題. 針對(duì)該問題, 將進(jìn)一步研究基于多目標(biāo)優(yōu)化的生成式對(duì)抗網(wǎng)絡(luò)參數(shù)學(xué)習(xí)和結(jié)構(gòu)修剪方法, 提升生成式對(duì)抗網(wǎng)絡(luò)學(xué)習(xí)的穩(wěn)定性和泛化性能.

猜你喜歡
變分行人姿態(tài)
毒舌出沒,行人避讓
意林(2021年5期)2021-04-18 12:21:17
攀爬的姿態(tài)
逆擬變分不等式問題的相關(guān)研究
求解變分不等式的一種雙投影算法
路不為尋找者而設(shè)
全新一代宋的新姿態(tài)
汽車觀察(2018年9期)2018-10-23 05:46:40
跑與走的姿態(tài)
關(guān)于一個(gè)約束變分問題的注記
我是行人
一個(gè)擾動(dòng)變分不等式的可解性
鲁甸县| 西安市| 安福县| 张掖市| 卢氏县| 高要市| 桃源县| 长春市| 彰化县| 泰和县| 安龙县| 河北省| 伊金霍洛旗| 扎赉特旗| 龙岩市| 九寨沟县| 建水县| 湛江市| 金塔县| 会宁县| 永靖县| 麻城市| 舒兰市| 宁强县| 淮阳县| 清水河县| 五家渠市| 九龙城区| 密山市| 汝阳县| 贵德县| 旌德县| 武胜县| 新乡市| 凤山县| 闸北区| 南雄市| 台东市| 乌恰县| 东乡族自治县| 临漳县|