基于步態(tài)序列的跨視角步態(tài)識別

2021-07-03 08:13:18李凱曹可凡沈皓凝

河北大學學報(自然科學版) 2021年3期

李凱曹可凡沈皓凝

(1.河北大學網(wǎng)絡空間安全與計算機學院,河北保定 071002；2.湖南大學電氣與信息工程學院,湖南長沙 410082)

步態(tài)識別是一種很有潛力的生物識別技術,具有在遠距離、低分辨率情況下完成識別對象的特性,與傳統(tǒng)的指紋識別、虹膜識別、人臉識別不同的是,該方法無需被識別對象的配合即可完成身份驗證,因此,步態(tài)識別技術在身份識別、安檢監(jiān)控和預防犯罪等領域具有廣泛的應用前景.然而,由于步態(tài)識別往往受到很多因素的干擾,因此其識別性能將會顯著降低,這些因素主要包括步態(tài)序列的采集角度,被識別行人的服裝、鞋子和背包,其中對識別準確率干擾較大的是采集角度的變化,如圖1所示,圖1a和圖1b的步態(tài)輪廓圖拍攝自同一個行人的0°和90°視角,圖1c的步態(tài)輪廓圖拍攝自不同行人的90°視角.步態(tài)識別的難點在于同一個行人在不同視角中所拍攝步態(tài)輪廓圖像間的差異遠大于不同行人在相同視角下拍攝的步態(tài)輪廓圖像間的差異.

圖1 行人步態(tài)輪廓Fig.1 Pedestrian gait silhouette

為了克服視角變化對識別準確率的影響,研究人員提出了不同的方法,它們主要分為3類:1)試圖從行人的步態(tài)圖像中提取行人的三維結構[1-2],此方法對環(huán)境具有嚴格的要求,同時計算復雜度較高；2)使用手工提取特征的方式獲取一些與視角無關的特征[3],然而,此方法在視角變化較大的情況下,步態(tài)識別準確率會大幅下降；3)使用轉(zhuǎn)換或投影方法將步態(tài)特征在不同視角中進行轉(zhuǎn)換.例如,Makihara等[4]提出的視角轉(zhuǎn)換模型(view transformation model,VTM)能夠?qū)⒉綉B(tài)特征從一個視角轉(zhuǎn)換到另一個視角.Kusakunniran等[5]提出了使用截斷SVD 的方法進一步克服視角轉(zhuǎn)換模型的過擬合問題.Hu等[6]提出與視角無關的判別投影方法(ViDP),通過迭代策略并使用線性投影來提高多視角步態(tài)特征的判別能力,且在識別過程中無需獲得被識別行人的視角信息.Yu等[7]提出使用身份判別器來保證GANs生成的輪廓圖包含行人的身份信息.同時一些學者提出了基于卷積神經(jīng)網(wǎng)絡(convolutional neural network,CNN)的步態(tài)識別方法[8-9].為了保留更多的動態(tài)信息,Castro等[10]提出了使用CNN 從步態(tài)圖像的光流分量中學習高級特征描述符.Wolf等[11]將光流法和3D 卷積神經(jīng)網(wǎng)絡相結合,使得模型在視角跨度較大時仍具有較好的準確率.為了利用步態(tài)序列中的時間信息,Feng等[12]將CNN 和長短期記憶網(wǎng)絡(LSTM)相結合,使得CNN 產(chǎn)生的人體姿態(tài)標記傳入LSTM 進而完成分類.度量學習通過計算樣本特征之間的相似度或距離來判斷相似性.Tong等[13]提出使用三元組損失函數(shù)(triplet loss)訓練卷積神經(jīng)網(wǎng)絡,在每輪迭代中,通過對較難分類樣本的采樣來提升模型對視角變化的魯棒性.Huang等[14]將注意力機制和三元組損失函數(shù)(triplet-loss)引入到卷積神經(jīng)網(wǎng)絡中,利用嵌入學習在OU-LP和OU-MVLP數(shù)據(jù)集上獲得了較好的實驗結果.為了提高跨視角步態(tài)識別的準確率,本文研究了基于步態(tài)序列的跨視角步態(tài)識別,提出了一種基于步態(tài)序列的跨視角步態(tài)識別模型,該模型由1個編碼器、1個生成器和2個判別器組成,編碼器主要對步態(tài)序列進行編碼,為了保證獲取的步態(tài)特征有效,通過判別器對生成器生成的包含特定步態(tài)信息與時間信息的圖像,利用連續(xù)幀判別損失以及三元組損失對模型進行修正.

1 生成式對抗神經(jīng)網(wǎng)絡與跨視角步態(tài)識別模型

1.1 生成式對抗神經(jīng)網(wǎng)絡GANs

生成式對抗神經(jīng)網(wǎng)絡(GANs)[15]是一種新穎的數(shù)據(jù)分布建模方法,它主要由生成器G和判別器D構成.其主要思想是利用生成器從分布z～Pz產(chǎn)生一個假數(shù)據(jù),而判別器D是將假數(shù)據(jù)從真實的數(shù)據(jù)中區(qū)分出來.假設真實數(shù)據(jù)的分布是x～Pdata, 生成器G和判別器D利用式(1)通過迭代技術進行優(yōu)化

其中θG和θD分別是生成器G和判別器D的參數(shù).由于原始GANs的訓練往往受到低質(zhì)量、不穩(wěn)定和模型崩潰等因素的影響,因此,學術界提出了許多GANs的變種來解決這些問題[16-19].

1.2 跨視角步態(tài)識別模型

為了提取行人的有效步態(tài)特征,較常用的方法是使用步態(tài)能量圖進行提取,通過對二值輪廓圖像取平均以此來得到步態(tài)特征的表示,然而,這種方法卻忽略了步態(tài)周期中的動態(tài)信息.為了有效保留步態(tài)中的時間信息,進一步提高跨視角步態(tài)識別的準確率,本文研究了基于步態(tài)序列的跨視角步態(tài)識別,也就是說,為了提取步態(tài)中的時間信息,將步態(tài)序列作為模型輸入,以此提取步態(tài)特征.

假設給定一個具有N個行人的步態(tài)序列數(shù)據(jù)集{Si},其中每個行人的標簽定義為yi,i∈{1,2,…,N}.對于行人i,定義其步態(tài)序列為取自某視角下的一組連續(xù)步態(tài)輪廓圖像,Si={xij|j=1,2,…,nf},即Si代表行人i的一個步態(tài)序列,另外,定義S+i表示與樣本序列Si標簽相同的樣本序列,S-i表示與樣本序列Si標簽不同的樣本序列,提出的步態(tài)識別模型如圖2所示.該模型主要由編碼器、生成器和判別器構成.編碼器將步態(tài)序列轉(zhuǎn)換為潛在空間中的步態(tài)特征向量,同時使用triplet-loss損失函數(shù)確保具有不同標簽的樣本在潛在空間中的分布盡可能遠離；生成器G將一組潛在空間中的步態(tài)特征向量生成固定視角的步態(tài)輪廓序列；判別器主要由2部分組成,即真?zhèn)闻袆e器和步態(tài)幀連續(xù)判別器,它們分別用于判斷生成序列^S的真?zhèn)魏蜕傻牟綉B(tài)序列的連續(xù)性.

圖2 步態(tài)識別模型Fig.2 Gait recognition model

2 基于GANs的步態(tài)識別模型

2.1 編碼器

為了抽取與視角無關的步態(tài)特征,在步態(tài)識別模型中,編碼器使用了卷積神經(jīng)網(wǎng)絡對步態(tài)序列進行編碼,它主要由4個卷積層和1個全連接層構成,其輸入為1個n×64×64的步態(tài)圖像序列,其中n是步態(tài)序列的幀數(shù),通過編碼器將步態(tài)序列映射到潛在空間,該編碼器的結構如圖3左半部分所示.

假設Si為一個步態(tài)序列,將步態(tài)序列中的每幀圖像作為編碼器的輸入,通過編碼將得到潛在空間中的一個向量,而該步態(tài)序列可以轉(zhuǎn)換為潛在空間中的特征向量集合Veci,即

其中E(·)為編碼器.使用max函數(shù)對潛在空間中的特征向量集合Veci中每個向量計算每一維度上的最大值,從而獲得步態(tài)序列在潛在空間中的向量表示.為了盡可能保留更多的步態(tài)識別信息,訓練中使用triplet-loss損失函數(shù)最大化具有不同標簽的樣本之間在特征空間中的距離,而具有相同標簽的樣本在特征空間中的距離盡可能接近.

圖3 模型結構Fig.3 Model structure

2.2 生成器

生成器目標是將編碼器編碼后獲得的向量集生成固定視角的盡可能真實的步態(tài)輪廓圖像.生成器由4個反卷積層組成,反卷積操作能夠?qū)⒌途S特征向量采樣為高維的數(shù)據(jù)[15],生成器結構如圖3右半部分所示.當一個任意視角、任意穿著與攜帶下的步態(tài)圖像序列Si輸入編碼器將得到1組潛在空間中的特征向量Veci,將該組的每一個向量通過生成器生成1張固定視角且正常條件下的二值步態(tài)輪廓圖像,從而獲得1個固定視角下的步態(tài)圖像序列^Si.

2.3 判別器

判別器主要包括真?zhèn)闻袆e器與步態(tài)幀連續(xù)判別器,主要功能如下:

1)真?zhèn)闻袆e器

真?zhèn)闻袆e器是由包含4個卷積層和1個全連接層的卷積神經(jīng)網(wǎng)絡構成,它的輸出是0到1的值,用于表示輸入圖像接近于固定視角下真實步態(tài)圖像的程度.真?zhèn)闻袆e器的結構如圖4所示.在訓練中,真?zhèn)闻袆e器每次判斷一張圖像的真?zhèn)魏鸵暯?通過判別生成步態(tài)序列^S中的每一幀圖像是否真實,可以得到一組真?zhèn)螕p失,對該組損失進行平均從而獲得步態(tài)序列^S的真?zhèn)螕p失.

圖4 真?zhèn)闻袆e器結構Fig.4 Structure of authenticity discriminator

2)步態(tài)幀連續(xù)判別器

步態(tài)幀連續(xù)判別器實際上是一個由4個卷積層和1個全連接層的卷積神經(jīng)網(wǎng)絡構成,該網(wǎng)絡結構如圖5所示.對于此判別器,在訓練模型時需要先預先訓練.其訓練過程是從1個步態(tài)序列樣本中任意選取3幀步態(tài)輪廓圖像送入步態(tài)幀連續(xù)判別器,如果該3幀步態(tài)圖像在時間順序上連續(xù),則判別器的輸出為真,詳細訓練過程見算法Dtrain.當完成該判別器的訓練后,即可開始訓練步態(tài)識別模型.也就是說,對于^Si中的每一幀圖像,依次判斷它是否與前后各幀圖像在時間順序上連續(xù).利用此種方法,對于步態(tài)序列將得到一組幀連續(xù)損失,然后對這組損失求平均從而得到步態(tài)序列的幀連續(xù)損失.

圖5 步態(tài)幀連續(xù)判別器結構Fig.5 Gait frame continuous discriminator structure

步態(tài)幀連續(xù)判別器算法Dtrain

輸入:t=0；初始化步態(tài)幀連續(xù)判別器參數(shù)W；學習率η；訓練輪數(shù)T；每個樣本循環(huán)的次數(shù)ntimes；D(·)表示步態(tài)幀連續(xù)判別器.

輸出:步態(tài)幀連續(xù)判別器參數(shù)W.

2.4 損失函數(shù)

在步態(tài)識別模型的訓練中,主要涉及2種類型的損失函數(shù),它們分別為編碼器產(chǎn)生的Triplet損失和判別器產(chǎn)生的判別損失.

1)Triplet 損失函數(shù)

Triplet 損失函數(shù)是由Florian等[20]提出,通過合頁損失(hinge loss)能夠減少所查樣本與正例樣本間的特征距離,并且增大所查樣本與負例樣本間的特征距離.模型中使用的triplet 損失函數(shù)定義如下:

其中E(·)是編碼器,fmax(·)函數(shù)為對一組潛在空間中的向量求每一維度上的最大值后形成的向量.

2) 判別損失函數(shù)

判別損失來源于2種判別器所產(chǎn)生的損失,一種是由真?zhèn)闻袆e器產(chǎn)生的損失,另一種是由步態(tài)幀連續(xù)判別器所產(chǎn)生的損失.對于2個判別器,它們所產(chǎn)生的損失定義為

其中G(·)和E(·)分別代表生成器和編碼器,D1(·)為真?zhèn)闻袆e器,D2(·)為步態(tài)幀連續(xù)判別器.Sf表示同一行人采集固定視角下的真實步態(tài)序列.

步態(tài)識別模型的總體損失函數(shù)定義為

3 實驗研究

3.1 實驗數(shù)據(jù)與方法

為了驗證提出方法的有效性,實驗中選取了步態(tài)數(shù)據(jù)庫CASIA-B與OU-MVLP.Dataset-B數(shù)據(jù)集由中科院自動化所采集,由124個行人步態(tài)樣本組成.每個行人的步態(tài)樣本有3種行走狀態(tài),每種行走狀態(tài)有11個視角.OU-MVLP是一個樣本數(shù)量較多的步態(tài)數(shù)據(jù)集,包含10 308個行人.通過使用7個不同視角的攝像機對行人采集2次得到14個視角,之后再重復一次共得到288 596條步態(tài)圖像序列.實驗中輸入的步態(tài)輪廓圖像被裁剪成64×64大小,每個步態(tài)序列所包含的連續(xù)幀數(shù)為16.編碼器的每層卷積核的大小均為4×4個像素,卷積步長為2,通過一個全連接層將編碼器提取的特征投影到256維的潛在空間中.生成器組件則是將利用潛在空間中的特征向量生成步態(tài)圖像,通過反卷積操作將得到視角轉(zhuǎn)換后的步態(tài)圖像序列.在步態(tài)識別模型的訓練中,學習率為10-4,迭代次數(shù)為600 000,分類器使用最近鄰分類算法.

3.2 實驗結果與分析

針對CASIA-B數(shù)據(jù)集,選取前74個行人樣本作為模型的訓練集,其余的50個行人樣本作為測試集.在測試過程中,取測試集中每個行人正常行走姿態(tài)的前4條序列作為標簽已知的匹配庫樣本(即gallery樣本),剩余2條正常姿態(tài)的序列作為標簽未知的待識別樣本(即probe樣本).數(shù)據(jù)集包含11種不同視角,將特定視角的匹配庫樣本和待識別樣本進行了交叉組合,共獲得121種視角組合.實驗過程中分別對正常行走、攜帶背包行走、穿著大衣行走3種狀態(tài)的2條行走序列進行識別,以此測試模型的識別準確率.實驗結果如表1～3所示,其中表的每一行對應匹配庫樣本圖像的視角,每一列對應待識別樣本圖像的視角.

表1 CASIA-B數(shù)據(jù)集在正常條件下的跨視角識別準確率Tab.1 CASIA-B dataset cross-view recognition accuracy under normal conditions%

表2 CASIA-B數(shù)據(jù)集在攜帶背包條件下的跨視角識別準確率Tab.2 CASIA-B dataset cross-view recognition accuracy under carrying bag conditions%

表3 CASIA-B數(shù)據(jù)集在穿著大衣條件下的跨視角識別準確率Tab.3 CASIA-B dataset cross-view recognition accuracy under wearing cloak conditions%

對于OUMVLP數(shù)據(jù)集,將前5 153個樣本作為模型的訓練集,剩余的5 154個樣本作為測試集.在測試過程中,將編號為00的步態(tài)圖像序列作為標簽已知的匹配庫樣本(gallery樣本),編號為01的步態(tài)圖像序列作為標簽未知的待識別樣本(probe樣本).通過將數(shù)據(jù)集中14種不同視角進行交叉組合得到196種視角的組合.實驗結果如表4所示.

表4 OU-MVLP數(shù)據(jù)集的識別準確率Tab.4 Recognition accuracy of OU-MVLP dataset%

由表1～4可以看到,當步態(tài)視角為90°時,獲得了較高的識別率,在表1～4 中它們分別為100%、99.02%、97.06%和96.66%.

同時針對CASIA-B數(shù)據(jù)集對提出的模型進行了比較實驗,實驗中使用前62個行人樣本作為模型的訓練集,剩余樣本作為測試集.與Gait GAN[11]、MGANs[21]和SPAE[22]方法進行了對比,實驗結果如表5所示,其中每行數(shù)據(jù)為Gallery集中0～180°的每個視角與Probe中0～180°所有視角下識別準確率的平均值.

表5 不同方法的比較Tab.5 Comparison of different methods%

實驗結果表明,在正常行走和穿著大衣行走的條件下,提出的方法其識別率高于GaitGAN、MGANs和SPAE 3種方法；而在攜帶背包條件下,提出的方法其識別率高于Gait GAN 和SPAE 2種方法,且略低于MGANs方法.

4 結論

針對跨視角步態(tài)識別問題,提出了一個步態(tài)識別模型,將步態(tài)序列作為模型的輸入,通過使用真?zhèn)螕p失和連續(xù)幀判別損失,利用生成器生成視角轉(zhuǎn)換后的連續(xù)步態(tài)序列,迫使編碼器提取含有時間信息且不隨視角改變的步態(tài)特征.同時引入triplet-loss損失函數(shù),使得不同樣本在潛在空間中的嵌入具有更好的可區(qū)分性.在識別時,將待識別行人的步態(tài)序列通過編碼器提取一組潛在空間上的特征向量,將這組向量在每個維度求極大值得到能夠表示行人步態(tài)序列的一個特征向量,并使用最近鄰方法得到Probe樣本的標簽,通過實驗驗證了提出的方法在CASIA-B和OU-MVLP數(shù)據(jù)集上的有效性,并且在步態(tài)條件改變時具有一定的魯棒性.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡