侯賽輝,付楊,李?yuàn)W奇,劉旭,曹春水,黃永禎*
1.北京師范大學(xué)人工智能學(xué)院,北京 100875;2.銀河水滴科技有限公司,北京 100088
步態(tài)識(shí)別的目標(biāo)是通過被試者的行走方式對(duì)其身份進(jìn)行識(shí)別。與指紋、人臉和虹膜等其他生物特征相比,步態(tài)具有遠(yuǎn)距離獲取、非受控識(shí)別、不易偽裝以及適用范圍廣等特點(diǎn),在刑偵破案、防疫流調(diào)等領(lǐng)域具有廣闊的應(yīng)用前景。步態(tài)的描述方法有多種形式,例如人體測(cè)量學(xué)數(shù)據(jù)、空間時(shí)間數(shù)據(jù)、運(yùn)動(dòng)學(xué)數(shù)據(jù)和動(dòng)力學(xué)數(shù)據(jù)等(賁晛燁 等,2012),當(dāng)前最常用的是將人體關(guān)鍵點(diǎn)或剪影作為步態(tài)模型的輸入,對(duì)應(yīng)的相關(guān)研究方法大致可以分為基于模型的方法和基于外觀的方法兩類。
基于模型的方法主要通過顯式建模人體結(jié)構(gòu)進(jìn)行身份識(shí)別。例如,Liao 等人(2017)從原始視頻中估計(jì)關(guān)鍵點(diǎn),然后結(jié)合人體先驗(yàn)知識(shí)進(jìn)行識(shí)別;Li等人(2021)利用SMPL(skinned multi-person linear)估計(jì)外觀和姿態(tài)特征進(jìn)行識(shí)別,整個(gè)模型能夠以端到端的方式進(jìn)行訓(xùn)練;Teepe等人(2021)利用圖卷積神經(jīng)網(wǎng)絡(luò)從關(guān)鍵點(diǎn)序列提取步態(tài)特征;Li 和Zhao(2022)將關(guān)于步態(tài)周期的先驗(yàn)知識(shí)引入到基于關(guān)鍵點(diǎn)的特征提取過程中。基于模型的方法理論上具有對(duì)攜帶物和著裝的不變性,但是在低分辨率條件下通常較難適用。
基于外觀的方法通常不顯式建模人體結(jié)構(gòu),而是通過分析輪廓變化等信息進(jìn)行步態(tài)識(shí)別?;谕庥^的方法大部分以步態(tài)剪影作為輸入,根據(jù)對(duì)待輸入剪影的方式可以進(jìn)一步劃分為基于剪影模板的方法、基于剪影序列的方法、基于剪影集合的方法3 個(gè)子類。其中,基于剪影模板的方法將一個(gè)周期內(nèi)的多幅剪影按照一定規(guī)則生成模板圖像,如Han 和Bhanu(2006)將一個(gè)步態(tài)周期內(nèi)的多幅剪影進(jìn)行平均生成步態(tài)能量圖。基于剪影序列的方法將輸入剪影視為類似視頻的有序序列提取空間和時(shí)序特征,如Lin等人(2021)利用3D卷積網(wǎng)絡(luò)在時(shí)間維度上提取局部和全局特征用于步態(tài)識(shí)別;Fan 等人(2020)通過限制卷積的感受野和編碼局部運(yùn)動(dòng)信息學(xué)習(xí)更具有判別性的身體部位特征;Huang 等人(2022)將空間和時(shí)序的解耦操作融入到基于3D 卷積的框架中,并提取多尺度特征用于步態(tài)識(shí)別?;诩粲凹系姆椒▽⒓粲靶蛄幸暈闊o序集合提取步態(tài)特征,如Chao 等人(2019)首次建立基于剪影集合的步態(tài)識(shí)別模型,該模型具有對(duì)輸入剪影順序的不變性;Hou 等人(2021)提出了面向集合的殘差學(xué)習(xí)模塊,并融合多層特征增強(qiáng)步態(tài)模型的判別性。此外,在近期的工作中,王新年等人(2021)提出將無肩姿態(tài)能量圖、步態(tài)參數(shù)等姿態(tài)特征與步態(tài)參數(shù)的2 維傅里葉變換進(jìn)行有效融合。徐碩等人(2022)為了在獲得高準(zhǔn)確率的同時(shí)對(duì)外觀變化具有更好的魯棒性,提出了一種雙分支網(wǎng)絡(luò)融合外觀特征和姿態(tài)特征,以結(jié)合兩種不同類型特征的優(yōu)點(diǎn)。張紅穎和包雯靜(2022)針對(duì)目前基于生成式的識(shí)別方法采用特定視角的步態(tài)模板轉(zhuǎn)換,識(shí)別率隨視角跨度增大而不斷下降的問題,提出融合自注意力機(jī)制的生成對(duì)抗網(wǎng)絡(luò)以進(jìn)行跨視角步態(tài)識(shí)別。除了以剪影作為輸入以外,還有一些基于外觀的方法以其他類型的數(shù)據(jù)作為輸入,如光流(Bashir 等,2009)和灰度圖(Castro等,2020)?;谕庥^的方法相對(duì)更適用于低分辨率的條件,因此在學(xué)術(shù)研究和實(shí)際應(yīng)用中吸引了大量關(guān)注。
在上述工作中,以基于剪影集合的GaitSet(Chao等,2019)和基于剪影序列的GaitPart(Fan 等,2020)為代表的步態(tài)識(shí)別方法帶來了顯著的性能提升,其中多部位特征學(xué)習(xí)機(jī)制起到了重要作用。這里以GaitSet 為例對(duì)這一機(jī)制進(jìn)行簡(jiǎn)要說明。為敘述方便,本文用F表示骨干網(wǎng)絡(luò)提取的步態(tài)特征,其維度表示為H×W×C,其中H表示高度,W表示寬度,C表示通道維度。如圖1所示,GaitSet的多部位特征學(xué)習(xí)機(jī)制主要包含3 個(gè)步驟。首先,沿H維度將F均勻劃分為N個(gè)部位;然后,沿空間維度(寬和高)利用最大池化和平均池化對(duì)每個(gè)部位的特征進(jìn)行處理,得到N個(gè)1 維特征;最后,利用不共享權(quán)重的全連接層對(duì)每個(gè)部位的1 維特征做進(jìn)一步映射。上述機(jī)制能夠使每個(gè)部位保留自己的運(yùn)動(dòng)特性,從而能夠顯著提高步態(tài)識(shí)別的準(zhǔn)確率。但值得注意的是,在測(cè)試階段通常是將不同部位的特征直接串聯(lián)在一起作為整個(gè)序列的特征表示,而在訓(xùn)練階段,除了共享骨干網(wǎng)絡(luò)的權(quán)重以外,不同部位的特征提取過程是相對(duì)獨(dú)立的,彼此之間缺乏交互,這有礙于識(shí)別準(zhǔn)確率的進(jìn)一步提高。
圖1 GaitSet中的多部位特征提取Fig.1 Multi-part feature learning in GaitSet
針對(duì)這一問題,本文設(shè)計(jì)了一個(gè)即插即用的模塊,通過引入“分離—共享”機(jī)制增強(qiáng)步態(tài)識(shí)別的多部位特征學(xué)習(xí)過程。分離機(jī)制同GaitSet 中的多部位特征學(xué)習(xí)類似,通過不同區(qū)域的池化操作和不共享權(quán)重的全連接層允許每個(gè)部位學(xué)習(xí)自身獨(dú)有的特征,這對(duì)于步態(tài)識(shí)別的過程十分關(guān)鍵。共享機(jī)制的引入是為了允許不同部位的特征進(jìn)行交互,從而更好地相互協(xié)作。本文提供了共享機(jī)制的兩種不同實(shí)現(xiàn)方式。共享機(jī)制由特征歸一化和特征重映射兩部分組成,這兩個(gè)部分相輔相成。特征歸一化不帶有任何參數(shù),目的是使不同部位的特征具有相似的統(tǒng)計(jì)特性(均值、方差等),從而便于進(jìn)行權(quán)重共享;特征重映射可以通過全連接層或逐項(xiàng)乘積實(shí)現(xiàn),在不同部位之間共享權(quán)重。本文設(shè)計(jì)的模塊能夠很方便地與GaitSet或GaitPart 模型進(jìn)行結(jié)合。在CASIA-B(Institute of Automation,Chiese Academy of Sciences)和OUMVLP數(shù)據(jù)集上的實(shí)驗(yàn)表明,本文設(shè)計(jì)的模塊能夠在不顯著增加計(jì)算代價(jià)的條件下帶來穩(wěn)定的性能提升。
綜上所述,本文的主要貢獻(xiàn)包括:1)分析了現(xiàn)有步態(tài)識(shí)別方法中廣泛采用的多部位特征學(xué)習(xí)機(jī)制存在的不足,指出不同部位特征之間缺乏交互,有礙于識(shí)別準(zhǔn)確率的進(jìn)一步提高;2)將“分離—共享”機(jī)制引入到步態(tài)識(shí)別的多部位特征學(xué)習(xí)過程中,設(shè)計(jì)了一個(gè)即插即用的多部位特征學(xué)習(xí)模塊;3)在不同數(shù)據(jù)集和基線方法上的實(shí)驗(yàn)結(jié)果表明,本文設(shè)計(jì)的多部位特征學(xué)習(xí)模塊能夠在不顯著增加計(jì)算代價(jià)的條件下帶來穩(wěn)定的性能提升。
本文設(shè)計(jì)的識(shí)別流程圖如圖2 所示,主要包含骨干網(wǎng)絡(luò)特征提取和多部位特征提取兩部分。其中,多部位特征提取又可以進(jìn)一步劃分為分離機(jī)制和共享機(jī)制兩部分。本文以GaitSet 為例對(duì)每個(gè)模塊進(jìn)行簡(jiǎn)要介紹,其中多部位特征提取中的共享機(jī)制是本文的核心工作。值得注意的是,本文設(shè)計(jì)的多部位特征提取模塊具有較強(qiáng)的適用性,也能夠以類似的方式應(yīng)用于GaitPart模型。
圖2 識(shí)別流程圖Fig.2 The illustration of recognition pipeline
骨干網(wǎng)絡(luò)的設(shè)計(jì)借鑒了GaitSet 和GaitPart 等模型的主要思想,主要包含剪影特征提取和集合池化兩部分。剪影特征提取中對(duì)每幅剪影單獨(dú)提取,不同剪影之間相互獨(dú)立;集合池化是對(duì)所有剪影的特征進(jìn)行融合,獲取整個(gè)序列的特征表示。
這一部分基于GaitSet 的結(jié)構(gòu)如圖3 所示,為了繪圖方便,省略了GaitSet 原論文中multilayer global pipeline 這一分支。其中,剪影特征提取部分由多層卷積和池化操作組成,將剪影序列輸入到該網(wǎng)絡(luò)模塊即可得到對(duì)應(yīng)序列中每個(gè)剪影的特征。其次是集合池化,該模塊將剪影序列視為無序集合,使用統(tǒng)計(jì)函數(shù)整合所有剪影的特征,得到整個(gè)剪影集合的特征。將剪影序列視為一個(gè)集合的依據(jù)在于每個(gè)剪影在步態(tài)周期上具有獨(dú)特的姿態(tài)信息,可以通過這種外觀信息和人體運(yùn)動(dòng)的一般規(guī)律,對(duì)序列進(jìn)行時(shí)序上的排序,因此可以將剪影序列用一個(gè)無序的集合表示。同時(shí)考慮到在現(xiàn)實(shí)環(huán)境中,序列中剪影的數(shù)量是任意的,所以對(duì)于該統(tǒng)計(jì)函數(shù)的選擇,不僅需要滿足集合的無序性,同時(shí)還需滿足該集合可以有任意數(shù)目的元素。對(duì)應(yīng)滿足條件的常見的統(tǒng)計(jì)函數(shù)有最大函數(shù)、最小函數(shù)和中值函數(shù)等。在本文的實(shí)驗(yàn)中采用最大統(tǒng)計(jì)函數(shù),即最大池化。
圖3 骨干網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.3 The illustration of backbone structure
1.2.1 分離機(jī)制
分離機(jī)制的設(shè)計(jì)借鑒了GaitSet 中的多部位特征學(xué)習(xí)模塊。首先使用多個(gè)尺度將骨干網(wǎng)絡(luò)輸出特征圖水平劃分為多個(gè)部分;其次將得到的多尺度下的多個(gè)特征圖進(jìn)行平均和最大池化操作;最后經(jīng)過不共享權(quán)重的全連接層,獲得具有判別性的多部位特征。這里對(duì)于骨干網(wǎng)絡(luò)輸出的特征用F進(jìn)行表示,使用S個(gè)尺度進(jìn)行劃分,一共可以得到多尺度下N個(gè)部位的特征,其中。然后,在不同尺度下的空間維度進(jìn)行池化操作,對(duì)于第i個(gè)部位特征fi,經(jīng)過池化操作的特征f#i可以表示為
式中,GAP表示全局平均池化(global average pooling),GMP表示全局最大池化(global max pooling)。最后使用具有獨(dú)立權(quán)重的全連接層對(duì)每個(gè)部位進(jìn)行特征映射,將得到的每個(gè)部位的特征用d表示,其維度用c表示。
值得一提的是,使用不共享權(quán)重的全連接層的出發(fā)點(diǎn)在于不同尺度下的部位擁有不同的感受野,而在同一感受野下的不同部位對(duì)應(yīng)著不同的空間位置信息。上述過程能夠有效保留水平方向上每個(gè)身體部位各自的運(yùn)動(dòng)特性,不同部位之間相互獨(dú)立,稱為分離機(jī)制。
1.2.2 共享機(jī)制
本文通過引入共享機(jī)制,增加每個(gè)部位在特征提取過程中的交互性和協(xié)同性,從而獲取更具有判別性的步態(tài)特征。本文設(shè)計(jì)的共享機(jī)制由特征歸一化和特征重映射兩部分組成。
首先,特征歸一化是不帶任何參數(shù)的操作,它的目標(biāo)是使不同部位的特征具有相似的統(tǒng)計(jì)特性,有利于后續(xù)進(jìn)行的特征重映射操作。本文將上步分離機(jī)制得到的每個(gè)部位特征di(i= 1,2,…)分別通過特征歸一化得到對(duì)應(yīng)的部位特征,這一過程可以表示為
式中,E[]表示對(duì)每個(gè)di向量各個(gè)元素的均值計(jì)算,Var[]表示方差計(jì)算,ε為一個(gè)常量,避免分母為0,本文所有實(shí)驗(yàn)中ε設(shè)置為10-5。
其次,特征重映射是帶有參數(shù)的,在不同部位之間共享權(quán)重,完成不同部位之間信息的交互和協(xié)同。本文采用兩種不同的方式實(shí)現(xiàn)特征重映射,分別是共享權(quán)重的全連接層(fully-connected layer)和共享權(quán)重的逐項(xiàng)乘積(element-wise multiplication)。
1)共享權(quán)重的全連接層。用w表示不同部位共享的全連接層的權(quán)重(忽略bias 向量),對(duì)特征歸一化后的每個(gè)部位特征d#i使用w進(jìn)行矩陣乘法,輸出向量用oi表示,將不同部位特征串聯(lián)起來,得到模型的輸出向量Efully。該過程可表示為
式中,×表示矩陣乘法。
式中,Φ表示串聯(lián)操作,c表示每個(gè)部位特征的維度,N表示身體部位的數(shù)目。
2)共享權(quán)重的逐項(xiàng)乘積。用v表示一個(gè)具有與每個(gè)部位特征相同維度的向量。對(duì)特征歸一化后的每個(gè)部位特征,使用同一個(gè)v進(jìn)行逐項(xiàng)乘積,輸出向量用ei進(jìn)行表示,將不同部位的輸出串聯(lián)起來組成模型輸出特征向量Eelement。該過程可表示為
式中,⊙表示逐項(xiàng)乘積,Φ,c,N的含義如前所述。值得一提的是,基于逐項(xiàng)乘積的共享機(jī)制實(shí)現(xiàn)方式類似于Layer Normalization層中的操作。
本文提出的多部位特征學(xué)習(xí)機(jī)制能夠很方便地與GaitSet 或GaitPart 基線模型結(jié)合,為保證公平的性能對(duì)比,訓(xùn)練和測(cè)試階段的參數(shù)跟對(duì)應(yīng)基線模型保持一致。
以GaitSet 為例,在訓(xùn)練階段,對(duì)訓(xùn)練集所有被試者進(jìn)行均勻采樣。每個(gè)批次包含的序列樣本通常用P×K進(jìn)行表示,其中,P代表被試者數(shù)目,K表示每個(gè)被試者選取的剪影序列數(shù)目。損失函數(shù)采用Hermans 等人(2017)提出的Batch All 三元組損失函數(shù)。損失函數(shù)首先對(duì)每個(gè)身體部位分別進(jìn)行計(jì)算,然后在所有身體部位之間進(jìn)行平均。
在測(cè)試階段,首先將測(cè)試集中所有被試者的序列分為probe 和gallery 兩部分,然后計(jì)算每個(gè)probe序列與gallery 序列的距離,將距離最近的gallery 序列的身份標(biāo)簽賦給對(duì)應(yīng)的probe序列。其中,兩個(gè)序列之間的距離計(jì)算方式是首先衡量每個(gè)對(duì)應(yīng)身體部位特征之間的歐氏距離,然后在不同部位之間進(jìn)行平均。當(dāng)probe包含多個(gè)行走條件的序列時(shí),通常將probe劃分為多個(gè)子集分別進(jìn)行測(cè)試。
2.1.1 數(shù)據(jù)集
CASIA-B(Yu 等,2006)是由中國(guó)科學(xué)院自動(dòng)化研究所提供的步態(tài)數(shù)據(jù)集,廣泛應(yīng)用于步態(tài)模型評(píng)估。該數(shù)據(jù)集包含124 個(gè)受試者在3 種行走條件和11 個(gè)角度下的視頻序列。其中,124 個(gè)受試者使用標(biāo)簽001-124 表示。在每個(gè)受試者下包含3 種行走條件,包括6 個(gè)正常行走(normal walking,NM)、2 個(gè)背包行走(walking with bags,BG)和2 個(gè)換衣狀態(tài)(walking in different clothes,CL),分別使用nm-01—nm-06、bg-01 和bg-02、cl-01 和cl-02 表示。在每個(gè)行走條件下包含11 種角度(從0°~180°,間隔為18°),使用000-180 表示。該數(shù)據(jù)集不僅提供了原始的視頻數(shù)據(jù),同時(shí)提供了剪影序列數(shù)據(jù)。本文實(shí)驗(yàn)中采用的是剪影數(shù)據(jù)。實(shí)驗(yàn)時(shí),將數(shù)據(jù)集劃分為74 個(gè)受試者為訓(xùn)練集,剩余50 個(gè)為測(cè)試集。在測(cè)試階段,nm-01—nm-04 作為gallery,其余分為3 組probe,分別是nm-05 和nm-06、bg-01 和bg-02、cl-01和cl-02。
OUMVLP(Takemura 等,2018)是日本大阪大學(xué)研究者創(chuàng)建的步態(tài)數(shù)據(jù)集,是目前公開的包含被試者數(shù)目最多的步態(tài)數(shù)據(jù)集,包含了10 307 個(gè)受試者在多個(gè)角度的數(shù)據(jù),但僅有正常行走條件下的步態(tài)序列。對(duì)每個(gè)受試者記錄了14 個(gè)角度,即0°~90°、180°~270°,間隔為15°。每個(gè)角度下包含兩段序列(編號(hào)為00,01)。在本文實(shí)驗(yàn)中,將5 153 個(gè)被試者的數(shù)據(jù)作為訓(xùn)練集,將5 154個(gè)被試者的數(shù)據(jù)作為測(cè)試集。在測(cè)試階段,將每個(gè)被試者編號(hào)為01 的序列作為gallery,編號(hào)為00的序列作為probe。
2.1.2 實(shí)現(xiàn)細(xì)節(jié)
所有模型使用Pytorch 實(shí)現(xiàn),在TITAN-V GPU 上進(jìn)行訓(xùn)練。
基于數(shù)據(jù)集中提供的原始剪影序列,通過使用Takemura 等人(2018)描述的方法進(jìn)行對(duì)齊操作后作為模型的輸入。對(duì)于CASIA-B 數(shù)據(jù)集,輸入分辨率為128 × 88 像素,每批樣本包含128 個(gè)序列,其中P為8,K為16。對(duì)于OUMVLP 數(shù)據(jù)集,輸入分辨率為64 × 44 像素,每批樣本包含512 個(gè)序列,其中P為32,K為16。在訓(xùn)練階段,對(duì)于每個(gè)序列,隨機(jī)抽取30 幀剪影作為模型輸入。在測(cè)試階段,將每個(gè)序列中的所有剪影作為模型輸入提取步態(tài)特征進(jìn)行比對(duì)。
在基于GaitSet 的實(shí)現(xiàn)中,在分離階段,使用了5 個(gè)尺度(1,2,4,8,16),加上Multilayer Global Pipeline 全局分支,共得到62 個(gè)部位,在池化操作后,特征經(jīng)過輸出通道數(shù)為256 的不共享參數(shù)的全連接,得到該部位的輸出。在共享階段,將分離機(jī)制得到的特征進(jìn)行歸一化處理,再對(duì)每個(gè)部分使用輸入輸出均為256 的全連接層進(jìn)行處理或使用維度為256 的向量進(jìn)行逐項(xiàng)乘積。對(duì)于模型訓(xùn)練,在CASIA-B 數(shù)據(jù)集上采用隨機(jī)梯度下降法(stochastic gradient descent,SGD)優(yōu)化器,初始學(xué)習(xí)率設(shè)置為0.1,每迭代10 000 次將學(xué)習(xí)率降低10 倍,在該數(shù)據(jù)集上共迭代40 000 次。在OU-MVLP 上數(shù)據(jù)集上采用Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為10-4,并在第150 000 次迭代時(shí),將學(xué)習(xí)率降為10-5,在該數(shù)據(jù)集上一共迭代250 000 次。
基于GaitPart 的實(shí)現(xiàn)方式與GaitSet 基本類似,但模型結(jié)構(gòu)和對(duì)應(yīng)的優(yōu)化過程略有不同。在模型訓(xùn)練過程中,在CASIA-B 數(shù)據(jù)集上采用Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為10-4,并在第100 000 次迭代時(shí),將學(xué)習(xí)率降為10-5,在該數(shù)據(jù)集上共迭代120 000 次。在OU-MVLP 上數(shù)據(jù)集上采用Adam 優(yōu)化器,學(xué)習(xí)率設(shè)置為10-4,并在150 000 次迭代時(shí),將學(xué)習(xí)率降為10-5,在該數(shù)據(jù)集上一共迭代250 000次。
表1—表3 為在CASIA-B 數(shù)據(jù)集上,分別使用GaitSet 和GaitPart 作為基線方法以及兩種共享機(jī)制的實(shí)現(xiàn)方式,在各個(gè)角度下正常行走(NM)、背包行走(BG)和換衣狀態(tài)(CL)的模型準(zhǔn)確率。
表1 不同模型在CASIA-B數(shù)據(jù)集上的正常行走條件下的準(zhǔn)確率Table 1 Accuracy of different models under normal walking conditions on the CASIA-B dataset/%
表2 不同模型在CASIA-B數(shù)據(jù)集上的背包行走條件下的準(zhǔn)確率Table 2 Accuracy of different models under carrying bags walking conditions on the CASIA-B dataset/%
表3 不同模型在CASIA-B數(shù)據(jù)集上的換衣行走條件下的準(zhǔn)確率Table 3 Accuracy of different models under changing clothes walking conditions on the CASIA-B dataset/%
在共享機(jī)制的實(shí)現(xiàn)中,本文用Norm 代表特征歸一化操作,特征重映射分別使用了共享參數(shù)的全連接(fully)和逐項(xiàng)乘積(element)兩種方式。從表中可以看出,在正常行走(NM)和背包行走(BG)條件下,“分離—共享”機(jī)制能夠帶來穩(wěn)定的性能提升,說明共享機(jī)制的引入能夠有效地協(xié)同不同部位的特征學(xué)習(xí),從而獲取更具有判別性的步態(tài)特征。在復(fù)雜的換裝行走(CL)條件下,在以GaitSet作為基線方法時(shí),“分離—共享”機(jī)制能夠穩(wěn)定地提升識(shí)別準(zhǔn)確率;而在以Gait-Part作為基線方法時(shí),分離共享機(jī)制會(huì)使識(shí)別準(zhǔn)確率略微降低,這很有可能是由于過擬合導(dǎo)致的。但是從3個(gè)行走條件下平均識(shí)別準(zhǔn)確率的角度分析,“分離—共享”機(jī)制能夠?yàn)镚aitSet和GaitPart帶來穩(wěn)定的性能提升。此外,與最近基于剪影序列的方法(Huang等,2022)相比,本文方法在換裝條件下的性能略低,但是在正常行走和背包的情況下能夠?qū)崿F(xiàn)較高的準(zhǔn)確率。本文工作和Huang 等人(2022)工作從不同的維度對(duì)步態(tài)識(shí)別任務(wù)進(jìn)行了進(jìn)一步探索。
表4 為GaitSet 和GaitPart 兩個(gè)基線方法及其改進(jìn)模型在OUMVLP 數(shù)據(jù)集上的表現(xiàn)。同樣,使用“分離—共享”機(jī)制的模型在多個(gè)視角下準(zhǔn)確率都有穩(wěn)定的提升。
表4 不同模型在OUMVLP數(shù)據(jù)集上的準(zhǔn)確率Table 4 Accuracy of different models on OUMVLP dataset/%
本文提出了共享機(jī)制的兩種實(shí)現(xiàn)方式,由于在不同部位之間共享權(quán)重,引入的參數(shù)量以及增加的運(yùn)算量都相對(duì)有限。從表1—表4 的實(shí)驗(yàn)結(jié)果可以看出,在大部分情況下,逐項(xiàng)乘積(element)的方法能夠取得比全連接(fully)方法更高的識(shí)別準(zhǔn)確率。通過比較兩種實(shí)現(xiàn)方式發(fā)現(xiàn),逐項(xiàng)乘積的方法引入的參數(shù)數(shù)量?jī)H與單個(gè)身體部位特征的維度相等(忽略bias向量)。換言之,本文能夠在不顯著增加計(jì)算代價(jià)的前提下帶來穩(wěn)定的性能提升。
本文針對(duì)目前步態(tài)識(shí)別領(lǐng)域廣泛采用的多身體部位特征學(xué)習(xí)機(jī)制中存在的問題,設(shè)計(jì)了一種“分離—共享”機(jī)制,用于學(xué)習(xí)更具有判別力的各個(gè)身體部位特征。本文方法首先通過分離機(jī)制,提取多身體部位獨(dú)立的運(yùn)動(dòng)特性,接著通過共享機(jī)制,建立身體多部位特征之間的聯(lián)系,使多部位特征之間更好地進(jìn)行信息交互。本文使用GaitSet 和GaitPart 作為基線模型,分別嘗試了兩種共享機(jī)制的實(shí)現(xiàn)方式,并在CASIA-B和OUMVLP數(shù)據(jù)集上進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)結(jié)果表明,與基線模型相比,本文提出的增強(qiáng)多部位特征學(xué)習(xí)的策略能夠在不顯著增加計(jì)算代價(jià)的條件下,穩(wěn)定地提高步態(tài)模型在多個(gè)視角和行走狀態(tài)下的識(shí)別準(zhǔn)確率。
目前,步態(tài)識(shí)別研究中廣泛使用的多部位特征學(xué)習(xí)模塊是從行人重識(shí)別中借鑒而來,在步態(tài)相關(guān)研究工作中缺乏對(duì)這一模塊的原理分析。本文的核心觀點(diǎn)是不同身體部位的特征學(xué)習(xí)之間缺乏交互有礙于步態(tài)識(shí)別準(zhǔn)確率的進(jìn)一步提高。為了緩解這一問題,本文將“分離—共享”機(jī)制引入到多部位特征學(xué)習(xí)中,并提供了共享機(jī)制的兩種簡(jiǎn)單有效的實(shí)現(xiàn)方式。針對(duì)不同部位之間缺乏交互這一問題的進(jìn)一步解決方案,以及設(shè)計(jì)更為復(fù)雜的共享機(jī)制,都值得在未來工作中進(jìn)一步探索。