国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多尺度超圖卷積骨架動(dòng)作識(shí)別網(wǎng)絡(luò)

2022-10-25 12:09秦曉飛趙穎張逸杰杜睿杰錢(qián)漢文陳萌張文奇張學(xué)典
光學(xué)儀器 2022年4期
關(guān)鍵詞:關(guān)節(jié)點(diǎn)骨架尺度

秦曉飛,趙穎,張逸杰,杜睿杰,錢(qián)漢文,陳萌,張文奇,張學(xué)典

(1.上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093;2.上海宇航系統(tǒng)工程研究所,上海 201109)

引言

近年來(lái),動(dòng)作識(shí)別已成為計(jì)算機(jī)視覺(jué)領(lǐng)域的一個(gè)重要的分支,在人機(jī)交互、自動(dòng)駕駛方面都有著廣泛的應(yīng)用。由于人類(lèi)行為環(huán)境的復(fù)雜性,在執(zhí)行動(dòng)作識(shí)別任務(wù)時(shí),經(jīng)常受到相機(jī)移動(dòng)、遮擋等復(fù)雜場(chǎng)景的干擾,限制了直接使用視頻進(jìn)行動(dòng)作識(shí)別的方法的性能。隨著深度相機(jī)的廣泛應(yīng)用和高性能姿態(tài)估計(jì)算法的出現(xiàn),人們可以簡(jiǎn)單快速地獲得人體骨架關(guān)節(jié)點(diǎn)位置信息。骨架關(guān)節(jié)點(diǎn)位置信息對(duì)于環(huán)境的干擾有較強(qiáng)的魯棒性,因此基于骨架的動(dòng)作識(shí)別算法取得了較好的效果,得到了動(dòng)作識(shí)別領(lǐng)域越來(lái)越多的關(guān)注。

基于骨架的動(dòng)作識(shí)別方法包括早期的手工特征設(shè)計(jì)方法[1-2]和近年來(lái)發(fā)展的基于深度學(xué)習(xí)的方法。手工特征設(shè)計(jì)方法由于其設(shè)計(jì)復(fù)雜、通用性差等原因,現(xiàn)在已基本不再使用。基于深度學(xué)習(xí)的骨架動(dòng)作識(shí)別方法又分為卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)類(lèi)方法[3-5]和圖卷積神經(jīng)網(wǎng)路(graph convolutional network,GCN)類(lèi)方法。CNN 類(lèi)動(dòng)作識(shí)別方法大多使用循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network,RNN)[6-8]對(duì)骨架幀序列的時(shí)間和空間特征進(jìn)行提取。雖然這類(lèi)方法能夠較好地描述時(shí)間維度特征,但對(duì)空間維度信息提取能力不足,主要原因是CNN類(lèi)方法將骨架數(shù)據(jù)表示為向量序列或2D 網(wǎng)格,不能完全表達(dá)關(guān)節(jié)之間的依賴性,忽略了人體的結(jié)構(gòu)信息。數(shù)學(xué)上,人體骨架結(jié)構(gòu)可以自然地看作以關(guān)節(jié)為頂點(diǎn)、以骨骼為邊的圖(Graph),因此GCN 可以有效地建模人體節(jié)點(diǎn)之間的結(jié)構(gòu)信息,從而較好地提取人體的運(yùn)動(dòng)信息,雖然GCN 直到近幾年才被應(yīng)用于骨架動(dòng)作識(shí)別,但現(xiàn)已成為基于骨架動(dòng)作識(shí)別任務(wù)的主流方法。

2018 年,ST-GCN[9]首次將GCN 方法應(yīng)用于骨架動(dòng)作識(shí)別任務(wù)。它從時(shí)間和空間兩個(gè)維度來(lái)處理骨架數(shù)據(jù),較CNN 類(lèi)的方法取得了長(zhǎng)足的性能提升,開(kāi)創(chuàng)了基于GCN 的骨架動(dòng)作識(shí)別新領(lǐng)域。近三年的很多方法都是針對(duì)ST-GCN的改進(jìn)[10-17]。ST-GCN 使用固定的鄰接矩陣來(lái)表示人體的物理連接,對(duì)非物理連接節(jié)點(diǎn)間的互動(dòng)信息提取能力不足。比如“拍手”這類(lèi)動(dòng)作,很大程度上依賴于左右手的互動(dòng),但骨架圖上兩手之間不存在直接的物理連接,ST-GCN 對(duì)此類(lèi)動(dòng)作識(shí)別效果較差。針對(duì)此問(wèn)題,Dynamic GCN[12]提出了一種內(nèi)容編碼網(wǎng)絡(luò)來(lái)自動(dòng)地學(xué)習(xí)和更新節(jié)點(diǎn)間的連接關(guān)系;2s-AGCN[13]提出了一種自適應(yīng)圖卷積模塊,該模塊使用兩個(gè)嵌入函數(shù)生成樣本相關(guān)的關(guān)節(jié)點(diǎn)間連接程度C,并添加了一個(gè)可學(xué)習(xí)的鄰接矩陣B,最后使用加法操作將原始鄰接矩陣A和B,C相加得到一個(gè)自適應(yīng)的鄰接矩陣,取得了不錯(cuò)的效果。ST-GCN 只使用關(guān)節(jié)點(diǎn)坐標(biāo)序列作為輸入,信息來(lái)源較單一。針對(duì)此問(wèn)題,ResGCN[11]和2s-AGCN[13]分別提出了三流(節(jié)點(diǎn)流、骨骼流和速度流)和雙流(節(jié)點(diǎn)流和骨骼流)輸入的數(shù)據(jù)預(yù)處理方法,增加了模型信息來(lái)源,提高了動(dòng)作識(shí)別準(zhǔn)確度。

大多數(shù)現(xiàn)有的基于GCN 的動(dòng)作識(shí)別方法使用簡(jiǎn)單圖描述人體連接關(guān)系,簡(jiǎn)單圖的邊只能連接兩個(gè)節(jié)點(diǎn),因此基于簡(jiǎn)單圖的GCN 層只能通過(guò)鄰接矩陣學(xué)習(xí)節(jié)點(diǎn)間的低階關(guān)系。然而,現(xiàn)實(shí)生活中人的動(dòng)作往往需要多個(gè)節(jié)點(diǎn)相互配合才能完成,基于簡(jiǎn)單圖的GCN 網(wǎng)絡(luò)需要堆疊多層才能描述這種高階關(guān)系,但多層堆疊會(huì)導(dǎo)致過(guò)平滑、計(jì)算量大等問(wèn)題。超圖是簡(jiǎn)單圖的擴(kuò)展,超圖的邊可以連接多個(gè)節(jié)點(diǎn),同一個(gè)節(jié)點(diǎn)可以屬于不同的超邊。因此將超圖引入GCN 動(dòng)作識(shí)別網(wǎng)絡(luò)可以較好地描述多節(jié)點(diǎn)間的關(guān)系。Hyper-GCN[18]首次嘗試將超圖網(wǎng)絡(luò)引入骨架動(dòng)作識(shí)別領(lǐng)域,構(gòu)造局部超邊和全局超邊提取高階特征信息,并使用超圖注意力機(jī)制獲得相鄰節(jié)點(diǎn)的不同權(quán)值。

受以上思想的啟發(fā),本文設(shè)計(jì)了一種用于骨架動(dòng)作識(shí)別的多尺度超圖卷積網(wǎng)絡(luò),主要貢獻(xiàn)包括:首先將原始骨骼信息轉(zhuǎn)換為節(jié)點(diǎn)序列、骨骼序列、動(dòng)態(tài)序列分別輸入多尺度超圖卷積網(wǎng)絡(luò),形成一個(gè)三流網(wǎng)絡(luò),提高原始信息利用率;其次設(shè)計(jì)了一個(gè)以超圖卷積模塊為編碼器、以超圖融合模塊為解碼器的編解碼結(jié)構(gòu),更好地建模多節(jié)點(diǎn)間的空間依賴關(guān)系;最后基于時(shí)間空洞卷積設(shè)計(jì)了一種多尺度時(shí)間圖卷積模塊,以建模動(dòng)作的時(shí)間依賴關(guān)系。

1 算法

1.1 動(dòng)作識(shí)別流程

動(dòng)作識(shí)別的具體流程如圖1 所示。整個(gè)流程由輸入數(shù)據(jù)預(yù)處理、多尺度超圖卷積特征提取網(wǎng)絡(luò)和預(yù)測(cè)分類(lèi)三部分組成。對(duì)于輸入的視頻序列,人體關(guān)節(jié)點(diǎn)的三維坐標(biāo)信息可由姿態(tài)估計(jì)算法得出。輸入數(shù)據(jù)預(yù)處理部分,對(duì)人體關(guān)節(jié)點(diǎn)三維坐標(biāo)(x,y,z) 進(jìn)行轉(zhuǎn)換得到骨骼和動(dòng)態(tài)數(shù)據(jù)。其中,骨骼可以表示為源關(guān)節(jié)點(diǎn)指向目標(biāo)關(guān)節(jié)點(diǎn)的一個(gè)矢量,例如源關(guān)節(jié)點(diǎn)為v1=(xv1,yv1,zv1)、目標(biāo)關(guān)節(jié)點(diǎn)為v2=(xv2,yv2,zv2) 的骨骼可以表示為向量ev1,v2=(xv2-xv1,yv2-yv1,zv2-zv1) 。動(dòng)態(tài)數(shù)據(jù)表示連續(xù)幀之間的運(yùn)動(dòng)et1,t2=(xt2-xt1,yt2-yt1,zt2-zt1)。將預(yù)處理后的關(guān)節(jié)坐標(biāo)、骨骼和動(dòng)態(tài)數(shù)據(jù)分別輸入到三個(gè)獨(dú)立訓(xùn)練的多尺度超圖卷積網(wǎng)絡(luò)中,每個(gè)流具有相同的網(wǎng)絡(luò)結(jié)構(gòu)。Softmax分類(lèi)器用來(lái)獲得每個(gè)流的分類(lèi)分?jǐn)?shù),最后將三個(gè)流的分類(lèi)分?jǐn)?shù)融合起來(lái)作為整個(gè)網(wǎng)絡(luò)的預(yù)測(cè)結(jié)果。

圖1 動(dòng)作識(shí)別流程Fig.1 Action recognition process

1.2 多尺度超圖卷積網(wǎng)絡(luò)概述

本文提出的多尺度超圖卷積網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。該網(wǎng)絡(luò)整體上屬于一種三階段的編解碼結(jié)構(gòu)U 型網(wǎng)絡(luò),輸入可以是關(guān)節(jié)、骨骼或動(dòng)態(tài)數(shù)據(jù)。編碼器部分使用兩個(gè)本文設(shè)計(jì)的超圖卷積模塊(hypergraph convolution block,HCB)逐步減少特征維度,以聚集節(jié)點(diǎn)間的高階信息;解碼器部分使用兩個(gè)本文設(shè)計(jì)的超圖融合模塊(hypergraph merging block,HMB)逐漸恢復(fù)原始骨架尺寸大?。痪幗獯a器之間采用跳級(jí)連接融合同階段的編碼器淺層信息與解碼器深層信息。編碼器和解碼器的每個(gè)階段都采用若干個(gè)自適應(yīng)圖卷積模塊(adaptive graph convolution block,AGCB)來(lái)聚集同尺度特征的相鄰節(jié)點(diǎn)信息。為了更好地建模輸入序列幀間的相互依賴關(guān)系,設(shè)計(jì)了一種基于空洞卷積的多尺度時(shí)間圖卷積模塊(multiscale temporal graph convolution block,MTGCB)對(duì) 解碼器的輸出特征進(jìn)行處理。圖2中模塊下面的數(shù)字三元組分別表示本模塊的輸入通道數(shù)、輸出通道數(shù)、時(shí)間維度卷積步長(zhǎng)。比如編碼器第一階段AGCB 下面的(3,64,2)代表本AGCB 的輸入通道數(shù)是3(即輸入關(guān)節(jié)、骨骼或動(dòng)態(tài)的三維數(shù)據(jù)),輸出通道數(shù)是64,時(shí)間維度卷積步長(zhǎng)為2。

圖2 多尺度超圖卷積網(wǎng)絡(luò)結(jié)構(gòu)Fig.2 Structure of multiscale hypergraph convolutional network

1.3 網(wǎng)絡(luò)模塊

1.3.1 自適應(yīng)圖卷積模塊

多尺度超圖卷積網(wǎng)絡(luò)每個(gè)階段的特征提取模塊,本文借鑒了2s-AGCN[13]設(shè)計(jì)的AGCB,AGCB 的結(jié)構(gòu)如圖3 所示。在空間維度骨架數(shù)據(jù)具有不規(guī)則的空間結(jié)構(gòu),在時(shí)間維度骨架數(shù)據(jù)具有規(guī)則的幾何結(jié)構(gòu),因此AGCB 將骨架數(shù)據(jù)分為時(shí)間和空間兩個(gè)維度進(jìn)行特征提取。圖3中的自適應(yīng)圖卷積網(wǎng)絡(luò)(adaptive graph convolutional network,AGCN)用來(lái)聚集空間維度節(jié)點(diǎn)信息,時(shí)間卷積網(wǎng)絡(luò)(temporal convolutional network,TCN)沿時(shí)間軸使用3×1 卷積來(lái)聚集時(shí)間維度節(jié)點(diǎn)信息。這兩個(gè)卷積層后面都有一個(gè)批歸一化層(batch normalization,BN)和Relu 激活層。此外為了增加AGCB網(wǎng)絡(luò)訓(xùn)練的穩(wěn)定性,還使用了殘差連接。

普通圖卷積通常使用固定的物理連接關(guān)系來(lái)表示骨架,但是固定的物理連接缺乏對(duì)非相鄰關(guān)節(jié)點(diǎn)依賴關(guān)系的建模能力,然而對(duì)于某些動(dòng)作(比如拍手等)非相鄰的關(guān)節(jié)點(diǎn)(左、右手等)間的依賴關(guān)系對(duì)動(dòng)作的識(shí)別非常重要。針對(duì)此問(wèn)題,圖3中的AGCN 部分通過(guò)卷積網(wǎng)絡(luò)學(xué)習(xí)一個(gè)自適應(yīng)鄰接矩陣。不同于固定的物理連接,圖的拓?fù)浣Y(jié)構(gòu)隨著網(wǎng)絡(luò)和參數(shù)一起優(yōu)化,大大提高了模型的靈活性。依據(jù)輸入數(shù)據(jù)的多樣性,模型可以自適應(yīng)地學(xué)習(xí)節(jié)點(diǎn)之間的拓?fù)浣Y(jié)構(gòu)。在動(dòng)作識(shí)別任務(wù)中,骨架被定義為圖G=(V,E,A),其中V表示關(guān)節(jié)點(diǎn)的集合,E表示邊的集合,A∈RN×N表示骨架圖的鄰接矩陣,骨架圖的特征由(C,T,N) 的張量表示,其中C表示通道數(shù),T為時(shí)間長(zhǎng)度,N為關(guān)節(jié)點(diǎn)數(shù)量,則AGCN 可表示為

圖3 自適應(yīng)圖卷積模塊Fig.3 Structure of adaptive graph convolution block

1.3.2 超圖卷積模塊

人體動(dòng)作是復(fù)雜多樣的,像跳躍、站起、拍手等動(dòng)作都需要多對(duì)關(guān)節(jié)點(diǎn)相互協(xié)調(diào)才能完成,因此建模多對(duì)關(guān)節(jié)點(diǎn)之間的高階依賴關(guān)系對(duì)骨架動(dòng)作識(shí)別任務(wù)至關(guān)重要?;诤?jiǎn)單圖的GCN,無(wú)論其圖結(jié)構(gòu)是固定的還是自適應(yīng)變化的,都很難描述這種多對(duì)關(guān)節(jié)點(diǎn)之間的高階依賴關(guān)系。為此,本文將超圖引入骨架動(dòng)作識(shí)別任務(wù),設(shè)計(jì)了一種編解碼結(jié)構(gòu)的多尺度超圖卷積網(wǎng)絡(luò)。編碼器部分使用了兩個(gè)超圖卷積模塊HCB 來(lái)進(jìn)行超邊的融合,圖4 給出了本文設(shè)計(jì)的HCB 在NTURGB+D 和Kinetics 兩個(gè)數(shù)據(jù)集上的超邊融合分配策略。由于超邊可以包含多個(gè)關(guān)節(jié)點(diǎn),超圖卷積是對(duì)超邊內(nèi)多個(gè)關(guān)節(jié)點(diǎn)之間信息的聚合,因此HCB 能夠更好地建模多對(duì)關(guān)節(jié)點(diǎn)之間的依賴關(guān)系,加快關(guān)節(jié)點(diǎn)信息聚合的速度。HCB的計(jì)算過(guò)程如下。

圖4 超邊融合的分配策略Fig.4 Allocation strategy for hyperedge merging

首先定義超圖的表示為G=(V,E,Q),其中V表示關(guān)節(jié)點(diǎn)的集合,E表示超邊的集合,Q表示超圖卷積的關(guān)聯(lián)矩陣,Q∈RN×M。本文解碼器中兩個(gè)HCB中用到的Q可分別根據(jù)圖5 所示的兩層超邊融合分配策略得到,當(dāng)超邊 εj連接節(jié)點(diǎn)vi時(shí),則Qij=1,否則Qij=0 。超圖卷積利用關(guān)聯(lián)矩陣來(lái)聚集超邊內(nèi)多個(gè)關(guān)節(jié)點(diǎn)間的信息。

圖5 多尺度時(shí)間圖卷積模塊Fig.5 Structure of multiscale temporal graph convolution block

為了防止超邊多次融合后信息爆炸,本文使用標(biāo)準(zhǔn)化超圖連接,即通過(guò)歸一化使節(jié)點(diǎn)的最大連接度不大于1,對(duì)于N個(gè)節(jié)點(diǎn)和M個(gè)超邊的超圖,其標(biāo)準(zhǔn)化超圖連接度的計(jì)算方法如下:

式中:Dv∈RN×N是對(duì)角化超圖節(jié)點(diǎn)度矩陣,其對(duì)角元素表示該節(jié)點(diǎn)連接超邊的個(gè)數(shù);Dε∈RM×M是對(duì)角化超圖超邊度矩陣,其對(duì)角元素表示該超邊內(nèi)節(jié)點(diǎn)的個(gè)數(shù);Wε表示超圖超邊之間的權(quán)重矩陣。類(lèi)似圖卷積定義的方式,本文利用標(biāo)準(zhǔn)化超圖連接H與超圖關(guān)聯(lián)矩陣Q的矩陣乘積作超圖卷積操作,可得HCB 的計(jì)算公式如下:

1.3.3 超圖融合模塊

HCB 使空間維度的特征圖變小、感受野增大,解碼器部分需要恢復(fù)特征的空間分辨率。圖像領(lǐng)域通常用反卷積和反池化等上采樣方法獲取更高分辨率的特征圖,然而這些方法并不適用于沒(méi)有規(guī)則空間結(jié)構(gòu)的圖網(wǎng)絡(luò)。為此,本文基于HCB 的一種逆運(yùn)算,設(shè)計(jì)了一種超圖融合模塊HMB。HMB 的主要作用有兩點(diǎn):(1)編碼器部分進(jìn)行HCB 操作后,圖的空間維度變小,這意味著如果不進(jìn)行上采樣操作,同階段解碼器部分的圖的空間維度將無(wú)法與編碼器特征對(duì)齊,從而無(wú)法通過(guò)跳級(jí)連接進(jìn)行特征融合。所以HMB 的第一個(gè)作用是使編解碼結(jié)構(gòu)同階段的空間特征圖的維度對(duì)齊;(2)HMB 可以學(xué)到人體不同部分(即不同超邊)的重要性,例如拍手動(dòng)作,人的手這部分的重要性比較高,HMB 可通過(guò)權(quán)重參數(shù)對(duì)人的手所涉及的關(guān)節(jié)點(diǎn)進(jìn)行加權(quán)增強(qiáng)。

類(lèi)似圖卷積定義的方式,本文利用標(biāo)準(zhǔn)化超圖連接H與超圖關(guān)聯(lián)矩陣QT的矩陣乘積作超圖卷積操作,可得HMB 的計(jì)算公式如下:

對(duì)于編解碼結(jié)構(gòu)的同一階段,編碼器部分輸出的特征包含豐富的細(xì)節(jié)信息,解碼器部分輸出的特征包含豐富的高階信息,融合兩部分的特征可為后續(xù)動(dòng)作識(shí)別分類(lèi)提供更豐富的信息。為此,本文采用跳級(jí)連接和逐元素相加對(duì)編解碼器的特征進(jìn)行融合。

式中:fout為融合后的特征;fHMB為HMB 的輸出特征;fAGCB為同階段編碼器自適應(yīng)圖卷積模塊的輸出特征。

1.3.4 多尺度空洞圖卷積模塊

HCB 和HMB 在空間維度獲得了更大的感受野,但缺乏對(duì)時(shí)間維度信息的描述。雖然AGCB中的TCN 操作使用了3×1 卷積來(lái)聚集時(shí)間維度節(jié)點(diǎn)信息,但本文提出的多尺度超圖卷積網(wǎng)絡(luò)層數(shù)較少,其中僅包含8 個(gè)AGCB,在時(shí)間維度上的建模能力是有限的。有些方法[19]為了獲得時(shí)間維度上較大的感受野將卷積核擴(kuò)大,但這樣會(huì)導(dǎo)致計(jì)算量大大增加。針對(duì)此問(wèn)題,本文在AGCB 的基礎(chǔ)上,設(shè)計(jì)了一種多尺度時(shí)間圖卷積模塊MTGCB,其結(jié)構(gòu)是使用圖5所示的通道分離多尺度空洞卷積模塊代替圖3 所示AGCB中的TCN 模塊。

MTGCB 首先使用AGCN 對(duì)輸入特征的空間維度信息進(jìn)行聚合,之后將AGCN 輸出的特征按通道維度平均分成4 份,即圖5中所示的通道分離操作,這樣可以減少模塊的計(jì)算量。然后不同分支采用 1 ×1 卷積進(jìn)行通道信息融合,使用空洞率分別為1、2、3、4 的 3 ×1 空洞卷積獲得不同時(shí)間跨度的運(yùn)動(dòng)信息。最后將不同分支提取的特征級(jí)聯(lián)起來(lái)給最后的動(dòng)作分類(lèi)網(wǎng)絡(luò)使用。

2 實(shí)驗(yàn)

本部分在NTU-RGB+D[20]和Kinetics[21]兩個(gè)大規(guī)模動(dòng)作識(shí)別數(shù)據(jù)集上驗(yàn)證本文提出的多尺度超圖卷積網(wǎng)絡(luò)(multiscale hypergraph convolutional Network,MHCN)。

2.1 數(shù)據(jù)集

NTU-RGB+D[20]是一個(gè)著名且廣泛使用的動(dòng)作識(shí)別數(shù)據(jù)集,由56 880 個(gè)動(dòng)作剪輯、60 個(gè)動(dòng)作類(lèi)和4 000 000 幀組成,包括日常動(dòng)作、互動(dòng)動(dòng)作和與健康有關(guān)的動(dòng)作。他們邀請(qǐng)了40 名志愿者進(jìn)行數(shù)據(jù)收集工作。3 個(gè)相同高度不同水平視角的深度攝像機(jī)同時(shí)捕捉同一動(dòng)作,3 個(gè)深度攝像機(jī)的水平視角分別為45°、0°、-45°。數(shù)據(jù)集包含每個(gè)志愿者25 個(gè)關(guān)節(jié)點(diǎn)的3D 位置。每個(gè)視頻中最多包含2 個(gè)人。NTU-RGB+D 數(shù)據(jù)集通常使用CS 精度(Cross Subject Accuracy)和CV精度(Cross View Accuracy)來(lái)評(píng)價(jià)模型性能。

Kinetics[21]是一個(gè)大規(guī)模且重要的人體動(dòng)作識(shí)別數(shù)據(jù)集,包括30 萬(wàn)個(gè)YouTube 視頻剪輯,共有40 個(gè)動(dòng)作種類(lèi)。視頻剪輯分為訓(xùn)練集(240 000個(gè)剪輯)和驗(yàn)證集(20 000 個(gè)剪輯)。數(shù)據(jù)集使用OpenPose[22]姿態(tài)估計(jì)算法得到人體骨架序列,每個(gè)人有18 個(gè)關(guān)節(jié)點(diǎn),每個(gè)關(guān)節(jié)點(diǎn)由其在像素坐標(biāo)中的二維坐標(biāo)(x,y) 及其置信度得分s組成,最終表示為(x,y,s) 。Kinetics 數(shù)據(jù)集通常使用TOP1 和TOP5 精度來(lái)評(píng)價(jià)模型性能。

2.2 實(shí)驗(yàn)細(xì)節(jié)

模型是使用PyTorch 框架搭建的,使用交叉熵作為損失函數(shù),優(yōu)化方法采用帶慣量的梯度下降,慣量系數(shù)為0.9,權(quán)重衰減系數(shù)0.000 1,批量大小為64。對(duì)于NTU-RGB+D 數(shù)據(jù)集,每個(gè)序列最多包含2 人,當(dāng)人數(shù)不足2 人時(shí),使用0 填充操作將輸入數(shù)據(jù)擴(kuò)充為2 人。另外該數(shù)據(jù)集的每個(gè)序列最多包含300 幀,當(dāng)幀數(shù)少于300 幀時(shí),使用重復(fù)填充將其擴(kuò)充為300 幀。初始學(xué)習(xí)率設(shè)置為0.1,在第30 個(gè)epoch 和第40個(gè)epoch 時(shí)下降至0.01,共訓(xùn)練60 個(gè)epoch。對(duì)于Kinetics 數(shù)據(jù)集,每個(gè)序列包含150 幀,每幀中包含2 個(gè)人體骨架。初始學(xué)習(xí)率設(shè)置為0.1,在第45 個(gè)epoch 和第55 個(gè)epoch 時(shí)下降至0.01,總訓(xùn)練次數(shù)同樣為60 個(gè)epoch。

2.3 消融分析

為了驗(yàn)證本文所提出的各模塊的有效性,在NTU-RGB+D 數(shù)據(jù)集上進(jìn)行消融分析。首先驗(yàn)證本文所提出的HCB 和HMB 的有效性,為了進(jìn)行公平的比較,本文在2s-AGCN 基礎(chǔ)上,通過(guò)修改輸入為三流,修改2s-AGCN 最后一個(gè)AGCB為MTGCB,得到基準(zhǔn)算法。然后在基準(zhǔn)算法基礎(chǔ)上逐漸添加10 節(jié)點(diǎn)的HCB、HMB 和5 節(jié)點(diǎn)的HCB、HMB。實(shí)驗(yàn)結(jié)果如表1 所示。表1中+ε10代表 在Baseline的第3 個(gè)AGCB 之后添加一個(gè)HCB,在第6 個(gè)AGCB 之后添加一個(gè)HMB,并使用跳級(jí)連接進(jìn)行特征融合;+ε5代表在Baseline 的第4 個(gè)AGCB 之后添加一個(gè)HCB,在第5 個(gè)AGCB 之后添加一個(gè)HMB,并使用跳級(jí)連接進(jìn)行特征融合。從表1 結(jié)果可知,添加HCB 和HMB 后,網(wǎng)絡(luò)性能有所提升,說(shuō)明HCB 和HMB 能夠有效地融合超邊內(nèi)的多對(duì)關(guān)節(jié)點(diǎn)之間的信息。

表1 HCB 和HMB 的消融分析Tab.1 Ablation study of HCB and HMB

為了驗(yàn)證不同骨架輸入數(shù)據(jù)對(duì)結(jié)果的影響,本文使用所設(shè)計(jì)的多尺度超圖卷積網(wǎng)絡(luò)分別進(jìn)行了多種單流、兩流、三流對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表2 所示。表2中的w/o 表示“沒(méi)有”的意思,比如w/o 骨架表示三流中除去骨架流,只剩下關(guān)節(jié)和動(dòng)態(tài)兩流輸入。從表2 可以看出,兩流的方法比單流方法效果好,三流方法比兩流方法效果好,這表明每個(gè)輸入數(shù)據(jù)分支對(duì)模型性能提高都是必要的。從“w/o 動(dòng)態(tài)”兩流方法的結(jié)果可知,去掉動(dòng)態(tài)輸入流后模型精度降低了1.9%,性能下降非常明顯,這表明本文添加的動(dòng)態(tài)輸入流數(shù)據(jù)中包含了很多具有動(dòng)作分辨力的信息。

表2 不同骨架輸入數(shù)據(jù)對(duì)結(jié)果的影響Tab.2 Comparison of results obtained via different skeleton input data

為了驗(yàn)證MTGCB中不同空洞率的效果,本文進(jìn)行了不同空洞率組合的實(shí)驗(yàn),表3 列出了實(shí)驗(yàn)結(jié)果。如表3 所示,當(dāng)4 個(gè)分支的時(shí)間空洞率都設(shè)置為1 時(shí),MTGCB 就退化成了AGCB;增大4 個(gè)分支的時(shí)間空洞率可以增大時(shí)間維度的感受野,從而提高模型的表現(xiàn),但當(dāng)空洞率大于3 時(shí),模型表現(xiàn)開(kāi)始下降,這說(shuō)明不同時(shí)間空洞率都能夠提取一定的動(dòng)作信息。本文所提方法在MTGCB 4 個(gè)分支上分別使用不同時(shí)間空洞率,并將4 個(gè)分支的結(jié)果通過(guò)級(jí)聯(lián)融合,從而可以提取多種時(shí)間尺度上的動(dòng)作信息,如表3所示,達(dá)到了最優(yōu)的效果。

表3 不同空洞率下模型的表現(xiàn)Tab.3 The performance of models with different dilation factors

圖6 所示為本文算法在NTU-RGB+D 數(shù)據(jù)集上的學(xué)習(xí)曲線,其中左y軸表示的是訓(xùn)練精度,右y軸表示的是訓(xùn)練損失。由圖6 可知在訓(xùn)練過(guò)程中,隨著epoch 的增加,模型的訓(xùn)練精度逐漸提高,訓(xùn)練的損失則逐漸減少。

圖6 多尺度超圖卷積網(wǎng)絡(luò)在NTU-RGB+D 數(shù)據(jù)集上的學(xué)習(xí)曲線Fig.6 Learning curve of multiscale hypergraph convolutional network on NTU-RGB+D dataset

2.4 對(duì)比實(shí)驗(yàn)

為了驗(yàn)證所提方法的優(yōu)越性,將多尺度超圖卷積網(wǎng)絡(luò)MHCN 和當(dāng)前主流的骨架動(dòng)作識(shí)別方法在NTU-RGB+D 和Kinetics 數(shù)據(jù)集上進(jìn)行比較。表4 和表5 分別給出了各模型在NTU-RGB+D和Kinetics 數(shù)據(jù)集上的表現(xiàn)。相較于當(dāng)前最優(yōu)模型,MHCN 在NTU-RGB+D 數(shù)據(jù)集上,CS 精度提高了1.1%,CV 精度提高了0.9%;MHCN 在Kinetics 數(shù)據(jù)集上,TOP1 精度提高了1%,TOP5精度提高了1.7%。

表4 在NTU-RGB+D 數(shù)據(jù)集上與最新方法的比較Tab.4 Comparison with state-of-the-art methods on the NTU-RGB+D dataset

表5 在Kinetics 數(shù)據(jù)集上與最新方法的比較Tab.5 Comparison with state-of-the-art methods on the Kinetics dataset

3 結(jié)論

骨架動(dòng)作識(shí)別任務(wù)中,簡(jiǎn)單圖不能很好地建模多個(gè)關(guān)節(jié)點(diǎn)之間的高階信息,為此本文將超圖引入骨架動(dòng)作識(shí)別任務(wù),設(shè)計(jì)了以超圖卷積模塊為超邊融合算法、以超圖融合模塊為骨架尺寸恢復(fù)算法的編解碼結(jié)構(gòu)多尺度超圖卷積骨架識(shí)別網(wǎng)絡(luò)。該網(wǎng)絡(luò)同時(shí)將關(guān)節(jié)、骨骼、動(dòng)態(tài)三流數(shù)據(jù)作為輸入以充分利用輸入信息。該網(wǎng)絡(luò)中的多尺度時(shí)間圖卷積模塊,使用不同的時(shí)間空洞率提取不同時(shí)間跨度的動(dòng)作信息。消融分析驗(yàn)證了本文所提各模塊的有效性,對(duì)比實(shí)驗(yàn)驗(yàn)證了本文所提方法的優(yōu)越性。

猜你喜歡
關(guān)節(jié)點(diǎn)骨架尺度
電子樂(lè)園·上旬刊(2022年5期)2022-04-09
基于深度學(xué)習(xí)和視覺(jué)檢測(cè)的地鐵違規(guī)行為預(yù)警系統(tǒng)研究與應(yīng)用
關(guān)節(jié)點(diǎn)連接歷史圖與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合的雙人交互動(dòng)作識(shí)別
財(cái)產(chǎn)的五大尺度和五重應(yīng)對(duì)
骨架密度對(duì)炭/炭多孔骨架壓力浸滲銅的影響
搞好新形勢(shì)下軍營(yíng)美術(shù)活動(dòng)需把握的關(guān)節(jié)點(diǎn)
RGBD人體行為識(shí)別中的自適應(yīng)特征選擇方法
宇宙的尺度
9
內(nèi)支撐骨架封抽技術(shù)在突出煤層瓦斯抽采中的應(yīng)用
岫岩| 子洲县| 汉中市| 盐边县| 扎鲁特旗| 专栏| 琼海市| 安达市| 新蔡县| 从江县| 阳曲县| 衡南县| 恩平市| 垫江县| 荥经县| 田阳县| 慈利县| 石门县| 乐安县| 兴业县| 勐海县| 长岛县| 商城县| 登封市| 怀宁县| 新闻| 罗田县| 会同县| 浦城县| 永寿县| 淮南市| 南华县| 江阴市| 桃江县| 稻城县| 通化市| 临湘市| 老河口市| 浦江县| 耒阳市| 赣州市|