羅毛欣 王天賦 白曉晨 周 達(dá)
(西安工程大學(xué),陜西 西安710006)
分析人類行為一直是機(jī)器視覺(jué)中最具挑戰(zhàn)性的問(wèn)題之一[1]。行為識(shí)別技術(shù)的需求發(fā)展迅速,并已經(jīng)擴(kuò)展到許多領(lǐng)域,比如智慧城市和視頻理解[2]。盡管行為識(shí)別在過(guò)去被廣大學(xué)者進(jìn)行了廣泛地研究,但動(dòng)作識(shí)別仍然面臨著許多的挑戰(zhàn),例如光線變化和背景遮擋。在深度學(xué)習(xí)技術(shù)[3]興起之前,傳統(tǒng)的手工操作的動(dòng)作識(shí)別仍然占有很重的地位。同時(shí),改進(jìn)的密集軌跡(iDT)[4]通過(guò)整合沿著密集軌跡的豐富描述符和補(bǔ)償相機(jī)運(yùn)動(dòng)的運(yùn)動(dòng)特征,實(shí)現(xiàn)了優(yōu)越的性能。然而,與傳統(tǒng)方法相比,其優(yōu)勢(shì)并不明顯。最近,基于深度學(xué)習(xí)可以根據(jù)輸入數(shù)據(jù)的類型分為基于RGB 和基于骨架的行為識(shí)別方法[5],與基于RGB 的動(dòng)作識(shí)別相比,基于骨骼的動(dòng)作識(shí)別可以避免從視頻中提取特征的繁瑣任務(wù)。對(duì)于基于骨架的方法,可以簡(jiǎn)單分為三個(gè)大類:二維和三維行為識(shí)別及LSTM方式。因此,本文在LSTM架構(gòu)下構(gòu)建了深度多分支LSTM 網(wǎng)絡(luò)來(lái)進(jìn)行行為識(shí)別并且在所用數(shù)據(jù)集上已經(jīng)取得了良好的行為效果。
在本文工作中,為了更有效的學(xué)習(xí)骨架坐標(biāo)數(shù)據(jù)的特征,通過(guò)LSTM 有效的連接和交叉疊加,提取骨架坐標(biāo)共現(xiàn)特征信息來(lái)行為識(shí)別。
為了更詳細(xì)地描述骨架關(guān)節(jié)信息以及方便所設(shè)計(jì)網(wǎng)絡(luò)框架更好的工作,我們需要對(duì)圖像數(shù)據(jù)集先進(jìn)行進(jìn)一步地處理。首先利用姿態(tài)估計(jì)框架openpose 和人體檢測(cè)模型YOLOV3分別檢測(cè)人體骨架。同時(shí),YOLOv3 模型還可以對(duì)骨架圖像數(shù)據(jù)集標(biāo)記一個(gè)動(dòng)作類別。然后,以身體重心為坐標(biāo)參考點(diǎn)(0,0),可以將關(guān)節(jié)的相對(duì)位置轉(zhuǎn)換為18 個(gè)關(guān)節(jié)點(diǎn)位置的xy 坐標(biāo)。轉(zhuǎn)換后的數(shù)據(jù)集由骨架坐標(biāo)(x, y)和與之相應(yīng)的動(dòng)作標(biāo)簽(0,1,2,…)數(shù)字組成。
在本文中,我們使用了RGB 數(shù)據(jù)集和UTKinect 數(shù)據(jù)集。RGB 數(shù)據(jù)集包含很多對(duì)象的不同動(dòng)作樣本。UTKinect 數(shù)據(jù)集有10 種動(dòng)作類型: 坐下、走路、站起來(lái)、撿起、扔出去、推、拉、揮手、抬起來(lái)以及拍手的動(dòng)作。并且有10 個(gè)實(shí)驗(yàn)對(duì)象,每個(gè)實(shí)驗(yàn)對(duì)象操作每個(gè)動(dòng)作共計(jì)兩次。在實(shí)驗(yàn)期間,我們選擇其中70%的數(shù)據(jù)集作為實(shí)驗(yàn)的訓(xùn)練集,并選擇其中30%作為實(shí)驗(yàn)驗(yàn)證集。與此同時(shí),在這些驗(yàn)證集中的80%又屬于是測(cè)試集。
以骨架的為特征選擇行為識(shí)別,每個(gè)關(guān)節(jié)與其它關(guān)節(jié)之間并非相互獨(dú)立的,恰好相反,關(guān)節(jié)與關(guān)節(jié)以及關(guān)節(jié)與動(dòng)作之間是存在密切聯(lián)系的關(guān)系的,這種聯(lián)系對(duì)于行為識(shí)別提高識(shí)別率特別重要。因此,考慮關(guān)節(jié)與關(guān)節(jié)相互聯(lián)系并且以此為契機(jī)設(shè)計(jì)一個(gè)網(wǎng)絡(luò)能充分挖掘隱藏信息是網(wǎng)絡(luò)設(shè)計(jì)的關(guān)鍵。同時(shí)也出于對(duì)以下要點(diǎn)的考慮:LSTM 無(wú)法直接學(xué)習(xí)關(guān)節(jié)坐標(biāo)特征的高級(jí)信息,同時(shí)所用的數(shù)據(jù)集并未攜帶上下文語(yǔ)義信息。這對(duì)直接用LSTM進(jìn)行識(shí)別是不太準(zhǔn)確的。因此,綜合上述因素同時(shí)為了減輕模型過(guò)擬合的問(wèn)題,同時(shí)使LSTM更有效地學(xué)習(xí)坐標(biāo)數(shù)據(jù)的共現(xiàn)特征,我們?cè)O(shè)計(jì)了一個(gè)基于LSTM 深度多分支LSTM網(wǎng)絡(luò)用于學(xué)習(xí)有效的特征并且對(duì)時(shí)域的動(dòng)態(tài)過(guò)程建模,實(shí)現(xiàn)端到端的行為識(shí)別以及檢測(cè)。
圖1 基于LSTM 的深度多分支LSTM 行為識(shí)別框架圖
如圖1 所示,經(jīng)過(guò)上述過(guò)程處理的人體骨架的十八個(gè)關(guān)節(jié)點(diǎn)坐標(biāo)可作為整個(gè)網(wǎng)絡(luò)的輸入,多次經(jīng)過(guò)深度多分支LSTM以及全連接層的多次輪換迭代,最后用softmax 分類器來(lái)進(jìn)行行為分類。具體而言,圖中所示的網(wǎng)絡(luò)體系結(jié)構(gòu)具有N 層的四分支LSTM結(jié)構(gòu),可以用于學(xué)習(xí)具有骨架關(guān)節(jié)的坐標(biāo)信息,并與N-1個(gè)全連接層交錯(cuò),正是結(jié)構(gòu)多次交錯(cuò)出現(xiàn),使得很多關(guān)節(jié)隱藏特征被學(xué)習(xí)以及進(jìn)一步挖掘關(guān)節(jié)之間的各種聯(lián)系??梢悦黠@看見(jiàn)整個(gè)網(wǎng)絡(luò)后端通過(guò)LSTM 層和全連層(FC Layer)組成的深度LSTM 網(wǎng)絡(luò)(Deep LSTM Network),最后,將輸出的結(jié)果發(fā)送到Classification Network(softmax 分類器)以進(jìn)行操作判定每幀的動(dòng)作類別。同時(shí)整個(gè)網(wǎng)絡(luò)著重于人體行為動(dòng)作的特點(diǎn),于是我們?cè)贚STM網(wǎng)絡(luò)設(shè)計(jì)中有意將人體行為動(dòng)作中關(guān)節(jié)點(diǎn)具有的共現(xiàn)性特性引入進(jìn)來(lái),與此同時(shí)將其作為網(wǎng)絡(luò)參數(shù)學(xué)習(xí)的約束來(lái)優(yōu)化整個(gè)網(wǎng)絡(luò)的識(shí)別性能。這是因?yàn)槿说哪硞€(gè)行為動(dòng)作常常和骨架的一些特定關(guān)節(jié)點(diǎn)構(gòu)成的集合,以及對(duì)應(yīng)集合中節(jié)點(diǎn)是交互相關(guān)并且對(duì)識(shí)別效果影響起著關(guān)鍵作用的。(例如要判別一個(gè)人是否在打電話,關(guān)節(jié)點(diǎn)“手肘”、“手腕”、“肩膀”和“頭”的關(guān)聯(lián)動(dòng)作是最為關(guān)鍵。)而對(duì)于不同的行為動(dòng)作與之密切相關(guān)的節(jié)點(diǎn)集合又有所不同。(例如一個(gè)人“走路”的動(dòng)作判別關(guān)鍵在于“膝蓋”、“腳腕”以及“臀部”等關(guān)節(jié)點(diǎn)構(gòu)成具有判別力的節(jié)點(diǎn)集合是否能準(zhǔn)備識(shí)別出來(lái)。所以我們可以將這種幾個(gè)關(guān)節(jié)點(diǎn)同時(shí)影響和決定判別的特性稱為共現(xiàn)性(Co-occurrence))。因此在網(wǎng)絡(luò)整個(gè)訓(xùn)練階段,在目標(biāo)函數(shù)中我們引入了對(duì)神經(jīng)元與關(guān)節(jié)點(diǎn)相連的權(quán)重的約束,從而使得同一組的神經(jīng)元對(duì)某些關(guān)節(jié)點(diǎn)或者說(shuō)是關(guān)鍵關(guān)節(jié)點(diǎn)組成的子集有更大的權(quán)重連接,而對(duì)其它節(jié)點(diǎn)(非關(guān)鍵的關(guān)鍵點(diǎn))有較小的權(quán)重連接,上述操作來(lái)進(jìn)一步去挖掘關(guān)節(jié)點(diǎn)的共現(xiàn)性。
網(wǎng)絡(luò)整體優(yōu)勢(shì)在于:一方面,本身LSTM充分利用了骨骼關(guān)節(jié)坐標(biāo)之間的長(zhǎng)期依賴關(guān)系,并且通過(guò)全連接層學(xué)習(xí)了關(guān)節(jié)坐標(biāo)之間的全局共現(xiàn)特征。另一方面,在此基礎(chǔ)上,初始層使用多分支LSTM,使得同一數(shù)據(jù)的多個(gè)輸入成為一種優(yōu)勢(shì),這種優(yōu)勢(shì)可以在數(shù)據(jù)增強(qiáng)中發(fā)揮作用,以此來(lái)減輕模型訓(xùn)練期間過(guò)擬合,此外,在最后一層中又加了LSTM用于更好地學(xué)習(xí)骨架關(guān)節(jié)的坐標(biāo)信息。正是因?yàn)樯鲜龈鞣NLSTM層和全連接層這種交錯(cuò)結(jié)構(gòu),使得模型達(dá)到了良好的識(shí)別效果。為了進(jìn)一步驗(yàn)證所設(shè)計(jì)網(wǎng)絡(luò)的行為識(shí)別效果,我們將在兩個(gè)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并進(jìn)行相應(yīng)的對(duì)比。本文主要研究了深度多分支LSTM網(wǎng)絡(luò)與其層數(shù)之間的關(guān)系,網(wǎng)絡(luò)層數(shù)的變化是否會(huì)引起模型泛化能力和網(wǎng)絡(luò)學(xué)習(xí)能力和相對(duì)應(yīng)的變化,我們做了如下的參數(shù):所有全連接層神經(jīng)元個(gè)數(shù)為100;最初的四分支網(wǎng)絡(luò)的每一個(gè)分支的神經(jīng)元個(gè)數(shù)設(shè)置為64,在交叉疊加的第二層LSTM 起,我們?cè)O(shè)置每一個(gè)LSTM層神經(jīng)元個(gè)數(shù)為128。以此同時(shí),優(yōu)化算法采取Adam 算法;損失函數(shù)我們采用交叉熵?fù)p失,最后網(wǎng)絡(luò)訓(xùn)練批次設(shè)置為300 以及批大小設(shè)置為128。
表1 不同LSTM 層數(shù)的深度多分支LSTM 網(wǎng)絡(luò)性能對(duì)比
從上述表格可以明顯看出,二層的LSTM網(wǎng)絡(luò)在兩個(gè)數(shù)據(jù)集上的訓(xùn)練準(zhǔn)確率以及測(cè)試準(zhǔn)確率效果都不是太好。而且隨著層數(shù)從2 到6 依次增加的過(guò)程中,訓(xùn)練和測(cè)試識(shí)別率整個(gè)呈現(xiàn)出一個(gè)上升的趨勢(shì),但也并非都是增加,如RGB 數(shù)據(jù)集上訓(xùn)練準(zhǔn)確率在五層就到達(dá)峰值,六層反而下降,這也說(shuō)明了識(shí)別率和數(shù)據(jù)集本身特點(diǎn)有關(guān),而且網(wǎng)絡(luò)層數(shù)不是越深越好,整個(gè)走勢(shì)應(yīng)該是一個(gè)拋物線,當(dāng)達(dá)到一定層數(shù),增加不僅會(huì)降低識(shí)別率還會(huì)帶來(lái)復(fù)雜度大大增大,進(jìn)一步導(dǎo)致網(wǎng)絡(luò)訓(xùn)練時(shí)間增加以及其它各種問(wèn)題。總之,在UTKinect 數(shù)據(jù)集上的6 層的LSTM的訓(xùn)練和測(cè)試準(zhǔn)確性分別達(dá)到94.11%和92.69%,而RGB 數(shù)據(jù)集上的6 層LSTM 的訓(xùn)練和測(cè)試準(zhǔn)確性分別達(dá)到92.45%和89.5%,這應(yīng)該是相對(duì)于其他層識(shí)別率最佳的一種層數(shù)吧。其中原因可能如下:
深度多分支LSTM網(wǎng)絡(luò)結(jié)構(gòu)使用LSTM與全連接的層結(jié)合的方式來(lái)學(xué)習(xí)全局共現(xiàn)特征,這可以使深度LSTM可以更好地對(duì)學(xué)習(xí)關(guān)節(jié)坐標(biāo)之間的長(zhǎng)期依賴關(guān)系。此外,相同數(shù)據(jù)的多個(gè)輸入可起到增強(qiáng)數(shù)據(jù)的作用。而且由于LSTM網(wǎng)絡(luò)對(duì)時(shí)間序列處理的強(qiáng)大能力,加上聯(lián)合共現(xiàn)特征判別分類設(shè)計(jì),實(shí)現(xiàn)了快速準(zhǔn)確的行為動(dòng)作檢測(cè)。最后我們通過(guò)對(duì)每組神經(jīng)元和關(guān)節(jié)點(diǎn)的連接加入相應(yīng)約束來(lái)達(dá)到上述共現(xiàn)性的充分挖掘和利用。但是,因?yàn)樗玫挠?xùn)練數(shù)據(jù)集中的數(shù)據(jù)量特別少,尤其相對(duì)于目前常用的大型數(shù)據(jù)集(計(jì)算速度相對(duì)快一些)相比,因此難以完全優(yōu)化深度多分支LSTM網(wǎng)絡(luò),并且該網(wǎng)絡(luò)容易過(guò)度擬合。總之,多分支策略適當(dāng)提高了行為識(shí)別的識(shí)別率。
本文研究了基于骨架關(guān)節(jié)二維坐標(biāo)的行為識(shí)別方法,并且我們以骨架數(shù)據(jù)為特征選擇的基礎(chǔ)上提出了深度多分支LSTM網(wǎng)絡(luò)結(jié)構(gòu),通過(guò)結(jié)構(gòu)交錯(cuò)重疊發(fā)揮挖掘關(guān)節(jié)隱藏信息的優(yōu)勢(shì),并且引入關(guān)節(jié)點(diǎn)共現(xiàn)性約束。并且在在實(shí)驗(yàn)中比較了不同層數(shù)的網(wǎng)絡(luò)體系結(jié)構(gòu)。實(shí)驗(yàn)結(jié)果表明,所提出的模型可以提高兩個(gè)數(shù)據(jù)集的識(shí)別性能,并獲得好的結(jié)果,同時(shí)怎樣挖掘關(guān)節(jié)點(diǎn)之間的隱藏信息以及相互聯(lián)系會(huì)是未來(lái)行為識(shí)別的大勢(shì)所趨。