国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)的人體姿態(tài)檢測(cè)方法

2018-08-28 08:52劉守印
計(jì)算機(jī)應(yīng)用 2018年6期
關(guān)鍵詞:姿態(tài)時(shí)刻神經(jīng)網(wǎng)絡(luò)

鄭 毅,李 鳳,張 麗,劉守印

(華中師范大學(xué)物理科學(xué)與技術(shù)學(xué)院,武漢430079)

(* 通信作者電子郵箱 syliu@mail.ccnu.edu.cn)

0 引言

根據(jù)國(guó)家統(tǒng)計(jì)局2016年的統(tǒng)計(jì)數(shù)據(jù)可知,在中國(guó),60周歲及以上人口23086萬(wàn)人,占總?cè)丝诘?6.7%;65周歲及以上人口15003萬(wàn)人,占總?cè)丝诘?0.8%[1]。根據(jù)聯(lián)合國(guó)對(duì)“老齡化社會(huì)”的定義:區(qū)域中65歲以上的人口比率超過(guò)總?cè)丝诘?%,中國(guó)已經(jīng)屬于老齡化嚴(yán)重的國(guó)家之一。而老年人隨著年齡的增長(zhǎng),身體機(jī)能逐年下降,而隨著生活節(jié)奏的加快,子女由于自己的事業(yè)往往不能在其身邊陪伴;當(dāng)突發(fā)事件(例如跌倒)發(fā)生時(shí),老人無(wú)法第一時(shí)間得到幫助;對(duì)于一些患有輕微老年癡呆癥的老年人,更需要耗費(fèi)人力物力監(jiān)測(cè)其日常行為。人體姿態(tài)檢測(cè)技術(shù)有助于子女對(duì)其生活狀態(tài)與日常行為的掌握,也有助于醫(yī)療機(jī)構(gòu)對(duì)老年人的身體機(jī)能與健康程度的判斷。因此,尤其是對(duì)于老齡化嚴(yán)重的中國(guó)來(lái)說(shuō),老年人姿態(tài)的檢測(cè)算法研究具有重要的意義。

人體姿態(tài)檢測(cè)按照檢測(cè)內(nèi)容可以分為兩大類:突發(fā)性動(dòng)作姿態(tài)檢測(cè)與持續(xù)性動(dòng)作姿態(tài)檢測(cè)。突發(fā)性動(dòng)作姿態(tài)檢測(cè)是指僅檢測(cè)出特定的、作用時(shí)間短的人體姿態(tài)。在對(duì)于老年人的這類研究中,由于跌倒對(duì)于老年人心理與生理上的危害特別大,所以跌倒檢測(cè)系統(tǒng)的設(shè)計(jì)顯得尤為重要。另一方面,持續(xù)性動(dòng)作姿態(tài)檢測(cè)則是檢測(cè)出被測(cè)者保持在何種運(yùn)動(dòng)狀態(tài),這對(duì)于老年人的日常行為起到記錄的作用。本文所用算法將跌倒作為一種特殊的運(yùn)動(dòng)狀態(tài),同時(shí)檢測(cè)老年人的持續(xù)性與突發(fā)性動(dòng)作姿態(tài)。

人體姿態(tài)檢測(cè)按照數(shù)據(jù)獲取來(lái)源可以分為基于圖片的姿態(tài)檢測(cè)與基于傳感器序列的姿態(tài)檢測(cè)。張承璽[2]使用攝像頭獲得的RGB圖像作為數(shù)據(jù)源,通過(guò)計(jì)算前景圖像的幾何特征結(jié)合支持向量機(jī)(Support Vector Machine,SVM)分類器完成固定場(chǎng)景下的人體姿態(tài)識(shí)別;李靖意[3]使用微軟開(kāi)發(fā)的Kinect傳感器采集人體深度圖像,通過(guò)結(jié)合人體動(dòng)作描述符與SVM分類器相結(jié)合,設(shè)計(jì)了人體動(dòng)作識(shí)別算法;Bourke等[4]通過(guò)垂直速度閾值法(Vertical Velocity Threshold method,VVT)設(shè)計(jì)了一套光學(xué)運(yùn)動(dòng)捕捉系統(tǒng)并將其嵌入至可穿戴設(shè)備中?;诳纱┐髟O(shè)備或者攝像頭的數(shù)據(jù)采集設(shè)計(jì)一方面增加了設(shè)備硬件成本,另一方面,必須強(qiáng)制穿戴數(shù)據(jù)采集設(shè)備或在家中安裝攝像頭也會(huì)使老年人心理上產(chǎn)生一種被監(jiān)視的感覺(jué),不利于老年人的身心健康。而現(xiàn)如今,針對(duì)老年人設(shè)計(jì)的智能手機(jī)越來(lái)越多,老年人使用智能手機(jī)是必然的趨勢(shì)。而智能手機(jī)本身所包含的傳感器越來(lái)越多,使用其作為數(shù)據(jù)采集器可以很好地避免以上的不利因素,所以本文采取智能手機(jī)采集數(shù)據(jù)。

現(xiàn)在人工智能時(shí)代正在到來(lái),機(jī)器學(xué)習(xí)算法已經(jīng)應(yīng)用到了各行各業(yè)中。依靠傳統(tǒng)算法手工提取特征值會(huì)遇到特征值提取不充分和無(wú)法區(qū)分相似度較高的動(dòng)作。人工智能技術(shù)高速發(fā)展的今天,使用機(jī)器學(xué)習(xí)技術(shù)對(duì)老年人姿態(tài)進(jìn)行檢測(cè)可以通過(guò)算法自動(dòng)提取不同動(dòng)作的特征,得到更準(zhǔn)確的分類結(jié)果,從而為老年人提供更全面的照顧與保護(hù)。在國(guó)際上,通過(guò)智能手機(jī)采集數(shù)據(jù)后,Anguita等[5]通過(guò)SVM算法與固定點(diǎn)連續(xù)(Fixed-Point Continuation,F(xiàn)PC)算法相結(jié)合,對(duì)六種日常動(dòng)作分類并獲得了89.3%的實(shí)驗(yàn)結(jié)果;Tong等[6]則使用了隱馬爾可夫(Hidden Markov Model,HMM)算法,對(duì)于智能手機(jī)采集的加速度時(shí)間序列數(shù)據(jù)分為跌倒與正常兩種狀態(tài),在訓(xùn)練集上達(dá)到100%的正確率。國(guó)內(nèi)這一領(lǐng)域的研究有吳科艷等[7]提出使用領(lǐng)域一致性指標(biāo)與離散二進(jìn)制粒子群算法相結(jié)合對(duì)老年人跌倒行為進(jìn)行檢測(cè),其輸出層使用K最近鄰(K-Nearest Neighbor,KNN)分類器得到98.77%的訓(xùn)練集正確率;張舒雅等[8]使用SVM與KNN結(jié)合算法判斷跌倒動(dòng)作,測(cè)試集正確率達(dá)到97.35%。然而,如何在老年人實(shí)際活動(dòng)中的檢測(cè)達(dá)到實(shí)驗(yàn)訓(xùn)練集中的高正確率,仍然是尚未解決的難題。

根據(jù)上文所提到的相關(guān)工作可以總結(jié)出目前人體姿態(tài)檢測(cè)算法所遇到的難題仍有如下4點(diǎn):

1)如何更準(zhǔn)確、更高效地從傳感器數(shù)據(jù)中提取特征值。

2)如何提高檢測(cè)算法的泛化能力,即將實(shí)驗(yàn)訓(xùn)練集上高正確率在實(shí)際測(cè)試中復(fù)現(xiàn)出來(lái)。

3)人體的姿態(tài)不單單是靜態(tài)的姿態(tài),如站立、平躺等,更多時(shí)候處于運(yùn)動(dòng)的狀態(tài),如走路、爬樓梯等,如何使用一種算法模型同時(shí)檢測(cè)靜態(tài)與動(dòng)態(tài)的多種人體姿態(tài)。

4)動(dòng)作的持續(xù)時(shí)間有長(zhǎng)有短,無(wú)記憶模型需要通過(guò)滑窗算法獲取一段時(shí)間的動(dòng)作信息,無(wú)法實(shí)時(shí)處理不同持續(xù)時(shí)間的動(dòng)作,并將其分至正確的類別。

1 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)

1.1 長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)概述

1990年,Lecun等[9]歷史性地提出了神經(jīng)網(wǎng)絡(luò)的反向傳播算法并提出了卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)的概念。2006年以來(lái),隨著 Hinton等[10]在 Science期刊上提出“多隱層神經(jīng)網(wǎng)絡(luò)具有更為優(yōu)異的特征學(xué)習(xí)能力,并且其在訓(xùn)練上的復(fù)雜度可以通過(guò)逐層初始化來(lái)有效緩解”,深度學(xué)習(xí)開(kāi)始飛速發(fā)展。CNN通過(guò)其特有的權(quán)值共享機(jī)制輸入是空間上的變化,即以圖像為典型例子的空域數(shù)據(jù)表現(xiàn)非常好[11]。但對(duì)于樣本序列出現(xiàn)的時(shí)間順序上的變化,即時(shí)域數(shù)據(jù)無(wú)法建模。

循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[12]正是針對(duì)時(shí)域序列數(shù)據(jù)提出的,其特殊的網(wǎng)絡(luò)結(jié)構(gòu)使神經(jīng)元的輸出可以在下一個(gè)時(shí)間點(diǎn)作為輸入直接作用到自身,實(shí)現(xiàn)網(wǎng)絡(luò)的輸出為該時(shí)刻的輸入與歷史所有時(shí)刻共同作用的結(jié)果,達(dá)到對(duì)序列建模的目的。Lecun等[13]提出CNN并不完全適用于學(xué)習(xí)時(shí)間序列,如果使用CNN學(xué)習(xí)時(shí)間序列會(huì)需要補(bǔ)充輔助性處理,且效果也不一定好。面對(duì)對(duì)時(shí)間序列敏感的任務(wù),RNN通常會(huì)比較合適。即RNN作為一種回歸型網(wǎng)絡(luò),由于其具有一定的記憶效應(yīng)更適用于序列數(shù)據(jù),而CNN更側(cè)重于空間映射,在圖像數(shù)據(jù)處理方面更為貼合。

然而,Lecun等[11]進(jìn)一步提出RNN網(wǎng)絡(luò)雖然目的是學(xué)習(xí)時(shí)序數(shù)據(jù)的長(zhǎng)期依賴性,但是理論和經(jīng)驗(yàn)上的證據(jù)都表明RNN很難學(xué)習(xí)和保存長(zhǎng)期的信息。其原因被認(rèn)為是出現(xiàn)了時(shí)間軸上的梯度彌散(Gradient Vanishing)的現(xiàn)象,即當(dāng)前時(shí)刻產(chǎn)生的梯度只能向歷史時(shí)刻傳播有限層,對(duì)于超過(guò)一定時(shí)間的歷史時(shí)刻無(wú)法產(chǎn)生影響,這導(dǎo)致了RNN在長(zhǎng)序列數(shù)據(jù)上效果并不好。為了解決這個(gè)問(wèn)題,Hochreiter等[14]提出的長(zhǎng)短時(shí)記憶(Long Short-Term Memory,LSTM)網(wǎng)絡(luò)通過(guò)特有的門單元解決了這一問(wèn)題。LSTM越來(lái)越多地被應(yīng)用在時(shí)域序列數(shù)據(jù)的處理上,Sundermeyer等[15]將LSTM應(yīng)用于自然語(yǔ)言模型上,比傳統(tǒng)的語(yǔ)言處理方法取得了較好的實(shí)驗(yàn)結(jié)果。Graves等[16]在語(yǔ)音識(shí)別問(wèn)題上使用了雙向LSTM網(wǎng)絡(luò),使語(yǔ)音分類精度得到了提高。

1.2 LSTM 的優(yōu)勢(shì)

LSTM應(yīng)用于人體姿態(tài)檢測(cè)算法中相比其他分類器更有效地利用了其3個(gè)優(yōu)勢(shì):

1)相比手工設(shè)置閾值分類方法,LSTM可以準(zhǔn)確、自動(dòng)地從數(shù)據(jù)中提取特征。LSTM作為一種機(jī)器學(xué)習(xí)方法,可以從復(fù)雜的高維數(shù)據(jù)中自動(dòng)地提取特征。對(duì)比傳統(tǒng)的憑借經(jīng)驗(yàn)提供先驗(yàn)知識(shí)手工設(shè)置閾值的分類方法,LSTM自動(dòng)提取特征的過(guò)程更加高效,且機(jī)器學(xué)習(xí)的過(guò)程學(xué)習(xí)的是數(shù)據(jù)集的概率分布,其方法提取的特征比經(jīng)驗(yàn)更加符合數(shù)據(jù)本身的概率分布。

2)相比淺層機(jī)器學(xué)習(xí)算法,屬于深度學(xué)習(xí)方法的LSTM擁有較強(qiáng)的非線性能力,能從數(shù)據(jù)中提取出更加具體的特征,其模型具有更強(qiáng)的泛化能力。淺層機(jī)器學(xué)習(xí)算法,例如SVM、KNN等,在訓(xùn)練集樣本空間能學(xué)習(xí)到分類效果較好的超平面將訓(xùn)練集數(shù)據(jù)正確分類。然而在實(shí)際應(yīng)用中面對(duì)尚未進(jìn)行學(xué)習(xí)的新數(shù)據(jù)——測(cè)試集數(shù)據(jù)的分類效果卻不理想,其原因在于淺層機(jī)器學(xué)習(xí)算法非線性能力較弱,所提取到的特征較為抽象,模型泛化能力較差。而深度學(xué)習(xí)算法則通過(guò)多層連接、權(quán)值共享的網(wǎng)絡(luò)結(jié)構(gòu),逐層提取出更具體的特征,增強(qiáng)模型的泛化能力。

3)相比同為深度學(xué)習(xí)模型中表現(xiàn)出色的前饋神經(jīng)網(wǎng)絡(luò)(feed-forward neural net),屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的LSTM模型具有記憶性,能對(duì)數(shù)據(jù)中時(shí)間上的先后順序建模,對(duì)于時(shí)序數(shù)據(jù)有較好的擬合效果。在深度學(xué)習(xí)領(lǐng)域,傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)在許多方面表現(xiàn)出色。卷積神經(jīng)網(wǎng)絡(luò)作為前饋神經(jīng)網(wǎng)絡(luò)的代表,在圖像、視頻等定長(zhǎng)的空域數(shù)據(jù)分類問(wèn)題上效果顯著;然而,對(duì)于人體姿態(tài)檢測(cè)數(shù)據(jù)所屬的時(shí)序數(shù)據(jù)處理上,由于其自身網(wǎng)絡(luò)結(jié)構(gòu)的約束,效果并不太理想。LSTM則依靠獨(dú)特的遞歸結(jié)構(gòu)善于處理人體姿態(tài)檢測(cè)任務(wù)這種具有復(fù)雜時(shí)間關(guān)聯(lián)性的數(shù)據(jù),并且模型可以接受任意長(zhǎng)度的輸入,更適合應(yīng)用在持續(xù)時(shí)間不一的人體姿態(tài)行為分類任務(wù)上。

由于人體姿態(tài)檢測(cè)數(shù)據(jù)集的時(shí)域變化特點(diǎn),為了克服目前人體姿態(tài)檢測(cè)算法所存在的難題,本文選取以LSTM為核心,在GPU上實(shí)現(xiàn)了人體姿態(tài)的算法模塊。該算法使用深度學(xué)習(xí)的方法自動(dòng)高效地從傳感器數(shù)據(jù)中提取準(zhǔn)確的特征,并利用LSTM的記憶特點(diǎn)僅需輸入當(dāng)前時(shí)刻傳感器數(shù)據(jù)即可預(yù)測(cè)使用者當(dāng)前行為,為上述難題提供了一種解決方案。

2 基于LSTM的姿態(tài)檢測(cè)算法

2.1 數(shù)據(jù)集介紹

本文主要通過(guò)安卓手機(jī)內(nèi)置的傳感器作為人體姿態(tài)數(shù)據(jù)感知層,其具體數(shù)據(jù)主要來(lái)源于手機(jī)內(nèi)置的加速度傳感器、陀螺儀和氣壓計(jì)。

由于數(shù)據(jù)采集中包含跌倒這種對(duì)于老年人來(lái)說(shuō)十分危險(xiǎn)的突發(fā)性動(dòng)作,所以人體姿態(tài)檢測(cè)的數(shù)據(jù)采集是由20名年輕志愿者模仿老年人各種行為來(lái)代替;又因?yàn)橹悄苁謾C(jī)在不使用時(shí)大多時(shí)候隨身攜帶,所以智能手機(jī)作為數(shù)據(jù)采集裝置采集數(shù)據(jù)時(shí)被放置在志愿者褲子口袋中。具體的姿態(tài)被分為突發(fā)性動(dòng)作與持續(xù)性動(dòng)作共9類,共采集3 336個(gè)數(shù)據(jù),分為2755個(gè)數(shù)據(jù)的訓(xùn)練集與581個(gè)數(shù)據(jù)的測(cè)試集,如表1所示。

表1 人體姿態(tài)分類數(shù)據(jù)集Tab.1 Datasets of human posture classification

訓(xùn)練集單次數(shù)據(jù)是由志愿者單一完成某項(xiàng)動(dòng)作時(shí)的傳感器采樣后標(biāo)記構(gòu)成,測(cè)試集為傳感器采樣包含各項(xiàng)動(dòng)作的自然行為后截取標(biāo)記而成。在后續(xù)模型訓(xùn)練中僅使用訓(xùn)練集,測(cè)試集則用于通過(guò)模擬老年人真實(shí)日常行為來(lái)評(píng)估模型泛化能力。

數(shù)據(jù)集格式為:

[data,label]

其中:data為一種姿態(tài)的傳感器數(shù)據(jù);label為人工標(biāo)注的當(dāng)前數(shù)據(jù)所屬姿態(tài)類別。data的具體格式為:

data= [sample,axis*sensor]

其中:sample為一次姿勢(shì)狀態(tài)的采樣點(diǎn)數(shù),不同的姿態(tài)持續(xù)時(shí)間不同,所以sample維度不定;axis為傳感器軸數(shù);sensor為傳感器個(gè)數(shù)。數(shù)據(jù)集由3個(gè)傳感器共9維數(shù)據(jù)構(gòu)成。

跌倒作為典型的突發(fā)性動(dòng)作,訓(xùn)練集中采集到的跌倒數(shù)據(jù)可視化后如圖1所示。跌倒時(shí)三軸加速度傳感器(圖1(a))與三軸陀螺儀(圖1(c))波動(dòng)非常劇烈,且持續(xù)時(shí)間非常短,經(jīng)過(guò)短暫地劇烈波動(dòng)之后所有數(shù)據(jù)都?xì)w于平靜。從氣壓計(jì)(圖1(b))中可以看出,氣壓略有升高,反映了跌倒動(dòng)作發(fā)生時(shí)海拔高度略有降低。訓(xùn)練集中的持續(xù)性動(dòng)作行走數(shù)據(jù)可視化后如圖2所示,上樓梯時(shí)三軸加速度傳感器(圖2(a))與三軸陀螺儀(圖2(c))數(shù)據(jù)呈現(xiàn)周期性波動(dòng),氣壓計(jì)(圖2(b))數(shù)據(jù)基本保持不變。

圖1 跌倒數(shù)據(jù)可視化示意圖Fig.1 Schematic diagram of falling data visualization

測(cè)試集則從志愿者連續(xù)完成多種動(dòng)作行為截取單一動(dòng)作行為并進(jìn)行標(biāo)注。如圖3所示,測(cè)試集加速度數(shù)據(jù)可視化后可以更直觀地看出,跳躍、奔跑、行走、跌倒與平靜的具有波形上的可分性。

從圖3中可以發(fā)現(xiàn),無(wú)論是突發(fā)性動(dòng)作還是持續(xù)性動(dòng)作,不同動(dòng)作的波形具有可分性,可以通過(guò)尋找其波形特征的差異區(qū)分開(kāi)不同動(dòng)作的波形。使用人工神經(jīng)網(wǎng)絡(luò)可以自動(dòng)地尋找這些差異性特征,具體的分類方法將在后文中介紹。

圖2 行走數(shù)據(jù)可視化示意圖Fig.2 Schematic diagram of walking data visualization

圖3 測(cè)試集數(shù)據(jù)可視化示意圖Fig.3 Schematic diagram of test set data visualization

2.2 神經(jīng)網(wǎng)絡(luò)整體結(jié)構(gòu)

本文所構(gòu)建的姿態(tài)檢測(cè)算法是為了解決在現(xiàn)實(shí)場(chǎng)景中,通過(guò)攜帶的智能手機(jī)傳感器檢測(cè)人體當(dāng)前的姿勢(shì)狀態(tài),算法的總流程如圖4所示。

圖4 人體姿態(tài)檢測(cè)總流程Fig.4 General flowchart of human posture detection

由于人體姿態(tài)是一種動(dòng)態(tài)的數(shù)據(jù),且每一種姿態(tài)持續(xù)時(shí)間各不相同,所以本文將一條采樣數(shù)據(jù)按時(shí)序分割。在第t時(shí)刻,模型獲得傳感器當(dāng)前時(shí)刻采集的12維數(shù)據(jù),經(jīng)過(guò)數(shù)據(jù)歸一化,使輸入的12維數(shù)據(jù)映射到值域?yàn)椋?,1]的區(qū)間中,轉(zhuǎn)化為無(wú)量綱表達(dá)式,有利于消除各維度之間的量綱影響。然后將歸一化的數(shù)據(jù)與t-1時(shí)刻LSTM網(wǎng)絡(luò)單元的輸出一起輸入到LSTM網(wǎng)絡(luò)單元,重復(fù)此操作直到此次長(zhǎng)度為sample的數(shù)據(jù)被讀取完畢,最后將sample次迭代的LSTM網(wǎng)絡(luò)單元輸出特征輸入至輸出層,最終得到分類結(jié)果。

2.3 人體姿態(tài)檢測(cè)神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)

人體姿態(tài)數(shù)據(jù)屬于時(shí)間序列,過(guò)去時(shí)刻發(fā)生的狀態(tài)信息對(duì)當(dāng)前時(shí)刻有較強(qiáng)的影響。使用長(zhǎng)短時(shí)記憶(LSTM)網(wǎng)絡(luò)既可以有效地將過(guò)去的信息傳遞到當(dāng)前的計(jì)算中,又能克服RNN結(jié)構(gòu)中無(wú)法傳遞相隔較遠(yuǎn)信息的缺陷[17]。

人體姿態(tài)檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示,左邊為網(wǎng)絡(luò)整體示意。假設(shè)數(shù)據(jù)長(zhǎng)度為n(即數(shù)據(jù)集中變長(zhǎng)采樣點(diǎn)數(shù)sample),輸入x為歸一化后維度為12的數(shù)據(jù),經(jīng)過(guò)隱藏層n次迭代后得到輸出y。右邊為時(shí)域展開(kāi)后的網(wǎng)絡(luò)結(jié)構(gòu),在第t時(shí)刻,隱藏層接收t時(shí)刻輸入數(shù)據(jù)x(t)和上一時(shí)刻隱藏層輸出c(t-1)后輸出t時(shí)刻的隱藏層輸出c(t)。隱藏層為L(zhǎng)STM網(wǎng)絡(luò)單元,其具體結(jié)構(gòu)[18]如圖6所示。

圖5 人體姿態(tài)檢測(cè)網(wǎng)絡(luò)示意圖Fig.5 Schematic diagram of human posture detection network

圖6 LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)圖Fig.6 Structure diagram of LSTM network unit

該網(wǎng)絡(luò)結(jié)構(gòu)在隱藏層中加入了先驗(yàn)知識(shí)——輸入門、遺忘門和輸出門,這些門將不同時(shí)刻的層間信息與某一時(shí)刻的輸入信息處理得更加透明。根據(jù)LSTM網(wǎng)絡(luò)單元結(jié)構(gòu)圖,可以得到輸入門、輸出門與遺忘門的函數(shù)表達(dá)式如下:

其中:Wx為輸入權(quán)值矩陣;Wh為t-1時(shí)刻隱藏層狀態(tài)權(quán)值矩陣;b為偏置項(xiàng)。t時(shí)刻線性自連接單元狀態(tài)c(t)與隱藏層狀態(tài)h(t)表達(dá)式為:

分析式(1)~(5)可以發(fā)現(xiàn),通過(guò)調(diào)整各門的權(quán)值矩陣W,輸入門i(t)可以控制流入自連接單元狀態(tài)c(t)的信息量;遺忘門f(t)可以控制當(dāng)前時(shí)刻的自連接單元狀態(tài)c(t)所包含c(t-1)的信息量,即控制遺忘多少上一時(shí)刻的自連接單元狀態(tài);輸出門o(t)控制可以流入到當(dāng)前隱藏層狀態(tài)h(t)的自連接單元狀態(tài)c(t)信息。其中,線性自連接單元狀態(tài)c(t)的作用是完成歷史信息的積累,其積累方式為:

這里info為本次要積累的信息來(lái)源,將式(6)代入式(4)可得:

由式(7)可以得知,線性自連接單元狀態(tài)c(t)在積累歷史信息時(shí),依靠遺忘門f(t)限制上一時(shí)刻c(t-1)傳遞的信息,同時(shí)依靠輸入門i(t)來(lái)約束新輸入的信息。根據(jù)式(5),當(dāng)前隱藏層狀態(tài)h(t)是由輸出門約束的,由于是以線性方式更新,所以加入帶有非線性功能的tanh函數(shù)。

整個(gè)LSTM網(wǎng)絡(luò)單元的信息來(lái)源為當(dāng)前的輸入x(t)、上一時(shí)刻的隱藏層狀態(tài)h(t-1)與上一時(shí)刻線性自連接單元狀態(tài)c(t-1),由于其中c(t-1)是根據(jù)式(4)計(jì)算出來(lái)的,所以三個(gè)門單元的控制依據(jù)實(shí)際都來(lái)源于當(dāng)前的輸入x(t)與上一時(shí)刻的隱藏層狀態(tài)h(t-1)。

如圖5右上所示,在第n時(shí)刻時(shí),即一組數(shù)據(jù)已經(jīng)全部輸入完畢后,將LSTM網(wǎng)絡(luò)單元最終隱藏層狀態(tài)h(n)作為輸入傳遞進(jìn)輸出層。由于是分類標(biāo)簽大于2個(gè)為多分類問(wèn)題,輸出層函數(shù)為:

通過(guò)式(8)計(jì)算得出最終姿態(tài)預(yù)測(cè)分類結(jié)果的概率分布。

2.4 網(wǎng)絡(luò)訓(xùn)練及訓(xùn)練參數(shù)的調(diào)整

訓(xùn)練人體姿態(tài)檢測(cè)網(wǎng)絡(luò)是獲得構(gòu)建網(wǎng)絡(luò)所以參數(shù)的過(guò)程,通過(guò)訓(xùn)練得到的參數(shù)是式(1)~(8)中的權(quán)值矩陣W與偏置項(xiàng)b。

在網(wǎng)絡(luò)搭建完成后,第一步是將網(wǎng)絡(luò)權(quán)值矩陣初始化。對(duì)于LSTM網(wǎng)絡(luò),由于正交初始化(Orthogonal Initialization)能減緩梯度彌散(Gradient Vanishing)與鞍點(diǎn)(Saddle Point)帶來(lái)的問(wèn)題[18],本文采取正交初始化來(lái)初始化網(wǎng)絡(luò)權(quán)值。第二步,將一組數(shù)據(jù)輸入完畢后經(jīng)過(guò)權(quán)值矩陣計(jì)算得到網(wǎng)絡(luò)輸出y與本組數(shù)據(jù)標(biāo)簽y'(Label)計(jì)算交叉熵(Cross-entropy)作為誤差,誤差表達(dá)式如下:

第三步計(jì)算誤差函數(shù)loss對(duì)權(quán)值矩陣W的梯度,將獲得的梯度反向傳播調(diào)整網(wǎng)絡(luò)各部分權(quán)值矩陣,通過(guò)Adam下降方式(Adaptive Moment Estimation)反復(fù)迭代降低誤差loss直到網(wǎng)絡(luò)收斂至e。

為了方便重復(fù)實(shí)驗(yàn)與人體姿態(tài)檢測(cè)的后續(xù)研究,表2列出了人體姿態(tài)檢測(cè)神經(jīng)網(wǎng)絡(luò)中所設(shè)置的參數(shù)名稱與對(duì)應(yīng)的參數(shù)值供研究參考。其中:隱藏層數(shù)為模型中所含有的LSTM網(wǎng)絡(luò)單元數(shù)目,隱藏層特征數(shù)為數(shù)據(jù)通過(guò)隱藏層后提取出的特征個(gè)數(shù)。

表2 人體姿態(tài)檢測(cè)神經(jīng)網(wǎng)絡(luò)參數(shù)Tab.2 Parameters of human posture detection neural network

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)驗(yàn)證方法

為了驗(yàn)證人體姿態(tài)檢測(cè)網(wǎng)絡(luò)的性能,本文使用獨(dú)立于訓(xùn)練集分開(kāi)采集的581條數(shù)據(jù)作為測(cè)試集驗(yàn)證人體姿態(tài)檢測(cè)神經(jīng)網(wǎng)絡(luò)模型的效果,由于測(cè)試集數(shù)據(jù)為截取自然行為數(shù)據(jù)標(biāo)注而成,其包含有部分非標(biāo)準(zhǔn)行為特征與不同行為切換時(shí)的數(shù)據(jù),與通過(guò)志愿者做出單一動(dòng)作時(shí)采集的標(biāo)準(zhǔn)訓(xùn)練集存在差異。本文利用訓(xùn)練集與測(cè)試集采集時(shí)的差異驗(yàn)證該模型從實(shí)驗(yàn)室采集數(shù)據(jù)對(duì)連續(xù)自然行為的泛化能力。

本文使用Top-1正確率與模型參數(shù)量作為評(píng)測(cè)指標(biāo):Top-1正確率為網(wǎng)絡(luò)最終分類結(jié)果正確的次數(shù)占總次數(shù)的百分比,如圖7所示,其值越高表明人體姿態(tài)網(wǎng)絡(luò)的分類越準(zhǔn)確;模型參數(shù)量是指訓(xùn)練模型所需的參數(shù)數(shù)量,其值越高說(shuō)明模型越復(fù)雜,訓(xùn)練難度越大。擬合效果;測(cè)試集曲線則體現(xiàn)了網(wǎng)絡(luò)對(duì)新輸入的數(shù)據(jù)集的泛化能力。

圖7 網(wǎng)絡(luò)訓(xùn)練中Top-1正確率變化Fig.7 Correct rate change of Top-1 in network training

3.2 對(duì)照實(shí)驗(yàn)設(shè)置

為了驗(yàn)證LSTM網(wǎng)絡(luò)在處理人體姿態(tài)檢測(cè)任務(wù)上的優(yōu)勢(shì),本文使用經(jīng)典的淺層學(xué)習(xí)方法支持向量機(jī)(SVM)、決策樹方法與基于KD樹的K近鄰算法(KNN-kd)三種常用的機(jī)器學(xué)習(xí)算法與卷積神經(jīng)網(wǎng)絡(luò)(CNN)、全連接神經(jīng)網(wǎng)絡(luò)(Fully Connected neural network,F(xiàn)C)兩種深度學(xué)習(xí)網(wǎng)絡(luò)作為對(duì)照組與LSTM網(wǎng)絡(luò)做對(duì)比實(shí)驗(yàn)。表3、4、5分別列出了SVM、決策樹與KNN算法的參數(shù)。

表3 SVM對(duì)照組參數(shù)表Tab.3 Parameters of SVM control group

表4 決策樹對(duì)照組參數(shù)Tab.4 Parameters of decision tree control group

表5 KNN對(duì)照組參數(shù)Tab.5 Parameters of KNN control group

深度學(xué)習(xí)對(duì)照組CNN與FC網(wǎng)絡(luò)所使用參數(shù)如表6所示。

表6 深度學(xué)習(xí)對(duì)照組參數(shù)Tab.6 Parameters of deep learning control group

3.3 結(jié)果分析

比較結(jié)果如表7所示,從表7中可以得知,本文方法(LSTM)在測(cè)試集上得到了最高的正確率98.02%,與次好的機(jī)器學(xué)習(xí)算法(KNN-kd)的93.53%相比提高了4.49個(gè)百分點(diǎn),獲得了更好的分類效果。進(jìn)一步分析發(fā)現(xiàn),SVM等淺層學(xué)習(xí)方法在訓(xùn)練集上可以得到較高的正確率,而在測(cè)試集上效果降低了很多。這說(shuō)明這些方法對(duì)于數(shù)據(jù)的泛化能力不如本文所使用的方法,即受訓(xùn)練樣本的約束過(guò)大,沒(méi)有從有限的樣本提取到最合適的特征。

由于人體姿態(tài)檢測(cè)網(wǎng)絡(luò)使用深度學(xué)習(xí)方法,本文設(shè)置了同為深度學(xué)習(xí)的全連接神經(jīng)網(wǎng)絡(luò)(FC)與卷積神經(jīng)網(wǎng)絡(luò)(CNN)作為對(duì)照實(shí)驗(yàn)。由于CNN網(wǎng)絡(luò)需要輸入為固定長(zhǎng)度的數(shù)據(jù),所以本文將數(shù)據(jù)處理為采樣點(diǎn)數(shù)sample=128(約為3 s)的定長(zhǎng)數(shù)據(jù)集。對(duì)比結(jié)果如表8所示,其中FC-1為隱藏層為1的全連接神經(jīng)網(wǎng)絡(luò),F(xiàn)C-2為隱藏層為2的全連接神經(jīng)網(wǎng)絡(luò),CNN-1為隱藏層為1的卷積神經(jīng)網(wǎng)絡(luò),以此類推。

表7 不同方法的實(shí)驗(yàn)結(jié)果對(duì)比Tab.7 Comparison of experimental results of differents methods

表8 LSTM網(wǎng)絡(luò)與深度學(xué)習(xí)對(duì)照組結(jié)果對(duì)比Tab.8 Comparison of LSTM network and control groups of deep learning

全連接神經(jīng)網(wǎng)絡(luò)(FC)由于其網(wǎng)絡(luò)結(jié)構(gòu)特點(diǎn)會(huì)對(duì)網(wǎng)絡(luò)輸入數(shù)據(jù)整體感知,其模型訓(xùn)練參數(shù)十分巨大,并會(huì)隨輸入數(shù)據(jù)長(zhǎng)度即采樣點(diǎn)數(shù)sample的增加而大幅度增加。卷積神經(jīng)網(wǎng)絡(luò)(CNN)通過(guò)局部感知參數(shù)共享的方式能大幅度降低網(wǎng)絡(luò)訓(xùn)練參數(shù),然而其本質(zhì)是將時(shí)域輸入數(shù)據(jù)轉(zhuǎn)換至空域卷積計(jì)算,對(duì)128個(gè)采樣點(diǎn)無(wú)關(guān)先后順序賦以相同權(quán)重,128個(gè)采樣點(diǎn)發(fā)生之前的數(shù)據(jù)對(duì)當(dāng)前輸出無(wú)任何影響,這對(duì)于持續(xù)時(shí)間較長(zhǎng)的行為或較短時(shí)間內(nèi)發(fā)生的突發(fā)行為來(lái)說(shuō),需要手動(dòng)調(diào)節(jié)合適的采樣點(diǎn)數(shù)才能獲得較好的結(jié)果。

由表8可得,隱藏層為3的CNN網(wǎng)絡(luò)能和本文使用的LSTM網(wǎng)絡(luò)獲得相近的正確率,但是進(jìn)一步分析CNN網(wǎng)絡(luò)后發(fā)現(xiàn),由于CNN的輸入需要為定長(zhǎng)且包含至少一個(gè)完整姿態(tài)動(dòng)作周期的數(shù)據(jù),對(duì)照組的采樣點(diǎn)數(shù)為sample=128,在采樣頻率為50 Hz的條件下,進(jìn)行一次檢測(cè)判斷需要延遲約為3 s左右。這會(huì)導(dǎo)致將CNN網(wǎng)絡(luò)應(yīng)用在人體姿態(tài)檢測(cè)中耗時(shí)過(guò)長(zhǎng),若采用滑窗采樣的數(shù)據(jù)采集形式,又會(huì)帶來(lái)重復(fù)的計(jì)算開(kāi)銷。本文使用的LSTM網(wǎng)絡(luò)因?yàn)槠渚哂袑?duì)歷史時(shí)刻的記憶性質(zhì),每次輸入為當(dāng)前采樣時(shí)刻的數(shù)據(jù),可以實(shí)時(shí)計(jì)算并避免額外的計(jì)算開(kāi)銷,更適合于人體姿態(tài)檢測(cè)的應(yīng)用。

4 結(jié)語(yǔ)

本文提出了基于LSTM的人體姿態(tài)檢測(cè)方法,利用循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)歷史時(shí)刻數(shù)據(jù)的可記憶性,結(jié)合LSTM中特殊的門結(jié)構(gòu)控制當(dāng)前時(shí)刻與歷史時(shí)刻的數(shù)據(jù)輸入,提取了人體姿態(tài)時(shí)序數(shù)據(jù)中的特征并對(duì)其進(jìn)行分類預(yù)測(cè)。通過(guò)對(duì)比經(jīng)典的淺層學(xué)習(xí)方法得出,本文提出的方法能提取到準(zhǔn)確且有效的特征值且具有較好的泛化能力,取得了較好的實(shí)驗(yàn)效果;通過(guò)對(duì)比CNN網(wǎng)絡(luò)的分析研究得出,本文提出的方法能避免額外的計(jì)算開(kāi)銷,并可以實(shí)時(shí)檢測(cè)老年人姿態(tài)狀況。

由于數(shù)據(jù)集本身對(duì)于神經(jīng)網(wǎng)絡(luò)具有約束作用,數(shù)據(jù)集數(shù)目的增加對(duì)模型的特征提取與泛化能力都有幫助,所以下一步的工作主要是擴(kuò)大數(shù)據(jù)集,并結(jié)合更復(fù)雜的神經(jīng)網(wǎng)絡(luò)在保證誤差和正確率的情況下訓(xùn)練出更具備泛化能力的網(wǎng)絡(luò)結(jié)構(gòu)。

猜你喜歡
姿態(tài)時(shí)刻神經(jīng)網(wǎng)絡(luò)
基于遞歸模糊神經(jīng)網(wǎng)絡(luò)的風(fēng)電平滑控制策略
冬“傲”時(shí)刻
捕獵時(shí)刻
攀爬的姿態(tài)
神經(jīng)網(wǎng)絡(luò)抑制無(wú)線通信干擾探究
基于神經(jīng)網(wǎng)絡(luò)的中小學(xué)生情感分析
全新一代宋的新姿態(tài)
基于Q-Learning算法和神經(jīng)網(wǎng)絡(luò)的飛艇控制
另一種姿態(tài)
一天的時(shí)刻
宁安市| 册亨县| 双桥区| 丹寨县| 颍上县| 晋州市| 潼关县| 厦门市| 葵青区| 嘉定区| 康乐县| 明水县| 松溪县| 老河口市| 松滋市| 凤凰县| 长武县| 马公市| 辛集市| 竹北市| 柯坪县| 汉中市| 苍梧县| 扶绥县| 台前县| 宁海县| 双辽市| 伊通| 景洪市| 凤山县| 依安县| 中卫市| 夏津县| 曲靖市| 汪清县| 沾益县| 紫云| 沧州市| 昆山市| 东海县| 林甸县|