基于視頻的上肢外骨骼行為預(yù)判方法

2022-05-23 07:25:36馬六章程子均

計(jì)算機(jī)工程與設(shè)計(jì) 2022年5期

馬六章，蔣磊，吳越，程子均

(中國(guó)礦業(yè)大學(xué)(北京) 機(jī)電與信息工程學(xué)院，北京 100083)

0 引言

近年來，在上肢外骨骼機(jī)器人的算法研究中，如何使外骨骼機(jī)器人更加智能地預(yù)測(cè)人類的行為是研究的熱點(diǎn)問題。李瀟[1]利用動(dòng)力學(xué)分析模擬手臂搬運(yùn)物體時(shí)的關(guān)節(jié)受力情況，利用自抗擾控制算法設(shè)計(jì)了自抗擾控制器，實(shí)現(xiàn)了對(duì)外骨骼動(dòng)力關(guān)節(jié)的控制。

隨著深度學(xué)習(xí)以及計(jì)算機(jī)視覺技術(shù)的發(fā)展，上肢外骨骼機(jī)器人的人機(jī)交互預(yù)測(cè)有了新的發(fā)展方向。Christoph等[2]使用改進(jìn)雙流法(Two-Stream)來實(shí)現(xiàn)視頻動(dòng)作識(shí)別，設(shè)計(jì)了由時(shí)間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)組成的Two-Stream卷積網(wǎng)絡(luò)結(jié)構(gòu)，分別將RGB圖像和光流圖像送入兩支神經(jīng)網(wǎng)絡(luò)并融合，最終分類結(jié)果驗(yàn)證了在多幀密集光流上訓(xùn)練的卷積網(wǎng)絡(luò)[3]，在有限的數(shù)據(jù)集上仍然能夠獲得好的性能，但其不能對(duì)長(zhǎng)時(shí)間的視頻進(jìn)行建模。Ker, J等[4]提出改進(jìn)的C3D(3-dimensional convolution)網(wǎng)絡(luò)結(jié)構(gòu)，用三維的卷積核代替二維卷積核處理視頻，在UCF101數(shù)據(jù)集上的準(zhǔn)確率稍低于雙流法，但是由于其簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)使得該模型的收斂及推理速度大大提高。Thung G等[5]提出將單幀的圖像處理的特征放入RNN，利用RNN來完成時(shí)間上的建模，最后形成對(duì)一段視頻的描述的方法(LRCN)。

在以往的工作中，長(zhǎng)期的時(shí)間聚合通常是通過疊加大量的局部時(shí)間卷積來實(shí)現(xiàn)的。每次卷積處理一個(gè)局部時(shí)間窗口，本文提出的MTF模塊則將局部卷積變形為一組子卷積，形成層次化殘差結(jié)構(gòu)。在不引入附加參數(shù)的情況下，對(duì)特征進(jìn)行一系列的子卷積處理，每一幀可以完成多個(gè)鄰域的時(shí)間聚合，擴(kuò)大了在時(shí)間維的等效感受野，從而能夠在時(shí)間距離較遠(yuǎn)的幀上建立長(zhǎng)期的時(shí)間關(guān)系。最終將MTF模塊插入到GoogleNet網(wǎng)絡(luò)inception模塊中搭建成MTF-Gnet。此外，由于人體運(yùn)動(dòng)的不規(guī)則性，很難將所有的人體運(yùn)動(dòng)壓縮到一個(gè)模型中。其次，人類行為除了具有異質(zhì)性外，還具有高度的隨機(jī)性。不同的人，同一個(gè)人重復(fù)一個(gè)動(dòng)作，動(dòng)作模式也不同。為了解決這些問題。本文提出了一種非線性遞推最小二乘參數(shù)自適應(yīng)算法(NRLS-A)來實(shí)現(xiàn)在線自適應(yīng)。

1 預(yù)測(cè)模型的建立

1.1 MTF模塊

以往的動(dòng)作識(shí)別方法通常采用局部時(shí)間卷積來一次處理鄰近幀，而對(duì)于距離較遠(yuǎn)的幀只能通過大量地堆疊局部卷積操作來進(jìn)行建模。Stanford[6]提出了Multi-resolution-CNN，把相聚L的兩幀圖像分別輸入到兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)中去，然后在最后一層連接到同一個(gè)全連接的softmax層，在UCF-101數(shù)據(jù)集上，得到了較好的效果，但這樣卻損失了視頻幀的時(shí)序信息。在外骨骼對(duì)人體行為進(jìn)行預(yù)測(cè)時(shí)，其時(shí)序上的聯(lián)系更加緊密，比如抬起重物和放下重物。為了解決這一問題，本文提出了多時(shí)間融合(MTF)將時(shí)空特征和對(duì)應(yīng)的局部卷積層劃分為一組子集，以實(shí)現(xiàn)有效的長(zhǎng)時(shí)間時(shí)態(tài)建模。

如圖1左側(cè)所示，給定一個(gè)輸入特征X，傳統(tǒng)的方法是對(duì)其進(jìn)行一次局部時(shí)間卷積再進(jìn)行一次空間卷積。與此不同的是，我們沿著通道維度將特征分割為4個(gè)片段，每個(gè)片段的形狀就變成了 [N,T,C/4,H,W]。如圖1右側(cè)所示，局部卷積也被劃分為多個(gè)子卷積。最后3個(gè)片段依次用一個(gè)通道方向的時(shí)間1D子卷積層和另一個(gè)空間2D子卷積層進(jìn)行處理。每個(gè)都只有原來的1/4的參數(shù)。此外，在相鄰的兩個(gè)片段之間添加殘差連接，將模塊從并行結(jié)構(gòu)轉(zhuǎn)換為層次化級(jí)聯(lián)結(jié)構(gòu)

圖1 MTF模塊

(1)

(2)

(3)

(4)

所得到的輸出特征Xo即為包含了捕獲到的不同時(shí)間范圍的時(shí)空表示。優(yōu)于傳統(tǒng)方法中使用單一局部卷積得到的局部時(shí)間表示。

最后，本文將MTF模塊插入GoogLeNet中的inception模塊進(jìn)行視頻幀圖像的特征提取，GoogLeNet由Christian Szegedy提出，Zhong Z等[7]進(jìn)行了較大改進(jìn)，使用了inception模塊拓寬網(wǎng)絡(luò)的橫向結(jié)構(gòu)，以此來解決網(wǎng)絡(luò)過深而導(dǎo)致的計(jì)算量大、梯度消失等問題，inception模塊結(jié)構(gòu)如圖2(a)所示。

圖2 MTF模塊插入方式

原始inception模塊將5×5大卷積核分解成2個(gè)3×3小卷積核，以此帶來更大的感受野，能夠提取到不同尺度的特征。同時(shí)將稀疏矩陣分解成密集矩陣，提高了模型的收斂速度。最后將其用全連接層拼接起來，即完成了不同尺度特征的融合，同時(shí)由于每增加一層就要通過一次Relu函數(shù)，增加了模型的非線性擴(kuò)展模型表達(dá)能力。

如圖2(b)所示，為了提高計(jì)算效率，在每個(gè)支路的第一個(gè)1x1卷積層之后，利用MTF模塊替換剩余路徑中原有的3×3 Conv層。此外，在經(jīng)過MTF模塊對(duì)每一個(gè)mini-batch 數(shù)據(jù)的內(nèi)部進(jìn)行批標(biāo)準(zhǔn)化處理(BN)[8]使此層的輸出規(guī)范到符合的正太分布，由此減少了內(nèi)部參數(shù)偏移，不僅可以大大加快模型的收斂速度，還可以起到正則化的作用。

由于經(jīng)MTF-Gnet網(wǎng)絡(luò)提取的特征信息要傳遞給門控循環(huán)網(wǎng)絡(luò)進(jìn)行時(shí)間維度上的預(yù)測(cè)，本文去掉了最后的softmax層，而是將最后一層的輸出先進(jìn)行全局平均池化，接著通過一個(gè)輸出通道數(shù)為1000的1×1卷積，作為門控循環(huán)網(wǎng)絡(luò)的輸入。此外，為了避免過擬合的問題，本文采用了Dropout對(duì)網(wǎng)絡(luò)進(jìn)行了隨機(jī)失活處理。本文搭建的MTF-Gnet網(wǎng)絡(luò)結(jié)構(gòu)見表1。

表1 網(wǎng)絡(luò)模型結(jié)構(gòu)與輸入尺寸

1.2 門控循環(huán)網(wǎng)絡(luò)模型

門控循環(huán)網(wǎng)絡(luò)(GRU)改變了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的隱藏層結(jié)構(gòu)[9]，使網(wǎng)絡(luò)可以更好地捕捉深層連接，同時(shí)也改善了梯度消失問題。同時(shí)相對(duì)于LSTM記憶單元，門控循環(huán)網(wǎng)絡(luò)擁有更簡(jiǎn)單的結(jié)構(gòu)以及更少的參數(shù)。LSTM和門控循環(huán)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比如圖3所示。

圖3 LSTM及門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比

門控循環(huán)網(wǎng)絡(luò)仍然使用了能夠更好處理時(shí)序信息的特殊“門”結(jié)構(gòu)，但于LSTM不同的是[10]，門控循環(huán)網(wǎng)絡(luò)將“遺忘門”和“輸入門”合成了一個(gè)單一的“重置門”，為神經(jīng)元的更新操作設(shè)置了一個(gè)“更新門”，同時(shí)將細(xì)胞狀態(tài)和隱藏狀態(tài)進(jìn)行了融合。從而建立了一個(gè)更簡(jiǎn)單，參數(shù)更少的結(jié)構(gòu)。其正向傳播過程如圖4所示。

圖4 門控循環(huán)網(wǎng)絡(luò)正向傳播過程

圖中各節(jié)點(diǎn)參數(shù)計(jì)算如下

z(t)=σ(W(z)x(t)+U(z)h(t-1)) 更新門

(5)

r(t)=σ(W(r)x(t)+U(r)h(t-1)) 重置門

(6)

(7)

(8)

門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)分為1層輸入層，2層隱藏層，1層預(yù)測(cè)輸出層。其中，輸入層為經(jīng)過MTF-Gnet網(wǎng)絡(luò)提取出的得分最高的10個(gè)特征，上一層的初始激活值設(shè)為全零，隱藏層的神經(jīng)元個(gè)數(shù)分別為32,64,32，其中在第二層進(jìn)行了BN處理。激活函數(shù)為tanh函數(shù)。輸出層為4個(gè)節(jié)點(diǎn)，代表了此時(shí)人體的動(dòng)作(是否將要進(jìn)行抬起重物的行為)。其中tanh函數(shù)定義如下

(9)

在未引入Attention機(jī)制的門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)中，每個(gè)預(yù)測(cè)時(shí)刻的輸出是由某一段輸入序列共同決定的，每個(gè)輸入序列對(duì)下一時(shí)刻輸出序列影響權(quán)值在訓(xùn)練工程中已經(jīng)固定。而在實(shí)際情況中，對(duì)于某些人體動(dòng)作，其時(shí)間上的關(guān)聯(lián)程度往往不同。這就需要引入Attention機(jī)制對(duì)每個(gè)輸入序列對(duì)預(yù)測(cè)序列影響的權(quán)重值進(jìn)行調(diào)整(即門控循環(huán)單元更新門和隱藏門的參數(shù))。Attention機(jī)制最早是在視覺圖像領(lǐng)域提出，Lin L等[11]在RNN模型上使用了Attention機(jī)制來進(jìn)行圖像分類。Bahdanau等[12]使用類似Attention的機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行，他們的工作算是第一個(gè)提出將Attention機(jī)制應(yīng)用到NLP領(lǐng)域中。接著類似的基于Attention機(jī)制的RNN模型擴(kuò)展開始應(yīng)用到各種NLP任務(wù)中。本文搭建的門控循環(huán)端到端網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 門控循環(huán)端到端網(wǎng)絡(luò)模型

在編碼器端，過去n步的視頻幀特征向量按照時(shí)間順序依次送入門控循環(huán)單元，在第t步時(shí)，編碼器除了接收來自Xt的數(shù)據(jù)信息，同時(shí)也接收了前一步編碼器單元的隱藏層信息。其相關(guān)程度用ht表示

(10)

即第t個(gè)時(shí)間向量序列與第j個(gè)輸出向量hj之間的相關(guān)程度，最后對(duì)其進(jìn)行加權(quán)求和就可以計(jì)算出注意力分配機(jī)制ct

(11)

在解碼器端，同樣采用門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)，輸入為上一時(shí)刻的輸出，st表示當(dāng)前時(shí)刻門控循環(huán)單元的狀態(tài)，yt表示當(dāng)前解碼器的輸出值。其解碼過程如下

st=fd(yt-1,st-1,ct)

(12)

p(yt|y

(13)

其中，st-1為上一個(gè)解碼器單元隱藏層狀態(tài)，通過注意力機(jī)制ct連接編碼器與解碼器，從而求得解碼器當(dāng)前狀態(tài)st，經(jīng)過線性映射輸出當(dāng)前預(yù)測(cè)值，其中g(shù)為ReLU激活函數(shù)。

1.3 NRLS-A算法

在推理時(shí)，由于不同穿戴者在進(jìn)行同一組動(dòng)作時(shí)有不同的行為模式[13]，所以在進(jìn)行適應(yīng)性的實(shí)時(shí)預(yù)測(cè)時(shí)，需要實(shí)時(shí)調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)。通過攝像頭拍攝到的人體實(shí)時(shí)行為，經(jīng)過卷積網(wǎng)絡(luò)提取出當(dāng)前真實(shí)行為的深層特征，與門控循環(huán)網(wǎng)絡(luò)預(yù)測(cè)出來的行為特征進(jìn)行對(duì)比。這實(shí)則是一個(gè)非線性最小二乘(nonlinear least square，NLS)問題：給定一個(gè)數(shù)據(jù)集 {(xi,yi),i=0,1,…}，目標(biāo)是優(yōu)化一個(gè)參數(shù)θt∈Rn，使得下式最小

(14)

其中

ei=yi-f(θt-xi)

(15)

為了有效地實(shí)時(shí)解決NLS問題，Moriyama等[14]提出一種通過最小化估計(jì)狀態(tài)誤差的2階范數(shù)的擴(kuò)展卡爾曼濾波(EKF)算法，在EKF中，被估計(jì)的對(duì)象是狀態(tài)值，在本文提出的非線性最小二乘自適應(yīng)算法中，被估計(jì)的對(duì)象是網(wǎng)絡(luò)參數(shù)，且可用于網(wǎng)絡(luò)的每一層。算法的具體流程如下：

算法1：非線性最小二乘自適應(yīng)算法

輸入：初始化參數(shù)θ0；

輸出：調(diào)整后參數(shù)θN：

(1)初始化超參數(shù)p0>0；λ>0；r>0；ε>0； P0=p0I；

(2)根據(jù)目前參數(shù)θt計(jì)算當(dāng)前預(yù)測(cè)值

(3)根據(jù)穿戴者實(shí)際行動(dòng)得到真實(shí)值Yt

(4)計(jì)算關(guān)于θ的偏導(dǎo)數(shù)

(5)計(jì)算更新權(quán)重參數(shù)

(6)更新超參數(shù)

(7)更新一次待估計(jì)參數(shù)

(8)如果誤差小于預(yù)期值或達(dá)到迭代次數(shù)，結(jié)束，否則進(jìn)入第(2)步。

其中,λ是遺忘因子，r與誤差ei的協(xié)方差有關(guān)，K是增益矩陣，θt是未知參數(shù)θ的估計(jì)值，在本文的實(shí)驗(yàn)中，θ對(duì)應(yīng)于編碼器隱藏層的權(quán)重參數(shù)。

本文將特征提取和行為預(yù)測(cè)的目標(biāo)函數(shù)合并成一個(gè)多任務(wù)模型。使用以下?lián)p失函數(shù)以端到端方式訓(xùn)練模型

l=γlclassification+(1-γ)lregression

(16)

lclassification是用于特征提取的交叉熵?fù)p失函數(shù)。lregression是行為預(yù)測(cè)的回歸損失函數(shù)。最終損失函數(shù)是這兩個(gè)損失函數(shù)的加權(quán)平均值，其中權(quán)重由γ控制。在本文的實(shí)驗(yàn)中，γ取值為0.5。

2 實(shí) 驗(yàn)

2.1 數(shù)據(jù)采集

本文所采用實(shí)驗(yàn)數(shù)據(jù)集為配置與上肢外骨骼機(jī)器人上的攝像頭采集的人體日常行為視頻數(shù)據(jù)集，由6名測(cè)試人員(4男2女，年齡在23到35歲之間)佩戴著實(shí)驗(yàn)裝置在實(shí)驗(yàn)室、宿舍、操場(chǎng)等5個(gè)不同場(chǎng)景分別進(jìn)行了物體的搬運(yùn)、抬起、放下、正常活動(dòng)時(shí)的視頻采集。本文所使用的GoPro攝像頭所拍攝的視頻為每秒60幀，視頻格式為mp4。攝像頭的安裝位置如圖6所示。

經(jīng)過測(cè)試，每隔3幀提取一張視頻幀，即每秒提取20張視頻幀。由于日常生活中的抬起、抓取、搬運(yùn)等動(dòng)作通常在發(fā)生在3 s～5 s左右，因此每個(gè)動(dòng)作共提取100張左右的圖片作為視頻幀序列。去除掉異常的數(shù)據(jù)之后得到了1800個(gè)訓(xùn)練樣本，共計(jì)4個(gè)類別，平均每個(gè)樣本包含5個(gè)連續(xù)的視頻幀數(shù)據(jù)。同時(shí)每個(gè)類別設(shè)置了50個(gè)短視頻作為測(cè)試樣本。其中具有代表性的視頻序列如圖7所示。

圖6 攝像頭佩戴位置

圖7 部分視頻幀序列

2.2 數(shù)據(jù)預(yù)處理

為了壓縮圖片大小，加快模型的收斂速度，同時(shí)由于攝像頭所拍攝的場(chǎng)景較為豐富，為了更好地提取目標(biāo)物體的特征，在進(jìn)行訓(xùn)練之前，本文將樣本圖片進(jìn)行了主成分分析算法(principal component analysis，PCA)降維壓縮處理[15]。具體的處理過程如下：

對(duì)所有樣本進(jìn)行去中心化，如式(17)，將數(shù)據(jù)集的每個(gè)樣本的不同特征減去所有樣本對(duì)應(yīng)特征的均值，處理過的不同特征上的數(shù)據(jù)均值為0。這樣處理的好處是可以減少特征之間的差異性,可以使得不同的特征具有相同的尺度，讓不同特征對(duì)參數(shù)的影響程度保持一致

(17)

X*=X-U

(18)

計(jì)算樣本圖片的協(xié)方差矩陣，其中每列代表一個(gè)特征，每行代表一個(gè)樣本，將樣本矩陣的每個(gè)樣本減去對(duì)應(yīng)列的均值，然后通過下式得到協(xié)方差矩陣

(19)

對(duì)協(xié)方差矩陣進(jìn)行特征值分解，得到特征值和特征向量，取出最大的K個(gè)特征值對(duì)應(yīng)的特征向量，組成投影矩陣W；對(duì)樣本集中的每一個(gè)樣本，都乘以投影矩陣W進(jìn)行轉(zhuǎn)化，得到降維后的數(shù)據(jù)

X′=X*W

(20)

圖8(a)為經(jīng)過opencv提取后的視頻幀圖像，圖8(b)為經(jīng)過PCA降維壓縮后的圖像，可以看出在經(jīng)過PCA處理后，目標(biāo)物體的特征更加突然，較好排除了周圍環(huán)境所帶來的影響。同時(shí)，每一幀圖像的大小也得到了壓縮，提高了后續(xù)算法的收斂速度。

2.3 網(wǎng)絡(luò)搭建及訓(xùn)練過程

本文所搭建的模型主要分為3個(gè)模塊，即卷積網(wǎng)絡(luò)特征提取模塊、門控循環(huán)網(wǎng)絡(luò)序列預(yù)測(cè)模塊，以及非線性最小二乘參數(shù)調(diào)整模塊。模型的總體流程如圖9所示。

在訓(xùn)練時(shí)，將經(jīng)過預(yù)處理的視頻幀按照時(shí)間順序的序列送入卷積神經(jīng)網(wǎng)絡(luò)特征提取模塊，通過插入MTF模塊的卷積網(wǎng)絡(luò)提取每一幀的時(shí)空運(yùn)動(dòng)特征。之后將提取后的特征按順序送入門控循環(huán)端到端序列預(yù)測(cè)模塊，通過引入注意力機(jī)制的端到端模型對(duì)下一時(shí)刻穿戴者的運(yùn)動(dòng)軌跡及運(yùn)動(dòng)意圖做出預(yù)測(cè)。訓(xùn)練過程的流程如圖10所示。

圖10 網(wǎng)絡(luò)訓(xùn)練過程

其中的超參數(shù)設(shè)定為：學(xué)習(xí)率a設(shè)為0.001，衰減系數(shù)decay設(shè)為0.9，Dropout系數(shù)設(shè)為0.5最大迭代次數(shù)為4000，每500次保存一次當(dāng)前模型，最終選擇最優(yōu)模型進(jìn)行預(yù)測(cè)。模型訓(xùn)練時(shí)以Batch為單位進(jìn)行，Batch Size設(shè)置為64。

在推理時(shí)，由于不同佩戴者行為模式的不同，根據(jù)實(shí)際運(yùn)動(dòng)情況通過非線性最小二乘自適應(yīng)算法對(duì)門控循環(huán)網(wǎng)絡(luò)編碼器隱藏層參數(shù)進(jìn)行實(shí)時(shí)調(diào)整。推理流程圖如圖11所示。

圖11 網(wǎng)絡(luò)推理過程

2.4 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)軟件平臺(tái)為用Linux Ubuntu 18.04 LTS系統(tǒng)，python 3.7.3，TensorFlow 1.13.0，CUDA 10.0，CUDNN 7.4。硬件設(shè)備為Tesla-V10-PCRE-16G以及Jetson TX2。本文實(shí)驗(yàn)均在Tesla服務(wù)器上進(jìn)行訓(xùn)練并部署在jetson TX2上進(jìn)行推理。TX2其硬件配置為6核CPU架構(gòu)，256核Pascal架構(gòu)的GPU核心，內(nèi)存為8 GB。

本文模型基于inception-V3網(wǎng)絡(luò)結(jié)構(gòu)，其模型大小約為93 MB，通過分解卷積以及批標(biāo)準(zhǔn)化處理使得模型參數(shù)大量減少，最終的參數(shù)量在20 million左右。模型在Tesla機(jī)器上的推理速度可以達(dá)到65 fps。在嵌入式設(shè)備TX2上其推理速度可以在保證精度的情況下達(dá)到48 fps，在應(yīng)用到上肢外骨骼時(shí)可以滿足實(shí)驗(yàn)需求。

為了驗(yàn)證本文提出的模型與當(dāng)前主流視頻行為識(shí)別模型的差異，在自建數(shù)據(jù)集上做了以下對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表2。

表2 不同模型實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn)，使用3D卷積核的C3D和I3D模型由于其網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單[16]，其推理速度有較大的提升，但準(zhǔn)確率有所下降。而使用了視頻幀的光流信息的Two-Stream和TSN準(zhǔn)確率和推理速度都不高[17]，這是因?yàn)楸疚脑跀?shù)據(jù)預(yù)處理時(shí)使用PCA降維使得視頻幀失去了大部分的光流信息，并且對(duì)光流信息和RGB信息分開處理耗費(fèi)了大量時(shí)間。在取消PCA處理后，Two-Sream和TSN的準(zhǔn)確率分別達(dá)到了83.6%和85.3%，但其推理速度并沒有提高。

在對(duì)MTF模塊進(jìn)行插入時(shí)，本文驗(yàn)證了兩種插入方式如圖12所示，第一種為在1×1卷積后，BN之前插入MTF模塊，第二種為在1×1卷積之前。

實(shí)驗(yàn)得到的結(jié)果為使用第一種插入方式準(zhǔn)確率達(dá)到最高的84.9%，使用第二種方式達(dá)到的最高準(zhǔn)確率為84.5%。

圖12 不同的MTF插入方式

推測(cè)是因?yàn)?×1的卷積將多個(gè)維度的特征圖譜進(jìn)行了線性組合，這種跨通道的信息整合可能會(huì)破壞時(shí)空運(yùn)動(dòng)特征信息。

在實(shí)驗(yàn)過程中，為了驗(yàn)證本文提出的G-GRU網(wǎng)絡(luò)模型和其它LRCN模型的差別以及非線性最小二乘自適應(yīng)算法的性能，分為兩組實(shí)驗(yàn)，每組均采用了3種較為流行的LRCN模型作為對(duì)照，訓(xùn)練時(shí)超參數(shù)的設(shè)置均相同，其中一組使用非線性最小二乘自適應(yīng)算法對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整。本文實(shí)驗(yàn)中設(shè)置p0=0.01，λ=0.999，r=0.95，ε=0.1。實(shí)驗(yàn)結(jié)果如圖13所示。

圖13 不同模型準(zhǔn)確率

由圖13可以看出，在沒有使用非線性最小二乘自適應(yīng)算法時(shí)，準(zhǔn)確率最高的是采用ResNet和LSTM的LRCN模型，這是因?yàn)镽esNet通過殘差傳遞，搭建了更深的網(wǎng)絡(luò)結(jié)構(gòu)，能夠更好地提取深層次特征，并且LSTM網(wǎng)絡(luò)結(jié)構(gòu)相比于門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜，能更好地處理時(shí)域上的關(guān)聯(lián)特征，但是由于網(wǎng)絡(luò)較為復(fù)雜，導(dǎo)致其收斂速度不是很理想，在迭代了近3500次后才達(dá)到最高準(zhǔn)確率。收斂速度最快的是AlexNet+GRU結(jié)構(gòu)，在迭代2000次左右完成了收斂，但由于其網(wǎng)絡(luò)模型較為簡(jiǎn)單，導(dǎo)致預(yù)測(cè)的準(zhǔn)確率較低，實(shí)驗(yàn)結(jié)果如圖13(a)所示。

在使用了非線性最小二乘自適應(yīng)算法實(shí)時(shí)更新神經(jīng)網(wǎng)絡(luò)參數(shù)后，模型的準(zhǔn)確率都有了一定的提升，均能到達(dá)80%以上。由于在自適應(yīng)過程中對(duì)預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行了參數(shù)的調(diào)整，LSTM網(wǎng)絡(luò)參數(shù)較多，更新較慢，其收斂速度受到了一定影響，并且準(zhǔn)確率的提升也比較有限。但對(duì)于使用門控循環(huán)單元的網(wǎng)絡(luò)模型效果則比較顯著。其中本文提出的MTF-Gnet+GRU+NRLS-A網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率達(dá)到了最高的84.8%。驗(yàn)證了自適應(yīng)算法對(duì)于提高實(shí)時(shí)預(yù)測(cè)準(zhǔn)確性有一定的幫助。為了驗(yàn)證模型對(duì)哪些人體行為的識(shí)別，預(yù)測(cè)最為準(zhǔn)確，分別使用50個(gè)短視頻樣本的測(cè)試結(jié)果的混淆矩陣如圖14所示。

圖14 驗(yàn)證集混淆矩陣

可以看出，該模型在上肢外骨骼預(yù)測(cè)人體行為上有較高的正確率，其主要的預(yù)測(cè)錯(cuò)誤在于抬起和放下這兩個(gè)只有時(shí)間序列不同，空間特征幾乎相同的行為。

同時(shí)為了驗(yàn)證本文所使用預(yù)處理算法對(duì)模型的影響，在訓(xùn)練的同時(shí)使用未經(jīng)PCA降維處理的數(shù)據(jù)進(jìn)行對(duì)照實(shí)驗(yàn)，僅僅歸一化了視頻幀的輸入大小，其它實(shí)驗(yàn)條件均相同。得到的準(zhǔn)確率與推理速度見表3。

表3 預(yù)處理實(shí)驗(yàn)結(jié)果

由表3可知，經(jīng)過PCA降維處理后，模型的推理速度提高了約10%，模型的準(zhǔn)確率卻沒有明顯的下降，這表明預(yù)處理算法有效保留率視頻幀的特征，濾出了部分其它的無關(guān)信息，同時(shí)壓縮了圖片大小，也驗(yàn)證使用本文提出的方法不需要使用視頻幀光流信息，加快了計(jì)算速度。

3 結(jié)束語

傳統(tǒng)的上肢外骨骼機(jī)器人利用力學(xué)傳感器或基于生理信息反饋人體行為意圖，具有時(shí)滯性，傳感器的數(shù)量也較多，且易穿戴者生理狀況影響較大，基于此，本文將視頻預(yù)測(cè)與上肢外骨骼控制人機(jī)交互問題一起考慮，提出一種多時(shí)間融合(MTF)模塊，并將其插入到inception模塊中。通過攝像頭捕捉第一人稱視頻后，經(jīng)過自行搭建的MTF-Gnet提取空間維度的圖像特征，之后將提取的特征送入端到端的門控循環(huán)單元分析圖像的時(shí)間序列關(guān)聯(lián)性，最后在推理時(shí)提出一種非線性最小二乘自適應(yīng)算法(NRLS-A)，在實(shí)時(shí)預(yù)測(cè)時(shí)根據(jù)佩戴者的不同調(diào)整網(wǎng)絡(luò)參數(shù)。從而實(shí)現(xiàn)了提前預(yù)測(cè)人體上肢行為，為佩戴者提供實(shí)時(shí)助力，達(dá)到了預(yù)期實(shí)驗(yàn)結(jié)果。為上肢外骨骼及其它穿戴式人機(jī)交互領(lǐng)域提供控制依據(jù)。下一步的研究包括：

(1)將MTF模塊與其它網(wǎng)絡(luò)模型進(jìn)行組合。

(2)嘗試更多的MTF模塊插入位置與插入方式。

(3)綜合考慮人機(jī)交互時(shí)會(huì)受到影響的其它特征，以提高預(yù)測(cè)準(zhǔn)確性。

(4)在多場(chǎng)景、多行為動(dòng)作的情況下改進(jìn)模型。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡