国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于視頻的上肢外骨骼行為預(yù)判方法

2022-05-23 07:25:36馬六章程子均
關(guān)鍵詞:網(wǎng)絡(luò)結(jié)構(gòu)卷積特征

馬六章,蔣 磊,吳 越,程子均

(中國(guó)礦業(yè)大學(xué)(北京) 機(jī)電與信息工程學(xué)院,北京 100083)

0 引 言

近年來,在上肢外骨骼機(jī)器人的算法研究中,如何使外骨骼機(jī)器人更加智能地預(yù)測(cè)人類的行為是研究的熱點(diǎn)問題。李瀟[1]利用動(dòng)力學(xué)分析模擬手臂搬運(yùn)物體時(shí)的關(guān)節(jié)受力情況,利用自抗擾控制算法設(shè)計(jì)了自抗擾控制器,實(shí)現(xiàn)了對(duì)外骨骼動(dòng)力關(guān)節(jié)的控制。

隨著深度學(xué)習(xí)以及計(jì)算機(jī)視覺技術(shù)的發(fā)展,上肢外骨骼機(jī)器人的人機(jī)交互預(yù)測(cè)有了新的發(fā)展方向。Christoph等[2]使用改進(jìn)雙流法(Two-Stream)來實(shí)現(xiàn)視頻動(dòng)作識(shí)別,設(shè)計(jì)了由時(shí)間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)組成的Two-Stream卷積網(wǎng)絡(luò)結(jié)構(gòu),分別將RGB圖像和光流圖像送入兩支神經(jīng)網(wǎng)絡(luò)并融合,最終分類結(jié)果驗(yàn)證了在多幀密集光流上訓(xùn)練的卷積網(wǎng)絡(luò)[3],在有限的數(shù)據(jù)集上仍然能夠獲得好的性能,但其不能對(duì)長(zhǎng)時(shí)間的視頻進(jìn)行建模。Ker, J等[4]提出改進(jìn)的C3D(3-dimensional convolution)網(wǎng)絡(luò)結(jié)構(gòu),用三維的卷積核代替二維卷積核處理視頻,在UCF101數(shù)據(jù)集上的準(zhǔn)確率稍低于雙流法,但是由于其簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)使得該模型的收斂及推理速度大大提高。Thung G等[5]提出將單幀的圖像處理的特征放入RNN,利用RNN來完成時(shí)間上的建模,最后形成對(duì)一段視頻的描述的方法(LRCN)。

在以往的工作中,長(zhǎng)期的時(shí)間聚合通常是通過疊加大量的局部時(shí)間卷積來實(shí)現(xiàn)的。每次卷積處理一個(gè)局部時(shí)間窗口,本文提出的MTF模塊則將局部卷積變形為一組子卷積,形成層次化殘差結(jié)構(gòu)。在不引入附加參數(shù)的情況下,對(duì)特征進(jìn)行一系列的子卷積處理,每一幀可以完成多個(gè)鄰域的時(shí)間聚合,擴(kuò)大了在時(shí)間維的等效感受野,從而能夠在時(shí)間距離較遠(yuǎn)的幀上建立長(zhǎng)期的時(shí)間關(guān)系。最終將MTF模塊插入到GoogleNet網(wǎng)絡(luò)inception模塊中搭建成MTF-Gnet。此外,由于人體運(yùn)動(dòng)的不規(guī)則性,很難將所有的人體運(yùn)動(dòng)壓縮到一個(gè)模型中。其次,人類行為除了具有異質(zhì)性外,還具有高度的隨機(jī)性。不同的人,同一個(gè)人重復(fù)一個(gè)動(dòng)作,動(dòng)作模式也不同。為了解決這些問題。本文提出了一種非線性遞推最小二乘參數(shù)自適應(yīng)算法(NRLS-A)來實(shí)現(xiàn)在線自適應(yīng)。

1 預(yù)測(cè)模型的建立

1.1 MTF模塊

以往的動(dòng)作識(shí)別方法通常采用局部時(shí)間卷積來一次處理鄰近幀,而對(duì)于距離較遠(yuǎn)的幀只能通過大量地堆疊局部卷積操作來進(jìn)行建模。Stanford[6]提出了Multi-resolution-CNN,把相聚L的兩幀圖像分別輸入到兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)中去,然后在最后一層連接到同一個(gè)全連接的softmax層,在UCF-101數(shù)據(jù)集上,得到了較好的效果,但這樣卻損失了視頻幀的時(shí)序信息。在外骨骼對(duì)人體行為進(jìn)行預(yù)測(cè)時(shí),其時(shí)序上的聯(lián)系更加緊密,比如抬起重物和放下重物。為了解決這一問題,本文提出了多時(shí)間融合(MTF)將時(shí)空特征和對(duì)應(yīng)的局部卷積層劃分為一組子集,以實(shí)現(xiàn)有效的長(zhǎng)時(shí)間時(shí)態(tài)建模。

如圖1左側(cè)所示,給定一個(gè)輸入特征X,傳統(tǒng)的方法是對(duì)其進(jìn)行一次局部時(shí)間卷積再進(jìn)行一次空間卷積。與此不同的是,我們沿著通道維度將特征分割為4個(gè)片段,每個(gè)片段的形狀就變成了 [N,T,C/4,H,W]。 如圖1右側(cè)所示,局部卷積也被劃分為多個(gè)子卷積。最后3個(gè)片段依次用一個(gè)通道方向的時(shí)間1D子卷積層和另一個(gè)空間2D子卷積層進(jìn)行處理。每個(gè)都只有原來的1/4的參數(shù)。此外,在相鄰的兩個(gè)片段之間添加殘差連接,將模塊從并行結(jié)構(gòu)轉(zhuǎn)換為層次化級(jí)聯(lián)結(jié)構(gòu)

圖1 MTF模塊

(1)

(2)

(3)

(4)

所得到的輸出特征Xo即為包含了捕獲到的不同時(shí)間范圍的時(shí)空表示。優(yōu)于傳統(tǒng)方法中使用單一局部卷積得到的局部時(shí)間表示。

最后,本文將MTF模塊插入GoogLeNet中的inception模塊進(jìn)行視頻幀圖像的特征提取,GoogLeNet由Christian Szegedy提出,Zhong Z等[7]進(jìn)行了較大改進(jìn),使用了inception模塊拓寬網(wǎng)絡(luò)的橫向結(jié)構(gòu),以此來解決網(wǎng)絡(luò)過深而導(dǎo)致的計(jì)算量大、梯度消失等問題,inception模塊結(jié)構(gòu)如圖2(a)所示。

圖2 MTF模塊插入方式

原始inception模塊將5×5大卷積核分解成2個(gè)3×3小卷積核,以此帶來更大的感受野,能夠提取到不同尺度的特征。同時(shí)將稀疏矩陣分解成密集矩陣,提高了模型的收斂速度。最后將其用全連接層拼接起來,即完成了不同尺度特征的融合,同時(shí)由于每增加一層就要通過一次Relu函數(shù),增加了模型的非線性擴(kuò)展模型表達(dá)能力。

如圖2(b)所示,為了提高計(jì)算效率,在每個(gè)支路的第一個(gè)1x1卷積層之后,利用MTF模塊替換剩余路徑中原有的3×3 Conv層。此外,在經(jīng)過MTF模塊對(duì)每一個(gè)mini-batch 數(shù)據(jù)的內(nèi)部進(jìn)行批標(biāo)準(zhǔn)化處理(BN)[8]使此層的輸出規(guī)范到符合的正太分布,由此減少了內(nèi)部參數(shù)偏移,不僅可以大大加快模型的收斂速度,還可以起到正則化的作用。

由于經(jīng)MTF-Gnet網(wǎng)絡(luò)提取的特征信息要傳遞給門控循環(huán)網(wǎng)絡(luò)進(jìn)行時(shí)間維度上的預(yù)測(cè),本文去掉了最后的softmax層,而是將最后一層的輸出先進(jìn)行全局平均池化,接著通過一個(gè)輸出通道數(shù)為1000的1×1卷積,作為門控循環(huán)網(wǎng)絡(luò)的輸入。此外,為了避免過擬合的問題,本文采用了Dropout對(duì)網(wǎng)絡(luò)進(jìn)行了隨機(jī)失活處理。本文搭建的MTF-Gnet網(wǎng)絡(luò)結(jié)構(gòu)見表1。

表1 網(wǎng)絡(luò)模型結(jié)構(gòu)與輸入尺寸

1.2 門控循環(huán)網(wǎng)絡(luò)模型

門控循環(huán)網(wǎng)絡(luò)(GRU)改變了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的隱藏層結(jié)構(gòu)[9],使網(wǎng)絡(luò)可以更好地捕捉深層連接,同時(shí)也改善了梯度消失問題。同時(shí)相對(duì)于LSTM記憶單元,門控循環(huán)網(wǎng)絡(luò)擁有更簡(jiǎn)單的結(jié)構(gòu)以及更少的參數(shù)。LSTM和門控循環(huán)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比如圖3所示。

圖3 LSTM及門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比

門控循環(huán)網(wǎng)絡(luò)仍然使用了能夠更好處理時(shí)序信息的特殊“門”結(jié)構(gòu),但于LSTM不同的是[10],門控循環(huán)網(wǎng)絡(luò)將“遺忘門”和“輸入門”合成了一個(gè)單一的“重置門”,為神經(jīng)元的更新操作設(shè)置了一個(gè)“更新門”,同時(shí)將細(xì)胞狀態(tài)和隱藏狀態(tài)進(jìn)行了融合。從而建立了一個(gè)更簡(jiǎn)單,參數(shù)更少的結(jié)構(gòu)。其正向傳播過程如圖4所示。

圖4 門控循環(huán)網(wǎng)絡(luò)正向傳播過程

圖中各節(jié)點(diǎn)參數(shù)計(jì)算如下

z(t)=σ(W(z)x(t)+U(z)h(t-1)) 更新門

(5)

r(t)=σ(W(r)x(t)+U(r)h(t-1)) 重置門

(6)

(7)

(8)

門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)分為1層輸入層,2層隱藏層,1層預(yù)測(cè)輸出層。其中,輸入層為經(jīng)過MTF-Gnet網(wǎng)絡(luò)提取出的得分最高的10個(gè)特征,上一層的初始激活值設(shè)為全零,隱藏層的神經(jīng)元個(gè)數(shù)分別為32,64,32,其中在第二層進(jìn)行了BN處理。激活函數(shù)為tanh函數(shù)。輸出層為4個(gè)節(jié)點(diǎn),代表了此時(shí)人體的動(dòng)作(是否將要進(jìn)行抬起重物的行為)。其中tanh函數(shù)定義如下

(9)

在未引入Attention機(jī)制的門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)預(yù)測(cè)時(shí)刻的輸出是由某一段輸入序列共同決定的,每個(gè)輸入序列對(duì)下一時(shí)刻輸出序列影響權(quán)值在訓(xùn)練工程中已經(jīng)固定。而在實(shí)際情況中,對(duì)于某些人體動(dòng)作,其時(shí)間上的關(guān)聯(lián)程度往往不同。這就需要引入Attention機(jī)制對(duì)每個(gè)輸入序列對(duì)預(yù)測(cè)序列影響的權(quán)重值進(jìn)行調(diào)整(即門控循環(huán)單元更新門和隱藏門的參數(shù))。Attention機(jī)制最早是在視覺圖像領(lǐng)域提出,Lin L等[11]在RNN模型上使用了Attention機(jī)制來進(jìn)行圖像分類。Bahdanau等[12]使用類似Attention的機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行,他們的工作算是第一個(gè)提出將Attention機(jī)制應(yīng)用到NLP領(lǐng)域中。接著類似的基于Attention機(jī)制的RNN模型擴(kuò)展開始應(yīng)用到各種NLP任務(wù)中。本文搭建的門控循環(huán)端到端網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。

圖5 門控循環(huán)端到端網(wǎng)絡(luò)模型

在編碼器端,過去n步的視頻幀特征向量按照時(shí)間順序依次送入門控循環(huán)單元,在第t步時(shí),編碼器除了接收來自Xt的數(shù)據(jù)信息,同時(shí)也接收了前一步編碼器單元的隱藏層信息。其相關(guān)程度用ht表示

(10)

即第t個(gè)時(shí)間向量序列與第j個(gè)輸出向量hj之間的相關(guān)程度,最后對(duì)其進(jìn)行加權(quán)求和就可以計(jì)算出注意力分配機(jī)制ct

(11)

在解碼器端,同樣采用門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),輸入為上一時(shí)刻的輸出,st表示當(dāng)前時(shí)刻門控循環(huán)單元的狀態(tài),yt表示當(dāng)前解碼器的輸出值。其解碼過程如下

st=fd(yt-1,st-1,ct)

(12)

p(yt|y

(13)

其中,st-1為上一個(gè)解碼器單元隱藏層狀態(tài),通過注意力機(jī)制ct連接編碼器與解碼器,從而求得解碼器當(dāng)前狀態(tài)st, 經(jīng)過線性映射輸出當(dāng)前預(yù)測(cè)值,其中g(shù)為ReLU激活函數(shù)。

1.3 NRLS-A算法

在推理時(shí),由于不同穿戴者在進(jìn)行同一組動(dòng)作時(shí)有不同的行為模式[13],所以在進(jìn)行適應(yīng)性的實(shí)時(shí)預(yù)測(cè)時(shí),需要實(shí)時(shí)調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)。通過攝像頭拍攝到的人體實(shí)時(shí)行為,經(jīng)過卷積網(wǎng)絡(luò)提取出當(dāng)前真實(shí)行為的深層特征,與門控循環(huán)網(wǎng)絡(luò)預(yù)測(cè)出來的行為特征進(jìn)行對(duì)比。這實(shí)則是一個(gè)非線性最小二乘(nonlinear least square,NLS)問題:給定一個(gè)數(shù)據(jù)集 {(xi,yi),i=0,1,…}, 目標(biāo)是優(yōu)化一個(gè)參數(shù)θt∈Rn, 使得下式最小

(14)

其中

ei=yi-f(θt-xi)

(15)

為了有效地實(shí)時(shí)解決NLS問題,Moriyama等[14]提出一種通過最小化估計(jì)狀態(tài)誤差的2階范數(shù)的擴(kuò)展卡爾曼濾波(EKF)算法,在EKF中,被估計(jì)的對(duì)象是狀態(tài)值,在本文提出的非線性最小二乘自適應(yīng)算法中,被估計(jì)的對(duì)象是網(wǎng)絡(luò)參數(shù),且可用于網(wǎng)絡(luò)的每一層。算法的具體流程如下:

算法1:非線性最小二乘自適應(yīng)算法

輸入:初始化參數(shù)θ0;

輸出:調(diào)整后參數(shù)θN:

(1)初始化超參數(shù)p0>0;λ>0;r>0;ε>0; P0=p0I;

(2)根據(jù)目前參數(shù)θt計(jì)算當(dāng)前預(yù)測(cè)值

(3)根據(jù)穿戴者實(shí)際行動(dòng)得到真實(shí)值Yt

(4)計(jì)算關(guān)于θ的偏導(dǎo)數(shù)

(5)計(jì)算更新權(quán)重參數(shù)

(6)更新超參數(shù)

(7)更新一次待估計(jì)參數(shù)

(8)如果誤差小于預(yù)期值或達(dá)到迭代次數(shù),結(jié)束,否則進(jìn)入第(2)步。

其中,λ是遺忘因子,r與誤差ei的協(xié)方差有關(guān),K是增益矩陣,θt是未知參數(shù)θ的估計(jì)值,在本文的實(shí)驗(yàn)中,θ對(duì)應(yīng)于編碼器隱藏層的權(quán)重參數(shù)。

本文將特征提取和行為預(yù)測(cè)的目標(biāo)函數(shù)合并成一個(gè)多任務(wù)模型。使用以下?lián)p失函數(shù)以端到端方式訓(xùn)練模型

l=γlclassification+(1-γ)lregression

(16)

lclassification是用于特征提取的交叉熵?fù)p失函數(shù)。lregression是行為預(yù)測(cè)的回歸損失函數(shù)。最終損失函數(shù)是這兩個(gè)損失函數(shù)的加權(quán)平均值,其中權(quán)重由γ控制。在本文的實(shí)驗(yàn)中,γ取值為0.5。

2 實(shí) 驗(yàn)

2.1 數(shù)據(jù)采集

本文所采用實(shí)驗(yàn)數(shù)據(jù)集為配置與上肢外骨骼機(jī)器人上的攝像頭采集的人體日常行為視頻數(shù)據(jù)集,由6名測(cè)試人員(4男2女,年齡在23到35歲之間)佩戴著實(shí)驗(yàn)裝置在實(shí)驗(yàn)室、宿舍、操場(chǎng)等5個(gè)不同場(chǎng)景分別進(jìn)行了物體的搬運(yùn)、抬起、放下、正常活動(dòng)時(shí)的視頻采集。本文所使用的GoPro攝像頭所拍攝的視頻為每秒60幀,視頻格式為mp4。攝像頭的安裝位置如圖6所示。

經(jīng)過測(cè)試,每隔3幀提取一張視頻幀,即每秒提取20張視頻幀。由于日常生活中的抬起、抓取、搬運(yùn)等動(dòng)作通常在發(fā)生在3 s~5 s左右,因此每個(gè)動(dòng)作共提取100張左右的圖片作為視頻幀序列。去除掉異常的數(shù)據(jù)之后得到了1800個(gè)訓(xùn)練樣本,共計(jì)4個(gè)類別,平均每個(gè)樣本包含5個(gè)連續(xù)的視頻幀數(shù)據(jù)。同時(shí)每個(gè)類別設(shè)置了50個(gè)短視頻作為測(cè)試樣本。其中具有代表性的視頻序列如圖7所示。

圖6 攝像頭佩戴位置

圖7 部分視頻幀序列

2.2 數(shù)據(jù)預(yù)處理

為了壓縮圖片大小,加快模型的收斂速度,同時(shí)由于攝像頭所拍攝的場(chǎng)景較為豐富,為了更好地提取目標(biāo)物體的特征,在進(jìn)行訓(xùn)練之前,本文將樣本圖片進(jìn)行了主成分分析算法(principal component analysis,PCA)降維壓縮處理[15]。具體的處理過程如下:

對(duì)所有樣本進(jìn)行去中心化,如式(17),將數(shù)據(jù)集的每個(gè)樣本的不同特征減去所有樣本對(duì)應(yīng)特征的均值,處理過的不同特征上的數(shù)據(jù)均值為0。這樣處理的好處是可以減少特征之間的差異性,可以使得不同的特征具有相同的尺度,讓不同特征對(duì)參數(shù)的影響程度保持一致

(17)

X*=X-U

(18)

計(jì)算樣本圖片的協(xié)方差矩陣,其中每列代表一個(gè)特征,每行代表一個(gè)樣本,將樣本矩陣的每個(gè)樣本減去對(duì)應(yīng)列的均值,然后通過下式得到協(xié)方差矩陣

(19)

對(duì)協(xié)方差矩陣進(jìn)行特征值分解,得到特征值和特征向量,取出最大的K個(gè)特征值對(duì)應(yīng)的特征向量,組成投影矩陣W;對(duì)樣本集中的每一個(gè)樣本,都乘以投影矩陣W進(jìn)行轉(zhuǎn)化,得到降維后的數(shù)據(jù)

X′=X*W

(20)

圖8(a)為經(jīng)過opencv提取后的視頻幀圖像,圖8(b)為經(jīng)過PCA降維壓縮后的圖像,可以看出在經(jīng)過PCA處理后,目標(biāo)物體的特征更加突然,較好排除了周圍環(huán)境所帶來的影響。同時(shí),每一幀圖像的大小也得到了壓縮,提高了后續(xù)算法的收斂速度。

2.3 網(wǎng)絡(luò)搭建及訓(xùn)練過程

本文所搭建的模型主要分為3個(gè)模塊,即卷積網(wǎng)絡(luò)特征提取模塊、門控循環(huán)網(wǎng)絡(luò)序列預(yù)測(cè)模塊,以及非線性最小二乘參數(shù)調(diào)整模塊。模型的總體流程如圖9所示。

在訓(xùn)練時(shí),將經(jīng)過預(yù)處理的視頻幀按照時(shí)間順序的序列送入卷積神經(jīng)網(wǎng)絡(luò)特征提取模塊,通過插入MTF模塊的卷積網(wǎng)絡(luò)提取每一幀的時(shí)空運(yùn)動(dòng)特征。之后將提取后的特征按順序送入門控循環(huán)端到端序列預(yù)測(cè)模塊,通過引入注意力機(jī)制的端到端模型對(duì)下一時(shí)刻穿戴者的運(yùn)動(dòng)軌跡及運(yùn)動(dòng)意圖做出預(yù)測(cè)。訓(xùn)練過程的流程如圖10所示。

圖10 網(wǎng)絡(luò)訓(xùn)練過程

其中的超參數(shù)設(shè)定為:學(xué)習(xí)率a設(shè)為0.001,衰減系數(shù)decay設(shè)為0.9,Dropout系數(shù)設(shè)為0.5最大迭代次數(shù)為4000,每500次保存一次當(dāng)前模型,最終選擇最優(yōu)模型進(jìn)行預(yù)測(cè)。模型訓(xùn)練時(shí)以Batch為單位進(jìn)行,Batch Size設(shè)置為64。

在推理時(shí),由于不同佩戴者行為模式的不同,根據(jù)實(shí)際運(yùn)動(dòng)情況通過非線性最小二乘自適應(yīng)算法對(duì)門控循環(huán)網(wǎng)絡(luò)編碼器隱藏層參數(shù)進(jìn)行實(shí)時(shí)調(diào)整。推理流程圖如圖11所示。

圖11 網(wǎng)絡(luò)推理過程

2.4 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)軟件平臺(tái)為用Linux Ubuntu 18.04 LTS系統(tǒng),python 3.7.3,TensorFlow 1.13.0,CUDA 10.0,CUDNN 7.4。硬件設(shè)備為Tesla-V10-PCRE-16G以及Jetson TX2。本文實(shí)驗(yàn)均在Tesla服務(wù)器上進(jìn)行訓(xùn)練并部署在jetson TX2上進(jìn)行推理。TX2其硬件配置為6核CPU架構(gòu),256核Pascal架構(gòu)的GPU核心,內(nèi)存為8 GB。

本文模型基于inception-V3網(wǎng)絡(luò)結(jié)構(gòu),其模型大小約為93 MB,通過分解卷積以及批標(biāo)準(zhǔn)化處理使得模型參數(shù)大量減少,最終的參數(shù)量在20 million左右。模型在Tesla機(jī)器上的推理速度可以達(dá)到65 fps。在嵌入式設(shè)備TX2上其推理速度可以在保證精度的情況下達(dá)到48 fps,在應(yīng)用到上肢外骨骼時(shí)可以滿足實(shí)驗(yàn)需求。

為了驗(yàn)證本文提出的模型與當(dāng)前主流視頻行為識(shí)別模型的差異,在自建數(shù)據(jù)集上做了以下對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表2。

表2 不同模型實(shí)驗(yàn)結(jié)果

由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),使用3D卷積核的C3D和I3D模型由于其網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單[16],其推理速度有較大的提升,但準(zhǔn)確率有所下降。而使用了視頻幀的光流信息的Two-Stream和TSN準(zhǔn)確率和推理速度都不高[17],這是因?yàn)楸疚脑跀?shù)據(jù)預(yù)處理時(shí)使用PCA降維使得視頻幀失去了大部分的光流信息,并且對(duì)光流信息和RGB信息分開處理耗費(fèi)了大量時(shí)間。在取消PCA處理后,Two-Sream和TSN的準(zhǔn)確率分別達(dá)到了83.6%和85.3%,但其推理速度并沒有提高。

在對(duì)MTF模塊進(jìn)行插入時(shí),本文驗(yàn)證了兩種插入方式如圖12所示,第一種為在1×1卷積后,BN之前插入MTF模塊,第二種為在1×1卷積之前。

實(shí)驗(yàn)得到的結(jié)果為使用第一種插入方式準(zhǔn)確率達(dá)到最高的84.9%,使用第二種方式達(dá)到的最高準(zhǔn)確率為84.5%。

圖12 不同的MTF插入方式

推測(cè)是因?yàn)?×1的卷積將多個(gè)維度的特征圖譜進(jìn)行了線性組合,這種跨通道的信息整合可能會(huì)破壞時(shí)空運(yùn)動(dòng)特征信息。

在實(shí)驗(yàn)過程中,為了驗(yàn)證本文提出的G-GRU網(wǎng)絡(luò)模型和其它LRCN模型的差別以及非線性最小二乘自適應(yīng)算法的性能,分為兩組實(shí)驗(yàn),每組均采用了3種較為流行的LRCN模型作為對(duì)照,訓(xùn)練時(shí)超參數(shù)的設(shè)置均相同,其中一組使用非線性最小二乘自適應(yīng)算法對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整。本文實(shí)驗(yàn)中設(shè)置p0=0.01,λ=0.999,r=0.95,ε=0.1。 實(shí)驗(yàn)結(jié)果如圖13所示。

圖13 不同模型準(zhǔn)確率

由圖13可以看出,在沒有使用非線性最小二乘自適應(yīng)算法時(shí),準(zhǔn)確率最高的是采用ResNet和LSTM的LRCN模型,這是因?yàn)镽esNet通過殘差傳遞,搭建了更深的網(wǎng)絡(luò)結(jié)構(gòu),能夠更好地提取深層次特征,并且LSTM網(wǎng)絡(luò)結(jié)構(gòu)相比于門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,能更好地處理時(shí)域上的關(guān)聯(lián)特征,但是由于網(wǎng)絡(luò)較為復(fù)雜,導(dǎo)致其收斂速度不是很理想,在迭代了近3500次后才達(dá)到最高準(zhǔn)確率。收斂速度最快的是AlexNet+GRU結(jié)構(gòu),在迭代2000次左右完成了收斂,但由于其網(wǎng)絡(luò)模型較為簡(jiǎn)單,導(dǎo)致預(yù)測(cè)的準(zhǔn)確率較低,實(shí)驗(yàn)結(jié)果如圖13(a)所示。

在使用了非線性最小二乘自適應(yīng)算法實(shí)時(shí)更新神經(jīng)網(wǎng)絡(luò)參數(shù)后,模型的準(zhǔn)確率都有了一定的提升,均能到達(dá)80%以上。由于在自適應(yīng)過程中對(duì)預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行了參數(shù)的調(diào)整,LSTM網(wǎng)絡(luò)參數(shù)較多,更新較慢,其收斂速度受到了一定影響,并且準(zhǔn)確率的提升也比較有限。但對(duì)于使用門控循環(huán)單元的網(wǎng)絡(luò)模型效果則比較顯著。其中本文提出的MTF-Gnet+GRU+NRLS-A網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率達(dá)到了最高的84.8%。驗(yàn)證了自適應(yīng)算法對(duì)于提高實(shí)時(shí)預(yù)測(cè)準(zhǔn)確性有一定的幫助。為了驗(yàn)證模型對(duì)哪些人體行為的識(shí)別,預(yù)測(cè)最為準(zhǔn)確,分別使用50個(gè)短視頻樣本的測(cè)試結(jié)果的混淆矩陣如圖14所示。

圖14 驗(yàn)證集混淆矩陣

可以看出,該模型在上肢外骨骼預(yù)測(cè)人體行為上有較高的正確率,其主要的預(yù)測(cè)錯(cuò)誤在于抬起和放下這兩個(gè)只有時(shí)間序列不同,空間特征幾乎相同的行為。

同時(shí)為了驗(yàn)證本文所使用預(yù)處理算法對(duì)模型的影響,在訓(xùn)練的同時(shí)使用未經(jīng)PCA降維處理的數(shù)據(jù)進(jìn)行對(duì)照實(shí)驗(yàn),僅僅歸一化了視頻幀的輸入大小,其它實(shí)驗(yàn)條件均相同。得到的準(zhǔn)確率與推理速度見表3。

表3 預(yù)處理實(shí)驗(yàn)結(jié)果

由表3可知,經(jīng)過PCA降維處理后,模型的推理速度提高了約10%,模型的準(zhǔn)確率卻沒有明顯的下降,這表明預(yù)處理算法有效保留率視頻幀的特征,濾出了部分其它的無關(guān)信息,同時(shí)壓縮了圖片大小,也驗(yàn)證使用本文提出的方法不需要使用視頻幀光流信息,加快了計(jì)算速度。

3 結(jié)束語

傳統(tǒng)的上肢外骨骼機(jī)器人利用力學(xué)傳感器或基于生理信息反饋人體行為意圖,具有時(shí)滯性,傳感器的數(shù)量也較多,且易穿戴者生理狀況影響較大,基于此,本文將視頻預(yù)測(cè)與上肢外骨骼控制人機(jī)交互問題一起考慮,提出一種多時(shí)間融合(MTF)模塊,并將其插入到inception模塊中。通過攝像頭捕捉第一人稱視頻后,經(jīng)過自行搭建的MTF-Gnet提取空間維度的圖像特征,之后將提取的特征送入端到端的門控循環(huán)單元分析圖像的時(shí)間序列關(guān)聯(lián)性,最后在推理時(shí)提出一種非線性最小二乘自適應(yīng)算法(NRLS-A),在實(shí)時(shí)預(yù)測(cè)時(shí)根據(jù)佩戴者的不同調(diào)整網(wǎng)絡(luò)參數(shù)。從而實(shí)現(xiàn)了提前預(yù)測(cè)人體上肢行為,為佩戴者提供實(shí)時(shí)助力,達(dá)到了預(yù)期實(shí)驗(yàn)結(jié)果。為上肢外骨骼及其它穿戴式人機(jī)交互領(lǐng)域提供控制依據(jù)。下一步的研究包括:

(1)將MTF模塊與其它網(wǎng)絡(luò)模型進(jìn)行組合。

(2)嘗試更多的MTF模塊插入位置與插入方式。

(3)綜合考慮人機(jī)交互時(shí)會(huì)受到影響的其它特征,以提高預(yù)測(cè)準(zhǔn)確性。

(4)在多場(chǎng)景、多行為動(dòng)作的情況下改進(jìn)模型。

猜你喜歡
網(wǎng)絡(luò)結(jié)構(gòu)卷積特征
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
如何表達(dá)“特征”
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
不忠誠(chéng)的四個(gè)特征
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
抓住特征巧觀察
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)維對(duì)于創(chuàng)新績(jī)效的作用機(jī)制——遠(yuǎn)程創(chuàng)新搜尋的中介作用
滬港通下A+ H股票網(wǎng)絡(luò)結(jié)構(gòu)演化的實(shí)證分析
復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu)比對(duì)算法研究進(jìn)展
梨树县| 内丘县| 紫云| 沧州市| 嘉祥县| 五家渠市| 闽清县| 正蓝旗| 平安县| 吉安市| 乌鲁木齐市| 玛多县| 逊克县| 临夏市| 阿拉善右旗| 阿克苏市| 襄垣县| 洪湖市| 临桂县| 宜川县| 安仁县| 额济纳旗| 鄂温| 曲靖市| 岑巩县| 伽师县| 铜川市| 威远县| 锡林郭勒盟| 中阳县| 定西市| 璧山县| 依安县| 崇左市| 响水县| 泸定县| 平山县| 乌海市| 大港区| 霸州市| 卓尼县|