馬六章,蔣 磊,吳 越,程子均
(中國(guó)礦業(yè)大學(xué)(北京) 機(jī)電與信息工程學(xué)院,北京 100083)
近年來,在上肢外骨骼機(jī)器人的算法研究中,如何使外骨骼機(jī)器人更加智能地預(yù)測(cè)人類的行為是研究的熱點(diǎn)問題。李瀟[1]利用動(dòng)力學(xué)分析模擬手臂搬運(yùn)物體時(shí)的關(guān)節(jié)受力情況,利用自抗擾控制算法設(shè)計(jì)了自抗擾控制器,實(shí)現(xiàn)了對(duì)外骨骼動(dòng)力關(guān)節(jié)的控制。
隨著深度學(xué)習(xí)以及計(jì)算機(jī)視覺技術(shù)的發(fā)展,上肢外骨骼機(jī)器人的人機(jī)交互預(yù)測(cè)有了新的發(fā)展方向。Christoph等[2]使用改進(jìn)雙流法(Two-Stream)來實(shí)現(xiàn)視頻動(dòng)作識(shí)別,設(shè)計(jì)了由時(shí)間網(wǎng)絡(luò)和空間網(wǎng)絡(luò)組成的Two-Stream卷積網(wǎng)絡(luò)結(jié)構(gòu),分別將RGB圖像和光流圖像送入兩支神經(jīng)網(wǎng)絡(luò)并融合,最終分類結(jié)果驗(yàn)證了在多幀密集光流上訓(xùn)練的卷積網(wǎng)絡(luò)[3],在有限的數(shù)據(jù)集上仍然能夠獲得好的性能,但其不能對(duì)長(zhǎng)時(shí)間的視頻進(jìn)行建模。Ker, J等[4]提出改進(jìn)的C3D(3-dimensional convolution)網(wǎng)絡(luò)結(jié)構(gòu),用三維的卷積核代替二維卷積核處理視頻,在UCF101數(shù)據(jù)集上的準(zhǔn)確率稍低于雙流法,但是由于其簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)使得該模型的收斂及推理速度大大提高。Thung G等[5]提出將單幀的圖像處理的特征放入RNN,利用RNN來完成時(shí)間上的建模,最后形成對(duì)一段視頻的描述的方法(LRCN)。
在以往的工作中,長(zhǎng)期的時(shí)間聚合通常是通過疊加大量的局部時(shí)間卷積來實(shí)現(xiàn)的。每次卷積處理一個(gè)局部時(shí)間窗口,本文提出的MTF模塊則將局部卷積變形為一組子卷積,形成層次化殘差結(jié)構(gòu)。在不引入附加參數(shù)的情況下,對(duì)特征進(jìn)行一系列的子卷積處理,每一幀可以完成多個(gè)鄰域的時(shí)間聚合,擴(kuò)大了在時(shí)間維的等效感受野,從而能夠在時(shí)間距離較遠(yuǎn)的幀上建立長(zhǎng)期的時(shí)間關(guān)系。最終將MTF模塊插入到GoogleNet網(wǎng)絡(luò)inception模塊中搭建成MTF-Gnet。此外,由于人體運(yùn)動(dòng)的不規(guī)則性,很難將所有的人體運(yùn)動(dòng)壓縮到一個(gè)模型中。其次,人類行為除了具有異質(zhì)性外,還具有高度的隨機(jī)性。不同的人,同一個(gè)人重復(fù)一個(gè)動(dòng)作,動(dòng)作模式也不同。為了解決這些問題。本文提出了一種非線性遞推最小二乘參數(shù)自適應(yīng)算法(NRLS-A)來實(shí)現(xiàn)在線自適應(yīng)。
以往的動(dòng)作識(shí)別方法通常采用局部時(shí)間卷積來一次處理鄰近幀,而對(duì)于距離較遠(yuǎn)的幀只能通過大量地堆疊局部卷積操作來進(jìn)行建模。Stanford[6]提出了Multi-resolution-CNN,把相聚L的兩幀圖像分別輸入到兩個(gè)卷積神經(jīng)網(wǎng)絡(luò)中去,然后在最后一層連接到同一個(gè)全連接的softmax層,在UCF-101數(shù)據(jù)集上,得到了較好的效果,但這樣卻損失了視頻幀的時(shí)序信息。在外骨骼對(duì)人體行為進(jìn)行預(yù)測(cè)時(shí),其時(shí)序上的聯(lián)系更加緊密,比如抬起重物和放下重物。為了解決這一問題,本文提出了多時(shí)間融合(MTF)將時(shí)空特征和對(duì)應(yīng)的局部卷積層劃分為一組子集,以實(shí)現(xiàn)有效的長(zhǎng)時(shí)間時(shí)態(tài)建模。
如圖1左側(cè)所示,給定一個(gè)輸入特征X,傳統(tǒng)的方法是對(duì)其進(jìn)行一次局部時(shí)間卷積再進(jìn)行一次空間卷積。與此不同的是,我們沿著通道維度將特征分割為4個(gè)片段,每個(gè)片段的形狀就變成了 [N,T,C/4,H,W]。 如圖1右側(cè)所示,局部卷積也被劃分為多個(gè)子卷積。最后3個(gè)片段依次用一個(gè)通道方向的時(shí)間1D子卷積層和另一個(gè)空間2D子卷積層進(jìn)行處理。每個(gè)都只有原來的1/4的參數(shù)。此外,在相鄰的兩個(gè)片段之間添加殘差連接,將模塊從并行結(jié)構(gòu)轉(zhuǎn)換為層次化級(jí)聯(lián)結(jié)構(gòu)
圖1 MTF模塊
(1)
(2)
(3)
(4)
所得到的輸出特征Xo即為包含了捕獲到的不同時(shí)間范圍的時(shí)空表示。優(yōu)于傳統(tǒng)方法中使用單一局部卷積得到的局部時(shí)間表示。
最后,本文將MTF模塊插入GoogLeNet中的inception模塊進(jìn)行視頻幀圖像的特征提取,GoogLeNet由Christian Szegedy提出,Zhong Z等[7]進(jìn)行了較大改進(jìn),使用了inception模塊拓寬網(wǎng)絡(luò)的橫向結(jié)構(gòu),以此來解決網(wǎng)絡(luò)過深而導(dǎo)致的計(jì)算量大、梯度消失等問題,inception模塊結(jié)構(gòu)如圖2(a)所示。
圖2 MTF模塊插入方式
原始inception模塊將5×5大卷積核分解成2個(gè)3×3小卷積核,以此帶來更大的感受野,能夠提取到不同尺度的特征。同時(shí)將稀疏矩陣分解成密集矩陣,提高了模型的收斂速度。最后將其用全連接層拼接起來,即完成了不同尺度特征的融合,同時(shí)由于每增加一層就要通過一次Relu函數(shù),增加了模型的非線性擴(kuò)展模型表達(dá)能力。
如圖2(b)所示,為了提高計(jì)算效率,在每個(gè)支路的第一個(gè)1x1卷積層之后,利用MTF模塊替換剩余路徑中原有的3×3 Conv層。此外,在經(jīng)過MTF模塊對(duì)每一個(gè)mini-batch 數(shù)據(jù)的內(nèi)部進(jìn)行批標(biāo)準(zhǔn)化處理(BN)[8]使此層的輸出規(guī)范到符合的正太分布,由此減少了內(nèi)部參數(shù)偏移,不僅可以大大加快模型的收斂速度,還可以起到正則化的作用。
由于經(jīng)MTF-Gnet網(wǎng)絡(luò)提取的特征信息要傳遞給門控循環(huán)網(wǎng)絡(luò)進(jìn)行時(shí)間維度上的預(yù)測(cè),本文去掉了最后的softmax層,而是將最后一層的輸出先進(jìn)行全局平均池化,接著通過一個(gè)輸出通道數(shù)為1000的1×1卷積,作為門控循環(huán)網(wǎng)絡(luò)的輸入。此外,為了避免過擬合的問題,本文采用了Dropout對(duì)網(wǎng)絡(luò)進(jìn)行了隨機(jī)失活處理。本文搭建的MTF-Gnet網(wǎng)絡(luò)結(jié)構(gòu)見表1。
表1 網(wǎng)絡(luò)模型結(jié)構(gòu)與輸入尺寸
門控循環(huán)網(wǎng)絡(luò)(GRU)改變了傳統(tǒng)循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)的隱藏層結(jié)構(gòu)[9],使網(wǎng)絡(luò)可以更好地捕捉深層連接,同時(shí)也改善了梯度消失問題。同時(shí)相對(duì)于LSTM記憶單元,門控循環(huán)網(wǎng)絡(luò)擁有更簡(jiǎn)單的結(jié)構(gòu)以及更少的參數(shù)。LSTM和門控循環(huán)網(wǎng)絡(luò)的結(jié)構(gòu)對(duì)比如圖3所示。
圖3 LSTM及門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)對(duì)比
門控循環(huán)網(wǎng)絡(luò)仍然使用了能夠更好處理時(shí)序信息的特殊“門”結(jié)構(gòu),但于LSTM不同的是[10],門控循環(huán)網(wǎng)絡(luò)將“遺忘門”和“輸入門”合成了一個(gè)單一的“重置門”,為神經(jīng)元的更新操作設(shè)置了一個(gè)“更新門”,同時(shí)將細(xì)胞狀態(tài)和隱藏狀態(tài)進(jìn)行了融合。從而建立了一個(gè)更簡(jiǎn)單,參數(shù)更少的結(jié)構(gòu)。其正向傳播過程如圖4所示。
圖4 門控循環(huán)網(wǎng)絡(luò)正向傳播過程
圖中各節(jié)點(diǎn)參數(shù)計(jì)算如下
z(t)=σ(W(z)x(t)+U(z)h(t-1)) 更新門
(5)
r(t)=σ(W(r)x(t)+U(r)h(t-1)) 重置門
(6)
(7)
(8)
門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)分為1層輸入層,2層隱藏層,1層預(yù)測(cè)輸出層。其中,輸入層為經(jīng)過MTF-Gnet網(wǎng)絡(luò)提取出的得分最高的10個(gè)特征,上一層的初始激活值設(shè)為全零,隱藏層的神經(jīng)元個(gè)數(shù)分別為32,64,32,其中在第二層進(jìn)行了BN處理。激活函數(shù)為tanh函數(shù)。輸出層為4個(gè)節(jié)點(diǎn),代表了此時(shí)人體的動(dòng)作(是否將要進(jìn)行抬起重物的行為)。其中tanh函數(shù)定義如下
(9)
在未引入Attention機(jī)制的門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)中,每個(gè)預(yù)測(cè)時(shí)刻的輸出是由某一段輸入序列共同決定的,每個(gè)輸入序列對(duì)下一時(shí)刻輸出序列影響權(quán)值在訓(xùn)練工程中已經(jīng)固定。而在實(shí)際情況中,對(duì)于某些人體動(dòng)作,其時(shí)間上的關(guān)聯(lián)程度往往不同。這就需要引入Attention機(jī)制對(duì)每個(gè)輸入序列對(duì)預(yù)測(cè)序列影響的權(quán)重值進(jìn)行調(diào)整(即門控循環(huán)單元更新門和隱藏門的參數(shù))。Attention機(jī)制最早是在視覺圖像領(lǐng)域提出,Lin L等[11]在RNN模型上使用了Attention機(jī)制來進(jìn)行圖像分類。Bahdanau等[12]使用類似Attention的機(jī)制在機(jī)器翻譯任務(wù)上將翻譯和對(duì)齊同時(shí)進(jìn)行,他們的工作算是第一個(gè)提出將Attention機(jī)制應(yīng)用到NLP領(lǐng)域中。接著類似的基于Attention機(jī)制的RNN模型擴(kuò)展開始應(yīng)用到各種NLP任務(wù)中。本文搭建的門控循環(huán)端到端網(wǎng)絡(luò)結(jié)構(gòu)如圖5所示。
圖5 門控循環(huán)端到端網(wǎng)絡(luò)模型
在編碼器端,過去n步的視頻幀特征向量按照時(shí)間順序依次送入門控循環(huán)單元,在第t步時(shí),編碼器除了接收來自Xt的數(shù)據(jù)信息,同時(shí)也接收了前一步編碼器單元的隱藏層信息。其相關(guān)程度用ht表示
(10)
即第t個(gè)時(shí)間向量序列與第j個(gè)輸出向量hj之間的相關(guān)程度,最后對(duì)其進(jìn)行加權(quán)求和就可以計(jì)算出注意力分配機(jī)制ct
(11)
在解碼器端,同樣采用門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu),輸入為上一時(shí)刻的輸出,st表示當(dāng)前時(shí)刻門控循環(huán)單元的狀態(tài),yt表示當(dāng)前解碼器的輸出值。其解碼過程如下
st=fd(yt-1,st-1,ct)
(12)
p(yt|y (13) 其中,st-1為上一個(gè)解碼器單元隱藏層狀態(tài),通過注意力機(jī)制ct連接編碼器與解碼器,從而求得解碼器當(dāng)前狀態(tài)st, 經(jīng)過線性映射輸出當(dāng)前預(yù)測(cè)值,其中g(shù)為ReLU激活函數(shù)。 在推理時(shí),由于不同穿戴者在進(jìn)行同一組動(dòng)作時(shí)有不同的行為模式[13],所以在進(jìn)行適應(yīng)性的實(shí)時(shí)預(yù)測(cè)時(shí),需要實(shí)時(shí)調(diào)整神經(jīng)網(wǎng)絡(luò)中的參數(shù)。通過攝像頭拍攝到的人體實(shí)時(shí)行為,經(jīng)過卷積網(wǎng)絡(luò)提取出當(dāng)前真實(shí)行為的深層特征,與門控循環(huán)網(wǎng)絡(luò)預(yù)測(cè)出來的行為特征進(jìn)行對(duì)比。這實(shí)則是一個(gè)非線性最小二乘(nonlinear least square,NLS)問題:給定一個(gè)數(shù)據(jù)集 {(xi,yi),i=0,1,…}, 目標(biāo)是優(yōu)化一個(gè)參數(shù)θt∈Rn, 使得下式最小 (14) 其中 ei=yi-f(θt-xi) (15) 為了有效地實(shí)時(shí)解決NLS問題,Moriyama等[14]提出一種通過最小化估計(jì)狀態(tài)誤差的2階范數(shù)的擴(kuò)展卡爾曼濾波(EKF)算法,在EKF中,被估計(jì)的對(duì)象是狀態(tài)值,在本文提出的非線性最小二乘自適應(yīng)算法中,被估計(jì)的對(duì)象是網(wǎng)絡(luò)參數(shù),且可用于網(wǎng)絡(luò)的每一層。算法的具體流程如下: 算法1:非線性最小二乘自適應(yīng)算法 輸入:初始化參數(shù)θ0; 輸出:調(diào)整后參數(shù)θN: (1)初始化超參數(shù)p0>0;λ>0;r>0;ε>0; P0=p0I; (2)根據(jù)目前參數(shù)θt計(jì)算當(dāng)前預(yù)測(cè)值 (3)根據(jù)穿戴者實(shí)際行動(dòng)得到真實(shí)值Yt (4)計(jì)算關(guān)于θ的偏導(dǎo)數(shù) (5)計(jì)算更新權(quán)重參數(shù) (6)更新超參數(shù) (7)更新一次待估計(jì)參數(shù) (8)如果誤差小于預(yù)期值或達(dá)到迭代次數(shù),結(jié)束,否則進(jìn)入第(2)步。 其中,λ是遺忘因子,r與誤差ei的協(xié)方差有關(guān),K是增益矩陣,θt是未知參數(shù)θ的估計(jì)值,在本文的實(shí)驗(yàn)中,θ對(duì)應(yīng)于編碼器隱藏層的權(quán)重參數(shù)。 本文將特征提取和行為預(yù)測(cè)的目標(biāo)函數(shù)合并成一個(gè)多任務(wù)模型。使用以下?lián)p失函數(shù)以端到端方式訓(xùn)練模型 l=γlclassification+(1-γ)lregression (16) lclassification是用于特征提取的交叉熵?fù)p失函數(shù)。lregression是行為預(yù)測(cè)的回歸損失函數(shù)。最終損失函數(shù)是這兩個(gè)損失函數(shù)的加權(quán)平均值,其中權(quán)重由γ控制。在本文的實(shí)驗(yàn)中,γ取值為0.5。 本文所采用實(shí)驗(yàn)數(shù)據(jù)集為配置與上肢外骨骼機(jī)器人上的攝像頭采集的人體日常行為視頻數(shù)據(jù)集,由6名測(cè)試人員(4男2女,年齡在23到35歲之間)佩戴著實(shí)驗(yàn)裝置在實(shí)驗(yàn)室、宿舍、操場(chǎng)等5個(gè)不同場(chǎng)景分別進(jìn)行了物體的搬運(yùn)、抬起、放下、正常活動(dòng)時(shí)的視頻采集。本文所使用的GoPro攝像頭所拍攝的視頻為每秒60幀,視頻格式為mp4。攝像頭的安裝位置如圖6所示。 經(jīng)過測(cè)試,每隔3幀提取一張視頻幀,即每秒提取20張視頻幀。由于日常生活中的抬起、抓取、搬運(yùn)等動(dòng)作通常在發(fā)生在3 s~5 s左右,因此每個(gè)動(dòng)作共提取100張左右的圖片作為視頻幀序列。去除掉異常的數(shù)據(jù)之后得到了1800個(gè)訓(xùn)練樣本,共計(jì)4個(gè)類別,平均每個(gè)樣本包含5個(gè)連續(xù)的視頻幀數(shù)據(jù)。同時(shí)每個(gè)類別設(shè)置了50個(gè)短視頻作為測(cè)試樣本。其中具有代表性的視頻序列如圖7所示。 圖6 攝像頭佩戴位置 圖7 部分視頻幀序列 為了壓縮圖片大小,加快模型的收斂速度,同時(shí)由于攝像頭所拍攝的場(chǎng)景較為豐富,為了更好地提取目標(biāo)物體的特征,在進(jìn)行訓(xùn)練之前,本文將樣本圖片進(jìn)行了主成分分析算法(principal component analysis,PCA)降維壓縮處理[15]。具體的處理過程如下: 對(duì)所有樣本進(jìn)行去中心化,如式(17),將數(shù)據(jù)集的每個(gè)樣本的不同特征減去所有樣本對(duì)應(yīng)特征的均值,處理過的不同特征上的數(shù)據(jù)均值為0。這樣處理的好處是可以減少特征之間的差異性,可以使得不同的特征具有相同的尺度,讓不同特征對(duì)參數(shù)的影響程度保持一致 (17) X*=X-U (18) 計(jì)算樣本圖片的協(xié)方差矩陣,其中每列代表一個(gè)特征,每行代表一個(gè)樣本,將樣本矩陣的每個(gè)樣本減去對(duì)應(yīng)列的均值,然后通過下式得到協(xié)方差矩陣 (19) 對(duì)協(xié)方差矩陣進(jìn)行特征值分解,得到特征值和特征向量,取出最大的K個(gè)特征值對(duì)應(yīng)的特征向量,組成投影矩陣W;對(duì)樣本集中的每一個(gè)樣本,都乘以投影矩陣W進(jìn)行轉(zhuǎn)化,得到降維后的數(shù)據(jù) X′=X*W (20) 圖8(a)為經(jīng)過opencv提取后的視頻幀圖像,圖8(b)為經(jīng)過PCA降維壓縮后的圖像,可以看出在經(jīng)過PCA處理后,目標(biāo)物體的特征更加突然,較好排除了周圍環(huán)境所帶來的影響。同時(shí),每一幀圖像的大小也得到了壓縮,提高了后續(xù)算法的收斂速度。 本文所搭建的模型主要分為3個(gè)模塊,即卷積網(wǎng)絡(luò)特征提取模塊、門控循環(huán)網(wǎng)絡(luò)序列預(yù)測(cè)模塊,以及非線性最小二乘參數(shù)調(diào)整模塊。模型的總體流程如圖9所示。 在訓(xùn)練時(shí),將經(jīng)過預(yù)處理的視頻幀按照時(shí)間順序的序列送入卷積神經(jīng)網(wǎng)絡(luò)特征提取模塊,通過插入MTF模塊的卷積網(wǎng)絡(luò)提取每一幀的時(shí)空運(yùn)動(dòng)特征。之后將提取后的特征按順序送入門控循環(huán)端到端序列預(yù)測(cè)模塊,通過引入注意力機(jī)制的端到端模型對(duì)下一時(shí)刻穿戴者的運(yùn)動(dòng)軌跡及運(yùn)動(dòng)意圖做出預(yù)測(cè)。訓(xùn)練過程的流程如圖10所示。 圖10 網(wǎng)絡(luò)訓(xùn)練過程 其中的超參數(shù)設(shè)定為:學(xué)習(xí)率a設(shè)為0.001,衰減系數(shù)decay設(shè)為0.9,Dropout系數(shù)設(shè)為0.5最大迭代次數(shù)為4000,每500次保存一次當(dāng)前模型,最終選擇最優(yōu)模型進(jìn)行預(yù)測(cè)。模型訓(xùn)練時(shí)以Batch為單位進(jìn)行,Batch Size設(shè)置為64。 在推理時(shí),由于不同佩戴者行為模式的不同,根據(jù)實(shí)際運(yùn)動(dòng)情況通過非線性最小二乘自適應(yīng)算法對(duì)門控循環(huán)網(wǎng)絡(luò)編碼器隱藏層參數(shù)進(jìn)行實(shí)時(shí)調(diào)整。推理流程圖如圖11所示。 圖11 網(wǎng)絡(luò)推理過程 本文實(shí)驗(yàn)軟件平臺(tái)為用Linux Ubuntu 18.04 LTS系統(tǒng),python 3.7.3,TensorFlow 1.13.0,CUDA 10.0,CUDNN 7.4。硬件設(shè)備為Tesla-V10-PCRE-16G以及Jetson TX2。本文實(shí)驗(yàn)均在Tesla服務(wù)器上進(jìn)行訓(xùn)練并部署在jetson TX2上進(jìn)行推理。TX2其硬件配置為6核CPU架構(gòu),256核Pascal架構(gòu)的GPU核心,內(nèi)存為8 GB。 本文模型基于inception-V3網(wǎng)絡(luò)結(jié)構(gòu),其模型大小約為93 MB,通過分解卷積以及批標(biāo)準(zhǔn)化處理使得模型參數(shù)大量減少,最終的參數(shù)量在20 million左右。模型在Tesla機(jī)器上的推理速度可以達(dá)到65 fps。在嵌入式設(shè)備TX2上其推理速度可以在保證精度的情況下達(dá)到48 fps,在應(yīng)用到上肢外骨骼時(shí)可以滿足實(shí)驗(yàn)需求。 為了驗(yàn)證本文提出的模型與當(dāng)前主流視頻行為識(shí)別模型的差異,在自建數(shù)據(jù)集上做了以下對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表2。 表2 不同模型實(shí)驗(yàn)結(jié)果 由實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),使用3D卷積核的C3D和I3D模型由于其網(wǎng)絡(luò)結(jié)構(gòu)簡(jiǎn)單[16],其推理速度有較大的提升,但準(zhǔn)確率有所下降。而使用了視頻幀的光流信息的Two-Stream和TSN準(zhǔn)確率和推理速度都不高[17],這是因?yàn)楸疚脑跀?shù)據(jù)預(yù)處理時(shí)使用PCA降維使得視頻幀失去了大部分的光流信息,并且對(duì)光流信息和RGB信息分開處理耗費(fèi)了大量時(shí)間。在取消PCA處理后,Two-Sream和TSN的準(zhǔn)確率分別達(dá)到了83.6%和85.3%,但其推理速度并沒有提高。 在對(duì)MTF模塊進(jìn)行插入時(shí),本文驗(yàn)證了兩種插入方式如圖12所示,第一種為在1×1卷積后,BN之前插入MTF模塊,第二種為在1×1卷積之前。 實(shí)驗(yàn)得到的結(jié)果為使用第一種插入方式準(zhǔn)確率達(dá)到最高的84.9%,使用第二種方式達(dá)到的最高準(zhǔn)確率為84.5%。 圖12 不同的MTF插入方式 推測(cè)是因?yàn)?×1的卷積將多個(gè)維度的特征圖譜進(jìn)行了線性組合,這種跨通道的信息整合可能會(huì)破壞時(shí)空運(yùn)動(dòng)特征信息。 在實(shí)驗(yàn)過程中,為了驗(yàn)證本文提出的G-GRU網(wǎng)絡(luò)模型和其它LRCN模型的差別以及非線性最小二乘自適應(yīng)算法的性能,分為兩組實(shí)驗(yàn),每組均采用了3種較為流行的LRCN模型作為對(duì)照,訓(xùn)練時(shí)超參數(shù)的設(shè)置均相同,其中一組使用非線性最小二乘自適應(yīng)算法對(duì)網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)參數(shù)調(diào)整。本文實(shí)驗(yàn)中設(shè)置p0=0.01,λ=0.999,r=0.95,ε=0.1。 實(shí)驗(yàn)結(jié)果如圖13所示。 圖13 不同模型準(zhǔn)確率 由圖13可以看出,在沒有使用非線性最小二乘自適應(yīng)算法時(shí),準(zhǔn)確率最高的是采用ResNet和LSTM的LRCN模型,這是因?yàn)镽esNet通過殘差傳遞,搭建了更深的網(wǎng)絡(luò)結(jié)構(gòu),能夠更好地提取深層次特征,并且LSTM網(wǎng)絡(luò)結(jié)構(gòu)相比于門控循環(huán)網(wǎng)絡(luò)結(jié)構(gòu)更加復(fù)雜,能更好地處理時(shí)域上的關(guān)聯(lián)特征,但是由于網(wǎng)絡(luò)較為復(fù)雜,導(dǎo)致其收斂速度不是很理想,在迭代了近3500次后才達(dá)到最高準(zhǔn)確率。收斂速度最快的是AlexNet+GRU結(jié)構(gòu),在迭代2000次左右完成了收斂,但由于其網(wǎng)絡(luò)模型較為簡(jiǎn)單,導(dǎo)致預(yù)測(cè)的準(zhǔn)確率較低,實(shí)驗(yàn)結(jié)果如圖13(a)所示。 在使用了非線性最小二乘自適應(yīng)算法實(shí)時(shí)更新神經(jīng)網(wǎng)絡(luò)參數(shù)后,模型的準(zhǔn)確率都有了一定的提升,均能到達(dá)80%以上。由于在自適應(yīng)過程中對(duì)預(yù)測(cè)網(wǎng)絡(luò)進(jìn)行了參數(shù)的調(diào)整,LSTM網(wǎng)絡(luò)參數(shù)較多,更新較慢,其收斂速度受到了一定影響,并且準(zhǔn)確率的提升也比較有限。但對(duì)于使用門控循環(huán)單元的網(wǎng)絡(luò)模型效果則比較顯著。其中本文提出的MTF-Gnet+GRU+NRLS-A網(wǎng)絡(luò)結(jié)構(gòu)的準(zhǔn)確率達(dá)到了最高的84.8%。驗(yàn)證了自適應(yīng)算法對(duì)于提高實(shí)時(shí)預(yù)測(cè)準(zhǔn)確性有一定的幫助。為了驗(yàn)證模型對(duì)哪些人體行為的識(shí)別,預(yù)測(cè)最為準(zhǔn)確,分別使用50個(gè)短視頻樣本的測(cè)試結(jié)果的混淆矩陣如圖14所示。 圖14 驗(yàn)證集混淆矩陣 可以看出,該模型在上肢外骨骼預(yù)測(cè)人體行為上有較高的正確率,其主要的預(yù)測(cè)錯(cuò)誤在于抬起和放下這兩個(gè)只有時(shí)間序列不同,空間特征幾乎相同的行為。 同時(shí)為了驗(yàn)證本文所使用預(yù)處理算法對(duì)模型的影響,在訓(xùn)練的同時(shí)使用未經(jīng)PCA降維處理的數(shù)據(jù)進(jìn)行對(duì)照實(shí)驗(yàn),僅僅歸一化了視頻幀的輸入大小,其它實(shí)驗(yàn)條件均相同。得到的準(zhǔn)確率與推理速度見表3。 表3 預(yù)處理實(shí)驗(yàn)結(jié)果 由表3可知,經(jīng)過PCA降維處理后,模型的推理速度提高了約10%,模型的準(zhǔn)確率卻沒有明顯的下降,這表明預(yù)處理算法有效保留率視頻幀的特征,濾出了部分其它的無關(guān)信息,同時(shí)壓縮了圖片大小,也驗(yàn)證使用本文提出的方法不需要使用視頻幀光流信息,加快了計(jì)算速度。 傳統(tǒng)的上肢外骨骼機(jī)器人利用力學(xué)傳感器或基于生理信息反饋人體行為意圖,具有時(shí)滯性,傳感器的數(shù)量也較多,且易穿戴者生理狀況影響較大,基于此,本文將視頻預(yù)測(cè)與上肢外骨骼控制人機(jī)交互問題一起考慮,提出一種多時(shí)間融合(MTF)模塊,并將其插入到inception模塊中。通過攝像頭捕捉第一人稱視頻后,經(jīng)過自行搭建的MTF-Gnet提取空間維度的圖像特征,之后將提取的特征送入端到端的門控循環(huán)單元分析圖像的時(shí)間序列關(guān)聯(lián)性,最后在推理時(shí)提出一種非線性最小二乘自適應(yīng)算法(NRLS-A),在實(shí)時(shí)預(yù)測(cè)時(shí)根據(jù)佩戴者的不同調(diào)整網(wǎng)絡(luò)參數(shù)。從而實(shí)現(xiàn)了提前預(yù)測(cè)人體上肢行為,為佩戴者提供實(shí)時(shí)助力,達(dá)到了預(yù)期實(shí)驗(yàn)結(jié)果。為上肢外骨骼及其它穿戴式人機(jī)交互領(lǐng)域提供控制依據(jù)。下一步的研究包括: (1)將MTF模塊與其它網(wǎng)絡(luò)模型進(jìn)行組合。 (2)嘗試更多的MTF模塊插入位置與插入方式。 (3)綜合考慮人機(jī)交互時(shí)會(huì)受到影響的其它特征,以提高預(yù)測(cè)準(zhǔn)確性。 (4)在多場(chǎng)景、多行為動(dòng)作的情況下改進(jìn)模型。1.3 NRLS-A算法
2 實(shí) 驗(yàn)
2.1 數(shù)據(jù)采集
2.2 數(shù)據(jù)預(yù)處理
2.3 網(wǎng)絡(luò)搭建及訓(xùn)練過程
2.4 實(shí)驗(yàn)結(jié)果
3 結(jié)束語