云南大學(xué)
作為一種重要的自然人機(jī)交互手段,人體動(dòng)作識(shí)別因其廣泛應(yīng)用前景和重要理論意義,受到越來越多研究者的關(guān)注。從應(yīng)用領(lǐng)域看,人體動(dòng)作識(shí)別在計(jì)算機(jī)體感游戲、虛擬現(xiàn)實(shí)、機(jī)器人控制等方面有廣闊的應(yīng)用前景,然而單個(gè)傳感器捕捉到的數(shù)據(jù)存在一定局限性,難以解決識(shí)別出現(xiàn)的各種問題。因此,云南大學(xué)項(xiàng)目團(tuán)隊(duì)圍繞多加速度傳感器、多視覺傳感器及多源異構(gòu)傳感器的人體動(dòng)作識(shí)別開展深入研究,取得創(chuàng)新性成果如下:
1)該研究構(gòu)建了多加速度傳感器特征一體化張量表達(dá)模型;結(jié)合長(zhǎng)短期記憶網(wǎng)絡(luò)對(duì)時(shí)間序列信號(hào)建模的優(yōu)勢(shì),通過增加主成分卷積網(wǎng)絡(luò)結(jié)構(gòu)降低了噪聲的影響。同時(shí),采用多路加速度信號(hào)的集成學(xué)習(xí)結(jié)構(gòu)有助于進(jìn)一步改善動(dòng)作識(shí)別。
2)該研究揭示了在協(xié)方差估計(jì)矩陣中引入的正則化技術(shù)可以有效解決高斯密度模型中參數(shù)的估計(jì);其次通過構(gòu)建面向復(fù)雜背景的顯著性檢測(cè)模型和張量排序保留判別分析模型,解決了視覺中常見的光線、遮擋、背景等因素影響下的目標(biāo)特征表達(dá)問題。
3)該研究構(gòu)建了一種融合了柯西估計(jì)的算子來抑制傳感器間噪聲不平衡的問題;同時(shí)考慮到多源傳感器信號(hào)的復(fù)雜性以及應(yīng)用實(shí)時(shí)性,將相關(guān)分析級(jí)聯(lián)網(wǎng)絡(luò)模型作為一種多視角深度學(xué)習(xí)網(wǎng)絡(luò)來解決多源異構(gòu)傳感器數(shù)據(jù)融合問題。
研究團(tuán)隊(duì)圍繞多傳感器下的人體動(dòng)作識(shí)別三大科學(xué)難題,構(gòu)建了不同傳感器架構(gòu)下動(dòng)作識(shí)別解決方案。相關(guān)研究成果不僅在學(xué)術(shù)影響層面產(chǎn)生了廣泛的影響,同時(shí)也產(chǎn)生了實(shí)際應(yīng)用價(jià)值,例如項(xiàng)目團(tuán)隊(duì)通過與深圳市優(yōu)必選科技股份有限公司合作,將人體動(dòng)作識(shí)別技術(shù)應(yīng)用于Alpha系列教育機(jī)器人、Cruzr系列服務(wù)機(jī)器人以及安巡視和安防士巡檢機(jī)器人,解決了該公司機(jī)器人研發(fā)和制造過程中人機(jī)交互的核心問題。項(xiàng)目總體研究框圖如圖1所示,具體科學(xué)發(fā)現(xiàn)如下:
圖1 研究框圖
在對(duì)加速度信號(hào)進(jìn)行特征提取時(shí),采用時(shí)域和頻域的方法,分析加速度傳感器三個(gè)軸向一段時(shí)間內(nèi)輸出的加速度信號(hào)。值得注意的是傳感器并非固定佩戴在人體的某幾個(gè)位置,因而獲取信號(hào)方向會(huì)隨著受測(cè)者動(dòng)作幅度而改變,使得這兩類方法都存在一個(gè)共同的缺陷,時(shí)域或頻域的變化信息無法直接反映人體運(yùn)動(dòng)情況,使得動(dòng)作識(shí)別精度不高。針對(duì)上述問題,通過研究加速度信號(hào)特征提取和特征表達(dá)的特點(diǎn),發(fā)現(xiàn)了多源加速度傳感器特征在高維空間具有一致性的規(guī)律,構(gòu)建了基于多源加速度傳感器的張量框架(Tensor Manifold Discriminant Projections,TMDP),其框架如圖2所示。此外,盡管長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-term Memory,LSTM)可以直接對(duì)加速度時(shí)間序列信號(hào)進(jìn)行建模,但在小樣本的情況下,噪聲的影響會(huì)使得信號(hào)識(shí)別精度大幅度降低。因此,提出基于主成分分析的2維長(zhǎng)短期記憶網(wǎng)絡(luò)(Principal Component 2D Long Short-term Memory,PC-2DLSTM)和多列雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Multicolumn BLSTM,MBLSTM)來解決小樣本學(xué)習(xí)問題。
圖2 基于TMDP的人體動(dòng)作識(shí)別框架
在基于視覺的人體動(dòng)作識(shí)別實(shí)際應(yīng)用場(chǎng)景中,存在跨攝像頭或者組間攝像頭的問題?,F(xiàn)有的典型度量學(xué)習(xí)算法已經(jīng)在大多數(shù)情況下獲得較好性能,但當(dāng)樣本不足或視角條件變化很大時(shí),這些方法識(shí)別效果不佳。主要原因是高斯分布存在估計(jì)偏差,過高估計(jì)協(xié)方差矩陣中大的特征值,將導(dǎo)致估計(jì)的度量矩陣偏差較大,從而使得度量學(xué)習(xí)模型的精度不夠。為了解決以上問題,提出了對(duì)偶正則化的KISS度量學(xué)習(xí)模型(Dual-Regularized KISS Metric Learning,DRKISS)。此外,作為一種典型的圖像特征學(xué)習(xí)方法,子空間學(xué)習(xí)方法希望找到某種更有優(yōu)勢(shì)新的低維特征子空間。然而,在對(duì)圖像特征處理時(shí),一般先需要向量化特征,再利用子空間學(xué)習(xí)方法來對(duì)特征進(jìn)行選擇,這不僅會(huì)破壞特征的空間結(jié)構(gòu),使得方法性能下降,還會(huì)使得維數(shù)災(zāi)難問題更嚴(yán)重。針對(duì)以上問題,提出了張量排序保留判別分析模型(Tensor Rank Preserving Discriminant Analysis, TRPDA)。
在圖像識(shí)別的過程中,圖像顯著性檢測(cè)也是一個(gè)至關(guān)重要的預(yù)處理步驟, 但由于顯著性對(duì)象本身的多樣性以及背景的復(fù)雜性,會(huì)產(chǎn)生大量與動(dòng)作判別無關(guān)的圖像區(qū)域。為此,提出流形排序矩陣分解顯著性檢測(cè)模型(MR-based matrix factorization,MRMF)。MRMF通過融合圖像中的區(qū)域特征和局部空間的關(guān)聯(lián)信息,實(shí)現(xiàn)了更好的顯著性檢測(cè)性能。
由于單模態(tài)傳感器難以提取全面的人體動(dòng)作信息,采用了多源異構(gòu)傳感器可以通過融合的方式,讓時(shí)間和空間特征在線索建模過程中相互補(bǔ)充。然而,基于多源傳感器的人體動(dòng)作采集一直受到噪聲問題的困擾,以往的方法沒有考慮到噪聲對(duì)不同傳感器影響程度不同,無法發(fā)揮異構(gòu)傳感器組的優(yōu)勢(shì)?;谏鲜隹紤],提出了多視角柯西估計(jì)特征嵌入(Multi-view Cauchy Estimator Feature Embedding,MCEFE)的特征融合方法,其框架如圖3所示。
圖3 多視圖柯西估計(jì)特征嵌入流程
近年來,很多研究人員采用深度學(xué)習(xí)方法實(shí)現(xiàn)了單模態(tài)傳感器下人體動(dòng)作識(shí)別。而基于多源異構(gòu)傳感器的人體動(dòng)作識(shí)別本質(zhì)屬于多視角學(xué)習(xí),典型相關(guān)分析技術(shù)可以建模同一目標(biāo)不同視角的相關(guān)信息,該信息可以反映目標(biāo)內(nèi)在的公共屬性,有利于挖掘目標(biāo)的本質(zhì)特征表示。為結(jié)合典型相關(guān)分析和深度學(xué)習(xí)的優(yōu)勢(shì),提出了典型相關(guān)性級(jí)聯(lián)網(wǎng)絡(luò)(Canonical correlation analysis networks, CCANet),其網(wǎng)絡(luò)結(jié)構(gòu)如圖4所示。CCANet給出了典型相關(guān)分析的一般深度網(wǎng)絡(luò)實(shí)現(xiàn)方法。該方法具備如下優(yōu)點(diǎn):1)相比較于單視角方法,典型相關(guān)分析具有更好的魯棒性;2)相比較于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,典型相關(guān)分析級(jí)聯(lián)模型具有更明確的物理可解釋性;3)網(wǎng)絡(luò)可擴(kuò)展性強(qiáng)。
圖4 CCANet網(wǎng)絡(luò)結(jié)構(gòu)示意圖