国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨時空自適應(yīng)圖卷積網(wǎng)絡(luò)的肢體情緒識別*

2023-11-20 07:14:12彭亞斯張非凡
傳感器與微系統(tǒng) 2023年11期
關(guān)鍵詞:肢體卷積維度

彭亞斯,張非凡,孫 曉

(1.安徽醫(yī)科大學(xué)生物醫(yī)學(xué)工程學(xué)院,安徽 合肥 230012;2.合肥綜合性國家科學(xué)中心人工智能研究院,安徽 合肥 230088)

0 引 言

當前的情緒識別方法主要基于人的面部表情、語音和文本等方面[1~4],但對于肢體動作的關(guān)注相對較少。在人們的日常生活場景中,面部表情、語音等情緒表達載體容易受到遮擋、光照、環(huán)境噪聲等因素影響。相比之下,人體的肢體動作具有立體性、尺度較大且不易隱藏的特點[5]。為了更好地識別肢體情緒,需要對復(fù)雜的肢體動作進行建模,并考慮如何挖掘這些動作所表達的情緒。以前的肢體情緒識別研究中,多數(shù)采用手工特征的方法進行分類[6~8],或者使用長短期記憶(long short-term memory,LSTM)網(wǎng)絡(luò)來建模數(shù)據(jù)中的時間依賴性[9],又或者將肢體動作特征作為多模態(tài)數(shù)據(jù)的一種模態(tài)[10~13]。然而,這些研究在空間維度、時間維度沒有充分利用人體的上下文結(jié)構(gòu)信息,從而無法充分挖掘不同肢體動作背后所表達的情緒。圖卷積網(wǎng)絡(luò)(graph convolutional network,GCN)在處理圖數(shù)據(jù)方面有著快速的發(fā)展和廣泛的應(yīng)用。由于人體的骨架天生具有圖結(jié)構(gòu)的特點,因此利用GCN來處理人體的肢體動作信息具有明顯的優(yōu)勢。

為了能夠充分挖掘不同肢體動作所表達的情緒,本文使用自適應(yīng)學(xué)習(xí)方法和跨時空信息聚合的時空圖卷積網(wǎng)絡(luò)(spatial temporal graph convolutional network,ST-GCN)學(xué)習(xí)不同肢體行為所表達的情感。

1 圖卷積

1.1 骨骼圖的構(gòu)建

本文首先使用開源工具OpenPose 提取出視頻中每一幀的骨架數(shù)據(jù),一幀中的原始骨架數(shù)據(jù)以向量序列的形式提供,每個向量表示相應(yīng)人體關(guān)節(jié)的二維坐標以及置信度。一個完整的情感動作包含多個不同長度的幀。使用一個時空圖來建模這些關(guān)節(jié)之間的結(jié)構(gòu)化信息與時間信息,沿著空間和時間維度,圖的構(gòu)建遵循ST-GCN[14]的工作。圖1為構(gòu)建的時空骨架圖的示例,其中關(guān)節(jié)點表示為頂點,它們在人體中的自然連接表示為空間邊(圖1實線)。在時間維度上,相鄰兩幀之間的對應(yīng)節(jié)點用時間邊連接(圖1虛線),將每個關(guān)節(jié)的坐標向量設(shè)置為對應(yīng)頂點的屬性。

圖1 時空圖

1.2 圖卷積的定義

對于上述定義的圖,與傳統(tǒng)的卷積網(wǎng)絡(luò)一樣,在圖上應(yīng)用多層時空圖卷積運算來提取高層特征。然后使用全局平均池化層和SoftMax分類器根據(jù)提取的特征預(yù)測情緒類別。

在空間維度上,節(jié)點vi的圖卷積公式定義如下[14]

式中f為特征映射,v為圖的節(jié)點,Bi為節(jié)點vi卷積的采樣面積。Bi被定義為目標節(jié)點vi的1 跳鄰居節(jié)點集合。W類似于卷積操作中的加權(quán)函數(shù),它基于給定的輸入提供了一個權(quán)重向量。其中,Zi為節(jié)點vi的鄰居節(jié)點數(shù)量,用于平衡節(jié)點vi每一個鄰居節(jié)點vj對輸出的貢獻。

1.3 時空圖卷積的實現(xiàn)

網(wǎng)絡(luò)的實際輸入X為T×N×C的向量,其中,T為時間序列長度,N為節(jié)點個數(shù),C為通道數(shù)量。為了實現(xiàn)空間維度的圖卷積,式(1)被轉(zhuǎn)化為

式中為t時刻第l層的輸入的特征向量,A為N×N的鄰接矩陣,D為鄰接矩陣的度矩陣,σ為激活函數(shù)。W為Cin×Cout×1的權(quán)重向量。

鄰接矩陣的作用主要用于提取樣本的空間特征。鄰接矩陣A的構(gòu)建規(guī)則如下

式中d(vi,vj)為節(jié)點vi與vj的最短路徑。

對于時間維度的卷積,由于每個頂點的鄰居數(shù)固定為2(2個連續(xù)幀中的對應(yīng)關(guān)節(jié)),因此使用類似經(jīng)典卷積操作的時間圖卷積是很簡單的。具體來說,對上面計算的輸出特征圖在時間維度上進行Kt×1 卷積,其中Kt為時間維度的卷積核大小。

2 跨時空自適應(yīng)圖卷積模型

2.1 跨時空自適應(yīng)圖卷積層

為了使得模型能夠?qū)χw行為的特征進行建模的同時也能夠兼顧上下文信息,本文設(shè)計了跨時空自適應(yīng)圖卷積(cross spatio temporal adaptive graph convolutional network,CST-AGCN)模塊。圖2 為CST-AGCN 層的結(jié)構(gòu),主要由AGCN層與CST信息交互層組成。下面分別介紹AGCN層與CST信息交互層。

圖2 CST-AGCN層

2.1.1 AGCN層

在空間維度上,式(2)所述骨架數(shù)據(jù)的空間圖卷積是基于固定地圖結(jié)構(gòu)進行特征提取,用固定的拓撲結(jié)構(gòu)描述多樣性的情感樣本并不是一個最佳的選擇。為了解決這個問題,本文使用AGCN 的方法。它以端到端的學(xué)習(xí)方式使得圖的拓撲結(jié)構(gòu)與網(wǎng)絡(luò)的其他參數(shù)一起優(yōu)化。該圖對于不同的層和樣本是唯一的,這增加了模型的靈活性。AGCN 的公式如下

A矩陣和式(2)中一樣,它表示了天然的人體結(jié)構(gòu),Bl矩陣也是一個N×N的鄰接矩陣。與A相反,Bl矩陣的元素與訓(xùn)練過程中的其他參數(shù)一起被參數(shù)化和優(yōu)化。對Bl的值沒有約束,這意味著該鄰接矩陣所代表的圖結(jié)構(gòu)是完全根據(jù)訓(xùn)練數(shù)據(jù)學(xué)習(xí)的。通過這種數(shù)據(jù)驅(qū)動方式,模型可以學(xué)習(xí)完全針對情感識別任務(wù)的圖結(jié)構(gòu),并針對不同層中包含的不同信息更加個性化。Cl矩陣是一個數(shù)據(jù)相關(guān)圖,它學(xué)習(xí)每個樣本的唯一圖結(jié)構(gòu)。本文認為不同的情感樣本的應(yīng)該具有不同特性。模型應(yīng)該能夠?qū)W習(xí)到不同情感樣本的個性圖結(jié)構(gòu)。

2.1.2 CST信息交互層

情感的表達是一個連續(xù)的過程,為了能夠獲取更多的上下文信息,本文在輸入圖序列上設(shè)置大小為τ的滑動時間窗口,滑動窗口的每次滑動都獲得一個時空子圖G(τ)=(Vτ,Eτ)。子圖G(τ)包含了τ幀關(guān)節(jié)點信息,可以構(gòu)建相應(yīng)的鄰接矩陣Aτ。Aτ的構(gòu)建規(guī)則如式(5)所示

通過構(gòu)建這樣的鄰接矩陣,節(jié)點的空間連通性將被推廣到時域。子圖Gτ內(nèi)的每個節(jié)點在相鄰的所有τ幀上都與其自身以及1跳空間鄰居緊密相連??梢院苋菀椎孬@得Xτ∈RT×τN×C,同時得到第t個時間窗口的圖卷積

圖3 所示為τ設(shè)置為3 時,可以看出這種CST 策略帶來的好處是節(jié)點信息的流動就從小范圍的當前幀推廣到整個時間鄰域。

圖3 CST信息交互可視化

2.2 CST-AGCN模塊

圖4 展示了CST-AGCN 模塊的結(jié)構(gòu),由CST-AGCN 層Convs,時間卷積層Convt,BN(batch normalization)層與ReLU層組成。其中時間卷積層Convt與ST-GCN[14]的相同,即對C×T×N的特征向量在時間維度上進行Kt×1 的卷積。殘差連接Res用于穩(wěn)定模型的訓(xùn)練。

圖4 CST-AGCN模塊

2.3 CST-AGCN結(jié)構(gòu)

圖5 為CST-AGCN 的結(jié)構(gòu)。CST-AGCN 的輸入為長度為T的圖序列,網(wǎng)絡(luò)結(jié)構(gòu)由多個CST-AGCN 基礎(chǔ)模塊堆砌而成,每個塊的輸出通道數(shù)為64,64,128,256。在開始時添加BN層以規(guī)范化輸入數(shù)據(jù),經(jīng)過多個CST-AGCN模塊之后提取樣本的深度特征。最后進行全局平均池化層(GMP),將不同樣本的特征圖平均池化到相同大小。最終輸出被送到SoftMax分類器以獲得預(yù)測結(jié)果。

圖5 CST-AGCN結(jié)構(gòu)

3 實 驗

3.1 數(shù)據(jù)集

本文使用的是公開數(shù)據(jù)集Heroes[12]。該數(shù)據(jù)集由16位非專業(yè)演員表達了4 種情緒(快樂、興趣、厭惡和無聊)的視頻組成。對于每個演員,數(shù)據(jù)集選擇了4 個視頻來代表每種情緒,總共包含256 個視頻片段。這些視頻通過使用GoPro相機在2種不同場景下記錄全身肢體動作來獲取。

3.2 評價指標與損失函數(shù)

在實驗中,本文使用準確率(accuracy,Acc)與F1 作為評價指標。準確的定義為

式中 TP為測試中的真正例數(shù),F(xiàn)P為假正例數(shù),TN為真反例數(shù),F(xiàn)N為假反例數(shù)。

記常用的交叉熵損失函數(shù)為

使用的損失函數(shù)為文獻[15]提出的標簽平滑損失函數(shù)

經(jīng)過標簽平滑后的損失使用一對損失:H(q,p),H(u,p)代替原始損失H(q,p),使用相對權(quán)重ξ/(1 -ξ)懲罰預(yù)測的標簽p分布與先驗分布u的偏差,u為均勻分布。

3.3 消融實驗

本文對模型中各個模塊進行消融實驗。其中,de/X 代表刪除X 模塊。A,B,C為CST-AGCN 中所使用的矩陣,unfold代表CST信息交互層。τ為CST 信息交互層中時間窗口的長度。

實驗結(jié)果為表1 前4 行,實驗結(jié)果表明,本文所設(shè)計的CST自適應(yīng)學(xué)習(xí)模塊有助于情緒識別,不管是刪除自適應(yīng)卷積層還是CST信息交互層都會損壞其性能,而將2 個層拼接在一起,模型獲得了最佳的識別性能(表1黑體),其中能夠代表身體結(jié)構(gòu)的圖矩陣A對模型的性能影響最大,刪除A矩陣模型的準確率直接下降了約18%。本文認為這或許是因為人體自身的物理結(jié)構(gòu)信息屬于先驗知識,先驗知識的缺失會導(dǎo)致模型在模型訓(xùn)練的初始階段陷入局部最優(yōu),從而導(dǎo)致模型的最終結(jié)果變差。

為了探究上下文信息對肢體情緒識別準確率的影響,本文設(shè)置了不同長度的時間窗口,以探究不同時間窗口長度對模型準確率的影響。實驗結(jié)果為表1 后3 行,本文認為更大的時間窗口應(yīng)該會有更好的識別效果,為此將時間窗口大小分別設(shè)為3、5、7,但是實驗結(jié)果表明,更大的時間窗口并沒有帶來更好的效果。模型的準確率下降了約6%,這可能是因為更大的時間窗口會導(dǎo)致局部時空鄰域過大,聚合的特征變得過于通用,從而抵消了較大時間覆蓋的好處。

3.4 是否引入高級情感特征

受之前研究工作的啟發(fā)[7~9,16,17],認為高級情感特征有利于提升模型的識別準確率。因此,本文嘗試在模型中引入速度、加速度、重心等高級情感特征,希望以此提升模型的準確率,為此做了相關(guān)實驗。實驗結(jié)果如表2 所示,其中,Js-AGST代表只使用CST-AGCN 模型提取的深度特征。Fs-AGST代表只使用高級情感特征,2s-AGST 代表將CSTAGCN提取到的深度特征與高級情感特征融合。

表2 情感特征消融實驗結(jié)果

實驗結(jié)果表明,在引入高級情感特征之后,模型并沒有帶來更高的準確率,反而對模型的準確率起到了惡化的效果。本文認為這是因為直接引入這些高級情感特征之后會導(dǎo)致模型過度依賴這些情感特征,從而導(dǎo)致模型對提取的深度動作特征的關(guān)注度減少。后續(xù)的工作可以研究如何減少對高級情感特征的依賴,從而使得模型能夠充分利用所提取的高級情感特征。

3.5 實驗結(jié)果比較

將最終的模型在Heroes上的結(jié)果與近年來主流的模型ST-GCN[14]、2s-AGCN[18]、MS-G3D[19]作比較。結(jié)果如表3 所示??梢钥闯?,本文的使用模型的Acc高于主流算法的最佳約12%,F(xiàn)1約高于13%,充分證明本文所提出的模型的優(yōu)勢。

表3 不同方法的實驗結(jié)果

3.6 個性化矩陣C的可視化

本文認為AGCN層中的C矩陣是一個個性化矩陣。具體來說,本文認為不同的情感樣本應(yīng)該使用不同的圖結(jié)構(gòu)進行信息的聚合。為此,本文對模型中第一層的4種情緒表達的C矩陣進行了可視化。如圖6 所示。其中顏色越深(黑色)代表值越小。

可以看出,不同的情緒的個性化矩陣C的差別很大,模型能夠根據(jù)不用的情感樣本選擇合適的個性化矩陣進行信息的聚合。

4 結(jié)束語

本文提出了CST-AGCN 用于肢體情緒識別,旨在充分利用肢體情緒預(yù)測過程中身體結(jié)構(gòu)信息與上下文信息。模型在公開數(shù)據(jù)集Heroes上取得了優(yōu)異的性能,實驗結(jié)果表明:CST-AGCN能提高模型的時空感知范圍,根據(jù)識別任務(wù)自適應(yīng)的調(diào)整圖結(jié)構(gòu)。然而,研究發(fā)現(xiàn)直接引入高級情感特征會導(dǎo)致模型過度依賴這些情感特征,從而導(dǎo)致模型對提取的深度動作特征的關(guān)注度減少。后續(xù)的工作可以研究如何減少對高級情感特征的依賴,從而使得模型能夠充分利用所提取的高級情感特征。

猜你喜歡
肢體卷積維度
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
肢體語言
基于傅里葉域卷積表示的目標跟蹤算法
肢體寫作漫談
天津詩人(2017年2期)2017-11-29 01:24:34
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個維度”解有機化學(xué)推斷題
VSD在創(chuàng)傷后肢體軟組織缺損中的應(yīng)用
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識別方法
佳木斯市| 临泽县| 噶尔县| 陈巴尔虎旗| 九江县| 道真| 安丘市| 昌江| 拜城县| 三门峡市| 富蕴县| 望都县| 绩溪县| 襄樊市| 鹤峰县| 商丘市| 东莞市| 綦江县| 都昌县| 盘锦市| 呼玛县| 新巴尔虎左旗| 富阳市| 兰西县| 寻甸| 宝丰县| 津南区| 秭归县| 隆子县| 石狮市| 白玉县| 平泉县| 全南县| 吴旗县| 房产| 上犹县| 蕉岭县| 上林县| 溆浦县| 苍南县| 油尖旺区|