賀楚景,劉欽穎,王子磊,*
1.中國科學(xué)技術(shù)大學(xué)大數(shù)據(jù)學(xué)院,合肥 230027;2.中國科學(xué)技術(shù)大學(xué)自動(dòng)化系,合肥 230027
隨著電子拍攝設(shè)備的普及,產(chǎn)生了海量的視頻數(shù)據(jù),絕大部分包含以人為主體的動(dòng)作。這些視頻已經(jīng)廣泛應(yīng)用于智能機(jī)器人、安防監(jiān)控和自動(dòng)駕駛等多個(gè)領(lǐng)域(羅會蘭 等,2019)。如何對海量視頻中的內(nèi)容進(jìn)行理解和分析成為熱點(diǎn)課題。視頻動(dòng)作檢測是其中的一項(xiàng)關(guān)鍵技術(shù),是指給定一段視頻,需要檢測出視頻中所有人員的空間位置,并確定其對應(yīng)的動(dòng)作類別,在現(xiàn)實(shí)場景下具有極大的應(yīng)用價(jià)值與研究意義。
針對視頻動(dòng)作檢測,大部分研究工作分兩步進(jìn)行。首先對動(dòng)作執(zhí)行者進(jìn)行幀級的目標(biāo)檢測,獲取關(guān)鍵幀中一系列檢測框的位置坐標(biāo)和動(dòng)作性分?jǐn)?shù);然后使用I3D(inflated 3d convnet)(Carreira 和Zisserman,2017)等3 維卷積神經(jīng)網(wǎng)絡(luò)處理以關(guān)鍵幀為中心的視頻片段,提取全局的時(shí)空表征,再基于檢測框?qū)?yīng)的區(qū)域特征進(jìn)行動(dòng)作分類。上述流程中,針對圖像的目標(biāo)檢測已經(jīng)非常成熟,可以達(dá)到理想的性能,因此該任務(wù)的主要難點(diǎn)在于動(dòng)作識別部分。時(shí)序信息對于動(dòng)作的識別起著至關(guān)重要的作用,為了充分地利用時(shí)序信息以及更好地提取視頻表征,SlowFast(Feichtenhofer 等,2019)是一種新型的骨干網(wǎng)絡(luò),對視頻的空間維度和時(shí)間維度分別進(jìn)行處理,即以兩種不同的幀率運(yùn)行的單流體系結(jié)構(gòu)。其中,具有低幀率、低時(shí)間分辨率的 Slow pathway 用于捕捉空間語義,而高幀率、高時(shí)間分辨率的 Fast pathway 能夠以精細(xì)的時(shí)間分辨率捕捉運(yùn)動(dòng)信息,該網(wǎng)絡(luò)顯著提高了一般場景下視頻動(dòng)作檢測的性能。
然而,在實(shí)際應(yīng)用中,由于很多動(dòng)作類別具有交互性質(zhì),即參與動(dòng)作的主體不只有動(dòng)作執(zhí)行者,還包括周圍環(huán)境上下文,所以僅根據(jù)動(dòng)作執(zhí)行者本身的區(qū)域特征進(jìn)行動(dòng)作推斷是不準(zhǔn)確的。最近很多方法致力于對動(dòng)作執(zhí)行者(actor)與其周圍上下文(context)之間的交互作用進(jìn)行建模,例如場景、其他人和物體等。ACRN(actor-centric relation network)(Sun等,2018)是以動(dòng)作執(zhí)行者為中心的關(guān)系網(wǎng)絡(luò),從全局場景中生成成對關(guān)系特征。VAT(video action transformer network)(Girdhar 等,2019)將Transformer網(wǎng)絡(luò)(Vaswani 等,2017)引入到視頻動(dòng)作檢測任務(wù)上,通過注意力機(jī)制(attention mechanism)關(guān)注與動(dòng)作執(zhí)行者相關(guān)的周圍時(shí)空上下文。為了利用時(shí)序上的全局信息,LFB(long-term feature banks)(Wu 等,2019)建立長期特征庫為模型提供長期時(shí)間支持,以計(jì)算動(dòng)作執(zhí)行者之間的遠(yuǎn)程交互。AIA(asynchronous interaction aggregation network)(Tang 等,2020)構(gòu)造了一種異步交互聚合網(wǎng)絡(luò),試圖聚合多個(gè)類型的交互作用,利用不同類型交互塊之間的深度嵌套來增強(qiáng)目標(biāo)特征。ACAR-Net(actor-context-actor relation network)(Pan等,2021)提出捕捉間接的高階支持信息,從而有效地推理人物在復(fù)雜場景中的行為。這些方法的基本研究思路都是圍繞動(dòng)作執(zhí)行者對潛在的交互關(guān)系進(jìn)行建模,沒有針對性地處理空間交互和時(shí)間交互,忽略了空間維度和時(shí)間維度的異質(zhì)性。具體來說,空間交互往往體現(xiàn)在肢體動(dòng)作的互動(dòng)上,強(qiáng)調(diào)交互對象之間的空間相對位置關(guān)系;而時(shí)間交互注重的是短期時(shí)間內(nèi)同一個(gè)動(dòng)作的連續(xù)性,以及長期時(shí)間內(nèi)不同動(dòng)作的關(guān)聯(lián)性。因此,本文對動(dòng)作執(zhí)行者之間的空間交互、短期時(shí)間交互和長期時(shí)間交互分別建模。
此外,在現(xiàn)實(shí)場景中,一個(gè)動(dòng)作執(zhí)行者可能同時(shí)執(zhí)行多種類別的動(dòng)作。針對多標(biāo)簽分類問題,現(xiàn)有模型通常使用二元交叉熵(binary cross entropy loss,BCELoss)組合作為損失函數(shù),操作簡單且效果較好,獲得了廣泛應(yīng)用。但是這種實(shí)現(xiàn)方式意味著直接將多標(biāo)簽分類問題視作多個(gè)類上的二分類問題,最終預(yù)測時(shí)各個(gè)類別是獨(dú)立進(jìn)行的,沒有考慮動(dòng)作類之間的內(nèi)在關(guān)聯(lián)。對本文的數(shù)據(jù)集AVA v2.1(atomic visual actions version 2.1)(Gu 等,2018)而言,有些動(dòng)作對的共現(xiàn)概率非常高,例如hug和kiss、stand 和watch a person 等,說明對應(yīng)的動(dòng)作類之間可能存在較強(qiáng)的語義相關(guān)性。反之,有些動(dòng)作對的共現(xiàn)概率非常低,例如hand shake和kick、swim 和drink等,則對應(yīng)動(dòng)作類別之間的相關(guān)性也較低。基于這種現(xiàn)象,本文認(rèn)為考慮不同動(dòng)作類之間的依賴關(guān)系可以對多標(biāo)簽分類起到一定的輔助作用。
為了解決上述問題,本文提出了一種同時(shí)考慮交互關(guān)系和類別依賴的視頻動(dòng)作檢測方法,對動(dòng)作執(zhí)行者之間的交互作用以及動(dòng)作類別之間的語義相關(guān)性進(jìn)行建模。本文方法的大致流程如下:首先提取動(dòng)作執(zhí)行者對應(yīng)的區(qū)域特征;然后短期交互模塊使用兩層圖注意力網(wǎng)絡(luò)(graph attention network,GAT)(Velickovic 等,2018)分別對空間交互和短期時(shí)間交互進(jìn)行建模,獲取局部上下文信息;同時(shí)在長期交互模塊中引入長期特征庫(long-term feature banks,LFB)(Wu 等,2019),與短期特征進(jìn)行融合,提取與之相關(guān)的全局上下文信息;最后設(shè)計(jì)類別關(guān)系模塊(class relationship module,CRM),計(jì)算不同動(dòng)作類之間的語義相關(guān)性對原始的類別特征進(jìn)行加權(quán),得到增強(qiáng)后的各個(gè)類表征,并提出一種雙階段分?jǐn)?shù)融合(two-stage score fusion,TSSF)策略更新最終的概率得分。本文的主要貢獻(xiàn)如下:1)針對性地對動(dòng)作執(zhí)行者之間的空間交互、短期時(shí)間交互和長期時(shí)間交互進(jìn)行建模,以增強(qiáng)目標(biāo)特征的表達(dá)能力,提升交互類動(dòng)作的識別效果,既考慮了空間維度和時(shí)間維度的異質(zhì)性,又兼顧了時(shí)序上的局部信息和全局信息;2)對于多標(biāo)簽問題,設(shè)計(jì)類別關(guān)系模塊挖掘不同動(dòng)作類之間的依賴關(guān)系,并利用這種關(guān)系對原始類別表征進(jìn)行融合,使得學(xué)習(xí)到的表征具有更強(qiáng)的魯棒性和區(qū)分度,進(jìn)一步提高了多標(biāo)簽分類的準(zhǔn)確性;3)在數(shù)據(jù)集AVA v2.1 上實(shí)驗(yàn)評估了本文方法,定量和定性分析說明了本文方法的先進(jìn)性,消融實(shí)驗(yàn)驗(yàn)證了各個(gè)模塊的有效性。
關(guān)系推理在視頻理解領(lǐng)域扮演著十分重要的角色,因?yàn)樵谝恍?fù)雜場景中,要想精確地識別一個(gè)動(dòng)作執(zhí)行者的行為往往需要考慮其與其他對象之間的關(guān)系。Sun 等人(2018)提出以動(dòng)作執(zhí)行者為中心的關(guān)系網(wǎng)絡(luò)ACRN(actor-centric relation network),模型從動(dòng)作執(zhí)行者和全局場景特征中聚合成對關(guān)系信息,生成用于動(dòng)作分類的關(guān)系特征。Wu等人(2019)提出LFB(long-term feature banks)為視頻模型提供長達(dá) 60 s 的時(shí)間支持,用于計(jì)算動(dòng)作執(zhí)行者之間的遠(yuǎn)程交互,可以獲得很大的性能增益。Girdhar 等人(2019)重 新 利 用Transformer 網(wǎng) 絡(luò)(Vaswani 等,2017),通過使用高分辨率的、特定于人的與類無關(guān)的查詢,模型可以自動(dòng)地學(xué)習(xí)每兩個(gè)動(dòng)作執(zhí)行者之間的成對關(guān)系,并從他人的動(dòng)作中提取出相關(guān)的語義上下文信息。AIA(asynchronous interaction aggregation network)(Tang 等,2020)通過多個(gè)類型的交互模塊串行堆疊,將在前一個(gè)交互模塊中得到增強(qiáng)的目標(biāo)特征傳遞給后續(xù)模塊,旨在對不同類型的交互作用進(jìn)行融合,而不只是關(guān)注單一類型的交互。上述方法都是對動(dòng)作執(zhí)行者(actor)與周圍上下文(context)之間直接的低階交互關(guān)系進(jìn)行建模,Pan等人(2021)提出顯式建模間接的高階交互關(guān)系,從而有效地推理人物在復(fù)雜場景中的行為,特別是在兩個(gè)actor 并非直接進(jìn)行交互,而是通過context 作為媒介產(chǎn)生關(guān)聯(lián)的情況下。王東祺和趙旭(2022)構(gòu)建了一個(gè)簡潔有效的時(shí)序關(guān)聯(lián)模塊,借助門控循環(huán)單元建立了當(dāng)前時(shí)刻與過去未來時(shí)刻的全局時(shí)序關(guān)聯(lián)。
注意力機(jī)制(attention mechanism)最初起源于對人類的視覺研究,為了合理利用有限的視覺處理資源,人類會選擇性地關(guān)注一部分信息,同時(shí)忽略其他可見信息。Transformer(Vaswani 等,2017)將注意力機(jī)制引入到機(jī)器翻譯任務(wù)中,緩解了源序列與目標(biāo)序列的長距離依賴問題。該模型是由一些堆疊的自注意 力 層(self-attention layer)和 全 連 接 層(fullyconnected layer)組成的,自注意力模塊通過關(guān)注所有位置并在嵌入空間中取它們的加權(quán)平均值來計(jì)算一個(gè)序列中某個(gè)位置的響應(yīng)。Wang等人(2018)提出了Nonlocal模塊,將注意力機(jī)制拓展為更通用的形式,使其能夠在計(jì)算機(jī)視覺的諸多任務(wù)上應(yīng)用。Non-local操作將某個(gè)位置的響應(yīng)計(jì)算為輸入特征映射中所有位置的加權(quán)和,以捕獲長距離的依賴關(guān)系。這里的位置集合可以是空間、時(shí)間或時(shí)空,意味著該操作普遍適用于圖像、序列和視頻問題。LFB(long-term feature banks)(Wu等,2019)也使用Non-local作為運(yùn)算符,提取長期特征庫內(nèi)與當(dāng)前動(dòng)作相關(guān)的全局時(shí)序上下文信息。
圖注意力網(wǎng)絡(luò)(graph attention network,GAT)(Velickovic 等,2018)常用于關(guān)系推理任務(wù)中,核心思想是在圖算法中引入注意力機(jī)制,計(jì)算當(dāng)前節(jié)點(diǎn)與鄰居節(jié)點(diǎn)之間的權(quán)重系數(shù),使得圖網(wǎng)絡(luò)能夠更加關(guān)注重要的節(jié)點(diǎn)。算法流程如下:對于輸入的所有節(jié)點(diǎn),網(wǎng)絡(luò)訓(xùn)練生成一個(gè)共享的權(quán)重矩陣,得到每個(gè)鄰居節(jié)點(diǎn)的權(quán)重,然后對鄰居節(jié)點(diǎn)的特征進(jìn)行加權(quán)求和得到輸出特征。它的頭結(jié)構(gòu)如圖1 所示,其中,鄰接矩陣A是一個(gè)二值矩陣,Aij代表節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的鄰接關(guān)系,若鄰接則為1,不鄰接則為0,通常鄰接矩陣是預(yù)先定義好的,在后續(xù)特征更新時(shí)只需要考慮相鄰的節(jié)點(diǎn);相關(guān)性矩陣E是對節(jié)點(diǎn)兩兩之間計(jì)算互相關(guān)系數(shù)得到的,Eij代表節(jié)點(diǎn)j對節(jié)點(diǎn)i的重要性;而權(quán)重矩陣W由鄰接矩陣A和相關(guān)性矩陣E進(jìn)行點(diǎn)乘后,再通過softmax 函數(shù)歸一化得到,Wij代表節(jié)點(diǎn)i和節(jié)點(diǎn)j之間的權(quán)重系數(shù)。
圖1 圖注意力網(wǎng)絡(luò)頭結(jié)構(gòu)Fig.1 Structure of graph attention heads
本文的主要思想是通過建模動(dòng)作執(zhí)行者之間的交互作用來增強(qiáng)目標(biāo)特征,提高交互類動(dòng)作的識別性能,同時(shí)利用動(dòng)作類別之間的依賴關(guān)系來增強(qiáng)類別表征,在一定程度上解決多標(biāo)簽分類問題。整體框架由3 部分組成,分別是特征提取部分、長短期交互部分和分類器部分,如圖2 所示。其中,特征提取部分包括預(yù)訓(xùn)練好的人物檢測器和骨干網(wǎng)絡(luò),長短期交互部分包括短期交互模塊(short-term interaction module,STIM)和長期交互模塊(long-term interaction module,LTIM),分類器部分設(shè)計(jì)類別關(guān)系模塊(class relationship module,CRM)并采用雙階段分?jǐn)?shù)融合(two-stage score fusion,TSSF)策略。本文算法的具體步驟如下:
圖2 本文模型整體架構(gòu)Fig.2 Overall architecture of the proposed model
1)在視頻關(guān)鍵幀上使用微調(diào)過的Faster R-CNN(region based convolutional neural network)網(wǎng)絡(luò)(Ren等,2017)對動(dòng)作執(zhí)行者進(jìn)行目標(biāo)檢測,得到一系列檢測框的位置坐標(biāo)以及動(dòng)作性分?jǐn)?shù),再利用預(yù)訓(xùn)練好的SlowFast 骨干網(wǎng)絡(luò)處理以關(guān)鍵幀為中心的視頻片段,提取出檢測框?qū)?yīng)的區(qū)域特征;
2)STIM 模塊采用兩層圖注意力網(wǎng)絡(luò)GAT,針對性地處理空間交互和短期內(nèi)的時(shí)間交互,LTIM 模塊引入長期特征庫LFB 為模型提供長期時(shí)間支持,計(jì)算動(dòng)作執(zhí)行者之間的遠(yuǎn)程交互,通過這兩個(gè)模塊對動(dòng)作執(zhí)行者本身的區(qū)域特征進(jìn)行增強(qiáng),提高目標(biāo)特征的表達(dá)能力;
3)設(shè)計(jì)CRM 模塊抽取每個(gè)動(dòng)作類的表征,并通過自注意力機(jī)制計(jì)算它們之間的語義相關(guān)性對原始表征進(jìn)行加權(quán),得到增強(qiáng)后的各個(gè)類表征,最后根據(jù)不同模塊的互補(bǔ)特性,將第1 階段的預(yù)測分?jǐn)?shù)和新分?jǐn)?shù)融合,更新每一類的概率得分。
首先,本文采用在AVA v2.1數(shù)據(jù)集上微調(diào)過的Faster R-CNN 網(wǎng)絡(luò)作為人物檢測器,對視頻關(guān)鍵幀中出現(xiàn)的所有動(dòng)作執(zhí)行者進(jìn)行目標(biāo)檢測,得到一系列檢測框的位置坐標(biāo)以及動(dòng)作性分?jǐn)?shù),該檢測器在AVA v2.1 驗(yàn)證集上的mAP@IoU 0.5(mean average precision@intersection over union 0.5)可 以 達(dá) 到93.9%。然后,使用預(yù)訓(xùn)練好的SlowFast 骨干網(wǎng)絡(luò)作為特征提取器,選取動(dòng)作性分?jǐn)?shù)大于閾值(這里為0.8)的檢測框進(jìn)行RoIAlign(region of interest align)(He等,2017),并執(zhí)行最大值池化操作,得到2 304維的特征向量。最后,將所有檢測框的位置坐標(biāo)歸一化到[0,1]區(qū)間,編碼后加入對應(yīng)的原始特征向量中,生成動(dòng)作執(zhí)行者的實(shí)例級表征,用于后續(xù)的動(dòng)作分類過程。
2.2.1 短期交互模塊STIM
STIM 模塊旨在建模短期時(shí)間內(nèi)動(dòng)作執(zhí)行者兩兩之間的交互關(guān)系。考慮到不同的動(dòng)作執(zhí)行者在同一時(shí)刻執(zhí)行的動(dòng)作具有交互性,而同一個(gè)動(dòng)作執(zhí)行者在一段短期時(shí)間內(nèi)所執(zhí)行的動(dòng)作具有連續(xù)性,且空間交互和時(shí)間交互本質(zhì)上是不同的,本文對空間維度和時(shí)間維度上的交互作用分別進(jìn)行建模。如圖3所示,STIM模塊采用解耦機(jī)制,通過兩層圖注意力網(wǎng)絡(luò)針對性地處理空間交互作用和時(shí)間交互作用,同時(shí)也降低了網(wǎng)絡(luò)的學(xué)習(xí)難度。
圖3 時(shí)空解耦機(jī)制Fig.3 Spatial-temporal decoupling mechanism
圖注意力網(wǎng)絡(luò)GAT 的頭結(jié)構(gòu)如圖1 所示。顯然,可以通過改變鄰接矩陣A的值來調(diào)整兩兩節(jié)點(diǎn)之間的鄰接關(guān)系。例如,對于節(jié)點(diǎn)i,若節(jié)點(diǎn)j與之相鄰,則Aij的值為1,否則為0?;谏鲜龇治?,在考慮空間維度上的交互作用時(shí),需要將同一幀內(nèi)不同動(dòng)作執(zhí)行者的節(jié)點(diǎn)兩兩鄰接,此時(shí)鄰接矩陣的分布如圖4(a)所示。此外,為了引入不同動(dòng)作執(zhí)行者的空間相對位置關(guān)系,本文首先計(jì)算兩兩之間的歐氏距離,并用softmax 函數(shù)歸一化處理,形成一個(gè)和鄰接矩陣A形狀相同的距離矩陣,最后將其與A進(jìn)行點(diǎn)乘,作為新的鄰接矩陣。
圖4 鄰接矩陣分布示例Fig.4 Examples of adjacency matrix distribution((a)spatial adjacency matrix;(b)temporal adjacency matrix)
類似地,在考慮時(shí)間維度上的交互作用時(shí),由于同一個(gè)動(dòng)作執(zhí)行者在一段短期時(shí)間內(nèi)所執(zhí)行的動(dòng)作具有連續(xù)性,所以模型將同一個(gè)動(dòng)作執(zhí)行者在不同時(shí)間步的節(jié)點(diǎn)兩兩鄰接,此時(shí)鄰接矩陣的分布如圖4(b)所示,其中表示第t幀的第k個(gè)動(dòng)作執(zhí)行者節(jié)點(diǎn)。本文使用Singh 等人(2017)提出的貪心算法對同一個(gè)動(dòng)作執(zhí)行者的檢測框進(jìn)行跟蹤,采取的貪心策略是匹配時(shí)選擇下一幀中與當(dāng)前框交并比(intersection over union,IoU)最大的檢測框,且IoU要大于預(yù)設(shè)閾值(通常為0.5)。
GAT 的特征更新規(guī)則具體為:對于輸入節(jié)點(diǎn)i,假設(shè)它的特征向量為hi,鄰接節(jié)點(diǎn)集合為Ni,則經(jīng)過GAT之后的節(jié)點(diǎn)特征更新為
式中,σ是線性整流函數(shù)ReLU(rectified linear unit),wb是一個(gè)可學(xué)的向量。
2.2.2 長期交互模塊LTIM
LTIM 模塊旨在提供時(shí)序上的長期支持信息,從而幫助模型更好地理解持續(xù)時(shí)間長且內(nèi)容復(fù)雜的視頻,更準(zhǔn)確地推斷動(dòng)作執(zhí)行者在當(dāng)前時(shí)刻的行為狀態(tài)。如圖5 所示,對于目標(biāo)幀t中發(fā)生的 listen(e.g.,to music)動(dòng)作,如果只考慮短期內(nèi)時(shí)序上與t相鄰的前后幾幀,將無法確切地得出動(dòng)作執(zhí)行者正在listen(e.g.,to music)這個(gè)結(jié)論。然而,當(dāng)接收到更長時(shí)間范圍的信息之后,模型可以自動(dòng)地捕捉與目標(biāo)幀中動(dòng)作相關(guān)的時(shí)空上下文,大幅提高了模型的置信度。
圖5 長期特征庫的構(gòu)建Fig.5 Construction of long-term feature banks
本文在LTIM 模塊的設(shè)計(jì)上遵循LFB(long-term feature banks)(Wu 等,2019)的思想,使用滑動(dòng)窗口靈活地構(gòu)建包含歷史和未來時(shí)刻的長期特征庫,緩解了由于GPU(graphics processing unit)內(nèi)存限制導(dǎo)致視頻輸入太短的問題。假設(shè)當(dāng)前時(shí)刻為t,則第t幀的特征矩陣可表示為Lt∈RNt×d,包含當(dāng)前幀內(nèi)共Nt個(gè)動(dòng)作執(zhí)行者的特征向量,每個(gè)特征向量的維數(shù)為d。那么第t幀的長期特征庫可表示為=[Lt-w,…,Lt+w],即以當(dāng)前幀t為中心,前后各取w幀的特征矩陣組成,則有∈RN×d,其中代表2w+ 1 長度的特征庫內(nèi)所有動(dòng)作執(zhí)行者的數(shù)量。
LTIM 模塊的算法流程如圖6(a)所示。將第t幀內(nèi)目標(biāo)經(jīng)過STIM 模塊增強(qiáng)后的特征記做St,再將目標(biāo)特征St和對應(yīng)的長期特征庫通過算子(operator)進(jìn)行作用,提取出與之相關(guān)的全局時(shí)序上下文信息。這里采用的算子是改造后的non-local 模塊,具體操作為:首先對St和進(jìn)行線性變換降至d維,將St作為query,作為key-value 對,在嵌入空間中使用內(nèi)積計(jì)算它們之間的語義相關(guān)性。然后對計(jì)算結(jié)果進(jìn)行尺度縮放(除以)并通過softmax 函數(shù)歸一化,尺度縮放的目的在于減小點(diǎn)積值的數(shù)量級,避免后續(xù)的softmax 函數(shù)發(fā)生梯度消失問題。接著將歸一化之后的系數(shù)作為權(quán)重,對value 加權(quán)求和,再利用LayerNorm 函數(shù)使得每個(gè)樣本內(nèi)的分布一致,最后提取出時(shí)序上的全局信息并更新下一層的輸入特征。本文使用了2層non-local的疊加結(jié)構(gòu)(NL),即
圖6 LTIM模塊結(jié)構(gòu)Fig.6 Structure of LTIM module ((a)flow chart of long-term interaction module;(b)composition of non-local block)
2.3.1 類別關(guān)系模塊CRM
針對多標(biāo)簽分類問題,現(xiàn)有方法普遍采用二元交叉熵(binary cross entropy loss,BCELoss)組合作為模型的代價(jià)函數(shù),操作簡單且效果較好,因而獲得了廣泛的應(yīng)用。但是這種實(shí)現(xiàn)方式意味著將多標(biāo)簽分類問題視做多個(gè)類上的二分類問題,最終預(yù)測時(shí)各個(gè)類別是獨(dú)立進(jìn)行的,忽略了類別之間的內(nèi)在依賴關(guān)系。因此,本文在AVA v2.1訓(xùn)練集上對樣本的標(biāo)簽共現(xiàn)信息進(jìn)行了統(tǒng)計(jì),這里的統(tǒng)計(jì)指標(biāo)為在動(dòng)作i發(fā)生的條件下動(dòng)作j發(fā)生的概率p(j|i)。結(jié)果如圖7所示,其中顏色越亮的位置表示對應(yīng)動(dòng)作對的共現(xiàn)概率越高,橫縱坐標(biāo)軸為該數(shù)據(jù)集的所有動(dòng)作類別,此處用數(shù)字編號的形式表示。
圖7 訓(xùn)練樣本的標(biāo)簽共現(xiàn)信息Fig.7 Label co-occurrence information of training samples
特別地,本文定義了3 種動(dòng)作類之間的依賴關(guān)系。1)p(j|i) ≈1,說明給定動(dòng)作j和條件動(dòng)作i極有可能同時(shí)發(fā)生,它們之間存在先決條件關(guān)系;2)p(j|i) ≈0,說明給定動(dòng)作j和條件動(dòng)作i極不可能同時(shí)發(fā)生,它們之間存在排除關(guān)系;3)p(j|i) ∈(0,1),說明給定動(dòng)作j和條件動(dòng)作i有一定的概率同時(shí)發(fā)生,它們之間存在重疊關(guān)系。
CRM 模塊的目的是使網(wǎng)絡(luò)自動(dòng)地學(xué)習(xí)動(dòng)作執(zhí)行者在同一時(shí)刻不同動(dòng)作類之間的語義相關(guān)性,自適應(yīng)地增強(qiáng)各個(gè)動(dòng)作類的表征,從而提升多標(biāo)簽分類的性能。尤其是對正樣本數(shù)量比較少的動(dòng)作類而言,網(wǎng)絡(luò)可能很難學(xué)習(xí)到有效且魯棒的類別表征,此時(shí)可以利用與之關(guān)聯(lián)性較強(qiáng)或者共現(xiàn)性較高的其他動(dòng)作類別,通過特征融合的方式增強(qiáng)自身的表征,提高識別準(zhǔn)確率。該模塊的結(jié)構(gòu)設(shè)計(jì)如圖8 所示,首先對動(dòng)作執(zhí)行者的d維特征向量進(jìn)行C次線性變換(C為動(dòng)作類別數(shù)),分別提取各個(gè)動(dòng)作類別的表征;然后通過自注意力機(jī)制建模不同動(dòng)作類別之間的語義相關(guān)性。具體來說,首先對類別特征進(jìn)行線性變換分別得到對應(yīng)的query,key 和value,并分別記為QN,KN,和VN。然后,計(jì)算QN與KN之間的內(nèi)積得到類別之間的類別依賴矩陣。再之后,利用該相關(guān)性矩陣對VN進(jìn)行加權(quán),得到增強(qiáng)后的類別特征。最后,將增強(qiáng)后的特征輸入到分類器中,預(yù)測出每個(gè)動(dòng)作類的概率得分。
圖8 CRM模塊結(jié)構(gòu)Fig.8 Structure of CRM module
2.3.2 雙階段分?jǐn)?shù)融合策略TSSF
分類器部分設(shè)計(jì)了CRM 模塊,利用不同動(dòng)作類別之間的依賴關(guān)系對特征進(jìn)行增強(qiáng),以達(dá)到提升多標(biāo)簽分類性能的目的。該模塊對動(dòng)作執(zhí)行者進(jìn)行了二次動(dòng)作分類,對于正樣本數(shù)量少的動(dòng)作類別,網(wǎng)絡(luò)可以更容易地學(xué)習(xí)到其表征,彌補(bǔ)了第1 階段特征不夠好的缺陷。
由于第1 階段對少數(shù)類樣本的區(qū)分能力不強(qiáng),預(yù)測分?jǐn)?shù)具有保守性,而CRM 模塊在第2 階段中針對性地改善了該問題,所以提出雙階段分?jǐn)?shù)融合策略對每個(gè)動(dòng)作類的預(yù)測分?jǐn)?shù)進(jìn)行融合,可以采用取最小值、最大值或者平均值的方式得到最終的概率分?jǐn)?shù),具體為
本文中,第1階段長短期交互部分和第2階段分類器部分是聯(lián)合訓(xùn)練的,模型的總體代價(jià)函數(shù)為
德國通快集團(tuán)是全球制造技術(shù)領(lǐng)域的領(lǐng)導(dǎo)企業(yè)之一,業(yè)務(wù)范圍涵蓋機(jī)床、電動(dòng)工具、激光技術(shù)、電子和醫(yī)療技術(shù)等領(lǐng)域,其中激光技術(shù)幾乎涵蓋激光在工業(yè)制造技術(shù)領(lǐng)域的各種應(yīng)用范圍。通快的卓越表現(xiàn)來自于:開發(fā)新工藝和高效率的機(jī)床;迅速將技術(shù)概念轉(zhuǎn)化到以用戶為導(dǎo)向的技術(shù)改革之中;高標(biāo)準(zhǔn)的質(zhì)量和值得信賴的用戶服務(wù)。
式中,L1和L2分別為第1 階段和第2 階段的代價(jià)函數(shù),L為這兩個(gè)階段的總代價(jià)函數(shù),為第i個(gè)樣本的第j個(gè)動(dòng)作類上的標(biāo)簽,和分別為第1 階段和第2 階段在第i個(gè)樣本的第j個(gè)動(dòng)作類上的預(yù)測分?jǐn)?shù)。
本文在AVA v2.1數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集由從YouTube 中收集的430 個(gè)視頻組成,其中訓(xùn)練集包含235 個(gè),驗(yàn)證集包含64 個(gè),測試集包含131 個(gè),所占比例分別為55%、15%和30%。對于每個(gè)視頻,選取15 min的固定長度進(jìn)行標(biāo)注,采樣頻率為1 Hz,即每個(gè)視頻包含900 個(gè)關(guān)鍵幀。標(biāo)注時(shí),對關(guān)鍵幀中出現(xiàn)的所有動(dòng)作執(zhí)行者,逐一確定其空間位置并選擇適當(dāng)數(shù)量的動(dòng)作標(biāo)簽。該數(shù)據(jù)集的動(dòng)作標(biāo)簽共80 種,按動(dòng)作特點(diǎn)分為3 類。第1 類為人體姿勢動(dòng)作,包含14 個(gè)子類;第2 類為人—物交互動(dòng)作,包含49 個(gè)子類;第3 類為人—人交互動(dòng)作,包含17 個(gè)子類。每個(gè)動(dòng)作實(shí)例最多可分配7 個(gè)動(dòng)作標(biāo)簽,包括1個(gè)人體姿勢標(biāo)簽、0~3個(gè)人—物交互標(biāo)簽和0~3 個(gè)人—人交互標(biāo)簽。綜上,AVA v2.1 數(shù)據(jù)集共包含211 k個(gè)訓(xùn)練實(shí)例、57 k個(gè)驗(yàn)證實(shí)例和117 k個(gè)測試實(shí)例,遵循主流方法的設(shè)置,本文在訓(xùn)練集上進(jìn)行模型訓(xùn)練,并在驗(yàn)證集上評估結(jié)果。
本文采用閾值取0.5 時(shí)的幀級均值平均精度(frame-level mAP@IoU 0.5)作為評價(jià)指標(biāo),在最終的結(jié)果評估時(shí),根據(jù)統(tǒng)一的準(zhǔn)則,選取了驗(yàn)證集實(shí)例數(shù)不少于25的60個(gè)動(dòng)作類,忽略了驗(yàn)證集實(shí)例數(shù)少于25的剩余20個(gè)動(dòng)作類。
實(shí)驗(yàn)基于深度學(xué)習(xí)框架pytorch 1.6.0 部署,模型的訓(xùn)練和測試過程均基于pytorch 完成。本文首先以30 幀/s 的幀率對視頻進(jìn)行抽幀,并將每秒的中間幀定義為關(guān)鍵幀;然后使用微調(diào)過的Faster R-CNN 網(wǎng)絡(luò)在關(guān)鍵幀上對動(dòng)作執(zhí)行者進(jìn)行目標(biāo)檢測,得到一系列檢測框的位置坐標(biāo)和動(dòng)作性得分;最后利用預(yù)訓(xùn)練好的SlowFast 骨干網(wǎng)絡(luò)提取每個(gè)檢測框?qū)?yīng)的區(qū)域特征,訓(xùn)練時(shí)選取動(dòng)作性得分不低于0.9 的檢測框以及ground-truth 框,測試時(shí)僅使用得分不低于0.8 的檢測框。另外,實(shí)驗(yàn)在NVIDIA Geforce GTX 1080Ti(11 GB 內(nèi)存)上完成,模型采用Adam(adaptive moment estimation)優(yōu)化器加速訓(xùn)練,初始學(xué)習(xí)率設(shè)置為0.000 01,每個(gè)訓(xùn)練批次包含16組數(shù)據(jù),完成50個(gè)訓(xùn)練周期。
為了驗(yàn)證本文模型中各模塊的有效性,進(jìn)行了一系列消融實(shí)驗(yàn),這里以SlowFast 為基準(zhǔn)模型,具體為:1)添加STIM 模塊;2)添加STIM 模塊,分類器部分添加CRM 模塊并采用TSSF 策略;3)添加STIM 模塊和LTIM 模塊;4)添加STIM 模塊和LTIM 模塊,分類器部分添加CRM 模塊并采用TSSF 策略。同時(shí)在AVA v2.1 數(shù)據(jù)集上進(jìn)行定量和定性分析。然后將本文方法與其他視頻動(dòng)作檢測方法進(jìn)行對比,驗(yàn)證本文方法的先進(jìn)性。
3.4.1 定量分析
首先對本文模型進(jìn)行消融實(shí)驗(yàn),分析模型的各個(gè)組成部分對最終性能的影響,結(jié)果如表1 所示。然后為了更深入地分析模型,分別評估了各模塊在人體姿勢類別、人—物交互類別和人—人交互類別上的性能,結(jié)果如表2 所示。此外,表3中列出了各參數(shù)不同取值的組合,并計(jì)算每種組合下本文模型在驗(yàn)證集上的指標(biāo)。最后在表4 中給出了各個(gè)模塊的參數(shù)量和推理階段每個(gè)關(guān)鍵幀的檢測時(shí)間。
表1 不同的模塊組合在AVA v2.1驗(yàn)證集上的性能Table 1 Performance of different module combinations on the validation set of AVA v2.1
表2 人體姿勢、人—物交互和人—人交互類別的消融分析(mAP)Table 2 Ablation analysis on Human Pose,Human-Object Interaction and Human-Human Interaction categories in terms of mAP/%
表1 展示了模型各組成部分對最終性能的影響??梢钥闯觯琒TIM 模塊利用圖注意力網(wǎng)絡(luò)顯式建模動(dòng)作執(zhí)行者之間的短期交互關(guān)系,以聚合與動(dòng)作相關(guān)的局部時(shí)空信息,有助于模型更好地學(xué)習(xí)表征,平均精度均值(mean average precision,mAP)比基準(zhǔn)模型的結(jié)果提升了1.6%。LTIM 模塊通過提供長期的時(shí)間支持信息,計(jì)算動(dòng)作執(zhí)行者之間的遠(yuǎn)程依賴,有助于更精確地推斷當(dāng)前時(shí)刻的動(dòng)作狀態(tài),兼顧了時(shí)序上的全局信息利用,mAP 在STIM 模塊的基礎(chǔ)上提升了0.8%。而分類器部分的CRM 模塊與TSSF 策略結(jié)合,利用動(dòng)作類別之間的標(biāo)簽依賴關(guān)系增強(qiáng)特征,同時(shí)針對不同模塊的互補(bǔ)性進(jìn)行分?jǐn)?shù)融合。CRM 模塊具有通用性,無論是添加到STIM 模塊上(+ 0.3%mAP),還是添加到最終的模型上(+ 0.4% mAP),都能在一定程度上解決多標(biāo)簽分類問題,提升模型的準(zhǔn)確率。
除了給出模型在60 個(gè)測試子類上的均值平均精度外,本文分別評估了各模塊在人體姿勢、人—物交互和人—人交互類別上的結(jié)果,如表2 所示。與基準(zhǔn)相比,最終模型在人體姿勢、人—物交互和人—人交互類別上的均值平均精度分別增加了2.0%,2.6%,3.6%,這表明本文方法對建模交互作用和類別依賴都是有效的。同時(shí),本文計(jì)算了各個(gè)動(dòng)作類的指標(biāo)用于對比,如圖9 所示??梢钥吹剑疚哪P驮趕ing to(e.g.,self,a person,a group)、play musical instrument、cut等動(dòng)作類上均有明顯的性能改進(jìn),可能是因?yàn)檫@些動(dòng)作類的識別需要對動(dòng)作執(zhí)行者之間的交互關(guān)系進(jìn)行推理,或者動(dòng)作本身具有很強(qiáng)的長期時(shí)序依賴性。
圖9 在AVA v2.1驗(yàn)證集上本文模型和基準(zhǔn)模型的各類別指標(biāo)Fig.9 Per-category results for the proposed model and the baseline on the validation set of AVA v2.1
表3 展示了不同參數(shù)組合對模型性能的影響。這里Heads 指的是STIM 模塊中圖注意力網(wǎng)絡(luò)GAT的頭數(shù)目,而Dim 和Layers 分別指的是CRM 模塊中類別表征的維數(shù)以及注意力層的數(shù)目。不難發(fā)現(xiàn),隨著GAT 頭數(shù)目的增加,模型性能進(jìn)一步提升,這是因?yàn)樵谧⒁饬C(jī)制中采用多頭的設(shè)置可以將輸入映射到多個(gè)不同的語義空間中,使模型獲取的信息更為豐富,也能起到集成的作用,在一定程度上降低了網(wǎng)絡(luò)發(fā)生過擬合的風(fēng)險(xiǎn)。而CRM 模塊中類別表征的維數(shù)并不是越大越好,過大的特征維數(shù)會包含許多冗余信息,也會增加不必要的模型復(fù)雜度。尋找最優(yōu)的參數(shù)配置實(shí)際上就是追求一種模型復(fù)雜度和模型性能之間的平衡。本文最終采用的設(shè)置是取Heads = 8,Dim = 32,Layers = 3,對所有的實(shí)驗(yàn)統(tǒng)一。此外,本文對模型的參數(shù)量和推理速度進(jìn)行了分析。表4 中的數(shù)據(jù)體現(xiàn)了各模塊之間存在的顯著差異,在參數(shù)量方面,LTIM < CRM < STIM;在檢測時(shí)間方面,STIM < LTIM < CRM。所以,在設(shè)計(jì)模塊時(shí)不能僅參考某一項(xiàng)指標(biāo)的值,而應(yīng)該綜合考慮,優(yōu)化模型的整體性能。
表3 考慮不同參數(shù)組合時(shí)AVA v2.1驗(yàn)證集上的結(jié)果Table 3 Results on the validation set of AVA v2.1 considering different parameter combinations
表4 本文模型的參數(shù)量和推理速度Table 4 The parameters and inference speed of our model
3.4.2 定性分析
為了定性地評估本文模型,將視頻關(guān)鍵幀的動(dòng)作檢測結(jié)果可視化,對幾個(gè)具有挑戰(zhàn)性的示例進(jìn)行性能比較,如圖10 所示。在這些示例中,動(dòng)作參與者所執(zhí)行的動(dòng)作具有長期時(shí)序依賴性并且涉及到與其他對象的交互。圖10(a)(b)分別為基準(zhǔn)模型和本文模型的檢測結(jié)果。第1 行的動(dòng)作參與者正在執(zhí)行sing to(e.g.,self,a person,a group)這個(gè)動(dòng)作,該動(dòng)作的建模不僅需要考慮交互對象(即聽眾),還需要整合時(shí)域上的全局信息。本文模型針對動(dòng)作執(zhí)行者特別融合了交互對象的表征,并且精準(zhǔn)捕捉了與動(dòng)作相關(guān)的長期時(shí)序上下文信息,在該樣例中實(shí)現(xiàn)了準(zhǔn)確的預(yù)測。而基準(zhǔn)模型只利用到動(dòng)作執(zhí)行者本身的區(qū)域特征,也沒有考慮到動(dòng)作在時(shí)序上的全局依賴性,很容易造成誤判。從第2 行可以看到一個(gè)男人正在切割木板,這同樣也需要利用時(shí)序上的長期特征來輔助動(dòng)作推斷。第3 行展示的是兩個(gè)人打架的場景,建模二者之間的交互作用顯然對模型性能的提升大有裨益。
圖10 基準(zhǔn)模型和本文模型在AVA v2.1驗(yàn)證集的可視化結(jié)果Fig.10 Visualization results for the proposed model and the baseline on the validation set of AVA v2.1((a)baseline model;(b)ours)
本文對CRM 模塊中間過程的類別依賴注意力圖進(jìn)行了可視化,如圖11 所示。圖11(a)為選取的兩個(gè)動(dòng)作示例及其真實(shí)標(biāo)注。第1 個(gè)示例的動(dòng)作執(zhí)行者標(biāo)簽為“聽某人說話”,第2 個(gè)示例為“看手機(jī)”。圖11(b)為生成的類別依賴注意力圖,顏色越亮的位置表示響應(yīng)越強(qiáng),即對應(yīng)的兩個(gè)動(dòng)作類之間的依賴性高,顏色越暗的位置表示響應(yīng)越弱,即對應(yīng)的兩個(gè)動(dòng)作類之間的依賴性低。圖11(c)為進(jìn)一步提取的10 × 10 子注意力圖,其中與當(dāng)前動(dòng)作相關(guān)的動(dòng)作往往具有較強(qiáng)的響應(yīng)。例如“聽某人說話”、“拿走”和“看著某人”通常與“和某人交談”同時(shí)發(fā)生,而不相關(guān)的動(dòng)作普遍響應(yīng)較弱,例如“拍手”和“抬起某人”沒有明顯的關(guān)聯(lián)關(guān)系,說明了CRM 模塊對類別依賴建模的合理性和可靠性。
圖11 在AVA v2.1驗(yàn)證集上類別依賴注意力圖的可視化示例Fig.11 Visualization examples of class dependency attention maps on the validation set of AVA v2.1((a)ground-truth;(b)class dependency attention map;(c)10 × 10 subset of the attention map)
3.4.3 與其他方法的性能比較
為了更全面地驗(yàn)證本文方法的性能,與ACRN(actor-centric relation network)(Sun 等,2018)、VAT(video action transformer network)(Girdhar等,2019)、LFB(Wu 等,2019)、Context-Aware RCNN(Wu 等,2020)、SlowFast(Feichtenhofer 等,2019)、ACAR-Net(actor-context-actor relation network)(Pan 等,2021)、LSTC(long-short term context)(Li 等,2021)和IGMN(identity-aware graph memory network)(Ni 等,2021)等方法在AVA v2.1數(shù)據(jù)集上進(jìn)行比較,實(shí)驗(yàn)結(jié)果如表5 所示??梢钥闯觯疚姆椒ǖ膍AP@IoU 0.5 指標(biāo)分別提高了13.6%,6.0%,3.6%,3.0%,2.8%,1.0%,1.0%,0.8%。
表5 不同方法在AVA v2.1驗(yàn)證集上的實(shí)驗(yàn)結(jié)果Table 5 Experimental results of different methods on the validation set of AVA v2.1
ACRN 通過網(wǎng)絡(luò)自動(dòng)挖掘場景中與動(dòng)作執(zhí)行者相關(guān)的時(shí)空元素,生成用于動(dòng)作分類的關(guān)系特征,但沒有顯式地對實(shí)體之間的交互作用進(jìn)行建模。VAT對Transformer網(wǎng)絡(luò)進(jìn)行改造并應(yīng)用于視頻動(dòng)作檢測任務(wù),但同樣也是隱式地提取與動(dòng)作執(zhí)行者相關(guān)的周圍上下文信息。LFB 為模型提供長期的時(shí)間支持,通過計(jì)算實(shí)體之間的遠(yuǎn)程交互來建模全局時(shí)序依賴關(guān)系,但沒有強(qiáng)調(diào)利用動(dòng)作在時(shí)序上的局部關(guān)聯(lián)性。Context-Aware RCNN 在提取動(dòng)作執(zhí)行者的區(qū)域特征之前,對周圍圖像塊進(jìn)行裁剪和調(diào)整,避免空間細(xì)節(jié)的損失,但在融合上下文信息方面缺少相應(yīng)設(shè)計(jì),只是簡單地進(jìn)行特征拼接。ACAR-Net提出了高階交互關(guān)系的概念,除了動(dòng)作執(zhí)行者之間直接的一階關(guān)系之外,還考慮了間接的二階交互關(guān)系,但沒有針對性地處理這兩種關(guān)系。LSTC 利用視頻信號之間的時(shí)間依賴性進(jìn)行動(dòng)作識別,將其分解為短期依賴和長期依賴獨(dú)立推斷,但同樣忽視了空間維度和時(shí)間維度的異質(zhì)性。此外,上述方法均沒有考慮AVA v2.1 數(shù)據(jù)集本身存在的多標(biāo)簽問題。本文以時(shí)空解耦的方式顯式建模動(dòng)作執(zhí)行者之間的短期交互作用,同時(shí)引入長期特征庫兼顧了時(shí)序上的局部信息和全局信息,在分類器部分利用類別依賴關(guān)系增強(qiáng)表征,且根據(jù)不同模塊的互補(bǔ)性分階段預(yù)測并對分?jǐn)?shù)進(jìn)行融合,顯著提升了動(dòng)作檢測的效果。
本文提出了一種同時(shí)考慮交互關(guān)系和類別依賴的視頻動(dòng)作檢測方法,試圖去建模動(dòng)作執(zhí)行者之間的交互作用以及動(dòng)作類別之間的語義相關(guān)性。與對比算法相比,本文在建模交互關(guān)系時(shí)充分利用了視頻信號獨(dú)有的時(shí)空特性,以時(shí)空解耦的方式顯式建模動(dòng)作執(zhí)行者之間的短期交互作用,并引入長期特征庫計(jì)算遠(yuǎn)程交互以提取長期時(shí)序上下文信息,兼顧了時(shí)序上的局部關(guān)聯(lián)和全局依賴。此外,在處理多標(biāo)簽數(shù)據(jù)集時(shí),本文進(jìn)行了針對性的設(shè)計(jì),通過類別關(guān)系模塊提取特定于類別的表征,并使用注意力機(jī)制計(jì)算動(dòng)作類之間的語義相關(guān)性以增強(qiáng)表征。最后根據(jù)不同模塊的互補(bǔ)特性,提出雙階段分?jǐn)?shù)融合策略更新最終的概率得分。本文方法在一定程度上克服了對比算法存在的局限性,在AVA v2.1數(shù)據(jù)集上的定量和定性分析結(jié)果表明了本文方法的有效性和魯棒性。相較于其他的視頻動(dòng)作檢測方法,本文方法大幅提升了交互類動(dòng)作的識別效果,同時(shí)以較低的計(jì)算代價(jià)解決了多標(biāo)簽問題。后期研究將進(jìn)一步優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu),例如改進(jìn)目標(biāo)特征與長期特征庫的作用機(jī)制,以使mAP指標(biāo)得到更顯著的提升。