国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合片段對比學習的弱監(jiān)督動作定位方法

2024-03-21 02:25黨偉超高改梅劉春霞
計算機應用 2024年2期
關鍵詞:集上分支注意力

黨偉超,張 磊,高改梅,劉春霞

(太原科技大學 計算機科學與技術(shù)學院,太原 030024)

0 引言

時序動作定位是視頻理解中重要的基本領域之一,旨在識別視頻中的動作實例,并在未修剪視頻中定位每個動作的時間邊界。時序動作定位可以看作由兩個子任務組成,一個子任務預測動作的起止時序區(qū)間,另一個子任務預測動作的類別?,F(xiàn)實世界中的大多數(shù)視頻通常未被剪輯,且時間較長,視頻可能沒有動作,也可能包含多個動作。傳統(tǒng)的時序動作定位需要注釋視頻中的每個動作實例類型和時間區(qū)間,導致收集樣本數(shù)據(jù)成本昂貴、消耗時間長,以及動作樣本易錯標或漏標。這些問題表明使用更少注釋信息的重要性,因此,只需要視頻級別標簽的弱監(jiān)督時序動作定位[1-3]逐漸成為動作定位研究的重點。

現(xiàn)有的一些弱監(jiān)督時序動作定位方法[4-5]利用注意力機制分離前景背景,構(gòu)建視頻級特征,應用分類器獲取分類激活序列(Class Activation Sequence,CAS)[6],對CAS 閾值化處理得到定位結(jié)果。在視頻中除動作幀與背景幀外,還存在語義模糊的上下文幀,這些上下文幀與動作幀相似,導致在定位過程中難以被準確分類。此外,這些方法大多處理單個片段,片段間的聯(lián)系未得到充分利用,導致出現(xiàn)在動作時間邊界處的上下文幀也易被錯誤劃分為動作實例。

隨著深度學習的技術(shù)發(fā)展,無監(jiān)督學習[7-8]近年來備受關注,已被驗證具有特征提取的適應性和豐富性。在弱監(jiān)督時序動作定位研究中,由于缺乏幀級別的注釋,可以利用無監(jiān)督學習提取特征的適應性和豐富性的優(yōu)勢,借助無監(jiān)督學習間接獲取幀級特征,幫助模型提高性能。文獻[9]中使用自編碼器生成數(shù)據(jù),使之在整體或高級語義上與訓練數(shù)據(jù)相近,這類方法稱為生成式學習。對比式學習只將樣本分為正負樣本兩類,正樣本之間應該相似,而正樣本與負樣本應該不相似。通過學習同類樣本的共同特征,區(qū)分非同類樣本的不同以構(gòu)建對比學習模型。因此,可以利用對比學習范式解決弱監(jiān)督動作定位中上下文混淆的問題。

為了將出現(xiàn)在動作時間邊界處的上下文幀準確分類,本文提出一種融合片段對比學習的弱監(jiān)督動作定位方法。該方法主要由多分支注意力機制與片段挖掘算法[10]組成,其中,片段挖掘算法根據(jù)CAS 確定動作邊界處的模糊片段。首先,通過特征提取進行特征嵌入表示;其次,使用3 個注意力分支分別測量每個視頻幀是動作實例、上下文以及背景的可能性,根據(jù)獲得的注意力值得到關于3 個類別對應的類激活序列;隨后,對動作實例類激活序列采用片段挖掘算法,挖掘模糊片段與顯著片段;最后,應用片段對比學習范式識別這些模糊片段,引導模型定位準確的時間邊界。

1 相關工作

完全監(jiān)督的時序動作定位通過提供幀級別的注釋定位和分類未修剪視頻中的動作實例。現(xiàn)有方法大致分為兩類:一類是兩階段方法[11-14],另一類是一階段方法[15]。第一類方法首先生成動作建議,然后在動作發(fā)生的時間邊界上分類;而第二類方法則從原始數(shù)據(jù)中直接預測幀級別的動作類別與時間邊界,然后處理獲得的數(shù)據(jù)后完成最終定位。但這些方法在生成建議階段與分類階段都需要精確的動作實例注釋,需要耗費大量的人力資源,導致效率低,因此無法在現(xiàn)實中廣泛應用。

弱監(jiān)督時序動作定位相較于完全監(jiān)督學習,僅需要視頻級別的動作類別標簽,極大地降低了標注成本,更適用于視頻監(jiān)控、異常檢測等現(xiàn)實場景?,F(xiàn)有的弱監(jiān)督時序動作定位方法可以分為自上而下的方法和自下而上的方法兩類。自上而下的方法[16-17]首先學習一個視頻級別分類器,然后選擇分類激活序列較高的視頻幀作為動作的位置。Min 等[18]將弱監(jiān)督動作定位任務定義為動作識別問題,通過引入動作背景分離注意力分支構(gòu)建視頻級特征,然后使用分類器分類視頻。與自上而下的方法不同,自下而上的方法[4,6,19]直接從原始數(shù)據(jù)中預測時間注意力權(quán)重,為每一幀產(chǎn)生一個注意力值,并設置閾值以區(qū)分幀,將注意力值高的視頻幀當作動作幀,注意力值低的視頻幀作為背景幀,引導模型更專注于更可能包含動作部分的片段。Shi 等[9]提出條件變分自編碼器對基于幀級注意力的未知幀概率進行建模,再觀察上下文所表現(xiàn)的差異,學習一個概率模型,從而對給定注意力的每一幀的可能性進行建模,最后實現(xiàn)動作與背景的分離。

對比學習[20]是一種利用數(shù)據(jù)本身作為監(jiān)督信息學習樣本數(shù)據(jù)的特征表達的自監(jiān)督學習方式,通過在輸入樣本間進行比較以學習表示。可以在“相似”輸入的正對和“不同”輸入的負對之間比較,從而學習樣本數(shù)據(jù)的一般特征。各領域?qū)W者提出各種改進模型:如MoCo(Momentum Contrast for unsupervised visual representation Learning)[21]系 列、SimCLR(Simple framework for Contrastive Learning of visual Representations)[22]系列等,這些模型效果已經(jīng)超越了有監(jiān)督模型。對比學習的目標是將樣本不同的、增強過的正樣本們在嵌入空間中盡可能拉近,再將不同類的樣本間盡可能拉遠。在計算機視覺領域中,對比學習可以被認為是通過樣本之間的比較來進行學習,首先使用數(shù)據(jù)內(nèi)部模式學習一個嵌入空間,在這個嵌入空間中聚集相關的信號,而不關聯(lián)的信號則通過噪聲對比估計(Noise Contrastive Estimation,NCE)[23]區(qū)分。文獻[8]中通過局部聚合方法拉近相似數(shù)據(jù),拉遠相差較大的數(shù)據(jù),提出聚類和實例判別對比學習相結(jié)合的思路。在弱監(jiān)督時序動作定位任務中,片段之間也存在聯(lián)系,但大部分方法忽略了這一點,導致一些片段被錯誤歸類,DGAM(Discriminative and Generative Attention Modeling)[9]將上下文混淆的問題視為單個片段的作弊問題,基于此,本文利用片段間的聯(lián)系構(gòu)建了融合片段對比學習的弱監(jiān)督動作定位模型以提高定位準確率。在動作定位任務中,發(fā)生在動作邊界處的上下文幀與動作幀不易區(qū)分,因此將這些不易區(qū)分的片段稱為模糊片段,辨別力強的動作幀稱為顯著片段,將構(gòu)造的正負樣本在特征空間中進行片段對比學習以幫助網(wǎng)絡正確識別模糊片段。片段對比學習的原理如圖1 所示。本文方法融合注意力機制和片段對比學習,利用注意力機制優(yōu)化類激活序列,使用片段對比學習引導模型找出模糊片段,更準確定位動作時間邊界。

圖1 片段對比學習的原理Fig.1 Principle of snippet contrastive learning

2 動作定位模型

為了減小上下文與單片段作弊問題帶來的影響,本文構(gòu)建了一種融合片段對比學習的弱監(jiān)督動作定位模型。本文模型的總體框架如圖2 所示。

圖2 本文模型的總體框架Fig.2 Overall framework of proposed model

2.1 特征提取與嵌入

對于給定的未修剪視頻V,以每秒25 幀的采樣率采樣為RGB 幀,然后使用TV-L1 算法[24]將RGB 幀轉(zhuǎn)換為光流數(shù)據(jù),最后將RGB 數(shù)據(jù)與光流數(shù)據(jù)分割為具有連續(xù)16 幀的非重疊片段。將這些片段放入Kinetics 數(shù)據(jù)集[25]預訓練的I3D(Inflated 3D ConvNet)網(wǎng)絡[26]提取特征,然后將得到的RGB特征Frgb(t) ∈RD與光流特征Fflow(t) ∈RD連接在一起形成片段特征F(t)=[Frgb(t),F(xiàn)flow(t)]∈R2D,然后堆疊所有片段特征,形成特征F∈RT×2D,其中T為視頻片段數(shù)。

特征F是經(jīng)過預訓練的I3D 網(wǎng)絡提取得到,為了將它映射至任務特定的特征空間中,需要引入特征嵌入模塊。嵌入模塊由一組卷積層和非線性激活函數(shù)ReLU(Rectified Linear Unit)組成,特征嵌入模塊如下表示:

其中:θembed為嵌入層可訓練的參數(shù)。

2.2 動作分類激活建模

為了定位視頻中動作實例的時間邊界,將得到的特征X首先通過一個動作分類分支得到一個初始的類激活序列,即CAS(t),將它視為動作實例的初始指標。動作分類分支將特征X從初始空間映射至動作類別空間,輸出是關于每個動作類別隨時間變化的分數(shù)。記作Φ∈RT×(C+1)。分類激活分支表示如下:

其中:θcas為分類激活分支中可訓練的參數(shù),MLP()為多層感知機。

2.3 多分支注意力建模

為使網(wǎng)絡準確分離上下文幀與動作幀,本文設計了一個具有三條分支的注意力模塊分別為動作幀、上下文幀以及背景幀進行建模,使用Softmax 函數(shù)對輸出結(jié)果進行歸一化處理。注意力模塊使用一個卷積層與Softmax 函數(shù)測量每個視頻幀是動作實例、上下文以及背景的可能性,它的輸出為:其 中attins(t)、attcon(t)和attbak(t)分別表示片段s(t)是動作實例、動作上下文和背景的可能性。三分支動作注意力模塊表示如下:

其中θatt為多分支注意力模塊中可訓練的參數(shù)。

基于分類激活序列和三分支注意力值,構(gòu)建關于動作實例、動作上下文和背景的類激活序列,即CASins(t)、CAScon(t)和CASbak(t),分別表示如下:

CASins(t) 是關于動作實例的類激活序列,相較于CAS(t),CASins(t)在CAS(t)的基礎上增加注意力機制,得到的CASins(t)可以更關注動作幀。而CAScon(t)更關注于動作上下文幀,CASbak(t)更關注于背景幀。

2.4 模糊片段與顯著片段的選取

在弱監(jiān)督時序動作定位任務中,引入注意力機制可促使網(wǎng)絡更關注動作幀,并在一定程度上提高類激活序列的準確性,但由于網(wǎng)絡始終處理單個片段,導致片段間的語義信息無法得到充分利用。為此,本文使用片段挖掘算法選取模糊片段與顯著片段,利用對比學習范式最大化正樣本對之間的相似性,從而捕獲更完整的動作信息,緩解模糊片段的誤分類問題。

2.4.1 模糊片段的挖掘

視頻中大部分的動作片段和背景片段遠離時間邊界,噪聲干擾較小,可信度較高,但出現(xiàn)在時間邊界處的片段,處于動作與背景之間的過渡區(qū)域,噪聲干擾大,容易導致模型檢測錯誤。因此在得到CASins(t)后,時間邊界處仍存在許多錯誤檢測的片段,本文在僅使用注意力分支得到的CASins(t)的基礎上應用片段挖掘算法得到模糊片段。最后根據(jù)捕獲到的片段的時間索引劃分為模糊動作片段與模糊背景片段。具體如下:

得到CASins(t)后,在類別維度上按動作類聚合,然后使用Sigmoid 函數(shù)得到一個與類無關的動作性分數(shù)An∈RT,再對An閾值化處理得到

其中:ε(?)為海維賽德階躍函數(shù),θb為閾值,當An>θb時為1,否則為0。

圖3 模糊片段挖掘算法Fig.3 Hard snippet mining algorithm

2.4.2 顯著片段的挖掘

為了構(gòu)造正負樣本對,還需捕獲顯著片段以學習片段間的特征信息,根據(jù)得到的動作性分數(shù)An,對它按照降序分別選取前keasy個與后keasy個片段作為顯著動作片段與顯著背景片段具體如下:

2.5 損失函數(shù)及優(yōu)化

對于已挖掘的模糊片段和顯著片段,設計了片段對比損失函數(shù)以學習片段的特征信息;此外,對于分類損失,分別計算視頻相應的3 個CAS損失;最后增加了注意力引導損失,它用于約束CASins與動作注意力保持一致??倱p失函數(shù)表示如下:

其中:Lcls為分類損失,Lgui為注意力引導損失,Ls為片段對比損失,λ1與λ2為平衡總損失的兩個超參數(shù)。下面分別定義各個損失函數(shù)。

2.5.1 分類損失

分類損失由3 個分支的類激活序列損失構(gòu)成,首先定義動作分支的類激活序列損失,即。

為了測量視頻中動作分支的類激活序列的損失,首先取每個動作類別的所有視頻片段,按降序取前kins個動作分支的分類分數(shù),再將其平均,得到視頻V對應第c類動作分支的視頻級分類分數(shù),即(V):

然后再對得到的視頻級分類分數(shù)應用Softmax 函數(shù)得到視頻級動作概率。

為了分離動作幀、背景幀以及上下文幀,將得到的CASins應用上述機制得到視頻級動作概率分布,將CAScon與CASbak分別應用上述機制可得。

為了得到視頻中關于動作注意力類激活序列CASins的損失,將預測的視頻級動作概率分布和真實視頻動作概率分布應用交叉熵損失函數(shù)分類視頻中不同的動作,關于CASins的分類損失表示如下:

首先設置動作分支的視頻級標簽為yins=[y(c)=1,y(C+1)=0]表示視頻V中包含第c個動作類是視頻V中第c個類的視頻級標簽。因為上下文幀與動作類別相關,又與靜態(tài)背景幀類似,所以設置上下文分支的視頻級標簽為ycon=[y(c)=1,y(C+1)=1],而CASbak更關注背景幀,因此設置背景分支的視頻級標簽為ybak=[y(c)=0,y(C+1)=1]表示視頻V中不包含第c個動作類。同理可以得到關于CAScon和CASbak的分類損失,即根據(jù)得到的可構(gòu)建出分類損失Lcls。

2.5.2 注意力引導損失

由于只構(gòu)建了視頻級分類損失,并未在片段級優(yōu)化動作分類的結(jié)果,因此引入注意力引導損失,使分類激活序列和動作注意力趨于一致,使用attins在片段級水平上引導CASins,抑制上下文幀與背景幀。

其中:pins(t)是對CASins應用Softmax 函數(shù)后得到的預測片段級動作概率分布則表示片段s(t)不包含動作實例的可能性,attins(t)是片段s(t)處的動作注意力值,通過最小化Lgui可以引導網(wǎng)絡在片段級優(yōu)化類激活序列。

2.5.3 片段對比損失

應用片段挖掘算法挖掘模糊片段和顯著片段后,將片段對應的嵌入特征應用對比學習,即引入片段對比損失Ls細化模糊片段的特征,并獲得更豐富的特征信息。模糊片段分為模糊動作片段和模糊背景片段,因此構(gòu)造兩組對比對,即模糊動作片段HA 的細化與模糊背景片段HB 的細化,HA 細化的目的是通過在特征空間中促使模糊動作片段與顯著動作片段轉(zhuǎn)化模糊動作片段的特征,HB 的細化同理。

其中:K表示負例數(shù)表示第i個負例片段,τ為溫度系數(shù),通過最大化同一類別(動作或背景)的顯著片段和模糊片段之間的相互信息,這有助于細化特征表示,從而緩解單個片段作弊的問題。

2.6 輸出結(jié)果

對于給定的輸入視頻,將得到的CASins(t)、CAScon(t)和CASbak(t)分別采用top-k運算得到三分支的視頻級分類預測。再對動作注意力類激活序列CASins進行閾值處理后再進行定位操作,輸出結(jié)果為,應用文獻[6]中提出的外-內(nèi)-對比函數(shù)獲得每個動作實例的置信度得分最后生成動作建議并且使用非極大值抑制刪除重復的建議。其中置信度分數(shù)的定義如下:

其中:v表示第c個動作類在第t個片段處的類激活分數(shù);α是用于組合CASins與attins的超參數(shù)為定位到動作實例的時間邊界為膨脹對比區(qū)域表示對應的動作類別。

3 實驗與結(jié)果分析

3.1 數(shù)據(jù)集

本文在兩個流行的動作定位數(shù)據(jù)集THUMOS14[27]與ActivityNet1.3[28]上進行實驗,且使用了視頻級標簽訓練網(wǎng)絡。

THUMOS14 數(shù)據(jù)集包含20 個動作類別,驗證集包含200個未修剪的視頻,測試集包含213 個未修剪的視頻。視頻的長度變化較大,從長度幾秒到超過1 h 不等。每個視頻可能包含多個動作實例,有超過70%的幀為上下文幀或背景幀。選取驗證集視頻用于模型訓練,測試集視頻用于測試模型性能。

ActivityNet1.3 數(shù)據(jù)集相較于THUMOS14 數(shù)據(jù)集,規(guī)模更為龐大,涵蓋了與人類在日常生活中最相關的活動,視頻數(shù)量多、類別豐富,包含200 種不同類別的動作,其中有10 024 個未修剪的視頻用于模型的訓練,4 296 個未修剪的視頻用于模型的性能測試。約有36%的幀為上下文幀或背景幀。大部分視頻時長在5~10 min,50%的視頻的分辨率在1 280×720,大部分視頻是30 FPS,類別主要分為個人護理、飲食、家庭活動、關懷和幫助、工作、社交娛樂、運動鍛煉7 大類。

3.2 評價指標

實驗遵循了標準的評估方案,記錄了在不同交并比(Intersection over Union,IoU)閾值下的平均精度均值(mean Average Precision,mAP),在THUMOS14 數(shù)據(jù)集上,閾值為[0.1:0.1:0.7],在ActivityNet1.3 數(shù)據(jù)集上的閾值為[0.5:0.05:0.95]。在兩數(shù)據(jù)集上評估都是使用ActivityNet 提供的基準代碼進行的。

3.3 實驗細節(jié)

實驗環(huán)境 融合片段對比學習的弱監(jiān)督動作定位方法是在PyTorch 環(huán)境、單個NVIDIA GeForce RTX 2080Ti GPU 上樣本訓練。

特征提取 在特征提取部分,首先使用預訓練的I3D 網(wǎng)絡提取特征,使用TV-L1 光流算法從RGB 幀中提取光流特征,將每個視頻分為連續(xù)16 幀的非重疊片段,得到1 024 維的RGB 特征與光流特征。

THUMOS14 數(shù)據(jù)集上的實驗 在THUMOS14 數(shù)據(jù)集上,將每批數(shù)據(jù)量大小設置為16,使用Adam[37]優(yōu)化器,學習率為0.000 1,權(quán)重衰減為0.000 5,將視頻片段長度設置為T=750,以及top-k運算中對應三分支的k的大小,動作分支中kins=T//sins,上下文分支中kcon=T//scon,背景分支中kbak=T//sbak。其中sins為8,scon與sbak為3,λ1為0.002,λ2為0.01,α為0;reasy為5,rhard為20;θb為0.5,m與M分別為3和6;τ為0.07。對于生成的動作建議,將閾值設為0.15~0.25,步幅為0.05。在IoU 為0.5 時執(zhí)行非極大值抑制。在THUMOS14數(shù)據(jù)集上不同弱監(jiān)督動作定位模型的檢測結(jié)果如表1 所示。觀察表1 可知,所提方法在IoU 閾值為0.1~0.6 時均取得了最佳性能。與之前的最佳方法DGCNN(Dynamic Graph modeling for weakly-supervised temporal action localization Convolutional Neural Network)相比,在IoU 為0.5 時,mAP 提高了1.1 個百分點,這表明所提方法在包含動作較多且長度不斷變化的視頻數(shù)據(jù)上,能表現(xiàn)出良好的性能。

表1 不同弱監(jiān)督動作定位方法在THUMOS14數(shù)據(jù)集上的檢測結(jié)果 單位:%Tab.1 Detection results of different weakly-supervised action localization methods on THUMOS14 dataset unit:%

ActivityNet1.3 數(shù)據(jù)集上的實驗 在ActivityNet1.3 數(shù)據(jù)集上,將每批數(shù)據(jù)量大小設置為64,使用Adam 優(yōu)化器,學習率為0.000 05,權(quán)重衰減為0.001,由于大多視頻時長相較于THUMOS14 中的視頻時長要短很多,因此將視頻片段長度設置為T=75,對于top-k運算中對應三分支的k的大小,動作分支中sins為2,上下文分支中scon為10,背景分支中sbak為10;λ1為0.005,λ2為0.01,α為0.5;reasy為10,rhard為8;θb為0.5,m與M分別為3 和6;對于生成的動作建議,將閾值設為0.01~0.02,步幅為0.005。τ為0.07。在IoU 為0.9 時執(zhí)行非極大值抑制。在ActivityNet1.3 數(shù)據(jù)集上不同弱監(jiān)督動作定位模型的檢測結(jié)果如表2 所示。觀察表2 中可知,所提方法在各個不同的IoU 閾值下均取得了最佳性能。與DGCNN 相比,在IoU 為0.5時,mAP 提高了2.9個百分點。

表2 不同模型在ActivityNet1.3數(shù)據(jù)集上的檢測結(jié)果 單位:%Tab.2 Detection results of different models on ActivityNet1.3 dataset unit:%

表1、2 分別展現(xiàn)了在 THUMOS14 數(shù)據(jù)集和ActivityNet1.3 數(shù)據(jù)集上不同弱監(jiān)督動作定位模型的檢測結(jié)果,對比的網(wǎng)絡模型涵蓋了近五年內(nèi)弱監(jiān)督動作定位任務的主流方法。其中STPN(Sparse Temporal Pooling Network)、A2CL-PT(Adversarial and Angular Center Loss with a Pair of Triplets)為使用前景-背景分離注意機制構(gòu)建視頻級特征的主流算法。而另一類主流算法W-TALC(Weakly-supervised Temporal Activity Localization and Classification)、MAAN(Marginalized Average Attentional Network)等將時序動作定位表述為多示例學習任務,通過分類器獲取時序類激活序列,進而描述動作在時間上的概率分布。此外,為充分說明所提方法的對比效果,與近兩年內(nèi)的主流算法MSA-Net(Multi-Scale structure-Aware Network)、HAM-Net(Hybrid Attention Mechanism)、EGA-Net(Entropy Guided Attention Network)、DGCNN 對比,并與BasNe(tBackground suppression Network)、TSCN(Two-Stream Consensus Network)、ACS-Net(Action-Context Separation Network)、TSM(Temporal Structure Mining)、BMUE(Background Modeling via Uncertainty Estimation)等主流算法對比,實驗結(jié)果表明,所提方法相比目前主流方法有著良好的效果提升。

3.4 損失函數(shù)平衡因子

本文參數(shù)設置參考主流的弱監(jiān)督動作定位算法[9-10],并利用網(wǎng)格搜索法做大量實驗調(diào)試確定。由于對比損失函數(shù)的平衡因子λ2對實驗結(jié)果影響較大,因此在表3 中給出THUMOS14 數(shù)據(jù)集中不同的對比損失系數(shù)λ2的實驗結(jié)果,選取交并比為0.5 作為評價指標,參數(shù)λ2用于式(13)中平衡對比損失與分類損失和注意力引導損失。實驗結(jié)果表明,當λ2=0.01 時,網(wǎng)絡性能最佳,mAP@0.5 達到了33.9%。此外,平衡因子λ2在0.01~0.1 的變化范圍內(nèi)定位精度保持穩(wěn)定,說明所提方法具有一定的魯棒性。

表3 不同平衡因子在THUMOS14數(shù)據(jù)集上的性能比較Tab.3 Performance comparison of different balance factors on THUMOS 14 dataset

3.5 消融實驗

在實驗過程中進行了多個消融研究,如表4 中基線所示,THUMOS14 數(shù)據(jù)集是用于評估弱監(jiān)督時序動作定位任務的最常見數(shù)據(jù)集,它的視頻長度變化較大,且每個視頻可能包含多個動作實例,超過70%的幀為上下文幀或背景幀,相較于ActivityNet1.3 數(shù)據(jù)集背景干擾較多,消融實驗可以更直觀地體現(xiàn)不同因素對檢測結(jié)果的影響,因此所有實驗均在THUMOS14 數(shù)據(jù)集上進行。

表4 動作上下文分支消融實驗結(jié)果Tab.4 Ablation experiment results of action context branch

關于動作上下文注意力分支的有效性,消融實驗結(jié)果如表4 所示。

從表4 中可以看出,相較于沒有動作上下文注意分支的基線方法,動作上下文分支的引入有顯著效果,這是由于將動作幀、上下文幀和背景幀劃分為一個類別是不合理的,因此在三種不同語義片段中增加注意力機制可以有效提高模型的性能。而實驗3 中的結(jié)果相較于實驗4 更有效,這是由于在沒有引入指導損失與片段對比損失的情況下,更準確地區(qū)分動作幀、上下文幀和背景幀。

注意力引導損失與片段對比損失的有效性:關于注意力引導損失與片段對比損失的有效性,消融實驗結(jié)果如表5所示。

表5 注意力引導損失與片段對比損失消融實驗結(jié)果Tab.5 Ablation experiment results of attention guided loss and snippet contrast loss

從表5 中可以看出,在有分類損失與片段對比損失的情況下,mAP@0.5 達到了29.8%,在此基礎上引入注意力引導損失后,可以達到33.9%。這是由于注意力引導損失可以促使網(wǎng)絡在片段級別上最小化CASins與attins的差異,從而提高模型的性能。在有分類損失與注意力引導損失的情況下,mAP@0.5 可以達到32.2%,而在此基礎上引入片段對比損失后,mAP@0.5 可以達到33.9%。這是由于片段對比損失引導網(wǎng)絡在弱監(jiān)督動作定位上實現(xiàn)了更好的特征分布,可以更精確地分離模糊片段以及動作片段與背景片段。

綜上所述,融合片段對比學習的弱監(jiān)督動作定位方法可以通過注意力機制幫助網(wǎng)絡更關注關鍵信息,同時通過對比學習的方式將模糊片段進行準確分類以提高模型的性能。

4 結(jié)語

融合片段對比學習的弱監(jiān)督動作定位方法由分類模塊、注意力模塊和片段對比學習模塊組成。其中,分類模塊通過神經(jīng)網(wǎng)絡獲取CAS;注意力模塊分別由動作注意力分支、上下文注意力分支以及背景注意力分支構(gòu)成,3 個分支分別用于測量每個視頻幀為動作實例、上下文和背景的可能性。融合CAS和注意力值獲得3 種類激活序列,它們表示每個視頻幀分別是動作幀、上下文幀和背景幀的分類激活分數(shù);片段對比學習模塊應用片段挖掘算法挑選正負樣本對,構(gòu)建片段對比學習模型提高片段分類精度。本文方法解決了弱監(jiān)督動作定位中上下文幀容易被錯誤分類的問題。在兩個基準數(shù)據(jù)集上充分實驗,在THUMOS14 數(shù)據(jù)集上,mAP@0.5 達到了33.9%;在ActivityNet1.3 數(shù)據(jù)集上,mAP@0.5 達到了40.1%。實驗結(jié)果驗證了融合片段對比學習的弱監(jiān)督動作定位方法的有效性。

猜你喜歡
集上分支注意力
讓注意力“飛”回來
Cookie-Cutter集上的Gibbs測度
鏈完備偏序集上廣義向量均衡問題解映射的保序性
巧分支與枝
一類擬齊次多項式中心的極限環(huán)分支
復扇形指標集上的分布混沌
“揚眼”APP:讓注意力“變現(xiàn)”
A Beautiful Way Of Looking At Things
生成分支q-矩陣的零流出性
幾道導數(shù)題引發(fā)的解題思考
莲花县| 玉山县| 林周县| 马龙县| 永登县| 醴陵市| 太谷县| 沅江市| 阜新| 鹰潭市| 新平| 南丰县| 仁怀市| 德令哈市| 韶山市| 岳普湖县| 海宁市| 临澧县| 台山市| 衡阳市| 中牟县| 剑阁县| 巢湖市| 前郭尔| 博爱县| 通河县| 祁连县| 方正县| 乐山市| 平潭县| 敦煌市| 鹤岗市| 封开县| 综艺| 南城县| 黄陵县| 阳高县| 沙河市| 武安市| 新民市| 诏安县|