国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

注意力機制的TS-PVAN雙流動作識別

2024-02-27 09:02:14郭佳樂胡天生史士杰陳恩慶
小型微型計算機系統(tǒng) 2024年2期
關鍵詞:雙流注意力卷積

郭佳樂,胡天生,史士杰,陳恩慶

(鄭州大學 電氣與信息工程學院,鄭州 450001)

0 引 言

近年來,基于深度神經(jīng)網(wǎng)絡的視頻級人體動作識別作為計算機視覺領域的研究熱點,已經(jīng)取得了巨大進展.不同場景下與視頻動作識別相關的應用也越來越廣泛[1],例如視頻監(jiān)控、自動駕駛、智慧醫(yī)療等.

目前,基于卷積神經(jīng)網(wǎng)絡的動作識別主要通過兩種方法實現(xiàn),一種是使用雙流網(wǎng)絡,分別將RGB幀與光流數(shù)據(jù)作為兩流的輸入以提取動作的時空信息.另一種是使用3D卷積[2]或時間卷積[3]從RGB幀學習運動特征,然而這種方式通常會帶來較高的計算成本.

雙流網(wǎng)絡是動作識別領域中識別效果較好的一種方法.Simonyan[4]等人首先提出了具有時空結(jié)構(gòu)的雙流網(wǎng)絡,以RGB幀作為空間流的輸入,以堆疊的連續(xù)幾幀光流作為時間流的輸入,分別提取動作發(fā)生過程中的空間信息和時間信息,空間信息包括外觀特征、位置等,時間信息則包括通過光流表示的相鄰幀之間的運動特征.然而,雙流網(wǎng)絡無法利用視頻長期時間信息,Wang[5]等人提出一種時間分割網(wǎng)絡(TSN)以對視頻長時間結(jié)構(gòu)建模,但該網(wǎng)絡僅在最后階段進行了時間融合,同樣未能捕獲更精細的時間結(jié)構(gòu),TSN網(wǎng)絡模型結(jié)構(gòu)如圖1所示,將視頻分為3段,分別經(jīng)過空間流與時間流網(wǎng)絡,最后進行雙流融合.此外,傳統(tǒng)的雙流方法通常采用相同的卷積網(wǎng)絡對RGB與光流數(shù)據(jù)進行處理,忽略了不同卷積網(wǎng)絡對不同模態(tài)數(shù)據(jù)的處理能力不同,Bai[6]等人提出了一種時空異構(gòu)雙流網(wǎng)絡模型,為雙流設計不同的卷積網(wǎng)絡.

圖1 TSN網(wǎng)絡結(jié)構(gòu)Fig.1 TSN Network Structure

3D卷積的方法也通常用于視頻動作識別任務中,三維卷積主要是對二維卷積在時間維度上進行擴展,能夠同時從視頻中獲取視頻動作的空間和時間特征.C3D是一種經(jīng)典3D卷積網(wǎng)絡,該網(wǎng)絡中所有3D卷積核的大小均為3×3×3,并通過實驗證明將卷積核設置為三維的情況下提取特征的能力更強.由于ResNet網(wǎng)絡的發(fā)展,提出一種三維殘差網(wǎng)絡3DResNet,將三維卷積神經(jīng)網(wǎng)絡結(jié)合殘差網(wǎng)絡ResNet而構(gòu)成,將ResNet中的殘差模塊引入到三維卷積網(wǎng)絡中,并通過實驗驗證了模型的有效性.

在深度學習領域中,模型通常需要接收和處理大量的數(shù)據(jù),然而在特定的某個時刻,往往只有少部分的某些數(shù)據(jù)是重要的,這種情況就非常適合使用注意力機制來解決問題,能夠關注有用的信息而忽略無效內(nèi)容.近年來,注意力機制也被廣泛應用在動作識別領域中,根據(jù)注意力施加的維度大致可以劃分為通道注意力和空間注意力兩種,典型的通道注意力網(wǎng)絡如SENet[7]、GCNet[8]等,通過對各個特征通道的重要程度建模,針對不同的任務增強或抑制不同的通道,CBAM[9]雙重注意力機制將通道注意和空間注意相結(jié)合,能夠顯著提升模型的性能.此外,目前基于雙流網(wǎng)絡的研究工作有,Liu[10]等人提出一種殘差時空注意網(wǎng)絡(R-STAN),使網(wǎng)絡更加關注區(qū)分性的時間和空間特征.Huang[11]等人提出一種壓縮視頻識別的壓縮域雙流網(wǎng)絡(IP TSN),大大提高效率和精度.Du[12]等人基于主成分分析方法,提出一個交互感知自我注意模型(ISTPAN),能夠有效學習注意圖.Shou[13]等人針對光流提供的運動表示,提出一種能實現(xiàn)更具辨別力運動線索的生成器網(wǎng)絡.

由于雙流網(wǎng)絡與注意力機制的發(fā)展,本文發(fā)現(xiàn)兩個不足之處:1)TSN雙流網(wǎng)絡中簡單地使用卷積網(wǎng)絡提取特征,僅關注于動作的局部特征,忽略了視頻動作中空間長距離依賴關系的重要性,比如在打籃球的動作中,需要關注手部和腳步的同步變化,如果缺乏長距離動作變化關系,則可能被誤判為打招呼或跑步,而注意力機制的引入有利于獲取動作的長距離依賴關系;2)卷積網(wǎng)絡處理RGB幀時空間維度的降低通常會帶來特征損失,視頻背景噪聲也會對動作識別的準確性造成影響,而噪聲信息也可以通過注意力的方式弱化其不良影響.因此,如何利用注意力機制,設計更加高效的網(wǎng)絡以提取豐富的動作空間特征對于視頻動作識別任務具有重要意義.

本文針對以上兩個問題,提出一種注意力機制的TS-PVAN雙流動作識別模型.在TSN雙流框架的基礎上,為空間流設計P-VAN網(wǎng)絡作為空間主干網(wǎng)絡,主要由視覺注意網(wǎng)絡[14](Visual Attention Network,VAN)與極化自注意力模塊[15](Polarized Self-Attention,PSA)構(gòu)成,結(jié)合異構(gòu)的思想,時間主干網(wǎng)絡仍選取卷積網(wǎng)絡BN-Inception[16]處理光流數(shù)據(jù).該模型能夠捕獲空間上的長距離依賴關系,有利于動作特征的提取,同時減少空間維度降低造成的特征損失,降低視頻背景噪聲對識別效果的影響,最終提升動作識別模型的準確率.此外,在兩個數(shù)據(jù)集HMDB51[17]和UCF101[18]上的實驗結(jié)果驗證了本文所提模型的有效性.下面首先介紹VAN網(wǎng)絡,其次介紹極化自注意力模塊PSA,然后介紹基于注意力機制的TS-PVAN雙流動作識別模型,最后給出實驗結(jié)果和分析.

1 注意力機制的TS-PVAN雙流動作識別

本文提出一種注意力機制的TS-PVAN雙流動作識別模型,其網(wǎng)絡結(jié)構(gòu)如圖2所示.其中,處理RGB幀的空間流主干網(wǎng)絡P-VAN由視覺注意網(wǎng)絡[14](VAN)與極化自注意力模塊[15](PSA)構(gòu)成,結(jié)合異構(gòu)的思想,時間流仍選用BN-Inception[16]卷積網(wǎng)絡處理光流數(shù)據(jù).本文將給定的動作視頻均勻分成k段(設置k=5),再抽取其視頻幀作為網(wǎng)絡的輸入,然后提取動作特征并分類,最后融合雙流網(wǎng)絡的時空特征,得到動作的最終識別準確率.本節(jié)首先介紹視覺注意網(wǎng)絡VAN的優(yōu)點及基本結(jié)構(gòu),再介紹極化自注意力模塊PSA的構(gòu)成,最后介紹P-VAN網(wǎng)絡以及注意力機制的TS-PVAN雙流動作識別模型.

圖2 注意力機制的TS-PVAN雙流動作識別模型Fig.2 TS-PVAN two-stream action recognition model based on attention mechanism

1.1 視覺注意網(wǎng)絡(VAN)

近年來,由于卷積神經(jīng)網(wǎng)絡具有強大的特征提取能力,成為計算機視覺領域的主干網(wǎng)絡之一,應用于各種視覺任務中能顯著提升模型性能,包括目標檢測[19]、圖像分類[20]、姿態(tài)估計和語義分割等領域.最近的研究表明,注意力機制可以看作是一種自適應選擇輸入特征的過程.文獻[21]最早提出將注意力機制應用于視覺領域中,進行圖像分類任務.文獻[22]將注意力機制應用在自然語言處理領域,通過構(gòu)建注意力模型來進行機器翻譯,并且取得了效果的提升.此外,自注意力模型[23](Transformer)的提出完全舍棄了RNN和CNN這樣的卷積網(wǎng)絡結(jié)構(gòu),只使用注意力機制進行機器翻譯,達到的效果也不錯.自注意力機制的關鍵問題是生成注意圖,以表示不同點的重要性,得益于其強大的建模能力,基于Transformer[23]的視覺主干網(wǎng)絡迅速應用到各類計算機視覺領域中,并取得了不錯的效果,比如在ViT[24]方法進行圖像分類任務時,當訓練數(shù)據(jù)集足夠大時,分類準確率能夠超過resnet網(wǎng)絡的最好結(jié)果,在VAN網(wǎng)絡做圖像分類任務時,準確率相比resnet提升了6.3%,驗證了自注意力機制相比卷積網(wǎng)絡的有效性.

針對第一個問題,如何能夠避免由忽略長距離動作特征關系而引起的誤判問題,研究發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡與自注意力模型中的不足之處,卷積方法主要提取局部特征,缺乏適應性和長程依賴性,而自注意力方法雖然能夠捕獲長程依賴關系并具有空間維度的適應性,但是忽略了局部特征及通道適應性,結(jié)合兩者的優(yōu)點能夠有效地解決所提問題.Guo[14]等人提出一種視覺注意網(wǎng)絡(Visual Attention Network,VAN),主要由大核注意模塊(Large Kernel Attention,LKA)構(gòu)成,通過分解一個大核卷積運算以捕獲長程關系,該模塊結(jié)合了卷積網(wǎng)絡與自注意力的特點,同時具有局部感受野、長程依賴性、空間適應性及通道適應性等優(yōu)點,能夠在視覺任務中達到更好的性能.

因此,本文考慮使用視覺注意網(wǎng)絡VAN替換原來采用的卷積網(wǎng)絡模型,以解決卷積網(wǎng)絡僅關注動作的局部特征,忽略長距離特征信息而帶來的相似性動作誤判問題.值得注意的是,本文改進的部分僅針對用于提取動作特征的空間主干網(wǎng)絡.VAN網(wǎng)絡主要具有4個階段的層次結(jié)構(gòu),其中一個階段的基本結(jié)構(gòu)如圖3所示.

圖3 VAN網(wǎng)絡結(jié)構(gòu)Fig.3 Network structure of VAN

由圖3網(wǎng)絡結(jié)構(gòu)可知,該網(wǎng)絡結(jié)構(gòu)由底部輸入數(shù)據(jù),依次向上傳輸,其中L表示一個階段中虛線框中所選部分模型結(jié)構(gòu)的疊加次數(shù).在VAN的每級結(jié)構(gòu)中,首先對輸入數(shù)據(jù)進行下采樣操作,并使該階段中的其他層均保持相同的輸出大小,即空間分辨率和通道的數(shù)量總和不變,當輸入數(shù)據(jù)的形狀尺寸為H×W×C時,每級網(wǎng)絡的輸出空間分辨率分別降低為H×W的1/4,1/8,1/16和1/32倍,同時輸出通道數(shù)量隨著分辨率的降低而增加,其中,H和W分別表示輸入圖像的高度和寬度.然后,再將輸出部分經(jīng)過BN(Batch Normalization)層、GELU激活函數(shù)、大核注意模塊LKA和卷積前饋網(wǎng)絡CFF(Convolutional Feed-Forward)按L組順序疊加的結(jié)構(gòu)以提取特征.最后,在每個階段的末端應用Layer Norm層.

VAN網(wǎng)絡中最關鍵的部分是LKA模塊,其結(jié)構(gòu)如圖4所示.其中DW-Conv(Depth-Wise Convolution)深度卷積即空間局部,可以利用圖像局部上下文信息,用于提取視頻動作的局部特征,DW-D-Conv(Depth-Wise Dilation Convolution)深度擴展卷積即空間長程卷積,提供了深度方向的擴張卷積,有利于捕獲動作中長距離的依賴關系,Attention注意力機制和1×1 Conv的結(jié)合實現(xiàn)了網(wǎng)絡的空間適應性及通道適應性.LKA模塊可以表示為:

圖4 LKA網(wǎng)絡結(jié)構(gòu)Fig.4 Network structure of LKA

Attention=Conv1×1(DW-D-Conv(DW-Conv(F)))

(1)

Output=Attention?F

(2)

其中F∈RC×H×W是輸入特征,Attention∈RC×H×W表示注意力圖,圖中的值代表每個特征的重要性,?代表元素乘積.

如上所述,LKA模塊結(jié)合了卷積與自注意力模型的優(yōu)點,能夠獲取空間動作的長距離關系,利于解決本文所提出的卷積網(wǎng)絡忽略動作長距離依賴關系進而導致誤判的問題.

1.2 極化自注意力模塊(PSA)

針對第2個問題,本文發(fā)現(xiàn)在卷積操作提取RGB幀信息的過程中,通常會降低空間維度以提高通道維度,然而空間維度的降低不可避免地會造成空間特征損失,同時視頻背景噪聲也可能會對動作識別的準確性造成消極影響,因此本文考慮在將動作視頻輸入視覺注意網(wǎng)絡VAN進行特征提取之前,首要處理好特征損失的問題以及減少背景噪聲帶來的負面影響.

研究發(fā)現(xiàn)像素級任務中能夠?qū)Ω叻直媛瘦斎牖蜉敵鎏卣鞯倪h距離依賴關系進行建模,并且能估計其高度非線性的像素語義,是計算機視覺領域的一項重要任務[25].其中,像素回歸問題中相同語義的像素外觀和圖片形狀是高度非線性的,目標是將具有相同語義的每個圖像像素映射到相同的分數(shù),例如將背景像素分別映射到0,將所有前景像素分別映射到它們的類索引.受此啟發(fā),本文認為像素級任務中更關注于圖像的細節(jié)內(nèi)容,回歸任務可以有效增強或抑制部分特征,因此本文考慮利用像素級任務中的方法解決視頻動作識別中的問題.

Liu[15]等人提出一種極化注意力模塊(Polarized Self-Attention,PSA),用于突出或抑制部分特征信息,這與光學透鏡過濾光的作用相似,由于攝影中橫向總會有隨機光的產(chǎn)生影響圖像質(zhì)量,而極化濾波僅能通過與橫向正交的光,這樣便可以提高照片的對比度.極化注意力模塊PSA中主要有兩個重要設計部分,第1點是極化濾波,使得圖像在一個方向上的特征能夠完全折疊,同時在其正交方向上保持高分辨率,其主要作用是在通道和空間兩個分支中,分別保持較高的分辨率,降低由空間維度降低帶來的特征損失.第2點是增強部分,采用Softmax進行歸一化,再使用Sigmoid函數(shù)增加注意力的動態(tài)范圍,能夠更加真實的擬合輸出分布.本文使用并聯(lián)形式的PSA模塊,主要有兩部分組成,左邊為通道分支,右邊為空間分支,分別以C×H×W作為輸入特征,其結(jié)構(gòu)如圖5所示.

圖5 PSA模塊結(jié)構(gòu)Fig.5 Module structure of PSA

由圖5可知,PSA模塊主要有通道和空間兩個分支.在通道分支中,先將輸入特征X經(jīng)過1×1的卷積后轉(zhuǎn)換為Q和V,Q的通道被全部壓縮,而V的通道保持C/2.經(jīng)過Softmax函數(shù)后對Q的信息進行增強,并增加注意力的范圍,然后將Q和V做矩陣乘法運算,再經(jīng)過1×1卷積、LN層將通道數(shù)量升為C,最后使用Sigmoid函數(shù)進行動態(tài)映射,使所有參數(shù)保持在0~1之間.在空間分支中,不同的是將Q特征的空間維度壓縮為1×1的大小,而V特征的空間維度保持為H×W,同樣采用Softmax增強Q的信息,以及Sigmoid使得參數(shù)在0~1之間.

如上所述,極化自注意力PSA模塊能夠降低由空間維度降低造成的特征損失,同時可以實現(xiàn)減小圖像的背景噪聲,對于有效解決本文所提視頻動作識別任務中的問題起著重要作用.

1.3 注意力機制的TS-PVAN雙流動作識別

由于傳統(tǒng)的卷積神經(jīng)網(wǎng)絡主要提取動作的局部特征信息,缺乏通道、空間的適應性及長程依賴性,雖然在卷積網(wǎng)絡中加入通道和空間注意力可以實現(xiàn)通道及空間適應性,但同樣缺乏長程依賴性.有關研究表明自注意力模型能夠?qū)﹂L程依賴關系進行建模,這在視覺任務中非常重要.同時本文注意到2.1節(jié)介紹的VAN網(wǎng)絡結(jié)合了卷積網(wǎng)絡與自注意力模型的優(yōu)點,不僅能夠提取動作的局部特征、實現(xiàn)通道及空間的適應性,還能捕獲空間長距離依賴關系,適用于各類計算機視覺任務,并有利于解決處理視頻動作識別時只關注局部特征,忽略動作長距離關系而導致的誤判問題.

受此啟發(fā),本文基于TSN雙流模型的框架,首先設計了一種時空特征融合的TS-VAN模型.模型采用VAN網(wǎng)絡替換簡單的卷積網(wǎng)絡作為空間流的主干網(wǎng)絡,目的是處理RGB幀從而提取視頻動作中更豐富的空間特征.結(jié)合異構(gòu)的思想,模型時間流部分仍采用BN-Inception卷積網(wǎng)絡處理光流數(shù)據(jù)提取時間信息.最后融合雙流網(wǎng)絡的時空特征.模型可以通過提高對RGB幀中空間特征信息的利用,更好地融合時空特征,從而提高動作識別準確率.其中,VAN網(wǎng)絡的四級結(jié)構(gòu)信息設置如表1所示,C為該級的通道數(shù),L為部分結(jié)構(gòu)的疊加次數(shù).

表1 VAN結(jié)構(gòu)設置Table 1 Structural settings of VAN

此外,本文注意到使用VAN網(wǎng)絡處理RGB視頻幀時,通常需要降低空間維度、提高通道維度,這種方式可能會造成特征信息的丟失.其次,空間網(wǎng)絡主要提取的是RGB幀的外觀、位置及形狀特征,而這些信息對圖像背景噪聲比較敏感.

針對以上問題,本文引入極化自注意力機制,從而提出一種注意力機制的TS-PVAN雙流動作識別模型.本文將2.2節(jié)介紹的極化自注意力PSA模塊插入VAN網(wǎng)絡的前端,構(gòu)成P-VAN作為空間流的主干網(wǎng)絡.由于PSA模塊包括通道分支和空間分支兩個部分,并采用自注意機制獲取注意力權(quán)重,因此可以視為是對VAN網(wǎng)絡的增強注意.TS-PVAN動作識別模型在捕獲長距離動作特征信息的同時,可以在空間網(wǎng)絡中提取高空間分辨率下的動作特征,減少由空間維度降低造成的特征損失,同時減小視頻背景噪聲對識別結(jié)果的影響,實現(xiàn)在空間流中提取更豐富的視頻動作空間特征,以達到增強時空特征融合的效果,最終提高動作識別準確率.

TS-PVAN模型結(jié)構(gòu)如圖2所示.本文采用與TSN相同的時間分割策略,并利用異構(gòu)的方式,在空間網(wǎng)絡中,經(jīng)過實驗驗證后將給定的視頻v按其時間長度平均分為k段(本文設置k=5),再從每段截取的視頻中隨機抽取1幀,組成短片段{s1,…,sk}.時間網(wǎng)絡的抽幀方式與其相同,只是每段抽取的是連續(xù)5幀光流作為輸入.然后將短片段中的si分別作為雙流網(wǎng)絡的輸入,得到其動作類別得分,再將s1~sk的類別得分進行均值融合.最后使用Softmax函數(shù),計算整個視頻分別對應于每個類別的概率.計算過程可以表示為:

(3)

其中,S表示為Softmax函數(shù),M表示均值融合函數(shù),F(si;W)表示以W為參數(shù)的網(wǎng)絡模型函數(shù),計算得到si的初始分類得分.融合結(jié)果的損失函數(shù)定義如下:

(4)

其中,n表示動作類別總數(shù),yi∈{0,1}表示第i類動作的真實標簽,mi為該類動作的初始得分.反向傳遞誤差時,可得損失函數(shù)L相對網(wǎng)絡參數(shù)W計算的梯度可表示為:

(5)

在模型訓練時,將視頻數(shù)據(jù)輸入到網(wǎng)絡模型中,然后使用k個片段的融合結(jié)果通過反向傳遞誤差以更新網(wǎng)絡的參數(shù),最終訓練得到視頻級動作識別網(wǎng)絡參數(shù)值,以相同的方式對訓練后得到的模型進行測試,得到該動作識別模型的準確率.

2 實驗分析

本節(jié)首先介紹實驗所用數(shù)據(jù)集,其次詳述實驗的訓練與測試過程,最后與現(xiàn)有雙流動作識別方法的結(jié)果進行比較,驗證了所提模型的有效性.本文所有實驗均在一臺Linux服務器上進行,其操作系統(tǒng)為Ubuntu 16.04,搭載4塊RTX2080Ti GPU,所用軟件包括python開發(fā)環(huán)境和pytorch框架等.

2.1 數(shù)據(jù)集

本文在HMDB51和UCF101兩個大型動作識別數(shù)據(jù)集上驗證所提模型的有效性,這兩個數(shù)據(jù)集常用于雙流網(wǎng)絡的動作識別任務中,包含RGB及光流兩種模態(tài)的數(shù)據(jù),本文所對比的雙流方法也均給出這兩個數(shù)據(jù)集的實驗結(jié)果.Kinetics數(shù)據(jù)集多用于單流網(wǎng)絡的方法,只對RGB數(shù)據(jù)進行處理的情況,對本文而言缺乏可對比性.因此,本文選用HMDB51和UCF101數(shù)據(jù)集進行實驗,便于對比分析模型性能.

其中,UCF101數(shù)據(jù)集包含101個動作類別,共有13320個視頻,視頻來自YouTube中注釋的視頻片段,每個視頻時長約在10秒內(nèi).HMDB51數(shù)據(jù)集包含51個動作類別,共有6766個視頻,主要來自YouTube、Google視頻等,可分為5個大類:1)常見面部動作:如微笑、交談;2)復雜面部動作:如吃、喝;3)常見肢體動作:如爬、倒立;4)復雜肢體動作:如騎馬、射弓;5)多人交互動作:如擁抱、握手等,其部分動作示意圖如圖6所示.本節(jié)實驗按照文獻[5]中的標準評估協(xié)議將數(shù)據(jù)集劃分為訓練集與測試集.

圖6 HMDB51數(shù)據(jù)集部分動作示意圖Fig.6 Schematic diagram of actions of the HMDB51 dataset

2.2 實驗設置

預訓練策略:近年來,大量研究證實,使用預訓練模型的權(quán)重初始化訓練網(wǎng)絡的參數(shù)能夠有效提高網(wǎng)絡的識別準確率,因此,本文使用在ImageNet[26]數(shù)據(jù)集上經(jīng)過預訓練得到的VAN模型及BN-Inception模型的參數(shù)對雙流網(wǎng)絡的權(quán)重進行初始化,對于RGB數(shù)據(jù),VAN網(wǎng)絡的預訓練模型輸入的卷積層的卷積核尺寸為三通道的,所以可以直接初始化網(wǎng)絡權(quán)重,而光流數(shù)據(jù)的通道數(shù)為10,不能直接初始化,光流數(shù)據(jù)有兩個方向即水平和垂直,采用的是連續(xù)5幀光流數(shù)據(jù)作為網(wǎng)絡的輸入,因此,首先將卷積核的三通道經(jīng)過復制改為通道數(shù)為10的卷積核,再使用修改后的模型參數(shù)對網(wǎng)絡模型進行初始化.

訓練:本文將數(shù)據(jù)集劃分為3個部分,分別進行訓練,最后取得3部分的平均值作為最終準確率.本文所有實驗均采用小批量隨機梯度下降法訓練網(wǎng)絡參數(shù),其中空間網(wǎng)絡的batch_size設置為16,時間網(wǎng)絡的batch_size設置為32,視頻分段數(shù)均設置為k=5.在空間網(wǎng)絡中,設置初始學習率為0.001,共80個epoch,當epoch分別為30和60時將學習率衰減為原來的1/10,dropout設置為0.8以防止過擬合.在時間網(wǎng)絡中,設置初始學習率也為0.001,共340個epoch,當epoch分別為190和300時將學習率衰減為原來的1/10,dropout設置為0.7.每個epoch結(jié)束后保存一次訓練模型參數(shù),并在訓練過程中更新最優(yōu)模型的參數(shù).此外,為避免數(shù)據(jù)集樣本量過小可能導致過擬合的問題,實驗中還采用了數(shù)據(jù)增強方法,保證模型的性能.

測試:本文按照文獻[5]中的測試方案對訓練得到的模型進行測試.首先以等間隔的劃分方式分別對RGB及光流數(shù)據(jù)采樣25幀,其次對抽取的視頻幀以裁剪4個角及1個中心的方式處理,再進行水平翻轉(zhuǎn)后輸入訓練得到的模型中.在對分段的數(shù)據(jù)進行特征融合時,采用平均融合的方法,將所分的25段圖像幀的分類結(jié)果取平均值作為最終的分類結(jié)果.然后采用加權(quán)融合的方式并通過遍歷搜索權(quán)重值來對空間網(wǎng)絡與時間網(wǎng)絡的分類得分進行融合,遍歷搜索權(quán)重值的方法能夠有效獲取模型的最優(yōu)性能,最后得到本文所提模型的最終識別率.

2.3 實驗比較分析

下面首先分析由VAN網(wǎng)絡構(gòu)成空間主干網(wǎng)絡的TS-VAN模型的動作識別準確率,再對由P-VAN作為空間主干網(wǎng)絡的TS-PVAN模型的實驗結(jié)果進行分析,最后將本文所提模型與目前的一些主流方法進行對比,驗證所提模型的有效性.TSN網(wǎng)絡中將視頻數(shù)據(jù)分為3段,為提高模型識別精度,本文經(jīng)過實驗分別將視頻段數(shù)分為3、5、7,發(fā)現(xiàn)當視頻分為5段時識別準確率最高,考慮到段數(shù)越高數(shù)據(jù)冗余越明顯,為了便于做對比分析,本文所有實驗都將視頻分段數(shù)設置為5.

2.3.1 TS-VAN模型實驗結(jié)果

為了捕捉空間長距離依賴關系,提取視頻動作更豐富的動作特征,本文將VAN視覺注意網(wǎng)絡引入到處理RGB幀的空間主干網(wǎng)絡中,光流數(shù)據(jù)仍采用BN-Inception卷積網(wǎng)絡處理,構(gòu)成TS-VAN模型.本文在HMDB51與UCF101兩個數(shù)據(jù)集上進行實驗以體現(xiàn)模型的泛化能力,實驗結(jié)果如表2、表3所示,表中分別給出了基線TSN與TS-VAN兩種方法處理RGB單流數(shù)據(jù)的識別準確率以及雙流融合后的準確率的對比結(jié)果.

表2 HMDB51在TS-VAN模型的識別準確率(%)Table 2 Performance comparison of HMDB51 in TS-VAN model(%)

表3 UCF101在TS-VAN模型的識別準確率(%)Table 3 Performance comparison of UCF101 in TS-VAN model(%)

由上述實驗結(jié)果對比可知,空間主干網(wǎng)絡采用VAN網(wǎng)絡與TSN中使用卷積網(wǎng)絡相比,在兩個數(shù)據(jù)集上提取空間特征的能力分別提高6.0%和2.6%,雙流融合后的結(jié)果分別提高了4.8%和1.1%,證明了視覺注意網(wǎng)絡VAN相比原有卷積網(wǎng)絡能夠捕獲空間范圍上更豐富的動作特征,驗證了本文設計的TS-VAN模型的有效性.

2.3.2 TS-PVAN模型實驗結(jié)果

由于VAN網(wǎng)絡處理空間網(wǎng)絡中視頻RGB幀時降低空間維度可能會帶來特征損失,且視頻動作的背景噪聲也會對識別結(jié)果造成影響,本文又在TS-VAN結(jié)構(gòu)的基礎上,將極化自注意力PSA模塊插入VAN網(wǎng)絡的前端以構(gòu)成P-VAN網(wǎng)絡作為TS-PVAN模型的空間網(wǎng)絡,以增強空間流網(wǎng)絡提取動作空間特征的能力,時間流網(wǎng)絡同樣選取BN-Inception卷積網(wǎng)絡.最后,通過對比HMDB51與UCF101兩個數(shù)據(jù)集分別在TSN及TS-PVAN模型上的實驗結(jié)果及對比如表4、表5所示.

表4 HMDB51在TS-PVAN模型的識別準確率(%)Table 4 Performance comparison of HMDB51 in TS-PVAN model(%)

表5 UCF101在TS-PVAN模型的識別準確率(%)Table 5 Performance comparison of UCF101 in TS-PVAN model(%)

由表中結(jié)果可知,TS-PVAN方法相比TSN在空間網(wǎng)絡提取特征的性能在HMDB51數(shù)據(jù)集上達到58.8%,提高了7.6%,在UCF101數(shù)據(jù)集上達到89.0%,提高了3.8%,雙流融合后的準確率分別提高5.7%和1.7%.此外,TS-PVAN與TS-VAN相比,在兩個數(shù)據(jù)集上提取空間特征的能力分別提升了1.6%和1.2%.可見,本文設計的兩種空間網(wǎng)絡能夠提高對RGB幀的處理能力,有利于改善時空特征融合的性能,驗證了本文所提模型的有效性.

為了清晰地觀察模型訓練過程中性能的變化,本文分別給出本文所提TS-PVAN模型對HMDB51與UCF101兩個數(shù)據(jù)集,在空間網(wǎng)絡中訓練RGB單流數(shù)據(jù)提取動作特征的過程中,識別準確率的變化趨勢如圖7、圖8所示,橫坐標表示為epoch的數(shù)目,總計80,縱坐標為該輪次對應的識別準確率.

圖7 HMDB51上RGB單流準確率變化圖(%)Fig.7 RGB single-stream accuracy change chart on HMDB51

圖8 UCF101上RGB單流準確率變化圖(%)Fig.8 RGB single-stream accuracy change chart on UCF101

2.3.3 同主流方法的性能對比

本節(jié)將所提雙流動作識別TS-PVAN模型的性能與目前幾種比較先進的雙流網(wǎng)絡方法進行比較,并分別給出在兩種HMDB51與UCF101數(shù)據(jù)集上的識別準確率對比結(jié)果如表6所示.

表6 兩種數(shù)據(jù)集上本文方法同現(xiàn)有方法對比Table 6 Comparison of the method proposed in this paper and existing methods on the HMDB51 and UCF101 dataset

由表中數(shù)據(jù)可知,對于HMDB51數(shù)據(jù)集,所提方法與TSN雙流方法相比提升了5.7%,與基于時空特征乘法交互的Mul-ResNet[27]方法和時空金字塔模型ST-pyramid[28]相比提升5.3%,與殘差時空注意模型R-STAN[10]相比提升5.5%,與IP TSN[11]模型和ISTPAN[12]模型相比分別提升5.1%和4.6%,相比DMC-Net[13]網(wǎng)絡提升了2.4%.此外,對于UCF101數(shù)據(jù)集,與這幾種雙流網(wǎng)絡相比,識別準確率大約提升0.6%~3.1%.實驗表明本文所提TS-PVAN模型的有效性及泛化性,同時說明該模型在相對較小的數(shù)據(jù)集上能達到更好的識別效果.

3 結(jié) 論

本文提出一種注意力機制的TS-PVAN雙流動作識別模型.首先給出模型整體架構(gòu),介紹了視覺注意網(wǎng)絡VAN和極化自注意力模塊PSA的特點及網(wǎng)絡結(jié)構(gòu).其次將VAN網(wǎng)絡引入動作識別雙流模型中,作為空間主干網(wǎng)絡處理RGB數(shù)據(jù)以捕獲視頻動作在空間上的長距離依賴性,充分利用豐富的空間特征.最后將PSA模塊插入VAN網(wǎng)絡的前端,構(gòu)成P-VAN作為空間主干網(wǎng)絡,減少了空間維度降低造成的特征損失且降低視頻背景噪聲對特征提取的影響.在HMDB51和UCF101兩個數(shù)據(jù)集上進行實驗,實驗結(jié)果驗證了本文所提模型的有效性,同時具有一定的泛化能力.此外,在本文已完成工作的基礎上,未來將進一步考慮對時間網(wǎng)絡的改進,如何高效地建模長范圍時間結(jié)構(gòu),提取豐富的長期時間信息,是下一步將要重點展開研究的工作內(nèi)容.

猜你喜歡
雙流注意力卷積
四川省成都市雙流區(qū)東升迎春小學
中小學校長(2022年7期)2022-08-19 01:36:36
讓注意力“飛”回來
基于3D-Winograd的快速卷積算法設計及FPGA實現(xiàn)
雙流板坯側(cè)面鼓肚與邊角掛鋼原因與對策
冶金設備(2020年2期)2020-12-28 00:15:22
雙流機場一次低能見度天氣過程分析
四川省成都雙流中學實驗學校
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標跟蹤算法
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
大港区| 英山县| 叙永县| 茂名市| 武宁县| 玛曲县| 岳西县| 石泉县| 绥化市| 乐平市| 中西区| 黑河市| 绍兴县| 桃源县| 淅川县| 宁国市| 沐川县| 巫山县| 谷城县| 厦门市| 平原县| 克什克腾旗| 海阳市| 商城县| 嘉荫县| 乌兰浩特市| 金山区| 丹凤县| 林口县| 腾冲县| 收藏| 冷水江市| 新闻| 苏尼特右旗| 蒙山县| 丽江市| 拉萨市| 威信县| 牟定县| 宣威市| 永州市|