陳欣悅,高陳強,陳 旭,黃思翔
(1.重慶郵電大學(xué) 通信與信息工程學(xué)院,重慶 400065;2.信號與信息處理重慶市重點實驗室,重慶 400065)
隨著深度學(xué)習(xí)的發(fā)展,視頻理解逐漸受到關(guān)注,其中,時空行為檢測是計算機視覺的一個重要研究領(lǐng)域,其目的是對視頻中呈現(xiàn)的行為進(jìn)行分類,并在空間和時間上對其進(jìn)行定位。
在以往的方法中,人們通常使用目標(biāo)檢測網(wǎng)絡(luò)處理連續(xù)單幀視頻來檢測時空行為[1-4],這樣就將連續(xù)視頻幀視為一組連續(xù)的圖像,在每一幀視頻幀中檢測目標(biāo)及其行為類別,然后在一段時間內(nèi)的連續(xù)視頻幀中跟蹤檢測出來的目標(biāo),重新形成視頻結(jié)果。這種方法使得目標(biāo)檢測網(wǎng)絡(luò)無法獲取視頻中存在的時序信息,類間差距小的行為類別也不能很好地區(qū)分。為了獲取視頻中的時序信息,目前典型的時空行為檢測方法主要是通過目標(biāo)檢測算法確定目標(biāo)所在區(qū)域,然后進(jìn)行目標(biāo)跟蹤和特征提取,最后利用行為識別算法對單個目標(biāo)的一段視頻通道進(jìn)行行為分類[5]。
目標(biāo)檢測算法是時空行為檢測中最重要的一環(huán),獲取到目標(biāo)所在位置形成單目標(biāo)視頻幀鏈路才能進(jìn)行行為分類。主流的行為檢測方法主要使用兩階段目標(biāo)檢測網(wǎng)絡(luò)Faster-RCNN等[3]來提高算法在定位目標(biāo)時的準(zhǔn)確率。隨著行為檢測算法對于實時性的需求日益增加,使用單階段目標(biāo)檢測方法YOLOv4[6]、YOLOv5[7]等能夠加快算法的檢測速度。然而,過于復(fù)雜的網(wǎng)絡(luò)仍然會導(dǎo)致檢測速度較慢,因此,一些輕量級網(wǎng)絡(luò)被陸續(xù)提出。Ma[8]總結(jié)了相同F(xiàn)LOPs模型檢測速度差異的原因,并在此基礎(chǔ)上對算法進(jìn)行了改進(jìn)。ESNet[9]在GhostNet[10]中引入了SE模塊和Ghost模塊,并加入了深度可分離卷積學(xué)習(xí)不同通道的信息,使得該模型在保證實時性的同時進(jìn)一步提高模型的精度。
分類部分則將網(wǎng)絡(luò)架構(gòu)和先驗知識從圖像領(lǐng)域推廣到視頻領(lǐng)域,例如將二維模型轉(zhuǎn)換為三維模型[11],以便更好地獲取視頻中的時序信息。三維卷積是二維卷積的自然延伸,它利用三維核函數(shù)捕捉時空特征,通過疊加三維濾波器提取時序相關(guān)性。Carreira和Zisserman[12]為了遷移在圖像領(lǐng)域深度學(xué)習(xí)分類模型的參數(shù),提出在ImageNet[13]上預(yù)訓(xùn)練Inception-V1[14]的權(quán)重來識別視頻中的行為。除了三維卷積,其他一些方法也是在現(xiàn)有網(wǎng)絡(luò)上設(shè)計獲取時序信息模塊。Wang等[15]提出了一種非局部操作來建立視頻幀特征圖上不同時空位置之間的相關(guān)性。Zhang等[16]提出采用四維卷積來捕獲視頻級片段之間的關(guān)系。Wu等[17]設(shè)計了一個長時間特征庫,從整個視頻中收集特征,然后在訓(xùn)練網(wǎng)絡(luò)時使用對應(yīng)的算子與之交互。Yang等[18]提出了一個時間金字塔網(wǎng)絡(luò),利用不同層次的特征聚集多尺度的時間信息。MOC[19]算法將行為檢測分為了3個分支,分別獲取位置和時序運動信息。為了更好地保留視頻的空間、時序等上下文信息,TubeR[20]、HIT[21]等算法將transformer引入到行為檢測領(lǐng)域中。
然而,所有這些獲取時序信息的方法都引入了額外的計算。為了研究三維網(wǎng)絡(luò)中的有效部分,Feichtenhofer[22]從持續(xù)時間、幀率、空間分辨率、網(wǎng)絡(luò)寬度、瓶頸寬度和深度等方面尋找視頻分析的架構(gòu)。一些方法[23-25]將原始的三維核分解為空間(二維)和時間(一維)卷積,以減少總計算量。同時,Road[26]算法在定位部分使用單階段的SSD算法并通過在線算法進(jìn)行實時的時空檢測,從而可以在線進(jìn)行行為預(yù)測。YOWO[27]算法通過三維卷積與YOLOv2相結(jié)合的統(tǒng)一的框架提取空間信息和時序信息,形成端到端的行為檢測網(wǎng)絡(luò),從而減少網(wǎng)絡(luò)的計算量,提高檢測速度。由于基于三維卷積的方法仍然耗時較長,因此,有研究關(guān)注基于二維卷積的架構(gòu)以追求效率。典型的雙流網(wǎng)絡(luò)[28]將單個視頻幀及其光流獨立地輸入2個二維網(wǎng)絡(luò),并將它們的分?jǐn)?shù)融合在一起進(jìn)行最終預(yù)測。該方法雖然能較好地提取行為中的時間信息,但將定位和分類過程分離,使網(wǎng)絡(luò)無法復(fù)用有效的特征信息。Chen等[29]將時序信息保留在二維圖像中,利用長時間建模特性,使用四維卷積實現(xiàn)時空特征提取。同時,MaskFeat[30]和VideoMAE[31]算法用視頻級掩碼將檢測任務(wù)轉(zhuǎn)換為自監(jiān)督任務(wù),使得少量高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練就能獲得較高的準(zhǔn)確率。
本文設(shè)計了一種新的單階段時空行為檢測網(wǎng)絡(luò)。將時空圖像(spatio-temporal image,STI)引入到時空行為檢測任務(wù)中,以替代原有的視頻幀序列。為了從時空圖像中獲取時序信息,使用協(xié)同卷積(collective convolution,CoConv)來提取特征。它由2個層次組成,空間層次實現(xiàn)內(nèi)部像素的常規(guī)卷積,而時間層次實現(xiàn)跨幀像素之間的卷積。因此,協(xié)同卷積在形式上是一個四維卷積核,可以捕獲精細(xì)的空間信息和長期的時序信息。此外,通過設(shè)置空間級卷積和時間級卷積的核大小,在與二維卷積同等大小的參數(shù)量和引入少量計算量的情況下,可獲得與四維卷積等效的效果,減少三維卷積帶來的計算負(fù)擔(dān)。實驗結(jié)果表明,本文方法在保證一定準(zhǔn)確率的情況下,能夠有效地減少計算量,相較于目前主流的行為檢測算法,本文具有一定的優(yōu)勢。
本文基于YOLOv5基本結(jié)構(gòu),設(shè)計單階段時空行為檢測網(wǎng)絡(luò),在保證準(zhǔn)確率的同時提高了檢測速度。整個網(wǎng)絡(luò)結(jié)構(gòu)由1個協(xié)同卷積層和4個協(xié)同卷積特征提取模塊組成的骨干網(wǎng)絡(luò)和有協(xié)同卷積參與的檢測頭部組成,如圖1所示。本文將時空圖像輸入到批歸一化層(batch normalization,BN)(卷積核為6×6)后,通過4層的協(xié)同卷積模塊得到骨干網(wǎng)絡(luò)輸出的卷積特征。圖1中,虛框的協(xié)同卷積模塊由卷積層、最大池化層和瓶頸層(BottleneckCSP)組成。本文在卷積層和瓶頸層(其中卷積核為3×3)中使用協(xié)同卷積操作來替換二維卷積操作。使用1×1×3×3卷積核的協(xié)同卷積,保證網(wǎng)絡(luò)能夠在時空圖像中獲得單幀視頻幀的特征。為了得到所有像素點的特征信息,卷積運算的步長為1。同時,為了保證得到不同尺度的特征信息,采用步長為2的最大池化層來降低空間分辨率,提高網(wǎng)絡(luò)識別不同尺度目標(biāo)的有效性。特征提取模塊輸出3個尺度的特征張量輸入到檢測頭部中進(jìn)行定位和分類。檢測頭部先經(jīng)過空間金字塔池化層、協(xié)同卷積層、上采樣、連接層和瓶頸層得到后續(xù)需要的特征信息,再由協(xié)同卷積層、最大池化層、連接層和瓶頸層組成的3個支路,分別得到3個特征尺度的檢測結(jié)果。在通常情況下,使用卷積核大小為1×1×3×3的協(xié)同卷積得到的結(jié)果與目標(biāo)檢測一致,無法得到時空圖像中的時序信息,所以,在檢測頭部中,本文使用卷積核大小為3×3×1×1的協(xié)同卷積,使網(wǎng)絡(luò)能夠獲取到相同位置不同時間的特征信息,以便得到特征的定位和分類結(jié)果。
圖1 本文方法的網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.1 Illustration of the proposed method
主流方法與時空圖像方法流程圖如圖2所示。主流時空行為檢測使用連續(xù)視頻幀和三維卷積模型進(jìn)行行為的定位和分類,為了減少視頻輸入使用三維卷積帶來的空間復(fù)雜度和時間復(fù)雜度的提升,同時能夠在圖像中獲取到視頻中的時序信息,本文將時空圖像[29]引入時空行為檢測中,使得二維卷積模型就能夠得到三維模型相似的特征信息。
圖2 主流方法與時空圖像方法流程圖Fig.2 Flow chart of mainstream methods and spatiotemporal image methods
原始視頻V可以表示為
(1)
(1)式中:T表示視頻幀總數(shù);It表示t時刻的視頻幀;R表示整個視頻幀的集合;H×W表示每一視頻幀空間大小。本文將V分割成Te個片段形成集合A,即從每個片段ai中以s為步長連續(xù)密集采樣Te幀。
(2)
ai,j=Iti+sj
(3)
(2)—(3)式中:ti表示片段ai開始的時間;j為索引,且j∈[0,Te-1]。本文中,設(shè)定s=16,Te=4,因此,對于網(wǎng)絡(luò)每一次向前傳遞的過程中,獲得了Te×Te幀,使用這些視頻幀形成時空圖像。用S表示(h,w)位置的像素,則時空圖像的表達(dá)式為
S(h,w)=
(4)
在時空行為檢測任務(wù)中,對于一般的連續(xù)視頻幀作為輸入,時空圖像將視頻幀進(jìn)行拼接,不占用額外的存儲空間,不占用額外的計算資源。
時空圖像為較大的視頻幀拼接圖像,通常使用的二維卷積不適合該圖像的特征提取和分類,本文引入了“協(xié)同卷積”[29]替換傳統(tǒng)的二維卷積來提取時空圖像的時空特征,能夠從圖像中提取到視頻的時序信息。
為了計算簡單,本文設(shè)定圖像長寬等長為n,協(xié)同卷積的輸入尺度為C×Ten×Ten的張量X,其中,C是輸入的通道數(shù)。輸入張量的四維卷積表達(dá)式為
Xc(h+un+q,w+vn+r)
(5)
(5)式中:Oj(h,w)為(h,w)位置上的像素經(jīng)過第j層卷積的輸出;bj為偏移項。協(xié)同卷積的卷積核為U×V×Q×R,其中,U×V是空間級卷積的大小,Q×R是時序級卷積的大小。Wjc(u,v,q,r)是第c個輸出通道在(u,v,q,r)位置的權(quán)值,其中,(q,r)是每個像素在單幀視頻幀中的空間位置,(u,v)是像素在時空圖像中的位置。Xc為第c個通道的輸入特征。在(5)式中忽略了批處理大小。如果設(shè)定Δh=uσ,Δw=vσ,Xc的位置可以表示為
(6)
Oj(h,w)=bj+
(7)
(7)式中,方括號表達(dá)式可以由傳統(tǒng)的二維卷積來實現(xiàn)。因此,可以通過共同使用U×V的二維卷積核,并對每個核的輸入張量進(jìn)行不同的移位操作來實現(xiàn)四維卷積。
與二維卷積相比,四維卷積可以獲得更多的時序信息和學(xué)習(xí)更復(fù)雜的運動模式,但它在某些情況下可能會引入更多的計算。協(xié)同卷積示意圖如圖3所示,協(xié)同卷積的內(nèi)核是U×V×Q×R。如果設(shè)置U=V=3和Q=R=3,它是一個典型的3×3×3×3的四維內(nèi)核,它的參數(shù)量是卷積核為3×3的二維卷積的9倍。如果設(shè)置U=V=1,Q=R=3或U=V=3,Q=R=1時,協(xié)同卷積擁有與二維卷積相同的參數(shù)量和計算量。更具體地說,U=V=1,Q=R=3的內(nèi)核等價于逐幀的二維卷積,而U=V=3,Q=R=1的內(nèi)核聚合了來自9個視頻幀的逐點信息,可以捕獲長期時序依賴關(guān)系。通過交替疊加它們,網(wǎng)絡(luò)可以學(xué)習(xí)精細(xì)的空間信息和全局的時間關(guān)系。本文為了能夠在不引入更多的計算量的情況下,獲取到更多的時序信息,采用U=V=1,Q=R=3的內(nèi)核來進(jìn)行特征提取和檢測。
圖3 協(xié)同卷積示意圖Fig.3 Schematic diagram of collective convolution
與YOLOv5相同,本文采用交叉熵與邏輯回歸損失函數(shù)對結(jié)果進(jìn)行約束。將交叉熵?fù)p失函數(shù)與Sigmoid函數(shù)相結(jié)合,L與交叉熵?fù)p失函數(shù)相同,表達(dá)式為
(8)
(8)式中:N表示檢測框中正樣本的數(shù)量;yx表示樣本x的標(biāo)簽,正樣本為1,負(fù)樣本為0;px表示樣本x預(yù)測為正樣本的概率。
本文提出的方法可以在整個視頻中獲得目標(biāo)的行為檢測結(jié)果,它是以視頻中的目標(biāo)為基準(zhǔn),顯示該目標(biāo)在該段視頻中整個行為的鏈路,包含行為的類別和發(fā)生該行為的位置。而時空圖像的檢測結(jié)果中只展示了某時刻目標(biāo)的行為,因此,在獲得時空圖像的檢測結(jié)果之后,本文將結(jié)果轉(zhuǎn)換為視頻通道的檢測結(jié)果,并將其結(jié)果與其他K幀結(jié)果相連通,得到整個視頻鏈路的行為檢測結(jié)果。
本文中,通常情況下設(shè)定Te=4,則K=16。首先,將時空圖像中交并比(intersection over union,IOU)≥θ(一般情況下θ=0.5)的檢測框歸為一個通道,檢查檢測框是否在該通道中75%以上的視頻幀中存在,并且在該通道起始和末尾的12.5%的幀中存在檢測框。設(shè)定yx表示樣本x的標(biāo)簽,該通道的標(biāo)簽為Yx=max(count(yx))。其次,本文將該通道的缺失檢測框使用距離該幀最近的檢測框進(jìn)行復(fù)制補全,表達(dá)式為
BBox=BBoxxi,
xi=xmin(|xi-x|)
(9)
(9)式中:BBox表示檢測框;xi表示被復(fù)制的樣本,最終形成該通道完整的K幀檢測結(jié)果。
本文為了與以前的方法進(jìn)行公平比較,對于整個視頻通道的連接使用了與文獻(xiàn)[32]相同的算法。首先,對檢測結(jié)果進(jìn)行初始化,保留經(jīng)過非極大抑制(non maximum suppression,NMS)后置信度最高的N個通道。然后,在連接過程中,使用貪心算法[33]進(jìn)行通道連接,將得分最高的通道設(shè)定為從該幀開始的N個候選通道中的一個。候選通道在滿足下面三個條件時形成一條鏈路P:①該通道未被其他鏈路選中;②候選通道得分最高;③鏈路與通道的重疊大于閾值。最后,在終止條件中,當(dāng)超過k個連續(xù)幀不滿足這些條件時,鏈路過程停止。該鏈路的檢測分?jǐn)?shù)計算為所有連接通道的平均值。
在本文實驗中,與文獻(xiàn)[19]、[26]等工作相同,本文方法在UCF101-24時空行為檢測數(shù)據(jù)集上進(jìn)行了評估。UCF101數(shù)據(jù)集是行為識別的常用數(shù)據(jù)集,包含了來自24個運動類的3 207個視頻的時空行為實例標(biāo)注。因此,稱UCF數(shù)據(jù)集的行為檢測版本為UCF101-24[33]。這個視頻數(shù)據(jù)集是未經(jīng)裁剪的,因此對行為檢測更具挑戰(zhàn)性。
與主流行為檢測網(wǎng)絡(luò)[19,26-27,34-35]的評估方式相同,本文為了評估網(wǎng)絡(luò)的檢測性能,使用VideoAP作為指標(biāo)。VideoAP不僅用于評估每個檢測框位置和類別的準(zhǔn)確性,而且能夠評估行為發(fā)生時間的準(zhǔn)確性,它能夠評價整個視頻的檢測效果,這不僅取決于每幀的檢測結(jié)果,還取決于視頻幀之間的連接方式。VideoAP根據(jù)鏈路計算交并比,本文將交并比閾值設(shè)定為0.5到0.75來進(jìn)行測試驗證。對于檢測到的實例,只有當(dāng)其和真實值的交并比大于閾值且預(yù)測的類標(biāo)簽是正確時,該實例才被認(rèn)為是正確的。對于每個類別,計算其平均精度(average precision,AP),并對各類別的平均精度求平均值來計算各類平均精度(mean average precision,mAP)。平均精度為準(zhǔn)確率p-召回率r曲線與坐標(biāo)軸圍成的面積,其數(shù)學(xué)表達(dá)式為
(10)
本文為了驗證本文方法是輕量級網(wǎng)絡(luò),使用FLOPs指標(biāo)和模型大小指標(biāo),并使用參數(shù)量來量化方法對網(wǎng)絡(luò)的負(fù)擔(dān)大小。FLOPs為每秒浮點運算次數(shù),即為計算量,用來衡量算法或模型的復(fù)雜度,同時,計算網(wǎng)絡(luò)的參數(shù)量用來比較模塊是否引入了更多的參數(shù)和內(nèi)存負(fù)擔(dān)。為了驗證本文方法檢測速度的優(yōu)越性,使用幀率(frame per second,FPS),即每秒檢測幀數(shù),用來衡量網(wǎng)絡(luò)的檢測速度。
1)軟硬件環(huán)境?;赨buntu16.04平臺,使用Python3.8語言進(jìn)行編程,結(jié)合PyTorch1.8深度學(xué)習(xí)開源框架;使用1塊24 GByte大小的GeForce RTX 3090顯卡并基于CUDA 11.0進(jìn)行訓(xùn)練和檢測。本文涉及的所有實驗均在此環(huán)境下進(jìn)行。
2)具體參數(shù)設(shè)置。按照前面的工作,本文連續(xù)采樣Te×Te幀,并構(gòu)造一個時空圖像作為網(wǎng)絡(luò)的輸入。如果未指定,則在所有實驗中默認(rèn)設(shè)置Te=4。對于訓(xùn)練和檢測階段,將每一幀的長邊大小調(diào)整為224,短邊進(jìn)行等比例縮放,并對于短邊使用黑色填充到輸入的大小(默認(rèn)大小為224×224)。此外,還使用圖像擾動、改變亮度、對比度、飽和度、色相、添加噪聲、翻轉(zhuǎn)、旋轉(zhuǎn)、隨機擦除等來增強數(shù)據(jù)。
本文基于YOLOv5網(wǎng)絡(luò)進(jìn)行改進(jìn),為了驗證方法的有效性,本文進(jìn)行了消融實驗。
1)時空圖像的有效性。本文驗證由時空圖像提供的視頻時序信息用來提升行為檢測效果的有效性,因此,本文分別驗證了正常視頻幀(輸入為224×224大小的視頻單幀圖像)作為輸入和時空圖像作為輸入時網(wǎng)絡(luò)檢測的平均精度,實驗結(jié)果如表1所示。由表1可見,時空圖像可以讓網(wǎng)絡(luò)獲取到視頻中的時序信息,平均精度提高了1.1%,檢測效果有一定的提升。同時由于卷積方式與時空圖像不匹配,提升效果有限。
表1 時空圖像實驗結(jié)果
2)協(xié)同卷積和協(xié)同卷積模塊的有效性。為了在不增加參數(shù)量的情況下,保證特征提取的有效性,并且能夠提取到時空圖像中的時序信息,本文在YOLOv5網(wǎng)絡(luò)的基礎(chǔ)上,將骨干網(wǎng)絡(luò)部分所有的二維卷積替換為1×1×3×3卷積核大小的協(xié)同卷積,檢測頭部網(wǎng)絡(luò)所有的二維卷積替換為3×3×1×1卷積核大小的協(xié)同卷積。同時,為了驗證協(xié)同卷積是否能夠在骨干網(wǎng)絡(luò)中更好地提取特征,本文還分別驗證了骨干網(wǎng)絡(luò)為3×3×1×1的協(xié)同卷積,檢測頭部網(wǎng)絡(luò)為3×3×1×1的協(xié)同卷積的網(wǎng)絡(luò)和骨干網(wǎng)絡(luò)為3×3×1×1的協(xié)同卷積,檢測頭部網(wǎng)絡(luò)為1×1×3×3的協(xié)同卷積的網(wǎng)絡(luò)。具體實驗結(jié)果如表2所示??梢缘玫?將骨干網(wǎng)絡(luò)部分所有的二維卷積替換為1×1×3×3的協(xié)同卷積,檢測頭部網(wǎng)絡(luò)所有的2維卷積替換為3×3×1×1的協(xié)同卷積的網(wǎng)絡(luò)比其余特征提取和檢測網(wǎng)絡(luò)能更好地進(jìn)行行為檢測任務(wù)。同時,表2中第2個實驗中使用的協(xié)同卷積與普通二維卷積類似,仍然獲得了提升,驗證時空圖像拼接邊界對檢測有一定的影響,協(xié)同卷積更加適合時空圖像。表2中,實驗3、4、5驗證了協(xié)同卷積對骨干網(wǎng)絡(luò)和檢測頭部的影響,實驗表明,在檢測頭部單獨使用3×3×1×1的協(xié)同卷積能夠更有效地檢測到時空圖像的時序信息,骨干網(wǎng)絡(luò)提取特征更加適合類似于二維卷積的1×1×3×3的協(xié)同卷積,從而得到單幀圖像的完整特征信息。本文方法比使用時空圖像的原網(wǎng)絡(luò)更具有有效性,videoAP0.5和videoAP0.75分別提高了6.58%和3.41%。同時,由參數(shù)量指標(biāo)可以得出,本文方法引入的協(xié)同卷積模塊在上述所有的情況下都沒有引入額外的參數(shù)負(fù)擔(dān),并且在保證參數(shù)量相同的情況下,比YOLOv5僅增加了56.8GFLOPs的計算量就完成了行為檢測任務(wù)。
表2 協(xié)同卷積實驗結(jié)果
基于所使用的UCF101-24數(shù)據(jù)集,將本文方法和現(xiàn)有最先進(jìn)的行為檢測方法在精度和檢測速度等方面進(jìn)行比較,其實驗結(jié)果如表3所示。本文方法與輕量級單階段網(wǎng)絡(luò)YOWO相比,VideoAP0.5提高了9.23%,FPS提高了232,實驗表明協(xié)同卷積在體量和檢測速度上較三維卷積有巨大優(yōu)勢。與其他方法相比,在閾值0.5和0.75的情況下,VideoAP都有一定的提升,并且檢測速度大幅度提高。實驗表明,時空圖像作為輸入相比連續(xù)視頻幀作為輸入運算時間略微增加,但協(xié)同卷積模塊的運算量較小,使得網(wǎng)絡(luò)整體獲得了檢測速度上的提升。本文方法與其他方法相比,模型大幅度減小,實現(xiàn)了輕量化的目的。由此得出,本文方法在減少計算量和模型大小的情況下,能夠獲得較好的行為檢測效果。
表3 不同行為檢測方法對比實驗結(jié)果
圖4為本文方法在UCF101-24數(shù)據(jù)集上的可視化結(jié)果。本文采用非極大值抑制算法過濾冗余框。可視化結(jié)果的NMS閾值均為0.5。從圖4可以看出,在背景嘈雜、環(huán)境變化較大或者目標(biāo)檢測較小的情況下,本文方法對于行為檢測連續(xù)性和準(zhǔn)確率都得到了比較好的效果,具有較強的魯棒性。對于籃球賽等人員密集且行為相似度較高的場景中,能夠找到目標(biāo)和對應(yīng)行為類別。進(jìn)一步表明,本文算法能夠從二維圖像中獲取與視頻同等的信息量,并且檢測速度更快。
圖4 本文方法可視化結(jié)果Fig.4 Visualization results of the proposed method
本文提出了一種基于協(xié)同卷積的輕量化行為檢測方法。不同于主流的時空行為檢測方法,本文使用二維的時空圖像作為輸入,作為視頻的時序信息。同時,在YOLOv5的基礎(chǔ)上,用協(xié)同卷積模塊替換骨干網(wǎng)絡(luò)和檢測頭部檢測時空圖像中的時序信息,這個模塊在不增加參數(shù)量和引入較少計算量的情況下,有效地提高了檢測速度,并保留了較好的檢測準(zhǔn)確率。本文方法有效地解決了主流時空行為檢測方法體量較大,檢測速度較慢的問題。實驗結(jié)果表明,本文方法可以在保證準(zhǔn)確率的情況下,有效減少網(wǎng)絡(luò)計算量,提高網(wǎng)絡(luò)檢測速度,且優(yōu)于現(xiàn)有的行為檢測方法。