基于單幀標(biāo)注的弱監(jiān)督動(dòng)作定位

2019-04-26 05:03:20周金成

電子技術(shù)與軟件工程 2019年4期

文/周金成

1 引言

隨著互聯(lián)網(wǎng)的發(fā)展和社交媒體的普及，網(wǎng)絡(luò)上視頻的數(shù)量越來越多，靠人工來處理這些視頻不再現(xiàn)實(shí)，計(jì)算機(jī)視覺的發(fā)展可以解決海量的視頻數(shù)據(jù)和有限的人員精力的矛盾。計(jì)算機(jī)視覺中的動(dòng)作定位任務(wù)可以確定視頻中動(dòng)作的位置，也就是在視頻的每一幀上用矩形框框住動(dòng)作的執(zhí)行者。動(dòng)作定位有著廣泛的應(yīng)用前景，可以用來截取一段長視頻中只包含特定內(nèi)容的片段，也可以用來追蹤監(jiān)控視頻頻中逃犯的逃跑軌跡等等。

本文提出一種基于單幀標(biāo)注的動(dòng)作定位方法，這是弱監(jiān)督方法，不必標(biāo)注訓(xùn)練視頻中每一幀圖像，只需在每個(gè)視頻中標(biāo)注一幀圖像即可定位動(dòng)作。首先在訓(xùn)練視頻每一幀上給出動(dòng)作執(zhí)行者的矩形候選框，然后連接候選框形成候選動(dòng)作軌跡，利用人工標(biāo)注的矩形框去除大量不滿足條件的候選軌跡，同時(shí)對保留下來的候選軌跡打分，保留得分最高的提名作為訓(xùn)練視頻中動(dòng)作的位置，然后訓(xùn)練一個(gè)SVM分類器。測試階段，先在測試視頻的每一幀上給出矩形候選框，然后連接候選框形成候選動(dòng)作軌跡，利用訓(xùn)練好的SVM分類器對候選軌跡打分，確定哪個(gè)候選軌跡是視頻中動(dòng)作的位置。

2 提取候選框

由于滑動(dòng)窗口方法給出的矩形框數(shù)量過多，而且不適用于尺度變化較大的目標(biāo)，這里利用目標(biāo)檢測方法來提供動(dòng)作執(zhí)行者的矩形候選框，這樣減少了候選框的數(shù)量，同時(shí)候選框的質(zhì)量也提高了，降低后面連接候選框的難度。EdgeBoxes具有很高的召回率而且給出的矩形候選框的數(shù)量相對較少,本文利用EdgeBoxes在每個(gè)視頻中提取幀級別的矩形候選框，但是在每個(gè)視頻幀上只保留得分靠前的100個(gè)矩形框。

3 候選動(dòng)作軌跡

視頻中幀級別的候選框獲取后，需要連接候選框形成候選動(dòng)作軌跡。將候選框連接過程轉(zhuǎn)化成求解最大路徑問題，利用文獻(xiàn)[2]中MaxPath方法找到一個(gè)視頻中若干個(gè)時(shí)序上的路徑，每條路徑對應(yīng)一個(gè)候選動(dòng)作軌跡。

4 模型訓(xùn)練和測試

為了確定訓(xùn)練視頻中動(dòng)作的位置，首先利用每個(gè)訓(xùn)練視頻中標(biāo)注的一個(gè)矩形框，篩除掉大量錯(cuò)誤的軌跡，然后計(jì)算保留下來的候選軌跡的得分，將得分最高的軌跡作為訓(xùn)練視頻中動(dòng)作的位置。提取每個(gè)軌跡的特征，訓(xùn)練一個(gè)SVM分類器，利用訓(xùn)練好的分類器可以判定測試視頻中哪條候選軌跡與動(dòng)作的位置最符合。

為去除視頻中大量的無效軌跡，計(jì)算軌跡上的矩形框與對應(yīng)標(biāo)注幀上的標(biāo)注框的重疊度，只保留重疊度較大的候選軌跡。重疊度的計(jì)算公式按照公式（1）：

其中，b1表示視頻標(biāo)注幀上的人工標(biāo)注的一個(gè)矩形框，b2表示候選軌跡在標(biāo)注幀上的對應(yīng)的矩形框。舍棄的候選軌跡。

計(jì)算保留下來的候選軌跡中每個(gè)矩形框的光流幅值的平均值f，整個(gè)候選軌跡的平均光流幅值按照公式（2）計(jì)算：

其中，fi表示候選軌跡上第i個(gè)矩形框的光流幅值的平均值，n是候選軌跡上矩形框的數(shù)量，score是候選軌跡的得分。最終將眾多候選軌跡中得分最高的軌跡作為視頻中動(dòng)作的位置。

將訓(xùn)練視頻中得分最高的軌跡作為正樣本，其它候選軌跡作為負(fù)樣本，提取每條軌跡的HOG3D特征，訓(xùn)練SVM分類器：

測試階段，先獲得每一幀上的候選框，然后連接候選框形成多個(gè)候選動(dòng)作軌跡，提取每個(gè)軌跡的HOG3D特征，代入訓(xùn)練好的模型中，得分最高的軌跡就是視頻中動(dòng)作的位置。

5 實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中使用的數(shù)據(jù)集是J-HMDB，這是HMDB的一個(gè)子集，包含928個(gè)視頻，有21類動(dòng)作。劃分訓(xùn)練視頻和測試視頻的比例是3:1.重疊度閾值ξ取值0.6。定位效果公式按照公式（3）：