文/周金成
隨著互聯(lián)網(wǎng)的發(fā)展和社交媒體的普及,網(wǎng)絡(luò)上視頻的數(shù)量越來越多,靠人工來處理這些視頻不再現(xiàn)實(shí),計(jì)算機(jī)視覺的發(fā)展可以解決海量的視頻數(shù)據(jù)和有限的人員精力的矛盾。計(jì)算機(jī)視覺中的動(dòng)作定位任務(wù)可以確定視頻中動(dòng)作的位置,也就是在視頻的每一幀上用矩形框框住動(dòng)作的執(zhí)行者。動(dòng)作定位有著廣泛的應(yīng)用前景,可以用來截取一段長視頻中只包含特定內(nèi)容的片段,也可以用來追蹤監(jiān)控視頻頻中逃犯的逃跑軌跡等等。
本文提出一種基于單幀標(biāo)注的動(dòng)作定位方法,這是弱監(jiān)督方法,不必標(biāo)注訓(xùn)練視頻中每一幀圖像,只需在每個(gè)視頻中標(biāo)注一幀圖像即可定位動(dòng)作。首先在訓(xùn)練視頻每一幀上給出動(dòng)作執(zhí)行者的矩形候選框,然后連接候選框形成候選動(dòng)作軌跡,利用人工標(biāo)注的矩形框去除大量不滿足條件的候選軌跡,同時(shí)對保留下來的候選軌跡打分,保留得分最高的提名作為訓(xùn)練視頻中動(dòng)作的位置,然后訓(xùn)練一個(gè)SVM分類器。測試階段,先在測試視頻的每一幀上給出矩形候選框,然后連接候選框形成候選動(dòng)作軌跡,利用訓(xùn)練好的SVM分類器對候選軌跡打分,確定哪個(gè)候選軌跡是視頻中動(dòng)作的位置。
由于滑動(dòng)窗口方法給出的矩形框數(shù)量過多,而且不適用于尺度變化較大的目標(biāo),這里利用目標(biāo)檢測方法來提供動(dòng)作執(zhí)行者的矩形候選框,這樣減少了候選框的數(shù)量,同時(shí)候選框的質(zhì)量也提高了,降低后面連接候選框的難度。EdgeBoxes具有很高的召回率而且給出的矩形候選框的數(shù)量相對較少,本文利用EdgeBoxes在每個(gè)視頻中提取幀級別的矩形候選框,但是在每個(gè)視頻幀上只保留得分靠前的100個(gè)矩形框。
視頻中幀級別的候選框獲取后,需要連接候選框形成候選動(dòng)作軌跡。將候選框連接過程轉(zhuǎn)化成求解最大路徑問題,利用文獻(xiàn)[2]中MaxPath方法找到一個(gè)視頻中若干個(gè)時(shí)序上的路徑,每條路徑對應(yīng)一個(gè)候選動(dòng)作軌跡。
為了確定訓(xùn)練視頻中動(dòng)作的位置,首先利用每個(gè)訓(xùn)練視頻中標(biāo)注的一個(gè)矩形框,篩除掉大量錯(cuò)誤的軌跡,然后計(jì)算保留下來的候選軌跡的得分,將得分最高的軌跡作為訓(xùn)練視頻中動(dòng)作的位置。提取每個(gè)軌跡的特征,訓(xùn)練一個(gè)SVM分類器,利用訓(xùn)練好的分類器可以判定測試視頻中哪條候選軌跡與動(dòng)作的位置最符合。
為去除視頻中大量的無效軌跡,計(jì)算軌跡上的矩形框與對應(yīng)標(biāo)注幀上的標(biāo)注框的重疊度,只保留重疊度較大的候選軌跡。重疊度的計(jì)算公式按照公式(1):
其中,b1表示視頻標(biāo)注幀上的人工標(biāo)注的一個(gè)矩形框,b2表示候選軌跡在標(biāo)注幀上的對應(yīng)的矩形框。舍棄的候選軌跡。
計(jì)算保留下來的候選軌跡中每個(gè)矩形框的光流幅值的平均值f,整個(gè)候選軌跡的平均光流幅值按照公式(2)計(jì)算:
其中,fi表示候選軌跡上第i個(gè)矩形框的光流幅值的平均值,n是候選軌跡上矩形框的數(shù)量,score是候選軌跡的得分。最終將眾多候選軌跡中得分最高的軌跡作為視頻中動(dòng)作的位置。
將訓(xùn)練視頻中得分最高的軌跡作為正樣本,其它候選軌跡作為負(fù)樣本,提取每條軌跡的HOG3D特征,訓(xùn)練SVM分類器:
測試階段,先獲得每一幀上的候選框,然后連接候選框形成多個(gè)候選動(dòng)作軌跡,提取每個(gè)軌跡的HOG3D特征,代入訓(xùn)練好的模型中,得分最高的軌跡就是視頻中動(dòng)作的位置。
實(shí)驗(yàn)中使用的數(shù)據(jù)集是J-HMDB,這是HMDB的一個(gè)子集,包含928個(gè)視頻,有21類動(dòng)作。劃分訓(xùn)練視頻和測試視頻的比例是3:1.重疊度閾值ξ取值0.6。定位效果公式按照公式(3):
其中,η是模型的定位結(jié)果和視頻中動(dòng)作實(shí)際位置的重合度,n是視頻中動(dòng)作持續(xù)的幀數(shù),IOU是兩個(gè)框之間的重疊度,box1是標(biāo)注框,box2是定位結(jié)果上對應(yīng)幀上的矩形框。當(dāng)η大于0.2即認(rèn)為定位正確,實(shí)驗(yàn)取得了很好的結(jié)果,定位的正確率可以達(dá)到91.6%。