聞 號
(安徽大學 電子信息工程學院,安徽 合肥 230601)
隨著智能手機、動作相機、監(jiān)控攝像機等的普及,網絡上視頻的數量已經超出了人們觀看所有視頻的能力。由于行為識別問題在視頻監(jiān)控、人機交互和視頻內容分析等方面具有很大的潛力,視頻中人體行為的識別受到了廣泛關注。例如,Wang等[1]提出了一種改進的密集軌跡算法。文獻[2]使用了在做小碼書情況下的多時空特征。文獻[3]使用多種特征來描述行為的整體分布和局部變化。文獻[4]使用能量函數對運動區(qū)域進行高斯取樣,使樣本點分布于運動劇烈的區(qū)域。雖然這些方法已經在目標檢測和跟蹤方面取得了驚人的進展,但是從視頻中檢測出更多的抽象動作和事件仍然具有挑戰(zhàn)性。
在訓練人體行為模型時需要大量的訓練數據來避免過度擬合,然而數據獲取需要耗費大量人力物力。相比之下,從網絡上收集和處理數據要便宜得多。而且觀察到,通過動作名稱查詢的Web圖像通常描述一個歧視性的動作場景,以此可以捕捉并突出顯示視頻中感興趣的動作和事件。所以這是一個證明網絡圖像可以增強行為識別的有力證據。顯然在視頻中提供的時間信息和圖像中描繪的歧視性場景間存在互補優(yōu)勢。
提出的方法與Web learning(網絡學習)息息相關。典型的工作有文獻[5-6],從這些研究內容可以看出,網絡數據域與目標域之間的域差異是個熱點問題。域差異問題是一個跨域學習問題,也是一個遷移學習問題。因此,試圖通過跨域字典學習的方法,同時對網絡圖像域和目標域進行字典學習來解決這個問題。
設計的人體行為識別算法流程如圖1所示。
圖1 算法流程
獲取網絡圖像作為目標域,獲取數據集中每個類視頻的關鍵幀圖像作為源域。使用SIFT算法提取的目標域和源域圖像的底層特征描述子,分別作為跨域字典學習算法的輸入,同時進行字典學習,進而獲得網絡圖像的特征表示;使用文獻[1]提出的密集軌跡算法提取數據集中視頻的密集軌跡特征,再通過字典學習、詞袋模型編碼得到視頻中人體行為的特征表示。將兩組特征進行長拼接,把拼接后的特征向量放入支持向量機中進行訓練分類。實驗選擇的數據集分別是KTH[7]和YouTube[8]。
本節(jié)列出了收集和組織網絡圖像的步驟。借助Google Image API,可以輕松地以幾乎零成本獲取所需的動作圖像。使用每個類別名稱作為關鍵字在Google圖片搜索服務中下載檢索到的圖像。使用照片過濾器刪除不太可能出現在視頻中的人造圖像。收集了大約15 000張網絡圖像(如圖2所示)分別用在KTH數據庫中的六種人體行為和YouTube數據庫的十一種人體行為的識別實驗中。
圖2 網絡圖片(從左向右分別表示騎車、騎馬、高爾夫、蕩秋千、顛球)
(1)
根據Zhu Fan等[10]提出的方法,對式1轉換:
〈Dt,Ds,Xt,A,W〉=
(2)
也可以把式2轉換為最簡單的形式,上式因子可簡寫為:
(3)
優(yōu)化問題目標函數簡化為:
(4)
從而優(yōu)化問題即可使用K-SVD[11]算法通過迭代更新的方式求解。
根據文獻[1]提出的密集軌跡算法獲取行為視頻的底層特征描述子。為了評估文中方法的性能,使用標準的詞袋模型方法,為底層特征描述子構造了一個字典。根據經驗將字典的可視化詞語個數固定為4 000,使用k-means方法隨機選擇100 000訓練特征進行聚類。初始化k-means 8次,以此提高精度,保證最低的誤差結果。特征描述子會根據歐氏距離被分配到它們最接近的詞匯,由此產生的視覺詞匯直方圖被用作視頻中人體行為的特征表示。
KTH數據集包含六種人類運動行為:散步、慢走、跑、拳擊、揮手和鼓掌(如圖3所示)。每一種行為由25個人展示數次,分別拍攝在四個不同場景下。數據庫總共有598個視頻樣本。根據文獻[7]中的實驗設置把樣本中(2,3,5,6,7,8,9,10,22)9個人分為測試集,剩下的16人為訓練集。
YouTube數據集包含11種人類行為:騎車、跳水、高爾夫、顛球、蹦床、騎馬、投籃、排球、秋千、網球和遛狗(如圖4所示)。
表1和表2分別列出了在KTH數據集和YouTube數據集中的實驗結果??梢钥闯?,文中方法比密集軌跡算法表現得更出色,在KTH數據集中準確率提高了1%,在YouTube數據集中提高了2.2%。在具有背景復雜、拍攝時攝像機移動等復雜視頻的YouTube數據集中,文中方法明顯優(yōu)于其他方法。實驗結果表明,該方法可以有效地增強視頻中的動作識別能力。
圖3 KTH數據庫視頻實例
圖4 YouTube數據庫視頻實例
方法準確率/%文獻[7]91.8文獻[12]93.3密集軌跡93.1文中方法93.9
表2 在YouTube數據集中的實驗結果
在對網絡圖像進行跨域字典學習時引入了視頻關鍵幀,所以不確定視頻關鍵幀有沒有對結果產生影響。對此進行了一組對比實驗,如表3、表4所示。第一個是只使用視頻作為輸入;第二個是視頻與視頻關鍵幀作為輸入;第三個是視頻加上視頻關鍵幀和網絡圖片作為輸入。實驗結果表明,文中方法有效增強了密集軌跡算法對人體行為的識別能力。
表3 使用不同的訓練數據在KTH數據集中的實驗結果
表4 使用不同的訓練數據在YouTube數據集中的實驗結果
通過對網絡數據學習理論的研究,提出了一種利用大量的網絡數據作為輔助數據來增強密集軌跡算法對人體行為的識別能力的方法。實驗結果表明,該方法有效提高了密集軌跡算法對人體行為的識別能力。特別對含有質量低、場景較復雜等復雜視頻的YouTube數據庫,其表現更突出。下一步的工作是解決圖片的收集問題,不再是通過人為篩選圖片,而是通過訓練的人體行為模型自動篩選圖片,這樣會大大提高圖片獲取的速度和數量。