薛向陽 李斌
摘要:小視頻數(shù)量呈爆炸式增長態(tài)勢,并引發(fā)了許多技術需求,包括小視頻的編輯、搜索、推薦、溯源、審查和監(jiān)管等。介紹了小視頻數(shù)據(jù)的主要特點和小視頻內容分析技術面臨的挑戰(zhàn),并對目標檢測、追蹤、重識別等小視頻內容分析技術的研究進展做了綜合分析。認為只有構建一個整合多種不同算法的系統(tǒng),才能夠更準確、更魯棒地解決分析問題,才能系統(tǒng)性地完成小視頻內容分析任務。
關鍵詞:小視頻;內容分析技術;視頻目標檢測;多目標追蹤;人物重識別
Abstract: The number of short videos has increased explosively, which has led to more technical requirements, such as editing, searching, recommendation, sourcing, censoring, and monitoring of short videos. The main features of short video data and the challenges faced by the short video content analysis technology are introduced. The research progress of short video content analysis technologies such as object detection, tracking, and re-identification is comprehensively analyzed. It is considered that only by building a system that integrates multiple algorithms, can the analysis problems be solved more accurately and robustly, and the short video content analysis task can be completed systematically.
Keywords: short video; content analysis technology; video object detection; multi-object tracking; person re-identification
1 小視頻數(shù)據(jù)類型與特點
1.1小視頻數(shù)據(jù)類型
隨著抖音、快手、騰訊微視、西瓜視頻等小視頻應用平臺的興起,小視頻已經(jīng)隨處可見。在激烈的競爭下,市場上涌現(xiàn)出了不同類別的小視頻內容。
(1)社交生活類
以快手、抖音、騰訊微視等為代表的應用平臺,鼓勵用戶拍攝、制作、上傳小視頻,分享自己的生活點滴,這方便了用戶拓寬自己的社交范圍。此類小視頻主題多為生活記錄,如拍攝寵物、烹飪、服飾等。通過分享生活點滴,用戶可以找到與自己趣味相投的朋友,拓寬社交圈。
(2)內容服務類
以西瓜視頻、梨視頻為代表的應用平臺,依靠大數(shù)據(jù)分析為用戶提供精準內容服務,如感興趣的話題、認識的朋友、關心的產品等。此類小視頻主題多為行業(yè)熱點資訊、育兒經(jīng)驗或家教信息、“雙十一”優(yōu)惠活動等。
(3)剪輯技術類
以小咖秀等為代表的應用平臺,為對視頻制作感興趣的用戶提供制片剪輯等功能,使用戶以更靈活幽默的方式記錄自己的生活。此類小視頻主題多為宣傳視頻、紀念視頻、情景短劇以及其他具有特殊意義的視頻(如高考加油視頻)等。
1.2小視頻數(shù)據(jù)特點
小視頻數(shù)據(jù)除了具有規(guī)模海量這一特點之外,其余還包括類型繁多、特效復雜、姿態(tài)多變等。
(1)類型繁多
類型繁多是小視頻數(shù)據(jù)的一大特點。小視頻數(shù)據(jù)包含的物體類別為開集,除人物之外,還涵蓋寵物、電子產品、音樂器材、體育用品等。此外,與圖像數(shù)據(jù)集(ImageNet)[1]的1 000類和目標檢測數(shù)據(jù)集(COCO)[2]的80類相比,小視頻數(shù)據(jù)的類別更豐富,包含更多的子類,如不同品種的貓和狗、不同品牌的電子產品等。
(2)特效復雜
與其他視頻相比,小視頻往往包含更多的特效,以使自身更具有吸引力和娛樂性,如各種幻燈片轉場、人物美顏特效、多屏鏡面特效等。這對目標檢測和追蹤等分析任務而言,是一個不可忽視的巨大挑戰(zhàn)。
(3)姿態(tài)多變
在小視頻中,各目標的外觀姿態(tài)往往變化較大。小視頻記錄生活點滴,包含大量特寫鏡頭。一段小視頻主題可能聚焦于人、動物、產品等。這些目標圍繞的主題包含較多姿態(tài)和外觀變化,例如人的換裝小視頻、寵物成長記錄小視頻等。
除前文提到的3種特點外,由于小視頻的拍攝設備多為智能手機,故小視頻數(shù)據(jù)的特點還包括畫面清晰度相對較低、鏡頭抖動、視野較窄等。
2 小視頻分析技術面臨的挑戰(zhàn)
學術界對視頻內容分析技術已進行大量且系統(tǒng)的深入研究。例如,針對視頻盜用轉載和重復出現(xiàn)問題的視頻拷貝檢測技術,對視頻進行分割以提取感興趣或關鍵場景的鏡頭分割技術,對視頻中主要物體進行檢測、分類和追蹤的語義提取技術等。其中,小視頻語義提取是最受關注的技術,是后續(xù)各種應用的基礎。
在對小視頻中的主要物體進行語義抽取時,涉及的技術模塊主要包括視頻目標檢測、多目標追蹤、人物重識別(也稱Person ReID)等。視頻目標檢測是指,從視頻圖像幀中自動定位事先定義好的類別集合中的物體,并推斷其類別。多目標追蹤是指,利用目標的外觀特征和位置信息來將相鄰幀中的相同目標關聯(lián)起來,以構成目標序列,實現(xiàn)對目標的持續(xù)追蹤。人物重識別是指,在多個非重疊攝像頭拍攝的場景下,在一段視頻或者某個圖片集合中篩檢出感興趣的人物。當然,重識別技術也可以用于篩檢某一動物、某一物品等。
2.1 小視頻目標檢測
目前,人們對視頻目標檢測的研究主要集中在類似ImageNet VID[3](VID指視頻目標檢測)的數(shù)據(jù)集上。這些數(shù)據(jù)集往往包含相對較少的物體類別,背景相對簡單,前景物體容易與背景區(qū)分。小視頻場景下的目標檢測任務面臨的巨大挑戰(zhàn)具體包括:(1)類別繁多。小視頻中出現(xiàn)的物體類別數(shù)以萬計,且物體類別的分布呈現(xiàn)長尾效應。大量物體類別嚴重缺乏訓練數(shù)據(jù),極大地影響了目標檢測算法的性能。(2)剪輯與特效帶來較大干擾。鏡頭切換和視頻特效使得物體外觀信息被嚴重干擾,前后幀中主要物體的外觀連續(xù)性被嚴重破壞。(3)背景復雜、物體運動難預測。小視頻來自用戶上傳,其背景和人物姿態(tài)變化往往更復雜。
2.2 小視頻多目標追蹤
考慮到業(yè)界的實際需求,傳統(tǒng)的多目標追蹤任務主要聚焦于交通監(jiān)控等應用場景中對行人和車輛的追蹤。這導致目前學術界廣泛研究的數(shù)據(jù)集更多是通過監(jiān)控設備來采集的,并且主要針對行人目標進行追蹤。目前,多目標追蹤算法解決的焦點主要是監(jiān)控場景中的常見問題,如行人目標密集、遮擋等。
在小視頻場景中,多目標追蹤任務面臨前所未有的挑戰(zhàn)。與交通監(jiān)控場景相比,小視頻創(chuàng)作偏愛近景。人物在視頻上占據(jù)區(qū)域較大,很難被簡單地視為剛體。人物姿態(tài)變化直接影響追蹤效果。除此以外,頻繁的鏡頭切換也打破了物體幀間位置連續(xù)性的假設。
因此,小視頻目標追蹤任務面臨的挑戰(zhàn)可歸納為:(1)鏡頭切換。這使得時空連續(xù)性只能在局部窗口內有效。(2)場景不確定性。目標的距離、大小難以預測,很難依據(jù)先驗信息進行算法性能優(yōu)化。(3)制作特效問題。小視頻有電腦特效或疊加字幕,這給目標追蹤帶來很多干擾。
2.3 目標重識別
通用目標的重識別是一個十分困難的研究課題,主要是因為每類目標的特征各不相同。在對小視頻分析時,我們通常從人物等特定類別目標重識別開始研究,而這面臨的挑戰(zhàn)包括:每個鏡頭中人物的入鏡區(qū)域存在很大不同,上一個鏡頭出現(xiàn)的是一個完整的人物,下一個鏡頭中可能只有上半身入鏡;人物在小視頻畫面中的復雜運動姿態(tài)與傳統(tǒng)監(jiān)控畫面中的行走姿態(tài)有很大差別。這些挑戰(zhàn)使得小視頻場景下的目標重識別與相機固定監(jiān)控場景下的行人重識別有很大的不同。
針對小視頻場景的人物重識別任務主要包括兩點:(1)視頻內人物重識別。根據(jù)某段小視頻前幾幀出現(xiàn)的主要人物目標,將后續(xù)幀出現(xiàn)的相同人物目標與之一一匹配起來。這類任務的挑戰(zhàn)主要是人物局部入鏡、姿態(tài)變化大、遮擋情況復雜多樣(如障礙物遮擋、人物相互遮擋、隨機字幕遮擋)。(2)視頻間的人物重識別。根據(jù)(1)中得到的某個人物圖片序列,搜尋其他小視頻中出現(xiàn)的相同著裝的該人物。這類任務的挑戰(zhàn)主要是解決人物著裝變化、背景風格差異大、面部遮擋模糊等問題。
2.4算法性能需求
(1)計算速度
對于現(xiàn)有海量規(guī)模的小視頻數(shù)據(jù),如果算法處理不夠快,對用戶請求的響應不及時,用戶的使用體驗將極大降低。以小視頻搜索為例,如果搜索算法能為用戶即時提供新的熱點視頻,用戶體驗無疑將會得到提升。
(2)算法精度
由于小視頻包含的物體種類繁多,且姿態(tài)外觀等變化較大,如果分析算法的精度不夠高,用戶體驗將受到顯著影響。這對小視頻內容分析算法提出了很高的要求,即必須在面臨各種挑戰(zhàn)的情況下保持穩(wěn)定且很高的精度,才可獲得良好的應用效果。
(3)泛化能力
小視頻類別很多,其包含的物體類別也是開放的,這對分析技術的泛化能力提出更高要求。小視頻分析算法只有具備了良好的泛化能力,才能很好地適應各種應用場景,從而才能真正滿足用戶時刻變化的應用需求。
3 小視頻分析技術研究進展
本章分別從小視頻分析任務涉及的技術研究進展,和針對第2章所述的小視頻數(shù)據(jù)特殊難點的解決方案出發(fā),對相關方法進行詳細介紹。
3.1視頻目標檢測
目標檢測從計算機視覺興起時便一直是基礎性的研究任務。隨著2015年面向視頻目標檢測任務的數(shù)據(jù)集ImageNet VID的發(fā)布,深度學習在目標檢測研究中開始發(fā)揮巨大作用。當前學術界主流研究思路有:
(1)將檢測與追蹤相結合
基于檢測與追蹤結合的方法在圖像級別的目標檢測結果的基礎上,輔以目標追蹤方法來將各幀中相同物體的檢測框關聯(lián)起來。2017年由KANG K.等提出具有卷積神經(jīng)網(wǎng)絡的小管(T-CNN)[4]的方法,通過圖像目標檢測器對輸入視頻完成目標檢測,再通過目標追蹤算法得到目標的檢測框序列。2019年由LUO H.等提出的分布式對象技術(DoT)[5]框架則進一步地對視頻目標檢測任務進行有選擇性地檢測和追蹤,充分利用檢測算法和追蹤算法各自的優(yōu)點,在速度和質量上取得平衡。
(2)利用光流信息
光流可描述物體的運動狀態(tài)和軌跡。2015年和2017年P. FISCHER等分別提出了光流網(wǎng)絡(FlowNet)[6]和FlowNet 2.0[7],通過卷積神經(jīng)網(wǎng)絡直接計算出光流,用來代替目標追蹤模塊。ZHU X.等在2017年提出的流引導特整體聚合(FGFA)[8]算法,利用光流描述的運動軌跡將相鄰幀的特征聚合到當前幀的特征上,可得到更魯棒的物體特征,能明顯減少由于視頻中物體運動模糊和亮度變化帶來的影響。光流適用于對局部時空域內的物體運動進行建模,但難以對全局時空域內的物體特征進行整合。
(3)利用循環(huán)神經(jīng)網(wǎng)絡
視頻是一種典型的序列數(shù)據(jù),用循環(huán)神經(jīng)網(wǎng)絡來對幀序列和物體的運動進行建模是一種常見的選擇。2017年,LU Y.等提出關聯(lián)長短期記憶(LSTM)[9]結構,對視頻目標檢測任務中的相鄰幀間物體的關聯(lián)信息進行專門建模。通過與檢測網(wǎng)絡相結合,該方法可直接回歸獲得物體的位置和類別,同時還能將物體在不同幀之間的特征在時空上都關聯(lián)起來,最終可得到融合了時序運動信息的關聯(lián)特征。然而,這類方法的缺點是大量增加了模型訓練難度和計算耗時。
(4)利用全局幀特征融合
WU H. P.等不僅考慮到從局部時域中提取物體的運動信息,還更加關注物體在全局時域上的時序信息,并在2019年提出了序列級語義聚合(SELSA)[10]算法。該算法在整個視頻的完整序列內提取各幀所有感興趣區(qū)域的特征,通過一個聚類模塊和變換模塊將不同幀之間具有相似語義信息的候選框匹配,從而得到一個全局時域內綜合的特征,隨后與各幀中提取得到的局部特征相聚合,可得到一個更魯棒的特征。CHEN Y. H.等在2020年提出基于記憶增強的全局-局部整合(MEGA)[11]算法,同時利用局部時域和全局時域內物體的時序信息,即在局部更加關注物體的運動信息,在全局更加關注物體的外觀信息,并將兩者結合得到最終的融合特征。
3.2視頻目標追蹤
目前,視頻多目標追蹤主要分為3個模塊:目標檢測、特征提取/運動預測、親和力計算與關聯(lián)。
(1)目標檢測模塊
目標檢測模塊負責提供目標位置信息,并將其作為后續(xù)處理的先驗信息。檢測模塊提供位置信息,用于確定目標的外觀特征,為運動預測提供目標初始位置信息。針對目標檢測的研究已經(jīng)取得長足進步:從傳統(tǒng)的可變形部件模型(DPM)[12]到深度學習方法,從視覺幾何網(wǎng)絡(VGGNet)[13]到最新的高分辨網(wǎng)絡(HRNet)[14],ImageNet數(shù)據(jù)集的精度不斷被刷新,位置預測方式從一階段的快速區(qū)域卷積神經(jīng)網(wǎng)絡(Faster R-CNN)[15]到兩階段的YOLOv4(指對象檢測算法)[16],在精度和速度上都取得了巨大突破。
(2)特征提取/運動預測
特征提取/運動預測模塊主要負責從外觀特征提取高層語義特征和充分利用運動信息。多目標跟蹤算法DeepSort[17]利用簡單殘差網(wǎng)絡構成的重識別(ReID)模型,大幅度改善Sort[18]算法的性能。而HRNet等方法則采用姿態(tài)評估模型來挖掘目標姿態(tài)等更為豐富的信息。在運動預測方法中,目前采用比較多的是簡單高效的卡爾曼濾波算法??柭鼮V波算法可預測接近勻速直線的運動,也有些方法采用更為復雜的粒子濾波,以擬合目標的復雜運動。
(3)親和力計算與關聯(lián)
親和力計算模塊從物體區(qū)域的特征信息中計算出匹配對,即當前檢測區(qū)域與預測結果區(qū)域之間的相似度,以此作為依據(jù)來進行關聯(lián)計算。關聯(lián)模塊從相似度矩陣中求解出最佳的匹配方式,盡量將同一目標的檢測區(qū)域匹配到對應的軌跡上,通過關聯(lián)形成新的軌跡。網(wǎng)絡流算法、匈牙利匹配算法、多假設追蹤算法等都是通過以降低全局匹配為代價來提升匹配效果的。此外,基于深度學習的方法也有所進展:多趟近鄰排序(MPN)[19]算法以及深度多目標跟蹤(DeepMOT)[20]算法利用卷積神經(jīng)網(wǎng)絡分別模擬傳統(tǒng)的網(wǎng)絡流算法和匈牙利匹配算法來實現(xiàn)關聯(lián)匹配,并取得了出色的效果。
3.3視頻物體重識別
對于小視頻場景下的通用物體重識別,學術界目前還沒有找到很好的解決方法。對于復雜場景下的人物等特定物體重識別來說,我們一般將人物局部入鏡的重識別問題定義為局部人物重識別,即利用局部人物圖片來檢索其完整的人物圖片。此外,還有不少關于遮擋人物重識別的研究工作,下面我們將分別進行介紹。
(1)局部人物重識別
早期處理局部人物重識別的方法是直接將局部人物圖片和完整人物圖片縮放到同樣尺寸,這會導致特征不對齊等問題。有的研究則采用滑動窗口方法,利用局部人物圖片大小相同的滑動窗口在完整人物圖片上進行區(qū)域檢索,找到最相近的區(qū)域進行相似度計算。當局部人物圖片的寬度大于完整人物圖片時,這類方法就會失效,同時也耗費了很多計算資源。
為了解決局部人物重識別的問題,HE L. X.等提出了一種深度空間特征重構(DSR)的方法[21]。該方法首先利用全卷積網(wǎng)絡生成固定尺寸的特征圖,然后利用字典學習模型中的重建誤差來計算不同特征圖的相似度。 SUN Y. F.等提出一種自監(jiān)督的方法[22]來解決局部人物重識別的特征不對齊問題。該方法將圖片劃分為上、中、下3個抽象模塊區(qū)域,得到每個區(qū)域中像素點的區(qū)域標簽,并以此來訓練模型對每個區(qū)域的觀察能力。在推理階段,模型通過預測區(qū)域可見得分,判斷圖片是否發(fā)生了身體部位的缺失,進而通過自監(jiān)督的注意力機制實現(xiàn)對人物圖片間對應區(qū)域的相似度比較。
(2)遮擋人物重識別
不同于局部人物重識別,遮擋人物重識別主要的問題在于圖片中包含的遮擋區(qū)域會使得直接提取的全局特征包含大量的干擾噪聲,進而影響兩張圖片的相似度計算結果。針對這一點,MIAO J. X.等[23]通過引入額外的姿態(tài)檢測模型來獲得人體關鍵點信息,進而引導重識別模型關注人物的非遮擋區(qū)域。具體思路是,首先通過關鍵點的位置信息來提取人物的局部特征,然后利用關鍵點的置信度信息來判斷哪些關鍵點是處于遮擋區(qū)域的。在重識別的推斷階段,模型只會計算兩張圖片未被遮擋的區(qū)域之間的相似度,以此來消除遮擋噪聲的干擾。
3.4針對小視頻的研究工作
目前,學術界專門針對小視頻特點的研究工作比較少。本文中,我們挑選一些比較突出的相關研究工作進行介紹。
(1)針對小視頻復雜特效問題的研究
針對不同鏡頭間添加的視頻特效導致物體外觀信息不匹配問題,ZHONG Z.等于2018年在行人重識別領域提出了相機風格自適應[24]算法。該算法假定,在不同相機風格下拍攝所得的人物數(shù)據(jù)屬于不同的數(shù)據(jù)域,同時通過引入循環(huán)生成對抗網(wǎng)絡(CycleGAN)[25],對每一對具有不同風格的同一人物圖像,生成圖像到圖像的風格轉移模型。生成不同相機風格下的人物圖像為重識別模型提供額外的訓練數(shù)據(jù)。為了防止重識別模型受到由CycleGAN風格轉移得到的偽圖像中噪聲的影響,算法引入了一個標簽平滑修正(LSR)機制,以降低在重識別模型損失函數(shù)中對偽圖像評判的權重。
(2)針對小視頻物體類別繁多的研究
針對物體類別繁多所帶來的長尾分布效應,POOJAN O.與VISHAL P.于2019年在圖像分類領域提出了基于多任務的開集物體識別(MLOSR)[26]算法。該算法通過使用權值共享的分類網(wǎng)絡和解碼網(wǎng)絡,同時進行分類與重構任務。此外,算法依據(jù)極值理論[27]通過一個極值模型來對重構誤差分布的尾部部分建模,使得模型對未出現(xiàn)在訓練集中的類別更為敏感。
(3)針對小視頻鏡頭切換頻繁的研究
針對不同鏡頭下的物體空間位置變化不連續(xù)問題,HSU H. M.等于2019年在目標追蹤領域提出一個多攝像機目標追蹤系統(tǒng)[28],將多個攝像機下的目標追蹤問題劃分為鏡頭內的目標追蹤問題和鏡頭間的目標追蹤問題。對于鏡頭內的目標追蹤問題,該研究團隊采用蹤片網(wǎng)絡追蹤器(TNT)[29]。對于鏡頭間的目標追蹤問題,該研究團隊首先將鏡頭內追蹤得到的蹤片輸入到Mask R-CNN[30]網(wǎng)絡中,以得到去除背景后的結果,然后再通過一個時間注意力模型,對各蹤片提取蹤片級別的特征,最后通過比較特征相似度的方式來匹配不同攝像機下的同一物體。
4 小視頻內容分析系統(tǒng)
要系統(tǒng)性完成小視頻內容分析任務,單純依靠某一個算法模塊是困難的。只有構建一個整合多種不同算法的系統(tǒng),才能夠更準確、更魯棒地解決分析問題。本文在此拋磚引玉,提出一個小視頻內容分析系統(tǒng)的構成框圖。結合此前提到的小視頻數(shù)據(jù)的特點,以及當前對于視頻分析技術的研究成果,我們認為小視頻內容分析系統(tǒng)至少應包括鏡頭分割、視頻目標檢測、視頻目標追蹤、視頻目標重識別等模塊,如圖1所示。
對于輸入的小視頻,首先,鏡頭分割模塊將不同鏡頭分割開來,使得每個鏡頭內物體運動能基本滿足幀間位置連續(xù)性假設;接著,目標檢測模塊獲得各幀內物體的定位框和物體分類結果,并將結果輸入到后續(xù)鏡頭內的目標追蹤模塊,同時屬于同一物體的檢測框在相鄰幀中將被關聯(lián)起來;最后,系統(tǒng)再進行跨鏡頭目標重識別,得到各物體在小視頻中完整的時空運動軌跡。小視頻內容分析系統(tǒng)的輸出結果可被應用到后續(xù)更多的應用處理中,例如實現(xiàn)視頻結構化、完成以視頻搜索視頻等任務。
視頻結構化應用的主要目標是,僅從無結構視頻數(shù)據(jù)中解析主要物體的語義屬性和時空軌跡等結構化的語義信息,就可以實現(xiàn)人車信息檢索以及行為研判等,為交通安全和社會治安提供風險評估和事件預警。以視頻搜視頻是小視頻的一大類應用。常規(guī)文字、圖片搜索等不能完全滿足用戶需求,而以視頻搜索類似視頻的功能在各大應用軟件的出現(xiàn),有助于提升用戶體驗。小視頻內容分析結果使小視頻搜索成為可能。此外,小視頻查重、溯源等也是類似應用?;谛∫曨l內容分析的各種衍生應用正在日益增多,這將大大改善小視頻的用戶體驗。
5 結束語
小視頻應用的興起是互聯(lián)網(wǎng)技術發(fā)展的必然結果,也是人工智能技術廣泛服務人們生活的發(fā)展趨勢。目前,越來越多的巨頭公司和科研機構開始研發(fā)小視頻內容分析技術,旨在更好地應用人工智能技術分析海量視頻數(shù)據(jù),以更好地服務社會。隨著小視頻研究和應用的不斷發(fā)展,在為受眾提供更高質量服務的同時,對小視頻數(shù)據(jù)規(guī)范化利用、確保個人隱私和數(shù)據(jù)安全,正在成為社會大眾非常關注的熱點問題。
致謝
感謝復旦大學計算機科學技術學院邱泰儒、徐僖禧、王潯彥、陳冠先等為本文寫作而做出的大量貢獻。
參考文獻
[1] DENG J, DONG W, SOCHER R, et al. ImageNet: a large-scale hierarchical image database [C]//2009 IEEE Conference on Computer Vision and Pattern Recognition. Miami, FL, USA: IEEE, 2009: 248-255. DOI: 10.1109/ cvprw.2009.5206848
[2] LIN T Y, MAIRE M, BELONGIE S, et al. Microsoft COCO: common objects in context[C]//European conference on computer vision. Zurich, Switzerland: Springer, 2014: 740-755. DOI: 10.1007/978-3-319-10602-1_48
[3] RUSSAKOVSKY O, DENG J, SU H, et al. ImageNet large scale visual recognition challenge[J]. International journal of computer vision, 2015, 115(3): 211-252. DOI: 10.1007/s11263-015-0816-y
[4] KANG K, LI H S, YAN J J, et al. T-CNN: tubelets with convolutional neural networks for object detection from videos [J]. IEEE transactions on circuits and systems for video technology, 2018, 28(10): 2896-2907. DOI: 10.1109/tcsvt.2017.2736553
[5] LUO H, XIE W X, WANG X G, et al. Detect or track: towards cost-effective video object detection/tracking [C]//Proceedings of the AAAI Conference on Artificial Intelligence. Honolulu, HI, USA: AAAI, 2019, 33: 8803-8810. DOI: 10.1609/aaai.v33i01.33018803
[6] DOSOVITSKIY A, FISCHER P, ILG E, et al. FlowNet: learning optical flow with convolutional networks [C]//2015 IEEE International Conference on Computer Vision (ICCV). Santiago, Chile. IEEE, 2015: 2758-2766. DOI: 10.1109/iccv.2015.316
[7] ILG E, MAYER N, SAIKIA T, et al. FlowNet 2.0: evolution of optical flow estimation with deep networks [C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, HI, USA: IEEE, 2017: 2462-2470. DOI: 10.1109/cvpr.2017.179
[8] ZHU X, WANG Y, DAI J, et al. Flow-guided feature aggregation for video object detection[C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 408-417
[9] LU Y, LU C, TANG C K. Online video object detection using association LSTM [C]//Proceedings of the IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 2344-2352
[10] WU H P, CHEN Y T, WANG N Y, et al. Sequence level semantics aggregation for video object detection [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019: 9217-9225. DOI: 10.1109/iccv.2019.00931
[11] CHEN Y H, CAO Y, HU H, et al. Memory enhanced global-local aggregation for video object detection [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 10337-10346. DOI: 10.1109/ cvpr42600.2020.01035
[12] FELZENSZWALB P, MCALLESTER D, RAMANAN D. A discriminatively trained, multiscale, deformable part model [C]//2008 IEEE Conference on Computer Vision and Pattern Recognition. Anchorage, AK, USA: IEEE, 2008. DOI: 10.1109/cvpr.2008.4587597
[13] SIMONYAN K, ZISSERMAN A. Very deep convolutional networks for large-scale image recognition [EB/OL]. [2020-12-05]. https:// arxiv.org/abs/1409.1556v1
[14] SUN K, XIAO B, LIU D, et al. Deep high-resolution representation learning for human pose estimation [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition(CVPR). Long Beach, CA, USA: IEEE, 2019: 5693-5703. DOI: 10.1109/cvpr.2019.00584
[15] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks [J]. IEEE transactions on pattern analysis and machine intelligence, 2015, 39(6): 91-99. DOI: 10.1109/ tpami.2016.2577031
[16] BOCHKOVSKIY A, WANG C Y, LIAO H M. YOLOv4: Optimal speed and accuracy of object detection [EB/OL]. [2020-12-05]. https:// arxiv.org/abs/2004.10934
[17] WOJKE N, BEWLEY A, PAULUS D. Simple online and realtime tracking with a deep association metric [C]//2017 IEEE International Conference on Image Processing (ICIP). Beijing, China: IEEE, 2017: 3645-3649. DOI: 10.1109/icip.2017.8296962
[18] BEWLEY A, GE Z, OTT L, et al. Simple online and realtime tracking [C]//2016 IEEE International Conference on Image Processing (ICIP). Phoenix, AZ, USA: IEEE, 2016: 3464-3468
[19] BRASó G, LEAL-TAIXé L. Learning a neural solver for multiple object tracking [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 6247-6257
[20] XU Y H, SEP A, BAN Y T, et al. How to train your deep multi-object tracker [C]//2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Seattle, WA, USA: IEEE, 2020: 6787-6796. DOI: 10.1109/ cvpr42600.2020.00682
[21] HE L X, LIANG J, LI H Q, et al. Deep spatial feature reconstruction for partial person Re-identification: alignment-free approach[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE, 2018: 7073-7082. DOI: 10.1109/ cvpr.2018.00739
[22] SUN Y F, XU Q, LI Y L, et al. Perceive where to focus: learning visibility-aware part-level features for partial person Re-identification[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 393-402. DOI: 10.1109/cvpr.2019.00048
[23] MIAO J X, WU Y, LIU P, et al. Pose-guided feature alignment for occluded person Re-identification [C]//2019 IEEE/CVF International Conference on Computer Vision (ICCV). Seoul, South Korea: IEEE, 2019: 542-551. DOI: 10.1109/iccv.2019.00063
[24] ZHONG Z, ZHENG L, ZHENG Z D, et al. Camera style adaptation for person Re-identification [C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018: 5157-5166. DOI: 10.1109/cvpr.2018.00541
[25] ZHU J Y, PARK T, ISOLA P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks [C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice, Italy: IEEE, 2017: 2223-2232. DOI: 10.1109/iccv.2017.244
[26] OZA P, PATEL V M. Deep CNN-based multi-task learning for open-set recognition [EB/OL]. [2020-12-05]. https://arxiv.org/ abs/1903.03161
[27] DE HAAN L, FERREIRA A. Extreme value theory: an introduction [M]. Springer Science & Business Media, 2007
[28] HSU H M, HUANG T W, WANG G, et al. Multi-camera tracking of vehicles based on deep features re-ID and trajectory-based camera link models [C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA: IEEE, 2019: 416-424
[29] WANG G A, WANG Y Z, ZHANG H T, et al. Exploit the connectivity: multi-object tracking with TrackletNet [C]//Proceedings of the 27th ACM International Conference on Multimedia. New York, NY, USA: ACM, 2019: 482-490. DOI: 10.1145/3343031.3350853
[30] HE K M, GKIOXARI G, DOLLAR P, et al. Mask R-CNN [C]//2017 IEEE International Conference on Computer Vision (ICCV). Venice, Italy: IEEE, 2017: 2961-2969. DOI: 10.1109/ iccv.2017.322
作者簡介
薛向陽,復旦大學計算機科學技術學院教授、博士生導師;主要從事計算機視覺、視頻大數(shù)據(jù)分析、機器學習等研究;發(fā)表論文200余篇,其中90余篇發(fā)表在國際權威期刊(如《IEEE Transactions on Pattern Analysis and Machine Intelligence》《IEEE Transactions on Image Processing》等)和頂級國際會議(如ICCV、CVPR、ICML、NeurIPS、ACM MM、IJCAI、AAAI等)上。
李斌,復旦大學計算機科學技術學院青年研究員、博士生導師,上海高校特聘教授(東方學者);研究領域為機器學習、類腦人工智能及其在機器視覺與大數(shù)據(jù)分析中的應用;在《IEEE Transactions on Knowledge and Data Engineering》《IEEE Transactions on Cybernetics》等知名期刊與ICML、NeurIPS、IJCAI、AAAI等一流機器學習和人工智能會議上發(fā)表論文60余篇。