付利華, 楊寒雪, 張 博, 王俊翔, 吳會賢, 閆紹興
(北京工業(yè)大學信息學部,北京 100124)
半監(jiān)督視頻目標分割是在視頻幀中對人工給定的第1幀分割目標進行分割.半監(jiān)督視頻目標分割是視頻處理的基礎,有利于理解視頻場景,為計算機視覺領域的其他任務(如目標檢測、目標跟蹤等)提供了重要的技術支持[1-2].
基于是否用到視頻序列的時序信息,基于深度學習的半監(jiān)督視頻目標分割方法主要有:基于在線微調的視頻目標分割方法和基于時序信息的視頻目標分割方法.基于在線微調的視頻目標分割方法在測試時需要先根據視頻第1幀在線微調模型,其分割準確性較高,但是在線微調耗時較長且不能適應目標物體發(fā)生較大形變的情況[3-4].一次性視頻目標分割(one-shot video object segmentation,OSVOS)[4]先離線預訓練一個通用的前景-背景分割網絡,用于通用目標的前景和背景分割,再基于密集注釋視頻分割(denly-annotated video segmentation,DAVIS)[5-6]測試集對模型進行在線微調,以實現(xiàn)分割特定的目標.OSVOS僅根據視頻序列第1幀微調網絡,因此,模型不能很好地適應外觀變化較大的目標.在線一次性視頻目標分割(online one-shot video object segmentation, Online-OSVOS)方法[7]對視頻幀中的每個像素都分配標簽并將第1幀作為額外添加的訓練樣本對模型進行在線微調,使模型對外觀特征的適應性得到了提高.視頻對象分割的提議生成、細化和合并(proposal-generation, refinement and merging for video object segmentation, PReMVOS)[8]融合了在線學習、實例分割、光流、細化和行人重識別等技術,目前取得了較高的分割精度.Li等[9]提出的模型基于行人重識別技術匹配相同的目標,并根據具有較高置信度的分割結果對網絡模型進行更新,從而提升模型的分割精度.
基于時序信息的視頻目標分割方法將前一幀的分割結果作為參考幀,對當前幀的目標分割進行指導,從而模型對目標物體的形變具有一定的適應性,然而當前幀的分割結果依賴前一幀的分割結果,并且分割的誤差會累積傳播[10-11].Perazzi等[10]提出的模型將前一幀的分割結果與當前幀合并為四通道圖像,并作為網絡模型的輸入以提供時序信息.Wug等[11]提出了一種基于孿生編碼器結構的模型,該模型將視頻第1幀的高層特征和當前幀的高層特征進行堆疊,得到當前幀的分割掩碼.視頻傳播網絡(video propagation networks,VPN)[12]是一個可學習的雙邊濾波網絡,用于傳播視頻幀之間的結構化信息.Cheng等[13]提出的模型對第1幀標注的目標進行拆分,并在視頻的后續(xù)幀中對拆分的目標各部分進行跟蹤,然后分割跟蹤結果,最后合并分割結果并獲得目標最終的分割結果.
為了有效地解決現(xiàn)有基于深度學習的半監(jiān)督視頻目標分割方法存在的問題,本文提出一種基于注意力修正的半監(jiān)督視頻目標分割方法.該方法通過獲取與目標物體有關的空間特征信息與外觀特征信息,基于注意力機制學習獲得的特征信息,指導當前幀的目標分割,最后融合低層語義信息和高層語義信息,實現(xiàn)對目標物體的精確分割.
本文提出一種基于注意力機制結合外觀特征信息和空間特征信息的半監(jiān)督視頻目標分割方法,主要包含3個部分,分別是外觀特征提取子網、當前幀特征提取子網和全局引導特征融合子網,其網絡結構如圖1所示.本文方法基于注意力機制分別學習待分割目標的空間特征信息與外觀特征信息,其中空間特征信息和外觀特征信息分別提供目標的大致位置和外觀信息,指導視頻目標分割;設計的全局引導特征融合子網將高級語義特征視為全局特征,對融合全局信息和局部信息進行引導,進一步提高分割的精度.
圖1 基于注意力修正的半監(jiān)督視頻目標分割結構
目標物體的外觀信息主要包含物體的紋理、形狀、顏色以及種類等,這些信息在目標運動過程中基本不會發(fā)生變化,對模型在尋找視頻后序幀中目標物體的過程中進行有效指導.在半監(jiān)督視頻目標分割中,視頻后序幀的目標分割都會受到第1幀中給定目標物體的影響,因此,有效地獲取視頻第1幀的外觀特征非常重要.
本文設計外觀特征提取子網來對目標物體的外觀特征進行提取.首先,使用給定的分割掩碼以獲取第1幀的目標物體,并將其作為外觀特征提取子網的輸入;然后,使用外觀特征提取子網提取目標物體的特征;最后,使用提取的目標特征對后續(xù)幀的目標分割進行指導.
外觀特征提取子網基于Resnet-50網絡[14],將其中的最大池化層刪除,并將Conv_4層的步長設置為1,最終輸出原始圖像尺寸1/16大小的特征圖,其網絡參數(shù)如表1所示.
表1 外觀特征提取子網的網絡參數(shù)
為了獲得更大分辨率的帶有語義信息的特征圖且防止混入噪聲區(qū)域,本文方法將ResNet-50網絡的池化層進行刪除并設置其Conv_4層的步長為1.
當前幀特征提取子網的輸入為前一幀的分割掩碼、外觀特征提取子網輸出的視頻第1幀特征圖和當前幀圖像.為了使模型的目標分割結果更加優(yōu)化,本文根據通道注意力機制并基于外觀特征提取子網提取的目標外觀信息,對當前幀的外觀分割進行修正;根據空間注意力機制并基于前一幀的目標分割掩碼對當前幀的目標位置進行修正;最后,將外觀修正特征圖和位置修正特征圖進行融合,使得當前幀特征圖更加細化.
1.2.1 雙分支結構
基于雙分支的網絡結構對當前幀特征提取子網進行設計.其中一個分支基于外觀特征提取子網和外觀修正通道注意力對獲取的當前幀的高級語義特征進行基于第1幀外觀特征的外觀修正,從而得到外觀修正特征圖,最后,將其用于對分割目標的通道權值進行加強;另一個分支基于外觀特征提取子網的前3層和位置修正空間注意力,對提取得到的當前幀的空間特征信息進行基于前一幀分割結果中目標物體空間位置信息的位置修正,從而得到位置修正特征圖,并將其用于對目標分割的空間位置權值進行加強.該子網的2個分支共享外觀特征提取子網的前3層網絡.
本文對外觀修正特征圖上采樣并進行通道壓縮以恢復細節(jié)信息,從而使外觀修正特征圖和位置修正特征圖能夠更好地進行融合.此外,本文將位置修正特征圖與外觀修正特征圖進行矩陣相乘,以此來抑制無用的通道信息和空間信息,減少上采樣過程中混入的雜質.
1.2.2 外觀修正通道注意力
半監(jiān)督視頻目標分割使用視頻第1幀的分割掩碼得到目標物體的特征信息,并比較其與后續(xù)幀特征信息的異同,從而得到后續(xù)幀中的目標物體的分割結果.本文采用外觀修正的通道注意力,根據通道間的相關性,獲得2幅圖像中待分割目標間的相關性,以此修正當前幀的深層語義特征圖.圖2展示了外觀修正通道注意力的具體網絡結構.
圖2 外觀修正通道注意力結構
第1幀特征圖F0中含有目標物體的紋理、形狀、顏色、種類等外觀信息,外觀修正的通道注意力的輸入分別是F0和當前幀特征圖Ft.
(1)
再將當前幀特征圖與通道修正權重圖X進行矩陣相乘,并乘以因子β,加上當前幀特征圖,以獲得外觀修正特征圖EC,即
(2)
式中β的初始值為0,隨著模型的學習,β被賦予更合理的權值.
1.2.3 位置修正空間注意力
在視頻目標分割中,目標物體在視頻序列中持續(xù)運動,具有充分的時序信息.為了獲取這些信息,本文將前一幀的分割結果作為先驗知識來粗略定位當前幀的目標物體.
為了得到前一幀分割結果中和當前幀在各位置上的相關性,本文基于位置修正空間注意力,并以前一幀的分割結果來對當前幀目標的位置信息進行修正以獲得當前幀目標物體的大體位置.圖3展示了位置修正空間注意力的具體結構.
圖3 位置修正空間注意力結構
(3)
(4)
式中α的初值為0,隨著模型的學習,α被賦予合理的權值.
卷積神經網絡在通過多層卷積提取特征的過程中,特征逐漸缺失空間信息并逐漸獲得更豐富的語義信息.因此,空間信息更多地集中于低級語義特征,而語義信息則更多地集中在高級語義特征.為了進一步提升分割的效果,本文設計全局引導特征融合子網,將低級語義特征和高級語義特征進行融合,從而實現(xiàn)目標物體分割.
如圖1所示,當前幀特征提取子網的輸入是外觀特征提取子網輸出的第1幀特征圖、前一幀分割掩碼和當前幀,輸出是當前幀的不同尺度特征圖,分別是C1、C2、C3和C4.本文將包含豐富語義信息的高級語義特征圖C4作為全局引導特征,以避免高級語義特征與低級語義特征在融合過程中丟失語義信息.
特征圖C1、C2、C3和C4的大小分別是原圖像的1/4、1/8、1/16和1/16,因此,在與低級語義特征進行融合時,需將特征圖C4依次進行1倍、2倍和4倍上采樣,再融合當前層特征圖,然后將融合后的特征圖進一步卷積并與下一層特征圖進行融合,得到最終的目標分割結果.
現(xiàn)有的目標分割網絡缺乏高層語義信息與全局信息,像素點所屬類別無法確定,并最終使得分割結果精度不高.本文設計了全局引導特征融合子網,在目標分割過程中融合了低級語義特征和高級語義特征,并同時以高級語義特征作為全局引導特征來指導全局特征融合局部特征,進一步提升分割效果.
本文方法數(shù)據集為YouTube-VOS數(shù)據集[15]和DAVIS數(shù)據集[5-6],訓練集由YouTube-VOS數(shù)據集和DAVIS數(shù)據集中的訓練集構成,測試集則使用DAVIS數(shù)據集的測試集.
YouTube-VOS數(shù)據集是ECCV2018視頻目標分割比賽所用的數(shù)據集,共有78個不同類別的7 822個目標,具有多實例標注,共有4 453個視頻序列,其中訓練集有3 471個序列.
DAVIS數(shù)據集有2個版本,分別是DAVIS-2016和DAVIS-2017.其中:DAVIS-2016[16]采用單實例標注,共有50個序列,訓練集為其中30個序列;DAVIS-2017[17]則采用多實例標注,共有150個序列,訓練集為其中60個序列.DAVIS數(shù)據集是目標分割領域的基準數(shù)據集,模擬了一些真實的視頻場景,包含不同類型的對象和攝像機運動.本文基于DAVIS-2016進行模型的測試.
本文方法是基于Tensorflow開源框架實現(xiàn)的,損失函數(shù)由加權二分類交叉熵[18]損失函數(shù)和Lovász-softmax[19]損失函數(shù)共同組成,訓練優(yōu)化器采用自適應矩估計.在模型訓練的初始階段,batchsize的大小設置為4,學習率的大小設置為1×10-4;在模型迭代訓練50萬次初步收斂后,將學習率的大小設置為5×10-5;在模型訓練20萬次初步穩(wěn)定后,將學習率的大小設置為1×10-5,并最終訓練模型至完全收斂.
視頻目標分割一直是計算機視覺領域的研究熱點,有許多比較傳統(tǒng)的方法,如雙邊空間視頻分割(bilateral space video segmentation, BVS)[20]、全連接對象提議(fully connected object proposals, FCP)[21],也有許多方法基于卷積神經網絡進行分割,如OSVOS[4]、基于網絡調制的視頻目標分割(video object segmentation via network modulation, OSMN)[22]和面向視頻目標分割的像素級匹配(pixel-level matching for video object segmentation, PLM)[23].本文方法與當前主流的幾種半監(jiān)督視頻目標分割方法進行比較以展示本文方法的有效性.
本文采用區(qū)域相似性J和輪廓精度F評估模型在DAVIS數(shù)據集上的目標分割效果.分割結果的錯誤像素數(shù)量基于區(qū)域相似性J進行度量,分割結果中分割邊界的準確率則基于輪廓精度F進行度量.
表2展示了本文模型與當前主流的視頻目標分割方法在DAVIS-2016數(shù)據集的測試集上的比較結果.其中:T代表模型對視頻每幀的處理時間;FT代表模型是否需要在線微調.
如表2所示:
表2 不同視頻目標分割方法在DAVIS-2016實驗結果
1)本文方法與BVS相比,客觀評價指標J和F分別提高12.03和19.55;與FCP相比,客觀評價指標J和F分別提高13.63和29.15.本文方法對每一幀的分割時間為0.16 s,比BVS快1倍多,比FCP快2倍多.傳統(tǒng)半監(jiān)督視頻目標分割方法BVS和FCP需要通過構建復雜的圖像模型進行目標分割,因此,目標分割需要消耗大量時間,并且分割的精度也較低.本文提出的視頻目標分割方法是基于深度學習的方法,與傳統(tǒng)的半監(jiān)督視頻目標分割方法相比,本文方法的目標分割精度和效果都有較大的提升.
2)PLM和OSVOS兩者均是基于在線微調的策略進行半監(jiān)督視頻目標分割的方法.PLM的客觀評價指標J和F分別比本文方法低1.83和15.85,分割所耗時間是本文方法耗時的近4倍;OSVOS分割效果較好,其客觀評價指標J和F分別比本文方法高7.77和2.25,分割所耗時間是本文方法分割時間的61倍多.基于在線微調的半監(jiān)督視頻目標分割方法需要通過在測試時對網絡模型進行迭代優(yōu)化,從而適應特定的待分割目標物體,因此,模型的分割速度較慢.本文方法在視頻目標進行分割的過程中,只需要讀取一次視頻的第1幀,并基于外觀修正通道注意力對視頻第1幀中的待分割目標的外觀特征進行學習,因此,具有較快的分割速度.
3)本文方法相較于OSMN,客觀評價指標J降低1.97,但評價指標F提高5.45.OSMN方法在目標分割過程中引入外觀信息和空間信息對目標分割進行指導,雖然該方法的分割效果有所提升,但是其是基于模型前一幀的分割圖生成的二維高斯分布熱力圖來表示空間信息,比較模糊,導致分割結果具有不準確的目標物體輪廓.本文提出的方法基于位置修正空間注意力來學習在前一幀中目標物體所在每個像素點的位置信息,可以獲取更精確的輪廓信息.
為了更直觀地對本文方法的實驗效果進行分析,將本文方法的分割結果與BVS、FCP、OSVOS、OSMN、PLM中的部分目標分割結果比較,進行了定性分析,圖4展示了對比結果.
圖4 不同視頻目標分割方法在DAVIS-2016的部分定性結果
由圖4可知:
1)傳統(tǒng)的半監(jiān)督視頻目標分割方法BVS、FCP難以獲得輪廓邊緣清晰的分割結果,本文方法則能在保證分割精度的同時,保持目標物體的輪廓細節(jié),優(yōu)于傳統(tǒng)的視頻目標分割方法.
2)本文方法采用位置修正空間注意力對前一幀目標物體和當前幀的位置關系進行學習.由圖4中第2行和第3行的例子可以看出,本文方法能夠較好地區(qū)分視頻幀中的相似物體,在背景中具有相似的人或者具有駱駝的情況下,仍然可以獲得較準確的前景目標分割結果.
3)本文方法基于設計的全局引導特征融合子網,根據高級語義信息對網絡的目標物體分割進行引導.由圖4中第3行和第5行的例子可以看出,本文方法在復雜環(huán)境下依舊可以獲得較準確的分割邊界.
1)傳統(tǒng)的半監(jiān)督視頻目標分割方法大多是基于幀間時序信息或是基于在線微調策略,不能同時保證模型的分割精度和分割效率.
2)本文提出一種基于注意力修正的半監(jiān)督視頻目標分割方法.首先,分別基于視頻第1幀和前一幀分割結果,得到外觀指導信息與位置指導信息;然后,分別基于外觀修正通道注意力和位置修正空間注意力在當前幀特征圖中注入外觀和位置指導信息;最后,本文方法將高級語義特征作為全局引導特征并通過全局引導特征融合子網對全局信息和局部信息的融合進行引導,進一步提升模型的分割精度.實驗結果表明,本文的視頻目標分割方法分割速度快且分割目標的輪廓精度高.