国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于跨域關(guān)系學(xué)習(xí)的視頻分割算法研究*

2022-10-23 10:17龔猷龍
火力與指揮控制 2022年9期
關(guān)鍵詞:時(shí)域空域注意力

龔猷龍

(重慶廣播電視大學(xué)電子信息工程學(xué)院,重慶 401520)

0 引言

視頻分割是一個(gè)具有挑戰(zhàn)性的問題,旨在將給定視頻的所有幀中的前景像素和背景像素分開。過去幾年來,它一直是計(jì)算機(jī)視覺的活躍研究領(lǐng)域,潛在的應(yīng)用包括視頻編輯、媒體診斷和自動(dòng)駕駛等。

近年來,由于深度學(xué)習(xí)的發(fā)展,基于多尺度分析和數(shù)據(jù)增強(qiáng)的圖像分割已用于提供可接受的分割結(jié)果??沼颉r(shí)域和通道域中的上下文是提高分割有效性的重要因素。圖1 顯示了DAVIS16 數(shù)據(jù)集的域內(nèi)關(guān)系示例。頂行綠色箭頭顯示時(shí)域內(nèi)相關(guān)性,中間行紫色箭頭顯示單個(gè)圖像空間內(nèi)相關(guān)性,底行紅色箭頭顯示不同通道的相關(guān)性??梢园l(fā)現(xiàn),不同通道中的高激活區(qū)域(在紅黃色區(qū)域)與對象的不同部分(例如人的腳和頭)有關(guān),這種不同部分之間的關(guān)系提供了附加的語義線索,可用于改善語義分割結(jié)果。但是,如何同時(shí)捕獲空域、時(shí)域和通道域中的非局部關(guān)系,仍然是視頻分割中的重要問題。

圖1 DAVIS16 數(shù)據(jù)集中時(shí)域(上行)、空域(中行)和通道域(下行)中的關(guān)系

為了在特定域中對關(guān)系建模,非局部神經(jīng)網(wǎng)絡(luò)通過使用像素之間的相似度來學(xué)習(xí)空間域中的非局部依賴性。需要將這種機(jī)制靈活地?cái)U(kuò)展到不同域的方法,并設(shè)計(jì)一種新方法來適當(dāng)?shù)厝诤蟻碜远鄠€(gè)域的上下文特征,以增強(qiáng)在逐像素分類任務(wù)(如視頻分割)中的特征辨識(shí)能力。

在本文中,提出一種新的三重注意網(wǎng)絡(luò),如圖2所示。過去幀和當(dāng)前幀學(xué)習(xí)時(shí)域注意圖,并捕獲記憶信息和當(dāng)前觀察值之間的時(shí)域依賴性。通過當(dāng)前圖像(因?yàn)榭沼蚝屯ǖ烙蛳嚓P(guān)性是動(dòng)態(tài)的,并且與歷史信息無關(guān))獨(dú)立獲得通道域自注意力圖和空域自注意力圖并用于求取每個(gè)域的上下文特征。針對不同域的信息進(jìn)行融合時(shí)具有語義鴻溝的問題,設(shè)計(jì)一種跨域關(guān)系學(xué)習(xí)模塊,尋找嵌入空間,使得不同域信息進(jìn)行線性投影后可以緩解語義鴻溝問題。

圖2 使用獨(dú)立的自注意力網(wǎng)絡(luò)來挖掘時(shí)域、空域和通道域下文

本文的貢獻(xiàn)如下:

1)提出一種基于注意力機(jī)制的時(shí)域信息挖掘網(wǎng)絡(luò),在時(shí)域變化劇烈情況下基于歷史信息改善視頻分割結(jié)果。

2)設(shè)計(jì)一種跨域關(guān)系學(xué)習(xí)機(jī)制,用于融合單張圖像的空域和通道域信息,從而增強(qiáng)視頻分割器的辨識(shí)能力。

在Shining3D 牙科、DAVIS16 和DAVIS17 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,與最新的視頻分割方法相比,本文方法可獲得令人滿意的結(jié)果。

1 相關(guān)工作

本章將簡要回顧有關(guān)視頻分割中上下文挖掘的工作。

1.1 空間上下文挖掘

時(shí)空馬爾可夫隨機(jī)場(STMRF)和VideoGCRF圖模型在深度學(xué)習(xí)框架中對空間依賴性進(jìn)行編碼。但是,這種方法就在推理階段進(jìn)行樣本關(guān)系挖掘時(shí)非常耗時(shí),并且對外觀變化也很敏感。因此,自適應(yīng)親和力場(AAF)利用對抗學(xué)習(xí)來捕獲和匹配相鄰像素之間的關(guān)系。空間傳播網(wǎng)絡(luò)(SPN)和RelationNet在空間中周期性地傳播信息,而DifNet 則應(yīng)用級(jí)聯(lián)的隨機(jī)行走來近似復(fù)雜的擴(kuò)散過程。為了獲得傳遞階段的起點(diǎn),可以使用顯著性檢測或注意圖來獲得可靠的種子起點(diǎn)。

1.2 通道上下文挖掘

LSSiam 網(wǎng)絡(luò)使用通道注意力模塊來學(xué)習(xí)跨通道關(guān)系?;谕ǖ澜换サ亩M(jìn)制卷積神經(jīng)網(wǎng)絡(luò)(CI-BCNN)通過增強(qiáng)學(xué)習(xí)模型挖掘通道交互能力,并通過交互式位計(jì)數(shù)函數(shù)將通道應(yīng)用于超特征圖。CNN 或RNN 框架中的通道注意力探索了減少不相關(guān)通道影響的重要性。最近,空間注意力和通道注意力已被組合在一起,以在特征圖中找到最有價(jià)值的激活區(qū)域。

1.3 時(shí)間上下文挖掘

Ci 等使用了一種簡單的方法,該方法僅通過跟蹤前一幀中的分割結(jié)果,而大多數(shù)方法則從點(diǎn)軌跡、特征對齊、蒙版?zhèn)鞑セ蜻\(yùn)動(dòng)中獲取時(shí)間信息。點(diǎn)軌跡與幀內(nèi)顯著性、幀間一致性和跨視頻相似性相結(jié)合,形成一個(gè)能量優(yōu)化框架,以發(fā)現(xiàn)和分割跨多個(gè)幀或立體視頻的公共對象區(qū)域。后來采用基于密度峰值和基于子模型優(yōu)化的軌跡聚類方法捕獲軌跡之間豐富的時(shí)空關(guān)系。特征對齊與來自相鄰幀的特征圖中的相應(yīng)像素進(jìn)行匹配。MoNet 利用光流在整個(gè)序列中傳播特征圖,而自適應(yīng)時(shí)間編碼網(wǎng)絡(luò)(ATEN)僅在具有低置信度空間推斷中使用特征流。遞歸神經(jīng)網(wǎng)絡(luò)(RNN)也探索序列中的時(shí)域關(guān)系,然后在序列到序列的框架中學(xué)習(xí)時(shí)域相關(guān)性。其他方法使用基于匹配的方法來計(jì)算前景和背景的特征相似度。掩碼傳播直接學(xué)習(xí)相鄰幀之間掩碼的時(shí)域關(guān)系。一些方法還使用光流將預(yù)測的掩碼映射到相鄰幀,而其他工作則使用基于學(xué)習(xí)的方法(例如MaskTrack 和深度暹羅編碼器/解碼器)對掩碼傳播進(jìn)行建模。運(yùn)動(dòng)挖掘已被用來發(fā)現(xiàn)圖像中具有運(yùn)動(dòng)信息的部分。結(jié)合顯著性檢測的光流通常用于查找運(yùn)動(dòng)對象,并且使用距離變換可進(jìn)一步提高分割的準(zhǔn)確性。

近年來,由于注意力機(jī)制能夠發(fā)現(xiàn)具有高激活值的潛在區(qū)域,因此,其引起了人們的關(guān)注。分層注意力暹羅網(wǎng)絡(luò)(HASN)結(jié)合了注意力權(quán)重和多層集成,以增加匹配判別力。Wang 等人使用convLSTM捕獲動(dòng)態(tài)視覺注意力,以指導(dǎo)基于FCN 架構(gòu)的細(xì)粒度對象分割。剪切執(zhí)行網(wǎng)絡(luò)(CEN)和Patchwork 基于Q 學(xué)習(xí)的策略智能地選擇硬注意力圖。多關(guān)注實(shí)例網(wǎng)絡(luò)(MAIN)結(jié)合了RGB 圖像、光流以及長短空時(shí)注意力線索產(chǎn)生多實(shí)例分割。

以上方法通過在特征圖中使用時(shí)間一致性、空間相似性和通道關(guān)系來返回預(yù)測結(jié)果。然而,目前的方法只能同時(shí)學(xué)習(xí)一種或至多兩種依賴關(guān)系,而不能完全利用上下文信息。

2 本文方法

卷積操作在局部區(qū)域進(jìn)行信息處理,屬于同個(gè)類別不同區(qū)域的像素所提取的特征會(huì)有差異,而這種類內(nèi)差異性影響分割結(jié)果的準(zhǔn)確性。為解決這個(gè)問題,本文通過使用自注意力機(jī)制建立像素間關(guān)系來探索全局上下文知識(shí),該機(jī)制在通道域、空域和時(shí)域上學(xué)習(xí)非局部上下文知識(shí)。本文方法如圖3 所示。課題組使用經(jīng)過預(yù)訓(xùn)練的骨干網(wǎng)絡(luò)(例如ResNet101)和空洞卷積作為編碼器。來自空洞殘差網(wǎng)絡(luò)的特征送到本文模塊中以獲取上下文特征,上下文特征輸入到基于反卷積的解碼器中得到與原始圖像相同分辨率的預(yù)測分割預(yù)測圖。該網(wǎng)絡(luò)的細(xì)節(jié)如圖3 所示。使用過去幀和當(dāng)前幀來學(xué)習(xí)時(shí)域注意力圖,通過當(dāng)前圖像來獲得空域和通道域自注意力圖,進(jìn)而獲得每個(gè)域中的上下文特征,跨域關(guān)系學(xué)習(xí)模塊融合空域和通道域特征得到最終上下文特征送入解碼器預(yù)測分割掩碼。

圖3 本文方法的詳細(xì)結(jié)構(gòu)

2.1 時(shí)域注意力模塊

當(dāng)前的視頻分割方法利用視頻中固定某幀作為掩碼傳播或特征對齊的參考幀。但是,視頻序列通常包含較大的運(yùn)動(dòng)、遮擋和外觀變化,從而導(dǎo)致不穩(wěn)定的預(yù)測結(jié)果。

視頻序列中對應(yīng)于當(dāng)前幀的先前幀,即使不是當(dāng)前幀的相鄰幀,也包含時(shí)域線索,尤其是在目標(biāo)進(jìn)行重復(fù)活動(dòng)的情況下。因此,課題組設(shè)計(jì)了一種基于檢索的非局部信息挖掘方法,來捕獲視頻序列中的非局部依賴性。視頻中每幀都參與預(yù)測過程,并且每幀的重要性由時(shí)域注意力機(jī)制決定。

在圖3 中,過去幀和當(dāng)前幀的檢索特征圖在時(shí)域上進(jìn)行匹配,然后將匹配分?jǐn)?shù)歸一化,作為過去幀的語義特征圖權(quán)重。時(shí)域知識(shí)的線性組合用于獲得時(shí)域上下文特征。

過去幀提供不同貢獻(xiàn)的時(shí)域線索,其中最相似的幀獲得最高的權(quán)重。因此,過去幀中時(shí)域注意圖t和f特征的線性組合乘以比例參數(shù)α,以進(jìn)一步和當(dāng)前幀特征圖f進(jìn)行元素求和從而得到最終輸出:

在時(shí)域維度上使用自注意力機(jī)制有幾個(gè)優(yōu)點(diǎn):1)有時(shí)由于截?cái)?、遮擋或較大的攝像機(jī)運(yùn)動(dòng),視頻中的內(nèi)容會(huì)出現(xiàn)前后不一致。與局部遞歸或卷積的方法不同,自注意力機(jī)制可以通過測量任意兩幀間的相互作用來直接捕獲非局部時(shí)域關(guān)系,而無需考慮它們的間隔。2)本文的自注意力算法是高效的,因?yàn)樗鼉H在時(shí)域中使用線性核函數(shù),而不是其他非線性核函數(shù)。3)自注意圖保持輸入張量的大小,可以輕松地將其插入到其他模塊中。

2.2 跨域交互模塊

當(dāng)前許多工作僅使用CNN 來獲取空域局部特征,忽視空域非局部上下文信息通常會(huì)導(dǎo)致預(yù)測錯(cuò)誤。此外,高層特征圖中的不同通道包含豐富的對象或?qū)傩孕畔ⅰH绻浞痔剿魍ǖ烙騼?nèi)的關(guān)系(不僅是相鄰?fù)ǖ?,還有非局部通道),則可以改進(jìn)語義特征的辨識(shí)性。

為了對不同位置和通道的特征之間豐富的上下文依賴性進(jìn)行建模,同時(shí)緩和不同域信息融合時(shí)的語義鴻溝,本文引入跨域交互模塊,同時(shí)從不同域的角度增強(qiáng)特征的判識(shí)能力。

首先,用編碼器來獲得分辨率減小的共享特征圖,然后,通過以下步驟將實(shí)現(xiàn)跨域交互模塊,并獲得聯(lián)合空域和通道域的非局部上下文特征圖:1)空域自注意力和通道域自注意力分別建模各自域的非局部依賴關(guān)系,從而得到空域、通道域上下文特征;2)學(xué)習(xí)通道域到空間域的投影矩陣,將通道域上下文特征投影到空域中,從而實(shí)現(xiàn)不同域特征的融合。

其中,β 和γ 是標(biāo)量參數(shù),以使遠(yuǎn)程影響可與j 位置或n 通道的特征相提并論。

該方法根據(jù)空間域和通道域自注意力圖選擇性地組合上下文,從而具有全局上下文視角。相似的語義特征會(huì)獲得互增益,從而增強(qiáng)類內(nèi)部的特征緊湊性和語義一致性。為了簡單起見,本文使用線性核對空間域和通道域內(nèi)部及跨域間的關(guān)系進(jìn)行建模??梢栽谇度肟臻g或使用其他基于CNN 的非線性映射中進(jìn)一步探索復(fù)雜的相互依賴關(guān)系,以發(fā)現(xiàn)觀測值背后的潛在知識(shí)。

2.3 難例挖掘

在訓(xùn)練數(shù)據(jù)充足的情況下,由于訓(xùn)練數(shù)據(jù)內(nèi)存在冗余、噪聲,使用全部訓(xùn)練數(shù)據(jù)不但不能提升分割模型的性能,而且還會(huì)增加學(xué)習(xí)時(shí)間、降低模型收斂性;而隨機(jī)抽樣樣本進(jìn)行學(xué)習(xí)的方法又會(huì)降低數(shù)據(jù)的多樣性,從而最終降低分割模型的有效性。

因此,采用難例挖掘策略改善模型的有效性,用所有訓(xùn)練數(shù)據(jù)訓(xùn)練出初始分割模型后,利用初始分割模型對訓(xùn)練數(shù)據(jù)進(jìn)行視頻分割,每幀中每個(gè)像素的分類概率計(jì)算熵(度量分割的不確定程度),用于訓(xùn)練的視頻段中所有幀計(jì)算像素熵的和,并與固定門限比較,如果視頻段的熵大于門限表示該視頻段的分割結(jié)果不確定性較高,可以用于難例挖掘。然后,基于采集到的難例對初始分割模型進(jìn)行微調(diào),從而得到改進(jìn)的視頻分割模型。實(shí)驗(yàn)過程中熵門限的取值根據(jù)驗(yàn)證集的分割性能進(jìn)行搜索,在本實(shí)驗(yàn)中,DAVIS16 和DAVIS17 數(shù)據(jù)集中熵門限取值為6 480,Shining3D 牙科數(shù)據(jù)集中熵門限取值為4 800。

3 實(shí)驗(yàn)結(jié)果

3.1 數(shù)據(jù)集

本文在DAVIS16 數(shù)據(jù)集、DAVIS17 數(shù)據(jù)集和Shining3D 齒科數(shù)據(jù)集上評(píng)估了本文方法的有效性。

DAVIS16 數(shù)據(jù)集包括50 個(gè)高分辨率視頻(訓(xùn)練集有30 個(gè)視頻,驗(yàn)證集有20 個(gè)視頻)。這些視頻總共包含3 455 幀,每幀都有標(biāo)定的分割掩碼。該數(shù)據(jù)集包含諸如外觀變化、遮擋和運(yùn)動(dòng)模糊之類的挑戰(zhàn)性情況,因此被廣泛使用。需要指出的是,該數(shù)據(jù)集僅標(biāo)記了圖像中主要的運(yùn)動(dòng)對象。

DAVIS17 數(shù)據(jù)集包含多個(gè)對象的場景。它是DAVIS16 數(shù)據(jù)集的擴(kuò)展(訓(xùn)練集有60 個(gè)視頻,驗(yàn)證集有30 個(gè)視頻,測試集有30 個(gè)視頻,測試挑戰(zhàn)集有30 個(gè)視頻),包括總共10 459 個(gè)帶標(biāo)定掩碼的圖像幀。本文在驗(yàn)證集上驗(yàn)證了該方法的有效性。由于具有多個(gè)交互的實(shí)例,因此,DAVIS17 數(shù)據(jù)集比DAVIS16 數(shù)據(jù)集更具挑戰(zhàn)性。

Shining3D 牙科數(shù)據(jù)集包含由3D 牙科掃描設(shè)備產(chǎn)生的47 個(gè)視頻,該視頻構(gòu)建5 800 幀的訓(xùn)練集和2 000 幀的驗(yàn)證集。圖像大小調(diào)整為640×480 像素。圖像中的區(qū)域標(biāo)定為牙齒、臉頰、嘴唇、下頜、牙齦或其他軟組織。為了應(yīng)用目的,本文選擇將牙齒、牙齦和所有其他軟組織作為3 個(gè)不同的類別。

3.2 評(píng)價(jià)標(biāo)準(zhǔn)

本文使用區(qū)域相似度的平均值J和輪廓精度F作為評(píng)價(jià)標(biāo)準(zhǔn)。平均區(qū)域相似性J是通過預(yù)測的分割掩碼和相應(yīng)的真實(shí)分割掩碼之間的交并比(intersection-over-union,兩個(gè)區(qū)域重疊的部分除以兩個(gè)區(qū)域的集合部分得出的結(jié)果)得到。輪廓精度F體現(xiàn)了召回率和精度之間的平衡。

3.3 實(shí)施細(xì)節(jié)

在本文方法中,骨干網(wǎng)絡(luò)是ResNet50 或ResNet101,并提取了3 個(gè)下采樣后的特征圖作為共享特征。然后,在共享特征上分別連接3 個(gè)分支,以提取和融合來自不同域的知識(shí)。也就是說,全局平均池化接收全局信息,3×3 卷積接收局部信息,并使用步幅2、4 和8 進(jìn)行空洞卷積以進(jìn)行多尺度分析。因此,在DAVIS16 和DAVIS17 數(shù)據(jù)集中原始特征圖的大小為108×60×64,在Shining3D 牙科數(shù)據(jù)集中原始特征圖的大小為80×60×64。歷史幀數(shù)T固定為10,比例參數(shù)α,β 和γ 分別選擇為0.05、0.002 和0.01。優(yōu)化器是隨機(jī)梯度下降(SGD),權(quán)重衰減為0.04,動(dòng)量為0.9。為避免有效性曲線受到?jīng)_擊,將學(xué)習(xí)率在前50 個(gè)訓(xùn)練周期設(shè)置為0.008,在后15 個(gè)訓(xùn)練周期設(shè)置為0.005,這將根據(jù)驗(yàn)證集的有效性進(jìn)行更新。對于Shining3D 牙科數(shù)據(jù)集,批處理大小設(shè)置為14,對于DAVIS16/17 數(shù)據(jù)集,批處理大小設(shè)置為10。為了進(jìn)行數(shù)據(jù)增強(qiáng),在訓(xùn)練期間使用了水平/垂直翻轉(zhuǎn)(HVF),基于空間變形和強(qiáng)度變化(SDIC)的數(shù)據(jù)增強(qiáng)或基于視頻傳播(VP)的數(shù)據(jù)增強(qiáng)。

3.4 消融研究

本文進(jìn)行了廣泛的消融研究,以比較本文方法中幾個(gè)重要組成部分的結(jié)果。這些實(shí)驗(yàn)僅在DAVIS16 數(shù)據(jù)集上進(jìn)行。

1)三重注意力網(wǎng)絡(luò)。本文驗(yàn)證了每種類型的注意力機(jī)制以及注意力機(jī)制組合的有效性,產(chǎn)生的平均區(qū)域相似度J和輪廓精度F顯示在下頁表1中。骨干網(wǎng)絡(luò)是ResNet50 或ResNet101,并且以8 倍下采樣率從骨干網(wǎng)絡(luò)中提取共享特征圖。視頻傳播(VP)用于數(shù)據(jù)增強(qiáng)以擴(kuò)充訓(xùn)練數(shù)據(jù)。與不使用上下文挖掘的方法相比,時(shí)域、空域和通道域的自注意力分別在骨干網(wǎng)絡(luò)ResNet50 下提高了平均區(qū)域相似度約3.8、4.3 和3.5,在骨干網(wǎng)絡(luò)ResNet101 下提高了3.6、4.0 和3.4。此外,還可以同時(shí)使用不同的自注意力網(wǎng)絡(luò)來提高分割的有效性。當(dāng)3 種自注意力網(wǎng)絡(luò)整合在一起時(shí),總體性能分別提高了6.1(ResNet50)和5.7(ResNet101)。

表1 DAVIS16 驗(yàn)證集上的三重注意力機(jī)制的性能驗(yàn)證

2)注意力機(jī)制。將比較本文注意力方法和相同配置下的不同注意力方法,結(jié)果如表2 所示。動(dòng)態(tài)注意力網(wǎng)絡(luò)將靜態(tài)CNN 特征序列作為輸入,并學(xué)習(xí)捕獲CNN-convLSTM 體系結(jié)構(gòu)中的物體性。互注意力網(wǎng)絡(luò)從一對幀中捕獲了豐富的相關(guān)性,這使網(wǎng)絡(luò)可以更多地參與相關(guān)的信息區(qū)域。排名注意力網(wǎng)絡(luò)根據(jù)重要性重新組織像素級(jí)前景和背景相似度圖。在不同的注意力機(jī)制中,由于在3 個(gè)空間中充分利用上下文信息,本文的三重自注意力方法顯示出具有競爭性的性能。

表2 不同注意力機(jī)制的對比

3)尺度。在圖4 中顯示了各種下采樣率(2×、4×、8×和16×)特征下自注意力網(wǎng)絡(luò)的幀級(jí)精度分布,其中骨干網(wǎng)絡(luò)為ResNet101。數(shù)據(jù)增強(qiáng)方式是基于視頻傳播的方法。百分位數(shù)是視頻中幀的累積比率,并且68.1 和86.3 之間的準(zhǔn)確度差距表明下采樣比率在參數(shù)設(shè)置中很重要。如果在更深的網(wǎng)絡(luò)層中使用自注意力網(wǎng)絡(luò),它會(huì)在高級(jí)語義區(qū)域中學(xué)習(xí)長距離依賴性。但是,減小特征圖的分辨率會(huì)忽略小尺度目標(biāo)。在本文實(shí)驗(yàn)中,下采樣率為8(ResNet10 骨干網(wǎng)絡(luò)的第23 層)在平均IoU 曲線中顯示出最佳性能。

圖4 DAVIS16 數(shù)據(jù)集中各種下采樣率的性能對比

4)難例挖掘。本文比較難例挖掘訓(xùn)練策略在視頻分割有效性上的作用,實(shí)驗(yàn)結(jié)果如表3 所示。采用難例挖掘策略后,不但訓(xùn)練數(shù)據(jù)中可以去除冗余和噪聲數(shù)據(jù),還能部分改善分割網(wǎng)絡(luò)的分類能力(提升分割平均準(zhǔn)確率0.4%~0.6%),得到魯棒的視頻分割結(jié)果。

表3 不同注意力機(jī)制的性能對比

3.5 對DAVIS16/17 驗(yàn)證集的評(píng)估

本文方法與具有上下文挖掘模塊的其他視頻分割方法進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如下頁表4 所示。

表4 在DAVIS16 驗(yàn)證集、DAVIS17 驗(yàn)證集和Shining3D 牙科數(shù)據(jù)集上的有效性比較

具有周期一致性的BlockMatch通過使用自監(jiān)督學(xué)習(xí)來建模時(shí)空對應(yīng)關(guān)系,該學(xué)習(xí)方法在DAVIS17 數(shù)據(jù)集上獲得41.8 的平均區(qū)域相似度,而patchwork中基于Q 學(xué)習(xí)網(wǎng)絡(luò)(強(qiáng)化學(xué)習(xí))的策略選擇子窗口并在DAVIS16 數(shù)據(jù)集上獲得類似的性能。Videomatch和RANet認(rèn)為前景是與背景無關(guān)的,分別獨(dú)立進(jìn)行匹配,這種策略大大提高了分割的準(zhǔn)確率。Spatioltemporal MRF用CNN 對空間依賴性進(jìn)行建模,并用光流對時(shí)間依賴性進(jìn)行建模,并將平均區(qū)域相似度提高了3.2。DMM-Net 使用CNN 預(yù)測代價(jià)矩陣并獲得令人滿意的結(jié)果。DANet通過遠(yuǎn)程依賴學(xué)習(xí)在空間和通道域中探索上下文信息,從而獲得了85.2 的平均區(qū)域相似度。基于DANet,本文方法結(jié)合了非局部時(shí)域關(guān)系來減輕歧義部分,并進(jìn)一步將平均區(qū)域相似度提高了約1.4%。本文方法在空域和時(shí)域中使用自注意力勝過RANet 和DMM-Net,部分原因是通道自注意力所利用的部分關(guān)系使用語義區(qū)域之間的相似性來交叉驗(yàn)證對象的不同部分。本文方法在空間和通道域中使用對偶自注意力勝過DANet,部分原因是先前幀中存在的相關(guān)時(shí)域信息提供了其他線索來減少特征圖中的歧義信息。本文方法通過將注意力張量分成3 個(gè)小尺寸的圖來處理單幀,將處理時(shí)間減少到大約82 ms。

DANet 和本文方法在DAVIS16 數(shù)據(jù)集上的分割結(jié)果如圖5 所示。通過空域和通道域注意力模塊,例如,天鵝和公交車圖像,可以清楚地看到一些細(xì)節(jié)和對象邊界。但是,由于最后一幀中的置信區(qū)域不會(huì)傳播到下一幀,因此,分割結(jié)果仍然存在歧義,例如駱駝圖像的腳部位置。圖5 證明,當(dāng)應(yīng)用時(shí)域注意力模塊時(shí),可以正確預(yù)測一些DANet 方法錯(cuò)誤分類的像素,例如,天鵝圖像中的尾巴和駱駝圖像中的脖子和腳。

本文算法輸出的分割掩碼大體準(zhǔn)確正確,但是某些對象的細(xì)節(jié)部分需要進(jìn)一步進(jìn)行改善,例如,圖5 中公交車圖像中的站牌和駱駝圖像中的腳。當(dāng)前部分不精確的分割結(jié)果部分原因是由于在下采樣操作中丟失了信息,并且只有經(jīng)過幾層的信息提取后才能獲取具有語義信息的高層特征。未來可以使用超特征將細(xì)節(jié)與語義特征相結(jié)合,以改善分割結(jié)果。

圖5 DAVIS16 數(shù)據(jù)集中DANet 與本文分割算法結(jié)果對比

3.6 對Shining3D 牙科數(shù)據(jù)集的評(píng)估

在Shining3D 牙科數(shù)據(jù)集上本文方法與其他分割方法同樣進(jìn)行了有效性的比較。實(shí)驗(yàn)結(jié)果在表4中,一些圖像分割結(jié)果在圖6 中給出。

圖6 Shining3D 數(shù)據(jù)集中本文算法結(jié)果

圖6(a)中的精確分割掩碼證明了本文方法對背景復(fù)雜、相機(jī)運(yùn)動(dòng)和牙齒形狀的變化具有魯棒性。圖6(b)提供了分割掩碼不準(zhǔn)確時(shí)的可視結(jié)果。這里需注意,由于與外觀的典型特征有所不同,亮度變化會(huì)極大地影響分割結(jié)果,其他因素(例如牙齦污垢)會(huì)擴(kuò)大類內(nèi)差異性,而軟組織(例如臉頰和舌頭)的外觀幾乎與牙齦相同,從而使類間差異性變小。

未來工作中,我們將通過采用Transformer 網(wǎng)絡(luò)來擴(kuò)展本文方法,以處理當(dāng)前分割結(jié)果不準(zhǔn)確的情況。同時(shí),Shining3D 牙科數(shù)據(jù)集中每個(gè)640×480 幀的處理時(shí)間約為64 ms(NVIDIA GTX Titan X 圖形),課題組計(jì)劃提高處理速度,以將本文方法應(yīng)用于實(shí)時(shí)處理的場景中。

4 結(jié)論

實(shí)驗(yàn)結(jié)果表明,注意力是視頻分割的有效機(jī)制,并且可以在空域、時(shí)域和頻道域中同時(shí)使用。具體而言,本文提出了一種基于注意力機(jī)制的方法,該方法使用自注意力從視頻序列中的多個(gè)方面推斷和組合上下文特征,并獲取具有代表性和多樣性的上下文特征。同時(shí),本文方案利用難例挖掘機(jī)制提高分割模型的有效性和魯棒性。盡管本文方法可能部分地受到諸如陰影之類的因素而導(dǎo)致不精確的分割,但是該方法對于大多數(shù)背景復(fù)雜、相機(jī)運(yùn)動(dòng)和物體形狀的變化具有魯棒性。

猜你喜歡
時(shí)域空域注意力
讓注意力“飛”回來
空管技術(shù)在低空空域管理中的應(yīng)用
臺(tái)首次公布美空軍活動(dòng)
晚霞淺淡少年糖
空中交通管理中的空域規(guī)劃探討
A Beautiful Way Of Looking At Things
基于MATLAB 的信號(hào)時(shí)域采樣及頻率混疊現(xiàn)象分析
兩種常用漂浮式風(fēng)力機(jī)平臺(tái)動(dòng)態(tài)特性分析
不同入射角風(fēng)波流海上漂浮式風(fēng)力機(jī)頻域與時(shí)域動(dòng)態(tài)特性
閱讀理解兩則
佛教| 靖安县| 三门县| 莒南县| 清水河县| 东明县| 房产| 东至县| 高雄市| 西乌珠穆沁旗| 利津县| 崇义县| 临西县| 浦东新区| 揭西县| 仪陇县| 稷山县| 确山县| 东源县| 桐乡市| 忻州市| 高陵县| 日喀则市| 遵义市| 桐庐县| 城市| 清镇市| 牡丹江市| 博乐市| 武城县| 青龙| 常山县| 什邡市| 曲松县| 双鸭山市| 孝感市| 峨眉山市| 青铜峡市| 海原县| 德昌县| 揭东县|