国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

深度學(xué)習(xí)背景下視覺顯著性物體檢測綜述

2022-07-15 01:05王自全張永生于英閔杰田浩
中國圖象圖形學(xué)報(bào) 2022年7期
關(guān)鍵詞:卷積顯著性神經(jīng)網(wǎng)絡(luò)

王自全,張永生,于英*,閔杰,田浩

1.信息工程大學(xué)地理空間信息學(xué)院,鄭州 450001;2.31434部隊(duì),沈陽 110000

0 引 言

顯著性物體檢測(salient object detection,SOD)試圖模擬人類的視覺和認(rèn)知系統(tǒng)(Borji和Itti,2013),獲取圖像中感興趣的區(qū)域。區(qū)別于人眼定位預(yù)測(eye fixation prediction),SOD需要精細(xì)劃定顯著性物體的像素級范圍,已廣泛應(yīng)用于圖像裁剪(Rother等,2006)、縮略圖生成(Marchesotti等,2009)和目標(biāo)跟蹤與檢測(Wu等,2014)等領(lǐng)域。圖1展示了2015年以來SOD算法的發(fā)展歷程。

圖1 SOD方法發(fā)展歷程Fig.1 Development of salient object detection methods

SOD一般采用平均絕對誤差(mean absolute error,MAE)和F-measure(Fβ)值作為評價(jià)指標(biāo),具體公式為

(1)

(2)

式中,lMAE表示全圖預(yù)測值與真值之間的一致性。S(x,y)表示預(yù)測圖在(x,y)處的像素值;G(x,y)表示真值圖在(x,y)處的像素值。Fβ值綜合了精度P和召回率R,并可以調(diào)節(jié)二者在不同場景下的相對權(quán)重。由此可以看出,SOD本質(zhì)上是一個(gè)像素級二分類問題,即以0和1來標(biāo)記“當(dāng)前像素是否顯著”。

1 傳統(tǒng)SOD方法的啟示及缺點(diǎn)

1.1 傳統(tǒng)SOD方法的啟示

在傳統(tǒng)框架中,SOD主要分為特征提取、特征融合和特征修整3個(gè)步驟,如圖2所示。

圖2 傳統(tǒng)SOD技術(shù)的一般流程Fig.2 The general process of traditional salient object detection method

給定一幅待檢測圖像,傳統(tǒng)SOD方法按照手工設(shè)計(jì)好的低層(low-level)、中層(mid-level)和高層(high-level)特征進(jìn)行提取。其中低層特征主要為對比度特征,包括顏色、邊緣、紋理、頻率域(Achanta等,2009;Hou和Zhang,2007)、信息量(Bruce和Tsotsos,2005)和熵(Wang等,2010)等。它們基于數(shù)值計(jì)算,所含信息并不具備實(shí)體相關(guān)性;中層特征包含一定的實(shí)體屬性信息,刻畫了物體自身的形狀、位置等屬性,主要涵蓋物體輪廓、物體形狀信息和上下文/全局特征等;高層特征與物體語義信息緊密相關(guān),可有效指導(dǎo)SOD模型自上而下的“尋找目標(biāo)”,主要包括預(yù)置的先驗(yàn)圖等。

為了有效提升MAE和Fβ值,大量工作采用機(jī)器學(xué)習(xí)方法對多個(gè)提取出的特征圖進(jìn)行融合。Liu等人(2011)采用條件隨機(jī)場(conditional random field,CRF)(Lafferty等,2001)進(jìn)行逐像素顯著圖映射的做法較有代表性。該方法將SOD問題歸結(jié)為給定圖像I,求解其映射為顯著圖A的概率的條件隨機(jī)場學(xué)習(xí)問題,具體為

(3)

式中,Z為由訓(xùn)練樣本計(jì)算的概率信息。E為能量運(yùn)算符。

而后,按照最大似然規(guī)則,采用梯度下降等策略學(xué)習(xí)CRF的參數(shù)λ*,具體為

(4)

式中,n表示訓(xùn)練樣本數(shù)量。由于CRF理論很成熟,后期大量用于特征修整步驟中。

1.2 傳統(tǒng)SOD方法的缺點(diǎn)

傳統(tǒng)SOD方法具有以下缺點(diǎn):1)耗時(shí)長。大部分傳統(tǒng)算法需要圖像進(jìn)行超像素分割以構(gòu)建局部描述符,計(jì)算量較大。本文在Intel i7 8 GB 運(yùn)行內(nèi)存環(huán)境下嘗試以經(jīng)典SLIC(simple linear iterative clustering)(Achanta等,2012)分割算法生成一幅具有500個(gè)超像素的600×600 RGB圖像,耗時(shí)超過120 s。SOD在很多任務(wù)中僅是預(yù)處理步驟,低效率限制了其應(yīng)用;2)步驟煩瑣,不易實(shí)現(xiàn)。傳統(tǒng)方法需要手工設(shè)計(jì)特征與融合方法,且不同算法的實(shí)現(xiàn)環(huán)境可能不一致。除此之外,手工設(shè)計(jì)的特征往往難以表達(dá)高層信息,預(yù)置的先驗(yàn)圖泛化性差,只能針對特定的場景和假設(shè)使用,難以拓展到通用的檢測方法中;3)魯棒性較差。傳統(tǒng)SOD方法多是基于對比度特征進(jìn)行檢測,這些特征傾向于檢測物體邊界和內(nèi)部具有對比度的噪點(diǎn),但SOD任務(wù)更加關(guān)注物體本身,且不希望內(nèi)部同質(zhì)化區(qū)域被抑制。此外,基于空間域提取的特征易受到光照、復(fù)雜背景的影響,而頻率域和數(shù)學(xué)方法提取的特征缺乏明確含義,難以有效融合其他特征。上述情況均會導(dǎo)致檢測結(jié)果存在大量誤判,且不穩(wěn)定,如圖3所示。

圖3 基于傳統(tǒng)方法得到的顯著圖缺少魯棒性Fig.3 Salient maps achieved by traditional methods are in lack of robustness ((a) original images;(b) ground truth;(c) HF-DCF (Li and Yu,2015);(d) SF(Perazzi et al.,2012);(e) DRFI(Wang et al.,2017a);(f) HS(Yan et al.,2013);(g) RC(Cheng et al.,2011);(h) MR(Yang et al.,2013))

2 傳統(tǒng)特征與深度學(xué)習(xí)特征的融合

傳統(tǒng)特征與深度學(xué)習(xí)特征的融合指2015年前后出現(xiàn)的按照人為設(shè)定的規(guī)則對兩種特征進(jìn)行融合處理的方法。2012年,AlexNet(Krizhevsky等,2012)的出現(xiàn)使得卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)開始廣泛應(yīng)用于各種計(jì)算機(jī)視覺任務(wù)。Krizhevsky等人(2012)探究了其網(wǎng)絡(luò)結(jié)構(gòu)和特征提取方式,并指出該網(wǎng)絡(luò)全連接層輸出的4 096維特征向量具有良好的表征能力。VGG(Visual Geometry Group)(Simonyan和Zisserman,2015)進(jìn)一步發(fā)展了卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),采用堆疊小卷積核的方法,在降低參數(shù)量的同時(shí)提升了網(wǎng)絡(luò)性能?;谶@兩個(gè)網(wǎng)絡(luò)模型,相關(guān)學(xué)者開始利用神經(jīng)網(wǎng)絡(luò)提取高層特征,彌補(bǔ)傳統(tǒng)方法對高層語義特征表達(dá)能力不足的問題。Li和Yu(2015)在傳統(tǒng)方法的基礎(chǔ)上,將過分割后的超像素按照3個(gè)尺度(自身、鄰域和全圖)投入AlexNet中提取包含局部和全局信息的高層特征,經(jīng)過降維后與手工設(shè)計(jì)特征(包括顏色直方圖、紋理直方圖和歸一化系數(shù)等)進(jìn)行拼接,得到每個(gè)超像素最終表示向量,使用隨機(jī)森林回歸器進(jìn)行回歸,同時(shí)附加條件隨機(jī)場模型進(jìn)行特征修整。本文將其稱為HF-DCF方法(其中,HF(hand-crafted fea-ture)表示手工特征,DCF(deep contrast feature)表示深度學(xué)習(xí)模型產(chǎn)生的對比度特征),如圖4所示。

圖4 HF-DCF方法示意(Li和Yu,2015)Fig.4 Illustration of HF-DCF(Li and Yu,2015)

ELD-HF(encoded low level distance map and high level features)(Lee等,2016)將深度神經(jīng)網(wǎng)絡(luò)進(jìn)一步融入SOD框架,為之后的深度學(xué)習(xí)方法提供了參考。ELD-HF采用過分割(over-segmentation)方法獲取超像素,通過設(shè)計(jì)顏色、紋理等特征計(jì)算各個(gè)超像素之間的距離,構(gòu)建低層編碼距離圖(encoded low level distance map,ELD-map),而后,設(shè)計(jì)一個(gè)淺層網(wǎng)絡(luò)編碼ELD-map,與VGG提取的特征圖共同轉(zhuǎn)為列向量,拼接后輸入全連接層,利用softmax計(jì)算得到分類的得分,取代了傳統(tǒng)方法中的機(jī)器學(xué)習(xí)分類器。

在早期的融合方法中,人為設(shè)定的特征融合規(guī)則(如簡單的向量拼接)缺少理論支撐;CNN僅起到提取高層特征的作用,每個(gè)超像素均需遍歷輸入進(jìn)神經(jīng)網(wǎng)絡(luò),時(shí)間成本高;由于當(dāng)時(shí)缺少自適應(yīng)全局池化層,導(dǎo)致模型只能接收固定長寬(224 × 224像素)的輸入,因此每個(gè)超像素必須放大到標(biāo)準(zhǔn)尺寸,不僅增大了計(jì)算量,而且導(dǎo)致超像素內(nèi)部信息變形,降低了特征準(zhǔn)確性。此外,采用的AlexNet和VGG模型大多在ImageNet數(shù)據(jù)集上預(yù)訓(xùn)練得到,盡管其包含的圖像內(nèi)容很廣泛,但面向分類任務(wù)的全連接層輸出向量傾向于識別全局信息,輸入局部超像素生成的描述子是否具有可靠性能,還有待分析。

3 基于卷積神經(jīng)網(wǎng)絡(luò)的SOD方法

SOD本質(zhì)上是一種像素級二分類問題,適合使用卷積神經(jīng)網(wǎng)絡(luò)或帶有卷積結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型來解決。出于提升性能與檢測速度的考慮,學(xué)界整體傾向于使用統(tǒng)一的網(wǎng)絡(luò)模型完成所有流程。大量工作將傳統(tǒng)檢測框架中的特征提取、特征融合以及特征修整等步驟全部或大部分內(nèi)化到網(wǎng)絡(luò)模型中,只有少部分算法仍然在最后使用機(jī)器學(xué)習(xí)等方法進(jìn)行輔助精修。根據(jù)模型對于輸入樣本的要求不同,基于卷積神經(jīng)網(wǎng)絡(luò)的SOD方法可分為基于像素級標(biāo)注樣本(或稱強(qiáng)監(jiān)督)方法以及基于非像素級標(biāo)注樣本(或稱弱監(jiān)督)方法兩大類。圖5展示了這些方法的分類體系和發(fā)展方向。前一類方法的主體一般為單個(gè)典型網(wǎng)絡(luò)結(jié)構(gòu),例如循環(huán)卷積神經(jīng)網(wǎng)絡(luò)、全卷積神經(jīng)網(wǎng)絡(luò)和基于卷積結(jié)構(gòu)的生成對抗網(wǎng)絡(luò);后一類方法則一般包含多個(gè)額外設(shè)計(jì)的專用網(wǎng)絡(luò)模塊用于處理弱監(jiān)督標(biāo)簽,主要分為基于單類非像素級標(biāo)簽的SOD方法和基于多類非像素級標(biāo)簽的SOD方法。

圖5 基于卷積神經(jīng)網(wǎng)絡(luò)的SOD方法分類體系和發(fā)展過程Fig.5 Classification and development process of SOD method based on convolutional neural network

如前文所述,一個(gè)典型的SOD過程應(yīng)當(dāng)完成特征提取、特征融合和特征修整3個(gè)步驟,其中特征提取步驟由卷積神經(jīng)網(wǎng)絡(luò)自動完成。在強(qiáng)監(jiān)督SOD方法中,最初采用卷積層的降采樣處理與跳層連接完成多尺度特征的融合,并采用條件隨機(jī)場進(jìn)行特征修整;注意力機(jī)制模塊(Hu等,2020)廣泛應(yīng)用于特征融合步驟中,特征修整過程也逐漸由更有針對性的邊緣混合損失函數(shù)引導(dǎo),可以完全實(shí)現(xiàn)端到端SOD;弱監(jiān)督SOD方法往往由語義引導(dǎo),利用類別信息對物體進(jìn)行粗略聚焦與定位,而后采用空間一致性等先驗(yàn)知識,訓(xùn)練條件隨機(jī)場模塊以及另行設(shè)計(jì)的輔助網(wǎng)絡(luò)模塊進(jìn)行特征融合。

3.1 基于像素級標(biāo)注樣本的SOD方法

3.1.1 循環(huán)卷積神經(jīng)網(wǎng)絡(luò)

循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Liang和Hu,2015)通過不斷更新調(diào)整識別結(jié)果,對輸入數(shù)據(jù)進(jìn)行循環(huán)前向傳播,在降低參數(shù)量的同時(shí),不同層級的特征也自然融合,可以達(dá)到比單次前饋網(wǎng)絡(luò)更好的效果。在DHSNet(deep hierarchical saliency network)(Liu和Han,2016)中,對某個(gè)循環(huán)卷積層中第k個(gè)特征圖上(i,j)的狀態(tài),輸出單元zijk(t)可以表示為

(5)

對循環(huán)卷積神經(jīng)網(wǎng)絡(luò)的改進(jìn)有兩種思路,一是改善特征編碼結(jié)構(gòu),二是改善消息傳遞結(jié)構(gòu)。Deng等人(2018)設(shè)計(jì)殘差優(yōu)化模塊(residual refinement block,RRB),直接擬合顯著圖真值和當(dāng)前預(yù)測之間的殘差,該方法更易收斂,通過堆疊使用RRB替代了其他神經(jīng)網(wǎng)絡(luò)中的特征編碼器,在5個(gè)數(shù)據(jù)集的測試指標(biāo)上超越了同期16個(gè)最佳SOTA(state-of-the-art)算法。Zhang等人(2018)提出雙向消息傳遞檢測模型BMPM(bi-directional message passing model)(如圖6所示),采用門狀雙向消息傳遞模塊融合多尺度卷積特征,使得模型具備對多尺度上下文的敏感性,考慮傳統(tǒng)的堆疊卷積和池化層提取的特征不能包含豐富的上下文信息,設(shè)計(jì)了多尺度上下文敏感的特征提取模塊(multi-scale context-aware feature extraction module,MCFEM),每個(gè)MCFEM均采用多重空洞卷積學(xué)習(xí)物體信息和圖像背景,并采用跨通道方式進(jìn)行特征圖拼接。圖6中,每個(gè)彩色框代表1個(gè)特征模塊,藍(lán)色部分利用VGG16網(wǎng)絡(luò)提取多尺度特征,而后投入MCEFM中,融合過程采用灰色部分的門狀雙向信息傳遞模塊計(jì)算,門函數(shù)的作用是控制信息傳遞速率。融合過程中的特征記為{hij},i=1,2,3;j=1,2,…,5,完成高級特征向低級特征的融合之后網(wǎng)絡(luò)才會生成最終的預(yù)測圖。

圖6 雙向消息傳遞顯著性檢測模型(Zhang等,2018)Fig.6 Bi-directional message passing model for salient object detection(Zhang et al.,2018)

3.1.2 全卷積神經(jīng)網(wǎng)絡(luò)

全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional network,F(xiàn)CN)(Shelhamer等,2017)將VGG網(wǎng)絡(luò)中的全連接層修改為全卷積層,如圖7所示,在降低參數(shù)量的同時(shí)使輸入圖像尺寸不再受到限制?;贔CN進(jìn)行改進(jìn)是眾多SOD方法中最直接的思路,改進(jìn)策略主要聚焦于提升邊界信息定位(對應(yīng)特征修整部分)的準(zhǔn)確性,相關(guān)方法從后期輔助修整、引入額外邊緣檢測器,發(fā)展為設(shè)計(jì)與邊緣相關(guān)的損失函數(shù)、保邊平滑算法,再到保邊注意力機(jī)制等方法的引入,使網(wǎng)絡(luò)的適應(yīng)能力和檢測能力不斷增強(qiáng)。圖7中,conv{i},i=1,2,…,7表示不同降采樣率的卷積層。pool{i},i=1,2,…,5表示池化層。{b×},b=2,4,8,16,32表示不同倍率的上采樣操作。由此,得到預(yù)測結(jié)果FCN-{x}s,x=8,16,32。FCN-32s不經(jīng)過中間步驟,直接由1/32分辨率的特征圖上采樣32倍得到,檢測性能最差;計(jì)算FCN-16s時(shí),先將1/32分辨率特征圖上采樣2倍,而后與第4池化層得到的1/16分辨率特征圖相加,再經(jīng)過16倍上采樣得到預(yù)測圖,檢測性能較FCN-32s有所提升;FCN-8s由3層特征圖仿照FCN-16s的方式,經(jīng)上采樣與融合后生成,檢測效果最好。FCN較早基于跳層連接進(jìn)行特征融合,這種方法使得網(wǎng)絡(luò)從單向拓?fù)鋱D變?yōu)橛邢驘o環(huán)圖(directed acyclic graph,DAG),在完成高低層特征融合的同時(shí)增強(qiáng)了網(wǎng)絡(luò)的魯棒性,基本實(shí)現(xiàn)了卷積神經(jīng)網(wǎng)絡(luò)模型對傳統(tǒng)SOD計(jì)算框架的全面替代。

圖7 FCN結(jié)構(gòu)示意圖(Shelhamer等,2017)Fig.7 Illustration of FCN(Shelhamer et al.,2017)

分析FCN網(wǎng)絡(luò)結(jié)構(gòu),不難發(fā)現(xiàn)以下問題:1)反卷積易產(chǎn)生棋盤狀偽影(checkerboard artifact)(Odena等,2016),這是因?yàn)榉淳矸e無法恢復(fù)卷積操作造成的信息丟失,只能根據(jù)已有像素進(jìn)行拓展填充,造成了局部棋盤偽影(馬賽克)現(xiàn)象;2) FCN輸出特征圖在邊界部分存在較大誤差。

針對反卷積造成的棋盤狀偽影,Zhang等人(2017b)采用1×1卷積對輸入像素進(jìn)行基于線性插值法的上采樣,而后與傳統(tǒng)的反卷積結(jié)果相加得到最終的上采樣結(jié)果。這種模式分離了上采樣和卷積,并且與傳統(tǒng)反卷積相容,線性插值的加入起到了平滑馬賽克的作用。此外,利用2個(gè)FCN網(wǎng)絡(luò)分別構(gòu)建編碼器和解碼器,同時(shí)針對全卷積網(wǎng)絡(luò)模型的過擬合現(xiàn)象,吸取dropout(Krizhevsky等,2012)思想對卷積層設(shè)計(jì)了隨機(jī)失活單元R-dropout,提取并融合不確定(由隨機(jī)失活造成的)卷積特征(uncertain convolutional feature,UCF),增強(qiáng)了模型的泛化能力。

針對邊界信息檢測精度不足的問題,陸續(xù)發(fā)展出以下解決思路:

1)引入邊緣特征圖。Hou等人(2019a)吸取了FCN跳層連接的優(yōu)勢,引入整體嵌套邊緣檢測器(holistically nested edge detector,HED)(Xie和Tu,2017)進(jìn)行彌補(bǔ)。然而,HED只能在前、背景區(qū)分較為明顯的圖像上提升檢測精度。為增強(qiáng)邊緣檢測的魯棒性,Amulet(Zhang等,2017a)將多個(gè)分辨率的特征分別進(jìn)行壓縮—拓展操作(shrink and extend),對一個(gè)目標(biāo)大小為W×H×C的特征,將網(wǎng)絡(luò)中輸出的分辨率高于該特征的特征圖進(jìn)行壓縮(shrink),對網(wǎng)絡(luò)中輸出分辨率低于該特征的特征圖進(jìn)行拓展(extend),得到尺寸為W×H×C/(n+m+1)的n+m+1個(gè)特征圖(n和m分別表示分辨率縮放因子),經(jīng)過通道維度的連接(concatenate),得到基于分辨率的特征融合圖,而后將其投入顯著圖預(yù)測(salient map prediction,SMP)模塊,融合網(wǎng)絡(luò)淺層部分的輸出進(jìn)行保邊優(yōu)化(boundary preserved refinement,BPR)。循環(huán)進(jìn)行SMP和BPR操作以提升預(yù)測精度。

2)設(shè)計(jì)與邊緣相關(guān)的損失函數(shù)。為簡化網(wǎng)絡(luò)結(jié)構(gòu),同時(shí)將特征修整過程融入網(wǎng)絡(luò)訓(xùn)練過程,Luo等人(2017)設(shè)計(jì)了4 × 5網(wǎng)格狀的網(wǎng)絡(luò),通過特征圖的前饋和反饋提取局部和全局信息,同時(shí)借鑒Mumford-Shah 模型(Mumford和Shah,1989),針對邊界信息設(shè)計(jì)了基于交并比(intersection-over-union,IoU)的損失函數(shù)FMSE,訓(xùn)練過程中即完成邊緣精化,基本取代了人工設(shè)計(jì)的邊緣檢測器和基于CRF等傳統(tǒng)機(jī)器學(xué)習(xí)的方法的特征修整過程。其中,損失函數(shù)FMSE具體為

(6)

(7)

式中,A表示面積函數(shù)。除了基于交并比的損失函數(shù),對邊界敏感的像素級損失函數(shù)也得到了發(fā)展。式(7)中的IoU損失具有視覺直觀含義,但是對于不規(guī)則分割邊緣而言,直接計(jì)算預(yù)測面積與真值面積交并比較為困難,存在一定誤差。Qin等人(2019)提出的BASNet(boundary-aware salient network)將IoU的含義泛化,計(jì)算真值圖和預(yù)測圖在數(shù)值空間上的交并比,最終形成融合二分類交叉熵、IoU和結(jié)構(gòu)相似度(structural similarity,SSIM)的混合損失函數(shù)lbce、liou和lssim,同時(shí)在網(wǎng)絡(luò)中分別設(shè)計(jì)預(yù)測模塊和殘差精化模塊進(jìn)行特征修整,在保持顯著性物體自身結(jié)構(gòu)的同時(shí)得到了較好的邊緣探測效果。損失函數(shù)lbce、liou和lssim計(jì)算為

(8)

(9)

(10)

式中,S(r,c)表示預(yù)測為顯著的概率值,G(r,c)為真值,取值均為0或1。式(10)降低了IoU計(jì)算的難度。x和y是原圖和真值圖上某塊相關(guān)區(qū)域,μx和μy為均值,σx和σy為方差,σxy為協(xié)方差,設(shè)置C1=0.012,C2=0.032,防止分母為0。Wu等人(2020)進(jìn)一步提出了包含邊界強(qiáng)化損失函數(shù)(boundary-enhanced loss,BEL)的AFNet,并且將模型檢測速度提升到26 幀/s,達(dá)到實(shí)時(shí)要求。

3)設(shè)計(jì)自適應(yīng)的邊界調(diào)整方案。SE2Net(siamese edge-enhancement network)(Zhou等,2019)包含了邊界引導(dǎo)交互算法(edge-guided inference algorithm),該方法產(chǎn)生若干大小為5 × 5像素且中心位于顯著物體邊緣上的矩形框,每個(gè)矩形框都會被邊緣分為顯著和非顯著兩部分,而后計(jì)算每個(gè)矩形框內(nèi)部的顯著像素所占比例,若顯著像素比例更高,則將該矩形框全部設(shè)置為顯著,實(shí)現(xiàn)了檢測過程中對邊緣進(jìn)行自適應(yīng)調(diào)整。

除了設(shè)計(jì)保持邊緣的損失函數(shù),引入注意力機(jī)制也是一種改進(jìn)思路。按照權(quán)重分布的位置,適配CNN的注意力機(jī)制模塊主要分為空間注意力機(jī)制和通道注意力機(jī)制。空間注意力機(jī)制生成的權(quán)重與輸入特征圖的尺寸相關(guān),權(quán)重施加在特征圖的像素上;通道注意力機(jī)制生成的權(quán)重與輸入特征圖的通道數(shù)相關(guān),權(quán)重施加在特征通道上。對于SOD任務(wù)而言,由于其核心解決方案是多層次特征的提取與互補(bǔ)融合,因此注意力機(jī)制模塊應(yīng)起到加強(qiáng)特征表達(dá)或抑制噪音的作用?;舅悸酚校?/p>

1)使像素“注意到”局部區(qū)域和全局區(qū)域。Liu等人(2018)針對以往算法在單個(gè)注意力計(jì)算階段中只提取1幅權(quán)重圖的問題,提出了像素級上下文注意力機(jī)制PiCANet(pixel-wise contextual attention network)。在提取全局特征圖時(shí),對每個(gè)像素位置,采用雙向長短時(shí)記憶機(jī)制(bi-directional long short-term memor,Bi-LSTM)(Hochreiter和Schmidhuber,1997)對全圖進(jìn)行掃描,在該位置生成(W×H)×1×1的“全局信息向量”(即為“使該像素‘看到’全局信息”),而后對其進(jìn)行softmax操作得到該像素的全局注意力分?jǐn)?shù)。提取局部特征時(shí),仿照該方式,對每個(gè)像素生成(W2×H2)×1×1(W2和H2為以該像素為中心區(qū)域的局部寬度和高度)的注意力分布張量,進(jìn)行softmax操作得到該像素的局部注意力分?jǐn)?shù)。PiCANet可以生成有效的上下文信息,但逐像素計(jì)算的注意力分?jǐn)?shù)圖數(shù)據(jù)量很大,只能使用在較小尺寸的特征圖中,或需要設(shè)計(jì)顯存優(yōu)化策略。Hu等人(2021)指出了這一問題,LSTM實(shí)現(xiàn)復(fù)雜,因此選擇性地利用局部上下文和全局上下文信息,設(shè)計(jì)空間衰減上下文模塊(spatial attenuation context module,SACModule),嵌入特征金字塔(feature pyramid network,F(xiàn)PN)(Lin等,2017)解碼器的每一層中。該注意力模塊通過逐像素傳遞信息(過程中受反距離衰減因子控制)獲取全局特征信息,并在6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上性能超過了29種SOTA算法。

2)使模型“注意到”邊緣信息。Chen等人(2020)針對卷積網(wǎng)絡(luò)算法降采樣過大導(dǎo)致的信息損失問題,提出使用側(cè)方輸出(side-output)的殘差學(xué)習(xí)方式修正FCN輸出的特征圖,同時(shí)設(shè)計(jì)了逆注意力機(jī)制(權(quán)重計(jì)算方法為1-Sigmoid(A),A為卷積網(wǎng)絡(luò)輸出的特征圖張量)嵌入VGG網(wǎng)絡(luò)中以抑制物體內(nèi)部信息,引導(dǎo)網(wǎng)絡(luò)關(guān)注顯著性物體的邊緣,并采用更大的卷積核提高感受野,使骨干網(wǎng)絡(luò)更加適合于像素級分類任務(wù)。該方法在達(dá)到SOTA的同時(shí),獲得了45幀/s的檢測速度,同時(shí)將模型大小縮減為81 M。但是,在應(yīng)用空間注意力機(jī)制以保持邊緣時(shí),部分文獻(xiàn)并沒有給出令人信服的理論解釋。

3)不同注意力機(jī)制的聯(lián)合使用。Zhao和Wu(2019)設(shè)計(jì)了金字塔特征注意力網(wǎng)絡(luò)(pyramid feature attention network,PFA),該網(wǎng)絡(luò)針對高層特征設(shè)計(jì)了上下文感知金字塔特征提取器(context PFA,CPFA)和通道注意力模塊以獲取豐富的上下文信息,針對低層特征設(shè)計(jì)了空間注意力模塊用于保持邊緣。PFA沿用了空洞卷積以提升感受野,并且根據(jù)拉普拉斯梯度設(shè)計(jì)了保邊損失函數(shù)。同期,Liu等人(2019)針對經(jīng)典U型網(wǎng)絡(luò)中信息傳遞效率不足的問題,設(shè)計(jì)了金字塔池化模塊(pyramid pooling module,PPM)和特征聚合模塊(fusion feature module,F(xiàn)AM),并嵌入FPN。其中PPM將特征圖自適應(yīng)平均池化后融合,起到增大感受野的作用,而后分別上采樣投入對應(yīng)尺度的FAM中。FAM先對輸入特征圖進(jìn)行下采樣,經(jīng)卷積后融合輸出。PPM和FAM的級聯(lián)使用緩解了高層特征的稀釋問題。Li等人(2020)同樣修改了FPN網(wǎng)絡(luò),在編碼部分將5層特征圖輸入跨層特征聚合器(cross-layer feature aggregation,CFA),將FPN輸出的5層特征圖進(jìn)行全局平局池化得到通道級的全局特征,而后得到進(jìn)行拼接經(jīng)過兩層SENet(squeeze-and-excitaion networks)(Hu等,2020)的全連接層。得到5維的特征圖權(quán)重后,再將5層特征圖進(jìn)行拼接得到“聚合特征”,輸入跨層特征分布器(cross-layer feature distribution,CFD)進(jìn)行逐層降采樣拼接,分布到解碼器的5個(gè)尺度上,生成最終顯著圖,較好保持了每個(gè)層次的語義和細(xì)節(jié)信息。

4)簡化注意力機(jī)制的結(jié)構(gòu)和運(yùn)算。使用注意力機(jī)制會帶來日趨復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu),如何對模型進(jìn)行剪枝成為一大問題。Fu等人(2019)提出的DANet(dual attention network)設(shè)計(jì)了雙注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu),圖像經(jīng)ResNet(residual neural network)網(wǎng)絡(luò)提取特征后,只投入一次注意力模塊(attention module,AM)中,AM的兩個(gè)分支分別對特征圖進(jìn)行矩陣轉(zhuǎn)置與運(yùn)算操作,獲取到相應(yīng)位置和通道的權(quán)重,如圖8所示。圖中,C×H×W表示輸入特征圖具有C

圖8 雙注意力網(wǎng)絡(luò)示意圖(Fu等,2019)Fig.8 An overview of the dual attention(Fu et al.,2019)((a) position attention module;(b) channel attention module)

通道、寬為W、高為H的張量,A、B、C、D、E、X均為中間變量。DANet方法顯著減少了注意力模塊參數(shù)量,陸續(xù)被后續(xù)算法借鑒。

3.1.3 基于卷積結(jié)構(gòu)的生成對抗網(wǎng)絡(luò)

與帶有復(fù)雜跳層連接與注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)相比,在結(jié)構(gòu)上相對簡單的生成對抗網(wǎng)絡(luò)(generative adversarial network,GAN)(Goodfellow等,2014)受到相關(guān)學(xué)者的關(guān)注。使用GAN進(jìn)行顯著性檢測始于SalGAN(Pan等,2018),其在生成器結(jié)構(gòu)中使用VGG16組成編碼部分,采用4個(gè)上采樣層和10個(gè)卷積層組成解碼部分;判別器由6個(gè)卷積層和3個(gè)全連接層組成,二者聯(lián)合對抗訓(xùn)練以判斷顯著圖是否有效。嚴(yán)格來說,SalGAN并不是針對SOD任務(wù),而是針對顯著性檢測的另一個(gè)分支——人眼定位預(yù)測設(shè)計(jì)的。因此SalGAN在SOD任務(wù)中的表現(xiàn)并不精確,但其思想啟發(fā)了后續(xù)的網(wǎng)絡(luò)。Mukherjee等人(2019)針對傳統(tǒng)算法對噪聲處理能力弱的問題,對SalGAN進(jìn)行了繼承和發(fā)展,提出了DsalGAN,該網(wǎng)絡(luò)由3組生成對抗網(wǎng)絡(luò)組成。第1組中,生成器G1對圖像進(jìn)行去噪操作,判別器D1判斷圖像是否已經(jīng)去除噪聲;第2組中,生成器G2基于對抗性損失的數(shù)據(jù)驅(qū)動對去噪圖像進(jìn)行顯著性預(yù)測,判別器D2判斷圖像是否預(yù)測成功,完成了特征融合;第3組中,生成器G3和判別器D3則用循環(huán)一致性損失進(jìn)行特征修整。盡管DsalGAN在指標(biāo)上超過了當(dāng)時(shí)的SOTA算法,但由于GAN訓(xùn)練終止于不易收斂的鞍點(diǎn),因此訓(xùn)練難度遠(yuǎn)高于其他網(wǎng)絡(luò),且易發(fā)生模式坍塌(Mao等,2019),相對較為成熟的FCN系列算法,研究成果較少。

3.2 基于非像素級標(biāo)注樣本的SOD方法

構(gòu)建具備精細(xì)標(biāo)注的像素級數(shù)據(jù)集成本高昂,并且在有限樣本數(shù)據(jù)集上訓(xùn)練的模型易缺乏泛化能力。事實(shí)上,相比于像素級標(biāo)注樣本,現(xiàn)實(shí)中有很多非像素級標(biāo)注的弱樣本可供使用,例如ImageNet中上百萬幅帶有圖像分類標(biāo)簽的樣本、目標(biāo)檢測數(shù)據(jù)集中用矩形框標(biāo)識的樣本,甚至是涂鴉方式標(biāo)識的顯著性物體。這些樣本制作容易,數(shù)據(jù)量更大,泛化性更強(qiáng),若能使用弱監(jiān)督方法加以利用可產(chǎn)生較高的效益。弱監(jiān)督SOD方法往往以卷積神經(jīng)網(wǎng)絡(luò)的語義引導(dǎo)為初始狀態(tài)進(jìn)行特征修整。

3.2.1 語義引導(dǎo)與可行性

隨著CNN的發(fā)展,相關(guān)學(xué)者開始借鑒構(gòu)造“權(quán)重分布”的方法,可視化地證明CNN的性能。類激活圖(class activation map,CAM)(Zhou等,2016)的嘗試和之后的Grad-CAM(Selvaraju等,2017)以及Grad-CAM++(Chattopadhyay等,2018)證實(shí)了CNN存在空間“注意力”。3種方法分別采用全局平均池化結(jié)果、特征映射梯度和梯度的ReLU值對網(wǎng)絡(luò)輸出的特征圖賦予權(quán)重,而后得到關(guān)注點(diǎn)熱力圖。如圖9所示,其中,圖9(b)是一個(gè)網(wǎng)絡(luò)輸出的熱力圖,可以看出CAM結(jié)果與圖9(d)一致,因此,神經(jīng)網(wǎng)絡(luò)將圖像識別為dog類別,若輸出結(jié)果為cat,熱力峰值區(qū)域則集中在圖中的cat身上。

圖9 CAM與卷積神經(jīng)網(wǎng)絡(luò)模型的注意力(Zhou等,2016)Fig.9 CAM and attention of CNN(Zhou et al.,2016)((a) original image;(b) CAM;(c) cat;(d) dog)

不難發(fā)現(xiàn),卷積神經(jīng)網(wǎng)絡(luò)提取出的高層次特征具備很強(qiáng)的目標(biāo)定位與概略范圍確定能力,為基于非像素級標(biāo)簽的SOD方法的實(shí)現(xiàn)提供了可能。同時(shí),由于弱監(jiān)督樣本在訓(xùn)練模型得到初始顯著圖后不足以再支持精細(xì)化訓(xùn)練,因此還需要設(shè)計(jì)樣本更新策略,這個(gè)任務(wù)通常由先驗(yàn)信息指導(dǎo)下的條件隨機(jī)場和輔助網(wǎng)絡(luò)模塊完成。

3.2.2 基于單類非像素級標(biāo)簽的SOD方法

Wang等人(2017b)提出基于圖像分類標(biāo)簽的弱監(jiān)督網(wǎng)絡(luò),本文稱為WSS1(weakly supervision for saliency detection 1),如圖10(a)所示。該方法將CAM計(jì)算各特征圖權(quán)重的全局平均池化(global average pooling,GAP)改為自主設(shè)計(jì)的全局平滑池化(global smooth pooling,GSP),GSP更加適合于計(jì)算特征響應(yīng),從而將特征圖線性組合,而后設(shè)計(jì)前景推理網(wǎng)絡(luò)(foreground inference network,F(xiàn)IN)用于生成初始顯著圖,采用迭代條件隨機(jī)場算法執(zhí)行細(xì)化操作。需要指出的是,條件隨機(jī)場并未利用像素級標(biāo)簽,而是依據(jù)一定準(zhǔn)則(如空間一致性)逐步修正FIN預(yù)測的顯著圖,作為近似真值反饋給FIN。在網(wǎng)絡(luò)訓(xùn)練完成之后,直接使用FIN進(jìn)行顯著圖推理,不需要任何后處理。該方法在MAE指標(biāo)上全面超越同時(shí)期所有無監(jiān)督傳統(tǒng)方法,檢測速度達(dá)到62.5幀/s,超越同時(shí)期所有監(jiān)督學(xué)習(xí)方法,在弱監(jiān)督條件下接近同時(shí)期最佳像素級學(xué)習(xí)算法水平(相差小于0.3)。

Li等人(2018)提出利用圖像標(biāo)簽的弱監(jiān)督算法,本文稱為WSS2(weakly supervision for saliency detection 2)。該方法以CAM輸出的熱力圖作為粗糙的顯著圖預(yù)測,使用傳統(tǒng)無監(jiān)督方法制作的像素級顯著圖作為附帶噪聲的“標(biāo)簽”。根據(jù)第1節(jié)的描述,傳統(tǒng)對比度方法側(cè)重描繪顯著性物體的“邊界”,CAM輸出的熱力圖則聚焦于顯著性物體內(nèi)部,二者是互補(bǔ)的。Li等人(2018)交替訓(xùn)練圖形模型(graphical model)和基于ResNet101(He等,2016)的全卷積網(wǎng)絡(luò)。前者本質(zhì)上是全連接條件隨機(jī)場(Kr?henbühl和Koltun,2012),采用空間一致性和結(jié)構(gòu)不變性來修正標(biāo)簽?zāi):裕缓笳邉t有助于跨圖像修正語義模糊性。訓(xùn)練過程以MAE指標(biāo)為判別條件,比較經(jīng)CRF處理的顯著圖和現(xiàn)有標(biāo)簽的優(yōu)劣以實(shí)現(xiàn)標(biāo)簽的更新。該方法超過了同期所有像素級監(jiān)督學(xué)習(xí)算法,從側(cè)面證明了大樣本量帶來的泛化性能優(yōu)勢。

3.2.3 基于多類非像素級標(biāo)簽的SOD方法

隨著圖像理解技術(shù)的發(fā)展,可獲取的樣本中增加了圖像說明(caption)標(biāo)簽。Zeng等人(2019)針對之前弱監(jiān)督檢測方法只利用單一類型弱樣本的缺點(diǎn),提出了綜合利用圖像分類標(biāo)簽、圖像說明標(biāo)簽(圖10(c))和無標(biāo)簽數(shù)據(jù)的弱監(jiān)督顯著性檢測方法MSWSS(multi-source weak supervision for saliency detection),并且該網(wǎng)絡(luò)具備良好的可拓展性,即提供了面向更多數(shù)據(jù)處理模塊的接口。MSWSS由分類網(wǎng)絡(luò)CNet(classification network)(輸出標(biāo)簽與粗糙的顯著圖)、帶有LSTM機(jī)制的說明文本聚合網(wǎng)絡(luò)PNet(caption generation network)(生成與說明文本相關(guān)的區(qū)域)以及顯著圖預(yù)測網(wǎng)絡(luò)SNet(saliency prediction network)組成,并采用注意力轉(zhuǎn)移損失函數(shù)(attention transfer loss)在網(wǎng)絡(luò)之間傳遞信號。進(jìn)行分類任務(wù)和文本標(biāo)簽解譯任務(wù)時(shí),交替計(jì)算CNet的類別定位損失和PNet的注意力轉(zhuǎn)移損失,PNet和CNet訓(xùn)練完畢后即可生成偽像素級顯著圖,供SNet訓(xùn)練。

圖10 不同弱監(jiān)督SOD訓(xùn)練樣本Fig.10 Different training examples of weakly-supervised salient object detection((a)caption of category;(b)scribble annotations;(c)caption of image understanding)

除了弱樣本,傳統(tǒng)的無監(jiān)督檢測方法(例如邊緣檢測等方法)以及語義分割等相關(guān)問題的解決方案均存在一定程度的重合,可設(shè)計(jì)多任務(wù)方法,使其互相促進(jìn)與優(yōu)化。這種思路促進(jìn)了多任務(wù)模型的發(fā)展。該方法試圖通過強(qiáng)制模型共享參數(shù)的方式促進(jìn)不同任務(wù)間特征的交互,而不考慮底層的細(xì)節(jié)。

Lee等人(2016)提出刻畫顯著性物體固有語義屬性的多任務(wù)全卷積神經(jīng)網(wǎng)絡(luò)DeepSaliency,卷積層由顯著性檢測和語義分割任務(wù)共享,以減少網(wǎng)絡(luò)結(jié)構(gòu)冗余。對于圖像分割任務(wù),使用反卷積層和1×1卷積計(jì)算C張分割分?jǐn)?shù)圖(C為類別數(shù))。對于顯著性檢測任務(wù),使用1個(gè)卷積層和2個(gè)反卷積層生成[0,1]之間的顯著圖,并設(shè)計(jì)正則Laplacian非線性回歸層進(jìn)行細(xì)粒度超像素顯著性細(xì)化,采用MAE和交叉熵作為損失函數(shù)交替對網(wǎng)絡(luò)進(jìn)行訓(xùn)練。

Hou等人(2019b)提出了融合SOD、邊緣探測和骨架提取3種任務(wù)的統(tǒng)一框架TBOS(three birds on stone),該方法利用級聯(lián)編碼器增強(qiáng)特征表示,通過密集連接提升特征融合效果。圖11 展示了具備不同連接結(jié)構(gòu)的網(wǎng)絡(luò)簡化圖(Hou等,2019b)。圖11(a)為不具備特征融合的簡單結(jié)構(gòu),圖11(b)(c)使用了金字塔結(jié)構(gòu)自上而下融合特征,圖11(d)(f)引入了側(cè)監(jiān)督機(jī)制。Hou等人(2019b)對不同跳層連接之間的結(jié)構(gòu)進(jìn)行分析,認(rèn)為圖11(a)—(e)的解碼器接收的特征較弱,不能同時(shí)完成邊緣檢測和骨架提取任務(wù),因此在解碼器之前增加了一個(gè)編碼器,如圖11(g)所示,并在此基礎(chǔ)上設(shè)計(jì)了堆疊使用編碼器的通用TBOS(圖11(h))。每個(gè)編碼器均由殘差結(jié)構(gòu)組成,互相密集連接,接受3個(gè)尺度上采樣后的加和,經(jīng)卷積后與原始尺度相加,以融合多級特征。該算法結(jié)構(gòu)較為復(fù)雜,每一層的特征都會復(fù)制到其他層中,需要設(shè)計(jì)一定的顯存優(yōu)化策略。Wu等人(2020)使用互學(xué)習(xí)方法(mutual learning method,MLM)引導(dǎo)前景輪廓和邊緣檢測任務(wù)同時(shí)進(jìn)行,每個(gè)MLM模塊都包含了多個(gè)網(wǎng)絡(luò)分支,使得協(xié)同網(wǎng)絡(luò)性能取得了較大提升。

圖11 具備不同連接結(jié)構(gòu)的網(wǎng)絡(luò)簡化圖(Hou等,2019b)Fig.11 Simplified diagram of network structures with different connection manners(Hou et al.,2019b)((a)original structure;(b)DCL(Li and Yu,2016);(c)MSRNet(Li et al.,2017);(d)HED(Xie and Tu,2017);(e) COB(Maninis et al.,2018);(f)SRN(Ke et al.,2017);(g)TBOS_one_encoder(Hou et al.,2019b);(h)general TBOS(Hou et al.,2019b))

4 發(fā)展方向分析

對現(xiàn)有SOD方法的改進(jìn)主要聚焦于特征融合方法、協(xié)同顯著性檢測、弱監(jiān)督與多任務(wù)策略和針對多類別圖像的顯著性檢測等方面。

4.1 特征融合方法改進(jìn)

現(xiàn)有的特征融合方式大致分為連接方式、殘差方式和注意力機(jī)制3種。

1)連接方式。主要有跳層連接、密集連接等方式,這些方法致力于充分融合高層特征的定位能力和低層特征的保持細(xì)節(jié)能力,然而存在兩方面的問題。首先,由于高層特征圖信息較少,上采樣操作恢復(fù)到原始圖像尺寸造成的棋盤偽影問題容易導(dǎo)致高層特征“稀釋”(dilute),需要設(shè)計(jì)更有效的上采樣方式,例如設(shè)計(jì)帶有內(nèi)插策略的上采樣卷積核以平滑結(jié)構(gòu)突變;其次,跳層連接、密集連接的設(shè)計(jì)較為主觀,不同連接方式的應(yīng)用場景不夠明確,造成模型結(jié)構(gòu)日趨復(fù)雜。未來可采用分組卷積等輕量化網(wǎng)絡(luò)的設(shè)計(jì)策略對網(wǎng)絡(luò)進(jìn)行剪枝,突出重要的特征。

2)殘差方式。殘差方式直接學(xué)習(xí)卷積網(wǎng)絡(luò)輸出的粗糙顯著圖與真值之間的殘差,基本避免了設(shè)計(jì)復(fù)雜網(wǎng)絡(luò)結(jié)構(gòu),針對特征融合的不足,可采用循環(huán)前向傳播的方式逐步進(jìn)行修正。此外,面向圖像級分類任務(wù)的神經(jīng)網(wǎng)絡(luò)感受野較小,在處理像素級分類任務(wù)時(shí),單像素承載的信息量不足,可采用增大卷積核或采用空洞卷積的方式防止因多層池化造成信息量過大損失。

3)注意力機(jī)制,或稱為自適應(yīng)聚合(adaptive aggregation)。對于SOD任務(wù),普遍存在高層次特征不足、低層次特征有噪音的問題。注意力機(jī)制可以有效過濾信息,使模型更加關(guān)注需要的部分,但存在兩個(gè)問題。首先,注意力模塊設(shè)計(jì)應(yīng)具備明確設(shè)計(jì)含義,例如“保持邊緣”和“逆向抑制”。然而許多方法采用的空間注意力機(jī)制都沒有清晰說明其意義,只是籠統(tǒng)地表述“可以凸顯前景信息”,而且由于神經(jīng)網(wǎng)絡(luò)大量的通道自身含義不明確,因此通道注意力機(jī)制難以解釋其背后的機(jī)理;其次,設(shè)計(jì)復(fù)雜的注意力模塊嵌入網(wǎng)絡(luò)中,易使網(wǎng)絡(luò)計(jì)算量激增,特別是具有分支計(jì)算結(jié)構(gòu)的空間注意力模塊,往往只能在高層小尺寸特征圖上使用,否則會出現(xiàn)顯存溢出問題。

4.2 協(xié)同顯著性檢測

隨著視頻處理任務(wù)和海量網(wǎng)絡(luò)數(shù)據(jù)識別需求的不斷增加,挖掘圖像中的關(guān)聯(lián)信息成為研究熱點(diǎn)。傳統(tǒng)方法大多基于手工設(shè)計(jì)的描述符進(jìn)行匹配,缺少語義信息,當(dāng)成像角度差距較大時(shí),難以分辨出語義相近的物體。協(xié)同顯著性檢測則可以有效解決該問題,由于圖像間關(guān)聯(lián)信息不再服從歐氏空間分布,亦難以用規(guī)則方式描述圖的節(jié)點(diǎn)和邊,故采用圖神經(jīng)網(wǎng)絡(luò)等算法研究協(xié)同顯著性檢測或成為未來的研究方向。如Zhang等人(2020b)設(shè)計(jì)的自適應(yīng)圖卷積網(wǎng)絡(luò)AGCN(adaptive graph convolutional network)可以同時(shí)獲取圖像內(nèi)部和圖像外部的信息聯(lián)系,即直接計(jì)算任意兩個(gè)圖像位置之間的相互作用。提取到這些特征后,采用圖注意力聚類模塊區(qū)分共同的目標(biāo)和顯著前景。AGCN可采用無監(jiān)督方式進(jìn)行優(yōu)化,生成協(xié)同顯著圖,最后使用具有編解碼器CNN結(jié)構(gòu)的端到端計(jì)算框架進(jìn)行協(xié)同顯著性目標(biāo)生成,可獲得較好的效果。

4.3 弱監(jiān)督與多任務(wù)策略

進(jìn)行像素級標(biāo)注成本高昂,有限的訓(xùn)練數(shù)據(jù)集規(guī)模必然導(dǎo)致模型泛化性能不足。弱監(jiān)督方法極大拓展了樣本來源,并且可以預(yù)防監(jiān)督方法中的過擬合。使用弱監(jiān)督方法往往需要設(shè)計(jì)雙向更新策略,即顯著圖更新策略和標(biāo)簽更新策略,如何更好地保證標(biāo)簽向更準(zhǔn)確的方向更新,值得進(jìn)一步研究。除此之外,隨著實(shí)例分割技術(shù)的發(fā)展,SOD可同時(shí)利用人眼定位預(yù)測與實(shí)例分割的結(jié)果,計(jì)算圖像中每個(gè)對象的顯著性分?jǐn)?shù),從而篩選人眼關(guān)注的顯著性物體。這種方法思路簡單,基于現(xiàn)有的成熟網(wǎng)絡(luò)也容易實(shí)現(xiàn)。

4.4 針對多類別圖像的顯著性檢測

現(xiàn)有的SOD算法大多針對近景自然圖像,拍攝畫面清晰、物體顯著性強(qiáng),實(shí)際應(yīng)用場景中可能出現(xiàn)兩種問題。1)圖像質(zhì)量很可能達(dá)不到訓(xùn)練集的數(shù)據(jù),主要表現(xiàn)在降質(zhì)圖像的顯著性檢測上。一方面,由于訓(xùn)練集上的顯著性物體擺放規(guī)整,鮮見形變,因此在待檢測對象出現(xiàn)大角度偏差時(shí),可能無法檢測;另一方面,圖像分辨率降低時(shí),由于網(wǎng)絡(luò)的感受野不足,易導(dǎo)致丟失細(xì)小目標(biāo)。這一問題可采用遷移學(xué)習(xí)、引導(dǎo)學(xué)習(xí)等方法,利用現(xiàn)有的研究成果對模型參數(shù)進(jìn)行調(diào)整。例如,Zhou等人(2020)提出多類別自注意力機(jī)制引導(dǎo)網(wǎng)絡(luò)MSANet(multi-type self-attention network),在每一組樣本對(原圖像和降質(zhì)圖像)上使用ImageNet預(yù)訓(xùn)練模型,“指導(dǎo)”面向降質(zhì)圖像的“學(xué)生網(wǎng)絡(luò)”進(jìn)行訓(xùn)練,并使用多個(gè)基于卷積的門狀循環(huán)單元,按照一定規(guī)則進(jìn)行狀態(tài)更新。2)圖像種類紛繁復(fù)雜,例如成像距離較遠(yuǎn)的可見光遙感圖像、多光譜圖像和雷達(dá)圖像,以及各種沒有明確空間含義的圖像(例如數(shù)據(jù)可視化圖)等。這些圖像信息量增多,顯著性降低,如何設(shè)計(jì)更好的算法快速關(guān)注到其局部和全局的顯著性,以減輕圖像處理人員的負(fù)擔(dān),這一問題可結(jié)合專用的目標(biāo)檢測網(wǎng)絡(luò)與超分辨率重建技術(shù)進(jìn)行目標(biāo)的定位并縮小處理范圍,而后進(jìn)行精細(xì)劃分。但具體應(yīng)用時(shí),需要結(jié)合使用場景確定算法的精度。

5 結(jié) 語

本文從原理、基本思想和算法特點(diǎn)角度對SOD進(jìn)行了歸納。不難看出,顯著性檢測的核心思路(多層次特征提取、融合與修整)沒有發(fā)生根本性變化,深度學(xué)習(xí)方法是對傳統(tǒng)方法的整合和提升,在精度和效率方面取得了長足進(jìn)步。未來,SOD將會越來越多地部署落地,促進(jìn)各類計(jì)算機(jī)視覺技術(shù)的進(jìn)步。

猜你喜歡
卷積顯著性神經(jīng)網(wǎng)絡(luò)
基于全卷積神經(jīng)網(wǎng)絡(luò)的豬背膘厚快速準(zhǔn)確測定
基于神經(jīng)網(wǎng)絡(luò)的船舶電力系統(tǒng)故障診斷方法
基于人工智能LSTM循環(huán)神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)成績預(yù)測
基于圖像處理與卷積神經(jīng)網(wǎng)絡(luò)的零件識別
MIV-PSO-BP神經(jīng)網(wǎng)絡(luò)用戶熱負(fù)荷預(yù)測
基于深度卷積網(wǎng)絡(luò)與空洞卷積融合的人群計(jì)數(shù)
論商標(biāo)顯著性的判定標(biāo)準(zhǔn)
歐盟法院判決明確歐盟商標(biāo)通過使用獲得顯著性的地域認(rèn)定標(biāo)準(zhǔn)
論聲音商標(biāo)的顯著性
三次樣條和二次刪除相輔助的WASD神經(jīng)網(wǎng)絡(luò)與日本人口預(yù)測
布尔津县| 枣强县| 南开区| 阿勒泰市| 彭州市| 土默特左旗| 松溪县| 保山市| 安达市| 邹平县| 长治市| 嘉善县| 平昌县| 玛纳斯县| 宝坻区| 论坛| 呈贡县| 长寿区| 桑日县| 揭西县| 旌德县| 长子县| 遵义市| 沛县| 宾川县| 寻乌县| 汽车| 随州市| 海兴县| 昭通市| 乾安县| 武定县| 阳高县| 抚州市| 天等县| 紫阳县| 苗栗县| 佳木斯市| 抚远县| 安远县| 蚌埠市|