国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合邊緣特征先驗(yàn)引導(dǎo)的深度卷積顯著性檢測(cè)

2020-07-17 08:20:10時(shí)斐斐張松龍
關(guān)鍵詞:先驗(yàn)像素卷積

時(shí)斐斐,張松龍,彭 力

江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院 物聯(lián)網(wǎng)技術(shù)應(yīng)用教育部工程研究中心,江蘇 無(wú)錫 214122

1 引言

顯著性檢測(cè)作為計(jì)算機(jī)視覺(jué)系統(tǒng)模擬人類視覺(jué)注意力機(jī)制的一項(xiàng)技術(shù),其主要解決問(wèn)題是如何快速準(zhǔn)確地從各類場(chǎng)景中提取有效顯著目標(biāo),目前顯著性檢測(cè)算法研究主要采用自底而上和自頂而下兩種策略。自底而上的目標(biāo)注意力機(jī)制主要基于數(shù)據(jù)驅(qū)動(dòng),通過(guò)設(shè)計(jì)顯著性檢測(cè)的分類器模型,通過(guò)大量訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練指導(dǎo)模型收斂并在測(cè)試數(shù)據(jù)集上驗(yàn)證,最后得到參數(shù)模型;自頂而上的目標(biāo)注意力機(jī)制主要基于任務(wù)驅(qū)動(dòng),通過(guò)跨學(xué)科觀察分析等方法得出背景、對(duì)比度和中心先驗(yàn)信息,利用先驗(yàn)信息或通過(guò)人工提取的低級(jí)特征與先驗(yàn)信息相融合建模來(lái)檢測(cè)顯著性區(qū)域,該方法在簡(jiǎn)單的場(chǎng)景中取得了良好的效果。

自底而上基于數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)模型依賴于監(jiān)督學(xué)習(xí)方法以及龐大的數(shù)據(jù)集做驅(qū)動(dòng)。2016年Li等[1]提出了一種基于深度卷積網(wǎng)絡(luò)提取各區(qū)域卷積特征對(duì)比的顯著性檢測(cè)網(wǎng)絡(luò),其特點(diǎn)是使用全卷積網(wǎng)絡(luò)提取各個(gè)階段的多尺度卷積特征直接預(yù)測(cè)顯著圖;2017年Zhang等人[2]提出一種學(xué)習(xí)不確定卷積的顯著性檢測(cè)網(wǎng)絡(luò),網(wǎng)絡(luò)在特定卷積層后映入隨機(jī)生成的丟棄層,構(gòu)建了一個(gè)不確定的內(nèi)部單元特征集合從而增加算法的魯棒性和準(zhǔn)確性;2018年Wang等人[3]提出了注意力顯著性網(wǎng)絡(luò)AsNet,利用眼動(dòng)預(yù)測(cè)的結(jié)果圖逐步推斷目標(biāo)顯著性,并使用新穎的損失函數(shù)做了進(jìn)一步優(yōu)化從而提升了算法的準(zhǔn)確度。自頂而下基于任務(wù)驅(qū)動(dòng)的顯著性檢測(cè)模型主要是通過(guò)先驗(yàn)信息或者先驗(yàn)信息與人工提取特征組合建模的方式檢測(cè)顯著性區(qū)域。早在1998年Itti等[4]跨學(xué)科地根據(jù)靈長(zhǎng)類動(dòng)物的視覺(jué)神經(jīng)系統(tǒng)設(shè)計(jì)出顯著性視覺(jué)注意模型,其利用多尺度金字塔融合亮度、方向、顏色特征得到最終顯著圖,這被認(rèn)為是第一個(gè)完整的顯著性檢測(cè)模型。至今,人們利用顏色對(duì)比度、中心先驗(yàn)、背景先驗(yàn)等先驗(yàn)信息提出了大量的基于任務(wù)驅(qū)動(dòng)的顯著性檢測(cè)模型。2013年Yang等[5]將圖像分割為超像素,利用背景先驗(yàn)假設(shè)將邊界超像素與背景超像素進(jìn)行顯著值傳播,通過(guò)預(yù)測(cè)各個(gè)超像素對(duì)應(yīng)的顯著值得到顯著圖。

利用先驗(yàn)信息的任務(wù)驅(qū)動(dòng)顯著性檢測(cè)方法對(duì)特征提取方式比較簡(jiǎn)單,不需要大量數(shù)據(jù)集以及復(fù)雜漫長(zhǎng)的訓(xùn)練過(guò)程,在顯著性檢測(cè)領(lǐng)域發(fā)展初期得到了很好的發(fā)展。但隨著近年來(lái)大數(shù)據(jù)時(shí)代的到來(lái)以及深度學(xué)習(xí)技術(shù)的流行,基于數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)模型通過(guò)大量訓(xùn)練集學(xué)習(xí)充分圖像深度特征,大大提升了檢測(cè)精度,而傳統(tǒng)的基于先驗(yàn)信息的任務(wù)驅(qū)動(dòng)顯著性檢測(cè)方法無(wú)法充分利用大數(shù)據(jù)優(yōu)勢(shì),同時(shí)對(duì)圖像特征提取和理解程度不夠?qū)е略诿鎸?duì)復(fù)雜場(chǎng)景時(shí)精度遠(yuǎn)遠(yuǎn)達(dá)不到預(yù)期效果,所以近幾年研究學(xué)者們將研究重點(diǎn)轉(zhuǎn)向了自底而上基于數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)模型。但因此,近幾年研究忽視了先驗(yàn)信息的引導(dǎo),而先驗(yàn)信息是對(duì)人類視覺(jué)注意機(jī)制的科學(xué)總結(jié)與歸納,更貼合人類觀察顯著區(qū)域的本質(zhì)。在基于深度學(xué)習(xí)算法訓(xùn)練時(shí),如果訓(xùn)練集沒(méi)有包含類似測(cè)試場(chǎng)景的圖像時(shí),其算法檢測(cè)出的顯著區(qū)域往往精度偏低且缺乏魯棒性,容易出現(xiàn)誤檢或者漏檢,模型的不完善性和單調(diào)性也就暴露了出來(lái)。此外,雖然目前卷積特征取代了手工提取特征,但如何合理使用各階段卷積特征仍然是研究中的難點(diǎn)問(wèn)題。

針對(duì)上述因缺乏先驗(yàn)引導(dǎo)導(dǎo)致的深度學(xué)習(xí)算法問(wèn)題,本文提出了一種結(jié)合邊緣特征先驗(yàn)引導(dǎo)的全卷積神經(jīng)網(wǎng)絡(luò)顯著性檢測(cè)方法。首先使用基于ResNet-101的特征編碼網(wǎng)絡(luò)提取原圖深度卷積特征,通過(guò)使用SLIC圖像超像素分割算法保留圖像原有特征的同時(shí)降低后續(xù)計(jì)算復(fù)雜度,從對(duì)比度先驗(yàn)、背景先驗(yàn)兩種先驗(yàn)信息入手,計(jì)算每一個(gè)超像素與邊緣像素的RGB、CIELAB和LBP三種顏色特征對(duì)比度以區(qū)分前景-邊緣-背景,同時(shí)在計(jì)算時(shí)引入中心先驗(yàn)信息的高斯權(quán)重,獲取更魯棒的先驗(yàn)圖;將上述先驗(yàn)圖輸入先驗(yàn)信息輔助網(wǎng)絡(luò)學(xué)習(xí)先驗(yàn)特征,并使用前景-邊緣-背景三分類損失函數(shù)使之收斂;提出先驗(yàn)信息融合模塊,將得到的先驗(yàn)特征與深度卷積特征通過(guò)注意力機(jī)制有效地融合,利用特征解碼網(wǎng)絡(luò)參數(shù)并將編碼特征圖放大到原圖像大??;最后提出CC-FO(Circular Convolution-Feedback Optimization,循環(huán)卷積反饋優(yōu)化)優(yōu)化策略,自動(dòng)地學(xué)習(xí)改進(jìn)顯著性映射,從而得到更加可靠的最終預(yù)測(cè)。

2 網(wǎng)絡(luò)模型

2.1 模型架構(gòu)

圖1 模型結(jié)構(gòu)示意圖

如圖1所示,本文網(wǎng)絡(luò)模型由3個(gè)子網(wǎng)絡(luò)組成,分別是特征編碼網(wǎng)絡(luò)、先驗(yàn)信息輔助網(wǎng)絡(luò)、特征解碼網(wǎng)絡(luò)。特征編碼網(wǎng)絡(luò)是基于ResNet-101[6]的編碼網(wǎng)絡(luò),主要用于提取原圖的深度卷積特征。ResNet-101由4個(gè)殘差模塊組成,共101層卷積層,因此可以獲得豐富的高級(jí)語(yǔ)義信息。先驗(yàn)信息輔助網(wǎng)絡(luò)用于學(xué)習(xí)輸入先驗(yàn)圖的先驗(yàn)特征并使用前景-邊緣-背景三分類約束收斂,并通過(guò)先驗(yàn)信息融合模塊(Prior Information Fusion Module,PIFM)融合深度卷積特征與先驗(yàn)信息,將其作為特征解碼網(wǎng)絡(luò)輸入。特征解碼網(wǎng)絡(luò)由卷積層和上采樣層組成的解碼網(wǎng)絡(luò),目的是學(xué)習(xí)網(wǎng)絡(luò)參數(shù)并將顯著圖恢復(fù)到原圖分辨率。該網(wǎng)絡(luò)由5個(gè)卷積層、5個(gè)上采樣層和最后的顯著圖預(yù)測(cè)層組成,上采樣層采用反卷積實(shí)現(xiàn),逐階段恢復(fù)特征圖的分辨率;最后將顯著圖預(yù)測(cè)層輸入到sigmoid函數(shù)來(lái)判別各像素點(diǎn)屬于顯著區(qū)域的概率,并利用交叉熵?fù)p失函數(shù)實(shí)現(xiàn)網(wǎng)絡(luò)的反向傳播。

2.2 邊緣先驗(yàn)圖

先驗(yàn)知識(shí)是通過(guò)跨學(xué)科觀察分析等方法基于人類視覺(jué)機(jī)制得出的科學(xué)結(jié)論,最初基于先驗(yàn)信息任務(wù)驅(qū)動(dòng)的顯著性算法是人們使用對(duì)比度、背景、中心先驗(yàn)等先驗(yàn)知識(shí)組合人工提取的低級(jí)特征建模檢測(cè)顯著區(qū)域。其中對(duì)比度先驗(yàn)知識(shí)認(rèn)為對(duì)比度越大的區(qū)域顯著值越高;中心先驗(yàn)方法認(rèn)為人在觀察圖像時(shí)最先注意的區(qū)域就是圖像的中心位置,因此在計(jì)算圖像顯著性區(qū)域的時(shí)候,以高斯模型實(shí)現(xiàn)從中心向四周遞減的方法實(shí)現(xiàn);背景先驗(yàn)是指目標(biāo)邊界以及背景區(qū)域的像素點(diǎn)顯著值比較低。而這三種先驗(yàn)知識(shí)被證明可以實(shí)現(xiàn)互補(bǔ)[7],且在傳統(tǒng)的顯著性檢測(cè)中效果突出。為了得到更好的邊緣先驗(yàn)圖,本文基于對(duì)比度先驗(yàn)、中心先驗(yàn)和背景先驗(yàn)三種被經(jīng)常用到的先驗(yàn)知識(shí),計(jì)算每一個(gè)超像素與邊緣像素的RGB、CIELAB[8]和LBP[9](Local Binary Pattern,局部二值模式)三種特征的對(duì)比度,同時(shí)在計(jì)算對(duì)比度時(shí)引入中心先驗(yàn)的高斯權(quán)重,使獲取的先驗(yàn)圖更魯棒。本文采用RGB和CIELAB兩種顏色特征的對(duì)比度是為了使兩種特征發(fā)生互補(bǔ),使之對(duì)顯著性檢測(cè)更有利。RGB顏色空間是人們最常用的顏色空間,該顏色空間中R為紅色,G為綠色,B為藍(lán)色;CIELAB顏色特征通過(guò)模擬人眼對(duì)顏色特征的感知,使其更加符合人眼觀察顏色的本質(zhì)。CIELAB顏色空間中L分量表示的是取值范圍為[0,100]的像素亮度,a分量表示取值范圍為[127,-128]的從紅色到綠色區(qū)間,b分量表示取值范圍為[127,-128]從黃色到藍(lán)色的區(qū)間。

輸入的先驗(yàn)圖分辨率越高,內(nèi)容表達(dá)越準(zhǔn)確,則輸入網(wǎng)絡(luò)學(xué)習(xí)后的顯著圖的準(zhǔn)確度也越高。而一幅圖像中的多數(shù)像素點(diǎn)都有相似的顏色、亮度、紋理等特征,在處理過(guò)程中如果將每個(gè)像素都按照既定方法運(yùn)算一次,將會(huì)帶來(lái)龐大的計(jì)算量和時(shí)間損耗。為了減少算法計(jì)算占用內(nèi)存,增加運(yùn)算效率,本文使用簡(jiǎn)單線性迭代聚類(Simple Linear Iterative Clustering,SLIC)[10]算法對(duì)輸入圖像做圖像超像素分割。該算法在有效捕捉到圖像的特征的同時(shí),極大地減少了圖像后續(xù)處理的計(jì)算量,廣泛用于語(yǔ)義分割[11]、顯著性檢測(cè)[12]等各領(lǐng)域。SLIC方法需要將圖像從RGB空間轉(zhuǎn)換到CIELAB顏色空間,并設(shè)定分割超像素的個(gè)數(shù)k,將圖像分割成一定數(shù)量的具有相似特征的超像素,不僅較好地保留圖像的原有特征,同時(shí)降低了圖像后續(xù)處理的計(jì)算復(fù)雜度,圖2所示不同的k值設(shè)定算法得到的分割圖對(duì)比。將一幅像素點(diǎn)總數(shù)為N的圖像分割為像素點(diǎn)數(shù)為N/k的單個(gè)超像素,其兩個(gè)相鄰超像素聚類中心空間距離近似為S= N/k,SLIC算法將初始化聚類點(diǎn)設(shè)定為邊距為S的網(wǎng)格節(jié)點(diǎn),然后根據(jù)聚類點(diǎn)2S×2S正方形區(qū)域內(nèi)計(jì)算像素點(diǎn)與初始聚類點(diǎn)的歐氏距離,進(jìn)而判斷聚類點(diǎn)周圍的點(diǎn)是否應(yīng)該劃分到該超像素中。像素點(diǎn)與該初始聚類點(diǎn)的歐式距離是該正方形區(qū)域內(nèi)點(diǎn)的空間距離與顏色距離的加權(quán)值:

其中,[l,a,b]為CIELAB空間的顏色平均值,[x,y]為位置空間,dlab為像素的顏色距離,dxy為像素的空間距離,Di是像素顏色距離和空間距離加權(quán)后的總距離,m控制顏色和空間權(quán)重。該算法可以將圖像分割成一定數(shù)量的具有相似特征,且感知均勻的超像素,不僅較好地保留圖像的原有特征,同時(shí)降低了圖像后續(xù)處理的計(jì)算復(fù)雜度。圖2展示了SLIC超像素分割算法不同尺度分割圖直觀效果對(duì)比。實(shí)驗(yàn)證明[10],使用SLIC算法顯著地降低了像素的線性復(fù)雜度,展示了目前最優(yōu)的邊界依從性,在PascalVOC 2010數(shù)據(jù)集上測(cè)試,相比于同類分割算法QS 09方法提升了分割精度,并將生成超像素的時(shí)間減少了一個(gè)數(shù)量級(jí)。

圖2 不同尺度的SLIC分割圖對(duì)比

其中,α和 p分別為超像素的平均RGB的值和空間中心位置,Γi表示為歸一化項(xiàng),β為一個(gè)尺度項(xiàng),本文固定其值為0.5。

LBP特征是一種用來(lái)描述圖像的局部紋理的特征。首先,它設(shè)定窗口中心值為閾值,將周圍的像素值與該閾值比較,若大于閾值則標(biāo)記為1,反之則標(biāo)記為0。然后,將標(biāo)記值按照的順序排成一列組成二進(jìn)制值,將該二進(jìn)制值作為中心點(diǎn)的值。二值模式變化求取紋理的轉(zhuǎn)換方法如下:

其中,G(si)表示為超像素si的中心先驗(yàn)值,利用文獻(xiàn)[11]高斯中心先驗(yàn)方法計(jì)算得到。圖3為先驗(yàn)圖結(jié)果示例,從圖中可以看出,先驗(yàn)顯著圖通過(guò)先驗(yàn)知識(shí)可以準(zhǔn)確地找到顯著區(qū)域,但是依然存在顯著區(qū)域不突出、誤檢等問(wèn)題。

圖3 顯著性先驗(yàn)圖結(jié)果示例

2.3 基于注意力機(jī)制的先驗(yàn)信息輔助網(wǎng)絡(luò)

雖然基于數(shù)據(jù)驅(qū)動(dòng)的顯著性檢測(cè)模型算法遠(yuǎn)遠(yuǎn)超過(guò)了利用先驗(yàn)信息的任務(wù)驅(qū)動(dòng)算法的性能,但是先驗(yàn)信息是對(duì)人類視覺(jué)注意機(jī)制的總結(jié)[13],更符合人類觀察顯著區(qū)域的本質(zhì)。因此,本節(jié)設(shè)計(jì)了基于注意力機(jī)制的先驗(yàn)信息輔助網(wǎng)絡(luò),有效地利用先驗(yàn)信息輔助神經(jīng)網(wǎng)絡(luò)獲得更魯棒的顯著預(yù)測(cè)。先驗(yàn)信息輔助網(wǎng)絡(luò)主要由5個(gè)卷積層和5個(gè)池化層組成,該網(wǎng)絡(luò)輸入為上節(jié)得到的先驗(yàn)圖,通過(guò)5層卷積學(xué)習(xí)得到先驗(yàn)圖的卷積特征。由于先驗(yàn)卷積特征中包含豐富的先驗(yàn)語(yǔ)義信息,這可以幫助引導(dǎo)特征解碼網(wǎng)絡(luò)對(duì)于特征的選擇,從而達(dá)到選擇更為精準(zhǔn)的卷積特征。

通道注意力模塊是一種實(shí)現(xiàn)對(duì)原特征重新校準(zhǔn)和選擇的方式[14]。本節(jié)基于通道注意力提出了先驗(yàn)信息融合模塊(Prior Information Fusion Module,PIFM),如圖4所示,首先將先驗(yàn)圖卷積特征進(jìn)行全局池化得到全局信息,然后通過(guò)卷積核為1×1的卷積學(xué)習(xí)相互依賴系數(shù),最后相互依賴系數(shù)與解碼網(wǎng)絡(luò)的深度特征各通道相互點(diǎn)乘,實(shí)現(xiàn)先驗(yàn)卷積特征引導(dǎo)解碼深度特征選擇對(duì)顯著性更有用的特征。

圖4 先驗(yàn)注意力引導(dǎo)模塊

通過(guò)構(gòu)建的先驗(yàn)信息融合模塊,實(shí)現(xiàn)對(duì)原特征的重新校準(zhǔn),從而提高了算法精度,圖5是使用PIFM模塊與普通融合策略[15]得到的顯著圖對(duì)比??擅黠@看出圖5(c)相比圖5(b)在邊緣區(qū)域、內(nèi)部區(qū)域得到了明顯的改善,特征更加明顯。通過(guò)實(shí)驗(yàn)表明,使用該模塊提升了對(duì)特征的利用率。

圖5 PIFM結(jié)構(gòu)使用效果對(duì)比

2.4 循環(huán)卷積反饋優(yōu)化

傳統(tǒng)的全卷積神經(jīng)網(wǎng)絡(luò)[16]由于只包含前饋網(wǎng)絡(luò)結(jié)構(gòu),缺乏反饋信息,導(dǎo)致網(wǎng)絡(luò)無(wú)法自性修正預(yù)測(cè)錯(cuò)誤的顯著區(qū)域,從而輸出的顯著圖包含很多噪聲。針對(duì)這一問(wèn)題,對(duì)全卷積網(wǎng)絡(luò)進(jìn)行改進(jìn),提出CC-FO(Circular Convolution-Feedback Optimization,循環(huán)卷積反饋優(yōu)化)優(yōu)化策略,通過(guò)將先驗(yàn)圖特征和顯著圖特征循環(huán)送入解卷積網(wǎng)絡(luò),形成反饋信息優(yōu)化每階段的顯著圖。不同于RFCN算法循環(huán)處理方法,本文算法只循環(huán)先驗(yàn)信息輔助網(wǎng)絡(luò)和特征解碼網(wǎng)絡(luò),先驗(yàn)信息輔助網(wǎng)絡(luò)主要是為了在循環(huán)中逐步提取前一階段得到的特征對(duì)應(yīng)的先驗(yàn)信息,而特征編碼網(wǎng)絡(luò)持有原圖最本質(zhì)的特征,將兩者信息融合互相矯正從而達(dá)到更好的效果。另外運(yùn)行一次特征編碼并且復(fù)用到后面的循環(huán)優(yōu)化中的原因,一方面是因?yàn)樘卣骶幋a網(wǎng)絡(luò)由ResNet-101組成,若每階段循環(huán)優(yōu)化都加入該網(wǎng)絡(luò),勢(shì)必會(huì)帶來(lái)巨大的計(jì)算量;另一方面經(jīng)實(shí)驗(yàn)測(cè)試若每階段重新計(jì)算特征編碼,結(jié)果表明對(duì)算法精度幫助非常有限。

如圖6所示,在第一時(shí)間段中,將先驗(yàn)信息輔助網(wǎng)絡(luò)輸出F(P;θ)和特征編碼網(wǎng)絡(luò)輸出F(I;θ)通過(guò)PIFM模塊融合后的卷積特征作為特征解碼網(wǎng)絡(luò)的輸入,通過(guò)特征解碼網(wǎng)絡(luò)得到顯著性預(yù)測(cè)圖如下式:

G1=U(F1(I;θ),F2(P;θ);φ) (5)其中,U表示反卷積操作,F(xiàn)表示卷積操作,I表示輸入圖像,P表示輸入先驗(yàn)圖,θ表示卷積參數(shù),φ表示解碼網(wǎng)絡(luò)參數(shù)。在之后的第t時(shí)間段中,網(wǎng)絡(luò)將上一個(gè)時(shí)間階段預(yù)測(cè)的顯著圖Gt-1作為先驗(yàn)圖送入先驗(yàn)卷積網(wǎng)絡(luò),得到先驗(yàn)卷積特征F2(Gt-1;θ),再將第一時(shí)間階段的編碼部分卷積特征F(I;θ)與先驗(yàn)卷積特征Ft(Gt-1;θ)通過(guò)PIFM模塊融合輸入特征解碼卷積網(wǎng)絡(luò)。解碼部分利用融合特征圖得到優(yōu)化后的顯著性預(yù)測(cè)記為下式:

經(jīng)過(guò)大量實(shí)驗(yàn)測(cè)試證明,當(dāng)時(shí)間階段T=4時(shí),網(wǎng)絡(luò)預(yù)測(cè)的顯著圖達(dá)到最好的效果,而往后再進(jìn)行迭代,顯著圖的預(yù)測(cè)準(zhǔn)確度明顯下降,說(shuō)明整個(gè)預(yù)測(cè)控制過(guò)程從發(fā)散到收斂,再往后變?yōu)檫^(guò)擬合,而T=4時(shí)達(dá)到最優(yōu)效果。實(shí)測(cè)效果如圖7所示。因此,本網(wǎng)絡(luò)的循環(huán)步數(shù)設(shè)置為T=4。

3 仿真實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)細(xì)節(jié)說(shuō)明

本文算法的實(shí)驗(yàn)平臺(tái)是在64位的Ubuntu16.04操作系統(tǒng)和英偉達(dá)顯卡GTX Genforce 1080 GPU,采用的軟件為Pycharm(Python2.7)和深度學(xué)習(xí)框架PyTorch。本文用于訓(xùn)練的數(shù)據(jù)集為MSRA10K[17]公開(kāi)數(shù)據(jù)集,其中含有10 000張高像素圖片,同時(shí)大多數(shù)圖片只含有一個(gè)顯著性目標(biāo)。為了增加訓(xùn)練集數(shù)據(jù)量和樣本的多樣性,通過(guò)數(shù)據(jù)增強(qiáng)(Data Augmentation)對(duì)原始數(shù)據(jù)集進(jìn)行旋轉(zhuǎn),并鏡像得到80 000張樣本用作訓(xùn)練。測(cè)試集采用SED2[18]和ECSSD[19]兩個(gè)數(shù)據(jù)集共1 100張圖片,其中SED2中含有100張測(cè)試圖,雖然規(guī)模小,但其含有像素級(jí)別的真值標(biāo)注,且背景相對(duì)復(fù)雜并均為多顯著性目標(biāo)圖,極具挑戰(zhàn)性;ECSSD含有1 000張種類繁多、背景結(jié)構(gòu)信息豐富的圖片,具有很高的參考性和測(cè)試價(jià)值。本文使用隨機(jī)梯度下降方法訓(xùn)練網(wǎng)絡(luò),訓(xùn)練時(shí)動(dòng)量設(shè)置為0.9,權(quán)重衰減為0.000 5,基礎(chǔ)學(xué)習(xí)率為0.001。本文算法訓(xùn)練共花費(fèi)90 min,在迭代6 000次后達(dá)到收斂。

3.2 實(shí)驗(yàn)結(jié)果定性分析

為驗(yàn)證本文算法的優(yōu)越性,將該方法與目前主流的9種顯著性檢測(cè)算法進(jìn)行對(duì)比,包括2種基于先驗(yàn)信息的任務(wù)驅(qū)動(dòng)顯著性檢測(cè)方法以及7種基于數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)顯著性檢測(cè)模型學(xué)習(xí),分別為wCO[18]、RFCN[19]、BL[20]、MDF[21]、DCL[22]、DHS[23]、Amulet[24]、UCF[25]、SRM[26]。通過(guò)圖8直觀的顯著圖結(jié)果對(duì)比,本文算法的檢測(cè)直觀比較效果相對(duì)較好。傳統(tǒng)算法wCO算法檢測(cè)出的顯著區(qū)域不突出,并且?jiàn)A雜著背景噪聲;BL算法雖然也是基于數(shù)據(jù)驅(qū)動(dòng)的算法,但是該算法采用人工提取特征,因此缺乏高級(jí)的語(yǔ)義信息導(dǎo)致顯著區(qū)域模糊和漏檢;MDF、DCL、DHS、Amulet、UCF、SRM這些基于深度學(xué)習(xí)的算法完全拋棄了傳統(tǒng)先驗(yàn)方法的指導(dǎo),導(dǎo)致檢測(cè)到顯著圖存在誤檢測(cè)區(qū)域,面對(duì)復(fù)雜場(chǎng)景時(shí)缺乏魯棒性。RFCN算法雖然采用先驗(yàn)圖的指導(dǎo),但是僅將原圖與先驗(yàn)圖串聯(lián)使得整個(gè)網(wǎng)絡(luò)需要學(xué)習(xí)整張先驗(yàn)圖,存在大量計(jì)算冗余的同時(shí)未能有效地提取出先驗(yàn)圖的重要信息。最后是本文提出的基于先驗(yàn)特征引導(dǎo)的顯著性檢測(cè)算法,可以看出幾乎完整地檢測(cè)出顯著區(qū)域的同時(shí),也抑制了背景噪聲的干擾,在面對(duì)第五行這種復(fù)雜背景時(shí)依舊具有良好的魯棒性。

圖6 循環(huán)解卷積網(wǎng)絡(luò)示例

圖7 不同時(shí)間步網(wǎng)絡(luò)顯著性預(yù)測(cè)結(jié)果

圖8 顯著圖結(jié)果直觀對(duì)比

3.3 實(shí)驗(yàn)結(jié)果定量分析

3.3.1 評(píng)價(jià)指標(biāo)

本文采用準(zhǔn)確率(Precision,P)為縱坐標(biāo),召回率(Recall,R)做橫坐標(biāo)構(gòu)建P-R曲線[27]、曲線下面積(Area Under the Curve,AUC)、F-measure值和平均絕對(duì)誤差(Mean Absolute Error,MAE)指標(biāo)對(duì)比本文算法與主流算法。對(duì)于F-measure值,有:

其中,β2為權(quán)重參數(shù),取β=0.3;對(duì)于MAE值,有:

其中,M,N為顯著圖的長(zhǎng)和寬,GT(x,y)表示人工標(biāo)注圖在(x,y)處的值,S(x,y)表示顯著圖在(x,y)處的值,MAE值越小,說(shuō)明算法得到的顯著圖與人工標(biāo)注圖的差異越小,性能越優(yōu)異。

3.3.2 ECSSD數(shù)據(jù)集定量分析

由圖9、圖10和表1可以看出基于學(xué)習(xí)的算法比傳統(tǒng)算法具有明顯的優(yōu)勢(shì)。對(duì)本文算法在數(shù)據(jù)集ECSSD中針對(duì)查準(zhǔn)率、召回率、MAE、F-measure值和AUC值幾個(gè)指標(biāo)進(jìn)行測(cè)試并與其余9種算法對(duì)比,各指標(biāo)都取得最優(yōu)結(jié)果。從柱狀圖可以看出本文所提方法的準(zhǔn)確率和AUC值明顯高于其他算法。在P-R曲線圖中本文算法幾乎將其他算法都圍在下方,且算法的下降速度緩慢,曲線表現(xiàn)更加平滑。

圖9 ECSSD數(shù)據(jù)集指標(biāo)柱狀圖

圖10 ECSSD數(shù)據(jù)集P-R曲線

表1 ECSSD中不同算法的指標(biāo)對(duì)比

3.3.3 SED2數(shù)據(jù)集定量分析

圖11、圖12以及表2數(shù)據(jù)展示了本文算法與其余9種算法在SED2數(shù)據(jù)集上的性能測(cè)試結(jié)果。SED2是針對(duì)多目標(biāo)復(fù)雜場(chǎng)景的數(shù)據(jù)集,對(duì)算法的準(zhǔn)確性、魯棒性都有較高的要求,在目前的顯著性目標(biāo)檢測(cè)中具有較高挑戰(zhàn)性。由圖11、12和表2可以看出,本文算法在SED2數(shù)據(jù)集上F-measure值取得了最優(yōu)效果,AUC值與MAE值都排第二,取得綜合最優(yōu)的結(jié)果。

圖11 SED2數(shù)據(jù)集指標(biāo)柱狀圖

圖12 SED2數(shù)據(jù)集P-R曲線

表2 SED2中不同算法的指標(biāo)對(duì)比

分析P-R曲線可以看出,本文算法雖然在低召回率時(shí)查準(zhǔn)率與其他算法無(wú)多大差異,但召回率達(dá)到0.65到0.9時(shí)準(zhǔn)確率明顯提高,這是因?yàn)榫W(wǎng)絡(luò)在先驗(yàn)卷積特征注意機(jī)制的指導(dǎo)下,算法能夠準(zhǔn)確地找出顯著區(qū)域。

在表2中,本文算法雖然在MAE、AUC指標(biāo)未達(dá)到最好的效果,但同其他算法相比具有更高的F-measure值,MAE值與AUC值性能也處于前列,綜合表明算法能夠適應(yīng)多種場(chǎng)景,模型魯棒性也更好。

4 結(jié)論

本文提出一種基于先驗(yàn)特征引導(dǎo)的顯著性區(qū)域檢測(cè)算法。首先,根據(jù)先驗(yàn)假設(shè)計(jì)算出初步的先驗(yàn)顯著圖。然后通過(guò)先驗(yàn)輔助網(wǎng)絡(luò)學(xué)習(xí)先驗(yàn)特征,將先驗(yàn)特征與深度卷積特征注意力通道有效地融合,最終通過(guò)循環(huán)解碼網(wǎng)絡(luò)優(yōu)化上一階段的顯著圖,得到最終的顯著圖。實(shí)驗(yàn)表明,本文算法結(jié)合循環(huán)解碼網(wǎng)絡(luò)通過(guò)有效地利用先驗(yàn)信息得到更加準(zhǔn)確且完整的顯著區(qū)域,各項(xiàng)評(píng)價(jià)指標(biāo)相比其他幾種算法均有明顯的提高。

猜你喜歡
先驗(yàn)像素卷積
趙運(yùn)哲作品
藝術(shù)家(2023年8期)2023-11-02 02:05:28
像素前線之“幻影”2000
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
基于無(wú)噪圖像塊先驗(yàn)的MRI低秩分解去噪算法研究
“像素”仙人掌
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
基于自適應(yīng)塊組割先驗(yàn)的噪聲圖像超分辨率重建
高像素不是全部
CHIP新電腦(2016年3期)2016-03-10 14:22:03
基于平滑先驗(yàn)法的被動(dòng)聲信號(hào)趨勢(shì)項(xiàng)消除
大悟县| 卓资县| 蒙自县| 怀集县| 舒兰市| 潢川县| 交城县| 和静县| 太和县| 龙山县| 昭苏县| 辛集市| 公安县| 贡觉县| 焉耆| 将乐县| 马关县| 祥云县| 南江县| 金乡县| 邻水| 玉溪市| 吉首市| 三门县| 扎兰屯市| 会昌县| 塔河县| 遵义市| 集安市| 雅安市| 长丰县| 万山特区| 敖汉旗| 潍坊市| 南丹县| 临夏市| 和林格尔县| 隆昌县| 古蔺县| 镇远县| 色达县|