陳 蕾,吳建國,劉政怡+
1.安徽大學 計算智能與信號處理教育部重點實驗室,合肥 230601
2.安徽大學 計算機科學與技術(shù)學院,合肥 230601
3.安徽大學 信息保障技術(shù)協(xié)同創(chuàng)新中心,合肥 230601
計算機視覺領(lǐng)域的圖像顯著性檢測工作越來越受到學者的關(guān)注和重視,它可以被廣泛應用到眾多視覺任務中,如目標識別[1]、圖像分割[2]、視頻跟蹤[3]以及目標重定位[4]等。
顧名思義,顯著圖融合工作,即融合由N種圖像顯著性檢測方法生成的顯著圖以得到最終顯著圖。已有很多學者在該領(lǐng)域做過大量研究工作,并可以證明融合工作確實可以取得明顯成效。這些融合思路從不同的角度出發(fā),方法各異,值得總結(jié)和學習。
一些傳統(tǒng)的顯著圖融合方法大多僅是對多幅顯著圖進行簡單的線性加和平均或者是相乘取平均。這種融合方式將多種顯著圖同等對待,通常在實際中是不合理的。Jiang等人在文獻[5]中設(shè)計了質(zhì)量指標來定量評估不同方法生成的顯著圖的優(yōu)劣,然后通過將該質(zhì)量指標作為權(quán)重加權(quán)平均較優(yōu)顯著圖和濾除較差顯著圖來構(gòu)造融合框架。該方法通過計算顯著圖的質(zhì)量指標作為融合權(quán)重,可以區(qū)別對待單個初始顯著圖,而不是簡單地相加平均,這樣可以降低效果較差的顯著圖對整個融合結(jié)果的影響。在文獻[6]中,Cao等人提出了一種通用的可以自適應地融合多種顯著性檢測結(jié)果的框架,通過計算多種顯著性檢測結(jié)果的自適應權(quán)值,再用該權(quán)值對多幅顯著性結(jié)果進行線性加權(quán)來實現(xiàn)融合過程。在文獻[7]中,Mai等人提出了一種基于條件隨機場(conditional random field,CRF)框架的數(shù)據(jù)驅(qū)動的顯著性聚合方法來融合多幅顯著圖。該方法不僅考慮到不同顯著性方法之間的性能差異,而且模擬了相鄰像素之間的相互作用,使得融合效果明顯優(yōu)于單個初始顯著圖。然而,這種方法計算速度太慢。在文獻[8]中,Tao 等人對Dempster-Shafer(D-S)證據(jù)理論進行改進,并首次將其應用到顯著圖的融合工作上,該算法新穎創(chuàng)新,但運行時間較長。在文獻[9]中,Lu等人將初始的每一幅顯著性圖作為一層元胞自動機,并提出了基于貝葉斯理論的多層元胞自動機用于融合多幅顯著性圖并得到一個更優(yōu)的結(jié)果,這種方法高效可行,但是其召回率較低。
為了更有效更全面地融合顯著圖,本文主要從兩個層面對顯著圖進行融合,主要貢獻有以下三點:
(1)對RGB-D圖像顯著圖進行融合,即在融合顯著圖的過程中,利用深度圖進行影響。
(2)分別在圖像級別和像素級別兩個層面上融合顯著圖。在圖像級別上,設(shè)計了一種簡單且有效的RGB-D 顯著圖質(zhì)量評估的特征——分割質(zhì)量,并用該特征作為顯著圖的權(quán)重,在圖像級別上進行線性融合。
(3)在像素級別上,考慮單個像素在不同顯著圖中的顯著值差異,針對單個像素計算其顯著相似性,將其作為該像素的權(quán)重,在像素級別上進行融合。
本文算法流程圖如圖1所示。圖1(a)和圖1(b)分別為輸入的RGB圖像和深度圖像。本文首先對圖1(a)和圖1(b)分別使用四種RGB-D顯著性檢測方法:FP(fusion and propagation)[10]、GP(global priors)[11]、SE(saliency evolution)[12]、LBE(local background enclosure)[13],相應地得出顯著圖圖1(c)、圖1(d)、圖1(e)、圖1(f),以此作為融合過程的初始顯著圖。其次,一方面分別對這四種初始顯著圖計算其質(zhì)量評估值——分割質(zhì)量值,并將其作為圖像級別線性融合的權(quán)重,得到圖像級別融合結(jié)果如圖1(g)所示。另一方面,針對單個像素在四種初始顯著圖之間的顯著性顯示差異,計算每個像素的顯著一致性,并將其作為像素級別線性融合的權(quán)重,得到像素級別融合結(jié)果如圖1(h)所示。最后,再將這兩個級別的結(jié)果按比例融合,得到最終融合結(jié)果圖1(i)。從圖1示例中吊燈的左下方小燈泡可以看出,像素級別的融合可以彌補圖像級別融合的細節(jié)缺失部分,促使整個融合過程優(yōu)勢互補,得以生成最終較好的融合結(jié)果。圖1(j)為該示例的真值圖。
符號標記:對于RGB圖像I,其對應的深度圖為D,用n種RGB-D顯著性檢測算法生成n幅初始顯著圖,記為M1,M2,…,Mn。
為了解決圖像級別的顯著圖融合問題,本文設(shè)計了一種RGB-D顯著圖像的質(zhì)量評估特征——分割質(zhì)量,用來衡量顯著圖中目標和背景的分割準確度。
對于第i張顯著圖Mi,首先計算該圖中所有像素的平均顯著值t,用該值作為閾值二值化Mi為顯著區(qū)域St和背景區(qū)域Bt,即:
其中,Mi(p)為顯著圖Mi中像素p的顯著值,值為1則表示像素p屬于顯著區(qū)域St,反之屬于背景區(qū)域Bt。
由文獻[14]可知,一個好的分割結(jié)果應該呈現(xiàn)出區(qū)域內(nèi)相似性最大化而區(qū)域間相似性最小化,則顯著圖Mi的分割質(zhì)量特征定義如下:
其中,N(p)表示像素p的鄰居像素集合,在這里定義為p的八鄰域。Wpq為相鄰像素p和q之間的顏色和深度相似性。cp和cq分別為像素p和像素q的L*a*b*顏色值,dp和dq分別為像素p和像素q的深度值。||·||2為二范數(shù),計算像素之間顏色值的歐式距離。σ2=0.01為控制參數(shù)。
Fig.1 Algorithm flow chart圖1 算法流程圖
由于質(zhì)量較差的深度圖可能會影響像素之間的深度相似性的計算結(jié)果,故引入深度置信度λd[15]來衡量深度信息的質(zhì)量,定義為:
在該式中,md為整個深度圖的平均深度值,CV表示差異系數(shù),H為深度頻率熵,表示深度分布的隨機性。λd值越大則表明深度圖中的深度信息越可靠。
分析式(2)可知,分割質(zhì)量特征值越大表明當前顯著圖的質(zhì)量越優(yōu)。
按照式(2)對每張顯著圖計算出其分割質(zhì)量,并用該特征值作為權(quán)重進行線性加權(quán)融合,可得圖像級別的融合顯著圖Sal1:
其中,Norm(·)為歸一化函數(shù)。
為了獲取顯著圖中更為細節(jié)化的信息,本文考慮像素在不同顯著圖中的顯著一致性并提出像素級別的融合方法。對于像素p,其在初始顯著性圖M1,M2,…,Mn中的顯著值分別表示為M1(p),M2(p),…,Mn(p),定義像素p在任意兩張顯著圖像i和j中的顯著性差異為:
則n幅顯著圖對應的像素p的相似矩陣如式(7)所示,分析可知,A具有對稱性:
綜上可得,像素p在第i幅顯著圖與其他顯著圖的顯著值的一致性測度計算為:
用該值作為像素p在顯著圖i中的權(quán)重,可得像素級別的融合結(jié)果為Sal2:
最后,融合圖像級別的顯著圖和像素級別的顯著圖,可得最終的融合結(jié)果為:
為了平衡圖像級別的顯著圖和像素級別的顯著圖對最終融合結(jié)果的貢獻程度,且經(jīng)過實驗證明,設(shè)置參數(shù)?1=0.6,?2=0.4可使得實驗效果最優(yōu)。
本文顯著圖像融合算法的偽代碼如下:
算法圖像級別和像素級別的顯著圖像的融合
輸入:RGB圖像、深度圖像、N張初始顯著圖。
輸出:通過融合得到的最終的顯著圖像。
1.根據(jù)式(2)計算每張初始顯著圖的分割質(zhì)量值SQi;
2.根據(jù)式(5)在圖像級別上融合初始顯著圖,得到Sal1;
3.根據(jù)式(8)計算像素在初始顯著圖中的顯著值一致性;
4.根據(jù)式(9)在像素級別上融合初始顯著圖,得到Sal2;
5.根據(jù)式(10)融合Sal1和Sal2,得到最終的融合顯著圖。
實驗在RGB-D1000[16]基準數(shù)據(jù)集上,選定了4種經(jīng)典的RGB-D 顯著性檢測算法對其進行顯著性檢測,獲取初始顯著圖。選定的4種方法是FP[10]、GP[11]、SE[12]、LBE[13]。另外,將本文實驗與4種先進的顯著圖融合算法,就準確率P(Precision)、召回率R(Recall)以及F-measure 這3個評估指標通過繪制精度-召回(Precision-Recall,PR)曲線圖以及評估指標直方圖作直觀對比。對比的4種顯著圖融合算法包括MSR(mean saliency in covered window-spatial distribution of saliency map ratio)[5]、SACS(self-adaptively co-saliency)[6]、MCA(multilayer cellular automata)[9]、WDSET (weighted DS evidence theory)[8]。
實驗平臺:所有程序均在IntelCorei7CPU2.00GHz、內(nèi)存4 GB的PC上實現(xiàn)。本文方法使用Matlab(R2016a),對比算法來自各引用論文作者提供的公開代碼或?qū)嶒灲Y(jié)果集合。
跟很多現(xiàn)有研究工作一樣,本文使用PR 曲線和F-measure值對所有的算法進行評估。
對于一張顯著圖,可以將其轉(zhuǎn)換為二進制掩碼M,并通過比較M和真值圖(ground truth,GT)來計算精度和召回率。具體實現(xiàn)是將顯著圖量化至[0,255],然后為每5個值設(shè)置一個閾值。在該顯著圖中,如果當前像素的顯著性值大于閾值,則指示該像素屬于前景,否則該像素屬于背景。在每個閾值上,計算出一對準確率/召回值,并最終將其組合成一條精度召回(PR)曲線來描述算法在不同情況下的性能。準確率和召回率可以通過以下公式計算:
通常,無論是準確率還是召回率,都無法全面地評價顯著圖的質(zhì)量。本文采用F-measure 作為整體性能評價,由文獻[17]可知,具體計算方法為:
如果β2被設(shè)置為1,則F-measure 的結(jié)果即為準確率和召回率的調(diào)和均值。如果β2>1,則召回率將對F-measure 的結(jié)果影響更大。當β2<1時,則查全率對F-measure 結(jié)果的影響較大。正如大多數(shù)突出的目標檢測工作所建議的那樣,為了控制準確率和召回率的權(quán)值,將β2的值設(shè)為0.3。
圖2為4種初始圖像顯著性檢測算法及其融合結(jié)果對比圖。圖2(a)、圖2(b)分別為這4種初始圖像顯著性檢測算法及兩個級別上的融合結(jié)果的PR曲線圖和評估指標直方圖。圖2(a)PR 曲線顯示,本文提出的基于圖像級別(stage1)和像素級別(stage2)的顯著圖融合算法明顯優(yōu)于初始的圖像顯著性檢測算法。圖2(b)所示為基于準確率P(Precision)、召回率R(Recall)以及F-measure的3個指標的評估結(jié)果。該評估直方圖表明在加入像素級別融合過程(stage2)后,最終融合結(jié)果(Proposed)的F-measure 值高于僅基于圖像級別的融合結(jié)果(stage1),驗證了像素級別融合過程的有效性。
圖3為本文提出的融合算法與其他4種顯著圖像融合算法的對比結(jié)果。圖3(a)、圖3(b)分別為不同的顯著圖像融合算法的PR曲線圖和評估指標直方圖。圖3(a)PR 曲線顯示,本文提出的基于兩個級別的融合算法整體優(yōu)于其他4種顯著圖像融合方法。圖3(b)所示為基于準確率P(Precision)、召回率R(Recall)以及F-measure 的3個指標的評估結(jié)果。該評估直方圖表明,本文算法F-measure 值低于MCA[9]融合算法,但皆高于其他算法。
圖4所示是本文提出的顯著圖像融合算法與其他顯著圖像融合算法的質(zhì)量對比實驗的部分示例。本文算法與其他顯著圖像檢測算法相比,該算法不僅可以較好地凸顯圖像中的顯著目標主體,而且顯著目標的細節(jié)邊緣部分也能得到更細致的處理。
Fig.2 Comparison of initial saliency detection algorithms and fusion results圖2 初始顯著檢測算法及其融合結(jié)果對比
Fig.3 Experimental results of different algorithms for saliency map fusion圖3 不同顯著圖融合算法的實驗結(jié)果
Fig.4 Quality contrast examples圖4 質(zhì)量對比示例
表1為本文方法與其他顯著圖像融合算法在數(shù)據(jù)集上整體的運行時間對比結(jié)果。本文算法驗證實驗運行整體時間為1 232.631 s,運行時間相對偏高的原因是在圖像級別的顯著圖融合過程中增加了對深度信息Depth的計算。
Table 1 Comparision of average running time表1 平均運行時間對比
本文在兩個層面上對RGB-D 顯著圖進行融合,不僅量化計算了初始顯著模型之間的優(yōu)劣差異對最終融合結(jié)果的影響程度,還考慮了單個像素層面的顯著相似性。實驗結(jié)果顯示本文所提出的融合方法得出的顯著圖明顯優(yōu)于初始顯著圖,且在與其他融合算法相比較時,該方法也具有一定的優(yōu)勢。在未來的學習和研究中,可以進一步考慮顯著圖中顯著目標的特征,加入基于目標級別的顯著圖像融合,由此可以更全面地進行顯著圖像融合工作。