張艷邦,張 芬,張姣姣
(1.咸陽師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院,陜西咸陽 712000;2.咸陽師范學(xué)院智能信息分析與數(shù)據(jù)處理研究所,陜西 咸陽 712000)
顯著性目標檢測的主要任務(wù)是使計算機模擬人類視覺注意機制,自動確定圖像中有吸引力的、有價值的目標,而抑制其他不含重要信息的背景區(qū)域。隨著圖像和視頻數(shù)據(jù)的獲取越來越便捷,面對數(shù)據(jù)量的激增,顯著性檢測作為一種重要的圖像預(yù)處理方法,在減少計算復(fù)雜度方面起著重要作用,目前已經(jīng)廣泛應(yīng)用于許多計算機視覺任務(wù)中,如圖像分割[1-2]、目標識別[3-4]、圖像壓縮[5]、圖像檢索[6-7]等。
由于人類視覺系統(tǒng)對顏色的敏感性,顏色特征一直是顯著性目標檢測算法考慮的主要因素。現(xiàn)有的顯著目標檢測方法主要通過計算目標區(qū)域與局部周圍區(qū)域或全局圖像場景的差異性來探索圖像顯著性。
1998 年,Itti 等人[8]指出人類視覺系統(tǒng)對對比度較高的有意義區(qū)域敏感,根據(jù)圖像的亮度、顏色和方向等底層特征提出了經(jīng)典的顯著性檢測模型。2009年,Achanta 等人[18]提出基于頻域的顏色和亮度特征估計中心周圍對比度。Fareed 等人[9]提出了一種利用多種顏色特征的對比度特征和分布特征的自底向上顯著性檢測方法,文中還采用了平滑函數(shù),以提高檢測效果。在文獻[10]中,Cheng 等人分別計算了超像素全局對比度及局部對比度,并通過加權(quán)融合特征凸顯顯著性區(qū)域。這些無監(jiān)督的方法復(fù)雜度較低,不需要太多的運行時間成本,而且沒有針對固定的目標,檢測算法推廣性較好,然而,它們的檢測精度往往不能令人滿意。
幾十年來,目標先驗一直是顯著特征提取的重要線索??墒?,由于目標的多樣化,對圖像進行顯著性檢測之前,人們往往對圖像目標一無所知,也就無法獲取前景目標的先驗信息。然而,背景先驗?zāi)P吞峁┝肆硪粭l思路,在該領(lǐng)域得到了一定的應(yīng)用。通過假設(shè)圖像的大部分窄邊界為背景區(qū)域,根據(jù)圖像像素與圖像邊界的連通性獲取圖像背景先驗信息,計算顯著性圖。雖然這些方法可以有效地提高檢測效果,但是僅僅利用邊界區(qū)域的像素特征來直接計算像素的差異性,這種獲取目標顯著特征的方法仍然不足以增強預(yù)測效果。深度學(xué)習(xí)是近幾年發(fā)展的熱點,利用構(gòu)架深層的神經(jīng)網(wǎng)絡(luò)可以顯著提高算法的分類或檢測性能。目前,深度學(xué)習(xí)算法在各個研究領(lǐng)域得到了廣泛應(yīng)用[11-14]。然而,為了提高深度學(xué)習(xí)算法的性能,在訓(xùn)練過程中需要大量的已標注數(shù)據(jù),增加網(wǎng)絡(luò)深度的層數(shù),這對實驗設(shè)備要求也比較高。為了降低對實驗設(shè)備的要求,以及針對檢測目標的不確定性,基于已有的研究成果,文中提出了結(jié)合SVM 和背景模型的顯著性目標檢測算法。首先,將靠近圖像邊界區(qū)域的超像素特征作為圖像背景特征表示構(gòu)建初始背景模型,通過計算顏色對比度得到初始顯著圖;然后,通過選取不同的閾值,得到帶有標注信息的前景像素和背景像素及待檢測像素;接著,采用SVM 算法對帶有標注信息的前景像素和背景像素訓(xùn)練,學(xué)習(xí)得到前景和背景的分類模型,再結(jié)合信息熵評價特征圖,迭代優(yōu)化背景模型,進而得到顯著性目標。在公開的數(shù)據(jù)庫上測試了文中算法,實驗結(jié)果表明,文中提出的算法具有較好的檢測效果。
文中采用簡單線性迭代聚類(Simple Linear Iterative Clustering,SLIC)算法[15]對輸入圖像進行超像素分割預(yù)處理。SLIC 算法與其他超像素分割算法相比計算速度較快,而且分割得到的超像素具有較好的特征一致性。與像素級表達圖像特征相比,超像素級包含了語義信息,描述圖像更加準確,既能抑制噪聲,又可以降低計算復(fù)雜度。超像素的分割個數(shù)越多,保留的圖像細節(jié)信息越多,但是計算量增大;超像素個數(shù)越小,計算量越小,同時也丟失了部分細節(jié)信息。為了權(quán)衡算法計算量與圖像細節(jié)信息,文中在實驗中將圖像分割為200 個超像素。
當(dāng)拍照時,通常會把目標放于靠近圖像中間的區(qū)域,而圖像的邊緣區(qū)域一般為人們不關(guān)心的背景區(qū)域。根據(jù)這一事實,文獻[16]選擇將靠近圖像邊界區(qū)域的顏色特征作為圖像背景的代表特征,顯著性特征定義為圖像內(nèi)部區(qū)域像素與邊緣區(qū)域中部分像素的特征差異,由此得到了簡單有效的顯著性目標檢測模型。
為了簡化計算,文中仍然選擇靠近圖像邊緣的區(qū)域為背景,這些超像素的顏色特征作為圖像背景的代表特征,然后計算其余區(qū)域的顏色特征與背景區(qū)域超像素顏色特征的差異,獲得圖像初始顯著圖。目標存在不確定性,雖然目標一般處于圖像內(nèi)部區(qū)域,但是也可能目標比較大,目標的局部位于邊緣區(qū)域,因此,圖像的邊緣也不一定完全是背景。為了避免這一現(xiàn)象引起的漏檢,在顯著性特征計算中,只選擇與對應(yīng)像素差別最小的5 個超像素,將它們間的加權(quán)和作為該超像素的顯著性特征。令S(i)表示第i個超像素的顯著性特征值:
其中,‖SP(i)-SP(j) ‖表示Lab 顏色空間中第i個超像素與第j個超像素間的歐式距離?!ぁ?為取2范數(shù)運算。D(i,j)表示第i個超像素與第j個超像素間的歐式距離。兩個超像素距離越近,相互間影響越大;距離越遠,影響越小。δ是調(diào)節(jié)參數(shù),與圖像的大小有關(guān),這里選擇為圖像的對角線長度。
背景模型中目標的先驗信息只有像素的位置信息,用圖像邊緣部分的像素特征描述圖像背景特征,對于圖像靠近內(nèi)部的區(qū)域是否也可以描述圖像背景特征呢?為了獲取圖像內(nèi)部區(qū)域中背景先驗信息,通過選取閾值將特征圖二值化,根據(jù)不同的閾值將圖像像素分為前景、背景和待檢測區(qū)域。
特征值大于TH的超像素標記為前景,特征值小于TL的超像素標記為背景,其余超像素標記為待檢測像素。TH和TL計算如下:
對于已標注超像素的像素值,運用SVM 分類算法建立二分類模型,對未標注的像素進行測試,更新圖像背景模型。
由于顯著目標的分布集中,背景區(qū)域包圍目標區(qū)域,分布較為分散。根據(jù)這一特點,文獻[17]提出二維信息熵可以作為衡量顯著圖優(yōu)劣的一個較好的標準。文中繼續(xù)采用該方法,對得到的顯著圖計算其二維信息熵,當(dāng)信息熵變化量小于給定閾值時,說明背景模型漸趨于穩(wěn)定,迭代停止。文中算法流程圖如圖1 所示。
圖1 文中算法流程圖
文中方法測試的實驗平臺是64 位的Windows10操作系統(tǒng),內(nèi)存是8 GB,處理器是Intel(R)Core(TM)i7-7500,主頻是2.7 GHz,軟件版本是Matlab R2016a。為了綜合評價文中算法的有效性,在公開的基準數(shù)據(jù)集MSRA[18]上進行了實驗。MSRA 數(shù)據(jù)集是微軟亞洲研究院建立的可以定量評價視覺注意力算法效果的公開大型圖像數(shù)據(jù)庫。該數(shù)據(jù)庫包含了1 000幅自然圖像,每一幅圖像都有人工標記的基準圖。
為了測試文中算法的性能,與目前主流5 種算法:視覺注意測量算法(IT)[8]、頻率協(xié)調(diào)算法(FT)[18]、超復(fù)數(shù)傅里葉變換(HFT)[19]、測地距離(LIN)[20]以及直方圖對比度(HC)[10]進行比較。
圖2 給出了在MSRA 數(shù)據(jù)庫中文中算法與現(xiàn)有其他5 種算法的直觀比較。圖2 中,從左到右第1 列為測試圖像,第2~7 列依次為IT、FT、LIN、HFT、HC和文中算法的檢測結(jié)果,最后1 列為基準圖。HC 與其他幾個算法相比,能夠較好檢測到目標,但是存在較多的誤檢。而文中算法對于圖像中的目標個數(shù)是一個還是兩個、目標位于圖像邊緣還是中心區(qū)域,都能夠較好地檢測到目標,并抑制背景的干擾。另外,文中給出了PR[21]、ROC[22]、AUC[22]、IOU和MAE[23]方面的實驗結(jié)果。
圖2 在MSRA 數(shù)據(jù)庫中文中算法與現(xiàn)有文獻直觀比較
PR 曲線是一種常用的顯著性評價指標。每一個顯著性特征圖都被規(guī)范化為[0,255],然后選取整數(shù)閾值從0 到255,得到256 個二進制顯著性對象掩碼。SB(i)和GT(i)分別表示二值化特征圖對象掩碼和對應(yīng)的基準值。準確率和召回率分別定義為:
圖3 MSRA數(shù)據(jù)集上不同算法的PR曲線比較
ROC 曲線是描述在不同的判別閾值(從0到255)下真陽性和假陽性之間關(guān)系的圖形。AUC(Area Under Curve)指ROC 曲線下的面積,是ROC 曲線的定量比較,它們是評價顯著圖最常用的度量指標。圖4 展示了在測試數(shù)據(jù)集上各種顯著性檢測方法的ROC 曲線。表1 給出了不同算法的AUC。顯然,該算法在5 種方法中表現(xiàn)出了領(lǐng)先的性能。
圖4 MSRA數(shù)據(jù)集上不同算法的ROC曲線比較
表1 MSRA數(shù)據(jù)集上不同算法的AUC比較
為了進一步評價文中算法的性能,將其與另一種新的度量方法——聯(lián)合交集(IOU)分數(shù)進行了比較。
其中,Rn是通過以顯著圖的特征均值的兩倍為閾值而獲得的二值化特征圖,GTn是基準圖,N表示圖像數(shù)據(jù)集中圖像的個數(shù)。
與其他度量方法相比,IOU可以表示顯著圖與基準圖真值的重疊率,即它們的交并比。重疊率越高,值越高。在理想情況下,比值為1。因此,根據(jù)圖5中數(shù)據(jù)集上的IOU分數(shù)可知,文中算法具有較好的檢測性能。
圖5 MSRA數(shù)據(jù)集上不同算法的IOU柱狀圖比較
MAE是一種簡單可靠的顯著圖評價指標,用于計算基準圖和顯著圖的差異性,定義如下:
其中,S和GT分別表示顯著圖和基準圖,N表示圖像數(shù)據(jù)集中圖像的個數(shù)。圖6 顯示了數(shù)據(jù)集上基于MAE的不同算法的比較。
圖6 MSRA數(shù)據(jù)集上不同算法的MAE柱狀圖比較
圖2~圖6 和表1 分別顯示了所提出的方法在PR、ROC、IOU、MAE和AUC方面與其他5 種流行方法的性能比較。從以上展示的圖和表中可以看出,文中算法具有較好的檢測效果,優(yōu)于流行的檢測算法。
文中提出了一個融合背景模型和機器學(xué)習(xí)算法的顯著性目標檢測模型,該模型在無人工標注訓(xùn)練數(shù)據(jù)的情況下得到了學(xué)習(xí)較強的顯著目標檢測算法。在基準數(shù)據(jù)集上的綜合實驗表明,文中方法優(yōu)于現(xiàn)有的一些顯著目標檢測方法。由于文中只考慮了顏色特征,沒有考慮紋理、形狀等其他特征,因此對于目標和背景顏色相近的圖像檢測效果還不是很理想。下一步將加入更多的底層特征,更充分地描述圖像內(nèi)容,以提高檢測效果。另外,還可以將提出的方法擴展到更多的計算機視覺任務(wù)中,如協(xié)同檢測[24]、RGB-D 顯著性檢測[25]等。