李媛麗,黃 剛,王 軍,孟祥豪,張坤峰,段永勝
(國防科技大學 電子對抗學院,安徽 合肥 230037)
視覺顯著性檢測旨在模擬人類視覺注意機制,利用計算機對圖像、視頻進行處理,提取圖像、視頻序列中的顯著性信息,忽略無用信息。作為計算機視覺領域的一項重要預處理過程,它在圖像和視頻質量評估、目標識別以及圖像檢索等領域發(fā)揮著重要作用[1-4]。目前,對顯著性檢測的研究已取得很大進展,但是隨著時代的發(fā)展,視覺顯著性檢測應用的場景愈發(fā)復雜。在以往的研究中,人們往往只基于圖像自身的顯著性線索如對比度、邊界背景先驗等,通過設計低層次手工特征(顏色、紋理等)或者高層次語義特征(深度特征)來提取顯著性目標區(qū)域,沒有很好地考慮人眼的視覺注意特征。例如,Li 等人[5]提出將圖像邊界區(qū)域作為背景模板,提取顏色和位置特征,構造稀疏和密集重構誤差模型來計算顯著性。Cheng 等人[6]提出通過提取區(qū)域對比度的特征,以預測圖像的顯著性。Lee 等人[7]通過將手工設計的低層特征與從神經(jīng)網(wǎng)絡中提取的高級語義特征相結合來預測其顯著值。這些算法雖然能夠在簡單場景下檢測出顯著目標,但當面臨較為復雜的場景時如邊界目標、低對比度等往往會檢測失效。近年來,基于深度學習顯著性檢測模型雖然在一定程度上解決了上述問題,但往往需要復雜的訓練過程,且計算模型較為復雜。
針對上述問題,本文提出基于眼動預測和多層次鄰域感知的顯著性目標檢測算法。首先,基于GBVS 原理提取人眼感興趣區(qū)域(Human Attention Fixation Map,HAFM),再對圖像進行多尺度的超像素分割,基于HAFM 提取可靠目標種子;其次,結合超像素顏色、紋理、空間距離、視覺注意等多維度特征,計算超像素間的相似度權重;再次,在多個分割尺度下,基于元胞自動機原理構造多層次鄰域感知模型進行顯著性目標種子的傳播;最后,經(jīng)過多尺度融合生成整個目標的完整顯著圖。相較于之前的研究,本文所提算法有以下3 個特點:
(1)將人眼視覺注意特征融入顯著性目標檢測,并以此生成可靠性目標種子,提高了檢測結果的精度;
(2)提取顏色、紋理、視覺注意圖等多維度特征進行顯著性計算,使得算法面臨不同的場景均能達到良好的結果,提高了算法的魯棒性;
(3)構造多層次鄰域感知模型進行顯著目標種子的傳播,使得目標種子能夠在不同的分割尺度下進行擴散,并生成準確的顯著目標圖。多層次鄰域感知模型能夠處理不同尺度規(guī)模的目標檢測問題,提高了算法的適用性。
眼睛是心靈的窗戶,人類觀察世界、獲取外界信息的重要方式之一便是人類視覺系統(tǒng)(Human Visual System,HVS)。當大量外界的視覺信息被眼睛接收時,大腦不能對所有的視覺信息同時進行處理,而是采取忽略大部分無用的信息,關注少部分感興趣的重要信息的方式,幫助人們更容易地理解場景。人們會在無意識中“關注”眼前場景中最“顯眼”的部分,這樣的行為被定義為視覺注意(Visual Attention)機制[8-9]。這些場景中更容易被重點關注的區(qū)域吸引人們注意力的程度,被描述為視覺顯著度(Visual Saliency)[10-11]。利用計算機算法模擬人類的這種視覺關注性行為,被稱為眼動點預測(Human Eye Fixation Prediction,HEFP)。
在之前的研究中,學者多結合心理學、神經(jīng)學、生物學進行眼動點預測的研究。比較著名的模型是Harel[12]等人提出的基于圖論的眼動點預測方法(Graph-Based Visual Saliency,GBVS)。該模型利用馬爾科夫鏈的原理,計算特征差異后進行歸一化處理,最終生成基于圖論的顯著圖。本文首先基于GBVS 預測圖像中人眼感興趣的區(qū)域圖(Human Attention Fixation Map,HAFM):
其中P為輸入圖像,H為圖像P所對應的HAFM 圖。如圖1 所示,利用眼動點預測得到的特征能夠幫助快速鎖定顯著目標區(qū)域,從而為完成顯著目標檢測提供有用的指導信息。
圖1 基于視覺注意的目標種子獲取方法示例
為了更好地提取受測圖像的結構信息和目標邊界信息,使檢測更加高效、精確,目前很多算法將圖像進行分割處理。在計算機視覺領域,將數(shù)字圖像細分為多個圖像子區(qū)域的過程就是圖像分割。圖像子區(qū)域即是圖像中像素的集合,也被稱作超像素。Achanta[13]等人提出的簡單線性迭代聚類(Simple Linear Iterative Clustering,SLIC)具有執(zhí)行快、簡單高效、分割質量高等優(yōu)點,已被廣泛應用于計算機視覺中的預處理環(huán)節(jié)。SLIC 將彩色圖像轉化為CIELAB 顏色空間和xy 坐標下的5 維特征向量,并構造其距離度量標準,再對圖像像素進行局部迭代,從而生成較為緊湊和均勻的超像素。
SLIC 超像素分割算法具體流程如下:
輸入:圖像P
輸出:超像素集合R
流程:
1.以步長S初始化聚類中心,個數(shù)為預設的超像素個數(shù);
2.在n×n鄰域內(nèi)重新選取聚類中心;
3.在每個聚類中心的2S×2S鄰域內(nèi)為每個像素計算距離,并分配類標簽;
4.反復迭代直到整體收斂;
5.增強連通性。
在提取圖像的人眼視覺注意特征并對圖像進行超像素分割后,為有效利用人眼視覺注意特征來進行顯著性目標檢測,本文將HAFM 圖與超像素分割圖結合提取目標種子。定義oi是超像素ri中的像素集合,H(o)是單個像素在HAFM 圖中所對應的視覺注意特征值。本文計算超像素ri中包含的所有像素點的視覺注意特征值的平均值hi作為該超像素的人眼視覺注意特征,并基于此構建目標種子。hi的計算方法為:
其中Oi為超像素ri中的像素點數(shù)量。
將圖像的HAFM 圖與SLIC 分割圖相結合,獲取基于視覺注意特征的可靠目標種子。本文將大于0.5 的超像素定義為目標種子,示例如圖1 所示。
通常而言,圖像的顏色特征對于顯著性檢測來說最重要。因此,目前主流算法主要提取顏色特征向量計算相似度權重進行顯著性傳播。對于顏色特征較好的圖像來說,傳播結果已經(jīng)能夠達到比較滿意的程度。但是,當圖像顏色特征較差而紋理、距離、視覺注意等特征較為優(yōu)秀時,僅使用顏色特征向量計算相似度權重,往往出現(xiàn)目標缺失、噪聲過大等問題,導致算法性能下降。為提高算法的魯棒性,本文提取顏色、紋理、空間距離以及視覺注意等多維度特征,構造聯(lián)合特征向量來描述每個超像素ri。聯(lián)合特征向量的具體特征構成如表1 所示。
表1 聯(lián)合特征向量構成
為說明多特征聯(lián)合的有效性,圖2 給出了幾個例子??梢钥闯?,相較于采用單一顏色特征向量,采用聯(lián)合特征向量計算相似度權重后,算法在檢測復雜場景時,檢測目標更加全面、準確,且抑制了背景噪聲,提高了算法的魯棒性。
圖2 單一特征與聯(lián)合特征計算結果對比
本文多層次鄰域感知模型包含3 大步驟:單一尺度下基于元胞自動機的顯著值傳播,多尺度融合和Sigmoid 優(yōu)化。
本文利用單層元胞自動機[14]在單一尺度下進行顯著性優(yōu)化。元胞自動機原理如圖3 所示,核心是由于一個超像素點受其周圍超像素及其自身的影響,在經(jīng)過若干次傳播后,整體的狀態(tài)達到收斂。在獲取目標種子、構造聯(lián)合特征向量后,需建立超像素ri對超像素rj的影響因子矩陣:
fij為超像素ri和rj之間的相似度權重,?i為超像素ri的聯(lián)合特征值,NB(i)為超像素ri鄰域的集合,σ3是用于控制相似度的參數(shù)。將矩陣因子歸一化后,再建立置信度矩陣:
其中ci是超像素ri當前時刻對自己的置信度,a和b為常數(shù)。最后,根據(jù)影響因子矩陣和置信度矩陣,同步更新原則:
其中I是單位矩陣,f*是由fij構成的影響因子矩陣,c*是置信度矩陣,st和st+1是當前狀態(tài)顯著圖和更新后的顯著圖。經(jīng)過N1次對所有元胞的遍歷更新,得到顯著圖s。元胞模型顯著性傳播示意如圖3 所示。
圖3 鄰域感知模型
由于不同圖像的顯著性目標尺度規(guī)模往往不盡相同,本文將原始圖像進行M個尺度的超像素分割。對于每個尺度都單獨進行顯著值傳播優(yōu)化,生成M個子顯著圖。將M個子顯著圖進行線性加權融合,得到融合顯著圖:
其中αi為加權融合系數(shù)。
如圖4 所示,單一尺度下顯著圖的目標不夠平滑連續(xù),經(jīng)過多尺度融合后,不僅目標區(qū)域的顯著性得到強化,且使得顯著圖更加平滑。
圖4 單一尺度與多尺度融合顯著圖
最后,使用Sigmoid 函數(shù)來抑制融合顯著圖的背景噪聲,并對整體顯著值進行平滑和優(yōu)化:
其中S為輸入顯著圖,S′為優(yōu)化后顯著圖,a、b為控制優(yōu)化效果的參數(shù)。為使強化效果達到最佳,本文通過訓練的方法確定參數(shù)a和b。為綜合考慮MAE 與F-measure 值評價圖像的差異性,本文定義FRM值作為作為圖像的評價指標:
訓練前,設置a的變化范圍為[1,10],步長為1。b的變化范圍為[0.1,1],步長為0.1。對所有參數(shù)的優(yōu)化結果進行評價計算FRM值,找出最優(yōu)結果。訓練結果如圖5 所示,當a=10、b=0.6 時,F(xiàn)RM達到最大。最終,通過最優(yōu)參數(shù)對融合顯著圖S進行強化,得到最終顯著圖S′。
本文算法流程如下:
輸入:圖像P
輸出:顯著圖S′
流程:
1.利用GBVS 獲取人眼視覺注意特征區(qū)域;
2.對圖像進行多尺度超像素分割;
3.結合視覺注意特征、超像素分割圖計算目標種子;
4.聯(lián)合顏色、紋理、空間距離、視覺注意多維度特征計算節(jié)點相似度權重;
5.利用元胞模型對每個單一尺度進行顯著性優(yōu)化;
6.多尺度顯著圖融合;
7.將融合顯著圖進行Sigmoid 強化,得到最終顯著圖S′。
圖5 FRM 值訓練結果
本文在MSRA[15]數(shù)據(jù)集上測試各類算法。MSRA中包含各類物品、人物、植物等目標,能夠有效檢測顯著性模型的適用性。數(shù)據(jù)集中的每一張圖片都有像素級別的真值標注。本文主要結合以下典型算法GB[12]、DSR[5]、LR[16]、BFS[17]、BSCA[14]、PCA[18],對結果進行分析與比較。
顯著性檢測的評價指標主要包括ROC 曲線、P-R曲線、AUC值、MAE值和F-measure 值[14]。本文主要通過MAE、F-measure 值、FRM值3 個評價指標對結果進行評價。其中,MAE 為平均絕對誤差,其在像素層次計算顯著圖與真值之間的誤差,并在整幅圖像上求平均:
F-measure值為精確率和召回率的加權和平均,用于測量兩幅圖像相匹配的程度:
其中P為精確率,R為召回率,β2一般取0.3。FRM 值在3.3 節(jié)已作相關介紹。
本文首先基于GBVS 提取圖像人眼視覺注意區(qū)域,生成HAFM 圖后對圖像進行多尺度超像素分割,然后超像素分割圖結合HAFM 圖獲得目標種子。其次,聯(lián)合圖像顏色、紋理、空間距離以及視覺注意等多維度特征構造聯(lián)合特征向量,計算相似度權重。再次,對每個單一尺度進行顯著性優(yōu)化,并進行多尺度融合獲得融合顯著圖。最后,將融合顯著圖利用訓練得出的優(yōu)化參數(shù)進行Sigmoid 強化,得到最終顯著圖。為進一步分析算法各步驟對生成顯著圖質量的貢獻程度,圖6 給出了本算法中的人眼注意特征線索、基于視覺注意機制的目標種子、單一尺度顯著圖、多尺度融合顯著圖以及圖強化后的最終顯著圖性能曲線對比。從圖6 中算法各階段的性能曲線可以看出,經(jīng)過綜合處理后的算法性能有了顯著提高。
圖6 本算法各階段F-measure 曲線對比
表2 給出了本文算法與其他算法在MSRA 數(shù)據(jù)集上的MAE、F-measure 值以及FRM 值數(shù)據(jù)對比。從表2 可以看出,本文所提算法在保證較大F-measure 值的同時,有效減小了顯著圖的MAE,保持了較高的FRM 值,提高了顯著圖的質量。
圖7 給出10 張圖像檢測效果示例(均來自MSRA 數(shù)據(jù)集)。從檢測結果可以看出,PCA[18]算法基于主成分分析和對比度先驗進行顯著性檢測,其檢測結果目標邊界較明顯,但目標區(qū)域內(nèi)部顯著性不足,背景噪聲較大。BSCA[14]算法對圖像顏色特征依賴較強,當圖像其他特征占優(yōu)時,出現(xiàn)背景噪聲過大等問題。DSR[5]算法基于邊界先驗選取目標種子,當目標靠近圖像邊界時,出現(xiàn)顯著目標檢測不全的問題。而本算法在面對復雜場景、目標處于非理想位置的圖像時均取得了較好的檢測效果,直觀說明了本文所提算法的優(yōu)異性。
表2 本文算法與其他算法的對比
圖7 本文算法與其他算法對比示例
針對傳統(tǒng)算法中往往只關注圖像本身顯著信息,而忽略了人類自身視覺注意信息的問題,提出了基于眼動預測與多層鄰域感知的顯著目標檢測算法。首先,利用GBVS 原理獲取人眼感興趣的區(qū)域生成HAFM 圖,再對圖像進行多尺度超像素分割,并基于HAFM 獲取目標種子,提取圖像顏色、紋理、視覺注意等多維度特征構造聯(lián)合特征向量,計算相似度權重。其次,對每個單一尺度進行顯著性優(yōu)化,再進行多尺度融合獲得融合顯著圖。最后,利用訓練得到的最優(yōu)參數(shù)對融合顯著圖進行Sigmoid強化,獲得最終顯著圖。本文所提算法能夠利用人眼視覺注意特征獲取可靠的目標種子,并提取了多維度特征計算節(jié)點相似度權重,提高了算法的魯棒性;構造的多層次鄰域感知模型保證了顯著性檢測精度,提升了算法在面對復雜場景時的適用性。實驗表明,本文所提算法性能優(yōu)于目前主流的圖像顯著性檢測算法,具有較強的魯棒性和適用性。