喻梁文 吳振剛
【摘要】隨著計(jì)算機(jī)視覺(jué)技術(shù)的迅速發(fā)展,顯著性目標(biāo)檢測(cè)是很多視覺(jué)處理任務(wù)的重要預(yù)處理步驟。顯著性檢測(cè)技術(shù)根據(jù)視覺(jué)注意力機(jī)制去分割自然圖像中的重要物體。本文總結(jié)了顯著性目標(biāo)檢測(cè)技術(shù)及其應(yīng)用的研究情況,為構(gòu)建更好的顯著性目標(biāo)檢測(cè)技術(shù)提供發(fā)展方向。
【關(guān)鍵詞】目標(biāo)檢測(cè);顯著性檢測(cè);視覺(jué)注意力;深度學(xué)習(xí)
隨著深度學(xué)習(xí)、高性能圖形處理器、高清攝像頭、大數(shù)據(jù)處理等技術(shù)的迅速發(fā)展,計(jì)算機(jī)視覺(jué)技術(shù)在智慧視頻監(jiān)控、機(jī)器人、工業(yè)檢測(cè)等應(yīng)用場(chǎng)景中能夠模擬人類(lèi)視覺(jué)去解決現(xiàn)實(shí)問(wèn)題。顯著性目標(biāo)檢測(cè)技術(shù)的核心功能是根據(jù)人類(lèi)的視覺(jué)注意力機(jī)制從圖像中識(shí)別出重要信息。顯著性目標(biāo)檢測(cè)技術(shù)是最重要的計(jì)算機(jī)視覺(jué)數(shù)據(jù)預(yù)處理技術(shù)之一,是近年來(lái)學(xué)術(shù)界和工業(yè)界研究的熱點(diǎn)技術(shù)。
1. 顯著性目標(biāo)檢測(cè)技術(shù)及其應(yīng)用
顯著性目標(biāo)檢測(cè)技術(shù)主要是基于視覺(jué)注意力機(jī)制構(gòu)建的圖像預(yù)處理方法。近五年,基于多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)技術(shù)和支持超高分辨率、立體視覺(jué)、光場(chǎng)成像(Light Field Imaging)的圖像傳感器技術(shù)均迅速發(fā)展,促使顯著性目標(biāo)檢測(cè)技術(shù)迅速實(shí)用化,并已經(jīng)得到了廣泛應(yīng)用。
顯著性目標(biāo)檢測(cè)技術(shù)關(guān)注從一個(gè)自然的圖像場(chǎng)景中選擇性地抽取出最重要的區(qū)域或物體(也稱作目標(biāo))。目標(biāo)的重要性通常稱作顯著性。顯著性的判斷標(biāo)準(zhǔn)通常以人類(lèi)的自然判斷為依據(jù)。
顯著性目標(biāo)檢測(cè)技術(shù)的數(shù)據(jù)處理流程通常涉及兩個(gè)主要步驟:首先,從圖像中檢測(cè)顯著性最高的物體或目標(biāo);然后,從圖像中精確地分割出此物體或目標(biāo)。
顯著性目標(biāo)檢測(cè)是很多復(fù)雜計(jì)算機(jī)視覺(jué)任務(wù)的重要組成部分。顯著性目標(biāo)檢測(cè)的常見(jiàn)應(yīng)用包括:圖像檢索、圖像理解、圖像捕捉、目標(biāo)檢測(cè)、語(yǔ)義分割、行人重識(shí)別、自動(dòng)切圖、視頻摘要等。
2. 顯著性目標(biāo)檢測(cè)的熱點(diǎn)研究方向
從信息系統(tǒng)的角度,顯著性目標(biāo)檢測(cè)技術(shù)作為支持計(jì)算機(jī)視覺(jué)功能的信息系統(tǒng)的組成部分需要滿足應(yīng)用系統(tǒng)提出的功能性和非功能性要求,例如,支持的目標(biāo)檢測(cè)特性,安全性,執(zhí)行效率,通訊效率,可擴(kuò)展性,可靠性等多方面的要求,因此涉及的研究方向比較廣泛。
2.1 2D顯著性檢測(cè)(2D Saliency Detection)
2D顯著性檢測(cè)是基于平面的圖像進(jìn)行顯著性目標(biāo)檢測(cè)的算法,可以分為啟發(fā)式算法和基于深度學(xué)習(xí)的算法(Deep SOD)。其中啟發(fā)式算法主要是基于圖像的底層特征進(jìn)行分析,例如,對(duì)比度,背景等。近年來(lái),大量2D顯著性檢測(cè)算法基于深度學(xué)習(xí)原理進(jìn)行設(shè)計(jì)。文章系統(tǒng)地總結(jié)了近年來(lái)提出的深度學(xué)習(xí)顯著性目標(biāo)檢測(cè)算法。
2.2 3D顯著性檢測(cè)(3D Saliency Detection)
3D顯著性檢測(cè)是針對(duì)立體攝像機(jī)(主要是雙目攝像機(jī))捕捉的3D圖像來(lái)提取顯著性目標(biāo)的算法。不同于傳統(tǒng)的2D顯著性檢測(cè),3D顯著性檢測(cè)關(guān)注物體視覺(jué)深度和雙目視差。已有的3D顯著性檢測(cè)方法可以分為三類(lèi):基于深度權(quán)重的方法,基于深度顯著性的方法和基于立體視覺(jué)的方法。
2.3 4D顯著性檢測(cè)(4D Saliency Detection)
4D顯著性檢測(cè)是針對(duì)4D圖像傳感器(主要是光場(chǎng)攝像機(jī))捕捉的光線信息來(lái)提取顯著性目標(biāo)的算法。不同于傳統(tǒng)攝像機(jī)的成像原理,光場(chǎng)攝像機(jī)能夠同時(shí)記錄光場(chǎng),即光的強(qiáng)度、位置和方向,因此更全面的感光信息有利于發(fā)現(xiàn)隱藏的顯著性。人眼具備感知光場(chǎng)的能力,因此光場(chǎng)攝像機(jī)比傳統(tǒng)攝像機(jī)更接近人眼。
2.4 顯著性檢測(cè)的對(duì)抗性攻擊(Saliency Detection against Adversarial Attacks)
關(guān)于顯著性檢測(cè)技術(shù)的安全方面,研究對(duì)抗性攻擊是為了增強(qiáng)算法的健壯性。顯著性檢測(cè)算法本質(zhì)上是圖像數(shù)據(jù)矩陣的數(shù)學(xué)運(yùn)算,攻擊者精心地構(gòu)造圖像數(shù)據(jù)可能會(huì)影響顯著性目標(biāo)檢測(cè)算法的正確判斷,從而得出不符合人類(lèi)預(yù)期甚至嚴(yán)重矛盾的結(jié)果。換句話說(shuō),一個(gè)圖像數(shù)據(jù)輸入到顯著性目標(biāo)檢測(cè)算法得出的顯著性區(qū)域或目標(biāo),與人類(lèi)判斷的顯著性結(jié)果嚴(yán)重不符。從應(yīng)用的角度,這些不符合預(yù)期的對(duì)抗性攻擊是難以避免的,因此需要系統(tǒng)地研究顯著性檢測(cè)算法是否存在隱含的脆弱性。
2.5 輪廓檢測(cè)(Contour Detection)
輪廓檢測(cè)是指在圖像中精確地區(qū)分目標(biāo)和背景。輪廓檢測(cè)是圖像分割的前提。人眼有很強(qiáng)的輪廓檢測(cè)能力,可以很快地從自然場(chǎng)景中區(qū)分出指定物體的輪廓和邊緣。事實(shí)上,輪廓本身也是人類(lèi)識(shí)別物體的重要信息之一。
2.6 視覺(jué)注意力機(jī)制(Visual Attention)
視覺(jué)注意力機(jī)制是顯著性目標(biāo)檢測(cè)技術(shù)的基本原理。直觀而言,視覺(jué)注意力是人類(lèi)具有快速辨別圖像中有意義的部分,并選擇性忽略其他部分的能力。例如,人類(lèi)會(huì)注意到天空背景中快速飛過(guò)的鳥(niǎo)類(lèi)或飛機(jī)。事實(shí)上,視覺(jué)注意力是人類(lèi)長(zhǎng)期進(jìn)化的結(jié)果,是人類(lèi)特有的心理和生理活動(dòng)結(jié)合的產(chǎn)物。在計(jì)算機(jī)視覺(jué)中,視覺(jué)注意力(Visual Attention)機(jī)制是一種用計(jì)算機(jī)算法來(lái)模擬人類(lèi)對(duì)圖像中的顯著特征進(jìn)行自動(dòng)抽取的數(shù)據(jù)處理技術(shù)。通常,人們期待計(jì)算機(jī)視覺(jué)技術(shù)能在日常生活和生產(chǎn)場(chǎng)景中替代人類(lèi)的活動(dòng),因此,首先就需要能讓信息系統(tǒng)學(xué)會(huì)人類(lèi)的視覺(jué)注意力。
3 結(jié)論
面對(duì)新的計(jì)算機(jī)視覺(jué)應(yīng)用場(chǎng)景挑戰(zhàn),包括機(jī)器人、遙感、智慧安防、虛擬現(xiàn)實(shí)、視頻檢索、智能交通、智慧醫(yī)療等諸多領(lǐng)域的機(jī)器視覺(jué)系統(tǒng),需要構(gòu)建更高效、更可靠、更準(zhǔn)確、更多特性的顯著性目標(biāo)檢測(cè)方法,近期要關(guān)注以下研究方向:基于光場(chǎng)和立體視覺(jué)的顯著性目標(biāo)檢測(cè)技術(shù)、顯著性目標(biāo)檢測(cè)技術(shù)的安全與隱私問(wèn)題、基于圖像序列或視頻的多圖像顯著性目標(biāo)檢測(cè)技術(shù)、目標(biāo)顯著性的評(píng)估模型技術(shù)(比較顯著性檢測(cè)算法與人類(lèi)的差異)等。
參考文獻(xiàn):
[1]BORJI A, CHENG M, HOU Q, et al. Salient object detection: A survey[J]. Computational Visual Media, 2019,5(2):117-150.
[2]WANG W, LAI Q, FU H, et al. Salient Object Detection in the Deep Learning Era: An In-Depth Survey[J]. 2019.
[3]LIN C, LIN H, ZHAO Y, et al. 3D saliency detection based on background detection[J]. Journal of Visual Communication and Image Representation, 2017,48:238-253.
[4]PIAO Y, LI X, ZHANG M, et al. Saliency Detec-tion via Depthinduced Cellular Automata on Light Field[J]. IEEE Transactions on Image Processing, 2019:1.
[5]LI H, LI G, YU Y. ROSA: Robust Salient Object Detection Against Adversarial Attacks[J]. IEEE Transactions on Cybernetics, 2019:1-13.
[6]CHE Z, BORJI A, ZHAI G, et al. Adversarial At-tacks against Deep Saliency Models[J]. 2019.
[7]WEN C, LIU P, MA W, et al. Edge detection with feature re-extraction deep convolutional neural network[J]. Journal of Visual Communication and Image Representation, 2018,57:84-90.
[8]WANG W, SHEN J. Deep Visual Attention Prediction[J]. IEEE Transactions on Image Pro-cessing, 2018,27(5):2368-2378.
[9]羅炳軍, 黃本法, 郭聯(lián)金, 等. 搬運(yùn)機(jī)器人視覺(jué)引導(dǎo)定位技術(shù)的研究[J]. 新型工業(yè)化, 2017,7(3):12-19.
[10]張立明王鑫王斌. 基于圖像顯著性區(qū)域的遙感圖像機(jī)場(chǎng)檢測(cè)[J]. 計(jì)算機(jī)輔助設(shè)計(jì)與圖形學(xué)學(xué)報(bào), 2012,24(3):336-344.
作者簡(jiǎn)介: 喻梁文(1983-),男,博士,高級(jí)工程師,主要研究方向:網(wǎng)絡(luò)安全、人工智能、社會(huì)網(wǎng)絡(luò)數(shù)據(jù)發(fā)布的隱私保護(hù)。吳振剛 (1981-),通訊作者,男,博士,高級(jí)工程師,主要研究方向:企業(yè)信息化、軟件工程、網(wǎng)絡(luò)安全、人工智能、大數(shù)據(jù)技術(shù)。