摘? 要:針對(duì)某些應(yīng)用中目標(biāo)表面紋理較少,目標(biāo)檢測(cè)困難的問(wèn)題,提出了一種基于區(qū)域梯度壓縮的少紋理目標(biāo)候選框提取算法。該算法是對(duì)模板匹配算法OCM的改進(jìn)。算法對(duì)局部區(qū)域梯度方向進(jìn)行壓縮,保持了較低的計(jì)算復(fù)雜度,并且提出了新的梯度方向壓縮方法與相似度衡量方法。實(shí)驗(yàn)證明,該算法相較于OCM算法,在產(chǎn)生接近數(shù)量候選框的情況下,召回率提高了6.5%;在召回率接近時(shí),產(chǎn)生的候選框數(shù)量減少了41.9%。
關(guān)鍵詞:少紋理目標(biāo);目標(biāo)檢測(cè);模板匹配;目標(biāo)候選框提取;量化編碼梯度方向;二進(jìn)制梯度方向壓縮
中圖分類號(hào):TP391? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):2096-4706(2020)02-0102-04
Abstract:In some applications,the objects to be detected dont have enough surface texture informations,which causes a great challenge to the accurate object detection. Aiming at above issue,this paper proposes a candidate box extraction algorithm for texture-less object based on region orientation compression. This algorithm is an improvement on the template matching algorithm OCM. The algorithm compresses the local area edge orientation and maintains a low computational complexity,the algorithm proposes new orientation compressing method and similarity measurement method. Experiments results show that compared with the OCM,the algorithm can improve the recall rate by 6.5%. When the recall rate is close,the algorithm reduce the amount of candidate boxes by 41.9%.
Keywords:texture-less object;object detection;template matching;object candidate box extraction;quantized and encoded orientation;binary gradient direction compression
0? 引? 言
數(shù)字圖像目標(biāo)檢測(cè)是計(jì)算機(jī)視覺(jué)領(lǐng)域核心問(wèn)題之一。在實(shí)際生產(chǎn)生活中,目標(biāo)檢測(cè)技術(shù)在機(jī)器人系統(tǒng)[1]、圖像檢索[2]和增強(qiáng)現(xiàn)實(shí)[3]等眾多領(lǐng)域中都有廣泛應(yīng)用。在一些工業(yè)場(chǎng)景中目標(biāo)表面紋理信息較少,稱為少紋理目標(biāo)。針對(duì)于少紋理目標(biāo)的目標(biāo)檢測(cè)算法主要分為基于描述子算法與基于模板匹配算法。
基于描述子的目標(biāo)檢測(cè)算法根據(jù)興趣點(diǎn)建立特征描述子作為檢測(cè)依據(jù)。David提出的SIFT算法[4]根據(jù)鄰域梯度方向建立描述子。后續(xù)提出的描述子算法BOLD[5]與BORDER[6],則都根據(jù)線段群之間的聯(lián)系建立描述子?;诿枋鲎铀惴ㄍ蕾囉谀繕?biāo)表面穩(wěn)定且區(qū)別度高的特征點(diǎn)。當(dāng)目標(biāo)紋理信息較少,檢測(cè)準(zhǔn)確率會(huì)受到較大影響。
基于模板匹配的目標(biāo)檢測(cè)算法根據(jù)選取特征對(duì)模板進(jìn)行學(xué)習(xí),將目標(biāo)模板作為滑動(dòng)窗口與測(cè)試圖片不同區(qū)域進(jìn)行匹配,得到目標(biāo)候選位置。Hsiao等人提出了基于梯度網(wǎng)絡(luò)的匹配方法[7],相較之前的模板匹配算法提高了檢測(cè)準(zhǔn)確性,但是計(jì)算復(fù)雜度較高。Hinterstoisser等人又提出了Line-2D算法[8],通過(guò)線性存儲(chǔ)相似度查找表提高了匹配速度。然而由于算法仍使用主梯度方向作為特征信息,導(dǎo)致目標(biāo)大量梯度信息丟失,檢測(cè)準(zhǔn)確度較差。
整個(gè)目標(biāo)檢測(cè)過(guò)程可以分為兩個(gè)階段完成。第一階段負(fù)責(zé)從各個(gè)背景中提取目標(biāo)候選區(qū)域。第二階段負(fù)責(zé)對(duì)候選區(qū)域進(jìn)行分類和校準(zhǔn),得到最終的檢測(cè)結(jié)果。在工業(yè)場(chǎng)景目標(biāo)檢測(cè)算法課題研究中,針對(duì)目標(biāo)檢測(cè)候選區(qū)域提取階段,本文提出了一種基于區(qū)域梯度壓縮的少紋理目標(biāo)候選框提取算法ROCM(Region Orientation Compress Map),該算法是對(duì)候選框提取算法OCM(Orientation Compress Map)[9]的改進(jìn)。通過(guò)實(shí)驗(yàn)證明,相較于OCM算法,ROCM算法不僅提高了檢測(cè)召回率,并且在召回率都接近100%的情況下,只產(chǎn)生了數(shù)量較少的候選框,大大減少了下一階段算法需要處理的數(shù)據(jù)量。ROCM算法作為目標(biāo)檢測(cè)算法中第一階段提取候選框的算法表現(xiàn)出更好的性能。
1? 算法實(shí)現(xiàn)原理
算法主要分為三個(gè)步驟進(jìn)行,首先對(duì)圖像提取邊緣后,經(jīng)過(guò)量化編碼過(guò)程將邊緣梯度方向轉(zhuǎn)換為一個(gè)16位二進(jìn)制串;再對(duì)局部區(qū)域二進(jìn)制梯度方向進(jìn)行壓縮提取特征信息;最后通過(guò)衡量輸入圖像與不同尺度不同角度模板之間的梯度壓縮相似度,獲得目標(biāo)的候選位置與其尺度、角度信息。
1.1? 量化編碼梯度方向
首先,算法采用Canny算子提取出圖像邊緣??紤]到目標(biāo)在光亮條件與黑暗條件下其邊緣點(diǎn)的梯度方向是相反的。為了消除同一目標(biāo)在亮背景與暗背景下邊緣梯度方向相差較大的情況,算法將梯度方向范圍從[0,2π]轉(zhuǎn)換為[0,π]。即當(dāng)梯度方向大于π時(shí),將會(huì)被減去π。再將[0,π]范圍的梯度方向空間均分為16份,處于同一范圍區(qū)間的梯度方向都使用相同的二進(jìn)制串表示。最終各個(gè)邊緣梯度方向經(jīng)過(guò)量化編碼轉(zhuǎn)換為一個(gè)16位二進(jìn)制串。
圖1為量化編碼梯度方向,為了方便描述,圖1(a)中將梯度空間均分為16份舉例。圖1(b)中虛線表示與實(shí)線方向相反的梯度方向,兩者對(duì)應(yīng)的二進(jìn)制串是相同的。
1.2? 區(qū)域梯度壓縮映射
ROCM算法量化編碼邊緣梯度方向?yàn)?6位二進(jìn)制串后。接著以壓縮比例lc對(duì)二進(jìn)制梯度方向進(jìn)行壓縮。為了使壓縮后像素點(diǎn)包含更多的梯度方向,ROCM算法在壓縮過(guò)程中使用一個(gè)正方形壓縮窗口取代OCM算法中使用的圓形壓縮窗口。正方形壓縮窗口Squ的邊長(zhǎng)為整數(shù)Lc,其與lc的關(guān)系為:
Lc=lc+[lc/2]
壓縮過(guò)程中,正方形壓縮窗口以lc為步長(zhǎng)進(jìn)行移動(dòng),每次移動(dòng)到不同的位置時(shí)進(jìn)行一次梯度方向壓縮。
如圖2所示為一個(gè)像素尺寸為10×10的圖像,以lc=4的比例進(jìn)行壓縮后,像素尺寸變?yōu)?×2。如圖所示,較粗虛線窗口為邊長(zhǎng)Lc=6的正方形壓縮窗口Squ,對(duì)應(yīng)于壓縮后的一個(gè)像素點(diǎn)。Squ被均分為四個(gè)子區(qū)域。ROCM算法將梯度方向空間均分為16份。壓縮后每個(gè)位置上最多可能存在64個(gè)不同的梯度方向。
與OCM算法中壓縮梯度方向方法相比,該壓縮方法不僅保留了壓縮窗口內(nèi)全部梯度方向,還保留了梯度方向在壓縮窗口內(nèi)的方位信息,使得后續(xù)梯度匹配更加準(zhǔn)確。
1.3? 基于邏輯位操作的相似度衡量方法
使用1.2節(jié)的方法對(duì)目標(biāo)模板圖像和輸入圖像的邊緣梯度方向都進(jìn)行壓縮后,分別得到模板圖像梯度壓縮GT(lc)和輸入圖像梯度壓縮GI(lc)。壓縮過(guò)程分別提取了模板圖像與輸入圖像的特征信息,接下來(lái)需要設(shè)計(jì)一個(gè)合適的相似度得分計(jì)算方法來(lái)衡量輸入圖像與目標(biāo)模板的相似程度。
由于GT(lc)與GI(lc)中各個(gè)像素點(diǎn)的梯度方向都為一個(gè)64位二進(jìn)制串,利用邏輯與操作可以快速得到對(duì)應(yīng)像素點(diǎn)上正確匹配的梯度方向個(gè)數(shù)。同理,可以利用邏輯異或操作得到非正確匹配的梯度方向個(gè)數(shù)。根據(jù)匹配情況,相似度得分可以通過(guò)下式計(jì)算:
式中,λ為常數(shù),算法中設(shè)置為8。Mk+e,k(lc)為正確匹配的梯度方向個(gè)數(shù)。Dk+e(lc)為非正確匹配的梯度方向個(gè)數(shù)。CTk(lc)為GT(lc)在位置k的梯度方向計(jì)數(shù)。
相較于OCM算法,ROCM算法不僅利用邏輯與操作計(jì)算了對(duì)應(yīng)像素點(diǎn)上能正確匹配的梯度方向數(shù)目,還利用邏輯異或操作快速計(jì)算了不能正確匹配的梯度方向數(shù)量。該相似度衡量方法能更好地剔除輸入圖像中不存在的目標(biāo)且包含梯度方向較少的區(qū)域。并且由于壓縮過(guò)程中保留了梯度方向在壓縮窗口內(nèi)的方位信息,即使輸入圖像中的目標(biāo)邊緣受到干擾,目標(biāo)所處區(qū)域與模板也有較多的梯度方向能夠正確匹配,有效地減少了目標(biāo)漏檢情況。
2? 實(shí)驗(yàn)結(jié)果分析
實(shí)驗(yàn)使用數(shù)據(jù)庫(kù)為D-Textureless數(shù)據(jù)庫(kù)[5],它包含9張不同目標(biāo)的模板圖片。圖片庫(kù)中一共有54張測(cè)試圖片,每張測(cè)試圖片分辨率都為640×480。實(shí)驗(yàn)針對(duì)9個(gè)目標(biāo)出現(xiàn)在測(cè)試圖片中的實(shí)際情況,在[0.60,0.90]的范圍以0.05為步長(zhǎng)對(duì)目標(biāo)模板圖片進(jìn)行7個(gè)不同尺度的縮放變換,再在[0,2π]的范圍以8度為步長(zhǎng)對(duì)目標(biāo)模板圖片進(jìn)行45個(gè)不同角度的旋轉(zhuǎn)變換。最終得到315張不同尺度、不同角度的目標(biāo)模板圖片。對(duì)全部模板圖片二進(jìn)制梯度方向進(jìn)行壓縮,作為后續(xù)匹配過(guò)程中的模板。
圖3、圖4為ROCM算法與OCM算法檢測(cè)結(jié)果比較。當(dāng)待檢測(cè)目標(biāo)為鉗子時(shí),圖3(b)中ROCM算法準(zhǔn)確提取出了目標(biāo)的候選位置,而圖3(c)中OCM算法則發(fā)生漏檢。當(dāng)待檢測(cè)目標(biāo)為扳手時(shí),圖4(b)中ROCM算法與圖4(c)中OCM算法都可以準(zhǔn)確地提取出目標(biāo)的候選位置,但是ROCM算法產(chǎn)生的候選框數(shù)量少于OCM算法。
實(shí)驗(yàn)通過(guò)調(diào)整各模型的相似度閾值,使兩種算法在檢測(cè)相同模型時(shí)產(chǎn)生的候選框數(shù)量接近,分別對(duì)漏檢率與候選框數(shù)量進(jìn)行統(tǒng)計(jì)。表1為ROCM算法在D-Textureless數(shù)據(jù)庫(kù)中檢測(cè)9個(gè)模型的實(shí)驗(yàn)結(jié)果。表2為OCM算法在相同實(shí)驗(yàn)條件下的結(jié)果。
比較表1與表2數(shù)據(jù)可知,當(dāng)產(chǎn)生的候選框數(shù)量接近時(shí),ROCM算法相較于OCM算法平均召回率提高了約6.5%。在產(chǎn)生較少數(shù)量候選框的情況下,可將大部分正樣本中的目標(biāo)包含在候選框內(nèi)。
接著實(shí)驗(yàn)通過(guò)降低相似度得分閾值,使OCM算法與ROCM算法都達(dá)到接近100%召回率,表3所示為兩種算法產(chǎn)生的候選框數(shù)量。由表中數(shù)據(jù)可知當(dāng)幾乎不發(fā)生漏檢時(shí),OCM算法在檢測(cè)9個(gè)模型過(guò)程中總共產(chǎn)生1 257個(gè)候選框,每個(gè)模型的每張測(cè)試圖片平均產(chǎn)生2.6個(gè)候選框。ROCM算法總共產(chǎn)生730個(gè)候選框,每個(gè)模型的每張測(cè)試圖片平均產(chǎn)生1.5個(gè)候選框。ROCM算法相較于OCM算法,在漏檢率接近的情況下,產(chǎn)生候選框數(shù)量大大減少。
表3? 召回率接近100%時(shí),候選框數(shù)量統(tǒng)計(jì)
3? 結(jié)? 論
在工業(yè)場(chǎng)景目標(biāo)檢測(cè)算法課題研究中,針對(duì)目標(biāo)檢測(cè)候選區(qū)域提取階段,本文提出了一種改進(jìn)的少紋理目標(biāo)候選框提取算法ROCM,該算法是對(duì)OCM算法的改進(jìn)。在保留OCM算法中量化編碼梯度方向的基礎(chǔ)上,提出了新的壓縮梯度方向方法與衡量相似度方法。實(shí)驗(yàn)數(shù)據(jù)證明,相較于OCM算法,ROCM算法不僅提高了檢測(cè)召回率,并且只產(chǎn)生了數(shù)量較少的候選框,有效地減少了下一階段候選框分類算法需要處理的數(shù)據(jù)量,ROCM算法作為目標(biāo)檢測(cè)算法中第一階段提取候選框的算法,表現(xiàn)出了更好的性能。由于算法只對(duì)目標(biāo)單視角進(jìn)行候選框提取,后續(xù)工作中需要應(yīng)用仿射變換和目標(biāo)法線等信息學(xué)習(xí)三維模板特征,實(shí)現(xiàn)多視角下的目標(biāo)候選框提取。
參考文獻(xiàn):
[1] REDMON J,ANGELOVA A. Real-Time Grasp Detection Using Convolutional Neural Networks [J].Proceedings-IEEE International Conference on Robotics and Automation 2015,2014:1316-1322.
[2] DATTA R,JOSHI D,LI J,et al. Image Retrieval:Ideas,Influences,and Trends of the New Age [J].ACM Trans. on Computing Surveys,2008:40(2):5.
[3] HODAN T,DAMEN D,WALTERIO M,et al. EFFICIENT TEXTURE-LESS OBJECT? DETECTION FOR AUGMENTED REALITY GUIDANCE [J].2015 IEEE International Symposium on Mixed and Augment Reality Workshops,2015:81-86.
[4] LOWE D G. Distinctive Image Features from Scale-Invariant Keypoints [J].International Journal of Computer Vision,2004,60(2):91-110.
[5] TOMBARI F,F(xiàn)RANCHI A,DI L. BOLD Features to Detect Texture-less Objects [C]//2013 IEEE International Conference on Computer Vision (ICCV). IEEE Computer Society,2013:1265-1272.
[6] CHAN J,LEE J A,KEMAO Q. BORDER:An Oriented Rectangles Approach to Texture-Less Object Recognition [C]//Computer Vision & Pattern Recognition. IEEE,2016:2855-2863.
[7] HSIAO E,HEBERT M. Gradient Networks:Explicit Shape Matching Without Extracting Edges [C]//AAAI13:Proceedings of the Twenty-Seventh AAAI Conference on Artificial Intelligence,2013:417-423.
[8] HINTERSTOISSER S,CAGNIART C,ILIC S,et al. Gradient Response Maps for Real-Time Detection of Texture-Less Objects [J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2012,1(5):876-888.
[9] YU H,QIN H,PENG M. A Fast Approach to Texture-Less Object Detection Based on Orientation Compressing Map and Discriminative Regional Weight [J].Algorithms,2018,11(12):201.
作者簡(jiǎn)介:彭茂庭(1995-),男,漢族,湖南邵陽(yáng)人,碩士研究生,研究方向:數(shù)字圖像處理、機(jī)器視覺(jué)。