国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

圖像邊緣檢測(cè)綜述

2023-03-13 10:04揚(yáng),周
關(guān)鍵詞:算子邊緣像素

肖 揚(yáng),周 軍

遼寧工業(yè)大學(xué) 電子與信息工程學(xué)院,遼寧 錦州 121000

自然圖像中檢測(cè)邊緣與對(duì)象邊界一直都是計(jì)算機(jī)視覺(jué)中的一項(xiàng)基本問(wèn)題,邊緣檢測(cè)在一些視覺(jué)領(lǐng)域,如圖像分割、物體檢測(cè)/識(shí)別、跟蹤和運(yùn)動(dòng)分析、醫(yī)學(xué)成像、3D重建等傳統(tǒng)任務(wù),和現(xiàn)代應(yīng)用自動(dòng)駕駛中發(fā)揮著重要作用。多年來(lái),許多研究者致力于提高邊緣檢測(cè)評(píng)估標(biāo)準(zhǔn):?jiǎn)螆D最佳閾值(optimal image scale,OIS)、全局最佳閾值(optimal dataset scale,ODS)、平均準(zhǔn)確率(average precision,AP)。隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,邊緣檢測(cè)分化為兩個(gè)陣營(yíng):傳統(tǒng)檢測(cè)方法和基于深度學(xué)習(xí)的檢測(cè)方法。圖1顯示了兩種方法執(zhí)行邊緣檢測(cè)任務(wù)的一般流程。

圖1 兩種方法的一般流程對(duì)比Fig.1 Comparison of general process of two methods

一些邊緣檢測(cè)[1]方法僅基于顏色、文本或其他低級(jí)特征來(lái)預(yù)測(cè)邊界:(1)早期梯度算子方法,如一階邊緣檢測(cè)算子Sobel算子[2]、Robert算子[3],二階邊緣檢測(cè)算子Laplacian算子[4],還有工業(yè)界中常用的Canny算子[5]。(2)基于人工設(shè)計(jì)特征方法,如統(tǒng)計(jì)邊緣[6]、概率邊界(probability boundary,Pb)[7]、PMI(pointwise mutual information)[8],和結(jié)構(gòu)化邊緣檢測(cè)算法,如SE(struc-tured forests edge detection)算法[9]等。傳統(tǒng)的邊緣檢測(cè)方法提取邊緣已經(jīng)取得了相當(dāng)大的進(jìn)步,但是對(duì)噪聲抑制、邊緣定位和精細(xì)邊緣的處理仍得不到改善。

隨著近年硬件設(shè)備的更新,深度學(xué)習(xí)得到爆發(fā)式的發(fā)展,將卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network,CNN)能提取低級(jí)圖像特征的優(yōu)勢(shì)運(yùn)用在邊緣檢測(cè)中,使得邊緣檢測(cè)的效率和精度得到巨大提升,解決了傳統(tǒng)檢測(cè)方法遺留的一些問(wèn)題?,F(xiàn)如今,全監(jiān)督學(xué)習(xí)是邊緣檢測(cè)任務(wù)的主流方法,但是該方法也存在需要使用大量數(shù)據(jù)集進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練的弊端。值得慶幸的是,近年相繼提出了一些新的數(shù)據(jù)集,如BSDS500[10]、NYUDv2[11]、PASCAL-VOC[12]。

傳統(tǒng)方法需要手工設(shè)計(jì)梯度算子或人工設(shè)計(jì)特征送入分類(lèi)器網(wǎng)絡(luò)進(jìn)行訓(xùn)練,復(fù)雜的數(shù)學(xué)推導(dǎo)和分步驟的訓(xùn)練方式極大限制其發(fā)展。直到Xie等[13]首次提出端到端網(wǎng)絡(luò)架構(gòu)——整體嵌套邊緣檢測(cè)(holistically-nested edge detection,HED),才解決了上述的問(wèn)題。HED模型具有架構(gòu)緊湊、性能好且效率高的優(yōu)點(diǎn)。其缺點(diǎn)也顯而易見(jiàn),模型較為龐大,計(jì)算成本高導(dǎo)致GPU(graphics processing unit)占用資源過(guò)多。2021年,Su等[14]為了解決這些問(wèn)題,將傳統(tǒng)的邊緣檢測(cè)算子采用像素差分卷積(pixel difference convolution,PDC)的方式集成到現(xiàn)代CNN中,提出PidiNe(tpixel difference networks)模型。該網(wǎng)絡(luò)使用大量可分離卷積、通道注意力和膨脹卷積,大大降低網(wǎng)絡(luò)模型的復(fù)雜度,提高預(yù)測(cè)階段的效率。在此期間,也出現(xiàn)了許多優(yōu)秀的模型,如RDS(relaxed deep supervision)[15]、CED(crisp edge detector)[16]和DSCD(deep structural contour detection)[17]等,這些涉及的方法在后文中會(huì)詳細(xì)介紹并分析其局限性。

目前邊緣檢測(cè)中有一些方法與前沿技術(shù)相結(jié)合,傳統(tǒng)與深度學(xué)習(xí)的分類(lèi)方法不足以歸納結(jié)合性質(zhì)方法。由于前人的邊緣檢測(cè)綜述沒(méi)有對(duì)各類(lèi)方法進(jìn)行對(duì)比,僅僅將所使用方法進(jìn)行羅列,讀者理解邊緣檢測(cè)任務(wù)技術(shù)的整體趨勢(shì)有一定困難。且近年來(lái),也出現(xiàn)諸多新興方法,這些方法前人的任務(wù)中也并未提及。本文以此為出發(fā)點(diǎn),將多年來(lái)提出的邊緣檢測(cè)方法進(jìn)行梳理,對(duì)其中主流以及前沿技術(shù)的方法進(jìn)行介紹,分析算法的創(chuàng)新點(diǎn)和局限性。

1 邊緣檢測(cè)的概念

邊緣檢測(cè)是一個(gè)經(jīng)典的計(jì)算機(jī)視覺(jué)問(wèn)題,需要識(shí)別圖像中的邊緣以建立對(duì)象邊界并分離感興趣的目標(biāo)。一張M×N的灰度圖片表示為一個(gè)由二元函數(shù)組成的二維矩陣:

彩色圖像中,每一個(gè)像素點(diǎn)又包含RGB三個(gè)通道,其強(qiáng)度范圍都在0~255之間。把圖像某一行中的所有像素繪制成三條曲線,可以得到由像素強(qiáng)度繪制的波形圖,如圖2所示。

圖2 數(shù)字圖像與波形圖Fig.2 Digital images and waveforms

圖中曲線的波動(dòng)幅度表示為顏色等特征的變化程度,采樣區(qū)域變化劇烈(如pixels坐標(biāo)130處,圖2(a)中白色網(wǎng)格框所示)。這表明變化劇烈的波可能是包含邊緣的區(qū)域,也進(jìn)一步說(shuō)明波和圖像之間聯(lián)系緊密,圖像的本質(zhì)就是各種色彩波的疊加。利用圖像濾波器將低頻過(guò)濾,保留變化劇烈的區(qū)域,即圖像中的邊緣。

邊緣一般是指在像素強(qiáng)度局部劇烈變化的區(qū)域。其強(qiáng)度變化主要有兩類(lèi):(1)階躍變化,表示強(qiáng)度由暗到亮漸變的過(guò)程;(2)屋頂變化,表示由暗到亮,再由亮到暗的過(guò)程。

把邊緣檢測(cè)的目標(biāo)總結(jié)為找到具有階躍變化或屋頂變化像素點(diǎn)的集合。計(jì)算某像素點(diǎn)及其鄰域的微分找到變化劇烈的像素點(diǎn),對(duì)于具有階躍變化的像素點(diǎn),其一階微分最大或二階微分為0則為邊緣點(diǎn);具有屋頂變化的像素點(diǎn),其一階微分為0或二階微分最大則為邊緣點(diǎn)。繼而引出傳統(tǒng)邊緣檢測(cè)基于梯度(一階與二階微分)的方法,如Sobel[2]和Canny[5]等經(jīng)典算法。

2 傳統(tǒng)方法

將基于深度學(xué)習(xí)方法出現(xiàn)之前的所有邊緣檢測(cè)方法歸類(lèi)為傳統(tǒng)方法,這些方法在本質(zhì)上是利用基礎(chǔ)或手工設(shè)計(jì)的特征訓(xùn)練分類(lèi)器檢測(cè)輪廓和邊緣,如紋理、顏色、梯度和一些其他圖像特征。邊緣檢測(cè)中常見(jiàn)的分類(lèi)器有:線性分類(lèi)器[18]以及支持向量機(jī)(support vector machine,SVM)[19]等。

2.1 基于梯度算子檢測(cè)方法

2.1.1 梯度算子提取特征的原理

數(shù)學(xué)中,微分表示當(dāng)自變量的變化足夠小時(shí),其函數(shù)值局部的變化。圖像處理結(jié)合微分的思想,通過(guò)計(jì)算x和y兩個(gè)方向的偏微分,可以得到(x,y)相鄰像素點(diǎn)在水平與垂直方向的梯度。

公式(2)表明像素點(diǎn)的梯度就是相鄰兩像素的差,計(jì)算每個(gè)像素點(diǎn)的梯度,可以得到所有像素組成的梯度矩陣。上文提到圖像邊緣處的像素變化劇烈,所以計(jì)算得到的梯度值比非邊緣的梯度值大。對(duì)梯度矩陣進(jìn)行NMS處理后,保留梯度矩陣中大于預(yù)先設(shè)定閾值的梯度,即為邊緣。該方法需要人工設(shè)定閾值,閾值的好壞直接影響最終的結(jié)果,具有不穩(wěn)定性。

2.1.2 一階梯度算子

Robert算子[3]首次使用2個(gè)2×2的方形算子計(jì)算圖像x和y方向的梯度,將對(duì)角線相鄰兩像素之差近似梯度幅值檢測(cè)邊緣,該方法設(shè)計(jì)的卷積核為后來(lái)新的算子奠定了基礎(chǔ)。

為了彌補(bǔ)上述方法對(duì)水平和斜方向檢測(cè)邊緣不足,Prewitt算子[20]將算子個(gè)數(shù)增加至4個(gè),分別計(jì)算水平、垂直、斜方向的梯度。Sobel算子[2]結(jié)合高斯平滑抑制噪聲,對(duì)圖像灰度函數(shù)求近似梯度。高斯平滑對(duì)圖像處理后降低了提取邊緣的精度,Kirsch算子[21]類(lèi)似Sobel算子,不同的是利用8個(gè)卷積核計(jì)算像素點(diǎn)8個(gè)方向的梯度幅值和方向,并取最大卷積值作為該點(diǎn)梯度。

2.1.3 二階梯度算子

二階梯度識(shí)別非線性強(qiáng)烈變化的灰度值,對(duì)邊緣的定位更精確。當(dāng)輸入圖片發(fā)生旋轉(zhuǎn)時(shí),通常一階算子每次計(jì)算出的結(jié)果都不同,針對(duì)這個(gè)問(wèn)題,Lecun等[4]提出具有旋轉(zhuǎn)不變性的Laplacian算子。

雖然該方法解決了一階算子中如何確定閾值的問(wèn)題,但是不能克服噪聲的干擾,Torre等[22]將Laplacian算子與高斯低通濾波相結(jié)合提出LOG(Laplacian of Gaussian)算子。該算子通過(guò)高斯濾波和Laplace算子處理,對(duì)輸出進(jìn)行插值估計(jì)。依據(jù)簡(jiǎn)化計(jì)算原則,可以使用DOG(difference of Gaussian)算子[23]近似替代LOG算子。

Canny等綜合考慮上述算子的優(yōu)缺點(diǎn),總結(jié)出算子類(lèi)方法的共性:(1)好的檢測(cè)效果;(2)邊緣定位準(zhǔn)確;(3)同一邊緣要有低的響應(yīng)次數(shù)。結(jié)合這三個(gè)要求,繼而提出的Canny算法成為最常用也是當(dāng)時(shí)最優(yōu)秀的算子檢測(cè)方法。根據(jù)上文對(duì)算子類(lèi)方法分析結(jié)果,在表1中從優(yōu)勢(shì)、機(jī)制和局限性對(duì)這些方法進(jìn)行對(duì)比分析。

表1 算子類(lèi)方法優(yōu)缺點(diǎn)對(duì)比Table 1 Comparison of advantages and disadvantages of operator class methods

2.2 基于人工特征提取的邊緣檢測(cè)

2.2.1 基于局部特征

為了提高提取圖像紋理、顏色的能力,繼而提出人工特征提取的檢測(cè)方法。通過(guò)結(jié)合像素之間的關(guān)系提取特征,并使用這些特征訓(xùn)練邊緣分類(lèi)器。

具有開(kāi)創(chuàng)性研究的是Konishi等[6]提出使用統(tǒng)計(jì)和學(xué)習(xí)的方式,從預(yù)先分割的數(shù)據(jù)集(Sowerby和South Florida)中學(xué)習(xí)邊緣濾波器的概率分布,并結(jié)合Chernoff信息[24]和ROC曲線(receiver operating characteristic curve)[25]評(píng)估邊緣。

概率檢測(cè)器Pb[7]將不連續(xù)特征與顏色和紋理梯度結(jié)合降低噪聲對(duì)邊緣檢測(cè)的影響。Pb算法首次利用多特征梯度訓(xùn)練回歸器。圖3表示梯度波形圖,圖部分截取文獻(xiàn)[7]。

圖3 邊界與非邊界的局部圖像特征Fig.3 Boundary and non-boundary local image features

圖中特征從左到右依次為:原始圖像強(qiáng)度、定向能量OE、局部能量、亮度梯度、顏色梯度、原始紋理梯度和局部紋理梯度。

2.2.2 基于多級(jí)特征

Arbeláez等[26]將多尺度Pb算法(multiscale probability boundary,mPb)和sPb(spectral detector Pb)結(jié)合提出gPb(global Pb)算法。該算法結(jié)合亮度、顏色和紋理信號(hào)等局部信息與從圖譜理論[27]獲得的全局特征。實(shí)驗(yàn)結(jié)果表明,圖譜理論獲得全局信息可以減少生成邊緣圖的噪聲和提高邊緣圖線條的流暢性。在此之后,他們又提出了分水嶺變換(oriented watershed transform,OWT)算法[28],利用OWT構(gòu)造超尺度輪廓圖(ultrametric contour map,UCM)[28],最后他們將這些方法整合成著名的gPb-owt-ucm方法[10]。一個(gè)突出的貢獻(xiàn)是,他們將BSDS300數(shù)據(jù)集[29]擴(kuò)展為BSDS500[10]。實(shí)驗(yàn)表明,此方法在數(shù)據(jù)集BSDS500上的ODS為0.71。

Isola等[8]首次將相鄰像素之間的PMI[30]引入邊緣提取中提出無(wú)監(jiān)督學(xué)習(xí)方法,減少特征工程處理。

2.2.3 基于圖像塊方法

在計(jì)算機(jī)視覺(jué)中,中級(jí)特征介于基礎(chǔ)特征與高級(jí)特征(如對(duì)象信息)之間,提取中級(jí)特征的方法有手工設(shè)計(jì)[31-32]、監(jiān)督學(xué)習(xí)[33-34]或無(wú)監(jiān)督學(xué)習(xí)[35]等。為了彌補(bǔ)利用像素級(jí)特征提取邊緣性能的不足,一些基于學(xué)習(xí)的方法提出利用圖像塊來(lái)提取局部邊緣的中級(jí)特征。

2012年,Ren等[36]通過(guò)計(jì)算稀疏編碼梯度(SCG)以此來(lái)提高輪廓檢測(cè)精度。該方法在BSDS5000數(shù)據(jù)集上ODS為0.74。

Dollár等[9]提出結(jié)構(gòu)化森林(SE)方法,通過(guò)將結(jié)構(gòu)化標(biāo)簽映射到離散空間構(gòu)建決策樹(shù)。結(jié)果表明,SE能夠以30 Hz的幀速率運(yùn)行,并且在BSDS500[10]和NYUDv2[11]數(shù)據(jù)集上達(dá)到了最先進(jìn)的結(jié)果。

Zhang等[37]首次提出基于結(jié)構(gòu)化隨機(jī)森林(SRF)的半監(jiān)督學(xué)習(xí)(semi-supervised learning,SSL)學(xué)習(xí)方法。該方法通過(guò)無(wú)監(jiān)督方式捕獲圖像塊的固有特征,其優(yōu)勢(shì)在于僅使用少量圖片標(biāo)注即可獲得較好的性能。

2.2.4 總結(jié)

人工特征的邊緣檢測(cè)發(fā)展趨勢(shì)是由單一特征變化為多特征聯(lián)合的過(guò)程:(1)手工設(shè)計(jì)特征方法對(duì)圖像梯度作概率統(tǒng)計(jì),并訓(xùn)練分類(lèi)器;(2)后來(lái)的方法利用圖譜理論獲得全局特征,融合這些特征進(jìn)行邊緣提??;(3)最后發(fā)展為捕獲圖像塊的中級(jí)特征,使用隨機(jī)森林分類(lèi)器進(jìn)行邊緣檢測(cè)。傳統(tǒng)方法逐漸由像素特征過(guò)渡到中級(jí)特征。

這類(lèi)方法與利用梯度特征算子類(lèi)方法相比已經(jīng)取得非常不錯(cuò)的效果,優(yōu)勢(shì)在于人工設(shè)計(jì)多特征,提高特征利用率與分類(lèi)精確率。但是仍存在一些問(wèn)題:方法復(fù)雜、計(jì)算量大、無(wú)法實(shí)時(shí)檢測(cè)。小型訓(xùn)練模型具有規(guī)模小和效率高等優(yōu)點(diǎn),若將特征分布移植到小型模型無(wú)疑會(huì)破壞固有結(jié)構(gòu),降低其性能;大型模型如多通道注意力機(jī)制與transformer等模型特征利用率高,能有效學(xué)習(xí)特征分布并增強(qiáng)特征,可移植性高。在表2中,對(duì)該類(lèi)方法的優(yōu)勢(shì)、機(jī)制和局限性進(jìn)行對(duì)比分析,并列出方法在BSDS500上的分?jǐn)?shù)。

表2 人工特征提取的邊緣檢測(cè)方法對(duì)比Table 2 Comparison of edge detection methods with manual feature extraction

3 深度學(xué)習(xí)方法

歸因于卷積神經(jīng)網(wǎng)絡(luò)對(duì)提取圖像特征的優(yōu)秀能力,深度學(xué)習(xí)方法在圖像處理領(lǐng)域取得了非凡的成就。深度學(xué)習(xí)的方法是邊緣檢測(cè)任務(wù)發(fā)展的分水嶺,解決了傳統(tǒng)方法的諸多問(wèn)題,如連續(xù)性、抗噪聲能力,其方法不需要人工設(shè)計(jì)特征,所有特征均是神經(jīng)網(wǎng)絡(luò)自動(dòng)提取,方法簡(jiǎn)單有效,進(jìn)一步提高邊緣檢測(cè)的效率。為了讓文章的結(jié)構(gòu)層次更簡(jiǎn)潔清晰,將基于深度學(xué)習(xí)的方法分為非端到端與端到端方法,在本章最后會(huì)對(duì)兩類(lèi)方法進(jìn)行分析對(duì)比。

3.1 非端到端方法

3.1.1 圖像塊算法

SE[9]是一種學(xué)習(xí)局部圖像塊中邊緣的算法,Ganin和Lempitsky受到SE的啟發(fā),提出N4-Fields算法[38]。該算法將圖像塊特征與最近鄰搜索(nearest neighbor search,NNS)結(jié)合,利用NNS對(duì)特征向量分類(lèi),獲得相似輪廓。

Shen等[39]提出了DeepContour算法,類(lèi)似于Sketch-Tokens[40],將二元分類(lèi)問(wèn)題(輪廓與非輪廓)轉(zhuǎn)換為多類(lèi)問(wèn)題(圖像塊屬于某形狀類(lèi)或背景類(lèi))。優(yōu)點(diǎn)是能可視化CNN學(xué)習(xí)的邊緣形狀,如圖4所示。缺點(diǎn)是類(lèi)別數(shù)量未知時(shí),該如何設(shè)定類(lèi)別數(shù)量。若類(lèi)別過(guò)少,CNN提取形狀類(lèi)減少,導(dǎo)致識(shí)別邊緣能力下降;若類(lèi)別過(guò)多,CNN提取邊緣能力雖然提升,卻容易將非邊緣判為邊緣,造成誤判。實(shí)驗(yàn)表明,將類(lèi)別數(shù)量設(shè)定為50能取得最好結(jié)果,在BSDS500上的ODS為0.757,高于同比競(jìng)爭(zhēng)方法。

圖4 部分形狀類(lèi)的可視化Fig.4 Visualization of shape classes

另一個(gè)貢獻(xiàn)是提出了正共享?yè)p失的概念,即正類(lèi)(形狀類(lèi))之間的誤差可以忽略,只計(jì)算正類(lèi)與負(fù)類(lèi)(背景類(lèi))的誤差;定義的損失函數(shù)為:

其中:

最終損失函數(shù)表示為:

后一項(xiàng)僅計(jì)算誤判正負(fù)類(lèi)損失,當(dāng)λ很小時(shí),上式趨近于SoftMax函數(shù);當(dāng)λ很大時(shí),區(qū)分形狀效果變?nèi)?,傾向于解決二元分類(lèi)問(wèn)題。

3.1.2 對(duì)象特征算法

Bertasius等發(fā)現(xiàn)以前的大多數(shù)工作都利用紋理或低級(jí)特征來(lái)檢測(cè)輪廓,然后將其用作對(duì)象檢測(cè)等高級(jí)任務(wù);為了驗(yàn)證高級(jí)特征檢測(cè)邊緣的可能性,他們利用對(duì)象相關(guān)特征訓(xùn)練兩種對(duì)象分類(lèi)神經(jīng)網(wǎng)絡(luò)模型:KNet[41]、VGG16(visual geometry group 16)[42],相繼提出Deep-Edge[43]、HFL[44]算法。在兩種算法中都引入多尺度增加模型提取邊緣的能力,并結(jié)合圖像的局部和全局信息。結(jié)果表明,DeepEdge與HFL在BSDS500上的ODS分別為0.753、0.767。與KNet相比,預(yù)訓(xùn)練的VGG16提取對(duì)象特征與整合特征能力更優(yōu)秀,原因在于VGG16以順序的方式結(jié)合卷積塊與池化層提取特征圖不同尺寸特征,有效降低圖像在提取特征過(guò)程中損失。

3.1.3 方法對(duì)比

與手工設(shè)計(jì)特征相比,N4-Fields利用CNN提取特征的精度更高,但利用最近鄰搜索分類(lèi)邊緣大大降低了分類(lèi)準(zhǔn)確率;DeepContour將CNN模型提取的特征進(jìn)行分類(lèi),與N4-Fields方法不同的是利用CNN處理每個(gè)圖像塊對(duì)其進(jìn)行分類(lèi)處理,分類(lèi)準(zhǔn)確率明顯高于最近鄰搜索。如何確定類(lèi)別數(shù)量是該方法的關(guān)鍵因素。

DeepEdge與HFL方法的優(yōu)勢(shì)是利用對(duì)象與紋理特征結(jié)合預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明利用對(duì)象特征進(jìn)行邊界檢測(cè)產(chǎn)生的感知信息邊界優(yōu)于同時(shí)期邊界檢測(cè)方法。該方法局限在于需要預(yù)先使用傳統(tǒng)檢測(cè)器獲得對(duì)象信息。

非端到端方法由局部特征逐步發(fā)展為對(duì)象與紋理特征融合檢測(cè)。優(yōu)勢(shì)是可以對(duì)提取到的特征可視化。分步執(zhí)行使得模型整體分工明確且簡(jiǎn)單易懂;分步執(zhí)行特征提取與分類(lèi)的局限,給訓(xùn)練模型帶來(lái)極大的不便,解決的方法是增加兩者的耦合,縮短人工處理步驟,提高訓(xùn)練效率,可能是未來(lái)研究方向之一。

3.2 端到端方法

3.2.1 多尺度算法

最初CNN模型只能接受相同大小輸入,特征圖感受野固定。而多尺度算法能使模型獲得不同大小的感受野,捕獲不同尺度特征。最高層提取圖像基礎(chǔ)特征,隨著特征圖分辨率降低,特征圖往往提取對(duì)象特征。各級(jí)特征的融合使得模型獲得更豐富特征,能有效提高模型識(shí)別任務(wù)的精度。獲得多尺度特征的方法有:(1)改變下采樣步長(zhǎng);(2)池化層;(3)膨脹卷積等。

2015年,具有開(kāi)創(chuàng)性方法的是Xie和Tu[13]首次提出端到端的神經(jīng)網(wǎng)絡(luò)模型HED。該模型結(jié)合多尺度學(xué)習(xí)豐富的層次特征,以圖像到圖像的方式訓(xùn)練和預(yù)測(cè)。根據(jù)其特點(diǎn),后5年內(nèi)出現(xiàn)了許多基于端到端和多尺度融合思想的網(wǎng)絡(luò)模型,在這里對(duì)HED網(wǎng)絡(luò)和損失函數(shù)進(jìn)行介紹。HED架構(gòu),如圖5所示。

圖5 HED網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.5 HED network structure diagram

HED使用VGG16作為主干提取圖像特征,在每個(gè)卷積塊經(jīng)過(guò)池化(pooling layer)之前將結(jié)果執(zhí)行上采樣(upsampling)操作,將特征圖的大小恢復(fù)成原始圖像大小。其次介紹該算法的損失函數(shù)。整體的損失函數(shù)由兩部分構(gòu)成,第一部分為五個(gè)側(cè)面損失;第二部分為融合損失。

作者發(fā)現(xiàn)在一幅圖片中,90%的真實(shí)標(biāo)注是非邊緣,需要對(duì)交叉熵?fù)p失函數(shù)做特殊處理。引入類(lèi)別平衡權(quán)重β自動(dòng)平衡正/負(fù)類(lèi)別損失。此方法確保數(shù)據(jù)平衡,減少對(duì)神經(jīng)網(wǎng)絡(luò)收斂的影響。側(cè)輸出層損失表示為:

其中,和w(m)分別表示第m個(gè)側(cè)輸出層的樣本平衡交叉熵?fù)p失和權(quán)重。

為了直接利用融合輸出預(yù)測(cè),需定義融合損失,公式(6)表示計(jì)算人工標(biāo)注Y與模型預(yù)測(cè)的損失。

最終損失函數(shù)表示為:

HED作為首個(gè)整體網(wǎng)絡(luò),多尺度和特征融合方法為其性能帶來(lái)巨大提升,端到端模式也極大簡(jiǎn)化模型的訓(xùn)練和預(yù)測(cè)。局限性在于模型由上至下逐步提取特征,單向過(guò)程中,會(huì)造成特征損失,且上采樣并未融合下采樣特征,特征損失進(jìn)一步擴(kuò)大。由上至下、由下至上混合架構(gòu)作為當(dāng)前分割領(lǐng)域主流研究模型,在HED骨干模型上增加金字塔特征融合或由下至上傳播路徑,具有移植到語(yǔ)義分割領(lǐng)域的可行性。

Maninis等[45]利用圖像多尺度信息,結(jié)合像素分類(lèi)與輪廓方向,提出COB(convolutional oriented boundaries)算法。該算法網(wǎng)絡(luò)模型主干使用最先進(jìn)的50層ResNet(residual network)模型[46],模型利用細(xì)尺度響應(yīng)基礎(chǔ)特征,粗尺度提取對(duì)象輪廓并減少噪聲。他們將真實(shí)標(biāo)注的輪廓全部擬合為神經(jīng)網(wǎng)絡(luò)產(chǎn)生的K個(gè)方向邊緣,與DeepContour一樣,K值的好壞直接影響模型的性能。在BSDS500上的ODS為0.793。COB模型同時(shí)具有ResNet網(wǎng)絡(luò)提取基礎(chǔ)特征與識(shí)別邊緣方向特征的優(yōu)秀能力。但是模型提取細(xì)尺度和粗尺度兩種特征圖需要額外進(jìn)行多次計(jì)算,大大增加了訓(xùn)練和預(yù)測(cè)時(shí)間。且方向邊緣特征也需要額外的存儲(chǔ)空間,雖然使用稀疏邊界降低空間復(fù)雜度,但是數(shù)據(jù)在CPU與GPU之間的來(lái)回切換也會(huì)增加系統(tǒng)讀寫(xiě)負(fù)擔(dān)。K值設(shè)定與提取方向特征上的局限性導(dǎo)致COB無(wú)法輕易移植到別的領(lǐng)域中。

條件隨機(jī)場(chǎng)(conditional random field,CRF)[47]是一種傳統(tǒng)的分組模型,使用輪廓分段和條件隨機(jī)場(chǎng)獲得不同的連續(xù)性和頻率。Xu等將注意力機(jī)制[48]與CRF結(jié)合成注意門(mén)控條件隨機(jī)場(chǎng)(attention-gated CRFs,AG-CRF)[49],重新融合從CNN網(wǎng)絡(luò)中提取多尺度特征圖。實(shí)驗(yàn)表明AMH-Net(attention-guided multi-scale hierarchical DeepNet)算法中引入注意力機(jī)制是有效的,在BSDS500上的ODS為0.798。

邊緣檢測(cè)中用于監(jiān)督學(xué)習(xí)的數(shù)據(jù)集通常需要2人以上標(biāo)注,最終標(biāo)注存在差異,對(duì)訓(xùn)練造成影響。Liu等[50]首先對(duì)標(biāo)注進(jìn)行處理:若沒(méi)有任何標(biāo)注該像素為邊緣,將此像素點(diǎn)設(shè)置為0;全部標(biāo)注該像素為邊緣,則設(shè)置為1;否則對(duì)該像素點(diǎn)標(biāo)注取平均值yi。像素邊緣概率高于η為正樣本,概率為0視為負(fù)樣本,其余像素不計(jì)算損失。定義像素?fù)p失為:

公式(8)中,P(Xi;W)為模型對(duì)像素Xi的預(yù)測(cè)值,W表示模型參數(shù);α、β表示類(lèi)別平衡權(quán)重。

他們利用對(duì)象多尺度和多級(jí)信息,構(gòu)成RCF(richer convolutional features)模型。在測(cè)試過(guò)程中引入圖像金字塔增強(qiáng),利用雙線性插值還原特征圖。實(shí)驗(yàn)結(jié)果表明,結(jié)合多尺度增強(qiáng),RCF在BSDS500數(shù)據(jù)集上獲得ODS為0.81。與HED算法[13]相比,RCF利用卷積層更豐富的特征訓(xùn)練;僅考慮多數(shù)標(biāo)注標(biāo)記為正樣本的邊緣像素,簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)的訓(xùn)練難度,但也可能造成丟失關(guān)鍵邊緣的問(wèn)題。

語(yǔ)義分割和邊緣檢測(cè)兩者關(guān)系密切,為了滿(mǎn)足在邊緣檢測(cè)中獲得語(yǔ)義類(lèi)別信息的需求,Ma等首次提出一種邊緣檢測(cè)融合語(yǔ)義分割的模型,MSCN(multi-scale spatial context-based network)[51]。該端到端模型利用低級(jí)、中級(jí)和高級(jí)特征提取邊緣、對(duì)象和分割信息。MSCN的提出,也進(jìn)一步說(shuō)明語(yǔ)義分割與邊沿檢測(cè)任務(wù)的可遷移性,兩者中的方法互相遷移度高。

2021年,Xuan等[52]將RNN模型中LSTM模塊移植到基于RCF的邊緣檢測(cè)中,提出FCL-Net(fine-scale corrective learning)。該模型利用BSDN中的SEM特征提取模塊,并結(jié)合LSTM對(duì)多個(gè)特征進(jìn)行融合,提高小目標(biāo)識(shí)別率,是一種增強(qiáng)多尺度模型。實(shí)驗(yàn)結(jié)果表明,在BSDS500上的ODS為0.826。

為了彌補(bǔ)多尺度算法提取特征的不足,一些方法[53-61]也對(duì)側(cè)面特征提取塊進(jìn)行創(chuàng)新。雖然多尺度算法提取特征能力較差,但是單向網(wǎng)絡(luò)使得模型的流程更清晰,模型訓(xùn)練更快,在未來(lái)仍是熱門(mén)研究方向之一。圖6表示兩種多尺度特征模型。

圖6 多尺度分類(lèi)器Fig.6 Multi-scale classifier

3.2.2 算子-卷積融合算法

Liu等[15]利用松弛深度監(jiān)督(RDS)訓(xùn)練神經(jīng)網(wǎng)絡(luò)。這些松弛標(biāo)簽被看作是難以辨別的假正邊界(即,標(biāo)注中為非邊緣,但算子檢測(cè)器判別為邊緣)。

其中,C(k)表示Canny算法對(duì)側(cè)輸出層的第k層執(zhí)行檢測(cè)操作得到的輸出;G表示人工標(biāo)注的真值;D(k)表示側(cè)輸出層的第k層的假正邊界。

公式(9)表示Canny算子[5]誤判為正類(lèi)的像素集合。和經(jīng)典算法HED[13]一樣,RDS也需要計(jì)算側(cè)邊以及融合損失。實(shí)驗(yàn)結(jié)果表明,該算法取得了當(dāng)時(shí)最優(yōu)的性能。松弛標(biāo)簽的好壞完全取決于傳統(tǒng)算子對(duì)邊緣的提取能力,仍需要人工設(shè)定閾值,是該算法中的不穩(wěn)定因素。

2021年,Su等[14]采用新穎的像素差分卷積(PDC),將傳統(tǒng)邊緣檢測(cè)算子與現(xiàn)代CNN模型集成,并提出PidiNe(tpixel difference networks)算法。

PidiNet模型使用可分離深度卷積結(jié)構(gòu)進(jìn)行快速預(yù)測(cè)和訓(xùn)練。PidiNet結(jié)合PDC和簡(jiǎn)化的網(wǎng)絡(luò)架構(gòu)讓模型變得非常緊湊,僅有710 000參數(shù),支持實(shí)時(shí)預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明,該算法在BSDS500數(shù)據(jù)集上最優(yōu)可取得215 FPS,并且達(dá)到HED相同ODS水平0.788。PidiNet中使用的分離式深度卷積結(jié)構(gòu)可以降低模型參數(shù)規(guī)模,其思想可以移植到大型耦合度高的模型中。

3.2.3 雙向連接算法

在此之前的所有深度學(xué)習(xí)方法雖然取得可觀的ODS分?jǐn)?shù),但是輸出的邊緣都很模糊。首次獲得突破的是2017年Wang等[16]提出的CED算法。他們總結(jié)前人的工作后發(fā)現(xiàn)可能是以下兩點(diǎn)原因:(1)線性分類(lèi)器在相鄰像素產(chǎn)生類(lèi)似響應(yīng);(2)上采樣技術(shù)不能勝任生成精細(xì)邊緣的任務(wù)。

CED使用自上而下的反向細(xì)化方法,采用亞像素卷積(sub-pixel convolutional,SPC)[62]生成清晰的邊緣。該算法結(jié)合精細(xì)語(yǔ)義分割模型[63]和SPC,由前項(xiàng)傳播產(chǎn)生高維低分辨率特征圖;反向細(xì)化路徑將逆向特征圖與下采樣輸出融合,實(shí)驗(yàn)結(jié)果表明,CED在BSDS500數(shù)據(jù)集上取得ODS為0.80,達(dá)到人類(lèi)相同水平。該方法在一定程度上彌補(bǔ)了使用上采樣帶來(lái)的不利影響,大大減少下采樣不可逆的特征損失;反向路徑中大量的邊緣提取與特征融合無(wú)疑讓模型更難訓(xùn)練。

He等[64]提出雙向級(jí)聯(lián)網(wǎng)絡(luò)(BDCN)結(jié)構(gòu),通過(guò)計(jì)算雙向特征圖損失實(shí)現(xiàn)雙向連接,根本上仍是單向模型。引入尺度增強(qiáng)模塊(scale enhancement module,SEM),利用擴(kuò)張卷積來(lái)生成多尺度特征。實(shí)驗(yàn)結(jié)果表明,結(jié)合圖像多尺度融合,該算法在BSDS500數(shù)據(jù)集上取得最優(yōu)ODS為0.828。BDCN的分層計(jì)算損失的設(shè)計(jì)讓網(wǎng)絡(luò)能學(xué)習(xí)到對(duì)應(yīng)尺度的特征,且SEM避免圖像金字塔的重復(fù)邊緣檢測(cè)。多損失的設(shè)計(jì)讓其訓(xùn)練時(shí),數(shù)據(jù)使用后不會(huì)立馬釋放空間,需要進(jìn)行多次讀寫(xiě)操作,大大降低GPU的利用率。

Deng等[65]考慮到基于深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)的邊緣檢測(cè)方法預(yù)測(cè)的邊緣圖邊緣厚且需要執(zhí)行后處理才能獲得清晰邊界,他們采用自下而上/自上而下的架構(gòu)來(lái)處理任務(wù),LPCB(learning to predict crisp boundaries)算法實(shí)驗(yàn)結(jié)果表明,在BSDS500數(shù)據(jù)集上獲得ODS為0.815。

HED算法已經(jīng)表明,使用預(yù)訓(xùn)練分類(lèi)網(wǎng)絡(luò)的特征來(lái)捕獲所需的圖像邊界并抑制不存在的邊緣是有益的。Kelm等[66]結(jié)合ResNet[46]和語(yǔ)義分割方法(RefineNet[67])提出RCN(refine contour net)算法。RCN引入三種不同的卷積塊:(1)多分辨率融合(multi-resolution fusion,MRF)。(2)殘差卷積單元(residual convolution unit,RCU)。(3)鏈?zhǔn)綒埐畛兀╟hained residual pooling,CRP)。實(shí)驗(yàn)結(jié)果表明,在BSDS500數(shù)據(jù)集上獲得ODS為0.823。圖7表示三種卷積增強(qiáng)塊。其功能分別為:調(diào)整和修改MRF的輸入、融合上采樣與特征圖、獲得更豐富的上下文信息。

圖7 細(xì)化過(guò)程操作塊Fig.7 Block diagrams of refinement path operations

Soria等[68]認(rèn)為邊緣檢測(cè)中應(yīng)該考慮邊緣的完整性,但是以前的工作忽略了圖像的薄弱邊緣。他們基于HED[13]和Xception模型[69],提出DexiNe(tdense extreme inception network)算法。在他們提出的數(shù)據(jù)集(BIPED)中,仔細(xì)標(biāo)注了可能存在的邊緣。使用該數(shù)據(jù)集訓(xùn)練可以生成人眼看到的不明顯薄弱邊緣。模型引入上采樣(upsampling)塊使得各輸出層能產(chǎn)生精細(xì)邊緣。

多尺度算法與相比雙向連接算法中,前者采用由上至下融合多尺度方法,該方法的卷積塊都存在側(cè)面特征提取塊;沒(méi)有額外增加反向融合特征,因此多尺度算法的訓(xùn)練和預(yù)測(cè)效率要明顯高于雙向級(jí)聯(lián)算法。DexiNet的密集設(shè)計(jì)結(jié)構(gòu)使得模型提取精細(xì)邊緣的能力比其他雙向連接算法更強(qiáng),雖然在BSDS500上ODS僅為0.729,但是在BIPED中ODS為0.859,遠(yuǎn)高于人類(lèi)水平0.8。雙向連接算法由于增加由下至上反向融合特征模塊,模型能提取更豐富特征。但同時(shí)模型參數(shù)量幾乎增加一倍,不易訓(xùn)練模型。BDPN(bi-directional pyramid network)[70]引入一種反向金字塔特征融合結(jié)構(gòu),一定程度上減少了模型所需參數(shù)量。也包括一些方法[71-72]引入更復(fù)雜的特征融合模塊,舍棄效率而追求更高的ODS分?jǐn)?shù)。雖然雙向模型預(yù)測(cè)效率較低,但是精度更高,未來(lái)輕量級(jí)雙向模型也可能是熱點(diǎn)研究方向之一。

3.2.4 編碼器-解碼器算法

Deng等[17]提出新型卷積編碼器-解碼器網(wǎng)絡(luò)(DSCD)。該網(wǎng)絡(luò)逐步與低級(jí)特征融合;其次提出新型損失函數(shù),解決生成邊緣定位和清晰度問(wèn)題。

利用公式(10)可以計(jì)算兩個(gè)映射的相似度,其中μx、μy和σx、σy分別是預(yù)測(cè)邊緣圖x和真實(shí)標(biāo)注邊緣圖y的平均值和標(biāo)準(zhǔn)方差。DSCD采用密集連接網(wǎng)絡(luò)(DenseNet[73])來(lái)增強(qiáng)分層特征之間的連接;實(shí)驗(yàn)結(jié)果表明,結(jié)合多數(shù)集訓(xùn)練后,在BSDS500數(shù)據(jù)集上獲得ODS為0.822,明顯高于人類(lèi)水平0.8。

編碼器-解碼器方法最早被應(yīng)用于語(yǔ)義分割領(lǐng)域,U-Net[74]是其經(jīng)典算法之一。DSCD優(yōu)勢(shì)在于提出新衡量相似度損失函數(shù),模型僅需計(jì)算最終輸出與真值的損失,一定程度上減少工程訓(xùn)練時(shí)間。

因?yàn)榫?解碼器模型存在跳躍連接層,不會(huì)因?yàn)樯喜蓸佣鴮?dǎo)致特征損失,但是進(jìn)行下采樣時(shí),特征可能會(huì)因?yàn)槎嗑矸e而丟失。REDN(recursive encoder-decoder network)[75]通過(guò)對(duì)下采樣增加密集連接層從而降低下采樣特征損失,但模型存在難以收斂的問(wèn)題。編-解碼器的固定設(shè)計(jì)結(jié)構(gòu)也極大限制其移植可能性。

3.2.5 新興方法

近年的邊緣檢測(cè)任務(wù)大多為多尺度模型,以單向特征傳遞為主,通過(guò)加強(qiáng)特征融合達(dá)到增強(qiáng)模型提取能力。除了多尺度與雙向連接模型以外,近年也出現(xiàn)一些新興方法,但所取得的評(píng)分標(biāo)準(zhǔn)與端到端模型相比仍有較大差距,還需進(jìn)一步研究。

(1)低復(fù)雜度模型。將模型移植到移動(dòng)或微型設(shè)備須同時(shí)考慮處理效率以及處理性能。LDC(lightweight dense CNN)[76]通過(guò)對(duì)低通道卷積之間引入密集連接增強(qiáng)特征利用。缺點(diǎn)是提取對(duì)象高級(jí)特征能力明顯弱于多尺度模型。LRDNN(low-complexity residual deep neural network)[77]使用Fire模塊代替常規(guī)卷積,實(shí)驗(yàn)結(jié)果表明,該模塊充分提取特征,能提高對(duì)特征的利用率。雖然無(wú)法大規(guī)模降低參數(shù)量,但其性能與原模型基本保持不變。模型大小、效率以及系統(tǒng)資源調(diào)用仍需進(jìn)一步優(yōu)化。

(2)仿生模型。脈沖神經(jīng)網(wǎng)絡(luò)(pulse-coupled neural network,PCNN)[78]是一種基于貓視覺(jué)原理構(gòu)建的簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)模型,其特點(diǎn)是接收像素強(qiáng)度作為刺激并產(chǎn)生時(shí)間序列輸出,符合人類(lèi)視覺(jué)神經(jīng)系統(tǒng)機(jī)制,該項(xiàng)技術(shù)研究較少,PCNN在圖像處理領(lǐng)域仍處于發(fā)展階段。BFCN(bio-inspired feature cascade network)[79]為了解決模型特征提取能力弱、邊緣信息提取不足的問(wèn)題,將視網(wǎng)膜的信息傳遞機(jī)制與邊緣檢測(cè)相結(jié)合,是一種利用仿生模型對(duì)特征提取增強(qiáng)的方法。實(shí)驗(yàn)結(jié)果表明,該方法能有效提高多尺度模型中單向特征提取能力,在BSDS500中ODS為0.822。

(3)對(duì)抗模型。ContourGAN[80]基于GAN(generative adversarial network)[81]的方法,利用編碼器-解碼器模型,用生成器提取圖像輪廓,鑒別器區(qū)分真實(shí)標(biāo)注和提取的圖像輪廓。Art2Contour[82]也基于GAN方法,引入多重回歸損失的組合,學(xué)習(xí)顯著性高輪廓。GAN模型目前在圖像生成、圖像修復(fù)等領(lǐng)域占據(jù)主流地位。邊緣檢測(cè)任務(wù)中僅有少量使用GAN模型的方法,但其性能與多尺度以及雙向模型有較大差距,仍需進(jìn)一步研究。

(4)Transformer。該模型于2017年提出,其本質(zhì)是編-解碼模型,在內(nèi)部引入大量的自注意力機(jī)制,獲得局部與全局特征,在自然語(yǔ)言處理中取代循環(huán)神經(jīng)網(wǎng)絡(luò),成為主流模型。2022年,Pu等[83]首次將Transformer引入到邊緣檢測(cè)中提出ENTER模型,在BSDS500取得最高ODS為0.848,遠(yuǎn)高于各類(lèi)檢測(cè)方法。他們?cè)诘谝浑A段利用編-解碼器提取全局特征;在第二階段利用局部細(xì)化獲得精細(xì)邊緣。歸因于Transformer的自注意力機(jī)制,在視覺(jué)領(lǐng)域已經(jīng)取得了廣泛的應(yīng)用,并能在各個(gè)領(lǐng)域取得更高性能提升。在未來(lái)的研究中,基于Transformer自注意力機(jī)制的邊緣檢測(cè)模型是熱門(mén)研究方向之一。

3.2.6 方法對(duì)比

將深度學(xué)習(xí)方法在邊緣檢測(cè)中取得優(yōu)秀性能的原因歸結(jié)為五點(diǎn):(1)多尺度;(2)多層特征融合;(3)上采樣;(4)精心設(shè)計(jì)的損失函數(shù);(5)使用大量數(shù)據(jù)集訓(xùn)練。

DCNN在圖像特征提取中極具優(yōu)勢(shì),與傳統(tǒng)邊緣檢測(cè)方法相比,基于深度學(xué)習(xí)方法不僅可以提取基礎(chǔ)特征,還包括對(duì)象特征,在圖像中表現(xiàn)為紋理、顏色以及對(duì)象輪廓等。非端到端模型是邊緣檢測(cè)任務(wù)引入深度學(xué)習(xí)的開(kāi)端,提高特征檢測(cè)的同時(shí),也存在特征利用率不足與步驟繁瑣的問(wèn)題。端到端模型以圖像到圖像的模式訓(xùn)練,圖像特征均是由模型自訓(xùn)練提取,避免人為因素對(duì)模型訓(xùn)練產(chǎn)生影響。

深度學(xué)習(xí)作為目前邊緣檢測(cè)的主流方法,取得優(yōu)秀性能的同時(shí),也伴隨一些新的問(wèn)題:(1)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)越發(fā)復(fù)雜;(2)訓(xùn)練成本更高,時(shí)間更長(zhǎng);(3)更依賴(lài)數(shù)據(jù)集的數(shù)量和質(zhì)量;(4)神經(jīng)網(wǎng)絡(luò)的不可解釋性。圖8表示模型使用方法對(duì)比。

圖8 模型所使用方法的聯(lián)系與區(qū)別Fig.8 Connection and difference of methods used in model

在表3中,對(duì)深度學(xué)習(xí)方法的優(yōu)勢(shì)、機(jī)制和局限性進(jìn)行分析,并列出在BSDS500上的ODS。

表3 深度學(xué)習(xí)的邊緣檢測(cè)方法對(duì)比Table 3 Comparison of edge detection methods for deep learning

在表4中,為了更直觀評(píng)估其算法性能,列出一些方法在NYUDv2數(shù)據(jù)集[11]上的ODS以及模型的參數(shù)數(shù)量,最后一列表示在BSDS500數(shù)據(jù)集上的FPS。從表中可以看出,ENTER模型取得對(duì)比方法最優(yōu)ODS,滿(mǎn)足工業(yè)領(lǐng)域中對(duì)邊緣精度較高的需求;LRDNN模型取得最優(yōu)FPS,滿(mǎn)足在移動(dòng)端或邊緣計(jì)算中對(duì)小體量模型的需求。

表4 深度學(xué)習(xí)方法性能定量對(duì)比Table 4 Quantitative comparison of performance of deep learning methods

4 數(shù)據(jù)集和評(píng)估標(biāo)準(zhǔn)

4.1 數(shù)據(jù)集

數(shù)據(jù)集一般分為圖像和真實(shí)標(biāo)注兩部分,通常有2個(gè)及以上標(biāo)注者對(duì)圖像進(jìn)行標(biāo)注。真實(shí)標(biāo)注為二值圖像,即圖像中的每一個(gè)像素都只有兩種可能,通常由黑(0)白(255)來(lái)表示。邊緣檢測(cè)的結(jié)果通常是經(jīng)過(guò)sigmoid函數(shù)處理后輸出每個(gè)像素點(diǎn)為邊緣的概率。

數(shù)據(jù)集分為人工標(biāo)注和機(jī)器生成兩種,人工標(biāo)注的優(yōu)點(diǎn)是精度高,缺點(diǎn)是耗費(fèi)人力、時(shí)間等資源,大多數(shù)據(jù)集都是采用這種方式,如BSDS500[10]與PASCAL[84]等。機(jī)器生成的數(shù)據(jù)集一般是指在網(wǎng)絡(luò)訓(xùn)練過(guò)程中輸出的結(jié)果,對(duì)結(jié)果處理后,重新輸入網(wǎng)絡(luò)訓(xùn)練。此方式具有不穩(wěn)定因素,優(yōu)點(diǎn)提高數(shù)據(jù)集利用率。在RDS[15]中就采用Canny算子對(duì)模型輸出進(jìn)行采樣,再將采樣結(jié)果輸入網(wǎng)絡(luò)中增強(qiáng)訓(xùn)練。

有監(jiān)督學(xué)習(xí)任務(wù)中,數(shù)據(jù)集在其中扮演著重要角色。通常,監(jiān)督學(xué)習(xí)需要使用數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)使其趨向于收斂。邊緣檢測(cè)任務(wù)數(shù)據(jù)集具有兩個(gè)重要作用:(1)訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型;(2)評(píng)估網(wǎng)絡(luò)模型生成邊緣圖。邊緣檢測(cè)數(shù)據(jù)集大多為中小型數(shù)據(jù)集,是因?yàn)閺?fù)雜的標(biāo)注流程耗費(fèi)大量人力和物力,限制數(shù)據(jù)集發(fā)展。在BSDS500中,訓(xùn)練使用圖片僅有200張,為了降低數(shù)據(jù)集數(shù)量給模型訓(xùn)練帶來(lái)的不利影響,在訓(xùn)練過(guò)程中可以使用數(shù)據(jù)增強(qiáng)(旋轉(zhuǎn)、鏡像和剪切等)擴(kuò)大數(shù)據(jù)集規(guī)模,還能有效避免模型過(guò)擬合。表5列舉出邊緣檢測(cè)常用數(shù)據(jù)集。

表5 邊緣檢測(cè)數(shù)據(jù)集Table 5 Edge detection dataset

BSDS300[29]與BSDS500[10]:Martin等使用300張規(guī)格為481×321的圖像進(jìn)行邊緣標(biāo)注。每張圖片都至少有4人標(biāo)注,超過(guò)第5人標(biāo)注時(shí),就會(huì)出現(xiàn)圖片標(biāo)注不全的問(wèn)題。300張圖片中,使用200張圖片用作訓(xùn)練,100張用作測(cè)試。Arbeláez等在BSDS300數(shù)據(jù)集的基礎(chǔ)上,將測(cè)試數(shù)據(jù)擴(kuò)大至200張,新增100張圖片用作驗(yàn)證數(shù)據(jù)集。

NYUDv2[11]:該數(shù)據(jù)集由1 449張室內(nèi)場(chǎng)景圖片組成,原始數(shù)據(jù)包括894個(gè)類(lèi)別,用于訓(xùn)練語(yǔ)義分割任務(wù)時(shí),可將其轉(zhuǎn)化為40個(gè)類(lèi)別。其中795張圖片用于訓(xùn)練,654張圖片進(jìn)行測(cè)試。

PASCAL-VOC[12]:數(shù)據(jù)集包含20個(gè)對(duì)象類(lèi)別,每張圖像都有分割注釋、邊界注釋以及對(duì)象注釋。共2 913張圖片,1 464張用于訓(xùn)練,1 449張用于驗(yàn)證。

PASCAL-Context[84]:包含10 103張圖像,共459個(gè)標(biāo)注類(lèi)別,常用類(lèi)別僅為59類(lèi)。其中4 998用于訓(xùn)練集,5 105用于測(cè)試集。使用該數(shù)據(jù)集訓(xùn)練時(shí),可以利用數(shù)據(jù)增強(qiáng)擴(kuò)大數(shù)據(jù)規(guī)模。

Multicue[85]:和其他數(shù)據(jù)集不同的是,該數(shù)據(jù)集是由相機(jī)構(gòu)建的短雙目視頻序列組成的視頻數(shù)據(jù)集。雙目視頻序列是指,兩個(gè)不同位置攝像機(jī)同時(shí)拍攝同一場(chǎng)景獲得的圖像序列,在序列中包括灰度、紋理、顏色等信息。數(shù)據(jù)集中每幀分辨率為1 280×720像素。

BIPED[68]:包含250張1 280×720像素的圖片,200張用于訓(xùn)練,50張用于測(cè)試。在該論文中,作者表明,此數(shù)據(jù)集的標(biāo)注結(jié)果經(jīng)過(guò)多次交叉檢查,篩選并糾正其中錯(cuò)誤的標(biāo)注邊緣。

PIOD[86]:Wang等將PASCAL VOC數(shù)據(jù)集構(gòu)建為大規(guī)模實(shí)例遮擋邊界數(shù)據(jù)集,使用10 000張圖片用于訓(xùn)練,使用BSDS500測(cè)試數(shù)據(jù)集用于測(cè)試。

4.2 評(píng)估標(biāo)準(zhǔn)

最初的邊緣檢測(cè)結(jié)果評(píng)測(cè)都是僅憑主觀意識(shí)。隨著技術(shù)的發(fā)展,出現(xiàn)一些的新的評(píng)估指標(biāo):(1)精確率(Precision),表示生成的邊界像素是真實(shí)邊界像素的概率;(2)召回率(Recall),測(cè)得真實(shí)邊界像素占所有真實(shí)邊界像素的概率;(3)F1-Score(F1值),綜合Precision與Recall的結(jié)果,輸出1表示模型結(jié)果最好,0表示模型結(jié)果最差;(4)平均精度(average precision),計(jì)算方式為P-R曲線下方的面積,范圍在0~1,值越大,則模型越好。精確率和召回率定義為:

其中,TP表示被模型預(yù)測(cè)為正類(lèi)的正樣本;FP表示被模型預(yù)測(cè)為正類(lèi)的負(fù)樣本;FN表示被模型預(yù)測(cè)為負(fù)類(lèi)的正樣本。F1值定義為:

常用的F1值有兩種:(1)全局最優(yōu)規(guī)模(ODS),整體數(shù)據(jù)達(dá)到最優(yōu)時(shí),F(xiàn)1值的平均值即為ODS;(2)圖像最佳規(guī)模(OIS),數(shù)據(jù)每張圖片最優(yōu)時(shí),F(xiàn)1值的平均值即為OIS。

訓(xùn)練完模型后,將測(cè)試得到的圖片進(jìn)行最終評(píng)估,會(huì)獲得該模型測(cè)試結(jié)果的ODS、OIS、AP以及生成的P-R曲線圖。圖9表示模型在BSDS500數(shù)據(jù)集上的性能。從中可以發(fā)現(xiàn),近年深度學(xué)習(xí)模型的優(yōu)勢(shì)更加明顯,未來(lái)的研究方向明顯更偏向于深度學(xué)習(xí)方法。圖中某些方法實(shí)現(xiàn)不同,可能與原方法結(jié)果存在誤差。

圖9 PR曲線Fig.9 Precision-Recall curve

5 總結(jié)與展望

邊緣檢測(cè)經(jīng)過(guò)40多年的發(fā)展,誕生了許多有代表性的方法,如Canny算子[5]、HED[13]網(wǎng)絡(luò)架構(gòu)等。尤其是近年提出的一些方法,如BDCN[64]在BSDS500數(shù)據(jù)集中取得ODS分?jǐn)?shù)0.828,遠(yuǎn)超人類(lèi)視覺(jué)水平ODS分?jǐn)?shù)0.8;PiDiNet[14]不僅達(dá)到人類(lèi)視覺(jué)水平,還擁有150 FPS,支持實(shí)時(shí)預(yù)測(cè)。本文分析模型在BSDS500數(shù)據(jù)集取得ODS分?jǐn)?shù),深度學(xué)習(xí)模型憑借優(yōu)秀的特征提取和融合特征能力往往能取得比傳統(tǒng)方法更優(yōu)秀的性能,未來(lái)的發(fā)展中,深度學(xué)習(xí)仍然會(huì)占據(jù)邊緣檢測(cè)任務(wù)主流地位。

本文對(duì)歷年出現(xiàn)的大多數(shù)方法進(jìn)行分類(lèi)、介紹和總結(jié),并且對(duì)一些經(jīng)典算法進(jìn)行研究,分析這些方法的優(yōu)缺點(diǎn)和局限性。對(duì)目前仍存在的一些問(wèn)題進(jìn)行分析并提出一些有前景的方向,相信本文提出的建議能夠?qū)σ院筮吘墮z測(cè)的發(fā)展起到促進(jìn)作用。

(1)弱監(jiān)督、無(wú)監(jiān)督學(xué)習(xí)。雖然目前深度學(xué)習(xí)中全監(jiān)督學(xué)習(xí)占據(jù)主流地位,但是弱監(jiān)督、無(wú)監(jiān)督學(xué)習(xí)方法也是研究的熱門(mén)方向。目前已經(jīng)有一些方法[81-82]用于邊緣檢測(cè),這是值得肯定的。弱監(jiān)督、無(wú)監(jiān)督能大大減輕人工標(biāo)注的壓力,從而降低研究成本。這些方法的研究非常有意義,值得付出更多的精力去探索。

(2)多線索、上下文語(yǔ)義信息、反向傳播和多特征融合。上下文語(yǔ)義信息在語(yǔ)義分割任務(wù)中得到廣泛的使用,提高了語(yǔ)義分割的各項(xiàng)性能指標(biāo);在圖像的亮度、顏色、梯度、紋理和對(duì)象特征中包含大量的邊緣信息,提取更全面的基礎(chǔ)特征能提高邊緣的檢測(cè)精度;反向傳播是邊緣檢測(cè)技術(shù)必不可少的一環(huán),可以通過(guò)設(shè)計(jì)更好的上采樣方法,不僅能減少生成邊緣的損失,還可以提升最終邊緣圖的清晰度;特征融合已經(jīng)被證明在邊緣檢測(cè)任務(wù)中是有利的,結(jié)合多尺度、圖像金字塔結(jié)構(gòu)獲得更多特征并融合特征增強(qiáng)網(wǎng)絡(luò)提取邊緣的能力。使用Transformer[87]提取全局與局部上下文信息和特征融合技術(shù)未來(lái)仍然是熱門(mén)方法,如ENTER[83]。

(3)圖譜理論與圖神經(jīng)網(wǎng)絡(luò)。傳統(tǒng)的邊緣檢測(cè)方法引入圖譜理論[27]將圖信號(hào)變換的變換為拉普拉斯矩陣,獲得全局特征,減少噪聲的影響并且提高了提取邊緣的流暢性。在圖神經(jīng)網(wǎng)絡(luò)[88]中對(duì)拉普拉斯矩陣進(jìn)行特征分解得到對(duì)應(yīng)的特征值,特征值的大小表示圖信號(hào)的頻率。傳統(tǒng)邊緣檢測(cè)中,利用算子檢測(cè)鄰近像素差異,表示為梯度變化。圖神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)表示該節(jié)點(diǎn)受周?chē)従庸?jié)點(diǎn)的影響,結(jié)合信號(hào)域變換構(gòu)建濾波器可以實(shí)現(xiàn)圖卷積操作。認(rèn)為圖神經(jīng)網(wǎng)絡(luò)結(jié)合多種方式應(yīng)用到邊緣檢測(cè)中:①利用圖卷積網(wǎng)絡(luò)代替?zhèn)鹘y(tǒng)算子提取梯度特征;②利用節(jié)點(diǎn)信息表示相鄰像素的相似性,引入圖注意力網(wǎng)絡(luò)賦予重要節(jié)點(diǎn)更大權(quán)重。

(4)語(yǔ)義分割和對(duì)象特征。圖像分割的任務(wù)是將圖像劃分成若干個(gè)互不相交的小區(qū)域的過(guò)程,邊緣檢測(cè)的任務(wù)是將亮度變化明顯的像素點(diǎn)識(shí)別為邊緣。這些不相交的邊緣在圖像中表示不同對(duì)象的分界線,其像素差異變化明顯,兩者關(guān)系密切。一些方法通過(guò)預(yù)先訓(xùn)練圖像分割訓(xùn)練集初始化參數(shù),獲得一些輪廓特征,提高模型收斂速度和提取邊緣性能。也有一些方法通過(guò)使用對(duì)象分類(lèi)模型,獲得對(duì)象特征提高檢測(cè)邊緣能力。將語(yǔ)義分割與目標(biāo)檢測(cè)模型結(jié)合應(yīng)用到邊緣檢測(cè)任務(wù)中,仍是值得研究的方向之一。

猜你喜歡
算子邊緣像素
與由分?jǐn)?shù)階Laplace算子生成的熱半群相關(guān)的微分變換算子的有界性
像素前線之“幻影”2000
擬微分算子在Hp(ω)上的有界性
各向異性次Laplace算子和擬p-次Laplace算子的Picone恒等式及其應(yīng)用
“像素”仙人掌
一類(lèi)Markov模算子半群與相應(yīng)的算子值Dirichlet型刻畫(huà)
éVOLUTIONDIGAE Style de vie tactile
一張圖看懂邊緣計(jì)算
高像素不是全部
在邊緣尋找自我
长子县| 岳阳县| 乐山市| 黄平县| 宜宾县| 凤凰县| 桐庐县| 吉木萨尔县| 黎城县| 淮阳县| 玉树县| 潍坊市| 夏河县| 常山县| 凤阳县| 恩平市| 达州市| 昌都县| 长武县| 师宗县| 理塘县| 凌云县| 定日县| 民乐县| 赫章县| 岑溪市| 桓台县| 右玉县| 醴陵市| 高州市| 文水县| 中江县| 吉林市| 蓝田县| 张家港市| 宁蒗| 弋阳县| 江北区| 荔波县| 凤冈县| 会泽县|