楊紅菊,王昱蓉
1(山西大學(xué) 計算機(jī)與信息技術(shù)學(xué)院,太原 030006)2(山西大學(xué) 計算智能與中文信息處理教育部重點(diǎn)實驗室,太原 030006) E-mail:yhju@sxu.edu.cn
計算機(jī)視覺通過對圖像的數(shù)字感知和理解來模擬人類視覺.邊緣檢測作為低層視覺任務(wù)中的一項,在各種計算機(jī)視覺任務(wù)中有著巨大的應(yīng)用,如圖像高階特征提取及描述、目標(biāo)提議框生成、目標(biāo)檢測和圖像分割等.
自2014年起,由于深度學(xué)習(xí)的快速發(fā)展,許多基于深度學(xué)習(xí)的邊緣檢測方法被提出.這些方法利用深度學(xué)習(xí)卓越的分層特征學(xué)習(xí)能力,在BSDS500和NYUD數(shù)據(jù)集上展示出高精度的性能優(yōu)勢.深度學(xué)習(xí)邊緣檢測方法的ODS (Optimal Dataset Scale)指標(biāo)已達(dá)到0.828,而傳統(tǒng)方法卻只能達(dá)到0.59.自此,基于深度學(xué)習(xí)的邊緣檢測方法已經(jīng)取得了很好的效果,但因模型復(fù)雜度高而阻礙了其實際應(yīng)用.因此,邊緣檢測的研究趨勢開始轉(zhuǎn)變?yōu)樵O(shè)計一種高效的神經(jīng)網(wǎng)絡(luò)架構(gòu).其要求是在保持邊緣檢測質(zhì)量的前提下,使模型具有更低的計算復(fù)雜度.
受傳統(tǒng)邊緣檢測方法的啟發(fā),Wibisono J K 等[1,2]先后提出兩個輕量級邊緣檢測模型——TIN、FINED.它們的網(wǎng)絡(luò)結(jié)構(gòu)主要包括Feature Extractor、Enrichment和Summarizer,分別對應(yīng)于傳統(tǒng)邊緣檢測方法中的梯度、低通濾波器和像素連接.輕量級邊緣檢測方法在計算復(fù)雜度上占絕對優(yōu)勢(相較于經(jīng)典的HED[3]方法,其參數(shù)量減少了十倍左右),卻也存在預(yù)測邊緣模糊、不細(xì)致以及定位不準(zhǔn)確的問題(圖1).Huan等[4]提出一種上下文感知跟蹤策略(CATS),其包括跟蹤損失和上下文感知融合塊,前者使模型獲得更好的側(cè)邊學(xué)習(xí),后者可以有效地處理側(cè)邊混合而導(dǎo)致的邊緣模糊問題.
大多數(shù)深度邊緣檢測方法[5]均以分層方式表示多尺度特征.為了達(dá)到較高的檢測精度,分層方式提取多尺度特征會導(dǎo)致參數(shù)量的直線式遞增.本文提出一種輕量級邊緣檢測方法——FMLED.該模型以細(xì)粒度多尺度特征表示方式,增大每個網(wǎng)絡(luò)層的感受野范圍并緩解了分層式特征表示致使模型復(fù)雜度變高的情況.在不增加計算負(fù)載的情況下,由于特征提取能力變得更強(qiáng)大,使檢測到的邊緣更細(xì)致并具有全局性.同時,通過對中間特征圖的聯(lián)合學(xué)習(xí),使每個像素帶有不同權(quán)重,從而有效地緩解現(xiàn)有輕量級邊緣檢測模型預(yù)測邊緣模糊的問題.
圖1 不同輕量級邊緣檢測模型的檢測結(jié)果Fig.1 Results of different lightweight edge detection models
圖像邊緣檢測是圖像處理和計算機(jī)視覺領(lǐng)域中一個關(guān)鍵的技術(shù)挑戰(zhàn).根據(jù)圖像處理技術(shù)的不同,邊緣檢測方法可分為兩類:傳統(tǒng)方法和深度學(xué)習(xí)方法.
邊緣檢測的本質(zhì)是識別和定位圖像中發(fā)生突變的位置,而突變部分表示圖像的重要信息.基于梯度的方法是通過得到一階導(dǎo)數(shù)的最大值或二階導(dǎo)數(shù)為零的信息來得到圖像灰度的變化情況.如Sobel算子[6]、Prewitt 算子[7],以及至今仍被廣泛使用的Canny算子[8]等.Li等[9]使用混合濾波器代替Canny算子中的高斯濾波器,并使用最大類間方差法對圖像的高低閾值進(jìn)行確定,提出了一種改進(jìn)Canny的邊緣檢測算法.
但僅考慮圖像梯度特性,忽略顏色、亮度和紋理信息,將使檢測到的圖像邊緣模糊.因此研究者們提出基于人工特征提取的邊緣檢測方法.此類方法通常采用復(fù)雜的學(xué)習(xí)范式來預(yù)測具有低級別特征的邊緣強(qiáng)度,如Pb算法[10]、gPb-owl-ucm算法[11]、SE算法[12]、OEF[13]等.由于未包含高層的物體級別信息,致使傳統(tǒng)方法檢測效果不佳.
由于深度模型具有強(qiáng)大的學(xué)習(xí)能力和高效的特征表達(dá)能力,可以從原始像素級數(shù)據(jù)到抽象的語義概念逐層提取信息,所以其在提取圖像的全局特征和上下文信息方面具有突出優(yōu)勢,為圖像邊緣檢測帶來新思路.
N4-Fields[14]、DeepEdge[15]和DeepContour[16]方法均使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行邊緣檢測,但由于未使用高層語義信息,得到的效果并不理想.Saining Xie等[3]提出一種基于全卷積網(wǎng)絡(luò)架構(gòu)的HED算法,其采用多尺度、多層級的特征學(xué)習(xí)方法進(jìn)一步改善了邊緣檢測效果.Maninis等[17]提出一種卷積定向邊界結(jié)構(gòu)COB.其從一個卷積神經(jīng)網(wǎng)絡(luò)開始,產(chǎn)生多尺度定向輪廓和區(qū)域?qū)哟?并在層次分割中使用了一種新的稀疏邊界表示方法.Akbarinia等[18]提出一種受生物學(xué)啟發(fā)的SED模型,其方向選擇性神經(jīng)元通過高斯函數(shù)的一階導(dǎo)數(shù)來表示,其類似于初級視覺皮層中的double opponent cells.Wang等[19]發(fā)現(xiàn)卷積神經(jīng)網(wǎng)絡(luò)具有良好的邊緣像素分類能力,但定位能力較差,因而提出一種新的細(xì)化架構(gòu)CED.其利用自上而下的后向細(xì)化方式逐步提高特征圖的分辨率以得到清晰的邊緣.Liu等[20]在VGG16網(wǎng)絡(luò)結(jié)構(gòu)基礎(chǔ)上提出一種使用更豐富卷積特征的RCF方法,充分利用對象的多尺度和多層級信息來實現(xiàn)邊緣預(yù)測,取得了很好的效果.YANG等[21]提出生成對抗支持的輪廓檢測方法ContourGAN,其生成器是使用Encoder-Decoder框架來提取輪廓;鑒別器使用標(biāo)簽圖和預(yù)測輪廓圖作為輸入.He等[22]提出BDCN方法并引入尺度增強(qiáng)模塊.前者使每個層的輸出都被特定尺度的標(biāo)簽圖監(jiān)督(特定尺度由網(wǎng)絡(luò)自身學(xué)習(xí)得到);后者用于豐富BDCN框架學(xué)習(xí)到的多尺度特征.Soria等[23]提出一種魯棒的邊緣檢測架構(gòu)DexiNed,其受Xception框架[24]及HED方法的啟發(fā).由于公開的用于邊緣檢測的數(shù)據(jù)集較少,而構(gòu)建了一個帶詳細(xì)標(biāo)注的BIPED數(shù)據(jù)集.
雖然以上方法的檢測精度遠(yuǎn)超于傳統(tǒng)邊緣檢測方法,但卻存在網(wǎng)絡(luò)過于復(fù)雜的問題.因此,Wibisono等[1]提出一種受傳統(tǒng)邊緣檢測方法啟發(fā)的輕量級邊緣檢測框架TIN.雖然該方法在很大程度上有效地降低了網(wǎng)絡(luò)復(fù)雜度,但在BSDS500數(shù)據(jù)集上的ODS指標(biāo)僅達(dá)到0.772(HED[3]為0.788).因此,Wibisono等[2]又提出FINED模型.其在TIN方法基礎(chǔ)上,對Enrichment和Summarizer修改、擴(kuò)充,使檢測效果得到了極大提升;其還引入training helper概念,有效地控制了網(wǎng)絡(luò)的計算復(fù)雜度.
深度學(xué)習(xí)邊緣檢測方法是使用大量圖像及標(biāo)簽對(源于邊緣檢測的數(shù)據(jù)集中)聯(lián)合訓(xùn)練深度網(wǎng)絡(luò)模型,使其具有更強(qiáng)的魯棒性.檢驗邊緣檢測模型好壞的方法是給定一個待檢測圖像,將其輸入到已訓(xùn)練好的模型中,查看檢測到的邊緣圖與標(biāo)簽圖是否接近以及得到的邊緣是否清晰、準(zhǔn)確.
FMLED網(wǎng)絡(luò)總體架構(gòu)如圖2所示.本模型受經(jīng)典的邊緣檢測方法HED和ResNet[25]網(wǎng)絡(luò)啟發(fā).ResNet50網(wǎng)絡(luò)包括7*7卷積層、4個塊以及平均池化層,其中每個塊都由若干Residual Block搭建而成.ResNet50是在VGG 網(wǎng)絡(luò)基礎(chǔ)上增加“跳躍連接”而構(gòu)成.所有Residual Block中均不存在池化層,而是通過控制卷積層的步長來實現(xiàn)池化操作.網(wǎng)絡(luò)最后,通過平均池化層代替全連接層來得到最終特征.
本模型在7*7卷積層、block1及block2后輸出特征圖,并連接上采樣塊得到中間邊緣圖(所有上采樣塊不共享權(quán)重).接著,將上采樣塊產(chǎn)生的所有邊緣圖拼接,并輸入到網(wǎng)絡(luò)最末端的學(xué)習(xí)濾波器中.最終,得到融合中間特征的邊緣圖.網(wǎng)絡(luò)中所有卷積層后均要進(jìn)行規(guī)范化處理以及ReLU操作(僅學(xué)習(xí)濾波器中的最后一個卷積層后無Relu激活).最大池化設(shè)置kernel_size=3,stride=2,padding=1.盡管本文框架受ResNet啟發(fā),但相似之處僅在于部分主要模塊及其連接方式.與ResNet50模型相比,FMLED修改部分可總結(jié)如下:
1)使用Res2Net Module[26]替代Residual Block.Res2Net Module使用一個較小的3*3過濾器組代替Residual Block中的單分支3*3卷積核,并以層級殘差方式連接過濾器組.這種殘差分層架構(gòu)增加了塊內(nèi)感受野,從根本上改變了提取圖像特征的分層表示方式.
2)去除block3、block4及平均池化層部分.去除block3、block4是在保證邊緣檢測質(zhì)量的前提下,極大地減少了網(wǎng)絡(luò)復(fù)雜度.而添加平均池化層會出現(xiàn)邊緣定位不精準(zhǔn)的問題.
3)將ResNet50中的7*7卷積層、block1及block2輸出連接到卷積核大小為1*1、通道深度為1的卷積層上,以將不同階段特征減小至單通道.此操作簡稱降維.
4)增加Upsampling層.為便于中間結(jié)果的融合,對不同階段特征進(jìn)行上采樣使特征圖與輸入圖像尺寸相同(FMLED模型選用雙線性插值法對特征圖進(jìn)行上采樣).每個上采樣層后,需連接交叉熵?fù)p失層(具體計算見3.2節(jié)).
5)增加學(xué)習(xí)濾波器.拼接各階段特征圖,并使用3*3卷積層組學(xué)習(xí)每個像素的權(quán)重.最后,根據(jù)像素權(quán)重融合各階段邊緣圖.
為便于本模型在訓(xùn)練階段對圖像的批量操作,須將輸入圖像大小調(diào)整至1024×1024.由于輸入均為彩色圖像,可將調(diào)整后的圖像尺寸表示為(3,1024,1024).以BIPED數(shù)據(jù)集中的圖像(720×1280)為例,邊緣預(yù)測過程如下:首先,對圖像進(jìn)行預(yù)處理,將其大小調(diào)整為(3,1024,1024);其次,使用模型中的7*7卷積層、block1及block2提取圖像特征,得到尺寸分別為(64,512,512)、(256,256,256)、(512,128,128)的特征圖;然后,使用降維及上采樣操作得到不同階段的中間邊緣圖(尺寸與輸入圖像尺寸相同,均為(1,720,1280));接著,將所有中間邊緣圖拼接(尺寸為(3,720,1280))并輸入到學(xué)習(xí)濾波器中,得到相應(yīng)的像素權(quán)重(尺寸為(3,720,1280)).最后,聯(lián)合中間邊緣圖與像素權(quán)重并對維度0進(jìn)行“sum”操作,得到融合邊緣圖((1,720,1280)).
大多數(shù)現(xiàn)有的深度學(xué)習(xí)邊緣檢測方法是通過分層來表示多尺度特征學(xué)習(xí),而FMLED模型使用Res2Net Module的殘差分層架構(gòu),在細(xì)粒度層級上提高了神經(jīng)網(wǎng)絡(luò)的多尺度表示能力,并增加了每個網(wǎng)絡(luò)層輸出特征能代表的尺度數(shù)量.在特征融合階段,HED、RCF、DexiNed等模型均通過1*1卷積融合各階段的邊緣圖;而FMLED模型通過使用學(xué)習(xí)濾波器組來學(xué)習(xí)不同像素相對應(yīng)的權(quán)重,使得到的邊緣圖可以更好的融合中間特征.
深度學(xué)習(xí)邊緣檢測方法已達(dá)到較高的檢測精度,但網(wǎng)絡(luò)參數(shù)量偏高.而FMLED模型(見圖2)參數(shù)量僅1.43MB,極大地增加了其實際應(yīng)用.現(xiàn)有的輕量級神經(jīng)網(wǎng)絡(luò)雖然很大程度上減少了計算復(fù)雜度,但檢測效果不佳;而FMLED模型不增加計算負(fù)載但可以得到更細(xì)致且定位更準(zhǔn)確的邊緣 (見圖1).
圖2 FMLED模型結(jié)構(gòu)圖Fig.2 FMLED model structure
在邊緣檢測任務(wù)中,損失函數(shù)是用于表現(xiàn)預(yù)測邊緣圖與標(biāo)簽圖之間的差距程度,是一個非負(fù)實數(shù)函數(shù).損失函數(shù)越小,模型的魯棒性則越好.
(1)
其中,Xi、yi分別表示輸入圖像第i個像素值及相應(yīng)的ground-truth;W為模型權(quán)重.通過設(shè)置η,忽略部分可能混淆網(wǎng)絡(luò)的弱邊.α和β的計算方法如公式(2)所示.
(2)
|Y+|表示邊緣圖中正樣本數(shù)量,|Y-|為負(fù)樣本數(shù)量.參數(shù)λ用于平衡正負(fù)樣本數(shù)差距大的情況.
綜上,訓(xùn)練階段總損失的計算如公式(3)所示.
(3)
其中,|I|為輸入圖像的像素總數(shù),N-1為模型中間邊緣圖數(shù)量.
(4)
(5)
通過使用Pytorch架構(gòu)進(jìn)行深度學(xué)習(xí)來實現(xiàn)本文邊緣檢測方法,并使用反向傳播和隨機(jī)梯度下降來訓(xùn)練網(wǎng)絡(luò).其中包括訓(xùn)練超參數(shù)初始學(xué)習(xí)率、權(quán)重衰減和β.在訓(xùn)練階段設(shè)置初始學(xué)習(xí)率為1e-2,并使用公式(6)不斷調(diào)整訓(xùn)練中的學(xué)習(xí)率.
(6)
在梯度下降求解神經(jīng)網(wǎng)絡(luò)參數(shù)過程中,使用Momentum優(yōu)化方法來加快收斂速度,設(shè)置Momentum中參數(shù)β為0.9、權(quán)重衰減(weight decay)為5e-4.實驗在一塊NVIDIA GTX 1080Ti(11GB)顯卡上完成.整個實驗過程中,使用Python語言完成網(wǎng)絡(luò)搭建、訓(xùn)練和測試;并使用Matlab對測試結(jié)果進(jìn)行評估.
BSDS500:Berkeley Segmentation Data Set是由伯克利大學(xué)提供的數(shù)據(jù)集.其可用來圖像分割和物體輪廓檢測.該數(shù)據(jù)集包含200張訓(xùn)練圖、100張驗證圖、200張測試圖;所有g(shù)round-truth均用.mat文件保存.HED、RCF、BDCN等經(jīng)典的邊緣檢測方法在訓(xùn)練階段使用對初始訓(xùn)練集及驗證集的300張圖片進(jìn)行數(shù)據(jù)擴(kuò)充(旋轉(zhuǎn)、翻轉(zhuǎn)、尺度縮放)而得到的28800張訓(xùn)練圖.距離容差d (即控制預(yù)測邊緣和ground-truth之間匹配的最大間距)設(shè)置為0.0075.
圖3 不同數(shù)據(jù)集的原圖、GT以及FMLED模型生成的邊緣圖對比Fig.3 Comparison of the original images GTs and the edge images generated by FMLED model of differenct datasets
BIPED:該數(shù)據(jù)集由Xavier Soria等人提出,其包含200張訓(xùn)練圖和50張測試圖.由于初始訓(xùn)練集偏少,會使訓(xùn)練所得模型出現(xiàn)過擬合現(xiàn)象,使模型不具備較強(qiáng)的魯棒性.因此,對初始訓(xùn)練集采用數(shù)據(jù)擴(kuò)充(旋轉(zhuǎn)、翻轉(zhuǎn)、尺度縮放)得到57600張訓(xùn)練圖.距離容差d仍設(shè)為0.0075.在當(dāng)前工作中,僅使用數(shù)據(jù)擴(kuò)充后的BIPED數(shù)據(jù)集進(jìn)行訓(xùn)練.
NYUD:New York University Dataset是一組1449張的RGB-D圖像(包含464個室內(nèi)場景),其用于圖像分割.該數(shù)據(jù)集被分成3個部分,即訓(xùn)練集、驗證集和測試集.測試集包含654張圖像,剩余的795張圖像被用于訓(xùn)練及驗證.與HED、RCF、ContourGAN等工作相同,將其距離容差d設(shè)為0.011.
3個數(shù)據(jù)集的部分圖像、對應(yīng)的標(biāo)簽圖以及FMLED模型檢測效果如圖3所示.
邊緣檢測模型輸出均為邊緣概率圖,并非二值矩陣.其表示該像素是邊緣的概率p,p∈[0,1].為便于評估,需設(shè)計閾值對概率圖進(jìn)行二值化得到二值邊緣圖.
ODS、OIS作為邊緣檢測最常用的評估指標(biāo),是設(shè)置閾值的兩個不同方法.ODS是為所有圖像設(shè)置同樣的閾值,使得整個數(shù)據(jù)集上的F-Measure最大;而OIS(Optimal Scale Image)是在每一張圖片上均選取不同閾值,使得該圖片的F-Measure最大.
在BSDS500、NYUD和BIPED數(shù)據(jù)集上,將FMLED模型與先進(jìn)的邊緣檢測方法進(jìn)行定性和定量比較,主要包括傳統(tǒng)邊緣檢測方法Canny、機(jī)器學(xué)習(xí)方法Pb、gPb、SE和OEF以及經(jīng)典的深度學(xué)習(xí)邊緣檢測方法HED、RCF、BDCN、DexiNed、TIN和FINED.
本小節(jié)將在BSDS500及NYUD數(shù)據(jù)集上對不同邊緣檢測方法進(jìn)行定量、定性分析.
5.1.1 定量分析
表1、表2展示了在BSDS500測試集及NYUD測試集上,不同邊緣檢測模型在精度度量和模型參數(shù)量兩方面的定量對比結(jié)果.
表1 BSDS500測試集上不同邊緣檢測方法的定量比較Table 1 Quantitative comparison of different edge detection methods on BSDS500 test set
從表1可以看出,在BSDS500數(shù)據(jù)集上,BDCN是目前精度領(lǐng)先的邊緣檢測方法.FMLED模型參數(shù)量僅1.43MB,但檢測精度卻要低于其他檢測方法.這很大程度上是因為該數(shù)據(jù)集是用于圖像輪廓/邊界檢測和語義分割的數(shù)據(jù)集.其相對于專用于邊緣檢測的BIPED數(shù)據(jù)集,圖像中缺少許多重要的細(xì)節(jié)邊緣.在評估模型過程中,BSDS500數(shù)據(jù)集的標(biāo)簽圖中僅包含輪廓邊緣,這并不利于FMLED模型檢測到的細(xì)節(jié)邊緣.
表2 NYUD測試集上不同邊緣檢測方法的定量比較Table 2 Quantitative comparison of different edge detection methods on NYUD test set
如表2所示,在NYUD數(shù)據(jù)集上,CATS-RCF模型的ODS指標(biāo)得到最高;FMLED到達(dá)與DexiNed方法相近的檢測精度,但參數(shù)量卻相差22倍以上.FMLED方法ODS指標(biāo)偏低的主要原因與其在BSDS500數(shù)據(jù)集上的情況相同,NYUD數(shù)據(jù)集中的標(biāo)簽圖同樣缺少細(xì)節(jié)邊緣.
5.1.2 定性分析
圖4和圖5展示了不同邊緣檢測方法在BSDS500、NYUD數(shù)據(jù)集上的定性對比結(jié)果.其中,圖4是各模型在BSDS500數(shù)據(jù)集上的比較結(jié)果,從左到右分別表示原始圖像、標(biāo)簽邊緣圖、HED模型檢測結(jié)果、BDCN模型檢測結(jié)果、FINED3_tra模型檢測結(jié)果、DexiNed模型檢測結(jié)果以及本文模型檢測結(jié)果.從圖4可以清晰的看出,精度領(lǐng)先的BDCN方法檢測結(jié)果更接近圖像的標(biāo)簽邊緣圖,因此也更適用于圖像輪廓/邊界檢測;FMLED模型與同為輕量級邊緣檢測方法且參數(shù)量相同的Fined3_tra相比,得到的邊緣更清晰、定位更準(zhǔn)確.
圖4 BSDS500數(shù)據(jù)集上不同邊緣檢測算法的檢測結(jié)果對比Fig.4 Comparison of results of different edge detection algorithms on BSDS500 dataset
圖5是不同模型在NYUD數(shù)據(jù)集上的定性比較結(jié)果,從左到右分別代表原始圖像、標(biāo)簽邊緣圖、TIN2模型檢測結(jié)果、CATS-RCF模型檢測結(jié)果、DexiNed模型檢測結(jié)果以及本文模型檢測結(jié)果.如圖5所示,相比于在NYUD數(shù)據(jù)集上精度領(lǐng)先的CATS-RCF方法,FMLED模型檢測到的邊緣更細(xì)致.其與同為輕量級檢測方法的TIN2相比,獲得了更清晰、定位更準(zhǔn)確的邊緣.而與參數(shù)量相差二十倍且注重于生成細(xì)邊緣的DexiNed模型相比,視覺上得到的邊緣圖具有相當(dāng)?shù)男Ч?
圖5 NYUD數(shù)據(jù)集上不同邊緣檢測算法的檢測結(jié)果對比Fig.5 Comparison of results of different edge detection algorithms on NYUD dataset
本小節(jié)將從定量及定性兩方面對不同邊緣檢測方法在BIPED數(shù)據(jù)集的結(jié)果進(jìn)行分析、比較.
5.2.1 定量分析
表3總結(jié)了不同邊緣檢測方法在BIPED數(shù)據(jù)集上的定量對比結(jié)果.對比可知,DexiNed模型是目前精度領(lǐng)先的邊緣檢測方法,ODS指標(biāo)高達(dá)0.857.但其參數(shù)量(參數(shù)量為33.14MB)卻要遠(yuǎn)高于現(xiàn)有的邊緣檢測方法;在相同或更小的模型尺寸下,FMLED模型具有最高的檢測精度.同時,FMLED模型檢測精度與RCF、BDCN方法大致相同,但參數(shù)量減少了十倍以上.
表3 BIPED測試集上不同邊緣檢測方法的定量比較Table 3 Quantitative comparison of different edge detection methods on BIPED test set
5.2.2 定性分析
在不同數(shù)據(jù)集上評估模型時,與FMLED模型對比的邊緣檢測方法(除DexiNed方法之外) 都必須使用該數(shù)據(jù)集的圖像對模型進(jìn)行訓(xùn)練;而FMLED與DexiNed模型僅使用BIPED數(shù)據(jù)集訓(xùn)練一次,便可用于不同數(shù)據(jù)集的測試.
圖6顯示了在BIPED測試集上最新的輕量級邊緣檢測方法、精度領(lǐng)先的DexiNed方法和FINED模型之間視覺上的比較.如圖6所示,FMLED與DexiNed方法在視覺上具有相當(dāng)?shù)男Ч?但FMLED模型參數(shù)量為1.43MB;而DexiNed為33.14MB.而與同為輕量級邊緣檢測的TIN、FINED方法相比,視覺上FMLED模型檢測效果更佳.
圖6 BIPED數(shù)據(jù)集上不同邊緣檢測算法的檢測結(jié)果對比Fig.6 Comparison of results of different edge detection algorithms on BIPED dataset
本文提出一種新的基于卷積神經(jīng)網(wǎng)絡(luò)的單階段(image-to-image)邊緣檢測模型.其設(shè)計初衷是搭建一個可得到高質(zhì)量邊緣的輕量級網(wǎng)絡(luò)架構(gòu).通過使用細(xì)粒度級方式表示多尺度特征,使其具備更強(qiáng)的多規(guī)模特征提取能力.這種方式以最小的附加塊提取特征,增加網(wǎng)絡(luò)層的感受野范圍但不增大計算負(fù)載.此外,還通過學(xué)習(xí)濾波器結(jié)合中間層的特征圖以學(xué)習(xí)不同像素的權(quán)值,減輕因平均操作而導(dǎo)致的邊緣模糊問題.實驗結(jié)果表明,在專用于邊緣檢測的數(shù)據(jù)集上,本文模型比經(jīng)典的邊緣檢測方法HED、CED、RCF、BDCN檢測精度更高,且參數(shù)量減小了13MB~19MB;與現(xiàn)有的輕量級方法相比,其檢測精度更高、生成的邊緣質(zhì)量更優(yōu).未來工作將通過使用本文模型來解決輪廓/邊界檢測問題.