基于深度學(xué)習(xí)的圖像邊緣檢測算法綜述

2020-11-30 05:48:02李翠錦

計算機應(yīng)用 2020年11期

李翠錦，瞿中

（1.重慶工程學(xué)院電子信息學(xué)院，重慶 400060；2.重慶郵電大學(xué)計算機科學(xué)與技術(shù)學(xué)院，重慶 400065）

（?通信作者電子郵箱190424278@qq.com）

0 引言

圖像邊緣檢測是圖像處理和計算機視覺領(lǐng)域中最關(guān)鍵的技術(shù)問題之一。已有的許多研究工作表明，邊緣檢測在圖像高階特征提取、特征描述、目標識別和圖像分割等諸多領(lǐng)域都具有重要意義。如何快速準確地定位和提取圖像邊緣特征信息成為研究熱點之一。針對這兩個問題，研究者進行了大量的研究，提出了各種邊緣檢測方法，這些方法大致可以分為兩類：傳統(tǒng)方法和基于深度學(xué)習(xí)的方法，圖1 列出了圖像邊緣檢測研究的經(jīng)典傳統(tǒng)方法（時間軸上方）和基于深度學(xué)習(xí)的方法（時間軸下方）。

由于圖像邊緣包含大量的背景信息和重要的結(jié)構(gòu)信息，傳統(tǒng)的邊緣檢測方法往往將手工制作的底層特征（如顏色、亮度、紋理、梯度）作為邊緣檢測的優(yōu)先級，比如：1）早期開拓性的方法，如Sobel算子［1］、Prewitt算子［2］，以及廣泛采用的Canny算子［3］；2）基于信息理論人工設(shè)計得出特征的方法，如gPbowl-ucm 算法［4］、SCG（Sparse Code Gradients）算法［5］；3）結(jié)構(gòu)化邊緣檢測算法：如SE（Structured forests Edge detection）算法［6］。雖然利用低層次特征的邊緣檢測方法已經(jīng)取得了很大的進步，但其局限性也是顯而易見的。隨著深度學(xué)習(xí)技術(shù)［7］的發(fā)展，尤其是卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）的出現(xiàn)，CNN 具有在自動學(xué)習(xí)自然圖像的高級表示方面具有強大的能力等優(yōu)勢，利用CNN 進行邊緣檢測已成為一種新的趨勢。2015 年，Xie 等［8］提出了整體嵌套邊緣檢測（Holistically-nested Edge Detection，HED），用于以嵌套方式檢測和提取自然圖像的邊緣；2015 年，Bertasius 等［9］將全卷積應(yīng)用在語義分割，從而為全卷積在輪廓檢測中奠定了基礎(chǔ)；2015年，Bertasius 等［10］提出了一個端到端的卷積架構(gòu)DeepEdge；2016年，Wang等［11］提出了基于卷積神經(jīng)網(wǎng)絡(luò)的深度條件隨機域立體匹配方法；2017 年，Yu 等［12］提出了多尺度運動目標的邊緣檢測技術(shù)；2017 年，Chadha 等［13］提出了使用VLAD（Vector of Locally Aggregated Descriptor）和基于深度學(xué)習(xí)的描述符進行高效興趣區(qū)域檢索的方法；2018 年，Liu 等［14］提出了基于五層特征多樣性的更豐富的卷積特征圖像邊緣檢測提取算法；2018 年，Wang 等［15］提出了一種基于快速R-CNN（Region-CNN）框架的端到端邊緣保留神經(jīng)網(wǎng)絡(luò)（稱為區(qū)域網(wǎng)），用于突出的目標檢測；2019 年，F(xiàn)u 等［16］提出了一種用于顯著目標檢測的細分網(wǎng)絡(luò)。

上述算法需要相當多的專業(yè)知識、精細的處理算法和網(wǎng)絡(luò)架構(gòu)設(shè)計，才能把原始圖像數(shù)據(jù)轉(zhuǎn)換成合適的特征向量，以此來構(gòu)造邊緣檢測模型和分類器。近幾年，利用深度學(xué)習(xí)技術(shù)［7］邊緣檢測任務(wù)有顯著的性能提升。例如，在伯克利大學(xué)提出的數(shù)據(jù)集（Berkeley Segmentation Data Set and benchmark 500，BSDS500）［17］中，F(xiàn)-measure 最優(yōu)數(shù)據(jù)集規(guī)模（Optimal Dataset Scale，ODS）的檢測性能從0.598［18］提高到0.828［19］。盡管如此，邊緣檢測依舊是一個很有挑戰(zhàn)性的技術(shù)問題，原因在于：

1）弱監(jiān)督和無監(jiān)督邊緣檢測：基于深度學(xué)習(xí)的邊緣檢測器的訓(xùn)練通常依賴于大量注釋良好的圖像。注釋過程是耗時、昂貴和低效的。在弱監(jiān)督檢測技術(shù)中，只使用圖像級的標注或部分使用包圍盒標注對檢測器進行訓(xùn)練，對于降低勞動成本和提高檢測靈活性具有重要意義。

2）小目標邊緣檢測：在大場景中檢測小目標一直是一個挑戰(zhàn)。這一研究方向的一些潛在應(yīng)用包括利用遙感圖像對野生動物種群進行統(tǒng)計，以及檢測一些重要軍事目標的狀態(tài)。

3）動態(tài)視頻邊緣檢測：高清視頻中的實時目標/跟蹤邊緣檢測對于視頻監(jiān)控和自動駕駛具有重要意義。一般的邊緣檢測通常是針對圖像而設(shè)計的，而忽略了視頻幀之間的相關(guān)性。利用時空相關(guān)性進行改進檢測是一個重要的研究方向。

圖1 傳統(tǒng)方法（時間軸上方）和基于深度學(xué)習(xí)的方法（時間軸下方）研究歷程Fig.1 Traditional methods（above the timeline）and deep learning-based methods（below the timeline）

1 傳統(tǒng)邊緣檢測方法

1.1 基于梯度和Laplacian邊緣檢測

邊緣檢測的本質(zhì)是對圖像中發(fā)生突變的部分進行識別和定位，突變的部分表示圖像的重要信息（灰度變化）?；谔荻群屠绽沟倪吘墮z測采用了濾波對圖像進行卷積計算，從而得出圖像灰度變化情況，根據(jù)原理的不同，大致可分為兩類：一階邊緣檢測算子和二階邊緣檢測算子。

表1列出了典型邊緣檢測算子及它們的優(yōu)缺點。

1.2 基于人工特征提取的邊緣檢測

圖像邊緣檢測算子雖然具有使用簡單、效果良好的優(yōu)點，但是這些算子都是通過將灰度圖像與局部導(dǎo)數(shù)濾波器進行卷積來檢測邊緣，僅僅考慮了圖像的梯度特性，忽視了圖像紋理等變化，容易造成邊緣模糊及噪聲敏感等問題。通過對高階統(tǒng)計量的顯式定向分析來抑制以上問題，提出了基于人工特征提取的邊緣檢測算法，如多尺度特征檢測算法［26］、結(jié)構(gòu)化邊緣檢測算法［27］。

1.2.1 多尺度特征邊緣檢測算法

2011 年，Arbeláez 等［4］將多尺度局部亮度、顏色和紋理結(jié)合應(yīng)用到譜聚類框架中。在圖像的每個位置應(yīng)用直方圖來計算x2值，定義了一個表示像素之間相似度的關(guān)聯(lián)矩陣。從這個矩陣中得到一個特征值和編碼輪廓信息的固定特征向量。使用分類器將卡方值與特征向量重新組合，獲得全局Pb邊緣檢測算法（gPb-owl-ucm）。實驗結(jié)果表明，在數(shù)據(jù)集BSDS500上ODS值為0.71。

2012 年，Ren 等［5］提出了一種新的算法（SCG），該算法使用稀疏編碼，特別使用正交匹配追蹤算法［28］和K-means 字典訓(xùn)練方法［29］來學(xué)習(xí)patchs 表示，直接取代patchs 分類器［30］，借鑒Pb 的思想將像素上的稀疏編碼在每個方向的多尺度半圓上匯集，然后用線性支持向量機（Support Vector Machine，SVM）分類，最后，對SVM 輸出進行平滑處理，并對其進行非極大值抑制，以生成最終的輪廓。實驗結(jié)果表明，在數(shù)據(jù)集BSDS500上ODS值為0.74。

1.2.2 結(jié)構(gòu)化邊緣檢測算法

2015年，Dollár等［6］將邊緣檢測問題轉(zhuǎn)化為給定輸入圖像塊的局部分割掩碼的預(yù)測問題，提出了一種結(jié)構(gòu)化森林快速邊緣檢測方法（SE），學(xué)習(xí)決策樹的新方法是使用結(jié)構(gòu)化的標簽來確定樹中每個分支的分裂函數(shù)。結(jié)構(gòu)標簽被穩(wěn)健地映射到一個離散空間，在這個空間上可以評估標準的信息增益度量。每個森林預(yù)測一個邊緣像素標簽patchs，這些標簽聚集在整個圖像上計算最終邊緣映射，由于聚合的邊緣映射可能是漫反射，使用了局部顏色和深度提示來銳化邊緣映射。在BSDS500 和NYUD（New York University Datasets）V2 數(shù) 據(jù)集［31］上展示了最新結(jié)果（ODS值為0.75、ODS值為0.69）。

2015 年，Hallman 等［32］采用非參數(shù)輸出，將隨機決策樹的魯棒機制應(yīng)用在小圖像塊中，精確檢測不同候選方向和位置的直線邊界，提出了一種面向邊緣森林的邊界檢測算法OEF（Oriented Edge Forests）。盡管該算法忽略了大量感興趣信息，如彎曲的邊緣和連接處，但對于大而平滑的小塊物體圖像效果很好。在BSDS500數(shù)據(jù)集上ODS值為0.76。

2016 年，Zhang 等［26］使用有限的訓(xùn)練數(shù)據(jù)獲得具有競爭力的檢測精度，提出了一種基于結(jié)構(gòu)隨機森林（Structured Random Forest，SRF）的半監(jiān)督學(xué)習(xí)輪廓檢測方法（SemiContour），該算法采用快速稀疏表示方式和緊湊低維子空間表示嵌入到結(jié)構(gòu)隨機森林中，從而實現(xiàn)半監(jiān)督學(xué)習(xí)。實驗結(jié)果表明，在BSDS500數(shù)據(jù)集上ODS值為0.73。

2 基于深度學(xué)習(xí)的邊緣檢測算法

傳統(tǒng)邊緣檢測技術(shù)已經(jīng)取得了很大的進步，但也存在很多局限性。深度學(xué)習(xí)與傳統(tǒng)邊緣檢測方法的最大不同在于它所采用的特征是從大數(shù)據(jù)中自動學(xué)習(xí)得到，而非采用手工設(shè)計。深度模型具有強大的學(xué)習(xí)能力和高效的特征表達能力，更重要的優(yōu)點是從像素級原始數(shù)據(jù)到抽象的語義概念逐層提取信息，這使得它在提取圖像的全局特征和上下文信息方面具有突出的優(yōu)勢，為解決傳統(tǒng)的計算機視覺問題（如圖像識別和圖像邊緣檢測）帶來了新的思路?；谏疃葘W(xué)習(xí)的邊緣檢測算法分類及典型算法如圖2所示，下面將分別進行介紹。

2.1 全監(jiān)督學(xué)習(xí)邊緣檢測算法

全監(jiān)督學(xué)習(xí)是利用已知類別的樣本（即有標記的樣本labeled sample），調(diào)整分類器的參數(shù)，訓(xùn)練得到一個最優(yōu)模型，使其達到所要求性能，再利用這個訓(xùn)練后的模型，將所有的輸入映射為相應(yīng)的輸出，對輸出進行簡單的判斷，從而實現(xiàn)邊緣檢測的目的。目前大部邊緣檢測算法都是基于全監(jiān)督實現(xiàn)的，根據(jù)算法實現(xiàn)過程中采用的整體設(shè)計思想以及關(guān)鍵技術(shù)不同，本文將其劃分為6 類：基于譜聚類邊緣檢測算法、多尺度融合邊緣檢測算法、跨層融合邊緣檢測算法、網(wǎng)絡(luò)重構(gòu)邊緣檢測算法、基于編解碼邊緣檢測算法和亞像素卷積邊緣檢測算法?；谧V聚類的邊緣檢測和亞像素邊緣檢測等方法檢測精度高，但抗噪聲性能較差；基于神經(jīng)網(wǎng)絡(luò)和基編解碼邊緣檢測等方法解決了抗噪聲性能差的問題，但檢測精度不夠。表2 從算法優(yōu)缺點、基礎(chǔ)網(wǎng)絡(luò)、關(guān)鍵技術(shù)和測試數(shù)據(jù)集這幾個方面對6種方法進行了歸納總結(jié)，下面將詳細介紹這6類方法。

2.1.1 基于譜聚類邊緣檢測算法

譜聚類算法是建立在譜圖理論基礎(chǔ)之上，并利用數(shù)據(jù)的相似矩陣的特征向量進行聚類的方法。與其他方法相比具有明顯的優(yōu)勢：思想簡單、易于實現(xiàn)、具有識別非高斯分布的能力、可用于邊緣檢測算法中。

2015 年，Shen 等［33］利用深卷積神經(jīng)網(wǎng)絡(luò)（Deep Convolutional Neural Network，DCNN）來學(xué)習(xí)輪廓檢測的判別特征［48-50］，提出了DeepContour 邊緣檢測算法，該算法根據(jù)輪廓斑塊的固有結(jié)構(gòu)將其分割成緊湊的簇，通過這種聚類方式產(chǎn)生輪廓塊的中層形狀表示，形成的類由形狀標簽分配，再通過不同的模型參數(shù)擬合不同形狀的輪廓數(shù)據(jù)，采用分治策略［51］，降低多樣性造成的訓(xùn)練難度。DeepContour 算法還采用了結(jié)構(gòu)化森林［52-53］作為深度特征的輪廓與非輪廓分類器，在BSDS500上取得了最新的結(jié)果（ODS值為0.757）。

2.1.2 多尺度融合邊緣檢測算法

多尺度就是對信號的不同粒度的采樣，在不同的尺度下可觀察不同的特征，從而完成不同的任務(wù)。研究者一直都在設(shè)計各種各樣的多尺度模型架構(gòu)，也是目前比較流行的邊緣檢測技術(shù)，具體可分為以下4 種：多尺度輸入、多尺度特征融合、多尺度特征預(yù)測融合和以上方法的組合。

2015 年，Bertasius 等［10］重用Ivan 等的［34］網(wǎng)絡(luò)的前五個卷積層計算得到的特征，提出了一個端到端的卷積架構(gòu)DeepEdge，該架構(gòu)在多個尺度上同時運行，并結(jié)合來自圖像的局部和全局信息，從而顯著提高了輪廓檢測的準確率。DeepEdge 架構(gòu)將輸入的4 個不同尺度的KNet［34］的卷積層計算得到的特征與一個分岔成兩個分支的學(xué)習(xí)子網(wǎng)連接起來。在分岔子網(wǎng)絡(luò)中，優(yōu)化了兩個具有不同學(xué)習(xí)目標的分支。其中一個分支的權(quán)值通過邊緣分類目標進行優(yōu)化，另一個分支的權(quán)值則通過訓(xùn)練來預(yù)測與人類標記的一致比例，即回歸準則。結(jié)果表明，分類分支的預(yù)測結(jié)果具有較高的邊緣回憶率，而回歸分支的預(yù)測結(jié)果具有較高的精度。因此，融合這兩個輸出獲得優(yōu)秀的結(jié)果，ODS 值為0.753 和mAP（mean Average Precision）值為0.807。

2015 年，Bertasius 等［37］受到人類判斷某個特定像素邊界時會使用對象級別推理的啟發(fā)，提出了一種精確、高效、適用于高級視覺任務(wù)的邊界檢測系統(tǒng)HFL（High-For-Low）。該系統(tǒng)展示了如何利用預(yù)先訓(xùn)練的對象分類網(wǎng)絡(luò)、對象特征來預(yù)測邊界。它是一個高對低的過程，其中高層次的對象特征通知低層次的邊界檢測過程。此外，HFL 證明了使用邊界的語義性質(zhì)可以幫助一些高層次的視覺任務(wù)，可以把這個過程看作是一個“低對高”的方案，在這個方案中，低層次的邊界幫助高級別的視覺任務(wù)。HFL模型在BSDS500數(shù)據(jù)集上實現(xiàn)了當時最先進的性能（ODS值為0.767）。

2015年，Xie等［8］研究了一種新的邊緣檢測算法——整體嵌套邊緣檢測（HED），解決了視覺中長期存在的兩個重要問題：1）基于整體圖像的訓(xùn)練和預(yù)測；2）多尺度的特征學(xué)習(xí)。該算法通過深度學(xué)習(xí)模型執(zhí)行圖像到圖像的預(yù)測，利用完全卷積神經(jīng)網(wǎng)絡(luò)和深監(jiān)督網(wǎng)絡(luò)，自動學(xué)習(xí)豐富的層次表示。在BSDS500 數(shù)據(jù)集（ODS 值為0.788）和NYUD 數(shù)據(jù)集（ODS 值為0.746）上使用該技術(shù)，大幅提高了檢測速度（每張圖像0.4 s），比最近的基于CNN的邊緣檢測算法快幾個數(shù)量級。

2016 年，Liu 等［36］為了緩解邊緣檢測假陽性（非邊緣像素被錯誤地預(yù)測為邊緣）的困難，提出了RDS（Relaxed Deep Supervision）算法，使用不同的深度監(jiān)管，從粗到細，不僅保持了高的性能，而且融合了網(wǎng)絡(luò)的多樣性，更好地進行邊緣檢測。該算法先在訓(xùn)練數(shù)據(jù)集中生成粗邊注釋，然后使用目標數(shù)據(jù)集對其進行微調(diào)，并且融合了Canny 檢測器和SE 檢測器。實驗結(jié)果表明，在BSDS500數(shù)據(jù)集上ODS值為0.792。

2019 年，He 等［45］利用多尺度提出了一種雙向級聯(lián)網(wǎng)絡(luò)BDCN（Bi-Directional Cascade Network）結(jié)構(gòu)，在該結(jié)構(gòu)中，單個層由具有特定比例的標記邊緣進行監(jiān)督，而不是直接對所有CNN 輸出相同的監(jiān)督。此外，為了豐富BDCN，還引入了尺度增強模塊（Scale Enhancement Module，SEM），以生成多尺度特征，而不是使用更深的CNN。通過結(jié)合SEM 和BDCN，該方法在3 個數(shù)據(jù)集（BSDS500、NYUD V2、Multicue）上實現(xiàn)了較好的性能，ODS 值達到0.828，優(yōu)于人類感知（ODS 值為0.803）。

2.1.3 跨層融合邊緣檢測算法

跨層融合就是在同一網(wǎng)絡(luò)結(jié)構(gòu)中淺層特征和深層特征相融合，深層特征具有高語義信息且感受野較大的特點，而淺層的特征具有位置信息且感受野較小的特點，融合兩者特征可以達到增加深層特征的效果，讓深層的特征具有較為豐富的目標邊緣信息。

低層特征分辨率更高，包含更多位置、細節(jié)信息，但是由于經(jīng)過的卷積更少，其語義性更低，噪聲更多。高層特征具有更強的語義信息，但是分辨率很低，對細節(jié)的感知能力較差。因此把兩者高效融合，是改善分割模型的關(guān)鍵。

2017 年，Liu 等［14］針對目前基于CNN 的方法通常只利用了每個卷積階段最后一層的特征，導(dǎo)致很多有用的信息丟失，提出一種全卷積網(wǎng)絡(luò)來高效地利用每一個CNN 層的特征RCF（Richer Convolutional Feature）。該網(wǎng)絡(luò)貢獻有兩點：1）利用FPN（Feature Pyramid Network）思想結(jié)合高層和底層的特征映射進行邊緣檢測；2）優(yōu)化損失函數(shù)，使其更具有一般性。實驗結(jié)果表明，在BSDS500 數(shù)據(jù)集ODS 值為0.806（8 FPS），得到2017年最好邊緣檢測的效果。

2018年，Deng 等［44］針對目前基于深度卷積神經(jīng)網(wǎng)絡(luò)的邊界或邊緣檢測方法普遍存在預(yù)測邊緣較粗的問題，為了使CNN 在沒有后處理的情況下產(chǎn)生清晰的邊界，提出了一種新的邊界檢測方法LPCB（Learning to Predict Crisp Boundaries），該方法采用自底向上/自頂向下體系結(jié)構(gòu)的端到端網(wǎng)絡(luò)結(jié)構(gòu)，該網(wǎng)絡(luò)有效地利用了層次特征，產(chǎn)生了像素精度高的邊界掩碼，是重構(gòu)邊緣圖的關(guān)鍵。實驗表明，直接進行Crisp 預(yù)測不僅可以提高CNN的可視化結(jié)果，而且在BSDS500數(shù)據(jù)集（ODS值為0.815）和NYUD 數(shù)據(jù)集［49］（ODS 值為0.762）上都獲得了更好的結(jié)果。

2019 年，Qu 等［46］基于Caffe（Convolutional architecture for fast feature embedded）框架和VGG16（Visual Geometry Group）模板，提出了一種基于視覺交叉融合（Visual Cross Fusion，VCF）網(wǎng)絡(luò)的邊緣檢測方法。VCF 模型首先分別通過全連接層的參數(shù)降維和交叉融合來提取多層次結(jié)構(gòu)特征，從而實現(xiàn)端到端的圖像邊緣檢測；其次，為了最大限度地利用圖像像素集，自定義分級加權(quán)交叉熵損失函數(shù)；最后，利用跨網(wǎng)絡(luò)融合對圖像邊緣特征進行細化。實驗結(jié)果表明，VCF 算法在BSDS500經(jīng)典數(shù)據(jù)集上ODS值為0.808。

2.1.4 網(wǎng)絡(luò)重構(gòu)邊緣檢測算法

現(xiàn)在越來越多的CNN模型從巨型網(wǎng)絡(luò)到輕量化網(wǎng)絡(luò)一步步演變，準確率也越來越高。邊緣檢測不僅要求準確率，而且要求速度，都希望模型又快又準。研究者通過重構(gòu)AlexNet［39］、VGGnet、Inception、ResNet［41］等網(wǎng)絡(luò)架構(gòu)追求速度與準確率。

2014 年，Ganin 等［38］針對自然邊緣檢測和稀疏目標分割等復(fù)雜的圖像處理問題，提出了一種新的圖像處理體系結(jié)構(gòu)（N4-Fields），該網(wǎng)絡(luò)把CNN 與最鄰近搜索（Nearest neighbor search）結(jié)合，在網(wǎng)絡(luò)最高層的輸出使用最鄰近搜索，在測試階段N4 場將Patch 通過CNN，對于給定的每一個Patch，都會輸出一個低維的向量。該方法在BSDS500數(shù)據(jù)集中的性能達到或超過了當前的水平（ODS值為0.753）。

2016年，Maninis等［40］提出了一種卷積定向邊界結(jié)構(gòu)COB（Convolutional Oriented Boundaries），該結(jié)構(gòu)允許端到端學(xué)習(xí)多尺度定向輪廓，它從一般的圖像分類卷積神經(jīng)網(wǎng)絡(luò)（CNN）開始，產(chǎn)生多尺度定向輪廓和區(qū)域?qū)哟?，并且在層次分割中使用了一種新的稀疏邊界表示，在性能上比最新技術(shù)有了顯著的飛躍，并且很好地推廣到未知類別和數(shù)據(jù)集。

圖2 基于深度學(xué)習(xí)的邊緣檢測算法分類Fig.2 Classification of edge detection algorithms based on deep learning

2017年，Xu等［42］受到深度學(xué)習(xí)架構(gòu)中利用圖形模型的文章啟發(fā)［54-55］，引入了注意門控條件隨機場（Attention Gating Conditional Random Field，AG-CRF），它允許通過利用其他尺度的可用信息來學(xué)習(xí)每個尺度上的強特征圖表示，這是通過將注意力機制［54］以gates［55］的形式無縫集成到多尺度學(xué)習(xí)過程中來實現(xiàn)的。直觀的注意機制將進一步提高學(xué)習(xí)多尺度表示的質(zhì)量，從而提高模型的整體性能。文章將提出的AG-CRF集成到一個兩級層次的CNN 模型中，定義了一種新的基于注意力引導(dǎo)的多尺度層次深度網(wǎng)AMH-Net（Attention-guided Multiscale Hierarchical deepNet）用于邊緣檢測。與傳統(tǒng)的CNN 相比，層次網(wǎng)絡(luò)能夠?qū)W習(xí)到更豐富的多尺度特征，而提出的AGCRF模型進一步增強了網(wǎng)絡(luò)的表示能力。實驗結(jié)果表明，在兩個數(shù)據(jù)集（BSDS500和NYUD V2數(shù)據(jù)集［31］）上該方法能夠?qū)W習(xí)豐富和互補的特征，從而優(yōu)于當時先進的邊緣檢測方法。

2.1.5 基于編解碼邊緣檢測算法

編碼器解碼器（encoder-decoder）結(jié)構(gòu)是利用對稱網(wǎng)絡(luò)結(jié)構(gòu)對圖像語義解析的機制，其本質(zhì)是利用深度學(xué)習(xí)技術(shù)中的卷積、池化等操作所構(gòu)成的編碼器來編碼被捕獲的像素位置信息和圖像特征，再利用反卷積（deconvolution）或上池化（unpooling）等操作所構(gòu)成的解碼器來對其進行解析，還原圖像的空間維度和像素的位置信息。

2016年，Yang等［47］受全卷積網(wǎng)絡(luò)［56］和反卷積網(wǎng)絡(luò)［57］在語義分割上啟發(fā)，提出了一個全卷積編解碼網(wǎng)絡(luò)（Convolutional Encoder-Decoder Network，CEDN）。CEDN 可以在任意大小的圖像上運行，用VGG16［35］初始化編碼器，為了實現(xiàn)對圖像大小的密集預(yù)測，解碼器是通過交替的池化層和卷積層構(gòu)建的，其中池化層采用最大池化。在訓(xùn)練過程中，修正了編碼器的參數(shù)，優(yōu)化了解碼器的參數(shù)，使得編碼器可以保持其泛化能力，以便學(xué)習(xí)解碼器網(wǎng)絡(luò)可以很容易地與其他任務(wù)相結(jié)合，如邊框回歸或語義分割。

2.1.6 亞像素邊緣檢測算法

亞像素技術(shù)就是在兩個像素點之間進一步細分，從而得到亞像素級別邊緣點的坐標，一般來說，現(xiàn)有的技術(shù)可以做到2 細分、4 細分，甚至更高，通過亞像素邊緣檢測技術(shù)的使用，可以節(jié)約成本，提高識別精度。

2017年，Wang等［19］為了解決卷積神經(jīng)網(wǎng)絡(luò)邊緣檢測輸出模糊的難題，并試圖提高HED［8］的定位能力，結(jié)合密集圖像標記方面的最新進展［58-59］，提出了一種新的細化架構(gòu)CED（Crisp Edge Detector）。該方法是一個具有自頂向下的反向細化路徑的邊緣檢測網(wǎng)絡(luò)，該網(wǎng)絡(luò)使用高效的亞像素卷積逐步提高特征圖的分辨率。細化路徑為網(wǎng)絡(luò)增加了額外的非線性，進一步降低了相鄰像素內(nèi)邊緣響應(yīng)的相關(guān)性。CED 算法在BSDS500 數(shù)據(jù)集上取得了很好的結(jié)果，在標準條件下超過了人類的表現(xiàn)，在更嚴格的評價標準下大大超過了當時最先進的方法。

表2 基于全監(jiān)督學(xué)習(xí)的邊緣檢測算法對比Tab.2 Comparison of edge detection algorithms based on fully supervised learning

2.2 弱監(jiān)督和無監(jiān)督邊緣檢測算法

近幾年，基于全監(jiān)督學(xué)習(xí)的邊界檢測方法效果已達到人類視覺水平，但是全監(jiān)督學(xué)習(xí)算法需要大量的訓(xùn)練數(shù)據(jù)，標注對象邊界是最昂貴的原因之一。因此有必要放寬對圖像進行仔細標注的要求，以使培訓(xùn)更容易負擔(dān)，并擴展培訓(xùn)數(shù)據(jù)量。

2016年，Khoreva等［60］提出了一種生成弱監(jiān)督約束條件的方法WSOB（Weakly Supervised Object Boundaries），并證明了僅使用邊界框注釋就可以達到高質(zhì)量的對象邊界，而不需要使用任何特定于對象的邊界注釋。該方法使用了一個決策森林［26］和一個對流邊緣探測器［61］，利用所提出的弱監(jiān)督技術(shù)，實現(xiàn)了對目標邊界檢測任務(wù)的最優(yōu)執(zhí)行，在很大程度上超過了當時先進的全監(jiān)督方法。

2016 年，Li 等［62］提出了一種簡單而有效的無監(jiān)督邊緣檢測器來訓(xùn)練圖像，該方法利用了幀之間的噪聲半密集匹配。從邊緣的基本知識（以圖像梯度的形式）開始，然后依次在改進運動估計和邊緣估計之間進行切換。利用大量的視頻數(shù)據(jù)，證明了使用無監(jiān)督方案訓(xùn)練的邊緣檢測器的性能接近于在完全監(jiān)督下訓(xùn)練的方法。

3 邊緣檢測關(guān)鍵技術(shù)

3.1 卷積神經(jīng)網(wǎng)絡(luò)

CNN 本質(zhì)是一個多層感知機，優(yōu)點是使得圖像可以直接作為輸入，避免了傳統(tǒng)識別算法中復(fù)雜的特征提取和數(shù)據(jù)重建的過程，在二維圖像的處理過程中有很大的優(yōu)勢，如網(wǎng)絡(luò)能夠自行抽取圖像的特征包括顏色、紋理、形狀及圖像的拓撲結(jié)構(gòu)，在處理二維圖像的問題上，特別是識別位移、縮放及其他形式扭曲不變性的應(yīng)用上具有良好的魯棒性和運算效率等。CNN 有三個關(guān)鍵的操作：一是局部感受野；二是權(quán)值共享；三是pooling 層，有效地減少了網(wǎng)絡(luò)的參數(shù)個數(shù)，緩解了模型的過擬合問題。典型的卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)包括：LeNet5［63］、AlexNet［39］、VGGNet［35］、Google InceptionNet［64］、ResNet［41］等。卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu)對比如表3所示。

邊緣檢測算法使用最多的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)是VGGNet，VGGNet 是牛津大學(xué)Visual Geometry Group 在AlexNet 基礎(chǔ)上做了改進，整個網(wǎng)絡(luò)都使用了同樣大小3×3 卷積核和2×2 最大池化，網(wǎng)絡(luò)結(jié)果簡單，參數(shù)較少，而且3×3 卷積核能更好地保持圖像特征，如圖3所示。

圖3 VGG-16卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 VGG-16 convolutional neural network architecture

表3 卷積神經(jīng)網(wǎng)絡(luò)典型結(jié)構(gòu)對比Tab.3 Comparison of classic convolutional neural network architectures

3.2 損失函數(shù)

損失函數(shù)是為了衡量模型預(yù)測的好壞，即用來表現(xiàn)預(yù)測值與實際值的差距程度。它是一個非負實數(shù)函數(shù)，通常使用?(Y，f(x))來表示，損失函數(shù)越小，模型的魯棒性就越好。

文獻［8］，HED 為了抵消邊緣和非邊緣之間的不平衡，提出了類平衡交叉熵損失函數(shù)，如式（1）所示：

文獻［14］，RCF為了提高性能提出了一個新的損失函數(shù)，該損失函數(shù)增加了一個參數(shù)，在正負樣本比例基礎(chǔ)上加權(quán)，如式（2）所示：

文獻［46］，VCF 在HED 和RCF 的基礎(chǔ)上提出了分級加權(quán)交叉熵損失函數(shù)，進一步提高了網(wǎng)絡(luò)的性能，如式（3）所示：

其中：Y+和Y-表示邊緣和非邊緣數(shù)據(jù)集表示正樣本比重表示負樣本比重，γ 是優(yōu)化參數(shù)，平衡正負樣本。

以上三種邊緣檢測算法用的都是交叉熵損失函數(shù)，該函數(shù)只跟輸出值和真實值的差值成正比，收斂較快，反向傳播連乘，使整個權(quán)重矩陣的更新都會加快。

3.3 數(shù)據(jù)集

深度學(xué)習(xí)的另一個關(guān)鍵就是用富有挑戰(zhàn)和典型的數(shù)據(jù)集來測試算法的可靠性。經(jīng)過幾年的研究，大量的數(shù)據(jù)集已被提出用來測試和評估計算機視覺算法。邊緣檢測常用數(shù)據(jù)集包括BSDS500、NYUD V2、Pascal-VOC［65］、Pascal-Context［66］等，為了提高檢測精度，邊緣檢測算法訓(xùn)練的數(shù)據(jù)集數(shù)量越來越大［67］，數(shù)據(jù)集詳細內(nèi)容如表4所示。

表4 邊緣檢測常用數(shù)據(jù)集Tab.4 Datasets commonly used for edge detection

邊緣檢測算法使用最多的數(shù)據(jù)集BSDS500，該數(shù)據(jù)集可以用來圖像分割和物體邊緣檢測，包含200 張訓(xùn)練圖，100 張驗證圖，200 張測試圖；所有真值用.mat 文件保存，包含segmentation 和boundaries，每張圖片對應(yīng)真值有5 個，為5 個人標注的真值，訓(xùn)練時真值可采用平均值或者用來擴充數(shù)據(jù)，評測代碼中會依次對這5 個真值都做對比。最近很多邊緣檢測算法，如BDCN［45］、CRF［14］、HED［8］、VCF［41］等為了提高檢測精度，對BSDS500 訓(xùn)練集和驗證集進行了數(shù)據(jù)擴充，包括旋轉(zhuǎn)、翻轉(zhuǎn)、尺度縮放。

4 性能分析

邊緣檢測算法的結(jié)果需要統(tǒng)一的量化標準，即評價指標來說明。本章講述了邊緣檢測4 個標準評估：最優(yōu)數(shù)據(jù)集規(guī)模（ODS）、最佳圖像規(guī)模（Optimal Image Size，OIS）、每秒幀數(shù)（Frames Per Second，F(xiàn)PS）和PR 曲線。ODS 為具有固定輪廓閾值的F-measure 值，當每幅圖像的F-measure 值具有最優(yōu)閾值時，得到OIS。P-R（Precision-Recall）曲線是應(yīng)用最廣泛的，它是對分類器的預(yù)測結(jié)果按照置信度進行降序排列，然后按此順序?qū)永M行預(yù)測，計算出當前的查全率（Recall）作為x軸、精準率（Precision）作為y 軸，以此作圖，繪制出P-R 曲線。在BSDS500 中邊緣檢測算法ODS 對比，如圖4 所示。邊緣檢測算法的P-R曲線，如圖5所示。

圖4 BSDS500數(shù)據(jù)集上的邊緣檢測算法的ODS性能發(fā)展趨勢Fig.4 ODS performance development trends of edge detection algorithms on BSDS500 dataset

從圖5 可以看出，基于深度學(xué)習(xí)的邊緣檢測算法ODS 值基本上都高于傳統(tǒng)邊緣檢測算法，VCF、RCF、LPCB、BDCN 4個算法超出人類視覺（Human 0.803）值，因此，基于深度學(xué)習(xí)的邊緣檢測算法具有很好的研究前景，尤其是多尺度多層次融合技術(shù)和損失函數(shù)選擇和設(shè)置。

圖5 BSDS500數(shù)據(jù)集上的P-R曲線Fig.5 P-R curves on BSDS500 dataset

5 結(jié)語

目前，深度學(xué)習(xí)技術(shù)已廣泛應(yīng)用在邊緣檢測領(lǐng)域。本文主要對基于深度學(xué)習(xí)的邊緣檢測的經(jīng)典方法進行了較為詳細的分類、梳理與總結(jié)，并對每類方法和代表性算法進行了研究、分析和對比，概括每類技術(shù)優(yōu)缺點。對邊緣檢測關(guān)鍵技術(shù)進行了研究。在現(xiàn)有研究成果的基礎(chǔ)上，該領(lǐng)域還存在如下一些具有挑戰(zhàn)性的研究方向：

1）3D（3 Dimensional）數(shù)據(jù)集：3D 數(shù)據(jù)集比低維數(shù)據(jù)集更難創(chuàng)建。盡管已經(jīng)有一些工作基礎(chǔ)，但仍有更多、更多樣化數(shù)據(jù)空間，更重要的是要注意現(xiàn)實世界數(shù)據(jù)的重要性。

2）信息融合檢測：通過上下文建模，可以提高準確性。語義分割與多尺度融合取得了顯著進展，但仍存在檢測精度不高、邊緣模糊等問題，需要進一步研究。

3）弱監(jiān)督和無監(jiān)督邊緣檢測：在弱監(jiān)督檢測技術(shù)中，只使用圖像級的標注或部分使用包圍盒標注對檢測器進行訓(xùn)練，對于降低勞動成本和提高檢測靈活性具有重要意義。

4）動態(tài)視頻邊緣檢測：高清視頻中的實時目標/跟蹤邊緣檢測對于視頻監(jiān)控和自動駕駛具有重要意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡