楊祖源 劉華軍
(南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 南京 210094)
邊緣檢測是在圖像中提取物體顯著的邊緣信息[1],在絕大多數(shù)的視覺任務(wù)[2]中發(fā)揮著重要的作用,應(yīng)用包括光流估計(jì)、圖像分割[3]和生成圖像修復(fù)[4]等。
邊緣作為圖像中的重要結(jié)構(gòu)特征往往存在于不同的區(qū)域以及物體和背景之間。LapLace,Prewwit,Sobel[5]和Canny[6]算子等傳統(tǒng)的邊緣檢測算法利用圖像的顏色、紋理和梯度信息等特征來進(jìn)行邊緣檢測,這些特征在復(fù)雜的環(huán)境中難以實(shí)現(xiàn)高質(zhì)量的邊緣檢測。Dollar等[7]通過隨機(jī)決策森林的方法生成圖像塊,進(jìn)一步提高輸出邊緣的質(zhì)量。上述方法都是基于人工設(shè)計(jì)的,這對于具有語義意義的邊緣檢測來說,使用手工設(shè)計(jì)的特征去表示高級復(fù)雜信息的能力是非常局限的。
由于深度學(xué)習(xí)理論在計(jì)算機(jī)視覺方面有了重大的突破,越來越多的研究人員開始使用卷積神經(jīng)網(wǎng)絡(luò)[8]進(jìn)行邊緣檢測。Shen 等[9]提出的DeepContour 邊緣檢測算法對圖像塊進(jìn)行分類,采用分治策略,最后對分類結(jié)果進(jìn)行融合。Bertasius 等[10]提出的DeepEdge 模型同時(shí)在多個(gè)尺度上進(jìn)行邊緣檢測,通過Canny 算子得到邊緣候選點(diǎn)并結(jié)合圖像的局部信息,從而提升了邊緣檢測的精度。Xie 等[11]提出HED 模型,通過使用全卷積神經(jīng)網(wǎng)絡(luò)和深監(jiān)督的方式讓網(wǎng)絡(luò)能夠自動學(xué)習(xí)提取邊緣特征,讓網(wǎng)絡(luò)能夠?qū)W習(xí)到邊緣的高層語義信息。Liu等[12]提出了RCF 模型,在HED 模型的基礎(chǔ)上對所有卷積層的輸出都進(jìn)行了融合,并且采用了魯棒性更好的損失函數(shù)進(jìn)行訓(xùn)練,但是得到的結(jié)果邊緣較粗而且噪聲較多。
因此,本文提出一種跨層多尺度特征融合(Cross-layer Multi-Scale Feature Fusion,CMFF)的邊緣檢測模型,在殘差網(wǎng)絡(luò)[13]中引入擴(kuò)張卷積[14]和全局注意力模塊;設(shè)計(jì)了多尺度融合模塊,增大模型感受野的同時(shí)提取更高效的邊緣特征;為了進(jìn)一步提取更精細(xì)的邊緣,設(shè)計(jì)了跨層融合模塊,將高層含有全局信息的特征和低層含有細(xì)節(jié)紋理的特征進(jìn)行融合,使得低層特征也能關(guān)注全局特征。
CMFF 模型以Resnet50[13]為主干網(wǎng)絡(luò),將第一個(gè)stage 和最后一個(gè)stage 的3×3 卷積核的步長設(shè)為1。對最后一個(gè)階段的3 個(gè)Bottleneck 使用擴(kuò)張系數(shù)分別為1、2、3 的擴(kuò)張卷積,保證能夠在不增加模型計(jì)算量的同時(shí)擴(kuò)大感受野。在每個(gè)Bottleneck里加入全局注意力模塊(Global Attention Module,GAM),網(wǎng)絡(luò)能夠?qū)W習(xí)到不同通道和不同位置像素點(diǎn)的關(guān)聯(lián)性,從而提高了邊緣檢測精度。多尺度融合(Multi-Scale Fusion,MSF)模塊對每個(gè)stage的側(cè)邊輸出進(jìn)行多尺度特征融合,讓模型充分學(xué)習(xí)到不同尺度下的邊緣特征??鐚尤诤希–ross-layer Fusion,CLF)模塊對高層產(chǎn)生的特征圖和低層產(chǎn)生的特征圖進(jìn)行跨層特征融合,使得低層也能夠關(guān)注高層的全局特征。模型的結(jié)構(gòu)圖如圖1所示。
圖1 CMFF網(wǎng)絡(luò)結(jié)構(gòu)
在Bottleneck模塊加入全局注意力[16]模塊。全局注意力模塊如圖2 所示,通過融合特征圖的通道維度信息和空間維度信息,使得生成的特征圖更能關(guān)注全局顯著的邊緣。在通道維度方面,輸入的特征圖F分別經(jīng)過平均和最大池化操作得到和,將兩個(gè)特征圖經(jīng)過兩個(gè)全連接層并將輸出的特征進(jìn)行元素加和,再經(jīng)過Sigmoid 得到Mc。將Mc與F 對應(yīng)元素相乘得到具有通道關(guān)注的邊緣特征圖F1。計(jì)算公式如下:
圖2 全局注意力模塊
其中,avgpool(·)表示平局池化操作,maxpool(·)表示最大池化操作,fc(·)表示全連接輸出,σ(·)表示Sigmoid激活函數(shù)輸出。
在空間維度方面,F(xiàn)1沿著通道維度經(jīng)過平均和最大池化操作得到和,然后將這兩個(gè)特征以級聯(lián)的方式進(jìn)行融合,通過卷積層進(jìn)行卷積,再經(jīng)過激活函數(shù)得到Ms。最后將Ms與F1對應(yīng)元素相乘得到同時(shí)具有通道和空間關(guān)注的特征圖F2。具體計(jì)算公式如下:
其中,c(·)表示特征連接操作,?表示卷積輸出。
多尺度融合模塊結(jié)構(gòu)如圖3所示。
圖3 多尺度融合模塊
由于大尺度的卷積核會使模型的計(jì)算量急劇增大,從而導(dǎo)致模型的訓(xùn)練難度增大和訓(xùn)練時(shí)間變長,因此采用擴(kuò)張卷積代替大尺度卷積核,保證在模型參數(shù)不增加的情況下也能學(xué)習(xí)到大尺度的特征信息。首先采用一個(gè)3×3卷積對輸入的特征圖F的特征維度降低到32,經(jīng)過Relu 激活函數(shù)得到Fc,然后采用三個(gè)擴(kuò)張系數(shù)分別為4,8,12 的3×3擴(kuò)張卷積對圖像進(jìn)行特征提取,得到特征圖F1,F(xiàn)2和F3,然后經(jīng)過Relu 激活函數(shù)。最后,將F1,F(xiàn)2,F(xiàn)3和Fc進(jìn)行元素相加融合,生成最終的特征圖Fd。具體計(jì)算公式如下:
其中,relu(·)表示激活函數(shù)輸出,?(·,d)表示擴(kuò)張系數(shù)為d的卷積輸出。
跨層融合模塊結(jié)構(gòu)如圖4 所示,CLF 模塊首先對高層的特征Fk+1上采樣到低層特征Fk的大小,然后以元素加和的方式和低層的特征Fk進(jìn)行特征融合,再通過Sigmoid激活函數(shù)得到Fadd。最后,將低層的特征圖和經(jīng)過Sigmoid激活函數(shù)后的特征圖mask 對應(yīng)的元素進(jìn)行相乘得到Ffuse,低層特征能夠充分學(xué)習(xí)高層特征的全局信息。具體計(jì)算公式如下:
圖4 跨層融合模塊
其中,upsample(·)表示上采樣操作。
對于CLF模塊的輸出,一方面作為前一階段的CLF 模塊的輸入;另一方面使用反卷積操作,上采樣到原圖像大小,通過標(biāo)簽圖對每個(gè)階段的輸出進(jìn)行深監(jiān)督學(xué)習(xí)。
邊緣檢測數(shù)據(jù)集通常由多個(gè)注釋者進(jìn)行標(biāo)記。對于每一個(gè)圖像,對所有標(biāo)簽加和取平均值得到一個(gè)邊緣概率圖。我們將概率等于0 的像素認(rèn)為是負(fù)樣本,概率高于η的像素認(rèn)為是正樣本,處于中間值的像素則認(rèn)為是模糊的,不參與損失計(jì)算。本文模型使用文獻(xiàn)[12]所使用的交叉熵函數(shù)作為損失函數(shù),每個(gè)像素相對于標(biāo)簽的損失值計(jì)算公式如下:
其中,Xi表示第i 個(gè)像素點(diǎn)的像素值,yi表示第i個(gè)像素點(diǎn)的標(biāo)簽真值,P 表示邊緣預(yù)測概率,W 表示模型的權(quán)重,|Y+|和 |Y-|分別代表正負(fù)樣本的個(gè)數(shù),參數(shù)λ用來平衡正負(fù)樣本的數(shù)量比例。
由于模型中每個(gè)階段輸出的邊緣結(jié)果差異較大,每個(gè)階段損失的量級可能不一樣,而且最后的融合結(jié)果應(yīng)該處于主導(dǎo)地位,因此本文設(shè)置了不同階段的損失權(quán)重,增加了模型中最后兩個(gè)階段的損失比重和融合階段的損失比重,使生成的檢測結(jié)果更具魯棒性。將模型的5 個(gè)stage 的損失權(quán)重設(shè)置為,最終融合層的損失權(quán)重為Sfuse,因此總損失函數(shù)可寫為其中,n 代表每張圖片像素點(diǎn)的總數(shù),表示第k個(gè)stage的損失權(quán)重,Sfuse表示融合層的損失權(quán)重。
BIPED 數(shù)據(jù)集是由文獻(xiàn)[15]公開的一個(gè)經(jīng)過仔細(xì)注釋的邊緣數(shù)據(jù)集。它包含250 幅1280×720像素的戶外圖像,其中200 張圖像為訓(xùn)練圖像,其余50 張圖像為測試圖像。為了增加訓(xùn)練圖像的數(shù)量,對數(shù)據(jù)集進(jìn)行了水平翻轉(zhuǎn),旋轉(zhuǎn)角度等操作。
BSDS500[16]數(shù)據(jù)集是伯克利大學(xué)提供的用于邊緣檢測的數(shù)據(jù)集。該數(shù)據(jù)集包含訓(xùn)練集,驗(yàn)證集和測試集總共500 張圖像。對訓(xùn)練集和驗(yàn)證集進(jìn)行了類似BIPED 數(shù)據(jù)集的數(shù)據(jù)擴(kuò)充。最后加上PASCAL VOC Context[17]數(shù)據(jù)集用于訓(xùn)練。
NYUDv2[18]數(shù)據(jù)集是由紐約大學(xué)提供的從室內(nèi)場景捕獲的密集標(biāo)記的RGBD 圖像。NYUDv2數(shù)據(jù)集包含381個(gè)訓(xùn)練圖像,414個(gè)驗(yàn)證圖像和654個(gè)測試圖像。我們利用圖像的深度信息來獲取圖像的HHA 特征,然后通過歸一化將HHA 特征表示為彩色圖像。最后對RGB圖像和HHA特征圖像分別進(jìn)行訓(xùn)練,取兩者輸出的平均值作為模型最終的輸出。
在BSDS500數(shù)據(jù)集中,由于每個(gè)圖像由多個(gè)注釋者標(biāo)記,所以在訓(xùn)練時(shí),將η設(shè)為0.3。由于BIPED 數(shù)據(jù)集和NYUDv2 數(shù)據(jù)集提供了二值的標(biāo)簽,所以η在這里沒有意義。NYUDv2 數(shù)據(jù)集中,RGB和HHA 的λ均設(shè)置為1.2,BIPED 數(shù)據(jù)集和BSDS500 數(shù)據(jù)集的λ設(shè)置為1.1。對于不同階段的損失權(quán)重,本文將分別設(shè)為0.5,0.5,0.5,0.6,0.6,Sfuse設(shè)為1.2。
邊緣檢測結(jié)果的指標(biāo)通常包含ODS[19],OIS[19]和AP。用于評估的邊緣圖需要對模型輸出的邊緣圖進(jìn)行非極大值抑制處理。
在BIPED數(shù)據(jù)集上,本文與其他相關(guān)算法進(jìn)行了對比,結(jié)果如表1 所示。從表中可以看出,CMFF模型的ODS 和OIS 分別比DexiNed 模型提高了0.7%和0.4%。
表1 各算法在BIPED的對比結(jié)果
BSDS500數(shù)據(jù)集上的對比結(jié)果如表2和圖5所示。其中MS 表示多尺度輸入,從表中可以看出CMFF模型的ODS和OIS分別比RCF-ResNet101模型提高了0.2%和0.1%。圖6 給出了CMFF 模型和HED,RCF模型邊緣輸出的對比結(jié)果。從圖中可以看出HED 和RCF 模型產(chǎn)生的邊緣圖像中包含較多無關(guān)的紋理細(xì)節(jié),而且噪聲也比較多,而CMFF 模型更能夠關(guān)注物體整體的邊緣,且對一些細(xì)節(jié)模糊的問題處理得更好。
表2 各算法在BSDS500的對比結(jié)果
圖5 BSDS500評估結(jié)果
圖6 不同模型在BSDS500的結(jié)果對比
NYUDv2 數(shù)據(jù)集有3 種類型的輸入,分別為RGB,HHA和RGB-HHA。根據(jù)之前的相關(guān)工作[12],本文對3種輸入都進(jìn)行了評估。其中,對RGB模型和HHA 模型的輸出取平均值作為RGB-HHA 的評估結(jié)果。本文與其他相關(guān)算法進(jìn)行了對比,對比結(jié)果如表3和圖7所示。
表3 各算法在NYUDv2的對比結(jié)果
圖7 NYUDv2評估結(jié)果
從表中可以看出,CMFF 模型的ODS 和OIS 分別比RCF模型提高了0.4%和0.8%。
為了查看CMFF 模型每個(gè)模塊的提升效果,在BSDS500 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表4 所示。
表4 各模塊改進(jìn)效果的比對結(jié)果
在主干網(wǎng)絡(luò)中引入GAM 注意力模塊和擴(kuò)張卷積后,模型的ODS 和OIS 分別提高了0.1%和0.1%,證明了本模型的主干網(wǎng)絡(luò)提取的特征信息更加豐富有效。另外,在每個(gè)stage 通過MSF 模塊對多尺度特征進(jìn)行融合,ODS 和OIS 分別提高了0.4%和0.2%,說明模型能夠充分融合不同尺度的特征提取更高效的邊緣特征。通過CLF 模塊跨層融合不同階段的輸出特征,ODS 和OIS 分別都進(jìn)一步提高了0.3%和0.2%,說明通過將高層特征傳遞給低層后,模型能學(xué)習(xí)到更多的全局特征。
本文提出了一種跨層多尺度特征融合的邊緣檢測模型。模型在Resnet50 主干網(wǎng)絡(luò)中加入GAM模塊,提高了模型的特征提取能力。在最后一個(gè)stage 采用擴(kuò)張卷積提升模型的感受野。另外,模型采用了一種多尺度特征融合方式,使得每個(gè)stage 能提取更高效的邊緣特征。模型還采用了一種由高到低的特征融合方式,使得模型能夠更加注重全局信息。以上實(shí)驗(yàn)說明CMFF 模型能夠生成更清晰,更具魯棒性的邊緣圖像。