跨層多尺度特征融合的邊緣檢測模型*

2023-07-11 07:31楊祖源劉華軍

計(jì)算機(jī)與數(shù)字工程 2023年3期

楊祖源劉華軍

（南京理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院南京 210094）

1 引言

邊緣檢測是在圖像中提取物體顯著的邊緣信息［1］，在絕大多數(shù)的視覺任務(wù)［2］中發(fā)揮著重要的作用，應(yīng)用包括光流估計(jì)、圖像分割［3］和生成圖像修復(fù)［4］等。

邊緣作為圖像中的重要結(jié)構(gòu)特征往往存在于不同的區(qū)域以及物體和背景之間。LapLace，Prewwit，Sobel［5］和Canny［6］算子等傳統(tǒng)的邊緣檢測算法利用圖像的顏色、紋理和梯度信息等特征來進(jìn)行邊緣檢測，這些特征在復(fù)雜的環(huán)境中難以實(shí)現(xiàn)高質(zhì)量的邊緣檢測。Dollar等［7］通過隨機(jī)決策森林的方法生成圖像塊，進(jìn)一步提高輸出邊緣的質(zhì)量。上述方法都是基于人工設(shè)計(jì)的，這對于具有語義意義的邊緣檢測來說，使用手工設(shè)計(jì)的特征去表示高級復(fù)雜信息的能力是非常局限的。

由于深度學(xué)習(xí)理論在計(jì)算機(jī)視覺方面有了重大的突破，越來越多的研究人員開始使用卷積神經(jīng)網(wǎng)絡(luò)［8］進(jìn)行邊緣檢測。Shen 等［9］提出的DeepContour 邊緣檢測算法對圖像塊進(jìn)行分類，采用分治策略，最后對分類結(jié)果進(jìn)行融合。Bertasius 等［10］提出的DeepEdge 模型同時(shí)在多個(gè)尺度上進(jìn)行邊緣檢測，通過Canny 算子得到邊緣候選點(diǎn)并結(jié)合圖像的局部信息，從而提升了邊緣檢測的精度。Xie 等［11］提出HED 模型，通過使用全卷積神經(jīng)網(wǎng)絡(luò)和深監(jiān)督的方式讓網(wǎng)絡(luò)能夠自動學(xué)習(xí)提取邊緣特征，讓網(wǎng)絡(luò)能夠?qū)W習(xí)到邊緣的高層語義信息。Liu等［12］提出了RCF 模型，在HED 模型的基礎(chǔ)上對所有卷積層的輸出都進(jìn)行了融合，并且采用了魯棒性更好的損失函數(shù)進(jìn)行訓(xùn)練，但是得到的結(jié)果邊緣較粗而且噪聲較多。

因此，本文提出一種跨層多尺度特征融合（Cross-layer Multi-Scale Feature Fusion，CMFF）的邊緣檢測模型，在殘差網(wǎng)絡(luò)［13］中引入擴(kuò)張卷積［14］和全局注意力模塊；設(shè)計(jì)了多尺度融合模塊，增大模型感受野的同時(shí)提取更高效的邊緣特征；為了進(jìn)一步提取更精細(xì)的邊緣，設(shè)計(jì)了跨層融合模塊，將高層含有全局信息的特征和低層含有細(xì)節(jié)紋理的特征進(jìn)行融合，使得低層特征也能關(guān)注全局特征。

2 網(wǎng)絡(luò)模型

2.1 模型總體結(jié)構(gòu)

CMFF 模型以Resnet50［13］為主干網(wǎng)絡(luò)，將第一個(gè)stage 和最后一個(gè)stage 的3×3 卷積核的步長設(shè)為1。對最后一個(gè)階段的3 個(gè)Bottleneck 使用擴(kuò)張系數(shù)分別為1、2、3 的擴(kuò)張卷積，保證能夠在不增加模型計(jì)算量的同時(shí)擴(kuò)大感受野。在每個(gè)Bottleneck里加入全局注意力模塊（Global Attention Module，GAM），網(wǎng)絡(luò)能夠?qū)W習(xí)到不同通道和不同位置像素點(diǎn)的關(guān)聯(lián)性，從而提高了邊緣檢測精度。多尺度融合（Multi-Scale Fusion，MSF）模塊對每個(gè)stage的側(cè)邊輸出進(jìn)行多尺度特征融合，讓模型充分學(xué)習(xí)到不同尺度下的邊緣特征?？鐚尤诤希–ross-layer Fusion，CLF）模塊對高層產(chǎn)生的特征圖和低層產(chǎn)生的特征圖進(jìn)行跨層特征融合，使得低層也能夠關(guān)注高層的全局特征。模型的結(jié)構(gòu)圖如圖1所示。

圖1 CMFF網(wǎng)絡(luò)結(jié)構(gòu)

2.2 全局注意力模塊

在Bottleneck模塊加入全局注意力［16］模塊。全局注意力模塊如圖2 所示，通過融合特征圖的通道維度信息和空間維度信息，使得生成的特征圖更能關(guān)注全局顯著的邊緣。在通道維度方面，輸入的特征圖F分別經(jīng)過平均和最大池化操作得到和，將兩個(gè)特征圖經(jīng)過兩個(gè)全連接層并將輸出的特征進(jìn)行元素加和，再經(jīng)過Sigmoid 得到Mc。將Mc與F 對應(yīng)元素相乘得到具有通道關(guān)注的邊緣特征圖F1。計(jì)算公式如下：

圖2 全局注意力模塊

其中，avgpool(·)表示平局池化操作，maxpool(·)表示最大池化操作，fc(·)表示全連接輸出，σ(·)表示Sigmoid激活函數(shù)輸出。

在空間維度方面，F(xiàn)1沿著通道維度經(jīng)過平均和最大池化操作得到和，然后將這兩個(gè)特征以級聯(lián)的方式進(jìn)行融合，通過卷積層進(jìn)行卷積，再經(jīng)過激活函數(shù)得到Ms。最后將Ms與F1對應(yīng)元素相乘得到同時(shí)具有通道和空間關(guān)注的特征圖F2。具體計(jì)算公式如下：

其中，c(·)表示特征連接操作，?表示卷積輸出。

2.3 多尺度融合模塊

多尺度融合模塊結(jié)構(gòu)如圖3所示。

圖3 多尺度融合模塊

由于大尺度的卷積核會使模型的計(jì)算量急劇增大，從而導(dǎo)致模型的訓(xùn)練難度增大和訓(xùn)練時(shí)間變長，因此采用擴(kuò)張卷積代替大尺度卷積核，保證在模型參數(shù)不增加的情況下也能學(xué)習(xí)到大尺度的特征信息。首先采用一個(gè)3×3卷積對輸入的特征圖F的特征維度降低到32，經(jīng)過Relu 激活函數(shù)得到Fc，然后采用三個(gè)擴(kuò)張系數(shù)分別為4，8，12 的3×3擴(kuò)張卷積對圖像進(jìn)行特征提取，得到特征圖F1，F(xiàn)2和F3，然后經(jīng)過Relu 激活函數(shù)。最后，將F1，F(xiàn)2，F(xiàn)3和Fc進(jìn)行元素相加融合，生成最終的特征圖Fd。具體計(jì)算公式如下：

其中，relu(·)表示激活函數(shù)輸出，?(·,d)表示擴(kuò)張系數(shù)為d的卷積輸出。

2.4 跨層融合模塊

跨層融合模塊結(jié)構(gòu)如圖4 所示，CLF 模塊首先對高層的特征Fk+1上采樣到低層特征Fk的大小，然后以元素加和的方式和低層的特征Fk進(jìn)行特征融合，再通過Sigmoid激活函數(shù)得到Fadd。最后，將低層的特征圖和經(jīng)過Sigmoid激活函數(shù)后的特征圖mask 對應(yīng)的元素進(jìn)行相乘得到Ffuse，低層特征能夠充分學(xué)習(xí)高層特征的全局信息。具體計(jì)算公式如下：

圖4 跨層融合模塊

其中，upsample(·)表示上采樣操作。

對于CLF模塊的輸出，一方面作為前一階段的CLF 模塊的輸入；另一方面使用反卷積操作，上采樣到原圖像大小，通過標(biāo)簽圖對每個(gè)階段的輸出進(jìn)行深監(jiān)督學(xué)習(xí)。

2.5 損失函數(shù)

邊緣檢測數(shù)據(jù)集通常由多個(gè)注釋者進(jìn)行標(biāo)記。對于每一個(gè)圖像，對所有標(biāo)簽加和取平均值得到一個(gè)邊緣概率圖。我們將概率等于0 的像素認(rèn)為是負(fù)樣本，概率高于η的像素認(rèn)為是正樣本，處于中間值的像素則認(rèn)為是模糊的，不參與損失計(jì)算。本文模型使用文獻(xiàn)［12］所使用的交叉熵函數(shù)作為損失函數(shù)，每個(gè)像素相對于標(biāo)簽的損失值計(jì)算公式如下：

其中，Xi表示第i 個(gè)像素點(diǎn)的像素值，yi表示第i個(gè)像素點(diǎn)的標(biāo)簽真值，P 表示邊緣預(yù)測概率，W 表示模型的權(quán)重，|Y+|和 |Y-|分別代表正負(fù)樣本的個(gè)數(shù)，參數(shù)λ用來平衡正負(fù)樣本的數(shù)量比例。

2.6 不同階段的損失權(quán)重

由于模型中每個(gè)階段輸出的邊緣結(jié)果差異較大，每個(gè)階段損失的量級可能不一樣，而且最后的融合結(jié)果應(yīng)該處于主導(dǎo)地位，因此本文設(shè)置了不同階段的損失權(quán)重，增加了模型中最后兩個(gè)階段的損失比重和融合階段的損失比重，使生成的檢測結(jié)果更具魯棒性。將模型的5 個(gè)stage 的損失權(quán)重設(shè)置為，最終融合層的損失權(quán)重為Sfuse，因此總損失函數(shù)可寫為其中，n 代表每張圖片像素點(diǎn)的總數(shù)，表示第k個(gè)stage的損失權(quán)重，Sfuse表示融合層的損失權(quán)重。

3 實(shí)驗(yàn)

3.1 數(shù)據(jù)集

BIPED 數(shù)據(jù)集是由文獻(xiàn)［15］公開的一個(gè)經(jīng)過仔細(xì)注釋的邊緣數(shù)據(jù)集。它包含250 幅1280×720像素的戶外圖像，其中200 張圖像為訓(xùn)練圖像，其余50 張圖像為測試圖像。為了增加訓(xùn)練圖像的數(shù)量，對數(shù)據(jù)集進(jìn)行了水平翻轉(zhuǎn)，旋轉(zhuǎn)角度等操作。

BSDS500［16］數(shù)據(jù)集是伯克利大學(xué)提供的用于邊緣檢測的數(shù)據(jù)集。該數(shù)據(jù)集包含訓(xùn)練集，驗(yàn)證集和測試集總共500 張圖像。對訓(xùn)練集和驗(yàn)證集進(jìn)行了類似BIPED 數(shù)據(jù)集的數(shù)據(jù)擴(kuò)充。最后加上PASCAL VOC Context［17］數(shù)據(jù)集用于訓(xùn)練。

NYUDv2［18］數(shù)據(jù)集是由紐約大學(xué)提供的從室內(nèi)場景捕獲的密集標(biāo)記的RGBD 圖像。NYUDv2數(shù)據(jù)集包含381個(gè)訓(xùn)練圖像，414個(gè)驗(yàn)證圖像和654個(gè)測試圖像。我們利用圖像的深度信息來獲取圖像的HHA 特征，然后通過歸一化將HHA 特征表示為彩色圖像。最后對RGB圖像和HHA特征圖像分別進(jìn)行訓(xùn)練，取兩者輸出的平均值作為模型最終的輸出。

3.2 訓(xùn)練細(xì)節(jié)

在BSDS500數(shù)據(jù)集中，由于每個(gè)圖像由多個(gè)注釋者標(biāo)記，所以在訓(xùn)練時(shí)，將η設(shè)為0.3。由于BIPED 數(shù)據(jù)集和NYUDv2 數(shù)據(jù)集提供了二值的標(biāo)簽，所以η在這里沒有意義。NYUDv2 數(shù)據(jù)集中，RGB和HHA 的λ均設(shè)置為1.2，BIPED 數(shù)據(jù)集和BSDS500 數(shù)據(jù)集的λ設(shè)置為1.1。對于不同階段的損失權(quán)重，本文將分別設(shè)為0.5，0.5，0.5，0.6，0.6，Sfuse設(shè)為1.2。

3.3 實(shí)驗(yàn)結(jié)果

邊緣檢測結(jié)果的指標(biāo)通常包含ODS［19］，OIS［19］和AP。用于評估的邊緣圖需要對模型輸出的邊緣圖進(jìn)行非極大值抑制處理。

在BIPED數(shù)據(jù)集上，本文與其他相關(guān)算法進(jìn)行了對比，結(jié)果如表1 所示。從表中可以看出，CMFF模型的ODS 和OIS 分別比DexiNed 模型提高了0.7%和0.4%。

表1 各算法在BIPED的對比結(jié)果

BSDS500數(shù)據(jù)集上的對比結(jié)果如表2和圖5所示。其中MS 表示多尺度輸入，從表中可以看出CMFF模型的ODS和OIS分別比RCF-ResNet101模型提高了0.2%和0.1%。圖6 給出了CMFF 模型和HED，RCF模型邊緣輸出的對比結(jié)果。從圖中可以看出HED 和RCF 模型產(chǎn)生的邊緣圖像中包含較多無關(guān)的紋理細(xì)節(jié)，而且噪聲也比較多，而CMFF 模型更能夠關(guān)注物體整體的邊緣，且對一些細(xì)節(jié)模糊的問題處理得更好。

表2 各算法在BSDS500的對比結(jié)果

圖5 BSDS500評估結(jié)果

圖6 不同模型在BSDS500的結(jié)果對比

NYUDv2 數(shù)據(jù)集有3 種類型的輸入，分別為RGB，HHA和RGB-HHA。根據(jù)之前的相關(guān)工作［12］，本文對3種輸入都進(jìn)行了評估。其中，對RGB模型和HHA 模型的輸出取平均值作為RGB-HHA 的評估結(jié)果。本文與其他相關(guān)算法進(jìn)行了對比，對比結(jié)果如表3和圖7所示。

表3 各算法在NYUDv2的對比結(jié)果

圖7 NYUDv2評估結(jié)果

從表中可以看出，CMFF 模型的ODS 和OIS 分別比RCF模型提高了0.4%和0.8%。

3.4 消融實(shí)驗(yàn)

為了查看CMFF 模型每個(gè)模塊的提升效果，在BSDS500 數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如表4 所示。

表4 各模塊改進(jìn)效果的比對結(jié)果

在主干網(wǎng)絡(luò)中引入GAM 注意力模塊和擴(kuò)張卷積后，模型的ODS 和OIS 分別提高了0.1%和0.1%，證明了本模型的主干網(wǎng)絡(luò)提取的特征信息更加豐富有效。另外，在每個(gè)stage 通過MSF 模塊對多尺度特征進(jìn)行融合，ODS 和OIS 分別提高了0.4%和0.2%，說明模型能夠充分融合不同尺度的特征提取更高效的邊緣特征。通過CLF 模塊跨層融合不同階段的輸出特征，ODS 和OIS 分別都進(jìn)一步提高了0.3%和0.2%，說明通過將高層特征傳遞給低層后，模型能學(xué)習(xí)到更多的全局特征。

4 結(jié)語

本文提出了一種跨層多尺度特征融合的邊緣檢測模型。模型在Resnet50 主干網(wǎng)絡(luò)中加入GAM模塊，提高了模型的特征提取能力。在最后一個(gè)stage 采用擴(kuò)張卷積提升模型的感受野。另外，模型采用了一種多尺度特征融合方式，使得每個(gè)stage 能提取更高效的邊緣特征。模型還采用了一種由高到低的特征融合方式，使得模型能夠更加注重全局信息。以上實(shí)驗(yàn)說明CMFF 模型能夠生成更清晰，更具魯棒性的邊緣圖像。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡