国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于無錨框分割網(wǎng)絡(luò)改進(jìn)的實(shí)例分割方法

2022-09-15 06:59:32劉宏哲李學(xué)偉
計(jì)算機(jī)工程 2022年9期
關(guān)鍵詞:掩膜分支特征提取

劉 騰,劉宏哲,李學(xué)偉,徐 成

(1.北京聯(lián)合大學(xué) 北京市信息服務(wù)工程重點(diǎn)實(shí)驗(yàn)室,北京 100101;2.北京聯(lián)合大學(xué) 機(jī)器人學(xué)院,北京 100101)

0 概述

隨著深度學(xué)習(xí)的發(fā)展,卷積神經(jīng)網(wǎng)絡(luò)受到人們?cè)絹碓蕉嗟年P(guān)注,并取得一定的進(jìn)展,基于深度學(xué)習(xí)的實(shí)例分割方法被提出。與目標(biāo)檢測方法和語義分割方法相比,實(shí)例分割方法不僅能預(yù)測每個(gè)實(shí)例的位置,而且可以對(duì)目標(biāo)進(jìn)行像素級(jí)分割,并適用于自動(dòng)駕駛場景中,為自動(dòng)駕駛決策提供預(yù)處理信息。

實(shí)例分割方法主要有兩階段范式、單階段范式、自上向下和自底向上范式。Mask R-CNN[1]及其改進(jìn)網(wǎng)絡(luò)根據(jù)自上向下的兩階段范式,通過候選框來檢測目標(biāo)區(qū)域并微調(diào)候選框,在每個(gè)候選框中進(jìn)行分類以生成邊界框和目標(biāo)掩膜。兩階段范式能提高分割準(zhǔn)確性,但依賴于多個(gè)分支和較大的參數(shù)計(jì)算,導(dǎo)致實(shí)時(shí)分割困難?;阱^框的單階段目標(biāo)檢測方法主要有YOLO[2]和RetinaNet[3],無錨框的檢測方法有FCOS[4]和CenterNet[5]等。單階段實(shí)例分割主要在目標(biāo)檢測網(wǎng)絡(luò)的基礎(chǔ)上增加分割分支來實(shí)現(xiàn)實(shí)例分割,在保證分割速度的同時(shí)具有較高的分割精度。

單階段、無錨框的分割方法具有檢測器架構(gòu)簡單且無需預(yù)先生成錨框的特點(diǎn),大幅加快算法的運(yùn)行速度。但是該方法存在尺度不對(duì)齊、區(qū)域不對(duì)齊和任務(wù)不對(duì)齊的問題。許多無錨框?qū)嵗指罘椒ǘ嗖捎肦esNet與特征金字塔(Feature Pyramid Network,F(xiàn)PN)相結(jié)合的結(jié)構(gòu)來學(xué)習(xí)多尺度特征,以實(shí)現(xiàn)特征提取的尺度不變性,然而不同尺度的層級(jí)特征也有所區(qū)別,造成大目標(biāo)特征覆蓋小目標(biāo)特征,導(dǎo)致特征提取不充分。無錨框方法缺少兩階段檢測器中的ROI-Align 操作,因此,無法準(zhǔn)確獲取目標(biāo)區(qū)域,需要從特征圖上直接學(xué)習(xí)到目標(biāo)的位置信息和輪廓特征。大多數(shù)無錨框?qū)嵗指罘椒ú⑿型ㄟ^類別分支和掩膜分支進(jìn)行圖像分割,分割結(jié)果需要平衡兩個(gè)分支的任務(wù),容易忽略類別分支對(duì)掩膜分支的指導(dǎo)作用。

本文提出基于無錨框分割網(wǎng)絡(luò)改進(jìn)的實(shí)例分割方法。通過構(gòu)建編碼-解碼特征提取網(wǎng)絡(luò),提取高分辨率特征,利用空洞卷積代替普通卷積以擴(kuò)大感受野,同時(shí)采用合并連接方式融合特征。在此基礎(chǔ)上,將注意力機(jī)制引入到類別分支中,設(shè)計(jì)信息增強(qiáng)模塊,并將信息共享給掩膜分支,從而改進(jìn)網(wǎng)絡(luò)的分割效果。

1 相關(guān)工作

現(xiàn)有實(shí)例分割方法多基于目標(biāo)檢測方法進(jìn)行改進(jìn),傳統(tǒng)的特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖1 所示。

圖1 傳統(tǒng)的特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of traditional feature extraction network

1.1 單階段目標(biāo)檢測方法

主流目標(biāo)檢測方法包括單階段和兩階段目標(biāo)檢測。

兩階段目標(biāo)檢測方法主要有Fast R-CNN[6]、Faster R-CNN[7]、YOLO[8-9]、SSD[10]等。該方法多基于區(qū)域建議網(wǎng)絡(luò)提取感興趣的區(qū)域,這種處理限制模型的推理速度。而單階段目標(biāo)檢測方法直接通過主干網(wǎng)絡(luò)提取目標(biāo)的類別和位置信息,推理速度相較于兩階段目標(biāo)檢測方法更快。在此基礎(chǔ)上,無錨框目標(biāo)檢測方法被提出。在YOLO 檢測方法中,圖像被分成S×S的網(wǎng)格,同時(shí)預(yù)測包圍框和物體的中心,并直接對(duì)每一個(gè)網(wǎng)格中的潛在目標(biāo)進(jìn)行分類和回歸。文獻(xiàn)[11]將YOLO 網(wǎng)絡(luò)結(jié)構(gòu)用于行人檢測,通過聚類分析選取初始候選框,利用重組特征圖和擴(kuò)展橫向候選框數(shù)量構(gòu)建基于YOLO 網(wǎng)絡(luò)的行人檢測器YOLO-P。CenterNet[5]基于關(guān)鍵點(diǎn)估計(jì)原理對(duì)中心點(diǎn)進(jìn)行預(yù)測,并直接回歸出目標(biāo)的寬、高(W,H)向量來構(gòu)建目標(biāo)的邊界框,從而避免在訓(xùn)練過程中處理大量的候選區(qū)域和計(jì)算真值框與預(yù)測框的交并比(IoU)所帶來的計(jì)算開銷。在此基礎(chǔ)上,通過最大池化提取中心熱圖上的峰值點(diǎn),以避免采用非最大抑制(NMS)進(jìn)行后處理。FCOS 是一種基于全卷積網(wǎng)絡(luò)(FCN)[12]的逐像素目標(biāo)檢測方法,并提出以中心點(diǎn)位置來進(jìn)行檢測的方法。該方法通過一個(gè)四維向量定義邊界框,并計(jì)算預(yù)測中心以及從中心到邊界框左、上、右、下的距離,不僅有助于確定物體的大小,還可以區(qū)分兩個(gè)或多個(gè)物體之間的重疊部分。

1.2 兩階段實(shí)例分割方法

全卷積分割網(wǎng)絡(luò)的提出促進(jìn)了語義分割和實(shí)例分割方法的發(fā)展,并基于編碼-解碼特征提取網(wǎng)絡(luò)結(jié)構(gòu),大幅提高網(wǎng)絡(luò)的卷積效率。

Mask R-CNN 采用自上而下的方法,在一個(gè)建議區(qū)域內(nèi)確定像素與物體之間的關(guān)系,利用Fast R-CNN 進(jìn)行目標(biāo)檢測,并通過添加額外的分割分支進(jìn)行實(shí)例分割任務(wù)。因此,Mask R-CNN 有分類、坐標(biāo)回歸和分割三個(gè)輸出分支。該方法在目標(biāo)檢測結(jié)果的基礎(chǔ)上對(duì)候選區(qū)域的目標(biāo)進(jìn)行像素級(jí)分割,以提高實(shí)例分割的準(zhǔn)確性,但采用復(fù)雜的特征金字塔結(jié)構(gòu)進(jìn)行特征提取,增加了網(wǎng)絡(luò)的復(fù)雜度。FCIS[13]是第一個(gè)端到端的實(shí)例分割網(wǎng)絡(luò),通過對(duì)目標(biāo)實(shí)例的分?jǐn)?shù)進(jìn)行映射,以自上而下的方式引入上下文信息,并在分割任務(wù)中充分共享上下文信息,提高實(shí)例分割的準(zhǔn)確性。BlendMask[14]通過FCOS 目標(biāo)檢測網(wǎng)絡(luò)獲得目標(biāo)的位置后,在對(duì)應(yīng)每一個(gè)建議區(qū)域上基于特征注意力機(jī)制,將頂層信息和底層信息相結(jié)合,最終輸出一個(gè)高分辨率的掩膜。該方法在提高分割精度的同時(shí)增加了計(jì)算復(fù)雜度。文獻(xiàn)[15]在Mask R-CNN 的基礎(chǔ)上,采用輕量級(jí)骨干網(wǎng)絡(luò)減少網(wǎng)絡(luò)參數(shù)并壓縮模型體積,通過優(yōu)化FPN 與骨干網(wǎng)絡(luò)的卷積結(jié)構(gòu),使得高層和低層結(jié)構(gòu)之間的特征信息能夠完整傳遞。文獻(xiàn)[16]在Mask R-CNN 基礎(chǔ)上引入自下而上路徑和注意力機(jī)制進(jìn)行目標(biāo)檢測和分割。

兩階段實(shí)例分割方法具有較優(yōu)的分割精度,但是分割速度難以滿足現(xiàn)階段的應(yīng)用場景要求。

1.3 單階段實(shí)例分割方法

兩階段實(shí)例分割方法主要是在一個(gè)邊界框中進(jìn)行實(shí)例分割,屬于典型的自上而下范式。自上向下和自下向上方法都是在尋找對(duì)象與像素之間的關(guān)系,即語義與像素之間的關(guān)系。近年來,實(shí)例分割方法的整體結(jié)構(gòu)趨向于簡單化,在不增加復(fù)雜計(jì)算量的情況下提高目標(biāo)分割性能。因此,自底向上的方法應(yīng)運(yùn)而生,通過將像素分組到圖像中的一組候選掩膜中,再通過嵌入、聚集和組合來生成最終的實(shí)例掩膜。其中特征提取結(jié)構(gòu)采用ResNet 與特征金字塔相結(jié)合的傳統(tǒng)結(jié)構(gòu),如圖1 所示。

Yolact[17]是第一個(gè)可以實(shí)時(shí)進(jìn)行實(shí)例分割的網(wǎng)絡(luò),其結(jié)構(gòu)如圖1(c)所示。該方法在RetinaNet 的基礎(chǔ)上進(jìn)行改進(jìn),通過質(zhì)子網(wǎng)絡(luò)生成每幅圖片的原型掩膜,同時(shí)預(yù)測每個(gè)目標(biāo)實(shí)例和包圍框得到k個(gè)線性系數(shù)(掩模系數(shù)),并結(jié)合生成的線性系數(shù),采用線性組合的方式生成實(shí)例掩膜。但是其特征提取部分仍采用ResNet與FPN 相結(jié)合的結(jié)構(gòu),容易造成小目標(biāo)特征提取不充分,并且類別分支和掩膜分支的預(yù)測結(jié)果需要按照系數(shù)進(jìn)行疊加,存在兩個(gè)任務(wù)不匹配的問題。

單階段、無錨框?qū)嵗指罹W(wǎng)絡(luò)SOLO[18]通過一種新穎的方式表示語義與像素之間的關(guān)系。該方法認(rèn)為實(shí)例分割是檢測目標(biāo)中心點(diǎn)和目標(biāo)大小的過程,將圖像分成S×S個(gè)格子,每個(gè)格子表示目標(biāo)在圖像上的位置,將每個(gè)像素的位置信息投影到特征圖的通道維度上,通過對(duì)應(yīng)的通道特征圖預(yù)測屬于該類別的實(shí)例掩膜。因此,該方法保留了目標(biāo)的結(jié)構(gòu)化幾何信息,有助于對(duì)目標(biāo)像素進(jìn)行有效分割。

上述方法將目標(biāo)的位置預(yù)測由回歸問題轉(zhuǎn)化為分類問題。其意義在于它是一種直觀、簡單的分類方法,并且不依賴于后處理方法,僅通過固定數(shù)量的卷積對(duì)不確定數(shù)量的目標(biāo)實(shí)例進(jìn)行建模,提高分割效率。但是特征提取部分同樣采用簡單的ResNet 與FPN 相結(jié)合的結(jié)構(gòu),存在小目標(biāo)特征提取不充分的問題。TensorMask[19]采用復(fù)雜的滑動(dòng)窗方法生成目標(biāo)掩膜,雖然具有較高的掩膜質(zhì)量,但是產(chǎn)生較大的計(jì)算開支。PolarMask/PolarMask++[20-21]把實(shí)例分割問題轉(zhuǎn)化為實(shí)例中心點(diǎn)分類問題和密集距離回歸問題,采用極坐標(biāo)方式把目標(biāo)中心向左、右、上、下輻射出36 個(gè)固定方向的線,將預(yù)測的目標(biāo)邊界作為終點(diǎn)以得到36 個(gè)預(yù)測點(diǎn),從而獲得目標(biāo)的輪廓表示,同時(shí)將這些預(yù)測點(diǎn)連接起來得到最終的目標(biāo)輪廓和掩膜。由于目標(biāo)形狀具有多樣性的特點(diǎn),并且PolarMask/PolarMask++的類別分支、極坐標(biāo)中心分支和掩膜生成分支沒有很好的關(guān)聯(lián),造成任務(wù)不對(duì)齊,因此無法解決個(gè)別不規(guī)則目標(biāo)的分割問題。文獻(xiàn)[22]在雙流網(wǎng)絡(luò)的基礎(chǔ)上,通過引入先驗(yàn)知識(shí)和改進(jìn)特征融合模塊,自適應(yīng)融合來自不同流的特征并送入分割模塊中,達(dá)到單階段實(shí)例分割的目的。文獻(xiàn)[23]在單階段實(shí)例分割網(wǎng)絡(luò)的基礎(chǔ)上,通過改進(jìn)特征提取網(wǎng)絡(luò)并引入可變形卷積等方法,提高番茄葉部病害區(qū)域的分割效率。文獻(xiàn)[24]在單階段實(shí)例分割網(wǎng)絡(luò)的基礎(chǔ)上提出注意力殘差多尺度特征增強(qiáng)網(wǎng)絡(luò),分別從通道和空間角度對(duì)特征進(jìn)行選擇增強(qiáng),并在特征金字塔基礎(chǔ)上進(jìn)一步增強(qiáng)尺度跨度較大的特征融合信息,以解決任務(wù)不對(duì)齊的問題。

因此,單階段實(shí)例分割方法具有結(jié)構(gòu)簡單、推理速度快,分割質(zhì)量可以與傳統(tǒng)兩階段分割方法相媲美的優(yōu)點(diǎn)。但是,此類方法通常使用ResNet 及引入FPN 的方式提取特征,難以有效提取多尺度目標(biāo),尤其是小尺度目標(biāo)的特征。大多數(shù)網(wǎng)絡(luò)忽略了類別分支能指導(dǎo)掩膜分支進(jìn)行目標(biāo)分割。因此,本文通過引入新的編碼-解碼特征提取網(wǎng)絡(luò),信息增強(qiáng)模塊和增加類別分支、掩膜分支信息共享的方法來解決上述問題。

2 本文方法

單階段實(shí)例分割方法通常采用ResNet 和FPN結(jié)構(gòu)相結(jié)合的方式提取特征,容易造成小目標(biāo)特征丟失,導(dǎo)致特征提取不充分。像素級(jí)的分割(對(duì)像素進(jìn)行分類預(yù)測)對(duì)卷積的感受野要求較高,但大多數(shù)網(wǎng)絡(luò)采用簡單的卷積操作,無法提供更廣泛的感受野。在處理目標(biāo)檢測和掩膜生成任務(wù)時(shí)采用并行的兩個(gè)分支,由于未優(yōu)先處理目標(biāo)檢測任務(wù)且沒有進(jìn)行有效的信息共享,因此忽略了目標(biāo)檢測任務(wù)對(duì)整體分割任務(wù)的影響。

針對(duì)上述問題,本文使用改進(jìn)的具有編碼-解碼[25]結(jié)構(gòu)的網(wǎng)絡(luò)作為特征提取結(jié)構(gòu),其后有目標(biāo)類別分支和掩膜分支,并且在類別分支中使用注意力機(jī)制增加空間信息和通道信息,并構(gòu)建信息增強(qiáng)模塊,同時(shí)在兩個(gè)分支之間進(jìn)行信息共享。在交通場景下的小目標(biāo)主要有交通標(biāo)志牌、遠(yuǎn)處的行人和車輛等,具有目標(biāo)重疊、尺度多樣的特點(diǎn)。改進(jìn)的編碼-解碼特征提取網(wǎng)絡(luò)通過并行的四種尺度提取路徑提取多尺度目標(biāo)的特征。在該結(jié)構(gòu)中使用可變形卷積[26]、空洞卷積[27]等方法增大卷積時(shí)的感受野。在類別分支中利用信息增強(qiáng)模塊來優(yōu)先提高網(wǎng)絡(luò)的目標(biāo)檢測能力,并且與掩膜分支進(jìn)行信息共享,以指導(dǎo)掩膜分支,從而提高交通場景中目標(biāo)的掩膜生成能力。本文網(wǎng)絡(luò)整體架構(gòu)如圖2 所示。

圖2 本文網(wǎng)絡(luò)整體架構(gòu)Fig.2 Overall framework of the proposed network

2.1 編碼-解碼特征提取網(wǎng)絡(luò)

HRNet[28]用于人體姿態(tài)識(shí)別,主要輸出可靠的高分辨率特征。針對(duì)人體姿態(tài)檢測和目標(biāo)檢測問題,傳統(tǒng)的目標(biāo)檢測方法僅采用高分辨率到低分辨率的特征,再從低分辨率特征中恢復(fù)出高分辨率特征的方式,例如特征金字塔結(jié)構(gòu)。特征金字塔可以提取多尺度的特征,但是特征分辨率的降低會(huì)導(dǎo)致小尺度目標(biāo)信息丟失,例如,在人體姿態(tài)識(shí)別中,需要定位出人體的解剖關(guān)鍵點(diǎn),如肘部、手腕、各關(guān)節(jié)等,都屬于小尺度的目標(biāo)。傳統(tǒng)方法使用簡單的ResNet進(jìn)行特征提取,難以回歸出關(guān)鍵點(diǎn)的位置,最終導(dǎo)致特征提取不充分。因此,特征提取結(jié)構(gòu)提取出更高分辨率的特征能夠推進(jìn)后續(xù)任務(wù)的有效進(jìn)行。

在實(shí)例分割任務(wù)中需要同時(shí)對(duì)目標(biāo)進(jìn)行檢測、識(shí)別和分割,并提取更高分辨率的特征。傳統(tǒng)的實(shí)例分割方法采用基于FPN 結(jié)構(gòu)的特征提取方式,難以滿足輸出高分辨率特征的要求,存在尺度不對(duì)齊的問題,不能很好地適應(yīng)小目標(biāo)分割的場景需求。編碼-解碼特征提取網(wǎng)絡(luò)結(jié)構(gòu)常用于實(shí)例分割網(wǎng)絡(luò)中的特征提取。因此,本文采用新的特征提取方法,融合編碼-解碼特征提取結(jié)構(gòu)并提取高分辨率特征,以解決小尺度目標(biāo)的分割問題,在精度和速度之間實(shí)現(xiàn)最佳平衡。

本文采用編碼-解碼的方式,并行連接組成骨干網(wǎng)絡(luò),通過重復(fù)融合高到低子網(wǎng)絡(luò)產(chǎn)生的高分辨率特征來生成可靠的高分辨率特征。該編碼-解碼特征提取網(wǎng)絡(luò)上逐漸增加高分辨率到低分辨率的子網(wǎng)絡(luò),并將多分辨率子網(wǎng)并行連接,包含4 個(gè)并行子網(wǎng)的網(wǎng)絡(luò)結(jié)構(gòu),在高分辨率特征中逐漸并行加入低分辨率特征圖的子網(wǎng)絡(luò),實(shí)現(xiàn)在不同網(wǎng)絡(luò)之間的多尺度融合與特征提取。編碼-解碼特征提取網(wǎng)絡(luò)結(jié)構(gòu)如圖3 所示,橫向表示模型深度變化,縱向表示特征圖尺度變化。第一行為主干網(wǎng)絡(luò)(特征圖為高分辨率),逐漸并行加入分辨率低的子網(wǎng)絡(luò),將高分辨率特征和低分辨率特征相融合,在各并行網(wǎng)絡(luò)之間相互交換信息,實(shí)現(xiàn)多尺度特征融合與特征提取。圖3中向上的箭頭表示上采樣操作,向下的箭頭表示下采樣。在上采樣操作中,本文通過可變形卷積代替雙線性插值算法,根據(jù)目標(biāo)尺度動(dòng)態(tài)地調(diào)整、擴(kuò)大感受野,有助于提高對(duì)小目標(biāo)特征的提取能力,從而解決多尺度目標(biāo)分割中尺度不對(duì)齊問題。

圖3 編碼-解碼特征提取網(wǎng)絡(luò)結(jié)構(gòu)Fig.3 Structure of encoder-decoder feature extraction network

2.2 空洞卷積融合與特征改進(jìn)

感受野的擴(kuò)大使得輸出特征圖中包含圖片的全局信息,但是無錨框模型缺少類似Faster-RCNN中的ROI-Align 操作,因此無法根據(jù)邊界框獲取到更精準(zhǔn)的小尺度特征,導(dǎo)致內(nèi)部細(xì)節(jié)信息和空間層級(jí)化信息丟失。本文將上述問題稱為區(qū)域不對(duì)齊問題。這些問題使得分割任務(wù)處在瓶頸期,無法繼續(xù)提高分割精度,但是空洞卷積的設(shè)計(jì)能夠解決上述問題。

卷積核為3×3 的空洞卷積,在不增加計(jì)算量的情況下可將卷積的感受野增大到7×7,相當(dāng)于一個(gè)卷積核為7×7 普通卷積。其目的是在沒有池化操作和信息損失的情況下擴(kuò)大感受野,使得每個(gè)卷積的輸出都包含較大范圍的信息。因此,本文使用3×3 空洞卷積,空洞率為2 進(jìn)行下采樣操作,在不降低卷積速度的同時(shí)減少信息的損耗??斩淳矸e示意圖如圖4 所示。圖4(a)表示空洞率為1 的3×3 空洞卷積。圖4(b)表示空洞率為2 的3×3 空洞卷積,實(shí)際的卷積核還是3×3,感受野相當(dāng)于7×7 卷積的感受野。圖4(c)表示空洞率為4 的空洞卷積,感受野相當(dāng)于15×15 的卷積。在編碼-解碼特征提取網(wǎng)絡(luò)結(jié)構(gòu)中采用空洞卷積和合并連接的方式,以獲得更精準(zhǔn)的多尺度目標(biāo)特征,從而解決區(qū)域不對(duì)齊問題。文獻(xiàn)[29]同樣基于此原理提出基于空洞卷積的分割方法。

圖4 空洞卷積示意圖Fig.4 Schematic diagram of dilated convolution

2.3 空間信息與通道信息增強(qiáng)

無錨框?qū)嵗指罹W(wǎng)絡(luò)(SOLO)僅通過類別分支和掩膜分支進(jìn)行實(shí)例分割。其中,類別分支將圖像分成S×S個(gè)網(wǎng)格進(jìn)行處理,物體的中心(質(zhì)心)落在某個(gè)網(wǎng)格中,該網(wǎng)格主要預(yù)測該物體的語義類別和實(shí)例掩膜。掩膜分支預(yù)測物體的語義類別,每個(gè)網(wǎng)格預(yù)測類別維度為S×S×C,其中,C為目標(biāo)物體類別的個(gè)數(shù)。當(dāng)每個(gè)網(wǎng)格與物體的中心區(qū)域存在大于閾值的重疊時(shí),則認(rèn)為是正樣本。每個(gè)正樣本都會(huì)有對(duì)應(yīng)類別的實(shí)例掩膜。實(shí)驗(yàn)結(jié)果表明,采用這種簡單的兩類分支分別進(jìn)行目標(biāo)檢測和圖像分割任務(wù),類別分支能夠?qū)Χ喑叨饶繕?biāo)進(jìn)行檢測。檢測效率的提升能改進(jìn)整體網(wǎng)絡(luò)對(duì)多尺度目標(biāo)的分割效果,尤其是小目標(biāo)的分割效果。因此,本文在該分支中增加信息增強(qiáng)模塊,提高該分支對(duì)目標(biāo)的回歸能力。

信息增強(qiáng)模塊結(jié)構(gòu)如圖5 所示,包含通道增強(qiáng)模塊(Channel Enhancement Module,CEM)和空間增強(qiáng)模塊(Spatial Enhancement Module,SEM),分別進(jìn)行通道與空間上的信息增強(qiáng)。該模塊添加在類別分支中,輸出回歸結(jié)果。

圖5 信息增強(qiáng)模塊結(jié)構(gòu)Fig.5 Structure of information enhancement module

通道增強(qiáng)模塊結(jié)構(gòu)如圖6 所示。通道增強(qiáng)模塊將輸入的特征圖FH×W×C分別經(jīng)過基于寬度、高度的全局最大池化和全局平均池化,生成兩個(gè)1×1×C的特征圖,并將其分別送入一個(gè)兩層的多層感知機(jī)(Multilayer Perceptron,MLP)中,將MLP 輸出的特征進(jìn)行加和操作,再經(jīng)過Sigmoid 激活操作,生成增強(qiáng)后的通道特征。

圖6 通道增強(qiáng)模塊結(jié)構(gòu)Fig.6 Structure of channel enhancement module

通道增強(qiáng)模塊的計(jì)算如式(1)所示:

其中:F為輸入特征圖;AvgPool、MaxPool 分別為平均池化和最大池化;σ、ω為兩個(gè)操作的權(quán)重,分別取1 和0.5。

空間增強(qiáng)模塊結(jié)構(gòu)如圖7 所示。

圖7 空間增強(qiáng)模塊結(jié)構(gòu)Fig.7 Structure of spatial enhancement module

空間增強(qiáng)模塊將通道增強(qiáng)模塊輸出的特征圖作為輸入的特征圖,首先進(jìn)行基于通道的全局最大池化和全局平均池化,得到兩個(gè)H×W×C的特征圖,然后將這兩個(gè)特征圖基于通道信息進(jìn)行通道拼接操作,經(jīng)過一個(gè)7×7 卷積降維為一個(gè)通道,即H×W×1,再經(jīng)過Sigmoid 激活函數(shù)得到空間增強(qiáng)特征,最后將通道增強(qiáng)和空間增強(qiáng)這兩個(gè)模塊以圖5 所示的方式串行連接在一起,達(dá)到增強(qiáng)信息的目的??臻g增強(qiáng)模塊的計(jì)算如式(2)所示:

其中:?為Sigmoid 激活函數(shù);F為輸入特征圖;AvgPool 和MaxPool 分別為平均池化和最大池化。

2.4 損失函數(shù)

本文的損失函數(shù)如式(3)所示:

其中:Lcate為語義類別分類中常用的Focal Loss;Lmask為本文使用的Dice Loss。Dice Loss 如式(4)所示:

其中:A為預(yù)測出的所有前景像素集合;B為真值的前景像素集合。

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)設(shè)置

本文實(shí)驗(yàn)設(shè)置:Intel?Xeon E5@1.5 GHz,32 GB內(nèi)存,Ubuntu 18 系統(tǒng),顯卡英偉達(dá)GTX Titan V,程序運(yùn)行python 環(huán)境為python3.6,使用pytorch 1.6,CUDA 10.1。

在訓(xùn)練過程中,本文使用隨機(jī)裁剪(從1 024×2 048到512×1 024),并且在[0.5,2]范圍內(nèi)通過隨機(jī)縮放和隨機(jī)水平翻轉(zhuǎn)進(jìn)行數(shù)據(jù)增強(qiáng)。本文使用SGD 優(yōu)化器的學(xué)習(xí)率為0.01,動(dòng)量為0.9,重量衰減因子為0.000 5,采用冪為0.9 的poly 學(xué)習(xí)速率策略降低學(xué)習(xí)速率。

本文在COCO 2017 和Cityscapes 數(shù)據(jù)集上進(jìn)行訓(xùn)練與評(píng)估。Cityscapes 數(shù)據(jù)集包含5 000 張高質(zhì)量像素級(jí)精細(xì)注釋的場景圖像,用于訓(xùn)練、驗(yàn)證和測試,共有30 個(gè)類別,其中,19 個(gè)類別用于評(píng)估。COCO 2017 數(shù)據(jù)集是一個(gè)大型且豐富的物體檢測、分割和字幕數(shù)據(jù)集。這個(gè)數(shù)據(jù)集以scene understanding 為目標(biāo),主要從復(fù)雜的日常場景中截取得到,圖像中的目標(biāo)通過精確的語義標(biāo)注進(jìn)行位置標(biāo)定,提供80 個(gè)類別,超過330 000 張圖片,其中,200 000 張有標(biāo)注,整個(gè)數(shù)據(jù)集中個(gè)體的數(shù)目超過1 500 000 個(gè),是目前語義分割最大的數(shù)據(jù)集。

3.2 實(shí)驗(yàn)結(jié)果

不同方法的分割結(jié)果對(duì)比如圖8 所示(彩色效果見《計(jì)算機(jī)工程》HTML 版)。從圖8 可以看出,本文對(duì)比同樣是無錨框?qū)嵗指罘椒ǖ腨olact 和基準(zhǔn)Mask R-CNN 方法。從圖8 可以看出,在第1 行、第3行和第4 行中Yolact 方法出現(xiàn)分割錯(cuò)誤,并且未分割出棒球、行人、摩托車、汽車等目標(biāo),在第2 行中Mask R-CNN 方法存在明顯的漏分割和分割錯(cuò)誤問題,并且出現(xiàn)檢測錯(cuò)誤,在4 行中Yolact 方法未分割出遠(yuǎn)處的三輛小車。因此,本文方法對(duì)小目標(biāo)的分割有顯著的提升,在分割質(zhì)量、分割數(shù)量上明顯優(yōu)于Yolact 方法和Mask R-CNN 方法。

圖8 不同方法的分割結(jié)果對(duì)比Fig.8 Segmentation results comparison among different methods

本文在Cityscapes數(shù)據(jù)集上使用mIoU(mean Intersection over Union)指標(biāo)表示,不同方法的mIoU對(duì)比如表1所示。

表1 在Cityscapes 數(shù)據(jù)集上不同方法的mIoU 對(duì)比Table 1 mIoU comparison among different methods on Cityscapes dataset %

從表1 可以看出,相比使用Res-101-FPN 結(jié)構(gòu)的Mask R-CNN 和SOLO 方法,本文方法的mIoU 分別增加了3.2 和1.9 個(gè)百分點(diǎn)。

本文在COCO 2017 數(shù)據(jù)集上使用相同的訓(xùn)練策略和AP(Average Precision)指標(biāo)表示。不同方法的評(píng)價(jià)指標(biāo)對(duì)比如表2 所示。與兩階段Mask R-CNN 方法相比,本文方法的AP 值提升了5.4 個(gè)百分點(diǎn)。與單階段BlendMask 方法相比,本文方法的AP 值提升了2.7 個(gè)百分點(diǎn),相比使用Res-101-FPN 的SOLO 方法提升了3.3個(gè)百分點(diǎn)。因此,本文方法能夠有效提升實(shí)例分割的準(zhǔn)確率。

表2 在COCO 2017 數(shù)據(jù)集上不同方法的評(píng)價(jià)指標(biāo)對(duì)比Table 2 Evaluation indexs comparison among different methods on COCO 2017 dataset %

在COCO 2017 數(shù)據(jù)集上,不同方法對(duì)交通場景中行人、自行車、車輛等類別的分割A(yù)P 值對(duì)比如圖9所示。從圖9 可以看出,在以上場景類別中本文方法的分割A(yù)P 值均高于單階段的SOLO 方法和兩階段的Mask R-CNN 方法。

圖9 不同方法的分割A(yù)P 值對(duì)比Fig.9 Segmentation AP values comparison among different methods

3.3 消融實(shí)驗(yàn)

3.3.1 尺度對(duì)齊消融實(shí)驗(yàn)

為驗(yàn)證編碼-解碼特征提取網(wǎng)絡(luò)的有效性,在不同的單階段實(shí)例分割方法上引入Res-101-FPN和編碼-解碼特征提取網(wǎng)絡(luò)的評(píng)價(jià)指標(biāo)對(duì)比如表3所示。從表3 可以看出,使用編碼-解碼多尺度特征提取、融合的方式能顯著提升交通場景中小目標(biāo)的分割性能,能有效地解決單階段網(wǎng)絡(luò)中尺度不對(duì)齊的問題。

表3 不同方法使用和未使用編碼-解碼特征提取網(wǎng)絡(luò)結(jié)構(gòu)的評(píng)價(jià)指標(biāo)對(duì)比Table 3 Evaluation indexs comparison among different methods with and without encoder-decoder feature exaction network structure %

3.3.2 區(qū)域?qū)R消融實(shí)驗(yàn)

在無錨框方法的特征提取過程中,利用簡單的雙線性插值方法進(jìn)行上采樣,容易丟失部分信息,造成區(qū)域不對(duì)齊。在特征提取模塊中使用普通卷積和空洞卷積進(jìn)行下采樣的評(píng)價(jià)指標(biāo)對(duì)比如表4 所示。空洞卷積在基本不增加計(jì)算量的情況下,能夠有效擴(kuò)大感受野,從而優(yōu)化分割效果。在SOLO方法和本文方法中,相比使用普通卷積的特征提取結(jié)果,僅用空洞卷積的AP值分別提升了0.3和0.2個(gè)百分點(diǎn)。實(shí)驗(yàn)結(jié)果表明,空洞卷積代替雙線性插值的方式進(jìn)行上采樣,不僅適用于本文模型,還可以用于類似的網(wǎng)絡(luò)結(jié)構(gòu)中。

表4 不同方法使用普通卷積和空洞卷積的評(píng)價(jià)指標(biāo)對(duì)比Table 4 Evaluation indexs comparison among different methods with ordinary convolution and dilated convolution %

為充分提取多尺度特征,不同特征提取連接方式對(duì)比如圖10 所示,其中,圖10(a)為僅使用特征提取后的最上層特征,圖10(b)為將四層特征進(jìn)行簡單加和得到融合后的特征,圖10(c)為將四層特征進(jìn)行合并以得到最終的多尺度特征,即為本文所采用的連接方式。

圖10 不同特征提取連接方式對(duì)比Fig.10 Comparison among different connection methods for feature extraction

不同特征提取連接方式的AP 值對(duì)比如表5 所示。本文所提的合并連接方式AP 值為41%,相比只取一層特征的方式,提高了4.2 個(gè)百分點(diǎn),相比加和連接方式,提高了1.4 個(gè)百分點(diǎn)。因此,該方式能夠更充分地利用多層特征進(jìn)行多尺度特征融合,改進(jìn)分割效果,以解決區(qū)域不對(duì)齊的問題。

表5 不同特征提取連接方式的AP 值對(duì)比Table 5 AP values comparison among different connection methods for feature extraction %

3.3.3 任務(wù)對(duì)齊消融實(shí)驗(yàn)

本文采用兩個(gè)分支分別進(jìn)行目標(biāo)回歸、檢測和掩膜生成,在減少計(jì)算開銷的同時(shí)進(jìn)行目標(biāo)分割任務(wù),但是此類方法需要類別分支對(duì)掩膜分支進(jìn)行指導(dǎo),即提供相應(yīng)的位置、空間信息。而一般網(wǎng)絡(luò)忽略了類別分支的指導(dǎo)作用,存在任務(wù)不對(duì)齊的問題。本文引入注意力機(jī)制,結(jié)合通道增強(qiáng)模塊和空間增強(qiáng)模塊,并將其融合到類別分支中,以構(gòu)建信息增強(qiáng)模塊。本文優(yōu)先提高類別分支的目標(biāo)檢測能力,并將信息共享給掩膜分支,以提高整體網(wǎng)絡(luò)的圖像分割性能。

不同方法使用和未使用信息增強(qiáng)模塊的評(píng)價(jià)指標(biāo)對(duì)比如表6所示。其中*表示該方法使用信息增強(qiáng)模塊。

表6 不同方法使用和未使用信息增強(qiáng)模塊的評(píng)價(jià)指標(biāo)對(duì)比Table 6 Evaluation indexs comparison among different methods with and without information enhancement module %

從表6 可以看出,信息增強(qiáng)模塊能夠有效提升原方法和其他同類方法的分割效果。相比原方法,引入信息增強(qiáng)模塊方法的AP 值最高提升1 個(gè)百分點(diǎn)。本文對(duì)信息增強(qiáng)模塊的輸出結(jié)果進(jìn)行可視化,不同方法的可視化結(jié)果如圖11 所示(彩色效果見《計(jì)算機(jī)工程》官網(wǎng)HTML 版)。

圖11 不同方法的可視化結(jié)果Fig.11 Visualization results of different methods

圖中紅色越深表示網(wǎng)絡(luò)的注意力越強(qiáng),藍(lán)色越深表示注意力越弱。從圖11 可以看出,在第1 行中,引入信息增強(qiáng)模塊的方法對(duì)交通信號(hào)燈的注意力強(qiáng)于原方法,在第2 行中原方法的注意力出現(xiàn)偏移,改進(jìn)方法則將注意力更多地關(guān)注在摩托車,在最后一行中,原方法對(duì)車輛的注意力明顯少于引入信息增強(qiáng)模塊的方法。因此,信息增強(qiáng)模塊能夠解決任務(wù)不對(duì)齊的問題。

4 結(jié)束語

本文提出基于無錨框分割網(wǎng)絡(luò)改進(jìn)的實(shí)例分割方法。通過編碼-解碼特征提取網(wǎng)絡(luò)提取高分辨率特征,以解決尺度不對(duì)齊的問題,采用空洞卷積和合并連接的方式在增大感受野的同時(shí)有效融合高分辨率和低分辨率特征。在類別分支中引入注意力機(jī)制,設(shè)計(jì)結(jié)合空間信息和通道信息的信息增強(qiáng)模塊,提高目標(biāo)檢測能力。實(shí)驗(yàn)結(jié)果表明,相比Mask R-CNN、SOLO、Yolact等方法,本文方法能夠有效改進(jìn)無錨框?qū)嵗指钚Ч?。下一步將結(jié)合自注意力機(jī)制,研究類別分支與掩膜分支之間的關(guān)系,以提高在遮擋場景下實(shí)例分割的準(zhǔn)確度。

猜你喜歡
掩膜分支特征提取
利用掩膜和單應(yīng)矩陣提高LK光流追蹤效果
一種結(jié)合圖像分割掩膜邊緣優(yōu)化的B-PointRend網(wǎng)絡(luò)方法
巧分支與枝
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
一類擬齊次多項(xiàng)式中心的極限環(huán)分支
光纖激光掩膜微細(xì)電解復(fù)合加工裝置研發(fā)
Bagging RCSP腦電特征提取算法
多層陰影掩膜結(jié)構(gòu)及其制造和使用方法
科技資訊(2016年21期)2016-05-30 18:49:07
基于MED和循環(huán)域解調(diào)的多故障特征提取
生成分支q-矩陣的零流出性
南部县| 上蔡县| 奉新县| 余江县| 三河市| 南召县| 平泉县| 饶平县| 平陆县| 马关县| 策勒县| 南召县| 宝丰县| 黔南| 唐山市| 舒兰市| 辽宁省| 柘城县| 河曲县| 盐山县| 嘉峪关市| 旬邑县| 汉阴县| 平果县| 华阴市| 绥宁县| 通河县| 江北区| 梧州市| 德惠市| 贵州省| 大连市| 武城县| 白银市| 鄂州市| 扎囊县| 肃南| 高阳县| 措美县| 乐至县| 凤山县|