賈博慧, 雷海衛(wèi), 李鳴野,2, 吳 倩
(1.中北大學(xué) 大數(shù)據(jù)學(xué)院, 山西 太原 030051; 2.中國(guó)輻射防護(hù)研究院, 山西 太原 030006)
全景分割[1]是分割領(lǐng)域近幾年新興起的一個(gè)研究方向, 已經(jīng)成為計(jì)算機(jī)視覺中的研究熱點(diǎn)。全景分割綜合了語(yǔ)義分割和實(shí)例分割, 前者按每個(gè)像素點(diǎn)賦予某種類別的方式對(duì)圖像進(jìn)行分割, 后者從圖像中分割出感興趣的目標(biāo)并區(qū)分不同個(gè)體。全景分割的任務(wù)是對(duì)圖像中每個(gè)像素點(diǎn)分配語(yǔ)義類別標(biāo)簽和實(shí)例ID, 從而將圖像內(nèi)容劃分為不可數(shù)語(yǔ)義類Stuff類和可數(shù)實(shí)例類Things類。全景分割能夠獲取更加豐富的場(chǎng)景信息, 從而提供更多的語(yǔ)義知識(shí)。全景分割的研究將有助于推動(dòng)視頻監(jiān)控、無人駕駛、人機(jī)交互等計(jì)算機(jī)視覺應(yīng)用的發(fā)展, 具有重要的意義。
作為語(yǔ)義分割和實(shí)例分割的綜合, 現(xiàn)有的全景分割模型大多采用主干網(wǎng)絡(luò)提取特征供語(yǔ)義分割頭和實(shí)例分割頭分割預(yù)測(cè), 再融合兩個(gè)分支的輸出得到最終分割結(jié)果的模式。例如, Panoptic FPN[2]網(wǎng)絡(luò)使用殘差網(wǎng)絡(luò)[3]和FPN提取特征, 在構(gòu)架層面將語(yǔ)義分割和實(shí)例分割合成到單個(gè)網(wǎng)絡(luò)中, 該網(wǎng)絡(luò)也成為了后續(xù)網(wǎng)絡(luò)模型設(shè)計(jì)的一個(gè)基準(zhǔn)方法。UPSNet[4]中設(shè)計(jì)了全景分割頭融合語(yǔ)義分支和實(shí)例分支的結(jié)果來進(jìn)行全景預(yù)測(cè)。SOGNet[5]網(wǎng)絡(luò)則在整體結(jié)構(gòu)中添加了關(guān)系嵌入模塊, 從而將實(shí)例重疊問題轉(zhuǎn)換為場(chǎng)景交疊圖以解決目標(biāo)重疊時(shí)的像素分配問題, 改善了分割效果。EfficientPS[6]網(wǎng)絡(luò)則進(jìn)一步優(yōu)化了分割質(zhì)量, 該網(wǎng)絡(luò)以改進(jìn)的EfficientNet和雙向FPN為主干, 使用可分離卷積[7]設(shè)計(jì)語(yǔ)義分割頭, 更好地捕獲精細(xì)特征和上下文信息以便于高效地編碼和融合語(yǔ)義豐富的多尺度特征; 實(shí)例分割頭基于Mask R-CNN[8]采用可分離卷積和iABN同步層[9]進(jìn)行增強(qiáng); 無參數(shù)的全景融合頭可基于語(yǔ)義頭和實(shí)例頭得到的置信度自適應(yīng)動(dòng)態(tài)調(diào)整實(shí)例的融合。該網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上取得了當(dāng)時(shí)最好的分割效果, 但目前來看分割效果依舊有提升的空間。
本文提出的基于遞歸層聚合結(jié)構(gòu)的全景分割網(wǎng)絡(luò)是在EfficientPS網(wǎng)絡(luò)的基礎(chǔ)上進(jìn)行了改進(jìn)。在特征提取主干網(wǎng)絡(luò)中, 通過每層卷積神經(jīng)網(wǎng)絡(luò)(CNN)和隱藏狀態(tài)之間的信息交換更新來實(shí)現(xiàn)重用前面層的特征增強(qiáng)當(dāng)前層特征的層聚合機(jī)制, 使得特征信息更加豐富, 增強(qiáng)了模型學(xué)習(xí)結(jié)構(gòu)信息的能力; 在雙向FPN結(jié)尾, 通道多樣化模塊的引入使模型能夠?qū)W習(xí)更多樣化更顯著的特征; 在語(yǔ)義分割頭中, 全局注意力模塊增強(qiáng)了語(yǔ)義分割效果, 總體提升了全景分割的質(zhì)量。本文的主要改進(jìn)點(diǎn)為:
1)將特征提取主干網(wǎng)絡(luò)中的EfficientNet網(wǎng)絡(luò)替換為遞歸層聚合結(jié)構(gòu)的ResNet網(wǎng)絡(luò), 提高了分類網(wǎng)絡(luò)的精度, 在雙向FPN結(jié)構(gòu)后增加了通道多樣化模塊, 防止卷積層過多模型只關(guān)注少數(shù)通道, 增強(qiáng)了主干網(wǎng)絡(luò)提取特征的能力;
2)在語(yǔ)義分割頭中增加跳躍連接與全局注意力模塊組成的分支, 增強(qiáng)了語(yǔ)義分支的全局上下文信息。
現(xiàn)有的全景分割方法大都采用語(yǔ)義分割、實(shí)例分割同時(shí)進(jìn)行, 并將兩部分結(jié)果在后處理中融合的策略。由于語(yǔ)義分割和實(shí)例分割兩個(gè)任務(wù)的預(yù)測(cè)結(jié)果存在互相重合的部分, 這種全景分割策略具有計(jì)算開銷較大、信息冗余、精度不足的問題。
文獻(xiàn)[6]提出的EfficientPS網(wǎng)絡(luò)的設(shè)計(jì)理念就是在保證計(jì)算效率的同時(shí), 提升模型精度。因此, EfficientPS對(duì)全景分割的主干網(wǎng)絡(luò)、語(yǔ)義頭、實(shí)例頭、全景頭4個(gè)子部分進(jìn)行了根據(jù)其特性進(jìn)行的改進(jìn), 包括: 1)改進(jìn)的EfficientNet以及雙路FPN構(gòu)成的特征提取主干網(wǎng)絡(luò), 2)使用可分離卷積設(shè)計(jì)的語(yǔ)義分割頭, 3)可分離卷積和iABN同步層增強(qiáng)的實(shí)例分割頭, 4)全新的全景融合模塊四部分, 并取得了不俗的分割效果。
目前的全景分割算法在CityScapes數(shù)據(jù)集上的分割結(jié)果仍存在實(shí)例結(jié)果分割不準(zhǔn)確的問題。為此, 本文對(duì)EfficientPS網(wǎng)絡(luò)的特征提取主干和語(yǔ)義分割頭進(jìn)行了優(yōu)化。
特征提取主干網(wǎng)絡(luò)的性能將直接影響后續(xù)分割工作的效果。特征提取主干網(wǎng)絡(luò)一般由分類網(wǎng)絡(luò)和FPN結(jié)構(gòu)組成, 殘差網(wǎng)絡(luò)是分割算法中經(jīng)常使用的分類網(wǎng)絡(luò)。一些表現(xiàn)很好的模型, 如Panoptic FCN選用ResNet101或ResNetXt-101分類網(wǎng)絡(luò)結(jié)合FPN結(jié)構(gòu)作為模型主干。EfficientPS文獻(xiàn)中指出這樣的結(jié)構(gòu)盡管效果好但模型參數(shù)量大, 出于效率和質(zhì)量的權(quán)衡, 該文獻(xiàn)中使用了分類精度與速度兼顧的EfficientNet并加以改進(jìn)。EfficientNet網(wǎng)絡(luò)的分類效果確實(shí)優(yōu)于殘差網(wǎng)絡(luò), 從2016年ResNet結(jié)構(gòu)被提出到2019年EfficientNet結(jié)構(gòu)出現(xiàn), 這之間有不少新的訓(xùn)練技巧被提出, 而EfficentNet確實(shí)使用了最新的訓(xùn)練策略并實(shí)現(xiàn)了對(duì)殘差網(wǎng)絡(luò)的超越。回看殘差網(wǎng)絡(luò), 該網(wǎng)絡(luò)自提出之后, 就受到了學(xué)者的廣泛關(guān)注, 文獻(xiàn)[10-12]都針對(duì)該網(wǎng)絡(luò)進(jìn)行了詳細(xì)的分析探討, 并且隨著分類精度更高的網(wǎng)絡(luò)如GoogLeNet[13]、MobileNet[14]陸續(xù)被提出, 殘差網(wǎng)絡(luò)也在不斷改進(jìn)增強(qiáng), 例如Inception與ResNet結(jié)合體的ResNeXt[15], 以及在ResNet中引入注意力機(jī)制的SENet, 因此, 殘差網(wǎng)絡(luò)仍廣泛應(yīng)用于很多目標(biāo)檢測(cè)、分割網(wǎng)絡(luò)中。同時(shí), 文獻(xiàn)[16]對(duì)殘差網(wǎng)絡(luò)在訓(xùn)練策略和網(wǎng)絡(luò)結(jié)構(gòu)上進(jìn)行了現(xiàn)代化更新, 使兩個(gè)網(wǎng)絡(luò)能在訓(xùn)練策略和技術(shù)水平相當(dāng)?shù)臈l件下較量。實(shí)驗(yàn)證明更新后的ResNet完全不輸EfficientNet, 這也是我們修改主干網(wǎng)絡(luò)的動(dòng)力, 對(duì)主干網(wǎng)絡(luò)的兩處修改將在2.2節(jié)和2.3節(jié)中介紹。
語(yǔ)義頭分割頭中不能僅考慮單個(gè)像素點(diǎn)的分類情況, 借助周圍像素點(diǎn)信息綜合判斷, 可以提升模型的分類能力, 進(jìn)而提升分割效果。
本文的網(wǎng)絡(luò)結(jié)構(gòu)沿用EfficientPS網(wǎng)絡(luò)的結(jié)構(gòu), 如圖1 所示, 整體結(jié)構(gòu)包括特征提取主干網(wǎng)絡(luò)、語(yǔ)義分割頭、實(shí)例分割頭、全景融合頭 四部分。
圖1 基于遞歸層聚合結(jié)構(gòu)的全景分割網(wǎng)絡(luò)結(jié)構(gòu)圖
特征提取主干網(wǎng)絡(luò)部分使用了遞歸層聚合的ResNet結(jié)構(gòu)和雙向FPN結(jié)構(gòu), 且FPN結(jié)構(gòu)之后接有通道多樣化模塊。遞歸層聚合ResNet結(jié)構(gòu)采用了循環(huán)網(wǎng)絡(luò)結(jié)構(gòu), 在避免模型參數(shù)冗余的同時(shí)融合了不同層之間的信息用于當(dāng)前層的特征提取。雙向FPN結(jié)構(gòu)使特征信息雙向流動(dòng), 避免了標(biāo)準(zhǔn)FPN結(jié)構(gòu)信息從淺層到深層單向流動(dòng)對(duì)聚合多尺度特征的局限。通道多樣化模塊(Channel Diversification Block, CDB)[17]以雙向FPN結(jié)構(gòu)的輸出為輸入, 通過建立全局層面的通道注意力關(guān)系增強(qiáng)全局上下文信息, 同時(shí)考慮了每個(gè)通道信息的重要性, 使網(wǎng)絡(luò)更關(guān)注顯著特征。
語(yǔ)義分割頭提取精細(xì)特征和上下文特征, 并將二者進(jìn)行失配矯正以融合不同尺寸的特征。精細(xì)特征和上下文特征分別由大規(guī)模特征提取器(Large Scale Feature Extractor, LSFE)和密集預(yù)測(cè)單元(Dense Prediction Cell, DPC)[18]提取, 而后使用失配矯正(Mismatch Correction, MC)模塊融合特征。主干網(wǎng)絡(luò)提取得到{P4,P8,P16,P32}, 其中{P4,P8}用于提取精細(xì)特征, {P16,P32}用于提取上下文信息, 在輸入到DPC中提取上下文信息之前, 先經(jīng)過跳躍連接和全局注意力模塊組合的分支進(jìn)行處理。
實(shí)例分割頭沿用了EfficientPS網(wǎng)絡(luò)中的結(jié)構(gòu), 即將Mask R-CNN中的卷積、BN操作和ReLU激活函數(shù)替換為深度可分離卷積、iABN同步層和Leaky ReLU激活函數(shù)。
全景融合頭同樣遵循EfficientPS網(wǎng)絡(luò), 先通過置信度閾值篩選排序和實(shí)例重疊檢查來減少實(shí)例對(duì)象的數(shù)量, 然后結(jié)合實(shí)例頭和語(yǔ)義頭的置信度自適應(yīng)調(diào)整其融合。
EfficientPS網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上已經(jīng)取得了不錯(cuò)的分割效果, 要在該網(wǎng)絡(luò)基礎(chǔ)上提升分割效果, 提升特征提取主干網(wǎng)絡(luò)的性能則是策略之一。
特征提取主干網(wǎng)絡(luò)的性能將直接影響后續(xù)分割工作的效果。本文選用遞歸層聚合結(jié)構(gòu)的ResNet50-D分類網(wǎng)絡(luò)。殘差網(wǎng)絡(luò)的核心為殘差模塊, 殘差模塊給模型帶來的性能提升引出了DenseNet網(wǎng)絡(luò)的層聚合機(jī)制, 即通過重用前面層的信息來更好地提取當(dāng)前層的特征。該網(wǎng)絡(luò)從特征矩陣入手, 在保證網(wǎng)絡(luò)中層與層之間最大程度特征信息傳輸?shù)那疤嵯? 直接將所有層連接, 通過對(duì)特征矩陣中信息的充分利用, 加強(qiáng)了特征的傳遞, 減輕了梯度消失現(xiàn)象。但是, DenseNet網(wǎng)絡(luò)的密集連接過重, 會(huì)導(dǎo)致特征冗余, 而遞歸層聚合結(jié)構(gòu)(Recurrent Layer Aggregation, RLA)[19]使用循環(huán)連接實(shí)現(xiàn)層聚合機(jī)制可以達(dá)到提升網(wǎng)絡(luò)性能的目的。RLA結(jié)構(gòu)使用隱藏層與CNN之間的循環(huán)連接代替密集連接, 保留了層聚合功能, 并且隱藏狀態(tài)參數(shù)共享, 在充分利用淺層網(wǎng)絡(luò)信息幫助深層網(wǎng)絡(luò)梯度反向傳播的同時(shí), 避免了模型參數(shù)的冗余。
RLA結(jié)構(gòu)中的循環(huán)連接為隱藏狀態(tài)與CNN卷積層特征的交互, 可看作是展開的RNN結(jié)構(gòu), 其借助時(shí)間序列的分析方法, 實(shí)現(xiàn)層與層之間信息的傳遞, 如圖2 所示。其中, input為輸入模型的圖片, output為輸入經(jīng)過卷積層提取到的特征矩陣。如果將卷積網(wǎng)絡(luò)卷積得到特征圖的過程看作是生成一個(gè)序列的過程, 則卷積網(wǎng)絡(luò)中的卷積層x0,x1,…,x1就是序列信息, 作為RNN結(jié)構(gòu)的輸入,h是隱層狀態(tài)。
圖2 RLA結(jié)構(gòu)
如果一個(gè)卷積網(wǎng)絡(luò)結(jié)構(gòu)能夠聚合前層的特征, 則第t層卷積層得到的特征xt可表示為
xt=ft(At-1,xt-1),
(1)
At=gt(xt,xt-1,…,x0),
(2)
式中:At為前t-1層的聚合信息, 對(duì)于普通卷積,At=0;ft(·)為第t層的卷積操作;gt(·)為第t層的聚合函數(shù)。
對(duì)于遞歸層聚合結(jié)構(gòu), 隱層狀態(tài)實(shí)現(xiàn)了對(duì)前面層的聚合, 設(shè)ht為第t層的隱層狀態(tài), 則有
xt=ft(ht-1,xt-1),
(3)
ht=gt(ht-1,xt-1)。
(4)
遞歸層聚合結(jié)構(gòu)利用卷積網(wǎng)絡(luò)的順序結(jié)構(gòu), 構(gòu)建循環(huán)連接分支, 聚合淺層特征矩陣信息。使用ResNet50-D網(wǎng)絡(luò)為主干對(duì)遞歸層聚合結(jié)構(gòu)進(jìn)行解釋。ResNet50-D結(jié)構(gòu)包含stage 1~stage 5共5層卷積層, 其中stage 2~stage 5中分別包含3, 4, 6, 3個(gè)殘差塊。循環(huán)連接分支在stage 2~stage 5中構(gòu)建, 如圖2(c), 并且分支中隱層狀態(tài)h參數(shù)共享, 參數(shù)初始為零。卷積網(wǎng)絡(luò)與隱藏狀態(tài)的信息交互方式如圖2(b)所示, 首先將卷積特征矩陣Xi與隱藏狀態(tài)hi拼接, 再將拼接結(jié)果經(jīng)過該層的卷積操作進(jìn)行處理, 其輸出結(jié)果分別與特征矩陣和隱藏狀態(tài)相結(jié)合。圖2 中虛線方框中的操作為可選操作, 在block層之間特征矩陣的尺寸發(fā)生變化時(shí), 使用這兩個(gè)可選操作對(duì)特征矩陣和隱藏狀態(tài)進(jìn)行處理可以保證二者的拼接融合。
此外, 為增加模型效率, 在模型結(jié)構(gòu)方面, 卷積特征矩陣和隱藏狀態(tài)交互結(jié)構(gòu)中, 還可增加ECA(Efficient Channel Attention)[20]模塊并將BN層替換為iABN同步層。
精度更高分類網(wǎng)絡(luò)的結(jié)合能夠充分融合多尺度特征的雙向FPN結(jié)構(gòu), 從而增強(qiáng)了模型提取特征的能力。但是, 卷積神經(jīng)網(wǎng)絡(luò)的一個(gè)自然趨勢(shì)是關(guān)注少數(shù)類指定的主導(dǎo)通道。因此, 豐富模型特征以使模型關(guān)注重要和多樣化的通道, 是性能提升的一種策略。
本文在雙向FPN之后增加通道多樣化模塊來擴(kuò)展模型的關(guān)注點(diǎn)。作為通道注意力機(jī)制的一種模型, 通道多樣化模塊可看作簡(jiǎn)化的SE模塊[21]和非局部模塊(Non-Local Module)[22]的結(jié)合。通道注意力機(jī)制自2017年在ImangeNet比賽的冠軍SENet(Squeeze and Excitation Networks)網(wǎng)絡(luò)中出現(xiàn)之后就開始受到學(xué)者的關(guān)注, 并且由于該機(jī)制在處理各種計(jì)算機(jī)視覺任務(wù)時(shí)的顯著效果, 使得它被廣泛應(yīng)用于各種卷積神經(jīng)網(wǎng)絡(luò)中。然而, 大部分通道注意力機(jī)制網(wǎng)絡(luò)結(jié)構(gòu)是通過計(jì)算通道間的成對(duì)關(guān)系來實(shí)現(xiàn)全局信息的獲取, 卻忽略了單一通道信息的重要性。單個(gè)通道信息的提取可以更好地利用通道的全局信息, 使模型關(guān)注到最具區(qū)別性的特征, 并且不需要增加太多參數(shù)。
通道多樣化模塊以特征提取主干網(wǎng)絡(luò)最后一層的特征圖作為輸入特征, 利用全局平均池化生成表示每個(gè)通道特定意義的c維特征向量, 同時(shí)生成一個(gè)通道關(guān)系矩陣, 用于區(qū)別指定通道和其他通道。將通道關(guān)系矩陣和c維特征向量疊加在一起, 使用卷積操作得到每個(gè)通道的加權(quán)得分。
通道多樣化模塊結(jié)合了通道間關(guān)系和通道的總體重要性, 結(jié)構(gòu)圖如圖3 所示。其中,H,W,C分別為輸入特征矩陣input的寬、高、通道數(shù), Conv表示卷積操作,(-1)*T表示轉(zhuǎn)置操作, ‖表示拼接操作,·表示數(shù)組元素依次相乘, ×表示矩陣乘法。C×C×1通道間關(guān)系由non-local模塊中的全局注意力池提供, 即不進(jìn)行空間關(guān)系的計(jì)算只計(jì)算通道關(guān)系, 則通道i和通道j的通道關(guān)系aij可表示為
圖3 通道多樣化模塊
(5)
式中:C為通道數(shù)。通道關(guān)系的計(jì)算公式可給最相關(guān)的通道更小的權(quán)重, 而給不同的通道以更大的權(quán)重, 從而實(shí)現(xiàn)單個(gè)通道信息的關(guān)注。
每個(gè)通道的重要性由SE模塊的全局平均池化部分提取, 則每個(gè)通道的重要性可表示為
(6)
對(duì)于輸入特征矩陣X∈RC×H×W, 先經(jīng)過SE模塊的全局平均池化部分, 得到C×1維的特征向量, 并使用softmax操作對(duì)特征向量進(jìn)行歸一化操作, 即
(7)
同時(shí), 對(duì)輸入特征矩陣使用簡(jiǎn)化的non-local模塊來計(jì)算通道之間的關(guān)系, 得到C×C維的通道關(guān)系矩陣, 再使用softmax基于通道進(jìn)行歸一化, 即
J=softmax(-X·XT)。
(8)
然后, 將全局平均池和通道關(guān)系矩陣的歸一化特征拼接在一起, 得到特征矩陣Y∈RC×(C+1)。
Y=concate(A,J)。
(9)
經(jīng)過卷積操作加強(qiáng)全局上下文之間的關(guān)系, 得到注意力向量, 再與原始輸入特征相乘后添加到原始輸入特征矩陣中, 即
Z=X?Conv(Y)+X。
(10)
上下文信息在分割中起著重要作用。經(jīng)典的ASPP模塊通過空間金字塔模塊豐富模型的上下文信息, EfficientPS網(wǎng)絡(luò)的語(yǔ)義分割頭也設(shè)置了DPC模塊分支來提取遠(yuǎn)程上下文信息。為了進(jìn)一步細(xì)化模型的分割效果, 可以嘗試去修改語(yǔ)義分割中用于獲取遠(yuǎn)程上下文信息的分支。對(duì)該分支的修改既要保證增強(qiáng)上下文信息, 又要限制對(duì)模型效率的影響。
鑒于DPC模塊表現(xiàn)出的良好性能, 本文選擇保留DPC模塊并額外增加與跳躍連接組合的全局注意力模塊(Global Attention Module, GAM)[23]。
GAM模塊通過深度卷積和仿射變換對(duì)全局注意進(jìn)行編碼。深度卷積對(duì)輸入特征的每個(gè)通道獨(dú)立進(jìn)行卷積運(yùn)算, 而不是所有通道對(duì)應(yīng)同一個(gè)卷積運(yùn)算, 由于沒有利用通道在相同空間位置上的特征信息, 所以減少了參數(shù)量。同時(shí), 單個(gè)卷積核只需要對(duì)相鄰位置特征進(jìn)行編碼而非對(duì)整個(gè)特征矩陣, 對(duì)特征矩陣進(jìn)行仿射變換則可以使相鄰位置特征關(guān)聯(lián)到全局信息。另外, 在語(yǔ)義頭中添加GAM模塊增加了模型深度, 跳躍連接與GAM組合可防止模型退化。實(shí)驗(yàn)結(jié)果證明了以上設(shè)計(jì)的有效性。
GAM的整體結(jié)構(gòu)如圖4 所示。對(duì)輸入特征矩陣X∈RC×H×W(取batch size=1)進(jìn)行旋轉(zhuǎn)操作, 分別得到XR1∈RW×C×H和XR2∈RH×W×C。對(duì)于XR1, 在C-H視圖上, 進(jìn)行卷積操作, 獲取通道方向的關(guān)注得到特征向量QC=RW×1×H, 在H的水平位置得到特征向量QH∈RW×C×1。同樣, 對(duì)于XR2, 有通道編碼向量KC∈RH×W×1和垂直位置編碼向量KC∈RH×1×W。分別將QCQV和KCKV做矩陣乘法, 再分別旋轉(zhuǎn)回RC×H×W的原始維度, 使兩特征向量維度相同后進(jìn)行拼接操作, 并做非線性變換激活操作, 最后與原始輸入矩陣X對(duì)應(yīng)元素相乘。模型最終的輸出可表示為
圖4 全局注意力模塊
Z=f(concate(rot(QCQH),rot(KCKV)))?X,
(11)
式中: rot(·)為旋轉(zhuǎn)操作;f(·)操作使用1×1卷積將特征矩陣的channel由2C調(diào)整為C, 并使用BN層歸一化以及非線性激活函數(shù)。
實(shí)驗(yàn)數(shù)據(jù)集采用公共數(shù)據(jù)集城市街道場(chǎng)景Cityscapes[24]。該數(shù)據(jù)集中的圖片為無人駕駛環(huán)境下50個(gè)城市、分辨率為1 024像素×2 048像素的街道交通場(chǎng)景。該數(shù)據(jù)集包含5 000張像素級(jí)精細(xì)標(biāo)注圖片和20 000張粗糙標(biāo)注圖片, 其中可用于全景分割的像素級(jí)精細(xì)標(biāo)注圖片包含8種前景實(shí)例類別和11種背景填充類別。實(shí)驗(yàn)中將帶有像素級(jí)標(biāo)注的5 000張圖片劃分成2 975張圖片的訓(xùn)練集、1 525張圖片的測(cè)試集和500張圖片的驗(yàn)證集。
全景分割的性能采用全景質(zhì)量PQ(Panoptic Quality)、平均精度AP(Average Precision)以及平均交并比mIoU(mean Intersection over Union)進(jìn)行衡量。
PQ對(duì)所有匹配上的分割求平均IoU, 并懲罰匹配錯(cuò)誤的像素點(diǎn), 在數(shù)值上可看作是分割質(zhì)量SQ(Segmentation Quality)和識(shí)別質(zhì)量RQ(Recognition Quality)的乘積; SQ為預(yù)測(cè)和標(biāo)注的mIoU, 衡量分割的準(zhǔn)確程度; RQ為匹配正確的分割占所有分割的比例, 衡量實(shí)例識(shí)別的準(zhǔn)確度。相關(guān)定義如下:
(12)
(13)
(14)
(15)
式中:nTP表示預(yù)測(cè)正確的正樣本數(shù);nFN表示漏報(bào)的正樣本數(shù);nFP表示誤報(bào)的負(fù)樣本數(shù);k為類別總數(shù);p,g分別為預(yù)測(cè)值和真值。另外, PQTh和PQst分別表示在thing類和stuff類上的全景質(zhì)量。
實(shí)驗(yàn)環(huán)境基于Ubuntu 20.04操作系統(tǒng)、Pytorch 1.9.0框架、英偉達(dá) GeForce RTX 3090顯卡、24G顯存。訓(xùn)練過程中, 輸入圖片尺寸為1 024×2 048, 圖片批尺寸為2, 使用SGD優(yōu)化器, 學(xué)習(xí)率為0.007, 動(dòng)量為0.9, 迭代次數(shù)為80 000。
為驗(yàn)證模型的分割效果, 將其與其他模型方法在Cityscapes數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)對(duì)比, 結(jié)果如表1 所示。由 表1 可以看出, 基于遞歸層聚合結(jié)構(gòu)的全景分割網(wǎng)絡(luò)的PQ指標(biāo)相較于EfficientPS網(wǎng)絡(luò)提升了0.9%, 前景實(shí)例目標(biāo)和背景填充區(qū)域的分割指標(biāo)PQth和PQst分別提升了0.5%和1.3%, AP與mIoU提升了0.8%和0.2%。與Panoptic FCN和Panoptic-DeepLab網(wǎng)絡(luò)相比, PQ指標(biāo)分別提升了3.4%和1.8%。
表1 Cityscapes 驗(yàn)證集全景分割結(jié)果比較
本文模型在提升分割質(zhì)量的同時(shí), 效率也得到了保證。相較于EfficientPS網(wǎng)絡(luò), 模型參數(shù)僅增加了0.22×106, FLOPs增加了6.37×109, 并且其參數(shù)量和FLOPs指標(biāo)均優(yōu)于單階段的Panoptic-DeepLab[25]網(wǎng)絡(luò)。本文模型是在EfficientPS網(wǎng)絡(luò)基礎(chǔ)上改進(jìn)得到的, 因此對(duì)兩個(gè)模型的參數(shù)情況進(jìn)行了比較。詳細(xì)的模型參數(shù)變化分析見表2。由于實(shí)例頭和全景頭這兩部分的參數(shù)量并未發(fā)生變化, 所以沒有將這兩部分列在表中。
表2 模型參數(shù)變化比較
圖5 所示的可視化結(jié)果圖直觀地展示了模型的分割效果。本文模型在第一行圖片中左側(cè)的X型信號(hào)牌以及列車頭的輪廓分割得更好, 右側(cè)水平方向街道的分割輪廓更整齊; 第二行圖片中最右側(cè)汽車的分割更接近于標(biāo)注圖; 第三行分割結(jié)果中街道和圍墻的線條更加平滑。
圖5 Cityscapes驗(yàn)證集上的可視化分割結(jié)果
為驗(yàn)證本文網(wǎng)絡(luò)模型各模塊的貢獻(xiàn)效果, 在Cityscapes數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn), 實(shí)驗(yàn)結(jié)果如表3 所示, 其中, CM為通道多樣化模塊, GM為全局注意力模塊, “-”為網(wǎng)絡(luò)結(jié)構(gòu)中未使用, “√”為已使用。
表3 Cityscapes數(shù)據(jù)集消融實(shí)驗(yàn)結(jié)果
由表3 可以看出, RLA結(jié)構(gòu)的層遞歸聚合機(jī)制提升了主干網(wǎng)絡(luò)提取特征信息的能力, 使PQ指標(biāo)上提升了0.3%; 通道多樣化模塊將模型注意力從單一通道轉(zhuǎn)移到最具區(qū)別性的通道, 豐富了網(wǎng)絡(luò)特征, 提升了分割的準(zhǔn)確度, SQ指標(biāo)提升了0.7%; 全局注意力模塊引入上下文信息, 增強(qiáng)了語(yǔ)義分割效果, 與EfficientPS和未添加模塊的本文模型相比, PQth分別提升了0.4%和0.6%。
本文在EfficientPS網(wǎng)絡(luò)的基礎(chǔ)上提出了基于遞歸層聚合結(jié)構(gòu)的全景分割網(wǎng)絡(luò)。首先, 遞歸層聚合結(jié)構(gòu)的ResNet網(wǎng)絡(luò)與結(jié)尾帶有通道多樣化模塊的雙向FPN組成特征提取主干, 豐富了特征信息, 增強(qiáng)了模型的特征提取能力; 其次, 語(yǔ)義頭中增加的跳躍連接與全局注意力模塊構(gòu)成的分支, 改善了卷積通過局部性提升效果而丟失遠(yuǎn)程上下文信息的問題, 同時(shí)避免了模型退化, 整體上提升了前景和背景的分割效果。實(shí)驗(yàn)結(jié)果表明, 本文的模型相較于EfficientPS有更好的分割效果。本文模型分割的整體性能有所提升, 但有些分割區(qū)域的邊緣還不夠平滑, 因此還需研究更好的融合策略。