畢陽陽,鄭遠(yuǎn)帆,史彩娟+,張 昆,劉 健
1.華北理工大學(xué) 人工智能學(xué)院,河北 唐山 063210
2.河北省工業(yè)智能感知重點(diǎn)實(shí)驗(yàn)室,河北 唐山 063210
圖像內(nèi)容按照是否有固定形狀可以分為兩個類別,即背景(stuff)和前景(things)[1]。背景是指沒有固定形狀的不可數(shù)語義類,例如天空、沙灘和地面等;而前景則是包括有固定形狀的可數(shù)實(shí)例類,例如汽車、建筑物和動物等。近年,隨著深度學(xué)習(xí)的迅猛發(fā)展,基于深度學(xué)習(xí)的圖像分割[2]技術(shù),特別是語義分割(semantic segmentation)[3]、實(shí)例分割(instance segmentation)[4]和全景分割(panoptic segmentation)[5]得到了廣泛研究,成為當(dāng)前計(jì)算機(jī)視覺領(lǐng)域的一個重要研究熱點(diǎn)。如圖1所示,圖像語義分割主要是對圖像中每一個像素點(diǎn)進(jìn)行類別預(yù)測,實(shí)現(xiàn)圖像的像素級別分割。圖像實(shí)例分割是在目標(biāo)檢測[6]的基礎(chǔ)上融合了語義分割,實(shí)現(xiàn)對實(shí)例對象進(jìn)行像素級別的分割,它在對像素點(diǎn)進(jìn)行分類的同時賦予每個像素點(diǎn)相對應(yīng)的實(shí)例ID。一般來說,語義分割關(guān)注的是圖像背景的分割,而實(shí)例分割則關(guān)注的是圖像前景的分割。為了統(tǒng)一語義分割與實(shí)例分割的工作,2018 年FAIR(Facebook Artificial Intelligence Research)與德國海德堡大學(xué)聯(lián)合提出了一項(xiàng)新的分割任務(wù)——全景分割[5]。全景分割融合了語義分割與實(shí)例分割,其主要任務(wù)是對場景圖像中每一個像素點(diǎn)進(jìn)行語義類別預(yù)測,并為屬于實(shí)例目標(biāo)的像素賦予實(shí)例識別號,以實(shí)現(xiàn)更為全面的場景理解。此外,全景分割允許不同場景組件的良好可視化,并且可以作為一種全局技術(shù)呈現(xiàn),包括檢測、定位以及各種場景部分的分類。
圖1 圖像分割Fig.1 Image segmentation
目前已有相關(guān)文獻(xiàn)對圖像語義分割和圖像實(shí)例分割進(jìn)行了系統(tǒng)的介紹和總結(jié),但對于圖像全景分割方法的系統(tǒng)介紹還很少。因此,本文將近幾年出現(xiàn)的不同的圖像全景分割方法進(jìn)行綜述介紹,首先介紹圖像全景分割的研究現(xiàn)狀,然后對圖像全景分割的方法進(jìn)行分類闡述,接著介紹了圖像全景分割中常用的數(shù)據(jù)集及評價準(zhǔn)則,并對代表性的方法進(jìn)行了性能比較,列舉了圖像全景分割的現(xiàn)實(shí)應(yīng)用,最后進(jìn)行了總結(jié)及未來趨勢的展望。
全景分割的雛形最早出現(xiàn)在2017年,Dvornik等人[7]提出了BlitzNet,是一種將目標(biāo)檢測和語義分割任務(wù)聯(lián)合執(zhí)行的網(wǎng)絡(luò)模型。為了滿足場景理解任務(wù)同時關(guān)注場景語義信息和個體實(shí)例的需求,2018年,Kirillov 等人[5]提出了全景分割的概念,并在2019 年的CVPR 中設(shè)計(jì)出一個簡單有效的全景分割網(wǎng)絡(luò)Panoptic FPN[8]。Panoptic FPN 網(wǎng)絡(luò)在框架層面上將FPN[9]與Mask R-CNN[10]結(jié)合起來,通過融合FPN 的語義分割結(jié)果與Mask R-CNN 的實(shí)例分割結(jié)果來形成場景圖像的全景分割結(jié)果。這種利用語義分割和實(shí)例分割兩個子網(wǎng)絡(luò)獨(dú)立分割,再對分割結(jié)果進(jìn)行融合的方法成了近幾年來全景分割研究的主流。目前,已有大量的全景分割網(wǎng)絡(luò)模型被提出,主要有弱監(jiān)督模型[11]、JSIS-Net[12]、TASCNet[13]、AUNet[14]、Panoptic FPN[8]、UPSNet[15]、DeeperLab[16]、OANet[17]、FPSNet[18]、SOGNet[19]、Panoptic-DeepLab[20]、BBFNet[21]、Axial-DeepLab[22]、BANet[23]、EfficientPS[24]、BGRNet[25]、LPSNet[26]、Panoptic FCN[27]、MaX-DeepLab[28]、SPINet[29]、CABB[30]、Ada-Segment[31]、CVRN[32]、PPS[33]、Panoptic SegFormer[34]、CMT-DeepLab[35]、PanopticDepth[36]、Panoptic-PartFormer[37]和kMaX-DeepLab[38]等。圖2給出了近年來圖像全景分割的代表性方法。
圖2 代表性的圖像全景分割算法Fig.2 Representative image panoptic segmentation algorithms
全景分割重點(diǎn)在于為每個像素分配一個語義標(biāo)簽和實(shí)例ID,處理流程如圖3 所示,主要包括特征提取[39-41]、子任務(wù)分割、子任務(wù)融合三個步驟。對于輸入一幅圖像,首先進(jìn)行特征提取;然后將提取的特征分別輸入語義分割與實(shí)例分割兩個子任務(wù)分支進(jìn)行處理,分別產(chǎn)生語義分割與實(shí)例分割兩個子任務(wù)輸出;最后將語義分割與實(shí)例分割兩個子任務(wù)結(jié)果進(jìn)行融合,產(chǎn)生最終的全景分割預(yù)測。
圖3 圖像全景分割流程示意圖Fig.3 Schematic diagram of image panoptic segmentation process
本章對基于深度學(xué)習(xí)的圖像全景分割方法進(jìn)行了分類闡述。根據(jù)對全景分割三個步驟優(yōu)化情況的不同,現(xiàn)有的圖像全景分割可以分為基于特征提取優(yōu)化的圖像全景分割、基于子任務(wù)分割優(yōu)化的圖像全景分割、基于子任務(wù)融合優(yōu)化的圖像全景分割。另外,還有其他一些圖像全景分割方法。
表1 給出了基于不同優(yōu)化機(jī)制的圖像全景分割的典型方法,以及它們的優(yōu)勢與局限性。
表1 不同類型圖像全景分割方法分析比較Table 1 Analysis and comparison of different types of image panoptic segmentation methods
圖像全景分割的核心步驟之一為特征提取,為后續(xù)步驟提供有用的特征信息,從而提升全景分割的性能。因此,將對特征提取網(wǎng)絡(luò)進(jìn)行有效優(yōu)化的全景分割方法稱為基于特征提取優(yōu)化的圖像全景分割。在全景分割特征提取優(yōu)化的分類中,可以分為自上而下和自下而上兩種方法。
2.1.1 自上而下的圖像全景分割方法
大多數(shù)最先進(jìn)的圖像全景分割方法一般采用自上而下(top-down)或基于候選區(qū)域(box-based)策略。具體來說,通常遵循先檢測后分割的原則,部署Mask R-CNN來提取重疊的實(shí)例,然后通過一些處理方法解決掩碼重疊問題,最后用輕量級的背景分割分支填充剩余區(qū)域。
Kirillov 等人[8]通過賦予Mask R-CNN 一個使用特征金字塔網(wǎng)絡(luò)(feature pyramid network,F(xiàn)PN)[9]主干的語義分割分支,在架構(gòu)層面將這兩種方法結(jié)合成一個單一網(wǎng)絡(luò)來同時完成實(shí)例分割和語義分割的任務(wù),提出了Panoptic FPN模型。FPN作為全景分割的特征來源,能夠提供豐富的多尺度特征。
對語義分割來說,帶空洞卷積的全卷積神經(jīng)網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN)是最優(yōu)的;對實(shí)例分割來說,具有FPN結(jié)構(gòu)的Mask R-CNN在競賽中被廣泛采用,這兩個方法在架構(gòu)上存在差異,如果單純地進(jìn)行組合,可能會在語義分割或者實(shí)例分割上犧牲準(zhǔn)確性。Panoptic FPN模型克服了這個缺點(diǎn),采用統(tǒng)一的FPN提取特征分別實(shí)現(xiàn)實(shí)例分割與語義分割,該模型成為全景分割的一個基線方法,是基于候選區(qū)域的代表性方法。但是,Panoptic FPN模型的輸出模塊仍采用啟發(fā)式方法,該方法依賴于實(shí)例分割分支的預(yù)測結(jié)果,會產(chǎn)生速度較慢、計(jì)算復(fù)雜等問題。
自上而下的方法需要為每個實(shí)例對象生成一個邊界框,對于實(shí)例檢測來說非常有效。但是,以這種方式預(yù)測實(shí)例掩碼會消耗大量的計(jì)算資源并且自上而下的方法高度依賴于邊界框的性能。
2.1.2 自下而上的圖像全景分割方法
自下而上(bottom-up)或無候選區(qū)域(box-free)的圖像全景分割方法,通常通過將“前景”像素分組到集群中在檢測實(shí)例之前獲得語義分割預(yù)測。
Yang 等人[16]通過使用一種簡單的全卷積網(wǎng)絡(luò)方法對整個圖像進(jìn)行解析來生成像素語義和實(shí)例預(yù)測,提出了一種單次、自下而上的DeeperLab模型,用來同時處理語義分割和實(shí)例分割的任務(wù)。模型采用邊界框角以及對象中心進(jìn)行與類無關(guān)的實(shí)例分割,再加上DeepLab[42]語義分割,在Mapillary Vistas 數(shù)據(jù)集上獲得了良好的全景分割結(jié)果。該模型是最具代表性的自下而上的全景分割方法,但該模型存在著處理高度可變形的物體比較困難的問題,在此基礎(chǔ)上進(jìn)行優(yōu)化,其他自下而上的全景分割方法不斷被提出[20,22,28,35,38]。
自下而上的方法通常從語義分割預(yù)測開始,然后通過分組和聚類等操作生成實(shí)例掩碼。這種方法生成的輸出預(yù)測簡單而快速,消除了生成邊界框的步驟,獲得較好的實(shí)時性。但是,相對于自上而下的方法,全景質(zhì)量卻有所下降。
圖像全景分割的核心步驟之二為子任務(wù)分割。骨干網(wǎng)絡(luò)提取的特征需要被語義分割和實(shí)例分割任務(wù)共享,進(jìn)行后續(xù)子任務(wù)分割處理。為了提升全景分割的性能,對子任務(wù)分割模塊進(jìn)行有效優(yōu)化,該類方法稱為基于子任務(wù)分割優(yōu)化的圖像全景分割。根據(jù)語義分割與實(shí)例分割兩個子任務(wù)在優(yōu)化過程中的串并關(guān)系不同,基于子任務(wù)分割優(yōu)化的圖像全景分割可以分為兩種方式:語義分割與實(shí)例分割并行運(yùn)行的子網(wǎng)絡(luò)分割方法和語義分割與實(shí)例分割串行運(yùn)行的子網(wǎng)絡(luò)分割方法。下面對兩種分割方法進(jìn)行詳細(xì)介紹。
2.2.1 子網(wǎng)絡(luò)并行分割方法
語義分割子任務(wù)與實(shí)例分割子任務(wù)分別從特征提取網(wǎng)絡(luò)中獲取特征,然后兩個子任務(wù)并行分割,之間不存在先后關(guān)系,一個子任務(wù)的輸出不作為另一個子任務(wù)的輸入。
為了獲取兩個子任務(wù)之間的互補(bǔ)信息,Li等人[14]在PanopticFPN的基礎(chǔ)上對語義分支和實(shí)例分支之間進(jìn)行優(yōu)化,提出了一種注意力[43]引導(dǎo)的統(tǒng)一網(wǎng)絡(luò)AUNet。在背景分支中添加了兩個注意源,即區(qū)域候選網(wǎng)絡(luò)(region proposal network,RPN)[44]和前景分割掩碼,分別提供對象級別和像素級別的注意。模型中還設(shè)計(jì)了建議注意模塊(proposal attention module,PAM)和掩碼注意模塊(mask attention module,MAM)兩個注意力機(jī)制,試圖互補(bǔ)前景的信息和背景的信息,這種方法被推廣到不同的主干上,在前景和背景分割中具有一致的準(zhǔn)確度增益,并且在MS-COCO和Cityscapes數(shù)據(jù)集上獲得了良好的分割結(jié)果。
為了使語義分割子任務(wù)的輸出與實(shí)例分割子任務(wù)的輸出保持一致,Li 等人[13]在PanopticFPN 的基礎(chǔ)上提出了一種端到端的全景分割模型TASCNet,背景頭使用完全卷積層來密集預(yù)測所有的背景類別和一個額外的前景掩碼,前景頭使用基于區(qū)域的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)層進(jìn)行實(shí)例檢測與分割,在這兩個預(yù)測頭之間,加入了TASC(things and stuff consistency)模塊,用于在訓(xùn)練過程中保持語義分割和實(shí)例分割這兩個子任務(wù)的輸出分布之間對齊,以確保預(yù)測之間的一致性。但是模型當(dāng)中采用大量上采樣操作破壞目標(biāo)邊緣的特性,出現(xiàn)分割失效。
在全景分割中,希望可數(shù)和不可數(shù)實(shí)例能夠被統(tǒng)一表示,但是統(tǒng)一表示面臨前景和背景的屬性沖突,并且前景和背景中也有不同的類別。一個好的網(wǎng)絡(luò)應(yīng)該是對不同的類別有良好的區(qū)分性,使其類間差異較大,類內(nèi)差異較小。因此,Li 等人[27]提出了一個完全卷積的統(tǒng)一表示框架,稱為Panoptic FCN。Panoptic FCN 使用統(tǒng)一的完整卷積通道來預(yù)測前景和背景。該模型由核生成器、核融合器和特征編碼器三部分組成。內(nèi)核生成器將每個對象實(shí)例或背景類別編碼為特定的內(nèi)核權(quán)重。核融合器對不同階段生成的核權(quán)值進(jìn)行融合,保證了前景的實(shí)例感知和背景的語義一致性。通過將融合的核權(quán)值與編碼后的特征值進(jìn)行卷積,網(wǎng)絡(luò)直接輸出全景圖像分割結(jié)果。Panoptic FCN采用簡單、高效、實(shí)用的框架,實(shí)現(xiàn)了高效率。但模型本身存在前景實(shí)例對象的分割準(zhǔn)確率與圖像中遠(yuǎn)距離小目標(biāo)的分割效果不是很理想的問題。
子網(wǎng)絡(luò)并行分割方法在兩個子任務(wù)之間通過添加注意力、對齊模塊和核權(quán)重等方式,提高了圖像全景分割的精度。但模型需要對兩個子任務(wù)的結(jié)果進(jìn)行融合,融合過程就會產(chǎn)生語義分支與實(shí)例分支之間的沖突以及實(shí)例分支內(nèi)部的沖突。
2.2.2 子網(wǎng)絡(luò)串行分割方法
兩個子任務(wù)之間存在先后關(guān)系,一個子任務(wù)的輸出作為另一個子任務(wù)的輸入。
Li等人[11]提出了一個弱監(jiān)督[45]全景分割模型,該模型首先采用語義分割子網(wǎng)絡(luò)獲得語義分割結(jié)果,同時設(shè)計(jì)了一個目標(biāo)檢測器獲取圖像中的目標(biāo)信息,然后將二者輸入到實(shí)例分割子網(wǎng)絡(luò),完成最終的全景分割。該模型在圖像中實(shí)例數(shù)量難以預(yù)測,不適用于具有多個背景類的圖像。
Cheng 等人[20]在DeepLab 的基礎(chǔ)上,通過采用特定于語義和實(shí)例分割的雙空洞空間卷積池化金字塔(atrous spatial pyramid pooling,ASPP)[42]和雙解碼器結(jié)構(gòu),提出一種基于自下而上的全景分割模型Panoptic-DeepLab。模型先進(jìn)行語義分割,再根據(jù)分割的結(jié)果去獲取實(shí)例。模型預(yù)測語義分割、實(shí)例中心預(yù)測和實(shí)例中心回歸三個輸出。通過將預(yù)測的前景像素分組到最接近的預(yù)測實(shí)例中心獲得與類別無關(guān)的實(shí)例分割,然后通過多數(shù)投票規(guī)則與語義分割相融合,以生成最終的全景分割。
Wang等人[22]在Panoptic-DeepLab 的基礎(chǔ)上提出了一種新的子網(wǎng)絡(luò)串行分割方法,即軸向注意力模型Axial-DeepLab。該模型引入位置敏感的自注意力機(jī)制,將二維注意力依次分解為沿高度軸和寬度軸方向的兩個一維注意力,不僅可以進(jìn)行高效的計(jì)算,而且可以恢復(fù)模型中較大的感受野。但是該模型也存在處理可變形或者中心點(diǎn)重合的物體比較困難的問題。為了克服由于全景分割模型依賴于候選區(qū)域,導(dǎo)致預(yù)測的實(shí)例掩碼往往是低分辨率的問題,Sun 等人擴(kuò)展了Panoptic-Deeplab 的體系架構(gòu)提出了全景優(yōu)化網(wǎng)絡(luò)PRN(panoptic refinement network)[46],通過引入包括前景掩碼、坐標(biāo)卷積和預(yù)測每個像素上的包圍盒偏移的新元素來實(shí)現(xiàn)的。從基本的全景分割模型中提取掩碼,并對其進(jìn)行聯(lián)合優(yōu)化來產(chǎn)生一致的結(jié)果。
子網(wǎng)絡(luò)串行分割方法中兩個子任務(wù)減少了融合的過程,避免融合沖突的產(chǎn)生,但后一個子任務(wù)總是依賴于前一個子任務(wù)的結(jié)果,導(dǎo)致分割性能整體偏低。
全景分割的核心步驟之三為子任務(wù)融合。子任務(wù)融合是將語義分割和實(shí)例分割兩個子任務(wù)分割產(chǎn)生的具有差異的分割結(jié)果進(jìn)行有效融合,生成最終的全景分割圖。一些方法采用不同的融合策略,設(shè)計(jì)不同的子任務(wù)融合方法來提升全景分割的性能,該類方法稱為基于子任務(wù)融合優(yōu)化的圖像全景分割?,F(xiàn)有方法中子任務(wù)融合一般采用啟發(fā)式融合方法或全景頭融合方法。
2.3.1 啟發(fā)式融合方法
啟發(fā)式算法是基于最優(yōu)化方法提出的,指在有限的時間和空間內(nèi),找到解決問題的一個可行方案。實(shí)際上就是在有限時間里給出相對不錯的答案。常用的算法有遺傳算法、模擬退火算法和粒子群算法[47-48]等。啟發(fā)式融合方法最早由何愷明于Panoptic Segmentation[5]中基于啟發(fā)式算法提出,該方法依賴于實(shí)例分割分支的預(yù)測結(jié)果,即先將實(shí)例分支預(yù)測的前景對象分類掩碼覆蓋到原始圖像作為基礎(chǔ),之后將語義分割分支背景類的預(yù)測結(jié)果覆蓋到相應(yīng)位置,最終形成全景分割預(yù)測。
De Geus等人[12]通過使用啟發(fā)式融合方法結(jié)合了來自聯(lián)合訓(xùn)練的語義和實(shí)例分割網(wǎng)絡(luò)的預(yù)測,提出了一種單一網(wǎng)絡(luò)模型JSIS-Net(joint semantic and instance segmentation network)進(jìn)行全景分割。該模型使用ResNet50[40]網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行特征提取,通過采用金字塔池化模塊(pyramid pooling module,PPM)[49]完成語義分割,采用Mask R-CNN 完成實(shí)例分割,最后通過啟發(fā)式融合方法來合并語義分割和實(shí)例分割的結(jié)果,得到全景分割。然而,在融合過程中,如果沒有足夠的上下文信息,對象實(shí)例之間的重疊關(guān)系很難被確定。為了解決這個問題,Liu 等人[17]在子任務(wù)融合方法中引入了一種新的空間排名模塊來處理預(yù)測實(shí)例之間的遮擋,提出了一種新型用于全景分割的端到端遮擋感知網(wǎng)絡(luò)OANet(occlusion aware network)。該模型使用FPN網(wǎng)絡(luò)為背景分支和實(shí)例分支提供特征圖,兩個分支生成中間結(jié)果,傳遞給空間排名模塊,空間排名模塊學(xué)習(xí)每個實(shí)例的排名分?jǐn)?shù)作為最終的合并證據(jù)。
啟發(fā)式融合方法簡單易行且占用的計(jì)算資源不是很高。但隨著研究的深入,啟發(fā)式融合方法的缺陷也逐漸暴露出來,首先是對圖像中的小目標(biāo)不太敏感,其次是前景與背景對象交界處像素類別分配出現(xiàn)沖突,影響全景分割預(yù)測輸出。
2.3.2 全景頭融合方法
全景頭(panoptic head)融合方法是指將語義分割的結(jié)果和實(shí)例分割的結(jié)果進(jìn)行融合。其中語義分割輸出的Stuff 類作為全景分割的輸出,實(shí)例分割輸出的Thing 類作為索引選擇,經(jīng)濾除堆疊處理后,作為全景分割Thing類的最終輸出。
Xiong等人[15]在子任務(wù)融合階段設(shè)計(jì)了獨(dú)特的無參數(shù)全景頭模塊對獲得的背景和前景對象信息進(jìn)行融合,提出了一個統(tǒng)一的全景分割網(wǎng)絡(luò)UPSNet。該模型將語義分支的預(yù)測結(jié)果分為前景與背景兩類,背景類對象的掩碼作為最終的全景預(yù)測背景輸出,前景類對象結(jié)合實(shí)例分支輸出,從通道維度利用softmax 函數(shù)計(jì)算像素的落點(diǎn)通道從而確定其歸屬區(qū)域,若在背景對象通道內(nèi)則該像素屬于背景對象,否則屬于前景對象,最后結(jié)合背景類掩碼形成全景分割輸出。此外,無參數(shù)全景頭非常輕巧,可以與各種主干網(wǎng)絡(luò)一起使用,促進(jìn)了端到端的訓(xùn)練。
De Geus 等人[18]通過引入全景頭模塊(panoptic head)提出了一個用于快速全景分割的端到端網(wǎng)絡(luò)FPSNet(fast panoptic segmentation network),該模型能夠?qū)崿F(xiàn)實(shí)時的分割任務(wù),不需要計(jì)算成本極高的實(shí)例掩碼預(yù)測或啟發(fā)式融合方法,而是通過將全景分割任務(wù)轉(zhuǎn)換為自定義的像素級密集分類任務(wù)來實(shí)現(xiàn),該任務(wù)將類別標(biāo)簽或?qū)嵗齀D 分配給每個像素。這是一種端到端的網(wǎng)絡(luò)架構(gòu),能夠?qū)W習(xí)解決類與實(shí)例之間的沖突。
全景頭融合方法是當(dāng)前采用較多的沖突處理策略,通過對通道維度的像素進(jìn)行計(jì)算確定類別來生成最后的融合結(jié)果,雖然分割效果較好但花費(fèi)時間,影響網(wǎng)絡(luò)推理速度。
除了針對上述三個核心步驟的全景分割方法以外,還有其他一些方法,如多任務(wù)優(yōu)化的全景分割方法和基于Transformer的全景分割方法等。
2.4.1 多任務(wù)優(yōu)化方法
圖像全景分割的核心步驟有三個,在設(shè)計(jì)過程中可以對其中兩個步驟或者三個步驟同時進(jìn)行優(yōu)化,該類方法稱為多任務(wù)優(yōu)化方法。該方法可以克服計(jì)算開銷大,且每個網(wǎng)絡(luò)的預(yù)測存在差異不易結(jié)合的缺點(diǎn),從而進(jìn)一步提升計(jì)算效率和精度。
Mohan等人[24]通過同時對特征提取網(wǎng)絡(luò)和子任務(wù)融合模塊進(jìn)行有效優(yōu)化,提出了一種高效的全景分割網(wǎng)絡(luò)模型EfficientPS(efficient panoptic segmentation)。設(shè)計(jì)了一個雙路特征金字塔網(wǎng)絡(luò)(2-way feature pyramid network),實(shí)現(xiàn)信息的雙路流動,在運(yùn)行時間上保持變化不大的同時,大幅提高了前景類的全景分割質(zhì)量;同時設(shè)計(jì)了一種全新的全景融合模塊,可根據(jù)語義頭和實(shí)例頭的掩碼的置信度自適應(yīng)地動態(tài)調(diào)整融合,以產(chǎn)生更好的全景分割輸出。
Hong等人[26]提出了一種輕量級的全景分割網(wǎng)絡(luò)LPSNet(lightweight panoptic segmentation network),該模型同時優(yōu)化了特征提取和子任務(wù)融合部分。通過添加金字塔池化模塊來增加FPN 的經(jīng)驗(yàn)感受野,并使用二步卷積將典型FPN 的金字塔擴(kuò)展兩個級別,增強(qiáng)了特征提取。同時,模型中設(shè)計(jì)了一個無參數(shù)的頭,更好地融合語義分割與實(shí)例分割子任務(wù),提升全景分割性能。
為了減少計(jì)算開銷,Hu 等人[50]提出了一個實(shí)時全景分割框架YOSO(you only segment once),設(shè)計(jì)了一個高效的特征金字塔聚合器和一個輕量級的可分離動態(tài)解碼器,分別用于特征提取和子任務(wù)融合部分。特征金字塔聚合器以卷積優(yōu)先的方式重新參數(shù)化插值優(yōu)先模塊,解碼器通過可分離的動態(tài)卷積執(zhí)行多頭交叉注意,提高了解碼器的速度和精度。
為了解決在邊界附近的不規(guī)則掩膜預(yù)測問題,Chang等人[51]提出了基于輪廓的增強(qiáng)特征的全景分割網(wǎng)絡(luò)SE-PSNet(Silhouette-based enhancement feature for panoptic segmentation network)。該模型能夠預(yù)測實(shí)例邊界上的高質(zhì)量掩碼,有助于區(qū)分不同的實(shí)例,并且使用新提出的置信度來解決遮擋問題,使網(wǎng)絡(luò)采用更高質(zhì)量的掩膜作為預(yù)測結(jié)果。
2.4.2 基于Transformer的方法
為了獲得更豐富的全局信息,自注意力機(jī)制得到了廣泛研究,并被應(yīng)用于圖像全景分割。Wang 等人[22]引入位置敏感的自注意力機(jī)制,將二維注意力依次分解為沿高度軸和寬度軸方向的兩個一維注意力,通過增大感受野來獲取更多的全局信息,很好地提升了圖像全景分割的性能。作為Transformer[52]網(wǎng)絡(luò)的基本結(jié)構(gòu),自注意力機(jī)制使得Transformer 能夠獲取比卷積神經(jīng)網(wǎng)絡(luò)更多的全局信息,使其不僅能夠提升自然語言處理(natural language processing,NLP)[53]的性能,也被越來越多地應(yīng)用于圖像全景分割[28,34-35,38],以及圖像分類[54]、目標(biāo)檢測[55]、圖像分割[56]等計(jì)算機(jī)視覺(computer vision,CV)領(lǐng)域[57-59]。
為了解決Axial-DeepLab不能很好地處理高度變形物體的問題,受Transformer 和DETR(detection transformer)的啟發(fā),Wang 等人[28]提出了一種使用掩碼Transformer預(yù)測類別標(biāo)記的掩碼,并通過二分匹配以全景質(zhì)量啟發(fā)損失進(jìn)行訓(xùn)練的模型Max-DeepLab。掩碼Transformer 采用像素路徑(由視覺Transformer組成)提取像素特征,內(nèi)存路徑(由Transformer解碼器模塊組成)提取內(nèi)存特征,以及雙路徑Transformer用于像素特征和內(nèi)存之間的交互特征。MaX-DeepLab是第一個將Transformer 用于全景分割的端到端模型,但原本為自然語言任務(wù)設(shè)計(jì)的交叉注意力模塊應(yīng)用于圖像領(lǐng)域具有局限性。在MaX-DeepLab 的基礎(chǔ)上,Yu 等人[35]提出CMT-DeepLab(clustering mask transformers for panoptic segmentation),采用像素聚類方法來執(zhí)行交叉注意力機(jī)制,從而產(chǎn)生更密集和合理的注意力機(jī)制圖。隨后Yu等人[38]又提出kMaXDeepLab,進(jìn)一步重新設(shè)計(jì)了交叉注意力機(jī)制,使其更像K-means聚類算法[60],對激活函數(shù)進(jìn)行簡單的更改。
為了統(tǒng)一前景和背景的掩碼預(yù)測流程,在DETR的基礎(chǔ)上,Li等人[34]提出了一個基于Transformer的端到端全景分割的通用框架Panoptic SegFormer??蚣苡扇齻€關(guān)鍵模塊組成:Transformer編碼器、位置解碼器和Mask解碼器。其中利用Transformer編碼器對主干提取的多尺度特征圖進(jìn)行細(xì)化;利用位置解碼器捕捉物體的位置線索;Mask解碼器用于最終的分類和分割。
2023年,一種由OpenAI開發(fā)的自然語言處理技術(shù)ChatGPT[61-62]被提出,該方法是基于大量數(shù)據(jù)的有監(jiān)督學(xué)習(xí)算法,可以根據(jù)輸入的信息預(yù)測下一個合適的文本。ChatGPT 算法中的Transformer 模型是一種新型的序列建模技術(shù),采用編碼器-解碼器結(jié)構(gòu)以及注意力機(jī)制,可以一次性處理整個語言模型。隨后ChatGPT被引入到CV領(lǐng)域,Wang等人[63]提出了一個通用的分割模型SegGPT,該模型將各種分割任務(wù)統(tǒng)一到一個通用的上下文學(xué)習(xí)框架中,該框架通過將不同類型的分割數(shù)據(jù)轉(zhuǎn)換為相同的圖像格式來適應(yīng)不同類型的分割數(shù)據(jù)。雖然在圖像全景分割的性能上不太良好,但開辟了一種新的分割方式。
視覺Transformer網(wǎng)絡(luò)作為一種新的視覺特征學(xué)習(xí)網(wǎng)絡(luò),其遠(yuǎn)距離建模能力和動態(tài)的響應(yīng)特質(zhì)使之具備了更為強(qiáng)大的特征學(xué)習(xí)能力,從而提升了全景分割的精度。但是,由于Transformer 嚴(yán)重依賴數(shù)據(jù)和算力資源,導(dǎo)致基于Transformer 的圖像全景分割方法不具有很好的實(shí)時性。
在圖像全景分割領(lǐng)域,為了驗(yàn)證算法的有效性,常常將算法在MS COCO數(shù)據(jù)集[64]、PASCAL VOC數(shù)據(jù)集[65]、Cityscapes 數(shù)據(jù)集[66]、ADE20K 數(shù)據(jù)集[67]和Mapillary Vistas 數(shù)據(jù)集[68]上進(jìn)行驗(yàn)證。每個數(shù)據(jù)集的主要信息見表2所示。
表2 圖像全景分割數(shù)據(jù)集Table 2 Image panoptic segmentation datasets
MS COCO 數(shù)據(jù)集[64]:微軟團(tuán)隊(duì)提供的大型數(shù)據(jù)集。目前被廣泛應(yīng)用于圖像分類、目標(biāo)檢測、圖像分割等視覺任務(wù)。本數(shù)據(jù)集包含了91種物體類型的圖像,數(shù)據(jù)集有32.8萬張圖片,包含有250萬個標(biāo)注實(shí)例。
PASCAL VOC 數(shù)據(jù)集[65]:廣泛應(yīng)用于圖像分類、目標(biāo)檢測、圖像分割等任務(wù)。數(shù)據(jù)集最初有4類,最后穩(wěn)定在21 類,對于分割任務(wù),這些類別有汽車、房屋、動物、飛機(jī)、自行車、船、公共汽車、小汽車、摩托車、火車等,測試圖像從早期的1 578 幅最后穩(wěn)定在11 540幅。
Cityscapes 數(shù)據(jù)集[66]:數(shù)據(jù)集是在50 個不同城市不同季節(jié)收集的城市街道場景,被稱為城市景觀數(shù)據(jù)集。數(shù)據(jù)集有5 000 張圖片(2 975 張訓(xùn)練集,500張驗(yàn)證集,1 525 張測試集)是高質(zhì)量像素級的標(biāo)記,20 000 張圖片是進(jìn)行粗糙標(biāo)記以適應(yīng)方法對于較弱標(biāo)記的數(shù)據(jù)。它有19 個類的密集像素注釋(97%覆蓋率),其中8類具有實(shí)例級掩碼。
ADE20K數(shù)據(jù)集[67]:是麻省理工大學(xué)提供的一個數(shù)據(jù)集,主要應(yīng)用于場景感知、圖像分割、多物體識別等多種任務(wù)。擁有超過25 000張圖像(20 000張訓(xùn)練集,2 000 張驗(yàn)證集,3 000 張測試集),這些圖像用開放字典標(biāo)簽集密集注釋。包含150種物體類別,分別是100種前景和50種背景。
Mapillary Vistas 數(shù)據(jù)集[68]:一個新建立的、全球最大的和最多樣化的街景圖像數(shù)據(jù)集,以幫助全球范圍內(nèi)的無人駕駛和自主運(yùn)輸技術(shù),包括25 000 張高分辨率的彩色圖像(18 000張訓(xùn)練集,2 000張驗(yàn)證集,5 000 張測試集),分成66 個類,其中有37 個類別是特定的附加于實(shí)例的標(biāo)簽。包含28 個背景和37個前景類。圖像場景對無人駕駛、場景理解等技術(shù)的發(fā)展有著重要意義。
為了驗(yàn)證算法的有效性,圖像全景分割結(jié)果一般采用全景質(zhì)量(panoptic quality,PQ)和解析覆蓋(parsing covering,PC)兩個度量標(biāo)準(zhǔn)。
PQ[5]:為了衡量不同全景分割模型的性能,提出了評價指標(biāo)全景質(zhì)量。對于每個類別,唯一匹配將預(yù)測結(jié)果和真實(shí)標(biāo)注分割分為三組:真陽性(true positives,TP)、假陽性(false positives,F(xiàn)P)和假陰性(false negatives,F(xiàn)N),分別代表匹配的分割段、不匹配的預(yù)測分段和不匹配的真實(shí)注釋。
更進(jìn)一步地,PQ還可以拆分為分割質(zhì)量(segmentation quality,SQ)和識別質(zhì)量(recognition quality,RQ)的乘積。SQ 表示所有匹配的平均IoU,RQ 表示在檢測設(shè)置中廣泛用于質(zhì)量評估的熟悉的F1 分?jǐn)?shù)。為區(qū)分對前景和背景的分割能力的不同,提出PQTh和PQSt評價指標(biāo),其中PQTh表示系統(tǒng)分割Thing類物體的能力,PQSt表示系統(tǒng)分割Stuff類物體的能力。
PC[16]:在某些應(yīng)用場景中,人們更加關(guān)注大物體的分割結(jié)果,例如肖像分割中大圖的人像分割或自動駕駛中近距離的物體等。通過擴(kuò)展現(xiàn)有的覆蓋指標(biāo)來評估圖像解析結(jié)果的質(zhì)量,該指標(biāo)考慮了實(shí)例大小。
其中,Si、Si?分別表示對應(yīng)類別的預(yù)測部分與真實(shí)部分,|R|表示對應(yīng)類別的實(shí)例在真實(shí)標(biāo)注中像素點(diǎn)數(shù)量,Ni表示類別為i的真實(shí)標(biāo)注像素點(diǎn)總和。通過對大的實(shí)例物體賦予更大的權(quán)重,使評價指標(biāo)能夠更明顯地反映大物體的分割指標(biāo)。
本章對上述模型分類中的典型圖像全景分割方法在多個數(shù)據(jù)集上進(jìn)行了性能比較,分別采用PQ(全景質(zhì)量)、PQTh(前景全景質(zhì)量)和PQSt(背景全景質(zhì)量)作為評價指標(biāo),比較結(jié)果見表3~表5。表中列出了每個模型的backbone,其中數(shù)據(jù)均為各個模型在其文獻(xiàn)中給出的數(shù)據(jù)。
表4 主流模型在不同數(shù)據(jù)集上的性能比較(PQTh)Table 4 Performance comparison of mainstream models on different datasets(PQTh) 單位:%
表5 主流模型在不同數(shù)據(jù)集上的性能比較(PQSt)Table 5 Performance comparison of mainstream models on different datasets(PQSt) 單位:%
從表3~表5 可以看出:(1)同一模型對于有固定形狀的前景圖像的分割性能要高于沒有固定形狀的背景圖像的分割性能。(2)Transformer的出現(xiàn)極大地促進(jìn)了圖像全景分割模型性能的提升。(3)針對不同的數(shù)據(jù)集,各個模型在優(yōu)化任務(wù)不同的分類中,都有明顯的性能提升,其中多任務(wù)優(yōu)化的方法性能提升得最多。
圖像全景分割作為計(jì)算機(jī)視覺領(lǐng)域的新興任務(wù),很好地融合了語義分割與實(shí)例分割的特點(diǎn),因此,在醫(yī)學(xué)圖像、自動駕駛、無人機(jī)遙感等領(lǐng)域獲得了廣泛的應(yīng)用。
醫(yī)學(xué)圖像:圖像全景分割在醫(yī)學(xué)領(lǐng)域得到了深入研究,并應(yīng)用于病理圖像分析[69]、前列腺癌檢測[70]、全景X 射線圖像中的牙齒分割[71]和腎臟組織形態(tài)測定[72]等。醫(yī)學(xué)影像中對癌細(xì)胞的無定形區(qū)域進(jìn)行全景分割可以幫助醫(yī)生檢測和診斷疾病以及腫瘤的定位。Zhang 等人[69]在2018 年醫(yī)學(xué)圖像計(jì)算和計(jì)算機(jī)輔助干預(yù)國際會議中提出了一種端到端的細(xì)胞R-CNN(Cell R-CNN)[73]框架來完成細(xì)胞的全景分割。與現(xiàn)有的細(xì)胞分割方法不同,所提出的網(wǎng)絡(luò)將檢測、定位對象和像素級類別信息分配給具有大重疊區(qū)域的區(qū)域統(tǒng)一起來,從而幫助醫(yī)生更好地診斷腫瘤細(xì)胞。
汽車自動駕駛:汽車自動駕駛是圖像全景分割的一個重要應(yīng)用場景。圖像全景分割能夠幫助自動駕駛系統(tǒng)更好地完成細(xì)粒度場景理解和場景感知,但是如何滿足自動駕駛的實(shí)時性需求,成為基于全景分割的自動駕駛面臨的巨大挑戰(zhàn)。Petrovai等人[74]在2020 年IEEE 智能汽車研討會中提出用于自動駕駛原型掩碼的實(shí)時全景分割,一種用于全景分割的快速全卷積神經(jīng)網(wǎng)絡(luò),它可以在2D空間中提供環(huán)境的準(zhǔn)確語義和實(shí)例級表示。將全景分割作為密集分類問題來處理,并為背景類以及前景類的每個實(shí)例生成掩碼。該解決方案在82 ms 內(nèi)實(shí)時運(yùn)行高分辨率圖像,使其適用于自動駕駛。
無人機(jī)遙感:圖像全景分割是無人機(jī)遙感平臺必不可少的方法,可以實(shí)現(xiàn)路況監(jiān)測和城市規(guī)劃。Chen等人[75]在2020年第十二屆圖形和圖像處理國際會議中提出一種針對無人機(jī)應(yīng)用場景的全景分割算法框架,使用可變形卷積網(wǎng)絡(luò)掩碼評分對無人機(jī)圖像進(jìn)行全景分割。由于無人機(jī)目標(biāo)場景大、目標(biāo)小,導(dǎo)致分割結(jié)果中缺少前景目標(biāo),分割掩碼質(zhì)量較差。為了解決這些問題,該框架在特征提取網(wǎng)絡(luò)中引入了可變形卷積[76],以提高網(wǎng)絡(luò)特征提取的能力。此外,在實(shí)例分割分支中引入了MaskIoU模塊,以提高前景目標(biāo)掩碼的整體質(zhì)量。
其他應(yīng)用:圖像全景分割還可應(yīng)用于其他領(lǐng)域,如農(nóng)業(yè)[77]、畜牧業(yè)[78]和軍事[79]等領(lǐng)域。全景分割可以用于豬、牛的行為研究,在不影響動物正常行為的情況下對其養(yǎng)殖狀態(tài)進(jìn)行評估。動物檢測中通常采用的物體和關(guān)鍵點(diǎn)檢測器不能獲得動物的輪廓,導(dǎo)致大量信息丟失。全景分割采用不同的網(wǎng)絡(luò)頭和處理方法,能夠有效地分割個體豬,從而克服信息丟失問題。全景分割還可以用于戰(zhàn)場上軍事目標(biāo)檢測及場景理解,由兩個獨(dú)立的子任務(wù)網(wǎng)絡(luò)組成:一個是基于YOLACT(you only look at coefficients)[80]的高效實(shí)時全景分割網(wǎng)絡(luò),用于發(fā)現(xiàn)隱藏的軍事目標(biāo)以及從士兵的角度理解場景;另一個是由全景分割網(wǎng)絡(luò)引導(dǎo)的圖像補(bǔ)全網(wǎng)絡(luò),用于重建目標(biāo)的遮擋部分。
圖像全景分割綜合了語義分割與實(shí)例分割兩個任務(wù),實(shí)現(xiàn)了全面的場景解析,在醫(yī)學(xué)成像、自動駕駛、無人機(jī)遙感等領(lǐng)域有著廣泛的應(yīng)用前景。因此,近年圖像全景分割得到了廣泛研究。本文闡述了圖像全景分割算法發(fā)展歷程,并對圖像全景分割主流算法進(jìn)行分類總結(jié),同時也簡單介紹了常用數(shù)據(jù)集和評價準(zhǔn)則,并對代表性的方法進(jìn)行了性能比較。此外,還列舉了圖像全景分割在現(xiàn)實(shí)中的一些典型應(yīng)用。
盡管圖像全景分割研究及應(yīng)用取得了極大進(jìn)展,但是仍存在著諸多問題與挑戰(zhàn)。主要包括:
(1)沖突。全景分割與語義分割和實(shí)例分割不同,全景分割既需要考慮到前景,又需要考慮到背景。在全景分割任務(wù)當(dāng)中,利用語義分割和實(shí)例分割兩個子網(wǎng)絡(luò)獨(dú)立分割,再對分割結(jié)果進(jìn)行融合的方法,就會存在語義分支與實(shí)例分支之間的沖突以及實(shí)例分支內(nèi)部的沖突。雖然現(xiàn)有的模型當(dāng)中提出了額外的后處理和融合操作來緩解這兩個分支之間的沖突,但這會引起效率低、內(nèi)存消耗大和執(zhí)行復(fù)雜等問題。
(2)實(shí)時性。目前全景分割的研究大多集中在提高模型精度上,整個網(wǎng)絡(luò)模型的推理速度非常慢,不適合實(shí)時應(yīng)用。近期有一小部分研究朝著更快的全景分割算法方向發(fā)展,但在準(zhǔn)確性方面付出了巨大的代價。因此,在保證分割精度的同時兼顧實(shí)時性,滿足實(shí)際應(yīng)用需要,是圖像全景分割面臨的巨大挑戰(zhàn)。
(3)復(fù)雜場景應(yīng)用。目前圖像全景分割模型驗(yàn)證均是在良好條件下采集的數(shù)據(jù)集中完成,還沒有充分考慮夜間、事故場景等復(fù)雜場景下的全景分割數(shù)據(jù)集,極大限制了復(fù)雜場景下圖像全景分割模型的研究和驗(yàn)證。另外,現(xiàn)有的圖像全景分割模型適合良好條件下的圖像全景分割,當(dāng)其面對夜間、事故場景等復(fù)雜場景等不利條件時,分割性能將會大幅下降。
針對以上存在的問題和挑戰(zhàn),對圖像全景分割的未來研究方向做出如下展望。主要包括:
(1)基于簡單統(tǒng)一框架的圖像全景分割研究。設(shè)計(jì)簡單統(tǒng)一的全景分割網(wǎng)絡(luò),統(tǒng)一語義分支與實(shí)例分支,將前景和背景進(jìn)行統(tǒng)一預(yù)測,省去復(fù)雜后處理和信息融合的操作。消除語義分支與實(shí)例分支之間的沖突,以及實(shí)例分支內(nèi)部的沖突,從而解決圖像全景分割模型效率低、內(nèi)存消耗大和執(zhí)行復(fù)雜等問題。
(2)實(shí)時的高質(zhì)量圖像全景分割研究。采用輕量化的骨干結(jié)構(gòu),設(shè)計(jì)結(jié)構(gòu)簡潔、參數(shù)少、計(jì)算復(fù)雜度低的輕量化網(wǎng)絡(luò)模型作為全景分割的基礎(chǔ)框架,進(jìn)一步提升全景分割效率。在不影響分割質(zhì)量的前提下,簡化設(shè)計(jì),進(jìn)一步提高分割效率和速度。因此,在實(shí)時約束條件下實(shí)現(xiàn)高質(zhì)量的全景分割是未來的一個熱點(diǎn)研究方向。
(3)復(fù)雜應(yīng)用場景下圖像全景分割的研究。構(gòu)建復(fù)雜場景下圖像全景分割數(shù)據(jù)集,從而更好地驗(yàn)證所提模型的有效性。可以采用GAN(generative adversarial network)網(wǎng)絡(luò)等對圖像數(shù)據(jù)進(jìn)行轉(zhuǎn)換,將訓(xùn)練集中含有分割標(biāo)簽的部分白天圖像轉(zhuǎn)換為夜間圖像,從而緩解模型從白天到夜晚準(zhǔn)確率急劇下降的問題。