国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于距離譜回歸的全景分割方法

2020-07-20 05:14:42孟凡滿丁宇劼
西華大學學報(自然科學版) 2020年4期
關(guān)鍵詞:全景分支實例

孟凡滿,丁宇劼,陳 帥,羅 旺

(1.電子科技大學信息與通信工程學院,四川 成都 611731;2.南京師范大學電氣與自動化工程學院,江蘇 南京 210023;3.南瑞集團有限公司(國網(wǎng)電力科學研究院有限公司),江蘇 南京 211000)

隨著基于深度學習的語義分割[1-4]和實例分割[5-6]的發(fā)展,場景解析任務(wù)取得了長足的進步,然而自動駕駛等實際應(yīng)用不僅需要語義分割結(jié)果,還需要實例分割結(jié)果;因此,迫切需要能同時解決針對前景的實例分割和針對背景的語義分割的方法,即全景分割。全景分割[7]將語義分割和實例分割融合為一個統(tǒng)一的任務(wù),為可數(shù)的類別(如汽車和行人)分配單獨的實例標簽和對應(yīng)的語義標簽,為不可數(shù)的類別(如地面、天空)僅分配語義標簽。

同一類物體的相鄰實例具有相同的外觀特征,在復(fù)雜場景下如何區(qū)分實例是全場景分割面臨的挑戰(zhàn)。現(xiàn)有的全景分割方法[7-10]是基于雙分支網(wǎng)絡(luò)的,即語義分割分支和實例分割分支。語義分割分支致力于預(yù)測語義標簽,實例分割分支致力于提取前景像素并預(yù)測實例標簽。為了區(qū)分不同的實例,現(xiàn)有的實例分割分支常采用檢測策略,首先檢測出對象,然后基于檢測結(jié)果進行分割。這種方法在較稀疏的場景下能夠有效地實現(xiàn)實例區(qū)分,但在自動駕駛等應(yīng)用的實際稠密場景中,大量的實例相互遮擋,易導(dǎo)致區(qū)分實例的失敗和全景分割性能的不足。

現(xiàn)有方法[11-12]使用到實例中心的偏移向量區(qū)分相鄰的不同實例,這種到中心的偏移向量在稀疏場景下能夠取得較好的效果,但在稠密場景下,無法區(qū)分重疊在一起的實例。圖1(a)展示了一個極端的例子,由于中心重疊在一起導(dǎo)致到中心的偏移向量的基本一致,使用到中心的距離向量不能解決同心圓遮擋下的實例區(qū)分問題。為此,本文提出一種新穎的復(fù)雜遮擋條件下的實例表示方式,其核心思想是利用前景像素點到對應(yīng)實例邊緣的最大距離和最小距離向量,建立遮擋問題中分離區(qū)域內(nèi)部關(guān)系和相互關(guān)系的模型。圖1(b)(c)分別展示了最小距離譜和最大距離譜的示意圖。對遮擋導(dǎo)致的一個實例在空間上不連續(xù)的情況,最小距離譜致力于刻畫獨立的各個區(qū)域的內(nèi)部依賴關(guān)系;最大距離譜通過刻畫不同分離區(qū)域的全局依賴關(guān)系,將同一實例的分離區(qū)域連接在一起,如圖1 所示,圖中顏色代表距離譜的方向,亮度代表距離譜的大小。

圖1 距離譜的示意圖及可視化結(jié)果

為了表明本文提出的新的實例表示方式在解決實例遮擋問題上的有效性,本文設(shè)計了一個距離譜回歸模塊。在給定輸入圖片后,該模型能夠有效地預(yù)測出最大距離譜和最小距離譜。此外,本文設(shè)計了2 種由距離譜生成實例分割結(jié)果的方法,并將分割結(jié)果與語義分割結(jié)果融合生成全景分割結(jié)果。在Cityscapes數(shù)據(jù)集上進行大量的實驗,實驗結(jié)果表明本文方法在解決復(fù)雜遮擋條件下的全景分割問題是有效的。

1 相關(guān)工作

1.1 語義分割

語義分割是計算機視覺領(lǐng)域的基礎(chǔ)任務(wù)之一,旨在為每個像素分配類別標簽?,F(xiàn)有的基于卷積神經(jīng)網(wǎng)絡(luò)的語義分割方法,充分利用了卷積神經(jīng)網(wǎng)絡(luò)提取深度特征的能力,在實際應(yīng)用中取得了成功。FCN[1]使用卷積操作代替全連接層,能夠適用于任意尺度輸入,表明保留原始輸入圖像中的空間信息對語義分割的重要性。DeepLab 系列[2-3]使用帶有空洞的卷積來增加感受野,并使用ASPP 結(jié)構(gòu)和編碼-解碼結(jié)構(gòu)來獲取全局信息和多尺度上下文信息。PSPNet[4]設(shè)計了空間金字塔池化模塊,聚合不同區(qū)域的上下文信息。然而自動駕駛等實際應(yīng)用不僅需要語義分割結(jié)果,還需要對同一類物體的不同實例進行區(qū)分,相比于語義分割,實例分割是一個更困難的任務(wù)。

1.2 實例分割

和語義分割不同,實例分割不僅需要為每個前景像素分配語義類別,還需要為每個物體分配對應(yīng)的實例標簽。實例分割的關(guān)鍵問題在于如何將不同實例區(qū)分開。根據(jù)是否需要先進行目標檢測,實例分割可分為2 類:自上而下的實例分割和自下而上的實例分割。自上而下的實例分割首先使用目標檢測器,例如一階段目標檢測方法RetinaNet[13]、SSD[14]以及YOLO 系列[15],或者二階段目標檢測方法Faster R-CNN[16]等生成邊框,然后在邊框內(nèi)預(yù)測物體的實例掩碼結(jié)果。Mask R-CNN[5]在Faster RCNN[16]基礎(chǔ)上增加一個實例分割分支,并使用RoIAlign 操作進行對齊,取得了良好的實例分割結(jié)果。PANet[17]在自上而下的特征金字塔結(jié)構(gòu)旁邊增加一個自底向上的路徑來促進多尺度信息流動。Masklab[18]將語義特征和方向特征結(jié)合以增強實例分割。HTCNet[19]使用多任務(wù)、多階段的混合級聯(lián)結(jié)構(gòu),并融合語義分割分支特征來增強空間上下文信息。自下而上的實例分割方法無需進行檢測,而是通過實例之間的中間嵌入表示進行聚類。Deep Watershed Transform[20]將深度學習和分水嶺算法組合起來,為每個實例生成類似分水嶺的能量圖。文獻[11]將像素點到實例中心的距離建模為該點與中心同屬于一實例的概率,以此區(qū)分不同實例。在自動駕駛等實際應(yīng)用中,背景類別(如地面和人行道)具有十分重要意義,因此迫切需要能同時解決針對前景的實例分割和針對背景的語義分割的方法,即全景分割任務(wù)。

1.3 全景分割

全景分割任務(wù)將語義分割任務(wù)和實例分割任務(wù)統(tǒng)一起來,為圖像中的前景像素分配語義類別和實例標簽,為背景像素分配語義標簽。全景分割任務(wù)面臨之前方法難以處理的困難:既要求同一類的像素點在特征空間的距離較小,也要求不同實例的相鄰像素點在特征空間中能夠被分離。因此全景分割是一個具有挑戰(zhàn)性的任務(wù)。和實例分割類似,根據(jù)區(qū)分實例的方式,全景分割也可以分為自底向上和自頂向下2 種方法。

自底向上的全景分割方法首先生成語義分割結(jié)果,然后為每個像素學習一種中間嵌入表示,使實例內(nèi)部的嵌入表示距離小,實例之間的嵌入表示距離大,最后通過聚類方法將像素聚為一個實例。AdaptIS[21]使用候選點來生成對應(yīng)的實例結(jié)果,通過和語義分割融合生成全景結(jié)果。DeeperLab[12]使用邊框中心和邊框的4 個角點,聚類生成類無關(guān)的實例分割,這些類無關(guān)的實例分割結(jié)果和語義分割融合為全景分割結(jié)果。

現(xiàn)有的自頂向下的全景分割方法先使用一個共享參數(shù)的骨干網(wǎng)絡(luò)提取特征,然后進行并行的語義分割和實例分割分支,同時生成帶有重疊的實例分割結(jié)果和像素級別的語義分割結(jié)果。為了解決實例分割內(nèi)部的重疊結(jié)果,以及語義分割結(jié)果和實例分割結(jié)果之間的沖突問題,文獻[7]使用了實例分割的置信度,進行啟發(fā)式的后處理過程,AUNet[9]使用了注意力機制來引導(dǎo)前景類別和背景類別的融合過程,TASCNet[10]設(shè)計了一致性損失來約束前景類別和背景類別的一致性,UPSNet[8]設(shè)計了一個無參數(shù)的全景分割分支來處理沖突問題,并增加忽略類別來處理前景和背景的不一致。

針對現(xiàn)有全景分割方法在復(fù)雜遮擋條件下性能不足,本文提出了一種適用于遮擋條件下的全景分割方法:使用一個參數(shù)共享的骨干網(wǎng)絡(luò)提取特征,然后分別構(gòu)建語義分割分支和實例分割分支,并生成語義結(jié)果和實例結(jié)果,最后進行融合。與之前的自頂向下的方法不同,本文首先提出了一種新的實例表示方法,即前景像素到對應(yīng)實例邊緣的最大距離向量和最小距離向量,然后基于這2 種距離譜設(shè)計了新的實例分割分支,以有效地處理遮擋問題,最后將語義分割結(jié)果和實例分割融合為全景分割結(jié)果。

2 端到端的全景分割方法

針對復(fù)雜遮擋條件下的全景分割問題,本文提出一種端到端的全景分割框架,具體結(jié)構(gòu)如圖2 所示,主要分為5 個部分:1)用于提取深度特征的骨干網(wǎng)絡(luò);2)用于逐像素分類的語義分割分支;3)用于預(yù)測最大距離譜和最小距離譜的距離譜預(yù)測分支;4)用于區(qū)分不同實例的基于距離譜的實例分割分支;5)用于融合語義分割結(jié)果和實例分割結(jié)果的融合分支。

2.1 骨干網(wǎng)絡(luò)

給定輸入圖像,骨干網(wǎng)絡(luò)能夠輸出多尺度深度特征。本文采用ImageNet 預(yù)訓練的ResNet-50 作為骨干網(wǎng)絡(luò),并且使用FPN 聚合多尺度信息。輸出的多尺度特征包括p2、p3、p4以及p5,尺度分別是原圖大小的 1/4、1/8、1/16 以及1/32。訓練時,骨干網(wǎng)絡(luò)的第2 個卷積層前的參數(shù)固定。

圖2 總體網(wǎng)絡(luò)結(jié)構(gòu)

2.2 語義分割分支

語義分割分支的目的是對圖片進行逐像素的分類,類別包括前景類別和背景類別。具體結(jié)構(gòu)如圖2 中語義分割分支所示,輸入是FPN 的p2、p3、p4、p5的多尺度特征,分別經(jīng)過可變形卷積,并上采樣到輸入尺度1/4 大小拼接起來,然后通過1×1 卷積輸出語義結(jié)果。語義分割分支使用交叉熵損失進行優(yōu)化,具體公式如式(1)所示,其中N是類別數(shù)目,yc是真實語義標簽,pc是樣本屬于類別c的預(yù)測概率。

2.3 距離譜預(yù)測分支

給定輸入圖片,距離譜預(yù)測分支致力于有效預(yù)測最大距離譜和最小距離譜。最大距離譜dmax指像素點到對應(yīng)實例邊緣的最大距離向量,最小距離譜dmin指像素點到對應(yīng)實例邊緣的最小距離向量。2 種距離譜的寬高維度尺寸和原圖一致,dmax∈R2×H×W,dmin∈R2×H×W,本文中距離譜僅考慮前景類別,背景類別處使用零填充。

為了有效地預(yù)測最大距離譜和最小距離譜,本文設(shè)計了距離譜預(yù)測分支,以回歸的方式實現(xiàn)距離譜預(yù)測,具體結(jié)構(gòu)如圖3(a)所示,距離譜預(yù)測分支的輸入是FPN 的p2、p3、p4、p5的特征,將高層特征上采樣后與底層特征拼接起來,經(jīng)過4 個3×3 卷積塊及一個1×1 卷積層,并用Tanh 激活函數(shù)進行激活。為了更好地訓練,使用實例的大小對距離譜進行歸一化,最大距離譜歸一到[0,1],最小距離譜歸一化到[0,0.5],并且依據(jù)實例面積對實例進行加權(quán),以便于預(yù)測小實例,同時增加一個分支來預(yù)測實例的寬和高;因此,距離譜分支每個尺度上總共有3 個輸出,分別是最大距離譜、最小距離譜及實例的寬高。距離譜的真值由數(shù)據(jù)集的實例標注生成,距離譜分支使用L1損失進行優(yōu)化,具體公式如式(2)所示,其中dmax和dmin分別是最大距離譜和最小距離譜的真值,是距離譜的預(yù)測結(jié)果,λ1和λ2分別是2 種譜的權(quán)重。

圖3 距離譜預(yù)測分支和融合分支的結(jié)構(gòu)示意圖

2.4 基于距離譜的實例分割分支

此分支采用類似Mask R-CNN 的結(jié)構(gòu)得到實例分割結(jié)果,包括檢測框、類別以及邊框內(nèi)的分割結(jié)果。為了充分利用距離譜解決遮擋問題的能力,本文將距離譜嵌入到實例分割的區(qū)域候選階段和邊框回歸階段,并使用一個小網(wǎng)絡(luò)對初始的實例分割掩碼進行精細調(diào)整。具體的結(jié)構(gòu)如圖2 中實例分割分支所示,首先將距離譜的3 種輸出縮放至對應(yīng)的FPN 特征的尺寸大小并與FPN 特征拼接在一起,通道維數(shù)為(256+3×2),其中256 是FPN 特征的維數(shù),后面的維度分別是最大距離譜、最小距離譜及預(yù)測的實例寬高,然后在拼接的特征上進行區(qū)域候選網(wǎng)絡(luò)、邊框回歸及分類任務(wù),最后依據(jù)距離譜對初始的實例分割結(jié)果進行調(diào)整,具體來說,依據(jù)實例分割的掩碼裁剪出對應(yīng)位置處的最大距離譜和最小距離譜,再和初始實例分割結(jié)果拼接起來,通過1 個包含3 個3×3 卷積層的微調(diào)網(wǎng)絡(luò)進行調(diào)整。損失函數(shù)包括邊框回歸損失、分類損失和分割損失,其中邊框回歸損失采用平滑L1損失,分類損失和分割損失采用交叉熵損失,具體公式如式(3)所示,λreg、λcls以及λmask分別是3 種損失的權(quán)重。

此外,為了驗證提出的距離譜區(qū)分不同實例的能力,本文還設(shè)計了另外一種基于距離譜的實例分割分支,未使用FPN 特征,僅使用2 種距離譜作為實例分割的輸入特征,在最大距離譜和最小距離譜上進行類無關(guān)的實例分割,最后將語義分割結(jié)果中的對應(yīng)位置類別作為實例的類別信息。由于距離譜中不包含類別信息,將分類分支的類別設(shè)置為2,前景類別作為正樣本,背景類別作為負樣本。除了以上不同外,其余結(jié)構(gòu)和第一種基于距離譜的實例分割分支一致。

2.5 融合分支

融合分支是將語義分割結(jié)果和實例分割結(jié)果融合為全景分割結(jié)果。本文采用了一個可訓練的融合分支,如圖3(b)所示,使用各個分支的分類層之前的logits 作為輸入,而不是各個分支的分類結(jié)果。融合分支的輸入包括:來自語義分割分支的,其中Nthing、Nstuff分別是數(shù)據(jù)集的前景類別和背景類別,在Cityscapes 數(shù)據(jù)集中分別為8 和11;來自實例分割分支的某個實例的logitsYi∈R28×28,其中28×28 是Mask R-CNN的統(tǒng)一輸出大小。融合分支的目的是產(chǎn)生一個,其中Ninst是實例的數(shù)目,在訓練的時候依據(jù)真值來確定,在測試時,依據(jù)預(yù)測出的實例數(shù)目來確定。

具體來說,首先將語義分割的logitsX分為前景l(fā)ogitsXthing和背景l(fā)ogitsXstuff,將背景l(fā)ogitsXstuff直接復(fù)制到logitsZ中的背景類別位置,然后將Mask R-CNN 的某一個實例結(jié)果實例的logitsYi通過RoiAlign 的逆操作對齊,通過零填充到原圖大小,并依據(jù)掩碼將Xthing中的對應(yīng)通道的logits 裁剪出來,將二者求和,作為這一個實例在logitsZ中的一個面。訓練時,對每個實例進行這樣的操作后,在真值中匹配對應(yīng)的實例掩碼,使用交叉熵損失進行優(yōu)化,具體公式如式(4)所示,其中yc是全景標注的真值,pi是通道i上的概率。

該分支由于是無參數(shù)的,能夠適應(yīng)不同的實例數(shù)量,同時能夠?qū)⑻荻确聪騻鞑ソo語義分割分支和實例分割分支,因此能達到更好的融合效果。測試時通過構(gòu)建同樣的logitsZ,由softmax 操作獲得全景分割結(jié)果。

3 實 驗

3.1 實驗設(shè)置

1)數(shù)據(jù)集。本文在Cityscapes 數(shù)據(jù)集上進行實驗,Cityscapes 數(shù)據(jù)集包含5 000 張分辨率為1 024 ×2 048 的城市街道場景圖片,包含8 類前景物體和11 類背景物體。對于面臨的復(fù)雜遮擋問題,訓練集、驗證集、測試集分別有2 975、500 和1 525 張圖片。本文所有實驗都是在訓練集上進行訓練,驗證集上匯報結(jié)果,未引入其他數(shù)據(jù)。

2)評估指標。本文采用全景質(zhì)量(panoptic quality,PQ)作為評估指標,全景質(zhì)量PQ 可以看作是分割質(zhì)量(segmentation quality,SQ)和識別質(zhì)量(recognition quality,RQ)的乘積。PQ 計算方式為

式中:p和q是預(yù)測的結(jié)果和GT;TP(預(yù)測正確的正樣本)、FP(預(yù)測錯誤的正樣本)、FN(預(yù)測錯誤的負樣本)分別代表匹配到的預(yù)測結(jié)果、未匹配的預(yù)測結(jié)果,以及未匹配的GT。同時,本文還給出了語義分割mIoU 結(jié)果,以及檢測分支mAP 檢測結(jié)果。

3.2 訓練策略與超參數(shù)設(shè)置

為了公平比較,本文的訓練策略、數(shù)據(jù)增強策略和超參數(shù)設(shè)置與UPSNET[8]保持一致。使用的數(shù)據(jù)增強策略包括多尺度輸入(短邊隨機縮放到[800,864,928,992,1 024],長邊按比例縮放)和水平翻轉(zhuǎn)的策略,未采用其他數(shù)據(jù)增強策略。本文在2 個NVIDIA TITAN XP 上進行實驗,批次大小設(shè)置為1,學習率設(shè)置為1×10-5,衰減設(shè)置為0.02,迭代次數(shù)設(shè)置為9.6×104,并且在前6 ×103次迭代中采用warm up 策略,使用Adam 優(yōu)化器進行優(yōu)化。

3.3 結(jié)果對比

為了驗證本文提出方法的有效性,本文和現(xiàn)有的全景分割方法進行對比。表1 示出了以上幾個方法在Cityscapes 數(shù)據(jù)集上的結(jié)果,其中“√”表示進行類無關(guān),“×”表示沒有類無關(guān)。Our-1 指本文提出的第1 種利用距離譜生成實例分割的方法,是將距離譜作為實例分割的部分輸入特征;Our-2 指本文提出的第2 種實例分割方法,是在距離譜上進行類無關(guān)的實例分割。Our-1 采用ResNet-50 作為骨干網(wǎng)絡(luò),取得了59.7%的PQ 全景質(zhì)量,在相同骨干網(wǎng)絡(luò)下,超過UPSNET[8]方法0.4%,超過AU-NET[9]方法0.7%,超過DeeperLab[12]方法3.5%,實驗驗證了本文的方法在解決全景分割上的有效性。同時,本文設(shè)計的第2 種方法,在距離譜上進行類無關(guān)的實例分割,取得了57.4%的全景質(zhì)量。圖4 示出了本文的方法在Cityscapes 數(shù)據(jù)集上的主觀結(jié)果,圖中從左往右,依次是圖片、全景分割的真值、預(yù)測的全景分割結(jié)果。

3.4 消去實驗

本文提出了使用距離譜來緩解實例重疊的問題,為了驗證這2 種距離譜對全景分割性能的影響,對最大距離譜和最小距離譜進行了消去實驗。表2 示出了消去實驗的結(jié)果,其中“√”表示增加了距離譜。在基準上增加最小距離譜,全景分割質(zhì)量PQ 由基準的59.3%上升到59.4%;再繼續(xù)增加最大距離譜,全景分割質(zhì)量上升到59.7%。消去實驗證明了本文提出的2 種距離譜在緩解實例遮擋上的作用。

表1 在Cityscapes 數(shù)據(jù)集上的結(jié)果對比

圖4 在Cityscapes 數(shù)據(jù)集上的結(jié)果展示

表2 在Cityscapes 數(shù)據(jù)集上的消去實驗

4 結(jié)論

針對現(xiàn)有全景分割算法在復(fù)雜遮擋條件下無法很好區(qū)分實例的問題,本文提出了前景像素到對應(yīng)實例邊界的最大距離和最小距離這2 種實例表示方法,以緩解復(fù)雜遮擋條件下的實例區(qū)分問題。同時,本文提出一個距離譜回歸模塊,它能夠有效地預(yù)測出最大距離譜和最小距離譜。此外,為充分利用距離譜在遮擋場景的有效性,將距離譜嵌入到實例分割網(wǎng)絡(luò)中,并使用距離譜對分割掩碼進行微調(diào)。最后,使用設(shè)計了融合模塊將實例分割和語義分割的分支結(jié)果進行融合,生成了更統(tǒng)一的全景分割結(jié)果。在Cityscapes 數(shù)據(jù)集上的實驗表明,本文的方法能夠很好地處理遮擋問題,實驗結(jié)果驗證了本文方法的有效性。

猜你喜歡
全景分支實例
戴上耳機,享受全景聲 JVC EXOFIELD XP-EXT1
巧分支與枝
學生天地(2019年28期)2019-08-25 08:50:54
全景敞視主義與偵探小說中的“看”
一類擬齊次多項式中心的極限環(huán)分支
從5.1到全景聲就這么簡單 FOCAL SIB EVO DOLBY ATMOS
全景搜索
特別文摘(2016年21期)2016-12-05 17:53:36
完形填空Ⅱ
完形填空Ⅰ
生成分支q-矩陣的零流出性
碩果累累
明光市| 大新县| 墨脱县| 改则县| 连州市| 安远县| 湾仔区| 白银市| 东源县| 图木舒克市| 景宁| 新宁县| 东台市| 龙山县| 丁青县| 定州市| 长海县| 锦州市| 阿尔山市| 义乌市| 许昌市| 凤冈县| 荔浦县| 陆河县| 成武县| 青岛市| 阜新市| 潼南县| 衢州市| 天祝| 景东| 长岛县| 克东县| 林芝县| 平湖市| 南溪县| 通渭县| 喀喇| 盐池县| 自治县| 松潘县|