任鳳至,毛 琳,楊大偉
(大連民族大學 機電工程學院,遼寧 大連 116605)
全景分割由無定形區(qū)和實例區(qū)兩部分分割組成,其分割質(zhì)量由兩部分分割效果共同決定。實例區(qū)中包含人、車等實例目標;無定形區(qū)則包含諸如道路、草地、建筑物等具有相同結(jié)構(gòu)和材質(zhì)的目標[1]。在無人駕駛中,無定形目標約束駕駛環(huán)境與條件,是無人車正常工作的視覺信息保障。
特征金字塔網(wǎng)絡(Feature Pyramid Networks,Panoptic FPN[2])針對實例分割和語義分割這兩類相互獨立的任務設(shè)計一種可以為二者共享的主干結(jié)構(gòu),提高對實例目標的分割精度,但對無定形區(qū)的分割效果并不理想;AUNet[3](注意力分割網(wǎng)絡)通過為區(qū)域建議網(wǎng)絡和掩模網(wǎng)絡設(shè)計兩種注意力機制,提高語義分割性能,但該算法網(wǎng)絡結(jié)構(gòu)復雜,計算量大,對要求快速反應的無人駕駛場景適用性較差;均一化全景分割網(wǎng)絡(Unified Panoptic Segmentation Network,UPSNet[4])引用FPN主干網(wǎng)絡,提出全景融合機制對語義分割全卷積網(wǎng)絡[5]和實例分割Mask R-CNN[6]的輸出進行融合,提高全景分割精度,在諸多算法中表現(xiàn)性能優(yōu)越,該算法以殘差網(wǎng)絡(Residual Network,ResNet[7])為基礎(chǔ),結(jié)合FPN特征提取模塊作為網(wǎng)絡主干,采用自上而下路徑進行融合,以對實例目標的特征提取為重點,可獲得實例及其細節(jié)信息,但忽略了對全景中無定形區(qū)的關(guān)注,導致語義分割中無定形目標特征不顯著,使全景分割結(jié)果不夠準確。
針對分割目標特征不顯著的問題,提出了基于增強特征融合解碼器的語義分割算法[8],通過提出增強特征融合解碼器,實現(xiàn)特征增強。解碼器級聯(lián)深層特征與降維后的淺層特征,在卷積運算后引入自身平方項的注意力機制,利用卷積預測自身項與自身平方項各通道的權(quán)重并以乘法做增強,最后將結(jié)果融合。該算法通過引入注意力機制提高上下文信息,增強了目標的語義特征,但該特征增強方法面向語義分割,對實例分割的適用性不強,進而無法應用于全景分割。
本文提出一種無定形區(qū)特征增強的全景分割算法(Amorphous region feature enhanced Panoptic Segmentation,APS),通過改變特征金字塔的融合方式,構(gòu)造空洞特征金字塔,改善UPSNet對無定形目標分割不準確的問題,提高語義分割精度,使全景分割算法取得一流的性能表現(xiàn),并能更好地應用于無人車、自主駕駛等領(lǐng)域。
APS全景分割算法對UPSNet算法的改進有兩點:第一,采用自下而上的融合結(jié)構(gòu)代替UPSNet中FPN自上而下的路徑,有效利用下層包含的無定形區(qū)特征,解決無定形目標分割效果不理想的問題;第二,將空洞卷積引入特征提取網(wǎng)絡,相比UPSNet,能更好地提取目標邊緣特征信息,解決邊緣輪廓模糊的問題。
APS算法利用殘差網(wǎng)絡構(gòu)造圖像金字塔,還原輸入圖片信息,保證輸入信息的完整性;采用自下而上的結(jié)構(gòu)構(gòu)造空洞特征金字塔,在剔除實例細節(jié)信息的同時,保存更豐富的無定形區(qū)特征信息,保證無定形區(qū)和實例區(qū)特征信息的完整性,提高全景分割質(zhì)量。APS全景分割算法結(jié)構(gòu)如圖1。
圖1 APS全景分割算法整體結(jié)構(gòu)
APS全景分割算法改進結(jié)構(gòu)如圖2。UPSNet的FPN特征金字塔采用自上而下路徑提取特征,其輸出特征映射圖中,每一層都包含本層和更上層信息而不包含更下層信息,因為上層包含更強的語義信息,下層包含更強的位置信息[9],所以導致下層包含的特征沒有被充分提取,大量無定形區(qū)的特征信息丟失。另外,由于上層特征信息被充分提取,實例區(qū)不僅保留了邊緣輪廓特征,還留存了許多對分割結(jié)果沒有意義的實例細節(jié)信息。
APS的空洞特征金字塔采用自下而上的路徑對殘差網(wǎng)絡的輸出特征層進行特征融合,更有效地利用特征層下層的位置信息,保證無定形區(qū)特征的完整性;引入空洞卷積來擴大卷積核感受野,使無定形目標輪廓特征大大增強,分割效果更好,性能得到提升。
算法實施步驟如下:
步驟1:輸入圖片x,經(jīng)殘差網(wǎng)絡輸出后提取特征層組Ci~Ci+3(i為卷積層數(shù),i∈[0.3],i∈Z+)作為特征金字塔的輸入。以F(x,W)為殘差映射函數(shù),輸出特征層C計算通式為
C=F(x,W)+x。
(1)
a)UPSNet算法特征金字塔 b)APS算法空洞特征金字塔
步驟2:使用自下而上的路徑代替原FPN特征金字塔自上而下的方向。
將殘差網(wǎng)絡底層Ci輸出給特征金字塔的底層Pi。特征金字塔自下而上特征融合時引入空洞卷積,結(jié)合殘差的輸出和增強邊緣特征的需求,選取空洞卷積參數(shù),構(gòu)造空洞特征金字塔。
空洞卷積能在不丟失分辨率的前提下,通過增大卷積核的感受野,使模型得到更為豐富的邊緣特征信息,提高分割的精度。另外,空洞卷積可以保持卷積核內(nèi)部的參數(shù)數(shù)量不變,不會額外增加計算量。
空洞卷積核尺寸計算公式(假定卷積核的寬和高一致):
K′=D(K-1)+1 。
(2)
式中,K為待擴張卷積核的原尺寸,D為擴張系數(shù),在經(jīng)過擴張后,得到的空洞卷積核尺寸K′。進而利用卷積操作的尺寸變換公式,計算輸出特征圖的尺寸大小。
特征圖經(jīng)空洞卷積操作后的尺寸變換公式:
(3)
式中:O為卷積操作后輸出的特征圖;I為輸入待卷積的特征圖;P(padding)為在特征圖外側(cè)補0操作;F為卷積核的尺寸(假設(shè)卷積核的寬和高一致);S(stride)為卷積核每次在特征圖移動的步長。
基于空洞卷積優(yōu)勢所在,將空洞卷積引入全景分割算法的特征提取網(wǎng)絡,利用空洞卷積對不同特征層的特征信息進行提取,獲取更加豐富的特征信息,增強目標邊緣特征,提高分割精度。
步驟3:計算空洞金字塔特征層Pi經(jīng)過空洞卷積變換后的尺寸大小Pi′,將輸出層Pi代入卷積公式(3):
(4)
步驟4:計算空洞金字塔輸出特征層組Pi~Pi+3尺寸大小。Pi+1由Pi′和殘差輸出層Ci+1進行相加得到,Pi~Pi+3的計算公式為
Pi=Ci;
(5)
Pi+1=Pi′+Ci+1。
(6)
特征層Pi+2、Pi+3尺寸計算同上。
輸入圖片經(jīng)殘差網(wǎng)絡和空洞特征金字塔的處理,增強了無定形區(qū)特征。將提取到的無定形區(qū)特征與UPSNet算法中無定形區(qū)特征進行可視化對比,如圖3。
a)原圖 b)UPSNet c)APS
圖3a為原始圖像,圖3b為UPSNet算法中卷積層的可視化表達,圖3c為APS算法中經(jīng)無定形區(qū)特征增強模塊的可視化表達。APS全景分割算法增強無定形目標的特征,提高了無定形目標邊緣特征的表達能力,有利于目標分割。
步驟5:將空洞金字塔輸出特征層組Pi~Pi+3送入語義分割和實例分割兩分支并行進行分割處理。
步驟6:利用全景分割模塊對語義、實例分割兩分支的輸出信息進行融合處理,輸出全景分割結(jié)果。
本算法運行環(huán)境硬件配置為NVIDIA GeForce 1080Ti顯卡,軟件系統(tǒng)為Ubuntu 16.04,使用Pytorch 0.4.1深度學習框架。訓練使用語境中通用目標(Common Objects in Context,COCO[10])2017訓練集,共有118 287張圖片,其中包括80個實例種類和53個無定形種類。測試使用COCO 2017驗證集,共有5 000張圖片。
在COCO 2017數(shù)據(jù)集下,將批尺寸設(shè)置為1,學習率設(shè)為0.001 25,迭代次數(shù)為90 000次,對兩算法分別進行訓練。訓練結(jié)束后對模型進行測試,根據(jù)Panoptic Segmentation[1](全景分割)提出的全景分割評價指標,將分割質(zhì)量(segmentation quality,SQ)的值作為評估測試結(jié)果的衡量標準,其值越高,代表分割質(zhì)量越好,算法的性能越優(yōu)。仿真結(jié)果對比見表1。
表1 仿真結(jié)果對比
仿真結(jié)果表明APS全景分割算法SQ為66.1高于SQ為63.1的UPSNet全景分割算法。在COCO數(shù)據(jù)集133個分割類別中,APS全景分割算法相比UPSNet在分割質(zhì)量上具有較大優(yōu)勢。APS與UPSNet分割結(jié)果對比如圖4。
a)原圖 (b)UPSNet分割結(jié)果 c)APS分割結(jié)果
圖4中,如行(1)、(2)可見,在日間的簡單場景中,APS對無定形區(qū)的分割相較于UPSNet更為準確。行(1)中的綠色草地沒有被UPSNet識別出來,而APS能夠?qū)ζ溥M行準確的識別并將其分割出來;在行(2)中,APS對圖中沙地和圓形區(qū)的分割效果相比UPSNet更好;如行(3)可見,在夜間并存在多目標的場景中,由于光線的影響,導致UPSNet對無定形目標草地的分割質(zhì)量較差,而APS卻可以很好地避免該干擾實現(xiàn)準確的分割;如行(4)可見,在日常復雜的道路場景中,UPSNet對街道和馬路的分割存在較大誤差,這會對自主駕駛產(chǎn)生嚴重的影響,但APS在這一場景中表現(xiàn)優(yōu)良,對道路的分割基本準確,可以較好應用于無人駕駛汽車等領(lǐng)域。
本文針對UPSNet全景分割算法對無定形區(qū)分割效果不佳的情況,加入無定形區(qū)特征增強網(wǎng)絡,提出無定形區(qū)特征增強全景分割算法,通過增強無定形區(qū)特征信息,提高語義分割精度,進一步提高全景分割性能。與UPSNet算法相比,APS改善了對無定形目標的分割效果,并得到較優(yōu)結(jié)果。APS算法為無人車目標感知提供了一種新的思路,使全景分割算法更好地應用于無人車自主駕駛等場景。后續(xù)工作中,希望進一步提高對存在目標重疊的復雜場景的分割精度,增強無定形目標與實例目標的區(qū)分和識別的能力。