虞資興,瞿紹軍*,何鑫,王卓
高低維特征引導(dǎo)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)
虞資興1,瞿紹軍1*,何鑫2,王卓1
(1.湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長(zhǎng)沙 410081; 2.湖南華諾星空電子技術(shù)有限公司,長(zhǎng)沙 410221)( ? 通信作者電子郵箱qshj@hunnu.edu.cn)
多數(shù)語(yǔ)義分割網(wǎng)絡(luò)利用雙線性插值將高級(jí)特征圖的分辨率恢復(fù)至與低級(jí)特征圖一樣的分辨率再進(jìn)行融合操作,導(dǎo)致部分高級(jí)語(yǔ)義信息在空間上無(wú)法與低級(jí)特征圖對(duì)齊,進(jìn)而造成語(yǔ)義信息的丟失。針對(duì)以上問(wèn)題,改進(jìn)雙邊分割網(wǎng)絡(luò)(BiSeNet),并基于此提出一種高低維特征引導(dǎo)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)(HLFGNet)。首先,提出高低維特征引導(dǎo)模塊(HLFGM)來(lái)通過(guò)低級(jí)特征圖的空間位置信息引導(dǎo)高級(jí)語(yǔ)義信息在上采樣過(guò)程中的位移;同時(shí),利用高級(jí)特征圖來(lái)獲取強(qiáng)特征表達(dá),并結(jié)合注意力機(jī)制來(lái)消除低級(jí)特征圖中冗余的邊緣細(xì)節(jié)信息以及減少像素誤分類的情況。其次,引入改進(jìn)后的金字塔池化引導(dǎo)模塊(PPGM)來(lái)獲取全局上下文信息并加強(qiáng)不同尺度局部上下文信息的有效融合。在Cityscapes驗(yàn)證集和CamVid測(cè)試集上的實(shí)驗(yàn)結(jié)果表明,HLFGNet的平均交并比(mIoU)分別為76.67%與70.90%,每秒傳輸幀數(shù)分別為75.0、96.2;而相較于BiSeNet,HLFGNet的mIoU分別提高了1.76和3.40個(gè)百分點(diǎn)??梢?jiàn),HLFGNet能夠較為準(zhǔn)確地識(shí)別場(chǎng)景信息,并能滿足實(shí)時(shí)性要求。
實(shí)時(shí)語(yǔ)義分割;上采樣;注意力機(jī)制;金字塔池化;上下文信息
語(yǔ)義分割(semantic segmentation)是計(jì)算機(jī)視覺(jué)領(lǐng)域的研究熱點(diǎn)之一,它的主要價(jià)值是能夠?qū)D像分割成幾組具有某種特定語(yǔ)義的像素區(qū)域,并識(shí)別每個(gè)區(qū)域的類別,最終獲得幾幅具有像素語(yǔ)義標(biāo)注的圖像。因此語(yǔ)義分割在室內(nèi)導(dǎo)航、地理信息系統(tǒng)、自動(dòng)駕駛、虛擬增強(qiáng)現(xiàn)實(shí)系統(tǒng)和場(chǎng)景理解等領(lǐng)域有著重要的應(yīng)用價(jià)值[1]。傳統(tǒng)語(yǔ)義分割利用圖像灰度、空間紋理、顏色和幾何形狀等低級(jí)特征將圖像分割成不同部分,主要有基于閾值的分割方法[2]、基于邊緣的分割方法[3]、基于區(qū)域的分割方法[4-5]和基于圖的分割方法[6]等。雖然這些方法分割速度快,但需要人為設(shè)計(jì)特征提取器,同時(shí)對(duì)復(fù)雜場(chǎng)景的分割效果不佳?;谏疃葘W(xué)習(xí)的語(yǔ)義分割方法表現(xiàn)出強(qiáng)大的特征提取能力,Long等[7]提出全卷積網(wǎng)絡(luò)(Fully Convolutional Network, FCN),將卷積神經(jīng)網(wǎng)(Convolutional Neural Network, CNN)[8]中的全連接層替換為全卷積層以實(shí)現(xiàn)像素級(jí)的密集預(yù)測(cè),使用反卷積對(duì)特征圖上采樣,并提出跳躍連接充分融合全局語(yǔ)義信息和局部位置信息,實(shí)現(xiàn)精確分割[9],為語(yǔ)義分割的快速發(fā)展奠定了基礎(chǔ)。
盡管FCN模型強(qiáng)大且普適,但它固有的空間不變性導(dǎo)致它沒(méi)有考慮有用的全局上下文信息;同時(shí),隨著圖像不斷的下采樣操作,分辨率不斷縮小,導(dǎo)致部分像素丟失,嚴(yán)重影響了最終的分割精準(zhǔn)性。針對(duì)前者,金字塔場(chǎng)景解析網(wǎng)絡(luò)(Pyramid Scene Parsing Network, PSPNet)[10]使用金字塔池化(Pyramid Pooling)模塊抽取多尺度的上下文信息,以解決物體多尺度的問(wèn)題從而提升精度;DeepLab-v2[11]提出了一種新的空洞卷積(Atrous Convolution),以抽取多尺度上下文信息。針對(duì)后者,Ronneberger等[12]提出了一種編碼器?解碼器的網(wǎng)絡(luò)模型U-Net,U-Net由收縮路徑和擴(kuò)展路徑組成:收縮路徑利用下采樣捕捉上下文信息,提取特征;擴(kuò)展路徑是一個(gè)解碼器,使用上采樣操作還原原始圖像的位置信息,逐步恢復(fù)物體細(xì)節(jié)和圖像分辨率。Yu等[13]利用雙分支結(jié)構(gòu)設(shè)計(jì)了雙邊分割網(wǎng)絡(luò)(Bilateral Segmentation Network, BiSeNet),主要思想是用一個(gè)帶有小步長(zhǎng)的空間路徑保留空間位置信息,生成低級(jí)的高分辨率的特征圖;再用輕量特征提取網(wǎng)絡(luò)結(jié)合全局池化操作,合并不同層(level)的中間特征與全局池化的輸出,得到高級(jí)的低分辨率的語(yǔ)義信息,最后將兩者融合得到高級(jí)的高分辨率特征圖。但是,上述方法并沒(méi)有考慮多尺度特征融合過(guò)程中語(yǔ)義信息丟失的問(wèn)題。語(yǔ)義流網(wǎng)絡(luò)(Semantic Flow Network, SFNet)[14]將光流法的思想應(yīng)用在特征對(duì)齊中,提出了流對(duì)齊模塊以加強(qiáng)特征表示;但是它的計(jì)算成本太高,導(dǎo)致網(wǎng)絡(luò)并不適用于實(shí)時(shí)應(yīng)用。
針對(duì)語(yǔ)義分割模型在多尺度特征融合過(guò)程中出現(xiàn)語(yǔ)義信息丟失、細(xì)節(jié)信息冗余的問(wèn)題,提出一種高低維特征引導(dǎo)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)(High-Low dimensional Feature Guided real-time semantic segmentation Network, HLFGNet)。
本文的主要工作如下:
1)提出高低維特征引導(dǎo)模塊(High-Low dimensional Feature Guided Module, HLFGM),解決BiSeNet在合并不同level的中間特征時(shí),由于特征圖尺寸不同出現(xiàn)的語(yǔ)義信息丟失問(wèn)題。
2)提出金字塔池化引導(dǎo)模塊(Pyramid Pooling Guided Module, PPGM)。改進(jìn)金字塔池化模塊(Pyramid Pooling Module,PPM),利用原始特征圖引導(dǎo)不同尺度的池化特征圖,加強(qiáng)不同尺度局部信息的有效融合,增強(qiáng)全局上下文信息提取能力。
在公開(kāi)數(shù)據(jù)集Cityscapes[15]和CamVid[16]上的實(shí)驗(yàn)結(jié)果顯示,HLFGNet具有較好的分割效果。
DeepLab-v1使用空洞卷積[17]解決編碼過(guò)程中因?yàn)樾盘?hào)不斷被下采樣導(dǎo)致細(xì)節(jié)丟失的問(wèn)題;使用全連接條件隨機(jī)場(chǎng)(Fully-connected Conditional Random Field)提高模型捕獲結(jié)構(gòu)信息的能力,從而擴(kuò)大感受野和捕捉邊緣細(xì)節(jié),但并未注意多尺度信息。DeepLab-v2[11]提出空洞空間金字塔池化(Atrous Spatial Pyramid Pooling, ASPP)模塊,在給定的特征層上使用不同擴(kuò)展率(dilation rate)的空洞卷積,可以有效地重采樣。通過(guò)構(gòu)建不同感受野的卷積核獲取多尺度物體信息,解決不同檢測(cè)目標(biāo)大小差異的問(wèn)題。隨著空洞率的增大,卷積核的有效參數(shù)越來(lái)越少,最終會(huì)退化成1×1的卷積核。DeepLab-v3[18]將ASPP模塊中尺寸為3×3、膨脹率=24的空洞卷積替換成一個(gè)普通的1×1卷積,以保留濾波器中間部分的有效權(quán)重;最后的特征圖通過(guò)16倍雙線性插值上采樣變?yōu)榕c輸入圖像相同大小的分辨率,但這種方法無(wú)法獲得分割目標(biāo)的細(xì)節(jié)。DeepLab-v3+[19]在DeepLab-v3的基礎(chǔ)上引入解碼網(wǎng)絡(luò)以恢復(fù)丟失的邊界信息,提高了物體邊界分割的準(zhǔn)確度。PSPNet[10]采用4路并行的不同尺度自適應(yīng)平均池化,分別獲取不同尺度劃分下的局部上下文信息后在通道上合并,提高全局信息的獲取能力。
實(shí)時(shí)語(yǔ)義分割算法需要一種快速生成高質(zhì)量預(yù)測(cè)的方法,即推理速度要達(dá)到30 frame/s?,F(xiàn)階段的算法主要通過(guò)裁剪或限定圖像大小降低計(jì)算復(fù)雜度,或通過(guò)分解卷積提高實(shí)時(shí)性。用于實(shí)時(shí)語(yǔ)義分割的深度神經(jīng)網(wǎng)絡(luò)架構(gòu)——高效神經(jīng)網(wǎng)絡(luò)(Efficient neural Network, ENet)[20]通過(guò)早期下采樣策略,裁剪模型通道,減少運(yùn)算和降低內(nèi)存占用,但裁剪會(huì)丟失細(xì)節(jié)信息;圖像級(jí)聯(lián)網(wǎng)絡(luò)(Image Cascade Network, ICNet)[21]使用圖像級(jí)聯(lián)加速語(yǔ)義分割方法;BiSeNet[13]利用一條淺層分支獲取空間細(xì)節(jié),另一條分支獲取深層的語(yǔ)義信息,再將兩條分支融合輸出;BiSeNet V2[22]去掉了舊版本中耗時(shí)的跨層連接,深化細(xì)節(jié)路徑以編碼更多細(xì)節(jié),設(shè)計(jì)了基于深度卷積的輕量級(jí)語(yǔ)義路徑組件;Fan等[23]重新設(shè)計(jì)網(wǎng)絡(luò)架構(gòu),將空間邊界信息的學(xué)習(xí)集成到低層級(jí)部分,同時(shí)設(shè)計(jì)短期密集連接(Short-Term Dense Concatenate, STDC)模塊,融合連續(xù)若干個(gè)不同感受野的卷積核以彌補(bǔ)語(yǔ)義分支感受野的不足,有效提取語(yǔ)義邊界區(qū)域特征;Peng等[24]提出一種高效的實(shí)時(shí)語(yǔ)義分割模型PP-LiteSeg,在解碼器的部分逐步減少特征通道并恢復(fù)分辨率,保證深層階段語(yǔ)義信息的完整,同時(shí)減少淺層階段的冗余計(jì)算。
注意力可以有效地捕獲不同位置(像素)之間的長(zhǎng)程相關(guān)性,所有位置的加權(quán)和得到每個(gè)位置的特征;因此,每個(gè)位置(像素)都可以獲得全局視野,并且不降低特征映射(分辨率降低)。壓縮激勵(lì)網(wǎng)絡(luò)(Squeeze-and-Excitation Network, SENet)[25]通過(guò)全局平均池化(Global Average Pooling, GAP)和全連接層獲得通道注意圖;卷積塊注意模塊(Convolutional Block Attention Module, CBAM)[26]將GAP和全局最大池化結(jié)合1×1卷積操作,得到一個(gè)帶有注意力的特征圖。雙重注意網(wǎng)絡(luò)(Dual Attention Network, DANet)[27]提出整合局部信息和全局信息以捕捉上下文信息,再由注意力機(jī)制獲得特征表達(dá)。雙邊注意力網(wǎng)絡(luò)(Bilateral Attention Network, BANet)[28]利用通道相關(guān)系數(shù)注意模塊學(xué)習(xí)通道映射之間的正負(fù)依賴關(guān)系,并利用所有通道映射的加權(quán)和更新每個(gè)通道映射。全局上下文注意力模塊(Global Context Attention Module, GCAM)[29]由注意力細(xì)化模塊分別對(duì)平均池化和最大池化后的特征進(jìn)行通道加權(quán),重新調(diào)整特征權(quán)重,得到與它們大小對(duì)應(yīng)的權(quán)重圖,再由元素加法操作融合特征,以極少的計(jì)算量獲得更加豐富的全局上下文信息,最后利用3×3卷積進(jìn)一步增強(qiáng)特征的表達(dá)能力。注意力網(wǎng)絡(luò)(ATTention Network, ATTNet)[30]提出空間?條形注意力模塊,采用1×和×1的條形池化核提取特征,避免傳統(tǒng)池化核帶來(lái)的無(wú)關(guān)信息和額外參數(shù)計(jì)算,從而有效捕獲局部區(qū)域的長(zhǎng)距離依賴關(guān)系。基于注意力感知的全卷積網(wǎng)絡(luò)CANet(Context Attention Network)[31]提出空洞空間金字塔注意力模塊,在空洞空間金字塔中嵌入像素相似注意力模塊,增強(qiáng)像素之間的聯(lián)系,解決像素丟失的問(wèn)題。輕量級(jí)注意力引導(dǎo)的非對(duì)稱網(wǎng)絡(luò)(Lightweight Attention-guided Asymmetric Network, LAANet)[32]提出注意力引導(dǎo)的擴(kuò)展金字塔池化(Attention-guided Dilated Pyramid Pooling, ADPP)模塊和注意力引導(dǎo)的特征融合上采樣(Attention-guided Feature Fusion Upsampling, AFFU)模塊,分別用于聚合多尺度上下文信息和融合不同層的特征。殘差高效學(xué)習(xí)和注意期望融合網(wǎng)絡(luò)(Residual Efficient Learning and Attention Expected fusion Network, RELAXNet)[33]將注意力機(jī)制引入編碼器和解碼器之間的跳躍連接中,促進(jìn)高層特征和低層特征的合理融合。
特征融合模塊(Feature Fusion Module, FFM)常用于語(yǔ)義分割,加強(qiáng)特征表示。除了逐元素求和外,研究人員還提出了以下幾種方法。在BiSeNet中,F(xiàn)FM采用element-wise mul方法融合自空間和上下文分支的特征。為了增強(qiáng)具有高級(jí)上下文的特征,深層特征聚合網(wǎng)絡(luò)(Deep Feature Aggregation Network, DFANet)[34]提出了一個(gè)具有多次連接結(jié)構(gòu)的語(yǔ)義分割模塊,最大化多尺度的感受野。為了解決錯(cuò)位問(wèn)題,SFNet和特征對(duì)齊分割網(wǎng)絡(luò)(feature-Aligned Segmentation network, AlignSeg)[35]首先通過(guò)CNN卷積學(xué)習(xí)變換偏移量,其次利用變換偏移量引導(dǎo)低級(jí)特征和高級(jí)特征的融合。特征金字塔聚合網(wǎng)絡(luò)(Feature Pyramid Aggregation Network, FPANet)[36]利用可學(xué)習(xí)的向量進(jìn)行加權(quán)以平衡兩個(gè)特征的級(jí)聯(lián),再使用一個(gè)1×1卷積和三個(gè)不同速率的空洞卷積組成金字塔特征融合模塊。
BiSeNet是一個(gè)端到端的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò),通過(guò)雙分支結(jié)構(gòu)獲取高分辨率的高級(jí)特征圖。本文借鑒該思想,改進(jìn)該網(wǎng)絡(luò)結(jié)構(gòu),設(shè)計(jì)了基于高低維特征引導(dǎo)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)(HLFGNet)。
本文網(wǎng)絡(luò)的整體結(jié)構(gòu)如圖1所示,由一個(gè)提取高級(jí)語(yǔ)義特征的語(yǔ)義分支(Semantic Branch)、一個(gè)提取空間細(xì)節(jié)信息的細(xì)節(jié)分支(Detail Branch)和FFM構(gòu)成。注意力細(xì)化模塊(Attention Refinement Module, ARM)和FFM模塊為BiSeNet中的兩個(gè)模塊,后文不再介紹。
圖1 高低維特征引導(dǎo)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)
在語(yǔ)義分支中,主干網(wǎng)絡(luò)采用在ImageNet上預(yù)先訓(xùn)練并去掉最后全連接層的殘差網(wǎng)絡(luò)ResNet-18(Residual Network-18)[37],即圖1中的第1個(gè)卷積(Conv)池化操作和后續(xù)的4個(gè)殘差(Res)塊,它的詳細(xì)結(jié)構(gòu)如表1所示。
表1 ResNet-18的詳細(xì)結(jié)構(gòu)
注:“7×7”表示卷積核大小為7×7,“64”為卷積核數(shù)(輸出通道數(shù)),“stride=2”表示步長(zhǎng)為2,Maxpool表示最大池化,“×2”表示輸入數(shù)據(jù)將會(huì)執(zhí)行該矩陣結(jié)構(gòu)2次,后續(xù)結(jié)構(gòu)以此類推。
每個(gè)Res(=1,2,3,4)都包含一個(gè)基本結(jié)構(gòu)(包含殘差(residual)結(jié)構(gòu)),具體結(jié)構(gòu)如表1中Res塊的矩陣所示。首先,Res3塊經(jīng)過(guò)ARM得到Out3,Res4塊經(jīng)過(guò)PPGM獲取具有全局上下文信息的Out4,此時(shí)特征映射的大小減小到原始圖像的1/32。其次,Out3與Out4經(jīng)過(guò)HLFGM得到原始圖像1/16大小的特征圖,該特征圖再和Res2塊一起作為輸入,經(jīng)過(guò)HLFGM得到語(yǔ)義分支的最終輸出,此時(shí)特征映射的大小為原始圖像的1/8。
在細(xì)節(jié)分支中,原始圖像經(jīng)過(guò)4個(gè)淺層的Stage得到原始圖像1/8大小的特征圖,它的詳細(xì)結(jié)構(gòu)如表2所示。其中,Conv2d代表Conv+BN(Batch Normalization)+ReLU(Rectified Linear Unit)組合操作。
表2 細(xì)節(jié)分支的詳細(xì)結(jié)構(gòu)
最后將兩個(gè)分支的輸出經(jīng)過(guò)FFM融合,再經(jīng)過(guò)上采樣恢復(fù)成最終的預(yù)測(cè)分割圖。
語(yǔ)義分割的最終目的是獲得一幅高分辨率的高級(jí)語(yǔ)義特征圖。但是在卷積網(wǎng)絡(luò)中,圖像通過(guò)不斷的下采樣操作擴(kuò)大感受野和獲取語(yǔ)義特征,降低了圖像的分辨率,導(dǎo)致空間細(xì)節(jié)信息丟失。一些網(wǎng)絡(luò)利用空洞卷積加強(qiáng)特征提取,同時(shí)保持高分辨率,但空洞卷積需要耗費(fèi)較多的計(jì)算力,導(dǎo)致推理速度變慢;另外一些網(wǎng)絡(luò)將高級(jí)語(yǔ)義特征圖雙線性插值上采樣后再與對(duì)應(yīng)分辨率的低級(jí)特征圖融合,逐步將分辨率恢復(fù)至原圖大小,但高層特征在經(jīng)過(guò)padding、卷積等操作后和低層特征之間的精確位置對(duì)應(yīng)關(guān)系已經(jīng)丟失,而簡(jiǎn)單的雙線性插值并不能解決該問(wèn)題。SFNet[14]提出同一張圖像任意分辨率的兩個(gè)特征圖之間的關(guān)系,可以用一個(gè)特征圖到另一個(gè)特征圖的每個(gè)像素的“運(yùn)動(dòng)”表示,借助該運(yùn)動(dòng)關(guān)系引導(dǎo)高級(jí)特征圖的擴(kuò)張可以有效減少語(yǔ)義信息的丟失。根據(jù)這一思想,結(jié)合SENet[25]中的通道注意力機(jī)制,提出高低維特征引導(dǎo)模塊(HLFGM),利用低級(jí)特征圖中的空間位置信息引導(dǎo)高級(jí)語(yǔ)義信息在上采樣過(guò)程中的位移,同時(shí)利用高級(jí)特征圖中的強(qiáng)特征表達(dá)消除低級(jí)特征圖中冗余的細(xì)節(jié)特征。HLFGM的詳細(xì)結(jié)構(gòu)如圖2所示,計(jì)算方法如下:
其中:,為低級(jí)特征圖;,為高級(jí)特征圖;×為矩陣的乘法;δ為Sigmoid激活函數(shù);BN為批標(biāo)準(zhǔn)化操作;為標(biāo)準(zhǔn)的卷積操作,即圖2中的Conv1,卷積核大小為1×1,采樣步長(zhǎng)為1,d為空洞率,默認(rèn)為1,不做任何填充,卷積操作不改變特征圖的尺寸;AvgPool為順著空間維度平均池化;,用來(lái)指導(dǎo)低級(jí)特征圖上采樣的位移圖;為標(biāo)準(zhǔn)的卷積操作,即圖2中的Conv3,卷積核大小為3×3,采樣步長(zhǎng)為1,在特征圖外側(cè)進(jìn)行尺度為1的全1填充;Cat表示級(jí)聯(lián)拼接操作;Up為雙線性插值操作;GU為指導(dǎo)上采樣的對(duì)齊操作;為ReLU激活函數(shù);為權(quán)重系數(shù),值為0.7。
圖3(a)和圖3(c)分別為經(jīng)過(guò)HLFGM得到的8倍和16倍下采樣可視化圖,圖3(b)和圖3(d)為未經(jīng)過(guò)HLFGM得到的8倍和16倍下采樣可視化圖。對(duì)比圖3(a)和圖3(b)可以看出,前者獲取的細(xì)節(jié)信息和語(yǔ)義信息更加豐富,如第1行圖中車的輪廓、第3行圖中左側(cè)樹(shù)的輪廓和右側(cè)建筑的細(xì)節(jié),而第2行圖中后者丟失遠(yuǎn)處路桿特征;對(duì)比圖3(c)和圖3(d)可以看出,后者的整體效果較為模糊,細(xì)節(jié)信息丟失嚴(yán)重,而且第3行圖中的街邊和左側(cè)車底輪廓出現(xiàn)重影。另外圖3(b)和圖3(d)的第1行圖都出現(xiàn)了較為明顯的條狀紋理。
圖3 高層特征圖的可視化對(duì)比
全局上下文信息和子區(qū)域上下文信息有助于區(qū)分各種類別。大感受野可以提升大尺寸目標(biāo)的分割效果,對(duì)網(wǎng)絡(luò)的性能具有重要意義。隨著卷積層越來(lái)越多,感受野也隨之變大,但Zhou等[38]證明CNN的經(jīng)驗(yàn)感受野遠(yuǎn)小于理論感受野。BiSeNet使用GAP解決這一問(wèn)題。雖然GAP廣泛應(yīng)用于圖像分類中,并且它的計(jì)算量和內(nèi)存消耗量低,但是對(duì)于復(fù)雜場(chǎng)景的圖像,GAP不足以覆蓋必要的信息,而且直接將圖像信息融合形成單個(gè)向量的形式可能會(huì)失去空間關(guān)系并導(dǎo)致歧義,影響最終的分割效果。因此本文采用改進(jìn)的金字塔池化引導(dǎo)模塊(PPGM)獲取全局上下文信息,擴(kuò)大感受野。PPGM的詳細(xì)結(jié)構(gòu)如圖4所示,計(jì)算方法如下:
圖4 金字塔池化引導(dǎo)模塊
Cityscapes[15]是一個(gè)街道場(chǎng)景語(yǔ)義分割數(shù)據(jù)集,每一張圖像從行駛中的汽車的角度拍攝,從全世界50個(gè)不同的城市街道場(chǎng)景中收集5 000張高質(zhì)量的像素級(jí)標(biāo)注圖,其中訓(xùn)練集、驗(yàn)證集和測(cè)試集的圖像數(shù)分別為2 975、500和1 525張。5 000張圖像標(biāo)注的類別有33類,本文訓(xùn)練中只關(guān)心其中的19類。大類包括地面、建筑、人、天空、自然、背景、道路標(biāo)志和車輛,小類將大類類別再細(xì)分(如車輛分為小汽車、公交等)。圖像分辨率大小均為2 048×1 024像素的RGB通道的彩色圖像,數(shù)據(jù)集還提供了20 000張粗略標(biāo)注的圖像用于訓(xùn)練弱監(jiān)督分類網(wǎng)絡(luò)的性能。
CamVid[16]是來(lái)自劍橋的道路與駕駛場(chǎng)景圖像分割數(shù)據(jù)集,圖像數(shù)據(jù)自視頻幀提取,原始分辨率大小為960×720像素,包括32個(gè)類別。分為367張訓(xùn)練圖像、100張驗(yàn)證圖像和233張測(cè)試圖像。
在分割評(píng)價(jià)方面,采用平均交并比(mean Intersection over Union, mIoU)和每秒傳輸幀數(shù),即幀率作為評(píng)價(jià)指標(biāo)。mIoU為圖像像素每個(gè)類的交并比(Intersection over Union, IoU)值累加后的平均值,如式(10)所示:
本文深度學(xué)習(xí)框架為PyTorch1.4,訓(xùn)練時(shí)將圖像大小調(diào)整為1 024×1 024像素作為網(wǎng)絡(luò)輸入,損失函數(shù)采用交叉熵?fù)p失函數(shù),驗(yàn)證時(shí)圖像輸入大小為1 024×2 048像素。在兩塊Tesla-T4 GPU上訓(xùn)練,在一塊Tesla-T4上測(cè)試模型。在訓(xùn)練過(guò)程中,采用帶動(dòng)量的隨機(jī)梯度下降法(Stochastic Gradient Descent, SGD)用于模型訓(xùn)練,學(xué)習(xí)率下降公式為:
為了驗(yàn)證所HLFGM和PPGM的有效性,驗(yàn)證HLFGNet的改進(jìn)效果,使用3.1.3節(jié)的參數(shù)和配置,采用ResNet-18作為網(wǎng)絡(luò)主干,在Cityscapes數(shù)據(jù)集上展開(kāi)消融和對(duì)比實(shí)驗(yàn),結(jié)果如表3所示。
表3分別為HLFGM和UP(采用雙線性插值上采樣的方式)的對(duì)比,以及PPGM和AVG(采用全局平局池化操作的方式)、PPM的對(duì)比。將AVG改為PPM后,網(wǎng)絡(luò)的參數(shù)量降低,這是因?yàn)锳VG中卷積操作多,而PPM中池化和上采樣操作多。相較于UP+AVG,HLFGM+AVG的mIoU僅提升0.19個(gè)百分點(diǎn);相較于UP+PPM,HLFGM+PPM的mIoU提升0.80個(gè)百分點(diǎn),說(shuō)明在使用PPM的情況下使用HLFGM,網(wǎng)絡(luò)提升顯著。此外,相較于UP+AVG,UP+PPM的mIoU僅提升0.30個(gè)百分點(diǎn);而相較于HLFGM+AVG,HLFGM+PPM的mIoU提升了0.91個(gè)百分點(diǎn),說(shuō)明在使用HLFGM的情況下使用PPM,網(wǎng)絡(luò)提升顯著。根據(jù)上述4組對(duì)比,可以發(fā)現(xiàn)HLFGM和PPM有相互促進(jìn)的作用,進(jìn)一步說(shuō)明HLFGM能有效引導(dǎo)高級(jí)特征圖的上采樣,并且它的提升效果也與高級(jí)特征圖所含信息的豐富性有關(guān)。相較于UP+PPM,UP+PPGM的mIoU提升1.04個(gè)百分點(diǎn);相較于HLFGM+PPM,HLFGM+PPGM的mIoU提升0.66個(gè)百分點(diǎn)。因此相較于PPM,PPGM對(duì)網(wǎng)絡(luò)提升的效果更佳。最終HLFGNet采用HLFGM+PPGM的方式,相較于采用UP+AVG的BiSeNet,mIoU提高了1.76個(gè)百分點(diǎn),參數(shù)量減少了0.82 MB,推理速度僅降低了8 frame/s,模型的綜合性能達(dá)到最佳。
表3 在Cityscapes 驗(yàn)證集上驗(yàn)證不同設(shè)置下的性能
表4 權(quán)重系數(shù)實(shí)驗(yàn)結(jié)果
相較于HLFGM,PPGM只使用了低級(jí)特征圖引導(dǎo)高級(jí)特征圖的路徑,同時(shí)為了驗(yàn)證Guide操作(圖4)對(duì)不同尺度特征圖的有效性,展開(kāi)了對(duì)比實(shí)驗(yàn),如表5所示??梢钥吹剑琍PGM-1~PPGM-4的參數(shù)量都為50.53 MB,這是由于每個(gè)Guide操作只使用2個(gè)卷積核,因此增加多個(gè)Guide操作并不會(huì)增加過(guò)多的參數(shù)量。從表5還可以看出,隨著逐漸增加對(duì)不同尺度特征圖的Guide操作,推理速度逐漸降低。PPGM-2和PPGM-3的mIoU提升效果較為明顯,為使速度和精度達(dá)到最佳平衡,最終選取PPGM-3,即只對(duì)3×3和6×6這兩個(gè)尺度的特征圖進(jìn)行Guide操作,相較于PPM,mIoU提升0.66個(gè)百分點(diǎn),速度下降3.0 frame/s。
表5 對(duì)不同尺度特征圖進(jìn)行Guide操作的對(duì)比實(shí)驗(yàn)結(jié)果
注:PPGM-代表對(duì)不同尺度的特征圖進(jìn)行Guide操作,代表經(jīng)過(guò)降維后的不同尺度特征圖,“√”表示對(duì)該尺度特征圖進(jìn)行Guide操作。
表6為不同網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上的對(duì)比結(jié)果,對(duì)比網(wǎng)絡(luò)包括ICNet[21]、DFANet-A[34]、BiSeNet[13]、BiSeNet V2[22]和邊界感知的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)(Boundary-Aware real-time Semantic segmentation Network, BASeNet)[39]、快速的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)(FasterSeg)[40]、STDC2(Short-Term Dense Concatenate)-Seg75[23]和STDC2-Seg75*[23](“*”表示未使用預(yù)訓(xùn)練模型)。
表6 不同網(wǎng)絡(luò)在Cityscapes數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對(duì)比
從表6可以看出,HLFGNet在測(cè)試集上的mIoU為75.4%,只比STDC2-Seg75低1.40個(gè)百分點(diǎn),但HLFGNet的參數(shù)量比STDC2-Seg75少11.14 MB且?guī)侍岣吡?6.1 frame/s。HLFGNet的幀率為75.0 frame/s,低于BiSeNet、BiSeNet V2和FasterSeg。但是,HLFGNet在測(cè)試集上的mIoU有著明顯的優(yōu)勢(shì),分別提升了0.9、2.5和3.9個(gè)百分點(diǎn)。在參數(shù)量上,HLFGNet也優(yōu)于BiSeNet。相較于BiSeNet V2-L和STDC2-Seg75*,無(wú)論是速度、參數(shù)量還是mIoU,HLFGNet都有優(yōu)勢(shì)。由此可見(jiàn),本文提出的HLFGNet在精度和推理速度上取得了較好的平衡,能夠在保證精度較高的同時(shí)提高推理速度。
表7為FasterSeg、BiSeNet、HLFGNet在Cityscapes測(cè)試集上19種分類的結(jié)果。相較于FasterSeg,HLFGNet在所有分類上都有明顯優(yōu)勢(shì);相較于BiSeNet,HLFGNet在大部分的分類都有優(yōu)勢(shì),特別是車類,如motorcycle、bus、train,這3類的準(zhǔn)確率得到了提升,提升了1.83~5.11個(gè)百分點(diǎn)。
表7 Cityscapes測(cè)試集上各個(gè)類別的準(zhǔn)確率 單位:%
為了驗(yàn)證HLFGNet的泛化性,本文在CamVid數(shù)據(jù)集上展開(kāi)實(shí)驗(yàn)。將訓(xùn)練集和驗(yàn)證集一起用于訓(xùn)練,測(cè)試集用于評(píng)估。訓(xùn)練和評(píng)估的輸入分辨率和輸出分辨率都為720×960像素。訓(xùn)練參數(shù)設(shè)置與在Cityscapes數(shù)據(jù)集上基本保持一致。實(shí)驗(yàn)結(jié)果如表8所示,HLFGNet在CamVid測(cè)試集上能夠達(dá)到70.90%的mIoU,推理速度為96.2 frame/s,相較于BiSeNet V2,mIoU提高了0.10個(gè)百分點(diǎn),且推理速度提升14.3 frame/s。雖然HLFGNet的推理速度低于BiSeNet,但mIoU提升了3.40個(gè)百分點(diǎn)。另外,相較于SegNet、ICNet和ENet[20],無(wú)論在mIoU上還是在速度上都有優(yōu)勢(shì)。由此可見(jiàn),HLFGNet在CamVid數(shù)據(jù)集上也獲得了良好的性能。
表8 不同模型在CamVid測(cè)試集上的對(duì)比分析
圖5直觀地展示了BiSeNet和HLFGNet在Cityscapes數(shù)據(jù)集上的可視化語(yǔ)義分割效果對(duì)比。從第1行圖像的虛線標(biāo)記框可以看出,對(duì)于自行車和汽車交疊部分和人腳與自行車的交疊部分,BiSeNet無(wú)法得到正確的分割邊界;而HLFGNet通過(guò)利用HLFGM加強(qiáng)低級(jí)細(xì)節(jié)信息,有效增強(qiáng)像素之間的語(yǔ)義邊界關(guān)系,準(zhǔn)確地區(qū)分和分割了交疊部分。并且在第1行圖像的實(shí)線框中,HLFGNet分割的人型輪廓相較于BiSeNet模型更細(xì)致。在第2行圖像中,BiSeNet無(wú)法識(shí)別道路兩邊的欄桿,而HLFGNet雖然對(duì)于道路左側(cè)的欄桿無(wú)法得到準(zhǔn)確的分類,但是能夠利用獲取的細(xì)節(jié)信息較好地分割欄桿的輪廓細(xì)節(jié)。第3行圖像的虛線標(biāo)記框中,可以看出對(duì)于遠(yuǎn)距離路燈桿HLFGNet的識(shí)別能力更強(qiáng);實(shí)線框中,BiSeNet分割的建筑物和路燈有部分像素點(diǎn)缺失;點(diǎn)線框中汽車和背景出現(xiàn)了融合的情況。在第4行圖像的虛線框中,BiSeNet并未識(shí)別出左側(cè)人物,右邊重合的兩人也丟失了大致輪廓細(xì)節(jié);而HLFGNet不僅識(shí)別并分割了左側(cè)人物,同時(shí)右側(cè)兩人重合后的區(qū)域邊緣信息相對(duì)完整。在實(shí)線框中,BiSeNet分割出的柱體有部分像素錯(cuò)誤分類,這是由于缺乏多尺度信息,而HLFGNet使用改進(jìn)后的PPGM獲取多尺度信息,因此柱體語(yǔ)義分類完整。
圖5 語(yǔ)義分割實(shí)驗(yàn)效果的可視化對(duì)比
綜上所述,HLFGNet相較于BiSeNet能夠更好地識(shí)別出不同類別之間的語(yǔ)義輪廓,減少交叉劃分的錯(cuò)誤現(xiàn)象。同時(shí)HLGFM模塊減少語(yǔ)義信息的丟失并且增強(qiáng)了細(xì)節(jié)信息使物體的邊緣信息更加完整。
為保證語(yǔ)義分割網(wǎng)絡(luò)在精度和速度之間達(dá)到良好平衡,本文提出一種改進(jìn)的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)(HLFGNet)。為減少多級(jí)特征圖在融合過(guò)程中出現(xiàn)語(yǔ)義信息丟失的現(xiàn)象,提出了高低維特征引導(dǎo)模塊,該模塊利用低級(jí)特征圖的空間位置信息指導(dǎo)高級(jí)特征圖在上采樣過(guò)程中的語(yǔ)義信息對(duì)齊,同時(shí)結(jié)合注意力機(jī)制,利用高級(jí)特征圖獲取到的強(qiáng)特征引導(dǎo)低級(jí)特征圖去除冗余的細(xì)節(jié)特征;另外引入金字塔池化模塊,并對(duì)它加以改進(jìn),使不同尺度的局部上下文信息能更好地融合,提高整體分割效果。為驗(yàn)證HLFGNet的有效性,在相同的環(huán)境配置下,分別在Cityscapes和CamVid數(shù)據(jù)集上展開(kāi)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,HLFGNet能夠在精度和推理速度之間取得較好的平衡,相較于其他網(wǎng)絡(luò),表現(xiàn)出了良好的性能。但HLFGNet還存在一定不足,語(yǔ)義分支采用的特征提取骨干網(wǎng)絡(luò)為ResNet-18,該網(wǎng)絡(luò)更適用于分類場(chǎng)景,所以在提取特征圖的多尺度信息和全局上下文信息方面表現(xiàn)有所不足。因此在后續(xù)的研究中,需要考慮如何設(shè)計(jì)更適用于語(yǔ)義分割的特征提取網(wǎng)絡(luò)。
[1] 羅會(huì)蘭,張?jiān)? 基于深度網(wǎng)絡(luò)的圖像語(yǔ)義分割綜述[J]. 電子學(xué)報(bào), 2019, 47(10):2211-2220.(LUO H L, ZHANG Y. A survey of image semantic segmentation based on deep network[J]. Acta Electronica Sinica, 2019, 47(10): 2211-2220.)
[2] 張新明,李振云,鄭穎. 融合Fisher準(zhǔn)則和勢(shì)函數(shù)的多閾值圖像分割[J]. 計(jì)算機(jī)應(yīng)用, 2012, 32(10):2843-2847.(ZHANG X M, LI Z Y, ZHENG Y. Multi-threshold image segmentation based on combining Fisher criterion and potential function[J]. Journal of Computer Applications, 2012, 32(10): 2843-2847.)
[3] 柳萍,陽(yáng)愛(ài)民. 一種基于區(qū)域的彩色圖像分割方法[J]. 計(jì)算機(jī)工程與應(yīng)用, 2007, 43(6):37-39, 64.(LIU P, YANG A M. A method of region-based color image segmentation[J]. Computer Engineering and Applications, 2007, 43(6): 37-39, 64.)
[4] 李翠錦,瞿中. 基于深度學(xué)習(xí)的圖像邊緣檢測(cè)算法綜述[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(11):3280-3288.(LI C J, QU Z. Review of image edge detection algorithms based on deep learning[J]. Journal of Computer Applications, 2020, 40(11): 3280-3288.)
[5] 宋杰,于裕,駱起峰. 基于RCF的跨層融合特征的邊緣檢測(cè)[J]. 計(jì)算機(jī)應(yīng)用, 2020, 40(7):2053-2058.(SONG J, YU Y, LUO Q F. Cross-layer fusion feature based on richer convolutional features for edge detection[J]. Journal of Computer Applications, 2020, 40(7): 2053-2058.)
[6] 瞿紹軍. 基于最優(yōu)化理論的圖像分割方法研究[D]. 長(zhǎng)沙:湖南師范大學(xué), 2018:32-66.(QU S J. Research on image segmentation based on optimization theory[D]. Changsha: Hunan Normal University, 2018: 32-66.)
[7] LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation[C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2015: 3431-3440.
[8] KRIZHEVSKY A, SUTSKEVER I, HINTON G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[9] 張?chǎng)危c安,趙健,等. 全卷積神經(jīng)網(wǎng)絡(luò)圖像語(yǔ)義分割方法綜述[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(8):45-57.(ZHANG X, YAO Q A, ZHAO J, et al. Image semantic segmentation based on fully convolutional neural network[J]. Computer Engineering and Applications, 2022, 58(8): 45-57.)
[10] ZHAO H, SHI J, QI X, et al. Pyramid scene parsing network[C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2017: 6230-6239.
[11] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[12] RONNEBERGER O, FISCHER P, BROX T. U-Net: convolutional networks for biomedical image segmentation[C]// Proceedings of the 2015 International Conference on Medical Image Computing and Computer-Assisted Intervention, LNCS 9351. Cham: Springer, 2015: 234-241.
[13] YU C, WANG J, PENG C, et al. BiSeNet: bilateral segmentation network for real-time semantic segmentation[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11217. Cham: Springer, 2018: 334-349.
[14] LI X, YOU A, ZHU Z, et al. Semantic flow for fast and accurate scene parsing[C]// Proceedings of the 2020 European Conference on Computer Vision, LNCS 12346. Cham: Springer, 2020: 775-793.
[15] CORDTS M, OMRAN M, RAMOS S, et al. The Cityscapes dataset for semantic urban scene understanding[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 3213-3223.
[16] BROSTOW G J, SHOTTON J, FAUQUEUR J, et al. Segmentation and recognition using structure from motion point clouds[C]// Proceedings of 2008 the European Conference on Computer Vision, LNCS 5302. Berlin: Springer, 2008: 44-57.
[17] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs[EB/OL]. (2016-06-07) [2022-10-01].https://arxiv.org/pdf/1412.7062.pdf.
[18] CHEN L C, PAPANDREOU G, SCHROFF F, et al. Rethinking atrous convolution for semantic image segmentation[EB/OL]. (2017-12-05) [2022-10-24].https://arxiv.org/pdf/1706.05587.pdf.
[19] CHEN L C, ZHU Y, PAPANDREOU G, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 801-818.
[20] PASZKE A, CHAURASIA A, KIM S, et al. ENet: a deep neural network architecture for real-time semantic segmentation[EB/OL]. (2016-06-07) [2022-04-10].https://arxiv.org/pdf/1606.02147.pdf.
[21] ZHAO H, QI X, SHEN X, et al. ICNet for real-time semantic segmentation on high-resolution images[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11207. Cham: Springer 2018: 418-434.
[22] YU C, GAO C, WANG J, et al. BiSeNet V2: bilateral network with guided aggregation for real-time semantic segmentation[J]. International Journal of Computer Vision, 2021, 129(11): 3051-3068.
[23] FAN M, LAI S, HUANG J, et al. Rethinking BiSeNet for real-time semantic segmentation[C]// Proceedings of the 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2021: 9711-9720.
[24] PENG J, LIU Y, TANG S, et al. PP-LiteSeg: a superior real-time semantic segmentation model[EB/OL]. (2022-04-06) [2022-08-06].https://arxiv.org/pdf/2204.02681.pdf.
[25] HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]// Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2018:7132-7141.
[26] WOO S, PARK J, LEE J Y, et al. CBAM: convolutional block attention module[C]// Proceedings of the 2018 European Conference on Computer Vision, LNCS 11211. Cham: Springer, 2018: 3-19.
[27] FU J, LIU J, TIAN H, et al. Dual attention network for scene segmentation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 3141-3149.
[28] WANG D, LI N, ZHOU Y, et al. Bilateral attention network for semantic segmentation[J]. IET Image Processing, 2021, 15(8): 1607-1616.
[29] 文凱,唐偉偉,熊俊臣. 基于注意力機(jī)制和有效分解卷積的實(shí)時(shí)分割算法[J]. 計(jì)算機(jī)應(yīng)用, 2022, 42(9):2659-266.(WEN K, TANG W W, XIONG J C. Real-time segmentation algorithm based on attention mechanism and effective factorized convolution[J]. Journal of Computer Applications, 2022, 42(9): 2659-266.)
[30] 吳瓊,瞿紹軍. 融合注意力機(jī)制的端到端的街道場(chǎng)景語(yǔ)義分割[J]. 小型微型計(jì)算機(jī)系統(tǒng), 2023, 44(7):1514-1520.(WU Q, QU S J. End-to-end semantic segmentation of street scene with attention mechanism[J]. Journal of Chinese Computer Systems, 2023, 44(7): 1514-1520.)
[31] 歐陽(yáng)柳,賀禧,瞿紹軍. 全卷積注意力機(jī)制神經(jīng)網(wǎng)絡(luò)的圖像語(yǔ)義分割 [J]. 計(jì)算機(jī)科學(xué)與探索, 2022, 16(5):1136-1145.(OU Y L, HE X, QU S J. Fully convolutional neural network with attention module for semantic segmentation[J]. Journal of Frontiers of Computer Science and Technology, 2022, 16(5): 1136-1145.)
[32] ZHANG X, DU B, WU Z, et al. LAANet: lightweight attention-guided asymmetric network for real-time semantic segmentation[J]. Neural Computing and Applications, 2022, 34(5): 3573-3587.
[33] LIU J, XU X, SHI Y, et al. RELAXNet: residual efficient learning and attention expected fusion network for real-time semantic segmentation[J]. Neurocomputing, 2022, 474: 115-127.
[34] LI H, XIONG P, FAN H, et al. DFANet: deep feature aggregation for real-time semantic segmentation[C]// Proceedings of the 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2019: 9514-9523.
[35] HUANG Z, WEI Y, WANG X, et al. AlignSeg: feature-aligned segmentation networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(1): 550-557.
[36] WU Y, JIANG J, HUANG Z, et al. FPANet: feature pyramid aggregation network for real-time semantic segmentation[J]. Applied Intelligence, 2022, 52(3): 3319-3336.
[37] HE K, ZHANG X, REN S, et al. Deep residual learning for image recognition[C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Piscataway: IEEE, 2016: 770-778.
[38] ZHOU B, KHOSLA A, LAPEDRIZA A, et al. Object detectors emerge in deep scene CNNs[EB/OL]. (2015-04-15) [2022-05-12].https://arxiv.org/pdf/1412.6856.pdf.
[39] 霍占強(qiáng),賈海洋,喬應(yīng)旭,等. 邊界感知的實(shí)時(shí)語(yǔ)義分割網(wǎng)絡(luò)[J]. 計(jì)算機(jī)工程與應(yīng)用, 2022, 58(17):165-173.(HUO Z Q, JIA H Y, QIAO Y X, et al. Boundary-aware real-time semantic segmentation network[J]. Computer Engineering and Applications, 2022, 58(17): 165-173.)
[40] CHEN W, GONG X, LIU X, et al. FasterSeg: searching for faster real-time semantic segmentation[EB/OL]. (2020-01-16) [2022-06-14].https://arxiv.org/pdf/1912.10917.pdf.
High-low dimensional feature guided real-time semantic segmentation network
YU Zixing1, QU Shaojun1*, HE Xin2, WANG Zhuo1
(1,,410081,;2,410221,)
Most semantic segmentation networks use bilinear interpolation to restore the resolution of the high-level feature map to the same resolution as the low-level feature map and then perform fusion operation, which causes that part of high-level semantic information cannot be spatially aligned with the low-level feature map, resulting in the loss of semantic information. To solve the problem, based on the improvement of Bilateral Segmentation Network (BiSeNet), a High-Low dimensional Feature Guided real-time semantic segmentation Network (HLFGNet) was proposed. First, High-Low dimensional Feature Guided Module (HLFGM) was proposed to guide the displacement of high-level semantic information during the upsampling process through the spatial position information of the low-level feature map. At the same time, the strong feature representations were obtained by the high-level feature maps, and by combining with the attention mechanism, the redundant edge detail information in the low-level feature map was eliminated and the pixel misclassification was reduced. Then, the improved Pyramid Pooling Guided Module (PPGM) was introduced to obtain global contextual information and strengthen the effective fusion of local contextual information at different scales. Experimental results on Cityscapes validation set and CamVid test set show that HLFGNet has the mean Intersection over Union (mIoU) of 76.67% and 70.90% respectively, the frames per second reached 75.0 and 96.2 respectively. In comparison with BiSeNet, HLFGNet has the mIoU increased by 1.76 and 3.40 percentage points respectively. It can be seen that HLFGNet can accurately identify the scene information and meet the real-time requirements.
real-time semantic segmentation; upsampling; attention mechanism; pyramid pooling; contextual information
This work is partially supported by National Natural Science Foundation of China (12071126).
YU Zixing, born in 1997, M. S. candidate. His research interests include computer vision, deep learning.
QU Shaojun, born in 1979, Ph. D., senior experimentalist. His research interests include image segmentation, computer vision, deep learning.
HE Xin, born in 1987, Ph. D. His research interests include deep learning, radar-vision fusion.
WANG Zhuo, born in 2000, M. S. candidate. Her research interests include computer vision, deep learning.
1001-9081(2023)10-3077-09
10.11772/j.issn.1001-9081.2022091438
2022?09?29;
2022?12?06;
國(guó)家自然科學(xué)基金資助項(xiàng)目(12071126)。
虞資興(1997—),男,湖南株洲人,碩士研究生,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí); 瞿紹軍(1979—),男,湖南永順人,正高級(jí)實(shí)驗(yàn)師,博士,CCF會(huì)員,主要研究方向:圖像分割、計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí); 何鑫(1987—),男,湖南邵陽(yáng)人,博士,主要研究方向:深度學(xué)習(xí)、雷達(dá)視覺(jué)融合; 王卓(2000—),女,湖南邵陽(yáng)人,碩士研究生,CCF會(huì)員,主要研究方向:計(jì)算機(jī)視覺(jué)、深度學(xué)習(xí)。
TP391.4
A
2022?12?12。