王振奇,邵 清,張 生,楊 振,何國春
(1.上海理工大學(xué)光電信息與計算機(jī)工程學(xué)院,上海 200093;2.上海外高橋造船有限公司工藝研究所,上海 200120)
圖像語義分割是計算機(jī)視覺范疇中一個重要的研究方向。研究初期,圖像語義分割主要依靠人工標(biāo)注特征[1?3],但是此類方法過于依賴研究人員的主觀判斷,難以廣泛表達(dá)圖像特征,在實際應(yīng)用過程中具有相當(dāng)大的局限性。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于深度卷積網(wǎng)絡(luò)[4]的圖像分割應(yīng)運(yùn)而生并得到廣泛應(yīng)用。文獻(xiàn)[5]采用全卷積神經(jīng)網(wǎng)絡(luò)(Fully convolution network,F(xiàn)CN)進(jìn)行像素級別分類和端到端的分割,此網(wǎng)絡(luò)可以達(dá)到在接收不同尺寸圖像的同時極大地提高分割效率,但仍存在分割不準(zhǔn)確的問題。文獻(xiàn)[6]提出新的分割網(wǎng)絡(luò)SegNet,在全卷積網(wǎng)絡(luò)的基礎(chǔ)上增加了解碼器,將模型明確劃分成編碼網(wǎng)絡(luò)和解碼網(wǎng)絡(luò),形成目前分割任務(wù)中普遍盛行的編解碼結(jié)構(gòu)。文獻(xiàn)[7]提出反卷積網(wǎng)絡(luò),網(wǎng)絡(luò)中上采樣的方法是學(xué)習(xí)一個與卷積網(wǎng)絡(luò)成鏡像結(jié)構(gòu)的反卷積網(wǎng)絡(luò),該網(wǎng)絡(luò)較好地解決了簡單上采樣方法所導(dǎo)致的信息丟失問題。文獻(xiàn)[8]提出U?Net分割網(wǎng)絡(luò),采用U形結(jié)構(gòu)得到高效的全卷積神經(jīng)網(wǎng)絡(luò),可以實現(xiàn)僅對少量圖片訓(xùn)練達(dá)到較高的準(zhǔn)確率,在醫(yī)學(xué)圖像分割上表現(xiàn)較為突出。文獻(xiàn)[9]提出PSPNet分割網(wǎng)絡(luò),運(yùn)用空間金字塔池化(Spatial Pyramid pooling,SPP)輔助實現(xiàn)背景融合的同時利用基于相異像素塊的前后文聚集,充分發(fā)揮整體綜合信息的能力從而產(chǎn)生優(yōu)異的分割效果。文獻(xiàn)[10]提出DeepLab V2分割網(wǎng)絡(luò),首次采用ASPP模塊提高了特征信息的保有程度,進(jìn)一步提高分割的準(zhǔn)確度。文獻(xiàn)[11]提出了圖卷積網(wǎng)絡(luò)(Graph convolutional network,GCN),設(shè)計了一種帶有大型卷積核的編解碼器結(jié)構(gòu)來收集較小范圍的特征信息,同時改進(jìn)分割模型解決了分割過程中的“像素分類”和“像素本地化”問題。文獻(xiàn)[12]提出帶有可分離的編解碼器網(wǎng)絡(luò)結(jié)構(gòu),在特征提取網(wǎng)絡(luò)中融合空間金字塔卷積模塊與編解碼器結(jié)構(gòu)進(jìn)行語義分割,可以有效恢復(fù)邊界信息。
語義分割發(fā)展到現(xiàn)在依舊面臨難以把握圖像特征和圖像語義信息之間平衡的問題。一方面,圖像的特征往往需要較大的卷積核進(jìn)行提取,然而小的卷積核卻能獲得更多的語義信息[13]。另一方面大的卷積核會帶來相對多的參數(shù)從而增大計算機(jī)運(yùn)算負(fù)擔(dān)。池化操作可以提取底層信息卻會丟失特征分辨率。恢復(fù)語義分割對象的結(jié)構(gòu)有兩種常用的方法:(1)從不同的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)層組合信息,并在圖像或特征空間中構(gòu)造更多的上下文關(guān)系;(2)從不同的CNN層組合信息,并跳過層架構(gòu),獲取來自不同層聚合的多粒度信息。減少層間結(jié)構(gòu)信息的丟失,提高插值的有效性,是恢復(fù)更多結(jié)構(gòu)信息的關(guān)鍵。
基于以上分析,本文提出一種融合U?Net改進(jìn)模型與超像素優(yōu)化的語義分割方法。該方法通過設(shè)計特征提取與超像素(Simple linear iterative clustering,SLIC)[14]的雙通道網(wǎng)絡(luò)以及全連接條件隨機(jī)場(Condition random field,CRF)[15]的后處理,提高分割效率,恢復(fù)分割過程中丟失的細(xì)節(jié),同時大幅度降低圖像語義分割的算法復(fù)雜度。本文方法主要有以下3點貢獻(xiàn):
(1)改進(jìn)ASPP模塊。通過在ASPP的分支網(wǎng)絡(luò)基礎(chǔ)上結(jié)合擴(kuò)張卷積(Dilated convolution,DC)[16],形成模塊本身的串并聯(lián)結(jié)構(gòu),改進(jìn)ASPP模塊可以達(dá)到擴(kuò)展感受野而減少分辨率損失的目的。
(2)改進(jìn)Xception模塊。在Xception結(jié)構(gòu)上結(jié)合大的卷積核,融入注意力精煉模塊結(jié)構(gòu),改進(jìn)后的Xception模塊可以保留圖像更多的細(xì)節(jié)信息,減少數(shù)據(jù)的參數(shù)量并提高收斂速率。
(3)基于以上創(chuàng)新,提出新的語義分割架構(gòu),結(jié)合U?Net模型與SLIC算法并通過CRF后端處理進(jìn)一步提高物體邊界附近的定位性能,提高分割精細(xì)度。
U?Net模型將編解碼器結(jié)構(gòu)和跳躍連接相結(jié)合,只需要很少的注釋圖像便可以取得較好的分割效果。在U?Net模型中收縮路徑的結(jié)構(gòu)遵循卷積網(wǎng)絡(luò)的典型構(gòu)造,包括2個卷積的重復(fù)應(yīng)用,并在卷積后連接1個激活單元(ReLU[17]激活)和1個池化操作用于下采樣。在下采樣流程中,特征通道數(shù)翻倍,上采樣經(jīng)過反卷積運(yùn)算后通道數(shù)收縮。擴(kuò)張路徑包括以下5個階段:特征映射上采樣;同收縮路徑的對應(yīng)特征映射進(jìn)行串聯(lián);2個卷積疊用;每個卷積由ReLU激活;擴(kuò)張網(wǎng)絡(luò)與收縮網(wǎng)絡(luò)基本對稱并形成U形結(jié)構(gòu)。
DeepLab V2提出的ASPP模塊在指定的網(wǎng)絡(luò)層并行應(yīng)用多個差別采樣率的卷積,空洞用0填充,相當(dāng)于利用了多尺度視野的多個核濾波器來獲取圖像中的不同特征,因而提升了對多尺度物體的分割能力。如圖1所示,ASPP解決了FCN語義分割中向上卷積不能完全還原池化導(dǎo)致的細(xì)節(jié)損失問題。ASPP模塊基于擴(kuò)張卷積支持指數(shù)感受野擴(kuò)充,系統(tǒng)地聚合了多尺度上下文信息。空洞卷積感受野F的計算公式為
圖1 ASPP稀疏特征提取結(jié)構(gòu)圖Fig.1 Structure graph of ASPP sparse feature extraction
式中:k為卷積核大??;r為其對應(yīng)空洞卷積采樣率大小。
為了優(yōu)化經(jīng)過特征提取后圖像的粗糙邊緣,本文采用SLIC算法以提高圖像邊緣的分割準(zhǔn)確率。SLIC算法是簡略線性迭代聚類,它將色彩圖像轉(zhuǎn)為X Y坐標(biāo)下的特征向量,而后對特征向量構(gòu)建間隔衡量標(biāo)準(zhǔn),并對圖像內(nèi)像素點采用局部聚類。具體步驟如下:
(1)種子點初始設(shè)置。假定待分割的圖像有N個像素,將其處理為p個同樣大小的超像素種子,則每一個超像素的尺寸為N/p,而且相鄰種子間間隔近似為S,計算公式為
為了防止種子點位于圖像的邊際位置對后續(xù)的聚類進(jìn)程造成干擾,種子距離在領(lǐng)域內(nèi)選擇。本文方法將種子點的領(lǐng)域設(shè)為3×3,同時為每個種子分配單獨(dú)的標(biāo)簽。
(2)類似度權(quán)衡。對每個搜索到的像素點計算相對間隔最近的種子間類似度,將與之最類似的種子標(biāo)簽賦予該像素。持續(xù)迭代此過程直至收斂。類似度權(quán)衡的距離指標(biāo)包含像素間色彩差異dlab和像素間的空間間隔dxy,計算公式為
式中:lp、li、ap、ai、bp、bi分別表示每個像素點聚類前后的顏色值;xj和yj分別為像素點在X軸和Y軸兩個坐標(biāo)方向上的值,同樣xi和yi分別為聚類中心在2個坐標(biāo)軸上的坐標(biāo)值;Di為種子之間的類似度距離;m為均衡參數(shù),用來權(quán)衡色彩值與空間信息在類似度權(quán)衡中的比重。如果m的取值越大則表明生成的超像素形狀越規(guī)則,Di越大則類似度越低。
本文將CRF引入語義分割的后處理。在CRF模型中,以圖片像素點為單位的標(biāo)注作為隨機(jī)變量,將像素與像素之間的對映關(guān)系作為邊,如此便可構(gòu)成一個CRF。具體來說,CRF中擁有輸入圖像的N個像素點,體現(xiàn)了整體觀測I。隨后給定圖G(V,E),其中V和E分別為給定圖的對應(yīng)頂點和邊。假設(shè)X是由隨機(jī)變量{X1,X2,…,Xn}組成的向量,其中Xi為隨機(jī)變量,體現(xiàn)為給像素i分配的標(biāo)注。CRF符合Gibbs分布,且元組(I,X)可以被建模為
式中fi與fj為像素i和j在相應(yīng)位置自由維度的特征向量,且核函數(shù)k(m)的規(guī)模由對稱矩陣Λ(m)判斷。
在使用CRF進(jìn)行精確邊緣恢復(fù)過程中,一元勢能是由邊緣優(yōu)化后的語義標(biāo)簽,相較于本文基于U?Net改進(jìn)模型提取的粗糙特征,經(jīng)過邊緣優(yōu)化后的像素級語義標(biāo)簽更加利于CRF模型的性能發(fā)揮。
本文方法的基本框架如圖2所示,其中X ception P表示改進(jìn)的Xception網(wǎng)絡(luò)。圖像首先通過基于U?Net模型改進(jìn)的場景分析特征提取網(wǎng)絡(luò)來提取特征信息獲得語義標(biāo)簽,之后運(yùn)用SLIC提取邊緣信息,通過結(jié)合特征提取網(wǎng)絡(luò)獲得的粗糙特征優(yōu)化粗糙分割結(jié)果。最后使用條件隨機(jī)場對結(jié)果施加整體約束,進(jìn)一步優(yōu)化每個像素的語義信息,從而得到兼具像素高級語義信息和較好邊緣貼合度的圖像語義分割結(jié)果。
圖2 融合U?Net模型和SLIC的語義分割架構(gòu)Fig.2 Semantic segmentation architecture combining U?Net model and SLIC
2.2.1 融合U?Net模型的特征提取網(wǎng)絡(luò)
場景分析特征提取網(wǎng)絡(luò)的核心是U?Net模型,基于改進(jìn)后Xception結(jié)構(gòu)的U?Net模塊如圖3所示,分為上采樣和下采樣。
圖3 基于改進(jìn)后Xception結(jié)構(gòu)的U?Net結(jié)構(gòu)圖Fig.3 Structure diagram of U?Net based on improved Xception structure
(1)網(wǎng)絡(luò)模型的下采樣。在特征提取網(wǎng)絡(luò)中首先通過改進(jìn)后的ASPP模塊對圖像以多尺度、多層次的方式提取特征。然后對處理后的特征數(shù)據(jù)進(jìn)行連續(xù)下采樣。下采樣中的卷積使用改進(jìn)Xception模塊提取圖像中像素流信息,實現(xiàn)多個通道相互關(guān)聯(lián)以及圖像特征空間充分解耦。
(2)網(wǎng)絡(luò)模型的上采樣。因為考慮到反卷積可能產(chǎn)生的網(wǎng)格效應(yīng),本文恢復(fù)圖像運(yùn)用上采樣中的雙線性插值法,期間使用1×1卷積恢復(fù)通道數(shù)目。在上采樣過程中取下采樣對應(yīng)相同分辨率的特征圖進(jìn)行合并,每次合并后再經(jīng)過2個3×3卷積繼續(xù)細(xì)化特征圖,依次上采樣直至將編碼器中所提取的特征還原到輸入圖片尺寸時的大小。
2.2.2 ASPP模塊的改進(jìn)
本文對ASPP模塊的改進(jìn)借鑒了DC擴(kuò)張卷積網(wǎng)絡(luò)結(jié)構(gòu)。DC擴(kuò)張卷積網(wǎng)絡(luò)基礎(chǔ)的上下文模塊由多層3×3的不同膨脹系數(shù)的空洞卷積組成,膨脹系數(shù)分別為{1,1,2,4,8},不同膨脹系數(shù)的卷積感受野也不同,通過融合不同感受野的卷積組成串聯(lián)結(jié)構(gòu),實現(xiàn)不降低感受野的同時盡量多地保留特征信息。
為了防止向上下文網(wǎng)絡(luò)提供輸入的特征模塊生成過低分辨率的特征圖像,結(jié)構(gòu)中選擇停止了第6層之后感受野的指數(shù)擴(kuò)展??紤]到參數(shù)量問題本文截取前5層的上下文網(wǎng)絡(luò)結(jié)構(gòu),詳細(xì)參數(shù)如表1所示,表中C為基礎(chǔ)通道數(shù)。
表1 上下文網(wǎng)絡(luò)結(jié)構(gòu)Table 1 Context network structure
改進(jìn)的ASPP模塊通過將DC結(jié)構(gòu)中的{3,4,5}層與ASPP模塊相結(jié)合組成各分支網(wǎng)絡(luò)串聯(lián)、各分支間并聯(lián)的結(jié)構(gòu),達(dá)到擴(kuò)大感受野而不損失分辨率的目的。改進(jìn)后的模塊結(jié)構(gòu)如圖4所示。在該模塊中將帶有全局內(nèi)容的圖像信息先通過Relu函數(shù)激活,之后經(jīng)過5個卷積通道,再次由Relu函數(shù)激活并通過1×1卷積修改通道數(shù)。
圖4 改進(jìn)后的ASPP模塊結(jié)構(gòu)圖Fig.4 Improved ASPP module structure diagram
通道設(shè)置過程中,前4個通道分別是1×1卷積、9×9感受野的DC3卷積(DC3指3個3×3卷積的串聯(lián)結(jié)構(gòu),共同作用達(dá)到9×9感受野的效果)、17×17感受野的DC4卷積(DC4指4個3×3卷積的串聯(lián)結(jié)構(gòu),共同作用達(dá)到17×17感受野的效果)、33×33感受野的DC5卷積(DC5指5個3×3卷積的串聯(lián)結(jié)構(gòu),共同作用達(dá)到33×33感受野的效果),每個卷積的擴(kuò)張倍率如表1所示;第5個通道是全局池化層用以提高模型性能、減少過擬合。最后將分支處理好的圖像特征細(xì)節(jié)進(jìn)行拼接再共同通過1×1卷積聚合,并且在每一個卷積后接正則化層操作(Batch normalization,BN)以加快網(wǎng)絡(luò)訓(xùn)練和收斂的速度。改進(jìn)后的ASPP結(jié)構(gòu)中濾波器個數(shù)為64。
2.2.3 Xception模塊的改進(jìn)
為了進(jìn)一步提取圖像中像素流信息,本文對Xception模塊[18]加以改進(jìn)。Xception模塊是分類網(wǎng)絡(luò)中常用的一種并行網(wǎng)絡(luò)結(jié)構(gòu),其結(jié)合Res Net結(jié)構(gòu)[19]并對大的卷積核充分解耦[20?21],能夠兼顧準(zhǔn)確精度和計算效率。本文將原有的Xception結(jié)構(gòu)進(jìn)行擴(kuò)展,提高了特征細(xì)節(jié)的提取能力。
改進(jìn)后結(jié)構(gòu)的右側(cè)由5條并行的路徑組成,其中(2,3,4,5)條路徑使用卷積核大小分別是(1×1,3×3,5×5,7×7)的卷積以差別提取圖像特征尺寸下的信息(5×5和7×7的卷積分別使用2個3×3以及3個3×3卷積進(jìn)行替代,可以明顯減少網(wǎng)絡(luò)參數(shù)量且保證感受野不會變?。诿總€路徑的卷積前會對輸入的圖像特征信息先通過1×1卷積來降低輸入的通道數(shù)目。第1條路徑是與ResNet相結(jié)合的ShortCut結(jié)構(gòu),解決了深度卷積過程中的梯度消失問題。所有路徑的卷積中均使用Same填充來確保輸入與輸出的統(tǒng)一,而后將每條路徑的結(jié)果在末端通道維上進(jìn)行聚合,并輸出到相連的下一層中繼續(xù)提取特征。
改進(jìn)后結(jié)構(gòu)的左側(cè)先將上層輸入的圖像特征信息連續(xù)進(jìn)行4倍、8倍、16倍和32倍的下采樣,選取其中16倍和32倍下采樣結(jié)果,分別通過注意力精煉模塊(Attention refinement module,ARM)[22]優(yōu)化輸出特征,整合整體語境信息后將全局平均池化的輸出與保留更多細(xì)節(jié)的9×9大核卷積輸出相結(jié)合,進(jìn)而優(yōu)化語義路徑的輸出結(jié)果。
改進(jìn)后的Xception模塊結(jié)構(gòu)如圖5所示。模塊擁有更多的池化通道,加入注意力精煉模塊并采用較大的9×9卷積核,可以解決全連接以及全局池化等相關(guān)操作失去位置信息的問題,模塊中卷積使用1×k+k×1和k×1+1×k代替k×k,可以顯著減小參數(shù)量以及網(wǎng)絡(luò)計算成本,同時保有更多的特征細(xì)節(jié),獲得更好的分割效果。
圖5 改進(jìn)后的Xception模塊結(jié)構(gòu)圖Fig.5 Structure diagram of improved Xception module
2.2.4 SLIC邊緣優(yōu)化算法
在融合通過特征提取網(wǎng)絡(luò)獲得的特征基礎(chǔ)上,通過SLIC算法細(xì)膩貼合的邊緣信息來重新標(biāo)注每個超像素內(nèi)的語義標(biāo)簽,對圖像邊緣進(jìn)行優(yōu)化,從而更好地還原圖像的邊緣信息。具體優(yōu)化算法流程如下。
算法 SLIC邊緣優(yōu)化
設(shè)定輸入圖像為I,經(jīng)過特征提取網(wǎng)絡(luò)提取出的粗糙特征為L。
利用SLIC算法獲得超像素p個,O={O1,O2,…,Op},其中Oi表示第i個超像素。
外部:whilei (1)用C={C1,C2,…,Cp}體現(xiàn)Oi中的全部像素,其中Cj為被類別j所標(biāo)記的像素點。 (2)從特征提取網(wǎng)絡(luò)獲得C中每個像素的特征進(jìn)而初始化權(quán)重Wc。 (3)內(nèi)部:whilej 在while循環(huán)中判斷Cj在C中屬于哪一種語義分類,如果Cj表示Ck,令Qk增加1,其中Qk表示指向Ck的總像素數(shù)。 end while (4)搜查所有的WC并判斷是否具有某一WCj值大于0.8。若有,執(zhí)行下一步;否則,持續(xù)尋覓最大的Wmax和第二大的Wsub,而后判斷它們之間的插值是否大于0.2。如果是,則進(jìn)行下一步;否則持續(xù)外部循環(huán)。 (5)應(yīng)用目前超像素內(nèi)幾率最大的分類L,而后再次標(biāo)注目前超像素的語義標(biāo)簽。Cmax end while 圖6顯示了超像素迭代分割的結(jié)果??梢钥闯?,經(jīng)過超像素處理的圖像內(nèi)容邊緣更加清晰。為提高邊緣分割的準(zhǔn)確度,本文設(shè)置基礎(chǔ)p值為1 000。 圖6 超像素迭代分割結(jié)果Fig.6 Segmentation results of superpixel iteration 本文采用PASCAL VOC2012數(shù)據(jù)集[23]作為基準(zhǔn)數(shù)據(jù)進(jìn)行實驗,可以達(dá)到較好的訓(xùn)練分割網(wǎng)絡(luò)并準(zhǔn)確從場景中分割對象的目的。該數(shù)據(jù)集提供了1組帶有標(biāo)簽的相關(guān)圖像的訓(xùn)練集,是基準(zhǔn)測試最廣泛使用的語義分段數(shù)據(jù)集。它由20個前景對象類和1個背景類組成。實驗中使用其中的5 000張注釋圖像,并將其分為2 975/500/1 525張圖像分別作為本文模型的訓(xùn)練、驗證和測試使用。 為了更好地評估模型方法的分割精度,本文采用均交并比(Mean intersection over union,m IoU)和像素精度(Pixel accuracy,PA)作為評估規(guī)范。在圖像語義分割領(lǐng)域m Io U值是權(quán)衡圖像分割精度的重要指標(biāo),它體現(xiàn)了計算真實數(shù)值和預(yù)測數(shù)值2個集合的交并集之比,也即在每個類別上計算交并比(In?tersection over union,Io U)值。m Io U和PA計算公式為 式中:K表示除背景類別之外的總類別個數(shù);K+1表示包括背景類別在內(nèi)的語義類別總數(shù);i為真實值;j為預(yù)測值;pji表示將i預(yù)測為j。 3.2.1 實驗環(huán)境 本文實驗中CPU為Intel Core i7;內(nèi)存為24 GB;GPU為NVIDIA GTX 1050Ti 4 GB;語言環(huán)境為Python 3.7;機(jī)器學(xué)習(xí)環(huán)境為Py Torch 1.3;Cuda版本為Cuda 10.0 with cudnn。 3.2.2 參數(shù)配置 模型訓(xùn)練采用“poly”學(xué)習(xí)率策略,其中當(dāng)前學(xué)習(xí)率等于基數(shù)乘以為了防止過擬合,本文將基礎(chǔ)學(xué)習(xí)率設(shè)置為0.007,將power設(shè)置為0.9。通過適當(dāng)提高迭代次數(shù)可以增強(qiáng)性能,PAS?CAL VOC設(shè)置為30 000次。本文對PASCAL VOC數(shù)據(jù)集采取隨機(jī)鏡像并讓圖像的隨機(jī)大小在0.5~2之間進(jìn)行調(diào)整;然后在-15°~15°之間加入隨機(jī)旋轉(zhuǎn),對數(shù)據(jù)集使用隨機(jī)高斯模糊,這種綜合的數(shù)據(jù)加強(qiáng)方案使網(wǎng)絡(luò)具備抗過擬合能力。 3.3.1 實驗結(jié)果 實驗中用到2個重要參數(shù):(1)裁剪尺寸;(2)批次標(biāo)準(zhǔn)化處理層的批量尺寸。這2個參數(shù)的大小設(shè)置會影響到分割網(wǎng)絡(luò)的性能。本文在訓(xùn)練過程中將批量大小設(shè)置為8,能夠取得較好的效果。為了找到最好的結(jié)合效果,進(jìn)行了以下對比實驗。 實驗1為不同設(shè)置的分割模型對比。針對多變多樣的場景,本文將分割模型的不同設(shè)置進(jìn)行對比,對比結(jié)果如表2所示。表2中:Xception?Baseline為基于ResNet?101的網(wǎng)絡(luò)結(jié)構(gòu);Xception P?Baseline為基于改進(jìn)后Xception模塊的U?Net擴(kuò)張網(wǎng)絡(luò)結(jié)構(gòu);Xception+A0+MAX為DeepLab V3前端網(wǎng)絡(luò)的基本配置;A0表示未改進(jìn)的ASPP空洞卷積結(jié)構(gòu);A1表示改進(jìn)后的ASPP空洞卷積結(jié)構(gòu);MAX和AVE分別為最大池化操作與平均池化操作;BR表示在池化之后進(jìn)行維度適當(dāng)縮減。實驗1結(jié)果在PASCAL VOC數(shù)據(jù)集上用單標(biāo)度輸入進(jìn)行測試。由表2中m IoU和PA值可知,本文網(wǎng)絡(luò)在特征提取準(zhǔn)確率方面具有優(yōu)勢,而平均池化相較最大池化對本文網(wǎng)絡(luò)的結(jié)合工作更好且使用改進(jìn)后的金字塔空洞卷積,隨著特征圖像的縮小以及網(wǎng)絡(luò)深度的增加,網(wǎng)絡(luò)性能可以得到進(jìn)一步提升。 表2 不同設(shè)置的分割模型對比Table 2 Comparison of segmentation models with different settings % 實驗2為采用不同的圖像數(shù)據(jù)流提取模塊時,數(shù)據(jù)參數(shù)量以及收斂速度的對比,對比結(jié)果如表3所示。表3中:Xception P?Non?Residual為本文改進(jìn)后且去掉殘差結(jié)構(gòu)的Xception模塊;Resnet?152表示Resnet網(wǎng)絡(luò)的152層實現(xiàn),增加了Resnet網(wǎng)絡(luò)深度且不會過擬合。由表3可知“Xception P?Non?Residual”的數(shù)據(jù)參數(shù)量最低,但同時它收斂速率最慢,本文采用的“XceptionP”模塊在收斂速率上最快,同時數(shù)據(jù)參數(shù)量也做到了比“Resnet?152”要低。這一方面說明了殘差網(wǎng)絡(luò)有助于提升網(wǎng)絡(luò)學(xué)習(xí)的效率,另一方面也說明了本文“Xception P”模塊可以一定程度降低數(shù)據(jù)的參數(shù)量。 表3 不同模塊的參數(shù)量與收斂速度對比Table 3 Comparison of parameters and conver?gence speed of different modules 3.3.2 主觀評估 圖7給出了本文方法與DeepLab V3的對比結(jié)果,可以看出本文方法分割的精細(xì)程度較高,在第1行圖片中的人腿部分可以完整凸顯,第2行的飛機(jī)下部側(cè)翼得以保留,第3行的鳥類則減少了錯誤識別的情況,第4行中可以看到在復(fù)雜細(xì)節(jié)場景中本文方法更具優(yōu)勢。 圖7 不同分割模型產(chǎn)生的語義分段效果Fig.7 Semantic segmentation effects produced by different segmentation models 3.3.3 客觀評估 表4對當(dāng)前主流模型(FCN,PSPNet,Deep Lab V3)在PASCAL VOC 2012測試集上的圖像精度以及每類結(jié)果的準(zhǔn)確率進(jìn)行詳細(xì)對比。從結(jié)果可以看到,本文方法在對比實驗中具有一定優(yōu)勢:mIo U值達(dá)到84.2%,較Deep Lab V3提高了2.4%;而PA值為95.42%,較DeepLab V3提高了1.57%,這主要得益于前端網(wǎng)絡(luò)的高級特征提取與超像素邊緣優(yōu)化相結(jié)合取得的效果。 表4 不同分割模型評估指標(biāo)對比Table 4 Performances of different seg?mentation models % 表5給出了30 000次迭代次數(shù)下不同分割模型在測試集中每類結(jié)果的對比,可以看到本文方法在準(zhǔn)確率上整體優(yōu)于其他方法,在測試集所有20個分類中多數(shù)類別的準(zhǔn)確率較高。 表5 30 000迭代次數(shù)下不同分割模型對比Table 5 Comparison of different segmentation models under 30 000 iterations % 本文結(jié)合U?Net模型、ASPP模塊、Xception模塊和SLIC超像素設(shè)計了一個融合U?Net改進(jìn)模型與超像素優(yōu)化的語義分割新架構(gòu),用于解決面對多變場景時分割不精細(xì)、語義信息提取不足的問題。在PASCAL VOC2012數(shù)據(jù)集上的實驗驗證了本文方法的有效性,提出的模型在與多種主流模型對比中均表現(xiàn)出極佳的性能,獲得更加優(yōu)異的分割結(jié)果,包括更低的參數(shù)量、更快的收斂速度和更精細(xì)準(zhǔn)確的邊界。如何在分割中更好地結(jié)合超像素以及如何更好地設(shè)計語義信息提取網(wǎng)絡(luò)是下一步工作需要繼續(xù)研究的重點。3 實驗設(shè)計與分析
3.1 實驗數(shù)據(jù)集與評估指標(biāo)
3.2 實驗環(huán)境與參數(shù)設(shè)置
3.3 實驗結(jié)果分析
4 結(jié)束語