宋小娜 芮挺 王新晴
摘 要:語義分割是實(shí)現(xiàn)道路語義環(huán)境解釋的重要方法,深度學(xué)習(xí)語義分割由于卷積、池化及反卷積的作用使分割邊界模糊、不連續(xù)以及小目標(biāo)漏分錯(cuò)分,影響了分割效果,降低了分割精度。針對(duì)上述問題,提出了一種結(jié)合語義邊界信息的新的語義分割方法,首先在語義分割深度模型中構(gòu)建了一個(gè)語義邊界檢測(cè)子網(wǎng),利用網(wǎng)絡(luò)中的特征共享層將語義邊界檢測(cè)子網(wǎng)絡(luò)學(xué)習(xí)到的語義邊界信息傳遞給語義分割網(wǎng)絡(luò);然后結(jié)合語義邊界檢測(cè)任務(wù)和語義分割任務(wù)定義了新的模型代價(jià)函數(shù),同時(shí)完成語義邊界檢測(cè)和語義分割兩個(gè)任務(wù),提升語義分割網(wǎng)絡(luò)對(duì)物體邊界的描述能力,提高語義分割質(zhì)量。最后在Cityscapes數(shù)據(jù)集上進(jìn)行一系列實(shí)驗(yàn)證明,結(jié)合語義邊界信息的語義分割方法在準(zhǔn)確率上比已有的語義分割網(wǎng)絡(luò)SegNet提升了2.9%,比ENet提升了1.3%。所提方法可以改善語義分割中出現(xiàn)的分割不連續(xù)、物體邊界不清晰、小目標(biāo)錯(cuò)分漏分、分割精度不高等問題。
關(guān)鍵詞:語義分割;全卷積神經(jīng)網(wǎng)絡(luò);道路環(huán)境感知;邊緣檢測(cè);無人駕駛車輛
中圖分類號(hào):TP391.4
文獻(xiàn)標(biāo)志碼:A
Semantic segmentation method of road environment? combined semantic boundary information
SONG Xiaona1,2, RUI Ting1*, WANG Xinqing1
1.College of Field Engineering, Army Engineering University of Peoples Liberation Army, Nanjing Jiangsu 210018, China;
2.College of Mechanical Engineering, North China University of Water Resources and Electric Power, Zhengzhou Henan 450045, China
Abstract:
Semantic segmentation is an important method to interpret the road semantic environment. The convolution, pooling and deconvolution in semantic segmentation of deep learning result in blur and discontinuous segmentation boundary, missing and wrong segmentation of small objects. These influence the outcome of segmentation and reduce the accuracy of segmentation. To deal with the problems above, a new semantic segmentation method combined semantic boundary information was proposed. Firstly, a subnet of semantic boundary detection was built in the deep model of semantic segmentation, and the feature sharing layers in the network were used to transfer the semantic boundary information learned in the semantic boundary detection subnet to the semantic segmentation network. Then, a new cost function of the model was defined according to the tasks of semantic boundary detection and semantic segmentation. The model was able to accomplish two tasks simultaneously and improve the descriptive ability of object boundary and the quality of semantic segmentation. Finally, the method was verified on the Cityscapes dataset. The experimental results demonstrate that the accuracy of the method proposed is improved by 2.9 % compared to SegNet and is improved by 1.3% compared to ENet. It can overcome the problems in semantic segmentation such as discontinous segmentation, blur boundary of object, missing and wrong segmentation of small objects and low accuracy of segmentation.
Key words:
semantic segmentation; Fully Convolutional Network (FCN); road environment perception; boundary detection; unmanned vehicle
0 引言
道路環(huán)境感知問題一直以來是智能車輛的關(guān)鍵技術(shù),其中基于計(jì)算機(jī)視覺的環(huán)境感知方法已成為主要研究熱點(diǎn)。它通過車輛前方的攝像頭獲取道路環(huán)境信息,利用相關(guān)算法對(duì)道路場(chǎng)景進(jìn)行語義分割,獲取車輛周邊環(huán)境情況,為智能車輛的安全行駛提供保障。
目前,現(xiàn)有的道路環(huán)境語義分割方法[1-10]大多基于深度學(xué)習(xí)網(wǎng)絡(luò)框架,全卷積神經(jīng)網(wǎng)絡(luò)的引入,更是有效提升了語義分割任務(wù)的精度和速度。但是卷積層中大的感受野和池化層的存在使得道路環(huán)境中大量物體邊界細(xì)節(jié)缺失,造成語義分割結(jié)果邊界模糊、分割精度不高。針對(duì)此類問題,許多研究人員采取對(duì)語義分割結(jié)果進(jìn)行后處理,如采用條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)等方法來改善粗糙的語義分割結(jié)果。然而這種方法大多數(shù)是基于顏色等低維特征進(jìn)行修正,不能學(xué)習(xí)場(chǎng)景中不同物體之間的語義關(guān)系,因此很難獲得很好的語義分割結(jié)果。
本文提出一種結(jié)合語義邊界信息的道路環(huán)境語義分割方法,通過在語義分割網(wǎng)絡(luò)中引入語義邊界檢測(cè)子網(wǎng)絡(luò)來學(xué)習(xí)語義邊界信息,在同一深度網(wǎng)絡(luò)框架下,完成語義邊界檢測(cè)和語義分割兩個(gè)任務(wù),并定義了新的模型代價(jià)函數(shù),有效提升語義分割邊界精度。本文的主要工作如下:
1)在語義分割網(wǎng)絡(luò)中構(gòu)建了語義邊界檢測(cè)子網(wǎng)絡(luò),通過融合語義分割模型中不同卷積層的特征,學(xué)習(xí)從低層到物體層次的多尺度邊緣信息,為語義分割提供豐富準(zhǔn)確的物體邊界信息。
2)在同一深度神經(jīng)網(wǎng)絡(luò)框架下,完成物體語義邊界檢測(cè)和語義分割兩個(gè)任務(wù),通過定義新的模型代價(jià)函數(shù),使網(wǎng)絡(luò)更好地學(xué)習(xí)語義邊界信息,改善語義分割過程中出現(xiàn)的邊界不連續(xù)或模糊現(xiàn)象。同時(shí),學(xué)習(xí)的語義邊界信息還有效地改善了語義分割中小目標(biāo)的漏分或錯(cuò)分現(xiàn)象,提升了語義分割的精度。
3)在道路語義分割公有數(shù)據(jù)集Cityscapes[11]上驗(yàn)證了方法的有效性。
1 相關(guān)工作
語義分割是為圖像中每個(gè)像素分配一個(gè)預(yù)先定義的表示其語義目標(biāo)類別的標(biāo)簽。深度學(xué)習(xí)在各種視覺任務(wù)上取得了巨大的成功,尤其是卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)被廣泛用于圖像分類或物體檢測(cè)。在此基礎(chǔ)上,一些學(xué)者將原用于分類的網(wǎng)絡(luò)轉(zhuǎn)化為適合分割的形式,提出一種更為直接的以像素直接分類為基礎(chǔ)的語義分割方法。其基本思想是:以大量帶有像素級(jí)標(biāo)注的圖像為樣本,訓(xùn)練神經(jīng)網(wǎng)絡(luò)等分類器,對(duì)圖像中每個(gè)像素分類,輸入是原圖像,輸出是源圖像對(duì)應(yīng)的語義分割圖,形成一種端到端的方法。
2015年,Long等[12]提出了全卷積神經(jīng)網(wǎng)絡(luò)(Fully Convolutional Network, FCN)方法,設(shè)計(jì)了一種針對(duì)任意大小的輸入圖像,訓(xùn)練端到端的全卷積網(wǎng)絡(luò)的框架,實(shí)現(xiàn)逐像素分類,奠定了使用深度網(wǎng)絡(luò)解決圖像語義分割問題的基礎(chǔ)框架。為了避免網(wǎng)絡(luò)提取特征時(shí)丟失空間位置信息,F(xiàn)CN通過雙線性插值上采樣和組合中間層輸出的特征圖,將粗糙分割結(jié)果轉(zhuǎn)換為密集分割結(jié)果,并且成功將原本用于分類的網(wǎng)絡(luò)轉(zhuǎn)換為生成圖像分割的網(wǎng)絡(luò),實(shí)現(xiàn)了像素級(jí)預(yù)測(cè)。但是FCN得到的結(jié)果還不夠精細(xì),目標(biāo)物體的細(xì)節(jié)結(jié)構(gòu)可能會(huì)丟失或邊界模糊。在此基礎(chǔ)上,Badrinarayanan等[13]提出了SegNet用于圖像分割的一種深度卷積編碼器解碼器架構(gòu),比FCN效率更高并且占用更少的內(nèi)存,但劃分精度不高。Chen等[14]在FCN 框架的末端增加全連接條件隨機(jī)場(chǎng),提出了 DeepLab-v1模型,首先使用雙線性插值法對(duì) FCN的輸出結(jié)果上采樣得到粗糙分割結(jié)果,以該結(jié)果圖中每個(gè)像素為一個(gè)節(jié)點(diǎn)構(gòu)造 CRF 模型并求解,對(duì)分割結(jié)果求精。該CRF模型以顏色此類低維特征作為像素之間關(guān)聯(lián)函數(shù),存在一定弊端,容易形成物體分割空間上的不連續(xù)。之后,Chen等[15]又提出了DeepLab-v2,主要使用了帶孔卷積,并且提出了在空間維度上實(shí)現(xiàn)金字塔型的空洞池化(Atrous Spatial Pyramid Pooling, ASPP)。卷積核之間引入了“孔洞”,可以增大空間分辨率同時(shí)不改變感受受野和參數(shù)數(shù)量的效果,ASPP使用多種孔洞率的卷積核對(duì)相同特征圖同時(shí)處理,由于不同的孔洞率對(duì)應(yīng)著不同的感受野大小,可以提取不同尺度的目標(biāo)特征,網(wǎng)絡(luò)最后通過CRF精細(xì)化邊緣信息,更好地分割物體邊界;但帶孔卷積需要大量高分辨率特征圖,因此其計(jì)算成本高昂,且占用大量?jī)?nèi)存,同時(shí)容易丟失重要的細(xì)節(jié)信息。
縱觀上述語義分割方法,大都是通過對(duì)深度構(gòu)架中卷積和池化層修改、低層特征和高級(jí)語義特征融合等方法來改善語義分割過程中存在的物體邊界粗糙或模糊問題。事實(shí)上,語義邊界信息是語義分割任務(wù)中有效區(qū)分一個(gè)物體與另一個(gè)物體的非常重要的信息。在網(wǎng)絡(luò)訓(xùn)練中有效學(xué)習(xí)物體語義邊界信息或利用物體語義邊界信息指導(dǎo)語義分割同樣可以提升語義分割的精度。Marmanis等[16]將邊緣檢測(cè)融入語義分割,圖像首先進(jìn)入邊緣檢測(cè)模塊,然后再進(jìn)入后續(xù)語義分割模塊,通過這種方法學(xué)習(xí)圖像中邊緣信息,可以提升圖像的語義分割中邊界精度。Huang等[17]構(gòu)建一個(gè)物體邊界檢測(cè)FCN來獲取物體精確的定位信息和物體形狀細(xì)節(jié)信息,通過物體邊界檢測(cè)FCN與原有的語義分割FCN的信息融合,獲取語義分割中的邊界細(xì)節(jié)。Bertasius等[18]設(shè)計(jì)了邊界神經(jīng)場(chǎng)(Boundary Neural Field, BNF)這個(gè)能量模型,通過引入一個(gè)全局能量函數(shù),將粗糙的語義分割結(jié)果與語義邊界信息結(jié)合來改善語義分割結(jié)果。
本文所設(shè)計(jì)的結(jié)合語義邊界信息的語義分割網(wǎng)絡(luò),在語義分割網(wǎng)絡(luò)中通過整合網(wǎng)絡(luò)結(jié)構(gòu)中各階段卷積層提取的信息,構(gòu)建了語義邊界檢測(cè)子網(wǎng)絡(luò)。通過定義了新的模型代價(jià)函數(shù),在同一框架下完成了語義邊界檢測(cè)和語義分割兩個(gè)任務(wù),并利用語義邊界檢測(cè)任務(wù)中所學(xué)習(xí)到的語義邊界信息,來有效提升語義分割效果。在文獻(xiàn)[16]中,邊緣檢測(cè)網(wǎng)絡(luò)與語義分割網(wǎng)絡(luò)是并行存在的,網(wǎng)絡(luò)結(jié)構(gòu)存在冗余。本文所設(shè)計(jì)的網(wǎng)絡(luò)不同于文獻(xiàn)[16],語義邊界檢測(cè)子網(wǎng)絡(luò)與語義分割網(wǎng)絡(luò)存在特征共享層,通過共享層將語義邊界檢測(cè)子網(wǎng)絡(luò)學(xué)習(xí)到的語義邊界信息傳遞給語義分割網(wǎng)絡(luò),其結(jié)構(gòu)更為簡(jiǎn)潔,執(zhí)行效率更高。在文獻(xiàn)[17]中,輸入圖像先后進(jìn)入邊緣檢測(cè)模塊與語義分割模塊,若邊緣檢測(cè)模塊學(xué)習(xí)的邊緣信息不完整,直接影響了語義分割模塊的分割效果。而文獻(xiàn)[18]中能量函數(shù)的構(gòu)建方法復(fù)雜,網(wǎng)絡(luò)訓(xùn)練周期長(zhǎng)。
2 本文主要方法
針對(duì)語義分割中存在的邊界模糊或不連續(xù)、小目標(biāo)漏分誤分、分割精度不高等問題,本文提出了一種結(jié)合物體語義邊界信息的語義分割方法。在原語義分割網(wǎng)絡(luò)框架中構(gòu)建了語義邊界檢測(cè)子網(wǎng)絡(luò)來學(xué)習(xí)物體邊界信息,并通過共享特征層將語義邊界檢測(cè)子網(wǎng)絡(luò)學(xué)習(xí)到的語義邊界信息傳遞給語義分割網(wǎng)絡(luò),有效提升了語義分割網(wǎng)絡(luò)的分割精度。本方法在同一深度神經(jīng)網(wǎng)絡(luò)框架下同時(shí)完成語義邊界檢測(cè)和語義分割兩個(gè)任務(wù),通過定義新的模型代價(jià)函數(shù),來完成網(wǎng)絡(luò)訓(xùn)練,整個(gè)訓(xùn)練過程是端對(duì)端的,具體方法如圖1所示。
2.1 結(jié)合語義邊界信息的語義分割模型
本文所設(shè)計(jì)的結(jié)合語義邊界信息的語義分割模型如圖2所示。
圖2中實(shí)線框部分構(gòu)成了語義分割網(wǎng)絡(luò),而虛線框部分構(gòu)成了語義邊界檢測(cè)子網(wǎng)絡(luò),由此可知,整個(gè)網(wǎng)絡(luò)模型存在共有部分,將其稱為網(wǎng)絡(luò)特征共享層。通過特征共享層將語義邊界子網(wǎng)絡(luò)學(xué)習(xí)的信息傳送給語義分割網(wǎng)絡(luò),提升網(wǎng)絡(luò)的語義邊界學(xué)習(xí)能力。整個(gè)網(wǎng)絡(luò)架構(gòu)是基于VGG19改進(jìn)的,VGG19網(wǎng)絡(luò)包含有16個(gè)卷積層和3個(gè)全連接層,
該網(wǎng)絡(luò)在圖像分類、目標(biāo)檢測(cè)等領(lǐng)域取得巨大成功。它的卷積層分為5個(gè)階段,每個(gè)階段后面緊跟一個(gè)池化層。隨著感受野的增加,每個(gè)卷積層所學(xué)習(xí)到的有用信息逐漸變得粗糙,這種多層次的結(jié)構(gòu)可以學(xué)習(xí)更加豐富的特征信息。
如圖2所示虛線框內(nèi)為語義邊界檢測(cè)子網(wǎng)絡(luò),它與現(xiàn)有的基于深度學(xué)習(xí)的邊緣檢測(cè)方法[19-20]類似,由編碼和解碼兩部分構(gòu)成。其中編碼部分充分利用語義分割網(wǎng)絡(luò)中編碼部分信息,通過對(duì)每個(gè)階段的卷積層的結(jié)果融合來獲取不同尺度的物體邊界信息。解碼部分則通過反卷積將不同尺度的物體邊界放大后融合,得到最終的語義邊界檢測(cè)預(yù)測(cè)結(jié)果。在語義邊界檢測(cè)子網(wǎng)絡(luò)中,VGG19每個(gè)階段的卷積層取出后緊跟1×1的卷積層,然后將該階段的所有輸出相加以獲得融合特征后再次進(jìn)入一個(gè)1×1的卷積層,然后通過一個(gè)反卷積層來對(duì)輸出特征圖上采樣,以獲得與輸入圖像大小相同的輸出。每個(gè)階段的上采樣層后緊跟一個(gè)交叉熵?fù)p失層。所有的上采樣層輸出結(jié)果級(jí)聯(lián)并通過1×1的卷積融合,最后再進(jìn)入交叉熵?fù)p失層來獲得最終的語義邊界檢測(cè)結(jié)果。在該網(wǎng)絡(luò)結(jié)構(gòu)下,由于卷積層的感受野大小不同,因此可以學(xué)習(xí)到從低層到物體層次的多尺度信息。這種網(wǎng)絡(luò)結(jié)構(gòu),有助于捕獲物體邊界的細(xì)微細(xì)節(jié),為精準(zhǔn)的語義分割提供有用信息。
如圖2實(shí)線框所示的語義分割網(wǎng)絡(luò)框架,其結(jié)構(gòu)仍然是基于編碼解碼形式的語義分割框架。由于本文的網(wǎng)絡(luò)結(jié)構(gòu)是對(duì)無人駕駛車輛的道路環(huán)境進(jìn)行語義分割,為了提高實(shí)時(shí)性,減少了FCN、SegNet等傳統(tǒng)的語義分割網(wǎng)絡(luò)中特征圖的個(gè)數(shù),同時(shí)采用不對(duì)稱的結(jié)構(gòu)。編碼部分與語義邊界檢測(cè)子網(wǎng)絡(luò)共享,各階段的特征圖的個(gè)數(shù)分別為16,32,64,128,256。由于解碼部分只是為了上采樣編碼的結(jié)果輸出語義分割結(jié)果,與SegNet網(wǎng)絡(luò)(對(duì)稱結(jié)構(gòu),編碼和解碼層數(shù)相等)不同,只設(shè)計(jì)了5個(gè)反卷積層,其特征圖的個(gè)數(shù)分別為64,64,32,16,20。在上采樣過程中,沒有使用最大反池化方式,而是采用了步幅為2的反卷積層(也稱為轉(zhuǎn)置卷積),這樣不需要與編碼層共享最大池化時(shí)的位置索引信息,從而降低內(nèi)存和計(jì)算成本,這種做法并沒有降低準(zhǔn)確度。
2.2 結(jié)合語義邊界檢測(cè)的語義分割模型訓(xùn)練方法
為了訓(xùn)練引入語義邊界檢測(cè)子網(wǎng)絡(luò)的語義分割模型,本文首先將該模型的兩個(gè)任務(wù)定義如下:
給定圖像X,指定輸入圖像X中每個(gè)像素點(diǎn)X(i, j)的語義目標(biāo)類別的標(biāo)簽,將該結(jié)果記為語義分割結(jié)果Yseg,同時(shí)檢測(cè)出輸入圖像X中的每個(gè)物體的語義邊界,將該結(jié)果記為語義邊界Yedge。
通過圖2可以看到,本文所構(gòu)建的網(wǎng)絡(luò)是通過網(wǎng)絡(luò)中特征共享層將語義邊界檢測(cè)子網(wǎng)絡(luò)學(xué)習(xí)到的物體邊界信息傳遞給語義分割網(wǎng)絡(luò),因此語義邊界檢測(cè)任務(wù)的目的是為了促使語義分割網(wǎng)絡(luò)模型學(xué)習(xí)語義邊界信息。
為了完成多任務(wù)的需求,本文定義了新的目標(biāo)代價(jià)函數(shù),通過調(diào)配語義邊界檢測(cè)子網(wǎng)絡(luò)與語義分割網(wǎng)絡(luò)的目標(biāo)代價(jià)函數(shù)的比重,以其獲得更好的語義分割效果,其目標(biāo)代價(jià)函數(shù)為
min(Lseg+λLedge)(1)
而Lseg和Ledge分別為語義分割網(wǎng)絡(luò)和語義邊界檢測(cè)子網(wǎng)絡(luò)的目標(biāo)代價(jià)函數(shù),λ為控制語義分割和語義邊界檢測(cè)網(wǎng)絡(luò)的目標(biāo)函數(shù)的比例系數(shù)。語義分割網(wǎng)絡(luò)的目標(biāo)代價(jià)函數(shù)采用常用的交叉熵?fù)p失函數(shù),其表達(dá)式如下:
Lseg=-1n∑Yseg lg Y^seg(2)
其中:Y^seg為語義分割網(wǎng)絡(luò)的輸出,Yseg為語義分割標(biāo)簽,n為圖像的總像素點(diǎn)數(shù)量。
而語義邊界檢測(cè)子網(wǎng)絡(luò)和語義分割原理是相同的,是一個(gè)對(duì)像素點(diǎn)進(jìn)行是否為邊界的二分類問題,因此目標(biāo)代價(jià)函數(shù)同樣采用交叉熵,其表達(dá)式如下:
Ledge=-1n∑Yedge lg Y^edge(3)
其中:Y^edge為語義邊界檢測(cè)子網(wǎng)絡(luò)的輸出,為Yedge語義邊界檢測(cè)標(biāo)簽,n為圖像的總像素點(diǎn)數(shù)量。
3 實(shí)驗(yàn)及分析
3.1 實(shí)驗(yàn)方法
在道路環(huán)境語義分割數(shù)據(jù)庫(kù)Cityscapes上對(duì)本文提出的方法進(jìn)行一系列實(shí)驗(yàn)。Cityscapes是最近在無人駕駛環(huán)境的語義分割領(lǐng)域中廣泛使用的一個(gè)數(shù)據(jù)庫(kù)。它包含了50個(gè)城市不同場(chǎng)景、不同背景、不同季節(jié)的街景,提供5000張精細(xì)標(biāo)注的圖像、20000張粗略標(biāo)注的圖像、35類標(biāo)注物體。在實(shí)驗(yàn)過程中,只使用了5000張精細(xì)標(biāo)注圖像,將其劃分為訓(xùn)練集
2975張、驗(yàn)證集500張和測(cè)試集1525張,選擇了常用的19類物體進(jìn)行分類。為了實(shí)驗(yàn)方便,將原有圖像的分辨率由2048×1024改為512×256。
整個(gè)實(shí)驗(yàn)是基于tensorflow框架的,在模型的訓(xùn)練過程中,使用Adam優(yōu)化算法來獲得最快的收斂速度。初始學(xué)習(xí)率設(shè)置為10-3,然后每迭代1000次,降低為原有的1/10。將樣本塊的大小設(shè)置為5,momentum設(shè)置為0.9,權(quán)重衰減系數(shù)設(shè)置為5×10-4,最大迭代次數(shù)設(shè)置為105。
在網(wǎng)絡(luò)訓(xùn)練時(shí),運(yùn)用遷移學(xué)習(xí)的方法,將在圖像分類數(shù)據(jù)集上訓(xùn)練的性能良好的VGG19模型學(xué)習(xí)到的特征遷移到結(jié)合邊界信息的語義分割模型中去,獲得了較快的收斂速度和較好的分割效果。整個(gè)網(wǎng)絡(luò)結(jié)構(gòu)中,特征共享層的初始參數(shù)使用已訓(xùn)練的VGG19對(duì)應(yīng)各層參數(shù),其他參數(shù)則為隨機(jī)初始化的參數(shù)。
由于模型要在同一個(gè)深度神經(jīng)網(wǎng)絡(luò)中同時(shí)進(jìn)行語義邊界檢測(cè)和語義分割兩個(gè)任務(wù),通過實(shí)驗(yàn),本方法首先驗(yàn)證了同時(shí)進(jìn)行兩種任務(wù)的可行性,通過兩個(gè)任務(wù)的收斂過程,如圖3所示,兩個(gè)任務(wù)都能很好地收斂,說明語義邊界檢測(cè)可以共用語義分割模型的編碼層,并不會(huì)對(duì)語義分割造成干擾,兩個(gè)任務(wù)可以同時(shí)訓(xùn)練。接下來,在現(xiàn)有的數(shù)據(jù)集上,調(diào)整兩個(gè)任務(wù)的目標(biāo)函數(shù)的比例系數(shù)λ,通過全局目標(biāo)函數(shù)的收斂速度和最終的語義分割效果,確定最佳比例系數(shù)λ=50。在后續(xù)的實(shí)驗(yàn)結(jié)果部分,將看到語義邊界檢測(cè)子網(wǎng)絡(luò)的加入可以有效改善物體邊界不清晰問題、提升語義分割精度。
3.2 語義邊界檢測(cè)子網(wǎng)絡(luò)的結(jié)果及分析
在實(shí)驗(yàn)中,并不需要額外對(duì)物體的邊界進(jìn)行標(biāo)注,而是利用已有的語義分割標(biāo)簽,對(duì)其進(jìn)行語義邊界檢測(cè)后,生成語義邊界標(biāo)注。本文所設(shè)計(jì)的語義邊界檢測(cè)子網(wǎng)絡(luò)融合了模型中不同卷積層的特征,學(xué)習(xí)到從低層到物體層次的多尺度邊緣信息,為語義分割提供豐富準(zhǔn)確的物體邊界信息。圖4為語義邊界檢測(cè)子網(wǎng)絡(luò)的輸出結(jié)果,生成的物體邊界清晰準(zhǔn)確。由于本文所設(shè)計(jì)的語義邊界檢測(cè)子網(wǎng)絡(luò)融合了不同尺度的卷積核,因此可以獲得更豐富的特征,有效提升了語義邊界準(zhǔn)確率。
3.3 語義分割結(jié)果及分析
在訓(xùn)練數(shù)據(jù)集上,利用全局目標(biāo)函數(shù)對(duì)模型進(jìn)行訓(xùn)練,并在驗(yàn)證集和測(cè)試集上進(jìn)行測(cè)試。語義分割評(píng)價(jià)方法采用通常使用的交并比方法:
IOU=TPTP+FP+FN(4)
其中:TP、FP和FN分別代表真正、假正和假負(fù)的像素點(diǎn)的個(gè)數(shù)。在Cityscapes數(shù)據(jù)集對(duì)無人駕駛道路環(huán)境更為重要的19類目標(biāo)分別計(jì)算出各類的交并比數(shù)值。
為了驗(yàn)證加入語義邊界檢測(cè)子網(wǎng)絡(luò)對(duì)語義分割精度的提升,本研究分別構(gòu)建了兩個(gè)網(wǎng)絡(luò)Seg_edge和Seg_noedge,分別對(duì)應(yīng)加入語義邊界檢測(cè)子網(wǎng)絡(luò)和不加語義邊界檢測(cè)子網(wǎng)絡(luò)的語義分割模型。兩個(gè)模型的參數(shù)設(shè)置完全相同,訓(xùn)練方法完全一樣。通過圖5的語義分割結(jié)果可見,Seg_edge網(wǎng)絡(luò)檢出的道路、汽車、人行道等類別的邊界更為精準(zhǔn),分割精度更高。例1中,由于光照不均勻,Seg_noedge網(wǎng)絡(luò)檢出的道路區(qū)域邊界不清晰,而Seg_edge能準(zhǔn)確找到道路的邊界,有效區(qū)分道路和人行道區(qū)域。例2中Seg_noedge所分割的人行道區(qū)域不連續(xù)、汽車區(qū)域不連續(xù)、存在部分區(qū)域錯(cuò)分現(xiàn)象,而Seg_edge分割的人行道區(qū)域連續(xù),邊界清晰準(zhǔn)確,在該圖中的兩輛汽車也能被精準(zhǔn)地分割。例3中Seg_edge則成功區(qū)分了汽車和卡車,將原本錯(cuò)誤分割在一起的汽車和卡車區(qū)分開來,有效改善分類中可能出現(xiàn)的錯(cuò)分現(xiàn)象。例4中Seg_edge檢測(cè)小目標(biāo)的能力有所提升,比如對(duì)圖中的行人分割得比較準(zhǔn)確。這些例子充分說明了語義邊界檢測(cè)子網(wǎng)絡(luò)的引入,有效改善了物體邊界不清晰、分割不連續(xù)、小目標(biāo)漏分錯(cuò)分、分割精度不高等問題,有效地提升了語義分割的精度。
同時(shí),將本文的方法Seg_edge與現(xiàn)有的語義分割方法SegNet[13]、ENet[9](最近新提出的應(yīng)用于道路環(huán)境語義分割方法)進(jìn)行比對(duì),表1為各種方法在Cityscapes數(shù)據(jù)集上19類的準(zhǔn)確率。
其中平均準(zhǔn)確率為表中19類目標(biāo)準(zhǔn)確率的平均值,而Cityscapes數(shù)據(jù)集同時(shí)將19類目標(biāo)分為7大類,分別為平地、自然、物體、天空、建筑物、人和車輛,平均類準(zhǔn)確率是基于此分類準(zhǔn)則給出的。
由表1可知,本文提出的方法在所有類都獲得高的準(zhǔn)確率,在道路、天空、車輛等常見類別中,準(zhǔn)確率都超過了90%,相比其他方法,在行人、人行道、自行車、卡車、公交車等類別準(zhǔn)確率都得到了提高。本文提出的方法在平均準(zhǔn)確率上相比已有的語義分割網(wǎng)絡(luò)SegNet提升了2.9%,相比ENet提升了1.3%。圖6給出了以上各種方法的語義分割結(jié)果,證明了本文提出的方法在Cityscapes數(shù)據(jù)集上所有類上都取得很好的分割結(jié)果。SegNet和ENet方法在道路、人行道、車輛等類別可能出現(xiàn)分割不均勻、不連續(xù)、邊界不準(zhǔn)確等現(xiàn)象,本文的方法有力改善此類問題,道路和人行道的邊界清晰準(zhǔn)確。而針對(duì)小目標(biāo)(行人、交通標(biāo)志、路燈和信號(hào)燈)可能存在的漏檢或不準(zhǔn)確問題,本文的方法也有所改善。這充分說明了語義邊界檢測(cè)子網(wǎng)絡(luò)能促使網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)物體邊界信息,本文提出的方法在復(fù)雜道路場(chǎng)景下能獲取準(zhǔn)確的物體邊界,提升語義分割精度。但是,針對(duì)分類中樣本較少的類別如火車、樹木等,分割精度有待提高,主要原因是缺乏有效的訓(xùn)練樣本。
4 結(jié)語
本文針對(duì)深度學(xué)習(xí)語義分割中由于卷積、池化及反卷積的作用所帶來的分割邊界模糊或不連續(xù)、小目標(biāo)漏分錯(cuò)分等現(xiàn)象提出了結(jié)合物體邊界信息的語義分割方法,并在道路環(huán)境數(shù)據(jù)集Cityscapes上驗(yàn)證了方法的有效性。在同一深度神經(jīng)網(wǎng)絡(luò)框架下,完成了語義邊界檢測(cè)和語義分割兩個(gè)任務(wù),利用網(wǎng)絡(luò)特征共享層,將語義邊界檢測(cè)子網(wǎng)絡(luò)學(xué)習(xí)到的物體邊界信息傳遞到語義分割網(wǎng)絡(luò),有效改善了語義分割中出現(xiàn)的邊界模糊、分割不連續(xù)、小目標(biāo)漏分錯(cuò)分、分割精度不高等問題,提高了語義分割的準(zhǔn)確率。
參考文獻(xiàn)
[1]ALVAREZ J M, GEVERS T, LeCUN Y, et al. Road scene segmentation from a single image [C]// ECCV ‘12: Proceedings of the 12th European Conference on Computer Vision, LNCS 7578. Berlin: Springer, 2012: 376-389.
[2]BRUST C, SICKERT S,SIMON M, et al. Convolutional patch networks with spatial prior for road detection and urban scene understanding [C]// VISAPP 2015:10th International Conference on Computer Vision Theory and Applications. Berlin : SciTePress.2015:510-517.
BRUST C, SICKERT S,SIMON M, et al. Convolutional patch networks with spatial prior for road detection and urban scene understanding [EB/OL]. [2019-01-21]. https://arxiv.org/pdf/1502.06344.pdf.
[3]HARIHARAN B, ARBELEZ P, GIRSHICK R, et al. Simultaneous detection and segmentation [C]// Proceedings of the 13th European Conference on Computer Vision, LNCS 8695. Berlin: Springer, 2014: 297-312.
[4]高凱珺,孫韶媛,姚廣順.基于深度學(xué)習(xí)的無人車夜視圖像語義分割[J].應(yīng)用光學(xué),2017,38(3):421-428.(GAO K J, SUN S Y, YAO G S. Semantic segmentation of night vision images for unmanned? vehicles based on deep learning [J]. Journal of Applied Optics, 2017, 38(3): 421-428.)
[5]吳宗勝,傅衛(wèi)平,韓改寧.基于深度卷積神經(jīng)網(wǎng)絡(luò)的道路場(chǎng)景理解[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(22):8-15.(WU Z S, FU W P, HAN G N. Road scene understanding based on deep convolutional neural network [J]. Computer Engineering and Applications, 2017, 53(22):8-15.)
[6]張軍陽,王慧麗,郭陽,等.深度學(xué)習(xí)相關(guān)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2018,35(7):1921-1928.(ZHANG J Y, WANG H L, GUO Y, et al. Review of deep learning [J]. Application Research of Computers, 2018,35(7): 1921-1928.)
[7]YE L, LIU Z, WANG Y. Learning semantic segmentation with diverse supervision [C]// Proceedings of the 2018 IEEE Winter Conference on Applications of Computer Vision. Washington, DC: IEEE Computer Society, 2018: 1461-1469.
[8]CHEN Y, ROHRBACH M, YAN Z, et al. Graph-based global reasoning networks [EB/OL]. [2018-12-10]. https://arxiv.org/pdf/1811.12814v1.pdf.
[9]PASZKE ADAM, CHAURASIA A, KIM S, et al. ENet: a deep neural network architecture for real-time semantic segmentation [EB/OL]. [2018-12-10]. https://arxiv.org/pdf/1606.02147.pdf.
[10]ROMERA E, LVAREZ J M, BERGASA L M, et al. ERFNet: efficient residual factorized convnet for real-time semantic segmentation [J]. IEEE Transactions on Intelligent Transportation Systems, 2018, 19(1): 263-272.
[11]CORDTS M, OMRAN M, RAMOS S, et al. The cityscapes dataset for semantic urban scene understanding [C]// Proceedings of the 29th IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 3213-3223.
[12]LONG J, SHELHAMER E, DARRELL T. Fully convolutional networks for semantic segmentation [C]// Proceedings of the 2015 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2015: 3431-3440 .
[13]BADRINARAYANAN V, KENDALL A, CIPOLLA R. SegNet: a deep convolutional encoder-decoder architecture for image segmentation [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(12): 2481-2495.
[14]CHEN L, PAPANDREOU G, KOKKINOS I, et al. Semantic image segmentation with deep convolutional nets and fully connected CRFs [EB/OL]. [2018-05-10]. https://arxiv.org/pdf/1412.7062.pdf.
[15]CHEN L, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.
[16]MARMANIS D, SCHINDLER K, WEGNER J D, et al. Classification with an edge: improving semantic image segmentation with boundary detection [J]. ISPRS Journal of Photogrammetry and Remote Sensing, 2018, 135: 158-172.
[17]HUANG Q, XIA C, ZHENG W, et al. Object boundary guided semantic segmentation [C]// Proceedings of the 13th Asian Conference on Computer Vision, LNCS 10111. Berlin: Springer, 2016: 197-212.
[18]BERTASIUS GEDAS, SHI J, TORRESANI L. Semantic segmentation with boundary neural fields [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 3602-3610.
[19]LIU Y, CHENG M, HU X, et al. Richer convolutional features for edge detection [C]// Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2017: 5872-5881.
[20]YANG J, PRICE B, COHEN S, et al. Object contour detection with a fully convolutional encoder-decoder network [C]// Proceedings of the 2016 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2016: 193-202.
This work is partially supported by the National Key Research and Development Program of China (2016YFC0802904), the National Natural Science Foundation of China (61472444, 61671470), the Natural Science Foundation of Jiangsu Province (BK20161470).
SONG Xiaona, born in 1982, Ph. D. candidate, lecturer. Her research interests include image processing, pattern recognition, deep learning.
RUI Ting, born in 1972, Ph. D., professor. His research interests include artificial intelligence, pattern recognition.
WANG Xinqing, born in 1963, Ph. D., professor. His research interests include signal processing, intelligence algorithms, unmanned intelligent vehicles.